如何制作球员数据库?
题主是想自己做还是用什么工具去做? 做足球数据库,我做过一些,也遇到各种各样的难题,积累了一些经验,分享一下。 首先,你需要确认几个问题:数据用来干什么的?怎么收集数据?什么算是完善的数据?等等
1、数据用来干什么的? 我做过最详细的球员数据,是用来做联赛球队阵型的,详细到每个球员在每个场上的位置,以及每个位置上的强度(这里强度并不是实际强度值,而是根据传球、防守、进攻等关键词被定义的数值)。后来因为需要,又加上了球员个体特征,比如身高、体重、年龄、位置特征(偏防守/进攻)、体能等等。最后变成了一个30多层的结构化数据,每一层都是一个数据表。 这样的数据看起来十分完美,但是问题是,这样完备的数据对于比赛分析来说没有任何意义。就像数学里把圆方程写成(x-a)^2+(y-b)^2=r^2之后,这个方程就代表无数的可能的圆,其实数学家们想要的只是其中特别简单的一类圆圈而已。同样,我对球员数据进行了大量的冗余处理,使得这些数据看似很完备,但其实毫无用处——不同的球迷对于同一场比赛的分析重点是不一样的,有些关键数值我喜欢用平均值代替个人最大值或者最小值,某些数值我根本就不会录入,因为这些数值无法得到我想要的关键信息。如果你想要得到的信息是我想要的,那我们的数据库就能发挥作用了;如果信息是你想得到的,而我偏偏不录,或者他没你想象的那么高,又或者我只录了他的一半,那么不管我们数据多么完备,对我们分析问题的过程也没多大帮助。 所以,第一步要做的是,明确你要分析哪些指标,记录这些指标所需要采集的数据来源在哪。
2、怎么收集数据? 如果你的目标是建立一个包含数百万球员数据的库,那么这个任务看上去似乎是无法完成的。但我做的几次尝试都表明,只要你耐心细致,并且采取适当的方法,没有你做不到的事情(笑)。我的经验是,先搜集容易搜集的数据,那些需要你花力气挖掘的“宝藏”可以留着后期慢慢整理。
以我做过的几次工作为例,首先是欧冠参赛球队(包括替补)的名单,这个很容易通过百度找到。接着是各国家队大名单,这个稍微麻烦,需要到各个国家队的官网去查找。然后是从各大论坛、博客等地方搜集分赛区球队的阵容列表,最后是寻找各种历史转会资料,并把他们转化成一个表格。
也许你需要花费一整天的时间去寻找某个俱乐部在某年的某场比赛的视频,但你却可能因此发现一个神奇的网站,上面有丰富的足球资源,你从此不用再愁找不到视频了。
3、什么算是完善的数据? 这个见仁见智,我没办法给你一个确切的答案。不过我可以给你推荐一篇文章。 文章链接: 你只需看文章的前面部分就可以了,这篇文章的作者是一名程序员,他对程序和数据有一个清晰的认识,他提出的这些问题能够对你有所启发。