李巴乔|通过大数据模型分析引援契合度，数说足球：以拜仁为例国

文章图片
国际足联将本赛季的夏季转会期延续到10月5日，可截止目前大多数欧洲豪门仍然没有太大的消息，虽然这是受今年全球疫情影响，但是在所有普通球迷心中，每个夏季的焦点永远都是球队的引援动态。为此，我们不妨采用因子与聚类分析相结合的方法对豪门俱乐部的有意球员进行排序和分类，分析结果显示各个球员差异明显，试图寻找各个球队最适合引援的球员。
欧冠作为世界足球最高水平的比赛，基本可以明显代表各个球员的能力与类型。因此，本文根据《转会市场》等欧洲权威足球网站数据，对豪门意向球员在欧战赛场及各自联赛的数据进行采集，结合对各队的综合数据分析，找到符合各队水平和特征球员。
特别强调：

文章图片
通过数据进行因子与聚类分析，找出各个球员的特征，确实便于更好的定位球员在球队中的位置，找到可以提高球队竞争力的球员。但是，数据建模只有有限的参考价值，因为球员的个人因素如：球员国籍，球员丑闻，球员个人目标定位（或期望值），球员伤病史及严重程度等等，这些都是没有参考数据的。但是，这些不可控因素，都会让球员的转会结果出现很大偏差，这也是建模最难的地方。虽然有参考价值，但是仍然会有很大的误差空间。因此，统计的结果会有相对宽泛的误差空间。
所以，本文以纯能力和综合数据为核心考量，球员转会身价及年薪这些成本因素不作年化成本计算，大家可以从自己的主观角度根据转会新闻对此进行判断。同样，本文也不会对球员及所处球队的竞训水平进行计算和参考，因为即便天赋再高的球员，长期和不在同一水平的球员一起训练，也会导致与期望值有巨大偏差。
这样的例子有很多， 90年代西班牙最初被誉为“金童”的球员并非劳尔，而是毕尔巴鄂以忠诚著称的格雷罗，但是坚决不离队最终的结果也使他无法更上一层楼，最终沦为众人。同样，当初被众多豪门抢购的特谢拉，初登中超的第一个赛季几乎是带着球队和恒大争冠的水平，最后也逐渐沦为普通中超球星。诸如此类还有很多，这些都属于题外话。
下面，本文开始言归正传，不喜勿喷。
球员评价模型

文章图片
1、指标体系的建立于数据来源
球场上反映球员素质的因素繁多且复杂，对其进行研究时，首先要构建其指标体系，建立其指标体系应遵守完备性，综合性，科学性，简洁性，动态性和可操作性原则。本文采用综合评价指标对拜仁转会市场的9名有意向球员中8名（不包含佩里西奇）、还有转会市场上球迷们普遍关注的14名球员们的素质进行分析，依据whoscored等七家权威网站的数据，选取了12个具体指标的球员素质评价体系，这些指标包括：X1(身高) ， X2(出场时间) ， X3(总进球) ， X4(黄牌) ， X5(助攻) ， X6(射门) ， X7(传球) ， X8(传中) ， X9(抢断) ， X10(越位) ， X11(犯规) ， X12(被侵犯) ， X13（关键传球）， X14（解围）。
2、球员素质评价集成模型
因子分析是通过对原始数据相关系数内部结构的研究，将多个指标转化为少量互相不相关且不可观测的随机变量（即因子），以提取原有指标的绝大部分的信息的统计方法。因子分析首先将原始数据标准化处理，建立相关系数矩阵并计算其特征值和特征向量，接着从中选择特征值大于等于1的特征值个数为公共因子数，或者根据特征值累计贡献率大于80%来确定公共因子，求得正交或斜交因子载荷矩阵，最后计算公因子得分和综合得分。