李巴乔|通过大数据模型分析引援契合度,数说足球:以拜仁为例( 二 )


聚类分析是统计学所研究的“物以类聚”问题的一种方法 , 能够将一批样本数据(或变量)按照它们在性质上的亲疏程度在没有先验知识的情况下自动进行分类 。 根据分类对象的不同 , 聚类分析分为R型和Q型两种.R型聚类分析用于指标聚类 , Q型聚类分析中度量数据之间的亲疏程度没有给定分类的标准 , 也没有给出所有数据分成几类 , 而要求比较客观地从数据自身出发进行分类.类与类之间的亲疏程度度量方法有最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平方和法等 。
本文首先采用因子分析对19个球员的素质进行分析 , 可以获得19个球员素质各因子和综合因子得分与排名 。 尽管从因子分析结果可以反映19名球员的素质排名的先后顺序 , 但未能对其进行层次划分 。 因此 , 本文通过Q型聚类进行分析进一步得到层次分类 , 在因子分析和聚类分析的基础上 , 集成分析出球员素质结果 。
因子分析过程
李巴乔|通过大数据模型分析引援契合度,数说足球:以拜仁为例
文章图片
下面 , 我们以拜仁为例 , 结合拜仁本赛的综合数据 , 参考的球员对象分别为拜仁《转会市场》绯闻对象:阿伦-希基、贝莱林、布罗佐维奇、卡马文加、扎哈、乔尔吉尼奥·鲁特、德斯特、阿隆斯(特别提醒:拜仁已经宣布不会买断佩里西奇) , 加上今夏深陷转会市场已转会或仍未转会的参考球员:哈弗茨、范德贝克、托纳利、德佩、苏亚雷斯、维纳尔杜姆、乌帕梅卡诺、凯塔、希克、格鲁伊奇、马拉约尔、希克 。 参考对象不只局限于拜仁目标引进的边锋、中场、右边后卫 , 无传闻和已转会对象仅因数据提取作为参考 。
本文使用的是spss软件作为统计分析软件工具 , 调用spss中因子分析程序对14个指标的原始数据进行标准化处理 , 并得到各指标之间的相关系数矩阵R(表1:相关性矩阵) 。
李巴乔|通过大数据模型分析引援契合度,数说足球:以拜仁为例
文章图片
(相关性矩阵)
通过结合球队数据处理 , 得到相关系数矩阵P值均<0.05 , 表明指标间存在较强相关性 , 可用因子分析进行精简 , KMO值为0.686 , Bartlett球形检验显著水平<0.0001 , 表明样本个数充足 , 相关系数矩阵非单位阵 , 故可以实施因子分析 , 指标共同度表明 , 所有指标共同度均值>0.8 , 即表明公共因子的可解释性强 , 因子分析球员素质的数据适用性较好 , 累计贡献率如表2(因子贡献率) , 可见主成分得到的前4个因子为综合因子 , 提取了77.261%球员数据信息 , 因此提取前4个主因子 。
李巴乔|通过大数据模型分析引援契合度,数说足球:以拜仁为例
文章图片
(因子贡献率)
公共因子与原有变量指标之间的关联程度由因子载荷值体现 , 由于初始因子载荷矩阵结构不够简明 , 各个因子的含义不突出 。 为此采用方差最大法 , 使各个变量在某个因子上产生较高的载荷 , 而在其余因子上载荷较小 。 经过6次综合拜仁本赛季综合数据迭代收敛 , 得到旋转后因子载荷矩阵 , 如表3(旋转前后因子载荷矩阵) 。
李巴乔|通过大数据模型分析引援契合度,数说足球:以拜仁为例
文章图片
(旋转前后因子载荷矩阵)
表3中第一个公共因子F1在X5(助攻) , X8(传中) , X12(被侵犯) , X13(关键传球)这4个变量上的载荷值都比较大 , 上述指标是进攻型中场球员的核心指标 , 表示球员在进攻中的辅助水平 , 将其命名为进攻辅助因子 。 第一个公共因子对全部初始变量的方差贡献率为34.055% , 是符合拜仁战术进攻效果的重点考虑方面 。
第二个公共因子F2在X3(总进球) , X6(射门) , X10(越位)这3个变量上的载荷值比较大 , 上述指标是前锋球员的核心指标 , 表示球员在进攻中的能力 , 将其命名为进攻因子 。 第二个公共因子对全部初始变量的方差贡献率25.158% , 是符合弗里克对球员位置安排方面的重点考虑 。