足球大数据:统计与分析之间究竟相隔多远?
编辑说明:与众多体育项目相比,足球领域的资料整理和深度研究起步较晚,加之赛事本身的独有属性,可供借鉴的实践经验相当有限。但是在大数据时代背景下,这一状况正逐步改善,我们当前的任务不仅在于积累相关素材,更在于提升分析能力,从而为该项运动提供有力支撑。已经注意到,众多探索者正逐步进入足球数据研究行业,并且取得了显著成效,但同仁们仍需坚持不懈地奋斗。
棒球研究界存在一种观点,主张若缺乏众多技术性数据,棒球运动将能更佳发展。该观点提出理由,称当前统计的资料未必是真正决定比赛胜负的关键信息,仅是统计起来最方便的部分。无论你是否认同此看法,它确实切中了棒球数据研究的要害,持续引发人们的讨论。
这无关乎你是否信任这些信息,关键在于更新的资料能否真正替代过去的统计信息。就连只是偶尔关注棒球比赛以消遣的人,也更倾向于沿用以往的统计方式,部分原因在于这些数据在棒球领域已经沿用很长时间了,实际上,人们总是对熟悉的统计资料更加适应,而对于接纳新的分析数据则表现得比较保守。
足球领域原先极少存在相关数据记录,这种依赖连贯性的竞技项目,若要精确统计传球等细节,往往需要借助现代技术手段。直到最近十年,人们才开始有计划地整理比赛中的各类统计信息,这主要是因为当前社会普遍重视数据收集与分析,并且能从中发掘出实际价值。一些专门从事数据统计与分析的企业已经出现,比如OPTA,它们的主要收入来源是将数据出售给俱乐部或媒体机构,例如ESPN和SKY等媒体的数据分析内容,实际上是由OPTA提供支持的。
OPTA 员工在采集比赛数据
以往在棒球以及某些依靠数据支撑的体育项目中,人们致力于发掘更优越的评估方法,如今大家也热切期盼能在足球界创立一些新的统计标准,毕竟富有洞见的衡量工具必然源于数据挖掘。但这并非易事,毕竟当前足球圈的数据公司所从事的资料汇集工作,其实早在一个世纪前的棒球界就已经完成了。
如今,足球领域积累了海量的统计信息,接下来的关键是如何更有效地运用这些信息。与棒球等一些数据统计历史悠久的主流运动不同,那些领域的数据分析只是最近才逐渐受到关注。足球界目前比较特殊的情况是,数据的统计和分析工作几乎同时进行。
数据统计
我们重新审视最初那个议题,假如缺乏技术方面的数据记录,棒球运动能否获得更佳的进步?这一议题对于足球领域的资料收集工作具有核心的意义。
近些年出现了不少网站,比如和’s Stats Zone,这些网站都由OPTA提供数据支持,它们把比赛中的统计信息更清晰地呈现给球迷。这些平台主要分享个人与团队的竞赛数据,这让人联想到棒球领域的技术统计资料,它们呈现的信息能够让人了解某个选手在单场比赛或整个赛季中的各项表现,同时借助热力图和传球轨迹图等视觉方式,可以更直观地展示这些数据。
的Stats Zone 软件中的球员数据界面
他们并未就如何运用这些信息进行赛场研判给出更多说明。某某后卫每场抢断次数多,这对球队有实际意义吗?某某射手得分能力弱,是否真的表明他只是胡射,今后需加强助攻?又或者仅仅是因为他时运不济?传球精准度达95%的防守队员,是否比传球成功率仅78%的边路球员更适合作为下底传中的发起者?
我们掌握了这些资料,但是无法应对这些挑战,因为我们不明白究竟哪些资料对赛事研判具有关键作用。
这种情景让人联想到棒球领域数据革新的初期:如果搞不懂这些数字具体有何价值,又何必提及这些统计信息呢?这就好比我不解为何在棒球转播五十多年的时间里,总要反复强调RBI(打点)这类没什么实际意义的数据!
毫无疑问,依据数据针对个别球员或队伍的卓越表现进行无从证实的猜想是极为不妥的,但这并不代表这些数据完全无法应用。
若不采用这些统计资料,便等同于不利用它们来呈现赛事情况,也不关注队伍与个人球员的发挥情况。虽然棒球的常规统计方法难以对后续比赛进行有效评估和预判,却对记录过往事件具有相当价值。若要避开所有统计信息,尝试描述巴尔的摩金莺队近期一周的竞技状态,或者阐述他们究竟有多出色。
原有数据难以说明球员与球队的优劣表现及其后续走向;不过,借助这些数据来展现球员和球队的发挥却十分清晰明了。
过去十年,或许无人知晓哈维每场赛事具体送出多少传球,其成功率究竟如何。缺少这些数据,多数观众难以全面认识哈维的卓越之处,也无法判断他何时竞技状态开始走下坡路。同理,当欣赏洋基队球星德雷克杰特的比赛时,人们只能感叹:"三年前,他的击球表现十分出色,而今年这一项指标出现了明显衰退。"
最基础的统计资料能让我们明白比赛中的具体情况,没有这一环节的积累,我们就很难说明这些现象为何出现,或者接下来可能发生什么,这些作为数据研究基础的初始统计信息在美国体育界非常普遍,但在足球界却是个全新的事物。
数据分析
我们自然期待从这些基础性的统计资料中探寻出更多足球竞赛核心的内涵。尽管在此领域已投入诸多努力并取得部分成果,然而现状仍处于初步发展阶段。
总射门率是核心足球统计指标之一,这个比率最早由James从冰球界借鉴过来。该指标设立的基本目的非常明确:实力较强的队伍通常会有更多的射门动作,并且他们很少给对手创造射门条件。
这项统计数据的优势在于它具备很强的内部关联性,并且能够更准确地预估后续情况。实际研究证实,队伍以往的TSR数值能够有效预判其未来的TSR表现,而且它对未来比赛进球情况和胜负的预估能力,明显强于单纯依据队伍历史进球数和比赛结果所获得的效果。
赛季起始阶段,TSR能有效预判名次,尽管部分专家会忽略此数据,他们仅凭个人判断推测最终座次,其中有个笑谈,该指标指出曼联不可能位列三甲,而那些所谓的专家,实则是笔者自认为曼联有潜力进入前三,最终结果只能等赛季收尾时揭晓了,~实际操盘球队时,TSR的参考价值就大打折扣了。
在冰球竞赛里,队伍组合能够随时变换,并且攻门次数众多,因此可以深入探究哪些选手在场期间队伍发挥最为出色。相比之下,足球竞赛中换人名额仅三次,射门次数也非常稀少,导致TSR对选手个人的评判效果不大(至少现阶段还没有显著成效)。
当前,预测射门概率( ExG)成为一项新兴的评估标准。通过比较预测效果,发现ExG与预期射门转化率( TSR)的表现同样出色,并且进行了相关理论探讨。ExG的独特优势在于,它不仅能够评估球队的整体表现,还能衡量单个球员的贡献情况。换言之,依据球员的全部得分,并且参照他们的尝试次数,能够推算出他们今后的得分表现。
分析射门数据的方法,跟棒球领域里把场内安打率从平均打击率中独立出来的做法很相似,这种独立分析得出的结论表明,球员很难长期保持远超或远低于其自身ExG水平的射门表现,就像棒球选手很难持续拥有特别高或特别低的场内安打率一样,但必须再次强调,目前这些分析工作还只是足球数据研究的初步探索阶段。
调和数据统计与分析
观察到一个现象是当前众多研究都聚焦于射门方面,但这并非全然准确。例如Caley 提出的ExG 模型,它将促成射门的传球种类纳入考量范围。 的Ted 设计了一个名为球员雷达的装置,该装置通过整合诸如参与比赛时长、己方半场控球比例等要素,能够更加周全且精准地刻画球员的表现数据
确实值得留意的是,如何将这些信息整合起来,进而构成团队的整体数据,是个颇为棘手的事情。不过当前阶段,数据分析任务尚未包含将现有的统计资料以矩阵方式合并进行考察。
此事产生缘由颇多,其一在于当前公共部门的研究者仅将少许精力用于探究这些资料。再者,即便希望开展深入分析,现有的统计资料或许仅涵盖五到十年的时段,这与棒球领域拥有近百年的丰富数据形成鲜明对比,因而难以获得更为精确的判断。
足球界许多关键信息我们或许尚未获取,一些统计资料仅能说明情况却缺乏研究意义。核心在于如何筛选出真正具备分析价值的信息。
归根结底,我们依靠数据来支持研究,而研究的宗旨在于解决足球界各类疑问。不过,借鉴棒球界的情况可知,数据运用既能指引我们发掘有意义的发现,也可能导致我们偏离正轨得出错误判断。
足球界的量化资料非常匮乏,几乎每项衡量标准都要整合,但足球统计方面比棒球滞后一世纪,并不代表这项运动无法形成专属的评估体系,而且足球领域存在明显长处,棒球运动里那些依托统计的推论,在流行百年后才遭遇数据研究的挑战,而足球这边,数据记录与分析始终同步发展。