大水货数据本身并不是足球的全部足球是一项复杂的运动
发布时间:2024年03月19日 17:26
若日尼奥在萨里的体系中扮演着重要的角色,但他被切尔西球迷视为水货。
数据本身并不是足球的一切
足球是一项复杂的运动。 多年来,人们普遍认为足球运动太复杂,不能简单地用无聊、乏味、毫无生气的数字来描述。 近年来,这种说法有所减弱,人们开始讨论更高级别的统计数据,例如比赛日的预期进球 (xG)。 利物浦近期的出色表现也可以部分归功于他们招募的顶尖数据分析人才。
当然,先进数据的出现并没有改变足球本身。 它仍然是一项复杂的运动。 到目前为止,数据本身仍然只是用来表达观点或作为证据出现,因为它比描述性语言更简洁、中肯。 这也是数据分析本身在足球(和其他项目)中广泛应用的根本原因,因为没有任何媒介能够比它更客观,并且可以支持(或证伪)某种情况,而无需根据球员或球队而改变。 看法。
对于足球来说,如果比赛集锦能够更容易被泄露,转播商的版权限制也不再那么严格,那么足球数据分析或许会有新的进展。
数据本身可能是普通球迷客观分析和评估比赛的最佳工具,但这并不意味着我们应该毫无疑问地奉行它。
首先,足球场上总有一些领域是无法单纯用数据本身来衡量的。 例如:英超联赛中谁的第一次触球最好? 当然,分析师可以根据这个概念创建类似的指标,例如接到队友传球时的球失误比。 根据fbref的数据,我计算出阿斯顿维拉后卫比约恩(球失误比为0)的统计数据最低,而利物浦的范戴克(球失误比为0.1%)紧随其后。 你能说恩格斯的能力是英超最强的吗? 显然你看完比赛后不会这么想。
该统计数据的问题在于,它没有考虑传球的类型,也没有考虑球员接球的情况。 伯恩茅斯的卡勒姆·威尔逊( )的“控球失误率”高达16%,是英超联赛中最高的。 但他在接球时明显受到了比恩格斯更大的压力,而且他的接球位置也更靠近对方禁区。
玩家的停止位置也必须考虑在内。 在某些情况下,控球难度接近于零。 相比之下,在某些情况下,队友的传球会让球员很难处理。 传球的高度是“大腿或膝盖”,他们想要停球并不容易——而在数据中,所谓控球失误的结果只分为“是”和“否” 。 因此,即使考虑到传球类型或情况,数据本身仍然不够准确,无法找出谁的触球手感最好。 有些讨论更多的是各方意见的交换。 像这个例子一样,仅凭数据很难得出准确的结论。
还需要指出的是,虽然我们认为一些公司收集的数据是“客观依据”,但事实上(目前)很多数据是由人类手动收集的。 所以,这里面是有问题的。 既然是人工采集,自然就会存在偏差,同时也会带入记录者的非理性因素,有时记录者也会出错。 这将损害数据本身的客观性。 因此,目前的足球数据总会存在一些误差。 无论足球分析系统多么先进,源数据本身的问题都会导致数据本身的失真。
数据问题不仅是人为错误,某些概念定义的差异也会导致数据收集过程中的错误。 无论是Opta还是其他公司,他们在收集相关数据时,都要根据公司对某个事件的定义进行分类。 什么是通行证? 什么是直接pass()? 什么是接手? 块和保存有什么区别? 这些概念的分类并不是黑白分明的,存在很大的歧义空间。
如果有人有兴趣深入研究数据分析早期(足球或其他体育运动)的定义,他们会发现这些决策存在一定程度的主观性。 数据本身永远不可能完全公正,其固有的主观性(无论有意还是无意)是数据收集过程中不可避免的一部分。
当然,这并不意味着数据本身不可信。 请注意,数据收集本质上是困难的,而数据收集过程中固有的主观性意味着关于数据的讨论永远不可能完全客观。
有些球员“数据不佳”但表现良好
有时候,一个球员的数据非常糟糕,这会直接导致外界对他的评价产生偏见。 这是因为人们误读了数据本身。
以西汉姆联队的塞巴斯蒂安·哈勒( )为例。 他本赛季的空中争顶失败次数位列英超第二(187次),但他的空中争顶成功次数却是英超联赛中最多的(186次)。 从不同角度来看这个数据,自然会分为两个阵营。 一方认为他在巅峰之战中的表现非常出色,另一方则持有相反的意见。 对这个数据最准确的解读是,哈勒参加过多次空中对决。 按照英超前锋的标准,他的空中对决成功率是非常高的(按照评价标准,这次空中对决成功率可以达到82分,满分99分)。 .可以视为FIFA使用真实比赛数据对球员进行的评分)。
此外,球员“数据不佳”的部分原因是用于衡量表现的数据没有考虑到他们在场上的职责和角色。 若日尼奥上赛季在毛里齐奥·萨里的带领下很少为切尔西提供助攻。 造成这种情况的原因有很多,但很少有人指出助攻不是若日尼奥的责任。
作为一名后撤的进攻组织者,若日尼奥更重要的是连接球队的防守和进攻,控制比赛节奏,并将球输送给负责创造进攻机会的球员。 他非常擅长他所做的事情——他真的很擅长他所做的事情。 上赛季,若日尼奥的进球数超过英超联赛中任何其他球员。
根据Opta的预期助攻模型,若日尼奥也有很多不错的传球,平均下来他应该有5次助攻。 事实上,场上的表现固然有运气的成分,但评价一个球员的表现应该根据他在场上的职责来评价。
本赛季场上表现最不被数据反映的球员可能是谢菲尔德联队的大卫·麦戈德里克。
是的,他本赛季的预期进球数是6.2球,但实际上他本赛季一球未进。 如果单看他的得分能力,他早就该被踢出局了。 麦戈德里克之所以能在克里斯·怀尔德的球队中找到自己的位置,是因为他持续的无球战斗能力——联盟中没有前锋比他的防守能力更强——所以他是谢菲尔德联队中非常重要的一员。
数据不是一切
在一场足球比赛中进行数据分析,就像在 90 分钟内理解场上 22 个人的复杂内涵一样。
在足球比赛中,你最常遇到的事情就是类似球迷在场边喊叫。 它们清楚地告诉您场上的情况(传球、传球、解围、球回收、传球、射门、进球)。 !)但是很少有统计数据能够反映场上其他 21 名不控球的球员的价值(如果他们在争球,则为 20 名)。
因此,如果我们关注球发生时发生的事情,我们就会错过足球场上发生的很多其他事情。 想象一下球员无球跑动以插入对手防守区域的空隙。 防守型中场阻断对手将球传给前锋的通道,并具有其他功能。 在目前的数据收集水平上,数据并不能完全反映现场的一切。
当前足球统计数据的最大缺陷之一是无法正确衡量比赛防守端的价值。 防守动作(抢断、拦截、抢回球等)的次数并不是衡量一名后卫素质的有效指标。 它不仅告诉我们防守球员的积极程度,也反映了后卫和球队的防守风格。
正如我在《足球统计十诫》中所写,这些数字也经常受到球队控球权的影响。 拥有更多控球权的球队防守的时间更少。
阿斯顿维拉的蒂龙·明斯每1000回合面对对手只有1次铲断,这是英超所有中后卫中最低的。 这个数字并不代表他的防守能力差,只是说明他夺回球权的积极性不高。 我们考虑到了他的位置,事实上,本赛季他是英超所有后卫中阻挡对手射门最多的球员。 维拉主教练迪恩·史密斯更喜欢利用自己的位置作为门前的盾牌,而不是离开防守区域重新夺回球权。
可能没有数据能反映一名防守者的真实水平,但这些初步的防守统计数据仍然非常有用。 考察防守球员最好的方法就是以这些数据为指导,结合具体场景下的实际表现来考察防守球员的表现。 或许防守球员并不需要在每次对手传入禁区时都采取行动,但有经验的人很快就能看出一个好的防守球员应该如何表现。 数据可以帮助球探教练更快地判断防守球员在不同情况下的表现,从而对防守球员的素质做出更准确的主观判断。
目前,有一些关于防守球员送礼失误(包括给对手射门或进球机会)的主观数据。 除了门将之外,本赛季给对手送礼最多的球员是南安普顿的扬·贝德纳里克(Jan )。 他的失误帮助南安普顿的对手多进了3个球。 这些错误通常都是非常低级的,让你的对手几乎不可能利用它们。 最常见的例子是球员回传给守门员的力度太弱而被对手拦截,导致单传。
这些错误发生的频率如此之低,而且如此不稳定,以至于它们要么随机发生,要么每个赛季不止一次,因此它们几乎不能作为防守球员表现的衡量标准。 理想的衡量方法应该是防守球员微妙的()动作(或缺乏动作)给对手得分机会的次数。 这是一个比较合理的衡量标准。
在对方射门或进球的控球链中,防守方往往会因球员失误而产生连锁反应。 可能是后卫跑偏了,失去了防守者,或者中场球员没有挡住对手的传球路线,或者球探发现了其他看不见的错误。 这些很好地说明了,很多防守球员的水平并不是通过所谓的防守数据来体现的。 他还需要前辈们的肉眼观察才能找到答案。
也有可能失球不仅仅是某个防守球员的失误,而是球队防守一系列失误的结果。 尽管如此,结合比赛事件数据和雷达跟踪数据(它可以告诉我们在比赛中任何给定时刻所有球员、球和裁判的位置)应该为回答这个问题和其他类似问题留下空间 - 但足球的复杂性是不止于此。
我们可以做一个思想实验。
假设有一个数据提供商彻底破解了足球这项运动。 他们收集你能想到的所有数据:所有球员的传球选择、他们在任何特定时刻的压力水平、他们是否抬头、队友何时开始奔跑、他们的鞋带是否松动——一切。 所有信息已收集完毕。
有了如此海量的数据,我们的问题不再是衡量什么,而是从数据中找到有用的指标。
事实上,我们并不是无所不知,我们观察到的游戏过程也只是整体的冰山一角,但数据分析的要求并没有改变,一如往常。 近年来预期进球如此受欢迎的原因是它既解释了实际情况又预测了未来——它揭示了我们以前的盲点。 我们可以用它来推断未来球员或球队的表现。
原文链接://2020/04/23/bad-stats-but-good--/