AI 铁口直断冠军奖落西班牙、巴西,德国球迷认同吗?

AI 铁口直断冠军奖落西班牙、巴西,德国球迷认同吗?

作者/量子位 栗子李根

本文经 AI 新媒体量子位(公众号 ID:QbitAI)授权转载,转载请联繫出处

可能是由于人类预测不靠谱,前几届世界杯预测战况和冠军的任务,常常交给动物完成。

比如,章鱼哥保罗。

如果保罗活到现在,应该惊喜的发现,它的工作,现在有人工智慧系统可以替代了。

在 2018 俄罗斯世界杯即将开打之际,德国 4 位科学家联手打造了一个世界杯 AI 预测模型。

综合各种应有尽有的因素:国际足联排名、平均年龄、顶级联赛球员数量、国家人口比率、GDP、教练国籍等等,AI 建模、大数据应用,云端计算加持。轻轻鬆鬆,当前準确率不知比运彩公司高到哪里去。

最后他们郑重其事地推出结论: 西班牙胜率最大 。

AI 铁口直断冠军奖落西班牙、巴西,德国球迷认同吗?

只是万万没想到,比赛尚未开始,人类就给了 AI 意想不到的一击。正所谓人算不如云计算,云计算难料人使绊。 就在世界杯开战前 24 小时,西班牙炒掉了带队 2 年的不败战绩主教练 。

AI 看了都傻眼。

不过这个 AI 模型就这样了吗?太天真了。

这 4 位严谨德国科学家自然考虑到了可能存在的变量,在 10 万次比赛模拟后,他们认为: 如果德国人打入八强决赛,那西班牙就呵呵了 。

好一个神奇的 AI

一般而言,大数据预测为导向的 AI,最常使用的方法有泊松回归、排序算法以及随机森林,都比较经典。

而这次在综合比较了几种方法后,4 位德国科学家决定主採用 随机森林 建模,该方法诞生于 2001 年,比起传统的回归和排序,预测效果更胜一筹。

更重要的是,随机森林附上排序算法里的一个协变量,再经过合体进化,就能变成更加强大的算法,甚至比运彩公司预测的还要準。

数据準备

具体如何实现呢?首先要谈到数据,往年世界杯对战数据自然是题中之义,但光有比赛维度的数据又怎幺够?

所以这个 AI 还把 经济因素、球队实力、主场优势、球队结构 , 教练因素 等纳入其中。

经济因素参考人口和人均 GDP 。前者参考 各国人口数据 ,并与全球总人口对比,看球队所属国对全球人口增长的贡献。 人均 GDP 则重在增长 ,用球队所属国的人均 GDP,以及全球平均的人均 GDP,来看 2002 至 2014 年的经济增长情况。

球队实力也从两方面考量。一是 历史进程 ,使用国际足联排名,可管窥球队过去 4 年的核心表现;二是 博奕彩金赔率 ,把博彩公司 ODDSET 提供的赔率,转换为球队胜率纳入模型。

主场优势则有玄学意味 。一看是否东道主(比如在俄罗斯举办),二看是否与东道主来自同一大陆,三看属于国际足联六大足球协会(CAF,AFC,UEFA,CONCACAF,OFC,CONMEBOL)中的哪一个。

球队结构重点针对 默契度 。共 4 项:

    最大队友数:每支国家队,在同一个俱乐部效力的队员最多和第二多的人数平均年龄:每支国家队里,所有队员的平均年龄欧冠队员数:每支国家队,进入欧冠或欧洲联盟杯半决赛的人数海外队员数:每支国家队,在国外俱乐部效力的人数。

最后是教练因素。 比如教练的年龄,以及在本队职教时间的长短,都被计算在内 。另外,教练的国籍是否与职教的国家队归属一致,也是接近玄学的考量 —— 但肯定没想过会有临阵换帅的情况。

AI 铁口直断冠军奖落西班牙、巴西,德国球迷认同吗?

综上,差不多每只参赛球队都会有 16 个维度的变量。

然后就可以进入 竞技演化 篇了。

算法模型

就像开头所言,这个预测 AI 核心主打算法模型是随机森林。

这种方法是 Breiman 在 2001 年提出的,如今已成了统计学模型和机器学习之间的桥樑。

法如其名,随机森林需要建起许多的 决策树(Decision Trees),让它们来预测每场比赛双方的进球数。

当然,系统要服用上文提到的所有变量。

先让每一棵树都独立生长,再把所有树的判断集合到一起,进而随机森林再做出的预测,这样就不容易有太多偏见。

其间关键所在,是把树与树之间的相关性降到最低——

第一,树并不是种在原始样本上,而是在有放回抽样(BootStrap Sample)的基础上生长的。

第二,在每一个节点,所有变量中,一个随机子集被提取出来,用于分出最完美的树杈。

AI 铁口直断冠军奖落西班牙、巴西,德国球迷认同吗?

有了这两步,每棵树之间的相关性就变得很弱,随机森林的不变性 (invariance) 就比一棵树更强了。

另外,除了进球数,随机森林也可以给出胜、平、负这样的结果。

紧接着进入 算法融合 阶段 。

虽然一开始所说的泊松回归模型,以及排序算法,德国科学家认为没有随机森林的预测效果那幺好。

但他们觉得,这些算法身上依然有随机森林可以汲取的营养。毕竟预测胜负和预测进球数,是两项不同的任务。

于是,数据篇说到的新变量,在这里登场——

AI 铁口直断冠军奖落西班牙、巴西,德国球迷认同吗?

之前排序算法里用到的、谜一般的 球队实力 参数,就在合体过程中以新变量的身份出现了。

如此融合进化完成后,再拿几种方法出来测一下,新算法显得更优秀—— 预测的準确度,已超过了博彩公司 。

如果更早一点推出,这个 AI 估计能赚不少钱。

不过现在也为时未晚,2018 世界杯已开盘等你。

实战预测

拿 2018 世界杯演练,这个 AI 结果如何?

AI 铁口直断冠军奖落西班牙、巴西,德国球迷认同吗?

这是 AI 给出的结果,前三名的球队(抛开顺序)和许多其他算法的预测也是一致的。

它觉得,西班牙和德国的夺冠概率相差不大,不过还是更偏爱西班牙一点点。

此外,这里不光有每支球队的夺冠概率,还有每一轮的晋级可能性。

有趣的是,西班牙和德意志,小组赛晋级概率非常接近,但十六强决赛的胜率就有点拉开了。

德国科学家们说,这是因为从分组来看,德国队更有可能在十六强决赛遭遇劲旅,比如巴西,但西班牙更轻鬆一些。

另外,论文还给出了小组出线可能性最大的组合——

AI 铁口直断冠军奖落西班牙、巴西,德国球迷认同吗?

还需要指出的是, 如果用每场比赛的胜负概率排列出结果,最后赢得金杯的将是德国人。

AI 铁口直断冠军奖落西班牙、巴西,德国球迷认同吗?

在这个维度里,之前夺冠概率最大的西班牙,不幸止步于準决赛。

也就是说,这个 AI 给出的终极结果是: 西班牙胜率最大,但只要德国进 8 强,呵呵 。

所以你听懂德国科学家们的潜台词了吗?

无独有偶,足球世界也一直流传着这样一句话:足球是 22 个人 90 分钟的比赛,但最后赢得胜利的 always 是德国人。

AI 铁口直断冠军奖落西班牙、巴西,德国球迷认同吗?其他预测

当然,也有其他同样使用机器学习方案预测世界杯的例子。

数据科学家 Gerald Muriuki 就利用 2 个来自 Kaggle 的数据集,使用 1930 年第一届世界杯以来的所有参赛队的历史赛事结果,打造了一个 AI 模型,同样预测了所有小组赛结果,还模拟了八强、四强赛和决赛。

整个过程和完整代码,Muriuki 已经在 GitHub 公开,我们不再详细介绍,希望上手的同学可直接前往

直接说这个 AI 模型的最后预测结果: 巴西将夺冠 。

另外,高盛今年也继续打造了一个机器模型预测大力神杯归属,在进行了 100 万次比赛模拟后,最终结果也是 巴西夺冠 。

高盛的 AI 模型显示:法国、巴西、葡萄牙和德国将打入準决赛,巴西最终将在决赛中击败德国。

但擅长分析和报告的高盛,在世界杯预测方面有历史包袱,上一届世界杯 —— 2014 年,他们也是 高调预测巴西本土夺冠 ,然而谁料等到了一个半决赛 1:7 惨败德国的结果。

〉;首图来源:himanisdas,CC Licensed。)

Related Posts