科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道虚拟化/云计算从橄榄球看决策制定 数据挖掘改变成见

从橄榄球看决策制定 数据挖掘改变成见

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

运动员会因海拔太高造成的氧气稀薄而影响比赛?橄榄球在最后一次进攻时教练很大程度会选择弃踢?更大的球场会帮助球员取得更好的成绩?似乎这些都是非常合理的推断,那么对比赛数据进行挖掘后又会得出什么样的结果?

作者:Jesse Anderson 来源:CSDN 2014年2月8日

关键字: 大数据 Cloudera Hadoop

  • 评论
  • 分享微博
  • 分享邮件

那些围绕着大数据乱七八糟的讨论是不是让你感到心烦?对理解信息驱动业务的重要性是不是也有些力不从心?数据的意义很大程度上在于对主观假设和先入为主观念的挑战,确保业务决策的正确性。

最近,我分析了 NFL的“Play-by-Play”数据集,测试一下我对橄榄球一些先入为主的见解。我看橄榄球已经很多年了,而且像很多人一样,我对比赛、团队统计、天气和体育场条件等有着长期先入为主的观念。

我对围绕高海拔地区的橄榄球比赛有着长期的偏见,比如在Denver的Mike High Stadium的那些比赛,Denver的 Mike High Stadium坐落在海拔 5130 英尺的地方(NFL体育场馆的平均海拔是526英尺)。海拔较高意味着氧气稀薄,影响到运动员在比赛中的表现。

在今年 Broncos vs. Ravens的常规赛中,可以看到球员通过吸入纯氧来防止高原反应。这引起了我的一些思考:海拔的高低真的会影响比赛表现吗?可以用数据证明吗?

挑战先入之见

当我开始处理NFL数据集时,我假设在某处的比赛如果换在别的地方进行,实际上会出现不同的结果。我查过在Denver和其他地区比赛的平均得分以及比赛的各种数据(传球、跑动等等)。我没有发现明显的差别,除了在Denver的比赛中传球成功率提高了1%。数据证实我对海拔高度影响橄榄球比赛的偏见是错误的。

我还以为橄榄球在最后一次进攻时,教练会选择弃踢(punt)。在最后一次进攻时,如果球队仍然决定冒险试一试,评论员们就可以对比赛大作文章了,因为这和主流的想法不一致。不过,数据表示,冒险试一试的情况更经常发生:只有15%的教练在最后一次进攻时选择弃踢。

更大的球场意味着会有更多的粉丝,主场球队理所当然的应取得更好的成绩,不是吗?数据又一次驳斥了这种观念。数据表明,在小型体育场比赛其实会比在大型体育场平均取得更高的分数:20.55:17.9。

这些例子表明,利用数据分析可以确保运作依据现实,而不是假设。对于没有数据支持的业务,你可能会有一些先入之见。不管是比赛还是业务,是否有精确数据的支持可能意味着成功或失败。数据是做出明智决策的关键。

看到结果

比赛有趣就是因为比赛结果不能被预先决定。无论在哪个比赛日,每个队都会有获胜的可能。一场橄榄球比赛可以被分为很多次进攻,进攻组试图攻到前场得分,防守组则阻止他们得分。

上述饼图显示球队的平均攻防效率。弃踢也是比较常见的结局。当团队决定弃踢时,防守组则开始行动阻止进攻组得分。数据显示这时进攻如果是达阵(EXTRAPOINT)得分,成功率达到了18%,如果是任意球(FIELDGOAL)得分,成功率达到了15%。

看一下进攻有多少次产生了“non-standard”结果也很有意思。这些导致进攻的结局都是防守组不愿看到的,例如拦截(INTERCEPTION),这种情况成功的可能性为7%。

开始码线严重影响进攻的结果。上图显示基于进攻开始码线得分的百分比指数。在此图中,从1码线进攻得分是最近的,从100 码线进攻得分是最远的。正如期望的那样,通过码线最多的进攻,想要得分也最难。在红区开始进攻(20码线和更接近码线)有78%的成功率。相反,从80码线或更远码线开始的进攻就只有21%的成功率。更远的进攻被截取的可能性高了2.6倍——因为有更多码,所以沿途出错的机会也更多。

橄榄球进攻的结果很像销售的业务成果:如果没有分析,你可能已经在99码线就开始推销,销售转化率很低,同行竞争者也很有可能窃取你的销售成果。通过分析数据,你可以将你的销售更接近红区——达阵得分。

用更多的数据扩大数据集

原始的“Play-by-Play”数据集包含了有关特定的比赛的详细信息,如码线、日期和涉及的小组。使用此数据集,能回答一些有趣的问题——例如,有多少进攻是以任意球接结束的——但想要回答其它问题就难了。

比赛的结果不仅取决于场上带球奔跑的运动员。还有其他的许多影响因素,像天气和草皮类型,这在最初的NFL数据集中使没有的,所以我又在其中增加了天气和体育馆数据,然后进行了一系列的查询,以了解天气对比赛的影响。

数据显示,在恶劣天气下,Baltimore Ravens平均在主场取得的分数最高,平均21.7:14.2,然而Kansas City Chiefs的成绩最差:23.8:28。没有恶劣天气时,Pittsburgh Steelers表现最好,以23.8:13.6获胜。

将这个示例应用到业务操作中:不限制你向数据集寻求问题的类型和深度。相反,还可以考虑增大你的数据集,使它能够回答更加复杂的问题。根据一开始你想要问的问题的类型来决定加入实现哪些查询的新数据集。

教练和CEO

那么业务经理怎样利用数据来提升一个团队的实力呢?首先,他们需要决定数据驱动的团队将是什么样团队。决策不像算法那样运行(做出确定型的决策,可以给定一组数据)——应该利用数据确定或推翻我们的先入之见来辅助决策。

我对橄榄球的先入之见有时候是对的,但常常是错的。如果教练的决策是基于我这样不正确的假设将会带来巨大的损失。

幸运的是,我们有这样强大的工具,只要动动手指就能帮我们更快更简单地从数据中获得信息。像Hadoop这样技术开辟了一个新的时代,使数据驱动的业务决策可以被实现——不管你的问题有多大,其中存在多么大的数据集和挑战,数据提供了大量机会挑战或确认我们对业务、社会(当然还有橄榄球)的先入之见。成为数据驱动的组织不仅能帮助你将你的业务打包分开,还会让你有能力表现得更好、获得更大的成功。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章