Skip to content

Latest commit

 

History

History
117 lines (59 loc) · 9.23 KB

siegel-data-science-avoiding-prediction-pitfall.md

File metadata and controls

117 lines (59 loc) · 9.23 KB

健全的数据科学:避免最棘手的预测陷阱

原文:www.kdnuggets.com/2017/01/siegel-data-science-avoiding-prediction-pitfall.html

orange-car

《预测分析:预测谁会点击、购买、撒谎或死亡,修订版》* 的更新版中,我展示了尽管数据科学和预测分析的爆炸性流行承诺了巨大的价值,但一个常见的错误应用很容易适得其反。只有应用了一个基本却常被忽视的安全措施,数字分析才能真正发挥作用。*

预测正在蓬勃发展。数据科学家被誉为“21 世纪最性感的职业”(正如托马斯·达文波特教授和美国首席数据科学家 D.J. Patil 在 2012 年所宣称)。在数据洪流的推动下,我们进入了预测发现的黄金时代。一系列分析产生了大量丰富、有价值且有时令人惊讶的洞察:[i]


我们的前三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业。

2. 谷歌数据分析专业证书 - 提升您的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持您的组织在 IT 领域


• 喜欢在 Facebook 上点赞卷曲薯条的人更聪明。

• 正确的大写输入表示信用值得信赖。

• 使用 Chrome 和 Firefox 浏览器的员工表现更佳。

• 跳过早餐的男性面临更高的冠心病风险。

• 持有信用卡的用户去看牙医的信用风险较低。

• 高犯罪率的社区需要更多的 Uber 乘车服务。

看起来很有趣?在开始之前,请注意:这次数据探索的狂欢必须通过严格的质量控制来加以驯服。很容易出错、崩溃,或者至少让自己出丑。

2012 年,《西雅图时报》的一篇文章引人注目地揭示了一项预测发现:“橙色的二手车最不容易成为‘柠檬车’。”[ii] 这一洞察源于一项预测分析竞赛,旨在识别哪些二手车是糟糕的选择(柠檬车)。虽然关于其他汽车属性的信息也被揭示——如品牌、型号、年份、配置等级和尺寸——但橙色车的明显优势引起了最多关注。面对困惑的表情,数据专家提供了创造性的解释,例如选择不寻常车颜色的车主往往对车辆有更多的“联系”并且更加关爱。

单独审视,“橙色柠檬”发现从数学角度来看似乎是可靠的。以下是具体结果:

bar-graph-cars-lemons

这表明橙色汽车变成柠檬的几率比平均水平低三分之一。换句话说,如果你购买一辆橙色的汽车,你的风险增加了 50%。

确立的统计数据似乎支持这一“色彩丰富”的发现。正式评估表明,这具有统计显著性,意味着这个模式仅仅是随机出现的机会很小。似乎可以安全地假设这一发现是可靠的。更具体地说,一项标准数学测试表明,如果橙色汽车实际上不更可靠,这一趋势出现在数据中的机会不到 1%。

但事情发生了严重错误。后来的“橙色汽车”洞察被证明结论不确。统计测试以一种有缺陷的方式进行;媒体也过早地报道了这一发现。随着数据量的增加,应用常见的统计方法可能会陷入潜在的陷阱。

大数据的小陷阱

世界上的问题在于愚蠢的人过于自信,而聪明的人却充满怀疑。

—伯特兰·罗素

大数据带来了巨大的潜力——但也伴随巨大的危险。随着数据的增加,一个独特的陷阱常常欺骗即便是最聪明的数据科学家。这一隐秘的危险可能会破坏评估统计显著性的过程,这一过程是科学可靠性的黄金标准。这个危险确实不容小觑!虚假的发现可能会导致灾难。你可能会购买一辆橙色汽车——或接受一个无效的医疗程序——完全没有正当理由。正如格言所说,错误的信息比没有信息更糟;错置的自信往往难以再现。

这种危险似乎很矛盾。如果数据如此宝贵,我们为什么要因获取越来越多的数据而遭受困扰?统计学早已建议,拥有更多的例子更好。更长的案例列表提供了更细致评估趋势的手段。你能想象更多数据的弊端是什么吗?正如你将看到的,这是一个发人深省、戏剧性的情节反转。

科学的命运——以及夜间的安稳——取决于防范危险。经验发现的概念正岌岌可危。为了充分利用今天数据爆炸的非凡机会,我们需要一种万无一失的方法来确定观察到的趋势是否真实,而不是数据的随机产物。我们如何重新确认科学的可信声誉?

统计学以一种非常特定的方式处理这个挑战。它告诉我们即使效果不真实,观察到的趋势随机出现的概率。这就是说,它回答了这个问题:[iii]

统计学可以回答的问题: 如果橙色汽车的可靠性实际上与二手车一样,那么这种强烈的趋势——将橙色汽车描绘为更可靠——在数据中出现的概率有多大,仅仅是随机机会?

在数据发现中,总是存在我们可能被随机性所欺骗的可能性,就像纳西姆·尼古拉斯·塔勒布在他那本引人注目的书中所提到的那样。书中揭示了人们倾向于为自己的成功和失败寻找毫无根据的解释,而不是将许多事件正确归因于纯粹的随机性。这种失败的科学解药是概率,塔勒布亲切地称之为“应用怀疑论的一个分支”。

统计学是我们用来衡量概率的资源。它通过计算如果橙色汽车实际上没有优势时,观察到的数据随机出现的概率来回答上述橙色汽车问题。计算考虑了数据量——在这种情况下,有 72,983 辆二手车,涵盖 15 种颜色,其中 415 辆是橙色的。[iv]

对问题的计算答案: 低于 0.68%

看起来是一个安全的选择。常规做法认为这种风险可以接受,足够低到至少可以暂时相信数据。但不要急于购买一辆橙色汽车——或者为此事在报纸上撰写文章。

出错原因:累积风险

在中国,当你是百万分之一时,就有 1300 人和你一模一样。

—比尔·盖茨

那么,如果只有 1%的机会我们会被随机性误导,那出了什么问题?

实验者的错误在于没有考虑到运行许多小风险,这些小风险加起来变成了一个大风险……

点击这里访问在 OR/MS Today 原刊发表的完整文章


[i] 有关这些发现的更多细节,请参见我书中“奇异和令人惊讶的见解”部分,PDF 在线版可在www.PredictiveNotes.com获取。有关本文章总体主题的进一步阅读,请参阅同一文档中的“广泛搜索的进一步阅读”部分。

[ii] 这一发现还被赫芬顿邮报纽约时报国家公共电台华尔街日报以及纽约时报畅销书大数据:一场将改变我们生活、工作和思维方式的革命报道。

[iii] 橙色汽车没有优势的观点称为零假设。如果零假设为真,那么观察到的效果在数据中出现的概率称为p 值。如果 p 值足够低,例如低于 1%或 5%,那么研究人员通常会拒绝零假设,认为这种情况不太可能,从而将其视为对发现的支持,这样就被认为是统计显著的

[iv] 适用的统计方法是单侧比例相等假设检验,其计算的 p 值低于 0.0068。

原文发表于OR/MS Today。已获许可转载。

相关内容:

  • 4 个原因导致你的机器学习模型出错(及如何修复)

  • 提高回归模型鲁棒性的一个巧妙技巧

  • 避免过拟合的大创意:可重复使用的保留集以保持适应性数据分析的有效性

更多相关话题