Skip to content

Latest commit

 

History

History
59 lines (30 loc) · 5.36 KB

perlich-biggest-issues-data-science.md

File metadata and controls

59 lines (30 loc) · 5.36 KB

顶尖数据科学家克劳迪娅·佩利奇谈数据科学中的最大问题

原文:www.kdnuggets.com/2016/09/perlich-biggest-issues-data-science.html

c 评论

由克劳迪娅·佩利奇,Dstillery.

漫画

感谢: O'Reilly.


我们的前三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你的组织 IT 需求


首先,让我声明我认为不是问题的地方:数据科学家将 80%的时间花在数据准备上。这就是他们的工作!如果你在数据准备方面不擅长,你就不是一个优秀的数据科学家。这并不是 Steve Lohr 所激起的清洁工问题。任何分析的有效性几乎完全依赖于数据准备。你最终使用的算法几乎无关紧要。抱怨数据准备就像一个农民抱怨只想做收割工作,希望其他人处理烦人的浇水、施肥、除草等工作。

话虽如此——数据准备可能因原始数据收集过程而变得困难。设计一个收集数据的系统,使其对数据科学有用且易于消化是一门高超的艺术。向数据科学提供数据如何精确流入系统的完全透明度也是另一门艺术。它涉及到考虑采样、数据注释、匹配等过程,而不是替换缺失值和过度归一化。创建一个有效的数据环境需要数据科学的参与,不能完全由工程团队主导。数据科学通常无法详细规范这样的系统需求,从而实现清晰的交接。

但从更大的角度来看,还有更重要的事情需要考虑。我看到的最大问题是数据科学在解决无关的问题。这是巨大的时间和精力浪费。原因通常是问题的提出者缺乏数据科学的理解,甚至无法表达问题,而数据科学家最终解决了他们理解的可能是问题的内容,最终创建了一个并不真正有用的解决方案(通常也过于复杂)。典型的情况是“定义不清”的任务:“在这个数据集中寻找可操作的见解!” 好吧 - 大多数数据科学家不知道可以采取哪些行动。他们也不知道哪些见解是平凡的还是有趣的。所以让他们去追逐无用的目标真的没有意义。

“解决错误问题”的现象普遍存在,部分原因是数据科学在决策过程中没有充分参与(感谢 Meta 让我澄清这个问题)。现在 - 不是每个数据科学家都能也应该被期望既能定义问题又能解决问题(回到独角兽问题),但团队中至少应该有一个数据科学家能够做到这一点。然而,更大的问题并不是数据科学方面能力/意愿的缺乏(虽然确实有很多人只是喜欢解决有趣的问题,不管它的相关性),而是企业文化中分析、IT 等部门被视为“执行”职能。管理层决定需要什么,然后其他人去做。

在个人层面和特定(值得做的)问题上,我会将缺乏数据理解、数据直觉和最终的怀疑态度归咎为效率的主要限制因素。这些因素之所以导致低效率,并不是因为得到答案需要更长时间(事实上,缺乏这三者通常会导致更快的结果),而是因为得到一个(几乎)正确答案所需的时间较长。

Dstillery 是一家数据分析公司,利用机器学习和预测建模为品牌营销及其他商业挑战提供智能解决方案。我们从独特的 360 度视角出发,结合数字、实体和离线活动的数据,生成关于个体和特定群体行为的见解和预测。

原文。已获许可转载。

相关:

  • 自动化数据摄取:3 个重要部分

  • 第二名:数字广告中的自动化数据科学和机器学习

  • 激发灵感的数据科学家想法

更多相关内容