Skip to content

Latest commit

 

History

History
67 lines (34 loc) · 5.6 KB

brutal-truth-data-science.md

File metadata and controls

67 lines (34 loc) · 5.6 KB

数据科学的残酷真相

原文:www.kdnuggets.com/2021/07/brutal-truth-data-science.html

评论

Prad Upadrashta,首席数据科学家

博客图片


我们的前三个课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业生涯。

2. Google 数据分析专业证书 - 提升你的数据分析能力

3. Google IT 支持专业证书 - 支持你的组织的 IT


大多数数据科学家和雇佣他们的组织似乎不理解数据科学是如何实际完成的,也不完全理解它是什么。他们有点跟风——没有真正理解它,也不知道为什么它对他们如此重要。

许多组织将数据科学视为一种营销工具——将他们已经做的事情重新标记为“数据科学”,因为它涉及到数据的使用。这不是真正的数据科学,它完全错过了从事数据科学的重点。这就像是将孩子们在沙箱里玩耍与石油公司勘探油田的操作相提并论。数据科学的核心价值被忽视了,那就是科学。

科学不仅仅是预测——它的核心是解释和诊断。科学引领工程——一种系统的数学方法,用于创建基于对某些自然现象的利用的技术解决方案。

赢得 Kaggle 竞赛不是数据科学;尽管它是一个合理的开始,我想——即使 Kaggle 上最好的模型实际上是由运行遗传算法的机器构建的,自然选择驱动结果。尽管有其局限性,Kaggle 当然是一个很好的训练场,可以让人们初步涉足。

数据科学是关于理解生成数据的潜在过程或机制。它是关于利用这种知识来推导出统计上显著的价值点,推动企业的运营变革,从而创造可衡量的 ROI。它是关于以一种可重复、可扩展和迭代的方式系统地推动决策过程。

当你能将商业巫术转化为经过工程化的收入流时——那时你可以声称你已经做了真正的数据科学——这意味着你从根本上理解你的业务如何在非常细微的层面上运作。

是的,“数据科学家的 80%以上工作是清理数据”,这一说法常被重复——但这不仅仅是某种低级的无脑工作——智能清理需要你在迭代改进解决方案时,仔细关注以下几点:+ 重要的是什么 + 为什么重要 + 如何重要。应当用“策划”一词来取代“清理”。

如果你不理解最终目标,你将不可避免地搞砸起步阶段——然后疑惑为何你付出了那么多努力却看不到任何成果。你正在构建一个精心策划的数据集,以符合某种质量标准,以确保你的模型反映出你试图揭示、捕捉和/或复制的简单真理。这需要对你正在建模的内容及其固有的复杂、可能分层的结构有一些直觉。仅仅进行曲线拟合并声称“你有一个模型”几乎只是入门水平,当然也无法提供对竞争对手的可持续竞争优势。真正的问题是你是否理解你的业务科学。

你需要知道何时在“去掉脏水”的同时“扔掉婴儿”。特征工程和数据清洗之间有一条微妙的界限——你可能只是清除了那些告诉你真正发生了什么的重要内容!所以,不,任何随机的新毕业生不太可能做对这一点——这并不简单。实际上,许多我采访的数据科学家不理解数据清洗在某种程度上也是建模——因为要识别噪音,你必须有一个信号的模型!这就是为什么公司仍然愿意为那 0.1%的人才支付高价的原因。

要阅读博客的下一部分,点击这里

简介: Prad Upadrashta 是一位高级分析执行官和经验丰富的数据科学从业者,在企业规模的 AI 思想领导、战略和创新方面拥有卓越的业绩记录。他的关注领域包括人工智能、机器/深度学习、区块链、工业物联网/物联网以及工业 4.0。

原文. 经许可转载。

相关内容:

  • 为什么以及如何学习“高效的数据科学”?

  • 顶级 Python 数据科学面试问题

  • 何时重新训练机器学习模型?进行这 5 项检查以决定计划

更多相关内容