原文:
www.kdnuggets.com/2021/06/data-scientists-extinct-10-years.html
评论
作者:Mikhail Mew,研究员,投资者,数据科学家
以下是受此博客启发的 KDnuggets 投票结果:
随着 AI 的进步不断取得飞跃,数据科学的基本水平变得越来越民主化。传统的领域入门障碍,如缺乏数据和计算能力,已被不断涌现的数据创业公司(有些每天只需一杯咖啡的费用即可访问)和强大的云计算所消除,后者移除了对昂贵现场硬件的需求。作为先决条件的三位一体之一,技能和知识的实施,已经成为数据科学最普遍的方面。无需费力寻找在线教程,它们标语如“秒级实现 X 模型”,“仅用几行代码将 Z 方法应用于你的数据”。在数字世界中,即时满足已成为游戏规则。虽然改善的可及性乍看无害,但在闪亮的新软件库和模型之下,数据科学的真正目的变得模糊,有时甚至被遗忘。因为数据科学的目的并非仅仅为了运行复杂模型,或优化任意的性能指标,而是作为解决现实世界问题的工具。
一个简单但易于理解的例子是 Iris 数据集。多少人使用它来演示一个算法,而不去考虑什么是花萼,更不用说我们为什么要测量它的长度了?虽然这些对于可能更关心增加新模型的初学者来说可能显得微不足道,但对于记录了这些属性的植物学家埃德加·安德森来说,这并非小事,他这样做是为了理解鸢尾花的变异。尽管这是一个人为设置的例子,它却展示了一个简单的观点:主流已经更加关注“做”数据科学而不是“应用”数据科学。然而,这种不匹配并不是数据科学家衰退的根本原因,而是一种症状。要理解问题的根源,我们必须退一步,俯瞰全局。
数据科学有一个奇特的区别,它是少数几个没有特定领域的研究领域之一。药学学生成为药剂师,法律学生成为律师,会计学生成为会计师。那么数据科学学生是否必须成为数据科学家呢?但数据科学家是哪个领域的呢?数据科学的广泛应用证明了它是一把双刃剑。一方面,它是一个强大的工具箱,可以应用于任何产生和捕获数据的行业。另一方面,这些工具的一般适用性意味着用户在实际使用之前,很少会对这些行业有真正的领域知识。然而,在数据科学崛起的初期,这个问题并不重要,因为雇主们急于利用这项新兴技术,却没有完全理解它是什么以及如何将其完全融入公司中。
然而,近十年后,商业环境及其运作方式已发生变化。它们现在追求数据科学的成熟,拥有大规模的团队,并以行业标准为基准。紧迫的招聘需求已经转向理解业务、相关行业以及其利益相关者的问题解决者和批判性思考者。仅仅能够操作几个软件包或重复几行代码已经不够,数据科学从业者也不再以编程能力来定义。这从无代码、AutoML 解决方案如 DataRobot、RapidMiner 和 Alteryx 的日益流行中得到了证明。
数据科学家将在 10 年内消失(或多或少),至少这个角色头衔会消失。未来,被统称为数据科学的技能将由新一代数据敏锐的业务专家和主题领域专家承担,他们能够将深厚的领域知识融入分析中,无论他们是否会编程。他们的职称将反映他们的专业知识,而不是他们展示这些知识的方式,无论是合规专家、产品经理还是投资分析师。我们不需要回顾太久就能找到历史先例。在电子表格刚出现时,数据录入专家曾是备受青睐的,但如今,正如《数据讲故事》一书的作者科尔·努斯鲍默·克纳夫利克(Cole Nussbaumer Knaflic)恰如其分地观察到的那样,熟练使用微软办公套件已成为基本要求。在此之前,能够用打字机盲打被认为是一项专业技能,但随着个人计算机的普及,这也变得司空见惯。
最后,对于那些考虑从事数据科学职业或开始学习的人来说,时常参考你无疑会遇到的韦恩图可能会对你有益。它将数据科学描述为统计学、编程和领域知识的汇聚。尽管它们在交集区域中占据了相等的份额,但有些领域的权重可能会比其他领域更高。
免责声明:观点仅代表我个人的观察和经验。如果你不同意,也没关系,欢迎进行富有成效的讨论。
简介:米哈伊尔·缪 是一名研究员、投资者和数据科学家,同时也是一名好奇的观察者,提供投资和机器学习交汇处的见解和思考。
原文。经许可转载。
相关:
-
数据科学家应如何与利益相关者沟通
-
使用 BERT 构建求职知识图谱
-
高效能数据科学家的五种思维方式