Skip to content

Latest commit

 

History

History
97 lines (49 loc) · 8.82 KB

automation-data-science.md

File metadata and controls

97 lines (49 loc) · 8.82 KB

自动化工具将如何改变数据科学?

原文:www.kdnuggets.com/2018/12/automation-data-science.html

c 评论

作者:藤巻良平博士,dotData 的首席执行官和创始人

数据科学现在是技术投资的一个主要领域,鉴于其对客户体验、收入、运营、供应链、风险管理以及许多其他业务功能的影响。数据科学使组织能够实现数据驱动的决策过程,加速数字化转型和人工智能计划。根据 Gartner, Inc,只有 4%的首席信息官已经实施了人工智能,只有 46%的人有计划这么做。虽然投资持续增长,但许多企业发现实施和加速数据科学实践越来越具有挑战性。本文概述了机器学习和数据科学自动化工具的最新趋势,并讨论了这些工具将如何改变数据科学。

传统的数据科学过程


我们的前三个课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业的快车道。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你在 IT 领域的组织


那么,是什么阻碍了企业中数据科学的采用和加速呢?一个典型的企业数据科学项目非常复杂,涉及多个步骤,包括数据收集、最后一公里的 ETL*(数据整理)、特征工程、机器学习、可视化和生产(见下图)。即使对于经验丰富的团队,传统的数据科学项目也需要几个月才能完成。这是一个高度参与和协作的过程,需要各种专业技能,如领域专家、数据工程师、数据科学家、商业智能工程师和软件架构师。此外,大多数企业数据科学项目的结果难以解释,这使得业务用户很难实施这些结果。

传统的数据科学过程

传统的数据科学过程

数据科学为什么这么难?

玩转机器学习(ML)模型被认为是有趣的部分,但任何数据科学项目的真正痛点通常是最后一公里的 ETL 和特征工程。如下面所示,机器学习需要一个称为特征表的单一扁平表。给定一个特征表,数据科学家可以使用 ML 算法进行操作。但实际的企业数据从来不是一个单一的扁平表,而是一组具有复杂关系的数据表。

机器学习数据

机器学习所需的数据(左)与实际企业源数据(右)

最后一公里的 ETL 和特征工程是将多个表转换为特征表的必要步骤。这些是数据科学项目中最具挑战性和耗时的步骤,需由高技能的数据科学家和领域专家完成——这些资源既昂贵又稀缺。

“……特征工程通常是机器学习项目中大部分努力投入的地方……在这里,直觉、创造力和‘黑艺’与技术内容一样重要……” - Pedro Domingos 博士

数据科学与机器学习自动化工具

自动化机器学习的尝试始于 2010 年代初(例如 2013 年的AutoWEKA),并且变得非常流行。DataRobotH2O.ai是机器学习自动化领域的领先初创公司。

机器学习自动化的基本理念是使用不同的算法(包括缺失值填充等预处理)和不同的超参数训练评分模型,并验证其准确性以选择最佳模型。最近,像微软这样的公司也开始支持机器学习自动化工具(更多细节可以在这里这里找到)。这些优秀的工具显著简化了机器学习模型的构建。另一方面,最后一公里的 ETL 和特征工程仍然是一个手动过程,需要领域专家和数据科学家的大量参与。

尽管已有努力自动化特征工程,但大多数关注于给定特征表的非线性转换,这只是特征工程过程中的一个小组成部分,并且依赖于手动创建特征表。dotData发布了一个平台,它不仅自动化了从源数据中生成特征工程,还自动化了机器学习。dotData 称之为“数据科学自动化”。其人工智能驱动的特征工程自动设计和生成重要且可解释的特征,无需领域知识。该平台涵盖了与数据科学过程相关的广泛任务,使构建和实施数据科学项目变得更容易、更快捷。

自动化工具将如何改变数据科学?

数据科学家或领域专家会被自动化工具取代吗?显然不会。没有任何工具可以真正取代熟练的专家。相反,它使他们更高效。自动化将从三个主要方面影响数据科学:

  • 敏捷性: 传统的数据科学过程通常遵循“瀑布”方法,这涉及大量前期工作,如数据清洗、ETL 和特征工程,因为每个单独步骤都需要大量的人工和耗时的工作。自动化工具使得尝试想法变得更容易、更快捷,从而使数据科学家能够探索高影响力的用例。

  • 民主化: 大型企业中有数百种潜在的分析用例(甚至可能更多)。自动化工具使具有不同技能的人能够执行数据科学任务,并使难以招聘的成熟数据科学团队能够专注于高价值创造的用例。

  • 操作化: 如本博客开头所述,大多数企业尚未实施人工智能和数据科学。许多企业级自动化工具,如 dotData,可以自动生成 API 或可执行包,立即在生产中操作。这显著缩短了在企业中实施数据科学的时间和障碍(上图的最后一步)。

随着企业转向数据驱动文化,数据科学变得越来越重要。自动化工具有助于加速数据科学和商业创新。

注释:

  • 企业中有两种类型的 ETL(包括数据清洗)。一种是“主数据 ETL”,用于准备组织中通用的数据。有许多出色的工具来支持这个过程,如 informatica。另一方面,即使主数据准备得很好,我们仍然需要针对每个分析用例的定制 ETL 工作,这被称为“最后一公里 ETL”。

ACM 通讯,第 55 卷第 10 期,2012 年 10 月

简介藤卷良平博士 是 dotData 的创始人兼首席执行官。在创立 dotData 之前,他曾是 NEC 公司 119 年历史上最年轻的研究员,这一荣誉仅授予了 1000 多名研究人员中的六位。在 NEC 任职期间,良平积极参与开发许多前沿的数据科学解决方案,并在多个高-profile 分析解决方案的成功交付中发挥了重要作用,这些解决方案现在在行业中被广泛使用。

资源:

相关:

更多相关话题