Skip to content

Latest commit

 

History

History
121 lines (61 loc) · 11.3 KB

making-sense-machine-learning.md

File metadata and controls

121 lines (61 loc) · 11.3 KB

理解机器学习

原文:www.kdnuggets.com/2017/06/making-sense-machine-learning.html

机器学习头图

来源:Sebastian Raschka (sebastianraschka.com/Articles/2014_intro_supervised_learning.html)

机器学习如今备受关注,通常与大数据和人工智能(AI)相关联。但到底是什么呢?广义上讲,机器学习算法是用于模式识别、曲线拟合、分类和聚类的计算机算法。术语中的学习一词源于从数据中学习的能力。机器学习也广泛应用于数据挖掘和预测分析,一些评论者将其称为大数据。它还用于消费者调查分析,并不限于高容量、高速度数据或非结构化数据,也不一定与 AI 相关联。

实际上,许多营销研究人员熟悉的方法,例如回归分析和 k 均值聚类,也常被称为机器学习算法。例如,可以参考 Apache Spark 的机器学习库或本文最后一节中引用的书籍。为了简单起见,我将把回归分析和因子分析等知名统计技术称为较旧的机器学习算法,而将人工神经网络等方法称为较新的机器学习算法,因为它们通常对营销研究人员来说较不熟悉。

机器学习被用于许多领域,如地震学、医学研究、计算机网络安全和人力资源管理。以下是一些更常见的机器学习在营销中的应用方式:

  • 预测客户购买某个产品的可能性;

  • 估计客户在某个产品类别中的消费金额;

  • 识别相对同质的消费者群体——消费者细分;

  • 找出关键驱动因素(哪些服务元素最能预测客户满意度?);

  • 在营销组合建模中(识别回报最大的营销活动);

  • 用于推荐系统(例如,购买 John Grisham 的人也购买了 Scott Turow);

  • 用于个性化定向广告;以及

  • 在社交媒体分析中。

机器学习算法类型

目前有数百种机器学习算法,许多算法用于多种目的。有些机器学习算法非常复杂,而另一些则巧妙简单,可以以多种方式进行分类。以下是一些例子:

  • 有监督的方法用于存在依赖变量的情况。回归分析和判别分析是有监督的方法。依赖变量通常被数据科学家称为标签。

  • 有监督方法进一步按标签类型进行细分,标签可以是类别,例如购买者/非购买者,或数量,例如花费金额。在第一种情况下,判别分析是合适的,这在统计学中称为分类问题;在第二种情况下,回归分析是合适的,称为回归问题。

  • 当没有依赖变量时,例如在聚类和因子分析中,使用无监督方法。

  • 当数据在多个时间点收集时,例如每周或每日的销售数据,需要使用时间序列方法,如 ARMAX 和 GARCH。市场营销研究人员通常更熟悉横截面研究,例如一次性消费者调查。回归分析、判别分析和因子分析是分析横截面数据时常用的技术。

  • 关联模式挖掘用于优化货架摆放和推荐系统。

  • 还有许多专门的方法用于文本分析、社交网络分析、网站分析、流数据挖掘和异常检测(例如,检测信用卡欺诈)。

流行的机器学习方法

让我们快速了解四种较新的机器学习方法。请记住,关于机器学习已有许多详细的书籍,我在这里的目的是让你对一些较为流行的方法有一个初步的了解。

人工神经网络(ANN)是用于广泛用途的复杂且多才多艺的学习方法。虽然难以简单描述,但 ANN 的灵感来源于对人脑功能的认识。它们有多种类型,并用于分类、回归、聚类、文本挖掘以及各种实时分析。ANN 也经常是人工智能和深度学习的核心部分。缺点包括较长的运行时间、过拟合(对新数据预测不准确)的倾向,以及由于复杂性难以解释。神经网络和人工智能有时被交替使用,这具有误导性,因为其他机器学习方法也被用于人工智能软件中。

支持向量机(SVM)最初在 1960 年代初期的苏联被提出。尽管最初是为二元(两组)分类问题开发的,这些机器学习算法已经扩展到多组分类和定量因变量,现在被用于各种应用。像 ANN 一样,SVM 是复杂的,但基本思想——如这张图片所示——是构建一个或一组超平面,用于分类、回归和其他任务。运行时间可能非常长,特别是对于非常大的数据文件,建模者所做的选择对结果有很大影响(ANN 和许多其他工具也一样)。SVM 在机器学习社区中引起了相当大的兴趣,最近在这一领域有很多进展。

随机森林AdaBoost —— 自适应增强的简称——在数据科学家中非常受欢迎。它们最常见的实现方法使用了一个愚蠢委员会策略。随机森林速度快且适合并行计算。它易于使用,并且在预测组成员或数量方面表现良好。随机选择的样本(例如消费者)和变量用于构建数百或有时数千个弱学习器——这些小模型预测效果差但比随机预测要好——然后使用众数或中位数结果作为每个样本的预测结果。随机森林通常基于决策树,但也可以使用其他方法作为基础学习器。一个缺点是,随机森林可能过于简单,经验不足的建模者可能会倾向于选择它而不是其他表现更好的方法。

同样,AdaBoost 也是多用途的,并且不仅限于决策树作为基础学习器,尽管决策树运行速度快且通常足够好。与随机森林的主要区别在于,所有样本都会被使用,并根据预测难度进行加权,困难样本会在算法遍历数据时获得更多权重。对于非常嘈杂的数据,AdaBoost 可能会因为追逐离群点而表现不佳。和随机森林一样,提升方法有多种变体,其中一种,随机梯度提升,近年来变得特别受欢迎。

记住的关键点

有大量的机器学习算法在许多领域的各种分析中都很有用。有些算法仅在过去几年出现,而有些则是在几十年前开发的,正如我所指出的,机器学习本身的意义并不明确。最好的做法是当你不确定术语的使用时,询问具体细节。

没有单一的机器学习算法在所有情况下都能表现最好,因此通常会将多种算法结合起来。我所称之为较新方法的主要优点在于,它们在某些情况下可能更快、更易于使用或更准确。例如:

  • 当变量数量非常庞大时;

  • 当数据中存在强烈的曲线关系或交互作用时;

  • 当较旧方法的统计假设严重违背时。

在这些情况下,较旧的方法仍然可以有效使用,但模型构建有时可能变得非常耗时。此外,一些较新的软件已针对特定用途——如文本分析——进行了设计,并且在这些用途上通常是更好的选择。

较新方法的一个缺点是,它们通常对理解产生数据的机制(例如,为什么某些类型的消费者会有这样的行为)帮助较小。大多数较新的机器学习算法不使用非专业人士可以容易理解的方程式或用简单的语言表达。另一方面,较旧的方法通常更具信息性。不过,并不是总是非此即彼,在一些项目中,我们可以通过使用较新的机器学习算法进行预测建模,而利用较旧的方法来阐明为什么如何,从而兼得两者的优点。

较旧机器学习方法的另一个优点是,它们通常需要较小的训练样本就能在新数据上达到相同的准确度。大多数是在数据收集和处理成本高昂的时代开发的。这对于大多数市场研究人员分析小数据集时可能是一个很大的优势。

无论使用哪种方法或方法组合,我必须强调,机器学习不仅仅是按下 ENTER 键这么简单。定义项目的目标和目的,并拥有具备正确技能和经验的团队仍然至关重要。同样,机器学习算法只是整个过程的一部分,数据的设置和清理通常占用分析师相当一部分时间。 “数据、数据、数据:理解预测分析的作用” 提供了这一过程的快照以及一些应做和应避免的事项的提示。

额外资源

如果你有兴趣进一步了解这个主题,有很多资源可以参考,包括一些大学提供的大规模开放在线课程和正式的数据科学学位项目。对统计学有扎实的基础(按照通常的定义)也将非常宝贵——在我看来,这确实是一个很好的起点。

两个受欢迎的数据科学网站是 KDnuggets 和 Data Science Central。许多优秀的教科书也已出版。以下是我觉得有用的一些书籍:数据挖掘技术(Linoff 和 Berry);应用预测建模(Kuhn 和 Johnson);统计学习的元素(Hastie 等);数据挖掘:教科书(Aggarwal);以及 模式识别与机器学习(Bishop)。概率图模型(Koller 和 Friedman)和 人工智能(Russell 和 Norvig)是重要的卷册,也是机器学习和人工智能的权威参考书籍。

个人简介: Kevin GrayCannon Gray 的总裁,Cannon Gray 是一家市场科学和分析咨询公司。

原文。经许可转载。

相关:

  • 统计建模:入门

  • 文本分析:入门

  • 数据科学家的神经科学:理解人类行为


我们的三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析能力

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 工作


更多相关主题