Skip to content

Latest commit

 

History

History
125 lines (63 loc) · 9.49 KB

1716.md

File metadata and controls

125 lines (63 loc) · 9.49 KB

数据科学中的业务直觉

www.kdnuggets.com/2017/10/business-intuition-data-science.html (原文)

c评论

作者:Jahnavi Mahanta

通常,当我们考虑数据科学任务时,首先想到的是需要应用的算法技术。虽然这非常重要,但典型的数据科学任务还需要同等的关注其他许多步骤。


我们的前三个课程推荐

1. Google 网络安全证书 - 加入网络安全职业速成班

2. Google 数据分析专业证书 - 提升你的数据分析能力

3. Google IT 支持专业证书 - 为 IT 部门提供支持


典型的数据科学任务可能包含以下阶段:

让我通过一个简单的案例研究来解释:

这是一个在线零售商,在假日季节之前的十一月份举办购物节。他们的产品目录中有一百万个产品,并且在过去的时期有一亿个客户购买了他们的商品。

零售商希望向其客户群体发送促销电子邮件。目标是运营一系列“成功的电子邮件营销活动”。

现在让我们了解这个特定任务的不同生命周期阶段:

1. 定义业务目标:

这是一个非常关键的阶段,因为对当前业务问题/目标的错误解释可能导致错误的解决方案和不可取的结果。如果你真的考虑一下,数据科学的角色是使用数据和洞察力来解决现实世界的问题。从这个角度来看,准确地识别问题和定义目标对于成功的结果至关重要。在这个例子中,营销人员想要向每位客户发送定制电子邮件,展示根据客户的偏好和口味精心策划的产品优惠列表:

图片来源

在这种情况下,为了定义业务目标,我们需要提出一些问题:

1. 我们是给所有 1 亿客户发送电子邮件,还是给一部分客户发电子邮件?

来源:daric.classtell.com/

零售商正在组织一次购物节,因此向所有 1 亿客户发送电子邮件可能是有意义的,但还是需要考虑一些要点:

a. 通过向所有客户发送大量电子邮件,会让一些客户感到不满意。例如,那些不活跃地在零售商那里购物的客户。

b. 由于我们希望向客户展示经过策划的产品列表(基于个人的偏好),所以,如果考虑了所有的 1 亿客户,我们可能会得到一组客户,这些客户对任何产品的偏好可能不是很高(可能是因为他们并没有在这家零售商那里购买很多东西,因此,零售商没有足够的信息来了解他们的偏好)

c. 有时,数据处理和存储成本也可能是一个考虑因素。处理 1 亿客户及其特征,运行机器学习算法可能非常耗时和资源密集。虽然基础设施可以处理,但结合前两个考虑因素,排除一些客户可能有意义,特别是为了加快上市时间。

链接

来源:mobileadvertisingwatch.com

2、我们如何定义和量化成功度量标准?这是一个非常重要的决定,直接关系到业务目标。在上述情况下,我们可以有几种可能的成功度量标准:

a. 营销活动的购买率(购买数/发送的电子邮件数):这个度量标准将告诉我们营销活动有多有效说服客户去消费。所以,如果零售商只关心整个营销活动带来了多少销售额,那么这个度量就是要注意的!

链接

来源:https://www.jaroop.com/web-traffic/

b. 营销活动的电子邮件打开率(打开的电子邮件数/发送的电子邮件数):如果零售商想要了解其他因素,比如电子邮件活动内容的有效性,那么这可能很重要,特别是在这种情况下,电子邮件主题有多“吸引人”。同样地,电子邮件点击率(在打开邮件后,点击邮件中提供的网站链接,以登陆零售商网站)显示了电子邮件内容的有效性。

c. 营销活动的盈利能力: 有时,与其只吸引更多的客户做出反应(即提高反馈率),零售商可能对吸引每位客户的花费更感兴趣。这样想吧 – 一个旨在吸引更多客户消费的活动可能吸引购买很多产品但价值较低的客户,逃避购买较少但购买高价值产品的客户。

2、数据处理和分析:

这同样是另一个非常重要的阶段,我们详细了解手头可用的数据以及如何使用它准确地解决手头的问题。

大致来说,这个阶段可能包括以下步骤:

  1. 缺失值处理

  2. 异常值处理

  3. 数据细分

  4. 特征工程

一个接一个地浏览它们,以便对为什么需要这一步有所直觉。在上面的案例中,假设您有以下的数据,来自过去的促销电子邮件活动:

上面的数据是在线零售商的一部分信息的三个客户的快照(总共有 1 亿客户)。

可以看到第 2 个客户的性别是未知的。性别可能是有力的信息,因此,如果大部分客户的性别是“未知”或“缺失”的,则我们将失去一条非常重要的信息。可以有许多方法来对性别进行插补(通过称谓或姓名),因此可用于缺失值处理。 类似地,如果报告的年收入丢失了(因为这个信息仅由客户提供,他/她可能不愿提供),我们可以使用过去 12 个月的支出来插补/预测年收入。

异常值处理 也很重要。例如,我们可能会看到一些“过去 12 个月支出”或“年收入”的非常高的值。在支出方面,这可能是因为某些客户的一次性高额支出,这种情况可能不持续并可能对整个数据造成偏见,因此将支出值设定在某个阈值上限(例如“过去 12 个月支出”的 99 或 95 分位数值)可以帮助减少这种偏见。

有时,我们可能会看到数据中存在行为非常不同的不同客户细分。例如,如果我们看看最近的客户(过去 6 个月成为在线零售商的会员),这些客户的行为方式可能与其他客户截然不同(他们可能非常好奇,因此电子邮件的开启率可能非常高,但购买率可能很低)。 因此将这些客户与其他客户混合在一起可能会对某些参数的数据造成偏见,或者这些客户的特征可能会被其他客户所掩盖,在构建任何预测算法时降低了它们的代表性。 在这种情况下,为这两个***“数据细分”***(新客户和其余客户)建立单独的算法可能是有意义的。

特征工程: 特征或变量真的能为算法提供预测能力。因此,拥有正确的特征集对于构建强健的算法至关重要 – 因此重点放在特征工程上。 特征工程的类型:

  1. 特征选择:选择对问题最有用的特征子集。有许多特征选择算法,例如基于相关性、信息价值或其他特征重要性概念的得分算法。然而,随着越来越多的计算能力和机器学习技术,特征选择越来越多地在算法内部处理。

  2. 特征构建:从原始数据中手动构建新的特征,例如在上述案例研究中,我们有一个“最后消费日期”的特征,本身可能不提供任何预测能力。然而,我们可以创建一个“距离最后消费的天数”的特征,这可能非常有用(最近消费的客户可能有更高的再次消费意愿,因此对电子邮件优惠更具响应性)。

  3. 特征提取:一些数据,如图像、声音、文本,可能有多个特征,因此,通过特征提取,我们可以自动降低这些类型特征的维度,并从数据中提取隐藏的特征。例如,在像下面的 Pokemon 图像识别中,每个图像可以有成百上千个特征(像素)。因此,任何图像识别算法都必须处理来自多个图像的大量特征。因此,算法必须能够自动提取和减少这些大量特征到一个较小的有意义的特征集。

更多关于此主题的信息