Skip to content

Latest commit

 

History

History
165 lines (83 loc) · 12.4 KB

guide-data-science-project-management-methodologies.md

File metadata and controls

165 lines (83 loc) · 12.4 KB

数据科学项目管理方法指南

原文:www.kdnuggets.com/2023/07/guide-data-science-project-management-methodologies.html

数据科学项目管理方法指南

作者提供的图片

数据科学项目有很多元素。这个过程中涉及许多人,并且面临许多挑战。很多公司认识到数据科学的必要性,它已经在我们的生活中得到了应用。然而,有些公司在如何利用他们的数据分析以及选择哪条路径到达目标时遇到困难。


我们的三大课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业生涯。

2. Google 数据分析专业证书 - 提升你的数据分析技能

3. Google IT 支持专业证书 - 支持你所在组织的 IT


公司在使用数据科学时最大的假设是,由于它们使用编程语言,因此它们模仿了与软件工程相同的方法。然而,数据科学和软件中的模型是不同的。

数据科学需要其独特的生命周期和方法论才能成功。

数据科学生命周期

数据科学生命周期可以分为 7 个步骤。

业务理解

如果你为公司制作任何东西,你的首要问题应该是‘为什么?’我们为什么需要这样做?这对业务有什么重要性?为什么?为什么?为什么?

数据科学团队负责建立模型并根据业务需求生成数据分析。在数据科学生命周期的这一阶段,数据科学团队和公司高管应该识别项目的核心目标,例如,查看需要预测的变量。

这个数据科学项目基于什么?是回归任务、分类任务、聚类还是异常检测?一旦你理解了你项目的整体目标,你可以继续问为什么、什么、在哪里、什么时候以及如何!提出正确的问题是一种艺术,它会为数据科学团队提供项目的深入背景。

数据挖掘

一旦你获得了完成项目所需的所有业务理解,你的下一步将是通过收集数据来启动项目。数据挖掘阶段包括从各种来源收集与项目目标一致的数据。

在这个阶段你将提出的问题包括:我需要什么数据?我可以从哪里获得这些数据?这些数据是否有助于实现我的目标?我将如何存储这些数据?

数据清理

一些数据科学家选择将数据挖掘和数据清理阶段合并。然而,将这些阶段区分开来有助于更好的工作流程。

数据清理是数据科学工作流中最耗时的阶段。数据越大,所需时间越长。通常,这个过程会占据数据科学家 50%-80%的时间。之所以花费如此长的时间,是因为数据从来不会是干净的。你可能会遇到数据不一致、缺失数据、标签错误、拼写错误等问题。

在进行任何分析工作之前,你需要纠正这些错误,以确保你计划使用的数据是正确的,并将产生准确的输出。

数据探索

在花费大量时间和精力清理数据之后,你现在拥有了干净的数据,可以开始数据探索了!这个阶段是你整体项目目标的头脑风暴。你需要深入挖掘数据中的信息,发现隐藏的模式,创建可视化以获取更多见解等。

根据这些信息,你将能够创建一个符合业务目标的假设,并以此作为参考点,以确保你在任务上保持正确。

特征工程

特征工程是从原始数据中开发和构建新数据特征的过程。你从原始数据中创建符合业务目标的信息性特征。特征工程阶段包括特征选择和特征构造。

特征选择是减少特征数量的过程,那些特征比实际有价值的信息带来了更多的噪声。拥有过多特征可能会导致维度诅咒,使得数据的复杂性增加,从而使模型难以有效学习。

特征构造顾名思义,就是构建新的特征。利用你当前拥有的特征,你可以创建新的特征。例如,如果你的目标集中在高级成员上,你可以为所需的年龄设置一个阈值。

这个阶段非常重要,因为它会影响你预测模型的准确性。

预测建模

这时乐趣开始了,你将看到是否达到了业务目标。预测建模包括训练数据、测试数据,以及使用全面的统计方法以确保模型的结果对创建的假设具有显著性。

根据你在“业务理解”阶段提出的所有问题,你将能够确定哪个模型适合你当前的任务。你的模型选择可能是一个反复试验的过程,但这是确保你创建成功模型并产生准确输出的重要步骤。

一旦你建立了模型,你会想要在数据集上训练它并评估其表现。你可以使用不同的评估指标,例如 k 折交叉验证,来衡量准确性,并持续进行直到你对准确性值感到满意。

使用测试和验证数据来测试你的模型可以确保准确性并确保模型表现良好。用未见过的数据来测试模型是一个好方法,可以了解模型在未曾训练过的数据上的表现。这让你的模型实际运作起来!

数据可视化

一旦你对模型的表现感到满意,你就可以回到公司向高层解释所有内容。创建数据可视化是一种有效的方式,可以向非技术人员解释你的发现,同时也是讲述数据故事的好方法。

数据可视化是沟通、统计和艺术的结合。你可以用多种方式以美观的方式展示数据发现。你可以使用工具如Matplotlib 文档Seaborn 教程Plotly 库。如果你使用 Python,可以阅读这个:用 Python 图形库制作惊人的可视化。

就这样,你到了生命周期的终点,但请记住这是一个循环。因此,你需要回到开始:业务理解。你需要评估模型在原始业务理解和目标,以及所创建的假设方面的成功。

数据科学项目管理方法

现在我们已经了解了数据科学生命周期,你可能会觉得这很简单。只是一步接一步。但我们都知道事情并非如此简单。为了使其尽可能简单和有效,需要实施管理方法。

数据科学项目不再仅仅是数据科学家的责任——这是一个团队的努力。因此,标准化项目管理是至关重要的,你可以使用一些方法来确保这一点。让我们深入了解这些方法。

瀑布方法

就像瀑布一样,瀑布方法是一种顺序开发过程,贯穿项目的所有阶段。每个阶段需要完成后才能开始下一个阶段。阶段之间没有重叠,使其成为一种有效的方法,因为没有冲突。如果你需要重新访问之前的阶段,这意味着团队的计划不周。

它由五个阶段组成:

  1. 要求

  2. 设计

  3. 实施

  4. 验证(测试)

  5. 维护(部署)

那么什么时候应该使用瀑布方法呢?由于它像水一样流动,一切都需要明确。这意味着目标已经定义,团队对技术栈了如指掌,并且项目元素都到位,以确保过程顺畅有效。

但让我们回到现实中。数据科学项目是否像水一样流动?不。它们需要大量的实验、需求变化等等。然而,这并不意味着你不能使用瀑布方法的元素。瀑布方法需要大量规划。如果你规划好一切,是的,你可能仍会遇到 1 或 2 个问题,但挑战会减少,并且对过程的冲击不会那么大。

敏捷方法

敏捷方法诞生于 2001 年初,当时 17 人聚集在一起讨论软件开发的未来。它建立在 4 个核心价值观和 12 个原则之上。

敏捷方法更符合当今的技术,因为它适应了快节奏、不断变化的技术行业。如果你是技术专业人士,你知道数据科学或软件项目中的需求总是在变化。因此,拥有一种能够快速适应这些变化的方法是重要的。

敏捷方法是一个完美的数据科学项目管理方法,因为它允许团队在项目成长过程中持续审查需求。高管和数据科学经理可以在开发过程中做出关于需要进行更改的决策,而不是在一切完成后才做决定。

这被证明是非常有效的,因为模型不断发展以反映以用户为中心的输出,从而节省了时间、金钱和精力。

一个敏捷方法的例子是Scrum。Scrum 方法使用一种框架,帮助团队通过一套价值观、原则和实践来建立结构。例如,使用 Scrum,数据科学项目可以将其较大的项目拆分成一系列较小的项目。每个小项目称为一个迭代周期,并包括迭代周期规划,以定义目标、需求、责任等。

混合方法

为什么不将两种不同的方法结合起来使用呢?这就是所谓的混合方法,其中两种或多种方法被用来创建一种完全独特于业务的方法。公司可以在所有类型的项目中使用混合方法,但其背后的原因是产品交付。

例如,如果客户需要一个产品但对使用敏捷方法中的迭代周期感到不满意。那么看来公司需要做更多的规划,对吧?什么方法需要大量规划?没错,就是瀑布方法。公司可以将瀑布方法融入到他们的方法中,以特别满足客户的需求。

一些公司可能对将敏捷方法与非敏捷方法(如瀑布方法)结合起来有不同的看法。这两种方法可以共存,但公司有责任确保简单且合理的方法,衡量混合方法的成功,并提供生产力。

研究与开发

有人可能将其视为一种方法论,然而,我认为这是数据科学项目过程中的一个重要基础。就像瀑布方法论一样,规划和准备尽可能多的信息没有坏处。

但这并不是我在这里讨论的内容。是的,在开始项目之前进行全面研究是很棒的。但是,确保有效项目管理的一个好方法是将你的项目视为一个研究和开发项目。这是一个有效的数据科学团队协作工具。

你要在跑之前走路,并把你的数据科学项目当作研究论文来操作。一些数据科学项目有严格的截止日期,这使得这个过程变得困难,然而,急于完成最终产品总是会带来更多的挑战。你要建立一个有效且成功的模型,以满足你初始的数据科学生命周期阶段:业务理解。

数据科学项目中的研究和开发保持了创新的开放性,增加了创造力,并且不会限制团队仅仅满足于可能更大的成就!

总结

虽然有不同的方法论可供选择,但最终归结于业务的操作。一些在某公司流行的方法,可能不是另一个公司的最佳选择。

个人可能有不同的工作方式,因此最好的方法是创建一个适合每个人的方法。

想了解如何自动化你的数据科学工作流程,可以阅读这篇文章:数据科学工作流程中的自动化。

Nisha Arya 是一位数据科学家、自由技术写作人和 KDnuggets 的社区经理。她特别感兴趣于提供数据科学职业建议或教程以及围绕数据科学的理论知识。她也希望探索人工智能如何有益于人类生命的延续。她是一位热衷学习者,寻求拓宽她的技术知识和写作技能,同时帮助指导他人。

更多相关内容