Skip to content

Latest commit

 

History

History
91 lines (46 loc) · 8.92 KB

0996.md

File metadata and controls

91 lines (46 loc) · 8.92 KB

数据从哪里来?

原文:www.kdnuggets.com/2022/08/data-come.html

数据从哪里来?

图片由Christina Morillo提供

数据正在以越来越快的速度推动世界前进。它被用于辅助机器学习,优化人工智能驱动的计算机,并以惊人的准确性预测未来结果。我们的现代时代仍由数据推动的持续技术突破所定义。原始数据是新技术的指引,并帮助将新进展与现实和日常功能保持一致。


我们的前三个课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升您的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持您的组织的 IT 需求


数据让我们更好地掌控自己的生活。无论是为公共政策提供信息、优化自动驾驶车辆、预测我们何时需要订购手部清洁剂,还是在社交媒体上提供相关内容建议,数据都能帮助我们回答生活中的问题,往往是在我们意识到这些问题之前!

由于其作为商业智能的一种强大形式,消费者数据是无价的,对几乎每家公司来说都极其重要。数据对于那些利用机器学习技术的科技公司尤为宝贵。原始数据可以通过利用机器学习对现实生活的“学习”来增强软件的能力。

与人类不同,机器学习工具无需休息,因此人工智能计算机成为许多未来科学发现的源泉似乎是不可避免的。一个雄心勃勃的科技初创公司如何才能最好地获得大量数据并保持控制?

在本文中,我们将讨论收集或接收数据的五种主要方式,无论是为了优化人工智能驱动的机器,还是简单地预测未来的消费者需求。

原始数据从哪里来?

数据存在于我们周围,但为特定项目收集和组织数据有时可能令人不知所措。以下是原始数据的五大常见来源。

1. 公开可用的数据

我们将从最明显的数据来源开始——公共数据,这些数据可以在政府记录或其他公共数据库中找到,如 Facebook、LinkedIn 或 Google。公共数据是任何公开的信息,例如报纸报道、城市人口普查信息或选民登记名单。随着我们的社会不断将更多技术融入日常生活,关于人们的数据只会继续增长。

例如,最近的一项研究显示,通过美国人口普查局收集的信息可以准确预测社区的人口变化,这可能会减少劳动力密集的上门普查调查的需求。虽然这是一个无害的例子,但其他收集公共数据的技术改进,例如面部识别技术,仍然是有争议的数据收集方式,因此很少使用。

无论你是在通过 Twitter 进行情感分析,还是使用本地人口统计数据来建立初步的数据模型,公共数据都可以作为有用的基础。虽然这是你研究或项目的一个良好起点,但它也使得你的数据模型更容易被复制。统计数据显示,81%的零售商收集大量数据以帮助他们的营销和发展。

使用公共数据可以使你的模型更加通用,但也可以带来一种透明度,这对你的项目是有利的。例如,像比特币这样的加密货币在一个无权限、所有人都可以访问的公共区块链上交易,但交易依然非常安全。

2. 使用你软件的数据

既然你已经有了基于公开数据的模型,现在是时候用更具体的数据进行微调了。

用于机器学习或开发人工智能程序的最佳数据是与你的程序或用户类型特定的数据。例如,自动驾驶汽车会不断收集来自驾驶员的数据以增强其自主驾驶能力。对话式 AI 聊天机器人依赖数据输入和用户行为来提升其回复请求和准确回答问题的能力。

这种收集数据的方法极为相关,因为它非常具体。例如,如果你在为一家金融公司开发一个人工智能驱动的搜索数据库,你可以使用公开的金融数据来开始构建数据库的基础。然而,为了真正完善数据库,使其能够定制化地应对金融部门中出现的各种问题和查询,该软件需要依靠与用户的互动来进行学习。这就是为什么人工智能驱动的软件可能一开始显得笨拙或无关紧要,而在频繁使用后变得更加准确和高效。

3. 人工输入

另一种数据收集的方法来源于人工输入。在这种方法中,经过培训的操作员或工程师在设计或应用程序时,同时进行数据收集。在系统操作时手动监督和控制,开发人员可以在开发新模型的原型时同时收集现实世界的数据。系统可能一开始由操作员控制 70%,自主 30%,但一旦收集到足够的数据,并且人工智能得到增强,系统可能会在“学习”如何行为的过程中进展到 95%自主。

自驾车,例如,在成为完全自主之前经历 5 个阶段。汽车从最基本的自驾功能开始——例如检测前方车辆并刹车、保持车道内直行或维持某一速度。这些功能依赖于摄像头和传感器,这些也在收集关于驾驶行为、社区和常见障碍的数据方面发挥重要作用。

4. 数据收集

一种更为传统的数据收集形式,“暴力数据采集”仍然是一种有效的方法。这是指数据是有目的地收集的,而不是从公开数据中获取或作为产品测试或开发的一部分。例如,一个城市普查员可能会逐户核实信息关于居住在那里的市民。类似地,一辆勘测车可以被指派在社区周围行驶,以收集图像用于创建高清地图。

在这两种情况下,主要目标是数据收集。寻找模式和使用数据是在之后的步骤——没有人为或人工智能的干预来使数据有意义。虽然这种方法耗时且劳动密集,但这种艰难获得的数据对竞争者来说可能难以复制。

5. 购买数据集

公司获得高质量数据的一种越来越受欢迎的方法是直接从一个可信赖的公司购买数据集。在购买数据用于模型时,你无法控制所获得数据的类型或质量,并且总有可能这些数据会过时或与你的项目不相关。

然而,这是一种快速而简单的方式来获取你开始训练程序所需的数据。使用这种方法获取数据的公司应当研究他们购买的数据来源公司、数据的来源以及数据的收集方式,以确认这些数据是否符合他们的需求再进行购买。

结论

数据无处不在,并将继续推动技术增长在我们的社会中。随着人工智能和机器学习,特别是,推动我们进入一个令人兴奋的新纪元,我们将看到来自科技公司的高质量和实时数据需求日益增加。

如果你在寻找自己项目的数据,最近改版的 KDnuggets 精心挑选的数据科学、机器学习、人工智能和分析的数据集是一个很好的起点。

Nahla Davies 是一名软件开发人员和技术作家。在全职从事技术写作之前,她曾管理——其中包括许多有趣的事情——担任一家《财富》5000 公司体验式品牌机构的首席程序员,该机构的客户包括三星、时代华纳、Netflix 和索尼。

更多相关话题