Skip to content

Latest commit

 

History

History
115 lines (58 loc) · 5.16 KB

linear-algebra-data-science.md

File metadata and controls

115 lines (58 loc) · 5.16 KB

数据科学的线性代数

原文:www.kdnuggets.com/2022/07/linear-algebra-data-science.html

数据科学的线性代数

作者提供的图片。

关键要点

  • 大多数有兴趣进入数据科学领域的初学者总是对数学要求感到担忧。

  • 数据科学是一个非常定量的领域,需要高级数学。

  • 但要开始,你只需掌握几个数学主题。

  • 在本文中,我们讨论了线性代数在数据科学和机器学习中的重要性。


我们的前三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯

2. 谷歌数据分析专业证书 - 提升你的数据分析能力

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 工作


线性代数

线性代数是数学的一个分支,在数据科学和机器学习中极为有用。线性代数是机器学习中最重要的数学技能。大多数机器学习模型可以用矩阵形式表示。数据集本身通常也表示为矩阵。线性代数用于数据预处理、数据转换和模型评估。以下是你需要熟悉的主题:

  • 向量

  • 矩阵

  • 矩阵的转置

  • 矩阵的逆

  • 矩阵的行列式

  • 矩阵的迹

  • 点积

  • 特征值

  • 特征向量

线性代数在机器学习中的应用:使用主成分分析进行降维

主成分分析(PCA)是一种用于特征提取的统计方法。PCA 用于高维和高度相关的数据。PCA 的基本思想是将原始特征空间转换为主成分空间,如下图 1 所示:

PCA 算法将旧特征空间转换为新特征空间,从而去除特征相关性

图 1:PCA 算法将旧特征空间转换为新特征空间,从而去除特征相关性。图片由 Benjamin O. Tayo 提供

PCA 变换实现了以下目标:

  1. a) 通过仅关注数据集中方差大部分的组件,减少最终模型中使用的特征数量。

  2. b) 去除特征之间的相关性。

PCA 的数学基础

假设我们有一个高度相关的特征矩阵,其中有4个特征和n个观察值,如下表 1 所示:

具有 4 个变量和 n 个观察值的特征矩阵。

表 1. 具有 4 个变量和 n 个观测值的特征矩阵。

为了可视化特征之间的相关性,我们可以生成一个散点图,如图 1 所示。为了量化特征之间的相关程度,我们可以使用以下方程计算协方差矩阵:

PCA 的数学基础

在矩阵形式中,协方差矩阵可以表示为 4 x 4 的对称矩阵:

协方差矩阵可以表示为 4 x 4 的对称矩阵

通过进行单位 ary 变换(PCA 变换),可以对该矩阵进行对角化,得到如下结果:

PCA 变换

由于矩阵的迹在单位 ary 变换下保持不变,我们观察到对角矩阵的特征值之和等于特征 X1X2X3X4 中包含的总方差。因此,我们可以定义以下量:

数据科学中的线性代数

注意,当p = 4时,累计方差如预期变为 1。

案例研究:使用鸢尾花数据集实现 PCA

为了说明 PCA 的工作原理,我们通过检查鸢尾花数据集来展示一个例子。R 代码可以从这里下载:https://github.com/bot13956/principal_component_analysis_iris_dataset/blob/master/PCA_irisdataset.R

摘要

线性代数是数据科学和机器学习中的一个重要工具。因此,初学者如果对数据科学感兴趣,必须熟悉线性代数中的基本概念。

本杰明·O·塔约 是物理学家、数据科学教育者和作家,同时也是 DataScienceHub 的所有者。此前,本杰明曾在中欧大学、大峡谷大学和匹兹堡州立大学教授工程学和物理学。

更多相关主题