有用的概念

众数 Mode
均值 Mean
中位数 Median
四分位差 IQR= Q3 - Q1

它是上四分位数（Q3，即位于75%）与下四分位数（Q1，即位于25%）的差的平均值。

四分位差反映了中间50%数据的离散程度，其数值越小，说明中间的数据越集中；其数值越大，说明中间的数据越分散。四分位差不受极值的影响。此外，由于中位数处于数据的中间位置，因此，四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度
离均差：单项测定值与均值的差
绝对偏差: 单项测定值与均值差的绝对值
平均偏差 : 离均差之和除以总数
平均绝对偏差 : 指单项测定值与平均值的偏差（取绝对值）之和，除以测定次数。即绝对偏差之和除以总个数
平方偏差：离均差的平方
平均平方偏差（方差variance）: 所有平方偏差和除以总个数
标准差(SD) ：方差开方得到。最常用的分布测量方法

计算步骤：先计算均值 > 再计算离均差 > 计算平方偏差 > 计算方差 > 计算标准差

意义：
第一，大约 68% 的数据与均值的偏差不超过 1 个标准差
第二，95% 的数据与均值的偏差不超过 2 个标准差
贝塞耳校正（估算标准差或者叫样本标准差）：所有平方偏差和除以总个数减1 再开方。
准确率
混淆矩阵 Confusion matrix
决策树混淆矩阵

查全率（召回率） recall

检出的相关文献量与检出的文献总量的百分比

recall = True Positives(真 正实例) / (True Positives(真 正实例) + False Negatives(假 负实例))

查准率(精确率) precision

检出的相关文献量与检索系统中相关文献总量的百分比

precision = True Positives(真 正实例) / (True Positives(真 正实例) + �False Positives(假 正实例))

F1分数(F1 Score) 又称平衡F分数（balanced F Score）

F1 分数会同时考虑精确率和召回率，以便计算新的分数。

可将 F1 分数理解为 精确率 和 召回率 的 加权平均值，其中 F1 分数的最佳值为 1、最差值为 0
```
F1 = 2 * precision * recall  / (precision + recall)
```
异常值

如果：Outlier < Q1 - 1.5 * (IQR) 或者 Outlier > Q3 + 1.5 * (IQR), 则这个数 Outlier 就被认为是异常值。

Data Type

机器学习解决问题三大步骤：