数据预处理、降维、特征提取及聚类

数据预处理

StandardScaler: Z 标准化

help(StandardScaler)

MinMaxScaler: 极值标准化[0, 1]

RobustScaler: (x-median)/IQR

help(RobustScaler)

Normalizer: 面目全非的转换

将所有样本的特征向量转化为欧几里得距离为1.

sklearn 中其他的预处理方法

通过预处理提高模型的准确率

降维

PCA 降维后可视化

原始特征与PCA主成分之间的关系

从数学上讲,需要先理解内积和投影。本文略。

本文只直观绘图。

help(PCA)

特征提取

使用 LFW(Labeled Faces in the Wild) 人脸识别数据集。

载入 LFW 人脸识别数据集

预测人脸

白化 data whiten

数据白化能提升模型正确率。

所谓白化,就是降低冗余性,消除相邻像素的相关性,且使所有特征具有相同的方差。

NMF 非负矩阵分解用于特征提取

矩阵分解,就是把一个矩阵写成n个矩阵的连乘。

与PCA的区别:

聚类

k-means 聚类

凝聚聚类算法

简单说,就是最近的聚类,然后剩下的最近的再聚类,一直到最后成为一类。

DBSCAN 算法

全称是“基于密度的有噪声应用空间聚类”(Density-based spatial clustering of applications with noise)

DBSCAN 重要的参数

DBSCAN 重要的参数:

help(DBSCAN)

eps : float, default=0.5

实际使用时,先使用 MinMaxScaler 或 StandardScaler 进行预处理,DBSCAN算法的表现会更好。