chapter 10 数据表达与特征工程

数据表达

使用哑变量转化类型特征

对数据进行装箱处理

OneHotEncoder

装箱的好处:可以纠正模型过拟合或者欠拟合的问题。

数据“升维”

交叉式特征(Interaction Features)和多项式特征(Polynomial Features)

交叉式特征(Interaction Features)

交叉相

多项式特征(Polynomial Features)

多项式: y = ax^4 + bx^3 + cx^2 + dx + e

自动特征选择

单一变量法进行特征选择

很多场景只关心最重要的指标,忽略其他不那么重要的指标:

sklearn 中的特征选择方法:

使用 SelectPercentile 进行特征选择

基于模型的特征选择

步骤:先使用一个监督学习模型,判断数据特征的重要性,保留最重要的特征。

迭代式特征选择

递归特征剔除法(Recursive Feature Elimination, RFE): https://machinelearningmastery.com/rfe-feature-selection-in-python/