Changchun Master Li

特征选择总结

2017-03-28

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
有时候胜出者并非有最好的算法,而是有更多的数据。

特征选择的搜索策略:

  • 完全搜索策略

    特征选择本质上是一个组合优化问题,求解组合优化问题最直接的方法就是搜索

  • 启发式策略

    序列前向选择(SFS,Sequential Forward Selection) 从空集开始,每次加入一个选最优。
    序列后向选择(SBS,Sequential Backward Selection) 从全集开始,每次减少一个选最优。
    增L去R选择算法 (LRS,Plus-L Minus-R Selection) 从空集开始,每次加入L个,减去R个,选最优(L>R)或者从全集开始,每次减去R个,增加L个,选最优(L<R)。
    双向搜索(BDS,Bidirectional Search),序列浮动选择(Sequential Floating Selection)等

  • 随机搜索策略

    模拟退火算法SA
    遗传算法GA

特征选择的形式

过滤式(Filter)

单个特征跟目标变量的相关性
Pearson皮尔逊系数Gini-index基尼指数IG信息增益

评价标准从数据集本身的内在性质获得 分为四种 距离度量/信息度量/关联度度量/一致性度量

优点:通用性强;无分类器的训练步骤,复杂性低,适用大规模数据集;适合作为特征的预筛选器
缺点:评价标准独立于学习算法

封装式(Wrapper)

利用学习算法的性能来评价特征子集的优劣
训练一个分类器,根据分类器的性能对该特征子集进行评价
评价特征的学习算法是多种多样的,决策树、神经网络、贝叶斯分类器、近邻法、支持向量机

缺点:特征通用性不强,改变学习算法时,需要针对该学习算法重新进行特征选择;算法计算复杂度很高

嵌入式(Embedded)

特征选择算法本身作为组成部分嵌入到学习算法里。最典型的即决策树算法,如ID3/C4.5/CART

特征学习
https://zh.wikipedia.org/wiki/%E8%A1%A8%E5%BE%81%E5%AD%A6%E4%B9%A0

使用支付宝打赏
使用微信打赏

若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏

扫描二维码,分享此文章