数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
有时候胜出者并非有最好的算法,而是有更多的数据。
特征选择的搜索策略:
完全搜索策略
特征选择本质上是一个组合优化问题,求解组合优化问题最直接的方法就是搜索
启发式策略
序列前向选择(SFS,Sequential Forward Selection) 从空集开始,每次加入一个选最优。
序列后向选择(SBS,Sequential Backward Selection) 从全集开始,每次减少一个选最优。
增L去R选择算法 (LRS,Plus-L Minus-R Selection) 从空集开始,每次加入L个,减去R个,选最优(L>R)或者从全集开始,每次减去R个,增加L个,选最优(L<R)。
双向搜索(BDS,Bidirectional Search),序列浮动选择(Sequential Floating Selection)等随机搜索策略
模拟退火算法SA
遗传算法GA
特征选择的形式
过滤式(Filter)
单个特征跟目标变量的相关性
Pearson皮尔逊系数Gini-index基尼指数IG信息增益
评价标准从数据集本身的内在性质获得 分为四种 距离度量/信息度量/关联度度量/一致性度量
优点:通用性强;无分类器的训练步骤,复杂性低,适用大规模数据集;适合作为特征的预筛选器
缺点:评价标准独立于学习算法
封装式(Wrapper)
利用学习算法的性能来评价特征子集的优劣
训练一个分类器,根据分类器的性能对该特征子集进行评价
评价特征的学习算法是多种多样的,决策树、神经网络、贝叶斯分类器、近邻法、支持向量机
缺点:特征通用性不强,改变学习算法时,需要针对该学习算法重新进行特征选择;算法计算复杂度很高
嵌入式(Embedded)
特征选择算法本身作为组成部分嵌入到学习算法里。最典型的即决策树算法,如ID3/C4.5/CART
特征学习
https://zh.wikipedia.org/wiki/%E8%A1%A8%E5%BE%81%E5%AD%A6%E4%B9%A0
赏
使用支付宝打赏
使用微信打赏
若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏
扫描二维码,分享此文章