栏目分类:
子分类:
返回
文库吧用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
文库吧 > IT > 软件开发 > 后端开发 > Python

特征筛选利器:Boruta 原理

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

特征筛选利器:Boruta 原理

Boruta

最近在搞一些机器学习的比赛,对特征筛选这块有点没什么经验,在面对百度编程过程中找到了Boruta这个工作,经过实验,达到相同效果的特征筛选数量上Boruta挑出来的数量少的一批,大量减少了计算量。在此记录一下原理,建议有时间去阅读阅读源码(Sklearn的代码写的都很棒,值得一看)

重要观念:

训练一个模型,随机生成的数据进行训练的效果一般都会比训练数据进行训练的效果差

总体思路:

对原始特征进行复制一份,并且将其按行进行随机打乱,称为Shadow Feature。将Shadow Feature与原始特征Real Feature进行横向拼接在一起,使用某种模型(随机森林、GBDT…)进行计算特征重要性。将Shadow Feature中重要性最高的值为基准,删除Real Feature中重要性低于其的特征。多重复几个迭代。(一般来说随机生成的特征效果不如原始的,因此可以以Shadow Feature的特征重要性作为基准来判断Real Feature的好坏)

特征保留条件:

满足二项分布:例如跑了20次迭代,记录每个特征保留的次数,只有满足如下图的横轴的次数才进行保留(紫色+绿色)

原码不复杂,可以阅读看看,挺有意思的:
飞机票

转载请注明:文章转载自 www.wk8.com.cn
本文地址:https://www.wk8.com.cn/it/1038338.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 wk8.com.cn

ICP备案号:晋ICP备2021003244-6号