栏目分类:
子分类:
返回
文库吧用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
文库吧 > IT > 软件开发 > 后端开发 > Python

特征工程——特征衍生

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

特征工程——特征衍生

难点
技术复杂、资料混乱、没有现成第三方库

特征衍生方法

单变量特征衍生——一个变量放进去衍生多个特征
双变量特征衍生——二组合生多
关键特征衍生——文本/时序
多变量特征衍生——三个及以上特征进行组合

单变量特征衍生 数据冲编码特征衍生

原特征与衍生特征都可以带入特征工程

连续变量:
标准化
离散化

离散变量:
自然数编码/字典编码(非数值变数值)
duress编码/哑变量变换

高阶多项式特征衍生

求二次方、三次方等

特征衍生准则
  1. 分类变量优先独热编码 | 连续变量优先数据归一化
  2. 连续变量较多时考虑聚类分箱;数据量大考虑minibatch
  3. 不建议对单变量使用多项式衍生,带有交叉项的多项式衍生往往效果更好
双变量特征衍生

方法:

  1. 四则运算
  2. 交叉组合
  3. 分组统计
  4. 多项式
四则预算

选两列进行加减乘除

运用场景:
创建业务补充字段
数据信息补充
多次衍生的到特殊字段

多项式特征衍生

效果好,不复杂,含交叉项x1*x2等

注意事项
优先两个连续型变量
选取重要的特征进行多项式衍生,强化重要特征的表现形式
往往衍生3阶左右,配合归一化处理雄安出数值绝对值爆炸或衰减所造成的影响

PolynomialFeatures:
interaction_only默认为false,true表示只创建交叉项
include_bias默认为true即考虑零次方

第一个特征项数依次递减,第二个特征一次递增

交叉组合

不同分类变量不同取值的组合
仅适用于取值较少的分类变量之间进行

分组统计

对特征a根据特征b不同的特征进行分组统计,求统计量

注意事项:
特征a可以时离散也可以是连续,特征b必须是离散且最好取值较多的离散(或取值固定的连续)
统计方法不一定锁死,可以交叉使用,连续性统计众数离散型统计均值

转载请注明:文章转载自 www.wk8.com.cn
本文地址:https://www.wk8.com.cn/it/1037856.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 wk8.com.cn

ICP备案号:晋ICP备2021003244-6号