难点
技术复杂、资料混乱、没有现成第三方库
单变量特征衍生——一个变量放进去衍生多个特征
双变量特征衍生——二组合生多
关键特征衍生——文本/时序
多变量特征衍生——三个及以上特征进行组合
原特征与衍生特征都可以带入特征工程
连续变量:
标准化
离散化
离散变量:
自然数编码/字典编码(非数值变数值)
duress编码/哑变量变换
求二次方、三次方等
特征衍生准则- 分类变量优先独热编码 | 连续变量优先数据归一化
- 连续变量较多时考虑聚类分箱;数据量大考虑minibatch
- 不建议对单变量使用多项式衍生,带有交叉项的多项式衍生往往效果更好
方法:
- 四则运算
- 交叉组合
- 分组统计
- 多项式
选两列进行加减乘除
运用场景:
创建业务补充字段
数据信息补充
多次衍生的到特殊字段
效果好,不复杂,含交叉项x1*x2等
注意事项
优先两个连续型变量
选取重要的特征进行多项式衍生,强化重要特征的表现形式
往往衍生3阶左右,配合归一化处理雄安出数值绝对值爆炸或衰减所造成的影响
PolynomialFeatures:
interaction_only默认为false,true表示只创建交叉项
include_bias默认为true即考虑零次方
第一个特征项数依次递减,第二个特征一次递增
交叉组合不同分类变量不同取值的组合
仅适用于取值较少的分类变量之间进行
对特征a根据特征b不同的特征进行分组统计,求统计量
注意事项:
特征a可以时离散也可以是连续,特征b必须是离散且最好取值较多的离散(或取值固定的连续)
统计方法不一定锁死,可以交叉使用,连续性统计众数离散型统计均值