特征编码

it2022-05-05 170

离散类别特征

单值有序：

labelencoder 假设特征有m个取值，按照大小，映射0-m-1.

单值无序：

one-hot 优点：独热编码解决了分类器不好处理属性数据的问题，在一定程度上也起到了扩充特征的作用。它的值只有0和1，不同的类型存储在垂直的空间。编码后的向量是稀疏向量，只有一位是 1，其他都是 0，可以利用向量的稀疏来节省存储空间能够处理缺失值。当所有位都是 0，表示发生了缺失。此时可以采用处理缺失值提到的高维映射方法，用第 N+1 位来表示缺失值。缺点： 1、当类别的数量很多时，特征空间会变得非常大。 2、对于特定任务，例如词向量化，直接使用onehot的方式是无法考虑到词之间的交互关系的，onehot之后损失了部分信息。推而广之，如果特征之间是非独立的（比如上下文的词之间是存在交互关系，时间序列数据之间存在某些内在关系），就不能简单的使用onehot功能 3.KNN 算法中，高维空间下两点之间的距离很难得到有效的衡量； 4.逻辑回归模型中，参数的数量会随着维度的增高而增加，导致模型复杂，出现过拟合问题 5.通常只有部分维度是对分类、预测有帮助，需要借助特征选择来降低维度决策树不推荐one-hot原因：产生样本切分不平衡，切分增益会非常小。影响决策树的学习。决策树依赖的是数据统计信息，独热编码会把数据且分到零散的小空间，此时在这些小空间下统计信息是不准确的。 one-hot适用的模型：对数值大小比较敏感的模型，比如SVM

label_binarize 二值化编码征为【晴天，雨天，阴天，雷暴】则特征转化为【是否晴天，是否雨天，是否阴天，是否雷暴】，用数字来表示【雷暴】就是[0,0,0,1]，和onthot看起来很类似，很多时候不那么严格界定

二元化将数值型特征依据阈值转化为布尔特征。

直方图编码：基于训练集统计的编码，但缺点很多 1、未考虑样本中类别的数量 Target encoding 针对直方图编码的改进基于统计的编码都存在一个问题，就是当因为所有的统计计算都是基于训练集来的，所以一旦新数据集的分布发生变化，就会产生类似于过拟合所产生的不良的训练效果。对于C分类问题,目标编码（target encode）后只需要增加C−1个属性列,如果C远远小于N,则相对one-hot-encoding可以节省很多内存. 其出发点是用概率P(y=yi|x=xi)代替属性值x, 其中x表示属性值,y表示类别值. 但实际问题中,经常会遇到x=xi对应的样本数目比较少,导致对P(y=yi|x=xi)的计算不准确. 所以后来的改进结果是引入先验概率P(y=yi),公式转换成：当n比较大的时候， $\lambda$ 接近1，完全没有影响；当n比较小， $\lambda$ 也会比较小，这时候就小一点，最终的编码也就受到先验项的影响。对于参数 $\lambda$ 的设置，有以下考量：

如果测试集中出现了新的特征类别（未在训练集中出现），那么

\lambda

= 1。一个特征类别在训练集内出现的次数越多，后验概率的可信度越高，其权重也越大。

通过改写公式也可以将上面的编码适用于回归问题。

target encode是针对高基数类别特征（类别数目特别多）进行处理手段的最好的选择之一。但它也有缺点，就是容易过拟合，因为所有的统计计算都是基于训练集来的，所以一旦新数据集的分布发生变化，就会产生类似于过拟合所产生的不良的训练效果，所以接下来我们要介绍target encode 的升级版，也是目前最常用的特征编码方法之一，mean encoding mean encoding 均值编码与target encoding类似，为了避免过拟合，采用了交叉验证的方法。比如按照5折来做的话，80%数据进行target encoding的计算，然后20%数据做转化，然后将20%放入到新的训练集中；交叉验证5次后，新的训练集就产生了。

多值：

embedding

连续型特征

离散化将连续的数值属性转化为离散的数值属性。那么什么时候需要采用特征离散化呢？

这背后就是需要采用“海量离散特征+简单模型”，还是“少量连续特征+复杂模型”的做法了。

对于线性模型，通常使用“海量离散特征+简单模型”。优点：模型简单缺点：特征工程比较困难，但一旦有成功的经验就可以推广，并且可以很多人并行研究。对于非线性模型（比如深度学习），通常使用“少量连续特征+复杂模型”。优点：不需要复杂的特征工程缺点：模型复杂

分桶离散化常用的方法，按照样本在连续值属性的取值从小到大排列，按照自己的需求设置桶的个数，进行分桶好处：

离散化后得到稀疏向量，计算快 -对异常值有鲁棒性逻辑回归属于广义线性模型，表达能力受限，只能描述线性关系。特征离散化之后，相当于引入了非线性，提升模型的表达能力，增强拟合能力离散化后可以进行特征交叉，对于两个连续特征，离散化后，特征可以进行交叉，进一步引入非线性，提升表达能力。特征离散化简化了逻辑回归模型，同时降低模型过拟合的风险。能够对抗过拟合的原因：经过特征离散化之后，模型不再拟合特征的具体值，而是拟合特征的某个概念。因此能够对抗数据的扰动，更具有鲁棒性。另外它使得模型要拟合的值大幅度降低，也降低了模型的复杂度。

关于各种编码方式的选择？ label encoding 特征存在内在顺序 (ordinal feature) one hot encoding 特征无内在顺序，category数量 < 4 target encoding (mean encoding, likelihood encoding, impact encoding) 特征无内在顺序，category数量 > 4 beta target encoding 特征无内在顺序，category数量 > 4, K-fold cross validation 不做处理（模型自动编码） CatBoost，lightgbm

参考链接： https://zhuanlan.zhihu.com/p/67475635 https://zhuanlan.zhihu.com/p/56902262 https://zhuanlan.zhihu.com/p/26308272 https://zhuanlan.zhihu.com/p/40231966

专利

最新回复(0)