关于机器学习类别不平衡问题

it2022-05-05  125

1、类别不平衡会造成什么? 分类器学习不平衡。由于正负样本比例不同,造成分类器为了达到较高的分类精度,会侧重于学习样本数多的一方,造成小样本分类误差提高。例如,98个正例,2个负例,则分类器会侧重学习正例的隐含关系,而负类学习程度与否对最终的精度影响都很小。kappa系数可以降低类别样本数不平衡引起的精度偏差。 2、训练集和验证集为什么要保持数据分布一致? 不一致会造成精度不稳定。例如上例,验证集若包含49个正例,2个反例,则评价精度应该与训练精度差不多。可若验证集为一半正例,一半负例,会造成精度降低。但是若两个数据集都能代表总体样本类别的比例,则最后的精度会更加偏向真实精度。 3、验证集应该如何选取? (1)留出法,例如对于小样本,通常70%训练,30%验证。分层采样保持类别比例一致。 (2)交叉验证法,常用10次10折验证。随机分割10个子集,按照9:1分别验证精度,并随机分10次。 和留1法 (3)自助法。原本应该用所有样本去训练模型。


最新回复(0)