BC.Wang Welcome

机器学习实战经验1-平衡样本数量

2018-09-26
BCWang

阅读:

AI

  • 有时会遇到数据集不平衡的现象,这种现象可以分为两种:
  • 一种是标签比例不均匀,比如A类有1000个,B类有20个,这样训练出来的网络,会倾向于把B都分错,而只管A,尤其是在A B里面有内在无关特征差异大的情况(无关特征是指与AB分类无关,仅仅是数据集上有偶然差异,就比如苹果和梨分类的重量,大小,比起含糖率,酸含量就是无关特征)
  • 另一个种是标签来源的数据集不均匀,比如苹果样本来自于中国的苹果有100个,美国的苹果有1000,这样的数据集本身之间就会有无关特征的差异,模型可能会学会利用这些无关特征进行分类,比如把美国的苹果利用某些特征分成苹果,把中国的100个苹果分成梨子,最后也有90%正确率
  • 因而,平衡样本数据量很重要,平衡同一个标签内的样本,再平衡标签样本
  • 实际中遇到的问题是一个分类问题,利用物种能量来分类最终筛选得到的化学反应路径,直接按照路径进行分类,只有75%的正确率,因为模型倾向于把数量大的标签分正确,而忽略了数量小的标签,平衡不同标签的样本数量后,正确率接近90%,但是有些标签预测正确率只有70%,这是因为这个标签来源于两个不同的样本,分别占66%和33%,于是对于这个标签的预测,模型倾向于分出这个标签所处的数据集来源,进而分类,而不是分类标签本身。(因为数据来源于两个数据集,两个数据集有很大的特征差异,于是模型可以先学习把数据集类型判断出来,然后再在数据集类型里面分类,这样不符合我们训练模型的目的
  • 上面的实际问题中,我的任务是利用线性NN来寻找Feature权重,而不是追求准确率,因而各个label的正确率需要平衡,即使5个标签,每个正确率是85%,都要比5个标签,4个正确率99%,1个正确率50%好得多。

Comments

Content
0