BC.Wang Welcome

机器学习中遇到的问题1-特征的权重,数据集分布与过拟合

2018-09-25
BCWang

阅读:

AI

  • 例子:一个化学反应路径的数据集,X是物种的能量,48长度向量,y是筛选出来的路径种类的hash值,是一个监督学习,分类问题
  • 物种能量是两个金属的,筛选出的路径,因为金属不同,所以导致路径差异很大,几乎没有共同路径,但本质上是通过影响能量而影响路径
  • 对两个金属的代表路径进行分类,先对X进行PCA,PCA是无监督的,然后PCA降维到1个量,能够对A和B路径进行分类。
  • 然后根据降维之后的这1个量去找之前的48个量的权重,却发现有很多个物种,明明对反应路径贡献很小(反应路径中没有出现这个物种),但是却权重很大
  • 经过分析发现,仅仅是因为筛出A路径和筛出B路径是在不同金属上,而CH3O*在这两种金属上的能量差异巨大,导致了这种情况。
  • 也就是说,两个label数据集中,有一个Feature的值差异很大,但这个Feature并不是造成这个label差异的本质原因,而仅仅是恰好数据集来源于不同的地方。
  • 如果贸然把这个Feature加大权重进行label分类,必然会过拟合。
  • 举个更容易理解的例子是,对苹果和梨进行分类,采用的Feature是重量,含水率,含糖率等等,但此时,训练集中苹果的重量总是低于梨的,于是训练出的模型只需要判断重量就进行分类了。
  • 这种问题的解决方法,可以尝试去掉这个无关的Feature,或者增加训练集
  • 这也很可能是一些过拟合出现的原因,无法避免。

other

  • Q:神经网络训练时输出的Error保持在很大的范围内并且难以下降
  • A:可能是由于最后一层加入了不合适的激活函数导致输出在(0,1)范围内,而实际上y是在几十几百左右

Comments

Content
0