多分类的样本不均衡问题
利用深度学习做多分类在工业或是在科研环境中都是常见的任务。在科研环境下,无论是NLP、CV或是TTS系列任务,数据都是丰富且干净的。而在现实的工业环境中,数据问题常常成为困扰从业者的一大难题;常见的数据问题包含有:
- 数据样本量少
- 数据缺乏标注
- 数据不干净,存在大量的扰动
- 数据的类间样本数量分布不均衡等等。
除此之外,还存在其他的问题,本文不逐一列举。针对上述第4个问题,2020年7月google发表论文《 Long-Tail Learning via Logit Adjustment 》 通过 BER ( Balanced Error Rate ) 对交叉熵函数的相关推理,在原有的交叉熵的基础上进行改造,使得平均分类精度更高。本文将简要解读该论文的核心推论,并使用 keras 深度学习框架进行实现,最后通过简单的Mnist手写数字分类的实验验证结果。
样本类别不均衡问题 - 知乎
缓解多分类的样本不均衡问题 - 简书
还没有评论,来说两句吧...