推广 热搜: 百度  搜索引擎  企业  可以  使用  选择  上海  技术  货运  未来 

长尾分布原理

   日期:2025-01-02     作者:c7ljf    caijiyuan  
核心提示:一个均衡的数据集固然大大简化了对算法鲁棒性的要求,也一定程度上保障了所得模型的可靠性,但随着关注类别的逐渐增

一个均衡的数据集固然大大简化了对算法鲁棒性的要求,也一定程度上保障了所得模型的可靠性,但随着关注类别的逐渐增加,维持各个类别之间均衡就将带来指数增长的采集成本。

长尾分布数据:就是少数类别有大部分数据,而多数类别只有小部分数据。

直接利用长尾数据来训练的分类和识别系统,往往会对头部数据过拟合,从而在预测时忽略尾部的类别。如何有效的利用不均衡的长尾数据,来训练出均衡的分类器就是我们所关心的问题,从工业需求上来说,该研究也将大大地提升数据采集的速度并显著降低采集成本。

常用的解决方法

class re-balancing 策略比如 re-weighting 或 re-sampling。
正面作用: 能够调整网络的训练,通过在小批量内对样本重新取样或对样本损失重新加权,期望更接近于测试的分布,因此,类别的 re-balancing 可以直接影响深层网络分类器权重的更新,从而促进分类器的学习。

负面作用

一定程度的损坏网络所学习的深层特征的能力,也就是当数据极度不平衡时,re-sampling 有对尾部数据过拟合的风险(通过过采样)也有对全部数据欠拟合的风险(通过欠采样)。
re-weighting,直接改变或翻转数据出现的频率,会使原数据失真。
这些常用方法的特点

能够显著的促进网络的分类器学习能力
在一定程度上损害所学习深层特征的表达能力
 

本文地址:http://ww.kub2b.com/tnews/4570.html     企库往 http://ww.kub2b.com/ ,  查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类生活信息

文章列表
相关文章
最新动态
推荐图文
生活信息
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号