定制加工
AAAI2021 | 用于长尾识别的tricks大礼包
2024-12-31 15:22

点击上方“CVer,选择加"星标"置顶

近年来,基于深度学习的方法在长尾分布(类别不平衡)数据上取得了极大进展。除了这些复杂的方法外,训练过程中的那些简单“技巧”(比如数据分布、损失函数的调整)同样起着不小的贡献。然而,不同的“技巧”之间可能存在“冲突”。如果采用了不合理的“技巧”进行长尾相关的任务,这就很可能导致较差的识别精度。不幸的是,关于这些“技巧”并无科学系统的手册供参考。

鉴于此,该文对长尾识别中常用的“技巧”进行了收集并进行了充分而系统的实验以给出一份详尽的实验手册,同时得到了相关“技巧”的一种有效组合。更进一步,作者还提出了一种基于CAM(Class Activation Maps)的数据增广方案,所提方案可以与re-sampling方法友好组合并取得更好效果。

通过科学的组合这些“技巧”,该文在四个长尾基准数据集(包含ImageNet-LT、INaturalist2018)上取得了优于SOTA方案的结果。该文的主要贡献包含以下几点

  • 系统地探索了现有简单、超参不敏感的长尾相关“技巧”,为后续研究提供了一份有价值的实践手册

  • 提出了一种基于CAM的适用于两阶段的采样方案,所提方案简单有效

  • 进行了充分的实验并得到了一组最优组合,所提组合方案在四个长尾公开数据集取得了SOTA结果。

在这部分内容中,我们将介绍一下该文所用到的数据集、训练配置、骨干网络、数据增广等相关信息。

Datasets

Long-tailed CIFAR  长尾版的CIFAR10与CIFAR100是长尾识别的基准数据集,它们通过按照指数函数 (t表示类别索引)减少每类训练样本得到;而测试集保持不变。CIFAR的不平衡因子表示为最大类别数除以最小类别数,范围为10~200,其中50和100为最为广泛采用者。

iNaturalist 2018  它是一种大尺度真实数据,存在严重类别不平衡问题。它包含437513张图像,类别数为8142;除了类别不平衡外,它同样面临着细粒度问题。

Long-tailed ImageNet  它是从原始的ImageNet12按照Pareto分布采样得到,最多的类别具有1280图像,而最少的仅有5张。

baseline settings

Backbones 该文采用ResNet作为骨干网络,其中ResNet32用于长尾CIFAR,ResNet50用于iNaturalist,ResNet10用于ImageNet-LT。

Data augmentation  对于长尾CIFAR,作者采用了ResNet中的数据增广方案,每个图像进行4个像素pad,随机crop、随机水平镜像,最后进行标准化;在验证阶段,短边resize到36,然后进行CenterCrop,最后进行标准化。对于iNaturalist2018与ImageNet-LT,在训练过程中,采用scale进行增广到256,然后随机crop得到224x224的图像,最后进行标准化;在验证结果,短边resize到256,然后进行CenterCrop,最后进行标准化。

与此同时,作者还针对two-stage training提供了一种简单而有效的数据增广方案,它在CAM的基础上得到,故将其与re-sampling称之为“CAM-based sampling”。

Re-weighting methods

代价敏感重加权方法是长尾研究中常用方案之一,通过对不同的类别赋予不同的权重,这类方案将引导网络对于数目较少的类别添加更多的关注。

假设图像的类别为 ,其预测输出为 ,定义 为类别c的样本数 为最少类别的样本数。Softmax交叉熵损失作为对标的基准,定义如下

Existing re-weighting methods 接下来,我们对常用的代价敏感重加权方法进行简单的汇总。

  • Cost-sensitive softmax cross-entropy loss(CS-CE)定义如下

  • Focal loss则是sigmoid交叉熵损失的基础上添加了调节因子以更聚焦困难样本,定义如下

其中 表示用于控制不同样本重要性的超参数。

  • Class-balanced loss 考虑了不同类别的真实容量,即有效数量,而非数据集中的样本数量。通过引入有效数量,该损失函数定义如下

其中

Re-sampling methods

re-sampling同样是长尾研究中常用的一种方法,它尝试对数据进行重采样使其达到均匀分布。在这里,我们将对现有的简单而常用的re-sampling方法进行汇总。

  • Random over-sampling 是一种极具代表性的re-sampling方法,它对数量较少的类别通过复制的方式进行采样。这种方案简单有效,但可能导致过拟合。

  • Random under-sampling 随机移除了数量较多的类别中的部分数据直到所有类别数变得均衡。已有研究表明:在某些情况下,欠采样比过采样更可取。

  • Class-balanced sampling 使得每个类别具有相同的概率被选择。该方法先均匀的进行类别采样,然后再进行样本的均匀采样。一般来说,每个类别的采样公式可以定义如下

而在该方法中 。当q=1时表示常规意义上的数据采样,数量多的类别采样概率更高。

  • Square-root sampling 则是上述采样公式 的特例,旨在返回一个不平衡数据。

  • Progressively-balanced sampling 提出渐进的改变类别采样概率,即从类别不平衡采样到类别平衡采样的渐进式过渡。此时的采样公式定义与epoch相关,定义(T表示总的训练epoch)如下

Mixup training

mixup training可以视作一种数据增光“技巧”,它旨在对CNN进行正则化。作者发现当与re-sampling相结合时,mixup training在长尾识别任务中可以取得非常好的结果。接下来,我们将对现有的mixup training方案进行简单的汇总。

  • Input mixup 已被证实是一种有效缓解对抗扰动的方法。可以描述如下

其中 负责beta分布,在训练过程中 用于训练。

  • Manifold mixup 通过利用语义插值作为额外的训练监督信息,可以促使神经网络在插值方面输出更低置信度。混合样本定义如下

其中分别表示 在第k层的中间结果输出 表示服从beta分布的混合系数。

  • 相比baseling,mixup与manifold mixup均可取得更好的性能

  • Two-stage training procedures

    该方案包含类别不平衡训练与类别平衡微调两个阶段,作者主要针对类别平衡微调进行了探索。

    Balanced fine-tuning after imbalanced training 在不添加任何re-weighting和re-sampling数据上训练的CNN可以学习更好的特征表达,但在尾部类别上存在识别精度差的问题。已有不少方法提出了类别平衡微调的优化方案,包含基于re-sampling(DRS)与基于re-weighting(DRW)的re-balancing。

    • DRS 采用常规方式进行训练,然后采用re-sampling方式进行类别平衡微调。

    • DRW 采用常规方式进行训练,然后采用re-weighting方式进行类别平衡微调。

    • 相比直接使用re-sampling,在DRS中re-sampling可以取得更好的性能

    • 所提CAM-based sampling 可以取得一致性的性能提升

    • 在所有CAM-based方案中,CAM-based balance-sampling取得最佳结果

      • 相比直接实施re-weighting,re-weighting与DRW的组合可以取得更好的结果

      • DRW与CS_CE的组合取得了最佳的结果。

      接下来,我们对每个“技巧”类中的“冲突技巧”(具有相当结果)进行总结,并将其与其他“技巧”类中的方案相组合以找到最佳的技巧组合。

      Removing conflictual tricks in each trick family

      从实验结果来看,最佳的“技巧大礼包”为input mixup + DRS+CAM-BS + fine-tuning,作者将其称之为“bag of tricks”。

      Applying the best tricks incrementally

      为证实前述“bag of tricks”的性能,作者将其在iNaturalist2018与ImageNet-LT数据上进行了实验对比。

      ![image-20210101172919619](/Users/wangshupeng/Library/Application Support/typora-user-images/image-20210101172919619.png)

      从上表可以看到

      • Input mixup + DRS+CAM-BS + fine-tuning的组合取得了稳定的性能提升

      • iNaturalist2018与ImageNet-LT数据上的实验证实了所提“bag-of-tricks”的有效性

      • 基于所提“bag of tricks”,在所有长尾数据上可以取得10%的误差率下降,在相比SOTA方案取得了显著的性能提升。

      论文PDF下载

      后台回复0102即可下载上述论文PDF

      CV资源下载

      后台回复CVPR2020即可下载代码开源的论文合集

      后台回复ECCV2020即可下载代码开源的论文合集

      后台回复YOLO,即可下载YOLOv4论文和代码

      重磅!CVer-细分垂直交流群成立

      扫码添加CVer助手可申请加入CVer-细分垂直方向 微信交流可申请加入CVer大群,细分方向已涵盖目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

      一定要备注研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡,根据格式备注,才能通过且邀请进群

      ▲长按加微信群

      ▲长按关注CVer公众号

          以上就是本篇文章【AAAI2021 | 用于长尾识别的tricks大礼包】的全部内容了,欢迎阅览 ! 文章地址:http://ww.kub2b.com/news/17152.html
           栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 http://ww.kub2b.com/mobile/ , 查看更多   
最新文章
光威复材2024年下降逾15%,连续两年发生下滑
3月31日晚,(300699.SZ)发布2024年财报,实现营收24.5亿元,同比下降2.69%;归母净利润7.41亿元,同比下降15.12%;扣非净利润6.6
看完超人气游戏改编的《我的世界大电影》,我整个人都方了
观影《我的世界大电影》,感觉自己真的方了。毕竟,已经领略过风靡全球的沙盒游戏《我的世界》中那方块的世界,还有游戏带给人的
手机大脑手机阅读「手机大脑」
为什么只要醒着我们就离不开手机,为什么疫情中的我们更容易自投罗网?为什么比尔·盖茨不让小孩用手机,乔布斯不让孩子碰iPad?
远洋集团(03377):拟3.22亿元出售北京盛永置业投资23%股权
智通财经APP讯,远洋集团(03377)发布公告,于2025年4月11日,卖方(公司全资附属公司北京银港房地产开发有限公司)拟向买方(日照钢
600375,停牌,退市风险解除!
*ST汉马(600375)即将去星摘帽。4月16日晚间,该公司公告,公司股票将于2025年4月17日(星期四)开市起停牌一天,并于2025年4月
300万像素手写滑盖三星G618行货大跌530三星滑盖手机「300万像素手写滑盖三星G618行货大跌530」
  【7月15日太平洋电脑网上海站】今天,三星奥运手机G618行货从2288元跌至新低1758元。530元的降幅对于这款三星众多奥运手机中
最新手机续航TOP10排行榜:小米14垫底,Mate60和iPhone15落榜,第一名让人很意外手机续航排行「最新手机续航TOP10排行榜:小米14垫底,Mate60和iPhone15落榜,第一名让人
随着科技的进步,手机已经成为了我们生活中不可或缺的一部分。而手机续航能力也成为用户选择新机的重要考量因素之一。特别是对于
“好房子”新规激发楼市活力 北京3月新旧房成交量齐增
每经记者:陈梦妤    每经编辑:魏文艺“今年第一季度,我们所有项目均超额完成销售任务,完成率均达100%以上。这一成绩主要
智能手机:重塑现代人生活方式的双刃剑现代手机「智能手机:重塑现代人生活方式的双刃剑」
随着科技的飞速发展,智能手机已经成为现代人生活中不可或缺的一部分。它为我们带来了便捷的信息获取、高效的社交方式以及
10块钱的VR跟7000元的到底有啥区别?部手机「10块钱的VR跟7000元的到底有啥区别?」
步入VR元年,VR的关注度甚至乎呈直线上升,但是还有很多VR小白根本不知道VR为何物。VR频道特设《小白玩VR》系列文章,没看过的,