type
status
date
slug
summary
tags
category
icon
password
 
近年来,实时目标检测领域取得了显著的进展,其中YOLO(You Only Look Once)系列算法以其高效性和准确性受到了广泛关注。YOLO算法通过单次前向传播即可实现目标检测,极大地提高了检测速度。然而,随着YOLO系列的不断发展,虽然性能有所提升,但依然存在一些限制,如非极大值抑制(NMS)带来的后处理延迟以及模型内部组件设计的冗余等。针对这些问题,清华大学的Ao Wang等人提出了YOLOv10,旨在进一步提升YOLO的性能和效率。
notion image

一、YOLOv10的创新点

  1. 无NMS训练策略:传统的YOLO算法在检测后需要使用NMS进行后处理,以消除冗余的检测框。然而,NMS不仅增加了计算量,还可能导致检测延迟。YOLOv10提出了一种无需NMS的训练策略,通过双一致性分配,实现了低延迟和竞争性能。
  1. 而模型架构优化:针对YOLO内部组件设计的冗余问题,YOLOv10对模型架构进行了全面的检查和优化。通过减少不必要的计算量,提高了模型的效率,同时保持了良好的性能。具体如下:
  • 轻量化分类头:在不显著影响性能的情况下,减少了计算开销。
  • 空间-通道解耦下采样:解耦空间下采样和通道调整,优化计算成本。
  • 基于秩的块设计:根据各阶段的内在秩适应块设计,减少冗余,提高效率。
  • 大核卷积和部分自注意力PSA:在不显著增加计算成本的情况下,增强了感受野和全局建模能力。
3.实时性提升:基于上述创新点,YOLOv10在保持高准确性的同时,显著降低了检测延迟。这使得YOLOv10在实时目标检测领域具有更强的竞争力。

二、具体方法

1. 一致双分配策略(Consistent Dual Assignments)

YOLOv10引入了一种新的双分配策略,用于在训练期间同时利用一对多(one-to-many)和一对一(one-to-one)标签分配。这种方法在保持模型高效训练的同时,摆脱了推理过程中对非极大值抑制NMS的依赖。
notion image
双标签分配(Dual Label Assignments)
  • 一对多分配:在训练期间,多个预测框被分配给一个真实物体标签。这种策略提供了丰富的监督信号,优化效果更好。
  • 一对一分配:仅一个预测框被分配给一个真实物体标签,避免了NMS,但由于监督信号较弱,容易导致收敛速度慢和性能欠佳。
  • 双头架构:模型在训练期间使用两个预测头,一个使用一对多分配,另一个使用一对一分配。这样,模型可以在训练期间利用一对多分配的丰富监督信号,而在推理期间则使用一对一分配的预测结果,从而实现无NMS的高效推理
一致匹配度量(Consistent Matching Metric)
为了在训练期间保持两个预测头的一致性,研究提出了一致匹配度量。通过调整匹配度量参数,使得一对一和一对多分配的监督信号一致,减少了训练期间的监督差距,提升了模型的预测质量。

2. 整体效率-精度驱动的模型设计(Holistic Efficiency-Accuracy Driven Model Design)

YOLOv10在模型架构的各个方面进行了全面优化,旨在提升效率精度
2.1 效率驱动的模型设计
notion image
轻量化分类头(Lightweight Classification Head)
在YOLO系列中,分类头和回归头通常共享相同的架构,但分类任务的计算开销更大。为分类头采用轻量级的架构,包括两个3×3的深度可分离卷积和一个1×1卷积,以减少计算开销。
空间-通道解耦下采样(Spatial-Channel Decoupled Downsampling)
传统的下采样方法同时进行空间和通道的转换,计算成本较高。YOLOv10首先使用逐点卷积调整通道维度,然后使用深度卷积进行空间下采样。这样可以最大限度地保留信息,同时减少计算成本。
基于秩的块设计(Rank-Guided Block Design)
在YOLO模型中,各阶段通常使用相同的基本构建块,容易导致深层阶段的计算冗余。因此根据各阶段的内在秩(intrinsic rank)调整块设计,减少冗余,采用紧凑的反向块(Compact Inverted Block, CIB)设计,用深度卷积进行空间混合和逐点卷积进行通道混合,提高效率。
2.2 精度驱动的模型设计
大核卷积(Large-Kernel Convolution)
大核卷积的感受野较大,能够更好地捕捉图像中的全局信息。然而,直接在所有阶段使用大核卷积可能会导致小物体特征的污染,并增加高分辨率阶段的I/O开销和延迟。因此,在深层阶段使用大核深度卷积(如7×7)来扩大感受野,增强模型能力,同时使用结构重参数化技术优化训练。
对于小模型规模(如YOLOv10-N/S),大核卷积的使用能够显著提升性能,而对于大模型规模(如YOLOv10-M),其天然较大的感受野使得大核卷积的效果不明显,因此仅在小模型中使用。
部分自注意力(Partial Self-Attention, PSA)
部分自注意力模块通过引入全局建模能力来提升模型性能,同时保持较低的计算开销。
自注意力在视觉任务中因其出色的全局建模能力而被广泛使用,但其计算复杂度和内存占用较高。本文引入PSA模块,通过将特征按通道分成两部分,仅对一部分应用多头自注意力,然后进行融合,增强全局建模能力,降低计算复杂度。

三、实验

如表所示,清华团队所开发的的 YOLOv10 在各种模型规模上实现了 SOTA 的性能和端到端延迟。
notion image
 
针对 YOLOv10-S 和 YOLOv10-M 进行了消融实验,实验结果如下表所示
notion image
 
如下表所示,双标签分配实现了最佳的 AP - 延迟权衡,采用一致匹配度量可以达到最优性能。
notion image
 
如下表所示,每个设计组件,包括轻量级分类 head、空间通道解耦下采样和排序指导的模块设计,都有助于减少参数数量、FLOPs 和延迟。重要的是,这些改进是在保持卓越性能的同时所实现的。
notion image
 
一些效果图:
notion image
 
notion image
参考内容:
直线检测、深度强化学习与图像识别草稿
Zhangsan
Zhangsan
一个普通的干饭人🍚
Announcement
🎉这是一个分享个人见解的博客🎉
-— - 很高兴与你在这里相遇 ---
👏欢迎与我交流👏