撰稿人:刘耿焕
论文题目:基于深度学习的小目标检测技术研究进展(特邀)
作者:刘耿焕1,2,3,曾祥津1,2,3,豆嘉真1,2,3,任振波4,钟丽云1,2,3,邸江磊1,2,3,秦玉文1,2,3
完成单位:
1. 广东工业大学机构 信息工程学院 先进光子技术研究院
2. 通感融合光子技术教育部重点实验室
3. 广东省信息光子技术重点实验室
4. 西北工业大学 物理科学与技术学院
导读
小目标检测在自动驾驶、安防监控、医疗图像处理等领域占据着重要地位。然而,由于小目标的视觉特征不明显、复杂背景的干扰以及信噪比较低等因素,当前的检测技术仍面临巨大挑战。为了应对这些难题,研究者们不断探索新方法,提升小目标检测的精度与鲁棒性。
图1 小目标检测应用
近年来,深度学习技术的飞速发展为小目标检测带来了新机遇。本文系统回顾了当前基于深度学习方法的小目标检测技术,对现有算法进行了系统的归类、分析和比较:界定了小目标检测的概念,总结了小目标检测所面临的主要挑战;着重讨论了几种主流检测网络及其优化策略,如利用数据增强技术提高模型的泛化能力,通过超分辨率技术改善小目标可视性,采用多尺度信息融合技术提升检测精度,以及基于上下文信息学习和大核卷积策略改进特征表达能力、无锚框检测机制、DETR技术和针对特定应用场景的多模态小目标检测等方法,详细分析了几种策略各自的优缺点,为小目标检测技术的进一步发展提供依据。
研究背景
由于小目标本身尺寸较小或目标在图像中像素数占比较少,使得小目标边缘信息模糊、语义信息缺乏,此外,基础网络中的下采样步骤会进一步减少小目标的信息内容,导致深层特征无法得到有效提取,特征对小目标的表征能力不足,甚至无法传入目标检测器中,致使检测任务失败。这种信息损失对大中型目标检测影响不大,但对于小目标检测来说,这是一个巨大的挑战。尤其是在复杂成像背景下,小目标本身还会受到云层遮挡、光照变化、其他目标等影响,导致图像信噪比低、有效信号弱、目标纹理不完整等,使得小目标检测更加困难。
图2 复杂背景引起的低信噪比与低可探测
此外,小目标的边界框定位更具挑战性,像素级别的偏移对小目标检测的影响都大于常规尺寸目标。现有检测算法在跨领域应用中的通用性不足,一种成像系统和目标下的检测往往难以迁移到其他系统和目标。同时,专用数据集在规模和分布上存在较大局限性,通用小目标检测数据集的匮乏进一步制约了算法检测性能的提升和小目标检测技术的进步。
图3 小目标对边界框扰动的低容忍度示意图 (左上、左下和右侧分别表示小、中、大目标。黑色表示真实框,蓝色和红色分别代表沿对角方向轻微偏移的预测框)
主要内容
小目标检测技术的核心挑战包括检测器对小目标特征表达能力不足、复杂背景干扰以及边界框定位较难等。为了解决这些问题,现有研究提出了以下几个关键技术策略:
数据增强技术:在小目标样本较少的情况下,采用几何变换、随机遮挡、复制增强等数据增强技术,可以有效扩充小目标样本数量,提升模型的泛化能力。例如,CutOut、MixUp等技术通过遮挡部分图像或对图像进行线性组合来增强模型的鲁棒性。
超分辨率技术:通过提升图像分辨率,能够在一定程度上改善小目标的可视性。常用方法包括基于卷积神经网络的插值算法和生成对抗网络(GAN)等。值得一提的是,GAN技术通过端到端生成高分辨率图像,有效解决了传统方法引起的马赛克效应等问题。
多尺度特征感知与融合:由于小目标尺寸较小、信息量少,采用多尺度特征感知方法对不同尺度的目标进行检测成为一种有效的解决方案。常用的多尺度特征网络如特征金字塔网络(FPN),通过自底向上的浅层特征与自顶向下的深层特征相结合,使得所有尺度下的特征都能够被有效提取,增强了小目标的特征表达能力。
上下文信息学习:视觉目标通常会出现在特定的环境中,有时也会与其他相关的目标共存,如飞鸟出现在天空中、轮船出现在水面上等。因此,可以利用目标与环境或目标间的关系来增强目标识别效果。这种借助语义和空间关系的先验知识称为“上下文”信息,它可以传递小目标周围区域的线索,为目标提供额外特征信息。在某些情况下,尤其是对于复杂背景,丰富的上下文信息甚至比小目标本身的特征更为关键。
大核卷积的应用:由于小目标尺寸较小,仅凭外观难以准确识别,成功识别这些小目标通常依赖于它们的上下文。例如,检测遥感图像往往需要广泛的上下文信息。大卷积核因其特有的大感受野,能够为小目标识别引入丰富的上下文信息,从而提升检测精度。
无锚框检测机制:传统锚框方法难以处理小目标的多样性,无锚框方法通过将目标检测视为关键点估计问题,减少了超参数和复杂计算。常用的CornerNet方法通过匹配左右角点定位目标,CenterNet在此基础上 增加了中心点检测,ExtremeNet通过四个极点和中心点定位,而FCOS通过像素级预测避免了锚框设计的复杂性。
图4 4种无锚框机制的检测方法。(a) CornerNet;(b) CenterNet;(c) ExtremeNet;(d) FCOS
DETR:DETR是一种基于Transformer的端到端目标检测模型。通过全局上下文编码,DETR避免了复杂的后处理流程,具备良好的泛化能力。然而,由于自注意力机制的高计算复杂度和数据不平衡问题,DETR收敛较慢,实时性较低。
多模态小目标检测:结合可见光和红外图像进行双模态检测,可以有效提升复杂场景下的检测性能,特别是在低光照或恶劣天气条件下,红外图像能够有效弥补可见光图像的不足,提供更丰富的目标特征信息,进而提升小目标检测效果。如何对两种模态的图像信息进行提取和融合,是多模态目标检测中的核心问题。根据融合阶段的不同,图像融合方法可分为早期融合、中期融合、后期融合和置信度融合4种形式。
图5 4种图像融合策略。(a) 早期融合;(b) 中期融合;(c) 后期融合;(d) 置信度融合
总的来看,以上策略通过优化网络结构、增强数据样本、融合多模态信息等手段,有效提升了小目标检测的精度和鲁棒性,为进一步提升小目标检测性能提供了新的研究方向。
结论
小目标检测一直是目标检测领域中的重要问题和挑战。尽管近年来通过多尺度特征融合、数据增强、超分辨率技术、无锚框检测、大核卷积和DETR等方法,小目标检测领域取得了显著进展,但与大中型目标检测相比,小目标检测依然面临诸多困难。小目标在图像中的占比小、信息量少,加之复杂背景的干扰,使得检测精度和鲁棒性仍有较大提升空间。
基于此,可以从以下方面对小目标检测算法进行进一步优化。首先,特征融合在提升小目标关键特征的同时,需保持计算效率,减少噪声干扰。其次,上下文学习应优化上下文信息的筛选和补全,避免冗余信息对检测的干扰。大核卷积则需通过结构优化来降低计算负担,提升模型的实时性表现。最后,DETR面临训练复杂、计算开销大等问题,未来应通过引入稀疏化策略和轻量化模型来增强其实时检测性能。
随着深度学习技术和硬件性能的不断进步和提升,准确、高效、鲁棒的小目标检测算法将在自动驾驶、安防监控、医疗诊断等领域展现出更大的应用潜力和价值。
撰稿人:刘耿焕
论文题目:基于深度学习的小目标检测技术研究进展(特邀)
作者:刘耿焕1,2,3,曾祥津1,2,3,豆嘉真1,2,3,任振波4,钟丽云1,2,3,邸江磊1,2,3,秦玉文1,2,3
完成单位:
1. 广东工业大学机构 信息工程学院 先进光子技术研究院
2. 通感融合光子技术教育部重点实验室
3. 广东省信息光子技术重点实验室
4. 西北工业大学 物理科学与技术学院
导读
小目标检测在自动驾驶、安防监控、医疗图像处理等领域占据着重要地位。然而,由于小目标的视觉特征不明显、复杂背景的干扰以及信噪比较低等因素,当前的检测技术仍面临巨大挑战。为了应对这些难题,研究者们不断探索新方法,提升小目标检测的精度与鲁棒性。
图1 小目标检测应用
近年来,深度学习技术的飞速发展为小目标检测带来了新机遇。本文系统回顾了当前基于深度学习方法的小目标检测技术,对现有算法进行了系统的归类、分析和比较:界定了小目标检测的概念,总结了小目标检测所面临的主要挑战;着重讨论了几种主流检测网络及其优化策略,如利用数据增强技术提高模型的泛化能力,通过超分辨率技术改善小目标可视性,采用多尺度信息融合技术提升检测精度,以及基于上下文信息学习和大核卷积策略改进特征表达能力、无锚框检测机制、DETR技术和针对特定应用场景的多模态小目标检测等方法,详细分析了几种策略各自的优缺点,为小目标检测技术的进一步发展提供依据。
研究背景
由于小目标本身尺寸较小或目标在图像中像素数占比较少,使得小目标边缘信息模糊、语义信息缺乏,此外,基础网络中的下采样步骤会进一步减少小目标的信息内容,导致深层特征无法得到有效提取,特征对小目标的表征能力不足,甚至无法传入目标检测器中,致使检测任务失败。这种信息损失对大中型目标检测影响不大,但对于小目标检测来说,这是一个巨大的挑战。尤其是在复杂成像背景下,小目标本身还会受到云层遮挡、光照变化、其他目标等影响,导致图像信噪比低、有效信号弱、目标纹理不完整等,使得小目标检测更加困难。
图2 复杂背景引起的低信噪比与低可探测
此外,小目标的边界框定位更具挑战性,像素级别的偏移对小目标检测的影响都大于常规尺寸目标。现有检测算法在跨领域应用中的通用性不足,一种成像系统和目标下的检测往往难以迁移到其他系统和目标。同时,专用数据集在规模和分布上存在较大局限性,通用小目标检测数据集的匮乏进一步制约了算法检测性能的提升和小目标检测技术的进步。
图3 小目标对边界框扰动的低容忍度示意图 (左上、左下和右侧分别表示小、中、大目标。黑色表示真实框,蓝色和红色分别代表沿对角方向轻微偏移的预测框)
主要内容
小目标检测技术的核心挑战包括检测器对小目标特征表达能力不足、复杂背景干扰以及边界框定位较难等。为了解决这些问题,现有研究提出了以下几个关键技术策略:
数据增强技术:在小目标样本较少的情况下,采用几何变换、随机遮挡、复制增强等数据增强技术,可以有效扩充小目标样本数量,提升模型的泛化能力。例如,CutOut、MixUp等技术通过遮挡部分图像或对图像进行线性组合来增强模型的鲁棒性。
超分辨率技术:通过提升图像分辨率,能够在一定程度上改善小目标的可视性。常用方法包括基于卷积神经网络的插值算法和生成对抗网络(GAN)等。值得一提的是,GAN技术通过端到端生成高分辨率图像,有效解决了传统方法引起的马赛克效应等问题。
多尺度特征感知与融合:由于小目标尺寸较小、信息量少,采用多尺度特征感知方法对不同尺度的目标进行检测成为一种有效的解决方案。常用的多尺度特征网络如特征金字塔网络(FPN),通过自底向上的浅层特征与自顶向下的深层特征相结合,使得所有尺度下的特征都能够被有效提取,增强了小目标的特征表达能力。
上下文信息学习:视觉目标通常会出现在特定的环境中,有时也会与其他相关的目标共存,如飞鸟出现在天空中、轮船出现在水面上等。因此,可以利用目标与环境或目标间的关系来增强目标识别效果。这种借助语义和空间关系的先验知识称为“上下文”信息,它可以传递小目标周围区域的线索,为目标提供额外特征信息。在某些情况下,尤其是对于复杂背景,丰富的上下文信息甚至比小目标本身的特征更为关键。
大核卷积的应用:由于小目标尺寸较小,仅凭外观难以准确识别,成功识别这些小目标通常依赖于它们的上下文。例如,检测遥感图像往往需要广泛的上下文信息。大卷积核因其特有的大感受野,能够为小目标识别引入丰富的上下文信息,从而提升检测精度。
无锚框检测机制:传统锚框方法难以处理小目标的多样性,无锚框方法通过将目标检测视为关键点估计问题,减少了超参数和复杂计算。常用的CornerNet方法通过匹配左右角点定位目标,CenterNet在此基础上 增加了中心点检测,ExtremeNet通过四个极点和中心点定位,而FCOS通过像素级预测避免了锚框设计的复杂性。
图4 4种无锚框机制的检测方法。(a) CornerNet;(b) CenterNet;(c) ExtremeNet;(d) FCOS
DETR:DETR是一种基于Transformer的端到端目标检测模型。通过全局上下文编码,DETR避免了复杂的后处理流程,具备良好的泛化能力。然而,由于自注意力机制的高计算复杂度和数据不平衡问题,DETR收敛较慢,实时性较低。
多模态小目标检测:结合可见光和红外图像进行双模态检测,可以有效提升复杂场景下的检测性能,特别是在低光照或恶劣天气条件下,红外图像能够有效弥补可见光图像的不足,提供更丰富的目标特征信息,进而提升小目标检测效果。如何对两种模态的图像信息进行提取和融合,是多模态目标检测中的核心问题。根据融合阶段的不同,图像融合方法可分为早期融合、中期融合、后期融合和置信度融合4种形式。
图5 4种图像融合策略。(a) 早期融合;(b) 中期融合;(c) 后期融合;(d) 置信度融合
总的来看,以上策略通过优化网络结构、增强数据样本、融合多模态信息等手段,有效提升了小目标检测的精度和鲁棒性,为进一步提升小目标检测性能提供了新的研究方向。
结论
小目标检测一直是目标检测领域中的重要问题和挑战。尽管近年来通过多尺度特征融合、数据增强、超分辨率技术、无锚框检测、大核卷积和DETR等方法,小目标检测领域取得了显著进展,但与大中型目标检测相比,小目标检测依然面临诸多困难。小目标在图像中的占比小、信息量少,加之复杂背景的干扰,使得检测精度和鲁棒性仍有较大提升空间。
基于此,可以从以下方面对小目标检测算法进行进一步优化。首先,特征融合在提升小目标关键特征的同时,需保持计算效率,减少噪声干扰。其次,上下文学习应优化上下文信息的筛选和补全,避免冗余信息对检测的干扰。大核卷积则需通过结构优化来降低计算负担,提升模型的实时性表现。最后,DETR面临训练复杂、计算开销大等问题,未来应通过引入稀疏化策略和轻量化模型来增强其实时检测性能。
随着深度学习技术和硬件性能的不断进步和提升,准确、高效、鲁棒的小目标检测算法将在自动驾驶、安防监控、医疗诊断等领域展现出更大的应用潜力和价值。