语义分割25种损失函数综述和展望

Imagination Tech

3周前

本综述提供了25种为图像分割应用开发的损失函数的整体概述。...特别地，以层次化和结构化的方式涵盖了语义分割中的25种损失函数。

来源：AI公园

导读

本综述提供了对25种用于图像分割的损失函数的全面且统一的回顾。我们提供了一种新颖的分类法，并详细审查了这些损失函数如何在图像分割中被定制和利用，强调了它们的重要特征和应用，并进行了系统的分类。

摘要

语义图像分割，即将图像中的每个像素分类到特定的类别中，是许多视觉理解系统中的重要组成部分。作为评估统计模型性能的主要标准，损失函数对于塑造基于深度学习的分割算法的发展以及提高其整体性能至关重要。为了帮助研究人员为其特定应用识别最优的损失函数，本综述提供了对25种用于图像分割的损失函数的全面且统一的回顾。我们提供了一种新颖的分类法，并详细审查了这些损失函数如何在图像分割中被定制和利用，强调了它们的重要特征和应用，并进行了系统的分类。此外，为了评估这些方法在现实世界场景中的有效性，我们提出了一些独特而著名的损失函数在已建立的医学和自然图像数据集上的无偏评估。我们在本综述的最后指出了当前的挑战并揭示了未来的研究机会。最后，我们已经整理了在我们的GitHub上具有开源实现的所审查的研究。

GitHub：https://github.com/YilmazKadir/Segmentation_Losses

1、介绍

图像分割在广泛的视觉理解系统中扮演着基础性的角色。其主要目标是为给定的图像生成密集预测，即为每个像素分配一个预定义的类别标签（语义分割），或将每个像素与一个对象实例关联起来（实例分割），或者是两者的结合（全景分割），这有助于将具有相似语义的像素组织成有意义的高层次概念。分割技术在包括医学影像分析、视频监控和增强现实[7]等众多领域有着广泛的应用。从卷积神经网络(CNN)到Transformer，已经提出了许多不同的模型架构用于语义分割。然而，分割模型的最佳性能依赖于正确的网络结构选择和适当的目标函数。特别是，图像分割研究的一个重要领域涉及开发方法以缓解各种挑战，包括类别不平衡、数据集稀缺以及噪声、人类偏差和标注者之间一致性差等问题，通过广泛提出的鲁棒损失函数来允许模型参数的联合优化。此外，许多现代深度图像分割技术容易在恢复细小连接、复杂结构元素、精确边界定位方面失败，进而导致图像拓扑结构的不正确。由于研究界对解决这些问题的兴趣激增，对现有文献进行综述对于社区来说是有益且及时的，可以帮助热情的研究人员和实践者为手头的分割任务找到最佳的目标函数。具体而言，本综述提供了25种为图像分割应用开发的损失函数的整体概述。我们对它们的设计进行了分类，强调了现有方法的主要优势和不足，并回顾了来自自然图像和医学图像分割等多个应用的关键技术。我们在两个流行的医学和自然图像数据集上对一些评审的方法进行了比较实验，并在GitHub上提供了它们的代码和预训练权重。彻底搜索相关文献后发现，我们是第一个根据覆盖用于语义分割领域的损失函数的研究。但是，与不同的是，我们提出了一种新的、详细的和有组织的分类法，强调了任务特有的挑战，并基于评审文献提供了如何解决这些挑战的见解，这使得能够结构化地理解不同领域的研究进展和局限性，涵盖了2020年以后的研究成果。

此外，我们展示了广泛的定性和定量实验，验证了在自然图像和医学图像分割中每个分类下的设计决策和性能。进一步地，当我们考虑损失函数如何影响基于CNN和Transformer的方法时，我们认为这项工作将突出新的研究机会，为研究人员提供指导，并激发计算机视觉界进一步利用所涵盖损失函数在分割领域的潜力的兴趣。本综述文章的一些关键贡献可以概括如下：我们系统而深入地考察了图像分割领域的损失函数，并对这些方法进行了对比和分析。特别地，以层次化和结构化的方式涵盖了语义分割中的25种损失函数。

• 我们的工作提供了对损失函数的分类学（图1）分析，以及对其各个方面讨论。

• 我们使用两个知名的数据集——Cityscapes和Synapse多器官分割数据集，对所评审方法的选择进行了比较实验。

• 最后，我们解决了障碍和未解决的问题，同时承认新兴模式，提出了未解答的问题，并确定了未来研究可能的方向。

1.1 本综述的动机和独特性

图像分割方法在过去几十年里经历了显著的进步。这些进步从集成多分辨率和层次特征图的主要方向，到利用边界信息，再到在一个多任务学习框架中联合优化语义分割和补充任务。这些多样化的策略旨在缓解分割中的一些挑战，如类别不平衡、错误或不完整的边界以及像素的重要性等。尽管在这一领域完全发展之前已经有一篇综述文章发表，但从那时起，该领域已经取得了很大的进展。另一方面，没有综述文章专注于分割中损失函数的应用导向视角，这是推动该研究方向前进的核心方面。因此，社区中存在明显的空白。更重要的是，损失函数在训练机器学习模型以准确勾勒图像中感兴趣区域的过程中扮演着关键工具的角色。在医学领域，准确的分割可以通过辅助疾病诊断和治疗而产生挽救生命的影响。不同的损失函数可以极大地影响模型分割解剖结构或检测医学图像中异常的能力。同样，在自然图像领域，如卫星图像或场景理解中，准确的分割对于自动驾驶汽车和环境监测等应用至关重要。损失函数的选择也会影响这些领域中模型的性能。因此，在我们的综述中，我们引导来自医学和计算机视觉社区的读者理解这些损失函数的目的和用例。此外，通过在卷积神经网络(CNN)和基于Transformer的方法背景下，跨涵盖医学和自然图像的不同领域评估这些损失函数，我们旨在展示它们在应对挑战性任务中的真实效能。对损失函数的全面考察预计会为读者提供更广阔的视角，以便就采用更合适的损失函数做出明智的决定。

1.2 搜索策略

1.3 论文组织结构

本文其余部分的组织结构如下。第2节中，我们提供了图像分割中已建立损失函数的关键组件的详细概述。此外，本节通过提出一种分类法来澄清目标函数变体的分类，旨在表征技术创新和重要的应用场景。对于每种损失函数，我们介绍了其理论基础和基本概念，以及整个领域面临的开放挑战和未来展望。第4节中，我们评估了几种先前讨论的损失函数变体在受欢迎的自然/医学分割基准上的表现。最后，第6节总结并结束了本综述。

2、语义分割中的损失函数

我们将现有的语义分割损失函数研究分为三大类，依据它们的关注点和目标（见图1）。像素级损失函数在单个像素层面上运作，旨在确保分割区域内每个像素的准确分类。这些损失函数独立计算每个像素的预测值与其对应的真实标签之间的差异。相比之下，区域级损失函数关注整体类别的分割，通过最大化预测分割掩码与真实掩码之间的对齐来实现这一点。这些方法强调重叠，优先考虑对象分割的准确性而非像素级细节。最后，边界级损失函数专门针对分割任务中对象边界的精度，有效地分离重叠的对象。这些损失致力于最小化预测边界与真实边界之间的距离或不相似度，从而促进分割区域的细粒度对齐。通过将损失函数分为这三个级别，即像素级、区域级和边界级，该领域获得了对提高语义分割性能所采用的各种策略的全面视角。为了保持全文的一致性，我们在详细说明各个损失函数之前建立了正式的符号表示，如表1所示。除非另有说明，本文中的所有公式都将遵循这种符号表示。

在接下来的小节中，我们将对每一类进行更详细的阐述。

2.1 像素级

语义分割中的像素级损失函数深入到单个像素层面，以实现对分割区域内每个像素分类的高度准确性。这些损失函数独立计算每个像素的预测值与其对应的真实标签之间的差异或误差。它们在需要细粒度像素级准确性的场景下表现出色，例如要求详细对象识别和分割的任务。下面，我们将介绍几个这方面知名的损失函数。

2.1.1 交叉熵损失

交叉熵（CE）衡量给定随机变量的两个概率分布之间的差异。在分割任务中，交叉熵损失被用来测量模型的预测与目标标签匹配的程度。通过使用softmax函数，模型生成像素级别的概率图，表示每个像素属于每个类别的可能性。然后，通过取每个像素目标类别预测概率的负对数来计算交叉熵损失。当目标类别的预测概率接近1时，交叉熵损失趋近于0。

由于是一个独热编码向量，只有目标类别的预测概率会影响交叉熵损失。在处理不平衡数据集时，对交叉熵损失的一种方法是对每个类别分配不同的权重。这可以帮助平衡各个类别对总体损失的影响，并提高模型在少数类别上的表现。一种分配权重的方法是使用逆类别频率，这意味着每个类别的权重与其样本数量成反比。因此，样本较少的类别将具有较高的权重，而样本较多的类别将具有较低的权重。

对于每个像素，使用目标类别的权重。如果所有权重都设置为1，那么我们得到的就是普通的交叉熵损失。

2.1.2 TopK 损失

TopK损失是交叉熵损失的一种扩展，它使得模型在每次迭代中只从最难分类的像素中学习。选择目标类别预测概率最低的前k%的像素，仅考虑这些像素的损失。它可以表示为：

其中，K是包含分配给目标类别概率最低的k%像素的集合。

2.1.3 焦点损失（Focal Loss）

另一种处理数据不平衡的方法是使用焦点损失（Focal Loss）。焦点损失是交叉熵损失的一个修改版本，它为简单样本和困难样本分配不同的权重。在这里，困难样本是指那些以高概率被错误分类的样本，而简单样本则是指那些以高概率被正确分类的样本。这有助于平衡简单样本和困难样本对总体损失的影响。焦点损失的公式可以表示为：

其中，γ是一个非负可调的超参数。当对所有样本将γ设置为0时，我们得到的就是普通的交叉熵损失。

2.1.4 距离图衍生的交叉熵损失

许多语义分割模型在对象边界处的表现会有所下降。为了让模型更加关注难以分割的边界区域，一个直接的方法是在对象边界处对分割错误施加更大的惩罚。为此，Caliva等人使用了距离图。距离图与图像具有相同的形状，每个像素被赋予其到最近边界像素的最短距离。然后，距离图的倒数被用作交叉熵损失的权重，这样靠近边界的像素会获得更高的权重，而远离边界的像素则获得较低的权重。这种方法有助于提高模型在边界区域的分割精度，特别是在处理具有复杂边界结构的对象时更为有效。

在距离图 Φ 的倒数中添加常数1是为了避免梯度消失问题。

2.2 区域级

区域级损失函数在语义分割任务中采取了更宽广的视角。这些方法不是专注于每个像素，而是优先考虑对象分割的整体准确性。它们的目标是确保预测的分割掩码与更高层次的真实掩码紧密匹配，捕捉对象形状和布局的本质。当全局上下文和对象完整性比像素级准确性更重要时，区域级损失函数尤其有价值。

2.2.1 Dice 损失

Dice损失源自Dice系数，这是一种衡量两组数据之间相似性的指标。在图像分割中，Dice损失通常用于评估预测分割掩码与目标分割掩码之间的重叠程度。它定义为预测分割掩码与真实分割掩码交集的大小除以它们总和的大小。Dice损失是针对每个类别单独计算的，然后报告平均值。它可以表示为:

其中，Y 是二值分割预测掩码，T是单个类别的二值分割目标掩码。Dice系数在语义分割中常用，因为它易于计算，提供了一个单一值的性能概要，并且在精确率和召回率之间取得了良好的平衡。当感兴趣的物体较小或罕见且类别分布不平衡时，Dice系数特别有用。

Dice损失由Milletari等人提出，如方程7所示。它可以被视为一个松弛的、可微的Dice系数。具体的表达式为：

对于每个目标类别分别计算，并使用所有类别的平均值。预测值不是被确定为0或1，而是被松弛为概率值[0,1]。这使得损失函数变得可微，并可以使用梯度下降方法进行优化。最后，从1中减去松弛的Dice系数，使其成为一个需要最小化的损失函数，而不是最大化。这是处理不平衡数据集的一个流行选择，因为它防止模型通过关注预测掩码和真实掩码之间的重叠区域而忽略少数类。

2.2.2 对数余弦Dice损失

Jadon将Dice损失包裹在一个对数余弦（log-cosh）函数中，该函数定义为：

其中。对数余弦函数的导数，即双曲正切(tanh)，是一个在±1范围内平滑变化的函数。

对数余弦Dice损失在分割任务中提供了几个关键优势。首先，它增强了平滑性和对外部异常点的鲁棒性，减轻了噪声标注或图像伪影的影响。这一特性确保了更加稳定的训练过程，尤其是在数据易出现不规则情况时。其次，损失函数的内在平滑性促进了更优的优化过程，避免了传统Dice损失中常见的尖锐梯度带来的不稳定影响。这一点在使用基于梯度的优化方法（如随机梯度下降SGD）时尤其有利。最后，对数余弦Dice损失在精确率和召回率之间找到了平衡，解决了Dice损失通常过于强调精确率而忽视召回率的问题。这种平衡源于其平滑性，可能带来更好的分割结果。在二分类分割的例子中，虽然Dice损失会严重惩罚假阳性，但对数余弦Dice损失提供了一个更为均衡的方法，平滑了损失空间，降低了对外部异常点的敏感度，最终有助于更好地管理类别不平衡并同时提高精确率和召回率。

2.2.3 广义Wasserstein Dice损失

Wasserstein距离，也被称为Earth Mover’s Distance (EMD)，是通过计算将一个概率分布转换为另一个所需最小成本来确定两个概率分布之间的距离。根据这一定义，Wasserstein距离要求找到一种“最优传输”，以最小化从一个分布到另一个分布的转换成本。当可能路径的数量有限时，这个最小化问题可以被表述为一个线性规划问题。

在语义分割的背景下，Fidon等人提出了使用Wasserstein距离来计算依赖于预测值和目标值类别概率的损失项。在这种方法中，不同类别之间的转换成本通过一个表示为的矩阵来描绘，从而可以对语义相似类别（如“左肾”和“右肾”）之间的错误施加较轻的惩罚。因此，损失函数可以被设计成考虑类别间关系的形式。

其中，表示第n个像素的预测类别概率。表示代表第n个像素目标类别的one-hot编码向量。是一个表示各类别之间转换成本的矩阵，允许考虑到类别间的语义相似性。

2.2.4 IOU (Jaccard) 损失

IOU损失源自于交并比（Intersection over Union, IoU）度量，也称为Jaccard指数。它被定义为预测分割掩码与真实分割掩码交集的大小除以它们并集的大小。

类似于Dice系数，IOU也是针对每个类别进行计算，并使用平均值（mIoU）。

IOU损失由Rahman等人提出，可以被视为一种放松且可微的mIoU形式。

2.2.5 Lovász-Softmax损失

Lovász-Softmax损失是一种用于直接优化IoU度量的替代函数。其基本思想是将每个类别的预测得分视为一组有序值，然后定义一个函数来衡量这些有序值与真实标签顺序之间的差异。这种差异随后作为训练过程中需要最小化的损失。研究表明，相比于使用交叉熵损失训练，Lovász-Softmax损失能够获得更好的mIoU分数。

其中，ΔJc(m(c))是应用到使用hinge损失计算的IoU（Jaccard）损失上的Lovász hinge。

2.2.6 Tversky损失

Tversky损失源自Tversky指数，这是一种两个数据集之间不对称的相似度度量。它是Dice系数和IoU的一种泛化，允许独立地权衡假阳性和假阴性的权重。它被定义为：

其中，α 和 β 是假阴性和假阳性的权重。当 α = β = 0.5 时，Tversky指数退化为Dice系数；当 α = β = 1 时，它退化为IoU。

受Tversky指数的启发，提出了Tversky损失：

2.2.7 Focal Tversky损失

类似于Focal损失，Focal Tversky损失增加了难以分类像素的权重。

其中表示类别c的Tversky损失。当 γ=1时，Focal Tversky损失等同于Tversky损失。Abraham等人推荐 γγ的取值范围为[1,3]，这样可以使模型更加关注于误分类的像素。然而，当训练接近收敛时，Focal Tversky损失会被抑制，从而阻止模型达到完全收敛。

2.2.8 敏感性特异性损失

敏感性和特异性术语广泛用于评估机器学习模型的性能。敏感性，也称为召回率，是指正确分类的正样本预测数量与实际正样本数量的比例。特异性是指真正负样本被分类为负样本的比例。这两个术语定义如下：

为了在数据不平衡的情况下控制假阴性(FNs)和假阳性(FPs)之间的权衡，设计了敏感性特异性损失。该损失函数通过方程(18)中的参数 w来调整分配给假阴性和假阳性的权重，其定义如下：

2.2.9 区域互信息损失（RMI）

尽管基于交叉熵的损失函数在像素级分类中非常有效，但它们忽略了图像内像素之间的相互依赖关系。这一局限性促使研究者探索替代方法，包括基于条件随机场和像素亲和力的方法。虽然这些技术在捕捉像素关系方面具有潜力，但它们通常需要更长的计算时间，对视觉属性的变化敏感，并且需要额外的内存资源。区域互信息（Region Mutual Information, RMI）损失旨在通过利用图像中像素之间的相互依赖关系，克服传统像素级损失函数的固有局限性。RMI基于互信息（Mutual Information, MI），后者是在两个随机变量之间定义的，用于量化通过观察一个变量可以获得关于另一个变量的信息量。RMI考虑每个像素及其8个邻近像素来表示该像素，从而使图像中的每个像素成为9维（9-D）点。换句话说，每幅图像被转换为这些9-D点的多维分布。最终，通过互信息（MI）来最大化真实标签和模型预测的多维分布之间的相似度。为了简化计算，他们没有直接计算这些多维分布之间的MI，而是提出计算它们之间的MI下界。此外，在构建这些多维分布之前，他们采用降采样策略来减少额外的内存消耗。

简化后的MI下界表达式如公式(21)所示：

其中表示给定 P的Y的后验协方差。关于如何近似Y的后验协方差的更多细节，请参见主要文章。

2.2.10 鲁棒T损失

鲁棒T损失通过强调鲁棒性采取了一种独特的分割方法。它通过使用Student-t分布的负对数似然来实现这一点，Student-t分布以其处理噪声数据和异常值的能力而著称。这种分布的特点是其尾部比常见的正态分布“更重”。这些重尾使Student-t分布在处理远离常规模式的数据点时表现出色。

在常规的损失函数中，我们经常使用均方误差（Mean Squared Error, MSE），它来源于正态分布的负对数似然。鲁棒T损失（Robust T-Loss, RTL）通过用Student-t分布替换正态分布来改变这一点。具体来说，Student-t分布由于其较重的尾部，能够更好地处理数据中的异常值和噪声，从而提高模型在面对不完美数据时的鲁棒性和稳定性。这种方法特别适用于那些数据质量不可控或存在大量噪声的应用场景。

这里，p(yi | Σ; ν) 是基于Student-t分布的概率。这一变化使得损失函数对噪声标签和异常值的影响更加具有抵抗力。

鲁棒T-Loss有一个关键参数ν，它控制着损失函数对不同水平噪声的响应方式。当ν较低时，损失类似于均方误差（MSE），而在高值时，它类似于平均绝对误差（MAE）。鲁棒T-Loss的一个显著优势是在训练过程中学习到最优的标签噪声容忍度的能力。这使它区别于其他需要预先了解噪声水平或进行复杂计算的方法。通过直接将适应过程融入反向传播中，损失函数实际上教会了自己如何处理噪声标签，从而消除了额外计算的需求。

2.3 边界级

边界级损失函数：边界级损失函数专注于分割任务中对象边界的精确性。它们的主要目标是锐化对象边界并有效分离重叠的对象。这些损失函数通过最小化预测对象边界与真实边界之间的距离或不相似性来工作。在诸如图像修复或场景分割等任务中，当区分对象边界至关重要时，这些损失函数非常有用。

2.3.1 边界损失

边界损失由Kervadec等人在其工作中提出，提供了一种创新的方法来解决不平衡的分割任务，特别是在前景区域大小与背景区域大小显著对比的情况下。这种不平衡通常会导致使用传统的区域损失函数（如Dice损失）时性能下降和训练不稳定。边界损失通过将其重点放在边界区域上巧妙地应对了这些挑战。

边界损失的核心在于其利用了一种针对边界的距离度量。该度量用于量化预测边界与其相应的真实表示之间的差异，包含了沿真实边界方向的正常变化。L2距离在评估边界变化中起着基础作用，其数学定义如下：

在此公式中，s(q) 表示模型生成的概率预测，而ϕG(q) 表示距离项。然而，必须认识到直接将此距离度量作为损失函数纳入是相当困难的。这种复杂性主要来源于将边界点表示为可微函数的挑战，这些函数是从神经网络的输出中得出的。因此，研究人员通常会因为这个复杂的问题而避免使用基于边界的损失函数。为了克服这一限制，边界损失的作者从离散优化技术中汲取灵感，这些技术传统上用于曲线演化的背景下。

2.3.2 Hausdorff 距离损失

Hausdorff 距离（HD）是医学图像分割中常用的一种评价指标。Hausdorff 距离是一种定义在集合对上的度量，它量化了一个集合中的点到另一个集合中最近点的最大距离，捕捉最坏情况下的情形。在这个上下文中，考虑两个非空点集，分别记为X和Y，以及点x ∈ X和y ∈ Y之间的距离度量，记为d(x, y)，通常使用欧几里得距离或曼哈顿距离等度量。Hausdorff 距离定义为：

在图像分割的情况下，Hausdorff 距离是在预测掩码和真实掩码的边界之间计算的。尽管它是一个常用的度量标准，但Hausdorff 距离也有其缺点。与其他使用整体分割性能的度量不同，Hausdorff 距离仅依赖于最大的错误，并且对异常值过于敏感。因此，仅仅为了最小化最大错误而进行优化可能会导致算法不稳定和结果不可靠。此外，只最小化最大的分割错误可能会降低整体分割性能，特别是在医学影像中常见的复合形状情况下。这是因为，虽然模型可能能够在图像的大部分区域实现足够的准确性，但在少数特别困难的区域可能会遇到较大的错误。Karimi等人提出了一种方法，直接优化神经网络以减少Hausdorff 距离。他们提出了三种不同的损失函数，通过采用三种不同的方法以可微的方式近似Hausdorff 距离来最小化它。他们展示了这些损失函数在减少大错误的同时不会损害整体分割性能的潜力。

2.3.3 边界感知损失

Hayder等人在实例级语义分割领域提出了边界感知损失。该方法的思想是预测一个像素级的距离图，而不是二进制的前景掩码。这个距离图表示的是到最近对象边界（如果在对象内部）的距离或其背景状态。为了确保不同对象形状和大小之间的一致性，首先对距离值进行归一化和截断，使其保持在指定范围内。

其中 d(p, q) 计算像素 p 和边界像素 q 之间的欧几里得距离。最大距离 D(p) 使用天花板函数进行上限处理，并通过R进行阈值处理以生成截断地图。然后，将这些距离值量化为均匀直方图区间，将距离图转换为一组二进制图。这将问题转化为K个二进制分割任务，每个任务用K个二进制交叉熵损失解决。在推理阶段，使用像素级预测距离创建以其对应像素为中心的圆盘。这些圆盘的联合形成了分割掩码。

2.3.4 活动边界损失

活动边界损失旨在专门监督和增强训练期间的预测边界。在这里，边界信息被嵌入到训练过程中，使得网络能够特别关注边界像素。首先，通过计算相邻像素的KL散度来生成边界图，识别出预测的边界像素。这张图突出了可能是对象边界一部分的像素。然后，对于每个预测像素，计算出朝向最近真实边界的目标方向。这个方向被编码为一个独热向量，允许以概率方式表示像素移动。然后根据预测的方向计算交叉熵损失，鼓励网络对齐预测边界和真实边界。

这里，是权重函数，是邻域像素上的交叉熵。这种动态行为确保了随着训练过程中网络参数的更新，预测边界不断调整并与其演变的真实边界对齐。

2.3.5 反向形式损失

Borse等人[38]开发了反向形式（InverseForm）损失，该损失关注于预测对象与真实对象之间的边界变换。这有助于对那些与真实值不完全对齐但结构相似的预测分配较低的损失。首先，他们训练了一个称为反向变换网络的多层感知机（MLP），该网络以两个边界图为输入，预测它们之间的变换矩阵 (hat{ heta})。例如，对于两个完美匹配的边界图，网络应输出一个单位矩阵作为它们的相对变换。在训练完这个反向变换网络后，他们会冻结其权重，并用它来计算分割模型的损失。具体来说，他们计算单位矩阵与预测变换矩阵 (hat{ heta}) 之间的欧几里得或测地线距离，并将其与交叉熵损失结合，如下所示：

这里，和分别计算整个掩码和其边界像素的交叉熵损失，而表示反向形式损失。和表示预测和真实分割掩码，和表示相应的边界。和通过常数和进行缩放，以控制各自损失的影响。

2.3.6 条件边界损失

为了提高边界性能，Wu等人建议了一种条件边界损失（Conditional Boundary Loss, CBL），为每个边界像素建立一个独特的优化目标，该目标取决于其邻近上下文，并通过使每个像素与其类别中心对齐并过滤噪声来增强类内一致性、类间分离和边界精度。这是通过一种简单而有效的采样策略——条件正确性感知采样（Conditional Correctness-Aware Sampling, CCAS）策略实现的，该策略仅选择正确分类的同类邻居作为边界像素的正样本，以及正确分类的不同类邻居作为负样本。所提出的CBL包括两项：A2C（锚点与其唯一生成的局部类别中心之间的对）损失项和A2PN（锚点与其选定的正负样本之间的对）损失项。A2C损失项监督每个边界像素与其对应的局部类别中心之间的距离，该局部类别中心是从正确分类的周围邻居生成的。A2PN损失项监督边界像素与正负样本之间的相似性，这些样本是通过CCAS策略选择的。然后将CBL与常用的交叉熵（CE）损失结合形成总体训练损失，用于在端到端训练期间优化分割网络。

2.3.7 边界差异比联合损失

Sun等人提出了边界差异比联合（Boundary DoU）损失，旨在改善对象边界处的分割质量。在此，对象的边界被定义为最外侧的 (d) 像素。该方法受到边界IoU度量的启发，即仅考虑预测和目标的边界区域时的IoU。损失被表述如下：

这里，是一个加权项，用于控制边界区域的重要性。对于相对较大的对象，边界像素占总面积的比例较小，即使只有内部部分被正确分割，也会导致较低的损失。在这种情况下，应接近1，表明相对于内部区域，边界像素被赋予更高的重要性。相反，对于较小的对象，应接近0，趋向于IoU损失。为了确保这一点，作者提出了加权项，其中 C表示周长，S表示对象的面积。因此，他们确保了即使是图像中大型对象的边界也能得到精确分割。

2.3.8 区域级损失

区域级（Region-wise, RW）损失的核心概念是将softmax概率值与RW图结合起来。RW图是为图像中的每个像素和每个类别标签定义的。它影响特定像素的预测在损失计算中应贡献多少，这取决于其类别标签及其在图像中的位置。

其中，是预测值的softmax，是该像素处的RW图值。可以根据分割任务的具体需求设计不同类型RW图。例如，RW-Boundary图使用欧几里得距离变换创建基于距离的地图，突出显示类别之间的边界。这一框架提供了一种灵活统一的方法，同时解决了类别不平衡和像素重要性问题。此外，文章通过重新表述如边界损失和主动轮廓损失等知名损失函数，展示了RW损失框架的适应性。这不仅提供了关于这些损失函数之间关系的新见解，还证明了RW损失框架的灵活性。他们进一步探讨了RW图的优化稳定性，并引入了修正的区域级（Rectified Region-wise, RRW）图的概念。这些RRW图解决了优化稳定性的问题，从而增强了训练过程的收敛性和稳定性。通过对各种分割任务的实证评估，文章展示了RRW图的有效性。

2.4 组合方法

组合方法融合了三个不同类别的元素（像素级、区域级和边界级），以优化语义分割性能。通过整合多个损失函数，这种方法寻求像素级精度、整体对象分割质量和边界划分准确率之间的平衡。组合方法提供了灵活性和适应性，利用每个类别的优势来应对由多样化的分割任务和数据集特性带来的特定挑战。

2.4.1 组合损失

在语义分割中，最常见的做法是在组合损失（Combo loss）中结合Dice损失和加权交叉熵损失，以克服类别不平衡问题。这里，加权交叉熵损失通过给予较少代表的类别更多权重来克服数据不平衡问题，而Dice损失则允许分割较小的对象。此外，加权交叉熵损失提供平滑的梯度，而Dice损失帮助避免局部最小值。它简单地通过一个调制项来控制每个损失函数的贡献，将交叉熵损失和Dice损失相加，整体方程定义为：

其中，控制Dice损失相对于加权交叉熵损失的权重，而交叉熵的权重控制模型对不同目标类别的惩罚程度。这种方法通过平衡不同损失函数的作用，有效地提高了模型在处理类别不平衡数据集时的性能和泛化能力。

2.4.2 指数对数损失

指数对数损失（Exponential Logarithmic Loss）类似于组合损失，也是通过结合加权交叉熵损失和Dice损失来克服类别不平衡问题。不同之处在于，指数对数损失在结合这两种损失之前，先对它们取对数和指数运算。这样做提供了控制模型对容易或难以分类的像素关注程度的灵活性。所提出的损失函数定义如下：

其中是指数对数Dice损失，是指数对数加权交叉熵损失：

这里的和可用于控制损失函数的关注点。具体来说，当时，损失更关注难以分类的像素，反之亦然。通过这种方式，指数对数损失能够更好地调整模型的学习重点，尤其是在处理不平衡的数据集时，有助于提高模型的整体性能。

2.4.3 统一焦点损失

统一焦点损失（Unified Focal Loss）是另一种设计用来通过结合焦点损失（Focal Loss）和焦点特弗斯基损失（Focal Tversky Loss）来解决类别不平衡问题的损失函数。它通过统一相似的超参数来减轻训练过程中与损失抑制和过度增强相关的问题。

统一焦点损失泛化了常见的损失函数，如Dice损失和交叉熵损失，使它们成为其框架内的特殊情况。重要的是，通过减少超参数搜索空间，它在简单性和有效性之间找到了平衡，简化了优化过程同时保持了其效能。实验结果支持了它的优势，使其成为训练对类别不平衡具有鲁棒性的模型的强大工具。

3、讨论

表2总结了基于类别（即像素级、区域级、边界级或组合）排序的讨论损失函数的优势、劣势及应用场景。像素级损失的优点在于通过考虑每一个像素、转移对难以分割像素的关注点或惩罚分割错误来处理类别分布不平衡的问题。由于关注点在于全局统计，这可能导致与其他损失相比，分割边界更加柔和。区域级损失通过计算分割区域之间的重叠或相似性，通常与语义分割性能度量相关联，以引导网络获得更好的性能。更高级的损失可以利用假阳性与假阴性之间的权衡，对异常值和噪声标签更加稳健。一些基于区域的损失在优化过程中遇到了问题，如梯度不稳定或损失不完全可微。

基于边界的损失通常专注于锐利的分割边界以获得更好的分割掩码。这些损失存在多种限制，例如它们仅限于二元分割问题、优化过程中梯度爆炸或复合形状问题。组合损失试图结合不同损失的优势或缓解它们的局限性。因此，它们的优势和劣势很大程度上取决于基础损失。总的来说，所有损失包括超参数都对此选择非常敏感，因为它会对性能产生重大影响，这一点已在我们的实验中得到验证。通常，没有选择超参数设置的一般指南，因为最优选择取决于数据和任务。这需要广泛的实验，特别是对于具有多个超参数的损失，以找到最大性能的最优设置。

为了研究损失函数在语义分割中的应用，我们考察了自然图像分割和医学图像分割中表现最佳的方法。在医学图像分割中，大多数表现最好的模型依赖于Dice损失和交叉熵损失的组合损失。有文献使用了包含Dice损失和边界损失的组合损失。有文献使用了L1损失、交叉熵损失和3D对比编码损失的组合进行预训练。有文献使用了一种先验感知损失，通过Kullback-Leibler散度测量两个分布的匹配概率。我们看到，应用的损失函数随任务而变化；在城市街道场景中，简单的交叉熵损失函数占据主导地位；而在器官分割中，Dice损失会叠加使用，还因为Dice分数是常用的评估指标。

图2展示了边界差异比联合（Boundary DoU）损失和其他几种损失函数的定性结果的视觉表示。该图清楚地显示了使用适当的损失函数对分割复杂区域的优势。具体来说，我们可以观察到边界级损失函数在边界区域的定位和分割更为准确。此外，右心室（RV）区域在第1、3、4、6行显著的形状变化可能导致欠分割和误分割问题。在这种情况下，边界DoU损失函数相比其他损失函数能有效应对这一挑战。相比之下，心肌（MYO）区域具有环形结构和高度详细的区域，如第2、5行所示。在这些情况下，其他损失函数往往会产生不同程度的欠分割，而边界DoU损失函数提供了更全面的分割。减少误分类和欠分类最终提高了临床指导的潜力。

为进一步探索不同损失函数对分割性能的影响，我们转向图3，该图提供了不同损失函数在分割大对象和小对象时表现的视觉表示。从左至右看图表，我们可以看到预测与真实掩码之间的重叠逐渐减少。这种减少导致了更多的假阳性和假阴性的出现。理想情况下，随着假阳性和假阴性数量的增加，损失值应该显示出一致的上升趋势。

对于大对象，大多数使用的损失函数遵循这一理想场景。然而，对于小对象（如右侧图表所示），只有组合损失和焦点损失表现出对较大错误更明显的单调惩罚。简而言之，基于重叠度量的函数在分割大小对象时显示出相当大的变化。这些结果强调了选择损失函数依赖于感兴趣对象大小的关键概念。

这一观察促使我们思考这些发现如何指导从业者根据他们希望分割的对象的具体特征和大小选择最合适的损失函数，从而进一步阐明损失函数与分割性能之间微妙的关系。

总体而言，图3和图2明确了选择损失函数在难以分割对象上获得更稳定分割的重要意义，验证了前面提到的每种损失在其各自领域内的能力和独特应用。

除了讨论的损失函数之外，通过集成针对特定任务定制的补充损失函数或适应现有损失函数以满足手头的任务，可以进一步提高模型性能。例如，有作者介绍了一种新的损失函数——拓扑感知焦点损失（Topology-Aware Focal Loss, TAFL），它将传统的焦点损失与基于真实分割掩码和预测分割掩码持久图之间的Wasserstein距离的拓扑约束项相结合。这种结合确保了与真实值相同的拓扑结构，有效解决了拓扑错误，同时处理类别不平衡问题。另一种方法，Wen等人提出的，提出了一种简单而有效的方法，称为像素级三元组学习。该方法专注于在不引入额外计算复杂度的情况下改进边界区分度。通过使用像素级三元组损失，分割模型可以在边界处学习更具判别性的特征表示。值得注意的是，该方法可以无缝集成到最先进的分割网络中，作为一种适用于二元和多类医学分割任务的通用边界增强器。最终，语义分割任务中损失函数的选择可以根据所使用的学习算法进行定制。例如，在最近的基于扩散的生成模型的背景下，利用更复杂的损失函数不仅可以提高分割性能，还可以增强重建过程。同样，在隐式神经表示中，适应损失函数可以有助于高效的分割任务。

4、实验

4.1 实验设置

我们在单个RTX 3090 GPU上使用Pytorch库训练模型。采用随机梯度下降法，批次大小为8，基础学习率为0.01，总共进行300轮训练。此外，我们使用确定性训练，并设定固定的种子以获得可比较的结果，避免因随机性造成的其他变化。网络训练使用交叉熵损失与不同损失函数的组合，总损失计算公式为：

我们评估了6种不同的损失函数在训练收敛性和性能上的表现，即Dice损失、焦点损失（Focal loss）、Tversky损失、焦点Tversky损失、Jaccard损失和Lovász-Softmax损失。

4.2 数据集和评估指标

为了对比，我们使用了两个常用的公开数据集，Synapse和Cityscapes。前者是一个医学图像分割数据集，包含30个腹部CT扫描图像。其性能通过Dice相似系数（DSC）和Hausdorff距离（HD）指标来评估，考虑了8个腹部器官，即主动脉、胆囊、左肾和右肾、肝脏、胰腺、脾脏和胃。后者是一个城市街道分割数据集，包含30类标签和5000张精细标注的图像，其中平均交并比（mIoU）用作评估指标。

4.3 实验结果

我们在两种常见的深度学习模型上进行了评估，即传统的UNet模型和基于视觉Transformer架构的TransUNet模型。

4.3.1 定量结果

详细的性能结果如表3所示。

我们观察到，对于UNet和TransUNet而言，不同损失函数之间的性能差距显著。对于UNet，这一差距最大达到6.36%的DSC，其中Tversky损失表现最佳，而Dice损失表现最差。在TransUNet方面，这一差异达到了7.06%的DSC点数，Jaccard损失表现最佳，而焦点损失表现最差。此外，Dice损失和焦点损失在处理较小器官如胰腺和胆囊时性能下降，而其他损失函数的表现明显更好。这突显了Jaccard和Tversky损失的优势，它们能够产生更清晰的分割边界，因为这些损失函数具有重叠性质，并且与分割性能有直接关系。像焦点损失这样的其他损失函数无法从这些特性中受益，因为腹部扫描的类别不平衡通常较低，导致性能较低。我们没有观察到两个训练网络之间有明显的差异，这表明损失函数的选择更多地依赖于数据而非网络。

此外，我们考察了训练过程中的损失行为，并在图4中展示了整个训练周期的损失值。Dice损失和焦点损失表现出稳定的行为，这解释了它们整体较差的性能，因为在训练初期模型就陷入了停滞。其他四种损失函数则表现出典型的训练行为，大约在200个周期左右训练开始收敛。同样，UNet和TransUNet模型之间也没有显著的差异。

Cityscapes的性能结果如表4所示。

在UNet的情况下，Tversky损失和Dice损失是最优的损失函数，而所有损失函数之间的差异为1%的DSC。对于TransUNet的情况，Jaccard损失表现最优，Tversky损失次之，差异为2.55%的DSC。模型间差异的存在表明，所选模型不同，损失函数选择的重要性也会有所变化，但TransUNet的情况显示，为了提高模型性能，实验选择不同的损失函数是非常重要的。

这些训练运行的损失行为在图5中得到了说明。它与Synapse评估中的表现有所不同。

Dice损失和焦点损失随训练周期逐渐减少，显示出实际的训练进展而不是恒定值。这解释了在Cityscapes数据集上的更好表现。此外，在大约250个训练周期后，对于TransUNet和UNet训练，Jaccard、Lovász-Softmax、Tversky和焦点Tversky损失再次出现下降，导致后期显著的收敛。这强调了损失性能高度依赖于模型的事实，即某些损失可能对一个网络是合适的选择，但对其他网络则不一定适合。

4.3.2 定性结果

在Synapse数据集上使用不同损失函数训练的网络的分割掩模如图6所示。与真实分割相比，Dice损失的表现参差不齐，而在顶部的例子中，除了胰腺区域外，分割看起来相当不错。在底部的例子中，它完全未能识别出胃和胆囊。相比之下，焦点Tversky损失提供了最有希望的分割图，正确地识别了所有器官，仅在胃部观察到轻微的变化。相反，Jaccard、Lovász-Softmax和Tversky损失在分割该区域时也遇到了困难。这项实证分析得出结论，焦点Tversky损失是最合适的选择。它在纠正误识别和遗漏方面表现出色，从而提高了复杂和错误分类案例的分割质量。

对于Cityscapes数据集，定性结果如图7所示。在所有网络中都可以观察到类似的结果，人行道边界柱有时被分类为建筑物、墙壁或杆子，因为没有专门的类别。自行车架也大多被分类为围栏或墙壁，因为没有更精确的类别。总体而言，所有损坏中只有轻微的误分类，分割边界或多或少都是准确的。这也反映了前一节中提出的定量结果。

4.3.3 关于超参数的重要性

我们通过在Synapse数据集上进行不同超参数选择的最终性能比较，探讨了超参数选择的重要性。表5展示了焦点损失、Tversky损失和焦点Tversky损失的性能结果。

这些结果显示，超参数的选择导致焦点Tversky损失的最大差异为1.99%的DSC，焦点损失为0.33%的DSC，而Tversky损失为0.96%的DSC，这表明重要性各不相同。进一步观察图8中展示的损失特征，焦点损失通常保持恒定且大致相等的行为解释了其性能变化较小的原因。焦点Tversky损失和Tversky损失展现出相似但略有不同的训练行为，导致了较大的性能差异。

总体而言，这表明超参数需要谨慎选择，因为它们可以显著影响最终的性能。为了最优地选择它们，需要进行细致的参数搜索，因为通常没有通用的指导原则，这是包含参数选择的损失函数的一个常见缺点。

5、未来工作和开放挑战

尽管语义分割领域，特别是在提出更好的损失函数方面取得了进展，但在多个方面仍存在限制，需要进一步的研究努力才能使这些技术适用于实际应用。以下，我们将简要讨论一些限制和未来方向。

5.1 超参数指导方针

由于许多损失函数需要超参数值，而合适的超参数选择可以显著提升模型性能，因此该领域的进一步研究可以通过提供超参数选择的指南或建议来帮助开发人员的设计过程。这需要在不同的语义分割领域以及不同的底层网络架构中进行广泛的研究，以评估超参数的影响及其数据和模型依赖性。

5.2 组合损失研究

学术文献中基于其他损失函数组合而成的损失函数数量较少。由于组合损失可以从每个基础损失中继承优点，同时可能缓解缺点，因此它们可能是许多模型和任务的适当选择。探索新的最近损失函数组合的研究有可能创造出新的损失函数，从而提升性能。

5.3 与标签不确定性的交互

许多语义分割应用涉及处理模糊或不确定的标签。为了解决这个问题，未来的研究可以探索结合标签不确定性或模糊度衡量的损失函数。这些新颖的损失函数可以通过根据每个标签的确信程度分配自适应权重，动态调整对真实标签注释可靠性的响应。这种适应性在人类注释者可能提供不同程度置信度标签的情况下尤为重要，有助于减轻噪声或不确定数据的影响。

5.4 对噪声标注的鲁棒性

实际上，获取完全准确的训练数据标注往往非常具有挑战性。对标签噪声或错误不那么敏感的鲁棒损失函数可以成为改变游戏规则的关键。该领域的研究可以集中在开发能够在训练过程中自动识别并降低噪声标注权重的损失函数。此外，探索将损失函数与数据增强策略相结合的技术，以提高模型对噪声数据的抵抗力，可以进一步提升分割性能。

5.5 预训练基础模型的适应

随着诸如CLIP、Stable Diffusion、GPT等基础模型越来越多地被用作各种下游任务的现成框架，研究如何将语义分割损失函数适应这些预训练模型变得至关重要。通过探索和分析微调这些通用模型的潜在方法和途径，我们可以确保在各种下游医疗应用中实现最优性能和准确性。

5.6 损失函数与评估指标：公平性

损失函数的性能是通过一个或多个分割指标来评估的。值得加入更多的评估指标用于语义分割任务，并进一步研究哪种损失函数对每个评估指标更为有利。此外，我们可以通过留一交叉验证（LOOCV）的方式，使用所有其他的分割损失函数来评估正在研究的损失函数。这将允许对不同损失函数的性能进行全面的比较和分析，提供对其有效性的更稳健评估。

6、结论

综上所述，本调查报告全面概述了25种用于语义分割的损失函数，重点介绍了它们在医学图像和自然图像中的应用。我们强调了这些损失函数在改进分割模型中所起的关键作用。我们引入了一个结构化的分类体系，对流行的数据集进行了验证实验，指出了开放的挑战和未来研究的方向，并强调了2020年之后的最新发展。本调查报告为研究人员和实践者提供了一项宝贵的资源，提供了关于损失函数选择和语义分割领域进一步创新的见解。

论文链接：https://arxiv.org/pdf/2312.05391

END

欢迎加入Imagination GPU与人工智能交流2群

入群请加小编微信：eetrend77

（添加请备注公司名和职称）

推荐阅读

对话Imagination中国区董事长：以GPU为支点加强软硬件协同，助力数

为什么计算软件库是AI成功的关键

Imagination Technologies 是一家总部位于英国的公司，致力于研发芯片和软件知识产权（IP），基于Imagination IP的产品已在全球数十亿人的电话、汽车、家庭和工作场所中使用。获取更多物联网、智能穿戴、通信、汽车电子、图形图像开发等前沿技术信息，欢迎关注 Imagination Tech！