SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS

以你之姓@ 2022-03-16 01:36 185阅读 0赞

使用深度卷积网络和全连接的CRFs进行语义图像的分割

CRF-条件随机场 Liang-Chieh Chen 加州大学洛杉矶分校

摘要

深度卷积神经网络（DCNNs）最近已经在高水平的视觉任务中展示出了最先进的表现，例如图像分类和目标检测。这项工作汇集了来自DCNNs和概率图模型的方法，为了解决像素级分类的任务（也叫作语义级图像分割）。我们展示了深度卷积网络（DCNNs）的最后一层不足够能定位为了精确的物体的分割。这是由于不变的属性使得深度卷积网络（DCNNs）对高水平的任务更好。我们克服了这种深度网络的不良定位的属性，通过结合了DCNN最后一层的反应和一个全连接的条件随机场。定性地说，我们的DeepLab系统能够以超出以往精度方法的水平去定位分段的边界。定量地说，我们的方法在PASCAL VOC2012语义图像分割任务中设定了一个新的先进的技术，使得在测试集上的精度达到了71.6%IOU。我们展示了这些结果如何能被有效的获得：网络再利用和一个来自小波团体的空洞算法的新颖的应用，可以在一个现代的GPU上以每秒8帧的的响应做稠密的计算。

1 简介

自从LeCun等人以来，深度卷积神经网络（DCNNs）已经成为文档识别的首选，但最近才成为高级视觉的主流研究。在过去的两年里，DCNNs将计算机视觉系统的性能推向了各种高级问题的飙升，包括图像分类、物体检测、细粒度分类等等。在这些作品中一个常见的主题是，DCNNs训练了一种端到端的方式结果要显著地好于使用仔细策划的表示，如SIFT或者HOG特征等。 这种成功能被部分归因于建立了DCNNs定位图像变换的不变性，这也巩固了其学习阶级性提取数据的能力。然而这种不变性对于高级别的视觉任务是理想的，但他却妨碍了低级别的任务，如姿态估计和语义分割，我们想要去精准定位而不是提取空间细节。

在DCNNs应用在图像标记任务存在两个技术障碍：信号下采样和空间不敏感性（不变性）。第一个问题和在每个标准的DCNNs层重复组合最大池化和下采样导致图像的分辨率下降有关。相反，像Papandreou 等人一样，我们采用了最初为了有效计算而发展起来的非抽样离散小波变换‘atrous’带孔算法。这使得在方案中有效计算DCNN的反应，该方案比该问题的早期解决方案简单得多。

第二个问题涉及到从一个分类器需要不变性去空间变换获取以目标为中心的决策，从而限制DCNN模型的空间精度。我们通过使用一个全连接的条件随机场去促进我们模型捕获细节的能力。条件随机场已经被广泛的应用到了语义分割领域，结合由多路分类器计算出的类得分，使用一个低水平的信息捕获局部交叉像素、边和超像素。尽管已经提出了更复杂的工作来模拟段的层次依赖性和高阶依赖性，我们使用了他人提出来的成对的CRF来实现有效的计算和捕捉边缘细节的能力，同时满足长距离的依赖。这个模型被他人的工作中被展示了，其极大的提高了基于像素级分类器的性能，并且在我们的工作中，我们证明了他在和基于DCNNs的像素级分类器耦合时可以产生最先进的结果。

我们的Deeplab系统有三个主要的优势，（1）速度：通过atrous算法的优势，我们的密集DCNN操作为8fps，然而全连接的CRF（条件随机场）平均场推断需要0.5s，（2）精度：我们在PASCAL语义分割挑战中获得了先进的结果，以7.2%的优势比第二好的方法表现突出，（3）简单性：我们的系统由两个相当完善的模块DCNN和CRFs组成。

2 相关工作

类似于Long等人，我们的系统工作旨在像素级的表现上。这和两阶段的方法正相反，他们现在是最常见的使用DCNNs的语义分割的方法，这种技术典型的使用一系列自底向上图像分割和基于DCNN区域的分类，这使得系统承认前后端分割系统的潜在错误。例如，边界框的提议和区域掩膜被应用到Girshick等中并作为DCNN介绍形状信息等分类进程的输入。相似的，Mostajabi的作者依赖于超像素的表示。一个著名的非DCNN的先导是二阶汇集方法，其也可以为所分配区域的提案分配标签。

在这项工作中，我们通过深度学习解决了语义图像分割的任务，并做出三个主要贡献，通过实验证明具有实质性的实用价值。首先，我们使用上采样滤波器或“atrous convolution”突出显示卷积，作为密集预测任务中的强大工具。 Atrous卷积允许我们明确地控制在深度卷积神经网络中计算特征响应的分辨率。它还允许我们有效地扩大滤波器的视野以结合更大的上下文而不增加参数的数量或计算量。其次，我们提出了一个不稳定的空间金字塔池（ASPP）来强大地分割多个尺度的对象。 ASPP使用多个采样率和有效视场的滤波器探测进入的卷积特征层，从而捕获多个尺度的对象和图像上下文。第三，我们通过结合DCNN和概率图形模型的方法来改进对象边界的定位。 DCNN中通常部署的最大池和下采样的组合实现了不变性，但是对定位精度有影响。我们通过将最终DCNN层的响应与完全连接的条件随机场（CRF）相结合来克服这个问题，CRF在定性和定量方面都有所提高，以提高定位性能。我们提出的“DeepLab”系统在PASCAL VOC-2012语义图像分割任务中设置了新的先进技术，在测试集中达到了79.7％mIOU，并将结果推进到其他三个数据集：PASCAL-Context，PASCAL-Person -Part和Cityscapes。我们所有的代码都在网上公开发布。