CN106886801A

CN106886801A - 一种图像语义分割方法及装置

Info

Publication number: CN106886801A
Application number: CN201710247372.8A
Authority: CN
Inventors: 戴恒晨; 王乃岩
Original assignee: Beijing Tusimple Future Technology Co Ltd
Current assignee: Beijing Tusimple Technology Co Ltd
Priority date: 2017-04-14
Filing date: 2017-04-14
Publication date: 2017-06-23
Anticipated expiration: 2037-04-14
Also published as: WO2018188270A1; CN106886801B; US20220114731A1; US11205271B2; US11875511B2; US20200020102A1

Abstract

本发明公开一种图像语义分割方法及装置，以解决现有技术中图像语义分割速度慢、效率低的问题。该方法包括：接收图像；对所述图像进行语义分割，得到初始语义分割结果；将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果。本发明技术方案，通过卷积神经网络对初始语义分割结果进行后处理，能够提高图像语义分割的速度和效率。

Description

一种图像语义分割方法及装置

技术领域

本发明涉及计算机领域，特别涉及一种图像语义分割方法和一种图像语义分割装置。

背景技术

目前，在各种应用场景(例如物体识别、物体检测等)中需要对图像进行语义分割，图像语义分割的目的是对图像中的每个像素进行分类，即为每个像素打上类别标签。

由于像素之间的相关性较小，目前基于传统深度学习的图像语义分割方法对图像进行语义分割后得到的初始语义分割结果仍然存在不准确的问题，因此需要对初始语义分割结果做进一步的后处理，通过后处理将初始语义分割结果中的错误结果进行纠正。

目前，使用较为广泛的后处理方式为图模型，例如条件随机场模型(即CRF)、马尔可夫随机场模型等。

CRF是一种基于无向图的概率模型，用来对序列数据进行标记，具有很强的概率推理能力。假设每个像素i具有类别标签y_i和观测值x_i，将每个像素作为节点、像素与像素之间的关系作为边即可构成了如图1所示的一个条件随机场，通过观测像素i的变量y_i推测该像素i对应的类别标签x_i。

条件随机场符合吉布斯分布：

其中x为前述观测值，E(x|I)为能量函数。为简便，将该能量函数省略全局观测I即可得到：

其中，为一元势函数，该一元势函数来自前端FCN的输出，ψ_p(x_i,y_i)为二元势函数，该二元势函数具体如下：

二元势函数用于描述像素与像素之间的关系，其将差异较小的像素分配相同的类别标签，差异较大的像素分配不同类别标签。评估两个像素之间的差异性通过“距离”表示，该“距离”与两个像素的颜色值和两个像素的实际相对距离有关。

通过CRF即可使得图像尽量在边界处分割，从而在一定程度上能够对初始语义分割结果中的错误结果进行纠正，以提高语义分割结果准确性。但是由于CRF需要考虑两两像素之间的相关性，计算量大，因此该种后处理方式速度慢、效率较低。

发明内容

鉴于上述问题，本发明提供一种图像语义分割方法及装置，以提高语义分割效率和准确性。

本发明实施例，一方面提供一种图像语义分割方法，该方法包括：

接收图像；

对所述图像进行语义分割，得到初始语义分割结果；

将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果。

本发明实施例另一方面，提供一种图像语义分割装置，该装置包括：

接收单元，用于接收图像；

分割单元，用于对所述图像进行语义分割，得到初始语义分割结果；

后处理单元，用于将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果。

本发明技术方案，在对接收到的图像进行语义分割得到初始语义分割结果之后，将包含初始语义分割结果的图像信息输入至卷积神经网络中进行语义分割后处理，得到最终语义分割结果。采用本发明提供的图像分割方案，由于卷积神经网络是预先训练得到，能够快速的根据包含初始语义分割结果的图像信息进行后处理，无需像现有技术的CRF方式需要计算图像中的各个像素间的相关性来进行后处理，提高了后处理速度和效率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为现有技术中条件随机场的示意图；

图2为本发明实施例中图像语义分割方法的流程图；

图3为本发明实施例中通过卷积神经网络进行语义分割后处理的方法流程图之一；

图4为本发明实施例中训练卷积神经网络的示意图之一；

图5为本发明实施例中训练卷积神经网络的示意图之二；

图6为本发明实施例中通过卷积神经网络进行语义分割后处理的方法流程图之二；

图7为本发明实施例中通过卷积神经网络进行语义分割后处理的示意图之一；

图8为本发明实施例中通过卷积神经网络进行语义分割后处理的方法流程图之三；

图9为本发明实施例中通过卷积神经网络进行语义分割后处理的示意图之二；

图10为本发明实施例中全局信息优化后处理卷积神经网络的结构示意图；

图11为本发明实施例中局部边缘优化后处理卷积神经网络的结构示意图；

图12为本发明实施例提供的图像语义分割装置的结构示意图；

图13为本发明实施例中后处理单元的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

参见图2，为本发明实施例提供的一种图像语义分割方法的方法流程图，该方法包括：

步骤201、接收图像。

步骤202、对所述图像进行语义分割，得到初始语义分割结果。

本发明实施例中，步骤202既可以通过预先训练好的神经网络(如全连接卷积神经网络)对接收到的图像进行语义分割，也可以通过图像分割算法对接收到的图像进行语义分割，本申请不做严格限定。

本发明实施例中，所述初始语义分割结果可以为所述图像包含的各像素所属的类别标签(后续用label表示)。

优选地，为降低信息失真率，保持信息的完整性，本发明实施例中输入给卷积神经网络的初始语义分割结果可以为置信图(即Confidence Map)而不是图像的各像素的label表示。例如，预先设定n个类别标签(如自行车、小车、三轮车、行人、路面、栅栏、路灯、树、交通灯等)，则初始语义分割结果为图像中每个像素分别属于前述n个类别标签的概率值。

步骤203、将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果。

本发明实施例一中，所述图像信息可以仅包括初始语义分割结果。优选地，为进一步提高卷积神经网络进行后处理的准确性，该图像信息包括初始语义分割结果和所述图像对应的描述所述图像的特征信息的至少一种模态，模态的种类可以包括以下一种或多种：可见图像模态(例如RGB模态、HSV(Hue,Saturation,Value)模态)、深度模态、CT(ComputedTomography，电子计算机断层扫描)模态、红外模态、毫米波模态和超声波模态。

在实际中属于同一类别标签的像素一般具有相同的特征信息，因此结合图像的模态来对语义分割结果中的错误结果进行纠正的准确性更高，因此，当图像信息中包含至少一种模态时，本方案还可进一步提高语义分割结果的准确性。

为进一步对本发明技术方案进行更为详细的描述，下面以几个具体实例进行详细的描述。

实施例一

在实施例一中，卷积神经网络仅包含一级卷积神经网络，则前述步骤203，具体可通过以下步骤A1～步骤A2实现：

步骤A1、将包含初始语义分割结果的图像信息输入至该一级卷积神经网络，得到修正语义分割结果；

步骤A2、根据所述修正语义分割结果得到最终语义分割结果。

本发明实施例一中，所述图像信息可以仅包含初始语义分割结果，也可以是包含初始语义分割结果和所述图像对应的至少一种模态。

本发明实施例一中，修正语义分割结果为通过卷积神经网络对初始语义分割结果中错误的结果进行纠正后得到的语义分割结果。若初始语义分割结果为图像中各像素的label，则该修正语义分割结果为所述图像的各像素的label；若初始语义分割结果为Confidence Map，则修正语义分割结果也为Confidence Map。

若本发明实施例中的修正语义分割结果也为置信图，前述步骤A2具体实现如下：针对图像的每一个像素，根据所述修正语义分割结果确定出该像素属于各类别标签的概率值的最大值，将概率值最大的类别标签作为该像素最终所属的类别标签。

若本发明实施例中的修正语义分割结果为图像的各像素的label，则前述步骤A2具体实现如下：将修正语义分割结果作为最终的语义分割结果。

实施例二

实施例二中，卷积神经网络仅包含一级卷积神经网络，为进一步提高卷积神经网络进行后处理的准确性，在该卷积神经网络进行多次的迭代优化，直到满足优化需求之后，根据最后一次迭代得到的修正语义分割结果确定最终的语义分割结果。前述步骤203的具体实现方式如图3所示的流程，该流程包括：

步骤301、将包含初始语义分割结果的图像信息输入至所述卷积神经网络中，得到修正语义分割结果；

步骤302、判断是否满足迭代条件，若满足则执行步骤303，若不满足则执行步骤304；

步骤303、将所述修正语义分割结果作为所述图像信息中的初始语义分割结果，重复前述步骤301，即此时步骤301中的初始语义分割结果为步骤301得到的修正语义分割结果；

步骤304、确定停止迭代，并根据所述修正语义分割结果得到最终的语义分割结果。

本发明实施例二中，修正语义分割结果为通过卷积神经网络对初始语义分割结果中错误的结果进行纠正后得到的语义分割结果。若初始语义分割结果为图像中各像素的label，则该修正语义分割结果为所述图像的各像素的label；若初始语义分割结果为Confidence Map，则修正语义分割结果也为Confidence Map。若本发明实施例中的修正语义分割结果也为置信图，前述步骤304具体实现为：针对图像的每一个像素，根据卷积神经网络最后一次迭代得到的修正语义分割结果确定出该像素属于各类别标签的概率值的最大值，将概率值最大的类别标签作为该像素最终所属的类别标签。

若本发明实施例中的修正语义分割结果为图像的各像素的label，则前述步骤304具体实现为：将卷积神经网络最后一次迭代得到的修正语义分割结果作为最终的语义分割结果。

本发明实施例一中，所述图像信息可以仅包含初始语义分割结果，也可以包含初始语义分割结果和所述图像对应的至少一种模态。

该实施例二中，迭代条件可以是迭代累积次数达到预置的次数阈值，也可以是卷积神经网络本次输出的修正语义分割结果与前一次输出的语义分割结果满足收敛条件，本申请并不做严格限定。前述步骤302中判断是否满足迭代条件，可通过但不仅限于以下两种方式实现：

方式1、判断迭代累积次数是否达到预置的次数阈值，若是则确定不满足迭代条件，若否则确定满足迭代条件；如通过计数器对迭代次数进行计数，每迭代一次累加1次。

方式2、根据所述卷积神经网络本次输出的修正语义分割结果与前一次输出的语义分割结果确定是否满足收敛条件，若是则确定不满足迭代条件，若否则确定满足迭代条件。

前述实施例一和实施例二中的卷积神经网络，可以预先通过大量的样本图像训练得到。以图像信息中仅包含初始语义分割结果为例，则预先对样本图像中的各个像素所属的类别标签进行标注，训练过程如图4所示。以图像信息中包含初始语义分割结果、至少一种模态为例，则预先对样本图像中的各个像素所述的类别标签进行标注，并且确定所述样本图像对应的各个模态取值，训练过程如图5所示。

实施例三

为进一步提高卷积神经网络后处理的准确性，本发明实施例三中，卷积神经网络由至少两级子卷积神经网络构成，各级子卷积神经网络的结构可以相同也可以不相同。优选地，当图像信息中仅包含初始语义分割结果时，各级子卷积神经网络的结构不相同。优选地，当图像信息中包含初始语义分割结果和至少一种模态时，各级子卷积神经网络的结构可以相同也可以不相同，且各级子卷积神经网络对应的模态可以相同也可以不相同，本申请不做严格的限定，本领域技术人员可以根据实际的需求灵活的设置各级子卷积神经网络，使得各级子卷积神经网络优化的方向不同，以实现对初始语义分割结果进行全方面的优化。更优地，当各级子卷积神经网络结构相同时，各级子卷积神经网络对应的模态项部分相同或完全不同；当各级子卷积神经网络结构不相同时，各级子卷积神经网络对应的其他模态项设置为完全相同、部分相同或完全不同。

当所述图像信息中仅包含初始语义分割结果时，前述步骤203具体可通过以下步骤B1～步骤B2实现，其中：

步骤B1、按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果输入至本级子卷积神经网络，得到修正语义分割结果，将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果。

需要说明的是，本发明实施例中，输入给第一级子卷积神经网络的初始语义分割结果为前述步骤202得到的初始语义分割结果；其他级子卷积神经网络的初始语义分割结果为其前一级子卷积神经网络输出的修正语义分割结果。

步骤B2、根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

当所述图像信息中包含初始语义分割结果和至少一种模态时，前述步骤203具体可通过以下步骤C1～步骤C2实现，其中：

步骤C1、按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络，得到修正语义分割结果，将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果。

步骤C2、根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

更为详细的可通过图6所示的方法流程实现前述步骤C1～步骤C2，该方法流程包括：

步骤601、将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络，得到修正语义分割结果；

步骤602、判断本级子卷积神经网络是否为最后一级子卷积神经网络，若否则执行步骤603，若是则执行步骤604；

步骤603、将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果，并将下一级子卷积神经网络作为本级子卷积神经网络，并执行步骤601；

步骤604、根据本级子卷积神经网络的修正语义分割结果，得到最终的语义分割结果。

本发明实施例三中，修正语义分割结果为通过子卷积神经网络对输入该自卷积神经网络的初始语义分割结果中错误的结果进行纠正后得到的语义分割结果。若初始语义分割结果为图像中各像素的label，则该修正语义分割结果为所述图像的各像素的label；若初始语义分割结果为Confidence Map，则修正语义分割结果也为Confidence Map。

若本发明实施例三中的修正语义分割结果也为置信图，前述步骤B2、步骤C2具体实现为：针对图像的每一个像素，根据最后一级子卷积神经网络输出的修正语义分割结果确定出该像素属于各类别标签的概率值的最大值，将概率值最大的类别标签作为该像素最终所属的类别标签。

若本发明实施例中的修正语义分割结果为图像的各像素的label，则前述步骤B2、步骤C2具体实现为：将最后一级子卷积神经网络的修正语义分割结果作为最终的语义分割结果。

该实例三中，各级子卷积神经网络可预先独立训练得到。以图像信息中仅包含初始语义分割结果为例，则对各子卷积神经网络的训练方式参见图4所示的方式。以图像信息中包含初始语义分割结果和至少一种模态为例，则对各子卷积神经网络的训练方式参见图5所示的方式，且用于训练各子卷积神经网络的训练样本图像的模态分别与相应子卷积神经网络对应。例如，所述卷积神经网络包括第一级子卷积神经网络和第二级子卷积神经网络，第一级子卷积神经网络对应的模态为深度模态和RGB模态，第二级子卷积神经网络对应的模态为RGB模态和CT模态，则在训练第一级子卷积神经网络时，训练数据为样本图像的初始语义分割结果、RGB模态和深度模态，训练第二级子卷积神经网络的训练数据为样本图像的初始语义分割结果、RGB模态和CT模态。

优选地，由于可见图像模态是像素最为重要的特征信息，因此，前述各级子卷积神经网络对应的模态中均包含可见图像模态。以各级子卷积神经网络对应的模态中均包含RGB模态为例，通过包含至少两级的子卷积神经网络进行后处理的过程可如图7所示。

实施例四

为进一步提高卷积神经网络后处理的准确性，本发明实施例四中，卷积神经网络由至少两级子卷积神经网络构成，各级子卷积神经网络的结构可以相同也可以不相同。优选地，当图像信息中仅包含初始语义分割结果时，各级子卷积神经网络的结构不相同。优选地，当图像信息中包含初始语义分割结果和至少一种模态时，各级子卷积神经网络的结构可以相同也可以不相同，且各级子卷积神经网络对应的模态可以相同也可以不相同，本申请不做严格的限定，本领域技术人员可以根据实际的需求灵活的设置各级子卷积神经网络，使得各级子卷积神经网络优化的方向不同，以实现对初始语义分割结果进行全方面的优化。更优地，当各级子卷积神经网络结构相同时，各级子卷积神经网络对应的模态项部分相同或完全不同；当各级子卷积神经网络结构不相同时，各级子卷积神经网络对应的其他模态项设置为完全相同、部分相同或完全不同。

与实施例三相比，本实施例四在每一级子卷积神经网络均进行至少一次迭代之后才将该级子卷积神经网络最后一次迭代得到的修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果输出，各级子卷积神经网络的迭代次数可以相同也可以不相同，本领域技术人员可根据实际需求灵活设置，本申请不做严格的限定。

当图像信息中仅包含初始语义分割结果时，前述步骤203具体可通过以下的步骤D1～步骤D2实现，其中：

步骤D1、按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果输入至本级子卷积神经网络，得到修正语义分割结果；判断是否满足迭代条件；若不满足，则确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；若满足，则将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述将初始语义分割结果输入至本级子卷积神经网络的步骤；

步骤D2、根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

当图像信息中包含初始语义分割结果和至少一种模态时，前述步骤203具体可通过以下的步骤E1～步骤E2实现，其中：

步骤E1、按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络，得到修正语义分割结果；判断是否满足迭代条件；若不满足，则确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；若满足，则将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络的步骤；

步骤E2、根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

更为详细的可通过图8所示的方法流程实现前述步骤E1～步骤E2，该方法流程包括：

步骤801、将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络，得到修正语义分割结果；

步骤802、判断是否满足迭代条件，若不满足则执行步骤803，若满足则执行步骤804；

本发明实施例中，通过计数器来对本级子卷积神经网络进行迭代的次数进行计数，每迭代一次累加1；当本级子卷积神经网络迭代结束后，该计数器被清零。

步骤803、判断本级子卷积神经网络是否为最后一级子卷积神经网络，若是则执行步骤806，若否则执行步骤805；

步骤804、将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述步骤801；

步骤805、确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果，将所述下一级子卷积神经网络作为本级子卷积神经网络，并执行步骤801；

步骤806、根据本级子卷积神经网络的修正语义分割结果得到最终的语义分割结果。

本发明实施例四中，修正语义分割结果为通过子卷积神经网络对输入该子卷积神经网络的初始语义分割结果中错误的结果进行纠正后得到的语义分割结果。若初始语义分割结果为图像中各像素的label，则该修正语义分割结果为所述图像的各像素的label；若初始语义分割结果为Confidence Map，则修正语义分割结果也为Confidence Map。

若本发明实施例四中的修正语义分割结果也为置信图，前述步骤D2、步骤E2具体实现为：针对图像的每一个像素，根据最后一级子卷积神经网络最后一次迭代得到的修正语义分割结果确定出各像素属于各类别标签的概率值的最大值，将概率值最大的类别标签作为该像素最终所属的类别标签。

若本发明实施例中的修正语义分割结果为图像的各像素的label，则前述步骤D2、步骤E2具体实现为：将最后一级子卷积神经网络最后一次迭代得到的修正语义分割结果作为最终的语义分割结果。

该实施例四中，迭代条件可以是迭代累积次数达到预置的次数阈值，也可以是本级子卷积神经网络本次输出的修正语义分割结果与前一次输出的语义分割结果满足收敛条件，本申请并不做严格限定。前述步骤D1、步骤E1中判断是否满足迭代条件，可通过但不仅限于以下两种方式实现：

方式1、判断迭代累积次数是否达到预置的次数阈值，若是则确定不满足迭代条件，若否则确定满足迭代条件；如通过计数器对迭代次数进行计数，每迭代一次累加1次，该计数器在本级子卷积神经网络结束迭代是被清零；

方式2、根据本级子卷积神经网络本次输出的修正语义分割结果与前一次输出的语义分割结果确定是否满足收敛条件，若是则确定不满足迭代条件，若否则确定满足迭代条件。

该实例四中，各级子卷积神经网络预先独立训练得到。以图像信息中仅包含初始语义分割结果为例，则对各子卷积神经网络的训练方式参见图4所示的方式。以图像信息中包含初始语义分割结果和至少一种模态为例，对各子卷积神经网络的训练方式参见图5所示的方式，用于训练各子卷积神经网络的训练样本图像的模态分别与相应子卷积神经网络对应，例如，所述卷积神经网络包括第一级子卷积神经网络和第二级子卷积神经网络，第一级子卷积神经网络对应的模态为深度模态和RGB模态，第二级子卷积神经网络对应的模态为RGB模态和CT模态，则在训练第一级子卷积神经网络时，训练数据为样本图像的初始语义分割结果、RGB模态和深度模态，训练第二级子卷积神经网络的训练数据为样本图像的初始语义分割结果、RGB模态和CT模态。

优选地，由于可见图像模态是像素最为重要的特征信息，因此，前述各级子卷积神经网络对应的模态中均包含可见图像模态。以各级子卷积神经网络对应的模态均包含RGB模态为例，通过包含至少两级的子卷积神经网络进行后处理的过程可如图9所示。

优选地，本发明实施例三和实施例四中，前述卷积神经网络由两级子卷积神经网络构成，其中第一级子卷积神经网络为全局信息优化后处理卷积神经网络，第二级子卷积神经网络为局部边缘优化后处理卷积神经网络。

所述全局信息优化后处理卷积神经网络的结构可如图10所示，通过快速的下次采样得到全局信息，再通过上采样结合全局信息和low-level信息纠正错误结果。局部边缘优化后处理卷积神经网络的结构可如图11所示。

基于前述图像语义分割方法相同的构思，本发明实施例提供一种图像语义分割装置，该装置的结构如图12所示，包括：

接收单元11，用于接收图像；

分割单元12，用于对所述图像进行语义分割，得到初始语义分割结果；

后处理单元13，用于将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果。

所述图像信息可以仅包含初始语义分割结果，也可以包含初始语义分割结果和所述图像对应的描述所述图像的特征信息的至少一种模态。

在一个具体实例中，所述后处理单元13的结构示意图如图13所示，具体包括：

修正子单元131，用于将图像信息输入至所述卷积神经网络中，得到修正语义分割结果；

判断子单元132，用于判断是否满足迭代条件，若满足则触发第一处理子单元133，若不满足则触发第二处理子单元134；

第一处理子单元133，用于将所述修正语义分割结果作为初始语义分割结果，并触发所述修正子单元131；

第二处理子单元134，用于确定停止迭代，并根据所述修正语义分割结果得到最终的语义分割结果。

优选地，所述判断子单元132具体用于：

判断迭代累积次数是否达到预置的次数阈值，若是则确定不满足迭代条件，若否则确定满足迭代条件；或者，根据所述卷积神经网络本次输出的修正语义分割结果与前一次输出的语义分割结果确定是否满足收敛条件，若是则确定不满足迭代条件，若否则确定满足迭代条件。

在另一个实例中，所述卷积神经网络由至少两级子卷积神经网络构成，所述后处理单元93的结构可包括第三处理子单元和第四处理子单元，其中：

第三处理子单元，用于按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果输入至本级子卷积神经网络，得到修正语义分割结果，将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；

第四处理子单元，用于根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

在另一个实例中，所述卷积神经网络由至少两级子卷积神经网络构成，所述后处理单元93的结构可包括第五处理子单元和第六处理子单元，其中：

第五处理子单元，用于按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果输入至本级子卷积神经网络中，得到修正语义分割结果；判断是否满足迭代条件；若不满足，则确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；若满足，则将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述将初始语义分割结果输入至本级子卷积神经网络中的步骤；

第六处理子单元，用于根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

在另一个实例中，所述卷积神经网络由至少两级子卷积神经网络构成，所述后处理单元93具体包括第七处理子单元和第八处理子单元，其中：

第七处理子单元，用于按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络，得到修正语义分割结果，将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；

第八处理子单元，用于根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

在最后一个实例中，所述卷积神经网络由至少两级子卷积神经网络构成，所述后处理单元93具体包括第九处理子单元和第十处理子单元，其中：

第九处理子单元，用于按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络中，得到修正语义分割结果；判断是否满足迭代条件；若不满足，则确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；若满足，则将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络中的步骤；

第十处理子单元，用于根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

优选地，所述卷积神经网络由两级子卷积神经网络构成，第一级子卷积神经网络为全局信息优化后处理卷积神经网络，第二级子卷积神经网络为局部边缘优化后处理卷积神经网络。

优选地，所述初始语义分割结果为置信图(即Confidence Map)，或者所述初始语义分割结果为所述图像中的各像素所属的label。

优选地，所述其他模态的种类包括以下一种或多种：可见图像模态(例如RGB模态、HSV模态)、深度模态、电子计算机断层扫描CT模态、红外模态、毫米波模态和超声波模态。

采用本发明提供的图像分割方案，一方面，由于卷积神经网络是预先训练得到，能够快速的根据包含初始语义分割结果的图像信息进行后处理，无需像现有技术的CRF方式需要计算图像中的各个像素间的相关性来进行后处理，提高了后处理速度和效率；另一方面，输入给卷积神经网络的数据不仅仅包括初始语义分割结果还包括表示图像中各个像素的特征信息的至少一种模态(如深度模态、RGB模态等)，在实际中属于同一类别标签的像素一般具有相同的特征信息，因此结合图像的模态来对语义分割结果中的错误结果进行纠正的准确性更高，因此，当图像信息中包含至少一种模态时，本方案还可进一步提高语义分割结果的准确性。

以上是本发明的核心思想，为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明实施例中技术方案作进一步详细的说明。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种图像语义分割方法，其特征在于，包括：

接收图像；

对所述图像进行语义分割，得到初始语义分割结果；

2.根据权利要求1所述的方法，其特征在于，所述图像信息还包含所述图像对应的描述所述图像的特征信息的至少一种模态。

3.根据权利要求1或2所述的方法，其特征在于，将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果，具体包括：

将图像信息输入至所述卷积神经网络中，得到修正语义分割结果；

判断是否满足迭代条件；

若满足，则将所述修正语义分割结果作为所述图像信息中的初始语义分割结果，并重复前述将图像信息输入至所述卷积神经网络中的步骤；

若不满足，则确定停止迭代，并根据所述修正语义分割结果得到最终的语义分割结果。

4.根据权利要求1所述的方法，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成；

将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果，具体包括：

按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果输入至本级子卷积神经网络，得到修正语义分割结果，将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；

根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

5.根据权利要求1所述的方法，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成；

按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果输入至本级子卷积神经网络中，得到修正语义分割结果；判断是否满足迭代条件；若不满足，则确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；若满足，则将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述将初始语义分割结果输入至本级子卷积神经网络中的步骤；

6.根据权利要求2所述的方法，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成；

按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络，得到修正语义分割结果，将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；

7.根据权利要求2所述的方法，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成；

按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络中，得到修正语义分割结果；判断是否满足迭代条件；若不满足，则确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；若满足，则将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络中的步骤；

8.根据权利要求1～7任一项所述的方法，其特征在于，所述卷积神经网络由两级子卷积神经网络构成，第一级子卷积神经网络为全局信息优化后处理卷积神经网络，第二级子卷积神经网络为局部边缘优化后处理卷积神经网络。

9.根据权利要求5或7所述的方法，其特征在于，判断是否满足迭代条件，具体包括：

判断迭代累积次数是否达到预置的次数阈值，若是则确定不满足迭代条件，若否则确定满足迭代条件；

或者，

根据本级子卷积神经网络本次输出的修正语义分割结果与前一次输出的语义分割结果确定是否满足收敛条件，若是则确定不满足迭代条件，若否则确定满足迭代条件。

10.根据权利要求1～7任一项所述的方法，其特征在于，初始语义分割结果为置信图，或者初始语义分割结果为所述图像中各像素所属的类别标签。

11.根据权利要求2、6、7任一项所述的方法，其特征在于，所述图像对应的模态种类包括以下一种或多种：可见图像模态、深度模态、电子计算机断层扫描CT模态、红外模态、毫米波模态和超声波模态。

12.一种图像语义分割装置，其特征在于，包括：

接收单元，用于接收图像；

13.根据权利要求12所述的装置，其特征在于，所述图像信息还包含所述图像对应的描述所述图像的特征信息的至少一种模态。

14.根据权利要求12或13所述的装置，其特征在于，所述后处理单元具体包括：

修正子单元，用于将图像信息输入至所述卷积神经网络中，得到修正语义分割结果；

判断子单元，用于判断是否满足迭代条件，若满足则触发第一处理子单元，若不满足则触发第二处理子单元；

第一处理子单元，用于将所述修正语义分割结果作为所述图像信息中的初始语义分割结果，并触发所述修正子单元；

第二处理子单元，用于确定停止迭代，并根据所述修正语义分割结果得到最终的语义分割结果。

15.根据权利要求12所述的装置，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成，所述后处理单元具体包括：

16.根据权利要求12所述的装置，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成，所述后处理单元具体包括：

17.根据权利要求13所述的装置，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成，所述后处理单元具体包括：

18.根据权利要求13所述的装置，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成，所述后处理单元具体包括：

19.根据权利要求12～18任一项所述的装置，其特征在于，所述卷积神经网络由两级子卷积神经网络构成，第一级子卷积神经网络为全局信息优化后处理卷积神经网络，第二级子卷积神经网络为局部边缘优化后处理卷积神经网络。

20.根据权利要求14所述的装置，其特征在于，所述判断子单元具体用于：

或者，

根据所述卷积神经网络本次输出的修正语义分割结果与前一次输出的语义分割结果确定是否满足收敛条件，若是则确定不满足迭代条件，若否则确定满足迭代条件。

21.根据权利要求12～18任一项所述的装置，其特征在于，所述初始语义分割结果为置信图，或者初始语义分割结果为所述图像中各像素所属的类别标签。

22.根据权利要求13、17、18任一项所述的方法，其特征在于，所述图像对应的模态种类包括以下一种或多种：可见图像模态、深度模态、电子计算机断层扫描CT模态、红外模态、毫米波模态和超声波模态。