CN109377494A

CN109377494A - 一种用于图像的语义分割方法和装置

Info

Publication number: CN109377494A
Application number: CN201811076028.8A
Authority: CN
Inventors: 郭昕; 程远
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2019-02-22
Anticipated expiration: 2038-09-14
Also published as: CN109377494B

Abstract

本说明书实施例公开了一种用于图像的语义分割方法和装置，所述方法包括：获取第一图像、第二图像及第一图像的语义分割结果，其中，所述第一图像和第二图像包括至少一个相同的语义分割类别；从所述第一图像和所述第二图像分别提取每个像素的基础特征；将所述第一图像和第二图像各自的每个像素的基础特征分别输入语义提取模型，以从所述语义提取模型的输出分别获取所述第一图像和第二图像各自的每个像素的语义特征；以及基于所述第一图像的语义分割结果、及所述第一图像和第二图像各自的每个像素的语义特征，获取所述第二图像的语义分割结果。

Description

一种用于图像的语义分割方法和装置

技术领域

本说明书实施例涉及图像处理方法，更具体地，涉及一种用于图像的语义分割方法和装置。

背景技术

在常规的车险理赔场景中,保险公司需要派出专业的查勘定损人员到事故现场进行现场查勘定损，给出车辆的维修方案和赔偿金额，拍摄现场照片，并将定损照片留档以供核查人员核损核价。由于需要人工查勘定损，保险公司需要投入大量的人力成本，和专业知识的培训成本。从普通用户的体验来说，理赔流程由于等待人工查勘员现场拍照、定损员在维修地点定损、核损人员在后台核损，理赔周期较长。

随着互联网的发展，出现一种理赔方案，其中，通过用户在现场拍摄车损照片，并将所述照片上传至服务器，从而通过算法或人工基于所述车损照片进行定损和理赔。然而，在该方案中，通常对拍摄的照片有一定的要求，而用户通常很难做到符合这些要求。因此，需要一种引导用户拍摄定损照片的技术，以满足上述需求。在该引导用户拍摄定损照片的技术中，通常需要快速地在镜头采集的视频流中对车辆部件进行语义分割，识别出不同部件的位置，以通过示出与车辆部件或车辆损伤对应的语义分割信息，从而达到引导的目的。对于该需求，现有技术中通常的做法是通过语义分割模型获取视频的每一帧的语义分割结果。

因此，需要一种更有效地获取图像的语义分割结果的方法。

发明内容

本说明书实施例旨在提供一种更有效的图像语义分割结果方案，以解决现有技术中的不足。

为实现上述目的，本说明书一个方面提供一种用于图像的语义分割方法，包括：

获取第一图像、第二图像及第一图像的语义分割结果，其中，所述第一图像和第二图像包括至少一个相同的语义分割类别；

从所述第一图像和所述第二图像分别提取每个像素的基础特征；

将所述第一图像和第二图像各自的每个像素的基础特征分别输入语义提取模型，以从所述语义提取模型的输出分别获取所述第一图像和第二图像各自的每个像素的语义特征；以及

基于所述第一图像的语义分割结果、及所述第一图像和第二图像各自的每个像素的语义特征，获取所述第二图像的语义分割结果。

在一个实施例中，在所述语义分割方法中，所述第一图像的语义分割结果通过将所述第一图像输入预定语义分割模型获取。

在一个实施例中，在所述语义分割方法中，从所述第一图像和所述第二图像分别提取每个像素的基础特征包括，通过预定CNN模型从所述第一图像和所述第二图像分别提取每个像素的基础特征。

在一个实施例中，在所述语义分割方法中，所述第一图像和所述第二图像为视频流中的相邻帧图像。

在一个实施例中，在所述用于图像的语义分割方法中，所述视频流为事故车辆的视频流。

在一个实施例中，在所述语义分割方法中，所述方法在移动设备端执行，所述移动设备包括摄像头和显示屏，其中，所述视频流为根据用户指令通过所述摄像头采集的视频流，所述第二图像为所述视频流的当前帧，所述方法还包括，在获取所述第二图像的语义分割结果之后，在所述显示屏上示出述语义分割结果。

在一个实施例中，在所述语义分割方法中，所述第一图像的语义分割结果中包括属于第一语义分割类别的多个第一像素的位置，其中，基于所述第一图像的语义分割结果、及所述第一图像和第二图像各自的每个像素的语义特征，获取所述第二图像的语义分割结果包括，

基于所述多个第一像素各自的语义特征，在所述第二图像中检索与所述多个第一像素分别对应的第二像素，其中所述第二像素与对应的第一像素具有相同的语义特征，以获取所述第二图像的语义分割结果。

基于第二图像的每个像素的语义特征，使用聚类模型对第二图像的多个像素进行聚类，以获取多个聚类类别；

基于所述多个第一像素各自的语义特征、及第二图像中属于各个聚类类别的多个像素的语义特征，在所述第二图像中检索与所述第一语义分割类别对应的聚类类别，以获取所述第二图像的语义分割结果。

在一个实施例中，在所述语义分割方法中，基于所述第一图像的语义分割结果、及所述第一图像和第二图像各自的每个像素的语义特征，获取所述第二图像的语义分割结果包括，

基于第二图像的每个像素的语义特征，使用聚类模型对第二图像的多个像素进行聚类，以获取多个聚类类别，其中包括第一聚类类别；

基于所述第一图像的语义分割结果、所述第一图像中属于各个语义分割类别的多个像素的语义特征、及所述第二图像中属于所述第一聚类类别的多个像素的语义特征，在所述第一图像中检索与所述第一聚类类别对应的语义分割类别，以获取所述第二图像的语义分割结果。

在一个实施例中，在所述语义分割方法中，所述语义提取模型通过以下方式训练：

获取至少一对样本，每对样本包括第三像素的基础特征和第四像素的基础特征，其中所述第三像素和第四像素为分别属于两个图像的语义相同的像素；以及

使用所述至少一对样本训练所述语义提取模型，以使得相比于训练前，训练后的所述语义提取模型基于所述至少一对样本输出的各对样本的第三像素的语义特征与第四像素的语义特征的差异之和减小。

在一个实施例中，在所述语义分割方法中，获取至少一对样本包括，获取所述两个图像中都包括的第二语义分割类别，以及获取所述两个图像中分别包括的所述第二语义分割类别中的对应像素作为所述第三像素和第四像素。

本说明书另一方面提供一种用于图像的语义分割装置，包括：

第一获取单元，配置为，获取第一图像、第二图像及第一图像的语义分割结果，其中，所述第一图像和第二图像包括至少一个相同的语义分割类别；

提取单元，配置为，从所述第一图像和所述第二图像分别提取每个像素的基础特征；

输入单元，配置为，将所述第一图像和第二图像各自的每个像素的基础特征分别输入语义提取模型，以从所述语义提取模型的输出分别获取所述第一图像和第二图像各自的每个像素的语义特征；以及

第二获取单元，配置为，基于所述第一图像的语义分割结果、及所述第一图像和第二图像各自的每个像素的语义特征，获取所述第二图像的语义分割结果。

在一个实施例中，在所述语义分割装置中，所述第一图像的语义分割结果通过将所述第一图像输入预定语义分割模型获取。

在一个实施例中，在所述语义分割装置中，所述提取单元还配置为，通过预定CNN模型从所述第一图像和所述第二图像分别提取每个像素的基础特征。

在一个实施例中，在所述语义分割装置中，所述第一图像和所述第二图像为视频流中的相邻帧图像。

在一个实施例中，在所述语义分割装置中，所述视频流为事故车辆的视频流。

在一个实施例中，在所述语义分割装置中，所述装置在移动设备端实施，所述移动设备包括摄像头和显示屏，其中，所述视频流为根据用户指令通过所述摄像头采集的视频流，所述第二图像为所述视频流的当前帧，所述装置还包括显示单元，配置为，在获取所述第二图像的语义分割结果之后，在所述显示屏上示出述语义分割结果。

在一个实施例中，在所述语义分割装置中，所述第一图像的语义分割结果中包括属于第一语义分割类别的多个第一像素的位置，其中，所述第二获取单元包括：

第一检索子单元，配置为，基于所述多个第一像素各自的语义特征，在所述第二图像中检索与所述多个第一像素分别对应的第二像素，其中所述第二像素与对应的第一像素具有相同的语义特征，以获取所述第二图像的语义分割结果。

聚类子单元，配置为，基于第二图像的每个像素的语义特征，使用聚类模型对第二图像的多个像素进行聚类，以获取多个聚类类别；

第二检索子单元，配置为，基于所述多个第一像素各自的语义特征、及第二图像中属于各个聚类类别的多个像素的语义特征，在所述第二图像中检索与所述第一语义分割类别对应的聚类类别，以获取所述第二图像的语义分割结果。

在一个实施例中，在所述语义分割装置中，所述第二获取单元包括：

聚类子单元，配置为，基于第二图像的每个像素的语义特征，使用聚类模型对第二图像的多个像素进行聚类，以获取多个聚类类别，其中包括第一聚类类别；

第三检索子单元，配置为，基于所述第一图像的语义分割结果、所述第一图像中属于各个语义分割类别的多个像素的语义特征、及所述第二图像中属于所述第一聚类类别的多个像素的语义特征，在所述第一图像中检索与所述第一聚类类别对应的语义分割类别，以获取所述第二图像的语义分割结果。

在一个实施例中，在所述语义分割装置中，所述语义提取模型通过训练装置训练，所述训练装置包括：

第三获取单元，配置为，获取至少一对样本，每对样本包括第三像素的基础特征和第四像素的基础特征，其中所述第三像素和第四像素为分别属于两个图像的语义相同的像素；以及

训练单元，配置为，使用所述至少一对样本训练所述语义提取模型，以使得相比于训练前，训练后的所述语义提取模型基于所述至少一对样本输出的各对样本的第三像素的语义特征与第四像素的语义特征的差异之和减小。

在一个实施例中，在所述语义分割装置中，所述第三获取单元包括，第一获取子单元，配置为，获取所述两个图像中都包括的第二语义分割类别，以及第二获取子单元，配置为，获取所述两个图像中分别包括的所述第二语义分割类别中的对应像素作为所述第三像素和第四像素。

本说明书另一方面提供一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述任一项语义分割方法。

在根据本说明书实施例的语义分割方法中，通过使用语义提取模型将图像像素的基础特征映射为维数较低的语义特征，并基于语义特征进行图像的语义分割，减少了不必要的计算，节省了计算资源，提高了计算速度，同时还保持了较高的精度，从而改善了用户体验。

附图说明

通过结合附图描述本说明书实施例，可以使得本说明书实施例更加清楚：

图1示意示出根据本说明书实施例的图像语义分割***100；

图2示出根据本说明书实施例的一种用于图像的语义分割方法的流程图；

图3示出第一图像和第二图像；

图4示出根据本说明书实施例的训练语义提取模型的方法流程图；

图5示出根据本说明书实施例的一种用于图像的语义分割装置500；以及

图6示出根据本说明书实施例的语义提取模型训练装置600。

具体实施方式

下面将结合附图描述本说明书实施例。

图1示意示出根据本说明书实施例的图像语义分割***100。如图1所示，***100包括特征提取单元11、语义分割模型12、语义提取模型13、聚类模型14、检索单元15以及显示屏16。***100例如为用于进行车辆定损的移动设备，如手机、智能设备等。特征提取单元11、语义分割模型12、语义提取模型13和聚类模型14为适用于移动设备端的模型。例如，特征提取单元11可以是用于移动端的轻量化的卷积神经网络模型(CNN模型)。

例如，在上述***100中，通过用于车辆定损的APP进行对作为车损图像的第二图像进行语义分割。在该情况中，首先将第一图像和第二图像输入特征提取单元11，所述第一图像和第二图像例如为通过移动设备的摄像头(未示出)采集的车辆视频中的两帧图像。其中，第一图像与第二图像包括至少一个相同的语义分割类别，例如，第一图像和第二图像是车险事故车辆视频流中的相邻两帧图像，在该情况中，第一图像和第二图像中包括的语义分割类别(如车辆部件、车辆损伤等)基本相同。另外，在APP中已经获取第一图像的例如车辆部件的语义分割信息，例如，可通过将第一图像输入语义分割模型12，从而获取其上的语义分割信息。

在特征提取单元11中，通过预定CNN模型获取第一图像和第二图像各自每个像素的基础特征，并将所述基础特征发送给语义提取模型13。语义提取模型用于将所述基础特征都转换为相应的语义特征，并将所述语义特征发送给聚类模型14。在聚类模型14中，基于第二图像的每个像素的语义特征，对第二图像的多个像素分别进行聚类。之后，在检索单元15中，基于第一图像的语义分割结果、及所述第一图像和第二图像各自的每个像素的语义特征进行检索，获取第二图像的语义分割结果。在获取第二图像的语义分割结果之后，例如可在显示屏16中实时显示所述第二图像的语义分割结果。

图1所示的***100的结构只是示意性的，并不限制根据本说明书实施例的***的结构。例如，图1中所示的聚类模型14和显示屏16都不是本说明书实施例必需的。另外，第一图像上的语义分割信息不一定通过语义分割模型12获取，而是也可以通过上述方法获取。

图2示出根据本说明书实施例的一种用于图像的语义分割方法的流程图，包括：

在步骤S202，获取第一图像、第二图像及第一图像的语义分割结果，其中，所述第一图像和第二图像包括至少一个相同的语义分割类别；

在步骤S204，从所述第一图像和所述第二图像分别提取每个像素的基础特征；

在步骤S206，将所述第一图像和第二图像各自的每个像素的基础特征分别输入语义提取模型，以从所述语义提取模型的输出分别获取所述第一图像和第二图像各自的每个像素的语义特征；以及

在步骤S208，基于所述第一图像的语义分割结果、及所述第一图像和第二图像各自的每个像素的语义特征，获取所述第二图像的语义分割结果。

首先，在步骤S202，获取第一图像、第二图像及第一图像的语义分割结果，其中，所述第一图像和第二图像包括至少一个相同的语义分割类别。

在一个实施例中，该方法在移动设备(例如手机)端执行，下文将以手机为例说明该方法。然而，可以理解，根据本说明书实施例的方法不限于在例如手机的移动设备端执行，例如，该方法也可以在服务器端执行。

在一个实施例中，所述第一图像和第二图像例如为视频流中的相邻帧图像，从而第一图像和第二图像包括基本相同的语义分割类别。在一个实施例中，所述视频流为事故车辆的视频流，所述语义分割类别为车辆部件和/或车辆损伤。

在例如手机端，用户(例如事故车辆车主)可打开用于车辆定损的APP，并打开APP中的拍摄界面，同时将摄像头对准事故车辆。在打开拍摄界面之后，APP调用手机摄像头采集事故车辆的视频流，同时在手机屏上显示该视频流。所述第一图像例如为该视频流的第一帧图像。所述第二图像例如为该视频流的第二帧图像。当APP获取该视频流的第一帧图像之后，APP将该第一帧图像输入手机中部署的语义分割模型中，以获取该第一帧图像的语义分割结果。

所述语义分割模型是用于移动端的轻量化的模型，其例如通过MobileNet v2+SSDLite而实现，或者还可以通过MobileNet v2+DeepLab v3、MaskRCNN等实现。在一个实施例中，所述语义分割模型可通过大量加标注(分割信息)的车辆损伤图像进行训练获得。其中，在所述训练样本中针对车辆的部件、或损伤区域进行标注，从而可训练出用于针对车辆部件和车辆损伤的语义分割模型。

本领域技术人员可以理解，上述对步骤S202的说明只是示例说明，并不用于限制该方法，例如，所述方法不限于在手机端执行，所述第一图像和第二图像不限于视频流中的相邻帧的图像，也不限于为事故车辆视频流中的图像。另外，第一图像的语义分割结果不限于通过语义分割模型获取，而是例如可通过本说明书实施例的方法获取。例如，第一图像为上述事故车辆视频流的第二帧图像，其上语义分割信息通过图2所示方法获取。

在步骤S204，从所述第一图像和所述第二图像分别提取每个像素的基础特征。所述基础特征例如包括像素的色彩、灰度、亮度、对比度、饱和度、清晰度、平滑度、边缘、角点等。在一个实施例中，通过将第一图像和第二图像分别输入已有的CNN模型获取其每个像素的基础特征。在所述CNN模型中，可通过各种卷积核进行对各个基础特征的提取。例如，可通过各种边缘检测算子，基于亮度、对比度等获取像素的边缘信息，通过各种高斯滤波算子进行二阶边缘检测，通过各种角点提取算子基于灰度、平滑度等提取角点特征，等等。

在步骤S206，将所述第一图像和第二图像各自的每个像素的基础特征分别输入语义提取模型，以从所述语义提取模型的输出分别获取所述第一图像和第二图像各自的每个像素的语义特征。所述语义提取模型用于将图像像素基础特征向量映射(嵌入)到低维的语义空间，从而获取相比于基础特征向量维度较低的图像像素的语义特征。像素的语义特征与像素在图像中所涉及的语义相关联，例如包括如下方面的特征：像素所在的语义类别、像素在相应语义类别中的位置、像素与相应语义类别中相邻像素的关联关系等等。该语义提取模型的具体训练过程将在下文详细描述。

在一个实施例中，所述第一图像的语义分割结果中包括属于第一语义分割类别的多个第一像素的位置。例如，在一帧车损图像中，其语义分割结果包括对属于各个部件和各个损伤的像素的分类和定位。例如，如图3所示，图3(a)为所述第一图像，图3(b)为所述第二图像，其例如为同一车辆视频中的两帧图像，所述第一语义分割类别例如为图3(a)中的阴影区域所示的车辆右后门，即多个第一像素为图3(a)中阴影区域包括的多个像素。

其中，基于所述多个第一像素各自的语义特征，在所述第二图像中检索与所述多个第一像素分别对应的第二像素，其中所述第二像素与对应的第一像素具有相同的语义特征，以获取所述第二图像的语义分割结果。由于像素语义特征与像素所在的语义类别相关联，因此，在两个图像中的同一类别中的对应点的语义特征是相同的。例如，图3(b)中的阴影区域与图3(a)中的阴影区域属于同一语义类别，即车辆右后门，图3(a)中的像素点A与图3(b)中的像素点B为两个图像中的对应点，因此，点A与点B具有相同的语义特征。从而，通过在第二图像的像素中检索语义特征为点A的语义特征的像素，从而获取点B的位置。类似地，可基于图3(a)中阴影区域的每个像素的语义特征，在图3(b)中检索具有同样语义特征的对应像素，从而确定图3(b)中的右后门的分割类别的位置，从而获取对右后门的分割结果。

在一个实施例中，所述第一图像的语义分割结果中包括属于第一语义分割类别的多个第一像素的位置，如图3(a)所示，第一语义分割类别为图3(a)中的阴影区域。其中，基于第二图像的每个像素的语义特征，使用聚类模型对第二图像的多个像素进行聚类，以获取多个聚类类别；基于所述多个第一像素各自的语义特征、及第二图像中属于各个聚类类别的多个像素的语义特征，在所述第二图像中检索与所述第一语义分割类别对应的聚类类别，以获取所述第二图像的语义分割结果。所述聚类模型例如为k最近邻聚类模型等，其基于各个像素的语义特征将所述多个像素分别聚类，从而将其分为多个聚类类别。

参考图3，通过使用聚类模型对图3(b)中的多个像素进行聚类，例如可获取与右后轮、右后门、右后翼子板等车辆部件分别对应的多个聚类类别。可通过各个聚类类别中包括的像素的语义特征来表征相应的聚类类别，例如，以聚类类别中的多个像素的语义特征的向量和来表征对应的聚类类别。同样地，在图3(a)中可以通过第一语义分割类别中的多个像素的语义特征的向量和来表征第一语义分割类别。从而，可基于第一语义分割类别的表征向量，在图3(b)中检索表征向量与第一语义分割类别相同的聚类类别，从而确定与图3(b)中阴影区域对应的聚类类别为右后门分割类别，从而获取分割结果。

在一个实施例中，基于第二图像的每个像素的语义特征，使用聚类模型对第二图像的多个像素进行聚类，以获取多个聚类类别，其中包括第一聚类类别；基于所述第一图像的语义分割结果、所述第一图像中属于各个语义分割类别的多个像素的语义特征、及所述第二图像中属于所述第一聚类类别的多个像素的语义特征，在所述第一图像中检索与所述第一聚类类别对应的语义分割类别，以获取所述第二图像的语义分割结果。例如，同样参考图3(a)和图3(b)，通过使用聚类模型对图3(b)中的多个像素进行聚类，例如可获取与右后轮、右后门、右后翼子板等车辆部件分别对应的多个聚类类别。通过上述表征向量的方法，在图3(a)中检索例如表征向量等于图3(b)中阴影区域的聚类类别的表征向量的语义分割类别，从而确定图3(a)中阴影区域为与图3(b)阴影区域对应的语义分割类别(右后门)，从而确定图3(b)中阴影区域的聚类类别为右后门，从而获取图3(b)的语义分割结果。

如前文所述，根据本说明书实施例的该方法可用于手机端，用户在打开APP中的拍摄界面之后，APP调用手机摄像头采集事故车辆的视频流，同时在手机屏上显示该视频流。在通过语义分割模型对该视频流的第一帧进行语义分割之后，对于该视频流的后面的帧，例如第二帧，都可以用上述方法进行语义分割，以获取语义分割结果。由于该方法通过将像素基础特征映射为低维语义特征，维度大大降低，相比于直接输入语义分割模型，计算量大大降低，从而可基本实时地获取对视频流当前帧图像的语义分割，并实时地显示在手机屏上，从而可以通过语义分割信息以及与其相关的信息实时对用户的拍摄进行提示。

图4示出根据本说明书实施例的训练语义提取模型的方法流程图，包括：

在步骤S402，获取至少一对样本，每对样本包括第三像素的基础特征和第四像素的基础特征，其中所述第三像素和第四像素为分别属于两个图像的语义相同的像素；以及

在步骤S404，使用所述至少一对样本训练所述语义提取模型，以使得相比于训练前，训练后的所述语义提取模型基于所述至少一对样本输出的各对样本的第三像素的语义特征与第四像素的语义特征的差异之和减小。

首先，在步骤S402，获取至少一对样本，每对样本包括第三像素的基础特征和第四像素的基础特征，其中所述第三像素和第四像素为分别属于两个图像的语义相同的像素。图像像素的基础特征的获取可参考上文对图2中步骤S204的描述，在此不再赘述。语义相同是指，第三像素和第四像素在其所在图像中所属的语义分割类别相同、其在语义分割类别中的位置也是相对应的。例如，图3(a)中的点A与图3(b)中的点B为语义相同的像素点。也就是说，第三像素和第四像素可以是两个图像中的相同语义分割类别中的对应点。

因此，可以通过获取所述两个图像中都包括的语义分割类别，并获取所述两个图像中分别包括的所述语义分割类别中的对应像素作为所述第三像素和第四像素。可以理解，获取所述第三像素和第四像素的方式不限于上述方式，例如，可通过矩阵变换的方法，在一个图像中找到与另一图像中预定像素点对应的像素点的位置，从而获取第三像素和第四像素。

通过获取至少一对如图3(a)和图3(b)所示的车辆图像，即其包括相同的语义分割类别，如上文所述获取各对图像中各自的至少一对对应像素点，并如上文所述将所述至少一对对应像素点输入预定CNN模型，获取其各自的基础特征，从而获取至少一对训练样本。

该语义提取模型的训练目的是使得模型分别基于第三像素的基础特征和基于对应的第四像素的基础特征输出的两个语义特征基本相等。因此，该模型的损失函数例如为

如公式(1)所示，为一对样本中的第三像素的基础特征，为同一对样本中的第四像素的基础特征。为该语义提取模型输出的第三像素的语义特征，为该语义提取模型输出的第四像素的语义特征。即，在该模型的一次训练中，使用至少一对样本训练该模型，使得至少一对样本的与的差异之和减小，从而使得模型输出更加准确。可以理解，这里，模型的损失函数不限于公式(1)所示的形式，例如，可以为与之差的绝对值之和等多种形式。通过使用多对样本对该模型进行多次训练(如几万次)，从而完成对模型的训练，从而获取的语义提取模型可用于例如图2所示的方法中。

图5示出根据本说明书实施例的一种用于图像的语义分割装置500，包括：

第一获取单元51，配置为，获取第一图像、第二图像及第一图像的语义分割结果，其中，所述第一图像和第二图像包括至少一个相同的语义分割类别；

提取单元52，配置为，从所述第一图像和所述第二图像分别提取每个像素的基础特征；

输入单元53，配置为，将所述第一图像和第二图像各自的每个像素的基础特征分别输入语义提取模型，以从所述语义提取模型的输出分别获取所述第一图像和第二图像各自的每个像素的语义特征；以及

第二获取单元54，配置为，基于所述第一图像的语义分割结果、及所述第一图像和第二图像各自的每个像素的语义特征，获取所述第二图像的语义分割结果。

在一个实施例中，在所述语义分割装置中，所述提取单元52还配置为，通过预定CNN模型从所述第一图像和所述第二图像分别提取每个像素的基础特征。

在一个实施例中，在所述语义分割装置中，所述装置在移动设备端实施，所述移动设备包括摄像头和显示屏，其中，所述视频流为根据用户指令通过所述摄像头采集的视频流，所述第二图像为所述视频流的当前帧，所述装置还包括显示单元55，配置为，在获取所述第二图像的语义分割结果之后，在所述显示屏上示出述语义分割结果。

在一个实施例中，在所述语义分割装置中，所述第一图像的语义分割结果中包括属于第一语义分割类别的多个第一像素的位置，其中，所述第二获取单元54包括：

第一检索子单元541，配置为，基于所述多个第一像素各自的语义特征，在所述第二图像中检索与所述多个第一像素分别对应的第二像素，其中所述第二像素与对应的第一像素具有相同的语义特征，以获取所述第二图像的语义分割结果。

聚类子单元542，配置为，基于第二图像的每个像素的语义特征，使用聚类模型对第二图像的多个像素进行聚类，以获取多个聚类类别；

第二检索子单元543，配置为，基于所述多个第一像素各自的语义特征、及第二图像中属于各个聚类类别的多个像素的语义特征，在所述第二图像中检索与所述第一语义分割类别对应的聚类类别，以获取所述第二图像的语义分割结果。

在一个实施例中，在所述语义分割装置中，所述第二获取单元54包括：

聚类子单元542，配置为，基于第二图像的每个像素的语义特征，使用聚类模型对第二图像的多个像素进行聚类，以获取多个聚类类别，其中包括第一聚类类别；

第三检索子单元544，配置为，基于所述第一图像的语义分割结果、所述第一图像中属于各个语义分割类别的多个像素的语义特征、及所述第二图像中属于所述第一聚类类别的多个像素的语义特征，在所述第一图像中检索与所述第一聚类类别对应的语义分割类别，以获取所述第二图像的语义分割结果。

图6示出根据本说明书实施例的语义提取模型训练装置600，包括：

获取单元61，配置为，获取至少一对样本，每对样本包括第三像素的基础特征和第四像素的基础特征，其中所述第三像素和第四像素为分别属于两个图像的语义相同的像素；以及

训练单元62，配置为，使用所述至少一对样本训练所述语义提取模型，以使得相比于训练前，训练后的所述语义提取模型基于所述至少一对样本输出的各对样本的第三像素的语义特征与第四像素的语义特征的差异之和减小。

在一个实施例中，所述获取单元61包括，第一获取子单元611，配置为，获取所述两个图像中都包括的第二语义分割类别，以及第二获取子单元612，配置为，获取所述两个图像中分别包括的所述第二语义分割类别中的对应像素作为所述第三像素和第四像素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于图像的语义分割方法，包括：

2.根据权利要求1所述的语义分割方法，其中，所述第一图像的语义分割结果通过将所述第一图像输入预定语义分割模型获取。

3.根据权利要求1所述的语义分割方法，其中，从所述第一图像和所述第二图像分别提取每个像素的基础特征包括，通过预定CNN模型从所述第一图像和所述第二图像分别提取每个像素的基础特征。

4.根据权利要求1所述的语义分割方法，其中，所述第一图像和所述第二图像为视频流中的相邻帧图像。

5.根据权利要求4所述的用于图像的语义分割方法，其中，所述视频流为事故车辆的视频流。

6.根据权利要求4或5所述的语义分割方法，其中，所述方法在移动设备端执行，所述移动设备包括摄像头和显示屏，其中，所述视频流为根据用户指令通过所述摄像头采集的视频流，所述第二图像为所述视频流的当前帧，所述方法还包括，在获取所述第二图像的语义分割结果之后，在所述显示屏上示出述语义分割结果。

7.根据权利要求1所述的语义分割方法，其中，所述第一图像的语义分割结果中包括属于第一语义分割类别的多个第一像素的位置，其中，基于所述第一图像的语义分割结果、及所述第一图像和第二图像各自的每个像素的语义特征，获取所述第二图像的语义分割结果包括，

8.根据权利要求1所述的语义分割方法，其中，所述第一图像的语义分割结果中包括属于第一语义分割类别的多个第一像素的位置，其中，基于所述第一图像的语义分割结果、及所述第一图像和第二图像各自的每个像素的语义特征，获取所述第二图像的语义分割结果包括，

9.根据权利要求1所述的语义分割方法，其中，基于所述第一图像的语义分割结果、及所述第一图像和第二图像各自的每个像素的语义特征，获取所述第二图像的语义分割结果包括，

10.根据权利要求1所述的语义分割方法，其中，所述语义提取模型通过以下方式训练：

11.根据权利要求10所述的语义分割方法，其中，获取至少一对样本包括，获取所述两个图像中都包括的第二语义分割类别，以及获取所述两个图像中分别包括的所述第二语义分割类别中的对应像素作为所述第三像素和第四像素。

12.一种用于图像的语义分割装置，包括：

13.根据权利要求12所述的语义分割装置，其中，所述第一图像的语义分割结果通过将所述第一图像输入预定语义分割模型获取。

14.根据权利要求12所述的语义分割装置，其中，所述提取单元还配置为，通过预定CNN模型从所述第一图像和所述第二图像分别提取每个像素的基础特征。

15.根据权利要求12所述的语义分割装置，其中，所述第一图像和所述第二图像为视频流中的相邻帧图像。

16.根据权利要求15所述的语义分割装置，其中，所述视频流为事故车辆的视频流。

17.根据权利要求15或16所述的语义分割装置，其中，所述装置在移动设备端实施，所述移动设备包括摄像头和显示屏，其中，所述视频流为根据用户指令通过所述摄像头采集的视频流，所述第二图像为所述视频流的当前帧，所述装置还包括显示单元，配置为，在获取所述第二图像的语义分割结果之后，在所述显示屏上示出述语义分割结果。

18.根据权利要求12所述的语义分割装置，其中，所述第一图像的语义分割结果中包括属于第一语义分割类别的多个第一像素的位置，其中，所述第二获取单元包括：

19.根据权利要求12所述的语义分割装置，其中，所述第一图像的语义分割结果中包括属于第一语义分割类别的多个第一像素的位置，其中，所述第二获取单元包括：

20.根据权利要求12所述的语义分割装置，其中，所述第二获取单元包括：

21.根据权利要求12所述的语义分割装置，其中，所述语义提取模型通过训练装置训练，所述训练装置包括：

22.根据权利要求21所述的语义分割装置，其中，所述第三获取单元包括，第一获取子单元，配置为，获取所述两个图像中都包括的第二语义分割类别，以及第二获取子单元，配置为，获取所述两个图像中分别包括的所述第二语义分割类别中的对应像素作为所述第三像素和第四像素。

23.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-11中任一项所述的方法。