CN112200889A - 样本图像生成、图像处理、智能行驶控制方法及装置 - Google Patents

样本图像生成、图像处理、智能行驶控制方法及装置 Download PDF

Info

Publication number
CN112200889A
CN112200889A CN202011197925.1A CN202011197925A CN112200889A CN 112200889 A CN112200889 A CN 112200889A CN 202011197925 A CN202011197925 A CN 202011197925A CN 112200889 A CN112200889 A CN 112200889A
Authority
CN
China
Prior art keywords
image
semantic segmentation
semantic
information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011197925.1A
Other languages
English (en)
Inventor
周千寓
程光亮
石建萍
马利庄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Intelligent Technology Co Ltd
Priority to CN202011197925.1A priority Critical patent/CN112200889A/zh
Publication of CN112200889A publication Critical patent/CN112200889A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种样本图像生成、图像处理、智能行驶控制方法及装置,包括:获取源域图像、所述源域图像的第一标注信息、以及目标域图像;基于表征多种物体在源域的各个图像中分布特征的空间先验分布矩阵、以及所述目标域图像的第一语义分割图像,将所述源域图像和目标域图像进行语义融合,得到融合图像;以及对所述第一语义分割图像、以及所述源域图像的第一标注信息进行语义融合,得到所述融合图像对应的第二标注信息;根据融合图像以及所述融合图像对应的第二标注信息,生成样本图像。

Description

样本图像生成、图像处理、智能行驶控制方法及装置
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种样本图像生成、图像处理、智能行驶控制方法及装置。
背景技术
一般的,在对神经网络的有监督训练中,需要预先获取带有标注信息的样本数据,然后利用样本数据对神经网络进行训练。然而由于神经网络在训练过程中所需要的样本数据较多,样本数据的标注比较耗时,基于此,人们提出了无监督领域自适应的方法来训练神经网络。
在利用无监督领域自适应的方法训练神经网络时,通常需要将有标签的样本图像和无标签的样本图像进行融合,并基于融合后的图像、以及对应样本图像的标签,生成新的样本图像,对神经网络进行训练,使得神经网络既能够学习到有标签的样本图像的特征,又能够学习到无标签的样本图像的特征。
当前在将有标签的样本图像和无标签的样本图像进行融合的过程中,一般是将有标签的样本图像与无标签的样本图像进行对位融合,这种对位融合的方式可能会造成融合图像中各个物体分布不合理的情况;例如若源域中的样本图像中包括电线杆、汽车等,在将有标签的样本图像与无标签的样本图像进行融合后,电线杆可能会出现在道路中央,汽车可能会出现在天空中,这样就会导致样本数据的标注不合理,从而影响神经网络的训练精度。
发明内容
本公开实施例至少提供一种样本图像生成、图像处理、智能行驶控制方法及装置。
第一方面,本公开实施例提供了一种样本图像生成方法,包括:
获取源域图像、所述源域图像的第一标注信息、以及目标域图像;
基于表征多种物体在源域的各个图像中分布特征的空间先验分布矩阵、以及所述目标域图像的第一语义分割图像,将所述源域图像和目标域图像进行语义融合,得到融合图像;
以及对所述第一语义分割图像、以及所述源域图像的第一标注信息进行语义融合,得到所述融合图像对应的第二标注信息;
根据融合图像以及所述融合图像对应的第二标注信息,生成样本图像。
上述方法中,基于第一语义分割图像,可以获取目标域图像中的各类物体,然后利用预先定义的表征物体在图像中分布情况的空间先验分布矩阵,将目标域图像中的各类物体融合到源域图像中,得到融合图像,在所述空间先验分布矩阵的指导下,各类物体能够在得到的融合图像中的位置具有更合理的分布,从而使得生成的样本数据更加合理。进而在利用融合图像训练神经网络时,降低由于融合图像中物体分布不合理为神经网络的精度造成的干扰,提升神经网络的精度。
一种可能的实施方式中,所述基于表征多种物体在源域的各个图像中分布特征的空间先验分布矩阵、以及所述目标域图像的第一语义分割图像,将所述源域图像和目标域图像进行语义融合,得到融合图像,包括:
基于所述空间先验分布矩阵和所述目标域图像的第一语义分割图像,确定所述第一语义分割图像对应的目标掩码图像;
基于所述目标掩码图像将所述源域图像和所述目标域图像进行语义融合,得到所述融合图像。
这样,在将源域图像和目标域图像进行融合时,由于基于空间先验分布矩阵确定的目标掩码图像已经结合了各个物体在图像中的分布规律,因此,基于目标掩码图像所得到的融合图像能够更加符合各个物体的真实分布。
一种可能的实施方式中,所述基于所述空间先验分布矩阵和所述目标域图像的第一语义分割图像,确定所述第一语义分割图像对应的目标掩码图像,包括:
将所述空间先验分布矩阵与所述第一语义分割图像相乘,得到所述第一语义分割图像对应的语义分布图;其中,所述语义分布图中的每个像素点的取值表示,该像素点为属于所述不同种物体的概率;
针对任一像素点,基于该像素点属于所述多种物体的概率,确定该像素点对应的语义信息;
将对应的语义信息为目标语义信息的像素点的取值设为第一预设值,将对应的语义信息不是所述目标语义信息的像素点取值设为第二预设值,得到所述目标掩码图像。
基于上述实施方式,第一语义分割图像中各个像素点的取值表示该像素点属于多种物体的概率,将第一语义分割图像与空间先验分布矩阵相乘,在确定各个像素点对应的语义信息时,结合了各个物体的分布规律,因此在确定像素点对应的语义信息时更加精确。
一种可能的实施方式中,所述基于所述空间先验分布矩阵和所述目标域图像的第一语义分割图像,确定所述第一语义分割图像对应的目标掩码图像,包括:
将所述空间先验分布矩阵与所述第一语义分割图像相乘,得到所述第一语义分割图像对应的语义分布图;其中,所述语义分布图中的每个像素点的取值表示,该像素点为属于不同种物体的概率;
针对任一像素点,基于该像素点属于所述多种物体的概率,确定该像素点对应的语义信息;
将对应的语义信息为目标语义信息的像素点的取值设为第一预设值,将对应的语义信息不是所述目标语义信息的像素点取值设为第二预设值,将对应的语义信息为所述目标语义信息的关联语义信息的像素点的取值设为第一预设值,得到所述目标掩码图像。
一种可能的实施方式中,所述基于所述目标掩码图像将所述源域图像和所述目标域图像进行语义融合,得到所述融合图像,包括:
将所述源域图像中,与所述目标掩码图像中取值为所述第二预设值的像素点的对应像素点组成的图像,作为所述源域图像对应的第一待融合图像;以及,将所述目标域图像中,与所述目标掩码图像中取值为所述第一预设值的像素点的对应像素点组成的图像,作为所述目标域图像对应的第二待融合图像;
将所述第一待融合图像和所述第二待融合图像融合,得到所述融合图像。
一种可能的实施方式中,在生成样本图像之后,所述方法还包括:
利用所述源域图像、所述第一标注信息以及多个样本图像,训练语义分割网络。
一种可能的实施方式中,所述语义分割网络包括学生网络和教师网络;在生成样本图像时,所述目标域图像的第一语义分割图像由所述教师网络对所述目标域图像进行语义分割处理得到。
一种可能的实施方式中,所述利用所述源域图像、所述第一标注信息以及多个样本图像,训练语义分割网络,包括:
利用所述源域图像、所述第一标注信息、所述融合图像、以及所述第二标注信息更新所述学生网络的参数值;
基于更新的所述学生网络的参数值,更新所述教师网络的参数值。
一种可能的实施方式中,所述方法还包括:
基于所述教师网络,对所述目标域图像的噪声图像进行语义分割处理,得到第二语义分割图像;其中,所述目标域图像的噪声图像为对所述目标域图像添加噪声之后的图像;
基于所述第二语义分割图像,确定所述第二语义分割图像中各像素点的可信度信息;
所述利用所述源域图像、所述第一标注信息、所述融合图像、以及所述第二标注信息更新所述学生网络的参数值,包括:
利用所述源域图像、所述第一标注信息、所述融合图像、所述第二标注信息以及所述第二语义分割图像中各像素点的可信度信息,更新所述学生网络的参数值。
一种可能的实施方式中,所述利用所述源域图像、所述第一标注信息、所述融合图像、所述第二标注信息以及所述第二语义分割图像中各像素点的可信度信息,更新所述学生网络的参数值,包括:
将所述第二语义分割图像中各像素点的可信度信息与所述源域图像中各像素点的可信度信息进行语义融合,得到融合可信度信息;以及,
利用所述学生网络对所述融合图像进行语义分割处理,得到第三语义分割图像;
基于所述第三语义分割图像、所述第二标注信息、以及所述融合可信度信息确定一致性损失;基于当前的迭代次数,确定所述一致性损失的权重;
利用所述学生网络对源域图像进行语义分割处理,得到第四语义分割图像;并基于所述第四语义分割图像和所述第一标注信息,确定语义分割损失;
基于所述一致性损失、所述权重、以及所述语义分割损失,更新所述学生网络的参数值。
上述实施方式中,通过当前的迭代次数,确定一致性损失的权重,并基于一致性损失、确定的一致性损失的权重、以及语义分割损失来监督学生网络的参数值的调整过程,随着对学生网络和教师网络的迭代次数的增加,动态调整一致性损失和语义分割损失对学生网络、教师网络的参数值的影响,从而在保证学生网络和教师网络语义分割精度的前提下,学习到目标域图像中的特定特征。
一种可能的实施方式中,基于所述教师网络,对所述目标域图像的噪声图像进行语义分割处理,得到第二语义分割图像,包括:
基于所述教师网络对所述目标域图像的多张噪声图像进行语义分割图像,得到多张中间语义分割图像;
基于所述多张中间语义分割图像,生成所述第二语义分割图像。
这样,通过利用教师网络对多张噪声图像分别进行语义分割处理,得到多张中间语义分割图像,并基于多张中间语义分割图像生成第二语义分割图像,从而能够将噪声图像中的不确定性信息更多的提取出来,使得基于噪声图像得到的第二语义分割图像中各个像素点的可信度信息具有更好的突出性,进而提升对学生网络参数值的优化效率。
一种可能的实施方式中,所述基于所述多个中间语义分割图像,生成所述第二语义分割图像,包括:
依次对多张所述中间语义分割图像中对应位置的像素点求像素值均值;
将任一对应位置的像素点均值,确定为所述第二语义分割图像中对应位置的像素点的像素值。
一种可能的实施方式中,所述基于所述第二语义分割图像,确定所述第二语义分割图像中各像素点的可信度信息,包括:
基于所述第二语义分割图像中各个像素点的像素值,确定所述第二语义分割图像中每个像素点的信息熵;
将所述第二语义分割图像中每个像素点的信息熵与所述信息熵阈值进行比对;
基于比对结果,确定所述第二语义分割图像中每个像素点的可信度信息;
其中,若第二语义分割图像中任一像素点的信息熵的绝对值大于所述信息熵阈值,将与所述任一像素点对应的可信度信息置为表征该任一像素点的像素值可信的预设值,其中所述预设值大于0。
一种可能的实施方式中,采用下述方式生成所述信息熵阈值:
基于所述教师网络的语义分割种类,确定所述信息熵阈值。
一种可能的实施方式中,所述基于更新的所述学生网络的参数值,更新所述教师网络的参数值,包括:
对所述学生网络中参数的参数值执行指数移动平均处理,得到目标参数值;
使用所述目标参数值,替换所述教师网络中对应参数的参数值。
第二方面,本公开实施例提供了一种图像处理方法,包括:
获取待处理图像;
利用基于第一方面,或第一方面任一种可能的实施方式得到的样本图像训练的语义分割网络,对所述待处理图像进行语义分割处理,得到所述待处理图像的语义分割结果。
第三方面,本公开实施例提供了一种智能行驶控制方法,包括:
获取行驶装置在行驶过程中采集的图像;
利用基于第一方面,或第一方面的任一种可能的实施方式得到的样本图像训练的语义分割网络,检测所述图像中的目标对象;
基于检测的目标对象,控制所述行驶装置。
第四方面,本公开实施例提供了一种样本图像生成装置,包括:
第一获取模块,用于获取源域图像、所述源域图像的第一标注信息、以及目标域图像;
融合模块,用于基于表征多种物体在源域的各个图像中分布特征的空间先验分布矩阵、以及所述目标域图像的第一语义分割图像,将所述源域图像和目标域图像进行语义融合,得到融合图像;
所述融合模块,还用于对所述第一语义分割图像、以及所述源域图像的第一标注信息进行语义融合,得到所述融合图像对应的第二标注信息;
生成模块,用于根据融合图像以及所述融合图像对应的第二标注信息,生成样本图像。
第五方面,本公开实施例提供了一种图像处理装置,包括:
第二获取模块,用于获取待处理图像;
分割模块,用于利用基于第一方面,或第一方面任一种可能的实施方式得到的样本图像训练的语义分割网络,对所述待处理图像进行语义分割处理,得到所述待处理图像的语义分割结果。
第六方面,本公开实施例提供了一种智能行驶控制装置,包括:
第三获取模块,用于获取行驶装置在行驶过程中采集的图像;
检测模块,用于利用基于第一方面,或第一方面的任一种可能的实施方式得到的样本图像训练的语义分割网络,检测所述图像中的目标对象;
控制模块,用于基于检测的目标对象,控制所述行驶装置。
第七方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤,或执行上述第二方面所述的步骤,或执行上述第三方面所述的步骤。
第八方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤,或执行上述第二方面所述的步骤,或执行上述第三方面所述的步骤。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种融合图像示意图;
图2示出了本公开实施例所提供的一种样本图像生成方法的流程图;
图3示出了本公开实施例所提供的一种将源域图像和目标域图像进行语义融合,得到融合图像方法的流程图;
图4示出了本公开实施例所提供的一种语义分割网络训练方法的流程图;
图5示出了本公开实施例所提供的样本图像生成方法的整体架构示意图;
图6示出了本公开实施例所提供的图像处理方法的流程图;
图7示出了本公开实施例所提供的一种智能行驶控制方法的流程图;
图8示出了本公开实施例所提供的一种样本图像生成装置的架构示意图;
图9示出了本公开实施例所提供的一种图像处理装置的架构示意图;
图10示出了本公开实施例所提供的一种智能行驶控制装置的架构示意图;
图11示出了本公开实施例所提供的一种计算机设备的结构示意图;
图12示出了本公开实施例所提供的另一种计算机设备的结构示意图;
图13示出了本公开实施例所提供的另一种计算机设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
示例性的,相关技术中,在将有标签的样本图像A和无标签的样本图像B进行融合时,一般是进行对位融合,具体的,可以先预测样本图像B对应的分割图,确定样本图像B中所包含的物体的种类的数量,再从中选取任意几种类别的物体,基于任意选取的物体在样本图像B中对应的区域图像,生成掩码图像,所述掩码图像中属于选取的类别的物体的像素点的取值为1,其余像素点的取值为0,再将掩码图像与样本图像B相乘,得到样本图像B对应的融合图像,以及将掩码图像取反,即将像素值为0的像素点的像素值调整为1,将像素值为1的像素点的像素值调整为0,将取反之后的掩码图像与样本图像A相乘,得到样本图像A对应的融合图像,再将样本图像A对应的融合图像与样本图像B对应的融合图像进行融合,得到样本图像A和样本图像B对应的融合图像。
示例性的,可以参照图1所示,然而这种融合方法中,由于并未考虑各个物体之间的语义相关性,例如汽车和马路是语义相关的,通过这种方法进行融合后,汽车可能漂浮在空中,因此,通过这种融合方法最终得到的融合图像可能是不合理的,基于不合理的融合图像去进行神经网络的训练,神经网络的精度会受到影响。
基于上述研究,本公开提供了一种样本图像生成方法,基于第一语义分割图像,可以获取目标域图像中的各类物体,然后利用预先定义的表征物体在图像中分布情况的空间先验分布矩阵,将目标域图像中的各类物体融合到源域图像中,从而得到融合图像,在所述空间先验分布矩阵的指导下,各类物体能够在得到的融合图像中的位置具有更合理的分布,从而得到更合理的样本数据;进而在利用融合图像训练神经网络时,降低由于融合图像中物体分布不合理为神经网络的精度造成的干扰,提升神经网络的精度。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种样本图像生成方法进行详细介绍,本公开实施例所提供的样本图像生成方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该样本图像生成方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
参见图2所示,为本公开实施例提供的一种样本图像生成方法的流程图,所述方法包括步骤201~步骤204,其中:
步骤201、获取源域图像、所述源域图像的第一标注信息、以及目标域图像。
步骤202、基于表征多种物体在源域的各个图像中分布特征的空间先验分布矩阵、以及所述目标域图像的第一语义分割图像,将所述源域图像和目标域图像进行语义融合,得到融合图像。
步骤203、对所述第一语义分割图像、以及所述源域图像的第一标注信息进行语义融合,得到所述融合图像对应的第二标注信息。
步骤204、根据融合图像以及所述融合图像对应的第二标注信息,生成样本图像。
以下是对上述步骤的详细说明。
针对步骤201、
其中,源域图像可以是源域中的任意一张图像,所述源域图像中每个像素点具有对应的第一标注信息,该第一标注信息用于表示该像素点对应的物体。所述目标域图像可以是目标域中的任意一张图像,所述目标域图像中的像素点不具有对应的标注信息,所述源域和目标域属于不同的领域。
针对步骤202、
在一种可能的实施方式中,所述目标域图像的第一语义分割图像可以是基于神经网络,对目标域图像进行语义分割处理得到的。所述第一语义分割图像中每个像素点的取值表示该像素点属于预先定义的物体的概率,所述预先定义的物体即为本公开所提供的方法中语义分割的种类,示例性的,若预先定义了20类物体,则第一语义分割图像的通道数为20,不同的通道对应不同的物体,每个像素点的取值为一个20维的向量,该向量中各个特征值表示该像素点属于各个类别的物体的概率。
所述空间先验分布矩阵的维度与所述预先定义的物体的数量相同,空间先验分布矩阵的每个维度对应不同的物体,每个维度上各个位置上的取值表示该位置出现该维度对应的物体的概率,示例性的,若所述空间先验矩阵为10维矩阵,每一维度对应不同的物体,若第N维对应的物体为汽车,则该维度上的每个位置的取值表示该位置出现该汽车的概率。
本公开所提供的方法主要应用于自动驾驶车辆上,因此源域图像也均为自动驾驶车辆采集的图像,在自动驾驶车辆采集的图像中,各个物体应有对应的出现位置,例如马路一般出现在图像中央,天空一般出现在图像上部等。
在确定空间先验分布矩阵时,可以先确定空间先验分布矩阵的各个空间先验分布向量,所述向量的大小应该与源域图像的尺寸保持一致,例如,若源域图像为M*N大小的图像,则空间先验分布向量也应该为M*N维。
具体的,不同的空间先验分布向量用于描述不同的问题在图像中的分布情况,空间先验分布向量的各个位置与源域图像的各个位置是一一映射的。在确定空间先验分布向量时,示例性的,若该空间先验分布向量用于描述物体A在图像中的分布情况,源域图像共有S张图像,针对空间先验分布向量的每个位置处,确定在不同的源域图像中,该位置为物体A出现的次数,若有K张图像在该位置处存在物体A,则在该空间先验分布向量的该位置处的取值为K/S。
在一种可能的实施方式中,在基于空间先验分布矩阵以及第一语义分割图像,将源域图像和目标域图像进行语义融合,得到融合图像时,可以参照如图3所示的方法,包括以下几个步骤:
步骤301、基于所述空间先验分布矩阵和所述目标域图像的第一语义分割图像,确定所述第一语义分割图像对应的目标掩码图像。
步骤302、基于所述目标掩码图像将所述源域图像和所述目标域图像进行语义融合,得到所述融合图像。
步骤301中,具体的,在确定第一语义分割图像对应的目标掩码图像时,可以将空间先验分布矩阵与第一语义分割图像相乘,得到第一语义分割图像对应的语义分布图;其中,所述语义分布图中每个像素点的取值表示,该像素点属于多种物体的概率;针对任一像素点,可以基于该像素点属于多种物体的概率,确定该像素点对应的语义信息,然后基于各个像素点的语义信息,确定目标掩码图像。
具体的,空间先验分布矩阵的维度与第一语义分割图像的通道数相同,在将空间先验分布矩阵与第一语义分割图像相乘时,可以是各个对应位置的对应取值进行点乘。
示例性的,若空间先验分布矩阵的维度为3维,第一语义分割图像的通道数也为3,空间先验分布矩阵的尺寸为M*N*3,则针对第一语义分割图像中的第a行第b列的像素点,该像素点的取值为[n1,n2,n3],分别表示该像素点属于物体1的概率为n1,属于物体2的概率为n2,属于物体3的概率为n3;空间先验分布矩阵中第a行第b列位置处在不同空间先验分布向量中的取值为[m1,m2,m3],分别表示在该位置处出现物体1的频率为m1,在该位置处出现物体2的概率为m2,在该位置处出现物体3的概率为m3,则在空间先验分布矩阵对应的语义分布图中,该位置处的取值为[m1×n1,m2×n2,m3×n3]。
针对任一像素点,在基于该像素点属于多种物体的概率,确定该像素点对应的语义信息时,可以将对应的概率最大的物体作为该像素点对应的语义信息。
这里,需要说明的是,预先定义的物体的数量可能有T个,最终语义分布图中各个像素点最终确定的语义信息的种类可能只有D个,D小于等于T,D和T均为正整数。
在基于各个像素点的语义信息,确定目标掩码图像时,可以将对应的语义信息为目标语义信息的像素点的取值设为第一预设值,将对应的语义信息不是所述目标语义信息的像素点取值设为第二预设值,得到所述目标掩码图像。实际应用中,所述第一预设值可以是1,第二预设值可以是0。
其中,所述目标语义信息可以是从各个像素点的语义信息中随机选择的至少一个语义信息,也可以是接收到的用户的选择指令之后,基于用户的选择指令确定的语义信息。
在另外一种可能的实施方式中,在目标语义信息有对应的关联语义信息的情况下,在确定目标掩码图像时,除了将对应的语义信息为目标语义信息的像素点的取值设为第一预设值,将对应的语义信息不是所述目标语义信息的像素点取值设为第二预设值外,还需要将对应的语义信息为所述关联语义信息的像素点的取值也设为第一预设值。
这里,所述目标语义信息对应的关联语义信息为需要同时出现的语义信息,示例性的,若目标语义信息为指示牌,则目标语义信息对应的关联语义信息为指示牌的立柱,若目标语义信息为骑车的人,则目标语义信息对应的关联语义信息为自行车。
所述目标语义信息对应的物体的区域图像是需要进行融合的图像,具有对应的关联语义信息的目标语义信息若单独进行融合,则可能会出现语义不合理的情况,例如指示牌悬空等,因此结合目标语义信息对应的关联语义信息,在生成融合图像时可以结合各个物体之间的语义相关性,生成的融合图像更加符合现实规律。
步骤302中,在基于目标掩码图像将源域图像和目标域图像进行语义融合时,可以先将源域图像中,与所述目标掩码图像中取值为所述第二预设值的像素点的对应像素点组成的图像,作为所述源域图像对应的第一待融合图像;以及,将所述目标域图像中,与所述目标掩码图像中取值为所述第一预设值的像素点的对应像素点组成的图像,作为所述目标域图像对应的第二待融合图像;将所述第一待融合图像和所述第二待融合图像融合,得到所述融合图像。
实际应用中,所述第一预设值可以为1,所述第二预设值可以为0,所述目标掩码图像、所述源域图像、所述目标域图像的尺寸相同,可以将目标掩码图像与所述目标域图像进行对应像素相乘,目标掩码图像中取值为1的第一像素点在目标域图像中的对应像素点可以保留,目标掩码图像中取值为0的第二像素点在目标域图像中的对应像素点被覆盖,即取值相乘之后为0;同理,在源域图像中,可以将目标掩码图像取反,然后将取反之后逇目标掩码图像与所述源域图像相乘,目标掩码图像中取值为1的第一像素点在源域图像中的对应像素点可以保留,目标掩码图像中取值为0的第二像素点在源域图像中的对应像素点被覆盖,即取值相乘之后为0。
具体的,可以通过以下公式进行计算:
XM=M⊙XT+(1-M)⊙XS (1)
其中,XM表示融合图像,M表示掩码矩阵,XS表示源域图像,XT表示目标域图像,⊙表示对应像素相乘。
针对步骤203、
在一种可能的实施方式中,在对第一语义分割图像、以及源域图像的第一标注信息进行语义融合时,可以基于步骤202中得到的目标掩码图像,对第一语义分割图像、源域图像的第一标注信息进行语义融合,得到所述融合图像对应的第二标注信息。
具体的,可以通过以下公式进行计算:
YM=M⊙YT+(1-M)⊙YS (2)
其中,YM表示融合图像对应的第二标注信息,M表示掩码矩阵,YS表示第一语义分割图像,YT表示源域图像的第一标注信息,⊙表示对应像素相乘。
针对步骤204、
这里,多张融合图像,以及融合图像对应的第二标注信息,构成所述样本图像。
在一种可能的实施方式中,在生成样本图像之后,可以利用源域图像、第一标注信息以及多个样本图像,训练语义分割网络。这里,上述目标域图像的第一语义分割图像可以是由教师网络对目标域图像进行语义分割处理得到的。
在一种实施方式种,语义分割网络可以包括学生网络和教师网络的神经网络,在对学生网络(Student Network)和教师网络(Teacher Network)的参数值进行更新之前,首先可以对学生网络和教师网络的参数值进行初始化。
示例性的,可以先基于源域中多张源域图像先对学生网络进行训练,得到初步训练的学生网络,然后基于初步训练的学生网络的网络参数,确定教师网络的网络参数,进而得到初步训练的教师网络,所述初步训练的过程即为对所述学生网络和教师网络的参数值进行初始化的过程。
具体的,在利用所述源域图像、所述第一标注信息以及多个样本图像,对语义分割网络进行训练时,可以参照图4所示的方法,包括以下几个步骤:
步骤401、利用所述源域图像、所述第一标注信息、所述融合图像、以及所述第二标注信息更新所述学生网络的参数值。
步骤402、基于更新的所述学生网络的参数值,更新所述教师网络的参数值。
在一种可能的实施方式中,还可以基于教师网络,对目标域图像的噪声图像进行语义分割处理,得到第二语义分割图像,然后基于第二语义分割图像,确定第二语义图像中各像素点的可信度信息,在利用源域图像、所述第一标注信息、所述融合图像、以及所述第二标注信息更新所述学生网络的参数值时,可以利用所述源域图像、所述第一标注信息、所述融合图像、所述第二标注信息以及所述第二语义分割图像中各像素点的可信度信息,更新所述学生网络的参数值。
具体的,所述目标域图像的噪声图像可以是对目标域图像添加随机噪声之后的图像,示例性的,随机噪声例如包括:高斯噪声、白噪声等中任一种,具体可以根据实际的需要确定。目标域图像的噪声图像的尺寸与目标域图像的尺寸相同。
在一种可能的实施方式中,目标域图像的噪声图像可以有多张;在这种情况下,在对目标域图像的噪声图像进行语义分割处理,得到第二语义分割图像时,可以基于教师网络对目标与图像的多张噪声图像进行语义分割处理,得到多张中间语义分割图像,然后基于多张中间语义分割图像,生成第二语义分割图像。
具体的,在基于多个中间语义分割图像,生成第二语义分割图像时,可以依次对多张中间语义分割图像中对应位置处的像素点求像素值均值,然后将任意对应位置的像素点均值,确定为所述第二语义分割图像中对应位置的像素点的像素值。
例如,目标域图像的尺寸为h×w,目标域图像的噪声图像有N张,分别为A1、A2、……、AN;则利用教师网络对多张噪声图像进行语义分割处理后,得到第i张噪声图像的中间语义分割图像
Figure BDA0002754523790000141
表示为:
Figure BDA0002754523790000142
其中,xt表示目标域图像;h表示目标域图像的高度、w表示目标域图像的宽度;C表示教师网络的语义分割种类。
第二语义分割图像
Figure BDA0002754523790000143
例如满足下述公式(3):
Figure BDA0002754523790000144
这样,通过多次对目标域图像注入随机噪声,生成多张噪声图像,并基于多张噪声图像分别对应的中间语义分割图像,得到第二语义分割图像,可以将噪声图像中的不确定性信息更多的提取出来,使得基于噪声图像得到的第二语义分割图像中各个像素点的可信度信息具有更好的突出性,进而提升对学生网络参数值的优化效率。
在得到第二语义分割图像后,确定第二语义分割图像中各个像素点的可信度信息时,可以包括以下几个步骤:
步骤1、基于所述第二语义分割图像中各个像素点的像素值,确定所述第二语义分割图像中每个像素点的信息熵。
此处,任一像素点的信息熵
Figure BDA0002754523790000145
例如满足下述公式(4):
Figure BDA0002754523790000146
步骤2、基于所述第二语义分割图像中每个像素点的信息熵,以及预先确定的信息熵阈值,确定第二语义分割图像中每个像素点的可信度信息。
这里,例如可以基于所述教师网络的语义分割种类,确定所述信息熵阈值。
信息熵阈值H例如满足下述公式(5):
Figure BDA0002754523790000151
其中,a、b以及c均为超参数;Kmax=logC;C表示教师网络的语义分割种类。t表示当前迭代轮数;tmax表示最大迭代轮数。
示例性的,信息熵阈值例如满足:
Figure BDA0002754523790000152
在确定每个像素点的信息熵阈值之后,例如可以将第二语义分割图像中每个像素点的信息熵与预先确定的信息熵阈值进行比对;然后基于比对结果,确定第二语义分割图像中每个像素点的可信度信息。
其中,若第二语义分割图像中任一像素点的信息熵的绝对值大于所述信息熵阈值,将与所述任一像素点对应的可信度信息置为表征该任一像素点的像素值可信的预设值,其中所述预设值大于0。
在具体实施中,从上述公式(4)中可以得知,信息熵的值为负数;针对第二语义分割图像中的某个像素点,该像素点的信息熵的值越小,则表征该像素点的可信度越高,也即,第二语义分割图像中的像素点的像素值所表征的对应目标域图像中像素点的分类的可信度越高。则在进行一致性损失计算时,要将第二语义分割图像中可信度较高的像素点考虑在内,增加可信度较高的像素点对损失的影响;而对于第二语义分割图像中可信度较低的像素点,可以降低其对一致性损失的影响,甚至去除其对一致性损失的影响。
进而,例如可以将像素值可信的预设设置为1;将像素值不可信的预设值设置为0;又例如,可以将像素值可信的预设值设置为1,将像素值不可信的预设值设置为0.5等。具体的可以根据实际的需要进行具体设置。
进而,示例性的,第二语义分割图像中每个像素点的可信度信息例如满足下述公式(6):
Figure BDA0002754523790000153
其中,H表示信息熵阈值;I(·)表示0-1函数;且
Figure BDA0002754523790000154
时,I(·)取1;
Figure BDA0002754523790000155
时,I(·)取0。
步骤401中,具体的,在利用所述源域图像、所述第一标注信息、所述融合图像、所述第二标注信息以及所述第二语义分割图像中各像素点的可信度信息,更新所述学生网络的参数值时,可以包括以下几个步骤:
步骤1、将所述第二语义分割图像中各像素点的可信度信息与所述源域图像中各像素点的可信度信息进行语义融合,得到融合可信度信息;以及,利用所述学生网络对所述融合图像进行语义分割处理,得到第三语义分割图像。
步骤2、基于所述第三语义分割图像、所述第二标注信息、以及所述融合可信度信息确定一致性损失;基于当前的迭代次数,确定所述一致性损失的权重。
步骤3、利用所述学生网络对源域图像进行语义分割处理,得到第四语义分割图像;并基于所述第四语义分割图像和所述第一标注信息,确定语义分割损失。
步骤4、基于所述一致性损失、所述权重、以及所述语义分割损失,更新所述学生网络的参数值。
针对上述步骤1,在将第二语义分割图像中各像素点的可信度信息与源域图像中各像素点的可信度信息进行语义融合时,可以基于步骤202中计算得到的目标掩码图像进行融合。实际应用中,源域图像中各像素点的可信度信息由于是源域图像的第一标注信息得到的,因此可以任务源域图像中各个像素点都是可信的。
具体的,在将第二语义分割图像中各像素点的可信度信息与源域图像中各像素点的可信度信息进行语义融合时的方法,与上述源域图像和目标域图像的语义融合方法相同,在此将不再重复说明。
针对上述步骤2,例如在基于所述第三语义分割图像、所述第二标注信息、以及所述融合可信度信息确定一致性损失时,可以参照如下公式(7):
Figure BDA0002754523790000161
其中,fθ'表示教师网络,fθ表示学生网络,Lcon(fθ',fθ)表示教师网络和学生网络之间的一致性损失,UM表示融合可信度信息,fθ(XM)表示第三语义分割图像,YM表示第二标注信息,CE(fθ(XM),YM)表示第三融合分割图像与第二标注信息之间的分割损失,∑j表示逐像素求和。
具体实施中,由于在将第二语义分割图像中各像素点的可信度信息与源域图像中各像素点的可信度信息进行语义融合时,源域图像中各像素点都是可信的,在基于融合后可信度信息计算一致性损失时,仅仅考虑到可信的像素点在第三语义分割图像中对应的损失值(不可信的像素点对应的融合可信度信息为0),因此可以避免教师网络预测精度较低的像素点,对于调整学生网络的参数时的影响,进而避免错误累计的问题。
针对上述步骤3,示例性的,语义分割损失Lseg例如为源域图像的交叉熵损失,其满足下述公式(8):
Figure BDA0002754523790000171
其中,H表示源域图像的高度;W表示源域图像的宽度;C表示通道数;Ys表示源域图像的第一标注信息;Ps=fθ((XS)(h,w,c)),表示第四语义分割图像;XS表示源域图像;fθ(·)表示学生网络。
针对上述步骤4,在基于所述一致性损失、所述权重、以及所述语义分割损失,更新所述学生网络的参数值时,可以先基于一致性损失、所述权重、以及所述语义分割损失,计算本次训练过程中的总损失值,然后基于总损失值,更新所述学生网络的网络参数值。
示例性的,可以根据如下公式计算本次训练过程中的总损失值:
Ltotal=LsegconLcon (9)
其中,Lcon表示一致性损失,Lseg表示语义分割损失,λcon表示一致性损失的权重,该权重例如为动态权重,设置为随着迭代次数而增大的上升函数,该动态权重能够在语义分割损失和一致性损失之间取的平衡,在神经网络的早期训练过程中增加语义分割损失的优势,并在后期训练过程中逐渐增加一致性损失的优势,以稳定控制神经网络的参数值的收敛。
在基于更新的学生网络的参数值,更新教师网络的参数值时,例如可以对所述学生网络中参数的参数值执行指数移动平均处理,得到目标参数值;使用所述目标参数值,替换所述教师网络中对应参数的参数值。
下面将结合图示,将对上述语义分割网络的训练方法的整体架构做出介绍,参见图5所示,包括三个方面的融合,第一方面是源域图像和目标域图像的语义融合,第二方面是源域图像的第一标注信息和第一语义分割图像的语义融合,第三方面是目标域图像的可信度信息和源域图像的可信度信息的融合,具体的,可以包括以下几个步骤:
步骤1、将目标域图像输入至教师网络,得到第一语义分割图像;
步骤2、基于第一语义分割图像将源域图像和目标域图像进行语义融合得到融合图像;
步骤3、可同步执行以下几个步骤:
步骤31、为目标域图像添加噪声,并将目标域图像的噪声图像输入至教师图像,得到第二语义分割图像;
步骤32、将源域图像输入至学生网络得到第三语义分割图像;
步骤33、将融合图像输入至学生网络得到第四语义分割图像;
步骤4、基于公式(8)计算第四语义分割图像和第一标注信息之间的语义分割损失;
步骤5、将第一标注信息和第一语义分割图像进行语义融合,得到第二标注信息;
步骤6、基于第二语义分割图像,确定第二语义分割图像对应的信息熵;
步骤7、基于第二语义分割图像的信息熵和信息熵阈值,确定第二分割图像的可信度信息;
步骤8、将源域图像的可信度信息和第二分割图像的可信度信息进行语义融合,得到融合可信度信息;
步骤9、利用公式(7)计算第三语义分割图像、第二标注信息和融合可信度信息之间的一致性损失;
步骤10、利用公式(9)计算本次训练过程中的总损失,并基于计算出的总损失,调整学生网络的参数,并基于调整后的学生网络的参数,调整教师网络的参数。
参见图6所示,本公开实施例还提供一种图像处理方法,包括:
步骤601、获取待处理图像;
步骤602、利用基于本公开任一实施例所述的样本图像生成方法得到的样本图像训练的语义分割网络,对所述待处理图像进行语义分割处理,得到所述待处理图像的语义分割结果。
本公开实施在对待处理图像进行语义分割处理时,利用了通过本公开实施例提供的样本图像生成方法所得到的样本图像训练的神经网络来实现,通过该样本图像所训练的神经网络,得到的待处理图像的语义分割结果更加精确。
参见图7所示,本公开实施例还提供一种智能行驶控制方法,包括:
步骤701、获取行驶装置在行驶过程中采集的图像;
步骤702、利用基于本公开任一实施例所述的样本图像生成方法得到的样本图像的训练的语义分割网络,检测所述图像中的目标对象;
步骤703、基于检测的目标对象,控制所述行驶装置。
在具体实施中,行驶装置例如但不限于下述任一种:自动驾驶车辆、装有高级驾驶辅助***(Advanced Driving Assistance System,ADAS)的车辆、或者机器人等。
控制行驶装置,例如包括控制行驶装置加速、减速、转向、制动等,或者可以播放语音提示信息,以提示驾驶员控制行驶装置加速、减速、转向、制动等。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与样本图像生成方法对应的样本图像生成装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述样本图像生成方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图8所示,为本公开实施例提供的一种样本图像生成装置的架构示意图,所述装置包括:第一获取模块801、融合模块802、生成模块803;其中,
第一获取模块801,用于获取源域图像、所述源域图像的第一标注信息、以及目标域图像;
融合模块802,用于基于表征多种物体在源域的各个图像中分布特征的空间先验分布矩阵、以及所述目标域图像的第一语义分割图像,将所述源域图像和目标域图像进行语义融合,得到融合图像;
所述融合模块802,还用于对所述第一语义分割图像、以及所述源域图像的第一标注信息进行语义融合,得到所述融合图像对应的第二标注信息;
生成模块803,用于根据融合图像以及所述融合图像对应的第二标注信息,生成样本图像。
所述融合模块802,在基于表征多种物体在源域的各个图像中分布特征的空间先验分布矩阵、以及所述目标域图像的第一语义分割图像,将所述源域图像和目标域图像进行语义融合,得到融合图像时,用于:
基于所述空间先验分布矩阵和所述目标域图像的第一语义分割图像,确定所述第一语义分割图像对应的目标掩码图像;
基于所述目标掩码图像将所述源域图像和所述目标域图像进行语义融合,得到所述融合图像。
一种可能的实施方式中,所述融合模块802,在基于所述空间先验分布矩阵和所述目标域图像的第一语义分割图像,确定所述第一语义分割图像对应的目标掩码图像时,用于:
将所述空间先验分布矩阵与所述第一语义分割图像相乘,得到所述第一语义分割图像对应的语义分布图;其中,所述语义分布图中的每个像素点的取值表示,该像素点为属于所述不同种物体的概率;
针对任一像素点,基于该像素点属于所述多种物体的概率,确定该像素点对应的语义信息;
将对应的语义信息为目标语义信息的像素点的取值设为第一预设值,将对应的语义信息不是所述目标语义信息的像素点取值设为第二预设值,得到所述目标掩码图像。
一种可能的实施方式中,所述融合模块802,在基于所述空间先验分布矩阵和所述目标域图像的第一语义分割图像,确定所述第一语义分割图像对应的目标掩码图像时,用于:
将所述空间先验分布矩阵与所述第一语义分割图像相乘,得到所述第一语义分割图像对应的语义分布图;其中,所述语义分布图中的每个像素点的取值表示,该像素点为属于不同种物体的概率;
针对任一像素点,基于该像素点属于所述多种物体的概率,确定该像素点对应的语义信息;
将对应的语义信息为目标语义信息的像素点的取值设为第一预设值,将对应的语义信息不是所述目标语义信息的像素点取值设为第二预设值,将对应的语义信息为所述目标语义信息的关联语义信息的像素点的取值设为第一预设值,得到所述目标掩码图像。
一种可能的实施方式中,所述融合模块802,在基于所述目标掩码图像将所述源域图像和所述目标域图像进行语义融合,得到所述融合图像时,用于:
将所述源域图像中,与所述目标掩码图像中取值为所述第二预设值的像素点的对应像素点组成的图像,作为所述源域图像对应的第一待融合图像;以及,将所述目标域图像中,与所述目标掩码图像中取值为所述第一预设值的像素点的对应像素点组成的图像,作为所述目标域图像对应的第二待融合图像;
将所述第一待融合图像和所述第二待融合图像融合,得到所述融合图像。
一种可能的实施方式中,所述装置还包括训练模块804,用于:在生成样本图像之后,利用所述源域图像、所述第一标注信息以及多个样本图像,训练语义分割网络。
一种可能的实施方式中,所述语义分割网络包括学生网络和教师网络;在生成样本图像时,所述目标域图像的第一语义分割图像由所述教师网络对所述目标域图像进行语义分割处理得到。
一种可能的实施方式中,所述训练模块804,在所述利用所述源域图像、所述第一标注信息以及多个样本图像,训练语义分割网络时,用于:
利用所述源域图像、所述第一标注信息、所述融合图像、以及所述第二标注信息更新所述学生网络的参数值;
基于更新的所述学生网络的参数值,更新所述教师网络的参数值。
一种可能的实施方式中,所述训练模块804,还用于:
基于所述教师网络,对所述目标域图像的噪声图像进行语义分割处理,得到第二语义分割图像;
基于所述第二语义分割图像,确定所述第二语义分割图像中各像素点的可信度信息;
所述训练模块804,在利用所述源域图像、所述第一标注信息、所述融合图像、以及所述第二标注信息更新所述学生网络的参数值时,用于:
利用所述源域图像、所述第一标注信息、所述融合图像、所述第二标注信息以及所述第二语义分割图像中各像素点的可信度信息,更新所述学生网络的参数值。
一种可能的实施方式中,所述训练模块804,在利用所述源域图像、所述第一标注信息、所述融合图像、所述第二标注信息以及所述第二语义分割图像中各像素点的可信度信息,更新所述学生网络的参数值时,用于:
将所述第二语义分割图像中各像素点的可信度信息与所述源域图像中各像素点的可信度信息进行语义融合,得到融合可信度信息;以及,
利用所述学生网络对所述融合图像进行语义分割处理,得到第三语义分割图像;
基于所述第三语义分割图像、所述第二标注信息、以及所述融合可信度信息确定一致性损失;基于当前的迭代次数,确定所述一致性损失的权重;
利用所述学生网络对源域图像进行语义分割处理,得到第四语义分割图像;并基于所述第四语义分割图像和所述第一标注信息,确定语义分割损失;
基于所述一致性损失、所述权重、以及所述语义分割损失,更新所述学生网络的参数值。
一种可能的实施方式中,所述训练模块804,在基于所述教师网络,对所述目标域图像的噪声图像进行语义分割处理,得到第二语义分割图像时,用于:
基于所述教师网络对所述目标域图像的多张噪声图像进行语义分割图像,得到多张中间语义分割图像;其中,所述目标域图像的噪声图像为对所述目标域图像添加噪声之后的图像;
基于所述多张中间语义分割图像,生成所述第二语义分割图像。
一种可能的实施方式中,所述训练模块804,在基于所述多个中间语义分割图像,生成所述第二语义分割图像时,用于:
依次对多张所述中间语义分割图像中对应位置的像素点求像素值均值;
将任一对应位置的像素点均值,确定为所述第二语义分割图像中对应位置的像素点的像素值。
一种可能的实施方式中,所述训练模块804,在基于所述第二语义分割图像,确定所述第二语义分割图像中各像素点的可信度信息时,用于:
基于所述第二语义分割图像中各个像素点的像素值,确定所述第二语义分割图像中每个像素点的信息熵;
将所述第二语义分割图像中每个像素点的信息熵与所述信息熵阈值进行比对;
基于比对结果,确定所述第二语义分割图像中每个像素点的可信度信息;
其中,若第二语义分割图像中任一像素点的信息熵的绝对值大于所述信息熵阈值,将与所述任一像素点对应的可信度信息置为表征该任一像素点的像素值可信的预设值,其中所述预设值大于0。
一种可能的实施方式中,所述训练模块804,还用于采用下述方式生成所述信息熵阈值:
基于所述教师网络的语义分割种类,确定所述信息熵阈值。
一种可能的实施方式中,所述训练模块804,在基于更新的所述学生网络的参数值,更新所述教师网络的参数值时,用于:
对所述学生网络中参数的参数值执行指数移动平均处理,得到目标参数值;
使用所述目标参数值,替换所述教师网络中对应参数的参数值。
基于同一发明构思,本公开实施例中还提供了与图像处理方法对应的图像处理装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述图像处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图9所示,为本公开实施例提供的一种图像处理装置的架构示意图,所述装置包括:第二获取模块901、分割模块902;其中,
第二获取模块901,用于获取待处理图像;
分割模块902,用于利用本公开任一实施例所述的样本图像生成方法得到的样本图像训练的语义分割网络,对所述待处理图像进行语义分割处理,得到所述待处理图像的语义分割结果。
基于同一发明构思,本公开实施例中还提供了与智能行驶控制方法对应的智能行驶控制装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述智能行驶控制方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图10所示,为本公开实施例提供的一种智能行驶控制装置的架构示意图,所述装置包括:第三获取模块1001、检测模块1002、控制模块1003;其中,
第三获取模块1001,用于获取行驶装置在行驶过程中采集的图像;
检测模块1002,用于利用基于本公开任一实施例所述的样本图像生成方法得到的样本图像训练的语义分割网络,检测所述图像中的目标对象;
控制模块1003,用于基于检测的目标对象,控制所述行驶装置。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
基于同一技术构思,本公开实施例还提供了一种计算机设备。参照图11所示,为本公开实施例提供的计算机设备1100的结构示意图,包括处理器1101、存储器1102、和总线1103。其中,存储器1102用于存储执行指令,包括内存11021和外部存储器11022;这里的内存11021也称内存储器,用于暂时存放处理器1101中的运算数据,以及与硬盘等外部存储器11022交换的数据,处理器1101通过内存11021与外部存储器11022进行数据交换,当计算机设备1100运行时,处理器1101与存储器1102之间通过总线1103通信,使得处理器1101在执行以下指令:
获取源域图像、所述源域图像的第一标注信息、以及目标域图像;
基于表征多种物体在源域的各个图像中分布特征的空间先验分布矩阵、以及所述目标域图像的第一语义分割图像,将所述源域图像和目标域图像进行语义融合,得到融合图像;
以及对所述第一语义分割图像、以及所述源域图像的第一标注信息进行语义融合,得到所述融合图像对应的第二标注信息;
根据融合图像以及所述融合图像对应的第二标注信息,生成样本图像。
基于同一技术构思,本公开实施例还提供了一种计算机设备。参照图12所示,为本公开实施例提供的计算机设备1200的结构示意图,包括处理器1201、存储器1202、和总线1203。其中,存储器1202用于存储执行指令,包括内存12021和外部存储器12022;这里的内存12021也称内存储器,用于暂时存放处理器1201中的运算数据,以及与硬盘等外部存储器12022交换的数据,处理器1201通过内存12021与外部存储器12022进行数据交换,当计算机设备1200运行时,处理器1201与存储器1202之间通过总线1203通信,使得处理器1201在执行以下指令:
获取待处理图像;
利用基于本公开任一实施例所述的样本图像生成方法得到的样本图像训练的语义分割网络,对所述待处理图像进行语义分割处理,得到所述待处理图像的语义分割结果。
基于同一技术构思,本公开实施例还提供了一种计算机设备。参照图13所示,为本公开实施例提供的计算机设备1300的结构示意图,包括处理器1301、存储器1302、和总线1303。其中,存储器1302用于存储执行指令,包括内存13021和外部存储器13022;这里的内存13021也称内存储器,用于暂时存放处理器1301中的运算数据,以及与硬盘等外部存储器13022交换的数据,处理器1301通过内存13021与外部存储器13022进行数据交换,当计算机设备1300运行时,处理器1301与存储器1302之间通过总线1303通信,使得处理器1301在执行以下指令:
获取行驶装置在行驶过程中采集的图像;
利用基于本公开任一实施例所述的样本图像生成方法得到的样本图像训练的语义分割网络,检测所述图像中的目标对象;
基于检测的目标对象,控制所述行驶装置。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的样本图像生成、图像处理、智能行驶控制方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例所提供的样本图像生成、图像处理、智能行驶控制方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的样本图像生成、图像处理、智能行驶控制方法的步骤,具体可参见上述方法实施例,在此不再赘述。
本公开实施例还提供一种计算机程序,该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (20)

1.一种样本图像生成方法,其特征在于,包括:
获取源域图像、所述源域图像的第一标注信息、以及目标域图像;
基于表征多种物体在源域的各个图像中分布特征的空间先验分布矩阵、以及所述目标域图像的第一语义分割图像,将所述源域图像和目标域图像进行语义融合,得到融合图像;
对所述第一语义分割图像、以及所述源域图像的第一标注信息进行语义融合,得到所述融合图像对应的第二标注信息;
根据融合图像以及所述融合图像对应的第二标注信息,生成样本图像。
2.根据权利要求1所述的方法,其特征在于,所述基于表征多种物体在源域的各个图像中分布特征的空间先验分布矩阵、以及所述目标域图像的第一语义分割图像,将所述源域图像和目标域图像进行语义融合,得到融合图像,包括:
基于所述空间先验分布矩阵和所述目标域图像的第一语义分割图像,确定所述第一语义分割图像对应的目标掩码图像;
基于所述目标掩码图像将所述源域图像和所述目标域图像进行语义融合,得到所述融合图像。
3.根据权利要求2所述的方法,其特征在于,所述基于所述空间先验分布矩阵和所述目标域图像的第一语义分割图像,确定所述第一语义分割图像对应的目标掩码图像,包括:
将所述空间先验分布矩阵与所述第一语义分割图像相乘,得到所述第一语义分割图像对应的语义分布图;其中,所述语义分布图中的每个像素点的取值表示,该像素点为属于不同种物体的概率;
针对任一像素点,基于该像素点属于所述多种物体的概率,确定该像素点对应的语义信息;
将对应的语义信息为目标语义信息的像素点的取值设为第一预设值,将对应的语义信息不是所述目标语义信息的像素点取值设为第二预设值,得到所述目标掩码图像。
4.根据权利要求2所述的方法,其特征在于,所述基于所述空间先验分布矩阵和所述目标域图像的第一语义分割图像,确定所述第一语义分割图像对应的目标掩码图像,包括:
将所述空间先验分布矩阵与所述第一语义分割图像相乘,得到所述第一语义分割图像对应的语义分布图;其中,所述语义分布图中的每个像素点的取值表示,该像素点为属于不同种物体的概率;
针对任一像素点,基于该像素点属于所述多种物体的概率,确定该像素点对应的语义信息;
将对应的语义信息为目标语义信息的像素点的取值设为第一预设值,将对应的语义信息不是所述目标语义信息的像素点取值设为第二预设值,将对应的语义信息为所述目标语义信息的关联语义信息的像素点的取值设为第一预设值,得到所述目标掩码图像。
5.根据权利要求3或4所述的方法,其特征在于,所述基于所述目标掩码图像将所述源域图像和所述目标域图像进行语义融合,得到所述融合图像,包括:
将所述源域图像中,与所述目标掩码图像中取值为所述第二预设值的像素点的对应像素点组成的图像,作为所述源域图像对应的第一待融合图像;以及,将所述目标域图像中,与所述目标掩码图像中取值为所述第一预设值的像素点的对应像素点组成的图像,作为所述目标域图像对应的第二待融合图像;
将所述第一待融合图像和所述第二待融合图像融合,得到所述融合图像。
6.根据权利要求1-5任一所述的方法,其特征在于,在生成样本图像之后,所述方法还包括:
利用所述源域图像、所述第一标注信息以及多个样本图像,训练语义分割网络。
7.根据权利要求6所述的方法,其特征在于,所述语义分割网络包括学生网络和教师网络;在生成样本图像时,所述目标域图像的第一语义分割图像由所述教师网络对所述目标域图像进行语义分割处理得到。
8.根据权利要求7所述的方法,其特征在于,所述利用所述源域图像、所述第一标注信息以及多个样本图像,训练语义分割网络,包括:
利用所述源域图像、所述第一标注信息、所述融合图像、以及所述第二标注信息更新所述学生网络的参数值;
基于更新的所述学生网络的参数值,更新所述教师网络的参数值。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
基于所述教师网络,对所述目标域图像的噪声图像进行语义分割处理,得到第二语义分割图像;其中,所述目标域图像的噪声图像为对所述目标域图像添加噪声之后的图像;
基于所述第二语义分割图像,确定所述第二语义分割图像中各像素点的可信度信息;
所述利用所述源域图像、所述第一标注信息、所述融合图像、以及所述第二标注信息更新所述学生网络的参数值,包括:
利用所述源域图像、所述第一标注信息、所述融合图像、所述第二标注信息以及所述第二语义分割图像中各像素点的可信度信息,更新所述学生网络的参数值。
10.根据权利要求9所述的方法,其特征在于,所述利用所述源域图像、所述第一标注信息、所述融合图像、所述第二标注信息以及所述第二语义分割图像中各像素点的可信度信息,更新所述学生网络的参数值,包括:
将所述第二语义分割图像中各像素点的可信度信息与所述源域图像中各像素点的可信度信息进行语义融合,得到融合可信度信息;以及,
利用所述学生网络对所述融合图像进行语义分割处理,得到第三语义分割图像;
基于所述第三语义分割图像、所述第二标注信息、以及所述融合可信度信息确定一致性损失;基于当前的迭代次数,确定所述一致性损失的权重;
利用所述学生网络对所述源域图像进行语义分割处理,得到第四语义分割图像;并基于所述第四语义分割图像和所述第一标注信息,确定语义分割损失;
基于所述一致性损失、所述权重、以及所述语义分割损失,更新所述学生网络的参数值。
11.根据权利要求9所述的方法,其特征在于,基于所述教师网络,对所述目标域图像的噪声图像进行语义分割处理,得到第二语义分割图像,包括:
基于所述教师网络对所述目标域图像的多张噪声图像进行语义分割图像,得到多张中间语义分割图像;
基于所述多张中间语义分割图像,生成所述第二语义分割图像。
12.根据权利要求11所述的方法,其特征在于,所述基于所述多个中间语义分割图像,生成所述第二语义分割图像,包括:
依次对多张所述中间语义分割图像中对应位置的像素点求像素值均值;
将任一对应位置的像素点均值,确定为所述第二语义分割图像中对应位置的像素点的像素值。
13.根据权利要求9所述的方法,其特征在于,所述基于所述第二语义分割图像,确定所述第二语义分割图像中各像素点的可信度信息,包括:
基于所述第二语义分割图像中各个像素点的像素值,确定所述第二语义分割图像中每个像素点的信息熵;
将所述第二语义分割图像中每个像素点的信息熵与所述信息熵阈值进行比对;
基于比对结果,确定所述第二语义分割图像中每个像素点的可信度信息;
其中,若第二语义分割图像中任一像素点的信息熵的绝对值大于所述信息熵阈值,将与所述任一像素点对应的可信度信息置为表征该任一像素点的像素值可信的预设值,其中所述预设值大于0。
14.一种图像处理方法,其特征在于,包括:
获取待处理图像;
利用基于权利要求6~13任一所述的方法得到的语义分割网络,对所述待处理图像进行语义分割处理,得到所述待处理图像的语义分割结果。
15.一种智能行驶控制方法,其特征在于,包括:
获取行驶装置在行驶过程中采集的图像;
利用基于权利要求6~13任一所述的方法得到的语义分割网络,检测所述图像中的目标对象;
基于检测的目标对象,控制所述行驶装置。
16.一种样本图像生成装置,其特征在于,包括:
第一获取模块,用于获取源域图像、所述源域图像的第一标注信息、以及目标域图像;
融合模块,用于基于表征多种物体在源域的各个图像中分布特征的空间先验分布矩阵、以及所述目标域图像的第一语义分割图像,将所述源域图像和目标域图像进行语义融合,得到融合图像;
所述融合模块,还用于对所述第一语义分割图像、以及所述源域图像的第一标注信息进行语义融合,得到所述融合图像对应的第二标注信息;
生成模块,根据融合图像以及所述融合图像对应的第二标注信息,生成样本图像。
17.一种图像处理装置,其特征在于,包括:
第二获取模块,用于获取待处理图像;
分割模块,用于利用基于权利要求6~13任一所述的方法得到的语义分割网络,对所述待处理图像进行语义分割处理,得到所述待处理图像的语义分割结果。
18.一种智能行驶控制装置,其特征在于,包括:
第三获取模块,用于获取行驶装置在行驶过程中采集的图像;
检测模块,用于利用基于权利要求6~13任一所述的方法得到的语义分割网络,检测所述图像中的目标对象;
控制模块,用于基于检测的目标对象,控制所述行驶装置。
19.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至15任一项所述的方法的步骤。。
20.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至15任一项所述的方法的步骤。
CN202011197925.1A 2020-10-30 2020-10-30 样本图像生成、图像处理、智能行驶控制方法及装置 Pending CN112200889A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011197925.1A CN112200889A (zh) 2020-10-30 2020-10-30 样本图像生成、图像处理、智能行驶控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011197925.1A CN112200889A (zh) 2020-10-30 2020-10-30 样本图像生成、图像处理、智能行驶控制方法及装置

Publications (1)

Publication Number Publication Date
CN112200889A true CN112200889A (zh) 2021-01-08

Family

ID=74010664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011197925.1A Pending CN112200889A (zh) 2020-10-30 2020-10-30 样本图像生成、图像处理、智能行驶控制方法及装置

Country Status (1)

Country Link
CN (1) CN112200889A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113706440A (zh) * 2021-03-12 2021-11-26 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN113724203A (zh) * 2021-08-03 2021-11-30 唯智医疗科技(佛山)有限公司 一种oct图像中目标特征的分割方法及装置
CN113836271A (zh) * 2021-09-28 2021-12-24 北京有竹居网络技术有限公司 自然语言处理的方法和产品
WO2022134338A1 (zh) * 2020-12-23 2022-06-30 平安科技(深圳)有限公司 领域适应方法、装置、电子设备及存储介质
CN114998712A (zh) * 2022-08-03 2022-09-02 阿里巴巴(中国)有限公司 图像识别方法、存储介质及电子设备
WO2023030182A1 (zh) * 2021-08-30 2023-03-09 华为技术有限公司 图像生成方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022134338A1 (zh) * 2020-12-23 2022-06-30 平安科技(深圳)有限公司 领域适应方法、装置、电子设备及存储介质
CN113706440A (zh) * 2021-03-12 2021-11-26 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN113724203A (zh) * 2021-08-03 2021-11-30 唯智医疗科技(佛山)有限公司 一种oct图像中目标特征的分割方法及装置
CN113724203B (zh) * 2021-08-03 2024-04-23 唯智医疗科技(佛山)有限公司 应用于oct图像中目标特征分割的模型训练方法及装置
WO2023030182A1 (zh) * 2021-08-30 2023-03-09 华为技术有限公司 图像生成方法及装置
CN113836271A (zh) * 2021-09-28 2021-12-24 北京有竹居网络技术有限公司 自然语言处理的方法和产品
CN113836271B (zh) * 2021-09-28 2023-08-15 北京有竹居网络技术有限公司 自然语言处理的方法和产品
CN114998712A (zh) * 2022-08-03 2022-09-02 阿里巴巴(中国)有限公司 图像识别方法、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN112200889A (zh) 样本图像生成、图像处理、智能行驶控制方法及装置
CN111489365A (zh) 神经网络的训练方法、图像处理方法及装置
CN111767405A (zh) 文本分类模型的训练方法、装置、设备及存储介质
US11651214B2 (en) Multimodal data learning method and device
US20200327409A1 (en) Method and device for hierarchical learning of neural network, based on weakly supervised learning
CN106845430A (zh) 基于加速区域卷积神经网络的行人检测与跟踪方法
CN113947764B (zh) 一种图像处理方法、装置、设备及存储介质
CN113361685B (zh) 一种基于学习者知识状态演化表示的知识追踪方法及***
CN112163643A (zh) 样本生成、神经网络的训练、数据处理方法及装置
CN112381227B (zh) 神经网络生成方法、装置、电子设备及存储介质
CN116110022B (zh) 基于响应知识蒸馏的轻量化交通标志检测方法及***
CN112926655B (zh) 一种图像内容理解与视觉问答vqa方法、存储介质和终端
CN111291187A (zh) 一种情感分析方法、装置、电子设备及存储介质
CN111382870A (zh) 训练神经网络的方法以及装置
CN114091554A (zh) 一种训练集处理方法和装置
CN111179272B (zh) 一种面向道路场景的快速语义分割方法
CN116097277A (zh) 使用渐进式知识蒸馏训练神经网络模型的方法和***
CN115187772A (zh) 目标检测网络的训练及目标检测方法、装置及设备
CN112926461A (zh) 神经网络训练、行驶控制方法及装置
CN111523548A (zh) 一种图像语义分割、智能行驶控制方法及装置
Tumu et al. Physics constrained motion prediction with uncertainty quantification
CN113919444A (zh) 目标检测网络的训练方法、目标检测方法及装置
CN114359592A (zh) 模型训练及图像处理方法、装置、设备、存储介质
CN116189284A (zh) 人体运动预测方法、装置、设备及存储介质
CN114648679A (zh) 神经网络训练、目标检测的方法及装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination