CN113496237B - 域适应神经网络训练和交通环境图像处理方法及装置 - Google Patents
域适应神经网络训练和交通环境图像处理方法及装置 Download PDFInfo
- Publication number
- CN113496237B CN113496237B CN202010203458.2A CN202010203458A CN113496237B CN 113496237 B CN113496237 B CN 113496237B CN 202010203458 A CN202010203458 A CN 202010203458A CN 113496237 B CN113496237 B CN 113496237B
- Authority
- CN
- China
- Prior art keywords
- neural network
- channel
- feature
- information
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 301
- 238000012549 training Methods 0.000 title claims abstract description 63
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 29
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 168
- 238000000034 method Methods 0.000 claims abstract description 78
- 238000002372 labelling Methods 0.000 claims abstract description 52
- 230000006978 adaptation Effects 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 73
- 238000010586 diagram Methods 0.000 claims description 72
- 238000001514 detection method Methods 0.000 claims description 39
- 238000003860 storage Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 description 149
- 230000007246 mechanism Effects 0.000 description 25
- 238000004891 communication Methods 0.000 description 10
- 238000011176 pooling Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000011478 gradient descent method Methods 0.000 description 6
- 239000012141 concentrate Substances 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 239000000523 sample Substances 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000017105 transposition Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 210000000746 body region Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000000968 intestinal effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000002792 vascular Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及一种域适应神经网络训练和交通环境图像处理方法及装置,所述方法包括:将有标注信息的源域图像和无标注信息的目标域图像输入神经网络;经神经网络的多通道对源域图像和目标域图像进行特征提取,得到源域图像的第一特征图和目标域图像的第二特征图;根据源域图像的标注信息、第一特征图中各通道特征信息和第二特征图中各通道特征信息,确定神经网络的特征提取损失;根据特征提取损失,调整神经网络的网络参数。根据本公开的实施例的域适应神经网络训练方法,可通过源域图像的标注信息、第一特征图中各通道特征信息和第二特征图中各通道特征信息,训练神经网络,提高神经网络的鲁棒性和域适应性,使神经网络可适应更多的使用场景。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种域适应神经网络训练和交通环境图像处理方法及装置。
背景技术
在机器学习等领域,经常会遇到数据域迁移的问题。例如,在城市A场景下采集的数据,标注完毕之后训练出来的神经网络,在其他城市(比如城市B)去做实地测试,会出现性能下降的问题。这是由于其他城市和城市A之间的数据分布不同导致的,这是数据域迁移的其中一个表现方面。除此之外,还有天气条件的不同、采集摄像头的安装位置偏差以及采用模拟器生成的图像和真实场景下的图像不同等情况,均为常见的数据域迁移问题。
在相关技术中,使用源域中的样本训练好神经网络后,如需要在新的场景中使用,则可使用在新的场景中获取的目标域的样本对神经网络进行调整,但目标域的样本需要标注,使得标注成本增加。并且,该调整方式无法使神经网络适应更多的场景,即,如果再次更换场景,则需要再次调整,导致标注成本增大,且神经网络的鲁棒性和域适应性不佳。
发明内容
本公开提出了一种域适应神经网络训练和交通环境图像处理方法及装置。
根据本公开的一方面,提供了一种域适应神经网络训练方法,包括:
将有标注信息的源域图像和无标注信息的目标域图像输入神经网络;经所述神经网络的多通道对所述源域图像和所述目标域图像进行特征提取,得到所述源域图像的多通道的第一特征图和所述目标域图像的多通道的第二特征图;根据所述源域图像的标注信息、所述第一特征图中各通道特征信息和所述第二特征图中各通道特征信息,确定所述神经网络的特征提取损失;根据所述特征提取损失,调整所述神经网络的网络参数。
根据本公开的实施例的域适应神经网络训练方法,基于有标注的源域数据和无标注的目标域数据,并充分利用神经网络不同通道的特征信息,来训练神经网络,降低图像标注成本,提高神经网络的鲁棒性和域适应性,使神经网络可适应更多的使用场景。
根据本公开的一方面,提供了一种交通环境图像处理方法,其特征在于,包括:获取交通环境的图像;将获取的图像输入通过所述域适应神经网络训练方法训练后的神经网络进行特征提取,得到所述神经网络输出的特征图;基于所述特征图进行预定任务的处理,得到所述图像的处理结果,其中,所述预定任务包括以下至少之一:语义分割、目标对象检测或跟踪、目标对象识别。
根据本公开的一方面,提供了一种域适应神经网络训练装置,包括:特征提取模块,用于将有标注信息的源域图像和无标注信息的目标域图像输入神经网络,经所述神经网络的多通道对所述源域图像和所述目标域图像进行特征提取,得到所述源域图像的多通道的第一特征图和所述目标域图像的多通道的第二特征图;损失确定模块,用于根据所述源域图像的标注信息、所述第一特征图中各通道特征信息和所述第二特征图中各通道特征信息,确定所述神经网络的特征提取损失;网络参数器,用于根据所述特征提取损失,调整所述神经网络的网络参数。
根据本公开的一方面,提供了一种交通环境图像处理装置,包括:特征提取模块,用于获取交通环境的图像,并将获取的图像输入通过所述域适应神经网络训练装置训练后的神经网络进行特征提取,得到所述神经网络输出的特征图;图像处理模块,基于所述特征图进行预定任务的处理,得到所述图像的处理结果,其中,所述预定任务包括以下至少之一:语义分割、目标对象检测或跟踪、目标对象识别。
根据本公开的一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器通过运行所述指令以执行上述域适应神经网络训练方法,或者,执行上述交通环境图像处理方法。
根据本公开的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述域适应神经网络训练方法,或者,执行上述交通环境图像处理方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1示出根据本公开实施例的域适应神经网络训练方法的流程图;
图2A-图2D示出根据本公开的实施例的各通道的特征信息的示意图;
图3A-图3C示出根据本公开的实施例的提升神经网络的鲁棒性的示意图;
图4A-图4C示出根据本公开实施例的域适应神经网络训练方法的应用示意图;
图5示出根据本公开的实施例的域适应神经网络训练装置的框图;
图6示出根据本公开的实施例的电子装置的框图;
图7示出根据本公开的实施例的电子装置的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
图1示出根据本公开实施例的域适应神经网络训练方法的流程图,如图1所示,所述方法包括:
在步骤S11中,将有标注信息的源域图像和无标注信息的目标域图像输入神经网络;
在步骤S12中,经所述神经网络的多通道对所述源域图像和所述目标域图像进行特征提取,得到所述源域图像的多通道的第一特征图和所述目标域图像的多通道的第二特征图;
在步骤S13中,根据所述源域图像的标注信息、所述第一特征图中各通道特征信息和所述第二特征图中各通道特征信息,确定所述神经网络的特征提取损失;
在步骤S14中,根据所述特征提取损失,调整所述神经网络的网络参数。
根据本公开的实施例的域适应神经网络训练方法,基于有标注的源域数据和无标注的目标域数据,并充分利用神经网络不同通道的特征信息,来训练神经网络,降低图像标注成本,提高神经网络的鲁棒性和域适应性,使神经网络可适应更多的使用场景。
在一种可能的实现方式中,所述域适应神经网络训练方法可以由终端设备或其它处理设备执行,其中,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。其它处理设备可为服务器或云端服务器等。在一些可能的实现方式中,该域适应神经网络训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
在一种可能的实现方式中,数据域可包括在相同环境条件下获取的图像,即,同一数据域中的图像的拍摄条件一致,例如,在同一地点拍摄、在同一种天气条件下拍摄、在同一种光照条件下拍摄等。其中,源域和目标域为两个不同的数据域,即,源域和目标域中可包括在不同环境条件下采集的图像。例如,源域与目标域中的样本图像的获取地点、获取时间、获取时的光照条件、天气条件等外界条件存在差异,使得源域与目标域中的图像的数据分布情况不同。例如,源域中的样本图像为在城市A采集的路况图像,目标域中的样本图像为城市B采集的路况图像,在上述两个城市中,道路、行人、车辆、拍摄场景等均有区别,源域和目标域的数据分布存在差异。又例如,源域和目标域中的图像可以是在不同的环境条件下拍摄的,环境条件例如白天、夜晚、雨中、雾中、雪中、风暴天气等。使用源域中的图像训练的神经网络在目标域中使用,可能会存在性能下降的问题。因此,可将目标域和源域进行特征对齐,例如,可使神经网络获取的多个通道(Channel)的特征信息中关于数据域的特征对齐,使神经网络在对图像进行特征提取的过程中,弱化对图像中域的特征而关注图像中除了域之外的其他内容特征的学习,由此使得训练后的神经网络在不同的数据域中使用时的性能差异减小,即,在多个域中使用时均具有较高的精度,使得神经网络具有较高的鲁棒性和域适应性。所述通道即为神经网络的特征通道,即,卷积层中的各卷积核对输入卷积层的图像进行特征提取后,将提取的特征图进行输出的通道,每个通道可输出一个特征图。由于卷积核可互不相同,则各通道输出的特征图也可互不相同,例如,各特征图的注意力机制互不相同,所关注的特征信息互不相同等。
在一种可能的实现方式中,可训练神经网络,使得神经网络提高域适应性和鲁棒性,使得神经网络可适应多种数据域。所述源域图像的标注信息包括以下至少之一:域标注信息、图像中包括的目标对象的标注信息。确定根据标注信息确定神经网络的特征提取损失,以训练神经网络。在步骤S11中,可将源域图像和目标域图像输入神经网络。并可在步骤S12中提取源域图像和目标域图像的特征信息,例如,源域图像的多通道的第一特征图和目标域图像的多通道的第二特征图。
在示例中,神经网络可以是包括多个层级的卷积神经网络,例如,神经网络可包括多个特征提取层级,每个特征提取层级可包括卷积层、激活层、归一化层、池化层中的一个或多个层级,本公开对特征提取层级包括的网络层级不做限制。其中,每个特征提取层级均可获取源域图像和目标域图像的多个通道的特征信息。
发明人在实现本公开实施例过程中发现,神经网络的不同通道关注的图像特征信息有差异,换而言之,各通道的注意力机制有所差异,各通道的特征信息可具有各自的权重,即,每个通道的注意力机制可互不相同,例如,每个特征通道可将权重集中于各自的感兴趣区域或各自的关注的对象、场景、风格等。
例如,图2A-图2D示出根据本公开的实施例的各通道的特征信息的示意图,图2A-图2D为四个通道的特征信息(例如,特征图),各通道的注意力机制不同。在示例中,图2A的注意力机制将权重集中于背景区域(例如,地面),地面所在区域的权重大于其他区域,像素值较高。图2B的注意力机制将权重集中于车辆,车辆所在区域的权重大于其他区域,像素值较高。图2C的注意力机制将权重集中于行人的四肢,行人四肢所在区域的权重大于其他区域,像素值较高。图2D的注意力机制将权重集中于行人的人体,行人人体所在区域的权重大于其他区域,像素值较高。
在一种可能的实现方式中,源域图像的特征信息和目标域图像的特征信息中具有不同的目标对象、背景、风格等,因此,注意力机制集中的区域不同。进而可利用各通道的特征信息以及各通道的特征信息之间的相关性,识别特征信息所属的数据域并使关于数据域的特征对齐。即,同一通道输出的不同图像的特征图中,注意力机制可相同,例如,均集中于人体区域,但在输入的图像为不同的数据域中的图像时,相同特征通道对不同数据域中的图像的注意力机制可能发生偏差,造成神经网络在不同数据域中使用时,精度下降,例如,源域图像的某个通道的注意力机制集中于行人身体,目标域图像的该通道将注意力机制集中于行人四肢,则神经网络未将注意力机制集中于身体,因而未能准确地检测到身体,造成神经网络处理目标域中的图像的精度下降。因此,可消除注意力机制在不同数据域的图像中的偏差,使得关于数据域的特征对齐,进而在神经网络在不同的数据域中使用时,使得同一通道的注意力机制相同,即,注意力机制不因数据域变化而发生偏差,即,使得数据域的特征对齐。可提升神经网络在不同数据域中的鲁棒性,使神经网络适应更多数据域,在不同的数据域中保持较高的精度。
在一种可能的实现方式中,可利用注意力机制来识别特征图所属的数据域,并使关于数据域的特征对齐,使得神经网络提取的特征信息中可区分数据域的特征弱化(即,判断数据域的精确度降低,区分数据域的能力弱化)。可在神经网络处理来自多个数据域的图像时,对数据域中域的信息不敏感,如对图像中表示白天或者晚上等表示不同“域”的特征不敏感,而关注图像中除了表示“域”的其他信息,如图像中的人、树木、车等内容信息较为敏感,即,神经网络可以在和训练时使用的图像所属的域之外的其他数据域使用时,也可保持相近的性能,以提高神经网络的域适应性和鲁棒性。
在一种可能的实现方式中,可通过对神经网络进行训练,来提升神经网络的域适应性和鲁棒性。步骤S13可包括:对所述第一特征图中各通道特征信息和所述第二特征图中各通道特征信息分别进行域分类,得到第一特征图的第一通道域分类结果和所述第二特征图的第二通道域分类结果;根据所述源域图像的标注信息、所述第一通道域分类结果和所述第二通道域分类结果,确定所述神经网络的特征提取损失。
在一种可能的实现方式中,可通过第一域分类网络来区分特征图所属的数据域,进而在神经网络的训练中,使关于数据域的特征对齐,以提高神经网络的域适应性和鲁棒性。所述第一域分类网络可根据各通道的特征信息的注意力机制(例如,感兴趣区域)来确定各特征通道特征图(包括第一特征图的多个通道的特征信息和第二特征图的多个特征通道的特征信息)所属的数据域(即,第一通道域分类结果和第二通道域分类结果)。并根据第一通道域分类结果和第二通道域分类结果确定特征提取损失,进而通过特征提取损失训练神经网络,使得关于数据域的特征对齐。
在一种可能的实现方式中,所述神经网络包括多个特征提取层级(例如,神经网络包括多个特征提取层级),其中,步骤S12可包括:将所述源域图像和所述目标域图像输入所述神经网络进行处理,在各特征提取层级分别获得该层级的各通道的第一特征图和各通道的第二特征图。步骤S13可包括:针对各特征提取层级,根据该层级的第一特征图的第一通道域分类结果和所述第二特征图的第二通道域分类结果以及所述源域图像的标注信息,确定该层级的特征提取损失;根据各特征提取层级的特征提取损失,确定所述特征提取损失。
在一种可能的实现方式中,源域图像和目标域图像可输入神经网络,由神经网络的多个特征提取层级进行特征提取处理,例如,源域图像和目标域图像可输入至神经网络,并由第一个特征提取层级进行特征提取处理,获得第一个特征提取层级的第一特征图和第二特征图。第一个特征提取层级的第一特征图和第二特征图可被输入至第二个特征提取层级,获得第二个特征提取层级的第一特征图和第二特征图……经过上述处理,可获得各特征提取层级的第一特征图和第二特征图。
在一种可能的实现方式中,每个特征提取层级可分别与一个第一域分类网络对应,每个第一域分类网络可接收对应的特征提取层级输出的第一特征图和第二特征图。例如,神经网络可包括5个特征提取层级,则5个第一域分类网络可分别接收5个特征提取层级输出的第一特征图和第二特征图。
在一种可能的实现方式中,第一域分类网络可识别特征图所属的数据域,在训练过程中,第一域分类网络区分数据域的能力可增强,为使神经网络的鲁棒性增强,即,无论在任何数据域中使用,均可保持较高精度,则应使关于数据域的特征对齐,弱化神经网络区分数据域的能力。在示例中,可通过梯度反转处理,使得在第一域分类网络区分数据域的能力增强的同时,弱化神经网络区分数据域的能力。
在一种可能的实现方式中,对所述第一特征图中各通道特征信息和所述第二特征图中各通道特征信息分别进行域分类,得到第一特征图的第一通道域分类结果和所述第二特征图的第二通道域分类结果,包括:将各通道的第一特征图和各通道的第二特征图分别进行梯度反转处理,获得与第一特征图对应的各通道的第三特征图以及与第二特征图对应的各通道的第四特征图;对所述第三特征图和第四特征图进行域分类,得到第一特征图的第一通道域分类结果和所述第二特征图的第二通道域分类结果。
在一种可能的实现方式中,所述第一域分类网络包括第一梯度反转层、卷积层和池化层等层级,第一域分类网络可用于判断第一特征图和第二特征图所属的数据域。例如,第一域分类网络可输出第一特征图所属的数据域为源域的概率以及目标域的概率,并可输出第二特征图所属的数据域为源域的概率以及目标域的概率。
在一种可能的实现方式中,可将所述各特征提取层级的第一特征图和第二特征图分别输入对应的第一域分类网络中的第一梯度反转层进行梯度反转处理,获得与第一特征图对应的第三特征图以及与第二特征图对应的第四特征图。并将所述各特征提取层级的第三特征图和所述第四特征图分别输入对应的第一域分类网络中的卷积层,并将卷积层的输出结果输入池化层,获得各特征提取层级的第一特征图第一通道域分类结果和第二特征图的第二通道域分类结果。
在一种可能的实现方式中,可根据各层级的第一通道域分类结果、第二通道域分类结果以及所述源域图像的标注信息,确定各特征提取层级的特征提取损失,并根据所述各特征提取层级的特征提取损失,确定神经网络的特征提取损失。
在一种可能的实现方式中,以任意一个特征提取层级为例,可将该层级的第一特征图和第二特征图的多通道的特征信息(例如,特征图)输入第一域分类网络。例如,可将第一特征图和第二特征图输入第一域分类网络的第一梯度反转层进行梯度反转处理,获得与第一特征图对应的第三特征图以及与第二特征图对应的第四特征图。
在示例中,在特征图正向传播的过程中,第一梯度反转层可对输入的特征图不进行任何处理,例如,第三特征图与第一特征图一致,第四特征图与第二特征图一致。并可在神经网络训练的过程中,即,特征提取损失反向传播的过程中,对网络损失进行梯度反转处理。例如,在特征提取损失反向传播的过程中,使第一梯度反转层之前的网络层级(例如,第一域分类网络的网络层级)的网络参数通过梯度下降法进行调节,使得特征提取损失逐步减小(即,提升第一域分类网络区分数据域的精确度),并通过梯度反转,使得第一梯度反转层之后的网络层级(例如,神经网络的网络层级)的网络参数在通过梯度下降法进行调节时,反而使梯度上升,使得特征提取损失逐步增大,使得神经网络提取的特征图中关于区分数据域的特征弱化(即,判断数据域的精确度降低,区分数据域的能力弱化)。可在神经网络处理来自多个数据域的图像时,对数据域不敏感,即,神经网络在多个数据域中使用时,均可保持相近的性能,以提高神经网络的域适应性和鲁棒性。
在一种可能的实现方式中,可将第三特征图和第四特征图分别输入第一域分类网络中的卷积层进行卷积处理,并将卷积层的输出结果输入池化层(例如,全局平均池化层)进行池化处理,获得第一特征图的第一通道域分类结果和第二特征图的第二通道域分类结果。例如,可获得第一特征图(例如,多个特征通道的第一特征图)属于源域的概率和属于目标域的概率,以及第二特征图(例如,多个特征通道的第二特征图)属于源域的概率和属于目标域的概率。在示例中,还可将第一特征图的第一通道域分类结果和第二特征图的第二通道域分类结果输入域分类器,获得第一特征图所属的数据域和第二特征图所属的数据域。例如,可将第一特征图所属的数据域中的概率较大的数据域确定为第一特征图所属的数据域,例如,第一特征图属于源域的概率大于属于目标域的概率,则确定第一特征图属于源域,还可将第二特征图所属的数据域中的概率较大的数据域确定为第二特征图所属的数据域。
在一种可能的实现方式中,可根据第一通道域分类结果、第二通道域分类结果、和源域图像的标注信息,确定各特征提取层级的特征提取损失。在示例中,第一特征图与源域图像对应,即,第一特征图所属的数据域为源域。第二特征图与目标域图像对应,即,第二特征图所属的数据域为目标域。第一通道域分类结果和第二通道域分类结果为第一域分类网络的输出结果,与第一特征图和第二特征图所属的数据域的真实结果可能存在误差。可根据第一通道域分类结果、第二通道域分类结果以及第一特征图和第二特征图所属的数据域的真实结果(例如源域图像的域标注信息)确定各特征提取层级的特征提取损失。在示例中,可根据以下公式(1)确定各特征提取层级的特征提取损失:
其中,为第r个特征提取层级的特征提取损失,r为正整数,c为特征通道编号。Di表示第i个第一特征图或第二特征图所属数据域的真实结果,例如,Di=0表示源域,Di=1表示目标域。/>表示第i个第一特征图或第二特征图中的第c个特征通道的特征图的通道域分类结果,例如,/>可以是向量,向量的元素可以是该特征图属于源域的概率以及该特征图属于目标域的概率。本公开对各参数的取值不做限制。
在一种可能的实现方式中,根据各特征提取层级的特征提取损失,确定所述神经网络的特征提取损失,在示例中,可对各特征提取层级的特征提取损失进行求和,确定神经网络的特征提取损失,例如,可通过以下公式(2)确定所述神经网络的特征提取损失Ls:
在一种可能的实现方式中,在利用特征提取损失Ls训练神经网络时,可提升神经网络的鲁棒性和域适应性。
通过这种方式,可通过特征提取损失提升第一域分类网络确定各特征图的数据域的精确度,并通过第一梯度反转层来弱化神经网络的提取的特征图中关于区分数据域的特征,使得数据域的特征对齐,并使神经网络对数据域不敏感,可提高神经网络的域适应性和鲁棒性。
在一种可能的实现方式中,第一域分类网络利用各特征提取层级的第一特征图和第二特征图进行训练,以提升神经网络的鲁棒性。还可利用第二域分类网络提升神经网络的鲁棒性。
在一种可能的实现方式中,可利用神经网络的最后一个特征提取层级的第一特征图和第二特征图,来判断第一特征图和第二特征图所属的数据域,并通过第二梯度反转层来弱化神经网络区分数据域的能力,以提升神经网络的域适应性和鲁棒性。
在一种可能的实现方式中,所述第二域分类网络包括第二梯度反转层、卷积层和全连接层,第二域分类网络可用于判断最后一个特征提取层级的第一特征图和第二特征图所属的数据域。
在一种可能的实现方式中,将所述神经网络的最后一个特征提取层级的第一特征图和第二特征图输入第二梯度反转层进行梯度反转处理,获得与第一特征图对应的第三特征图以及与第二特征图对应的第四特征图。并将所述第三特征图和所述第四特征图输入所述卷积层,并将卷积层的输出结果输入所述全连接层,获得所述第一特征图的第二通道域分类结果和所述第二特征图的第二通道域分类结果。进一步地,可根据第一通道域分类结果、第一通道域分类结果和源域图像的标注信息,确定神经网络的特征提取损失。
在示例中,在特征图正向传播的过程中,第二梯度反转层可对输入的特征图不进行任何处理,例如,第三特征图与第一特征图一致,第四特征图与第二特征图一致。并可在神经网络训练的过程中,即,网络损失反向传播的过程中,对网络损失进行梯度反转处理。例如,在网络损失反向传播的过程中,使第二梯度反转层之前的网络层级(例如,第二域分类网络的网络层级)的网络参数通过梯度下降法进行调节,使得网络损失逐步减小(即,提升第二域分类网络区分数据域的精确度),并通过梯度反转,使得第二梯度反转层之后的网络层级(例如,神经网络的网络层级)的网络参数在通过梯度下降法进行调节时,反而使梯度上升,使得网络损失逐步增大,使得神经网络的提取的特征图中关于数据域的特征弱化(即,判断数据域的精确度降低,区分数据域的能力弱化)。可在神经网络处理来自多个数据域的图像时,对数据域不敏感,即,神经网络在多个数据域中使用时,均可保持相近的性能,以提高神经网络的域适应性和鲁棒性。
在一种可能的实现方式中,可将第三特征图和第四特征图分别输入第二域分类网络中的卷积层进行卷积处理,并将卷积层的输出结果输入全连接层层进行处理,获得第三特征图中像素点的第一通道域分类结果和第四特征图中像素点的第二通道域分类结果。例如,可获得第三特征图的各像素点属于源域的概率和属于目标域的概率,以及第四特征图的各像素点属于源域的概率和属于目标域的概率。在示例中,还可将第三特征图的第一通道域分类结果和第四特征图的第二通道域分类结果输入域分类器,获得第三特征图所属的数据域和第四特征图所属的数据域。例如,可将第三特征图的各像素点所属的数据域中的概率总和较大的数据域确定为第三特征图所属的数据域,例如,第三特征图的各像素点中,属于源域的概率总和大于属于目标域的概率总和,则确定第三特征图属于源域,还可将第四特征图所属的数据域中的概率总和较大的数据域确定为第四特征图所属的数据域。
在一种可能的实现方式中,可根据第一通道域分类结果和第二通道域分类结果以及源域图像的标注信息,确定神经网络的特征提取损失。在示例中,第一特征图与源域图像对应,即,第一特征图所属的数据域为源域。第二特征图与目标域图像对应,即,第二特征图所属的数据域为目标域。第一通道域分类结果和第二通道域分类结果为第二域分类网络的输出结果,与真实结果可能存在误差。在示例中,可根据以下公式(3)确定神经网络的特征提取损失Lr:
其中,pc (u,v)为第c个特征通道的特征图中坐标为(u,v)的像素点属于源域的概率或属于目标域的概率,Di表示第i个第三特征图或第四特征图所属数据域的真实结果。
在一种可能的实现方式中,可通过特征提取损失Lr训练神经网络,以提升神经网络的鲁棒性。
通过这种方式,可通过神经网络的特征提取损失提升第二域分类网络确定各特征图的数据域的精确度,并通过第二梯度反转层来弱化神经网络的提取的特征图中关于数据域的特征,使得神经网络对数据域不敏感,可提高神经网络的域适应性和鲁棒性。
图3A-图3C示出根据本公开的实施例的提升神经网络的鲁棒性的示意图。图3A左侧为仅通过源域图像(例如,在晴天中拍摄的图像)训练的神经网络在有雾的天气中(目标域)的使用情况,由于数据域不同(例如,环境状况不同),导致神经网络在目标域中使用时精度下降,该图像远处的车辆未被检测到。图3A右侧为通过上述方法提升神经网络的鲁棒性后,神经网络的使用情况,如图所示,神经网络可适应在新的环境中使用,可检测到远处的车辆,神经网络的精度得到提升。
在示例中,图3B左侧为仅通过源域图像(例如,通过某个相机拍摄的图像)训练的神经网络在其他相机拍摄的图像中(目标域)的使用情况,由于数据域不同(例如,相机的参数不同),导致神经网络在目标域中使用时精度下降,该图像远处的车辆未被检测到。图3B右侧为通过上述方法提升神经网络的鲁棒性后,神经网络的使用情况,如图所示,神经网络可适应在新的环境中使用,可检测到图像左侧的多个车辆,减少了误检,神经网络的精度得到提升。
在示例中,图3C左侧为仅通过源域图像(例如,合成的图像)训练的神经网络在真实拍摄的图像中(目标域)的使用情况,由于数据域不同(例如,图像质量不同),导致神经网络在目标域中使用时精度下降,该图像远处的车辆未被检测到。图3C右侧为通过上述方法提升神经网络的鲁棒性后,神经网络的使用情况,如图所示,神经网络可适应在新的环境中使用,可检测到图像远处的多个车辆(尺寸较小的目标对象),神经网络的精度得到提升。
在一种可能的实现方式中,上述处理主要利用了各特征通道的注意力机制来确定各特征图所属的数据域,进而通过梯度反转处理使得神经网络对数据域不敏感。进一步地,还可利用特征通道之间的相互关系来弱化神经网络对数据域的敏感性,进而提升神经网络的域适应性。
在一种可能的实现方式中,还可利用各通道之间的相关性来提升神经网络的鲁棒性。步骤S13包括:确定所述第一特征图中各通道特征信息的相关性和所述第二特征图中各通道特征信息的相关性;根据所述源域图像的标注信息和所述相关性,确定所述神经网络的特征提取损失。
在一种可能的实现方式中,可分别确定第一特征图中各通道特征信息的相关性和第二特征图中各通道特征信息的相关性。该步骤可包括:对将所述神经网络的最后一个特征提取层级的第一特征图和第二特征图分别进行重构处理,获得所述第一特征图的第一输出矩阵和所述第二特征图的第二输出矩阵;分别确定所述第一输出矩阵的第一通道关系矩阵和所述第二输出矩阵的第二通道关系矩阵,其中,第一通道关系矩阵表示第一特征图的各通道特征信息的相关性,第二通道关系矩阵表示第二特征图的各通道特征信息的相关性。
在一种可能的实现方式中,可通过域衰减器来提升神经网络的鲁棒性。神经网络的最后一个特征提取层级的第一特征图和第二特征图可包括多个通道,每个特征通道具有各自的注意力机制,域衰减器可根据各通道特征之间的相关性弱化第一特征图和第二特征图之间的特征通道的注意力机制的差异,即,弱化对数据域的区分能力,以提高神经网络的鲁棒性。
在一种可能的实现方式中,域衰减器可对神经网络输出的第一特征图和第二特征图分别进行重构处理。在示例中,第一特征图和第二特征图的结构均为(C,H,W),即,包括C个特征通道,每个特征通道中的特征图的高度为H,宽度为W。可对第一特征图和第二特征图进行重构处理,获得结构为(C,H×W)的第一输出矩阵和第二输出矩阵/>第一输出矩阵/>和第二输出矩阵/>中的每一行均可表示第一特征图和第二特征图中的一个特征通道。
在一种可能的实现方式中,可确定各通道特征之间的相关性,进而通过相关性,来弱化注意力机制的差异。在示例中,可确定第一特征图的各特征通道之间的相关性(例如,第一通道关系矩阵),并可确定第二特征图的各特征通道之间的相关性(例如,第二通道关系矩阵)。
在一种可能的实现方式中,可分别确定所述第一输出矩阵的第一通道关系矩阵和所述第二输出矩阵的第二通道关系矩阵,该步骤包括:分别确定第一输出矩阵的第一转置矩阵,及第二特征矩阵的第二转置矩阵;将所述第一输出矩阵和所述第一转置矩阵进行矩阵乘法,获得所述第一通道关系矩阵,并将所述第二特征矩阵和所述第二转置矩阵进行矩阵乘法,获得所述第二通道关系矩阵。
在一种可能的实现方式中,第一转置矩阵为第二转置矩阵为/>第一输出矩阵的每一行均可表示第一特征图的一个特征通道,则第一转置矩阵每一列均可表示第一特征图的一个特征通道。类似地,第二输出矩阵的每一行均可表示第二特征图的一个特征通道,则第二转置矩阵每一列均可表示第二特征图的一个特征通道。
在一种可能的实现方式中,可使第一输出矩阵与第一转置矩阵进行矩阵乘法,可获得第一通道关系矩阵第一通道关系矩阵/>中的每个元素均可表示第一特征图的各特征通道之间的相互关系,即相关性。例如,第一通道关系矩阵/>的第i行,第j列的元素是通过第一输出矩阵的第i行的元素(即,表示第一特征图的第i个特征通道)与第一转置矩阵的第j列的元素(即,表示第一特征图的第j个特征通道)进行矩阵乘法获得的,则第一通道关系矩阵/>的第i行,第j列的元素可表示第一特征图的第i个特征通道与第j个特征通道之间的相关性。类似地,可使第二输出矩阵与第二转置矩阵进行矩阵乘法,可获得第二通道关系矩阵/>第二通道关系矩阵/>中的每个元素均可表示第二特征图的各特征通道之间的相关性。
在一种可能的实现方式中,可根据所述源域图像的标注信息和所述相关性,确定所述神经网络的特征提取损失,该步骤可包括:确定所述第一特征图中各通道特征信息的相关性和所述第二特征图中各通道特征信息的相关性之间的相关性差异;根据所述相关性差异,确定所述神经网络的特征提取损失。
在一种可能的实现方式中,可确定所述相关性差异。可根据所述第一通道关系矩阵中各元素的坐标位置,确定第一通道矩阵的第一衰减矩阵,并根据所述第二通道关系矩阵中各元素的坐标位置,确定第二通道矩阵的第二衰减矩阵。并通过第一衰减矩阵为第一通道关系矩阵添加衰减系数,即,根据所述第一通道关系矩阵和所述第一衰减矩阵,获得第一矩阵(即,添加衰减系数后的第一通道关系矩阵)。并通过第二衰减矩阵为第二通道关系矩阵添加衰减系数,即,根据第二通道关系矩阵和第二衰减矩阵,获得第二矩阵(即,添加衰减系数后的第二通道关系矩阵)。进一步的,可根据所述第一矩阵和所述第二矩阵,确定所述相关性差异。
在一种可能的实现方式中,可为第一通道关系矩阵和第二通道关系矩阵/>添加衰减系数。在示例中,各通道之间的特征距离越远,则各通道之间的相关性越弱,可根据此规律,为第一通道关系矩阵/>和第二通道关系矩阵/>添加衰减系数。在示例中,可确定第一通道关系矩阵/>的第一衰减矩阵/>以及第二通道关系矩阵/>的第二衰减矩阵/>
在示例中,可认为i-j的绝对值越大,则第i个特征通道与第j个特征通道之间的特征距离越远,且第i个特征通道与第j个特征通道之间的相关性越弱。由于第一通道关系矩阵和第二通道关系矩阵/>中的第i行,第j列的元素可表示第i个特征通道与第j个特征通道之间的相关性,则可根据第一通道关系矩阵中各元素的坐标位置,确定第一通道矩阵的第一衰减矩阵,并根据第二通道关系矩阵中各元素的坐标位置,确定第二通道矩阵的第二衰减矩阵。
在示例中,第一衰减矩阵与第二衰减矩阵/>可一致,且第一衰减矩阵/>与第二衰减矩阵/>中的元素pi,j,可根据以下公式(4)确定:
其中,K为常系数,在示例中,K=128,本公开对K的取值不做限制。
在一种可能的实现方式中,可根据第一衰减矩阵与第二衰减矩阵/>分别为第一通道关系矩阵和第二通道关系矩阵添加衰减系数。
在一种可能的实现方式中,根据所述第一通道关系矩阵和所述第一衰减矩阵,获得第一矩阵(即,添加衰减系数后的第一通道关系矩阵),并根据所述第二通道关系矩阵和所述第二衰减矩阵,获得第二矩阵(即,添加衰减系数后的第二通道关系矩阵),包括:将所述第一通道关系矩阵和所述第一衰减矩阵中相同坐标位置的元素分别相乘,获得所述第一矩阵,并将所述第二通道关系矩阵和所述第二衰减矩阵中相同坐标位置的元素分别相乘,获得所述第二矩阵。
在示例中,第一矩阵其中,/>表示将第一衰减矩阵/>和第一通道关系矩阵/>中相同位置的元素分别相乘。第二矩阵/>其中,/>表示将第二衰减矩阵/>和第二通道关系矩阵/>中相同位置的元素分别相乘。
在一种可能的实现方式中,第一矩阵和第二矩阵均表示添加衰减系数后的个特征通道之间的相关性,可根据第一矩阵和第二矩阵之间的差异即为所述相关性差异,可根据所述相关性差异来确定神经网络的特征提取损失,并在训练过程中弱化神经网络对数据域的敏感性,增强神经网络的域适应性。
在一种可能的实现方式中,可将所述相关性差异确定为所述神经网络的特征提取损失。在示例中,可根据以下公式(5)确定所述神经网络的特征提取损失Lc:
其中,N为第一矩阵或第二矩阵中元素的数量,表示第一矩阵/>中第i行,第j列的元素,/>表示第二矩阵/>中第i行,第j列的元素。/>
通过这种方式,可通过训练过程使得神经网络的特征提取损失逐步减小,即,使得第一矩阵和第二矩阵之间的注意力机制之间的差异减小,增强神经网络的域适应性。
在一种可能的实现方式中,可通过将相关性差异与通道域分类结合的方式提升神经网络的鲁棒性。步骤S13可包括:确定所述第一特征图中各通道特征信息的相关性和所述第二特征图中各通道特征信息的相关性;对所述第一特征图中各通道特征信息和所述第二特征图中各通道特征信息分别进行域分类,得到第一特征图的第一通道域分类结果和所述第二特征图的第二通道域分类结果;根据所述源域图像的标注信息、所述第一通道域分类结果、所述第二通道域分类结果和所述相关性,确定所述神经网络的特征提取损失。
在一种可能的实现方式中,可利用上述方式确定第一特征图的各特征通道之间的相关性(例如,第一通道关系矩阵)以及第二特征图的各特征通道之间的相关性(例如,第二通道关系矩阵)。确定所述相关性的过程在此不再重复赘述。
在一种可能的实现方式中,可利用第一域分类网络和/或第二域分类网络确定第一特征图的第一通道域分类结果和第二特征图的第二通道域分类结果。确定第一通道域分类结果和第二通道域分类结果的过程在此不再重复赘述。
在一种可能的实现方式中,可根据所述源域图像的标注信息、所述第一通道域分类结果、所述第二通道域分类结果和所述相关性,确定所述神经网络的特征提取损失。例如,可利用将通道域分类结果确定的特征提取损失与相关性差异确定的特征提取损失结合的方式训练神经网络,以提升神经网络的鲁棒性。
在示例中,可将公式(2)确定的神经网络的特征提取损失Ls,公式(3)确定的神经网络的特征提取损失Lr,以及公式(5)确定的特征提取损失Lc进行加权求和,获得神经网络的综合特征提取损失。并利用上述综合特征提取损失训练神经网络,即,调整神经网络的网络参数,以增强神经网络的鲁棒性。
在一种可能的实现方式中,还可训练神经网络检测图像中的目标对象的能力。例如,神经网络可包括检测网络。神经网络输出的特征图可输入检测网络,检测网络可检测输出特征中目标对象的位置和类别,在使用检测网络进行检测之前,可对检测网络进行训练。
在一种可能的实现方式中,所述方法还包括:根据所述源域图像的标注信息,确定所述源域图像中目标对象的类别信息和位置信息;根据所述目标对象的类别信息和位置信息,以及所述源于图像的标注信息,确定所述神经网络的检测损失;根据所述检测损失,调整所述神经网络的网络参数。
在一种可能的实现方式中,所述检测网络可包括池化层(例如,感兴趣区域池化层)和全连接层等网络层级,检测网络可通过上述网络层级对神经网络的输出特征进行处理,获得目标对象的类别信息和位置信息。
在示例中,为节省标注成本,可仅对源域图像进行标注。也可仅对目标域的目标域图像进行标注,或对源域图像和目标域图像均进行标注,本公开对标注的样本图像不做限制。
在示例中,以仅对源域图像进行标注为例,所述源域图像的标注信息可包括所述目标对象的类别标注和所述目标对象的位置标注。可将源域图像对应的最后一个特征提取层级的第一特征图输入检测网络,获得源域图像中目标对象的类别信息和位置信息。该类别信息和位置信息可能存在误差,可根据源域图像的标注信息来确定该误差,并根据该误差来确定检测损失。
在一种可能的实现方式中,可根据所述目标对象的类别信息和位置信息,以及所述源域图像的标注信息,确定所述检测损失,该步骤可包括:根据所述目标对象的类别标注和所述目标对象的类别信息,确定分类损失;根据所述目标对象的位置标注和所述目标对象的位置信息,确定位置损失;根据所述分类损失和所述位置损失,确定所述检测损失。
在示例中,所述类别信息和类别标注均可以是向量的形式,例如,该向量的元素为目标对象属于各类别的概率。可根据类别信息和类别标注之间的交叉熵损失,来确定分类损失Lcls。也可根据类别信息和类别标注之间的特征距离等来确定分类损失,本公开对分类损失的确定方式不做限制。
在示例中,所述位置信息和位置标注可以是标注框或分割框等,可根据位置信息和位置标注的区域之间的位置误差和/或尺寸误差来确定位置损失Lloc。
在示例中,可通过对位置损失和分类损失进行加权求和,或直接求和等方式,来获得检测损失Ldet。本公开对获得检测损失的方式不做限制。可通过检测损失训练神经网络,即调整神经网络的网络参数,以提升神经网络的检测能力。
在一种可能的实现方式中,可通过特征提取损失Ls、特征提取损失Lc、特征提取损失Lr和检测损失Ldet,对神经网络进行训练。例如,可通过上述网络损失,确定神经网络的综合网络损失,即,神经网络、第一域分类网络、第二域分类网络和检测网络的综合网络损失,例如,可通过以下公式(6)获得综合网络损失Ltotal:
Ltotal=Ldet+λsLs+λcLc+λrLr (6)
其中,λs、λc和λr分别为特征提取损失Ls、特征提取损失Lc、特征提取损失Lr的权重。
在一种可能的实现方式中,可通过综合网络损失Ltotal对神经网络、第一域分类网络、第二域分类网络和检测网络的网络参数进行调节,例如,可通过梯度下降法对网络参数进行调整,使得综合网络损失Ltotal最小化,并且,通过第一梯度反转层和第二梯度反转层,使得神经网络对数据域不敏感,提高神经网络的鲁棒性和域适应性。
在一种可能的实现方式中,可迭代执行上述训练步骤,并可在满足训练条件时,停止训练,获得训练后的神经网络。在示例中,训练条件可包括训练次数,在训练次数达到预设次数阈值时,停止训练,获得训练后的神经网络。或者,训练条件可包括综合网络损失Ltotal小于或等于预设的损失阈值或收敛于预设区间内。本公开对训练条件不做限制。
根据本公开的实施例的域适应神经网络训练方法,基于有标注的源域数据和无标注的目标域数据,并充分利用神经网络不同通道的特征信息,来训练神经网络,降低图像标注成本,并可通过特征提取损失提升第一域分类网络和第二域分类网络确定各特征图的数据域的精确度,并通过梯度反转处理来弱化神经网络的提取的特征图中关于数据域的特征,使得神经网络对数据域不敏感,进一步地,还可通过特征提取损失使得第一矩阵和第二矩阵之间的注意力机制之间的差异减小,提高神经网络的域适应性和鲁棒性,使神经网络可适应更多的使用场景。
在一种可能的实现方式中,本公开还提供了一种交通环境图像处理方法,包括:获取交通环境的图像;将获取的图像输入所述域适应神经网络训练方法训练后的神经网络进行特征提取,得到所述神经网络输出的特征图;基于所述特征图进行预定任务的处理,得到所述图像的处理结果,其中,所述预定任务包括以下至少之一:语义分割、目标对象检测或跟踪、目标对象识别。
在一种可能的实现方式中,所述交通环境可包括外部交通环境,例如,道路环境、铁路环境、水上交通环境、空中交通环境、隧道交通环境、海底环境(例如,潜水器的行驶环境)等。所述交通环境还可包括内部环境,例如,空间内的可行驶区域的环境,例如,建筑物内部的走廊、通道,体育场的跑道,装置的轨道(例如,输油管道、滑轨等)环境,生物的通道状器官环境(例如,医学探头可探测血管、喉管、气管、肠道等环境),本公开对交通环境不做限制。
在一种可能的实现方式中,可获取交通环境的图像,例如,可通过可移动设备上的摄像头采集其行驶的交通环境的图像。可移动设备可包括车辆、船舶、飞行器、潜水器、机器人(例如工业机器人、家用机器人、医用机器人),可移动的探测装置等。本公开对可移动设备不做限制。
在示例中,将交通环境的图像输入训练后的神经网络。其中,神经网络可提取图像的特征图。并可基于特征图进行预定任务的处理。例如,可对图像中的目标对象进行语义分割、目标对象检测或跟踪、目标对象识别等处理中的至少一种。
例如,可经由检测网络对特征图进行检测处理,获得待处理图像中的目标对象的类别信息和位置信息,并通过轮廓线对目标对象进行语义分割,或者使用选择框选定目标对象所在位置,并对目标对象对象进行跟踪,并对目标对象进行识别(例如,识别目标对象的身份信息)。
在一种可能的实现方式中,待处理图像中可包括在城市A、城市B等多个城市采集的路况图像,图像中道路、行人、车辆、拍摄场景等均有区别,即,数据分布存在差异。但神经网络鲁棒性和域适应性较强,因此,神经网络可获取来自多个数据域的图像(例如,在不同的城市中采集的图像),并保持较高的精度。
图4A-图4C示出根据本公开实施例的域适应神经网络训练方法的应用示意图,如图4A所示,在训练过程中,可将源域图像和目标域图像输入神经网络。神经网络的各层级分别获取到与源域图像对应的第一特征图以及与目标域图像对应的第二特征图。
在一种可能的实现方式中,以任意一个特征提取层级为例,可将该层级的第一特征图和第二特征图输入第一域分类网络的第一梯度反转层,并经过卷积层和全局平均池化层的处理,可获得第一通道域分类结果和第二通道域分类结果。进一步地,可根据公式(1)来获得该特征提取层级的特征提取损失并根据公式(2)确定神经网络的特征提取损失Ls。
在一种可能的实现方式中,可将神经网络的最后一个特征提取层级的第一特征图和第二特征图输入第二域分类网络,经过第二梯度反转层、卷积层进和全连接层的处理,获得第一特征图和第二特征图中像素点的第二通道域分类结果。进一步地,可根据公式(3)确定特征提取损失Lr。
在一种可能的实现方式中,可在域衰减器中,将神经网络的最后一个特征提取层级的第一特征图和第二特征图进行重构处理,获得第一输出矩阵和第二输出矩阵/>进一步地,可对第一输出矩阵/>进行转置处理,获得第一转置矩阵/>并对第二输出矩阵进行转置处理,获得第二转置矩阵/>可对第一输出矩阵/>和第一转置矩阵/>进行矩阵乘法,获得第一通道关系矩阵/>并对第二输出矩阵/>和第二转置矩阵/>进行矩阵乘法,获得第二通道关系矩阵/>
在一种可能的实现方式中,可根据公式(4)获得第一衰减矩阵与第二衰减矩阵并将第一衰减矩阵/>和第一通道关系矩阵/>中相同位置的元素分别相乘,获得第一矩阵/>类似地,可获得第二矩阵/>进一步地,可根据公式(5)确定特征提取损失Lc。
在一种可能的实现方式中,可将神经网络的最后一个特征提取层级的第一特征图和第二特征图输入检测网络进行检测处理,例如,可通过感兴趣区域池化层和全连接层等网络层级,获得目标对象的类别信息和位置信息。进一步地,可根据类别信息和类别标注之间的交叉熵损失,来确定分类损失Lcls,并根据位置信息和位置标注的区域之间的位置误差和/或尺寸误差来确定位置损失Lloc,进一步地,可对位置损失和分类损失进行加权求和,获得检测损失Ldet。
在一种可能的实现方式中,可根据公式(6)确定综合网络损失Ltotal,并根据综合网络损失Ltotal训练神经网络、第一域分类网络、第二域分类网络和检测网络。可通过梯度下降法对网络参数进行调整,使得综合网络损失Ltotal最小化,并且,通过第一梯度反转层和第二梯度反转层,使得神经网络对数据域不敏感,提高神经网络的鲁棒性和域适应性。在满足训练条件时,获得训练后的神经网络。并可使用训练后的神经网络和检测网络确定多个数据域的待处理图像的目标对象的类别信息和位置信息,并保持较高的精度。
在一种可能的实现方式中,在神经网络训练完毕后,具有较高的鲁棒性,可适用于在不同的数据域中使用。图4B和图4C左侧为仅通过源域图像(例如,在晴天中拍摄的图像)训练的神经网络在有雾的天气中(目标域)的使用情况,由于数据域不同(例如,环境状况不同),导致神经网络在目标域中使用时精度下降,该图像远处的车辆未被检测到。图4B和图4C右侧为通过上述方法提升神经网络的鲁棒性后,神经网络的使用情况,如图所示,神经网络可适应在新的环境中使用,可检测到远处的车辆,神经网络的精度得到提升。
在一种可能的实现方式中,所述域适应神经网络训练方法可在跨数据域使用神经网络时,使得神经网络具有较高的鲁棒性和域适应性,提高神经网络在多个数据域中使用的精度,可用于自动驾驶、计算机视觉、图像分割等领域。本公开对所述域适应神经网络训练方法的应用领域不做限制。
图5示出根据本公开的实施例的域适应神经网络训练装置的框图,如图5所示,所述装置包括:特征提取模块11,用于将有标注信息的源域图像和无标注信息的目标域图像输入神经网络,经所述神经网络的多通道对所述源域图像和所述目标域图像进行特征提取,得到所述源域图像的多通道的第一特征图和所述目标域图像的多通道的第二特征图;损失确定模块12,用于根据所述源域图像的标注信息、所述第一特征图中各通道特征信息和所述第二特征图中各通道特征信息,确定所述神经网络的特征提取损失;网络参数器13,用于根据所述特征提取损失,调整所述神经网络的网络参数。
在一种可能的实现方式中,所述损失确定模块被进一步配置为:对所述第一特征图中各通道特征信息和所述第二特征图中各通道特征信息分别进行域分类,得到第一特征图的第一通道域分类结果和所述第二特征图的第二通道域分类结果;根据所述源域图像的标注信息、所述第一通道域分类结果和所述第二通道域分类结果,确定所述神经网络的特征提取损失。
在一种可能的实现方式中,所述损失确定模块被进一步配置为:将各通道的第一特征图和各通道的第二特征图分别进行梯度反转处理,获得与第一特征图对应的各通道的第三特征图以及与第二特征图对应的各通道的第四特征图;对所述第三特征图和第四特征图进行域分类,得到第一特征图的第一通道域分类结果和所述第二特征图的第二通道域分类结果。
在一种可能的实现方式中,所述神经网络包括多个特征提取层级,所述特征提取模块被进一步配置为:将所述源域图像和所述目标域图像输入所述神经网络进行处理,在各特征提取层级分别获得该层级的各通道的第一特征图和各通道的第二特征图;所述损失确定模块被进一步配置为:针对各特征提取层级,根据该层级的第一特征图的第一通道域分类结果和所述第二特征图的第二通道域分类结果以及所述源域图像的标注信息,确定该层级的特征提取损失;根据各特征提取层级的特征提取损失,确定所述特征提取损失。
在一种可能的实现方式中,所述损失确定模块被进一步配置为:确定所述第一特征图中各通道特征信息的相关性和所述第二特征图中各通道特征信息的相关性;根据所述源域图像的标注信息和所述相关性,确定所述神经网络的特征提取损失。
在一种可能的实现方式中,所述损失确定模块被进一步配置为:确定所述第一特征图中各通道特征信息的相关性和所述第二特征图中各通道特征信息的相关性之间的相关性差异;根据所述相关性差异,确定所述神经网络的特征提取损失。
在一种可能的实现方式中,所述损失确定模块被进一步配置为:确定所述第一特征图中各通道特征信息的相关性和所述第二特征图中各通道特征信息的相关性;对所述第一特征图中各通道特征信息和所述第二特征图中各通道特征信息分别进行域分类,得到第一特征图的第一通道域分类结果和所述第二特征图的第二通道域分类结果;
根据所述源域图像的标注信息、所述第一通道域分类结果、所述第二通道域分类结果和所述相关性,确定所述神经网络的特征提取损失。
在一种可能的实现方式中,所述装置还包括:目标确定模块,用于确定所述源域图像中目标对象的类别信息和位置信息;检测损失模块,用于根据所述目标对象的类别信息和位置信息,以及所述源域图像的标注信息,确定所述神经网络的检测损失;参数调整模块,用于根据所述检测损失,调整所述神经网络的网络参数。
本公开还提供了一种交通环境图像处理装置,包括:特征提取模块,用于获取交通环境的图像,并将获取的图像输入通过所述域适应神经网络训练装置训练后的神经网络进行特征提取,得到所述神经网络输出的特征图;图像处理模块,基于所述特征图进行预定任务的处理,得到所述图像的处理结果,其中,所述预定任务包括以下至少之一:语义分割、目标对象检测或跟踪、目标对象识别。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。
此外,本公开还提供了域适应神经网络训练装置、电子设备、计算机可读存储介质、程序,上述均可用来实现本公开提供的任一种方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
在一些实施例中,本公开实施例提供的域适应神经网络训练装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述
本公开实施例还提出一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。
本公开实施例还提出一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为上述方法。
电子设备可以被提供为终端、服务器或其它形态的设备。
图6是根据一示例性实施例示出的一种电子设备800的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等终端。
参照图6,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理***,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到电子设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器804,上述计算机程序指令可由电子设备800的处理器820执行以完成上述方法。
本公开实施例还提供了一种计算机程序产品,包括计算机可读代码,当计算机可读代码在设备上运行时,设备中的处理器执行用于实现如上任一实施例提供的域适应神经网络训练方法和交通环境图像处理方法的指令。
本公开实施例还提供了另一种计算机程序产品,用于存储计算机可读指令,指令被执行时使得计算机执行上述任一实施例提供的域适应神经网络训练方法和交通环境图像处理方法的操作。
图7是根据一示例性实施例示出的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器。参照图7,电子设备1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理,一个有线或无线网络接口1950被配置为将电子设备1900连接到网络,和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作***,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。
本公开可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (13)
1.一种域适应神经网络训练方法,其特征在于,包括:
将有标注信息的源域图像和无标注信息的目标域图像输入神经网络;
经所述神经网络的多通道对所述源域图像和所述目标域图像进行特征提取,得到所述源域图像的多通道的第一特征图和所述目标域图像的多通道的第二特征图;
根据所述源域图像的标注信息、所述第一特征图中各通道特征信息和所述第二特征图中各通道特征信息,确定所述神经网络的特征提取损失;
根据所述特征提取损失,调整所述神经网络的网络参数;
其中,根据所述源域图像的标注信息、所述第一特征图中各通道特征信息和所述第二特征图中各通道特征信息,确定所述神经网络的特征提取损失,包括:确定所述第一特征图中各通道特征信息的相关性和所述第二特征图中各通道特征信息的相关性;根据所述源域图像的标注信息和所述相关性,确定所述神经网络的特征提取损失。
2.根据权利要求1所述的方法,其特征在于,根据所述源域图像的标注信息、所述第一特征图中各通道特征信息和所述第二特征图中各通道特征信息,确定所述神经网络的特征提取损失,包括:
对所述第一特征图中各通道特征信息和所述第二特征图中各通道特征信息分别进行域分类,得到第一特征图的第一通道域分类结果和所述第二特征图的第二通道域分类结果;
根据所述源域图像的标注信息、所述第一通道域分类结果和所述第二通道域分类结果,确定所述神经网络的特征提取损失。
3.根据权利要求2所述的方法,其特征在于,对所述第一特征图中各通道特征信息和所述第二特征图中各通道特征信息分别进行域分类,得到第一特征图的第一通道域分类结果和所述第二特征图的第二通道域分类结果,包括:
将各通道的第一特征图和各通道的第二特征图分别进行梯度反转处理,获得与第一特征图对应的各通道的第三特征图以及与第二特征图对应的各通道的第四特征图;
对所述第三特征图和第四特征图进行域分类,得到第一特征图的第一通道域分类结果和所述第二特征图的第二通道域分类结果。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述神经网络包括多个特征提取层级,
经所述神经网络的多通道对所述源域图像和所述目标域图像进行特征提取,得到所述源域图像的多通道的第一特征图和所述目标域图像的多通道的第二特征图,包括:
将所述源域图像和所述目标域图像输入所述神经网络进行处理,在各特征提取层级分别获得该层级的各通道的第一特征图和各通道的第二特征图;
根据所述源域图像的标注信息、所述第一特征图中各通道特征信息和所述第二特征图中各通道特征信息,确定所述神经网络的特征提取损失,包括:
针对各特征提取层级,根据该层级的第一特征图的第一通道域分类结果和所述第二特征图的第二通道域分类结果以及所述源域图像的标注信息,确定该层级的特征提取损失;
根据各特征提取层级的特征提取损失,确定所述特征提取损失。
5.根据权利要求1所述的方法,其特征在于,根据所述源域图像的标注信息和所述相关性,确定所述神经网络的特征提取损失,包括:
确定所述第一特征图中各通道特征信息的相关性和所述第二特征图中各通道特征信息的相关性之间的相关性差异;
根据所述相关性差异,确定所述神经网络的特征提取损失。
6.根据权利要求1所述的方法,其特征在于,根据所述源域图像的标注信息、所述第一特征图中各通道特征信息和所述第二特征图中各通道特征信息,确定所述神经网络的特征提取损失,包括:
确定所述第一特征图中各通道特征信息的相关性和所述第二特征图中各通道特征信息的相关性;
对所述第一特征图中各通道特征信息和所述第二特征图中各通道特征信息分别进行域分类,得到第一特征图的第一通道域分类结果和所述第二特征图的第二通道域分类结果;
根据所述源域图像的标注信息、所述第一通道域分类结果、所述第二通道域分类结果和所述相关性,确定所述神经网络的特征提取损失。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述源域图像中目标对象的类别信息和位置信息;
根据所述目标对象的类别信息和位置信息,以及所述源域图像的标注信息,确定所述神经网络的检测损失;
根据所述检测损失,调整所述神经网络的网络参数。
8.根据权利要求1-3、5-7中任一项所述的方法,所述源域图像的标注信息包括以下至少之一:域标注信息、图像中包括的目标对象的标注信息。
9.一种交通环境图像处理方法,其特征在于,包括:
获取交通环境的图像;
将获取的图像输入通过权利要求1-8中任一项所述的域适应神经网络训练方法训练后的神经网络进行特征提取,得到所述神经网络输出的特征图;
基于所述特征图进行预定任务的处理,得到所述图像的处理结果,其中,所述预定任务包括以下至少之一:语义分割、目标对象检测或跟踪、目标对象识别;
其中,在所述神经网络的训练过程中,确定所述神经网络的特征提取损失的过程包括:确定源域图像的第一特征图中各通道特征信息的相关性和目标域图像的第二特征图中各通道特征信息的相关性;根据所述源域图像的标注信息和所述相关性,确定所述神经网络的特征提取损失。
10.一种域适应神经网络训练装置,其特征在于,包括:
特征提取模块,用于将有标注信息的源域图像和无标注信息的目标域图像输入神经网络,经所述神经网络的多通道对所述源域图像和所述目标域图像进行特征提取,得到所述源域图像的多通道的第一特征图和所述目标域图像的多通道的第二特征图;
损失确定模块,用于根据所述源域图像的标注信息、所述第一特征图中各通道特征信息和所述第二特征图中各通道特征信息,确定所述神经网络的特征提取损失;
网络参数器,用于根据所述特征提取损失,调整所述神经网络的网络参数;
其中,所述损失确定模块还被配置为:确定所述第一特征图中各通道特征信息的相关性和所述第二特征图中各通道特征信息的相关性;根据所述源域图像的标注信息和所述相关性,确定所述神经网络的特征提取损失。
11.一种交通环境图像处理装置,其特征在于,包括:
特征提取模块,用于获取交通环境的图像,并将获取的图像输入通过权利要求10所述的域适应神经网络训练装置训练后的神经网络进行特征提取,得到所述神经网络输出的特征图;
图像处理模块,基于所述特征图进行预定任务的处理,得到所述图像的处理结果,其中,所述预定任务包括以下至少之一:语义分割、目标对象检测或跟踪、目标对象识别;
其中,在所述神经网络的训练过程中,确定所述神经网络的特征提取损失的过程包括:确定源域图像的第一特征图中各通道特征信息的相关性和目标域图像的第二特征图中各通道特征信息的相关性;根据所述源域图像的标注信息和所述相关性,确定所述神经网络的特征提取损失。
12.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述指令以执行权利要求1至8中任意一项所述的域适应神经网络训练方法,或者,执行权利要求9所述的交通环境图像处理方法。
13.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至8中任意一项所述的域适应神经网络训练方法,或者,执行权利要求9所述的交通环境图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010203458.2A CN113496237B (zh) | 2020-03-20 | 2020-03-20 | 域适应神经网络训练和交通环境图像处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010203458.2A CN113496237B (zh) | 2020-03-20 | 2020-03-20 | 域适应神经网络训练和交通环境图像处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113496237A CN113496237A (zh) | 2021-10-12 |
CN113496237B true CN113496237B (zh) | 2024-05-24 |
Family
ID=77993132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010203458.2A Active CN113496237B (zh) | 2020-03-20 | 2020-03-20 | 域适应神经网络训练和交通环境图像处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113496237B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114155215B (zh) * | 2021-11-24 | 2023-11-10 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 一种基于mr图像的鼻咽癌识别及肿瘤分割方法及*** |
CN117021435B (zh) * | 2023-05-12 | 2024-03-26 | 浙江闽立电动工具有限公司 | 修边机的修边控制***及其方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018020277A1 (en) * | 2016-07-28 | 2018-02-01 | Google Llc | Domain separation neural networks |
CN108875787A (zh) * | 2018-05-23 | 2018-11-23 | 北京市商汤科技开发有限公司 | 一种图像识别方法及装置、计算机设备和存储介质 |
CN109299716A (zh) * | 2018-08-07 | 2019-02-01 | 北京市商汤科技开发有限公司 | 神经网络的训练方法、图像分割方法、装置、设备及介质 |
CN109522965A (zh) * | 2018-11-27 | 2019-03-26 | 天津工业大学 | 一种基于迁移学习的双通道卷积神经网络的烟雾图像分类方法 |
CN110059744A (zh) * | 2019-04-16 | 2019-07-26 | 腾讯科技(深圳)有限公司 | 训练神经网络的方法、图像处理的方法、设备及存储介质 |
CN110399856A (zh) * | 2019-07-31 | 2019-11-01 | 上海商汤临港智能科技有限公司 | 特征提取网络训练方法、图像处理方法、装置及其设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10956817B2 (en) * | 2018-04-18 | 2021-03-23 | Element Ai Inc. | Unsupervised domain adaptation with similarity learning for images |
-
2020
- 2020-03-20 CN CN202010203458.2A patent/CN113496237B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018020277A1 (en) * | 2016-07-28 | 2018-02-01 | Google Llc | Domain separation neural networks |
CN108875787A (zh) * | 2018-05-23 | 2018-11-23 | 北京市商汤科技开发有限公司 | 一种图像识别方法及装置、计算机设备和存储介质 |
CN109299716A (zh) * | 2018-08-07 | 2019-02-01 | 北京市商汤科技开发有限公司 | 神经网络的训练方法、图像分割方法、装置、设备及介质 |
CN109522965A (zh) * | 2018-11-27 | 2019-03-26 | 天津工业大学 | 一种基于迁移学习的双通道卷积神经网络的烟雾图像分类方法 |
CN110059744A (zh) * | 2019-04-16 | 2019-07-26 | 腾讯科技(深圳)有限公司 | 训练神经网络的方法、图像处理的方法、设备及存储介质 |
CN110399856A (zh) * | 2019-07-31 | 2019-11-01 | 上海商汤临港智能科技有限公司 | 特征提取网络训练方法、图像处理方法、装置及其设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113496237A (zh) | 2021-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109740516B (zh) | 一种用户识别方法、装置、电子设备及存储介质 | |
CN110659640B (zh) | 文本序列的识别方法及装置、电子设备和存储介质 | |
TWI759647B (zh) | 影像處理方法、電子設備,和電腦可讀儲存介質 | |
CN112149740B (zh) | 目标重识别方法、装置、存储介质及设备 | |
CN111881956A (zh) | 网络训练方法及装置、目标检测方法及装置和电子设备 | |
CN111931844B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN110532956B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN109635142B (zh) | 图像选择方法及装置、电子设备和存储介质 | |
CN113128520B (zh) | 图像特征提取方法、目标重识别方法、装置及存储介质 | |
US20220392202A1 (en) | Imaging processing method and apparatus, electronic device, and storage medium | |
CN113486957B (zh) | 神经网络训练和图像处理方法及装置 | |
CN113792207A (zh) | 一种基于多层次特征表示对齐的跨模态检索方法 | |
CN112906484B (zh) | 一种视频帧处理方法及装置、电子设备和存储介质 | |
CN113496237B (zh) | 域适应神经网络训练和交通环境图像处理方法及装置 | |
CN111523599B (zh) | 目标检测方法及装置、电子设备和存储介质 | |
CN113326768A (zh) | 训练方法、图像特征提取方法、图像识别方法及装置 | |
CN111652107B (zh) | 对象计数方法及装置、电子设备和存储介质 | |
CN112967264A (zh) | 缺陷检测方法及装置、电子设备和存储介质 | |
CN114332503A (zh) | 对象重识别方法及装置、电子设备和存储介质 | |
CN111027617A (zh) | 神经网络训练及图像识别方法、装置、设备和存储介质 | |
CN113269307B (zh) | 神经网络训练方法以及目标重识别方法 | |
CN113313115B (zh) | 车牌属性识别方法及装置、电子设备和存储介质 | |
CN113052874B (zh) | 目标跟踪方法及装置、电子设备和存储介质 | |
CN111178115B (zh) | 对象识别网络的训练方法及*** | |
CN112801116B (zh) | 图像的特征提取方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |