CN113111947A - 图像处理方法、装置和计算机可读存储介质 - Google Patents

图像处理方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN113111947A
CN113111947A CN202110410920.0A CN202110410920A CN113111947A CN 113111947 A CN113111947 A CN 113111947A CN 202110410920 A CN202110410920 A CN 202110410920A CN 113111947 A CN113111947 A CN 113111947A
Authority
CN
China
Prior art keywords
image
target
style
source domain
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110410920.0A
Other languages
English (en)
Other versions
CN113111947B (zh
Inventor
陶大程
王文
翟伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Wodong Tianjun Information Technology Co Ltd
Priority to CN202110410920.0A priority Critical patent/CN113111947B/zh
Publication of CN113111947A publication Critical patent/CN113111947A/zh
Priority to PCT/CN2022/086976 priority patent/WO2022218396A1/zh
Priority to KR1020237038915A priority patent/KR20230171966A/ko
Priority to JP2023563039A priority patent/JP2024513596A/ja
Application granted granted Critical
Publication of CN113111947B publication Critical patent/CN113111947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种图像处理方法、装置和计算机可读存储介质,涉及计算机技术领域。本公开的方法包括:获取源域图像的源域内容特征,获取目标域图像的目标域风格特征;以生成的新风格特征与源域图像的源域风格特征和目标域风格特征不同、各种新风格特征不同,以及新风格特征与源域内容特征结合生成的图像与源域图像的语义一致为目标,生成多种新风格特征,并更新源域内容特征和目标域风格特征;将生成的多种新风格特征和更新后的目标域风格特征分别与更新后的源域内容特征结合,分别生成第一图像和第二图像;利用第一图像、第二图像、源域图像对目标检测模型进行训练,得到训练完成的目标检测模型。

Description

图像处理方法、装置和计算机可读存储介质
技术领域
本公开涉及计算机技术领域,特别涉及一种图像处理方法、装置和计算机可读存储介质。
背景技术
在实际生活中,对人类所感兴趣的目标进行自动化且准确的检测具有广泛的应用价值。例如,通过目标检测,自动驾驶***能够有效避让行人和障碍,遥感***能够定位到人类感兴趣的区域,工业生产线能够筛选并定位存在瑕疵的零件。
现有的目标检测算法往往在精心采集的高质量清晰数据集上训练。然而,现实中由于天气变化、光照变化、物体运动、数据采集等原因,图像往往存在对比度下降、模糊、噪声等质量下降问题。因此,实际进行目标检测的图像是与训练图像的风格不同的降质图像。
发明人已知的基于域适应的鲁棒目标检测算法,即通过对抗训练等方法实现特征分布对齐,从而将源域标注数据上训练的模型更好的泛化到目标域上。这类方法往往假设目标域中仅存在一种降质类型(风格类型)。
发明内容
发明人发现:现实中训练完成一个目标检测模型常常需要对多种降质类型(风格类型)的图像都能做出准确检测。而现有的训练方法无法使目标检测模型识别多种风格类型的图像。此外,在实际应用场景种获取多种风格类型图像并进行风格类型的标注用于训练往往需要大量的人力物力。
本公开所要解决的一个技术问题是:如何提高目标检测模型训练的效率以及有效性。
根据本公开的一些实施例,提供的一种图像处理方法,包括:获取源域图像的源域内容特征,获取目标域图像的目标域风格特征;以生成的新风格特征与源域图像的源域风格特征和目标域风格特征不同、各种新风格特征不同,以及新风格特征与源域内容特征结合生成的图像与源域图像的语义一致为目标,生成多种新风格特征,并更新源域内容特征和目标域风格特征;将生成的多种新风格特征和更新后的目标域风格特征分别与更新后的源域内容特征结合,分别生成第一图像和第二图像;利用第一图像、第二图像、源域图像对目标检测模型进行训练,得到训练完成的目标检测模型。
在一些实施例中,获取源域图像的源域内容特征,获取目标域图像的目标域风格特征包括:利用内容编码器提取源域图像的源域内容特征;利用风格编码器提取目标域图像的目标域风格特征。
在一些实施例中,风格编码器包括风格特征提取网络和聚类模块,利用风格编码器提取目标域图像的目标域风格特征包括:将各个目标域图像输入风格特征提取网络,得到输出的各个目标域图像的基本风格特征;将各个目标域图像的基本风格特征输入聚类模块进行聚类,得到聚类中心的特征向量,作为目标域风格特征。
在一些实施例中,生成多种新风格特征包括:随机生成预设数量新风格特征,并将生成的新风格特征和源域内容特征输入生成网络,得到第一迁移图像;将目标域风格特征和源域内容特征输入生成网络,得到第二迁移图像;根据第一迁移图像与对应的源域图像的风格差异,第一迁移图像与对应的第二迁移图像的风格差异,确定第一损失函数,用于表示生成的新风格特征与源域风格特征和目标域风格特征差异;根据各个第一迁移图像之间的风格差异,确定第二损失函数,用于表示各种新风格特征之间的差异;根据第一迁移图像的语义特征与对应的源域图像的语义特征的差异,确定第三损失函数,用于表示新风格特征与源域内容特征结合生成的图像与源域图像的语义差异;根据第一损失函数、第二损失函数、第三损失函数,调整生成的新风格特征,直至达到与目标对应的预设收敛条件,得到生成的多种新风格特征。
在一些实施例中,更新源域内容特征和目标域风格特征包括:根据第一损失函数、第二损失函数、第三损失函数,调整内容编码器、风格编码器、生成器的参数,直至达到与目标对应的预设收敛条件;在达到与目标对应的预设收敛条件的情况下,将内容编码器输出的源域内容特征作为更新后的源域内容特征,风格编码器输出的目标域风格特征作为更新后的目标域内容特征。
在一些实施例中,将第一迁移图像与对应的源域图像分别作为第一参考图像和第二参考图像,或者,将第一迁移图像与对应的第二迁移图像分别作为第一参考图像和第二参考图像,或者将任意两个第一迁移图像分别作为第一参考图像和第二参考图像,则第一参考图像和第二参考图像之间的风格差异采用以下方法确定:将第一参考图像和第二参考图像分别输入预训练的特征提取网络中预设的多个特征层;针对每个特征层,将该特征层输出的第一参考图像的特征取均值和方差,作为第一均值和第一方差,将该特征层输出的第二参考图像的特征取均值和方差,作为第二均值和第二方差;根据各个特征层对应的第一均值和第二均值的差距,第一方差和第二方差的差距,确定第一参考图像和第二参考图像之间的风格差异。
在一些实施例中,第一损失函数根据以下公式确定:
Figure BDA0003024034160000031
其中,
Figure BDA0003024034160000032
表示第i个新风格特征第k个源域图像对应的第一损失函数,k为正整数,1≤k≤ns,i为正整数,n=ns+nt表示源域图像和目标域图像的总数,ns和nt分别表示源域图像和目标域图像的数量,nj表示第j个目标域风格特征对应的目标图像的数量,Kt表示目标域风格特征的数量,Tnov是一个超参数,表示距离最大化的阈值。1≤j≤Kt,j为正整数,
Figure BDA0003024034160000033
表示第k个源域图像,
Figure BDA0003024034160000034
表示第i个新风格特征和第k个源域图像的源域内容特征输入生成网络,得到的第一迁移图像,
Figure BDA0003024034160000035
表示第j个目标域风格特征和第k个源域图像的源域内容特征输入生成网络,得到的第二迁移图像,d(·)表示两个图像之间的风格差异的确定函数。
在一些实施例中,第二损失函数根据以下公式确定:
Figure BDA0003024034160000041
其中,
Figure BDA0003024034160000042
表示第i个新风格特征第k个源域图像对应的第二损失函数,1≤i≤Kn,i为正整数,Kn表示预设数量,Tdiv是一个超参数,表示距离最大化的阈值。
Figure BDA0003024034160000043
表示第j个新风格特征第k个源域图像的源域内容特征输入生成网络,得到的第一迁移图像,1≤j≤Kn,j为正整数,
Figure BDA0003024034160000044
表示第i个新风格特征和第k个源域图像的源域内容特征输入生成网络,得到的第一迁移图像,d(·)表示两个图像之间的风格差异的确定函数。
在一些实施例中,第三损失函数根据以下公式确定:
Figure BDA0003024034160000045
其中,
Figure BDA0003024034160000046
表示第i个新风格特征第k个源域图像对应的第三损失函数,φsm(·)表示语义特征提取器的函数,
Figure BDA0003024034160000047
表示第k个源域图像,
Figure BDA0003024034160000048
表示第i个新风格特征和第k个源域图像的源域内容特征输入生成网络,得到的第一迁移图像。
在一些实施例中,根据第一损失函数、第二损失函数、第三损失函数,调整生成的新风格特征包括:将第一损失函数、第二损失函数、第三损失函数进行加权求和得到目标损失函数;根据目标损失函数确定梯度;根据梯度和预设学习率调整生成的新风格特征;其中,随机生成的预设数量新风格特征中每个维度上的取值从标准正太分布中随机采样得到的。
在一些实施例中,将生成的多种新风格特征和更新后的目标域风格特征分别与更新后的源域内容特征结合,分别生成第一图像和第二图像包括:在达到与目标对应的预设收敛条件的情况下,将生成的多种新风格特征和更新后的源域内容特征输入生成器,得到第一图像,将更新后的目标域风格特征和更新后的源域内容特征输入生成器,得到第二图像。
在一些实施例中,利用第一图像、第二图像、源域图像对目标检测模型进行训练包括:将第一图像、第二图像和源域图像分别输入目标检测模型,得到第一图像的目标检测结果,第二图像的目标检测结果,源域图像的目标检测结果;根据第一图像的目标检测结果,第二图像的目标检测结果,源域图像的目标检测结果分别与对应的源域图像的标注信息的差异,确定目标检测损失函数;根据目标检测损失函数对目标检测模型的参数进行调整。
在一些实施例中,利用第一图像、第二图像、源域图像对目标检测模型进行训练还包括:将第一图像、第二图像、源域图像和目标域图像分别输入目标检测模型的基础特征提取网络,得到第一图像的基础特征、第二图像的基础特征、源域图像的基础特征和目标域图像的基础特征;将第一图像的基础特征、第二图像的基础特征、源域图像的基础特征和目标域图像的基础特征分别输入梯度反转层后再输入判别网络,得到第一图像的判别结果,第二图像的判别结果,源域图像的判别结果和目标域图像的判别结果;根据第一图像的判别结果,第二图像的判别结果,源域图像的判别结果,目标域图像的判别结果,确定判别损失函数;根据目标检测损失函数对目标检测模型的参数进行调整包括:根据目标检测损失函数和判别损失函数对目标检测模型的参数进行调整。
在一些实施例中,目标检测结果包括:定位结果和分类结果,其中,定位结果为检测的目标的位置信息,分类结果为检测的目标的类别信息,源域图像的标注信息包括源域图像中目标的位置信息和源域图像中目标的类别信息;根据第一图像的目标检测结果,第二图像的目标检测结果,源域图像的目标检测结果分别与对应的源域图像的标注信息的差异,确定目标检测损失函数包括:根据第一图像的定位结果,第二图像的定位结果,源域图像的定位结果分别与对应的源域图像中目标的位置信息的差异,确定定位损失函数;根据第一图像的分类结果,第二图像的分类结果,源域图像的分类结果别与对应的源域图像中目标的类别信息的差异,确定分类损失函数;将定位损失函数和分类损失函数加权求和,确定目标检测损失函数。
在一些实施例中,定位损失函数根据以下公式确定:
Figure BDA0003024034160000061
其中,
Figure BDA0003024034160000062
表示第k个源域图像对应的定位损失,
Figure BDA0003024034160000063
表示第k个源域图像,
Figure BDA0003024034160000064
表示第k个源域图像中目标的位置信息,
Figure BDA0003024034160000065
表示第k个源域图像的定位结果与第k个源域图像中目标的位置信息的定位损失,di表示生成的多种新风格特征和更新后的目标域风格特征的集合中第i种风格特征,
Figure BDA0003024034160000066
表示第i种风格特征与第k个源域图像更新后的源域内容特征结合生成的图像,该图像为第一图像或第二图像,
Figure BDA0003024034160000067
表示该图像的定位结果与第k个源域图像中目标的位置信息的定位损失,1≤i≤Nd,i为正整数,Nd表示生成的多种新风格特征和更新后的目标域风格特征的集合中风格特征的总数。
在一些实施例中,分类损失函数根据以下公式确定:
Figure BDA0003024034160000068
其中,
Figure BDA0003024034160000069
表示第k个源域图像对应的分类损失,
Figure BDA00030240341600000610
表示第k个源域图像,
Figure BDA00030240341600000611
表示第k个源域图像目标的类别信息,
Figure BDA00030240341600000612
示第k个源域图像的分类结果与第k个源域图像中目标的类别信息的分类损失,di表示生成的多种新风格特征和更新后的目标域风格特征的集合中第i种风格特征,
Figure BDA00030240341600000613
表示第i种风格特征与第k个源域图像更新后的源域内容特征结合生成的图像,该图像为第一图像或第二图像,
Figure BDA00030240341600000614
表示该图像的分类结果与第k个源域图像中目标的类别信息的分类损失,1≤i≤Nd,i为正整数,Nd表示生成的多种新风格特征和更新后的目标域风格特征的集合中风格特征的总数。
在一些实施例中,判别损失函数根据以下公式确定:
Figure BDA00030240341600000615
Figure BDA00030240341600000616
Figure BDA00030240341600000617
Figure BDA00030240341600000618
其中,
Figure BDA00030240341600000619
表示第i个源域图像,ns表示源域图像的数量,
Figure BDA0003024034160000071
则表示根据各个源域图像的判别结果确定的源域判别损失函数;
Figure BDA0003024034160000072
表示第j个目标域图像,
Figure BDA0003024034160000073
表示第j个目标域图像所属的风格类型;nt表示目标域图像的数量,1≤j≤nt,j为正整数,
Figure BDA0003024034160000074
表示根据各个目标域图像的判别结果确定的目标域判别损失函数,dk表示生成的多种新风格特征和更新后的目标域风格特征的集合中第k种风格特征,
Figure BDA0003024034160000075
表示第k种风格特征与第i个源域图像更新后的源域内容特征结合生成的图像,1≤k≤Nd,k为正整数,Nd表示生成的多种新风格特征和更新后的目标域风格特征的集合中风格特征的总数,
Figure BDA0003024034160000076
表示根据第一图像的判别结果和第二图像的判别结果确定的判别损失函数。
在一些实施例中,
Figure BDA0003024034160000077
Figure BDA0003024034160000078
Figure BDA0003024034160000079
其中,1≤h≤H,h为正整数,表示图像中像素的高度,1≤w≤W,w为正整数,表示图像中像素的宽度,H和W分别表示图像中像素的最大高度和最大宽度,F(·)表示基础特征提取网络和梯度反转层的函数。
在一些实施例中,该方法还包括:将待检测图像输入训练完成的目标检测模型,得到待检测图像的目标检测结果。
根据本公开的另一些实施例,提供的一种图像处理装置,包括:获取模块,用于获取源域内容特征,获取目标域图像的目标域风格特征;特征生成模块,用于以生成的新风格特征与源域图像的源域风格特征和目标域风格特征不同、各种新风格特征不同,以及新风格特征与源域内容特征结合生成的图像与源域图像的语义一致为目标,生成多种新风格特征,并更新源域内容特征和目标域风格特征;图像生成模块,用于将生成的多种新风格特征和更新后的目标域风格特征分别与更新后的源域内容特征结合,分别生成第一图像和第二图像;训练模块,用于利用第一图像、第二图像、源域图像对目标检测模型进行训练,得到训练完成的目标检测模型。
根据本公开的又一些实施例,提供的一种图像处理装置,包括:处理器;以及耦接至处理器的存储器,用于存储指令,指令被处理器执行时,使处理器执行如前述任意实施例的图像处理方法。
根据本公开的再一些实施例,提供的一种非瞬时性计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意实施例的图像处理方法。
本公开中根据源域图像的源域内容特征和源域风格特征,目标域图像的目标域风格特征自动生成多种新风格特征,生成的新风格特征互不相同,与源域风格特征、目标域风格特征也不同,并且新风格特征与源域内容特征结合生成的图像与源域图像的语义一致。因此,生成的新风格特征可以与更新后的源域内容特征,生成第一图像作为训练样本对目标检测模型进行域适应训练,进一步,目标域风格特征与更新后的源域内容特征结合生成的第二图像和源域图像也作为训练样本对目标检测模型进行域适应训练。由于本公开中自动生成新风格特征用于训练,提高了训练效率,减少了人工标注成本,并且多种新风格特征和目标域风格特征共同用于生成训练样本,丰富了训练样本的风格类型,使得训练完成的目标检测模型可以对多种风格类型的图像都能做出准确检测,提高了目标检测模型的有效性。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开的一些实施例的图像处理方法的流程示意图。
图2示出本公开的一些实施例的网络架构的示意图。
图3示出本公开的一些实施例的图像处理装置的结构示意图。
图4示出本公开的另一些实施例的图像处理装置的结构示意图。
图5示出本公开的又一些实施例的图像处理装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开提供一种图像处理方法,下面结合图1~3进行描述。
图1为本公开图像处理方法一些实施例的流程图。如图1所示,该实施例的方法包括:步骤S102~S108。
在步骤S102中,获取源域图像的源域内容特征和源域风格特征,获取目标域图像的目标域风格特征。
例如,用
Figure BDA0003024034160000091
来表示有标注的源域图像集合,其中
Figure BDA0003024034160000092
表示第i个源域图像,
Figure BDA0003024034160000093
表示第i个源域图像对应的标注信息(标签),标注信息包括语义标签,例如源域图像中目标的位置信息和/或源域图像中目标的类别信息,标注信息还可以包括域标签,即源域图像的风格类型。ns是源域图像的数量。无标注的目标域图像集合可以表示为
Figure BDA0003024034160000094
Figure BDA0003024034160000095
Figure BDA0003024034160000096
表示第i个目标域图像,nt是目标域图像的数量。
内容特征用于反映图像的语义信息,例如不同像素所属的语义类别(车、人、背景等)。风格特征用于反映图像的降质类型,例如,由于天气变化,采集到的图片可能会受到雨、雪、雾的影响而变得不清晰;由于光照变化,采集到的图片可能存在过曝光、低光照等问题;由于采集设备和采集过程的影响,图片可能存在模糊、噪声等问题。源域图像和目标域图像具有相同或相似的语义信息,但是具有不同的降质类型即风格特征。
在一些实施例中,利用内容编码器提取源域图像的源域内容特征;利用风格编码器提取目标域图像的目标域风格特征。采用不同的编码器分别对风格特征(StyleRepresentation)和内容特征(Content Representation)进行编码,可以对图像的内容特征和风格特征解耦。内容编码器和风格编码器可以采用卷积神经网络(CNN),例如,VGGNet或ResNet等。
在一些实施例中,如图2所示,风格编码器包括风格特征提取网络和聚类模块。将各个目标域图像输入风格特征提取网络,得到输出的各个目标域图像的基本风格特征;将各个目标域图像的基本风格特征输入聚类模块进行聚类,得到多个聚类中心的特征向量,作为多个目标域风格特征。
源域图像可以均属于一种风格类型,目标域图像可以属于一种或多种风格类型。由于目标域图像没有标注信息,因此采用聚类方法可以得到目标域图像的一个或多个聚类中心,作为一个或多个目标域风格特征,分别用于表示不同的风格类型。聚类算法可以采用现有算法,例如,K-means、均值漂移聚类、基于密度的聚类算法等。通过聚类可以为每个目标域图像打上域伪标签,即为每个目标域图像标注风格类型。
在步骤S104中,以生成的新风格特征与源域图像的源域风格特征和目标域风格特征不同、各种新风格特征不同,以及新风格特征与源域内容特征结合生成的图像与源域图像的语义一致为目标,生成多种新风格特征,并更新源域内容特征和目标域风格特征。
为实现上述目标,可以建立不同的损失函数进行训练。在一些实施例中,如图2所示,随机生成预设数量新风格特征,并将生成的新风格特征和源域内容特征输入生成网络,得到第一迁移图像;将目标域风格特征和源域内容特征输入生成网络,得到第二迁移图像;根据第一迁移图像与对应的源域图像的风格差异,第一迁移图像与对应的第二迁移图像的风格差异,确定第一损失函数,用于表示生成的新风格特征与源域风格特征和目标域风格特征差异;根据各个第一迁移图像之间的风格差异,确定第二损失函数,用于表示各种新风格特征之间的差异;根据第一迁移图像的语义特征与对应的源域图像的语义特征的差异,确定第三损失函数,用于表示新风格特征与源域内容特征结合生成的图像与源域图像的语义差异;根据第一损失函数、第二损失函数、第三损失函数,调整生成的新风格特征,直至达到与目标对应的预设收敛条件,得到生成的多种新风格特征。
预设数量可以与目标域风格特征的数量(即目标域图像所属的风格类型的数量)相同。例如,随机生成的预设数量新风格特征中每个维度上的取值从标准正太分布中随机采样得到的。
生成网络用于将风格特征和内容特征进行融合,例如可以采用CNN等现有模型,不限于所举示例。新风格特征和源域内容特征输入生成网络可以得到源域到新域的迁移图像,即第一迁移图像。目标域风格特征和源域内容特征输入生成网络,可以得到源域到目标域的迁移图像,即第二迁移图像。
第一损失函数和第二损失函数都是基于两个图像的风格差异确定的。在一些实施例中,将第一迁移图像与对应的源域图像分别作为第一参考图像和第二参考图像,或者,将第一迁移图像与对应的第二迁移图像分别作为第一参考图像和第二参考图像,或者将任意两个第一迁移图像分别作为第一参考图像和第二参考图像,则第一参考图像和第二参考图像之间的风格差异采用以下方法确定。与第一迁移图像对应的源域图像即用于生成第一迁移图像的源域内容特征所属的源域图像,同理,与第一迁移图像对应的第二迁移图像即利用同一源域内容特征生成的第一迁移图像和第二迁移图像。
将第一参考图像和第二参考图像分别输入预训练的特征提取网络(如图2所示)中预设的多个特征层;针对每个特征层,将该特征层输出的第一参考图像的特征取均值和方差,作为第一均值和第一方差,将该特征层输出的第二参考图像的特征取均值和方差,作为第二均值和第二方差;根据各个特征层对应的第一均值和第二均值的差距,第一方差和第二方差的差距,确定第一参考图像和第二参考图像之间的风格差异。各个特征层对应的第一均值和第二均值的差距越大,第一方差和第二方差的差距越大,则第一参考图像和第二参考图像之间的风格差异越大。
预训练的特征提取网络例如为预训练的VGG19,不限于所举示例。例如,第一参考图像和第二参考图像之间的风格差异采用以下公式确定:
Figure BDA0003024034160000121
公式(1)中,x1,x1分别表示第一参考图像和第二参考图像,1≤i≤2,i为正整数,L表示预训练的特征提取网络中预设的多个特征层的数量,φi(·)表示预训练的特征提取网络中第i层的函数,μ(·)表示求均值,σ(·)表示求方差。
在一些实施例中,第一损失函数用于表示生成的新风格特征与源域风格特征和目标域风格特征差异,利用第一损失函数进行训练,可以使新风格特征与源域以及目标域上现有的风格不同,以达到和现有图像风格互补的效果。例如,第一损失函数根据以下公式确定。
Figure BDA0003024034160000122
公式(2)中,
Figure BDA0003024034160000123
表示第i个新风格特征第k个源域图像对应的第一损失函数,k为正整数,1≤k≤ns,i为正整数,n=ns+nt表示源域图像和目标域图像的总数,ns和nt分别表示源域图像和目标域图像的数量,nj表示第j个目标域风格特征对应的目标图像的数量,Kt表示目标域风格特征的数量,Tnov是一个超参数,表示距离最大化的阈值。1≤j≤Kt,j为正整数,
Figure BDA0003024034160000124
表示第k个源域图像,
Figure BDA0003024034160000125
表示第i个新风格特征和第k个源域图像的源域内容特征输入生成网络,得到的第一迁移图像,
Figure BDA0003024034160000126
表示第j个目标域风格特征和第k个源域图像的源域内容特征输入生成网络,得到的第二迁移图像,d(·)表示两个图像之间的风格差异的确定函数。
在一些实施例中,第二损失函数用于表示各种新风格特征之间的差异。利用第二损失函数进行训练,可以使生成的新风格特征相互之间应当有所不同,以保证生成的新域的多样性。例如,第二损失函数根据以下公式确定:
Figure BDA0003024034160000131
公式(3)中,
Figure BDA0003024034160000132
表示第i个新风格特征第k个源域图像对应的第二损失函数,1≤i≤Kn,i为正整数,kn表示预设数量,Tdiv是一个超参数,表示距离最大化的阈值。
Figure BDA0003024034160000133
表示第j个新风格特征第k个源域图像的源域内容特征输入生成网络,得到的第一迁移图像,1≤j≤Kn,j为正整数,
Figure BDA0003024034160000134
表示第i个新风格特征和第k个源域图像的源域内容特征输入生成网络,得到的第一迁移图像,d(·)表示两个图像之间的风格差异的确定函数。
在一些实施例中,第一迁移图像的语义特征与源域图像的语义特征通过语义特征提取器获取的。第三损失函数用于表示新风格特征与源域内容特征结合生成的图像(第一迁移图像)与源域图像的语义差异。利用第三损失函数进行训练,可以使第一迁移图像和对应的源域图像的语义一致,将源域上的语义标签运用到对应的生成图像上。例如,第三损失函数根据以下公式确定。
Figure BDA0003024034160000135
公式(4)中,
Figure BDA0003024034160000136
表示第i个新风格特征第k个源域图像对应的第三损失函数,φsm(·)表示语义特征提取器的函数,
Figure BDA0003024034160000137
表示第k个源域图像,
Figure BDA0003024034160000138
表示第i个新风格特征和第k个源域图像的源域内容特征输入生成网络,得到的第一迁移图像。
在一些实施例中,将第一损失函数、第二损失函数、第三损失函数进行加权求和得到目标损失函数。例如,目标损失函数可以采用以下公式确定。
Figure BDA0003024034160000139
公式(5)中,1≤k≤ns,λ1和λ2分别为
Figure BDA00030240341600001310
Figure BDA00030240341600001311
的权重。
在一些实施例中,每次训练迭代过程(epoch),根据目标损失函数确定梯度;根据梯度和预设学习率调整生成的新风格特征。例如,将新风格特征对应的向量减去梯度与预设学习率的乘积,得到调整后的新风格特征。
在一些实施例中,在调整新风格特征的同时,根据第一损失函数、第二损失函数、第三损失函数,调整内容编码器、风格编码器、生成器的参数,直至达到与目标对应的预设收敛条件;在达到与目标对应的预设收敛条件的情况下,将内容编码器输出的源域内容特征作为更新后的源域内容特征,风格编码器输出的目标域风格特征作为更新后的目标域内容特征。
例如,每次训练迭代过程,根据目标损失函数确定梯度;根据梯度和预设学习率调整内容编码器、风格编码器、生成器的参数,同时还可以调整语义特征提取器的参数。
每次训练迭代过程,根据目标损失函数调整生成的新风格特征、调整内容编码器、风格编码器、生成器以及语义特征提取器的参数。重新将调整后的新风格特征和更新后的源域内容特征输入生成网络,得到第一迁移图像;将更新后的目标域风格特征和更新后的源域内容特征输入调整后的生成网络,得到第二迁移图像;根据第一迁移图像与对应的源域图像的风格差异,第一迁移图像与对应的第二迁移图像的风格差异,确定第一损失函数;根据各个第一迁移图像之间的风格差异,确定第二损失函数;根据第一迁移图像的语义特征与对应的源域图像的语义特征的差异,确定第三损失函数;根据第一损失函数、第二损失函数、第三损失函数确定目标损失函数。重复上述过程,直至达到与目标对应的预设收敛条件,例如预设收敛条件为目标损失函数值最小,不限于所举示例。
在步骤S106中,将生成的多种新风格特征和更新后的目标域风格特征分别与更新后的源域内容特征结合,分别生成第一图像和第二图像。
在一些实施例中,在达到与目标对应的预设收敛条件的情况下,将生成的多种新风格特征和更新后的源域内容特征输入生成器,得到第一图像,将更新后的目标域风格特征和更新后的源域内容特征输入生成器,得到第二图像。利用前述实施例的训练过程可以得到训练后的生成器,利用训练后的生成器生成第一图像和第二图像,如图2所示。
在步骤S108中,利用第一图像、第二图像、源域图像对目标检测模型进行训练,得到训练完成的目标检测模型。
步骤S102~S104为第一阶段的训练过程,即新颖图像风格对抗探索,得到了更新后的源域内容特征、目标域风格特征以及对抗生成的新风格特征,进而利用步骤S106生成第一图像和第二图像用于第二阶段的训练(步骤S108)即训练域不变目标检测模型。
由于第一图像和第二图像都是基于对应的源域内容特征生成的,因此,第一图像和第二图像与对应的源域图像具有相同的内容特征表示,二者的语义标签一致,可以将源域上的语义标签作为第一图像和第二图像的语义标签。
在一些实施例中,将第一图像、第二图像和源域图像分别输入目标检测模型,得到第一图像的目标检测结果,第二图像的目标检测结果,源域图像的目标检测结果;根据第一图像的目标检测结果,第二图像的目标检测结果,源域图像的目标检测结果分别与对应的源域图像的标注信息的差异,确定目标检测损失函数;根据目标检测损失函数对目标检测模型的参数进行调整。与第一图像或第二图像对应的源域图像是指用于生成第一图像或第二图像的源域内容特征所属的源域图像。
在一些实施例中,如图2所示,目标检测模型包括基础特征提取网络和目标检测网络。第一图像、第二图像和源域图像分别输入基础特征提取网络,得到第一图像的基础特征、第二图像的基础特征、源域图像的基础特征,再将第一图像的基础特征、第二图像的基础特征、源域图像的基础特征输入目标检测网络得到第一图像的目标检测结果,第二图像的目标检测结果,源域图像的目标检测结果。
在一些实施例中,目标检测结果包括:定位结果和分类结果中至少一项。定位结果为检测的目标的位置信息(例如包含目标的矩形框的坐标信息),分类结果为检测的目标的类别信息(例如,车、人、背景等),源域图像的标注信息包括语义标签,例如源域图像中目标的位置信息和/或源域图像中目标的类别信息。
在目标检测结果包括定位结果和分类结果的情况下,根据第一图像的定位结果,第二图像的定位结果,源域图像的定位结果分别与源域图像中目标的位置信息的差异,确定定位损失函数;根据第一图像的分类结果,第二图像的分类结果,源域图像的分类结果别与源域图像中目标的类别信息的差异,确定分类损失函数;将定位损失函数和分类损失函数加权求和,确定目标检测损失函数。目标检测结果包括定位结果或分类结果的情况,则值确定定位损失函数或分类损失函数即可,不再赘述。
在一些实施例中,定位损失函数根据以下公式确定:
Figure BDA0003024034160000161
公式(6)中,
Figure BDA0003024034160000162
表示第k个源域图像对应的定位损失,
Figure BDA0003024034160000163
表示第k个源域图像,
Figure BDA0003024034160000164
表示第k个源域图像中目标的位置信息,
Figure BDA0003024034160000165
表示第k个源域图像的定位结果与第k个源域图像中目标的位置信息的定位损失,di表示生成的多种新风格特征和更新后的目标域风格特征的集合中第i种风格特征,
Figure BDA0003024034160000166
表示第i种风格特征与第k个源域图像更新后的源域内容特征结合生成的图像,该图像为第一图像或第二图像,
Figure BDA0003024034160000167
表示该图像的定位结果与第k个源域图像中目标的位置信息的定位损失,1≤i≤Nd,i为正整数,Nd表示生成的多种新风格特征和更新后的目标域风格特征的集合中风格特征的总数。
在一些实施例中,分类损失函数根据以下公式确定:
Figure BDA0003024034160000168
公式(7)中,
Figure BDA0003024034160000169
表示第k个源域图像对应的分类损失,
Figure BDA00030240341600001610
表示第k个源域图像,
Figure BDA00030240341600001611
表示第k个源域图像目标的类别信息,
Figure BDA0003024034160000171
示第k个源域图像的分类结果与第k个源域图像中目标的类别信息的分类损失,di表示生成的多种新风格特征和更新后的目标域风格特征的集合中第i种风格特征,
Figure BDA0003024034160000172
表示第i种风格特征与第k个源域图像更新后的源域内容特征结合生成的图像,该图像为第一图像或第二图像,
Figure BDA0003024034160000173
表示该图像的分类结果与第k个源域图像中目标的类别信息的分类损失,1≤i≤Nd,i为正整数,Nd表示生成的多种新风格特征和更新后的目标域风格特征的集合中风格特征的总数。
为了进一步提高目标检测模型的准确率,可以增加判别器通过域判别结果对目标检测模型进行训练。在一些实施例中,如图2所示,将第一图像的基础特征、第二图像的基础特征、源域图像的基础特征和目标域图像的基础特征分别输入梯度反转层后再输入判别网络,得到第一图像的判别结果,第二图像的判别结果,源域图像的判别结果和目标域图像的判别结果;根据第一图像的判别结果,第二图像的判别结果,源域图像的判别结果,目标域图像的判别结果,确定判别损失函数;根据目标检测损失函数和判别损失函数对目标检测模型的参数进行调整。
各种基础特征被送入判别器之前,先输入梯度反转层用来反转特征的梯度,从而让判别器和基础特征提取网络往相反的方向进行优化,以迫使基础特征提取网络学习到域不变的特征表示。
在一些实施例中,判别损失函数根据以下公式确定:
Figure BDA0003024034160000174
Figure BDA0003024034160000175
Figure BDA0003024034160000176
Figure BDA0003024034160000177
公式(8)-(10)中,
Figure BDA0003024034160000178
表示第i个源域图像,ns表示源域图像的数量,
Figure BDA0003024034160000179
则表示根据各个源域图像的判别结果确定的源域判别损失函数;
Figure BDA00030240341600001710
表示第j个目标域图像,
Figure BDA00030240341600001711
表示第j个目标域图像所属的风格类型;nt表示目标域图像的数量,1≤j≤nt,j为正整数,
Figure BDA0003024034160000181
表示根据各个目标域图像的判别结果确定的目标域判别损失函数,dk表示生成的多种新风格特征和更新后的目标域风格特征的集合中第k种风格特征,
Figure BDA0003024034160000182
表示第k种风格特征与第i个源域图像更新后的源域内容特征结合生成的图像,1≤k≤Nd,k为正整数,Nd表示生成的多种新风格特征和更新后的目标域风格特征的集合中风格特征的总数,
Figure BDA0003024034160000183
示根据第一图像的判别结果和第二图像的判别结果确定的判别损失函数。
上述公式(8)-(10)中,判别损失函数包括三个部分即源域判别损失函数、目标域损失函数以及根据第一图像的判别结果和第二图像的判别结果确定的判别损失函数。各部分损失函数可以根据以下公式确定。
Figure BDA0003024034160000184
Figure BDA0003024034160000185
Figure BDA0003024034160000186
公式(12)-(14)中,1≤h≤H,h为正整数,表示图像中像素的高度,1≤w≤W,w为正整数,表示图像中像素的宽度,H和W分别表示图像中像素的最大高度和最大宽度,F(·(表示基础特征提取网络和梯度反转层的函数。
在一些实施例中,将目标检测损失函数和判别损失函数进行加权求和得到总损失函数,对目标检测模型的参数进行调整。总损失函数可以采用以下公式确定。
Figure BDA0003024034160000187
公式(15)中,λLTC和λCLS分别为
Figure BDA0003024034160000188
Figure BDA0003024034160000189
的权重。
在一些实施例中,每次训练迭代过程,根据总损失函数调整目标检测模型和判别器的参数,具体训练过程可以参考现有技术,不再赘述。基础特征提取网络可以采用CNN模型,例如VGG,ResNet等,不限于所举示例。
本公开的训练过程包括两个阶段,第一阶段是基于对抗探索的新风格的生成方法,该方法包含生成的新风格特征与源域风格特征和目标域风格特征不同、各种新风格特征不同,以及新风格特征与源域内容特征结合生成的图像与源域图像的语义一致不变三个目标。第二阶段是训练域不变的目标检测模型。该过程基于风格特征上的域伪标签(例如,通过聚类为每个目标域图像打上域伪标签),通过对抗训练的机制得到对多个域鲁棒的特征表示和目标检测模型。
上述实施例的方法,根据源域图像的源域内容特征,目标域图像的目标域风格特征自动生成多种新风格特征,生成的新风格特征互不相同,与源域风格特征、目标域风格特征也不同,并且新风格特征与源域内容特征结合生成的图像与源域图像的语义一致。因此,生成的新风格特征可以与更新后的源域内容特征,生成第一图像作为训练样本对目标检测模型进行域适应训练,进一步,目标域风格特征与更新后的源域内容特征结合生成的第二图像和源域图像也作为训练样本对目标检测模型进行域适应训练。由于本公开中自动生成新风格特征用于训练,提高了训练效率,减少了人工标注成本,并且多种新风格特征和目标域风格特征共同用于生成训练样本,丰富了训练样本的风格类型,使得训练完成的目标检测模型可以对多种风格类型的图像都能做出准确检测,提高了目标检测模型的有效性。
训练后的目标检测模型可以用于对图像的目标检测。在一些实施例中,将待检测图像输入训练完成的目标检测模型,得到待检测图像的目标检测结果。
本公开还提供一种图像处理装置,下面结合图3进行描述。
图3为本公开图像处理装置的一些实施例的结构图。如图3所示,该实施例的装置30包括:获取模块310,特征生成模块320,图像生成模块330,训练模块340。
获取模块310用于获取源域内容特征,获取目标域图像的目标域风格特征。
在一些实施例中,获取模块310用于利用内容编码器提取源域图像的源域内容特征;利用风格编码器提取目标域图像的目标域风格特征。
在一些实施例中,风格编码器包括风格特征提取网络和聚类模块,获取模块310用于将各个目标域图像输入风格特征提取网络,得到输出的各个目标域图像的基本风格特征;将各个目标域图像的基本风格特征输入聚类模块进行聚类,得到聚类中心的特征向量,作为目标域风格特征。
特征生成模块320用于以生成的新风格特征与源域图像的源域风格特征和目标域风格特征不同、各种新风格特征不同,以及新风格特征与源域内容特征结合生成的图像与源域图像的语义一致为目标,生成多种新风格特征,并更新源域内容特征和目标域风格特征。
在一些实施例中,特征生成模块320用于随机生成预设数量新风格特征,并将生成的新风格特征和源域内容特征输入生成网络,得到第一迁移图像;将目标域风格特征和源域内容特征输入生成网络,得到第二迁移图像;根据第一迁移图像与对应的源域图像的风格差异,第一迁移图像与对应的第二迁移图像的风格差异,确定第一损失函数,用于表示生成的新风格特征与源域风格特征和目标域风格特征差异;根据各个第一迁移图像之间的风格差异,确定第二损失函数,用于表示各种新风格特征之间的差异;根据第一迁移图像的语义特征与对应的源域图像的语义特征的差异,确定第三损失函数,用于表示新风格特征与源域内容特征结合生成的图像与源域图像的语义差异;根据第一损失函数、第二损失函数、第三损失函数,调整生成的新风格特征,直至达到与目标对应的预设收敛条件,得到生成的多种新风格特征。
在一些实施例中,特征生成模块320用于根据第一损失函数、第二损失函数、第三损失函数,调整内容编码器、风格编码器、生成器的参数,直至达到与目标对应的预设收敛条件;在达到与目标对应的预设收敛条件的情况下,将内容编码器输出的源域内容特征作为更新后的源域内容特征,风格编码器输出的目标域风格特征作为更新后的目标域内容特征。
在一些实施例中,将第一迁移图像与对应的源域图像分别作为第一参考图像和第二参考图像,或者,将第一迁移图像与对应的第二迁移图像分别作为第一参考图像和第二参考图像,或者将任意两个第一迁移图像分别作为第一参考图像和第二参考图像,则第一参考图像和第二参考图像之间的风格差异采用以下方法确定:将第一参考图像和第二参考图像分别输入预训练的特征提取网络中预设的多个特征层;针对每个特征层,将该特征层输出的第一参考图像的特征取均值和方差,作为第一均值和第一方差,将该特征层输出的第二参考图像的特征取均值和方差,作为第二均值和第二方差;根据各个特征层对应的第一均值和第二均值的差距,第一方差和第二方差的差距,确定第一参考图像和第二参考图像之间的风格差异。
第一损失函数、第二损失函数、第三损失函数可以分别参考公式(2)-(4)确定,不再赘述。
在一些实施例中,特征生成模块320用于将第一损失函数、第二损失函数、第三损失函数进行加权求和得到目标损失函数;根据目标损失函数确定梯度;根据梯度和预设学习率调整生成的新风格特征;其中,随机生成的预设数量新风格特征中每个维度上的取值从标准正太分布中随机采样得到的。
图像生成模块330用于将生成的多种新风格特征和更新后的目标域风格特征分别与更新后的源域内容特征结合,分别生成第一图像和第二图像。
在一些实施例中,图像生成模块330用于在达到与目标对应的预设收敛条件的情况下,将生成的多种新风格特征和更新后的源域内容特征输入生成器,得到第一图像,将更新后的目标域风格特征和更新后的源域内容特征输入生成器,得到第二图像。
训练模块340用于利用第一图像、第二图像、源域图像对目标检测模型进行训练,得到训练完成的目标检测模型。
在一些实施例中,训练模块340用于将第一图像、第二图像和源域图像分别输入目标检测模型,得到第一图像的目标检测结果,第二图像的目标检测结果,源域图像的目标检测结果;根据第一图像的目标检测结果,第二图像的目标检测结果,源域图像的目标检测结果分别与对应的源域图像的标注信息的差异,确定目标检测损失函数;根据目标检测损失函数对目标检测模型的参数进行调整。
在一些实施例中,训练模块340还用于将第一图像、第二图像、源域图像和目标域图像分别输入目标检测模型的基础特征提取网络,得到第一图像的基础特征、第二图像的基础特征、源域图像的基础特征和目标域图像的基础特征;将第一图像的基础特征、第二图像的基础特征、源域图像的基础特征和目标域图像的基础特征分别输入梯度反转层后再输入判别网络,得到第一图像的判别结果,第二图像的判别结果,源域图像的判别结果和目标域图像的判别结果;根据第一图像的判别结果,第二图像的判别结果,源域图像的判别结果,目标域图像的判别结果,确定判别损失函数;根据目标检测损失函数和判别损失函数对目标检测模型的参数进行调整。
在一些实施例中,目标检测结果包括:定位结果和分类结果,其中,定位结果为检测的目标的位置信息,分类结果为检测的目标的类别信息,源域图像的标注信息包括源域图像中目标的位置信息和源域图像中目标的类别信息;训练模块340用于根据第一图像的定位结果,第二图像的定位结果,源域图像的定位结果分别与对应的源域图像中目标的位置信息的差异,确定定位损失函数;根据第一图像的分类结果,第二图像的分类结果,源域图像的分类结果别与对应的源域图像中目标的类别信息的差异,确定分类损失函数;将定位损失函数和分类损失函数加权求和,确定目标检测损失函数。
定位损失函数、分类损失函数、判别损失函数等可以参考前述实施例的公式(6)-(15),在此不再赘述。
在一些实施例中,图像处理装置30还包括:目标检测模块350,用于将待检测图像输入训练完成的目标检测模型,得到待检测图像的目标检测结果。
本公开的实施例中的图像处理装置可各由各种计算设备或计算机***来实现,下面结合图4以及图5进行描述。
图4为本公开图像处理装置的一些实施例的结构图。如图4所示,该实施例的装置40包括:存储器410以及耦接至该存储器410的处理器420,处理器420被配置为基于存储在存储器410中的指令,执行本公开中任意一些实施例中的图像处理方法。
其中,存储器410例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图5为本公开图像处理装置的另一些实施例的结构图。如图5所示,该实施例的装置50包括:存储器510以及处理器520,分别与存储器410以及处理器420类似。还可以包括输入输出接口530、网络接口540、存储接口550等。这些接口530,540,550以及存储器510和处理器520之间例如可以通过总线560连接。其中,输入输出接口530为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口540为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口550为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、***、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (22)

1.一种图像处理方法,包括:
获取源域图像的源域内容特征和目标域图像的目标域风格特征;
以生成的新风格特征与所述源域图像的源域风格特征和所述目标域风格特征不同、各种新风格特征不同,以及所述新风格特征与所述源域内容特征结合生成的图像与所述源域图像的语义一致为目标,生成多种新风格特征,并更新所述源域内容特征和目标域风格特征;
将生成的多种新风格特征和更新后的目标域风格特征分别与更新后的源域内容特征结合,分别生成第一图像和第二图像;
利用所述第一图像、所述第二图像、所述源域图像对目标检测模型进行训练,得到训练完成的目标检测模型。
2.根据权利要求1所述的图像处理方法,其中,所述获取源域图像的源域内容特征,获取目标域图像的目标域风格特征包括:
利用内容编码器提取所述源域图像的源域内容特征;
利用风格编码器提取所述目标域图像的目标域风格特征。
3.根据权利要求2所述的图像处理方法,其中,所述风格编码器包括风格特征提取网络和聚类模块,所述利用风格编码器提取所述目标域图像的目标域风格特征包括:
将各个目标域图像输入所述风格特征提取网络,得到输出的各个目标域图像的基本风格特征;
将各个目标域图像的基本风格特征输入所述聚类模块进行聚类,得到聚类中心的特征向量,作为目标域风格特征。
4.根据权利要求2所述的图像处理方法,其中,所述生成多种新风格特征包括:
随机生成预设数量新风格特征,并将生成的新风格特征和所述源域内容特征输入生成网络,得到第一迁移图像;
将所述目标域风格特征和所述源域内容特征输入所述生成网络,得到第二迁移图像;
根据所述第一迁移图像与对应的源域图像的风格差异,所述第一迁移图像与对应的第二迁移图像的风格差异,确定第一损失函数,用于表示生成的新风格特征与所述源域风格特征和所述目标域风格特征差异;
根据各个第一迁移图像之间的风格差异,确定第二损失函数,用于表示各种新风格特征之间的差异;
根据所述第一迁移图像的语义特征与对应的源域图像的语义特征的差异,确定第三损失函数,用于表示所述新风格特征与所述源域内容特征结合生成的图像与所述源域图像的语义差异;
根据所述第一损失函数、第二损失函数、第三损失函数,调整生成的新风格特征,直至达到与所述目标对应的预设收敛条件,得到生成的多种新风格特征。
5.根据权利要求4所述的图像处理方法,其中,所述更新所述源域内容特征和目标域风格特征包括:
根据所述第一损失函数、第二损失函数、第三损失函数,调整所述内容编码器、所述风格编码器、所述生成器的参数,直至达到与所述目标对应的预设收敛条件;
在达到与所述目标对应的预设收敛条件的情况下,将所述内容编码器输出的所述源域内容特征作为更新后的源域内容特征,所述风格编码器输出的所述目标域风格特征作为更新后的目标域内容特征。
6.根据权利要求4所述的图像处理方法,其中,将所述第一迁移图像与对应的源域图像分别作为第一参考图像和第二参考图像,或者,将所述第一迁移图像与对应的第二迁移图像分别作为第一参考图像和第二参考图像,或者将任意两个第一迁移图像分别作为第一参考图像和第二参考图像,则第一参考图像和第二参考图像之间的风格差异采用以下方法确定:
将第一参考图像和第二参考图像分别输入预训练的特征提取网络中预设的多个特征层;
针对每个特征层,将该特征层输出的第一参考图像的特征取均值和方差,作为第一均值和第一方差,将该特征层输出的第二参考图像的特征取均值和方差,作为第二均值和第二方差;
根据各个特征层对应的第一均值和第二均值的差距,第一方差和第二方差的差距,确定第一参考图像和第二参考图像之间的风格差异。
7.根据权利要求4所述的图像处理方法,其中,所述第一损失函数根据以下公式确定:
Figure FDA0003024034150000031
其中,
Figure FDA0003024034150000032
表示第i个新风格特征第k个源域图像对应的第一损失函数,k为正整数,1≤k≤ns,i为正整数,n=ns+nt表示源域图像和目标域图像的总数,ns和nt分别表示源域图像和目标域图像的数量,nj表示第j个目标域风格特征对应的目标图像的数量,Kt表示目标域风格特征的数量,Tnov是一个超参数,表示距离最大化的阈值。1≤j≤Kt,j为正整数,
Figure FDA0003024034150000033
表示第k个源域图像,
Figure FDA0003024034150000034
表示第i个新风格特征和第k个源域图像的源域内容特征输入生成网络,得到的第一迁移图像,
Figure FDA0003024034150000035
表示第j个目标域风格特征和第k个源域图像的源域内容特征输入所述生成网络,得到的第二迁移图像,d(·)表示两个图像之间的风格差异的确定函数。
8.根据权利要求4所述的图像处理方法,其中,所述第二损失函数根据以下公式确定:
Figure FDA0003024034150000036
其中,
Figure FDA0003024034150000041
表示第i个新风格特征第k个源域图像对应的第二损失函数,1≤i≤Kn,i为正整数,Kn表示所述预设数量,Tdiv是一个超参数,表示距离最大化的阈值。
Figure FDA0003024034150000042
表示第j个新风格特征第k个源域图像的源域内容特征输入所述生成网络,得到的第一迁移图像,1≤j≤Kn,j为正整数,
Figure FDA0003024034150000043
表示第i个新风格特征和第k个源域图像的源域内容特征输入生成网络,得到的第一迁移图像,d(·)表示两个图像之间的风格差异的确定函数。
9.根据权利要求4所述的图像处理方法,其中,所述第三损失函数根据以下公式确定:
Figure FDA0003024034150000044
其中,
Figure FDA0003024034150000045
表示第i个新风格特征第k个源域图像对应的第三损失函数,φsm(·)表示语义特征提取器的函数,
Figure FDA0003024034150000046
表示第k个源域图像,
Figure FDA0003024034150000047
表示第i个新风格特征和第k个源域图像的源域内容特征输入生成网络,得到的第一迁移图像。
10.根据权利要求4所述的图像处理方法,其中,所述根据所述第一损失函数、第二损失函数、第三损失函数,调整生成的新风格特征包括:
将所述第一损失函数、第二损失函数、第三损失函数进行加权求和得到目标损失函数;
根据所述目标损失函数确定梯度;
根据所述梯度和预设学习率调整生成的新风格特征;
其中,随机生成的预设数量新风格特征中每个维度上的取值从标准正太分布中随机采样得到的。
11.根据权利要求5所述的图像处理方法,其中,所述将生成的多种新风格特征和更新后的目标域风格特征分别与更新后的源域内容特征结合,分别生成第一图像和第二图像包括:
在达到与所述目标对应的预设收敛条件的情况下,将生成的多种新风格特征和更新后的源域内容特征输入所述生成器,得到所述第一图像,将更新后的目标域风格特征和更新后的源域内容特征输入所述生成器,得到所述第二图像。
12.根据权利要求1所述的图像处理方法,其中,所述利用所述第一图像、所述第二图像、所述源域图像对目标检测模型进行训练包括:
将所述第一图像、所述第二图像和所述源域图像分别输入所述目标检测模型,得到所述第一图像的目标检测结果,所述第二图像的目标检测结果,所述源域图像的目标检测结果;
根据所述第一图像的目标检测结果,所述第二图像的目标检测结果,所述源域图像的目标检测结果分别与对应的源域图像的标注信息的差异,确定目标检测损失函数;
根据所述目标检测损失函数对所述目标检测模型的参数进行调整。
13.根据权利要求12所述的图像处理方法,其中,所述利用所述第一图像、所述第二图像、所述源域图像对目标检测模型进行训练还包括:
将所述第一图像、所述第二图像、所述源域图像和所述目标域图像分别输入所述目标检测模型的基础特征提取网络,得到所述第一图像的基础特征、所述第二图像的基础特征、所述源域图像的基础特征和所述目标域图像的基础特征;
将所述第一图像的基础特征、所述第二图像的基础特征、所述源域图像的基础特征和所述目标域图像的基础特征分别输入梯度反转层后再输入判别网络,得到所述第一图像的判别结果,所述第二图像的判别结果,所述源域图像的判别结果和所述目标域图像的判别结果;
根据所述第一图像的判别结果,所述第二图像的判别结果,所述源域图像的判别结果,所述目标域图像的判别结果,确定判别损失函数;
所述根据所述目标检测损失函数对所述目标检测模型的参数进行调整包括:
根据所述目标检测损失函数和所述判别损失函数对所述目标检测模型的参数进行调整。
14.根据权利要求12所述的图像处理方法,其中,所述目标检测结果包括:定位结果和分类结果,其中,所述定位结果为检测的目标的位置信息,所述分类结果为检测的目标的类别信息,所述源域图像的标注信息包括所述源域图像中目标的位置信息和所述源域图像中目标的类别信息;
所述根据所述第一图像的目标检测结果,所述第二图像的目标检测结果,所述源域图像的目标检测结果分别与对应的源域图像的标注信息的差异,确定目标检测损失函数包括:
根据所述第一图像的定位结果,所述第二图像的定位结果,所述源域图像的定位结果分别与对应的源域图像中目标的位置信息的差异,确定定位损失函数;
根据所述第一图像的分类结果,所述第二图像的分类结果,所述源域图像的分类结果别与对应的源域图像中目标的类别信息的差异,确定分类损失函数;
将所述定位损失函数和所述分类损失函数加权求和,确定所述目标检测损失函数。
15.根据权利要求14所述的图像处理方法,其中,所述定位损失函数根据以下公式确定:
Figure FDA0003024034150000061
其中,
Figure FDA0003024034150000062
表示第k个源域图像对应的定位损失,
Figure FDA0003024034150000063
表示第k个源域图像,
Figure FDA0003024034150000064
表示第k个源域图像中目标的位置信息,
Figure FDA0003024034150000065
表示第k个源域图像的定位结果与第k个源域图像中目标的位置信息的定位损失,di表示生成的多种新风格特征和更新后的目标域风格特征的集合中第i种风格特征,
Figure FDA0003024034150000071
表示第i种风格特征与第k个源域图像更新后的源域内容特征结合生成的图像,该图像为第一图像或第二图像,
Figure FDA0003024034150000072
表示该图像的定位结果与第k个源域图像中目标的位置信息的定位损失,1≤i≤Nd,i为正整数,Nd表示生成的多种新风格特征和更新后的目标域风格特征的集合中风格特征的总数。
16.根据权利要求14所述的图像处理方法,其中,所述分类损失函数根据以下公式确定:
Figure FDA0003024034150000073
其中,
Figure FDA0003024034150000074
表示第k个源域图像对应的分类损失,
Figure FDA0003024034150000075
表示第k个源域图像,
Figure FDA0003024034150000076
表示第k个源域图像目标的类别信息,
Figure FDA0003024034150000077
示第k个源域图像的分类结果与第k个源域图像中目标的类别信息的分类损失,di表示生成的多种新风格特征和更新后的目标域风格特征的集合中第i种风格特征,
Figure FDA0003024034150000078
表示第i种风格特征与第k个源域图像更新后的源域内容特征结合生成的图像,该图像为第一图像或第二图像,
Figure FDA0003024034150000079
表示该图像的分类结果与第k个源域图像中目标的类别信息的分类损失,1≤i≤Nd,i为正整数,Nd表示生成的多种新风格特征和更新后的目标域风格特征的集合中风格特征的总数。
17.根据权利要求13所述的图像处理方法,其中,所述判别损失函数根据以下公式确定:
Figure FDA00030240341500000710
Figure FDA00030240341500000711
Figure FDA00030240341500000712
Figure FDA00030240341500000713
其中,
Figure FDA00030240341500000714
表示第i个源域图像,ns表示源域图像的数量,
Figure FDA00030240341500000715
则表示根据各个源域图像的判别结果确定的源域判别损失函数;
Figure FDA00030240341500000716
表示第j个目标域图像,
Figure FDA00030240341500000717
表示第j个目标域图像所属的风格类型;nt表示目标域图像的数量,1≤j≤nt,j为正整数,
Figure FDA0003024034150000081
表示根据各个目标域图像的判别结果确定的目标域判别损失函数,dk表示生成的多种新风格特征和更新后的目标域风格特征的集合中第k种风格特征,
Figure FDA0003024034150000082
表示第k种风格特征与第i个源域图像更新后的源域内容特征结合生成的图像,1≤k≤Nd,k为正整数,Nd表示生成的多种新风格特征和更新后的目标域风格特征的集合中风格特征的总数,
Figure FDA0003024034150000083
表示根据第一图像的判别结果和第二图像的判别结果确定的判别损失函数。
18.根据权利要求17所述的图像处理方法,其中,
Figure FDA0003024034150000084
Figure FDA0003024034150000085
Figure FDA0003024034150000086
其中,1≤h≤H,h为正整数,表示图像中像素的高度,1≤w≤W,w为正整数,表示图像中像素的宽度,H和W分别表示图像中像素的最大高度和最大宽度,F(·)表示所述基础特征提取网络和所述梯度反转层的函数。
19.根据权利要求1所述的图像处理方法,还包括:
将待检测图像输入训练完成的目标检测模型,得到所述待检测图像的目标检测结果。
20.一种图像处理装置,包括:
获取模块,用于获取源域内容特征,获取目标域图像的目标域风格特征;
特征生成模块,用于以生成的新风格特征与所述源域图像的源域风格特征和所述目标域风格特征不同、各种新风格特征不同,以及所述新风格特征与所述源域内容特征结合生成的图像与所述源域图像的语义一致为目标,生成多种新风格特征,并更新所述源域内容特征和目标域风格特征;
图像生成模块,用于将生成的多种新风格特征和更新后的目标域风格特征分别与更新后的源域内容特征结合,分别生成第一图像和第二图像;
训练模块,用于利用所述第一图像、所述第二图像、所述源域图像对目标检测模型进行训练,得到训练完成的目标检测模型。
21.一种图像处理装置,包括:
处理器;以及
耦接至所述处理器的存储器,用于存储指令,所述指令被所述处理器执行时,使所述处理器执行如权利要求1-19任一项所述的图像处理方法。
22.一种非瞬时性计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现权利要求1-19任一项所述方法的步骤。
CN202110410920.0A 2021-04-16 2021-04-16 图像处理方法、装置和计算机可读存储介质 Active CN113111947B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202110410920.0A CN113111947B (zh) 2021-04-16 2021-04-16 图像处理方法、装置和计算机可读存储介质
PCT/CN2022/086976 WO2022218396A1 (zh) 2021-04-16 2022-04-15 图像处理方法、装置和计算机可读存储介质
KR1020237038915A KR20230171966A (ko) 2021-04-16 2022-04-15 이미지 프로세싱 방법 및 장치 및 컴퓨터 판독 가능 저장 매체
JP2023563039A JP2024513596A (ja) 2021-04-16 2022-04-15 画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110410920.0A CN113111947B (zh) 2021-04-16 2021-04-16 图像处理方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113111947A true CN113111947A (zh) 2021-07-13
CN113111947B CN113111947B (zh) 2024-04-09

Family

ID=76718007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110410920.0A Active CN113111947B (zh) 2021-04-16 2021-04-16 图像处理方法、装置和计算机可读存储介质

Country Status (4)

Country Link
JP (1) JP2024513596A (zh)
KR (1) KR20230171966A (zh)
CN (1) CN113111947B (zh)
WO (1) WO2022218396A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114119348A (zh) * 2021-09-30 2022-03-01 阿里巴巴云计算(北京)有限公司 图像生成方法、设备和存储介质
CN114511646A (zh) * 2022-04-19 2022-05-17 南通东德纺织科技有限公司 一种基于图像处理的布匹风格识别方法及***
WO2022218396A1 (zh) * 2021-04-16 2022-10-20 北京沃东天骏信息技术有限公司 图像处理方法、装置和计算机可读存储介质
CN116758617A (zh) * 2023-08-16 2023-09-15 四川信息职业技术学院 一种低光照度场景下的校园学生签到方法和校园签到***

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246014B (zh) * 2022-12-28 2024-05-14 支付宝(杭州)信息技术有限公司 一种形象生成方法、装置、存储介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734653A (zh) * 2018-05-07 2018-11-02 商汤集团有限公司 图像风格转换方法及装置
CN110310221A (zh) * 2019-06-14 2019-10-08 大连理工大学 一种基于生成对抗网络的多域图像风格迁移方法
US20200160113A1 (en) * 2018-11-19 2020-05-21 Google Llc Training image-to-image translation neural networks
CN111292384A (zh) * 2020-01-16 2020-06-16 西安交通大学 基于生成式对抗网络的跨域多样性图像生成方法及***
US20200342643A1 (en) * 2017-10-27 2020-10-29 Google Llc Semantically-consistent image style transfer
CN112184846A (zh) * 2020-09-16 2021-01-05 上海眼控科技股份有限公司 图像生成方法、装置、计算机设备和可读存储介质
CN112308862A (zh) * 2020-06-04 2021-02-02 北京京东尚科信息技术有限公司 图像语义分割模型训练、分割方法、装置以及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11120337B2 (en) * 2017-10-20 2021-09-14 Huawei Technologies Co., Ltd. Self-training method and system for semi-supervised learning with generative adversarial networks
CN110930295B (zh) * 2019-10-25 2023-12-26 广东开放大学(广东理工职业学院) 一种图像风格迁移方法、***、装置和存储介质
CN113111947B (zh) * 2021-04-16 2024-04-09 北京沃东天骏信息技术有限公司 图像处理方法、装置和计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200342643A1 (en) * 2017-10-27 2020-10-29 Google Llc Semantically-consistent image style transfer
CN108734653A (zh) * 2018-05-07 2018-11-02 商汤集团有限公司 图像风格转换方法及装置
US20200160113A1 (en) * 2018-11-19 2020-05-21 Google Llc Training image-to-image translation neural networks
CN110310221A (zh) * 2019-06-14 2019-10-08 大连理工大学 一种基于生成对抗网络的多域图像风格迁移方法
CN111292384A (zh) * 2020-01-16 2020-06-16 西安交通大学 基于生成式对抗网络的跨域多样性图像生成方法及***
CN112308862A (zh) * 2020-06-04 2021-02-02 北京京东尚科信息技术有限公司 图像语义分割模型训练、分割方法、装置以及存储介质
CN112184846A (zh) * 2020-09-16 2021-01-05 上海眼控科技股份有限公司 图像生成方法、装置、计算机设备和可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨勃;周亦诚;: "基于生成模型的图像风格迁移设计与实现", 湖南理工学院学报(自然科学版), no. 03, 15 September 2020 (2020-09-15) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022218396A1 (zh) * 2021-04-16 2022-10-20 北京沃东天骏信息技术有限公司 图像处理方法、装置和计算机可读存储介质
CN114119348A (zh) * 2021-09-30 2022-03-01 阿里巴巴云计算(北京)有限公司 图像生成方法、设备和存储介质
CN114511646A (zh) * 2022-04-19 2022-05-17 南通东德纺织科技有限公司 一种基于图像处理的布匹风格识别方法及***
CN116758617A (zh) * 2023-08-16 2023-09-15 四川信息职业技术学院 一种低光照度场景下的校园学生签到方法和校园签到***
CN116758617B (zh) * 2023-08-16 2023-11-10 四川信息职业技术学院 一种低光照度场景下的校园学生签到方法和校园签到***

Also Published As

Publication number Publication date
JP2024513596A (ja) 2024-03-26
CN113111947B (zh) 2024-04-09
KR20230171966A (ko) 2023-12-21
WO2022218396A1 (zh) 2022-10-20

Similar Documents

Publication Publication Date Title
Sindagi et al. Prior-based domain adaptive object detection for hazy and rainy conditions
Uhrig et al. Sparsity invariant cnns
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN113111947B (zh) 图像处理方法、装置和计算机可读存储介质
Chen et al. Learning linear regression via single-convolutional layer for visual object tracking
CN110222572A (zh) 跟踪方法、装置、电子设备及存储介质
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN108038515A (zh) 无监督多目标检测跟踪方法及其存储装置与摄像装置
CN109977834B (zh) 从深度图像中分割人手与交互物体的方法和装置
Shu et al. LVC-Net: Medical image segmentation with noisy label based on local visual cues
Wang et al. A feature-supervised generative adversarial network for environmental monitoring during hazy days
Yadav et al. An improved deep learning-based optimal object detection system from images
Yang et al. Toward country scale building detection with convolutional neural network using aerial images
Malav et al. DHSGAN: An end to end dehazing network for fog and smoke
Kolbeinsson et al. Multi-class segmentation from aerial views using recursive noise diffusion
Zhong et al. Background subtraction driven seeds selection for moving objects segmentation and matting
Shit et al. An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection
Oga et al. River state classification combining patch-based processing and CNN
Rusyn et al. Deep learning for atmospheric cloud image segmentation
Bakır et al. Evaluating the robustness of yolo object detection algorithm in terms of detecting objects in noisy environment
Dilawari et al. Toward generating human-centered video annotations
Lei et al. Convolutional restricted Boltzmann machines learning for robust visual tracking
Xu et al. Segmentation of building footprints with xception and iouloss
Zharkovsky et al. End-to-end change detection for high resolution drone images with gan architecture
Bodavarapu et al. An optimized convolutional neural network model for wild animals detection using filtering techniques and different opacity levels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant