CN111292331B - 图像处理的方法与装置 - Google Patents
图像处理的方法与装置 Download PDFInfo
- Publication number
- CN111292331B CN111292331B CN202010110152.2A CN202010110152A CN111292331B CN 111292331 B CN111292331 B CN 111292331B CN 202010110152 A CN202010110152 A CN 202010110152A CN 111292331 B CN111292331 B CN 111292331B
- Authority
- CN
- China
- Prior art keywords
- task
- information
- data
- image processing
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 5
- 238000001514 detection method Methods 0.000 claims abstract description 445
- 230000011218 segmentation Effects 0.000 claims abstract description 406
- 238000012545 processing Methods 0.000 claims abstract description 228
- 238000000034 method Methods 0.000 claims abstract description 110
- 230000006870 function Effects 0.000 claims description 121
- 230000015654 memory Effects 0.000 claims description 46
- 238000012549 training Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 20
- 230000000452 restraining effect Effects 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 17
- 230000006798 recombination Effects 0.000 description 11
- 238000005215 recombination Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 10
- 241000282472 Canis lupus familiaris Species 0.000 description 8
- 241001494479 Pecora Species 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- MHABMANUFPZXEB-UHFFFAOYSA-N O-demethyl-aloesaponarin I Natural products O=C1C2=CC=CC(O)=C2C(=O)C2=C1C=C(O)C(C(O)=O)=C2C MHABMANUFPZXEB-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000008521 reorganization Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种图像处理的方法与装置。涉及人工智能领域,具体涉及计算机视觉领域。该方法包括:基于第一种图像处理任务的原始特征数据获取第一空间特征信息;根据第二种图像处理任务的原始特征数据与第一空间特征信息,获取第二特征数据;对第二特征数据进行第二种图像处理,获得第二种图像处理任务的处理结果;第一种图像处理任务与第二种图像处理任务分别为目标检测任务与实例分割任务中的一种与另一种。通过目标检测与实例分割中一方给另一方提供空间特征信息,目标检测和/或实例分割的特征数据可以得到校正,可以提高实例分割任务的预测准确度。
Description
技术领域
本申请涉及图像处理领域,具体涉及一种图像处理的方法与装置。
背景技术
近年来,深度神经网络在图像、视频等视觉信号的自动化理解方面取得优异的表现。为了理解图像中每个像素所包含的语义信息,目标检测与语义分割被提出来。目标检测或语义分割只能粗略的判断像素属于哪一个目标的矩形检测框或语义类别。为了实现更加精细的图像理解,实例分割被提出来。实例分割在目标检测与语义分割的基础上,可以进一步判断图像中每个像素属于哪一个语义类别中的哪一个目标。实例分割可以应用于视频监督或自动驾驶等任务。
当前技术中,采用基于多任务学习框架的实例分割任务模型实现实例分割。该实例分割任务模型采用目标检测任务模型作为先验输出,然后使用额外的分割掩模预测模型在目标检测任务模型给定的目标检测框内逐个像素预测是否属于该目标。
应理解,目标检测任务和实例分割任务都可以对同一目标进行位置判断,但是,现有的实例分割任务模型在执行目标检测任务和实例分割任务时,会出现这两个任务的预测结果不一致的现象,从而导致实例分割的预测结果不准确。
提高实例分割任务的预测准确度,是亟需解决的问题。
发明内容
本申请提供一种图像处理的方法与装置,可以有效提高实例分割任务的预测准确度。
第一方面,提供一种图像处理的方法,所述方法包括:基于第一种图像处理任务的原始特征数据获取第一空间特征信息;根据第二种图像处理任务的原始特征数据与所述第一空间特征信息,获取第二特征数据;对所述第二特征数据进行第二种图像处理,获得所述第二种图像处理任务的处理结果;其中,所述第一种图像处理任务与所述第二种图像处理任务分别为目标检测任务与实例分割任务中的一种与另一种;其中,所述第一种图像处理任务的原始特征数据与所述第二种图像处理任务的原始特征数据,均是基于待处理图像数据获取的。
通过目标检测向实例分割提供空间特征信息,对于实例分割,其特征数据可以通过目标检测的空间特征信息得到校正,从而可以在一定程度上使得目标检测与实例分割的预测结果一致,因此可以提高实例分割任务的预测准确度。
通过实例分割向目标检测提供空间特征信息,对于目标检测,其特征数据可以通过目标检测的空间特征信息得到校正,从而可以在一定程度上使得目标检测与实例分割的预测结果一致,因此可以提高实例分割任务的预测准确度。
因此,本申请,通过目标检测与实例分割中的一方给另一方提供空间特征信息,对于被提供的一方,其特征数据可以通过对方的空间特征信息得到校正,从而可以在一定程度上使得目标检测与实例分割的预测结果一致,因此可以提高实例分割任务的预测准确度。
结合第一方面,在第一方面的一种可能的实现方式中,所述方法还包括:基于所述第二种图像处理任务的原始特征数据获取第二空间特征信息;根据所述第一种图像处理任务的原始特征数据与所述第二空间特征信息,获取第一特征数据;对所述第一特征数据进行第一种图像处理,获得所述第一种图像处理任务的处理结果。
通过目标检测与实例分割互相提供空间特征信息,对于目标检测与实例分割,其特征数据均可以通过对方的空间特征信息得到校正,从而可以更大程度地使得目标检测与实例分割的预测结果一致,因此可以提高实例分割任务的预测准确度。
因此,本申请通过目标检测与实例分割互相提供空间特征信息,可以进一步地提高实例分割任务的预测准确度。
结合第一方面,在第一方面的一种可能的实现方式中,所述第一种图像处理任务为目标检测任务,所述第二种图像处理任务为实例分割任务;其中,所述基于第一种图像处理任务的原始特征数据获取第一空间特征信息,包括:基于所述目标检测任务的原始特征数据获取第三空间特征信息;根据所述第三空间特征信息,分别获取横向特征信息与纵向特征信息;重组所述横向特征信息与所述纵向特征信息,获取所述第一空间特征信息。
因此,本申请,通过先对目标检测的空间特征信息进行横向特征获取与纵向特征获取,再对该横向特征与纵向特征进行重组处理,然后将重组后的空间特征信息提供给分割实例,可以更有助于提高实例分割的空间特征信息的准确性,从而可以提高实例分割任务的预测准确性。
结合第一方面,在第一方面的一种可能的实现方式中,通过执行如下操作,获取所述第一特征数据与所述第二特征数据,如下操作中i的初始取值为1,N为正整数。
步骤S1,基于特征数据IF1_i获取空间特征信息X1。
步骤S2,基于特征数据IF2_i获取空间特征信息X2。
步骤S3,根据该特征数据IF1_i与该空间特征信息X2,获取特征数据OF1_i。
步骤S4,根据该特征数据IF2_i与该空间特征信息X1,获取特征数据OF2_i。
步骤S5,判断i的取值是否等于N,若否,转到步骤S6,若是,转到步骤S7。
步骤S6,将i的取值加1,并将特征数据OF1_(i-1)作为特征数据IF1_i,将特征数据OF2_(i-1)作为特征数据IF2_i,转到步骤S1。
步骤S7,将特征数据OF1_i作为该第一特征数据,将特征数据OF2_i作为该第二特征数据。
其中,当i的取值为1时,特征数据IF1_i为该第一种图像处理任务的原始特征数据,特征数据IF2_i为该第二种图像处理任务的原始特征数据。
在本申请中,通过执行多轮目标检测与实例分割互相提供空间特征信息的操作,可以更好地使得目标检测与实例分割的特征数据得到校正,从而可以更大程度地使得目标检测与实例分割的预测结果一致,因此可以提高实例分割任务的预测准确度。
结合第一方面,在第一方面的一种可能的实现方式中,所述第一种图像处理任务为目标检测任务,所述第二种图像处理任务为实例分割任务;其中,所述对所述第一特征数据执行第一种图像处理任务,包括:使用检测框预测模型处理所述第一特征数据,获得所述第一特征数据的目标检测预测结果;其中,所述对所述第二特征数据进行第二种图像处理,获得所述第二种图像处理任务的处理结果,包括:使用分割掩模预测模型处理所述第二特征数据,获得所述第二特征数据的分割掩膜预测结果,其中,所述分割掩模预测模型是利用检测辅助损失函数训练得到的,所述检测辅助损失函数通过目标检测标签信息对所述分割掩模预测模型的输出进行约束,其中,所述目标检测标签信息用于训练所述检测框预测模型。
在本申请中,在训练分割掩模预测模型的过程中,通过使用目标检测标签信息来约束分割掩模预测模型的输出,可以提高分割掩模预测模型的模型准确性。
结合第一方面,在第一方面的一种可能的实现方式中,所述检测辅助损失函数包括纵向检测辅助损失函数与横向检测辅助损失函数,其中,所述纵向检测辅助损失函数通过所述目标检测标签信息对所述分割掩模预测模型输出的预测结果的纵向信息进行约束,所述横向检测辅助损失函数通过所述目标检测标签信息对所述分割掩模预测模型输出的预测结果的横向信息进行约束。
在本申请中,通过使用目标检测标签信息分别对分割掩模预测模型输出的分割掩模预测结果的横向信息和纵向信息进行约束,可以进一步提高分割掩模预测模型的性能。
结合第一方面,在第一方面的一种可能的实现方式中,所述根据第二种图像处理任务的原始特征数据与所述第一空间特征信息,获取第二特征数据,包括:通过使用卷积层处理所述第二种图像处理任务的原始特征数据与所述第一空间特征信息,获取所述第二特征数据。
结合第一方面,在第一方面的一种可能的实现方式中,所述基于所述目标检测任务的原始特征数据获取第三空间特征信息,包括:通过使用卷积层处理所述目标检测任务的原始特征数据,获取所述第三空间特征信息;所述根据所述第三空间特征信息,分别获取横向特征信息与纵向特征信息,包括:通过使用池化层处理所述第三空间特征信息,获取所述横向特征信息与所述纵向特征信息。
第二方面,提供一种图像处理的方法,所述方法包括:将待处理图像数据输入分割掩模预测模型;使用所述分割掩模预测模型,获得所述待处理图像数据的分割掩模预测结果,其中,所述分割掩模预测模型是利用检测辅助损失函数训练得到的,所述检测辅助损失函数通过目标检测标签信息对所述分割掩模预测模型的输出进行约束。
在本申请中,在训练分割掩模预测模型的过程中,通过使用目标检测标签信息来约束分割掩模预测模型的输出,可以提高分割掩模预测模型的模型准确性。
结合第二方面,在第二方面的一种可能的实现方式中,所述检测辅助损失函数包括纵向检测辅助损失函数与横向检测辅助损失函数,其中,所述纵向检测辅助损失函数通过所述目标检测标签信息对所述分割掩模预测模型输出的预测结果的纵向信息进行约束,所述横向检测辅助损失函数通过所述目标检测标签信息对所述分割掩模预测模型输出的预测结果的横向信息进行约束。
在本申请中,通过使用目标检测标签信息分别对分割掩模预测模型输出的分割掩模预测结果的横向信息和纵向信息进行约束,可以进一步提高分割掩模预测模型的性能。
第三方面,提供一种图像处理的方法,所述方法包括:获取目标检测标签信息;利用检测辅助损失函数训练得到分割掩模预测模型,其中,所述检测辅助损失函数通过所述目标检测标签信息对所述分割掩模预测模型的输出进行约束。
在本申请中,在训练分割掩模预测模型的过程中,通过使用目标检测标签信息来约束分割掩模预测模型的输出,可以提高分割掩模预测模型的模型准确性。
结合第三方面,在第三方面的一种可能的实现方式中,所述检测辅助损失函数包括纵向检测辅助损失函数与横向检测辅助损失函数,其中,所述纵向检测辅助损失函数通过所述目标检测标签信息对所述分割掩模预测模型输出的预测结果的纵向信息进行约束,所述横向检测辅助损失函数通过所述目标检测标签信息对所述分割掩模预测模型输出的预测结果的横向信息进行约束。
应理解,通过使用目标检测标签信息分别对分割掩模预测模型输出的分割掩模预测结果的横向信息和纵向信息进行约束,可以进一步提高分割掩模预测模型的性能。
第四方面,提供一种图像处理的装置,所述装置包括如下单元。
第一获取单元,用于基于第一种图像处理任务的原始特征数据获取第一空间特征信息。
第二获取单元,用于根据第二种图像处理任务的原始特征数据与该第一空间特征信息,获取第二特征数据。
第一处理单元,用于对该第二特征数据进行第二种图像处理,获得第二种图像处理任务的处理结果。
其中,该第一种图像处理任务与该第二种图像处理任务分别为目标检测任务与实例分割任务中的一种与另一种。
其中,该第一种图像处理任务的原始特征数据与该第二种图像处理任务的原始特征数据,均是基于待处理图像数据获取的。
结合第四方面,在第四方面的一种可能的实现方式中,该装置还包括如下单元。
第三获取单元,用于基于该第二种图像处理任务的原始特征数据获取第二空间特征信息。
第四获取单元,用于根据该第一种图像处理任务的原始特征数据与该第二空间特征信息,获取第一特征数据。
第二处理单元,用于对第一特征数据进行第一种图像处理,获得第一种图像处理任务的处理结果。
结合第四方面,在第四方面的一种可能的实现方式中,该第一种图像处理任务为目标检测任务,该第二种图像处理任务为实例分割任务。
其中,该第一获取单元用于:基于该目标检测任务的原始特征数据获取第三空间特征信息;根据该第三空间特征信息,分别获取横向特征信息与纵向特征信息;重组该横向特征信息与该纵向特征信息,获取该第一空间特征信息。
结合第四方面,在第四方面的一种可能的实现方式中,该装置通过执行如下操作,获取该第一特征数据与该第二特征数据,如下操作中i的初始取值为1,N为正整数:
步骤S1,基于特征数据IF1_i获取空间特征信息X1。
步骤S2,基于特征数据IF2_i获取空间特征信息X2。
步骤S3,根据该特征数据IF1_i与该空间特征信息X2,获取特征数据OF1_i。
步骤S4,根据该特征数据IF2_i与该空间特征信息X1,获取特征数据OF2_i。
步骤S5,判断i的取值是否等于N,若否,转到步骤S6,若是,转到步骤S7。
步骤S6,将i的取值加1,并将特征数据OF1_(i-1)作为特征数据IF1_i,将特征数据OF2_(i-1)作为特征数据IF2_i,转到步骤S1。
步骤S7,将特征数据OF1_i作为该第一特征数据,将特征数据OF2_i作为该第二特征数据。
其中,当i的取值为1时,特征数据IF1_i为该第一种图像处理任务的原始特征数据,特征数据IF2_i为该第二种图像处理任务的原始特征数据。
结合第四方面,在第四方面的一种可能的实现方式中,该第一种图像处理任务为目标检测任务,该第二种图像处理任务为实例分割任务;其中,该第二处理单元用于,使用检测框预测模型处理该第一特征数据,获得该第一特征数据的目标检测预测结果;其中,该第一处理单元用于,使用分割掩模预测模型处理该第二特征数据,获得该第二特征数据的分割掩膜预测结果。
其中,该分割掩模预测模型是利用检测辅助损失函数训练得到的,该检测辅助损失函数通过目标检测标签信息对该分割掩模预测模型的输出进行约束,其中,该目标检测标签信息用于训练该检测框预测模型。
结合第四方面,在第四方面的一种可能的实现方式中,该检测辅助损失函数包括纵向检测辅助损失函数与横向检测辅助损失函数,其中,该纵向检测辅助损失函数通过该目标检测标签信息对该分割掩模预测模型输出的预测结果的纵向信息进行约束,该横向检测辅助损失函数通过该目标检测标签信息对该分割掩模预测模型输出的预测结果的横向信息进行约束。
结合第四方面,在第四方面的一种可能的实现方式中,该第二获取单元用于,通过使用卷积层处理该第二种图像处理任务的原始特征数据与该第一空间特征信息,获取该第二特征数据。
结合第四方面,在第四方面的一种可能的实现方式中,该第一获取单元用于:通过使用卷积层处理该目标检测任务的原始特征数据,获取该第三空间特征信息;通过使用池化层处理该第三空间特征信息,获取该横向特征信息与该纵向特征信息。
第五方面,提供一种图像处理的装置,所述装置包括如下单元。
输入单元,用于将待处理图像数据输入分割掩模预测模型。
处理单元,用于使用该分割掩模预测模型,获得该待处理图像数据的分割掩模预测结果。
其中,该分割掩模预测模型是利用检测辅助损失函数训练得到的,该检测辅助损失函数通过目标检测标签信息对该分割掩模预测模型的输出进行约束。
结合第五方面,在第五方面的一种可能的实现方式中,该检测辅助损失函数包括纵向检测辅助损失函数与横向检测辅助损失函数。
其中,该纵向检测辅助损失函数通过该目标检测标签信息对该分割掩模预测模型输出的预测结果的纵向信息进行约束,该横向检测辅助损失函数通过该目标检测标签信息对该分割掩模预测模型输出的预测结果的横向信息进行约束。
第六方面,提供一种图像处理的装置,所述装置包括如下单元。
获取单元,用于获取目标检测标签信息。
训练单元,用于利用检测辅助损失函数训练得到分割掩模预测模型,其中,该检测辅助损失函数通过该目标检测标签信息对该分割掩模预测模型的输出进行约束。
结合第六方面,在第六方面的一种可能的实现方式中,该检测辅助损失函数包括纵向检测辅助损失函数与横向检测辅助损失函数。
其中,该纵向检测辅助损失函数通过该目标检测标签信息对该分割掩模预测模型输出的预测结果的纵向信息进行约束,该横向检测辅助损失函数通过该目标检测标签信息对该分割掩模预测模型输出的预测结果的横向信息进行约束。
第七方面,提供一种图像处理的装置,该装置包括:存储器,用于存储程序;处理器,用于执行存储器存储的程序,当存储器存储的程序被执行时,处理器用于执行上述第一方面、第二方面或第三方面中的方法。
第八方面,提供一种计算机可读介质,该计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行上述第一方面、第二方面或第三方面中的方法。
第九方面,提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面、第二方面或第三方面中的方法。
第十方面,提供一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,执行上述第一方面、第二方面或第三方面中的方法。
可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行上述第一方面、第二方面或第三方面中的方法。
第十一方面,提供一种电子设备,该电子设备包括上述第四方面、第五方面、第六方面或第七方面提供的装置。
基于上述描述,本申请通过目标检测与实例分割中的一方给另一方提供空间特征信息,对于被提供的一方,其特征数据可以通过对方的空间特征信息得到校正,从而可以在一定程度上使得目标检测与实例分割的预测结果一致,因此可以提高实例分割任务的预测准确度。
此外,本申请在训练分割掩模预测模型的过程中,通过使用目标检测标签信息来约束分割掩模预测模型的输出,可以提高分割掩模预测模型的模型准确性。
附图说明
图1是图像分类、目标检测、语义分割与实例分割的概念示意图。
图2是基于多任务学习框架的实例分割任务模型的示意性框图。
图3是本申请实施例提供的图像处理的方法的示意性流程图。
图4是本申请实施例提供的图像处理的方法的另一示意性流程图。
图5是本申请实施例提供的图像处理的方法的又一示意性流程图。
图6是本申请实施例提供的图像处理的方法的又一示意性流程图。
图7是本申请另一实施例提供的图像处理的方法的示意性流程图。
图8是本申请再一实施例提供的图像处理的方法的示意性流程图。
图9是本申请实施例提供的图像处理的装置的示意性框图。
图10是图9中的模块831的示意性框图。
图11是本申请实施例提供的图像处理的装置的另一示意性框图
图12是本申请实施例提供的图像处理的装置的又一示意性框图。
图13是本申请实施例提供的图像处理的***的示意性框图。
图14与图15是本申请的应用场景示意图。
图16是本申请实施例提供的图像处理的装置的又一示意性框图。
图17是本申请实施例提供的图像处理的装置的又一示意性框图
图18是本申请实施例提供的图像处理的装置的又一示意性框图。
图19是本申请实施例提供的图像处理的装置的又一示意性框图。
图20是本申请实施例提供的一种芯片硬件结构示意图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
为了便于理解本申请实施例,下面先介绍几个与本申请实施例相关的概念。
近年来,深度神经网络在图像、视频等视觉信号的自动化理解方面取得优异的表现。目前,计算机视觉的任务包括图像分类(image classification)、目标检测(objectdetection)、语义分割(semantic segmentation)与实例分割(instance segmentation)等任务。下面结合图1介绍这些概念。在图1的例子中,图片中含有1个人、2只羊与1只狗。
如图1左上角所示,图像分类指的是,对图像判断出所属的分类。例如,在学习分类中数据集有人(person)、羊(sheep)、狗(dog)和猫(cat)四种,图像分类就是要得到(或输出)给定的一个图片中含有哪些分类。例如,在图1的例子中,图像分类任务的输出是标注出图片中的分类:人、羊、狗。
如图1右上角所示,目标检测简单来说,就是求出图片里面有什么目标,以及这些目标的位置(例如,把目标用矩形框框住,这个矩形框可以称为检测框)。例如,在图1的例子中,目标检测任务的输出为,标注图片中1个人、2只羊、1只狗各自的边界框(如图1右上角图片中的矩形框)。
如图1左下角所示,语义分割指的是,需要区分到图片中的每一点像素点,而不仅仅是用矩形框框住目标,但是同一物体的不同实例不需要单独分割出来。例如,在图1的例子中,语义分割任务的输出是,标注出图片中的人,羊,狗,但不需要标注出羊1与羊2。语义分割也是通常意义上的目标分割。
如图1右下角所示,实例分割指的是,目标检测和语义分割的结合。相对于目标检测的边界框,实例分割可精确到物体的边缘,相对于语义分割,实例分割需要标注出图上同一物体的不同实例。例如,在图1的例子中,人有1个实例,羊有2个实例,狗有1个示例,实例分割任务就是要把这些实例都标注出来。
实例分割的预测结果可以称为分割掩模。分割掩模质量可以表征实例分割的预测结果的优劣。
应理解,图1仅作为示例而非限定。
本申请主要涉及目标检测与实例分割。
现有主流的实例分割任务模型往往基于多任务学习框架。多任务学习框架指的是,能够用于同时进行多种任务的模型,该模型分为主干网络(如图2中所示的主干网络210)和分支网络(如图2中所示的分支网络221、222、223),其中数据输入到主干网络中得到特征图,然后不同分支网络执行不同的任务输出。
图2为现有的实例分割任务模型200的结构示意图。该实例分割任务模型200包括主干网络210、多分类分支网络221、检测分支网络222与分割分支网络223。实例分割任务模型200采用检测分支网络222作为先验输出,然后使用额外的分割分支网络223在给定的目标检测框内逐个像素预测是否属于该目标。其中,分割分支网络223与多分类分支网络221、检测分支网络222均基于主干网络210获取的特特征图进行处理。多分类分支网络221、检测分支网络222使用共享的全连接层进行特征处理和任务输出,而分割分支网络223采用独立的卷积层进行特征处理和任务输出。
应理解,目标检测任务和实例分割任务都可以对目标进行位置判断(粗略的矩形检测框位置和精细的像素位置,如图1所示)。但是,采用图2所示的实例分割任务模型200执行目标检测任务和实例分割任务会出现这两个任务的预测结果不一致现象,这表明,两个任务的预测结果至少有一个是不准确的,从而降低了实例分割任务的预测准确度。
本申请针对上述问题,提供一种图像处理的方法与装置,可以有效提高实例分割任务的预测准确度。
图3为本申请实施例提供的图像处理的方法300的示意性。如图3所示,该方法300包括如下步骤S310、S320与S330。
S310,基于第一种图像处理任务的原始特征数据获取第一空间特征信息。
S320,根据第二种图像处理任务的原始特征数据与第一空间特征信息,获取第二特征数据。
第一种图像处理任务与第二种图像处理任务分别为目标检测任务与实例分割任务中的一种与另一种。换句话说,第一图像处理任务为目标检测任务与实例分割任务中的一种,第二图像处理任务为另一种
其中,第一种图像处理任务的原始特征数据与第二种图像处理任务的原始特征数据,均是基于待处理图像数据获取的。
该待处理图像数据表示,待进行检测框预测与分割掩模预测的图像,如图2中所示的被输入主干网络210的图像。
例如,目标检测任务的原始特征数据表示,待处理图像数据经过目标检测任务的特征获取网络的处理后得到的数据。
再例如,目标检测任务的原始特征数据可以表示,待处理图像数据经过如图2中所示的主干网络200的处理、以及目标检测任务的特征获取网络的处理后的得到的数据。
再例如,目标检测任务的原始特征数据可以表示,待处理图像数据经过如图2中所示的主干网络200的处理、区域提案网络的处理、以及目标检测任务的特征获取网络的处理后的得到的数据。
实例分割任务的原始特征数据的含义,类似于上文对“目标检测任务的原始特征数据”的描述,这里不再赘述。
例如,第一种图像处理任务的原始特征数据是,通过第一种图像处理任务的特征获取网络对待处理图像数据进行处理得到。第二种图像处理任务的原始特征数据是,通过第二种图像处理任务的特征获取网络对待处理图像数据进行处理得到。
S330,对第二特征数据进行第二种图像处理,获得第二种图像处理任务的处理结果。
在第一种图像处理任务为目标检测任务,第二种图像处理任务为实例分割任务的情况下,本实施例提供的方法300包括如下步骤。
在步骤S310中,基于目标检测任务的原始特征数据获取第一空间特征信息。在步骤S320中,根据实例分割任务的原始特征数据与第一空间特征信息,获取第二特征数据。在S330,对第二特征数据执行实例分割任务,获取第二特征数据的分割掩模预测结果。
在步骤S320中,可以采用多种方法,根据实例分割任务的原始特征数据与第一空间特征信息,获取第二特征数据。例如,直接将第一空间特征信息与实例分割任务的原始特征数据拼接起来。再例如,先对实例分割任务的原始特征数据进行一定处理,然后将第一空间特征信息与处理之后的原始特征数据拼接起来。
应理解,通过目标检测向实例分割提供空间特征信息,对于实例分割,其特征数据可以通过目标检测的空间特征信息得到校正,从而可以在一定程度上使得目标检测与实例分割的预测结果一致,因此可以提高实例分割任务的预测准确度。
本文提及的“目标检测与实例分割的预测结果一致”指的是,目标检测预测的目标检测框内的像素均属于这个目标。
因此,本实施例通过目标检测向实例分割提供空间特征信息,可以提高实例分割的空间特征信息的准确性,从而可以提高实例分割任务的预测准确性。
在第一种图像处理任务为实例分割任务,第二种图像处理任务为目标检测任务的情况下,本实施例提供的方法300包括如下步骤。
在步骤S310中,基于实例分割任务的原始特征数据获取第一空间特征信息。在步骤S320中,根据目标检测任务的原始特征数据与第一空间特征信息,获取第二特征数据。在S330,对第二特征数据执行目标检测任务,获取第二特征数据的目标检测预测结果。
在步骤S320中,可以采用多种方法,根据目标检测任务的原始特征数据与第一空间特征信息,获取第二特征数据。例如,直接将第一空间特征信息与目标检测任务的原始特征数据拼接起来。再例如,先对目标检测任务的原始特征数据进行一定处理,然后将第一空间特征信息与处理之后的原始特征数据拼接起来。
应理解,通过实例分割向目标检测提供空间特征信息,对于目标检测,其特征数据可以通过目标检测的空间特征信息得到校正,从而可以在一定程度上使得目标检测与实例分割的预测结果一致,因此可以提高实例分割任务的预测准确度。
本文提及的“目标检测与实例分割的预测结果一致”指的是,目标检测预测的目标检测框内的像素均属于这个目标。
因此,本实施例通过实例分割向目标检测提供空间特征信息,可以提高实例分割的空间特征信息的准确性,从而可以提高实例分割任务的预测准确性。
上述可知,本申请实施例,通过目标检测与实例分割中的一方给另一方提供空间特征信息,对于被提供的一方,其特征数据可以通过对方的空间特征信息得到校正,从而可以在一定程度上使得目标检测与实例分割的预测结果一致,因此可以提高实例分割任务的预测准确度。
可选地,如图4所示,方法300还包括步骤S340、S350与S360。
S340,基于第二种图像处理任务的原始特征数据获取第二空间特征信息。
S350,根据第一种图像处理任务的原始特征数据与第二空间特征信息,获取第一特征数据。
S360,对第一特征数据进行第一种图像处理,获得第一种图像处理任务的处理结果。
以第一种图像处理任务为目标检测任务,第二种图像处理任务为实例分割任务为例,本实施例提供的方法300包括如下步骤。
在步骤S310中,基于目标检测任务的原始特征数据获取第一空间特征信息。在步骤S320中,根据实例分割任务的原始特征数据与第一空间特征信息,获取第二特征数据。在S330,对第二特征数据执行实例分割任务,获取第二特征数据的分割掩模预测结果。在步骤S340中,基于实例分割任务的原始特征数据获取第二空间特征信息。S350,根据目标检测任务的原始特征数据与第二空间特征信息,获取第一特征数据。S360,对第一特征数据执行目标检测任务,获得第一特征数据的目标检测预测结果。
应理解,通过目标检测与实例分割互相提供空间特征信息,对于目标检测与实例分割,其特征数据均可以通过对方的空间特征信息得到校正,从而可以更大程度地使得目标检测与实例分割的预测结果一致,因此可以提高实例分割任务的预测准确度。
还应理解,通过目标检测与实例分割互相提供空间特征信息,可以实现目标检测任务与实例分割任务的相互监督,从而可以共同提高实例分割任务的预测准确度。
因此,本申请实施例通过目标检测与实例分割互相提供空间特征信息,可以进一步地提高实例分割任务的预测准确度。
为了便于描述与理解,在下文中,作如下约定。将基于目标检测任务的原始特征数据获取的空间特征信息记为第一空间特征信息;将基于实例分割任务的原始特征数据获取的空间特征信息记为第二空间特征信息;将根据实例分割任务的原始特征数据与第一空间特征信息获取的特征数据记为第二特征数据;将根据目标检测任务的原始特征数据与第二空间特征信息获取的特征数据记为第一特征数据。
可选地,在图3或图4所示的实施例中,在第一种图像处理任务为目标检测任务,第二种图像处理任务为实例分割任务的情况下,步骤S310包括如下步骤S311、S312与S313,如图5所示。
S311,基于目标检测任务的原始特征数据获取第三空间特征信息。
S312,根据第三空间特征信息,分别获取横向特征信息与纵向特征信息。
S313,重组横向特征信息与纵向特征信息,获取第一空间特征信息。
作为一个示例。假设在步骤S311中,基于目标检测任务的原始特征数据获取的第三空间特征信息为长宽及通道数为h×w×c的特征图。在步骤S312中,沿着横向和纵向分别对该特征图进行全局最大池化操作,得到尺度为w×c的横向特征及尺度为h×c的纵向特征。在步骤S313中,将尺度为w×c的横向特征及尺度为h×c的纵向特征再重新组合为尺寸为h×w×c的特征图,该特征图即为用于提供给实例分割任务的第一空间特征信息。在步骤S313中得到的特征图中,每个位置的特征响应为对应行、列的横向纵向特征响应均值。
应理解,目标检测预测得到的检测框信息,相对于实例分割得到的分割掩模,即像素信息,是较为粗略的。或者说,粗略的检测框信息对应到像素信息上是具有误差的。例如,目标检测与实例分割两个分支都有对应的特征图h×w×c,但是如果不作特殊处理,检测框分支最终只需要输出了框的左上和右下顶点坐标,而实例分割预测是输出了属于检测对象的每一个像素,所以相对于实例分割来说,检测框分支的特征图相比于实例分割分支是粗糙以及有误差的。
在本申请实施例中,先对目标检测的空间特征信息进行横向特征获取与纵向特征获取,然后将横向特征与纵向特征进行重组处理,得到重组后的空间特征信息。相当于,是从目标检测的空间特征信息中,获取其中的横向信息和纵向信息来代替原来的像素信息。该原来的像素信息指的是目标检测的原始空间特征信息。将这样重组后的空间特征信息分享给分割实例,可以降低较为粗略的检测框相对于较为精准的分割掩模的误差,因此,这样重组后的空间特征信息更有助于提高实例分割的空间特征信息的准确性。
因此,本申请实施例,通过先对目标检测的空间特征信息进行横向特征获取与纵向特征获取,再对该横向特征与纵向特征进行重组处理,然后将重组后的空间特征信息提供给分割实例,可以更有助于提高实例分割的空间特征信息的准确性,从而可以提高实例分割任务的预测准确性。
在上述一些实施例中,以第一种图像处理任务为目标检测任务,第二种图像处理任务为实例分割任务为例,在步骤S330中,将第二特征数据输入分割掩模预测模型,使用该分割掩模预测模型获取该第二特征数据的分割掩模预测结果。
例如,该分割掩模预测模型是使用逐像素分类损失函数训练得到,该逐像素分类损失函数通过分割掩模标签信息约束该分割掩模预测模型的输出。
可选地,该分割掩模预测模型可以通过下文实施例的方法800训练得到的。
在上述一些实施例中,还以第一种图像处理任务为目标检测任务,第二种图像处理任务为实例分割任务为例,在步骤S360中,可以使用检测框预测模型获取第一特征数据的目标检测预测结果。
例如,该检测框预测模型是使用检测回归损失函数训练得到,该检测回归损失函数通过目标检测标签信息约束该检测框预测模型的输出。
例如,在图3或图4所示实施例中,在步骤320中,通过使用卷积层处理第二种图像处理任务的原始特征数据与第一空间特征信息,获取第二特征数据。
例如,在图4所示实施例中,在步骤350中,通过使用卷积层处理第一种图像处理任务的原始特征数据与第二空间特征信息,获取第一特征数据。
作为示例,以第一种图像处理任务为目标检测任务,第二种图像处理任务为实例分割任务为例。在步骤350中,可以使用如图11中的模块910中的卷积层,处理第二空间特征信息与目标检测任务的原始特征数据,获得第一特征数据。在步骤320中,可以采用如图11中的模块920中的卷积层处理第一空间特征信息与实例分割任务的原始特征数据与,获取第二特征数据。
例如,在图3或图4所示实施例中,在步骤310中,通过使用卷积层处理第一种图像处理任务的原始特征数据,获取第一空间特征信息。
再例如,在图4所示实施例中,在步骤340中,通过使用卷积层处理第二种图像处理任务的原始特征数据,获取第二空间特征信息。
又例如,在图5所示实施例中,在步骤S311中,通过使用卷积层处理目标检测任务的原始特征数据,获取第三空间特征信息;在步骤S312中,通过使用池化层处理第三空间特征信息,获取横向特征信息与纵向特征信息;在步骤S313中,通过重组层处理横向特征信息与纵向特征信息,获取第一空间特征信息。
作为示例,以第一种图像处理任务为目标检测任务,第二种图像处理任务为实例分割任务为例。在步骤S311中,可以使用如图11中的子单元931中的卷积层处理目标检测任务的原始特征数据,获取第三空间特征信息。在步骤S312中,可以使用如图11中的子单元931中的带方向的卷积层处理第三空间特征信息,获取横向特征信息与纵向特征信息。在步骤S313中,可以使用如图11中的子单元931中的带方向的重组层,对横向特征信息与纵向特征信息进行重组,获取第一空间特征信息。在步骤340中,可以采用如图11中的模块932中的卷积层,处理实例分割任务的原始特征数据,获取第二空间特征信息。
例如,上文实施例中的方法300可以由下文实施例中的装置900、装置1100或装置1200执行。
作为示例,方法300由下文实施例中的装置900执行。参见图4与图9,步骤S310可以由第一空间特征信息获取单元931执行,步骤S320可以由实例分割任务特征获取模块920执行,步骤S340可以由第二空间特征信息获取单元932执行,步骤S350可以由目标检测任务特征获取模块910执行。参见图5与图10,步骤S311可以由第一空间特征信息获取单元931中的子单元1001执行,步骤S312与步骤S313可以由第一空间特征信息获取单元931中的子单元1002执行,其中,步骤S312可以通过子单元1002中的带方向的池化层实现,步骤S313可以通过子单元1002中的带方向的重组层实现。
因此,本申请实施例,通过目标检测与实例分割中的一方给另一方提供空间特征信息,对于被提供的一方,其特征数据可以通过对方的空间特征信息得到校正,从而可以在一定程度上使得目标检测与实例分割的预测结果一致,因此可以提高实例分割任务的预测准确度。
进一步地,通过目标检测与实例分割互相提供空间特征信息,对于目标检测与实例分割,其特征数据均可以通过对方的空间特征信息得到校正,从而可以更大程度地使得目标检测与实例分割的预测结果一致,因此可以提高实例分割任务的预测准确度。
如图6所示,本申请实施例还提供一种图像处理的方法600。该方法600包括如下步骤S610与步骤S620。
S610,根据目标检测任务的原始特征数据,获取第一特征数据,根据实例分割任务的原始特征数据,获取第二特征数据。
S620,获取第一特征数据的目标检测预测结果,获取第二特征数据的实例掩模预测结果。
如图6所示,在步骤S610中,通过执行如下操作,获取第一特征数据与第二特征数据。其中,i的初始取值为1,N为正整数。
S0,将目标检测任务的原始特征数据作为特征数据OF1_1,将实例分割任务的原始特征数据作为特征数据OF2_1。换句话说,当i的取值为1时,特征数据IF1_i为目标检测任务的原始特征数据,特征数据IF2_i为实例分割任务的原始特征数据。
S1,基于特征数据IF1_i获取空间特征信息X1。
S2,基于特征数据IF2_i获取空间特征信息X2。
S3,根据特征数据IF1_i与空间特征信息X2,获取特征数据OF1_i。
S4,根据特征数据IF2_i与空间特征信息X1,获取特征数据OF2_i。
S5,判断i的取值是否等于N,若否,转到步骤S6,若是,转到步骤S7。
S6,将i的取值加1,并将特征数据OF1_(i-1)作为特征数据IF1_i,将特征数据OF2_(i-1)作为特征数据IF2_i,转到步骤S1。
在步骤S6中,将特征数据OF1_(i-1)作为特征数据IF1_i,将特征数据OF2_(i-1)作为特征数据IF2_i,可以采用如下公式表达。
IF1_i=OF1_(i-1)
IF2_i=OF2_(i-1)。
S7,将特征数据OF1_i作为第一特征数据,将特征数据OF2_i作为第二特征数据。
可选地,方法600中的步骤S1可以采用如图5所示的步骤310的实现方法。相关描述详见上文,这里不再赘述。
在本申请实施例中,通过目标检测与实例分割互相提供空间特征信息,对于目标检测与实例分割,其特征数据均可以通过对方的空间特征信息得到校正,从而可以更大程度地使得目标检测与实例分割的预测结果一致,因此可以提高实例分割任务的预测准确度。
此外,通过执行多轮目标检测与实例分割互相提供空间特征信息的操作,可以更好地使得目标检测与实例分割的特征数据得到校正,从而可以更大程度地使得目标检测与实例分割的预测结果一致,因此可以提高实例分割任务的预测准确度。
例如,方法600可以由下文实施例的装置1200执行。
如图7所示,如图7所示,本申请实施例还提供一种图像处理的方法700,该方法700包括如下步骤S710与S720。
S710,将待处理图像数据输入分割掩模预测模型。
S720,使用所述分割掩模预测模型,获得所述待处理图像数据的分割掩模预测结果。
其中,所述分割掩模预测模型是利用检测辅助损失函数训练得到的,所述检测辅助损失函数通过目标检测标签信息对所述分割掩模预测模型的输出进行约束。
换句话说,检测辅助损失函数使用目标检测标签信息来约束分割掩模预测模型的分割掩模预测结果。
应理解,目标检测标签信息通常用于训练检测框预测模型,如图13中所示的检测回归损失函数使用目标检测标签信息对检测框预测模型的输出进行约束。
例如,该分割掩模预测模型可以通过下文实施例的方法800得到的。
应理解,在训练分割掩模预测模型的过程中,通过使用目标检测标签信息来约束分割掩模预测模型输出的分割掩模预测结果,可以提高分割掩模预测模型的模型准确性。因此,采用该分割掩模预测模型执行实例分割任务,可以提高实例分割任务的预测准确性。
应理解,除了检测辅助损失函数,在训练分割掩模预测模型的过程中,还使用逐像素分类损失函数,逐像素分类损失函数使用分割掩模标签信息来约束分割掩模预测模型的输出。
此外,由于当前实例分割任务需要采用目标检测任务输出的矩形检测框区域作为先验信息(如图2所示),所以当该矩形检测框区域的预测结果不准确时,会导致实例分割任务的预测准确度降低。换句话说,当不准确的目标检测预测结果作为实例分割任务的先验信息时,会影响实例分割的预测结果,例如,可能预测出质量更差的分割掩模。
在本申请实施例中,在训练分割掩模预测模型的过程中,通过使用目标检测标签信息来约束分割掩模预测模型的输出,可以提高分割掩模预测模型的模型准确性。
可选地,检测辅助损失函数包括纵向检测辅助损失函数与横向检测辅助损失函数。
其中,纵向检测辅助损失函数通过目标检测标签信息对分割掩模预测模型输出的预测结果的纵向信息进行约束,横向检测辅助损失函数通过目标检测标签信息对分割掩模预测模型输出的预测结果的横向信息进行约束。
应理解,通过使用目标检测标签信息分别对分割掩模预测模型输出的分割掩模预测结果的横向信息和纵向信息进行约束,可以进一步提高分割掩模预测模型的性能。
可选地,在图7所示实施例中,待处理图像数据可以是上述实施例的方法300或方法600中获得的第二特征数据。
应理解,本申请实施例可以更加有效地提高实例分割任务的预测准确度。
如图8所示,本申请实施例还提供一种神经网络训练的方法800,该方法800包括如下步骤S810和步骤S820。
S810,获取目标检测标签信息。
S820,利用检测辅助损失函数训练得到分割掩模预测模型,该检测辅助损失函数通过目标检测标签信息对分割掩模预测模型的输出进行约束。
应理解,目标检测标签信息通常用于训练检测框预测模型,如图13中所示的检测回归损失函数使用目标检测标签信息对检测框预测模型的输出进行约束。
换句话说,检测辅助损失函数使用目标检测标签信息来约束分割掩模预测模型的分割掩模预测结果。
在训练分割掩模预测模型的过程中,通过使用目标检测标签信息来约束分割掩模预测模型输出的分割掩模预测结果,可以提高分割掩模预测模型的模型准确性。
应理解,除了检测辅助损失函数,在训练分割掩模预测模型的过程中,还使用逐像素分类损失函数,逐像素分类损失函数使用分割掩模标签信息来约束分割掩模预测模型的输出。
应理解,采用图8所示方法800获得的分割掩模预测模型执行实例分割任务,可以提高实例分割任务的预测准确性。
此外,由于当前实例分割任务需要采用目标检测任务输出的矩形检测框区域作为先验信息(如图2所示),所以当该矩形检测框区域的预测结果不准确时,会导致实例分割任务的预测准确度降低。换句话说,当不准确的目标检测预测结果作为实例分割任务的先验信息时,会影响实例分割的预测结果,例如,可能预测出质量更差的分割掩模。
在本申请实施例中,在训练分割掩模预测模型的过程中,通过使用目标检测标签信息来约束分割掩模预测模型的输出,可以提高分割掩模预测模型的模型准确性。
可选地,该检测辅助损失函数包括纵向检测辅助损失函数与横向检测辅助损失函数。其中,纵向检测辅助损失函数通过目标检测标签信息对分割掩模预测模型输出的预测结果的纵向信息进行约束,横向检测辅助损失函数通过目标检测标签信息对分割掩模预测模型输出的预测结果的横向信息进行约束。
例如,对于大小为w×h的分割掩模预测结果和对应的检测框标签信息,首先将其均匀划分为n×n块,每块大小为(w/n)×(h/n),然后在每块上进行横向和纵向的全局最大池化操作,得到对应的横向掩模和纵向掩模,然后使用从检测框标签信息中得到的结果和从分割掩模预测中得到结果计算横向和纵向的辅助损失函数,约束分割掩模预测模型的输出。
应理解,通过使用目标检测标签信息分别对分割掩模预测模型输出的分割掩模预测结果的横向信息和纵向信息进行约束,可以进一步提高分割掩模预测模型的性能。
可选地,图8所示实施例获得的分割掩模预测模型可以用于处理方法300或方法600中的第二特征数据,获得第二特征数据的分割掩模预测结果。
应理解,本申请实施例可以更加有效地提高实例分割任务的预测准确度。
本文中描述的各个实施例可以为独立的方案,也可以根据内在逻辑进行组合,这些方案都落入本申请的保护范围中。
上文描述了本申请提供的方法实施例,下文将描述本申请提供的装置实施例。应理解,装置实施例的描述与方法实施例的描述相互对应,因此,未详细描述的内容可以参见上文方法实施例,为了简洁,这里不再赘述。
如图9所示,本申请实施例还提供一种图像处理的装置900。装置900包括目标检测任务特征获取模块910、实例分割任务特征获取模块920与空间特征信息对齐模块930。
目标检测任务特征获取模块910用于,基于目标检测任务的原始特征数据,获取第一特征数据。该第一特征数据用于进行目标检测任务,如图9所示,进行检测框预测。
实例分割任务特征获取模块920用于,基于实例分割任务的原始特征数据,获取第二特征数据。该第二特征数据用于进行实例分割任务,如图9所示,进行分割掩模预测。
空间特征信息对齐模块930用于,对齐目标检测任务与实例分割任务的空间特征信息。
可选地,如图9所示,空间特征信息对齐模块930包括第一空间特征信息获取单元931,用于根据目标检测任务的原始特征数据,获取第一空间特征信息,并将第一空间特征信息提供给实例分割任务特征获取模块920。相应地,实例分割任务特征获取模块920用于,融合第一空间特征信息与实例分割任务的原始特征数据,输出第一特征数据。
可选地,如图9所示,空间特征信息对齐模块930还包括第二空间特征信息获取单元932,用于从实例分割任务的原始特征数据中获取第二空间特征信息,并将第二空间特征信息提供给实例目标检测任务特征获取模块910。相应地,目标检测任务特征获取模块910用于,融合第二空间特征信息与目标检测任务的原始特征数据,输出第二特征数据。
可选地,如图10所示,第一空间特征信息获取单元931包括空间特征信息获取子单元1001与空间特征信息处理子单元1002。
空间特征信息获取子单元1001用于,基于目标检测任务的原始特征数据,获取第三空间特征信息。
空间特征信息处理子单元1002包括带方向的池化层与带方向的重组层。带方向的池化层用于,从第三空间特征信息中获取横向特征与纵向特征。带方向的重组层用于,对该横向特征与纵向特征进行重组,输出第一空间特征信息。
例如,该装置900可以用于执行上文实施例中的方法300。
参见图4与图9,目标检测任务特征获取模块910用于执行上述实施例中的步骤S350,实例分割任务特征获取模块920用于执行上述实施例中的步骤S320,空间特征信息对齐模块930用于执行上述实施例中的步骤S310与S340,第一空间特征信息获取单元931用于执行上述实施例中的步骤S310,第二空间特征信息获取单元932用于执行上述实施例中的步骤S340。
参见图5与图10,第一空间特征信息获取单元931中的子单元1001用于执行上文实施例中的步骤S311,第一空间特征信息获取单元931中的子单元1002用于执行上文实施例中的步骤S312与步骤S313,其中,子单元1002中的带方向的池化层用于实现步骤S312,子单元1002中的带方向的重组层用于实现步骤S313。
相关描述详见上文,为了简洁,这里不再赘述。
下面参照图11,描述装置900的一个示例。
作为示例而非限定,装置900的一个示例如图11中的装置1100。
例如,目标检测任务特征获取模块910与实例分割任务特征获取模块920分别通过堆叠的卷积层构成。应理解,目标检测任务与实例分割任务为两种不同的计算机视觉任务,因此,目标检测任务特征获取模块910所使用的堆叠的卷积层,不同于实例分割任务特征获取模块920所使用的堆叠的卷积层。
如图11所示,目标检测任务特征获取模块910中包括2个卷积核大小为1×1的卷积层、1个卷积核大小为3×3的卷积层。实例分割任务特征获取模块1020包括1个卷积核大小为1×1的卷积层、1个卷积核大小为3×3的卷积层。
作为示例而非限定,目标检测任务特征获取模块910基于输入生成输出的第一特征数据的内部数据流如下。将目标检测任务特征获取模块910的输入记为原始特征数据A0。原始特征数据A0先经过一个卷积核大小为1×1的卷积层,得到通道数为1024的特征图A1;特征图A1经过一个卷积核大小为3×3的卷积层,得到通道数为256的特征图A2;特征图A2与来自空间特征信息对齐模块930的第二空间特征信息(也可称为空间信息特征图)C2沿着通道维度拼接(如图11中910中的◎)在一起,再经过一个卷积核大小为1×1的卷积层,得到通道数为1024的特征图A3;该特征图A3与原始特征数据A0相加后作为输出O1。该输出O1为目标检测任务特征获取模块910输出的第一特征数据。
作为示例而非限定,实例分割任务特征获取模块920基于输入生成输出的第二特征数据的内部数据流如下。将实例分割任务特征获取模块920的输入记为原始特征数据B0。原始特征数据B0先经过一个卷积核大小为3×3的卷积层,得到通道数为256的特征图B1;特征图B1与来自空间特征信息对齐模块930的第二空间特征信息(也可称为空间信息特征图)C1沿着通道维度拼接(如图11中920中的◎)在一起,再经过一个卷积核大小为1×1的卷积层,得到通道数为256的特征图B2作为输出O2。该输出O2为实例分割任务特征获取模块920输出的第二特征数据。
如图11所示,空间特征信息对齐模块930可以通过卷积层,或者通过卷积层和池化层实现。第一空间特征信息获取单元931中的子单元1001包括1个卷积核大小为1×1的卷积层。第一空间特征信息获取单元931中的子单元1002包括带方向的池化层与带方向的重组层。第二空间特征信息获取单元932包括1个卷积核大小为1×1的卷积层。
作为示例而非限定,第一空间特征信息获取单元931获取第一空间特征信息的内部数据流如下。将第一空间特征信息获取单元931的输入记为原始特征数据C10。原始特征数据C10,经过卷积核大小为1×1的卷积层,得到第三空间特征信息C11;第三空间特征信息C11经过带方向的池化层,得到横向特征与纵向特征;横向特征与纵向特征经过带方向的重组层,得到第一空间特征信息(也可称为空间信息特征图)C1。第一空间特征信息C1被提供给实例分割任务特征获取模块920。
作为示例而非限定,第二空间特征信息获取单元932获取第二空间特征信息的内部数据流如下。将第一空间特征信息获取单元931的输入记为原始特征数据C20。原始特征数据C20,经过卷积核大小为1×1的卷积层,得到第二空间信息特征图C2。第二空间特征信息C2被提供给目标检测任务特征获取模块910。
需要说明的是,图11仅为示例而非限定。也就是说,装置900图11所示的装置1100仅为装置900的一种可选的实现方式。
装置900在可以实现上述实施例的方法300的前提下,可以具有各种可行的变形结构。
例如,目标检测任务特征获取模块910的结构可以是不同于图11所示的堆叠的卷积层,实例分割任务特征获取模块920的结构可以是不同于图11所示的堆叠的卷积层,空间特征信息对齐模块930的结构可以是不同于图11所示的卷积层与池化层。
在图11中,第一空间特征信息获取单元931的输入(C10)与目标检测任务特征获取模块910的输入(A0)是相同,第二空间特征信息获取单元932的输入(C20)与实例分割任务特征获取模块920的输入(B0)是相同。但本申请并非限定如此。
可选地,第一空间特征信息获取单元931的输入(C10)可以不同于目标检测任务特征获取模块910的输入(A0),第二空间特征信息获取单元932的输入(C20)可以不同于实例分割任务特征获取模块920的输入(B0)。
参见图11,作为一个示例,第一空间特征信息获取单元931的输入(C10),可以是目标检测任务特征获取模块910的输入A0经过一个卷积核大小为1×1的卷积层之后得到的特征图A1,或者,可以是A0先经过一个卷积核大小为1×1的卷积层,再经过一个卷积核大小为3×3的卷积层之后得到的特征图A2。
参见图11,作为一个示例,第二空间特征信息获取单元932的输入(C20)可以是,实例分割任务特征获取模块920的输入B0经过一个卷积核大小为3×3的卷积层之后得到的特征图B1。
该装置900与装置1100的落地产品形态可以为定制场景的多目标精准定位服务。例如,该装置900或装置1100可以部署在相关设备的计算节点中。
如图12所示,本申请实施例还提供一种图像处理的装置1200。装置1200包括n个上述实施例中的装置900,如图12中所示的装置900(1)、装置900(2),…,装置900(n)。
n为正整数。装置900(i)表示装置1200中的第i个装置900,i为1,2,...,n。在实际应用中,可以根据应用需求确定n的取值,本申请对此不作限定。
可以将装置1200包括的每个装置900称为交错分支子网络900,将装置1200称为交错分支网络1200。
在装置1200中,每个交错分支子网络900的输出作为下一个交错分支子网络900的输入。也就是说,每个交错分支子网络900(i)中目标检测任务特征获取模块910的输出作为下一个交错分支子网络900(i+1)中目标检测任务特征获取模块910的输入,每个交错分支子网络900(i)中实例分割任务特征获取模块920的输出作为下一个交错分支子网络900(i+1)中实例分割任务特征获取模块920的输入。
可选地,装置1200中的n个交错分支子网络900的结构与参数均相同。
例如,装置1200中每个交错分支子网络900均为如图11所示的装置1100。
可选地,装置1200中的n个交错分支子网络900的结构与参数不完全相同。
例如,装置1200中每个交错分支子网络900的架构与图9所示的装置900的架构一致,但一部分交错分支子网络900的具体结构如图11中所示的装置1100,另一部分的交错分支子网络900中的具体结构不同于图11。
装置1200可以用于执行上文实施例的方法600。
该装置1200的落地产品形态可以为定制场景的多目标精准定位服务。例如,该装置1200可以部署在相关设备的计算节点中。
如图13所示,本申请实施例还提供一种图像处理的***1300。***1300包括主干网络1310、区域提案网络1320、全连接层1330、交错分支网络1340、多分类预测模型1350、检测框预测模型1360、分割掩模预测模型1370。其中,交错分支网络1340为上文实施例中的装置1200。
该***1300可以用于执行图像分类任务、目标检测任务与实例分割任务。例如,将待处理图像数据输入该***1300,该***1300可以输出每个目标的类别、检测框和分割掩模预测结果。
作为示例,该***1300执行图像分类任务、目标检测任务与实例分割任务的操作流程包括如下步骤。
步骤1),使用主干网络1310对待处理图像数据进行特征获取,得到整张图像的图像特征。
步骤2),使用区域提案网络1320生成多个目标的候选区域位置,并且获取每个候选区域的特征图,即获得如图13中所示的候选区域特征。
步骤3),使用全连接层1330对候选区域特征进行处理,即对区域提案网络1320生成的每个候选区域的特征图进行处理,获得用于输入多分类预测模型1350的分类特征数据。
步骤4),使用多分类预测模型1350处理分类特征数据,获得多分类预测结果。
步骤5),使用交错分支网络1340对候选区域特征进行处理,即对区域提案网络1320生成的每个候选区域的特征图进行处理,获得用于输入检测框预测模型1360的检测特征数据(对应上文实施例中的第一特征数据),以及用于分割掩模预测模型1370的分割特征数据(对应上文实施例中的第二特征数据)。
步骤6),使用检测框预测模型1360对检测特征数据进行目标检测处理,获得检测框预测结果。
步骤7),使用分割掩模预测模型1370对分割特征数据进行处理,获得分割掩模预测结果。
需要说明的是,上述步骤1)至步骤7)的执行顺序由其内在逻辑关系确定,不限定于上文文字呈现的顺序。
例如,在***1300中,全连接层1330与多分类预测模型1350可以统称为多分类分支网络;交错分支网络1340与检测框预测模型1360可以统称为目标检测分支网络;交错分支网络1340与分割掩模预测模型1370可以统称为实例分割分支网络。
在***1300中,分类分支网络使用独立的全连接层获取特征图并进行类别预测。目标检测分支网络与实例分割分支网络共同使用交错分支网络1340获取各自的特征数据。
应理解,在***1300中,通过使用本申请实施例提供的交错分支网络1340(即图11所示的装置1200)获取用于目标检测任务和实例分割任务的特征数据,可以实现目标检测任务与实例分割任务的相互监督,从而可以共同提高实例分割任务的预测准确度。
可选地,该***1300还可以用于训练和部署实例分割任务模型。如图13所示,该***1300通过从图像训练数据仓库中获取给定的图像数据,从标签数据仓库中获取给定的标签信息,可以搭建出通用场景的实例分割网络模型
作为示例,通过该***1300训练实例分割任务模型的操作流程包括如下步骤。
步骤(1),从图像训练数据仓库中获取给定的图像数据,输入到主干网络1310中。
步骤(2),执行上述步骤1)至步骤7),详见上文,这里不再赘述。
其中,在步骤(2)中,通过从标签数据仓库中获取目标分类标签信息、目标检测标签信息与分割掩模标签信息,训练多分类预测模型1350、检测框预测模型1360、分割掩模预测模型1370。
例如,多分类预测模型1350通过多分类损失函数进行训练,该多分类损失函数使用目标分类标签信息来约束多分类预测模型1350的输出。
例如,检测框预测模型1360通过检测回归损失函数进行训练,该检测回归损失函数使用目标检测标签信息来约束检测框预测模型1360的输出。
例如,分割掩模预测模型1370通过逐像素分类损失函数进行训练,该逐像素分类损失函数使用分割掩模标签信息来约束分割掩模预测模型1370的输出。
可选地,在步骤(2)中,通过分割掩模标签信息以及目标检测标签信息,训练分割掩模预测模型1370。
例如,使用逐像素分类损失函数与检测辅助损失函数,训练分割掩模预测模型1370,该逐像素分类损失函数使用分割掩模标签信息来约束分割掩模预测模型的输出,该检测辅助损失函数通过目标检测标签信息对分割掩模预测模型的输出进行约束。
作为示例,采用上文实施例提供的方法800训练分割掩模预测模型1370。相关描述详见上文,这里不再赘述。
通过***1300完成训练后,得到模型最终参数,然后将该模型与对应的参数部署到测试环境中,可以得到通用场景的实例分割网络模型。
在最终部署过程中,算法输入只有图像数据,最终输出结果为目标的类别、检测框和分割掩模预测结果,不需要标签信息和各个损失函数。
该***1300的落地产品形态可以为定制场景的多目标精准定位服务。例如,该***1300可以部署在相关设备的计算节点中,通过接入当前场景(例如图14与图15所示的场景)的视觉数据输入接口,能够为客户生成指定类别目标的像素级精准定位解决方案。
本申请可以应用在图像数据的自动化分析和理解场景,包括但不限于自动驾驶、视频监控等需要精确分析目标位置的领域。
应用场景一:自动驾驶***中行人车辆分割***。
在自动驾驶任务中,车辆***通过摄像头采集图像数据,然后从图像中识别出道路上的各种行人、车辆以及其他交通工具,判断他们的准确位置,用于帮助选择最终的车辆控制策略。如图14所示,利用本申请提供的***1300,使用给定的自动驾驶场景下行人车辆数据仓库,可以训练出适用于自动驾驶任务的行人及车辆分割***,进而部署到自动驾驶***中,提高***的准确度。
应用场景二:视频监控中的目标分割***。
在视频监控领域,我们需要重点关注监控视频中的多种目标,同时自动判断其准确位置并进行跟踪分析。如图15所示,利用本申请提供的***1300,在视频监控场景下的数据仓库中进行训练,然后部署到目标场景中,能够更加准确的定位每个目标位置,进而分析他们的相关属性及其他信息,实现自动化的精准监控及行为分析。
表1给出了相同实验设置下的本申请提供的实例分割任务模型和其他现有模型在公开数据集的目标检测和实例分割任务的表现。从表1中可以看出,相比于现有方案,本申请在目标检测和实例分割两个任务上都实现了优异的性能表现。
表1:基于本申请的实例分割任务模型和现有模型在公开数据集MS COCO上的目标检测和实例分割表现效果
表2示出本申请提供的交错分支网络1200和辅助检测损失函数带来的提升效果,辅助检测损失函数主要提升实例分割效果,交错分支网络既可以提升目标检测效果,也可以提升实例分割效果。
表2:交错分支网络1200和辅助检测损失函数的效果分析(MS COCO)
如图16所示,本申请实施例还提供一种图像处理的装置1600。该装置1600包括如下单元。
第一获取单元1610,用于基于第一种图像处理任务的原始特征数据获取第一空间特征信息。
第二获取单元1620,用于根据第二种图像处理任务的原始特征数据与该第一空间特征信息,获取第二特征数据。
第一处理单元1630,用于对该第二特征数据进行第二种图像处理,获得第二种图像处理任务的处理结果。
其中,该第一种图像处理任务与该第二种图像处理任务分别为目标检测任务与实例分割任务中的一种与另一种。
其中,该第一种图像处理任务的原始特征数据与该第二种图像处理任务的原始特征数据,均是基于待处理图像数据获取的。
通过目标检测向实例分割提供空间特征信息,对于实例分割,其特征数据可以通过目标检测的空间特征信息得到校正,从而可以在一定程度上使得目标检测与实例分割的预测结果一致,因此可以提高实例分割任务的预测准确度。
通过实例分割向目标检测提供空间特征信息,对于目标检测,其特征数据可以通过目标检测的空间特征信息得到校正,从而可以在一定程度上使得目标检测与实例分割的预测结果一致,因此可以提高实例分割任务的预测准确度。
因此,本申请实施例,通过目标检测与实例分割中的一方给另一方提供空间特征信息,对于被提供的一方,其特征数据可以通过对方的空间特征信息得到校正,从而可以在一定程度上使得目标检测与实例分割的预测结果一致,因此可以提高实例分割任务的预测准确度。
可选地,该装置1600还包括如下单元。
第三获取单元1640,用于基于该第二种图像处理任务的原始特征数据获取第二空间特征信息。
第四获取单元1650,用于根据该第一种图像处理任务的原始特征数据与该第二空间特征信息,获取第一特征数据。
第二处理单元1660,用于对第一特征数据进行第一种图像处理,获得第一种图像处理任务的处理结果。
通过目标检测与实例分割互相提供空间特征信息,对于目标检测与实例分割,其特征数据均可以通过对方的空间特征信息得到校正,从而可以更大程度地使得目标检测与实例分割的预测结果一致,因此可以提高实例分割任务的预测准确度。
因此,本申请实施例通过目标检测与实例分割互相提供空间特征信息,可以进一步地提高实例分割任务的预测准确度。
可选地,该第一种图像处理任务为目标检测任务,该第二种图像处理任务为实例分割任务;其中,该第一获取单元1610用于:基于该目标检测任务的原始特征数据获取第三空间特征信息;根据该第三空间特征信息,分别获取横向特征信息与纵向特征信息;重组该横向特征信息与该纵向特征信息,获取该第一空间特征信息。
因此,本申请实施例,通过先对目标检测的空间特征信息进行横向特征获取与纵向特征获取,再对该横向特征与纵向特征进行重组处理,然后将重组后的空间特征信息提供给分割实例,可以更有助于提高实例分割的空间特征信息的准确性,从而可以提高实例分割任务的预测准确性。
可选地,该装置1600通过执行如下操作,获取该第一特征数据与该第二特征数据,如下操作中i的初始取值为1,N为正整数。
步骤S1,基于特征数据IF1_i获取空间特征信息X1。
步骤S2,基于特征数据IF2_i获取空间特征信息X2。
步骤S3,根据该特征数据IF1_i与该空间特征信息X2,获取特征数据OF1_i。
步骤S4,根据该特征数据IF2_i与该空间特征信息X1,获取特征数据OF2_i。
步骤S5,判断i的取值是否等于N,若否,转到步骤S6,若是,转到步骤S7。
步骤S6,将i的取值加1,并将特征数据OF1_(i-1)作为特征数据IF1_i,将特征数据OF2_(i-1)作为特征数据IF2_i,转到步骤S1。
步骤S7,将特征数据OF1_i作为该第一特征数据,将特征数据OF2_i作为该第二特征数据。
其中,当i的取值为1时,特征数据IF1_i为该第一种图像处理任务的原始特征数据,特征数据IF2_i为该第二种图像处理任务的原始特征数据。
在本申请实施例中,通过执行多轮目标检测与实例分割互相提供空间特征信息的操作,可以更好地使得目标检测与实例分割的特征数据得到校正,从而可以更大程度地使得目标检测与实例分割的预测结果一致,因此可以提高实例分割任务的预测准确度。
可选地,该第一种图像处理任务为目标检测任务,该第二种图像处理任务为实例分割任务;其中,该第二处理单元1660用于,使用检测框预测模型处理该第一特征数据,获得该第一特征数据的目标检测预测结果;其中,该第一处理单元1630用于,使用分割掩模预测模型处理该第二特征数据,获得该第二特征数据的分割掩膜预测结果。
其中,该分割掩模预测模型是利用检测辅助损失函数训练得到的,该检测辅助损失函数通过目标检测标签信息对该分割掩模预测模型的输出进行约束,其中,该目标检测标签信息用于训练该检测框预测模型。
在本申请实施例中,在训练分割掩模预测模型的过程中,通过使用目标检测标签信息来约束分割掩模预测模型的输出,可以提高分割掩模预测模型的模型准确性。
可选地,该检测辅助损失函数包括纵向检测辅助损失函数与横向检测辅助损失函数,其中,该纵向检测辅助损失函数通过该目标检测标签信息对该分割掩模预测模型输出的预测结果的纵向信息进行约束,该横向检测辅助损失函数通过该目标检测标签信息对该分割掩模预测模型输出的预测结果的横向信息进行约束。
在本申请实施例中,通过使用目标检测标签信息分别对分割掩模预测模型输出的分割掩模预测结果的横向信息和纵向信息进行约束,可以进一步提高分割掩模预测模型的性能。
可选地,该第二获取单元1620用于,通过使用卷积层处理该第二种图像处理任务的原始特征数据与该第一空间特征信息,获取该第二特征数据。
可选地,该第一获取单元1610用于:通过使用卷积层处理该目标检测任务的原始特征数据,获取该第三空间特征信息;通过使用池化层处理该第三空间特征信息,获取该横向特征信息与该纵向特征信息。
该装置1600可以集成在终端设备、网络设备或芯片上。
该装置1600可以部署在相关设备的计算节点上,通过接入该场景的视觉数据输入接口,能够为客户生成指定类别目标的像素级精准定位解决方案。
如图17所示,本申请实施例还提供一种图像处理的装置1700。装置1700包括如下单元。
输入单元1710,用于将待处理图像数据输入分割掩模预测模型。
处理单元1720,用于使用该分割掩模预测模型,获得该待处理图像数据的分割掩模预测结果。
其中,该分割掩模预测模型是利用检测辅助损失函数训练得到的,该检测辅助损失函数通过目标检测标签信息对该分割掩模预测模型的输出进行约束。
在本申请实施例中,在训练分割掩模预测模型的过程中,通过使用目标检测标签信息来约束分割掩模预测模型的输出,可以提高分割掩模预测模型的模型准确性。
可选地,该检测辅助损失函数包括纵向检测辅助损失函数与横向检测辅助损失函数,其中,该纵向检测辅助损失函数通过该目标检测标签信息对该分割掩模预测模型输出的预测结果的纵向信息进行约束,该横向检测辅助损失函数通过该目标检测标签信息对该分割掩模预测模型输出的预测结果的横向信息进行约束。
在本申请实施例中,通过使用目标检测标签信息分别对分割掩模预测模型输出的分割掩模预测结果的横向信息和纵向信息进行约束,可以进一步提高分割掩模预测模型的性能。
该装置1700可以集成在终端设备、网络设备或芯片上。
该装置1700可以部署在相关设备的计算节点上,通过接入该场景的视觉数据输入接口,能够为客户生成指定类别目标的像素级精准定位解决方案。
如图18所示,本申请实施例还提供一种图像处理的装置1800。装置1800包括如下单元。
获取单元1810,用于获取目标检测标签信息。
训练单元1820,用于利用检测辅助损失函数训练得到分割掩模预测模型,其中,该检测辅助损失函数通过该目标检测标签信息对该分割掩模预测模型的输出进行约束。
在本申请实施例中,在训练分割掩模预测模型的过程中,通过使用目标检测标签信息来约束分割掩模预测模型的输出,可以提高分割掩模预测模型的模型准确性。
可选地,该检测辅助损失函数包括纵向检测辅助损失函数与横向检测辅助损失函数,其中,该纵向检测辅助损失函数通过该目标检测标签信息对该分割掩模预测模型输出的预测结果的纵向信息进行约束,该横向检测辅助损失函数通过该目标检测标签信息对该分割掩模预测模型输出的预测结果的横向信息进行约束。
应理解,通过使用目标检测标签信息分别对分割掩模预测模型输出的分割掩模预测结果的横向信息和纵向信息进行约束,可以进一步提高分割掩模预测模型的性能。
该装置1800可以集成在终端设备、网络设备或芯片上。
如图19所示,本申请实施例还提供一种图像处理的装置1900。该装置1900包括处理器1910,处理器1910与存储器1920耦合,存储器1920用于存储计算机程序或指令,处理器1910用于执行存储器1920存储的计算机程序或指令,使得上文方法实施例中的方法被执行。
可选地,如图19所示,该装置1900还可以包括存储器1920。
可选地,如图19所示,该装置1900还可以包括数据接口1930,数据接口1930用于与外界进行数据的传输。
可选地,作为一种方案,该装置1900用于实现上文实施例中的方法300。
可选地,作为另一种方案,该装置1900用于实现上文实施例中的方法600。
可选地,作为又一种方案,该装置1900用于实现上文实施例中的方法700。
可选地,作为又一种方案,该装置1900用于实现上文实施例中的方法800。
本申请实施例还提供一种计算机可读介质,该计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行上述实施例的方法。
本申请实施例还提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述实施例的方法。
本申请实施例还提供一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,执行上述实施例的方法。
可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行上述实施例中的方法。
本申请实施例还提供一种电子设备,该电子设备包括上述实施例中的装置900、装置1100、装置1200、***1300、装置1500、装置1600、装置1700或中的任一种或多种。
图20为本申请实施例提供的一种芯片硬件结构,该芯片上包括神经网络处理器2000。该芯片可以被设置在如下任一种或多种装置或***中:
如图9所示的装置900、如图11所示的装置1100、如图12中所示的装置1200、如图13中所示的***1300、如图16中所示的装置1600、如图17中所示的装置1700、如图18中所示的装置1800、如图19中所示的装置1900。
上文方法实施例中的方法300、600、700或800均可在如图20所示的芯片中得以实现。
神经网络处理器2000作为协处理器挂载到主处理器(Host CPU)上,由主CPU分配任务。神经网络处理器2000的核心部分为运算电路2003,控制器2004控制运算电路2003获取存储器(权重存储器2002或输入存储器2001)中的数据并进行运算。
在一些实现中,运算电路2003内部包括多个处理单元(process engine,PE)。在一些实现中,运算电路2003是二维脉动阵列。运算电路2003还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路2003是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路2003从权重存储器2002中取矩阵B相应的数据,并缓存在运算电路2003中每一个PE上。运算电路2003从输入存储器2001中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)2008中。
向量计算单元2007可以对运算电路2003的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。例如,向量计算单元2007可以用于神经网络中非卷积/非FC层的网络计算,如池化(pooling),批归一化(batch normalization),局部响应归一化(local response normalization)等。
在一些实现种,向量计算单元能2007将经处理的输出的向量存储到统一存储器(也可称为统一缓存器)2006。例如,向量计算单元2007可以将非线性函数应用到运算电路2003的输出,例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元2007生成归一化的值、合并值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路2003的激活输入,例如用于在神经网络中的后续层中的使用。
上文方法实施例中的方法300、600、700或800可以由2003或2007执行。
统一存储器2006用于存放输入数据以及输出数据。
权重数据直接通过存储单元访问控制器2005(direct memory accesscontroller,DMAC)将外部存储器中的输入数据搬运到输入存储器2001和/或统一存储器2006、将外部存储器中的权重数据存入权重存储器2002,以及将统一存储器2006中的数据存入外部存储器。
总线接口单元(bus interface unit,BIU)2010,用于通过总线实现主CPU、DMAC和取指存储器2009之间进行交互。
与控制器2004连接的取指存储器(instruction fetch buffer)2009,用于存储控制器2004使用的指令;
控制器2004,用于调用指存储器2009中缓存的指令,实现控制该运算加速器的工作过程。
在本申请实施例中,这里的数据可以是待处理的图像数据。
一般地,统一存储器2006,输入存储器2001,权重存储器2002以及取指存储器2009均为片上(On-Chip)存储器,外部存储器为该NPU外部的存储器,该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random accessmemory,DDR SDRAM)、高带宽存储器(high bandwidth memory,HBM)或其他可读可写的存储器。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
需要说明的是,本文中涉及的第一、第二、第三或第四等各种数字编号仅为描述方便进行的区分,并不用来限制本申请实施例的范围。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(USB flash disk,UFD)(UFD也可以简称为U盘或者优盘)、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(randomaccess memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (14)
1.一种图像处理的方法,其特征在于,包括:
基于第一种图像处理任务的原始特征数据获取第一空间特征信息;
通过使用卷积层处理第二种图像处理任务的原始特征数据与所述第一空间特征信息,获取第二特征数据;
对所述第二特征数据进行第二种图像处理,获得所述第二种图像处理任务的处理结果;
其中,所述第一种图像处理任务与所述第二种图像处理任务分别为目标检测任务与实例分割任务中的一种与另一种;
其中,所述第一种图像处理任务的原始特征数据与所述第二种图像处理任务的原始特征数据,均是基于待处理图像数据获取的。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述第二种图像处理任务的原始特征数据获取第二空间特征信息;
根据所述第一种图像处理任务的原始特征数据与所述第二空间特征信息,获取第一特征数据;
对所述第一特征数据进行第一种图像处理,获得所述第一种图像处理任务的处理结果。
3.根据权利要求1或2所述的方法,其特征在于,所述第一种图像处理任务为目标检测任务,所述第二种图像处理任务为实例分割任务;
其中,所述基于第一种图像处理任务的原始特征数据获取第一空间特征信息,包括:
基于所述目标检测任务的原始特征数据获取第三空间特征信息;
根据所述第三空间特征信息,分别获取横向特征信息与纵向特征信息;
重组所述横向特征信息与所述纵向特征信息,获取所述第一空间特征信息。
4.根据权利要求2所述的方法,其特征在于,所述获取第二特征数据,以及所述获取第一特征数据,包括:
通过执行如下操作,获取所述第一特征数据与所述第二特征数据,如下操作中i的初始取值为1,N为正整数:
步骤S1,基于特征数据IF1_i获取空间特征信息X1;
步骤S2,基于特征数据IF2_i获取空间特征信息X2;
步骤S3,根据所述特征数据IF1_i与所述空间特征信息X2,获取特征数据OF1_i;
步骤S4,根据所述特征数据IF2_i与所述空间特征信息X1,获取特征数据OF2_i;
步骤S5,判断i的取值是否等于N,
若否,将i的取值加1,并将特征数据OF1_(i-1)作为特征数据IF1_i,将特征数据OF2_(i-1)作为特征数据IF2_i,转到步骤S1,
若是,将特征数据OF1_i作为所述第一特征数据,将特征数据OF2_i作为所述第二特征数据;
其中,当i的取值为1时,特征数据IF1_i为所述第一种图像处理任务的原始特征数据,特征数据IF2_i为所述第二种图像处理任务的原始特征数据。
5.根据权利要求2或4所述的方法,其特征在于,所述第一种图像处理任务为目标检测任务,所述第二种图像处理任务为实例分割任务;
其中,所述对所述第一特征数据执行第一种图像处理任务,包括:
使用检测框预测模型处理所述第一特征数据,获得所述第一特征数据的目标检测预测结果;
其中,所述对所述第二特征数据进行第二种图像处理,获得所述第二种图像处理任务的处理结果,包括:
使用分割掩模预测模型处理所述第二特征数据,获得所述第二特征数据的分割掩膜预测结果,
其中,所述分割掩模预测模型是利用检测辅助损失函数训练得到的,所述检测辅助损失函数通过目标检测标签信息对所述分割掩模预测模型的输出进行约束,其中,所述目标检测标签信息用于训练所述检测框预测模型。
6.根据权利要求5所述的方法,其特征在于,所述检测辅助损失函数包括纵向检测辅助损失函数与横向检测辅助损失函数,
其中,所述纵向检测辅助损失函数通过所述目标检测标签信息对所述分割掩模预测模型输出的预测结果的纵向信息进行约束,所述横向检测辅助损失函数通过所述目标检测标签信息对所述分割掩模预测模型输出的预测结果的横向信息进行约束。
7.根据权利要求3所述的方法,其特征在于,所述基于所述目标检测任务的原始特征数据获取第三空间特征信息,包括:
通过使用卷积层处理所述目标检测任务的原始特征数据,获取所述第三空间特征信息;
所述根据所述第三空间特征信息,分别获取横向特征信息与纵向特征信息,包括:
通过使用池化层处理所述第三空间特征信息,获取所述横向特征信息与所述纵向特征信息。
8.一种图像处理的方法,其特征在于,包括:
将待处理图像数据输入分割掩模预测模型;
使用所述分割掩模预测模型,获得所述待处理图像数据的分割掩模预测结果,
其中,所述分割掩模预测模型是利用检测辅助损失函数训练得到的,所述检测辅助损失函数通过目标检测标签信息对所述分割掩模预测模型的输出进行约束,所述目标检测标签信息用于训练检测框预测模型。
9.根据权利要求8所述的方法,其特征在于,所述检测辅助损失函数包括纵向检测辅助损失函数与横向检测辅助损失函数,
其中,所述纵向检测辅助损失函数通过所述目标检测标签信息对所述分割掩模预测模型输出的预测结果的纵向信息进行约束,所述横向检测辅助损失函数通过所述目标检测标签信息对所述分割掩模预测模型输出的预测结果的横向信息进行约束。
10.一种图像处理的方法,其特征在于,包括:
获取目标检测标签信息;
利用检测辅助损失函数训练得到分割掩模预测模型,其中,所述检测辅助损失函数通过所述目标检测标签信息对所述分割掩模预测模型的输出进行约束,所述目标检测标签信息用于训练检测框预测模型。
11.根据权利要求10所述的方法,其特征在于,所述检测辅助损失函数包括纵向检测辅助损失函数与横向检测辅助损失函数,
其中,所述纵向检测辅助损失函数通过所述目标检测标签信息对所述分割掩模预测模型输出的预测结果的纵向信息进行约束,所述横向检测辅助损失函数通过所述目标检测标签信息对所述分割掩模预测模型输出的预测结果的横向信息进行约束。
12.一种图像处理的装置,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述存储器中存储的程序,当所述存储器中存储的程序被执行时,所述处理器用于执行权利要求1至11中任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读介质存储用于设备执行的程序代码,所述程序代码被执行时,所述设备执行权利要求1至11中任一项所述的方法。
14.一种芯片,其特征在于,包括至少一个处理器和数据接口;
所述至少一个所述处理器用于,通过所述数据接口调用并运行存储在存储器上的计算机程序,以使所述芯片执行权利要求1至11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010110152.2A CN111292331B (zh) | 2020-02-23 | 2020-02-23 | 图像处理的方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010110152.2A CN111292331B (zh) | 2020-02-23 | 2020-02-23 | 图像处理的方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111292331A CN111292331A (zh) | 2020-06-16 |
CN111292331B true CN111292331B (zh) | 2023-09-12 |
Family
ID=71025630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010110152.2A Active CN111292331B (zh) | 2020-02-23 | 2020-02-23 | 图像处理的方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111292331B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023143625A1 (en) * | 2022-01-31 | 2023-08-03 | Conova Medical Technology Limited | Process and system for three-dimensional modelling of tissue of a subject, and surgical planning process and system |
CN115908894A (zh) * | 2022-10-27 | 2023-04-04 | 中国科学院空天信息创新研究院 | 基于全景分割的光学遥感影像海洋筏式养殖区分类方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018121690A1 (zh) * | 2016-12-29 | 2018-07-05 | 北京市商汤科技开发有限公司 | 对象属性检测、神经网络训练、区域检测方法和装置 |
CN108256562A (zh) * | 2018-01-09 | 2018-07-06 | 深圳大学 | 基于弱监督时空级联神经网络的显著目标检测方法及*** |
CN108492301A (zh) * | 2018-03-21 | 2018-09-04 | 广东欧珀移动通信有限公司 | 一种场景分割方法、终端及存储介质 |
CN109584248A (zh) * | 2018-11-20 | 2019-04-05 | 西安电子科技大学 | 基于特征融合和稠密连接网络的红外面目标实例分割方法 |
US10304193B1 (en) * | 2018-08-17 | 2019-05-28 | 12 Sigma Technologies | Image segmentation and object detection using fully convolutional neural network |
CN109829877A (zh) * | 2018-09-20 | 2019-05-31 | 中南大学 | 一种视网膜眼底图像杯盘比自动评估方法 |
CN109934177A (zh) * | 2019-03-15 | 2019-06-25 | 艾特城信息科技有限公司 | 行人再识别方法、***及计算机可读存储介质 |
CN110276378A (zh) * | 2019-05-20 | 2019-09-24 | 杭州电子科技大学 | 基于无人驾驶技术对实例分割的改进方法 |
CN110349167A (zh) * | 2019-07-10 | 2019-10-18 | 北京悉见科技有限公司 | 一种图像实例分割方法及装置 |
CN110349138A (zh) * | 2019-06-28 | 2019-10-18 | 歌尔股份有限公司 | 基于实例分割框架的目标物体的检测方法及装置 |
CN110458172A (zh) * | 2019-08-16 | 2019-11-15 | 中国农业大学 | 一种基于区域对比度检测的弱监督图像语义分割方法 |
CN110532955A (zh) * | 2019-08-30 | 2019-12-03 | 中国科学院宁波材料技术与工程研究所 | 基于特征注意力和子上采样的实例分割方法和装置 |
WO2019233394A1 (zh) * | 2018-06-08 | 2019-12-12 | Oppo广东移动通信有限公司 | 图像处理方法和装置、存储介质、电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10713491B2 (en) * | 2018-07-27 | 2020-07-14 | Google Llc | Object detection using spatio-temporal feature maps |
-
2020
- 2020-02-23 CN CN202010110152.2A patent/CN111292331B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018121690A1 (zh) * | 2016-12-29 | 2018-07-05 | 北京市商汤科技开发有限公司 | 对象属性检测、神经网络训练、区域检测方法和装置 |
CN108256562A (zh) * | 2018-01-09 | 2018-07-06 | 深圳大学 | 基于弱监督时空级联神经网络的显著目标检测方法及*** |
CN108492301A (zh) * | 2018-03-21 | 2018-09-04 | 广东欧珀移动通信有限公司 | 一种场景分割方法、终端及存储介质 |
WO2019233394A1 (zh) * | 2018-06-08 | 2019-12-12 | Oppo广东移动通信有限公司 | 图像处理方法和装置、存储介质、电子设备 |
US10304193B1 (en) * | 2018-08-17 | 2019-05-28 | 12 Sigma Technologies | Image segmentation and object detection using fully convolutional neural network |
CN109829877A (zh) * | 2018-09-20 | 2019-05-31 | 中南大学 | 一种视网膜眼底图像杯盘比自动评估方法 |
CN109584248A (zh) * | 2018-11-20 | 2019-04-05 | 西安电子科技大学 | 基于特征融合和稠密连接网络的红外面目标实例分割方法 |
CN109934177A (zh) * | 2019-03-15 | 2019-06-25 | 艾特城信息科技有限公司 | 行人再识别方法、***及计算机可读存储介质 |
CN110276378A (zh) * | 2019-05-20 | 2019-09-24 | 杭州电子科技大学 | 基于无人驾驶技术对实例分割的改进方法 |
CN110349138A (zh) * | 2019-06-28 | 2019-10-18 | 歌尔股份有限公司 | 基于实例分割框架的目标物体的检测方法及装置 |
CN110349167A (zh) * | 2019-07-10 | 2019-10-18 | 北京悉见科技有限公司 | 一种图像实例分割方法及装置 |
CN110458172A (zh) * | 2019-08-16 | 2019-11-15 | 中国农业大学 | 一种基于区域对比度检测的弱监督图像语义分割方法 |
CN110532955A (zh) * | 2019-08-30 | 2019-12-03 | 中国科学院宁波材料技术与工程研究所 | 基于特征注意力和子上采样的实例分割方法和装置 |
Non-Patent Citations (1)
Title |
---|
融合深度扩张网络和轻量化网络的目标检测模型;权宇等;《电子学报》;20200228;第48卷(第2期);第390-397页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111292331A (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160379B (zh) | 图像检测模型的训练方法及装置、目标检测方法及装置 | |
US20220230282A1 (en) | Image processing method, image processing apparatus, electronic device and computer-readable storage medium | |
CN111402130B (zh) | 数据处理方法和数据处理装置 | |
CN107909026B (zh) | 基于小规模卷积神经网络年龄和/或性别评估方法及*** | |
KR101896357B1 (ko) | 객체를 검출하는 방법, 디바이스 및 프로그램 | |
CN110084299B (zh) | 基于多头融合注意力的目标检测方法和装置 | |
CN111931764B (zh) | 一种目标检测方法、目标检测框架及相关设备 | |
CN114359851A (zh) | 无人驾驶目标检测方法、装置、设备及介质 | |
CN107944403B (zh) | 一种图像中的行人属性检测方法及装置 | |
CN110176024B (zh) | 在视频中对目标进行检测的方法、装置、设备和存储介质 | |
CN108876813B (zh) | 用于视频中物体检测的图像处理方法、装置及设备 | |
CN111524145A (zh) | 图片智能裁剪方法、***、计算机设备及存储介质 | |
CN110991560A (zh) | 一种结合上下文信息的目标检测方法及*** | |
CN111292377B (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN111292331B (zh) | 图像处理的方法与装置 | |
CN112926461B (zh) | 神经网络训练、行驶控制方法及装置 | |
Farag | A lightweight vehicle detection and tracking technique for advanced driving assistance systems | |
CN114155365A (zh) | 模型训练方法、图像处理方法及相关装置 | |
CN111488930A (zh) | 分类网络的训练方法、目标检测方法、装置和电子设备 | |
CN117157679A (zh) | 感知网络、感知网络的训练方法、物体识别方法及装置 | |
CN115909445A (zh) | 人脸图像伪造检测方法及相关设备 | |
CN116310688A (zh) | 基于级联融合的目标检测模型及其构建方法、装置及应用 | |
CN113139419B (zh) | 一种无人机检测方法及装置 | |
CN111709377B (zh) | 特征提取方法、目标重识别方法、装置及电子设备 | |
CN114972492A (zh) | 一种基于鸟瞰图的位姿确定方法、设备和计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220211 Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province Applicant after: Huawei Cloud Computing Technologies Co.,Ltd. Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Applicant before: HUAWEI TECHNOLOGIES Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |