CN116977359A - 图像处理方法、装置、设备、可读存储介质及程序产品 - Google Patents
图像处理方法、装置、设备、可读存储介质及程序产品 Download PDFInfo
- Publication number
- CN116977359A CN116977359A CN202211462468.3A CN202211462468A CN116977359A CN 116977359 A CN116977359 A CN 116977359A CN 202211462468 A CN202211462468 A CN 202211462468A CN 116977359 A CN116977359 A CN 116977359A
- Authority
- CN
- China
- Prior art keywords
- image
- foreground
- prediction
- enhancement
- difference data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 31
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 230000011218 segmentation Effects 0.000 claims abstract description 188
- 238000000034 method Methods 0.000 claims abstract description 139
- 238000012545 processing Methods 0.000 claims abstract description 111
- 230000008569 process Effects 0.000 claims abstract description 69
- 238000002372 labelling Methods 0.000 claims description 86
- 230000009466 transformation Effects 0.000 claims description 59
- 239000003550 marker Substances 0.000 claims description 32
- 238000004891 communication Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 238000005520 cutting process Methods 0.000 claims description 8
- 238000005192 partition Methods 0.000 claims description 6
- 238000005429 filling process Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 abstract description 53
- 238000005516 engineering process Methods 0.000 abstract description 33
- 238000013473 artificial intelligence Methods 0.000 abstract description 17
- 230000006870 function Effects 0.000 description 41
- 238000004364 calculation method Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 241000282326 Felis catus Species 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 239000004973 liquid crystal related substance Substances 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 5
- 238000007689 inspection Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 239000003086 colorant Substances 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003313 weakening effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提出了一种图像处理方法、装置、设备、可读存储介质及程序产品,可应用于云技术、人工智能、图像识别、车载等领域或场景,该方法包括:获取待处理图像,待处理图像包括第一前景对象;调用实例分割模型对待处理图像进行处理,得到第一前景对象对应的前景掩码、前景类别和前景位置标记框;根据第一前景对象对应的前景掩码、前景类别和前景位置标记框,确定待处理图像的实例分割结果。实例分割模型是基于利用样本数据确定的弱增强差异数据、强增强差异数据和对比差异数据训练得到的,样本数据包括弱增强图像以及对应的标注信息、强增强图像以及对应的标注信息。通过本申请实施例,可以提高实例分割模型的训练效率和预测准确性。
Description
技术领域
本申请涉及计算机技术领域,具体涉及图像处理方法、图像处理装置、计算机设备、计算机可读存储介质以及计算机程序产品。
背景技术
图像实例分割能够获得比目标定位框更加精确的像素级定位信息,在机器人抓取、工业质检等方面有着不可替代的作用。然而,基于全监督的实例分割训练需要像素级的标注信息,而像素级的标注信息的标注效率极低,从而导致训练实例分割模型的整体工作量较大。因此,如何提高实例分割模型的训练效率和预测准确性,是目前亟需解决的问题。
发明内容
本申请提供了一种图像处理方法、装置、设备、可读存储介质及程序产品,可以提高实例分割模型的训练效率和预测准确性。
第一方面,本申请提供了一种图像处理方法,该方法包括:
获取待处理图像,上述待处理图像包括第一前景对象;
调用实例分割模型对上述待处理图像进行处理,得到上述第一前景对象对应的前景掩码、前景类别和前景位置标记框;
根据上述第一前景对象对应的前景掩码、前景类别和前景位置标记框,确定上述待处理图像的实例分割结果;
其中,上述实例分割模型是基于利用样本数据确定的弱增强差异数据、强增强差异数据和对比差异数据训练得到的,上述样本数据包括弱增强图像、强增强图像、上述弱增强图像中的第二前景对象的标注信息和上述强增强图像中的第二前景对象的标注信息;上述弱增强差异数据是根据上述第二前景对象的第一预测前景掩码、第一预测前景类别、第一预测前景位置标记框和上述弱增强图像中的第二前景对象的标注信息确定的;上述强增强差异数据是根据上述第二前景对象的第二预测前景掩码、第二预测前景类别、第二预测前景位置标记框和上述强增强图像中的第二前景对象的标注信息确定的;上述对比差异数据是根据第一局部预测前景掩码对应的参考区域划分类别以及第二局部预测前景掩码对应的预测区域划分类别确定的,上述第一局部预测前景掩码和上述第二局部预测前景掩码是上述弱增强图像和上述强增强图像中的公共区域图像对应的前景掩码。
第二方面,本申请提供了一种图像处理装置,该装置包括:
获取模块,用于获取待处理图像,上述待处理图像包括第一前景对象;
处理模块,用于调用实例分割模型对上述待处理图像进行处理,得到上述第一前景对象对应的前景掩码、前景类别和前景位置标记框;
输出模块,用于根据上述第一前景对象对应的前景掩码、前景类别和前景位置标记框,确定上述待处理图像的实例分割结果;
其中,上述实例分割模型是基于利用样本数据确定的弱增强差异数据、强增强差异数据和对比差异数据训练得到的,上述样本数据包括弱增强图像、强增强图像、上述弱增强图像中的第二前景对象的标注信息和上述强增强图像中的第二前景对象的标注信息;上述弱增强差异数据是根据上述第二前景对象的第一预测前景掩码、第一预测前景类别、第一预测前景位置标记框和上述弱增强图像中的第二前景对象的标注信息确定的;上述强增强差异数据是根据上述第二前景对象的第二预测前景掩码、第二预测前景类别、第二预测前景位置标记框和上述强增强图像中的第二前景对象的标注信息确定的;上述对比差异数据是根据第一局部预测前景掩码对应的参考区域划分类别以及第二局部预测前景掩码对应的预测区域划分类别确定的,上述第一局部预测前景掩码和上述第二局部预测前景掩码是上述弱增强图像和上述强增强图像中的公共区域图像对应的前景掩码。
第三方面,本申请提供了一种计算机设备,包括:处理器、存储装置和通信接口,上述处理器、上述通信接口和上述存储装置相互连接,其中,上述存储装置存储有可执行程序代码,上述处理器用于调用上述可执行程序代码,用以实现上述的图像处理方法。
第四方面,本申请提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序包括程序指令,上述程序指令被处理器执行,用以实现如上述的图像处理方法。
第五方面,本申请提供了一种计算机程序产品,上述计算机程序产品包括计算机程序或计算机指令,上述计算机程序或计算机指令被处理器执行,用以实现上述的图像处理方法。
本申请中的实例分割模型可以输出待检测图像的前景掩码、前景类别和前景位置标记框等多种维度的特征信息,提高了识别结果的数据丰富度,从而基于实例分割模型进行更精细化的、像素级别的图像识别任务。实例分割模型是利用通过弱增强图像、强增强图像确定的弱增强差异数据、强增强差异数据和对比差异数据训练得到的。通过引入弱增强图像和强增强图像中公共区域图像的预测掩膜的对比学习策略,约束两种增强图像在高层语义特征的一致性,显著提升了实例分割模型的实例分割能力和预测准确性。基于多维度的差异数据对实例分割模型进行训练,提升了训练效率和训练的稳定性,进而提升了实例分割模型的预测精度和预测准确性。同时,在进行数据标注时,弱增强图像的部分标注信息能够复用到强增强图像,并且不需要进行像素级的掩膜标注,极大地提高了标注效率,进而提高实例分割模型的训练效率。由于弱增强图像和强增强图像中包括同一前景对象,将弱增强图像和强增强图像作为样本对训练实例分割模型,提升了对比学习阶段数据的多样性,进一步提升了模型的泛化能力。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的一种图像处理***的架构示意图;
图2是本申请一个示例性实施例提供的一种图像处理方法的流程示意图;
图3是本申请一个示例性实施例提供的另一种图像处理方法的流程示意图;
图4A是本申请一个示例性实施例提供的一种图像增强处理的流程示意图;
图4B是本申请一个示例性实施例提供的一种公共区域前景掩码提取的流程示意图;
图4C是本申请一个示例性实施例提供的一种投影处理的示意图;
图4D是本申请一个示例性实施例提供的一种计算颜色差异值的示意图;
图4E是本申请一个示例性实施例提供的一种确定差异数据的流程示意图;
图5是本申请一个示例性实施例提供的一种图像处理装置的示意框图;
图6是本申请一个示例性实施例提供的一种计算机设备的示意框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的,而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。
为了更好地理解本申请实施例的方案,下面先对本申请实施例可能涉及的相关术语和概念进行介绍。
GT(Ground Truth):指真值,即标注信息。
MLP(Multiple Layer Perceptron):指多层感知机。
FFN(Feed-Forward Network):指前馈神经网络。
NMS(Non-maximum Suppression):指非极大值抑制。
GIOU(Generalized Intersection over Union):指广义交并比。
本发明实施例可应用于云计算、云物联、云游戏、人工智能、图像识别、车载场景、智慧交通、辅助驾驶、工业质检等各种领域或场景,下面将对几个典型领域或场景进行介绍。
云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。本申请可以将实例分割结果等数据存储于云服务器上,当需要使用上述不同数据时,可以在云服务器上直接获取,极大地提高了数据获取速度。
智能交通***(Intelligent Traffic System,ITS)又称智能运输***(Intelligent Transportation System),是将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造,加强车辆、道路、使用者三者之间的联系,从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输***。
智能车路协同***(Intelligent Vehicle Infrastructure CooperativeSystems,IVICS),简称车路协同***,是智能交通***(ITS)的一个发展方向。车路协同***是采用先进的无线通信和新一代互联网等技术,全方位实施车车、车路动态实时信息交互,并在全时空动态交通信息采集与融合的基础上开展车辆主动安全控制和道路协同管理,充分实现人车路的有效协同,保证交通安全,提高通行效率,从而形成的安全、高效和环保的道路交通***。本申请可以应用于上述领域,例如在自动驾驶场景下通过实时采集路况图像,利用本申请的实例分割方法高效、准确地识别路况图像中的各个实例对象,例如车辆、行人、障碍物等,并基于识别结果实现相应的避险操作,提高了自动驾驶的安全稳定,保证了交通安全。
本申请也涉及人工智能(Artificial Intelligence,AI)领域,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等几大方向。本申请实施例提供的方案涉及人工智能技术下属的机器学习等技术,下面将对此进行叙述。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请主要涉及机器学习技术中的归纳学习技术,归纳学习技术旨在从大量的经验数据中归纳抽取出一般的判定规则和模式,是从特殊情况推导出一般规则的学习方法。具体来说,本申请提出的方法通过样本数据中的弱增强图像、强增强图像,对初始实例分割网络进行训练,得到实例分割模型,使得实例分割模型能够进行图像的实例分割任务。当获取到任一待处理图像,即可利用实例分割模型对其进行处理,得到待处理图像中的前景掩码、前景类别和前景位置标记框等实例分割结果。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。具体来说,本申请提出的方法融合图像处理、图像识别、图像语义理解等技术,使得实例分割模型可以高效、准确地处理各种类型的实例分割任务。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、3D游戏等。随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
图像实例分割能够获得比目标定位框更加精确的像素级定位信息,在机器人抓取、工业质检等方面有着不可替代的作用。然而,基于全监督的实例分割训练需要像素级的标注信息,而像素级的标注信息的标注效率极低,其人工标注效率甚至不到定位框标注效率的1/10,显然在大数据时代是十分低效的。本申请首先提出利用目标定位框去估计目标掩膜,也即是一种基于目标框监督的弱监督实例分割方法。通过像素对亲和损失函数进行模型的训练,但是像素对亲和损失函数仅利用低层特征,即通过颜色信息作为两个像素的是否为同一类别,限制了模型在复杂场景下的分割能力,比如同类别物体间互相遮挡,背景与前景颜色相似时会失效。因此,需要通过引入高层语义约束在一定程度上改善弱监督分割性能。
基于此,本申请将通过同一图像生成的弱增强图像和强增强图像作为训练样本数据,通过引入弱增强图像和强增强图像中公共区域的预测掩膜的对比学习策略,约束同一图像对应的两种不同数据变换的高层语义特征的一致性,在前向推理计算量不增加的条件下,显著提升了实例分割模型的实例分割能力。
本申请的创新点主要在于以下几点:第一点,是首次在弱监督实例分割中引入对比学习作为高层语义监督信息,弥补了仅利用低层语义导致的误分割问题。第二点是,通过目标依赖(即随机裁剪的两个部分图像中均包括前景对象)的图像随机裁切,不仅提升了对比学习数据的多样性,进一步提升了模型的泛化能力,而且避免了随机裁切带来过多无效数据的问题。第三点是,通过改进型Mask2Former(一种用于图像分割任务的统一的分割架构)作为实例分割模型的基础网络,同时新增检测框的预测能力,提升了数据的利用效能。第四点是,通过改进的像素级InfoNCE(一种对比损失函数)作为预测区域中的不确定性区域的对比损失函数,提升了训练效率和训练的稳定性。本申请可以灵活应用于实例分割数据辅助标注,以及工业AI缺陷质检等领域。
可以理解的是,在本申请的具体实施方式中,涉及到待处理图像、样本数据等相关的数据,当本申请以上实施例运用到具体产品或技术中时,相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本申请将具体通过如下实施例进行说明:
请参阅图1,该图是本申请一个示例性实施例提供的一种图像处理***的架构示意图。图像处理***具体可以包括终端设备101和服务器102。其中,终端设备101和服务器102之间通过网络连接,比如,通过局域网、广域网、移动互联网等连接。操作对象在终端设备101的浏览器或者客户端应用上进行操作,对对待处理图像进行处理。服务器102可以响应于该操作,为操作对象提供各种与图像处理相关的服务。
在一实施例中,当终端设备101需要获取待处理图像的实例分割结果时,可以将待处理图像发送给服务器102;服务器102在获取到待处理图像后,调用实例分割模型对待处理图像进行处理,得到第一前景对象对应的前景掩码、前景类别和前景位置标记框,并根据第一前景对象对应的前景掩码、前景类别和前景位置标记框生成待处理图像的实例分割结果;服务器102最后可以将实例分割结果返回给终端设备101。
在一实施例中,终端设备101可以将用于训练实例分割模型的弱增强图像和强增强图像发送给服务器102;服务器102可以调用初始实例分割网络对样本数据中的弱增强图像进行图像识别处理,得到弱增强图像中的第二前景对象的第一预测结果;服务器102同时调用初始实例分割网络对样本数据中的强增强图像进行图像识别处理,得到强增强图像中的第二前景对象的第二预测结果;服务器102基于第一预测前景掩码以及公共区域图像确定参考区域划分类别,并基于第二预测前景掩码以及公共区域图像确定预测区域划分类别;服务器102最后根据第一预测结果、弱增强图像的标注信息、第二预测结果、强增强图像的标注信息、参考区域划分类别以及预测区域划分类别,对初始实例分割网络的网络参数进行调整,得到实例分割模型。基于此,服务器102完成实例分割模型的构建。
终端设备101也称为终端(Terminal)、用户设备(user equipment,UE)、接入终端、用户单元、移动设备、用户终端、无线通信设备、用户代理或用户装置。终端设备可以是智能家电、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer,PC)、车载终端、智能语音交互设备、可穿戴设备或者其他智能装置等,但并不局限于此。
服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一实施例中,本申请提出的图像处理***的架构还可以包括数据库,数据库用于存储待处理图像、样本数据,还可以用于存储与实例分割模型相关的数据,这些数据在数据库中可以通过不同的数据库表格记录。例如,数据库可以是设于服务器中的数据库,即可以是服务器内置或自带的数据库;数据库也可以是与服务器相连接的外设数据库,例如云数据库(即部署在云端的数据库),具体可以基于私有云、公有云、混合云、边缘云等中的任一种部署,从而使得云数据库侧重的功能不同。例如部署在私有云中的数据库,基础云硬件是用户个人的设备,更侧重服务于小部分用户,而部署在公有云中的数据库,是基于第三方提供的云平台部署的,可以让数据库中存储的实现共享,任何用户的数据都可以存储至该数据库中,任何用户也可以使用数据库中的数据。
可以理解的是,本申请实施例描述的***的架构示意图是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定。例如,本申请实施例所提供的图像处理方法除了可以由服务器102执行,还可以由不同于服务器102且能够与终端设备101和/或服务器102通信的其他服务器或服务器集群执行。本领域普通技术人员可知,图1中的终端设备和服务器的数目仅仅是示意性的。根据业务实现需要,可以配置具有任意数目的终端设备和服务器。并且,随着***架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。在后续实施例中,将以终端设备指代上述终端设备101,以服务器指代上述服务器102,后续实施例中将不再赘述。
请参阅图2,该图是本申请一个示例性实施例提供的一种图像处理方法的流程示意图,以该方法应用于服务器(指代图1中的服务器102)为例进行说明,该方法可包括以下步骤:
S201、获取待处理图像,待处理图像包括第一前景对象。
本申请实施例中,待处理图像中可以包括前景区域和背景区域,第一前景对象所在的图像区域与前景区域相对应。例如待处理图像是一张前景区域为猫,背景区域为草地的图像,那么待处理图像中的第一前景对象即为猫。
S202、调用实例分割模型对待处理图像进行处理,得到第一前景对象对应的前景掩码、前景类别和前景位置标记框。
本申请实施例中,服务器通过将待处理图像输入到实例分割模型进行图像识别处理,从而得到待处理图像中第一前景对象对应的前景掩码、前景类别和前景位置标记框。前景掩码可以指示第一前景对象在待处理图像中的轮廓、形状、相对位置、相对大小等信息。前景类别可以指示第一待处理图像中的前景对象的类型(例如植物);前景位置标记框可以指示第一前景对象在待处理图像的相对位置、相对大小等信息(例如前景对象在待处理图像中所对应的外接矩形框)。
在一实施例中,实例分割模型可以先通过特征提取网络对待处理图像进行特征提取处理,得到用于表征待处理图像的整体图像特征的全局特征图,然后再对全局特征图进行识别处理,得到第一前景对象对应的前景掩码、前景类别和前景位置标记框。其中,前景掩码、前景类别和前景位置标记框可以分别基于各个类型对应的预测网络进行针对性的识别处理,进而得到上述多种类型的预测结果,从而提高识别的准确性。
S203、根据第一前景对象对应的前景掩码、前景类别和前景位置标记框,确定待处理图像的实例分割结果。
本申请实施例中,通过将第一前景对象对应的前景掩码、前景类别和前景位置标记框融合进实例分割结果,使得实例分割结果包含了针对第一前景对象的多种维度的特征信息,提高识别结果的数据丰富度,从而实现更精细化的、像素级别的图像识别任务。
示例性的,待处理图像是一张前景区域为猫,背景区域为草地的图像,通过实例分割模型对待处理图像进行实例分割处理,可以得到待处理图像的实例分割结果。在实例分割结果中,包括前景对象(即猫)对应的前景掩码(即猫在待处理图像中的轮廓、形状信息,可以理解为猫所在图像区域的预测掩膜)、前景类别(即前景类别为“猫”)和前景位置标记框(即在待处理图像中猫所在图像区域所对应的外接矩形框)。
在本申请中,实例分割模型是利用样本数据对初始实例分割网络训练得到的,样本数据包括弱增强图像、强增强图像、弱增强图像中的第二前景对象的标注信息和强增强图像中的第二前景对象的标注信息。由于弱增强图像和强增强图像中包括同一前景对象(也即是第二前景对象),使得弱增强图像和强增强图像针对前景对象具有特征一致性,将弱增强图像和强增强图像作为训练样本组进行初始实例分割网络的训练,从而保证了模型训练效果。在进行数据标注时,弱增强图像的部分标注信息能够复用到强增强图像,提高了标注效率。
具体而言,实例分割模型是基于利用样本数据确定的弱增强差异数据、强增强差异数据和对比差异数据训练得到的。本申请利用弱增强差异数据约束通过弱增强图像确定的实例分割结果与目标框真值的差异;利用强增强差异数据约束通过强增强图像确定的实例分割结果与目标框真值的差异,利用对比差异数据约束通过弱增强图像和强增强图像之间的公共区域图像确定的实例分割结果与真值的差异。基于多维度的差异数据对实例分割模型进行训练,提升了训练效率和训练的稳定性,进而提升了实例分割模型的预测精度和预测准确性。同时,基于本申请提出的方法,在数据标注时不需要进行像素级的掩膜标注,极大地提高了标注效率,进而提高实例分割模型的训练效率。
其中,弱增强差异数据是根据第二前景对象的第一预测前景掩码、第一预测前景类别、第一预测前景位置标记框和弱增强图像中的第二前景对象的标注信息确定的;强增强差异数据是根据第二前景对象的第二预测前景掩码、第二预测前景类别、第二预测前景位置标记框和强增强图像中的第二前景对象的标注信息确定的;对比差异数据是根据第一局部预测前景掩码对应的参考区域划分类别以及第二局部预测前景掩码对应的预测区域划分类别确定的,第一局部预测前景掩码和第二局部预测前景掩码是弱增强图像和强增强图像中的公共区域图像对应的前景掩码。通过弱增强差异数据、强增强差异数据和对比差异数据训练实例分割模型的实现方式将在后续实施例中详细叙述,本实施例不再赘述。
基于上述实施例,本申请的有益效果在于:本申请中的实例分割模型可以输出待检测图像的前景掩码、前景类别和前景位置标记框等多种维度的特征信息,提高了识别结果的数据丰富度,从而基于实例分割模型进行更精细化的、像素级别的图像识别任务。实例分割模型是利用通过弱增强图像、强增强图像确定的弱增强差异数据、强增强差异数据和对比差异数据训练得到的。通过引入弱增强图像和强增强图像中公共区域图像的预测掩膜的对比学习策略,约束两种增强图像在高层语义特征的一致性,显著提升了实例分割模型的实例分割能力和预测准确性。基于多维度的差异数据对实例分割模型进行训练,提升了训练效率和训练的稳定性,进而提升了实例分割模型的预测精度和预测准确性。同时,在进行数据标注时,弱增强图像的部分标注信息能够复用到强增强图像,并且不需要进行像素级的掩膜标注,极大地提高了标注效率,进而提高实例分割模型的训练效率。由于弱增强图像和强增强图像中包括同一前景对象,将弱增强图像和强增强图像作为样本对训练实例分割模型,保证了前景对象的特征一致性,提升了对比学习阶段数据的多样性,进一步提升了模型的泛化能力,同时避免了随机裁切带来过多无效数据的问题。
请参阅图3,该图是本申请一个示例性实施例提供的一种图像处理方法的流程示意图,以该方法应用于服务器(指代图1中的服务器102)为例进行说明,该方法可包括以下步骤:
S301、调用初始实例分割网络对样本数据中的弱增强图像进行图像识别处理,得到弱增强图像中的第二前景对象的第一预测结果。
本申请实施例中,样本数据中包括多个训练样本组,每个训练样本组中包括一个弱增强图像和一个强增强图像。由于弱增强图像和强增强图像针对前景对象具有特征一致性,通过各个训练样本组对初始实例分割网络进行成对图像的训练,可以保证了模型训练效果。在后续实施例中,将以模型训练阶段中的其中一个训练样本组(也即是弱增强图像和强增强图像)为例进行说明。
本申请实施例中,服务器首先从样本数据中获取弱增强图像,然后将弱增强图像输入到初始实例分割网络进行识别处理,得到弱增强图像中的第二前景对象的第一预测结果。其中,第一预测结果包括第一预测前景掩码、第一预测前景类别和第一预测前景位置标记框。第一预测结果用于结合弱增强图像的标注信息,确定弱增强图像对应的弱增强差异数据,并基于弱增强差异数据对初始实例分割网络的网络参数进行调整。
S302、调用初始实例分割网络对样本数据中的强增强图像进行图像识别处理,得到强增强图像中的第二前景对象的第二预测结果。
本申请实施例中,服务器从样本数据中获取强增强图像,然后将强增强图像输入到初始实例分割网络进行识别处理,得到强增强图像中的第二前景对象的第二预测结果。其中,第二预测结果包括第二预测前景掩码、第二预测前景类别和第二预测前景位置标记框。第二预测结果用于结合强增强图像的标注信息,确定强增强图像对应的强增强差异数据,并基于强增强差异数据对初始实例分割网络的网络参数进行调整。
需要说明的是,本申请中的初始实例分割网络中也可以包括两个分支网络,即弱增强分支网络和强增强分支网络,弱增强分支网络和强增强分支网络可以是孪生的实例分割网络,弱增强分支网络和强增强分支网络的网络。基于此,服务器通过调用初始实例分割网络中的弱增强分支网络对弱增强图像进行图像识别处理,得到弱增强图像中的第二前景对象的第一预测结果;服务器通过调用初始实例分割网络中的强增强分支网络对强增强图像进行图像识别处理,得到强增强图像中的第二前景对象的第二预测结果;服务器再基于第一预测结果和第二预测结果进行模型训练相关处理,最终得到训练后的实例分割模型。同样的,实例分割模型在对待处理图像进行处理时,可基于上述结构和方法进行相关图像识别处理,本实施例不再赘述。
在一实施例中,服务器可以基于原始图像生成对应的弱增强图像和强增强图像,并将弱增强图像和强增强图像作为样本数据。上述生成样本数据的方法可以根据以下步骤实现:
(a1)、获取原始图像,原始图像包括第二前景对象。
(a2)、对原始图像进行剪裁处理,得到第一局部图像和第二局部图像,第一局部图像和第二局部图像之间存在公共区域图像,公共区域图像包括第二前景对象。
在上述步骤(a1-a2)中,服务器首先获取原始图像,然后从原始图像中分别提取第一局部图像和第二局部图像,第一局部图像和第二局部图像之间具有重叠区域(也即是公共区域图像),重叠区域中包括第二前景对象。例如,原始图像是一张前景区域为猫,背景区域为草地的图像,服务器通过随机剪裁的方式得到第一局部图像和第二局部图像,并保证第一局部图像中包括猫以及一部分草地,保证第二局部图像中也包括猫以及另一部分草地。
本申请基于前景目标依赖的方法,从原始图像剪裁不同的局部图像,并通过弱增强处理和强增强处理生成对应的弱增强图像和强增强图像,保证弱增强图像和强增强图像中均包括第二前景对象,使得弱增强图像和强增强图像针对第二前景对象具有特征一致性。
在一实施例中,服务器可以通过设置比例阈值限制第一局部图像(或第二局部图像)中包括的第二前景对象对应的前景图像在第一局部图像(或第二局部图像)中的占比。例如比例阈值设置为1/4,此时表示第一局部图像(或第二局部图像)中包括的第二前景对象对应的前景图像的占比应该大于1/4。通过上述方法,避免了第一局部图像(或第二局部图像)中第二前景对象的图像占比较小导致的特征弱化,提高了第一局部图像(或第二局部图像)中前景区域的权重,从而保证了实例分割模型的训练效果。
(a3)、根据第一变换参数对第一局部图像进行图像变换处理,得到弱增强图像,以及根据第二变换参数对第二局部图像进行图像变换处理,得到强增强图像。
其中,第一变换参数用于对第一局部图像进行弱增强处理,弱增强处理包括图像镜像处理、图像缩放处理、图像旋转处理、图像裁剪处理、图像变形处理中的一种或多种;第二变换参数用于对第二局部图像进行强增强处理,强增强处理包括图像噪声处理、图像模糊处理、图像颜色变换处理、图像内容擦除处理、图像内容填充处理中的一种或多种,以及包括多种弱增强处理中的一种或多种。
数据增强在本申请中的对比学习阶段起着举足轻重的作用,其动机是同一张图像进行不同的扰动,语义层面上输出应该具有一致性。通过上述弱增强处理或强增强处理后,在像素上天然对齐。相比于弱增强图像而言,强增强图像在图像颜色方面也发生了变换。
(a4)、根据弱增强图像和强增强图像生成样本数据。
在上述步骤(a1-a4)中,本申请提出了目标依赖的随机裁切策略生成弱增强图像和强增强图像,从而适配目标实例分割与位置强相关的特性,上述方法有两个优点:第一点是,强增强图像和弱增强图像具有共同的前景对象和公共区域图像,避免了传统的随机裁切带来大量的无效数据;第二点是,两种不同的数据增强方式又具有不重合的图像区域,提升了对比学习中数据的多样性,能够进一步提升模型的泛化能力。
下面将通过图示对上述生成弱增强图像和强增强图像的过程进行介绍:请参见图4A,该图是本申请一个示例性实施例提供的一种图像增强处理的流程示意图。
(1)、以原始图像中的某一前景对象(例如原始图像中的鸟)为基准,围绕该前景对象随机裁剪两张具有公共交叠区域的图像,即第一局部图像和第二局部图像。例如图中第一次剪裁和第二次剪裁时对应的矩形框所示,两张图像中都包含了鸟这个前景对象。
(2)、以获取的任意一张局部图像(例如第一局部图像)进行弱增强处理,得到弱增强图像。本申请中弱增强处理可以是随机几何变换处理,包括随机水平翻转(RandomHFlip)、随机旋转(RandomRotate)、随机缩放(RandomResize)等。值得注意的是,单一的随机旋转(例如旋转90度)可能会在图像后续处理阶段带来其他问题,降低模型的训练效果。因此,如果使用随机旋转则需要结合随机水平翻转、随机缩放等处理一并执行。
(3)、以获取的另一张局部图像(例如第二局部图像)进行强增强处理,得到强增强图像。本申请中强增强处理除了使用随机几何变换处理,还可以在此基础上使用随机颜色变换处理,例如随机对比度(RandomContrast)、随机亮度(RandomBrightness)、随机饱和度(RandomSaturation)、随机模糊(RandomBlur)、随机高斯噪声(RandomNoise)等。
经过以上图像增强处理,就可以将两张变换后的弱增强图像和强增强图像作为图像对输入到初始实例分割网络去提取特征和预测分割结果,进而对初始实例分割网络进行训练。
其中,第一局部图像和第二局部图像的重叠部分即为本申请所提到的公共区域图像,公共区域图像中包括第二前景对象(即原始图像中的鸟)。
基于上述步骤(a1-a4),服务器可以通过第一变换参数和第二变换参数对原始图像的标注信息进行转换处理,从而得到弱增强图像的标注信息,以及强增强图像的标注信息。具体过程如下:
(b1)、确定原始图像的标注信息,原始图像的标注信息包括原始图像中的第二前景对象的参考前景类别和参考前景位置标记框。
(b2)、根据第一变换参数对原始图像中的第二前景对象的参考前景类别和参考前景位置标记框进行调整处理,得到弱增强图像的标注信息。
(b3)、根据第二变换参数对原始图像中的第二前景对象的参考前景类别和参考前景位置标记框进行调整处理,得到强增强图像的标注信息。
示例性的,假设原始图像中的第二前景对象的参考前景类别为猫,那么可以直接将弱增强图像的标注信息中的第一参考前景类别确定为猫。假设原始图像中的第二前景对象的参考前景位置标记框为(cx1,cy1,w1,h1),其中cx1,cy1为参考前景位置标记框的归一化中心点,w1,h1为该参考前景位置标记框的归一化宽度和高度,那么通过第一变换参数对该参考前景位置标记框进行调整,即可得到弱增强图像的标注信息中的第一参考前景位置标记框(cx2,cy2,w2,h2),其中cx2,cy2为基于第一变换参数调整后的参考前景位置标记框的归一化中心点,w1,h1为基于第一变换参数调整后的参考前景位置标记框的归一化宽度和高度。通过上述方法,提高弱增强图像和强增强图像的数据标注效率,从而提高了模型训练的整体效率。
基于本申请提出的方法,在数据标注时不需要进行像素级的掩膜标注,也即是说,在对原始图像进行标注时,只需要标注原始图像中第二前景对象对应的参考前景类别和参考前景位置标记框,而不需要标注原始图像中第二前景对象对应的参考前景掩码。因此极大地提高了标注效率,进而提高实例分割模型的训练效率。
下面将通过步骤S303-S304对服务器基于第一预测前景掩码以及公共区域图像确定参考区域划分类别,以及基于第二预测前景掩码以及公共区域图像确定预测区域划分类别的方法进行详细介绍:
S303、从第一预测前景掩码中提取公共区域图像对应的第一局部预测前景掩码,以及从第二预测前景掩码中提取公共区域图像对应的第二局部预测前景掩码。
本申请实施例中,公共区域图像是针对原始图像进行剪裁处理得到的第一局部图像和第二局部图像中重叠区域所对应的图像。服务器从第一预测前景掩码中提取公共区域图像对应的第一局部预测前景掩码,以及从第二预测前景掩码中提取公共区域图像对应的第二局部预测前景掩码,用于计算对比差异数据。
在一实施例中,上述从第一预测前景掩码中提取公共区域图像对应的第一局部预测前景掩码,可以根据以下步骤实现:
(c1)、根据第一变换参数对第一预测前景掩码进行逆变换处理,得到全局前景掩码,全局前景掩码与原始图像的大小相匹配。
(c2)、按照公共区域图像在原始图像中的位置参数,对全局前景掩码进行提取处理,得到公共区域图像对应的第一局部预测前景掩码。
其中,公共区域图像为弱增强图像对应的原始图像区域(也即是第一局部图像)和强增强图像对应的原始图像区域(也即是第二局部图像)之间的重叠区域的图像。
计算像素级的对比差异数据需要强增强图像和弱增强图像的公共区域图像的像素严格对应,通过使用了具有公共区域图像的不同图像块以提升数据多样性。因此,在网络输出中需要使用增强处理的逆变换,并结合公共区域图像裁切以得到严格对齐的掩膜。在上述步骤(c1-c2)中,服务器首先通过第一变换参数对第一预测前景掩码进行逆变换处理,得到与原始图像大小一致的全局前景掩码,然后再提取全局前景掩码中公共区域图像在原始图像的位置所对应的第一局部预测前景掩码。同理,基于第二预测前景掩码以及第二变换参数可以得到第二局部预测前景掩码,使得第一局部预测前景掩码和第二局部预测前景掩码在像素上严格对齐,基于像素严格对齐的第一局部预测前景掩码和第二局部预测前景掩码进行模型训练,可以提高模型训练效果。
需要说明的是,上述从第二预测前景掩码中提取公共区域图像对应的第二局部预测前景掩码的步骤,可参考上述步骤(c1-c2)中针对第一预测前景掩码进行处理的具体实现方法,本实施例不再赘述。
下面将通过图示对上述提取公共区域的前景掩码的过程进行介绍:请参见图4B,该图是本申请一个示例性实施例提供的一种公共区域前景掩码提取的流程示意图。下面将以第一预测前景掩码为例进行说明,首先判断第一预测前景掩码是否进行了图像变化;如果进行了图像变换(例如进行了水平翻转),那么进行逆变换处理(例如对图像进行一次水平翻转,回到原始状态),然后上采样到原图大小,得到全局前景掩码;如果没有进行图像变换,那么直接上采样到原图大小,得到全局前景掩码。此时,第一预测前景掩码已经经过逆变换处理且与原始图像的尺寸相匹配,因此,通过公共区域图像在原始图像中的位置参数,对全局前景掩码进行提取处理,得到公共区域图像对应的第一局部预测前景掩码,从而完成公共区域的提取操作。同样的,第二预测前景掩码基于上述公共区域提取犯法可以得到第二局部预测前景掩码,本实施例不再赘述。
经过上述步骤,弱增强图像对应的第一局部预测前景掩码记为Tw,强增强图像对应的第二局部预测前景掩码记为Ts。两者的维度都是d×h×w,其中,d表示设定的最大目标数(即预设的前景对象类别数量),默认取值100;h和w分别表示公共区域图像的宽度和高度。
S304、根据第一局部预测前景掩码确定参考区域划分类别,以及根据第二局部预测前景掩码确定预测区域划分类别。
本申请实施例中,服务器将根据第一局部预测前景掩码确定的参考区域划分类别作为根据第二局部预测前景掩码确定的预测区域划分类别的监督信息,通过参考区域划分类别和预测区域划分类别确定对比差异数据,从而进行模型的训练。上述方法的思想是,计算对比差异数据以弱增强分支作为伪真值(GT),通过强增强分支的输出拟合弱增强输出。
在一实施例中,上述根据第一局部预测前景掩码确定参考区域划分类别,以及根据第二局部预测前景掩码确定预测区域划分类别,可以根据以下步骤实现:
(d1)、根据第一局部预测前景掩码确定第一局部预测前景掩码中各个像素点的前景掩码置信度。
由于没有像素级监督信息,网络的预测值并不能反映真正的前景或者背景。因此,本申请使用了三区划分策略,即定义双阈值对弱增强分支对应的第一局部预测前景掩码进行处理,确定参考区域划分类别。原理是通过第一局部预测前景掩码对应的掩码分数图,将第一局部预测前景掩码划分为前景区域、背景区域和不确定区域。掩码分数图记为Sw:
Sw=sigmoid(Tw)
(d2)、根据置信度阈值和各个像素点的前景掩码置信度,确定各个像素点的参考区域划分类别。
在一实施例中,针对第一局部预测前景掩码中的任意一个像素点,当像素点的前景掩码置信度(即置信分数score)小于s1时,判定该像素点为背景区域;当像素点的前景掩码置信度大于s2时,判定该像素点为前景区域;当像素点的前景掩码置信度大于或等于s1且小于或等于s2时,判定该像素点为不确定区域。其中,s1可以取值0.3,s2可以取值为0.7。需要说明的是,上述双阈值的取值只是示例性的,在应用过程中应根据实际业务情况合理取值,本申请不对其进行限定。
(d3)、根据第二局部预测前景掩码确定第二局部预测前景掩码中各个像素点的前景掩码置信度。
(d4)、根据置信度阈值和第二局部预测前景掩码中各个像素点的前景掩码置信度,确定预测区域划分类别。
其中,上述步骤(d3-d4)为根据第二局部预测前景掩码确定预测区域划分类别。具体实现方式请参见步骤(d1-d2)中根据第一局部预测前景掩码确定参考区域划分类别的方法,本实施例不再赘述。
基于此,服务器可以上述获取到的第一预测结果、弱增强图像的标注信息、第二预测结果、强增强图像的标注信息、参考区域划分类别以及预测区域划分类别,对初始实例分割网络的网络参数进行调整,得到实例分割模型。下面将通过步骤S305-S308对上述调整初始实例分割网络的网络参数的方法进行详细介绍:
S305、根据弱增强图像的标注信息以及第一预测结果,确定弱增强图像对应的弱增强差异数据。
在本申请实施例中,弱增强图像的标注信息包括弱增强图像中的第二前景对象的第一参考前景类别和第一参考前景位置标记框。
在一实施例中,弱增强差异数据中包括弱增强目标分类差异数据、弱增强标记框回归差异数据、弱增强投影差异数据以及像素对亲和差异数据。上述根据弱增强图像的标注信息以及第一预测结果,确定弱增强图像对应的弱增强差异数据,可以根据以下步骤实现:
(e1)、根据第一预测前景类别和第一参考前景类别,确定弱增强目标分类差异数据。
其中,服务器将第一参考前景类别作为第一预测前景类别的监督信息,计算得到弱增强目标分类差异数据。弱增强目标分类差异数据可以是一种分类损失函数,例如交叉熵损失函数等。弱增强目标分类差异数据可以记为
(e2)、根据第一预测前景位置标记框和第一参考前景位置标记框,确定弱增强标记框回归差异数据。
其中,服务器将第一参考前景位置标记框作为第一预测前景位置标记框的监督信息,计算得到弱增强标记框回归差异数据。弱增强标记框回归差异数据可以是一种目标定位损失函数,例如均绝对误差(Mean Absolute Error,MAE)损失函数、广义交并比(Generalized Intersection over Union,GIOU)损失函数等。弱增强标记框回归差异数据可以记为
由于弱增强图像只有几何变换,且前景对象类别和前景对象标记框是已知的真值,因此,这两部分(即弱增强目标分类差异数据和弱增强标记框回归差异数据)可使用全监督损失函数。
(e3)、确定第一预测前景掩码对应的第一外接矩形框,根据第一外接矩形框和第一参考前景位置标记框,确定弱增强投影差异数据。
其中,服务器将第一参考前景位置标记框作为第一预测前景掩码对应的第一外接矩形框的监督信息,计算得到弱增强投影差异数据。简单来说,弱增强投影差异数据用于约束预测掩码所在的目标框应该与真值(GT)目标框一致。弱增强投影差异数据可以是一种投影损失函数,可以记为 的计算公式可以如下:
其中,为预测的实例掩码(也即是第一预测前景掩码),b是根据真值目标框(也即是根据第一参考前景位置标记框)生成的掩码。maxx(·)表示沿x方向求最大值(即将掩码映射到水平方向求最大值),maxy(·)表示沿y方向求最大值(即将掩码映射到垂直方向求最大值)。
请参见图4C,该图是本申请一个示例性实施例提供的一种投影处理的示意图。在图4C的左子图中,通过将某一图像对应的预测前景掩码沿x方向求最大值(即将掩码映射到水平方向求最大值),得到水平方向投影;将该图像对应的预测前景掩码沿y方向求最大值(即将掩码映射到垂直方向求最大值),得到垂直方向投影。通过上述方法,得到了在图4C的右子图中的根据预测前景掩码生成的矩形掩码,从而实现了根据第一预测前景掩码确定对应的第一外接矩形框。
(e4)、确定第一预测前景掩码中的掩码像素对的第一颜色差异值,以及确定弱增强图像中掩码像素对对应的图像像素对的第二颜色差异值,根据第一颜色差异值和第二颜色差异值,确定像素对亲和差异数据。
其中,服务器将图像像素对的第二颜色差异值作为掩码像素对的第一颜色差异值的监督信息,计算得到像素对亲和差异数据。像素对亲和差异数据的判断逻辑在于,在局部区域内(例如某一像素点相邻的八邻域),颜色相似度高的两个像素点应该属于相同的类别。
请参见图4D,该图是本申请一个示例性实施例提供的一种计算颜色差异值的示意图。以第一预测前景掩码为例,假设该图中的各个正方形区域为第一预测前景掩码中的各个像素点,针对第一预测前景掩码中的任意一个像素点(例如图中空心圆所在的正方形区域),获取与该像素点相邻的八邻域(例如图中8个实心圆所在的正方形区域),计算8个实心圆所在的正方形区域分别与空心圆所在的正方形区域的颜色差异值,作为第一颜色差异值。
在一实施例中,确定像素对亲和差异数据的具体实现方式可以如下:第一步,从第一预测前景掩码中确定掩码像素对,并根据掩码像素对中各个掩码像素点的前景掩码置信度确定掩码像素对的第一颜色差异值。第二步,从弱增强图像中确定掩码像素对对应的图像像素对,并根据图像像素对中各个图像像素点的像素值确定图像像素对的第二颜色差异值。第三步,根据第一颜色差异值和第二颜色差异值,确定像素对亲和损失,像素对亲和损失用于生成弱增强损失。
具体的,在第一步中,假设第一预测前景掩码中的两个掩码像素点对应的前景掩码置信度分别为0.7和0.8,通过计算第一颜色差异值确定两个掩码像素点对应的前景掩码置信度之间的差异度。在第二步中,首先确定两个掩码像素点对应在弱增强图像中的两个图像像素点,并获取他们的颜色参数(即像素值)。假设两个图像像素点对应的像素值分别为240和250,通过计算第二颜色差异值确定两个图像像素点对应的像素值之间的差异度。
像素对亲和差异数据可以是一种像素对亲和差异掩码损失函数,可以记为 的计算公式可以如下:
其中,Se表征第一颜色差异值,用于度量两个像素点(i,j)和(l,k)的颜色ci,j与cl,k的相似性;θ为超参数,可以设置为2;/>为指示函数,判断逻辑为如果Se≥τ则其值为1,否则取值为0;ye表征第二颜色差异值,N指边的数量,每一个边的权重对应两个像素点的颜色的相似性,如果两个像素点的颜色的相似性大于某一阈值,则认为边的值为1(即ye=1),如果两个像素点的颜色的相似性小于或等于某一阈值,则认为边的值为0(即ye=0)。
(e5)、根据弱增强目标分类差异数据、弱增强标记框回归差异数据、弱增强投影差异数据以及像素对亲和差异数据,确定弱增强差异数据。
本申请实施例中,通过上述各个损失函数的计算方法,可以得到弱增强目标分类差异数据、弱增强标记框回归差异数据、弱增强投影差异数据以及像素对亲和差异数据,进而计算弱增强图像对应的弱增强差异数据。弱增强差异数据可以记为Lweak。Lweak的计算公式可以如下:
其中,指弱增强目标分类差异数据,/>指弱增强标记框回归差异数据,指弱增强投影差异数据,/>指像素对亲和差异数据。
S306、根据强增强图像的标注信息以及第二预测结果,确定强增强图像对应的强增强差异数据。
本申请实施例中,强增强图像的标注信息包括强增强图像中的第二前景对象的第二参考前景类别和第二参考前景位置标记框。由于像素对亲和差异数据基于颜色相似性判定两个像素是否属于同一类别。而强增强图像的在数据增强处理的过程中除了使用几何变换,还使用了颜色变换。由于颜色变换后的像素对之间不再具有严格的类别亲和度判别关系,因此,在强增强差异数据中不使用像素对亲和差异数据,而其他部分差异数据可以与弱增强差异数据的中的各个差异数据类似。通过上述方法,保证了差异数据计算的准确性。
在一实施例中,强增强差异数据中包括强增强目标分类差异数据、强增强标记框回归差异数据以及强增强投影差异数据。上述根据强增强图像的标注信息以及第二预测结果,确定强增强图像对应的强增强差异数据,可以根据以下步骤实现:
(f1)、根据第二预测前景类别和第二参考前景类别,确定强增强目标分类差异数据。
其中,强增强目标分类差异数据可以记为
(f2)、根据第二预测前景位置标记框和第二参考前景位置标记框,确定强增强标记框回归差异数据。
其中,强增强标记框回归差异数据可以记为
(f3)、确定第二预测前景掩码对应的第二外接矩形框,根据第二外接矩形框和第二参考前景位置标记框,确定强增强投影差异数据。
其中,强增强投影差异数据可以记为 的计算公式可以如下:
其中,为预测的实例掩码(也即是第一预测前景掩码),b是根据真值目标框(也即是根据第一参考前景位置标记框)生成的掩码。maxx(·)表示沿x方向求最大值(即将掩码映射到水平方向求最大值),maxy(·)表示沿y方向求最大值(即将掩码映射到垂直方向求最大值)。
(f4)、根据强增强目标分类差异数据、强增强标记框回归差异数据以及强增强投影差异数据,确定强增强差异数据。
本申请实施例中,通过上述各个损失函数的计算方法,可以得到强增强目标分类差异数据、强增强标记框回归差异数据以及强增强投影差异数据,进而计算强增强图像对应的强增强差异数据。强增强差异数据可以记为Lstrong。Lstrong的计算公式可以如下:
其中,指强增强目标分类差异数据,/>指强增强标记框回归差异数据,指强增强投影差异数据。
其中,步骤(f1-f4)中确定强增强目标分类差异数据、强增强标记框回归差异数据以及强增强投影差异数据的方法请参见前述实施例中步骤(e1-e5)中确定弱增强差异数据的方法的相关描述,本申请不再赘述。
S307、根据参考区域划分类别以及预测区域划分类别,确定弱增强图像和强增强图像之间的对比差异数据。
本申请实施例中,参考区域划分类别中包括通过弱增强图像的第一局部预测前景掩码对应的掩码分数图确定的前景区域、背景区域和不确定区域。预测区域划分类别中包括通过强增强图像的第二局部预测前景掩码对应的掩码分数图确定的前景区域、背景区域和不确定区域。针对预测区域划分类别的前景区域中的任意像素点,可以使用前景区域损失函数进行拟合;针对预测区域划分类别的背景区域中的任意像素点,可以使用背景区域损失函数进行拟合;针对预测区域划分类别的不确定区域中的任意像素点,可以使用不确定区域损失函数进行拟合。
具体的,对于前景区域的像素点和背景区域的像素点,可以直接使用回归损失函数拟合,例如L1平滑损失函数。对于不确定区域的像素点,本申请并不是简单的丢弃,而是将公共交叠区域的像素位置映射到掩膜特征图,然后计算损失函数(例如InfoNCE)。
在一实施例中,前景区域损失函数和背景区域损失函数的计算公式可以如下:
其中,Sw=sigmoid(Tw),Tw为第一局部预测前景掩码。Ss=sigmoid(Ts),Ts为第二局部预测前景掩码。Rfg表示前景区域,Rbg表示背景区域,#Rfg表示前景区域中像素点的数量,#Rbg表示背景区域中像素点的数量。
在一实施例中,不确定区域损失函数的计算公式可以如下:
其中,其中q表示不确定区域中某一像素点对应的特征向量,在Mask2Former中其维度为256。k+为前景区域中各个像素点对应的特征向量的均值,ki可以取k+或者任一负样本特征向量。这里的k+不是选取任一前景像素的特征向量可以带来两个好处:第一点是通过求均值提升优化损失函数时的稳定性;第二点是大幅度降低了计算复杂度。
通过上述各个损失函数的计算方法,可以得到前景区域损失函数和背景区域损失函数以及不确定区域损失函数,进而计算整体的对比差异数据。对比差异数据可以记为Lcontrast。Lcontrast的计算公式可以如下:
Lcontrast=Lfg+Lbg+Lq
其中,Lfg为前景区域损失函数,Lbg为背景区域损失函数,Lq为不确定区域损失函数。
本申请中的初始实例分割网络也可以包括两个分支网络,即弱增强分支网络和强增强分支网络,弱增强分支网络和强增强分支网络可以是孪生的实例分割网络,弱增强分支网络和强增强分支网络的网络权值共享。下面将基于上述模型结构,通过图示对本申请中确定各个差异数据的流程进行介绍,请参见图4E,该图是本申请一个示例性实施例提供的一种确定差异数据的流程示意图。弱增强图像通过实例分割模型的弱增强分支网络进行处理,得到弱增强图像的第一预测结果,根据第一预测结果和弱增强图像的标注信息计算得到弱增强差异数据。强增强图像通过实例分割模型的强增强分支网络进行处理,得到强增强图像的第二预测结果,根据第二预测结果和强增强图像的标注信息计算得到强增强差异数据。通过对弱增强分支网络输出的第一预测前景掩码和强增强分支网络输出的第二预测前景掩码进行公共区域提取,得到第一局部预测前景掩码和第二局部预测前景掩码,将第一局部预测前景掩码最为第二局部预测前景掩码的监督信息,从而计算得到对比差异数据。
S308、根据弱增强差异数据、强增强差异数据以及对比差异数据,对初始实例分割网络的网络参数进行调整,得到实例分割模型。
本申请实施例中,服务器通过弱增强差异数据、强增强差异数据以及对比差异数据分别对初始实例分割网络进行参数调整,即可得到实例分割模型。服务器也可以是通过弱增强差异数据、强增强差异数据以及对比差异数据计算总损失,再基于总损失对初始实例分割网络进行参数调整。
S309、获取待处理图像,待处理图像包括第一前景对象。
S310、调用实例分割模型对待处理图像进行处理,得到第一前景对象对应的前景掩码、前景类别和前景位置标记框。
S311、根据第一前景对象对应的前景掩码、前景类别和前景位置标记框,确定待处理图像的实例分割结果。
其中,步骤S309-S311的具体实施方式参见前述实施例中步骤S201~S203的相关描述,此处不再赘述。
下面将对实例分割模型的具体实现方式进行说明:本申请可以使用ResNet网络作为实例分割网络的主网络,数据增强后的图像对(Iw,Is)作为实例分割网络的输入。具体应用中,实例分割网络可以选择基于Anchor Free架构的多种算法,例如CondInst,SOLOv2,Mask2Former等。
本申请在实现中可以使用Mask2Former作为实例分割基础模型,该算法基于Transformer,通过利用自主注意力和交叉注意力有效捕获图像全局的相关性信息,且基于掩膜的注意力机制将注意力聚焦到局部感兴趣区域,不但加快了网络的收敛速度,也提升了模型性能。
然而原始的Mask2Former并不满足本申请中弱监督实例分割的需求,主要原因在于Mask2Former只有前景掩码预测分支和前景类型预测分支,并没有前景位置标记框预测分支,导致无法通过预测的前景位置标记框去拟合真值(GT)目标框。因此,本申请在Mask2Former的解码器的每一层输出新增一个多层感知机(MLP,Multilayer Perceptron),其输入维度与隐层维度(即特征维度)相同,输出维度为4,用以表示前景位置标记框的归一化坐标(cx,cy,w,h),其中,cx,cy为目标检测框的归一化中心点,w,h为前景位置标记框的归一化宽度和高度。
新增前景位置标记框预测分支需要解决的第二个问题是预测结果与真值(GT)目标框之间的匹配问题。Mask2Former基于DETR架构,使用匈牙利匹配算法去匹配真值(GT)目标框和预测结果,避免了使用非极大值抑制(Non-maximum Suppression,NMS)方法。Mask2Former在原始匹配过程中使用了前景目标分类匹配和前景掩码分割匹配,在本申请的方法中明显不适用。因为在弱监督实例分割中并没有标注分割的真值(也即是标注的前景掩码)。因此,本申请需要将前景掩码分割匹配替换成前景位置标记框匹配,达到利用已有的真值(GT)目标框的目的,目标框匹配的损失函数可以使用L1损失函数联合广义交并比损失函数。
本申请中的实例分割模型在模型推理阶段不再需要强弱数据增强处理,首先对待处理图像进行图像的归一化处理,然后送入改进的Mask2Former网络,预测结果包含三部分:前景类别(例如预设的100个候选目标类别)、前景位置标记框和前景掩码。由于设定的目标类别为100,但并非所有的候选目标都有实例,因此本申请可以通过设定置信度阈值(例如0.6),当候选目标阈值大于设定阈值时才认为是真正的目标(也即是前景对象)。
本申请在弱监督实例分割中引入对比学习策略提供高层语义信息,提升了模型的实例掩膜的预测精度,改善了模型的预测能力。在工业AI质检和实例分割辅助标注中大幅度降低了标注人力成本,提升了数据标注效率,加快了项目迭代进程。
基于上述实施例,本申请的有益效果在于:本申请利用弱增强差异数据约束通过弱增强图像确定的实例分割结果与真值的差异;利用强增强差异数据约束通过强增强图像确定的实例分割结果与真值的差异,利用对比差异数据约束通过弱增强图像和强增强图像之间的公共区域图像确定的实例分割结果与真值的差异。基于多维度的差异数据对实例分割模型进行训练,提升了训练效率和训练的稳定性,进而提升了实例分割模型的预测精度和预测准确性。同时,基于本申请提出的方法,在数据标注时不需要进行像素级的掩膜标注,极大地提高了标注效率,进而提高实例分割模型的训练效率。
本申请还提出基于前景目标依赖的方法对原始图像进行随机剪裁得到不同的局部图像,并通过弱增强处理和强增强处理生成对应的弱增强图像和强增强图像,保证弱增强图像和强增强图像中均包括第二前景对象,避免了传统的随机裁切带来大量的无效数据,同时提升了对比学习中数据的多样性,能够进一步提升模型的泛化能力。本申请提出可以设置比例阈值限制局部图像中前景对象在局部图像的占比,避免了占比较小导致的特征弱化,提高了前景区域的权重,从而保证了实例分割模型的训练效果。
本申请还提出使用强增强图像和弱增强图像的公共区域图像计算对比差异数据,使得各自对应的局部预测前景掩码在像素上严格对齐,基于各自像素严格对齐的局部预测前景掩码进行模型训练,可以提高模型训练效果。本申请还提出由于没有像素级监督信息,通过使用了三区划分策略确定参考区域划分类别作为预测区域划分类别的监督信息,保证了拟合效果。
本申请还提出根据弱增强目标分类差异数据、弱增强标记框回归差异数据、弱增强投影差异数据以及像素对亲和差异数据确定弱增强差异数据,而由于强增强图像的在数据增强处理的过程中使用了颜色变换,因此在强增强差异数据中不使用像素对亲和差异数据,而其他部分差异数据可以与弱增强差异数据的中的各个差异数据类似。通过上述方法,保证了差异数据计算的准确性。
请参阅图5,该图是本申请实施例提供的一种图像处理装置的示意框图。其中,图像处理装置具体可以包括:
获取模块501,用于获取待处理图像,上述待处理图像包括第一前景对象;
处理模块502,用于调用实例分割模型对上述待处理图像进行处理,得到上述第一前景对象对应的前景掩码、前景类别和前景位置标记框;
输出模块503,用于根据上述第一前景对象对应的前景掩码、前景类别和前景位置标记框,确定上述待处理图像的实例分割结果;
其中,上述实例分割模型是基于利用样本数据确定的弱增强差异数据、强增强差异数据和对比差异数据训练得到的,上述样本数据包括弱增强图像、强增强图像、上述弱增强图像中的第二前景对象的标注信息和上述强增强图像中的第二前景对象的标注信息;上述弱增强差异数据是根据上述第二前景对象的第一预测前景掩码、第一预测前景类别、第一预测前景位置标记框和上述弱增强图像中的第二前景对象的标注信息确定的;上述强增强差异数据是根据上述第二前景对象的第二预测前景掩码、第二预测前景类别、第二预测前景位置标记框和上述强增强图像中的第二前景对象的标注信息确定的;上述对比差异数据是根据第一局部预测前景掩码对应的参考区域划分类别以及第二局部预测前景掩码对应的预测区域划分类别确定的,上述第一局部预测前景掩码和上述第二局部预测前景掩码是上述弱增强图像和上述强增强图像中的公共区域图像对应的前景掩码。
可选的,上述处理模块502还用于:
调用初始实例分割网络对样本数据中的弱增强图像进行图像识别处理,得到上述弱增强图像中的第二前景对象的第一预测结果,上述第一预测结果包括第一预测前景掩码、第一预测前景类别和第一预测前景位置标记框;
调用上述初始实例分割网络对上述样本数据中的强增强图像进行图像识别处理,得到上述强增强图像中的第二前景对象的第二预测结果,上述第二预测结果包括第二预测前景掩码、第二预测前景类别和第二预测前景位置标记框;
基于上述第一预测前景掩码以及公共区域图像确定参考区域划分类别,并基于上述第二预测前景掩码以及上述公共区域图像确定预测区域划分类别,上述公共区域图像为上述弱增强图像对应的原始图像区域和上述强增强图像对应的原始图像区域之间的重叠区域的图像;
根据上述第一预测结果、上述弱增强图像的标注信息、上述第二预测结果、上述强增强图像的标注信息、上述参考区域划分类别以及上述预测区域划分类别,对上述初始实例分割网络的网络参数进行调整,得到实例分割模型。
可选的,上述处理模块502在用于基于上述第一预测前景掩码以及公共区域图像确定参考区域划分类别,并基于上述第二预测前景掩码以及上述公共区域图像确定预测区域划分类别时,具体用于:
从上述第一预测前景掩码中提取公共区域图像对应的第一局部预测前景掩码,以及从上述第二预测前景掩码中提取上述公共区域图像对应的第二局部预测前景掩码;
根据上述第一局部预测前景掩码确定参考区域划分类别,根据上述第二局部预测前景掩码确定预测区域划分类别。
可选的,上述处理模块502在用于根据上述第一预测结果、上述弱增强图像的标注信息、上述第二预测结果、上述强增强图像的标注信息、上述参考区域划分类别以及上述预测区域划分类别,对上述初始实例分割网络的网络参数进行调整,得到实例分割模型时,具体用于:
根据上述弱增强图像的标注信息以及上述第一预测结果,确定上述弱增强图像对应的弱增强差异数据,上述弱增强图像的标注信息包括上述弱增强图像中的第二前景对象的第一参考前景类别和第一参考前景位置标记框;
根据上述强增强图像的标注信息以及上述第二预测结果,确定上述强增强图像对应的强增强差异数据,上述强增强图像的标注信息包括上述强增强图像中的第二前景对象的第二参考前景类别和第二参考前景位置标记框;
根据上述参考区域划分类别以及上述预测区域划分类别,确定上述弱增强图像和上述强增强图像之间的对比差异数据;
根据上述弱增强差异数据、上述强增强差异数据以及上述对比差异数据,对上述初始实例分割网络的网络参数进行调整,得到实例分割模型。
可选的,上述弱增强差异数据中包括弱增强目标分类差异数据、弱增强标记框回归差异数据、弱增强投影差异数据以及像素对亲和差异数据。上述处理模块502在用于根据上述弱增强图像的标注信息以及上述第一预测结果,确定上述弱增强图像对应的弱增强差异数据时,具体用于:
根据上述第一预测前景类别和上述第一参考前景类别,确定上述弱增强目标分类差异数据;
根据上述第一预测前景位置标记框和上述第一参考前景位置标记框,确定上述弱增强标记框回归差异数据;
确定上述第一预测前景掩码对应的第一外接矩形框,根据上述第一外接矩形框和上述第一参考前景位置标记框,确定上述弱增强投影差异数据;
确定上述第一预测前景掩码中的掩码像素对的第一颜色差异值,以及确定上述弱增强图像中上述掩码像素对对应的图像像素对的第二颜色差异值,根据上述第一颜色差异值和上述第二颜色差异值,确定上述像素对亲和差异数据;
根据上述弱增强目标分类差异数据、上述弱增强标记框回归差异数据、上述弱增强投影差异数据以及上述像素对亲和差异数据,确定上述弱增强差异数据。
可选的,上述强增强差异数据中包括强增强目标分类差异数据、强增强标记框回归差异数据以及强增强投影差异数据。上述处理模块502在用于根据上述强增强图像的标注信息以及上述第二预测结果,确定上述强增强图像对应的强增强差异数据时,具体用于:
根据上述第二预测前景类别和上述第二参考前景类别,确定上述强增强目标分类差异数据;
根据上述第二预测前景位置标记框和上述第二参考前景位置标记框,确定上述强增强标记框回归差异数据;
确定上述第二预测前景掩码对应的第二外接矩形框,根据上述第二外接矩形框和上述第二参考前景位置标记框,确定上述强增强投影差异数据;
根据上述强增强目标分类差异数据、上述强增强标记框回归差异数据以及上述强增强投影差异数据,确定上述强增强差异数据。
可选的,上述获取模块501还用于:
获取原始图像,上述原始图像包括第二前景对象;
上述处理模块502还用于:
对上述原始图像进行剪裁处理,得到第一局部图像和第二局部图像,上述第一局部图像和上述第二局部图像之间存在公共区域图像,上述公共区域图像包括上述第二前景对象;
根据第一变换参数对上述第一局部图像进行图像变换处理,得到弱增强图像,以及根据第二变换参数对上述第二局部图像进行图像变换处理,得到强增强图像;
根据上述弱增强图像和上述强增强图像生成样本数据。
可选的,上述第一变换参数用于对上述第一局部图像进行弱增强处理,上述弱增强处理包括图像镜像处理、图像缩放处理、图像旋转处理、图像裁剪处理、图像变形处理中的一种或多种;上述第二变换参数用于对上述第二局部图像进行强增强处理,上述强增强处理包括图像噪声处理、图像模糊处理、图像颜色变换处理、图像内容擦除处理、图像内容填充处理中的一种或多种,以及包括多种上述弱增强处理中的一种或多种。
可选的,上述处理模块502还用于:
确定上述原始图像的标注信息,上述原始图像的标注信息包括上述原始图像中的第二前景对象的参考前景类别和参考前景位置标记框;
根据上述第一变换参数对上述原始图像中的第二前景对象的参考前景类别和参考前景位置标记框进行调整处理,得到上述弱增强图像的标注信息;
根据上述第二变换参数对上述原始图像中的第二前景对象的参考前景类别和参考前景位置标记框进行调整处理,得到上述强增强图像的标注信息。
可选的,上述处理模块502在用于从上述第一预测前景掩码中提取公共区域图像对应的第一局部预测前景掩码时,具体用于:
根据第一变换参数对上述第一预测前景掩码进行逆变换处理,得到全局前景掩码,上述全局前景掩码与上述原始图像的大小相匹配;
按照上述公共区域图像在上述原始图像中的位置参数,对上述全局前景掩码进行提取处理,得到上述公共区域图像对应的第一局部预测前景掩码。
可选的,上述处理模块502在用于根据上述第一局部预测前景掩码确定参考区域划分类别,根据上述第二局部预测前景掩码确定预测区域划分类别时,具体用于:
根据上述第一局部预测前景掩码确定上述第一局部预测前景掩码中各个像素点的前景掩码置信度;
根据置信度阈值和上述第一局部预测前景掩码中各个像素点的前景掩码置信度,确定参考区域划分类别;
根据上述第二局部预测前景掩码确定上述第二局部预测前景掩码中各个像素点的前景掩码置信度;
根据上述置信度阈值和上述第二局部预测前景掩码中各个像素点的前景掩码置信度,确定预测区域划分类别。
基于上述图像处理装置,通过实例分割模型可以输出待检测图像的前景掩码、前景类别和前景位置标记框等多种维度的特征信息,提高了识别结果的数据丰富度,从而基于实例分割模型进行更精细化的、像素级别的图像识别任务。
实例分割模型是利用通过弱增强图像、强增强图像确定的弱增强差异数据、强增强差异数据和对比差异数据训练得到的。通过引入弱增强图像和强增强图像中公共区域图像的预测掩膜的对比学习策略,约束两种增强图像在高层语义特征的一致性,显著提升了实例分割模型的实例分割能力和预测准确性。
基于多维度的差异数据对实例分割模型进行训练,提升了训练效率和训练的稳定性,进而提升了实例分割模型的预测精度和预测准确性。
同时,在进行数据标注时,弱增强图像的部分标注信息能够复用到强增强图像,并且不需要进行像素级的掩膜标注,极大地提高了标注效率,进而提高实例分割模型的训练效率。
由于弱增强图像和强增强图像中包括同一前景对象,将弱增强图像和强增强图像作为样本对训练实例分割模型,提升了对比学习阶段数据的多样性,进一步提升了模型的泛化能力。
需要说明的是,本申请实施例的图像处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
请参阅图6,该图是本申请实施例提供的一种计算机设备的示意框图。如图所示的本实施例中的计算机设备可以包括:处理器601、存储装置602以及通信接口603。上述处理器601、存储装置602以及通信接口603之间可以进行数据交互。
上述存储装置602可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储装置602也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;上述存储装置602还可以包括上述种类的存储器的组合。
上述处理器601可以是中央处理器(central processing unit,CPU)。在一个实施例中,上述处理器601还可以是图形处理器(Graphics Processing Unit,GPU)。上述处理器601也可以是由CPU和GPU的组合。在一个实施例中,上述存储装置602用于存储程序指令,上述处理器601可以调用上述程序指令,执行如下操作:
获取待处理图像,上述待处理图像包括第一前景对象;
调用实例分割模型对上述待处理图像进行处理,得到上述第一前景对象对应的前景掩码、前景类别和前景位置标记框;
根据上述第一前景对象对应的前景掩码、前景类别和前景位置标记框,确定上述待处理图像的实例分割结果;
其中,上述实例分割模型是基于利用样本数据确定的弱增强差异数据、强增强差异数据和对比差异数据训练得到的,上述样本数据包括弱增强图像、强增强图像、上述弱增强图像中的第二前景对象的标注信息和上述强增强图像中的第二前景对象的标注信息;上述弱增强差异数据是根据上述第二前景对象的第一预测前景掩码、第一预测前景类别、第一预测前景位置标记框和上述弱增强图像中的第二前景对象的标注信息确定的;上述强增强差异数据是根据上述第二前景对象的第二预测前景掩码、第二预测前景类别、第二预测前景位置标记框和上述强增强图像中的第二前景对象的标注信息确定的;上述对比差异数据是根据第一局部预测前景掩码对应的参考区域划分类别以及第二局部预测前景掩码对应的预测区域划分类别确定的,上述第一局部预测前景掩码和上述第二局部预测前景掩码是上述弱增强图像和上述强增强图像中的公共区域图像对应的前景掩码。
可选的,上述处理器601还用于:
调用初始实例分割网络对样本数据中的弱增强图像进行图像识别处理,得到上述弱增强图像中的第二前景对象的第一预测结果,上述第一预测结果包括第一预测前景掩码、第一预测前景类别和第一预测前景位置标记框;
调用上述初始实例分割网络对上述样本数据中的强增强图像进行图像识别处理,得到上述强增强图像中的第二前景对象的第二预测结果,上述第二预测结果包括第二预测前景掩码、第二预测前景类别和第二预测前景位置标记框;
基于上述第一预测前景掩码以及公共区域图像确定参考区域划分类别,并基于上述第二预测前景掩码以及上述公共区域图像确定预测区域划分类别,上述公共区域图像为上述弱增强图像对应的原始图像区域和上述强增强图像对应的原始图像区域之间的重叠区域的图像;
根据上述第一预测结果、上述弱增强图像的标注信息、上述第二预测结果、上述强增强图像的标注信息、上述参考区域划分类别以及上述预测区域划分类别,对上述初始实例分割网络的网络参数进行调整,得到实例分割模型。
可选的,上述处理器601在用于基于上述第一预测前景掩码以及公共区域图像确定参考区域划分类别,并基于上述第二预测前景掩码以及上述公共区域图像确定预测区域划分类别时,具体用于:
从上述第一预测前景掩码中提取公共区域图像对应的第一局部预测前景掩码,以及从上述第二预测前景掩码中提取上述公共区域图像对应的第二局部预测前景掩码;
根据上述第一局部预测前景掩码确定参考区域划分类别,根据上述第二局部预测前景掩码确定预测区域划分类别。
可选的,上述处理器601在用于根据上述第一预测结果、上述弱增强图像的标注信息、上述第二预测结果、上述强增强图像的标注信息、上述参考区域划分类别以及上述预测区域划分类别,对上述初始实例分割网络的网络参数进行调整,得到实例分割模型时,具体用于:
根据上述弱增强图像的标注信息以及上述第一预测结果,确定上述弱增强图像对应的弱增强差异数据,上述弱增强图像的标注信息包括上述弱增强图像中的第二前景对象的第一参考前景类别和第一参考前景位置标记框;
根据上述强增强图像的标注信息以及上述第二预测结果,确定上述强增强图像对应的强增强差异数据,上述强增强图像的标注信息包括上述强增强图像中的第二前景对象的第二参考前景类别和第二参考前景位置标记框;
根据上述参考区域划分类别以及上述预测区域划分类别,确定上述弱增强图像和上述强增强图像之间的对比差异数据;
根据上述弱增强差异数据、上述强增强差异数据以及上述对比差异数据,对上述初始实例分割网络的网络参数进行调整,得到实例分割模型。
可选的,上述弱增强差异数据中包括弱增强目标分类差异数据、弱增强标记框回归差异数据、弱增强投影差异数据以及像素对亲和差异数据。上述处理器601在用于根据上述弱增强图像的标注信息以及上述第一预测结果,确定上述弱增强图像对应的弱增强差异数据时,具体用于:
根据上述第一预测前景类别和上述第一参考前景类别,确定上述弱增强目标分类差异数据;
根据上述第一预测前景位置标记框和上述第一参考前景位置标记框,确定上述弱增强标记框回归差异数据;
确定上述第一预测前景掩码对应的第一外接矩形框,根据上述第一外接矩形框和上述第一参考前景位置标记框,确定上述弱增强投影差异数据;
确定上述第一预测前景掩码中的掩码像素对的第一颜色差异值,以及确定上述弱增强图像中上述掩码像素对对应的图像像素对的第二颜色差异值,根据上述第一颜色差异值和上述第二颜色差异值,确定上述像素对亲和差异数据;
根据上述弱增强目标分类差异数据、上述弱增强标记框回归差异数据、上述弱增强投影差异数据以及上述像素对亲和差异数据,确定上述弱增强差异数据。
可选的,上述强增强差异数据中包括强增强目标分类差异数据、强增强标记框回归差异数据以及强增强投影差异数据。上述处理器601在用于根据上述强增强图像的标注信息以及上述第二预测结果,确定上述强增强图像对应的强增强差异数据时,具体用于:
根据上述第二预测前景类别和上述第二参考前景类别,确定上述强增强目标分类差异数据;
根据上述第二预测前景位置标记框和上述第二参考前景位置标记框,确定上述强增强标记框回归差异数据;
确定上述第二预测前景掩码对应的第二外接矩形框,根据上述第二外接矩形框和上述第二参考前景位置标记框,确定上述强增强投影差异数据;
根据上述强增强目标分类差异数据、上述强增强标记框回归差异数据以及上述强增强投影差异数据,确定上述强增强差异数据。
可选的,上述处理器601还用于:
获取原始图像,上述原始图像包括第二前景对象;
对上述原始图像进行剪裁处理,得到第一局部图像和第二局部图像,上述第一局部图像和上述第二局部图像之间存在公共区域图像,上述公共区域图像包括上述第二前景对象;
根据第一变换参数对上述第一局部图像进行图像变换处理,得到弱增强图像,以及根据第二变换参数对上述第二局部图像进行图像变换处理,得到强增强图像;
根据上述弱增强图像和上述强增强图像生成样本数据。
可选的,上述第一变换参数用于对上述第一局部图像进行弱增强处理,上述弱增强处理包括图像镜像处理、图像缩放处理、图像旋转处理、图像裁剪处理、图像变形处理中的一种或多种;上述第二变换参数用于对上述第二局部图像进行强增强处理,上述强增强处理包括图像噪声处理、图像模糊处理、图像颜色变换处理、图像内容擦除处理、图像内容填充处理中的一种或多种,以及包括多种上述弱增强处理中的一种或多种。
可选的,上述处理器601还用于:
确定上述原始图像的标注信息,上述原始图像的标注信息包括上述原始图像中的第二前景对象的参考前景类别和参考前景位置标记框;
根据上述第一变换参数对上述原始图像中的第二前景对象的参考前景类别和参考前景位置标记框进行调整处理,得到上述弱增强图像的标注信息;
根据上述第二变换参数对上述原始图像中的第二前景对象的参考前景类别和参考前景位置标记框进行调整处理,得到上述强增强图像的标注信息。
可选的,上述处理器601在用于从上述第一预测前景掩码中提取公共区域图像对应的第一局部预测前景掩码时,具体用于:
根据第一变换参数对上述第一预测前景掩码进行逆变换处理,得到全局前景掩码,上述全局前景掩码与上述原始图像的大小相匹配;
按照上述公共区域图像在上述原始图像中的位置参数,对上述全局前景掩码进行提取处理,得到上述公共区域图像对应的第一局部预测前景掩码。
可选的,上述处理器601在用于根据上述第一局部预测前景掩码确定参考区域划分类别,根据上述第二局部预测前景掩码确定预测区域划分类别时,具体用于:
根据上述第一局部预测前景掩码确定上述第一局部预测前景掩码中各个像素点的前景掩码置信度;
根据置信度阈值和上述第一局部预测前景掩码中各个像素点的前景掩码置信度,确定参考区域划分类别;
根据上述第二局部预测前景掩码确定上述第二局部预测前景掩码中各个像素点的前景掩码置信度;
根据上述置信度阈值和上述第二局部预测前景掩码中各个像素点的前景掩码置信度,确定预测区域划分类别。
基于上述计算机设备,通过实例分割模型可以输出待检测图像的前景掩码、前景类别和前景位置标记框等多种维度的特征信息,提高了识别结果的数据丰富度,从而基于实例分割模型进行更精细化的、像素级别的图像识别任务。
实例分割模型是利用通过弱增强图像、强增强图像确定的弱增强差异数据、强增强差异数据和对比差异数据训练得到的。通过引入弱增强图像和强增强图像中公共区域图像的预测掩膜的对比学习策略,约束两种增强图像在高层语义特征的一致性,显著提升了实例分割模型的实例分割能力和预测准确性。
基于多维度的差异数据对实例分割模型进行训练,提升了训练效率和训练的稳定性,进而提升了实例分割模型的预测精度和预测准确性。
同时,在进行数据标注时,弱增强图像的部分标注信息能够复用到强增强图像,并且不需要进行像素级的掩膜标注,极大地提高了标注效率,进而提高实例分割模型的训练效率。
由于弱增强图像和强增强图像中包括同一前景对象,将弱增强图像和强增强图像作为样本对训练实例分割模型,提升了对比学习阶段数据的多样性,进一步提升了模型的泛化能力。
具体实现中,本申请实施例中所描述的处理器601、存储装置602以及通信接口603可执行本申请实施例图2或图3提供的图像处理方法的相关实施例中所描述的实现方式,也可执行本申请实施例图5提供的图像处理装置的相关实施例中所描述的实现方式,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和***,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的图像处理装置所执行的计算机程序,且该计算机程序包括程序指令,当处理器执行上述程序指令时,能够执行前文图2、图3所对应实施例中的方法,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可以被部署在一个计算机设备上,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链***。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可以执行前文图2、图3所对应实施例中的方法,因此,这里将不再进行赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (15)
1.一种图像处理方法,其特征在于,所述方法包括:
获取待处理图像,所述待处理图像包括第一前景对象;
调用实例分割模型对所述待处理图像进行处理,得到所述第一前景对象对应的前景掩码、前景类别和前景位置标记框;
根据所述第一前景对象对应的前景掩码、前景类别和前景位置标记框,确定所述待处理图像的实例分割结果;
其中,所述实例分割模型是基于利用样本数据确定的弱增强差异数据、强增强差异数据和对比差异数据训练得到的,所述样本数据包括弱增强图像、强增强图像、所述弱增强图像中的第二前景对象的标注信息和所述强增强图像中的第二前景对象的标注信息;所述弱增强差异数据是根据所述第二前景对象的第一预测前景掩码、第一预测前景类别、第一预测前景位置标记框和所述弱增强图像中的第二前景对象的标注信息确定的;所述强增强差异数据是根据所述第二前景对象的第二预测前景掩码、第二预测前景类别、第二预测前景位置标记框和所述强增强图像中的第二前景对象的标注信息确定的;所述对比差异数据是根据第一局部预测前景掩码对应的参考区域划分类别以及第二局部预测前景掩码对应的预测区域划分类别确定的,所述第一局部预测前景掩码和所述第二局部预测前景掩码是所述弱增强图像和所述强增强图像中的公共区域图像对应的前景掩码。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
调用初始实例分割网络对样本数据中的弱增强图像进行图像识别处理,得到所述弱增强图像中的第二前景对象的第一预测结果,所述第一预测结果包括第一预测前景掩码、第一预测前景类别和第一预测前景位置标记框;
调用所述初始实例分割网络对所述样本数据中的强增强图像进行图像识别处理,得到所述强增强图像中的第二前景对象的第二预测结果,所述第二预测结果包括第二预测前景掩码、第二预测前景类别和第二预测前景位置标记框;
基于所述第一预测前景掩码以及公共区域图像确定参考区域划分类别,并基于所述第二预测前景掩码以及所述公共区域图像确定预测区域划分类别,所述公共区域图像为所述弱增强图像对应的原始图像区域和所述强增强图像对应的原始图像区域之间的重叠区域的图像;
根据所述第一预测结果、所述弱增强图像的标注信息、所述第二预测结果、所述强增强图像的标注信息、所述参考区域划分类别以及所述预测区域划分类别,对所述初始实例分割网络的网络参数进行调整,得到实例分割模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一预测前景掩码以及公共区域图像确定参考区域划分类别,并基于所述第二预测前景掩码以及所述公共区域图像确定预测区域划分类别,包括:
从所述第一预测前景掩码中提取公共区域图像对应的第一局部预测前景掩码,以及从所述第二预测前景掩码中提取所述公共区域图像对应的第二局部预测前景掩码;
根据所述第一局部预测前景掩码确定参考区域划分类别,根据所述第二局部预测前景掩码确定预测区域划分类别。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一预测结果、所述弱增强图像的标注信息、所述第二预测结果、所述强增强图像的标注信息、所述参考区域划分类别以及所述预测区域划分类别,对所述初始实例分割网络的网络参数进行调整,得到实例分割模型,包括:
根据所述弱增强图像的标注信息以及所述第一预测结果,确定所述弱增强图像对应的弱增强差异数据,所述弱增强图像的标注信息包括所述弱增强图像中的第二前景对象的第一参考前景类别和第一参考前景位置标记框;
根据所述强增强图像的标注信息以及所述第二预测结果,确定所述强增强图像对应的强增强差异数据,所述强增强图像的标注信息包括所述强增强图像中的第二前景对象的第二参考前景类别和第二参考前景位置标记框;
根据所述参考区域划分类别以及所述预测区域划分类别,确定所述弱增强图像和所述强增强图像之间的对比差异数据;
根据所述弱增强差异数据、所述强增强差异数据以及所述对比差异数据,对所述初始实例分割网络的网络参数进行调整,得到实例分割模型。
5.根据权利要求4所述的方法,其特征在于,所述弱增强差异数据中包括弱增强目标分类差异数据、弱增强标记框回归差异数据、弱增强投影差异数据以及像素对亲和差异数据;所述根据所述弱增强图像的标注信息以及所述第一预测结果,确定所述弱增强图像对应的弱增强差异数据,包括:
根据所述第一预测前景类别和所述第一参考前景类别,确定所述弱增强目标分类差异数据;
根据所述第一预测前景位置标记框和所述第一参考前景位置标记框,确定所述弱增强标记框回归差异数据;
确定所述第一预测前景掩码对应的第一外接矩形框,根据所述第一外接矩形框和所述第一参考前景位置标记框,确定所述弱增强投影差异数据;
确定所述第一预测前景掩码中的掩码像素对的第一颜色差异值,以及确定所述弱增强图像中所述掩码像素对对应的图像像素对的第二颜色差异值,根据所述第一颜色差异值和所述第二颜色差异值,确定所述像素对亲和差异数据;
根据所述弱增强目标分类差异数据、所述弱增强标记框回归差异数据、所述弱增强投影差异数据以及所述像素对亲和差异数据,确定所述弱增强差异数据。
6.根据权利要求4所述的方法,其特征在于,所述强增强差异数据中包括强增强目标分类差异数据、强增强标记框回归差异数据以及强增强投影差异数据;所述根据所述强增强图像的标注信息以及所述第二预测结果,确定所述强增强图像对应的强增强差异数据,包括:
根据所述第二预测前景类别和所述第二参考前景类别,确定所述强增强目标分类差异数据;
根据所述第二预测前景位置标记框和所述第二参考前景位置标记框,确定所述强增强标记框回归差异数据;
确定所述第二预测前景掩码对应的第二外接矩形框,根据所述第二外接矩形框和所述第二参考前景位置标记框,确定所述强增强投影差异数据;
根据所述强增强目标分类差异数据、所述强增强标记框回归差异数据以及所述强增强投影差异数据,确定所述强增强差异数据。
7.根据权利要求2-6中任一项所述的方法,其特征在于,所述方法还包括:
获取原始图像,所述原始图像包括第二前景对象;
对所述原始图像进行剪裁处理,得到第一局部图像和第二局部图像,所述第一局部图像和所述第二局部图像之间存在公共区域图像,所述公共区域图像包括所述第二前景对象;
根据第一变换参数对所述第一局部图像进行图像变换处理,得到弱增强图像,以及根据第二变换参数对所述第二局部图像进行图像变换处理,得到强增强图像;
根据所述弱增强图像和所述强增强图像生成样本数据。
8.根据权利要求7所述的方法,其特征在于,所述第一变换参数用于对所述第一局部图像进行弱增强处理,所述弱增强处理包括图像镜像处理、图像缩放处理、图像旋转处理、图像裁剪处理、图像变形处理中的一种或多种;所述第二变换参数用于对所述第二局部图像进行强增强处理,所述强增强处理包括图像噪声处理、图像模糊处理、图像颜色变换处理、图像内容擦除处理、图像内容填充处理中的一种或多种,以及包括多种所述弱增强处理中的一种或多种。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
确定所述原始图像的标注信息,所述原始图像的标注信息包括所述原始图像中的第二前景对象的参考前景类别和参考前景位置标记框;
根据所述第一变换参数对所述原始图像中的第二前景对象的参考前景类别和参考前景位置标记框进行调整处理,得到所述弱增强图像的标注信息;
根据所述第二变换参数对所述原始图像中的第二前景对象的参考前景类别和参考前景位置标记框进行调整处理,得到所述强增强图像的标注信息。
10.根据权利要求3所述的方法,其特征在于,所述从所述第一预测前景掩码中提取公共区域图像对应的第一局部预测前景掩码,包括:
根据第一变换参数对所述第一预测前景掩码进行逆变换处理,得到全局前景掩码,所述全局前景掩码与所述原始图像的大小相匹配;
按照所述公共区域图像在所述原始图像中的位置参数,对所述全局前景掩码进行提取处理,得到所述公共区域图像对应的第一局部预测前景掩码。
11.根据权利要求3或10所述的方法,其特征在于,所述根据所述第一局部预测前景掩码确定参考区域划分类别,根据所述第二局部预测前景掩码确定预测区域划分类别,包括:
根据所述第一局部预测前景掩码确定所述第一局部预测前景掩码中各个像素点的前景掩码置信度;
根据置信度阈值和所述第一局部预测前景掩码中各个像素点的前景掩码置信度,确定参考区域划分类别;
根据所述第二局部预测前景掩码确定所述第二局部预测前景掩码中各个像素点的前景掩码置信度;
根据所述置信度阈值和所述第二局部预测前景掩码中各个像素点的前景掩码置信度,确定预测区域划分类别。
12.一种图像处理装置,其特征在于,所述装置包括:
获取模块,用于获取待处理图像,所述待处理图像包括第一前景对象;
处理模块,用于调用实例分割模型对所述待处理图像进行处理,得到所述第一前景对象对应的前景掩码、前景类别和前景位置标记框;
输出模块,用于根据所述第一前景对象对应的前景掩码、前景类别和前景位置标记框,确定所述待处理图像的实例分割结果;
其中,所述实例分割模型是基于利用样本数据确定的弱增强差异数据、强增强差异数据和对比差异数据训练得到的,所述样本数据包括弱增强图像、强增强图像、所述弱增强图像中的第二前景对象的标注信息和所述强增强图像中的第二前景对象的标注信息;所述弱增强差异数据是根据所述第二前景对象的第一预测前景掩码、第一预测前景类别、第一预测前景位置标记框和所述弱增强图像中的第二前景对象的标注信息确定的;所述强增强差异数据是根据所述第二前景对象的第二预测前景掩码、第二预测前景类别、第二预测前景位置标记框和所述强增强图像中的第二前景对象的标注信息确定的;所述对比差异数据是根据第一局部预测前景掩码对应的参考区域划分类别以及第二局部预测前景掩码对应的预测区域划分类别确定的,所述第一局部预测前景掩码和所述第二局部预测前景掩码是所述弱增强图像和所述强增强图像中的公共区域图像对应的前景掩码。
13.一种计算机设备,其特征在于,包括:处理器、存储装置和通信接口,所述处理器、所述通信接口和所述存储装置相互连接,其中,所述存储装置存储有可执行程序代码,所述处理器用于调用所述可执行程序代码,用以实现如权利要求1-11中任一项所述的图像处理方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行,用以实现如权利要求1-11中任一项所述的图像处理方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序或计算机指令,所述计算机程序或计算机指令被处理器执行时,用以实现如权利要求1-11中任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211462468.3A CN116977359A (zh) | 2022-11-15 | 2022-11-15 | 图像处理方法、装置、设备、可读存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211462468.3A CN116977359A (zh) | 2022-11-15 | 2022-11-15 | 图像处理方法、装置、设备、可读存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116977359A true CN116977359A (zh) | 2023-10-31 |
Family
ID=88483724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211462468.3A Pending CN116977359A (zh) | 2022-11-15 | 2022-11-15 | 图像处理方法、装置、设备、可读存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116977359A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118096797A (zh) * | 2024-04-28 | 2024-05-28 | 江苏艾玮得生物科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
-
2022
- 2022-11-15 CN CN202211462468.3A patent/CN116977359A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118096797A (zh) * | 2024-04-28 | 2024-05-28 | 江苏艾玮得生物科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | A multi-task Faster R-CNN method for 3D vehicle detection based on a single image | |
CN110728209A (zh) | 一种姿态识别方法、装置、电子设备及存储介质 | |
CN111666921A (zh) | 车辆控制方法、装置、计算机设备和计算机可读存储介质 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
WO2023019875A1 (zh) | 车辆损失检测方法、装置、电子设备及存储介质 | |
CN114359851A (zh) | 无人驾驶目标检测方法、装置、设备及介质 | |
CN110222572A (zh) | 跟踪方法、装置、电子设备及存储介质 | |
CN112767478B (zh) | 一种基于表观指导的六自由度位姿估计方法 | |
DE102022100360A1 (de) | Framework für maschinelles lernen angewandt bei einer halbüberwachten einstellung, um instanzenverfolgung in einer sequenz von bildframes durchzuführen | |
Sundaram et al. | FSSCaps-DetCountNet: fuzzy soft sets and CapsNet-based detection and counting network for monitoring animals from aerial images | |
CN114764856A (zh) | 图像语义分割方法和图像语义分割装置 | |
Chen et al. | MSL3D: 3D object detection from monocular, stereo and point cloud for autonomous driving | |
WO2022179599A1 (zh) | 一种感知网络及数据处理方法 | |
JP2023131117A (ja) | 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体 | |
CN116977359A (zh) | 图像处理方法、装置、设备、可读存储介质及程序产品 | |
CN114764870A (zh) | 对象定位模型处理、对象定位方法、装置及计算机设备 | |
CN114494395A (zh) | 基于平面先验的深度图生成方法、装置、设备及存储介质 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN111914809B (zh) | 目标对象定位方法、图像处理方法、装置和计算机设备 | |
CN111008622B (zh) | 一种图像对象检测方法、装置以及计算机可读存储介质 | |
CN116883961A (zh) | 一种目标感知方法以及装置 | |
CN116704504A (zh) | 一种基于解耦动态卷积核的雷达全景分割方法 | |
CN115222578A (zh) | 图像风格迁移方法、程序产品、存储介质及电子设备 | |
Zhai et al. | Geometry understanding from autonomous driving scenarios based on feature refinement | |
WO2021237727A1 (en) | Method and apparatus of image processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |