CN112232355A - 图像分割网络处理、图像分割方法、装置和计算机设备 - Google Patents
图像分割网络处理、图像分割方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN112232355A CN112232355A CN202011444345.8A CN202011444345A CN112232355A CN 112232355 A CN112232355 A CN 112232355A CN 202011444345 A CN202011444345 A CN 202011444345A CN 112232355 A CN112232355 A CN 112232355A
- Authority
- CN
- China
- Prior art keywords
- image
- foreground
- training
- segmentation
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003709 image segmentation Methods 0.000 title claims abstract description 310
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 531
- 230000011218 segmentation Effects 0.000 claims abstract description 170
- 238000000034 method Methods 0.000 claims abstract description 81
- 238000012545 processing Methods 0.000 claims description 82
- 238000011176 pooling Methods 0.000 claims description 37
- 238000004590 computer program Methods 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 241000282414 Homo sapiens Species 0.000 description 25
- 230000006870 function Effects 0.000 description 22
- 238000005516 engineering process Methods 0.000 description 20
- 238000013473 artificial intelligence Methods 0.000 description 14
- 241000282326 Felis catus Species 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 230000004913 activation Effects 0.000 description 7
- 230000008030 elimination Effects 0.000 description 7
- 238000003379 elimination reaction Methods 0.000 description 7
- 230000002441 reversible effect Effects 0.000 description 6
- 238000009825 accumulation Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 239000011800 void material Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种图像分割网络处理、图像分割方法、装置和计算机设备。其中图像分割网络处理方法包括:获取训练样本图像及训练样本图像中对象实体对应的图像级类别标签;将训练样本图像输入图像分割网络,得到对应的分割图;根据分割图从训练样本图像中截取对象实体对应的目标区域图像,得到前景图像;根据对象实体对应的图像级类别标签确定前景图像对应的图像级训练标签;将前景图像输入已训练的分类器中,得到对应的前景类别预测结果;根据前景类别预测结果及前景图像对应的图像级训练标签,计算前景损失;根据前景损失调整图像分割网络的网络参数,直至满足训练停止条,得到目标图像分割网络。采用本方法能够提高图像分割网络的训练效率。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种图像分割网络处理、图像分割方法、装置和计算机设备。
背景技术
随着人工智能技术的发展,深度学习在图像处理的很多领域都取得了飞跃性的发展。图像分割(Image semantic segmentation)是图像处理中非常常见的任务之一,通过对图像中每一个像素点进行分类,确定每个点的类别,从而进行区域划分。
传统技术中,进行图像分割时采用的图像分割网络通常采用全监督训练方法进行训练,这样方式下需要提供大量的带有像素级别标注的数据,然而手工标注图像的像素类别非常耗时,导致对图像分割网络的训练效率低下。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高图像分割网络处理效率的图像分割网络处理方法、装置、计算机设备和存储介质,以及一种能够提高图像分割准确性的图像分割方法、装置、计算机设备和存储介质。
一种图像分割网络处理方法,所述方法包括:
获取训练样本图像及所述训练样本图像中对象实体对应的图像级类别标签;
将所述训练样本图像输入图像分割网络,得到所述训练样本图像对应的分割图;
根据所述分割图从所述训练样本图像中截取所述对象实体对应的目标区域图像,得到所述对象实体对应的前景图像;
根据所述对象实体对应的图像级类别标签确定所述前景图像对应的图像级训练标签;
将所述前景图像输入已训练的分类器中,得到对应的前景类别预测结果;
根据所述前景类别预测结果及所述前景图像对应的图像级训练标签,计算前景损失;
根据所述前景损失调整所述图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。
一种图像分割网络处理装置,所述装置包括:
的图像级类别标签;
样本输入模块,用于将所述训练样本图像输入图像分割网络,得到所述训练样本图像对应的分割图;
前景图像获取模块,用于根据所述分割图从所述训练样本图像中截取所述对象实体对应的目标区域图像,得到所述对象实体对应的前景图像;
前景标签确定模块,用于根据所述对象实体对应的图像级类别标签确定所述前景图像对应的图像级训练标签;
前景类别预测模块,用于将所述前景图像输入已训练的分类器中,得到对应的前景类别预测结果;
前景损失计算模块,用于根据所述前景类别预测结果及所述前景图像对应的图像级训练标签,计算前景损失;
训练模块,用于根据所述前景损失调整所述图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述图像分割网络处理方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述图像分割网络处理方法的步骤。
上述图像分割网络处理方法、装置、计算机设备和存储介质,通过获取训练样本图像及所述训练样本图像中对象实体对应的图像级类别标签,将所述训练样本图像输入图像分割网络,得到所述训练样本图像对应的分割图,根据所述分割图从所述训练样本图像中截取所述对象实体对应的目标区域图像,得到所述对象实体对应的前景图像,根据所述对象实体对应的图像级类别标签确定所述前景图像对应的图像级训练标签,将所述前景图像输入已训练的分类器中,得到对应的前景类别预测结果,根据所述前景类别预测结果及所述前景图像对应的图像级训练标签,计算前景损失,根据所述前景损失调整所述图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络,实现了通过图像级类别标签来训练图像分割网络,由于图像级类别标签相较于像素级类别标签更加容易获取,因此,提高了图像分割网络的训练效率。
一种图像分割方法,所述方法包括:
获取待分割图像;所述待分割图像中包含待分割对象;
将所述待分割图像输入至目标图像分割网络,通过所述目标图像分割网络对所述待分割对象所在的图像区域进行划分;所述目标图像分割网络是根据前景损失训练得到的;所述前景损失是根据前景类别预测结果及所述前景图像对应的图像级训练标签计算得到的;所述前景类别预测结果是通过将从训练样本图像中截取的前景图像输入已训练的分类器中预测得到的;所述训练样本图像中对象实体存在对应的图像级类别标签;所述前景图像对应的图像级训练标签是根据所述对象实体对应的图像级类别标签确定的;
获取所述目标图像分割网络输出的所述待分割图像对应的分割图。
一种图像分割装置,所述装置包括:
图像获取模块,用于获取待分割图像;所述待分割图像中包含待分割对象;
图像分割模块,用于将所述待分割图像输入至目标图像分割网络,通过所述目标图像分割网络对所述待分割对象所在的图像区域进行划分;所述目标图像分割网络是根据前景损失训练得到的;所述前景损失是根据前景类别预测结果及所述前景图像对应的图像级训练标签计算得到的;所述前景类别预测结果是通过将从训练样本图像中截取的前景图像输入已训练的分类器中预测得到的;所述训练样本图像中对象实体存在对应的图像级类别标签;所述前景图像对应的图像级训练标签是根据所述对象实体对应的图像级类别标签确定的;
分割图获取模块,用于获取所述目标图像分割网络输出的所述待分割图像对应的分割图。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述图像分割方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述图像分割方法的步骤。
上述图像分割方法、装置、计算机设备和存储介质,通过获取目标图像分割网络,所述目标图像分割网络是根据前景损失训练得到的,所述前景损失是根据前景类别预测结果及所述前景图像对应的图像级训练标签计算得到的,所述前景类别预测结果是通过将从训练样本图像中截取的前景图像输入已训练的分类器中预测得到的,所述训练样本图像中对象实体存在对应的图像级类别标签,所述前景图像对应的图像级训练标签是根据所述对象实体对应的图像级类别标签确定的,将待分割图像输入该目标图像分割网络,通过所述目标图像分割网络对所述待分割对象所在的图像区域进行划分,得到所述待分割图像对应的分割图,从而实现图像分割,由于图像分割网络是根据前景图像的前景损失调整得到的,那么得到的图像分割网络在进行分割任务时,可以准确的预测出前景区域,而前景区域是对象实体所在的区域,因此可以对对象实体所在区域进行准确地划分,提高了图像分割准确性。
附图说明
图1为一个实施例中图像分割网络处理方法的应用环境图;
图2为一个实施例中图像分割网络处理方法的流程示意图;
图3为另一个实施例中图像分割网络处理方法的流程示意图;
图4为另一个实施例中图像分割网络处理方法的流程示意图;
图5为一个实施例中得到目标图像分割网络之后的步骤流程图;
图6为一个实施例中图像分割网络处理方法的框架图;
图7为一个实施例中图像分割方法的流程示意图;
图8为一个实施例中图像分割网络处理装置的结构框图;
图9为一个实施例中图像分割方法装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的计算机视觉等技术,具体通过如下实施例进行说明:
本申请提供的图像分割网络处理方法和图像分割方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102可以向服务器104发送处理指令,服务器104根据该处理指令获取训练样本图像及所述训练样本图像中对象实体对应的图像级类别标签,将将所述训练样本图像输入图像分割网络,得到所述训练样本图像对应的分割图;根据所述分割图从所述训练样本图像中截取所述对象实体对应的目标区域图像,得到所述对象实体对应的前景图像;根据所述对象实体对应的图像级类别标签确定所述前景图像对应的图像级训练标签;将所述前景图像输入已训练的分类器中,得到对应的前景类别预测结果;根据所述前景类别预测结果及所述前景图像对应的图像级训练标签,计算前景损失;根据所述前景损失调整所述图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。服务器104可以将得到的目标图像分割网络发送至终端,终端可以基于该目标图像分割网络对待分割图像所在的图像区域进行划分,得到所述待分割图像对应的分割图。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种图像分割网络处理方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该方法也可以应用于终端中,还可以应用于包括终端和服务器的***,并通过终端和服务器的交互实现。本实施例中,该图像分割网络处理方法包括以下步骤:
步骤202,获取训练样本图像及训练样本图像中对象实体对应的图像级类别标签。
其中,对象实体指的是训练样本图像中存在的可分割对象。该对象可以是人体、物体、动物、植物等等。例如,该对象具体可以是猫、狗、摩托车等等。可以理解的是,训练样本图像中可以只包括一个对象实体,也可以包括多个对象实体。训练样本图像指的是用于训练图像分割网络的样本图像。图像级类别标签指的是对训练样本图像中存在的对象实体的类别进行表征的类别标签。例如,某个图像中存在猫和狗两个对象实体,则这个图像的图像级类别标签为猫和狗。
具体地,服务器可以从数据库中获取训练样本图像及训练样本图像中对象实体对应的图像级类别标签。服务器也可以从其他计算机设备获取到训练样本图像及训练样本图像中对象实体对应的图像级类别标签,其他计算机设备是指存储有训练样本图像及对应的图像级类别标签的计算机设备。服务器也可以从互联网采集到训练样本图像及对应的图像级类别标签。服务器获取到的所有训练样本图像组成图像分割样本集,各个训练样本图像对应的图像级类别标签组成图像级类别集合,各个训练样本图像中的对象实体组成对象实体集合。本申请实施例中对图像分割网络进行训练,就是为了让图像分割网络能够学习到对象实体集合中各个对象实体的像素特征,从而可以从包含该一个或多个对象实体的待分割图像中对象实体的像素点以进行区域划分,完成图像分割任务。
步骤204,将训练样本图像输入图像分割网络,得到训练样本图像对应的分割图。
其中,图像分割网络指的是可用于图像分割的机器学习模型。该图像分割网络可以为经过有监督的训练得到的神经网络模型。在一个实施例中,该图像分割网络可以为全卷积网络,例如可以是VGG(Visual Geometry Group,超分辨率测试序列)或者Resnet(Residual Neural Network,残差网络模型)。
具体地,服务器将训练样本图像输入图像分割网络后,图像分割网络的各层对该训练样本图像进行相应的处理,最终得到训练样本图像对应的分割图。可以理解的是,根据选用的图像分割网络的结构不同,将训练样本图像输入图像分割网络后会有不同的处理。例如,池化层用于对特征图进行池化(pooling)。在进行池化时,可以是最大值池化也可以是平均值池化。
分割图指的是一组多通道的特征图,通道数为图像级类别集合中的类别数,每一个通道对应一个类别的特征图。举例说明,假设图像级类别集合中包括A、B、C、D四个类别标签,则将训练样本图像输入图像分割网络后,会输出四个通道的特征图,分别对应A、B、C、D四个类别。
步骤206,根据分割图从训练样本图像中截取对象实体对应的目标区域图像,得到对象实体对应的前景图像。
其中,对象实体对应的目标区域图像指的是该对象实体所在区域的图像。对象实体对应的前景图像指的是包含该对象实体的前景图像。
具体地,服务器在得到分割图后,可以从根据分割图从训练样本图像中截取对象实体对应的目标区域图像。例如,当对象实体为猫时,则服务器在得到分割图后,根据该分割图从训练样本图像中截取猫对应的目标区域图像,得到猫的前景图像。
可以理解的是,当训练样本图像中包含多个对象实体时,服务器需要根据分割图从训练样本图像中分别截取各个对象实体对应的目标区域图像,分别得到各个对象实体各自对应的前景图像。例如,当训练样本图像中包含猫、狗时,则服务器需要根据分割图从训练样本图像中截取猫对应的目标区域图像以及狗对应的目标区域图像,将猫对应的目标区域图像作为猫的前景图像,将狗对应的目标区域图像作为狗的前景图像。
步骤208,根据对象实体对应的图像级类别标签确定前景图像对应的图像级训练标签。
其中,前景图像对应的图像级训练标签指的是在训练过程中对前景图像进行类别预测时的类别标签。可以理解的是,该图像级训练标签可以是正训练标签,也可以是负训练标签。基于正、负训练标签进行训练,可以提高训练的准确性。其中,正训练标签指的是前景图像中的对象实体对应的类别标签,而负训练标签则是前景图像中不包含的对象实体的类别标签。
具体地,由于前景图像是从训练样本图像中截取对象实体对应的目标区域图像得到的,那么服务器可以根据对象实体对应的图像级类别标签确定前景图像对应的图像级训练标签。当训练样本图像中包括多个对象实体时,服务器根据各个对象实体的图像级类别标签分别确定各个对象实体各自对应的图像级训练标签。
步骤210,将前景图像输入已训练的分类器中,得到对应的前景类别预测结果。
其中,分类器指的是用于分类的机器学习模型。该分类器可以为经过有监督的训练得到的神经网络模型,例如可以是VGG系列模型、Resnet等等。本申请实施例中的分类器是预先训练的分类器,训练的输入样本为已标注类别的图像。可以理解的是,为了使得分类器能够对前景图像的类别进行预测,而前景图像是从训练样本图像中截取对象实体对应的目标区域图像得到的,那么在对分类器进行训练时,需要使得分类器学习到图像分割样本集中所有对象实体的图像特征,也就是说在对分类器进行训练时,使用的分类样本集中需要包含图像分割样本集中的所有对象实体。在一个实施例中,服务器可以直接将图像分割图像样本集作为分类样本集来对分类器进行有监督训练。训练过程中可以采用梯度下降方法更新分类器的参数。
具体地,服务器将前景图像输入已训练的分类器中,通过分类器对前景图像中对象实体的类别进行预测,得到前景图像对应的前景类别预测结果。
在一个实施例中,前景类别预测结果可以是用于表征前景图像所属类别的类别标识,例如,该分类器可以用于对N个类别进行分类,则可以用N维向量(1,0,0,0,……,0)表示第一个类别,用向量(0,1,0,0,……,0)表示第二个类别,依次类推。
在另一个实施例中,前景类别预测结果可以是用于表征前景图像所属类别的概率,例如,该分类器可以用于对N个类别进行分类,那么分类器可以输出包括一个N维的概率向量,其中,每一个维度的概率用于表征前景图像属于该类别的可能性大小。
步骤212,根据前景类别预测结果及前景图像对应的图像级训练标签,计算前景损失。
其中,前景损失用于衡量前景类别预测结果与前景图像对应的图像级训练标签之间的差异大小,差异越大则损失越大。
具体地,服务器可以基于前景类别预测结果及前景图像对应的图像级训练标签构建损失函数,基于该损失函数来计算前景损失。其中,损失函数的类型可以采用常见的损失函数,例如,交叉熵损失函数(Cross-entropy loss function)、绝对值损失函数、log对数损失函数、指数损失函数等等。
步骤214,根据前景损失调整图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。
具体地,服务器在计算得到前景损失后,根据该前景损失来调整图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。在训练的过程中需要固定分类器的模型参数。其中,可以使用随机梯度下降算法、Adagrad((Adaptive Gradient,自适应梯度)算法、Adadelta(AdaGrad算法的改进)、RMSprop(AdaGrad算法的改进)、Adam(Adaptive Moment Estimation,自适应矩估计)算法等来调整图像分割网络的网络参数。当满足训练停止条件时,训练完成,得到目标图像分割网络,训练停止条件可以是网络参数不再发生变化,也可以是损失到达最小值,还可以是训练次数达到最大迭代次数等等。训练得到的训练停止条件可用于图像分割任务。
上述图像分割网络处理方法中,通过获取训练样本图像及训练样本图像中对象实体对应的图像级类别标签,将训练样本图像输入图像分割网络,得到训练样本图像对应的分割图,根据分割图从训练样本图像中截取对象实体对应的目标区域图像,得到对象实体对应的前景图像,根据对象实体对应的图像级类别标签确定前景图像对应的图像级训练标签,将前景图像输入已训练的分类器中,得到对应的前景类别预测结果,根据前景类别预测结果及前景图像对应的图像级训练标签,计算前景损失,根据前景损失调整图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络,实现了通过图像级类别标签来训练图像分割网络,由于图像级类别标签相较于像素级类别标签更加容易获取,因此,提高了图像分割网络的训练效率。
进一步,由于图像分割网络是根据前景图像的前景损失调整得到的,那么得到的图像分割网络在进行分割任务时,可以准确的预测出前景区域,而前景区域是对象实体所在的区域,因此可以对对象实体所在区域进行准确地划分,提高了图像分割准确性。
在一个实施例中,如图3所示,提供了一种图像分割网络处理方法,该图像分割网络处理方法包括以下步骤:
步骤302,获取训练样本图像及训练样本图像中对象实体对应的图像级类别标签。
步骤304,将训练样本图像输入图像分割网络,得到训练样本图像对应的分割图。
步骤306,根据分割图从训练样本图像中截取对象实体对应的目标区域图像,得到对象实体对应的前景图像。
步骤308,根据对象实体对应的图像级类别标签确定前景图像对应的图像级训练标签。
步骤310,将前景图像输入已训练的分类器中,得到对应的前景类别预测结果。
步骤312,根据前景类别预测结果及前景图像对应的图像级训练标签,计算前景损失。
步骤314,根据分割图从训练样本图像中截取对象实体对应的背景区域图像,得到对象实体对应的背景图像。
其中,对象实体对应的背景区域图像指的是训练样本图像中该对象实体对应的目标区域图像之外的区域图像。
具体地,服务器可以根据分割图从训练样本图像中截取对象实体对应的背景区域图像,得到对象实体对应的背景图像。
可以理解的是,当训练样本图像中存在多个对象实体时,由于各个对象实体对应的前景区域是不同的,那么相应的,各个对象实体对应的背景区域也是不同的,因此服务器需要根据分割图从训练样本图像中分别截取各个对象实体对应的背景区域图像,得到各个对象实体各自对应的背景图像。
举例说明,当训练样本图像中包含猫、狗时,则服务器需要根据分割图从训练样本图像中截取猫对应的背景区域图像以及狗对应的背景区域图像,将猫对应的背景区域图像作为猫的背景图像,将狗对应的背景区域图像作为狗的背景图像。
步骤316,根据对象实体对应的图像级类别标签确定背景图像对应的图像级训练标签。
其中,背景图像对应的图像级训练标签指的是在训练过程中对背景图像进行类别预测时的类别标签。可以理解的是,该图像级训练标签可以是正训练标签,也可以是负训练标签。基于正、负训练标签进行训练,可以提高训练的准确性。其中,负训练标签指的是背景图像对应的对象实体的类别标签,而正训练标签则是背景图像中其他对象实体的类别标签。
步骤318,将背景图像输入已训练的分类器中,得到对应的背景类别预测结果。
可以理解,该分类器与获取前景类别预测结果时使用到的分类器为相同的分类器。关于该分类器的描述可以参考上文实施例中的描述,本申请在此不赘述。
具体地,服务器将背景图像输入该已训练的分类器中,通过该分类器对背景图像的类别进行预测,得到背景类型预测结果。
在一个实施例中,背景类型预测结果可以是用于表征背景图像所属类别的类别标识,例如,该分类器可以用于对N个类别进行分类,则可以用N维向量(1,0,0,0,……,0)表示第一个类别,用向量(0,1,0,0,……,0)表示第二个类别,依次类推。可以理解的是,当背景图像中不存在任何分类器可以预测的类别时,则分类器可以输出(0,0,0,……,0),这里的分类器可以预测的类别指的是在对分类器进行训练时,分类器学习到的类别。
在另一个实施例中,背景类型预测结果可以是用于表征背景图像所属类别的概率,例如,该分类器可以用于对N个类别进行分类,那么分类器可以输出包括一个N维的概率向量,其中,每一个维度的概率用于表征前景图像属于该类别的可能性大小。可以理解的是,当背景图像中不存在任何分类器可以预测的类别时,那么分类器输出的概率向量中,每一个维度的概率都为0。
步骤320,根据背景类别预测结果及背景图像对应的图像级训练标签,计算背景损失。
其中,背景损失用于衡量背景类别预测结果与背景图像对应的图像级训练标签之间的差异大小,差异越大则背景损失越大。由于图像级训练标签是根据背景实体对应的图像级训练标签确定的,那么背景损失可以约束背景区域中不存在对象实体的特征,从而可以使得得到的分割图完整全面。
步骤322,根据前景损失及背景损失调整图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。
具体地,服务器在计算得到前景损失及背景损失后,可以对前景损失和背景损失进行加权融合,得到综合损失,然后根据该综合损失调整图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。
本实施例中,由于图像分割网络是根据前景图像的前景损失和背景图像的背景损失两个损失调整得到的,那么得到的图像分割网络在进行分割任务时,不仅可以准确地预测出对象实体所在的目标区域,同时可以保证背景图像中不存在对象实体对应的特征,从而保证预测的目标区域的完整性。
在一个实施例中,如图4所示,提供了一种图像分割网络处理方法,包括以下步骤:
步骤402,获取训练样本图像及训练样本图像中对象实体对应的图像级类别标签。
步骤404,将训练样本图像输入图像分割网络,得到训练样本图像对应的分割图。
步骤406,根据分割图从训练样本图像中截取对象实体对应的目标区域图像,得到对象实体对应的前景图像。
步骤408,根据对象实体对应的图像级类别标签确定前景图像对应的图像级训练标签。
步骤410,将前景图像输入已训练的分类器中,得到对应的前景类别预测结果。
步骤412,根据前景类别预测结果及前景图像对应的图像级训练标签,计算前景损失。
步骤414,根据分割图从训练样本图像中截取对象实体对应的背景区域图像,得到对象实体对应的背景图像。
步骤416,根据对象实体对应的图像级类别标签确定背景图像对应的图像级训练标签。
步骤418,将背景图像输入已训练的分类器中,得到对应的背景类别预测结果。
步骤420,根据背景类别预测结果及背景图像对应的图像级训练标签,计算背景损失。
步骤422,根据分割图的像素值计算像素平均值,得到平均像素损失。
其中,平均像素损失用于抑制背景区域激活。
具体地,服务器可以将分割图中每一个通道对应的特征图中的像素值进行累加,然后除以像素总数量,就可以得到平均像素损失。
步骤424,根据前景损失、背景损失及平均像素损失调整图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。
具体地,服务器在计算得到前景损失及背景损失后,可以对前景损失、背景损失和平均像素损失进行加权融合,得到综合损失,然后根据该综合损失调整图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。
本实施例中,由于图像分割网络是根据前景图像的前景损失、背景图像的背景损失以及评价像素损失三个损失协同作用进行调整得到的,那么得到的图像分割网络在进行分割任务时,不仅可以准确地预测出对象实体所在的目标区域,同时可以保证背景图像中不存在对象实体对应的像素,从而保证预测的目标区域的完整性。进一步,由于加入了平均像素损失,激活的像素均值越低,又要满足前景损失和背景损失,最终网络会选择将背景区域抑制。
在一个实施例中,根据分割图从训练样本图像中截取对象实体对应的目标区域图像,得到对象实体对应的前景图像,包括:根据分割图对训练样本图像中对象实体对应的目标区域进行局部显示处理以截取对象实体对应的目标区域图像,得到对象实体对应的前景图像。
其中,局部显示处理指的是对局部的像素进行加强,而对其他部分的像素进行抑制,或者对局部的像素保持不变,对其他部分的像素进行抑制,使得图像中突出显示局部的位置区域。
具体地,服务器在得到分割图后,可以根据分割图对训练样本图像中对象实体对应的目标区域进行局部显示处理,也就是对该对象实体所在区域的像素进行加强或者保持不变,而对其余区域的像素进行抑制,这样服务器就可以从训练样本图像中截取出对象实体对应的目标区域图像,得到对象实体对应的前景图像。
可以理解的是,当训练样本图像中包括多个对象实体时,服务器需要根据分割图对训练样本图像中各个对象实体所在的区域分别进行局部显示处理以截取各个对象实体各自对应的目标区域图像,得到各个对象实体各自对应的前景图像。
在一个实施例中,当需要对训练样本图像A中对象实体A1对应的目标区域图像进行局部显示处理时,服务器可以将分割图中对象实体A1对应通道的特征图中各个像素值分别与训练样本图像中对应位置的像素值相乘,由于对象实体A1对应通道的特征图中对象实体A1所在区域的像素大部分是被激活的,而其他区域的像素大部分被抑制,那么将分割图中对象实体A1对应通道的特征图中各个像素值分别与训练样本图像中对应位置的像素值相乘时,会使得对象实体A1所在的区域的像素得以加强,而其他区域的像素大部分被抑制,从而截取出对象实体A1对应的目标区域图像。
可以理解的是,当训练样本图像中包括多个对象实体时,需要对不同的对象实体对应的目标区域图像进行局部显示处理,那么可以将不同对象实体对应通道的特征图中各个像素值分别与训练样本图像中对应位置的像素值相乘,以截取各个对象实体各自对应的目标区域图像。举个例子,假设上述的训练样本图像A还包括对象实体A2,则在对对象实体A1所在的区域进行局部显示处理,将分割图中对象实体A1对应通道的特征图中各个像素值分别与训练样本图像中对应位置的像素值相乘,以截取对象实体A1对应的目标区域图像;将分割图中对象实体A2对应通道的特征图中各个像素值分别与训练样本图像中对应位置的像素值相乘,以截取对象实体A2对应的目标区域图像。
上述实施例中,通过对对象实体所在的区域进行局部显示处理,可以快速地从训练样本图像中截取对象实体对应的目标区域图像,从而提高前景图像截取的效率。
在一个实施例中,训练样本图像中包括多个对象实体,不同的对象实体对应的图像级类别标签组合得到标签集合;根据对象实体对应的图像级类别标签确定前景图像对应的图像级训练标签,包括:将与前景图像对应的对象实体匹配的图像级类别标签确定为前景图像对应的图像级正训练标签;将标签集合中,与前景图像对应的对象实体不匹配的图像级类别标签确定为前景图像对应的图像级负训练标签。
前景图像对应的图像级训练标签包括图像级正训练标签和图像级负训练标签。对于某个图像级类别标签,只有标签集合中存在该图像级类别标签,且前景图像对应的对象实体与该图像级类别标签对应的对象实体匹配时,该图像级类别标签才为该前景图像对应的图像级正训练标签,而标签集合中除去该图像级训练标签之外的其他图像级训练标签均为该前景图像对应的图像级负训练标签。
可以理解的是,在一个实施例中,图像分割样本集对应的图像级类别集合中该标签集合之外的其他图像级类别标签也可以确定为该前景图像对应的图像级负训练标签。
举个例子,假设某个训练样本A包括对象实体A1和对象实体A2,其中A1对应的图像级类别标签为X1,A2对应的图像级类别标签为X2,则图像级类别标签为X1、图像级类别标签为X2组合得到的标签集合为{ X1,X2},训练样本A所在的图像分割样本集对应的图像级类别集合为{X1,X2,Y1,Y2,Z1,Z2},则对于对象实体A1对应的前景图像,X1为该前景图像对应图像级正训练标签,而X2,Y1,Y2,Z1,Z2均为该前景图像对应图像级负训练标签;而对于对象实体A2对应的前景图像,X2为该前景图像对应图像级正训练标签,而X1,Y1,Y2,Z1,Z2均为该前景图像对应图像级负训练标签。
本实施例中,服务器将与前景图像对应的对象实体匹配的图像级类别标签确定为前景图像对应的图像级正训练标签,将标签集合中,与前景图像对应的对象实体不匹配的图像级类别标签确定为前景图像对应的图像级负训练标签,通过确定正训练标签和负训练标签,可以增加样本数量,使得训练过程中图像分割网络能够同时学习到正样本和负样本的特征,从而提高训练的准确性。
在一个实施例中,图像分割网络为全卷积网络;全卷积网络包括池化层和卷积层;将训练样本图像输入图像分割网络,得到训练样本图像对应的分割图,包括:将训练样本图像输入全卷积网络,通过全卷积网络的池化层对训练样本图像进行平均池化处理;通过全卷积网络的卷积层对池化处理得到的图像进行卷积处理,得到训练样本图像对应的分割图。
其中,全卷积网络(Fully Convolutional Networks,FCN)是将卷积神经网络(Convolutional Neural Networks, CNN),例如AlexNet,VGG,GoogLeNet等,最后的全连接层换成卷积层得到的神经网络。
本申请实施例中采用的全卷积网络包括池化层和卷积层。服务器将训练样本图像输入全卷积网络,通过全卷积网络的池化层对训练样本图像进行平均池化处理,将平均池化处理得到图像输入卷积层(即全卷积网络的最后一层)通过该卷积层对池化处理得到的图像进行卷积处理,在各个通道提取特征,最后输出各个通道的特征图,这些特征图即为训练样本图像对应的分割图。其中,平均池化(mean-pooling)即对局部接受域中的所有像素值求均值。
在一个具体的实施例中,全卷积网络包括两个池化层,第一层池化处理后得到的图像变为原图(即训练样本图像)大小的1/4,第二层池化处理后得到的图像变为原图大小的1/8。
在一个实施例中,将训练样本图像输入图像分割网络,得到训练样本图像对应的分割图,包括:将训练样本图像输入图像分割网络,得到训练样本图像对应的中间处理图像;对中间处理图像中的各个像素进行归一化处理,得到训练样本图像对应的分割图。
具体地,服务器将训练样本图像输入图像分割网络,通过分割网络进行处理后得到中间处理图像,进一步对中间处理图像中的各个像素进行归一化处理,得到训练样本图像对应的分割图。这里的中间处理图像即为未进行像素归一化处理的分割图。归一化处理指的是将像素值映射到0-1之间。
在一个实施例中,服务器可采用sigmoid激活函数对中间处理图进行归一化处理。其中,sigmoid激活函数是一种逻辑回归函数,取值范围为(0,1),它可以将一个实数映射到(0,1)的区间。Sigmoid函数由以下公式定义:
可以理解的是,在其他实施例中,服务器对中间处理图进行归一化处理还可以通过将所有像素值除以最大像素值来实现,最大像素值一般为255。
上述实施例中,通过对训练样本图像对应的中间处理图像中的各个像素进行归一化处理,可以减少训练过程中的计算量,从而提高模型训练效率。
在一个实施例中,分类器的训练步骤包括:获取初始分类器;将训练样本图像作为初始分类器的输入样本,将训练样本图像对应的图像级类别标签作为初始分类器的训练标签训练初始分类器;直至满足训练停止条件时,得到已训练的分类器。
具体地,服务器可以先确定分类器的模型结构信息,由于分类器可以是各种类型用于分类的模型,对于不同类型的用于分类的模型,所需要确定的模型结构信息也不相同。在确定了模型结构信息后,服务器可以初始化初始分类器的模型参数。实践中,可以将分类器的各个模型参数用一些不同的小随机数进行初始化。“小随机数”用来保证模型不会因权值过大而进入饱和状态,从而导致训练失败,“不同”用来保证模型可以正常地学习。
进一步,服务器将图像分割样本集中训练样本图像作为初始分类器的输入样本,将该输入样本对应的图像级类别标签作为对应的训练标签对初始分类进行有监督训练,当满足训练停止条件时,得到已训练的分类器。训练过程中,可以使用随机梯度下降算法、Adagrad算法、Adadelta算法、RMSprop算法、Adam算法等中的任意一种来调整分类器的模型参数。
具体地,假设为损失函数,表示输入为x和模型参数为的分类器,y为分类器输入x时对应的标签值,图像分割样本集中包含n个训练样本图像,其中所对应的标签值为,当前分类器参数对应的梯度为,学习率为,则在各个算法中对分类器的模型参数进行调整的具体方式如下:
1、随机梯度下降算法。将分类器参数变更为,并将变更后的参数作为分类器当前的参数继续进行迭代,直至达到预设的训练停止条件。训练停止条件可以是损失函数的损失值达到预设最小值,或连续预设次数迭代分类器性能无明显改善等。
4、Adadelta算法。假设小常数和衰减速率,初始化梯度累计变量,初始化参数差异累计变量d=0。当前梯度累计为,当前参数差异累计为,,则可以将分类器的参数变更为,将变更后的参数作为分类器当前的参数继续进行迭代,直至达到预设的训练停止条件。
5、Adam算法。假设小常数和衰减速率,初始化梯度累计变量,初始化累计动量。则当前梯度累计为,当前动量累计为,则可以将分类器的参数变更为,其中,,将变更后的参数作为分类器当前的参数继续进行迭代,直至达到预设的训练停止条件。
上述实施例中,通过使用训练样本图像及对应的图像级类别标签对分类器进行训练,使得得到的分类器能够对前景图像的类别进行准确的预测,从而提高图像分割的准确性。
在一个实施例中,根据分割图从训练样本图像中截取对象实体对应的背景区域图像,得到对象实体对应的背景图像,包括:根据分割图对训练样本图像中对象实体对应的目标区域图像进行消除处理以截取对象实体对应的背景区域图像,得到对象实体对应的背景图像。
具体地,在得到对象实体对应的前景图像后,服务器可以根据对象实体对应的前景图像对训练样本图像中对象实体对应的目标区域图像进行消除处理,从而得到该对象实体对应的背景图像。其中,消除处理指的是对某个区域的图像像素进行抑制,使得该区域的像素越小越好。
可以理解的是,当训练样本图像中包括多个对象实体时,服务器可以根据各个对象实体对应的前景图像分别对训练样本图像中各个对象实体各自对应的目标区域图像进行消除处理,得到各个对象实体各自对应的背景图像。
在一个实施例中,当需要对训练样本图像A中对象实体A1对应的目标区域图像进行消除处理进行消除处理时,服务器可以用1减去对象实体A1对应的特征图,得到反转分割图,将反转分割图乘以训练样本图像,得到对象实体对应的背景图像。
可以理解的是,当训练样本图像中包括多个对象实体时,需要根据各个对象实体对应的前景图像分别对训练样本图像中各个对象实体各自对应的目前区域图像进行消除处理,那么可以对于每一个对象实体,服务器都需要服务器用1减去该对象实体对应的特征图,得到该对象实体对应的反转分割图,将对象实体对应的反转分割图乘以训练样本图像,得到该对象实体对应的背景图像。
上述实施例中,通过对训练样本图像中对象实体对应的目标区域图像进行局部显示以截取对象实体对应的目标区域图像,并进一步对训练样本图像中对象实体对应的目标区域图像进行消除处理,可以快速地从训练样本图像中截取对象实体对应的背景图像,从而提高背景图像截取的效率。
在一个实施例中,训练样本图像中包括多个对象实体,不同的对象实体对应的图像级类别标签组合得到标签集合;根据对象实体对应的图像级类别标签确定背景图像对应的图像级训练标签,包括:将与背景图像对应的对象实体匹配的图像级类别标签确定为背景图像对应的图像级负训练标签;将标签集合中,与背景图像对应的对象实体不匹配、且与多个对象实体中其他对象实体匹配的图像级类别标签确定为背景图像对应的图像级正训练标签。
背景图像对应的图像级训练标签包括图像级正训练标签和图像级负训练标签。对于某个图像级类别标签,只有标签集合中存在该图像级类别标签,且背景图像对应的对象实体与该图像级类别标签对应的对象实体匹配时,该图像级类别标签才为该前景图像对应的图像级负训练标签,而标签集合中除去该图像级训练标签之外的其他图像级训练标签均为该前景图像对应的图像级正训练标签。
可以理解的是,在一个实施例中,图像分割样本集对应的图像级类别集合中该标签集合之外的其他图像级类别标签也可以确定为该前景图像对应的图像级负训练标签。
举个例子,假设某个训练样本A包括对象实体A1和对象实体A2,其中A1对应的图像级类别标签为X1,A2对应的图像级类别标签为X2,则图像级类别标签为X1、图像级类别标签为X2组合得到的标签集合为{ X1,X2},训练样本A所在的图像分割样本集对应的图像级类别集合为{X1,X2,Y1,Y2,Z1,Z2},则对于对象实体A1对应的背景图像,X1、Y1、Y2、Z1、Z2为该背景图像对应的图像级负训练标签,而X2为该背景图像对应的图像级正训练标签;而对于对象实体A2对应的背景图像,X2、Y1、Y2、Z1、Z2为该背景图像对应的图像级负训练标签,而X1为该背景图像对应的图像级正训练标签。
本实施例中,将与背景图像对应的对象实体匹配的图像级类别标签确定为背景图像对应的图像级负训练标签,将标签集合中,与背景图像对应的对象实体不匹配、但与多个对象实体中其他对象实体匹配的图像级类别标签确定为背景图像对应的图像级正训练标签,通过确定正训练标签和负训练标签,可以增加样本数量,使得训练过程中图像分割网络能够同时学习到正样本和负样本的特征,从而提高训练的准确性。
在一个实施例中,训练样本图像为图像分割样本集中的图像;图像分割样本集中各个训练样本图像中的对象实体组成对象实体集合;上述图像分割网络处理方法还包括:获取待分割图像;待分割图像中包括待分割对象;待分割对象与对象实体集合中至少一个对象实体匹配;将待分割图像输入目标图像分割网络,通过目标图像分割网络对待分割图像中待分割对象所在的图像区域进行划分,得到待分割图像对应的分割图。
其中,待分割图像指的是需要进行图像分割的图像。待分割对象指的是待分割图像中需要划分区域的对象实体。待分割对象与对象实体集合中至少一个对象实体匹配。
具体地,服务器在获取到待分割图像后,可以将待分割图像输入到目标图像分割网络中,通过目标图像分割网络对待分割图像中待分割对象所在的图像区域进行划分,得到待分割图像对应的分割图。
在一个实施例中,如图5所示,在上述步骤214之后,上述方法还包括:
步骤502,将训练样本图像输入目标图像分割网络,得到训练样本图像对应的分割图。
步骤504,根据分割图确定与对象实体对应的像素点,以生成训练样本图像对应的像素级训练标签。
其中,像素级训练标签指的是像素点的类别标签,该类别标签用于训练全监督分割网络。
具体地,分割图中包含各个类别对应通道的特征图,那么服务器可以根据对象实体对应的图像级类别标签确定对象实体对应的特征图,该特征图中的像素点则为该对象实体对应的像素点,将对象实体对应的图像级类别标签确定为这些像素点的类别标签,从而可以得到训练样本图像对应的像素级训练标签。
步骤506,获取初始全监督分割网络,根据训练样本图像及训练样本图像对应的像素级训练标签对初始全监督分割网络进行训练,直至满足训练停止条件时,得到目标全监督分割网络。
其中,初始全监督分割网络指的是可用于图像分割的机器学习模型,该机器学习模型需要采用像素级标签进行有监督的模型训练,而由于图像分割实质上实现的是对像素点的分类,因此通过像素级标签进行训练可以看成是全监督训练。目标全监督分割网络用于对待分割图像中待分割对象所在的图像区域进行划分,得到待分割图像对应的分割图。
具体地,服务器获取初始全监督分割网络,可以先确定初始全监督分割网络的模型结构,例如可以选取deeplab系列网络、SPPNet 网络、UNet网络等等。其中:
1、对于deeplab系列网络,以deeplabV1网络为例,deeplabV1是在VGG16模型的基础上进行的改进,此处的VGG16模型指的是牛津大学计算机视觉组(Visual Geometry Group)和Google DeepMind公司的研究员一起研发出了新的深度卷积神经网络。具体地,将VGG16模型的全连接层转为卷积,最后两个池化层去掉,后续使用空洞卷积,并且使用CRF(Conditional Random Field,条件随机场)使最后分类结果的边缘更加精细。deeplabV1网络,其结构包括自下而上依次包括:两层64 x 3x3的卷积层、一层2x2的最大池化层、两层128 x 3x3的卷积层、一层2x2的最大池化层、三层256 x 3x3的卷积层、一层2x2的最大池、三层512 x 3x3的卷积层、空洞卷积层、三个512 x 3x3的卷积层、空洞卷积层、三层1x1的卷积层以及全连接条件随机场,其中,卷积层的激活函数采用Relu函数。
2、SPPNet 网络指的是包含SPP层(Spatital Pyramid Pooling,空间金字塔池化)的卷积神经网络,SPP层通常连接在最后一层卷积之后,SPP层的输入是卷积层输出的任意尺寸的特征映射,SPP层的输出是固定长度的表示,也就是说,SPP层将固定维度的向量传给之后的全连接层。其中,SPP层使用很多spatial bins(空间箱)对特征映射应用池化操作(比如最大池化)。空间箱的个数是固定的,大小与特征映射的尺寸(对应训练样本图像的尺寸)成比例,这就保证了SPP层的输出向量的维数是固定的。
3、UNet网络由编码网络、解码网络及1x1的卷积层组成。其中编码网络由两个3x3的卷积层(激活函数为ReLU)和一个2x2的最大池化层(步长stride=2)组成,每经过一次下采样,通道数翻倍;解码网络由一个2x2的上采样卷积层(激活函数为ReLU)、混合层(Concatenation)以及两个3x3的卷积层(激活函数为ReLU)构成,其中混合层用于将编码层的输出的特征图与解码层的上采样结果相加;1x1卷积层将通道数变成期望的类别数。
在确定了初始全监督分割网络的模型结构后,可以初始化初始全监督分割网络的模型参数。在一个具体的实施例中,可以将初始特征提取模型的各个模型参数用一些不同的小随机数进行初始化。
进一步,服务器将训练样本图像输入初始全监督分割网络,根据初始权监督网络的输出结果与像素级训练标签之间的差异调整全监督分割网络的网络参数,直至满足训练停止条件时,得到目标全监督分割网络。该目标全监督分割网络由于是用像素级训练标签训练得到的,因此能够对待分割图像进行像素级的分类,即对待分割图像中的像素点进行分类,根据分类结果对待分割对象所在的图像区域进行划分,得到待分割图像对应的分割图。
在一个实施例中,为了进一步提高目标全监督分割网络处理图像分割任务的准确性,还可以进一步获取手动标注像素级训练标签的样本图像来对该目标全监督分割网络进行微调。
上述实施例中,通过训练得到的目标图像分割网络来生成训练样本图像的像素级训练标签,根据该像素级训练标签训练全监督分割网络,得到的目标全监督分割网络可用于图像分割任务,进行精确的图像分割处理。
在一个具体的实施例中,本申请实施例提供的图像分割网络处理方法的框架图如图6所示。参考图6,该框架图中包括一个全卷积网络以及多个已训练的分类器,其中,分类器和全卷积网络共享权重。下面结合图6对本实施例的步骤进行说明:
1、服务器首先将训练样本图像输入到全卷积网络中,该训练样本图像中包括摩托车和人两个对象实体,则该训练样本图像的图像级类别标签为“摩托车”、“人”,通过全卷积网络对该训练样本图像进行处理后,得到对应的分割图;
2、服务器将分割图中摩托车这一类别对应通道的特征图乘以原始图像(即训练样本图像),得到摩托车这一对象实体对应的前景图像,将该前景图像输入已训练的分类器中,同时,用1减去摩托车对应的特征图得到对应的反转分割图,该反转分割图乘以原始图像,得到摩托车对应的背景图像,将该前景图像输入已训练的分类器中;
3、服务器将分割图中人这一类别对应通道的特征图乘以原始图像(即训练样本图像),得到人这一对象实体对应的前景图像,将该前景图像输入已训练的分类器中,同时,用1减去人对应的特征图得到对应的反转分割图,将该反转分割图乘以原始图像,得到人对应的背景图像,将该前景图像输入已训练的分类器中;
4、各个分类器对输入的图像进行类别预测,服务器根据各个类别预测结果计算前景损失和背景损失,同时服务器还获取平均像素损失,根据前景损失、背景损失和平均像素损失计算综合损失,反向传播该损失,调整全卷积网络的参数并继续训练。在训练过程中需要固定分类器的参数,直至满足训练停止条件时,得到目标全卷积网络。
可以理解的是,本实施例中各个步骤的实施细节可参考上文实施例的描述,本申请在此不赘述。
在一个具体的实施例中,提供了一种图像分割网络处理方法,具体包括以下步骤:
1、服务器获取训练样本图像及训练样本图像中对象实体对应的图像级类别标签。
2、服务器将训练样本图像输入图像分割网络,得到训练样本图像对应的分割图。
具体地,服务器将训练样本图像输入全卷积网络,通过全卷积网络的池化层对训练样本图像进行平均池化处理,通过全卷积网络的卷积层对池化处理得到的图像进行卷积处理,得到训练样本图像对应的中间处理图像,对中间处理图像中的各个像素进行归一化处理,得到训练样本图像对应的分割图。
3、服务器根据分割图从训练样本图像中截取对象实体对应的目标区域图像,得到对象实体对应的前景图像。
具体地,服务器根据分割图对训练样本图像中对象实体对应的目标区域进行局部显示处理以截取对象实体对应的目标区域图像,得到对象实体对应的前景图像。
4、服务器根据对象实体对应的图像级类别标签确定前景图像对应的图像级训练标签。
5、服务器将前景图像输入已训练的分类器中,得到对应的前景类别预测概率。
6、服务器根据前景类别预测结果及前景图像对应的图像级训练标签,计算前景损失。
具体地,服务器可参照以下公式(1)损失函数计算前景损失:
其中,N代表每个批次的训练样本图片数量,O代表该训练样本图像中存在的类别,C代表图像级类别集合中的类别,代表图像级类别标签,代表前景类别预测概率,代表图像级训练标签,;其中,参照以下公式(2)进行确定:
7、服务器根据分割图从训练样本图像中截取对象实体对应的背景区域图像,得到对象实体对应的背景图像。
具体地,服务器根据分割图对训练样本图像中对象实体对应的目标区域图像进行消除处理以截取对象实体对应的背景区域图像,得到对象实体对应的背景图像。
8、服务器根据对象实体对应的图像级类别标签确定背景图像对应的图像级训练标签。
9、服务器将背景图像输入已训练的分类器中,得到对应的背景类别预测结果。
10、服务器根据背景类别预测结果及背景图像对应的图像级训练标签,计算背景损失。
11、服务器根据分割图的像素值计算像素平均值,得到平均像素损失。
具体地,服务器可参照以下公式(4)计算评价像素损失,其中,N代表每个批次的训练样本图片数量,C代表图像级类别集合中的类别,H代表训练样本图像的长度,W代表训练样本图像的宽度,P代表像素值:
12、服务器根据前景损失、背景损失及平均像素损失调整图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。
具体地,服务器参照以下公式(5)计算综合损失,根据综合损失调整图像分割网络
的网络参数,直至满足训练停止条件,得到目标图像分割网络。其中,为前景损失,
为背景损失,为平均像素损失,为平衡三个损失的超参数:
13、服务器获取待分割图像;待分割图像中包括待分割对象;待分割对象与对象实体集合中至少一个对象实体匹配。
14、服务器将待分割图像输入目标图像分割网络,通过目标图像分割网络对待分割图像中待分割对象所在的图像区域进行划分,得到待分割图像对应的分割图。
其中,训练样本图像为图像分割样本集中的图像;图像分割样本集中各个训练样本图像中的对象实体组成对象实体集合。
15、服务器将训练样本图像输入目标图像分割网络,得到训练样本图像对应的分割图。
16、服务器根据分割图确定与对象实体对应的像素点,以生成训练样本图像对应的像素级训练标签。
17、服务器获取初始全监督分割网络,根据训练样本图像及训练样本图像对应的像素级训练标签对初始全监督分割网络进行训练,直至满足训练停止条件时,得到目标全监督分割网络。
其中,目标全监督分割网络用于对待分割图像中待分割对象所在的图像区域进行划分,得到待分割图像对应的分割图。
在一个实施例中,如图7所示,提供了一种图像分割方法,以该方法应用于图1中的终端为例进行说明,可以理解的是,该方法也可以应用于服务器中,还可以应用于包括终端和服务器的***,并通过终端和服务器的交互实现。本实施例中,该图像分割方法包括以下步骤:
步骤702,获取待分割图像;待分割图像中包含待分割对象。
步骤704,将待分割图像输入至目标图像分割网络,通过目标图像分割网络对待分割对象所在的图像区域进行划分。
其中,目标图像分割网络是根据前景损失训练得到的;前景损失是根据前景类别预测结果及前景图像对应的图像级训练标签计算得到的;前景类别预测结果是通过将从训练样本图像中截取的前景图像输入已训练的分类器中预测得到的;训练样本图像中对象实体存在对应的图像级类别标签;前景图像对应的图像级训练标签是根据对象实体对应的图像级类别标签确定的。
步骤706,获取目标图像分割网络输出的待分割图像对应的分割图。
上述步骤702-704的具体细节可参考上文实施例中的描述,本申请在此不赘述。
上述图像分割方法,通过获取目标图像分割网络,该目标图像分割网络是根据前景损失训练得到的,前景损失是根据前景类别预测结果及前景图像对应的图像级训练标签计算得到的,前景类别预测结果是通过将从训练样本图像中截取的前景图像输入已训练的分类器中预测得到的,训练样本图像中对象实体存在对应的图像级类别标签,前景图像对应的图像级训练标签是根据对象实体对应的图像级类别标签确定的,将待分割图像输入该目标图像分割网络,通过目标图像分割网络对待分割对象所在的图像区域进行划分,得到待分割图像对应的分割图,从而实现图像分割,由于图像分割网络是根据前景图像的前景损失调整得到的,那么得到的图像分割网络在进行分割任务时,可以准确的预测出前景区域,而前景区域是对象实体所在的区域,因此可以对对象实体所在区域进行准确地划分,提高了图像分割准确性。
在一个实施例中,在获取目标图像分割网络之前,该图像分割方法还包括:根据分割图从训练样本图像中截取对象实体对应的背景区域图像,得到对象实体对应的背景图像;根据对象实体对应的图像级类别标签确定背景图像对应的图像级训练标签;将背景图像输入已训练的分类器中,得到对应的背景类别预测结果;根据背景类别预测结果及背景图像对应的图像级训练标签,计算背景损失;根据前景损失及背景损失调整图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。
在一个实施例中,在根据前景损失及背景损失调整图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络之前,该图像分割方法还包括:根据分割图的像素值计算像素平均值,得到平均像素损失;根据前景损失及背景损失调整图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络,包括:根据前景损失、背景损失及平均像素损失调整图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。
本申请还提供一种应用场景,该应用场景应用上述的图像分割网络处理方法及图像分割方法。在该应用场景中,服务器用于执行图像分割网络处理方法,得到目标图像分割网络并下发至终端,终端上运行的图像处理应用执行图像分割方法对用户提供的包含人体的待分割图像进行图像分割处理,分割出人体所在的区域。具体地,该方法在该应用场景的应用如下:
1、服务器首先获取图像分割样本集,该图像分割样本集中训练样本图像都是包含人体的图像,这些训练样本图像对应的图像级类别标签都为人体,然后服务器将该图像分割样本集中的训练样本图像输入全卷积网络,通过全卷积网络的池化层对训练样本图像进行平均池化处理,通过全卷积网络的卷积层对池化处理得到的图像进行卷积处理,得到训练样本图像对应的中间处理图像,对中间处理图像中的各个像素进行归一化处理,得到训练样本图像对应的分割图,服务器根据分割图对训练样本图像中人体对应的目标区域进行局部显示处理以截取人体对应的目标区域图像,得到人体对应的前景图像,服务器将“人体”这一图像级类别标签确定为前景图像对应的图像级训练标签,将人体对应的前景图像输入已训练的分类器中,得到对应的前景类别预测概率,此时,在对前景图像进行类别预测时,前景图像对应的分类器对于“人体”这一类别期望的输出为1,从而服务器可以根据前景类别预测概率与1之间的差异确定前景损失。
2、服务器根据分割图对训练样本图像中人体对应的目标区域图像进行消除处理以截取人体对应的背景区域图像,得到人体对应的背景图像,将该背景图像输入分类器中,得到背景类别预测概率,为了保证人体能够完整的分割出来,需要保证背景图像中不存在人体的特征,因此,在对背景图像进行类别预测时,背景图像对应的分类器对于“人体”这一个类别期望的输出为0,那么服务器可以根据背景类别预测概率与0之间的差异确定背景损失。
3、服务器还根据分割图的像素值计算像素平均值,得到平均像素损失。
4、服务器将前景损失、背景损失及平均像素损失加权融合得到综合概率,基于该综合概率调整图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络,服务器将目标图像分割网络发送至终端。
5、终端上运行图像处理应用,该图像处理应用根据用户的选择操作确定包含人体的待分割图像,将该待分割图像输入目标图像分割网络,通过目标图像分割网络对人体所在的图像区域进行划分,得到人体图像对应的分割图,基于该分割图,终端可实现各种娱乐应用。例如,照片背景替换、证件照制作等娱乐应用。
应该理解的是,虽然图1-10的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-10中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种图像分割网络处理装置800,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:
样本获取模块802,用于获取训练样本图像及训练样本图像中对象实体对应的图像级类别标签;
样本输入模块804,用于将训练样本图像输入图像分割网络,得到训练样本图像对应的分割图;
前景图像获取模块806,用于根据分割图从训练样本图像中截取对象实体对应的目标区域图像,得到对象实体对应的前景图像;
前景标签确定模块808,用于根据对象实体对应的图像级类别标签确定前景图像对应的图像级训练标签;
前景类别预测模块810,用于将前景图像输入已训练的分类器中,得到对应的前景类别预测结果;
前景损失计算模块812,用于根据前景类别预测结果及前景图像对应的图像级训练标签,计算前景损失;
训练模块814,用于根据前景损失调整图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。
在一个实施例中,上述装置还包括:背景损失确定模块,用于根据分割图从训练样本图像中截取对象实体对应的背景区域图像,得到对象实体对应的背景图像;根据对象实体对应的图像级类别标签确定背景图像对应的图像级训练标签;将背景图像输入已训练的分类器中,得到对应的背景类别预测结果;根据背景类别预测结果及背景图像对应的图像级训练标签,计算背景损失;训练模块还用于根据前景损失及背景损失调整图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。
在一个实施例中,上述装置还包括:像素损失确定模块,用于根据分割图的像素值计算像素平均值,得到平均像素损失;训练模块还用于根据前景损失、背景损失及平均像素损失调整图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。
在一个实施例中,前景图像获取模块还用于根据分割图对训练样本图像中对象实体对应的目标区域进行局部显示处理以截取对象实体对应的目标区域图像,得到对象实体对应的前景图像。
在一个实施例中,训练样本图像中包括多个对象实体,不同的对象实体对应的图像级类别标签组合得到标签集合;前景标签确定模块还用于将与前景图像对应的对象实体匹配的图像级类别标签确定为前景图像对应的图像级正训练标签;将标签集合中,与前景图像对应的对象实体不匹配的图像级类别标签确定为前景图像对应的图像级负训练标签。
在一个实施例中,图像分割网络为全卷积网络;全卷积网络包括池化层和卷积层;样本输入模块还用于将训练样本图像输入全卷积网络,通过全卷积网络的池化层对训练样本图像进行平均池化处理;通过全卷积网络的卷积层对池化处理得到的图像进行卷积处理,得到训练样本图像对应的分割图。
在一个实施例中,样本输入模块还用于将训练样本图像输入图像分割网络,得到训练样本图像对应的中间处理图像;对中间处理图像中的各个像素进行归一化处理,得到训练样本图像对应的分割图。
在一个实施例中,上述装置还包括:预训练模块,用于获取初始分类器;将训练样本图像作为初始分类器的输入样本,将训练样本图像对应的图像级类别标签作为初始分类器的训练标签训练初始分类器;直至满足训练停止条件时,得到已训练的分类器。
在一个实施例中,背景损失确定模块还用于根据分割图对训练样本图像中对象实体对应的目标区域图像进行消除处理以截取对象实体对应的背景区域图像,得到对象实体对应的背景图像。
在一个实施例中,训练样本图像中包括多个对象实体,不同的对象实体对应的图像级类别标签组合得到标签集合;背景损失确定模块还用于将与背景图像对应的对象实体匹配的图像级类别标签确定为背景图像对应的图像级负训练标签;将标签集合中,与背景图像对应的对象实体不匹配、且与多个对象实体中其他对象实体匹配的图像级类别标签确定为背景图像对应的图像级正训练标签。
在一个实施例中,训练样本图像为图像分割样本集中的图像;图像分割样本集中各个训练样本图像中的对象实体组成对象实体集合;上述装置还包括:图像分割模块,用于获取待分割图像;待分割图像中包括待分割对象;待分割对象与对象实体集合中至少一个对象实体匹配;将待分割图像输入目标图像分割网络,通过目标图像分割网络对待分割图像中待分割对象所在的图像区域进行划分,得到待分割图像对应的分割图。
在一个实施例中,上述装置还包括:全监督训练模块,用于将训练样本图像输入目标图像分割网络,得到训练样本图像对应的分割图;根据分割图确定与对象实体对应的像素点,以生成训练样本图像对应的像素级训练标签;获取初始全监督分割网络,根据训练样本图像及训练样本图像对应的像素级训练标签对初始全监督分割网络进行训练,直至满足训练停止条件时,得到目标全监督分割网络;目标全监督分割网络用于对待分割图像中待分割对象所在的图像区域进行划分,得到待分割图像对应的分割图。
上述图像分割网络处理装置,通过获取训练样本图像及训练样本图像中对象实体对应的图像级类别标签,将训练样本图像输入图像分割网络,得到训练样本图像对应的分割图,根据分割图从训练样本图像中截取对象实体对应的目标区域图像,得到对象实体对应的前景图像,根据对象实体对应的图像级类别标签确定前景图像对应的图像级训练标签,将前景图像输入已训练的分类器中,得到对应的前景类别预测结果,根据前景类别预测结果及前景图像对应的图像级训练标签,计算前景损失,根据前景损失调整图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络,实现了通过图像级类别标签来训练图像分割网络,由于图像级类别标签相较于像素级类别标签更加容易获取,因此,提高了图像分割网络的训练效率。
进一步,由于图像分割网络是根据前景图像的前景损失调整得到的,那么得到的图像分割网络在进行分割任务时,可以准确的预测出前景区域,而前景区域是对象实体所在的区域,因此可以对对象实体所在区域进行准确地划分,提高了图像分割准确性。
在一个实施例中,如图9所示,提供了一种图像分割装置900,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:
图像获取模块902,用于获取待分割图像;待分割图像中包含待分割对象;
图像分割模块904,用于将待分割图像输入至目标图像分割网络,通过目标图像分割网络对待分割对象所在的图像区域进行划分;目标图像分割网络是根据前景损失训练得到的;前景损失是根据前景类别预测结果及前景图像对应的图像级训练标签计算得到的;前景类别预测结果是通过将从训练样本图像中截取的前景图像输入已训练的分类器中预测得到的;训练样本图像中对象实体存在对应的图像级类别标签;前景图像对应的图像级训练标签是根据对象实体对应的图像级类别标签确定的;
分割图获取模块906,用于获取目标图像分割网络输出的待分割图像对应的分割图。
在一个实施例中,上述图像分割装置还包括:训练模块,用于根据分割图从训练样本图像中截取对象实体对应的背景区域图像,得到对象实体对应的背景图像;根据对象实体对应的图像级类别标签确定背景图像对应的图像级训练标签;将背景图像输入已训练的分类器中,得到对应的背景类别预测结果;根据背景类别预测结果及背景图像对应的图像级训练标签,计算背景损失;根据前景损失及背景损失调整图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。
在一个实施例中,训练模块还用于根据分割图的像素值计算像素平均值,得到平均像素损失;根据前景损失、背景损失及平均像素损失调整图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。
上述图像分割装置,通过获取目标图像分割网络,目标图像分割网络是根据前景损失训练得到的,前景损失是根据前景类别预测结果及前景图像对应的图像级训练标签计算得到的,前景类别预测结果是通过将从训练样本图像中截取的前景图像输入已训练的分类器中预测得到的,训练样本图像中对象实体存在对应的图像级类别标签,前景图像对应的图像级训练标签是根据对象实体对应的图像级类别标签确定的,将待分割图像输入该目标图像分割网络,通过目标图像分割网络对待分割对象所在的图像区域进行划分,得到待分割图像对应的分割图,从而实现图像分割,由于图像分割网络是根据前景图像的前景损失调整得到的,那么得到的图像分割网络在进行分割任务时,可以准确的预测出前景区域,而前景区域是对象实体所在的区域,因此可以对对象实体所在区域进行准确地划分,提高了图像分割准确性。
关于图像分割网络处理装置以及图像分割装置的具体限定可以参见上文中对于图像分割网络处理方法以及图像分割方法的限定,在此不再赘述。上述图像分割网络处理装置以及图像分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像分割样本集。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像分割网络处理方法或者图像分割方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中图像分割网络处理方法或者图像分割方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中图像分割网络处理方法或者图像分割方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (17)
1.一种图像分割网络处理方法,其特征在于,所述方法包括:
获取训练样本图像及所述训练样本图像中对象实体对应的图像级类别标签;
将所述训练样本图像输入图像分割网络,得到所述训练样本图像对应的分割图;
根据所述分割图从所述训练样本图像中截取所述对象实体对应的目标区域图像,得到所述对象实体对应的前景图像;
根据所述对象实体对应的图像级类别标签确定所述前景图像对应的图像级训练标签;
将所述前景图像输入已训练的分类器中,得到对应的前景类别预测结果;
根据所述前景类别预测结果及所述前景图像对应的图像级训练标签,计算前景损失;
根据所述前景损失调整所述图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述前景损失调整所述图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络之前,所述方法还包括:
根据所述分割图从所述训练样本图像中截取所述对象实体对应的背景区域图像,得到所述对象实体对应的背景图像;
根据所述对象实体对应的图像级类别标签确定所述背景图像对应的图像级训练标签;
将所述背景图像输入已训练的分类器中,得到对应的背景类别预测结果;
根据所述背景类别预测结果及所述背景图像对应的图像级训练标签,计算背景损失;
所述根据所述前景损失调整所述图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络,包括:
根据所述前景损失及所述背景损失调整所述图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。
3.根据权利要求2所述的方法,其特征在于,在所述根据所述前景损失及所述背景损失调整所述图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络之前,所述方法还包括:
根据所述分割图的像素值计算像素平均值,得到平均像素损失;
所述根据所述前景损失及所述背景损失调整所述图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络,包括:
根据所述前景损失、所述背景损失及所述平均像素损失调整所述图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。
4.根据权利要求1所述的方法,其特征在于,所述根据所述分割图从所述训练样本图像中截取所述对象实体对应的目标区域图像,得到所述对象实体对应的前景图像,包括:
根据所述分割图对所述训练样本图像中所述对象实体对应的目标区域进行局部显示处理以截取所述对象实体对应的目标区域图像,得到所述对象实体对应的前景图像。
5.根据权利要求1所述的方法,其特征在于,所述训练样本图像中包括多个对象实体,不同的对象实体对应的图像级类别标签组合得到标签集合;所述根据所述对象实体对应的图像级类别标签确定所述前景图像对应的图像级训练标签,包括:
将与所述前景图像对应的对象实体匹配的图像级类别标签确定为所述前景图像对应的图像级正训练标签;
将所述标签集合中,与所述前景图像对应的对象实体不匹配的图像级类别标签确定为所述前景图像对应的图像级负训练标签。
6.根据权利要求1所述的方法,其特征在于,所述图像分割网络为全卷积网络;所述全卷积网络包括池化层和卷积层;所述将所述训练样本图像输入图像分割网络,得到所述训练样本图像对应的分割图,包括:
将所述训练样本图像输入所述全卷积网络,通过所述全卷积网络的池化层对所述训练样本图像进行平均池化处理;
通过所述全卷积网络的卷积层对池化处理得到的图像进行卷积处理,得到所述训练样本图像对应的分割图。
7.根据权利要求1所述的方法,其特征在于,所述将所述训练样本图像输入图像分割网络,得到所述训练样本图像对应的分割图,包括:
将所述训练样本图像输入图像分割网络,得到所述训练样本图像对应的中间处理图像;
对所述中间处理图像中的各个像素进行归一化处理,得到所述训练样本图像对应的分割图。
8.根据权利要求1所述的方法,其特征在于,所述分类器的训练步骤包括:
获取初始分类器;
将所述训练样本图像作为所述初始分类器的输入样本,将所述训练样本图像对应的图像级类别标签作为所述初始分类器的训练标签训练所述初始分类器;
直至满足训练停止条件时,得到已训练的分类器。
9.根据权利要求2所述的方法,其特征在于,所述根据所述分割图从所述训练样本图像中截取所述对象实体对应的背景区域图像,得到所述对象实体对应的背景图像,包括:
根据所述分割图对所述训练样本图像中所述对象实体对应的目标区域图像进行消除处理以截取所述对象实体对应的背景区域图像,得到所述对象实体对应的背景图像。
10.根据权利要求2所述的方法,其特征在于,所述训练样本图像中包括多个对象实体,不同的对象实体对应的图像级类别标签组合得到标签集合;所述根据所述对象实体对应的图像级类别标签确定所述背景图像对应的图像级训练标签,包括:
将与所述背景图像对应的对象实体匹配的图像级类别标签确定为所述背景图像对应的图像级负训练标签;
将所述标签集合中,与所述背景图像对应的对象实体不匹配、且与所述多个对象实体中其他对象实体匹配的图像级类别标签确定为所述背景图像对应的图像级正训练标签。
11.根据权利要求1至10任意一项所述的方法,其特征在于,所述训练样本图像为图像分割样本集中的图像;所述图像分割样本集中各个训练样本图像中的对象实体组成对象实体集合;所述方法还包括:
获取待分割图像;所述待分割图像中包括待分割对象;所述待分割对象与所述对象实体集合中至少一个对象实体匹配;
将所述待分割图像输入所述目标图像分割网络,通过所述目标图像分割网络对所述待分割图像中待分割对象所在的图像区域进行划分,得到所述待分割图像对应的分割图。
12.根据权利要求1至10任意一项所述的方法,其特征在于,在所述根据所述前景损失调整所述图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络之后,所述方法还包括:
将所述训练样本图像输入所述目标图像分割网络,得到所述训练样本图像对应的分割图;
根据所述分割图确定与所述对象实体对应的像素点,以生成所述训练样本图像对应的像素级训练标签;
获取初始全监督分割网络,根据所述训练样本图像及所述训练样本图像对应的像素级训练标签对所述初始全监督分割网络进行训练,直至满足训练停止条件时,得到目标全监督分割网络;
所述目标全监督分割网络用于对待分割图像中待分割对象所在的图像区域进行划分,得到所述待分割图像对应的分割图。
13.一种图像分割方法,其特征在于,所述方法包括:
获取待分割图像;所述待分割图像中包含待分割对象;
将所述待分割图像输入至目标图像分割网络,通过所述目标图像分割网络对所述待分割对象所在的图像区域进行划分;所述目标图像分割网络是根据前景损失训练得到的;所述前景损失是根据前景类别预测结果及所述前景图像对应的图像级训练标签计算得到的;所述前景类别预测结果是通过将从训练样本图像中截取的前景图像输入已训练的分类器中预测得到的;所述训练样本图像中对象实体存在对应的图像级类别标签;所述前景图像对应的图像级训练标签是根据所述对象实体对应的图像级类别标签确定的;
获取所述目标图像分割网络输出的所述待分割图像对应的分割图。
14.一种图像分割网络处理装置,其特征在于,所述装置包括:
样本获取模块,用于获取训练样本图像及所述训练样本图像中对象实体对应的图像级类别标签;
样本输入模块,用于将所述训练样本图像输入图像分割网络,得到所述训练样本图像对应的分割图;
前景图像获取模块,用于根据所述分割图从所述训练样本图像中截取所述对象实体对应的目标区域图像,得到所述对象实体对应的前景图像;
前景标签确定模块,用于根据所述对象实体对应的图像级类别标签确定所述前景图像对应的图像级训练标签;
前景类别预测模块,用于将所述前景图像输入已训练的分类器中,得到对应的前景类别预测结果;
前景损失计算模块,用于根据所述前景类别预测结果及所述前景图像对应的图像级训练标签,计算前景损失;
训练模块,用于根据所述前景损失调整所述图像分割网络的网络参数,直至满足训练停止条件,得到目标图像分割网络。
15.一种图像分割装置,其特征在于,所述装置包括:
图像获取模块,用于获取待分割图像;所述待分割图像中包含待分割对象;
图像分割模块,用于将所述待分割图像输入至目标图像分割网络,通过所述目标图像分割网络对所述待分割对象所在的图像区域进行划分;所述目标图像分割网络是根据前景损失训练得到的;所述前景损失是根据前景类别预测结果及所述前景图像对应的图像级训练标签计算得到的;所述前景类别预测结果是通过将从训练样本图像中截取的前景图像输入已训练的分类器中预测得到的;所述训练样本图像中对象实体存在对应的图像级类别标签;所述前景图像对应的图像级训练标签是根据所述对象实体对应的图像级类别标签确定的;
分割图获取模块,用于获取所述目标图像分割网络输出的所述待分割图像对应的分割图。
16.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至13中任一项所述的方法的步骤。
17.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011444345.8A CN112232355B (zh) | 2020-12-11 | 2020-12-11 | 图像分割网络处理、图像分割方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011444345.8A CN112232355B (zh) | 2020-12-11 | 2020-12-11 | 图像分割网络处理、图像分割方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112232355A true CN112232355A (zh) | 2021-01-15 |
CN112232355B CN112232355B (zh) | 2021-04-02 |
Family
ID=74124081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011444345.8A Active CN112232355B (zh) | 2020-12-11 | 2020-12-11 | 图像分割网络处理、图像分割方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112232355B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313215A (zh) * | 2021-07-30 | 2021-08-27 | 腾讯科技(深圳)有限公司 | 图像数据处理方法、装置、计算机设备和存储介质 |
CN113361584A (zh) * | 2021-06-01 | 2021-09-07 | 推想医疗科技股份有限公司 | 模型训练的方法及装置、肺动脉高压的测量方法及装置 |
CN113743306A (zh) * | 2021-09-06 | 2021-12-03 | 浙江广厦建设职业技术大学 | 一种基于slowfast双帧速率的实时智能视频监控异常行为分析方法 |
CN115880249A (zh) * | 2022-12-13 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 基于图像的对象分割方法、装置、设备和介质 |
CN116274170A (zh) * | 2023-03-27 | 2023-06-23 | 中建三局第一建设工程有限责任公司 | 一种激光清洗设备的控制方法、***及相关装置 |
CN116630971A (zh) * | 2023-07-24 | 2023-08-22 | 安徽大学 | 基于CRF_ResUnet++网络的小麦赤霉病孢子分割方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784424A (zh) * | 2019-03-26 | 2019-05-21 | 腾讯科技(深圳)有限公司 | 一种图像分类模型训练的方法、图像处理的方法及装置 |
CN110111340A (zh) * | 2019-04-28 | 2019-08-09 | 南开大学 | 基于多路割的弱监督实例分割方法 |
CN110675421A (zh) * | 2019-08-30 | 2020-01-10 | 电子科技大学 | 基于少量标注框的深度图像协同分割方法 |
CN111369572A (zh) * | 2020-02-28 | 2020-07-03 | 清华大学深圳国际研究生院 | 一种基于图像修复技术的弱监督语义分割方法和装置 |
CN111652887A (zh) * | 2020-05-13 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 图像分割模型训练方法、装置、计算机设备及存储介质 |
CN111723813A (zh) * | 2020-06-05 | 2020-09-29 | 中国科学院自动化研究所 | 基于类内判别器的弱监督图像语义分割方法、***、装置 |
-
2020
- 2020-12-11 CN CN202011444345.8A patent/CN112232355B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784424A (zh) * | 2019-03-26 | 2019-05-21 | 腾讯科技(深圳)有限公司 | 一种图像分类模型训练的方法、图像处理的方法及装置 |
CN110111340A (zh) * | 2019-04-28 | 2019-08-09 | 南开大学 | 基于多路割的弱监督实例分割方法 |
CN110675421A (zh) * | 2019-08-30 | 2020-01-10 | 电子科技大学 | 基于少量标注框的深度图像协同分割方法 |
CN111369572A (zh) * | 2020-02-28 | 2020-07-03 | 清华大学深圳国际研究生院 | 一种基于图像修复技术的弱监督语义分割方法和装置 |
CN111652887A (zh) * | 2020-05-13 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 图像分割模型训练方法、装置、计算机设备及存储介质 |
CN111723813A (zh) * | 2020-06-05 | 2020-09-29 | 中国科学院自动化研究所 | 基于类内判别器的弱监督图像语义分割方法、***、装置 |
Non-Patent Citations (2)
Title |
---|
WEIZENG LU ET AL: "Geometry Constrained Weakly Supervised Object Localization", 《ECCV 2020》 * |
鲁正 等: "带尺寸约束的弱监督眼底图像视盘分割", 《中国图象图形学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113361584A (zh) * | 2021-06-01 | 2021-09-07 | 推想医疗科技股份有限公司 | 模型训练的方法及装置、肺动脉高压的测量方法及装置 |
CN113313215A (zh) * | 2021-07-30 | 2021-08-27 | 腾讯科技(深圳)有限公司 | 图像数据处理方法、装置、计算机设备和存储介质 |
CN113743306A (zh) * | 2021-09-06 | 2021-12-03 | 浙江广厦建设职业技术大学 | 一种基于slowfast双帧速率的实时智能视频监控异常行为分析方法 |
CN115880249A (zh) * | 2022-12-13 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 基于图像的对象分割方法、装置、设备和介质 |
CN116274170A (zh) * | 2023-03-27 | 2023-06-23 | 中建三局第一建设工程有限责任公司 | 一种激光清洗设备的控制方法、***及相关装置 |
CN116274170B (zh) * | 2023-03-27 | 2023-10-13 | 中建三局第一建设工程有限责任公司 | 一种激光清洗设备的控制方法、***及相关装置 |
CN116630971A (zh) * | 2023-07-24 | 2023-08-22 | 安徽大学 | 基于CRF_ResUnet++网络的小麦赤霉病孢子分割方法 |
CN116630971B (zh) * | 2023-07-24 | 2023-09-29 | 安徽大学 | 基于CRF_ResUnet++网络的小麦赤霉病孢子分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112232355B (zh) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232355B (zh) | 图像分割网络处理、图像分割方法、装置和计算机设备 | |
US20220092351A1 (en) | Image classification method, neural network training method, and apparatus | |
CN110070107B (zh) | 物体识别方法及装置 | |
CN111738231B (zh) | 目标对象检测方法、装置、计算机设备和存储介质 | |
EP3968179A1 (en) | Place recognition method and apparatus, model training method and apparatus for place recognition, and electronic device | |
CN111507378A (zh) | 训练图像处理模型的方法和装置 | |
US20220215227A1 (en) | Neural Architecture Search Method, Image Processing Method And Apparatus, And Storage Medium | |
CN110555481A (zh) | 一种人像风格识别方法、装置和计算机可读存储介质 | |
CN112446398A (zh) | 图像分类方法以及装置 | |
CN111476806B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
US12039440B2 (en) | Image classification method and apparatus, and image classification model training method and apparatus | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN111310604A (zh) | 一种物体检测方法、装置以及存储介质 | |
CN111368672A (zh) | 一种用于遗传病面部识别模型的构建方法及装置 | |
CN111709471B (zh) | 对象检测模型的训练方法以及对象检测方法、装置 | |
EP4006777A1 (en) | Image classification method and device | |
CN113807399A (zh) | 一种神经网络训练方法、检测方法以及装置 | |
CN111882031A (zh) | 一种神经网络蒸馏方法及装置 | |
CN112801236B (zh) | 图像识别模型的迁移方法、装置、设备及存储介质 | |
US20220157041A1 (en) | Image classification method and apparatus | |
CN114332670A (zh) | 视频行为识别方法、装置、计算机设备和存储介质 | |
Grigorev et al. | Depth estimation from single monocular images using deep hybrid network | |
CN115205150A (zh) | 图像的去模糊方法、装置、设备、介质及计算机程序产品 | |
CN112418032A (zh) | 一种人体行为识别方法、装置、电子设备及存储介质 | |
Huttunen | Deep neural networks: A signal processing perspective |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40037466 Country of ref document: HK |