CN111739027B - 一种图像处理方法、装置、设备及可读存储介质 - Google Patents
一种图像处理方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN111739027B CN111739027B CN202010722268.1A CN202010722268A CN111739027B CN 111739027 B CN111739027 B CN 111739027B CN 202010722268 A CN202010722268 A CN 202010722268A CN 111739027 B CN111739027 B CN 111739027B
- Authority
- CN
- China
- Prior art keywords
- image
- region
- target
- loss value
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 113
- 238000000034 method Methods 0.000 claims abstract description 64
- 238000002372 labelling Methods 0.000 claims description 54
- 239000000463 material Substances 0.000 claims description 46
- 230000004927 fusion Effects 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 34
- 230000007797 corrosion Effects 0.000 claims description 32
- 238000005260 corrosion Methods 0.000 claims description 32
- 238000001514 detection method Methods 0.000 claims description 22
- 238000001914 filtration Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 17
- 238000009499 grossing Methods 0.000 claims description 12
- 230000000877 morphologic effect Effects 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 11
- 230000000750 progressive effect Effects 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 8
- 238000011282 treatment Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 15
- 238000012549 training Methods 0.000 description 14
- 230000011218 segmentation Effects 0.000 description 13
- 238000013473 artificial intelligence Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 12
- 239000013077 target material Substances 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 241000282326 Felis catus Species 0.000 description 6
- 238000007499 fusion processing Methods 0.000 description 6
- 238000003709 image segmentation Methods 0.000 description 5
- 239000003550 marker Substances 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 210000004709 eyebrow Anatomy 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 238000005530 etching Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000009291 secondary effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000008719 thickening Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种图像处理方法、装置、设备以及可读存储介质,本申请属于计算机技术领域,方法包括:获取样本图像,将样本图像输入图像识别模型,通过图像识别模型输出样本图像中样本对象的预测区域;获取标签图像;根据预测区域以及标签图像中的区域标签,确定分类损失值;获取区域标签的区域掩模,根据预测区域与区域掩模,确定区域约束损失值;根据预测区域与区域标签,确定像素约束损失值;根据分类损失值、像素约束损失值以及区域约束损失值,确定样本图像的目标损失值,根据目标损失值对图像识别模型进行调整,得到目标图像识别模型,基于目标图像识别模型进行图像识别处理。采用本申请,可以提高对图像的识别准确率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种图像处理方法、装置、设备以及可读存储介质。
背景技术
人像分割是指在图像中提取人体图像,视频场景下的人像分割是指在视频中实时提取人体图像,它是一种将图像中的人像从背景中分离出来的技术,在当今人像背景虚化、摄像中的绿幕或蓝幕摄影等诸多领域都具有广泛的应用。
在现有技术中,对于人像分割主要采用深度学习语义分割模型来实现,通过将图像输入至深度学习语义分割模型中,通过该深度学习语义分割模型计算输出人像分割结果。但因为实际应用中,不同的图像会存在各种多样的场景,人像会与多种物体均存在交界点,而深度学习语义分割模型未考虑这一点,使用人像与简单物体存在交界的训练数据来对深度学习语义分割模型来进行人像分割训练,这样会使得深度学习语义分割模型很难在复杂场景下进行人像分割,得到的人像分割准确率很低。
发明内容
本申请实施例提供一种图像处理方法、装置、设备以及可读存储介质,可以提高对图像的识别准确率。
本申请实施例一方面提供了一种图像处理方法,包括:
获取样本图像,将样本图像输入图像识别模型,通过图像识别模型输出样本图像中样本对象所属的预测区域;
获取样本图像对应的标签图像;标签图像中包括样本对象所属的区域标签;
根据预测区域以及区域标签,确定样本图像的分类损失值;
获取区域标签的区域掩模,根据预测区域以及区域掩模,确定样本图像的区域约束损失值;
根据预测区域以及区域标签,确定样本图像的像素约束损失值;
根据分类损失值、像素约束损失值以及区域约束损失值,确定样本图像的目标损失值,根据目标损失值对图像识别模型进行调整,得到目标图像识别模型,基于目标图像识别模型进行图像识别处理。
本申请实施例一方面提供了另一种图像处理方法,包括:
获取样本图像,将样本图像输入图像识别模型,通过图像识别模型输出样本图像中样本对象所属的预测区域;
获取样本图像对应的标签图像;标签图像中包括样本对象所属的区域标签;
获取区域标签对应的区域掩模,根据区域掩模、预测区域以及区域标签,生成样本图像的目标损失值;
根据目标损失值对图像识别模型进行调整,得到目标图像识别模型,基于目标图像识别模型进行图像识别处理。
本申请实施例一方面提供了一种图像处理装置,包括:
样本图像获取模块,用于获取样本图像;
预测结果输出模块,用于将样本图像输入图像识别模型,通过图像识别模型输出样本图像中样本对象所属的预测区域;
标签图像获取模块,用于获取样本图像对应的标签图像;标签图像中包括样本对象所属的区域标签;
第一损失值确定模块,用于根据预测区域以及区域标签,确定样本图像的分类损失值;
掩模获取模块,用于获取区域标签的区域掩模;
第二损失值确定模块,用于根据预测区域以及区域掩模,确定样本图像的区域约束损失值;
第三损失值确定模块,用于根据预测区域以及区域标签,确定样本图像的像素约束损失值;
目标损失值确定模块,用于根据分类损失值、像素约束损失值以及区域约束损失值,确定样本图像的目标损失值;
模型调整模块,用于根据目标损失值对图像识别模型进行调整,得到目标图像识别模型,基于目标图像识别模型进行图像识别处理。
其中,图像识别模型包括逐深度特征卷积组件;
预测结果输出模块包括:
图像特征提取单元,用于将样本图像输入图像识别模型,通过图像识别模型提取样本图像的图像特征;图像特征包括至少两个图像通道特征;
特征卷积单元,用于将至少两个图像通道特征输入逐深度特征卷积组件,通过逐深度特征卷积组件中的至少两个逐深度卷积核对至少两个图像通道特征分别进行卷积处理,得到卷积图像特征;一个逐深度卷积核对应一个图像通道特征;
预测结果确定单元,用于根据卷积图像特征,确定样本图像中样本对象所属的预测区域。
其中,至少两个图像通道特征包括第一图像通道特征与第二图像通道特征,至少两个逐深度卷积核包括第一逐深度卷积核与第二逐深度卷积核;
特征卷积单元包括:
特征输入子单元,用于将至少两个图像通道特征输入逐深度特征卷积组件;
通道特征卷积子单元,用于通过逐深度特征卷积组件中的第一逐深度卷积核对第一图像通道特征进行卷积处理,得到第一卷积通道特征;
通道特征卷积子单元,还用于通过逐深度特征卷积组件中的第二逐深度卷积核对第二图像通道特征进行卷积处理,得到第二卷积通道特征;
特征拼接子单元,用于将第一卷积通道特征与第二卷积通道特征进行拼接,生成卷积图像特征。
其中,图像识别模型还包括特征融合组件;
预测结果确定单元包括:
归一化子单元,用于将卷积图像特征输入特征融合组件,通过特征融合组件中的规范化层对卷积图像特征进行归一化处理,得到标准图像特征;
特征融合子单元,用于将标准图像特征输入特征融合组件中的特征融合层,在特征融合层中对标准图像特征进行卷积处理,生成融合图像特征;
预测结果确定子单元,用于根据融合图像特征,确定样本图像中样本对象所属的预测区域。
其中,标签图像获取模块包括:
标注图像获取单元,用于获取样本图像对应的区域标注图像;区域标注图像中包括样本对象所属的标注区域;
二值处理单元,用于将区域标注图像进行二值化处理,得到二值标注图像;
滤波平滑单元,用于将二值标注图像中的标注区域进行滤波平滑处理,得到区域标签;
标签图像确定单元,用于将包含区域标签的二值标注图像确定为标签图像。
其中,第一损失值确定模块包括:
预测像素点获取单元,用于在预测区域中,获取预测像素点;
标注点获取单元,用于在区域标签中,获取区域标注点;
第一损失值生成单元,用于获取分类损失函数,根据预测像素点、区域标注点以及分类损失函数,生成样本图像的分类损失值。
其中,掩模获取模块包括:
膨胀处理单元,用于将标签图像进行膨胀形态处理,得到膨胀标签图像;
腐蚀处理单元,用于将标签图像进行腐蚀形态处理,得到腐蚀标签图像;
膨胀标注点获取单元,用于在膨胀标签图像中,获取样本对象所属的膨胀区域标签中的膨胀区域标注点;
腐蚀标注点获取单元,用于在腐蚀标签图像中,获取样本对象所属的腐蚀区域标签中的腐蚀区域标注点;
差异值确定单元,用于确定膨胀区域标注点与腐蚀区域标注点之间的差异值,作为区域标签的区域掩模。
其中,第二损失值确定模块包括:
像素点获取单元,用于在预测区域中,获取预测像素点;
像素点获取单元,还用于在区域标签中,获取区域标注点;
梯度特征生成单元,用于获取区域检测算子,根据区域检测算子、预测像素点以及区域掩模,确定预测区域对应的第一梯度特征;
梯度特征生成单元,还用于根据区域检测算子、区域标注点以及区域掩模,确定区域标签对应的第二梯度特征;
第二损失值生成单元,用于获取区域约束损失函数,根据第一梯度特征、第二梯度特征以及区域约束损失函数,生成样本图像的区域约束损失值。
其中,第三损失值确定模块包括:
颜色像素值生成单元,用于在预测区域中,获取预测像素点,根据颜色通道像素值生成预测像素点对应的第一颜色像素值;
颜色像素值生成单元,还用于在区域标签中,获取区域标注点,根据颜色通道像素值生成区域标注点对应的第二颜色像素值;;
第三损失值生成单元,用于获取像素约束损失函数,根据第一颜色像素值、第二颜色像素值以及像素约束损失函数,生成样本图像的像素约束损失值。
其中,目标损失值确定模块包括:
参数获取单元,用于获取第一模型平衡参数以及第二模型平衡参数;
运算处理单元,用于将第一模型平衡参数与区域约束损失值进行相乘处理,得到第一平衡损失值;
运算处理单元,还用于将第二模型平衡参数与像素约束损失值进行相乘处理,得到第二平衡损失值;
运算处理单元,还用于将分类损失值、第一平衡损失值以及第二平衡损失值进行相加处理,得到样本图像的目标损失值。
其中,装置还包括:
目标图像获取模块,用于获取目标图像,将目标图像输入目标图像识别模型;
目标区域识别模块,用于在目标图像识别模型中,识别目标图像中目标对象所属的目标区域;
边界标记模块,用于将目标区域的边界进行标记,得到标记边界;
图像输出模块,用于输出携带标记边界的目标图像。
其中,装置还包括:
背景区域确定模块,用于在携带标记边界的目标图像中,获取标记边界以外的区域,作为背景区域;
列表展示模块,用于响应针对背景区域的素材添加操作,展示素材列表;
区域更新模块,用于响应针对素材列表的素材选择操作,将背景区域更新为具有目标素材的目标背景区域;目标素材为素材选择操作所选择的素材;
输出模块,用于输出包含目标区域以及目标背景区域的目标图像。
其中,装置还包括:
区域图像提取模块,用于根据标记边界从目标图像中提取包含目标对象的区域图像,在目标图像识别模型中,识别区域图像中目标对象的目标部位类别信息;目标部位类别信息为目标对象中的目标部位所属的类别;
素材信息获取模块,用于获取素材信息库;素材信息库中包括至少两个虚拟素材数据,一个虚拟素材数据对应一个部位类别信息;
目标素材确定模块,用于在素材信息库中获取与目标部位类别信息相匹配的虚拟素材数据,作为目标虚拟素材数据;
部位切换模块,用于将目标对象中的目标部位切换为目标虚拟素材数据,得到虚拟部位数据;
对象输出模块,用于输出包含虚拟部位数据的目标对象。
本申请实施例一方面提供了另一种图像处理装置,包括:
预测区域确定模块,用于获取样本图像,将所述样本图像输入图像识别模型,通过所述图像识别模型输出所述样本图像中样本对象所属的预测区域;
区域标签获取模块,用于获取所述样本图像对应的标签图像;所述标签图像中包括所述样本对象所属的区域标签;
目标损失值生成模块,用于获取所述区域标签对应的区域掩模,根据所述区域掩模、所述预测区域以及所述区域标签,生成所述样本图像的目标损失值;
目标模型确定模块,用于根据所述目标损失值对所述图像识别模型进行调整,得到目标图像识别模型,基于所述目标图像识别模型进行图像识别处理。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;
存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行本申请实施例中的方法。
本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中一方面提供的方法。
在本申请实施例中,将样本图像输入图像识别模型,通过图像识别模型可以输出样本图像中样本对象的预测区域,通过预测区域以及样本图像的区域标签,可以确定出分类损失值、区域约束损失值以及像素约束损失值。其中,分类损失值可以用于表征预测区域与区域标签之间的分类误差;其中,区域约束损失值是由区域标签的区域掩模、预测区域以及区域标签共同确定的,区域掩模是指该样本图像中区域标签所对应的覆盖区域,可以有效定位目标对象所属的位置,也就是说,该区域约束损失值引入了样本图像中目标对象实际的位置信息,可以加强预测区域与区域标签之间的区分度;而该像素约束损失值则引入了样本图像的颜色像素值,也可以加强预测区域与区域标签之间的区分度。综上可知,分类损失值、区域约束损失值以及像素约束损失值均从不同的维度对预测区域以及区域标签之间的区分度进行增强,那么通过这三个损失值所得到的目标损失值,可以准确表达预测区域与区域标签之间的差异,则通过该目标损失值对图像识别模型进行训练,可以使得图像识别模型输出的预测区域越来越与区域标签接近,即,通过目标损失值训练得到的目标图像识别模型可以准确识别出输入图像中目标对象所属的区域。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构图;
图2是本申请实施例提供的一种场景示意图;
图3是本申请实施例提供的一种图像处理方法的流程示意图;
图4a是本申请实施例提供的一种图像识别模型的结构示意图;
图4b是本申请实施例提供的一种深度可分离卷积的模块示意图;
图4c与图4d是本申请实施例提供的一种实验数据对比图;
图5是本申请实施例提供的一种模型应用的流程示意图;
图6a是本申请实施例提供的一种目标图像识别模型应用的场景示意图;
图6b是本申请实施例提供的一种目标图像识别模型应用的场景示意图;
图7是本申请实施例提供的一种图像处理方法的流程示意图;
图8是本申请实施例提供的一种图像处理装置的结构示意图;
图9是本申请实施例提供的一种图像处理装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案属于人工智能领域下属的计算机视觉技术(ComputerVision,CV)和机器学习((Machine Learning,ML)。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
图1是本申请实施例提供的一种网络架构图。如图1所示,该网络架构可以包括业务服务器1000以及后台服务器集群,其中,上述后台服务器集群可以包括多个每个后台服务器,如图1所示,具体可以包括后台服务器100a、后台服务器100b、后台服务器100c、…、后台服务器100n。如图1所示,后台服务器100a、后台服务器100b、后台服务器100c、…、后台服务器100n可以分别与上述业务服务器1000进行网络连接,以便于每个后台服务器可以通过该网络连接与业务服务器1000进行数据交互,以便于上述业务服务器1000可以接收到来自于每个后台服务器的业务数据。
如图1所示的每个后台服务器均与用户终端相对应,可以用于存储对应的用户终端的业务数据。每个用户终端均可以集成安装有目标应用,当该目标应用运行于各用户终端中时,则每个用户终端对应的后台服务器可以对应用中的业务数据进行存储,并与上述图1所示的业务服务器1000之间进行数据交互。其中,该目标应用可以包括具有显示文字、图像、音频以及视频等数据信息功能的应用。如,应用可以为娱乐类应用,可以用于用户上传图片或视频,并获取到具有特殊效果(例如,搞怪效果、二次元效果、放大效果等)的特效图片或特效视频;应用也可以为图片美化应用,可以用于用户上传图片或视频,并获取到具有美化效果(例如,眼睛放大等效果)的美化图片或美化视频。本申请中的业务服务器1000可以从这些应用的后台(如上述后台服务器集群)收集到业务数据,如,该业务数据可以为用户上传的图片等,业务服务器1000可以从这些业务数据中识别出目标对象所属的区域,并进行分割,得到目标区域;随后,业务服务器1000可以对目标区域中的目标对象进行后续处理(例如,对目标对象进行特效处理、美化处理等)。
本申请实施例可以在多个用户终端中选择一个用户终端作为目标用户终端,该用户终端可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、智能音箱、台式计算机、智能手表等携带图像识别功能(例如,识别图像中的人像区域)的智能终端,但并不局限于此。例如,本申请实施例可以将图1所示的后台服务器100a对应的用户终端作为该目标用户终端,该目标用户终端中可以集成有上述目标应用,此时,该目标用户终端对应的后台服务器100a可以与业务服务器1000之间进行数据交互。
如,用户在使用用户终端中的目标应用(如娱乐类应用)时,业务服务器1000通过该用户终端对应的后台服务器,可以检测并收集到该用户上传了一张包含人像的目标图像,业务服务器1000可以识别出该目标图像中人像所属的区域,并将该区域从该目标图像中提取出来,得到只包含目标对象而未包含背景的图像,随后,业务服务器1000可以将该只包含目标对象的图像进行特效处理(如,将该目标对象置换为萌宠表情),从而可以得到具有特效的目标对象,随后,业务服务器1000可以将该具有特效的目标对象放回目标图像中人像所属的区域中,得到目标图像对应的特效图像。随后,业务服务器1000并将该特效图像返回至后台服务器,则用户可以在该后台服务器对应的用户终端的显示页面上查看到该特效图像(查看到该具有特效的目标对象)。
其中,对于业务服务器1000识别目标图像中人像所属的区域的具体方法,可以根据图像识别模型来确定。为了提高图像识别模型所识别的目标图像中目标对象(如,人像)的区域的准确率,可以对图像识别模型进行训练调整,使得训练调整后得到的目标图像识别模型达到最优,基于该目标图像识别模型,可以进行图像识别处理。对于训练以及调整图像识别模型,得到目标图像识别模型的具体过程,可以参见后续图3所对应实施例中步骤S101-步骤S106的描述。
可选的,可以理解的是,后台服务器可以检测并收集到用户上传的图片或视频,后台服务器可以识别出该目标图像中目标对象(如,人像)所属的区域,并将该区域从该目标图像中提取出来,得到只包含目标对象而未包含背景的图像。随后,后台服务器可以对该只包含目标对象的图像,或对未包含目标对象的背景图像进行后续处理(如,特效处理、美化处理等),从而可以得到具有特效的目标对象或背景图像。
可以理解的是,本申请实施例提供的方法可以由计算机设备执行,计算机设备包括但不限于用户终端或业务服务器。其中,业务服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,用户终端以及业务服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
为便于理解,请参见图2,图2是本申请实施例提供的一种场景示意图。其中,如图2所示的业务服务器可以为上述业务服务器1000,且如图2所示的用户终端可以为在上述图1所对应实施例的用户终端集群中所选取的任意一个用户终端,比如,该用户终端可以为上述用户终端100b。
如图2所示,用户A可以为目标用户,用户A通过用户终端A上传了一张图像20a,其中,该图像20a中包括了目标对象B,该图像20a可以为目标图像,业务服务器可以通过用户终端A的后台服务器接收到该目标图像20a。随后,业务服务器可以将该目标图像20a输入目标图像识别模型中,通过目标图像识别模型可以识别出该目标对象B在目标图像20a中的所在区域。如图2,目标图像识别模型识别出目标对象B在目标图像20a中所在区域为区域P(即,目标对象B的边界所包含的区域),目标图像识别模型可以将该包含目标对象B的区域P提取出来,随后,业务服务器可以不再考虑目标图像20a中除区域P之外的其他区域,只对该区域P中的目标对象B进行特效处理。
如图2所示,业务服务器对区域P中的目标对象B添加了“猫咪特效”,进一步地,业务服务器可以将该带有“猫咪特效”的目标对象B,放回目标图像20a中的区域P,由此可以得到带有“猫咪特效”的目标图像20a。该带有“猫咪特效”的目标图像20a如图2所示,随后,业务服务器可以将该带有“猫咪特效”的目标图像20a返回至用户终端A,用户A可以在用户终端A的显示页面上查看到该带有猫咪特效”的目标图像20a。
进一步地,为便于理解,请参见图3,图3是本申请实施例提供的一种图像处理方法的流程示意图。该方法可以由用户终端(例如,上述图1或图2所示的用户终端)执行,也可以由用户终端和业务服务器(如上述图1或图2所对应实施例中的业务服务器1000)共同执行。为便于理解,本实施例以该方法由上述用户终端执行为例进行说明。其中,该图像处理方法至少可以包括以下步骤S101-步骤S106:
步骤S101,获取样本图像,将样本图像输入图像识别模型,通过图像识别模型输出样本图像中样本对象所属的预测区域。
本申请中,本申请中,样本图像可以用于训练图像识别模型,通过样本图像的训练,可以优化图像识别模型,使得图像识别模型所输出的预测结果可以越来越准确。其中,样本图像可以包括样本对象(例如,人像、动物等),则该预测区域可以是指图像识别模型识别出的该样本对象在样本图像中所在的区域,该预测区域可以由样本对象的边界所围成的区域。比如,如上述图2所对应实施例中图像识别模型识别出的区域P,可以为预测区域,该区域P是指图像识别模型识别出的目标对象B在目标图像20a中的区域,可以看出,该区域P由目标对象B的边界为确定。
这里的图像识别模型可以为语义分割模型,该语义分割模型中可以包含一个编码器与一个解码器。其中,编码器可以是采用深度可分离卷积为基础结构的模块所组成,解码器可以采用反卷积结构,为反卷积结构的解码器可以逐层对编码器输出的特征进行上采样。
为便于理解,请一并参见图4a,图4a是本申请实施例提供的一种图像识别模型的结构示意图。如图4a所示,图像识别模型中可以包括编码器与解码器,编码器中可以包括多个卷积层(例如,如图4a所示的卷积层a1、卷积层b1、卷积层c1以及卷积层d1),解码中可以包括多个反卷积层(例如,如4a所示的反卷积层d2、反卷积层c2、反卷积层b2以及反卷积层a2)。编码器与解码器之间可以通过跳跃连接进行浅层特征与深层特征的特征传递,使得图像识别模型可以融合不同阶段的特征(例如,将浅层特征中的语义信息和深层特征中的结构信息进行融合),从而可以得到最终融合了浅层特征与深层特征的融合特征,根据该融合特征可以得到最终图像分割结果的输出。
如图4a所示,编码器与解码器之间的跳跃连接可以理解为,编码器中的卷积层a1与解码器中的反卷积层a2相连接,编码器中的卷积层b1与解码器中的反卷积层b2相连接,编码器中的卷积层c1与解码器中的反卷积层c2相连接,编码器中的卷积层d1与解码器中的反卷积层d2相连接。可以看出,卷积层a1的输出特征可以作为卷积层b1的输入特征,卷积层b1的输出特征可以作为卷积层c1的输入特征,卷积层c1的输出特征可以作为卷积层d1的输入特征,而卷积层d1的输出特征,可以作为反卷积层d2的输入特征,也就是说,反卷积层d2可以将卷积层d1的输出特征进行反卷积处理,反卷积处理后所得到的输出特征会输入至反卷积层c2。因为反卷积层c2与卷积层c1相连接,所以卷积层c1的输出特征,也会作为反卷积层c2的输入特征,则该反卷积层c2会接收到卷积层c1的输出特征与反卷积层d2的输出特征共2个特征,在该反卷积层c2中,会将反卷积层d2的输出特征与卷积层c1的输出特征这两个特征进行融合,从而得到第一融合特征。其中,可以理解的是,在该反卷积层c2中进行特征融合的过程,就是图像识别模型中一个阶段的特征融合过程。
同理,可以理解的是,反卷积层c2得到的融合特征,可以作为反卷积层b2的输入特征,反卷积层b2可以对反卷积层c2的融合特征进行反卷积处理。因为反卷积层b2与卷积层b1相连接,所以卷积层b1的输出特征也可以作为反卷积层b2的输入特征,则反卷积层b1可以接收到卷积层b1的输出特征与反卷积层c2的输出特征(即反卷积层c2输出的第一融合特征)共2个特征,在该反卷积层b1中,可以对卷积层b1的输出特征与反卷积层c2的输出特征这2个特征进行融合,得到第二融合特征。其中,可以理解的是,在该反卷积层b2中进行特征融合的过程,就是图像识别模型中另一个阶段的特征融合过程。同理,应当理解,在反卷积层a2中,可以对反卷积层b2的输出特征(即第二融合特征)与卷积层a1的输出特征这2个特征进行融合,得到第三融合特征。
其中,可以理解的是,在该反卷积层a2中进行特征融合的过程,就是图像识别模型中另一个阶段的特征融合过程。可以立即的是,该第三融合特征就是通过卷积层与反卷积层进行特征传递与特征融合后,所得到的最终的特征,根据该最终的特征可以得到最终图像分割结果的输出。例如,如图4a所示,将目标图像输入至该图像识别模型,在该图像识别模型中可以通过上述方式(卷积层与反卷积层进行特征传递与特征融合的方式)得到该目标图像的特征,根据该目标图像的特征可以得到对该目标图像的图像识别结果(如,人像分割结果等)。
为进一步说明以深度可分离卷积结构为基础的图像识别模型的模型结构,请一并参见图4b,图4b是本申请实施例提供的一种深度可分离卷积的模块示意图。如图4b所示,深度可分离卷积结构中可以包括输入模块(即input模块),该输入模块可以用于接收图像(例如,样本图像);深度可分离卷积结构中还可以包括特征提取模块,该特征提取模块可以用于提取出输入图像的图像特征;该结构中还可以包括多个逐深度卷积核,该多个逐深度卷积核可以分别为“split_3x3_1”、“split_3x3_2”、…、“split_3x3_n”,其中,每个逐深度卷积核分别为3x3的卷积核,每个逐深度卷积核可以分别针对图像特征中的每一个通道进行3x3卷积处理;也就是说,图像特征中包括有多个通道特征,每个通道特征对应有一个逐深度卷积核,每个逐深度卷积核可以对一个通道特征进行卷积处理,得到卷积通道特征;如图4b所示,该结构还可以包括拼接模块(即concat模块),可以看出,每个逐深度卷积核进行卷积处理得到卷积通道特征后,可以输入至拼接模块,而拼接模块可以将这些逐深度卷积核输出的卷积通道特征进行拼接,从而可以得到图像特征对应的卷积图像特征;其中,这里深度可分离卷积结构中的多个逐深度卷积核(包括“split_3x3_1”、“split_3x3_2”、…、“split_3x3_n”)以及拼接模块可以组成图形识别模型的逐深度特征卷积组件。
如图4b所示,该结构还可以包括规范化(Batch Normalization,BN)层以及特征融合层(即conv_1x1层),其中,该规范化层可以用于对拼接模块输出的卷积图像特征进行规范化处理,得到标准图像特征;随后,在特征融合层中,通过1x1的卷积核可以对该标准图像特征中可以对该标准图像特征进行卷积,得到融合图像特征。可以理解的是,拼接模块是将多个卷积通道特征进行拼接,得到包括多个卷积通道特征的卷积图像特征,而在特征融合层中,可以通过对卷积图像特征中的多个卷积通道特征进行卷积融合,生成一个融合特征。
应当理解,对于图像识别模型识别出样本图像中样本对象所属的预测区域的具体方法,可以为,将样本图像输入至图像识别模型,通过该图像识别模型可以提取该样本图像的图像特征(例如,通过特征提取模块提取);其中,该图像特征中包括至少两个图像通道特征;随后,将该至少两个图像通道特征输入至逐深度特征卷积组件(包括多个逐深度卷积核以及拼接模块),通过该逐深度特征卷积组件中的至少两个逐深度卷积核可以对该至少两个图像通道特征分别进行卷积处理,得到卷积图像特征;其中,一个逐深度卷积核对应一个图像通道特征,也就是说,每个图像通道特征都有对应的一个逐深度卷积核进行卷积处理,对应关系可以为随机对应关系,也可以为人为规定对应关系。
例如,至少两个图像通道特征包括第一图像通道特征与第二图像通道特征,至少两个逐深度卷积核包括第一逐深度卷积核与第二逐深度卷积核,则可以将第一图像通道特征输入至第一逐深度卷积核(即,第一图像通道特征与第一逐深度卷积核具有对应关系),通过该第一逐深度卷积核可以对该第一图像通道特征进行卷积处理,得到第一卷积通道特征;同理,可以将第二图像通道特征输入至第二逐深度卷积核(即,第二图像通道特征与第二逐深度卷积核具有对应关系),通过该第二逐深度卷积核可以对该第二图像通道特征进行卷积处理,得到第二卷积通道特征。
进一步地,可以将该第一卷积通道特征与第二卷积通道特征输入至拼接模块,通过该拼接模块可以将该第一卷积通道特征与第二卷积通道特征进行拼接,从而可以生成卷积图像特征。随后,可以将该卷积图像特征输入至特征融合组件,通过该特征融合组件中的批规范化层(即,BN层),可以对该卷积图像特征进行归一化(规范化)处理,得到标准图像特征;随后,将该标准图像特征输入至该特征融合组件中的特征融合层(即,conv_1x1层),可以对该标准图像特征进行卷积处理(即,将规范化处理后的第一卷积通道特征与第二卷积通道特征进行融合),生成融合图像特征;随后,根据该融合图像特征,可以确定该样本图像中样本对象所属的预测区域。
可选的,可以理解的是,至少两个图像通道特征可以包括第一图像通道特征与第二图像通道特征,至少两个逐深度卷积核包括第一逐深度卷积核与第二逐深度卷积核,则可以将第一图像通道特征输入至第二逐深度卷积核(即,第一图像通道特征与第二逐深度卷积核具有对应关系),通过该第二逐深度卷积核可以对该第一图像通道特征进行卷积处理,得到第一卷积通道特征;同理,可以将第二图像通道特征输入至第一逐深度卷积核(即,第二图像通道特征与第一逐深度卷积核具有对应关系),通过该第一逐深度卷积核可以对该第二图像通道特征进行卷积处理,得到第二卷积通道特征。
可以理解的是,采用如图4b所示的图像识别模型结构进行特征提取与特征生成时,可以减少计算量。例如,以输入的图像尺寸为[N,H,W]且输出的特征图尺寸为[N,H,W]为例,图像识别模型的整体计算量为1*1*3*3*N+1*1*N*M,而传统的conv_3x3卷积层和conv_1x1卷积层所堆叠的结构计算量为N*M*3*3+1*1*N*M。可以看出,相比N*M*3*3+1*1*N*M,1*1*3*3*N+1*1*N*M得到了减少。且本申请采用的深度可分离卷积模块,利用了3x3卷积层来学习空间相关性,利用了1x1卷积层来学习通道之间的相关性,每层卷积层都被赋予了不同的功能,这样可以使得图像识别模型收敛过程更快、准确率更高。
步骤S102,获取样本图像对应的标签图像;标签图像中包括样本对象所属的区域标签。
本申请中,会对样本图像中样本对象所在的区域边界进行标注(例如,人工描边的标注方式),得到样本对象所属的标注区域,从而可以得到样本图像对应的包含标注区域的区域标注图像;随后,可以将该区域标注图像进行二值化处理,得到二值标注图像;将该二值标注图像中的标注区域进行滤波平滑处理,可以得到该标注区域对应的区域标签。其中,这里的滤波平滑处理可以采用中值滤波、均值滤波等滤波平滑处理方式。
以中值滤波平滑处理方式为例,可以采用固定大小核的中值滤波对二值标注图像进行处理,中值滤波可以对二值标注图像中样本对象所属的区域边缘(如,标注区域)产生平滑效果。为进一步中值滤波带来的有益效果,请一并参见图图4c与图4d,图4c与图4d是本申请实施例提供的一种实验数据对比图。如图4c所示,图4c为中值滤波处理前的二值标注图像,其中,区域Q为该二值标注图像中样本对象所属的标注区域;图4d为中值滤波处理后的二值标注图像。对比图4c与图4d,可以看出,经中值滤波处理后的标注区域Q的边缘更加平滑。应当理解,具有毛刺边缘的二值标注图像,通过中值滤波处理后,平滑了该二值标注图像中样本对象(如,人像)的边缘中不和谐的部分(如,头发等区域的凹凸部分),降低了因边缘标注不统一而引入的边界区域定义模糊问题的发生,更有益于模型收敛。
应当理解,标签图像可以用于训练图像识别模型,该标签图像可以作为训练图像识别模型的标准,使得图像识别模型所输出的预测区域可以越来越接近该标签图像中的区域标签。其中,在训练图像识别模型时,为减少标注图边缘定义不统一的问题发生,可以采用固定大小核的中值滤波来进行训练。
步骤S103,根据预测区域以及区域标签,确定样本图像的分类损失值。
本申请中,根据图像识别模型输出的预测区域以及区域标签,可以确定出一个分类损失值,具体方法可以为,在该预测区域中,可以获取预测像素点;在该区域标签中,可以获取区域标注点;随后,可以获取分类损失函数,根据该预测像素点、该区域标注点以及该分类损失函数,可以生成该样本图像的分类损失值。
可以理解的是,对于确定样本图像的分类损失值的具体实现方式,可以如公式(1)所示:
其中,Lce可以用于表征样本图像的分类损失值,可以用于表征区域标签中的一个像素值(如第i个像素值);αi可以用于表征预测区域中对应于区域标签的一个像素点(如对应于区域标签中第i个像素值的预测像素点i)。通过该公式(1),可以得到预测区域与区域标签之间的一个分类误差。
步骤S104,获取区域标签的区域掩模,根据预测区域以及区域掩模,确定样本图像的区域约束损失值。
本申请中,根据图像识别模型输出的预测区域以及区域标签,可以确定出一个区域约束损失值,具体方法可以为,可以先对标签图像进行膨胀形态学处理于腐蚀形态学处理来获取到样本对象的边缘区域(区域标签)的区域掩模,根据该边缘区域掩模可以得到样本图像的区域约束损失值。其中,对于确定边缘区域掩模的具体方法可以为,将该标签图像进行膨胀形态处理,可以得到膨胀标签图像;将该标签图像进行腐蚀形态处理,可以得到腐蚀标签图像;随后,可以在该膨胀标签图像中,获取该样本对象所属的膨胀区域标签中的膨胀区域标注点;可以在该腐蚀标签图像中,获取该样本对象所属的腐蚀区域标签中的腐蚀区域标注点;确定该膨胀区域标注点与该腐蚀区域标注点之间的差异值,该差异值可以作为该区域标签的区域掩模(边缘区域掩模)。
可以理解的是,对于确定区域标签的区域掩模的具体实现方式,可以如公式(2)所示:
其中,RM可以用于表征区域标签对应的区域掩模,可以用于表征区域标签中的一个像素值(如第i个像素值),一个像素值即为一个区域标注点,/>可以用于表征形态学膨胀操作(膨胀形态处理);/>可以用于表征形态学腐蚀操作(腐蚀形态处理)。将/>与/>进行作差,可以理解是将膨胀形态处理后的膨胀区域标签,与腐蚀形态处理后的腐蚀区域标签之间进行作差,得到差值即为区域标签对应的区域掩模。这里的区域掩模可以更好的确定该区域标签(即,样本对象所在区域)在样本图像中的位置。
进一步地,得到区域标签后,根据区域标签确定区域约束损失值的具体方法可以为,在该预测区域中,可以获取预测像素点;在该区域标签中,可以获取区域标注点;随后,可以获取区域检测算子,根据该区域检测算子、该预测像素点以及该区域掩模,可以确定该预测区域对应的第一梯度特征;同理,根据该区域检测算子、该区域标注点以及该区域掩模,可以确定该区域标签对应的第二梯度特征;随后,可以获取区域约束损失函数,根据该第一梯度特征、第二梯度特征以及该区域约束损失函数,可以生成该样本图像的区域约束损失值。
可以理解的是,对于确定区域约束损失值的具体实现方式,可以如公式(3)所示:
其中,Lgrad可以用于表征区域约束损失值;G(RM*α)i可以用于表征根据区域掩模RM对预测区域中的一个像素值(如,第i个像素值)求梯度;G(RM*αgt)i可以用于表征根据区域掩模RM对区域标签中的一个像素值(如,第i个像素值)求梯度,区域标签中的一个像素值即为一个区域标注点。
其中,对于确定G(RM*α)i的具体实现方式,可以如公式(4)所示:
G(RM*α)i=(S*RM*α)i-(ST*RM*α)i 公式(4)
其中,S可以用于表征x方向上的区域检测算子(如,Sobel算子);ST可以用于表征y方向上的区域检测算子(如,Sobel算子);可以理解的是,通过将x方向上的区域检测算子S与区域掩模RM以及预测区域上的像素值αi进行相乘,将y方向上的区域检测算子ST与区域掩模RM以及预测区域上的像素值αi进行相乘,随后将两个相乘结果作差,可以得到该像素值αi对应的梯度特征。
其中,对于确定G(RM*αgt)i的具体实现方式,可以如公式(5)所示:
G(RM*α)i=(S*RM*αgt)i-(ST*RM*αgt)i 公式(5)
其中,S可以用于表征x方向上的区域检测算子(如,Sobel算子);ST可以用于表征y方向上的区域检测算子(如,Sobel算子);可以理解的是,通过将x方向上的区域检测算子S与区域掩模RM以及区域标签上的像素值进行相乘,将y方向上的区域检测算子ST与区域掩模RM以及区域标签上的像素值/>进行相乘,随后将两个相乘结果作差,可以得到该像素值/>对应的梯度特征。
可以理解的是,根据公式(3)、公式(4)以及公式(5),可以得到公式(6):
其中,公式(6)可以用于表征将像素值αi对应的梯度特征(S*RM*α)i-(ST*RM*α)i与像素值对应的梯度特征(S*RM*αgt)i-(ST*RM*αgt)i进行相减。该公式(6)可以用于表征根据区域检测算子、区域掩模RM、预测区域以及区域标签来确定区域约束损失值Lgrad的具体实现方式。
步骤S105,根据预测区域以及区域标签,确定样本图像的像素约束损失值。
本申请中,根据图像识别模型输出的预测区域以及区域标签,可以确定出一个像素约束损失值,具体方法可以为,在该预测区域中,可以获取预测像素点,根据颜色通道像素值可以生成该预测像素点对应的第一颜色像素值;在该区域标签中,可以获取区域标注点(一个像素值),根据该颜色通道像素值可以生成该区域标注点对应的第二颜色像素值;随后,可以获取像素约束损失函数,根据该第一颜色像素值、第二颜色像素值以及该像素约束损失函数,可以生成该样本图像的像素约束损失值。
可以理解的是,对于确定像素约束损失值的具体实现方式,可以如公式(7)所示:
其中,Lcomp可以用于表征像素约束损失值;Iij可以用于表征样本图像在第(i,j)位置上的颜色通道像素值;αij可以用于表征预测区域在第(i,j)位置上的像素点,αgt ij可以用于表征区域标签在第(i,j)位置上的像素点。其中,可以理解的是,该颜色通道像素值可以为输入的样本图像的标准颜色通道(Red Green Blue,RGB)信息,Iij就可以理解为是输入的RBG原始样本图像在(i,j)位置上的像素值。
步骤S106,根据分类损失值、像素约束损失值以及区域约束损失值,确定样本图像的目标损失值,根据目标损失值对图像识别模型进行调整,得到目标图像识别模型,基于目标图像识别模型进行图像识别处理。
本申请中,可以将分类损失值、区域约束损失值以及像素约束损失值进行融合,来得到一个总的目标损失值。具体方式可以为,获取第一模型平衡参数以及第二模型平衡参数;将该第一模型平衡参数与该区域约束损失值进行相乘处理,可以得到第一平衡损失值;将该第二模型平衡参数与该像素约束损失值进行相乘处理,可以得到第二平衡损失值;随后,可以将该分类损失值、该第一平衡损失值以及该第二平衡损失值进行相加处理,可以得到该样本图像对应的目标损失值。
可以理解的是,对于确定样本图像的目标损失值的具体实现方式,可以如公式(8)所示:
L=Lce+αLgrad+βLcomp 公式(8)
其中,L可以用于表征目标损失值,α可以用于表征平衡系数(即第一模型平衡参数),β也可以用于表征平衡系数(即第二模型平衡参数);对于α与β的取值,可以为人为规定值,如将α取值为0.5,将β取值为1,也可以为其他取值,本申请不做限制。α取值越大,则图像识别模型对区域标签的边缘的约束就会越强。
应当理解,本申请中的目标损失值结合了分类损失值Lce、区域约束损失值Lgrad以及像素约束损失值Lcomp,其中分类损失值Lce可以理解为是将图像的识别(如,识别出预测区域)问题,转换为分类问题,可以得到预测区域与区域标签之间的分类误差;而区域约束损失值Lgrad引入了对图像识别模型的图像分割结果(样本对象所属的预测区域)的边缘约束;像素约束损失值Lcomp引入了样本图像的RGB原始样本图像的RGB信息(颜色通道像素值),增强了对图像识别模型输出的预测区域与样本对象之间的像素约束;通过将分类损失值Lce、区域约束损失值Lgrad以及像素约束损失值Lcomp结合,得到目标损失值,可以使得目标损失值不仅包括了预测区域与区域标签之间的分类误差,也通过引入边缘约束以及像素约束的方式,增加了对样本对象(如,人像)与多种物体均有交界可能的考虑,即,增加了多种复杂场景的考虑,则通过由三种损失值组成的目标损失值来对图像识别模型进行训练,可以使得训练后的图像识别模型的识别准确率更高。
其中,对于根据目标损失值对图像识别模型进行训练的具体方法可以为,可以确定该目标损失值是否满足模型收敛条件,若该目标损失值未满足模型收敛条件,则可以根据该目标损失值对图像识别模型进行调整(如,对图像识别模型中的模型参数进行调整),并在调整后,进行新一轮的训练,得到新的目标损失值,若该新的目标损失值满足了模型收敛条件,则可以认为此时图像识别模型的预测结果已足够准确,则可以不再根据新的目标损失值对图像识别模型进行调整,而可以将该调整后的图像识别模型确定为目标图像识别模型。可以理解的是,基于该目标图像识别模型,可以进行图像识别处理。
在本申请实施例中,将样本图像输入图像识别模型,通过图像识别模型可以输出样本图像中样本对象的预测区域,通过预测区域以及样本图像的区域标签,可以确定出分类损失值、区域约束损失值以及像素约束损失值。其中,分类损失值可以用于表征预测区域与区域标签之间的分类误差;其中,区域约束损失值是由区域标签的区域掩模、预测区域以及区域标签共同确定的,区域掩模是指该样本图像中区域标签所对应的覆盖区域,可以有效定位目标对象所属的位置,也就是说,该区域约束损失值引入了样本图像中目标对象实际的位置信息,可以增强预测区域与样本对象之间的边缘约束,进而可以加强预测区域与区域标签之间的区分度;而该像素约束损失值则引入了样本图像的颜色通道像素值(RGB信息),可以增强预测区域与样本对象之间的像素约束,进而也可以加强预测区域与区域标签之间的区分度。综上可知,分类损失值、区域约束损失值以及像素约束损失值均从不同的维度对预测区域以及区域标签之间的区分度进行增强,那么通过这三个损失值所得到的目标损失值,可以准确表达预测区域与区域标签之间的差异,则通过该目标损失值对图像识别模型进行训练,可以使得图像识别模型输出的预测区域越来越与区域标签接近,即,通过目标损失值训练得到的目标图像识别模型可以准确识别出输入图像中目标对象所属的区域。
为便于理解,请参见图5,图5是本申请实施例提供的一种模型应用的流程示意图。如图5所示,该流程可以包括:
步骤S201,获取目标图像,将目标图像输入目标图像识别模型。
本申请中,目标图像识别模型可以为对图像识别模型进行训练后所得到的模型,该目标图像识别模型可以应用到图像识别的场景中。
步骤S202,在目标图像识别模型中,识别目标图像中目标对象所属的目标区域。
本申请中,目标图像可以包括目标对象(例如,人像、动物等),则该目标区域可以是指目标图像识别模型识别出的该目标对象在目标图像中所在的区域,该目标区域可以由目标对象的边界所围成的区域。比如,如上述图2所对应实施例中的区域P,可以为目标区域,该区域P是指目标对象B在目标图像20a中的区域,可以看出,该区域P由目标对象B的边界(边缘)为确定。
其中,对于步骤S201-步骤S202的具体实现方式,可以参见上述图3所对应实施例中步骤S101中,对于图像识别模型识别样本对象所属的预测区域的描述,这里将再进行赘述。
步骤S203,将目标区域的边界进行标记,得到标记边界。
本申请中,这里的标记方式可以为将目标区域的边界(边缘)进行加粗显示、添加颜色显示等方式,对于标记边界的方式,本申请不做限制。对边界进行标记的意义在于突出显示目标对象所在的目标区域。
步骤S204,输出携带标记边界的目标图像。
本申请中,目标图像识别模型标记完边界后,可以输出携带该标记边界的目标图像,则在目标图像识别模型输出携带标记边界的目标图像后,可以理解的是,可以基于该携带该标记边界的目标图像进行后续处理,例如,可以在该携带该标记边界的目标图像中,获取该标记边界以外的区域,作为背景区域;随后,可以响应针对该背景区域的素材添加操作,展示素材列表;进一步地,可以响应针对该素材列表的素材选择操作,将该背景区域更新为具有目标素材的目标背景区域;其中,该目标素材为该素材选择操作所选择的素材;进一步地,可以输出包含该目标区域以及该目标背景区域的目标图像。其中,这里的素材可以是指特殊效果素材(如、纯色背景素材、二次元效果素材等),也就是说,得到携带标记边界的目标图像后,可以提取出标记边界以外的背景区域,进而只对背景区域进行特殊处理,而保持标记边界内的目标对象不变。
为便于理解,请参见图6a,图6a是本申请实施例提供的一种目标图像识别模型应用的场景示意图。其中,如图6a所示的业务服务器可以为上述业务服务器1000,且如图6a所示的用户终端E可以为在上述图1所对应实施例的用户终端集群中所选取的任意一个用户终端,比如,该用户终端可以为上述用户终端100a。
如图6a所示,用户E在用户终端E的游戏首页界面中,点击了图像上传按钮,用户终端E可以响应该用户E的这一点击操作,为用户E创建图像选择界面,用户E可以在该图像选择界面中查看到自己本机中的所有图像,且可以在该图像选择界面中进行图像选择。如图6a所示,用户E在图像选择界面中选择了图像50d,则该图像50d即可作为目标图像。如图6a所示,用户终端E可以创建素材选择界面,用户E可以在该素材选择界面中选择素材,以将目标图像50d中的背景区域进行更新,得到具有该素材的目标背景区域。如图6a所示,该用户E选择的素材为素材C(动物园背景素材),则该素材C即可作为目标素材。随后,用户终端E可以将该目标图像50d发送至业务服务器,业务服务器可以将该目标图像发送至目标图像识别模型,通过该目标图像识别模型,可以识别出该目标图像中目标对象M所在的目标区域(例如,如图6a所示的区域P),并将该区域P的边界进行标记,得到带有标记边界的区域P。进一步地,业务服务器可以将该携带标记边界的目标图像50d返回至用户终端E,该用户终端E可以基于该携带标记边界的区域P确定出目标图像50d的背景区域(除区域P以外的区域),随后,用户终端E可以将该背景区域进行切换,如图6a所示,用户终端E将该目标图像50d的背景区域切换为具有该目标素材C(动物园背景素材)的目标背景区域,从而,可以得到包含该目标背景区域以及目标对象M的目标图像50d。用户E可以在用户终端E的显示页面上查看到该包含背景区域以及该目标对象M的目标图像50d。
可选的,可以理解的是,基于该携带该标记边界的目标图像,还可以有其他应用,例如,可以根据该标记边界,从该目标图像中提取包含目标对象的区域图像,在该目标图像识别模型中,可以识别该区域图像中该目标对象的目标部位类别信息;其中,该目标部位类别信息为该目标对象中的目标部位所属的类别,例如,该目标对象为人像,则该目标部位可以是指该人像中部位所属的类别(如,眼睛、鼻子、嘴唇、眉毛、手部、颈部等)。随后,可以获取素材信息库,其中,该素材信息库中包括至少两个虚拟素材数据,一个虚拟素材数据对应一个部位类别信息;在该素材信息库中,可以获取与该目标部位类别信息相匹配的虚拟素材数据,作为目标虚拟素材数据;随后,可以将该目标对象中的目标部位切换为该目标虚拟素材数据,得到虚拟部位数据,从而可以得到包含虚拟部位数据的目标对象。
为便于理解,请参见图6b,图6b是本申请实施例提供的一种目标图像识别模型应用的场景示意图。其中,如图6b所示的业务服务器可以为上述业务服务器1000,且如图6b所示的用户终端V可以为在上述图1所对应实施例的用户终端集群中所选取的任意一个用户终端,比如,该用户终端可以为上述用户终端100b。
如图6b所示,用户V通过用户终端V上传了目标图像60a,其中,该目标图像中包括目标对象T。用户终端V可以将该目标图像60a发送至业务服务器,业务服务器可以将该目标图像60a输入目标图像识别模型。通过该目标图像识别模型可以识别出该目标对象T所在的目标区域(如图6b所示的区域R),该区域R的边界进行标记,得到带有标记边界的区域R;随后,可以根据该带有标记边界的区域P,从该目标图像60a中,提取出包含目标对象T的区域图像;随后,在该目标图像识别模型中,可以识别该目标对象T中的目标部位类别信息,如图6b所示,该目标部位类别信息分别为“眉毛”、“眼睛”、“鼻子”、“嘴巴”以及“耳朵”;随后,业务服务器可以将该识别结果返回至用户终端V。
进一步地,用户终端V可以获取素材信息库,在该素材信息库中,获取到这些目标部位类别信息分别对应的目标虚拟素材,其中,“眉毛”、“眼睛”、“鼻子”、“嘴巴”以及“耳朵”对应的目标虚拟素材可以图6b所示,随后,可以将区域图像中目标对象T中的目标部位(包括“眉毛”、“眼睛”、“鼻子”、“嘴巴”以及“耳朵”),分别替换为各自对应的目标虚拟素材,从而可以得到包含目标虚拟素材的区域图像如图6b所示,进而可以得到包含目标虚拟素材的目标图像60a。用户终端V可以将该包含目标虚拟素材的目标图像60a展示与图像展示界面中,用户V可以在该图像展示界面中查看该包含目标虚拟素材的目标图像60a。
在本申请实施例中,将样本图像输入图像识别模型,通过图像识别模型可以输出样本图像中样本对象的预测区域,通过预测区域以及样本图像的区域标签,可以确定出分类损失值、区域约束损失值以及像素约束损失值。其中,分类损失值可以用于表征预测区域与区域标签之间的分类误差;其中,区域约束损失值是由区域标签的区域掩模、预测区域以及区域标签共同确定的,区域掩模是指该样本图像中区域标签所对应的覆盖区域,可以有效定位目标对象所属的位置,也就是说,该区域约束损失值引入了样本图像中目标对象实际的位置信息,可以增强预测区域与样本对象之间的边缘约束,进而可以加强预测区域与区域标签之间的区分度;而该像素约束损失值则引入了样本图像的颜色通道像素值(RGB信息),可以增强预测区域与样本对象之间的像素约束,进而也可以加强预测区域与区域标签之间的区分度。综上可知,分类损失值、区域约束损失值以及像素约束损失值均从不同的维度对预测区域以及区域标签之间的区分度进行增强,那么通过这三个损失值所得到的目标损失值,可以准确表达预测区域与区域标签之间的差异,则通过该目标损失值对图像识别模型进行训练,可以使得图像识别模型输出的预测区域越来越与区域标签接近,即,通过目标损失值训练得到的目标图像识别模型可以准确识别出输入图像(如,目标图像)中目标对象所属的区域。
请参见图7,图7是本申请实施例提供的一种图像处理方法的流程示意图。如图7所示,该方法可以由用户终端(例如,上述图1所示的用户终端)或业务服务器(如上述图1所对应实施例中的业务服务器1000)执行,也可以由用户终端和业务服务器(如上述图1所对应实施例中的业务服务器1000)共同执行。为便于理解,本实施例以该方法由上述用户终端执行为例进行说明。其中,该图像处理方法至少可以包括以下步骤S101-步骤S104:
步骤S301,获取样本图像,将样本图像输入图像识别模型,通过图像识别模型输出样本图像中样本对象所属的预测区域。
步骤S302,获取样本图像对应的标签图像;标签图像中包括样本对象所属的区域标签。
本申请中,对于步骤S301-步骤S302的具体实现方式,可以参见上述图3所对应实施例中步骤S101-步骤S102的描述,这里将不再进行赘述。
步骤S303,获取区域标签对应的区域掩模,根据区域掩模、预测区域以及区域标签,生成样本图像的目标损失值。
本申请中,根据预测区域以及区域标签,可以生成样本图像的分类损失值,该分类损失值可以表征预测区域以及区域标签之间的一个分类误差,对于生成样本图像的分类损失值的具体实现方式,可以参见上述图3所对应实施例中步骤S103中对于确定分类损失值的描述,这里将不再进行赘述。
本申请中,根据区域掩模、预测区域以及区域标签,可以生成样本图像的区域约束损失值,对于生成区域约束损失值的具体实现方式,可以参见上述图3所对应实施例中步骤S104中对于确定区域约束损失值的描述,这里将不再进行赘述。
本申请中,可以根据样本图像对应的颜色通道像素值来确定出样本图像的像素约束损失值,也就是说,获取到样本图像对应的颜色通道像素值,根据颜色通道像素值、预测区域以及区域标签,可以生成样本图像的像素约束损失值,对于生成根据颜色通道像素值、预测区域以及区域标签生成像素约束损失值的具体实现方式,可以参见上述图3所对应实施例中步骤S105的描述,这里将不再进行赘述。
进一步地,可以将样本图像的分类损失值、区域约束损失值以及像素约束损失值进行融合,得到样本图像的目标损失值。对于根据样本图像的分类损失值、区域约束损失值以及像素约束损失值,生成目标损失值的具体实现方式,可以参见上述图3所对应实施例中步骤S106中确定目标损失值的描述,这里将不再进行赘述。
步骤S304,根据目标损失值对图像识别模型进行调整,得到目标图像识别模型,基于目标图像识别模型进行图像识别处理。
本申请中,对于步骤S304的具体实现方式,可以参见上述图3所对应实施例中步骤S106中对于模型调整的描述,这里将不再进行赘述。
进一步地,请参见图8,图8是本申请实施例提供的一种图像处理装置的结构示意图。上述图像处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该图像处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图8所示,该图像处理装置1可以包括:样本图像获取模块11、预测结果输出模块12、标签图像获取模块13、第一损失值确定模块14、掩模获取模块15、第二损失值确定模块16、第三损失值确定模块17、目标损失值确定模块18以及模型调整模块19。
样本图像获取模块11,用于获取样本图像;
预测结果输出模块12,用于将样本图像输入图像识别模型,通过图像识别模型输出样本图像中样本对象所属的预测区域;
标签图像获取模块13,用于获取样本图像对应的标签图像;标签图像中包括样本对象所属的区域标签;
第一损失值确定模块14,用于根据预测区域以及区域标签,确定样本图像的分类损失值;
掩模获取模块15,用于获取区域标签的区域掩模;
第二损失值确定模块16,用于根据预测区域以及区域掩模,确定样本图像的区域约束损失值;
第三损失值确定模块17,用于根据预测区域以及区域标签,确定样本图像的像素约束损失值;
目标损失值确定模块18,用于根据分类损失值、像素约束损失值以及区域约束损失值,确定样本图像的目标损失值;
模型调整模块19,用于根据目标损失值对图像识别模型进行调整,得到目标图像识别模型,基于目标图像识别模型进行图像识别处理。
其中,样本图像获取模块11、预测结果输出模块12、标签图像获取模块13、第一损失值确定模块14、掩模获取模块15、第二损失值确定模块16、第三损失值确定模块17、目标损失值确定模块18以及模型调整模块19的具体实现方式,可以参见上述图3所对应实施例中步骤S101-步骤S104的描述,这里将不再进行赘述。
其中,图像识别模型包括逐深度特征卷积组件;
请参见图8,预测结果输出模块12可以包括:图像特征提取单元121、特征卷积单元122以及预测结果确定单元123。
图像特征提取单元121,用于将样本图像输入图像识别模型,通过图像识别模型提取样本图像的图像特征;图像特征包括至少两个图像通道特征;
特征卷积单元122,用于将至少两个图像通道特征输入逐深度特征卷积组件,通过逐深度特征卷积组件中的至少两个逐深度卷积核对至少两个图像通道特征分别进行卷积处理,得到卷积图像特征;一个逐深度卷积核对应一个图像通道特征;
预测结果确定单元123,用于根据卷积图像特征,确定样本图像中样本对象所属的预测区域。
其中,图像特征提取单元121、特征卷积单元122以及预测结果确定单元123的具体实现方式,可以参见上述图3所对应实施例中步骤S101中的描述,这里将不再进行赘述。
其中,至少两个图像通道特征包括第一图像通道特征与第二图像通道特征,至少两个逐深度卷积核包括第一逐深度卷积核与第二逐深度卷积核;
请参见图8,特征卷积单元122可以包括:特征输入子单元1221、通道特征卷积子单元1222、通道特征卷积子单元1223以及特征拼接子单元1224。
特征输入子单元1221,用于将至少两个图像通道特征输入逐深度特征卷积组件;
通道特征卷积子单元1222,用于通过逐深度特征卷积组件中的第一逐深度卷积核对第一图像通道特征进行卷积处理,得到第一卷积通道特征;
通道特征卷积子单元1223,还用于通过逐深度特征卷积组件中的第二逐深度卷积核对第二图像通道特征进行卷积处理,得到第二卷积通道特征;
特征拼接子单元1224,用于将第一卷积通道特征与第二卷积通道特征进行拼接,生成卷积图像特征。
其中,特征输入子单元1221、通道特征卷积子单元1222、通道特征卷积子单元1223以及特征拼接子单元1224的具体实现方式,可以参见上述图3所对应实施例中步骤S101中的描述,这里将不再进行赘述。
其中,图像识别模型还包括特征融合组件;
预测结果确定单元123可以包括:归一化子单元1231、特征融合子单元1232以及预测结果确定子单元1233。
归一化子单元1231,用于将卷积图像特征输入特征融合组件,通过特征融合组件中的规范化层对卷积图像特征进行归一化处理,得到标准图像特征;
特征融合子单元1232,用于将标准图像特征输入特征融合组件中的特征融合层,在特征融合层中对标准图像特征进行卷积处理,生成融合图像特征;
预测结果确定子单元1233,用于根据融合图像特征,确定样本图像中样本对象所属的预测区域。
其中,归一化子单元1231、特征融合子单元1232以及预测结果确定子单元1233的具体实现方式,可以参见上述图3所对应实施例中步骤S101中的描述,这里将不再进行赘述。
请参见图8,标签图像获取模块13可以包括:标注图像获取单元131、二值处理单元132、滤波平滑单元133以及标签图像确定单元134。
标注图像获取单元131,用于获取样本图像对应的区域标注图像;区域标注图像中包括样本对象所属的标注区域;
二值处理单元132,用于将区域标注图像进行二值化处理,得到二值标注图像;
滤波平滑单元133,用于将二值标注图像中的标注区域进行滤波平滑处理,得到区域标签;
标签图像确定单元134,用于将包含区域标签的二值标注图像确定为标签图像。
其中,标注图像获取单元131、二值处理单元132、滤波平滑单元133以及标签图像确定单元134的具体实现方式,可以参见上述图3所对应实施例中步骤S102中的描述,这里将不再进行赘述。
请参见图8,第一损失值确定模块14可以包括:预测像素点获取单元141、标注点获取单元142以及第一损失值生成单元143。
预测像素点获取单元141,用于在预测区域中,获取预测像素点;
标注点获取单元142,用于在区域标签中,获取区域标注点;
第一损失值生成单元143,用于获取分类损失函数,根据预测像素点、区域标注点以及分类损失函数,生成样本图像的分类损失值。
其中,预测像素点获取单元141、标注点获取单元142以及第一损失值生成单元143的具体实现方式,可以参见上述图3所对应实施例中步骤S103的描述,这里将不再进行赘述。
请参见图8,掩模获取模块15可以包括:膨胀处理单元151、腐蚀处理单元152、膨胀标注点获取单元153、腐蚀标注点获取单元154以及差异值确定单元155。
膨胀处理单元151,用于将标签图像进行膨胀形态处理,得到膨胀标签图像;
腐蚀处理单元152,用于将标签图像进行腐蚀形态处理,得到腐蚀标签图像;
膨胀标注点获取单元153,用于在膨胀标签图像中,获取样本对象所属的膨胀区域标签中的膨胀区域标注点;
腐蚀标注点获取单元154,用于在腐蚀标签图像中,获取样本对象所属的腐蚀区域标签中的腐蚀区域标注点;
差异值确定单元155,用于确定膨胀区域标注点与腐蚀区域标注点之间的差异值,作为区域标签的区域掩模。
其中,膨胀处理单元151、腐蚀处理单元152、膨胀标注点获取单元153、腐蚀标注点获取单元154以及差异值确定单元155的具体实现方式,可以参见上述图3所对应实施例中步骤S104中对于获取区域掩模的描述,这里将不再进行赘述。
请参见图8,第二损失值确定模块16可以包括:像素点获取单元161、梯度特征生成单元162、梯度特征生成单元163以及第二损失值生成单元164。
像素点获取单元161,用于在预测区域中,获取预测像素点;
像素点获取单元161,还用于在区域标签中,获取区域标注点;
梯度特征生成单元162,用于获取区域检测算子,根据区域检测算子、预测像素点以及区域掩模,确定预测区域对应的第一梯度特征;
梯度特征生成单元163,还用于根据区域检测算子、区域标注点以及区域掩模,确定区域标签对应的第二梯度特征;
第二损失值生成单元164,用于获取区域约束损失函数,根据第一梯度特征、第二梯度特征以及区域约束损失函数,生成样本图像的区域约束损失值。
其中,像素点获取单元161、梯度特征生成单元162、梯度特征生成单元163以及第二损失值生成单元164的具体实现方式,可以参见上述图3所对应实施例中步骤S104中的描述,这里将不再进行赘述。
请参见图8,第三损失值确定模块17可以包括:颜色像素值生成单元171以及第三损失值生成单元172。
颜色像素值生成单元171,用于在预测区域中,获取预测像素点,根据颜色通道像素值生成预测像素点对应的第一颜色像素值;
颜色像素值生成单元171,还用于在区域标签中,获取区域标注点,根据颜色通道像素值生成区域标注点对应的第二颜色像素值;;
第三损失值生成单元172,用于获取像素约束损失函数,根据第一颜色像素值、第二颜色像素值以及像素约束损失函数,生成样本图像的像素约束损失值。
其中,颜色像素值生成单元171以及第三损失值生成单元172的具体实现方式,可以参见上述图3所对应实施例中步骤S105的描述,这里将不再进行赘述。
请参见图8,目标损失值确定模块18可以包括:参数获取单元181以及运算处理单元182。
参数获取单元181,用于获取第一模型平衡参数以及第二模型平衡参数;
运算处理单元182,用于将第一模型平衡参数与区域约束损失值进行相乘处理,得到第一平衡损失值;
运算处理单元182,还用于将第二模型平衡参数与像素约束损失值进行相乘处理,得到第二平衡损失值;
运算处理单元182,还用于将分类损失值、第一平衡损失值以及第二平衡损失值进行相加处理,得到样本图像的目标损失值。
其中,参数获取单元181以及运算处理单元182的具体实现方式,可以参见上述图3所对应实施例中步骤S106中对于确定目标损失值的描述,这里将不再进行赘述。
请参见图8,该图像处理装置1还可以包括:目标图像获取模块20、目标区域识别模块21、边界标记模块22以及图像输出模块23。
目标图像获取模块20,用于获取目标图像,将目标图像输入目标图像识别模型;
目标区域识别模块21,用于在目标图像识别模型中,识别目标图像中目标对象所属的目标区域;
边界标记模块22,用于将目标区域的边界进行标记,得到标记边界;
图像输出模块23,用于输出携带标记边界的目标图像。
其中,目标图像获取模块20、目标区域识别模块21、边界标记模块22以及图像输出模块23的具体实现方式,可以参见上述图5所对应实施例中步骤S201-步骤S204的描述,这里将不再进行赘述。
请参见图8,该图像处理装置1还可以包括:背景区域确定模块24、列表展示模块25、区域更新模块26以及输出模块27。
背景区域确定模块24,用于在携带标记边界的目标图像中,获取标记边界以外的区域,作为背景区域;
列表展示模块25,用于响应针对背景区域的素材添加操作,展示素材列表;
区域更新模块26,用于响应针对素材列表的素材选择操作,将背景区域更新为具有目标素材的目标背景区域;目标素材为素材选择操作所选择的素材;
输出模块27,用于输出包含目标区域以及目标背景区域的目标图像。
其中,背景区域确定模块24、列表展示模块25、区域更新模块26以及输出模块27的具体实现方式,可以参见上述图5所对应实施例中步骤S204中的描述,这里将不再进行赘述。
请参见图8,该图像处理装置1还可以包括:区域图像提取模块28、素材信息获取模块29、目标素材确定模块30、部位切换模块31以及对象输出模块32。
区域图像提取模块28,用于根据标记边界从目标图像中提取包含目标对象的区域图像,在目标图像识别模型中,识别区域图像中目标对象的目标部位类别信息;目标部位类别信息为目标对象中的目标部位所属的类别;
素材信息获取模块29,用于获取素材信息库;素材信息库中包括至少两个虚拟素材数据,一个虚拟素材数据对应一个部位类别信息;
目标素材确定模块30,用于在素材信息库中获取与目标部位类别信息相匹配的虚拟素材数据,作为目标虚拟素材数据;
部位切换模块31,用于将目标对象中的目标部位切换为目标虚拟素材数据,得到虚拟部位数据;
对象输出模块32,用于输出包含虚拟部位数据的目标对象。
其中,区域图像提取模块28、素材信息获取模块29、目标素材确定模块30、部位切换模块31以及对象输出模块32的具体实现方式,可以参见上述图5所对应实施例中步骤S204中的描述,这里将不再进行赘述。
在本申请实施例中,将样本图像输入图像识别模型,通过图像识别模型可以输出样本图像中样本对象的预测区域,通过预测区域以及样本图像的区域标签,可以确定出分类损失值、区域约束损失值以及像素约束损失值。其中,分类损失值可以用于表征预测区域与区域标签之间的分类误差;其中,区域约束损失值是由区域标签的区域掩模、预测区域以及区域标签共同确定的,区域掩模是指该样本图像中区域标签所对应的覆盖区域,可以有效定位目标对象所属的位置,也就是说,该区域约束损失值引入了样本图像中目标对象实际的位置信息,可以增强预测区域与样本对象之间的边缘约束,进而可以加强预测区域与区域标签之间的区分度;而该像素约束损失值则引入了样本图像的颜色通道像素值(RGB信息),可以增强预测区域与样本对象之间的像素约束,进而也可以加强预测区域与区域标签之间的区分度。综上可知,分类损失值、区域约束损失值以及像素约束损失值均从不同的维度对预测区域以及区域标签之间的区分度进行增强,那么通过这三个损失值所得到的目标损失值,可以准确表达预测区域与区域标签之间的差异,则通过该目标损失值对图像识别模型进行训练,可以使得图像识别模型输出的预测区域越来越与区域标签接近,即,通过目标损失值训练得到的目标图像识别模型可以准确识别出输入图像中目标对象所属的区域。
请参见图9,图9是本申请实施例提供的一种图像处理装置的结构示意图。上述图像处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该图像处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9所示,该图像处理装置2可以包括:预测区域确定模块100、区域标签获取模块200、目标损失值生成模块300以及目标模型确定模块400。
预测区域确定模块100,用于获取样本图像,将所述样本图像输入图像识别模型,通过所述图像识别模型输出所述样本图像中样本对象所属的预测区域;
区域标签获取模块200,用于获取所述样本图像对应的标签图像;所述标签图像中包括所述样本对象所属的区域标签;
目标损失值生成模块300,用于获取所述区域标签对应的区域掩模,根据所述区域掩模、所述预测区域以及所述区域标签,生成所述样本图像的目标损失值;
目标模型确定模块400,用于根据所述目标损失值对所述图像识别模型进行调整,得到目标图像识别模型,基于所述目标图像识别模型进行图像识别处理。
其中,对于预测区域确定模块100、区域标签获取模块200、目标损失值生成模块300以及目标模型确定模块400的具体实现方式,可以参见上述图7所对应实施例中步骤S301-步骤S304的描述,这里将不再进行赘述。
可以理解的是,本申请实施例中的图像处理装置2可执行前文图7所对应实施例中对图像处理方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图10,图10是本申请实施例提供的一种计算机设备的结构示意图。如图10所示,上述图8所对应实施例中的装置1或者图9所对应实施例中的装置2均可以应用于上述计算机设备1000,上述计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机可读存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。
在图10所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取样本图像,将样本图像输入图像识别模型,通过图像识别模型输出样本图像中样本对象所属的预测区域;
获取样本图像对应的标签图像;标签图像中包括样本对象所属的区域标签;
根据预测区域以及区域标签,确定样本图像的分类损失值;
获取区域标签的区域掩模,根据预测区域以及区域掩模,确定样本图像的区域约束损失值;
根据预测区域以及区域标签,确定样本图像的像素约束损失值;
根据分类损失值、像素约束损失值以及区域约束损失值,确定样本图像的目标损失值,根据目标损失值对图像识别模型进行调整,得到目标图像识别模型,基于目标图像识别模型进行图像识别处理。
或者,以实现:
获取样本图像,将样本图像输入图像识别模型,通过图像识别模型输出样本图像中样本对象所属的预测区域;
获取样本图像对应的标签图像;标签图像中包括样本对象所属的区域标签;
获取区域标签对应的区域掩模,根据区域掩模、预测区域以及区域标签,生成样本图像的目标损失值;
根据目标损失值对图像识别模型进行调整,得到目标图像识别模型,基于目标图像识别模型进行图像识别处理。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3或图7所对应实施例中对该图像处理方法的描述,也可执行前文图8所对应实施例中对该图像处理装置1或者图9所对应实施例中对该图像处理装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的图像处理的计算机设备1000所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图3或图7所对应实施例中对上述图像处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
上述计算机可读存储介质可以是前述任一实施例提供的图像处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中一方面提供的方法。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (11)
1.一种图像处理方法,其特征在于,包括:
获取样本图像,将所述样本图像输入图像识别模型,通过所述图像识别模型输出所述样本图像中样本对象所属的预测区域;
获取所述样本图像对应的标签图像;所述标签图像中包括所述样本对象所属的区域标签;
在所述预测区域中,获取预测像素点;在所述区域标签中,获取区域标注点;获取分类损失函数,根据所述预测像素点、所述区域标注点以及所述分类损失函数,生成所述样本图像的分类损失值;
获取所述区域标签的区域掩模,获取区域检测算子,根据所述区域检测算子、所述预测像素点以及所述区域掩模,确定所述预测区域对应的第一梯度特征;根据所述区域检测算子、所述区域标注点以及所述区域掩模,确定所述区域标签对应的第二梯度特征;获取区域约束损失函数,根据所述第一梯度特征、所述第二梯度特征以及所述区域约束损失函数,生成所述样本图像的区域约束损失值;
根据颜色通道像素值生成所述预测像素点对应的第一颜色像素值;根据所述颜色通道像素值生成所述区域标注点对应的第二颜色像素值;获取像素约束损失函数,根据所述第一颜色像素值、所述第二颜色像素值以及所述像素约束损失函数,生成所述样本图像的像素约束损失值;
根据所述分类损失值、所述像素约束损失值以及所述区域约束损失值,确定所述样本图像的目标损失值,根据所述目标损失值对所述图像识别模型进行调整,得到目标图像识别模型,基于所述目标图像识别模型进行图像识别处理。
2.根据权利要求1所述的方法,其特征在于,所述图像识别模型包括逐深度特征卷积组件;
所述将所述样本图像输入图像识别模型,通过所述图像识别模型输出所述样本图像中样本对象所属的预测区域,包括:
将所述样本图像输入所述图像识别模型,通过所述图像识别模型提取所述样本图像的图像特征;所述图像特征包括至少两个图像通道特征;
将所述至少两个图像通道特征输入所述逐深度特征卷积组件,通过所述逐深度特征卷积组件中的至少两个逐深度卷积核对所述至少两个图像通道特征分别进行卷积处理,得到卷积图像特征;一个逐深度卷积核对应一个图像通道特征;
根据所述卷积图像特征,确定所述样本图像中样本对象所属的预测区域。
3.根据权利要求2所述的方法,其特征在于,所述至少两个图像通道特征包括第一图像通道特征与第二图像通道特征,所述至少两个逐深度卷积核包括第一逐深度卷积核与第二逐深度卷积核;
所述将所述至少两个图像通道特征输入所述逐深度特征卷积组件,通过所述逐深度特征卷积组件中的至少两个逐深度卷积核对所述至少两个图像通道特征分别进行卷积处理,得到卷积图像特征,包括:
将所述至少两个图像通道特征输入所述逐深度特征卷积组件;
通过所述逐深度特征卷积组件中的所述第一逐深度卷积核对所述第一图像通道特征进行卷积处理,得到第一卷积通道特征;
通过所述逐深度特征卷积组件中的所述第二逐深度卷积核对所述第二图像通道特征进行卷积处理,得到第二卷积通道特征;
将所述第一卷积通道特征与所述第二卷积通道特征进行拼接,生成所述卷积图像特征。
4.根据权利要求3所述的方法,其特征在于,所述图像识别模型还包括特征融合组件;
所述根据所述卷积图像特征,确定所述样本图像中样本对象所属的预测区域,包括:
将所述卷积图像特征输入所述特征融合组件,通过所述特征融合组件中的规范化层对所述卷积图像特征进行归一化处理,得到标准图像特征;
将所述标准图像特征输入所述特征融合组件中的特征融合层,在所述特征融合层中对所述标准图像特征进行卷积处理,生成融合图像特征;
根据所述融合图像特征,确定所述样本图像中样本对象所属的预测区域。
5.根据权利要求1所述的方法,其特征在于,所述获取所述样本图像对应的标签图像,包括:
获取所述样本图像对应的区域标注图像;所述区域标注图像中包括所述样本对象所属的标注区域;
将所述区域标注图像进行二值化处理,得到二值标注图像;
将所述二值标注图像中的标注区域进行滤波平滑处理,得到区域标签;
将包含所述区域标签的二值标注图像确定为所述标签图像。
6.根据权利要求1所述的方法,其特征在于,所述获取所述区域标签的区域掩模,包括:
将所述标签图像进行膨胀形态处理,得到膨胀标签图像;
将所述标签图像进行腐蚀形态处理,得到腐蚀标签图像;
在所述膨胀标签图像中,获取所述样本对象所属的膨胀区域标签中的膨胀区域标注点;
在所述腐蚀标签图像中,获取所述样本对象所属的腐蚀区域标签中的腐蚀区域标注点;
确定所述膨胀区域标注点与所述腐蚀区域标注点之间的差异值,作为所述区域标签的区域掩模。
7.根据权利要求1所述的方法,其特征在于,所述根据所述分类损失值、所述像素约束损失值以及所述区域约束损失值,确定所述样本图像的目标损失值,包括:
获取第一模型平衡参数以及第二模型平衡参数;
将所述第一模型平衡参数与所述区域约束损失值进行相乘处理,得到第一平衡损失值;
将所述第二模型平衡参数与所述像素约束损失值进行相乘处理,得到第二平衡损失值;
将所述分类损失值、所述第一平衡损失值以及所述第二平衡损失值进行相加处理,得到所述样本图像的目标损失值。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取目标图像,将所述目标图像输入所述目标图像识别模型;
在所述目标图像识别模型中,识别所述目标图像中目标对象所属的目标区域;
将所述目标区域的边界进行标记,得到标记边界;
输出携带所述标记边界的目标图像。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
根据所述标记边界从所述目标图像中提取包含所述目标对象的区域图像,在所述目标图像识别模型中,识别所述区域图像中所述目标对象的目标部位类别信息;所述目标部位类别信息为所述目标对象中的目标部位所属的类别;
获取素材信息库;所述素材信息库中包括至少两个虚拟素材数据,一个虚拟素材数据对应一个部位类别信息;
在所述素材信息库中获取与所述目标部位类别信息相匹配的虚拟素材数据,作为目标虚拟素材数据;
将所述目标对象中的目标部位切换为所述目标虚拟素材数据,得到虚拟部位数据;
输出包含所述虚拟部位数据的目标对象。
10.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供网络通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行权利要求1-9任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010722268.1A CN111739027B (zh) | 2020-07-24 | 2020-07-24 | 一种图像处理方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010722268.1A CN111739027B (zh) | 2020-07-24 | 2020-07-24 | 一种图像处理方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111739027A CN111739027A (zh) | 2020-10-02 |
CN111739027B true CN111739027B (zh) | 2024-04-26 |
Family
ID=72657587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010722268.1A Active CN111739027B (zh) | 2020-07-24 | 2020-07-24 | 一种图像处理方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111739027B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270745B (zh) * | 2020-11-04 | 2023-09-29 | 北京百度网讯科技有限公司 | 一种图像生成方法、装置、设备以及存储介质 |
CN113033549B (zh) * | 2021-03-09 | 2022-09-20 | 北京百度网讯科技有限公司 | 定位图获取模型的训练方法和装置 |
CN113486899B (zh) * | 2021-05-26 | 2023-01-24 | 南开大学 | 一种基于互补分支网络的显著性目标检测方法 |
CN113822314B (zh) * | 2021-06-10 | 2024-05-28 | 腾讯云计算(北京)有限责任公司 | 图像数据处理方法、装置、设备以及介质 |
CN113537124B (zh) * | 2021-07-28 | 2024-06-18 | 平安科技(深圳)有限公司 | 模型训练方法、装置与存储介质 |
CN113610856B (zh) * | 2021-08-18 | 2023-11-07 | 京东科技信息技术有限公司 | 训练图像分割模型和图像分割的方法和装置 |
CN113705677A (zh) * | 2021-08-27 | 2021-11-26 | 北京三快在线科技有限公司 | 图像识别方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670429A (zh) * | 2018-12-10 | 2019-04-23 | 广东技术师范学院 | 一种基于实例分割的监控视频多目标人脸检测方法及*** |
US10304193B1 (en) * | 2018-08-17 | 2019-05-28 | 12 Sigma Technologies | Image segmentation and object detection using fully convolutional neural network |
CN110322445A (zh) * | 2019-06-12 | 2019-10-11 | 浙江大学 | 一种基于最大化预测和标签间相关性损失函数的语义分割方法 |
CN110363138A (zh) * | 2019-07-12 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 模型训练方法、图像处理方法、装置、终端及存储介质 |
CN110659646A (zh) * | 2019-08-21 | 2020-01-07 | 北京三快在线科技有限公司 | 一种多任务证件图像自动处理方法、装置、设备及可读存储介质 |
CN110678873A (zh) * | 2019-07-30 | 2020-01-10 | 珠海全志科技股份有限公司 | 基于级联神经网络的注意力检测方法、计算机装置及计算机可读存储介质 |
CN111428604A (zh) * | 2020-03-19 | 2020-07-17 | 上海东普信息科技有限公司 | 面部佩戴口罩识别方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10997433B2 (en) * | 2018-02-27 | 2021-05-04 | Nvidia Corporation | Real-time detection of lanes and boundaries by autonomous vehicles |
US10885400B2 (en) * | 2018-07-03 | 2021-01-05 | General Electric Company | Classification based on annotation information |
-
2020
- 2020-07-24 CN CN202010722268.1A patent/CN111739027B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10304193B1 (en) * | 2018-08-17 | 2019-05-28 | 12 Sigma Technologies | Image segmentation and object detection using fully convolutional neural network |
CN109670429A (zh) * | 2018-12-10 | 2019-04-23 | 广东技术师范学院 | 一种基于实例分割的监控视频多目标人脸检测方法及*** |
CN110322445A (zh) * | 2019-06-12 | 2019-10-11 | 浙江大学 | 一种基于最大化预测和标签间相关性损失函数的语义分割方法 |
CN110363138A (zh) * | 2019-07-12 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 模型训练方法、图像处理方法、装置、终端及存储介质 |
CN110678873A (zh) * | 2019-07-30 | 2020-01-10 | 珠海全志科技股份有限公司 | 基于级联神经网络的注意力检测方法、计算机装置及计算机可读存储介质 |
CN110659646A (zh) * | 2019-08-21 | 2020-01-07 | 北京三快在线科技有限公司 | 一种多任务证件图像自动处理方法、装置、设备及可读存储介质 |
CN111428604A (zh) * | 2020-03-19 | 2020-07-17 | 上海东普信息科技有限公司 | 面部佩戴口罩识别方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Box-driven Class-wise Region Masking and Filling Rate Guided Loss for Weakly Supervised Semantic Segmentation;Chunfeng Song et al.;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;第3131-3140页 * |
基于对抗学习的深度视觉域适应方法研究;毛潇锋;《中国硕士学位论文全文数据库信息科技辑》;第1-50页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111739027A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111739027B (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN110176027B (zh) | 视频目标跟踪方法、装置、设备及存储介质 | |
CN108765278B (zh) | 一种图像处理方法、移动终端及计算机可读存储介质 | |
CN111553267B (zh) | 图像处理方法、图像处理模型训练方法及设备 | |
CN111401216B (zh) | 图像处理、模型训练方法、装置、计算机设备和存储介质 | |
CN111768425B (zh) | 图像处理方法、装置及设备 | |
WO2023185785A1 (zh) | 一种图像处理方法、模型训练方法及相关装置 | |
WO2021129181A1 (en) | Portrait segmentation method, model training method and electronic device | |
CN112446302B (zh) | 一种人体姿态检测方法、***、电子设备和存储介质 | |
US20230334890A1 (en) | Pedestrian re-identification method and device | |
CN112215171B (zh) | 目标检测方法、装置、设备及计算机可读存储介质 | |
CN111681177B (zh) | 视频处理方法及装置、计算机可读存储介质、电子设备 | |
CN113627402B (zh) | 一种图像识别方法及相关装置 | |
US11468571B2 (en) | Apparatus and method for generating image | |
CN113411550B (zh) | 视频上色方法、装置、设备及存储介质 | |
CN111833360B (zh) | 一种图像处理方法、装置、设备以及计算机可读存储介质 | |
CN112330624A (zh) | 医学图像处理方法和装置 | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
CN113822951A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
WO2023279799A1 (zh) | 对象识别方法、装置和电子*** | |
CN115577768A (zh) | 半监督模型训练方法和装置 | |
CN115967823A (zh) | 视频封面生成方法、装置、电子设备及可读介质 | |
WO2021179751A1 (zh) | 图像处理方法和*** | |
CN117540221A (zh) | 图像处理方法和装置、存储介质及电子设备 | |
CN111914850B (zh) | 图片特征提取方法、装置、服务器和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40030848 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |