CN111783779B - 图像处理方法、装置和计算机可读存储介质 - Google Patents
图像处理方法、装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN111783779B CN111783779B CN201910875284.1A CN201910875284A CN111783779B CN 111783779 B CN111783779 B CN 111783779B CN 201910875284 A CN201910875284 A CN 201910875284A CN 111783779 B CN111783779 B CN 111783779B
- Authority
- CN
- China
- Prior art keywords
- image
- tensor
- output
- feature
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 232
- 238000000605 extraction Methods 0.000 claims abstract description 136
- 238000003709 image segmentation Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 26
- 239000000523 sample Substances 0.000 claims description 154
- 238000012549 training Methods 0.000 claims description 96
- 230000006870 function Effects 0.000 claims description 58
- 238000012545 processing Methods 0.000 claims description 47
- 230000004927 fusion Effects 0.000 claims description 43
- 239000013074 reference sample Substances 0.000 claims description 27
- 238000012795 verification Methods 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000003141 lower extremity Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000001364 upper extremity Anatomy 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及一种图像处理方法、装置和计算机可读存储介质,涉及计算机技术领域。本公开的方法包括:将待处理图像输入图像分割网络中的语义分割模型和细节提取模型;其中,细节提取模型用于获取待处理图像的细节特征;获得语义分割模型输出的待处理图像的第一特征张量,以及细节提取模型输出的待处理图像的第二特征张量;根据第一特征张量和第二特征张量,确定待处理图像中各个像素点所属的类别,从而确定待处理图像的分割结果;其中,图像分割网络还包括:辫形模块;语义分割模型的中间层和对应的细节提取模型的中间层通过辫形模块连接;辫形模块用于对语义分割模型的中间层输出的特征张量和细节提取模型的中间层输出的特征张量进行融合。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种图像处理方法、装置和计算机可读存储介质。
背景技术
图像语义分割技术,是指给定一张图像,将图像中每个像素点分为预定义的语义类别(如人、道路、建筑、树木、动物等),从而分割得到图像中语义类别相同的区域。
传统图像语义分割方法包括非参数化方法和基于机器学习的方法。非参数化方法一般根据像素值的相似性,将临近的相似像素分为相同类别。基于机器学习的方法通过人工设计的算子或算法自动学习的特征表示图像中的像素或临近区域的视觉特征,并使用机器学习算法从大量数据中学习分类模型,从而将像素分类为预定义的类别。
传统图像语义分割方法主要面向一般性图像中的粗粒度对象的分割,如行人、道路、车辆、树木、建筑等。
发明内容
发明人发现:传统图像语义分割方法对图像中的小尺度目标分割效果较差、对局部细节分割较为粗糙。例如,图像中人体解析技术是图像语义分割的一种特例,其分割目标是图像中人体的各个部位及着装配饰等区域(如人脸、头发、躯干、上肢、下肢、帽子、上装、裤子、裙子、鞋等),其他区域分类为背景。应用现有的语义分割方法进行人体解析,容易导致相似类别间(如头发与帽子、T恤与外套、短裤与短裙等)极易混淆,无法实现准确的解析。
本公开所要解决的一个技术问题是:提高对图像进行语义分割的准确性。
根据本公开的一些实施例,提供的一种图像处理方法,包括:将待处理图像输入图像分割网络中的语义分割模型和细节提取模型;其中,细节提取模型用于获取待处理图像的细节特征;获得语义分割模型输出的待处理图像的第一特征张量,以及细节提取模型输出的待处理图像的第二特征张量;根据第一特征张量和第二特征张量,确定待处理图像中各个像素点所属的类别,从而确定待处理图像的分割结果;其中,图像分割网络还包括:辫形模块;语义分割模型的中间层和对应的细节提取模型的中间层通过辫形模块连接;辫形模块用于对语义分割模型的中间层输出的特征张量和细节提取模型的中间层输出的特征张量进行融合。
在一些实施例中,辫形模块的数量为至少一个;在辫形模块的数量为多个的情况下,不同的辫形模块分别连接语义分割模型的不同卷积层和细节提取模型的不同卷积层。
在一些实施例中,对语义分割模型的中间层输出的特征张量和细节提取模型的中间层输出的特征张量进行融合包括:针对每个辫形模块,将语义分割模型的一个卷积层输出的特征张量和细节提取模型的一个卷积层输出的特征张量输入辫形模块,分别得到辫形模块输出的语义分割模型对应的融合后的特征张量,以及辫形模块输出细节提取模型对应的融合后的特征张量;将语义分割模型对应的融合后的特征张量输入语义分割模型下一个卷积层;将细节提取模型对应的融合后的特征张量输入细节提取模型下一个卷积层。
在一些实施例中,辫形模块包括第一融合子模块和第二融合子模块;对语义分割模型的中间层输出的特征张量和细节提取模型的中间层输出的特征张量进行融合包括:将语义分割模型的一个卷积层输出的特征张量和对应的细节提取模型的一个卷积层输出的特征张量,输入第一融合子模块,得到输出的语义分割模型对应的融合后的特征张量;将语义分割模型的卷积层输出的特征张量和细节提取模型的卷积层输出的特征张量,输入第二融合子模块,得到输出的细节提取模型对应的融合后的特征张量。
在一些实施例中,在第一融合子模块中,根据输入的细节提取模型对应的特征张量的尺寸,调整语义分割模型对应的特征张量长和宽两个维度的尺寸,将输入的细节提取模型对应的特征张量和调整后的语义分割模型对应的特征张量进行特征级联,得到第一级联特征;根据不同通道的第一权重,对第一级联特征进行调整,得到语义分割模型对应的融合后的特征张量;在第二融合子模块中,根据输入的语义分割模型对应的特征张量的尺寸,调整细节提取模型对应的特征张量长和宽两个维度的尺寸,将输入的语义分割模型对应的特征张量和调整后的细节提取模型对应的特征张量进行特征级联,得到第二级联特征;根据不同通道的第二权重,对第二级联特征进行调整,得到细节提取模型对应的融合后的特征张量。
在一些实施例中,根据不同通道的第一权重,对第一级联特征进行调整包括:将第一级联特征经过初步处理,将初步处理的第一级联特征中的每个通道对应的元素分别乘以对应的第一权重,再与初步处理的第一级联特征进行加权,得到语义分割模型对应的融合后的特征张量;根据不同通道的第二权重,对第二级联特征进行调整包括:将第二级联特征经过初步处理,将初步处理的第二级联特征中的每个通道对应的元素分别乘以对应的第二权重,再与初步处理的第二级联特征进行加权,得到细节提取模型对应的融合后的特征张量;其中,不同的通道对应不同的类别,初步处理包括卷积、批正则化。
在一些实施例中,根据第一特征张量和第二特征张量,确定待处理图像中各个像素点所属的类别包括:将第一特征张量与第二特征张量进行加权,得到第三特征张量;将第三特征张量中的每个像素点对应的特征,在通道维度进行归一化运算;将每个像素点对应的特征中通道维度最大值对应的类别,作为该像素点所属的类别。
在一些实施例中,将验证集中的图像输入初始训练的基础语义分割模型,得到输出的验证集中图像的分割结果;根据输出的验证集中图像的分割结果和准确分割结果之间的差异,确定混淆类别;利用包含混淆类别的样本图像构建训练样本集,对图像分割网络进行训练。
在一些实施例中,根据输出的验证集中图像的分割结果和准确分割结果之间的差异,确定混淆类别包括:根据输出的验证集中图像的分割结果和准确分割结果之间的差异,确定混淆矩阵;其中,混淆矩阵中的每个元素表示对应的两种类别之间的混淆概率;根据混淆矩阵构建混淆图;其中,混淆图中两个节点之间的边表示该两个节点对应的类别之间的混淆概率大于混淆阈值,边连接的每个节点表示一种类别,与其他节点之间没有边的节点被舍弃;根据混淆图,确定混淆类别。
在一些实施例中,利用包含混淆类别的样本图像构建训练样本集包括:选取一张包含混淆类别的样本图像,作为基准样本图像;将基准样本图像包含的混淆类别中的一种类别,作为基准类别;在多个样本图像中选取标注有基准类别的一张图像,作为正样本图像;在混淆图中,选取基准类别对应节点的邻节点,将该邻节点对应的类别,作为负样本类别;在多个样本图像中选取标注有负样本类别的一张图像,作为负样本图像;将基准样本图像,正样本图像和负样本图像,组成训练样本组,加入训练样本集。
在一些实施例中,对图像分割网络进行训练包括:将训练样本集中的各个训练样本组输入图像分割网络,得到输出的各个训练样本组对应输出结果,输出结果包括训练样本组中每张图像的分割结果和每张图像的特征张量;根据各个训练样本组中每张图像的标注信息和对应分割结果,计算第一损失函数值;根据各个训练样本组中每张图像的特征张量,计算第二损失函数值;根据第一损失函数值和第二损失函数值,对图像分割网络的参数进行调整,直至达到预设收敛条件。
在一些实施例中,根据各个训练样本组中每张图像的特征张量,计算第二损失函数值包括:针对每个训练样本组,根据对应的分割结果,分别确定基准样本图像、正样本图像和负样本图像对应的掩模;针对每张图像,将图像的特征张量与对应的掩模按位置相乘,得到乘积后的特征张量;将乘积后的特征张量中每个通道对应的元素求平均值,得到特征向量;根据各个训练样本组中每张图像对应的特征向量,计算三元组损失函数值,作为第二损失函数值。
根据本公开的另一些实施例,提供的一种图像处理装置,包括:输入单元,用于将待处理图像输入图像分割网络中的语义分割模型和细节提取模型;其中,细节提取模型用于获取待处理图像的细节特征;特征获取单元,用于获得语义分割模型输出的待处理图像的第一特征张量,以及细节提取模型输出的待处理图像的第二特征张量;分割确定单元,用于根据第一特征张量和第二特征张量,确定待处理图像中各个像素点所属的类别,从而确定待处理图像的分割结果;其中,图像分割网络还包括:辫形模块;语义分割模型的中间层和对应的细节提取模型的中间层通过辫形模块连接;辫形模块用于对语义分割模型的中间层输出的特征张量和细节提取模型的中间层输出的特征张量进行融合。
在一些实施例中,辫形模块的数量为至少一个;在辫形模块的数量为多个的情况下,不同的辫形模块分别连接语义分割模型的不同卷积层和细节提取模型的不同卷积层。
在一些实施例中,输入单元用于针对每个辫形模块,将语义分割模型的一个卷积层输出的特征张量和细节提取模型的一个卷积层输出的特征张量输入辫形模块,分别得到辫形模块输出的语义分割模型对应的融合后的特征张量,以及辫形模块输出细节提取模型对应的融合后的特征张量;将语义分割模型对应的融合后的特征张量输入语义分割模型下一个卷积层;将细节提取模型对应的融合后的特征张量输入细节提取模型下一个卷积层。
在一些实施例中,辫形模块包括第一融合子模块和第二融合子模块;输入单元用于将语义分割模型的一个卷积层输出的特征张量和对应的细节提取模型的一个卷积层输出的特征张量,输入第一融合子模块,得到输出的语义分割模型对应的融合后的特征张量;将语义分割模型的卷积层输出的特征张量和细节提取模型的卷积层输出的特征张量,输入第二融合子模块,得到输出的细节提取模型对应的融合后的特征张量。
在一些实施例中,输入单元用于在第一融合子模块中,根据输入的细节提取模型对应的特征张量的尺寸,调整语义分割模型对应的特征张量长和宽两个维度的尺寸,将输入的细节提取模型对应的特征张量和调整后的语义分割模型对应的特征张量进行特征级联,得到第一级联特征;根据不同通道的第一权重,对第一级联特征进行调整,得到语义分割模型对应的融合后的特征张量;在第二融合子模块中,根据输入的语义分割模型对应的特征张量的尺寸,调整细节提取模型对应的特征张量长和宽两个维度的尺寸,将输入的语义分割模型对应的特征张量和调整后的细节提取模型对应的特征张量进行特征级联,得到第二级联特征;根据不同通道的第二权重,对第二级联特征进行调整,得到细节提取模型对应的融合后的特征张量。
在一些实施例中,输入单元用于将第一级联特征经过初步处理,将初步处理的第一级联特征中的每个通道对应的元素分别乘以对应的第一权重,再与初步处理的第一级联特征进行加权,得到语义分割模型对应的融合后的特征张量;根据不同通道的第二权重,对第二级联特征进行调整包括:将第二级联特征经过初步处理,将初步处理的第二级联特征中的每个通道对应的元素分别乘以对应的第二权重,再与初步处理的第二级联特征进行加权,得到细节提取模型对应的融合后的特征张量;其中,不同的通道对应不同的类别,初步处理包括卷积、批正则化。
在一些实施例中,分割确定单元用于将第一特征张量与第二特征张量进行加权,得到第三特征张量;将第三特征张量中的每个像素点对应的特征,在通道维度进行归一化运算;将每个像素点对应的特征中通道维度最大值对应的类别,作为该像素点所属的类别。
在一些实施例中,该装置还包括:训练单元,用于将验证集中的图像输入初始训练的基础语义分割模型,得到输出的验证集中图像的分割结果;根据输出的验证集中图像的分割结果和准确分割结果之间的差异,确定混淆类别;利用包含混淆类别的样本图像构建训练样本集,对图像分割网络进行训练。
在一些实施例中,训练单元用于根据输出的验证集中图像的分割结果和准确分割结果之间的差异,确定混淆矩阵;其中,混淆矩阵中的每个元素表示对应的两种类别之间的混淆概率;根据混淆矩阵构建混淆图;其中,混淆图中两个节点之间的边表示该两个节点对应的类别之间的混淆概率大于混淆阈值,边连接的每个节点表示一种类别,与其他节点之间没有边的节点被舍弃;根据混淆图,确定混淆类别
在一些实施例中,训练单元用于选取一张包含混淆类别的样本图像,作为基准样本图像;将基准样本图像包含的混淆类别中的一种类别,作为基准类别;在多个样本图像中选取标注有基准类别的一张图像,作为正样本图像;在混淆图中,选取基准类别对应节点的邻节点,将该邻节点对应的类别,作为负样本类别;在多个样本图像中选取标注有负样本类别的一张图像,作为负样本图像;将基准样本图像,正样本图像和负样本图像,组成训练样本组,加入训练样本集。
在一些实施例中,训练单元用于将训练样本集中的各个训练样本组输入图像分割网络,得到输出的各个训练样本组对应输出结果,输出结果包括训练样本组中每张图像的分割结果和每张图像的特征张量;根据各个训练样本组中每张图像的标注信息和对应分割结果,计算第一损失函数值;根据各个训练样本组中每张图像的特征张量,计算第二损失函数值;根据第一损失函数值和第二损失函数值,对图像分割网络的参数进行调整,直至达到预设收敛条件。
在一些实施例中,训练单元用于针对每个训练样本组,根据对应的分割结果,分别确定基准样本图像、正样本图像和负样本图像对应的掩模;针对每张图像,将图像的特征张量与对应的掩模按位置相乘,得到乘积后的特征张量;将乘积后的特征张量中每个通道对应的元素求平均值,得到特征向量;根据各个训练样本组中每张图像对应的特征向量,计算三元组损失函数值,作为第二损失函数值。
根据本公开的又一些实施例,提供的一种图像处理装置,包括:处理器;以及耦接至处理器的存储器,用于存储指令,指令被处理器执行时,使处理器执行如前述任意实施例的图像处理方法。
根据本公开的再一些实施例,提供的一种计算机可读非瞬时性存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意实施例的图像处理方法。
本公开中对现有的语义分割模型进行了改进,将语义分割模型与细节提取模型通过辫形模块连接,细节提取模型可以提取待处理图像的细节特征,辫形模块可以将语义分割模型的中间层输出的特征张量和细节提取模型的中间层输出的特征张量进行融合,从而使语义分割模型的提取的粗粒度特征与细节提取模型提取的细节特征进行融合,融合后的特征会再次经过两个模型的处理,最终输出待处理图像的第一特征张量和第二特征张量,根据两个模型的分割结果,最终确定待处理图像的分割结果。本公开的图像分割网络,通过细节提取模型和弥补语义分割模型只能进行粗粒度分割的不足,提高了对图像进行语义分割的准确性。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开的一些实施例的图像处理方法的流程示意图。
图2示出本公开的一些实施例的图像分割网络的结构示意图。
图3示出本公开的一些实施例的辫形模块的结构示意图。
图4示出本公开的另一些实施例的图像处理方法的流程示意图。
图5示出本公开的一些实施例的图像处理装置的结构示意图。
图6示出本公开的另一些实施例的图像处理装置的结构示意图。
图7示出本公开的又一些实施例的图像处理装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
针对现有的语义分割方法对图像中的小尺度目标分割效果较差、对局部细节分割较为粗糙的问题,提出本方案。下面结合图1描述本公开图像处理方法的一些实施例。
图1为本公开图像处理方法一些实施例的流程图。如图1所示,该实施例的方法包括:步骤S102~S106。
在步骤S102中,将待处理图像输入图像分割网络中的语义分割模型和细节提取模型。
如图2所示为图像分割网络的示意图,图像分割网络可以包括:语义分割模型,细节提取模型和辫形模块。语义分割模型可以采用现有模型,例如,金字塔场景解析网络(PSPNet)等。语义分割模型可以包括多个卷积层和多个反卷积层。例如,语义分割模型由N个卷积层和M个反卷积层,共L层组成,L,M,N为正整数,第l(1≤l≤L)层以图像I或上一卷积层的输出Yl-1为输入,输出为特征张量Yl或分割结果YS,整个网络可表示为:YS=F(I)=fL(fL-1(…f1(I))),Yl=fl(Yl-1),Y0=I。
语义分割模型中第l层卷积层中的卷积核大小例如为kl×kl×cl,运算步长大于1,例如为sl=kl/2,k,c和s为正整数。因此卷积层输出的特征张量的长Hl和宽Wl逐层减小。第l层反卷积层的卷积核大小例如为kl×kl×cl,运算步长sl=1。因此,反卷积层输出特征张量的长Hl和宽Wl逐渐扩大。每层卷积运算后都可以经过一个批正则化操作和激活函数,激活函数例如为线性整流函数,但不限于此种激活函数。语义分割模型的最后一个卷积层卷积核大小为kl×kl×C,其中,C为预定义分割的类别数,即通道的数量,输出一个与原图尺寸相同的特征张量。
细节提取模型用于获取待处理图像的细节特征。细节提取模型包括多个卷积层,并且运算步长为1。例如,细节提取模型由P个卷积层组成,P为正整数,第1≤p≤P层以输入图像I或上一卷积层的输出Yp-1为输入,输出为特征张量Yp或分割结果YD,整个网络可表示为:YD=G(I)=gP(gP-1(…g1(I))),其中Yp=gp(Yp-1),Y0=I。
细节提取模型的第p个卷积核大小为kp×kp×cp,运算步长sl=1,k,c和s为正整数。因此每一层输出特征张量长Hl和宽Wl保持不变。每层卷积运算后可以经过一个批正则化操作和激活函数。细节提取模型的最后一个卷积层卷积核大小为kp×kp×C,其中C为预定义的分割的类别数,即通道的数量。
如图2所示,语义分割模型的中间层和对应的细节提取模型的中间层通过辫形模块连接。辫形模块可以用于对语义分割模型的中间层输出的特征张量和细节提取模型的中间层输出的特征张量进行融合。辫形模块的数量例如为至少一个。在辫形模块的数量为多个的情况下,不同的辫形模块分别连接语义分割模型的不同卷积层和细节提取模型的不同卷积层。
如图2所示,辫形模块有两个输入口和两个输出口,两个输入口可以分别连接语义分割模型和细节提取网络的一个卷积层,两个输出口分别连接语义分割模型和细节提取网络的一个卷积层。图2中示出了图像分割网络包括两个辫形模块的情况,例如,可以将辫形模块设置在语义分割模型和细节提取模型中间位置的卷积层之后,以及倒数第二层卷积层之后。实际应用中可以根据测试结果,语义分割模型和细节提取模型的层数,确定辫形模块的数量和设置的位置。
在一些实施例中,针对每个辫形模块,将语义分割模型的一个卷积层输出的特征张量和细节提取模型的一个卷积层输出的特征张量输入辫形模块,分别得到辫形模块输出的语义分割模型对应的融合后的特征张量,以及辫形模块输出细节提取模型对应的融合后的特征张量。将语义分割模型对应的融合后的特征张量输入语义分割模型下一个卷积层;将细节提取模型对应的融合后的特征张量输入细节提取模型下一个卷积层。
在一些实施例中,辫形模块包括第一融合子模块和第二融合子模块。将语义分割模型的一个卷积层输出的特征张量和对应的细节提取模型的一个卷积层输出的特征张量,输入第一融合子模块,得到输出的语义分割模型对应的融合后的特征张量。将语义分割模型的卷积层输出的特征张量和细节提取模型的卷积层输出的特征张量,输入第二融合子模块,得到输出的细节提取模型对应的融合后的特征张量。
在一些实施例中,在第一融合子模块中,根据输入的细节提取模型对应的特征张量的尺寸,调整语义分割模型对应的特征张量长和宽两个维度的尺寸,将输入的细节提取模型对应的特征张量和调整后的语义分割模型对应的特征张量进行特征级联,得到第一级联特征;根据不同通道的第一权重,对第一级联特征进行调整,得到语义分割模型对应的融合后的特征张量。
如图3所示,在第一融合子模块中,可以利用第一尺寸调整子模块调整语义分割模型对应的特征张量长和宽两个维度的尺寸。第一尺寸调整子模块可以包括:反卷积层(例如,卷积核为3×3),还可以包括批正则化层,用于防止网络过拟合。可以利用第一特征级联子模块,将输入的细节提取模型对应的特征张量和调整后的语义分割模型对应的特征张量进行特征级联。可以利用第一特征融合子模块得到语义分割模型对应的融合后的特征张量。
在一些实施例中,在第二融合子模块中,根据输入的语义分割模型对应的特征张量的尺寸,调整细节提取模型对应的特征张量长和宽两个维度的尺寸,将输入的语义分割模型对应的特征张量和调整后的细节提取模型对应的特征张量进行特征级联,得到第二级联特征;根据不同通道的第二权重,对第二级联特征进行调整,得到细节提取模型对应的融合后的特征张量。
如图3所示,在第二融合子模块中,可以利用第二尺寸调整子模块调整细节提取模型对应的特征张量长和宽两个维度的尺寸。第二尺寸调整子模块可以包括:卷积层(例如,卷积核为3×3),还可以包括批正则化层,用于防止网络过拟合。可以利用第二特征级联子模块,将输入的语义分割模型对应的特征张量和调整后的细节提取模型对应的特征张量进行特征级联。可以利用第二特征融合子模块得到细节提取模型对应的融合后的特征张量。
例如,如图3所示,辫形模块由语义分割模型和细节提取模型的中间层输出的特征张量Yl和Yp为输入,设语义分割模型和细节提取模型中间层输出的特征张量的尺寸分别为S×S×C1和2S×2S×C2。Yl经过一组反卷积和批正则化运算扩大为2S×2S×C1的特征张量,与Yp进行特征级联得到尺寸为2S×2S×(C1+C2)的特征张量,然后经过特第二特征融合子模块,最后输出尺寸为2S×2S×C′2的特征张量同理,第一特征融合子模块最后输出尺寸为S×S×C′1的特征张量/>
第一特征融合子模块与第二特征融合子模块的结构相似。在第一特征融合子模块中,将第一级联特征中的每个通道对应的元素分别乘以对应的第一权重,再与第一级联特征进行加权,得到语义分割模型对应的融合后的特征张量。在第二特征融合子模块中,将第二级联特征中的每个通道对应的元素分别乘以对应的第二权重,再与第二级联特征进行加权,得到细节提取模型对应的融合后的特征张量。
下面以第二特征融合子模块为例具体描述结构,第一特征融合子模块结构相同或相似。如图3所示,第二特征融合子模块中例如包括:卷积层(例如,卷积核为1×1),批正则化操作层,属于初步处理层,初步处理的第一级联特征,经过全局池化层,卷积层(例如,卷积核为1×1),激活函数层,得到各个通道对应的第一权重,第一权重输入通道点乘层,同时初步处理的第一级联特征,也输入通道点乘层,将初步处理的第一级联特征中的每个通道对应的元素分别乘以对应的第一权重,通道点乘层的输出和初步处理的第一级联特征输入元素相加层,进行加权,得到语义分割模型对应的融合后的特征张量。通道点乘层可以通过不同通道的权重的调整,将重要的通道的特征突出,元素相加层则可以融合初步处理的级联特征和经过权重调整的特征。
在步骤S104中,获得语义分割模型输出的待处理图像的第一特征张量,以及细节提取模型输出的待处理图像的第二特征张量。
特征张量包括三个维度,分别表示图像的长、宽和通道。不同通道对应不同的类别,例如,特征张量中三个维度分别为s,s,c的元素表示从图像中长度方向上数第s个并且宽度方向上数第s个的像素点属于c类别的概率。
在步骤S106中,根据第一特征张量和第二特征张量,确定待处理图像中各个像素点所属的类别,从而确定待处理图像的分割结果。
在一些实施例中,将第一特征张量与第二特征张量进行加权,得到第三特征张量。将第三特征张量中的每个像素点对应的特征,在通道维度进行归一化运算。将每个像素点对应的特征中通道维度最大值对应的类别,作为该像素点所属的类别。每个像素点对应的特征可以是一个特征向量,向量中的各个元素表示该像素点属于不同通道的概率。
例如,语义分割模型和细节提取模型最后分别输出尺寸为SS×SS×C的第一特征张量YS和SD×SD×C的第二特征张量YD,其中C为预定义的分割的类别数。可以将二者按元素加权得到最终的特征张量Y,例如公式表示为:
Y=α·YS+(1-α)·YD (1)
然后,对每一个像素点,使用归一化指数函数对通道维度的元素进行归一化运算,例如公式表示为:
其中,z表示一个像素点对应的通道维度的向量,σ(z)c表示归一化后向量z中第c个元素的值,zc表示原向量中第c个元素,1≤k≤K,k为正整数。
最后,对将每个像素点对应的通道维度最大值对应的类别作为该像素点分类的类别,得到分割结果R。例如,图片中长度方向第s个,宽度方向第s个像素点,对应的通道方向向量为(0.1,0.05,0.01,0.04,0.8),则0.8对应的类别,为该像素点所属类别。
上述实施例中对现有的语义分割模型进行了改进,将语义分割模型与细节提取模型通过辫形模块连接,细节提取模型可以提取待处理图像的细节特征,辫形模块可以将语义分割模型的中间层输出的特征张量和细节提取模型的中间层输出的特征张量进行融合,从而使语义分割模型的提取的粗粒度特征与细节提取模型提取的细节特征进行融合,融合后的特征会再次经过两个模型的处理,最终输出待处理图像的第一特征张量和第二特征张量,根据两个模型的分割结果,最终确定待处理图像的分割结果。上述实施例的图像分割网络,通过细节提取模型和弥补语义分割模型只能进行粗粒度分割的不足,提高了对图像进行语义分割的准确性。上述实施例的方法,通过两支卷积神经网络,两支网络通过辫形模块连接,分别从有标注数据中学习大尺度下的高级语义特征(如类别)和小尺度下低级细节特征(如纹理),将多尺度、多层级特征融合,能够有效解决小目标易丢失、细节部位粗糙、类别易混淆问题。
本公开还提供一种对图像分割网络的训练方法,能够提高网络的准确性,下面结合图4描述本公开图像处理方法的另一些实施例。
图4为本公开图像处理方法另一些实施例的流程图。如图4所示,该实施例的方法包括:步骤S402~S406。
在步骤S402中,将验证集中的图像输入初始训练的基础语义分割模型,得到输出的验证集中图像的分割结果。
给定某一数据集,可以划分为训练集、验证集等。可以利用训练集,对基础语义分割模型进行初始训练。基础语义分割模型主要用于后续确定混淆类别,因此,基础语义分割模型可以与图像分割网络的中的语义分割模型相同或不同。可以采用现有的训练方法对基础语义分割模型进行初始训练。
将验证集中的图像输入初始训练后的基础语义分割模型,可以得到验证集中图像的分割结果,即图像中各个像素点所属的类别。
在步骤S404中,根据输出的验证集中图像的分割结果和准确分割结果之间的差异,确定混淆类别。
在一些实施例中,根据输出的验证集中图像的分割结果和准确分割结果之间的差异,确定混淆矩阵;混淆矩阵中的每个元素表示对应的两种类别之间的混淆概率。根据混淆矩阵构建混淆图;混淆图中两个节点之间的边表示该两个节点对应的类别之间的混淆概率大于混淆阈值,边连接的每个节点表示一种类别,与其他节点之间没有边的节点被舍弃。根据混淆图,确定混淆类别。
例如,验证集中的图像标注了准确分割结果,可以通过比对输出的分割结果和准确分割结果之间的差异确定混淆矩阵M,矩阵元素M(i,j)=p(i,j),p(i,j)为类别i到j之间的混淆概率。类别i和j之间的混淆概率可以根据输出类别为i,但准确分割结果为j的像素点的个数,以及像素的总个数计算。
例如,以各个类别作为混淆图的节点,如果类别p(i,j)>τ,则节点i到j增加一条有向边,τ为混淆阈值。遍历完所有类别对后,舍弃混淆图中与其它节点没有边的节点,得到混淆图。此时,混淆图中的各个节点表示混淆类别。
在步骤S406中,利用包含混淆类别的样本图像构建训练样本集,对图像分割网络进行训练。
图像分割网络的训练样本集需要根据包含混淆类别的样本图像进行构建。包含混淆类别的样本图像作为难样本,利用这些难样本对图像分割网络进行训练,可以使网络能够准确区分混淆类别,提高模型的准确性。
在一些实施例中,选取一张包含混淆类别的样本图像,作为基准样本图像。将基准样本图像包含的混淆类别中的一种类别,作为基准类别。在多个样本图像中选取标注有基准类别的一张图像,作为正样本图像。在混淆图中,选取基准类别对应节点的邻节点,将该邻节点对应的类别,作为负样本类别。在多个样本图像中选取标注有负样本类别的一张图像,作为负样本图像。将基准样本图像,正样本图像和负样本图像,组成训练样本组,加入训练样本集。
例如,对于给定样本图像及对应的标签,顺序遍历样本图像及标签。(1)对于一组样本图像I和标签B,判断是否包含混淆图中的混淆类别,如果不包含则遍历下一张样本图像。(2)对于包含混淆类别的图像I,作为基准样本图像Ia,随机选择基准样本图像Ia包含的某一混淆类别为基准类别Ca。基准样本图像Ia可能包含多个混淆类别,选其中一个混淆类别作为基准类别。(3)在剩余的样本图像中随机选择一张包含类别Ca的图像作为正样本图像Ip。(4)在混淆图中随机选择一个Ca的邻接节点作为负样本类别Cn。(5)在剩余的样本图像中随机选择一张包含类别Cn的图像,作为负样本图像In。(6)将<Ia,Ip,In>组成三元组,作为训练样本组加入训练样本集。
在一些实施例中,训练过程包括;将训练样本集中的各个训练样本组输入图像分割网络,得到输出的各个训练样本组对应输出结果,输出结果包括训练样本组中每张图像的分割结果和每张图像的特征张量。根据各个训练样本组中每张图像的标注信息和对应分割结果,计算第一损失函数值。根据各个训练样本组中每张图像的特征张量,计算第二损失函数值。根据第一损失函数值和第二损失函数值,对图像分割网络的参数进行调整,直至达到预设收敛条件。图像的特征张量可以是前述实施例中的第一特征张量与第二特征张量进行加权,得到的第三特征张量。
进一步,第一损失函数可以采用交叉熵损失函数。第二损失函数可以采用三元组损失函数。针对第二损失函数值,在一些实施例中,针对每个训练样本组,根据对应的分割结果,分别确定基准样本图像、正样本图像和负样本图像对应的掩模;针对每张图像,将图像的特征张量与对应的掩模按位置相乘,得到乘积后的特征张量;将乘积后的特征张量中每个通道对应的元素求平均值,得到特征向量;根据各个训练样本组中每张图像对应的特征向量,计算三元组损失函数值,作为第二损失函数值。
可以将第一损失函数值与第二损失函数值进行加权作为图像分割网络的损失函数值,可以根据损失函数值,损失函数,采用梯度下降方法调整图像分割网络的参数(包括语义分割模型、细节提取模型和辫形模块中的参数),直至达到预设收敛条件。预设收敛条件例如为损失函数值最小,损失函数值小于阈值,或者最大迭代次数阈值等,根据实际应用的需求和测试结果设置。
例如,训练过程包括以下步骤。(1)随机初始化图像分割网络各层参数,设置最大迭代上限T。
(2)遍历训练样本集合,取一个训练样本组<Ia,Ip,In>及标签<Ba,Bp,Bn>,可以使用双线性插值将输入图像尺寸变为预设尺寸,例如,W×H,可以使用最近邻差值将标签尺寸变为W×H。标签是与对应的样本图像维度相同的矩阵。
(3)使用图像分割网络对<Ia,Ip,In>分别进行前向传播运算,得到输出特征张量<Ya,Yp,Yn>与和分割结果<Ra,Rp,Rn>。分割结果R可以是矩阵,每个元素表示对应的像素点所属的类别。
(4)使用标签<Ba,Bp,Bn>和分割结果<Ra,Rp,Rn>计算交叉熵损失Lp。
(5)根据分割结果<Ra,Rp,Rn>和对应的类别<Ca,Cp,Cn>得到对应的掩模<Ma,Mp,Mn>,例如,如果R(x,y)≡C(x,y)则M(x,y)=1,否则M(x,y)=0,x,y表示像素点对应的位置。Cp为正样本类别,与基准类别Ca相同。R(x,y)表示一个像素点分割结果,即所属的类别,针对基准样本图像,C(x,y)表示基准样本图像中标注为基准类别Ca的像素点的标注信息。针对正样本图像,C(x,y)表示正样本图像中标注为正样本类别Cp的像素点的标注信息。针对负样本图像,C(x,y)表示负样本图像中标注为负样本类别Cn的像素点的标注信息。
也可以采用其他方式确定掩模,例如,针对基准样本图像、正样本图像、负样本图像分别根据标注为基准类别Ca,正样本类别Cp,负样本类别Cn的像素点所在的区域,确定掩模区域。针对基准样本图像,根据掩模区域内像素点的特征张量,确定掩模区域内各个像素点属于基准类别Ca的概率,如果概率小于概率阈值,则对应的M(x,y)=0,否则,M(x,y)=1。同理,得到正样本图像、负样本图像对应的掩模。
(6)将特征张量<Ya,Yp,Yn>与掩模<Ma,Mp,Mn>按位置相乘得到特征张量<Ta,Tp,Tn>。
(7)对特征张量<Ta,Tp,Tn>进行全局池化计算,即每个通道内的元素求平均值,得到特征向量<Fa,Fp,Fn>。
(8)根据如下公式计算三元组损失值。
Lr=max(0,||Fa-Fn||-||Fa-Fp||-m)+β·||Fa-Fp|| (3)
β为权重系数,||·||为计算向量的L2范数。
(9)将三元组损失值与交叉熵损失值加权求和计算总损失值,例如,L=a×Lr+(1-a)×Lp,使用随机梯度下降算法优化图像分割网络参数。
上述实施例的方法,构建混淆图,将易混淆的类别选择出来,进一步根据混淆类别构建训练样本集,这些包含混淆类别的训练样本属于难样本,采用一种基于难样本区域的训练样本组对图像分割模型进行训练,从而解决相似部位易混淆的问题,实现图像的精确分割。
本公开还提供一种图像处理装置,下面结合图5进行描述。
图5为本公开图像处理装置的一些实施例的结构图。如图5所示,该实施例的装置50包括:输入单元502,特征获取单元504,分割确定单元506。
输入单元502,用于将待处理图像输入图像分割网络中的语义分割模型和细节提取模型;其中,细节提取模型用于获取待处理图像的细节特征。
图像分割网络还包括:辫形模块;语义分割模型的中间层和对应的细节提取模型的中间层通过辫形模块连接;辫形模块用于对语义分割模型的中间层输出的特征张量和细节提取模型的中间层输出的特征张量进行融合。
在一些实施例中,辫形模块的数量为至少一个;在辫形模块的数量为多个的情况下,不同的辫形模块分别连接语义分割模型的不同卷积层和细节提取模型的不同卷积层。
在一些实施例中,输入单元502用于针对每个辫形模块,将语义分割模型的一个卷积层输出的特征张量和细节提取模型的一个卷积层输出的特征张量输入辫形模块,分别得到辫形模块输出的语义分割模型对应的融合后的特征张量,以及辫形模块输出细节提取模型对应的融合后的特征张量;将语义分割模型对应的融合后的特征张量输入语义分割模型下一个卷积层;将细节提取模型对应的融合后的特征张量输入细节提取模型下一个卷积层。
在一些实施例中,辫形模块包括第一融合子模块和第二融合子模块;输入单元502用于将语义分割模型的一个卷积层输出的特征张量和对应的细节提取模型的一个卷积层输出的特征张量,输入第一融合子模块,得到输出的语义分割模型对应的融合后的特征张量;将语义分割模型的卷积层输出的特征张量和细节提取模型的卷积层输出的特征张量,输入第二融合子模块,得到输出的细节提取模型对应的融合后的特征张量。
在一些实施例中,输入单元502用于在第一融合子模块中,根据输入的细节提取模型对应的特征张量的尺寸,调整语义分割模型对应的特征张量长和宽两个维度的尺寸,将输入的细节提取模型对应的特征张量和调整后的语义分割模型对应的特征张量进行特征级联,得到第一级联特征;根据不同通道的第一权重,对第一级联特征进行调整,得到语义分割模型对应的融合后的特征张量;在第二融合子模块中,根据输入的语义分割模型对应的特征张量的尺寸,调整细节提取模型对应的特征张量长和宽两个维度的尺寸,将输入的语义分割模型对应的特征张量和调整后的细节提取模型对应的特征张量进行特征级联,得到第二级联特征;根据不同通道的第二权重,对第二级联特征进行调整,得到细节提取模型对应的融合后的特征张量。
在一些实施例中,输入单元502用于将第一级联特征经过初步处理,将初步处理的第一级联特征中的每个通道对应的元素分别乘以对应的第一权重,再与初步处理的第一级联特征进行加权,得到语义分割模型对应的融合后的特征张量;根据不同通道的第二权重,对第二级联特征进行调整包括:将第二级联特征经过初步处理,将初步处理的第二级联特征中的每个通道对应的元素分别乘以对应的第二权重,再与初步处理的第二级联特征进行加权,得到细节提取模型对应的融合后的特征张量;其中,不同的通道对应不同的类别,初步处理包括卷积、批正则化。
特征获取单元504,用于获得语义分割模型输出的待处理图像的第一特征张量,以及细节提取模型输出的待处理图像的第二特征张量。
分割确定单元506,用于根据第一特征张量和第二特征张量,确定待处理图像中各个像素点所属的类别,从而确定待处理图像的分割结果。
在一些实施例中,分割确定506单元用于将第一特征张量与第二特征张量进行加权,得到第三特征张量;将第三特征张量中的每个像素点对应的特征,在通道维度进行归一化运算;将每个像素点对应的特征中通道维度最大值对应的类别,作为该像素点所属的类别。
在一些实施例中,该装置50还包括:训练单元508,用于将验证集中的图像输入初始训练的基础语义分割模型,得到输出的验证集中图像的分割结果;根据输出的验证集中图像的分割结果和准确分割结果之间的差异,确定混淆类别;利用包含混淆类别的样本图像构建训练样本集,对图像分割网络进行训练。
在一些实施例中,训练单元508用于根据输出的验证集中图像的分割结果和准确分割结果之间的差异,确定混淆矩阵;其中,混淆矩阵中的每个元素表示对应的两种类别之间的混淆概率;根据混淆矩阵构建混淆图;其中,混淆图中两个节点之间的边表示该两个节点对应的类别之间的混淆概率大于混淆阈值,边连接的每个节点表示一种类别,与其他节点之间没有边的节点被舍弃;根据混淆图,确定混淆类别
在一些实施例中,训练单元508用于选取一张包含混淆类别的样本图像,作为基准样本图像;将基准样本图像包含的混淆类别中的一种类别,作为基准类别;在多个样本图像中选取标注有基准类别的一张图像,作为正样本图像;在混淆图中,选取基准类别对应节点的邻节点,将该邻节点对应的类别,作为负样本类别;在多个样本图像中选取标注有负样本类别的一张图像,作为负样本图像;将基准样本图像,正样本图像和负样本图像,组成训练样本组,加入训练样本集。
在一些实施例中,训练单元508用于将训练样本集中的各个训练样本组输入图像分割网络,得到输出的各个训练样本组对应输出结果,输出结果包括训练样本组中每张图像的分割结果和每张图像的特征张量;根据各个训练样本组中每张图像的标注信息和对应分割结果,计算第一损失函数值;根据各个训练样本组中每张图像的特征张量,计算第二损失函数值;根据第一损失函数值和第二损失函数值,对图像分割网络的参数进行调整,直至达到预设收敛条件。
在一些实施例中,训练单元508用于针对每个训练样本组,根据对应的分割结果,分别确定基准样本图像、正样本图像和负样本图像对应的掩模;针对每张图像,将图像的特征张量与对应的掩模按位置相乘,得到乘积后的特征张量;将乘积后的特征张量中每个通道对应的元素求平均值,得到特征向量;根据各个训练样本组中每张图像对应的特征向量,计算三元组损失函数值,作为第二损失函数值。
本公开的实施例中的图像处理装置可各由各种计算设备或计算机***来实现,下面结合图6以及图7进行描述。
图6为本公开图像处理装置的一些实施例的结构图。如图6所示,该实施例的装置60包括:存储器610以及耦接至该存储器610的处理器620,处理器620被配置为基于存储在存储器610中的指令,执行本公开中任意一些实施例中的图像处理方法。
其中,存储器610例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图7为本公开图像处理装置的另一些实施例的结构图。如图7所示,该实施例的装置70包括:存储器710以及处理器720,分别与存储器610以及处理器620类似。还可以包括输入输出接口730、网络接口740、存储接口750等。这些接口730,740,750以及存储器710和处理器720之间例如可以通过总线760连接。其中,输入输出接口730为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口750为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、***、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (15)
1.一种图像处理方法,包括:
将待处理图像输入图像分割网络中的语义分割模型和细节提取模型;其中,所述细节提取模型用于获取所述待处理图像的细节特征;
获得所述语义分割模型输出的所述待处理图像的第一特征张量,以及所述细节提取模型输出的所述待处理图像的第二特征张量;
根据所述第一特征张量和第二特征张量,确定所述待处理图像中各个像素点所属的类别,从而确定所述待处理图像的分割结果;
其中,所述图像分割网络还包括:辫形模块;所述语义分割模型的中间层和对应的所述细节提取模型的中间层通过辫形模块连接;所述辫形模块用于对所述语义分割模型的中间层输出的特征张量和所述细节提取模型的中间层输出的特征张量进行融合。
2.根据权利要求1所述的图像处理方法,其中,
所述辫形模块的数量为至少一个;在所述辫形模块的数量为多个的情况下,不同的辫形模块分别连接所述语义分割模型的不同卷积层和所述细节提取模型的不同卷积层。
3.根据权利要求2所述的图像处理方法,其中,
所述对所述语义分割模型的中间层输出的特征张量和所述细节提取模型的中间层输出的特征张量进行融合包括:
针对每个辫形模块,将所述语义分割模型的一个卷积层输出的特征张量和所述细节提取模型的一个卷积层输出的特征张量输入所述辫形模块,分别得到所述辫形模块输出的所述语义分割模型对应的融合后的特征张量,以及所述辫形模块输出所述细节提取模型对应的融合后的特征张量;
将所述语义分割模型对应的融合后的特征张量输入所述语义分割模型下一个卷积层;将所述细节提取模型对应的融合后的特征张量输入所述细节提取模型下一个卷积层。
4.根据权利要求2所述的图像处理方法,其中,
所述辫形模块包括第一融合子模块和第二融合子模块;
所述对所述语义分割模型的中间层输出的特征张量和所述细节提取模型的中间层输出的特征张量进行融合包括:
将所述语义分割模型的一个卷积层输出的特征张量和对应的所述细节提取模型的一个卷积层输出的特征张量,输入第一融合子模块,得到输出的语义分割模型对应的融合后的特征张量;
将所述语义分割模型的所述卷积层输出的特征张量和所述细节提取模型的所述卷积层输出的特征张量,输入第二融合子模块,得到输出的细节提取模型对应的融合后的特征张量。
5.根据权利要求4所述的图像处理方法,其中,
在第一融合子模块中,根据输入的细节提取模型对应的特征张量的尺寸,调整语义分割模型对应的特征张量长和宽两个维度的尺寸,将输入的细节提取模型对应的特征张量和调整后的语义分割模型对应的特征张量进行特征级联,得到第一级联特征;根据不同通道的第一权重,对第一级联特征进行调整,得到语义分割模型对应的融合后的特征张量;
在第二融合子模块中,根据输入的语义分割模型对应的特征张量的尺寸,调整细节提取模型对应的特征张量长和宽两个维度的尺寸,将输入的语义分割模型对应的特征张量和调整后的细节提取模型对应的特征张量进行特征级联,得到第二级联特征;根据不同通道的第二权重,对第二级联特征进行调整,得到细节提取模型对应的融合后的特征张量。
6.根据权利要求5所述的图像处理方法,其中,
所述根据不同通道的第一权重,对第一级联特征进行调整包括:
将第一级联特征经过初步处理,将初步处理的第一级联特征中的每个通道对应的元素分别乘以对应的第一权重,再与初步处理的第一级联特征进行加权,得到语义分割模型对应的融合后的特征张量;
所述根据不同通道的第二权重,对第二级联特征进行调整包括:
将第二级联特征经过初步处理,将初步处理的第二级联特征中的每个通道对应的元素分别乘以对应的第二权重,再与初步处理的第二级联特征进行加权,得到细节提取模型对应的融合后的特征张量;
其中,不同的通道对应不同的类别,所述初步处理包括卷积、批正则化。
7.根据权利要求1所述的图像处理方法,其中,
所述根据所述第一特征张量和第二特征张量,确定所述待处理图像中各个像素点所属的类别包括:
将所述第一特征张量与所述第二特征张量进行加权,得到第三特征张量;
将所述第三特征张量中的每个像素点对应的特征,在通道维度进行归一化运算;
将每个像素点对应的特征中通道维度最大值对应的类别,作为该像素点所属的类别。
8.根据权利要求1所述的图像处理方法,还包括:
将验证集中的图像输入初始训练的基础语义分割模型,得到输出的验证集中图像的分割结果;
根据输出的验证集中图像的分割结果和准确分割结果之间的差异,确定混淆类别;
利用包含混淆类别的样本图像构建训练样本集,对所述图像分割网络进行训练。
9.根据权利要求8所述的图像处理方法,其中,
所述根据输出的验证集中图像的分割结果和准确分割结果之间的差异,确定混淆类别包括:
根据输出的验证集中图像的分割结果和准确分割结果之间的差异,确定混淆矩阵;其中,混淆矩阵中的每个元素表示对应的两种类别之间的混淆概率;
根据所述混淆矩阵构建混淆图;其中,所述混淆图中两个节点之间的边表示该两个节点对应的类别之间的混淆概率大于混淆阈值,边连接的每个节点表示一种类别,与其他节点之间没有边的节点被舍弃;
根据所述混淆图,确定混淆类别。
10.根据权利要求9所述的图像处理方法,其中,
所述利用包含混淆类别的样本图像构建训练样本集包括:
选取一张包含混淆类别的样本图像,作为基准样本图像;
将所述基准样本图像包含的混淆类别中的一种类别,作为基准类别;
在多个样本图像中选取标注有所述基准类别的一张图像,作为正样本图像;
在所述混淆图中,选取所述基准类别对应节点的邻节点,将该邻节点对应的类别,作为负样本类别;
在多个样本图像中选取标注有所述负样本类别的一张图像,作为负样本图像;
将所述基准样本图像,正样本图像和负样本图像,组成训练样本组,加入训练样本集。
11.根据权利要求10所述的图像处理方法,其中,
所述对所述图像分割网络进行训练包括:
将所述训练样本集中的各个训练样本组输入所述图像分割网络,得到输出的各个训练样本组对应输出结果,所述输出结果包括训练样本组中每张图像的分割结果和每张图像的特征张量;
根据各个训练样本组中每张图像的标注信息和对应分割结果,计算第一损失函数值;
根据各个训练样本组中每张图像的特征张量,计算第二损失函数值;
根据所述第一损失函数值和第二损失函数值,对所述图像分割网络的参数进行调整,直至达到预设收敛条件。
12.根据权利要求11所述的图像处理方法,其中,
所述根据各个训练样本组中每张图像的特征张量,计算第二损失函数值包括:
针对每个训练样本组,根据对应的分割结果,分别确定基准样本图像、正样本图像和负样本图像对应的掩模;
针对每张图像,将所述图像的特征张量与对应的掩模按位置相乘,得到乘积后的特征张量;将乘积后的特征张量中每个通道对应的元素求平均值,得到特征向量;
根据各个训练样本组中每张图像对应的特征向量,计算三元组损失函数值,作为第二损失函数值。
13.一种图像处理装置,包括:
输入单元,用于将待处理图像输入图像分割网络中的语义分割模型和细节提取模型;其中,所述细节提取模型用于获取所述待处理图像的细节特征;
特征获取单元,用于获得所述语义分割模型输出的所述待处理图像的第一特征张量,以及所述细节提取模型输出的所述待处理图像的第二特征张量;
分割确定单元,用于根据所述第一特征张量和第二特征张量,确定所述待处理图像中各个像素点所属的类别,从而确定所述待处理图像的分割结果;
其中,所述图像分割网络还包括:辫形模块;所述语义分割模型的中间层和对应的所述细节提取模型的中间层通过辫形模块连接;所述辫形模块用于对所述语义分割模型的中间层输出的特征张量和所述细节提取模型的中间层输出的特征张量进行融合。
14.一种图像处理装置,包括:
处理器;以及
耦接至所述处理器的存储器,用于存储指令,所述指令被所述处理器执行时,使所述处理器执行如权利要求1-12任一项所述的图像处理方法。
15.一种计算机可读非瞬时性存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现权利要求1-12所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910875284.1A CN111783779B (zh) | 2019-09-17 | 2019-09-17 | 图像处理方法、装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910875284.1A CN111783779B (zh) | 2019-09-17 | 2019-09-17 | 图像处理方法、装置和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783779A CN111783779A (zh) | 2020-10-16 |
CN111783779B true CN111783779B (zh) | 2023-12-05 |
Family
ID=72755175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910875284.1A Active CN111783779B (zh) | 2019-09-17 | 2019-09-17 | 图像处理方法、装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783779B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112330696B (zh) * | 2020-12-02 | 2022-08-09 | 青岛大学 | 人脸分割方法、装置及计算机可读存储介质 |
CN113222867B (zh) * | 2021-04-16 | 2022-05-20 | 山东师范大学 | 基于多模板图像的图像数据增强方法及*** |
CN114092818B (zh) * | 2022-01-07 | 2022-05-03 | 中科视语(北京)科技有限公司 | 语义分割方法、装置、电子设备及存储介质 |
CN115131194A (zh) * | 2022-04-22 | 2022-09-30 | 腾讯医疗健康(深圳)有限公司 | 一种图像合成模型的确定方法和相关装置 |
CN115937145B (zh) * | 2022-12-09 | 2024-03-19 | 深圳市禾葡兰信息科技有限公司 | 基于大数据分析的肌肤健康可视化方法、装置及设备 |
CN116071372B (zh) * | 2022-12-30 | 2024-03-19 | 北京长木谷医疗科技股份有限公司 | 膝关节分割方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876793A (zh) * | 2018-04-13 | 2018-11-23 | 北京迈格威科技有限公司 | 语义分割方法、装置和***及存储介质 |
CN108876792A (zh) * | 2018-04-13 | 2018-11-23 | 北京迈格威科技有限公司 | 语义分割方法、装置和***及存储介质 |
WO2019024808A1 (zh) * | 2017-08-01 | 2019-02-07 | 北京市商汤科技开发有限公司 | 语义分割模型的训练方法和装置、电子设备、存储介质 |
WO2019042139A1 (zh) * | 2017-08-29 | 2019-03-07 | 京东方科技集团股份有限公司 | 图像处理方法、图像处理装置、神经网络的训练方法 |
-
2019
- 2019-09-17 CN CN201910875284.1A patent/CN111783779B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019024808A1 (zh) * | 2017-08-01 | 2019-02-07 | 北京市商汤科技开发有限公司 | 语义分割模型的训练方法和装置、电子设备、存储介质 |
WO2019042139A1 (zh) * | 2017-08-29 | 2019-03-07 | 京东方科技集团股份有限公司 | 图像处理方法、图像处理装置、神经网络的训练方法 |
CN108876793A (zh) * | 2018-04-13 | 2018-11-23 | 北京迈格威科技有限公司 | 语义分割方法、装置和***及存储介质 |
CN108876792A (zh) * | 2018-04-13 | 2018-11-23 | 北京迈格威科技有限公司 | 语义分割方法、装置和***及存储介质 |
Non-Patent Citations (2)
Title |
---|
一种多尺度CNN的图像语义分割算法;刘丹;刘学军;王美珍;;遥感信息(01);全文 * |
条件随机场像素建模与深度特征融合的目标区域分割算法;李宗民;徐希云;刘玉杰;李华;;计算机辅助设计与图形学学报(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111783779A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783779B (zh) | 图像处理方法、装置和计算机可读存储介质 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN111027493B (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
CN109886066B (zh) | 基于多尺度和多层特征融合的快速目标检测方法 | |
CN105678284B (zh) | 一种固定位人体行为分析方法 | |
CN109472199B (zh) | 一种图像融合分类的方法及装置 | |
KR101603019B1 (ko) | 화상 처리 장치, 화상 처리 방법 및 컴퓨터로 판독 가능한 기록 매체 | |
CN111612807A (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN111476806B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
EP3905194A1 (en) | Pose estimation method and apparatus | |
CN111967464B (zh) | 一种基于深度学习的弱监督目标定位方法 | |
CN107506792B (zh) | 一种半监督的显著对象检测方法 | |
JP2019016114A (ja) | 画像処理装置、学習装置、フォーカス制御装置、露出制御装置、画像処理方法、学習方法、及びプログラム | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN112001403A (zh) | 一种图像轮廓检测方法及*** | |
CN111507288A (zh) | 图像检测方法、装置、计算机设备和存储介质 | |
CN113378812A (zh) | 一种基于Mask R-CNN和CRNN的数字表盘识别方法 | |
JP7300027B2 (ja) | 画像処理装置、画像処理方法、学習装置、学習方法、及びプログラム | |
CN116229066A (zh) | 人像分割模型的训练方法及相关装置 | |
CN114861842A (zh) | 少样本目标检测方法、装置和电子设备 | |
CN114066899A (zh) | 图像分割模型训练、图像分割方法、装置、设备及介质 | |
CN115115552B (zh) | 图像矫正模型训练及图像矫正方法、装置和计算机设备 | |
Rusyn et al. | Deep learning for atmospheric cloud image segmentation | |
Lee et al. | Parallel block sequential closed-form matting with fan-shaped partitions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |