CN117409208B - 一种实时服装图像语义分割方法及*** - Google Patents
一种实时服装图像语义分割方法及*** Download PDFInfo
- Publication number
- CN117409208B CN117409208B CN202311725616.0A CN202311725616A CN117409208B CN 117409208 B CN117409208 B CN 117409208B CN 202311725616 A CN202311725616 A CN 202311725616A CN 117409208 B CN117409208 B CN 117409208B
- Authority
- CN
- China
- Prior art keywords
- resolution information
- real
- module
- semantic segmentation
- low
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 118
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000004927 fusion Effects 0.000 claims abstract description 114
- 238000000605 extraction Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 39
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 9
- 238000010223 real-time analysis Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 229910000831 Steel Inorganic materials 0.000 claims 1
- 239000010959 steel Substances 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 35
- 238000013135 deep learning Methods 0.000 description 6
- 238000013136 deep learning model Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种实时服装图像语义分割方法及***,所述方法包括:S1:设计适用于实时解析服装图像的实时服装图像语义分割模型,实时服装图像语义分割模型包括图像特征提取模块、高低分辨率信息融合模块、注意力模块和语义分割预测模块;S2:训练设计好的实时服装图像语义分割模型,得到训练好的实时服装图像语义分割模型;S3:使用训练好的实时服装图像语义分割模型来解析服装图像,生成像素级的预测图像。本发明通过设计用于实时解析服装图像的实时服装图像语义分割模型,在对实时服装图像语义分割模型训练的过程中设计损失函数,利用训练好的模型来解析服装图像,生成像素级的预测图像,提高对实时服装图像中信息分割的准确度和速度。
Description
技术领域
本发明涉及服装图像分割领域,尤其涉及一种实时服装图像语义分割方法及***。
背景技术
服装图像语义分割方法是在服装行业中的一项重要应用。例如,虚拟试衣间、智能购物助手等场景需要对服装图像进行实时的语义分割,以精确地区分服装的不同部分,为用户提供更丰富的交互和信息。在虚拟试衣间等场景中,实时性能和用户体验密切相关。实时服装图像语义分割方法的背景技术还包括用户交互设计,以确保用户能够在实时场景中得到良好的体验。
深度学习方法,特别是卷积神经网络(CNN),在语义分割任务中取得了显著的成就。这些方法能够学习到图像中的层次性特征,从而在像素级别对图像进行语义分类。实时服装图像语义分割方法背后的技术基础主要包括深度学习中用于语义分割的先进架构和算法。
随着时间的推进,传统的深度学习方法已经无法满足实时服装图像语义分割任务,深度学习方法通常需要大量的计算资源,特别是在处理复杂的语义分割任务时。传统的深度学习模型可能过于庞大,导致高计算复杂度,使得实时性能受到限制;传统的深度学习模型在实时应用中可能过于庞大,不适合嵌入式***或移动设备。这会限制在资源受限的环境中实现实时服装图像语义分割的能力;传统的深度学习方法可能无法满足对实时性能的要求,尤其是在需要在几毫秒内处理图像的应用场景中,例如虚拟试衣间或实时监控***。按照多分支对图像特征进行提取,分割的速度和精度远超传统的算法。
公开号为CN109949313A的中国专利公开了“一种图像实时语义分割方法”,通过关键帧提取网络来预测当前子图像的语义分割结果与其对应的上一个关键子图像的语义分割结果之间的偏差,解决了固定时间间隔设置关键帧方法带来的无法根据具体帧间变化程度来选择性能不同的语义分割网络的问题,但是对于像服装图片这种固定场景图片而言,用关键帧选择性能不同的语义分割网络,对实时性要求是不够的。
发明内容
针对现有技术的以上缺陷或者改进需求,本发明提供了一种实时服装图像语义分割方法及***,通过设计用于实时解析服装图像的实时服装图像语义分割模型,在对实时服装图像语义分割模型训练的过程中设计损失函数,利用训练好的模型来解析服装图像,生成像素级的预测图像,提高对实时服装图像中信息分割的准确度和速度。
为了实现上述目的,本发明采用了如下技术方案:
本发明第一方面提供了一种实时服装图像语义分割方法,所述方法包括以下步骤:
S1:设计适用于实时解析服装图像的实时服装图像语义分割模型,所述实时服装图像语义分割模型包括图像特征提取模块、高低分辨率信息融合模块、注意力模块和语义分割预测模块;
所述图像特征提取模块用于提取图像特征,输出高分辨率信息和低分辨率信息;
所述高低分辨率信息融合模块用于将图像特征提取模块输出的高分辨率信息和低分辨率信息相互融合;
所述注意力模块对低分辨率信息融合模块输出的特征图进行操作,得到最终融合了通道信息的特征图;
所述语义分割预测模块用于输出最终预测结果;
S2:训练设计好的实时服装图像语义分割模型,得到训练好的实时服装图像语义分割模型;
S3:使用训练好的实时服装图像语义分割模型来解析服装图像,生成像素级的预测图像。
作为本申请一实施例,所述步骤S1中设计适用于实时解析服装图像的实时服装图像语义分割模型具体包括:
S11:将实时图像送入图像特征提取模块用于提取图像特征,并输出高分辨率信息和低分辨率信息;
S12:将所述图像特征提取模块输出的高分辨率信息和低分辨率信息送入高低分辨率信息融合模块,所述高低分辨率信息融合模块输出高分辨率信息和低分辨率信息;
S13:将所述高低分辨率信息融合模块输出的低分辨率信息送入注意力模块,所述注意力模块输出特征;
S14:将所述注意力模块输出的特征和高低分辨率信息融合模块输出的高分辨率信息进行特征融合;
S15:将特征融合后的结果送入语义分割预测模块,得到最终预测结果。
作为本申请一实施例,所述步骤S11中图像特征提取模块包括2个卷积层和2个残差单元,步骤具体包括:
S111:将实时图像输入到卷积核大小为3×3,卷积操作步幅为2的两个连续的卷积层中;
S112:进入第一个残差单元,所述第一个残差单元包括使用了32个大小为3×3的两个卷积核,所述第一个残差单元重复两次;
S113:进入第二个残差单元,所述第二个残差单元包括使用了64个大小为3×3的两个卷积核,所述第二个残差单元重复两次。
作为本申请一实施例,所述步骤S12中高低分辨率信息融合模块包括3个残差块和2个信息融合模块,每个所述残差块均包括两个3×3卷积核,所述残差块包括第一残差块、第二残差块和第三残差块,所述信息融合模块包括第一信息融合模块和第二信息融合模块,步骤具体包括:
S121:所述图像特征提取模块经过第一残差块得到低分辨率信息;
S122:所述图像特征提取模块经过第二残差块得到高分辨率信息;
S123:将所述低分辨率信息和高分辨率信息同时经过第三残差块,并将低分辨率信息和高分辨率信息同时送入第一信息融合模块;
S124:将经过第一信息融合模块的低分辨率信息和高分辨率信息再次送入第三残差块,并将经过第一信息融合模块的低分辨率信息和高分辨率信息同时送入信息融合模块。
作为本申请一实施例,所述第一信息融合模块和第二信息融合模块为相同的信息融合模块,所述信息融合模块具体步骤包括:
通过3×3卷积序列对高分辨率信息进行降采样,再逐点求和,实现将高分辨率信息融合到低分辨率信息;
通过1×1卷积序列对低分辨率特征图进行压缩,然后通过双线性插值进行上采样,实现将低分辨率信息融合到高分辨率信息。
作为本申请一实施例,所述步骤S13中注意力模块对低分辨率信息进行操作,步骤具体包括:
S131:从低分辨率信息中提取特征图A(C×H×W),将输入的特征图A进行重塑为大小为C×N的矩阵B,其中C表示通道数,N表示特征图的像素数量;
S132:对矩阵B与其自身的转置进行矩阵乘法运算,得到大小为C×C的特征图X;
S133:对特征图X进行softmax操作,使得每个位置上的值都在0到1之间,且所有位置上的值之和为1;
S134:将特征图X的转置与矩阵B进行矩阵乘法运算,得到大小为C×N的特征图D;
S135:将特征图D重新重塑为与输入特征图A相同的大小C×H×W,将特征图D乘以一个初始值为0的系数β;
S136:将输入特征图A与特征图D相加,得到最终融合了通道信息的特征图E。
作为本申请一实施例,所述步骤S15中语义分割预测模块包括3×3卷积层和1×1卷积层,步骤具体包括:
S151:将高低分辨率信息融合模块和注意力模块特征融合的结果输入3×3卷积层,通过3×3卷积层去改变输出尺寸;
S152:通过1×1卷积直接输出最终预测结果。
作为本申请一实施例,所述步骤S2中训练设计好的实时服装图像语义分割模型过程中使用损失函数,所述损失函数/>包括图像特征提取模块损失函数/>、高低分辨率信息融合模块损失函数/>、注意力模块损失函数/>和语义分割预测模块损失函数/>。
作为本申请一实施例,所述图像特征提取模块损失函数计算公式如下:
其中,N表示样本数,C表示类别数,表示真实标签中样本 i属于类别 j的标签,/>表示模型输出样本i属于类别j的预测概率;
所述高低分辨率信息融合模块损失函数计算公式如下:
其中,表示分类损失,用于高低分辨率信息融合模块的分类任务;表示分辨率差异损失;/>表示权衡分类损失和分辨率差异损失的超参数;表示第 i 个样本的低分辨率信息;/>表示第 i 个样本的高分辨率信息;/>表示真实标签中样本 i 属于类别 j 的标签;/>表示模型输出样本i属于类别j的预测概率;
所述注意力模块损失函数计算公式如下:
其中,/>表示控制对比损失的边界;/>表示第 i 个样本的输入注意力权重;/>表示第i 个样本的输出注意力权重;
所述语义分割预测模块的损失函数计算公式如下:
其中,表示真实标签中样本 i属于类别 j的标签,/>表示模型输出样本i属于类别j的预测概率;
所述损失函数计算公式如下:
其中,表示权衡各损失项的超参数。
本申请还提供了一种实时服装图像语义分割***,包括:
图像特征提取模块:用于提取图像特征,输出高分辨率信息和低分辨率信息;
高低分辨率信息融合模块:用于将高分辨率信息和低分辨率信息融合;
注意力模块:对低分辨率信息中的特征图进行操作,得到最终融合了通道信息的特征图;
语义分割预测模块:用于输出最终的预测结果。
本发明的有益效果为:
(1)本发明通过设计图像特征提取模块、高低分辨率信息融合模块、注意力模块和语义分割预测模块共同构成用于实时解析服装图像的实时服装图像语义分割模型,在对实时服装图像语义分割模型训练的过程中设计损失函数,利用训练好的模型来解析服装图像,生成像素级的预测图像,提高对实时服装图像中信息分割的准确度和速度。
(2)本发明通过高低分辨率信息融合模块将图像特征提取模块提取的高分辨率信息和低分辨率信息进行相互融合,提高实时服装图像语义分割模型识别的精确度和速度,再通过注意力模块提高实时服装图像语义分割模型识别的精确度。
(3)本发明通过在训练设计好的实时服装图像语义分割模型过程中使用创新的损失函数,使实时服装图像语义分割模型训练更加关注分割边界,同时训练效果更好,更加符合服装图像场景。
(4)本发明通过将服装图像输入训练好的实时服装图像语义分割模型中,生成像素级的预测图像,大大节省了人工成本,对于后续虚拟试衣等技术提供高质量的预测图像。
附图说明
图1为本发明实施例中提供的一种实时服装图像语义分割方法的技术方案流程图;
图2为本发明实施例中提供的一种实时服装图像语义分割方法的图像特征提取模块示意图;
图3为本发明实施例中提供的一种实时服装图像语义分割方法的高低分辨率信息融合模块示意图;
图4为本发明实施例中提供的一种实时服装图像语义分割方法的信息融合模块示意图;
图5为本发明实施例中提供的一种实时服装图像语义分割方法的注意力模块示意图;
图6为本发明实施例中提供的一种实时服装图像语义分割方法的语义分割预测模块示意图;
图7为本发明实施例中提供的一种实时服装图像语义分割***框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,全文中出现的“和/或”的含义,包括三个并列的方案,以“A和/或B”为例,包括A方案、或B方案、或A和B同时满足的方案。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参照图1至图6,一种实时服装图像语义分割方法,所述方法包括以下步骤:
S1:设计适用于实时解析服装图像的实时服装图像语义分割模型,所述实时服装图像语义分割模型包括图像特征提取模块、高低分辨率信息融合模块、注意力模块和语义分割预测模块;
所述图像特征提取模块用于提取图像特征,输出高分辨率信息和低分辨率信息;
所述高低分辨率信息融合模块用于将高分辨率信息和低分辨率信息相互融合;
所述注意力模块对低分辨率信息中的特征图进行操作,得到最终融合了通道信息的特征图;
所述语义分割预测模块用于输出最终预测结果;
S2:训练设计好的实时服装图像语义分割模型,得到训练好的实时服装图像语义分割模型;
S3:使用训练好的实时服装图像语义分割模型来解析服装图像,生成像素级的预测图像。
具体的,通过加载预先训练好的实时服装图像语义分割模型,对待解析的服装图像进行图像预处理和模型推理,生成像素级的语义分割预测。后续对实时服装图像语义分割模型输出进行必要的后处理,最终可选择可视化或保存分割结果,以获得对服装图像的精细语义分割。
作为本申请一实施例,所述步骤S1中设计适用于实时解析服装图像的实时服装图像语义分割模型具体包括:
S11:将实时图像送入图像特征提取模块用于提取图像特征,并输出高分辨率信息和低分辨率信息;
S12:将所述图像特征提取模块输出的高分辨率信息和低分辨率信息送入高低分辨率信息融合模块,所述高低分辨率信息融合模块输出高分辨率信息和低分辨率信息;
S13:将所述高低分辨率信息融合模块输出的低分辨率信息送入注意力模块,所述注意力模块输出特征;
S14:将所述注意力模块输出的特征和高低分辨率信息融合模块输出的高分辨率信息进行特征融合;
S15:将特征融合后的结果送入语义分割预测模块,得到最终预测结果。
如图2所示,所述步骤S11中图像特征提取模块包括2个卷积层和2个残差单元,2个所述卷积层和2个所述残差单元有助于提取更丰富的图像特征,增强模型对服装图像的表示能力,步骤具体包括:
S111:将实时图像输入到卷积核大小为3×3,卷积操作步幅为2的两个连续的卷积层中;
S112:进入第一个残差单元,所述第一个残差单元包括使用了32个大小为3×3的两个卷积核,所述第一个残差单元重复两次;
S113:进入第二个残差单元,所述第二个残差单元包括使用了64个大小为3×3的两个卷积核,所述第二个残差单元重复两次。
其中,多层卷积提取复杂特征,使用两个卷积层可以增加模型对图像的感知深度,每个卷积层都可以学习不同层次的特征,所述卷积层通过滤波器(卷积核)对输入图像进行卷积操作,从而检测和强调图像中的不同特征,例如边缘、纹理等。多个卷积层叠加可以提高对服装图像复杂结构的理解能力。
所述残差单元加强特征传递,具体的,所述残差单元通过引入跳跃连接(shortcutconnection)实现了从输入到输出的直接路径,有助于缓解深度神经网络中的梯度消失问题,这使得模型更容易学习到跨层次的特征表示,有助于捕获服装图像中的长距离依赖关系;所述残差单元还提高了网络的训练速度和收敛性,使得更深的网络更容易优化。
具体的,所述卷积层中的参数共享使得模型可以检测图像中的相似特征,而残差单元中的跳跃连接可以确保这些学到的特征在网络中得到有效传递和重用,这有助于提高模型的泛化能力,使其在不同服装图像上表现更好,而2个卷积层和2个残差单元的结合有助于构建深度而有效的图像特征提取模块,提高模型对服装图像语义的理解和表达能力。
如图3所示,所述步骤S12中高低分辨率信息融合模块包括3个残差块和2个信息融合模块,每个所述残差块均包括两个3×3卷积核,所述残差块包括第一残差块、第二残差块和第三残差块,所述信息融合模块包括第一信息融合模块和第二信息融合模块,步骤具体包括:
S121:所述图像特征提取模块经过第一残差块得到低分辨率信息;
S122:所述图像特征提取模块经过第二残差块得到高分辨率信息;
S123:将所述低分辨率信息和高分辨率信息同时经过卷积核个数不同的第三残差块,并将低分辨率信息和高分辨率信息同时送入第一信息融合模块;
S124:将经过第一信息融合模块的低分辨率信息和高分辨率信息再次送入卷积核个数不同的第三残差块,并将经过第一信息融合模块的低分辨率信息和高分辨率信息同时送入信息融合模块。
如图4所示,所述第一信息融合模块和第二信息融合模块为相同的信息融合模块,所述信息融合模块具体步骤包括:
通过3×3卷积序列对高分辨率信息进行降采样,再逐点求和,实现将高分辨率信息融合到低分辨率信息;
通过1×1卷积序列对低分辨率特征图进行压缩,然后通过双线性插值进行上采样,实现将低分辨率信息融合到高分辨率信息。
其中,多层所述残差块增加特征深度,使用三个残差块有助于增加特征的深度,提高网络对图像信息的层次化表达能力,每个残差块都包含两个3×3卷积核,通过堆叠多个残差块,模型可以学到不同层次和尺度的特征,更好地捕捉服装图像中的抽象和复杂结构。
另外,所述信息融合模块提高特征交互性,每个所述信息融合模块通过将低分辨率信息和高分辨率信息融合在一起,实现了高低分辨率信息的互补,通过使用两个信息融合模块,可以在多个阶段引入融合操作,增加低分辨率和高分辨率信息之间的交互性,这有助于充分利用不同分辨率层次上的语义信息,提高模型对图像整体和局部细节的理解。
具体的,所述残差块和信息融合模块协同工作,残差块设计在信息融合模块之前,通过残差块处理低分辨率和高分辨率信息,使得这些信息更加丰富和具有表征力,所述信息融合模块接着将这些处理过的信息融合在一起,使得不同分辨率的信息更好地结合在一起,通过所述残差块和信息融合模块协同工作有助于网络更好地处理高低分辨率信息融合的任务。
本发明采用更好的分辨率信息融合策略,所述信息融合模块采用了高到低融合和低到高融合两种策略,通过3×3卷积序列进行降采样和通过1×1卷积进行压缩和双线性插值进行上采样。这样的策略可以更好地保留高分辨率信息的细节,同时有效地利用低分辨率信息进行全局语义的理解,这对于服装图像的分割任务非常重要。
本发明通过采用3个残差块和2个信息融合模块的设计,使得高低分辨率信息融合模块更具有深度和层次的特征表示能力,能够更好地处理服装图像的语义分割任务。
如图5所示,所述步骤S13中注意力模块对低分辨率信息进行操作,步骤具体包括:
S131:从低分辨率信息中提取特征图A,将输入的特征图A进行重塑为大小为C×N的矩阵B,其中C表示通道数,N表示特征图的像素数量;
S132:对矩阵B与其自身的转置进行矩阵乘法运算,得到大小为C×C的特征图X;
S133:对特征图X进行softmax操作,使得每个位置上的值都在0到1之间,且所有位置上的值之和为1;
S134:将特征图X的转置与矩阵B进行矩阵乘法运算,得到大小为C×N的特征图D;
S135:将特征图D重新重塑为与输入特征图A相同的大小C×H×W,将特征图D乘以一个初始值为0的系数β;
S136:将输入特征图A与特征图D相加,得到最终融合了通道信息的特征图E。
如图6所示,所述步骤S15中语义分割预测模块包括3×3卷积层和1×1卷积层,步骤具体包括:
S151:将高低分辨率信息融合模块和注意力模块特征融合的结果输入3×3卷积层,通过3×3卷积层去改变输出尺寸;
S152:通过1×1卷积直接输出最终预测结果。
其中,注意力模块在深度学习中的应用通常用于增强网络对输入数据的关注度,使网络能够有选择性地聚焦于输入的重要部分。
作为本申请一实施例,所述步骤S2中训练设计好的实时服装图像语义分割模型过程中使用损失函数,所述损失函数/>包括图像特征提取模块损失函数/>、高低分辨率信息融合模块损失函数/>、注意力模块损失函数/>和语义分割预测模块损失函数/>。
其中,损失函数在深度学习模型的训练中起着关键作用,所述损失函数通过度量模型输出与真实标签之间的差异,引导模型学习任务相关的特征。
作为本申请一实施例,所述图像特征提取模块损失函数计算公式如下:
其中,N表示样本数,C表示类别数,表示真实标签中样本 i属于类别 j的标签,/>表示模型输出样本i属于类别j的预测概率;
具体的,所述图像特征提取模块损失函数通过定义图像特征提取模块的损失函数,模型受到对图像特征提取任务的监督,这有助于确保模型学习到对服装图像语义分割任务有用的特征表示,在这里,交叉熵损失用于衡量模型输出的图像特征提取模块对服装图像的分类准确性。
所述高低分辨率信息融合模块损失函数计算公式如下:
其中,表示分类损失,用于高低分辨率信息融合模块的分类任务;表示分辨率差异损失;/>表示权衡分类损失和分辨率差异损失的超参数;表示第 i 个样本的低分辨率信息;/>表示第 i 个样本的高分辨率信息;/>表示真实标签中样本 i 属于类别 j 的标签;/>表示模型输出样本i属于类别j的预测概率;
具体的,所述高低分辨率信息融合模块损失函数中包含分类损失函数和分辨率差异损失函数;所述分类损失函数确保高低分辨率信息融合模块能够有效地执行分类任务;所述分辨率差异损失函数有助于确保低分辨率和高分辨率信息都能被充分利用,促使模型更好地融合这两方面的信息。通过分类损失函数和分辨率差异损失函数,模型受到了对不同任务的有效监督,有助于提高分辨率信息的融合效果。
所述注意力模块损失函数计算公式如下:
其中,/>表示控制对比损失的边界;/>表示第 i 个样本的输入注意力权重;/>表示第i 个样本的输出注意力权重;
具体的,所述注意力模块损失函数有助于训练模型学习到输入特征图中的通道关系,通过最小化对比损失,模型能够更好地学习到输入特征图中通道之间的关联性,从而提高模型对重要通道的关注度。这有助于增强模型对关键信息的感知。
所述语义分割预测模块的损失函数计算公式如下:
其中,表示真实标签中样本 i属于类别 j的标签,/>表示模型输出样本i属于类别j的预测概率;
具体的,所述语义分割预测模块损失函数采用了交叉熵损失,用于度量模型输出与真实标签之间的像素级差异,这有助于确保模型能够生成准确的像素级语义分割预测。通过引入语义分割预测模块损失函数,模型受到了对语义分割任务的监督,从而提高了模型在像素级别上的分割准确性。
所述损失函数计算公式如下:
其中,表示权衡各损失项的超参数。
本发明通过将图像特征提取模块损失函数、高低分辨率信息融合模块损失函数/>、注意力模块损失函数/>和语义分割预测模块损失函数/>协同工作,引导模型在训练过程中学习适用于实时服装图像语义分割任务的特征表示和任务执行策略,所述损失函数有助于提高模型的泛化性能,使其能够在解析服装图像时产生更为准确和有用的预测。
如图7所示,本申请还提供了一种实时服装图像语义分割***,包括:
图像特征提取模块:用于提取图像特征,输出高分辨率信息和低分辨率信息;
高低分辨率信息融合模块:用于将高分辨率信息和低分辨率信息融合;
注意力模块:对低分辨率信息中的特征图进行操作,得到最终融合了通道信息的特征图;
语义分割预测模块:用于输出最终的预测结果。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (6)
1.一种实时服装图像语义分割方法,其特征在于,所述方法包括以下步骤:
S1:设计适用于实时解析服装图像的实时服装图像语义分割模型,所述实时服装图像语义分割模型包括图像特征提取模块、高低分辨率信息融合模块、注意力模块和语义分割预测模块;
所述图像特征提取模块用于提取图像特征,输出高分辨率信息和低分辨率信息;
所述高低分辨率信息融合模块用于将图像特征提取模块输出的高分辨率信息和低分辨率信息相互融合;
所述注意力模块对高低分辨率信息融合模块输出的低分辨率信息中的特征图进行操作,得到最终融合了通道信息的特征图;
所述语义分割预测模块用于输出最终预测结果;
S2:训练设计好的实时服装图像语义分割模型,得到训练好的实时服装图像语义分割模型;
S3:使用训练好的实时服装图像语义分割模型来解析服装图像,生成像素级的预测图像;
所述步骤S1中设计适用于实时解析服装图像的实时服装图像语义分割模型具体包括:
S11:将实时图像送入图像特征提取模块用于提取图像特征,并输出高分辨率信息和低分辨率信息;
S12:将所述图像特征提取模块输出的高分辨率信息和低分辨率信息送入高低分辨率信息融合模块,所述高低分辨率信息融合模块输出高分辨率信息和低分辨率信息;
S13:将所述高低分辨率信息融合模块输出的低分辨率信息送入注意力模块,所述注意力模块输出特征;
S14:将所述注意力模块输出的特征和高低分辨率信息融合模块输出的高分辨率信息进行特征融合;
S15:将特征融合后的结果送入语义分割预测模块,得到最终预测结果;
所述步骤S2中训练设计好的实时服装图像语义分割模型过程中使用损失函数,所述损失函数/>包括图像特征提取模块损失函数/>、高低分辨率信息融合模块损失函数、注意力模块损失函数/>和语义分割预测模块损失函数/>;
所述图像特征提取模块损失函数计算公式如下:
其中,N表示样本数,C表示类别数,表示真实标签中样本 i属于类别 j的标签,表示模型输出样本i属于类别j的预测概率;
所述高低分辨率信息融合模块损失函数计算公式如下:
其中,表示分类损失,用于高低分辨率信息融合模块的分类任务;表示分辨率差异损失;/>表示权衡分类损失和分辨率差异损失的超参数;表示第 i 个样本的低分辨率信息;/>表示第 i 个样本的高分辨率信息;/>表示真实标签中样本 i 属于类别 j 的标签;/>表示模型输出样本i属于类别j的预测概率;
所述注意力模块损失函数计算公式如下:
其中,/>表示控制对比损失的边界;/>表示第 i 个样本的输入注意力权重;/>表示第 i个样本的输出注意力权重;
所述语义分割预测模块的损失函数计算公式如下:
其中,表示真实标签中样本 i属于类别 j的标签,/>表示模型输出样本i属于类别j的预测概率;
所述损失函数计算公式如下:
其中,表示权衡各损失项的超参数。
2.根据权利要求1所述的一种实时服装图像语义分割方法,其特征在于,所述步骤S11中图像特征提取模块包括2个卷积层和2个残差单元,步骤具体包括:
S111:将实时图像输入到卷积核大小为3×3,卷积操作步幅为2的两个连续的卷积层中;
S112:进入第一个残差单元,所述第一个残差单元包括使用了32个大小为3×3的两个卷积核,所述第一个残差单元重复两次;
S113:进入第二个残差单元,所述第二个残差单元包括使用了64个大小为3×3的两个卷积核,所述第二个残差单元重复两次。
3.根据权利要求1所述的一种实时服装图像语义分割方法,其特征在于,所述步骤S12中高低分辨率信息融合模块包括3个残差块和2个信息融合模块,每个所述残差块均包括两个3×3卷积核,所述残差块包括第一残差块、第二残差块和第三残差块,所述信息融合模块包括第一信息融合模块和第二信息融合模块,步骤具体包括:
S121:所述图像特征提取模块经过第一残差块得到低分辨率信息;
S122:所述图像特征提取模块经过第二残差块得到高分辨率信息;
S123:将所述低分辨率信息和高分辨率信息同时经过第三残差块,并将低分辨率信息和高分辨率信息同时送入第一信息融合模块;
S124:将经过第一信息融合模块的低分辨率信息和高分辨率信息再次送入第三残差块,并将经过第一信息融合模块的低分辨率信息和高分辨率信息同时送入第二信息融合模块。
4.根据权利要求3所述的一种实时服装图像语义分割方法,其特征在于,所述第一信息融合模块和第二信息融合模块为相同的信息融合模块,所述信息融合模块具体步骤包括:
通过3×3卷积序列对高分辨率信息进行降采样,再逐点求和,实现将高分辨率信息融合到低分辨率信息;
通过1×1卷积序列对低分辨率特征图进行压缩,然后通过双线性插值进行上采样,实现将低分辨率信息融合到高分辨率信息。
5.根据权利要求1所述的一种实时服装图像语义分割方法,其特征在于,所述步骤S13中注意力模块对低分辨率信息中的特征图进行操作,步骤具体包括:
S131:从低分辨率信息中提取特征图A,将输入的特征图A进行重塑为大小为C×N的矩阵B,其中C表示通道数,N表示特征图的像素数量;
S132:对矩阵B与其自身的转置进行矩阵乘法运算,得到大小为C×C的特征图X;
S133:对特征图X进行softmax操作,使得每个位置上的值都在0到1之间,且所有位置上的值之和为1;
S134:将特征图X的转置与矩阵B进行矩阵乘法运算,得到大小为C×N的特征图D;
S135:将特征图D重新重塑为与输入特征图A相同的大小C×H×W,将特征图D乘以一个初始值为0的系数β;
S136:将输入特征图A与特征图D相加,得到最终融合了通道信息的特征图E。
6.根据权利要求1所述的一种实时服装图像语义分割方法,其特征在于,所述步骤S15中语义分割预测模块包括3×3卷积层和1×1卷积层,步骤具体包括:
S151:将高低分辨率信息融合模块和注意力模块特征融合的结果输入3×3卷积层,通过3×3卷积层改变输出尺寸;
S152:通过1×1卷积直接输出最终预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311725616.0A CN117409208B (zh) | 2023-12-14 | 2023-12-14 | 一种实时服装图像语义分割方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311725616.0A CN117409208B (zh) | 2023-12-14 | 2023-12-14 | 一种实时服装图像语义分割方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117409208A CN117409208A (zh) | 2024-01-16 |
CN117409208B true CN117409208B (zh) | 2024-03-08 |
Family
ID=89500358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311725616.0A Active CN117409208B (zh) | 2023-12-14 | 2023-12-14 | 一种实时服装图像语义分割方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117409208B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118097158B (zh) * | 2024-04-29 | 2024-07-05 | 武汉纺织大学 | 基于编解码器的服装语义分割方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276354A (zh) * | 2019-05-27 | 2019-09-24 | 东南大学 | 一种高分辨率街景图片语义分割训练与实时分割方法 |
CN111325806A (zh) * | 2020-02-18 | 2020-06-23 | 苏州科达科技股份有限公司 | 基于语义分割的服装颜色识别方法、装置和*** |
CN113192073A (zh) * | 2021-04-06 | 2021-07-30 | 浙江科技学院 | 基于交叉融合网络的服装语义分割方法 |
CN113379771A (zh) * | 2021-07-02 | 2021-09-10 | 西安电子科技大学 | 带有边缘约束的层次化人体解析语义分割方法 |
CN113538610A (zh) * | 2021-06-21 | 2021-10-22 | 杭州电子科技大学 | 一种基于稠密流的虚拟试衣方法 |
CN114037833A (zh) * | 2021-11-18 | 2022-02-11 | 桂林电子科技大学 | 一种苗族服饰图像语义分割方法 |
CN114723843A (zh) * | 2022-06-01 | 2022-07-08 | 广东时谛智能科技有限公司 | 多模态融合生成虚拟服装方法、装置、设备及存储介质 |
CN114842026A (zh) * | 2022-04-20 | 2022-08-02 | 华能新能源股份有限公司 | 实时的风机叶片图像分割方法及*** |
CN115170801A (zh) * | 2022-07-20 | 2022-10-11 | 东南大学 | 一种基于双注意力机制融合的FDA-DeepLab语义分割算法 |
CN115294337A (zh) * | 2022-09-28 | 2022-11-04 | 珠海大横琴科技发展有限公司 | 训练语义分割模型的方法、图像语义分割方法及相关装置 |
CN115861614A (zh) * | 2022-11-29 | 2023-03-28 | 浙江大学 | 一种基于羽绒服图像的自动生成语义分割图的方法和装置 |
CN116188778A (zh) * | 2023-02-23 | 2023-05-30 | 南京邮电大学 | 一种基于超分辨的双边语义分割方法 |
CN116563553A (zh) * | 2023-07-10 | 2023-08-08 | 武汉纺织大学 | 一种基于深度学习的无人机图像分割方法和*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102215757B1 (ko) * | 2019-05-14 | 2021-02-15 | 경희대학교 산학협력단 | 이미지 세그멘테이션 방법, 장치 및 컴퓨터 프로그램 |
-
2023
- 2023-12-14 CN CN202311725616.0A patent/CN117409208B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276354A (zh) * | 2019-05-27 | 2019-09-24 | 东南大学 | 一种高分辨率街景图片语义分割训练与实时分割方法 |
CN111325806A (zh) * | 2020-02-18 | 2020-06-23 | 苏州科达科技股份有限公司 | 基于语义分割的服装颜色识别方法、装置和*** |
CN113192073A (zh) * | 2021-04-06 | 2021-07-30 | 浙江科技学院 | 基于交叉融合网络的服装语义分割方法 |
CN113538610A (zh) * | 2021-06-21 | 2021-10-22 | 杭州电子科技大学 | 一种基于稠密流的虚拟试衣方法 |
CN113379771A (zh) * | 2021-07-02 | 2021-09-10 | 西安电子科技大学 | 带有边缘约束的层次化人体解析语义分割方法 |
CN114037833A (zh) * | 2021-11-18 | 2022-02-11 | 桂林电子科技大学 | 一种苗族服饰图像语义分割方法 |
CN114842026A (zh) * | 2022-04-20 | 2022-08-02 | 华能新能源股份有限公司 | 实时的风机叶片图像分割方法及*** |
CN114723843A (zh) * | 2022-06-01 | 2022-07-08 | 广东时谛智能科技有限公司 | 多模态融合生成虚拟服装方法、装置、设备及存储介质 |
CN115170801A (zh) * | 2022-07-20 | 2022-10-11 | 东南大学 | 一种基于双注意力机制融合的FDA-DeepLab语义分割算法 |
CN115294337A (zh) * | 2022-09-28 | 2022-11-04 | 珠海大横琴科技发展有限公司 | 训练语义分割模型的方法、图像语义分割方法及相关装置 |
CN115861614A (zh) * | 2022-11-29 | 2023-03-28 | 浙江大学 | 一种基于羽绒服图像的自动生成语义分割图的方法和装置 |
CN116188778A (zh) * | 2023-02-23 | 2023-05-30 | 南京邮电大学 | 一种基于超分辨的双边语义分割方法 |
CN116563553A (zh) * | 2023-07-10 | 2023-08-08 | 武汉纺织大学 | 一种基于深度学习的无人机图像分割方法和*** |
Non-Patent Citations (3)
Title |
---|
High-Accuracy Clothing and Style Classification via Multi-Feature Fusion;Xiaoling Chen et al;applied sciences;20221006;全文 * |
分层特征融合注意力网络图像超分辨率重建;雷鹏程;刘丛;唐坚刚;彭敦陆;;中国图象图形学报;20200916(第09期);全文 * |
基于深度学习的服装图像语义分析与检索推荐;徐慧;白美丽;万韬阮;薛涛;汤汶;;纺织高校基础科学学报;20200930(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117409208A (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287940B (zh) | 一种基于深度学习的注意力机制的语义分割的方法 | |
EP3843004A1 (en) | Portrait segmentation method, model training method and electronic device | |
CN112990116B (zh) | 基于多注意力机制融合的行为识别装置、方法和存储介质 | |
CN117409208B (zh) | 一种实时服装图像语义分割方法及*** | |
CN111583173A (zh) | 一种rgb-d图像显著性目标检测方法 | |
CN112651423A (zh) | 一种智能视觉*** | |
CN113903022B (zh) | 基于特征金字塔与注意力融合的文本检测方法及*** | |
CN116258850A (zh) | 图像语义分割方法、电子设备以及计算机可读存储介质 | |
CN115512103A (zh) | 多尺度融合遥感图像语义分割方法及*** | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、***及设备 | |
CN111797841A (zh) | 一种基于深度残差网络的视觉显著性检测方法 | |
CN114419323A (zh) | 基于跨模态学习与领域自适应rgbd图像语义分割方法 | |
CN112418032A (zh) | 一种人体行为识别方法、装置、电子设备及存储介质 | |
CN116091979A (zh) | 一种基于特征融合和通道注意力的目标跟踪方法 | |
Aldhaheri et al. | MACC Net: Multi-task attention crowd counting network | |
Xiang et al. | Recognition of characters on curved metal workpiece surfaces based on multi-exposure image fusion and deep neural networks | |
Liang et al. | Hybrid transformer-CNN networks using superpixel segmentation for remote sensing building change detection | |
CN114067273A (zh) | 一种夜间机场航站楼热成像显著人体分割检测方法 | |
CN112991239A (zh) | 一种基于深度学习的图像反向恢复方法 | |
CN112365451A (zh) | 图像质量等级的确定方法、装置、设备及计算机可读介质 | |
CN112927250B (zh) | 一种基于多粒度注意力分层网络的边缘检测***和方法 | |
CN110489584B (zh) | 基于密集连接的MobileNets模型的图像分类方法及*** | |
CN116958615A (zh) | 图片识别方法、装置、设备和介质 | |
CN114387489A (zh) | 电力设备识别方法、装置和终端设备 | |
CN111783683A (zh) | 一种基于特征平衡和关系增强的人体检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |