CN117409208B

CN117409208B - 一种实时服装图像语义分割方法及***

Info

Publication number: CN117409208B
Application number: CN202311725616.0A
Authority: CN
Inventors: 姜明华; 张影; 余锋; 刘莉; 周昌龙; 宋坤芳
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-03-08
Anticipated expiration: 2043-12-14
Also published as: CN117409208A

Abstract

本发明公开了一种实时服装图像语义分割方法及***，所述方法包括：S1：设计适用于实时解析服装图像的实时服装图像语义分割模型，实时服装图像语义分割模型包括图像特征提取模块、高低分辨率信息融合模块、注意力模块和语义分割预测模块；S2：训练设计好的实时服装图像语义分割模型，得到训练好的实时服装图像语义分割模型；S3：使用训练好的实时服装图像语义分割模型来解析服装图像，生成像素级的预测图像。本发明通过设计用于实时解析服装图像的实时服装图像语义分割模型，在对实时服装图像语义分割模型训练的过程中设计损失函数，利用训练好的模型来解析服装图像，生成像素级的预测图像，提高对实时服装图像中信息分割的准确度和速度。

Description

一种实时服装图像语义分割方法及***

技术领域

本发明涉及服装图像分割领域，尤其涉及一种实时服装图像语义分割方法及***。

背景技术

服装图像语义分割方法是在服装行业中的一项重要应用。例如，虚拟试衣间、智能购物助手等场景需要对服装图像进行实时的语义分割，以精确地区分服装的不同部分，为用户提供更丰富的交互和信息。在虚拟试衣间等场景中，实时性能和用户体验密切相关。实时服装图像语义分割方法的背景技术还包括用户交互设计，以确保用户能够在实时场景中得到良好的体验。

深度学习方法，特别是卷积神经网络（CNN），在语义分割任务中取得了显著的成就。这些方法能够学习到图像中的层次性特征，从而在像素级别对图像进行语义分类。实时服装图像语义分割方法背后的技术基础主要包括深度学习中用于语义分割的先进架构和算法。

随着时间的推进，传统的深度学习方法已经无法满足实时服装图像语义分割任务，深度学习方法通常需要大量的计算资源，特别是在处理复杂的语义分割任务时。传统的深度学习模型可能过于庞大，导致高计算复杂度，使得实时性能受到限制；传统的深度学习模型在实时应用中可能过于庞大，不适合嵌入式***或移动设备。这会限制在资源受限的环境中实现实时服装图像语义分割的能力；传统的深度学习方法可能无法满足对实时性能的要求，尤其是在需要在几毫秒内处理图像的应用场景中，例如虚拟试衣间或实时监控***。按照多分支对图像特征进行提取，分割的速度和精度远超传统的算法。

公开号为CN109949313A的中国专利公开了“一种图像实时语义分割方法”，通过关键帧提取网络来预测当前子图像的语义分割结果与其对应的上一个关键子图像的语义分割结果之间的偏差，解决了固定时间间隔设置关键帧方法带来的无法根据具体帧间变化程度来选择性能不同的语义分割网络的问题，但是对于像服装图片这种固定场景图片而言，用关键帧选择性能不同的语义分割网络，对实时性要求是不够的。

发明内容

针对现有技术的以上缺陷或者改进需求，本发明提供了一种实时服装图像语义分割方法及***，通过设计用于实时解析服装图像的实时服装图像语义分割模型，在对实时服装图像语义分割模型训练的过程中设计损失函数，利用训练好的模型来解析服装图像，生成像素级的预测图像，提高对实时服装图像中信息分割的准确度和速度。

为了实现上述目的，本发明采用了如下技术方案：

本发明第一方面提供了一种实时服装图像语义分割方法，所述方法包括以下步骤：

S1：设计适用于实时解析服装图像的实时服装图像语义分割模型，所述实时服装图像语义分割模型包括图像特征提取模块、高低分辨率信息融合模块、注意力模块和语义分割预测模块；

所述图像特征提取模块用于提取图像特征，输出高分辨率信息和低分辨率信息；

所述高低分辨率信息融合模块用于将图像特征提取模块输出的高分辨率信息和低分辨率信息相互融合；

所述注意力模块对低分辨率信息融合模块输出的特征图进行操作，得到最终融合了通道信息的特征图；

所述语义分割预测模块用于输出最终预测结果；

S2：训练设计好的实时服装图像语义分割模型，得到训练好的实时服装图像语义分割模型；

S3：使用训练好的实时服装图像语义分割模型来解析服装图像，生成像素级的预测图像。

作为本申请一实施例，所述步骤S1中设计适用于实时解析服装图像的实时服装图像语义分割模型具体包括：

S11：将实时图像送入图像特征提取模块用于提取图像特征，并输出高分辨率信息和低分辨率信息；

S12：将所述图像特征提取模块输出的高分辨率信息和低分辨率信息送入高低分辨率信息融合模块，所述高低分辨率信息融合模块输出高分辨率信息和低分辨率信息；

S13：将所述高低分辨率信息融合模块输出的低分辨率信息送入注意力模块，所述注意力模块输出特征；

S14：将所述注意力模块输出的特征和高低分辨率信息融合模块输出的高分辨率信息进行特征融合；

S15：将特征融合后的结果送入语义分割预测模块，得到最终预测结果。

作为本申请一实施例，所述步骤S11中图像特征提取模块包括2个卷积层和2个残差单元，步骤具体包括：

S111：将实时图像输入到卷积核大小为3×3，卷积操作步幅为2的两个连续的卷积层中；

S112：进入第一个残差单元，所述第一个残差单元包括使用了32个大小为3×3的两个卷积核，所述第一个残差单元重复两次；

S113：进入第二个残差单元，所述第二个残差单元包括使用了64个大小为3×3的两个卷积核，所述第二个残差单元重复两次。

作为本申请一实施例，所述步骤S12中高低分辨率信息融合模块包括3个残差块和2个信息融合模块，每个所述残差块均包括两个3×3卷积核，所述残差块包括第一残差块、第二残差块和第三残差块，所述信息融合模块包括第一信息融合模块和第二信息融合模块，步骤具体包括：

S121：所述图像特征提取模块经过第一残差块得到低分辨率信息；

S122：所述图像特征提取模块经过第二残差块得到高分辨率信息；

S123：将所述低分辨率信息和高分辨率信息同时经过第三残差块，并将低分辨率信息和高分辨率信息同时送入第一信息融合模块；

S124：将经过第一信息融合模块的低分辨率信息和高分辨率信息再次送入第三残差块，并将经过第一信息融合模块的低分辨率信息和高分辨率信息同时送入信息融合模块。

作为本申请一实施例，所述第一信息融合模块和第二信息融合模块为相同的信息融合模块，所述信息融合模块具体步骤包括：

通过3×3卷积序列对高分辨率信息进行降采样，再逐点求和，实现将高分辨率信息融合到低分辨率信息；

通过1×1卷积序列对低分辨率特征图进行压缩，然后通过双线性插值进行上采样，实现将低分辨率信息融合到高分辨率信息。

作为本申请一实施例，所述步骤S13中注意力模块对低分辨率信息进行操作，步骤具体包括：

S131：从低分辨率信息中提取特征图A（C×H×W），将输入的特征图A进行重塑为大小为C×N的矩阵B，其中C表示通道数，N表示特征图的像素数量；

S132：对矩阵B与其自身的转置进行矩阵乘法运算，得到大小为C×C的特征图X；

S133：对特征图X进行softmax操作，使得每个位置上的值都在0到1之间，且所有位置上的值之和为1；

S134：将特征图X的转置与矩阵B进行矩阵乘法运算，得到大小为C×N的特征图D；

S135：将特征图D重新重塑为与输入特征图A相同的大小C×H×W，将特征图D乘以一个初始值为0的系数β；

S136：将输入特征图A与特征图D相加，得到最终融合了通道信息的特征图E。

作为本申请一实施例，所述步骤S15中语义分割预测模块包括3×3卷积层和1×1卷积层，步骤具体包括：

S151：将高低分辨率信息融合模块和注意力模块特征融合的结果输入3×3卷积层，通过3×3卷积层去改变输出尺寸；

S152：通过1×1卷积直接输出最终预测结果。

作为本申请一实施例，所述步骤S2中训练设计好的实时服装图像语义分割模型过程中使用损失函数，所述损失函数/>包括图像特征提取模块损失函数/>、高低分辨率信息融合模块损失函数/>、注意力模块损失函数/>和语义分割预测模块损失函数/>。

作为本申请一实施例，所述图像特征提取模块损失函数计算公式如下：

其中，N表示样本数，C表示类别数，表示真实标签中样本 i属于类别 j的标签,/>表示模型输出样本i属于类别j的预测概率；

所述高低分辨率信息融合模块损失函数计算公式如下：

其中，表示分类损失，用于高低分辨率信息融合模块的分类任务；表示分辨率差异损失；/>表示权衡分类损失和分辨率差异损失的超参数；表示第 i 个样本的低分辨率信息；/>表示第 i 个样本的高分辨率信息；/>表示真实标签中样本 i 属于类别 j 的标签；/>表示模型输出样本i属于类别j的预测概率；

所述注意力模块损失函数计算公式如下：

其中，/>表示控制对比损失的边界；/>表示第 i 个样本的输入注意力权重；/>表示第i 个样本的输出注意力权重；

所述语义分割预测模块的损失函数计算公式如下：

其中，表示真实标签中样本 i属于类别 j的标签,/>表示模型输出样本i属于类别j的预测概率；

所述损失函数计算公式如下：

其中，表示权衡各损失项的超参数。

本申请还提供了一种实时服装图像语义分割***，包括：

图像特征提取模块：用于提取图像特征，输出高分辨率信息和低分辨率信息；

高低分辨率信息融合模块：用于将高分辨率信息和低分辨率信息融合；

注意力模块：对低分辨率信息中的特征图进行操作，得到最终融合了通道信息的特征图；

语义分割预测模块：用于输出最终的预测结果。

本发明的有益效果为：

（1）本发明通过设计图像特征提取模块、高低分辨率信息融合模块、注意力模块和语义分割预测模块共同构成用于实时解析服装图像的实时服装图像语义分割模型，在对实时服装图像语义分割模型训练的过程中设计损失函数，利用训练好的模型来解析服装图像，生成像素级的预测图像，提高对实时服装图像中信息分割的准确度和速度。

（2）本发明通过高低分辨率信息融合模块将图像特征提取模块提取的高分辨率信息和低分辨率信息进行相互融合，提高实时服装图像语义分割模型识别的精确度和速度，再通过注意力模块提高实时服装图像语义分割模型识别的精确度。

（3）本发明通过在训练设计好的实时服装图像语义分割模型过程中使用创新的损失函数，使实时服装图像语义分割模型训练更加关注分割边界，同时训练效果更好，更加符合服装图像场景。

（4）本发明通过将服装图像输入训练好的实时服装图像语义分割模型中，生成像素级的预测图像，大大节省了人工成本，对于后续虚拟试衣等技术提供高质量的预测图像。

附图说明

图1为本发明实施例中提供的一种实时服装图像语义分割方法的技术方案流程图；

图2为本发明实施例中提供的一种实时服装图像语义分割方法的图像特征提取模块示意图；

图3为本发明实施例中提供的一种实时服装图像语义分割方法的高低分辨率信息融合模块示意图；

图4为本发明实施例中提供的一种实时服装图像语义分割方法的信息融合模块示意图；

图5为本发明实施例中提供的一种实时服装图像语义分割方法的注意力模块示意图；

图6为本发明实施例中提供的一种实时服装图像语义分割方法的语义分割预测模块示意图；

图7为本发明实施例中提供的一种实时服装图像语义分割***框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示（诸如上、下、左、右、前、后……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，全文中出现的“和/或”的含义，包括三个并列的方案，以“A和/或B”为例，包括A方案、或B方案、或A和B同时满足的方案。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参照图1至图6，一种实时服装图像语义分割方法，所述方法包括以下步骤：

所述高低分辨率信息融合模块用于将高分辨率信息和低分辨率信息相互融合；

所述注意力模块对低分辨率信息中的特征图进行操作，得到最终融合了通道信息的特征图；

所述语义分割预测模块用于输出最终预测结果；

具体的，通过加载预先训练好的实时服装图像语义分割模型，对待解析的服装图像进行图像预处理和模型推理，生成像素级的语义分割预测。后续对实时服装图像语义分割模型输出进行必要的后处理，最终可选择可视化或保存分割结果，以获得对服装图像的精细语义分割。

如图2所示，所述步骤S11中图像特征提取模块包括2个卷积层和2个残差单元，2个所述卷积层和2个所述残差单元有助于提取更丰富的图像特征，增强模型对服装图像的表示能力，步骤具体包括：

其中，多层卷积提取复杂特征，使用两个卷积层可以增加模型对图像的感知深度，每个卷积层都可以学习不同层次的特征，所述卷积层通过滤波器（卷积核）对输入图像进行卷积操作，从而检测和强调图像中的不同特征，例如边缘、纹理等。多个卷积层叠加可以提高对服装图像复杂结构的理解能力。

所述残差单元加强特征传递，具体的，所述残差单元通过引入跳跃连接（shortcutconnection）实现了从输入到输出的直接路径，有助于缓解深度神经网络中的梯度消失问题，这使得模型更容易学习到跨层次的特征表示，有助于捕获服装图像中的长距离依赖关系；所述残差单元还提高了网络的训练速度和收敛性，使得更深的网络更容易优化。

具体的，所述卷积层中的参数共享使得模型可以检测图像中的相似特征，而残差单元中的跳跃连接可以确保这些学到的特征在网络中得到有效传递和重用，这有助于提高模型的泛化能力，使其在不同服装图像上表现更好，而2个卷积层和2个残差单元的结合有助于构建深度而有效的图像特征提取模块，提高模型对服装图像语义的理解和表达能力。

如图3所示，所述步骤S12中高低分辨率信息融合模块包括3个残差块和2个信息融合模块，每个所述残差块均包括两个3×3卷积核，所述残差块包括第一残差块、第二残差块和第三残差块，所述信息融合模块包括第一信息融合模块和第二信息融合模块，步骤具体包括：

S123：将所述低分辨率信息和高分辨率信息同时经过卷积核个数不同的第三残差块，并将低分辨率信息和高分辨率信息同时送入第一信息融合模块；

S124：将经过第一信息融合模块的低分辨率信息和高分辨率信息再次送入卷积核个数不同的第三残差块，并将经过第一信息融合模块的低分辨率信息和高分辨率信息同时送入信息融合模块。

如图4所示，所述第一信息融合模块和第二信息融合模块为相同的信息融合模块，所述信息融合模块具体步骤包括：

其中，多层所述残差块增加特征深度，使用三个残差块有助于增加特征的深度，提高网络对图像信息的层次化表达能力，每个残差块都包含两个3×3卷积核，通过堆叠多个残差块，模型可以学到不同层次和尺度的特征，更好地捕捉服装图像中的抽象和复杂结构。

另外，所述信息融合模块提高特征交互性，每个所述信息融合模块通过将低分辨率信息和高分辨率信息融合在一起，实现了高低分辨率信息的互补，通过使用两个信息融合模块，可以在多个阶段引入融合操作，增加低分辨率和高分辨率信息之间的交互性，这有助于充分利用不同分辨率层次上的语义信息，提高模型对图像整体和局部细节的理解。

具体的，所述残差块和信息融合模块协同工作，残差块设计在信息融合模块之前，通过残差块处理低分辨率和高分辨率信息，使得这些信息更加丰富和具有表征力，所述信息融合模块接着将这些处理过的信息融合在一起，使得不同分辨率的信息更好地结合在一起，通过所述残差块和信息融合模块协同工作有助于网络更好地处理高低分辨率信息融合的任务。

本发明采用更好的分辨率信息融合策略，所述信息融合模块采用了高到低融合和低到高融合两种策略，通过3×3卷积序列进行降采样和通过1×1卷积进行压缩和双线性插值进行上采样。这样的策略可以更好地保留高分辨率信息的细节，同时有效地利用低分辨率信息进行全局语义的理解，这对于服装图像的分割任务非常重要。

本发明通过采用3个残差块和2个信息融合模块的设计，使得高低分辨率信息融合模块更具有深度和层次的特征表示能力，能够更好地处理服装图像的语义分割任务。

如图5所示，所述步骤S13中注意力模块对低分辨率信息进行操作，步骤具体包括：

S131：从低分辨率信息中提取特征图A，将输入的特征图A进行重塑为大小为C×N的矩阵B，其中C表示通道数，N表示特征图的像素数量；

如图6所示，所述步骤S15中语义分割预测模块包括3×3卷积层和1×1卷积层，步骤具体包括：

S152：通过1×1卷积直接输出最终预测结果。

其中，注意力模块在深度学习中的应用通常用于增强网络对输入数据的关注度，使网络能够有选择性地聚焦于输入的重要部分。

其中，损失函数在深度学习模型的训练中起着关键作用，所述损失函数通过度量模型输出与真实标签之间的差异，引导模型学习任务相关的特征。

具体的，所述图像特征提取模块损失函数通过定义图像特征提取模块的损失函数，模型受到对图像特征提取任务的监督，这有助于确保模型学习到对服装图像语义分割任务有用的特征表示，在这里，交叉熵损失用于衡量模型输出的图像特征提取模块对服装图像的分类准确性。

所述高低分辨率信息融合模块损失函数计算公式如下：

具体的，所述高低分辨率信息融合模块损失函数中包含分类损失函数和分辨率差异损失函数；所述分类损失函数确保高低分辨率信息融合模块能够有效地执行分类任务；所述分辨率差异损失函数有助于确保低分辨率和高分辨率信息都能被充分利用，促使模型更好地融合这两方面的信息。通过分类损失函数和分辨率差异损失函数，模型受到了对不同任务的有效监督，有助于提高分辨率信息的融合效果。

所述注意力模块损失函数计算公式如下：

具体的，所述注意力模块损失函数有助于训练模型学习到输入特征图中的通道关系，通过最小化对比损失，模型能够更好地学习到输入特征图中通道之间的关联性，从而提高模型对重要通道的关注度。这有助于增强模型对关键信息的感知。

所述语义分割预测模块的损失函数计算公式如下：

具体的，所述语义分割预测模块损失函数采用了交叉熵损失，用于度量模型输出与真实标签之间的像素级差异，这有助于确保模型能够生成准确的像素级语义分割预测。通过引入语义分割预测模块损失函数，模型受到了对语义分割任务的监督，从而提高了模型在像素级别上的分割准确性。

所述损失函数计算公式如下：

其中，表示权衡各损失项的超参数。

本发明通过将图像特征提取模块损失函数、高低分辨率信息融合模块损失函数/>、注意力模块损失函数/>和语义分割预测模块损失函数/>协同工作，引导模型在训练过程中学习适用于实时服装图像语义分割任务的特征表示和任务执行策略，所述损失函数有助于提高模型的泛化性能，使其能够在解析服装图像时产生更为准确和有用的预测。

如图7所示，本申请还提供了一种实时服装图像语义分割***，包括：

语义分割预测模块：用于输出最终的预测结果。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种实时服装图像语义分割方法，其特征在于，所述方法包括以下步骤：

所述注意力模块对高低分辨率信息融合模块输出的低分辨率信息中的特征图进行操作，得到最终融合了通道信息的特征图；

所述语义分割预测模块用于输出最终预测结果；

S3：使用训练好的实时服装图像语义分割模型来解析服装图像，生成像素级的预测图像；

所述步骤S1中设计适用于实时解析服装图像的实时服装图像语义分割模型具体包括：

S15：将特征融合后的结果送入语义分割预测模块，得到最终预测结果；

所述步骤S2中训练设计好的实时服装图像语义分割模型过程中使用损失函数，所述损失函数/>包括图像特征提取模块损失函数/>、高低分辨率信息融合模块损失函数、注意力模块损失函数/>和语义分割预测模块损失函数/>；

所述图像特征提取模块损失函数计算公式如下：

其中，N表示样本数，C表示类别数，表示真实标签中样本 i属于类别 j的标签,表示模型输出样本i属于类别j的预测概率；

所述高低分辨率信息融合模块损失函数计算公式如下：

所述注意力模块损失函数计算公式如下：

其中，/>表示控制对比损失的边界；/>表示第 i 个样本的输入注意力权重；/>表示第 i个样本的输出注意力权重；

所述语义分割预测模块的损失函数计算公式如下：

所述损失函数计算公式如下：

其中，表示权衡各损失项的超参数。

2.根据权利要求1所述的一种实时服装图像语义分割方法，其特征在于，所述步骤S11中图像特征提取模块包括2个卷积层和2个残差单元，步骤具体包括：

3.根据权利要求1所述的一种实时服装图像语义分割方法，其特征在于，所述步骤S12中高低分辨率信息融合模块包括3个残差块和2个信息融合模块，每个所述残差块均包括两个3×3卷积核，所述残差块包括第一残差块、第二残差块和第三残差块，所述信息融合模块包括第一信息融合模块和第二信息融合模块，步骤具体包括：

S124：将经过第一信息融合模块的低分辨率信息和高分辨率信息再次送入第三残差块，并将经过第一信息融合模块的低分辨率信息和高分辨率信息同时送入第二信息融合模块。

4.根据权利要求3所述的一种实时服装图像语义分割方法，其特征在于，所述第一信息融合模块和第二信息融合模块为相同的信息融合模块，所述信息融合模块具体步骤包括：

5.根据权利要求1所述的一种实时服装图像语义分割方法，其特征在于，所述步骤S13中注意力模块对低分辨率信息中的特征图进行操作，步骤具体包括：

6.根据权利要求1所述的一种实时服装图像语义分割方法，其特征在于，所述步骤S15中语义分割预测模块包括3×3卷积层和1×1卷积层，步骤具体包括：

S151：将高低分辨率信息融合模块和注意力模块特征融合的结果输入3×3卷积层，通过3×3卷积层改变输出尺寸；

S152：通过1×1卷积直接输出最终预测结果。