CN111159456B

CN111159456B - 基于深度学习与传统特征的多尺度服装检索方法及***

Info

Publication number: CN111159456B
Application number: CN201911391382.4A
Authority: CN
Inventors: 普园媛; 王志伟; 王鑫; 徐丹; 钱文华; 赵征鹏; 徐俊; 袁国武; 余鹏飞
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2022-09-06
Anticipated expiration: 2039-12-30
Also published as: CN111159456A

Abstract

本发明涉及一种基于深度学习与传统特征的多尺度服装检索方法及***，包括提取待检索服装图像和图像数据库中的服装图像的多尺度级联CNN特征；根据待检索服装图像和图像数据库中的服装图像的多尺度级联CNN特征计算第一欧氏距离；使用CNN‑M模型得到的款式属性预测结果优化第一欧氏距离，得到初步检索结果；提取待检索服装图像和初步检索结果中的服装图像的传统特征，通过特征相似性融合公式融合多尺度级联CNN特征和传统特征来优化初步检索结果并排序，得到最终检索结果。本发明能够实现对服装从全局区域到款式部件区域初步检索结果的充分提取，并结合传统特征有效提升了检索准确率，优化排序结果。

Description

基于深度学习与传统特征的多尺度服装检索方法及***

技术领域

本发明涉及多尺度服装检索领域，特别是涉及一种基于深度学习与传统特征的多尺度服装检索方法及***。

背景技术

目前国内服装图像检索技术应用较多的领域为电商平台，主要使用基于文本的图像检索方法，但是该检索模式过度依赖于提前对图像进行文本标注，这是一个费时费力的工作，且检索效果受到不同语言及表达方式的限制，特别是针对服装这类款式属性丰富的商品，基于文本的图像检索技术越来越难以满足现实需求。

基于内容的服装图像检索逐渐受到人们的关注，而图像的特征描述以及特征的索引机制是实现基于内容图像检索的关键，该模式依赖于提取服装图像的特征，通过计算服装图像特征间的距离完成检索任务。目前服装图像检索算法的特征提取可分为基于传统特征和基于深度学习两种方式。传统的特征表述方法有HOG、Daisy、颜色直方图等，基于传统特征可以有效提取服装图像的颜色、纹理等底层特征。Yang等提出基于形状相关性方法来得到图像的相似程度从而使检索准确率提高。纪等针对服装细节设计了采用多尺度的HOG特征进行检索，并利用投票选择的方法对其检索结果进行筛选。基于传统特征的服装图像检索算法虽然通过对图像底层特征的提取达到了不错的效果，但是由于缺乏对图像的深层语义描述，且服装图像***，故难以成为最佳选择。

近几年，深度学习成为了热门研究方向，其中，卷积神经网络(ConvolutionalNeural Networks，CNN)凭借对图像深层语义特征的卓越提取能力在服装图像检索中得到了广泛的应用。Kiapour等提出了WTBI服装图像检索模型，选用AlexNet的全连接层输出为图像特征，利用余弦相似度来进行跨域服装图像检索。Lin等通过微调预训练的模型获得类哈希的图像特征表示，然后通过层级深度搜索进行图像检索。Huang等提出了DARN的图像检索算法。将NIN网络的池化层与全连接层进行级联作为图像特征，采用Triplet损失进行街拍图像与网络图像的特征相似性度量。包等通过级联卷积层Conv4和全连接层FC1的输出作为特征表示，并使用PCA进行特征降维检索。针对服装图像存在背景、光照等复杂噪声，FashionNet通过添加大量的人工标记，得到图像的局部信息，从而提升CNN的性能表现。然而进行人工标记，既需要标记人员具有很强的专业性，同时也是一项昂贵且费时的工作。基于深度学习的服装图像检索算法通过CNN提取的深层语义特征，由于缺乏底层特征的补充和增强，在检索性能上难以发挥全面。

服装图像中的干扰除了背景等传统噪声，还存在服装自身的干扰，例如：面对检索一件上衣的任务，当输入的是一张同时包含上衣和下衣的全身图，图中的下衣不可避免的会成为干扰。就这一问题，现有服装检索算法还未进行过深入的研究。

面对极具挑战的服装图像检索任务，精准定位，聚焦检索服装本身，最大程度的降低背景等干扰因素的影响，全面且细致的提取服装从全局到局部的特征，同时融合不同种类的特征进行相互补充和增强，使服装特征间的比较足够充分，是一个值得研究的方向。

发明内容

本发明的目的是提供一种基于深度学习与传统特征的多尺度服装检索方法及***，能够实现对服装从全局到款式部件区域多尺度CNN特征的充分提取，结合传统特征有效提升了检索准确率，优化排序结果。

为实现上述目的，本发明提供了如下方案：

一种基于深度学习与传统特征的多尺度服装检索方法，包括：

获取待检索服装图像，并提取所述待检索服装图像的全局区域、主体区域以及款式部件区域的多尺度级联CNN特征；

计算所述多尺度级联CNN特征与每个历史多尺度级联CNN特征之间的第一欧氏距离；其中，所述第一欧氏距离的个数与所述历史多尺度级联CNN特征的个数相同，所述历史多尺度级联CNN特征是图像数据库中的服装图像经过处理得到的全局区域、主体区域以及款式部件区域的多尺度级联CNN特征；

采用CNN-M模型预测所述待检索服装图像的款式属性预测结果；

根据所述款式属性预测结果与历史款式属性预测结果优化所述第一欧氏距离并升序排列，选择前n个优化排序后的第一欧氏距离对应的所述图像数据库中的服装图像作为初步检索结果；所述历史款式属性预测结果是采用CNN-M模型预测图像数据库中的服装图像得到的款式属性预测结果；

提取所述待检索服装图像的传统特征，并根据所述传统特征和历史传统特征计算第二欧氏距离；所述历史传统特征是所述初步检索结果中的服装图像经过处理得到的传统特征；所述传统特征包括HOG、Daisy和颜色直方图；

根据所述初步检索结果中的第一欧氏距离和所述第二欧氏距离，采用特征相似性融合算法，计算第三距离并升序排列，选择前m个排序后的第三距离对应的所述初步检索结果中的服装图像作为最终检索结果。

可选的，所述提取所述待检索服装图像的全局区域、主体区域以及款式部件区域的多尺度级联CNN特征，具体包括：

采用多尺度CNN特征提取模型，提取所述待检索服装图像的全局区域、主体区域以及款式部件区域的多尺度级联CNN特征。

可选的，所述采用多尺度CNN特征提取模型，提取所述待检索服装图像的全局区域、主体区域以及款式部件区域的多尺度级联CNN特征，具体包括：

使用自训练YOLOv3模型识别并提取所述待检索服装图像的全局区域、主体区域以及款式部件区域；

所述全局区域根据自训练YOLOv3模型检测出的类别信息送入全局支路的CNN-MT模型中，并输出所述待检索服装图像的全局特征；

所述主体区域根据自训练YOLOv3模型检测出的类别信息送入主体支路的CNN-MT模型中，并输出所述待检索服装图像的主体特征；

所述款式部件区域根据自训练YOLOv3模型检测出的类别信息送入款式部件支路的CNN-MT模型中，并输出所述待检索服装图像的款式部件特征；

将所述待检索服装图像的全局特征、主体特征和款式部件特征级联得到多尺度级联CNN特征。

可选的，在使用自训练YOLOv3模型识别并提取所述待检索服装图像的全局区域、主体区域以及款式部件区域之后，还包括：

采用多标签学习方法和Triplet相似性度量学习方法对卷积神经网络进行训练，得到CNN-MT模型。

可选的，所述计算所述多尺度级联CNN特征与每个历史多尺度级联CNN特征之间的第一欧氏距离，具体包括：

采用特征相似性融合算法，计算所述多尺度级联CNN特征与每个历史多尺度级联CNN特征之间的第一欧氏距离。

为实现上述目的，本发明还提供了如下方案：

一种基于深度学习与传统特征的多尺度服装检索***，包括：

多尺度级联CNN特征提取模块，用于获取待检索服装图像，并提取所述待检索服装图像的全局区域、主体区域以及款式部件区域的多尺度级联CNN特征；

第一欧氏距离计算模块，用于计算所述多尺度级联CNN特征与每个历史多尺度级联CNN特征之间的第一欧氏距离；其中，所述第一欧氏距离的个数与所述历史多尺度级联CNN特征的个数相同，所述历史多尺度级联CNN特征是图像数据库中的服装图像经过处理得到的全局区域、主体区域以及款式部件区域的多尺度级联CNN特征；

款式属性预测结果预测模块，用于采用CNN-M模型预测所述待检索服装图像的款式属性预测结果；

初步检索结果确定模块，用于根据所述款式属性预测结果与历史款式属性预测结果优化所述第一欧氏距离并升序排列，选择前n个优化排序后的第一欧氏距离对应的所述图像数据库中的服装图像作为初步检索结果；所述历史款式属性预测结果是采用CNN-M模型预测图像数据库中的服装图像得到的款式属性预测结果；

第二欧氏距离计算模块，用于提取所述待检索服装图像的传统特征，并根据所述传统特征和历史传统特征计算第二欧氏距离；所述历史传统特征是所述初步检索结果中的服装图像经过处理得到的传统特征；所述传统特征包括HOG、Daisy和颜色直方图；

最终检索结果确定模块，用于根据所述初步检索结果中的第一欧氏距离和所述第二欧氏距离，采用特征相似性融合算法，计算第三距离并升序排列，选择前m个排序后的第三距离对应的所述初步检索结果中的服装图像作为最终检索结果。

可选的，所述多尺度级联CNN特征提取模块，具体包括：

获取单元，用于获取待检索服装图像；

多尺度级联CNN特征提取单元，用于采用多尺度CNN特征提取模型，提取所述待检索服装图像的全局区域、主体区域以及款式部件区域的多尺度级联CNN特征。

可选的，所述多尺度级联CNN特征提取单元，具体包括：

区域提取子单元，用于使用自训练YOLOv3模型识别并提取所述待检索服装图像的全局区域、主体区域以及款式部件区域；

全局特征确定子单元，用于所述全局区域根据自训练YOLOv3模型检测出的类别信息送入全局支路的CNN-MT模型中，并输出所述待检索服装图像的全局特征；

主体特征确定子单元，用于所述主体区域根据自训练YOLOv3模型检测出的类别信息送入主体支路的CNN-MT模型中，并输出所述待检索服装图像的主体特征；

款式部件特征确定子单元，用于所述款式部件区域根据自训练YOLOv3模型检测出的类别信息送入款式部件支路的CNN-MT模型中，并输出所述待检索服装图像的款式部件特征；

级联子单元，用于将所述待检索服装图像的全局特征、主体特征和款式部件特征级联得到多尺度级联CNN特征。

可选的，还包括：

训练子单元，用于采用多标签学习方法和Triplet相似性度量学习方法对卷积神经网络进行训练，得到CNN-MT模型。

可选的，所述第一欧氏距离计算模块，具体包括：

第一欧氏距离计算单元，用于采用特征相似性融合算法，计算所述多尺度级联CNN特征与每个历史多尺度级联CNN特征之间的第一欧氏距离。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供一种基于深度学习与传统特征的多尺度服装检索方法及***包括提取待检索服装图像和图像数据库的全局区域、主体区域和款式部件区域的多尺度级联CNN特征；然后计算待检索服装图像和图像数据库的多尺度级联CNN特征的第一欧氏距离；再使用CNN-M模型得到的款式属性预测结果优化第一欧氏距离，得到初步检索结果；接着计算待检索服装图像和初步检索结果的HOG，Daisy，颜色直方图这三种传统特征，最后通过特征相似性融合公式融合多尺度级联CNN特征和传统特征优化初步检索结果的排序，得到最终检索结果。本发明能够实现对服装从全局到款式部件区域初步检索结果的充分提取，并结合传统特征有效提升了检索准确率，优化排序结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于深度学习与传统特征的多尺度服装检索方法的流程图一；

图2为本发明基于深度学习与传统特征的多尺度服装检索方法的流程图二；

图3为本发明基于深度学习与传统特征的多尺度服装检索方法的流程图三；

图4为本发明多尺度CNN特征提取模型MCFM示意图；

图5为本发明基于深度学习与传统特征的多尺度服装检索***的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明针对现有技术的不足，提出了一种基于深度学习与传统特征的多尺度服装检索方法及***，在服装图像检索任务上，全面且细致的提取全局和局部特征，以及融合不同种类的特征进行相互补充和增强。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1至3所示，本发明提供的一种基于深度学习与传统特征的多尺度服装检索方法，包括以下步骤：

步骤101：获取待检索服装图像，并提取所述待检索服装图像的全局区域、主体区域以及款式部件区域的多尺度级联CNN特征。在图2和图3中用query代表待检索服装图像。

步骤102：计算所述多尺度级联CNN特征与每个历史多尺度级联CNN特征之间的第一欧氏距离；其中，所述第一欧氏距离的个数与所述历史多尺度级联CNN特征的个数相同，所述历史多尺度级联CNN特征是采用多尺度CNN特征提取模型(简称MCFM)，对图像数据库中的服装图像进行处理得到的全局区域、主体区域以及款式部件区域的多尺度级联CNN特征；每个图像数据库中的一个服装图像对应一个历史多尺度级联CNN特征。

步骤103：采用CNN-M模型预测所述待检索服装图像的款式属性预测结果；该CNN-M模型是经过历史数据训练后得到的。

步骤104：根据所述款式属性预测结果与历史款式属性预测结果优化所述第一欧氏距离并升序排列，选择前n个优化排序后的第一欧氏距离对应的所述图像数据库中的服装图像作为初步检索结果；所述历史款式属性预测结果是采用CNN-M模型预测图像数据库中的服装图像得到的款式属性预测结果。在本实施例中，取图像数据库中距离待检索服装图像最近的前20张服装图像作为初步检索结果，即Top-20。

步骤105：提取所述待检索服装图像的传统特征，并根据所述传统特征和历史传统特征计算第二欧氏距离；所述历史传统特征是所述初步检索结果中的服装图像经过处理得到的传统特征；所述传统特征包括HOG、Daisy和颜色直方图。

步骤106：根据所述初步检索结果中的第一欧氏距离和所述第二欧氏距离，采用特征相似性融合算法，计算第三距离并升序排列，选择前m个排序后的第三距离对应的所述初步检索结果中的服装图像作为最终检索结果。在本实施例中，取初步检索结果中距离待检索服装图像最近的前10张服装图像作为最终检索结果，即Top-10。

优选地，步骤101具体包括：

步骤1011：获取待检索服装图像并进行预处理。

步骤1012：采用多尺度CNN特征提取模型(Mutil-scale CNN Feature Model，MCFM)提取所述待检索服装图像的全局区域、主体区域以及款式部件区域的多尺度级联CNN特征；该多尺度CNN特征提取模型是经过历史数据训练后得到的。

其中，步骤1012具体为：

步骤S1：使用自训练YOLOv3模型识别并提取所述待检索服装图像的全局区域、主体区域以及款式部件区域。

如图4所示，步骤S1具体如下：

为了实现对服装图像的全局区域、主体区域和款式部件区域的有效提取，同时兼顾识别速度，本发明采用了YOLOv3模型进行训练。YOLOv3模型是目标检测模型YOLO系列的第三代模型，YOLO系列模型自问世以来显著的优点便是检测速度快，在前代的基础上，YOLOv3模型通过增加多级预测，更换损失函数等策略，在继续保持卓越检索速度的情况下，还获得了相当优秀的准确率，此外，显著增强了对于小目标的检测，面对紧凑密集或者高度重叠目标的检测也具有很好的效果，且易于训练。

检索时，YOLOv3模型输出各识别区域框的坐标及类别信息，然后根据区域框坐标进行提取并生成结果图，最后依据类别信息将结果图送入不同的支路网络进行特征提取。

优选地，为了消除服装图像中的背景等干扰因素以及获得全面且细致的特征，本发明提出全局、主体和款式部件三级尺度特征的概念，通过YOLOv3模型同时提取服装图像的全局区域、主体区域和款式部件区域进而构建三级图像尺度，实现检索服装的精准定位，包含步骤如下：

步骤S11：首先通过特征提取网络对输入的图像进行特征信息提取。

步骤S12：将步骤S11得到的特征信息输入到预测网络，提取候选框。

步骤S13：将步骤S12中的候选框输入到Softmax分类器，判断候选框属于全局区域、主体区域还是款式部件区域。

步骤S2：采用多标签学习方法和Triplet相似性度量学习方法对卷积神经网络进行训练，得到CNN-MT模型。具体为：

本发明提出了经过多标签学习和Triplet相似性度量学习的CNN-MT模型，多标签学习有助于提高对服装款式属性特征的提取能力，Triplet相似性度量学习是为了减小同款服装图像的特征间距，增大不同款服装图像的特征间距，进一步提升服装图像特征的辨识能力。其中，三路CNN-MT模型(CNN：Inception-v4，M:多标签学习，T：Triplet相似性度量学习)分别为基于全局、主体和款式部件，依次采用多标签学习和Triplet相似性度量学习后的Inception-v4网络模型，即通过多标签学习获得CNN-M模型，再通过Triplet相似性度量学习获得CNN-MT模型。

MCFM中三路结构相同的CNN均经过两个阶段的训练，第一阶段为服装款式属性分类训练(CNN-M模型)，有助于提高对服装款式属性特征的提取能力；第二阶段为度量学习(CNN-MT模型)，通过减小同类别特征间距，增大不同类别特征间距，进而提高特征辨识能力，最后得到本发明的特征提取网络CNN-MT模型。该三路CNN-MT模型构成了多尺度CNN特征提取模型MCFM。

(1)服装款式属性分类训练：

常见的CNN通常用于单标签分类，而服装图像作为最难检索的图像类别，除了丰富的视觉信息还有大量的服装款式属性特征。服装款式属性的分类问题中每张图像都由多个标签表示，故单标签学习并不适用。对此，本发明采用多标签学习对Inception-v4网络模型进行服装款式属性分类训练得到CNN-M模型。本发明定义了多个服装款式属性以及若干个具体的类别标签：

袖长-长袖、短袖、无袖；

领型-圆领、翻领、立领、V领、一字领、连帽；

衣长-长款、常规款、短款；

版型-宽松、修身、直筒(H型)、收腰(X型)；

材质-棉、麻、雪纺、混纺、牛仔布、蕾丝。

(2)度量学习：

经过第一阶段训练的CNN-M模型对服装款式属性特征有了一个较好的提取能力，但对于同款服装和不同款服装间的判别能力，实现精细检索仍有不足，为此，对CNN-M模型引入第二阶段的Triplet相似性度量学习得到CNN-MT模型。Triplet相似性度量学习是一种三元组学习，三元组由

(参考样本，Anchor)、

(正样本，Positive)、

(负样本，Negative)组成，其中

和

为同款服装，

和

为不同款服装。

在使用三元组进行训练时，将三个样本的特征向量

和

输入到Triplet loss损失函数中，不满足公式(1)，模型的参数不做变化，满足则按照损失函数公式(2)进行计算。

其中，i表示第i个三元组；threhold为阈值，Net(·)表示由CNN-M模型提取的特征向量。最后根据得到的模型损失L，调整模型的参数。

步骤S3：所述全局区域根据自训练YOLOv3模型检测出的类别信息送入全局支路的CNN-MT模型中，并输出所述待检索服装图像的全局特征。

步骤S4：所述主体区域根据自训练YOLOv3模型检测出的类别信息送入主体支路的CNN-MT模型中，并输出所述待检索服装图像的主体特征。

步骤S5：所述款式部件区域根据自训练YOLOv3模型检测出的类别信息送入款式部件支路的CNN-MT模型中，并输出所述待检索服装图像的款式部件特征。

步骤S6：将所述待检索服装图像的全局特征、主体特征和款式部件特征级联得到多尺度级联CNN特征，即待检索服装图像全面的深层语义特征。

MCFM中三路结构相同的CNN-MT模型在度量学习阶段，分别使用全局区域、主体区域和款式部件区域的图像进行训练，得到本发明的全局特征提取网络CNN-MT(global)模型，主体特征提取网络CNN-MT(main)模型，以及款式部件特征提取网络CNN-MT(parts)模型。

全局特征使用CNN-MT(global)模型对识别为Whole body的结果图进行提取，得到128维特征向量。全局支路的加入可以保证检索模型的稳定性，如果主体支路和款式部件支路的特征提取能力较差，检索模型的鲁棒性就会下降，同时检索准确率也无法保证。

主体特征使用CNN-MT(main)模型对识别为upper、bottom的结果图进行提取，得到128维特征向量。通过提取服装图像的主体，可以极大程度的减弱背景和人体等干扰因素的影响，对需要提取特征的服装主体区域进行精准定位，对于全局特征有一个很好的补充和增强效果。

款式部件特征使用CNN-MT(parts)模型对识别为collar、sleeve、skirt、trouserlegs的结果图进行提取，得到128维特征向量。全局特征和主体特征，均是区域较大，且完整的特征，对组成服装独有风格的局部款式属性特征并不注重，从而导致特征的提取依旧不全面。服装的某些款式属性可以由局部区域来更好的进行描述。如衣领形状这一款式属性仅取决于服装图像的衣领区域，这些能够描述服装款式属性的局部区域称为款式部件。

步骤102具体包括：采用特征相似性融合算法，计算所述多尺度级联CNN特征与每个历史多尺度级联CNN特征之间的第一欧氏距离。

使用MCFM提取的全局特征、主体特征和款式部件特征，由于各自侧重的图像尺度不同，在检索时所起到的作用大小也会不同，直接级联在一起虽然有提升效果，但也会出现相互削弱的情况，无法全面发挥三级尺度特征的作用。此外，CNN和传统方法提取到的特征不同，单独使用一种方法进行服装图像检索并不能满足现代图像检索的需求，例如单独使用CNN提取到的深层语义特征往往是抽象特征，缺乏底层特征的补充。对此，可以引入传统特征作为底层特征对MCFM提取的深层语义特征进行补充和增强。针对以上问题，本发明提出了基于特征相似性的特征相似性融合公式(简称FSF)，可以有效融合不同尺度的CNN特征，以及CNN特征与不同类别的传统特征。以融合CNN特征与传统特征，返回Top-10张服装图像为例，算法流程如下：

第一，基于MCFM和款式属性从图像数据库中选出第一欧氏距离与待检索服装图像query最近的前20张作为初步检索结果Top-20。然后提取待检索服装图像query和Top-20服装图像的HOG、颜色直方图以及Daisy特征，并分别计算待检索服装图像query和Top-20服装图像每种传统特征的欧氏距离，为了使各种特征具有可比性，根据公式(3)对待检索服装图像query和Top-20服装图像的各种特征距离进行归一化：

式中，j表示第j种特征，依次为CNN特征、HOG、颜色直方图和Daisy特征。i表示Top-20服装图像中的第i张图像，d_ji为Top-20服装图像中的第i张图像与待检索服装图像query第j种特征的欧氏距离，d_jmax和d_jmin分别为Top-20服装图像中与待检索服装图像query第j种特征的欧氏距离的最大值和最小值。d′_ji为Top-20服装图像中第i张图像与待检索服装图像query第j种特征的归一化距离。

第二，基于各种特征归一化的距离，利用公式(4)分别计算待检索服装图像query和Top-20服装图像中每张图像不同特征的相似度。式中，s_ji表示Top-20服装图像中第i张图像与待检索服装图像query第j种特征的相似度。

第三，根据公式(5)计算Top-20服装图像中第i张图像与待检索服装图像query的最终相似度。

式中，λ_j为第j种特征相似度的权重，权重的取值以准确率为衡量标准，通过程序循环调整权重大小，准确率达到最大时，当前权重即为最优值。

第四，根据公式(6)计算Top-20服装图像中第i张图像与待检索服装图像query的最终距离D_i，即第三距离，并以此重排序得到Top-10。

为实现上述目的，本发明还提供了一种基于深度学习与传统特征的多尺度服装检索***，如图5所示，包括：

多尺度级联CNN特征提取模块201，用于获取待检索服装图像，并提取所述待检索服装图像的全局区域、主体区域以及款式部件区域的多尺度级联CNN特征。

第一欧氏距离计算模块202，用于计算所述多尺度级联CNN特征与每个历史多尺度级联CNN特征之间的第一欧氏距离；其中，所述第一欧氏距离的个数与所述历史多尺度级联CNN特征的个数相同，所述历史多尺度级联CNN特征是图像数据库中的服装图像经过处理得到的全局区域、主体区域以及款式部件区域的多尺度级联CNN特征。

款式属性预测结果预测模块203，用于采用CNN-M模型预测所述待检索服装图像的款式属性预测结果。

初步检索结果确定模块204，用于根据所述款式属性预测结果与历史款式属性预测结果优化所述第一欧氏距离并升序排列，选择前n个优化排序后的第一欧氏距离对应的所述图像数据库中的服装图像作为初步检索结果；所述历史款式属性预测结果是采用CNN-M模型预测图像数据库中的服装图像得到的款式属性预测结果。

第二欧氏距离计算模块205，用于提取所述待检索服装图像的传统特征，并根据所述传统特征和历史传统特征计算第二欧氏距离；所述历史传统特征是所述初步检索结果中的服装图像经过处理得到的传统特征；所述传统特征包括HOG、Daisy和颜色直方图。

最终检索结果确定模块206，用于根据所述初步检索结果中的第一欧氏距离和所述第二欧氏距离，采用特征相似性融合算法，计算第三距离并升序排列，选择前m个排序后的第三距离对应的所述初步检索结果中的服装图像作为最终检索结果。

所述多尺度级联CNN特征提取模块201，具体包括：

获取单元，用于获取待检索服装图像。

所述多尺度级联CNN特征提取单元，具体包括：

区域提取子单元，用于使用自训练YOLOv3模型识别并提取所述待检索服装图像的全局区域、主体区域以及款式部件区域。

全局特征确定子单元，用于所述全局区域根据自训练YOLOv3模型检测出的类别信息送入全局支路的CNN-MT模型中，并输出所述待检索服装图像的全局特征。

主体特征确定子单元，用于所述主体区域根据自训练YOLOv3模型检测出的类别信息送入主体支路的CNN-MT模型中，并输出所述待检索服装图像的主体特征。

款式部件特征确定子单元，用于所述款式部件区域根据自训练YOLOv3模型检测出的类别信息送入款式部件支路的CNN-MT模型中，并输出所述待检索服装图像的款式部件特征。

所述第一欧氏距离计算模块202，具体包括：

本发明为了有效融合不同尺度的CNN特征，以及CNN特征与不同类别的传统特征，设计了基于特征相似性的FSF公式。为了消除背景等干扰因素的影响，弥补单一神经网络提取全局特征，对于局部特征提取能力不足的问题，提出全局、主体和款式部件三级特征的概念，使用自训练YOLOv3模型同时提取服装图像的全局区域、主体区域和款式部件区域加以实现，之后使用三条包含CNN-MT模型的支路分别提取服装图像全局、主体和款式部件的CNN特征，并使用FSF公式进行特征融合，将服装图像检索真正聚焦于服装，加入款式属性优化特征距离，同时限制多尺度级联CNN特征的语义漂移。其中CNN模型先经过款式属性分类训练，获得较好的款式属性特征提取能力，之后基于三级尺度图像进行Triplet相似性度量学习，进一步提升检索模型的特征辨识能力。最后为了对深层语义特征进行补充和增强，通过FSF公式结合多种传统特征作为底层特征对初步检索结果进行重排序，进一步优化检索结果。在返回Top-20的实验中，相比于FashionNet模型准确率提升了15％。此外，得益于YOLOv3模型的精准识别，本发明可以实现上、下衣的精准化检索。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度学习与传统特征的多尺度服装检索方法，其特征在于，包括：

根据所述初步检索结果中的第一欧氏距离和所述第二欧氏距离，采用特征相似性融合算法，计算第三距离并升序排列，选择前m个排序后的第三距离对应的所述初步检索结果中的服装图像作为最终检索结果；

所述提取所述待检索服装图像的全局区域、主体区域以及款式部件区域的多尺度级联CNN特征，具体包括：

采用多标签学习方法和Triplet相似性度量学习方法对卷积神经网络进行训练，得到CNN-MT模型；

2.根据权利要求1所述的一种基于深度学习与传统特征的多尺度服装检索方法，其特征在于，所述计算所述多尺度级联CNN特征与每个历史多尺度级联CNN特征之间的第一欧氏距离，具体包括：

3.一种基于深度学习与传统特征的多尺度服装检索***，其特征在于，包括：

最终检索结果确定模块，用于根据所述初步检索结果中的第一欧氏距离和所述第二欧氏距离，采用特征相似性融合算法，计算第三距离并升序排列，选择前m个排序后的第三距离对应的所述初步检索结果中的服装图像作为最终检索结果；

所述多尺度级联CNN特征提取模块，具体包括：

获取单元，用于获取待检索服装图像；

多尺度级联CNN特征提取单元，用于采用多尺度CNN特征提取模型，提取所述待检索服装图像的全局区域、主体区域以及款式部件区域的多尺度级联CNN特征；

所述多尺度级联CNN特征提取单元，具体包括：

级联子单元，用于将所述待检索服装图像的全局特征、主体特征和款式部件特征级联得到多尺度级联CNN特征；

4.根据权利要求3所述的一种基于深度学习与传统特征的多尺度服装检索***，其特征在于，所述第一欧氏距离计算模块，具体包括：