CN107918780A

CN107918780A - 一种基于关键点检测的衣服种类和属性分类方法

Info

Publication number: CN107918780A
Application number: CN201710780963.1A
Authority: CN
Inventors: 陈纪凯; 潘炎; 赖韩江; 印鉴; 高静
Original assignee: Guangdong Heng Electrical Information Polytron Technologies Inc; Sun Yat Sen University
Current assignee: Guangdong Heng Electrical Information Polytron Technologies Inc; Sun Yat Sen University
Priority date: 2017-09-01
Filing date: 2017-09-01
Publication date: 2018-04-17
Anticipated expiration: 2037-09-01
Also published as: CN107918780B

Abstract

本发明提供一种基于关键点检测的衣服种类和属性分类方法，该方法先采集训练样本的数据；然后构建可配置的检测衣服关键点的深度模型，并将训练样本的数据输入深度模型，以对深度模型进行训练；接着利用训练后的检测关键点的深度模型对衣服图像进行分析，预测衣服图像中每个关键点的位置；最后根据S3中预测关键点的结果，以此提取相关局部信息，再融合全局的图片信息，再通过深度模型对衣服种类和属性进行训练、预测。该方法实现了能够更好融合衣服局部和全局特征。

Description

一种基于关键点检测的衣服种类和属性分类方法

技术领域

本发明涉及计算机视觉和模式识别领域，更具体地，涉及一种基于关键点检测的衣服种类和属性分类方法。

背景技术

图像识别是计算机视觉研究中的一个重要领域，其主要任务是让计算机识别输入的图像类别。近年来，深度学***台使得研究人员不断提高在图像识别领域的技术水平。AlexNet、VGG、GoogleNet和ResidualNet等技术依次提高了图像识别的准确度。

虽然普适性的图像识别技术已经相当成熟，但是针对衣服等精细化领域的识别依然具有相当大的研究意义。

随着科技的发展，电子商务市场越来越大，其中衣服占了相当大的比重。因此研究针对衣服细化领域的种类及属性分类，对用户精准推荐商品则具有相当大的意义。

传统的衣服种类和属性的识别方法往往采用两阶段的方法：

1)提取人工设计的图像特征(如HOG，color histogram)

2)根据这些特征设计专门的分类器。

然而，这一类的传统方法受限于特征的表达能力，实际分类效果上并不好

随着近年来深度学习的发展，它在图像分类、物体检测和图像分割等领域取得了显著成效。Qiang Chen等人在2015年提出基于衣服属性描述该人特质的方法。JunshiHuang等人2015年提出以衣服属性为基本思想的衣服检索方法。这些方法都是基于深度学习强大的特征表达能力及其端对端的分类预测能力。

为了能够应对衣服当中人体模特大幅度姿势变化和遮挡，研究人员提出了像人体对齐、衣服分割和关键点检测等方法。这些方法有助于提取更加鲁棒的衣服特征表达，进一步提高分类的准确率。

Liu等人在2016年提出了Deepfashion数据集，该数据定义了衣服的6个关键点，并相应提出了一个简易的模型预测衣服属性和分类。

发明内容

本发明提供一种能够更好融合衣服局部和全局特征的基于关键点检测的衣服种类和属性分类方法。

为了达到上述技术效果，本发明的技术方案如下：

一种基于关键点检测的衣服种类和属性分类方法，包括以下步骤：

S1：采集训练样本的数据；

S2：构建可配置的检测衣服关键点的深度模型，并将训练样本的数据输入深度模型，以对深度模型进行训练；

S3：利用训练后的检测关键点的深度模型对衣服图像进行分析，预测衣服图像中每个关键点的位置；

S4：根据S3中预测关键点的结果，以此提取相关局部信息，再融合全局的图片信息，再通过深度模型对衣服种类和属性进行训练、预测。

进一步地，所述步骤S2中深度模型包括两个卷积神经网络；

第一个深度卷积神经网络对衣服关键点位置进行学习，运用卷积神经网络的卷积层提取图像的数据的基础表达，再利用反卷积层得到与原图同样尺寸的特征图来预测各个关键点的位置；

第二个深度卷积神经网络用于融合衣服图像的局部特征和全局特征，其中，局部特征根据第一个深度卷积神经网络预测得到的关键点位置提取；

衣服图像经过第一个卷积神经网络，预测出衣服关键点的位置；再根据这些关键点，确定出与识别目标有关的局部区域，再经过第二个卷积神经网络融合局部和全局特征对衣服种类和属性进行预测，输出最终的结果。

进一步地，所述的第一个深度卷积神经网络由三种主要的层实现，分别是卷积层、降采样层和反卷积层；该卷积层的输入特征和输出特征的长宽一致，可保持尺度不变；最后一层输出的特征为256×256×L，其中L是关键点的个数，让输出的feature map的第k个通道预测第k个关键点的位置，对于该能通道上的每个点的响应值F(x,y,k)，令它为预测点(x,y)是第k个关键点的概率值：

采用交叉熵来训练该卷积神经网络，定义损失函数如下：

其中batch_size是输入神经网络图像的数目，H为输入图像和输出特征的高，将手工标注的点坐标记为(x_g,y_g)，而对于一个二维平面，在标注点邻近的点也可作为目标点，即(x_g-1,y_g)，(x_g,y_g-1)，(x_g+1,y_g)，(x_g,y_g+1)，(x_g-1,y_g-1)，(x_g+1,y_g+1)等坐标也可以作为标注坐标；

因此定义标注点(x_g,y_g)处的值为最大概率值1，其邻近的坐标按照一定比例线性下降，即如下公式所示，其中α为衰减因子；

Q(x,y,k)＝max(0,1-αmax(|x-x_g|,|y-y_g|))

再将Q(x,y,k)标准化之后，得到真实坐标的期望概率分布G(x,y,k)

这样通过神经网络的反向传播算法更新及参数值，从而学习到一个健壮的模型。

进一步地，所述第二个深度卷积神经网络的设计如下：

在得到关键点坐标后，可以据此确定出相关细节区域，比如左右手臂，领子区域，将这些细节区域和全局图像同时输入卷积神经网络，在最后一个卷积层输出的特征再输入element-wise average pooling层，该层的数学定义如下：

其中o_i,j,k表示该层在位置i,j,k的响应值，分别代表第1,2,3,...,N个区域在同一位置上的响应值。

进一步地，所述步骤S3中还包括对关键点的检测，其过程如下：

采用平均相对误差来衡量错误

其中表示标注的第i张图的第j个点的坐标，其中表示预测第i张图的第j个点的坐标，k是关键点坐标的数量，n是测试图片的数量，D_i是一个标准化项，表示左肩膀和右肩膀的距离。

与现有技术相比，本发明技术方案的有益效果是：

本发明方法先采集训练样本的数据；然后构建可配置的检测衣服关键点的深度模型，并将训练样本的数据输入深度模型，以对深度模型进行训练；接着利用训练后的检测关键点的深度模型对衣服图像进行分析，预测衣服图像中每个关键点的位置；最后根据S3中预测关键点的结果，以此提取相关局部信息，再融合全局的图片信息，再通过深度模型对衣服种类和属性进行训练、预测。该方法实现了能够更好融合衣服局部和全局特征。

附图说明

图1为本发明方法流程图；

图2为用来检测关键点的第一个深度卷积神经网络示意图；

图3为图2所示深度卷积神经网络设计的结构参数图；

图4为第二个深度卷积神经网络示意图；

图5为Liu等人在2016年提出Deepfashion数据集论文中采用的对点坐标直接做回归的模型示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于关键点检测的衣服种类和属性分类方法，包括以下步骤：

S1：采集训练样本的数据；

定义衣服的关键点为10个点(如表1)，我们认为该定义方法能很好的确定衣服的关键位置，为接下来进一步的识别打下良好的基础。

表1衣服的关键点

1	上领口
		2	下领口
3	左肩膀
		4	右肩膀
5	左手肘
		6	右手肘
7	左袖口(手腕)
		8	右袖口(手腕)
9	左底部(腰)
		10	右底部(腰)

步骤S2中深度模型包括两个卷积神经网络；

如图2-3所示，的第一个深度卷积神经网络由三种主要的层实现，分别是卷积层、降采样层和反卷积层；该卷积层的输入特征和输出特征的长宽一致，可保持尺度不变；最后一层输出的特征为256×256×L，其中L是关键点的个数，让输出的feature map的第k个通道预测第k个关键点的位置，对于该能通道上的每个点的响应值F(x,y,k)，令它为预测点(x,y)是第k个关键点的概率值：

采用交叉熵来训练该卷积神经网络，定义损失函数如下：

Q(x,y,k)＝max(0,1-αmax(|x-x_g|,|y-y_g|))

再将Q(x,y,k)标准化之后，得到真实坐标的期望概率分布G(x,y,k)

如图4所示，第二个深度卷积神经网络的设计如下：

采用平均相对误差来衡量错误

在收集了145000张标注有关键点坐标的衣服图片，把其中15000图片当作测试集，把另外130000张当作训练集，用来做比较的模型是Liu等人在2016年提出Deepfashion数据集论文中采用的对点坐标直接做回归的模型，它基于VGG-16，该模型示意图如图5所示，另外对比结果如表2所示。

	平均相对误差
		对比模型	0.115
本发明提出模型	0.075

从结果对比可以看出，我们的模型大大优于对比模型，从而证明了本发明的有效性。

1)衣服种类和属性分类

作为对比，对比模型采用的都是基于VGG-16的模型，该模型是深度学习领域中非常常用的模型，测试指标采用准备的top-1准确率，即分类准确的图片占所有测试图片的比例。

自采集数据上的准确率：

Deepfashion数据集上的准确率：

	Top-1	Top-3	Top-5
				对比模型	N/A	82.58	90.17
本发明提出模型	70.59	88.60	94.05

从两个数据集上的实验结果来看，我们的方法都是由于对比模型的，这反映了方法的确能够更好地提取出衣服细节的特征，并且再此基础上融合全局区域后对衣服属性和分类预测有很好的帮助。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于关键点检测的衣服种类和属性分类方法，其特征在于，包括以下步骤：

S1：采集训练样本的数据；

2.根据权利要求1所述的基于关键点检测的衣服种类和属性分类方法，其特征在于，所述步骤S2中深度模型包括两个卷积神经网络；

3.根据权利要求2所述的基于关键点检测的衣服种类和属性分类方法，其特征在于，所述的第一个深度卷积神经网络由三种主要的层实现，分别是卷积层、降采样层和反卷积层；该卷积层的输入特征和输出特征的长宽一致，可保持尺度不变；最后一层输出的特征为256×256×L，其中L是关键点的个数，让输出的feature map的第k个通道预测第k个关键点的位置，对于该能通道上的每个点的响应值F(x,y,k)，令它为预测点(x,y)是第k个关键点的概率值：

采用交叉熵来训练该卷积神经网络，定义损失函数如下：

<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mrow> <msub> <mi>batch</mi> <mrow> <mi>s</mi> <mi>i</mi> <mi>z</mi> <mi>e</mi> </mrow> </msub> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>s</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <msub> <mi>batch</mi> <mrow> <mi>s</mi> <mi>i</mi> <mi>z</mi> <mi>e</mi> </mrow> </msub> </mrow> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>x</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>W</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>y</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>H</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </munderover> <mi>G</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>*</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mi> </mi> <mi>F</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow>

Q(x,y,k)＝max(0,1-αmax(|x-x_g|,|y-y_g|))

再将Q(x,y,k)标准化之后，得到真实坐标的期望概率分布G(x,y,k)

<mrow> <mi>G</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>Q</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>x</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>W</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>y</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>H</mi> </munderover> <mi>Q</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>

4.根据权利要求3所述的基于关键点检测的衣服种类和属性分类方法，其特征在于，所述第二个深度卷积神经网络的设计如下：

5.根据权利要求4所述的基于关键点检测的衣服种类和属性分类方法，其特征在于，所述步骤S3中还包括对关键点的检测，其过程如下：

采用平均相对误差来衡量错误

<mrow> <mi>e</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mfrac> <mrow> <mo>|</mo> <mo>|</mo> <msubsup> <mi>L</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <mover> <msubsup> <mi>L</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msubsup> <mo>^</mo> </mover> <mo>|</mo> <mo>|</mo> </mrow> <mrow> <mi>k</mi> <mo>&times;</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> </mrow> </mfrac> </mrow>