CN109145947A

CN109145947A - 一种基于部件检测和视觉特征的时尚女装图像细粒度分类方法

Info

Publication number: CN109145947A
Application number: CN201810784023.4A
Authority: CN
Inventors: 刘骊; 吴苗苗; 付晓东; 黄青松; 刘利军
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2019-01-04
Anticipated expiration: 2038-07-17
Also published as: CN109145947B

Abstract

本发明涉及一种基于部件检测和视觉特征的时尚女装图像细粒度分类方法，属于计算机视觉及图像应用领域。本发明首先对输入的时尚女装待分类图像和训练集中图像进行身体部位的部件检测；其次，分别提取检测后的时尚女装图像，并训练时尚女装图像的HOG、LBP、颜色直方图和边缘算子4种底层特征，得到特征提取后的图像；然后，将定义的视觉特征描述符与提取到的4种底层特征进行匹配，采用多类SVM监督学习训练细粒度分类器模型；最后，通过训练后的细粒度分类器，对特征提取的时尚女装图像实现细粒度分类，输出时尚女装图像的分类结果。本发明采用的检测和分类方法具有较高的准确率。

Description

一种基于部件检测和视觉特征的时尚女装图像细粒度分类方法

技术领域

本发明涉及一种基于部件检测和视觉特征的时尚女装图像细粒度分类方法，属于计算机视觉及图像应用领域。

背景技术

网络购物受到了人们的极大欢迎，呈现出普及化、全球化、移动化的发展趋势，使得时尚服装分类成为越来越热门的话题，时尚服装分类在电子商务等领域得到广泛应用。因此，时尚服装分类也出现了很多改进的方法，其中包括最为经典的词包模型，基于深度学习的时尚服装分类方法以及基于随机森林、SVM(Support Vector Machine，支持向量机，简称SVM)、CNN(Convolutional Neural Network，卷积神经网络，简称CNN)等方法。公知方法大多都是针对时尚服装图像的粗粒度分类，缺少相似款式类别之间的分析，无法实现更精细的划分和多层次分类。由于时尚女装款式多样，不同于粗粒度的分类任务,时尚女装细粒度图像的类别精度更细致,款式类别间差异更细微,往往只能借助于微小的局部差异才能区分出不同的款式。此外，细粒度图像的信噪比很小,含有足够区分度的信息存在于很细小的局部区域中。因此，如何找到并有效利用有用的局部区域信息，更精细、准确、高效地实现时尚女装图像细粒度分类，具有重要的理论意义和实用价值。已有的公知方法中，如Berg(<POOF:Part-Based One-vs.-One Features for Fine-Grained Categorization,FaceVerification,and Attribute Estimation>，2013:955-962.)提出的基于部位的一对一特征的POOFs方法可以自动地从一组特定领域并带有特定位置和类别标注的图像集中学习大量不同的具有高区分性的中级特征。每一个特征都能够根据对象特定位置的表观特征来区分两个不同的类。Bossard(<Apparel classification with style>,2012,321-335.)针对在自然场景中如何识别和分类时尚服装提出了一个完整的方法，其关键是采用多个基于随机森林学习，并用有强大识别能力的学习者作为决策节点，同时也将随机森林扩展成拥有能够对不同领域转换的迁移森林。Cui(<Fine-Grained Categorization and DatasetBootstrapping Using Deep Metric Learning with Humans in the Loop>,2015:1153-1162)提出基于深度度量学习的通用迭代框架用于细粒度分类的，以学习嵌入到每个类别上锚点的低维特征。Zhang(<Weakly Supervised Fine-Grained Categorization WithPart-Based Image Representation>,2016,25(4):1713-1725.)提出了一个易于部署的细粒度图像分类***，其在训练或在测试阶段不使用任何对象或部分注释，而只使用训练图像的类标签。

综上所述，虽然时尚服装图像的分类方法的实现途径有很多，但由于服装款式多样、纹理和配饰多变、且服装柔性易变形，使得服装本身的样式发生变化，这些因素给分类识别带来了很大困难。公知方法中仍然存在一定的缺陷与局限性，而且由于拍摄场景及人体姿态众多，使得如何检测人体不同区域显得尤为重要。在特征提取及分类方面，公知方法大多基于颜色、纹理等底层特征来实现特征提取，不能很好利用局部信息，对于时尚服装之间细微的款式类间和类内差异的特征提取存在一定的局限性，只能实现时尚服装的粗粒度分类。

发明内容

本发明涉及一种基于部件检测和视觉特征的时尚女装图像细粒度分类方法，以适应不同姿势和视角变换的身体部位检测，满足电子商务用途中时尚女装图像的细粒度分类。

本发明的技术方案是：一种基于部件检测和视觉特征的时尚女装图像细粒度分类方法，包括如下步骤：Step1对输入的训练时尚女装图像T和待分类的时尚女装图像I，采用改进的DPM模型对不同姿态和视角下的人体部位进行部件检测；首先，对训练时尚女装图像T和待分类的时尚女装图像I提取HOG((Histogram of Oriented Gradient，方向梯度直方图，简称HOG)并进行归一化后得到DPM(Deformable Part Model，可变形的组件模型，简称DPM)特征；其次，根据人体姿态、视角调整DPM人体检测模型，将人体检测模型分为根模型和部件模型；然后，根据DPM特征分别计算根模型和部件模型的响应得分，进行响应变换计算目标假设得分，得到最优位置从而计算目标每个根位置的综合响应得分，最终得到检测结果。

改进的DPM模型由一个根模型和若干部件模型组成，n个部件的物体模型表示为一个(n+2)元组(F₀,P₁,...P_i,...P_n,b)，其中F₀是根滤波器，P_i是第i个部件的模型，b是一个偏离损失系数，在l₀尺度层,以(x₀,y₀)为锚点的响应得分为：

其中，为根模型的响应得分，v_i是一个二维向量，用于指定第i个滤波器的锚点位置(即未发生形变时的标准位置)相对于根位置的坐标，为n个部件模型的响应得分，λ是在特征金字塔中以两倍分辨率计算的特征映射的级别数；

计算响应得分后，转换部件滤波器的响应并考虑空间不确定性，响应变换计算公式如下：

其中，(x,y)为第i个部件模型在尺度层的理想位置，l是特征金字塔H的级别数，(dx,dy)为相对(x,y)的偏移量，R_i,l(x+dx,y+dy)为部件模型在(x+dx,y+dy)处的匹配得分，d_i.φ_d(dx,dy)为偏移(dx,dy)所损失的得分，φ_d(dx,dy)＝(dx,dy,dx²,dy²)为DPM特征，d_i为偏移损失系数，，是模型训练时需要学习的参数模型初始化时，d_i＝(0,0,1,1)即偏移损失为偏移量相对理想位置的欧氏距离；

每个目标假设都指定了模型中每个滤波器在特征金字塔H中的位置：z＝(p₀,...,p_n)，p_i＝(x_i,y_i,l_i)是第i个滤波器所在的层和位置坐标，目标假设的得分计算如下：

其中F_i'.φ(H,p_i)是第i个滤波器的得分，φ(H,p_i)是特征金字塔H的特征向量，F_i'是连接第i个滤波器中的权重向量而获得的向量，(dx_i,dy_i)＝(x_i,y_i)-(2(x₀,y₀)+v_i)给出了第i个滤波器所在位置相对于其锚点位置的位移，通过目标假设得分得到最优位置，根据最优位置计算每个根位置的综合响应得分：

通过每个根位置的综合响应得分检测目标的多个实例，得到检测结果。

Step2分别提取检测后的训练时尚女装图像T'和待分类的时尚女装图像I'的HOG、LBP(Local Binary Pattern，局部二值模式)、颜色直方图和边缘算子4种底层特征，得到特征提取后的训练时尚女装图像T”和待分类的时尚女装图像I”。

Step3将定义的视觉特征描述符与提取到的4种底层特征进行匹配，采用多类SVM监督学习训练细粒度分类器模型；首先将时尚女装分为上身女装和下身女装，其中，上身服装分为14种款式，下身服装分为6种款式，全身服装款式分为3种款式，按照不同属性(如衣领、袖子、袖型、颜色、样式图案等)进行属性标注；其次，通过定义视觉特征描述符对时尚女装图像的款式以及属性进行描述，然后将视觉特征描述符与step2提取到的4种底层特征进行特征匹配，其中视觉特征描述符分为上身视觉特征描述符、下身视觉特征描述符和全局特征描述符；最后通过随机森林和多类SVM方法监督学习对特征提取后的训练时尚女装图像T”进行训练，得到款式和属性的细粒度分类器。

Step4通过训练后的细粒度分类器，对特征提取过的时尚女装图像I”实现细粒度分类，输出时尚女装图像的分类结果。

本发明的有益效果是：

1、公知的时尚服装图像的检测方法主要是针对理想场景下的时尚服装图像进行检测，但由于拍摄场景及拍照姿势以及光照、遮挡等多因素干扰，因此具有一定的局限性。本发明采用改进的DPM模型的基于人体身体部位的部件检测，能够较好适应不同场景、不同姿态和视角变换的人体部位检测。

2、公知的特征提取方法大多基于颜色特征和全局特征，特征属性比较单一，无法获得细粒度重要的局部特征和属性。本发明通过定义的视觉属性描述符，该描述符分为上身视觉特征描述符、下身视觉特征描述符和全局特征描述符。将视觉特征描述符与提取到的训练时尚女装图像的4种底层特征进行特征匹配，提高了视觉特征提取和表示的准确率。

3、公知的时尚服装分类方法大多基于SVM分类器，然而传统的SVM分类器在细粒度图像分类中存在一定的局限性，本发明中对已定义过的不同时尚服装属性分别进行监督学习，建立时尚女装图像的细粒度分类器模型，并通过采用随机森林和SVM结合对特征提取的时尚女装图像实现细粒度分类，输出时尚女装图像的分类结果，具有较高的分类准确率。

附图说明

图1为本发明的流程图；

图2为本发明中流程图实例图；

图3为本发明中时尚女装底层特征提取示例图；

图4为本发明中时尚女装属性图；

图5为本发明中时尚女装分类效果图；

具体实施方式

下面结合附图和具体实施方式对本发明作进一步说明。

实施例1：如图1-2所示，一种基于部件检测和视觉特征的时尚女装图像细粒度分类方法，首先对输入的待分类时尚女装图像和时尚女装训练集中的时尚女装图像进行身体部位的部件检测；其次，分别提取部件检测后的时尚女装图像以及训练时尚女装图像的HOG、LBP、颜色直方图和边缘算子4种底层特征，得到特征提取后的图像；然后，将定义的视觉特征描述符与提取到的4种底层特征进行匹配，采用随机森林和多类SVM监督学习训练细粒度分类器模型；最后，通过训练后的细粒度分类器，对特征提取的时尚女装图像实现细粒度分类，输出时尚女装图像的分类结果。

具体步骤如下：

Step1对输入的训练时尚女装图像T和待分类的时尚女装图像I，采用改进的DPM模型对不同姿态和视角下的人体部位进行部件检测；首先，对训练时尚女装图像T和待分类的时尚女装图像I提取HOG并进行归一化后得到DPM特征；其次，根据人体姿态、视角调整DPM人体检测模型，将人体检测模型分为根模型和部件模型；然后，根据DPM特征分别计算根模型和部件模型的响应得分，进行响应变换计算目标假设得分，得到最优位置从而计算目标每个根位置的综合响应得分，最终得到检测结果；

Step2分别提取检测后的训练时尚女装图像T'和待分类的时尚女装图像I'的HOG、LBP、颜色直方图和边缘算子4种底层特征，得到特征提取后的训练时尚女装图像T”和待分类的时尚女装图像I”；

Step3将定义的视觉特征描述符与提取到的4种底层特征进行匹配，采用多类SVM监督学习训练细粒度分类器模型；首先将时尚女装分为上身女装和下身女装，其中，上身服装分为14种款式，下身服装分为6种款式，全身服装款式分为3种款式，按照不同属性进行属性标注；其次，通过定义视觉特征描述符对时尚女装图像的款式以及属性进行描述，然后将视觉特征描述符与step2提取到的4种底层特征进行特征匹配；最后通过随机森林和多类SVM方法监督学习对特征提取后的训练时尚女装图像T”进行训练，得到款式和属性的细粒度分类器；

实施例2：其中改进的DPM模型由一个根模型和若干部件模型组成，n个部件的物体模型表示为一个(n+2)元组(F₀,P₁,...P_i,...P_n,b)，其中F₀是根滤波器，P_i是第i个部件的模型，b是一个偏离损失系数，在l₀尺度层,以(x₀,y₀)为锚点的响应得分为：

其中，(x,y)为第i个部件模型在尺度层的理想位置，l是特征金字塔H的级别数，(dx,dy)为相对(x,y)的偏移量，R_i,l(x+dx,y+dy)为部件模型在(x+dx,y+dy)处的匹配得分，d_i.φ_d(dx,dy)为偏移(dx,dy)所损失的得分，φ_d(d_x,dy)＝(dx,dy,dx²,dy²)为DPM特征，d_i为偏移损失系数，，是模型训练时需要学习的参数模型初始化时，d_i＝(0,0,1,1)即偏移损失为偏移量相对理想位置的欧氏距离；

如图3所示，本发明中分别提取部件检测后的训练时尚女装图像T'和待分类的时尚女装图像I'的HOG、LBP、颜色直方图和边缘算子4种底层特征，得到特征提取后的训练时尚女装图像T”和待分类的时尚女装图像I”。

利用PCA降维方法对特征进行降维，首先计算各个维度上特征向量的均值，并把各个维度上的特征值减去均值。然后求解协方差矩阵及该矩阵的特征向量和特征值，并保证特征向量是单位向量，再将高维度下的特征向量当做主成分，按照特征值提取出对应的特征向量。最后选择合适的主成分覆盖比例，为了保证信息损失最小，删除相对分散的特征点，增加整体可信度。通常设置保留百分值为94％，可以最大限度保留特征信息。

如表1、表2和图4所示，步骤3的具体内容为首先将时尚女装分为上身女装和下身女装，其中，上身服装分为14种款式，下身服装分为6种款式，全身服装分为3种款式；按照时尚女装不同属性(如衣领、袖子、袖型、颜色、样式图案等)进行属性标注。

表1时尚女装款式表

表2时尚女装属性表

其次，如表3所示，通过定义视觉特征描述符对时尚女装图像的款式以及属性进行描述，该描述符分为上身视觉特征描述符、下身视觉特征描述符和全局特征描述符。

然后将视觉特征描述符与step2提取到的4种底层特征进行特征匹配。

针对不同款式以及属性，本发明定义一系列视觉特征描述符对时尚女装图像的款式以及属性进行描述，分为上身视觉特征描述符、下身视觉特征描述符和全局特征描述符。其中，上身特征描述符分为衣领类型、袖子类型3种，下身特征描述符分为长度类型、褶皱类型、宽度类型3种，全局特征描述符有样式特征1种。特征提取过程中将视觉特征与底层特征匹配起来，提高特征提取的有效性。

表3时尚女装视觉特征描述符表

其中，τ表示躯干，中的m表示检测的衣领边角的数量，A_τ表示躯干τ上的像素数量，中D(I_k,I_g)是不同颜色像素I_k，I_i之间的颜色距离度量，中R_c表示衣领边缘，中表示第j个被检测到的衣领边角的标准位置，中n_A表示检测到的手臂区域的像素数量，f_l中l_l表示下装的长度，和分别表示左、右腿的长度，f_r中n_w表示下装起皱像素的数量，A_l表示下装检测到的全部像素数量，f_t中n_v表示下装垂直线像素的数量，中分别是下装三个部分的宽度，w_ω是腰部区域的宽度。

最后通过随机森林(RF)和多类SVM算法根据已定义过的不同款式和属性分别进行监督学习，建立细粒度分类器模型。随机森林是T决策树的集合，其中每棵树被训练成在每个节点级别最大化信息增益，量化为以下形式：

其中，H(x)是样本集x的熵，t是将x分成子集合x_l和x_r的二进制测试，类别预测由平均叶子分布的类执行，L＝(l₁,......l_T)是所有树上的叶子节点。本发明使用强二进制SVM的区分性学习者作为***决策函数t，如果x∈R^d是一个d维的输入向量，w是训练好的SVM权向量。SVM节点将w^Tx＜0的所有样本分割为左侧，将所有其他样本分别分割到右侧的子节点。在训练时，几个二进制类分区是随机生成的。对于每个分组，线性SVM被训练用于随机选择的特征通道。最后，最大化多级信息增益L(x,w)的***，测量选择真实的标签作为***函数，从而得到训练的时尚女装款式细粒度分类器。

此外，多类SVM监督学习中运用了one-vs-all方法对每一种细粒度属性进行训练.根据定义的47种时尚女装属性构造47个两类分类器,其中第h个分类器把第i类同余下的各类划分开,训练时第h个分类器取训练集中第h类为正类,其余类别点为负类进行训练.对于一个需要分类的数据x,将使用投票的方式来确定x的类别.假设分类器h对数据x进行预测,如果获得的是正类结果,则用分类器h对x进行分类的结果是:x属于h类,类h获得一票.如果获得的是负类结果,则x属于h类以外的其它类.因此,除h以外的每个类都获得一票.最后统计得票最多的类是x的类属性,以训练时尚女装属性细粒度分类器。

通过随机森林和多类SVM方法监督学习对特征提取后的训练时尚女装图像T”进行训练，得到款式和属性的细粒度分类器模型。

如图5所示，通过训练后的细粒度分类器，对特征提取过的时尚女装图像I”实现细粒度分类，输出时尚女装图像的分类结果，检测结果以检测框的形式显示，款式和属性以单独的不同标签在分类结果中显示。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于部件检测和视觉特征的时尚女装图像细粒度分类方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于部件检测和视觉特征的时尚女装图像细粒度分类方法，其特征在于：所述Step1中改进的DPM模型由一个根模型和若干部件模型组成，n个部件的物体模型表示为一个(n+2)元组(F₀,P₁,...P_i,...P_n,b)，其中F₀是根滤波器，P_i是第i个部件的模型，b是一个偏离损失系数，在l₀尺度层,以(x₀,y₀)为锚点的响应得分为：

其中，R_o,l0(x₀,y₀)为根模型的响应得分，v_i是一个二维向量，用于指定第i个滤波器的锚点位置相对于根位置的坐标，为n个部件模型的响应得分，λ是在特征金字塔中以两倍分辨率计算的特征映射的级别数；

其中，(x,y)为第i个部件模型在尺度层的理想位置，l是特征金字塔H的级别数，(dx,dy)为相对(x,y)的偏移量，R_i,l(x+dx,y+dy)为部件模型在(x+dx,y+dy)处的匹配得分，d_i.φ_d(dx,dy)为偏移(dx,dy)所损失的得分，φ_d(dx,dy)＝(dx,dy,dx²,dy²)为DPM特征，d_i为偏移损失系数，模型初始化时，d_i＝(0,0,1,1)即偏移损失为偏移量相对理想位置的欧氏距离；

3.根据权利要求1所述的基于部件检测和视觉特征的时尚女装图像细粒度分类方法，其特征在于：所述Step3中的视觉特征描述符分为上身视觉特征描述符、下身视觉特征描述符和全局特征描述符，并相应的与Step2中的4种底层特征进行特征匹配；

所述上身特征描述符用于描述衣领和袖子，包括衣领边缘上边角的百分比衣领边缘上所有边角的x变量衣领边缘上所有边角的y变量手臂区域像素点的百分比这四种特征描述符都与HOG、Roberts边缘算子特征进行匹配；

所述下身特征描述符用于描述长度、褶皱和宽度，包括腿长与下装长度的比例下装区域皱的百分比f_r＝(n_w/A_l)，下装区域竖直线的百分比f_t＝(n_v/A_l)，下装与腰部区域宽度的比例这四种特征描述符都与HOG、Roberts边缘算子特征进行匹配；

所述全局特征描述符用于描述样式，包括区域内边角的密度区域内颜色方差的总体显著性区域内边角的密度匹配LBP特征，区域内颜色方差的总体显著性匹配颜色直方图特征；

其中m表示检测的衣领边角的数量，R_c表示衣领边缘，中表示第j个被检测到的衣领边角的标准位置，n_A表示检测到的手臂区域的像素数量，τ表示躯干，A_τ表示躯干τ上的像素数量，l_l表示下装的长度，和分别表示左、右腿的长度，n_w表示下装起皱像素的数量，A_l表示下装检测到的全部像素数量，n_v表示下装垂直线像素的数量，分别是下装三个部分的宽度，w_ω是腰部区域的宽度，D(I_k,I_g)是不同颜色像素I_k，I_g之间的颜色距离度量。