CN110413825B

CN110413825B - 面向时尚电商的街拍推荐***

Info

Publication number: CN110413825B
Application number: CN201910540197.0A
Authority: CN
Inventors: 燕彩蓉; 李名扬; 郭文静; 李宇; 咸俊丽
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2023-12-01
Anticipated expiration: 2039-06-21
Also published as: CN110413825A

Abstract

本发明涉及一种结合人物检测的面向时尚街拍的电商推荐***，包括图像特征提取和检索模块，基于卷积神经网络进行特征提取，用于建立特征集，构造最近邻搜索图；人物目标检测模块，用于识别目标人物在街拍中的位置；人物图像分割模块，用于将含有人物图像的轮廓分割出来；相似搜索模块用于按照用户上传图像的特征预测在电商数据中最相似的多件商品，本发明能够部署在面向时尚服装的电商网站中，有效地提高服装图像搜索的识别率和准确度，对时尚领域的电商购买转化率的提高有着显著的作用。

Description

面向时尚电商的街拍推荐***

技术领域

本发明涉及时尚商品推荐与检索技术领域，主要涉及一种融合商品分类、目标检测和图像分割的相似图片检索与推荐***。

背景技术

时尚产业是一个价值几十亿美元的重要产业，在数据时代，用户对时尚的要求不仅仅局限于图片、文字和视频，用户对商品的认知以及与数据的交互成为了用户踏入时尚产业的关键因素。随着大量结构化数据和可索引的数据存储的普及，用户的交互在网站愈发重要，时尚电商已经不再仅仅作为一种呈现方式，而更是一种与用户日程生活紧密联系的互动过程。

随着时尚电商网站的迅速发展，用户对于商品的需求日渐多样化和精细化，对于许多用户目标商品，已经不能再简单的使用语言来描述，如服装精细的花纹、制作精美的工艺产品、独具创意的形状的鞋等。使用手机一键拍照网上购物具有独特的商业价值，是一种更加直观和方便的购物体验，也是移动互联网时代连接线上线下的重要渠道。使用深度学习相关的图像技术，相比传统技术，能够显著提高电商网站的检索和推荐质量，通过卷积神经网络等方法准确识别用户需求，提高购买转化率已经是业界必备的技术，对于用户自定义图像识别准确率方面的提升能够非常明显的反映在点击、浏览和购买的比率上，从转化率的提升计算，该技术已经为淘宝等网站创造了数百万的利润，并仍在快速进步中。

发明内容

本发明的目的是：能够结合人物检测的面向时尚街拍的电商推荐***，能够满足在日常场景的街拍中准确识别出人物所在的位置，并切割出人物的轮廓，并在现有电商的数据中进行搜索，满足客户对于时尚产业产品多样化、个性化的要求，促进电商平台在时尚领域的购买率。

为了达到上述目的，本发明的技术方案是一种面向时尚电商的街拍推荐***，其特征在于，包括：

离线时尚电商数据集构建模块，获取公开的电商平台数据的子集，电商平台数据包括图像和商品文字信息，将子集中某些关键项有空缺的电商平台数据删除，并按照其中的一级分类进行归类，并剔除与时尚无关的商品，最终获得完整的时尚电商数据集；

实时特征提取和最近邻搜索模块，使用卷积神经网络ResNet对时尚电商数据集进行特征提取，卷积神经网络ResNet的最后一层Softmax去除，增加需要的512维全连接层，使用ImageNet进行模型迁移，在特征提取完成后，将特征组成的数据集依次***由Hnswlib算法定义的图结构中，最终根据商品分类建立不同的图数据，并保存在文件中；

人物识别与背景噪声分离模块，用户向人物识别与背景噪声分离模块输入街拍图片，由人物识别与背景噪声分离模块对用户输入的街拍图片进行预处理，通过Faster RCNN模块将街拍图片中背景和关键人物区分开来，使得能够将整体人物框定并切割开来，再使用Faster FCN网络进行背景的噪声处理，使得能够将整体人物的轮廓完整的呈现出来；

时尚商品分类模块，使用电商平台分类数据进行分类器训练，训练数据为预先分类好的商品图片数据经由ResNet特征提取以后组成的数据集，分类器的类型是随机森林分类器，并对其参数进行调优，最后建立前端基于HighChart的分类动态图表，可视化地展示其分类结果。

优选地，所述人物识别与背景噪声分离模块中，所述Faster FCN网络的作用是通过其RPN和分类器网络进行图像选择框的框定和类别的识别，类别定义为人后即可识别人物位置，FCN则是通过上采样和下采样进行像素级别的图像分类，将人轮廓内的像素识别为人物的类别，并去除背景的噪声。

优选地，所述Faster RCNN模块包括：卷积层，用于提取服装图像的特征映射，该特征图被后续的RPN层和全连接层共享；RPN层，通过SoftMax激活函数判断检测框属于前景或者背景，再利用边框回归修正检测框得到候选区；池化层，用于输入卷积层的特征映射和RPN层的候选区，结合二者的信息提取出候选特征图；分类器层，利用提取出的候选特征图计算候选区的类别，同时再次边框回归获得检测框最终的精确位置得到服装图像的人像的位置。

优选地，所述Faster FCN网络包括：全卷积层、分类器层、上采样层，其中，全卷积层用于提取服装图像的特征；分类器层用来捕获语义/上下文信息，使用类似图像分类的手段来解释上下文的含义；上采样层用来恢复原图片的位置信息，精确定位每一个像素点的位置。

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：

本发明使用了卷积神经网络ResNet实现了特征的提取，并构建了整体的特征提取-相似搜索流程，相较于传统SIFT算法有着训练方便、精确度高、对形变和色调变化容忍度高、泛用性好可迁移的特点；最近邻搜索使用HNSW算法，其搜索效率在近年的评测中处于首位，能够相较传统KNN算法极大的提高搜索效率，同时使用低内存使用的实现版本Hnswlib，能够显著降低内存不足的问题；本发明也提出了一种基于目标检测和图像分割的图像预处理步骤，使用Faster RCNN进行人物检测，FCN进行图像分割，最终达到清晰准确的识别关键人物的并将背景完全去除的作用，经测试能够显著提高推荐的质量，减少错误识别的可能；同时本发明的分类模块能够再识别类别的基础上进行搜索，将搜索的数据量减少了一个数量级，提高了速度的同时减少了错误推荐类外商品的可能。本发明结合了深度学习、相似性检索、服务器应用开发等知识，为时尚领域图像数据的结构化、相似性推荐的智能化做出了贡献，并提升了用户的参与度和互动感，为时尚领域的信息化做出了贡献。

附图说明

图1为本发明的总体框图；

图2为时尚商品图像数据集制作模块框图；

图3为时尚商品人物检测模块基本结构图；

图4为时尚商品自动分类模块框图；

图5为时尚商品相似性推荐模块框图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种面向电商的街拍推荐***，包括：1)离线时尚电商数据集构建模块。首先取得公开的电商平台数据的子集(约50万)，对其进行基本的预处理，其中包括图像和商品文字信息，将其中某些关键项有空缺的数据删除，并按照其中的一级分类进行归类，并剔除与时尚无关的商品，最终制作一个完整的时尚电商数据集。2)实时特征提取和最近邻搜索模块，与以往的检索***使用SIFT等方法进行特征提取不同，这里使用ResNet进行，将ResNet最后一层的Softmax去除，增加需要的512维全连接层。这里使用ImageNet进行模型迁移，使得模型能够对图像分类有较好的识别度。在特征提取完成后，将特征组成的数据集依次***由Hnswlib算法定义的图结构中，最终根据商品分类建立不同的图数据，并保存在文件中。3)人物识别与背景噪声分离模块。为了获得信噪比更高的输入图像，对用户输入的图片进行预处理。通过Faster RCNN模块进行背景和关键人物的区分，使得能够将整体人物框定并切割开来，使用FCN网络进行背景的噪声处理，使得能够将整体人物的轮廓完整的呈现出来。这里Faster RCNN的作用是通过其RPN和分类器网络进行图像选择框的框定和类别的识别，类别定义为人后即可识别人物位置。FCN则是通过上采样和下采样进行像素级别的图像分类，将人轮廓内的像素识别为人物的类别，并去除背景的噪声。4)时尚商品自动分类模块。通过预先提取的特征数据和类别数据进行分类器的训练。首先划分训练集，验证集和测试集，比例约为7：2：1，将分类数据处理为X:y的格式并做好标注，尝试不同分类模型进行训练，这里使用随机森林分类器，在estimator＝100，并使用L2正则的时候能够达到较好效果。

结合图1，本实施方式的总体框架主要分为四大模块。离线模块进行数据的预处理和查找图的建立，首先多线程地获取商品图像及相应的数据，对其根据时尚的不同领域进行分类，对残缺数据进行清理，并最终通过Hnswlib建立搜索图，在服务器端口开放前将模型，搜索图和商品信息数据放入内存。接着为在线模块，使用PIL模块进行图片的缩放，将用户上传的图片进行归一化，接着进入任务识别模块，调用Mxnet中的Faster-RCNN模型对归一化以后的图片进行处理，将任务位置进行剪切和保存，再调用Mxnet中的FCN模块进行人物的噪声去除，将人物轮廓以外的部分置为白色，预处理完成后进行调用Mxnet中的Resnet模块进行特征提取，接着进入商品分类模块，将提取好的特征放入预先训练好的随机森林分类器中，并将预测结果依概率形式展现。选择概率最高的一个或者两个分类，读取在内存中的查找图文件，并进行相似性搜索，最终得到用户需要的商品并以图片的形式返回。

如图2所示，离线步骤是这个本实施方式实现的第一步，也是关系到本发明正常运转的基础。这个构成步骤如下：

步骤1：对时尚商品数据集进行调研，确定能够满足图像质量好、分类完善、数据缺失少的数据集；

步骤2：多线程获取步骤1中的数据集中的图片以及商品信息；

步骤3：将商品信息进行数据清洗与预分类；

步骤4：调用Mxnet进行商品图片的特征提取；

步骤5：根据分类使用Hnswlib建立相应的搜索图；

步骤6：执行步骤5后得到每一种分类的搜索图并加载到内存。

如图3所示，基于faster-RCNN算法和FCN算法，对输入的用户街拍进行图像预处理。其中，faster-RCNN主要包括四个内容：卷积、池化、RPN层和池化层。卷积层为基于CNN的网络，所以在特征提取与传统CNN无异，Faster RCNN使用基础的卷积层+激活层+采样层来提取服装图像的特征映射。该特征映射被后续的RPN和全连接层共享。RPN用于生成候选区，也即生成服装图像的前景(也即人像的建议区域)，该层通过SoftMax激活函数判断检测框属于前景还是背景，再利用边框回归修正检测框获得精确的候选区。池化层输入卷积层的特征映射和RPN层的候选区，结合二者的信息提取出候选区的特征，接着输入到全连接层判定目标类别。分类器层。利用池化层提取出的候选区的特征计算候选区的类别，同时再次边框回归获得检测框最终的精确位置，也即服装图像的人像的位置。

其中的FCN主要包括四个内容：卷积层，池化层，预测层和上采样。在这种架构中不使用紧密层。这减少了参数的数量和计算时间。此外，因为所有连接都是本地的，在任何阶段都不需要任何固定数量的单元，所以无论原始图像大小如何，网络都可以正常运行。为了获得分割图(输出)，分割网络通常有两部分，下采样路径用来捕获语义/上下文信息，使用类似图像分类的手段来解释上下文的含义。上采样路径用来恢复原图片的位置信息，精确定位每一个像素点的位置。FCN还常常使用跨越层级的连接，将来自下采样路径的特征映射与来自上采样路径的特征映射连接或求和来传输本地信息。这样能够有助于将分类的信息与空间信息相结合。

如图4所示，基于卷积神经网络，将提取的特征进行分类并制作成为训练数据集，通过训练一个分类器来进行图像的自动分类，使得能够在相应分类的查找图中进行搜索。训练过程中数据X即为提取后的高维特征，标签y则为相应的分类。所使用的分类器为随机森林分类器，其训练方式为：输入训练集D＝{(x₁,y₁),(x₂,y₂)…(x_n,y_n)}与样本子集的个数T，输出最强的分类器，对t＝1,2,3…n,从样本中随机抽取m个样本点，得到一个训练集D_t；用训练集D_t训练一个CART决策树，这里在训练的过程中，对每个结点的切分规则是先从所有特征中随机选择的k个特征，然后在这k个特征中再次选择左右子树的划分。这里目标是分类，即最终类别为样本点到最终点使用叶节点投票最多的类别。随机森林的优势是每棵树的训练样本是随机的，树中每个节点的分类属性也是随机的，能够尽可能好的达到训练效果。

如图5所示，在相似性搜索模块使用的是HNSW算法，是一种基于图的最近邻搜索算法。这个算法基于先前的NSW(navigable small world)算法进行了优化，使用了一个跳表结构将多个多维向量按照图的结构划分为许多层，从顶到底构造一个层次化结构，最大的层数由以指数衰减的概率分布随机选择，在搜索时，从最顶端的层级开始，并且逐步向下延展。这样的方式极大的提高了高召回率和高度集群数据的性能。其中主要的算法为建立图结构以后的查询方法，如以下所示。

本发明利用了强大的神经网络技术对现有的图像检索***进行了改进，通过现有的电商数据集构建了完整的时尚商品推荐***，相比传统特征提取技术减少了人工的工作量，并且能够对于缩放、环境和光线的变化有着更好的适应性。本发明中使用了目标检测和图像分割的方式进行人物检测，极大的解决了传统街拍搜索最中因为目标位置偏差和背景干扰导致的推荐失败和精确度下降的问题。本发明同时训练了一个自动分类器，使用时尚领域的商品数据将不同类别的图像进行区分，解决了以往分类数目过多搜索时间长和类别错误的问题。使用随机森林分类器也能够解决类别不均衡带来的训练误差。本发明结合计算机图论、深度学习、图像处理等技术，极大地提高了时尚电商街拍推荐的准确率和效率，促进了时尚领域基于图像推荐的智能化。

Claims

1.一种面向时尚电商的街拍推荐***，其特征在于，包括：

人物识别与背景噪声分离模块，用户向人物识别与背景噪声分离模块输入街拍图片，由人物识别与背景噪声分离模块对用户输入的街拍图片进行预处理，通过Faster RCNN模块将街拍图片中背景和关键人物区分开来，使得能够将整体人物框定并切割开来，再使用FCN网络进行背景的噪声处理，使得能够将整体人物的轮廓完整的呈现出来；所述FCN网络包括：全卷积层、分类器层、上采样层，其中，全卷积层用于提取服装图像的特征；分类器层用来捕获语义/上下文信息，使用类似图像分类的手段来解释上下文的含义；上采样层用来恢复原图片的位置信息，精确定位每一个像素点的位置；

时尚商品分类模块，使用电商平台分类数据进行分类器训练，训练数据为预先分类好的商品图片数据经由ResNet特征提取以后组成的数据集，分类器的类型是随机森林分类器，并对其参数进行调优，最后建立前端基于HighChart的分类动态图表，可视化地展示其分类结果；将经过人物识别与背景噪声分离模块提取好的特征放入预先训练好的随机森林分类器中，并将预测结果依概率形式展现，其中，选择概率最高的一个或者两个分类，读取在内存中的搜索图文件，并进行相似性搜索，最终得到用户需要的商品并以图片的形式返回，其中，获得每一种分类的搜索图包括以下步骤：

步骤1：对时尚商品数据集进行调研，利用离线时尚电商数据集构建模块获得完整的时尚电商数据集；

步骤3：将商品信息进行数据清洗与预分类；

步骤4：利用实时特征提取和最近邻搜索模块进行商品图片的特征提取；

步骤5：根据分类使用Hnswlib建立相应的搜索图；

2.如权利要求1所述的一种面向时尚电商的街拍推荐***，其特征在于，所述人物识别与背景噪声分离模块中，所述Faster RCNN网络的作用是通过其RPN和分类器网络进行图像选择框的框定和类别的识别，类别定义为人后即可识别人物位置，FCN则是通过上采样和下采样进行像素级别的图像分类，将人轮廓内的像素识别为人物的类别，并去除背景的噪声。

3.如权利要求1所述的一种面向时尚电商的街拍推荐***，其特征在于，所述FasterRCNN模块包括：卷积层，用于提取服装图像的特征映射，该特征图被后续的RPN层和全连接层共享；RPN层，通过SoftMax激活函数判断检测框属于前景或者背景，再利用边框回归修正检测框得到候选区；池化层，用于输入卷积层的特征映射和RPN层的候选区，结合二者的信息提取出候选特征图；分类器层，利用提取出的候选特征图计算候选区的类别，同时再次边框回归获得检测框最终的精确位置得到服装图像的人像的位置。