CN107291945A

CN107291945A - 基于视觉注意力模型的高精度服装图像检索方法及***

Info

Publication number: CN107291945A
Application number: CN201710567746.4A
Authority: CN
Inventors: 张娅; 王仲豪; 顾宇俊; 王延峰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Media Intelligence Technology Co., Ltd.
Priority date: 2017-07-12
Filing date: 2017-07-12
Publication date: 2017-10-24
Anticipated expiration: 2037-07-12
Also published as: CN107291945B

Abstract

本发明提供一种基于视觉注意力模型的高精度服装图像检索方法及***，所述方法包括：特征图提取步骤：对输入的待检索图片，使用深度神经网络提取固定大小的浮点数组成的特征图；注意力图提取步骤：对输入的待检索图片，使用全卷积深度神经网络提取注意力图；注意力结合步骤：对输入的特征图和注意力图进行结合，得到注意力特征图；特征向量映射步骤：对输入的特征图和注意力特征图，使用深度神经网络映射成为固定长度的图像特征向量；相似图像检索步骤。所述***包括与所述各步骤相对应的模块。本发明能够对输入图像利用视觉注意力模型提取出注意力特征，并与全局特征拼接形成多个视角的特征，从而进行高精度的图像检索。

Description

基于视觉注意力模型的高精度服装图像检索方法及***

技术领域

本发明涉及一种计算机视觉和图像处理领域的方法和***，具体地，涉及一种基于视觉注意力模型的高精度服装图像检索方法及***。

背景技术

近年来，随着电子商务的发展，服装检索技术由于其对网上购物的帮助而飞速发展。现存的较为成熟的技术一般都是基于关键词的服装检索，由于关键词无法完全地描述商品，在很多情况下消费者没有办法只通过关键词来准确地检索出其所需的商品。为了解决这样的问题，为消费者提供更准确的检索服务，基于图像的服装检索技术被提出和广泛研究。但是由于服装种类过多以及服装图像本身一般经常带有过多背景等无用信息，服装图像检索一直是一个具有挑战性的问题。

随着深度神经网络在图像处理领域逐渐发展，很多服装图像检索技术都开始采用深度神经网络检索图像，并取得了不错的效果。它们一般都是直接将整幅图像输入到深度神经网络中，映射成为特征向量，再通过特征向量之间的距离计算图像之间的相似度，从而完成检索工作。

上述这些工作大部分都是直接整幅图像直接输入到神经网络，而一般的服装图像中都会带有干扰，如背景，遮挡等，这些都会对神经网络产生影响。也有一些工作使用人为设定的一些关键点对图像进行特征增强，但是这种方式会受到数据集的制约，如果没有大量的带有关键点信息的数据集，就无法准确提取出关键点位置，甚至可能导致负面效果。除此之外，人为设定的关键信息不一定是适合神经网络算法进行检索的。

经检索，公开号为CN106250423A的中国发明专利，公开一种基于部分参数共享的深度卷积神经网络跨域服装检索方法。该方法利用了深度神经网络模型中越高层的网络层的特征越具有语义信息，与训练数据所在域的关系越密切，越低层的网络层的特征越具有一般性，越与训练数据所在域无关，依此让传统的深度卷积神经网络跨域服装检索模型中的低层的网络层参数共享，而高层的网络层参数由各个域保有。

但上述专利未对服装图像中的干扰进行主动地处理，如根据关键点信息或注意力模型对图像进行特征增强等，未能提升传统服装检索方法的效果。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于视觉注意力模型的高精度服装图像检索方法及***，使用注意力图提取模块对输入服装图像提取注意力图，并利用注意力图对深度神经网络提取的特征进行增强，从而得到高精度的图像检索结果。

根据本发明的第一目的，提供一种基于视觉注意力模型的高精度服装图像检索方法，包括：

特征图提取步骤：对输入的待检索图片，使用深度神经网络提取固定大小的浮点数组成的特征图；

注意力图提取步骤：对输入的待检索图片，使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图；

注意力结合步骤：对输入的所述特征图提取步骤得到的特征图和所述注意力图提取步骤得到的注意力图进行结合，得到注意力特征图；

特征向量映射步骤：对输入的所述特征图提取步骤得到的特征图和所述注意力结合步骤得到的注意力特征图，使用深度神经网络映射成为固定长度的图像特征向量；

相似图像检索步骤：根据所述特征向量映射步骤得到的图像特征向量使用欧氏距离来计算图像之间的相似度，从而检索出最相似图像。

本发明所述的基于视觉注意力模型的高精度图像检索方法，是能够进行端到端训练的。

优选地，所述注意力图提取步骤，运用了小数量的服装分割数据集进行预训练，能够对输入的任意图片提取出0到1之间浮点数组成的注意力图，注意力图中的数值大小代表该区域在原图像中是衣服的可能性，该步骤能够在整个方法进行端到端训练的过程中被继续学习优化。

优选地，所述注意力结合模块，在对模型进行训练时，使用注意力图中的注意力作为概率对特征图中对应区域在通道维度上进行随机舍弃，生成注意力特征图；在测试时，使用注意力图中的注意力作为权值乘以特征图中对应区域在通道维度上的所有数值，生成注意力特征图。

优选地，所述特征向量映射步骤，包含两支共享权值的深度神经网络：全局分支和注意力分支，能够分别将特征图和注意力特征图映射成为全局特征向量和注意力特征向量，并拼接在一起作为输入图像的特征向量。

根据本发明的第二目的，提供一种基于视觉注意力模型的高精度服装图像检索***，包括：

特征图提取模块：对输入的待检索图片，使用深度神经网络提取固定大小的浮点数组成的特征图；

注意力图提取模块：对输入的待检索图片，使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图；

注意力结合模块：对输入的所述特征图提取模块得到的特征图和所述注意力图提取模块得到的注意力图进行结合，得到注意力特征图；

特征向量映射模块：对输入的所述特征图提取模块得到的特征图和所述注意力图提取模块得到的注意力特征图，使用深度神经网络映射成为固定长度的图像特征向量；

相似图像检索模块：根据所述特征向量映射模块得到的图像特征向量使用欧氏距离来计算图像之间的相似度，从而检索出最相似图像。

优选地，所述注意力图提取模块，其中：运用了小数量的服装分割数据集进行预训练，能够对输入的任意图片提取出0到1之间浮点数组成的注意力图，注意力图中的数值大小代表该区域在原图像中是衣服的可能性，该步骤能够在整个方法进行端到端训练的过程中被继续学习优化。

优选地，所述注意力结合模块，其中：在训练时，使用注意力图中的注意力作为概率对特征图中对应区域在通道维度上进行随机舍弃，生成注意力特征图；在测试时，使用注意力图中的注意力作为权值乘以特征图中对应区域在通道维度上的所有数值，生成注意力特征图。

优选地，所述特征向量映射模块，包含两支共享权值的深度神经网络：全局分支和注意力分支，能够分别将特征图和注意力特征图映射成为全局特征向量和注意力特征向量，并拼接在一起作为输入图像的特征向量。

与现有技术相比，本发明具有如下的有益效果：

本发明对输入图像利用视觉注意力模型提取出注意力特征，并与全局特征拼接形成多个视角的特征，从而进行高精度的图像检索。

进一步的，本发明中注意力图提取模块能够对输入图像提取注意力图，注意力图会显示输入图像各个部分的重要程度，在注意力图的影响下，输入图像的干扰信息就会被削弱，神经网络能够提取更纯粹的特征向量，从而大大提升图像检索的准确度。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中方法流程图；

图2为本发明一实施例中方法具体流程图；

图3为本发明一实施例中注意力结合模块结构图；

图4为本发明一实施例中图像检索结果页面示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，为本发明一种基于视觉注意力模型的高精度服装图像检索方法实施例的流程图，该方法将输入图像处理成为特征图与注意力图，并使用注意力结合步骤将注意力图与特征图结合成为注意力特征图，分别将特征图和注意力特征图映射成为全局特征和注意力特征，最后利用特征之间的距离计算相似度，找到最相似图片完成检索任务。

具体的，参照图1，所述方法包括如下步骤：

特征向量映射步骤：对输入的特征图和所述注意力结合步骤得到的注意力特征图，使用深度神经网络映射成为固定长度的图像特征向量；

对应于上述方法，本发明还提供一种基于视觉注意力模型的高精度服装图像检索***的实施例，包括：

上述基于视觉注意力模型的高精度服装图像检索***各个模块实现的技术特征可以与上述基于视觉注意力模型的高精度服装图像检索方法中对应步骤实现的技术特征相同。

以下对各个步骤和模块的具体实现进行详细的描述，以便理解本发明技术方案。

在本发明部分实施例中，所述注意力图提取步骤，运用了小数量的服装分割数据集进行预训练，能够对输入的任意图片提取出0到1之间浮点数组成的注意力图，注意力图中的数值大小代表该区域在原图像中是衣服的可能性，该步骤能够在整个方法进行端到端训练的过程中被继续学习优化。

在本发明部分实施例中，所述注意力结合步骤，在训练时，使用注意力图中的注意力作为概率对特征图中对应区域在通道维度上进行随机舍弃，生成注意力特征图；在测试时，使用注意力图中的注意力作为权值乘以特征图中对应区域在通道维度上的所有数值，生成注意力特征图。

在本发明部分实施例中，所述特征向量映射步骤，包含两支共享权值的深度神经网络：全局分支和注意力分支，能够分别将特征图和注意力特征图映射成为全局特征向量和注意力特征向量，并拼接在一起作为输入图像的特征向量。

具体的，由特征图提取模块、注意力图提取模块、注意力结合模块、特征向量映射模块组成的特征向量提取网络框架如图2所示，整个网络框架能够端到端地进行训练。

在如图2所示的网络框架中，每张图像都会被同时输送进特征图提取模块和注意力图提取模块：特征图提取模块对输入图像提取低层次的特征，产生特征图；注意力图提取模块对图像每部分的重要程度进行预测，产生注意力图。特征图提取模块产生的特征图被输送到特征向量映射的全局分支以及注意力结合模块。注意力结合模块能够将特征图与注意力图结合，削弱不重要区域的响应，生成注意力特征图。特征图、注意力图和注意力特征图拥有同样的宽度和高度，特征图和注意力特征图还有同样的通道数量。全局分支和注意力分支的深度神经网络拥有同样的结构和参数，用来提升***的稳定性，它们输出的全局特征向量和注意力特征向量被拼接在一起，当作输入图像的特征向量输出。

在图2所示的网络框架中，图中的视觉注意力模型是为了提取输入图像的注意力图，用来抑制输入图像中的不重要“干扰”部分的响应，注意力图中的值在0到1之间，越重要的区域注意力值越高。在服装图像检索任务中，视觉注意力模型能够在背景和干扰中区分服装区域，并在输出的注意力图中在数值上体现出来。视觉注意力模型是通过注意力图提取步骤或注意力图提取模块实现的。

在一实施例中，本发明的注意力结合模块结构图如图3所示，其具体实施方式是：在注意力图中的每个点都会被视作特征图中对应区域重要的概率，注意力结合模块就利用这个概率在特征图上对应的位置随机将特征图上的值进行丢弃，产生注意力特征图。具体流程如图3所示，首先注意力结合模块利用注意力图中的注意力值p_ij作为概率产生一个伯努利数列b_ij：

P(b_ij(c)＝k)＝p_ij ^k(1-p_ij)^1-k,k＝0or1,c＝1…channel

其中c是向量在通道维度的索引，channel是特征图在通道维度上的长度，i是高度维度上的索引，j是宽度维度上的索引，b_ij(c)是伯努利数列在ij位置c通道上的随机变量的一个采样，k是采样值的一种取值，p是注意力图中的值，p_ij是注意力图在ij位置上的值，P(b_ij(c)＝k)表示随机事件b_ij(c)＝k发生的概率。上标k为指数函数的指数。

在***训练阶段，正向传播过程中，注意力结合模块对b_ij和对应位置的特征向量x_ij对应位置作乘法，得到的结果y_ij，公式如下：

y_ij＝x_ij·b_ij

其中x_ij为特征图在ij位置上的向量，b_ij为伯努利数列在ij位置上的多元随机变量的一个采样，y_ij为注意力特征图在ij位置上的向量。

在反向传播时，有两个方向的回传梯度：损失函数关于特征图的回传梯度与损失函数关于注意力图的回传梯度损失函数关于特征图的回传梯度的计算公式如下：

其中Loss是损失函数，是损失函数关于特征图在ij位置上的回传梯度，是损失函数关于注意力特征图在ij位置上的回传梯度。

损失函数关于注意力图的回传梯度的计算公式如下：

其中是损失函数关于注意力图在ij位置上的回传梯度，x_ij(c)是x_ij为特征图在ij位置c通道上的向量，是损失函数关于注意力特征图在ij位置c通道上的回传梯度。

在***测试阶段，注意力结合模块中的随机性被去除，采用直接相乘的方式将注意力图与特征图相连：

y_ij＝p_ijx_ij

本发明部分实施例的图像检索结果页面示意图如图4所示，使用者上传一张带有服装的图片，***就能够自动地检索出与输入图像中服装种类相同的商品，并依照相似度从高到低的顺序展示出来，得到高精度的图像检索结果。

综上，本发明能够对输入图像利用视觉注意力模型提取出注意力特征，并与全局特征拼接形成多个视角的特征，从而进行高精度的图像检索。在注意力图的影响下，输入图像的干扰信息就会被削弱，神经网络能够提取更纯粹的特征向量，从而大大提升图像检索的准确度。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于视觉注意力模型的高精度服装图像检索方法，其特征在于包括：

2.根据权利要求1所述的基于视觉注意力模型的高精度图像检索方法，其特征在于，所述注意力图提取步骤，其中：运用了小数量的服装分割数据集进行预训练，能够对输入的任意图片提取出0到1之间浮点数组成的注意力图，注意力图中的数值大小代表该区域在原图像中是衣服的可能性，该步骤能够在整个方法进行端到端训练的过程中被继续学习优化。

3.根据权利要求1所述的基于视觉注意力模型的高精度图像检索方法，其特征在于，所述注意力结合步骤，其中：在训练时，使用注意力图中的注意力作为概率对特征图中对应区域在通道维度上进行随机舍弃，生成注意力特征图；在测试时，使用注意力图中的注意力作为权值乘以特征图中对应区域在通道维度上的所有数值，生成注意力特征图。

4.根据权利要求3所述的基于视觉注意力模型的高精度图像检索方法，其特征在于，所述注意力结合步骤，其具体如下：在注意力图中的每个点都被视作特征图中对应区域重要的概率，利用这个概率在特征图上对应的位置随机将特征图上的值进行丢弃，产生注意力特征图；

首先利用注意力图中的注意力值p_ij作为概率产生一个伯努利数列b_ij：

P(b_ij(c)＝k)＝p_ij ^k(1-p_ij)^1-k,k＝0 or 1,c＝1…channel

其中c是向量在通道维度的索引，channel是特征图在通道维度上的长度，i是高度维度上的索引，j是宽度维度上的索引，b_ij(c)是伯努利数列在ij位置c通道上的随机变量的一个采样，k是采样值的一种取值，p是注意力图中的值，p_ij是注意力图在ij位置上的值，P(b_ij(c)＝k)表示随机事件b_ij(c)＝k发生的概率，上标k为指数函数的指数；

在***训练阶段，正向传播过程中，对b_ij和对应位置的特征向量x_ij对应位置作乘法，得到的结果y_ij，公式如下：

y_ij＝x_ij·b_ij

其中x_ij为特征图在ij位置上的向量，b_ij为伯努利数列在ij位置上的多元随机变量的一个采样，y_ij为注意力特征图在ij位置上的向量；

<mrow> <mfrac> <mrow> <mo>&part;</mo> <mi>L</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>=</mo> <msub> <mi>b</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&CenterDot;</mo> <mfrac> <mrow> <mo>&part;</mo> <mi>L</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow>

其中Loss是损失函数，是损失函数关于特征图在ij位置上的回传梯度，是损失函数关于注意力特征图在ij位置上的回传梯度；

损失函数关于注意力图的回传梯度的计算公式如下：

<mrow> <mfrac> <mrow> <mo>&part;</mo> <mi>L</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>c</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>c</mi> <mi>h</mi> <mi>a</mi> <mi>n</mi> <mi>n</mi> <mi>e</mi> <mi>l</mi> </mrow> </munderover> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mfrac> <mrow> <mo>&part;</mo> <mi>L</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

其中是损失函数关于注意力图在ij位置上的回传梯度，x_ij(c)是x_ij为特征图在ij位置c通道上的向量，是损失函数关于注意力特征图在ij位置c通道上的回传梯度；

在***测试阶段，注意力结合的随机性被去除，采用直接相乘的方式将注意力图与特征图相连：

y_ij＝p_ijx_ij。

5.根据权利要求1-4任一项所述的基于视觉注意力模型的高精度图像检索方法，其特征在于，所述特征向量映射步骤，包含两支共享权值的深度神经网络：全局分支和注意力分支，能够分别将特征图和注意力特征图映射成为全局特征向量和注意力特征向量，并拼接在一起作为输入图像的特征向量。

6.一种基于视觉注意力模型的高精度服装图像检索***，其特征在于包括：

特征向量映射模块：对输入的所述特征图提取模块得到的特征图和所述注意力结合模块得到的注意力特征图，使用深度神经网络映射成为固定长度的图像特征向量；

7.根据权利要求6所述的基于视觉注意力模型的高精度图像检索***，其特征在于，所述注意力图提取模块，其中：运用了小数量的服装分割数据集进行预训练，能够对输入的任意图片提取出0到1之间浮点数组成的注意力图，注意力图中的数值大小代表该区域在原图像中是衣服的可能性，该模块能够在整个***进行端到端训练的过程中被继续学习优化。

8.根据权利要求6所述的基于视觉注意力模型的高精度图像检索***，其特征在于，所述注意力结合模块，其中：在训练时，使用注意力图中的注意力作为概率对特征图中对应区域在通道维度上进行随机舍弃，生成注意力特征图；在测试时，使用注意力图中的注意力作为权值乘以特征图中对应区域在通道维度上的所有数值，生成注意力特征图。

9.根据权利要求8所述的基于视觉注意力模型的高精度图像检索***，其特征在于，所述注意力结合模块，其实现如下功能：在注意力图中的每个点都被视作特征图中对应区域重要的概率，所述注意力结合模块利用这个概率在特征图上对应的位置随机将特征图上的值进行丢弃，产生注意力特征图；

首先所述注意力结合模块利用注意力图中的注意力值p_ij作为概率产生一个伯努利数列b_ij：

P(b_ij(c)＝k)＝p_ij ^k(1-p_ij)^1-k,k＝0 or 1,c＝1…channel

在***训练阶段，正向传播过程中，所述注意力结合模块对b_ij和对应位置的特征向量x_ij对应位置作乘法，得到的结果y_ij，公式如下：

y_ij＝x_ij·b_ij

损失函数关于注意力图的回传梯度的计算公式如下：

在***测试阶段，注意力结合中的随机性被去除，采用直接相乘的方式将注意力图与特征图相连：

y_ij＝p_ijx_ij。

10.根据权利要求6-9任一项所述的基于视觉注意力模型的高精度图像检索***，其特征在于，所述特征向量映射模块，包含两支共享权值的深度神经网络：全局分支和注意力分支，能够分别将特征图和注意力特征图映射成为全局特征向量和注意力特征向量，并拼接在一起作为输入图像的特征向量。