CN107291945A - 基于视觉注意力模型的高精度服装图像检索方法及*** - Google Patents

基于视觉注意力模型的高精度服装图像检索方法及*** Download PDF

Info

Publication number
CN107291945A
CN107291945A CN201710567746.4A CN201710567746A CN107291945A CN 107291945 A CN107291945 A CN 107291945A CN 201710567746 A CN201710567746 A CN 201710567746A CN 107291945 A CN107291945 A CN 107291945A
Authority
CN
China
Prior art keywords
mrow
characteristic pattern
notice
attention
hard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710567746.4A
Other languages
English (en)
Other versions
CN107291945B (zh
Inventor
张娅
王仲豪
顾宇俊
王延峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Media Intelligence Technology Co., Ltd.
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201710567746.4A priority Critical patent/CN107291945B/zh
Publication of CN107291945A publication Critical patent/CN107291945A/zh
Application granted granted Critical
Publication of CN107291945B publication Critical patent/CN107291945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供一种基于视觉注意力模型的高精度服装图像检索方法及***,所述方法包括:特征图提取步骤:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;注意力图提取步骤:对输入的待检索图片,使用全卷积深度神经网络提取注意力图;注意力结合步骤:对输入的特征图和注意力图进行结合,得到注意力特征图;特征向量映射步骤:对输入的特征图和注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;相似图像检索步骤。所述***包括与所述各步骤相对应的模块。本发明能够对输入图像利用视觉注意力模型提取出注意力特征,并与全局特征拼接形成多个视角的特征,从而进行高精度的图像检索。

Description

基于视觉注意力模型的高精度服装图像检索方法及***
技术领域
本发明涉及一种计算机视觉和图像处理领域的方法和***,具体地,涉及一种基于视觉注意力模型的高精度服装图像检索方法及***。
背景技术
近年来,随着电子商务的发展,服装检索技术由于其对网上购物的帮助而飞速发展。现存的较为成熟的技术一般都是基于关键词的服装检索,由于关键词无法完全地描述商品,在很多情况下消费者没有办法只通过关键词来准确地检索出其所需的商品。为了解决这样的问题,为消费者提供更准确的检索服务,基于图像的服装检索技术被提出和广泛研究。但是由于服装种类过多以及服装图像本身一般经常带有过多背景等无用信息,服装图像检索一直是一个具有挑战性的问题。
随着深度神经网络在图像处理领域逐渐发展,很多服装图像检索技术都开始采用深度神经网络检索图像,并取得了不错的效果。它们一般都是直接将整幅图像输入到深度神经网络中,映射成为特征向量,再通过特征向量之间的距离计算图像之间的相似度,从而完成检索工作。
上述这些工作大部分都是直接整幅图像直接输入到神经网络,而一般的服装图像中都会带有干扰,如背景,遮挡等,这些都会对神经网络产生影响。也有一些工作使用人为设定的一些关键点对图像进行特征增强,但是这种方式会受到数据集的制约,如果没有大量的带有关键点信息的数据集,就无法准确提取出关键点位置,甚至可能导致负面效果。除此之外,人为设定的关键信息不一定是适合神经网络算法进行检索的。
经检索,公开号为CN106250423A的中国发明专利,公开一种基于部分参数共享的深度卷积神经网络跨域服装检索方法。该方法利用了深度神经网络模型中越高层的网络层的特征越具有语义信息,与训练数据所在域的关系越密切,越低层的网络层的特征越具有一般性,越与训练数据所在域无关,依此让传统的深度卷积神经网络跨域服装检索模型中的低层的网络层参数共享,而高层的网络层参数由各个域保有。
但上述专利未对服装图像中的干扰进行主动地处理,如根据关键点信息或注意力模型对图像进行特征增强等,未能提升传统服装检索方法的效果。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于视觉注意力模型的高精度服装图像检索方法及***,使用注意力图提取模块对输入服装图像提取注意力图,并利用注意力图对深度神经网络提取的特征进行增强,从而得到高精度的图像检索结果。
根据本发明的第一目的,提供一种基于视觉注意力模型的高精度服装图像检索方法,包括:
特征图提取步骤:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;
注意力图提取步骤:对输入的待检索图片,使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图;
注意力结合步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力图提取步骤得到的注意力图进行结合,得到注意力特征图;
特征向量映射步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力结合步骤得到的注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;
相似图像检索步骤:根据所述特征向量映射步骤得到的图像特征向量使用欧氏距离来计算图像之间的相似度,从而检索出最相似图像。
本发明所述的基于视觉注意力模型的高精度图像检索方法,是能够进行端到端训练的。
优选地,所述注意力图提取步骤,运用了小数量的服装分割数据集进行预训练,能够对输入的任意图片提取出0到1之间浮点数组成的注意力图,注意力图中的数值大小代表该区域在原图像中是衣服的可能性,该步骤能够在整个方法进行端到端训练的过程中被继续学习优化。
优选地,所述注意力结合模块,在对模型进行训练时,使用注意力图中的注意力作为概率对特征图中对应区域在通道维度上进行随机舍弃,生成注意力特征图;在测试时,使用注意力图中的注意力作为权值乘以特征图中对应区域在通道维度上的所有数值,生成注意力特征图。
优选地,所述特征向量映射步骤,包含两支共享权值的深度神经网络:全局分支和注意力分支,能够分别将特征图和注意力特征图映射成为全局特征向量和注意力特征向量,并拼接在一起作为输入图像的特征向量。
根据本发明的第二目的,提供一种基于视觉注意力模型的高精度服装图像检索***,包括:
特征图提取模块:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;
注意力图提取模块:对输入的待检索图片,使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图;
注意力结合模块:对输入的所述特征图提取模块得到的特征图和所述注意力图提取模块得到的注意力图进行结合,得到注意力特征图;
特征向量映射模块:对输入的所述特征图提取模块得到的特征图和所述注意力图提取模块得到的注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;
相似图像检索模块:根据所述特征向量映射模块得到的图像特征向量使用欧氏距离来计算图像之间的相似度,从而检索出最相似图像。
优选地,所述注意力图提取模块,其中:运用了小数量的服装分割数据集进行预训练,能够对输入的任意图片提取出0到1之间浮点数组成的注意力图,注意力图中的数值大小代表该区域在原图像中是衣服的可能性,该步骤能够在整个方法进行端到端训练的过程中被继续学习优化。
优选地,所述注意力结合模块,其中:在训练时,使用注意力图中的注意力作为概率对特征图中对应区域在通道维度上进行随机舍弃,生成注意力特征图;在测试时,使用注意力图中的注意力作为权值乘以特征图中对应区域在通道维度上的所有数值,生成注意力特征图。
优选地,所述特征向量映射模块,包含两支共享权值的深度神经网络:全局分支和注意力分支,能够分别将特征图和注意力特征图映射成为全局特征向量和注意力特征向量,并拼接在一起作为输入图像的特征向量。
与现有技术相比,本发明具有如下的有益效果:
本发明对输入图像利用视觉注意力模型提取出注意力特征,并与全局特征拼接形成多个视角的特征,从而进行高精度的图像检索。
进一步的,本发明中注意力图提取模块能够对输入图像提取注意力图,注意力图会显示输入图像各个部分的重要程度,在注意力图的影响下,输入图像的干扰信息就会被削弱,神经网络能够提取更纯粹的特征向量,从而大大提升图像检索的准确度。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中方法流程图;
图2为本发明一实施例中方法具体流程图;
图3为本发明一实施例中注意力结合模块结构图;
图4为本发明一实施例中图像检索结果页面示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,为本发明一种基于视觉注意力模型的高精度服装图像检索方法实施例的流程图,该方法将输入图像处理成为特征图与注意力图,并使用注意力结合步骤将注意力图与特征图结合成为注意力特征图,分别将特征图和注意力特征图映射成为全局特征和注意力特征,最后利用特征之间的距离计算相似度,找到最相似图片完成检索任务。
具体的,参照图1,所述方法包括如下步骤:
特征图提取步骤:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;
注意力图提取步骤:对输入的待检索图片,使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图;
注意力结合步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力图提取步骤得到的注意力图进行结合,得到注意力特征图;
特征向量映射步骤:对输入的特征图和所述注意力结合步骤得到的注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;
相似图像检索步骤:根据所述特征向量映射步骤得到的图像特征向量使用欧氏距离来计算图像之间的相似度,从而检索出最相似图像。
对应于上述方法,本发明还提供一种基于视觉注意力模型的高精度服装图像检索***的实施例,包括:
特征图提取模块:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;
注意力图提取模块:对输入的待检索图片,使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图;
注意力结合模块:对输入的所述特征图提取模块得到的特征图和所述注意力图提取模块得到的注意力图进行结合,得到注意力特征图;
特征向量映射模块:对输入的所述特征图提取模块得到的特征图和所述注意力图提取模块得到的注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;
相似图像检索模块:根据所述特征向量映射模块得到的图像特征向量使用欧氏距离来计算图像之间的相似度,从而检索出最相似图像。
上述基于视觉注意力模型的高精度服装图像检索***各个模块实现的技术特征可以与上述基于视觉注意力模型的高精度服装图像检索方法中对应步骤实现的技术特征相同。
以下对各个步骤和模块的具体实现进行详细的描述,以便理解本发明技术方案。
在本发明部分实施例中,所述注意力图提取步骤,运用了小数量的服装分割数据集进行预训练,能够对输入的任意图片提取出0到1之间浮点数组成的注意力图,注意力图中的数值大小代表该区域在原图像中是衣服的可能性,该步骤能够在整个方法进行端到端训练的过程中被继续学习优化。
在本发明部分实施例中,所述注意力结合步骤,在训练时,使用注意力图中的注意力作为概率对特征图中对应区域在通道维度上进行随机舍弃,生成注意力特征图;在测试时,使用注意力图中的注意力作为权值乘以特征图中对应区域在通道维度上的所有数值,生成注意力特征图。
在本发明部分实施例中,所述特征向量映射步骤,包含两支共享权值的深度神经网络:全局分支和注意力分支,能够分别将特征图和注意力特征图映射成为全局特征向量和注意力特征向量,并拼接在一起作为输入图像的特征向量。
具体的,由特征图提取模块、注意力图提取模块、注意力结合模块、特征向量映射模块组成的特征向量提取网络框架如图2所示,整个网络框架能够端到端地进行训练。
在如图2所示的网络框架中,每张图像都会被同时输送进特征图提取模块和注意力图提取模块:特征图提取模块对输入图像提取低层次的特征,产生特征图;注意力图提取模块对图像每部分的重要程度进行预测,产生注意力图。特征图提取模块产生的特征图被输送到特征向量映射的全局分支以及注意力结合模块。注意力结合模块能够将特征图与注意力图结合,削弱不重要区域的响应,生成注意力特征图。特征图、注意力图和注意力特征图拥有同样的宽度和高度,特征图和注意力特征图还有同样的通道数量。全局分支和注意力分支的深度神经网络拥有同样的结构和参数,用来提升***的稳定性,它们输出的全局特征向量和注意力特征向量被拼接在一起,当作输入图像的特征向量输出。
在图2所示的网络框架中,图中的视觉注意力模型是为了提取输入图像的注意力图,用来抑制输入图像中的不重要“干扰”部分的响应,注意力图中的值在0到1之间,越重要的区域注意力值越高。在服装图像检索任务中,视觉注意力模型能够在背景和干扰中区分服装区域,并在输出的注意力图中在数值上体现出来。视觉注意力模型是通过注意力图提取步骤或注意力图提取模块实现的。
在一实施例中,本发明的注意力结合模块结构图如图3所示,其具体实施方式是:在注意力图中的每个点都会被视作特征图中对应区域重要的概率,注意力结合模块就利用这个概率在特征图上对应的位置随机将特征图上的值进行丢弃,产生注意力特征图。具体流程如图3所示,首先注意力结合模块利用注意力图中的注意力值pij作为概率产生一个伯努利数列bij
P(bij(c)=k)=pij k(1-pij)1-k,k=0or1,c=1…channel
其中c是向量在通道维度的索引,channel是特征图在通道维度上的长度,i是高度维度上的索引,j是宽度维度上的索引,bij(c)是伯努利数列在ij位置c通道上的随机变量的一个采样,k是采样值的一种取值,p是注意力图中的值,pij是注意力图在ij位置上的值,P(bij(c)=k)表示随机事件bij(c)=k发生的概率。上标k为指数函数的指数。
在***训练阶段,正向传播过程中,注意力结合模块对bij和对应位置的特征向量xij对应位置作乘法,得到的结果yij,公式如下:
yij=xij·bij
其中xij为特征图在ij位置上的向量,bij为伯努利数列在ij位置上的多元随机变量的一个采样,yij为注意力特征图在ij位置上的向量。
在反向传播时,有两个方向的回传梯度:损失函数关于特征图的回传梯度与损失函数关于注意力图的回传梯度损失函数关于特征图的回传梯度的计算公式如下:
其中Loss是损失函数,是损失函数关于特征图在ij位置上的回传梯度,是损失函数关于注意力特征图在ij位置上的回传梯度。
损失函数关于注意力图的回传梯度的计算公式如下:
其中是损失函数关于注意力图在ij位置上的回传梯度,xij(c)是xij为特征图在ij位置c通道上的向量,是损失函数关于注意力特征图在ij位置c通道上的回传梯度。
在***测试阶段,注意力结合模块中的随机性被去除,采用直接相乘的方式将注意力图与特征图相连:
yij=pijxij
本发明部分实施例的图像检索结果页面示意图如图4所示,使用者上传一张带有服装的图片,***就能够自动地检索出与输入图像中服装种类相同的商品,并依照相似度从高到低的顺序展示出来,得到高精度的图像检索结果。
综上,本发明能够对输入图像利用视觉注意力模型提取出注意力特征,并与全局特征拼接形成多个视角的特征,从而进行高精度的图像检索。在注意力图的影响下,输入图像的干扰信息就会被削弱,神经网络能够提取更纯粹的特征向量,从而大大提升图像检索的准确度。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (10)

1.一种基于视觉注意力模型的高精度服装图像检索方法,其特征在于包括:
特征图提取步骤:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;
注意力图提取步骤:对输入的待检索图片,使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图;
注意力结合步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力图提取步骤得到的注意力图进行结合,得到注意力特征图;
特征向量映射步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力结合步骤得到的注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;
相似图像检索步骤:根据所述特征向量映射步骤得到的图像特征向量使用欧氏距离来计算图像之间的相似度,从而检索出最相似图像。
2.根据权利要求1所述的基于视觉注意力模型的高精度图像检索方法,其特征在于,所述注意力图提取步骤,其中:运用了小数量的服装分割数据集进行预训练,能够对输入的任意图片提取出0到1之间浮点数组成的注意力图,注意力图中的数值大小代表该区域在原图像中是衣服的可能性,该步骤能够在整个方法进行端到端训练的过程中被继续学习优化。
3.根据权利要求1所述的基于视觉注意力模型的高精度图像检索方法,其特征在于,所述注意力结合步骤,其中:在训练时,使用注意力图中的注意力作为概率对特征图中对应区域在通道维度上进行随机舍弃,生成注意力特征图;在测试时,使用注意力图中的注意力作为权值乘以特征图中对应区域在通道维度上的所有数值,生成注意力特征图。
4.根据权利要求3所述的基于视觉注意力模型的高精度图像检索方法,其特征在于,所述注意力结合步骤,其具体如下:在注意力图中的每个点都被视作特征图中对应区域重要的概率,利用这个概率在特征图上对应的位置随机将特征图上的值进行丢弃,产生注意力特征图;
首先利用注意力图中的注意力值pij作为概率产生一个伯努利数列bij
P(bij(c)=k)=pij k(1-pij)1-k,k=0 or 1,c=1…channel
其中c是向量在通道维度的索引,channel是特征图在通道维度上的长度,i是高度维度上的索引,j是宽度维度上的索引,bij(c)是伯努利数列在ij位置c通道上的随机变量的一个采样,k是采样值的一种取值,p是注意力图中的值,pij是注意力图在ij位置上的值,P(bij(c)=k)表示随机事件bij(c)=k发生的概率,上标k为指数函数的指数;
在***训练阶段,正向传播过程中,对bij和对应位置的特征向量xij对应位置作乘法,得到的结果yij,公式如下:
yij=xij·bij
其中xij为特征图在ij位置上的向量,bij为伯努利数列在ij位置上的多元随机变量的一个采样,yij为注意力特征图在ij位置上的向量;
在反向传播时,有两个方向的回传梯度:损失函数关于特征图的回传梯度与损失函数关于注意力图的回传梯度损失函数关于特征图的回传梯度的计算公式如下:
<mrow> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>L</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> </mrow> <mrow> <mo>&amp;part;</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>=</mo> <msub> <mi>b</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&amp;CenterDot;</mo> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>L</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> </mrow> <mrow> <mo>&amp;part;</mo> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow>
其中Loss是损失函数,是损失函数关于特征图在ij位置上的回传梯度,是损失函数关于注意力特征图在ij位置上的回传梯度;
损失函数关于注意力图的回传梯度的计算公式如下:
<mrow> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>L</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> </mrow> <mrow> <mo>&amp;part;</mo> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>c</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>c</mi> <mi>h</mi> <mi>a</mi> <mi>n</mi> <mi>n</mi> <mi>e</mi> <mi>l</mi> </mrow> </munderover> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>L</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> </mrow> <mrow> <mo>&amp;part;</mo> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中是损失函数关于注意力图在ij位置上的回传梯度,xij(c)是xij为特征图在ij位置c通道上的向量,是损失函数关于注意力特征图在ij位置c通道上的回传梯度;
在***测试阶段,注意力结合的随机性被去除,采用直接相乘的方式将注意力图与特征图相连:
yij=pijxij
5.根据权利要求1-4任一项所述的基于视觉注意力模型的高精度图像检索方法,其特征在于,所述特征向量映射步骤,包含两支共享权值的深度神经网络:全局分支和注意力分支,能够分别将特征图和注意力特征图映射成为全局特征向量和注意力特征向量,并拼接在一起作为输入图像的特征向量。
6.一种基于视觉注意力模型的高精度服装图像检索***,其特征在于包括:
特征图提取模块:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;
注意力图提取模块:对输入的待检索图片,使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图;
注意力结合模块:对输入的所述特征图提取模块得到的特征图和所述注意力图提取模块得到的注意力图进行结合,得到注意力特征图;
特征向量映射模块:对输入的所述特征图提取模块得到的特征图和所述注意力结合模块得到的注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;
相似图像检索模块:根据所述特征向量映射模块得到的图像特征向量使用欧氏距离来计算图像之间的相似度,从而检索出最相似图像。
7.根据权利要求6所述的基于视觉注意力模型的高精度图像检索***,其特征在于,所述注意力图提取模块,其中:运用了小数量的服装分割数据集进行预训练,能够对输入的任意图片提取出0到1之间浮点数组成的注意力图,注意力图中的数值大小代表该区域在原图像中是衣服的可能性,该模块能够在整个***进行端到端训练的过程中被继续学习优化。
8.根据权利要求6所述的基于视觉注意力模型的高精度图像检索***,其特征在于,所述注意力结合模块,其中:在训练时,使用注意力图中的注意力作为概率对特征图中对应区域在通道维度上进行随机舍弃,生成注意力特征图;在测试时,使用注意力图中的注意力作为权值乘以特征图中对应区域在通道维度上的所有数值,生成注意力特征图。
9.根据权利要求8所述的基于视觉注意力模型的高精度图像检索***,其特征在于,所述注意力结合模块,其实现如下功能:在注意力图中的每个点都被视作特征图中对应区域重要的概率,所述注意力结合模块利用这个概率在特征图上对应的位置随机将特征图上的值进行丢弃,产生注意力特征图;
首先所述注意力结合模块利用注意力图中的注意力值pij作为概率产生一个伯努利数列bij
P(bij(c)=k)=pij k(1-pij)1-k,k=0 or 1,c=1…channel
其中c是向量在通道维度的索引,channel是特征图在通道维度上的长度,i是高度维度上的索引,j是宽度维度上的索引,bij(c)是伯努利数列在ij位置c通道上的随机变量的一个采样,k是采样值的一种取值,p是注意力图中的值,pij是注意力图在ij位置上的值,P(bij(c)=k)表示随机事件bij(c)=k发生的概率,上标k为指数函数的指数;
在***训练阶段,正向传播过程中,所述注意力结合模块对bij和对应位置的特征向量xij对应位置作乘法,得到的结果yij,公式如下:
yij=xij·bij
其中xij为特征图在ij位置上的向量,bij为伯努利数列在ij位置上的多元随机变量的一个采样,yij为注意力特征图在ij位置上的向量;
在反向传播时,有两个方向的回传梯度:损失函数关于特征图的回传梯度与损失函数关于注意力图的回传梯度损失函数关于特征图的回传梯度的计算公式如下:
<mrow> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>L</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> </mrow> <mrow> <mo>&amp;part;</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>=</mo> <msub> <mi>b</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&amp;CenterDot;</mo> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>L</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> </mrow> <mrow> <mo>&amp;part;</mo> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow>
其中Loss是损失函数,是损失函数关于特征图在ij位置上的回传梯度,是损失函数关于注意力特征图在ij位置上的回传梯度;
损失函数关于注意力图的回传梯度的计算公式如下:
<mrow> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>L</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> </mrow> <mrow> <mo>&amp;part;</mo> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>c</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>c</mi> <mi>h</mi> <mi>a</mi> <mi>n</mi> <mi>n</mi> <mi>e</mi> <mi>l</mi> </mrow> </munderover> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>L</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> </mrow> <mrow> <mo>&amp;part;</mo> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中是损失函数关于注意力图在ij位置上的回传梯度,xij(c)是xij为特征图在ij位置c通道上的向量,是损失函数关于注意力特征图在ij位置c通道上的回传梯度;
在***测试阶段,注意力结合中的随机性被去除,采用直接相乘的方式将注意力图与特征图相连:
yij=pijxij
10.根据权利要求6-9任一项所述的基于视觉注意力模型的高精度图像检索***,其特征在于,所述特征向量映射模块,包含两支共享权值的深度神经网络:全局分支和注意力分支,能够分别将特征图和注意力特征图映射成为全局特征向量和注意力特征向量,并拼接在一起作为输入图像的特征向量。
CN201710567746.4A 2017-07-12 2017-07-12 基于视觉注意力模型的高精度服装图像检索方法及*** Active CN107291945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710567746.4A CN107291945B (zh) 2017-07-12 2017-07-12 基于视觉注意力模型的高精度服装图像检索方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710567746.4A CN107291945B (zh) 2017-07-12 2017-07-12 基于视觉注意力模型的高精度服装图像检索方法及***

Publications (2)

Publication Number Publication Date
CN107291945A true CN107291945A (zh) 2017-10-24
CN107291945B CN107291945B (zh) 2020-03-31

Family

ID=60100683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710567746.4A Active CN107291945B (zh) 2017-07-12 2017-07-12 基于视觉注意力模型的高精度服装图像检索方法及***

Country Status (1)

Country Link
CN (1) CN107291945B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021916A (zh) * 2017-12-31 2018-05-11 南京航空航天大学 基于注意力机制的深度学习糖尿病视网膜病变分类方法
CN108243129A (zh) * 2017-12-15 2018-07-03 西安电子科技大学 基于注意力深度网络的无线电信号特征提取方法
CN108364023A (zh) * 2018-02-11 2018-08-03 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和***
CN108509949A (zh) * 2018-02-05 2018-09-07 杭州电子科技大学 基于注意力地图的目标检测方法
CN108764041A (zh) * 2018-04-25 2018-11-06 电子科技大学 用于下部遮挡人脸图像的人脸识别方法
CN108960189A (zh) * 2018-07-20 2018-12-07 南京旷云科技有限公司 图像再识别方法、装置及电子设备
CN109145816A (zh) * 2018-08-21 2019-01-04 北京京东尚科信息技术有限公司 商品识别方法和***
CN109344920A (zh) * 2018-12-14 2019-02-15 汇纳科技股份有限公司 顾客属性预测方法、存储介质、***及设备
CN109815919A (zh) * 2019-01-28 2019-05-28 上海七牛信息技术有限公司 一种人群计数方法、网络、***和电子设备
CN110120266A (zh) * 2019-06-27 2019-08-13 中国科学技术大学 骨骼年龄评估方法
CN110211127A (zh) * 2019-08-01 2019-09-06 成都考拉悠然科技有限公司 基于双相关性网络的图像分割方法
CN110393519A (zh) * 2019-08-19 2019-11-01 广州视源电子科技股份有限公司 心电信号的分析方法、装置、存储介质和处理器
CN110532409A (zh) * 2019-07-30 2019-12-03 西北工业大学 基于异构双线性注意力网络的图像检索方法
CN110704665A (zh) * 2019-08-30 2020-01-17 北京大学 一种基于视觉注意力机制的图像特征表达方法及***
CN111488872A (zh) * 2020-03-31 2020-08-04 腾讯科技(深圳)有限公司 图像检测方法、装置、计算机设备和存储介质
CN111612790A (zh) * 2020-04-29 2020-09-01 杭州电子科技大学 一种基于t型注意力结构的医学图像分割方法
CN112036511A (zh) * 2020-09-30 2020-12-04 上海美迪索科电子科技有限公司 基于注意力机制图卷积神经网络的图像检索方法
CN112667839A (zh) * 2019-10-16 2021-04-16 阿里巴巴集团控股有限公司 数据的处理方法、检索方法、装置及设备
US11017261B1 (en) 2017-06-16 2021-05-25 Markable, Inc. Systems and methods for improving visual search using summarization feature
CN113538573A (zh) * 2020-04-20 2021-10-22 中移(成都)信息通信科技有限公司 服饰关键点定位方法、装置、电子设备及计算机存储介质
CN113837172A (zh) * 2020-06-08 2021-12-24 同方威视科技江苏有限公司 货物图像局部区域处理方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250423A (zh) * 2016-07-25 2016-12-21 上海交通大学 基于部分参数共享的深度卷积神经网络跨域服装检索方法
CN106339695A (zh) * 2016-09-20 2017-01-18 北京小米移动软件有限公司 人脸相似检测方法、装置及终端
CN106355573A (zh) * 2016-08-24 2017-01-25 北京小米移动软件有限公司 图片中目标物的定位方法及装置
US20170147905A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Systems and methods for end-to-end object detection
CN106909924A (zh) * 2017-02-18 2017-06-30 北京工业大学 一种基于深度显著性的遥感影像快速检索方法
CN106934397A (zh) * 2017-03-13 2017-07-07 北京市商汤科技开发有限公司 图像处理方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170147905A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Systems and methods for end-to-end object detection
CN106250423A (zh) * 2016-07-25 2016-12-21 上海交通大学 基于部分参数共享的深度卷积神经网络跨域服装检索方法
CN106355573A (zh) * 2016-08-24 2017-01-25 北京小米移动软件有限公司 图片中目标物的定位方法及装置
CN106339695A (zh) * 2016-09-20 2017-01-18 北京小米移动软件有限公司 人脸相似检测方法、装置及终端
CN106909924A (zh) * 2017-02-18 2017-06-30 北京工业大学 一种基于深度显著性的遥感影像快速检索方法
CN106934397A (zh) * 2017-03-13 2017-07-07 北京市商汤科技开发有限公司 图像处理方法、装置及电子设备

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11715294B2 (en) 2017-06-16 2023-08-01 Markable, Inc. Systems and methods for improving visual search using summarization feature
US11017261B1 (en) 2017-06-16 2021-05-25 Markable, Inc. Systems and methods for improving visual search using summarization feature
CN108243129A (zh) * 2017-12-15 2018-07-03 西安电子科技大学 基于注意力深度网络的无线电信号特征提取方法
CN108243129B (zh) * 2017-12-15 2019-12-24 西安电子科技大学 基于注意力深度网络的无线电信号特征提取方法
CN108021916A (zh) * 2017-12-31 2018-05-11 南京航空航天大学 基于注意力机制的深度学习糖尿病视网膜病变分类方法
CN108021916B (zh) * 2017-12-31 2018-11-06 南京航空航天大学 基于注意力机制的深度学习糖尿病视网膜病变分类方法
CN108509949B (zh) * 2018-02-05 2020-05-15 杭州电子科技大学 基于注意力地图的目标检测方法
CN108509949A (zh) * 2018-02-05 2018-09-07 杭州电子科技大学 基于注意力地图的目标检测方法
CN108364023A (zh) * 2018-02-11 2018-08-03 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和***
CN108764041A (zh) * 2018-04-25 2018-11-06 电子科技大学 用于下部遮挡人脸图像的人脸识别方法
CN108764041B (zh) * 2018-04-25 2021-09-14 电子科技大学 用于下部遮挡人脸图像的人脸识别方法
CN108960189A (zh) * 2018-07-20 2018-12-07 南京旷云科技有限公司 图像再识别方法、装置及电子设备
CN108960189B (zh) * 2018-07-20 2020-11-24 南京旷云科技有限公司 图像再识别方法、装置及电子设备
CN109145816A (zh) * 2018-08-21 2019-01-04 北京京东尚科信息技术有限公司 商品识别方法和***
CN109145816B (zh) * 2018-08-21 2021-01-26 北京京东尚科信息技术有限公司 商品识别方法和***
CN109344920A (zh) * 2018-12-14 2019-02-15 汇纳科技股份有限公司 顾客属性预测方法、存储介质、***及设备
CN109344920B (zh) * 2018-12-14 2021-02-02 汇纳科技股份有限公司 顾客属性预测方法、存储介质、***及设备
CN109815919A (zh) * 2019-01-28 2019-05-28 上海七牛信息技术有限公司 一种人群计数方法、网络、***和电子设备
CN110120266B (zh) * 2019-06-27 2022-09-30 中国科学技术大学 骨骼年龄评估方法
CN110120266A (zh) * 2019-06-27 2019-08-13 中国科学技术大学 骨骼年龄评估方法
CN110532409A (zh) * 2019-07-30 2019-12-03 西北工业大学 基于异构双线性注意力网络的图像检索方法
CN110532409B (zh) * 2019-07-30 2022-09-27 西北工业大学 基于异构双线性注意力网络的图像检索方法
CN110211127B (zh) * 2019-08-01 2019-11-26 成都考拉悠然科技有限公司 基于双相关性网络的图像分割方法
CN110211127A (zh) * 2019-08-01 2019-09-06 成都考拉悠然科技有限公司 基于双相关性网络的图像分割方法
CN110393519B (zh) * 2019-08-19 2022-06-24 广州视源电子科技股份有限公司 心电信号的分析方法、装置、存储介质和处理器
CN110393519A (zh) * 2019-08-19 2019-11-01 广州视源电子科技股份有限公司 心电信号的分析方法、装置、存储介质和处理器
CN110704665A (zh) * 2019-08-30 2020-01-17 北京大学 一种基于视觉注意力机制的图像特征表达方法及***
CN112667839A (zh) * 2019-10-16 2021-04-16 阿里巴巴集团控股有限公司 数据的处理方法、检索方法、装置及设备
CN111488872A (zh) * 2020-03-31 2020-08-04 腾讯科技(深圳)有限公司 图像检测方法、装置、计算机设备和存储介质
CN111488872B (zh) * 2020-03-31 2022-10-25 腾讯科技(深圳)有限公司 图像检测方法、装置、计算机设备和存储介质
CN113538573A (zh) * 2020-04-20 2021-10-22 中移(成都)信息通信科技有限公司 服饰关键点定位方法、装置、电子设备及计算机存储介质
CN111612790A (zh) * 2020-04-29 2020-09-01 杭州电子科技大学 一种基于t型注意力结构的医学图像分割方法
CN111612790B (zh) * 2020-04-29 2023-10-17 杭州电子科技大学 一种基于t型注意力结构的医学图像分割方法
CN113837172A (zh) * 2020-06-08 2021-12-24 同方威视科技江苏有限公司 货物图像局部区域处理方法、装置、设备及存储介质
CN112036511A (zh) * 2020-09-30 2020-12-04 上海美迪索科电子科技有限公司 基于注意力机制图卷积神经网络的图像检索方法
CN112036511B (zh) * 2020-09-30 2024-04-30 上海美迪索科电子科技有限公司 基于注意力机制图卷积神经网络的图像检索方法

Also Published As

Publication number Publication date
CN107291945B (zh) 2020-03-31

Similar Documents

Publication Publication Date Title
CN107291945A (zh) 基于视觉注意力模型的高精度服装图像检索方法及***
CN103430179B (zh) 在图像数据库中添加新图像和其相关信息的方法、***以及计算机可读存储介质
CN110473141A (zh) 图像处理方法、装置、存储介质及电子设备
CN107835113A (zh) 一种基于网络映射的社交网络中异常用户检测方法
CN103617290B (zh) 中文机器阅读***
CN103886023B (zh) Excel数据表的存储、提取方法及***
CN105824825B (zh) 一种敏感数据识别方法和装置
CN109446333A (zh) 一种实现中文文本分类的方法及相关设备
CN110210387A (zh) 基于知识图谱的绝缘子目标检测方法、***、装置
CN107463881A (zh) 一种基于深度增强学习的人物图像搜索方法
CN109753987A (zh) 文件识别方法和特征提取方法
CN110033416A (zh) 一种结合多粒度的车联网图像复原方法
CN109062894A (zh) 中文自然语言实体语义关系的自动辨识算法
Liu et al. Fabric defect detection based on faster R-CNN
CN107729901A (zh) 图像处理模型的建立方法、装置及图像处理方法及***
CN106959962A (zh) 一种多模式字符串匹配方法和装置
CN108154235A (zh) 一种图像问答推理方法、***及装置
CN111125408A (zh) 基于特征提取的搜索方法、装置、计算机设备和存储介质
CN115344805A (zh) 素材审核方法、计算设备及存储介质
CN104615621B (zh) 搜索中的相关性处理方法和***
Chen et al. Fresh tea sprouts detection via image enhancement and fusion SSD
CN106055636A (zh) 一种岩石便携智能识别方法
CN117195060B (zh) 基于多方安全计算的电信诈骗识别方法和模型训练方法
CN106295252A (zh) 用于基因产品的检索方法
CN117951308A (zh) 一种零样本知识图谱补全方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20181016

Address after: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Applicant after: Zhang Ya

Applicant after: Wang Yanfeng

Address before: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Applicant before: Shanghai Jiao Tong University

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20181116

Address after: Room 387, Building 333, Hongqiao Road, Xuhui District, Shanghai 200030

Applicant after: Shanghai Media Intelligence Technology Co., Ltd.

Address before: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Applicant before: Zhang Ya

Applicant before: Wang Yanfeng

GR01 Patent grant
GR01 Patent grant