CN113204666B

CN113204666B - 一种基于文字查找匹配图片的方法

Info

Publication number: CN113204666B
Application number: CN202110576605.5A
Authority: CN
Inventors: 赵天成
Original assignee: Hangzhou Linker Technology Co ltd
Current assignee: Hangzhou Linker Technology Co ltd
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2022-04-05
Anticipated expiration: 2041-05-26
Also published as: CN113204666A

Abstract

本方案公开了一种基于文字查找匹配图片的方法，其包括以下步骤：S1、在预训练模型中检索查询语句中的每一个字段相对应的词向量，作为该字段的初始特征；S2、计算出查询语句与图片库中每张图像的匹配分数；S3、将每张图片的匹配分数转换为带权重的倒排索引形式，即以词为单位，记录含有每个词的图片ID，并且记录这个词在这个图片的权重，输出检索结果。本方案可以学习查询语句字段与图片区域的精确联系，从而获得高召回率的表现；得益于独立学习查询语语句字段的特征以及图片区域的特征，预先将图片编入索引，并把整个检索操作归纳为倒排索引，从而保证了跨模态检索的效率。本方案适用于图片识别检索领域。

Description

一种基于文字查找匹配图片的方法

技术领域

本发明涉及图片识别处理领域，尤其是涉及一种基于文字查找匹配图片的方法。

背景技术

现有的通过给定的查询语句查找最匹配的图片的方案，一般是着力于研究如何建模从而学习语句与图片之间的联系，但是现有的模型都没有考虑到准确率和实际场景中应用的集合，适用性较差。

发明内容

本发明主要是解决现有技术所存在的缺乏考虑实际场景导致准确率不高的技术问题，提供一种具有较高准确率的基于文字查找匹配图片的方法。

本发明针对上述技术问题主要是通过下述技术方案得以解决的：一种基于文字查找匹配图片的方法，包括以下步骤：

S1、对查询语句进行编码；

S2、计算出编码后的查询语句与图片库中每张图像的匹配分数；

S3、将每张图片的匹配分数转换为带权重的倒排索引形式，即以词为单位，记录含有每个词的图片ID，并且记录这个词在这个图片的权重，输出检索结果。

作为优选，步骤S1具体为：

在预训练模型中检索查询语句中的每一个字段相对应的词向量，作为该字段的初始特征，

w_i为查询语句中的第i个字段，

为检索得到的词向量，BertEmbedding表示大型预训练模型所取得的存储字段词向量的词典；

查询语句表示为

m是词典所包含的词的个数，

是词典输出的d_H维度的向量。

作为优选，步骤S1具体为：

对于查询语句q＝[w₁,w₂,…,w_s]，提取所有1-2的n-gram组合，包含N＝[w₁,w₂,…,w_s,w₁₂,w₂₃,…,w_(s-1)s]，用BertEmbedding对N进行向量化编码：

W_i＝BertEmbedding(w_i)

W_ij＝Avg(BertEmbedding([w_i,w_j])

得到编码后的查询语句。

对于所有1-gram来说，我们通过BertEmbedding直接进行词向量编码。对于2-gram来说，我们通过BertEmbedding对其两个单词进行编码，然后用平均数的方式取得两个词的向量表示方式。通过这种方式，既能保证可以提前建立关于一个图片库的索引，又可以一定程度上保留查询q里的词序信息，最终性能高于仅仅依靠1-gram的算法，达到了保持后期查询的高效率且一定程度上保留查询语句中的词序关系的目的。

作为优选，每张图片通过以下步骤进入图片库：

A1、将图片放入Faster-RCNN网络(Faster-RCNN可以直接使用开源版本)，取得其中的n个区域特征，以及区域特征所对应的位置特征，区域特征表示为：

式中，v_i为图片的第i个区域的区域特征，1≤i≤n，

是Faster-RCNN输出的向量维度；

A2、获取每个区域的位置特征l_i，表示为归一化后的区域左上角和右下角的坐标以及区域的长度和宽度：

l_i＝[l_i-xmin,l_i-xmax,l_i-ymin,l_i-ymax,l_i-width,l_i-height]

l_i-xmin为第i个区域的左上角x坐标，l_i-xmax为第i个区域的右下角x坐标，l_i-ymin为第i个区域的左上角y坐标，l_i-ymax为第i个区域的右下角y坐标，l_i-width为第i个区域的宽度，l_i-height为第i个区域的长度；

A3、将第i个区域的区域特征和位置特征结合得到

E_i＝[v_i；l_i]

从而得到单张图片的特征表达为：

A4、通过Fasfer-RCNN网络预测图片的物体标签，表示为：

其中o_i表示[o₁,…,o_k]中的一个物品标签，[o₁,…,o_k]为物体的文字标签合集，E_wo_rd(o_i)代表词向量，E_po_s(o_i)代表位置向量，E_seg(o_i)表示字段种类向量；

A5、将单张图片的特征和物品标签的结合得到图片的最终表示a：

a＝[(E_imageW+b)；E_label]

式中，

是可训练的线性组合的权重，

是可训练的线性组合的偏差，W和b都是依据训练方法，通过神经网络迭代获得；

A6、将集合a传入BERT编码器(即BertEmbedding)，得到最终的图片特征：

H_answer＝BertEncoder(a)

式中，

就是图片最终的基于语境的特征表达，将图片和图片的特征表达对应存入图片库。

作为优选，模型训练方法如下：

查询语句的特征合集为w，图片的特征合集为v，对第i个字段w_i和图片的每个区域信息，通过点乘获得相似度分数，并选择最大值作为代表其匹配程度的分数y_i，然后通过反向传播算法修正模型，具体公式如下：

模型以Oscar base为初始值，s为查询语句中词向量的个数。对于分数y_i，加入了ReLU函数从而去除负值对于字段分数的影响。

作为优选，步骤S2中，计算查询语句与图片库中每张图片的匹配分数的方法与模型训练方法中计算匹配程度的方法相同。

本发明带来的实质性效果是：可以学习查询语句字段与图片区域的精确联系，从而获得高召回率的表现；得益于独立学习查询语语句字段的特征以及图片区域的特征，预先将图片编入索引，并把整个检索操作归纳为倒排索引，从而保证了跨模态检索的效率。

附图说明

图1是本发明的一种流程图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例1：本实施例的一种基于文字查找匹配图片的方法，如图1所示，包括以下步骤：

S1、在预训练模型中检索查询语句中的每一个字段相对应的词向量，作为该字段的初始特征，

w_i为查询语句中的第i个字段，

查询语句表示为

m是词典所包含的词的个数，

是词典输出的d_H维度的向量；

S2、计算出查询语句与图片库中每张图像的匹配分数；

每张图片通过以下步骤进入图片库：

式中，v_i为图片的第i个区域的区域特征，1≤i≤n，

是Faster-RCNN输出的向量维度；

l_i＝[l_i-xmin,l_i-xmax,l_i-ymin,l_i-ymax,l_i-width,l_i-height]

A3、将第i个区域的区域特征和位置特征结合得到

E_i＝[v_i；l_i]

从而得到单张图片的特征表达为：

A4、通过Fasfer-RCNN网络预测图片的物体标签，表示为：

a＝[(E_imageW+b)；E_label]

式中，

是可训练的线性组合的权重，

H_answer＝BertEncoder(a)

式中，

模型训练方法如下：

步骤S2中，计算查询语句与图片库中每张图片的匹配分数的方法与模型训练方法中计算匹配程度的方法相同。

实施例2：本实施例的一种基于文字查找匹配图片的方法，包括以下步骤：

S1、对于查询语句q＝[w₁,w₂,…,w_s]，提取所有1-2的n-gram组合，包含N＝[w₁,w₂,…,w_s,w₁₂,w₂₃,…,w_(s-1)s]，用BertEmbedding对N进行向量化编码：

W_i＝BertEmbedding(w_i)

W_ij＝Avg(BertEmbedding([w_i,w_j])

S2、计算出查询语句与图片库中每张图像的匹配分数；

其余步骤与实施例1相同。

本方案在MSCOCO和Flickr 30K数据集上进行测试，检索速度都大幅超越了之前最好的双塔模型(CVSE)和基于Transformer结构的模型(Oscar)。在113K数据集上，本方案的检索速度为CVSE的9.1倍，为Oscar的9960.7倍；在1M数据集上，本方案的检索速度是CVSE的102倍，是Oscar的51000倍。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了查询语句、特征、向量维度等术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。