CN113204666B - 一种基于文字查找匹配图片的方法 - Google Patents
一种基于文字查找匹配图片的方法 Download PDFInfo
- Publication number
- CN113204666B CN113204666B CN202110576605.5A CN202110576605A CN113204666B CN 113204666 B CN113204666 B CN 113204666B CN 202110576605 A CN202110576605 A CN 202110576605A CN 113204666 B CN113204666 B CN 113204666B
- Authority
- CN
- China
- Prior art keywords
- picture
- word
- field
- ith
- query statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本方案公开了一种基于文字查找匹配图片的方法,其包括以下步骤:S1、在预训练模型中检索查询语句中的每一个字段相对应的词向量,作为该字段的初始特征;S2、计算出查询语句与图片库中每张图像的匹配分数;S3、将每张图片的匹配分数转换为带权重的倒排索引形式,即以词为单位,记录含有每个词的图片ID,并且记录这个词在这个图片的权重,输出检索结果。本方案可以学习查询语句字段与图片区域的精确联系,从而获得高召回率的表现;得益于独立学习查询语语句字段的特征以及图片区域的特征,预先将图片编入索引,并把整个检索操作归纳为倒排索引,从而保证了跨模态检索的效率。本方案适用于图片识别检索领域。
Description
技术领域
本发明涉及图片识别处理领域,尤其是涉及一种基于文字查找匹配图片的方法。
背景技术
现有的通过给定的查询语句查找最匹配的图片的方案,一般是着力于研究如何建模从而学习语句与图片之间的联系,但是现有的模型都没有考虑到准确率和实际场景中应用的集合,适用性较差。
发明内容
本发明主要是解决现有技术所存在的缺乏考虑实际场景导致准确率不高的技术问题,提供一种具有较高准确率的基于文字查找匹配图片的方法。
本发明针对上述技术问题主要是通过下述技术方案得以解决的:一种基于文字查找匹配图片的方法,包括以下步骤:
S1、对查询语句进行编码;
S2、计算出编码后的查询语句与图片库中每张图像的匹配分数;
S3、将每张图片的匹配分数转换为带权重的倒排索引形式,即以词为单位,记录含有每个词的图片ID,并且记录这个词在这个图片的权重,输出检索结果。
作为优选,步骤S1具体为:
在预训练模型中检索查询语句中的每一个字段相对应的词向量,作为该字段的初始特征,
作为优选,步骤S1具体为:
对于查询语句q=[w1,w2,…,ws],提取所有1-2的n-gram组合,包含N=[w1,w2,…,ws,w12,w23,…,w(s-1)s],用BertEmbedding对N进行向量化编码:
Wi=BertEmbedding(wi)
Wij=Avg(BertEmbedding([wi,wj])
得到编码后的查询语句。
对于所有1-gram来说,我们通过BertEmbedding直接进行词向量编码。对于2-gram来说,我们通过BertEmbedding对其两个单词进行编码,然后用平均数的方式取得两个词的向量表示方式。通过这种方式,既能保证可以提前建立关于一个图片库的索引,又可以一定程度上保留查询q里的词序信息,最终性能高于仅仅依靠1-gram的算法,达到了保持后期查询的高效率且一定程度上保留查询语句中的词序关系的目的。
作为优选,每张图片通过以下步骤进入图片库:
A1、将图片放入Faster-RCNN网络(Faster-RCNN可以直接使用开源版本),取得其中的n个区域特征,以及区域特征所对应的位置特征,区域特征表示为:
A2、获取每个区域的位置特征li,表示为归一化后的区域左上角和右下角的坐标以及区域的长度和宽度:
li=[li-xmin,li-xmax,li-ymin,li-ymax,li-width,li-height]
li-xmin为第i个区域的左上角x坐标,li-xmax为第i个区域的右下角x坐标,li-ymin为第i个区域的左上角y坐标,li-ymax为第i个区域的右下角y坐标,li-width为第i个区域的宽度,li-height为第i个区域的长度;
A3、将第i个区域的区域特征和位置特征结合得到
Ei=[vi;li]
从而得到单张图片的特征表达为:
A4、通过Fasfer-RCNN网络预测图片的物体标签,表示为:
其中oi表示[o1,…,ok]中的一个物品标签,[o1,…,ok]为物体的文字标签合集,Eword(oi)代表词向量,Epos(oi)代表位置向量,Eseg(oi)表示字段种类向量;
A5、将单张图片的特征和物品标签的结合得到图片的最终表示a:
a=[(EimageW+b);Elabel]
A6、将集合a传入BERT编码器(即BertEmbedding),得到最终的图片特征:
Hanswer=BertEncoder(a)
作为优选,模型训练方法如下:
查询语句的特征合集为w,图片的特征合集为v,对第i个字段wi和图片的每个区域信息,通过点乘获得相似度分数,并选择最大值作为代表其匹配程度的分数yi,然后通过反向传播算法修正模型,具体公式如下:
模型以Oscar base为初始值,s为查询语句中词向量的个数。对于分数yi,加入了ReLU函数从而去除负值对于字段分数的影响。
作为优选,步骤S2中,计算查询语句与图片库中每张图片的匹配分数的方法与模型训练方法中计算匹配程度的方法相同。
本发明带来的实质性效果是:可以学习查询语句字段与图片区域的精确联系,从而获得高召回率的表现;得益于独立学习查询语语句字段的特征以及图片区域的特征,预先将图片编入索引,并把整个检索操作归纳为倒排索引,从而保证了跨模态检索的效率。
附图说明
图1是本发明的一种流程图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例1:本实施例的一种基于文字查找匹配图片的方法,如图1所示,包括以下步骤:
S1、在预训练模型中检索查询语句中的每一个字段相对应的词向量,作为该字段的初始特征,
S2、计算出查询语句与图片库中每张图像的匹配分数;
S3、将每张图片的匹配分数转换为带权重的倒排索引形式,即以词为单位,记录含有每个词的图片ID,并且记录这个词在这个图片的权重,输出检索结果。
每张图片通过以下步骤进入图片库:
A1、将图片放入Faster-RCNN网络(Faster-RCNN可以直接使用开源版本),取得其中的n个区域特征,以及区域特征所对应的位置特征,区域特征表示为:
A2、获取每个区域的位置特征li,表示为归一化后的区域左上角和右下角的坐标以及区域的长度和宽度:
li=[li-xmin,li-xmax,li-ymin,li-ymax,li-width,li-height]
li-xmin为第i个区域的左上角x坐标,li-xmax为第i个区域的右下角x坐标,li-ymin为第i个区域的左上角y坐标,li-ymax为第i个区域的右下角y坐标,li-width为第i个区域的宽度,li-height为第i个区域的长度;
A3、将第i个区域的区域特征和位置特征结合得到
Ei=[vi;li]
从而得到单张图片的特征表达为:
A4、通过Fasfer-RCNN网络预测图片的物体标签,表示为:
其中oi表示[o1,…,ok]中的一个物品标签,[o1,…,ok]为物体的文字标签合集,Eword(oi)代表词向量,Epos(oi)代表位置向量,Eseg(oi)表示字段种类向量;
A5、将单张图片的特征和物品标签的结合得到图片的最终表示a:
a=[(EimageW+b);Elabel]
A6、将集合a传入BERT编码器(即BertEmbedding),得到最终的图片特征:
Hanswer=BertEncoder(a)
模型训练方法如下:
查询语句的特征合集为w,图片的特征合集为v,对第i个字段wi和图片的每个区域信息,通过点乘获得相似度分数,并选择最大值作为代表其匹配程度的分数yi,然后通过反向传播算法修正模型,具体公式如下:
模型以Oscar base为初始值,s为查询语句中词向量的个数。对于分数yi,加入了ReLU函数从而去除负值对于字段分数的影响。
步骤S2中,计算查询语句与图片库中每张图片的匹配分数的方法与模型训练方法中计算匹配程度的方法相同。
实施例2:本实施例的一种基于文字查找匹配图片的方法,包括以下步骤:
S1、对于查询语句q=[w1,w2,…,ws],提取所有1-2的n-gram组合,包含N=[w1,w2,…,ws,w12,w23,…,w(s-1)s],用BertEmbedding对N进行向量化编码:
Wi=BertEmbedding(wi)
Wij=Avg(BertEmbedding([wi,wj])
S2、计算出查询语句与图片库中每张图像的匹配分数;
S3、将每张图片的匹配分数转换为带权重的倒排索引形式,即以词为单位,记录含有每个词的图片ID,并且记录这个词在这个图片的权重,输出检索结果。
对于所有1-gram来说,我们通过BertEmbedding直接进行词向量编码。对于2-gram来说,我们通过BertEmbedding对其两个单词进行编码,然后用平均数的方式取得两个词的向量表示方式。通过这种方式,既能保证可以提前建立关于一个图片库的索引,又可以一定程度上保留查询q里的词序信息,最终性能高于仅仅依靠1-gram的算法,达到了保持后期查询的高效率且一定程度上保留查询语句中的词序关系的目的。
其余步骤与实施例1相同。
本方案在MSCOCO和Flickr 30K数据集上进行测试,检索速度都大幅超越了之前最好的双塔模型(CVSE)和基于Transformer结构的模型(Oscar)。在113K数据集上,本方案的检索速度为CVSE的9.1倍,为Oscar的9960.7倍;在1M数据集上,本方案的检索速度是CVSE的102倍,是Oscar的51000倍。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了查询语句、特征、向量维度等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。
Claims (3)
1.一种基于文字查找匹配图片的方法,其特征在于,包括以下步骤:
S1、对查询语句进行编码;
S2、计算出编码后的查询语句与图片库中每张图像的匹配分数;
S3、将每张图片的匹配分数转换为带权重的倒排索引形式,即以词为单位,记录含有每个词的图片ID,并且记录这个词在这个图片的权重,输出检索结果;
步骤S1具体为:
在预训练模型中检索查询语句中的每一个字段相对应的词向量,作为该字段的初始特征,
步骤S1或者具体为:
对于查询语句q=[w1,w2,…,ws],提取所有1-2的n-gram组合,包含N=[w1,w2,…,ws,w12,w23,…,w(s-1)s],用BertEmbedding对N进行向量化编码:
Wi=BertEmbedding(wi)
Wij=Avg(BertEmbedding([wi,wj])
得到编码后的查询语句;
每张图片通过以下步骤进入图片库:
A1、将图片放入Faster-RCNN网络,取得其中的n个区域特征,以及区域特征所对应的位置特征,区域特征表示为:
A2、获取每个区域的位置特征li,表示为归一化后的区域左上角和右下角的坐标以及区域的长度和宽度:
li=[li-xmin,li-xmax,li-ymin,li-ymax,li-width,li-height]
li-xmin为第i个区域的左上角x坐标,li-xmax为第i个区域的右下角x坐标,li-ymin为第i个区域的左上角y坐标,li-ymax为第i个区域的右下角y坐标,li-width为第i个区域的宽度,li-height为第i个区域的长度;
A3、将第i个区域的区域特征和位置特征结合得到
Ei=[vi;li]
从而得到单张图片的特征表达为:
A4、通过Fasfer-RCNN网络预测图片的物体标签Elabel,表示为:
其中oi表示[o1,…,ok]中的一个物品标签,[o1,…,ok]为物体的文字标签合集,Eword(oi)代表词向量,Epos(oi)代表位置向量,Eseg(oi)表示字段种类向量;
A5、将单张图片的特征和物品标签的结合得到图片的最终表示a:
a=[(EimageW+b);Elabel]
A6、将集合a传入BERT编码器,得到最终的图片特征:
Hanswer=BertEncoder(a)
3.根据权利要求2所述的一种基于文字查找匹配图片的方法,其特征在于,步骤S2中,计算查询语句与图片库中每张图片的匹配分数的方法与模型训练方法中计算匹配程度的方法相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110576605.5A CN113204666B (zh) | 2021-05-26 | 2021-05-26 | 一种基于文字查找匹配图片的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110576605.5A CN113204666B (zh) | 2021-05-26 | 2021-05-26 | 一种基于文字查找匹配图片的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113204666A CN113204666A (zh) | 2021-08-03 |
CN113204666B true CN113204666B (zh) | 2022-04-05 |
Family
ID=77023147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110576605.5A Active CN113204666B (zh) | 2021-05-26 | 2021-05-26 | 一种基于文字查找匹配图片的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113204666B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562812A (zh) * | 2017-08-11 | 2018-01-09 | 北京大学 | 一种基于特定模态语义空间建模的跨模态相似性学习方法 |
CN108509521A (zh) * | 2018-03-12 | 2018-09-07 | 华南理工大学 | 一种自动生成文本索引的图像检索方法 |
CN109712108A (zh) * | 2018-11-05 | 2019-05-03 | 杭州电子科技大学 | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 |
CN110851641A (zh) * | 2018-08-01 | 2020-02-28 | 杭州海康威视数字技术股份有限公司 | 跨模态检索方法、装置和可读存储介质 |
CN111026894A (zh) * | 2019-12-12 | 2020-04-17 | 清华大学 | 基于可信度自适应匹配网络的跨模态图像文本检索方法 |
CN111897913A (zh) * | 2020-07-16 | 2020-11-06 | 浙江工商大学 | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845499A (zh) * | 2017-01-19 | 2017-06-13 | 清华大学 | 一种基于自然语言语义的图像目标检测方法 |
CN109086437B (zh) * | 2018-08-15 | 2021-06-01 | 重庆大学 | 一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法 |
CN110309267B (zh) * | 2019-07-08 | 2021-05-25 | 哈尔滨工业大学 | 基于预训练模型的语义检索方法和*** |
US11238631B2 (en) * | 2019-08-19 | 2022-02-01 | Sri International | Align-to-ground, weakly supervised phrase grounding guided by image-caption alignment |
CN110889003B (zh) * | 2019-11-20 | 2022-05-03 | 中山大学 | 一种基于文本的车辆图像细粒度检索*** |
CN111523534B (zh) * | 2020-03-31 | 2022-04-05 | 华东师范大学 | 一种图像描述的方法 |
CN111858882B (zh) * | 2020-06-24 | 2022-08-09 | 贵州大学 | 一种基于概念交互和关联语义的文本视觉问答***及方法 |
CN112000818B (zh) * | 2020-07-10 | 2023-05-12 | 中国科学院信息工程研究所 | 一种面向文本和图像的跨媒体检索方法及电子装置 |
CN112732864B (zh) * | 2020-12-25 | 2021-11-09 | 中国科学院软件研究所 | 一种基于稠密伪查询向量表示的文档检索方法 |
-
2021
- 2021-05-26 CN CN202110576605.5A patent/CN113204666B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562812A (zh) * | 2017-08-11 | 2018-01-09 | 北京大学 | 一种基于特定模态语义空间建模的跨模态相似性学习方法 |
CN108509521A (zh) * | 2018-03-12 | 2018-09-07 | 华南理工大学 | 一种自动生成文本索引的图像检索方法 |
CN110851641A (zh) * | 2018-08-01 | 2020-02-28 | 杭州海康威视数字技术股份有限公司 | 跨模态检索方法、装置和可读存储介质 |
CN109712108A (zh) * | 2018-11-05 | 2019-05-03 | 杭州电子科技大学 | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 |
CN111026894A (zh) * | 2019-12-12 | 2020-04-17 | 清华大学 | 基于可信度自适应匹配网络的跨模态图像文本检索方法 |
CN111897913A (zh) * | 2020-07-16 | 2020-11-06 | 浙江工商大学 | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113204666A (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gallant et al. | Representing objects, relations, and sequences | |
CN110737763A (zh) | 一种融合知识图谱和深度学习的中文智能问答***及方法 | |
CN112100351A (zh) | 一种通过问题生成数据集构建智能问答***的方法及设备 | |
CN111985369A (zh) | 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法 | |
CN110851596A (zh) | 文本分类方法、装置及计算机可读存储介质 | |
CN110580288B (zh) | 基于人工智能的文本分类方法和装置 | |
CN111709242A (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN111241828A (zh) | 情感智能识别方法、装置及计算机可读存储介质 | |
CN113948217A (zh) | 一种基于局部特征整合的医学嵌套命名实体识别方法 | |
CN116070602B (zh) | 一种pdf文档智能标注与抽取方法 | |
CN114020906A (zh) | 基于孪生神经网络的中文医疗文本信息匹配方法及*** | |
CN111581392B (zh) | 一种基于语句通顺度的自动作文评分计算方法 | |
CN111597815A (zh) | 一种多嵌入命名实体识别方法、装置、设备及存储介质 | |
CN112650845A (zh) | 一种基于bert与知识表示学习的问答***及方法 | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN114049501A (zh) | 融合集束搜索的图像描述生成方法、***、介质及设备 | |
CN113204666B (zh) | 一种基于文字查找匹配图片的方法 | |
CN116956925A (zh) | 电子病历命名实体识别方法和装置、电子设备及存储介质 | |
CN116306653A (zh) | 一种正则化领域知识辅助的命名实体识别方法 | |
CN111666375A (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
CN116881409A (zh) | 一种基于电商知识图谱的商品信息自动问答方法 | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
CN113990420A (zh) | 一种电子病历命名实体识别方法 | |
CN114298047A (zh) | 基于笔画卷积和词向量的中文命名实体识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |