CN108228686B - 用于实现图文匹配的方法、装置和电子设备 - Google Patents

用于实现图文匹配的方法、装置和电子设备 Download PDF

Info

Publication number
CN108228686B
CN108228686B CN201710453664.7A CN201710453664A CN108228686B CN 108228686 B CN108228686 B CN 108228686B CN 201710453664 A CN201710453664 A CN 201710453664A CN 108228686 B CN108228686 B CN 108228686B
Authority
CN
China
Prior art keywords
image
text
features
neural network
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710453664.7A
Other languages
English (en)
Other versions
CN108228686A (zh
Inventor
李爽
肖桐
李鸿升
杨巍
王晓刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201710453664.7A priority Critical patent/CN108228686B/zh
Publication of CN108228686A publication Critical patent/CN108228686A/zh
Application granted granted Critical
Publication of CN108228686B publication Critical patent/CN108228686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/424Syntactic representation, e.g. by using alphabets or grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种用于实现图文匹配的方法、装置、电子设备以及计算机可读介质,其中,用于实现图文匹配的方法主要包括:获取一组图像和文本;利用第一卷积神经网络获取所述图像的图像特征,并利用第一递归神经网络获取所述文本中的各词语特征;针对所述图像特征和所述各词语特征进行语义注意力处理,得到语义注意力值;根据所述语义注意力值,计算所述图像和所述文本的匹配程度。本发明实施例在一定程度上提高了图文匹配的准确性。

Description

用于实现图文匹配的方法、装置和电子设备
技术领域
本发明涉及计算机视觉技术,尤其是一种用于实现图文匹配的方法、介 质、用于实现图文匹配的装置以及电子设备。
背景技术
图文匹配技术可以根据图像特征以及文本特征而识别出相互匹配的图像 和文本。图文匹配技术由于其可以广泛应用于视觉问答以及图像字幕生成等 领域,从而已经成为计算机视觉技术领域中的一项重要技术。
现有的图文匹配技术通常包括:利用卷积神经网络提取输入图像的图像 特征,并计算输入图像的图像特征与所有文本的文本特征之间的相关性,利 用递归神经网络提取输入文本的文本特征,并计算输入文本的文本特征与所 有图像的图像特征之间的相关性;例如,计算文本特征与图像特征之间的欧 式距离或者马式距离或者向量内积等,从而获得两者的相关性;然后,根据 计算获得的相关性判断与输入图像匹配的文本以及与输入文本匹配的图像。
发明内容
本发明实施方式提供一种用于图文匹配的技术方案。
根据本发明实施方式的一个方面,提供了一种用于实现图文匹配的方 法,包括:获取一组图像和文本;利用第一卷积神经网络获取所述图像的图 像特征,并利用第一递归神经网络获取所述文本中的各词语特征;针对所述 图像特征和所述各词语特征进行语义注意力处理,得到语义注意力值;根据 所述语义注意力值,计算所述图像和所述文本的匹配程度。
在本发明一个实施方式中,所述获取一组图像和文本的步骤包括:获取 输入图像,并从文本集合中选取任意一文本,将所述输入图像和所述选取的 文本作为所述一组图像和文本;或者,获取输入文本,并从图像集合中选取 任意一图像,将所述输入图像和所述选取的图像作为所述一组图像和文本; 其中,所述文本集合为对文本库中的文本进行筛选过滤,由筛选过滤后获得 的多个文本所形成的文本集合,且所述图像集合为对图像库中的图像进行筛 选过滤,由筛选过滤后获得的多个图像所形成的图像集合。
在本发明又一个实施方式中,所述对文本库中的文本进行筛选过滤的步 骤包括:利用第二卷积神经网络获取所述输入图像的图像特征,并利用第二 递归神经网络获取文本库中的各文本的文本特征;计算所述输入图像的图像 特征与各文本的文本特征的相关性;根据所述相关性的排序从所述各文本中 选择多个文本,且所述选择出的多个文本作为所述文本集合。
在本发明再一个实施方式中,所述对图像库中的图像进行筛选过滤的步 骤包括:利用第二递归神经网络获取所述输入文本的文本特征,并利用第二 卷积神经网络获取图像库中的各图像的图像特征;计算所述输入文本的文本 特征与各图像的图像特征的相关性;根据所述相关性的排序从所述各图像中 选择多个图像,且所述选择出的多个图像形成所述图像集合。
在本发明再一个实施方式中,所述方法还包括:利用带有个体标识的图 像样本以及带有个体标识的文本样本对第二卷积神经网络和第二递归神经网 络进行训练的步骤。
在本发明再一个实施方式中,所述训练的步骤包括:利用第二卷积神经 网络获取带有个体标识的图像样本的图像特征,并利用第二递归神经网络获 取带有个体标识的文本样本的文本特征;计算所述图像样本的图像特征与文 本特征集合中的各文本样本的文本特征的第一匹配度,并计算所述文本样本 的文本特征与图像特征集合中的各图像样本的图像特征的第二匹配度;根据 所述第一匹配度和第二匹配度的交叉熵损失函数更新所述第二卷积神经网络 和第二递归神经网络的参数。
在本发明再一个实施方式中,所述图像特征集合中,具有相同个体标识 的不同图像样本的图像特征共享该个体标识的图像特征存储空间;和/或,所 述文本特征集合中,具有相同个体标识的不同文本样本的文本特征共享该个 体标识的图像特征存储空间。
在本发明再一个实施方式中,所述方法还包括:在确定出所述图像特征 集合中未包含有所述带有个体标识的图像样本的图像特征时,将所述带有个 体标识的图像样本的图像特征添加在所述图像特征集合中;在确定出所述文 本特征集合中未包含有所述带有个体标识的文本样本的文本特征时,将所述 带有个体标识的文本样本的文本特征添加在所述文本特征集合中。
在本发明再一个实施方式中,所述方法还包括:将训练后的第二卷积神 经网络作为初始化的第一卷积神经网络;将训练后的第二递归神经网络作为 初始化的第一递归神经网络。
在本发明再一个实施方式中,所述利用第一递归神经网络获取所述文本 中的各词语特征的步骤包括:获取所述文本中各词语的独热向量;将所述各 词语的独热向量输入全连接层进行编码;将各词语对应的编码依次输入第一 递归神经网络,并根据第一递归神经网络的输出获得各词语特征。
在本发明再一个实施方式中,所述方法在针对所述图像特征和所述各词 语特征进行语义注意力处理,得到语义注意力值的步骤之前还包括:对图像 特征进行修正,得到修正图像特征;且所述针对所述图像特征和所述各词语 特征进行语义注意力处理,得到语义注意力值的步骤包括:针对所述修正图 像特征和所述各词语特征进行语义注意力处理,得到所述语义注意力值。
在本发明再一个实施方式中,所述对图像特征进行修正的步骤包括:根 据图像中各区域的图像特征与所述各词语特征,获取空间注意力值;根据所 述空间注意力值,在所述各区域中选择目标区域;获取所述目标区域对应的 图像特征,作为所述修正图像特征。
在本发明再一个实施方式中,所述图像中各区域的大小相同,且每一个 图像区域所包括的图像特征的数量相同。
在本发明再一个实施方式中,所述根据图像中各区域的图像特征与所述 各词语特征,获取空间注意力值的步骤包括:利用空间注意力模型计算各区 域的图像特征与各词语特征之间的亲密度,并对各亲密度分别进行归一化处 理;根据所述归一化处理后的各亲密度以及各区域的图像特征计算所述图像 针对各词语的图像特征。
在本发明再一个实施方式中,所述针对所述图像特征和所述各词语特征 进行语义注意力处理的步骤包括:将所述图像针对各词语的图像特征与相应 词语的特征分别级联,并分别输入语义注意力模型,由所述语义注意力模型 计算每一个词语在不同概念上对所述图像的贡献。
在本发明再一个实施方式中,所述根据所述语义注意力处理的结果计算 所述图像和所述文本的匹配程度的步骤包括:根据所述每一个词语在不同概 念上对所述图像的贡献以及所述级联确定所述针对各词语的图像特征在不同 概念上的贡献;利用递归神经网络对所述针对各词语的图像特征在不同概念 上的贡献进行解码处理;利用全连接层和二值分类器对所述解码处理后的信 息确定所述图像和文本的匹配程度。
根据本发明实施方式的另一个方面,提供了一种用于实现图文匹配的装 置,且该装置包括:获取图文模块,用于获取一组图像和文本;第一获取特 征模块,用于利用第一卷积神经网络获取所述图像的图像特征;第二获取特 征模块,用于利用第一递归神经网络获取所述文本中的各词语特征;处理模 块,用于针对所述图像特征和所述各词语特征进行语义注意力处理,得到语 义注意力值;判断模块,用于根据所述语义注意力值,计算所述图像和所述 文本的匹配程度。
根据本发明实施例的再一个方面,提供了一种电子设备,包括:存储 器,用于存储计算机程序;处理器,用于执行所述存储器中存储的计算机程 序,且所述计算机程序被执行时,下述指令被运行:用于获取一组图像和文 本的指令;用于利用第一卷积神经网络获取所述图像的图像特征的指令;用 于利用第一递归神经网络获取所述文本中的各词语特征的指令;用于针对所 述图像特征和所述各词语特征进行语义注意力处理,得到语义注意力值的指 令;用于根据所述语义注意力值,计算所述图像和文本的匹配程度的指令。
在本发明一个实施方式中,所述用于获取一组图像和文本的指令包括: 用于获取输入图像,并从文本集合中选取任意一文本,将所述输入图像和所 述选取的文本作为所述一组图像和文本的指令;或者,用于获取输入文本, 并从图像集合中选取任意一图像,将所述输入图像和所述选取的图像作为所 述一组图像和文本的指令;其中,所述文本集合为对文本库中的文本进行筛 选过滤,由筛选过滤后获得的多个文本所形成的文本集合,且所述图像集合 为对图像库中的图像进行筛选过滤,由筛选过滤后获得的多个图像所形成的 图像集合。
在本发明又一个实施方式中,所述设备还包括:用于对文本库中的文本 进行筛选过滤的指令,且该指令具体包括:用于利用第二卷积神经网络获取 所述输入图像的图像特征的指令;用于利用第二递归神经网络获取文本库中 的各文本的文本特征的指令;用于计算所述输入图像的图像特征与各文本的 文本特征的相关性的指令;用于根据所述相关性的排序从所述各文本中选择 多个文本,且所述选择出的多个文本作为所述文本集合的指令。
在本发明再一个实施方式中,所述设备还包括:用于对图像库中的图像 进行筛选过滤的指令,且该指令具体包括:用于利用第二递归神经网络获取 所述输入文本的文本特征的指令;用于利用第二卷积神经网络获取图像库中 的各图像的图像特征的指令;用于计算所述输入文本的文本特征与各图像的 图像特征的相关性的指令;用于根据所述相关性的排序从所述各图像中选择 多个图像,且所述选择出的多个图像形成所述图像集合的指令。
在本发明再一个实施方式中,所述设备还包括:用于利用带有个体标识 的图像样本以及带有个体标识的文本样本对第二卷积神经网络和第二递归神 经网络进行训练的指令。
在本发明再一个实施方式中,所述用于利用带有个体标识的图像样本以 及带有个体标识的文本样本对第二卷积神经网络和第二递归神经网络进行训 练的指令包括:用于利用第二卷积神经网络获取带有个体标识的图像样本的 图像特征的指令;用于利用第二递归神经网络获取带有个体标识的文本样本 的文本特征的指令;用于计算所述图像样本的图像特征与文本特征集合中的 各文本样本的文本特征的第一匹配度的指令;用于计算所述文本样本的文本 特征与图像特征集合中的各图像样本的图像特征的第二匹配度的指令;用于 根据所述第一匹配度和第二匹配度的交叉熵损失函数更新所述第二卷积神经网络和第二递归神经网络的参数的指令。
在本发明再一个实施方式中,所述图像特征集合中,具有相同个体标识 的不同图像样本的图像特征共享该个体标识的图像特征存储空间;和/或,所 述文本特征集合中,具有相同个体标识的不同文本样本的文本特征共享该个 体标识的图像特征存储空间。
在本发明再一个实施方式中,所述设备还包括:用于在确定出所述图像 特征集合中未包含有所述带有个体标识的图像样本的图像特征时,将所述带 有个体标识的图像样本的图像特征添加在所述图像特征集合中的指令;用于 在确定出所述文本特征集合中未包含有所述带有个体标识的文本样本的文本 特征时,将所述带有个体标识的文本样本的文本特征添加在所述文本特征集 合中的指令。
在本发明再一个实施方式中,所述设备还包括:用于将训练后的第二卷 积神经网络作为初始化的第一卷积神经网络的指令;用于将训练后的第二递 归神经网络作为初始化的第一递归神经网络的指令。
在本发明再一个实施方式中,所述用于利用第一递归神经网络获取所述 文本中的各词语特征的指令包括:用于获取所述文本中各词语的独热向量的 指令;用于将所述各词语的独热向量输入全连接层进行编码的指令;用于将 各词语对应的编码依次输入第一递归神经网络,并根据第一递归神经网络的 输出获得各词语特征的指令。
在本发明再一个实施方式中,所述设备在用于针对所述图像特征和所述 各词语特征进行语义注意力处理,得到语义注意力值的指令之前还包括:用 于对图像特征进行修正,得到修正图像特征的指令;且所述用于针对所述图 像特征和所述各词语特征进行语义注意力处理,得到语义注意力值的指令具 体为:用于针对所述修正图像特征和所述各词语特征进行语义注意力处理, 得到所述语义注意力值的指令。
在本发明再一个实施方式中,所述用于对图像特征进行修正,得到修正 图像特征的指令包括:用于根据图像中各区域的图像特征与所述各词语特 征,获取空间注意力值的指令;用于根据所述空间注意力值,在所述各区域 中选择目标区域的指令;用于获取所述目标区域对应的图像特征,作为所述 修正图像特征的指令。
在本发明再一个实施方式中,所述图像中各区域的大小相同,且每一个 图像区域所包括的图像特征的数量相同。
在本发明再一个实施方式中,所述用于根据图像中各区域的图像特征与 所述各词语特征,获取空间注意力值的指令包括:用于利用空间注意力模型 计算各区域的图像特征与各词语特征之间的亲密度,并对各亲密度分别进行 归一化处理的指令;用于根据所述归一化处理后的各亲密度以及各区域的图 像特征计算所述图像针对各词语的图像特征的指令。
在本发明再一个实施方式中,所述用于针对所述图像特征和所述各词语 特征进行语义注意力处理,得到所述语义注意力值的指令包括:用于将所述 图像针对各词语的图像特征与相应词语的特征分别级联,并分别输入语义注 意力模型的指令,由所述语义注意力模型计算在每一个词语在不同概念上对 所述图像的贡献。
在本发明再一个实施方式中,所述用于根据所述语义注意力处理的结果 计算所述图像和所述文本的匹配程度的指令包括:用于根据所述每一个词语 在不同概念上对所述图像的贡献以及所述级联确定所述针对各词语的图像特 征在不同概念上的贡献的指令;用于利用递归神经网络对所述针对各词语的 图像特征在不同概念上的贡献进行解码处理的指令;用于利用全连接层和二 值分类器对所述解码处理后的信息确定所述图像和文本的匹配程度的指令。
根据本发明实施例的再一个方面,提供的一种计算机存储介质,其上存 储有计算机程序,该计算机程序被处理器执行时,执行本发明方法实施方式 中的各个步骤,例如,获取一组图像和文本;利用第一卷积神经网络获取所 述图像的图像特征,并利用第一递归神经网络获取所述文本中的各词语特 征;针对所述图像特征和所述各词语特征进行语义注意力处理,得到语义注 意力值;根据所述语义注意力值,计算所述图像和所述文本的匹配程度。
基于本发明上述实施例提供的用于实现图文匹配的方法、用于实现图文 匹配的装置、电子设备以及计算机存储介质,本发明实施方式通过在图文匹 配过程中引入语义注意力,并基于图像中的各区域的图像特征和文本中的各 词语特征进行语义注意力处理,可以使图像中的各区域与文本中的各词语更 准确的关联在一起,从而可以在一定程度上避免仅针对图像的图像特征与文 本的文本特征的整体相关性进行考虑而导致的图文误匹配的现象;由此可 知,本发明实施方式提供的技术方案能够提高图文匹配的准确性。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起 用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1为本发明方法一个实施例的流程图;
图2为本发明实施方式的对第二卷积神经网络和第二递归神经网络进行 训练的一个具体例子的示意图;
图3为本发明方法一个实施例的具体例子的示意图;
图4为本发明装置一个实施例的结构示意图;
图5为本发明计算机可读存储介质的一个实施例的示意图;
图6为本发明电子设备的一个实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除 非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字 表达式和数值不限制本发明的范围。同时,应当明白,为了便于描述,附图 中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。以下对至少 一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应 用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备 可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说 明书的一部分。应注意到:相似的标号和字母在下面的附图中表示类似项, 因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行 进一步讨论。
本发明实施例可以应用于计算机***/服务器,其可与众多其它通用或专 用计算***环境或配置一起操作。适于与计算机***/服务器一起使用的众所 周知的计算***、环境和/或配置的例子包括但不限于:个人计算机***、服 务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的 ***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***、大 型计算机***和包括上述任何***的分布式云计算技术环境,等等。
计算机***/服务器可以在由计算机***执行的计算机***可执行指令 (诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程 序、目标程序、组件、逻辑以及数据结构等等,它们执行特定的任务或者实 现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实 施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行 的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或者远 程计算***存储介质上。
下面具体介绍本发明的各种非限制性实施方式。
实施例一、用于实现图文匹配的方法。
图1为本发明实施例一的方法流程图。如图1所示,本实施例的方法主 要包括:步骤S100、步骤S110、步骤S130以及步骤S140,可选的,该方法 还可以包括:步骤S120。下面对图1中的各步骤分别进行说明。
S100、获取一组图像和文本。
作为示例,本发明实施方式中的一组图像和文本为需要判断图文是否匹 配的对象,无论一组图像和文本包括一个图像和多个文本,还是包括多个图 像和一个文本,亦或包括多个图像和多个文本,均可以形成至少一对图像和 文本,本发明实施方式应判断每一对图像和文本是否匹配。该图像通常为图 片,且该文本通常为自然语言,如针对同一个人的多句描述语句等。
作为示例,在需要获得与图像相匹配的文本的应用场景下,获取图像的 方式通常为获取输入图像,而获取文本的方式通常为从文本集合中选取一文 本;例如,从文本集合中随机选取一文本;再例如,从文本集合中按照文本 的排序顺序选取一文本。
作为示例,在需要获得与文本相匹配的图像的应用场景下,获取文本的 方式通常为获取输入文本,而获取图像的方式通常为从图像集合中选取一图 像;例如,从图像集合中随机选取一图像;再例如,从图像集合中按照图像 的排序顺序选取一图像。
作为示例,上述文本集合可以具体为对文本库中的所有文本进行筛选过 滤,并由筛选过滤后的文本所形成的文本集合;其中的文本库中的文本可以 是通过网络爬取或者人工收集等方式获得的。由于本发明实施方式预先对文 本库中的所有文本进行筛选过滤,可以在步骤S100执行之前去除一部分与输 入图像差异较大的文本(即与输入图像匹配程度较差的文本),因此,本发明 实施方式可以通过对文本库中的所有文本的筛选过滤,减小后续的空间注意 力以及语义注意力的处理量,从而本发明实施方式可以避免空间注意力以及 语义注意力的处理耗费较多资源以及用时较多等现象。本发明实施方式中的 空间注意力的处理主要用于将图像中的区域和相应的词语关联起来。本发明 实施方式中的语义注意力的处理主要用于通过学习词语的含义来调整文本的 结构,使具体相同含义的不同描述方式可以达到基本相同的处理,从而增强 图文匹配的鲁棒性。
作为示例,上述图像集合可以具体为对图像库中的所有图像进行筛选过 滤,并由筛选过滤后的图像所形成的图像集合;其中的图像库中的图像可以 是通过网络爬取或者人工收集等方式获得的。由于本发明实施方式预先对图 像库中的所有图像进行筛选过滤,可以在步骤S100执行之前去除一部分与输 入文本差异较大的图像(即与输入文本匹配程度较差的图像),因此,本发明 实施方式可以通过对图像库中的所有图像的筛选过滤,减小后续的空间注意 力以及语义注意力的处理量,从而本发明实施方式可以避免空间注意力以及 语义注意力的处理耗费较多资源以及用时较多等现象。
作为示例,本发明实施方式对文本库中的所有文本进行筛选过滤的一个 具体的例子为:首先,清空文本集合,将输入图像输入至第二卷积神经网络 中,由第二卷积神经网络提取该输入图像的图像特征并输出,将文本库中的 各文本分别输入至第二递归神经网络中,由第二递归神经网络提取各文本的 文本特征并输出;其次,分别计算该输入图像的图像特征与各文本的文本特 征之间的相关性,例如,分别计算该输入图像的图像特征与各文本的文本特 征的向量内积,并将向量内积计算结果作为两者之间的相关性(其中的向量内积也可以为欧式距离或者马式距离等);之后,对计算获得的各相关性进行 判断,并将相关性满足第一相关性要求(即针对文本集合设置的相关性要 求)的文本添加到文本集合中,例如,按照计算出的相关性由大到小的顺序 对文本库中的各文本进行排序,并将前N(如N=100)个文本作为筛选后的 文本添加在文本集合中。通过上述相关性计算以及是否满足第一相关性要求 的判断,通常可以选取出至少一个文本(文本集合中通常包括多个文本),且 选取出的多个文本可以根据各自对应的相关性进行排序,然而,这样的排列 顺序很可能是不准确的,如果按照这样的排列顺序来确定与输入图像相匹配 的文本,则很难保证确定出的文本与输入图像的匹配准确性;现有技术既是 利用上述相关性对文本的排序来确定与输入图像相匹配的文本的,这使得现 有技术的图文匹配准确性较差。本发明实施方式可以通过下述步骤S110- S140来对该排列顺序进行调整,从而提高了图文匹配的准确性。
作为示例,本发明实施方式对图像库中的所有图像进行筛选过滤的一个 具体的例子为:首先,清空图像集合,将输入文本输入至第二递归神经网络 中,由第二递归神经网络提取该输入文本的文本特征并输出,将图像库中的 各图像分别输入至第二卷积神经网络中,由第二卷积神经网络提取各图像的 图像特征并输出;其次,分别计算该输入文本的文本特征与各图像的图像特 征之间的相关性,例如,分别计算该输入文本的文本特征与各图像的图像特 征的向量内积,并将向量内积计算结果作为两者之间的相关性(其中的向量内积也可以为欧式距离或者马式距离等);之后,对计算获得的各相关性进行 判断,并将相关性满足第二相关性要求(即针对图像集合设置的相关性要 求,第一相关性要求和第二相关性要求可以相同,也可以不同)的图像添加 到图像集合中,例如,按照计算出的相关性由大到小的顺序对图像库中的各 图像进行排序,并将前N个图像作为筛选后的图像添加在图像集合中。通过 上述相关性计算以及是否满足第二相关性要求的判断,通常可以选取出至少 一个图像(图像集合中通常包括多个图像),且选取出的多个图像可以根据各 自对应的相关性进行排序,然而,这样的排列顺序很可能是不准确的,如果 按照这样的排列顺序来确定与输入文本相匹配的图像,则很难保证确定出的 图像与输入文本的匹配准确性;现有技术既是利用上述相关性对图像的排序 来确定与输入文本相匹配的图像的,这使得现有技术的图文匹配的准确性较 差。本发明实施方式可以通过下述步骤S110-S140来对该排列顺序进行调 整,从而提高了图文匹配的准确性。
需要特别说明的是,如果本发明已经预先存储了文本库中的各文本的文 本特征(例如,文本库中存储有各文本以及各文本各自的文本特征),则本发 明实施方式可以不在文本筛选过程中利用第二递归神经网络获取各文本的文 本特征,而是直接使用预先存储的各文本的文本特征即可;同理,如果本发 明已经预先存储了图像库中的各图像的图像特征(例如,图像库中存储有各 图像以及各图像各自的图像特征),则本发明实施方式可以不在图像筛选过程 中利用第二卷积神经网络获取各图像的图像特征,而是直接使用预先存储的 各图像的图像特征即可。
作为示例,本发明实施方式中的第二卷积神经网络和第二递归神经网络 均为经过训练的神经网络,本发明实施方式可以利用带有个体标识的图像样 本以及带有个体标识的文本样本分别对第二卷积神经网络和第二递归神经网 络进行训练,本发明实施方式对第二卷积神经网络和第二递归神经网络进行 训练的一个具体例子如图2所示,下面结合图2以及步骤a至步骤h对第二 卷积神经网络和第二递归神经网络的训练方式进行说明。
图2中,预先设置有图像特征集合以及文本特征集合,且图像特征集合 和文本特征集合在初始化时,可以被设置为空。
步骤a、获取一个带有个体标识的图像样本(可以称为输入图像样本) 以及一个带有个体标识的文本样本(可以称为输入文本样本),其中的个体标 识主要用于表征唯一一个个体,且图像样本所带有的个体标识以及文本样本 所带有的个体标识通常是人工预先标注的;在人工标注过程中,针对同一个 个体的图像样本和文本样本,应标注相同的个体标识;例如,针对同一对象 的拍摄角度略有差异的图片(即图像样本)应标注同一个具有唯一性的个体 标识,而针对同一对象的不同的文字描述(即文本样本)应标注同一个具有 唯一性的个体标识,另外,如果文字描述是针对一图片的文字描述,则该文 字描述与该图片应标注同一个具有唯一性的个体标识等。
图2中,左上角的图片即为获取的图像样本,且该图像样本的个体标识 为2,右下角虚线框中的文字描述(即The model wears a bright orange dress. She…)即为获取的文本样本,该文本样本的个体标识也为2,也就是说,本 次获取的图像样本和文本样本具有相同的个体标识;然而,本发明实施方式 所获取到的图像样本和文本样本完全可以具有不同的个体标识;
步骤b、将获取到的图像样本输入第二卷积神经网络(即图2中的VisualConvolutional Neural Network,Visual CNN,视觉卷积神经网络)中,由第二 卷积神经网络提取该图像样本的图像特征(即图2中的Visual Feature)。
步骤c、将获取的文本样本输入第二递归神经网络(即图2中的LSTM 网络,LongShort-Term Memory网络,长短期记忆网络,是一种时间递归神 经网络)中,由第二递归神经网络提取该文本样本的文本特征(即图2中的 Textual Feature);注:本发明实施方式并不限定执行步骤b和步骤c的先后 顺序。
步骤d、分别计算上述步骤b获得的图像样本的图像特征与文本特征集 合中的各个个体标识所对应的文本特征的匹配度,例如,本发明实施方式可 以在计算上述步骤b获得的图像样本的图像特征与文本特征集合中的各个个 体标识所对应的文本特征之间的欧式距离或者马式距离或者向量内积等的基 础上,获得各匹配度;一个具体的例子,可以利用下述公式(1)分别计算上 述步骤b获得的图像样本的图像特征与文本特征集合中的各个个体标识所对 应的文本特征之间的匹配度:
Figure BDA0001323157310000121
在上述公式(1)中,
Figure BDA0001323157310000122
表示输入图像样本v的图像特征与所有文本 特征S(即文本特征集合S)中的第i个个体标识所对应的文本特征相匹配的 几率(即两者之间的匹配度,为了与下述步骤e中的匹配度相区分,下述将 步骤d计算获得的匹配度称为第一匹配度),S表示所有个体标识的文本样本 的文本特征,v表示输入图像样本,
Figure BDA0001323157310000123
表示输入图像样本v的图像特征与所 有文本特征S中的第i个个体标识所对应的文本特征之间的相关性,
Figure BDA0001323157310000124
表示 输入图像样本v的图像特征与所有文本特征S中的第j个个体标识所对应的 文本特征之间的相关性,N表示文本特征集合中的所有文本特征所对应的个 体标识的总数量,σv表示用于控制概率分布的第一温度超参数,exp(*)表 示针对*的指数运算,T表示矩阵转置。
步骤e、分别计算上述步骤c获得的文本样本的文本特征与图像特征集 合中的各个个体标识所对应的图像特征的匹配度,例如,本发明实施方式可 以在计算上述步骤c获得的文本样本的文本特征与图像特征集合中的各个个 体标识所对应的图像特征之间的欧式距离或者马式距离或者向量内积等的基 础上,获得各匹配度;一个具体的例子,可以利用下述公式(2)分别计算上 述步骤c获得的文本样本的文本特征与图像特征集合中的各个个体标识所对 应的图像特征之间的匹配度:
Figure BDA0001323157310000131
在上述公式(2)中,
Figure BDA0001323157310000132
表示输入文本样本s的文本特征与所有图像 特征V(即图像特征集合V)中的第k个体标识所对应的图像特征相匹配的 几率(即两者之间的匹配度,为了与上述步骤d中的匹配度相区分,下述将 步骤e计算获得的匹配度称为第二匹配度),V表示所有个体标识的图像样本 的图像特征,
Figure BDA0001323157310000133
表示输入文本样本s的文本特征与所有图像特征V中的第 k个个体标识所对应的图像特征之间的相关性,σs表示用于控制概率分布的 第二温度超参数,
Figure BDA0001323157310000134
表示输入文本样本s的文本特征与所有图像特征V中 的第j个个体标识所对应的图像特征之间的相关性,N表示图像特征集合中 的所有图像特征所对应的个体标识的总数量,exp(*)表示针对*的指数运 算,T表示矩阵转置。
步骤f、根据上述计算获得的第一匹配度和第二匹配度的交叉熵损失函数 更新第二卷积神经网络和第二递归神经网络的参数;
一个具体的例子,可以使用下述公式(3)表示第一匹配度和第二匹配度 的交叉熵损失函数(即跨模式交叉熵损失函数);另外,可以使用下述公式 (4)更新第二卷积神经网络的参数,并使用下述公式(5)更新第二递归神 经网络的参数;
Figure BDA0001323157310000135
Figure BDA0001323157310000136
Figure BDA0001323157310000137
在上述公式(3)、公式(4)以及公式(5)中,ts表示输入文本样本s 的个体标识,tv表示输入图像样本v的个体标识,
Figure BDA0001323157310000141
以及
Figure BDA0001323157310000142
均表示输入 图像样本v的图像特征与所有文本特征S(即文本特征集合S)中的个体标 识tv所对应的文本特征相匹配的几率,
Figure BDA0001323157310000143
以及
Figure BDA0001323157310000144
均表示输入文本样本s 的文本特征与所有图像特征V(即图像特征集合V)中的个体标识ts所对应 的图像特征相匹配的几率,
Figure BDA0001323157310000145
表示所有文本特征S中的个体标识tv所对应的文本特征,
Figure BDA0001323157310000146
表示所有图像特征V中的个体标识ts所对应的图像特征,Sj表 示所有文本特征中的个体标识j所对应的文本特征,Vj表示所有图像特征中 的个体标识j所对应的图像特征,σv表示用于控制概率分布的第一温度超参 数,σs表示用于控制概率分布的第二温度超参数,
Figure BDA0001323157310000147
表示输入图像样本v的 图像特征与所有文本特征S中的个体标识j所对应的文本特征相匹配的几 率,
Figure BDA0001323157310000148
表示输入文本样本s的文本特征与所有图像特征V中的个体标识j所 对应的图像特征相匹配的几率,N表示图像特征集合或者文本特征集合中的 个体标识的总数量;
图2中指向图像特征的带①的箭头和指向文本特征的带①的箭头表示计 算交叉熵损失函数。
步骤g、如果上述步骤a所获取的输入图像样本的个体标识不属于图像 特征集合中的个体标识,则将上述步骤b所获得的输入图像样本的图像特征 添加在图像特征集合中(例如,利用该输入图像样本的图像特征填充图像特 征集合中的相应个体标识所对应的图像特征存储空间),否则,确定该输入图 像样本的个体标识在图像特征集合中所对应的图像特征存储空间,并利用该 输入图像样本的图像特征更新该图像特征存储空间中的内容;图2中指向图 像特征的带②的箭头即表示步骤g;
步骤h、如果上述步骤a所获取的输入文本样本的个体标识不属于文本 特征集合中的个体标识,则将上述步骤c所获得的输入文本样本的文本特征 添加在文本特征集合中(例如,利用该输入文本样本的文本特征填充文本特 征集合中的相应个体标识所对应的文本特征存储空间),否则,确定该输入文 本样本的个体标识在文本特征集合中所对应的文本特征存储空间,并利用该 输入文本样本的文本特征更新该文本特征存储空间中的内容;图2中指向文 本特征的带②的箭头即表示步骤g。
在利用上述步骤a至步骤h对第二卷积神经网络和第二递归神经网络进 行训练后,可以将训练后的第二卷积神经网络作为初始化的第一卷积神经网 络(也可以使用另外训练的卷积神经网络作为初始化的第一卷积神经网络), 并将训练后的第二递归神经网络作为初始化的第一递归神经网络(也可以使 用另外训练的递归神经网络作为初始化的第一递归神经网络),且第一卷积神 经网络和第一递归神经网络会在初始化后继续被训练。
S110、利用第一卷积神经网络获取图像中各区域的图像特征,并利用第 一递归神经网络获取文本中的各词语特征。
作为示例,本发明实施方式可以将图像(如图3左下角所示的图片)输 入第一卷积神经网络(如图3中的Visual CNN)中,由该第一卷积神经网络 提取该图像中各区域的图像特征,例如,提取出的各区域的图像特征可以表 示为7×7×512,即提取出图像特征分属于49个大小相同的图像区域,且每 个图像区域表示为一个512维的图像特征。
作为示例,本发明实施方式中的词语的特征与上述文本样本的文本特征 不同,如果文本样本的文本特征是针对整个文本样本的向量,则词语的特征 是针对一个词语的向量。本发明实施方式利用第一递归神经网络获取文本中 的各词语特征的过程可以为:对文本进行分词处理,并将分词处理后获得的 每个词语分别映射到词库中,如在将图2中的“The model wears a bright orange dress.She…”进行分词处理后,可以获得“The”、“model”、 “wears”、“a”、“bright”、“orange”、“dress”、“She”……等词语,将各词语 被分别映射到词库中,从而获得每个词语的独热(one-hot)向量,然后,将 各词语的用于表示词语在词库中的位置的独热向量分别输入至全连接层中, 例如,图3中,“The”、“model”、“wears”、…以及“dress”等词语的独热向 量均被输入至word-fc(针对词语的全连接层)中;由全连接层实现针对各词 语的独热向量的编码;之后,将各词语各自对应的编码先后依次输入到第一 递归神经网络(如图3中的Encoder LSTM)中,该第一递归神经网络可以记忆输入的各词语的编码(如缓存输入的各词语的编码),并可以学习到不同词 语之间的关联性,第一递归神经网络输出各词语特征(也可以称为各词语特 征向量)。本发明实施方式可以采用现有的方式实现词语映射以获取独热向 量、针对独热向量的编码以及获得各词语特征,具体实现过程在此不再详细 说明。本发明实施方式中的词语特征是将词语作为一个整体所表现出的特 征,而文本特征是将文本作为一个整体所表现出的特征,由此可知,本发明 实施方式中的词语特征比文本特征的粒度更细。
作为示例,本发明实施方式可以使用H={h1,...,hT}来表示文本中的各词语 特征向量,其中,h1表示编码LSTM在时刻1的隐层状态(即时刻1对应的 文本中的词语的特征向量),hT表示编码LSTM在时刻T的隐层状态(即时 刻T对应的文本中的词语的特征向量),
Figure BDA0001323157310000161
DH表示隐层状态的维 度,DH×T中的T表示文本的词语长度。
S120、对图像特征进行修正,得到修正图像特征。
作为示例,本发明实施方式可以根据图像中各区域的图像特征与各词语 特征,获取空间注意力值,并根据空间注意力值,在各区域中选择目标区 域,之后,获取目标区域对应的图像特征,作为修正图像特征。具体的,本 发明实施方式获取空间注意力值的一个具体例子可以为:利用空间注意力模 型计算各区域的图像特征与各词语特征之间的亲密度,并对各亲密度分别进 行归一化处理,之后可以根据归一化处理后的各亲密度以及各区域的图像特 征计算图像针对各词语的图像特征。区域的图像特征与词语的特征之间的亲 密度也可以称为相关程度或者关联程度或者相近程度等,一个具体的例子, 帽子区域的图像特征与词语“帽子”的特征之间的亲密度通常会高于帽子区 域的图像特征与词语“眼镜”的特征之间的亲密度。
利用空间注意力模型计算各区域的图像特征与各词语特征之间的亲密度 的一个具体例子为,将图3中的Encoder LSTM输出的各词语特征以及图3 中的Visual CNN输出的各区域的图像特征作为空间注意力模型(即图3中的 Spatial Attention Module)的输入,空间注意力模型可以利用下述公式(6)分 别计算图像中的各区域的图像特征与各词语特征之间的亲密度,并利用下述 公式(7)对各亲密度分别进行归一化处理:
et,k=WP{tanh[WIik+(WHht+bH)]}+bP (6)
Figure BDA0001323157310000171
在上述公式(6)和公式(7)中,
Figure BDA0001323157310000172
以及WP∈R1×K均表示矩阵参数,bH和bp均表示偏移参数,et,k为中间变量,且et,k表示时 刻t的词语的特征与图像中的第k个区域的图像特征之间的亲密度,tanh[*] 表示针对*的双曲正切函数,ik表示图像中的第k个区域的图像特征,ht表示 编码LSTM在时刻t的隐层状态(也即时刻t对应的文本中的词语的特征向 量),exp(*)表示针对*的指数函数,且
Figure BDA0001323157310000173
at,k表示归一化处理后的时刻t的词语的特征与图像中的第k个区域的图像特征之间的亲密度,L 表示图像所包含的区域的总数量。
本发明实施方式可以将空间注意力模型输出的at,k看做是对于时刻t的 词语而言,为各区域的图像特征分配的权重值,本发明实施方式根据归一化 处理后的各亲密度以及各区域的图像特征计算图像针对各词语的图像特征的 一个具体例子如下述公式(8)所示:
Figure BDA0001323157310000174
在上述公式(8)中,
Figure BDA0001323157310000175
表示图像针对时刻t的词语的图像特征(如果步 骤S110所获得的各区域的图像特征表示为7×7×512维的图像特征,则本步 骤中的
Figure BDA0001323157310000176
表示的图像特征为512维的图像特征),at,k表示归一化处理后的 时刻t的词语的特征与图像中的第k个区域的图像特征之间的亲密度,ik表 示图像中的第k个区域的图像特征,L表示图像所包含的图像区域的总数 量。
本发明实施方式可以采用现有的空间注意力模型,空间注意力模型的具 体实现方式在此不再详细说明。
S130、针对图像特征和各词语特征进行语义注意力处理,得到语义注意 力值;在本发明实施方式的方法包括步骤S120的情况下,步骤S130可以具 体为:针对修正图像特征和各词语特征进行语义注意力处理,得到语义注意 力值。
作为示例,本发明实施方式可以将图像针对各词语的图像特征与相应词 语的特征分别级联,并分别输入语义注意力模型,从而由语义注意力模型计 算每一个词语在不同概念上对图像的贡献(也可以称为各词语在不同概念上 对图像的潜在语义注意力)。本发明实施方式中的概念可以包括颜色、服装以 及介词等多种形式。
作为示例,本发明实施方式中的级联结果可以使用
Figure BDA0001323157310000181
来表 示,且其中的t={1,...,T},T表示时刻T,图3中的x1、x2、xt以及xT即 为上述
Figure BDA0001323157310000182
作为示例,语义注意力模型可以通过下述公式(9)和公式(10)计算出 每一个词语在不同概念上对图像的贡献,即语义注意力模型输出a′m,t
e′m,t=f(cm-1,xt), (9)
Figure BDA0001323157310000183
在上述公式(9)和公式(10)中,f(*)是用于确定重要性的功能函 数,即该功能函数可以衡量出针对概念m(也可以称为解密时刻m),第t个 词语的重要性,且f(*)可以是一个模型化的两层的卷积神经网络,cm-1表示 在解码时刻m-1时的LSTM的隐层状态,
Figure BDA0001323157310000191
表示图像针对时刻t 的词语的图像特征与时刻t的词语的特征的级联结果,a′m,t表示时刻t的词 语在概念m上对图像的贡献,e′m,t和e′m,j均为中间变量,T表示时刻T。本 发明实施方式可以将语义注意力模型输出的a′m,t看做是为级联结果所分配的 词语在概念m上的权重值。
本发明实施方式可以采用现有的语义注意力模型,语义注意力模型的具 体实现方式在此不再详细说明。
S140、根据语义注意力值,计算图像和文本的匹配程度。
作为示例,本发明实施方式可以根据每一个词语在不同概念上对图像的 贡献以及上述级联结果,确定出针对各词语的图像特征在不同概念上的贡 献;然后,利用递归神经网络对词语对图像在不同概念的贡献进行解码处 理;之后,本发明实施方式可以利用全连接层和二值分类器针对解码处理后 的结果进行处理,从而确定出图像和文本的匹配程度。
作为示例,本发明实施方式确定出针对各词语的图像特征在不同概念上 的贡献的一个具体的例子为:利用下述公式(11)实现对上述步骤S130获得 的级联结果以及语音注意力处理的结果进行加权求和计算:
Figure BDA0001323157310000192
在上述公式(11)中,
Figure BDA0001323157310000193
表示针对各词语的图像特征在概念m上的贡 献,a′m,j表示时刻j的词语在概念m上对图像的贡献,xj表示图像针对时 刻j的词语的图像特征与时刻j的词语的特征的级联结果,且可以表示为
Figure BDA0001323157310000194
Figure BDA0001323157310000195
表示图像针对时刻j的词语的图像特征,hj表示时刻j的词语 的特征。
作为示例,本发明实施方式可以利用递归神经网络(如图3中的Decoder LSTM)对上述计算获得的
Figure BDA0001323157310000201
进行解码,并利用全连接层以及二值 分类器来确定解码后的结果进行相似性计算,从而根据相似性计算结果可以 计算出步骤S100中的图像和文本的匹配程度。
作为示例,本发明实施方式可以按照匹配程度由大到小的顺序对文本集 合中的文本或者图像集合中的图像进行重新排序,从而可以重新排序后的文 本集合或者图像集合确定出与输入图像匹配的文本或者与输入文本匹配的图 像。由于本发明实施方式在图文匹配过程中引入了空间注意力模型和语义注 意力模型,可以将图像中的区域与文本中的词语有效的联系起来,从而有利 于提高图文匹配的准确性。
另外,在第一卷积神经网络(图3中的Visual)和第一递归神经网络 (图3中的Encoder LSTM)进行训练的过程中,本发明实施方式还可以利用 二值交叉熵损失函数对第一卷积神经网络和第一递归神经网络进行训练监 督,上述二值交叉熵损失函数可以如下述公式(12)所示:
Figure BDA0001323157310000202
在上述公式(12)中,N’表示用于训练的文本-图像对的数量,Ci表示 针对第i个文本-图像对计算匹配的准确度,yi表示目标标签,yi为1表示文 本和图像属于同一个个体,而yi为0表示文本和图像对属于不同的个体。
实施例二、用于实现图文匹配的装置。
图4为本发明装置一个实施例的结构示意图。该实施例的装置可用于实 现本发明上述各方法实施例。如图4所示,该实施例的装置包括:获取图文 模块400、第一获取特征模块410、第二获取特征模块420、、处理模块440 以及判断模块450,可选的,该装置还可以包括:修正处理模块430、第一筛 选过滤模块(图4中未示出)、第二筛选过滤模块(图4中未示出)、第一训 练模块(图4中未示出)以及第二训练模块(图4中未示出)。
获取图文模块400主要用于获取一组图像和文本。具体的,获取图文模 块400可以获取输入图像,并从文本集合中选取任意一文本(例如,顺序或 者随机选取一文本),将输入图像和选取的文本作为一组图像和文本;获取图 文模块400也可以获取输入文本,并从图像集合中选取一图像(例如,顺序 或者随机选取一图像),将输入图像和其选取的图像作为一组图像和文本;其 中,文本集合为第一筛选过滤模块对文本库中的文本进行筛选过滤,由筛选 过滤后获得的多个文本所形成的文本集合,且图像集合为第二筛选过滤模块对图像库中的图像进行筛选过滤,由筛选过滤后获得的多个图像所形成的图 像集合。
第一筛选过滤模块具体用于利用第二卷积神经网络获取输入图像的图像 特征,利用第二递归神经网络获取文本库中的各文本的文本特征,计算输入 图像的图像特征与各文本的文本特征的相关性,并根据相关性的排序从各文 本中选择多个文本,且选择出的多个文本作为文本集合。
第二筛选过滤模块具体用于利用第二递归神经网络获取输入文本的文本 特征,利用第二卷积神经网络获取图像库中的各图像的图像特征,计算输入 文本的文本特征与各图像的图像特征的相关性,根据相关性的排序从各图像 中选择多个图像,且选择出的多个图像形成图像集合。
第一筛选过滤模块和第二筛选过滤模块所执行的具体筛选操作可以参见 上述方法实施例中的步骤S100中的两个例子的描述,在此不再详细说明。
上述第二卷积神经网络和第二递归神经网络是第一训练模块训练而成 的,具体的,第一训练模块可以利用带有个体标识的图像样本以及带有个体 标识的文本样本对第二卷积神经网络和第二递归神经网络进行训练。一个具 体的例子,第一训练模块可以利用第二卷积神经网络获取带有个体标识的图 像样本的图像特征,并利用第二递归神经网络获取带有个体标识的文本样本 的文本特征,之后,第一训练模块计算图像样本的图像特征与文本特征集合 中的各文本样本的文本特征的第一匹配度,并计算文本样本的文本特征与图 像特征集合中的各图像样本的图像特征的第二匹配度;之后,第一训练模块 根据第一匹配度和第二匹配度的交叉熵损失函数更新第二卷积神经网络和第 二递归神经网络的参数。另外,第一训练模块在确定出图像特征集合中未包 含有带有个体标识的图像样本的图像特征时,将带有个体标识的图像样本的 图像特征添加在图像特征集合中,在确定出文本特征集合中未包含有带有个 体标识的文本样本的文本特征时,将带有个体标识的文本样本的文本特征添 加在文本特征集合中;其中,图像特征集合中具有相同个体标识的不同图像 样本的图像特征共享该个体标识的图像特征存储空间;其中,文本特征集合 中,具有相同个体标识的不同文本样本的文本特征共享该个体标识的图像特 征存储空间。第一训练模块训练第二卷积神经网络和第二递归神经网络的具 体操作如上述方法实施方式中针对步骤a至步骤h的相关描述,在此不再重 复说明。另外,第一训练模块还可以将训练后的第二卷积神经网络作为初始 化的第一卷积神经网络,并将训练后的第二递归神经网络作为初始化的第一 递归神经网络。
第一获取特征模块410主要用于利用第一卷积神经网络获取图像中各区 域的图像特征。具体的,第一获取特征模块410可以将图像输入第一卷积神 经网络中,由该第一卷积神经网络提取该图像中各区域的图像特征;第一获 取特征模块410获取到的各区域的图像特征可以表示为7×7×512,即第一 获取特征模块410获得的图像特征分属于49个大小相同的图像区域,且每个 图像区域均包括512维的图像特征。
第二获取特征模块420主要用于利用第一递归神经网络获取文本中的各 词语特征。具体的,第二获取特征模块420可以先获取文本中各词语的独热 向量,并将各词语的独热向量输入全连接层进行编码,然后,第二获取特征 模块420将各词语对应的编码依次输入第一递归神经网络,并根据第一递归 神经网络的输出获得各词语特征。更具体的内容可以参见上述方法实施方式 中针对S420的描述,在此不再重复说明。
修正处理模块430主要用于对图像特征进行修正得到修正图像特征;例 如,修正处理模块430根据图像中各区域的图像特征与各词语特征,获取空 间注意力值;修正处理模块430根据空间注意力值,在各区域中选择目标区 域;修正处理模块430获取目标区域对应的图像特征,作为修正图像特征。
具体的,修正处理模块430可以利用空间注意力模型计算各区域的图像 特征与各词语特征之间的亲密度,并对各亲密度分别进行归一化处理;修正 处理模块430可以根据归一化处理后的各亲密度以及各区域的图像特征计算 图像针对各词语的图像特征。修正处理模块430具体执行的操作可以参见上 述方法实施方式中针对步骤S430的描述,在此不再重复说明。
处理模块440主要用于针对图像特征和各词语特征进行语义注意力处 理,得到语义注意力值;在本发明实施方式的装置包括修正处理模块430的 情况下,处理模块440可以针对修正图像特征和各词语特征进行语义注意力 处理,得到语义注意力值。具体的,处理模块440可以将图像针对各词语的 图像特征与相应词语的特征分别级联,并分别输入语义注意力模型中,由语 义注意力模型计算每一个词语在不同概念上对图像。处理模块440具体执行 的操作可参见上述方法实施方式中针对步骤S440的描述,在此不再重复说 明。
判断模块450主要用于根据语义注意力值,计算图像和文本的匹配程 度。具体的,判断模块450可以根据每一个词语在不同概念上对图像的贡献 以及级联结果确定针对各词语的图像特征在不同概念上的贡献;之后,判断 模块450可以利用递归神经网络对针对各词语的图像特征在不同概念上的贡 献进行解码处理;之后,判断模块450利用全连接层和二值分类器对解码处 理后的信息确定图像和文本的匹配程度。判断模块450具体执行的操作可以 参见上述方法实施方式中针对步骤S450的描述,在此不再重复说明。
第二训练模块主要用于在对第一卷积神经网络和第一递归神经网络进行 训练的过程中,利用二值交叉熵损失函数对第一卷积神经网络和第一递归神 经网络进行训练监督。第二训练模块可以利用上述公式(12)对第一卷积神 经网络和第一递归神经网络进行训练监督,具体如上述方法实施方式中针对 公式(12)的描述,在此不再重复说明。
实施例三、计算机可读存储介质。
本发明实施方式的计算机可读存储介质一个具体例子如图5所示。
图5的计算机可读存储介质为光盘500,其上存储有计算机程序(即程 序产品),该程序被处理器执行时,会实现上述方法实施方式中所记载的各步 骤,例如,获取一组图像和文本;利用第一卷积神经网络获取所述图像的图 像特征,并利用第一递归神经网络获取所述文本中的各词语特征;针对所述 图像特征和所述各词语特征进行语义注意力处理,得到语义注意力值;根据 所述语义注意力值,计算所述图像和所述文本的匹配程度。上述各步骤的具 体实现方式可以参见上述方法实施方式中的相关描述,在此不再重复说明。
实施例四、电子设备。
本发明实施例提供的电子设备可以是移动终端、个人计算机(PC)、平 板电脑、服务器等。下面参考图6,其示出了适于用来实现本申请实施例的 终端设备或服务器的电子设备600的结构示意图:如图6所示,计算机*** 600包括一个或多个处理器、通信部等,所述一个或多个处理器例如:一个 或多个中央处理单元(CPU)601,和/或一个或多个图像处理器(GPU) 613等,处理器可以根据存储在只读存储器(ROM)602中的可执行指令或 者从存储部分608加载到随机访问存储器(RAM)603中的可执行指令而执 行各种适当的动作和处理。通信部612可包括但不限于网卡,所述网卡可包 括但不限于IB(Infiniband)网卡,
处理器可与只读存储器602和/或随机访问存储器630中通信以执行可执 行指令,通过总线604与通信部612相连、并经通信部612与其他目标设备 通信,从而完成本申请实施例提供的任一项方法对应的操作,例如,获取一 组图像和文本;利用第一卷积神经网络获取所述图像的图像特征,并利用第 一递归神经网络获取所述文本中的各词语特征;针对所述图像特征和所述各 词语特征进行语义注意力处理,得到语义注意力值;根据所述语义注意力 值,计算所述图像和所述文本的匹配程度。
此外,在RAM 603中,还可存储有装置操作所需的各种程序和数据。 CPU601、ROM602以及RAM603通过总线604彼此相连。在有RAM603的 情况下,ROM602为可选模块。RAM603存储可执行指令,或在运行时向 ROM602中写入可执行指令,可执行指令使处理器601执行上述方法对应的 操作。输入/输出(I/O)接口605也连接至总线604。通信部612可以集成设 置,也可以设置为具有多个子模块(例如多个IB网卡),并在总线链接上。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括 诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分 607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的 网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信 处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁 盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以 便于从其上读出的计算机程序根据需要被安装入存储部分608。
需要说明的,如图6所示的架构仅为一种可选实现方式,在具体实践过 程中,可根据实际需要对上述图6的部件数量和类型进行选择、删减、增加 或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方 式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信部可 分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式 均落入本发明公开的保护范围。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现 为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包 括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流 程图所示的方法的程序代码,程序代码可包括对应执行本申请实施例提供的 方法步骤对应的指令,例如,用于获取一组图像和文本的指令(可以称为第 一指令);用于利用第一卷积神经网络获取图像的图像特征的指令(可以称为 第二指令);用于利用第一递归神经网络获取文本中的各词语特征的指令(可以称为第三指令);用于对图像特征进行修正,得到修正图像特征的指令(可 以称为第四指令);用于针对图像特征和各词语特征进行语义注意力处理,得 到语义注意力值的指令(可以称为第五指令);用于根据语义注意力值,计算 图像和文本的匹配程度的指令(可以称为第六指令)。在这样的实施例中,该 计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介 质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行 本申请的方法中限定的上述功能。
上述第一指令可以包括:用于获取输入图像,并从文本集合中选取任意 一文本(例如,顺序或者随机选取一文本),将输入图像和所述选取的文本作 为一组图像和文本的指令(可以称为第七指令);第一指令也可以包括:用于 获取输入文本,并从图像集合中选取任意一图像(例如,顺序或随机选取一 图像),将输入图像和选取的图像作为一组图像和文本的指令(可以称为第八 指令);其中,文本集合为第九指令对文本库中的文本进行筛选过滤,由筛选 过滤后获得的多个文本所形成的文本集合,且图像集合为第十指令对图像库中的图像进行筛选过滤,由筛选过滤后获得的多个图像所形成的图像集合。
上述第九指令主要用于对文本库中的文本进行筛选过滤,且第九指令包 括:用于利用第二卷积神经网络获取输入图像的图像特征的指令、用于利用 第二递归神经网络获取文本库中的各文本的文本特征的指令、用于计算输入 图像的图像特征与各文本的文本特征的相关性的指令、以及用于根据相关性 的排序从各文本中选择多个文本,选择出的多个文本作为文本集合的指令。
上述第十指令主要用于对图像库中的图像进行筛选过滤,且第十指令包 括:用于利用第二递归神经网络获取输入文本的文本特征的指令、用于利用 第二卷积神经网络获取图像库中的各图像的图像特征的指令、用于计算输入 文本的文本特征与各图像的图像特征的相关性的指令、以及用于根据相关性 的排序从各图像中选择多个图像,选择出的多个图像形成图像集合的指令。
第九指令和第十指令所执行的具体筛选操作可以参见上述方法实施例中 的步骤S100中的两个例子的描述,在此不再详细说明。
上述第二卷积神经网络和第二递归神经网络可以是第十一指令训练而成 的,具体的,第十一指令主要用于利用带有个体标识的图像样本以及带有个 体标识的文本样本对第二卷积神经网络和第二递归神经网络进行训练;且第 十一指令具体可以包括:用于利用第二卷积神经网络获取带有个体标识的图 像样本的图像特征的指令、用于利用第二递归神经网络获取带有个体标识的 文本样本的文本特征的指令、用于计算图像样本的图像特征与文本特征集合 中的各文本样本的文本特征的第一匹配度的指令、用于计算文本样本的文本 特征与图像特征集合中的各图像样本的图像特征的第二匹配度的指令、以及 用于根据第一匹配度和第二匹配度的交叉熵损失函数更新第二卷积神经网络 和第二递归神经网络的参数的指令。另外,第十二指令主要用于在确定出图 像特征集合中未包含有带有个体标识的图像样本的图像特征时,将带有个体 标识的图像样本的图像特征添加在图像特征集合中,第十三指令主要用于在 确定出文本特征集合中未包含有带有个体标识的文本样本的文本特征时,将 带有个体标识的文本样本的文本特征添加在文本特征集合中;其中,图像特 征集合中具有相同个体标识的不同图像样本的图像特征共享该个体标识的图像特征存储空间;其中,文本特征集合中,具有相同个体标识的不同文本样 本的文本特征共享该个体标识的图像特征存储空间。第十一指令训练第二卷 积神经网络和第二递归神经网络的具体操作如上述方法实施方式中针对步骤 a至步骤h的相关描述,在此不再重复说明。另外,第十四指令主要用于将 训练后的第二卷积神经网络作为初始化的第一卷积神经网络,第十五指令主 要用于将训练后的第二递归神经网络作为初始化的第一递归神经网络。
作为示例,第二指令可以将图像输入第一卷积神经网络中,由该第一卷 积神经网络提取该图像中各区域的图像特征;第二指令获取到的各区域的图 像特征可以表示为7×7×512,即第二指令获得的图像特征分属于49个大小 相同的图像区域,且每个图像区域均包括512维的图像特征。
第三指令可以具体包括:用于获取文本中各词语的独热向量的指令、用 于将各词语的独热向量输入全连接层进行编码的指令、用于将各词语对应的 编码依次输入第一递归神经网络,并根据第一递归神经网络的输出获得各词 语特征的指令。第三指令所包含的各指令具体执行的操作可以参见上述方法 实施方式中针对S420的描述,在此不再重复说明。
第四指令可以具体包括:用于根据图像中各区域的图像特征与各词语特 征,获取空间注意力值的指令;用于根据空间注意力值,在各区域中选择目 标区域的指令;用于获取目标区域对应的图像特征,作为修正图像特征的指 令。上述用于根据图像中各区域的图像特征与各词语特征,获取空间注意力 值的指令可以具体为:用于利用空间注意力模型计算各区域的图像特征与各 词语特征之间的亲密度,并对各亲密度分别进行归一化处理的指令以及用于 根据归一化处理后的各亲密度以及各区域的图像特征计算图像针对各词语的 图像特征的指令。第四指令所包含的各指令具体执行的操作可以参见上述方 法实施方式中针对步骤S430的描述,在此不再重复说明。
第五指令可以包括:用于将图像针对各词语的图像特征与相应词语的特 征分别级联,并分别输入语义注意力模型的指令,由语义注意力模型计算每 一个词语在不同概念上对图像的贡献。第五指令所包含的指令具体执行的操 作可以参见上述方法实施方式中针对步骤S440的描述,在此不再重复说明。
第六指令可以具体包括:用于根据每一个词语在不同概念上对图像的贡 献以及级联结果确定针对各词语的图像特征在不同概念上的贡献的指令、用 于利用递归神经网络对针对各词语的图像特征在不同概念上的贡献进行解码 处理的指令、以及用于利用全连接层和二值分类器对解码处理后的信息确定 图像和文本的匹配程度的指令。第六指令所包含的指令具体执行的操作可以 参见上述方法实施方式中针对步骤S450的描述,在此不再重复说明。
本发明实施方式中的程序代码还可以包括用于在对第一卷积神经网络和 第一递归神经网络进行训练的过程中,利用二值交叉熵损失函数对第一卷积 神经网络和第一递归神经网络进行训练监督的指令。该指令可以利用上述公 式(12)对第一卷积神经网络和第一递归神经网络进行训练监督,具体如上 述方法实施方式中针对公式(12)的描述,在此不再重复说明。
可能以许多方式来实现本发明的方法和装置、电子设备以及计算机可读 存储介质。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组 合来实现本发明的方法和装置、电子设备以及计算机可读存储介质。用于方 法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具 体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将 本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明 的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方 法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者 将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而 言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用, 并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有 各种修改的各种实施例。

Claims (26)

1.一种用于实现图文匹配的方法,其特征在于,包括:
获取一组图像和文本;
利用第一卷积神经网络获取所述图像的图像特征,并利用第一递归神经网络获取所述文本中的各词语特征;
针对所述图像特征和所述各词语特征进行语义注意力处理,得到语义注意力值;
根据所述语义注意力值,计算所述图像和所述文本的匹配程度;
所述方法在针对所述图像特征和所述各词语特征进行语义注意力处理,得到语义注意力值的步骤之前还包括:
根据图像中各区域的图像特征与所述各词语特征,获取空间注意力值;
根据所述空间注意力值,在所述各区域中选择目标区域;
获取所述目标区域对应的图像特征,作为修正图像特征;
且所述针对所述图像特征和所述各词语特征进行语义注意力处理,得到语义注意力值的步骤包括:
针对所述修正图像特征和所述各词语特征进行语义注意力处理,得到所述语义注意力值;
所述根据图像中各区域的图像特征与所述各词语特征,获取空间注意力值的步骤包括:
利用空间注意力模型计算各区域的图像特征与各词语特征之间的亲密度,并对各亲密度分别进行归一化处理;
根据所述归一化处理后的各亲密度以及各区域的图像特征计算所述图像针对各词语的图像特征;
所述针对所述图像特征和所述各词语特征进行语义注意力处理的步骤包括:
将所述图像针对各词语的图像特征与相应词语的特征分别级联,并分别输入语义注意力模型,由所述语义注意力模型计算每一个词语在不同概念上对所述图像的贡献。
2.根据权利要求1所述的方法,其特征在于,所述获取一组图像和文本的步骤包括:
获取输入图像,并从文本集合中选取任意一文本,将所述输入图像和所述选取的文本作为所述一组图像和文本;或者
获取输入文本,并从图像集合中选取任意一图像,将所述输入图像和所述选取的图像作为所述一组图像和文本;
其中,所述文本集合为对文本库中的文本进行筛选过滤,由筛选过滤后获得的多个文本所形成的文本集合,且所述图像集合为对图像库中的图像进行筛选过滤,由筛选过滤后获得的多个图像所形成的图像集合。
3.根据权利要求2所述的方法,其特征在于,所述对文本库中的文本进行筛选过滤的步骤包括:
利用第二卷积神经网络获取所述输入图像的图像特征,并利用第二递归神经网络获取文本库中的各文本的文本特征;
计算所述输入图像的图像特征与各文本的文本特征的相关性;
根据所述相关性的排序从所述各文本中选择多个文本,且所述选择出的多个文本作为所述文本集合。
4.根据权利要求2所述的方法,其特征在于,所述对图像库中的图像进行筛选过滤的步骤包括:
利用第二递归神经网络获取所述输入文本的文本特征,并利用第二卷积神经网络获取图像库中的各图像的图像特征;
计算所述输入文本的文本特征与各图像的图像特征的相关性;
根据所述相关性的排序从所述各图像中选择多个图像,且所述选择出的多个图像形成所述图像集合。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
利用带有个体标识的图像样本以及带有个体标识的文本样本对第二卷积神经网络和第二递归神经网络进行训练的步骤。
6.根据权利要求5所述的方法,其特征在于,所述训练的步骤包括:
利用第二卷积神经网络获取带有个体标识的图像样本的图像特征,并利用第二递归神经网络获取带有个体标识的文本样本的文本特征;
计算所述图像样本的图像特征与文本特征集合中的各文本样本的文本特征的第一匹配度,并计算所述文本样本的文本特征与图像特征集合中的各图像样本的图像特征的第二匹配度;
根据所述第一匹配度和第二匹配度的交叉熵损失函数更新所述第二卷积神经网络和第二递归神经网络的参数。
7.根据权利要求5或6所述的方法,其特征在于,
所述图像特征集合中,具有相同个体标识的不同图像样本的图像特征共享该个体标识的图像特征存储空间;
和/或,
所述文本特征集合中,具有相同个体标识的不同文本样本的文本特征共享该个体标识的图像特征存储空间。
8.根据权利要求5或6所述的方法,其特征在于,所述方法还包括:
在确定出所述图像特征集合中未包含有所述带有个体标识的图像样本的图像特征时,将所述带有个体标识的图像样本的图像特征添加在所述图像特征集合中;
在确定出所述文本特征集合中未包含有所述带有个体标识的文本样本的文本特征时,将所述带有个体标识的文本样本的文本特征添加在所述文本特征集合中。
9.根据权利要求5或6所述的方法,其特征在于,所述方法还包括:
将训练后的第二卷积神经网络作为初始化的第一卷积神经网络;
将训练后的第二递归神经网络作为初始化的第一递归神经网络。
10.根据权利要求1至6中任一权利要求所述的方法,其特征在于,所述利用第一递归神经网络获取所述文本中的各词语特征的步骤包括:
获取所述文本中各词语的独热向量;
将所述各词语的独热向量输入全连接层进行编码;
将各词语对应的编码依次输入第一递归神经网络,并根据第一递归神经网络的输出获得各词语特征。
11.根据权利要求1至6中任一权利要求所述的方法,其特征在于,所述图像中各区域的大小相同,且每一个图像区域所包括的图像特征的数量相同。
12.根据权利要求1至6中任一权利要求所述的方法,其特征在于,所述根据所述语义注意力处理的结果计算所述图像和所述文本的匹配程度的步骤包括:
根据所述每一个词语在不同概念上对所述图像的贡献以及所述级联确定所述针对各词语的图像特征在不同概念上的贡献;
利用递归神经网络对所述针对各词语的图像特征在不同概念上的贡献进行解码处理;
利用全连接层和二值分类器对所述解码处理后的信息确定所述图像和文本的匹配程度。
13.一种用于实现图文匹配的装置,其特征在于,包括:
获取图文模块,用于获取一组图像和文本;
第一获取特征模块,用于利用第一卷积神经网络获取所述图像的图像特征;
第二获取特征模块,用于利用第一递归神经网络获取所述文本中的各词语特征;
处理模块,用于针对所述图像特征和所述各词语特征进行语义注意力处理,得到语义注意力值;
判断模块,用于根据所述语义注意力值,计算所述图像和所述文本的匹配程度;
所述装置,还用于在针对所述图像特征和所述各词语特征进行语义注意力处理,得到语义注意力值的步骤之前,根据图像中各区域的图像特征与所述各词语特征,获取空间注意力值;根据所述空间注意力值,在所述各区域中选择目标区域;获取所述目标区域对应的图像特征,作为修正图像特征;
所述处理模块,具体用于针对所述修正图像特征和所述各词语特征进行语义注意力处理,得到所述语义注意力值;
所述装置在获取所述空间注意力值时,具体用于利用空间注意力模型计算各区域的图像特征与各词语特征之间的亲密度,并对各亲密度分别进行归一化处理,根据所述归一化处理后的各亲密度以及各区域的图像特征计算所述图像针对各词语的图像特征;
所述处理模块在进行所述语义注意力处理时,具体用于将所述图像针对各词语的图像特征与相应词语的特征分别级联,并分别输入语义注意力模型,由所述语义注意力模型计算每一个词语在不同概念上对所述图像的贡献。
14.一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,下述指令被运行:
用于获取一组图像和文本的指令;
用于利用第一卷积神经网络获取所述图像的图像特征的指令;
用于利用第一递归神经网络获取所述文本中的各词语特征的指令;
用于针对所述图像特征和所述各词语特征进行语义注意力处理,得到语义注意力值的指令;
用于根据所述语义注意力值,计算所述图像和所述文本的匹配程度的指令;
所述设备在用于针对所述图像特征和所述各词语特征进行语义注意力处理,得到语义注意力值的指令之前还包括:
用于根据图像中各区域的图像特征与所述各词语特征,获取空间注意力值的指令;
用于根据所述空间注意力值,在所述各区域中选择目标区域的指令;
用于获取所述目标区域对应的图像特征,作为修正图像特征的指令;
且所述用于针对所述图像特征和所述各词语特征进行语义注意力处理,得到语义注意力值的指令具体为:
用于针对所述修正图像特征和所述各词语特征进行语义注意力处理,得到所述语义注意力值的指令;
所述用于根据图像中各区域的图像特征与所述各词语特征,获取空间注意力值的指令包括:
用于利用空间注意力模型计算各区域的图像特征与各词语特征之间的亲密度,并对各亲密度分别进行归一化处理的指令;
用于根据所述归一化处理后的各亲密度以及各区域的图像特征计算所述图像针对各词语的图像特征的指令;
所述用于针对所述图像特征和所述各词语特征进行语义注意力处理,得到所述语义注意力值的指令包括:
用于将所述图像针对各词语的图像特征与相应词语的特征分别级联,并分别输入语义注意力模型的指令,由所述语义注意力模型计算在每一个词语在不同概念上对所述图像的贡献。
15.根据权利要求14所述的设备,其特征在于,所述用于获取一组图像和文本的指令包括:
用于获取输入图像,并从文本集合中选取任意一文本,将所述输入图像和所述选取的文本作为所述一组图像和文本的指令;或者
用于获取输入文本,并从图像集合中选取任意一图像,将所述输入图像和所述选取的图像作为所述一组图像和文本的指令;
其中,所述文本集合为对文本库中的文本进行筛选过滤,由筛选过滤后获得的多个文本所形成的文本集合,且所述图像集合为对图像库中的图像进行筛选过滤,由筛选过滤后获得的多个图像所形成的图像集合。
16.根据权利要求15所述的设备,其特征在于,所述设备还包括:用于对文本库中的文本进行筛选过滤的指令,且该指令具体包括:
用于利用第二卷积神经网络获取所述输入图像的图像特征的指令;
用于利用第二递归神经网络获取文本库中的各文本的文本特征的指令;
用于计算所述输入图像的图像特征与各文本的文本特征的相关性的指令;
用于根据所述相关性的排序从所述各文本中选择多个文本,且所述选择出的多个文本作为所述文本集合的指令。
17.根据权利要求15所述的设备,其特征在于,所述设备还包括:用于对图像库中的图像进行筛选过滤的指令,且该指令具体包括:
用于利用第二递归神经网络获取所述输入文本的文本特征的指令;
用于利用第二卷积神经网络获取图像库中的各图像的图像特征的指令;
用于计算所述输入文本的文本特征与各图像的图像特征的相关性的指令;
用于根据所述相关性的排序从所述各图像中选择多个图像,且所述选择出的多个图像形成所述图像集合的指令。
18.根据权利要求16所述的设备,其特征在于,所述设备还包括:
用于利用带有个体标识的图像样本以及带有个体标识的文本样本对第二卷积神经网络和第二递归神经网络进行训练的指令。
19.根据权利要求18所述的设备,其特征在于,所述用于利用带有个体标识的图像样本以及带有个体标识的文本样本对第二卷积神经网络和第二递归神经网络进行训练的指令包括:
用于利用第二卷积神经网络获取带有个体标识的图像样本的图像特征的指令;
用于利用第二递归神经网络获取带有个体标识的文本样本的文本特征的指令;
用于计算所述图像样本的图像特征与文本特征集合中的各文本样本的文本特征的第一匹配度的指令;
用于计算所述文本样本的文本特征与图像特征集合中的各图像样本的图像特征的第二匹配度的指令;
用于根据所述第一匹配度和第二匹配度的交叉熵损失函数更新所述第二卷积神经网络和第二递归神经网络的参数的指令。
20.根据权利要求18或19所述的设备,其特征在于,
所述图像特征集合中,具有相同个体标识的不同图像样本的图像特征共享该个体标识的图像特征存储空间;
和/或
所述文本特征集合中,具有相同个体标识的不同文本样本的文本特征共享该个体标识的图像特征存储空间。
21.根据权利要求18或19所述的设备,其特征在于,所述设备还包括:
用于在确定出所述图像特征集合中未包含有所述带有个体标识的图像样本的图像特征时,将所述带有个体标识的图像样本的图像特征添加在所述图像特征集合中的指令;
用于在确定出所述文本特征集合中未包含有所述带有个体标识的文本样本的文本特征时,将所述带有个体标识的文本样本的文本特征添加在所述文本特征集合中的指令。
22.根据权利要求18或19所述的设备,其特征在于,所述设备还包括:
用于将训练后的第二卷积神经网络作为初始化的第一卷积神经网络的指令;
用于将训练后的第二递归神经网络作为初始化的第一递归神经网络的指令。
23.根据权利要求14至19中任一权利要求所述的设备,其特征在于,所述用于利用第一递归神经网络获取所述文本中的各词语特征的指令包括:
用于获取所述文本中各词语的独热向量的指令;
用于将所述各词语的独热向量输入全连接层进行编码的指令;
用于将各词语对应的编码依次输入第一递归神经网络,并根据第一递归神经网络的输出获得各词语特征的指令。
24.根据权利要求14至19中任一权利要求所述的设备,其特征在于,所述图像中各区域的大小相同,且每一个图像区域所包括的图像特征的数量相同。
25.根据权利要求14至19中任一权利要求所述的设备,其特征在于,所述用于根据所述语义注意力处理的结果计算所述图像和所述文本的匹配程度的指令包括:
用于根据所述每一个词语在不同概念上对所述图像的贡献以及所述级联确定所述针对各词语的图像特征在不同概念上的贡献的指令;
用于利用递归神经网络对所述针对各词语的图像特征在不同概念上的贡献进行解码处理的指令;
用于利用全连接层和二值分类器对所述解码处理后的信息确定所述图像和文本的匹配程度的指令。
26.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述权利要求1-12中任一项所述的方法。
CN201710453664.7A 2017-06-15 2017-06-15 用于实现图文匹配的方法、装置和电子设备 Active CN108228686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710453664.7A CN108228686B (zh) 2017-06-15 2017-06-15 用于实现图文匹配的方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710453664.7A CN108228686B (zh) 2017-06-15 2017-06-15 用于实现图文匹配的方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN108228686A CN108228686A (zh) 2018-06-29
CN108228686B true CN108228686B (zh) 2021-03-23

Family

ID=62658078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710453664.7A Active CN108228686B (zh) 2017-06-15 2017-06-15 用于实现图文匹配的方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN108228686B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11481625B2 (en) * 2017-08-04 2022-10-25 Nokia Technologies Oy Artificial neural network
CN108960338B (zh) * 2018-07-18 2021-10-08 苏州科技大学 基于注意力反馈机制的图像自动语句标注方法
CN109033321B (zh) * 2018-07-18 2021-12-17 成都快眼科技有限公司 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
CN110851641B (zh) * 2018-08-01 2022-09-16 杭州海康威视数字技术股份有限公司 跨模态检索方法、装置和可读存储介质
CN110147806B (zh) * 2018-10-08 2023-04-07 腾讯科技(深圳)有限公司 图像描述模型的训练方法、装置及存储介质
CN109543714B (zh) * 2018-10-16 2020-03-27 北京达佳互联信息技术有限公司 数据特征的获取方法、装置、电子设备及存储介质
CN109472360B (zh) 2018-10-30 2020-09-04 北京地平线机器人技术研发有限公司 神经网络的更新方法、更新装置和电子设备
CN109614613B (zh) * 2018-11-30 2020-07-31 北京市商汤科技开发有限公司 图像的描述语句定位方法及装置、电子设备和存储介质
CN109885796B (zh) * 2019-01-25 2020-01-03 内蒙古工业大学 一种基于深度学习的网络新闻配图匹配性检测方法
CN109886326B (zh) * 2019-01-31 2022-01-04 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN110147457B (zh) * 2019-02-28 2023-07-25 腾讯科技(深圳)有限公司 图文匹配方法、装置、存储介质及设备
CN110032658A (zh) * 2019-03-19 2019-07-19 深圳壹账通智能科技有限公司 基于图像分析的文本匹配方法、装置、设备及存储介质
CN109933802B (zh) * 2019-03-25 2023-05-26 腾讯科技(深圳)有限公司 图文匹配方法、装置及存储介质
CN110097010A (zh) * 2019-05-06 2019-08-06 北京达佳互联信息技术有限公司 图文检测方法、装置、服务器及存储介质
CN110516085B (zh) * 2019-07-11 2022-05-17 西安电子科技大学 基于双向注意力的图像文本互检索方法
CN110348535B (zh) * 2019-07-17 2022-05-31 北京金山数字娱乐科技有限公司 一种视觉问答模型训练方法及装置
CN110704665A (zh) * 2019-08-30 2020-01-17 北京大学 一种基于视觉注意力机制的图像特征表达方法及***
CN112529986B (zh) * 2019-09-19 2023-09-22 百度在线网络技术(北京)有限公司 图文相关性的计算模型建立方法、计算方法及装置
EP4027267A4 (en) * 2019-12-30 2022-11-02 Huawei Technologies Co., Ltd. METHOD, APPARATUS AND SYSTEM FOR IDENTIFYING TEXT IN AN IMAGE
CN113343664B (zh) * 2021-06-29 2023-08-08 京东科技信息技术有限公司 图像文本之间的匹配度的确定方法及装置
CN114580577B (zh) * 2022-05-05 2022-09-13 天津大学 一种面向多模态的交互式数据标注方法及***
CN116775918B (zh) * 2023-08-22 2023-11-24 四川鹏旭斯特科技有限公司 基于互补熵对比学习跨模态检索方法、***、设备及介质
CN117194652B (zh) * 2023-11-08 2024-01-23 泸州友信达智能科技有限公司 一种基于深度学习的信息推荐***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
CN105718555A (zh) * 2016-01-19 2016-06-29 中国人民解放军国防科学技术大学 一种基于层次化语义描述的图像检索方法
WO2016197381A1 (en) * 2015-06-12 2016-12-15 Sensetime Group Limited Methods and apparatus for recognizing text in an image
CN106446782A (zh) * 2016-08-29 2017-02-22 北京小米移动软件有限公司 图像识别方法及装置
CN106503055A (zh) * 2016-09-27 2017-03-15 天津大学 一种从结构化文本到图像描述的生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016197381A1 (en) * 2015-06-12 2016-12-15 Sensetime Group Limited Methods and apparatus for recognizing text in an image
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
CN105718555A (zh) * 2016-01-19 2016-06-29 中国人民解放军国防科学技术大学 一种基于层次化语义描述的图像检索方法
CN106446782A (zh) * 2016-08-29 2017-02-22 北京小米移动软件有限公司 图像识别方法及装置
CN106503055A (zh) * 2016-09-27 2017-03-15 天津大学 一种从结构化文本到图像描述的生成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Hyeonseob Nam;Jung-Woo Ha;Jeonghee Kim.Dual Attention Networks for Multimodal Reasoning and Matching.《https://arxiv.org/abs/1611.00471》.2017,全文. *
Jiang Wang;Yi Yang;Junhua Mao;Zhiheng Huang;Chang Huang.CNN-RNN: A Unified Framework for Multi-label Image Classification.《Computer Vision and Pattern Recognition》.2016,全文. *
Stanislaw Antol;Aishwarya Agrawal;Jiasen Lu;Margaret Mitch.VQA: Visual Question Answering.《Computer Vision》.2016,全文. *
What Value Do Explicit High Level Concepts Have in Vision to Language Problems?;QI WU 等;《Computer Vision and Pattern Recognition》;20160630;全文 *

Also Published As

Publication number Publication date
CN108228686A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN108228686B (zh) 用于实现图文匹配的方法、装置和电子设备
CN110287479B (zh) 命名实体识别方法、电子装置及存储介质
CN110472090B (zh) 基于语义标签的图像检索方法以及相关装置、存储介质
CN105426356B (zh) 一种目标信息识别方法和装置
CN110008338B (zh) 一种融合gan和迁移学习的电商评价情感分析方法
CN110147551B (zh) 多类别实体识别模型训练、实体识别方法、服务器及终端
CN106599226B (zh) 一种内容推荐方法及内容推荐***
CN111241291B (zh) 利用对抗生成网络生成对抗样本的方法及装置
CN110705301B (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN111400754B (zh) 保护用户隐私的用户分类***的构建方法及装置
CN109165563B (zh) 行人再识别方法和装置、电子设备、存储介质、程序产品
CN110232340B (zh) 建立视频分类模型以及视频分类的方法、装置
CN109189921B (zh) 评论评估模型的训练方法和装置
CN110245257B (zh) 推送信息的生成方法及装置
CN108416059B (zh) 图像描述模型的训练方法和装置、设备、介质
CN110956037B (zh) 多媒体内容重复判断方法及装置
CN111428557A (zh) 基于神经网络模型的手写签名的自动校验的方法和装置
CN113627151B (zh) 跨模态数据的匹配方法、装置、设备及介质
CN114612743A (zh) 深度学习模型的训练方法、目标对象识别方法和装置
CN112183946A (zh) 多媒体内容评估方法、装置及其训练方法
CN114580354B (zh) 基于同义词的信息编码方法、装置、设备和存储介质
CN113836297A (zh) 文本情感分析模型的训练方法及装置
CN112417845A (zh) 一种文本评价方法、装置、电子设备及存储介质
CN108229518B (zh) 基于语句的图像检测方法、装置和***
CN116912921B (zh) 表情识别方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant