CN109886326A - 一种跨模态信息检索方法、装置和存储介质 - Google Patents

一种跨模态信息检索方法、装置和存储介质 Download PDF

Info

Publication number
CN109886326A
CN109886326A CN201910109983.5A CN201910109983A CN109886326A CN 109886326 A CN109886326 A CN 109886326A CN 201910109983 A CN201910109983 A CN 201910109983A CN 109886326 A CN109886326 A CN 109886326A
Authority
CN
China
Prior art keywords
feature
information
attention
mode
mode information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910109983.5A
Other languages
English (en)
Other versions
CN109886326B (zh
Inventor
王子豪
邵婧
李鸿升
闫俊杰
王晓刚
盛律
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Priority to CN201910109983.5A priority Critical patent/CN109886326B/zh
Priority to PCT/CN2019/083725 priority patent/WO2020155423A1/zh
Priority to SG11202104369UA priority patent/SG11202104369UA/en
Priority to JP2021547620A priority patent/JP7164729B2/ja
Publication of CN109886326A publication Critical patent/CN109886326A/zh
Priority to TW108137215A priority patent/TWI737006B/zh
Priority to US17/239,974 priority patent/US20210240761A1/en
Application granted granted Critical
Publication of CN109886326B publication Critical patent/CN109886326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种跨模态信息检索方法、装置和存储介质,其中,该包括:获取第一模态信息和第二模态信息;根据所述第一模态信息的模态特征,确定所述第一模态信息的第一语义特征和第一注意力特征;根据所述第二模态信息的模态特征,确定所述第二模态信息的第二语义特征和第二注意力特征;基于所述第一注意力特征、所述第二注意力特征、所述第一语义特征以及所述第二语义特征,确定所述第一模态信息和所述第二模态信息的相似度。通过本公开实施例提供的跨模态信息检索方案,可以实现在较低的时间复杂度内实现跨模态信息检索。

Description

一种跨模态信息检索方法、装置和存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种跨模态信息检索方法、装置和存储介质。
背景技术
随着计算机网络的发展,用户可以在网络中获取大量的信息。由于信息数量的庞大, 通常用户可以通过输入文字或者图片检索关注的信息。在信息检索技术不断优化的过程 中,跨模态信息检索方式应运而生。跨模态信息检索方式可以实现利用某一种模态样本, 搜索近似语义的其他模态样本。例如,利用图像来检索相应的文本,或者,利用文本来检索相应的图像。
但是,在相关的跨模态信息检索方式中,以文本-图片的跨模态方式为例,大多数跨 模态信息检索方式着重于提高文本与图片在同一个向量空间中的特征质量,此类方法过 于依赖文本与图片提取出来的特征质量。此外,由于检索问题的特殊性,度量特征相似度的方法在时间复杂度上不宜过高,否则会在实际应用中造成效率问题。
发明内容
有鉴于此,本公开提出了一种跨模态信息检索方法、装置和存储介质,可以实现在较低的时间复杂度内实现跨模态信息检索。
根据本公开的一方面,提供了一种跨模态信息检索方法,所述方法包括:
获取第一模态信息和第二模态信息;
根据所述第一模态信息的模态特征,确定所述第一模态信息的第一语义特征和第一 注意力特征;
根据所述第二模态信息的模态特征,确定所述第二模态信息的第二语义特征和第二 注意力特征;
基于所述第一注意力特征、所述第二注意力特征、所述第一语义特征以及所述第二 语义特征,确定所述第一模态信息和所述第二模态信息的相似度。
在一种可能的实现方式中,
所述第一语义特征包括第一分语义特征和第一和语义特征;所述第一注意力特征包 括第一分注意力特征和第一和注意力特征;
所述第二语义特征包括第二分语义特征和第二和语义特征;所述第二注意力特征包 括第二分注意力特征和第一和注意力特征。
在一种可能的实现方式中,所述根据所述第一模态信息的模态特征,确定所述第一 模态信息的第一语义特征和第一注意力特征,包括:
将所述第一模态信息划分为至少一个信息单元;
在每个信息单元中进行第一模态特征提取,确定每个信息单元的第一模态特征;
基于每个所述信息单元的第一模态特征,提取语义特征空间的第一分语义特征;
基于每个所述信息单元的第一模态特征,提取注意力特征空间的第一分注意力特征。
在一种可能的实现方式中,所述方法还包括:
根据每个信息单元的第一分语义特征,确定所述第一模态信息的第一和语义特征;
根据每个信息单元的第一分注意力特征,确定所述第一模态信息的第一和注意力特 征。
在一种可能的实现方式中,所述根据所述第二模态信息的模态特征,确定所述第二 模态信息的第二语义特征和第二注意力特征,包括:
将所述第二模态信息划分为至少一个信息单元;
在每个信息单元中进行第二模态特征提取,确定每个信息单元的第二模态特征;
基于每个信息单元的第二模态特征,提取语义特征空间的第二分语义特征;
基于每个信息单元的第二模态特征,提取注意力特征空间的第二分注意力特征。
在一种可能的实现方式中,所述方法还包括:
根据每个信息单元的第二分语义特征,确定所述第二模态信息的第二和语义特征;
根据每个信息单元的第二分注意力特征,确定所述第二模态信息的第二和注意力特 征。
在一种可能的实现方式中,所述基于所述第一注意力特征、所述第二注意力特征、所述第一语义特征以及所述第一语义特征,确定所述第一模态信息和所述第二模态信息的相似度,包括:
根据所述第一模态信息的第一分注意力特征、第一分语义特征和所述第二模态信息 的第二和注意力特征,确定第一注意力信息;
根据所述第二模态信息的第二分注意力特征、第二分语义特征和所述第一模态信息 的第一和注意力特征,确定第二注意力信息;
根据所述第一注意力信息和所述第二注意力信息,确定所述第一模态信息与所述第 二模态信息的相似度。
在一种可能的实现方式中,所述根据所述第一模态信息的第一分注意力特征、第一 分语义特征和所述第二模态信息的第二和注意力特征,确定第一注意力信息,包括:
根据所述第一模态信息的第一分注意力特征和所述第二模态信息的第二和注意力特 征,确定所述第二模态信息对于第一模态信息的每个信息单元的注意力信息;
根据所述第二模态信息对于第一模态信息的每个信息单元的注意力信息和所述第一 模态信息的第一分语义特征,确定所述第二模态信息对于所述第一模态信息的第一注意 力信息。
在一种可能的实现方式中,所述根据所述第二模态信息的第二分注意力特征、第二 分语义特征和所述第一模态信息的第一和注意力特征,确定第二注意力信息,包括:
根据所述第二模态信息的第二分注意力特征和所述第一模态信息的第一和注意力特 征,确定所述第一模态信息对于所述第二模态信息的每个信息单元的注意力信息;
根据所述第一模态信息对于所述第二模态信息的每个信息单元的注意力信息和所述 第二模态信息的第二分语义特征,确定所述第一模态信息对于所述第二模态信息的第二 注意力信息。
在一种可能的实现方式中,所述第一模态信息为第一模态的待检索信息,所述第二 模态信息为第二模态的预存信息;所述方法还包括:
在所述相似度满足预设条件的情况下,将所述第二模态信息作为所述第一模态信息 的检索结果。
在一种可能的实现方式中,所述第二模态信息为多个;所述在所述相似度满足预设 条件的情况下,将所述第二模态信息作为所述第一模态信息的检索结果,包括:
根据所述第一模态信息与每个第二模态信息的相似度,对多个第二模态信息进行排 序,得到排序结果;
根据所述排序结果,确定满足所述预设条件的第二模态信息;
将满足所述预设条件的第二模态信息作为所述第一模态信息的检索结果。
在一种可能的实现方式中,所述预设条件包括以下任一条件:
相似度大于预设值;相似度由小至大的排名大于预设排名。
在一种可能的实现方式中,所述将所述第二模态信息作为所述第一模态信息的检索 结果之后,还包括:
向用户端输出所述检索结果。
在一种可能的实现方式中,所述第一模态信息包括文本信息或图像信息中的一种模 态信息;所述第二模态信息包括文本信息或图像信息中的一种模态信息。
在一种可能的实现方式中,所述第一模态信息为第一模态的训练样本信息,所述第 二模态信息为第二模态的训练样本信息;每个第一模态的训练样本信息与第二模态的训 练样本信息形成训练样本对。
根据本公开的另一方面,提供了一种跨模态信息检索装置,所述装置包括:
获取模块,用于获取第一模态信息和第二模态信息;
第一确定模块,用于根据所述第一模态信息的模态特征,确定所述第一模态信息的 第一语义特征和第一注意力特征;
第二确定模块,用于根据所述第二模态信息的模态特征,确定所述第二模态信息的 第二语义特征和第二注意力特征;
相似度确定模块,用于基于所述第一注意力特征、所述第二注意力特征、所述第一语义特征以及所述第二语义特征,确定所述第一模态信息和所述第二模态信息的相似度。
在一种可能的实现方式中,
所述第一语义特征包括第一分语义特征和第一和语义特征;所述第一注意力特征包 括第一分注意力特征和第一和注意力特征;
所述第二语义特征包括第二分语义特征和第二和语义特征;所述第二注意力特征包 括第二分注意力特征和第一和注意力特征。
在一种可能的实现方式中,所述第一确定模块包括:
第一划分子模块,用于将所述第一模态信息划分为至少一个信息单元;
第一模态确定子模块,用于在每个信息单元中进行第一模态特征提取,确定每个信 息单元的第一模态特征;
第一分语义提取子模块,用于基于每个所述信息单元的第一模态特征,提取语义特 征空间的第一分语义特征;
第一分注意力提取子模块,用于基于每个所述信息单元的第一模态特征,提取注意 力特征空间的第一分注意力特征。
在一种可能的实现方式中,所述装置还包括:
第一和语义确定子模块,用于根据每个信息单元的第一分语义特征,确定所述第一 模态信息的第一和语义特征;
第一和注意力确定子模块,用于根据每个信息单元的第一分注意力特征,确定所述 第一模态信息的第一和注意力特征。
在一种可能的实现方式中,所述第二确定模块包括:
第二划分子模块,用于将所述第二模态信息划分为至少一个信息单元;
第二模态确定子模块,用于在每个信息单元中进行第二模态特征提取,确定每个信 息单元的第二模态特征;
第二分语义提取子模块,用于基于每个信息单元的第二模态特征,提取语义特征空 间的第二分语义特征;
第二分注意力提取子模块,用于基于每个信息单元的第二模态特征,提取注意力特 征空间的第二分注意力特征。
在一种可能的实现方式中,所述装置还包括:
第二和语义确定子模块,用于根据每个信息单元的第二分语义特征,确定所述第二 模态信息的第二和语义特征;
第二和注意力确定子模块,用于根据每个信息单元的第二分注意力特征,确定所述 第二模态信息的第二和注意力特征。
在一种可能的实现方式中,所述相似度确定模块包括:
第一注意力信息确定子模块,用于根据所述第一模态信息的第一分注意力特征、第 一分语义特征和所述第二模态信息的第二和注意力特征,确定第一注意力信息;
第二注意力信息确定子模块,用于根据所述第二模态信息的第二分注意力特征、第 二分语义特征和所述第一模态信息的第一和注意力特征,确定第二注意力信息;
相似度确定子模块,用于根据所述第一注意力信息和所述第二注意力信息,确定所 述第一模态信息与所述第二模态信息的相似度。
在一种可能的实现方式中,所述第一注意力信息确定子模块,具体用于,
根据所述第一模态信息的第一分注意力特征和所述第二模态信息的第二和注意力特 征,确定所述第二模态信息对于第一模态信息的每个信息单元的注意力信息;
根据所述第二模态信息对于第一模态信息的每个信息单元的注意力信息和所述第一 模态信息的第一分语义特征,确定所述第二模态信息对于所述第一模态信息的第一注意 力信息。
在一种可能的实现方式中,所述第二注意力信息确定子模块,具体用于,
根据所述第二模态信息的第二分注意力特征和所述第一模态信息的第一和注意力特 征,确定所述第一模态信息对于所述第二模态信息的每个信息单元的注意力信息;
根据所述第一模态信息对于所述第二模态信息的每个信息单元的注意力信息和所述 第二模态信息的第二分语义特征,确定所述第一模态信息对于所述第二模态信息的第二 注意力信息。
在一种可能的实现方式中,所述第一模态信息为第一模态的待检索信息,所述第二 模态信息为第二模态的预存信息;所述装置还包括:
检索结果确定模块,用于在所述相似度满足预设条件的情况下,将所述第二模态信 息作为所述第一模态信息的检索结果。
在一种可能的实现方式中,所述第二模态信息为多个;所述检索结果确定模块包括:
排序子模块,用于根据所述第一模态信息与每个第二模态信息的相似度,对多个第 二模态信息进行排序,得到排序结果;
信息确定子模块,用于根据所述排序结果,确定满足所述预设条件的第二模态信息;
检索结果确定子模块,用于将满足所述预设条件的第二模态信息作为所述第一模态 信息的检索结果。
在一种可能的实现方式中,所述预设条件包括以下任一条件:
相似度大于预设值;相似度由小至大的排名大于预设排名。
在一种可能的实现方式中,所述装置还包括:
输出模块,用于向用户端输出所述检索结果。
在一种可能的实现方式中,所述第一模态信息包括文本信息或图像信息中的一种模 态信息;所述第二模态信息包括文本信息或图像信息中的一种模态信息。
在一种可能的实现方式中,所述第一模态信息为第一模态的训练样本信息,所述第 二模态信息为第二模态的训练样本信息;每个第一模态的训练样本信息与第二模态的训 练样本信息形成训练样本对。
根据本公开的另一方面,提供了一种跨模态信息检索装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述方法。
根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计 算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
本公开实施例通过获取第一模态信息和第二模态信息,根据第一模态信息的模态特 征可以分别确定第一模态信息的第一语义特征和第一注意力特征,并根据第二模态信息 的模态特征可以分别确定所述第二模态信息的第二语义特征和第二注意力特征,进而可 以基于第一注意力特征、第二注意力特征、第一语义特征以及第二语义特征,确定第一模态信息和第二模态信息的相似度。这样,可以利用不同模态信息的语义特征和注意力 特征,得到不同模态信息之间的相似度,相比于现有技术方案中过于特征提取的质量而 言,本公开实施例对不同模态信息的语义特征和注意力特征分别进行处理,可以减少跨 模态信息检索过程中对特征提取质量的依赖程度,并且方法简单,时间复杂度较低,可 以提高跨模态信息检索的效率。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清 楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例 性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开一实施例的跨模态信息检索方法的流程图。
图2示出根据本公开一实施例的确定第一语义特征和第一注意力特征的流程图。
图3示出根据本公开一实施例的跨模态信息检索过程的框图。
图4示出根据本公开一实施例的确定第二语义特征和第二注意力特征的流程图。
图5示出根据本公开一实施例的根据相似度确定检索结果为匹配的框图。
图6示出根据本公开一实施例的跨模态信息检索的流程图。
图7示出根据本公开一实施例的一种跨模态信息检索装置的框图。
图8示出根据本公开一实施例的一种跨模态信息检索装置的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的 附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说 明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中, 对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开 的主旨。
本申请实施例下述方法、装置、电子设备或计算机存储介质可以应用于任何需要对 跨模态信息进行检索的场景,比如,可以应用于检索软件、信息定位等。本申请实施例并不对具体的应用场景作限制,任何使用本申请实施例提供的方法对跨模态信息进行检索的方案均在本申请保护范围内。
本公开实施例提供的跨模态信息检索方案,可以分别获取第一模态信息和第二模态 信息,根据第一模态信息的模态特征确定第一模态信息的第一语义特征和第一注意力特 征,以及,根据第二模态信息的模态特征确定第二模态信息的第二语义特征和第二注意力特征,由于第一模态信息和第二模态信息是不同模态的信息,可以对第一模态信息和 第二模态信息的语义特征和注意力特征并行进行处理,然后可以基于第一注意力特征、 第二注意力特征、第一语义特征以及第二语义特征,确定第一模态信息和所述第二模态 信息的相似度。通过这种方式,注意力特征可以从模态信息的语义特征中解耦出来,并 作为单独的特征进行处理,同时,可以在较低的时间复杂度内确定第一模态信息和第二 模态信息的相似度,提高跨模态信息检索的效率。
在相关技术中,通常通过提高模态信息的语义特征质量提高跨模态信息检索的准确 率,并未通过优化特征相似度的方式提高跨模态信息检索的准确率。这种方式过于依赖通过模态信息提取出来的特征质量,导致跨模态信息检索的效率过低。本公开实施例通 过优化特征相似度的方式提高跨模态信息检索的准确率,并且时间复杂度较低,可以使 跨模态信息在检索过程中既可以保证检索的准确性,还可以提高检索的效率。下面,结 合附图对本公开实施例提供的跨模态信息检索方案进行详细说明。
图1示出根据本公开一实施例的跨模态信息检索方法的流程图。如图1所示,该方法 包括:
步骤11,获取第一模态信息和第二模态信息。
在本公开实施例中,检索装置(例如,检索软件、检索平台、检索服务器等检索装置)可以获取第一模态信息或者第二模态信息。例如,检索设备获取用户设备传输的第 一模态信息或第二模态信息;再例如,检索设备根据用户操作获取第一模态信息或者第 二模态信息。检索平台还可以在本地存储或数据库中获取第一模态信息或者第二模态信 息。这里,第一模态信息和第二模态信息为不同模态的信息,例如,第一模态信息可以 包括文本信息或图像信息中的一种模态信息,第二模态信息包括文本信息或图像信息中 的一种模态信息。这里的第一模态信息和第二模态信息不仅限于图像信息和文本信息, 还可以包括语音信息、视频信息和光信号信息等。这里的模态可以理解为信息的种类或 者存在形式。第一模态信息和第二模态信息可以为不同模态的信息。
步骤12,根据所述第一模态信息的模态特征,确定所述第一模态信息的第一语义特 征和第一注意力特征。
这里,检索装置在获取第一模态信息之后,可以确定第一模态信息的模态特征。第一模态信息的模态特征可以形成第一模态特征向量,然后可以根据第一模态特征向量确定第一模态信息的第一语义特征和第一注意力特征。其中,第一语义特征可以包括第一 分语义特征和第一和语义特征;第一注意力特征包括第一分注意力特征和第一和注意力 特征。第一语义特征可以表征第一模态信息的语义,第一注意力特征可以表征第一模态 信息的注意力。这里的注意力可以理解为在对模态信息进行处理时,对模态信息中某部 分的信息单元投入的处理资源。例如,以文本信息为例,文本信息中的名词,如“红色”、 “衬衫”,相比于文本信息中的连词,如“和”、“或者”,可以具有更多的注意力。
图2示出根据本公开一实施例的确定第一语义特征和第一注意力特征的流程图。在一 种可能的实现方式中,在根据第一模态信息的模态特征,确定第一模态信息的第一语义 特征和第一注意力特征时,可以包括以下步骤:
步骤121,将所述第一模态信息划分为至少一个信息单元;
步骤122,在每个信息单元中进行第一模态特征提取,确定每个信息单元的第一模态 特征;
步骤123,基于每个所述信息单元的第一模态特征,提取语义特征空间的第一分语义 特征;
步骤124,基于每个所述信息单元的第一模态特征,提取注意力特征空间的第一分注 意力特征。
这里,在确定第一模态信息的第一语义特征和第一注意力特征时,可以将第一模态 信息划分多个信息单元。在划分时,可以按照预设的信息单元尺寸对第一模态信息进行划分,每个信息单元的尺寸相等。或者,还将第一模态信息划分为尺寸不同的多个信息 单元。例如,在第一模态信息为图像信息的情况下,可以将一个图像划分为多个图像单 元。在将一模态信息划分为多个信息单元之后,可以对每个信息单元进行第一模态特征 提取,得到每个信息单元的第一模态特征。每个信息单元的第一模态特征可以形成一个 第一模态特征向量。然后可以将第一模态特征向量转变为语义特征空间的第一分语义特 征向量,以及将第一模态特征向量转变为注意力空间的第一分注意力特征。
在一种可能的实现方式中,可以根据第一模态信息的第一分语义特征确定第一和语 义特征,以及,根据第一模态信息的第一分注意力特征确定第一和语义特征。这里,第一模态信息可以包括多个信息单元。第一分语义特征可以表示第一模态信息的每个信息单元对应的语义特征,第一和语义特征可以表示第一模态信息对应的语义特征。第一分 注意力特征可以表示第一模态信息的每个信息单元对应的注意力特征,第一和注意力特 征可以表示第一模态信息对应的注意力特征。
图3示出根据本公开一实施例的跨模态信息检索过程的框图。举例来说,以第一模态 信息为图像信息为例,检索装置获取图像信息之后,可以将图像信息划分为多个图像单元,然后可以利用卷积神经网络(CNN)模型对每个图像单元的图像特征进行提取,生 成每个图像单元的图像特征向量(第一模态特征的示例)。图像单元的图像特征向量可以 表示为:其中,R为图像单元的个数,d为图像特征向 量的维数,vi为第i个图像单元的图像特征向量,表示为实数矩阵。对图像信息而言, 图像信息对应的图像特征向量可以表示为:然后对每个图像单元的 图像特征向量进行线性映射,可以得到图像信息的第一分语义特征,相应地线性映射函 数可以表示为Wv,图像信息的第一分语义特征对应的第一分语义特征向量可以表示为: 相应地,对v*进行相同的线性映射之后,可以得到图像信息的第一和语义特 征形成的第一和语义特征向量
相应地,检索装置可以对每个图像单元的图形特征向量进行线性映射,得到图像信 息的第一分注意力特征,进行注意力特征映射的线性函数可以表示为Uv,图像信息的第一分注意力特征对应的第一分注意力特征向量可以表示为:相应地,对v*进 行相同的线性映射之后,可以得到图像信息的第一和注意力特征
步骤13,根据所述第二模态信息的模态特征,确定所述第二模态信息的第二语义特 征和第二注意力特征。
这里,检索装置在获取第二模态信息之后,可以确定第二模态信息的模态特征。第二模态信息的模态特征可以形成第二模态特征向量,然后检索装置可以根据第二模态特征向量确定第二模态信息的第二语义特征和第二注意力特征。其中,第二语义特征可以 包括第二分语义特征和第二和语义特征;第二注意力特征包括第二分注意力特征和第二 和注意力特征。第二语义特征可以表征第二模态信息的语义,第二注意力特征可以表征 第二模态信息的注意力。其中,第一语义特征与第二语义特征对应的特征空间可以相同。
图4示出根据本公开一实施例的确定第二语义特征和第二注意力特征的流程图。在一 种可能的实现方式中,在根据第二模态信息的模态特征,确定第二模态信息的第二语义 特征和第二注意力特征时,可以包括以下步骤:
步骤131,将所述第二模态信息划分为至少一个信息单元;
步骤132,在每个信息单元中进行第二模态特征提取,确定每个信息单元的第二模态 特征;
步骤133,基于每个所述信息单元的第二模态特征,提取语义特征空间的第二分语义 特征;
步骤134,基于每个所述信息单元的第二模态特征,提取注意力特征空间的第二分注 意力特征。
这里,在确定第二模态信息的第二语义特征和第二注意力特征时,可以第二模态信 息划分多个信息单元。在划分时,可以按照预设的信息单元尺寸对第二模态信息进行划分,每个信息单元的尺寸相等。或者,还将第二模态信息划分为尺寸不同的多个信息单 元。例如,在第二模态信息为文本信息的情况下,可以将一文本中的每个单词划分为一 个文本单元。在将第二模态信息划分为多个信息单元之后,可以对每个信息单元进行第 二模态特征提取,得到每个信息单元的第二模态特征。每个信息单元的第二模态特征可 以形成一个第二模态特征向量。然后可以将第二模态特征向量转变为语义特征空间的第 二分语义特征向量,以及将第二模态特征向量转变为注意力空间的第二分注意力特征。 这里,第二语义特征对应的语义特征空间与第一语义特征对应的语义特征空间相同,这 里的特征空间相同可以理解为特征对应的特征向量维数相同。
在一种可能的实现方式中,可以根据第二模态信息的第二分语义特征确定第二和语 义特征,以及,根据第二模态信息的第二分注意力特征确定第二和注意力特征。这里,第二模态信息可以包括多个信息单元。第二分语义特征可以表示第二模态信息的每个信息单元对应的语义特征,第二和语义特征可以表示第二模态信息对应的语义特征。第二 分注意力特征可以表示第二模态信息的每个信息单元对应的注意力特征,第二和注意力 特征可以表示第二模态信息对应的注意力特征。
如图3所示,以第二模态信息为文本信息为例,检索装置获取文本信息之后,可以将 文本信息划分为多个文本单元,例如将文本信息中每个单词作为一个文本单元。然后可以利用递归神经网络(GRU)模型对每个文本单元的文本特征进行提取,生成每个文本 单元的文本特征向量(第二模态特征的示例)。文本单元的文本特征向量可以表示为:其中,T为文本单元的个数,d为文本特征向量的维数, sj为第j个文本单元的文本特征向量。对于文本信息而言,整个文本信息对应的文本特征 向量可以表示为:然后对每个文本单元的文本特征向量进行线性映射,可以得到文本信息的第二分语义特征,相应的线性映射函数可以表示为Ws,文本信 息的第二语义特征的第二语义特征向量可以表示为:相应地,对s*进行相同 的线性映射之后,可以得到文本信息的第二和语义特征形成的第二和语义特征向量
相应地,检索装置可以对每个文本单元的文本特征向量进行线性映射,得到文本信 息的第二分注意力特征,进行注意力特征映射的线性函数可以表示为Us,文本信息的第二分注意力特征对应的第二分注意力特征向量可以表示为:相应地,对s*进 行相同的线性映射之后,可以得到文本信息的第二和注意力特征形成的第二和注意力特 征向量
步骤14,基于所述第一注意力特征、所述第二注意力特征、所述第一语义特征以及所述第二语义特征,确定所述第一模态信息和所述第二模态信息的相似度。
在本申请实施例中,检索装置可以根据第一模态信息的第一注意力特征和第二模态 信息的第二注意力特征,确定第一模态信息与第二模态信息相互关注的关注程度。然后若结合第一语义特征,则可以确定第二模态信息对于第一模态信息关注的语义特征;若 结合第二语义特征,则可以确定第一模态信息对于第二模态信息关注的语义特征。这样, 可以根据第二模态信息对于第一模态信息关注的语义特征以及第一模态信息对于第二模 态信息关注的语义特征,确定第一模态信息和第二模态信息的相似度。在确定第一模态 信息和第二模态信息的相似度时,可以通过计算余弦距离或者通过点积操作的方式确定 第一模态信息和第二模态信息的相似度。
在一种可能的实现方式中,在确定第一模态信息和第二模态信息的相似度时,可以 根据第一模态信息的第一分注意力特征、第一分语义特征和所述第二模态信息的第二和 注意力特征,确定第一注意力信息。然后根据第二模态信息的第二分注意力特征、第二分语义特征和第一模态信息的第一和注意力特征,确定第二注意力信息。再根据第一注 意力信息和第二注意力信息,确定第一模态信息与第二模态信息的相似度。
这里,在根据第一模态信息的第一分注意力特征、第一分语义特征和第二模态信息 的第二和注意力特征,确定第一注意力信息时,可以先根据第一模态信息的第一分注意力特征和第二模态信息的第二和注意力特征,确定第二模态信息对于第一模态信息的每个信息单元的注意力信息。然后根据第二模态信息对于第一模态信息的每个信息单元的注意力信息和第一模态信息的第一分语义特征,确定第二模态信息对于第一模态信息的第一注意力信息。
相应地,在根据第二模态信息的第二分注意力特征、第二分语义特征和第一模态信 息的第一和注意力特征,确定第二注意力信息时,可以根据第二模态信息的第二分注意力特征和第一模态信息的第一和注意力特征,确定第一模态信息对于第二模态信息的每个信息单元的注意力信息。然后根据第一模态信息对于第二模态信息的每个信息单元的注意力信息和第二模态信息的第二分语义特征,确定第一模态信息对于第二模态信息的第二注意力信息。
结合图3,对上述确定第一模态信息和第二模态信息的相似度的过程进行详细说明。 以第一模态信息为图像信息、第二模态信息文本信息为例,在得到图像信息的第一分语 义特征向量Ev、第一和语义特征向量第一分注意力特征向量Kv和第一和注意力特征向量以及得到本文信息的第二分语义特征向量Es、第二和语义特征向量第二分 注意力特征向量Ks和第二和注意力特征向量之后,可以先利用和Kv确定文本信息对 图像信息的每个图像单元注意力信息,然后再结合Ev,确定文本信息对图像信息注意的 语义特征,即确定文本信息对于图像信息的第一注意力信息。第一注意力信息可以通过 以下方式进行确定:
其中,A可以表示注意力操作,softmax可以表示归一化指数函数。可以表示控 制参数,可以控制注意力的大小。这样,可以使得到的注意力信息在合适的大小范围。
相应地,第二注意力信息可以通过以下方式进行确定:
其中,A可以表示注意力操作,softmax可以表示归一化指数函数。可以表示控 制参数。
在得到第一注意力信息和第二注意力信息之后,可以计算图像信息和文本信息的相 似度。相似度计算公式可表示如下:
其中,S(e1,e1)=norm(e1)norm(e2)T;其中,norm(·)表示取范数操作。
通过上述公式,可以得到第一模态信息和第二模态信息的相似度。
通过上述跨模态信息检索的方式,注意力特征可以从模态信息的语义特征中解耦出 来,并作为单独的特征进行处理,并且可以在较低的时间复杂度内确定第一模态信息和第二模态信息的相似度,提高跨模态信息检索的效率。
图5示出根据本公开一实施例的根据相似度确定检索结果为匹配的框图。第一模态信 息和第二模态信息可以分别为图像信息和文本信息。由于跨模态信息检索过程中的注意 力机制,会使得跨模态信息在检索过程中,图像信息更加注意文本信息中对应的文本单 元,文本信息更加注意图像信息中对应的图像单元。如图5所示,图像信息中突出了“女性”和“手机”的图像单元,文本信息中突出了“女性”和“手机”的文本单元。
通过上述跨模态信息检索的方式,本公开实施例还提供了一种跨模态信息检索的应 用实例。图6示出根据本公开一实施例的跨模态信息检索的流程图。第一模态信息可以为 第一模态的待检索信息,第二模态信息可以为第二模态的预存信息,该跨模态信息检索方法可以包括:
步骤61,获取第一模态信息和第二模态信息;
步骤62,根据所述第一模态信息的模态特征,确定所述第一模态信息的第一语义特 征和第一注意力特征;
步骤63,根据所述第二模态信息的模态特征,确定所述第二模态信息的第二语义特 征和第二注意力特征;
步骤64,基于所述第一注意力特征、所述第二注意力特征、所述第一语义特征以及所述第二语义特征,确定所述第一模态信息和所述第二模态信息的相似度;
步骤65,在所述相似度满足预设条件的情况下,将所述第二模态信息作为所述第一 模态信息的检索结果。
这里,检索装置可以获取用户输入的第一模态信息,然后可以在本地存储或数据库 中获取第二模态信息。在通过上述步骤确定第一模态信息与第二模态信息的相似度满足 预设条件的情况下,可以将第二模态信息作为第一模态信息的检索结果。
在一种可能的实现方式中,第二模态信息为多个,在将第二模态信息作为第一模态 信息的检索结果时,可以根据第一模态信息与每个第二模态信息的相似度,对多个第二模态信息进行排序,得到排序结果。然后根据第二模态信息的排序结果,可以确定相似 度满足预设条件的第二模态信息。然后将相似度满足预设条件的第二模态信息作为第一 模态信息的检索结果。
这里,预设条件包括以下任一条件:
相似度大于预设值;相似度由小至大的排名大于预设排名。
举例来说,在将第二模态信息作为第一模态信息的检索结果时,可以在第一检索信 息与第二检索信息的相似度大于预设值时,将第二模态信息作为第一模态信息的检索结 果。或者,在将第二模态信息作为第一模态信息的检索结果时,可以根据第一模态信息与每个第二模态信息的相似度,按照相似度由小至大的顺序为多个第二模态信息进行排序,排序结果,然后根据排序结果,将排名大于预设排名的第二模态信息作为第一模态 信息的检索结果。例如,将排名最高的第二模态信息作为第一模态信息的检索结果,即 可以将相似度最大的第二模态信息作为第一模态信息的检索结果。这里,检索结果可以 为一个或多个。
这里,在将第二模态信息作为第一模态信息的检索结果之后,还可以向用户端输出 检索结果。例如,可以向用户端发送检索结果,或者,在显示界面上显示检索结果。
通过上述跨模态信息检索的方式,本公开实施例还提供了一种跨模态信息检索的训 练实例。第一模态信息可以为第一模态的训练样本信息,第二模态信息为第二模态的训练样本信息;每个第一模态的训练样本信息与第二模态的训练样本信息形成训练样本对。在训练过程中,可以将每对训练样本对输入跨模态信息检索模型,可以选择卷积神经网络、循环神经网络或递归神经网络对第一模态信息或第二模态信息进行模态特征提取。 然后利用跨模态信息检索模型对第一模态信息的模态特征进行线性映射,得到第一模态 信息的第一语义特征和第一注意力特征,以及对第二模态信息的模态特征进行线性映射, 得到第二模态信息的第二语义特征和第二注意力特征。然后再利用跨模态信息检索模型 由第一注意力特征、第二注意力特征、第一语义特征以及第二语义特征,得到第一模态 信息和第二模态信息的相似度。在得到多个训练样本对的相似度之后,可以利用损失函 数得到跨模态信息检索模型的损失,例如,利用对比损失函数、最难负样本排序损失函 数等。然后可以利用得到的损失对跨模态信息检索模型的模型采参数进行调整,得到用 于跨模态信息检索的跨模态信息检索模型。
通过上述跨模态信息检索模型训练过程,注意力特征可以从模态信息的语义特征中 解耦出来,并作为单独的特征进行处理,并且可以在较低的时间复杂度内确定第一模态信息和第二模态信息的相似度,提高跨模态信息检索模型信息检索的效率。
图7示出根据本公开实施例的一种跨模态信息检索装置的框图,如图7所示,所述跨 模态信息检索装置,包括:
获取模块71,用于获取第一模态信息和第二模态信息;
第一确定模块72,用于根据所述第一模态信息的模态特征,确定所述第一模态信息 的第一语义特征和第一注意力特征;
第二确定模块73,用于根据所述第二模态信息的模态特征,确定所述第二模态信息 的第二语义特征和第二注意力特征;
相似度确定模块74,用于基于所述第一注意力特征、所述第二注意力特征、所述第一语义特征以及所述第二语义特征,确定所述第一模态信息和所述第二模态信息的相似度。
在一种可能的实现方式中,
所述第一语义特征包括第一分语义特征和第一和语义特征;所述第一注意力特征包 括第一分注意力特征和第一和注意力特征;
所述第二语义特征包括第二分语义特征和第二和语义特征;所述第二注意力特征包 括第二分注意力特征和第一和注意力特征。
在一种可能的实现方式中,所述第一确定模块72包括:
第一划分子模块,用于将所述第一模态信息划分为至少一个信息单元;
第一模态确定子模块,用于在每个信息单元中进行第一模态特征提取,确定每个信 息单元的第一模态特征;
第一分语义提取子模块,用于基于每个所述信息单元的第一模态特征,提取语义特 征空间的第一分语义特征;
第一分注意力提取子模块,用于基于每个所述信息单元的第一模态特征,提取注意 力特征空间的第一分注意力特征。
在一种可能的实现方式中,所述装置还包括:
第一和语义确定子模块,用于根据每个信息单元的第一分语义特征,确定所述第一 模态信息的第一和语义特征;
第一和注意力确定子模块,用于根据每个信息单元的第一分注意力特征,确定所述 第一模态信息的第一和注意力特征。
在一种可能的实现方式中,所述第二确定模块73包括:
第二划分子模块,用于将所述第二模态信息划分为至少一个信息单元;
第二模态确定子模块,用于在每个信息单元中进行第二模态特征提取,确定每个信 息单元的第二模态特征;
第二分语义提取子模块,用于基于每个信息单元的第二模态特征,提取语义特征空 间的第二分语义特征;
第二分注意力提取子模块,用于基于每个信息单元的第二模态特征,提取注意力特 征空间的第二分注意力特征。
在一种可能的实现方式中,所述装置还包括:
第二和语义确定子模块,用于根据每个信息单元的第二分语义特征,确定所述第二 模态信息的第二和语义特征;
第二和注意力确定子模块,用于根据每个信息单元的第二分注意力特征,确定所述 第二模态信息的第二和注意力特征。
在一种可能的实现方式中,所述相似度确定模块74包括:
第一注意力信息确定子模块,用于根据所述第一模态信息的第一分注意力特征、第 一分语义特征和所述第二模态信息的第二和注意力特征,确定第一注意力信息;
第二注意力信息确定子模块,用于根据所述第二模态信息的第二分注意力特征、第 二分语义特征和所述第一模态信息的第一和注意力特征,确定第二注意力信息;
相似度确定子模块,用于根据所述第一注意力信息和所述第二注意力信息,确定所 述第一模态信息与所述第二模态信息的相似度。
在一种可能的实现方式中,所述第一注意力信息确定子模块,具体用于,
根据所述第一模态信息的第一分注意力特征和所述第二模态信息的第二和注意力特 征,确定所述第二模态信息对于第一模态信息的每个信息单元的注意力信息;
根据所述第二模态信息对于第一模态信息的每个信息单元的注意力信息和所述第一 模态信息的第一分语义特征,确定所述第二模态信息对于所述第一模态信息的第一注意 力信息。
在一种可能的实现方式中,所述第二注意力信息确定子模块,具体用于,
根据所述第二模态信息的第二分注意力特征和所述第一模态信息的第一和注意力特 征,确定所述第一模态信息对于所述第二模态信息的每个信息单元的注意力信息;
根据所述第一模态信息对于所述第二模态信息的每个信息单元的注意力信息和所述 第二模态信息的第二分语义特征,确定所述第一模态信息对于所述第二模态信息的第二 注意力信息。
在一种可能的实现方式中,所述第一模态信息为第一模态的待检索信息,所述第二 模态信息为第二模态的预存信息;所述装置还包括:
检索结果确定模块,用于在所述相似度满足预设条件的情况下,将所述第二模态信 息作为所述第一模态信息的检索结果。
在一种可能的实现方式中,所述第二模态信息为多个;所述检索结果确定模块包括:
排序子模块,用于根据所述第一模态信息与每个第二模态信息的相似度,对多个第 二模态信息进行排序,得到排序结果;
信息确定子模块,用于根据所述排序结果,确定满足所述预设条件的第二模态信息;
检索结果确定子模块,用于将满足所述预设条件的第二模态信息作为所述第一模态 信息的检索结果。
在一种可能的实现方式中,所述预设条件包括以下任一条件:
相似度大于预设值;相似度由小至大的排名大于预设排名。
在一种可能的实现方式中,所述装置还包括:
输出模块,用于向用户端输出所述检索结果。
在一种可能的实现方式中,所述第一模态信息包括文本信息或图像信息中的一种模 态信息;所述第二模态信息包括文本信息或图像信息中的一种模态信息。
在一种可能的实现方式中,所述第一模态信息为第一模态的训练样本信息,所述第 二模态信息为第二模态的训练样本信息;每个第一模态的训练样本信息与第二模态的训 练样本信息形成训练样本对。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。
此外,本公开还提供了上述装置、电子设备、计算机可读存储介质、程序,上述均可用来实现本公开提供的任一种跨模态信息检索方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
图8是根据一示例性实施例示出的一种用于跨模态信息检索的跨模态信息检索装置 1900的框图。例如,跨模态信息检索装置1900可以被提供为一服务器。参照图8,装置1900 包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储 器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有 线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出(I/O)接口1958。 装置1900可以操作基于存储在存储器1932的操作***,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机 程序指令的存储器1932,上述计算机程序指令可由装置1900的处理组件1922执行以完成 上述方法。
本公开可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可 读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。 计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设 备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质 的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软 盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意 合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电 波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光 纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处 理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交 换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从 网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处 理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程 语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸 如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。 计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作 为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在 远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种 类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连 接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通 过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、 现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可 读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(***)和计算机程序产品的流程图和/或 框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处 理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指 令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方 框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设 备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上 执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序 产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或 多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注 的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基 本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意 的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执 行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指 令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本 技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择, 旨在最好地解释各实施例的原理、实际应用或对市场中技术的技术改进,或者使本技术 领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种跨模态信息检索方法,其特征在于,所述方法包括:
获取第一模态信息和第二模态信息;
根据所述第一模态信息的模态特征,确定所述第一模态信息的第一语义特征和第一注意力特征;
根据所述第二模态信息的模态特征,确定所述第二模态信息的第二语义特征和第二注意力特征;
基于所述第一注意力特征、所述第二注意力特征、所述第一语义特征以及所述第二语义特征,确定所述第一模态信息和所述第二模态信息的相似度。
2.根据权利要求1所述的方法,其特征在于,
所述第一语义特征包括第一分语义特征和第一和语义特征;所述第一注意力特征包括第一分注意力特征和第一和注意力特征;
所述第二语义特征包括第二分语义特征和第二和语义特征;所述第二注意力特征包括第二分注意力特征和第一和注意力特征。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一模态信息的模态特征,确定所述第一模态信息的第一语义特征和第一注意力特征,包括:
将所述第一模态信息划分为至少一个信息单元;
在每个信息单元中进行第一模态特征提取,确定每个信息单元的第一模态特征;
基于每个所述信息单元的第一模态特征,提取语义特征空间的第一分语义特征;
基于每个所述信息单元的第一模态特征,提取注意力特征空间的第一分注意力特征。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据每个信息单元的第一分语义特征,确定所述第一模态信息的第一和语义特征;
根据每个信息单元的第一分注意力特征,确定所述第一模态信息的第一和注意力特征。
5.根据权利要求2所述的方法,其特征在于,所述根据所述第二模态信息的模态特征,确定所述第二模态信息的第二语义特征和第二注意力特征,包括:
将所述第二模态信息划分为至少一个信息单元;
在每个信息单元中进行第二模态特征提取,确定每个信息单元的第二模态特征;
基于每个所述信息单元的第二模态特征,提取语义特征空间的第二分语义特征;
基于每个所述信息单元的第二模态特征,提取注意力特征空间的第二分注意力特征。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据每个信息单元的第二分语义特征,确定所述第二模态信息的第二和语义特征;
根据每个信息单元的第二分注意力特征,确定所述第二模态信息的第二和注意力特征。
7.一种跨模态信息检索装置,其特征在于,所述装置包括:
获取模块,用于获取第一模态信息和第二模态信息;
第一确定模块,用于根据所述第一模态信息的模态特征,确定所述第一模态信息的第一语义特征和第一注意力特征;
第二确定模块,用于根据所述第二模态信息的模态特征,确定所述第二模态信息的第二语义特征和第二注意力特征;
相似度确定模块,用于基于所述第一注意力特征、所述第二注意力特征、所述第一语义特征以及所述第二语义特征,确定所述第一模态信息和所述第二模态信息的相似度。
8.根据权利要求7所述的装置,其特征在于,
所述第一语义特征包括第一分语义特征和第一和语义特征;所述第一注意力特征包括第一分注意力特征和第一和注意力特征;
所述第二语义特征包括第二分语义特征和第二和语义特征;所述第二注意力特征包括第二分注意力特征和第一和注意力特征。
9.一种跨模态信息检索装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行存储器存储的可执行指令时,实现权利要求1至6中任意一项所述的方法。
10.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至6中任意一项所述的方法。
CN201910109983.5A 2019-01-31 2019-01-31 一种跨模态信息检索方法、装置和存储介质 Active CN109886326B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201910109983.5A CN109886326B (zh) 2019-01-31 2019-01-31 一种跨模态信息检索方法、装置和存储介质
PCT/CN2019/083725 WO2020155423A1 (zh) 2019-01-31 2019-04-22 一种跨模态信息检索方法、装置和存储介质
SG11202104369UA SG11202104369UA (en) 2019-01-31 2019-04-22 Method and device for cross-modal information retrieval, and storage medium
JP2021547620A JP7164729B2 (ja) 2019-01-31 2019-04-22 クロスモーダル情報検索方法及びその装置、並びに記憶媒体
TW108137215A TWI737006B (zh) 2019-01-31 2019-10-16 一種跨模態訊息檢索方法、裝置和儲存介質
US17/239,974 US20210240761A1 (en) 2019-01-31 2021-04-26 Method and device for cross-modal information retrieval, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910109983.5A CN109886326B (zh) 2019-01-31 2019-01-31 一种跨模态信息检索方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN109886326A true CN109886326A (zh) 2019-06-14
CN109886326B CN109886326B (zh) 2022-01-04

Family

ID=66927971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910109983.5A Active CN109886326B (zh) 2019-01-31 2019-01-31 一种跨模态信息检索方法、装置和存储介质

Country Status (6)

Country Link
US (1) US20210240761A1 (zh)
JP (1) JP7164729B2 (zh)
CN (1) CN109886326B (zh)
SG (1) SG11202104369UA (zh)
TW (1) TWI737006B (zh)
WO (1) WO2020155423A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125457A (zh) * 2019-12-13 2020-05-08 山东浪潮人工智能研究院有限公司 一种深度跨模态哈希检索方法及装置
CN112287134A (zh) * 2020-09-18 2021-01-29 中国科学院深圳先进技术研究院 检索模型的训练和识别方法、电子设备及存储介质
CN112528062A (zh) * 2020-12-03 2021-03-19 成都航天科工大数据研究院有限公司 一种跨模态武器检索方法及***
CN113240056A (zh) * 2021-07-12 2021-08-10 北京百度网讯科技有限公司 多模态数据联合学习模型训练方法及装置
CN115858847A (zh) * 2023-02-22 2023-03-28 成都考拉悠然科技有限公司 基于跨模态注意力保留的组合式查询图像检索方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914950B (zh) * 2020-08-20 2021-04-16 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于深度对偶变分哈希的无监督跨模态检索模型训练方法
CN112926339B (zh) * 2021-03-09 2024-02-09 北京小米移动软件有限公司 文本相似度确定方法、***、存储介质以及电子设备
CN112905829A (zh) * 2021-03-25 2021-06-04 王芳 一种跨模态人工智能信息处理***及检索方法
CN113486833B (zh) * 2021-07-15 2022-10-04 北京达佳互联信息技术有限公司 多模态特征提取模型训练方法、装置、电子设备
CN113971209B (zh) * 2021-12-22 2022-04-19 松立控股集团股份有限公司 一种基于注意力机制增强的无监督跨模态检索方法
CN114841243B (zh) * 2022-04-02 2023-04-07 中国科学院上海高等研究院 跨模态检索模型训练方法、跨模态检索方法、设备及介质
CN114691907B (zh) * 2022-05-31 2022-09-16 上海蜜度信息技术有限公司 一种跨模态检索的方法、设备及介质
CN115359383B (zh) * 2022-07-07 2023-07-25 北京百度网讯科技有限公司 跨模态特征提取、检索以及模型的训练方法、装置及介质
CN115909317B (zh) * 2022-07-15 2024-07-05 广州珠江在线多媒体信息有限公司 一种三维模型-文本联合表达的学习方法及***
JP7366204B1 (ja) 2022-07-21 2023-10-20 株式会社エクサウィザーズ 情報処理方法、コンピュータプログラム及び情報処理装置
CN115392389B (zh) * 2022-09-01 2023-08-29 北京百度网讯科技有限公司 跨模态信息匹配、处理方法、装置、电子设备及存储介质
WO2024081455A1 (en) * 2022-10-12 2024-04-18 Innopeak Technology, Inc. Methods and apparatus for optical flow estimation with contrastive learning
CN116912351B (zh) * 2023-09-12 2023-11-17 四川大学 基于人工智能的颅内结构成像的修正方法及***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN107273517A (zh) * 2017-06-21 2017-10-20 复旦大学 基于图嵌入学习的图文跨模态检索方法
US20170330031A1 (en) * 2013-12-04 2017-11-16 Microsoft Technology Licensing, Llc Fusing device and image motion for user identification, tracking and device association
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN107832351A (zh) * 2017-10-21 2018-03-23 桂林电子科技大学 基于深度关联网络的跨模态检索方法
CN108228686A (zh) * 2017-06-15 2018-06-29 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备
WO2018142581A1 (ja) * 2017-02-03 2018-08-09 三菱電機株式会社 認知負荷評価装置および認知負荷評価方法
CN109189968A (zh) * 2018-08-31 2019-01-11 深圳大学 一种跨模态检索方法及***
CN109284414A (zh) * 2018-09-30 2019-01-29 中国科学院计算技术研究所 基于语义保持的跨模态内容检索方法和***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130226892A1 (en) * 2012-02-29 2013-08-29 Fluential, Llc Multimodal natural language interface for faceted search
GB201210661D0 (en) * 2012-06-15 2012-08-01 Qatar Foundation Unsupervised cross-media summarization from news and twitter
TWM543395U (zh) * 2017-03-24 2017-06-11 shi-cheng Zhuang 翻譯輔助系統
TWM560646U (zh) * 2018-01-05 2018-05-21 華南商業銀行股份有限公司 智能語音交易系統

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170330031A1 (en) * 2013-12-04 2017-11-16 Microsoft Technology Licensing, Llc Fusing device and image motion for user identification, tracking and device association
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
WO2018142581A1 (ja) * 2017-02-03 2018-08-09 三菱電機株式会社 認知負荷評価装置および認知負荷評価方法
CN108228686A (zh) * 2017-06-15 2018-06-29 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备
CN107273517A (zh) * 2017-06-21 2017-10-20 复旦大学 基于图嵌入学习的图文跨模态检索方法
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN107832351A (zh) * 2017-10-21 2018-03-23 桂林电子科技大学 基于深度关联网络的跨模态检索方法
CN109189968A (zh) * 2018-08-31 2019-01-11 深圳大学 一种跨模态检索方法及***
CN109284414A (zh) * 2018-09-30 2019-01-29 中国科学院计算技术研究所 基于语义保持的跨模态内容检索方法和***

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125457A (zh) * 2019-12-13 2020-05-08 山东浪潮人工智能研究院有限公司 一种深度跨模态哈希检索方法及装置
CN112287134A (zh) * 2020-09-18 2021-01-29 中国科学院深圳先进技术研究院 检索模型的训练和识别方法、电子设备及存储介质
CN112287134B (zh) * 2020-09-18 2021-10-15 中国科学院深圳先进技术研究院 检索模型的训练和识别方法、电子设备及存储介质
CN112528062A (zh) * 2020-12-03 2021-03-19 成都航天科工大数据研究院有限公司 一种跨模态武器检索方法及***
CN112528062B (zh) * 2020-12-03 2024-03-22 成都航天科工大数据研究院有限公司 一种跨模态武器检索方法及***
CN113240056A (zh) * 2021-07-12 2021-08-10 北京百度网讯科技有限公司 多模态数据联合学习模型训练方法及装置
CN115858847A (zh) * 2023-02-22 2023-03-28 成都考拉悠然科技有限公司 基于跨模态注意力保留的组合式查询图像检索方法

Also Published As

Publication number Publication date
JP7164729B2 (ja) 2022-11-01
JP2022509327A (ja) 2022-01-20
TW202030640A (zh) 2020-08-16
US20210240761A1 (en) 2021-08-05
WO2020155423A1 (zh) 2020-08-06
CN109886326B (zh) 2022-01-04
SG11202104369UA (en) 2021-07-29
TWI737006B (zh) 2021-08-21

Similar Documents

Publication Publication Date Title
CN109886326A (zh) 一种跨模态信息检索方法、装置和存储介质
CN109816039A (zh) 一种跨模态信息检索方法、装置和存储介质
CN108288078B (zh) 一种图像中字符识别方法、装置和介质
CN111259215A (zh) 基于多模态的主题分类方法、装置、设备、以及存储介质
CN109543516A (zh) 签约意向判断方法、装置、计算机设备和存储介质
CN110717470B (zh) 一种场景识别方法、装置、计算机设备和存储介质
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及***
CN107704525A (zh) 视频搜索方法和装置
CN110309353A (zh) 视频索引方法及装置
KR102576344B1 (ko) 비디오를 처리하기 위한 방법, 장치, 전자기기, 매체 및 컴퓨터 프로그램
CN112733042B (zh) 推荐信息的生成方法、相关装置及计算机程序产品
US20200342016A1 (en) Systems and methods for coverage analysis of textual queries
US11501102B2 (en) Automated sound matching within an audio recording
JP2023535108A (ja) ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム
CN109034069A (zh) 用于生成信息的方法和装置
CN108959531A (zh) 信息搜索方法、装置、设备及存储介质
CN109582825B (zh) 用于生成信息的方法和装置
CN110232914A (zh) 一种语义识别方法、装置以及相关设备
CN107748779A (zh) 信息生成方法和装置
CN114299366A (zh) 一种图像检测方法、装置、电子设备及存储介质
CN112417996A (zh) 工业图纸的信息处理方法、装置、电子设备和存储介质
US20240104906A1 (en) Model interpretation method, image processing method, electronic device, and storage medium
CN107451194A (zh) 一种图片搜索方法及装置
CN109934279A (zh) 基于人工智能的文本序列的图像识别方法
CN109919092A (zh) 基于人工智能的文本序列的图像识别装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40007437

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant