CN113868442A - 联合检索方法及装置 - Google Patents

联合检索方法及装置 Download PDF

Info

Publication number
CN113868442A
CN113868442A CN202110988677.0A CN202110988677A CN113868442A CN 113868442 A CN113868442 A CN 113868442A CN 202110988677 A CN202110988677 A CN 202110988677A CN 113868442 A CN113868442 A CN 113868442A
Authority
CN
China
Prior art keywords
hit score
data
audio
video
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110988677.0A
Other languages
English (en)
Inventor
王强
孟翔
姜永锋
戴国栋
韩月红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongzhi Zhihui Technology Co ltd
Original Assignee
Beijing Zhongzhi Zhihui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongzhi Zhihui Technology Co ltd filed Critical Beijing Zhongzhi Zhihui Technology Co ltd
Priority to CN202110988677.0A priority Critical patent/CN113868442A/zh
Publication of CN113868442A publication Critical patent/CN113868442A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种联合检索方法及装置,其中该方法包括:获取用户的待检索信息;该信息包括:文本数据,以及图像、音频或视频数据的其中之一或任意组合;将文本数据在被检索数据集中进行检索,得到包括文本命中得分的初步候选结果集;将图像、音频或视频数据的其中之一或任意组合输入至深度学习模型中,提取图像、音频或视频特征向量的其中之一或任意组合;将提取得到的特征向量与初步候选结果集中的文本数据对应的相应特征向量进行比对,得到每个文本数据的图像、音频或视频命中得分的其中之一或任意组合;根据文本命中得分,每个文本数据的对应的命中得分,得到综合命中得分进而确定最终候选结果集反馈给用户。本发明可以实现准确高效地检索。

Description

联合检索方法及装置
技术领域
本发明涉及大数据技术领域,尤其涉及一种联合检索方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
目前,对于商标检索,现有技术中通常是通过图片或文本检索,难以获得准确的检索结果,并且现有检索方法的计算代价也非常高,导致检索效率也低。
发明内容
本发明实施例提供一种联合检索方法,用以实现准确高效地检索,该方法包括:
获取用户输入的待检索信息;所述待检索信息包括:文本数据,以及图像数据、音频数据或视频数据的其中之一或任意组合;
将所述文本数据在预先建立的被检索数据集中进行检索,得到初步候选结果集;所述初步候选结果集中包括文本命中得分;
将图像数据、音频数据或视频数据的其中之一或任意组合输入至预先建立的深度学习模型中,提取得到图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合;
将提取得到的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合与所述初步候选结果集中的文本数据的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合进行比对,得到每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,以及含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集;
在含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集中,根据所述文本命中得分,每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,得到综合命中得分;
根据所述综合命中得分,确定最终候选结果集,将最终候选结果集反馈给用户。
本发明实施例还提供一种联合检索装置,用以实现准确高效地检索,该装置包括:
获取单元,用于获取用户输入的待检索信息;所述待检索信息包括:文本数据,以及图像数据、音频数据或视频数据的其中之一或任意组合;
初步候选结果集确定单元,用于将所述文本数据在预先建立的被检索数据集中进行检索,得到初步候选结果集;所述初步候选结果集中包括文本命中得分;
提取单元,用于将图像数据、音频数据或视频数据的其中之一或任意组合输入至预先建立的深度学习模型中,提取得到图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合;
比对单元,用于将提取得到的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合与所述初步候选结果集中的文本数据的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合进行比对,得到每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,以及含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集;
综合命中得分确定单元,用于在含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集中,根据所述文本命中得分,每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,得到综合命中得分;
最终候选结果集确定单元,用于根据所述综合命中得分,确定最终候选结果集,将最终候选结果集反馈给用户。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述联合检索方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述联合检索方法的计算机程序。
本发明实施例中,联合检索方案,通过:获取用户输入的待检索信息;所述待检索信息包括:文本数据,以及图像数据、音频数据或视频数据的其中之一或任意组合;将所述文本数据在预先建立的被检索数据集中进行检索,得到初步候选结果集;所述初步候选结果集中包括文本命中得分;将图像数据、音频数据或视频数据的其中之一或任意组合输入至预先建立的深度学习模型中,提取得到图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合;将提取得到的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合与所述初步候选结果集中的文本数据的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合进行比对,得到每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,以及含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集;在含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集中,根据所述文本命中得分,每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,得到综合命中得分;根据所述综合命中得分,确定最终候选结果集,将最终候选结果集反馈给用户,可以实现准确高效地检索。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中联合检索方法的流程示意图;
图2为本发明实施例中联合检索的原理示意图;
图3为本发明实施例中将最终候选结果集反馈给用户的流程示意图;
图4为本发明实施例中预先建立所述被检索数据集的流程示意图;
图5为本发明实施例中特征向量比对的流程示意图;
图6为本发明实施例中联合检索装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
现有的检索方案是:获取用户输入的待检索信息,若所述待检索信息中同时包含文本数据和图像数据,则将所述文本数据分词后进行倒排索引查询操作,得到第一候选集;将所述图像数据输入到预先训练好的神经网络模型中,得到与所述图像数据对应的特征向量,对所述特征向量编码处理后进行倒排索引查询操作,得到第二候选集;将所述第一候选集和所述第二候选集中的文档进行合并,统计合并后的文档在所述第一候选集和/或所述第二候选集中的命中次数,根据统计结果对所述合并后的文档进行排序,并将排序结果返回至展示页面。
发明人发现现有检索方案存在的技术问题是:该方案会生成两个独立的候选结果集,即文本候选结果集和图像候选结果集,再进行合并统计和排序。第一,全量数据进行图像检索生成第二个候选结果集,计算代价非常高;第二,两个结果集进行合并、统计命中次数和排序,计算代价也是很高的;第三,合并统计命中点数并排序后的结果集,会出现文像图不像,或图像文不像的文档排序靠前,导致文本图像联合检索的效果不好;第四,该方案未提及文本+音频、视频的联合检索是否支持。因此,现有检索方案存在检索效率和准确率都低的问题。
考虑到上述技术问题,本发明提出一种联合检索方案,该方案为一种考虑到如下因素的:文本、图片、音频、视频的联合检索方法,其目的旨在:1.解决类似上述方案中第一个、第二个技术缺陷导致的计算代价高的问题;2.解决第三个技术缺陷,即文本和图像两个独立的结果集进行合并、统计、排序后,文像图不像、图像文不像文档排序靠前的检索效果的问题;3.实现第四个文本+音频、视频联合检索的技术方法。下面对该联合检索方案进行详细介绍。
图1为本发明实施例中联合检索方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤101:获取用户输入的待检索信息;所述待检索信息包括:文本数据,以及图像数据、音频数据或视频数据的其中之一或任意组合;
步骤102:将所述文本数据在预先建立的被检索数据集中进行检索,得到初步候选结果集;所述初步候选结果集中包括文本命中得分;
步骤103:将图像数据、音频数据或视频数据的其中之一或任意组合输入至预先建立的深度学习模型中,提取得到图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合;
步骤104:将提取得到的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合与所述初步候选结果集中的文本数据的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合进行比对,得到每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,以及含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集;
步骤105:在含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集中,根据所述文本命中得分,每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,得到综合命中得分;
步骤106:根据所述综合命中得分,确定最终候选结果集,将最终候选结果集反馈给用户。
本发明实施例提供的联合检索方法可以实现准确高效地检索,提高检索的准确率和效率。下面结合图2至图5进行详细介绍。
一、首先,介绍在上述步骤101之前的一些预先准确的步骤,参照图2中的110(包括S110和S120)。
在一个实施例中,如图3所示,上述联合检索方法还可以包括按照如下方法预先建立所述被检索数据集:
步骤201:对全量的被检索文本数据,根据不同的语言和需求,使用相应类型的分词器进行分词,建立文本索引或倒排索引;
步骤202:对全量的被检索图像数据、音频数据和视频数据,使用深度学习预先建立深度学习模型,使用所述深度学习模型提取出图像、音频和视频的特征向量;
步骤203:将提取出的图像、音频和视频的特征向量与建立文本索引或倒排索引的文本数据存储到全量文档作为所述被检索数据集。
具体实施时,如图2所示,如图中S110,对全量的被检数据文本内容进行预处理,针对不同的语言和需求,使用相应的分词器进行分词,建立文本索引或倒排索引;如图2中S120,对全量的被检数据图像、音频、视频内容进行预处理,使用深度学习得出图像、音频、视频的训练模型,使用深度学习模型提取出图像、音频或视频的特征向量,先保存为中间文件,再与建立索引的文本内容保存到同一个文档,全量文档即组成一个被检索数据集。该预先建立被检索数据集的实施方法进一步可以提高检索后续检索的效率和准确。
具体实施时,本发明实施例还可以预先建立深度学习模型,该深度学习模型的输入可以是图像数据、音频数据或视频数据,输入可以是图像特征向量、音频特征向量或视频特征向量等。
二、其次,介绍上述步骤101,参照图2中的S130。
获取用户输入的待检索信息;所述待检索信息可以包括:文本数据,以及图像数据、音频数据或视频数据的其中之一或任意组合,例如输入的检索信息包括的组合可以是:1、文本数据和图像数据;2、文本数据、图像数据和音频数据;3、文本数据、图像数据和视频数据;4、文本数据、图像数据、音频数据和视频数据;5、文本数据和音频数据;6、文本数据、音频数据和视频数据;7、文本数据和视频数据。
在一个实施例中,所述待检索信息还可以包括:文本数据的权重,以及图像数据的权重、音频数据的权重或视频数据的权重的其中之一或任意组合;
那么后续步骤中,在含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集中,根据所述文本命中得分,每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,得到综合命中得分可以包括:在含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集中,根据所述文本命中得分,每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,文本数据的权重,以及图像数据的权重、音频数据的权重或视频数据的权重的其中之一或任意组合,得到综合命中得分。
具体实施时,所述待检索信息还可以包括:文本数据的权重,以及图像数据的权重、音频数据的权重或视频数据的权重的其中之一或任意组合,那么后续得到综合命中得分时考虑到该权重因素,进一步提高了检索的准确率。
三、接着,介绍上述步骤102,参照图2中的S140。
在上述步骤102中,使用待检文本(文本数据)在被检索数据集中,做倒排索引检索,得到包含文本命中得分的文本候选结果集(初步候选结果集),该结果集中含有文本命中得分。
在一个实施例中,将所述文本数据在预先建立的被检索数据集中进行检索,得到初步候选结果集,可以包括:将所述文本数据进行分词后,在预先建立的被检索数据集中进行倒排序索引检索操作,得到初步候选结果集。
具体实施时,将文本数据文本进行分词后,进行倒排索引查询操作,得到候选结果集,可以进一步提高检索的效率和准确率。
四、接着,介绍上述步骤103,参照图2中的S150。
具体实施时,使用预先训练好的深度学习模型,提取出待检图像、音频或视频的待检特征向量,例如,将待检图像数据输入到预先训练好的深度学习模型中,得到与输入图像对应的特征向量。
具体实施时,在该步骤103中,图像数据、音频数据或视频数据的其中之一或任意组合是根据步骤101中输入的组合来决定的,例如,步骤101中用户输入的组合是:文本数据、图像数据和视频数据,那么该步骤中输入的组合是:图像数据和视频数据,进而提取得到的特征向量组合也是图像特征向量和视频特征向量。对于其他例子,本领域技术人员可以根据步骤101中提到的组合想到,在此不再赘述。
五、接着,介绍上述步骤104,参照图2中的S160。
在一个实施例中,如图4所示,将提取得到的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合与所述初步候选结果集中的文本数据的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合进行比对,得到每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,以及含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集,可以包括:
步骤1041:在所述初步候选结果集中,遍历每个文本数据,计算得到文本数据的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合;
步骤1042:将提取得到的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合与所述初步候选结果集中的文本数据的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合进行比对,得到每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,以及含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集。
具体实施时,在文本候选结果集(初步候选结果集)中,遍历每个文档,对每个文档中的特征向量和待检特征向量进行计算,得到包含文本命中得分、特征命中得分的文本和特征候选结果集。
具体实施时,如果步骤103中提取得到的特征向量组合是图像特征向量和视频特征向量,那么,在该步骤104中,比对的对象便是初步候选结果集中的文本数据的图像特征向量和视频特征向量,进而得到的命中得分也是图像命中得分和视频命中得分。对于其他例子,本领域技术人员可以根据步骤101中提到的组合想到,在此不再赘述。
六、接着,介绍上述步骤105,参照图2中的S170。
在上述步骤105中,在文本和特征候选结果集中,使用输入的文本权重、文本命中得分、特征权重、特征向量进行计算,得出综合命中得分;再按照综合命中得分进行排序,得出包含综合命中得分的综合排序候选结果集。
七、接着,介绍上述步骤106,参照图2中的S180。
在一个实施例中,如图5所示,根据所述综合命中得分,确定最终候选结果集,将最终候选结果集反馈给用户,可以包括:
步骤1061:根据所述综合命中得分对候选结果集进行排序,得到排序后的候选结果集作为最终候选结果集;
步骤1062:将所述最终候选结果集反馈给用户。
具体实施时,本发明实施例对含有综合命中得分的候选结果集,按照综合命中得分进行排序,将综合排序候选结果集,返回给检索请求方(发起检索请求的用户),方便用户查看检索结果,提高了用户的体验。
综上,本发明实施例提供的联合检索方法针对既包含图片又包含文本信息的商标检索,将图片、音频或视频转换为向量,与文本结合,实现文本+图片或音频或视频的联合检索,具体实现了:1)图片、音频、视频的向量表示;2)文本+向量的联合检索。因此,本发明实施例提供的联合检索方法可以提高检索效率,以及可以提高检索结果的准确率。
本发明实施例中还提供了一种联合检索装置,如下面的实施例所述。由于该装置解决问题的原理与联合检索方法相似,因此该装置的实施可以参见联合检索方法的实施,重复之处不再赘述。
图6为本发明实施例中联合检索装置的结构示意图,如图6所示,该装置包括:
获取单元01,用于获取用户输入的待检索信息;所述待检索信息包括:文本数据,以及图像数据、音频数据或视频数据的其中之一或任意组合;
初步候选结果集确定单元02,用于将所述文本数据在预先建立的被检索数据集中进行检索,得到初步候选结果集;所述初步候选结果集中包括文本命中得分;
提取单元03,用于将图像数据、音频数据或视频数据的其中之一或任意组合输入至预先建立的深度学习模型中,提取得到图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合;
比对单元04,用于将提取得到的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合与所述初步候选结果集中的文本数据的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合进行比对,得到每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,以及含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集;
综合命中得分确定单元05,用于在含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集中,根据所述文本命中得分,每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,得到综合命中得分;
最终候选结果集确定单元06,用于根据所述综合命中得分,确定最终候选结果集,将最终候选结果集反馈给用户。
在一个实施例中,所述待检索信息还可以:文本数据的权重,以及图像数据的权重、音频数据的权重或视频数据的权重的其中之一或任意组合;
所述综合命中得分确定单元具体可以用于:在含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集中,根据所述文本命中得分,每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,文本数据的权重,以及图像数据的权重、音频数据的权重或视频数据的权重的其中之一或任意组合,得到综合命中得分。
在一个实施例中,所述最终候选结果集确定单元具体用于:
根据所述综合命中得分对候选结果集进行排序,得到排序后的候选结果集作为最终候选结果集;
将所述最终候选结果集反馈给用户。
在一个实施例中,上述联合检索方法还可以包括建立单元,用于按照如下方法预先建立所述被检索数据集:
对全量的被检索文本数据,根据不同的语言和需求,使用相应类型的分词器进行分词,建立文本索引或倒排索引;
对全量的被检索图像数据、音频数据和视频数据,使用深度学习预先建立深度学习模型,使用所述深度学习模型提取出图像、音频和视频的特征向量;
将提取出的图像、音频和视频的特征向量与建立文本索引或倒排索引的文本数据存储到全量文档作为所述被检索数据集。
在一个实施例中,所述初步候选结果集确定单元具体用于:将所述文本数据进行分词后,在预先建立的被检索数据集中进行倒排序索引检索操作,得到初步候选结果集。
在一个实施例中,所述比对单元具体用于:
在所述初步候选结果集中,遍历每个文本数据,计算得到文本数据的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合;
将提取得到的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合与所述初步候选结果集中的文本数据的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合进行比对,得到每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,以及含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述联合检索方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述联合检索方法的计算机程序。
本发明实施例中,联合检索方案,通过:获取用户输入的待检索信息;所述待检索信息包括:文本数据,以及图像数据、音频数据或视频数据的其中之一或任意组合;将所述文本数据在预先建立的被检索数据集中进行检索,得到初步候选结果集;所述初步候选结果集中包括文本命中得分;将图像数据、音频数据或视频数据的其中之一或任意组合输入至预先建立的深度学习模型中,提取得到图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合;将提取得到的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合与所述初步候选结果集中的文本数据的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合进行比对,得到每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,以及含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集;在含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集中,根据所述文本命中得分,每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,得到综合命中得分;根据所述综合命中得分,确定最终候选结果集,将最终候选结果集反馈给用户,可以实现准确高效地检索。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种联合检索方法,其特征在于,包括:
获取用户输入的待检索信息;所述待检索信息包括:文本数据,以及图像数据、音频数据或视频数据的其中之一或任意组合;
将所述文本数据在预先建立的被检索数据集中进行检索,得到初步候选结果集;所述初步候选结果集中包括文本命中得分;
将图像数据、音频数据或视频数据的其中之一或任意组合输入至预先建立的深度学习模型中,提取得到图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合;
将提取得到的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合与所述初步候选结果集中的文本数据的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合进行比对,得到每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,以及含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集;
在含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集中,根据所述文本命中得分,每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,得到综合命中得分;
根据所述综合命中得分,确定最终候选结果集,将最终候选结果集反馈给用户。
2.如权利要求1所述的联合检索方法,其特征在于,所述待检索信息还包括:文本数据的权重,以及图像数据的权重、音频数据的权重或视频数据的权重的其中之一或任意组合;
在含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集中,根据所述文本命中得分,每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,得到综合命中得分包括:在含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集中,根据所述文本命中得分,每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,文本数据的权重,以及图像数据的权重、音频数据的权重或视频数据的权重的其中之一或任意组合,得到综合命中得分。
3.如权利要求1所述的联合检索方法,其特征在于,根据所述综合命中得分,确定最终候选结果集,将最终候选结果集反馈给用户,包括:
根据所述综合命中得分对候选结果集进行排序,得到排序后的候选结果集作为最终候选结果集;
将所述最终候选结果集反馈给用户。
4.如权利要求1所述的联合检索方法,其特征在于,还包括按照如下方法预先建立所述被检索数据集:
对全量的被检索文本数据,根据不同的语言和需求,使用相应类型的分词器进行分词,建立文本索引或倒排索引;
对全量的被检索图像数据、音频数据和视频数据,使用深度学习预先建立深度学习模型,使用所述深度学习模型提取出图像、音频和视频的特征向量;
将提取出的图像、音频和视频的特征向量与建立文本索引或倒排索引的文本数据存储到全量文档作为所述被检索数据集。
5.如权利要求1所述的联合检索方法,其特征在于,将所述文本数据在预先建立的被检索数据集中进行检索,得到初步候选结果集,包括:将所述文本数据进行分词后,在预先建立的被检索数据集中进行倒排序索引检索操作,得到初步候选结果集。
6.如权利要求1所述的联合检索方法,其特征在于,将提取得到的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合与所述初步候选结果集中的文本数据的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合进行比对,得到每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,以及含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集,包括:
在所述初步候选结果集中,遍历每个文本数据,计算得到文本数据的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合;
将提取得到的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合与所述初步候选结果集中的文本数据的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合进行比对,得到每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,以及含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集。
7.一种联合检索装置,其特征在于,包括:
获取单元,用于获取用户输入的待检索信息;所述待检索信息包括:文本数据,以及图像数据、音频数据或视频数据的其中之一或任意组合;
初步候选结果集确定单元,用于将所述文本数据在预先建立的被检索数据集中进行检索,得到初步候选结果集;所述初步候选结果集中包括文本命中得分;
提取单元,用于将图像数据、音频数据或视频数据的其中之一或任意组合输入至预先建立的深度学习模型中,提取得到图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合;
比对单元,用于将提取得到的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合与所述初步候选结果集中的文本数据的图像特征向量、音频特征向量或视频特征向量的其中之一或任意组合进行比对,得到每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,以及含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集;
综合命中得分确定单元,用于在含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集中,根据所述文本命中得分,每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,得到综合命中得分;
最终候选结果集确定单元,用于根据所述综合命中得分,确定最终候选结果集,将最终候选结果集反馈给用户。
8.如权利要求7所述的联合检索装置,其特征在于,所述待检索信息还包括:文本数据的权重,以及图像数据的权重、音频数据的权重或视频数据的权重的其中之一或任意组合;
所述综合命中得分确定单元具体用于:在含有图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合的初步候选结果集中,根据所述文本命中得分,每个文本数据的图像命中得分、音频命中得分或视频命中得分的其中之一或任意组合,文本数据的权重,以及图像数据的权重、音频数据的权重或视频数据的权重的其中之一或任意组合,得到综合命中得分。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至6任一所述方法的计算机程序。
CN202110988677.0A 2021-08-26 2021-08-26 联合检索方法及装置 Pending CN113868442A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110988677.0A CN113868442A (zh) 2021-08-26 2021-08-26 联合检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110988677.0A CN113868442A (zh) 2021-08-26 2021-08-26 联合检索方法及装置

Publications (1)

Publication Number Publication Date
CN113868442A true CN113868442A (zh) 2021-12-31

Family

ID=78988550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110988677.0A Pending CN113868442A (zh) 2021-08-26 2021-08-26 联合检索方法及装置

Country Status (1)

Country Link
CN (1) CN113868442A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955543A (zh) * 2014-05-20 2014-07-30 电子科技大学 基于多模态的服装图像检索方法
CN112148831A (zh) * 2020-11-26 2020-12-29 广州华多网络科技有限公司 图文混合检索方法、装置、存储介质、计算机设备
CN112883229A (zh) * 2021-03-09 2021-06-01 中国科学院信息工程研究所 基于多特征图注意网络模型的视频-文本跨模态检索方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955543A (zh) * 2014-05-20 2014-07-30 电子科技大学 基于多模态的服装图像检索方法
CN112148831A (zh) * 2020-11-26 2020-12-29 广州华多网络科技有限公司 图文混合检索方法、装置、存储介质、计算机设备
CN112883229A (zh) * 2021-03-09 2021-06-01 中国科学院信息工程研究所 基于多特征图注意网络模型的视频-文本跨模态检索方法和装置

Similar Documents

Publication Publication Date Title
US11349680B2 (en) Method and apparatus for pushing information based on artificial intelligence
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
CN105955976B (zh) 一种自动应答***及方法
US12026194B1 (en) Query modification based on non-textual resource context
CN108520046B (zh) 搜索聊天记录的方法及设备
CN103106199B (zh) 文本检索方法和装置
CN104199898B (zh) 一种属性信息的获取方法及装置、推送方法及装置
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答***实现方法
CN111400513B (zh) 数据处理方法、装置、计算机设备和存储介质
CN109492081B (zh) 文本信息搜索和信息交互方法、装置、设备及存储介质
CN110807121A (zh) 基于图文智能识别的电子教育资源匹配方法及计算机可读存储介质
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN104537341A (zh) 人脸图片信息获取方法和装置
CN112738556A (zh) 视频处理方法及装置
CN111506771A (zh) 一种视频检索方法、装置、设备及存储介质
CN113704507B (zh) 数据处理方法、计算机设备以及可读存储介质
CN111125457A (zh) 一种深度跨模态哈希检索方法及装置
CN110866102A (zh) 检索处理方法
CN111241310A (zh) 一种深度跨模态哈希检索方法、设备及介质
CN115269913A (zh) 一种基于注意力片段提示的视频检索方法
CN108388556B (zh) 同类实体的挖掘方法及***
CN111538903B (zh) 搜索推荐词确定方法、装置、电子设备及计算机可读介质
CN113704623B (zh) 一种数据推荐方法、装置、设备及存储介质
CN114912425A (zh) 演示文稿生成方法及装置
CN113868442A (zh) 联合检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination