CN115982316A - 一种基于多模态的文本检索方法、***及介质 - Google Patents

一种基于多模态的文本检索方法、***及介质 Download PDF

Info

Publication number
CN115982316A
CN115982316A CN202211571314.8A CN202211571314A CN115982316A CN 115982316 A CN115982316 A CN 115982316A CN 202211571314 A CN202211571314 A CN 202211571314A CN 115982316 A CN115982316 A CN 115982316A
Authority
CN
China
Prior art keywords
text
model
library
similarity
similarity score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211571314.8A
Other languages
English (en)
Inventor
何思佑
李开宇
陈思成
张卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan XW Bank Co Ltd
Original Assignee
Sichuan XW Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan XW Bank Co Ltd filed Critical Sichuan XW Bank Co Ltd
Priority to CN202211571314.8A priority Critical patent/CN115982316A/zh
Publication of CN115982316A publication Critical patent/CN115982316A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多模态的文本检索方法、***及介质,获取待查询文本、第一文本库以及第二文本库;基于第一文本库构建最优倒排索引模型,通过第二文本库构建最优向量相似度模型;通过最优倒排索引模型匹配待查询文本与第一文本库之间的分词候选文档,并计算分词候选文档与第一文本库之间的第一相似度分数;通过最优向量相似度模型匹配待查询文本与第二文本库之间的向量候选文档,并计算向量候选文档与第二文本库之间的第二相似度分数;通过分支逻辑监控方法判断第一相似度分数和第二相似度分数是否存在满足阈值结束条件的分数,若存在,则输出检索结果;本发明的有益效果为提高了检索内容的泛化性,提高了检索效率。

Description

一种基于多模态的文本检索方法、***及介质
技术领域
本发明涉及文本检索技术领域,具体而言,涉及一种基于多模态的文本检索方法、***及介质。
背景技术
金融场景文本应用十分复杂,包含大量业务、技术、合同等多个种类的文本,而这些文本又需要在各个部门间进行流转查询,快速精准的检索出想要的文本能较大提升从业人员的工作效率。目前行业内通常会使用一个专管***负责将此部分文档收集并提供检索功能。但由于业务规模的拓展和文档的非结构化复杂性,很难在低时延情况下精准检出目标文档。
现有技术中,通常都是通过关键词检索方法或文本向量检索方法对需要进行检索的文本进行检索,但是在采用这种方法对相关文本进行检索的时候,对检索的内容具有局限性,且检索的效率低,检索所花费的时间长。
有鉴于此,特提出本申请。
发明内容
本发明所要解决的技术问题是现有技术中,采用向量检索或关键词检索方法对相关文档进行检索,对检索的内容具有局限性,且检索的效率低,检索所花费的时间长,目的在于提供一种基于多模态的文本检索方法、***及介质,提高了检索内容的泛化性,提高了检索效率。
本发明通过下述技术方案实现:
一种基于多模态的文本检索方法,方法步骤包括:
获取待查询文本、第一文本库以及第二文本库,所述第一文本库为文档文本库,所述第二文本库为语义相似度的文本库;
基于所述第一文本库构建最优倒排索引模型,通过所述第二文本库构建最优向量相似度模型;
通过所述最优倒排索引模型匹配所述待查询文本与所述第一文本库之间的分词候选文档,并计算所述分词候选文档与所述第一文本库之间的第一相似度分数;
通过所述最优向量相似度模型匹配所述待查询文本与所述第二文本库之间的向量候选文档,并计算所述向量候选文档与所述第二文本库之间的第二相似度分数;
通过分支逻辑监控方法判断所述第一相似度分数和所述第二相似度分数是否存在满足阈值结束条件的分数,若存在,则输出检索结果。
传统的对文件进行检索的时候,通常采用的是关键词检索方法或向量检索方法进行检索,但是在采用这种方法对文档进行检索的时候,对检索的内容具有局限性,且检索的效率低,检索所花费的时间长;本发明提供了一种基于多模态的文本检索方法,通过分别对待查询文本的分词文本以及向量文本进行匹配,在综合分词文本以及向量文本同时与阈值条件之间的关系,来实现对待查询文件检索,提高了检索内容的泛化性,提高了检索效率。
优选地,所述最优倒排索引模型构建方法为:
构建倒排索引模型;
采用分词工具对所述第一文本库进行分词处理,获得文本数据库;
将所述文本数据库导入到所述倒排索引模型,获得最优倒排索引模型。
优选地,所述最优向量相似度模型的构建方法为:
构建预训练模型,通过所述预训练模型在所述第二文本库中精调模型,获得离线文档向量模型;
通过所述离线文档模型将所述第二文本库中的所有文档编码转换为文本向量库,将所述文本向量库导入到向量相似度模型中,获得最优向量相似度模型。
优选地,通过分支逻辑监控方法判断所述第一相似度分数和所述第二相似度分数是否存在满足阈值结束条件的分数,若存在,则输出检索结果包括:
所述分支逻辑监控方法将分数划分为不可信区间、待定区间以及可信区间,所述阈值结束条件为相似度分数处于不可信区间或可信区间,当所述第一相似度分数和所述第二相似度分数存在处于所述不可信区间时,输出无匹配文档检索结果;当所述第一相似度分数和所述第二相似度分数存在处于所述可信区间时,将相似度分数高的对应的候选文档进行输出。
优选地,当所述第一相似度分数或所述第二相似度分数不存在满足阈值结束条件时,进行细化检索,具体包括:
将所述分词候选文档与所述向量候选文档取并集,获得候选文档库;
采用编辑距离算法计算所述待查询文本与所述候选文档库中每个样本的相似度,并计算次数等于所述候选文档库中的数量,获得第三相似度分数;
通过分支逻辑监控方法判断所述第三相似度分数是否满足阈值结束条件,若满足,则输出检索结果。
优选地,当所述第三相似度不满足阈值结束条件时,检索方法还包括:
计算所述第一相似度分数、所述第二相似度分数以及所述第三相似度分数的平均权重,并进行重新排序,获得综合分值;
基于所述综合分值,将所述候选文档库按照分值大小进行重新排序,取排序后的前N个候选文档;
通过语义模型计算所述待查询文本与N个所述候选文档之间的语音相似度,获得第四相似度分数;
通过分支逻辑监控方法判断所述第四相似度分数是否满足阈值结束条件,若满足,则输出检索结果。
本发明还提供了一种基于多模态的文本检索***,包括数据获取模块、模型构建模块、第一计算模块、第二计算模块、判断模块;
所述数据获取模块,用于获取待查询文本、第一文本库以及第二文本库,所述第一文本库为文档文本库,所述第二文本库为语义相似度的文本库;
所述模型构建模块,用于基于所述第一文本库构建最优倒排索引模型,通过所述第二文本库构建最优向量相似度模型;
所述第一计算模块,用于通过所述最优倒排索引模型匹配所述待查询文本与所述第一文本库之间的分词候选文档,并计算所述分词候选文档与所述第一文本库之间的第一相似度分数;
所述第二计算模块,用于通过所述最优向量相似度模型匹配所述待查询文本与所述第二文本库之间的向量候选文档,并计算所述向量候选文档与所述第二文本库之间的第二相似度分数;
所述判断模块,用于通过分支逻辑监控方法判断所述第一相似度分数和所述第二相似度分数是否存在满足阈值结束条件的分数,若存在,则输出检索结果。
优选地,所述模型构建模块包括最优倒排索引模型构建模块与最优向量相似度构建模块,所述最优倒排索引构建模块用于基于所述第一文本库构建最优倒排索引模型,所述最优向量相似度构建模块用于通过所述第二文本库构建最优向量相似度模型。
优选地,所述最优倒排索引构建模块包括子模型构建模块、分词模块以及数据导入模块;
所述子模型构建模块,用于构建倒排索引模型;
所述分词模块,用于采用分词工具对所述第一文本库进行分词处理,获得文本数据库;
所述数据导入模块,用于将所述文本数据库导入到所述倒排索引模型,获得最优倒排索引模型。
本发明还提供了一种计算机存储介质,其上存储有计算程序,该计算机程序被处理器执行时,实现如上所述的方法。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明实施例提供的一种基于多模态的文本检索方法、***及介质,通过分别对待查询文本的分词文本以及向量文本进行匹配,在综合分词文本以及向量文本同时与阈值条件之间的关系,来实现对待查询文件检索,提高了检索内容的泛化性,提高了检索效率。
附图说明
为了更清楚地说明本发明示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为检索方法示意图;
图2为检索方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
在以下描述中,为了提供对本发明的透彻理解阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本本发明。在其他实施例中,为了避免混淆本本发明,未具体描述公知的结构、电路、材料或方法。
在整个说明书中,对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着:结合该实施例或示例描述的特定特征、结构或特性被包含在本本发明至少一个实施例中。因此,在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外,可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,在此提供的示图都是为了说明的目的,并且示图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。
在本发明的描述中,术语“前”、“后”、“左”、“右”、“上”、“下”、“竖直”、“水平”、“高”、“低”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制。
实施例一
传统的对文件进行检索的时候,通常采用的是关键词检索方法或向量检索方法进行检索,但是在采用这种方法对文档进行检索的时候,对检索的内容具有局限性,且检索的效率低,检索所花费的时间长。
本实施例公开了一种基于多模态的文本检索方法,通过分别对待查询文本的分词文本以及向量文本进行匹配,在综合分词文本以及向量文本同时与阈值条件之间的关系,来实现对待查询文件检索,提高了检索内容的泛化性,提高了检索效率;本实施例中的检索方法步骤如图1、图2所示,方法步骤包括:
S1:获取待查询文本、第一文本库以及第二文本库,所述第一文本库为文档文本库,所述第二文本库为语义相似度的文本库;
在步骤S1中,获取的第一文本库以及第二文本库是用来构建相对应的模型,能够通过构建相对应的模型对待查询文本进行处理,而第一文本库与第二文本库分别构建的是不同的模型,因此,第一文本库是文档文本库,主要是用来构建分词文档模型,第二文本库是与语义相似度文本库,是用来构建向量文档模型。
S2:基于所述第一文本库构建最优倒排索引模型,通过所述第二文本库构建最优向量相似度模型;
所述最优倒排索引模型构建方法为:构建倒排索引模型;采用分词工具对所述第一文本库进行分词处理,获得文本数据库;将所述文本数据库导入到所述倒排索引模型,获得最优倒排索引模型。
具体为使用分词工具将所有文档分词,并落入文档仓库(普通数据库即可);将分词后的文档仓库载入elastic search倒排索引搜索工,获得最优倒排索引模型。
所述最优向量相似度模型的构建方法为:构建预训练模型,通过所述预训练模型在所述第二文本库中精调模型,获得离线文档向量模型;通过所述离线文档模型将所述第二文本库中的所有文档编码转换为文本向量库,将所述文本向量库导入到向量相似度模型中,获得最优向量相似度模型。
具体构建实施例为:人工制造语义相似度数据集,例:(“员工管理”,“员工管理手册”,同义)、(“员工管理”,“盖章流程文档”,不同义)约3000条左右;使用预训练模型bert在准备的语义相似度数据集中精调模型,获得离线文档向量模型sentence-bert;使用sentence-bert模型将所有文档编码为向量,此步骤比较耗时,约1秒一条文本,所以需提前处理;将向量载入fasis向量搜索工具,获得最优向量相似度模型。
S3:通过所述最优倒排索引模型匹配所述待查询文本与所述第一文本库之间的分词候选文档,并计算所述分词候选文档与所述第一文本库之间的第一相似度分数;
S4:通过所述最优向量相似度模型匹配所述待查询文本与所述第二文本库之间的向量候选文档,并计算所述向量候选文档与所述第二文本库之间的第二相似度分数;
在步骤S3和步骤S4中,分别通过两个模型对待查询文本进行处理,获得基于分词后的分词候选文档以及向量候选文档,本实施例综合分词文档以及向量文档求并集进行同步检索,能够增加文档检索的泛化性,实施例中的倒排索引-elastic search工具为最优倒排索引模型,向量相似度-fasis工具为最优向量相似度模型,具体为:用户输入待查询文本,如“员工行为管理办法”,通过倒排索引-elastic search工具和向量相似度-fasis工具搜索分别从候选文档库中获得top N1个最具匹配度的候选项和对应的倒排索引相似度分数与语义向量相似度分数S1和S2,根据两种工具的检索结果取并集U,U中的文本数量范围为N1<=U<=2N1;分支逻辑监控进行第一次检测S1和S2,如S1和S2中出现满足阈值结束条件的候选项,则结束检索返回匹配答案与分数,否则进入细化检索步骤。
S5:通过分支逻辑监控方法判断所述第一相似度分数和所述第二相似度分数是否存在满足阈值结束条件的分数,若存在,则输出检索结果。
通过分支逻辑监控方法判断所述第一相似度分数和所述第二相似度分数是否存在满足阈值结束条件的分数,若存在,则输出检索结果包括:
所述分支逻辑监控方法将分数划分为不可信区间、待定区间以及可信区间,所述阈值结束条件为相似度分数处于不可信区间或可信区间,当所述第一相似度分数和所述第二相似度分数存在处于所述不可信区间时,输出无匹配文档检索结果;当所述第一相似度分数和所述第二相似度分数存在处于所述可信区间时,将相似度分数高的对应的候选文档进行输出。
具体为:得分序列中保存的分数通常为0~1的小数,一般逻辑监控模块将得分序列分为3个阈值阶段,例如[0,0.4),[0.4,0.7),[0.7,0.1]。当得分落入[0,0.4)区间为不可信区间,返回不满足条件,提示用户无匹配文档;当得分落入[0.4,0.7)区间为待定区间,进入下一步骤进行更详细的检索;当得分落入[0.7,0.1]区间为可信区间,直接返回排序第一的文档作为结果。若相似度分数落入待定区间时无下一检索步骤,返回最高的前5个文档作为最终结果让用户确认;阈值区间可根据检索文档数量和内容自由调整。
当所述第一相似度分数或所述第二相似度分数不存在满足阈值结束条件时,进行细化检索,具体包括:
将所述分词候选文档与所述向量候选文档取并集,获得候选文档库;采用编辑距离算法计算所述待查询文本与所述候选文档库中每个样本的相似度,并计算次数等于所述候选文档库中的数量,获得第三相似度分数;通过分支逻辑监控方法判断所述第三相似度分数是否满足阈值结束条件,若满足,则输出检索结果。
编辑距离文本相似度方法说明:输入:待定文本A与B;输出:A与B的相似度分数。
编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离可以用在自然语言处理中,例如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离,判断哪一个(或哪几个)是比较可能的字。从文本A变化到文本B,需要经过几种操作定位为3种:***一个字符、删除一个字符、替换一个字符,每进行一次操作则距离+1,最终结果归一化为0~1。
使用编辑距离文本相似度方法计算待查询文本与候选文档库中每个样本的相似度,计算次数等于候选文档库中的候选文档数量,获得所有编辑距离相似度得分S3;分支逻辑监控进行第二次检测S3,如有满足阈值结束条件的候选项,则结束检索返回匹配答案与分数;若检测无匹配选项则综合S1和S2 S3计算平均权重排序得到综合分值S123并且进入下一步骤。
当所述第三相似度不满足阈值结束条件时,检索方法还包括:计算所述第一相似度分数、所述第二相似度分数以及所述第三相似度分数的平均权重,并进行重新排序,获得综合分值;基于所述综合分值,将所述候选文档库按照分值大小进行重新排序,取排序后的前N个候选文档;通过语义模型计算所述待查询文本与N个所述候选文档之间的语音相似度,获得第四相似度分数;通过分支逻辑监控方法判断所述第四相似度分数是否满足阈值结束条件,若满足,则输出检索结果。
具体实施过程为:根据获得的综合分值S123进行重新排序,再次缩小候选集范围,取排序后的TOP N2个候选文档(推荐N2取值小于等于1000);使用准备步骤中训练好的语义模型M对待查询文本和N2个候选文档进行语义相似度计算(该模型输出为0~1分数,越接近0代表两句非同义,反之为同义),相似度分数S4;最终综合S123与S4得到最终分数Sfinal。根据Sfinal排序;进行分支逻辑监控第三次检测。当分数在不可信区间时,推送得分最高文档作为最终结果;当分数在待定区间时,推送得分最高的前5个文档作为最终结果让用户确认;当分数在可信区间时,告知用户文库中无匹配的检索结果。
本实施例公开的一种基于多模态的文本检索方法,包含了多模态内容,从字面和语义信息进行检索;引入语义模型后增加了搜索的泛化性,如用户输入“新进员工必读书”可以从语义侧匹配到“员工管理手册”,传统关键词检测无法做到此点。且不用维护近义词;分支逻辑检测可以有效降低检索耗时,即不是所有检索都必须经过完整步骤,在某些搜索比较精确的用户输入条件下,可以在第一个步骤就返回最终结果(毫秒级),如果用户输入比较模糊走完全程也只是秒级(量级:十万以内文档)。
实施例二
本实施例公开了一种基于多模态的文本检索***,本实施例是为了实现如实施例一中的检索方法,包括数据获取模块、模型构建模块、第一计算模块、第二计算模块、判断模块;
所述数据获取模块,用于获取待查询文本、第一文本库以及第二文本库,所述第一文本库为文档文本库,所述第二文本库为语义相似度的文本库;
所述模型构建模块,用于基于所述第一文本库构建最优倒排索引模型,通过所述第二文本库构建最优向量相似度模型;
所述第一计算模块,用于通过所述最优倒排索引模型匹配所述待查询文本与所述第一文本库之间的分词候选文档,并计算所述分词候选文档与所述第一文本库之间的第一相似度分数;
所述第二计算模块,用于通过所述最优向量相似度模型匹配所述待查询文本与所述第二文本库之间的向量候选文档,并计算所述向量候选文档与所述第二文本库之间的第二相似度分数;
所述判断模块,用于通过分支逻辑监控方法判断所述第一相似度分数和所述第二相似度分数是否存在满足阈值结束条件的分数,若存在,则输出检索结果。
所述模型构建模块包括最优倒排索引模型构建模块与最优向量相似度构建模块,所述最优倒排索引构建模块用于基于所述第一文本库构建最优倒排索引模型,所述最优向量相似度构建模块用于通过所述第二文本库构建最优向量相似度模型。
所述最优倒排索引构建模块包括子模型构建模块、分词模块以及数据导入模块;
所述子模型构建模块,用于构建倒排索引模型;
所述分词模块,用于采用分词工具对所述第一文本库进行分词处理,获得文本数据库;
所述数据导入模块,用于将所述文本数据库导入到所述倒排索引模型,获得最优倒排索引模型。
实施例三
本实施例公开了一种计算机存储介质,其上存储有计算程序,该计算机程序被处理器执行时,实现如实施例一所述的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序发布指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序发布指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的发布指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序发布指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的发布指令产生包括发布指令装置的制造品,该发布指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序发布指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的发布指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多模态的文本检索方法,其特征在于,方法步骤包括:
获取待查询文本、第一文本库以及第二文本库,所述第一文本库为文档文本库,所述第二文本库为语义相似度的文本库;
基于所述第一文本库构建最优倒排索引模型,通过所述第二文本库构建最优向量相似度模型;
通过所述最优倒排索引模型匹配所述待查询文本与所述第一文本库之间的分词候选文档,并计算所述分词候选文档与所述第一文本库之间的第一相似度分数;
通过所述最优向量相似度模型匹配所述待查询文本与所述第二文本库之间的向量候选文档,并计算所述向量候选文档与所述第二文本库之间的第二相似度分数;
通过分支逻辑监控方法判断所述第一相似度分数和所述第二相似度分数是否存在满足阈值结束条件的分数,若存在,则输出检索结果。
2.根据权利要求1所述的一种基于多模态的文本检索方法,其特征在于,所述最优倒排索引模型构建方法为:
构建倒排索引模型;
采用分词工具对所述第一文本库进行分词处理,获得文本数据库;
将所述文本数据库导入到所述倒排索引模型,获得最优倒排索引模型。
3.根据权利要求1所述的一种基于多模态的文本检索方法,其特征在于,所述最优向量相似度模型的构建方法为:
构建预训练模型,通过所述预训练模型在所述第二文本库中精调模型,获得离线文档向量模型;
通过所述离线文档模型将所述第二文本库中的所有文档编码转换为文本向量库,将所述文本向量库导入到向量相似度模型中,获得最优向量相似度模型。
4.根据权利要求2或3所述的一种基于多模态的文本检索方法,其特征在于,通过分支逻辑监控方法判断所述第一相似度分数和所述第二相似度分数是否存在满足阈值结束条件的分数,若存在,则输出检索结果包括:
所述分支逻辑监控方法将分数划分为不可信区间、待定区间以及可信区间,所述阈值结束条件为相似度分数处于不可信区间或可信区间,当所述第一相似度分数和所述第二相似度分数存在处于所述不可信区间时,输出无匹配文档检索结果;当所述第一相似度分数和所述第二相似度分数存在处于所述可信区间时,将相似度分数高的对应的候选文档进行输出。
5.根据权利要求4所述的一种基于多模态的文本检索方法,其特征在于,当所述第一相似度分数或所述第二相似度分数不存在满足阈值结束条件时,进行细化检索,具体包括:
将所述分词候选文档与所述向量候选文档取并集,获得候选文档库;
采用编辑距离算法计算所述待查询文本与所述候选文档库中每个样本的相似度,并计算次数等于所述候选文档库中的数量,获得第三相似度分数;
通过分支逻辑监控方法判断所述第三相似度分数是否满足阈值结束条件,若满足,则输出检索结果。
6.根据权利要求5所述的一种基于多模态的文本检索方法,其特征在于,当所述第三相似度不满足阈值结束条件时,检索方法还包括:
计算所述第一相似度分数、所述第二相似度分数以及所述第三相似度分数的平均权重,并进行重新排序,获得综合分值;
基于所述综合分值,将所述候选文档库按照分值大小进行重新排序,取排序后的前N个候选文档;
通过语义模型计算所述待查询文本与N个所述候选文档之间的语音相似度,获得第四相似度分数;
通过分支逻辑监控方法判断所述第四相似度分数是否满足阈值结束条件,若满足,则输出检索结果。
7.一种基于多模态的文本检索***,其特征在于,包括数据获取模块、模型构建模块、第一计算模块、第二计算模块、判断模块;
所述数据获取模块,用于获取待查询文本、第一文本库以及第二文本库,所述第一文本库为文档文本库,所述第二文本库为语义相似度的文本库;
所述模型构建模块,用于基于所述第一文本库构建最优倒排索引模型,通过所述第二文本库构建最优向量相似度模型;
所述第一计算模块,用于通过所述最优倒排索引模型匹配所述待查询文本与所述第一文本库之间的分词候选文档,并计算所述分词候选文档与所述第一文本库之间的第一相似度分数;
所述第二计算模块,用于通过所述最优向量相似度模型匹配所述待查询文本与所述第二文本库之间的向量候选文档,并计算所述向量候选文档与所述第二文本库之间的第二相似度分数;
所述判断模块,用于通过分支逻辑监控方法判断所述第一相似度分数和所述第二相似度分数是否存在满足阈值结束条件的分数,若存在,则输出检索结果。
8.根据权利要求7所述的一种基于多模态的文本检索***,其特征在于,所述模型构建模块包括最优倒排索引模型构建模块与最优向量相似度构建模块,所述最优倒排索引构建模块用于基于所述第一文本库构建最优倒排索引模型,所述最优向量相似度构建模块用于通过所述第二文本库构建最优向量相似度模型。
9.根据权利要求8所述的一种基于多模态的文本检索***,其特征在于,所述最优倒排索引构建模块包括子模型构建模块、分词模块以及数据导入模块;
所述子模型构建模块,用于构建倒排索引模型;
所述分词模块,用于采用分词工具对所述第一文本库进行分词处理,获得文本数据库;
所述数据导入模块,用于将所述文本数据库导入到所述倒排索引模型,获得最优倒排索引模型。
10.一种计算机存储介质,其上存储有计算程序,其特征在于,该计算机程序被处理器执行时,实现如权利要求1~6任一所述的方法。
CN202211571314.8A 2022-12-08 2022-12-08 一种基于多模态的文本检索方法、***及介质 Pending CN115982316A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211571314.8A CN115982316A (zh) 2022-12-08 2022-12-08 一种基于多模态的文本检索方法、***及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211571314.8A CN115982316A (zh) 2022-12-08 2022-12-08 一种基于多模态的文本检索方法、***及介质

Publications (1)

Publication Number Publication Date
CN115982316A true CN115982316A (zh) 2023-04-18

Family

ID=85963863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211571314.8A Pending CN115982316A (zh) 2022-12-08 2022-12-08 一种基于多模态的文本检索方法、***及介质

Country Status (1)

Country Link
CN (1) CN115982316A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116955541A (zh) * 2023-09-21 2023-10-27 园测信息科技股份有限公司 融合地理要素语义分割与相似度的地址匹配方法和***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116955541A (zh) * 2023-09-21 2023-10-27 园测信息科技股份有限公司 融合地理要素语义分割与相似度的地址匹配方法和***
CN116955541B (zh) * 2023-09-21 2023-12-26 园测信息科技股份有限公司 融合地理要素语义分割与相似度的地址匹配方法和***

Similar Documents

Publication Publication Date Title
CN110968699B (zh) 一种基于事理推荐的逻辑图谱构建及预警方法和装置
CN104699763B (zh) 多特征融合的文本相似性度量***
CN108573045A (zh) 一种基于多阶指纹的比对矩阵相似度检索方法
CN107562919B (zh) 一种基于信息检索的多索引集成软件构件检索方法及***
CN106708929B (zh) 视频节目的搜索方法和装置
US20210350125A1 (en) System for searching natural language documents
CN112328800A (zh) 自动生成编程规范问题答案的***及方法
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成***及生成方法
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN111159381B (zh) 数据搜索方法及装置
CN113434418A (zh) 知识驱动的软件缺陷检测与分析方法及***
CN115982316A (zh) 一种基于多模态的文本检索方法、***及介质
CN106570196B (zh) 视频节目的搜索方法和装置
CN112579583B (zh) 一种面向事实检测的证据与声明联合抽取方法
CN116049376B (zh) 一种信创知识检索回复的方法、装置和***
CN116681382A (zh) 物料清单的数据抓取方法、***以及可读存储介质
CN112835620B (zh) 一种基于深度学习的语义相似代码在线检测方法
CN114756650A (zh) 一种超大规模数据自动化比对分析处理方法及***
CN113010643A (zh) 佛学领域词汇的处理方法、装置、设备及存储介质
CN112488593A (zh) 一种用于招标的辅助评标***及方法
CN117112736B (zh) 一种基于语义分析模型的信息检索分析方法及***
CN109299381A (zh) 一种基于语义概念的软件缺陷检索和分析***及方法
CN111339239B (zh) 知识检索方法及装置、存储介质、服务器
CN118193716A (zh) 一种基于大模型和规则推理的自更新法律类案推荐***
CN116303844A (zh) 一种基于nlp和统计学的属地行政区划代码识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination