CN115982316A

CN115982316A - 一种基于多模态的文本检索方法、***及介质

Info

Publication number: CN115982316A
Application number: CN202211571314.8A
Authority: CN
Inventors: 何思佑; 李开宇; 陈思成; 张卓
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-04-18

Abstract

本发明公开了一种基于多模态的文本检索方法、***及介质，获取待查询文本、第一文本库以及第二文本库；基于第一文本库构建最优倒排索引模型，通过第二文本库构建最优向量相似度模型；通过最优倒排索引模型匹配待查询文本与第一文本库之间的分词候选文档，并计算分词候选文档与第一文本库之间的第一相似度分数；通过最优向量相似度模型匹配待查询文本与第二文本库之间的向量候选文档，并计算向量候选文档与第二文本库之间的第二相似度分数；通过分支逻辑监控方法判断第一相似度分数和第二相似度分数是否存在满足阈值结束条件的分数，若存在，则输出检索结果；本发明的有益效果为提高了检索内容的泛化性，提高了检索效率。

Description

一种基于多模态的文本检索方法、***及介质

技术领域

本发明涉及文本检索技术领域，具体而言，涉及一种基于多模态的文本检索方法、***及介质。

背景技术

金融场景文本应用十分复杂，包含大量业务、技术、合同等多个种类的文本，而这些文本又需要在各个部门间进行流转查询，快速精准的检索出想要的文本能较大提升从业人员的工作效率。目前行业内通常会使用一个专管***负责将此部分文档收集并提供检索功能。但由于业务规模的拓展和文档的非结构化复杂性，很难在低时延情况下精准检出目标文档。

现有技术中，通常都是通过关键词检索方法或文本向量检索方法对需要进行检索的文本进行检索，但是在采用这种方法对相关文本进行检索的时候，对检索的内容具有局限性，且检索的效率低，检索所花费的时间长。

有鉴于此，特提出本申请。

发明内容

本发明所要解决的技术问题是现有技术中，采用向量检索或关键词检索方法对相关文档进行检索，对检索的内容具有局限性，且检索的效率低，检索所花费的时间长，目的在于提供一种基于多模态的文本检索方法、***及介质，提高了检索内容的泛化性，提高了检索效率。

本发明通过下述技术方案实现：

一种基于多模态的文本检索方法，方法步骤包括：

获取待查询文本、第一文本库以及第二文本库，所述第一文本库为文档文本库，所述第二文本库为语义相似度的文本库；

基于所述第一文本库构建最优倒排索引模型，通过所述第二文本库构建最优向量相似度模型；

通过所述最优倒排索引模型匹配所述待查询文本与所述第一文本库之间的分词候选文档，并计算所述分词候选文档与所述第一文本库之间的第一相似度分数；

通过所述最优向量相似度模型匹配所述待查询文本与所述第二文本库之间的向量候选文档，并计算所述向量候选文档与所述第二文本库之间的第二相似度分数；

通过分支逻辑监控方法判断所述第一相似度分数和所述第二相似度分数是否存在满足阈值结束条件的分数，若存在，则输出检索结果。

传统的对文件进行检索的时候，通常采用的是关键词检索方法或向量检索方法进行检索，但是在采用这种方法对文档进行检索的时候，对检索的内容具有局限性，且检索的效率低，检索所花费的时间长；本发明提供了一种基于多模态的文本检索方法，通过分别对待查询文本的分词文本以及向量文本进行匹配，在综合分词文本以及向量文本同时与阈值条件之间的关系，来实现对待查询文件检索，提高了检索内容的泛化性，提高了检索效率。

优选地，所述最优倒排索引模型构建方法为：

构建倒排索引模型；

采用分词工具对所述第一文本库进行分词处理，获得文本数据库；

将所述文本数据库导入到所述倒排索引模型，获得最优倒排索引模型。

优选地，所述最优向量相似度模型的构建方法为：

构建预训练模型，通过所述预训练模型在所述第二文本库中精调模型，获得离线文档向量模型；

通过所述离线文档模型将所述第二文本库中的所有文档编码转换为文本向量库，将所述文本向量库导入到向量相似度模型中，获得最优向量相似度模型。

优选地，通过分支逻辑监控方法判断所述第一相似度分数和所述第二相似度分数是否存在满足阈值结束条件的分数，若存在，则输出检索结果包括：

所述分支逻辑监控方法将分数划分为不可信区间、待定区间以及可信区间，所述阈值结束条件为相似度分数处于不可信区间或可信区间，当所述第一相似度分数和所述第二相似度分数存在处于所述不可信区间时，输出无匹配文档检索结果；当所述第一相似度分数和所述第二相似度分数存在处于所述可信区间时，将相似度分数高的对应的候选文档进行输出。

优选地，当所述第一相似度分数或所述第二相似度分数不存在满足阈值结束条件时，进行细化检索，具体包括：

将所述分词候选文档与所述向量候选文档取并集，获得候选文档库；

采用编辑距离算法计算所述待查询文本与所述候选文档库中每个样本的相似度，并计算次数等于所述候选文档库中的数量，获得第三相似度分数；

通过分支逻辑监控方法判断所述第三相似度分数是否满足阈值结束条件，若满足，则输出检索结果。

优选地，当所述第三相似度不满足阈值结束条件时，检索方法还包括：

计算所述第一相似度分数、所述第二相似度分数以及所述第三相似度分数的平均权重，并进行重新排序，获得综合分值；

基于所述综合分值，将所述候选文档库按照分值大小进行重新排序，取排序后的前N个候选文档；

通过语义模型计算所述待查询文本与N个所述候选文档之间的语音相似度，获得第四相似度分数；

通过分支逻辑监控方法判断所述第四相似度分数是否满足阈值结束条件，若满足，则输出检索结果。

本发明还提供了一种基于多模态的文本检索***，包括数据获取模块、模型构建模块、第一计算模块、第二计算模块、判断模块；

所述数据获取模块，用于获取待查询文本、第一文本库以及第二文本库，所述第一文本库为文档文本库，所述第二文本库为语义相似度的文本库；

所述模型构建模块，用于基于所述第一文本库构建最优倒排索引模型，通过所述第二文本库构建最优向量相似度模型；

所述第一计算模块，用于通过所述最优倒排索引模型匹配所述待查询文本与所述第一文本库之间的分词候选文档，并计算所述分词候选文档与所述第一文本库之间的第一相似度分数；

所述第二计算模块，用于通过所述最优向量相似度模型匹配所述待查询文本与所述第二文本库之间的向量候选文档，并计算所述向量候选文档与所述第二文本库之间的第二相似度分数；

所述判断模块，用于通过分支逻辑监控方法判断所述第一相似度分数和所述第二相似度分数是否存在满足阈值结束条件的分数，若存在，则输出检索结果。

优选地，所述模型构建模块包括最优倒排索引模型构建模块与最优向量相似度构建模块，所述最优倒排索引构建模块用于基于所述第一文本库构建最优倒排索引模型，所述最优向量相似度构建模块用于通过所述第二文本库构建最优向量相似度模型。

优选地，所述最优倒排索引构建模块包括子模型构建模块、分词模块以及数据导入模块；

所述子模型构建模块，用于构建倒排索引模型；

所述分词模块，用于采用分词工具对所述第一文本库进行分词处理，获得文本数据库；

所述数据导入模块，用于将所述文本数据库导入到所述倒排索引模型，获得最优倒排索引模型。

本发明还提供了一种计算机存储介质，其上存储有计算程序，该计算机程序被处理器执行时，实现如上所述的方法。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明实施例提供的一种基于多模态的文本检索方法、***及介质，通过分别对待查询文本的分词文本以及向量文本进行匹配，在综合分词文本以及向量文本同时与阈值条件之间的关系，来实现对待查询文件检索，提高了检索内容的泛化性，提高了检索效率。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为检索方法示意图；

图2为检索方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

在以下描述中，为了提供对本发明的透彻理解阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本本发明。在其他实施例中，为了避免混淆本本发明，未具体描述公知的结构、电路、材料或方法。

在整个说明书中，对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着：结合该实施例或示例描述的特定特征、结构或特性被包含在本本发明至少一个实施例中。因此，在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外，可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外，本领域普通技术人员应当理解，在此提供的示图都是为了说明的目的，并且示图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。

在本发明的描述中，术语“前”、“后”、“左”、“右”、“上”、“下”、“竖直”、“水平”、“高”、“低”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制。

实施例一

传统的对文件进行检索的时候，通常采用的是关键词检索方法或向量检索方法进行检索，但是在采用这种方法对文档进行检索的时候，对检索的内容具有局限性，且检索的效率低，检索所花费的时间长。

本实施例公开了一种基于多模态的文本检索方法，通过分别对待查询文本的分词文本以及向量文本进行匹配，在综合分词文本以及向量文本同时与阈值条件之间的关系，来实现对待查询文件检索，提高了检索内容的泛化性，提高了检索效率；本实施例中的检索方法步骤如图1、图2所示，方法步骤包括：

S1：获取待查询文本、第一文本库以及第二文本库，所述第一文本库为文档文本库，所述第二文本库为语义相似度的文本库；

在步骤S1中，获取的第一文本库以及第二文本库是用来构建相对应的模型，能够通过构建相对应的模型对待查询文本进行处理，而第一文本库与第二文本库分别构建的是不同的模型，因此，第一文本库是文档文本库，主要是用来构建分词文档模型，第二文本库是与语义相似度文本库，是用来构建向量文档模型。

S2：基于所述第一文本库构建最优倒排索引模型，通过所述第二文本库构建最优向量相似度模型；

所述最优倒排索引模型构建方法为：构建倒排索引模型；采用分词工具对所述第一文本库进行分词处理，获得文本数据库；将所述文本数据库导入到所述倒排索引模型，获得最优倒排索引模型。

具体为使用分词工具将所有文档分词，并落入文档仓库(普通数据库即可)；将分词后的文档仓库载入elastic search倒排索引搜索工，获得最优倒排索引模型。

所述最优向量相似度模型的构建方法为：构建预训练模型，通过所述预训练模型在所述第二文本库中精调模型，获得离线文档向量模型；通过所述离线文档模型将所述第二文本库中的所有文档编码转换为文本向量库，将所述文本向量库导入到向量相似度模型中，获得最优向量相似度模型。

具体构建实施例为：人工制造语义相似度数据集，例：(“员工管理”，“员工管理手册”，同义)、(“员工管理”，“盖章流程文档”，不同义)约3000条左右；使用预训练模型bert在准备的语义相似度数据集中精调模型，获得离线文档向量模型sentence-bert；使用sentence-bert模型将所有文档编码为向量，此步骤比较耗时，约1秒一条文本，所以需提前处理；将向量载入fasis向量搜索工具，获得最优向量相似度模型。

S3：通过所述最优倒排索引模型匹配所述待查询文本与所述第一文本库之间的分词候选文档，并计算所述分词候选文档与所述第一文本库之间的第一相似度分数；

S4：通过所述最优向量相似度模型匹配所述待查询文本与所述第二文本库之间的向量候选文档，并计算所述向量候选文档与所述第二文本库之间的第二相似度分数；

在步骤S3和步骤S4中，分别通过两个模型对待查询文本进行处理，获得基于分词后的分词候选文档以及向量候选文档，本实施例综合分词文档以及向量文档求并集进行同步检索，能够增加文档检索的泛化性，实施例中的倒排索引-elastic search工具为最优倒排索引模型，向量相似度-fasis工具为最优向量相似度模型，具体为：用户输入待查询文本，如“员工行为管理办法”，通过倒排索引-elastic search工具和向量相似度-fasis工具搜索分别从候选文档库中获得top N1个最具匹配度的候选项和对应的倒排索引相似度分数与语义向量相似度分数S1和S2，根据两种工具的检索结果取并集U，U中的文本数量范围为N1<＝U<＝2N1；分支逻辑监控进行第一次检测S1和S2，如S1和S2中出现满足阈值结束条件的候选项，则结束检索返回匹配答案与分数，否则进入细化检索步骤。

S5：通过分支逻辑监控方法判断所述第一相似度分数和所述第二相似度分数是否存在满足阈值结束条件的分数，若存在，则输出检索结果。

通过分支逻辑监控方法判断所述第一相似度分数和所述第二相似度分数是否存在满足阈值结束条件的分数，若存在，则输出检索结果包括：

具体为：得分序列中保存的分数通常为0～1的小数，一般逻辑监控模块将得分序列分为3个阈值阶段，例如[0,0.4),[0.4,0.7),[0.7,0.1]。当得分落入[0,0.4)区间为不可信区间，返回不满足条件，提示用户无匹配文档；当得分落入[0.4,0.7)区间为待定区间，进入下一步骤进行更详细的检索；当得分落入[0.7,0.1]区间为可信区间，直接返回排序第一的文档作为结果。若相似度分数落入待定区间时无下一检索步骤，返回最高的前5个文档作为最终结果让用户确认；阈值区间可根据检索文档数量和内容自由调整。

当所述第一相似度分数或所述第二相似度分数不存在满足阈值结束条件时，进行细化检索，具体包括：

将所述分词候选文档与所述向量候选文档取并集，获得候选文档库；采用编辑距离算法计算所述待查询文本与所述候选文档库中每个样本的相似度，并计算次数等于所述候选文档库中的数量，获得第三相似度分数；通过分支逻辑监控方法判断所述第三相似度分数是否满足阈值结束条件，若满足，则输出检索结果。

编辑距离文本相似度方法说明：输入：待定文本A与B；输出：A与B的相似度分数。

编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离可以用在自然语言处理中，例如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离，判断哪一个(或哪几个)是比较可能的字。从文本A变化到文本B，需要经过几种操作定位为3种：***一个字符、删除一个字符、替换一个字符，每进行一次操作则距离+1，最终结果归一化为0～1。

使用编辑距离文本相似度方法计算待查询文本与候选文档库中每个样本的相似度，计算次数等于候选文档库中的候选文档数量，获得所有编辑距离相似度得分S3；分支逻辑监控进行第二次检测S3，如有满足阈值结束条件的候选项，则结束检索返回匹配答案与分数；若检测无匹配选项则综合S1和S2 S3计算平均权重排序得到综合分值S1₂₃并且进入下一步骤。

当所述第三相似度不满足阈值结束条件时，检索方法还包括：计算所述第一相似度分数、所述第二相似度分数以及所述第三相似度分数的平均权重，并进行重新排序，获得综合分值；基于所述综合分值，将所述候选文档库按照分值大小进行重新排序，取排序后的前N个候选文档；通过语义模型计算所述待查询文本与N个所述候选文档之间的语音相似度，获得第四相似度分数；通过分支逻辑监控方法判断所述第四相似度分数是否满足阈值结束条件，若满足，则输出检索结果。

具体实施过程为：根据获得的综合分值S₁₂₃进行重新排序，再次缩小候选集范围，取排序后的TOP N2个候选文档(推荐N2取值小于等于1000)；使用准备步骤中训练好的语义模型M对待查询文本和N2个候选文档进行语义相似度计算(该模型输出为0～1分数，越接近0代表两句非同义，反之为同义)，相似度分数S4；最终综合S₁₂₃与S4得到最终分数S_final。根据S_final排序；进行分支逻辑监控第三次检测。当分数在不可信区间时，推送得分最高文档作为最终结果；当分数在待定区间时，推送得分最高的前5个文档作为最终结果让用户确认；当分数在可信区间时，告知用户文库中无匹配的检索结果。

本实施例公开的一种基于多模态的文本检索方法，包含了多模态内容，从字面和语义信息进行检索；引入语义模型后增加了搜索的泛化性，如用户输入“新进员工必读书”可以从语义侧匹配到“员工管理手册”，传统关键词检测无法做到此点。且不用维护近义词；分支逻辑检测可以有效降低检索耗时，即不是所有检索都必须经过完整步骤，在某些搜索比较精确的用户输入条件下，可以在第一个步骤就返回最终结果(毫秒级)，如果用户输入比较模糊走完全程也只是秒级(量级：十万以内文档)。

实施例二

本实施例公开了一种基于多模态的文本检索***，本实施例是为了实现如实施例一中的检索方法，包括数据获取模块、模型构建模块、第一计算模块、第二计算模块、判断模块；

所述模型构建模块包括最优倒排索引模型构建模块与最优向量相似度构建模块，所述最优倒排索引构建模块用于基于所述第一文本库构建最优倒排索引模型，所述最优向量相似度构建模块用于通过所述第二文本库构建最优向量相似度模型。

所述最优倒排索引构建模块包括子模型构建模块、分词模块以及数据导入模块；

所述子模型构建模块，用于构建倒排索引模型；

实施例三

本实施例公开了一种计算机存储介质，其上存储有计算程序，该计算机程序被处理器执行时，实现如实施例一所述的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序发布指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序发布指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的发布指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序发布指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的发布指令产生包括发布指令装置的制造品，该发布指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序发布指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的发布指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态的文本检索方法，其特征在于，方法步骤包括：

2.根据权利要求1所述的一种基于多模态的文本检索方法，其特征在于，所述最优倒排索引模型构建方法为：

构建倒排索引模型；

3.根据权利要求1所述的一种基于多模态的文本检索方法，其特征在于，所述最优向量相似度模型的构建方法为：

4.根据权利要求2或3所述的一种基于多模态的文本检索方法，其特征在于，通过分支逻辑监控方法判断所述第一相似度分数和所述第二相似度分数是否存在满足阈值结束条件的分数，若存在，则输出检索结果包括：

5.根据权利要求4所述的一种基于多模态的文本检索方法，其特征在于，当所述第一相似度分数或所述第二相似度分数不存在满足阈值结束条件时，进行细化检索，具体包括：

6.根据权利要求5所述的一种基于多模态的文本检索方法，其特征在于，当所述第三相似度不满足阈值结束条件时，检索方法还包括：

7.一种基于多模态的文本检索***，其特征在于，包括数据获取模块、模型构建模块、第一计算模块、第二计算模块、判断模块；

8.根据权利要求7所述的一种基于多模态的文本检索***，其特征在于，所述模型构建模块包括最优倒排索引模型构建模块与最优向量相似度构建模块，所述最优倒排索引构建模块用于基于所述第一文本库构建最优倒排索引模型，所述最优向量相似度构建模块用于通过所述第二文本库构建最优向量相似度模型。

9.根据权利要求8所述的一种基于多模态的文本检索***，其特征在于，所述最优倒排索引构建模块包括子模型构建模块、分词模块以及数据导入模块；

所述子模型构建模块，用于构建倒排索引模型；

10.一种计算机存储介质，其上存储有计算程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1～6任一所述的方法。