CN114461782A

CN114461782A - 一种多特征匹配的文本匹配方法、终端及可读存储介质

Info

Publication number: CN114461782A
Application number: CN202210036918.6A
Authority: CN
Inventors: 夏书银; 杨宁; 张勇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-05-10

Abstract

本发明公开了一种多特征匹配的文本匹配方法、终端及可读存储介质，涉及自然语言处理领域，解决了现有的文本匹配方法忽略了文本中细粒度的信息以及文本整体语义信息，获取待匹配文本、候选文本，对所述待匹配文本、候选文本进行预处理；对预处理后的文本进行基于N‑Gram的多粒度解析，获得不同粒度下的文本序列，将所述文本序列进行向量化，获得文本向量；将所述文本向量列输入深度学***均，获得待匹配文本、候选文本的匹配度；本发明结合细粒度的词项语义信息与粗粒度的文本整体语义信息，提升了文本匹配的准确度。

Description

一种多特征匹配的文本匹配方法、终端及可读存储介质

技术领域

本发明涉及自然语言处理领域，更具体地说，它涉及一种多特征匹配的文本匹配方法、终端及可读存储介质。

背景技术

随着信息时代的飞速发展，各式各样的文本信息充斥着网络世界。在网络搜索中，如何高效高准确的进行文本信息匹配成为了各大互联网平台提供数据搜索服务的有效保障。

现有技术中，文本匹配往往通过单个关键词提取，由深度学习表征方法训练所得的文本整体语义进行匹配。但上述现有方法中，使用关键词会导致忽略文本整体语义信息，使用深度学习表征方法会忽略文本中细粒度的信息导致了文本匹配准确度较低。

因此，需要提供更有效的方法来提升文本匹配方法的准确度。

发明内容

本发明所解决的技术问题是现有的文本匹配方法使用深度学习模型忽略了文本中细粒度的信息或采用关键词忽略了文本整体语义信息，本发明的目的是提供一种多特征匹配的文本匹配方法、终端及可读存储介质，本发明结合细粒度的词项语义信息与粗粒度的文本整体语义信息，进一步提升文本匹配方法的准确度。

本发明的上述技术目的是通过以下技术方案得以实现的：

一种多特征匹配的文本匹配方法，所述方法包括以下步骤：

获取待匹配文本和候选文本，对所述待匹配文本和候选文本进行预处理；

对预处理后的文本进行基于N-Gram的多粒度解析，获得不同粒度下的文本序列，将所述文本序列进行向量化，获得文本向量；

将所述文本向量列输入深度学习语言模型中进行训练，获得待匹配文本和候选文本的编码向量；

将所述待匹配文本编码和候选文本的编码向量进行相似度计算后求和取平均，获得待匹配文本和候选文本的匹配度。

本发明采用基于N-Gram的文本解析方法，将预处理后的文本解析为不同粒度的文本序列，考虑到现有的文本匹配方法使用深度学***均值，基于这个平均值的大小判断待匹配文本与候选文本的匹配程度，基于这个匹配程度获得最接近待匹配文本语义的候选文本。

进一步的，将所述待匹配文本和候选文本的无用符号和停用词去除，采用分词工具对所述待匹配文本和候选文本进行分词处理。

进一步的，以1-Gram，2-Gram和3-Gram三种粒度方式对待匹配文本与候选文本进行解析，其中，分词处理后的结果即为1-Gram所解析的文本序列，2-Gram按照分词处理后的文本序列自身的顺序进行两两组合，3-Gram按照分词处理后的文本序列自身的顺序进行三三组合。

进一步的，将三种粒度解析出的文本序列转化为文本向量矩阵输入深度学习语言模型，分别对三种不同文本解析方式进行训练，获得待匹配文本和候选文本的编码向量。

进一步的，将所述待匹配文本和候选文本的编码向量进行相似度计算的计算式为

其中，

表示待匹配文本和候选文本在词粒度为n 时的文本相似度，

表示待匹配文本的文本表征向量，

表示候选文本的文本表征向量。

进一步的，所述待匹配文本和候选文本的匹配度的计算式为

其中，

表示1-Gram粒度解析的文本相似度，

表示2-Gram粒度解析的文本相似度，

表示3-Gram粒度解析的文本相似度。

进一步的，对所述待匹配文本进行匹配时，在所述候选文本中计算与所述待匹配文本的匹配度，并根据所述匹配度的数值与相似度阈值进行比较，所述匹配度的数值大于所示相似度阈值返回候选文本的所有排序结果，获得最接近所述待匹配文本语义的候选文本。

进一步的，通过faiss工具包将所述候选文本的编码向量进行索引化，并保存索引化后的编码向量。

一种多特征匹配终端，包括存储器、处理器以及存储在存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述的方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明考虑到现有技术的文本匹配方法往往通过单个关键词提取，由深度学习表征方法训练所得的文本整体语义进行匹配，但是使用关键词会导致忽略文本整体语义信息，使用深度学习表征方法也会忽略文本中细粒度的信息，因此本发明采用基于N-Gram的文本解析方法，将文本解析为不同粒度的文本序列，并在匹配阶段采取后其交互的方法在提升匹配准确度，同时满足工业匹配使用的需求。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明结构示意图；

图2为本发明实施例提供的文本匹配模块；

图3为本发明实施例提供的终端的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例一：

如图1所示，本实施例一提供一种多特征匹配的文本匹配方法，方法包括以下步骤：

步骤S1，获取待匹配文本和候选文本，对待匹配文本和候选文本进行预处理；

步骤S2，对预处理后的文本进行基于N-Gram的多粒度解析，获得不同粒度下的文本序列，将所述文本序列进行向量化，获得文本向量；

步骤S3，将所述文本向量列输入深度学习语言模型中进行训练，获得待匹配文本和候选文本的编码向量；

步骤S4，将所述待匹配文本编码和候选文本的编码向量进行相似度计算后求和取平均，获得待匹配文本和候选文本的匹配度。

本发明基于N-Gram(CLM,Chinese Language Model，简称汉语语言模型)的文本解析方法，将预处理后的文本解析为不同粒度的文本序列，考虑到现有的文本匹配方法使用深度学***均值，基于平均值的大小判断待匹配文本与候选文本的匹配程度，基于匹配程度获得最接近待匹配文本语义的候选文本。因此，本发明可以有效联合文本词项信息与文本整体语义信息，在文本匹配时进行多特征语义信息匹配，提高文本匹配的准确度。并且将文本解析为不同粒度的文本序列，并在匹配阶段采取后其交互的方法在提升匹配准确度的同时可满足工业使用的需求。

本申请的又一个实施例中，将待匹配文本和候选文本的无用符号和停用词去除，采用分词工具对待匹配文本和候选文本进行分词处理。

本申请的又一个实施例中，以1-Gram，2-Gram和3-Gram三种粒度方式对待匹配文本与候选文本进行解析，其中，分词处理后的结果即为1-Gram所解析的文本序列，2-Gram按照分词处理后的文本序列自身的顺序进行两两组合，3-Gram按照分词处理后的文本序列自身的顺序进行三三组合。

本申请的又一个实施例中，将三种粒度解析出的文本序列转化为文本向量矩阵输入深度学习语言模型，分别对三种不同文本解析方式进行训练，获得待匹配文本和候选文本的编码向量。

具体的，利用预训练好的词向量，卷积神经网络将三种粒度解析出的文本序列转化为文本向量矩阵，在卷积神经网络中设定卷积核尺寸分别为1、2、3，1、2、3分别表示1-Gram、 2-Gram、3-Gram的卷积核尺寸，利用分组卷积的方法得到不同粒度文本的文本向量矩阵。

本申请的又一个实施例中，将待匹配文本和候选文本的编码向量进行相似度计算的计算式为

其中，

表示待匹配文本和候选文本在词粒度为n时的文本相似度，

表示待匹配文本的文本表征向量，

表示候选文本的文本表征向量。

本申请的又一个实施例中，待匹配文本和候选文本的匹配度的计算式为

其中，

表示1-Gram粒度解析，

表示2-Gram粒度解析，

表示3-Gram粒度解析。

本申请的又一个实施例中，对待匹配文本进行匹配时，在候选文本中计算与待匹配文本的匹配度，并根据匹配度的数值与相似度阈值进行比较，匹配度的数值大于所示相似度阈值返回候选文本的所有排序结果，获得最接近待匹配文本语义的候选文本。

本申请的又一个实施例中，通过faiss工具包将所述候选文本的编码向量进行索引化，并保存索引化后的编码向量。

本申请实施例一还提供基于多特征匹配的文本匹配示例，如下，以待匹配文本q：“什么播放器可以看世界杯直播？”，候选文本d：“用什么播放器看世界杯直播。”为例说明上述文本匹配方法；

文本预处理的结果如下：

待匹配文本q分词结果：“什么”、“播放器”、“可以”、“看”、世界杯”、“直播”。

候选文本d分词结果：“用”、“什么”、“播放器”、“看”、“世界杯”、“直播”。

基于N-Gram文本解析：待匹配文本q:1-Gram表示“什么”、“播放器”、“可以”、“看”、“世界杯”、“直播”；

2-Gram表示“什么，播放器”、“播放器，可以”、“可以，看”、“看，世界杯”、“世界杯，直播”；

3-Gram表示“什么，播放器，可以”、“播放器，可以，看”、“可以，看，世界杯”、“看，世界杯，直播”；

候选文本d：1-Gram表示“用”、“什么”、“播放器”、“看”、“世界杯”、“直播”；

2-Gram表示“用，什么”、“什么，播放器”、“播放器，看”、“看，世界杯”、“世界杯，直播”；

3-Gram表示“用，什么，播放器”、“什么，播放器，看”、“播放器，看，世界杯”、“看，世界杯，直播”。

文本向量化：采用预训练好的词向量模型，将上述不同粒度序列的文本进行向量化。

待匹配文本对应的文本向量分别表示为：1-Gram表示为

2-Gram表示为

3-Gram表示为

候选文本对应的文本向量分别表示为：1-Gram表示为

2-Gram表示为

3-Gram表示为

将文本向量输入深度学习语言模型的编码层进行训练，通过编码层训练，对输入文本进行语义表征训练输出统一长度为L的文本表征向量。待匹配文本所得到的文本表征向量为： 1-Gram表示为

2-Gram表示为

3-Gram表示为

候选文本所得到的文本表征向量为：1-Gram表示为

2-Gram表示为

3-Gram表示为

相似度数值计算：由以上步骤得到文本表征向量，通过向量计算相似度得分，1-Gram， 2-Gram，3-Gram计算式分别如下：

计算出

最终待匹配文本与候选文本的匹配度得分为：

由于相似度数值的阈值在75％，可知本发明实施例二所提供的文本匹配方法满足阈值要求，且本发明所提出匹配方法所得出的阈值远大于75％，可进一步说明本发明所提方法的有准确性。

实施例二：

基于同一构思，本申请实施例二提供一种多特征匹配终端，包括存储器、处理器以及存储在存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的方法的步骤。

图3为本发明实施例一提供的终端的实体结构示意图，如图3所示，该终端可以包括：处理器(processor)310、通信接口(CommunicationsInterface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储在存储器330上并可在处理器310上运行的计算机程序，以执行上述各实施例提供的文本匹配方法，例如包括：获取待匹配文本和候选文本，对待匹配文本和候选文本进行预处理；对预处理后的文本进行基于N-Gram的多粒度解析，获得不同粒度下的文本序列，将所述文本序列进行向量化，获得文本向量；将所述文本向量列输入深度学***均，获得待匹配文本和候选文本的匹配度。

具体的，匹配终端还包括线上匹配模块210以及线下预训练模块220，如图2所示，线上匹配模块210和线下预训练模块220，即存储在存储器330中的线下训练模型、索引列表，处理器310对待匹配文本进行编码，通过存储器330中存储所有候选文本的索引，处理器310 进一步计算待匹配文本与候选文本的相似度分数，需要说明的是，此处的相似度分数即为匹配度分数，设定相似度阈值(阈值设定为75％)，若相似度分数大于阈值，则处理器310输出并显示所有满足条件的候选文本。

实施例三：

基于同一构思，本申请实施例三提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述的方法的步骤。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read- OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多特征匹配的文本匹配方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种多特征匹配的文本匹配方法，其特征在于，将所述待匹配文本和候选文本的无用符号和停用词去除，采用分词工具对所述待匹配文本和候选文本进行分词处理。

3.根据权利要求2所述的一种多特征匹配的文本匹配方法，其特征在于，以1-Gram，2-Gram和3-Gram三种粒度方式对待匹配文本与候选文本进行解析，其中，分词处理后的结果即为1-Gram所解析的文本序列，2-Gram按照分词处理后的文本序列自身的顺序进行两两组合，3-Gram按照分词处理后的文本序列自身的顺序进行三三组合。

4.根据权利要求3所述的一种多特征匹配的文本匹配方法，其特征在于，将三种粒度解析出的文本序列转化为文本向量矩阵输入深度学习语言模型，分别对三种不同文本解析方式进行训练，获得待匹配文本和候选文本的编码向量。

5.根据权利要求4述的一种多特征匹配的文本匹配方法，其特征在于，将所述待匹配文本和候选文本的编码向量进行相似度计算的计算式为