CN112632216B

CN112632216B - 一种基于深度学习的长文本检索***及方法

Info

Publication number: CN112632216B
Application number: CN202011435229.XA
Authority: CN
Inventors: 李杰坷; 杨敏; 李成明; 贺倩明
Original assignee: Shenzhen Deli Technology Co ltd; Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Deli Technology Co ltd; Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-07-30
Anticipated expiration: 2040-12-10
Also published as: CN112632216A

Abstract

本申请提供一种基于深度学习的长文本检索***及方法，包括交互特征提取模块，用于对长文本文档进行分段，将得到的文本片段与用户输入的搜索请求数据进行拼接，并输入至基本特征提取器中，提取文本片段交互特征；交互特征聚合模块，用于对文本片段交互特征进行聚合，得到聚合文本片段交互特征；输出模块，用于将聚合文本片段交互特征输入至匹配得分计算器中，计算搜索请求数据和长文本文档的匹配得分。本申请通过加入基于匹配字符的特殊掩膜机制，使得检索***能对分散到长文本中的问题的关键点进行更精准地匹配；并通过先对长文本进行分段，再使用循环神经网络和注意力机制进行聚合的结构，降低随着文本长度增加所带来的检索***计算时间的增长。

Description

一种基于深度学习的长文本检索***及方法

技术领域

本申请涉及长文本检索技术领域，尤其涉及一种基于深度学习的长文本检索***及方法。

背景技术

文献检索是检索对象为文献的一种信息检索技术，是根据学习和工作的需要通过检索来获取文献的过程。随着现代网络技术的发展，文献检索的更多是通过计算机技术来完成。文献的检索语言可分为分类语言(以数字、字母或字母与数字结合作为基本字符，以基本类目作为基本词汇，以类目的从属关系来表达复杂概念的一类检索语言)、主题语言(以自然语言的字符为字符，以名词术语为基本词汇，用一组名词术语作为检索标识的一类检索语言)等。使用规范的文献检索语言可以快速准确的检索出所需的文献资料，但规范的文献检索语言使用门槛较高，普通用户由于不了解分类规则或检索关键字表达不准确等原因不能较好的使用规范的文献检索语言。因此，需要通过分析用户输入的自然语言，直接检索到其最需要的文献的检索***。

现有技术中，一方面提出了基于交互的文本匹配***，该***首先将用户输入的问题和文本文档的每个词转化为词向量，然后基于词向量计算用户输入的问题和文本文档的交互矩阵，使用卷积神经网络(CNN)提取交互特征，最后通过全连接层输出相关性得分。

现有技术中，另一方面提出了基于交互的基于注意力的双向编码器(BERT)的检索***，将用户输入的问题和文本文档字符拼接并输入该检索***，使用检索***输出的分类表征向量作为交互向量，再通过全连接层输出相关性得分。

但是上述两种检索***都是基于用户输入的问题和文本文档进行交互，即将用户输入的问题和文本文档同时输入同一个检索***中，然后计算他们的交互特征，最后根据交互特征，计算用户输入的问题和文本文档的相关性得分，并且上述两种检索***仅适合输入文本文档较短的场景，当输入的文本长度变长时，计算用户输入的问题和文本文档相关性得分所需要的时间会急剧增长。

现有技术中，第三方面提出了将长文本进行分段，分别进行计算相关性得分，然后对这些分段文本的相关性得分通过某种方法进行聚合，例如取平均等，得到最终的得分的检索***；虽然这种检索***可以缓解随着输入文档的增长，计算时间急剧增长的问题，但是由于用户输入的问题长度相对于长文本文档非常短，当用户需要检索的关键点在整个长文本文档中并非集中分布时，将会严重影响检索***的检索效果。

发明内容

本申请提供了一种基于深度学习的长文本检索***及方法，以解决现有技术中存在的由于计算时间的限制导致对输入的文本长度有所限制的问题，以及对于长文本文档，由于用户输入的问题中的关键点在长文本文档中分布不集中，影响检索***的检索效果的问题。

本申请一方面，本申请提供一种基于深度学习的长文本检索***，所述长文本检索***包括：

交互特征提取模块，用于对长文本文档进行分段，将得到的文本片段与用户输入的搜索请求数据进行拼接，并输入至基本特征提取器中，提取文本片段交互特征，其中，所述基本特征提取器通过预设的掩膜机制可准确提取所述文本片段交互特征；

交互特征聚合模块，用于对所述文本片段交互特征进行聚合，得到聚合文本片段交互特征；

输出模块，用于将所述聚合文本片段交互特征输入至匹配得分计算器中，计算所述搜索请求数据和所述长文本文档的匹配得分。

在本申请的较佳实施例中，所述交互特征提取模块具体用于实现如下操作：

对长文本文档进行分段，并获取得到的文本片段的字符向量序列；

获取用户输入的搜索请求数据，及搜索请求数据的字符向量序列；

将所述文本片段的字符向量序列与所述搜索请求数据的字符向量序列进行拼接，得到输入字符向量序列；

对所述输入字符向量序列采用预设的掩膜机制进行处理，得到掩膜向量，其中，所述预设的掩膜机制包括普通的掩膜机制和基于匹配字符的掩膜机制，所述掩膜向量包括普通掩膜向量和基于匹配字符的掩膜向量；

将所述输入字符向量序列和所述普通掩膜向量以及所述基于匹配字符的掩膜向量同时输入至所述基本特征提取器中，提取所述文本片段交互特征。

在本申请的较佳实施例中，所述基本特征提取器具体为基于注意力的双向编码器，通过所述基于注意力的双向编码器的自注意力结构和所述基于匹配字符的掩膜机制的结合，查询所述搜索请求数据的字符向量序列与所述文本片段的字符向量序列中完全匹配的字符，准确提取所述文本片段交互特征。

在本申请的较佳实施例中，提取所述文本片段交互特征采用的公式具体如下

v_i＝BERT([Q；P_i],M₁,M₂)，

其中，i的取值范围为1,2,3，...，n，v_i表示文本片段交互特征，Q表示搜索请求数据的字符向量序列，P_i表示文本片段的字符向量序列，M₁表示普通掩膜向量，M₂表示基于匹配字符的掩膜向量。

在本申请的较佳实施例中，所述交互特征聚合模块的具体用于实现如下操作：

将所述文本片段交互特征进行拼接，得到第一文本片段交互特征序列；

将所述第一文本片段交互特征序列输入至循环神经网络进行处理，得到第二文本片段交互特征序列；

对所述第二文本片段交互特征序列进行平均，得到平均文本片段交互特征；

采用所述平均文本片段交互特征对所述第一文本片段交互特征序列进行注意力机制的计算，得到聚合文本片段交互特征。

在本申请的较佳实施例中，采用所述平均文本片段交互特征对所述第一文本片段交互特征序列进行注意力机制的计算，得到聚合文本片段交互特征，具体公式如下：

A＝softmax(V*V_mean ^T)，

V_agg＝sum(V*A)，

其中，A表示注意力向量，V_agg表示聚合文本片段交互特征，V表示第一文本片段交互特征序列，V_mean表示平均文本片段交互特征。

在本申请的较佳实施例中，所述匹配得分计算器具体为全连接神经网络。

另一方面，本申请提供一种基于深度学习的长文本检索方法，具体包括以下步骤：

S101，获取长文本文档和用户的搜索请求数据，对所述长文本文档进行分段，将得到的文本片段与所述搜索请求数据进行拼接，并输入至基本特征提取器中，提取文本片段交互特征；

S102，将所述文本片段交互特征进行聚合，得到聚合文本片段交互特征；

S103，将所述聚合文本片段交互特征输入至全连接神经网络中，计算所述搜索请求数据和所述长文本文档的匹配得分。

在本申请的较佳实施例中，所述基本特征提取器具体为采用基于匹配字符的掩膜机制准确提取所述文本片段交互特征的基于注意力的双向编码器。

在本申请的较佳实施例中，将所述文本片段交互特征进行聚合，得到聚合文本片段交互特征，具体通过采用循环神经网络和注意力机制的结构，聚合所述搜索请求数据和所述文本片段交互特征。

本申请的一种基于深度学习的长文本检索***及方法，相较于现有技术而言，具有以下有益效果：

(1)本申请通过采用基于注意力的双向编码器中融入了基于字符匹配的掩膜机制，改善了基于注意力的双向编码器的性能，从而使得双向编码器能够更准确地捕获长文本文档的文本片段与用户输入的搜索请求数据的文本片段交互特征，即对长文本文档的文本片段与用户输入的搜索请求数据的匹配计算更加准确，并且采用此种模式进行文本交互特征的提取，不论用户输入的搜索请求数据在整个长文本文档中的分布是否集中，均可以有效提取出含有用户输入的搜索请求数据的关键点，从而使得长文本检索***的检索准确性更高。

(2)本申请在分段匹配方法的基础上，采用了将循环神经网络和注意力机制结合的结构，对文本片段交互特征进行融合，在最终计算用户输入的搜索请求数据和长文本文档的匹配得分，而不是分别计算每一划分的文本片段与搜索请求数据的匹配得分，能够有效减少随着文本长度的增加所需要的计算时间，从而提高长文本检索***的检索效率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种基于深度学习的长文本检索***的原理示意框图；

图2为一种基于深度学习的长文本检索方法的流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语“模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

基于注意力的双向编码器：BERT。

卷积神经网络：CNN。

循环神经网络：RNN。

全连接网络：FCN。

掩膜操作：通过输入一个与输入字符向量序列长度相同的二值向量M，该二值向量M的每一位对应了输入字符向量序列的每一位，在特征提取器中，代表是否对该输入字符进行特征提取。

实施例1

参见图1，为本申请一种基于深度学习的长文本检索***的原理示意框图。

如图1所示，本申请提供的一种基于深度学习的长文本检索***，所述长文本检索***包括：

交互特征提取模块，用于对长文本文档P进行分段，将得到的文本片段P_i与用户输入的搜索请求数据Q进行拼接，并输入至基本特征提取器中，提取文本片段交互特征，其中，所述基本特征提取器通过预设的掩膜机制可准确提取所述文本片段交互特征v_i；

交互特征聚合模块，用于对所述文本片段交互特征v_i进行聚合，得到聚合文本片段交互特征V_agg；

输出模块，用于将所述聚合文本片段交互特征V_agg输入至匹配得分计算器中，计算所述搜索请求数据Q和所述长文本文档P的匹配得分s。

如图1所示，在本实施例1中，进一步地，所述交互特征提取模块具体用于实现如下操作：

对长文本文档P进行分段，并获取得到的文本片段P_i的字符向量序列[d₁,d₂,d₃,d₄,d₅,d₆]；

获取用户输入的搜索请求数据Q，及搜索请求数据的字符向量序列[q₁,q₂,q₃,q₄,q₅]；

将所述文本片段P_i的字符向量序列[d₁,d₂,d₃,d₄,d₅,d₆]与所述搜索请求数据Q的字符向量序列[q₁,q₂,q₃,q₄,q₅]进行拼接，得到输入字符向量序列[Q；P_i]，即[q₁,q₂,q₃,q₄,q₅,d₁,d₂,d₃,d₄,d₅,d₆]；

对所述输入字符向量序列采用预设的掩膜机制进行处理，得到掩膜向量，其中，所述预设的掩膜机制包括普通的掩膜机制和基于匹配字符的掩膜机制，所述掩膜向量包括普通掩膜向量M₁和基于匹配字符的掩膜向量M₂；

将所述输入字符向量序列[Q；P_i]和所述普通掩膜向量M₁以及所述基于匹配字符的掩膜向量M₂同时输入至所述基本特征提取器中，提取所述文本片段交互特征vi。

需要特别说明的是，在本实施例1中，如图1所示，普通的掩膜向量M₁对于输入字符向量序列的所有的非填充(pad)字符对应的掩膜向量位置均为1，即M₁为[1,1,1,1,1,1,1,1,1,1,1]；基于匹配字符的掩膜向量M₂则通过寻找搜索请求数据Q的字符向量序列与文本片段P_i的字符向量序列中完全匹配的字符，将其对应的掩膜向量位置设为1，其余输入字符对应的掩膜向量位置设为0，即得到M₂为[0,1,0,1,0,0,1,0,1,0,0]。

在本实施例1中，进一步地，所述基本特征提取器具体为基于注意力的双向编码器，通过所述基于注意力的双向编码器的自注意力结构和所述基于匹配字符的掩膜机制的结合，查询所述搜索请求数据的字符向量序列[q₁,q₂,q₃,q₄,q₅]与所述文本片段的字符向量序列[d₁,d₂,d₃,d₄,d₅,d₆]中完全匹配的字符，准确提取所述文本片段交互特征v_i。

在本实施例1中，进一步地，提取所述文本片段交互特征采用的公式具体如下

v_i＝BERT([Q；P_i],M₁,M₂)，

在本实施例1中，进一步地，所述交互特征聚合模块的具体用于实现如下操作：

将所述文本片段交互特征v_i进行拼接，得到第一文本片段交互特征序列V，即[v₁,v₂,v₃,v₄,v₅,v₆]；

将所述第一文本片段交互特征序列V输入至循环神经网络进行处理，得到第二文本片段交互特征序列V₂；

对所述第二文本片段交互特征序列V₂进行平均，得到平均文本片段交互特征V_mean；

采用所述平均文本片段交互特征V_mean对所述第一文本片段交互特征序列V进行注意力机制的计算，得到聚合文本片段交互特征V_agg。

在本实施例1中，进一步地，采用所述平均文本片段交互特征V_mean对所述第一文本片段交互特征序列V进行注意力机制的计算，得到聚合文本片段交互特征V_agg，具体公式如下：

A＝soft max(V*V_mean ^T)，

V_agg＝sum(V*A)，

其中，A表示注意力向量，A＝[a₁,a₂,a₃,a₄,a₅,a_6]，V_agg表示聚合文本片段交互特征，V表示第一文本片段交互特征序列，V_mean表示平均文本片段交互特征。

在本实施例1中，进一步地，所述匹配得分计算器具体为全连接神经网络(FullyConnected Network)。

实施例2

如图2所示，本申请提供一种基于深度学习的长文本检索方法，具体包括以下步骤：

S101，获取长文本文档P和用户的搜索请求数据Q，对所述长文本文档进行分段，将得到的文本片段P_i与所述搜索请求数据Q进行拼接，并输入至基本特征提取器中，提取文本片段交互特征v_i；

S102，将所述文本片段交互特征v_i进行聚合，得到聚合文本片段交互特征V_agg；

S103，将所述聚合文本片段交互特征V_agg输入至全连接神经网络中，计算所述搜索请求数据Q和所述长文本文档P的匹配得分s。

在本实施例2中，进一步地，所述步骤S101中的所述基本特征提取器具体为采用基于匹配字符的掩膜机制准确提取所述文本片段交互特征v_i的基于注意力的双向编码器。

在本实施例2中，进一步地，所述步骤S102中具体通过采用循环神经网络和注意力机制的结构，聚合所述搜索请求数据Q和所述文本片段交互特征vi。

需要说明的是，采用本实施例2中的方法进行检索，得到的匹配得分在平均精度均值(MAP)和平均互惠等级(MRR)均高于现有的长文本检索方法，并且能够有效识别定位出用户输入的搜索请求数据中的关键术语，并得到匹配得分较高的相关案例检索结果。

需要特别说明的是，在本申请的实施例中的序列的长短以及向量的的个数均只是为了说明本申请的技术方案，实际中，i的取值为大于0的整数即可。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种基于深度学习的长文本检索***，其特征在于，所述长文本检索***包括：

交互特征提取模块，用于对长文本文档进行分段，将得到的文本片段与用户输入的搜索请求数据进行拼接，并输入至基本特征提取器中，提取文本片段交互特征，其中，所述基本特征提取器通过预设的掩膜机制提取所述文本片段交互特征；

输出模块，用于将所述聚合文本片段交互特征输入至匹配得分计算器中，计算所述搜索请求数据和所述长文本文档的匹配得分；

其中，所述交互特征聚合模块执行以下操作：

2.根据权利要求1所述的一种基于深度学习的长文本检索***，其特征在于，所述交互特征提取模块具体用于实现如下操作：

3.根据权利要求2所述的一种基于深度学习的长文本检索***，其特征在于，所述基本特征提取器具体为基于注意力的双向编码器，通过所述基于注意力的双向编码器的自注意力结构和所述基于匹配字符的掩膜机制的结合，查询所述搜索请求数据的字符向量序列与所述文本片段的字符向量序列中完全匹配的字符，提取所述文本片段交互特征。

4.根据权利要求2所述的一种基于深度学习的长文本检索***，其特征在于，提取所述文本片段交互特征采用的公式具体如下

v_i＝BERT([Q；P_i],M₁,M₂)，

5.根据权利要求1所述的一种基于深度学***均文本片段交互特征对所述第一文本片段交互特征序列进行注意力机制的计算，得到聚合文本片段交互特征，具体公式如下：

A＝soft max(V*V_mean ^T)，

V_agg＝sum(V*A)，

6.根据权利要求1所述的一种基于深度学习的长文本检索***，其特征在于，所述匹配得分计算器具体为全连接神经网络。

7.一种基于深度学习的长文本检索方法，其特征在于，应用于如权利要求1-6任意一项所述的一种基于深度学习的长文本检索***，具体包括以下步骤：

S103，将所述聚合文本片段交互特征输入至全连接神经网络中，计算所述搜索请求数据和所述长文本文档的匹配得分；

其中，步骤S102执行以下子步骤：

8.根据权利要求7所述的一种基于深度学习的长文本检索方法，其特征在于，所述基本特征提取器具体为采用基于匹配字符的掩膜机制提取所述文本片段交互特征的基于注意力的双向编码器。

9.根据权利要求7所述的一种基于深度学习的长文本检索方法，其特征在于，将所述文本片段交互特征进行聚合，得到聚合文本片段交互特征，具体通过采用循环神经网络和注意力机制的结构，聚合所述搜索请求数据和所述文本片段交互特征。