CN111814468B

CN111814468B - 一种自适应架构语义分布文本理解方法及***

Info

Publication number: CN111814468B
Application number: CN202010661152.1A
Authority: CN
Inventors: 庞文君; 杨猛; 黄志青
Original assignee: Qianhai Qibao Technology Shenzhen Co ltd
Current assignee: Qianhai Qibao Technology Shenzhen Co ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2021-02-26
Anticipated expiration: 2040-07-09
Also published as: CN111814468A

Abstract

本发明涉及一种自适应架构语义分布文本理解方法及***，该自适应架构语义分布文本理解***包括的主要模块有文本基础编码器、语义关联关键分布表示模块、架构自适应分类网络模块。本发明利用语义关联关键分布表示模块中的上下文多头注意力语义分布表示，可以更好的利用上下文信息，消除上下文表述的歧义问题；同时通过关键信息多头注意力语义分布表示，可以提取关键词、短语等关键信息，解决细分领域关键信息对分类任务敏感的问题。而架构自适应分类网络模块，可根据分类类别的相近程度自适应的选择分类网络层，从而使相近的分类共用权重参数，分类类别相差较大的分类不共用权重，从而能更好的解决分类类别无法完全独立的问题。

Description

一种自适应架构语义分布文本理解方法及***

技术领域

本发明涉及自然语言文本分类处理领域，尤其涉及一种自适应架构语义分布文本理解方法及***。

背景技术

在信息***的互联网时代，任何网站都需要处理大量的文本数据，对信息的归类和结构化处理是必不可少的，而人工手动处理已完全无法满足互联网时代的效率要求，作为自然语言处理的最基础任务——文本分类，显得重要且不可缺少。文本的自动分类能对大量的信息进行归纳与浓缩，进一步结构化文本信息，节省了人力和时间成本，提高对目标信息的关注度，从而提高信息的处理速度和决策效率。

文本分类普遍的应用包括新闻的分类、评论的情感分类、对话的意图识别等方面。文本分类方法主要分为两大类，一是基于传统机器学习的方法，二是基于深度学习的方法。使用深度学习的方式进行文本分类是目前的优先选择，特别是在预训练语言模型盛行的时代。对于很多应用场景，不存在大量的标注语料，预训练模型，如BERT，Robert等，都能表现出不错的效果。然而，在细分领域，专有名称和短语等关键信息对分类任务的影响是非常大的，细分领域的标注语料却非常少，很难获取大批量数据来训练；而预训练模型虽然能通过通用领域大数据量的预训练来弥补这方面的不足，但通用领域的语料往往针对性不足，而这些关键信息对分类任务又是极度敏感的。所以预训练模型在这种情况下一般表现不好。另外，对于文本分类任务，很多时候是无法保证分类的类别之间是完全独立的情况，特别是根据业务场景定义的分类任务，往往都是有业务倾向的对问题文本的归类，选择性的忽略分类任务类别定义在算法上的独立性和等粒度性。比如意图识别问题，A意图和B意图比较相近，A意图和C意图却相差较大，但业务场景却希望同等重视这三个意图。在这种情况下，预训练等分类模型往往表现不佳。

发明内容

本发明正是针对上述问题，提出一种自适应架构语义分布文本理解方法及***。

为实现上述目的，本发明的具体技术方案如下：

一种自适应架构语义分布文本理解方法，包括步骤：

通过文本基础编码器模块对输入文本进行编码，获得文本特征表示；

通过语义关联关键分布表示模块将所述文本特征表示进行多头注意力机制处理，形成所述文本特征表示的自注意力表示；

通过架构自适应分类网络模块对所述文本特征表示的自注意力表示进行自动选择分类网络，实现最后的分类。

本发明还提供一种自适应架构语义分布文本理解***，包括：文本基础编码器模块、语义关联关键分布表示模块、架构自适应分类网络模块；

所述文本基础编码器模块对输入文本进行编码，获得文本特征表示；

所述语义关联关键分布表示模块将所述文本特征表示进行多头注意力机制处理，形成所述文本特征表示的自注意力表示；

所述架构自适应分类网络模块对所述文本特征表示的自注意力表示进行自动选择分类网络，实现最后的分类。

上述自适应架构语义分布文本理解方法及***的技术方案中：

优选地，所述文本基础编码器模块采用BERT预训练语言模型进行编码。

优选地，所述语义关联关键分布表示模块包括上下文多头注意力语义分布表示和关键信息多头注意力语义分布表示。

优选地，所述上下文多头注意力语义分布表示具体算法如下：

其中，W₁，W₂，W₃为线性矩阵，将h^-2,h^-1放缩到d_k维，有：

d_h是h^-2，h^-1的维度，k表示多头数量；

h^-2，h^-1表示提取BERT的最后2个隐藏层作为后续层级，设x＝[x₁，x₂，…，x_l],l为文本长度，则：

h^-2，h^-1＝BERT(x)。

优选地，所述关键信息多头注意力语义分布表示具体算法如下：

获取上下文注意力语义分布表示之后，进一步将该输入文本的上下文注意力语义分布表示进行自注意力加权计算得分，计算每个词相对于分类任务的权重α：

W₄ ^T，b分别为自注意力加权网络的权重和偏置，取Top n个关键词的权重a_t＝[a₀，a₁，…，a_n]和对应的网络表示

进行加权操作：

则

即是关键信息自注意力表示。

多头注意力就是将以上的头结构复制k份，每个头结构一致，可学习的权重参数不同，最后，拼接k个头，形成多头注意力结果表示h_att；

优选地，所述架构自适应分类网络模块根据分类类别的相近程度自适应的选择分类网络层，从而使相近的分类共用权重参数，分类类别相差较大的分类不共用权重，从而能更好的解决分类类别无法完全独立的问题。

优选地，所述架构自适应分类网络模块是树结构，每个节点都有一个***路径网络和一个共用编码器及全连接网络，其中叶子节点只有共用编码器及全连接网络。

优选地，所述***路径网络的***路径选择操作是一种MLP结构的自注意力机制，***路径选择网络会给出相近的权重，保留概率最大的那条路径，类别相近的分类共享同一路径的网络权重，进入同一分类器；对于分类类别相差较大的数据，网络提取的特征差别也较大，***路径选择网络倾向于给出不同的权重，选择不同的***路径。

相比现有技术的文本理解，本发明解决的问题主要有以下两点：

(1)在细分领域，专有名称和短语等关键信息对分类任务是极度敏感的，细分领域的标注语料却非常少，很难获取大批量数据来训练，预训练模型所采用的语料不具有针对性，因此模型表示学习能力差。

(2)一般的分类任务类别之间相对独立，预训练模型往往表现不错，但是由于真实业务场景的限制，往往无法保证分类的类别之间是完全独立的情况，类别之间，在定义范围上粒度差别大，相似性也相差很大。在这种情况下，模型很容易错分，在数据量较小的情况下，容易导致模型效果差。

为了解决以上问题，本发明使用上下文多头注意力语义分布表示，可以更好的利用上下文信息，消除上下文表述的歧义问题；结合关键信息多头自注意力语义分布表示，可以提取关键词、短语的信息，解决细分领域关键信息敏感问题。利用架构自适应分类网络模块，可根据分类类别的相近程度自适应的选择分类网络层，使相近的分类共用权重参数，分类类别相差较大的分类不共用权重。因此能更好的解决分类任务中类别无法完全的独立问题。

附图说明

图1是本发明中自适应架构语义分布文本理解方法的流程图；

图2是本发明中语义关联关键分布表示模块结构图；

图3是本发明中架构自适应分类网络模块结构图；

图4是本发明中自适应架构语义分布文本理解***的原理图。

具体实施方式

为了便于本领域的普通技术人员能够理解并实施本发明，下面将结合附图对本发明实施例作进一步说明。

参考图1至图3，本发明提供一种自适应架构语义分布文本理解方法，包括步骤：

S1、通过文本基础编码器模块对输入文本进行编码，获得文本特征表示；

S2、通过语义关联关键分布表示模块将所述文本特征表示进行多头注意力机制处理，形成所述文本特征表示的自注意力表示；

S3、通过架构自适应分类网络模块对所述文本特征表示的自注意力表示进行自动选择分类网络，实现最后的分类。

其中，所述文本基础编码器模块主要是对原始文本的输入进行编码，采用了BERT预训练语言模型进行编码，能根据下游任务进行微调。这里提取BERT的最后2个隐藏层作为后续层级表示。设x＝[x₁，x₂，…，x_l],l为文本长度。

h^-2，h^-1＝BERT(x) (式一)

参考图2，作为本发明一优选技术方案，所述语义关联关键分布表示模块包括两部分：上下文多头注意力语义分布表示和关键信息多头注意力语义分布表示。

对于多头注意力部分，先看一个头的情况。每个头都是上下文注意力和关键信息注意力串联的形式组合。

(1)上下文注意力部分：上一步骤文本基础编码器模块输出的表示，通过上下文注意力模块，计算如下：

d_h是h^-2，h^-1的维度，k表示多头数量。

(2)关键信息注意力部分：以上方式获取上下文注意力语义分布表示之后，进一步将该输出层进行自注意力加权计算得分，计算每个词相对于分类任务的权重α。

W₄ ^T，b分别为自注意力加权网络的权重和偏置，a值越大对应的词对于分类任务的重要性更高。为了获取关键信息，我们选取Top n个关键词的权重a_t＝[a₀，a₁，…，a_n]和对应的网络表示

进行加权操作：

则

即是关键信息自注意力表示。

多头注意力就是将以上的头结构复制k份，每个头结构一致，可学习的权重参数不同。最后，拼接k个头，形成多头注意力结果表示h_att。

参考图3，作为本发明一优选技术方案，所述架构自适应分类网络模块是树结构，每个节点都有一个***路径网络和一个共用编码器及全连接网络，其中叶子节点只有共用编码器及全连接网络。

该架构自适应分类网络模块的结构图如图3。全局共用编码器及全连接模块，和局部共用编码器及全连接模块网络结构是一致的，共用编码器使用GRU和全连接层表示如下

hⁿ＝GRU(h^n-1) (式七)

其中，全局共用编码器及全连接模块的输入为上一个步骤关键信息多头注意力模块的输出h_att。

***路径选择操作是一种MLP结构的自注意力机制，***路径可以有M种，即***为下一级网络的有M种，并且可以有N级***。每一个***都只允许选择一种分类路径，即取s最大的值作为路径选择。每个网络可以有下一级，也可以直接终止***,因此s有M+1个值，为了方便损失函数的表示，s最后一个值代表终止***，不编号。

用n表示第n级，用i表示该级的第i个***路径网络，我们可以得到***路径选择的权重

最后，整个网络的总损失为所有路径的总和，局部共用编码器及全连接模块网络使用交叉熵损失，用符号表示为的部分

其中，n表示第n级，m表示上一级***的第m条路径，i表示上一级***的编号，y_j表示第j个类别标签。则文本分类的总损失可以表示为：

式十一的总损失表示所有树节点网络的损失

与***路径选择的权重

的乘积。因为***路径选择的权重只会保留概率最大的那条路径，其他路径选择的概率都置0，表示不选择。因此每一次预测都只选择其中一条路径，训练时的损失也就只保留这条路径的最后一个网络损失。

训练过程中，目标是最小化总损失。对于分类类别比较相近的数据，特征也比较相近。通过训练，***路径选择网络会给出相近的权重，保留概率最大的那条路径。因此，类别相近的分类共享同一路径的网络权重，进入同一分类器。这种局部共享网络权重和共用同一分类器，因为没有其他特征数据的干扰，网络可以更专注于提取更细粒度的特征来区别相近的分类类别，从而提高分类效果。

同理，对于分类类别相差较大的数据，网络提取的特征差别也较大，***路径选择网络倾向于给出不同的权重，选择不同的***路径。因此，类别相差较大的分类不能共用权重和不共用同一分类器，更容易区分类别相差较大的分类数据。

架构自适应分类网络模块，类似于多级的分类任务，多级分类任务需要分级别单独训练多个模型，并且有误差传递的缺点。但是架构自适应分类网络，则是根据数据分类类别的相近程度，自动适应分类网络，避免误差传递的情况。因此，分类效果更好。

参考图2至图4，本发明还提供一种自适应架构语义分布文本理解***，包括：文本基础编码器模块、语义关联关键分布表示模块、架构自适应分类网络模块；

基于以上描述，本发明具有如下创新点：

(1)、采用了上下文注意力和关键信息自注意力串联后再合并的多头注意力结构，能更好的利用上下文信息以及关键词、关键短语等信息，解决上下文歧义以及细分领域关键信息敏感问题；

(2)、构建了自适应的网络结构，能够根据数据和分类任务的具体情况，自适应选择网络结构，从而解决分类类别无法完全独立的问题。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种自适应架构语义分布文本理解方法，其特征在于，包括步骤：

通过架构自适应分类网络模块对所述文本特征表示的自注意力表示进行自动选择分类网络，实现最后的分类；

所述语义关联关键分布表示模块包括上下文多头注意力语义分布表示和关键信息多头注意力语义分布表示；

所述上下文多头注意力语义分布表示具体算法如下：

其中，W₁，W₂，W₃为线性矩阵，将h^-2，h^-1放缩到d_k维，有：

d_h是h^-2，h^-1的维度，k表示多头数量；

h^-2，h^-1表示提取BERT的最后2个隐藏层作为后续层级，设x＝[x₁，x₂，…，x_l]，l为文本长度，则：

h^-2，h^-1＝BERT(x)。

2.根据权利要求1所述的自适应架构语义分布文本理解方法，其特征在于，所述文本基础编码器模块采用BERT预训练语言模型进行编码。

3.根据权利要求1所述的自适应架构语义分布文本理解方法，其特征在于，所述关键信息多头注意力语义分布表示具体算法如下：

获取上下文注意力语义分布表示之后，进一步将输入文本的上下文注意力语义分布表示进行自注意力加权计算得分，计算每个词相对于分类任务的权重α：

W₄ ^T，b分别为自注意力加权网络的权重和偏置，取Top n个关键词的权重α_t＝[α₀，α₁，…，α_n]和对应的网络表示

进行加权操作：

则

即是关键信息自注意力表示，

4.根据权利要求1或2所述的自适应架构语义分布文本理解方法，其特征在于，所述架构自适应分类网络模块根据分类类别的相近程度自适应的选择分类网络层，从而使相近的分类共用权重参数，分类类别相差较大的分类不共用权重，从而能更好的解决分类类别无法完全独立的问题。

5.根据权利要求4所述的自适应架构语义分布文本理解方法，其特征在于，所述架构自适应分类网络模块是树结构，每个节点都有一个***路径网络和一个共用编码器及全连接网络，其中叶子节点只有共用编码器及全连接网络。

6.根据权利要求5所述的自适应架构语义分布文本理解方法，其特征在于，所述***路径网络的***路径选择操作是一种MLP结构的自注意力机制，***路径选择网络会给出相近的权重，保留概率最大的那条路径，类别相近的分类共享同一路径的网络权重，进入同一分类器；对于分类类别相差较大的数据，网络提取的特征差别也较大，***路径选择网络倾向于给出不同的权重，选择不同的***路径。

7.一种自适应架构语义分布文本理解***，其特征在于，包括：文本基础编码器模块、语义关联关键分布表示模块、架构自适应分类网络模块；

所述架构自适应分类网络模块对所述文本特征表示的自注意力表示进行自动选择分类网络，实现最后的分类；

所述上下文多头注意力语义分布表示具体算法如下：

d_h是h^-2，h^-1的维度，k表示多头数量；

h^-2，h^-1＝BERT(x)。