CN112598065B

CN112598065B - 一种基于记忆的门控卷积神经网络语义处理***及方法

Info

Publication number: CN112598065B
Application number: CN202011562801.9A
Authority: CN
Inventors: 李晓捷; 金日泽; 张卫民
Original assignee: Tianjin Polytechnic University
Current assignee: Tianjin Polytechnic University
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2023-05-30
Anticipated expiration: 2040-12-25
Also published as: CN112598065A

Abstract

本发明涉及深度学习及语义处理技术领域，公开了一种基于记忆的门控卷积神经网络语义处理***及方法，包括输入单元、分层处理单元以及与分层处理单元连接的记忆单元，所述分层处理单元包括卷积处理层、门控卷积处理层以及残差网络处理层；该***从第三层采用带门控机制的卷积网络，缓解深层网络中梯度消失或爆照的问题，并在每5个门控卷积处理层后加入一个残差网络处理层，通过增加门控卷积处理层与残差网络处理层组来获得深度的网络模型以处理长距离文本数据，在门控卷积处理层输出后将处理数据更新到记忆单元，并结合注意力机制以达到长期记忆和逻辑推理效果，整体结构较简单且训练速度快，在长距离依赖的分类任务上有较高的准确率。

Description

一种基于记忆的门控卷积神经网络语义处理***及方法

技术领域

本发明涉及深度学习及语义处理技术领域，具体涉及一种基于记忆的门控卷积神经网络语义处理***及方法。

背景技术

近年来，在深度学***台向云平台发展，其中语义的识别处理极为重要，只有在语义分类处理正确的前提下才能进行后面的信息交互等，目前长距离依赖复杂文本分类或智能自动问答方法中，传统的卷积层的模型处理类似N-grAms只能保持或识别较短距离的语义关系，不能很好地学习深层关联，且最大池化处理会使卷积模型训练速度慢且语义的语序信息丢失。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种基于记忆的门控卷积神经网络语义处理***及方法。

为了实现上述目的，本发明提供如下技术方案：

一种基于记忆的门控卷积神经网络语义处理***，包括输入单元、与输入单元连接的分层处理单元以及与分层处理单元连接的记忆单元，所述分层处理单元包括卷积处理层、门控卷积处理层以及残差网络处理层，所述卷积处理层与所述门控卷积处理层连接，若干个所述门控卷积处理层之间连接有一个所述残差网络处理层。

在本发明中，优选的，所述分层处理单元还包括有分类层，所述分类层与所述门控卷积处理层连接，所述分类层输出语义分类结果。

在本发明中，优选的，所述门控卷积处理层包括第二卷积计算模块和门控卷积计算模块，所述门控卷积处理层的输出由所述第二卷积计算模块和门控卷积计算模块共同计算得出。

在本发明中，优选的，每两个所述门控卷积处理层之间还连接有参数调整层。

一种基于记忆的门控卷积神经网络语义处理方法，包括如下步骤：

S1：输入单元采用词嵌入矩阵将文本数据转换为特征向量；

S2：卷积处理层依据特征向量提取卷积特征图；

S3：经过若干门控卷积处理层多次处理得到多层级语义表征数据，并将多层级语义表征数据传递到记忆单元进行存储；

S4：提取语义特征值；

S5：分类层依据语义特征值得到文本的分类结果。

在本发明中，优选的，在步骤S1中，输入单元采用词嵌入矩阵将文本数据转换为特征向量。

在本发明中，优选的，在步骤S3中，在门控卷积处理层中还包括如下步骤：

S301：对输入X∈R^Nm使用第二卷积计算模块进行卷积计算得到矩阵A，其中A＝(X·W+b)；

S302：同时对输入X∈R^Nm使用门控卷积计算模块计算得到矩阵B，其中B＝(X·V+c)，再将B通过sigmoid非线性转换后得到门控参数σ；

S303：将矩阵A和B依据公式

计算得到该门控卷积处理层的输出；

S304：并依据公式

更新后向传播网络梯度参数。

在本发明中，优选的，在步骤S3中，依据残差网络处理层的深度m，在输入X经过m次门控卷积处理层处理后的输出Y加残差数值W_s·X，其中的W_s为转换参数矩阵。

在本发明中，优选的，在步骤S4中，依据注意力机制从记忆单元更新后的数据提取语义特征值。

在本发明中，优选的，在步骤S5中，分类层依据分类预测公式得出分类结果，分类预测公式为：

式中，K是类别数目，X是当前层的输入，k′是其中一个具体类别数,w_k是此层的可训练参数，b_k为偏移量。

与现有技术相比，本发明的有益效果是：

本发明的***通过构建基于注意力机制的门控卷积网络，第一层输入单元转换文本为特征向量，第二层为正常的卷积处理层来获取卷积特征图，从第三层采用带门控机制的卷积网络，从而缓解深层网络中梯度消失或爆照的问题，并在每5个门控卷积处理层后加入一个残差网络处理层，通过增加门控卷积处理层与残差网络处理层组来获得深度的网络模型以处理长距离文本数据，并加入记忆单元，在门控卷积处理层输出后将处理数据更新到记忆单元，并结合注意力机制以达到长期记忆和逻辑推理效果，最终通过分类器输出分类结果，整体结构较简单且训练速度快，在长距离依赖的分类任务上有较高的准确率。

附图说明

图1为本发明所述的一种基于记忆的门控卷积神经网络语义处理***的结构框图。

图2为本发明所述的一种基于记忆的门控卷积神经网络语义处理***的门控卷积处理层的操作示意图。

图3为发明所述的一种基于记忆的门控卷积神经网络语义处理方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，当组件被称为“固定于”另一个组件，它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“连接”另一个组件，它可以是直接连接到另一个组件或者可能同时存在居中组件。当一个组件被认为是“设置于”另一个组件，它可以是直接设置在另一个组件上或者可能同时存在居中组件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

请同时参见图1至图2，本发明一较佳实施方式提供一种基于记忆的门控卷积神经网络语义处理***，主要用来对偏长的语句进行语义分析和处理，准确获取对某个分类更重要的上下文信息或对逻辑推理必须的支持信息，通过将卷积特征提取机制、记忆机制和注意机制三者结合，在卷积神经网络中添加门控机制组成门控卷积神经网络，卷积操作后无需做池化处理，从而解决了梯度弥散以及训练速度慢的问题；且每五个门控卷积神经网络层后还加入一个残差网络处理层，从而可通过增加或减少残差层组来获得不同深度的网络模型；同时门控卷积神经网络层输出数据更新到记忆单元中，从而达到长期记忆的效果；该***包括输入单元、与输入单元连接的分层处理单元以及与分层处理单元连接的记忆单元，分层处理单元包括卷积处理层、门控卷积处理层以及残差网络处理层，卷积处理层与门控卷积处理层连接，若干个门控卷积处理层之间连接有一个残差网络处理层。

在本实施方式中，分层处理单元还包括有分类层，分类层与门控卷积处理层连接，分类层输出语义分类结果。

具体的，语义信息首先由输入单元转换为特征向量后传递给分层处理单元，分层处理单元为基于注意机制的卷积神经网络，包括有一个卷积处理层，若干个门控卷积处理层和若干个残差网络处理层，其中卷积处理层作为分层处理单元的首层，进行正常的卷积处理，接着为顺次连接的若干个门控卷积处理层，门控卷积处理层内进行正常的卷积处理以及带门控制的卷积处理，同时还提供一梯度值，从而缓解深层网络中的梯度消失或爆照的问题；且门控卷积处理层无需做池化处理，解决了卷积神经网络训练速度慢的问题，并可很好地保持语序信息；在经过k次的门控卷积处理层后连接深度为k的残差网络处理层，且每一卷积处理层输出的数据更新到记忆单元中，记忆单元在不断被添加或更新的数据在特定任务中起到不同的作用，例如在文本分类任务中，它们相当于整体特征，在自动问答任务中，相当于推论依据，结合注意机制从而实现长期记忆和逻辑推理。

在本实施方式中，门控卷积处理层包括第二卷积计算模块和门控卷积计算模块，门控卷积处理层的输出由第二卷积计算模块和门控卷积计算模块共同计算得出，其中第二卷积计算模块内设置有卷积核为W的第一卷积计算公式：

A＝(X·W+b)

门控卷积计算模块内设置有卷积核为V的第二卷积计算公式：

B＝(X·V+c)

其中，X∈R^Nm为门控卷积处理层的输入，b,c∈R为对应的偏置值，A为第二卷积计算模块的输出，σ(B)为门控卷积计算模块的输出，其中的σ为门控参数，范围在0到1之间，由矩阵B经过sigmoid非线性转换后得到，而门控卷积处理层的输出Y为：

相应的，在后向传播更新网络参数时，梯度由以下公式计算得出：

在本实施方式中，每两个门控卷积处理层之间还连接有参数调整层，参数调整层主要采用BN正则化调整，即在两个连续的门控卷积处理层之间进行BN正则化调整，从而改善网络的泛化能力。

请参见图3，本发明另一较佳实施方式提供一种基于记忆的门控卷积神经网络语义处理方法，包括如下步骤：

S1：输入单元将文本数据转换为特征向量；

S2：卷积处理层依据特征向量提取卷积特征图；

S4：提取语义特征值；

S5：分类层依据语义特征值得到文本的分类结果。

具体的，在步骤S1中，输入单元采用现有的词嵌入矩阵将文本数据转换为特征向量数据并传递到分层处理单元中；在步骤S2中，分层处理单元的首层即卷积处理层对特征向量进行正常的卷积运算，设定x_i∈R^d是一段语句中第i个词向量表示(向量长度为d)，那么一个长度为n的句子可以表示为一个矩阵：x_1:n∈R^nd，参数大小为w∈R^hd的卷积核一次操作于h个单词，在时刻t获取的线性组合特征值c_t可以定义为：

c_e＝x_t:t+h-1·w+b

b∈R为偏置量，t的定义域为t∈[1,n-h+1]，卷积处理层连续作用于所有输入并合并结果得到一个特征图，输出到门控卷积处理层中。

进一步的，在步骤S3中，在门控卷积处理层中还包括如下步骤：

S303：将矩阵A和B依据公式

计算得到该门控卷积处理层的输出；

S304：同时依据公式

更新后向传播网络梯度参数，从而缓解了梯度弥散现象。

在本实施方式中，在步骤S3中，依据残差网络处理层的深度m，在输入X经过m次门控卷积处理层处理后的输出Y加残差数值W_s·X，其中的W_s为转换参数矩阵。

具体的，在本***中采用深度k为5的残差网络处理层，即每五个门控卷积处理层后加入一个残差网路处理层，通过增加或减少门控卷积处理层与残差网络处理层组来获得不同深度的网络模型。

进一步的，记忆单元采用记忆网络Memory component，记忆单元还存储有上下文的语义信息，并根据语义信息构建有记忆体信息，在步骤3中的门控卷积处理层的输出传递到记忆单元，更新记忆单元的数据。

在步骤S4中，依据注意力机制从记忆单元更新后的数据提取语义特征值。

具体的，分层处理单元结合了注意力机制，注意力机制根据记忆单元更新的数据进行语义特征值提取，并将提取结果传递到分类层中。

在本实施方式中，在步骤S5中，分类层将语义特征值依据分类预测公式计算分类结果，分类预测公式为：

式中，K是类别数目，x是当前层的输入，k′是其中一个具体类别数目，w_k是此层的可训练参数，b_k为偏移量。

工作原理：

语义文本信息首先由输入单元采用现有的词嵌入矩阵转换为特征向量后传递给分层处理单元，分层处理单元的首层即卷积处理层对特征向量进行正常的卷积运算，通过多次的卷积运算得到特征图，然后输入门控卷积处理层中进行门控卷积处理，通过第二卷积计算模块和门控卷积计算模块计算，输出

每两个门控卷积处理层之间进行参数BN正则化调整，且每五个门控卷积处理层后加入一个残差网络处理层处理，通过多个门控卷积处理层数据处理，更新记忆单元中数据，并采用注意力机制将记忆单元中的数据进行特征值提取，提取关键数据最后由分类器进行分类，从而完成长距离依赖的分类任务，准确率较高，且收敛速度好。

上述说明是针对本发明较佳可行实施例的详细说明，但实施例并非用以限定本发明的专利申请范围，凡本发明所提示的技术精神下所完成的同等变化或修饰变更，均应属于本发明所涵盖专利范围。

Claims

1.一种基于记忆的门控卷积神经网络语义处理方法，可应用于一种基于记忆的门控卷积神经网络语义处理***，该***包括输入单元、与输入单元连接的分层处理单元以及与分层处理单元连接的记忆单元，所述分层处理单元包括卷积处理层、门控卷积处理层以及残差网络处理层，所述卷积处理层与所述门控卷积处理层连接，若干个所述门控卷积处理层之间连接有一所述残差网络处理层；上述方法的特征在于，包括如下步骤：

S1：输入单元采用词嵌入矩阵将文本数据转换为特征向量；

S2：卷积处理层依据特征向量提取卷积特征图；

具体地，卷积处理层对特征向量进行正常的卷积运算，设定x_i∈R^d是一段语句中第i个词向量表示，其中，向量长度为d，一个长度为n的句子可以表示为一个矩阵：x_1:n∈R^nd，参数大小为w∈R^hd的卷积核一次操作于h个单词，在时刻t获取的线性组合特征值c_t可以定义为：

c_t＝x_t:t+h-1·w+b

b∈R为偏置量，t的定义域为t∈[1,n-h+1]，卷积处理层连续作用于所有输入并合并结果得到一个特征图，输出到门控卷积处理层中，进行门控卷积处理；

S3：经过若干门控卷积处理层多次处理得到多层级语义表征数据，并将多层级语义表征数据传递到记忆单元进行存储，并更新记忆单元中的数据；

S4：依据注意力机制从记忆单元更新后的数据中提取语义特征值；

S5：分类层依据语义特征值得到文本的分类结果。

2.根据权利要求1所述的一种基于记忆的门控卷积神经网络语义处理方法，其特征在于，在步骤S3中，在门控卷积处理层中还包括如下步骤：

S303：将矩阵A和B依据公式

计算得到该门控卷积处理层的输出；

S304：并依据公式

更新后向传播网络梯度参数。

3.根据权利要求2所述的一种基于记忆的门控卷积神经网络语义处理方法，其特征在于，在步骤S3中，依据残差网络处理层的深度m，在输入X经过m次门控卷积处理层处理后的输出Y加残差数值W_s·X，其中的W_s为转换参数矩阵。

4.根据权利要求1所述的一种基于记忆的门控卷积神经网络语义处理方法，其特征在于，在步骤S5中，分类层依据分类预测公式得出分类结果，分类预测公式为：