WO2022057406A1

WO2022057406A1 - 一种基于神经网络的自然语言处理方法和电子设备

Info

Publication number: WO2022057406A1
Application number: PCT/CN2021/105268
Authority: WO
Inventors: 黄海荣; 李林峰; 王靖宇
Original assignee: 湖北亿咖通科技有限公司
Priority date: 2020-09-17
Filing date: 2021-07-08
Publication date: 2022-03-24
Also published as: CN112069837A

Abstract

一种基于神经网络的自然语言处理方法和电子设备。该自然语言处理方法主要通过引入反映输入语句的实际长度的输入语句的长度信息，在卷积计算中根据输入语句的长度信息执行相应次的字向量矩阵与卷积核之间的乘法运算，将现有技术的基于固定的预设句子长度的固定长度卷积转变为基于输入语句的实际长度的变长卷积，大大地减少了计算量，从而显著提升了计算速度，减少了计算资源和时间的浪费。

Description

一种基于神经网络的自然语言处理方法和电子设备

本申请要求于2020年9月17日提交中国专利局、申请号为202010982596.5、申请名称为“一种基于神经网络的自然语言处理方法和电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及人工智能技术领域，特别是一种基于神经网络的自然语言处理方法和电子设备。

背景技术

神经网络(特别是卷积神经网络)已广泛应用于自然语言处理领域。卷积的本质是用一种核函数对输入数据进行特征提取的过程，卷积的输出是提取出来的特征(以映射矩阵表示)。卷积的输入数据可以为NHWC格式，即[batch,in_height,in_width,in_channels]，包括batch(批次)、height(高度)、width(宽度)、channels(通道)四个维度，其中高度维度表示输入数据的长度。

现有技术中，在卷积神经网络的推理和训练过程中，卷积的输入数据的高度、宽度和输入通道数都被设计成固定的数值。例如，若输入数据为用户语句，则无论输入的用户语句的实际长度为多少，输入数据的高度均设定为固定的最大值(如60)，如果用户语句的实际字数量少于60，则后面用特定值补齐到60个字，在进行卷积计算的时候仍然按照60个字来计算。然而，在自然语言处理领域，作为输入数据的用户语句(即用户讲话内容)的长度不是固定的，通常远小于所设定的最大值，在这种情况下，若仍然按照所设定的最大值来进行卷积计算，会造成计算资源和时间的浪费。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于神经网络的自然语言处理方法和电子设备。

本发明的一个目的在于提供一种通过采用变长卷积提升计算速度的基于神经网络的自然语言处理方法。

本发明的一个进一步的目的在于通过把卷积、激活和池化步骤融合在同一个加速器执行以进一步提升计算速度。

特别地，根据本发明实施例的一方面，提供了一种基于神经网络的自然语言处理方法，包括：

接收输入的自然语句作为输入语句，根据所述输入语句中的字数量生成所述输入语句的长度信息；

确定所述输入语句中各字的索引，根据各所述字的索引从字向量表中查找到各所述字的向量值，得到所述输入语句的字向量矩阵；

采用卷积核对所述字向量矩阵进行卷积计算，得到特征映射矩阵，其中，在所述卷积计算中，根据所述输入语句的长度信息执行相应次数的所述字向量矩阵与所述卷积核之间的乘法运算；

对所述特征映射矩阵进行激活和池化，得到降维特征映射矩阵；

基于所述降维特征映射矩阵进行意图识别，得到所述输入语句的分类标签矩阵，所述分类标签矩阵包含各分类标签的概率值；

对所述分类标签矩阵中所有分类标签的概率值进行归一化，得到所述输入语句的意图识别结果。

可选地，所述长度信息为布尔指针类型的掩码。

可选地，在所述卷积计算中，根据所述输入语句的长度信息执行相应次数的所述字向量矩阵与所述卷积核之间的乘法运算，包括：

以边缘不填充、卷积步长为1的方式，令所述卷积核在所述字向量矩阵的高度维度上滑行，以执行相应次数的所述字向量矩阵与所述卷积核之间的乘法运算，其中，所述卷积核的滑行行程等于所述输入语句的长度信息所指示的所述输入语句的字数量，所述相应次数等于所述输入语句的长度信息所指示的所述输入语句的字数量与所述卷积核的尺寸的差加上1得到的数值。

以在所述输入语句的尾部进行边缘填充、卷积步长为1的方式，令所述卷积核在所述字向量矩阵的高度维度上滑行，以执行相应次数的所述字向量矩阵与所述卷积核之间的乘法运算，其中，所述卷积核在所述字向量矩阵的高度维度上的滑行行程等于所述输入语句的长度信息所指示的所述输入语句的字数量加上所述卷积核的尺寸减1；所述相应次数等于所述输入语句的长度信息所指示的所述输入语句的字数量。

可选地，在同一个加速器上执行所述采用卷积核对所述字向量矩阵进行卷积计算，得到特征映射矩阵的步骤以及所述对所述特征映射矩阵进行激活和池化，得到降维特征映射矩阵的步骤。

可选地，所述卷积核的数量为多个，且各所述卷积核的尺寸不同；所述特征映射矩阵的数量为多个，且多个所述特征映射矩阵与多个所述卷积核一一对应；所述降维特征映射矩阵的数量为多个，且多个所述降维特征映射矩阵与多个所述特征映射矩阵一一对应；

所述采用卷积核对所述字向量矩阵进行卷积计算，得到特征映射矩阵，包括：

采用不同尺寸的多个所述卷积核对所述字向量矩阵分别进行卷积计算，得到多个所述特征映射矩阵；

对所述特征映射矩阵进行激活和池化，得到降维特征映射矩阵，包括：

对多个所述特征映射矩阵分别进行激活和池化，得到多个所述降维特征映射矩阵；

所述基于所述降维特征映射矩阵进行意图识别，得到所述输入语句的分类标签矩阵，包括：

对多个所述降维特征映射矩阵进行累加合并，得到合并特征映射矩阵；

基于所述合并特征映射矩阵进行意图识别，得到所述输入语句的分类标签矩阵。

可选地，在采用卷积核对所述字向量矩阵进行卷积计算，得到特征映射矩阵之前，所述方法还包括：

对所述字向量矩阵增加一维通道维度，以将所述字向量矩阵的维度扩展为包括批次、高度、宽度和通道的四个维度；

根据所述卷积计算的输入数据矩阵的各维度的长度的最大限值，对维度扩展后的所述字向量矩阵的各维度的长度进行变换，以使变换后的所述字向量矩阵的各维度的长度均不超过对应的最大限值，其中，变换后的所述字向量矩阵的各维度的长度的乘积等于变换前的所述字向量矩阵的各维度的长度的乘积。

可选地，对所述特征映射矩阵进行激活，包括：

利用relu激活函数对所述特征映射矩阵进行非线性映射。

可选地，对所述特征映射矩阵进行池化，包括：

对所述特征映射矩阵进行平均池化或最大池化。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：

处理器；以及

存储有计算机程序代码的存储器；

当所述计算机程序代码被所述处理器运行时，导致所述电子设备执行根据上述任一项所述的基于神经网络的自然语言处理方法。

根据本发明实施例的再一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于实现如上述的基于神经网络的自然语言处理方法。

根据本发明实施例的还一方面，还提供了一种运行指令的芯片，所述芯片包括存储器、处理器，所述存储器中存储代码和数据，所述存储器与所述处理器耦合，所述处理器运行所述存储器中的代码使得所述芯片用于执行上述的基于神经网络的自然语言处理方法。

根据本发明实施例的又一方面，还提供了一种包含指令的程序产品，当所述程序产品在计算机上运行时，使得所述计算机执行上述的基于神经网络的自然语言处理方法。

根据本发明实施例的又一方面，还提供了一种计算机程序，当所述计算机程序被处理器执行时，用于执行上述的基于神经网络的自然语言处理方法。

本发明实施例提出的基于神经网络的自然语言处理方法中，通过引入反映输入语句的实际长度的输入语句的长度信息，在卷积计算中根据输入语句的长度信息执行相应次的字向量矩阵与卷积核之间的乘法运算，将现有技术的基于固定的预设句子长度的固定长度卷积转变为基于输入语句的实际长度的变长卷积，大大地减少了计算量，从而显著提升了计算速度，减少了计算资源和时间的浪费。

进一步地，在进行卷积计算时，在输入语句的尾部进行边缘填充，以充分提取输入语句的最后一个字的特征，从而提高输入语句的识别处理精确度。

更进一步地，通过把卷积、激活和池化步骤融合在同一个加速器执行，能够减少数据搬迁以及频繁的数据更新缓冲，从而进一步提升计算速度，减少计算时间。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了现有技术的自然语言处理中意图识别的一种典型神经网络图谱结构图；

图2示出了根据本发明一实施例的基于神经网络的自然语言处理方法的流程示意图；

图3示出了根据本发明一实施例的自然语言处理中的神经网络图谱结构图；

图4示出了根据本发明一实施例的在输入语句的尾部进行边缘填充情况下卷积核的滑行示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

卷积在神经网络中广泛使用。卷积计算实质上是一个乘累加的过程。2维矩阵卷积是机器学习中应用最广泛的卷积，其计算公式如下：output＝W*input+bias，其中，output为卷积的输出数据，input为卷积的输入数据，W为卷积核，bias为预设偏置值。卷积的输入数据为NHWC格式，即[batch, in_height,in_width,in_channels]，其中batch表示参与卷积计算的一批处理对象的数量(例如，若处理对象为图像，则表示参与卷积计算的一批图像的数量，若处理对象为语句，则表示参与卷积计算的一批语句的数量)，in_height表示输入数据的高度，in_width表示输入数据的宽度，in_channels表示输入数据的通道数。卷积的卷积核为HWCN格式，即[filter_height,filter_width,in_channels,out_channels]，其中filter_height表示卷积核的高度，filter_width表示卷积核的宽度，in_channels表示输入数据的通道数，out_channels表示输出数据的通道数。卷积的输出数据为NHWN格式，即[batch,output_height,output_width,out_channels]，其中batch表示参与卷积计算的一批处理对象的数量，output_height表示输出数据的高度，output_width表示输出数据的宽度，out_channels表示输出数据的通道数。其中，在卷积计算中，高度height和宽度width的变化规则如下所示：

Padding指卷积核在输入数据的边缘滑动时，如果超出输入数据的边缘，对超出部分的填充类型的取值。通常，padding默认为VALID(即有效的)，取值为0，则卷积输出数据的高度和宽度的尺寸的计算公式可统一转化为下式：

(input_size–kernel_size)/stride+1

其中，input_size为输入数据尺寸，具体可为输入数据的高度或宽度。kernel_size为卷积核尺寸，具体地，当input_size为输入数据的高度时，kernel_size为卷积核的高度，当input_size为输入数据的宽度时，kernel_size为卷积核的宽度。stride指卷积步长，即卷积核每次的移动数值。

Padding还可以为SAME，卷积输出数据的高度和宽度与输入相同。

图1是现有技术的自然语言处理中意图识别的一种典型神经网络图谱结构图。该典型神经网络采用2维矩阵卷积，卷积函数可以定义为以下格式：void conv2d(int8*input,int*inputShape,int8*filter,int*filterShape,int8*output,int*outputShape)，其中，input为输入数据指针，inputShape为输入数据维度，filter为卷积核数据指针，filterShape为卷积核维度，output为输出数据指针，outputShape为输出数据维度，int8表示数据类型为8位(bits)整型数据，int表示数据类型为整型数据。

现有技术中，在基于神经网络的自然语言处理的意图识别中，卷积的输入数据的高度、宽度和输入通道数都被设计成固定数值，其中，卷积的输入数据的高度等于待识别的语句的长度，也就是说，待识别的语句的长度被设计成一个固定长度(语句最大长度)。例如，如图1所示，以语句长度被设计成固定长度60为例，无论输入用户语句的实际长度为多少，均当成60个字来计算(以[1,60]矩阵表示)，在经过字嵌入查表和维度变换后，得到字向量矩阵[1,60,8,4]作为卷积的输入数据，其中，字向量矩阵的高度等于60(即语句的固定长度)。在卷积过程中分别采用卷积核W[3,8,4,128]、W[4,8,4,128]和W[5,8,4,128]进行卷积计算，在padding为VALID且卷积步长stride取值1的情况下，分别利用上述三个卷积核与输入的字向量矩阵进行乘累加，得到以下输出的特征映射矩阵：[1,58,1,128]、[1,57,1,128]、[1,56,1,128]，其中特征映射矩阵的高度(本例中具体为58、57、56)即表示各卷积核与输入的字向量矩阵之间的乘法运算的次数。在这种计算方式中，卷积计算的循环控制采用以下形式：

for(int i＝0；i<60；i++){

//卷积内部计算

}

在得到各卷积核下的各特征映射矩阵后，分别对各特征映射矩阵顺序进行激活和池化。激活步骤中输出数据与输入数据的维度保持不变。通过分别对各特征映射矩阵[1,58,1,128]、[1,57,1,128]、[1,56,1,128]进行激活，得到激活的特征映射矩阵[1,58,1,128]、[1,57,1,128]、[1,56,1,128]。之后，分别对各激活的特征映射矩阵[1,58,1,128]、[1,57,1,128]、[1,56,1,128]进行池化，具体地分别对各激活的特征映射矩阵的高度维度的多个值进行池化，得到各降维特征映射矩阵[1,1,1,128]、[1,1,1,128]、[1,1,1,128]。

然后，对上述3个降维特征映射矩阵[1,1,1,128]、[1,1,1,128]、[1,1,1,128]进行累加合并，得到合并特征映射矩阵[1,1,1,384]。接着，通过全连接层基于降维特征映射矩阵[1,1,1,384]进行语句的意图识别，得到语句的分类标签矩阵[1,50]。最后，通过softmax层对分类标签矩阵[1,50]中所有分类标签的概率值进行归一化，得到意图识别结果矩阵[1,50]。

可见，现有技术中，无论输入的用户语句的实际长度为多少，在卷积时均当成固定长度(本例中为60个字)来计算，卷积计算中输入的字向量矩阵与卷积核之间的乘法运算的次数是固定的。然而，在实际生活中，用户语句的长度并不是固定的，其实际长度往往小于、甚至远小于设计的固定长度。如此，在用户语句的实际长度小于该固定长度的情况下，会造成计算资源和时间的极大浪费。

为解决上述技术问题，本发明实施例提出一种基于神经网络的自然语言处理方法。图2示出了根据本发明一实施例的基于神经网络的自然语言处理方法的流程示意图。参见图2所示，该方法至少可以包括以下步骤S102至步骤S112。

步骤S102，接收输入的自然语句作为输入语句，根据输入语句中的字数量生成输入语句的长度信息。

步骤S104，确定输入语句中各字的索引，根据各字的索引从字向量表中查找到各字的向量值，得到输入语句的字向量矩阵。

步骤S106，采用卷积核对字向量矩阵进行卷积计算，得到特征映射矩阵，其中，在卷积计算中，根据输入语句的长度信息执行相应次数的字向量矩阵与卷积核之间的乘法运算。

步骤S108，对特征映射矩阵进行激活和池化，得到降维特征映射矩阵。

步骤S110，基于降维特征映射矩阵进行意图识别，得到输入语句的分类标签矩阵，分类标签矩阵包含各分类标签的概率值。

步骤S112，对分类标签矩阵中所有分类标签的概率值进行归一化，得到输入语句的意图识别结果。

图3示出了根据本发明一实施例的自然语言处理中的神经网络图谱结构图。下面结合图3，对本发明的实施例的各步骤进行介绍。

上文步骤S102中，输入语句为用户的一个自然语句，根据输入语句的字数量(即，输入语句的实际长度)生成输入语句的长度信息。

具体地，输入语句的长度信息可以是布尔指针(bool)类型的掩码(不妨称为长度掩码)。掩码是一种bool型的数组，每一个bool值可以是true或false，true代表该位有效，false则代表该位无效。例如，假设神经网络模型中设定句子的最大长度为60个字，输入语句实际包含字数量为10个，则生成的输入语句的长度信息(具体为长度掩码)含有60个bool值，其中前10个bool值为true，其余bool值都是false。

上文步骤S104中，通过字嵌入查表得到输入语句的字向量矩阵。

具体地，仍以设定句子的最大长度为60个字且输入语句的实际长度为10个为例，将输入语句的每个字用索引(具体为索引值)代替，后面用特定值(例如0)补足到60个字，得到1×60个整形数值(即[1,60]矩阵)，其中，1代表batch为1，即一次处理1句话。当然，本领域技术人员可以理解，若神经网络模型一次处理多句话，则batch不为1，例如，若一次处理3句话，则batch为3，得到3×60个整形数值。

之后，根据每个字的索引，从训练好的字向量表(字向量表包括字索引与对应的字向量之间的映射关系)里查找出各字的向量值，得到输入语句的字向量矩阵。例如，假设每个字由32维的向量表示，则每个字的向量值是32位浮点数。对于包含10个字的输入语句，基于前面得到的[1,60]矩阵中的索引值，得到[1,60,32]字向量矩阵。在该[1,60,32]字向量矩阵中，包含位置在前的与输入语句实际包含的10个字的索引值对应的向量值，后面仍以特定值(例如0)补足。具体至字向量矩阵中的各维度，则其高度维度上前10个数据为与输入语句实际包含的10个字对应的数据，后50个数据为以特定值补足的数据。

在得到输入语句的字向量矩阵后，可对字向量矩阵进行卷积以提取特征。在一个实施例中，为了提高卷积计算的效率，在对字向量矩阵进行卷积计算之前，还可以先对字向量矩阵进行维度变换。

由于2维卷积函数的输入数据矩阵的维度包括批次、高度、宽度、通道四个维度，而自然语言却没有通道信息，因此，可以把自然语言输入数据的通道当成只有1个通道。由此，可以对字向量矩阵增加一维通道维度，以将字向量矩阵的维度扩展为包括批次、高度、宽度和通道的四个维度。例如，对于前一步骤得到的字向量矩阵[1,60,32]，可增加一维通道维度，使之变成[1,60,32,1]。

进一步，一般来说，用硬件加速卷积计算时，对卷积计算的输入数据矩阵的各个维度的长度有限制，如果输入数据矩阵的某维度的长度超过硬件可支持的最大长度，则需要进行分步计算，降低了效率。因此，在对字向量矩阵的维度扩展后，还可以根据卷积计算的输入数据矩阵的各维度的长度的最大限值，对维度扩展后的字向量矩阵的各维度的长度进行变换，以使变换后的字向量矩阵的各维度的长度均不超过对应的最大限值，其中，变换后的字向量矩阵的各维度的长度的乘积等于变换前的字向量矩阵的各维度的长度的乘积。例如，对于字向量矩阵[1,60,32,1]，假设卷积计算要求(具体为卷积加速器硬件要求)的输入数据矩阵的第3维度(即宽度维度)的长度不能超过16，而维度扩展后的字向量矩阵[1,60,32,1]的第3维度的长度为32，超过了16，则可以把字向量矩阵[1,60,32,1]的维度变换为[1,60,8,4]，由于维度变换后的字向量矩阵各维度的长度的乘积1×60×8×4＝1920与维度变换前的字向量矩阵各维度的长度的乘积1×60×32×1＝1920相等，因此，利用字向量矩阵[1,60,8,4]进行卷积运算时等同于利用字向量矩阵[1,60,32,1]进行卷积运算。由此，得到维度变换后的字向量矩阵[1,60,8,4]作为卷积计算的输入数据。

上文步骤S106中，采用卷积核对字向量矩阵进行卷积计算以提取特征，得到特征映射矩阵。在进行卷积计算时，通过将步骤S102中生成的输入语句的长度信息引入卷积计算中，以根据输入语句的长度信息执行相应次数的字向量矩阵与卷积核之间的乘法运算。通过这种方式计算得到的特征映射矩阵中高度维度上包含位置在前的从输入语句提取的与该相应次数对应数量的特征数据，后面其他数据则以特定值(例如0)补足。

本发明中，通过修改现有卷积函数(具体地，在现有卷积函数的基础上增加反映输入语句的长度信息的长度变量)将输入语句的长度信息引入卷积计算。例如，对于2维卷积，修改后卷积函数可以定义为以下格式：void conv2d(int8*input,int*inputShape,int8*filter,int*filterShape,int8*output,int*outputShape,bool*mask)，其中，input为输入数据指针，inputShape为输入数据维度，filter为卷积核数据指针，filterShape为卷积核维度，output为输出数据指针，outputShape为输出数据维度，mask为长度变量，具体可以为输入数据的布尔指针类型的长度掩码。这样，卷积计算的循环控制变为以下形式：

int i＝0；

while(mask[i++]＝＝true){

//卷积内部计算

}

由此，卷积计算中字向量矩阵与卷积核之间的乘法运算的循环次数将不再是固定的，而是与输入语句的长度信息相关。通过在自定义卷积函数中增加长度变量，将现有技术的固定长度卷积转变成长度可变卷积(不妨称为变长卷积)。变长卷积可以使用在神经网络的任何需要的地方。

本步骤中将步骤S102生成的输入语句的长度信息(具体为长度掩码)输入修改后卷积函数中参与卷积计算。由前文所述可知，作为卷积计算的输入数据的字向量矩阵包含位置在前的与输入语句包含的实际数量的字的索引值对应的向量值，其他后面数据是用特定值补足的。在进行卷积计算提取特征时，实际上只需要对字向量矩阵中与输入语句包含的实际数量的字的索引值对应的向量值进行处理即可有效提取输入语句的特征，而无需如现有技术中对字向量矩阵中包括补足用的特定值在内的所有数据进行处理。本发明中通过将输入语句的长度信息输入修改后卷积函数以控制卷积内部计算的循环，使得在进行卷积计算时只针对字向量矩阵中与输入语句包含的实际数量的字的索引值对应的向量值数据进行处理，而不对字向量矩阵中补足的特定值数据进行处理。

由卷积原理可知，在卷积计算中，字向量矩阵与卷积核之间的乘法运算的次数可根据下式(1)计算得到：

multiplication_number＝(slide_size-kernel_size)/stride+1 (1)

其中，multiplication_number表示字向量矩阵与卷积核之间的乘法运算次数，slide_size表示卷积核在字向量矩阵的高度维度上的滑行行程，kernel_size表示卷积核的尺寸(即卷积核高度)，stride表示卷积步长。

在一种实施方案中，在步骤S106的卷积计算中，根据输入语句的长度信息执行相应次数的字向量矩阵与所述卷积核之间的乘法运算的步骤可如下实施：

以边缘不填充、卷积步长为1的方式，令卷积核在字向量矩阵的高度维度上滑行，以执行相应次数的字向量矩阵与卷积核之间的乘法运算。在这种方式中，卷积核的滑行行程等于输入语句的长度信息所指示的输入语句的字数量，则将slide_size＝input_number(input_number表示输入语句的字数量)和stride＝1代入式(1)可得到下式(2)：

multiplication_number＝input_number-kernel_size+1 (2)

即，在边缘不填充、卷积步长为1的方式下，令卷积核在字向量矩阵的高度维度上滑行，字向量矩阵与卷积核之间的乘法运算的相应次数等于输入语句的长度信息所指示的输入语句的字数量与卷积核的尺寸的差加上1得到的数值。

例如，当输入语句的实际长度为10(即，输入语句的字数量为10)时，卷积计算输入的字向量矩阵[1,60,8,4]的高度维度上前10个数据为与输入语句实际包含的10个字对应的数据，后50个数据为以特定值补足的数据。假设采用尺寸为3的卷积核(本例中具体为W[3,8,4,128]，其中高度维度上的长度3为卷积核的尺寸)进行卷积计算，卷积步长设定为1，则令卷积核W[3,8,4,128]在字向量矩阵[1,60,8,4]的高度维度上滑行，滑动行程等于10，以执行相应次数的字向量矩阵与卷积核之间的乘法运算，得到特征映射矩阵[1,58,1,128]。其中，字向量矩阵与卷积核之间的乘法运算的相应次数为(10-3)+1＝8次，相应地，计算得到的特征映射矩阵[1,58,1,128]中高度维度上包含位置在前的从输入语句提取的8组特征数据，后50组数据则以特定值补足。与现有技术中采用相同尺寸卷积核进行固定长度(假设为60)卷积得到特征映射矩阵需进行(60-3)/1+1＝58次乘法运算相比，同一卷积核下对输入语句的卷积次数大大减少。

在语句中通常由特定数量的字符组成具有特定意义的词语，且不同的字/词的前后顺序和空间位置也可以代表不同的意思。例如，中文中通常由2个字或3个字组成词语，4个字组成成语，词语和成语可代表一个特定意义。因此，在进行卷积提取特征的时候，可分别采用不同尺寸的卷积核进行卷积计算。这种情况下，步骤S106中采用的卷积核的数量可为多个，且各卷积核的尺寸不同。卷积得到的特征映射矩阵的数量也可为多个，且多个特征映射矩阵与多个卷积核一一对应。具体地，步骤S106相应地进一步实施为：采用不同尺寸的多个卷积核对字向量矩阵分别进行卷积计算，得到多个特征映射矩阵。

卷积核的格式为HWCN，即[filter_height(卷积核的高度),filter_width(卷积核的宽度),in_channels(输入通道数),out_channels(输出通道数)]，其中，输入通道数必须和输入数据(即字向量矩阵)的输入通道数一致，输出通道数可人为设定，一般设定为128到300比较合适。对于自然语言处理领域，输入语句的维度比较少，优选可将卷积核的输出通道数设定为128。

对于中文语句，优选分别每3个字、每4个字、每5个字提取一次特征，即，分别以尺寸为3、4、5的卷积核进行卷积计算。例如，如图3所示，以前文所述的维度变换后的字向量矩阵[1,60,8,4]作为卷积计算的输入数据，padding取值为0(即边缘不填充)，卷积步长stride取值为1，分别采用卷积核W[3,8,4,128]、W[4,8,4,128]、W[5,8,4,128]对字向量矩阵[1,60,8,4]进行卷积计算输出的特征映射矩阵分别为[1,58,1,128]、[1,57,1,128]、[1,56,1,128]。其中，在卷积计算中，分别执行(10-3)+1＝8次卷积核W[3,8,4,128]与字向量矩阵[1,60,8,4]之间的乘法运算，(10-4)+1＝7次卷积核W[4,8,4,128]与字向量矩阵[1,60,8,4]之间的乘法运算，以及(10-5)+1＝6次卷积核W[5,8,4,128]与字向量矩阵[1,60,8,4]之间的乘法运算。

在上述实施方案中，在卷积计算时未做边缘填充，虽然简化了计算操作且减少了计算量，但由于未做边缘填充，输入语句的最后一个字的特征无法被充分提取，会造成识别精确度的一定损失。因此，在另一种实施方案中，在采用卷积核对字向量矩阵进行卷积计算时，还可以在输入语句的尾部进行边缘填充，得到特征映射矩阵，从而能够充分提取输入语句的最后一个字的特征，提高输入语句的识别处理精确度。

在这种情况下，在对字向量矩阵进行卷积计算时，根据输入语句的长度信息执行相应次数的字向量矩阵与卷积核之间的乘法运算的步骤可如下实施：以在输入语句的尾部进行边缘填充、卷积步长为1的方式，令卷积核在字向量矩阵的高度维度上滑行，以执行相应次数的字向量矩阵与卷积核之间的乘法运算。其中，卷积核在字向量矩阵的高度维度上的滑行行程相比卷积核在边缘不填充方式下在字向量矩阵的高度维度上的滑行行程增加指定长度，指定长度等于卷积核的尺寸减1，也即是说，这种情况下卷积核在字向量矩阵的高度维度上的滑行行程等于输入语句的长度信息所指示的输入语句的字数量加上卷积核的尺寸减1，即，slide_size＝input_number+kernel_size-1。由此，上式(1)可以转化为下式(3)：

multiplication_number＝((input_number+kernel_size-1)-kernel_size)/stride+1

(3)

此时，卷积核的滑动行程等于input_size+kernel_size-1。

在卷积步长stride＝1的情况下，式(3)可简化为式(4)：

multiplication_number＝input_number (4)

即，在输入语句的尾部进行边缘填充、卷积步长为1的方式下，令卷积核在字向量矩阵的高度维度上滑行输入语句的字数量加上卷积核的尺寸减1的行程，则字向量矩阵与卷积核之间的乘法运算的相应次数等于输入语句的长度信息所指示的输入语句的字数量。

下面以图4的例子对前述两种方式下卷积核在字向量矩阵的高度维度上的滑行进行说明。例如，对于字数量为5的输入语句“导航去上海”，在边缘不填充、卷积步长为1的方式下，尺寸为3的卷积核在该输入语句的字向量矩阵的高度维度上的滑行行程为5(即，从句首“导”滑行至句尾“海”)，卷积核只需滑行(5-3)+1＝3次，因此字向量矩阵与卷积核之间的乘法运算的次数为3次。在输入语句的尾部进行边缘填充、卷积步长为1的方式下，将卷积核在该输入语句的字向量矩阵的高度维度上的滑行行程增加至5+3-1＝7(即，从句首“导”滑行至句尾“海”后填充的2个单位行程处)，则卷积核需滑行(7-3)+1＝5次，因此，字向量矩阵与卷积核之间的乘法运算的次数为5次，以充分提取输入语句的最后一个字“海”的特征。

在进行卷积计算时，通过在输入语句的尾部进行边缘填充，能够在仅稍微增加计算量的前提下充分提取输入语句的最后一个字的特征，从而提高输入语句的识别处理精确度。

下面仍以维度变换后的字向量矩阵[1,60,8,4]作为卷积计算的输入数据为例，如图3所示，分别采用卷积核[3,8,4,128]、[4,8,4,128]、[5,8,4,128]对字向量矩阵[1,60,8,4]进行卷积计算，且在进行卷积计算时对输入语句的尾部进行边缘填充，令各卷积核在字向量矩阵的高度维度上的滑行行程均在输入语句的字数量的基础上增加卷积核的尺寸减1的长度，且步长stride取值为1，则输出的特征映射矩阵分别为[1,58,1,128]、[1,57,1,128]、[1,56,1,128]。其中，在卷积计算中，分别执行10次卷积核W[3,8,4,128]与字向量矩阵[1,60,8,4]之间的乘法运算，10次卷积核W[4,8,4,128]与字向量矩阵[1,60,8,4]之间的乘法运算，以及10次卷积核W[5,8,4,128]与字向量矩阵[1,60,8,4]之间的乘法运算。

考虑到在实际应用中，一个用户语句的平均长度大约为14个字，与现有技术中例如固定长度60个字相比，长度仅占原来的四分之一左右，由此，本发明实施例的方法理论上可节省四分之三的计算时间。

上文步骤S108中，对卷积得到的特征映射矩阵进行激活和池化，得到降维特征映射矩阵。具体地，可分为激活和池化两个步骤。

在激活步骤中，通过激活函数对特征映射矩阵进行激活，从而给神经网络带来非线性特性。具体地，可利用relu激活函数对特征映射矩阵进行非线性映射。Relu激活函数的特性应为本领域技术人员所熟知，本文不再赘述。激活步骤中输出数据与输入数据的维度保持不变。

池化步骤的目的是对提取的特征进行降维，以压缩数据。池化也称为下采样，其输入是多个值，输出是一个值。池化通常有平均池化、最大池化等。平均池化指对输入的多个数取均值，以该均值代替该输入的多个数作为输出。最大池化指从输入的多个数中取最大的数作为输出值。

本实施例中，在池化步骤中可对特征映射矩阵进行平均池化或最大池化。优选地，可采用最大池化。具体地，对特征映射矩阵的高度维度进行最大池化，在其高度维度的各值中选取最大值作为输出值，得到降维特征映射矩阵。

进一步地，在步骤S106中采用不同尺寸的多个卷积核对字向量矩阵分别进行卷积计算，得到与多个卷积核一一对应的多个特征映射矩阵的情况下，在步骤S108中对该多个特征映射矩阵分别进行激活和池化，得到多个降维特征映射矩阵，该多个降维特征映射矩阵与该多个特征映射矩阵一一对应。此处的激活和池化的方式与前文所述相同，不再重复。

下面结合图3，对步骤S108进行具体举例说明。

如图3所示，在卷积输出的特征映射矩阵分别为[1,58,1,128]、[1,57,1,128]、[1,56,1,128]的情况下，采用relu激活函数分别对特征映射矩阵[1,58,1,128]、[1,57,1,128]、[1,56,1,128]进行激活，得到激活的特征映射矩阵[1,58,1,128]、[1,57,1,128]、[1,56,1,128]。之后，对激活的特征映射矩阵[1,58,1,128]、[1,57,1,128]、[1,56,1,128]分别进行最大池化。具体地，在激活的特征映射矩阵[1,58,1,128]、[1,57,1,128]、[1,56,1,128]的高度维度的各值中选取最大值作为输出，得到降维特征映射矩阵[1,1,1,128]、[1,1,1,128]、[1,1,1,128]。

上文步骤S110中，可通过全连接层基于降维特征映射矩阵进行输入语句的意图识别，得到输入语句的分类标签矩阵。

全连接层一般用在神经网络的末尾，用于把卷积得到的特征映射进行融合，并将融合的特征映射输出成期望的维度，以使得输出的每一个节点都带有特征映射。因此，全连接层具有特征融合和维度变换的作用。本发明的实施例中，全连接层的输入是降维特征映射矩阵，输出是分类标签矩阵，分类标签矩阵的维度为意图识别分类标签的个数，每种分类标签以一个数值表示该分类标签的概率，数值为浮点数。例如，假设意图识别分类标签的个数为50个，则本步骤输出的分类标签矩阵为[1,50]，如图3所示。

在一个实施例中，在步骤S108中得到多个降维特征映射矩阵的情况下，步骤S110还可以进一步实施为：首先，对多个降维特征映射矩阵进行累加合并，得到合并特征映射矩阵。然后，基于合并特征映射矩阵进行意图识别，得到输入语句的分类标签矩阵。以图3所示为例，对于降维特征映射矩阵[1,1,1,128]、[1,1,1,128]、[1,1,1,128]，将它们累加合并，得到合并特征映射矩阵[1,1,1,384]，将合并特征映射矩阵[1,1,1,384]作为全连接层的输入进行意图识别，得到输出的分类标签矩阵[1,50]。

上文步骤S112中，可通过softmax层对分类标签矩阵中所有分类标签的概率值进行归一化，得到输入语句的意图识别结果。Softmax层的作用是对分类标签概率进行归一化，它不会改变输入数据的维度，而只是改变输入数据的每个浮点值，使得所有分类标签概率的浮点数之和等于1，因此，本步骤的输出数据与分类标签矩阵的维度相同。例如，如图3所示，在全连接层输出分类标签矩阵[1,50]的情况下，本步骤输出的数据同样为[1,50]矩阵。

另外，本领域技术人员可理解，前文所述的激活步骤是对卷积输出的特征映射矩阵中的每一个值进行处理，而池化步骤则是对卷积输出的特征映射矩阵做整体处理。发明人发现，在神经网络的硬件加速处理中，大部分开销是由数据搬迁引起的，同时计算过程中的数据缓冲也存在空间局部性，这些都是限制计算速度的瓶颈。基于此发现，在一个优选的实施例中，可以在同一个加速器上执行采用卷积核对字向量矩阵进行卷积计算，得到特征映射矩阵的步骤(即步骤S106)以及对特征映射矩阵进行激活和池化，得到降维特征映射矩阵的步骤(即步骤S108)。具体地，可以在一个芯片中实现步骤S106和步骤S108。如此，能够将对同一个数据的多个处理融合在一个加速器上，减少数据搬迁以及频繁的数据更新缓冲，从而进一步提升计算速度，减少计算时间。

另外，在本发明中，在步骤S104和步骤S106(即，自嵌入查表和卷积步骤)中，输入数据矩阵和输出数据矩阵的高度维度的长度仍然是基于固定设置的句子最大长度来确定的，这样保证了这些输入数据矩阵和输出数据矩阵的存储空间开销是稳定的，避免了对于不同实际长度的输入语句需频繁分配不同大小的存储空间的问题，更利于空间的有效使用。

基于同一发明构思，本发明实施例还提供了一种电子设备。该电子设备包括：

处理器；以及

存储有计算机程序代码的存储器；

当该计算机程序代码被处理器运行时，导致该电子设备执行上述任意一个实施例或其组合所述的基于神经网络的自然语言处理方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行如上述的基于神经网络的自然语言处理方法。

本发明实施例还提供一种运行指令的芯片，所述芯片包括存储器、处理器，所述存储器中存储代码和数据，所述存储器与所述处理器耦合，所述处理器运行所述存储器中的代码使得所述芯片用于执行上述的基于神经网络的自然语言处理方法。

本发明实施例还提供一种包含指令的程序产品，所述程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中，至少一个处理器可以从所述计算机可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序时可实现上述的基于神经网络的自然语言处理方法。

本发明实施例还提供一种计算机程序，当所述计算机程序被处理器执行时，用于执行上述的基于神经网络的自然语言处理方法。

根据上述任意一个可选实施例或多个可选实施例的组合，本发明实施例能够达到如下有益效果：

所属领域的技术人员可以清楚地了解到，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，为简洁起见，在此不另赘述。

另外，在本发明各个实施例中的各功能单元可以物理上相互独立，也可以两个或两个以上功能单元集成在一起，还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现，也可以采用软件或者固件的形式实现。

本领域普通技术人员可以理解：所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，其包括若干指令，用以使得一台计算设备(例如个人计算机，服务器，或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)，磁碟或者光盘等各种可以存储程序代码的介质。

或者，实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机，服务器，或者网络设备等的计算设备)来完成，所述程序指令可以存储于一计算机可读取存储介质中，当所述程序指令被计算设备的处理器执行时，所述计算设备执行本发明各实施例所述方法的全部或部分步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：在本发明的精神和原则之内，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案脱离本发明的保护范围。

Claims

一种基于神经网络的自然语言处理方法，其特征在于，包括：

接收输入的自然语句作为输入语句，根据所述输入语句中的字数量生成所述输入语句的长度信息；

确定所述输入语句中各字的索引，根据各所述字的索引从字向量表中查找到各所述字的向量值，得到所述输入语句的字向量矩阵；

采用卷积核对所述字向量矩阵进行卷积计算，得到特征映射矩阵，其中，在所述卷积计算中，根据所述输入语句的长度信息执行相应次数的所述字向量矩阵与所述卷积核之间的乘法运算；

对所述特征映射矩阵进行激活和池化，得到降维特征映射矩阵；

基于所述降维特征映射矩阵进行意图识别，得到所述输入语句的分类标签矩阵，所述分类标签矩阵包含各分类标签的概率值；

对所述分类标签矩阵中所有分类标签的概率值进行归一化，得到所述输入语句的意图识别结果。
根据权利要求1所述的自然语言处理方法，其特征在于，所述长度信息为布尔指针类型的掩码。
根据权利要求1所述的自然语言处理方法，其特征在于，在所述卷积计算中，根据所述输入语句的长度信息执行相应次数的所述字向量矩阵与所述卷积核之间的乘法运算，包括：

以边缘不填充、卷积步长为1的方式，令所述卷积核在所述字向量矩阵的高度维度上滑行，以执行相应次数的所述字向量矩阵与所述卷积核之间的乘法运算，其中，所述卷积核的滑行行程等于所述输入语句的长度信息所指示的所述输入语句的字数量，所述相应次数等于所述输入语句的长度信息所指示的所述输入语句的字数量与所述卷积核的尺寸的差加上1得到的数值。
根据权利要求1所述的自然语言处理方法，其特征在于，在所述卷积计算中，根据所述输入语句的长度信息执行相应次数的所述字向量矩阵与所述卷积核之间的乘法运算，包括：

以在所述输入语句的尾部进行边缘填充、卷积步长为1的方式，令所述卷积核在所述字向量矩阵的高度维度上滑行，以执行相应次数的所述字向量矩阵与所述卷积核之间的乘法运算，其中，所述卷积核在所述字向量矩阵的高度维度上的滑行行程等于所述输入语句的长度信息所指示的所述输入语句的字数量加上所述卷积核的尺寸减1；所述相应次数等于所述输入语句的长度信息所指示的所述输入语句的字数量。
根据权利要求1所述的自然语言处理方法，其特征在于，

在同一个加速器上执行所述采用卷积核对所述字向量矩阵进行卷积计算，得到特征映射矩阵的步骤以及所述对所述特征映射矩阵进行激活和池化，得到降维特征映射矩阵的步骤。
根据权利要求1所述的自然语言处理方法，其特征在于，所述卷积核的数量为多个，且各所述卷积核的尺寸不同；所述特征映射矩阵的数量为多个，且多个所述特征映射矩阵与多个所述卷积核一一对应；所述降维特征映射矩阵的数量为多个，且多个所述降维特征映射矩阵与多个所述特征映射矩阵一一对应；

所述采用卷积核对所述字向量矩阵进行卷积计算，得到特征映射矩阵，包括：

采用不同尺寸的多个所述卷积核对所述字向量矩阵分别进行卷积计算，得到多个所述特征映射矩阵；

对所述特征映射矩阵进行激活和池化，得到降维特征映射矩阵，包括：

对多个所述特征映射矩阵分别进行激活和池化，得到多个所述降维特征映射矩阵；

所述基于所述降维特征映射矩阵进行意图识别，得到所述输入语句的分类标签矩阵，包括：

对多个所述降维特征映射矩阵进行累加合并，得到合并特征映射矩阵；

基于所述合并特征映射矩阵进行意图识别，得到所述输入语句的分类标签矩阵。
根据权利要求1所述的自然语言处理方法，其特征在于，在采用卷积核对所述字向量矩阵进行卷积计算，得到特征映射矩阵之前，还包括：

对所述字向量矩阵增加一维通道维度，以将所述字向量矩阵的维度扩展为包括批次、高度、宽度和通道的四个维度；

根据所述卷积计算的输入数据矩阵的各维度的长度的最大限值，对维度扩展后的所述字向量矩阵的各维度的长度进行变换，以使变换后的所述字向量矩阵的各维度的长度均不超过对应的最大限值，其中，变换后的所述字向量矩阵的各维度的长度的乘积等于变换前的所述字向量矩阵的各维度的长度的乘积。
根据权利要求1所述的自然语言处理方法，其特征在于，对所述特征映射矩阵进行激活，包括：

利用relu激活函数对所述特征映射矩阵进行非线性映射。
根据权利要求1所述的自然语言处理方法，其特征在于，对所述特征映射矩阵进行池化，包括：

对所述特征映射矩阵进行平均池化或最大池化。
一种电子设备，其特征在于，包括：

处理器；以及

存储有计算机程序代码的存储器；

当所述计算机程序代码被所述处理器运行时，导致所述电子设备执行根据权利要求1-9中任一项所述的基于神经网络的自然语言处理方法。
一种运行指令的芯片，其特征在于，所述芯片包括存储器、处理器，所述存储器中存储代码和数据，所述存储器与所述处理器耦合，所述处理器运行所述存储器中的代码使得所述芯片用于执行权利要求1-9中任一项所述的基于神经网络的自然语言处理方法。
一种包含指令的程序产品，其特征在于，当所述程序产品在计算机上运行时，使得所述计算机执行权利要求1-9中任一项所述的基于神经网络的自然语言处理方法。
一种计算机程序，其特征在于，当所述计算机程序被处理器执行时，用于执行权利要求1-9中任一项所述的基于神经网络的自然语言处理方法。