CN112446219A

CN112446219A - 一种中文请求文本意图分析方法

Info

Publication number: CN112446219A
Application number: CN202011463898.8A
Authority: CN
Inventors: 刘光毅
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-05

Abstract

本发明公开了一种中文请求文本意图分析方法，通过利用膨胀卷积神经网络结合注意力机制，有效解决短文本特征表示，后续结合动词词典的验证，关注能表示MUSIC相关意图的动词关键词，识别用户请求意图；利用膨胀卷积升级网络有效提取请求短文本上下文有效信息，IDCNN隐藏层引入注意力权重调整，对关键信息进行调整，提高模型对意图的判断准确率。

Description

一种中文请求文本意图分析方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种中文请求文本意图分析方法。

背景技术

意图识别是自然语言处理中的一个方向，常用的方法有：基于词典模板的规则分类、基于过往日志匹配(适用于搜索引擎)、基于分类模型进行意图识别。这三种方式基本上是目前比较主流的方法。基于词典的模板规则匹配通用性有限，当请求文本发生变化时(无法预测用户请求的说法)，容易出现识别失误的情况。基于日志匹配的方法不适用于电视上语音交互***。分类模型的方法难点主要是两点，一点是数据来源的匮乏，因为方法已经比较固定，基本都是有监督学习，需要很多的标记数据。第二点是尽管是分类工作，但是意图识别分类种类很多，并且要求的准确性，拓展性都不是之前的分类可比的，这一点也是很困难的。

意力机制是在信息处理时选择性地集中于某些重要的信息的一种机制，而忽略和关注目标意义相关性较弱的一种信息处理机制，它强调在信息处理时更关注信息的本质方面的信息它将有限的资源集中于重要的信息的处理，从而取得了巨大的成功。注意力(Attention)机制在图像识别、自动翻译等领域已经取得了巨大的成功。结合本文的主题，在处理情感分析的时候，可以更加关注和重要情感词有关的信息从而提高情感分类的准确度。卷积神经网络(CNN)可以获取输入数据的特征值，但是处理文本容易丢失上下文信息，膨胀卷积解决了这一问题可以更好地获取上下文关键特征，结合注意力机制将意图关键词融合到模型当中，提高对意图的识别判断准确率。

发明内容

本发明针对用户向电视发出请求时，电视无法正确返回用户期望的意图，造成用户使用体验不佳的问题而提供一种中文请求文本意图分析方法，本专利在MUSIC领域中分析请求意图，是能正确返回用户期望，提高用户使用体验。本专利使用IDCNN+attention(膨胀卷机网络结合注意力机制)给用户请求文本进行意图预测，得出模型预测意图。在后续结合简单的字典验证，提高意图的识别率，提高用户对产品的使用体验。

本发明通过以下技术方案来实现上述目的：

一种中文请求文本意图分析方法，包括以下步骤：

步骤1，用户数据处理，动词词典构造，意图目录构造；

步骤2，分词、Word2vec词向量训练，构造词汇表；

步骤3，IDCNN学习训练；

步骤4，注意力机制调整权重；

步骤5，对有表达明显意图的动词关键词作为判断关键，加入规则辅助判断预测结果，输出对用户请求的意图判断。

进一步方案为，所述步骤1中，收集MUSIC相关汉语动词构造词典，由意图种类构建意图目录；从电视端采集用户在MUSIC领域的请求数据，结合音乐评论、KTV评论相关网页评论中含有表达意图的评论，筛选后作为原始数据集，分别收集不同意图的文本储存于不同文件中，人工给数据集标注意图。

进一步方案为，所述步骤2中，将步骤1中清洗的数据分词后，构建相应词汇变，通过Word2vec训练64维的词向量；

将数据通过分词***有效分成完整实体的词汇，再由此构建大小为5000的词汇表。

进一步方案为，所述步骤3中，将短文本采用词向量表示之后，构建膨胀卷积神经网络，输入单元X＝{x₁，x₂，...，x_t}，其中每个x_i(i＝1，2，...，t)为词向量，隐含层包含前向传播层和后向传播层。

进一步方案为，所述步骤4中，在IDCNN的基础上，加入注意力机制，对卷积网络生成的特征输出，从通道和空间两个维度计算其注意力attention，然后将其与输入的特征相乘来进行特征的自适应学习。

使用最大池化和平均池化对IDCNN中间层的输出特征在空间唯独上进行压缩，得到两个不同的背景描述：

和

使用由MLP组成的共享网络对这两个不同的空间背景描述进行计算得到调整后的特征：

最后，W₀用Relu作为激活函数；

使用最大池化和平均池化得到两个不同的特征描述：

和

将两个特征描述结合，并使用卷积操作生成spatial attention map：M_s(F)

f^7*7表示7×7的卷积层。

本发明的有益效果在于：

本发明的一种中文请求文本意图分析方法，通过利用膨胀卷积神经网络结合注意力机制，有效解决短文本特征表示，后续结合动词词典的验证，关注能表示MUSIC相关意图的动词关键词，识别用户请求意图；利用膨胀卷积升级网络有效提取请求短文本上下文有效信息，IDCNN隐藏层引入注意力权重调整，对关键信息进行调整，提高模型对意图的判断准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要实用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明IDCNN注意力机制结构图。

图2为本发明测试机模型训练。

图3为本发明意图分析流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

下面将结合附图更详细地描述本发明的示例性实施方式。如图3所示，本发明的IDCNN-attention意图分析的具体工作流程如下：

1、用户数据处理，动词词典构造，意图目录构造

从电视端采集用户在MUSIC领域的请求数据，结合音乐评论、KTV评论等相关网页评论中含有表达意图的评论，筛选后作为原始数据集，分别收集不同意图的文本储存于不同文件中，人工给数据集标注意图。结合测试用例数据，筛选6种意图文本共约3万条，将数据按照6：2：1的比例分成训练集、测试集、验证集。

2、分词、Word2vec词向量训练，构造词汇表

将数据通过分词***有效分成完整实体的词汇，如“我想唱一首周杰伦唱过的歌曲”可以分成“我/想唱/一首/周杰伦/唱过/的/歌曲”，再由此构建词汇表。将步骤1中清洗的数据分词后，构建相应词汇变，通过Word2vec训练64维的词向量。

3、IDCNN学习训练

考虑到一般电视端采集的数据都是短文本，为了能同时考虑短文本上下文语义信息，充分提取短文本包含的所有特征，将短文本采用词向量表示之后，构建膨胀卷积神经网络。输入单元X＝{x₁，x₂，...，x_t}，其中每个x_i(i＝1，2，...，t)为词向量。隐含层包含前向传播层和后向传播层。

利用上述步骤中训练完成的64维词向量输入卷积网络中训练网络由三个卷积层组成第一层有32个卷积核，尺寸是3×3，激活函数用Relu，这一层后使用max_pool层用于缩小尺寸。然后是两个卷积核级联，卷积核的个数是64，尺寸是3×3，激活函数是Relu。之后依次是max_pool层，具有512个神经元、激活函数为Relu的全连接的网络。最后一层是全连接层，利用10个神经元和激活函数softmax。

但是由于卷积层还有一个权值共享的原则，在文本分析中容易忽略上下文信息，因此采用最大池化和平均池化来增大卷积神经元的视野感受。

4、注意力调整权重

在IDCNN的基础上，加入注意力机制channel attention，对卷积网络生成的特征输出，从通道和空间两个维度计算其注意力attention，然后将其与输入的特征相乘来进行特征的自适应学习。

和

最后，W₀用Relu作为激活函数。这里得到图1中第一步乘法之后的特征，再在之后加入Spatial attention。与channel attention不同，spatial attention主要关注于位置信息。在上一步的维度上，使用最大池化和平均池化得到两个不同的特征描述：

和

f^7*7表示7×7的卷积层。

5、意图识别预测结果输出：对有表达明显意图的动词关键词作为判断关键，加入规则辅助判断预测结果，输出对用户请求的意图判断。

意图预测结果(KTV/PLAY/PlayAlbum/SeachSong/SeachSinger/SeachAlbum)。

如图2，模型在测试集上的表现：Loss：0.0002，Accuracy：1.0，测试集暂时只用于测试唱歌和听歌两种意图，准确率较高。

加上搜索歌曲、播放专辑等意图的数据集后，总识别6种意图，模型的表现Loss：0.045，Accuracy：0.96。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种中文请求文本意图分析方法，其特征在于，包括以下步骤：

步骤1，用户数据处理，动词词典构造，意图目录构造；

步骤2，分词、Word2vec词向量训练，构造词汇表；

步骤3，IDCNN学习训练；

步骤4，注意力机制调整权重；

2.如权利要求1所述的一种中文请求文本意图分析方法，其特征在于，所述步骤1中，收集MUSIC相关汉语动词构造词典，由意图种类构建意图目录；从电视端采集用户在MUSIC领域的请求数据，结合音乐评论、KTV评论相关网页评论中含有表达意图的评论，筛选后作为原始数据集，分别收集不同意图的文本储存于不同文件中，人工给数据集标注意图。

3.如权利要求1所述的一种中文请求文本意图分析方法，其特征在于，所述步骤2中，将步骤1中清洗的数据分词后，构建相应词汇变，通过Word2vec训练64维的词向量；

4.如权利要求1所述的一种中文请求文本意图分析方法，其特征在于，所述步骤3中，将短文本采用词向量表示之后，构建膨胀卷积神经网络，输入单元X＝{x₁，x₂，...，x_t}，其中每个x_i(i＝1，2，...，t)为词向量，隐含层包含前向传播层和后向传播层。

5.如权利要求1所述的一种中文请求文本意图分析方法，其特征在于，所述步骤4中，在IDCNN的基础上，加入注意力机制，对卷积网络生成的特征输出，从通道和空间两个维度计算其注意力attention，然后将其与输入的特征相乘来进行特征的自适应学习。

6.如权利要求5所述的一种中文请求文本意图分析方法，其特征在于，使用最大池化和平均池化对IDCNN中间层的输出特征在空间唯独上进行压缩，得到两个不同的背景描述：

和

最后，W₀用Relu作为激活函数；

使用最大池化和平均池化得到两个不同的特征描述：

和

f^7*7表示7×7的卷积层。