CN112287108B

CN112287108B - 一种物联领域的意图识别优化方法

Info

Publication number: CN112287108B
Application number: CN202011179441.4A
Authority: CN
Inventors: 彭浩; 贾川江; 周杰; 肖涛
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2022-08-16
Anticipated expiration: 2040-10-29
Also published as: CN112287108A

Abstract

本发明涉及意图分类识别技术领域，公开了一种物联领域的意图识别优化方法，用以提升物联领域的意图识别准确率。本发明包括：采用经验和TF‑IDF算法结合提取停用词字典，对语料文本进行分词获得词语列表，并使用停用词词典对词语列表进行去停用词处理；提取出词语列表中各词汇的词向量，并拼接成句子矩阵；利用CNN网络及句子矩阵，得到意图识别模型；意图预测时，如果某语音文本在意图识别模型输出的最优意图是对某一设备进行操作，而对该语音文本进行设备实体识别得到的设备为其它设备，则将最优意图更正为实体识别出的所有其他设备的相关意图在意图识别模型中置信度最高的意图。本发明适用于物联领域的意图识别。

Description

一种物联领域的意图识别优化方法

技术领域

本发明涉及意图分类识别技术领域，特别涉及一种物联领域的意图识别优化方法。

背景技术

目前物联领域文本意图识别主要利用卷积神经网络(CNN)对大量标记好意图的文本进行训练得到意图识别模型，因此优化过程主要通过优化数据处理和神经网络模型结构来实现。其中去停用词是一种数据预处理方法，目前去停用词大多只处理各个场景通用的停用词(包括语气词、唤醒词等)，而用户在表达意图时除了核心词汇和通用的停用词以外会有很多意想不到的又与意图无关的词语出现，导致对于特定场景的数据特征不够清晰，从而降低神经网络模型的识别率。而当意图识别错误，特别是设备识别错误时，会大大的降低用户的使用体验。

发明内容

本发明要解决的技术问题是：提供一种物联领域的意图识别优化方法，用以提升物联领域的意图识别准确率。

为解决上述问题，本发明采用的技术方案是：一种物联领域的意图识别优化方法，包括以下步骤：

定义停用词词典，所定义的停用词词典中包括通用停用词和物联领域的停用词，其中物联领域的停用词使用TF-IDF算法获取；

利用分词工具对语料文本进行分词，分词后获得词语列表，并使用定义的停用词词典对词语列表进行去停用词处理；

去停用词处理后从词向量库中，提取出词语列表中的各个词汇所对应的词向量，并按行拼接成句子矩阵；

利用CNN网络以及上述句子矩阵，训练得到意图识别模型；

在意图预测过程中，如果某个语音文本在意图识别模型输出的最优意图是对某一设备进行操作，而对该语音文本进行物联设备实体识别所得到的设备为其它设备，那么将意图识别模型输出的最优意图更正为实体识别出的所有其他设备的相关意图在意图识别模型输出意图中置信度最高的意图。

具体的，本发明定义的停用词词典包括了以下类型的停用词：语气词、唤醒词、定位词、属性词、地名、人名及粗话。

具体的，在定义停用词词典时使用了TF-IDF算法，TF-IDF算法获取停用词的方法如下：

首先将语料按各个设备分类，进行词权重计算，词频高的词汇是各个设备的特征词；再将每个设备的语料按功能分类，对每个设备分别进行词权重计算，词频高的词汇是每个设备的各个功能的特征词；最后将相同设备相同功能的语料按不同操作分类，对每一种设备功能进行词权重计算，词频高的词汇是每个设备功能的操作特征词；三次筛选出的词频高的词汇视为核心词汇，其余词汇视作停用词。

具体的，CNN网络的网络结构包含输入层、网络层和输出层；其中输入层是将句子矩阵输入到网络层，输出层是网络层的输出经过softmax函数转化的各个意图的概率；

网络层又包含卷积层、池化层、特征连接层、全连接层四个部分；

卷积层设计了两个通道，第一个通道的卷积窗大小为1，第二个通道的卷积窗大小为2，使网络提取出文本中单个词汇和相邻词汇的特征；

池化层采用最大池化获取卷积层输出的每个通道特征最明显的特征；

特征连接层是将池化层输出的两个通道的特征拼接到一起得到新的特征矩阵；

全连接层最后将特征连接层输出的特征矩阵进行分类。

进一步的，实体识别时可利用jieba词性标注的方法对用户语音文本进行物联设备实体识别。

本发明的有益效果如下：本发明利用分类算法作意图分类方法输出预测意图，再结合实体识别和意图矫正规则校正意图分类结果得到最终意图，不会出现与用户所说设备不同的情况，提高了物联领域意图识别的准确率，提升了用户在物联功能语音交互的体验感。

附图说明

图1为实施例的意图识别流程图；

图2为句子矩阵的拼接示意图；

图3为jieba自定义字典的格式。

具体实施方式

本发明针对物联领域意图识别不够准确的问题，提出了一种物联领域的意图识别优化方法，前述问题的实质是数据的特征不够明显导致分类算法对有相似特征的意图混淆。本发明解决该问题的技术实质是凸显文本的意图特征，采用了经验和TF-IDF算法构建停用词词典进行数据预处理和通过实体识别配合意图校正规则来矫正意图识别。本发明具体可包括如下技术步骤：

1、自定义停用词词典：

停用词词典包括两部分：一部分是根据经验筛选出各个领域通用的停用词，例如：语气词、唤醒词等；另一部分是通过TF-IDF算法对大量物联领域语料进行词频分析获得的停用词。TF-IDF算法获取停用词的方法如下：首先将语料按各个设备分类，进行词权重计算，词频高的词汇是各个设备的特征词，比如设备名。再将每个设备的语料按功能分类，对每个设备分别进行词权重计算，词频高的词汇是每个设备的各个功能的特征词，比如功能名。最后将相同设备相同功能的语料按不同操作分类，对对每一种设备功能进行词权重计算，词频高的词汇是每个设备功能的操作特征词。三次筛选出的词频高的词汇视为核心词汇，其余词汇视作停用词，这样可以筛选出与意图无关的词汇。

2、数据预处理：

每个语料文本利用分词工具(例如jieba分词工具)分词后获得词语列表，利用步骤1定义的停用词词典进行去停用词处理，文本经过去停用词处理保留核心词汇后就能凸显文本的意图特征。

3、获取词向量：

将文本中每一个词汇在词向量库(例如mitie词向量库)中提取出相应的词向量，按行拼接成句子矩阵。

4、模型训练：

用CNN网络来提取出经过步骤2和3处理的数据的特征来得到意图识别模型。

CNN的网络结构包括3层：输入层、网络层、输出层。

其中输入层的作用是将步骤3的句子矩阵输入到网络层，输出层是网络层的输出经过softmax函数转化的各个意图的概率。

网络层又包含卷积层、池化层、特征连接层、全连接层四个部分。

卷积层设计两个通道，第一个通道的卷积窗大小为1，第二个通道的卷积窗大小为2，使CNN网络可以提取出文本中单个词汇和相邻词汇的特征。

池化层采用最大池化获取卷积层输出的每个通道特征最明显的特征。

特征连接层是将池化层输出的两个通道的特征拼接到一起得到新的特征矩阵。

全连接层最后将特征连接层输出的特征矩阵进行分类。

5、实体识别：

在预测过程中，对该语音文本进行物联设备实体识别，识别出其中的设备名称，这里可利用jieba自定义词典的词性标注对文本进行实体识别，对有明确设备名称的文本识别出设备名称，这样可以保证100％提取出设备特征。

6、自定义意图矫正规则：

在预测过程中，如果意图识别模型最终输出的最优意图不是对步骤5中实体识别出的设备的操作，判定模型识别错误。

7、意图识别矫正：

在预测过程中，如果文本的意图识别输出结果满足步骤6定义的意图矫正规则，则将其更正为实体识别出的所有设备的相关意图在意图识别模型输出意图中置信度最高的意图。

下面通过实施例和附图对本发明做进一步说明。

实施例提供一种物联领域的意图识别优化方法，其步骤如下：

S1、自定义停用词词典

自定义停用词词典包括根据经验和TF-IDF算法两部分筛选出的通用停用词和物联领域停用词。

根据经验将下列类型词语归为通用停用词范围：

语气词：哦、啊、吧、呃、唉等。

唤醒词：XX小白、小白、红小白等。

定位词：房间、卧室、厨房、厕所、书房等。

属性词：品牌、形容词等

无关词：地名、人名、其它领域的特征词、粗话等。

TF-IDF算法获取停用词的方法步骤如下：

首先将大量物联语料的所有文本利用jieba分词得到词语的集合作为词典1。

然后将所有语料按设备分为几个大类，每一类所有文本用jieba分词后得到每一类语料中的所有词语，然后进行TF-IDF词权重计算，筛选出大于阈值a的词作为词典2。

再将每个设备的语料按功能分类，对每个设备分别进行TF-IDF词权重计算，筛选出大于阈值b的词的集合作为词典3。

再将相同设备相同功能的语料按操作分类，对相同设备和功能的语料分别进行TF-IDF词权重计算，筛选出大于阈值c的词的集合作为词典4。

最后TF-IDF算法筛选出的停用词＝词典1-词典2-词典3-词典4。

阈值a，b，c可以根据词典2、词典3、词典4进行调整。

TF-IDF词权重的公式为：

式中：tf-idf_i,j表示词语t_i在类别d_j中的词权重，n_i,j表示词语t_i在类别d_j中出现的次数，

表示类别d_j中所有词语出现的次数之和，D表示类别的个数，|{j:t_i∈d_j}|表示有词语t_i的类别的个数。

S2、数据预处理：

将语料的所有文本jieba分词后获得分词列表，利用自定义停用词词典，将文本中出现的停用词去除。例如：“温度有点低空调把温度提高两度吧”经过处理后成为[温度，有点，低，空调，提高，两度]，“去看一下把台灯关闭”经过处理后成为[台灯，关闭]。

S3、获取词向量：

将每个经过步骤S2中的处理的文本分词在mitie词向量库中提取出相应的词向量，该词向量的维度为271，然后按行拼接成句子矩阵。设定进入网络训练的文本次数为8，不足8个词的需要进行补零操作，示例如图2所示。

S4、模型训练：

用所有语料文本的句子矩阵和标记训练CNN模型得到意图识别模型。

CNN模型输入层输入句子矩阵，维度为8*271。

卷积层有两个通道，两个通道的卷积窗维度分别为1*271、2*271，每个通道都有512个卷积核。卷积层的输出分别为8*512、7*512的矩阵。

池化层对卷积层的输出进行最大池化操作，输出1*512和1*512的两个特征向量，因此此种网络结构能得到1028种文本特征。

特征连接层将池化层的两个输出拼接到一起形成一个1*1028的特征向量输入到全连接层进行意图分类。

全连接层有两个隐藏层，隐藏层节点分别为512，256，而全连接层的输出层节点数与意图的个数370保持一致。

CNN模型的输出层采用softmax函数来进行每个意图分类概率的计算，因此节点数和意图个数保持370一致。训练时根据输出的训练文本每个分类概率向量和训练文本标记的向量计算出loss反向更新参数，预测时选择分类概率最大的分类为预测分类。

模型训练好之后，就可以像如图1那样意图识别矫正了。

S5、实体识别：

意图预测时，针对用户语音输入，利用jieba词性标注对用户文本进行物联设备实体识别，识别出其中提及的设备名称。该方法的步骤是建立一个新的jieba自定义txt字典，按照jieba字典的格式将设备标准名和可能出现的别名放入txt文件中，词性标注为equipment。使用jieba对文本进行分词时输出词对应的词性，如果词性为equipment，则该词为文本中明显提及的设备。例如：“打开空调”能识别出“空调”。“打开空调和灯”能识别出“空调”和“灯”两个设备。jieba自定义字典的格式示例如图3所示。

S6、自定义意图矫正规则：

当一句文本中，实体识别出设备，而意图识别模型输出的最优意图是对别的设备进行操作，那么判断为模型识别错误。

例如：“打开空调”只有一个设备“空调”，如果意图识别模型输出的最优意图是对“风扇”进行操作，那么模型识别错误。

S7、意图识别矫正：

如果模型输出最优意图满足意图矫正规则，则将意图更正为实体识别出的设备相对应的所有意图在意图识别模型输出的意图中置信度最高的那个意图。

例如：“打开空调”实体识别出只有一个设备“空调”，而意图识别模型输出的意图中置信度最高的是“打开风扇”，则识别需要更正。因此在意图识别模型输出意图中查找有关“空调”的意图中置信度最高的意图作为最终的意图输出。

Claims

1.一种物联领域的意图识别优化方法，其特征在于，包括以下步骤：

去停用词处理后，从词向量库中提取出词语列表中的各个词汇所对应的词向量，并按行拼接成句子矩阵；

利用CNN网络以及上述句子矩阵，训练得到意图识别模型；

在意图预测过程中，如果某个语音文本在意图识别模型输出的最优意图是对某一设备进行操作，而对该语音文本进行物联设备实体识别所得到的设备为其它设备，那么将意图识别模型输出的最优意图更正为实体识别出的所有其它设备的相关意图在意图识别模型输出意图中置信度最高的意图。

2.如权利要求1所述的一种物联领域的意图识别优化方法，其特征在于，定义的停用词词典包括具体以下类型的停用词：语气词、唤醒词、定位词、属性词、地名、人名及粗话。

3.如权利要求1所述的一种物联领域的意图识别优化方法，其特征在于，利用TF-IDF算法获取停用词的方法如下：

4.如权利要求1所述的一种物联领域的意图识别优化方法，其特征在于，CNN网络的网络结构包含输入层、网络层和输出层；其中输入层是将句子矩阵输入到网络层，输出层是网络层的输出经过softmax函数转化的各个意图的概率；

全连接层最后将特征连接层输出的特征矩阵进行分类。

5.如权利要求1所述的一种物联领域的意图识别优化方法，其特征在于，实体识别时利用词性标注的方法对用户语音文本进行物联设备实体识别。