CN111553157A

CN111553157A - 一种基于实体替换的对话意图识别方法

Info

Publication number: CN111553157A
Application number: CN202010271707.1A
Authority: CN
Inventors: 张堃; 王天宇; 周波; 李文俊
Original assignee: Hangzhou Borazhe Technology Co ltd; Nantong University
Current assignee: Hangzhou Borazhe Technology Co ltd; Nantong University
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2020-08-18

Abstract

本发明公开了基于实体替换的对话意图识别方法，包括以下步骤：步骤一、文本分词；步骤二、文本过滤；步骤三、文本命名实体识别：步骤四、文本命名实体替换；步骤五、文本特征提取：步骤六、文本意图识别；实现实体替换的对话意图识别，本方法利用命名实体识别结果，将文本信息中的实体名称替换为实体类型，降低了对话***语料数据的量级与不平衡度，从而综合提升对话过程意图识别的准确度。

Description

一种基于实体替换的对话意图识别方法

技术领域

本发明涉及一种基于对话意图识别方法，具体涉及一种基于实体替换的对话意图识别方法。

背景技术

近年来，在人工智能与半导体芯片技术的飞速发展和语音交互需求日益扩增的影响下，诸如智能音箱、智能家具、智能语音客服等各类基于对话***的应用产品逐渐在市场上百花齐放。

此类对话***一般由语音识别(ASR),自然语言理解(NLU),对话管理(DM),自然语言生成(NLG)和语音合成(TTS)这五个模块组成。目前，语音识别模块利用深度学习技术已有了较好的解决方案，自然语言生成和语音合成模块相对较易控制，对话***设计的难点主要在于自然语言理解和对话管理模块。其中自然语言理解模块的目标是将语音识别模块所得到的文本信息转化为语义表示，使得机器具备人一样的语言理解能力。因此语言理解模块的准确率是维持对话***正常运转的前提和保障。

随着深度学***。然而，由于复杂对话***中语料数据的量级和意图的复杂度相较前者有显著提高，语料数据不平衡、意图种类繁多等问题加剧了对话意图识别的难度。如发明专利“人机交互中自然语言意图理解方法及装置”(CN201710219326)以文本信息的词向量作为输入，利用意图识别模型得到文本信息的意图类型。一旦训练样本类别分布不均衡，其意图识别模型容易出现严重的过拟合和欠拟合现象，存在一定的局限性。如发明专利“一种意图识别方法及装置”(CN201811368503)将文本信息输入至少一个意图识别模型，生成与每个意图识别模型对应的预测结果，最终确定文本意图。随着意图种类的增多，该方法模型训练的成本和难度会大幅提高，不适用于复杂对话***的意图识别。

发明内容

发明目的：本发明旨在弥补现有技术手段的缺乏与不足，提供一种基于实体替换的对话意图识别方法；该方法利用命名实体识别结果，将文本信息中的实体名称替换为实体类型，降低了对话***语料数据的量级与不平衡度，从而综合提升对话过程意图识别的准确度。

技术方案：为了实现上述发明目的，本发明采用的技术方案为：

一种基于实体替换的对话意图识别方法，包括以下步骤：

步骤一、文本分词：

利用分词工具对语音识别模块所得到的文本信息进行分词，得到分词结果集合Token；其中分词结果表示为集合{W}，W代表切分的单词；

步骤二、文本过滤：

根据对话***建立所需的停用词词库，利用停用词词库对步骤一所得的分词结果集合Token进行文本信息过滤，得到文本清洗后的结果Token^*；

步骤三、文本命名实体识别：

通过命名实体识别，得到命名实体识别结果为{E：T}，其中E代表实体名称，T代表实体类型；

步骤四、文本命名实体替换：

用特定字符将对话***中所涉及到的命名实体类型做一一映射，记为{T：C}，重新组合得到新的语料，其中T代表实体类型，C代表特定字符；所选特定字符需确保不存在于对话***的语料中；

步骤五、文本特征提取：

基于不同类型的预训练模型，利用步骤四中得到的新的语料，对上述预训练模型进行微调，得到微调后的特征提取模型；利用微调后的特征提取模型得到对话***语料的词向量Vec；

步骤六、文本意图识别：

采用双向长短期记忆Bi-LSTM+注意力机制Attention的网络结构实现文本意图识别。

进一步的，步骤三、文本命名实体识别具体工作步骤，具体工作如下：

1)基于规则匹配，

根据对话***的需求设计相应的正则表达式，基于正则表达式对命名实体进行抽取，匹配出符合要求的字段；

2)基于实体词典

根据对话***构建相应的命名实体词典，基于命名实体词典对步骤一中所得的分词结果进行匹配；

3)基于模型

通过收集对话***的历史语料或语料生成的方式得到原始语料Sentence，对Sentence中的各个位置进行人工或自动标注，完成序列标注任务；标注完成后得到标注语句Sentence^*，由B-T，I-T，O，E-T，S-T组成，进而通过训练命名实体识别模型实现基于模型的命名实体识别。

进一步的，步骤三中的基于模型中，序列标注可采用BIO标注模式或BIOES标注模式；其中在BIOES标注模式中，B为Begin，代表实体的开始，I为Intermediate，代表实体的中间，O为Other，代表非实体的无关字符，E为End，代表实体的结尾，S为Single，代表该实体由单字符组成。

进一步的，所述步骤四、中文本命名实体替换具体工作步骤：将步骤三中所得的命名实体识别结果{E：T}中的实体名称T用特定字符C做替换，得到命名实体替换后的结果集合{E：C}，代入步骤二中所得的分词结果Token^*，将包含在实体名称E中的单词W用特定字符C替换后，重新组合得到新的语料Sentence′；

进一步的，所述步骤六文本意图识别中的网络结构，网络结构主要由4个部分组成，具体分别为：

1)输入层：将步骤五中所获得的对话***语料的词向量Vec作为输入V；

2)双向LSTM层：利用双向长短期记忆网络对输入层的词向量进行前向计算得到向量V_L，后向计算得到向量V_R；对前后向量进行拼接得到拼接后的LSTM层输出向量V_C，其中V_C＝[V_L，V_R]；

3)Attention层：对LSTM层的输出向量V_C进行Attention加权，进一步得到输出结果V_A，计算方法如下：

V_m＝tanh(V_c)

α＝softmax(w^TV_m)

V_A＝V_cα^T

其中w为Attention层的权重矩阵。

4)输出层：将Attention层的输出结果V_A利用Softmax分类器对语句意图进行预测，得到意图预测结果

其中W_S，b_S分别为输出层的权重矩阵和偏置值。

有益效果：与现有技术相比，本方法利用命名实体识别结果，将文本信息中的实体名称替换为实体类型，降低了对话***语料数据的量级与不平衡度，从而综合提升对话过程意图识别的准确度。

附图说明

图1是本发明一种基于实体替换的对话意图识别方法的示意性流程图；

图2是本发明一种文本命名实体替换过程的示例；

图3是本发明一种语料序列标注方式；

图4是本发明一种实现文本意图识别的网络结构。

具体实施方式

下面结合具体实施例进一步说明本发明，但这些实施例并不用来限制本发明。

一种基于实体替换的对话意图识别方法，如图1所示，该方法包含如下几个步骤：

步骤一：文本分词

利用分词工具对语音识别模块所得到的文本信息进行分词，得到分词结果集合Token，其中分词结果可表示为集合{W}，W代表切分的单词。

步骤二：文本过滤

根据对话***建立所需的停用词词库，通常停用词包括但不限于助词、语气词、连接词等等。利用停用词词库对步骤一所得的分词结果集合Token进行文本信息过滤，得到文本清洗后的结果Token^*。

步骤三：文本命名实体识别

命名实体识别包括但不限于以下三种方式，同时多种方式可混合使用，得到命名实体识别结果为{E：T}，其中E代表实体名称，T代表实体类型。

1)基于规则匹配，

根据对话***的需求设计相应的正则表达式，基于正则表达式对例如电话号码、邮箱地址、身份证号码等类型的命名实体进行抽取，匹配出符合要求的字段。

2)基于实体词典

根据对话***构建相应的命名实体词典，基于命名实体词典对步骤一中所得的分词结果进行匹配，匹配方式包括但不限于字符串多模匹配、切词匹配等等。

3)基于模型

通过收集对话***的历史语料或语料生成的方式得到原始语料Sentence，对Sentence中的各个位置进行人工或自动标注，完成序列标注任务。通常序列标注可采用BIO标注模式或BIOES标注模式。以BIOES标注模式为例，B为Begin，代表实体的开始，I为Intermediate，代表实体的中间，O为Other，代表非实体的无关字符，E为End，代表实体的结尾，S为Single，代表该实体由单字符组成。标注完成后得到标注语句Sentence^*，由B-T，I-T，O，E-T，S-T组成，进而通过训练命名实体识别模型实现基于模型的命名实体识别。具体如图3所示为某订餐***的语料数据序列标注结果。命名实体识别一般可采用HMM、CRF等模型，优选的，本发明专利中采用双向长短期记忆(BiLSTM)+条件随机场(CRF)模型实现命名实体识别可取得较优效果。

步骤四：文本命名实体替换

用特定字符将对话***中所涉及到的命名实体类型做一一映射，记为{T：C}，其中T代表实体类型，C代表特定字符。所选特定字符需确保不存在于对话***的语料中，包括但不限于英文字符、罗马数字、希腊字母等等。

将步骤三中所得的命名实体识别结果{E：T}中的实体名称T用特定字符C做替换，得到命名实体替换后的结果集合{E：C}，代入步骤二中所得的分词结果Token^*，将包含在实体名称E中的单词W用特定字符C替换后，重新组合得到新的语料Sentence′。

例如语料中包含3条语句分别为S1，S2，S3，经文本信息分词后得到S1＝abc₁d，S2＝abc₂d，S3＝abc₃d，其中a、b、c₁、c₂、c₃、d代表语料分词结果Token中的不同词汇，且c₁、c₂、c₃代表同种命名实体类型下的不同实体名称。用特定字符c₀替换c₁、c₂、c₃后，得到3条完成命名实体替换后的语料分别为S1′，S2′，S3′，其中S1′＝abc_od，S2′＝abc_od，S3′＝abc_od，从而缩小意图识别模型中语料的多样性，降低文本信息的不平衡度。具体如图2所示为某天气查询***的语料数据命名实体替换示例。

步骤五：文本特征提取

基于BERT,GPT,XLNet,XLM等预训练模型，利用步骤四中得到的语料Sentence′，对上述预训练模型进行微调，得到微调后的特征提取模型。利用微调后的特征提取模型得到对话***语料的词向量Vec。

步骤六：文本意图识别

本发明中采用双向长短期记忆(Bi-LSTM)+注意力机制(Attention)的网络结构实现文本意图识别。该网络结构主要由4个部分组成，如图4所示，具体分别为：

2)双向LSTM层：利用双向长短期记忆网络对输入层的词向量进行前向计算得到向量V_L，后向计算得到向量V_R。对前后向量进行拼接得到拼接后的LSTM层输出向量V_C，其中V_C＝[V_L，V_R]；

V_m＝tanh(V_c)

α＝softmax(w^TV_m)

V_A＝V_cα^T

其中w为Attention层的权重矩阵。

其中W_s，b_s分别为输出层的权重矩阵和偏置值。

本方法利用命名实体识别结果，将文本信息中的实体名称替换为实体类型，降低了对话***语料数据的量级与不平衡度，从而综合提升对话过程意图识别的准确度。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于实体替换的对话意图识别方法，其特征在于，包括以下步骤：

步骤一、文本分词：

利用分词工具对语音识别模块所得到的文本信息进行分词，得到分词结果集合Token；

步骤二、文本过滤：

步骤三、文本命名实体识别：

通过深度学习模型对步骤二所得的文本清洗结果进行命名实体识别；

步骤四、文本命名实体替换：

用特定字符将对话***中所涉及到的命名实体类型做一一映射，记为{T∶C}，重新组合得到新的语料，其中T代表实体类型，C代表特定字符；所选特定字符需确保不存在于对话***的语料中；

步骤五、文本特征提取：

步骤六、文本意图识别：

2.根据权利要求1所述的基于实体替换的对话意图识别方法，其特征在于：所述步骤一集合Token的分词结果表示为集合{W}，W代表切分的单词；

3.根据权利要求1所述的基于实体替换的对话意图识别方法，其特征在于：所述步骤3中，通过命名进行实体识别后，得到命名实体识别结果为{E：T}，其中E代表实体名称，T代表实体类型。

4.根据权利要求1所述的基于实体替换的对话意图识别方法，其特征在于：步骤三、文本命名实体识别具体工作步骤，具体工作如下：

1)基于规则匹配，

2)基于实体词典

3)基于模型

通过收集对话***的历史语料或语料生成的方式得到原始语料Sentence，对Sentence中的各个位置进行人工或自动标注，完成序列标注任务；标注完成后得到标注语句Sentence^*，进而通过训练命名实体识别模型实现基于模型的命名实体识别。

5.根据权利要求4所述的基于实体替换的对话意图识别方法，其特征在于：所述标注语句Sentence^*是由B-T，I-T，O，E-T，S-T组成。

6.根据权利要求4所述的基于实体替换的对话意图识别方法，其特征在于：基于模型中，序列标注可采用BIO标注模式或BIOES标注模式。

7.根据权利要求6所述的基于实体替换的对话意图识别方法，其特征在于：BIOES标注模式中，B为Begin，代表实体的开始，I为Intermediate，代表实体的中间，O为Other，代表非实体的无关字符，E为End，代表实体的结尾，S为Single，代表该实体由单字符组成。

8.根据权利要求1所述的基于实体替换的对话意图识别方法，其特征在于：所述步骤四、中文本命名实体替换具体工作步骤：将步骤三中所得的命名实体识别结果{E∶T}中的实体名称T用特定字符C做替换，得到命名实体替换后的结果集合{E∶C}，代入步骤二中所得的分词结果Token^*，将包含在实体名称E中的单词W用特定字符C替换后，重新组合得到新的语料Sentence′。

9.根据权利要求1所述的基于实体替换的对话意图识别方法，其特征在于：所述步骤六文本意图识别中的网络结构，网络结构主要由4个部分组成，具体分别为：

V_m＝tanh(V_c)

α＝softmax(w^TV_m)

V_A＝V_cα^T

其中w为Attention层的权重矩阵。

其中W_S，b_S分别为输出层的权重矩阵和偏置值。

10.根据权利要求1所述的基于实体替换的对话意图识别方法，其特征在于：所述步骤3采用双向长短期记忆BiLSTM+条件随机场CRF模型实现命名实体识别可取得较优效果。