CN111161740A

CN111161740A - 意图识别模型训练方法、意图识别方法以及相关装置

Info

Publication number: CN111161740A
Application number: CN201911421460.0A
Authority: CN
Inventors: 付博; 顾远; 袁晟君; 李宸; 王雪; 张晨; 谢隆飞; 李亚雄
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: CCB Finetech Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-15

Abstract

本发明提供一种意图识别模型训练方法、意图识别方法以及相关装置，该方意图识别模型训练方法包括：利用带标签的训练样本数据对卷积神经网络进行初步训练；采用条件变分自编码器对所述带标签的训练样本数据进行数据增强得到带标签的扩充样本数据；利用所述带标签的扩充样本数据对经过初步训练的卷积神经网络进行再训练，得到意图识别模型。其中，通过采用条件变分自编码器对所述带标签的训练样本数据进行数据增强得到带标签的扩充样本数据，然后利用所述带标签的扩充样本数据对经过初步训练的卷积神经网络进行再训练，能够在利用少量精确标注的训练语料的基础上，提高模型精度，降低人工成本。

Description

意图识别模型训练方法、意图识别方法以及相关装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种意图识别模型训练方法、意图识别方法以及相关装置。

背景技术

近年来，数据资源呈现***式增长，其中蕴含着用户通过自然语言表达出的各种各样的需求，这些需求在一定范围内具有“主观性”，例如，用户通过Google、百度等搜索引擎查询信息的需求，在查询日志中记录了人们从互联网搜索需要了解的查询信息，可以称之为查询意图；用户在一定购买动机的支配下，通过文本内容表达出的对产品或服务的购买意愿，可以称之为消费意图；消费者愿意将自己日常生活费的部分资金用来购买投资理财产品，通过与客户经理的交互所展现的对银行理财产品的兴趣或需求，可以称之为财富管理意图等。我们以财富管理意图为例，从理财经理和客户的交互数据当中发现，当客户经理询问“有一款理财产品想给您推荐”时，用户在沟通中倾向于表达其对理财产品是否有需求，具体如表1所示：

表1理财场景中的用户意图示例

对话人	示例	意图类别
			客户1	这是个什么类型的产品？	显式意图
客户2	哦，我现在可以考虑考虑的	显式意图
			客户3	我不需要	显式无意图
客户4	哦，我现在不考虑	显式无意图
			客户5	我现在有点忙，等会联系	隐式无意图
客户6	谢谢，我有需要的话自己会去查看的	隐式无意图

意图可以划分成“显式意图”、“显式无意图”和“隐式无意图”三大类。显式意图是指在客户所表达的语句当中显式的指出想要了解该理财产品或服务，具有较高的潜在购买意愿，例如表1中客户1和客户2这两个例子。显式无意图是指客户所表达的语句当中显式的指出对该产品或服务不感兴趣或者没有购买的意愿，例如表1中客户3和客户4这两个例子。隐式无意图是指从客户所表达的语句中不能明确判断其当前是否对当前理财产品或服务感兴趣、是否需要购买该理财产品或服务，例如表1中客户5和客户6这个例子。针对客户所表达的不同意图，客户经理需采取差异化的回复或跟进策略，以最大化地提升理财产品的营销成功率。例如针对显式意图，可以及时进行产品介绍；针对显式无意图则及时中止营销；针对隐式无意图，则可以后期继续跟进。基于此，识别出对话交互过程中客户对某理财产品或服务的意图，对于吸收优质客户和增加银行的中间业务收入等方面将会具有重要意义。

目前，研究者通常使用模式匹配的方法，例如，基于依存句法分析结果构建模板识别显式意图，模式匹配的方法通过挖掘句子中是否出现显式意图的意图模板来确定句子是否具有意图，对正式非口语化的文本具有很高的识别准确率，对于非正式的文本识别精度差，而客户的意图往往以口语化的形式表达。

为解决上述技术问题，现有技术中提供一种基于有指导的分类方法识别客户意图，具体地，将模板、n-gram等作为分类的特征，联合其他特征训练分类器来完成句子的显式意图识别，但是该方法依赖于大量的精确标注的训练语料，而人工标注语料需要耗费大量的人工成本。

发明内容

针对现有技术中的问题，本发明提供一种意图识别模型训练方法和装置、意图识别方法和装置、电子设备以及计算机可读存储介质，能够至少部分地解决现有技术中存在的问题。

为了实现上述目的，本发明采用如下技术方案：

第一方面，提供一种意图识别模型训练方法，包括：

利用带标签的训练样本数据对卷积神经网络进行初步训练；

采用条件变分自编码器对所述带标签的训练样本数据进行数据增强得到带标签的扩充样本数据；

利用所述带标签的扩充样本数据对经过初步训练的卷积神经网络进行再训练，得到意图识别模型。

进一步地，所述条件变分自编码器包括：用于将语句向量压缩为隐变量的编码器以及用于将隐变量解压缩重构为扩充语句向量的解码器；

所述采用条件变分自编码器对所述带标签的训练样本数据进行数据增强得到带标签的扩充样本数据包括：

将一训练样本转换为语句向量；

将所述语句向量以及预设约束条件输入所述编码器得到所述隐变量；

将所述隐变量以及所述预设约束条件输入所述解码器得到所述扩充句子向量；

将所述扩充句子向量转换为一扩充样本；

其中，所述扩充样本的标签与所述训练样本的标签相同。

进一步地，所述编码器采用RNN实现。

进一步地，所述解码器采用神经网络实现。

进一步地，意图识别模型训练方法还包括：

获取条件变分自编码器训练数据；

利用所述条件变分自编码器训练数据对所述条件变分自编码器进行训练。

第二方面，提供一种意图识别方法，包括：

获取待识别意图数据；

将所述待识别意图数据输入如上述的意图识别模型训练方法训练后的意图识别模型，并将所述意图识别模型的输出作为所述待识别意图数据的意图。

第三方面，提供一种意图识别模型训练装置，包括：

初步训练模块，利用带标签的训练样本数据对卷积神经网络进行初步训练；

数据增强模块，采用条件变分自编码器对所述带标签的训练样本数据进行数据增强得到带标签的扩充样本数据；

再训练模块，利用所述带标签的扩充样本数据对经过初步训练的卷积神经网络进行再训练，得到意图识别模型。

第四方面，提供一种意图识别装置，包括：

待识别数据获取模块，获取待识别意图数据；

意图识别模块，将所述待识别意图数据输入如上述的意图识别模型训练方法训练后的意图识别模型，并将所述意图识别模型的输出作为所述待识别意图数据的意图。

第五方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的意图识别模型训练方法或者上述的意图识别方法的步骤。

第六方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的意图识别模型训练方法或者上述的意图识别方法的步骤。

本发明提供的意图识别模型训练方法和装置、意图识别方法和装置、电子设备以及计算机可读存储介质，该方法包括：利用带标签的训练样本数据对卷积神经网络进行初步训练；采用条件变分自编码器对所述带标签的训练样本数据进行数据增强得到带标签的扩充样本数据；利用所述带标签的扩充样本数据对经过初步训练的卷积神经网络进行再训练，得到意图识别模型。其中，通过采用条件变分自编码器对所述带标签的训练样本数据进行数据增强得到带标签的扩充样本数据，然后利用所述带标签的扩充样本数据对经过初步训练的卷积神经网络进行再训练，能够在利用少量精确标注的训练语料的基础上，提高模型精度，降低人工成本。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中的服务器S1与客户端设备B1之间的架构示意图；

图2为本发明实施例中的服务器S1、客户端设备B1及数据库服务器S2之间的架构示意图；

图3是本发明实施例中的意图识别模型训练方法的流程示意图；

图4示出了图3中步骤S200的具体步骤；

图5示出了本发明实施例中条件变分自编码器的结构框图；

图6是本发明实施例中的意图识别模型训练装置的结构框图；

图7是本发明实施例中的意图识别方法的流程示意图；

图8是本发明实施例中的意图识别装置的结构框图；

图9为本发明实施例电子设备的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

现有意图识别技术依赖于大量的精确标注的训练语料，而人工标注语料需要耗费大量的人工成本。

为至少部分解决上述技术问题，本发明实施例提供了一种意图识别模型训练方法，通过采用条件变分自编码器对所述带标签的训练样本数据进行数据增强得到带标签的扩充样本数据，然后利用所述带标签的扩充样本数据对经过初步训练的卷积神经网络进行再训练，能够在利用少量精确标注的训练语料的基础上，提高模型精度，降低人工成本。

有鉴于此，本申请提供了一种基于卷积神经网络模型的意图识别模型训练装置，该装置可以为一种服务器S1，参见图1，该服务器S1可以与至少一个客户端设备B1通信连接，所述客户端设备B1可以将带标签的训练样本数据发送至所述服务器S1，所述服务器S1可以在线接收所述带标签的训练样本数据。所述服务器S1可以在线或者离线对获取的带标签的训练样本数据进行预处理，利用带标签的训练样本数据对卷积神经网络进行初步训练；采用条件变分自编码器对所述带标签的训练样本数据进行数据增强得到带标签的扩充样本数据；利用所述带标签的扩充样本数据对经过初步训练的卷积神经网络进行再训练，得到意图识别模型。而后，所述服务器S1可以将再训练后的意图识别模型在线发送至所述客户端设备B1。所述客户端设备B1可以在线接收所述意图识别模型，用于识别用户意图。

另外，参见图2，所述服务器S1还可以与至少一个数据库服务器S2通信连接，所述数据库服务器S2用于存储卷积神经网络模型结构以及条件变分自编码器。所述数据库服务器S2在线将卷积神经网络模型结构以及条件变分自编码器发送至所述服务器S1，所述服务器S1可以在线接收所述卷积神经网络模型结构以及条件变分自编码器。

基于上述内容，所述数据库服务器S2还可以用于存储测试数据。所述数据库服务器S2在线将所述测试数据发送至所述服务器S1，所述服务器S1可以在线接收所述测试数据，而后根据至少一个测试数据得到测试样本，并应用所述测试样本对所述模型进行模型测试，并将该模型的输出作为测试结果，再基于所述测试结果及至少一个测试数据的已知评价结果，判断当前意图识别模型是否符合预设要求，若是，则将当前意图识别模型作为用于意图识别的目标意图识别模型；若当前意图识别模型不符合所述预设要求，则对当前意图识别模型进行优化和/或应用更新后的训练样本集重新对该意图识别模型进行模型训练。

可以理解的是，所述客户端设备B1可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。

在实际应用中，进行意图识别模型训练的部分可以在如上述内容所述的服务器S1侧执行，即，如图1所示的架构，也可以所有的操作都在所述客户端设备B1中完成，且该所述客户端设备B1可以直接与数据库服务器S2进行通信连接。具体可以根据所述客户端设备B1的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备B1中完成，所述客户端设备B1还可以包括处理器，用于进行意图识别模型训练的具体处理。

所述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信，包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol，远程过程调用协议)、REST协议(Representational State Transfer，表述性状态转移协议)等。

在本申请的一个或多个实施例中，所述测试数据为未包含在用于模型训练的数据中的，且针对所述测试数据，需获取其已知评价结果。

图3是本发明实施例中的意图识别模型训练方法的流程示意图。如图3所示，该意图识别模型训练方法可以包括以下内容：

步骤S100：利用带标签的训练样本数据对卷积神经网络进行初步训练。

具体地，每个训练样本带有一个已知的标签，即该训练样本具有显式意图或显式无意图或隐式无意图。

初步训练时，将各训练样本依此输入卷积神经网络，卷积神经网络给出预测的意图，即显式意图或显式无意图或隐式无意图，然后，将该预测的意图与训练样本的标签进行比较，根据比较结果调整卷积神经网络参数，实现初步训练。

步骤S200：采用条件变分自编码器对所述带标签的训练样本数据进行数据增强得到带标签的扩充样本数据；

其中，数据增强也称为数据扩充(Data Augmentation)，当训练集样本中某一类数据或者训练集样本不够多时，或者为了防止模型出现过拟合现象，让模型具有鲁棒性等学习场景，可以采用数据增强进行样本扩充。

基于条件变分自编码器(CVAE)进行语料扩充。CVAE是一种基于变分思想的深度学习的生成式模型，具体的，在约束条件c下，学习一个从隐变量z到扩充数据X’的一个映射函数，即X’＝F_decoder(z,c)。CVAE由Encoder编码器Q(z|X,c)和Decoder解码器P(X|z,c)组成。

值得说明的是，由于带标签的扩充样本是由带标签的原始样本数据增强得到，因此，扩充样本的标签与其对应的原始样本的标签相同。

步骤S300：利用所述带标签的扩充样本数据对经过初步训练的卷积神经网络进行再训练，得到意图识别模型。

具体地，进行再训练时，将扩充样本依此出入经过初步训练的卷积神经网络，卷积神经网络给出预测的意图，即显式意图或显式无意图或隐式无意图，然后，将该预测的意图与扩充样本的标签进行比较，根据比较结果调整卷积神经网络参数，实现再训练。

值得说明的是，对隐式无意图的识别任务在对客户理财产品的推荐上也具有重要的实际意义，隐式无意图的识别相较于显示无意图的识别比较难，很多客户在表达无意图的主观意识时都比较隐晦，隐式无意图的挖掘则需要对文本进行更加深层次的语义分析和理解，其中的难点包括：

(1)如何正确理解客户文本中的语义信息，进而判断客户真实的意图。因此，需要模型能够很好地理解词和句子的语义特征。例如：要想识别出“我现在可以考虑考虑”和“好，我现在先不考虑”，需要理解“考虑”、“好”、“不考虑”以及整个句子的含义；

(2)意图识别任务需要一定的标注语料训练分类器，这实际上就需要我们可以自动的构建一个大规模标记数据集，提高模型的泛化能力；

(3)实际生活中三种意图的数据严重不平衡，极大地影响模型的性能，如何能够解决数据不平衡的问题，使模型的性能更好。

而本发明实施例提供的意图识别模型训练方法，通过采用条件变分自编码器对所述带标签的训练样本数据进行数据增强得到带标签的扩充样本数据，然后利用所述带标签的扩充样本数据对经过初步训练的卷积神经网络进行再训练，能够在利用少量精确标注的训练语料的基础上，提高模型精度，降低人工成本。而且还能够针对训练数据少的数据种类进行扩充增强，实现数据平衡，提高模型性能。

在一个可选的实施例中，该意图识别模型训练方法还可以包括：构建卷积神经网络。

其中，卷积神经网络(CNN)主要包含：词表示层、卷积层、max pooling层和softmax层。其中，词表示层将每一个词转换成低维、稠密、连续的词向量，举例来说可基于腾讯AILab2018年开源的词向量表示；卷积层可以看成是基于滑动窗口的特征抽取，通过获取词的上下文窗口，再映射成局部的上下文特征向量；而max pooling层用来抽取全局的句子级特征，将局部的上下文特征向量映射成固定长度的全局特征向量，使用max pooling层可以保留具备特征向量中最具有代表性的特征。最后，在softmax层一共有三个输出，即该句子是否具有显式意图、显式无意图和隐式无意图。Softmax可以按照条件概率来输出各个类别的概率值。

另外，卷积神经网络中的卷积层可以通过滑动窗口捕捉词语的语义特征，而maxpooling层可以很好地将词语级特征整合成句子级语义特征，使得卷积神经网络可以学习不同层次的特征表示，因而能学习到不同类别的特征表示，增加训练数据的多样性。

在一个可选的实施例中，该意图识别模型训练方法还可以包括：

步骤I：获取测试样本；

其中，测试样本带有标签。

步骤II：应用所述测试样本对所述模型测试，并将该模型的输出作为测试结果；

具体地，将测试样本输入再训练后的CNN意图识别模型，将该模型的输出作为测试结果。

步骤III：基于所述测试结果及测试样本的标签，判断模型是否符合预设要求；

若是，则将当前模型作为用于意图识别的目标模型；若当前模型不符合预设要求，则对当前模型进行优化和/或应用更新后的训练样本集重新进行模型训练。

通过采用上述测试步骤，能够有效判断模型的精度，提高模型的使用效果。

在一个可选的实施例中，参见图4，条件变分自编码器包括：用于将语句向量压缩为隐变量的编码器Encoder Q以及用于将隐变量解压缩重构为扩充语句向量的解码器Decoder P；

该步骤S200可以包括以下内容：

步骤S210：将一训练样本转换为语句向量；

举例来说可基于腾讯AILab2018年开源的词向量表示。

步骤S220：将所述语句向量以及预设约束条件输入所述编码器得到所述隐变量；

其中，隐变量也是一个句子向量。

步骤S230：将所述隐变量以及所述预设约束条件输入所述解码器得到所述扩充句子向量；

步骤S240：将所述扩充句子向量转换为一扩充样本；

具体地，将向量转换为文本，得到扩充样本。

其中，所述扩充样本的标签与所述训练样本的标签相同。

条件变分自编码器的结构如图5所示，将训练样本X与约束条件c输入编码器Encoder Q得到隐变量z。隐变量z的分布逼近正态分布N(0，1)。而后将隐变量z以及约束条件c输入解码器Decoder P得到扩充样本X’，X’逼近X但是又与X不完全相同。

值得说明的是，编码器可采用RNN(循环神经网络)实现，循环神经网络适合处理序列问题，随着序列的进行，它能够保持住句子中关键的信息，具有一定的记忆性，使用RNN神经网络作为句子encoder，输入是x和约束条件c，输出是隐变量z，且隐变量要服从高斯分布。

解码器可采用神经网络实现。

意图识别是指理解用户表达的真实含义，即将用户的自然语言转化成为计算机能够理解的语义表示。本申请将意图识别作为一个分类任务，意图识别准确率的提高，会极大帮助计算机理解用户自然语言的目的。由于包含意图的文本语料难以收集，本申请利用条件变分自编码器自动生成了大量带有标记的用户意图的文本信息，并将新生成的语料加入到训练集中改进意图识别的***性能。

训练和测试数据可以来自银行用户对投资理财类产品的意图的文本数据。本申请首先基于深度学习的方法构建初始的意图识别学习模型，然后基于数据增强的方法，生成多条带有意图标记的文本数据，最后将新生成的带有意图标记的文本数据加入到初始的意图识别模型中，提升模型的性能。实际实验显示，将使用本发明提供的意图识别模型训练方法训练后的意图识别模型的准确率提升到92.8％。

Encoder将高维空间中的向量X压缩成低维空间的向量z，Decoder是将低维空间的向量z解压缩重构为扩充样本X’。为了确保重构的样本X’的可控性，需要增加了约束条件c。

步骤a:获取条件变分自编码器训练数据；

步骤b:利用所述条件变分自编码器训练数据对所述条件变分自编码器进行训练。

其中，在Encoder阶段，给定一个约束条件c，将输入的高维空间向量X压缩为低维空间向量z。即Q(z|X,c)表示当约束条件为c和输入向量为X时，隐变量z的编码器输出分布。假设在约束条件c下，隐变量z的真实分布P(z|c)是服从均值为μ和方差为δ²的正态分布，可通过计算KL散度D_KL[(Q(z|X,c)||P(z|c)]衡量隐变量z的编码器输出分布和隐变量z的真实分布(即上述的正态分布)这两个概率分布间的差异程度。

在Decoder阶段，将低维空间的向量z解压缩为扩充样本X’，即文本重构的过程。为了使解码器输出的概率分布P(X’|z,c)逼近真实数据的分布P(X)，我们通过最大似然估计优化解码器输出P(X’|z,c)的概率分布，即E_z～Q[logP(X’|z,c)。

基于此，条件变分自编码器的损失(Loss)函数由Encoder阶段的KL散度误差和Decoder阶段的最大似然估计组成，如以下公式所示：

LOSS＝E_z～Q[logQ(z|X,c)]-D_KL[logQ(z|X,c)||logP(z|c)]

具体地，将条件变分自编码器训练数据输入预建立的条件变分自编码器中，得到一输出结果，而后计算该条件变分自编码器的损失值，然后根据损失值调整条件变分自编码器的参数，实现条件变分自编码器训练。

在一个进一步地实施例中，该意图识别模型训练方法还可以包括：

步骤c：获取CVAE测试样本；

步骤d：应用所述CVAE测试样本对所述条件变分自编码器进行测试，并将该模型的输出作为测试结果；

具体地，将CVAE测试样本输入条件变分自编码器中，将该条件变分自编码器的输出作为测试结果。

步骤e：基于所述测试结果判断条件变分自编码器是否符合预设要求；

若是，则将当前条件变分自编码器作为用于数据增强的条件变分自编码器；若当前条件变分自编码器不符合要求，则对当前条件变分自编码器进行优化。

值得说明的是，在Decoder文本生成过程中，输入是encoder阶段生成的隐变量z以及约束条件c，Decoder输出的是原始文本的概率分布P(X’|z,c)。在微观上，原始训练样本由多个单词构成，即Decoder每一个隐状态的输出是词表的概率分布P(x_i|x_1:i-1)。生成的目标是从词表的概率分布P(x_i|x_1:i-1)中选取一个词x_i作为最终输出的当前单词，迭代当前单词生成过程，直到生成k个完整的句子X’＝{x1,x2,…,xn}，其中k作为超参数选择，表明一个原始文本对应生成的增强句子个数。

在一个可选的实施例中，为了让生成出的单词更有差异化、更合理、更加适用于文本生成中词表中单词频率小或者单词概率分布。在Decoder输出当前单词时使用top-k采样策略，具体方法为：

其中，V^(k)表示前k个概率值高的单词集合，

为前k个单词的概率值总和，然后将当前词表概率分布中P(x|x_1:i-1)调整为P′(x|x_1:i-1)＝P(x|x_1:i-1)/p′，最后从调整后的词表概率分布P′(x|x_1:i-1)中根据概率值采样一个单词作为当前输出。

在一个可选的实施例中，该意图识别模型训练方法还可以包括对训练样本数据进行预处理的步骤。

具体地，该预处理可以包括：分词、去除停用词等。

值得说明的是，对训练样本进行分词、去除停用词等预处理后，统计样本中不重复的词语生成词表，并计算每个词的TFIDF权重值，进而对数据进行向量空间表示。训练样本用来进行模型的训练，扩充样本进行参数的调优，测试样本进行评估模型的性能。

为了验证本发明实施例提供的意图识别模型训练方法的有效性，利用银行数据对本发明实施例提供的意图识别模型训练方法进行了模拟试验，过程和结果如下：

训练模型的数据来自于真实的客服经理与客户之间关于理财产品交互的对话文本，包含2281条数据。通过计算两名标注人员对2281条数据的标注结果(即人工标注的标签)的Kappa值来验证标注的一致性。依照标注流程，得到最终Kappa值为0.81，说明标注者对意图的理解较为一致。同时，为了避免实验结果的偶然性，采用5倍交叉验证的方法进行实验。

然后，利用上述标注数据对分类特征进行评价。评价指标为正确率Acc.，准确率P，召回率R以及F-值F。具体定义为Precision＝|A∩B|/|A|，Recall＝|A∩B|/|B，F＝2PR/(P+R)。其中，A表示意图识别模型识别为正例的数据集，B表示人工标注为正例的数据集合。

在意图识别的实验中使用卷积神经网络(CNN)模型，所使用的环境为python3.6；设置卷积核大小为[6,7,8]，卷积核个数为384个，词向量使用腾讯AILab2018年开源的词向量，其维度为200；Padding长度为64个词；训练过程中使用batchsize大小为64；Dropout设置为0.8；训练轮数为50或100，最后使用L2正则化进行约束。

条件变分自编码器中Encoder阶段中所使用的RNN神经网络，其隐含层节点个数设置为256；根据对于文本句子长度的分析，设定在Encoder和Decoder中最大长度为100，batch size大小为64，通过从正态分布μ(-0.1,0.1)采样初始化参数,训练轮数为200，调整KL损失的权重初始为0，随着训练次数的增加阶段性的递增，直到KL损失函数权重值为1后固定不变。

为了与现有的意图识别工作进行对比，将基于SVM+特征的意图识别方法作为基线方法，具体如下：

(1)TFIDF+SVM:TFIDF是文本分类任务中广泛使用的分类特征，本文将其作为一个基线方法。

(2)TFIDF+Lenth+SVM：在基线方法的基础上，加入了长度特征作为另一个基线方法。

首先，对训练语料进行分词、去除停用词等预处理，统计语料中不重复的词语生成词表，并计算每个词的TFIDF权重值，进而对数据进行向量空间表示。在基线实验中，使用sklearn工具库提供的SVM方法，所使用的核函数是高斯核函数。

本申请首先使用预训练的意图识别模型对测试语料进行意图分类，然后使用基于CVAE的生成模型进行训练，并将生成的带有意图标签的结果数据样本加入到训练样本集中，然后利用扩充后的新样本重新训练意图识别模型，对意图识别模型的分类结果进行更新，意图识别实验结果如表2所示。

表2意图识别实验结果

实验方法	Precision	Recall	F值
				TFIDF+SVM	0.83	0.82	0.83
TFIDF+Lenth+SVM	0.87	0.87	0.87
				CNN	0.918	0.851	0.878

(1)给定同一个分类模型(SVM)，基于TFIDF+Lenth特征的方法比基于TFIDF特征的取得了更好的实验效果。这主要是因为客户在表达不同意图时所使用的句子长度不同，因此非常有助于客户意图的分类任务。

(2)本申请使用的CNN模型在Precision上获得了比SVM更好的实验结果。这是因为CNN模型能够有效的利用句子的全局特征(基于max pooling层)和局部特征(基于卷积层)，并且通过卷积神经网络的非线性变化能够学习到最终输出结果与特征之间的关系(基于Sigmoid层)。

其中，表3示出了基于CVAE增强后的意图识别实验结果。

表3基于CVAE增强后的意图识别实验结果

实验方法	Precision	Recall	F值
				CVAE+CNN	0.914	0.918	0.913
CVAE+top-k策略+CNN	0.928	0.914	0.922

通过对实验结果的观察分析可以看到，基于CVAE的训练数据集扩充后，也就是随着意图领域训练数据的增加，意图识别的结果也随之变好，特别是对于模型的召回率有所提升，这主要是因为有更多的领域训练语料数据不断加入，可以帮助模型更好的刻画不同类别的特征，因此可以得到更好的实验结果。最终，在实验中我们将生成的20595条新语料加入到训练语料中，将模型准确率提升到92.8％。

基于同一发明构思，本申请实施例还提供了一种意图识别模型训练装置，可以用于实现上述实施例所描述的方法，如下面的实施例所述。由于意图识别模型训练装置解决问题的原理与上述方法相似，因此意图识别模型训练装置的实施可以参见上述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是本发明实施例中的意图识别模型训练装置的结构框图。如图6所示，该意图识别模型训练装置具体包括：初步训练模块10、数据增强模块20以及再训练模块30。

初步训练模块10利用带标签的训练样本数据对卷积神经网络进行初步训练；

数据增强模块20采用条件变分自编码器对所述带标签的训练样本数据进行数据增强得到带标签的扩充样本数据；

再训练模块30利用所述带标签的扩充样本数据对经过初步训练的卷积神经网络进行再训练，得到意图识别模型。

本发明实施例提供的意图识别模型训练装置，通过采用条件变分自编码器对所述带标签的训练样本数据进行数据增强得到带标签的扩充样本数据，然后利用所述带标签的扩充样本数据对经过初步训练的卷积神经网络进行再训练，能够在利用少量精确标注的训练语料的基础上，提高模型精度，降低人工成本。而且还能够针对训练数据少的数据种类进行扩充增强，实现数据平衡，提高模型性能。

在一个可选的实施例中所述条件变分自编码器包括：用于将语句向量压缩为隐变量的编码器以及用于将隐变量解压缩重构为扩充语句向量的解码器；所述数据增强模块20包括：文本-向量转换单元、编码单元、解码单元以及向量-文本转换单元。

文本-向量转换单元，将一训练样本转换为语句向量；

编码单元，将所述语句向量以及预设约束条件输入所述编码器得到所述隐变量；

解码单元，将所述隐变量以及所述预设约束条件输入所述解码器得到所述扩充句子向量；

向量-文本转换单元，将所述扩充句子向量转换为一扩充样本；

其中，所述扩充样本的标签与所述训练样本的标签相同。

在一个可选的实施例中，该编码器可采用RNN实现。该解码器可采用神经网络实现。

在一个可选的实施例中，意图识别模型训练装置还可以包括：

编码器训练数据获取模块，获取条件变分自编码器训练数据；

编码器训练模块，利用所述条件变分自编码器训练数据对所述条件变分自编码器进行训练。

图7是本发明实施例中的意图识别方法的流程示意图；如图7所示，该意图识别方法包括：

步骤S1000:获取待识别意图数据；

其中，该待识别意图数据可为语句文本，也可以是语音，而后基于语音识别技术，将该语音转换为语句文本。

步骤S2000:将所述待识别意图数据输入如上述的意图识别模型训练方法训练后的意图识别模型，并将所述意图识别模型的输出作为所述待识别意图数据的意图。

具体地，由于该意图识别模型利用了基于条件变分自编码器扩充的很多扩充样本进行了再训练，因此，该意图识别模型的准确率高，应用该意图识别模型识别待识别意图数据时，识别准确性高。

基于同一发明构思，本申请实施例还提供了一种意图识别装置，可以用于实现上述实施例所描述的方法，如下面的实施例所述。由于意图识别装置解决问题的原理与上述方法相似，因此意图识别装置的实施可以参见上述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图8是本发明实施例中的意图识别装置的结构框图。如图8所示，该意图识别装置包括：待识别数据获取模块100以及意图识别模块200。

待识别数据获取模块100获取待识别意图数据；

意图识别模块200将所述待识别意图数据输入如上述的意图识别模型训练方法训练后的意图识别模型，并将所述意图识别模型的输出作为所述待识别意图数据的意图。

其中，由于该意图识别模型利用了基于条件变分自编码器扩充的很多扩充样本进行了再训练，因此，该意图识别模型的准确率高，应用该意图识别模型识别待识别意图数据时，识别准确性高。

上述实施例阐明的装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为电子设备，具体的，电子设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

在一个典型的实例中电子设备具体包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现下述步骤：

利用带标签的训练样本数据对卷积神经网络进行初步训练；

从上述描述可知，本发明实施例提供的电子设备，可用于训练意图识别模型，通过采用条件变分自编码器对所述带标签的训练样本数据进行数据增强得到带标签的扩充样本数据，然后利用所述带标签的扩充样本数据对经过初步训练的卷积神经网络进行再训练，能够在利用少量精确标注的训练语料的基础上，提高模型精度，降低人工成本。

下面参考图9，其示出了适于用来实现本申请实施例的电子设备600的结构示意图。

如图9所示，电子设备600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM))603中的程序而执行各种适当的工作和处理。在RAM603中，还存储有***600操作所需的各种程序和数据。CPU601、ROM602、以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡，调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装如存储部分608。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现下述步骤：

利用带标签的训练样本数据对卷积神经网络进行初步训练；

从上述描述可知，本发明实施例提供的计算机可读存储介质，可用于训练意图识别模型，通过采用条件变分自编码器对所述带标签的训练样本数据进行数据增强得到带标签的扩充样本数据，然后利用所述带标签的扩充样本数据对经过初步训练的卷积神经网络进行再训练，能够在利用少量精确标注的训练语料的基础上，提高模型精度，降低人工成本。

在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种意图识别模型训练方法，其特征在于，包括：

利用带标签的训练样本数据对卷积神经网络进行初步训练；

2.根据权利要求1所述的意图识别模型训练方法，所述条件变分自编码器包括：用于将语句向量压缩为隐变量的编码器以及用于将隐变量解压缩重构为扩充语句向量的解码器；

将一训练样本转换为语句向量；

将所述扩充句子向量转换为一扩充样本；

其中，所述扩充样本的标签与所述训练样本的标签相同。

3.根据权利要求2所述的意图识别模型训练方法，所述编码器采用RNN实现。

4.根据权利要求2所述的意图识别模型训练方法，所述解码器采用神经网络实现。

5.根据权利要求1所述的意图识别模型训练方法，其特征在于，还包括：

获取条件变分自编码器训练数据；

6.一种意图识别方法，其特征在于，包括：

获取待识别意图数据；

将所述待识别意图数据输入如权利要求1至5任一项所述的意图识别模型训练方法训练后的意图识别模型，并将所述意图识别模型的输出作为所述待识别意图数据的意图。

7.一种意图识别模型训练装置，其特征在于，包括：

8.一种意图识别装置，其特征在于，包括：

待识别数据获取模块，获取待识别意图数据；

意图识别模块，将所述待识别意图数据输入如权利要求1至5任一项所述的意图识别模型训练方法训练后的意图识别模型，并将所述意图识别模型的输出作为所述待识别意图数据的意图。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至5任一项所述的意图识别模型训练方法或者权利要求6所述的意图识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至5任一项所述的意图识别模型训练方法或者权利要求6所述的意图识别方法的步骤。