CN110765270B

CN110765270B - 用于口语交互的文本分类模型的训练方法及***

Info

Publication number: CN110765270B
Application number: CN201911066202.5A
Authority: CN
Inventors: 方艳; 徐华; 初敏
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2022-07-01
Anticipated expiration: 2039-11-04
Also published as: CN110765270A

Abstract

本发明实施例提供一种用于口语交互的文本分类模型的训练方法。该方法包括：获取口语文本语料训练集以及对话历史语境信息；通过对话历史语境信息对口语文本语料训练集进行语料扩充，丰富口语文本语料训练集；基于双向长短时记忆网络建立文本分类模型，通过对话历史语境信息以及语料扩充后的口语文本语料训练集，对文本分类模型进行训练，使文本分类模型通过对话历史语境信息学习到口语文本的领域分类。本发明实施例还提供一种用于口语交互的文本分类模型的训练***。本发明实施例确定对话历史语境信息，构造大量的虚拟对话文本，弥补了语料不足；将对话历史语境信息作为训练模型输入的一部分，对话历史语境信息帮助模型提升领域分类的准确率。

Description

用于口语交互的文本分类模型的训练方法及***

技术领域

本发明涉及智能语音对话领域，尤其涉及一种用于口语交互的文本分类模型的训练方法及***。

背景技术

在口语交互的文本分类中，通常会利用大量的人工标注语料训练深度学习模型，模型能自动获取文本特征，模型输出结果后，也需要结合上一轮对话状态设计规则选择最终的领域输出。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

基于特征工程的文本分类方法，需要耗费人力设计文本特征，特征设计的好坏制约着模型最终的性能，且该方法使用的特征往往具有稀疏性和维度***的问题，导致最终的分类性能相对较低。

无论是基于特征工程的方法还是深度学习的方法，分类模型的输入都是当前用户说话的文本，没有考虑到对话历史信息对模型分类的作用。模型输出的领域只是一个中间状态，需要结合对话历史，设计相应的领域选择规则，从模型给出的备选领域中，筛选出一个或多个领域作为最终的输出。这类方法整个流程相对繁琐，不够简单方便；人为设计的规则往往不够灵活，且精确度不够。

发明内容

为了至少解决现有技术中人工设计文本特征耗时耗力；分类模型得出结果后还需要人为设计规则判断最终的领域，不仅耗时耗力、且不够灵活；对话信息能够帮助模型判断领域，提升领域分类的精确性，但是现有的方法模型中没有加入对话信息的问题。

第一方面，本发明实施例提供一种用于口语交互的文本分类模型的训练方法，包括：

获取口语文本语料训练集以及对话历史语境信息；

通过所述对话历史语境信息对所述口语文本语料训练集进行语料扩充，丰富所述口语文本语料训练集；

基于双向长短时记忆网络建立文本分类模型，通过所述对话历史语境信息以及语料扩充后的口语文本语料训练集，对所述文本分类模型进行训练，使所述文本分类模型通过对话历史语境信息学习到口语文本的领域分类。

第二方面，本发明实施例提供一种用于口语交互的文本分类模型的训练***，包括：

信息获取程序模块，用于获取口语文本语料训练集以及对话历史语境信息；

语料扩充程序模块，用于通过所述对话历史语境信息对所述口语文本语料训练集进行语料扩充，丰富所述口语文本语料训练集；

模型训练程序模块，用于基于双向长短时记忆网络建立文本分类模型，通过所述对话历史语境信息以及语料扩充后的口语文本语料训练集，对所述文本分类模型进行训练，使所述文本分类模型通过对话历史语境信息学习到口语文本的领域分类。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于口语交互的文本分类模型的训练方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于口语交互的文本分类模型的训练方法的步骤。

本发明实施例的有益效果在于：提取了影响下一轮对话所在领域的关键因素，确定对话历史语境信息，通过所述对话历史语境信息构造大量的虚拟对话文本，弥补了口语文本语料训练集的语料不足的情况；并且将对话历史语境信息作为训练模型输入的一部分，模型的输出即是符合当前对话场景下的最终领域结果。整个***没有了繁琐的人工判断领域的过程，不仅省时省力，而且对话历史语境信息还能帮助模型提升领域分类的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于口语交互的文本分类模型的训练方法的流程图；

图2是本发明一实施例提供的一种用于口语交互的文本分类模型的训练方法的结构流程图；

图3是本发明一实施例提供的一种用于口语交互的文本分类模型的训练方法的对话历史语境信息加入BLSTM模型的示意图；

图4是本发明一实施例提供的一种用于口语交互的文本分类模型的训练方法的性能对比示意图；

图5是本发明一实施例提供的一种用于口语交互的文本分类模型的训练***的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于口语交互的文本分类模型的训练方法的流程图，包括如下步骤：

S11：获取口语文本语料训练集以及对话历史语境信息；

S12：通过所述对话历史语境信息对所述口语文本语料训练集进行语料扩充，丰富所述口语文本语料训练集；

S13：基于双向长短时记忆网络建立文本分类模型，通过所述对话历史语境信息以及语料扩充后的口语文本语料训练集，对所述文本分类模型进行训练，使所述文本分类模型通过对话历史语境信息学习到口语文本的领域分类。

在本实施方式中，不带对话信息的口语文本比较容易获得，但拥有对话上下文的标注数据比较稀少，标注起来比较耗时耗力。对话的历史信息有很多内容，包括上一轮对话所在的领域，机器的回答等。如何有效的利用这些信息不容易想到。

对于步骤S11，在训练口语交互的文本分类模型中，不单单需要口语文本语料训练集，还需额外的对话历史语境信息，考虑多个维度的数据对文本分类模型进行训练。

作为一种实施方式，所述获取口语文本语料训练集以及对话历史语境信息包括：

基于口语交互的领域集合、意图集合以及用于反馈意图的回复模板集合，提取所述领域集合、意图集合中相关联的领域-意图；

在所述回复模板集合中提取与所述领域-意图相匹配的回复模板，确定领域-意图-对话模板；

获取所述领域-意图-对话模板确定为对话历史语境信息。

在本实施方式中，历史的上下文对话信息中有很多内容，但是上一轮对话所在的领域(简称pre_domain)、上一轮对话用户的意图(简称pre_intent)、上一轮对话***的回复(简称pre_systemreply)这三者是影响下一轮对话所在领域的关键因素。pre_domain所在的范围是有限的，即定义的领域集合；在特定的领域下，pre_intent的范围也是有限的，即定义的意图集合；在特定的领域和意图前提下，pre_systemreply的模板也是有限的，是定义的回复模板集合。***在有限的模板中选择一个合适的模板，然后把模板中的变量替换成具体的取值，从而生成最终的***回复。因此，在对话语料不足的情况下，可以人为的构造虚拟的、带有上下文信息的对话文本。将pre_domain、pre_intent、pre_systemreply(领域-意图-对话模板)一起作为句子的对话历史语境信息(简称dialog_context)，例如：“音乐-播放歌曲-正在为您播放{歌曲名}”就是一个完整的dialog_context，“音乐”表示上一轮的对话领域是音乐领域，“播放歌曲”表示上一轮用户的意图，“正在为您播放{歌曲名}”表示上一轮***的回复模板。

在本实施方式中，所述口语交互的领域集合、意图集合以及用于反馈意图的回复模板集合为在获取所述对话历史语境信息前预先配置的。例如，人工预先定义的领域集合、意图集合、回复模板集合，也可以通过其他方式进行获取。

对于步骤S12，由于带有dialog_context的真实对话标注文本不易获得，而不带dialog_context的纯本文语料比较多见，因此在对话语料不足的情况下，需要构造对话文本。构造方法：从领域集合中随机挑选一个领域作为文本语料的pre_domain、再从该pre_domain支持的意图集合中选择一个为pre_intent，然后根据该pre_intent支持的回复模板随机选择一个作为pre_systemreply。我们把选定的pre_domain、pre_intent、pre_systemreply作为句子的dialog_context，最后根据当前的dialog_context将原始标注修改成新的领域标注，新的标注结果即符合当前对话场景下的领域结果。使用这种语料构造的方法，一个句子可以构造多个带有dialog_context的句子，从而丰富了口语文本语料训练集。

对于步骤S13，本方法使用双向长短时记忆网络(BLSTM，bidirectional long-short term memory network)进行建模。传统LSTM存在的一个缺陷是它仅能够利用从正向序列中来的以前的内容。在文本类别分析中，以反向序列而来的未来的内容对分类的判断也起至关重要的作用。通过处理正向和反向的序列来抽取结构化知识,这样来自于过去和未来的互补信息可以整合到一起用于推理。双向LSTM用2个独立的隐层从正向和反向2个方向来处理数据，以达到上述目的，然后把正向序列和反向序列的隐层输出都作为输出层的输入。如图2所示，将dialog_context和文本同时作为BLSTM模型的输入，模型拥有对话领域的信息，模型输出领域后不需要再根据对话历史信息做领域选择的判断，模型的输出结果就是符合当前上下文的最优领域分类结果。

通过对训练后的文本分类模型进行口语交互场景下的领域分类，就是根据上文对话状态给当前用户说的句子划分出所有可能的领域。该任务的特点是，前一时刻对话历史信息对下一轮对话所属领域的判断有着重要的影响，在不同的对话历史下，文本的领域分类结果会有所不同。例如，对“播放匆匆那年”这个句子进行领域划分，由于“匆匆那年”即是一首歌、又是一部电影的名字，故该句可同时属于“音乐”和“影视”领域。若dialog_context是“音乐-播放歌曲-正在为您播放{歌曲名}”，那么该句的领域是“音乐”的可能性就更大；若dialog_context是“影视-查找电影-已为您找到{数量}个{电影名}资源”，那么该句属于“影视”的可能性就更大。这样可以使文本分类模型通过对话历史语境信息学习到口语文本的领域分类。

通过该实施方式可以看出，提取了影响下一轮对话所在领域的关键因素，确定对话历史语境信息，通过所述对话历史语境信息构造大量的虚拟对话文本，弥补了口语文本语料训练集的语料不足的情况；并且将对话历史语境信息作为训练模型输入的一部分，模型的输出即是符合当前对话场景下的最终领域结果。整个***没有了繁琐的人工判断领域的过程，不仅省时省力，而且对话历史语境信息还能帮助模型提升领域分类的准确率。

作为一种实施方式，在本实施例中，所述通过所述对话历史语境信息以及语料扩充后的口语文本语料训练集，对所述文本分类模型进行训练包括：

将所述对话历史语境信息作为所述双向长短时记忆网络的文本分类模型的输入层进行训练；或

将所述对话历史语境信息作为所述双向长短时记忆网络的文本分类模型的输出层进行训练；或

将所述对话历史语境信息作为所述双向长短时记忆网络的文本分类模型的输入层、输出层同时进行训练。

在本实施方式中，BLSTM模型的输入是每个词或者字的embedding。输出层是一个线性的分类器，其输入是BLSTM最后时刻两端隐层的拼接。本发明与传统BLSTM模型不同之处有两点：(1)对话历史语境信息作为模型输入的一部分。把对话历史语境信息加入模型的方式有多种，即可以加在BLSTM的输入层，也可作为输出层的输入，还可以同时加在输入层和输出层，如图3所示。(2)模型的输出是每个领域的“1”和“-1”表示，其中“1”表示属于该领域，“-1”表示不属于该领域，整个***的输出即模型中所有输出为“1”的领域按概率得分的排序。

本方法使用了两个测试集对***分类性能进行评估，分别是人工转写音频的正确文本和语音***识别出的识别文本，正确文本共2万个句子，识别文本共15万个句子，性能如图4所示。其中基础***是传统方法的分类结果，即不加对话历史语境信息作为模型的输入，模型输出领域后，需根据对话历史信息选择最终的领域。从图中可看出本***使用三种加入对话历史语境信息的方法，相对于基础***性能都有提升。

如图5所示为本发明一实施例提供的一种用于口语交互的文本分类模型的训练***的结构示意图，该***可执行上述任意实施例所述的用于口语交互的文本分类模型的训练方法，并配置在终端中。

本实施例提供的一种用于口语交互的文本分类模型的训练***包括：信息获取程序模块11，语料扩充程序模块12和模型训练程序模块13。

其中，信息获取程序模块11用于获取口语文本语料训练集以及对话历史语境信息；语料扩充程序模块12用于通过所述对话历史语境信息对所述口语文本语料训练集进行语料扩充，丰富所述口语文本语料训练集；模型训练程序模块13用于基于双向长短时记忆网络建立文本分类模型，通过所述对话历史语境信息以及语料扩充后的口语文本语料训练集，对所述文本分类模型进行训练，使所述文本分类模型通过对话历史语境信息学习到口语文本的领域分类。

进一步地，所述信息获取程序模块用于：

获取所述领域-意图-对话模板确定为对话历史语境信息。

进一步地，所述口语交互的领域集合、意图集合以及用于反馈意图的回复模板集合为在获取所述对话历史语境信息前预先配置的。

进一步地，所述模型训练程序模块用于：

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于口语交互的文本分类模型的训练方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

获取口语文本语料训练集以及对话历史语境信息；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于口语交互的文本分类模型的训练方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于口语交互的文本分类模型的训练方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于口语交互的文本分类模型的训练方法，包括：

获取口语文本语料训练集以及对话历史语境信息；

基于双向长短时记忆网络建立文本分类模型，通过所述对话历史语境信息以及语料扩充后的口语文本语料训练集，对所述文本分类模型进行训练，使所述文本分类模型通过对话历史语境信息学习到口语文本的领域分类；

其中，所述获取口语文本语料训练集以及对话历史语境信息包括：

获取所述领域-意图-对话模板确定为对话历史语境信息。

2.根据权利要求1所述的方法，其中，所述口语交互的领域集合、意图集合以及用于反馈意图的回复模板集合为在获取所述对话历史语境信息前预先配置的。

3.根据权利要求1所述的方法，其中，所述通过所述对话历史语境信息以及语料扩充后的口语文本语料训练集，对所述文本分类模型进行训练包括：

4.一种用于口语交互的文本分类模型的训练***，包括：

模型训练程序模块，用于基于双向长短时记忆网络建立文本分类模型，通过所述对话历史语境信息以及语料扩充后的口语文本语料训练集，对所述文本分类模型进行训练，使所述文本分类模型通过对话历史语境信息学习到口语文本的领域分类；

其中，所述信息获取程序模块用于：

获取所述领域-意图-对话模板确定为对话历史语境信息。

5.根据权利要求4所述的***，其中，所述口语交互的领域集合、意图集合以及用于反馈意图的回复模板集合为在获取所述对话历史语境信息前预先配置的。

6.根据权利要求4所述的***，其中，所述模型训练程序模块用于：

7.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-3中任一项所述方法的步骤。

8.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-3中任一项所述方法的步骤。