CN111160010A

CN111160010A - 缩略句理解模型的训练方法及***

Info

Publication number: CN111160010A
Application number: CN201911407761.8A
Authority: CN
Inventors: 朱钦佩
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-15
Anticipated expiration: 2039-12-31
Also published as: CN111160010B

Abstract

本发明实施例提供一种缩略句理解模型的训练方法。该方法包括：接收对话训练数据集；构建基于encoder‑decoder框架的缩略句理解模型；将第一轮完整语句、第二轮缩略语句作为encoder‑编码层的输入，通过自注意力机制确定出第二轮缩略语句的第二句子特征向量；基于第一词特征向量和第二句子特征向量，确定第二轮缩略语句与第一轮完整语句的关系特征向量；decoder‑解码层基于关系特征向量，生成第二轮缩略语句的模拟完整语句，基于模拟完整语句以及目标完整语句对缩略句理解模型进行训练。本发明实施例还提供一种缩略句理解模型的训练***。本发明实施例利用神经网络中生成模型，将省略句还原为完整语句，提升缩略句理解模型的理解效果，有效提升用户对对话***的回复满意率。

Description

缩略句理解模型的训练方法及***

技术领域

本发明涉及自然语言处理领域，尤其涉及一种缩略句理解模型的训练方法及***。

背景技术

自然语言人机交互是当前人工智能发展的热门领域，广泛应用于我们的生活中，比如“陪伴机器人”，“车载语音导航”，“智能家电”等等。在人机交互过程中，用户往往由于习惯，会给出大量缩略句，比如“换成别的吧”，“你觉得呢”，“是不是这样”等等。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

当前大多数对话***都是单轮对话***，几乎无法正确理解用户的真实意图。目前主要有两个方案解决用户缩略句问题：1、规则解析；2、多轮统计解析。

规则解析是在设置的规则范围内，不断从用户给出的信息中完善***所需要的各类信息，当信息累积满足一定条件时，自动完成用户指定的任务。比如“苏州今天天气怎么样”->“南京呢”，规则对话***根据第一句话切换到封闭领域“天气”(如果没有其他强烈意图，***会一直保持“天气”模式)。对话***根据第一句话解析出“地点＝苏州，时间＝今天”，根据这两个信息，回复用户查询结果。当用户说“南京呢”，***则将解析结果替换为“地点＝南京，时间＝今天”。规则对话***有两大局限性，一是在封闭领域内有很好的应用效果，但几乎无法推广到开放领域；二是即使在封闭领域也需要人工设置大量规则逻辑，但规则总有覆盖不到的地方。

多轮统计解析是用神经网络算法，根据输入的多轮信息，输出***回复。这个方案是综合上下文整体信息后给出的回复。但目前端到端(end-to-end)的多轮训练不成熟，还没有达到应用的程度。另外，多轮统计算法除了缩略句问题，还面临“话题转换”，“人物承接”，“态度一致性”等等更富有挑战的问题。

发明内容

为了至少解决现有技术中的缩略句理解模型只用于在封闭领域内，具有局限性，理解效果较差的问题。

第一方面，本发明实施例提供一种缩略句理解模型的训练方法，包括：

接收对话训练数据集，所述对话训练数据集包括：用户连续请求的第一轮完整语句、第二轮缩略语句，以及用于表示所述第二轮缩略语句的目标完整语句；

构建基于encoder-decoder框架的缩略句理解模型，所述缩略句理解模型包括encoder-编码层以及decoder-解码层，其中，所述缩略句理解模型用于将省略句还原为完整语句；

将所述第一轮完整语句、所述第二轮缩略语句作为所述encoder-编码层的输入，通过自注意力机制确定出所述第二轮缩略语句的第二句子特征向量；

确定所述第一轮完整语句中每个词语的第一词特征向量，基于所述第一词特征向量以及所述第二句子特征向量，确定所述第二轮缩略语句与所述第一轮完整语句的关系特征向量，作为所述encoder-编码层的输出；

所述decoder-解码层基于所述关系特征向量，生成所述第二轮缩略语句的模拟完整语句，基于所述模拟完整语句以及所述目标完整语句对所述缩略句理解模型进行训练，以将所述模拟完整语句趋近所述目标完整语句。

第二方面，本发明实施例提供一种缩略句理解模型的训练***，包括：

数据接收程序模块，接收对话训练数据集，所述对话训练数据集包括：用户连续请求的第一轮完整语句、第二轮缩略语句，以及用于表示所述第二轮缩略语句的目标完整语句；

模型构建程序模块，用于构建基于encoder-decoder框架的缩略句理解模型，所述缩略句理解模型包括encoder-编码层以及decoder-解码层，其中，所述缩略句理解模型用于将省略句还原为完整语句；

句子特征确定程序模块，用于将所述第一轮完整语句、所述第二轮缩略语句作为所述encoder-编码层的输入，通过自注意力机制确定出所述第二轮缩略语句的第二句子特征向量；

关系特征确定程序模块，用于确定所述第一轮完整语句中每个词语的第一词特征向量，基于所述第一词特征向量以及所述第二句子特征向量，确定所述第二轮缩略语句与所述第一轮完整语句的关系特征向量，作为所述encoder-编码层的输出；

训练程序模块，用于所述decoder-解码层基于所述关系特征向量，生成所述第二轮缩略语句的模拟完整语句，基于所述模拟完整语句以及所述目标完整语句对所述缩略句理解模型进行训练，以将所述模拟完整语句趋近所述目标完整语句。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的缩略句理解模型的训练方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的缩略句理解模型的训练方法的步骤。

本发明实施例的有益效果在于：利用神经网络中生成模型，其包含了词与词的内部关系，也包含句子与句子之间关系，根据输入的上下文，将省略句“还原”为完整语句，提升缩略句理解模型的理解效果，有效提升用户对对话***的“回复满意率”。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种缩略句理解模型的训练方法的流程图；

图2是本发明一实施例提供的一种缩略句理解模型的训练***的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种缩略句理解模型的训练方法的流程图，包括如下步骤：

S11：接收对话训练数据集，所述对话训练数据集包括：用户连续请求的第一轮完整语句、第二轮缩略语句，以及用于表示所述第二轮缩略语句的目标完整语句；

S12：构建基于encoder-decoder框架的缩略句理解模型，所述缩略句理解模型包括encoder-编码层以及decoder-解码层，其中，所述缩略句理解模型用于将省略句还原为完整语句；

S13：将所述第一轮完整语句、所述第二轮缩略语句作为所述encoder-编码层的输入，通过自注意力机制确定出所述第二轮缩略语句的第二句子特征向量；

S14：确定所述第一轮完整语句中每个词语的第一词特征向量，基于所述第一词特征向量以及所述第二句子特征向量，确定所述第二轮缩略语句与所述第一轮完整语句的关系特征向量，作为所述encoder-编码层的输出；

S15：所述decoder-解码层基于所述关系特征向量，生成所述第二轮缩略语句的模拟完整语句，基于所述模拟完整语句以及所述目标完整语句对所述缩略句理解模型进行训练，以将所述模拟完整语句趋近所述目标完整语句。

在本实施方式中，考虑到用户的历史对话信息，将潜在的用户缩略句还原完整表达语句，进而，在收集对话训练数据时，选择用户输入的多轮对话。

对于步骤S11，首先需要构建训练数据，缩略句理解模型的输入为多轮对话的用户请求的数据，输出为转换完的完整语句或最后一轮用户的数据，训练集中需要包含差不多等量的第一组和第二组形式的数据。作为一种实施方式，所述对话训练数据集还包括：字符标记，用于对第一轮完整语句、第二轮缩略语句进行标记分割。

在本实施方式中，以两轮对话数据举例：

第一组：

Q:<BOS>苏州天气怎么样<SEG>南京呢<EOS>

A:<BOS>南京天气怎么样<EOS>

第一轮完整语句为“苏州天气怎么样”，第二轮缩略语句为“南京呢”，第二轮缩略语句的目标完整语句为“南京天气怎么样”。

第二组：

Q:<BOS>我的书包有轮子哈哈<SEG>大家都很忙<EOS>

A:<BOS>大家都很忙<EOS>

第一轮完整语句为“我的书包有轮子哈哈”，第二轮缩略语句为“大家都很忙”，第二轮缩略语句的目标完整语句为“大家都很忙”。

上面示例中<BOS>表示序列开头，<SEG>表示两个句子分隔符，<EOS>表示序列结尾。Q为用户在两轮对话中输入的句子，A为输出的完整句子。

对于步骤S12，要构建的模型需要有判断两个句子之间关系的能力，来决定输出的句子应该保持不变，还是需要融合。

利用“编码-解码”(encode-decode)框架，通过“seq2seq-attention”、“tansformer”等这些算法能够有效的学习到输入文本的特征，并巧妙的利用这些特征组织输出文本。对于缩略语问题，生成模型需要遵循的原则是：(1)扩展缩略语不能改变原有语义；(2)非缩略语的句子应该完整输出。这要求模型既要有扩展缩略语的能力，也要有缩略语的识别能力。

对于步骤S13，在tarnsformer的encoder阶段，Transformer自带的self-attention机制，表示了句子内部词与词之间的关系。另外，还需要构建句子级的attention来表示输入的两个句子之间的关系。

作为一种实施方式，所述通过自注意力机制确定出所述第二轮缩略语句的句子特征向量包括：

通过自注意力机制输出所述第一轮完整语句、所述第二轮缩略语句中每个词语的特征向量，其中，所述词语的特征向量包括所述词语与其他词语之间的关系信息；

基于所述第二轮缩略语句中所有词语的特征向量，确定所述第二轮缩略语句的句子特征向量。

通过对所述第二轮缩略语句中所有词语的特征向量求平均，确定出所述第二轮缩略语句的句子特征向量。

在本实施方式中，encoder-编码层输入“<BOS>苏州天气怎么样<SEG>南京呢<EOS>”，将“南京呢”三个字的embedding求平均，作为它的句子特征S。

对于步骤S14，在步骤S13中确定的第二轮缩略语句的句子特征来确定第二轮缩略语句与所述第一轮完整语句的关系特征，

作为一种实施方式，将所述第二句子特征向量与所述第一词特征向量进行注意力计算，得到多个所述第二轮缩略语句与所述第一轮完整语句的子关系特征向量；

将所述多个子关系特征向量进行拼接，得到关系特征向量。

在本实施方式中，用步骤S13中确定的句子特征S与“苏州天气怎么样”中每个字的embedding做attention处理，从而输出隐藏向量Sa，通过所述隐藏向量来表示第一轮完整语句与第二轮缩略语句之间的关系。

如果encoder-编码层有多层，每层计算以此类推，encoder-编码层最后输出每个字的隐藏层向量H_i(i＝1,...,13)和句子关系表示ESa。将H_i与ESa拼接到一起，作为encoder-编码层的最终输出Enc。

对于步骤S15：在encoder-编码层得到关系特征向量，确定第一轮完整语句与第二轮缩略语句之间的关系后，在decoder-解码层基于确定的隐藏向量来生成第二轮缩略语句的模拟完整语句。由于处于训练阶段，此时模拟完整语句可能与目标完整语句有些差距。将目标完整语句输入至decoder-解码层，确定所述目标完整语句和模拟完整语句向量的误差，通过误差来对缩略句理解模型进行训练，从而将模拟完整语句趋近所述目标完整语句。

通过该实施方式可以看出，利用神经网络中生成模型，其包含了词与词的内部关系，也包含句子与句子之间关系，根据输入的上下文，将省略句“还原”为完整语句，提升缩略句理解模型的理解效果，有效提升用户对对话***的“回复满意率”。

如图2所示为本发明一实施例提供的一种缩略句理解模型的训练***的结构示意图，该***可执行上述任意实施例所述的缩略句理解模型的训练方法，并配置在终端中。

本实施例提供的一种缩略句理解模型的训练***包括：数据接收程序模块11，模型构建程序模块12，句子特征确定程序模块13，关系特征确定程序模块14和训练程序模块15。

其中，数据接收程序模块11接收对话训练数据集，所述对话训练数据集包括：用户连续请求的第一轮完整语句、第二轮缩略语句，以及用于表示所述第二轮缩略语句的目标完整语句；模型构建程序模块12用于构建基于encoder-decoder框架的缩略句理解模型，所述缩略句理解模型包括encoder-编码层以及decoder-解码层，其中，所述缩略句理解模型用于将省略句还原为完整语句；句子特征确定程序模块13用于将所述第一轮完整语句、所述第二轮缩略语句作为所述encoder-编码层的输入，通过自注意力机制确定出所述第二轮缩略语句的第二句子特征向量；关系特征确定程序模块14用于确定所述第一轮完整语句中每个词语的第一词特征向量，基于所述第一词特征向量以及所述第二句子特征向量，确定所述第二轮缩略语句与所述第一轮完整语句的关系特征向量，作为所述encoder-编码层的输出；训练程序模块15用于所述decoder-解码层基于所述关系特征向量，生成所述第二轮缩略语句的模拟完整语句，基于所述模拟完整语句以及所述目标完整语句对所述缩略句理解模型进行训练，以将所述模拟完整语句趋近所述目标完整语句。

进一步地，所述句子特征确定程序模块用于：

进一步地，所述句子特征确定程序模块还用于：

进一步地，所述关系特征确定程序模块用于：

将所述第二句子特征向量与所述第一词特征向量进行注意力计算，得到多个所述第二轮缩略语句与所述第一轮完整语句的子关系特征向量；

将所述多个子关系特征向量进行拼接，得到关系特征向量。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的缩略句理解模型的训练方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的缩略句理解模型的训练方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的缩略句理解模型的训练方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种缩略句理解模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述通过自注意力机制确定出所述第二轮缩略语句的句子特征向量包括：

3.根据权利要求2所述的方法，其中，所述基于所述第二轮缩略语句中所有词语的特征向量，确定所述第二轮缩略语句的句子特征向量包括：

4.根据权利要求1所述的方法，其中，所述确定所述第一轮完整语句中每个词语的第一词特征向量，基于所述第一词特征向量以及所述第二句子特征向量，确定所述第二轮缩略语句与所述第一轮完整语句的关系特征向量包括：

将所述多个子关系特征向量进行拼接，得到关系特征向量。

5.一种缩略句理解模型的训练***，包括：

6.根据权利要求5所述的***，其中，所述句子特征确定程序模块用于：

7.根据权利要求6所述的***，其中，所述句子特征确定程序模块还用于：

8.根据权利要求5所述的***，其中，所述关系特征确定程序模块用于：

将所述多个子关系特征向量进行拼接，得到关系特征向量。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。