CN111353035B

CN111353035B - 人机对话方法、装置、可读存储介质及电子设备

Info

Publication number: CN111353035B
Application number: CN202010166023.5A
Authority: CN
Inventors: 夏妍; 莫凡; 林锋
Original assignee: Mgjia Beijing Technology Co ltd
Current assignee: Mgjia Beijing Technology Co ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2021-02-19
Anticipated expiration: 2040-03-11
Also published as: CN111353035A

Abstract

本公开涉及一种人机对话方法、装置、可读存储介质及电子设备。方法包括：在接收到用户当前输入的文本信息后，从人机对话***中读取第一对话状态；根据文本信息和第一对话状态，确定第二对话状态和文本信息对应的意图、领域、问题类型、第二槽值对；将第二槽值对与第二对话状态结合，得到当前对话状态；根据当前对话状态、意图、领域及问题类型对文本信息进行语义理解。由此，可对用户当前输入的文本信息的理解提供全面的信息支持，即使当前输入的文本信息采用基于上文的共指和省略，也可获取到正确执行命令必须的槽位，因而能准确高效地对用户当前输入的文本信息进行理解。并且，无需存储用户当前输入的文本信息的诸多上文信息，可节省存储空间。

Description

人机对话方法、装置、可读存储介质及电子设备

技术领域

本公开涉及计算机技术领域，具体地，涉及一种人机对话方法、装置、可读存储介质及电子设备。

背景技术

目前的任务型对话机器人在自然语言理解时采用的主要解析方式是从用户当前输入的文本信息(即，问题query)中抽取出intent(意图)和slot(槽位)，二者结合形成frame(表达)来确定用户实际想要表达的意思，再调用相对应的API来执行用户的命令。在人机对话的过程中，对话越自然、流畅，文本信息就会越简洁、口语化。这时，用户时常会不自觉的使用共指和省略来省掉文本信息中的一些成分。其中，共指，是当前的指示语与上下文中出现的词、短语、句子(句群)存在密切的语义关联。比如上文中出现的名词，在下文中可以用代词来表示。省略，是指上文中出现的词语，在下文中不再出现。在这种情况下，当机器人解析用户当前输入的文本信息时，若只凭借该文本信息，则无法获得用户真正的意思。

现阶段，主要结合当前输入的文本信息的上文信息，通过深度神经网络或者循环神经网络进行相应处理，进而根据其输出，对当前输入的文本信息进行理解，但准确度无法保证。并且，在上文信息的内容较多时，无疑会占用更多的存储空间和计算资源。因此，目前的挑战是如何准确高效地结合当前输入的文本信息的上文信息来对当前文本信息进行理解。

发明内容

为了克服相关技术中存在的问题，本公开提供一种人机对话方法、装置、可读存储介质及电子设备。

为了实现上述目的，根据本公开实施例的第一方面，提供一种人机对话方法，包括：

在接收到用户当前输入的文本信息后，从人机对话***中读取第一对话状态，其中，所述第一对话状态为在最近一轮对话完成后的对话状态，所述第一对话状态包括至少一个由槽名称和槽值构成的第一槽值对；

根据所述文本信息和所述第一对话状态，确定第二对话状态和所述文本信息对应的意图、领域、问题类型、第二槽值对，其中，所述第二对话状态为对所述第一对话状态进行更新后的状态；

将所述第二槽值对与所述第二对话状态结合，得到当前对话状态；

根据所述当前对话状态、所述意图、所述领域以及所述问题类型对所述文本信息进行语义理解。

可选地，所述根据所述文本信息和所述第一对话状态，确定第二对话状态和所述文本信息对应的意图、领域、问题类型、第二槽值对，包括：

针对每一所述第一槽值对，分别获取该第一槽值对中的槽值对应的第一编码向量、该第一槽值对中的槽名称对应的第二编码向量；

将所述第一编码向量和所述第二编码向量进行拼接，输入至第一循环神经网络的、与该第一槽值对对应的神经网络层中，并将该神经网络层的隐藏层状态确定为该第一槽值对对应的第一向量；

将所述第一循环神经网络的最终隐藏层状态作为第二循环神经网络的初始隐藏层状态，对所述文本信息包含的各分词分别进行编码，得到各分词对应的第二向量；

根据各所述第一槽值对对应的第一向量和各分词对应的第二向量，确定第二对话状态；

根据各分词对应的第二向量，确定所述文本信息对应的意图、领域、问题类型以及第二槽值对。

可选地，所述根据各所述第一槽值对对应的第一向量和各分词对应的第二向量，确定第二对话状态，包括：

根据每一所述第一向量，分别对各分词进行注意力机制的权重分发，并将各分词对应的第二向量与各分词被分发的权重做加权和；

将所述加权和、该第一向量进行拼接，得到第三向量；

将各所述第三向量输入至全连接层，得到第二对话状态。

可选地，所述根据各分词对应的第二向量，确定所述文本信息对应的意图、领域、问题类型以及第二槽值对，包括：

将每一所述第二向量输入至与相应分词对应的解码器中，得到各分词对应的槽值对，将各分词对应的槽值对确定为所述第二槽值对；

将各分词对应的第二向量一并输入至与意图对应的解码器中，得到所述文本信息对应的意图；

将各分词对应的第二向量一并输入至与领域对应的解码器中，得到所述文本信息对应的领域；

将各分词对应的第二向量一并输入至与问题类型对应的解码器中，得到所述文本信息对应的问题类型。

可选地，所述分别获取该第一槽值对中的槽值对应的第一编码向量、该第一槽值对中的槽名称对应的第二编码向量，包括：

将该第一槽值对中的槽值进行分词后输入至第一编码循环神经网络中，将所述第一编码循环神经网络的最终隐藏层状态确定为该第一槽值对中的槽值对应的第一编码向量；

针对目标槽值中的每一参考槽值，将该参考槽值进行分词后输入至第二编码循环神经网络中，将所述第二编码循环神经网络的最终隐藏层状态确定为该参考槽值对应的第三编码向量，所述目标槽值包括预设对话语料库中、与该第一槽值对中的槽名称对应的所有槽值中出现频次最高的预设数量的参考槽值；

将所述目标槽值中各参考槽值对应的第三编码向量的均值确定为该第一槽值对中的槽名称对应的第二编码向量。

根据本公开实施例的第二方面，提供一种人机对话装置，包括：

获取模块，用于在接收到用户当前输入的文本信息后，从人机对话***中读取第一对话状态，其中，所述第一对话状态为在最近一轮对话完成后的对话状态，所述第一对话状态包括至少一个由槽名称和槽值构成的第一槽值对；

确定模块，用于根据所述文本信息和所述第一对话状态，确定第二对话状态和所述文本信息对应的意图、领域、问题类型、第二槽值对，其中，所述第二对话状态为对所述第一对话状态进行更新后的状态；

结合模块，用于将所述第二槽值对与所述第二对话状态结合，得到当前对话状态；

语义理解模块，用于根据所述当前对话状态、所述意图、所述领域以及所述问题类型对所述文本信息进行语义理解。

可选地，所述确定模块包括：

第一编码子模块，用于针对每一所述第一槽值对，分别获取该第一槽值对中的槽值对应的第一编码向量、该第一槽值对中的槽名称对应的第二编码向量；

第二编码子模块，用于将所述第一编码向量和所述第二编码向量进行拼接，输入至第一循环神经网络的、与该第一槽值对对应的神经网络层中，并将该神经网络层的隐藏层状态确定为该第一槽值对对应的第一向量；

第三编码子模块，用于将所述第一循环神经网络的最终隐藏层状态作为第二循环神经网络的初始隐藏层状态，对所述文本信息包含的各分词分别进行编码，得到各分词对应的第二向量；

第一确定子模块，用于根据各所述第一槽值对对应的第一向量和各分词对应的第二向量，确定第二对话状态；

第二确定子模块，用于根据各分词对应的第二向量，确定所述文本信息对应的意图、领域、问题类型以及第二槽值对。

可选地，所述第一确定子模块包括：

权重分发子模块，用于根据每一所述第一向量，分别对各分词进行注意力机制的权重分发，并将各分词对应的第二向量与各分词被分发的权重做加权和；

拼接子模块，用于将所述加权和、该第一向量进行拼接，得到第三向量；

全连接子模块，用于将各所述第三向量输入至全连接层，得到第二对话状态。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面提供的所述方法的步骤。

根据本公开实施例的第四方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面提供的所述方法的步骤。

在上述技术方案中，首先根据用户当前输入的文本信息和最近一轮对话完成后的对话状态(即第一对话状态)，确定第二对话状态和文本信息对应的意图、领域、问题类型、第二槽值对；然后，将第二槽值对和第二对话状态结合，得到当前对话状态；最后，将当前对话状态与文本信息对应的意图、领域、问题类型进行结合，对文本信息进行语义理解。由于第一对话状态为最近一轮对话完成后的对话状态，即第一对话状态包含了所有的上文信息，因此，可以对用户当前输入的文本信息的理解提供全面的信息支持，这样，即使当前输入的文本信息采用基于上文的共指和省略，也可获取到正确执行命令必须的槽位，因而能够准确高效地对用户当前输入的文本信息进行理解。并且，由于只需存储第一对话状态，而无需存储用户当前输入的文本信息的诸多上文信息，因此，可以节省存储空间。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种人机对话方法的流程图。

图2是根据一示例性实施例示出的一种确定第二对话状态和文本信息对应的意图、领域、问题类型、第二槽值对的方法的流程图。

图3是根据一示例性实施例示出的一种人机对话过程的示意图。

图4根据一示例性实施例示出的一种人机对话装置的框图。

图5是根据一示例性实施例示出的一种电子设备的框图。

图6是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

现阶段，结合当前输入的文本信息的上文信息，主要通过以下两种方式来实现对当前输入的文本信息进行理解：(1)将当前输入的文本信息之前用户输入的n句文本信息(即上文信息)和当前输入的文本信息一并输入到深度神经网络中，根据该深度神经网络的输出，对当前输入的文本信息进行理解。但在上文信息内容较多时，无疑会占用更多的存储空间和计算资源。(2)当前输入的文本信息之前用户输入的n句文本信息分别用RNN1编码，得到{v₁,v₂...v_n}，将其输入到RNN1中，RNN1的最终隐藏层状态作为全部上文的编码encoding；之后，通过RNN3处理当前输入的文本信息，其中，将全部上文的编码encoding作为RNN3的初始隐藏层状态，通过不同的解码器decoder对RNN3的输出进行解码，获得当前输入的文本信息对应的意图(intent)和槽位(slot)信息；最后，根据该意图和槽位，对当前输入的文本信息进行理解。但由于全部上文的编码encoding的长度有限，将无法利用与当前输入的文本信息间隔较远的上文信息，即可利用的上文信息不足，导致后续的文本理解存在偏差。另外，即使可以将上文的语义完美的编码，若当前输入的文本信息采用基于上文的共指和省略，还是无法得到正确执行命令必须的槽位(slot)，导致后续的文本理解存在偏差。

例如，最近一段时间内的人机共话内容如下：

用户：明天上海天气怎么样？

机器人：上海明天晴，温度12-20度

用户：北京呢？

其中，用户当前输入的文本信息为“北京呢？”，其采用了省略的方式，即使结合上文信息，获知当前输入的文本信息是要提问天气，结合当前输入的文本信息中抽取出来的槽位“北京”，可以知道是要提问北京的天气，但是却无法知道用户提问的是“明天”北京的天气，“明天”这个槽位信息无法获取。

为了准确高效地结合当前输入的文本信息的上文信息来对该当前输入的文本信息进行理解，本公开提供一种人机对话方法、装置、可读存储介质及电子设备。

下面结合实施例详细说明本公开提供的人机对话方法，其中，该方法可以应用于人机对话***。图1是根据一示例性实施例示出的一种人机对话方法的流程图。如图1所示，该方法可以包括以下步骤101～步骤104。

在步骤101中，在接收到用户当前输入的文本信息后，从人机对话***中读取第一对话状态。

在本公开中，第一对话状态可以为在最近一轮对话完成后的对话状态，即第一对话状态包含了所有的上文信息。并且，第一对话状态可以包括至少一个第一槽值对，其中，该第一槽值对包括槽名称和槽值。另外，可以在人机对话***中设置一存储模块，以在最近一轮对话完成后，存储此时的对话状态，即第一对话状态，这样，通过访问该存储模块即可读取到第一对话状态。

示例地，第一对话状态(以集合示例)为{weather_loc:北京市，weather_condition:下不下雨，time_day:明天}，其中，“weather_loc”、“weather_condition”、“time_day”为槽名称，“北京市”、“下不下雨”、“明天”为各槽名称对应的槽值。

在步骤102中，根据文本信息和第一对话状态，确定第二对话状态和文本信息对应的意图、领域、问题类型、第二槽值对。

在本公开中，第二对话状态可以为对第一对话状态进行更新后的状态。意图为用户希望在对话中获取到的信息是什么，例如，文本信息“北京市明天下不下雨”，其意图在于获取北京市明天是否会下雨。问题类型可以包括：是否(yes/no)、多少(how many)、什么(what)、怎样(how to)等。领域可以包括音乐(music)、音频(audio)、知识(knowledge)、天气(weather)等。例如，文本信息“北京市明天下不下雨”，其对应的领域为天气，对应的问题类型为是否。

在通过上述步骤101获取到第一对话状态后，可以将其与用户当前输入的文本信息结合，来确定第二对话状态和文本信息对应的意图、领域、问题类型、第二槽值对。具体来说，可以通过图2中所示的步骤1021～步骤1024来实现。

在步骤1021中，针对每一第一槽值对，分别获取该第一槽值对中的槽值对应的第一编码向量、该第一槽值对中的槽名称对应的第二编码向量。

具体来说，可以通过以下方式来获取第一槽值对中的槽值对应的第一编码向量：将该第一槽值对中的槽值进行分词后输入至第一编码循环神经网络中，将该第一编码循环神经网络的最终隐藏藏状态(即最后一个隐藏层状态)确定为该第一槽值对中的槽值对应的第一编码向量。

同时，可以通过以下方式来获取第一槽值对中的槽名称对应的第二编码向量：

首先，针对目标槽值中的每一参考槽值，将该参考槽值进行分词后输入至第二编码循环神经网络中，将该第二编码循环神经网络的最终隐藏层状态确定为该参考槽值对应的第三编码向量，其中，目标槽值包括预设对话语料库中、与该第一槽值对中的槽名称对应的所有槽值中出现频次最高的预设数量(例如，10)的参考槽值。然后，将目标参考槽值中各参考槽值对应的第三编码向量的均值确定为该第一槽值对中的槽名称对应的第二编码向量。

示例地，假设上述预设数量为10，如下表1中所示，槽名称“music_style”对应的所有槽值中出现频次最高的10个槽值(即，参考槽值)分别为：轻音乐、摇滚、儿歌、流行、欢快、钢琴曲、抒情、儿童、新歌、DJ。因此，可以先通过第二编码循环神经网络获取该10个槽值中每一槽值对应的第三编码向量，然后，将该10个槽值对应的第三编码向量的均值(即分别将各编码向量的对应项相加后求平均值)确定为槽名称“music_style”对应的第二编码向量。

表1槽名称music_style对应的、出现频次最高的10个槽值

槽名称	槽值
		music_style	轻音乐
music_style	摇滚
		music_style	儿歌
music_style	流行
		music_style	欢快
music_style	钢琴曲
		music_style	抒情
music_style	儿童
		music_style	新歌
music_style	DJ

在步骤1022中，将第一编码向量和第二编码向量进行拼接，输入至第一循环神经网络的、与该第一槽值对对应的神经网络层中，并将该神经网络层的隐藏层状态确定为该第一槽值对对应的第一向量。

在步骤1023中，将第一循环神经网络的最终隐藏层状态作为第二循环神经网络的初始隐藏层状态，对文本信息包含的各分词分别进行编码，得到各分词对应的第二向量。

在步骤1024中，根据各第一槽值对对应的第一向量和各分词对应的第二向量，确定第二对话状态。

具体来说，可以通过以下方式来确定第二对话状态：首先，根据每一第一向量，分别对各分词进行注意力(attention)机制的权重分发，并将各分词对应的第二向量与各分词被分发的权重做加权和；然后，将加权和、该第一向量进行拼接，得到第三向量；将各第三向量输入至全连接层，得到第二对话状态。

在步骤1025中，根据各分词对应的第二向量，确定文本信息对应的意图、领域、问题类型以及第二槽值对。

在一种实施方式中，可以通过以下方式来确定用户当前输入的文本信息对应的意图、领域、问题类型以及第二槽值对：首先，将每一第二向量输入至与相应分词对应的解码器中，得到各分词对应的槽值对，将各分词对应的槽值对确定为第二槽值对；同时，将各分词对应的第二向量一并输入至与意图对应的解码器中，得到用户当前输入的文本信息对应的意图，将各分词对应的第二向量一并输入至与领域对应的解码器中，得到用户当前输入的文本信息对应的领域；将各分词对应的第二向量一并输入至与问题类型对应的解码器中，得到用户当前输入的文本信息对应的问题类型。

另外，需要说明的是，上述步骤1024可以在上述步骤1025之前执行，也可以在上述步骤1025之后执行，二者还可以同时执行，在本公开中不作具体限定。

返回图1，在步骤103中，将第二槽值对与第二对话状态结合，得到当前对话状态。

在步骤104中，根据当前对话状态、意图、领域以及问题类型对文本信息进行语义理解。

在本公开中，在对文本信息进行语义理解后，可以调用相对应的API来执行用户的命令。

下面结合具体实施例对上述人机对话方法进行详细说明。示例地，最近一段时间内的人机共话内容如下：

用户：北京市明天下不下雨？

机器人：北京市会下雨

用户：后天会刮风？

并且，已知第一对话状态为{weather_loc:北京市，weather_condition:下不下雨，time_day:明天}，用户当前输入的文本信息为“后天会刮风？”。

具体来说，可以根据该文本信息“后天会刮风？”和第一对话状态{weather_loc:北京市，weather_condition:下不下雨，time_day:明天}，通过以下方式来确定第二对话状态和文本信息“后天会刮风？”对应的意图、领域、问题类型以及第二槽值对：

(1)在获取到第一对话状态后，可以将第一槽值对“weather_loc:北京市”中的槽值“北京市”进行分词后(即，北京、市)输入至第一编码循环神经网络中，将该第一编码循环神经网络的最终隐藏层状态确定为槽值“北京市”对应的第一编码向量。同时，将预设语料库中、与槽名称“weather_loc”对应的所有槽值中出现频次最高的预设数量的参考槽值分别输入至第二编码循环神经网络进行编码，得到各参考参考槽值对应的第三编码向量，之后，将各第三编码向量的均值确定为该槽名称“weather_loc”对应的第二编码向量。然后，如图3中所示，将槽值“北京市”对应的第一编码向量和槽名称“weather_loc”对应的第二编码向量进行拼接，输入至第一循环神经网络的、与该第一槽值对“weather_loc:北京市”对应的神经网络层(即图3中所示的第一循环神经网络的、第一个神经网络层，也就是图3中所示的第一循环神经网络中的最左侧的神经网络层)中，并将该第一个神经网络层的隐藏层状态确定为第一槽值对“weather_loc:北京市”对应的第一向量v₁。

同样地，将第一槽值对“weather_condition:下不下雨”经第一编码循环神经网络、第二编码循环神经网络处理后，输入至第一循环神经网络的第二个神经网络层(即图3中所示的第一循环神经网络中的左侧第二个神经网络)中，得到第一槽值对“weather_condition:下不下雨”对应的第一向量v₂；将第一槽值对“time_day:明天”经第一编码循环神经网络、第二编码循环神经网络处理后，输入至第一循环神经网络的最后一个神经网络层(即图3中所示的第一循环神经网络中的最右侧的神经网络)中，得到第一槽值对“time_day:明天”对应的第一向量v₃。即，各第一槽值对对应的第一向量构成第一向量集合N＝{v₁、v₂、v₃}。

(2)如图3所示，将第一循环神经网络的最终隐藏层状态(即第一神经网络的最后一层神经网络的隐藏层状态)作为第二循环神经网络的初始隐藏层状态，对文本信息“后天会刮风？”中包含的各分词(即，“后天”、“会”、“刮风”)分别进行编码，得到分词“后天”对应的第二向量u₁、分词“会”对应的第二向量u₂、分词“刮风”对应的第二向量u₃。即，文本信息“后天会刮风？”中各分词对应的第二向量构成的向量集合T＝{u₁、u₂、u₃}。

(3)根据向量集合N＝{v₁、v₂、v₃}和向量集合T＝{u₁、u₂、u₃}，确定第二对话状态。

具体来说，根据第一向量v₁，分别对分词“后天”、“会”、“刮风”进行注意力机制(即，图3中所示的attention)的权重分发，示例地，分词“后天”、“会”、“刮风”进行权重分发后的权重分别为w₁₁、w₁₂、w₁₃，将各分词“后天”、“会”、“刮风”对应的第二向量u₁、u₂、u₃与各分词被分发的权重w₁₁、w₁₂、w₁₃进行加权求和，得到加权和为w₁₁u₁+w₁₂ u₂+w₁₃ u₃；然后，将该加权和w₁₁u₁+w₁₂ u₂+w₁₃ u₃、该第一向量v₁进行拼接，得到第三向量H1＝(w₁₁u₁+w₁₂ u₂+w₁₃ u₃；v₁)。同样地，根据第一向量v₂，分别对分词“后天”、“会”、“刮风”进行注意力机制的权重分发后的权重分别为w₂₁、w₂₂、w₂₃，采用上述操作，得到相应的第三向量H2＝(w₂₁u₁+w₂₂ u₂+w₂₃ u₃；v₂)；根据第一向量v₃，分别对分词“后天”、“会”、“刮风”进行注意力机制的权重分发后的权重分别为w₃₁、w₃₂、w₃₃，采用上述操作，得到相应的第三向量H3＝(w₃₁u₁+w₃₂ u₂+w₃₃ u₃；v₃)。最后，将第三向量H1、H2和H3输入至全连接层(图3中未示出)，得到第二对话状态{weather_loc:北京市，o:下不下雨，o:明天}(即图3中第一循环网神经网络侧示出的三个椭圆)，其中，槽名称为o的第一槽值对是可以抛弃不用的，故最终的第二对话状态为{weather_loc:北京市}。

(4)根据各分词对应的第二向量，确定文本信息对应的意图、领域、问题类型以及第二槽值对。

如图3所示，将分词“后天”对应的第二向量u₁输入至与分词“后天”对应的解码器(图中未示出)中，得到分词“后天”对应的槽值对“time_day:后天”，将分词“会”对应的第二向量u₂输入至与分词“会”对应的解码器中，得到分词“会”对应的槽值对“o:会”，将分词“刮风”对应的第二向量u₃输入至与分词“刮风”对应的解码器中，得到分词“刮风”对应的槽值对“weather_condition:刮风”，即图3中第二循环网神经网络侧示出的三个椭圆。由于槽名称为o的槽值对是可以抛弃不用的，故舍弃分词“会”对应的槽值对“o:会”，这样，文本信息“后天会刮风？”对应的第二槽值对为{time_day:后天，weather_condition:刮风}。

如图3中所示，将各分词对应的第二向量构成的向量集合T＝{u₁、u₂、u₃}输入至与意图对应的解码器(图中未示出)中，得到文本信息“后天会刮风？”对应的意图在于“获取明天是否会刮风”；将各分词对应的第二向量构成的向量集合T＝{u₁、u₂、u₃}输入至与领域对应的解码器中，得到文本信息“后天会刮风？”对应的领域为“天气”，将各分词对应的第二向量构成的向量集合T＝{u₁、u₂、u₃}输入至与问题类型对应的解码器中，得到文本信息“后天会刮风？”对应的问题类型为“是否”。

在获取到第二对话状态“{weather_loc:北京市}”和文本信息“后天会刮风？”对应的意图、领域、问题类型、第二槽值对“{time_day:后天，weather_condition:刮风}”后，可以先将第二槽值对“{time_day:后天，weather_condition:刮风}”与第二对话状态“{weather_loc:北京市}”结合，得到当前对话状态为{time_day:后天，weather_condition:刮风，weather_loc:北京市}。

然后，根据当前对话状态“{time_day:后天，weather_condition:刮风，weather_loc:北京市}”，结合上述步骤(4)获取到的意图、领域、问题类型，可知文本信息“后天会刮风？”的语义是在询问北京市后天是否会刮风。

又示例地，假设在“后天会刮风？”的后面，还有一句“那上海呢？”，则第一对话状态为{time_day:后天，weather_condition:刮风，weather_loc:北京市}，用户当前输入的文本信息为“那上海呢？”。

通过上述步骤(1)～(3)同样的方式，得到第二对话状态为{time_day:后天，weather_condition:刮风}，通过上述步骤(1)、(2)、(4)同样的方式，得到文本信息“那上海呢？”对应的第二槽值对为{weather:上海}；这样，将第二槽值对“{weather:上海}”与第二对话状态“{time_day:后天，weather_condition:刮风}”结合，得到当前对话状态为{time_day:后天，weather_condition:刮风，weather_loc:上海}，结合获取到的意图、领域、问题类型，可知文本信息“那上海呢？”的语义是在询问上海后天是否会刮风。

图4根据一示例性实施例示出的一种人机对话装置的框图。参照图4，该装置400可以包括：获取模块401，用于在接收到用户当前输入的文本信息后，从人机对话***中读取第一对话状态，其中，所述第一对话状态为在最近一轮对话完成后的对话状态，所述第一对话状态包括至少一个由槽名称和槽值构成的第一槽值对；确定模块402，用于根据所述文本信息和所述第一对话状态，确定第二对话状态和所述文本信息对应的意图、领域、问题类型、第二槽值对，其中，所述第二对话状态为对所述第一对话状态进行更新后的状态；结合模块403，用于将所述第二槽值对与所述第二对话状态结合，得到当前对话状态；语义理解模块404，用于根据所述当前对话状态、所述意图、所述领域以及所述问题类型对所述文本信息进行语义理解。

可选地，所述确定模块402包括：第一编码子模块，用于针对每一所述第一槽值对，分别获取该第一槽值对中的槽值对应的第一编码向量、该第一槽值对中的槽名称对应的第二编码向量；第二编码子模块，用于将所述第一编码向量和所述第二编码向量进行拼接，输入至第一循环神经网络的、与该第一槽值对对应的神经网络层中，并将该神经网络层的隐藏层状态确定为该第一槽值对对应的第一向量；第三编码子模块，用于将所述第一循环神经网络的最终隐藏层状态作为第二循环神经网络的初始隐藏层状态，对所述文本信息包含的各分词分别进行编码，得到各分词对应的第二向量；第一确定子模块，用于根据各所述第一槽值对对应的第一向量和各分词对应的第二向量，确定第二对话状态；第二确定子模块，用于根据各分词对应的第二向量，确定所述文本信息对应的意图、领域、问题类型以及第二槽值对。

可选地，所述第一确定子模块包括：权重分发子模块，用于根据每一所述第一向量，分别对各分词进行注意力机制的权重分发，并将各分词对应的第二向量与各分词被分发的权重做加权和；拼接子模块，用于将所述加权和、该第一向量进行拼接，得到第三向量；全连接子模块，用于将各所述第三向量输入至全连接层，得到第二对话状态。

可选地，所述第二确定子模块包括：第二槽值对确定子模块，用于将每一所述第二向量输入至与相应分词对应的解码器中，得到各分词对应的槽值对，将各分词对应的槽值对确定为所述第二槽值对；意图确定子模块，用于将各分词对应的第二向量一并输入至与意图对应的解码器中，得到所述文本信息对应的意图；领域确定子模块，用于将各分词对应的第二向量一并输入至与领域对应的解码器中，得到所述文本信息对应的领域；问题类型确定子模块，用于将各分词对应的第二向量一并输入至与问题类型对应的解码器中，得到所述文本信息对应的问题类型。

可选地，所述第一编码子模块包括：第一编码向量确定子模块，用于将该第一槽值对中的槽值进行分词后输入至第一编码循环神经网络中，将所述第一编码循环神经网络的最终隐藏层状态确定为该第一槽值对中的槽值对应的第一编码向量；第二编码向量确定子模块，用于针对目标槽值中的每一参考槽值，将该参考槽值进行分词后输入至第二编码循环神经网络中，将所述第二编码循环神经网络的最终隐藏层状态确定为该参考槽值对应的第三编码向量，所述目标槽值包括预设对话语料库中、与该第一槽值对中的槽名称对应的所有槽值中出现频次最高的预设数量的参考槽值；槽名称编码向量确定子模块，用于将所述目标槽值中各参考槽值对应的第三编码向量的均值确定为该第一槽值对中的槽名称对应的第二编码向量。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开提供的上述人机对话方法的步骤。

图5是根据一示例性实施例示出的一种电子设备500的框图。如图5所示，该电子设备500可以包括：处理器501，存储器502。该电子设备500还可以包括多媒体组件503，输入/输出(I/O)接口504，以及通信组件505中的一者或多者。

其中，处理器501用于控制该电子设备500的整体操作，以完成上述的人机对话方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作，这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static RandomAccess Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(NearFieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件505可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable GateArray，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的人机对话方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的人机对话方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器502，上述程序指令可由电子设备500的处理器501执行以完成上述的人机对话方法。

图6是根据一示例性实施例示出的一种电子设备600的框图。例如，电子设备600可以被提供为一服务器。参照图6，电子设备600包括处理器622，其数量可以为一个或多个，以及存储器632，用于存储可由处理器622执行的计算机程序。存储器632中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器622可以被配置为执行该计算机程序，以执行上述的人机对话方法。

另外，电子设备600还可以包括电源组件626和通信组件650，该电源组件626可以被配置为执行电子设备600的电源管理，该通信组件650可以被配置为实现电子设备600的通信，例如，有线或无线通信。此外，该电子设备600还可以包括输入/输出(I/O)接口658。电子设备600可以操作基于存储在存储器632的操作***，例如Windows ServerTM，Mac OSXTM，UnixTM，LinuxTM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的人机对话方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器632，上述程序指令可由电子设备600的处理器622执行以完成上述的人机对话方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的人机对话方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种人机对话方法，其特征在于，包括：

根据所述当前对话状态、所述意图、所述领域以及所述问题类型对所述文本信息进行语义理解；

所述根据所述文本信息和所述第一对话状态，确定第二对话状态和所述文本信息对应的意图、领域、问题类型、第二槽值对，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据各所述第一槽值对对应的第一向量和各分词对应的第二向量，确定第二对话状态，包括：

将所述加权和、该第一向量进行拼接，得到第三向量；

将各所述第三向量输入至全连接层，得到第二对话状态。

3.根据权利要求1所述的方法，其特征在于，所述根据各分词对应的第二向量，确定所述文本信息对应的意图、领域、问题类型以及第二槽值对，包括：

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述分别获取该第一槽值对中的槽值对应的第一编码向量、该第一槽值对中的槽名称对应的第二编码向量，包括：

5.一种人机对话装置，其特征在于，包括：

语义理解模块，用于根据所述当前对话状态、所述意图、所述领域以及所述问题类型对所述文本信息进行语义理解；

所述确定模块包括：

6.根据权利要求5所述的装置，其特征在于，所述第一确定子模块包括：

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。

8.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-4中任一项所述方法的步骤。