CN111128175A

CN111128175A - 口语对话管理方法及***

Info

Publication number: CN111128175A
Application number: CN202010060660.4A
Authority: CN
Inventors: 高懿; 朱风云; 范梓野
Original assignee: Dalian Real Time Intelligent Technology Co Ltd
Current assignee: Dalian Real Time Intelligent Technology Co Ltd
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2020-05-08
Anticipated expiration: 2040-01-19
Also published as: CN111128175B

Abstract

本发明公开了一种口语对话管理***，包括：语音识别器、语言理解单元、对话管理器、语言生成单元、语音合成器、语境指导信息生成器、策略学习单元。此外，本发明还公开了一种口语对话管理方法。采用本发明的技术方案，对话管理器维护对话过程中的对话状态信息，***根据当前的对话状态信息生成语境指导信息，并动态地指导语音识别器更好地识别当前语境中用户可能会使用的自然语言，大幅提高了语音识别的准确率；语音识别器不需要提前准备特定领域的训练语料并训练领域相关的语言模型，而是根据不同的语境动态调节语言模型，降低了提前训练语言模型的工作量，提高了人机对话***的生产效率。

Description

口语对话管理方法及***

技术领域

本发明涉及人机对话技术领域，特别涉及一种口语对话管理方法及***。

背景技术

口语对话***（Spoken Dialog System，简称SDS）以语音的形式与用户进行交互，并为用户提供特定的服务；口语对话***通常由语音识别、语言理解、对话管理、语言生成、语音合成等模块构成。在口语对话***中，对话管理（Dialog Management，简称DM）和自动语音识别（Automatic Speech Recognition，简称ASR）是两个相互独立的模块。其中，对话管理模块是口语对话***中的核心模块，其前置模块将用户的输入转化为某种形式化语义表达，对话管理模块在此基础上决定下一步***输出的形式化语义表达；输出的形式化语义表达在后续模块中被转化为某种输出形式，如图片、语音、文字、链接等。自动语音识别模块将用户语音转化为文字，一般需要声学模型和语言模型（Language Model，简称LM）等资源，其中语言模型负责从自然语言方面为自动语音识别解码器提供线索。发明人经研究发现，现有技术中口语对话***的自动语音识别的计算过程和对话管理的状态无关。然而事实上，口语对话过程中的任意时刻，用户使用的自然语言都与当前的对话语境密切相关，其中许多信息是在对话过程中才能够动态获取的。

现有技术中，口语对话***通常包括五个模块，如图1所示：语音识别模块；语言理解模块；对话管理模块；语言生成模块；语音合成模块。其中，语音识别模块主要依赖声学模型和语言模型两种资源，其中声学模型提供将声波识别为语音学建模单元的概率，语言模型提供语音学建模单元组成自然语言句子的概率，语音识别算法根据这两种概率，通过解码得到与输入的声波最匹配的自然语言句子，即语音识别的结果。当前，口语对话***中语音识别模块的语言模型一般利用领域相关的自然语言数据，经过离线训练过程训练得到，并在执行语言识别任务之前提前加载到***中。在执行语音识别时，指定使用和当前对话内容相近的特定领域的语言模型，可以有效地提高语音识别的准确率。

然而，经过发明人的研究发现，当前的口语对话***中的自动语音识别模块和对话管理模块是相对独立的。自动语音识别模块中使用到的语言模型一般由提前收集的语料通过机器学习算法训练获得。从一方面来说，语料一般需要提前准备，并训练定制化模型，导致***的迭代周期长、生产效率低。另一方面来说，对话过程中，用户使用的语言并非一成不变，而是会随着对话发生的场景、对话的话题、对话题讨论的深入程度、用户的关注点的变化而动态调整。然而提前收集的语料统计规律固定，导致提前训练的语言模型无法应对动态变化的对话语境。从对话管理的角度出发，语境信息也并不会反馈到语音识别模块中帮助其进行更好的识别。目前，尚未有专门解决这一问题的口语对话***。

发明内容

基于此，为解决现有技术中的技术问题，特提出了一种口语对话管理方法，包括：

语音识别器接收用户输入的语音，利用语言模型及声学模型将用户输入的语音转化生成文字形式的语音识别结果，将语音识别结果输出至与其相连接的语言理解单元。

所述语言理解单元将其接收的语音识别结果转化生成形式化语义表达的语言理解结果，并将语言理解结果输出至与其相连接的对话管理器。

策略学习单元学习得到对话策略信息及语境指导模型，将所述对话策略信息输出至与其相连接的所述对话管理器，将所述语境指导模型输出至与其相连接的语境指导信息生成器。

所述对话管理器根据接收到的所述语言理解结果及所述对话策略信息更新其中保存的对话状态信息，将更新后的当前对话状态信息保存在所述对话管理器本地的同时输出至与其相连接的所述语境指导信息生成器；同时，所述对话管理器根据当前对话状态信息生成形式化语义表达的***回应结果并输出至与其相连接的语言生成单元。

所述语境指导信息生成器根据接收到的所述语境指导模型以及当前对话状态信息生成当前语境指导信息，并将当前语境指导信息输出至与其相连接的所述语音识别器。

所述语音识别器接收当前语境指导信息，当前语境指导信息指导所述语音识别器动态地构造语言模型，并指导下一轮语音识别解码过程。

所述语言生成单元将所述对话管理器输入的形式化语义表达的***回应结果转化生成为文字序列形式的语言生成结果，并输出至与其相连接的语音合成器。

所述语音合成器将接收到的文字序列形式的语言生成结果转化为语音并反馈输出至用户。

在一种实施例中，所述语境指导信息包括业务语境指导信息、话题语境指导信息。

在一种实施例中，策略学习单元学习得到对话策略信息及语境指导模型，具体包括：

在所述策略学习单元中学习得到所述对话管理器需要的对话策略信息；

在所述策略学习单元中构建区分不同业务语境的业务语境识别模型；所述策略学习单元构建相应的业务语境指导模型；

在所述策略学习单元中构建区分不同话题语境的话题语境识别模型；所述策略学习单元构建相应的话题语境指导模型；

所述策略学习单元利用其构建的所述业务语境识别模型、所述话题语境识别模型、所述业务语境指导模型、所述话题语境指导模型中的一种或多种构成所述语境指导模型。

在一种实施例中，对话语料库连接至所述策略学习单元，所述策略学习单元具有开发者输入接口；

所述策略学习单元获取所述对话语料库中的语料，通过机器学习算法学习生成相应的对话策略信息及语境指导模型；

或者，所述策略学习单元接收通过所述开发者输入接口输入的配置信息而得到相应的对话策略信息及语境指导模型；

或者，所述策略学习单元获取所述对话语料库中的语料，同时接收通过所述开发者输入接口输入的配置信息，将二者进行信息融合后得到相应的对话策略信息及语境指导模型。

在一种实施例中，所述策略学习单元构建区分不同业务语境的业务语境识别模型时，为每种业务语境配置相应的匹配规则，所述匹配规则包括正则表达式或关键词；或者，所述策略学习单元从所述对话语料库中获取语料，并通过机器学习方法从语料中学习得到区分不同业务语境的业务语境识别模型；

其中，所述策略学习单元构建业务语境指导模型时，所述策略学习单元基于由所述开发者输入接口输入的配置信息中的业务语境知识来配置该业务语境中的常用词和常见说法，从而得到业务语境指导模型；或者，所述策略学习单元基于所述对话语料库的语料，利用机器学习方法训练得到业务语境指导模型。

在一种实施例中，所述策略学习单元构建区分不同话题语境的话题语境识别模型时为每种话题语境配置相应的匹配规则，所述匹配规则包括正则表达式或关键词；或者，所述策略学习单元从所述对话语料库中获取语料，并通过机器学习方法从语料中学习得到区分不同话题语境的话题语境识别模型；

其中，所述策略学习单元构建话题语境指导模型时，所述策略学习单元基于由所述开发者输入接口输入的配置信息中的话题语境知识来配置话题语境中的常用词和常见说法，从而得到话题语境指导模型；或者，所述策略学习单元基于所述对话语料库的语料，利用机器学习方法训练得到话题语境指导模型。

在一种实施例中，所述语言理解单元的一路输出连接至所述对话管理器，所述语言理解单元的另一路输出连接至所述语境指导信息生成器，所述语境指导信息生成器接收所述语言理解单元输入的语言理解结果；所述语境指导信息生成器根据接收到的当前对话状态信息、所述语言理解结果及所述语境指导模型生成当前的语境指导信息。

此外，为解决现有技术中的技术问题，特提出了一种口语对话管理***，包括语音识别器、语言理解单元、对话管理器、语言生成单元、语音合成器、语境指导信息生成器、策略学习单元；

所述语音识别器接收用户的语音输入，其输出连接至所述语言理解单元；所述语言理解单元的输出连接至所述对话管理器；所述对话管理器的输出连接至所述语言生成单元；所述语言生成单元的输出连接至所述语音合成器，由所述语音合成器向用户输出***响应的语音；

所述对话管理器连接至所述语境指导信息生成器，所述语境指导信息生成器连接至所述语音识别器；

所述策略学习单元的一路输出连接至所述对话管理器，所述策略学习单元的另一路输出连接至所述语境指导信息生成器。

在一种实施例中，所述口语对话管理***还包括对话语料库，所述对话语料库连接至所述策略学习单元；所述策略学习单元具有开发者输入接口。

在一种实施例中，所述语言理解单元的一路输出连接至所述对话管理器，所述语言理解单元的另一路输出连接至所述语境指导信息生成器。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为现有技术中口语对话***的结构示意图；

图2为本发明公开的口语对话管理***实施例一的结构示意图；

图3为本发明公开的口语对话管理***实施例二的结构示意图；

包括，语音识别器1、语言理解单元2、对话管理器3、语言生成单元4、语音合成器5、策略学习单元6、语境指导信息生成器7。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种口语对话管理***，如图2所示，所述口语对话管理***包括语音识别器1、语言理解单元2、对话管理器3、语言生成单元4、语音合成器5、语境指导信息生成器7、策略学习单元6；

所述语音识别器1接收用户的语音输入，其输出连接至所述语言理解单元2；所述语言理解单元2的输出连接至所述对话管理器3；所述对话管理器3的输出连接至所述语言生成单元4；所述语言生成单元4的输出连接至所述语音合成器5，由所述语音合成器5向用户输出***响应的语音；

所述对话管理器3连接至所述语境指导信息生成器7，所述语境指导信息生成器7连接至所述语音识别器1；

所述策略学习单元6的一路输出连接至所述对话管理器3，所述策略学习单元6的另一路输出连接至所述语境指导信息生成器7。

所述口语对话管理***还包括对话语料库，所述对话语料库连接至所述策略学习单元6；所述策略学习单元6具有开发者输入接口。

其中，所述语境指导信息生成器7生成适用于当前的语境指导信息，并将该语境指导信息输出至与其相连接的所述语音识别器1；所述语音识别器1利用当前的语境指导信息来动态地构成语言模型，并指导下一轮语音识别解码过程。

如图3所示，在另一种实施例中，所述语言理解单元2的一路输出连接至所述对话管理器3，所述语言理解单元2的另一路输出连接至所述语境指导信息生成器7。

本发明还公开了一种口语对话管理方法，包括：

语音识别器1接收用户输入的语音，利用语言模型及声学模型将用户输入的语音转化生成文字形式的的语音识别结果，将语音识别结果输出至与其相连接的语言理解单元2；

所述语言理解单元2将其接收的语音识别结果转化生成形式化语义表达的语言理解结果，并将语言理解结果输出至与其相连接的对话管理器3；

策略学习单元6学习得到对话策略信息及语境指导模型，将所述对话策略信息输出至与其相连接的所述对话管理器3，将所述语境指导模型输出至与其相连接的语境指导信息生成器7；

所述对话管理器3根据接收到的所述语言理解结果及所述对话策略信息更新其中保存的对话状态信息，将更新后的当前对话状态信息保存在所述对话管理器3本地的同时输出至与其相连接的所述语境指导信息生成器7；同时，所述对话管理器3根据当前对话状态信息生成形式化语义表达的***回应结果并输出至与其相连接的语言生成单元4；

所述语境指导信息生成器7根据接收到的所述语境指导模型以及当前对话状态信息生成当前语境指导信息，并将当前语境指导信息输出至与其相连接的所述语音识别器1；

所述语音识别器1接收当前语境指导信息，当前语境指导信息指导所述语音识别器1动态地构造语言模型，并指导下一轮语音识别解码过程；

所述语言生成单元4将所述对话管理器3输入的形式化语义表达的***回应结果转化生成为文字序列形式的语言生成结果，并输出至与其相连接的语音合成器5；

所述语音合成器5将接收到的文字序列形式的语言生成结果转化为语音并反馈输出至用户。

其中，所述语境指导信息包括业务语境指导信息、话题语境指导信息。

其中，对话语料库连接至所述策略学习单元6，所述策略学习单元6具有开发者输入接口；

所述对话状态信息包括业务语境描述信息、话题语境描述信息、对话变量信息、由外部数据库或第三方接口获取的数据信息。

具体地，业务语境描述信息是指与具体业务相关的语境信息，例如保险业务中特有的犹豫期、续保等概念，或者完成某项业务流程所需执行的步骤，或者对话历史等；而话题语境描述信息是指具体的对话上下文中的语境信息，例如在客房服务业务中，客户在上一轮对话中提到需要送拖鞋到客房，但尚未提及数量，则当前话题语境中至少要包含拖鞋、拖鞋数量等内容。

其中，策略学习单元6学习得到对话策略信息及语境指导模型，具体包括：

在所述策略学习单元6中学习得到所述对话管理器3需要的对话策略信息；

在所述策略学习单元6中构建区分不同业务语境的业务语境识别模型；所述策略学习单元6构建相应的业务语境指导模型；

在所述策略学习单元6中构建区分不同话题语境的话题语境识别模型；所述策略学习单元6构建相应的话题语境指导模型；

所述策略学习单元6利用其构建的所述业务语境识别模型、所述话题语境识别模型、所述业务语境指导模型、所述话题语境指导模型中的一种或多种构成所述语境指导模型。

其中，所述策略学习单元6构建区分不同业务语境的业务语境识别模型时，为每种业务语境配置相应的匹配规则，所述匹配规则包括正则表达式或关键词；或者，所述策略学习单元6从所述对话语料库中获取语料，并通过机器学习方法从语料中学习得到区分不同业务语境的业务语境识别模型；所述机器学习方法可以采用任意类型的机器学习模型，包括基于神经网络的分类模型或相似度匹配模型等。

其中，所述策略学习单元6构建业务语境指导模型时，所述策略学习单元6基于由所述开发者输入接口输入的配置信息中的业务语境知识来配置该业务语境中的常用词和常见说法，从而得到业务语境指导模型；或者，所述策略学习单元6基于所述对话语料库的语料，利用机器学习方法训练得到业务语境指导模型；所述机器学习方法可以采用任意类型的机器学习模型，包括TF-IDF（Term Frequency–Inverse Document Frequency）、基于表征学习的文本聚类等。

其中，所述策略学习单元6构建区分不同话题语境的话题语境识别模型时为每种话题语境配置相应的匹配规则，所述匹配规则包括正则表达式或关键词；或者，所述策略学习单元6从所述对话语料库中获取语料，并通过机器学习方法从语料中学习得到区分不同话题语境的话题语境识别模型；所述机器学习方法可以采用任意类型的机器学习模型，包括基于神经网络的分类模型或相似度匹配模型等。

其中，所述策略学习单元6构建话题语境指导模型时，所述策略学习单元6基于由所述开发者输入接口输入的配置信息中的话题语境知识来配置话题语境中的常用词和常见说法，从而得到话题语境指导模型；或者，所述策略学习单元6基于所述对话语料库的语料，利用机器学习方法训练得到话题语境指导模型；所述机器学习方法可以采用任意类型的机器学习模型，包括TF-IDF、基于表征学习的文本聚类等。

最后，所述策略学习单元6利用构建的所述业务语境识别模型、所述话题语境识别模型、所述业务语境指导模型、所述话题语境指导模型中的一种或多种构成所述语境指导模型。

具体地，所述对话策略单元所生成的语境指导模型可以表达为四元组数据<B,BM, C, CM>，其中，B表示业务语境识别模型，BM表示业务语境指导模型，C表示话题语境识别模型，CM表示话题语境指导模型。

所述策略学习单元6具有开发者输入接口，在以上各个步骤中，开发者皆可以通过策略学习单元6的开发者输入接口向所述策略学习单元6输入配置信息，通过该种方式直接参与对话策略信息及语境指导模型的学习生成过程，得到相应的对话策略信息及语境指导模型。

特别地，所述策略学习单元6获取所述对话语料库中的语料，通过机器学习算法学习生成相应的对话策略信息及语境指导模型；

或者，所述策略学习单元6接收由所述开发者输入接口输入的配置信息而得到相应的对话策略信息及语境指导模型；

或者，所述策略学习单元6获取所述对话语料库中的语料，同时接收由所述开发者输入接口输入的配置信息，将二者进行信息融合后得到相应的对话策略信息及语境指导模型。

例如，在一种实际对话场景中，用户希望实时地获取附近餐馆的列表，并通过语音输入指示获取其中某家餐馆的位置和菜品信息。在此对话场景中，所有餐馆的名称、选中餐馆的菜品信息等构成了该对话的动态语境，而这些语言现象很可能在语音识别的训练过程中从未出现过。

具体地，在所述口语对话管理***的工作过程中，所述对话管理器3向所述语境指导信息生成器7输出的对话状态信息可以表达为四元组数据<BI,CI,PI,DI>，其中BI、CI所表示的意义分别是业务语境描述信息、话题语境描述信息；PI表示当前对话中所有的对话变量信息，例如用户的电话号码、姓名，或者银行业务场景中用户的银行账号，或者电信业务场景中用户的花销花费等；DI表示由外部数据库或第三方接口获取的数据信息；

具体地，所述对话管理器3具有外部数据接口，所述外部数据接口连接至外部数据库或第三方接口；在对话策略信息的指示下，口语对话管理***通过所述外部数据接口由外部数据库或第三方接口实时地获取数据信息；

如图3所示，在另一种实施例中，所述语言理解单元2的一路输出连接至所述对话管理器3，所述语言理解单元2的另一路输出连接至所述语境指导信息生成器7，所述语境指导信息生成器7接收所述语言理解单元2输入的语言理解结果；所述语境指导信息生成器7根据接收到的当前对话状态信息、所述语言理解结果及所述语境指导模型生成当前的语境指导信息。

实施本发明实施例，将具有如下有益效果：

首先，对话管理器可以维护对话过程中的动态语境，***根据当前的对话状态信息生成语境指导信息，并动态地指导语音识别器更好地识别当前语境中用户可能会使用的自然语言，大幅提高了语音识别的准确率；其次，对于语音识别器来说，不需要提前准备特定领域的训练语料并训练领域相关的语言模型，而是根据不同的语境来动态调节语言模型，降低了提前训练语言模型的工作量，提高了人机对话***的生产效率。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种口语对话管理方法，其特征在于，包括：

语音识别器接收用户输入的语音，利用语言模型及声学模型将用户输入的语音转化生成文字形式的语音识别结果，将语音识别结果输出至与其相连接的语言理解单元；

所述语言理解单元将其接收的语音识别结果转化生成形式化语义表达的语言理解结果，并将语言理解结果输出至与其相连接的对话管理器；

策略学习单元学习得到对话策略信息及语境指导模型，将所述对话策略信息输出至与其相连接的所述对话管理器，将所述语境指导模型输出至与其相连接的语境指导信息生成器；

所述对话管理器根据接收到的所述语言理解结果及所述对话策略信息更新其中保存的对话状态信息，将更新后的当前对话状态信息保存在所述对话管理器本地的同时输出至与其相连接的所述语境指导信息生成器；同时，所述对话管理器根据当前对话状态信息生成形式化语义表达的***回应结果并输出至与其相连接的语言生成单元；

所述语境指导信息生成器根据接收到的所述语境指导模型以及当前对话状态信息生成当前语境指导信息，并将当前语境指导信息输出至与其相连接的所述语音识别器；

所述语音识别器接收当前语境指导信息，当前语境指导信息指导所述语音识别器动态地构造语言模型，并指导下一轮语音识别解码过程；

所述语言生成单元将所述对话管理器输入的形式化语义表达的***回应结果转化生成为文字序列形式的语言生成结果，并输出至与其相连接的语音合成器；

2.根据权利要求1所述的口语对话管理方法，其特征在于，其中，所述语境指导信息包括业务语境指导信息、话题语境指导信息。

3.根据权利要求2所述的口语对话管理方法，其特征在于，

其中，策略学习单元学习得到对话策略信息及语境指导模型，具体包括：

4.根据权利要求3所述的口语对话管理方法，其特征在于，

对话语料库连接至所述策略学习单元，所述策略学习单元具有开发者输入接口；

或者，所述策略学习单元接收由所述开发者输入接口输入的配置信息而得到相应的对话策略信息及语境指导模型；

或者，所述策略学习单元获取所述对话语料库中的语料，同时接收由所述开发者输入接口输入的配置信息，将二者进行信息融合后得到相应的对话策略信息及语境指导模型。

5.根据权利要求4所述的口语对话管理方法，其特征在于，

其中，所述策略学习单元构建区分不同业务语境的业务语境识别模型时，为每种业务语境配置相应的匹配规则，所述匹配规则包括正则表达式或关键词；或者，所述策略学习单元从所述对话语料库中获取语料，并通过机器学习方法从语料中学习得到区分不同业务语境的业务语境识别模型；

其中，所述策略学习单元构建业务语境指导模型时，所述策略学习单元基于由所述开发者输入接口输入的配置信息中的业务语境知识来配置业务语境中的常用词和常见说法，从而得到业务语境指导模型；或者，所述策略学习单元基于所述对话语料库的语料，利用机器学习方法训练得到业务语境指导模型。

6.根据权利要求4所述的口语对话管理方法，其特征在于，

其中，所述策略学习单元构建区分不同话题语境的话题语境识别模型时为每种话题语境配置相应的匹配规则，所述匹配规则包括正则表达式或关键词；或者，所述策略学习单元从所述对话语料库中获取语料，并通过机器学习方法从语料中学习得到区分不同话题语境的话题语境识别模型；

7.根据权利要求1所述的口语对话管理方法，其特征在于，

所述语言理解单元的一路输出连接至所述对话管理器，所述语言理解单元的另一路输出连接至所述语境指导信息生成器，所述语境指导信息生成器接收所述语言理解单元输入的语言理解结果；所述语境指导信息生成器根据接收到的当前对话状态信息、所述语言理解结果及所述语境指导模型生成当前的语境指导信息。

8.一种口语对话管理***，其特征在于，包括语音识别器、语言理解单元、对话管理器、语言生成单元、语音合成器、语境指导信息生成器、策略学习单元；

9.根据权利要求8所述的口语对话管理***，其特征在于，

所述口语对话管理***还包括对话语料库，所述对话语料库连接至所述策略学习单元；所述策略学习单元具有开发者输入接口。

10.根据权利要求8所述的口语对话管理***，其特征在于，

所述语言理解单元的一路输出连接至所述对话管理器，所述语言理解单元的另一路输出连接至所述语境指导信息生成器。