CN104464733A

CN104464733A - 一种语音对话的多场景管理方法及装置

Info

Publication number: CN104464733A
Application number: CN201410590076.4A
Authority: CN
Inventors: 陈洪亮; 汪冠春; 吴华
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-10-28
Filing date: 2014-10-28
Publication date: 2015-03-25
Anticipated expiration: 2034-10-28
Also published as: CN104464733B

Abstract

本发明提供了一种语音对话的多场景管理方法及装置，该方法包括：从文本信息中获取用户输入的需求信息，其中，所述文本信息从所述用户的语音信息中进行文本识别得到；根据所述需求信息获取场景内的至少一个场景各自对应的至少一个评分值；根据所述至少一个评分值确定欲执行的场景切换动作，并展示与切换后的场景相对应的语音内容。本发明实施例能够很好地解决用户与对话***中在语音对话过程中的多场景切换问题。

Description

一种语音对话的多场景管理方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音对话的多场景管理方法及装置。

背景技术

随着语音识别技术和移动互联网技术的不断发展，语音输入在移动端的优势表现得越发明显。随着各大互联网公司分别发布语音对话***，通过自然而低成本的语音输入，从而理解用户的需求并为用户解决问题。

在语音识别过程中，可能存在多场景多领域的对话，并需要解决在多领域多轮对话的过程中的决策问题。现有技术中的多场景管理，一是基于规则(rule-based)，通过制定一系列的规则来实现场景之间切换的管理；一是基于分类模型，通过当前***状态使用分类模型预测接下来执行动作。

基于规则的方法，需要规则制定者有很好的背景知识，随着规则涉及的因素变多，处理逻辑变得复杂，效果不能达到最优状态；基于规则的多场景管理没有结合用户的反馈信息，因此不了解用户的真实使用情况，最终生成的决策动作未必是最合理的。

发明内容

本发明实施例提供一种语音对话的多场景管理方法及装置，实现有效地进行多场景切换管理。

为达到上述目的，本发明的实施例采用如下技术方案：

一种语音对话的多场景管理方法，该方法包括：

从文本信息中获取用户输入的需求信息，其中，所述文本信息从所述用户的语音信息中进行文本识别得到；

根据所述需求信息获取场景内的至少一个场景各自对应的至少一个评分值；

根据所述至少一个评分值确定欲执行的场景切换动作，并展示与切换后的场景相对应的语音内容。

一种语音对话的多场景管理装置，该装置包括：

第一获取模块，用于从文本信息中获取用户输入的需求信息，其中，所述文本信息从所述用户的语音信息中进行文本识别得到；

第二获取模块，用于根据所述需求信息获取场景内的至少一个场景各自对应的至少一个评分值；

切换模块，用于根据所述至少一个评分值确定欲执行的场景切换动作，并展示与切换后的场景相对应的语音内容。

本发明实施例提供的语音对话的多场景管理方法及装置，通过从本文信息中获取用户输入的需求信息，根据用户输入的需求信息获取场景内的至少一个场景，从而为用于提供欲执行的且适用于用户需求的语音内容，能够很好地解决用户与对话***中在语音对话过程中的多场景切换问题。

附图说明

图1为本发明实施例所适用的多场景管理的关系示意图。

图2为本发明实施例一提供的语音对话的多场景管理方法的流程示意图。

图3为本发明实施例二提供的语音对话的多场景管理方法的流程示意图。

图4为本发明实施例二中场景切换动作的示意图。

图5为本发明实施例三提供的语音对话的多场景管理方法的流程示意图。

图6为本发明实施例四提供的语音对话的多场景管理装置的结构示意图。

图7为本发明实施例五提供的语音对话的多场景管理装置的结构示意图。

具体实施方式

下面结合附图对本发明实施例提供的语音对话的多场景管理方法及装置进行详细描述。

本发明实施例中所述的多轮对话，是指通过用户与终端的多轮的交互帮助用户完成特定的需求或任务。在本发明实施例中，当前的多轮对话按照领域(或者，场景)划分，可以为任务型的多轮对话。图1为本发明实施例所适用的多场景管理的关系示意图，如图1所示，在本发明实施例中，可以包括多个场景，例如，旅行场景、餐饮场景、天气场景以及股票场景，再例如，旅行场景可分为多个子场景：机票场景、火车票场景和酒店场景。

具体地，本发明实施例以如下对话为例进行示例性说明：

用户：去青岛的机票。

移动终端：好的，到青岛的飞机票。请问您什么时候离开？

用户：明天出发。

移动终端：好的，明天到青岛的飞机票。您预计由哪儿出发啊？

用户：北京。

对话到此时，移动终端将机票的相关信息展示给用户。

用户：青岛有好吃的四川菜吗？

(语音识别到了“有好吃的酸的川菜吗？”)

移动终端：您要继续订机票么？

用户：不是。

移动终端：听到有好吃的酸的川菜吗？

用户：明天去青岛。

对话到此时，移动终端将相应的在青岛的川菜馆展示给用户。

用户：青岛机场附近的餐厅。

移动终端：为您找到以下餐厅(并进行相应的结果展示)

用户：青岛明天会下雨吗？

移动终端：青岛明天阵雨，温度16摄氏度至20摄氏度，东风5-6级。

实施例一：

图2为本发明实施例一提供的语音对话的多场景管理方法的流程示意图，如图1所示，本发明实施例包括如下步骤：

步骤101，从文本信息中获取用户输入的需求信息，其中，文本信息从用户的语音信息中进行文本识别得到。

步骤102，根据需求信息获取场景内的至少一个场景，并获取与至少一个场景分别对应的至少一个特征向量。

步骤103，获取至少一个特征向量与各自对应的权重向量的内积，得到至少一个内积。

步骤104，根据至少一个内积确定欲执行场景切换动作，并展示与切换后的场景相对应的语音内容。

在步骤101中，通过语音识别将用户的语音信息识别转换为文本信息，根据本发明一实施例，从识别得到的文本信息中获取用户的需求信息，例如，用户输入语音“去青岛的机票”，将该语音信息识别为文本信息后，获取到用户输入的需求信息为“机票”。

在步骤102中，根据步骤101中获取的需求信息获取场景内的至少一个场景，在一个实施例中，场景内的至少一个场景可以根据语音对话的上下文信息中作出判断。其中，场景内为在对话***中预设的多个场景(例如，图1中示出的旅行场景、餐饮场景、天气场景以及股票场景)，具体地，在步骤101中获取到用户输入的需求信息“机票”，可根据该需求信息获取到场景内的旅游场景(其中，旅游场景还可以包括机票场景、火车票场景和酒店场景等多个子场景)，进一步地，该需求信息对应了该旅游场景中的机票场景这一子场景。在一个实施例中，可以从语音信息中获取与该旅游场景对应的至少一个特征向量，例如，在语音信息“去青岛的机票”中，“去、青岛、机票”形成该语音信息的特征，对上述特征进行量化，即可形成特征向量，在该特征向量中，具体包括：目的地(青岛)、机票(需求信息)，此外，本发明实施例中的特征向量中还可以包含但不限于如下信息：出发地、日期、座位类型、出发时间等信息。在一个实施例中，出发地、目的地和日期为必选信息，座位类型、出发时间为可选信息；通过上述特征向量，可以使本发明实施例具有很好的泛化能力，避免了现有技术中每增加一个新的场景就要对应的标注数据，并重新训练场景所对应的模型。

在步骤103中，获取在步骤102中获取的至少一个特征向量及与其各自对应的权重向量的至少一个内积(例如，获得内积为：A₁，A₂，A₃，…，A_n，n为内积的个数)，其中，权重向量是根据收集的语料训练得到的场景特征对应的权重向量，本领域技术人员可以理解的是，本发明实施例以评分值具体为内积进行示例性说明，内积的具体计算方式并不能形成对本发明实施例的限制。

在步骤104中，根据在步骤103中获取的至少一个内积确定欲执行的场景切换动作，并展示与切换后的场景相对应的语音内容。根据本发明一实施例，在步骤104中，将至少一个内积进行排序，得到至少一个内积中的最大值，将该内积对应的场景切换动作作为对应场景的决策动作，并将其通过语音内容的方式反馈给用户。在一个实施例中，获取到用户的需求信息“机票”对应场景的特征向量，计算得到其内积为A₁、A₂、A₃、A₄，排序后得到内积中的最大值为A₂，则将A₂对应的语音内容(例如，其语音内容为“好的，到青岛的飞机票，请问您什么时候离开”)输出给用户。

本发明实施例提供的语音对话的多场景管理方法，通过从本文信息中获取用户输入的需求信息，根据用户输入的需求信息获取场景内的至少一个场景，从而为用于提供欲执行的且适用于用户需求的场景切换动作，并展示与切换后的场景相对应的语音内容，能够很好地解决对话***中语音对话的多场景切换的问题。此外，通过特征向量表示场景使对话***具有很好的泛化能力，可以快速的增加新的场景到***中，进而有效地进行多场景切换管理，还能充分了解用户的真实使用情况，为用户提供最合理的动作决策，增强了用户体验。

实施例二：

图3为本发明实施例二提供的语音对话的多场景管理方法的流程示意图，图4为本发明实施例二中场景切换动作的示意图；如图3所示，本发明实施例包括如下步骤：

步骤201，从文本信息中获取用户输入的需求信息，其中，文本信息从用户的语音信息中进行文本识别得到。

步骤202，根据步骤201中识别得到的需求信息对语音对话进行场景分类，得到需求信息所适用的场景内的至少一个场景。

步骤203，根据步骤202中得到的至少一个场景对需求信息进行场景特征抽取，得到与至少一个场景分别对应的至少一个特征向量。

步骤204，获取至少一个特征向量与各自对应的权重向量的内积，得到至少一个内积。

步骤205，对至少一个内积进行排序，得到所有内积中的最大值。

步骤206，根据最大值对应的场景特征对需求信息进行场景切换动作，并展示与切换后的场景相对应的语音回应。

在步骤201中，可以参考实施例一中的步骤101的描述，在此不再进一步详述。

在步骤202中，根据在步骤201中得到的需求信息对语音对话进行场景分类，得到适用于场景内的至少一个场景，例如，用户输入的需求信息为“青岛”、“机票”，可将该语音对话分类到旅行场景的子场景机票场景中。分类得到多个场景后，在步骤203中，根据该场景对需求信息进行场景特征抽取，获取到与其对应的特征向量。

在步骤203和步骤204中，可以参考实施例一中的步骤102和步骤103，在此不再进一步详述。

在步骤205中，对在步骤204中得到的至少一个内积进行排序，得到内积中的最大值，例如，获取到用户的需求信息“机票”对应场景的特征向量，计算得到其内积为A₁，A₂，A₃，排序后得到内积中的最大值为A₂。

在步骤206中，图4为本发明实施例二中场景切换动作的示意图根据最大值对应的场景特征，响应与需求信息相适应的的语音信息，并将语音内容反馈给用户，例如，在步骤205中提及的内积中的最大值A₂对应的语音内容为“好的，到青岛的飞机票，请问您什么时候离开”，在语音对话的过程中，则将这段语音内容反馈给用户。

本领域技术人员可以理解的是，在实际的应用过程中，对于场景的设置和学习不可能是面面俱到的，也可能出现预设场景外的场景特征(场景外特征)，根据本发明一实施例，根据场景外特征与至少一个场景特征生成场景确认动作的特征向量，场景确认动作的特征向量为至少一个特征向量中的一个，进一步地，如果步骤205中得到的最大值对应场景内的一个场景特征，根据该场景特征对需求信息进行回应；如果最大值对应场景内的两个以上的特征向量，根据两个以上的特征向量对需求信息进行澄清；如果最大值对应场景外特征与场景内的场景特征，对场景外特征与场景内的场景特征进行确认。

在场景澄清过程中，可以通过获取至少两个以上的场景特征对应的场景向量的差值，获取该差值的指数运算，根据指数运算结果确定对两个场景澄清特征向量；例如，有两个场景的特征向量f_1和特征向量f_2，计算两个场景特征的差值f_1-f_2，进一步计算该差值对应的指数e^(f_1-f_2)，其中，e表示自然常数，当然，还可以采用其它数值作为指数运算的底数。根据该指数的运算结果确定对两个场景进行澄清的特征向量，具体地，将场景澄清的特征向量和场景澄清的权重向量计算内积，得到这两个场景澄清的得分，当该得分值最大时，对两个场景进行澄清。

例如，在上述多轮语音对话过程中，当移动终端将用户输入的语音信息“青岛有好吃的四川菜吗”识别为了“有好吃的酸的川菜吗”时，移动终端根据该文本信息，此时通过本发明实施例二，移动终端可以结合上下文信息和解析信息，在执行场景切换动作时，采用了场景确认，并展示了场景确认相对应的语音回应“您要继续订机票么”，从而使用户进行场景确认。

进一步地，在用户确认“不是”后，移动终端结合上下文信息和解析信息，在执行场景切换动作时，采用了场景澄清，并展示了场景澄清确认相对应的语音回应“听到有好吃的酸的川菜吗”，从而使用户对场景进行澄清。

如图5所示，为本发明实施例三提供的语音对话的多场景管理方法的流程示意图；在本发明实施例中，以移动终端具体执行语音对话的多场景管理方法为例进行示例性说明，如图5所示，本发明实施例包括如下步骤：

在步骤501中的离线学习过程中，在众测过程中，可以设定多个场景目标，让用户与移动终端进行多轮语音交互，从而使得移动终端具有一定的随机性决策；其中，众测数据是本发明实施例中的移动终端训练数据的其中一个依据，可以使得本发明实施例基于训练数据能够实现在线预测。

在步骤502中的在线学习过程中，如果语音对话涉及到多轮(即，用户与移动终端进行了多次语音对话)，可以收集用户与移动终端的上下文信息和解析信息，从而获取到特征向量来表示场景的特征状态，增强学习模型对特征向量与权重向量计算内积；通过该过程，能够使得本发明实施例达到全局收益最大，通过多组对比实验，实验效果均超过现有技术中的基于规则的多场景管理。此外，本发明实施例通过选择与场景领域无关的特征向量，利用特征向量来表示场景特征，从而最大化地覆盖了与场景切换相关的因素，提高了泛化能力。特征向量的示意可以参见图4。

在步骤503中的场景切换动作中，本发明实施例以表1中所示的4类动作作为示例性说明，包括但不限于：展现场景外(present(NULL))，展现场景(present(d))，场景确认(confirm(d))和场景间澄清(clarify(d1，d2))。通过场景确认与场景澄清增强了人机在整个多轮对话过程中的交互能力。

表1

在步骤503的动作选择过程中，利用步骤502中训练的优化后的增强学习模型，可以根据当前用户的需求信息，预测执行表1中的哪类动作。

通过上述过程，可以充分利用用户的反馈信息，可以预测出用户的长期收益最大的动作；此外，由于特征向量选取与具体场景无关的特征，从而能够快速的引入新的场景特征，使得方案具有很好的扩展性。

实施例四：

图6为本发明实施例四提供的语音对话的多场景管理装置的结构示意图；如图6所示，本发明实施例包括

第一获取模块41，用于从文本信息中获取用户输入的需求信息，其中，所述文本信息从所述用户的语音信息中进行文本识别得到；

第二获取模块42，用于根据所述需求信息获取场景内的至少一个场景各自对应的至少一个评分值；

切换模块43，用于根据所述至少一个评分值确定欲执行的场景切换动作，并展示与切换后的场景相对应的语音内容。

其中，第二获取模块42包括：

第一获取单元421，用于根据所述需求信息获取场景内的至少一个场景，并获取与所述至少一个场景分别对应的至少一个特征向量；

第二获取单元422，用于获取所述至少一个特征向量与各自对应的权重向量的评分值，得到至少一个评分值。

进一步地，所述第一获取单元包括：

场景分类子单元(图中未示)，用于根据所述需求信息对所述语音对话进行场景分类，得到所述需求信息所适用的场景内的至少一个场景；

特征抽取子单元(图中未示)，用于根据所述至少一个场景对所述需求信息进行场景特征抽取，得到与所述至少一个场景分别对应的至少一个特征向量。

本发明实施例的详细描述和有益技术效果可以参考上述实施例一中的相关描述和有益技术效果，在此不再赘述。

实施例五：

图7为本发明实施例五提供的语音对话的多场景管理装置的结构示意图；如图7所示，如果从所述需求信息还获取到场景外特征，本发明实施例还包括：

第三获取模块44，用于根据所述场景外特征与所述至少一个场景特征从所述至少一个场景特征中获取场景确认动作的特征向量。

切换模块43包括：

排序单元431，用于对所述至少一个评分值进行排序，得到所有评分值中的最大值；

确定单元432，用于根据所述最大值对应的场景特征确定欲执行的场景切换动作，并展示与所述最大值对应的场景特征的语音内容。

进一步地，所述确定单元包括：

第一回应子单元(图中未示)，用于如果所述最大值对应所述场景内的一个场景特征，根据该场景特征对所述需求信息进行回应；

第二回应子单元(图中未示)，用于如果所述最大值对应所述场景内的两个以上的特征向量，根据所述两个以上的特征向量对所述需求信息进行澄清；

第三回应子单元(图中未示)，用于如果所述最大值对应所述场景外特征与所述场景内的场景特征，对所述场景外特征与所述场景内的场景特征进行确认。

进一步地，第三回应子单元(图中未示)包括：

差值获取子单元，用于获取所述至少两个以上的场景特征对应的场景向量的差值；

澄清子单元，用于获取所述差值的指数运算，根据指数运算结果确定对所述两个以上的场景特征进行澄清。

进一步地，该装置还包括：

第四获取模块45，用于在众测过程中获取所述至少一个场景的目标特征，通过统计模型对所述目标特征进行多轮语音训练；

第五获取模块46，用于在所述统计模型具有随机性决策时，获取所述权重向量的初始值。

本发明实施例的详细描述和有益技术效果可以参考上述实施例二中的相关描述和有益技术效果，在此不再赘述。

综上，本发明实施例可以充分利用用户的反馈信息，可以预测出用户的长期收益最大的动作；此外，由于特征向量选取与具体场景无关的特征，从而能够快速的引入新的场景特征，使得方案具有很好的扩展性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音对话的多场景管理方法，其特征在于，所述方法包括：

根据所述需求信息场景内的至少一个场景各自对应的至少一个评分值；

2.根据权利要求1所述的方法，其特征在于，所述根据所述需求信息获取场景内的至少一个场景各自对应的至少一个评分值的步骤包括：

根据所述需求信息获取场景内的至少一个场景，并获取与所述至少一个场景分别对应的至少一个特征向量；

获取所述至少一个特征向量与各自对应的权重向量的内积，得到至少一个内积，所述内积作为评分值。

3.根据权利要求2所述的方法，其特征在于，所述根据所述需求信息获取场景内的至少一个场景，并获取与所述至少一个场景分别对应的至少一个特征向量的步骤包括：

根据所述需求信息对所述语音对话进行场景分类，得到所述需求信息所适用的场景内的至少一个场景；

根据所述至少一个场景对所述需求信息进行场景特征抽取，得到与所述至少一个场景分别对应的至少一个特征向量。

4.根据权利要求2所述的方法，其特征在于，如果从所述需求信息还获取到场景外特征，所述方法还包括：

根据所述场景外特征与所述至少一个场景特征从所述至少一个场景特征中获取场景确认动作的特征向量。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

在众测过程中获取所述至少一个场景的目标特征，通过统计模型对所述目标特征进行多轮语音训练；

在所述统计模型具有随机性决策时，获取所述权重向量的初始值。

6.根据权利要求1-5任一所述的方法，其特征在于，所述根据所述至少一个评分值确定欲执行的场景切换动作的步骤包括：

对所述至少一个评分值进行排序，得到所有评分值中的最大值；

根据所述最大值对应的场景特征确定欲执行的场景切换动作，并展示与所述最大值对应的场景特征的语音内容。

7.根据权利要求6所述的方法，其特征在于，所述根据所述最大值对应的场景特征对所述需求信息进行回应的步骤包括：

如果所述最大值对应所述场景内的一个场景特征，根据该场景特征对所述需求信息进行回应；

如果所述最大值对应所述场景内的两个以上的特征向量，根据所述两个以上的特征向量对所述需求信息进行澄清；

如果所述最大值对应所述场景外特征与所述场景内的场景特征，对所述场景外特征与所述场景内的场景特征进行确认。

8.根据权利要求7所述的方法，其特征在于，所述根据所述两个以上的场景特征对所述需求信息进行澄清的步骤包括：

获取所述至少两个以上的场景特征对应的场景向量的差值；

获取所述差值的指数运算，根据指数运算结果确定对所述两个以上的场景特征进行澄清。

9.一种语音对话的多场景管理装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述第二获取模块包括：

第一获取单元，用于根据所述需求信息获取场景内的至少一个场景，并获取与所述至少一个场景分别对应的至少一个特征向量；

第二获取单元，用于获取所述至少一个特征向量与各自对应的权重向量的内积，得到至少一个评分值。

11.根据权利要求10所述的装置，其特征在于，所述第一获取单元包括：

场景分类子单元，用于根据所述需求信息对所述语音对话进行场景分类，得到所述需求信息所适用的场景内的至少一个场景；

特征抽取子单元，用于根据所述至少一个场景对所述需求信息进行场景特征抽取，得到与所述至少一个场景分别对应的至少一个特征向量。

12.根据权利要求11所述的装置，其特征在于，如果从所述需求信息还获取到场景外特征，所述装置还包括：

第三获取模块，用于根据所述场景外特征与所述至少一个场景特征从所述至少一个场景特征中获取场景确认动作的特征向量。

13.根据权利要求9所述的装置，其特征在于，所述装置还包括：

第四获取模块，用于在众测过程中获取所述至少一个场景的目标特征，通过统计模型对所述目标特征进行多轮语音训练；

第五获取模块，用于在所述统计模型具有随机性决策时，获取所述权重向量的初始值。

14.根据权利要求9-13任一所述的装置，其特征在于，所述切换模块包括：

排序单元，用于对所述至少一个评分值进行排序，得到所有评分值中的最大值；

确定单元，用于根据所述最大值对应的场景特征确定欲执行的场景切换动作，并展示与所述最大值对应的场景特征的语音内容。

15.根据权利要求14所述的装置，其特征在于，所述确定单元包括：

第一回应子单元，用于如果所述最大值对应所述场景内的一个场景特征，根据该场景特征对所述需求信息进行回应；

第二回应子单元，用于如果所述最大值对应所述场景内的两个以上的特征向量，根据所述两个以上的特征向量对所述需求信息进行澄清；

第三回应子单元，用于如果所述最大值对应所述场景外特征与所述场景内的场景特征，对所述场景外特征与所述场景内的场景特征进行确认。

16.根据权利要求15所述的装置，其特征在于，所述第三回应子单元包括：