CN106409283B

CN106409283B - 基于音频的人机混合交互***及方法

Info

Publication number: CN106409283B
Application number: CN201610791966.0A
Authority: CN
Inventors: 俞凯; 石开宇; 郑达; 陈露; 常成; 曹迪
Original assignee: Shanghai Jiaotong University
Current assignee: Sipic Technology Co Ltd
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2020-01-10
Anticipated expiration: 2036-08-31
Also published as: CN106409283A

Abstract

本发明公开了一种基于音频的人机混合交互***，语音识别模块与语义识别模块相连并传输语音对应的文字信息，异常处理模块与语音识别模块和语义识别模块相连，语音识别模块传输文字信息给异常处理模块，语义识别模块传输语义解析结果给异常处理模块；异常处理模块与语音合成模块相连并传输干预信息。本发明还公开了一种基于音频的人机混合交互方法，语音识别模块将语音信息转换为文字信息并输出至语义识别单元；语义识别单元从文字信息中提取用户目的以及相应的关键信息；异常处理模块根据语音识别模块的文字信息以及语义识别模块的语义信息判断人机对话当前是否出现异常并针对异常处理消息的回复。本发明的技术方案提供统一的人机对话体验。

Description

基于音频的人机混合交互***及方法

技术领域

本发明涉及信息处理技术领域，尤其涉及一种基于音频的人机混合交互***及方法。

背景技术

如图1所示，目前基于音频的人机对话***均使用机器回复作为最终回复呈现给用户，当机器决策***不能明确用户意图时，大部分对话***选择呈现“请再说一遍”之类的回复以让用户进行重新的输入，其中部分人机对话***引入了基于话务中心的人工干预方法。

目前现有人机对话异常处理主要通过话务中心形式实现，在机器无法处理用户输入音频或者在用户明确表示需要人工服务时，请求人工的话务中心介入，此时用户与话务员之间建立一对一的通话连接，话务员与用户进行直接交流，获知用户的需求并通过话务平台下发相应的指令。

现有话务中心的人工干预方式存在的问题主要有：人工效率低，干预师与用户需要建立一对一的语音交流，等待用户输入的时间段内无法服务其他人；成本高，大规模的呼叫中心需要一系列的电信设备以及相应服务集成，同时由于效率低，需要更多干预师进行干预服务，从而间接提高了人力成本；受网络环境影响大：利用网络资源直接传输音频需要稳定的网络连接，网络环境的波动会导致音频质量下降从而影响对话体验，甚至中断人机对话流程。

因此，本领域的技术人员致力于开发一种基于音频的人机混合交互***及方法，将人工干预回复与机器回复相结合，从而统一人机对话的流程和提升用户体验。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是如何提高客服过程中人机对话的效率和用户体验。

为实现上述目的，本发明提供了一种基于音频的人机混合交互***，包括语音识别模块、语音合成模块、语义识别模块以及异常处理模块，其中，所述语音识别模块被配置为与所述语义识别模块相连并传输语音对应的文字信息，所述异常处理模块被配置为与所述语音识别模块和所述语义识别模块相连，所述语音识别模块被配置为传输文字信息给所述异常处理模块，所述语义识别模块被配置为传输语义解析结果给所述异常处理模块；所述异常处理模块被配置为与所述语音合成模块相连并传输干预信息。

进一步地，所述语音识别模块包括信号处理及特征提取单元、声学模型、语言模型以及解码器，其中，所述信号处理及特征提取单元被配置为与所述声学模型相连并传输声学特征信息，所述解码器被配置为与所述声学模型和所述语言模型相连并输出识别结果。

进一步地，所述语音合成模块包括文本分析单元、韵律控制单元以及合成语音单元，其中，所述文本分析单元被配置为接收文本信息并对所述文本信息进行处理，将处理结果传输到所述韵律控制单元与所述合成语音单元，所述韵律控制单元被配置为与所述合成语音单元相连，并传输音高、音长、音强、停顿及语调信息，所述合成语音单元被配置为将所述接收文本分析单元的分析结果与所述韵律控制单元的控制参数合成输出的语音。

进一步地，所述语义识别模块包括领域标注单元、意图判断单元、信息提取单元，其中，所述领域标注单元被配置为与所述意图判断单元相连并传输领域信息，所述意图判断单元被配置为与所述信息提取单元相连并传输用户意图信息，所述信息提取单元输出语义分析的结果。

进一步地，所述异常处理模块包括异常检测单元、数据库查询单元以及干预师单元，其中，所述异常检测单元被配置为接收所述语音识别模块和所述语义识别模块的输出，并决定是否采取干预措施，所述数据库查询单元被配置为接收所述异常检测单元的干预信号，并接收所述语义识别模块的语义信息，查询并输出干预消息，所述干预师单元被配置为利用干预师对所述数据库查询单元输出的所述干预消息进行必要的择优以及修改，最终输出给用户的回复消息。

本发明还提供了一种基于音频的人机混合交互方法，包括以下步骤：

步骤1、提供语音识别模块、语音合成模块、语义识别模块以及异常处理模块；

步骤2、所述语音识别模块将语音信息转换为文字信息并输出至所述语义识别单元；

步骤3、所述语义识别单元从文字信息中提取用户目的以及相应的关键信息；

步骤4、所述异常处理模块根据所述语音识别模块的文字信息以及所述语义识别模块的语义信息判断人机对话当前是否出现异常并针对异常处理消息的回复。

进一步地，在步骤2中，具体包括以下步骤：

步骤2.1、从输入的音频流中提取特征供声学模型处理，同时降低环境噪声、信道和说话人因素对所述特征造成的影响；

步骤2.2、解码器根据声学、语言学模型及词典，对所述声学模型的处理结果，寻找能够以最大概率输出所述音频流的词串，作为语音的识别结果。

进一步地，在步骤3中，具体包括以下步骤：

步骤3.1、利用文字信息中标志性的关键词标记当前对话所属的领域；

步骤3.2、在所述领域中基于规则对用户意图进行判断；

步骤3.3、根据所述领域以及所述用户意图，结合规则，对具体的关键信息进行提取。

进一步地，在步骤4中，具体包括以下步骤：

步骤4.1、异常检测单元根据所述语音识别模块的文字信息以及所述语义识别模块的语义信息判断当前的人机对话是否出现异常，若异常则由干预师单元接管人机对话；

步骤4.2、数据库查询单元根据语义信息进行数据库的查询，得到具有推荐度的干预消息，如果干预消息的推荐度较高，则直接利用该干预消息进行干预，如果推荐度较低，则请求干预师进行人工介入；

步骤4.3、在机器算法无法找到高推荐度的干预消息时，干预师介入进行干预消息的选择以及修改，随后将修改后的干预消息发送至客户端。

进一步地，所述关键信息包括对话领域、对话关键词，所述对话关键词包括内容关键词和情绪关键词。

与现有技术相比，本发明的技术效果包括:

1、效率提高：充分利用了干预师等待用户输入的时间，使得干预师可同时对多个用户进行干预服务，提高干预的效率。

2、成本减少：无需采购话务中心相关的一系列电信设备，利用现有的计算机以及服务器即可搭建干预平台。

3、工作场景丰富：由于干预师界面采用了B/S(Browser/Server浏览器/服务器)结构，干预师打开浏览器登录相应的网站即可进行干预操作，不必要在工位上接听电话，可以在PAD、智能手机、个人笔记本等移动终端上进行干预服务。

4、网络要求低：文本传输的数据量很小，从而对网络的要求降低，同时用户收听到的语音由本地合成，不受网络情况的影响。

5、统一的人机对话体验：对用户来说，干预师是透明的，用户的体验如同与一个充分智能的“机器”在对话，可以无缝衔接目前的人机对话方式。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1为现有传统话务中心的干预模式示意图；

图2为本发明的***模块示意图；

图3为本发明一个较佳实施例的***流程示意图；

图4为本发明一个较佳实施例的角色对话流程示意图。

具体实施方式

本发明是通过以下技术方案实现的：

如图2所示，本发明涉及一种基于音频的人机对话异常处理***，包括：语音识别模块、语音合成模块、语义识别模块以及异常处理模块，其中：语音识别模块与语义识别模块相连并传输语音对应的文字信息，语音识别模块和语义识别模块均与异常处理模块相连，并分别传输文字信息和语义解析结果，异常处理模块与语音合成模块相连并传输干预信息。

所述的语音识别模块包括：信号处理及特征提取单元、声学模型、语言模型以及解码器，其中：信号处理及特征提取单元与声学模型相连并传输声学特征信息，解码器与声学模型和语言模型相连，对外界输出识别结果。

所述的语音合成模块包括：文本分析单元、韵律控制单元以及合成语音单元，，其中：文本分析单元接收文本信息并对其进行处理，将处理结果传输到韵律控制单元与合成语音单元，韵律控制单元与合成语音单元相连，并传输目标的音高、音长、音强、停顿及语调等信息，合成语音单元接收文本分析单元的分析结果与韵律控制单元的控制参数，对外界输出合成的语音。

所述的语义识别模块包括：领域标注单元、意图判断单元、信息提取单元，其中：领域标注单元与意图判断单元相连并传输领域信息，意图判断单元与信息提取单元相连并传输用户意图信息，信息单元与外界相连并传输语义分析的信息。

所述的异常处理模块包括：异常检测单元、数据库查询单元、干预师单元以，其中：异常检测单元接收语音识别模块和语义识别模块的输出，并决定是否采取干预措施，数据库查询单元接收异常检测单元的干预信号，并接收语义识别模块的语义信息，查询并输出干预消息，干预师单元利用干预师对数据库查询单元输出的干预消息进行必要的择优以及修改，最终输出用户回复消息。

本发明涉及上述***的人机对话异常处理方法，具体包括以下步骤：

步骤1、提供语音识别模块、语音合成模块、语义识别模块以及异常处理模块。

步骤2、语音识别模块将语音信息转换为文字信息并输出至语义识别单元，具体步骤包括：

2.1前端处理音频流,从输入信号中提取特征，供声学模型处理。同时尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。

2.2解码器对输入的信号根据声学、语言学模型及词典，寻找能够以最大概率输出该信号的词串，作为语音的识别结果。

步骤3、语义识别单元从文字信息中提取用户目的以及相应的关键信息，具体步骤包括：

3.1利用文字信息中标志性的关键词标记当前对话所属的领域。

3.2在具体领域中基于规则对用户的意图进行判断。

3.3根据领域以及用户意图，结合规则，例如预先设定的模板，对具体的关键信息进行提取。

步骤4、异常处理模块根据语音识别模块的文字信息以及语义识别模块的语义信息判断人机对话当前是否出现异常并进行异常的处理以及消息的回复，具体步骤包括：

4.1异常检测单元根据语音识别模块的文字信息以及语义识别模块的语义信息判断当前的人机对话是否出现异常。不异常则由本地客户端进行处理，异常则由干预服务器接管人机对话。

4.2数据库查询单元根据语义信息进行数据库的查询，得到推荐的干预消息，如果干预消息的推荐度较高，则直接利用该干预消息进行干预，如果推荐度较低，则请求干预师进行人工介入。

4.3在机器算法无法找到高推荐度的干预消息时，干预师介入进行干预消息的选择以及修改，随后将修改后的干预消息发送至客户端。

在人机对话异常处理的过程中，用户的语音输入通过机器的语音识别以及语义解析后，会将语音的识别结果以及语义解析的结果以文本的形式传到干预师端，干预师接受到消息之后可以选择发送对话消息或者下发命令消息。对话消息以文本的形式传输到机器，随后通过语音合成***(TTS)合成语音并播放给用户，命令消息则是直接通过机器执行命令。

本实施例包括以下步骤，如图3和图4所示，即用户输入-->干预消息生成-->客户机推送干预消息三个步骤分别进行技术方案的介绍：

1)用户输入

用户进行语音输入的过程中，利用的语音识别***将用户的语音输入音频转换为文字，同时对该句文字进行语义分析(语义分析的结果包括用户当前的对话领域、用户请求服务的关键信息等)，最后将文字以及语义分析的结果以文本形式通过HTTP协议的POST方法传输到异常处理模块。

2)干预消息生成

异常处理模块在异常情况下，根据语音识别的文本信息和语义识别的语义槽查询数据库，得到备选的干预消息。如果干预消息的推荐度较高，则直接利用该干预消息进行干预，如果推荐度较低，则请求干预师进行人工介入。干预师在界面上可以看到由异常处理模块提供的辅助数据比如用户输入的识别结果和语义分析的结果等，结合这些信息干预师能够更准确快速地对候选干预消息进行筛选与修改。干预消息分为对话消息与命令消息，均以文本的形式采用统一的Websocket协议进行传输，其区别在与传输内容的不同以及机器的处理方式不同。

3)客户机推送干预消息

客户机收到干预消息后立刻返回干预师“消息已收到”的确认信息，并将干预消息缓存在消息队列中。客户机会监听当前的人机对话状态并在一定条件下尝试从消息队列中取出消息向用户推送，具体的推送时机包括有：1、干预消息到达时，2、TTS合成的语音消息播报完成时；需要满足的条件为1、消息队列不为空，2、客户机的音频播放器当前空闲。如果干预消息成功推送则返回干预师“干预消息已推送”的确认信息。

例如：

1、用户A发出语音指令“我要去一个好玩的地方”。

2、语音识别模块将语音输入转换为文字。

3、语义分析模块处理后得到用户意图为“导航”，导航的目标地的标签为“好玩”。

4、异常处理模块中的异常检测单元收到用户A的服务请求，包含完整的语音识别结果“我要去一个好玩的地方”，和语义分析的结果“导航”、"好玩"，同时检测到当前的对话状态出现异常。

5、异常处理模块中的数据库查询单元根据”导航“、”好玩“进行数据库查询，得到一些备选消息比如”请问您要去苏州的好玩小吃吗？“、”为您找个5个与好玩相关的地点“，这两条消息的推荐度都比较低，故请求干预师单元的人工介入。干预师利用异常处理模块得到的数据库查询结果以及语义分析结果和语音识别的文字结果进行干预消息的选择和修改，将干预消息改为”请问您想要怎样的娱乐方式？“，向用户发送该文本消息。

6、客户机收到干预消息后将其存入消息队列，向异常处理模块发送“消息已收到”的反馈，并尝试进行推送。

7、条件满足后进行干预消息的语音合成***合成以及播报，用户听到音频“请问您想要怎样的娱乐方式”，客户机向异常处理模块发送“消息已推送”反馈。

8、客户进行进一步的语音输入“我要去唱歌”

9、ASR***将语音输入转换为文字

10、语义分析得到用户意图为“导航”，导航的目标为“KTV”

11、异常检测单元得到用户A的具体服务需求，包含完整的语音识别结果“我要去唱歌”，和语义分析的结果”导航“、”KTV“。

12、数据库查询单元根据”导航“、”KTV“、以及用户的相关信息进行数据库的搜索，得到备选干预消息”为您推荐xxx请问是否前往？“，同时由于推荐度很高，故绕过干预师单元，直接向客户机发送文字消息”为您推荐xxx请问是否前往？“

13、用户确认前往

14、异常处理***用户推送命令类型的干预消息，包含命令类型“导航”以及目的地的POI信息。

15、客户机从消息队列中取出命令类型“导航”的消息以及相应的POI信息，进行导航操作，客户机向异常处理模块发送“消息已推送”反馈,交互结束。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于音频的人机混合交互***，其特征在于，包括语音识别模块、语音合成模块、语义识别模块以及异常处理模块，其中，所述语音识别模块被配置为与所述语义识别模块相连并传输语音对应的文字信息，所述异常处理模块被配置为与所述语音识别模块和所述语义识别模块相连，所述语音识别模块被配置为传输文字信息给所述异常处理模块，所述语义识别模块被配置为传输语义解析结果给所述异常处理模块；所述异常处理模块被配置为与所述语音合成模块相连并传输干预信息；所述语音合成模块被配置为将所述异常处理模块传输的所述干预信息转化为语音，发送并播放给用户，待所述用户进一步反馈；

所述异常处理模块包括异常检测单元、数据库查询单元以及干预师单元，其中，所述异常检测单元被配置为接收所述语音识别模块和所述语义识别模块的输出，并决定是否采取干预措施，所述数据库查询单元被配置为接收所述异常检测单元的干预信号，并接收所述语义识别模块的语义信息，查询并输出推荐度高的所述干预信息给所述语音合成模块；所述干预师单元被配置为利用干预师对所述数据库查询单元输出的低推荐度的所述干预信息进行必要的择优以及修改，再输送给所述语音合成模块、待所述用户进一步反馈的回复消息。

2.如权利要求1所述的基于音频的人机混合交互***，其特征在于，所述语音识别模块包括信号处理及特征提取单元、声学模型、语言模型以及解码器，其中，所述信号处理及特征提取单元被配置为与所述声学模型相连并传输声学特征信息，所述解码器被配置为与所述声学模型和所述语言模型相连并输出识别结果。

3.如权利要求1所述的基于音频的人机混合交互***，其特征在于，所述语音合成模块包括文本分析单元、韵律控制单元以及合成语音单元，其中，所述文本分析单元被配置为接收文本信息并对所述文本信息进行处理，将处理结果传输到所述韵律控制单元与所述合成语音单元，所述韵律控制单元被配置为与所述合成语音单元相连，并传输音高、音长、音强、停顿及语调信息，所述合成语音单元被配置为接收所述文本分析单元的分析结果与所述韵律控制单元的控制参数合成输出的语音。

4.如权利要求1所述的基于音频的人机混合交互***，其特征在于，所述语义识别模块包括领域标注单元、意图判断单元、信息提取单元，其中，所述领域标注单元被配置为与所述意图判断单元相连并传输领域信息，所述意图判断单元被配置为与所述信息提取单元相连并传输用户意图信息，所述信息提取单元输出语义分析的结果。

5.一种基于音频的人机混合交互方法，其特征在于，包括以下步骤：

步骤2、所述语音识别模块将语音信息转换为文字信息并输出至所述语义识别模块；

步骤3、所述语义识别模块从文字信息中提取用户目的以及相应的关键信息；

步骤4、所述异常处理模块根据所述语音识别模块的文字信息以及所述语义识别模块的语义信息判断人机对话当前是否出现异常并针对异常处理消息的回复；

其中，在所述步骤4中，具体包括以下步骤：

步骤4.2、数据库查询单元根据所述语义信息进行数据库的查询，得到具有推荐度的干预信息，如果所述干预信息的推荐度较高，则直接利用所述干预信息进行干预，将所述干预信息发送至客户端，进入所述步骤2等待所述用户进一步反馈；如果推荐度较低，则请求干预师进行人工介入；

步骤4.3、在机器算法无法找到高推荐度的所述干预信息时，干预师介入进行所述干预信息的选择以及修改，随后将修改后的所述干预信息发送至客户端，进入所述步骤2等待所述用户进一步反馈。

6.如权利要求5所述的基于音频的人机混合交互方法，其特征在于，在步骤2中，具体包括以下步骤：

7.如权利要求5所述的基于音频的人机混合交互方法，其特征在于，在步骤3中，具体包括以下步骤：

步骤3.2、在所述领域中基于规则对用户意图进行判断；

8.如权利要求5或7所述的基于音频的人机混合交互方法，其特征在于，所述关键信息包括对话领域、对话关键词，所述对话关键词包括内容关键词和情绪关键词。