CN100346625C

CN100346625C - 一种电话语音交互***及其实现方法

Info

Publication number: CN100346625C
Application number: CNB021592446A
Authority: CN
Inventors: 孙文彦; 孙久文; 诸光; 任文捷; 刘武; 王楠; 申江涛; 王江; 高建忠; 王建新
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2002-12-27
Filing date: 2002-12-27
Publication date: 2007-10-31
Anticipated expiration: 2022-12-27
Also published as: CN1512747A

Abstract

本发明公开了一种电话语音交互***，包括：主控单元，用于创建一个以上工作单元及每个工作单元内部的功能单元，并控制***内往来消息的数据交换和存储；至少一个工作单元，用于实现整个***的语音交互过程，每个工作单元进一步包括用于实现语音交互过程中逻辑处理、***动态配置以及信息提供的情景导航单元和用于实现对电话语音各种处理的语音处理单元；其中，情景导航单元与外部信息提供设备相连，语音处理单元与电话语音板卡相连。本发明还同时公开了一种实现电话语音交互的方法，该***和方法能够准确地识别用户当前输入语音，并支持***以不同的引导逻辑进行处理，以保证***的正常运行，不仅提高***的处理能力和效率，而且更便于用户使用。

Description

一种电话语音交互***及其实现方法

技术领域

本发明涉及电话语音的处理技术，尤指一种基于自然语言的、用于邮件管理的电话语音交互***及其实现方法。

背景技术

随着对各种自动化、智能化***需求的不断增多和语音应用技术的不断成熟，各种基于语音提示引导用户完成***特定的功能导航交互***日渐增多，应用涉及电话号码、股票及其他各种信息服务领域。因此基于语音的交互应用***成为一个非常活跃的领域，而具有广泛应用需求的邮件则又是该领域的一个应用热点。

目前，对于电子邮件的读写，只能通过计算机以及其上的特定软件***来完成，这样，对那些计算机操作不熟练的用户，就会有一定的限制，这类用户有可能因为技术原因不能及时读取或回复邮件，不仅会为用户带来很多麻烦，而且可能会耽误紧急的事件。如果采用语音交互的方式，对使用者来说更为简单方便，但受现有语音识别技术的局限，现有***往往仅能提供按键式的单向语音交互或固定语音指令的简单交互，沿袭了传统IVR***的树状结构以及重功能、轻体验的特点，不能针对当前识别的用户指令进行后续的交互操作，也不能对当前所识别的用户指令进行解析实现正确的引导，无法体现语音交互过程灵活、方便、离散、跳跃的优势。

发明内容

有鉴于此，本发明的主要目的在于提供一种电话语音交互***，能够准确的识别用户当前输入语音，并支持***以不同的引导逻辑进行处理，不仅提高了***的处理能力和效率，而且更便于用户使用。

本发明的主要目的在于提供一种电话语音处理的实现方法，能够对用户当前输入语音进行准确的识别，并根据识别结果和***当前所处状态进一步自动引导***的合法运行，以保证***的正常运行，同时可为用户提供灵活、简单、方便、易于实现的操作，为用户提供更好的服务。

为达到上述目的，本发明的技术方案是这样实现的：

一种电话语音交互***，该***包括：

主控单元，用于创建一个以上工作单元及每个工作单元内部的功能单元，并控制***内往来消息的数据交换和存储；

至少一个工作单元，用于实现整个***的语音交互过程，每个工作单元进一步包括情景导航单元和用于实现对电话语音各种处理的语音处理单元，情景导航单元根据用户语音输入判断出的语义和***当前所处的状态确定***的目标运行状态，返回相应提示给用户；

其中，情景导航单元与外部信息提供设备相连，语音处理单元与电话语音板卡相连。

上述***中，所述主控单元进一步包括消息缓冲区，用来为情景导航单元和语音处理单元提供消息数据存储和交换的信息空间。所述情景导航单元进一步包括情景导航模块、外部接口模块以及数据库，外部接口模块与外部信息提供设备相连。该外部信息提供设备为邮件服务器，则外部接口模块为邮件接口模块。所述语音处理单元进一步包括识别模块、合成模块和电话处理模块，识别模块、合成模块和电话处理模块分别通过语音板卡应用程序接口与电话语音板卡相连。所述的识别模块和合成模块由识别合成服务器实现。

一种电话语音交互的实现方法，该方法包括以下步骤：

a.主控单元预先创建至少一个工作单元，并为每个工作单元创建其中的语音处理单元；

b.当有新用户接入时，主控单元为当前用户分配一个空闲的工作单元，并为该当前用户创建工作单元中的情景导航单元；

c.由语音处理单元播放提示语音并识别用户当前的输入语音，情景导航单元根据所识别的用户当前输入语音的语义以及***当前所处状态，确定***的目标运行状态；

d.判断目标运行状态是否为当前用户的需求状态，如果是，则判断目标运行状态是否为退出***，如果是，则退出***，结束本流程；否则播放用户需求的信息，返回步骤c；如果目标运行状态不是当前用户的需求状态，则确定目标状态要播放的提示语音，返回步骤c。

该方法进一步包括：预先创建并存储一个用于识别用户当前输入语音语义的语义文件。

该方法进一步包括：预先根据用户的正常或异常操作逻辑设定一个逻辑状态转移图，情景导航单元根据该逻辑状态转移图确定***的目标运行状态。在语音交互过程中实时更新所述的逻辑状态转移图。

该方法进一步包括：新用户建立呼叫接入时，语音处理单元为每个用户分配唯一绑定的用户标识Caller ID。

该方法进一步包括：当语音处理单元无法准确识别用户当前输入语音时，情景导航单元将控制***主动播放能准确区分用户当前输入语音语义的引导提示。

因此，本发明所提供的电话语音交互***及其实现方法，预先按照用户的使用习惯创建相应的语法文件和语言解析模板，能够自动识别并确定用户输入语音的语义，然后根据用户输入语音和***当前所处状态，进一步确定下一步操作的方向和状态，以满足用户的业务需求，提高***的效率和成功率。另外，本发明采用自动导航逻辑，预先创建引导***正确运行的逻辑状态转移结构，使得无论***处于何种状态，自动导航逻辑均能根据预先设定的状态转移逻辑正确引导***继续运行，从而使***不仅能为用户提供更好的服务，而且对于用户来说操作更灵活、简单、方便，易于实现。

附图说明

图1为本发明***应用于电话语音邮件交互***的结构组成示意图；

图2为基于本发明的电话语音邮件交互***的具体应用实例结构图；

图3为基于本发明的电话语音邮件交互***对用户登陆的处理流程图；

图4为基于本发明的电话语音邮件交互***对用户退出的处理流程图；

图5为基于本发明的电话语音邮件交互***的引导逻辑拓扑结构图；

图6为基于本发明的电话语音邮件交互***的一实施例处理流程图；

图7为图6所示实施例的完善处理流程图。

具体实施方式

下面结合附图以本发明应用于电话语音邮件交互***为例，对本发明再作进一步详细的说明，即：语音交互***为语音邮件交互***。

图1为基于本发明的电话语音邮件交互***的结构组成示意图，如图1所示，该***主要包括两个部分：主控单元10和工作单元11。其中，工作单元11又可进一步分为情景导航单元110和语音处理单元111；主控单元10还包括一消息缓冲区，主要用来为情景导航单元110和语音处理单元111的消息数据提供存储和交换的信息空间。语音处理单元111与电话语音板卡相连；情景导航单元110与外部信息提供设备相连，本实施例中，外部信息提供设备为邮件服务设备，如：企业Notes邮件服务器。主控单元10将根据电话语音板卡端口情况，创建多个工作单元11，再为每个工作单元11分别创建语音处理单元111和情景导航单元110，并由主控单元10中的消息缓冲区模块为语音处理单元111和情景导航单元110之间往来的消息提供数据交换的空间。

情景导航单元110是整个工作单元的核心，包括：情景导航模块、外部接口模块以及数据库。其中，情景导航模块又是情景导航单元的核心，用于实现导航交互过程中的逻辑处理及***动态配置。本实施例中，外部接口模块为邮件接口模块，直接与***外部的邮件服务器相连，用来进行情景导航模块与邮件服务器之间的通信，完成用户登陆、邮件查询获取等邮箱操作，其是保证本***与邮件服务器之间邮箱状态同步的执行模块；该邮件接口模块采用套接字(Socket)通信方式，在通信过程中，情景导航模块作为客户(Client)端，邮件服务器***作为服务器(Server)端。数据库，用于存储导航***配置信息、业务场景配置信息及用户信息，是电话语音邮件***得以正确运行的基础。其中，邮件服务器***负责实时接收邮件，并进行分类统计，比如：统计总邮件有多少，来自A的有几封邮件，来自B的有几封邮件......来自A的邮件中有几封新的、几封旧的，每封邮件各自的类别等等，邮件服务器***根据所接收的邮件，实时更新所有相关的邮件信息，并将最新的邮件信息存储于数据库中，以备用户进行查询。

语音处理单元111用于实现对电话语音的各种处理，包括识别模块、合成模块和电话处理模块，三个模块各自对应的功能分别通过调用语音板卡应用程序接口(API)来实现。其中，识别模块用来实现对用户所说的语音信息进行提取，并取得识别***对当前语言信息理解的原始信息，以供情景导航单元进一步理解、处理和使用。合成模块，将待播放文本信息进行合成预处理后进行播放，或直接播放语音信息，实现对用户的引导提示。电话处理模块，用来对电话状态及各种事件，如拨入、挂断等进行监控处理。

在新呼叫接入时，由语音处理单元监测得到用户拨入的语音板卡端口信息，并分配给每个用户唯一绑定的标识Caller ID，主控单元通过该Caller ID实现对来自不同用户的情景导航单元和语音处理单元消息进行处理。

图2为基于本发明的电话语音邮件交互***的具体应用实例结构图，本应用实施例中，电话语音邮件***的功能主要由电话语音邮件服务器实现，电话语音板卡也可以放置在该电话语音邮件服务器中，但语音处理单元中识别模块与合成模块的识别、合成功能由独立的识别合成服务器来实现。图2中的Notes邮件服务器作为远程邮件服务器，电话语音邮件服务器、识别合成服务器和Notes邮件服务器分别与局域网相连，并通过局域网进行通信。

基于上述结构，本发明***在实际应用中的工作原理是这样的：

a.电话语音邮件服务器启动后，其中的主控单元首先要创建若干个工作单元，并为每个工作单元创建其中的语音处理单元。

b.当用户拨打移动或固定电话，通过电话网接入电话语音邮件***后：

1>电话语音邮件服务器中的主控单元先分配一个空闲的工作单元给当前用户，并创建其中的情景导航单元。

2>然后，主控单元指示识别合成服务器对用户输入的语音进行识别、分析与合成，得到用户输入的语音流；***根据所得到的语音流判断出用户的正确语义，由情景导航单元根据所确定的语义决定下一步的状态转移方向。也就是说，情景导航单元会根据语音***当前所处状态和用户输入语音的语义，来确定下一步操作方向，或确定下一步如何正确引导用户输入的引导方向，这种方法即可称为语音导航。

举个例子来说，***当前所处的状态为：***播放“您有两封新邮件来自张三，一封新邮件来自李四，您需要听哪一封？”后，等待用户的语音输入。此时，如果用户输入为“读张三的邮件”或“读张三的第一封邮件”等类似语音，其逻辑符合正常的顺序逻辑，则情景导航单元经过判断，确认下一步应转向读邮件操作，所读的目标邮件为用户指定的邮件。但此时，如果用户输入为“回复张三的邮件”等语音信息，则该逻辑为不符合正常顺序的逻辑，由情景导航单元先判断从当前***状态是否可转移到用户指定业务的逻辑状态，如果可以，则情景导航单元确定下一步操作的转移方向为含有用户指定业务的逻辑状态；如果不可以，则情景导航单元确定下一步应该进入哪个状态对用户输入进行引导。

此过程中，所述对用户输入语音的语义判定是指在本发明的***中预先创建并存储一个语义文件，每当有新的用户语音输入时，将新输入的语音与语义文件中的每种语义进行对比，确定当前输入语音的正确语义，以便***决定下一步所要执行的操作。其中，语义文件的创建是经过对众多使用者实际应用规则测试得到的。另外，为使情景导航单元能够根据***当前状态和用户输入语义确定下一步所要跳转的状态，***预先根据用户的正常或异常操作逻辑设定一个逻辑状态转移图，情景导航单元的每步导航操作、跳转判断全部基于逻辑状态转移图来完成，该逻辑状态转移图中状态点之间的连接关系还可以根据实际应用操作进行实时增加、删除或更新。

3>情景导航单元确定下一步的操作方向后，由语音处理单元根据该操作方向确定当前要播放的语音及下一步的***处理状态，然后，由语音处理单元向用户播放相应的语音，并等待用户的应答。

4>当用户输入新的语音后，由语音处理单元接收，识别合成服务器进行识别、分析，确定用户当前输入语音的语义；语义确定后，再由情景导航单元确定转移方向，之后返回步骤3>。

如此循环执行步骤3>、4>，直至到达用户当前所要求的业务，播放出用户期望的信息，然后回到初始状态开始新的业务，或转移到用户指定的状态；或是执行循环操作直到用户正常或异常退出***。其中，用户所期望的信息是根据Notes邮件服务器采集、统计并存储在情景导航单元中数据库内的邮件信息来播放的。

基于本发明的电话语音邮件交互***对用户登陆的处理流程如图3所示：

步骤301～303：在有用户语音输入之前，本发明语音邮件***中的主控单元先对自身的消息缓冲区进行初始化，并同时创建多个工作单元及其内部的语音处理单元，然后等待新用户的接入。

步骤304～306：当有新用户接入时，主控单元指示当前工作单元的语音处理单元创建情景导航单元，并且语音处理单元发更新消息缓冲区指令给主控单元，将新用户的相关信息存储于消息缓冲区中。

步骤307～309：情景导航单元创建成功后，语音处理单元向情景导航单元发送新用户登陆消息；情景导航单元收到后，到主控单元的消息缓冲区中读取消息缓冲区的内容，并根据所获取的内容确定邮件***导航的起始环境。

步骤310～311：情景导航单元根据所确定的起始环境更新消息缓冲区内容，并发送导航消息给语音处理单元。

步骤312～313：语音处理单元收到导航消息后，到主控单元的消息缓冲区中读取消息缓冲区的当前内容，根据所获取的信息确定下一步的提示语音并设定下一步的交互状态。

步骤314～316：提示语音确定后，语音处理单元向用户端播放***的引导提示语，指示用户下一步需要输入的语音信息范围；用户收到后，输入相应的语音应答信息，该语音信息由语音处理单元通过语音API从电话语音板卡接收，并在语音处理单元的识别、合成模块中完成进一步的语音识别与合成处理。

步骤317：语音处理单元对新用户的当前输入语音处理后，将处理信息送至消息缓冲区，更新消息缓冲区的内容。

步骤318：语音处理单元发送识别消息到情景导航单元，表明用户所输入的语音已处理完毕，情景导航单元可进行下一步导航。

步骤319～321：情景导航单元收到识别消息后，到消息缓冲区中读取新的内容，再根据所获取的内容确定下一步要进行的导航步骤，然后更新消息缓冲区的内容。

步骤322：情景导航单元发送导航消息给语音处理单元，提示语音处理单元读取消息缓冲区中的新内容。

步骤323～324：语音处理单元读取消息缓冲区中的新内容，并根据所获取的内容确定下一步的提示语音并设定下一步的交互状态。

步骤325～326：提示语音确定后，语音处理单元向用户端播放***的引导提示语，指示用户下一步需要输入的语音信息范围；用户收到后，输入相应的语音应答信息。该语音信息由语音处理单元通过语音API从电话语音板卡接收，并在语音处理单元的识别、合成模块中完成进一步的语音识别与合成处理，即：语音处理单元收到用户的应答语音后，返回步骤316，如此往复，直到完成用户当前所要求的业务，再重新回到初始状态开始新的业务或转到用户指定的状态；或是直到用户正常或异常退出***。

基于本发明的电话语音邮件交互***对用户退出的处理流程如图4所示：

步骤401～402：当用户要退出电话语音邮件***时，用户会输入要退出的语音信息，语音处理单元收到新的语音信息，经过识别后发现时退出***的指示，则将该指示存储，更新消息缓冲区。

步骤403：语音处理单元向情景导航单元发送识别消息，提示情景导航单元读取消息缓冲区中的新内容。

步骤404～406：情景导航单元读取消息缓冲区中的新内容，并根据所获取的内容进入退出处理过程，并更新消息缓冲区的内容。

步骤407～408：情景导航单元向语音处理单元发送导航消息，通知语音处理单元要结束情景导航流程，并且，情景导航单元退出情景导航流程。

步骤409～410：语音处理单元读取消息缓冲区中的内容，根据获取的内容确定释放当前用户的交互资源并等待其它新用户的接入。

从上述操作过程可以看出，本发明中导航是最为关键的步骤，导航涉及到整个***的运行方向。从本发明***与用户的语音交互来看，导航实际分为两部分：一部分是以***引导提示和引导逻辑为主，可称为导航逻辑；另一部分是以对用户输入语音的识别结果为基础，确定***状态走向的逻辑，可称为语义逻辑，这两部分相当于一个以说为引线，一个以听为引线。

图5为基于本发明的电话语音邮件交互***的引导逻辑拓扑结构图，如图5所示，从引导逻辑的角度可以看出，本发明包括语义逻辑和导航逻辑两部分。其中，导航逻辑由一系列根据当前***和交互状态实现不同业务功能的导航单元组成，每个导航单元根据***和用户的交互过程均能唯一确定当前需要对用户进行引导的提示语音及支持当前引导提示的导航语法。

导航单元生成引导提示语时，一般会根据与用户交互过程中用户当前输入的语音来自动捕捉用户当前最可能的操作意图，并对用户业务需求的实现进行明确引导提示。此外，根据当前***及交互状态，导航单元之间还需要进行导航单元的内部转移，即在各业务功能状态之间跳转，以实现个性化和智能化的导航过程。

以用户采用本发明电话语音邮件交互***实现点播邮件为例，图6给出了一个导航单元引导流程示意图。如图6所示，该流程图中包含了四个独立的导航单元，分别以

符号表示。当用户输入点播符合某条件邮件的语音指令时，***先判断是否有多个相似的识别结果，以便对识别信息的准确性进行引导确认，该过程通过一个提供引导确定识别结果的导航单元实现，即导航单元601。导航单元601对***获得的多个相似发音的识别结果进行引导区分，也就是虚拟话务员由于无法确定用户语音的具体内容，而提出的询问过程，比如：***无法区分用户当前输入的语音为“张三”还是“张山”，则导航单元601会播放“请问您想听张三、还是张山的邮件，如果是前者请说第一人，并依次类推。”的语音提示，以便用另一种方式得到正确的语义识别。这样不仅明确了用户期望的操作，而且解决了识别引擎对相似音难以区分的不足。

当语音识别结果明确后，导航单元还需要对满足同一语音条件的邮件进行进一步引导，该过程通过细化点播语音条件的导航逻辑单元实现，即由导航单元602完成。比如：当前用户只给出了期望读取张三的邮件，而叫张三的不止一个，此时，***会给出“有5个名叫张三的人，分别来自部门A、部门B、部门C，如果您说的是部门A的张三请说第一人，并依次类推。”的语音提示，以便准确完成当前用户的需求业务，该引导过程有效的解决了由于同名同音现象导致***答非所问的问题。

当***根据交互过程能够明确用户的点播需求时，根据满足条件的邮件是否存在，来确定是否需要进一步交互，帮助用户重新进行点播或直接播放用户想听的邮件，此处，引导用户重新点播的流程由导航单元603完成，直接播放用户目的邮件的流程由导航单元604完成。

上述逻辑的实现均是按照实现邮件播放的正常处理顺序逐步实现的。但在实际应用中，用户的输入语音不一定完全符合***的引导提示，当用户输入语音不符合***引导时，预定的导航单元是无法对该语音进行处理的，为了保证***的正常运行，***会结合语义逻辑对当前输入语音进行处理。语义逻辑除了对与提示语直接相关的连续逻辑语音回答进行识别和支持之外，还需要对用户当前各种与***功能相关的离散逻辑应答进行识别和处理。

仍以图6所示的用户在语音邮件交互***中点播邮件为例，如图7所示，该***依然包括四个导航单元601～604，只是增加了补充流程，即：补足语义逻辑处理后的流程。也就是说，当在各个导航单元对当前输入语音无法处理时，***会引导从当前的导航单元跳转回用户点播的初始状态，等待用户的重新输入或重新导航***。

图7所示的过程表明在任何一个引导过程中，用户都可能按照引导提示进行回答，也可能说出一些与引导提示没有任何关系的离散回答，因此需要通过对语义逻辑的完备处理来实现对各种用户需求的响应处理。

总之，以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1、一种电话语音交互***，其特征在于，该***包括：

2、根据权利要求1所述的电话语音交互***，其特征在于：所述的主控单元进一步包括消息缓冲区，用来为情景导航单元和语音处理单元提供消息数据存储和交换的信息空间。

3、根据权利要求1所述的电话语音交互***，其特征在于：所述的情景导航单元进一步包括情景导航模块、外部接口模块以及数据库，外部接口模块与外部信息提供设备相连。

4、根据权利要求3所述的电话语音交互***，其特征在于：所述的外部信息提供设备为邮件服务器，所述的外部接口模块为邮件接口模块。

5、根据权利要求1所述的电话语音交互***，其特征在于：所述的语音处理单元进一步包括识别模块、合成模块和电话处理模块，识别模块、合成模块和电话处理模块分别通过语音板卡应用程序接口与电话语音板卡相连。

6、根据权利要求5所述的电话语音交互***，其特征在于：所述的识别模块和合成模块由识别合成服务器实现。

7、一种电话语音交互的实现方法，其特征在于，该方法包括以下步骤：

8、根据权利要求7所述的方法，其特征在于该方法进一步包括：预先创建并存储一个用于识别用户当前输入语音语义的语义文件。

9、根据权利要求7所述的方法，其特征在于该方法进一步包括：预先根据用户的正常或异常操作逻辑设定一个逻辑状态转移图，情景导航单元根据该逻辑状态转移图确定***的目标运行状态。

10、根据权要求9所述的方法，其特征在于该方法进一步包括：在语音交互过程中实时更新所述的逻辑状态转移图。

11、根据权利要求7所述的方法，其特征在于该方法进一步包括：新用户建立呼叫接入时，语音处理单元为每个用户分配唯一绑定的用户标识Caller ID。

12、根据权利要求7所述的方法，其特征在于该方法进一步包括：当语音处理单元无法准确识别用户当前输入语音时，情景导航单元将控制***主动播放能准确区分用户当前输入语音语义的引导提示。