CN101573750A

CN101573750A - 使用人类语音检测分析选择交互式语音响应模式的方法

Info

Publication number: CN101573750A
Application number: CNA2007800474538A
Authority: CN
Inventors: S·M·帕尔姆特
Original assignee: Genesys Telecommunications Laboratories Inc
Current assignee: Genesys Cloud Services Inc
Priority date: 2006-12-22
Filing date: 2007-12-21
Publication date: 2009-11-04
Also published as: US8831183B2; US20080152094A1; WO2008080063A1; US20140341361A1; EP2092515A4; EP2092515A1; US9721565B2

Abstract

在交互式语音响应***中，提供一种方法用于在交互期间的语音识别能力的选择性增强。该方法包括过程(a)接受呼叫并提示来自呼叫者的语音响应，(b)未能识别该响应，(c)执行例程以检测和分离在响应中捕获的单词或短语，以及(d)尝试第二次识别该响应。

Description

使用人类语音检测分析选择交互式语音响应模式的方法

交叉引用相关申请

无

技术领域

本发明属于交互式语音识别(VR)***领域，尤其属于在与呼叫者交互期间使用人类语音检测结果选择并执行IVR模式的方法。

背景技术

交互式语音响应(IVR)单元主要用于与访问通信网络环境中(一般为电话环境中)的服务点或路由点的呼叫者接口。现代IVR***使得呼叫者能够通过按下支持双音多频(DTMF)的电话上的按钮作特定菜单选择。大多数现代电话使用该DTMF***。最近，IVR***已被改进为包括了语音识别能力。IVR单元上的语音识别通常与标准DTMF按钮选项相结合时可利用。

语音识别用于IVR***中的一个原因是使得在其通信装置上没有按钮功能的呼叫者可以与***交互。这适用于使用者的语音非常清楚的低噪声环境中。即使在较低噪声环境中，现有技术的***在语音解译(voice interpretation)中并非总是准确。在像中转站、机场、俱乐部、汽车等的中高噪声环境中，由于背景噪声的干扰，IVR通常不能识别人类语音，并且因此在这些不利条件下不能识别言语模式。其装置上不具有按钮的使用者在这些环境下不能成功进行事务。双模式(语音和DTMF)IVR程序默认尝试识别人类语音，但是将接受音调(tone)以用于菜单选择。菜单一般提示使用者说特定的单词或短语，或通过按通信装置上的键来输入等效值。在中到高噪声环境中操作的使用者通常在最终按下合适值的键之前尝试首先发出语音键以响应每个提示，其不了解由于背景噪声水平和/或类型，***将不能识别任何使用者的语音发音。

为了检测可能包括背景噪声的音频信号中的人类语音的目的，人类话音检测解决方案确实存在。2001年11月20日授权的、Brooktrout技术有限公司申请的、题为“Voice Detection in Audio Signals”的美国专利6,321,194中描述了一种用于检测音频信号中人类语音的方法。该方法使用模糊逻辑以随机音频信号采样确定人类语音的可能性，其是通过观察样本中的功率阈值和频率并产生与已知人类语音频率比较的结果值。该算法确定是否在样本中检测到人类语音的统计可能性。同样地，在音频样本中从背景噪声中分离出人类语音的方式已被研究和开发，其使用其他数字和模拟方法以检测和区分人类语音和随机噪声。

本领域中显然需要一种方法，用于基于交互期间接收的话音响应的HVD分析，选择和实现默认IVR模式。像这样的***将使IVR交互简单化，用于呼叫者实现更快速的呼叫处理。

发明内容

一种在交互式语音响应***中，用于在交互期间增强语音识别能力的方法。该方法包括(a)接受呼叫并提示来自呼叫者的语音响应(b)尝试识别该响应，(c)当在步骤(b)中未能识别该响应时，执行例程以检则并分离响应中所捕获的单词或短语，以及(d)尝试第二次识别该响应。一方面，在步骤(a)中，该呼叫来自手机、连接PSTN的电话、或支持语音的耳机中之一。在步骤(b)中，失败是由于响应中的高的非人类噪声水平。

在优选的方面，在步骤(c)中，该例程是人类语音检测例程，受人类语音检测软件的辅助。并且在这个方面，不是该响应的单词或短语的一部分的噪声，被从捕获的数据中减去。在一个方面，在步骤(d)中，第二次尝试使用与第一次尝试同样的语音识别例程。

根据本发明的另一个方面，在交互式语音响应***中，提供一种方法用于在交互期间基于***的性能自动切换***的模式。该方法包括过程(a)接受呼叫并提示来自呼叫者的语音响应(b)尝试识别该响应，(c)当在步骤(b)中未能识别该响应时，执行例程以检测并分离响应中所捕获的单词或短语，(d)第二次未能识别该响应，以及(e)为当前事务的其余部分，忽略语音检测模式并且设置按钮模式为默认模式。

在该方法的一个方面，在步骤(a)中，该呼叫来自手机、连接PSTN的电话、或支持语音的耳机中之一。在步骤(b)中，失败是由于响应中的高的非人类噪声水平。在优选方面，在步骤(c)中，该例程是人类语音检测程序，受人类语音检测软件的辅助。在一个方面，在步骤(d)中，在第二次识别尝试中，没有足够的人类语音被检测以便于匹配。在一个方面，在步骤(e)中，呼叫者被提示以注意该忽略的情况。

在该方法的一个方面，不论是否有用于模式忽略的步骤(e)，步骤(a)都被用于发出呼叫并且在呼叫被应答时提示被呼叫方进行响应的步骤(a)代替。

根据本发明的另一个方面，提供一种双重模式IVR***。该***包括电话接口开关、话音识别软件实例和库、以及人类语音检测软件实例。仅当语音识别软件例程未能识别呼叫者发出的响应时，人类语音检测软件在IVR与呼叫者交互期间被调用并执行。

在一个实施例中，电话交换机是连接到专用交换分机(PBX)的中心局交换机。在一个实施例中，语音识别软件是支持基于可扩展标记语言(VoXML)的语音的。

在本发明的另一个方面，提供一种机器可读介质，该介质具有在其上的一组指令使得机器执行包括以下步骤的方法：(a)接受呼叫并提示来自呼叫者的语音响应，(b)尝试识别该响应，(c)当在步骤(b)中未能识别该响应时，执行例程以检测并分离响应中所捕获的单词或短语。

在一个方面，在步骤(a)中，呼叫在交互式语音响应***被接受。在一个方面，在步骤(c)中，该例程包括根据第二次尝试识别响应的结果为与呼叫者交互的剩余部分，设置交互式语音响应***的默认模式的子步骤。

附图说明

图1是根据本发明实施例的人类语音检测增强的IVR***的体系结构概况。

图2是说明根据本发明实施例的用于在交互期间选择和实现IVR模式的动作的处理流程图。

具体实施方式

图1是语音电话环境100的体系结构概况，其包括根据本发明实施例的人类语音检测增强的IVR***。语音电话环境100包括公共交换电话网(PSTN)102、蜂窝网络101和通信中心服务点103。

PSTN网络102可以更换为专用电话网络以代替公共网络。PSTN网络102包括专用交换分机(PBX)电话交换机107。交换机107可以是自动呼叫分配(ACD)型交换机，或者其他能够处理和路由电话呼叫的电话网络交换机。PBX107通过电话干线109连接到设置在通信中心服务点103中的中心局交换机(COS)110。服务点103也包括交互式语音响应(IVR)单元111，其通过计算机电话集成(CTI)链路连接到COS 110。

在不脱离本发明的精神和范围的情况下，蜂窝网络101可以是任何类型的支持无线电话的数字或模拟网络。网络101包括通过电话干线连接到正好在PSTN 106内的边缘路由器106的蜂窝塔104。在本实例中，呼叫者105(a-n)通过塔104通信，其通过路由器106经由干线110将呼叫路由到PSTN中，到PBX 107上。呼叫者108(a-n)经由电话线连接到PBX 107。在语音质量和噪音干扰量方面，对于不同的网络101和102，QOS有时可能差别很大。一般来说，专用连接上的有线电话更多的时候比，例如共享连接上的蜂窝电话具有更好的语音质量。并且，其他因素可能贡献噪声，噪声从呼叫者环境中捕获并且在呼叫期间与语音一起传送。

IVR 111从呼叫者108(a-n)和呼叫者105(a-n)截获呼叫，并且基于与那些呼叫者进行的计划的语音交互(语音应用)会话，尝试向该呼叫者提供服务。语音交互可以是来自向在线代理提供内部路由的语音交互，和/或使用自动事务处理技术实际完成呼叫的语音交互中的任何类型的语音交互。

在本实例中，倘若利用数据库112，IVR 111具有基于XML语音的语音识别程序113，该数据库112包括单词和短语的可编程库以帮助识别呼叫者说的语音命令、单词和/或短语。通过查找存储在数据库中的VoXML等效值来识别语音。在这需要注意的是，对于呼叫者说的单词或短语在数据库112中的成功匹配，语音没必要被完美地识别出。如果短语的大部分被识别，则软件仍将可以对呼叫者发出的语音短语产生正确的***响应。一些已知方式包括统计模式匹配(statistical pattern matching)，其可以用于在IVR 111的数字处理域中帮助提高语音识别的准确度。另一个技术是合并变形(variant)的响应单词或响应短语的变形(variances)并将它们换算为相同的值。

在本实例中，除了标准语音识别能力，IVR 111还具有，提供到IVR 111并可在其上执行的人类语音检测(HVD)软件的实例。提供HVD 114以用来通过在从呼叫者捕获的音频中检测全部音频数据中的人类语音部分，来增强IVR111的语音识别能力。假如人类语音数据可以被可靠地检测，那么在使用标准语音识别之前看起来不是人类语音的数据可以从等式(equation)中减去。在语音识别未能在第一次尝试中识别出发出的单词或短语之后，可以应用该方法。利用标准非增强语音识别软件识别呼叫者的单词或短语可以是默认例程，因为在低噪声环境下，可能不需更增强。然后在中至高噪声场景下，例如，手机呼叫者在建设工地区中，HVD会有助于分离信号的人类部分，其仅将人类信号呈现给语音识别软件。

在实际实践起来，如果呼叫者108a，例如，在交换机110上与IVR 111交互，对于大多数提示/响应回合，标准语音识别软件可工作良好。然而，如果在一个回合期间，呼叫者的单词或短语没有立即被该软件识别出，则HVD可以用于完善信号并且启动第二次尝试来识别单词或短语，而不是迫使呼叫者按下按钮。就呼叫流程而言，调用HVD程序并执行到完成所花费的时间可以忽略。COS 110具有处理器，其有适当的功率和速度以非常快速地运行分析。在另一个实例中，由于背景噪声普遍存在，手机呼叫者105n可以要求在IVR 111上对于每个提示/响应回合进行HVD干涉。然而，引起问题的噪声可能是临时的。因此，对于一个或多个提示/响应回合，使用标准VRT尝试识别呼叫者的单词或短语可以允许不再继续HVD循环。

对于本领域技术人员来说，本发明的方法可以用于改善交互准确度将是显然的。同样地，将较少依靠替补的DTMF按钮方法为呼叫者来***值。因此，其通信装置上不具有按钮功能的呼叫者将接受更好的服务。如果***根据所述方法实现，话音应用提示不需要随适当的语音响应单词或短语一起包括按钮值。如果增强的***一次或特定次数未能识别呼叫者的单词或短语，***提示可能被转动(rotated in)以通知呼叫者由于***所处的噪声水平或类型语音识别已被关闭。在这种情况下，后来的提示可能仅基于DTMF按钮，并且对于该对话的剩余部分VRT功能可被暂停。

本领域技术人员将认识到所述方法可以在电话环境或网络电话环境中实现，其中IVR等效被实现。基于与控制IVR软件结合的该方法的应用，IVR***本身可以被引起在中游在模式间切换。HVD例程可以通过***可移动媒体被***标准IVR程序，该可移动媒体包括起始所有任务的序列和中止序列。该例程可以***任何运行在***止的语音应用中。

图2是说明根据本发明实施例的流程200的流程图，其用于在交互期间选择和实现IVR模式。以下过程仅反映许多可能的处理之一，其可以编程到IVR控制软件中并且当呼叫被IVR***处理时使其自动运行。

在步骤201中，IVR引导程序或其他程序被提上线。在步骤202中，DTMF按钮识别被做为替补手段激活。在步骤203中，语音识别被激活并设置为默认模式。在此应注意到，按钮识别可以对呼叫者透明地激活，其中IVR提示没有告知呼叫者与操纵***所需要的语音单词或短语等效的按钮值。

在步骤204中，IVR***准备好接受来自呼叫者的呼叫。在步骤205中，进入的呼叫被接受。在步骤206中，IVR***向呼叫者播放问候语和菜单选项并且等待呼叫者语音响应。在步骤207中，IVR***接收呼叫者根据菜单选项的语音响应。

在步骤208中，IVR***尝试使用标准VRT软件识别呼叫者的响应。如果在步骤208，呼叫者的响应被有效识别，则IVR***确定是否在步骤209完成事务。如果在步骤209完成事务，则在步骤210，进程结束并且***等待下一个呼叫。如果在步骤209，事务还没有完成，则进程循环回到步骤206，其中IVR***向呼叫者播放下一个提示并且等待呼叫者的下一个响应。然后进程再次移到步骤208，其中IVR确定使用标准VRT技术的识别是否成功。如果成功，则继续循环，不调用任何附加例程，直到在步骤208使用标准识别软件没有识别出呼叫者的响应。

在步骤208中，在与呼叫者交互期间的任何时间，如果使用标准VRT没有识别出响应，则在步骤214，类似于图1的SW 111的HVD软件例程被激活。然后程序移到步骤211，其中HVD例程分析所记录的响应信号以检测信号中的人类语音。在步骤212，***确定人类语音是否被检测以及是否能与信号中的其他噪声分离。如果在步骤212，人类语音被识别并且与信号的其余部分分离，则在步骤213，HVD例程从信号中减去噪声模式。在这儿注意到HVD进程可以运行在合适的数字信号处理器上，其具有所有需要的电路和功率用于实现所需计算以检测人类语音模式以及将其与噪声模式分离。

然后进程移回到步骤208，其中IVR***再次尝试从更清晰地信号中识别呼叫者的单词或短语。如果在步骤208，在增强之后***仍然不能识别呼叫者的单词或短语，则进程可以转到步骤215，其中***关闭VRT并且可以以通知或指示提示呼叫者为呼叫的剩余部分使用DTMF按钮交互。在这个过程中，IVR可以播放语音消息以告知呼叫者，由于高的干扰或背景噪声，当被提示时请按下你通信装置上的键以操作本次事务的剩余部分。在这儿注意到，在HVD分析之后***识别呼叫者的单词或短语仅一次失败之后，***可对任何呼叫者恢复到放弃VRT。

如果在步骤208，在HVD干预之后***确实识别出呼叫者的发音，并且在步骤209，事务没有结束，则进程循环回到步骤206并且使用标准VRT继续步骤207和208。在这个实例中，没有使用HVD，除非标准方法失败。在呼叫者没有触音(touch tone)按钮或者由于呼叫者另外忙于驾驶或其他集中精神的活动而不能与触音按钮交互的情况下，***可以仅仅要求呼叫者随后再次尝试。在步骤212，如果HV没有被HVD***检测到，则按照默认，步骤215会出现，对于该事务的剩余部分切换IVR模式到按钮。

本领域技术人员将显而易见的是，在不脱离本发明的精神和范围下，过程200的进程可以被给予一些变化。在一个实施例中，呼叫者也可以使用本发明的方法预定服务，可以设置其自己的优选DTMF按钮或者用默认值设置VRT交互。这种允许可在过程的数量和过程的顺序方面改变该过程。其他过程可以***，以例如转换语音。这样，西班牙语说话人可以与***交互并且具有以西班牙语传送的***输出。本领域技术人员还将显而易见的是本发明的方法也可以在IVR辅助的出站呼叫活动中实行。有很多可能性。

本发明的方法可以在IVR***的环境中实行或者结合任何其他计算机化的支持语音的交互点实行。本领域技术人员将了解到可以使用这里描述的部件和过程的一些、结合或者全部来实行本发明。根据描述的实施例，本发明在验征之下应当被给予尽可能宽泛的解释。本发明的精神和范围应当仅由下述权利要求限制。

Claims

1、一种在交互式语音响应***中，用于增强语音识别的方法包括步骤：

(a)接收语音输入；

(b)分离该输入中的背景噪声和人类语音；

(c)处理该输入的人类语音部分以用于识别。

2、如权利要求1的方法，其中在步骤(a)中，该输入来自手机、连接PSTN的电话、或支持语音的耳机之一。

3、如权利要求1的方法，其中在步骤(c)中，该处理是由用于人类语音检测例程进行的。

4、一种在交互式语音响应***中，用于在交互期间基于该***的性能自动切换***模式的方法，包括步骤：

(a)接收语音输入；

(b)尝试将该输入识别为单词或短语；

(c)当在步骤(b)中未能识别该输入时，执行例程以将背景噪声与人类语音分离开，并且再次尝试识别该输入；以及

(d)当第二次未能识别该输入时，默认为按钮模式。

5、一种双重模式IVR***包括：

服务器；

存储在服务器上并在服务器上执行的语音识别软件；以及

存储在服务器上并在服务器上执行的人类语音检测软件；

其中该人类语音检测软件在IVR与呼叫者交互期间被调用并执行，以将人类语音从来自该呼叫者的输入中的噪声分离。

6、如权利要求5的***，其中所述分离是对于语音识别软件未能识别的输入进行的，并且，在分离之后，***尝试识别与噪声分离的人类语音部分。

7、如权利要求6的***，其中，在分离之后未能识别该输入时，该***默认为按钮模式。

8、一种机器可读介质，其具有存储于其上的一组指令使得机器执行包括以下步骤的方法：

(a)接收语音输入；

(b)分离该输入中的背景噪声和人类语音；

(c)处理该输入的该人类语音部分以用于识别。