CN1763842A

CN1763842A - 语音识别中的动词错误恢复

Info

Publication number: CN1763842A
Application number: CNA200510113304XA
Authority: CN
Inventors: D·莫厄特; R·L·钱伯斯
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2004-10-22
Filing date: 2005-09-22
Publication date: 2006-04-26
Anticipated expiration: 2025-09-22
Also published as: JP2006119625A; JP4942970B2; CN1763842B; US20060089834A1; US8725505B2; KR101213835B1; KR20060050966A; EP1650744A1

Abstract

提供用于语音识别的计算机实现方法和***。该方法和***一般维护语音识别命令的动词集。在识别该集中的一个动词以及该动词的一个或多个无效宾语的发音之后，该方法和***产生与该动词和无效宾语相关的指示。该指示可包括通知用户该***不能确定如何执行与带有无效宾语的动词相关联的命令。然后该方法和***可接收指定应当如何处理该动词和无效宾语的用户输入。

Description

语音识别中的动词错误恢复

技术领域

本发明涉及计算机化的语音识别，尤其涉及改进语音识别***对识别错误和/或模糊作出响应的方式的装置和方法。

背景技术

语音识别是一种具有众多有用应用的技术，这些应用允许人们能使用他们的声音作为接口与计算***相连。这些应用包括：使用户能将文本口述输入到文档、使用户能通过语音向一个或多个计算机程序发出命令、改进自动化电话***，以及许多其它应用。这些***在大型集中式服务器应用(如计算机化的电话处理***)、用户与桌面计算产品的交互、甚至改进移动计算装置的交互和控制中都有用处。

语音识别是众所周知的，并作为人们与计算装置交互的可能未来而正受到积极的研究。尽管语音识别技术已得到了快速的进步，但是它尚未达到完美。语音识别需要相当多的计算资源，并还未达到100％的识别准确性。这部分地归因于人类语言中固有的多义性，还部分地归因于用户语音所应用的多样领域。

当前的桌面识别***通常最多可听取三类语音。第一类是自由形式的口述，其中将识别出的文本简单地***当前聚焦的文档。口述的一个示例可以是“约翰，你收到我昨天发给你的报告了吗？”第二类语音是形式为菜单或按钮的简单名字的命令。该类语音的示例包括“File(文件)”、“Edit(编辑)”、“View(视图)”、“OK(确定)”等。当识别命令字时，将通过语音来选择或“点击”它们所表示的各项。

(即，当识别“File”时File菜单将被打开)。第三类是动词-加-宾语命令配对形式的命令。该类语音的示例包括：“Delete report(删除报告)”、“Click OK(点击OK)”和“Start Calculator(启动计算器)”。“Start Calculator”命令在得以正确识别后将启动称为计算器的应用程序。

通过听取所有这三类语音，用户无需在说话前指示他们是需要通过语音输入文本还是通过语音给出命令。该语音识别***将自动确定这一点。因此，如果用户说“Delete Sentence(删除句子)”，则当前的句子将被删除。此外，如果用户说“Thisis a test(这是个测试)”，则“This is a test”中的各个单词将被***当前文档。尽管这种符合直觉的方法大大地简化了用户体验，但它并非不受限制。具体地，当用户想要给出动词-加-宾语的命令，而该命令或宾语出错或识别失败，则动词-加-宾语将被视为口述内容并被***文档中。

错误地将所尝试的动词-加-宾语命令***文档会导致一种复合错误情形。具体地，用户现在必须取消错误地输入的文本，并重新说出他们的命令。当动词-加-宾语命令被错误地识别时，用户不得不采取一个以上步骤，这一事实将错误识别转换成“复合错误”。复合错误会很快使得用户感到灰心，并可能轻易歪曲用户对语音识别的印象。因此，可减小甚至消除这些错误的语音识别***将从总体上改进用户对语音识别的体验。

发明内容

提供了一种语音识别的计算机实现方法和***。该方法和***一般维护语音识别命令的一个动词集。在识别该集中的一个动词以及该动词的无效宾语的发音之后，该方法和***产生与该动词和无效宾语相关的指示。该指示可包括通知用户该***不能确定如何执行与带有无效宾语的动词相关联的命令。然后该方法和***可接收指定应当如何处理该动词和无效宾语的用户输入。

附图说明

图1是用于实践本发明各实施例的适当计算环境的示意图。

图2是可在其中实现本发明的另一计算环境的框图。

图3是根据本发明实施例的计算机实现方法的框图。

具体实施方式

图1示出了在其上实现本发明的适当计算***环境100的示例。计算***环境100只是适当计算环境的一个示例，并非旨在对本发明的使用或功能性范围作任何限制。计算环境100也不应被解释为对示例性操作环境100中所示的任一组件或其组合有任何依赖性或任何需求。

本发明也可在很多其它通用或专用计算***环境或配置中使用。适于本发明使用的众所周知的计算***、环境和/或配置的示例包括，但不限于，个人计算机、服务器计算机、手持式或膝上型装置、多处理器***、基于微处理器的***、机顶盒、可编程消费电器、网络PC、小型机、大型机、电话***及包括任一种以上***或设备的分布式计算环境等等。

本发明可以在计算机可执行指令的一般上下文中进行说明，诸如由计算机执行的程序模块。一般而言，程序模块包括执行具体任务或实现具体抽象数据结构的例程、程序、对象、组件、数据结构等等。本发明还可在其中任务由通过通信网络连接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中，程序模块可位于包括存储器存储设备的本地和远程计算机存储介质中。

参照图1，实现本发明的示例性***包括形式为计算机110的通用计算设备。计算机110的组件可包括，但不限于，处理单元120、***存储器130以及把包括***存储器在内的各种***组件耦合到处理单元120的***总线121。

***总线121可以是若干总线结构类型中的任何一种，包括存储器总线或存储器控制器、***总线，以及使用多种总线架构中的任何一种的本地总线。作为示例，而非限制，这些架构包括工业标准架构(ISA)总线、微信道架构(MCA)总线、扩展ISA(EISA)总线、视频电子标准协会(VESA)局部总线和也称为Mezzanine总线的***部件互连(PCI)总线。

计算机110通常包括各种计算机可读介质。计算机可读介质可以是能被计算机110访问的任何可用介质，并包括易失性和非易失性介质、可移动和不可移动介质。作为示例，而非限制，计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现、用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的易失性和非易失性介质、可移动和不可移动介质。

计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字化多功能光盘(DVD)或其它光学存储、盒式磁带、磁带、磁盘存储或其它磁存储设备，或任何其它可用于存储所需信息并可由计算机110访问的介质。通信介质通常在诸如载波或其它传输机制的调制数据信号中包含计算机可读指令、数据结构、程序模块，或其它数据，且包括任何信息传输介质。术语“调制数据信号”意指以在信号中对信息编码的方式设置或改变其一个或多个特征的信号。作为示例，而非限制，通信介质包括诸如有线网络或直线连接的有线介质，及诸如声音、射频、红外线和其它无线介质的无线介质。以上任何介质的组合也应包括在计算机可读介质的范围中。

***存储器130包括诸如只读存储器(ROM)131和随机存取存储器(RAM)132的形式为易失性和/或非易失性存储器的计算机可读介质。包含有助于计算机110如起动时在元件间传送信息的基本例程的基本输入/输出***(BIOS)133通常存储在ROM 131中。RAM 132通常包含可由处理单元120立即访问和/或当时正***作的数据和/或程序模块。作为示例，而非限制，图1示出了操作***134、应用程序135、其它程序模块136、和程序数据137。

计算机110还可包括其它可移动/不可移动、易失性/非易失性计算机存储介质。

作为示例，图1图示了读取和写入不可移动、非易失性磁性介质的硬盘驱动器141，读取和写入可移动、非易失性磁盘152的磁盘驱动器151，读取和写入可移动、非易失性光盘156，诸如CD-ROM或其它光学介质的光盘驱动器155。其它也可以用在示例性计算环境中的可移动/不可移动、易失性/非易失性计算机存储介质包括，但不限于，如磁带、闪存卡、数字化视频光盘、数字化录像带、固态RAM、固态ROM等等。硬盘驱动器141通常通过诸如接口140这样的不可移动存储器接口与***总线121连接，而磁盘驱动器151和光盘驱动器155通常通过诸如接口150的可移动存储器接口与***总线121连接。

如上所述并如图1所示的驱动器及其相关联的计算机存储介质为计算机110提供计算机可读指令、数据结构、程序模块、和其它数据的存储。在图1中，例如，硬盘驱动器141被示为存储操作***144、应用程序145、其它程序模块146及程序数据147。注意这些组件可以与操作***134、应用程序135、其它程序模块136及程序数据137相同或不同。在此给予操作***144、应用程序145、其它程序模块146及程序数据147不同的编号至少说明它们是不同的副本。

用户可通过输入装置如键盘162、话筒163，及诸如鼠标、跟踪球或触摸板这样的定点设备161向计算机110输入命令和信息。其它输入装置(未示出)可包括游戏杆、游戏垫、***、扫描仪等等。这些和其它输入设备常常通过与***总线耦合的用户输入接口160与处理单元120相连，但也可通过诸如并行端口、游戏端口或通用串行总线(USB)的其它接口和总线结构连接。监视器191或其它类型的显示设备也可通过诸如视频接口190这样的接口与***总线121相连。除了监视器，计算机还可包括诸如扬声器197和打印机196这样的其它输出设备，它们通过输出***接口195连接。

计算机110可以在使用到一台或多台远程计算机，诸如远程计算机180的逻辑连接的网络化环境中运行。远程计算机180可以是个人计算机、手持设备、服务器、路由器、网络PC、对等装置或其它普通网络节点，而且通常包括上述与个人计算机110相关的许多或全部组件。图1中所描绘的逻辑连接包括局域网(LAN)171和广域网(WAN)173，但也可包括其它网络。这样的网络化环境在办公室、企业范围计算机网络、企业内部互联网和因特网上是常见的。

当用于LAN网络化环境中时，计算机110通过网络接口或适配器170与局域网171连接。当用于WAN网络化环境中时，计算机110通常包括调制解调器172或其它用于在广域网173，诸如因特网中建立通信的装置。调制解调器172可以是内置式或外置式的，它与***总线121通过用户输入接口160或其它适当机制连接。

在网络化环境中，与计算机110相关的程序模块或其部分可存储在远程存储器存储装置中。作为示例，而非限制，图1示出了驻留于远程计算机180上的远程应用程序185。应当理解，所示网络连接是示例性的，也可以使用其它用于在计算机间建立通信连接的技术。

图2是作为示例性计算环境的移动装置200的框图。移动装置200包括微处理器202、存储器204、输入/输出(I/O)组件206，以及用于与远程计算机或其它移动装置进行通信的通信接口208。在一种实施例中，前述组件经适当的总线210耦合以进行彼此通信。

存储器204作为诸如带有电池备份模块(未示出)的随机存取存储器(RAM)的非易失性电子存储器实现，从而当移动装置200的总电源关闭时存储在存储器204中的信息不会丢失。存储器204的一部分更适于被分配为用于程序执行的可寻址存储器，而存储器204的另一部分更适于用来存储，诸如模拟磁盘驱动器上的存储。

存储器204包括操作***212、应用程序214以及对象存储器216。在操作期间，操作***212更适于由处理器202从存储器204上执行。在一种较佳实施例中，操作***212是可从微软公司购买的WINDOWSCE品牌的操作***。操作***212更适于为移动装置设计，并实现可由应用程序214通过一组外露应用程序编程接口和方法利用的数据库特征。由应用程序214和操作***212至少部分地响应于对外露应用程序编程接口和方法的调用，来维护对象存储器216中的对象。

通信接口208代表使移动装置200能够发送和接收信息的多种装置和技术。

这些装置包括有线和无线调制解调器、***和广播调谐器(仅列举若干)。

移动装置200还可直接与计算机连接以交换数据。这样，通信接口208可以是都能够传输流信息的红外线收发器或串行或并行通信连接。

输入/输出组件206包括各种输入设备，诸如触摸屏、按钮、滚轴和话筒以及各种输出设备，诸如音频发生器、振动设备及显示器。以上所列设备作为示例，且无需都在移动装置200上出现。另外，其它输入/输出设备可附于移动装置200或与其一体，在本发明范围之内。

根据本发明的一种实施例，语音识别***向用户提供电感反馈，以便帮助用户避免进入可能的复合错误情景。在一种实施例中，该***通过向用户提供指示，表明***听到了正确的动词但不能确定主语，来实现此效果。然后可向用户提供将短语作为文字***的选择，如果用户希望这样做的话。

图3是本发明的实施例中由计算机实现的方法的框图。图3中示出的方法可在上述计算环境或任何其它适当计算环境中执行。方法300在框302开始，其中标识用作语音识别命令的动词集。通常在该集中有10到20个动词(例如选择、删除、开始、点击等)，并且可根据发音区别选择这些动词。这将确保语音识别软件将在绝大部分时间里准确识别动词。尽管通常只有10到20个动词，但对每个动词都可能会有数百个可能的宾语。

在框304，***听取语音并将语音转换成识别出的文本。框304可根据现有或未来开发的任何适当的语音识别技术进行操作。当语音在框304被转换成文本之后，然后控制被传递到框306，其中***确定识别出的文本是否是简单命令。如果所识别语音是诸如“File”的简单命令，则执行该命令，诸如通过声音点击File菜单，且控制通过线308返回到框304。

在框310，***确定识别出的文本是否是动词加上至少一个有效宾语。简单的示例是，当识别出的文本是诸如“启动计算器”的有效的动词-加-宾语时，***将启动计算器应用程序。然而，本发明各实施例同样都可应用于附加文本跟随有效宾语的情形。例如，诸如“Select the word<text>and turn it<formatting style>”(选择单词<文本>并转换它为<格式化样式>)包括动词“Select”，随后是有效宾语“theword”，然后是指示符<text>，告诉***哪个文本意指“the word”。此外，命令有多个部分，因为它包括第二个动词“turn”，随后是另一个有效宾语“it”。本发明各实施例包括以动词开始随后是至少一个有效宾语的任何语音识别命令。因而，本发明的各实施例可应用于包含动词-宾语-动词-宾语(选择fred并将其转换成粗体)、动词-宾语-宾语(将fred改成fried)，以及动词-宾语-形容词(将其转换成红色)的各个命令，以及以动词开始随后是有效宾语的任何其它命令。一旦该***按该动词加至少一个宾语动作，控制就沿着线312返回到框304。

在框312，***确定识别出的文本是否是从框302处选择的动词集中选择的动词加无效宾语。如果是这种情况，控制前进到框314。在框314，***向用户提供指示，表明该***因为无效宾语而不能确定应当如何对所识别的动词采取动作。然而，***还可仅向用户提供标准的错误识别消息，诸如“那是什么？”。在一种实施例中，如果用户说“开始添加”而不是“启动计算器”，且“添加”是动词“开始”的无效宾语，该***将向用户指示，它不能确定要“开始”什么。然后该***指示如果用户想要将文本作为口述内容***，则他们必须说“***开始……”。反馈还可指示，如果用户需要，则可显示所识别动词的一个有效宾语列表。一旦已经给出用户反馈，该方法就可任选地进行到框316，其中***等待用户对反馈的响应。在某些实施例中，如果不需要用户输入和所产生的***动作，则该方法可直接从框314转到框304，在可任选的框316中，用户响应的形式可以是按压按钮、说出命令，或任何其它适当的交互。一旦用户提供有关反馈的输入，控制就可任选地进行到框318，其中基于用户输入采取适当的动作。例如，如果用户已指示动词加无效宾语是口述内容，则文本可作为口述内容输入。在框318已按用户输入采取动作之后，控制沿着线320返回到框304。

最后，如果识别出的文本不是简单命令、动词-加-宾语，也不是动词-加-无效宾语，则将识别出的文本作为在框322指示的口述内容简单地***当前文档。

尽管已经顺序描述了步骤306、310和312，这样的描述目的在于使说明简单明晰。可明确预期，可根据本发明的各实施例改变评估的顺序。

通过响应于对选定动词结合无效宾语的识别向用户提供电感反馈，一个简单的过程将原本是复合错误的情况转换成愉悦的用户体验。此外，不熟悉语音识别***的用户能变得更易受引导，而不遭受过分的挫折感。该经改进的用户体验可便于用户采用语音识别技术，并改进用户与语音识别***之间进行交互的效率。

尽管已参照特定实施例对本发明进行了描述，本领域技术人员应理解，可在形式和细节上作改变而不背离本发明的精神和范围。

Claims

1.一种识别语音的计算机实现方法，其特征在于，所述方法包括：

标识语音识别命令的动词集；

识别所述集中的动词以及所述动词的至少一个无效宾语的发音；以及

产生与所述动词和无效宾语相关的指示。

2.如权利要求1所述的方法，其特征在于，所述指示向用户提供指令。

3.如权利要求2所述的方法，其特征在于，所述指示通知用户如何响应以便将所述动词和无效宾语视为口述内容。

4.如权利要求1所述的方法，其特征在于，还包括接收用户响应，并基于所述用户响应采取与所述动词和无效宾语相关的动作。

5.如权利要求4所述的方法，其特征在于，所述动作包括将所述动词和无效宾语作为口述内容***。

6.如权利要求4所述的方法，其特征在于，所述动作包括基于所述用户响应执行与所述动词相关联的命令。

7.如权利要求4所述的方法，其特征在于，所述用户响应包括按压按钮。

8.如权利要求4所述的方法，其特征在于，所述用户响应包括语音命令。

9.一种适于识别语音的计算***，其特征在于，所述***包括：

接收用户语音的输入；

处理装置，用于处理所述用户语音并产生与所述用户语音相关的识别出的文本；

存储器，用于存储与语音命令相关联的动词集；

其中所述处理装置基于对所述动词集中的动词以及所述动词的无效宾语提供指示。

10.如权利要求9所述的计算***，其特征在于，所述计算***是桌面计算***。

11.如权利要求9所述的计算***，其特征在于，所述计算***是移动装置。

12.如权利要求9所述的计算***，其特征在于，所述指示包括通知用户，所述***不知道如何对所述无效宾语执行与所述动词相关联的命令。

13.如权利要求12所述的计算***，其特征在于，还包括适合响应于所述指示接收用户输入的用户输入装置。

14.如权利要求13所述的计算***，其特征在于，所述***基于由所述用户输入装置接收的用户输入执行与所述动词相关联的命令。

15.如权利要求13所述的计算***，其特征在于，所述***将所述动词和无效宾语作为口述内容***。