CN104810019A

CN104810019A - 利用上下文信息调节语音识别

Info

Publication number: CN104810019A
Application number: CN201510006921.3A
Authority: CN
Inventors: 罗德·D·沃特曼; 马克·埃文·科恩
Original assignee: Lenovo Singapore Pte Ltd
Current assignee: Lenovo Singapore Pte Ltd
Priority date: 2014-01-28
Filing date: 2015-01-07
Publication date: 2015-07-29
Also published as: GB2524864A; US20150213796A1; GB201501383D0; US11386886B2; DE102015100900A1

Abstract

本公开提供了一种信息处理方法、信息处理设备和产品。所述方法包括：利用处理器获得与信息处理设备有关的上下文信息；利用处理器、通过使用上下文信息来调节自动语音识别引擎；在信息处理设备的音频接收器处接收用户语音输入；以及利用处理器、基于所接收的用户语音输入和对自动语音识别引擎的上下文信息调节来提供所识别的语音。

Description

利用上下文信息调节语音识别

技术领域

本发明总体上涉及信息处理的技术领域，更具体地，涉及利用上下文信息调节语音识别。

背景技术

许多信息处理设备(“装置”)给用户提供输入语音命令或提供语音输入的能力。通常，自动语音识别(ASR)引擎试图识别口头语言并且随后将用户的语音输入匹配或映射到某些动作，例如基于语音的命令。

例如，用户可以说“电子邮件联系姓名A”，当ASR引擎从语法上分析和处理这句话时，在所有东西适当工作的情况下，将会导致“电子邮件”、“联系”和“姓名A”的识别的语音。此外，同样在所有东西适当工作的情况下，ASR引擎例如利用命令模板将这些特定字词映射或匹配到与自然语言含义匹配的命令输入，即电子邮件应用应当被用于开始起草新的电子邮件消息至“姓名A”的用户联系方式。基于该处理，装置因而可以响应于以适当方式输入的用户的自然语言。

发明内容

总的来说，一方面提供了一种方法，包括：利用处理器获得涉及信息处理设备的上下文信息；利用处理器通过使用上下文信息来调节自动语音识别引擎；在信息处理设备的音频接收器处接收用户语音输入；以及利用处理器、基于所接收的用户语音输入和对自动语音识别引擎的上下文信息调节来提供所识别的语音。

另一方面提供了一种信息处理设备，包括：音频接收器；操作上耦接到音频接收器的处理器；以及存储可由处理器执行的指令的存储器装置，处理器执行指令以：获得与信息处理设备有关的上下文信息；利用上下文信息来调节自动语音识别引擎；在音频接收器处接收用户语音输入；以及基于所接收的用户语音输入和对自动语音识别引擎的上下文信息调节来提供所识别的语音。

又另一方面提供了一种程序产品，包括：包括装置可读程序代码的存储介质，该代码可由处理器执行并且包括：用于利用处理器获得与信息处理设备有关的上下文信息的代码；用于利用处理器通过使用上下文信息来调节自动语音识别引擎的代码；用于在信息处理设备的音频接收器处接收用户语音输入的代码；以及用于利用处理器基于所接收的用户语音输入和对自动语音识别引擎的上下文信息调节来提供所识别的语音的代码。

以上内容是概要，并且因此可以包含详细内容的简化、概括和省略；因此，本领域的技术人员应当认识到，概要仅是说明性的，并且不旨在以任何方式进行限制。

为了更好地理解实施方式以及实施方式的其他和另外的特征和优点，结合附图参照下面的描述。在所附权利要求中指出本发明的范围。

附图说明

图1示出了信息处理设备的电路***的示例；

图2示出了信息处理设备的电路***的另一示例；

图3示出了用于利用上下文信息调节语音识别的示例性方法。

具体实施方式

容易理解，如本文附图中所示和一般描述的实施方式中的部件还可以被布置和设计成除所描述的示例性实施方式之外的多种不同的配置。因此，如图所示，对示例性实施方式的以下更详细的描述不旨在限制要求保护的实施方式的范围，而仅代表了示例性实施方式。

本说明书中提到的“一个实施方式”或“实施方式”(等)意为结合实施方式所描述的特定特性、结构或特征被包括在至少一个实施方式中。因此，本说明书中各种地方出现的短语“在一个实施方式中”或“在实施方式中”不一定都指同一实施方式。

此外，在一个或更多个实施方式中可以以任何适当的方式结合所描述的特性、结构或特征。在下面的描述中，提供许多特定细节以给出对实施方式的全面理解。然而，相关领域的技术人员将认识到，在没有一个或更多个特定细节的情况下或者利用其他方法、部件、材料等，也可以实践各种实施方式。在其他实例中，未详细描述或示出已知的结构、材料或操作以避免模糊。

在大多数情况下虽然ASR引擎趋于适当地忠实识别/鉴别字词，然而在某些方面尤其在嘈杂环境中，这个过程可能受挫。通过首先确定上下文，例如确定用户是否处于特定情形中或在执行特定任务，可以大大改进语音识别。

因此，实施方式获得这样的上下文信息并且使用上下文信息以使语音识别偏向于用户在特定上下文中最可能说或请求的字词和/或命令。例如，如果用户在听音乐，与完全不相关的事情相比，例如使用地图应用来搜索餐馆位置，其更可能的是，后续话语将是播放其他东西或调节音量的命令，或者是操作用于音乐播放器应用的命令等。

在嘈杂环境中这是特别真实和有用的。可以被实施方式使用的这种类型的上下文信息包括但不一定限于与用户利用装置做什么(例如，听音乐、看电影、浏览图片、用办公文件工作等)有关的上下文信息，与装置最近接收的什么激励(例如，呼入的电话、文本消息、正在进行的编入日程的约会等)有关的上下文信息，以及与装置正在发生什么(例如，装置在车中移动、装置位于嘈杂环境中、装置位于已知位置中等)有关的上下文信息。

因此，通过使用上下文信息来确定相关上下文是什么，例如用户正在做什么或用户正在从事哪个活动等，实施方式随后可以调节ASR引起，例如使ASR引擎“准备好(prime)”，以智能地将其提示成相关上下文。正如可以全面认识到的，该调节过程可以采取各种形式，其中一些形式可以与另一形式结合。作为非限制性示例，实施方式可以通过基于上下文预先确定哪些字词或短语在统计上更可能被接收、通过基于上下文预先确定哪些命令在统计上更可能被调用等，来调节ASR引擎。

例如，给定的上下文信息诸如装置的音乐播放器应用当前在播放音乐，命令诸如“播放”、“停止”等可以相比上下文命令之外的命令如“增加屏幕亮度”而言被给予更多权重。此外，被认为上下文相关的特定字词，例如(装置上或外的)用户音乐集中的艺术家或包括在歌曲名内的字词，在例如如果词语“播放”被ASR检测到的情况下，也可以类似地被给予用于识别的增加的权重或偏爱(bias)。同样地，这防止ASR引擎例如简单地基于语音输入的内容而在上下文字识别/命令的识别结果之外、不太可能地促进，但不妨碍用户给出不同命令。换句话说，实施方式利用上下文信息以给上下文上更可能的字词/命令更好的机会被正确识别。

参照附图将最好地理解所示的示例性实施方式。下面的描述仅旨在作为示例并且简单地说明某些示例性实施方式。

尽管在关于智能电话和/或平板电路100的信息处理设备中可以利用各种其他电路、电路***或部件，然而图1所示的示例包括例如在平板或其他移动计算平台中发现的芯片设计上的***。软件和一个或更多个处理器结合在单芯片110中。内部总线等取决于不同的供应商，但本质上所有***设备(120)都可以附接到单芯片110。电路***100将处理器、存储器控制和I/O控制器集线器都结合在单芯片110中。同样，这种类型的***100通常不使用SATA或PCI或LPC。常见接口例如包括SDIO和I2C。

存在一个或更多个电力管理芯片130，例如电池管理单元BMU，其例如经由可充电电池140管理所供应的电力，可充电电池140可以通过连接到电源(未示出)来充电。在至少一个设计中，单芯片例如110用于供应如BIOS的功能和DRAM存储器。

***100通常包括一个或更多个WWAN收发器150和WLAN收发器160用于连接到各种网络，例如电信网络和无线互联网设备例如接入点。通常包括附加设备120，例如音频接收器如麦克风。***100通常包括用于数据输入和显示的触摸屏170。***100通常还包括各种存储器设备，例如闪存180和SDRAM 190。

图2示出了信息处理设备的电路、电路***或部件的另一示例的框图。图2所示的示例可以对应于计算***，例如由Morrisville,NC的Lenovo(US)Inc.销售的个人计算机的THINKPAD系列，或其他设备。正如从本文描述中可以明显看出的，实施方式可以包括其他特征或只是图2所示示例的一些特征。

图2的示例包括所谓的芯片组210(一组集成电路或一起工作的芯片，芯片组)，芯片组210具有可以随制造商(例如INTEL、AMD、ARM等)而变的架构。芯片组210的架构包括核和存储器控制组220以及I/O控制器集线器250，I/O控制器集线器250经由直接管理接口(DMI)242或链路控制器244来交换信息(例如，数据、信号、命令等)。在图2中，DMI 242是芯片到芯片接口(有时称为“北桥”和“南桥”之间的链路)。核和存储器控制组220包括一个或更多个处理器222(例如，单核或多核)和经由前端总线(FSB)224交换信息的存储器控制器集线器226，值得注意的是，组220中的部件可以被集成在取代传统“北桥”型架构的芯片中。

在图2中，存储器控制器集线器226与存储器240对接(例如以提供对于可以称为“***存储器”或“存储器”的RAM类型的支持)。存储器控制器集线器226还包括用于显示设备292(例如，CRT、平板、触摸屏等)的LVDS接口232。块238包括可以经由LVDS接口232(例如，串行数字视频、HDMI/DVI、显示端口)来支持的一些技术。存储器控制器集线器226还包括可以支持独立显卡236的PCI-express接口(PCI-E)234。

在图2中，I/O控制器集线器250包括SATA接口251(例如，用于HDD、SDD 280等)、PCI-E接口252(例如，用于无线连接282)、USB接口253(例如，用于设备384诸如数字转换器、键盘、鼠标、相机、电话、麦克风、存储设备、其他连接设备等)、网络接口254(例如，LAN)、GPIO接口255、LPC接口270(用于ASIC 271、TPM 272、超级I/O 273、固件集线器274、BIOS支持275以及各种类型的存储器276例如ROM277、闪存278和NVRAM 279)、电力管理接口261、时钟发生器接口262、音频接口263(例如，用于扬声器294)、TCO接口264、***管理总线接口265和SPI闪存266，SPI闪存266可以包括BIOS 268和启动代码290。I/O控制器集线器250可以包括吉比特以太网支持。

***在上电时可以被配置成执行SPI闪存266中存储的用于BIOS268的启动代码290，然后在一个或更多个操作***和(例如，存储在***存储器240中的)应用软件的控制下处理数据。操作***可以被存储在各种位置中的任何位置中并且例如根据BIOS 268的指令而被访问。正如本文所描述的，设备可以包括比图2的***中所示的特征更多或更少的特征。

例如如图1或图2所概述的信息处理设备的电路***可以被用在用于基于上下文信息调节ASR引擎的设备中。例如，图1和图2中概述的电路***可以包括在以下设备中：该设备例如经由设备的麦克风而接收语音输入，在考虑各种上下文信息源的同时，处理所接收的语音输入以提供例如包括将语音输入映射到命令的识别结果，正如本文进一步描述的那样。

参照图3，例如，在301，实施方式可以获得例如与信息处理设备的操作有关的上下文信息。上下文信息涉及其中用户试图使用ASR引擎的上下文，例如设备位置、设备移动、运行应用、设备事件(例如所接收的通信等)，而不是可能常规认为的用于ASR的上下文信息，例如与语音输入的内容有关的上下文信息。

在能够访问(可以例如经由记账云而源自设备或与其通信的另一设备的)上下文信息的情况下，实施方式可以在302确定上下文并且随后在303利用上下文信息调节自动语音识别引擎。实施方式可以基于可用的上下文信息、以多种方式来确定上下文存在，例如将一个或更多个预定的上下文信息输入映射到一个或多个已知的上下文，例如音乐播放器、工作、家、车中、导航等。

在303对ASR引擎的调节还可以采取多种形式。例如，调节可以包括基于上下文信息选择知识领域或模板(例如，用于导航上下文的地图、用于所接收的通信上下文的电话等)。调节可以包括基于上下文信息选择词典，例如选择给定的上下文可用的字词和/或命令。调节可以包括基于上下文信息对一个或更多个字词和/或一个或更多个命令不同地进行加权。调节还可以包括基于上下文信息调节所识别的语音和预定动作(例如，与命令匹配的动作)之间的匹配。这些调节可以被单独使用或适当结合使用。

在已经调节ASR引擎或使ASR引擎“准备好”的情况下，实施方式可以在304例如在音频接收器诸如麦克风处接收用户的语音输入，并且在305利用所调节的ASR引擎来处理所接收的输入。这使得实施方式能够基于可用的上下文信息来利用所调节的ASR以促进上下文相关的字词和/或命令和/或上下文上相关的预定动作。因此，实施方式可以在306基于用户语音输入和对ASR引擎的上下文信息调节来提供所识别的语音。306的所识别语音当然可以包括自动动作交付，例如基于对所调节的ASR引擎的使用而被映射到所识别的语音。

由于设备连通性一直在增加，因此上下文信息源可以通过如下方式被提供：经由本地设备例如通过使用一个或多个设备传感器和/或处理，或者经由直接或间接连接的设备，以及其适当组合。因此，上下文信息可以选自还包括如下的组：与用户与信息处理设备的交互有关的上下文信息、与信息处理设备的运行应用有关的上下文信息、与所接收的信息处理设备的激励有关的上下文信息和与信息处理设备的感测环境有关的上下文信息。同样地，在302确定的上下文可以从设备转移到设备，使得用户可以例如在设备之间转变时具有经验的连续性。

因此，实施方式提供语音识别的调节，使得考虑使用上下文。正如本文所述，这不排除上下文使用，而是趋于上下文中的字词/命令/动作的目标误识别。因此，实施方式便利用户的ASR引擎经验，这是因为其使得ASR引擎在监听在特定上下文内所接收、过滤和理解的命令的情况下表现得更加像人类。

如本领域的技术人员将认识到的，各种不同的方面可以体现为***、方法或设备程序产品。因此，各个方面可以采取全部硬件实施方式或包括软件的实施方式的形式，其在本文中都可以统称为“电路”、“模块”或“***”。此外，各个方面可以采取体现为一个或更多个设备可读介质的设备程序产品的形式，所述一个或更多个设备可读介质具有设备可读程序代码。

可以利用一个或更多个非信号设备可读介质的任意组合。非信号介质可以使存储介质。存储介质可以是例如电子的、磁的、光学的、电磁的、红外的或半导体***、装置或设备，或前述的任何适当的组合。存储介质的更多特定示例可以包括如下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任何适当的组合。在本文的上下文中，存储介质不是信号，并且“非暂态”包括除信号介质之外的所有介质。

可以利用任何适当的介质来传输存储介质上所体现的程序代码，包括但不限于无线、有线、光纤线缆、RF等或前述的任何适当的组合。

可以以一种或更多种编程语言的任何组合来编写用于执行操作的程序代码。程序代码可以完全地在单个设备上执行、部分地在单个设备上执行、作为独立软件包、部分地在单个设备上执行且部分地在另一设备上执行、或完全在其他设备上执行。在一些情况下，可以通过任何类型的连接或网络来连接设备，包括局域网(LAN)或广域网(WAN)，或者可以通过其他设备(例如，通过使用互联网服务提供商的互联网)、通过无线连接如近场通信或通过硬线连接如通过USB连接来实现连接。

本文参照附图描述了各方面，这些附图示出了根据各种示例性实施方式的示例性方法、设备以及程序产品。应当理解，动作和功能性可以至少部分地由程序指令来实现。可以将这些程序指令提供给通用信息处理设备、专用信息处理设备或者其他可编程数据处理设备或信息处理设备的处理器以制造机器，使得经由设备的处理器执行的指令能够实现指定的功能/动作。

正如本文所使用的，单数“一个”、“一”可以被看作是包括复数“一个或更多个”，除非明确指出。

本公开内容已经出于说明和描述的目的而被介绍并且不旨在穷举或限制。对于本领域的普通技术人员而言，许多修改和变型是显而易见的。选择并描述示例性实施方式，以便说明原理和实际应用，并且使得本领域的其他普通技术人员能够理解针对具有适于预期的特定用途的各种修改的各种实施方式的公开内容。

因此，虽然本文参照附图描述了说明性的示例实施方式，但是要理解本描述不是限制性的，并且在不脱离本公开内容的范围或精神的情况下，本领域的技术人员可以对其做出各种其他变化和修改。

Claims

1.一种信息处理方法，包括：

利用处理器获得与信息处理设备有关的上下文信息；

利用处理器、使用所述上下文信息来调节自动语音识别引擎；

在所述信息处理设备的音频接收器处接收用户语音输入；以及

利用处理器、基于所接收的用户语音输入和对所述自动语音识别引擎的上下文信息调节来提供所识别的语音。

2.如权利要求1所述的方法，其中，所述调节包括基于所述上下文信息选择知识领域。

3.如权利要求1所述的方法，其中，所述调节包括基于所述上下文信息选择词典。

4.如权利要求1所述的方法，其中，所述调节包括基于所述上下文信息对一个或更多个字词加权。

5.如权利要求1所述的方法，还包括交付与所识别的语音相匹配的预定动作；

其中，所述调节包括基于所述上下文信息调节所识别的语音和预定动作之间的匹配。

6.如权利要求1所述的方法，还包括：

基于所述用户语音输入和对所述自动语音识别引擎的上下文信息调节，向所述用户提供包括估计的所识别语音的通信；以及

交付与所识别语音相匹配的预定动作。

7.如权利要求6所述的方法，还包括接收与所述通信相关联的用户输入；

其中，所述的交付与所识别语音相匹配的预定动作对其做出响应。

8.如权利要求1所述的方法，其中，所述上下文信息选自包括以下的组：与用户同所述信息处理设备交互有关的上下文信息、与所述信息处理设备的运行应用有关的上下文信息、与所述信息处理设备的所接收的激励有关的上下文信息和与所述信息处理设备的所感测环境有关的上下文信息。

9.如权利要求1所述的方法，其中，所述上下文信息源自所述信息处理设备。

10.如权利要求1所述的方法，其中，所述上下文信息能够转移到另外的信息处理设备。

11.一种信息处理设备，包括：

音频接收器；

操作上耦接到所述音频接收器的处理器；以及

存储能够由所述处理器执行的指令的存储器装置，所述处理器执行指令以：

获得与所述信息处理设备有关的上下文信息；

利用所述上下文信息来调节自动语音识别引擎；

在所述音频接收器处接收用户语音输入；以及

基于所接收的用户语音输入和对所述自动语音识别引擎的上下文信息调节来提供所识别的语音。

12.如权利要求11所述的信息处理设备，其中，所述调节包括基于所述上下文信息选择知识领域。

13.如权利要求11所述的信息处理设备，其中，所述调节包括基于所述上下文信息选择词典。

14.如权利要求11所述的信息处理设备，其中，所述调节包括基于所述上下文信息对一个或更多个字词加权。

15.如权利要求11所述的信息处理设备，其中，所述指令能够被所述处理器进一步执行以交付与所识别语音相匹配的预定动作；

其中，所述调节包括基于所述上下文信息来调节所识别语音和预定动作之间的匹配。

16.如权利要求11所述的信息处理设备，其中，所述指令能够被所述处理器进一步执行以：

交付与所识别语音相匹配的预定动作。

17.如权利要求16所述的信息处理设备，其中，所述指令能够被所述处理器进一步执行以接收与所述通信相关联的用户输入；

18.如权利要求11所述的信息处理设备，其中，所述上下文信息选自包括以下的组：与用户同所述信息处理设备的交互有关的上下文信息、与所述信息处理设备的运行应用有关的上下文信息、与所述信息处理设备的所接收激励有关的上下文信息和与所述信息处理设备的所感测环境有关的上下文信息。

19.如权利要求11所述的信息处理设备，其中，所述上下文信息源自所述信息处理设备。