CN102024454A

CN102024454A - 基于语音输入激活多种功能的***和方法

Info

Publication number: CN102024454A
Application number: CN2010102779854A
Authority: CN
Inventors: 加勒特·L·魏因贝格
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2009-09-10
Filing date: 2010-09-08
Publication date: 2011-04-20
Also published as: US20110060588A1; EP2309492A1; JP2011059676A

Abstract

本发明公开了一种基于语音输入来激活多种功能的方法和***。该***包括：存储多种状态的存储器，其中，每种状态均与多种功能中的至少一种功能相关联；可操作地连接到一组数据模型的自动语音识别ASR引擎，其中，针对每种状态均存在一个数据模型，其中，ASR引擎被配置为在***处于一种状态中时利用与该状态相关联的数据模型将语音输入解释为功能的输入，使得根据该功能输入来激活功能；多个控件，其中，针对每种状态均存在一个控件，并且其中，每个控件均被配置为生成与状态相关联的信号；以及状态转换模块，其被配置为基于所述信号将***转换到所述状态。

Description

基于语音输入激活多种功能的***和方法

技术领域

本发明总体上涉及自动语音识别，更具体地，涉及具有多个上下文(context)的自动语音识别。

背景技术

自动语音识别(ASR)

自动语音识别的目标是获得代表语音的声学信号(即，语音信号)，并通过模式匹配来确定所说的话语。语音识别器通常具有一组存储在计算机数据库中的表现为模式的声学和语言模型。将这些模型与所得到的信号进行比较。计算机数据库的内容、怎样调校数据库以及用于确定最佳匹配的技术是不同类型的语音识别***的区别性特征。

已知多种语音识别方法。分段模型方法假定在口语中存在着明显的语音单位(例如，音素)，可以用一段时间内语音信号中的一组特性来表示这些语音单位。将输入的语音信号分段为分立的部分，在分立的部分中，声学特性代表一个或者更多个语音单位，并且根据这些特性向这些部分添加标签。然后，根据所赋予的一系列语音标签来确定符合语音识别任务的限制条件的有效的词典单词。

基于模版的方法直接利用语音模式而不需要进行明确的特征确定和分段。最初利用已知的语音模式对基于模版的语音识别***进行调校。在识别期间，将未知的语音信号与在调校期间获得的每个可能的模式进行比较，并且根据未知模式与已知模式的匹配程度来对其进行分类。

混合方法结合了上述的分段模型方法和基于模版的方法的某些特征。在某些***中，在识别过程中不仅仅使用声学信息。并且，神经网络已经被用于语音识别。例如，在一个这样的网络中，模式分类器检测声学特征向量，并且将向量与和声学特征相匹配的滤波器进行卷积，然后在时间上对结果加总。

ASR使能***

ASR使能***包括主要的两类，即，信息检索(IR：informationretrieval)***以及命令与控制(CC：command and control)***。

信息检索(IR)

总体上，信息检索(IR)***基于口述查询(query)来搜索数据库中存储的内容。所述内容可以包括任意类型的多媒体内容，如文本、图像、音频和视频，但不限于这些。查询包括关键词或者短语。很多IR***允许用户指定将在查询期间应用的附加的限制条件。例如，限制条件可以指定所有返回的内容具有一系列属性。通常，将查询和限制条件规定为文本。

对于一些应用而言，即使可能，进行文本输入和输出也是困难的。这些应用例如包括在操作机器或车辆的同时搜索数据库，或者具有功能有限的键盘或显示器的应用(如电话)。对于这样的应用而言，首选ASR使能的IR***。

美国专利7,542,966(“Method and system for retrieving documents withspoken queries”，2009年6月2日授予Wolf等)中描述了ASR使能的IR***的一个示例。

命令与控制(CC)

ASR使能的CC***将口述命令识别并解释为机器可以理解的命令。口述命令的非限制性示例是“呼叫”指定的电话号码，或者“播放”指定的歌曲。由于近来语音识别软件的进步，已经开发出一些ASR使能的CC***。通常，这些***利用口述命令的特定上下文而在特定的环境中工作。

上下文ASR使能***

大词典和复杂的语言模型使ASR使能***变慢，并要求诸如存储器和处理的更多的资源。大词典还降低了***的准确性。因此，大多数ASR使能***都具有通常与相关的上下文相关联的小词典和简单的语言模型。例如，美国专利No.4,989,253公开了一种使显微镜移动并聚焦的ASR使能***。该***使用与显微镜相关联的上下文。另外，美国专利No.5,970,457公开了一种根据与适当的上下文相关联的口述命令来操作诸如手术工具的医疗设备的ASR使能***。

然而，一些ASR使能***需要包括用于不同上下文的多个词典和语言模型。这样的***通常被配置为基于由用户选择的特定的感兴趣的上下文来激活适当的词典和语言模型。

如这里所定义的，ASR使能***的上下文是词典、语言模型、语法、领域、数据库和/或与上下文功能相关的子***，但不限于此。例如，与音乐、联系人、饭店或者名胜古迹相关的功能各自具有单独且可区分的上下文。使用多个上下文的ASR使能***是上下文ASR使能***。

因此，对于上下文ASR使能***而言，需要指定口述查询或口述命令的上下文。

使用PTT功能的ASR使能***

存在不同类型的根据背景噪声或背景语音来区分预计的语音输入的ASR***。始终收听(always-listening)型***对已识别的音频信号进行词法分析以检测用来激活ASR使能***以进行进一步输入的关键词(例如，“计算机”)。

另一种类型的ASR使能***使用在人与人对话之后建模的诸如注视方向的其它输入线索。

另一种类型的ASR***使用一按通话(PTT：push-to-talk)功能。PTT控件(例如，按纽)用于将音频信号流的开始标记为预计的语音输入。在一些实施中，通过分析例如所得到的信号的幅度或信噪比(SNR)来自动地确定语音输入的结束。在其它实施中，用户被要求将按钮一直按下直到用户结束讲话为止，通过放开按钮来明确标记输入信号的结束。

嵌入式ASR***

有时，需要直接在实体设备中嵌入ASR使能***，而不是在基于网络的计算资源上实现ASR使能***。必需进行这样的嵌入的场景包括那些不能采用持续网络连接的场景。在那些场景中，即使ASR使能***涉及更新网络计算机上的数据库，也需要通过在设备上独立进行的人机交互来得到信息。然后，在网络通信信道恢复之后，可以使在设备上收集的已更新信息与基于网络的数据库同步。

如这里所定义的，嵌入式ASR***是这样一种***，即，在该***中，执行CC或IR所需要的全部语音信号处理均发生在通常具有连接的有线麦克风或者无线麦克风的设备上。生成、修改或者激活嵌入式ASR***所需的一些数据可以经由有线或无线的数据信道从不同的设备下载。然而，在进行ASR处理时，所有数据均驻留在与设备相关联的存储器中。

如上所述，结合特定的上下文或多个上下文来使用诸如IR和CC***的不同类型的ASR***是具有优势的。并且，由于它们的有限的存储器和CPU资源，一些嵌入式ASR***具有对于台式机或者基于服务器的ASR***而言不一定存在的限制。例如，台式机或基于服务器的***可能能够从***的任意状态中处理音乐检索指令，如搜索特定的艺术家。然而，嵌入式ASR***(例如，车辆中的ASR***)可能需要用户首先切换到适当的上下文状态，并且将允许用户提供仅与特定的上下文状态相关的语音输入。

通常，嵌入式ASR***与多种不同的上下文相关联。例如，音乐可以是一种上下文。当嵌入式ASR***在音乐上下文状态中时，***预期用户的语音输入与音乐相关，并且***被配置为仅执行与检索音乐相关的功能。导航和联系人是ASR***的上下文的其它非限制性示例。

例如，在具有使用PTT按钮的用户接口的嵌入式ASR***中，为了搜索音乐表演者，用户必须按下PTT按钮，念出上下文指令(例如，诸如“音乐”的代码词)，从而将ASR***切换到音乐上下文状态。在说出代码词后，用户可以输入口述指令以进行音乐检索。如果用户在一些其它上下文状态中输入音乐相关的口述指令，则ASR***出现故障。

图1示出了常规的嵌入式ASR***。在按下PTT按钮105后，***预期包含上下文指令110-112的语音输入。在识别到120上下文指令后，***转换为适当的上下文状态130-132。因此，在识别了随后的语音输入133-135后，***激活适当的功能136-138。

然而，尤其当任务持续时间增长时，诸如音乐检索和目的地输入的复杂任务与例如驾驶车辆的其它用户操作相互干扰。因此，常常期望减少嵌入式ASR***中以语音输入来激活功能的步骤数。

发明内容

本发明的实施方式公开了一种基于语音输入来激活多种功能的方法和***，其中，在诸如电话、导航***、车辆的仪表盘等装置中嵌入所述***。

所述***包括：存储多种状态的存储器，其中每种状态均与所述多种功能中的至少一种功能相关联；自动语音识别(ASR)引擎，所述自动语音识别引擎可操作地连接到一组数据模型，其中，针对每种状态均存在一个数据模型，其中，所述ASR引擎被配置为当***处于一种状态中时利用与该状态相关联的数据模型将语音输入解释为功能输入，使得根据所述功能输入激活所述功能；多个控件，其中，针对每种状态均存在一个控件，并且其中，每个控件均被配置为生成与所述状态相关联的信号；以及状态转换模块，所述状态转换模块被配置为基于所述信号将所述***转换到所述状态，其中，所述功能被配置，使得仅当所述***处于与所述功能相关联的所述状态时才被激活。

在一个实施方式中，所述多个控件包括被配置为利用至少两种激活方式激活的多功能控件，使得所述多功能控件生成指示特定激活方式的信号。本实施方式还包括被配置为基于所述特定激活方式来激活第一功能或者第二功能的控制器，其中，所述第一功能被配置为仅基于所述激活方式来执行，并且其中，所述第二功能还被配置为基于所述语音输入来执行。

所述方法包括如下步骤：在存储器中存储多个状态，其中，每个状态均与多种功能中的至少一种功能相关联；提供多个控件，其中，针对每个状态均存在一个控件，并且其中，每个控件均被配置为生成与所述状态相关联的信号；以及在接收到所述信号时，将所述***转换为与所述信号相关联的状态，以便根据所述语音输入来激活所述功能，其中，所述功能被配置为仅当所述***转换到与所述功能相关联的状态时才被激活。

附图说明

图1是常规的自动语音识别***的框图；

图2是根据本发明不同实施方式中的一个的嵌入式自动语音识别方法和***的框图；

图3是根据本发明不同实施方式中的一个的嵌入式自动语音识别方法和***的框图；以及

图4是包含根据本发明一些实施方式的***的车辆仪表盘的部分前视图。

具体实施方式

上下文PTT控制

本发明的实施方式基于对使得在嵌入式自动语音识别(ASR)***中激活适当功能更加方便的多种专用的上下文一按通话(PTT)控件的实现。

图2示出了根据本发明一个实施方式的嵌入式ASR***。该***包括处理器201，该处理器201包括存储器202的、输入/输出接口以及本领域中公知的信号处理器。

***200包括存储器202中存储的多种状态231-233。通常，每种状态均与特定上下文相关联。例如，一种状态与音乐上下文相关联，而另一种状态与联系人上下文相关联。每种状态还与功能237-239中的至少一种功能相关联。功能237-239被配置为基于语音输入233-235而激活。通常，这些功能与状态相关联，其方式类似于上下文与状态之间的关联。例如，被配置为选择并播放音乐的功能与和音乐上下文关联起来的状态相关联。但是，被配置为选择并呼叫特定电话号码的功能则与和联系人上下文关联起来的状态相关联。

通常，语音输入包括将要执行的功能的功能标识符和功能参数。例如，语音输入是“呼叫Joe”。功能标识符是该输入的“呼叫”部分。基于该标识符，从与“电话”状态相关联的多种功能中选出用于执行电话呼叫的功能。语音输入的“Joe”部分是基于标识符选出的功能的参数。因此，所述***利用该参数来执行所选择的功能，即，呼叫基于人名“Joe”从电话簿中选出的电话号码。

***200被配置为仅在***转换到一种状态时才激活与该状态相关联的功能。例如，为了激活音乐功能，***必须首先转换到与音乐功能相关联的状态，并因而与音乐上下文关联起来。

***200不具有一个常规的PTT按钮，而是提供了包括多个控件221-223(例如，上下文PTT控件)的控制板210。每个上下文PTT控件均可以是被配置为可触知地激活的任意输入控件，诸如按钮、控制杆或者触敏表面。

每个上下文PTT控件221-223均与状态231-233一一对应。在激活时，上下文PTT控件生成信号242-244。所述信号可以是携带关于被激活的上下文PTT控件的信息的任意类型的信号(例如，二进制信号)。

在接收到上述信号时，状态转换模块220将***200转换为与该信号相关联的状态，以便激活功能。例如，在一个实施方式中，通过将来自一组数据模型255的数据模型256与ASR引擎关联起来以实现转换状态。数据模型包括词典、和/或一组预先确定的命令或者搜索项，这使得ASR引擎能够解释语音输入。ASR引擎将语音输入233-235解释为功能237-239所预期的输入261-263。因此，如果数据模型256包括例如音乐上下文的词典，则ASR引擎仅能够解释与音乐相关的语音输入234。另选地或者另外地，状态转换模块预先选择(例如，上载到处理器201的存储器中)对应状态中包含的功能。

与单个PTT按钮的常规***相比，本发明的实施方式提供了明显优势。常规***要求额外的语音输入以转换到特定状态。然而，本发明的实施方式基于控件的激活直接将***转换到与该控件相关联的状态。

因此，与常规***相比，***200利用了通过重复的相似运动(类似于盲打(touch typing)和变速调档)来得到增强的肌肉记忆。因此，所述控件被设置为，使得用户仅从主要任务(例如，驾驶车辆)转移很少的注意力就能够激活该控件。

在一个实施方式中，每个控件均传送与状态相关联的上下文的标识符225-227。例如，标识符可以在控件上显示诸如“呼叫”或“音乐”的上下文名称的标题。另外或者另选地，标识符可以是控件的颜色、控件的形状、控件在设备上的位置以及它们的组合。本实施方式缩短了操作者为学习如何操作嵌入式ASR***通常需要的训练时间。

如图4所示，***200可以嵌入在车辆400的仪表盘410中。上下文PTT控件432-433可以布置在方向盘430上。另选地或者另外地，上下文PTT控件425可以布置在控制模块420上。多个上下文PTT控件简化了搜索，并要求更少的用户交互，从而用户可以将精力集中在车辆驾驶上。

多功能控件

图3示出了根据本发明另一个实施方式的***和方法300的框图。在此实施方式中，控件310是多功能PTT控件，其通过控制器320至少连接到功能330和340。控件310被配置为生成指示从多个激活方式317中选出的特定激活方式315的信号。激活方式包括例如单击、双击以及按下并保持的激活方式。

控制器320基于特定激活方式315来激活325第一功能340或者第二功能330。功能340和330之间的主要差异在于可以仅基于激活方式315来激活第一功能340。然而，第二功能330需要语音使能启动，即，第二功能330还被配置为期待语音输入333。

此实施方式使得能够将常规的控件使用为多功能PTT控件。如果用户以“正常的”激活方式(例如，单击)来激活控件，则***激活342并执行344第一功能。或者，用户以“特殊的”激活方式(例如，双击)来激活所述控件，调用期待语音输入333的功能337。

例如，单击电话上的绿色呼叫按钮显示出最近的呼叫。然而，双击同一个绿色呼叫按钮将导致***检测语音输入(例如，类似“John Doe”的电话簿搜索)，并根据所述语音输入来执行“呼叫”功能。在此示例中，功能340是显示最近的呼叫的功能。很容易理解，当以单击激活方式激活时，功能340不需要任何额外的输入。另一方面，呼叫特定的电话号码的功能是功能330，该功能需要额外的输入(例如，来自电话簿的联系人姓名)。在此实施方式中，由嵌入式ASR***基于语音输入来解释额外的输入。

类似地，收音机上的“播放/暂停”和“随机播放”按钮能够接受语音输入。如果正常启动是简单的转换操作(即，播放或暂停、随机播放开启或关闭)，则语音使能启动检测针对操作的语音输入，即，播放什么或者随机播放什么。

在一个实施方式中，功能330的语音使能激活的实现与***200的状态的实现相似。当用户指示***300激活第二功能330时，***300转换为与第二功能330相关的状态(与状态231-233相似)。

在另一个实施方式中，将***200和300结合起来以提供多功能的上下文PTT控件。在此实施方式中，控制板210包括多个多功能PTT控件。此实施方式允许在具有常规按钮的设备中嵌入ASR***，从而将该设备转换为多功能的上下文嵌入式ASR***。

尽管已经利用优选实施方式的示例说明了本发明，但是应当理解，在本发明的精神和范围之内可以得到各种其它改变和修改。因此，所附权利要求的目的是涵盖落入本发明的真实精神和保护范围内的所有这些的变化和修改。

Claims

1.一种基于语音输入来激活多种功能的***，其中，所述***嵌入装置中，该***包括：

存储多种状态的存储器，其中，每种状态均与所述多种功能中的至少一种功能相关联；

能够操作地连接到一组数据模型的自动语音识别引擎，其中，针对每种状态均存在一个数据模型，其中，所述自动语音识别引擎被配置为当所述***处于一种状态中时利用与所述状态相关联的数据模型将所述语音输入解释为功能输入，使得根据所述功能输入来激活所述功能；

多个控件，其中，针对每种状态均存在一个控件，并且其中，每个控件均被配置为生成与所述状态相关联的信号；以及

状态转换模块，所述状态转换模块被配置为基于所述信号将***转换到所述状态，其中，所述功能被配置为仅当所述***处于与所述功能相关联的状态中时才被激活。

2.根据权利要求1所述的***，其中，每种状态均与上下文相关联，其中，针对每种状态均存在一种上下文。

3.根据权利要求2所述的***，其中，所述上下文是从音乐上下文、联系人上下文和导航上下文中选出的。

4.根据权利要求2所述的***，其中，与状态相关联的控件传送与所述状态相关联的所述上下文的标识符。

5.根据权利要求4所述的***，其中，所述标识符是从在所述控件上表现的标题、所述控件的颜色、所述控件的形状、所述控件的位置以及它们的组合中选出的。

6.根据权利要求1所述的***，其中，所述语音输入包括所述功能的标识符和所述功能的参数，使得基于所述标识符来选择所述功能并基于所述参数来执行所述功能。

7.根据权利要求1所述的***，其中，所述状态仅与一种功能相关联，所述语音输入包括所述功能的参数，使得基于所述参数来执行所述功能。

8.根据权利要求1所述的***，其中，所述控件是一按通话按钮。

9.根据权利要求1所述的***，其中，所述***被配置为仅基于接触式激活来转换到所述状态。

10.根据权利要求1所述的***，其中，所述多个控件包括多功能控件。

11.根据权利要求1所述的***，该***还包括：

包含所述多个控件的控制板。

12.根据权利要求1所述的***，其中，所述装置是车辆的仪表盘。

13.根据权利要求1所述的***，其中，所述装置是从电话、音乐播放器、导航设备以及它们的组合中选出的。

14.根据权利要求1所述的***，其中，所述多个控件包括多功能控件，所述多功能控件被配置为利用至少两种激活方式激活，使得所述多功能控件生成指示特定激活方式的信号，该***还包括：

控制器，所述控制器被配置为基于所述特定激活方式来激活第一功能或者第二功能，其中，所述第一功能被配置为仅基于所述激活方式来执行，并且其中，所述第二功能还被配置为基于所述语音输入来执行。

15.根据权利要求14所述的***，其中，所述多个控件仅包括所述多功能控件。

16.一种激活多种功能的方法，其中，每种功能均被配置为基于语音输入来激活，该方法包括如下步骤：

在存储器中存储多种状态，其中，每种状态均与所述多种功能中的至少一种功能相关联；

提供多个控件，其中，针对每种状态均存在一个控件，并且其中，每个控件均被配置为生成与所述状态相关联的信号；以及

响应于接收到所述信号，将所述***转换为与所述信号相关联的状态，以便根据所述语音输入来激活所述功能，其中，所述功能被配置为仅在***转换到与所述功能相关联的状态时才被激活。

17.根据权利要求16所述的方法，其中，所述功能被配置为基于输入而执行，该方法还包括如下步骤：

提供自动语音识别引擎，所述自动语音识别引擎能够操作地连接到一组数据模型，其中，针对每种状态均存在一个数据模型，其中，所述自动语音识别引擎被配置为在所述***转换到一个状态时，利用与所述状态相关联的数据模型将所述语音输入解释为输入。

18.根据权利要求16所述的方法，其中，所述多个控件中的至少一个控件是多功能控件。

19.根据权利要求16所述的方法，该方法还包括如下步骤：

将控件与上下文相关联；和

在所述控件上提供所述上下文的标识。

20.根据权利要求16所述的方法，该方法还包括如下步骤：

将所述多个控件设置在车辆内部。