CN101462522A

CN101462522A - 交通工具内根据状况的语音识别

Info

Publication number: CN101462522A
Application number: CNA200810185367XA
Authority: CN
Inventors: R·钱加尔瓦拉彦; T·J·格罗斯特; E·J·阿贝斯卡
Original assignee: Motors Liquidation Co; GM Global Technology Operations LLC
Current assignee: Motors Liquidation Co; GM Global Technology Operations LLC
Priority date: 2007-12-21
Filing date: 2008-12-22
Publication date: 2009-06-24
Anticipated expiration: 2028-12-22
Also published as: CN101462522B; DE102008062542A1; US8423362B2; US20090164216A1

Abstract

本发明涉及交通工具内根据状况的语音识别。一种在交通工具内根据状况的语音识别方法。监控与多个交通工具功能有关的多个参数，作为当前交通工具状况的指示。基于用户与交通工具的交互，识别至少一种交通工具功能作为用户预期的ASR控制的候选者。所识别的交通工具功能然后用来消除包含在从用户接收到的语音内的可能的命令之间的歧义。

Description

交通工具内根据状况的语音识别

技术领域

本发明涉及语音信号处理，更具体地，涉及用于控制交通工具功能的自动语音识别(ASR)。

背景技术

ASR技术使得配备有麦克风的计算设备能够翻译语音从而提供对传统人机输入设备(例如键盘或键区)的替代。典型的ASR***包括几个基本元件。麦克风和声接口(acoustic interface)接收来自用户的词的话语(utterance)，并将该话语数字化为声学数据。声音预处理器将声学数据解析成承载信息的声学特征。解码器使用声学模型来将声学特征解码成话语假设(hypotheses)。该解码器为每个假设产生置信值(confidence value)，以反映每个假设与每个话语的子词(subword)在语音上匹配的程度，并且为每个子词选择最佳的假设。使用语言模型，解码器将子词串联成与用户发出的词对应的输出词。ASR***的用户向ASR***说出请求，以控制不同的交通工具设备或者交通工具设备之一的不同功能。

具备ASR能力(ASR-enabled)的交通工具功能控制遇到的一个问题是尽管这样的***可以正确地解码用户的输入语音，但是它可能会不正确地将认出(recognized)的语音应用于非预期的交通工具功能。换句话说，当前具备ASR能力的交通工具功能控制在消除用于一种交通工具功能的语音和用于某个其他交通工具功能的语音之间的歧义方面有着明显的困难。例如，用户可能说“le tme hear some traffic(让我听交通报告/让我听traffic乐队的音乐)”，以使得交通工具无线电设备播放来自19世纪60年代的摇滚乐队Traffic的音乐，但是具备ASR能力的交通工具控制器可能会曲解该请求并且相反使另一个交通工具设备播放路线交通报告。因而，具备ASR能力的交通工具的用户变得对此情况很失望。

发明内容

本发明提供一种在交通工具内根据状况(circumstantial)的语音识别方法。根据一个实施例，该方法包括以下步骤：

(a)监控与多个交通工具功能有关的多个参数，作为当前交通工具状况(circumstances)的指示；以及

(b)当所监控的与所述多个交通工具功能中的至少一个功能有关的多个参数中的至少一个参数符合预定标准时，识别至少一个交通工具功能作为用户预期的ASR控制的候选者。

根据本发明的另一方面，提供了一种在交通工具内基于用户与交通工具的交互的根据状况的语音识别方法。该方法包括以下步骤：

监控与用户交互的多个交通工具设备；

基于用户与交通工具设备的交互识别用于用户预期的ASR控制的交通工具设备；

接收来自于用户的语音；以及

至少部分基于所识别的交通工具设备，消除包含在该语音内的两个或更多个可能的命令之间的歧义。

这些方法使得ASR***能够增加应用认出的语音来控制用户预期使用的交通工具功能的可能性。

附图说明

下面将结合附图来描述本发明的优选示范性实施例，其中相似的标记指代相似的元件，并且其中：

图1是描述能够与交通工具内的根据状况的语音识别的方法结合使用的远程信息处理***的示例的框图；

图2是示出能够嵌入到图1的远程信息处理***中并且用来实现语音识别的示范性方法的示范性自动语音识别架构的框图；

图3是能够使用图1的远程信息处理***执行的交通工具内的根据状况的语音识别的示范性方法的实施例的流程图；

图4是能够使用自动语音识别***控制的交通工具控制器和相关交通工具设备的示例的框图；以及

图5是能够使用图1的远程信息处理***执行的交通工具内的根据状况的语音识别方法的另一个实施例的流程图。

具体实施方式

示范性工作环境如图1所示，并且可以用来实现在此公开的根据状况的语音识别方法。能够使用任何合适的远程信息处理***来执行该方法，并且优选地，结合诸如***100的交通工具远程信息处理***来执行该方法。本领域技术人员应当理解，***100的整体架构、设置、操作和各个部件在本领域内通常都是已知的。因而，下面对***的描述仅提供了一个这样的示范性远程信息处理***的简短概述，但是这里未示出的其他***和部件也可以支持在此公开的方法。

示范性远程信息处理***100包括用于运载一个或多个乘员(occupant)或用户的交通工具102和用于提供与交通工具102的双向无线通信的无线通信***104。另外，***100可以包括第二通信***106，用于使无线通信***104与向交通工具102提供服务的***100的呼叫中心108进行通信。此外，***100可以包括与交通工具102和/或呼叫中心108进行通信的网络服务器(未示出)用于向其提供因特网服务。

***100一般可以促进用于交通工具乘员的一个或多个合适的服务，该一个或多个合适的服务诸如交通工具导航、分段显示驾驶路线(turn-by-turn driving directions)、信息娱乐、紧急服务、交通工具诊断、交通工具***更新以及免提通话(hands-free telephony)和使用自动语音识别的交通工具交互。为此，***100处理数据和指令，以及促进位于交通工具102上的硬件和位于远程呼叫中心108中的硬件之间的无线话音和数据传输。例如，***100使得交通工具乘员能够发起与呼叫中心108的话音通信。另外，***100使得能够实现交通工具102和网络服务器或呼叫中心108之间的数据通信，用于各种目的，例如发送和/或接收数据(例如话音消息、电子邮件、新闻、因特网内容等等)。

交通工具

在示出的实施例中，将交通工具102描述为客车，应当理解，在不脱离本发明的范围的情况下，可以使用任何其他交通工具，包括摩托车、船舶、飞行器、休闲车(recreational vehicle)，以及其他汽车，例如货车、卡车等。各种电子模块可以位于交通工具102内，并且包括一个或多个交通工具***模块(VSM)110、装载在交通工具上的(onboard)交通工具通信总线112以及由总线112连接到VSM 110的一个或多个交通工具远程信息处理单元114。

VSM 110促进任何合适的装载在交通工具上的功能，例如交通工具诊断、监控、控制、报告和/或其他功能。例如，VSM 110可以用来通过各种交通工具传感器控制引擎操作、监控和展开安全气囊或其他安全设备、和/或诊断交通工具***。VSM 110宽泛地代表遍及交通工具的与远程信息处理单元114进行交互的任何软件、电子或机电子***和相关传感器或其他部件。在特定示例中，如果呼叫中心108向交通工具102发送信号以解锁交通工具的门，则远程信息处理单元114指示机电门锁VSM解锁该门。

交通工具通信总线112促进各个交通工具***(例如VSM 110和/或远程信息处理单元114)之间的交互，并且使用任何合适的网络通信配置，不管是有线的还是无线的。合适的接口可以***在总线112和各个交通工具***之间。这里所用的术语“接口”宽泛地指任何合适形式的电子设备或适配器，或者甚至是软件模块或适配器，以使得一台设备能够与另一台设备通信或者控制另一台设备。总线的几个例子包括控制器区域网络(CAN)、面向媒体的***传输(MOST)、局域互连网络(LIN)、以太网(10baseT、100baseT)、局域网(LAN)、无线区域网络(WAN)和/或任何合适的国际标准化组织(ISO)或者汽车工程师学会(SAE)通信标准。

交通工具远程信息处理单元114促进交通工具102或其乘员与包括呼叫中心108的各种远程位置之间的通信和其他服务。远程信息处理单元114通过交通工具通信总线112与各种VSM 110对接(interface)。远程信息处理单元114可以任何合适的配置实现，但是可以包括处理器116、用来经由一个或多个天线120与交通工具102进行双向无线通信的通信设备118、用来存储计算机程序124和/或一个或多个数据库126的存储器122，和用户接口128。远程信息处理单元114也包括用于在前述设备之间互相通信的任何合适的接口。

尽管在图1中作为分开的单独模块来描述，但是本领域技术人员应当理解，远程信息处理单元114的许多部件可以集成在一起，或者与其他交通工具***集成和/或共享。例如，存储器122可以被合并到处理器116中或者位于远程信息处理单元114之外并且与诸如交通工具中央处理单元的一个或多个其他交通工具***共享。尽管VSM 110被示出为与远程信息处理单元114分开，但是这些VSM 110的任何组合可能集成到远程信息处理单元114内。此外，远程信息处理单元114可以包括未示出的附加部件，或者可以省略示出的一些部件。

可以按照本领域技术人员公知的多种方式的任意一种实现远程信息处理处理器116，例如按照控制器、微处理器、微控制器、主处理器、交通工具通信处理器、专用集成电路(ASIC)或其它任何合适的处理器类型的形式。可替换地，处理器116可以与执行通用计算机的功能的中央处理单元(未示出)结合工作。处理器116可以与其它合适的设备和/或模块(未示出)相关，例如提供精确日期和时间信息的实时时钟设备和/或跟踪时间间隔的定时器模块。

处理器116运行存储在存储器122中的该一个或多个程序124以执行各种功能，例如***监控、数据处理、以及使远程信息处理单元114与VSM 110、交通工具乘员和远程位置进行通信。例如，处理器116可以运行一个或多个控制程序并处理程序和/或数据，以单独或者与呼叫中心108结合实现根据状况的语音识别方法。在另一个示例中，处理器116控制、产生和接受远程信息处理单元114和呼叫中心108之间以及远程信息处理单元114和连接到各种VSM 110的交通工具通信总线112之间传输的信号。在一种模式中，这些信号用于激活VSM 110的编程和操作模式。

远程信息处理存储器122可以是提供处理器116所用的数据和程序的计算机可读存储的任意电子存储设备。存储器122可以包括易失性和/或非易失性存储器存储，例如RAM、NVRAM、硬盘、闪存等，并且可以被实现为一个或多个单独的物理设备。程序124包括一个或多个计算机程序，其作为指令由处理器116运行，以执行远程信息处理单元114的各种功能，例如消息收发、诊断、通信、语音识别等等。例如，驻留在存储器122中并且由处理器116运行的程序124可以用来实现根据状况的语音识别方法。数据库126可以用来存储消息数据、诊断故障代码数据或其它诊断数据、交通工具数据上传(VDU)记录、事件激活表、语音识别数据等等。数据库126可以被实现为数据库表，该数据库表使得能够对存储在数据库126中的数据进行查找，这可以使用公知的索引技术、数据库查询、通过这样的表格的直接串行搜索、和/或其它任何合适的存储和查找技术来完成。

远程信息处理通信设备118和相关天线120向无线通信***104发送话音和数据并从无线通信***104接收话音和数据，以使得远程信息处理单元114可以诸如经由第二通信***106与呼叫中心108进行通信。通信设备118经由蜂窝、卫星和/或其它无线路径提供这样的无线通信，并且可以促进话音和/或数据通信，其中话音和数据信号都可以在话音信道和/或数据信道上被发送和接收。本领域技术人员应当认识到，通信设备118可以通过应用任何合适类型的编码或调制，以通过合并在蜂窝芯片组中的声码器或语音编解码器转换数字数据用于通信，从而在话音信道上发送和接收数据。可以使用任何提供可接受的数据速率和误码率的合适的编码或调制技术。通信设备118可以包括下面讨论的任何其它合适的模块。

通信设备118可以包括通话(telephony)模块，该通话模块包括诸如无线调制解调器和/或移动电话的通信软件和硬件。移动电话可以是任何合适的无线通话设备(例如移动电话)，其可以是模拟、数字、双模、双频带、多模式和/或多频带的。移动电话可以包括单独的处理器和存储器和/或标准的蜂窝芯片组。此外，移动电话可以使用任何合适的蜂窝技术，例如高级移动电话***(AMPS)、码分多址(CDMA)、时分多址(TDMA)、全球移动通信***(GSM)等，但是也可以利用专有的(proprietary)或其它无线技术来与无线通信***104进行通信。

远程信息处理用户接口128包括一个或多个输入和输出接口，以从远程信息处理用户接收输入并向远程信息处理用户发送输出。这里所用的术语“用户”包括远程信息处理服务订户、包括驾驶者和乘客的交通工具乘员等。同样，这里所用的术语“用户接口”宽泛地指任何合适形式的电子设备或适配器，或者甚至是软件模块或适配器，其使得交通工具乘员能够与另一台设备通信或者控制另一台设备。用户接口128可以包括遍布交通工具的各个部件，和/或可以被集成为单个单元，例如人机接口(HMI)、多媒体中心等等。多媒体中心可以接收并存储下载的内容(例如音乐、网页、电影、电视节目、视频游戏等)以便当前或延迟回放。

输入接口可以包括一个或多个触觉设备130、一个或多个麦克风132或者任何其它类型的输入技术。首先，触觉输入设备130使得交通工具乘员能够激活远程信息处理单元114的一个或多个功能，并且可以包括一个或多个按钮开关、键区、键盘或位于交通工具102内在交通工具乘员接触范围内的合适的其它输入设备。例如，触觉输入设备130可以用来启动与远程位置(例如呼叫中心108或移动电话)的远程通信和/或启动交通工具更新、诊断等。其次，麦克风132允许交通工具乘员向远程信息处理单元114提供有声(vocal)输入，并且使得能够经由通信设备118与各个远程位置进行有声通信。可以使用合适的模数接口和/或数字信号处理器(例如麦克风132和处理器116之间的声卡(未示出))和存储在存储器122内的话音和语音识别程序和数据翻译来自交通工具乘员的有声输入。

输出接口可以包括一个或多个扬声器134、视觉显示设备或任何其它类型的视觉输出技术，所述视觉显示设备例如液晶显示器、等离子屏幕、触摸屏、抬头(heads-up)显示器等(未示出)。扬声器134使得远程信息处理单元114能够将可听语音、信号、音频文件等传输给交通工具乘客，并且可以是交通工具音频***的一部分或特定专用于远程信息处理单元114的独立部件。诸如声卡(未示出)的合适的接口可以***在扬声器134和远程信息处理处理器116之间。

通信***

通信***104、106可以被单独实现或者可以被组合为整体***。同样，利用合适的设备，呼叫中心108可以直接与无线通信***104进行无线通信，而不需要第二***106.

无线通信***104可以包括一个或多个模拟和/或数字蜂窝网络136、无线计算机网络，例如广域网(WAN)、无线局域网(WLAN)、宽带无线区域(BWA)网络、和/或用于在交通工具102与诸如呼叫中心108的各个远程位置之间发送语音和/或数据信号的任何其它合适的无线网络。示范性蜂窝网络136可以被实现为CDMA、GSM或使得交通工具102和第二通信***106之间能够交换话音和数据的其它蜂窝通信网络。网络136可以包括蜂窝塔(cell tower)、基站和/或移动交换中心(MSC)的任何合适的组合。例如，基站和蜂窝塔可以共同位于相同的地点或者它们可以彼此远离定位，每个基站可以服务于单个蜂窝塔或多个蜂窝塔，并且各个基站可以耦合到单个MSC，还有很多可能的配置，这里就不一一列举了。语音编解码器或声码器可以被合并到***104中，例如合并到一个或多个基站中，但是根据无线网络的具体架构，它可以被合并到MSC或一些其它网络部件中。

***104也可以或可替换地通过使用一个或多个卫星138的卫星传输来执行无线通信，以经由地基卫星收发器140使交通工具102与呼叫中心108进行通信。作为示范性实施方式，卫星收发器140和一个(或多个)卫星138可以向交通工具102发送无线电信号。例如，卫星传输可以通过“S”频带内的频谱被广播，该“S”频带由美国联邦通信委员会分配用于基于卫星的数字音频无线电服务(DARS)的国家广播。详细来说，可以使用XM^TM牌卫星无线电服务来执行卫星传输。

第二通信***106可以是陆基(land-based)有线***，例如公共交换电话网络(PTSN)、网际协议(IP)网络、光网络、光纤网络、电缆网络和/或公用(utility)电力传输线。***106也可以是与***104类似的另一种无线通信***、WAN、WLAN或BWA网络，或者可以是前述示例的任意组合，可以使用或改编这些***的任一种来进行话音和/或数据通信。

呼叫中心

呼叫中心108通过处理并存储数据以及与交通工具102进行通信，来向交通工具102提供服务。呼叫中心108可以向交通工具远程信息处理单元114提供后端功能，并且可以包括在一个或多个位置的一个或多个固定或移动的数据中心。呼叫中心108可以包括顾问142，用于监控各种交通工具状况，响应服务请求，并且提供交通工具服务，例如与交通工具内安全和保障***有关的远程交通工具协助。顾问142可以被实现为真人顾问、或者被实现为响应于用户请求的自动机或计算机程序。

呼叫中心108包括例如有线或无线调制解调器的一个或多个话音和/或数据接口144、诸如专用交换分机(private branch exchange，PBX)的交换机和/或路由器。接口144通过通信***104、106中的一个或者二者在交通工具远程信息处理单元114和呼叫中心108之间例如通过交通工具数据上载(VDU)发送和接收话音和/或数据信号。对于话音上数据(data-over-voice)通信来说，接口144优选地应用某种类型的编码或调制来转换数字数据，以用于与声码器或语音编解码器通信。

呼叫中心108还可以包括一个或多个通信服务管理器146、用来处理数据的一个或多个服务器148、用来存储用户数据的一个或多个合适的数据库150，所述用户数据例如订户简档和认证数据以及任何其它合适的数据。呼叫中心108也可以包括一个或多个有线和/或无线网络152，例如LAN或WLAN，用于将呼叫中心部件与该一个或多个顾问142所用的任何计算机连接在一起。例如，服务器148和数据库150单独地或者与交通工具102的远程信息处理单元114相结合地运行并存储一个或多个控制程序和数据，以实现根据状况的语音识别方法。换句话说，本公开的方法可以由交通工具102的远程信息处理单元114、由呼叫中心108中的计算设备和/或人员或者通过这两者的组合来实现。

示范性ASR***

一般来说，交通工具乘员与自动语音识别***(ASR)进行声音交互，用于下述基本目的中的一个或多个：训练该***理解交通工具乘员的特殊话音；存储离散语音，例如口头名签(nametag)或像数字或关键词的口头控制词；或者识别用于任何合适目的的交通工具乘员的语音，所述目的例如话音拨号、菜单导航、转录、服务请求、交通工具设备或设备功能控制等。一般来说，ASR从人的语音中提取声学数据，将该声学数据与存储的子词数据进行比较和对照，选择可以与其它被选子词串接的合适的子词，并输出所串接的子词或词用于后处理，例如口述或转录、地址簿拨号、存储到存储器、训练ASR模型或者适配参数等。

ASR***对于本领域技术人员一般是公知的，图2示出了可以用来实现本公开的方法的ASR***210的详细示范性架构。***210包括接收语音的设备，例如远程信息处理麦克风132，还包括声接口133，例如远程信息处理用户接口128的声卡，以将语音数字化成声学数据。***210也包括诸如远程信息处理存储器122之类的用于存储声学数据并且存储语音识别软件和数据库的存储器，以及诸如远程信息处理处理器116之类的用于处理声学数据的处理器。处理器利用存储器并结合下述模块来运行：前端处理器或预处理器软件模块212，用于将语音的声学数据流解析成诸如声学特征的参量表示；解码器软件模块214，用于将声学特征解码以产生与输入语音话语对应的数字子词或词输出数据；以及后处理器软件模块216，用于使用来自解码器模块214的输出数据用于任何合适的目的。

一个或多个模块或模型可以用作到解码器模块214的输入。首先，语法和/或词法模型218可以提供规定哪些词逻辑上可以跟在其它词之后以形成有效语句的规则。广义上讲，语法可以定义***210在任何给定ASR模式下在任何给定时间预期的词汇总体。例如，如果***210处于训练命令的训练模式，则一个(或多个)语法模型218可以包括***210已知的并使用的所有命令。在另一个示例中，如果***210处于主菜单模式，则活动的(active)一个(或多个)语法模型218可以包括***210预期的所有主菜单命令，例如呼叫、拨号、退出、删除、目录等。其次，一个(或多个)声学模型220协助选择与来自预处理器模块212的输入对应的最有可能的子词或词。再者，一个(或多个)词模型222和一个(或多个)语句/语言模型224在将被选子词或词放到词或语句上下文时提供规则、句法和/或语义。另外，一个(或多个)语句/语言模型224可以定义***210在任何给定ASR模式下在任何给定时间预期的语句的总体，和/或能够提供规定哪些语句逻辑上可以跟在其它语句之后以形成有效的扩展语音的规则等。

根据可替换示范性实施例，一些或所有ASR***210可以驻留在位于远离交通工具102的位置处的计算设备(例如呼叫中心108)上，并且可以利用所述计算设备对ASR***进行处理。例如，语法模型、声学模型等可以被存储在呼叫中心108中的其中一个服务器148的存储器中和/或数据库150中，并且被传送到交通工具远程信息处理单元114以用于交通工具内的语音处理。相似地，可以使用呼叫中心108中的其中一个服务器148的处理器来处理语音识别软件。换句话说，ASR***210可以驻留在远程信息处理***114内或者以任何期望的方式分布于呼叫中心108和交通工具102之间。

首先，从交通工具乘员向麦克风132说的人类语音中提取声学数据，其中麦克风132将话语转换成电信号并且将这样的信号传输给声接口133。麦克风132中的声响应元件作为空气压力中的变化来捕获乘员的语音话语，并且将该话语转换成模拟电信号(例如直流电流或电压)的相应变化。声接口133接收该模拟电信号，该电信号首先被采样使得在离散的时刻捕获模拟信号的值，然后被量化使得模拟信号的幅度在每个采样时刻被转换成连续的数字语音数据流。换句话说，声接口133将模拟电信号转换成数字电信号。数字数据是二进制比特，其被缓冲在远程信息处理存储器122中，然后由远程信息处理处理器116处理或者可以在它们最初被处理器116接收到时实时处理。

其次，预处理器模块212将连续的数字语音数据流变换成离散的声学参数序列。更详细地，处理器116运行预处理器模块212以将数字语音数据分割成例如10-30ms持续时间的重叠语音或声学帧。这些帧对应于声学子词，例如音节、半音节、音素、双音素、音位等等。预处理器模块212也执行语音分析，以从每一帧内的乘员的语音中提取声学参数，例如时变特征矢量。乘员语音内的话语可以被表示为这些特征矢量的序列。例如，并且如本领域技术人员公知的，特征矢量可以被提取并且可以包括例如声调、能量分布曲线、频谱属性和/或可以通过执行帧的傅立叶变换以及使用余弦变换将声谱去相关而得到的倒谱(cepstral)系数。覆盖特定持续时间的语音的声学帧和相应的参数被串接成要被解码的语音的未知测试模式(test pattern)。

然后，处理器运行解码器模块214以处理每个测试模式的输入特征矢量。解码器模块214也被称为识别引擎或分类器，并且使用存储的已知的语音参考模式。就像测试模式一样，参考模式被定义为相关的声学帧和对应参数的串接。解码器模块214将要认出的子词测试模式的声学特征矢量与存储的子词参考模式进行比较和对照，估计它们之间的差别或相似性的程度，以及最终使用判决逻辑来选择最匹配的子词作为认出的子词。一般来说，最匹配的子词是与存储的已知参考模式对应的、与测试模式具有最小的相异性或者是测试模式的可能性最高的子词，所述测试模式是通过本领域技术人员公知的各种技术中的任何一种分析并认出子词来确定的。这样的技术可以包括动态时间规整(time-warping)分类器、人工智能技术、神经网络、自由音位识别器和/或概率模式匹配器(例如隐马尔可夫模型(HMM)引擎)。

本领域技术人员公知HMM引擎用于产生声学输入的多个语音识别模型假设。在通过语音的特征分析最终识别并选择代表声学输入的最有可能的正确解码的识别输出时，考虑该假设。更详细地，HMM引擎例如通过应用贝叶斯定理产生以子词模型假设的“N-best”列表为形式的统计模型，该子词模型假设是根据HMM计算的置信值或者给定一个或另一个子词的情况下声学数据的观察序列的概率而排序的。

对于声学特征矢量的给定观察序列，贝叶斯HMM过程识别与最可能的话语或者子词序列对应的最佳假设，并且其置信值可以取决于各种因素，包括与输入声学数据相关的声学信噪比。HMM也可以包括被称为对角高斯混合(mixture of diagonal Gaussian)的统计分布，其对于每个子词的每个观察的特征矢量生成似然分数(likelihood score)，这些分数可以用来对假设的N-best列表进行重新排序。HMM引擎也可以识别并选择其模型似然分数最高的子词。为了识别词，用于子词序列的各个HMM可以被串接以建立词HMM。

语音识别解码器214使用合适的声学模型、语法和算法来处理特征矢量，以产生参考模式的N-best列表。这里所用的术语“参考模式”可与参考的模型、波形、模板、富集(rich)信号模型、样本(exemplar)、假设或者其它类型的参考互换。参考模式可以包括一系列代表词或子词的特征矢量，并且可以基于具体的说话者、说话风格和可听环境条件。本领域技术人员应当认识到，参考模式可以通过ASR***的合适的参考模式训练产生并且存储在存储器中。本领域技术人员还应当认识到，所存储的参考模式可以***纵，其中基于ASR***的参考模式训练和实际使用之间的语音输入信号的差异来适配参考模式的参数值。例如，可以基于来自不同交通工具乘员或不同声学条件的有限量的训练数据，将为一个交通工具乘员或一定的声学条件训练的一组参考模式修改并保存为用于不同的交通工具乘员或不同的声学条件的另一组参考模式。换句话说，参考模式不一定是固定的，并且可以在语音识别期间进行调整。

使用词汇内语法(in-vocabulary grammar)和任何合适的解码器算法和声学模型，处理器从存储器中访问解释测试模式的几个参考模式。例如，处理器可以产生N-best词汇结果或参考模式的列表以及相应的参数值，并将其存储到存储器。示范性参数值可以包括词汇的N-best列表中的每个参考模式的置信分数和相关的分段持续时间(segment duration)、似然分数、信噪比(SNR)值等等。可以按参数值的幅度的降序对词汇的N-best列表进行排序。例如，具有最高置信分数的词汇参考模式是第一最好参考模式，等等。一旦建立了所认出的子词串，则它们可以用来利用来自词模型222的输入构建词，并且利用来自语言模型224的输入构建语句。

最后，后处理器软件模块216接收来自解码器模块214的输出数据，以用于任何合适的目的。例如，后处理器模块216可以用来将声学数据转换成文本或数字，以用于ASR***的其它方面或其它交通工具***。在另一个示例中，后处理器模块216可以用来向解码器214或预处理器212提供训练反馈。更详细地，后处理器216可以用来训练解码器模块214的声学模型，或者训练预处理器模块212的适配参数。

根据状况的语音识别方法

这里提供了根据状况的语音识别方法，并且可以使用上述远程信息处理***100的操作环境下的ASR***210的架构来将该方法执行为一个或多个计算机程序。本领域技术人员也应当认识到，可以使用其它操作环境下的其它ASR***来执行该方法。

提供该方法以通过基于语音识别时交通工具内发生的特定状况来提供对认出的语音的较好的歧义消除，从而提高具备ASR能力的交通工具控制器的性能。在任意给定时间交通工具内发生的状况可以提供对用户使用ASR的意图的了解。具体来说，用户自己在交通工具内的动作可以提供对用户意图的特别好的了解。换句话说，该方法评估用户语音正被认出和应用的环境。

一般来说，监控与各种交通工具功能相关的各种参数作为当前交通工具状况的指示。另外，当所监控的与交通工具功能相关的交通工具参数满足预定标准时，该交通工具功能被识别为用户预期的ASR控制的候选者。因而，通过这样的改进可以提高交通工具控制器的性能，因为其能够增加所认出的语音将被应用于用户预期的交通工具功能的可能性。图3示出了示范性的根据状况的语音识别方法300，下面将详细讨论。

在步骤305中，方法300以任何合适的方式开始。例如，可以通过用户按下远程信息处理***100的远程信息处理单元114的激活按钮130来启动ASR会话，以开始用户输入可以由工作在语音识别模式下的远程信息处理单元114翻译的口头请求的会话。使用扬声器134，远程信息处理单元114可以通过播放声音或提供对来自用户或乘员的命令的口头请求，来确认该按钮激活。根据另一方面，ASR***210可以连续地和被动地监控用户语音，以使得用户不需要通过手动按钮按压来单独并主动地启动ASR。这种类型的监控和自动ASR激活对本领域技术人员来说是公知的。

在步骤310，监控与多个交通工具功能相关的多个参数作为当前交通工具状况的指示。例如，并且参照图4，可以使用任何交通工具设备410，并且可以监控与这些设备410以任何方式相关的任何参数。这里所用的短语“交通工具功能”可以包括不同的交通工具设备或一个或多个不同的交通工具设备的不同功能。

如图4所示，交通工具设备410可以与任何合适的交通工具控制器412进行通信，该交通工具控制器412可以包括一个或多个合适的处理器414、耦合到处理器414的任何合适类型的存储器416、以及耦合在处理器414与交通工具设备410和ASR***210之间的合适的输入/输出接口418。交通工具控制器412可以是交通工具携带的任何类型的任何计算设备，例如引擎或传动系控制器、仪表面板控制器等等中的一个或多个。

可以由交通工具控制器412使用任何合适的硬件、软件和/或固件来监控交通工具功能参数。例如，交通工具设备410可以包括集成的传感器(未示出)或单独的传感器(未示出)。在另一个示例，控制器412可以轮询(poll)交通工具设备410的处理器或存储器，以得到指示交通工具功能参数的数据，例如设备的开/关状态，或者与用户与设备的交互相关的数据，例如外部设备的连接/未连接状态、自从用户上次调整设备以来消逝的时间，以及任何其它数据。

示范***通工具设备可以包括：媒体设备，例如无线电设备、电视机、视频播放器等；气候控制设备，例如空调、加热器、风扇、通风口等；门锁；窗户；镜子；方向盘；座椅；拭窗器；内部和外部灯；时钟；远程通信设备，例如电话、远程信息处理单元等；导航设备，例如全球定位***(GPS)头、接收器等；信息设备，例如因特网浏览器等；风窗除霜器；座椅加热器；燃料门释放装置(fuel door release)；车箱和车盖释放装置(trunk and hood release)；旅程计算机；等等，这里就不一一列举了。

示范性的监控的参数可以包括交通工具设备和外部设备之间的连接状态，该外部设备例如以无线方式或其它方式刚刚连接到交通工具无线电设备的MP3播放器。另外，可以监控由气候控制***的温度传感器感测的温度值。其它示例参数可以包括设备的开/关信号、音量和/或音量设置、温度和/或温度设置、设备速度和/或速度设置、设备位置和/或位置设置、亮度等级(light level)和/或等级设置、时间和/或时间设置、和/或交通工具位置和/或位置设置，还有很多，这里就不一一列举了。另外，可以仅监控参数自身，或者可以监控作为一些其它参数的函数的参数。例如，可以监控作为时间的函数的参数，例如与连接或断开连接之后消逝的时间相结合的一台电子设备相对于另一台的连接状态。

在步骤315，并且再参照图3，对于用户预期的ASR控制，识别至少一个交通工具功能。例如，来自步骤310的交通工具功能中的一个或多个可以被识别为用户预期的用于ASR控制的功能，例如，当与多个交通工具功能中的至少一个相关的被监控的多个参数中的至少一个满足预定标准时。

在一个详细示例中，当用户最近通过有线方式或者通过将具备无线通信能力的MP3播放器放置在适当靠近具备无线通信能力的交通工具无线电设备的地方等将MP3播放器连接到交通工具无线电设备时，交通工具无线电设备可以被识别为ASR控制的候选者。在这样的情况下，可以推断出如果在连接之后的预定时间量内接收到任何用户语音，则用户想要用声音控制MP3播放器，而不是一些其它的交通工具设备，例如远程信息处理***或气候控制***。

在另一个具体示例中，如果交通工具内部温度被监控并且被确定为在一定的高温阈值之上，则空调可以被识别为语音识别控制的候选者。

因而，预定标准可以是设备连接或者其它事件的存在或不存在、设备开或关信号、或者设备的另一个状态信号，例如温度值、风扇设置、窗户打开量等。代替地或附加地，预定标准可以是时间相关的，例如在事件发生之后消逝的时间，该事件例如用户与交通工具设备的交互。该预定标准可以包括单个阈值参数值、值的范围等等。

在步骤320，交通工具内的音频可以被ASR***以任何合适方式监控以用于用户语音。例如，ASR***210可以被调整以使得麦克风132被激活并且准备接收用户话语。

在步骤325，可以提示用户说出请求或者可以开始对监听的ASR***说话。在一个示例中，ASR***210可以播放记录的提示(例如“准备”)，或者可以播放哔哔声、闪烁灯等等。在另一个示例中，ASR***210可以连续监控用户语音。无论在哪种情况下，用户可以例如通过讲出诸如“拨号”或“播放”或“激活”的命令并接着讲出诸如具体的电话号码或者歌曲的名称或设备功能的变量来输入请求。

在步骤330，ASR***接收用户语音。例如，ASR***210可以使用ASR***210的激活的麦克风132、处理器116和存储器122接收来自用户的话语。一旦接收到，则转换器133可以将模拟用户语音转换成声学数据，该声学数据可以被保存到存储器122中。

在步骤335，接收到的用户语音可以被预处理。例如，来自步骤330的声学数据可以由ASR***210的预处理器212进行预处理，以从中提取任何合适的声学特征。

在步骤340，预处理后的用户语音被解码。例如，与来自步骤335的用户话语对应的声学特征可以被ASR***210的解码器214解码，以产生包括识别结果、假设等等的任何合适的输出。更详细地，解码器214可以使用语音识别模型218、220、222和224中的一个或多个来解码预处理后的声学数据。

在具体示例中，模型218、220、222和224每一个都可以包括与多个不同的交通工具功能对应的多个不同的模型版本。更详细地，多个不同的语法模型218可以用于多个不同的交通工具功能，以使得例如无线电专用语法模型可以对应于无线电设备，远程信息处理专用语法模型可以对应于远程信息处理单元，等等。相似地，多个不同的设备专用的声学、词和语句模型可以与相应的交通工具功能相关。

在步骤345，使用认出的语音数据来控制交通工具功能。例如，可以使用在步骤340中解码的语音数据来控制步骤315中识别的交通工具功能。在具体的示例中，可以使用在用户将MP3播放器连接到无线电设备之后的预定时间内接收到的语音数据来控制交通工具无线电设备。在另一个详细示例中，可以使用在交通工具内的温度高于或低于预定极限时接收到的语音数据来控制交通工具气候控制***。

如上所述，图3的过程可以使用基于识别的、交通工具操作者可能正与其进行交互的交通工具功能而选择的不同的语音识别模型。这可以提供接收到的语音之间的歧义消除，作为语音识别过程本身的一部分。也就是说，通过基于识别的交通工具功能选择语法模型，所选择的具体模型将在适合于所识别的交通工具功能的环境下解释接收到的语音，并且在进行这个的过程中，将自然地帮助消除语音的歧义。

在另一个实施例中，如图5所示，在不考虑任何识别的交通工具功能的情况下执行语音识别；相反，当在语音识别之后需要消除接收到的语音在两个或更多个候选者可能性之间的歧义时使用识别的交通工具功能。方法500开始于步骤505，在其后，在步骤510开始监控交通工具功能参数。当该过程识别可能影响ASR控制的交通工具功能时(例如，识别用户已与其进行交互的交通工具设备)，如步骤515所示，其记录该发生以用于随后在操作者开始ASR会话的情况中使用。例如，如果用户将MP3播放器连接到音频***，则***注意到该事件。然后，在步骤520一旦开始ASR会话，则在步骤525用户说出命令，语音识别***210处理接收到的语音以认出各个词，如步骤530所示。例如，当用户说“letme hear some Traffic”时，ASR***210处理语音并且识别相关的部分“hear traffic”。此时，基于所识别的(和所存储的)交通工具功能来执行歧义消除，在该示例中该交通工具功能是音乐播放器到音频***的连接。这如步骤535所示。因而，在该示例中，认出的词“heartraffic”被认为是播放乐队组合Traffic的音乐的命令，而不是获得并且可听地展示当地交通报告的命令。基于该歧义消除，***然后采取适当的动作，如步骤540所示。该动作可以是例如自动执行所选择的(消除歧义后的)命令，或者在进行之前请求来自用户的对所选择的命令的确认。一旦采取了合适的动作，该过程结束。

应当理解，前面的描述不是对本发明的限定，而是对本发明的一个或多个优选示范性实施例的描述。本发明不限于这里所公开的具体实施例，而是仅由下面的权利要求书来限定。此外，在前面的描述中包含的陈述涉及具体实施例，并且不应当被理解为限制本发明的范围，或者限制权利要求中所用的术语，除了上面明确地定义了术语或短语。对所公开的实施例的各种其它实施例和各种改变和修改对本领域技术人员是显而易见的。例如，接收到的语音的歧义消除可以不仅仅基于识别的交通工具功能或设备，而是可以部分地基于所识别的交通工具功能或设备并基于其它因素。例如，在图3中，识别的交通工具功能可以用来在不同的可用语音识别模型之间选择，但是合适的模型的选择也可以基于其它因素，例如以考虑地方方言。所有这样的其它实施例、改变和修改意图落入所附权利要求书的范围之内。

在该说明书和权利要求书中，当与一个或多个部件或其它条目的列举结合使用时所用的术语“例如”和“诸如”，以及动词“包括”、“具有”和“包含”以及它们的其它动词形式，每一个都应当被理解为开放的，意思是该列举不应当被认为排除其它、另外的部件或条目。应当使用它们最宽的合理的意思理解其它术语，除非它们被用在需要不同解释的语境之下。

Claims

1、一种在交通工具内根据状况的语音识别方法，该方法包括以下步骤：

监控与多个交通工具功能有关的多个参数，作为当前交通工具状况的指示；以及

当所监控的与所述多个交通工具功能中的至少一个有关的多个参数中的至少一个参数符合预定标准时，识别至少一个交通工具功能，作为用户预期的ASR控制的候选者。

2、如权利要求1所述的方法，还包括以下步骤：

接收用户语音；

预处理该用户语音；

将该经过预处理的语音解码成认出的语音数据；以及

使用所认出的语音数据控制所识别的至少一个交通工具功能。

3、如权利要求2所述的方法，其中所述经过预处理的语音是通过应用与所述多个交通工具功能中的至少一个有关的至少一个语音识别模型来解码的。

4、如权利要求1所述的方法，其中，所述多个参数包括用户启动的事件。

5、如权利要求4所述的方法，其中，所述用户启动的事件包括外部设备到交通工具设备的连接。

6、一种基于用户与交通工具的交互在该交通工具内根据状况的语音识别方法，该方法包括以下步骤：

接收来自用户的语音；

预处理所接收到的语音；

将该经过预处理的语音解码成认出的语音数据；

监控由该用户交互的多个交通工具设备；

如果该用户已在预定的逝去时间内与一个交通工具设备交互，则识别用于用户预期的ASR控制的交通工具设备；以及

使用所认出的语音数据控制所识别的交通工具设备。

7、如权利要求6所述的方法，其中，所述经过预处理的语音是通过应用与所识别的交通工具设备有关的至少一个语音识别模型来解码的。

8、如权利要求6所述的方法，其中，所述用户交互包括外部设备到交通工具设备的连接。

9、一种基于用户与交通工具的交互在该交通工具内根据状况的语音识别方法，该方法包括以下步骤：

监控由用户交互的多个交通工具设备；

基于用户与交通工具设备的交互识别用于用户预期的ASR控制的该交通工具设备；

接收来自用户的语音；以及

10、如权利要求9所述的方法，其中，该消除歧义步骤还包括使用至少部分基于所识别的交通工具设备而选择的语音识别模型来认出该语音。

11、如权利要求9所述的方法，其中，该消除歧义步骤还包括使用ASR***认出该语音，然后至少部分基于所识别的交通工具设备来确定两个或更多个潜在命令中的哪一个是用户预期的。

12、如权利要求9所述的方法，还包括步骤：使用所认出的语音数据来控制所识别的交通工具设备。

13、如权利要求9所述的方法，还包括步骤：在所述消除歧义步骤之前预处理接收到的语音。

14、如权利要求9所述的方法，其中，该监控步骤还包括监控外部设备到所述交通工具设备之一的连接。