CN101354887B

CN101354887B - 用在语音识别中的环境噪声注入方法

Info

Publication number: CN101354887B
Application number: CN2008101335007A
Authority: CN
Inventors: R·切高尔瓦雷恩; T·J·格罗斯特
Original assignee: General Motors Co
Current assignee: Motors Liquidation Co
Priority date: 2007-07-25
Filing date: 2008-07-25
Publication date: 2011-08-03
Anticipated expiration: 2028-07-25
Also published as: US7881929B2; DE102008034143A1; US20090030679A1; CN101354887A; DE102008034143B4

Abstract

本发明涉及用在语音识别中的环境噪声注入。公开了一种用在生产车辆中的语音识别的环境噪声注入方法。该方法包括以下步骤：监控包括用户语音在内的音频；接收来自所述用户语音的发音；检索车辆特有环境噪声；和在预处理及解码所述发音之前，将所述车辆特有环境噪声前加给所述发音。

Description

用在语音识别中的环境噪声注入方法

技术领域

本发明涉及语音信号处理，并且更具体地涉及自动语音识别(ASR)。

背景技术

ASR技术使配备有麦克风的计算装置能够解释语音，从而提供诸如键盘或小键盘的传统的人机输入装置的可选方案。典型的ASR***包括几个基本元件。麦克风和声学接口接收用户说出的字的发音，并将该发音数字化为声学数据。声学预处理器将该声学数据解析为带有信息的声学特征。解码器使用声学模型将声学特征解码为发音假设。解码器为每种假设生成置信度值来反映每种假设从语音上与每个发音的子字(subword)相匹配的程度，并为每个子字选择最佳假设。解码器使用语言模型将子字连接到与用户说出的字对应的输入字中。

ASR***准备好接收命令之前，该***的用户有时向ASR***说出命令。例如，用户启动ASR***，***播放“准备好(Ready)”提示符，表明***准备好接收命令，短时间后***启动能够接收并记录命令的监听周期。所以如果用户在监听周期开始之前过早地发出命令，则***只听到所说出命令的一部分，因此难以理解该发音。

本发明人发现过早发出命令致使ASR参数失调。ASR解码器假定在Ready提示符之后的最初几个声学数据帧仅仅是环境噪声。所以当最初的那几个帧实际包含部分发音时，噪声抑制、信道补偿及语音/无声检测参数的实际值与期望的参数值偏离。这种偏离导致包括解码器重调的加长超时周期，重放Ready提示符出现“请放慢速度(Slower Please)”的错误回答。本发明人还发现这种长延时加剧了该问题，使用户讲话更早更大声。

发明内容

本发明提供了一种用于生产车辆(production vehicle)中的语音识别的环境噪声注入方法。根据一个实施例，该方法包括以下步骤：

监控包括用户语音的音频；

接收来自所述用户语音的发音；

检索(retrieve)车辆特有(vehicle-specific)环境噪声；和

在预处理及解码所述发音之前，将所述车辆特有环境噪声前加(prepend)给所述发音。

该方法通过处理音频提高了语音识别性能，使得语音识别解码不会变得失调。

附图说明

下面将结合附图对本发明的优选示范性实施例进行描述，图中相同的附图标记表示相同的元件，其中：

图1是描绘远程信息处理(telematics)***的示例的框图，该远程信息处理***可用来实现示范性的语音识别方法；

图2是图解说明示例ASR体系架构的框图，该ASR体系架构可以被嵌入在图1的远程信息处理***中，并用来实现示范性的语音识别方法；

图3是示范性环境噪声注入方法的实施例的流程图，该方法可使用图1和图2的远程信息处理***和ASR体系架构来执行；

图4是示范性的车辆特有环境噪声收集方法的实施例的流程图，该方法可使用图1和图2的远程信息处理***和ASR体系架构来执行；和

图5是示范性的车辆特有环境噪声检索方法的实施例的流程图，该方法可使用图1和图2的远程信息处理***和ASR体系架构来执行。

具体实施方式

示范性的操作环境在图1中示出，该示范性操作环境可用来实现本公开的环境噪声注入方法以改进语音识别。可使用任何适当的远程信息处理***来执行本方法，并且优选地结合如***100的车辆远程信息处理***来执行本方法。本领域技术人员会认识到***100的总体体系架构、装置、操作和各个部件在本领域是广为人知的。因此，虽然以下***描述仅是对这样一个示范性远程信息处理***的简要概述，但是这里未示出的其它***和部件也支持本公开的方法。

示范性的远程信息处理***100包括车辆102和无线通信***104，车辆102用来运送一个或多个乘客或用户，无线通信***104用来提供与车辆102的双向无线通信。并且，***100可以包括第二通信***106，用于使无线通信***104与web服务器(未示出)和/或向车辆102提供服务的***100的呼叫中心108进行通信。

***100通常可为车辆乘客提供一种或多种适当服务，如车辆导航、转弯驾驶方向(turn-by-turn driving direction)、信息娱乐、紧急服务、车辆诊断、车辆***更新和使用自动语音识别的免提电话和车辆交互。为此目的，***100处理数据和指令，并促进无线话音和数据在位于车辆102上的硬件和远程呼叫中心108的硬件之间的传输。例如，***100使得车辆乘客能够发起与呼叫中心108或服务中心111的话音通信。

车辆

在所图示的实施例中将车辆102描绘为客车，应该认识到可使用包括摩托车、船舶、飞机、旅行车和其它汽车(如货车、卡车等)的任何其它车辆，而不偏离本发明的范围。各种电子模块可位于车辆102上，并可包括一个或多个车辆***模块(VSM)110、车载车辆通信总线112和由总线112连接至VSM 110的一个或多个车辆远程信息处理单元114。

VSM 110便于实现任何适当的车载功能，如车辆诊断、监控、控制、报告和/或其它功能。例如，VSM 110可用来控制发动机运转、监控并部署气囊或其它安全装置和/或经由各种车辆传感器诊断车辆***。VSM110广义上代表任何软件、电子器件或机电子***以及车辆中与远程信息处理单元114交互的相关传感器或其它部件。在特定示例中，如果呼叫中心108向车辆102发送打开车门的信号，则远程信息处理单元114命令机电门锁VSM打开车门。

车辆通信总线112便于各个车辆***(如VSM 110和/或远程信息处理单元114)之间的交互，并且使用任何适当的网络通信配置，而不管是有线的还是无线的。适当的接口可以被***到总线112和各个车辆***之间。如这里使用的，术语接口广义上指任何适当形式的电子装置或适配器，或者甚至是使得一台设备能够与另一台设备通信或控制另一台设备的软件模块或适配器。总线的一些例子包括控制器局域网(CAN)、媒体定向***传输(MOST)、本地互连网(LIN)、以太网(10baseT，100baseT)、局域网(LAN)、无线局域网(WAN)和/或任何适当的国际标准组织(ISO)或汽车工程师协会(SAE)通信标准。

车辆远程信息处理单元114便于在车辆102或其乘客和包括呼叫中心108的各个远程位置之间的通信和其它服务。远程信息处理单元114经由车辆通信总线112与各个VSM 110对接(interface)。远程信息处理单元114可以任何适当配置实施，并可包括处理器116、经由一个或多个天线120与车辆102进行双向无线通信的通信装置118、存储计算机程序124和/或一个或多个数据库126的存储器122和用户接口128。远程信息处理单元114还包括用于在上述装置之间互相通信的一个(或多个)任何适当接口。

尽管在图1中将远程信息处理单元114描绘为单独的各个模块，但本领域技术人员会认识到它的许多部件可以集成在一起，或与其它车辆***集成和/或分享。例如，存储器122可以被合并到处理器116中，或位于远程信息处理单元114的外部并为一个或多个其它车辆***(如车辆中央处理单元)共享。尽管显示的VSM 110与远程信息处理单元114分开，但这些VSM 110的任何组合可能被集成在远程信息处理单元114内。而且，远程信息处理单元114可包括未显示的附加单元，或可省去所示的一些部件。

远程信息处理器116是用本领域技术人员已知的各种方式中的任何一种方式实现的，如实现为控制器、微处理器、微控制器、主处理器、车辆通信处理器、专用集成电路(ASIC)或其它任何合适的处理器类型的形式。可选地，处理器116可结合执行通用计算机的功能的中央处理单元(未显示)进行工作。处理器116可以与其它适当的装置和/或模块(未显示)关联，所述适当的装置和/或模块诸如提供准确日期和时间信息的实时时钟装置和/或跟踪时间间隔的定时器模块。

处理器116执行存储在存储器122中的一个或多个程序124以实现各种功能，如***监控、数据处理和使远程信息处理单元114与VSM 110、车辆乘客和远程位置之间进行通信。例如，处理器116可执行一个或多个控制程序及处理程序和/或数据以能够单独或与呼叫中心108结合实现环境噪声注入方法。在另一个示例中，处理器116控制、生成并接受在远程信息处理单元114和呼叫中心108之间、远程信息处理单元114和连接到各VSM 110的车辆通信总线112之间传输的信号。在一种模式中，这些信号用来激活VSM 110的编程模式和工作模式。

远程信息处理存储器122可以是提供数据和程序的计算机可读存储以供处理器116使用的任何电子存储装置。存储器122可包括易失性和 /或非易失性存储装置，如RAM、NVRAM、硬盘、闪存和/或类似装置，并且存储器122可被实现为一个或多个单独的物理装置。程序124包括由处理器116作为指令执行以实现远程信息处理单元114的各个功能的一个或多个计算机程序，所述功能诸如发消息、诊断、通信、语音识别等。例如，驻存在存储器122中并由处理器116执行的程序124可以用来实现环境噪声注入方法。数据库126可用来存储消息数据、诊断故障代码数据或其它诊断数据、车辆数据上载(VDU)记录、事件激活表、语音识别数据等。数据库126可以被实施为数据库表，其使得能够对存储于数据库126中的数据进行查找，并且这可使用已知的索引技术、数据库查询、在这种表中的直接顺序搜索和/或其它任何适当的存储和查找技术来实现。

远程信息处理通信装置118和相关的天线120向无线通信***104发送话音和数据，并从无线通信***104接收话音和数据，使得远程信息处理单元114能与呼叫中心108通信，例如经由第二通信***106与呼叫中心108通信。通信装置118经由蜂窝式、卫星和/或其它无线路径提供这种无线通信，并且通信装置118可促进话音和/或数据通信，其中话音信号和数据信号都可以在话音信道上发送和接收，并且/或者反之亦然。本领域技术人员会认识到通信装置118可以通过合并在蜂窝芯片组中的声码器或语音编解码器应用任何适当类型的编码或调制以转换数字数据用于通信，来在声音信道上发送接收数据。可以使用提供可接受的数据速率和误码率的任何适当的编码或调制技术。通信装置118可包括如下讨论的任何其它适当模块。

通信装置118可包括含有通信软件和诸如无线调制解调器和/或移动电话之类的硬件的电话通讯模块。该移动电话可以是任何适当的无线电话通讯装置，如可以是模拟的、数字的、双模式、双频带、多模式和/或多频带的移动电话。移动电话可包括单独的处理器和存储器和/或标准蜂窝芯片组。而且，移动电话可使用任何适当的蜂窝技术，如高级移动电话***(AMPS)，码分多址(CDMA)、时分多址(TDMA)、全球移动通信***(GSM)等，但也可采用专有的技术或其它无线技术以与无线通信***104通信。

远程信息处理用户接口128包括一个或多个输入和输出接口以从远程信息处理用户处接收输入或向其发送输出。如本文使用的，术语“用户”包括远程信息处理服务订户、包括驾驶员和乘客在内的车辆乘客等。并且，如本文使用的，术语“用户接口”广义上指任何适当形式的电子装置或适配器，或者甚至是使得车辆乘客与另一台设备通信或控制另一台设备的软件模块或适配器。用户接口128可包括车辆中分布的各个部件，和/或可以集成为单个单元，如人/机接口(HMI)、多媒体中心等。多媒体中心可接收并存储内容的下载，所述内容诸如音乐、网页、电影、电视节目、视频游戏等，用于当前或延迟重放。

输入接口可包括一个或多个触觉装置130、一个或多个麦克风132或任何其它类型的输入技术。首先，触觉输入装置130使得车辆乘客能够激活远程信息处理单元114的一个或多个功能，并可包括位于车辆102内的车辆乘客可到达范围中的一个或多个按钮开关、小键盘、键盘或其它适当输入装置。例如，触觉输入装置130可用来发起与远程位置的远程通信和/或发起车辆更新、诊断等，所述远程位置如呼叫中心108或移动电话。其次，麦克风132允许车辆乘客向远程信息处理单元114提供语音输入(vocal input)，并使得能够通过通信装置118与各个远程位置进行语音通信。来自车辆乘客的语音输入可使用麦克风132和处理器116之间的诸如声卡(未示出)的模拟-数字接口和/或数字信号处理器，以及存储在存储器122内的话音语音识别程序及数据来解释。

输出接口可包括一个或多个扬声器134、诸如液晶显示器、等离子体屏幕、触摸屏、仰视显示器(未显示)等的视觉显示装置或任何其它类型的视觉输出技术。扬声器134使得远程信息处理单元114能够传送可听语音、信号、音频文件等给车辆乘客，扬声器134可以是车辆音频***的一部分或者是专用于远程信息处理单元114的独立部件。诸如声卡(未显示)的适当接口可以***到扬声器134和远程信息处理器116之间。

通信***

通信***104、106可以单独实现，或可以组合为整体***。并且，如果有适当设备，呼叫中心108可直接与无线通信***104进行无线通信，而不需要第二***106。

无线通信***104可包括一个或多个模拟和/或数字蜂窝网络136，诸如广域网(WAN)、无线局域网(WLAN)、宽带无线区域(BWA)网络的无线计算机网络和/或用来在车辆102和诸如呼叫中心108的各个远程位置之间传送话音信号和/或数据信号的任何其它适当的无线网络。示范性的蜂窝网络136可以被实施为CDMA，GSM或能够在车辆102和第二通信***106之间交换话音和数据的其它蜂窝通信网络。网络136可包括手机塔(cell tower)、基站和/或移动交换中心(MSC)的任何适当组合。例如，仅例举几种可能布置，基站和手机塔可共同位于相同的地点，或者可彼此远离，每个基站可为单个手机塔或多个手机塔服务，各基站可耦合到单个MSC。语音编解码器或声码器可并入***104中，诸如并入一个或多个基站，但根据无线网络的特定体系架构，它可并入MSC内或一些其它网络部件中。

***104也可以或可选地通过卫星传输来执行无线通信，该卫星传输使用一个或多个卫星138经由地基卫星收发器140使车辆102与呼叫中心108通信。作为示范性的实施方式，卫星收发器140和一个(或多个)卫星138可向车辆102发射无线电信号。例如，卫星传输可以在由美国联邦通信委员会为基于卫星的数字音频无线电业务(DARS)的国家广播分配的“S”频带的频谱上广播。更具体地，可使用XMTM品牌的卫星无线电服务来进行卫星传输。

第二通信***106可以是陆基有线***，如公共电话交换网(PTSN)、网际协议(IP)网、光网络、光纤网络、电缆网和/或公用电输电线。***106也可以是类似于***104的另一个无线通信***、WAN、WLAN或BWA网络，或者前面提到示例的任意组合，任何一种都可用于或适用于话音和/或数据通信。

呼叫中心

呼叫中心108通过处理并存储数据以及与车辆102通信来向车辆102提供服务。呼叫中心108可向车辆远程信息处理单元114提供后端功能，并可包括位于一个或多个位置处的一个或多个固定或移动数据中心。呼叫中心108可包括顾问142以监控各种车辆状况，响应服务请求并提供诸如与车内安全保险***有关的远程车辆辅助的车辆服务。顾问142可被实施为真人顾问或实施为响应用户请求的自动机器或计算机程序。

呼叫中心108包括一个或多个话音和/或数据接口144，诸如有线或无线调制解调器、交换机(如专用小交换机(PBX))和/或路由器。一个(或多个)接口144例如借助车辆数据上载(VDU)在车辆远程信息处理单元114和呼叫中心108之间通过通信***104，106中的一个或两者发射并接收话音和/或数据信号。对于话音上数据(data-over-voice)通信，一个(或多个)接口144优选地应用一些类型的编码或调制来转换数字数据以用于与声码器或语音编解码器通信。

呼叫中心108可进一步包括一个或多个通信业务管理器146、处理数据的一个或多个服务器148、存储诸如订户概况(profile)和认证数据之类的用户数据的一个或多个适当的数据库150以及任何其它适当数据。呼叫中心108也可包括一个或多个诸如LAN或WLAN的有线和/或无线网络152，以将呼叫中心部件与该一个或多个顾问142使用的任何计算机连接在一起。例如，服务器148和数据库150执行并存储一个或多个控制程序和数据以单独实现或与车辆102的远程信息处理单元114结合实现改进语音识别的环境噪声注入方法。换言之，本公开的方法可以由车辆102的远程信息处理单元114实现，由呼叫中心108中的计算设备和/或人员实现，或由它们的任意组合实现。

示范性ASR***

一般，车辆乘客出于下述基本目的中的一个或多个目的与自动语音识别***(ASR)进行声音交互：训练该***理解车辆乘客的特定话音；存储离散语音，如类似数字或关键字的口头控制字或口头标志(nametag)；或出于诸如话音拨号、菜单导航、转录、服务请求等的任何适当目的识别车辆乘客的语音。通常，ASR从人的语音中提取声学数据，将该声学数据与所存储的子字数据进行比较和对照，选择可以与其它所选子字连接的合适子字，并输出所连接的子字或字以用于后续处理，如听写或转录、地址簿拨号、存储到存储器、训练ASR模型或自适应参数等。

ASR***通常为本领域技术人员所知，图2图解说明了可用来实现本公开的方法的ASR***210的特定的示范性体系架构。***210包括接收语音的装置(如远程信息处理麦克风132)和声学接口133(如远程信息处理用户接口128的声卡)以将语音数字化成声学数据。***210还包括诸如远程信息处理存储器122之类的存储器以存储声学数据及存储语音识别软件和数据库，以及包括如远程信息处理器116的处理器以处理声学数据。处理器116与存储器一起并结合以下模块起作用：前端处理器或预处理器软件模块212，用于将语音的声学数据流解析成诸如声学特征的参数化表示；解码器软件模块214，用于解码声学特征以产生对应于输入语音发音的数字子字或字输出数据；和后处理器软件模块216，以使用来自解码器模块214的输出数据用于任何适当目的。

可使用一个或多个模块或模型作为解码器模块214的输入。首先，一个(或多个)语法和/或词汇模型218可提供对哪些字从逻辑上可接在其它字后面形成有效句子进行管理的规则。广义上讲，语法可定义***210在任意给定时刻任意给定ASR模式下期望的词汇总体。例如，如果***210处在用于训练命令的训练模式，则一个(或多个)语法模型218可包括***210知道并使用的所有命令。在另一个示例中，如果***210处于主菜单模式，则一个(或多个)活动语法模型218可包括***210期望的所有主菜单命令，如呼叫、拨号、退出、删除、目录等。其次，一个(或多个)声学模型220帮助选择对应于预处理器模块212的输入的最可能的子字或字。第三，一个(或多个)字模型222和一个(或多个)句子/语言模型224提供将所选的子字或字放置在字或句子语境中的规则、句法和/或语义。同样，一个(或多个)句子/语言模型224可定义***210在任意给定时刻在任意给定ASR模式下期望的句子总体，和/或能提供对哪些句子在逻辑上可接在其它句子之后形成有效延长语音进行管理的规则等。

根据可选的示范性实施例，一些或所有ASR***210可驻存在远离车辆102的位置处(如呼叫中心108)的计算设备上，并且可使用该计算设备来处理。例如，语法模型、声学模型等可存储在呼叫中心108中的数据库150和/或其中一个服务器148的存储器中，并被传送到车辆远程信息处理单元114以用于车内语音处理。类似地，可使用呼叫中心108中的其中一个服务器148的处理器处理语音识别软件。换言之，ASR***210可以驻存在远程信息处理***114中，或以任何所需方式分布在呼叫中心108及车辆102中。

首先，从人的语音中提取声学数据，其中车辆乘客对着麦克风132讲话，麦克风132将发音转换成电信号，并将这种信号传送给声学接口133。麦克风132中的声音响应(sound-responsive)元件随气压的变化捕获乘客的语音发音，并将该发音转换成诸如直流电流或电压的模拟电信号的相应变化。声学接口133接收模拟电信号，这些模拟电信号首先被采样，使得模拟信号的值在离散时刻被捕获，之后将其量化使得模拟信号的幅值在每个采样时刻被转换成数字语音数据的连续流。换言之，声学接口133将模拟电信号转换成数字电信号。数字数据是二进制位，其缓存在远程信息处理存储器122中，之后被远程信息处理器116处理，或者可以在最初由处理器116实时地接收时即被处理。

其次，预处理器模块212将数字语音数据的连续流变换成声学参数的离散序列。更具体地，处理器116执行预处理器模块212以将数字语音数据分割成如持续时间为10-30ms的重叠表音(phonetic)帧或声学帧。这些帧对应于声学子字，如音节、半音节、单音、双音、音素等。预处理器模块212还执行语音学分析以从乘客的语音中提取声学参数，如从每一帧中提取时变特征向量。乘客语音中的发音可以表示为这些特征向量的序列。例如，如本领域技术人员已知的，特征向量可被提取，并可包括例如声音音调、能量分布曲线、谱属性和/或通过对帧进行傅立叶变换并使用余弦变换对声谱去相关可得到的倒频谱(cepstral)系数。声学帧和包含特定语音持续时间的相应参数被连接为待解码的未知语音测试模式。根据下面描述的方法，预处理器模块212还可以接收来自存储器的车辆特有环境噪声数据，所述存储器如远程信息处理存储器122或呼叫中心数据库150。

再次，处理器执行解码器模块214以处理每个测试模式的输入特征向量。解码器模块214也被称为识别引擎或分类器，并使用已存储的语音的已知参考模式。象测试模式一样，参考模式被定义为相关声学帧和相应参数的连接。解码器模块214将待识别的子字测试模式的声学特征向量和所存储的子字参考模式进行比较和对照，评估差值的幅度或它们之间的相似性，并最终使用决策逻辑来选择最佳的匹配子字为所识别的子字。通常，最佳匹配子字是对应于所存储的已知参考模式、相比测试模式具有最小的非相似性或者是测试模式的可能性最高的子字，所述测试模式是本领域技术人员已知的分析和识别子字的各种技术中的任何一种技术确定的。这类技术可以包括动态时间弯曲分类器、人工智能技术、神经网络、自由音素识别器和/或如隐马尔可夫模型(HMM)引擎的概率模式匹配器。

HMM引擎对于本领域技术人员是已知的，用来产生声学输入的多个语音识别模型假设。在通过语音的特征分析最终识别并选择表示最可能正确的声学输入解码的那个识别输出时，考虑该假设。更具体地，HMM引擎生成以子字模型假设的“N个最佳(N-best)”列表为形式的统计模型，该子字模型假设的N个最佳列表是根据HMM计算的置信度值或在给定一个或另一个子字的情况下诸如由应用贝叶斯定理得出的所观察到的声学数据序列的概率进行分等级(rank)的。

贝叶斯HMM过程针对于声学特征向量的给定观察序列识别对应于最可能的发音或子字序列的最佳假设，并且最佳假设的置信度值可取决于包括与输入声学数据相关的声学信噪比的各种因素。HMM还可包括称为混合对角高斯(mixture of diagonal Gaussian)的统计分布，它为每个子字的每个观察到的特征向量产生似然得分(likelihood score)，该似然得分可用来重新排序假设的N个最佳列表。HMM引擎还可识别并选择其模型的似然得分最高的子字。为了识别字，子字序列的各个HMM可被连接以建立字HMM。

语音识别解码器214使用合适的声学模型、语法和算法处理特征向量以生成参考模式的N个最佳列表。如本文所使用的，术语“参考模式”与模型、波形、模板、纯信号(rich signal)模型、样本、假设或其它参考类型可互换。参考模式可包括一系列表示字或子字的特征向量，并可基于特定的讲话者、讲话风格及可听环境条件。本领域技术人员会认识到参考模式可通过ASR***的适当参考模式训练来生成，并可存储在存储器中。本领域技术人员还会认识到所存储的参考模式可***纵，其中参考模式的参数值可基于参考模式训练和ASR***的实际使用之间的语音输入信号的差来修改。例如，为一个车辆乘客或特定声学条件训练的一组参考模式可基于来自不同车辆乘客或不同声学条件的有限的训练数据量被修改，并保存为用于该不同车辆乘客或不同声学条件的另一组参考模式。换言之，参考模式不必是固定的，并且可以在语音识别过程中进行调节。

使用词汇内的(in-vocabulary)语法和任何适当的解码器算法以及一个(或多个)声学模型，处理器从存储器访问解释测试模式的几个参考模式。例如，处理器能生成一列N个最佳词汇结果或参考模式及相应的参数值，并将它们存储到存储器中。示范性的参数值可包括在N个最佳词汇列表和相关片段持续时间(segment duration)中的每个参考模式的置信度分数、似然得分、信噪比(SNR)值等。可按照一个(或多个)参数值的幅值的降序来对N个最佳词汇列表进行排序。例如，具有最高置信度分数的词汇参考模式是第一最佳参考模式，以此类推。一旦建立了一连串被识别的子字，就可以使用这些子字用来自字模型222的输入构建字，并且用来自语言模型224的输入构建句子。

最后，后处理器软件模块216接收来自解码器模块214的输出数据以用于任何适当目的。例如，可以用后处理器模块216将声学数据转换成文本或数字以用于ASR***的其它方面或其它车辆***。在另一个示例中，可使用后处理器模块216来向解码器214或预处理器212提供训练反馈。更具体地，可使用后处理器216来为解码器模块214训练声学模型，或者为预处理器模块212训练自适应参数。

环境噪声注入方法

本文提供了一种用于生产车辆中的语音识别的环境噪声注入方法，并且通过使用上述远程信息处理***100的操作环境内的ASR***210的体系架构可以将该方法实现为一个或多个计算机程序。本领域技术人员还可认识到可使用其它操作环境内的其它ASR***来实现本方法。

通过将车辆特有环境噪声前加到用户发音，所提供的方法可提高语音识别性能，使得语音识别解码不会变得失调。通常，监控包括用户语音的音频，接收来自用户语音的发音，检索车辆特有环境噪声，并在预处理和解码该发音之前将其附加到该发音。因此，由于声学数据流被注入了车辆特有环境噪声来抵消过早发出的发音对解码器的降级效应，所以语音识别性能可通过这种改进而得以提高。

图3图解说明用于车内语音识别的示范性环境噪声注入方法，该方法将在下文详细描述。

在步骤305，可发起ASR会话。例如，用户可按下远程信息处理***100的远程信息处理单元114的激活按钮来发起当前的ASR会话。

在步骤310，可提示用户说出命令或以其它方式开始与ASR***的对话。例如，ASR***210可播放所记录的提示，如“准备好(Ready)”或可播放蜂鸣声，闪灯等。

在步骤315，用户可开始对ASR***讲话，或输入发音到ASR***。例如，用户可以说出诸如“拨号”或“呼叫”的命令。有时，用户讲话发生在提示这样做的提示完成之前，或者发生在ASR***210开始监听用户语音的周期之前。这种过早的发音可导致下游解码过程失调，除非如下文所述采取措施。

在步骤320，ASR***可监控音频，使得来自用户的发音可以由ASR***接收。例如，来自步骤315的用户发音的全部或一部分可由ASR***210接收。更具体地，当用户过早地发音时，只有一部分用户发音被接收到，如接收到“号”而不是“拨号”或接收到“叫”而不是“呼叫”。

在步骤325，可确定从用户接收的语音是否是第一发音。例如，可确定用户的发音是否是车辆购买之后输入到ASR***210的第一发音，或者是否是当前ASR会话的第一发音输入，等等。如果该确定是肯定的，则该方法前进到步骤330，否则前进到步骤365。

在步骤330，可选择车辆特有环境噪声。例如，使用图4举例说明并且下面描述的方法400可选择至少一个车辆特有环境噪声帧。

在步骤335，车辆特有环境噪声被注入到所接收的音频中，使得该噪声被前加到用户发音。例如，步骤330中所选择的车辆特有环境噪声帧可被前加到对应于在步骤320接收的用户发音的声学数据，该声学数据可以任何适当方式缓存到存储器中。换言之，车辆特有环境噪声帧可以是被加入到步骤320中表示用户发音的声学数据起始处的声学数据。在另一个实施例中，可前加多于一个(如3个，9个或单个车辆特有环境噪声帧的任何其它倍数)的车辆特有环境噪声帧。如本文所使用的，术语“前加到用户发音”可包括将车辆特有环境噪声放置或注入到用户发音前的任何位置，不管是紧接用户发音，还是覆盖或相对于用户发音在前隔开等。

在步骤340，对应于用户发音的声学数据和前加到其上的车辆特有环境噪声可被预处理。例如，步骤335中所前加的声学数据可由预处理器212预处理以从其中提取任何适当的声学特征。

在步骤345，对应于前加了车辆特有环境噪声的用户发音的声学特征可被解码。例如，在步骤340中经预处理的前加的声学数据可由解码器214解码以产生包括识别结果、假设、语音标签、无声标签等的任何适当输出。

在步骤350，可确定当前的ASR会话是否完成。如果完成，则该方法在步骤355结束，否则可在步骤360检索后续发音，之后步骤循环回到步骤325。

根据另一个实施例，在步骤365，可确定是否能够进行自适应环境噪声注入例程。如果不能，则该方法前进到步骤330，否则，该方法前进到步骤370。这种例程使当前车辆内的当前用户发音前加了环境噪声，该环境噪声跟在前一个用户发音后面。这可能导致比使用实验车辆环境噪声更为准确的环境噪声匹配。

在步骤370，检索对应于前一个发音的车内环境噪声。例如，车内环境噪声帧可以是从存储器中检索的，并且是以前记录的与前一个发音相关的车内环境噪声帧，或者可以是其代理，如下文关于步骤375以及下列等等步骤讨论的。

在步骤375，可识别与用户发音相关的后缀帧(trailing frame)，并且可检索对应的数据。可识别任何适当数量的后缀帧。解码器214能区分语音和无声，并可相应对每一个做标记。而且，可检索诸如原始数字声学数据或从预处理器输出的声学特征的后缀帧语音数据。可使用后处理器216来执行从步骤375到步骤390的任一步骤或所有步骤以例如通过步骤370反馈回预处理器212。

在步骤380，可确定与用户发音相关的一个或多个后缀帧是否包括语音数据。如果包括，则存储一个(或多个)后缀帧，并且该方法前进到步骤385。如果不包括，则认为后缀帧包括无语音(speechless)数据，该方法前进到步骤370。无语音数据可以与环境噪声数据、无声数据等同义。

在步骤385，可估计来自与用户发音相关的至少一个后缀帧的语音能量。例如，可使用估计语音能量的任何适当技术来估计来自一个(或多个)后缀帧的最后一帧的语音能量。作为许多具体示例中的一个示例，可使用短时能量技术来区分有声音片段和无声音片段，原因是无声音片段的短时能量明显小得多。

在步骤390，所估计的来自与用户发音相关的至少一个后缀帧的语音能量可与来自多个车辆特有环境噪声帧的语音能量进行比较，并且可选择与一个(或多个)后缀帧最对应的至少其中一个车辆特有环境噪声帧。然后可在步骤370检索一个(或多个)最对应的车辆特有环境噪声帧。

图4图解说明了选择车辆特有环境噪声的示范性方法400，并结合车辆运动参数和车辆速度参数进行了描述。该方法400只是可用于参考以上方法300描述的图3的步骤330的一个具体示例。因此，可使用包括任何其它适当的车辆特有参数、倾向于影响车内环境噪声的其它示例。例如，可使用车辆供暖、通风和空调(HVAC)参数，如风扇速度、出口类型(挡风玻璃除霜器，仪表板通气孔，底板通气孔)等。在另一个示例中，可使用窗户或可开式车顶开口参数。实际上，可使用任何可了解的车辆设置或条件参数，如转弯指示灯开/关，无线电或GPS开/关，无线电或GPS音量大小，听不见的背景语音，道路类型或道路状况等。可以任何适当方式进行车辆特有环境噪声的数据收集，如使用下文结合示范性图5描述的示范性方法。可将所收集的车辆特有环境噪声存储在数据库D中，如远程信息处理单元114的存储器122中，呼叫中心108的数据库150中或两者中等。

在步骤405，可确定执行ASR的车辆是否在移动。如果不是，则该方法前进到步骤410，否则该方法前进到步骤420。

在步骤410，如果车辆没有移动，则可以例如从数据库D中检索所记录的车辆空闲环境噪声数据，并输出以在步骤415进行处理。

在步骤415，可将所记录的车辆特有环境噪声分割成一个或多个声学数据帧。例如，以16kHz的采样率记录的车辆特有环境噪声可被分割产生包括240个样本的15ms的帧。

在步骤420，可确定正在执行ASR的车辆的当前速度。例如，如果该车辆以低于30MPH的速度行驶，则该方法前进到步骤425，如果该车辆在介于30MPH和60MPH之间的某个速度行驶，则该方法可前进到步骤430，否则该方法前进到步骤435。

在步骤425中，可以从存储器中检索预先记录的低水平(low level)的车辆特有环境噪声。例如，低水平的环境噪声可记录在行驶速度在0MPH和30MPH之间的实验车辆中。

在步骤430中，可从存储器中检索预先记录的中等水平的车辆特有环境噪声。例如，中等水平的环境噪声可记录在行驶速度在30MPH和60MPH之间的实验车辆中。

在步骤435中，可从存储器中检索预先记录的高水平的车辆特有环境噪声。例如，高水平的环境噪声可记录在行驶速度大于60MPH的实验车辆中。

图5图解说明了记录车辆特有环境噪声的示范性方法。该方法是结合车辆速度和HVAC设置参数描述的，但也可使用之前关于图4阐述的任何其它适当的车辆特有的参数。车辆特有环境噪声受几个外部噪声和内部噪声的影响，所述外部噪声和内部噪声诸如车辆行驶的道路类型，车辆行驶的速度，风噪声，车辆外部的噪声，HVAC设置及许多其它因素。车辆特有环境噪声可由车辆在不同速度下的环境噪声记录以及变化的内部和外部环境噪声组合组成。用于记录车辆噪声的示例状况可包括以每小时45英里的速度在一段混凝土道路上行驶的车辆，其中空调***设置在水平3，或者包括以每小时60英里在柏油路面的道路上行驶的车辆，其中驾驶员和乘客窗户被降低等。

在步骤505，可选择车辆。该车辆可以是对应于要执行ASR的生产车辆的实验车辆。可通过牌子(make)和/或型号(model)、车辆类型(如公车、卡车、轿车、双门小汽车等)或通过像豪华、运动、经济等的级距(segment)来选择车辆。针对类型和级距，可选择一种类型或级距的所有车辆，并且对它们的环境噪声记录进行平均，或者可选择一种类型或级距的所有车辆的某个子集，如表示特定类型或级距的一种车辆。换言之，可使用实验车辆，并且该试验车辆可以与实际执行ASR的生产车辆为相同牌子和型号，或者可以是相同类型(汽车对卡车对SUV对酷越(crossover)等)等。

在步骤510，可以给定速度驾驶车辆。例如，在第一通道中，步骤505中所选择的车辆可以在特定速度下驾驶，所述速度诸如大约15MPH，或在0-30MPH的低范围内。在第二通道，所选择的车辆可在另一速度下驾驶，如大约45MPH，或在30-60MPH的中等范围内。在第三通道中，所选车辆可在又一速度下被驾驶，如大约75MPH，或在60+MPH的高范围内。可以任何所需速度和/或在任何所需大小的任何数目的速度范围内驾驶该车辆，或者该车辆可以无运动和/或闲置。

在步骤515，可选择车辆HVAC设置。例如，在第一通道中，可将步骤505中所选择的车辆的HVAC设置设为关，并在步骤510驾驶。在第二通道中，可将HVAC设置设为相对低的数值或在低范围内等。在第三通道中，可将HVAC设置设为中间数值或在中等范围内等。在第四通道中，可将HVAC设置设为相对高的数值或在高范围内等。可使用任何HVAC设置，如风扇速度、通风口位置等，或者可以将其设置为任何所需水平。

在步骤520中，记录车辆中的环境噪声。例如，集成车用麦克风(IVM)可以放置在步骤505中所选择的车辆的座舱内，该车辆在步骤510中被驾驶，并在步骤515中被设置。IVM是连接到远程信息处理单元的内置麦克风，并且在正常车辆运转期间使用。可选地，一个或多个单独的麦克风可放置在座舱内，并与任何与车辆分离的适当音频记录设备通信。换言之，可使用内置生产车辆设备或使用测试设备或仪表设备记录环境噪声。

在步骤525，车辆中环境噪声的记录可存储在存储器中。例如，步骤520中的记录可存储在数据库中，该数据库可加载到对应于试验车辆的生产车辆中，诸如与试验车辆相同的类型或牌子/型号。此外，除原始环境噪声数据之外的其它音频参数可与每个记录一起存储。例如，每个记录的平均声能可以与每个记录相关地存储为其属性。

在步骤530，可确定是否已经为所有希望的HVAC设置记录了车辆中的环境噪声。如果没有，则该方法前进到步骤535，在步骤535中，获得下一个HVAC设置，然后循环回到步骤515。否则，该方法前进到步骤540。

在步骤540，可确定是否已经为所有希望的车辆速度记录了车辆中的环境噪声。如果没有，则该方法前进到步骤545，在步骤545中，获得下一个车辆速度，然后循环回到步骤510。否则，该方法前进到步骤550。

在步骤550，可确定是否已经为所有希望的车辆记录了环境噪声。如果没有，则该方法前进到步骤555，在步骤555中，获得下一个车辆，然后循环回到步骤505。该下一个车辆可以是相同类型或牌子/型号的车辆，其中对一个类型或牌子/型号的车辆进行了多次试车并进行平均。或者该下一个车辆可以是不同类型或牌子/型号的车辆。否则，该方法结束。

应理解前述说明不是对本发明的限定，而是对本发明的一个或多个优选示范性实施例的描述。本发明不局限于本文所公开的一个(或多个)具体实施例，而是仅由下面的权利要求书限定。而且，前面描述中所包括的声明涉及具体实施例，不应该被解释为对发明范围的限制，或对权利要求书中所使用的术语的限定，除非上文对术语或短语进行了明确定义。对所公开的实施例的各种其它实施例和各种变化和修改对本领域技术人员是显而易见的。所有这种其它实施例、变化和修改旨在落入随附的权利要求书的范围内。

如本说明书和权利要求书中使用的术语“例如”和“如”及动词“包括”，“具有”，“包含”和其它动词形式，当与一个或多个部件或其它项目的列表结合使用时，都被解释为是开放式的，意味着该列表不应被认为是排除其它、附加部件或项目。其它术语也使用它们最广泛合理的意义来解释，除非它们用在要求不同解释的上下文。

Claims

1.一种用于生产车辆中的语音识别的环境噪声注入方法，该方法包括以下步骤：

监控包括用户语音的音频；

接收来自所述用户语音的发音；

检索车辆特有环境噪声；和

在预处理及解码所述发音之前，将所述车辆特有环境噪声前加给所述发音。

2.如权利要求1所述的方法，其中所述车辆特有环境噪声是在与所述生产车辆相同的牌子和型号的至少一个试验车辆中产生的。

3.如权利要求1所述的方法，其中所述车辆特有环境噪声是在与所述生产车辆相同类型的至少一个试验车辆中产生的。

4.如权利要求1所述的方法，其中所述车辆特有环境噪声是在与所述生产车辆相同级距的至少一个试验车辆中产生的。

5.如权利要求1所述的方法，其中所述车辆特有环境噪声是根据多个不同车辆速度产生的。

6.如权利要求1所述的方法，其中所述车辆特有环境噪声是根据多个不同的车辆供暖、通风和空调设置产生的。

7.如权利要求1所述的方法，其中所述车辆特有环境噪声是根据多个不同车辆参数产生的。

8.如权利要求1所述的方法，其中所述车辆特有环境噪声来自至少一个后缀帧，该后缀帧与所接收的发音之前的用户发音相关。

9.如权利要求1所述的方法，其中所述车辆特有环境噪声是在与所述生产车辆相对应的至少一个试验车辆中产生的，并且被选择为与所接收的发音之前的用户发音相关的至少一个后缀帧的代理。

10.如权利要求1所述的方法，进一步包括以下步骤：

预处理包括至少一个环境噪声帧的所述发音；

解码包括所述至少一个环境噪声帧的经过预处理的发音；

识别尾随所述发音的至少一个无语音帧；

存储该至少一个无语音帧；

接收来自所述用户语音的后续发音；

检索所存储的至少一个无语音帧；和

将所检索的至少一个无语音帧前加到所述后续发音。

11.如权利要求1所述的方法，进一步包括：

预处理包括至少一个环境噪声帧的所述发音；以及

解码包括所述至少一个环境噪声帧的经过预处理的发音；

识别没有无语音帧尾随所述发音；

估计尾随所述发音的至少一帧中的语音能量；

将所估计的语音能量和所述环境噪声帧的语音能量进行比较，所述环境噪声帧被预先记录在对应于所述生产车辆的至少一个试验车辆中；

识别具有对应于所估计的语音能量的语音能量的预先记录的环境噪声帧中的至少一个环境噪声帧；

存储对应的预先记录的至少一个环境噪声帧；

接收来自所述用户语音的后续发音；

检索所存储的预先记录的至少一个环境噪声帧；和

将所检索的预先记录的至少一个环境噪声帧前加到所述后续发音。

12.一种用于生产车辆中语音识别的环境噪声注入方法，该方法包括以下步骤：

发起当前语音识别会话；

监控包括用户语音的音频；

接收来自所述用户语音的发音；

确定所接收的发音是所述当前语音识别会话发起后的第一发音；

从预先记录在对应于所述生产车辆的试验车辆中的环境噪声帧中检索至少一个环境噪声帧；

将至少一个环境噪声帧前加到所述发音；

预处理包括所述至少一个环境噪声帧的发音；和

解码包括所述至少一个环境噪声帧的经过预处理的发音。

13.如权利要求12所述的方法，进一步包括以下步骤：

识别尾随所述发音的至少一个无语音帧；和

存储该至少一个无语音帧。

14.如权利要求13所述的方法，进一步包括以下步骤：

接收来自所述用户语音的后续发音；

检索所存储的至少一个无语音帧；和

将所检索的至少一个无语音帧前加到所述后续发音。

15.如权利要求12所述的方法，进一步包括以下步骤：

识别没有无语音帧尾随所述发音；

估计在尾随所述发音的至少一帧中的语音能量；

将所估计的语音能量和预先记录的环境噪声帧的语音能量进行比较；

识别具有对应于所估计的语音能量的语音能量的预先记录的环境噪声帧中的至少一个环境噪声帧；和

存储对应的预先记录的至少一个环境噪声帧。

16.如权利要求15所述的方法，进一步包括以下步骤：

接收来自所述用户语音的后续发音；

检索所存储的预先记录的至少一个环境噪声帧；和