CN101145341B

CN101145341B - 改善语音辨识的方法与装置以及语音辨识***

Info

Publication number: CN101145341B
Application number: CN200710149014XA
Authority: CN
Inventors: 黄炎松; 白博仁; 侯震; 刘亚樱; 于航; 张铭
Original assignee: Fortemedia Inc
Current assignee: Fortemedia Inc
Priority date: 2006-09-04
Filing date: 2007-09-04
Publication date: 2011-12-07
Anticipated expiration: 2027-09-04
Also published as: US7689417B2; CN101145341A; TW200813812A; TWI349878B; US20100145696A1; US20080059191A1

Abstract

一种改善语音辨识的***。从设定装置产生并下载语音关键词表至语音辨识装置。语音关键词表包括视觉形式数据、口语形式数据、语音格式数据、对应于关键词的登录数据、语音合成(Text-To-Speech，TTS)产生语音提示，以及对应于上述语音格式数据的语音模型。语音辨识装置上的语音辨识***是由设定装置所更新。再者，语音辨识装置上的语音模型是由设定装置所修改。

Description

改善语音辨识的方法与装置以及语音辨识***

技术领域

本发明是有关于语音辨识(voice recognition)，特别是有关于语音辨识装置的效能的改善。

背景技术

语音键盘(voice keypad，VKP)是一种能辨识使用者所发出的关键词并产生相对应的输出(例如：指令或文字符串)给应用装置所使用的装置。

蓝牙麦克风(speakerphone)是语音键盘的一种实际应用，用以供具有蓝牙功能的移动电话所使用。在上述装置中，语音键盘电话麦克风以及移动电话是配对的。执行语音键盘的语音辨识引擎以辨识由使用者所发出关于使用者定义名单的名字，并输出所对应的电话号码。接着，移动电话上的拨号功能将拨出上述电话号码，则使用者能通过移动电话经由电话麦克风来进行对话。

常见的语音辨识包括非特定语者(speaker independent，SI)、特定语者(speaker dependent，SD)以及语者调适(speaker adapted，SA)等三种***。在非特定语者***中，语音辨识引擎根据一般的语音模型(voice model)来辨别输入语音，其中语音模型是由大量的训练语料得到的样本所产生。然而，这些***通常具有低辨识效能，尤其是当语者具有较重的口音(accent)或是其说话模式(speech pattern)偏离上述样本时。另一方面，特定语者***需要使用者提供每个关键词的样本，对大量关键词列表而言，其将变得复杂并且占用存储器。

传统的语者调适***是通过根据特定语者的输入语料(speech input)来修改语音模型以达到对辨识效能的有限改善。然而，对语音键盘的关键词而言，仍然想要达到较高的辨识率。再者，语音键盘可能需要适当的资源以改善语音辨识的效果。

发明内容

本发明提供一种改善语音辨识的方法、***以及装置。

本发明一实施例提供一种改善语音辨识的方法，适用于具有设定装置以及语音辨识装置的***。上述方法的步骤包括：产生语音关键词表，并下载上述语音关键词表至上述语音辨识装置；升级上述语音辨识装置的语音辨识***；以及修改上述语音辨识装置的语音模型。

语音关键词表较佳地包括视觉形式数据、口语形式数据、语音格式数据、对应于关键词的登录数据、语音合成产生语音提示，以及对应于上述语音格式数据的语音模型。产生上述语音关键词表的步骤较佳地包括：输入视觉形式数据以及登录数据；转换上述视觉形式数据成为口语形式数据；映射上述口语形式数据至语音格式数据；以及执行语音合成引导发音编辑以修改上述语音格式数据。在较佳实施例中，可执行额外的步骤以使用上述语音格式数据、上述语音模型以及混淆音表来执行混淆音测试以识别混淆音组的关键词。再者，可执行额外的步骤以消除来自上述混淆音组的关键词。

在较佳实施例中，修改上述语音辨识装置的语音模型的使用者启动的步骤包括：从上述语音关键词表内的关键词建立关键词模型；选择关键词以供调适；得到已选择的关键词的新说话输入；使用已存在的关键词语音模型以及上述新说话输入来调适已选择的关键词的语音模型以产生调适过的语音模型；以及下载调适过的语音模型至上述语音辨识装置。

此外，修改上述语音辨识装置的语音模型的新模型可用性启动的步骤包括：从网络下载新语音模型至上述设定装置；当上述新语音模型的版本较新于上述语音辨识装置的上述语音模型的版本时，判断个人累积声音数据是否存在；当上述个人累积声音数据存在时，从上述语音辨识装置上载上述语音关键词表至上述设定装置、从已上载的语音关键词表的关键词建立关键词模型以供调适、使用上述新语音模型以及上述个人累积声音数据来执行调适以产生调适过的新语音模型，以及下载上述调适过的新语音模型至上述语音辨识装置；以及当上述个人累积声音数据不存在时，上载上述语音关键词表至上述设定装置、使用上述新语音模型建立已上载的语音关键词表内关键词的关键词模型，以及下载更新过的新语音模型至上述语音辨识装置。举例来说，个人累积声音数据可以是在语音模型的使用者启动调适的期间所记录的说话输入并储存在上述设定装置，或是在使用上述语音辨识装置以辨别关键词的期间所记录的说话输入并储存在上述语音辨识装置。

在较佳实施例中，升级以及修改上述语音辨识装置的上述语音辨识***的步骤包括：经由网络下载已更新的语音辨识***至上述设定装置；判断上述已更新的语音辨识***是较新于上述语音辨识装置上的语音辨识***；以及当上述已更新的语音辨识***是较新时，从上述设定装置下载上述已更新的语音辨识***至上述语音辨识装置。

在较佳实施例中，储存运作时间信息在语音辨识装置内；从上述语音辨识装置上载已储存的运作时间信息至上述设定装置；处理上述设定装置内的上述运作时间信息；以及根据上述设定装置内上述运作时间信息的处理结果上载上述语音辨识装置以改善语音辨识效能。

此外，上述方法较佳地包括一或多个步骤：由上述设定装置启动上述语音辨识装置内的诊断测试、提供网络上的客户支持、以及提供可无线装置兼容性支持，其中上述可无线装置兼容性支持包括用以配对上述语音辨识装置与可无线应用装置的指令。

本发明一实施例提供一种语音辨识***，安装于设定装置内，用以改善语音辨识装置的语音辨识。上述语音辨识***包括：语音关键词表产生装置，用以产生语音关键词表并下载上述语音关键词至上述语音辨识装置；以及用以更新上述语音辨识装置的语音模型的装置。上述语音关键词表较佳地包括视觉形式数据、口语形式数据、语音格式数据、对应于关键词的登录数据、语音合成产生语音提示，以及对应于上述语音格式数据的语音模型。

在较佳实施例中，上述语音辨识***还包括使用上述语音格式数据、上述语音模型以及混淆音表来执行混淆音测试以识别混淆音组的关键词以及消除来自上述混淆音组的关键词的装置。此外，上述语音辨识***较佳地还包括用以根据储存在上述语音辨识装置内运作时间信息的处理结果来更新上述语音辨识装置的装置，以改善语音辨识效能。

在较佳实施例中，上述语音辨识***还包括在上述语音辨识装置内执行语音模式的使用者启动调适和/或新模型可用性启动调适的装置。上述执行新模型可用性启动调适的装置较佳地使用记录于上述语音辨识装置内语音模式的使用者启动调适期间的个人累积声音数据，或是使用记录于上述语音辨识装置操作期间的个人累积声音数据以识别关键词。

在较佳实施例中，上述语音辨识***还包括一或多个用以升级以及下载语音辨识***至上述语音辨识装置的装置、用以启动上述语音辨识装置内诊断测试的装置、用以经由网络提供客户支持的装置，以及用以提供可无线装置兼容性支持的装置，上述可无线装置兼容性支持包括用以配对上述语音辨识装置与可无线应用装置的指令。

本发明一实施例提供一种改善语音辨识的装置。上述改善语音辨识的装置包括：设定装置，包括第一语音关键词表以及第一语音辨识***；以及语音辨识装置，包括第二语音关键词表对应于上述第一语音关键词表，上述语音辨识装置经由接口耦接至上述设定装置。上述第一语音关键词表以及上述第二语音关键词表包括视觉形式数据、口语形式数据、语音格式数据、对应于关键词的登录数据、语音合成产生语音提示，以及对应于上述语音格式数据的语音模型。上述语音辨识装置较佳地为语音键盘装置或是无线耳机。上述设定装置较佳地为个人计算机。

附图说明

图1是显示根据本发明一实施例所述的语音辨识设备的方块图；

图2A是显示根据本发明一实施例所述的设定装置的方块图；

图2B是显示根据本发明一实施例所述的设定装置内语音关键词表的方块图；

图3A是显示根据本发明一实施例所述的语音辨识装置的方块图；

图3B是显示根据本发明一实施例所述的语音辨识装置内对应的语音关键词表的方块图；

图4是显示根据本发明一实施例所述的应用装置的方块图；

图5是显示根据本发明一实施例所述的改善语音辨识方法的流程图；

图6A是显示根据本发明一实施例所述的产生语音关键词表的方法的流程图；

图6B是显示根据本发明一实施例所述的执行语音合成引导发音编辑的方法的流程图；

图7A是显示根据本发明一实施例所述的升级设定装置内语音辨识***的方法的流程图；

图7B是显示根据本发明一实施例所述的下载已更新语音辨识***至设定装置的方法的流程图；

图7C是显示根据本发明一实施例所述的更新语音辨识装置内语音辨识***的方法的流程图；

图8是显示根据本发明一实施例所述的使用者启动调适的方法的流程图；

图9A是显示根据本发明一实施例所述的下载新语音模型至设定装置的方法的流程图；

图9B是显示根据本发明一实施例所述的新模型可用性启动调适的方法的流程图；以及

图10是显示根据本发明一实施例所述的在语音辨识装置执行诊断程序的方法的流程图。

[主要元件标号说明]

100～设定装置

101、201、301～控制器

102、202、302～语音辨识***

110、210～语音关键词表

111、211～表

112、212～语音模型数据库

113、213～语音合成产生语音提示数据库

120～显示器

130～输入装置

150～语音关键词表产生模块

151～语音合成引导发音编辑模块

152～混淆音测试模块

155～***升级模块

160～语音模型更新模块

161～调适模块

165～诊断模块

170～客户支持模块

175～具有无线能力装置兼容性模块

180、280～存储器

190、290、390～接口

200～语音辨识装置

220～语音辨识引擎

230、330～扬声器

240、340～麦克风

250～电池

300～应用装置

310～射频模块

320～拨号模块

400-950～步骤

具体实施方式

为让本发明的上述和其它目的、特征、和优点能更明显易懂，下文特举出较佳实施例，并配合所附图式，作详细说明如下：

实施例：

图1是显示根据本发明一实施例所述的语音辨识设备。

在较佳实施例中，语音辨识装置包括设定(set-up)装置100、语音辨识装置200以及应用装置300。举例来说，设定装置100可以是个人计算机或是个人数字助理(personal digital assistant，PDA)。

举例来说，语音辨识装置200可以是手机(handset)、电话麦克风、耳机(earset)或是具有语音辨识功能的耳机/手机的结合。在较佳实施例中，语音辨识装置200是语音键盘，即一种能辨识使用者所发出的关键词并产生相对应的输出(例如：指令或文字符串)给应用装置所使用的装置。

应用装置300是在语音辨识装置200控制下执行功能的装置。例如，应用装置300可以是移动电话、个人数字助理、全球定位装置、家电用品或是信息用品、个人计算机、DVD/MP3播放器的控制***、车用收音机或是车用功能控制器。

设定装置100、语音辨识装置200以及应用装置300是通过有线或是无线方式所连接。在较佳实施例中，设定装置100是经由通用串行总线(universal serial bus，USB)接口耦接至语音辨识装置200，而语音辨识装置200是经由无线接口耦接至应用装置300，例如：蓝牙接口。

在上述实施例中，设定装置100是个人计算机，语音辨识装置200是无线耳机，而应用装置300是移动电话。然而，可以了解的是，上述实施例只是例子而非用以限定本发明的范围。

在实施例中，语音辨识装置200可作为拨号以及输入指令至应用装置300的语音键盘。此外，语音辨识装置200提供传统无线耳机功能，即经由移动电话的音频(audio)输入/输出对话以及其它对话。可以了解的是，当语音辨识装置200连接至设定装置100时，亦可作为设定装置100的音频输入/输出装置。

当应用装置300为简单的控制***时，例如DVD/MP3播放器的控制***，可使用语音辨识装置200传送指令至应用装置300，而不需要经由应用装置300提供音频输入/输出功能。

图2A是显示根据本发明一实施例所述的设定装置100。

在本发明较佳实施例中，设定装置100是包括控制器101、语音辨识***102、显示器120、输入装置130、存储器180以及接口190的个人计算机。

举例来说，控制器101可以是用以操作设定装置100的微处理器以及相关硬件与软件。显示器120可以是监视器(例如LCD监视器)。输入装置130可以是键盘/鼠标或是其它传统输入装置。存储器180是存储器，例如：硬驱动器(hard drive)或是闪存，并用来储存新的语音模型以及个人累积声音数据(personal accumulated acoustic data)，其将进一步详细描述于后文。此外，亦提供用以连接至语音辨识装置200的接口190，例如：USB接口、无线接口(例如蓝牙)或是802.11无线网络接口等。再者，设定装置100可连接至网络，举例来说，例如全球信息网(world wide web，WWW)的整体网络。

在较佳实施例中，语音辨识***102包括语音关键词表(voice keywordtable，VKT)110以及执行于设定装置100内的软件和/或硬件一些模块。较佳地，上述模块包括包含语音关键词表产生模块150、语音合成引导发音(TTSguided pronunciation)编辑模块151、混淆音测试模块152、***升级模块155、语音模型更新模块160、调适(adaptation)模块161、诊断(diagnostics)模块165、客户支持模块170以及具有无线能力装置兼容性模块175，其将进一步详细描述于图5-10。在较佳实施例中，语音关键词表以及上述模块是储存于存储器或是设定装置100的存储器内。

图2B是显示根据本发明一实施例所述的语音关键词表110。

在本发明较佳实施例中，语音关键词表110包括表111、语音模型数据库112以及语音合成产生语音提示(voice prompt)数据库113。表111储存预先定义的关键词(例如：「HOME」和「SET-UP MENU」)、使用者定义的关键词(例如：「BRIAN」、「RYAN」、「JOSE」)以及对应于关键词的登录数据(entrydata)。登录数据可以是文字符串，例如电话号码或是指令(例如用来进入设定选单的指令)。

进一步详细描述于后，在较佳实施例中，表111储存对应于使用者用来表示语音关键词表110中关键词的任何视觉符号的视觉形式(visual form)数据，以及对应于关键词语调的口语形式(spoken form)数据。此外，表111包括对应于口语形式数据的语音格式(phonetic format)数据。

可以了解到，根据使用语音辨识装置的应用装置，可以使用不同种类的关键词。预先定义以及使用者定义的关键词可包含与任何特定应用装置的特征有关的指令功能。举例来说，当应用装置为MP3播放器时，关键词可包含预先定义的MP3播放器指令(例如：停止或随机)、使用者定义指令以及其它指令等。指令亦可与语音辨识装置的操作结合。例如，指令「SET-UP MENU」可启动语音辨识装置的设定选单。

再者，登录数据非限定为文字符串或是指令。举例来说，登录数据可包括图像、声波文件以及其它文件格式。更可以考虑的是，不只一笔的登录数据可与特定的关键词作结合。亦可考虑的是，语音关键词表可储存特定发话者语音卷标以及对应的特定语者语音模型与登录数据。

语音模型数据库112是储存***中语音模型的目前设定。在本发明实施例中，语音辨识***102的语音模型产生模块产生了对应于语音格式数据的语音模型，用以将语音关键词表110的关键词加入至语音模型数据库112。其将进一步详细解释如后，语音模型可包括一般的非特定语者语音模型和/或根据本发明实施例而调适的语者调适语音模型。

语音合成产生语音提示数据库113储存数据以供本发明实施例中所使用的提示语音。在本发明实施例中，语音辨识***102的语音合成模块产生对应于语音格式数据的语音声波文件，而将语音关键词表110的关键词加入至语音合成产生语音提示数据库113。

语音关键词表110的额外特征将会在图5-10描述。

图3A是显示根据本发明一实施例所述的语音辨识装置200。

在本发明较佳实施例中，语音辨识装置200包括控制器201、内含语音关键词表210与语音辨识引擎220的语音辨识***202、扬声器230、麦克风240、电池250、存储器280以及接口290。

举例来说，控制器201可以是微处理器以及相关硬件与软件，用以操作语音辨识装置200以及对麦克风240所接收的声音输入执行数字信号处理。扬声器230是用来输出声音的传统的扬声器。麦克风240可以是单一麦克风或是阵列麦克风，其较佳是小型阵列麦克风(small array microphone，SAM)。存储器280为存储器，其较佳是闪存。可使用存储器280来储存运作时间信息(run-time information)和/或个人累积声音数据，其将进一步详细描述于后文。接口290用以连接至设定装置100以及应用装置300。例如，可使用USB接口连接至设定装置100，而使用无线接口连接至应用装置300。当语音辨识装置200通过无线方式连接至设定装置100以及应用装置300时，接口290可包括单一无线接口(例如蓝牙)或是多种无线接口(例如蓝牙与802.11无线网络)。

如图3B所显示，语音关键词表210对应于语音关键词表110，以及包括表211、语音模型数据库212与语音合成产生语音提示数据库213。

较佳实施例中，语音辨识引擎220接收由麦克风240产生且经过控制器201处理的信号，以撷取特征数据而与储存于语音模型数据库212的语音模型作比较，以便判断输入语音是否符合语音关键词表210内的关键词。本领域技术人员所熟知的语音辨识引擎的特征以及操作将不再描述于此。

本发明实施例的特征之一是语音关键词表110镜射(mirror)于语音关键词表210。当连接至对应装置时，输入至语音关键词表110的数据可同步输入至语音关键词表210，反之亦然。

在本发明较佳实施例中，语音辨识装置200包含接收独立于设定装置100的输入数据的功能。例如，语音辨识装置200可包括语音指示导引接口以加入数据至语音关键词表210。当连接至对应装置时，语音关键词表210内新增加的数据可同步增加至语音关键词表110。

本发明较佳实施例的特征之一是在语音辨识装置200操作时间所收集的运作时间信息会被储存在存储器280内。当语音辨识装置200连接至设定装置100时，从语音辨识装置200上载运作时间信息至设定装置100并经由语音辨识***202处理运作时间信息以改善语音辨识效能。接着，根据运作时间信息的处理结果以及已改善的语音辨识效能可更新语音辨识装置200。一种可储存的运作时间信息的例子是对应于成功的关键词辨识的声音数据和/或从应用装置得到的数据。

图4是显示根据本发明一实施例所述的应用装置300。

在本发明较佳实施例中，应用装置300包括控制器301、具有连接至通讯网路的天线的射频模块310、包含储存在存储器的拨号模块320的控制程序302、扬声器330以及麦克风340，其中应用装置300为移动电话。接口390连接至语音辨识装置200，例如像蓝牙的无线接口。本领域技术人员所熟知的移动电话的特征以及结构将不再描述于此。

一般而言，使用者操作语音辨识装置200以控制应用装置300。在实施例中，控制应用装置300为移动电话。举例来说，当使用者希望拨电话给受话者「RYAN」时，使用者对麦克风240说出关键词「RYAN」。在前级数字信号处理之后，语音辨识***202决定出符合的关键词。当有关键词符合时，对应于符合的关键词的登录数据经由接口290以及接口390从语音辨识装置200传送至应用装置300。举例来说，当对应于「RYAN」的登录数据是电话号码时，拨号模块会接收电话号码并拨电话给「RYAN」。可以了解的是，***亦可包括其它传统功能，例如：允许使用者确认或拒绝关键词比对的语音指示反馈步骤。

本发明较佳实施例的另一特征是在语音辨识装置200的正常使用之间，记录个人声音数据并累积在存储器280内以供后来调适使用。举例来说，当使用者说出关键词「RYAN」且使用者确认由语音辨识***202判断的比对时，所记录的语调与关键词「RYAN」以及所记录的语调结合的数据一起被储存在存储器280内。还可以了解的是，可使用其它方法来判断语音辨识***202是否成功地比对出关键词。

再者，使用者可操作语音辨识装置200来控制语音辨识装置200本身。例如，当使用者说出设定选单时，控制器201可使语音辨识装置200经由扬声器230输出语音导引设定选单。

语音辨识装置的操作以及其组成部分将进一步详细描述于后文。

图5是显示用以达到本发明改善语音辨识的语音辨识***102的较佳实施例的基本流程图。图6-10将更详细描述步骤400-430。

在步骤400中，在设定装置100产生语音关键词表110并下载语音关键词表110至语音辨识装置200，其中语音关键词表110储存在存储器中，像语音关键词表210一样。

在步骤410中，升级语音辨识***102以及语音辨识***202的一者或全部。

在步骤420中，修改语音模型并从设定装置100下载语音模型至语音辨识装置200。

在步骤430中，在语音辨识装置200中执行诊断程序(routine)。

在步骤440中，提供远程(remote)客户支持。较佳实施例中，经由显示器120以及输入装置130可提供接口，其允许使用者连接至知识库或是其它客户支持服务。另外，通过上述接口，可执行已更新软件以及语音模型的手动下载功能。

在步骤450中，提供远程可无线装置兼容性支持。较佳实施例中，显示器120提供接口以供使用者可使用输入装置130在网络上连接至可无线装置兼容性数据库。在较佳实施例中，上述网络包括网站服务器(web server)。例如，在本发明一实施例中，应用装置300为具有蓝牙功能的移动电话，上述数据库包括用以配对语音辨识装置200与不同品牌以及型号的移动电话的特定指令。

虽然，在较佳实施例中步骤400-450的各个步骤都有被执行，可以了解的是本发明并非用以限定步骤400-450中全部步骤的执行，或是上述步骤执行的顺序。

图6A是显示根据本发明一较佳实施例所述的产生语音关键词表的步骤。

在步骤500中，输入关键词数据至表111的视觉形式以及对应的登录栏。例如，在较佳实施例中，可通过语音关键词表产生模块150从软件应用中撷取数据以输入至表111的视觉形式以及登录数据域。此外，亦可执行手动输入或是编辑所撷取的数据以输入数据至表111。

在本发明较佳实施例中，视觉形式数据、口语形式数据以及登录数据是显示在显示器120上，并可经由输入装置130输入/编辑至表111。

举例来说，在本发明较佳实施例中，当应用装置300为移动电话而安装装置为个人计算机时，使用者可选择从线上电话程序账号或是设定装置100内电子邮件地址簿撷取数据，或是通过网络经由设定装置100存取数据以输入至表111的视觉形式以及登录数据域。在实施例中，语音关键词表产生模块150撷取有意义的数据并输入至表111内。接着，根据使用者的喜好可通过修改、增加或是删除关键词以及登录(例如：名字以及电话号码)而对表111进行编辑。

在步骤510中，将视觉形式数据转换成口语形式数据。视觉形式数据是对应于使用者用来指示语音关键表内关键词的任一视觉符号。另一方面，口语形式数据是对应于有关于关键词的实际发音。在较佳实施例中，预设的口语形式数据是由语音关键词表产生模块150从视觉形式数据中自动产生。当关键词为语言文字时，视觉形式数据亦可当作字词至音素(word-to-phoneme)转换的基础且使用者可容易编辑视觉形式数据以得到不同的发音。视觉形式数据可简单被复制成口语形式数据。例如，当关键词为「RYAN」时，视觉形式数据与预设口语形式数据是相同的。另一方面，对例如中文的语言而言，视觉形式数据不能当作字词至音素转换的基础且不容易编辑而得到不同的发音，因此可使用字词至拼音(word-to-pinyin)转换或其它相似转换以产生拼音或其它字母转换格式的预设口语形式数据。因此，当关键词为中文单字词的「花」且使用字词至拼音转换时，视觉形式数据将是中文字体的「花」，而预设口语形式数据将是其拼音转换，即「HUA」。

经由输入装置130，使用者亦可使用手动登录来增加或是编辑口语形式数据。举例来说，在表111中，关键词「BRIAN」以及「JOSE」的预设口语形式数据为「BRIAN」以及「JOSE」，但是为了下文更详细说明的理由，口语形式数据可被编辑为「BRIAN SMITH」以及「HOSAY」。

在步骤515中，通过使用发音词典以及发音准则的字词至音素转换，由语音关键词表产生模块150映射(map)口语形式数据至语音格式数据。

在步骤520中，由语音合成引导发音编辑模块151执行语音合成引导发音编辑。步骤520更详细显示于图6B，其中下面步骤被执行。

在步骤550中，使用者选择关键词。接着，在步骤560中，根据对应于所选择关键词的目前所储存的语音格式数据以及语音合成产生语音提示数据库113，语音关键词表产生模块150产生语音合成产生语音提示。当使用者满意输出时，程序被终止，而根据使用者选项，使用者可选择另一关键词。当语音辨识装置200连接至设定装置100时，语音指示较佳地是由扬声器230或是语音辨识装置200所输出。此外，亦可使用设定装置100的扬声器或是其它音频装置(未显示)。

当使用者不满意输出时，使用者可在步骤570中编辑表111的口语形式数据。在步骤580中，所编辑的口语形式数据依序映射至语音格式数据，而程序则回到步骤560以判断使用者使否满意上述修改，或是需要进一步编辑口语形式数据使语音合成产生语音指示所产生的发音更接近想要的发音。

例如，以关键词「JOSE」来说，其预设口语形式数据为「JOSE」。然而，「JOSE」所映射的语音格式数据为，当语音指示产生时，其听起来像是「JOE-SEE」。而当使用者不满意上述发音时，使用者可编辑上述口语形式数据成为「HOSAY」，则其语音格式数据为「ho`zei」。对应于语音格式数据所产生的语音指示听起来像是以西班牙文发音的字词「Jose」。

参考图6A的步骤530，在本发明较佳实施例中，混淆音测试模块152在语音关键词表110中执行混淆音测试。混淆音测试可分析对应于关键词的语音格式数据，使得关键词被辨识为混淆音组的部分且被区别。使用来自表111的语音格式数据、来自语音模型数据库112的对应语音模型以及混淆音表来产生混淆音矩阵以检查与预测关键词的辨识效能，并对使用者提供引导以改善效能。例如，可改变口语形式数据以得到不同的发音、可在关键词增加词头或是词尾，或是对可能有混淆音的词执行调适。

举例来说，在判断混淆音组时，使用者可选择对一或多个已混淆音项目编辑口语形式数据，而程序又会回到步骤510。当关键词为「BRIAN」以及「RYAN」时，根据目前语音模型数据库112内的语音模型可识别从预设口语形式数据(「BRIAN」以及「RYAN」)所映射的语音格式数据为混淆音组。一旦识别到使用者本身，使用者可选择将口语形式数据从「BRIAN」编辑成为「BRIAN SMITH」。接着，在步骤515，新的语音格式数据会映射到已编辑的口语形式数据。

本发明实施例的特征之一是在语音合成引导发音编辑以及语音辨识之间可共同使用语音格式数据的相同组。使用者编辑由语音合成引导发音所引导的关键词的发音以接近其语调。再者，从口语形式数据所映射的语音格式数据为语音合成引导发音编辑的处理结果，其中使用上述语音格式数据以产生储存于语音模型数据库112/212的语音模型。因此，语音模型更接近地对应到使用者的特定发音，并且能改善语音辨识***202的辨识效能。

图7A是显示升级语音辨识***102的较佳方法的流程图。

在步骤600中，***升级模块155经由网络存取远程服务器以判断是否可得到语音辨识***102的更新版本。

在步骤610中，当取得语音辨识***102的更新版本时，提示使用者注意到升级的有效性。

当使用者确认步骤610的升级时，在步骤620中，语音辨识***102的更新版本经由网络下载至设定装置100并储存在存储器180内。

步骤640中，在设定装置100安装语音辨识***102的更新版本。

图7B、7C是显示升级语音辨识***202的较佳方法的流程图。

在步骤650中，***升级模块155经由网络存取远程服务器以判断是否可得到语音辨识***202的更新版本。

在步骤660中，当取得语音辨识***102的更新版本时，提示使用者注意到升级的有效性。

当使用者确认步骤660的升级时，在步骤670中，语音辨识***202的更新版本经由网络下载至设定装置100并储存在存储器180内。

接着，参考图7C。在步骤700中，语音辨识装置200连接至设定装置100。

在步骤710中，***升级模块155检查被安装在语音辨识装置200的语音辨识***202的版本。

当语音辨识***202的更新版本比安装在语音辨识装置200的版本还要新时，在步骤720提示使用者注意到升级的有效性。

当使用者确认步骤720的升级时，在步骤730中，下载语音辨识***202的更新版本至语音辨识装置200并安装。

在本发明较佳实施例中，修改语音模型以及下载语音模型至语音辨识装置200包括：使用者启动(user initiated)以及新模型可用性启动(new modelavailability initiated)等更新方式。

图8是显示根据本发明一实施例所述的一种在语音辨识装置200执行语音模型的使用者启动调适的方法的流程图。

在步骤801中，由语音模型更新模块160得到使用者设定文件(userprofile)。

在步骤802中，建立关键词模型以供语音关键词表110中关键词的调适。在本发明较佳实施例中，事先已建立预先定义关键词以及数字模式，而在此步骤中只需要建立使用者定义关键词以供调适。

在步骤803中，提示使用者选择调适的种类。上述种类可包括预先定义关键词、数字或是使用者定义关键词。其中，预先定义关键词是由***所定义，例如：对应到文字符串的「HOME」或是对应到指令的「SET-UP MENU」。使用者定义关键词是在语音关键词表110产生的期间或是其它方式输入所撷取出来。数字为0-1-2-3-4-5-6-7-8-9。

在步骤804中，提示使用者选择模式。例如，使用者可选择调适全部的关键词、新关键词或是自选关键词以供调适。

在步骤805中，语音模型更新模块160内的调适引擎161执行使用对应于使用者设定文件(如果存在的话)的个人累积声音数据、储存在语音模型数据库112的目前存在的语音模型以及由使用者提供的新说话输入的调适以产生调适语音模型以供下载。在此步骤中，***较佳地是经由对应于关键词的一些语调所训练以对特定使用者改善***的辨识效能，其中上述关键词是由已选择模式所判断的已选择种类。本领域技术人员所熟知的调适技术将不再描述于此。

在较佳实施例中，语音辨识装置200连接至设定装置100，且经由麦克风240得到新的说话输入。除此以外，新的说话输入可由设定装置100提供的麦克风(未显示)所输入。

本发明较佳实施例的特征之一是在使用者启动调适期间，个人声音数据与使用者设定文件一起被记录以及储存在存储器180内。举例来说，当使用者对关键词「RYAN」提供新的说话输入时，已记录的语调以及结合已记录的语调与关键词「RYAN」的数据会一起被储存在存储器180内。

在步骤806中，从设定装置100下载调适语音模型至语音辨识装置200并储存在语音模型数据库212内。

图9A以及图9B是显示根据本发明一实施例所述在语音辨识装置200修改语音模型的方法，其中上述方法是由网络上的新语音模型的可用性所启动。

首先，如图9A所显示，下载新语音模型至设定装置。

在步骤810中，经由网络存取远程服务器以判断是否可得到新语音模型。举例来说，新语音模型可以是此技艺中发展明显改善或是针对特定语者族群的新非特定语者模型，并储存在远程服务器中。

在步骤811中，当取得新语音模型时，提示使用者注意到升级的有效性。

在步骤812中，当使用者确认上述升级时，新语音模型经由网络下载至设定装置100并储存在存储器180内。

图9B是显示根据本发明一实施例所述的新模型可用性启动语音模型调适的方法的流程图。

在步骤815中，得到使用者设定文件。

在步骤816中，将语音辨识装置200连接至设定装置100。

在步骤817中，语音模型更新模块160对语音辨识装置200中语音模型数据库212内语音模型的版本与设定装置100中储存在存储器180内新语音模型的版本作比较。当设定装置100内有较新的有效版本时，提示使用者注意到升级的有效性。

在步骤818中，当使用者确认上述升级时，语音模型更新模块160进行检查以判断是否可得到对应于使用者设定文件的个人累积声音数据。例如，在先前使用者启动调适期间所累积的个人声音数据可储存在存储器180内。再者，在语音辨识装置200正常操作期间所累积并储存在存储器280内的个人声音数据可储存在存储器180内，并与使用者设定文件作结合。

当个人累积声音数据为有效时，在步骤820中，上载语音关键词表210至设定装置100内的存储器。在步骤825中，语音模型更新模块160建立关键词模型以供调适。在本发明较佳实施例中，预先定义关键词以及数字模式已事先建立。因此，在此步骤中只需要建立使用者定义关键词以供调适。

在步骤830中，调适模块161通过使用建立关键词模型、新语音模型以及个人累积声音数据来执行调适以产生已调适的新语音模型。在此步骤中，调适模块161使用个人累积声音数据作为说话输入，其在不需要使用者的新说话输入的情况下提供新模型的调适产生。

在步骤835中，下载调适过的新语音模型至语音辨识装置200。

另一方面，当没有个人累积声音数据存在时，在步骤840中，上载语音关键词表210至设定装置100内的存储器。

在步骤845中，语音模型更新模块160通过使用新语音模型来建立关键词模型。在本发明较佳实施例中，预先定义关键词以及数字模式已事先建立。因此，在此步骤中只需要建立使用者定义关键词以供调适。

在步骤850中，下载更新过的新语音模型至语音辨识装置200。

图10是显示根据本发明一实施例所述的执行诊断程序的方法的示范流程图。

在步骤900中，连接语音辨识装置200至设定装置100。

在步骤910中，诊断模块165检查语音辨识装置200以及设定装置100之间的连接。

在步骤920中，诊断模块165检查语音辨识***202的闪存所储存的内容。

在步骤930中，诊断模块165检查电池250的电池状态。

在步骤940中，诊断模块165检查扬声器230的功能。在本发明较佳实施例中，传送测试提示至语音辨识装置200并经由扬声器230输出。当使用者听到语音提示时，使用者经由设定装置100的输入装置130输入正认可(positive acknowledgement)信号。否则，使用者经由输入装置130输入负认可信号且测试失败。

在步骤950中，诊断模块165检查麦克风240的功能。在本发明较佳实施例中，提示使用者对麦克风240说话。根据说话输入，对麦克风音量作最佳化，使得音频输入不会饱和或是太小以便检测。在此考虑下，可由控制器201执行回音测试以得到最佳化的麦克风240的输入音量以及扬声器230的输出音量。当没有检测到输入时，上述测试失败。

在本发明较佳实施例中，任何失败的测试可通过显示器120对使用者报告。再者，在适当的情况下，可提供固定方法给使用者。

本发明虽以较佳实施例揭露如上，然其并非用以限定本发明的范围，任何本领域技术人员，在不脱离本发明的精神和范围内，当可做些许的更动与润饰，因此本发明的保护范围当视所附的权利要求范围所界定者为准。

Claims

1.一种改善语音辨识的方法，适用于具有设定装置以及语音辨识装置的***，其步骤包括：

产生语音关键词表，并下载上述语音关键词表至上述语音辨识装置；

升级上述语音辨识装置的语音辨识***；以及

修改上述语音辨识装置的语音模型；

其中上述语音关键词表包括视觉形式数据、口语形式数据、语音格式数据、对应于关键词的登录数据、语音合成产生语音提示，以及对应于上述语音格式数据的语音模型。

2.根据权利要求1所述的改善语音辨识的方法，其中产生上述语音关键词表的步骤还包括：

输入视觉形式数据以及登录数据；

转换上述视觉形式数据成为口语形式数据；

映射上述口语形式数据至语音格式数据；以及

执行语音合成引导发音编辑以修改上述语音格式数据。

3.根据权利要求2所述的改善语音辨识的方法，还包括使用上述语音格式数据、语音关键词表包括的语音模型以及混淆音表来执行混淆音测试以识别混淆音组的关键词。

4.根据权利要求3所述的改善语音辨识的方法，还包括编辑上述口语形式数据并映射编辑过的口语形式数据至上述语音格式数据以消除来自上述混淆音组的关键词。

5.根据权利要求3所述的改善语音辨识的方法，还包括调适关键词以消除来自上述混淆音组的关键词。

6.根据权利要求1所述的改善语音辨识的方法，其中修改上述语音辨识装置的上述语音模型的步骤还包括：

从上述语音关键词表内的关键词建立关键词语音模型；

选择关键词以供调适；

得到已选择的关键词的新说话输入；

使用已建立的关键词语音模型以及上述新说话输入来调适已选择的关键词的关键词语音模型以产生调适过的语音模型；以及

下载调适过的语音模型至上述语音辨识装置。

7.根据权利要求1所述的改善语音辨识的方法，其中修改上述语音辨识装置的上述语音模型的步骤还包括：

从网络下载新语音模型至上述设定装置；

当上述新语音模型的版本较新于上述语音辨识装置的上述语音模型的版本时，判断个人累积声音数据是否存在；

当上述个人累积声音数据存在时，从上述语音辨识装置上载上述语音关键词表至上述设定装置、从已上载的语音关键词表的关键词建立关键词语音模型以供调适、使用上述新语音模型以及上述个人累积声音数据来执行调适以产生调适过的新语音模型，以及下载上述调适过的新语音模型至上述语音辨识装置；以及

当上述个人累积声音数据不存在时，上载上述语音关键词表至上述设定装置、使用上述新语音模型建立已上载的语音关键词表内关键词的关键词语音模型，以及下载更新过的新语音模型至上述语音辨识装置。

8.根据权利要求7所述的改善语音辨识的方法，其中上述个人累积声音数据是在语音模型的使用者启动调适的期间所记录的说话输入，并储存在上述设定装置。

9.根据权利要求7所述的改善语音辨识的方法，其中上述个人累积声音数据是在使用上述语音辨识装置以辨别关键词的期间所记录的说话输入，并储存在上述语音辨识装置。

10.根据权利要求1所述的改善语音辨识的方法，还包括：

储存运作时间信息在语音辨识装置内；

从上述语音辨识装置上载已储存的运作时间信息至上述设定装置；

处理上述设定装置内的上述运作时间信息；以及

根据上述设定装置内上述运作时间信息的处理结果更新上述语音辨识装置以改善语音辨识效能。

11.根据权利要求1所述的改善语音辨识的方法，其中所述升级上述语音辨识装置的语音辨识***的步骤包括：

经由网络下载已更新的语音辨识***至上述设定装置；

判断上述已更新的语音辨识***是较新于上述语音辨识装置上的语音辨识***；以及

当上述已更新的语音辨识***是较新时，从上述设定装置下载上述已更新的语音辨识***至上述语音辨识装置。

12.根据权利要求1所述的改善语音辨识的方法，还包括由上述设定装置启动上述语音辨识装置内的诊断测试。

13.根据权利要求12所述的改善语音辨识的方法，其中上述诊断测试还包括当上述语音辨识装置的硬件功能不正确时产生使用者警告。

14.根据权利要求12所述的改善语音辨识的方法，其中上述诊断测试还包括最佳化上述语音辨识装置内的麦克风音量以及扬声器音量。

15.根据权利要求12所述的改善语音辨识的方法，其中启动上述诊断测试的步骤还包括测试上述设定装置以及上述语音辨识装置之间的连接。

16.根据权利要求1所述的改善语音辨识的方法，还包括提供网络上的客户支持。

17.根据权利要求1所述的改善语音辨识的方法，还包括提供可无线装置兼容性支持，其中上述可无线装置兼容性支持包括用以配对上述语音辨识装置与可无线应用装置的指令。

18.一种语音辨识***，安装于设定装置内，用以改善与设定装置连接的语音辨识装置的语音辨识，包括：

语音关键词表产生装置，用以产生语音关键词表并下载上述语音关键词表至上述语音辨识装置；以及

用以更新上述语音辨识装置的语音模型的装置，

19.根据权利要求18所述的语音辨识***，还包括用以执行混淆音测试以辨别混淆音组的关键词的装置。

20.根据权利要求18所述的语音辨识***，还包括用以根据储存在上述语音辨识装置内运作时间信息的处理结果来更新上述语音辨识装置的装置，以改善语音辨识效能。

21.根据权利要求18所述的语音辨识***，还包括在上述语音辨识装置内执行语音模型的使用者启动调适的装置。

22.根据权利要求18所述的语音辨识***，还包括在上述语音辨识装置内执行新模型可用性启动调适的装置。

23.根据权利要求22所述的语音辨识***，其中上述执行新模型可用性启动调适的装置使用记录于上述语音辨识装置内语音模型的使用者启动调适期间的个人累积声音数据。

24.根据权利要求22所述的语音辨识***，其中上述新模型可用性启动调适的装置使用记录于上述语音辨识装置操作期间的个人累积声音数据以识别关键词。

25.根据权利要求18所述的语音辨识***，还包括用以升级以及下载语音辨识***至上述语音辨识装置的装置。

26.根据权利要求18所述的语音辨识***，还包括用以启动上述语音辨识装置内诊断测试的装置。

27.根据权利要求18所述的语音辨识***，还包括用以经由网络提供客户支持的装置。

28.根据权利要求18所述的语音辨识***，还包括用以提供可无线装置兼容性支持的装置，上述可无线装置兼容性支持包括用以配对上述语音辨识装置与可无线应用装置的指令。

29.一种改善语音辨识的装置，包括：

一语音辨识装置，包括对应于第一语音关键词表的一第二语音关键词表；以及

一设定装置，产生一第一语音关键词表，升级一语音辨识***及修改一语音模型，且下载上述第一语音关键词表至上述语音辨识装置，上述语音辨识装置经由一接口耦接至上述设定装置，其中，所述语音辨识***安装于设定装置内，用以改善语音辨识装置的语音辨识，所述语音辨识***包括：语音关键词表产生装置，用以产生第一语音关键词表并下载上述第一语音关键词表至上述语音辨识装置；以及用以更新上述语音辨识装置的语音模型的装置，

其中上述第一语音关键词表以及上述第二语音关键词表包括视觉形式数据、口语形式数据、语音格式数据、对应于关键词的登录数据、语音合成产生语音提示，以及对应于上述语音格式数据的语音模型。

30.根据权利要求29所述的改善语音辨识的装置，其中上述语音辨识装置为语音键盘装置。

31.根据权利要求29所述的改善语音辨识的装置，其中上述语音辨识装置为无线耳机。

32.根据权利要求29所述的改善语音辨识的装置，其中上述设定装置为个人计算机。