CN103137129A

CN103137129A - 语音识别方法及电子装置

Info

Publication number: CN103137129A
Application number: CN2012103888896A
Authority: CN
Inventors: 孙良哲; 郑尧文; 许肇凌; 林志鸿
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2011-12-02
Filing date: 2012-10-12
Publication date: 2013-06-05
Anticipated expiration: 2032-10-12
Also published as: US20130144618A1; CN103137129B

Abstract

本发明提供一种语音识别方法以及电子装置。其中，所述的语音识别方法用于电子装置，该语音识别方法包括：透过电子装置的用户使用情况收集用户特定信息，其中，用户特定信息特定用于用户；记录用户的发言；使远程服务器产生记录的发言的远程语音识别结果；根据收集的用户特定信息产生记录的发言的再评分信息；以及根据再评分信息对远程语音识别结果进行再评分。本发明提供的语音识别方法可提供相较于“云语音识别结果”更为准确可靠的语音识别结果，改进用户体验。

Description

语音识别方法及电子装置

技术领域

本发明有关于一种语音识别方法，更具体地，有关于一种语音识别方法及电子装置。

背景技术

缺乏足够计算功率（computing power）处理复杂任务是许多消费电子装置所面临的问题，其中，消费电子装置可例如智能电视（smart television）、平板计算机（tablet computer）及智能手机等。幸运地是，云计算（cloud computation）的概念已逐步地减轻了此固有限制。具体地，云计算概念允许消费电子装置作为客户端（client）进行工作并将复杂任务分配给云端的远程服务器（remoteserver）。例如语音识别（speech recognition）便是这种可分配任务。

然而，远程服务器使用的大多数语言模型（language model）是为普通用户（average user）而设计。远程服务器不能或几乎不会为每个独立的用户而进行语言模型优化。如果没有对每个独立用户的自定义优化，消费电子装置可能无法向其用户提供最精确可靠的语音识别结果。

发明内容

有鉴于此，本发明提供一种语音识别方法及电子装置。

本发明提供一种语音识别方法，用于电子装置，该语音识别方法包括：透过该电子装置的用户使用情况收集用户特定信息，其中，该用户特定信息特定用于该用户；记录该用户的发言；使远程服务器产生该记录的发言的远程语音识别结果；根据该收集的用户特定信息产生该记录的发言的再评分信息；以及根据该再评分信息对该远程语音识别结果进行再评分。

本发明另提供一种语音识别方法，用于电子装置，该语音识别方法包括：记录该用户发言；从该记录的发言中提取噪声信息；使远程服务器产生该记录的发言的远程语音识别结果；以及根据该提取的噪声信息对该远程语音识别结果进行再评分。

本发明再提供一种语音识别电子装置，包括：信息收集器，用于透过该电子装置的用户使用情况收集用户特定信息，其中，该用户特定信息特定用于该用户；录音器，用于记录该用户发言；以及再评分信息产生器，耦接于该信息收集器，该再评分信息产生器用于根据该收集的用户特定信息产生该记录的发言的再评分信息；其中，该电子装置用于使远程服务器产生该记录的发言的远程语音识别结果，以及根据该再评分信息对该远程语音识别结果进行再评分。

本发明还提供一种语音识别电子装置，包括：录音器，用于记录该电子装置的用户发言；以及噪声信息提取器，耦接于该录音器，且该噪声信息提取器用于从该记录的发言中提取噪声信息；其中，该电子装置用于使远程服务器产生该记录的发言的远程语音识别结果；并用于根据该提取的噪声信息对该远程语音识别结果进行再评分。

本发明提供的语音识别方法可提供相较于“云语音识别结果”更为准确可靠的语音识别结果，改进用户体验。

附图说明

图1为根据本发明一个实施例分布式语音识别***的方块图；

图2为根据本发明另一个实施例分布式语音识别***的方块图；

图3为图1/图2的电子装置执行语音识别方法的流程图；

图4/图5为根据本发明实施例的分布式语音识别***400/500的方块图；

图6为图4/图5的电子装置执行语音识别方法的流程图；

图7为根据本发明一个实施例的分布式语音识别***的方块图；

图8为根据本发明一个实施例的分布式语音识别***的方块图；

图9为图7/图8的电子装置执行语音识别方法的流程图；

图10为根据本发明一个实施例分布式语音识别***的方块图；

图11为根据本发明一个实施例的分布式语音识别***的方块图；

图12为图10/图11的电子装置执行语音识别方法的流程图。

具体实施方式

下面的详细描述将介绍本发明提出的分布式语音识别***（distributedspeech recognition system）的若干实施例，其中的每个实施例包括电子装置和远程服务器。电子装置可以为消费电子装置，例如智能电视、平板计算机、智能手机或可以向其用户提供语音识别服务或基于语音识别的服务的任何电子装置。远程服务器可以位于云端并透过互联网与电子装置进行通信。

对于语音识别，电子装置和远程服务器具有不同优势；上述多个实施例允许这两个装置中的每一个使用各自优势来促进语音识别。例如，远程服务器的优势之一在于它具有优越的计算功率且可使用复杂模型处理语音识别。而另一方面，电子装置的优势之一在于它与用户距离更近且因此可收集用于增强语音识别的一些辅助信息（auxiliary information）。而由于下述任何一个原因，远程服务器不能存取这些辅助信息。例如，辅助信息可包括私人性质的个人信息，因而电子装置避免与远程服务器共享个人信息。又例如，带宽限制和云存储空间限制也可能阻止电子装置与远程服务器共享这些辅助信息。

图1为根据本发明一个实施例分布式语音识别***100的方块图。分布式语音识别***100包括电子装置120和远程服务器140。电子装置120包括信息收集器（information collector）122、录音器124、再评分信息产生器（rescoringinformation generator）126以及结果再评分模块（result rescoring module）128。远程服务器140包括远程语音识别器（remote speech recognizer）142。图2为根据本发明另一个实施例分布式语音识别***200的方块图。分布式语音识别***200包括电子装置220和远程服务器240。图1和图2中实施例的不同点在于图2中是远程服务器240（而不是电子装置220）包括结果再评分模块128。

图3为图1/图2的电子装置120/220执行语音识别方法的流程图。首先，在步骤310中，信息收集器122透过电子装置120/220的用户使用情况(user's usage)收集用户特定信息（user-specific information），其中，该用户特定信息特定用于该用户。电子装置120/220连接或未连接至互联网时都可执行此步骤，收集的用户特定信息可包括：用户的联系人列表（contact list）、用户日程表（calendar）中的若干最近事件、若干订阅的内容/服务，若干最近接收/编辑/发送的消息/邮件、若干最近访问的网址、若干最近使用的应用程序、若干最近下载/存取的电子书/歌曲/视频、若干社交网络服务（例如脸谱（Facebook）、推持(Twitter)、谷歌+（Google+）和微博）的使用情况以及用户的声学特性（acoustic characteristic）等。用户特定信息可揭示用户的个人兴趣、习惯、情感、最常用词语等，因此当用户发言（make an utterance）以使分布式语音识别***100/200进行识别时，用户特定信息可建议（suggest）用户可能使用的潜在词语（potential word）。换句话说，用户特定信息可包括可用于语音识别的有价值信息。

在步骤320中，录音器124记录用户的发言。由于用户想要通过发言而不是通过打字（typing）/手写（writing）的方式向电子装置120/220输入字符串（textstring），因此用户可进行发言。又例如，该发言可构成用户对电子装置120/220发出的命令。

在步骤330中，电子装置120/220使远程服务器140/240产生该记录的发言的远程语音识别结果。例如，电子装置120/220要完成所述操作可通过发送记录的发言或其压缩版本至远程服务器140/240，等待一段时间，然后从远程服务器140/240接收远程语音识别结果。由于远程服务器140/240除了未为用户而进行优化，具有优越的计算功率并使用复杂的语音识别模型，远程语音识别结果可能是相当好的推测（speculation）。

远程语音识别结果可包括一些连续文本单元（text unit），这些文本单元中的每个都可包括单词或短语并且每个文本单元都附有一个置信分数（confidencescore）。置信分数越高，远程服务器140/240越有信心确认附有该置信分数的文本单元为准确的推测。每个文本单元可具有一个以上的替换选择供使用者或电子装置120/220从中进行选择，且其中每个替换选择都附有一个置信分数。例如，如果在步骤320中用户说出“the weather today is good”的发言，则在步骤330中远程服务器140/240可产生下列远程语音识别结果。

The(5.5)weather(2.3)/whether(2.2)today(4.0)is(3.8)good(3.2)/gold(0.9)。

在步骤340中，再评分信息产生器126根据步骤310中收集的用户特定信息产生记录的发言的再评分信息。例如，再评分信息可包括单词/短语的统计模型（statistical model），该统计模型可以帮助分布式语音识别***100/200识别步骤320中记录的用户的发言的内容。再评分信息产生器126根据电子装置120/220产生的记录的发言的本地语音识别结果或者根据步骤330中产生的远程语音识别结果从收集的用户特定信息中提取再评分信息。例如，如果根据本地/远程语音识别结果，电子装置120/220确定记录的发言可包括单词“call”或“dial”，再评分信息产生器126可提供有关于用户联系人列表或最近拨打/接收/错过的呼叫的信息作为再评分信息。再评分信息产生器126也可不参考记录的发言而产生再评分信息。例如，根据收集的用户特定信息所指示，再评分信息可仅包括用户最可能使用的单词。

在步骤350中，电子装置120/220使结果再评分模块128根据再评分信息对远程语音识别结果进行再评分以产生再评分的语音识别结果。“再评分”用在语音识别的情境（context）中表示修改（modify）、更正（correct）或者尝试修改/更正。由于再评分的语音识别结果可受收集的用户特定信息影响，而远程服务器140/240可能无法存取收集的用户特定信息，因此有可能再评分的语音识别结果可更准确表示步骤320中记录的用户的发言。

例如，如果远程语音识别结果表示远程服务器140/240不确定是否记录的发言包括姓名“Johnson"或"Jonathan”，而再评分信息指示Johnson是用户刚错过其呼叫的联系人或者Johnson是用户计划一会儿之后见面的人，则结果再评分模块128可相应地改变与“Johnson"和"Jonathan”相应的置信评分，或者直接将"Jonathan”从记录的语音识别结果中排除。

在图2中，由于结果再评分模块128位于远程服务器240中，在步骤350中，电子装置220必须首先发送再评分信息至远程服务器240，等待一段时间，然后再从远程服务器240接收再评分的语音识别结果。

图4/图5为根据本发明实施例的分布式语音识别***400/500的方块图。可以本地语音识别器426来替代图1/图2中所示的再评分信息产生器126；则图1/图2的分布式语音识别***100/200将改变为图4/图5的分布式语音识别***400/500。本地语音识别器426可使用本地语音识别模型；本地语音识别模型比远程语音识别器所使用的远程语音识别模型更简单。

图6为图4/图5的电子装置420/520执行语音识别方法的流程图。除了前述的步骤310、步骤320以及步骤330之外，图6的流程图更包括步骤615、步骤640以及步骤650。在步骤615中，电子装置420/520使用在步骤310中信息收集器122收集的用户特定信息自适应（adapt）本地语音识别模型。如果远程服务器140/240可向本地语音识别器426提供其统计模型或一些用户个人信息，本地语音识别器426也可使用此补充信息（supplementary information）作为步骤615中自适应的附加前提（additional basis）。作为步骤615的结果，自适应后的本地语音识别模型更具有用户特定性（user-specific），且因此更适合识别步骤320中记录的特定用户的发言。

在步骤640中，本地语音识别器426使用自适应后的本地语音识别模型来产生记录的发言的本地语音识别结果。远程语音识别器142接收的记录的发言可能为压缩版本，而本地语音识别器426接收的记录的发言可为原版或未压缩版本（raw or uncompressed version）。由于本地语音识别结果不能用于对远程语音识别结果进行再评分，可将本地语音识别结果称为“再评分信息”，并且也可将本地语音识别器426看作再评分信息产生器。

与远程语音识别结果一样，本地语音识别结果也可包括一些连续文本单元，这些文本单元中的每个都可包括单词或短语并且每个文本单元都附有一个置信分数。置信分数越高，本地语音识别器426越有信心确认附有该置信分数的文本单元为准确的推测。每个文本单元也可具有一个以上的替换选择，且其中每个替换选择都附有一个置信分数。

尽管电子装置420/520的计算功率可能不及远程服务器140/240，且本地语音识别器426的自适应本地语音识别模型可能比远程语音识别器142使用的远程语音识别模型简单许多，然而步骤615中执行的用户特定自适应使本地语音识别结果有时可能比远程语音识别结果更准确。

在步骤650中，电子装置420/520使结果再评分模块128根据本地语音识别结果对远程语音识别结果进行再评分以产生再评分的语音识别结果。由于再评分的语音识别结果可受收集的用户特定信息影响，而远程服务器可能无法存取收集的用户特定信息，因而有可能再评分的语音识别结果可更准确表示步骤320中记录的用户的发言。

例如，如果远程语音识别结果为“the(5.5)weapon(0.5)today(4.0)is(3.8)good(3.2)”，而本地语音识别结果为“the(4.4)weather(2.3)tonight(2.1)is(3.4)good(3.6)”，则再评分的语音识别结果可能是“the weather today is good”从而正确地表示了步骤320中记录的用户发言。

由于图4/图5所示的实施例包括本地语音识别器426，因此如果远程服务器140/240故障或者网络较慢，或者如果本地语音识别器426在本地语音识别结果中具有更高的置信分数，电子装置420/520可跳过步骤650或跳过步骤330和步骤650并直接使用步骤640中产生的本地语音识别结果作为最终的语音识别结果。此种做法可改进电子装置420/520提供的使用语音识别或基于语音识别的服务的用户体验。

图7为根据本发明一个实施例的分布式语音识别***700的方块图。语音识别***700包括电子装置720和远程服务器140。电子装置720与图1所示的电子装置120的不同之处在于电子装置720包括噪声信息提取器722但并不包括信息收集器122和再评分信息产生器126。图8为根据本发明一个实施例的分布式语音识别***800的方块图。分布式语音识别***800包括电子装置820和远程服务器240。电子装置820与图7所示的电子装置720的不同之处在于电子装置820不包括结果再评分模块128。

对于语音识别，电子装置720/820比远程服务器140/240具有一些优势。例如，电子装置720/820的其中一个优势在于它距离进行语音识别的环境更近。因此，电子装置720/820的可更容易分析辨认伴随用户发言的噪声。这是由于电子装置720/820可完好地存取记录的发言但仅向远程服务器140/240提供记录的发言的压缩版本。对于远程服务器140/240而言使用记录的发言的压缩版本进行噪声分析相对更困难。

图9为图7/图8的电子装置720/820执行语音识别方法的流程图。除了前述的步骤320以及步骤330之外，图9的流程图更包括步骤925和步骤950。在步骤925中，噪声信息提取器722从记录的发言中提取噪声信息。例如，所提取的噪声信息可包括信噪比（signal-to-noise ratio，SNR)值，该SNR值指示记录的发言受噪声污染（taint）的程度。

在步骤950中，电子装置720/820使结果再评分模块128根据提取的噪声信息对远程语音识别结果进行再评分以产生再评分的语音识别结果。

例如，当SNR值低时，结果再评分模块128可对元音（vowel）提供更高的置信分数。又例如，当SNR值高时，结果再评分模块128可对语音帧（speechframe）给予更高权重。由于提取的噪声信息可影响再评分的语音识别结果，因而再评分的语音识别结果可更准确地表示步骤320中记录的用户的发言。

在图8中，由于结果再评分模块128在远程服务器240中，在步骤950中，电子装置820必须首先发送提取的噪声信息至远程服务器240，等待一段时间，然后再从远程服务器240接收再评分的语音识别结果。

图10为根据本发明一个实施例分布式语音识别***1000的方块图。语音识别***1000包括电子装置1020和远程服务器140。电子装置1020与图4所示的电子装置420的不同之处在于电子装置1020包括噪声信息提取器722但并不包括信息收集器122。图11为根据本发明一个实施例的分布式语音识别***1100的方块图。分布式语音识别***1100包括电子装置1120和远程服务器240。电子装置1120与图5所示的电子装置520的不同之处在于电子装置1120包括噪声信息提取器722但并不包括信息收集器122。

图12为图10/图11的电子装置1020/1120执行语音识别方法的流程图。除了前述的步骤320、步骤925、步骤330、步骤640以及步骤650之外，图12的流程图更包括步骤1235。在步骤1235中，电子装置1020/1120使用噪声信息提取器722提供的噪声信息自适应本地语音识别器426使用的本地语音识别模型。例如，如果所提取的噪声信息指示记录的发言包括许多噪声，自适应后的本地语音识别模型可能更适合嘈杂的环境；如果所提取的噪声信息指示记录的发言相对无噪声（noise-free），自适应后的本地语音识别模型可能更适合安静的环境。

尽管自适应后的本地语音识别模型可能比远程语音识别器142使用的远程语音识别模型简单许多，然而在步骤1235中执行的基于噪声的自适应操作使步骤640中本地语音识别器426产生的本地语音识别结果有时可能比远程语音识别结果更准确。

由于图10/图11所示的实施例包括本地语音识别器426，因此如果远程服务器140/240故障或者网络较慢，或者如果本地语音识别器426在本地语音识别结果中具有更高的置信分数，电子装置1020/1120可跳过步骤650或跳过步骤330和步骤650并直接使用步骤640中产生的本地语音识别结果作为最终的语音识别结果。此种做法可改进电子装置1020/1120提供的使用语音识别或基于语音识别的服务的用户体验。

在前述实施例中，电子装置120/220/420/520/720/820/1020/1120可使用步骤350/650/950中结果再评分模块128所提供的再评分的语音识别结果。电子装置120/220/420/520/720/820/1020/1120可在屏幕上显示记录的语音识别结果、呼叫与结果中包括的姓名对应的电话号码、将结果添加至编辑文件中、响应该结果而开始或控制应用程序或者使用结果作为搜索查询（search query）而执行网络搜索。

在前面的具体描述中，本发明参考特定实施例来对发明进行描述。显然，在不脱离本发明精神和后附的权利要求限定的范围的前提下可对本发明做些许更改。相应地，具体实施方式和附图应看作为说明的目的而非限制目的。

Claims

1.一种语音识别方法，用于电子装置，该语音识别方法包括：

透过该电子装置的用户使用情况收集用户特定信息，其中，该用户特定信息特定用于该用户；

记录该用户的发言；

使远程服务器产生该记录的发言的远程语音识别结果；

根据该收集的用户特定信息产生该记录的发言的再评分信息；以及

根据该再评分信息对该远程语音识别结果进行再评分。

2.如权利要求1所述的语音识别方法，其特征在于，该再评分信息包括本地语音识别结果，且该产生该再评分信息的步骤包括：

根据该收集的用户特定信息自适应本地语音识别模型；以及

使用该自适应后的本地语音识别模型产生该记录的发言的该本地语音识别结果。

3.如权利要求1所述的语音识别方法，其特征在于，该语音识别方法更包括:

避免与该远程服务器共享至少一部分的该收集的用户特定信息。

4.如权利要求1所述的语音识别方法，其特征在于，该收集的用户特定信息包括该远程服务器不能存取的信息。

5.一种语音识别方法，用于电子装置，该语音识别方法包括：

记录该用户发言；

从该记录的发言中提取噪声信息；

使远程服务器产生该记录的发言的远程语音识别结果；以及

根据该提取的噪声信息对该远程语音识别结果进行再评分。

6.如权利要求5所述的语音识别方法，其特征在于，该对该远程语音识别结果进行再评分的步骤包括：

使用该提取的噪声信息自适应本地语音识别模型；

使用该自适应后的本地语音识别模型产生该记录的发言的本地语音识别结果；

根据该本地语音识别结果对该远程语音识别结果进行再评分。

7.如权利要求5所述的语音识别方法，其特征在于，该提取的噪声信息包括信噪比。

8.一种语音识别电子装置，包括：

信息收集器，用于透过该电子装置的用户使用情况收集用户特定信息，其中，该用户特定信息特定用于该用户；

录音器，用于记录该用户发言；以及

再评分信息产生器，耦接于该信息收集器，该再评分信息产生器用于根据该收集的用户特定信息产生该记录的发言的再评分信息；

其中，该电子装置用于使远程服务器产生该记录的发言的远程语音识别结果，以及根据该再评分信息对该远程语音识别结果进行再评分。

9.如权利要求8所述的语音识别电子装置，其特征在于，该再评分信息包括本地语音识别结果，且该再评分信息产生器使用本地语音识别模型并使用该收集的用户特定信息自适应该本地语音识别模型，以及使用该自适应后的本地语音识别模型产生该记录的发言的该本地语音识别结果。

10.如权利要求8所述的语音识别电子装置，其特征在于，该收集的用户特定信息包括该电子装置避免与该远程服务器共享的信息。

11.如权利要求8所述的语音识别电子装置，其特征在于，该收集的用户特定信息包括该远程服务器不能存取的信息。

12.一种语音识别电子装置，包括：

录音器，用于记录该电子装置的用户发言；以及

噪声信息提取器，耦接于该录音器，且该噪声信息提取器用于从该记录的发言中提取噪声信息；

其中，该电子装置用于使远程服务器产生该记录的发言的远程语音识别结果；并用于根据该提取的噪声信息对该远程语音识别结果进行再评分。

13.如权利要求12所述的语音识别电子装置，其特征在于，该电子装置更包括本地语音识别器，耦接于该录音器和该噪声信息提取器，该本地语音识别器具有本地语音识别模型，且该本地语音识别器用于根据该提取的噪声信息自适应该本地语音识别模型，并用于使用该自适应后的本地语音识别模型产生该记录的发言的本地语音识别结果；且该电子装置用于根据该本地语音识别结果对该远程语音识别结果进行再评分。

14.如权利要求12所述的语音识别电子装置，其特征在于，该提取的噪声信息包括信噪比。