CN103137129A - 语音识别方法及电子装置 - Google Patents
语音识别方法及电子装置 Download PDFInfo
- Publication number
- CN103137129A CN103137129A CN2012103888896A CN201210388889A CN103137129A CN 103137129 A CN103137129 A CN 103137129A CN 2012103888896 A CN2012103888896 A CN 2012103888896A CN 201210388889 A CN201210388889 A CN 201210388889A CN 103137129 A CN103137129 A CN 103137129A
- Authority
- CN
- China
- Prior art keywords
- speech
- information
- user
- recognition result
- local voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000009434 installation Methods 0.000 claims description 83
- 230000019771 cognition Effects 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 19
- 239000000284 extract Substances 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 230000008901 benefit Effects 0.000 description 6
- 230000000576 supplementary effect Effects 0.000 description 5
- 238000013179 statistical model Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种语音识别方法以及电子装置。其中,所述的语音识别方法用于电子装置,该语音识别方法包括:透过电子装置的用户使用情况收集用户特定信息,其中,用户特定信息特定用于用户;记录用户的发言;使远程服务器产生记录的发言的远程语音识别结果;根据收集的用户特定信息产生记录的发言的再评分信息;以及根据再评分信息对远程语音识别结果进行再评分。本发明提供的语音识别方法可提供相较于“云语音识别结果”更为准确可靠的语音识别结果,改进用户体验。
Description
技术领域
本发明有关于一种语音识别方法,更具体地,有关于一种语音识别方法及电子装置。
背景技术
缺乏足够计算功率(computing power)处理复杂任务是许多消费电子装置所面临的问题,其中,消费电子装置可例如智能电视(smart television)、平板计算机(tablet computer)及智能手机等。幸运地是,云计算(cloud computation)的概念已逐步地减轻了此固有限制。具体地,云计算概念允许消费电子装置作为客户端(client)进行工作并将复杂任务分配给云端的远程服务器(remoteserver)。例如语音识别(speech recognition)便是这种可分配任务。
然而,远程服务器使用的大多数语言模型(language model)是为普通用户(average user)而设计。远程服务器不能或几乎不会为每个独立的用户而进行语言模型优化。如果没有对每个独立用户的自定义优化,消费电子装置可能无法向其用户提供最精确可靠的语音识别结果。
发明内容
有鉴于此,本发明提供一种语音识别方法及电子装置。
本发明提供一种语音识别方法,用于电子装置,该语音识别方法包括:透过该电子装置的用户使用情况收集用户特定信息,其中,该用户特定信息特定用于该用户;记录该用户的发言;使远程服务器产生该记录的发言的远程语音识别结果;根据该收集的用户特定信息产生该记录的发言的再评分信息;以及根据该再评分信息对该远程语音识别结果进行再评分。
本发明另提供一种语音识别方法,用于电子装置,该语音识别方法包括:记录该用户发言;从该记录的发言中提取噪声信息;使远程服务器产生该记录的发言的远程语音识别结果;以及根据该提取的噪声信息对该远程语音识别结果进行再评分。
本发明再提供一种语音识别电子装置,包括:信息收集器,用于透过该电子装置的用户使用情况收集用户特定信息,其中,该用户特定信息特定用于该用户;录音器,用于记录该用户发言;以及再评分信息产生器,耦接于该信息收集器,该再评分信息产生器用于根据该收集的用户特定信息产生该记录的发言的再评分信息;其中,该电子装置用于使远程服务器产生该记录的发言的远程语音识别结果,以及根据该再评分信息对该远程语音识别结果进行再评分。
本发明还提供一种语音识别电子装置,包括:录音器,用于记录该电子装置的用户发言;以及噪声信息提取器,耦接于该录音器,且该噪声信息提取器用于从该记录的发言中提取噪声信息;其中,该电子装置用于使远程服务器产生该记录的发言的远程语音识别结果;并用于根据该提取的噪声信息对该远程语音识别结果进行再评分。
本发明提供的语音识别方法可提供相较于“云语音识别结果”更为准确可靠的语音识别结果,改进用户体验。
附图说明
图1为根据本发明一个实施例分布式语音识别***的方块图;
图2为根据本发明另一个实施例分布式语音识别***的方块图;
图3为图1/图2的电子装置执行语音识别方法的流程图;
图4/图5为根据本发明实施例的分布式语音识别***400/500的方块图;
图6为图4/图5的电子装置执行语音识别方法的流程图;
图7为根据本发明一个实施例的分布式语音识别***的方块图;
图8为根据本发明一个实施例的分布式语音识别***的方块图;
图9为图7/图8的电子装置执行语音识别方法的流程图;
图10为根据本发明一个实施例分布式语音识别***的方块图;
图11为根据本发明一个实施例的分布式语音识别***的方块图;
图12为图10/图11的电子装置执行语音识别方法的流程图。
具体实施方式
下面的详细描述将介绍本发明提出的分布式语音识别***(distributedspeech recognition system)的若干实施例,其中的每个实施例包括电子装置和远程服务器。电子装置可以为消费电子装置,例如智能电视、平板计算机、智能手机或可以向其用户提供语音识别服务或基于语音识别的服务的任何电子装置。远程服务器可以位于云端并透过互联网与电子装置进行通信。
对于语音识别,电子装置和远程服务器具有不同优势;上述多个实施例允许这两个装置中的每一个使用各自优势来促进语音识别。例如,远程服务器的优势之一在于它具有优越的计算功率且可使用复杂模型处理语音识别。而另一方面,电子装置的优势之一在于它与用户距离更近且因此可收集用于增强语音识别的一些辅助信息(auxiliary information)。而由于下述任何一个原因,远程服务器不能存取这些辅助信息。例如,辅助信息可包括私人性质的个人信息,因而电子装置避免与远程服务器共享个人信息。又例如,带宽限制和云存储空间限制也可能阻止电子装置与远程服务器共享这些辅助信息。
图1为根据本发明一个实施例分布式语音识别***100的方块图。分布式语音识别***100包括电子装置120和远程服务器140。电子装置120包括信息收集器(information collector)122、录音器124、再评分信息产生器(rescoringinformation generator)126以及结果再评分模块(result rescoring module)128。远程服务器140包括远程语音识别器(remote speech recognizer)142。图2为根据本发明另一个实施例分布式语音识别***200的方块图。分布式语音识别***200包括电子装置220和远程服务器240。图1和图2中实施例的不同点在于图2中是远程服务器240(而不是电子装置220)包括结果再评分模块128。
图3为图1/图2的电子装置120/220执行语音识别方法的流程图。首先,在步骤310中,信息收集器122透过电子装置120/220的用户使用情况(user's usage)收集用户特定信息(user-specific information),其中,该用户特定信息特定用于该用户。电子装置120/220连接或未连接至互联网时都可执行此步骤,收集的用户特定信息可包括:用户的联系人列表(contact list)、用户日程表(calendar)中的若干最近事件、若干订阅的内容/服务,若干最近接收/编辑/发送的消息/邮件、若干最近访问的网址、若干最近使用的应用程序、若干最近下载/存取的电子书/歌曲/视频、若干社交网络服务(例如脸谱(Facebook)、推持(Twitter)、谷歌+(Google+)和微博)的使用情况以及用户的声学特性(acoustic characteristic)等。用户特定信息可揭示用户的个人兴趣、习惯、情感、最常用词语等,因此当用户发言(make an utterance)以使分布式语音识别***100/200进行识别时,用户特定信息可建议(suggest)用户可能使用的潜在词语(potential word)。换句话说,用户特定信息可包括可用于语音识别的有价值信息。
在步骤320中,录音器124记录用户的发言。由于用户想要通过发言而不是通过打字(typing)/手写(writing)的方式向电子装置120/220输入字符串(textstring),因此用户可进行发言。又例如,该发言可构成用户对电子装置120/220发出的命令。
在步骤330中,电子装置120/220使远程服务器140/240产生该记录的发言的远程语音识别结果。例如,电子装置120/220要完成所述操作可通过发送记录的发言或其压缩版本至远程服务器140/240,等待一段时间,然后从远程服务器140/240接收远程语音识别结果。由于远程服务器140/240除了未为用户而进行优化,具有优越的计算功率并使用复杂的语音识别模型,远程语音识别结果可能是相当好的推测(speculation)。
远程语音识别结果可包括一些连续文本单元(text unit),这些文本单元中的每个都可包括单词或短语并且每个文本单元都附有一个置信分数(confidencescore)。置信分数越高,远程服务器140/240越有信心确认附有该置信分数的文本单元为准确的推测。每个文本单元可具有一个以上的替换选择供使用者或电子装置120/220从中进行选择,且其中每个替换选择都附有一个置信分数。例如,如果在步骤320中用户说出“the weather today is good”的发言,则在步骤330中远程服务器140/240可产生下列远程语音识别结果。
The(5.5)weather(2.3)/whether(2.2)today(4.0)is(3.8)good(3.2)/gold(0.9)。
在步骤340中,再评分信息产生器126根据步骤310中收集的用户特定信息产生记录的发言的再评分信息。例如,再评分信息可包括单词/短语的统计模型(statistical model),该统计模型可以帮助分布式语音识别***100/200识别步骤320中记录的用户的发言的内容。再评分信息产生器126根据电子装置120/220产生的记录的发言的本地语音识别结果或者根据步骤330中产生的远程语音识别结果从收集的用户特定信息中提取再评分信息。例如,如果根据本地/远程语音识别结果,电子装置120/220确定记录的发言可包括单词“call”或“dial”,再评分信息产生器126可提供有关于用户联系人列表或最近拨打/接收/错过的呼叫的信息作为再评分信息。再评分信息产生器126也可不参考记录的发言而产生再评分信息。例如,根据收集的用户特定信息所指示,再评分信息可仅包括用户最可能使用的单词。
在步骤350中,电子装置120/220使结果再评分模块128根据再评分信息对远程语音识别结果进行再评分以产生再评分的语音识别结果。“再评分”用在语音识别的情境(context)中表示修改(modify)、更正(correct)或者尝试修改/更正。由于再评分的语音识别结果可受收集的用户特定信息影响,而远程服务器140/240可能无法存取收集的用户特定信息,因此有可能再评分的语音识别结果可更准确表示步骤320中记录的用户的发言。
例如,如果远程语音识别结果表示远程服务器140/240不确定是否记录的发言包括姓名“Johnson"或"Jonathan”,而再评分信息指示Johnson是用户刚错过其呼叫的联系人或者Johnson是用户计划一会儿之后见面的人,则结果再评分模块128可相应地改变与“Johnson"和"Jonathan”相应的置信评分,或者直接将"Jonathan”从记录的语音识别结果中排除。
在图2中,由于结果再评分模块128位于远程服务器240中,在步骤350中,电子装置220必须首先发送再评分信息至远程服务器240,等待一段时间,然后再从远程服务器240接收再评分的语音识别结果。
图4/图5为根据本发明实施例的分布式语音识别***400/500的方块图。可以本地语音识别器426来替代图1/图2中所示的再评分信息产生器126;则图1/图2的分布式语音识别***100/200将改变为图4/图5的分布式语音识别***400/500。本地语音识别器426可使用本地语音识别模型;本地语音识别模型比远程语音识别器所使用的远程语音识别模型更简单。
图6为图4/图5的电子装置420/520执行语音识别方法的流程图。除了前述的步骤310、步骤320以及步骤330之外,图6的流程图更包括步骤615、步骤640以及步骤650。在步骤615中,电子装置420/520使用在步骤310中信息收集器122收集的用户特定信息自适应(adapt)本地语音识别模型。如果远程服务器140/240可向本地语音识别器426提供其统计模型或一些用户个人信息,本地语音识别器426也可使用此补充信息(supplementary information)作为步骤615中自适应的附加前提(additional basis)。作为步骤615的结果,自适应后的本地语音识别模型更具有用户特定性(user-specific),且因此更适合识别步骤320中记录的特定用户的发言。
在步骤640中,本地语音识别器426使用自适应后的本地语音识别模型来产生记录的发言的本地语音识别结果。远程语音识别器142接收的记录的发言可能为压缩版本,而本地语音识别器426接收的记录的发言可为原版或未压缩版本(raw or uncompressed version)。由于本地语音识别结果不能用于对远程语音识别结果进行再评分,可将本地语音识别结果称为“再评分信息”,并且也可将本地语音识别器426看作再评分信息产生器。
与远程语音识别结果一样,本地语音识别结果也可包括一些连续文本单元,这些文本单元中的每个都可包括单词或短语并且每个文本单元都附有一个置信分数。置信分数越高,本地语音识别器426越有信心确认附有该置信分数的文本单元为准确的推测。每个文本单元也可具有一个以上的替换选择,且其中每个替换选择都附有一个置信分数。
尽管电子装置420/520的计算功率可能不及远程服务器140/240,且本地语音识别器426的自适应本地语音识别模型可能比远程语音识别器142使用的远程语音识别模型简单许多,然而步骤615中执行的用户特定自适应使本地语音识别结果有时可能比远程语音识别结果更准确。
在步骤650中,电子装置420/520使结果再评分模块128根据本地语音识别结果对远程语音识别结果进行再评分以产生再评分的语音识别结果。由于再评分的语音识别结果可受收集的用户特定信息影响,而远程服务器可能无法存取收集的用户特定信息,因而有可能再评分的语音识别结果可更准确表示步骤320中记录的用户的发言。
例如,如果远程语音识别结果为“the(5.5)weapon(0.5)today(4.0)is(3.8)good(3.2)”,而本地语音识别结果为“the(4.4)weather(2.3)tonight(2.1)is(3.4)good(3.6)”,则再评分的语音识别结果可能是“the weather today is good”从而正确地表示了步骤320中记录的用户发言。
由于图4/图5所示的实施例包括本地语音识别器426,因此如果远程服务器140/240故障或者网络较慢,或者如果本地语音识别器426在本地语音识别结果中具有更高的置信分数,电子装置420/520可跳过步骤650或跳过步骤330和步骤650并直接使用步骤640中产生的本地语音识别结果作为最终的语音识别结果。此种做法可改进电子装置420/520提供的使用语音识别或基于语音识别的服务的用户体验。
图7为根据本发明一个实施例的分布式语音识别***700的方块图。语音识别***700包括电子装置720和远程服务器140。电子装置720与图1所示的电子装置120的不同之处在于电子装置720包括噪声信息提取器722但并不包括信息收集器122和再评分信息产生器126。图8为根据本发明一个实施例的分布式语音识别***800的方块图。分布式语音识别***800包括电子装置820和远程服务器240。电子装置820与图7所示的电子装置720的不同之处在于电子装置820不包括结果再评分模块128。
对于语音识别,电子装置720/820比远程服务器140/240具有一些优势。例如,电子装置720/820的其中一个优势在于它距离进行语音识别的环境更近。因此,电子装置720/820的可更容易分析辨认伴随用户发言的噪声。这是由于电子装置720/820可完好地存取记录的发言但仅向远程服务器140/240提供记录的发言的压缩版本。对于远程服务器140/240而言使用记录的发言的压缩版本进行噪声分析相对更困难。
图9为图7/图8的电子装置720/820执行语音识别方法的流程图。除了前述的步骤320以及步骤330之外,图9的流程图更包括步骤925和步骤950。在步骤925中,噪声信息提取器722从记录的发言中提取噪声信息。例如,所提取的噪声信息可包括信噪比(signal-to-noise ratio,SNR)值,该SNR值指示记录的发言受噪声污染(taint)的程度。
在步骤950中,电子装置720/820使结果再评分模块128根据提取的噪声信息对远程语音识别结果进行再评分以产生再评分的语音识别结果。
例如,当SNR值低时,结果再评分模块128可对元音(vowel)提供更高的置信分数。又例如,当SNR值高时,结果再评分模块128可对语音帧(speechframe)给予更高权重。由于提取的噪声信息可影响再评分的语音识别结果,因而再评分的语音识别结果可更准确地表示步骤320中记录的用户的发言。
在图8中,由于结果再评分模块128在远程服务器240中,在步骤950中,电子装置820必须首先发送提取的噪声信息至远程服务器240,等待一段时间,然后再从远程服务器240接收再评分的语音识别结果。
图10为根据本发明一个实施例分布式语音识别***1000的方块图。语音识别***1000包括电子装置1020和远程服务器140。电子装置1020与图4所示的电子装置420的不同之处在于电子装置1020包括噪声信息提取器722但并不包括信息收集器122。图11为根据本发明一个实施例的分布式语音识别***1100的方块图。分布式语音识别***1100包括电子装置1120和远程服务器240。电子装置1120与图5所示的电子装置520的不同之处在于电子装置1120包括噪声信息提取器722但并不包括信息收集器122。
图12为图10/图11的电子装置1020/1120执行语音识别方法的流程图。除了前述的步骤320、步骤925、步骤330、步骤640以及步骤650之外,图12的流程图更包括步骤1235。在步骤1235中,电子装置1020/1120使用噪声信息提取器722提供的噪声信息自适应本地语音识别器426使用的本地语音识别模型。例如,如果所提取的噪声信息指示记录的发言包括许多噪声,自适应后的本地语音识别模型可能更适合嘈杂的环境;如果所提取的噪声信息指示记录的发言相对无噪声(noise-free),自适应后的本地语音识别模型可能更适合安静的环境。
尽管自适应后的本地语音识别模型可能比远程语音识别器142使用的远程语音识别模型简单许多,然而在步骤1235中执行的基于噪声的自适应操作使步骤640中本地语音识别器426产生的本地语音识别结果有时可能比远程语音识别结果更准确。
由于图10/图11所示的实施例包括本地语音识别器426,因此如果远程服务器140/240故障或者网络较慢,或者如果本地语音识别器426在本地语音识别结果中具有更高的置信分数,电子装置1020/1120可跳过步骤650或跳过步骤330和步骤650并直接使用步骤640中产生的本地语音识别结果作为最终的语音识别结果。此种做法可改进电子装置1020/1120提供的使用语音识别或基于语音识别的服务的用户体验。
在前述实施例中,电子装置120/220/420/520/720/820/1020/1120可使用步骤350/650/950中结果再评分模块128所提供的再评分的语音识别结果。电子装置120/220/420/520/720/820/1020/1120可在屏幕上显示记录的语音识别结果、呼叫与结果中包括的姓名对应的电话号码、将结果添加至编辑文件中、响应该结果而开始或控制应用程序或者使用结果作为搜索查询(search query)而执行网络搜索。
在前面的具体描述中,本发明参考特定实施例来对发明进行描述。显然,在不脱离本发明精神和后附的权利要求限定的范围的前提下可对本发明做些许更改。相应地,具体实施方式和附图应看作为说明的目的而非限制目的。
Claims (14)
1.一种语音识别方法,用于电子装置,该语音识别方法包括:
透过该电子装置的用户使用情况收集用户特定信息,其中,该用户特定信息特定用于该用户;
记录该用户的发言;
使远程服务器产生该记录的发言的远程语音识别结果;
根据该收集的用户特定信息产生该记录的发言的再评分信息;以及
根据该再评分信息对该远程语音识别结果进行再评分。
2.如权利要求1所述的语音识别方法,其特征在于,该再评分信息包括本地语音识别结果,且该产生该再评分信息的步骤包括:
根据该收集的用户特定信息自适应本地语音识别模型;以及
使用该自适应后的本地语音识别模型产生该记录的发言的该本地语音识别结果。
3.如权利要求1所述的语音识别方法,其特征在于,该语音识别方法更包括:
避免与该远程服务器共享至少一部分的该收集的用户特定信息。
4.如权利要求1所述的语音识别方法,其特征在于,该收集的用户特定信息包括该远程服务器不能存取的信息。
5.一种语音识别方法,用于电子装置,该语音识别方法包括:
记录该用户发言;
从该记录的发言中提取噪声信息;
使远程服务器产生该记录的发言的远程语音识别结果;以及
根据该提取的噪声信息对该远程语音识别结果进行再评分。
6.如权利要求5所述的语音识别方法,其特征在于,该对该远程语音识别结果进行再评分的步骤包括:
使用该提取的噪声信息自适应本地语音识别模型;
使用该自适应后的本地语音识别模型产生该记录的发言的本地语音识别结果;
根据该本地语音识别结果对该远程语音识别结果进行再评分。
7.如权利要求5所述的语音识别方法,其特征在于,该提取的噪声信息包括信噪比。
8.一种语音识别电子装置,包括:
信息收集器,用于透过该电子装置的用户使用情况收集用户特定信息,其中,该用户特定信息特定用于该用户;
录音器,用于记录该用户发言;以及
再评分信息产生器,耦接于该信息收集器,该再评分信息产生器用于根据该收集的用户特定信息产生该记录的发言的再评分信息;
其中,该电子装置用于使远程服务器产生该记录的发言的远程语音识别结果,以及根据该再评分信息对该远程语音识别结果进行再评分。
9.如权利要求8所述的语音识别电子装置,其特征在于,该再评分信息包括本地语音识别结果,且该再评分信息产生器使用本地语音识别模型并使用该收集的用户特定信息自适应该本地语音识别模型,以及使用该自适应后的本地语音识别模型产生该记录的发言的该本地语音识别结果。
10.如权利要求8所述的语音识别电子装置,其特征在于,该收集的用户特定信息包括该电子装置避免与该远程服务器共享的信息。
11.如权利要求8所述的语音识别电子装置,其特征在于,该收集的用户特定信息包括该远程服务器不能存取的信息。
12.一种语音识别电子装置,包括:
录音器,用于记录该电子装置的用户发言;以及
噪声信息提取器,耦接于该录音器,且该噪声信息提取器用于从该记录的发言中提取噪声信息;
其中,该电子装置用于使远程服务器产生该记录的发言的远程语音识别结果;并用于根据该提取的噪声信息对该远程语音识别结果进行再评分。
13.如权利要求12所述的语音识别电子装置,其特征在于,该电子装置更包括本地语音识别器,耦接于该录音器和该噪声信息提取器,该本地语音识别器具有本地语音识别模型,且该本地语音识别器用于根据该提取的噪声信息自适应该本地语音识别模型,并用于使用该自适应后的本地语音识别模型产生该记录的发言的本地语音识别结果;且该电子装置用于根据该本地语音识别结果对该远程语音识别结果进行再评分。
14.如权利要求12所述的语音识别电子装置,其特征在于,该提取的噪声信息包括信噪比。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161566224P | 2011-12-02 | 2011-12-02 | |
US61/566,224 | 2011-12-02 | ||
US13/417,343 US20130144618A1 (en) | 2011-12-02 | 2012-03-12 | Methods and electronic devices for speech recognition |
US13/417,343 | 2012-03-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103137129A true CN103137129A (zh) | 2013-06-05 |
CN103137129B CN103137129B (zh) | 2015-11-18 |
Family
ID=48524631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210388889.6A Expired - Fee Related CN103137129B (zh) | 2011-12-02 | 2012-10-12 | 语音识别方法及电子装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20130144618A1 (zh) |
CN (1) | CN103137129B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440867A (zh) * | 2013-08-02 | 2013-12-11 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及*** |
CN103559290A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 一种poi搜索方法及*** |
CN104536978A (zh) * | 2014-12-05 | 2015-04-22 | 奇瑞汽车股份有限公司 | 识别语音数据的方法和装置 |
CN104681026A (zh) * | 2013-11-27 | 2015-06-03 | 夏普株式会社 | 语音识别终端及***、服务器及其控制方法、非易失性存储介质 |
CN105551488A (zh) * | 2015-12-15 | 2016-05-04 | 深圳Tcl数字技术有限公司 | 语音控制方法及*** |
CN105592067A (zh) * | 2014-11-07 | 2016-05-18 | 三星电子株式会社 | 语音信号处理方法及实现此的终端和服务器 |
CN106782546A (zh) * | 2015-11-17 | 2017-05-31 | 深圳市北科瑞声科技有限公司 | 语音识别方法与装置 |
CN109036429A (zh) * | 2018-07-25 | 2018-12-18 | 浪潮电子信息产业股份有限公司 | 一种基于云服务的语音匹配评分查询方法及*** |
CN109313903A (zh) * | 2016-06-06 | 2019-02-05 | 思睿逻辑国际半导体有限公司 | 语音用户接口 |
CN109869862A (zh) * | 2019-01-23 | 2019-06-11 | 四川虹美智能科技有限公司 | 一种空调、一种空调的控制方法及一种空调*** |
CN112712802A (zh) * | 2020-12-23 | 2021-04-27 | 江西远洋保险设备实业集团有限公司 | 密集架智能信息处理语音识别操作控制*** |
US11308936B2 (en) | 2014-11-07 | 2022-04-19 | Samsung Electronics Co., Ltd. | Speech signal processing method and speech signal processing apparatus |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101917182B1 (ko) * | 2012-04-30 | 2019-01-24 | 삼성전자주식회사 | 영상처리장치, 음성취득장치, 그 음성인식방법 및 음성인식시스템 |
KR20140060040A (ko) | 2012-11-09 | 2014-05-19 | 삼성전자주식회사 | 디스플레이장치, 음성취득장치 및 그 음성인식방법 |
KR101990037B1 (ko) * | 2012-11-13 | 2019-06-18 | 엘지전자 주식회사 | 이동 단말기 및 그것의 제어 방법 |
CN103971680B (zh) * | 2013-01-24 | 2018-06-05 | 华为终端(东莞)有限公司 | 一种语音识别的方法、装置 |
CN103065631B (zh) * | 2013-01-24 | 2015-07-29 | 华为终端有限公司 | 一种语音识别的方法、装置 |
US20140278415A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Voice Recognition Configuration Selector and Method of Operation Therefor |
US20150032238A1 (en) | 2013-07-23 | 2015-01-29 | Motorola Mobility Llc | Method and Device for Audio Input Routing |
US9530416B2 (en) | 2013-10-28 | 2016-12-27 | At&T Intellectual Property I, L.P. | System and method for managing models for embedded speech and language processing |
US9666188B2 (en) | 2013-10-29 | 2017-05-30 | Nuance Communications, Inc. | System and method of performing automatic speech recognition using local private data |
DE102014200570A1 (de) * | 2014-01-15 | 2015-07-16 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren und System zur Erzeugung eines Steuerungsbefehls |
JP6450138B2 (ja) * | 2014-10-07 | 2019-01-09 | 株式会社Nttドコモ | 情報処理装置及び発話内容出力方法 |
US9530408B2 (en) | 2014-10-31 | 2016-12-27 | At&T Intellectual Property I, L.P. | Acoustic environment recognizer for optimal speech processing |
US11423023B2 (en) | 2015-06-05 | 2022-08-23 | Apple Inc. | Systems and methods for providing improved search functionality on a client device |
US10769184B2 (en) | 2015-06-05 | 2020-09-08 | Apple Inc. | Systems and methods for providing improved search functionality on a client device |
US10360902B2 (en) * | 2015-06-05 | 2019-07-23 | Apple Inc. | Systems and methods for providing improved search functionality on a client device |
US9691380B2 (en) * | 2015-06-15 | 2017-06-27 | Google Inc. | Negative n-gram biasing |
EP4026121A4 (en) * | 2019-09-04 | 2023-08-16 | Telepathy Labs, Inc. | VOICE RECOGNITION SYSTEMS AND METHODS |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1351745A (zh) * | 1999-03-26 | 2002-05-29 | 皇家菲利浦电子有限公司 | 客户一服务器语音识别 |
CN1448915A (zh) * | 2002-04-01 | 2003-10-15 | 欧姆龙株式会社 | 声音识别***、装置、声音识别方法以及声音识别程序 |
CN101454775A (zh) * | 2006-05-23 | 2009-06-10 | 摩托罗拉公司 | 通过基于协同客户端和服务器的语言识别的语法调整 |
US7657433B1 (en) * | 2006-09-08 | 2010-02-02 | Tellme Networks, Inc. | Speech recognition accuracy with multi-confidence thresholds |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7451085B2 (en) * | 2000-10-13 | 2008-11-11 | At&T Intellectual Property Ii, L.P. | System and method for providing a compensated speech recognition model for speech recognition |
US7209880B1 (en) * | 2001-03-20 | 2007-04-24 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
KR100897554B1 (ko) * | 2007-02-21 | 2009-05-15 | 삼성전자주식회사 | 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기 |
US9009041B2 (en) * | 2011-07-26 | 2015-04-14 | Nuance Communications, Inc. | Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data |
-
2012
- 2012-03-12 US US13/417,343 patent/US20130144618A1/en not_active Abandoned
- 2012-10-12 CN CN201210388889.6A patent/CN103137129B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1351745A (zh) * | 1999-03-26 | 2002-05-29 | 皇家菲利浦电子有限公司 | 客户一服务器语音识别 |
CN1448915A (zh) * | 2002-04-01 | 2003-10-15 | 欧姆龙株式会社 | 声音识别***、装置、声音识别方法以及声音识别程序 |
CN101454775A (zh) * | 2006-05-23 | 2009-06-10 | 摩托罗拉公司 | 通过基于协同客户端和服务器的语言识别的语法调整 |
US7657433B1 (en) * | 2006-09-08 | 2010-02-02 | Tellme Networks, Inc. | Speech recognition accuracy with multi-confidence thresholds |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440867A (zh) * | 2013-08-02 | 2013-12-11 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及*** |
CN103440867B (zh) * | 2013-08-02 | 2016-08-10 | 科大讯飞股份有限公司 | 语音识别方法及*** |
CN103559290A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 一种poi搜索方法及*** |
CN104681026A (zh) * | 2013-11-27 | 2015-06-03 | 夏普株式会社 | 语音识别终端及***、服务器及其控制方法、非易失性存储介质 |
CN105592067A (zh) * | 2014-11-07 | 2016-05-18 | 三星电子株式会社 | 语音信号处理方法及实现此的终端和服务器 |
US10600405B2 (en) | 2014-11-07 | 2020-03-24 | Samsung Electronics Co., Ltd. | Speech signal processing method and speech signal processing apparatus |
CN105592067B (zh) * | 2014-11-07 | 2020-07-28 | 三星电子株式会社 | 语音信号处理方法及实现此的终端和服务器 |
US11308936B2 (en) | 2014-11-07 | 2022-04-19 | Samsung Electronics Co., Ltd. | Speech signal processing method and speech signal processing apparatus |
CN104536978A (zh) * | 2014-12-05 | 2015-04-22 | 奇瑞汽车股份有限公司 | 识别语音数据的方法和装置 |
CN106782546A (zh) * | 2015-11-17 | 2017-05-31 | 深圳市北科瑞声科技有限公司 | 语音识别方法与装置 |
CN105551488A (zh) * | 2015-12-15 | 2016-05-04 | 深圳Tcl数字技术有限公司 | 语音控制方法及*** |
CN109313903A (zh) * | 2016-06-06 | 2019-02-05 | 思睿逻辑国际半导体有限公司 | 语音用户接口 |
CN109036429A (zh) * | 2018-07-25 | 2018-12-18 | 浪潮电子信息产业股份有限公司 | 一种基于云服务的语音匹配评分查询方法及*** |
CN109869862A (zh) * | 2019-01-23 | 2019-06-11 | 四川虹美智能科技有限公司 | 一种空调、一种空调的控制方法及一种空调*** |
CN112712802A (zh) * | 2020-12-23 | 2021-04-27 | 江西远洋保险设备实业集团有限公司 | 密集架智能信息处理语音识别操作控制*** |
Also Published As
Publication number | Publication date |
---|---|
US20130144618A1 (en) | 2013-06-06 |
CN103137129B (zh) | 2015-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103137129B (zh) | 语音识别方法及电子装置 | |
US10217463B2 (en) | Hybridized client-server speech recognition | |
CN106201424B (zh) | 一种信息交互方法、装置及电子设备 | |
EP2109097B1 (en) | A method for personalization of a service | |
US20190221208A1 (en) | Method, user interface, and device for audio-based emoji input | |
WO2020238209A1 (zh) | 音频处理的方法、***及相关设备 | |
CN105426362A (zh) | 语音翻译装置、方法及程序 | |
CN109256136A (zh) | 一种语音识别方法和装置 | |
CN103634472A (zh) | 根据通话语音判断用户心情及性格的方法、***及手机 | |
CN102111314A (zh) | 一种基于蓝牙传输的智能家居语音控制***及方法 | |
CN104168353A (zh) | 蓝牙耳机及其语音交互控制方法 | |
CN109256133A (zh) | 一种语音交互方法、装置、设备及存储介质 | |
CN106713111B (zh) | 一种添加好友的处理方法、终端及服务器 | |
CN106328124A (zh) | 一种基于用户行为特征的语音识别方法 | |
CN105244042B (zh) | 一种基于有限状态自动机的语音情感交互装置与方法 | |
CN107316635B (zh) | 语音识别方法及装置、存储介质、电子设备 | |
CN107483445A (zh) | 一种静默声纹识别注册方法、装置、服务器和存储介质 | |
CN111489765A (zh) | 一种基于智能语音技术的话务服务质检方法 | |
CN110209812A (zh) | 文本分类方法和装置 | |
CN109710799B (zh) | 语音交互方法、介质、装置和计算设备 | |
CN111312233A (zh) | 一种语音数据的识别方法、装置及*** | |
CN112468665A (zh) | 一种会议纪要的生成方法、装置、设备及存储介质 | |
CN104702759A (zh) | 通讯录的设置方法及装置 | |
WO2019101099A1 (zh) | 视频节目识别方法、设备、终端、***和存储介质 | |
CN109637541A (zh) | 语音转换文字的方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20151118 Termination date: 20201012 |