CN104103271B - 用于适配语音识别声学模型的方法和*** - Google Patents
用于适配语音识别声学模型的方法和*** Download PDFInfo
- Publication number
- CN104103271B CN104103271B CN201410135806.1A CN201410135806A CN104103271B CN 104103271 B CN104103271 B CN 104103271B CN 201410135806 A CN201410135806 A CN 201410135806A CN 104103271 B CN104103271 B CN 104103271B
- Authority
- CN
- China
- Prior art keywords
- acoustic model
- equipment
- audio input
- information
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 38
- 230000007613 environmental effect Effects 0.000 claims abstract description 38
- 230000006978 adaptation Effects 0.000 claims abstract description 31
- 238000013519 translation Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims 2
- 230000008901 benefit Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Abstract
本发明涉及用于适配语音识别声学模型的方法和***。具体地,一种声学模型适配***包括存储器设备和被耦合到存储器设备的模型选择器引擎。模型选择器引擎被配置成编译环境条件的信息以针对到设备上的语音识别器中的音频输入而标识当前语音环境。模型选择器引擎还被配置成将环境条件的信息与声学模型的简档相比较。每个简档与声学模型相关联。每个声学模型补偿音频输入的背景噪声或声学失真。模型选择器引擎还被配置成在不包括来自用户的音频输入的情况下,基于环境条件的信息来选择用于语音识别器的第一声学模型。
Description
技术领域
本发明涉及语音识别,更具体地,涉及用于适配语音识别声学模型的方法和***。
背景技术
语音识别***将说话者的话语转换成数字内容或命令。语音识别***对其音频输入敏感。背景噪声和声学失真影响语音识别***的性能。为了克服背景噪声和声学失真而采用多个技术。许多大型词汇语音识别器要求其中用户听写一定数目的预定义句子的训练过程。此训练过程构建声学模型,来帮助***不仅理解用户如何说话,而且理解背景噪声和声学失真。
发明内容
描述了***的实施方式。在一个实施方式中,声学模型适配***包括存储器设备和被耦合到存储设备的模型选择器引擎。模型选择器引擎被配置成编译环境条件的信息,以针对到设备上的语音识别器中的音频输入而标识当前语音环境。模型选择器引擎还被配置成将环境条件的信息与声学模型的简档(profile)相比较。每个简档与声学模型相关联。每个声学模型补偿音频输入的背景噪声或声学失真。模型选择器引擎还被配置成在不包括来自用户的音频输入的情况下基于环境条件的信息来选择用于语音识别器的第一声学模型。还描述了***的其他实施方式以及计算机程序产品和方法的实施方式。
根据结合以本原理的示例的方式举例说明的附图进行的以下详细描述,本发明的实施方式的其他方面和优点将变得显而易见。
附图说明
图1描述了用于选择用于语音识别器的声学模型的***的一个实施方式的示意图。
图2描述了图1的声学模型适配***的一个实施方式的示意图。
图3描述了图2的模型选择器引擎的一个实施方式。
图4描述了用于在没有音频输入的帮助的情况下选择语音识别声学模型的方法的一个实施方式的流程图。
图5描述了用于选择和适配语音识别声学模型的方法的另一实施方式的流程图。
图6描述了用于编译音频输入的环境条件的信息的方法的一个实施方式的流程图。
贯穿本描述,可使用类似的附图标记来标识类似的元件。
具体实施方式
将易于理解的是可以以多种不同的配置来布置和设计如在本文中一般地描述并在附图中图示出的实施方式的部件。因此,如在图中表示的各种实施方式的以下更详细描述并不旨在显示本公开的范围,而是仅仅表示各种实施方式。虽然在附图中呈现了实施方式的各种方面,除非具体地指明,附图不一定按比例绘出。
在不脱离本发明的精神或本质特性的情况下可以其他特定形式来体现本发明。所述实施方式在所有方面仅仅被视为说明性而非限制性的。因此由所附权利要求而不是本详细描述来指示本发明的范围。在权利要求等价物的意义和范围内的所有变更将被涵盖在其范围内。
贯穿本描述,对特征、优点或类似语言的参考并不意味着用本发明可实现的所有特征和优点都应在本发明的任何单个实施方式中。相反,应将参考特征和优点的语言理解成旨在结合实施方式所述的特定特征、优点或特性被包括在本发明的至少一个实施方式中。因此,贯穿本说明书的特征和优点的讨论以及类似语言可以但不一定参考同一实施方式。
此外,可在一个或多个实施方式中以任何适当方式将本发明的所述特征、优点以及特性组合。本领域的技术人员将根据本文中的描述将认识到能够在没有特定实施方式的特定特征或优点中的一个或多个的情况下实施本发明。在其他情况下,在某些实施方式中可认识到可能并非在本发明的所有实施方式中都存在的附加特征和优点。
贯穿本说明书对“一个实施方式”、“一种实施方式”或类似语言的参考旨在结合所指示实施方式所述的特定特征/结构或特性被包括在本发明的至少一个实施方式中。因此,贯穿本说明书的短语“在一个实施方式中”、“在一种实施方式中”以及类似语言可以但不一定全部参考同一实施方式。
虽然在本文中描述了许多实施方式,但所述实施方式中的至少某些实施方式通过在没有音频输入或来自用户的输入的情况下对环境提示进行编译来促进选择有效的声学模型。声学模型补偿背景噪声和声学失真,并允许语音识别***或语音识别器将说话者与其他噪声区别开。声学模型改变。针对较嘈杂环境所设计的声学模型在较寂静的环境中可能不会很好地表现,或者反之亦然。
在某些常规***和方法中,语音识别器通过采用其中用户坐下来并听写预定义句子的训练过程来改善声学模型的性能。在训练过程期间,语音识别器将学习用户如何说话并构建解决其中用户说话的环境的声学模型。随着用户继续使用***,语音识别器适配声学模型。虽然进行中的适配在许多情况下可以是有益的,但如果环境过多地变化或改变,则进行中的适配可以负面地影响语音识别器的性能。用于说话的风格的变化或麦克风的变化也可负面地影响语音识别器。在许多情况下,语音识别器使用音频输入或其他用户手动输入来了解音频环境。
本文所述的某些实施方式涉及到编译环境条件的信息,不包括来自用户的音频输入,以针对到设备上的语音识别器中的音频输入标识当前语音环境。环境条件可包括附近人数、附近人数的估计、设备的位置、时间、日期、附近设备的数目、附近人的可能身份、用户的身份、要使用的麦克风或音频输入设备及其他类似条件。某些实施方式允许语音识别器在接收到任何音频输入之前确定当前语音环境。某些实施方式允许语音识别器在接收到指示当前语音环境的任何手动输入之前确定当前语音环境。本文所述的某些实施方式将环境条件的信息与声学模型的简档相比较。在某些实施方式中,每个简档与声学模型相关联。在某些实施方式中,每个声学模型在补偿音频输入的背景噪声和/或声学失真时改变。某些实施方式允许语音识别器预测当前噪声环境。本文所述的某些实施方式涉及到基于环境条件的信息来选择用于语音识别器的第一声学模型,所述信息不包括来自用户的音频输入。某些实施方式允许***在接收到音频输入之前预测噪声环境的变化。某些实施方式允许***通过正确地选择适当声学模型而高效地操作。
图1描述了用于选择用于语音识别器100的声学模型的***的一个实施方式的示意图。用于选择用于语音识别器100的声学模型的***包括声学模型适配***102、网络104以及简档数据库106。某些实施方式包括位置数据库108和社交网络数据库110。
在某些实施方式中,***100编译来自网络104的环境条件的信息。在某些实施方式中,***100编译来自位置数据库108的信息。在某些实施方式中,***100编译来自社交网络数据库110的信息。在某些实施方式中,***100将来自位置数据库108或社交网络数据库110的已编译信息与简档数据库106中的简档相比较。在某些实施方式中,网络104可以至少部分地是因特网。在其他实施方式中,网络104可以是私有网络或内联网。网络104可以是因特网、私有网络或内联网的组合。在某些实施方式中,可直接地将声学模型适配***102、简档数据库106、位置数据库108以及社交网络数据库110相互链接。例如,可将声学模型适配***102和位置数据库108连同简档数据库106直接地链接在一起。声学模型适配***102可直接地与位置数据库108通信,或者可通过网络104进行通信。
声学模型适配***102可以是单个设备或设备的组合。声学模型适配***102可位于移动电话、智能电话、便携式介质设备、平板计算机、膝上型计算机、台式计算机或其他设备或设备的组合上。虽然在具有某些部件和功能的情况下示出并描述了***100,但***100的其他实施方式可包括更少或更多部件以实现更少或更多的功能。
图2描述了图1的声学模型适配***102的一个实施方式的示意图。所描述的声学模型适配***102包括能够执行本文所述功能和操作的下述各种部件。所示声学模型适配***102包括计算机存储设备202、处理设备204、音频输入端206以及磁盘存储设备208。所示声学模型适配***102还包括模型选择器引擎210和适配器引擎212。可将声学模型适配***102的某些或所有部件存储于单个计算机设备上或计算设备的网络上,该网络包括无线通信网络。在某些实施方式中,将声学模型适配***共102以及简档数据库106、位置数据库108和社交网络数据库110的某些或所有部件存储于单个计算设备上。在其他实施方式中,将声学模型适配***102的某些或所有部件存储于超过一个计算设备上。声学模型适配***102可以是单个设备,诸如移动电话、智能电话、便携式介质设备、平板计算机、膝上型计算机、台式计算机或其他设备或设备的组合上。虽然在具有某些部件和功能的情况下示出并描述了声学模型适配***102,但声学模型适配***102的其他实施方式可包括更少或更多部件以实现更少或更多的功能。
计算机存储设备202可存储用于执行本文所述操作的数据和/或软件指令或计算机程序指令。计算机存储设备202可在***的外部或内部,并且可包括但不限于硬盘驱动、CD/DVD可记录驱动器、磁带驱动器、磁盒驱动器、安全数字卡、另一种磁驱或光驱、固态驱动器或另一种存储设备。处理设备204被连接到存储设备202并与之通信,并且可在存储设备202存储并访问数据以便执行本文所述的操作。还可将处理器或处理设备204连接到磁盘存储设备208。可将磁盘存储设备208实现成临时地存储来自存储设备202或处理器204的数据或软件指令。磁盘存储设备208可包括但不限于硬盘驱动器、软盘驱动器、可移动软盘或其他类型的光驱或磁驱。可由存储于计算机存储设备202上并被诸如CPU之类的处理设备204执行的计算机程序指令来实现模型选择器引擎210和适配器引擎212的功能。音频输入设备206可以是能够将声音转换成计算机可读信号的任何类型的麦克风或音频输入设备。在某些实施方式中,模型选择器引擎210和适配器引擎212被耦合到存储设备202。
在某些实施方式中,模型选择器引擎210被配置成编译环境条件的信息(不包括来自用户的音频输入),以针对到设备上的语音识别器中的音频输入而标识当前语音环境。在某些实施方式中,模型选择器引擎210被配置成将环境条件的信息与声学模型的简档相比较。在某些实施方式中,每个简档与声学模型相关联。在某些实施方式中,每个简档与唯一声学模型相关联。在某些实施方式中,每个声学模型补偿音频输入的背景噪声和/或声学失真。在某些实施方式中,模型选择器引擎210被配置成基于环境条件的信息来选择用于语音识别器的第一声学模型。在某些实施方式中,模型选择器引擎210被配置成基于环境条件的信息(不包括来自用户的音频输入)来选择用于语音识别器的第一声学模型。
在某些实施方式中,模型选择器引擎210还被配置成标识设备的位置。可通过众所周知的各种手段来确定设备的位置,包括采用全球定位***(GPS)或其他全球导航卫星***(GNSS),确定设备被连接到的网络,采用基于本地化的***,利用无线电信号的多点定位,确定麦克风数字ID(即汽车麦克风数字ID指示设备在汽车中)或用于确定设备的位置的另一***。确定设备的位置允许升学模型适配***102导出关于环境条件的信息,包括可能的背景噪声和声学失真。例如,图书馆将具有轻背景噪声,体育竞技场将具有高声的背景噪声,移动汽车将是高声的,停泊的汽车将是较寂静的,并且某个建筑物可具有回声。某些实施方式将除位置之外还编译时间和/或日期的信息。办公楼在办公时间可能是嘈杂的且在工作完毕后和在周末是寂静的。餐厅在晚间可能是嘈杂的且在下午早些时候是寂静的。运动竞技场在预定事件期间可能是高声的且当未预定事件时是寂静的。公园可能在早晨较寂静。另外,确定设备的位置允许声学模型适配***102确定用户的可能噪声水平。例如,用户可在图书馆中轻声地说话且在办公室中高声地说话。
在某些实施方式中,模型选择器引擎210还被配置成将设备的位置与位置数据库108相比较。位置数据库108可包括地图或关于位置的信息,诸如位置的类型(图书馆、家、餐厅等)、操作时间、预定事件和/或背景噪声和声学失真的历史。
在某些实施方式中,模型选择器引擎210被配置成确定设备的一定距离内的人数的估计。可以各种方式来实现确定设备的一定距离内的人数的估计。模型选择器引擎210可通过编译社交网络统计的信息来确定人数的估计。例如,社交网络允许用户在社交网络(即foursquare facebook等)上虚拟地在一位置处签到或者对事件签到。在确定在一位置处“签到”的用户数目之后,模型选择器引擎210能够确定用户所在的环境的类型(例如嘈杂、寂静等)。一位置上的人个体的数目越大,则该位置越大声。模型选择器引擎210可通过编译本地无线设备的数目的信息来确定人数的估计。例如,模型选择器引擎210可检查本地网络以确定被连接到本地网络的无线和/或有线设备的数目。模型选择器引擎210可对小区塔进行轮询以确定附近的蜂窝电话的数目。
在某些实施方式中,模型选择器引擎210可通过编译社交网络或无线设备的信息来确定附近的人的身份。人的身份可影响向音频输入设备206中说话的用户的噪声水平。例如,确定商业竞争者在附近可指示用户将轻声地说话,以避免使得商业竞争者听到音频输入。
某些实施方式包括被耦合到存储设备202的适配器引擎212。在某些实施方式中,适配器引擎212被配置响应于检测到与所选第一简档相差预定阈值的音频输入的声学特性而创建关联的新声学模型和新简档。在某些情况下,在模型选择器引擎210选择第一声学模型且用户开始使用语音识别器之后,实际音频输入可不同于所选声学模型。可在信号中的信噪比、总声音水平、峰值声音水平或其他可测量差异方面测量该差异。阈值可以是声学模型与实际音频输入之间的范围或某个百分比差异。
在某些实施方式中,适配器引擎还被配置成调整新声学模型以匹配音频输入的声学特性。在某些实施方式中,适配器引擎被配置成调整现有声学模型。可更新并连续地调整声学模型以更准确地反映音频输入的环境。
除用声学模型适配***102的单独部件的实现可实现的优点之外,声学模型适配***共102的某些实施方式相比于常规技术提供附加优点。例如,声学模型适配***102的某些实施方式允许在没有音频输入的辅助的情况下基于环境条件来选择声学模型。某些实施方式允许语音识别器在捕捉音频输入之前预期背景噪声和声学失真。某些实施方式允许有目标的声学模型更新。某些实施方式通过避免更新用于不兼容环境的声学模型而允许用于类似环境的声学模型的更新。某些实施方式允许在捕捉音频输入之前选择适当的声学模型并在变化环境的情况下避免其他声学模型的破坏。
图3描述了图2的模型选择器引擎210的一个实施方式,其包括简档302-306和声学模型312-316。在某些实施方式中,模型选择器引擎210使简档302-306与声学模型312-316相关联。在某些实施方式中,每个简档与唯一声学模型相关联。在所示实施方式中,简档1302与声学模型1312相关联。简档2304与声学模型2314相关联。简档n306与声学模型n316相关联。在某些实施方式中,可使不止一个简档302-306与声学模型312相关联。
简档302可指示环境的参数。举例来说,简档302可指示存在的人的范围。简档302可以是针对当没有除用户之外的其他人在附近时。简档304可以是针对当5个或更少的人在附近时。简档可重叠或指示相同的人数,并且以诸如时间、日期、位置等另一环境条件区别开。例如,简档302和304两者可以是针对5个或更少的人在附近时,但是简档302针对通常寂静的位置,诸如图书馆或家庭办公室,并且简档304是针对较嘈杂的环境,诸如在工作时间期间的营业位置。简档可如需要的那样详细以与环境条件的信息相比较。某些实施方式可包括一个、某些或所有环境条件作为参数。例如,在一个实施方式中,简档302-306可仅指示位置。在一个实施方式中,简档302-306可指示时间和位置。如本领域的技术人员将认识到的,可用简档302-306来指示参数的任何数目的组合。在某些实施方式中,每个简档302-306与唯一声学模型312-316相关联。在某些实施方式中,不止一个简档可与单个声学模型312相关联。
声学模型312-316补偿音频输入的背景噪声和/或声学输入失真。如本领域的技术人员将认识到的,可通过许多不同的算法来实现补偿以净化音频输入信号。
图4描述了用于在没有音频输入的帮助的情况下选择语音识别声学模型312的方法400的一个实施方式的流程图。虽然结合图1-2的声学模型适配***和图2-3的模型选择器引擎描述了用于选择语音识别声学模型312的方法400,但可用其他类型的计算机***来实现方法400的实施方式。
在402处,编译环境条件的信息以针对用于到语音识别器中的音频输入标识当前语音环境。在某些实施方式中,在不包括音频输入的情况下编译环境条件信息。在404处,将环境条件的信息与声学模型312-316的简档302-306相比较。在406处,基于环境条件的信息来选择用于语音识别器的第一声学模型312。在某些实施方式中,选择是基于环境条件的信息(不包括用户的音频输入)。在某些实施方式中,该选择是基于环境条件的信息(不包括用户的手动输入)。用于选择语音识别声学模型312的所述方法400然后结束。
图5描述了用于选择和适配语音识别声学模型312的方法500的另一实施方式的流程图。虽然结合图1-2的声学模型适配***和图2-3的模型选择器引擎描述了用于选择和适配语音识别声学模型312的方法500,但可用其他类型的计算机***来实现方法500的实施方式。
在502处,接收输入以发起语音识别器。在504处,语音识别器确定当前环境。在某些实施方式中,语音识别器可遵循下面更全面地描述的用于编译环境条件600的信息的方法,以确定当前环境。在506处,使环境与简档302匹配。在508处,选择与简档302相关联的声学模型312。在510处,将声学模型312与音频输入相比较。如果声学模型312与音频输入之间的差异在阈值以下,则适配或更新声学模型512。如果声学模型312与音频输入之间的差异在阈值以上,则可创建新模型514。用于选择和适配语音识别声学模型500的所述方法500然后结束。
图6描述了用于编译音频输入的环境条件600的信息的方法的一个实施方式的流程图。该方法包括对信息的各种源进行轮询且可包括对一个、某些或所有信息源进行轮询。某些实施方式包括对当前连接麦克风602进行轮询。麦克风具有数字ID,允许***102确定被连接到设备的麦克风206。在某些情况下,确定麦克风指示位置。例如,汽车麦克风指示用户在汽车中,而另一麦克风ID可指示用户在总办事处中。在某些实施方式中,麦克风206可指示随着不同麦克风206运行而捕捉的音频输入中的差异,并且可捕捉更或更少的背景噪声。在这种情况下,虽然用户的位置可在两个不同的麦克风206的情况下是相同的,但是连接的麦克风206可由于性能方面的差异而要求不同的声学模型312。
某些实施方式包括针对本地无线设备604的数目对信息源进行轮询。在某些实施方式中,路由器或服务器可指示被连接到网络的设备的数目,其指示在用户附近的人数的估计。在某些实施方式中,无线塔可指示一区域中的设备的数目,指示用户附近的人数的估计。某些实施方式包括对社交媒体统计606进行轮询。在某些实施方式中,***102可对特定社交媒体网站进行轮询,或者可对已经用相关社交媒体统计进行更新的数据库110进行轮询。作为示例,社交媒体网站可允许用户“登录”或指示用户在一位置或事件处的存在。通过确定存在于一位置处的社交媒体用户的数目,***102可估计在语音识别器用户附近的人数。
某些实施方式包括针对设备位置608对信息源进行轮询。在某些实施方式中,可由GPS或另一类似***来确定设备位置。可通过对网络连接(例如家庭网络、工作网络、Wi-Fi)进行轮询来确定设备位置。如上文所讨论的,麦克风数字ID可指示设备位置。可通过无线电信号的多点定位来确定设备位置。如本领域的技术人员将认识到的,可以许多不同的方式来实现确定设备的位置,并且为了简洁起见,,仅阐述了几个示例。
某些实施方式包括对具有人脸识别能力610的照相机进行轮询,以确定用户附近的人数的估计。人脸识别可指示照相机视图内的人数。某些实施方式包括针对时间612对信息源进行轮询。某些实施方式包括针对日期对信息源进行轮询。时间和/或日期能够提供环境条件的附加信息。例如,时间或日期可指示背景噪声的可能水平的位置上的人数。可从设备本身或从网络上的源确定时间和/或日期。
在以上描述中,提供了各种实施方式的特定细节。然而,可用少于全部的这些特定细节来实施某些实施方式。在其他情况下,为了间接和明了期间,并未比使得能够实现本发明的各种实施方式更详细地描述某些方法、程序、部件、结构和/或功能。
虽然已描述并图示出本发明的特定实施方式,但本发明不限于如所述和所示的部分的特定形式或布置。将由所附权利要求及其等效物来定义本发明的范围。
声学模型适配***的实施方式包括直接地或通过诸如数据、地址和/或控制总线之类的***总线而间接地耦合到存储器元件的至少一个处理器。存储器元件可以包括在程序代码的实际执行期间所采用的本地存储器、大容量存储以及高速缓冲存储器,其提供至少某些程序代码的临时存储以便减少在执行期间必须从大容量存储检索代码的次数。
还应注意的是可使用存储于计算机可用存储介质上以便由计算机执行的软件指令来实现用于所述方法的操作中的至少某些。作为示例,计算机程序产品的实施方式包括用以存储计算机可读程序的计算机可用存储介质,当在计算机上执行时所述计算机可读程序促使计算机执行包括用于监视网页中的指针移动的操作。网页显示一个或多个内容馈送。在一个实施方式中,在计算机程序产品中包括用以响应于包括交互手势的指针移动而报告指针移动的操作。在另一实施方式中,在计算机程序产品中包括用于将与网页所显示的一个或多个内容馈送的一定量的一种或多种交互表格化的操作。
虽然按照特定顺序示出并描述了本文中的方法的操作,但可改变每个方法的操作顺序,使得可按照相反顺序来执行某些操作,或者使得可至少部分地与其他操作同时地执行某些操作。在另一实施方式中,可以间歇性和/或替换方式来执行不同操作的指令或子操作。
本发明的实施方式能够采取完全硬件实施方式、完全软件实施方式或包含硬件和软件元件两者的实施方式的形式。在一个实施方式中,用软件来实现本发明,其包括但不限于固件、驻留软件、微代码等。
此外,本发明的实施方式能够采取计算机程序产品的形式,其可从提供程序代码以供计算机或任何指令执行***或与之相结合地使用的计算机可用或计算机可读介质。出于本描述的目的,计算机可用或计算机可读介质可以是能够包含、存储、传送、传播或传输程序以供指令执行***、装置或设备或与之相结合地使用的任何装置。
计算机可用或计算机可读介质可以是电子、磁、光、电磁、红外线或半导体***(或者装置或设备)或传播介质。计算机可读介质的示例包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、刚性磁盘和光盘等。光盘的当前示例包括具有只读存储器的紧凑式磁盘(CD-ROM)、具有读/写的紧凑式磁盘(CD-R/W)以及数字视频磁盘(DVD)。
输入/输出或I/O设备(包括但不限于键盘、显示器、定点设备等)能够直接地或通过中间I/O控制器耦合到***。另外,还可将网络适配器耦合到***以使得数据处理***能够通过中间私用或公共网络耦合到其他数据处理***或远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡仅仅是几个当前可用类型的网络适配器。
Claims (18)
1.一种用于适配语音识别声学模型的方法,所述方法包括:
在不包括来自用户的音频输入的情况下,编译环境条件的信息,以针对到设备上的语音识别器中的音频输入标识当前语音环境,其中编译所述环境条件的所述信息包括:确定所述设备的特定距离内的人数的估计,其中确定所述估计包括编译所述设备的所述距离内的本地无线设备的数目的信息;
将所述环境条件的所述信息与声学模型的简档相比较,其中每个简档与声学模型相关联,并且其中每个声学模型补偿所述音频输入的背景噪声或声学失真;以及
在不包括来自所述用户的音频输入的情况下,基于所述环境条件的所述信息来选择用于所述语音识别器的第一声学模型。
2.根据权利要求1所述的方法,其中所述方法还包括:响应于检测到所述音频输入的声学特性与选择的第一简档相差预定阈值,创建新声学模型和新简档。
3.根据权利要求2所述的方法,其中所述方法还包括:调整所述新声学模型以匹配所述音频输入的所述声学特性。
4.根据权利要求1所述的方法,其中编译所述环境条件的所述信息包括:确定所述设备的特定距离内的人数的估计,其中确定所述估计包括编译社交网络统计的信息。
5.根据权利要求1所述的方法,其中编译所述环境条件的所述信息包括:标识所述设备的位置并将所述设备的所述位置与位置数据库相比较。
6.根据权利要求1所述的方法,其中编译所述环境条件的所述信息包括:检测被连接到所述设备的麦克风以确定所述设备的位置。
7.一种声学模型适配***,所述***包括:
存储器设备,以及
模型选择器引擎,被耦合到存储器设备,所述模型选择器引擎被配置成:
在不包括来自用户的音频输入的情况下,编译环境条件的信息,以针对到设备上的语音识别器中的音频输入标识当前语音环境,其中编译所述环境条件的所述信息包括:确定所述设备的特定距离内的人数的估计,其中确定所述估计包括编译所述设备的所述距离内的本地无线设备的数目的信息;
将所述环境条件的所述信息与声学模型的简档相比较,其中每个简档与声学模型相关联,并且其中每个声学模型补偿所述音频输入的背景噪声或声学失真;以及
在不包括来自所述用户的音频输入的情况下,基于所述环境条件的所述信息来选择用于所述语音识别器的第一声学模型。
8.根据权利要求7所述的***,其中所述***还包括:被耦合到所述存储器设备的适配器引擎,所述适配器引擎被配置成响应于检测到所述音频输入的声学特性与选择的第一简档相差预定阈值,创建新声学模型和新简档。
9.根据权利要求8所述的***,其中所述适配器引擎还被配置成调整所述新声学模型以匹配所述音频输入的所述声学特性。
10.根据权利要求7所述的***,其中所述模型选择器引擎还被配置成通过编译社交网络统计的信息来确定所述设备的特定距离内的人数的估计。
11.根据权利要求7所述的***,其中所述模型选择器引擎还被配置成通过编译本地无线设备的数目的信息来确定所述设备的特定距离内的人数的估计。
12.根据权利要求7所述的***,其中所述模型选择器引擎还被配置成标识所述设备的位置并将所述设备的所述位置与位置数据库相比较。
13.一种用于适配语音识别声学模型的***,包括:
被配置为在不包括来自用户的音频输入的情况下,编译环境条件的信息,以针对到设备上的语音识别器中的音频输入标识当前语音环境的模块,其中编译所述环境条件的所述信息包括:确定所述设备的特定距离内的人数的估计,其中确定所述估计包括编译所述设备的所述距离内的本地无线设备的数目的信息;
被配置为将所述环境条件的所述信息与声学模型的简档相比较的模块,其中每个简档与声学模型相关联,并且其中每个声学模型补偿所述音频输入的背景噪声或声学失真;以及
被配置为在不包括来自所述用户的音频输入的情况下,基于所述环境条件的所述信息来选择用于所述语音识别器的第一声学模型的模块。
14.根据权利要求13所述的***,其中所述***还包括:被配置为响应于检测到所述音频输入的声学特性与选择的第一简档相差预定阈值,创建新声学模型和新简档的模块。
15.根据权利要求14所述的***,其中所述***还包括:被配置为调整所述新声学模型以匹配所述音频输入的所述声学特性的模块。
16.根据权利要求13所述的***,其中编译所述环境条件的所述信息包括:确定所述设备的特定距离内的人数的估计,其中确定所述估计包括编译社交网络统计的信息。
17.根据权利要求13所述的***,其中编译所述环境条件的所述信息包括:标识所述设备的位置并将所述设备的所述位置与位置数据库相比较。
18.根据权利要求13所述的***,其中编译所述环境条件的所述信息包括:检测被连接到所述设备的麦克风以确定所述设备的位置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/857,571 US9208781B2 (en) | 2013-04-05 | 2013-04-05 | Adapting speech recognition acoustic models with environmental and social cues |
US13/857,571 | 2013-04-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104103271A CN104103271A (zh) | 2014-10-15 |
CN104103271B true CN104103271B (zh) | 2017-05-10 |
Family
ID=51655087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410135806.1A Expired - Fee Related CN104103271B (zh) | 2013-04-05 | 2014-04-04 | 用于适配语音识别声学模型的方法和*** |
Country Status (2)
Country | Link |
---|---|
US (1) | US9208781B2 (zh) |
CN (1) | CN104103271B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102225404B1 (ko) * | 2014-05-23 | 2021-03-09 | 삼성전자주식회사 | 디바이스 정보를 이용하는 음성인식 방법 및 장치 |
US9530408B2 (en) * | 2014-10-31 | 2016-12-27 | At&T Intellectual Property I, L.P. | Acoustic environment recognizer for optimal speech processing |
US9818404B2 (en) * | 2015-12-22 | 2017-11-14 | Intel Corporation | Environmental noise detection for dialog systems |
US9922664B2 (en) * | 2016-03-28 | 2018-03-20 | Nuance Communications, Inc. | Characterizing, selecting and adapting audio and acoustic training data for automatic speech recognition systems |
US10181321B2 (en) | 2016-09-27 | 2019-01-15 | Vocollect, Inc. | Utilization of location and environment to improve recognition |
US11011162B2 (en) | 2018-06-01 | 2021-05-18 | Soundhound, Inc. | Custom acoustic models |
US20210104237A1 (en) * | 2019-10-08 | 2021-04-08 | Zebra Technologies Corporation | Method and Apparatus for Providing Modular Speech Input to Client Applications |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5684924A (en) * | 1995-05-19 | 1997-11-04 | Kurzweil Applied Intelligence, Inc. | User adaptable speech recognition system |
US5970446A (en) * | 1997-11-25 | 1999-10-19 | At&T Corp | Selective noise/channel/coding models and recognizers for automatic speech recognition |
US6505161B1 (en) * | 2000-05-01 | 2003-01-07 | Sprint Communications Company L.P. | Speech recognition that adjusts automatically to input devices |
CN101887440A (zh) * | 2009-05-13 | 2010-11-17 | 财团法人资讯工业策进会 | 热点分析***及方法 |
CN102572799A (zh) * | 2011-12-29 | 2012-07-11 | 华为终端有限公司 | 获取接入Wi-Fi热点的客户终端的网络连接信息的方法和终端 |
WO2012105516A1 (ja) * | 2011-01-31 | 2012-08-09 | 株式会社エヌ・ティ・ティ・ドコモ | 端末数推計装置及び端末数推計方法 |
CN102761531A (zh) * | 2011-04-29 | 2012-10-31 | 腾讯科技(深圳)有限公司 | 一种社区验证方法和服务器 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6389393B1 (en) | 1998-04-28 | 2002-05-14 | Texas Instruments Incorporated | Method of adapting speech recognition models for speaker, microphone, and noisy environment |
US7457750B2 (en) * | 2000-10-13 | 2008-11-25 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
US7451085B2 (en) | 2000-10-13 | 2008-11-11 | At&T Intellectual Property Ii, L.P. | System and method for providing a compensated speech recognition model for speech recognition |
US6959276B2 (en) | 2001-09-27 | 2005-10-25 | Microsoft Corporation | Including the category of environmental noise when processing speech signals |
JP4352790B2 (ja) | 2002-10-31 | 2009-10-28 | セイコーエプソン株式会社 | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
DE10305369B4 (de) | 2003-02-10 | 2005-05-19 | Siemens Ag | Benutzeradaptives Verfahren zur Geräuschmodellierung |
JP2006030880A (ja) | 2004-07-21 | 2006-02-02 | Honda Motor Co Ltd | 車両用音声認識装置及び移動体 |
US20070033034A1 (en) | 2005-08-03 | 2007-02-08 | Texas Instruments, Incorporated | System and method for noisy automatic speech recognition employing joint compensation of additive and convolutive distortions |
US8762143B2 (en) * | 2007-05-29 | 2014-06-24 | At&T Intellectual Property Ii, L.P. | Method and apparatus for identifying acoustic background environments based on time and speed to enhance automatic speech recognition |
US8121837B2 (en) | 2008-04-24 | 2012-02-21 | Nuance Communications, Inc. | Adjusting a speech engine for a mobile computing device based on background noise |
US8285545B2 (en) | 2008-10-03 | 2012-10-09 | Volkswagen Ag | Voice command acquisition system and method |
US8239129B2 (en) * | 2009-07-27 | 2012-08-07 | Robert Bosch Gmbh | Method and system for improving speech recognition accuracy by use of geographic information |
US8234111B2 (en) | 2010-06-14 | 2012-07-31 | Google Inc. | Speech and noise models for speech recognition |
US20110311144A1 (en) | 2010-06-17 | 2011-12-22 | Microsoft Corporation | Rgb/depth camera for improving speech recognition |
-
2013
- 2013-04-05 US US13/857,571 patent/US9208781B2/en not_active Expired - Fee Related
-
2014
- 2014-04-04 CN CN201410135806.1A patent/CN104103271B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5684924A (en) * | 1995-05-19 | 1997-11-04 | Kurzweil Applied Intelligence, Inc. | User adaptable speech recognition system |
US5970446A (en) * | 1997-11-25 | 1999-10-19 | At&T Corp | Selective noise/channel/coding models and recognizers for automatic speech recognition |
US6505161B1 (en) * | 2000-05-01 | 2003-01-07 | Sprint Communications Company L.P. | Speech recognition that adjusts automatically to input devices |
CN101887440A (zh) * | 2009-05-13 | 2010-11-17 | 财团法人资讯工业策进会 | 热点分析***及方法 |
WO2012105516A1 (ja) * | 2011-01-31 | 2012-08-09 | 株式会社エヌ・ティ・ティ・ドコモ | 端末数推計装置及び端末数推計方法 |
CN102761531A (zh) * | 2011-04-29 | 2012-10-31 | 腾讯科技(深圳)有限公司 | 一种社区验证方法和服务器 |
CN102572799A (zh) * | 2011-12-29 | 2012-07-11 | 华为终端有限公司 | 获取接入Wi-Fi热点的客户终端的网络连接信息的方法和终端 |
Also Published As
Publication number | Publication date |
---|---|
CN104103271A (zh) | 2014-10-15 |
US20140303970A1 (en) | 2014-10-09 |
US9208781B2 (en) | 2015-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104103271B (zh) | 用于适配语音识别声学模型的方法和*** | |
JP6947852B2 (ja) | 複数のコンピューティングデバイスを使用したインターホン式の通信 | |
CN104252864B (zh) | 实时语音分析方法和*** | |
KR102201937B1 (ko) | 후속 음성 쿼리 예측 | |
US10127911B2 (en) | Speaker identification and unsupervised speaker adaptation techniques | |
US9613619B2 (en) | Predicting recognition quality of a phrase in automatic speech recognition systems | |
US10438593B2 (en) | Individualized hotword detection models | |
US11074905B2 (en) | System and method for personalization in speech recognition | |
KR20190103308A (ko) | 기록된 미디어 핫워드 트리거 억제 | |
US11527236B2 (en) | System and method for determining the compliance of agent scripts | |
CN106558307A (zh) | 智能对话处理设备、方法和*** | |
CN112154501A (zh) | 热词抑制 | |
US9710460B2 (en) | Open microphone perpetual conversation analysis | |
CN111754998A (zh) | 人工智能设备以及操作人工智能设备的方法 | |
US11030994B2 (en) | Selective activation of smaller resource footprint automatic speech recognition engines by predicting a domain topic based on a time since a previous communication | |
US9224388B2 (en) | Sound recognition method and system | |
Du et al. | Catch you as i can: indoor localization via ambient sound signature and human behavior | |
RU2744063C1 (ru) | Способ и система определения говорящего пользователя управляемого голосом устройства | |
US11081114B2 (en) | Control method, voice interaction apparatus, voice recognition server, non-transitory storage medium, and control system | |
WO2022201876A1 (ja) | 制御方法、制御装置、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170510 |