CN103999152A - 利用动态语法元素集的语音识别 - Google Patents
利用动态语法元素集的语音识别 Download PDFInfo
- Publication number
- CN103999152A CN103999152A CN201180076026.9A CN201180076026A CN103999152A CN 103999152 A CN103999152 A CN 103999152A CN 201180076026 A CN201180076026 A CN 201180076026A CN 103999152 A CN103999152 A CN 103999152A
- Authority
- CN
- China
- Prior art keywords
- application
- syntactic
- syntactic element
- user
- phonetic entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 59
- 230000009471 action Effects 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 21
- 238000012545 processing Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 11
- 230000008859 change Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000007613 environmental effect Effects 0.000 description 7
- 238000012423 maintenance Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 239000000446 fuel Substances 0.000 description 2
- 239000010763 heavy fuel oil Substances 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000012905 input function Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Navigation (AREA)
Abstract
使用动态维护的语法元素集进行语音识别。可标识多个语法元素,并且这些语法元素可至少部分基于上下文信息而排序,也就是说,上下文信息可用于使语音识别偏向。一旦接收语音输入,可评估排序的多个语法元素,并且可确定接收的语音输入与在多个语法元素中包括的语法元素之间的对应性。
Description
技术领域
本公开的方面大体上涉及语音识别,并且更特定地,涉及动态管理语法元素的语音接口。
背景技术
语音识别技术已经为了多种目的而日益增加地部署,其包括电子听写、语音命令识别和基于电话的客户服务引擎。语音识别典型地牵涉处理经由传声器而接收的声信号。在这样做时,语音识别引擎典型地用于将声信号解释为词或语法元素。在例如车辆环境等某些环境中,语音识别技术的使用因为驾驶员能够以免提的方式提供指令而提高安全。
另外,在例如车辆环境等某些环境中,客户可希望执行包含语音识别技术的多个应用。然而,存在接收的语音命令和其它输入将由语音识别引擎提供给不正确的应用这一可能性。因此,存在用于动态管理与语音识别关联的语法元素的改进***和方法的机会。另外,存在用于将语音命令调度给适合的应用的改进***和方法的机会。
附图说明
现在将参考附图,其不必按比例绘制,并且其中:
图1是根据本公开的示例实施例可用于处理语音输入的示例***或架构的框图。
图2是其中可实现语音识别***的示例环境的简化示意图。
图3是用于提供语音输入功能性的示例方法的流程图。
图4是用于填充用于语音识别的动态语法元素集或列表的示例方法的流程图。
图5是用于处理接收的语音输入的示例方法的流程图。
具体实施方式
本公开的实施例可提供用于动态维持在与语音识别关联中使用的语法元素集或多个语法元素的***、方法和设备。在该方面,如在各种实施例中期望的,多个支持语音的应用可同时被执行,并且语音输入或命令可调度给适合的应用。例如,与每个应用关联的语言模型和/或语法元素可被标识,并且语法元素可基于与用户和/或语音识别环境关联的很多种合适的上下文信息而组织。在处理接收的语音输入期间,可评估组织的语法元素以便标识接收的语音输入并且向适合的应用调度命令。另外,如在各种实施例中期望的,语法元素集可基于一个或多个用户的标识和/或基于与语音识别环境关联的很多种上下文信息而维持和/或组织。
各种实施例可结合很多种不同的操作环境一起使用。例如,某些实施例可在车辆环境中使用。如期望的,车辆内的声模型被优化以与特定硬件和各种内部和/或外部声学一起使用。另外,如期望的,可对于很多种不同的用户开发和维持各种语言模型和/或关联的语法元素。在某些实施例中,与车辆位置和/或上下文关联的语言模型还可从很多种本地和/或外部源获得。
在一个示例实施例中,与语音识别关联的多个语法元素可由合适的语音识别***标识,其可包括许多合适的计算装置和/或关联的软件元件。语法元素可与由语音识别***标识的很多种不同的语言模型(例如与一个或多个用户关联的语言模型、与任何数量的正在执行的应用关联的语言模型和/或与当前位置(例如,车辆的位置等)关联的语言模型)关联。如期望的,许多合适的应用可与语音识别***关联。例如,在车辆环境中,基于车辆的应用(例如,立体声控制应用、气候控制应用、导航应用等)和/或基于网络的或运行时软件(例如,社交联网应用、电子邮件应用等)可与语音识别***关联。
另外,可确定或标识很多种上下文信息或环境信息,例如对于一个或多个用户的标识信息、对于一个或多个正在执行的应用的标识信息、由一个或多个正在执行的应用采取的动作、车辆参数(例如,速度、当前位置等)、用户做出的手势和/或很多种用户输入(例如,按钮按压等)。至少部分基于上下文信息的一部分,多个语法元素可被排序或分类。例如,动态语法元素列表可基于上下文信息而分类,并且如期望的,各种权重和/或优先级可分配给各种语法元素。
一旦接收语音输入用于处理,语音识别***可评估该语音输入和排序的语法元素以便确定或标识接收的语音输入与语法元素之间的对应性。例如,可穿过排序的语法元素列表直到识别语音输入。作为另一个示例,概率模型可用于标识具有匹配接收的语音输入的最高概率的语法元素。一旦语法元素(或多个语法元素)已经标识为匹配语音输入,语音识别***可基于标识的语法元素而采取很多种合适的动作。例如,标识的语法元素可转化成输入,该输入提供给正在执行的应用。在该方面,语音命令可被标识并且调度给相关应用。
某些实施例现在将在下文参考附图而更充分描述,其中示出各种实施例和/或方面。然而,各种方面可采用许多不同的方式体现并且不应解释为局限于本文阐述的实施例;相反,提供这些实施例使得本公开将是彻底和完整的,并且将充分传达本公开的范围给本领域内技术人员。类似的数字通篇指代类似的元件。
***概观
图1图示可用于处理语音输入的示例***100架构或部件的框图。在某些实施例中,***100可实现或体现为语音识别***。在其它实施例中,***100可实现或体现为例如与车辆关联的车载信息娱乐(“IVI”)***等另一个***或装置的部件。在另外的其它实施例中,可提供一个或多个合适的计算机可读介质用于处理语音输入。这些计算机可读介质可包括计算机可执行指令,其由一个或多个处理装置执行以便处理语音输入。如本文使用的,术语“计算机可读介质”描述用于采用任何形式(其包括各种存储装置(例如,磁、光、静态等))来保留信息的任何形式的合适的存储器或存储器装置。确实,本公开的各种实施例可采用很多种合适的形式实现。
如期望的,***100可包括与合适的硬件和/或软件关联用于处理语音输入的许多合适的计算装置。这些计算装置还可包括用于处理数据并且执行计算机可执行指令的许多处理器以及本领域内众所周知的其它内部和***部件。此外,这些计算装置可包括许多合适的存储器装置或与之通信,这些合适的存储器装置能操作成存储数据和/或计算机可执行指令。通过执行计算机可执行指令,可形成用于处理语音输入的专用计算机或特定机器。
参考图1,***可包括一个或多个处理器105和存储器装置110(大体上称为存储器110)。另外,***可包括与处理器105通信的任何数量的其它部件,例如任何数量的输入/输出(“I/O”)装置115、任何数量的合适的应用120和/或合适的全球定位***(“GPS”)或其它位置确定***。处理器105可包括任何数量的合适的处理装置,例如中央处理单元(“CPU”)、数字信号处理器(“DSP”)、精简指令集计算机(“RISC”)、复杂指令集计算机(“CISC”)、微处理器、微控制器、现场可编程门阵列(“FPGA”)或其任何组合。如期望的,可提供芯片组(未示出)用于控制处理器105与***100的其它部件中的一个或多个之间的通信。在一个实施例中,***100可基于Intel®架构***,并且处理器105和芯片组可来自Intel®处理器和芯片组系列,例如Intel® Atom®处理器系列。处理器105还可包括一个或多个处理器作为一个或多个专用集成电路(“ASIC”)或专用标准产品(“ASSP”)的部分,用于处理特定数据处理功能或任务。另外,任何数量的合适的I/O接口和/或通信接口(例如,网络接口、数据总线接口等)可促进处理器105和/或***100的其它部件之间的通信。
存储器110可包括任何数量的合适的存储器装置,例如高速缓存、只读存储器装置、随机存取存储器(“RAM”)、动态RAM(“DRAM”)、静态RAM(“SRAM”)、同步动态RAM(“SDRAM”)、双数据速率(“DDR”)SDRAM(“DDR-SDRAM”)、RAM-BUS DRAM(“RDRAM”)、闪速存储器装置、电可擦除可编程只读存储器(“EEPROM”)、非易失性RAM(“NVRAM”)、通用串行总线(“USB”)可移除存储器、磁存储装置、可移除存储装置(例如,存储器卡等)和/或不可移除存储装置。如期望的,存储器110可包括与***100通信的内部存储器装置和/或外部存储器装置。存储器110可存储由处理器105使用的数据、可执行指令和/或各种程序模块。可由存储器110存储的数据的示例包括数据文件131、与语法元素132关联的信息、与语言模型133关联的信息和/或可由处理器105执行的任何数量的合适的程序模块和/或应用,例如操作***(“OS”)134、语音识别模块135和/或语音输入调度器136。
数据文件131可包括促进***100的操作、语法元素132和/或语言模型133的标识和/或语音输入的处理的任何合适的数据。例如,存储的数据文件131可包括但不限于,用户简档信息、与用户的标识关联的信息、与应用120关联的信息和/或与车辆或其它语音识别环境关联的很多种上下文信息,例如位置信息。语法元素信息132可包括与可由语音识别模块135识别的多个不同的语法元素(例如,命令、语音输入等)关联的很多种信息。例如,语法元素信息132可包括与任何数量的应用120关联的动态生成和/或维持的语法元素列表,以及与语法元素关联的权重和/或优先级。语言模型信息133可包括与任何数量的语言模型(与语音识别关联地使用)关联的很多种信息,例如统计语言模型。在某些实施例中,这些语言模型可包括与任何数量的用户和/或应用关联的模型。另外或备选地,如在各种实施例中期望的,这些语言模型可包括结合很多种上下文信息标识和/或获得的模型。例如,如果车辆朝特定位置(例如,特定城市)行进,则与该位置关联的一个或多个语言模型可被标识,并且如期望的那样可从任何数量的合适的数据源获得。在某些实施例中,在语法元素列表或集中包括的各种语法元素可从能适用的语言模型确定或得到。例如,与某些命令和/或其它语音输入关联的语法的声明可从语言模型确定。
OS 134可以是促进语音识别和/或处理***的一般操作以及例如语音识别模块135和/或语音输入调度器等其它程序模块的执行的合适的模块或应用。语音识别模块135可包括促进多个语法元素的维护和/或接收的语音输入的处理的任何数量的合适的软件模块和/或应用。在操作中,语音识别模块135可标识能适用的语言模型和/或关联的语法元素,例如与正在执行的应用、标识的用户和/或车辆的当前位置关联的语言模型和/或关联的语法元素。另外,语音识别模块135可评估很多种上下文信息,例如用户偏好、应用标识、应用优先级、应用输出和/或动作、车辆参数(例如,速度、当前位置等)、用户做出的手势和/或很多种用户输入(例如,按钮按压等),以便对语法元素排序和/或分类。例如,动态语法元素列表可基于上下文信息而分类,并且如期望的,各种权重和/或优先级可分配给各种语法元素。
一旦接收语音输入用于处理,语音识别模块135可评估语音输入和排序的语法元素以便确定或标识接收的语音输入与语法元素之间的对应性。例如,排序和/或定优先级的语法元素列表可由语音识别模块135穿过直到识别语音输入。作为另一个示例,概率模型可用于标识具有匹配接收的语音输入的最高概率的语法元素。另外,如期望的,在语法元素标识期间可考虑很多种上下文信息。
一旦语法元素(或多个语法元素)已经标识为匹配语音输入,语音识别模块135可向语音输入调度器136提供与语法元素关联的信息。语音输入调度器136可包括任何数量的合适的模块和/或应用,其配置成向任何数量的合适的应用120提供和/或调度与识别的语音输入(例如,语音命令)关联的信息。例如,标识的语法元素可转化成输入,该输入提供给正在执行的应用。在该方面中,语音命令可被标识并且调度给相关应用120。另外,如期望的,很多种合适的车辆信息和/或车辆参数可提供给应用120。在该方面,应用可基于车辆信息调整它们的操作。在某些实施例中,语音输入调度器136可另外处理识别的语音输入以便生成输出信息(例如,音频输出信息、显示信息、用于通信的消息等)以呈现给用户。例如,可生成并且输出与语音命令的识别和/或处理关联的音频输出。作为另一个示例,视觉显示器可由语音输入调度器136基于语音命令的处理而更新。
如期望的,语音识别模块135和/或语音输入调度器136可实现为任何数量的合适的模块。备选地,单个模块可执行语音识别模块135和语音输入调度器136两者的功能。语音识别模块135和/或语音输入调度器136的操作的几个示例在下文参考图3-图5更详细地描述。
继续参考图1,I/O装置115可包括任何数量的合适的装置,其促进提供给处理器105的信息的收集和/或呈现给用户的信息的输出。合适的输入装置的示例包括但不限于,一个或多个图像传感器141(例如,拍摄装置等)、一个或多个传声器142或其它合适的音频捕捉装置、任何数量的合适的输入元件143和/或很多种其它合适的传感器(例如,红外传感器、测距仪等)。合适的输出装置的示例包括但不限于,一个或多个扬声器和/或一个或多个显示器144。其它合适的输入和/或输出装置可如期望的那样使用。
图像传感器141可包括将光学图像转换成电信号的任何已知的装置,例如拍摄装置、电荷耦合元件(“CCD”)、互补金属氧化物半导体(“CMOS”)传感器或类似物。在操作中,可处理由图像传感器141收集的数据以便确定或标识很多种合适的上下文信息。例如,可评估图像数据以便标识用户、检测用户指示和/或检测用户手势。相似地,传声器142可包括任何已知类型的传声器,其包括但不限于,电容式传声器、动态传声器、电容隔膜传声器、压电传声器、光学拾取传声器和/或其各种组合。在操作中,传声器142可收集声波和/或压力波,并且向处理器105提供收集的音频数据(例如,语音数据)用于评估。在该方面,可识别各种语音输入。另外,在某些实施例中,收集的语音数据可与存储的简档信息比较以便标识一个或多个用户。
输入元件143可包括任何数量的合适的部件和/或装置,其配置成接收用户输入。合适的输入元件的示例包括但不限于,按钮、旋钮、开关、触摸屏、电容感测元件等。显示器144可包括任何数量的合适的显示装置,例如液晶显示器(“LCD”)、发光二极管(“LED”)显示器、有机发光二极管(“OLED”)显示器和/或触摸屏显示器。
另外,在某些实施例中,通信可经由具有任何数量的用户装置(例如移动装置和/或平板计算机)的任何数量的合适的网络(例如,支持蓝牙的网络、Wi-Fi网络、有线网络、无线网络等)而建立。在该方面,输入信息可从用户装置接收并且/或输出信息可提供给用户装置。另外,通信可经由具有任何数量的合适的数据源和/或网络服务器的任何数量的合适的网络(例如,蜂窝网络、互联网等)而建立。在该方面,可获得语言模型信息和/或其它合适的信息。例如,基于车辆的位置,与该位置关联的一个或多个语言模型可从一个或多个数据源获得。如期望的,一个或多个通信接口可促进与用户装置和/或数据源的通信。
继续参考图1,任何数量的应用120可与***100关联。如期望的,与识别的语音输入关联的信息可由语音输入调度器136提供给应用120。在某些实施例中,应用120中的一个或多个可由处理器105执行。如期望的,应用120中的一个或多个可由与处理器105通信的网络中的其它处理装置执行。在示例车辆实施例中,应用120可包括任何数量的车辆应用151和/或任何数量的运行时或基于网络的应用152。该车辆应用151可包括与车辆关联的任何合适的应用,其包括但不限于,立体声控制应用、气候控制应用、导航应用、维护应用、监视各种车辆参数(例如,速度等)的应用和/或管理与其它车辆的通信的应用。运行时应用152可包括可与处理器105和/或语音输入调度器136通信的任何数量的基于网络的应用,例如环球网(Web)或网络托管的应用和/或由用户装置执行的应用。合适的运行时应用152的示例包括但不限于,社交联网应用、电子邮件应用、行驶应用、游戏应用等。如期望的,与合适的语音交互库关联的信息和关联的标记符号可提供给环球网和/或应用开发者来促进运行时应用152的编程和/或修改来添加上下文感知的语音识别功能性。
GPS 125可以是配置成基于与GPS卫星的网络的交互来确定位置的任何合适的装置。GPS 125可提供位置信息(例如,坐标)和/或与到处理器105和/或到合适的导航***的位置的改变关联的信息。在某些实施例中,位置信息可以是在语法元素的维护和/或语音输入的处理期间评估的上下文信息。
在上文参考图1描述的***100或架构仅通过示例的方式提供。如期望的,很多种其它***和/或架构可用于使用动态维护的语音元素集或列表处理语音输入。这些***和/或架构可包括与在图1中图示的不同的部件和/或部件安排。
图2是其中可实现语音识别***的示例环境200的简化示意图。图2的环境200是车辆环境,例如与汽车或其它车辆关联的环境。参考图2,图示车辆的驾驶舱区域。环境200可包括一个或多个座位、仪表板和控制台。另外,很多种合适的传感器、输入元件和/或输出装置可与环境200关联。这些各种部件和/或装置可促进语音输入和上下文信息的收集,以及信息到一个或多个用户(例如,驾驶员等)的输出。
参考图2,可提供任何数量的传声器205A-N、图像传感器210、输入元件215和/或显示器220。传声器205A-N可促进语音输入和/或要评估或处理的其它音频输入的收集。在某些实施例中,可评估收集的语音输入以便标识环境内的一个或多个用户。另外,收集的语音输入可提供给合适的语音识别模块或***来促进口头命令的标识。图像传感器210可促进可为了很多种合适的目的(例如用户标识和/或用户手势的标识)而评估的图像数据的收集。在某些实施例中,用户手势可指示语音输入识别应何时开始和/或终止。在其它实施例中,用户手势可提供与语音输入的处理关联的上下文信息。例如,用户可朝音响***(或与音响***关联的指定区域)做手势来指示语音输入与该音响***关联。
输入元件215可包括促进物理用户输入的收集的任何数量的合适的部件和/或装置。例如,输入元件215可包括按钮、开关、旋钮、电容感测元件、触摸屏显示器输入和/或其它合适的输入元件。一个或多个输入元件215的选择可发起和/或终止语音识别,以及提供与语音识别关联的上下文信息。例如,可评估最后选择的输入元件或在接收语音输入期间选择的(或在接收语音输入后时间上相对接近的)输入元件以便标识与语音输入关联的语法元素或命令。在某些实施例中,朝输入元件的手势还可由图像传感器210标识。尽管输入元件215图示为控制台的部件,输入元件215可位于环境200内的任何合适的点处,例如门上、仪表板上、方向盘上和/或顶棚上。显示器220可包括任何数量的合适的显示装置,例如液晶显示器(“LCD”)、发光二极管(“LED”)显示器、有机发光二极管(“OLED”)显示器和/或触摸屏显示器。如期望的,显示器220可促进很多种视觉信息到一个或多个用户的输出。在某些实施例中,朝显示器的手势(例如,指向显示器、注视显示器等)可标识和评估为合适的上下文信息。
在图2中图示的环境200仅通过示例的方式提供。如期望的,各种实施例可在很多种其它环境中使用。确实,实施例可在其中实现语音识别的任何合适的环境中使用。
操作概观
图3是用于提供语音输入功能性的示例方法300的流程图。在某些实施例中,方法300的操作可由合适的语音输入***和/或一个或多个关联的模块和/或应用执行,例如在图1中图示的语音输入***100和/或关联的语音识别模块135。方法300可在框305处开始。
在框305处,语音识别模块或应用135可被配置和/或实现。如期望的,在语音识别模块135的配置期间可考虑很多种不同类型的配置信息。配置信息的示例包括但不限于,一个或多个用户(例如,驾驶员、乘客等)的标识、用户简档信息、与标识语音输入和/或获得语言模型关联的用户偏好和/或参数、一个或多个正在执行的应用(例如,车辆应用、运行时应用)的标识、与应用关联的优先级、与应用所采取的动作关联的信息、一个或多个车辆参数(例如,位置、速度等)和/或与接收的用户输入(例如,输入元件选择、手势等)关联的信息。
如在下文参考图4更详细解释的,配置信息的至少一部分可用于标识与语音识别关联的很多种不同的语言模型。这些语言模型中的每个可与任何数量的相应语法元素关联。在框310处,例如语法元素列表等语法元素集可由语音识别模块135填充。语法元素可用于标识随后由语音识别模块135接收的命令和/或其它语音输入。在某些实施例中,语法元素集可至少部分基于配置信息的一部分而动态填充。动态填充的语法元素可排序或用别的方式组织(例如,分配优先级、分配权重等)使得对某些语法元素授予优先级。也就是说,语音交互库可预处理语法元素和/或语法声明以便影响后续语音识别处理。在该方面,在语音输入的处理期间,可给予某些语法元素优先级(但不是唯一考虑)。
作为动态填充语法元素集和/或对其排序的一个示例,与某些用户(例如,标识的驾驶员等)关联的语法元素可给予比与其它用户关联的语法元素相对更高的优先级(例如,列表中排序更早、分配相对更高的优先级或权重等)。作为另一个示例,在填充语法元素列表期间或在向语法元素分配相应优先级期间可考虑用户偏好和应用优先级。作为其它示例,应用动作(例如,由应用接收电子邮件或文本消息、警报的生成、打进电话呼叫的接收、会议请求的接收等)、接收的用户输入、标识的手势和/或其它配置和/或上下文信息可在语法元素集的动态填充期间考虑。
在框315处,可收集和/或接收至少一个上下文或上下文信息项。很多种上下文信息可如期望的那样在本发明的各种实施例中收集,例如一个或多个用户的标识(例如,发言者的标识)、与应用的状态改变关联的信息(例如,近来执行的应用、终止的应用等)、与应用所采取的动作关联的信息、一个或多个车辆参数(例如,位置、速度等)和/或与接收的用户输入关联的信息(例如,输入元件选择、手势等)。在某些实施例中,上下文信息可用于调整和/或修改语法元素列表或集。例如,上下文信息可被连续接收、定期接收和/或基于一个或多个标识或检测的事件(例如,应用输出、手势、接收的输入等)而接收。接收的上下文信息然后可用于调整语法元素的排序和/或优先级。在其它实施例中,上下文信息可与接收语音输入关联地接收或标识,并且可评估上下文信息以便从语法元素集选择语法元素。作为另一个示例,如果应用被关闭或终止,则与该应用关联的语法元素可从语法元素集去除。
在框320处,可接收语音输入或音频输入。例如,可接收由一个或多个传声器或其它音频捕捉装置收集的语音输入。在某些实施例中,语音输入可基于语音识别命令的标识而接收。例如,输入元件的用户选择或与语音识别的发起关联的用户手势的标识可被标识,并且语音输入然后可在选择或标识之后被接收。
一旦接收语音输入,在框325处,可处理语音输入以便标识一个或多个对应的语法元素。例如,在某些实施例中,可穿过排序和/或定优先级的语法元素列表直到标识一个或多个对应的语法元素。在其它实施例中,概率模型可确定或计算对应于语音输入的各种语法元素的概率。如期望的,对应性的标识还可考虑很多种上下文信息。例如,可考虑输入元件选择、由一个或多个应用采取的动作、用户手势和/或任何数量的车辆参数以便标识对应于语音输入的语法元素。在该方面,可以相对高的准确性标识合适的语音命令或其它语音输入。
某些实施例可简化语法元素的确定以与语音识别关联地标识和/或使用。例如,通过在语法元素列表中使与最近启用的应用和/或部件排序更高,语音识别模块可朝那些语法元素偏置。这样的方法可应用语音输入最可能被引导朝向最近受到用户关注的部件和/或应用这一假设。例如,如果消息近来已经由应用或部件输出,则语音识别可偏向与应用或部件关联的命令。作为另一个示例,如果与特定部件或应用关联的用户标识近来已经被标识,则语音识别可偏向与应用或部件关联的命令。
在框330处,一旦语法元素(或多个语法元素)已经标识为匹配语音输入,可确定命令或其它合适的输入。与命令关联的信息然后可例如由语音输入调度器提供给任何数量的合适的应用。例如,标识的语法元素或命令可转化成输入,该输入提供给正在执行的应用。在该方面,语音命令可被标识并且调度给相关应用。另外,在某些实施例中,可处理识别的语音输入以便生成输出信息(例如,音频输出信息、显示信息、用于通信的消息等)以呈现给用户。例如,可生成并且输出与语音命令的识别和/或处理关联的音频输出。作为另一个示例,视觉显示器可基于语音命令的处理而更新。方法300可在框330之后结束。
图4是用于填充用于语音识别的动态语法元素集或列表的示例方法400的流程图。该方法400的操作可以是在图3中图示的方法300的框305和310处进行的操作的一个示例。如此,方法400的操作可由合适的语音输入***和/或一个或多个关联的模块和/或应用执行,例如在图1中图示的语音输入***100和/或关联的语音识别模块135。方法400可在框405处开始。
在框405处,可标识一个或多个正在执行的应用。很多种应用可如期望的那样在各种实施例中标识。例如,在框410处,可标识一个或多个车辆应用,例如导航应用、立体声控制应用、气候控制应用和/或移动装置通信应用。作为另一个示例,在框415处,可标识一个或多个运行时或网络应用。这些运行时应用可包括由与车辆关联的一个或多个处理器和/或计算装置执行的应用和/或由与车辆通信的装置(例如,移动装置、平板计算机、邻近车辆、云服务器等)执行的应用。在某些实施例中,运行时应用可包括任何数量的合适的基于浏览器的和/或超文本标记语言(“HTML”)应用,例如互联网和/或基于云的应用。在语言模型的标识期间,如在下文参考框430更详细描述的,可标识或确定与应用中的每个关联的一个或多个语音识别语言模型。在这方面,应用特定语法元素可为了语音识别目的而标识。如期望的,可例如基于用户简档信息和/或默认简档信息而确定对于各种应用的各种优先级和/或权重。在该方面,不同的优先级可应用于应用语言模型和/或它们关联的语法元素。
在框420处,可标识与车辆(或另一个语音识别环境)关联的一个或多个用户。很多种合适的方法和/或技术可用于标识用户。例如,用户的语音样本可被收集并且与存储的语音样本比较。作为另一个示例,用户的图像数据可使用合适的面部识别技术而收集和评估。作为另一个示例,可评估其它生物计量输入(例如,指纹等)来标识用户。作为又一个示例,用户可基于确定车辆与用户装置(例如,移动装置等)之间的配对和/或基于由用户输入的用户标识信息(例如,个人标识号等)的接收和评估而标识。一旦已经标识一个或多个用户,可标识和/或获得与用户中的每个关联的相应语言模型(例如,从存储器访问、从数据源或用户装置获得等)。在该方面,可标识用户特定语法元素(例如,用户限定的命令等)。在某些实施例中,与用户关联的优先级可被确定并且用于向语言模型和/或语法元素提供优先级和/或权重。例如,更高的优先级可提供给与标识的车辆驾驶员关联的语法元素。
另外,在某些实施例中,很多种用户参数和/或偏好可例如通过访问与标识的用户关联的用户简档而标识。可评估这些参数和/或偏好和/或将其用于很多种不同的目的,例如,对正在执行的应用定优先级、基于车辆参数标识和/或获得语言模型和/或识别和/或标识用户特定手势。
在框425处,可标识与车辆关联的位置信息。例如,可从合适的GPS部件接收坐标并且评估其来确定车辆的位置。如在各种实施例中期望的,可标识很多种其它车辆信息,例如速度、剩余燃料量或其它合适的参数。如在下文参考框430更详细描述的,可标识或确定与位置信息(和/或车辆参数)关联的一个或多个语音识别语言模型。例如,如果位置信息指示车辆位于旧金山处或附近,可标识与在旧金山行驶相关的一个或多个语言模型,例如包括与旧金山中的地标、感兴趣的点和/或感兴趣的特色关联的语法元素的语言模型。对于旧金山的示例语法元素可包括但不限于,“金门公园”、“北海湾”、“太平洋岗”和/或与各种感兴趣点关联的任何其它合适的语法元素。在某些实施例中,在语言模型的标识期间可考虑一个或多个用户偏好。例如,用户可规定与浏览胜地关联的语言模型应在车辆行驶到指定本地区之外的情况下获得。另外,一旦与特定位置关联的语言模型不再相关(即,车辆位置已经改变等),可丢弃语言模型。
作为获得或标识与车辆参数关联的语言模型的另一个示例,如果从车辆参数的评估确定车辆速度是相对恒定的,则可访问与巡航控制应用和/或巡航控制输入关联的语言模型。作为另一个示例,如果确定车辆的燃料相对低,则可标识与邻近加油站的标识关联的语言模型。确实,很多种合适的语言模型可基于车辆位置和/或其它车辆参数而标识。
在框430处,一个或多个语言模型可至少部分基于很多种标识的参数和/或配置信息(例如应用信息、用户信息、位置信息和/或其它车辆参数信息)而标识。另外,在框435处,可标识或确定与标识的一个或多个语言模型中的每个关联的相应语法元素。在某些实施例中,语法元素或语法声明的库、列表或其它组可在语音识别***或模块的配置和/或实现期间标识或建立。另外,语法元素可基于很多种用户偏好和/或上下文信息而组织或定优先级。
在框440处,可标识或确定至少一个上下文信息项。该上下文信息可用于组织语法元素和/或对各种语法元素应用优先级或权重。在该方面,语法元素可在语音输入的接收和处理之前被预处理。很多种合适的上下文信息可如期望的那样在各种实施例中标识。例如,在框445处,可标识一个或多个应用的参数、操作和/或输出。作为另一个示例,在框450处,可标识很多种合适的车辆参数,例如车辆位置的更新、车辆速度、燃料量等。作为另一个示例,在框455处,可标识用户手势。例如,可评估收集的图像数据以便标识用户手势。作为又一个示例,在框460处,可标识任何数量的用户输入,例如一个或多个近来选择的按钮或其它输入元件。
在框465处,可填充例如语法元素列表等语法元素集和/或对其排序。如期望的,各种优先级和/或权重可至少部分基于上下文信息和/或任何数量的用户偏好而应用于语法元素。也就是说,可对语法元素进行预处理以便影响后续语音识别处理或使之偏向。在该方面,在某些实施例中,与不同的应用和/或用户关联的语法元素可被排序。在两个应用或两个用户具有相同或相似的语法元素的情况下,可评估上下文信息以便对某些语法元素提供比其它语法元素更高的优先级。另外,如期望的,语法元素集可基于很多种额外的信息(例如额外的上下文信息和/或正在执行的应用的改变)而动态调整。
作为填充语法元素列表的一个示例,可评估应用优先级以便向与更高优先级应用关联的语法元素提供优先级。作为另一个示例,与应用的近来输出或操作(例如,接收的消息、生成的警告等)关联的语法元素可提供有比其它语法元素更高的优先级。例如,如果文本消息近来已经被消息传递应用接收,则与输出文本消息和/或对文本消息作出响应关联的语法元素可提供有更高的优先级。作为另一个示例,在车辆位置改变时,与感兴趣的邻近点关联的语法元素可提供有更高的优先级。作为另一个示例,可评估最近标识的用户手势或用户输入以便对与手势或输入关联的语法元素提供更高的优先级。例如,如果用户朝立体声***做手势(例如,注视、指向等),与立体声应用关联的语法元素可提供有更高的优先级。
方法400可在框465之后结束。
图5是用于处理接收的语音输入的示例方法500的流程图。方法500的操作可以是在图3中图示的方法300的框320-330处进行的操作的一个示例。如此,方法500的操作可由合适的语音输入***和/或一个或多个关联的模块和/或应用(例如在图1中图示的语音输入***100和/或关联的语音识别模块135和/或语音输入调度器136)执行。方法500可在框502处开始。
在框502处,可启用语音输入识别。例如,与语音识别的发起关联的用户手势或输入(例如,按钮按压等)可被标识或检测。一旦语音输入识别已经被启用,语音输入可在框504处被一个或多个音频捕捉装置(例如,传声器等)记录。在框506处,由音频捕捉装置收集的语音输入数据然后可由合适的语音识别模块135或语音识别引擎接收以用于处理。
在框508处,可访问语法元素集,例如动态维持的语法元素列表。在框510处,可标识与接收的语音输入关联的很多种合适的上下文信息。例如,在框512处,至少一个用户(例如语音输入的发言者)可基于一个或多个合适的标识技术(例如,图像数据的评估、语音数据的处理等)而标识。作为另一个示例,在框514处,可标识任何数量的应用操作和/或参数,例如由应用生成的消息或警告或对于由应用生成的输入的请求。作为另一个示例,在框516处,可标识很多种车辆参数(例如,位置、速度、剩余燃料量等)。作为另一个示例,在框518处,可标识由用户做出的手势。作为又一个示例,一个或多个输入元件(例如,按钮、旋钮等)的用户选择可在框520处标识。在某些实施例中,可标识多个上下文信息项。另外,如在某些实施例中期望的,语法元素可至少部分基于上下文信息而选择性地访问和/或分类。例如,可标识语音输入的发言者,并且语法元素可基于发言者的身份而访问、分类和/或定优先级。
在框522处,可确定在对应于接收的语音输入的语法元素集中包括的语法元素(或多个语法元素)。很多种合适的方法或技术可用于确定语法元素。例如,在框524处,访问的语法元素列表可被穿过(例如,从开始或顶部相继地评估等)直到标识语法元素与语音输入之间的最佳匹配或对应性。作为另一个示例,在框526处,概率模型可用于计算在语法元素集中包括的各种语法元素对应于语音输入的概率。在该方面,可生成排序的语法元素列表,并且可确定更高的概率匹配。不管确定方法如何,在某些实施例中,语法元素可至少部分基于上下文信息而确定。在该方面,语音识别可偏向而对对应于上下文信息项的语法元素给予优先级(但不是唯一考虑)。
在某些实施例中,多个应用可与相似的语法元素关联。在语法元素集的维护期间和/或在语音识别期间,上下文信息可促进与多个应用中的一个关联的适合的语法元素的标识。例如,命令“up”可与多个不同的应用关联,例如立体声***应用和/或控制窗口功能的应用。在由用户选择的最后的输入元件与立体声***关联的情况下,接收的“up”命令可标识为立体声***命令,并且立体声的音量可增加。作为另一个示例,可生成警告消息并且将其输出给用户,从而指示应对车辆进行维护。因此,在接收“调高”的命令时,如与更改立体声***的调谐的命令相对,可确定命令与在代理商处调度维护和/或将路线映射到服务提供商的应用关联。
一旦对应于语音输入的语法元素(或多个语法元素)已经被确定,接收的与语法元素关联的命令可在框528处标识。在某些实施例中,可提示用户确认命令(或从多个潜在命令选择适合的命令或提供可用于选择命令的额外信息)。如期望的,一旦已经标识命令,很多种合适的动作可基于与标识的命令关联的一个或多个应用的标识的命令和/或参数而采取。例如,在框530处,标识的命令可转化成要提供给与标识的命令关联的应用的输入信号或输入数据。在框532处,该输入数据然后可提供或调度给适合的应用。另外,如期望的,很多种合适的车辆信息和/或车辆参数可提供给应用。在该方面,应用可基于车辆信息来调整它们的操作。
方法500可在框532之后结束。
在图3-图5的方法300、400、500中描述和示出的操作可采用任何合适的顺序如期望的那样在本发明的各种实施例中实施或进行。另外,在某些实施例中,操作的至少一部分可并行实施。此外,在某些实施例中,可进行比在图3-图5中描述的更少或更多的操作。
本文描述的本公开的某些实施例可具有至少部分基于与语音识别环境关联的上下文信息而使语音识别偏向的技术效果。例如,在车辆环境中,通过用户的输入元件的手势和/或选择可用于向与该手势或输入元件关联的语法元素提供更高的优先级。因此,可进行相对准确的语音识别。另外,语音识别可代表多个不同的应用而进行,并且语音命令可调度和/或分配给各种应用。
本公开的某些方面在上文参考根据示例实施例的***、方法、设备和/或计算机程序产品的框图和流程图而描述。将理解,框图和流程图中的一个或多个框以及框图和流程图中的框的组合可以分别由计算机可执行程序指令实现。同样,根据一些实施例,框图和流程图中的一些框可不一定需要以呈现的顺序进行,或完全不必需要进行。
这些计算机可执行程序指令可装载到通用计算机或其它特定机器、处理器或其它可编程数据处理设备上来产生特定的机器,使得在计算机、处理器或其它可编程的数据处理装置上执行的指令创建用于实现在流程图框或多个框中规定的一个或多个功能的工具。这些计算机程序指令还可存储在计算机可读存储器中,其可以指示计算机或其它可编程数据处理装置采用特定的方式起作用,使得存储在计算机可读存储器中的指令产生包括实现流程图框或多个框中规定的一个或多个功能的指令工具的制品。作为示例,某些实施例可提供计算机程序产品,其包括计算机可用介质,该计算机可用介质具有包含于其中的计算机可读程序代码或程序指令,所述计算机可读程序代码适应于被执行以实现流程图框或多个框中规定的一个或多个功能。计算机程序指令还可装载到计算机或其它可编程数据处理装置上以促使在计算机或其它可编程装置上进行一系列操作元素或步骤来产生计算机实现的过程使得在计算机或其它可编程装置上执行的指令提供用于实现流程图框或多个框中规定的功能的元素或步骤。
因此,框图和流程图的框支持用于进行规定功能的工具的组合、用于进行规定功能的元素或步骤和用于进行规定功能的程序指令工具的组合。还将理解框图和流程图的每个框以及框图和流程图中的框的组合可以由进行专用硬件和计算机指令的规定功能、元素或步骤或组合的专用、基于硬件的计算机***实现。
除其它外,例如“可以”、“可”或“可能”等条件语言还大体上意在传达某些实施例可以包括而其它实施例不包括某些特征、元素和/或操作,除非另外明确规定或另外在如使用的上下文内理解。从而,在具有或没有包括特征、元素和/或操作或要在任何特定实施例中进行它们的用户输入或提示的情况下,每个条件语言大体上不意在暗指一个或多个实施例以任何方式需要这些特征、元素和/或操作或一个或多个实施例必定包括用于决定的逻辑。
本文阐述的本公开的许多修改和其它实施例将在明显受益于在前述描述和关联的图中呈现的教导。因此,要理解本公开不限于公开的特定实施例并且这些修改和其它实施例规定为包括在附上的权利要求的范围内。尽管本文采用特定术语,它们仅在一般和描述意义上使用并且不是为了限制的目的。
Claims (30)
1. 一种语音识别***,包括:
至少一个存储器,配置成存储多个语法元素;
至少一个输入装置,配置成接收语音输入;以及
至少一个处理器,配置成(i)标识至少一项上下文信息和(ii)至少部分基于所述上下文信息来确定所接收的语音输入与在所述多个语法元素中所包括的语法元素之间的对应性。
2. 如权利要求1所述的语音识别***,其中所述至少一个处理器进一步配置成标识多个语言模型并且至少部分基于所述多个语言模型来指示所述多个语法元素的存储。
3. 如权利要求1所述的语言识别***,其中所述上下文信息包括以下中的至少一个(i)用户的标识,(ii)由正在执行的应用采取的动作的标识,(iii)与车辆关联的参数,(iv)用户手势或(v)用户输入。
4. 如权利要求1所述的语音识别***,其中所述至少一个处理器进一步配置成至少部分基于所述上下文信息来对存储的多个语法元素排序并且评估经排序的多个语法元素来确定所接收的语音输入与所述语法元素之间的对应性。
5. 一种计算机实现的方法,包括:
由包括一个或多个计算机处理器的计算***标识与语音识别关联的多个语法元素;
由所述计算***标识至少一项上下文信息;
由所述计算***至少部分基于所述上下文信息而对所述多个语法元素排序;
由所述计算***接收语音输入;以及
由所述计算***至少部分基于所述经排序的多个语法元素的评估来确定所接收的语音输入和包括在所述多个语法元素中的语法元素之间的对应性。
6. 如权利要求5所述的方法,其中标识多个语法元素包括:
标识多个语言模型;以及
对于所述多个语言模型中的每个确定要包括在所述多个语法元素中的一个或多个语法元素的相应集。
7. 如权利要求6所述的方法,其中标识多个语言模型包括标识以下中的至少一个:(i)与用户关联的语言模型,(ii)与正在执行的应用关联的语言模型或(iii)与当前位置关联的语言模型。
8. 如权利要求5所述的方法,其中标识至少一项上下文信息包括以下中的至少一个:(i)标识用户,(ii)标识由正在执行的应用采取的动作,(iii)标识与车辆关联的参数,(iv)标识用户手势或(v)标识用户输入。
9. 权利要求5所述的方法,其中标识多个语法元素包括标识与多个正在执行的应用关联的多个语法元素。
10. 如权利要求9所述的方法,其中所述多个应用包括(i)基于车辆的应用或(ii)基于网络的应用中的至少一个。
11. 如权利要求5所述的方法,其中对所述多个语法元素排序包括至少部分基于所述上下文信息对所述多个语法元素加权。
12. 如权利要求5所述的方法,进一步包括:
由所述计算***将所识别的语法元素转化成输入;以及
由所述计算***向应用提供所述输入。
13. 一种***,包括:
至少一个存储器,配置成存储计算机可执行指令;以及
至少一个处理器,配置成访问所述至少一个存储器并且执行所述计算机可执行指令来:
标识与语音识别关联的多个语法元素;
接收语音输入;
标识至少一项上下文信息;以及
至少部分基于所述上下文信息来确定所接收的语音输入与在所述多个语法元素中所包括的语法元素之间的对应性。
14. 如权利要求13所述的***,其中所述至少一个处理器配置成通过执行所述计算机可执行指令来标识所述多个语法元素以:
标识多个语言模型;以及
对于所述多个语言模型中的每个确定要包括在所述多个语法元素中的一个或多个语法元素的相应集。
15. 如权利要求14所述的***,其中所述多个语言模型包括以下中的至少一个:(i)与用户关联的语言模型,(ii)与正在执行的应用关联的语言模型或(iii)与当前位置关联的语言模型。
16. 如权利要求13所述的***,其中所述上下文信息包括以下中的至少一个:(i)用户的标识,(ii)由正在执行的应用采取的动作的标识,(iii)与车辆关联的参数,(iv)用户手势或(v)用户输入。
17. 如权利要求13所述的***,其中所述多个语法元素包括与多个正在执行的应用关联的多个语法元素。
18. 如权利要求17所述的***,其中所述多个应用包括(i)基于车辆的应用或(ii)基于网络的应用中的至少一个。
19. 如权利要求13所述的***,其中所述至少一个处理器进一步配置成执行所述计算机可执行指令以:
至少部分基于所述上下文信息来对所述多个语法元素排序;以及
评估经排序的多个语法元素来确定所接收的语音输入与所述语法元素之间的对应性。
20. 如权利要求13所述的***,其中所述至少一个处理器进一步配置成执行所述计算机可执行指令来:
确定所接收的语音输入与在所述多个语法元素中包括的至少一个语法元素之间的概率;以及
至少部分基于所确定的概率来确定所述对应性。
21. 如权利要求13所述的***,其中所述至少一个处理器进一步配置成执行所述计算机可执行指令来:
将识别的语法元素转化成输入;以及
指示提供所述输入到应用。
22. 至少一个计算机可读介质,包括计算机可执行指令,所述计算机可执行指令在由至少一个处理器执行时配置所述至少一个处理器来:
标识与语音识别关联的多个语法元素;
接收语音输入;
标识至少一项上下文信息;以及
至少部分基于所述上下文信息来确定所接收的语音输入与在所述多个语法元素中所包括的语法元素之间的对应性。
23. 如权利要求22所述的计算机可读介质,其中所述计算机可执行指令进一步配置所述至少一个处理器来:
标识多个语言模型;以及
对于所述多个语言模型中的每个确定要包括在所述多个语法元素中的一个或多个语法元素的相应集。
24. 如权利要求23所述的计算机可读介质,其中所述多个语言模型包括以下中的至少一个:(i)与用户关联的语言模型,(ii)与正在执行的应用关联的语言模型或(iii)与当前位置关联的语言模型。
25. 如权利要求22所述的计算机可读介质,其中所述上下文信息包括以下中的至少一个:(i)用户的标识,(ii)由正在执行的应用采取的动作的标识,(iii)与车辆关联的参数,(iv)用户手势或(v)用户输入。
26. 如权利要求22所述的计算机可读介质,其中所述多个语法元素包括与多个正在执行的应用关联的多个语法元素。
27. 如权利要求26所述的计算机可读介质,其中所述多个应用包括(i)基于车辆的应用或(ii)基于网络的应用中的至少一个。
28. 如权利要求22所述的计算机可读介质,其中所述计算机可执行指令进一步配置所述至少一个处理器来:
至少部分基于所述上下文信息来对所述多个语法元素排序;以及
评估经排序的多个语法元素来确定所接收的语音输入与所述语法元素之间的所述对应性。
29. 如权利要求22所述的计算机可读介质,其中所述计算机可执行指令进一步配置所述至少一个处理器来:
确定所接收的语音输入与在所述多个语法元素中包括的至少一个语法元素之间的概率;以及
至少部分基于所确定的概率来确定所述对应性。
30. 如权利要求22所述的计算机可读介质,其中所述计算机可执行指令进一步配置所述至少一个处理器来:
将识别的语法元素转化成输入;以及
指示提供所述输入到应用。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2011/067825 WO2013101051A1 (en) | 2011-12-29 | 2011-12-29 | Speech recognition utilizing a dynamic set of grammar elements |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103999152A true CN103999152A (zh) | 2014-08-20 |
Family
ID=48698288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180076026.9A Pending CN103999152A (zh) | 2011-12-29 | 2011-12-29 | 利用动态语法元素集的语音识别 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20140244259A1 (zh) |
EP (1) | EP2798634A4 (zh) |
CN (1) | CN103999152A (zh) |
WO (1) | WO2013101051A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767865A (zh) * | 2016-08-19 | 2018-03-06 | 谷歌公司 | 语音动作偏置*** |
CN107808662A (zh) * | 2016-09-07 | 2018-03-16 | 阿里巴巴集团控股有限公司 | 更新语音识别用的语法规则库的方法及装置 |
CN111312236A (zh) * | 2018-12-12 | 2020-06-19 | 现代自动车株式会社 | 语音识别***的域管理方法 |
CN112041905A (zh) * | 2018-04-13 | 2020-12-04 | 德沃特奥金有限公司 | 家具驱动器的控制装置和控制家具驱动器的方法 |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9576572B2 (en) * | 2012-06-18 | 2017-02-21 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods and nodes for enabling and producing input to an application |
US9292253B2 (en) | 2012-08-02 | 2016-03-22 | Nuance Communications, Inc. | Methods and apparatus for voiced-enabling a web application |
US10157612B2 (en) | 2012-08-02 | 2018-12-18 | Nuance Communications, Inc. | Methods and apparatus for voice-enabling a web application |
US9400633B2 (en) | 2012-08-02 | 2016-07-26 | Nuance Communications, Inc. | Methods and apparatus for voiced-enabling a web application |
US9292252B2 (en) | 2012-08-02 | 2016-03-22 | Nuance Communications, Inc. | Methods and apparatus for voiced-enabling a web application |
US9781262B2 (en) * | 2012-08-02 | 2017-10-03 | Nuance Communications, Inc. | Methods and apparatus for voice-enabling a web application |
US9798799B2 (en) * | 2012-11-15 | 2017-10-24 | Sri International | Vehicle personal assistant that interprets spoken natural language input based upon vehicle context |
US20140222435A1 (en) * | 2013-02-01 | 2014-08-07 | Telenav, Inc. | Navigation system with user dependent language mechanism and method of operation thereof |
CN105814628B (zh) * | 2013-10-08 | 2019-12-10 | 三星电子株式会社 | 用于基于装置信息来执行语音识别的方法和设备 |
US9741343B1 (en) * | 2013-12-19 | 2017-08-22 | Amazon Technologies, Inc. | Voice interaction application selection |
CN104753898B (zh) * | 2013-12-31 | 2018-08-03 | ***通信集团公司 | 一种验证方法、验证终端、验证服务器 |
US11386886B2 (en) | 2014-01-28 | 2022-07-12 | Lenovo (Singapore) Pte. Ltd. | Adjusting speech recognition using contextual information |
US9495959B2 (en) * | 2014-02-27 | 2016-11-15 | Ford Global Technologies, Llc | Disambiguation of dynamic commands |
CN104615360A (zh) * | 2015-03-06 | 2015-05-13 | 庞迪 | 一种基于语音识别的历史个人桌面恢复方法及*** |
EP3067884B1 (en) * | 2015-03-13 | 2019-05-08 | Samsung Electronics Co., Ltd. | Speech recognition system and speech recognition method thereof |
US9472196B1 (en) | 2015-04-22 | 2016-10-18 | Google Inc. | Developer voice actions system |
KR102413067B1 (ko) * | 2015-07-28 | 2022-06-24 | 삼성전자주식회사 | 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스 |
US10388280B2 (en) * | 2016-01-27 | 2019-08-20 | Motorola Mobility Llc | Method and apparatus for managing multiple voice operation trigger phrases |
WO2018013564A1 (en) * | 2016-07-12 | 2018-01-18 | Bose Corporation | Combining gesture and voice user interfaces |
US20190179316A1 (en) * | 2016-08-25 | 2019-06-13 | Purdue Research Foundation | System and method for controlling a self-guided vehicle |
KR102515996B1 (ko) * | 2016-08-26 | 2023-03-31 | 삼성전자주식회사 | 음성 인식을 위한 전자 장치 및 그 제어 방법 |
DE102017200976B4 (de) * | 2017-01-23 | 2018-08-23 | Audi Ag | Verfahren zum Betreiben eines Kraftfahrzeugs mit einer Bedienvorrichtung |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
US11221823B2 (en) * | 2017-05-22 | 2022-01-11 | Samsung Electronics Co., Ltd. | System and method for context-based interaction for electronic devices |
US10552204B2 (en) | 2017-07-07 | 2020-02-04 | Google Llc | Invoking an automated assistant to perform multiple tasks through an individual command |
US10504513B1 (en) * | 2017-09-26 | 2019-12-10 | Amazon Technologies, Inc. | Natural language understanding with affiliated devices |
US11170762B2 (en) * | 2018-01-04 | 2021-11-09 | Google Llc | Learning offline voice commands based on usage of online voice commands |
FR3091604B1 (fr) | 2019-01-04 | 2021-01-08 | Faurecia Interieur Ind | Procédé, dispositif, et programme de personnalisation et d’activation d’un système d’assistant virtuel personnel de véhicules automobiles |
US10839158B2 (en) * | 2019-01-25 | 2020-11-17 | Motorola Mobility Llc | Dynamically loaded phrase spotting audio-front end |
CN114882886A (zh) * | 2022-04-27 | 2022-08-09 | 卡斯柯信号有限公司 | Ctc仿真实训语音识别处理方法、存储介质和电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1300050A (zh) * | 1999-12-13 | 2001-06-20 | 索尼国际(欧洲)股份有限公司 | 语音识别方法 |
US6836760B1 (en) * | 2000-09-29 | 2004-12-28 | Apple Computer, Inc. | Use of semantic inference and context-free grammar with speech recognition system |
CN1581294A (zh) * | 2003-08-11 | 2005-02-16 | 微软公司 | 语音识别增强的呼叫者识别 |
US20090171663A1 (en) * | 2008-01-02 | 2009-07-02 | International Business Machines Corporation | Reducing a size of a compiled speech recognition grammar |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5699456A (en) * | 1994-01-21 | 1997-12-16 | Lucent Technologies Inc. | Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars |
WO2000017854A1 (en) * | 1998-09-22 | 2000-03-30 | Nokia Networks Oy | Method and system of configuring a speech recognition system |
US20050131695A1 (en) * | 1999-02-04 | 2005-06-16 | Mark Lucente | System and method for bilateral communication between a user and a system |
US6430531B1 (en) * | 1999-02-04 | 2002-08-06 | Soliloquy, Inc. | Bilateral speech system |
DE19951001C2 (de) * | 1999-10-22 | 2003-06-18 | Bosch Gmbh Robert | Vorrichtung zur Darstellung von Informationen in einem Fahrzeug |
US6574595B1 (en) * | 2000-07-11 | 2003-06-03 | Lucent Technologies Inc. | Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition |
US7139709B2 (en) * | 2000-07-20 | 2006-11-21 | Microsoft Corporation | Middleware layer between speech related applications and engines |
EP1215658A3 (en) * | 2000-12-05 | 2002-08-14 | Hewlett-Packard Company | Visual activation of voice controlled apparatus |
US7085723B2 (en) * | 2001-01-12 | 2006-08-01 | International Business Machines Corporation | System and method for determining utterance context in a multi-context speech application |
CA2397703C (en) * | 2001-08-15 | 2009-04-28 | At&T Corp. | Systems and methods for abstracting portions of information that is represented with finite-state devices |
US7149694B1 (en) * | 2002-02-13 | 2006-12-12 | Siebel Systems, Inc. | Method and system for building/updating grammars in voice access systems |
US7548847B2 (en) * | 2002-05-10 | 2009-06-16 | Microsoft Corporation | System for automatically annotating training data for a natural language understanding system |
US7302383B2 (en) * | 2002-09-12 | 2007-11-27 | Luis Calixto Valles | Apparatus and methods for developing conversational applications |
JP2005122128A (ja) * | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | 音声認識システム及びプログラム |
US20050091036A1 (en) * | 2003-10-23 | 2005-04-28 | Hazel Shackleton | Method and apparatus for a hierarchical object model-based constrained language interpreter-parser |
US7395206B1 (en) * | 2004-01-16 | 2008-07-01 | Unisys Corporation | Systems and methods for managing and building directed dialogue portal applications |
US7778830B2 (en) * | 2004-05-19 | 2010-08-17 | International Business Machines Corporation | Training speaker-dependent, phrase-based speech grammars using an unsupervised automated technique |
US7925506B2 (en) * | 2004-10-05 | 2011-04-12 | Inago Corporation | Speech recognition accuracy via concept to keyword mapping |
US7630900B1 (en) * | 2004-12-01 | 2009-12-08 | Tellme Networks, Inc. | Method and system for selecting grammars based on geographic information associated with a caller |
US7949529B2 (en) * | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US8311836B2 (en) * | 2006-03-13 | 2012-11-13 | Nuance Communications, Inc. | Dynamic help including available speech commands from content contained within speech grammars |
US8301448B2 (en) * | 2006-03-29 | 2012-10-30 | Nuance Communications, Inc. | System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy |
US7778837B2 (en) * | 2006-05-01 | 2010-08-17 | Microsoft Corporation | Demographic based classification for local word wheeling/web search |
US7606715B1 (en) * | 2006-05-25 | 2009-10-20 | Rockwell Collins, Inc. | Avionics system for providing commands based on aircraft state |
US8332218B2 (en) * | 2006-06-13 | 2012-12-11 | Nuance Communications, Inc. | Context-based grammars for automated speech recognition |
US20080140390A1 (en) * | 2006-12-11 | 2008-06-12 | Motorola, Inc. | Solution for sharing speech processing resources in a multitasking environment |
US20080154604A1 (en) * | 2006-12-22 | 2008-06-26 | Nokia Corporation | System and method for providing context-based dynamic speech grammar generation for use in search applications |
US20090055178A1 (en) * | 2007-08-23 | 2009-02-26 | Coon Bradley S | System and method of controlling personalized settings in a vehicle |
US20090055180A1 (en) * | 2007-08-23 | 2009-02-26 | Coon Bradley S | System and method for optimizing speech recognition in a vehicle |
WO2009045861A1 (en) * | 2007-10-05 | 2009-04-09 | Sensory, Incorporated | Systems and methods of performing speech recognition using gestures |
US20100312469A1 (en) * | 2009-06-05 | 2010-12-09 | Telenav, Inc. | Navigation system with speech processing mechanism and method of operation thereof |
US9117453B2 (en) * | 2009-12-31 | 2015-08-25 | Volt Delta Resources, Llc | Method and system for processing parallel context dependent speech recognition results from a single utterance utilizing a context database |
US8296151B2 (en) * | 2010-06-18 | 2012-10-23 | Microsoft Corporation | Compound gesture-speech commands |
US8700392B1 (en) * | 2010-09-10 | 2014-04-15 | Amazon Technologies, Inc. | Speech-inclusive device interfaces |
US20130030811A1 (en) * | 2011-07-29 | 2013-01-31 | Panasonic Corporation | Natural query interface for connected car |
-
2011
- 2011-12-29 EP EP11879065.8A patent/EP2798634A4/en not_active Ceased
- 2011-12-29 CN CN201180076026.9A patent/CN103999152A/zh active Pending
- 2011-12-29 WO PCT/US2011/067825 patent/WO2013101051A1/en active Application Filing
- 2011-12-29 US US13/977,522 patent/US20140244259A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1300050A (zh) * | 1999-12-13 | 2001-06-20 | 索尼国际(欧洲)股份有限公司 | 语音识别方法 |
US6836760B1 (en) * | 2000-09-29 | 2004-12-28 | Apple Computer, Inc. | Use of semantic inference and context-free grammar with speech recognition system |
CN1581294A (zh) * | 2003-08-11 | 2005-02-16 | 微软公司 | 语音识别增强的呼叫者识别 |
US20050038648A1 (en) * | 2003-08-11 | 2005-02-17 | Yun-Cheng Ju | Speech recognition enhanced caller identification |
US20090171663A1 (en) * | 2008-01-02 | 2009-07-02 | International Business Machines Corporation | Reducing a size of a compiled speech recognition grammar |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767865A (zh) * | 2016-08-19 | 2018-03-06 | 谷歌公司 | 语音动作偏置*** |
US10089982B2 (en) | 2016-08-19 | 2018-10-02 | Google Llc | Voice action biasing system |
CN107767865B (zh) * | 2016-08-19 | 2019-04-19 | 谷歌公司 | 语音动作偏置*** |
CN107808662A (zh) * | 2016-09-07 | 2018-03-16 | 阿里巴巴集团控股有限公司 | 更新语音识别用的语法规则库的方法及装置 |
CN107808662B (zh) * | 2016-09-07 | 2021-06-22 | 斑马智行网络(香港)有限公司 | 更新语音识别用的语法规则库的方法及装置 |
CN112041905A (zh) * | 2018-04-13 | 2020-12-04 | 德沃特奥金有限公司 | 家具驱动器的控制装置和控制家具驱动器的方法 |
CN111312236A (zh) * | 2018-12-12 | 2020-06-19 | 现代自动车株式会社 | 语音识别***的域管理方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2013101051A1 (en) | 2013-07-04 |
EP2798634A1 (en) | 2014-11-05 |
EP2798634A4 (en) | 2015-08-19 |
US20140244259A1 (en) | 2014-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103999152A (zh) | 利用动态语法元素集的语音识别 | |
CN110770772B (zh) | 被配置为自动定制动作组的虚拟助手 | |
KR102505903B1 (ko) | 어시스턴트 애플리케이션을 위한 이미지 바로가기를 제공하기 위한 시스템, 방법 및 장치 | |
US20200111486A1 (en) | Parameter collection and automatic dialog generation in dialog systems | |
US9487167B2 (en) | Vehicular speech recognition grammar selection based upon captured or proximity information | |
US11031005B2 (en) | Continuous topic detection and adaption in audio environments | |
CN105320726A (zh) | 降低对手动开始/结束点和触发短语的需求 | |
KR20190017548A (ko) | 이동단말기 및 머신 러닝을 이용한 이동 단말기의 제어방법 | |
US11264021B2 (en) | Method for intent-based interactive response and electronic device thereof | |
CN103810995A (zh) | 用于语音***的调节方法和*** | |
EP3152716B1 (en) | Invoking action responsive to co-presence determination | |
CN107315519A (zh) | 驾驶状态下的os切换方法、装置及移动终端 | |
KR20180054362A (ko) | 사용자의 음성 입력을 인식하는 방법 및 장치 | |
US20160342284A1 (en) | Electronic device and note reminder method | |
US11455178B2 (en) | Method for providing routine to determine a state of an electronic device and electronic device supporting same | |
CN106293034A (zh) | 一种信息输出的方法及终端 | |
US11348585B2 (en) | Artificial intelligence apparatus | |
CN113168833B (zh) | 用于运行车辆的交互信息***的方法以及车辆 | |
CN116168704B (zh) | 语音交互的引导方法、装置、设备、介质及车辆 | |
US11495211B2 (en) | Memory deterioration detection and amelioration | |
US20240219193A1 (en) | Automated assistant that detects and supplements various vehicle computing device capabilities | |
US20170013075A1 (en) | Electronic device and note reminder method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140820 |