CN108701459A - 将来自各种语音服务的结果表示为统一概念知识库 - Google Patents
将来自各种语音服务的结果表示为统一概念知识库 Download PDFInfo
- Publication number
- CN108701459A CN108701459A CN201680080451.8A CN201680080451A CN108701459A CN 108701459 A CN108701459 A CN 108701459A CN 201680080451 A CN201680080451 A CN 201680080451A CN 108701459 A CN108701459 A CN 108701459A
- Authority
- CN
- China
- Prior art keywords
- result
- voice service
- voice
- service
- concept
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 claims abstract description 90
- 230000006870 function Effects 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 27
- 235000013399 edible fruits Nutrition 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 28
- 238000005516 engineering process Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 12
- 230000006399 behavior Effects 0.000 description 10
- 230000008901 benefit Effects 0.000 description 9
- 238000013461 design Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000003014 reinforcing effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012356 Product development Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000005267 amalgamation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 235000001968 nicotinic acid Nutrition 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Exchange Systems With Centralized Control (AREA)
Abstract
描述了用于处理来自多个语音服务的结果的***和方法。一种方法包括:接收来自多个语音服务的语音服务结果和与语音服务结果对应的服务规范。结果为表示根据语音服务的功能的信息的至少一种数据结构。服务规范描述数据结构及针对各语音服务该数据结构的解释。基于服务规范将语音服务结果编码成结果的统一概念知识表示。向应用模块提供统一概念知识表示。方法包括:评估从多个语音服务异步接收的语音服务结果,以基于可靠性测度来确定所接收的语音服务结果中是否存在可靠结果。如果存在可靠结果,则将可靠结果提供给应用模块;否则,方法继续评估所接收的语音服务结果。
Description
相关申请
本申请要求2015年12月1日提交的美国第62/261,762号临时申请的权益。此处以引证的方式将上述申请的整个示教并入。
背景技术
支持话音的应用和服务,诸如在汽车资讯娱乐***中设置的,通常包括对话或用户接口,并且可以例如受益于组合独立言语理解(SLU)***的多个结果。在组合自动语音识别(ASR)结果的领域中存在已知组合方法,但这些方法常常遭受丢失定时信息、丢失统一语音描述以及处理时延。包括具有组合信息检索功能的***的SLU***由语音服务来表示。通常,对于特殊域,例如,话音目的地输入或话音命令和控制,优化各语音服务。语音服务的结果经常交叠。组合语音服务可能引入基准模糊以及含义的模糊。
发明内容
一种处理来自多个语音服务的结果的方法包括:接收来自多个语音服务的语音服务结果和与语音服务结果对应的服务规范。结果为表示根据语音服务的功能的信息的至少一种数据结构。服务规范描述数据结构及针对各语音服务该数据结构的解释。方法还包括:基于服务规范将语音服务结果编码成结果的统一概念知识表示;以及向应用模块提供统一概念知识表示。
数据结构可以包括所识别语句的列表、所标记词序列的列表以及关键字值对的列表中的至少一项。数据结构可以表示用于结果的至少部分的加权信息。数据结构还可以包括阵列或分层存储信息的树中的至少一种。
统一概念知识表示可以由于相同信息以相同方式呈现而被认为是统一的,并且可以由于使用合适表示按组定义相关事实而被认为是概念性的。统一概念知识表示可以以信息的结构化表示来表示知识,并且还可以提供与应用模块连接的接口。
统一概念知识表示可以包括概念的列表,各概念实现函数的集合。对函数的集合的一个函数的函数调用可以返回结果列表。例如,概念可以包含定义关系的函数的集合,并且“实现”可以意指基于结果来定义关系。例如考虑概念“目的地输入”,其可以描述有用且对于目的地输入可能需要的关系(例如,街道与城市与门牌号之间的关系)。函数使得能够访问关系,例如能够取得给定城市中的所有门牌号或取得具有类似发音的所有城市的列表等。
编码语音服务结果可以包括根据概念向语音服务结果应用运算符的集合。各概念可以用独立且通用的运算符的序列来因数化,运算符具有对共享资源的访问。作为经验法则,所有运算符独立且通用。可以的是一些运算符是特定的,或者一些运算符依赖其他运算符,但这因为常常降低运算符的可重用性而不是优选的。
运算符的序列和选择可以在运行时间期间配置。这里,“运行时间”指“编译之后”,使得可以在不重编译/建立软件的情况下改变序列。此外,运行时间期间的配置简单地通过提供新配置(例如,新序列定义)支持已经部署***的功能更新。
一次可以计算多个概念,多个概念接收相同语音服务结果作为输入。概念可以为语义解释。编码结果可以包括在给定来自多个语音服务的语音服务结果的集合的情况下计算语义组的集合,各语义组通过识别可比较的数据来定义,当数据本身在给定距离测度的情况下类似时或当数据共享与可比较的数据的关系时,数据是可比较的。
应用模块可以为对话模块、用户接口等,还可以为优先级编码器。例如,一个优先级编码器可以编码语音服务结果,并且向是另一优先级编码器的应用模块提供在统一概念知识库中表示的结果。将优先级编码器级联为这种结构可以促进语音服务结果的合并。
语音服务可以独立于彼此。各语音服务可以接收共同语音输入(例如,音频信号),并且生成独立的语音服务结果。
一种用于处理来自多个语音服务的结果的***包括输入模块、优先级编码器以及输出模块。输入模块被配置为接收来自多个语音服务的语音服务结果和与语音服务对应的服务规范,结果为表示根据语音服务的功能的信息的至少一种数据结构,服务规范描述数据结构及针对各语音服务该数据结构的解释。优先级编码器可以被配置为基于服务规范将语音服务结果编码成结果的统一概念知识表示。输出模块被配置为向应用模块提供统一概念知识表示。
一种计算机程序产品包括非暂时计算机可读介质,该非暂时计算机可读介质存储用于执行用于处理来自多个语音服务的结果的方法的指令。指令在由处理器执行时使得处理器被使能接收来自多个语音服务的语音服务结果和与语音服务对应的服务规范,结果为表示根据语音服务的功能的信息的至少一种数据结构,服务规范描述数据结构及针对各语音服务该数据结构的解释。指令在由处理器执行时还使得处理器基于服务规范将语音服务结果编码成结果的统一概念知识表示,并且向应用模块提供统一概念知识表示。
一种用于处理从多个语音服务异步接收的结果的方法包括:评估从多个语音服务异步接收的语音服务结果,以基于可靠性测度来确定所接收的语音服务结果中是否存在可靠结果。如果存在可靠结果,则将可靠结果提供给应用模块;否则,方法继续评估所接收的语音服务结果。
用于处理结果的方法还可以包括在统一概念知识库中表示语音服务结果的处理。对语音服务结果的评估可以包括对于统一概念知识库的各概念确定由概念表示的知识对于应用模块的给定概念查询而言是否可靠。
统一概念知识库可以是本体的实例,并且可靠性测度可以指示给定语音服务能够多么好地实例化实例。本体可以是可能语义概念的集合连同概念之间的可能关系。可以基于语音服务规范和语音服务路由信息中的至少一者来配置本体。
方法还可以包括:基于从语音服务接收的语音服务结果迭代地构造实例,并且可以包括:基于语音服务结果之间的域交叠来选择可靠性测度。
例如,如果语音服务结果之间没有域交叠,则如果(i)在概念知识库中表示了期望基于概念查询表示的所有信息且(ii)没有其他语音服务可以贡献可靠结果,则可以认为结果中的任一个结果是可靠的。
另选地或另外,如果在语音服务结果之间存在完全域交叠,则可以估计各语音服务的误差预期,并且基于误差预期的评价来确定可靠结果。
误差预期可以是根据与语音服务有关的字段数据和用户数据中的至少一者来估计的。另选地或另外,误差预期是基于信噪比(例如,语音噪声比)或分类器来估计的。
方法可以包括:使来自具有低误差预期的语音服务的语音服务结果优先。方法还可以包括:自动确定来自具有高误差预期的语音服务的语音服务结果的组合是否足够可靠或是否需要等待来自另外语音服务的结果。通常,误差预期可以相对于如在一些表示数据上测度的其他引擎(语音服务)被量化为“低”或“高”。例如,可以定义P_l(低误差)+P_h(高误差)=1。P_l和P_h可以用于重新调节具有低误差预期的识别器“1”和具有较高误差预期的识别器“h”的结果概率。因此,促进一个结果。对一些表示数据训练概率。
如果语音服务结果之间存在部分域交叠,则如果可以在给定概念查询的情况下确定交叠,则可以将部分域交叠作为完全域交叠的情况来处理,否则作为没有域交叠的情况来处理。在特定示例中,这意味着查询落入到语音服务的交叠或非交叠部分中。进一步地,虽然语音服务可以部分交叠,但它们的结果要么完全交叠要么根本不交叠。
一种用于处理从多个语音服务异步接收的结果的***包括评估模块和输出模块。评估模块被配置为评估从多个语音服务异步接收的语音服务结果,以基于可靠性测度来确定所接收的语音服务结果中是否存在可靠结果。输出模块被配置为在存在可靠结果时向应用模块提供可靠结果。
***可以包括在统一概念知识库中表示语音服务结果的编码器。评估模块可以被配置为通过对于统一概念知识库的各概念确定由概念表示的知识对于应用模块的给定概念查询而言是否可靠,来评估语音服务结果。
一种计算机程序产品包括非暂时计算机可读介质,该非暂时计算机可读介质存储用于处理从多个语音服务异步接收的结果的指令,指令在由处理器执行时使得处理器评估从多个语音服务异步接收的语音服务结果,以基于可靠性测度来确定所接收的语音服务结果中是否存在可靠结果。如果存在可靠结果,则指令使得处理器将可靠结果提供给应用模块。否则,指令使得处理器继续评估所接收的结果。
本发明的实施方式具有多个优点。描述了用于处理多个语音服务的新颖的方法和***。各语音服务在给定语义域(例如,语音媒体搜索或话音拨号)的情况下理解自然语言。语音服务独立于彼此而且独立于随后的语音对话来设计、开发并采用。实施方式从所有假设计算统一概念表示,这些假设在给定统一概念的情况下从任意语音服务来识别。之前的解决方案基于服务之间的决策。之前解决方案中的决策基于需要与语音服务本身有关的信息的启发式规则。因此,语音对话需要与所查询语音服务有关的深层知识。各服务定址一个域,并且对话***注意仅独特域同时有效。与之前的解决方案相比,这里所公开的新颖的技术受益于具有交叠域的语音服务。
在本发明的实施方式中,不需要语音服务的专家知识来创建对话流。是否启动特定语音服务的决策是可用资源的问题,例如,可用计算功率、可用网络带宽以及法律限制。法律限制例如可以包括对访问区域/国家外部且不使用无线互联网的语音服务器的限制,例如,在平原中。限制还可以为依赖语境的。例如,医疗数据应保留在装置上。这里所描述的技术表示自动语音理解与对话***之间的抽象层。
本发明的实施方式可以在两个阶段中处理来自多个语音服务的结果:编码阶段和优先化阶段。编码阶段将结果编码并收集到统一概念知识库中。优先化阶段处理异步接收的结果并决策响应于查询将哪些结果传送到应用,例如,对话。
将来自语音服务的结果作为未知信息源的实例来考虑是有用的。同样,将不确定实例构成一个概念表示对于语音或自然语言处理区域中的任意应用是有用的。
实施方式不仅决策是否使用来自一个或另一个语音服务的结果,还组合并导出统一结果表示。实施方式暗含地使用语音服务的域交叠来促进特定结果,例如由各种语音服务确认的结果。这可以被视为跨域验证方法的一般化。该方法之前由用于专用域的对话***来实施。这里所公开的实施方式启用语音实体的域中和域内验证,例如,在音乐标题的语境下说出城市名。技术还启用跨语音服务的概念表示。例如,概念知识可以由多个语音服务部分给出。这使得能够在不需要修改语音服务的情况下引入新功能。
优先级编码器对来自任意数量的语音服务的结果应用可重用且可配置运算符的集合。该模块化实施方案支持关于可靠运算符的快速且灵活的部署。
与之前方案相比存在多个优点。实施方式将语音服务与对话流分开。在传统方案中,对话确切控制所有语音服务。在那里,对话开始并停止处理,并且决策哪些结果用于进一步处理。该对话流由人类专家来设计,这可能设计昂贵,并且由于对预定阈值的需要而无法实现整体最佳性能。这里所描述的新技术使用用户行为和与语音服务的预期误差行为有关的知识来以最小时延实现最佳精度。连续估计用户行为和语音服务的预期误差行为这两者。技术还可以考虑环境情况,诸如当前噪声级,来评估结果。
附图说明
前述如附图中例示的将从本发明的示例实施方式的以下更具体的描述清楚,附图中,同样的附图标记贯穿不同的视图提及相同的部件。附图不是必须为等比例,而是把重点放在例示本发明的实施方式上。
图1是例示了可以部署本发明的实施方式的示例对话***的框图。
图2是用于处理充当用于另一个应用模块(诸如对话引擎)的输入的、来自语音服务的结果的方法和***的框图。
图3是例示了多个语音服务和多个优先级编码器的示例部署的框图。
图4是表示概念知识的示例图。
图5是例示了用运算符的序列因数化概念的框图。
图6是例示了数据与使用基于句法特征的示例距离测度的语音组的关联的图。
图7是例示了基于规范化特征的示例距离测度的图。
图8是例示了基于语音信息的示例距离测度的图。
图9是例示了先前知识对强化(例如,促进)数据的示例使用的图。
图10是例示了用于对于语音服务收集的信息的语义组的示例集合的示意图。
图11是例示了用于处理来自多个语音服务的结果的示例对话流的定时图。
图12是例示了用于处理从多个语音服务接收的结果的示例***的框图。
图13是例示了用于处理从多个语音服务接收的结果的示例方法的流程图。
图14是例示了来自两个语音服务的结果之间没有域交叠的示例使用情况的示意图。
图15是例示了来自两个语音服务的结果之间没有域交叠的另一示例使用情况的示意图,各语音服务对于两个域有贡献。
图16是例示了成功概念查询的示例情况的定时图。
图17是例示了给定来自语音服务的结果之间的完全域交叠的使用情况的图形表示的示意图。
图18是例示了包括等待来自所有语音服务的结果的示例决策过程的定时图。
图19是例示了语音服务的结果之间的部分域交叠的示例使用情况的示意图。
图20是例示了用于两个概念的示例决策过程的定时的定时图。
图21是例示了可以实施本发明的实施方式的计算机网络或类似数字处理环境的网络图。
图22是图21的计算机***中的计算机(例如,客户端处理器/装置或服务器计算机)的示例内部结构的图。
具体实施方式
下面是本发明的示例实施方式的描述。
本发明的实施方式解决组合独立言语理解(SLU)***的多个结果的问题。来自组合自动语音识别(ASR)结果的区域的已知组合方法由于丢失定时信息、丢失统一语音描述以及时延要求而不可应用。实施方式可以考虑来自包括具有组合信息检索功能的***的任意SLU***的结果的组合。这种***由语音服务来表示。
可以与本发明的实施方式一起采用的示例语音服务是纽昂斯云服务(NCS)、使用人工智能、话音生物识别、情景对话、内容传送以及聊天技术提供所连接语音识别服务的平台。对于NCS网络服务的描述,例如参见“Cloud Services,HTTPServices 1.0Programmer’s Guide,”纽昂斯通信公司,2013年12月4日。
可以使用的另一示例语音服务是有限状态转换器(FST)。FST例如在被公布为国际公布号WO2013/043165的、名称为“Efficient Incremental Modification of OptimizedFinite-State Transducers(FSTs)for Use in Speech Applications”的国际申请PCT/US2011/052544中描述。
可以使用的另一示例语音服务是模糊匹配器(FM)。语音模糊匹配器例如在2009年12月15日公布的、名称为“Dynamic Speech Sharpening”的第7634409号美国专利中描述。
章节1:将来自各种语音服务的结果表示为统一概念知识库
从多个语音服务导出统一概念知识具有挑战性。示例实施方式处理多个语音服务,以向随后的模块(例如,对话***)提供统一概念表示。任何对话***通常需要概念知识的统一表示来进行类人对话。
一方面,对话***可以引入专用状态来避免模糊的当前解决方案存在,例如,话音目的地输入仅在导航对话状态下可用。另一方面,对话***可能减少例如在主或顶级菜单上的、处于必须预期模糊的对话状态的语音服务的功能。因此,对话受语音服务上的专家知识影响。实施方式可以避免在对话开发期间对语音服务的任意依赖性。这在给定大量不同语音服务的情况下是有用的益处。
目前,使用排序法来组合竞争识别器的同时使用的日益普及。结果本身的可比较性经常不被怀疑且基于独立训练的置信测度。相比之下,实施方式使用任意语音服务的交叠且模糊的信息来提高整体精度。其计算统一概念表示。随后的对话模块与多个语音服务分开。
本发明的实施方式的基础语言和数学框架可以与诸如主题或概念图的共同知识表示有关。因为这里所描述的新颖的方法处理信息源的子集实例,而不是处理完全探索的信息源,所以它不同。另外,所有子集实例在给定语音识别的不确定性质的情况下加权。
示例实施方式的益处在多个语音服务用于服务一个随后的模块(例如,对话***)时变得清楚。这种实施方式与遵循整体产品设计的语音***竞争,在整体产品设计中,由于需要丢失模块化和定制的统一模型训练而不发生组合来自独立语音服务的多个结果的问题。实施方式可以完成语音***(诸如来自纽昂斯通信公司的语音***)的模块化产品设计。
本方案的实施方式提供商业优点。实施方式可以为内容的各种汽车传送和自然语言理解技术中的有用部分。语音服务的模块化设计可以为区别因素。示例实施方式可以在话音和内容传送平台中(例如,龙驱动框架(Dragon DriveFramework))的专用模块中来实施。这里被表示为“优先级编码器”的模块完成具有高级混合语音功能的框架,并且它是遵循纽昂斯龙驱动框架的可插应用概念的连续步骤。优先级编码器提供来自独立语音服务的统一结果。优先级编码器将对话开发分开,并且支持用于混合语音使用情况的更高效开发过程。如这里所用的,“混合”指涉及本地和已连接语音解决方案的设置。实施方式可以具有重大的市场价值。处理来自多个独立语音服务的结果是独特卖点。实施方式支持新应用和用于客户(例如,用户)的较多灵活性,同时允许技术供应商提高服务新客户的处理效率。
对话***(例如,车头单元的对话)通常的目的在于向多个应用提供一致外观和感觉。应用可以为汽车的空调***,或者汽车的导航、多媒体或通信***。对话具有各应用的方法论知识。它知道各应用的行为,并且知道如何与它们中的每个进行交互。任何对话***的输入是概念信息,例如,标记有“下一”、“静音”或“向上”的按钮的状态。该信息可以连同语音理解模块的假设一起使用来进行类人对话。最常见的对话***使用多模式用户接口。这种用户接口不仅包括触觉接口,还包括手势、仿生学以及语音。
图1是例示了可以部署本发明的实施方式的示例对话***100的框图。用户接口102从用户114接收输入,例如查询或命令。用户接口可以在不同的***当中和不同的应用当中共享。如图所示,用户接口102为多模式的,包括音频(语音)、触觉(触摸)按钮以及控制器。音频信号103被提供作为到***104的输入,该***经由ASR和NLU处理音频信号103,并且可以包括语音对话。***104的输出被提供给汽车对话106。共享的用户接口102可以提供来自触摸、按钮以及控制器的输入,其被直接提供给汽车对话。汽车对话106经由应用特定对话108(例如,音乐对话(Music-Dialog)、地图对话(Map-Dialog)、电话对话(Phone-Dialog))向各种应用110(例如,音乐应用(Music-APP)、地图应用(Map-App)、电话应用(Phone-App))提供用户输入信息。汽车对话可以确保用户输入到应用的正确映射。例如,汽车对话可以确保用户所按压的按钮是被映射到音乐对话的音量按钮,音乐对话使得信息可用于音乐应用。用户查询或命令的结果可以经由如112处例示的用户交互呈现给用户。用户交互可以借助文本转语音(TTS)接口112a、地图112b、平视显示器112c、仪表板接口112d等来进行。
描述了用于处理充当用于其他应用的输入(例如,充当用于一个或更多个对话***的输入)的各种语音服务及其相应结果的有用技术。语音服务处理语音或语言,例如,语音服务识别并理解言语。语音服务还可以为数据库查找,例如以导出音乐标题或地理位置。本发明的实施方式包括计算来自各种语音服务的任意数量的结果的统一概念表示的技术。这使得能够开发分开的对话***,因为对话可以在统一概念上设计。
图2是用于处理充当用于应用模块230(诸如对话引擎或汽车对话106(图1))的输入的、来自语音服务的结果的方法和***204的框图。多个语音服务216-1、216-2以及216-N(共同为216)处理至少一个共同输入(例如,音频信号),以产生多个语音服务结果218-1、218-2、218-N(共同为218)。存在产生相应N个结果218的N个语音服务216。语音服务可以共享共同音频(语音)输入,诸如音频信号103(图1)。***204可以包括输入模块222、优先级编码器220以及输出模块224。输入模块222被配置为接收来自多个语音服务216的语音服务结果218和与语音服务对应的一个或更多个服务规范。服务规范可以作为结果218的一部分或作为单独的输入(未示出)来接收。语音服务结果218可以在至少一种数据结构中提供。数据结构可以表示根据语音服务的功能的信息。服务规范可以描述数据结构及针对各语音服务该数据结构的解释。
优先级编码器220基于服务规范将语音服务结果218编码成统一概念知识表示(知识库)226。输出模块224向应用模块230提供统一概念知识表示226。应用模块230可以为语音对话、汽车对话等。应用模块230可以向优先级编码器220传递查询231,以查询概念知识库226。
这里所描述的实施方式对于语音服务可以在被称为“优先级编码器”的模块中实现。该优先级编码器可以处理来自任意数量的语音服务的结果,并且计算统一概念知识库。知识库可以由概念228的集合来定义,并且可以由依赖于概念的函数的集合来查询(231)。如图2例示,组合来自语音服务的结果。最大可能程度地解决语音服务内和间的模糊。优先级编码器(例如,其输出)由包括语音对话(诸如对话230和汽车对话106)的其他(例如之前)模块来使用。
语音服务可以独立于彼此。通常,所有语音服务接收至少一个共同输入(例如,音频信号),并且各语音服务产生输出(例如,结果或结果的集合)。
示例实施方式可以作为表示为“优先级编码器”的专用模块来部署。优先级编码器的输入是来自各种语音服务的结果的集合以及服务描述。输出是由语音服务生成的任意结果的统一概念表示。语音服务可以被容纳在云中或装置上的某处。同样,优先级编码器适用于服务器基础设施或嵌入式装置,并且可以部署在服务器基础设施或嵌入式装置上。这支持分散软件架构,其可以适于可用基础设施。
图3是例示了***300中的多个语音服务(316a、316b、316c、316d以及316e)和多个优先级编码器(320a、320b)的示例部署的框图。语音服务316a和316b分别容纳在第一云***332和第二云***和334中。云***332还容纳优先级编码器320a,虽然在与容纳语音服务316a的数据中心340分开的数据中心342中。语音服务316c以及语音服务316d和316e分别容纳在第一客户端336和和第二客户端338上。在示例中,客户端336是智能电话或其他移动装置,并且客户端338是车头单元。客户端338还容纳优先级编码器320b,该优先级编码器不仅接收来自语音服务316d和316e的结果,还接收来自优先级编码器320a的结果作为输入。优先级编码器320b与对话330接口连接,例如,向对话330提供结果。对话在一个示例中可以为图1的汽车对话106。
如图3所示,优先级编码器320b提供合并结果,例如,由语音服务的结果和另一优先级编码器的输出组合的结果。
下文中是用于优先级编码器的示例实施方式的输入和输出的接口定义。
优先级编码器的输入:
a)来自语音服务的结果:表示给定语音服务功能的信息的数据结构。这可以为所识别语句、所标记词序列或关键字值对的列表。结果的部分可以加权。典型数据结构是分层存储信息的阵列和树。
b)服务规范:描述了数据结构及针对各语音服务该数据结构的解释。
优先级编码器的输出:
a)统一概念知识表示:统一是指以下原则:相同信息被相同地表示。概念是指使用合适的表示按组定义相关事实的原则。知识是指信息的结构化表示。表示是指随后的模块与其连接的接口。技术上,输出被组织为概念的列表,各概念实现函数的集合。函数调用的结果再次是列表。
优先级编码器定义概念知识,并且从所有语音服务收集信息,以服务概念。知识可以被表示为图,但图不是必须用于具体实施方案。图4中给出了示例图。
图4是表示概念知识的示例图400。图以不同等级(例如,在分层树结构中)示出信息。如在448处指示的,各条线表示图400的元素(例如,节点)之间的关系。元素之间的关系(这里还被称为过渡)可以加权,该加权例如根据测度、先验、可靠性等。在有效语音服务416级处,示出了两个语音服务416a(“NCS”)和416b(“FST”)。在该附图和以下附图中,“NCS”和“FST”用作语音服务的代表示例。将理解,可以采用任意类型的语音服务,包括在本公开中描述的语音服务,并且所示的特定示例是非限制性示例。各语音服务可以与如在460处例示的语音服务预期关联。这如这里进一步描述的可以为误差预期。在表示本体知识的级450处,示出了三个关键字(例如,主题)444:“城市”450a、“街道”450b以及“起点”450c。如图所示,语音服务416b(“FST”)与所示出的所有三个关键字关联(例如,可以产生用于三个关键字的结果),但语音服务416a(“NCS”)仅与关键字“城市”450a关联。进一步地,因为关键字450a和450b都与地址有关,但不与关键字450c关联,所以它们关联到彼此,关键字450c与命令有关。在包括源于包括源依赖的语音服务结果的实例的级452处,图400具有三个元素:两个城市名(452处的“Aalen”和452b处的“Aachen”)以及一个街道名(452c处的“Jülicher街”)。城市和街道名是如由线表示的与关键字444关联的值446。关键字值组合445从自然语言理解(NLU)来接收。指示符462a和462b示出了特定结果461的源,例如,语音服务416a和416b的特定结果贡献结果。在图4所示的示例中,对于概念查询级454示出了一个概念查询454a(“街道”)。
在图4中,用于所示示例的语音输入可以是“Aachen Jülicher街”,并且来自对话的概念查询可以是取得街道的列表。如图所示,“Aachen”被标记为城市,并且“Jülicher街”被标记为街道,而且被识别为与城市“Aachen”有关,即,它被识别为该城市中的街道。由此,对于概念查询454a(“街道”),在统一概念知识库中存在结果452c(“Jülicher街”),该结果可以作为结果提供给应用模块(例如,对话)。如果概念查询是用于诸如“启动”的命令,则查询的结果将为空,因为没有与关键字450c(“启动”)关联的值被示出。
在输入侧,例如语音服务经由统一概念知识库传送的内容是概念。在应用侧上,对话或用户接口还具有概念。实施方式使输入级概念与应用概念结构。这促进开发可以与语音服务接口连接的新应用。从软件的角度,存在应用侧概念到输入侧概念的映射。映射可以在运行时间提供。
优先级编码器解决模糊,并且在给定概念的情况下传送统一结果。概念定义函数的集合。下文中是用于地址输入的示例概念定义:
·取得<城市>或<街道>或(<街道>和<城市>组合)的列表
·取得<城市>的列表
·取得<街道>的列表
·取得<街道>和<城市>组合的列表
·取得例如关于声学相似性的城市混乱的列表
·取得令牌化后的街道的列表
可以对于音乐搜索定义类似概念:
·取得<艺术家>或<标题>或(<艺术家>和<标题>组合)的列表
·取得<艺术家>的列表
·取得<标题>的列表
·取得例如关于句法相似性的相似标题的列表
概念定义例如由客户来指定,并且充当用于随后的模块的输入。概念在给定概念的自然变化的情况下可以与彼此不同。例如,用于话音拨号的概念可以与用于话音备忘录的概念显著不同。可能期望即使没有任何限制的技术原因,也保持概念数量较小。概念可以用独立且通用运算符的序列来因数化。所有运算符具有对共享资源的访问。共享资源的示例是基于树的数据结构,各运算符可以读取并写入到该数据结构,但没有运算符可以从该数据结构删除。共享资源例如可以通过启动语音重设来删除。运算符的序列和选择可在运行时间期间配置,这提供灵活性。在给定语音服务的同一集合作为输入的情况下一次可以计算多个概念。
图5是例示了用运算符的序列因数化概念的框图。运算符558-1至558-N(“Op.1”至“Op.N”)处理来自一个或更多个语音服务216的结果。示出了两个概念528a和528b。对于各概念,可以存在运算符的序列556。概念的函数性被因数化为运算符的序列。运算符的序列的输出被提供给概念知识库226。
用于示例概念的示例运算符序列如下:
1.运算符:令牌化
2.运算符:缩写处理
3.运算符:用短语描述
4.运算符:合并相同实体
5.运算符:对于由城市或城镇标记的所有节点添加C城市
6.运算符:对于由街道标记的所有节点添加C街道
7.运算符:基于C城市|C街道的存在添加C导航
在上述内容中,C城市、C街道以及C导航是添加到概念知识库的图形表示中的结果(例如,节点)的统一标记。上述示例序列的一个目标是通过例如基于相似性测度组合结果来向来自语音服务的结果添加知识。例如,上述示例序列中的运算符5、6以及7向结果添加统一标记。城市和城镇类似,因此运算符5将它们标记为C城市。如果标记C城市和C街道在一起,则添加导航标记C导航。这表示2:1映射,这是向结果添加知识的示例。
优先级编码器可以包括运算符的集合和使用一些共享资源的运算符的可配置处理平台。优先级编码器可以包括用于例如如图5例示的概念集合的因数化的集合。
下文中总结关于概念计算的抽象视图:运算符的集合在给定来自多个语音服务的集合或结果的情况下计算语义组的集合。语义组通过识别可比较数据来定义。当数据本身在给定距离测度的情况下类似时或当在数据共享对可比较数据的关系时,数据是可比较的。距离测度和关系由数值给出,并且它们旨在表示概率。语义组中的数据的关联解决句法和基准模糊。数据结构之间的距离基于两个数据结构之间的实体的句法比较,例如,使用如图6例示的编辑距离。
图6是例示了数据与使用基于句法特征的示例距离测度的语音组的关联的图600。图的元素(例如,节点)和元素之间的关系(例如,连接线)与以上参照图4描述的图400类似。如图6例示,存在两个语音服务616a和616b、两个关联的关键字650a(“城市”)和650b(“街道”)、以及与关键字关联的值652a、652b、652c和652d(关键字值对)。图例示了基于编辑距离的结果的合并。在所示的示例中,编辑距离基于文本的逐字母比较。如果字母相同,则编辑距离为0。如在664处指示的,因为值652a(“Aalen”)和652c(“Aalen”)具有相同的字母序列,所以合并它们,并且所计算的编辑距离为0。两个值652a和652c如分别由源标识符662a和662b指示的是来自两个不同语音服务616a(“NCS”)和616b(“FST”)的结果。如在665处指示的,因为编辑距离不为0,所以值652d(“Jülicher街”)不与值652c合并。
距离测度不限于语义特征。还可以使用基于规范化特征或语音学的距离测度。专家知识可以根据语音服务规范例如用于跨语音服务统一规范化特征。
图7是例示了基于规范化特征的示例距离测度的图700。这里,都与关键字650a(“城市”)关联的值752a(“不良Aachen”)和752b(“Aachen”)由于如766处知识的规范化特征而合并。因为两个值与如在753a和753b处指示的同一规范化特征(“AC”)关联,所以是这样。在示例中,规范化特征是在牌照上用于表示城市的两个字母符号“AC”。注意,值752a因如由源标识符762a指示的语音源616a而产生,并且值752b因如由源标识符762b指示的语音服务616b而产生。
图8是例示了基于语音信息的示例距离测度的图800。语音信息和结果质量测度可以由之前的语音服务或其他声学相似性测度来提供。在图8中,如在868处指示的,结果852a(“Jülich”)和852b(“Jülicher街”)由于声学相似性而强化(例如,促进)。两个结果是无法合并的结果,但处理向每个结果指派增大的概率。值852a和852c如分别由源标识符862a和862b指示的分别是来自语音服务616a和616b的结果。在示例中,值852a与关键字850c(“搜索”)关联,并且值852b与关键字650b(“街道”)关联,但两个关键字不共享直接关联。
先前知识可以用于强化例如由于所用训练数据的分布而引起的数据,以估计来自一些语音服务的分类模型。
图9是例示了先前知识对强化(例如,促进)数据的示例使用的图900。这里,来自语音服务616b(“FST”)的值952b(“Aachen”)如970处指示的由于先前知识而促进。促进例如可以由于以下知识而应用:由源标识符962b指示的源(“FST”)关于城市(例如,关键字650a(“城市”))比关于其他关键字可靠。值952b还可以由于应用(例如,对话)预期这种城市而促进。例如,查询954a(“街道”)可以包括街道处于特定城市(例如,城市“Aachen”)中的、来自对话的预期。在所示的示例中,接收值952a(“Aalen”),作为来自如在962a处指示的语音服务616a(“NCS”)的结果,而且作为来自如在962c处指示的语音服务616b(“FST”)的结果。然而,没有使用先前知识的促进应用于值952a。与图4所例示的示例类似,用于图9的示例中的“启动”的概念查询将返回空结果,因为没有与图900中的关键字950c(“启动”)关联的值。
特征计算由运算符的集合而发生,并且是概念因数化的一部分。因数化由人类专家来进行。数据结构到其他数据结构具有关系,例如,实例与类有关。例如,<城市>是类,并且“Aachen”是该类的实例。预期的是计算语音服务结果间和内的关系。该处理在两个方面中解决词感模糊。第一,模糊变得可见。第二,到其他数据的关系测度模糊程度。模糊可以借助来自不同语音服务的结果变得可见。然后,可以使用距离测度来量化模糊。例如,考虑地址服务结果“New York”和购物服务结果“New Yorker”。***将“new”促进为正确的,而且“York”和“Yorker”的可能性将增大。这将提高识别精度,因为用户可能说了像“new”和“York”或“Yorker”的东西。模糊可以使用距离测度来测度,因为“York”例如基于编辑距离测度等于“Yorker”乘以距离2。特征计算对关系的产生具有重大影响。结果是包括从所有语音服务收集的所有信息的语义组的集合。
图10是例示了用于对于语音服务1016a、1016b以及1016c收集的信息的语义组1072a、1072b以及1072c的示例集合的示意图1000。概念1028分布在语义组上。信息根据多个层次等级(包括域(D)、主题(T)、解释(I)以及结果的槽)设置在基于树的结构中。特定语音服务仅可以提供用于特定等级的结果。例如,语义组1072a仅可以应用于级D和T,例如,应用于级D中的感兴趣点(POI)和导航,并且应用于等级T中的地图和导航。
图10的图1000指示在本发明的实施方式中可以使用的示例数据结构。可以在根据该数据结构的统一概念知识表示中编码语音服务结果。服务规范例如可以通过根据特定语音服务指定数据结构的元素、连接以及层次等级等来指导编码处理。
运算符的序列在给定具体概念的定义(例如,地址输入概念的定义或用于音乐的概念定义)的情况下评价语义组的集合。概念在两个阶段中包括所有已定义函数的评价。第一,在给定函数定义查询的情况下查询语义组的集合,例如,在给定街道与城市实体之间的关系的情况下查找语义组。第二,通过计算距离和关系测度来测度查询结果的质量,例如,在给定将街道识别为语音类似的所有语音服务的概率的情况下计算街道的加入概率。概念的质量通过评价所有函数的查询质量来给出。因此,它支持解决含义的模糊。结果是概念的已排序列表,并且各概念可以为各调用的函数提供结果的已排序列表。结果的集合是语音服务的统一概念表示,并且服务之前的模块,例如语音对话。语音对话引入如何与角色交互的方法论知识并定义多模用户接口的外观和感觉。总之,这种用户接口能够回答自然语言公式化的问题,例如“发动机的油位为何?”,并且具有以下自然语言公式化的指令,例如“将温度提高4度”。
下文中针对地址输入概念的到运算符的示例因数化:
·令牌化:例如,将“主街道”令牌化为“主”和“街道”
·缩写处理,例如,将“街道”转换为“街”,并将“街”转换为街道
·用短语描述,例如,将“主”和“街道”组合为“主街道”
·合并,例如将<城市>和<街道>合并为<搜索短语>
·重新标记,例如,将<CITY_NM>映射到<城市>,并且将<STREET_NM>映射到<街道>
优先级编码器隐藏结果的起源,并且高效地组合这些结果,以从之前模块的角度实现最佳总体性能。优先级编码器在概念和方法论知识之间引入清楚的抽象层,并且支持对话设计分开。
章节2:用于语音服务的异步结果组合的内容了解中断处理
评估来自多个异步语音服务的结果是问题。各语音服务被专门化为服务不同语言域,例如,话音目的地输入、音乐搜索或消息听写。无法排除交叠域。语音服务还可以包括信息检索功能。语音服务中的一些在嵌入式装置上运行,其他作为已连接服务(例如,在云上)运行。语音服务之间的时延可能显著变化。
期望在处理来自多个语音服务的结果时总是实现整体最佳精度。另一方面,等待所有结果在给定低时延的需求的情况下不适用。本公开描述了解决该问题的有用技术。技术异步评估来自语音服务的结果。该技术以最小时延实现整体最佳精度。它将随后的模块与语音服务分开,这比如显著简化对话流。
图11是例示了用于处理来自多个语音服务的结果的示例对话流的定时图1100。在该图中,如由垂直箭头指示的,时间从上到下前进。此外,在该图和随后图中,“NCS”、“FST”以及“FM”用作不同语音服务的代表示例,理解的是可以采用任意合适的语音服务。
如图11例示,用户114如在1174处指示的例如通过向语音服务1116a、1116b以及1116c提交语音输入(例如,音频信号、手势等)启动语音理解。启动语音服务可能需要的任意相关信息可以与语音信号一起提交或可以单独提交。语音服务可以近似同时地启动,或者如图例示,它们可以顺序启动。语音服务处理语音输入和任意所接收信息,并且产生结果或结果的集合。如图所示,首先提供来自语音服务1116b(“FST”)的结果1118b。如1178b处所示,***(例如,处理模块)检索来自语音服务的结果并将其传送到应用(例如,对话或用户接口和/或用户)。接着,从语音服务1116a(“NCS”)接收结果1118a,然后从语音服务1116c(“FM”)接收结果1118c。如1178a和1178c处指示的,***取得这些结果并将它们传送到应用和/或用户。如1176处指示的,应用(例如,对话或用户接口)需要决策关于选择结果中的哪个结果例如以呈现给用户;以及等待结果多久。
目前,结果通常从提供合理置信的最初的语音服务来取得。决策规则经常在对话流中表示,诸如图11所例示的示例。设计这种对话流在并行使用更多语音服务时越来越复杂。人类专家通常需要考虑各语音服务的优点、缺点以及时延行为。从开发的角度,这昂贵且不灵活足以容易地添加新要求。示例实施方式异步地评估结果,并且进行内容依赖决策,以用最小时延实现最佳可能精度。
示例实施方式基于统一概念知识库(还被称为统一概念表示)进行结果的评估。该知识库包括来自多个语音服务的结果,并且迭代地构造。概念知识库的构造是无状态的。它确保统一表示。上面在标题为“将来自各种语音服务的结果表示为统一概念知识库”的章节1中描述了构造。这里所描述的技术添加定时依赖性。它启用关于某一时间点给出的结果是否可靠的决策。对话逻辑与决策过程完全分开。
所提出的技术以最小时延传送最佳可能精度。该技术将方法论对话流(例如,开始播放音乐的动作)与语音服务的定时行为(例如,语音串流的开始/结束控制和接收来自多个语音服务的多个结果的结果处理)分开。这进一步简化了对话流。然而,本方案的实施方式可能降低对话的控制机会,但同时还降低控制复杂度。这对现有对话可能具有重大影响。
这里所描述的是将对话与语音服务分开的有用技术。在特定实施方式中,可以借助对话配置的唯一事物是概念域。注意,即使是概念域也无法与专用语音服务直接对应,反而是与统一语义表示对应。控制所有语音服务的单元可以使用该信息来查询并分配专用语音服务。多个语音服务可以对预期域有贡献。所有该知识现在与对话分开,并且可以独立优化。所描述的技术最大可能程度地分开随后的模块与语音服务依赖知识。
当前解决方案需要从用于语音服务的各新配置的擦除开始。这在给定并行使用的语音服务的数量连续增加的事实的情况下变得越来越成问题。示例实施方式建立一次,并且可以重复用于许多应用。此外,它分开语音服务与随后的模块(例如,对话或其他接口)。凭借这里所描述的解决方案,因为实施方式是语音服务不可知论的,所以语音对话针对语音前端的变化鲁棒。由此,凭借当前方案的实施方式,通常不需要在语音前端变化时修改语音对话。对话不需要注意语音服务之间的数据流,但可以建立在可靠语音处理上。
根据本发明的实施方式具有至少两个商业益处。第一,实施方式可以降低设计高级对话的成本。它们还可以降低应用产品寿命期间的应用维护成本。第二,实施方式可以提供竞争解决方案上的不同特征。实施方式可以被实施为龙驱动框架中的另外模块。技术适合语音服务的模块化产品设计,诸如龙驱动。技术提高语音服务框架的功能,并且启用精细语音应用。以最小时延实现最佳精度可以是独特卖点。类似性能仅可以用不适数量的资源和成本来实现。有利地,示例实施方式不需要启发式知识的任何另外配置或昂贵建模。本发明的实施方式分开随后的模块(例如,对话模块)与语音服务。这简化语音和语言结果的处理。
图12是例示了用于处理从多个语音服务接收的结果的示例***的框图。用于处理从多个语音服务异步接收的结果的***1204包括评估(例如,结果优先化)模块1280和输出模块222。评估模块1280被配置为评估例如从多个语音服务216异步接收的语音服务结果218,以基于可靠性测度来确定所接收的语音服务结果中是否存在可靠结果。如果存在可靠结果,则输出模块222向应用模块230、106(例如,对话模块或用户接口)提供可靠结果。***1204可以包括根据概念228在统一概念知识库226中表示语音服务结果的编码器1279。评估模块1280可以被配置为通过对于统一概念知识库的各概念,确定由概念表示的知识对于应用模块230、106的给定概念查询而言是否可靠来评估(例如,优先化)语音服务结果。优先化可以建立在概念知识库之上。例如,在逐步建立概念知识库时,可以从结果提取或导出优先级信息。优先级信息可以连同结果一起传递到对话或用户。
本发明的实施方式作为优先级编码器220的第二阶段(例如,评估模块1280)来实现。该模块可以为模块化语音处理***(诸如龙驱动框架)的一部分。如图12例示,模块可以包括两个阶段。第一阶段1279在每当语音服务传送结果时计算(例如将结果编码成)统一概念知识库。上面在章节1“将来自各种语音服务的结果表示为统一概念知识库”中描述了该阶段。本章节中解决评估并优先化结果的第二阶段1280。第二阶段1280关于来自语音服务的结果做出决策(例如,哪个和/或谁的结果可靠),并且在对于可靠结论收集足够结果时提供一个或更多个结果,作为输出。还可以的是只要知道用于所有或至少足够数量的语音服务的概念知识,就避免第一阶段1279。经由中断例程向随后的模块230、106通知(1282)结论。只要满足输入规范,就可以将第一阶段和第二阶段独立于彼此使用。输入规范可以为由随后模块230、106预期的输入。在优先级编码器的输出符合随后模块的要求时,可以认为满足规范。仅使用第一阶段可以简单地通过去除(或停用)第二阶段来完成。仅使用第二阶段例如可以在***具有概念和预期的知识时完成。这里,使用概念知识库226,但原理上,可以使用任意数据库或知识表示技术。因此,可以在没有以上所描述的特定第一阶段的情况下使用第二阶段。
规范定义输入,例如,如何接收来自语音服务的结果。“被满足”还指***使用来自语音服务的概率。有用的是且在一些情况下可能需要这些概率被良好定义且正确。
图13是例示了用于处理从多个语音服务接收的结果的示例方法1300的流程图。在1305处,从多个语音服务接收语音服务结果。通常,异步地接收结果。在1310处,评估语音服务结果,以然后基于可靠性测度来确定所接收的语音服务结果中是否存在可靠结果。如果存在可靠结果,则在1335处向应用模块提供可靠结果。如果没有可靠结果,则方法继续评估所接收的语音服务结果(1305)。
用于处理来自多个语音服务的结果的方法还可以包括另外步骤。例如,方法可以包括在统一概念知识库中表示语音服务结果的处理(1315)。对语音服务结果的评估可以包括例如对于统一概念知识库的各概念,确定由概念表示的知识对于应用模块的给定概念查询而言是否可靠(1320)。方法可以包括:基于语音服务(和/或它们的结果)之间的域交叠来选择(1324)可靠性测度。例如,如果语音服务结果之间没有域交叠,则如果(i)在概念知识库中表示了期望基于概念查询表示的所有信息且(ii)没有其他语音服务可以贡献可靠结果,则可以认为结果中的任一个结果是可靠的。如果在语音服务结果之间存在完全域交叠,则可以估计各语音服务的误差预期,并且基于误差预期的评价来确定可靠结果。如果语音服务结果之间存在部分域交叠,则如果交叠可以在给定概念查询的情况下被确定,则可以将部分域交叠作为完全域交叠的情况来处理,否则作为没有域交叠的情况来处理。
图13的方法的统一概念知识库可以是本体的实例,并且可靠性测度可以指示给定语音服务能够多么好地实例化实例。本体可以是可能语义概念的集合连同概念之间的可能关系。可以基于语音服务规范和语音服务路由信息中的至少一者来配置本体。实例可以基于从语音服务接收的语音服务结果迭代地构造。
描述了连续评估概念知识库的处理技术。处理对于各单个概念决策所表示的知识是否可靠。决策与语音服务的异步处理分开。评估处理考虑三个信息源:(1)概念知识库、(2)概念查询、(3)语音服务的活动。信息用于区分三个使用情况:
1.语音服务的结果之间没有域交叠
2.语音服务的结果之间存在完全域交叠
3.语音服务的结果之间存在部分域交叠
本发明的实施方式可以自动检测所有三个使用情况。使用情况通过计算概念知识库与概念查询之间的交叉来检测。该技术用图形表示来描述,但实施方案不是必须基于图。
返回到图4,图是例示了在给定概念查询454a的情况下评估概念知识库的图形表示400的图。使G为表示包括所有语音服务和所有概念的***的整个本体的图。在图4中,G包括在语音服务416和本体知识450的级处示出的元素。标记本体的源,例如,可识别哪个语音服务将对本体的哪个部分有贡献。这由源标识符462a和462b来示出。统一概念知识库是被例示为图400的级452的、本体G的实例M。所贡献的语音服务可检索,而且是语音服务能够多么好地实例化实例的可靠性测度。该测度是包括独立开发的NLU启用的模块之间的仲裁的模块化框架(诸如例如,龙驱动框架)中的有用工具。各概念查询(诸如图4的概念查询454a)可以表示本体的子集,诸如关键字(标题)450b。根据本发明的实施方式的语音***的任务是在给定概念查询的情况下传送与话语(例如,用户的语音输入)最佳匹配的实例。因此,示例实施方式在给定一个或更多个概念查询的情况下查询实例M并评估所检索的结果。实例M在给定语音服务的可靠性测度的情况下评估。评估可以在概念上规则化。
决策对于以上所提及的三个使用情况不同:
使用情况1:
可以对于成功概念查询做出决策。如果(i)所有所预期信息在概念知识库中表示时和(ii)在没有其他语音服务可以贡献,则查询是成功的。这意味着对于概念查询存在实例M。该实例从可以对本体G的该部分有贡献的语音服务来实例化。存在两个选项。第一,可以由于没有其他语音服务可以再贡献而做出决策。第二,实例的可靠性超过贝叶斯(Bayes)的决策规则。计算在它不是内容依赖的意义上是通用的。一旦设置存在,则它由G、M以及概念查询完全描述。
图14是例示了来自两个语音服务1416a(“NCS”)和1416b(“FST”)的结果之间没有域交叠的示例使用情况的示意图1400。语音服务1416a对域1484有贡献,并且语音服务1416b对域1486有贡献。在图中,概念查询1454(“街道”)例如表示给出用于语音输入“Aachen Jülicher街”的街道名称的列表的导航查询。如在概念知识库中表示的、来自语音服务1416a的结果包括与关键字1450(“街道”)关联的值1452(“Jülicher街”)。如1488处所示,传送结果“Jülicher街”,因为已经确定没有其他语音源(例如,语音服务)将有贡献。这里,唯一其他可用源(语音服务1416b)不在域1484中提供结果。
图15是例示了来自两个语音服务1516a和1516b的结果之间没有域交叠的另一示例使用情况的示意图1500,各语音服务对于两个域1584(“域1”)和1586)(“域2”)有贡献。这里,优先级编码器如1588处指示的传送来自域1的结果。决策基于概率测度。来自处于域1中的语音服务的结果的概率高于处于域2中的概率。例如,如在图15中由表示域1和域2的椭圆区域的相对尺寸示意性例示的,用于域1的概率高于域2的概率。
图16是例示了被例示为决策处理1600的成功概念查询的示例情况的定时图。用户114例如通过向语音服务1616a、1616b、1616c提交(1674)语音输入启动语音理解。首先接收来自语音服务1616b(“FST”)的结果1618b。如1652b处指示的,优先级编码器在第一阶段1279中处理结果,将结果和可能另外的信息添加到概念知识库226。优先级编码器在第二阶段1280中评估(已处理)结果1652b,以确定所获得的结果和任意其他结果是否可靠。接着,从语音服务1616a(“NCS”)接收结果1618a。如1652a处指示的,优先级编码器处理结果,添加到概念知识库226。优先级编码器评估(已处理)结果1652a,以确定所获得的结果和任意其他结果是否可靠。如1690处所示,在给定特定概念查询(“概念A”)的情况下做出结果可靠的决策,并且传送(1691)结果,即,将结果提供到应用模块和/或用户114。结果经由中断1691来传送,该中断被例示为在定时图1600中从右向左前进的事件。不需要等待其他结果,例如,来自语音服务1616c(“FM”)的结果。
示例是由两个语音服务来服务的命令和控制(C&C)概念。一个语音服务负责一般命令,像“帮助”、“中止”、“下一”等,并且另一个语音服务负责音乐相关命令,像“播放”、“重播”或“静音”。用于C&C的概念查询包括所有命令。每当知识库服务概念查询时,做出决策。决策可以在没有其他语音服务可以再改变决策时根据贝叶斯定理来做出。这还包括在没有其他语音服务可以对整体精度有贡献时的情况,如图14和图16例示。不需要等待与C&C无关的其他语音服务。
使用情况2:
多个语音服务可以在给定概念查询的情况下对同一实例M有贡献。用于具有完全域交叠的该使用情况的整体最佳精度仅可在实例M由大部分语音服务结果确认时实现。这种交叠实例通过在给定所有有效语音服务的情况下分析G来识别。
以最小时延取得最佳精度变成折衷问题。示例实施方式连续优化该折衷。实例通过在给定本体知识的情况下评价用于语音服务的预期误差行为来评估。
图17是例示了给定来自两个语音服务1716a(“NCS”)和1716b(“FM”)的结果之间的完全域交叠的使用情况的图形表示的示意图1700。两个语音服务1716a和1716b对同一域有贡献。这里,语音服务1716a与低误差预期1760a关联,并且语音服务1716b与中误差预期1760b关联。概念查询例如对于示例语音输入“Aachen Jülicher街”给出街道名的列表。如在概念知识库中表示的、来自语音服务1716b的结果包括与关键字1750b(“街道”)关联的值1752b(“Jülicher街”)以及与关键字1750b和1750a(“城市”)关联的值1752a(“Aachen”)。如1792处所指示的,因为结果1752b(“Jülicher街”)与被双重确认(例如,由两个语音结果源1716a和1716b确认)的结果1752a关联,所以被认为是信任结果。
优先化来自具有低误差预期的语音服务的结果,并且变得不必等待例如来自具有更高误差预期的语音服务的另外结果。另一方面,组合具有高误差预期的语音服务可能已经足够。等待具有更低误差预期的语音服务将不进一步显著地提高精度。时延在给定所查询概念的情况下依赖于语音服务及其可靠性。示例实施方式自动确定更佳的是等待由另外语音服务确认的概念查询。
图18是例示了包括等待来自所有语音服务的结果的示例决策过程1800的定时图。用户114例如通过向语音服务1616a、1616b以及1616c提交(1674)语音输入启动语音理解。首先接收来自语音服务1616b(“FST”)的结果1618b。如1652b处指示的,优先级编码器在第一阶段1279中处理结果,将结果和可能另外的信息添加到概念知识库226。优先级编码器在第二阶段1280中评估(已处理)结果1652b,以确定所获得的结果和任意其他结果是否可靠。接着,从语音服务1616a(“NCS”)接收结果1618a。如1652a处指示的,优先级编码器处理结果,添加到概念知识库226,并且评估(已处理)结果1652a,以确定所获得的结果和任意其他结果是否可靠。这里,结果在过程中的该阶段仍然不可靠,因为没有结果被传送。接着,从语音服务1616c(“FM”)接收结果1618c。如1652c处指示的,优先级编码器处理结果,添加到概念知识库226。优先级编码器再次评估(已处理)结果1652c,以确定所获得的结果和任意其他结果是否可靠。如1894处所示,在给定特定概念查询(“概念B”)的情况下做出结果可靠的决策,并且传送(1895)结果中的一个或更多个,例如,将结果中的一个或更多个提供到应用模块和/或用户114。这里,需要所有结果1618a、1618b以及1618c来进行提供结果的决策。
误差预期可以从现场数据和用户数据(例如,用户多久一次确认正确识别)来估计。现场数据可以用于连续改善并评价语音服务。该信息可以用于估计各语音服务的预期误差行为。这还使得能够通过连续增大可靠性测度来随着时间添加函数性。相比之下,用户数据例如可以在用户行为指示特定概念(例如,城市)被最经常确认且可从一个特定语音服务得到时用于更细(例如,更细粒度)估计。***在该学习过程期间可以连续减小时延。
用于语音服务的误差预期还可以与其他限制(例如,当前网络带宽、计算功率等)有关。同样,信噪比(例如,语音噪声比)例如可以在语音服务对于减小的信噪比变得更可靠时(反之亦然)用于计算误差预期。预期测度还可以基于例如使用在各种源上训练的统计模型的分类器。注意,该误差预期测度可以独立于语音服务结果本身来计算。这允许预先的关于语音服务的结论(例如,它是否有益于等待显著提高整体精度)实现最小时延。
使用情况3:
如果可以在给定概念查询的情况下确定交叠,则该使用情况可以还原至使用情况1或2。来自语音服务的结果可以实例化同一概念查询以及其他部分。交叠由本体知识来完全描述。
图19是例示了语音服务的结果之间的部分域交叠的示例使用情况的示意图1900。如图所示,域1984与域1986部分交叠。如1994处指示的,可以如使用情况2地考虑交叠并处理结果。如1990处指示的,可以如使用情况1地考虑其他(非交叠)部分并处理结果。
命令和控制(C&C)中找到域交叠的示例。例如,音乐语音服务不仅可以提供音乐相关命令,还启用话音搜索。C&C概念在一般语音服务已经表示矛盾的命令时不需要等待。决策可以根据使用情况1来做出。另一方面,音乐语音服务可以与具有预期命令和控制部分的相同功能的媒体语音服务竞争。在这种情况下,决策过程需要根据使用情况2来进行。
图20是例示了两个概念(概念A和概念B)的示例决策过程2000的定时的定时图。与以上所描述的决策过程1600和1800中相同,用户114例如通过向语音服务1616a、1616b、1616c提交音频输入或其他语音输入来启动(1674)语音理解。首先接收来自语音服务1616b(“FST”)的结果1618b。如1652b处指示的,优先级编码器在第一阶段1279中处理结果,将结果和可能另外的信息添加到概念知识库226。优先级编码器在第二阶段1280中评估(已处理)结果1652b,以确定所获得的结果和任意其他结果是否可靠。接着,从语音服务1616a(“NCS”)接收结果1618a。如1652a处指示的,优先级编码器处理结果,添加到概念知识库226。优先级编码器评估(已处理)结果1652a,以确定所获得的结果和任意其他结果是否可靠。这里,如2090处所示,结果在给定第一概念查询(“概念A”)的情况下被认为可靠。传送(2091)此时可用的一个或更多个结果,因为不需要等待用于概念A的另外结果。随后,从语音服务1616c(“FM”)接收结果1618c。如1652c处指示的,优先级编码器处理结果,添加到概念知识库226。优先级编码器再次评估(已处理)结果1652c,以确定所获得的结果和任意其他结果是否可靠。如2094处所示,在给定特定概念查询(“概念B”)的情况下做出结果可靠的决策,并且传送(2095)结果中的一个或更多个,例如,将结果中的一个或更多个提供到应用模块和/或用户114。对于概念B,需要所有结果1618a、1618b以及1618c来进行提供结果的决策。
示例实施方式在给定本体G和实例M的情况下自动评估结果。实例M基于来自语音服务的结果,并且迭代地构造。本体G在启动时配置。本体从语音服务规范并由语音服务例程和配置信息来导出。概念查询通常由随后的应用来提供。概念查询指定概念并定义随后的模块(例如,对话)可以处理什么信息。示例实施方式以最小时延每定义地传送整体最佳精度。时延与语音服务分开,但依赖于所识别且所需求的内容。中断在给定概念的情况下通知可靠结果。在优选实施方式中,随后的模块(诸如对话)不需要实施基于异步结果控制语音服务的任何方法,这将随后模块与语音服务结果的处理分开。随后的模块不需要知道多少或什么种类的语音服务可用。
使用本发明的实施方式,不仅还可以传送具有关于贡献语音服务的信息的统一结果,还可以传送具有什么部分对决策有贡献的信息的主语音服务。这基本是同一信息的不同表示。第一表示由所识别信息来排序,并且第二表示由贡献语音服务来排序。
图21例示了可以实施本发明的实施方式的计算机网络或类似数字处理环境。
客户端计算机/装置50和服务器计算机60提供执行应用程序等的处理、存储以及输入/输出装置。客户端计算机/装置50还可以借助通信网络70链接到其他计算装置,包括其他客户端装置/处理50和服务器计算机60。通信网络70可以为远程接入网、全球网络(例如,因特网)、计算机的全世界集合、局域网或广域网、以及当前使用相应协议(TCP/IP、等)来与彼此通信的网关的一部分。其他电子装置/计算机网络架构是适合的。
图22是图21的计算机***中的计算机(例如,客户端处理器/装置50或服务器计算机60)的示例内部结构的图。各计算机50、60包含***总线79,其中,总线是用于计算机或处理***的部件中的数据转移的硬件线路的集合。***总线79本质上是共享导管,该导管连接使得能够在元件之间转移信息的计算机***的不同元件(例如,处理器、盘储存器、存储器、输入/输出端口、网络端口等)。附接到***总线79的是用于将各种输入和输出装置(例如,键盘、鼠标、显示器、打印机、扬声器等)连接到计算机50、60的I/O装置接口82。网络接口86允许计算机连接到附接到网络(例如,图21的网络70)的各种其他装置。存储器90为用于实施本发明的实施方式的计算机软件指令92和数据94(例如,如以上详细说明的,处理来自多个语音服务的结果,处理从多个语音服务异步接收的结果等)提供易失性储存。盘储存器95为用于实施本发明的实施方式的计算机软件指令92和数据94提供非易失性储存。中央处理单元84也附接到***总线79,并且为计算机指令的执行做准备。
在一个实施方式中,处理器例程92和数据94是计算机程序产品(通常被参照为92),包括为发明***提供软件指令的至少部分的非暂时计算机可读介质(例如,可移动存储介质,诸如一个或更多个DVD-ROM、CD-ROM、盘、磁带等)。计算机程序产品92可以由如领域中公知的任意合适的软件安装步骤来安装。在另一个实施方式中,还可以通过电缆通信和/或无线连接下载软件指令的至少部分。在其他实施方式中,发明程序是关于在传播介质(例如,通过诸如因特网的全球网络或其他网络传播的无线电波、红外波、激光波、声波或电波)上的被传播信号具体实施的计算机程序传播的信号产品。这种载波介质或信号可以被采用为为本发明例程/程序92提供软件指令的至少部分。
在另选实施方式中,被传播的信号是传播介质上的模拟载波或数字载波。例如,被传播的信号可以为通过全球网络(例如,因特网)、电信网络或其他网络传播的数字化信号。在一个实施方式中,被传播的信号是在一个时间段期间通过传播介质传输的信号,诸如在毫秒、秒、分钟或更长时间段期间通过网络在包中发送的软件应用的指令。
以引证的方式将这里所列的所有专利、所公布申请以及参考的示教全文并入。
虽然已经参照本发明的示例实施方式具体示出并描述了本发明,但本领域技术人员将理解,可以在不偏离由所附权利要求包含的本发明的范围的情况下在本发明内进行形式和细节的各种变更。
Claims (39)
1.一种处理来自多个语音服务的结果的方法,所述方法包括:
a)接收来自多个语音服务的语音服务结果和与所述语音服务结果对应的服务规范,所述结果为表示根据所述语音服务的功能的信息的至少一种数据结构,所述服务规范描述所述数据结构及针对各语音服务该数据结构的解释;
b)基于所述服务规范将所述语音服务结果编码成所述结果的统一概念知识表示;以及
c)向应用模块提供所述统一概念知识表示。
2.根据权利要求1所述的方法,其中,所述数据结构包括所识别语句的列表、所标记词序列的列表以及关键字值对的列表中的至少一项。
3.根据权利要求1或2所述的方法,其中,所述数据结构表示用于所述结果的至少部分的加权信息。
4.根据权利要求1至3中任一项所述的方法,其中,所述数据结构包括阵列或分层存储信息的树中的至少一种。
5.根据权利要求1至4中任一项所述的方法,其中,所述统一概念知识表示由于相同信息以相同方式呈现而统一。
6.根据权利要求1至5中任一项所述的方法,其中,所述统一概念知识表示由于使用合适表示按组定义相关事实而是概念性的。
7.根据权利要求1至6中任一项所述的方法,其中,所述统一概念知识表示以信息的结构化表示来表示知识。
8.根据权利要求1至7中任一项所述的方法,其中,所述统一概念知识表示提供与所述应用模块连接的接口。
9.根据权利要求1至8中任一项所述的方法,其中,所述统一概念知识表示包括概念的列表,各概念实现函数的集合。
10.根据权利要求9所述的方法,其中,对所述函数的集合的一个函数的函数调用返回结果列表。
11.根据权利要求10所述的方法,其中,对所述语音服务结果进行编码包括根据所述概念向所述语音服务结果应用运算符的集合。
12.根据权利要求11所述的方法,其中,各概念用独立且通用的运算符的序列来因数化,所述运算符具有对共享资源的访问。
13.根据权利要求12所述的方法,其中,运算符的所述序列和选择可以在运行时间期间配置。
14.根据权利要求13所述的方法,其中,一次计算多个概念,所述多个概念接收所述相同语音服务结果作为输入。
15.根据权利要求14所述的方法,其中,所述概念是语义解释,并且编码包括在给定来自所述多个语音服务的语音服务结果的集合的情况下计算语义组的集合,各语义组通过识别能比较的数据来定义,当所述数据本身在给定距离测度的情况下类似时或当所述数据共享与能比较的数据的关系时,所述数据是能比较的。
16.根据权利要求1至15中任一项所述的方法,其中,所述应用模块是对话模块。
17.根据权利要求1至15中任一项所述的方法,其中,优先级编码器对所述语音服务结果进行编码,并且所述应用模块是另一优先级编码器。
18.根据权利要求1至17中任一项所述的方法,其中,所述语音服务独立于彼此,各语音服务接收共同语音输入并生成独立语音服务结果。
19.一种用于处理来自多个语音服务的结果的***,所述***包括:
a)输入模块,该输入模块被配置为接收来自多个语音服务的语音服务结果和与所述语音服务对应的服务规范,所述结果为表示根据所述语音服务的功能的信息的至少一种数据结构,所述服务规范描述所述数据结构及针对各语音服务该数据结构的解释;
b)优先级编码器,该优先级编码器被配置为基于所述服务规范将所述语音服务结果编码成所述结果的统一概念知识表示;以及
c)输出模块,该输出模块被配置为向应用模块提供所述统一概念知识表示。
20.一种包括非暂时计算机可读介质的计算机程序产品,该非暂时计算机可读介质存储用于执行用于处理来自多个语音服务的结果的方法的指令,所述指令在由处理器执行时使得所述处理器:
a)被使能接收来自多个语音服务的语音服务结果和与所述语音服务对应的服务规范,所述结果为表示根据所述语音服务的功能的信息的至少一种数据结构,所述服务规范描述所述数据结构及针对各语音服务该数据结构的解释;
b)基于所述服务规范将所述语音服务结果编码成所述结果的统一概念知识表示;并且
c)向应用模块提供所述统一概念知识表示。
21.一种用于处理从多个语音服务异步接收的结果的方法,所述方法包括:
a)评估从多个语音服务异步接收的语音服务结果,以基于可靠性测度来确定所接收的语音服务结果中是否存在可靠结果;以及
b)如果存在可靠结果,则将所述可靠结果提供给应用模块,否则继续评估所接收的语音服务结果。
22.根据权利要求21所述的方法,所述方法还包括:在统一概念知识库中表示所述语音服务结果,并且其中,对所述语音服务结果的评估包括对于所述统一概念知识库的各概念,确定由所述概念表示的所述知识对于所述应用模块的给定概念查询而言是否可靠。
23.根据权利要求21或22所述的方法,其中,所述统一概念知识库是本体的实例,所述可靠性测度指示给定语音服务能够多么好地实例化所述实例。
24.根据权利要求23所述的方法,其中,所述本体是可能语义概念的集合连同所述概念之间的可能关系。
25.根据权利要求24所述的方法,所述方法还包括:基于语音服务规范和语音服务路由信息中的至少一者来配置所述本体。
26.根据权利要求23至25中任一项所述的方法,所述方法还包括:基于从所述语音服务接收的所述语音服务结果迭代地构造所述实例。
27.根据权利要求21至26中任一项所述的方法,所述方法还包括:基于所述语音服务结果之间的域交叠来选择所述可靠性测度。
28.根据权利要求27所述的方法,其中,如果所述语音服务结果之间没有域交叠,则如果(i)在所述概念知识库中表示了期望基于所述概念查询表示的所有信息且(ii)没有其他语音服务可以贡献可靠结果,则认为所述结果中的任一个结果是可靠的。
29.根据权利要求27所述的方法,其中,如果在所述语音服务结果之间存在完全域交叠,则估计各语音服务的误差预期,并且基于所述误差预期的评价来确定所述可靠结果。
30.根据权利要求29所述的方法,其中,所述误差预期是根据与所述语音服务有关的字段数据和用户数据中的至少一者来估计的。
31.根据权利要求29所述的方法,其中,所述误差预期是基于信噪比或分类器来估计的。
32.根据权利要求29所述的方法,所述方法还包括:使来自具有低误差预期的语音服务的语音服务结果优先。
33.根据权利要求29所述的方法,所述方法还包括:自动确定来自具有高误差预期的语音服务的语音服务结果的组合是否足够可靠或是否需要等待来自另外语音服务的结果。
34.根据权利要求27所述的方法,其中,如果所述语音服务结果之间存在部分域交叠,则如果能够在给定所述概念查询的情况下确定所述交叠,则将所述部分域交叠作为完全域交叠的情况来处理,否则作为没有域交叠的情况来处理。
35.一种用于处理从多个语音服务异步接收的结果的***,所述***包括:
a)评估模块,该评估模块被配置为评估从多个语音服务异步接收的语音服务结果,以基于可靠性测度来确定所接收的语音服务结果中是否存在可靠结果;以及
b)输出模块,该输出模块被配置为如果存在可靠结果,则向应用模块提供所述可靠结果。
36.根据权利要求35所述的***,所述***还包括编码器,该编码器被配置为在统一概念知识库中表示所述语音服务结果,并且其中,所述评估模块被配置为通过对于所述统一概念知识库的各概念,确定由所述概念表示的所述知识对于所述应用模块的给定概念查询而言是否可靠,来评估所述语音服务结果。
37.根据权利要求35或36所述的***,其中,所述统一概念知识库是本体的实例,所述可靠性测度指示给定语音服务能够多么好地实例化所述实例。
38.根据权利要求35至37中任一项所述的***,其中,基于所述语音服务结果之间的域交叠来选择所述可靠性测度。
39.一种包括非暂时计算机可读介质的计算机程序产品,该非暂时计算机可读介质存储用于处理从多个语音服务异步接收的结果的指令,所述指令在由处理器执行时使得所述处理器:
a)评估从多个语音服务异步接收的语音服务结果,以基于可靠性测度来确定所接收的语音服务结果中是否存在可靠结果;并且
b)如果存在可靠结果,则将所述可靠结果提供给应用模块,否则继续评估所接收的结果。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562261762P | 2015-12-01 | 2015-12-01 | |
US62/261,762 | 2015-12-01 | ||
PCT/US2016/035050 WO2017095476A1 (en) | 2015-12-01 | 2016-05-31 | Representing results from various speech services as a unified conceptual knowledge base |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108701459A true CN108701459A (zh) | 2018-10-23 |
Family
ID=56118060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680080451.8A Withdrawn CN108701459A (zh) | 2015-12-01 | 2016-05-31 | 将来自各种语音服务的结果表示为统一概念知识库 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20180366123A1 (zh) |
EP (1) | EP3384490A1 (zh) |
CN (1) | CN108701459A (zh) |
WO (1) | WO2017095476A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10395647B2 (en) * | 2017-10-26 | 2019-08-27 | Harman International Industries, Incorporated | System and method for natural language processing |
US11024307B2 (en) | 2018-02-08 | 2021-06-01 | Computime Ltd. | Method and apparatus to provide comprehensive smart assistant services |
US10733497B1 (en) * | 2019-06-25 | 2020-08-04 | Progressive Casualty Insurance Company | Tailored artificial intelligence |
US11587095B2 (en) * | 2019-10-15 | 2023-02-21 | Microsoft Technology Licensing, Llc | Semantic sweeping of metadata enriched service data |
CN112164400A (zh) * | 2020-09-18 | 2021-01-01 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040193420A1 (en) * | 2002-07-15 | 2004-09-30 | Kennewick Robert A. | Mobile systems and methods for responding to natural language speech utterance |
JP2005266192A (ja) * | 2004-03-18 | 2005-09-29 | Matsushita Electric Ind Co Ltd | 音声認識装置および音声認識方法 |
US7228275B1 (en) * | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
US20100004930A1 (en) * | 2008-07-02 | 2010-01-07 | Brian Strope | Speech Recognition with Parallel Recognition Tasks |
US20120016678A1 (en) * | 2010-01-18 | 2012-01-19 | Apple Inc. | Intelligent Automated Assistant |
CN102460423A (zh) * | 2009-06-04 | 2012-05-16 | 微软公司 | 使用重新识别和统计分类的识别 |
US20130073293A1 (en) * | 2011-09-20 | 2013-03-21 | Lg Electronics Inc. | Electronic device and method for controlling the same |
US20130085753A1 (en) * | 2011-09-30 | 2013-04-04 | Google Inc. | Hybrid Client/Server Speech Recognition In A Mobile Device |
CN104575501A (zh) * | 2015-01-19 | 2015-04-29 | 北京云知声信息技术有限公司 | 一种收音机语音操控指令解析方法及*** |
CN104823235A (zh) * | 2013-11-29 | 2015-08-05 | 三菱电机株式会社 | 声音识别装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7036128B1 (en) * | 1999-01-05 | 2006-04-25 | Sri International Offices | Using a community of distributed electronic agents to support a highly mobile, ambient computing environment |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US20060143007A1 (en) * | 2000-07-24 | 2006-06-29 | Koh V E | User interaction with voice information services |
US7505569B2 (en) * | 2005-03-18 | 2009-03-17 | International Business Machines Corporation | Diagnosing voice application issues of an operational environment |
GB0513820D0 (en) * | 2005-07-06 | 2005-08-10 | Ibm | Distributed voice recognition system and method |
US7742922B2 (en) * | 2006-11-09 | 2010-06-22 | Goller Michael D | Speech interface for search engines |
US8620658B2 (en) * | 2007-04-16 | 2013-12-31 | Sony Corporation | Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition |
US7983997B2 (en) * | 2007-11-02 | 2011-07-19 | Florida Institute For Human And Machine Cognition, Inc. | Interactive complex task teaching system that allows for natural language input, recognizes a user's intent, and automatically performs tasks in document object model (DOM) nodes |
DE112013006770B4 (de) * | 2013-03-06 | 2020-06-18 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung und Spracherkennungsverfahren |
US10304444B2 (en) * | 2016-03-23 | 2019-05-28 | Amazon Technologies, Inc. | Fine-grained natural language understanding |
US9934775B2 (en) * | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) * | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
TWI682386B (zh) * | 2018-05-09 | 2020-01-11 | 廣達電腦股份有限公司 | 整合式語音辨識系統及方法 |
-
2016
- 2016-05-31 WO PCT/US2016/035050 patent/WO2017095476A1/en active Application Filing
- 2016-05-31 CN CN201680080451.8A patent/CN108701459A/zh not_active Withdrawn
- 2016-05-31 US US15/779,502 patent/US20180366123A1/en not_active Abandoned
- 2016-05-31 EP EP16728535.2A patent/EP3384490A1/en not_active Withdrawn
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040193420A1 (en) * | 2002-07-15 | 2004-09-30 | Kennewick Robert A. | Mobile systems and methods for responding to natural language speech utterance |
US7228275B1 (en) * | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
JP2005266192A (ja) * | 2004-03-18 | 2005-09-29 | Matsushita Electric Ind Co Ltd | 音声認識装置および音声認識方法 |
US20100004930A1 (en) * | 2008-07-02 | 2010-01-07 | Brian Strope | Speech Recognition with Parallel Recognition Tasks |
CN102138175A (zh) * | 2008-07-02 | 2011-07-27 | 谷歌公司 | 具有并行识别任务的语音识别 |
CN102460423A (zh) * | 2009-06-04 | 2012-05-16 | 微软公司 | 使用重新识别和统计分类的识别 |
US20120016678A1 (en) * | 2010-01-18 | 2012-01-19 | Apple Inc. | Intelligent Automated Assistant |
US20130073293A1 (en) * | 2011-09-20 | 2013-03-21 | Lg Electronics Inc. | Electronic device and method for controlling the same |
US20130085753A1 (en) * | 2011-09-30 | 2013-04-04 | Google Inc. | Hybrid Client/Server Speech Recognition In A Mobile Device |
CN104823235A (zh) * | 2013-11-29 | 2015-08-05 | 三菱电机株式会社 | 声音识别装置 |
CN104575501A (zh) * | 2015-01-19 | 2015-04-29 | 北京云知声信息技术有限公司 | 一种收音机语音操控指令解析方法及*** |
Also Published As
Publication number | Publication date |
---|---|
WO2017095476A8 (en) | 2017-08-24 |
WO2017095476A1 (en) | 2017-06-08 |
US20180366123A1 (en) | 2018-12-20 |
EP3384490A1 (en) | 2018-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6942841B2 (ja) | ダイアログ・システムにおけるパラメータ収集および自動ダイアログ生成 | |
CN108701459A (zh) | 将来自各种语音服务的结果表示为统一概念知识库 | |
US10268491B2 (en) | Intelli-voyage travel | |
JP6671379B2 (ja) | 音声および接続プラットフォーム | |
EP2904607B1 (en) | Mapping an audio utterance to an action using a classifier | |
CN112270925B (zh) | 用于创建可定制对话***引擎的平台 | |
US20190130912A1 (en) | Generic virtual personal assistant platform | |
CN101939740B (zh) | 在集成语言导航服务环境中提供自然语言语音用户界面 | |
JP2019503526A5 (zh) | ||
KR20200106126A (ko) | 대화 시스템에서의 의도 불분명 질의를 처리하는 방법 및 시스템 | |
CN105027194A (zh) | 话语主题的识别 | |
CN107656996B (zh) | 基于人工智能的人机交互方法和装置 | |
KR102170088B1 (ko) | 인공지능 기반 자동 응답 방법 및 시스템 | |
US8160876B2 (en) | Interactive speech recognition model | |
CN110503948A (zh) | 对话***和对话处理方法 | |
US10769186B2 (en) | System and method for contextual reasoning | |
US11929065B2 (en) | Coordinating electronic personal assistants | |
TW202307644A (zh) | 用於助理系統的主動監聽 | |
CN110503947A (zh) | 对话***、包括其的车辆和对话处理方法 | |
CN110767219B (zh) | 语义更新方法、装置、服务器和存储介质 | |
US11333518B2 (en) | Vehicle virtual assistant systems and methods for storing and utilizing data associated with vehicle stops | |
US20200251109A1 (en) | Method For Operating And/Or Controlling A Dialog System | |
JP2002181552A (ja) | サーバ型ナビゲーションシステム | |
Cavedon et al. | Developing a conversational in-car dialog system | |
Quast et al. | RoBoDiMa: a dialog object based natural language speech dialog system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20181023 |