CN107924679A - 输入理解处理期间在响应选择中的延迟绑定 - Google Patents
输入理解处理期间在响应选择中的延迟绑定 Download PDFInfo
- Publication number
- CN107924679A CN107924679A CN201680041199.XA CN201680041199A CN107924679A CN 107924679 A CN107924679 A CN 107924679A CN 201680041199 A CN201680041199 A CN 201680041199A CN 107924679 A CN107924679 A CN 107924679A
- Authority
- CN
- China
- Prior art keywords
- alternative
- input
- ranking
- component
- extension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 127
- 230000004044 response Effects 0.000 title claims abstract description 65
- 230000003111 delayed effect Effects 0.000 title claims description 4
- 238000011282 treatment Methods 0.000 claims abstract description 36
- 238000001914 filtration Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims description 49
- 238000003860 storage Methods 0.000 claims description 37
- 230000000644 propagated effect Effects 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 11
- 230000003993 interaction Effects 0.000 claims description 6
- 230000001902 propagating effect Effects 0.000 claims description 6
- MCNQUWLLXZZZAC-UHFFFAOYSA-N 4-cyano-1-(2,4-dichlorophenyl)-5-(4-methoxyphenyl)-n-piperidin-1-ylpyrazole-3-carboxamide Chemical compound C1=CC(OC)=CC=C1C1=C(C#N)C(C(=O)NN2CCCCC2)=NN1C1=CC=C(Cl)C=C1Cl MCNQUWLLXZZZAC-UHFFFAOYSA-N 0.000 description 15
- 238000004891 communication Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000005259 measurement Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000005611 electricity Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000005352 clarification Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开内容的示例描述输入理解***/服务的处理。接收的输入被处理以生成用于识别接收的输入的备选的集合。备选的集合被过滤。过滤包括对备选的集合排名并且传播多个排名的备选以用于附加处理。传播的备选被处理以基于接收的输入来生成用于潜在假设的备选的扩展的集合。备选的扩展的集合被过滤。过滤包括对扩展的集合的备选排名并且传播扩展的集合的多个排名的备选以用于附加处理。扩展的集合的传播的备选基于对从外部资源取读的知识数据的应用被评估。对接收的输入的响应被生成。响应的生成包括对评估的备选排名并且基于排名并且评估的备选来选择响应。
Description
背景技术
常规理解***解释用户的意图并且基于该解释来执行动作。存在参与包括话音识别、域检测、意图确定、实体提取、信赖状态更新和策略执行的常规理解处理的各种模块。在每个步骤,存在***可能犯不可恢复的错误并且该错误产生的影响连串贯穿***的其余部分的可能性。这是关于本申请所涉及的这一通用技术环境。
发明内容
本公开内容的非限制示例描述输入理解***/服务的示例性处理。处理接收的输入以生成用于识别接收的输入的备选的集合。过滤备选的集合,其中过滤包括对备选的集合排名并且传播多个排名的备选以用于附加处理。处理传播的备选以从接收的输入来生成用于潜在假设的备选的扩展的集合。过滤备选的扩展的集合,其中过滤包括对扩展的集合的备选排名并且传播扩展的集合的多个排名的备选以用于附加处理。基于对从外部资源取读的知识数据的应用来评估传播的扩展的集合的备选。生成对接收的输入的响应,其中响应的生成包括对评估的备选排名并且基于排名并且评估的备选来选择响应。
提供这一发明内容以用简化的形式介绍以下在具体实施方式中被进一步描述的对概念的选择。这一发明内容没有旨在于标识要求保护的主题内容的关键特征或者实质特征,它也没有旨在于用来限制要求保护的主题内容的范围。示例的附加方面、特征和/优点将在以下描述中被部分阐述并且将部分地区从该描述中清楚或者可以通过对公开内容的实现来获悉。
附图说明
参照下图来描述非限制和非穷举示例。
图1是图示了可以用来实践本公开内容的方面的计算设备的示例的框图。
图2A和图2B是可以用来实践本公开内容的方面的移动计算设备的简化框图。
图3是可以在其中实践本公开内容的方面的分布式计算***的简化框图。
图4图示了可以在其上实践本公开内容的方面的在一个或者多个计算设备上可实施的示例性***。
图5是可以用来实践本公开内容的方面的用于输入理解处理的示例性方法。
图6是可以用来实践本公开内容的方面的用于输入理解处理的示例性方法。
图7是可以用来实践本公开内容的方面的用于常规理解处理的示例性方法。
具体实施方式
输入理解***从用户接收输入并且基于该输入来执行不同任务。为了正确地工作并且具有高水平的用户满意度,要求***使最小数目的错误成为可能。输入理解***中的错误可以出现在任何阶段,比如输入识别(例如,自动话音识别(ASR))、语言理解(LU)或者信赖状态处理。本公开内容描述如下示例,这些示例使输入理解***/服务更健壮以通过贯穿处理而考虑多个备选来使来自任何输入理解部件的错误最小化。在示例中,可以配置输入理解***/服务的部件,从而使得部件可以生成备选的排名的列表而不是单个输出。以这一方式,可以贯穿输入理解***/服务而传播多个备选,并且可以延迟关于用于输出的最高选择的决定,直至最终处理操作被应用。除了其它益处之外,这还使输入理解***/服务能够在最终做出决定的操作中在任何知识取读结果中应用附加上下文和因素以确定用于输出的最佳可能结果。附加地,这里描述的示例通过避免将由部件输出的处理绑定到单个假设/结果来产生改进的输入理解***/服务。这通过在与用户的交互期间以及在其它示例中使输入理解***/服务具有不可恢复的错误的可能性最小化来改进处理。
另外,这里描述的示例避免由于在输入处理的每个阶段的生成的备选的指数增加而存在的组合***。例如,输入理解***的第一部件可以生成多个备选结果/假设。随着处理继续到输入理解***的附加部件,备选假设/结果的数目可以指数地增长。因而,组合***可以引起容量以及延时问题。本公开内容的示例可以利用可配置的中间排名器以避免备选假设/结果的组合***。在示例中,可配置的中间排名器可以例如在向下一处理部件传递备选的列表之前削减由输入理解***的部件生成的备选的列表。示例可以使排名器可配置以限制输入理解处理的任何给定的阶段由部件输出的(例如,最高选择或者N个最佳)备选。在示例中,可以在确定由示例性输入理解***/服务的可配置的中间排名器允许的输出时考虑容量和延时缺书。
另外,这里描述的示例可以保持生成的备选假设/结果数据(例如,选择的用于输出的数据以及未选择的数据)。可以用可以在用户与输入理解***/服务之间的后续交换中查询的富集化的信赖状态的形式来保持生成的假设/结果数据。例如,如果输入理解***/服务选择不正确的假设/结果,则输入理解***/服务可以利用为了高效地输出备选假设/结果而先前执行的处理。
因而,本公开内容提供了多个技术效果,包括但不限于:增强的输入理解处理、在标识和输出响应选项时的提高的准确性、用于处理接收的输入的错误率减少、用于输入理解***/服务的提高的效率和可用性、用于输入理解***/服务的处理负荷减少和对用于输入理解处理的用户交互的控制以及其它示例。
图1至图3和关联的描述了提供对可以在其中实践本发明的示例的多种操作环境的讨论。然而,关于图1至图3而被图示和讨论的设备和***是出于示例和说明的目的,而没有限制可以用于实践这里描述的本发明的示例的大量计算设备配置。
图1是图示了可以用来实践本公开内容的示例的计算设备102(例如,移动处理设备)的物理部件的框图。在基本配置中,计算设备102可以包括至少一个处理单元104和***存储器106。根据计算设备的配置和类型,***存储器106可以包括但不限于易失性存储装置(例如,随机存取存储器)、非易失性存储装置(例如,只读存储器)、闪存或者这样的存储器的任何组合。***存储器106可以包括操作***107和适合用于运行软件程序/模块120(比如IO管理器124、其它实用程序126和应用128)的一个或者多个程序模块108。作为示例,***存储器106可以存储与应用关联的数据。操作***107例如可以适合用于控制计算设备102的操作。另外,本发明的示例可以与图形库、其它操作***或者任何其它应用程序结合而被实践,而不限于任何特定应用或者***。这一基本配置在图1中由在虚线122内的那些部件图示。计算设备102可以具有附加特征或者功能。例如,计算设备102也可以包括附加数据存储设备(可移除和/或不可移除),如例如磁盘、光盘或者带。这样的附加存储装置在图1中由可移除存储设备109和不可移除存储设备110图示。
如以上陈述的那样,可以在***存储器106中存储多个程序模块和数据文件。当在处理单元104上执行之时,程序模块108(例如,输入/输出(I/O)管理器124、其它实用程序126和应用128)可以执行如下过程,这些过程包括但不限于贯穿本公开内容而被描述的操作的阶段的一个或者多个阶段。可以根据本发明的示例而被使用的其它程序模块可以包括电子邮件和联系人应用、字处理应用、电子表格应用、数据库应用、幻灯片演示应用、绘图或者计算机辅助的应用程序、相片编辑应用、编著应用等。
另外,可以在包括分立电子元件的电路、包含逻辑门的封装或者集成的电子芯片、利用微处理器的电路中或者在包含电子元件或者微处理器的单个芯片上实践本发明的示例。例如,可以经由片上***(SOC)来实践本发明的示例,其中图1中所示的部件中的每个或者许多部件可以被集成到单个集成电路上。这样的SOC设备可以包括一个或者多个处理单元、图形单元、通信单元、***可视化单元和各种应用功能,所有这些被集成(或者“烧制”)到芯片基板上作为单个集成电路。在经由SOC操作时,可以经由在单个集成电路(芯片)上与计算设备502的其它部件集成的专用逻辑来操作这里描述的功能。也可以使用能够执行逻辑运算(如例如AND、OR和NOT)的其它技术(包括但不限于机械、光学、流体和量子技术)来实践本公开内容的示例。附加地,可以在通用计算机内或者在任何其它电路或者***中实践本发明的示例。
计算设备102也可以具有一个或者多个输入设备112,比如键盘、鼠标、笔、声音输入设备、用于语音输入/识别的设备、触摸输入设备等。也可以包括输出设备114,比如显示器、扬声器、打印机等。前述设备是示例并且可以使用其它设备。计算设备104可以包括允许与其它计算设备118的通信的一个或者多个通信连接116。适当通信部件116的示例包括但不限于RF发射器、接收器和/或收发器电路;通用串行总线(USB)、并行和/或串行端口。
如这里所用的术语计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括在任何用于存储信息(比如计算机可读指令、数据结构或者程序模块)的方法或者技术中实施的易失性和非易失性、可移除和不可移除介质。***存储器106、可移除存储设备109和不可移除存储设备110都是计算机存储介质示例(即,存储器存储装置)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或者其它存储器技术、CD-ROM、数字万用盘(DVD)或者其它光存储装置、磁盒、磁带、磁盘存储装置或者其它磁存储设备或者可以用来存储信息并且可以由计算设备102访问的任何其它制造品。任何这样的计算机存储介质可以是计算设备102的部分。计算机存储介质不包括载波或者其它传播或者调制的数据信号。
通信介质可以由在调制的数据信号(比如载波或者其它传送机制)中的计算机可读指令、数据结构、程序模块或者其它数据体现并且包括任何信息递送介质。术语“经调制的数据信号”可以描述如下信号,该信号具有以对信号中的信息编码这样的方式而被设置或者改变的一个或者多个特性。举例而言并且没有限制,通信介质可以包括有线介质(比如有线网络或者直接有线连接)以及无线介质(比如声学、射频(RF)、红外线和其它无线介质)。
图2A和图2B图示了可以用来实践本发明的示例的移动计算设备200,例如移动电话、智能电话、个人数据助理、平板个人计算机、平板手机、膝上型计算机等。例如,可以实施移动计算设备200以执行应用和/或应用命令控制。应用命令控制涉及通过用户界面(UI)或者图形用户界面来呈现和控制用于与应用使用的命令。在一个示例中,可以具体地对应用命令控件编程以与单个应用一起工作。在其它示例中,可以对应用命令控件编程以跨多于一个应用工作。参照图2A,图示了用于实施示例的移动计算设备200的一个示例。在基本配置中,移动计算设备200是具有输入单元和输出单元二者的手持计算机。移动计算设备200通常地包括显示器205和允许用户向移动计算设备200中录入信息的一个或者多个输入按钮210。移动计算设备200的显示器205也可以作为输入设备(例如,触屏显示器)工作。如果被包括,则可选的侧部输入单元215允许更多用户输入。侧部输入单元215可以是旋转开关、按钮或者任何其它类型的手动输入单元。在备选示例中,移动计算设备200可以并入更多或者更少输入单元。例如,显示器205在一些示例中可以不是触屏。在又一备选示例中,移动计算设备200是便携电话***,比如蜂窝电话。移动计算设备200也可以包括可选小键盘235。可选小键盘235可以是物理小键盘或者在触屏显示器或者任何其它软输入面板(SIP)上生成的“软”小键盘。在各种示例中,输出单元包括用于示出GUI的显示器205、可视指示器220(例如,发光二极管)和/或音频换能器225(例如,扬声器)。在一些示例中,移动计算设备200并入用于向用户提供触觉反馈的振动换能器。在再一示例中,移动计算设备200并入用于向外部设备发送信号或者从外部设备接收信号的输入和/或输出端口,比如音频输入(例如,麦克风插口)、音频输出(例如,头戴式耳机插口)和视频输出(例如,HDMI端口)。
图2B是图示了移动计算设备的一个示例的架构的框图。也就是说,移动计算设备200可以并入用于实施一些示例的***(即,架构)202。在一个示例中,***202被实施为能够运行一个或者多个应用(例如,浏览器、电子邮件、日历、联系人管理器、消息客户端、游戏和媒体客户端/播放器)的“智能电话”。在一些示例中,***202被集成作为计算设备,比如集成个人数字助理(PDA)、平板计算机和无线电话。
一个或者多个应用程序266可以被加载到存储器262中并且在操作***264上或者与操作***264关联地运行。应用程序的示例包括电话拨号器程序、电子邮件程序、个人信息管理(PIM)程序、字处理程序、电子表格程序、因特网浏览器程序、消息程序等。***202也包括在存储器262内的非易失性存储区域268。非易失性存储区域268可以用来存储如果***202被掉电则不应丢失的持久信息。应用程序266可以使用和在非易失性存储区域268中存储信息,比如由电子邮件应用使用的电子邮件或者其它消息等。同步应用(未示出)也驻留在***202上并且被编程为与在主机计算机上驻留的对应同步应用交互,以保持存储在非易失性存储区域268中的信息与在主机计算机处存储的对应信息同步。如应当认识到的那样,其它应用可以被加载到存储器262中并且在这里描述的移动计算设备200上被运行。
***202具有可以被实施为一个或者多个电池的电源270。电源270还可以包括对电池进行补充或者再充电的外部功率源,比如AC适配器或者有供电的对接托架。
***202可以包括执行有助于在***202与一个或者多个***设备之间的连通这一功能的***设备端口230。在操作***(OS)264的控制之下进行向和从***设备端口230的传输。换而言之,可以经由操作***264向应用程序266散布由***设备端口230接收的通信并且反之亦然。
***202也可以包括执行传输和接收射频通信这一功能的无线电接口层272。无线电接口层272有助于经由通信载体或者服务提供者在***202与“外界”之间的无线连通。在操作***264的控制之下进行向和从无线电接口层272的传输。换而言之,可以经由操作***264向应用程序266散布由无线电接口层272接收的通信并且反之亦然。
可视指示器220可以用来提供可视通知和/或音频接口274。音频接口274可以用于经由音频换能器225产生可听通知。在所示示例中,可视指示器220是发光二极管(LED),并且音频换能器225是扬声器。这些设备可以被直接地耦合到电源270,从而使得在被激活时,它们保持接通由通知机制规定的持续时间,即使处理器260和其它部件可能为了节省电池功率而关停。可以对LED编程以不确定地保持接通,直至用户采取动作以指示设备的上电状态。音频接口274用来向用户提供可听信号和从用户接收可听信号。例如,除了被耦合到音频换能器225之外,音频接口274也可以被耦合到麦克风以接收可听输入,比如以有助于电话对话。根据本发明的示例,麦克风也可以用作音频传感器以有助于控制通知,如以下将描述的那样。***202还可以包括启用板上相机230的操作以记录静止图像、视频流等的视频接口276。
实施***202的移动计算设备200可以具有附加特征或者功能。例如,移动计算设备200也可以包括附加数据存储设备(可移除和/或不可移除),比如磁盘、光盘或者带。这样的附加存储装置在图2B中由非易失性存储区域268图示。
由移动计算设备200生成或者捕获并且经由***202存储的数据/信息可以被本地存储在移动计算设备200上,如以上描述的那样,或者数据可以被存储在可以由设备经由无线电272或者经由在移动计算设备200和与移动计算设备200关联的分离计算设备(例如,在分布式计算网络(比如因特网)中的服务器计算机)之间的有线连接而被访问的任何数目的存储介质上。如应当认识的那样,可以经由无线电272或者经由分布式计算网络经由移动计算设备200访问这样的数据/信息。相似地,可以在计算设备之间容易地传送这样的数据/信息以用于根据熟知的数据/信息传送和存储手段(包括电子邮件和写作数据/信息共享***)来存储和使用。
图3图示了用于提供如下应用的***的架构的一个示例,该应用如以上描述的那样容易地访问存储***上的目标数据并且处置与一个或者多个客户端设备的通信故障。可以在不同通信信道或者其它存储装置类型中存储与编程模块108、应用120和存储装置/存储器关联地访问、与之交互或者编辑的目标数据。例如,可以使用目录服务322、web门户324、邮箱服务326、即时消息接发存储库328或者社交联网站点330、应用128、IO管理器124、其它实用程序126和存储***来存储各种文档,它们可以如这里描述的那样使用这些类型的***等的任何***以用于实现数据利用。服务器320可以提供存储***以用于由在一般计算设备102和移动设备200上操作的客户端通过网络315来使用。举例而言,网络315可以包括因特网或者任何其它类型的局域网或者广域网,并且客户端节点可以被实施为在个人计算机、平板计算设备中体现的和/或由移动计算设备200(例如,移动处理设备)体现的计算设备102。客户端计算设备102或者200的这些示例中的任何示例可以从存储库316获得内容。
图4图示了根据这里描述的示例在一个或者多个计算设备上可实施的示例性***400。呈现的示例性***400是互相依赖的部件的组合,这些部件交互以形成集成的整体以用于基于用户示例操作的学习的程序生成。***400的部件可以是在***400的硬件部件上实施和/或由这些硬件部件执行的硬件部件或者软件。在示例中,***400可以包括硬件部件(例如,ASIC、用来执行/运行操作***(OS)的其它设备)和在硬件上运行的软件部件(例如,应用、应用编程接口、模块、虚拟机、运行时间库等)中的任何部件。在一个示例中,示例性***400可以提供用于软件部件运行、遵守用于操作的约束集合并且利用***100的资源或者设施的环境,其中部件可以是在一个或者多个处理设备上运行的软件(例如,应用、程序、模块等)。例如,可以在处理设备(比如计算机、移动设备(例如,智能电话/电话、写字板)和/或任何其它电子设备)上运行软件(例如,应用、操作指令、模块等)。作为处理设备操作环境的示例,参照图1至图3的操作环境。在其它示例中,可以跨多个设备展开这里公开的***的部件。例如,可以在客户端设备(例如,处理设备)上录入输入,并且可以从在网络中的其它设备(比如一个或者多个服务器设备)处理或者访问信息。
本领域技术人员将认识***(比如***400)的规模可以变化并且可以包括比图4中描述的部件更多或者更少的部件。在一些示例中,在***400的部件之间的对接可以远程地出现,例如,其中可以跨分布式网络的一个或者多个设备展开***400的部件。在示例中,一个或者多个数据存储库/存储装置或者其它存储器与***400关联。例如,***400的部件可以具有与之关联的一个或者多个数据存储装置/存储器/存储库。与***400的部件关联的数据可以被存储在其上以及处理由***400的部件执行的操作/指令。***400的部件可以与处理设备的OS对接以允许输入理解和处理。例如,***400可以被配置为从用户接收输入并且处理接收的输入以管理用户交互。与实现录入输入和接收输入以用于处理有关的方面在使用领域中是熟知的,并且在本公开内容中没有加以描述。在一个示例中,***400可以是输入理解***,比如常规理解(CU)***。然而,***400拥有处理装置并且可以被配置为处置包括但不限于话音/语音输入、文本输入、手势输入、手写输入以及其它示例的任何类型的输入。在一个示例中,***400可以作为智能个人助理操作。智能个人助理是可以基于用户输入、位置认知和用于访问来自多种在线源的信息的能力来为个人执行任务或者服务的移动软件代理。***400可以与之操作的智能个人助理的示例包括但不限于SILVIA、S-Voice、Voice Mate、Google Now、Cortana、Hidi和Siri以及其它示例。然而,本领域技术人员将认识输入理解处理示例不限于在智能个人助理中的应用。示例性***400包括输入识别部件402、输入理解部件408、信赖状态部件422、知识部件432和策略确定部件440,其中标识的部件中的每个部件可以包括如图4中所示的一个或者多个附加部件。
另外,在示例中,***400的部件可以在由***400的部件的处理中利用知识数据。知识数据是可由***400的部件用来改进对接收的输入的处理、对备选的生成、对备选的排名和对排名的备选的传播的任何数据。在示例中,知识数据可以由知识部件432的数据存储库维护。然而,在其它示例中,***400的每个部件可以维护用于如下知识数据的个别资源(例如,数据存储库和/或与在***400内部和/或外部的资源的连接),该知识数据可以用来改进***400的部件的个别处理。
输入识别部件402是***400的接收、处理和翻译接收的输入以用于识别的部件。在输入由***400接收时,向输入识别部件402传输输入以用于处理。输入识别部件402可以与***400的用户接口对接以发起对接收的输入的处理。作为以上描述的示例,由输入识别部件402处理的输入包括但不限于话音/语音输入(例如,讲话)、文本输入、手势输入和手写输入以及其它示例。在***400中,输入识别部件可以包括识别部件404和至少一个排名器406。
识别部件404被配置为将接收的输入处理成能够被***400的部件理解的形式。作为示例,识别部件405可以能够将说出的查询处理成文本。在示例中,识别部件404可以实施自动话音识别(ASR)、计算机话音识别或者话音到文本(STT)以及其它示例以将话音处理成文本,以用于***400的评估/附加处理。识别部件404可配置为生成用于识别接收的输入的潜在备选集合。备选是由***400的处理部件生成的结果,该结果基于由***400的一个或者多个部件的处理而被产生。在示例中,识别部件404可以产生与输入如何被***400理解有关的备选。例如,可以接收和评估话音输入或者讲话以生成备选,比如“我在家”和“开车回家”。也就是说,在处理接收的讲话时,识别部件404可以生成与***400从接收的讲话理解什么有关的备选的集合。识别部件404可以处理接收的输入并且生成用于接收的输入的备选的N最佳列表。在另一示例中,识别部件404可以通过产生词混淆网络(WCN)和/或网格来处理接收的输入,该WCN和/或网格然后可以用来生成用于接收的输入的最高和后续备选。类似于***400的其它部件,识别部件404可以保持以及传播备选解释而不是稳定在用于输出的单个选择上。可以向排名器406传播由识别部件404生成的备选。
在任何情况下,识别部件404与一个或者多个排名器406部件对接,这些部件可以用来评估由识别部件404生成的备选。在示例中,排名器406可以用来对由识别部件404生成的多个备选排名。在一个示例中,可以基于备选满足接收的输入的意图的确定的可能性来对生成的备选排名。然而,部件可以用使部件能够相互区分备选的任何方式来分析和评估备选。在示例中,置信度值可以与生成的备选中的每个备选关联。例如,在其中接收的讲话被解释为“我在家”而另一个被解释为“开车回家”的以上示例中,可以向潜在备选中的每个潜在备选估定置信度值,其中置信度值指示识别部件404关于解释接收的讲话多么置信。备选的比较可以包括对备选的统计建模和/或排名,其中可以应用度量以对生成的备选排名。在一个示例中,应用机器学习处理以对由输入识别部件404或者***400的任何其它部件生成的备选或者替换物排名。如可以想象的那样,可以生成用于理解接收的输入的大量备选。随着***400继续处理越来越多的备选,组合***可能由于可以由***400的部件生成的大量潜在备选而出现。为了解决这一顾虑,***400的排名器部件可以用来删减为了后续处理而传播的外传备选的清单。例如,排名器406可以与***400的输入理解部件408对接以向输入理解部件408智能地传播多个排名的备选。在这样做时,***400可以保证***400的部件正在有效地和高效地处理。作为示例,可以使用阈值评估来确定从排名器406向输入理解部件408传播的排名的备选的数目。可以基于输入理解部件408的延时和/或容量约束和/或对其它排名信号处理来确定为了后续处理而待传播的排名的备选的数目。作为示例,排名可以包括处理排名信号的集合。排名信号包括可以用来对生成的备选/替换物/假设排名和评估的信号数据。排名信号包括大的信号数据集合,其包括但不限于:话音识别置信度、从它们的分布而推导的特征、语言理解域/意图/散射模型置信度及其分布、来自先前轮次的相同信号集合和轮次标识(ID)以及其它示例。在一个示例中,排名器406可以输出基于由排名器406应用的排名而被确定的单个备选(例如,最高选择备选)。
一旦通过输入识别部件处理来识别输入,就在***400的输入理解部件408接收传播的备选或者备选的集合。输入理解部件408分析与传播的备选关联的上下文以基于对输入理解处理的应用来进一步评估传播的备选并且潜在地生成附加备选。作为示例,输入理解部件408可以是自然语言理解(NLU)部件或者口述语言理解(SLU)部件。然而,本领域技术人员将认识输入理解部件408的操作不限于NLU和SLU。输入理解部件408包括域部件410、排名器412、意图部件414、排名器414、实体部件418和排名器420。在示例中,输入理解可以包括域检测、意图确定和实体提取。在示例中,输入理解部件08可以产生包括域、意图和有标签的时隙(例如,提取的实体)的三元组,并且可以利用来自三元组的信息以确定与理解接收的输入有关的备选/假设。在示例性输入理解处理中,可以个别地评估备选的域、意图和实体中的每项。然而,在备选示例中,输入理解处理可以被流水线化以从在三元组中包括的数据的组合生成备选的一个或者多个集合。
域部件410是检测与传播的备选关联的域的部件。域是指用于接收的输入的意图的逻辑分组。例如,从输入识别部件402传播的备选可以与可以用来满足接收的输入的意图的一个或者多个应用/服务关联。备选可以由域部件410基于评估从输入识别部件402传播(例如,经由排名器406)的备选来生成。作为示例,可以对于接收的输入(比如“安排下午3点与Omar会面”)生成备选,其中可以与这样的输入备选关联的域(一个或者多个)可以是日历应用和/或电子邮件应用以及其它示例。在该示例中,***400可以从可以追随的一个备选最终地确定起动日历应用并且在用户的日历上概略画出时间在下午3点与Omar会面。另一示例备选可以是关联备选与域(比如电子邮件应用),其中最终的确定的结果可以是使用电子邮件应用来生成向名为Omar的用户的对于会面的电子邮件邀请。这样,备选的扩展的集合(该备选的集合建立于从输入识别部件402接收的传播的备选)可以由域部件410生成。向用来对备选的扩展的集合进一步进行评估和排名的排名器412传播备选的扩展的集合。类似于***400的其它部件,域部件410可以保持以及传播备选解释而不是稳定在用于输出的单个选择上。可以向排名器412传播由域部件410生成和/或扩展的备选。
一个或者多个排名器412部件可以用来评估从域部件410传播的备选。在一个示例中,可以基于在备选/替换物(alternate)中的标识的域满足接收的输入的意图的确定的可能性来对生成的备选排名。然而,部件可以用使部件能够相互区分备选的任何方式来分析和评估备选/替换物。在示例中,置信度值可以与生成的备选的每个备选关联。可以向潜在备选中的每个潜在备选评定置信度值,其中置信度值指示域部件410关于发展用于接收的输入的假设/备选多么置信。备选的比较可以包括对备选的统计建模和/或排名,其中可以应用度量以对生成的备选排名。排名器412可以用来删减向为了后续处理而被传播的外传备选的清单。例如,排名器412可以与***400的智能部件414对接以通过输入理解部件408来智能地传播多个排名的备选。在这样做时,***400可以保证***400的部件正在有效地和高效地处理。作为示例,可以使用阈值评估来确定从排名器412向意图部件414传播的排名的备选的数目。可以基于意图部件414的延时和/或容量约束和/或对其它排名信号的处理(如以上描述的那样)来确定用来确定为了后续处理而待传播的排名的备选的数目的阈值。然而,在另一示例中,排名器412可以输出基于应用的排名而被确定的单个备选(例如,最高选择备选)。
可以从排名器412向输入理解部件408的意图部件414传播排名的备选。意图部件414确定与传播的备选关联的意图。例如,在评估接收的输入“安排下午3点与Omar会面”时,从排名器412接收的传播的备选可以标识与接收的输入关联的域是电子邮件应用。意图部件414进一步评估备选/替换物以断定与标识的域关联的动作。在这一示例中,意图可以是生成向名为Omar的联系人的电子邮件会面邀请。意图部件414可以生成多个备选以进一步构建扩展的集合。可以向排名器416传播由意图部件414生成的备选。类似于***400的其它部件,意图部件414可以保持以及传播备选解释而不是稳定在用于输出的单个选择上。可以向排名器416传播由意图部件414生成和/或扩展的备选。
一个或者多个排名器416部件可以用来评估从意图部件414传播的备选。在一个示例中,可以基于备选/替换物满足接收的输入的意图的确定的可能性来对生成的备选排名。然而,部件可以用使部件能够相互区分响应选项/备选的任何方式来分析和评估备选。在示例中,置信度值可以与生成的备选的每个备选关联。可以向潜在备选中的每个潜在备选评定置信度值,其中置信度值指示意图部件414关于发展用于接收的输入的假设/备选多么置信。备选的比较可以包括对备选的统计建模和/或排名,其中可以应用度量以对生成的备选排名。排名器416可以用来删减为了后续处理而被传播的外传备选的清单。例如,排名器416可以与***400的实体部件418对接以通过输入理解部件408来智能地传播多个排名的备选。在这样做时,***400可以保证***400的部件正在有效地和高效地处理。作为示例,可以使用阈值评估来确定从排名器416向实体部件418传播的排名的备选的数目。可以基于实体部件418的延时和/或容量约束和/或对其它排名信号的处理(如以上描述的那样)来确定用来确定为了后续处理而待传播的排名的备选的数目的阈值。然而,在另一示例中,排名器416可以输出基于应用的排名而被确定的单个备选(例如,最高选择备选)。
可以从排名器416向输入理解部件408的实体部件418传播排名的备选。实体部件418确定可以从传播的备选被提取的一个或者多个潜在实体。实体是用于标识的分类的数据元素。例如,实体是基于性质/属性来从其它元素的集合标识元素的词项或者短语。作为示例,在评估接收的输入“安排下午3点与Omar会面”时,从排名器416接收的传播的备选可以标识与该备选关联的实体是名为“Omar”的联系人。实体部件418进一步评估示例备选以断Omar是指谁/什么。在这一示例中,可以在与***400关联的应用/服务或者数据存储库中的联系人清单中存储名为“Omar”的联系人。实体部件418可以生成多个备选以进一步构建扩展的集合。可以向排名器420传播由实体部件418生成的备选。类似于***400的其它部件,实体部件418可以保持以及传播备选解释而不是稳定在用于输出的单个选择上。可以向排名器420传播由实体部件418生成和/或扩展的备选。
一个或者多个排名器420部件可以用来评估从实体部件418传播的备选。在一个示例中,可以基于标识的实体是输入的用户打算的实体(例如,用户意思是在联系人列表中的Omar还是另一联系人)的、***400的确定的可能性来对生成的备选排名。然而,部件可以用使部件能够相互区分备选/替换物的任何方式来分析和评估响应选项。在示例中,置信度值可以与生成的备选的每个备选关联。可以向潜在备选中的每个潜在备选评定置信度值,其中置信度值指示实体部件418关于发展用于接收的输入的假设/备选多么置信。备选的比较可以包括对备选的统计建模和/或排名,其中可以应用度量以对生成的备选排名。排名器420可以用来删减为了后续处理而被传播的外传备选的清单。例如,排名器420可以与***400的信赖状态部件422或者知识部件432之一对接以智能地传播多个排名的备选以用于附加处理。在这样做时,***400可以保证***400的部件正在有效地和高效地处理。作为示例,可以使用阈值评估来确定从排名器420向意图部件414传播的排名的备选的数目。可以基于用来继续处理的后续部件的延时和/或容量约束和/或对其它排名信号的处理(如以上描述的那样)来确定用来确定为了后续处理而待传播的排名的备选的数目的阈值。然而,在另一示例中,排名器420可以输出基于应用的排名而被确定的单个备选(例如,最高选择备选)。
***400还包括信赖状态部件422。在其中正在处理后续输入的示例中,排名器420可以向信赖状态部件422传播备选以用于进一步处理。信赖状态部件422用来评估与用户的交互状态(例如,交谈、对话等)并且使用信赖状态数据448以关于满足接收的输入的意图来改进***400的处理。信赖状态部件422包括时隙和实体部件424、排名器426、元动作更新部件428和排名器430。
信赖状态部件422可以在接收构建于在先的接收的输入的后续输入时由***400利用。作为示例,在用户与***400之间的交互可以进行多个轮次,其中接收输入,返回响应,并且将处理更多输入。这一点的示例可以是响应不是用户打算的响应、在理解中出现错误或者用户改变交互的方向以及其它示例。***400的处理部件(包括输入识别部件402、输入理解部件408和策略确定部件440)中的任何处理部件可以与信赖状态部件422对接以改进个别部件的处理。在在先的一轮评估接收的输入期间,可以维护信赖状态数据448。信赖状态数据448可以包括来自由***400的部件中的一个或者多个部件执行的处理的结果数据。例如,可以关于由输入识别部件402的处理来存储信赖状态数据448。例如,也可以对于由***400的部件执行的全部处理来保持信赖状态数据448,其中可以保持最终的确定的假设(例如,结果或者响应选项)。例如,可以存储选择和未选择的假设二者以用于如果在与用户交互期间需要则将来使用。信赖状态部件422可以利用信赖状态数据448以进一步评估传播的备选。
时隙和实体部件424是如下部件,该部件确定来自先前的接收的输入的时隙或者实体是否仍然和与用户的交互相关。作为示例,时隙和实体部件424确定是否从用于评估接收的输入的先前轮次向当前轮次结转(carry over)时隙或者实体。作为示例,时隙(或者有标签的时隙)是对接收的输入的分割。如以上描述的那样,实体是用于标识的分类的数据元素。在示例中,如果时隙和实体部件424确定时隙或者实体仍然与用户的交互相关,则关于实体/时隙的相关性进一步评估备选的扩展的集合。在其中时隙和实体部件424确定时隙或者实体不再与交互相关的示例中,时隙和实体部件424可以通过删减与非相关时隙或者实体关联的备选来更新备选的扩展的集合,以及其它示例。另外,可以配置时隙和实体部件424,从而使得它关于用于确定***400的输出的潜在备选来对于不同置信度级别产生多个排名的输出。例如,用户可以已经提供如下澄清,即联系人“Omar”意味着在联系人中列举的名为“Omar”的第一人而不是也具有名为“Omar”的第二人。备选地,在另一示例中,用户在接收的输入中可以已经决定设立与名为“Ruhi”而不是“Omar”的联系人的会面。在任何情况下,时隙和实体部件424可以基于应用信赖状态数据448以评估后续的接收的输入来更新可以被考虑用于输出的备选。类似于***400的其它部件,时隙和实体部件424可以保持以及传播备选解释而不是稳定在用于输出的单个选择上。可以向排名器426传播由时隙和实体部件424生成和/或扩展的备选。
一个或者多个排名器426部件可以用来评估从时隙和实体部件424传播的备选。在一个示例中,可以基于标识的时隙或者实体仍然与在用户交互中的当前轮次相关的、***400的确定的可能性来对生成的备选排名。然而,部件可以用使部件能够相互区分潜在备选和/或假设的任何方式来分析和评估备选和/或假设。在示例中,置信度值可以与生成的备选中的每个备选关联。可以向潜在备选中的每个潜在备选评定置信度值,其中置信度值指示时隙和实体部件424关于发展用于接收的输入的假设/备选多么置信。备选的比较可以包括对备选的统计建模和/或排名,其中可以应用度量以对生成的备选排名。排名器426可以用来删减向为了后续处理而被传播的外传备选的清单。例如,排名器426可以与***400的元动作更新部件428或者知识部件432对接以智能地传播多个排名的备选以用于附加处理。在这样做时,***400可以保证***400的部件正在有效地和高效地处理。作为示例,可以使用阈值评估来确定从排名器426传播的排名的备选的数目。可以基于用来继续处理的后续部件的延时和/或容量约束和/或对其它排名信号的处理(如以上描述的那样)来确定用来确定为了后续处理而待传播的排名的备选的数目的阈值。然而,在另一示例中,排名器426可以输出基于应用的排名而被确定的单个备选(例如,最高选择备选)。
元动作更新部件428评估用户与***400的交互以改进在返回对接收的输入的更准确响应时的处理。元动作更新部件428评估受用户如何对***输出做出响应所影响的***400的信赖。作为示例,元动作更新部件428评估情况,比如用户从在由***400呈现的项目集合之中去歧义或者用户完全重置交互或者谈话的状态(可能地响应于从先前轮次输出的不正确***理解)以及其它示例。类似于时隙和实体部件424,元动作更新部件428与信赖状态数据448关联。例如,来自先前轮次的来自***400的输出可以是用于从中选择的选项的列表,其中用户可以从选项列表做出对项目的选择。可以保持这一信息作为信赖状态数据448以辅助***400提供对接收的输入的最佳可能假设。另外,可以配置元动作更新部件428,从而使得它关于用于确定***400的输出的潜在备选来对于多个置信度级别产生多个排名的输出。元动作更新部件428可以更新备选并且继续扩展备选的集合以用于由***400考虑作为最终假设。类似于***400的其它部件,元动作更新部件428可以保持以及传播备选解释而不是稳定在用于输出的单个选择上。可以向排名器430传播由元动作更新部件428生成和/或扩展的备选。
一个或者多个排名器430部件可以用来评估从元动作更新部件428传播的备选。在一个示例中,可以基于***400的基于源于用户与***400的交互的信赖的确定的可能性来对生成的备选排名。然而,部件可以用使部件能够相互区分响应选项/备选的任何方式来分析和评估响应选项。在示例中,置信度值可以与生成的备选的每个备选关联。可以向潜在备选中的每个潜在备选评定置信度值,其中置信度值指示元动作更新部件428关于发展用于接收的输入的假设/备选多么置信。备选的比较可以包括对备选的统计建模和/或排名,其中可以应用度量以对生成的备选排名。排名器430可以用来删减向为了后续处理而被传播的外传备选的清单。例如,排名器430可以与***400的知识部件432对接以智能地传播多个排名的备选以用于附加处理。在这样做时,***400可以保证***400的部件正在有效地和高效地处理。作为示例,可以使用阈值评估来确定从排名器430传播的排名的备选的数目。可以基于用来继续处理的后续部件的延时和/或容量约束和/或对其它排名信号的处理(如以上描述的那样)来确定用来确定为了后续处理而待传播的排名的备选的数目的阈值。然而,在另一示例中,排名器430可以输出基于应用的排名而被确定的单个备选(例如,最高选择备选)。
在示例中,可以向知识部件432传输来自***400的部件中的任何部件的传播的备选以用于附加处理。在其中接收第一输入的一个示例中,输入理解部件408可以向知识部件432传播备选的扩展的集合。在其中接收多个输入的另一示例中,信赖状态部件422可以向知识部件432传输备选。知识部件432向传播的备选应用来自外部资源的知识数据。外部资源是在***400以外存在并且可管理的任何资源(例如,***、应用/服务等)。外部资源包括但不限于可以由与***400相同的组织管理的***、应用/服务(例如,由组织提供的其它服务,比如web搜索服务、电子邮件应用、日历、设备管理服务、地址簿服务、信息服务等)以及由第三方主控或者控制的服务和/或网站。例如,外部资源可以包括业务线(LOB)管理服务、客户关系管理(CRM)服务、调试服务、记账服务、工资服务等。外部资源还可以包括由第三方主控的其它网站和/或应用,比如社交媒体网站;照片共享网站;视频和音乐流传输网站;搜索引擎网站;运动、新闻或者娱乐网站等。外部资源可以提供健壮报告、分析、数据编辑和/或存储服务等,而其它外部资源可以提供搜索引擎或者对数据和信息、图像、视频等的其它访问。
知识部件432包括部件,比如知识取读部件434以及例如如由知识库A 436和知识库B 438所示知识存储库。知识取读部件434是用来评估和验证与传播的备选关联的时隙或者实体信息的部件。对于所有可用备选,执行知识取读操作(例如,目录查找、数据库命中、访问个人化的信息(比如地址簿、库数据)等)以分辨和/或验证与备选关联的时隙数据或者实体。知识存储库436和438是如下框架,这些框架代表由***400的部件用来改进处理的知识数据或者信息。在一个示例中,知识存储库可以是具有用于存储数据和处理数据以管理用于知识数据的请求的能力的硬件部件。在另一示例中,可以运行知识存储库作为在处理设备上或者跨多个处理设备可执行的软件部件,该或者这些处理设备可能地甚至与包含可以使用的任何附加知识的外部或者第三方服务通信。如先前描述的那样,知识数据可以是可由部件用来改进处理的任何数据。知识数据增加***400有权访问的信息数量,从而使得***400可以在任何给定的时间点做出更有信息的决定。知识存储库(比如知识存储库436和438)可以维护的信息类型包括但不限于关于以下各项的信息:定义、策略规则、名称数据、历史数据(包括来自先前查询的数据)、在***400的部件之间的相互关系、限制(例如,用于评估数据的正式的陈述的事实描述)、类(例如,汇集、概念、编程类型)、属性数据(例如,性质、特征、特性、参数)、公理、对包括第三方资源、事件和函数项的外部资源的访问以及其它示例。知识存储库(比如知识存储库436和438)可以也可以与在***400以外的部件或者资源通信以聚集或者收集与执行处理和关于***400可以如何对用户输入做出响应做出最佳可能决定相关的信息。作为示例,知识存储库可以通过因特网被链接到网络资源或者第三方服务、例如,搜索引擎(例如,Bing、Google Search、Yahoo Search、Ask、WebCrawler、Dogpile等)。在示例中,知识取读部件434可以与多个知识存储库对接以向***400提供尽可能多的信息,以将备选最佳地评估为对接收的输入的潜在响应选项。可以填写/完成与备选关联的数据,其中向策略确定部件440传播完成的备选以用于最终评估和绑定到作为对接收的输入的假设的备选。
策略确定部件可以包括响应生成部件442、最终排名器444、用于输出的最终响应446和信赖状态数据448。最终响应生成部件442用来关于由知识取读部件434应用的知识数据来编辑和评估所有传播的备选。给定所有信息可用,最终响应生成部件442生成用于每个备选的最佳可能***。从这一点,响应生成部件442向最终排名器444部件传播假设以对作为用于***输出的潜在假设的响应选项排名。
一个或者多个最终排名器444部件可以用来对潜在假设排名。最终排名器444可以用使部件能够相互区分潜在假设的任何方式来分析和评估潜在假设。在示例中,置信度值可以与潜在假设中的每个潜在假设关联。可以向潜在备选中的每个潜在备选评定置信度值。潜在假设的比较可以包括对备选的统计建模和/或排名,其中可以应用度量以对生成的备选排名。最终排名器444可以用来删减潜在假设清单。阈值用来确定待输出的响应选项的数目。作为示例,最终排名器444可以在确定响应选项时利用排名信号(如以上描述的那样)。作为示例,最终排名器444可以输出单个假设作为基于应用的排名而确定的响应选项(例如,最高选择)。在其它示例中,输出可以包括作为响应选项的多于一个假设。
基于由最终排名器444应用的排名,从***400输出最终响应446。在示例中,最终响应446可以是一个或者多个输出。作为示例,最终响应446可以是基于接收的输入而被发起的动作。例如,在其中输入涉及安排与“Omar”的会面的示例中,最终响应446可以包括发起域/应用并且根据接收的输入对该域采取动作。在一些示例中,输出的最终响应446可以是用于更多信息的澄清。例如,响应生成部件442可以确定某个数据遗漏,这妨碍***400满足用户请求。在其它示例中,***400可以关于用户关于接收的输入有什么打算而具有低置信度级别。在作为整体评估***400时,不确定性可以存在于对接收的输入的处理中的任何点。通过延迟绑定到响应选项直至在***400的上游部件来接收它,向***400的下游部件提供对整个用户输入的更佳全局视图。这样的配置使在处理接收的输入期间出现不可恢复的错误的可能性最小化。
如先前标识的那样,策略确定部件440包括保持信赖状态数据集448。所有这样的备选在一轮处理的最终步骤可用允许以富集化的状态这一形式保持信赖状态数据448,该信赖状态数据然后可以在后续轮次中被查询以改进处理。在示例中,可以在***400的处理中的任何点保持信赖状态数据448。作为示例,基于最终响应生成和排名(例如,由最终排名器444)来保持信赖状态数据448。例如,可以保持选择和未选择的响应消息作为信赖状态数据448。在示例中,如果***400选择不正确的备选/假设,则***400可以查询这一信赖状态数据448,以理解在先前轮次中可用并且与在当前轮次中的信息耦合的备选选择,***400可以更佳地标识正确选择并且在与用户的交互期间快速地恢复。
图5是可以用来实践本公开内容的方面的用于输入理解处理的示例性方法500。作为示例,方法500可以由比如图1至图4中所示的示例性***执行。在示例中,可以在如下设备上执行方法500,该设备包括被配置为存储和执行操作、程序或者指令的至少一个处理器。然而,方法500不限于这样的示例。在至少一个示例中,方法500可以由分布式网络的一个或者多个部件(例如,web服务/分布式网络服务(例如,云服务))执行(例如,计算机实施的操作)。在示例中,在方法500中执行的操作可以对应于由如下***和/或服务执行的操作,该***和/或服务执行计算机程序、应用编程接口(API)或者机器学习处理,以及其它示例。
方法500始于操作502,其中处理接收的输入。在操作502,处理接收的输入以生成备选的集合,该备选的集合可以促成对接收的输入的多个潜在假设(例如,潜在响应选项)。备选的集合可以包括从对接收的输入的评估而被生成的多个备选。作为示例,在操作502中执行的处理可以由输入识别部件(比如在示例性***400中描述的识别部件404)执行。在一个示例中,自动话音识别部件用来通过评估接收的讲话来执行操作502。
流程可以前进到操作504,其中可以过滤生成的备选的集合。操作504可以包括对备选的集合的备选排名并且传播多个排名的备选以用于附加处理。作为示例,在操作504中被执行的处理可以由输入识别部件402(比如在示例性***400中描述的排名器406)执行。在一个示例中,自动话音识别部件用来通过评估接收的讲话来执行操作504。作为示例,使用如下阈值来确定为了附加处理而将被传播的排名的备选的数目,该阈值基于输入处理部件的延时和输入处理部件的容量的至少一项而被设置,该输入处理部件是用来接收传播的备选的输入处理部件。
流程可以前进到操作506,其中处理传播的备选。操作506可以包括评估传播的备选以生成备选的扩展的集合作为潜在假设。备选的扩展的集合可以包括先前传播的备选以及从对传播的备选的进一步评估而生成的附加备选。作为示例,在操作506中执行的处理可以由比如在示例性***400中描述的输入理解部件408执行。在一个示例中,语言理解部件用来执行操作506。
流程可以前进到操作508,其中过滤备选的扩展的集合。操作508可以包括对备选的扩展的集合的备选排名并且传播扩展的集合的多个排名的备选以用于附加处理。作为示例,在操作508中执行的处理可以由输入识别部件402(比如在示例性***400中描述的排名器412、416和420)执行。在一个示例中,语言理解部件用来执行操作508。作为示例,使用如下阈值来确定为了附加处理而将传播的、扩展的集合的排名的备选的数目,该阈值基于输入处理部件的延时和输入处理部件的容量的至少一项设置,该输入处理部件是用来接收扩展的集合的传播的备选的输入处理部件。
在操作510,使用知识数据来评估扩展的集合的传播的备选。在对图4的***400的描述中描述知识数据。作为示例,从外部资源取读知识数据。在对图4的***400的描述中描述外部资源。在操作510中,向扩展的集合的传播的备选应用从外部资源取读的知识数据。在示例中,操作510可以由比如在图4的***400中描述的知识取读部件434。
流程可以前进到操作512,其中生成对接收的输入的响应。操作512的示例可以包括对包括应用的知识数据的评估的备选排名并且从排名和评估的备选选择响应。在示例中,操作512可以由如在图4的***400中描述的策略确定部件440执行。例如,潜在假设可以由部件(比如响应生成部件442)生成。潜在假设可以由部件(比如最终排名器444)排名,并且从***/服务输出最终响应446。
流程可以前进到操作514,其中保持与排名和评估的备选关联的数据。作为示例,保持的数据可以与如在图4的***400中描述的信赖状态数据448对应。信赖状态数据可以用来改进***/服务在与用户的继续交互期间的处理。
方法500的示例可以包括操作516,其中保持的数据可以用来评估后续的接收的输入。在图6的方法600中描述对与评估后续接收的输入有关的处理的描述。
图6是可以用来实践本公开内容的方面的用于输入理解处理的示例性方法600。作为示例,方法600可以由比如图1至图4中所示的示例性***执行。在示例中,可以在如下设备上执行方法600,该设备包括被配置为存储和执行操作、程序或者指令的至少一个处理器。然而,方法600不限于这样的示例。在至少一个示例中,方法600可以由分布式网络的一个或者多个部件(例如,web服务/分布式网络服务(例如,云服务))执行(例如,计算机实施的操作)。在示例中,在方法600中执行的操作可以对应于由如下***和/或服务执行的操作,该***和/或服务执行计算机程序、应用编程接口(API)或者机器学习处理,以及其它示例。
方法600始于操作602,其中处理后续的接收的输入。在操作602,处理后续的接收的输入以生成后续备选的集合作为对后续的接收的输入的潜在假设。后续备选的集合可以包括从对接收的输入的评估而生成的多个备选。在示例中,可以基于保持的信赖状态数据(例如,在图4中描述的信赖状态数据448)生成后续备选的集合以改进处理。作为示例,在操作602中执行的处理可以由输入识别部件(比如在示例性***400中描述的识别部件404)执行。在一个示例中,自动话音识别部件用来通过评估接收的讲话来执行操作602。
流程可以前进到操作604,其中可以过滤生成的后续备选的集合。操作604可以包括对后续备选的集合的备选排名并且生成多个排名的后续备选以用于附加处理。作为示例,在操作604中执行的处理可以由输入识别部件402(比如在示例性***400中描述的排名器406)执行。在一个示例中,自动话音识别部件用来通过评估接收的讲话来执行操作604。作为示例,使用如下阈值来确定为了附加处理而将传播的排名的后续备选的数目,该阈值基于输入处理部件的延时和输入处理部件的容量的至少一项被设置,该输入处理部件是用来接收传播的后续备选的输入处理部件。
流程可以前进到操作606,其中处理传播的后续备选。操作606可以包括评估传播的后续备选以生成扩展的后续备选的集合作为潜在假设。备选的扩展的集合可以包括先前生成的备选以及从对传播的备选的进一步评估而生成的附加备选。在示例中,可以使用保持的信赖状态数据(例如,在图4中描述的信赖状态数据448)来增强对后续备选的集合的处理。作为示例,在操作606中执行的处理可以由如在示例性***400中描述的输入理解部件408执行。在一个示例中,语言理解部件用来执行操作606。
流程可以前进到操作608,其中过滤扩展的后续备选的集合。操作608可以包括对扩展的集合的后续备选排名并且传播扩展的集合的多个排名的后续备选以用于附加处理。作为示例,在操作608中执行的处理可以由输入识别部件402(比如在示例性***400中描述的排名器412、416和420)执行。在一个示例中,语言理解部件用来执行操作608。作为示例,使用如下阈值来确定为了附加处理而将传播的、扩展的集合的排名的备选的数目,该阈值基于输入处理部件的延时和输入处理部件的容量的至少一项被设置,该输入处理部件是用来接收扩展的集合的传播的备选的输入处理部件。
在操作610,可以评估传播的后续备选以确定来自先前的接收的输入的时隙或者实体的相关性。操作610可以包括基于关于来自先前输入的时隙或者实体是否仍然相关而做出的确定来更新扩展的后续备选的集合。流程可以前进到操作612,其中基于对时隙/实体相关性的评估来过滤传播的后续备选。在示例中,操作612还可以包括基于关于来自先前输入的时隙或者实体是否仍然相关而做出的确定来对后续备选排名。操作612还可以包括传播多个后续备选以用于附加处理。
流程可以前进到操作614,其中基于用户在与输入理解***和/或服务的交互期间的响应来评估传播的后续备选。操作614可以包括基于评估用户在交互(例如,谈话)期间的响应可以如何影响备选生成来更新扩展的后续备选的集合。流程可以前进到操作616,其中基于对用户交互的评估来过滤传播的后续备选。在示例中,操作616还可以包括对后续备选排名。操作616还可以包括传播多个后续备选以用于附加处理。
在操作618,使用知识数据来评估传播的扩展的集合的后续备选。在对图4的***400的描述中描述知识数据。作为示例,从外部资源取读知识数据。在对图4的***400的描述中描述外部资源。在操作618中,向传播的扩展集合的后续备选应用从外部资源取读的知识数据。在示例中,操作618可以由如在图4的***400中描述的知识取读部件434执行。
流程可以前进到操作620,其中生成对接收的后续输入的响应。操作620的示例可以包括对包括应用的知识数据的评估的备选排名并且从排名和评估的备选选择假设。在示例中,操作620可以由如在图4的***400中描述的策略确定部件440执行。例如,一个或者多个最终响应选项可以由部件(比如响应生成部件442)生成。最终响应选项可以由部件(比如最终排名器444)排名,并且可以从***/服务输出最终响应446。
图7是可以用来实践本公开内容的方面的用于谈话理解处理的示例性方法700。作为示例,方法700可以由比如图1至图4中所示的示例性***执行。在示例中,可以在如下设备上执行方法700,该设备包括被配置为存储和执行操作、程序或者指令的至少一个处理器。然而,方法700不限于这样的示例。在至少一个示例中,方法700可以由分布式网络的一个或者多个部件(例如,web服务/分布式网络服务(例如,云服务))执行(例如,计算机实施的操作)。在示例中,在方法700中执行的操作可以对应于由如下***和/或服务执行的操作,该***和/或服务执行计算机程序、应用编程接口(API)或者机器学习处理,以及其它示例。
流程始于决定操作702,其中确定是否接收讲话以用于由谈话理解***和/或服务处理。如果没有接收讲话,则流程转向否并且方法700的处理结束。然而,如果确定接收讲话,则流程转向是并且继续操作704。
在操作704中,通过谈话理解栈处理讲话。在处理部件的汇集中的谈话理解(CU)栈可以用来接收讲话、处理讲话并且确定用于接收的说出的讲话的响应消息/动作。CPU栈可以包括如在图4的***400中描述的一个或者多个部件。另外,由CU栈执行的处理操作可以包括来自先前描述的方法500和600的一个或者多个操作。处理接收的讲话(操作704)可以包括生成和输出对接收的讲话的响应(例如,假设)。
流程然后可以继续决定操作706,其中确定是否接收后续讲话。如果没有接收后续讲话,则流程转向否并且方法700的处理结束。然而,如果确定接收讲话,则流程转向是并且继续操作708。
在操作708中,通过谈话理解栈处理后续讲话。处理接收的讲话(操作708)可以包括生成和输出对接收的讲话的响应。在示例中,操作708可以利用在图4中描述的信赖状态数据448以富集化对后续讲话的处理。方法700的流程然后可以返回到决定操作706,其中确定是否接收另一讲话。
已经贯穿本说明书做出对“一个示例”或者“示例”的引用,这意味着在至少一个示例中包括特定的描述的特征、结构或者特性。因此,使用这样的短语可以是指多于仅一个示例。另外,可以在一个或者多个示例中以任何适当方式组合描述的特征、结构或者特性。
然而,本领域技术人员可以认识到,没有具体细节中的一个或者多个细节仍然可以实践示例或者用其它方法、资源、材料等可以实践示例。在其它实例中,尚未具体地示出或者描述熟知的结构、资源或者操作仅为了避免模糊示例的方面。
尽管已经图示和描述了范本示例和应用,但是将理解示例不限于以上描述的精确配置和资源。可以在这里公开的方法和***的布置、操作和细节中做出本领域技术人员清楚的各种修改、改变和变化而没有脱离要求保护的示例的方面。
Claims (15)
1.一种计算机实施的方法,包括:
处理接收的输入以生成用于所述接收的输入的识别的备选的集合;
过滤备选的所述集合,其中所述过滤包括对备选的所述集合排名并且传播多个排名的所述备选以用于附加处理;
处理传播的所述备选以基于所述接收的输入来生成备选的扩展的集合作为潜在假设;
过滤备选的所述扩展的集合,其中所述过滤包括对所述扩展的集合的备选排名并且传播所述扩展的集合的多个排名的所述备选以用于附加处理;
基于对从外部资源取读的知识数据的应用来评估所述扩展的集合的传播的所述备选;以及
生成对所述接收的输入的响应,其中所述生成对评估的所述备选排名并且从排名并且评估的所述备选选择所述响应。
2.根据权利要求1所述的计算机实施的方法,还包括保持与排名并且评估的备选关联的数据。
3.根据权利要求2所述的计算机实施的方法,还包括利用保持的所述数据来评估接收的后续输入。
4.根据权利要求2所述的计算机实施的方法,还包括:
处理接收的后续输入以生成用于所述接收的后续输入的识别的后续输入备选的集合;
过滤后续输入备选的所述集合,其中所述过滤包括对后续输入备选的所述集合排名并且传播多个排名的所述后续输入备选以用于附加处理;
处理传播的所述后续备选以生成后续输入备选的扩展的集合作为对所述接收的后续输入的潜在假设;
过滤后续输入备选的所述扩展的集合,其中所述过滤包括对所述扩展的集合排名并且传播所述扩展的集合的多个排名的所述后续输入备选以用于附加处理;以及
处理所述扩展的集合的传播的所述后续输入备选,包括评估与先前的接收的输入关联的时隙或者实体是否与所述接收的后续输入相关并且基于在与输入理解服务的交互期间的用户响应来评估传播的所述后续输入备选。
5.根据权利要求4所述的计算机实施的方法,其中传播的所述后续输入备选的所述处理包括生成排名的输出备选并且传播多个排名的所述输出备选以用于附加处理。
6.根据权利要求5所述的计算机实施的方法,还包括基于对从所述外部资源取读的所述知识数据的应用来评估传播的多个排名的所述输出备选,并且生成对接收的所述后续输入的响应,其中所述生成对评估的所述输出备选排名并且从排名并且评估的所述输出备选选择所述响应以用于输出。
7.根据权利要求1所述的计算机实施的方法,其中来自备选的所述集合的所述多个传播并且排名的备选使用阈值被确定,所述阈值基于从包括以下各项的组选择的至少一项被设置:输入处理部件的延时、所述输入处理部件的容量以及对排名信号的集合的处理。
8.根据权利要求1所述的计算机实施的方法,其中来自备选的所述扩展的集合的所述多个传播并且排名的备选使用阈值被确定,所述阈值基于从包括以下各项的组选择的至少一项被设置:输入处理部件的延时和所述输入处理部件的容量以及对排名信号的集合的处理。
9.根据权利要求5所述的计算机实施的方法,其中所述多个排名的所述输出备选使用阈值被确定,所述阈值基于从包括以下各项的组选择的至少一项被设置:输入处理部件的延时和所述输入处理部件的容量以及对排名信号的集合的处理。
10.一种输入理解***,包括:
至少一个处理器;以及
存储器,其与所述至少一个处理器操作地连接,所述存储器包括计算机可执行指令,所述计算机可执行指令在由所述至少一个处理器执行时,执行方法,所述方法包括:
使用输入识别部件来处理接收的输入以生成用于所述接收的输入的识别的备选的集合,
过滤备选的所述集合,其中所述过滤包括对备选的所述集合排名并且向输入理解部件传播来自所述集合的多个排名的所述备选,
使用所述输入理解部件来处理传播的所述备选以基于所述接收的输入来生成备选的扩展的集合作为潜在假设,
过滤备选的所述扩展的集合,其中所述过滤包括对所述扩展的集合的备选排名并且向知识取读部件传播所述扩展的集合的多个排名的所述备选,
使用所述知识取读部件、基于对从外部资源取读的知识数据的应用来评估所述扩展的集合的传播的所述备选并且向策略确定部件传播评估的所述备选,以及
使用所述策略确定部件来生成对所述接收的输入的响应,其中所述策略确定部件对评估的所述备选排名并且从排名并且评估的所述备选选择所述响应。
11.根据权利要求10所述的输入理解***,其中执行的所述操作还包括保持与排名并且评估的备选关联的数据并且利用保持的所述数据来评估接收的后续输入。
12.根据权利要求11所述的输入理解***,其中执行的所述操作还包括:
使用所述输入识别部件来处理接收的后续输入以生成用于所述接收的后续输入的识别的后续输入备选的集合,
过滤后续输入备选的所述集合,其中所述过滤包括对后续输入备选的所述集合排名并且向所述输入理解部件传播多个排名的所述后续输入备选,
使用所述输入理解部件来处理传播的所述后续备选以生成后续输入备选的扩展的集合作为所述潜在假设,
过滤后续输入备选的所述扩展的集合,其中所述过滤包括对所述扩展的集合排名并且向信赖状态部件传播所述扩展的集合的多个排名的所述后续输入备选,以及
使用所述信赖状态部件来处理所述扩展的集合的传播的所述后续输入备选,包括评估与先前的接收的输入关联的时隙或者实体是否与所述接收的后续输入相关并且基于在与所述输入理解***的交互期间的用户响应来评估传播的所述后续输入备选。
13.根据权利要求12所述的输入理解***,其中所述信赖状态部件处理包括生成排名的输出备选并且向所述知识取读部件传播多个排名的所述输出备选,并且其中执行的所述操作还包括:
由所述知识取读部件基于对从所述外部资源取读的所述知识数据的应用来评估传播的所述多个排名的输出备选并且向所述策略确定部件传播评估的所述备选,以及
使用所述策略确定部件来生成对所述接收的后续输入的响应,其中所述策略确定部件对从所述知识取读部件接收的评估的所述输出备选排名并且从排名并且评估的所述输出备选选择所述响应以用于输出。
14.一种包括可执行指令的计算机可读存储设备,所述可执行指令当在至少一个处理器上被执行时,使得所述处理器执行操作,所述操作包括:
使用自动话音识别部件来处理接收的讲话以生成用于所述接收的讲话的识别的备选的集合,通过对备选的所述集合排名并且向语言理解部件传播多个排名的所述备选来过滤备选的所述集合;
使用所述语言理解部件处理传播的所述备选以基于所述接收的输入来生成备选的扩展的集合作为潜在假设,通过对所述扩展的集合的备选排名并且向知识取读部件传播所述扩展的集合的多个排名的所述备选来过滤备选的所述扩展的集合;
使用所述知识取读部件、基于对从外部资源取读的知识数据的应用来评估所述扩展的集合的传播的所述备选,并且向策略确定部件传播评估的所述备选;以及
使用所述策略确定部件来生成对所述接收的讲话的响应,其中所述策略确定部件对评估的所述备选排名并且输出来自排名并且评估的所述备选的所述响应。
15.根据权利要求14所述的计算机可读存储设备,其中所述操作还包括:
使用所述自动话音识别部件来处理接收的后续输入以生成用于所述接收的后续输入的识别的后续输入备选的集合,并且过滤后续输入备选的所述集合,其中所述过滤包括对后续输入备选的所述集合排名并且传播多个排名的所述后续输入备选以用于附加处理;
使用所述语言理解部件来处理传播的所述后续备选以生成后续输入备选的扩展的集合作为所述潜在假设,并且过滤后续输入备选的所述扩展的集合,其中所述过滤包括对所述扩展的集合排名并且传播所述扩展的集合的多个排名的所述后续输入备选以用于附加处理;
使用信赖状态部件来处理所述扩展的集合的传播的所述后续输入备选,包括评估与先前的接收的输入关联的时隙或者实体是否与所述接收的后续输入相关,并且基于在与输入理解服务的交互期间的用户响应来评估传播的所述后续输入备选,其中传播的所述后续输入备选的处理包括生成排名的输出备选并且传播多个排名的所述输出备选以用于附加处理;
使用所述知识取读部件、基于对从所述外部资源取读的所述知识数据的应用来评估传播的所述多个排名的输出备选;以及
使用所述策略确定部件来生成对所述接收的后续输入的响应,其中所述策略确定部件对评估的所述输出备选排名并且输出来自排名并且评估的所述输出备选的所述响应。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/797,492 US10249297B2 (en) | 2015-07-13 | 2015-07-13 | Propagating conversational alternatives using delayed hypothesis binding |
US14/797,492 | 2015-07-13 | ||
PCT/US2016/041827 WO2017011424A1 (en) | 2015-07-13 | 2016-07-12 | Delayed binding in response selection during input understanding processing |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107924679A true CN107924679A (zh) | 2018-04-17 |
CN107924679B CN107924679B (zh) | 2021-11-05 |
Family
ID=56550371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680041199.XA Active CN107924679B (zh) | 2015-07-13 | 2016-07-12 | 计算机实施的方法、输入理解***和计算机可读存储设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10249297B2 (zh) |
EP (1) | EP3323124B1 (zh) |
CN (1) | CN107924679B (zh) |
WO (1) | WO2017011424A1 (zh) |
Families Citing this family (107)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
KR102516577B1 (ko) | 2013-02-07 | 2023-04-03 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CA2955505A1 (en) * | 2013-07-25 | 2015-01-29 | In The Chat Communications Inc. | System and method for managing targeted social communications |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10572810B2 (en) | 2015-01-07 | 2020-02-25 | Microsoft Technology Licensing, Llc | Managing user interaction for input understanding determinations |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770432A1 (en) * | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
CN107038321B (zh) * | 2017-05-24 | 2020-05-22 | 重庆大学 | 基于元动作单元的任务可靠性预计分析方法 |
US10176808B1 (en) | 2017-06-20 | 2019-01-08 | Microsoft Technology Licensing, Llc | Utilizing spoken cues to influence response rendering for virtual assistants |
US10964318B2 (en) | 2017-08-18 | 2021-03-30 | Blackberry Limited | Dialogue management |
US10984788B2 (en) | 2017-08-18 | 2021-04-20 | Blackberry Limited | User-guided arbitration of speech processing results |
US10497370B2 (en) * | 2017-08-18 | 2019-12-03 | 2236008 Ontario Inc. | Recognition module affinity |
US11062088B2 (en) * | 2017-12-12 | 2021-07-13 | International Business Machines Corporation | Contextual automation of information technology change services |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US11093533B2 (en) * | 2018-06-05 | 2021-08-17 | International Business Machines Corporation | Validating belief states of an AI system by sentiment analysis and controversy detection |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11289086B2 (en) | 2019-11-01 | 2022-03-29 | Microsoft Technology Licensing, Llc | Selective response rendering for virtual assistants |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11355118B2 (en) * | 2020-09-15 | 2022-06-07 | Kyndryl, Inc. | Virtual assistants harmonization |
US20220406301A1 (en) * | 2021-06-16 | 2022-12-22 | Google Llc | Passive disambiguation of assistant commands |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1236138A (zh) * | 1998-05-18 | 1999-11-24 | 中国科学院声学研究所 | 模拟大脑语言感知过程的自然语言语句分析方法 |
EP1199704A2 (de) * | 2000-10-17 | 2002-04-24 | Philips Corporate Intellectual Property GmbH | Auswahl der alternativen Wortfolgen für diskriminative Anpassung |
US20070038436A1 (en) * | 2005-08-10 | 2007-02-15 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
CN101238508A (zh) * | 2005-08-05 | 2008-08-06 | 微软公司 | 使用备选列表重述错误识别的词语 |
CN102385860A (zh) * | 2010-08-26 | 2012-03-21 | 索尼公司 | 信息处理设备、信息处理方法及程序 |
CN102667773A (zh) * | 2009-12-04 | 2012-09-12 | 索尼公司 | 搜索设备、搜索方法及程序 |
JP5104732B2 (ja) * | 2008-11-14 | 2012-12-19 | 日本電気株式会社 | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム |
CN103226949A (zh) * | 2011-09-30 | 2013-07-31 | 苹果公司 | 在虚拟助理中使用情境信息来促进命令的处理 |
Family Cites Families (67)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6182028B1 (en) * | 1997-11-07 | 2001-01-30 | Motorola, Inc. | Method, device and system for part-of-speech disambiguation |
US6922669B2 (en) | 1998-12-29 | 2005-07-26 | Koninklijke Philips Electronics N.V. | Knowledge-based strategies applied to N-best lists in automatic speech recognition systems |
US6490698B1 (en) | 1999-06-04 | 2002-12-03 | Microsoft Corporation | Multi-level decision-analytic approach to failure and repair in human-computer interactions |
US6931384B1 (en) | 1999-06-04 | 2005-08-16 | Microsoft Corporation | System and method providing utility-based decision making about clarification dialog given communicative uncertainty |
US6581033B1 (en) * | 1999-10-19 | 2003-06-17 | Microsoft Corporation | System and method for correction of speech recognition mode errors |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7149970B1 (en) * | 2000-06-23 | 2006-12-12 | Microsoft Corporation | Method and system for filtering and selecting from a candidate list generated by a stochastic input method |
US6785651B1 (en) | 2000-09-14 | 2004-08-31 | Microsoft Corporation | Method and apparatus for performing plan-based dialog |
WO2002027712A1 (en) | 2000-09-29 | 2002-04-04 | Professorq, Inc. | Natural-language voice-activated personal assistant |
US6910004B2 (en) | 2000-12-19 | 2005-06-21 | Xerox Corporation | Method and computer system for part-of-speech tagging of incomplete sentences |
JP3783936B2 (ja) | 2002-02-28 | 2006-06-07 | 日本電信電話株式会社 | 対話型情報提供装置、対話型情報提供処理方法、プログラム及び記録媒体 |
US8234115B2 (en) * | 2002-03-29 | 2012-07-31 | At&T Intellectual Property Ii, L.P. | Systems and methods for determining the N-best strings |
US7869998B1 (en) | 2002-04-23 | 2011-01-11 | At&T Intellectual Property Ii, L.P. | Voice-enabled dialog system |
US20030233230A1 (en) | 2002-06-12 | 2003-12-18 | Lucent Technologies Inc. | System and method for representing and resolving ambiguity in spoken dialogue systems |
US7386454B2 (en) | 2002-07-31 | 2008-06-10 | International Business Machines Corporation | Natural error handling in speech recognition |
US7606714B2 (en) | 2003-02-11 | 2009-10-20 | Microsoft Corporation | Natural language classification within an automated response system |
KR100577387B1 (ko) | 2003-08-06 | 2006-05-10 | 삼성전자주식회사 | 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치 |
US20050149498A1 (en) * | 2003-12-31 | 2005-07-07 | Stephen Lawrence | Methods and systems for improving a search ranking using article information |
US8954420B1 (en) * | 2003-12-31 | 2015-02-10 | Google Inc. | Methods and systems for improving a search ranking using article information |
US7716056B2 (en) | 2004-09-27 | 2010-05-11 | Robert Bosch Corporation | Method and system for interactive conversational dialogue for cognitively overloaded device users |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7577709B1 (en) | 2005-02-17 | 2009-08-18 | Aol Llc | Reliability measure for a classifier |
US7684990B2 (en) | 2005-04-29 | 2010-03-23 | Nuance Communications, Inc. | Method and apparatus for multiple value confirmation and correction in spoken dialog systems |
US7974842B2 (en) | 2005-05-05 | 2011-07-05 | Nuance Communications, Inc. | Algorithm for n-best ASR result processing to improve accuracy |
US8041570B2 (en) * | 2005-05-31 | 2011-10-18 | Robert Bosch Corporation | Dialogue management using scripts |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9009046B1 (en) | 2005-09-27 | 2015-04-14 | At&T Intellectual Property Ii, L.P. | System and method for disambiguating multiple intents in a natural language dialog system |
US7664644B1 (en) | 2006-06-09 | 2010-02-16 | At&T Intellectual Property Ii, L.P. | Multitask learning for spoken language understanding |
US7925507B2 (en) | 2006-07-07 | 2011-04-12 | Robert Bosch Corporation | Method and apparatus for recognizing large list of proper names in spoken dialog systems |
US9043197B1 (en) * | 2006-07-14 | 2015-05-26 | Google Inc. | Extracting information from unstructured text using generalized extraction patterns |
JP2008064885A (ja) | 2006-09-05 | 2008-03-21 | Honda Motor Co Ltd | 音声認識装置、音声認識方法、及び音声認識プログラム |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080096533A1 (en) | 2006-10-24 | 2008-04-24 | Kallideas Spa | Virtual Assistant With Real-Time Emotions |
US8600760B2 (en) * | 2006-11-28 | 2013-12-03 | General Motors Llc | Correcting substitution errors during automatic speech recognition by accepting a second best when first best is confusable |
US8909528B2 (en) | 2007-05-09 | 2014-12-09 | Nuance Communications, Inc. | Method and system for prompt construction for selection from a list of acoustically confusable items in spoken dialog systems |
US8566076B2 (en) | 2008-05-28 | 2013-10-22 | International Business Machines Corporation | System and method for applying bridging models for robust and efficient speech to speech translation |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9430570B2 (en) | 2009-07-01 | 2016-08-30 | Matthew Jeremy Kapp | Systems and methods for determining information and knowledge relevancy, relevant knowledge discovery and interactions, and knowledge creation |
US10366336B2 (en) | 2009-09-02 | 2019-07-30 | Sri International | Method and apparatus for exploiting human feedback in an intelligent automated assistant |
US20120089392A1 (en) | 2010-10-07 | 2012-04-12 | Microsoft Corporation | Speech recognition user interface |
US9262397B2 (en) * | 2010-10-08 | 2016-02-16 | Microsoft Technology Licensing, Llc | General purpose correction of grammatical and word usage errors |
JP6087899B2 (ja) | 2011-03-31 | 2017-03-01 | マイクロソフト テクノロジー ライセンシング,エルエルシー | 会話ダイアログ学習および会話ダイアログ訂正 |
US8996381B2 (en) | 2011-09-27 | 2015-03-31 | Sensory, Incorporated | Background speech recognition assistant |
US9152376B2 (en) | 2011-12-01 | 2015-10-06 | At&T Intellectual Property I, L.P. | System and method for continuous multimodal speech and gesture interaction |
US8249876B1 (en) | 2012-01-03 | 2012-08-21 | Google Inc. | Method for providing alternative interpretations of a voice input to a user |
US8346563B1 (en) | 2012-04-10 | 2013-01-01 | Artificial Solutions Ltd. | System and methods for delivering advanced natural language interaction applications |
US8892419B2 (en) | 2012-04-10 | 2014-11-18 | Artificial Solutions Iberia SL | System and methods for semiautomatic generation and tuning of natural language interaction applications |
US20120296638A1 (en) | 2012-05-18 | 2012-11-22 | Ashish Patwa | Method and system for quickly recognizing and responding to user intents and questions from natural language input using intelligent hierarchical processing and personalized adaptive semantic interface |
US9767793B2 (en) | 2012-06-08 | 2017-09-19 | Nvoq Incorporated | Apparatus and methods using a pattern matching speech recognition engine to train a natural language speech recognition engine |
US8983840B2 (en) | 2012-06-19 | 2015-03-17 | International Business Machines Corporation | Intent discovery in audio or text-based conversation |
US9465833B2 (en) | 2012-07-31 | 2016-10-11 | Veveo, Inc. | Disambiguating user intent in conversational interaction system for large corpus information retrieval |
US20140181096A1 (en) | 2012-12-21 | 2014-06-26 | Microsoft Corporation | Entity name disambiguation |
US9830039B2 (en) | 2013-03-04 | 2017-11-28 | Microsoft Technology Licensing, Llc | Using human wizards in a conversational understanding system |
WO2014139120A1 (en) | 2013-03-14 | 2014-09-18 | Microsoft Corporation | Search intent preview, disambiguation, and refinement |
US9311298B2 (en) * | 2013-06-21 | 2016-04-12 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
US9646606B2 (en) * | 2013-07-03 | 2017-05-09 | Google Inc. | Speech recognition using domain knowledge |
US9886950B2 (en) * | 2013-09-08 | 2018-02-06 | Intel Corporation | Automatic generation of domain models for virtual personal assistants |
US10162813B2 (en) | 2013-11-21 | 2018-12-25 | Microsoft Technology Licensing, Llc | Dialogue evaluation via multiple hypothesis ranking |
US10726831B2 (en) | 2014-05-20 | 2020-07-28 | Amazon Technologies, Inc. | Context interpretation in natural language processing using previous dialog acts |
US9690851B2 (en) * | 2014-11-20 | 2017-06-27 | Oracle International Corporation | Automatic generation of contextual search string synonyms |
US10572810B2 (en) | 2015-01-07 | 2020-02-25 | Microsoft Technology Licensing, Llc | Managing user interaction for input understanding determinations |
US10274911B2 (en) | 2015-06-25 | 2019-04-30 | Intel Corporation | Conversational interface for matching text of spoken input based on context model |
US9576578B1 (en) * | 2015-08-12 | 2017-02-21 | Google Inc. | Contextual improvement of voice query recognition |
GB201519510D0 (en) | 2015-11-05 | 2015-12-23 | Mach To Machine Solutions Ltd | Method and system for handling data |
US10140206B2 (en) | 2015-11-17 | 2018-11-27 | Proov Systems Ltd. | Computerized method and end-to-end “pilot as a service” system for controlling start-up/enterprise interactions |
US10276159B2 (en) | 2016-05-10 | 2019-04-30 | Honeywell International Inc. | Methods and systems for determining and using a confidence level in speech systems |
-
2015
- 2015-07-13 US US14/797,492 patent/US10249297B2/en active Active
-
2016
- 2016-07-12 WO PCT/US2016/041827 patent/WO2017011424A1/en active Search and Examination
- 2016-07-12 EP EP16742518.0A patent/EP3323124B1/en active Active
- 2016-07-12 CN CN201680041199.XA patent/CN107924679B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1236138A (zh) * | 1998-05-18 | 1999-11-24 | 中国科学院声学研究所 | 模拟大脑语言感知过程的自然语言语句分析方法 |
EP1199704A2 (de) * | 2000-10-17 | 2002-04-24 | Philips Corporate Intellectual Property GmbH | Auswahl der alternativen Wortfolgen für diskriminative Anpassung |
CN101238508A (zh) * | 2005-08-05 | 2008-08-06 | 微软公司 | 使用备选列表重述错误识别的词语 |
US20070038436A1 (en) * | 2005-08-10 | 2007-02-15 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
JP5104732B2 (ja) * | 2008-11-14 | 2012-12-19 | 日本電気株式会社 | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム |
CN102667773A (zh) * | 2009-12-04 | 2012-09-12 | 索尼公司 | 搜索设备、搜索方法及程序 |
CN102385860A (zh) * | 2010-08-26 | 2012-03-21 | 索尼公司 | 信息处理设备、信息处理方法及程序 |
CN103226949A (zh) * | 2011-09-30 | 2013-07-31 | 苹果公司 | 在虚拟助理中使用情境信息来促进命令的处理 |
Non-Patent Citations (2)
Title |
---|
JEAN-PHILIPPE ROBICHAUD: "Hypotheses Ranking for Robust Domain Classification And Tracking in Dialogue Systems", 《15TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2014)》 * |
周萍等: "基于信息融合的短语音说话人识别方法研究", 《计算机工程》 * |
Also Published As
Publication number | Publication date |
---|---|
US20170018271A1 (en) | 2017-01-19 |
EP3323124A1 (en) | 2018-05-23 |
EP3323124B1 (en) | 2019-10-23 |
CN107924679B (zh) | 2021-11-05 |
WO2017011424A1 (en) | 2017-01-19 |
US10249297B2 (en) | 2019-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107924679A (zh) | 输入理解处理期间在响应选择中的延迟绑定 | |
US11715289B2 (en) | Generating multi-perspective responses by assistant systems | |
US11657094B2 (en) | Memory grounded conversational reasoning and question answering for assistant systems | |
AU2019208255B2 (en) | Environmentally aware dialog policies and response generation | |
EP3465469B1 (en) | Intelligent capture, storage, and retrieval of information for task completion | |
US9804730B2 (en) | Automatically changing a display of graphical user interface | |
CN107111475A (zh) | 管理用于输入理解确定的用户交互 | |
CN107111725A (zh) | 在输入理解***中保护私有信息 | |
CN108369600B (zh) | web浏览器扩展 | |
US10911389B2 (en) | Rich preview of bundled content | |
CN110268431A (zh) | 对消息内容的搜索和过滤 | |
US10114676B2 (en) | Building multimodal collaborative dialogs with task frames | |
US10474439B2 (en) | Systems and methods for building conversational understanding systems | |
US10402647B2 (en) | Adapted user interface for surfacing contextual analysis of content | |
TW200900966A (en) | Client input method | |
US20140350931A1 (en) | Language model trained using predicted queries from statistical machine translation | |
CN110325987A (zh) | 语境语音驱动深度书签 | |
CN108027825B (zh) | 在企业中暴露外部内容 | |
JP6162134B2 (ja) | ソーシャルページのトリガー | |
US11269961B2 (en) | Systems and methods for App query driven results | |
US20180150556A1 (en) | Auto-Generation Of Key-Value Clusters To Classify Implicit APP Queries and Increase Coverage for Existing Classified Queries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |