CN106575503A - 用于对话理解***的会话上下文建模 - Google Patents

用于对话理解***的会话上下文建模 Download PDF

Info

Publication number
CN106575503A
CN106575503A CN201580032500.6A CN201580032500A CN106575503A CN 106575503 A CN106575503 A CN 106575503A CN 201580032500 A CN201580032500 A CN 201580032500A CN 106575503 A CN106575503 A CN 106575503A
Authority
CN
China
Prior art keywords
user
entity
knowledge source
knowledge
round
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580032500.6A
Other languages
English (en)
Other versions
CN106575503B (zh
Inventor
M·阿克巴恰克
D·Z·哈卡尼-图尔
G·图尔
L·P·赫克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN106575503A publication Critical patent/CN106575503A/zh
Application granted granted Critical
Publication of CN106575503B publication Critical patent/CN106575503B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • G06F16/637Administration of user profiles, e.g. generation, initialization, adaptation or distribution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了用于通过将语言模型所使用的知识源适用于会话上下文来改进用于语音识别的语言模型的***和方法。知识源(如知识图)用于基于来自映射到知识源的使用历史(如会话日志)的用户交互信息来对动态会话上下文进行捕捉和建模。根据用户交互的序列,可以确定较高级别的意图序列,并将其用于形成预期类似意图但具有不同参数的模型,所述参数包括不一定出现在使用历史中的参数。以这种方式,会话上下文模型可以用于在给定此前的轮次或一些轮次的情况下确定来自用户的可能的接下来的交互或“轮次”。然后对与可能的接下来的轮次相对应的语言模型进行内插,并提供其以改进从用户接收的接下来的轮次的识别准确度。

Description

用于对话理解***的会话上下文建模
背景技术
支持语音的人机对话***(如与娱乐***或个人设备的语音交互)依赖于用户语音的准确识别。例如,有效的语音搜索应用必须准确地识别用户提交的查询或其它交互,以使得返回给用户的信息与用户提交查询或动作的意图相关。在与这些***中的一个***的一系列交互或“轮次”中,用户可能提交多个查询。通常,这些查询的内容在单词级别或词汇上从一个轮次改变到下一个,但它在同一个会话中通常在语义或意图级别上共享一些关联性。例如,用户可以询问电影,然后想知道正在播放该电影的剧院的附近位置。
这种情况在结构化域(如娱乐***或个人助理应用)中特别常见,在其中,为了完成任务,用户可以指定若干条信息。(例如,对于进行航班预订的任务来说,这可以包括指定出发和到达地点、航班日期、优选时间、优选航空公司等。)但是即使当用户的目标意图从一个轮次改变到下一个时,在连续查询之间仍然可能存在一些关联性或相关性;例如,在购买机票后预订租车或查找酒店。
通过将该用户会话上下文信息并入由用于语音识别的对话***使用的语言模型中,可以通过提供更好的目标和预测建模来提高***的准确性。然而,用有限的过去数据(例如,直到当前时间的特定会话中的过去查询)在语义级捕捉该信息是具有挑战性的。此外,对会话上下文进行建模的现有努力仅考虑当前会话中的过去查询,并假设整个会话仅针对一个特定主题或意图。另外,这些方法不对用户在每个会话中采取的顺序动作进行建模。
发明内容
提供本发明内容以便以简化的形式对下面在具体实施方式中进一步描述的设计构思的选择进行介绍。本发明内容并不旨在确定要求保护的发明主题的关键特征或重要特征,也不旨在用于协助确定要求保护的发明主题的范围。
本发明的实施例涉及用于通过将模型所使用的知识源适用于会话上下文来改进用于语音识别的语言模型和口语理解(SLU)模型的***和方法。具体而言,知识源(如知识图)可以用于基于来自映射到知识源的使用历史(如会话日志)的用户交互信息来对动态会话上下文进行捕捉和建模。如将进一步描述的,在一个实施例中,通过并入来自用户或其它类似用户的使用历史的用户交互信息来将知识源适用于该用户的会话上下文。例如,可以将来自与应用或设备的用户交互或“轮次”的信息映射到知识源。基于映射的用户交互序列,确定意图序列模型。意图序列模型然后可以用于基于会话上下文来构建或适用语言模型和SLU模型,包括模型的实时生成和内插,从而用作会话上下文模型。以这种方式,该模型可以用于在给定此前的轮次或一些轮次的情况下确定一组可能的接下来的轮次。然后可以访问或生成该组可能的接下来的轮次的语言模型,以便于接下来的轮次的准确识别。
一些实施例包括:使知识源适用于用于全局所有用户或仅用于特定用户组的模型会话上下文。例如,基于用户的社交网络数据、用户日志或其它用户信息,可以将并入知识源中的使用历史信息定制为具有类似兴趣或意图的用户。以这种方式,可以基于类似用户共同的群体特征来构建会话上下文模型。
附图说明
在附图中以示例而非限制的方式示出了本发明,在这些附图中,类似的附图标记指示类似的元素,并且其中,
图1是可以在其中使用本发明的实施例的示例***架构的框图;
图2根据本发明的实施例描绘了个性化的知识图的一个示例的部分;
图3根据本发明的实施例描绘了会话上下文模型的一个方面的说明性表示;
图4-图6根据本发明的实施例描绘了用于基于用户历史使语言模型适用于会话上下文以便更好地理解未来交互的方法的流程图;
图7-图8根据本发明的实施例描绘了用于基于用户历史信息来提供会话上下文模型的方法的流程图;
图9根据本发明的实施例描绘了用于使用用会话上下文信息进行个性化的知识源来提供语言模型的方法的流程图;以及
图10是适合用于实现本发明的实施例的示例性计算环境的框图。
具体实施方式
本发明的发明主题在本文中用具体细节来描述以满足法定要求。然而,该描述本身并非旨在限制本专利的范围。而是本发明考虑到也可以结合其它当前或未来的技术用其它方式来体现要求保护的发明主题以包括与与该文档中描述的步骤的不同步骤或与该文档中描述的步骤类似的步骤的组合。另外,虽然术语“步骤”和/或“框”可在本文中用于意指所使用的方法的不同的元素,但这些术语不应该被解释为暗示本文中公开的各个步骤之中或之间的任何特定的顺序,除非并且除了各个步骤的顺序被明确描述之外。
概括地说,本文中描述的技术的方面除其它事项外涉及用于通过将语言模型所使用的知识源适用于会话上下文来改进用于语音识别的语言模型的***、方法和计算机存储介质。具体而言,知识源(如知识图)可以用于基于来自映射到知识源的使用历史(如会话日志)的用户交互信息来对动态会话上下文进行捕捉和建模。通过将来自用户或类似用户的个人使用历史的用户交互信息映射或对准到知识源,知识源可适用于用户的会话上下文,从而针对用户或用户集合对知识源进行个性化。根据映射,可以基于来自映射周围的区域的可能的实体类型和相关信息来确定与每个交互相对应的用户意图。基于来自映射的用户交互信息的序列或模式,可以确定较高级别的意图序列,并将其用于形成预期类似意图但具有不同参数的模型,所述参数包括不一定出现在使用历史中的参数。在一个实施例中,模型包括指示从第一交互转移到第二交互的可能性的转移概率的集合。
会话上下文模型可以用于基于先前的用户交互信息来确定关于与用户的可能的未来交互的信息(如用户提交的查询或其它用户交互)。基于可能的未来交互信息,可以生成或适用语言模型或SLU模型以改善与下一个交互相关联的语音识别和理解。
通过举例的方式,在实施例中,将用户交互信息(例如来自用户查询日志的信息)映射到知识源(如知识图)的语义关系。用户交互信息可以包括来自用户和应用或设备之间的一个或多个会话的用户交互事件的序列(或模式)。根据映射,可以基于语义关系(如一个或多个实体、实体类型或关系)和/或与所映射的交互事件相对应的知识源中的其它信息来确定与每个所映射的用户交互事件相关联的可能的用户意图。基于与用户交互相关的信息的会话内的用户交互事件的映射和序列(或模式),可以确定可能的用户意图的序列(或模式)并将其用于意图序列模型。在实施例中,意图序列模型包括意图序列(或模式)中的意图转移的统计(如意图转移概率的集合),其表示在给定一个或多个先前意图的情况下,后续用户意图的可能性。意图序列模型可以用于基于会话上下文来构建或适用语言模型和SLU模型,包括语言模型和SLU模型的实时生成和内插,从而形成会话上下文模型。以这种方式,会话上下文模型可以用于在给定此前的轮次或一些轮次的情况下确定一组可能的接下来的轮次。然后可以访问或生成该组可能的接下来的轮次的语言模型,以便于接下来的轮次的准确识别。
例如,在第一轮次中,用户询问其个人设备“谁是美丽人生的导演”。该查询可以映射到与电影-导演语义关系相对应的知识源的一部分(例如,美丽人生-导演为-罗伯托·贝尼尼)。根据基于知识源的会话上下文模型(已经填充有先前的个人使用历史信息),可以确定在导演-电影类型的查询之后,存在0.4的概率在下一个轮次中用户将询问电影演员,存在0.2的概率用户接下来将询问奥斯卡或奖项,以及存在0.1的概率用户接下来将询问导演的国籍。基于这些转移概率,可以对与转移(例如,美丽人生的演员、其奖项或导演的国籍)相对应的语言模型进行内插,以更好地识别或理解下一个轮次。对于每个随后的轮次,会话上下文模型使用来自先前轮次的域和意图来预测接下来的轮次的可能性,以使得语言模型和SLU模型可以适用于预测。
可以将本发明的实施例考虑为通过将个人使用历史(包括用户交互信息)映射或对准到更一般的知识源来“个性化”知识源。通过举例而非限制的方式,用户交互信息可以包括一个或多个用户查询、话语(包括口头查询)、其它多模态或上下文数据(如在会话中的某些时间点的用户话语、用户动作或在会话中向用户显示的事物),以及其它与用户交互相关的信息。如上所述,用户交互信息可以来自个人使用历史,通过举例而非限制的方式,其可以包括用户的网页查询日志、桌面或个人设备查询日志、社交网络交互、访问的网站或类似的用户交互信息。因此,在实施例中,个人使用历史映射到一般或较不个性化的知识源以对其进行个性化,并由此确定意图序列。在另一个实施例中,个人使用历史的子集或部分(包括用户交互信息)映射到一般(或较不个性化的)知识源,以便基于与用户交互相关的信息对其进行个性化。根据个性化的知识源,针对意图序列模型确定意图序列。
另外,当创建个性化的知识源时,可以使用针对用户的各种个人信息源和更一般化(较不个性化)的知识源(如域数据库和知识图)。在一些实施例中,个性化的知识源然后可以用作个性化的语言模型,如通过用与出现在用户的使用历史信息中的实体或实体对相对应的查询来训练语言模型。个性化的知识源还可以用于通过根据使用历史信息来确定与用户交互信息的序列或模式相对应的实体和实体对的序列(或模式)来确定意图序列模型。与意图序列模型中的意图转移相关联的概率然后可以用于对个性化的语言模型的加权进行调整,从而创建会话上下文模型。
一些实施例还包括:使知识源适用于用于全局所有用户或仅用于特定用户组的模型会话上下文。例如,个性化的知识源可用于识别具有类似兴趣或意图的用户(如通过聚类)。以这种方式,可以基于类似用户共同的群体特征来构建会话上下文模型。因此,可以基于针对类似用户而个性化的知识源来对针对目标用户个性化的知识源进行扩展或增强。因此,在新用户的个人使用历史稀疏或未知的情况下,来自类似用户的信息(包括例如关于实体、实体-关系对、意图或实体流行度的信息)可用于训练用于新用户的会话上下文模型。
现在转到图1,提供了示出适合用于实现本发明的实施例的示例***架构的方面的框图并且其被总体上标示为***100。应该理解的是:本文中描述的这种布置和其它布置是仅作为示例阐述的。因此,***100仅表示合适的计算***架构的一个示例。除了所示出的那些之外或代替所示出的那些,可以使用其它布置和元件(例如,用户设备、数据存储等),并且为了清楚起见,一些元件可以完全省略。另外,本文中描述的单元中的许多单元是功能实体,其可以实现为分立或分布式组件,或者结合其它组件来实现,以及在任何合适的组合和位置中实现。本文中描述为由一个或多个实体执行的各种功能可由硬件、固件和/或软件来执行。例如,一些功能可由执行存储在存储器中的指令的处理器来执行。
除了未示出的其它组件,***100包括通信地耦接到一个或多个用户设备(例如,项目102和104)、存储装置106和个性化的知识源生成器120的网络115。图1所示的组件可以使用一个或多个计算设备(如结合图10描述的计算设备1000)来实现。网络115可以包括但不限于一个或多个局域网(LAN)和/或广域网(WAN)。这样的网络连接环境常见于办公室、企业范围计算机网络、内联网和互联网。应该理解的是:在本发明的范围内,可以在***100内使用任意数量的用户设备、存储组件和个性化的知识源生成器。每个可以包括单个设备或者在分布式环境中协作的多个设备。例如,个性化的知识源生成器120可以经由布置在共同提供本文描述的功能的分布式环境中的多个设备来提供。另外,未示出的其它组件也可以包括在网络环境之内。例如,也可以提供知识图数据存储以便对可由本文中描述的实施例容易地访问的知识图进行单独存储。
示例用户设备102和104分别包括能够从用户(如下文所描述的)接收输入的任何类型的用户设备。尽管图1示出了两个示例用户设备102和104,但用户可以仅与一个用户设备或两个以上的设备相关联。在一些实施例中,从用户接收输入的用户设备与用户的用户标识相关联。
在一个实施例中,用户设备102和104可以是在本文中结合图10描述的计算设备的类型。通过示例而非限制的方式,用户设备可以体现为个人数字助理(PDA)、移动设备、膝上型计算机、平板计算机、遥控器、娱乐***、车辆计算机***、嵌入式***控制器,电器、消费电子设备、或能够从用户接收输入的其它电子设备。可以通过大量不同模态中的一个模态来接收输入,通过示例而非限制的方式,语音或声音、文本、触摸、点击、手势、用户的物理环境或结合图10描述的其它输入技术。例如,用户可以在会话中使用搜索引擎来输入一个或多个查询,从而意图接收与查询高度相关的信息。或者,用户可以与一个或多个社交网络网站进行交互,并提供用户打算与朋友甚至陌生人分享的输入。用户还可以与社交网络网站进行交互,指示用户已经阅读并喜欢另一个用户的发布。另外,用户可以对游戏***、电视机等使用语音命令。所有这些形式的输入以及本文未具体提及的其它形式的输入都被认为在本发明的范围内。
存储装置106通常对在一个实施例中用来构建适用于语言模型的会话上下文模型以改进语音识别(如准确地确定用户的下一个话语的概率)的一个或多个知识源107和个人源109进行存储。在一些实施例中,一个或多个模型(未示出)(包括从知识源107构建的模型和/或从知识源107和个人源109构建的模型)也存储在存储装置106中。此外,虽然被描绘为单个数据存储组件,但存储装置106可以实现为一个或多个数据存储,或者可以在云中。
在一个实施例中,知识源107包括关系数据库(包括域数据库)、知识库、知识图或类似的信息源。在一个实施例中,知识源107包括结构化语义知识库(如语义网)。作为背景,可以使用资源描述框架(RDF)来表示语义网(或类似的结构化知识库或网络规模语义图),资源描述框架是基于三元组的关联结构,其通常包括由一些关系链接的两个实体并与公知的谓词/论元结构(predicate/argument structure)类似。一个例子是“导演为(阿凡达,詹姆斯·卡梅隆)”。随着RDF在使用和流行度上的增加,出现了覆盖各种域的三元组存储(被称为知识库或知识图),例如Freebase.org。在一个实施例中,知识源107包括一个或多个知识图(或关系图),其包括指示两个实体(例如,阿凡达-导演为-詹姆斯·卡梅隆)之间的关系的三元组集合,并且其可以被编译成图结构。在图2中提供了示例知识图,其示出了示例性实体及其关系,并且将在本文中对其进行更详细地讨论。
在一个实例中,知识源识别至少一个实体。如本文中所使用的,术语实体被广泛地定义为包括与其它项目具有潜在关系的任何类型的项目,包括概念或对象。例如,实体可能是电影“美丽人生”、导演“罗伯托·贝尼尼”或奖项“奥斯卡”。携带类似句法或语义含义的实体的集合包括实体类型(例如电影标题、歌曲、时间表达等)。此外,相关实体类型可以组织成域,其可以被认为是实体的类别(如电影、锻炼、音乐、体育、商业、产品、组织等)。例如,在电影域内,电影“美丽人生”是由“罗伯托·贝尼尼”导演的,并且这部电影也赢得了奥斯卡奖。
个人源109包括针对用户的一个或多个信息源。通过示例而非限制的方式,这样的用户信息可以包括用户的查询日志,包括所提交的查询、查询结果和/或点击结果;网站访问和浏览器历史;在线购买历史;社交网络交互;以及其它用户交互信息或使用历史。在一个实施例中,用户信息包括在用户设备(如项目102或104)上进行的动作,用户设备可以与用户ID相关联。
存储装置106还可以对个性化的知识源或根据本文中描述的实施例生成的扩展的个性化的知识源进行存储。例如,如将进一步描述的,针对特定用户而定制个性化的知识源,并且可以将其用于确定针对用户的会话上下文模型以及适用语言模型以改进针对该特定用户的语音识别。扩展的个性化的知识源是针对特定用户定制的,但还包括来自具有与个性化的知识源相关联的用户的兴趣类似的兴趣的其它用户的映射。当我们在本文中提到映射时,我们指的是从一个或多个个人源获取数据并将其对准或映射到知识源的过程。
在一个实施例中,在数据包括特定实体或实体类型的情况下,可以在个性化的知识源(如知识图)中识别实体或实体类型,并将计数添加到该实体或实体类型。因此,个性化的知识源变成概率个性化的知识源。例如,如果数据包括电影“美丽人生”的名称,则该电影名称位于用户的个性化的知识图中,并且该实体的当前计数增加1。映射的其它方法也被认为在本发明的实施例的范围内。例如,可以使用算法来提供或计算每个实体和/或实体类型的权重。在这样的实施例中,算法可以使用一对一计数方法,或者可以考虑不同的因素(如从哪个源提到了实体或实体类型、用户如何指示对该实体或实体类型的兴趣等)。在一个实施例中,在目标用户的个性化的知识源被扩展的情况下,来自个性化的知识源的权重可以用于对来自其它用户的查询的某些N元语法的计数进行缩放(scale),使得仍然表示目标用户的兴趣或意图。
个性化的知识源生成器120包括:用户历史收集组件122、用户历史解析组件124、知识源扩展组件126、映射组件128以及意图序列确定组件130。在一些实施例中,个性化的知识源生成器120可以包括较少的组件,例如解析组件124、映射组件128和意图序列确定组件130。如图1的实施例中所示,个性化的知识源生成器120被配置为:使用来自特定用户或来自被确定为与特定用户类似的其它用户的个人源数据来生成个性化的知识源、扩展的个性化的知识源,以及确定映射的用户交互信息的意图序列,其可以用于意图序列模型。在一个实施例中,个人知识源生成器120可以在服务器或后端组件(未示出)上或云中的分布式平台(未示出)上的一个或多个用户设备(如用户设备102和104)上实现。
在高级别,在一个实施例中,通过将个人源数据映射到一般(非个性化)知识源或者可以被进一步个性化的个性化的知识源来创建个性化的知识源。具体而言,用户历史收集组件122被配置为:提取或以其它方式收集特定用户的个性化用户历史。可以从各种个人源109收集该个性化用户历史。在一个实施例中,可以使用任何源(如需要用户识别或以其它方式与特定用户相关联的源),只要其可以绑定到特定用户。从这样的源收集数据允许***捕捉用户的个人兴趣和意图,然后可以将其用于对会话上下文进行建模并预测或确定用于个性化语言建模中的未见查询(例如,语音查询)的可能性。因此,理解用户的兴趣和意图有助于预测用户可能感兴趣的事物或用户在未来查询中可能询问的事物。
除了仅与特定用户相关联的用户历史之外,在一些实施例中,用户历史收集组件122还负责收集关于与特定用户类似的其它用户(如具有类似用户历史的其它用户)的历史,包括他们的兴趣、意图和/或意图序列。特别地,在特定用户的用户历史稀疏或未知的情况下,用来自共享与该特定用户类似的兴趣、意图或意图序列的其它用户的数据来增强用户的个性化的知识源可能是有帮助的。通过示例而非限制的方式,可以确定特定用户通常对于电影具有高度的兴趣,并且经常在网络上搜索各种电影的演员信息。另外,该用户的用户历史指示用户倾向于偶尔购买电影。因此,在确定不同的用户或用户组对于电影具有类似的兴趣、搜索电影的演员并且还倾向于购买电影的情况下,可以将来自该不同用户或用户组的历史的数据映射到与特定用户相关联的个性化的知识源,以便增强用于语音识别的个性化的知识源的有用性。同样地,在确定不同用户或用户组具有类似意图序列的情况下,来自该不同用户或用户组的历史的数据可以映射到与特定用户相关联的个性化的知识源。
用户历史解析组件124通常被配置为:对由用户历史收集组件122提取或收集的可能的大量数据进行解析,以识别任何实体相关或用户动作相关的信息(包括用户交互事件)。如本文中所使用的,用户交互或动作是指由用户采取的动作,其可以提供关于与特定实体和/或实体类型相关联的用户的意图和用户兴趣水平的信息。用户交互事件是指特定的用户交互。例如,为了继续上述示例,如果用户对电影感兴趣并且倾向于通过网站进行偶尔的电影购买,则可以识别、解析电影购买的动作并将其映射到用户的个人知识源。
用户动作相关的信息可以特别有助于使用来自其它用户的数据来扩展用户的个性化的知识图,因为动作可以用于确定其它用户是否具有与特定用户的兴趣或意图类似的兴趣或意图。例如,另一个示例性用户动作包括用户提供他或她在社交网站上“喜欢”某些项目(例如,公众人物、名人、书、电影、另一用户的发帖(posting))的指示。在一些实施例中,与用户“喜欢”的任何内容相关联的实体可以由用户历史解析组件124识别。
除了对与特定用户相关联的个性化用户历史进行解析之外,在一些实施例中,如本文中所描述的,用户历史解析组件124还负责对与具有与特定用户类似的兴趣和/或意图的其它用户相关联的数据进行解析。在这样的实施例中,与其它用户相关联的解析的数据然后可以映射到特定用户的个性化的知识图。
知识源扩展组件126被配置为:确定特定用户的个性化的知识源是否应当被扩展,并且在一些实施例中,确定其可以如何扩展以及扩展到什么程度。在一个实施例中,在用户的个性化的知识源没有大量填充有来自用户历史的信息的映射时,例如,如果知识源中的实体的计数或权重不是特别高或没有满足阈值,则可以确定:用户的个性化的知识源应该被扩展。知识源扩展组件126还可以负责确定个人知识源应该怎样被扩展。该确定的一个方面可以包括:识别与特定用户类似的其它用户或用户组。在一个实施例中,类似用户可以共享群体特性,如对特定域的兴趣、执行的查询的类型(例如,搜索电影的演员)、用户动作(例如,购买电影)、意图序列(或模式,包括意图类型序列)等。
在一个实施例中,对个人知识源进行扩展涉及对目标用户的个性化的知识源中的实体和实体与实体关系进行加权。可以基于特定实体和关系被从用户历史数据映射的次数来进行加权。可以对于其它用户的个性化的知识源应用类似的加权。如果目标用户的个性化的知识源的特定部分中的实体和实体与实体关系对于其它用户的个性化的知识源的相同部分中的相同实体和实体与实体关系具有相同的权重(例如,满足加权值的最小阈值),则可以确定:特定用户和其它用户对知识图的该部分的主题具有类似的兴趣。
在另一个实施例中,使用知识源中的实体的流行度,而不是或除了使用实体已经映射多少次的计数。例如,在特定实体对于一组其它用户具有特别高的流行度(例如,经常在社交网络站点上查询、提及、关于其发表帖子)的情况下,可以预测:特定用户也对该流行实体感兴趣。因此,特定用户的个性化的知识源可以针对该实体被扩展,并且可以包括以下指示:特定用户对该实体的个性化的知识源的该部分感兴趣(或者有可能感兴趣)。
在又一个实施例中,用户的个性化的知识源可用于确定用户对个性化的知识源的第一部分(如特定实体或实体与实体关系)的兴趣水平。例如,确定兴趣水平可以包括:确定用户是否满足指示用户(或其它用户)对知识源的某一部分感兴趣的可能性的特定阈值。替代地或另外地,可以存在可以被满足以便对用户对知识源的一部分的兴趣进行量化的多个兴趣水平。
个性化的知识源生成器120的映射组件128被配置为:将数据映射到知识源。如本文中所描述的,用户历史解析组件124通常从个人源识别和提取用户历史数据(如实体和用户动作)。该数据然后映射到知识源,从而针对用户来对知识源进行定制或个性化。该数据的映射可以以多种方式发生。例如,如上所述,每次在用户的个人历史信息中识别特定实体或实体类型时,知识源中的该实体或实体类型的计数可以增加,从而使得在任何特定时刻,实体或实体类型具有与之相关联的计数。因此,如果实体已经映射了十次,则与个性化的知识源中的该实体相关联的计数可以是10。或者可替换地,在一个实施例中,可以使用算法来计算每个实体的权重,而不是一对一计数。该算法可以考虑其它因素,如实体(或实体类型)被提及或以其它方式链接到用户或上下文的位置和/或方式。因此,如本文中所使用的,术语“映射”、“映射到”或“对准”广义地用于意指增加计数、权重或创建与知识源中的实体、关系、实体-实体对或实体类型的关联,或用于基于用户历史信息来表示用户对知识源的特定部分的兴趣的其它指示符。
意图序列确定组件130被配置为:确定用户意图的序列或模式(包括域)。如本文中所使用的,术语意图序列包括一个或多个用户意图或意图类型的系列或模式,其可以由一个或多个域表示。
在一些实施例中,可以假设用户通常与他们的一般意图一致的会话***进行交互以实现任务(例如,为星期五晚上安排活动)。因此,用户在特定会话中可能遵循类似的意图或意图类型序列。对于不同的用户,意图的参数可能不同,但是它们可以共享类似的意图类型序列(例如,首先预订晚餐,然后检查电影时间或具有现场音乐的酒吧,向朋友发送电子邮件以分享计划细节等)。因此,通过捕捉用户的更高级别的意图序列(如通过对可以从其会话日志接收的用户交互信息的序列或模式进行映射),然后可以创建预期类似意图但具有不同参数(例如,如不出现在会话日志或其它使用历史信息中的特定实体或特定关系的参数)的模型,例如,意图序列模型。
在实施例中,基于在映射到知识源的数据中存在的用户会话信息内的用户交互的序列或模式来确定意图序列。如前所述,映射到知识源的数据可以包括用户交互信息,如来自用户和应用设备之间的一个或多个会话的用户交互事件。根据由映射组件128执行的映射,可以确定与每个映射的用户交互事件相关联的可能的用户意图。在实施例中,基于语义关系(如一个或多个实体、实体类型或关系)和/或与映射的用户交互信息相对应的知识源中的其它信息(如知识源的该子空间的域)来确定可能的用户意图。因此,可以基于映射的用户交互的序列或模式来确定用户意图的序列或模式。在一个实施例中,组件130使用意图的序列或模式来生成意图序列模型,其包括序列或模式中的意图或域转移的统计。例如,在一个实施例中,统计可以包括意图转移概率的集合,其表示在给定一个或多个先前意图的情况下,下一个用户意图(或后续用户意图)的概率。此外,如结合图3进一步描述的,意图序列模型的转移概率可用于构建或适用个性化的语言模型或SLU模型(包括语言和SLU模型的实时生成和内插),从而形成会话上下文模型。
现在转到图2,图2描绘了根据本发明的实施例的个性化的知识源的方面。通过举例的方式,图2的个性化的知识源包括个性化的知识图,并且通常被称为知识图200。知识图200表示可以针对特定用户进行个性化的知识源的一个示例。具体而言,如下所述,图2示出了将用户历史信息(在这种情况下,过去的用户话语)与知识图200对准并根据来自用户历史的个人使用统计来对图上的关系进行加权的示例。
可以将知识图划分为多个部分,每个部分被称为子图。在图2中示出了示例知识图200的两个子图:与电影域202相对应的部分和与书籍域204相对应的部分。为了清楚起见,电影域202和书籍域204分别仅示出域中的实体和实体与实体关系的子集。具体而言,电影域202被示为以电影实体“美丽人生”为中心,并且书籍域204被示为以书籍实体“利维坦”为中心。而三个点(项目214和216)指示,知识图的其它子部分(例如,其它电影、其它书籍)存在,但未示出。
图2中还示出了用户历史信息的方框206。在该示例中,用户历史信息包括过去的用户交互(如由用户提交的询问罗伯托·贝尼尼的电影的先前查询)。这里,从用户话语中识别实体“罗伯托·贝尼尼”和实体关系“导演”,并将其映射(箭头209)到知识图200。第二个示例示出了用户动作,指示用户已经购买了电影“美丽人生”的拷贝。箭头211示出了该用户动作如何与知识图200中的“美丽人生”实体对准。类似地,框206示出了其它用户查询的示例,这些用户查询可以来自与用户相关联的一个或多个查询日志。这些查询包括,例如,询问奥斯卡获奖电影。这里,“奥斯卡”可以被识别为实体并且映射到知识图中的“奥斯卡,最佳男演员”实体210和/或如这里所示的连接到“奥斯卡,最佳男演员”实体210的“奖项”的实体-实体关系,因为用户的意图是识别已经获得奥斯卡奖的电影。下一个示例表示来自桌面(或用户设备)查询日志的查询,其包括在用户设备上进行的来自用户的过去查询。这里,用户正在搜索在他或她的用户设备上本地保存的是小说的书籍。因此,“小说”被识别为实体,并且可以映射到小说实体和/或连接到小说的实体关系“类型”,因为用户的意图是找到是小说的书籍。
最后,提供用户提交针对“保罗·奥斯特书籍”的查询的示例用户交互事件。如图所示,实体“保罗·奥斯特”可以被映射到用户的个性化的知识图作为实体或作为具有作者(实体)为“保罗·奥斯特”的书籍(实体)“利维坦”之间的关系。以这种方式,通过将在框206中提供的示例用户历史信息映射到知识图200,知识图200变得针对用户个性化。
如图2中进一步所示,可以确定该特定用户对一些实体(如“美第斯最佳外国小说奖”208、“罗伯托·贝尼尼”212和“奥斯卡,最佳男演员”210)更感兴趣,如每次在该实体发生映射时置于实体下方的椭圆形所指示的(例如,表示计数)。或者,与某些实体、实体-实体对或关系相关联的计数或权重可以提供用户对那些实体、实体-实体对或关系感兴趣的另一个指示(如关联值)。
参考图3,提供了示出基于个性化的知识图300的会话上下文模型的一个方面的示例。图3描绘了个性化的知识图300的三个子图,其中每个子图包括诸如结合图2所描述的那些的各种实体和实体关系(例如,根据箭头314的与实体对313和317相关的)。图3还描绘了知识图的第一部分305(其示出了实体303和307之间的语义关系304),以及知识图的第二部分315、325和335的集合(其分别示出了实体313和317、323和327以及333和337之间的语义关系314、324和334)。
每个部分305、315、325和335与来自映射的用户历史信息的用户交互事件的映射相对应,并且表示知识图上的语义关系。根据每个映射,可以基于语义关系(如一个或多个实体、实体类型或关系),和/或基于可以存在于与映射的事件的位置相对应的知识源中的其它信息来确定与映射的用户交互事件相关联的可能的用户意图。因此,每个部分305、315、325和335还与映射的用户交互信息的可能的用户意图相对应。
如结合图1所描述的,在本发明的一些实施例中,可以基于映射到个性化的知识源的数据中存在的用户会话信息内的用户交互信息的序列或模式来确定意图序列(如通过意图序列确定组件130)。因此,知识图300的第一部分305与基于第一用户交互事件(映射到知识源)的第一意图相对应,并且部分315、325和335分别与基于在会话中的第一用户交互事件之后发生的第二用户交互事件的第二意图相对应(从而形成第二意图的集合)。箭头310、320和330指示从第一意图(与部分305相对应)到第二意图的集合(分别为部分315、325和335)的转移,并且可以表示为在第一意图(与部分305相对应)之后的特定第二意图(例如,与部分335相对应的第二意图)的概率或可能性。因此,转移的集合310、320和330表示第一意图和第二意图之间的意图转移概率的集合,并且可以用于意图序列模型。
例如,假设用户历史信息包括用户和在移动设备上操作的个人助理应用之间的具有用户提交的查询的一个或多个会话的查询日志,其中每个会话包括查询序列。假设十个会话包括用户提交的询问电影导演的查询(例如,“谁是美丽人生的导演?”)。假设在这十个会话中的三个会话中,下一个用户提交的查询询问了电影导演的国籍;在这十个会话中的五个会话中,下一个用户提交的查询询问了电影的演员;并且在这十个会话中的两个会话中,下一个用户提交的查询询问了电影获得的奖项。使用示例个性化的知识源300,可以基于这些查询序列来确定意图转移概率的集合。具体而言,部分305与基于第一用户交互事件(用户提交的与电影导演相关的查询-即“谁是美丽人生的导演?”)的第一意图相对应。部分315、325和335分别与基于在会话中的第一用户交互事件之后发生的第二用户交互的第二意图相对应。这里,让部分315、325和335分别与随后提交的关于导演的国籍、演员和奖项的查询相对应。因此,与箭头310、320和330相关联的转移概率可以确定为0.3(即,在十个会话中的三个会话中,下一个查询是关于导演的国籍)、0.5(即,在十个会话中有五次下一个查询是关于演员)和0.2(在十个会话中的两个会话中,下一个查询是关于奖项)。这些转移概率(0.5、0.3和0.2)可以用于意图序列模型。(在这种情况下,为了清楚起见,模型将仅包括序列中的两个意图:与关于电影导演的查询相对应的第一意图和与关于导演国籍、电影演员或电影奖项的第二查询相对应的第二意图。)对于该意图序列模型,在第一意图与电影导演相关的情况下,存在0.3的概率下一个意图将是导演国籍,存在0.5的概率下一个意图将与演员有关,以及存在0.2的概率下一个意图将与奖项有关。在一些实施例中,意图序列模型表示从实体到实体对向其它实体到实体对(如图3所示),从关系向其它关系,或者从意图/域向其它意图/域的转移。
基于意图序列模型,可以根据需要对语言模型或SLU模型进行内插,从而形成会话上下文模型。例如,假设对于给定的知识源,对应于实体和实体关系的权重是相同的(即,均等分布)。(这样的分布可能不太可能,是为了解释的目的而提供的)。因此,基于该知识源的语言模型将基于先前的话语对所有可能的下一个话语具有相等的概率。假设如上所述,现在使用用户交互信息对知识源进行了个性化,以确定意图序列模型。现在,可以基于与该意图序列模型相关联的转移概率来调整权重。因此,基于先前的话语或一些话语来改变可能的下一个话语的概率,从而形成会话上下文模型。可以通过本领域已知的任何方式来调整权重。例如,在一些实施例中,可以通过平均来调整权重,如对初始值和相应的意图转移概率的值进行平均。在一些实施例中,可以通过分别基于减少或增加的相应的意图转移概率来对值进行递减或递增从而对权重进行调整。
在一些实施例中,实时地或根据需要来生成会话上下文模型,因为语言模型或SLU模型是基于意图序列模型内插的。在一些实施例中,从已经被修改(如通过对节点处的权重或关系进行调整)的个性化的知识源确定会话上下文模型,以表示从实体到实体对向其它实体到实体对、从关系向其它关系,或者从意图/域向其它意图/领域的转移(即,转移概率)。会话上下文模型也可以实现为与知识源相关联的意图转移概率的集合,以使得对于从第一轮次识别的给定实体或语义关系,可以基于与知识源中的特定实体或语义关系相关联的意图转移概率和权重,用会话上下文模型来确定可能的第二轮次(或可能的第二轮次的集合)。在一些实施例中,会话上下文模型可以实现为例如与知识图相关联的表格,实现为表示知识源的关系数据库的一部分,或者与语义关系相关联的概率的集合。
图4-图9提供了示出本发明的示例方法实施例的一组流程图。具体而言,图4-图6涉及用于基于使用历史(其可以包括用户交互信息)来针对特定用户或用户的集合对知识源进行个性化的方法。图7-图9涉及将会话上下文信息(如来自用户交互序列或模式的数据)并入用于会话上下文建模的知识源(或使用利用了会话上下文信息进行个性化的知识源)的方法。认为在结合图4-图6讨论的用于对知识源进行个性化的实施例中描述的过程中的任何过程都可以应用于结合图7-图9讨论的并入会话上下文信息的方法。
现在转到图4,图4提供了示出用于基于用户历史信息来对特定目标用户的知识源进行个性化的一种示例性方法400的流程图。根据方法400创建的个性化的知识源可用于对用于目标用户的语音识别的语言模型进行个性化(如通过对用户提交的未来未见的查询(例如,语音查询)进行预测)。个性化的知识源还可以用于通过确定与来自用户历史的用户交互信息的序列或模式相对应的实体和实体对的序列(或模式)来创建意图序列模型。与意图序列模型中的意图转移相关联的统计然后可以用于对个性化的语言模型的加权进行调整,从而创建会话上下文模型。
因此,在高级别处,方法400的实施例首先使用用于目标用户的各种个人信息源以及可用知识源来创建个性化的知识源,可用知识源可以包括非个性化的知识源或能够针对目标用户被个性化的知识源。从过去的话语、用户交互和用户历史信息的其它个人源提取的信息与知识源对准。例如,可以识别用户的过去话语与知识图的部分的基于实体的类似性,并将其映射到那些部分上。可以跟踪出现在用户历史中的实体和实体类型,并且在构建个性化的语言模型时使用它们的计数。一个实施例还包括:在给定过去的用户话语的情况下,给定过去的用户话语(或其它用户数据)和/或用户意图的概率以及特定关系,给定过去的用户话语,使用针对应用域的定向口语理解模型来估计特定域的概率。P(域\过去的用户话语),P(意图&关系\过去的用户话语)。当构建个性化的语言模型时(如图2所示),概率可以用于提高知识源的特定部分的计数。
继续图4,在步骤410处,从一个或多个个人源接收目标用户的使用历史信息。使用历史包括与从一个或多个个人源(如结合图1描述的个人源109)收集的目标用户相关的数据;例如,由目标用户经由用户设备执行的来自查询日志、网站交互、用户动作等的过去的用户查询。可以从过去的行为(其由使用历史表示)推断用户意图。
在一个实施例中,收集使用历史被并将其存储在数据存储器(如图1的存储装置106)中。例如,在目标用户登录到用户设备、在设备上运行的应用或特定网站或在线服务(如搜索引擎)的情况下,可以收集关于使用历史的信息并将其与用户相关联。在一个实施例中,可以存储指向历史信息的地址或指针,以使得可以接收使用历史,并且可以在下一个步骤中从使用历史中解析特定信息。
在步骤420处,对使用历史信息进行解析以识别一个或多个实体和/或用户动作,例如,其可以是用户交互序列或模式(如用户提交的查询、话语或用户动作)的一部分。在一个实施例中,步骤420包括:从与目标用户相关联的使用历史信息中提取实体(包括实体-实体对和实体关系,和/或用户动作)。在一个实施例中,经解析的使用历史信息识别用户交互事件的一个或多个序列。
在步骤430处,经解析的数据(如与来自用户交互事件的实体或用户动作相关的信息)映射到知识源,由此创建个性化的知识源并指示目标用户最感兴趣的知识源的部分。因此,用户的个人兴趣和意图(如由使用历史所表示的)被捕捉到个性化的知识源上,并且然后可以用于个性化语言建模(如预测未来未见的查询(例如,语音查询))。例如,可以将目标用户的用户话语或过去的交互对准到知识图(如结合图2所描述的)上。
在一个实施例中,步骤430包括:使可由知识源表示的现有语言模型适用于目标用户的使用历史(如过去的话语)。假设用户通常具有与他们的一般兴趣一致的针对对话***的请求,则他们可以重复来自类似域的请求,并且具有类似的意图,但意图的参数不同。因此,通过捕捉用户的更高级别的兴趣和意图(在一些实施例中包括意图序列),可以创建预期类似意图但具有不同参数(即,不出现在使用历史中的参数)的语言模型。通过并入意图序列信息,语言模型适用于会话上下文并且因此更准确。如上所述,在一个实施例中,这通过识别具有知识源的部分的使用历史的基于实体的类似性并将它们映射到知识源的相应部分上来实现。因此,跟踪出现在用户历史中的实体和实体类型,并且在构建个性化的语言模型时使用它们的计数。在一些实施例中,在该步骤中确定的个性化的知识源表示概率知识源,因为来自用户历史的使用统计被用于对知识源的关系和实体进行加权(或增加计数)。
在步骤440处,个性化的知识源可以用于对目标用户的语言模型进行个性化(或训练)。在高级别处,步骤440的实施例可以包括:将个性化概率知识源集成到个性化的语言模型中(如通过根据与在使用历史中识别的实体或实体-实体对相对应的查询来对语言模型(例如,N元语法)进行训练)。可以通过首先针对目标用户的查询来对模型进行训练,然后用来自所有用户的相同实体或实体-实体对的查询来对其进行内插来针对目标用户对语言模型进行进一步训练。或者,可以针对目标用户的知识源空间来对用于所有用户的语言模型(如通用语言模型(ULM))进行训练。在这两种情况下,来自目标用户的知识源的权重可以用于对来自其它用户的查询的某些N元语法的计数进行缩放,使得仍然表示目标用户的兴趣或意图。
在一些实施例中,使用个性化的知识源来通过确定映射的实体或用户动作信息的序列或模式(从中可以推断出用户意图)来确定意图转移概率的集合。转移概率可用于对知识源的关系和实体的权重(或计数)进行调整,从而创建会话上下文模型。以这种方式,基于知识源的个性化的语言模型适用于对会话上下文进行建模。
在方法400的一个实施例中,对与其它用户相关联的个性化的知识图进行分析。从这些个性化的知识图中,这些其它用户中的一个或多个用户可以被识别为具有与目标用户类似的兴趣和/或意图(如通过具有与目标用户的那些共同映射的实体和实体与实体关系)。以这种方式,与其它类似用户相关联的实体和/或用户动作可以映射到目标用户的个性化的知识图上。这扩充了目标用户的个性化的知识图,从而使得用户的个性化的语言模型更好地适于改进语音识别。在一个实施例中,可以通过对与每个用户或组相关联的两个概率知识图空间进行比较来确定两个用户或一组用户之间的兴趣和/或意图的类似性,其中每个空间由概率图表示。使用该类似性度量,可以评估内插权重以确定哪些权重将用于利用类似的用户或用户组的源来对目标用户的个性化的知识源进行内插。
方法400的一些实施例包括:通过如上所述收集、解析并将这些交互映射到知识源上,使用类似网络处的社交网络交互或其它用户输入来进行语言模型个性化。在一些实施例中,知识源已经针对目标用户进行了个性化,并且可以通过对社交网络交互进行映射来进一步个性化或扩展。在这样的实施例中或在基于与其它用户的类似性对目标用户的个性化的知识源进行扩展的实施例中,用于其它类似用户或社交网络朋友的语言模型可用于对目标用户的个性化的语言模型进行内插。然后,新的个性化的语言模型可用于对目标用户的未来查询进行预测,假设社交网络朋友将对目标用户的未来查询带来一些影响。
现在参考图5,图5提供了示出用于基于用户历史信息和来自类似用户的信息来对特定目标用户的知识源进行个性化的示例性方法500的流程图。个性化的知识源可以用于对用于目标用户的语音识别(如通过对由目标用户提交的未来未看见的查询进行预测)的语言模型进行个性化。如本文中所描述的,个性化的知识源还可用于创建会话上下文模型。
在高级别处,方法500的实施例可用于通过并入来自针对类似用户和/或社交网络朋友而个性化的知识源的信息来对针对目标用户而个性化的知识源进行“扩展”。可以对个性化的知识图进行扩展的一种方式是通过使用已知的个人关系。示例关系可以包括像“在<公司>工作”或“是<联系人>的父亲”的三元组。然后,网络规模知识图的子图(如由先前使用历史激活的)可以扩充到该扩展的个人知识图。在这样的实施例中,针对使用历史来对节点和边(例如,知识图的实体和实体与实体关系)进行加权,从而使得语言模型训练可以立即受益。这些权重然后可以确定用于激活图的该部分的N元语法的权重。此外,一旦用户具有扩展的个性化的知识源,则其它用户的个性化的知识源可以用来增强目标用户的知识源。例如,可以使用具有基于联系频率的先验权重的其它用户的语言模型来适用目标用户的语言模型。
类似地,可以通过使用与目标用户类似的其它用户的知识源来扩展个性化的知识源。例如,假设每个用户具有个性化的语言模型(其可以由基于其使用历史和元数据(如结合图4所描述的)确定的概率个性化的知识源提供),则可以针对不同的用户群体特性来创建语言模型。在一个实施例中,可以通过对与用户的个性化的知识源相对应的语言模型进行聚类来识别类似用户。可以应用本领域技术人员已知的用于进行聚类的多个各种技术中的一种。在一个实施例中,应用自底向上聚类,其中关于一些度量的彼此最类似的一对语言模型被迭代地合并(在一个实施例中利用相等的权重进行组合)。可以使用通常用于计算两个概率分布之间的距离的对称Kullback Leibler距离或类似的度量。在另一个实施例中,应用K均值聚类,其中首先将候选语言模型分成N个簇的N个容器。使用在其内部的语言模型的线性插值来计算语言模型。然后再次使用某个距离或类似性度量将每个语言模型移动到最类似的容器。
作为补充方法,在一些实施例中,除了词汇信息之外,可以使用基于图形类似性的聚类方法来对个性化的知识图进行聚类,以便识别具有类似兴趣或意图的用户组。这些实施例(其可以依赖于用户的动作模式)造成语义上聚类的用户。在一个实施例中,可以使用用于对数据库条目进行聚类的方法(如潜在语义索引(LSI))。在一些情况下,在知识源是知识图的情况下,图可以被平面化为语义三元组(关系/实体对,如“卡梅隆-导演-阿凡达”)的关系表。在这些实施例中,基于用户通过简单表转移对三元组的使用来对用户进行聚类,而不是对图的条目进行聚类。一旦确定了簇,它们可以用于提供更平滑的语言模型,因为可以使用更大数量的类似数据来对模型进行训练。
继续图5,在步骤510处,从目标用户的使用历史中识别包括至少一个实体或至少一个用户动作的数据的第一集合。至少一个实体可以包括与知识源相对应的一个或多个实体、实体-实体对或实体关系。在一些实施例中,对来自目标用户的一个或多个信息的个人源的使用历史进行分析,以识别数据的第一集合,并且在一些实施例中,如图4的步骤420中所述,从使用历史中解析数据的第一集合。
在步骤520处,将数据的第一集合映射到目标用户的个性化的知识源。在实施例中,知识源包括在对第一组数据进行映射时变为个性化的一般(非个性化)知识源。或者,在另一个实施例中,数据的第一集合映射到已经针对目标用户进行了个性化的知识源,(如根据图4的方法400创建的个性化的知识源)。在实施例中,可以如图4的步骤430中所述地对包括至少一个实体或用户动作的数据的第一集合进行映射。
在步骤530处,确定与目标用户类似的用户的集合。在一个实施例中,通过聚类(如上所述)来确定一个或多个类似用户。在一个实施例中,步骤530包括对目标用户的个性化的知识源中的实体和实体与实体关系进行加权。可以基于特定实体和关系从用户历史数据映射的次数来进行加权。可以对于其它用户的个性化的知识源应用类似的加权。如果目标用户的个性化的知识源的特定部分中的实体和实体与实体关系对于其它用户的个性化的知识源的相同部分中的相同实体和实体与实体关系具有相同的权重(例如,满足加权值的最小阈值),则可以确定:目标用户和其它用户对知识图的该部分的主题具有类似的兴趣。
在另一个实施例中,使用知识源中的实体的流行度,而不是实体已经被映射多少次的计数。例如,如果特定实体对于一组目标用户的社交网络朋友具有特别高的流行度(例如,经常在社交网络站点上被查询、提及、关于其发表帖子),则目标用户也对该流行实体感兴趣的可能性可能增加。因此,目标用户的个性化的知识源可以针对该实体被扩展(如在步骤540中所描述的),并且可以包括以下指示:特定用户对该实体的个性化的知识源的该部分感兴趣(或者有可能感兴趣)。
在另一个实施例中,使用目标用户的个性化的知识源和其它用户的个性化的知识源来确定目标用户和其它用户的兴趣水平。例如,可以在相应知识源的第一部分中对兴趣水平进行比较,以确定在用户之间是否存在类似或重叠的兴趣。在一个实例中,可以确定所确定的兴趣水平是否满足最小阈值,并且还确定该组其它用户在知识源的第一部分中具有与目标用户的兴趣水平相当的兴趣水平。虽然在一个实施例中,存在用于确定用户的兴趣的水平的一个阈值,但是在不同的实施例中,使用一个以上的阈值,以使得例如可以存在低兴趣水平阈值、中等兴趣水平阈值、高兴趣水平阈值等。在一个实施例中,包括与目标用户的集合共享类似兴趣的用户的集合的用户具有彼此共同的兴趣。本文未具体公开的用于确定用户类似性的其它方法被认为在本发明的范围内。
在步骤540处,将与和目标用户类似的用户的集合相对应的数据的第二集合映射到目标用户的个性化的知识源,从而扩展目标用户的个性化的知识源。数据的第二集合包括至少一个实体(包括实体-实体对或实体关系)或用户动作。在一些实施例中,从类似用户的个性化的知识源中识别和提取数据的第二集合。在一个实施例中,数据的第二集合包括更频繁地出现在类似用户的集合中的个性化的知识源中的实体信息和/或相关元数据(其可以由阈值确定)。在步骤550处,使用目标用户的个性化的知识源(其已经被扩展)来对目标用户的语言模型进行个性化(或训练)。步骤450的实施例与结合方法400的步骤440(图4)所描述的实施例类似。
转到图6,提供了示出用于对针对目标用户进行个性化的知识图进行扩展的示例性方法500的流程图。扩展的个性化的知识图可以用于对针对目标用户的语言模型进行个性化。个性化的语言模型可以用于目标用户的语音识别(如通过对由目标用户提交的未来未看见的查询进行预测)。
在步骤610处,对来自与第一用户相关联的一个或多个个人源的使用历史进行聚合。使用历史包括与来自一个或多个个人源(如结合图1描述的个人源109)的第一用户相关的数据。例如,由第一用户经由用户设备执行的来自查询日志、网站交互、用户动作等的过去的用户查询。
在步骤620处,从第一用户的聚合的用户历史中提取实体和用户动作信息。实体和用户动作信息可以包括一个或多个实体、实体-实体对、实体关系或与用户动作相关的信息。在一个实施例中,如方法400的步骤420中所描述的(图4),根据聚合的用户历史来对实体和用户动作信息进行解析。
在步骤630处,将在步骤620中提取出的实体和用户动作信息映射到与第一用户相关联的第一知识图,从而对用户的第一知识图进行个性化。在一个实施例中,在步骤630中执行的映射操作与在方法400的步骤430处描述的映射操作(图4)类似,其中,知识源是知识图。
在步骤640处,确定与第一用户类似的第二用户。在一个实施例中,步骤640包括通过确定第二用户的个性化的知识图与第一用户的个性化的知识图相类似来识别与第一用户类似的第二用户。在一个实施例中,第二用户来自通过聚类或如方法500的步骤530中所描述的其它方式(图5)确定的类似用户的集合。如前所述,基于所确定的第一和第二用户之间的类似性,可以预测:第一和第二用户具有共享类似兴趣和意图的可能性。
在步骤650处,将第一用户的个性化的知识图扩展为包括来自与在步骤640中确定的第二(类似)用户相关联的个性化的知识图的信息。在实施例中,步骤650包括:将来自第二用户的个性化的知识图的实体或用户动作信息映射到第一用户的个性化的知识图上。步骤650的一些实施例类似于结合方法500(图5)的步骤540所描述的实施例,其中知识源是知识图。在一个实施例中,在扩展第一图之前,第二个性化的知识图比第一个性化的知识图更发达(包括更多信息)。在方法600的一些实施例中,扩展的个性化的知识图可以用于对第一用户的语言模型和/或会话上下文模型进行个性化(如在方法500的步骤550处所描述的(图5))。
转到图7,图7提供了示出用于基于用户历史来将语言模型适用于会话上下文的示例性方法700的流程图。在高级别处,在一个实施例中,方法700将会话上下文信息(如来自用户会话日志的用户交互序列(或模式))并入知识源。基于交互的序列,可以用表示特定的后续发生的意图将在给定特定先前意图的情况下发生的可能性的转移统计的集合来确定与交互相对应的更高级别的意图的序列或意图类型。基于统计,可以对与知识源中的实体和实体关系相对应的权重进行内插,从而创建会话上下文模型。在实施例中,根据会话上下文模型,可以基于知识源的当前内插的权重来提供一个或多个语言模型。
在步骤710处,从一个或多个个人源接收使用历史信息。使用历史信息包括一个或多个序列或模式的用户交互事件。在实施例中,使用历史信息包括多模态数据,并且可以是从一个或多个会话日志接收的。在实施例中,可以对使用历史信息进行解析(如在图4的步骤420中所描述的)以确定一个或多个序列或模式的用户交互事件。
在步骤720处,针对一个或多个序列的用户交互事件中的每个事件,确定与事件相对应的可能的用户意图。在实施例中,步骤720包括:将事件映射到知识源(如步骤430中所描述的(图4)),以及基于语义关系或与映射处的知识源的该部分相关联的其它信息来确定意图。在实施例中,可以基于实体和关系信息(包括实体类型和关系类型,或与映射处的知识源的该部分相关联的其它语义关系信息)来推测意图。在实施例中,例如,可以仅针对交互事件的子集(如序列中的交互事件或具有特定实体或实体关系或兴趣或与目标用户共同的交互事件)来确定意图。在实施例中,在知识源不具有与待映射的用户交互事件相对应的实体或实体关系的情况下,例如,基于在与事件相关联的使用历史信息中识别的实体或实体关系,可以对其进行添加(或在可以创建知识图实体节点和关系边的情况下)。例如,如果用户轮次询问关于尚未并入知识源的新发布的电影的导演,则可以推断导演-电影语义关系,并且可以将与电影和与电影相关联的“导演”关系相对应的实体添加到知识源。
在步骤730处,基于针对一个或多个序列中的每个用户交互事件所确定的意图,确定意图转移概率集的集合。在实施例中,转移概率表示特定意图将在此前意图之后发生的可能性。在步骤730的实施例中,可以基于用户交互事件的一个或多个序列来确定一个或多个高级意图序列,其中,意图序列中的每个意图与用户交互事件序列中的事件相对应。根据这些意图的一个或多个序列,可以基于在给定意图之后发生的特定意图的概率来确定意图转移概率的集合。例如,假定在前一个轮次中用户已经询问了特定电影的特定导演,则转移概率可能指示在下一个轮次中用户将询问关于电影的演员的可能性。
在实施例中,意图转移概率的集合包括意图序列模型,其包括至少两个意图的关系以及在给定第一意图的情况下第二意图的概率。在一些实施例中,意图序列模型可以用于对语言模型进行内插以用于识别用户会话的下一个轮次(如由用户说出的下一个查询)。在实施例中,可以至少部分基于转移概率来对与和转移到的意图(至少两个意图的关系中的第二意图)相对应的知识源的一部分相关联的加权进行调整。
在步骤740处,意图转移概率的集合用于提供语言模型。在实施例中,基于意图转移概率和之前接收的用户轮次根据需要对语言模型进行内插。在实施例中,意图转移概率的集合可以用于确定或修改与知识源上的实体或实体关系相关联的权重,从而对知识源进行个性化(或进一步个性化),并形成会话上下文模型。会话上下文模型然后可用于基于一个或多个之前的用户话语或交互来根据需要创建一个或多个语言模型。在一些实施例中,从个性化的知识源(如在步骤440中所描述的(图4))提供语言模型。
现在参考图8,提供了示出用于基于用户历史信息来提供会话上下文模型以用于语音识别或口语理解的示例性方法800的流程图。会话上下文模型可用于提供用于在给定已经从用户接收的第一轮次的情况下,识别(或理解)由用户说出的第二轮次的一个或多个语言模型(或SLU模型)。例如在高级别,并且在一个实施例中,当接收到第一说出的用户交互(第一轮次)时,可以确定与第一轮次中识别出的实体和实体关系相对应的知识源的部分(在该示例中被称为“第一轮次部分”)。基于与知识源的特定第一轮次部分相关联的转移概率的集合,可以确定知识源的一个或多个可能的第二轮次部分,其中,这些第二轮次部分与将要从用户接收的可能的接下来的轮次(下一个口头的用户交互)相对应。然后可以基于这些可能的第二轮次部分或第二轮次部分的子集(如最可能的第二轮次部分)中的每一个来提供语言模型(或SLU模型)。在实施例中,这些所提供的语言模型(或SLU模型)中的每一个是基于与第二轮次部分处的实体和/或实体关系相关联的权重或分布的。另外,可以基于从知识源的第一轮次部分向该特定第二轮次部分转移的转移概率来对由模型使用的权重进行内插。
换句话说,在给定先前轮次或一些轮次的情况下,会话上下文模型可用于基于将由用户接收的可能的下一个轮次,根据需要生成特定语言模型。因此,通过举例的方式,假设在给定用户在第一轮次中首先询问电影导演的情况下,然后很有可能(即,高转移概率)用户接下来(在第二轮次中)将询问关于电影演员或电影奖项。当用户首先询问“谁是美丽人生的导演”时,可以生成并提供第一语言模型用于识别可以从用户接收的下一个(随后的)轮次,在下一个轮次中,预期用户会询问美丽人生的演员。(例如,该第一语言模型可以适用于更准确地识别随后的用户话语,如“他也在电影中出演了吗?”,其中“他”是指导演罗伯托·贝尼尼,因为用户刚刚询问了谁是导演)。类似地,当用户首先询问“谁是美丽人生的导演”时,可以生成并提供第二语言模型用于识别可以从用户接收的下一个(随后的)轮次,在下一个轮次中,预期用户会询问美丽人生所获得的奖项。(例如,该第二语言模型可以适用于更准确地识别随后的用户话语,如“它是否被提名奥斯卡奖”,其中“它”指的是美丽人生这个电影,因为用户刚刚询问了谁是“美丽人生”的导演,并且“奥斯卡”是一个奖项。)
继续图8,在步骤810处,接收包括用户交互的一个或多个序列的使用历史信息。在实施例中,用户历史是从一个或多个个人源(如用户会话日志)接收的,并且可以包括多模态信息。用户交互的一个或多个序列包括关于至少第一用户交互和第二用户交互的信息;例如第一用户提交的查询或轮次以及随后由用户提交的第二查询(或第二轮次)。在实施例中,第二交互是在第一交互之后发生(紧接在后)的下一个交互。在实施例中,可以对使用历史信息进行解析(如在图4的步骤420中所描述的)以确定一个或多个序列或用户交互。
在步骤820处,针对用户交互的一个或多个序列中的每个第一用户交互,确定与第一交互相对应的知识源的第一轮次部分,从而形成知识源的第一轮次部分的集合。例如,在实施例中,可以通过将用户交互(或与用户交互相关联的使用历史信息)映射到知识源(如步骤430中所描述的(图4))来确定与用户交互相对应的知识源的部分。基于该映射,可以确定与用户交互相关或相对应的知识源的部分(即,交互映射到的知识源的部分)。
在步骤830处,针对第二用户交互执行类似的确定。具体而言,在步骤830处,针对用户交互的一个或多个序列中的每个第二用户交互,确定与第二交互相对应的知识源的第二轮次部分,从而形成知识源的第二轮次部分的集合。步骤830的各个实施例与步骤820中描述的实施例类似。在实施例中,步骤820和830还包括:基于分别与第一轮次和第二轮次部分相对应的第一和第二用户交互的数量来确定每个第一轮次和第二轮次部分的权重。在一个实施例中,与包括在知识源的每个部分中的一些实体或实体关系相关联的权重或分布是基于分别与第一轮次部分和第二轮次部分相对应的第一用户交互的数量和第二用户交互的数量来设置或修改的。
在步骤840处,确定与每个第一轮次部分相关联的意图类型,从而形成第一轮次意图类型的集合;并且确定与每个第二轮次部分相关联的意图类型,从而形成第二轮次意图类型的集合。在实施例中,意图类型是用户意图或与由用户采取的行动(如用户交互)相对应的更高级别的意图。在实施例中,如在方法700的步骤720中所描述的(图7),可以基于知识源的相应部分中的实体和关系信息来确定与每个第一轮次和第二轮次部分相关联的意图类型。
在步骤850处,确定转移概率的集合,每个转移概率表示在给定具体第一轮次意图类型的情况下,特定第二轮次意图类型将发生的可能性。在一个实施例中,转移概率表示第二轮次意图类型将在紧接第一轮次意图类型的轮次或用户交互中发生的可能性。例如,在实施例中,转移概率可能表示在询问美丽人生的导演(因此第一轮次意图类型是电影导演)之后,用户接下来将询问谁出演了美丽人生(因此第二轮次意图类型是关于电影演员的)的概率。在一个实施例中,转移概率的集合包括意图序列模型(如方法700的步骤730中所描述的(图7)),在一些实施例中,其可以用于对用于识别用户会话的下一个轮次(如用户说出的下一个查询)的语言模型进行内插。
在实施例中,可以至少部分地基于从知识源的第一轮次部分向该第二轮次部分的转移概率来对与知识图的第二轮次部分相关联的权重进行调整。因此,在步骤860处,至少部分地基于该转移概率的集合来提供一个或多个语言模型(或SLU模型)。举例来说并且如前所述,在一个实施例中,当接收到第一说出的用户交互(第一轮次)时,可以确定与第一轮次中识别出的实体和实体关系相对应的知识源的第一轮次部分。基于与知识源的特定第一轮次部分相关联的转移概率的集合(如基于来自方法800的前面的步骤中的用户历史的一个或多个序列确定的),可以确定知识源的可能的第二轮次部分,其中,这些第二轮次部分与预期从用户接收的可能的接下来的轮次(下一个口头的用户交互)相对应。基于此,然后可以使用与特定第二轮次部分处的实体和/或实体关系相关联的权重,来为可能的第二轮次部分中的每一个提供语言模型(SLU模型)。另外,可以基于从知识源的第一轮次部分向该特定第二轮次部分转移的转移概率来对由模型使用的权重进行内插。(换句话说,在给定先前轮次或一些轮次的情况下,可以基于将由用户接收的可能的下一个轮次,根据需要生成特定语言模型)。
转到图9,提供了示出用于使用以会话上下文信息进行个性化的知识源来提供适用于会话上下文的语言模型(或SLU模型)的示例性方法900的流程图。语言模型或SLU模型可以用于更准确地识别或理解从用户接收的下一个话语(下一个轮次)。方法900的实施例使用已经用会话上下文信息进行个性化的知识源。知识源可以根据结合图4-图8描述的实施例来进行个性化。
在一个实施例中,一旦知识源被个性化(如通过将会话日志映射到知识图中的实体或实体-实体对),可以收集关于从一个意图切换到另一个意图或从一个域切换到另一个域的统计。统计可以在知识源中表示为附加转移;例如,用户停留在一种类型的音乐搜索中对切换到另一种类型或域的概率。因此,当用户开始对其个人设备(或其它人机对话***)说话时,在几个轮次之后,方法900的一些实施例首先识别知识源中的相应子空间(即,部分)。然后,与这些子空间相关联的转移概率可以用作转移权重(其表示关系或意图/域改变),其可以用作表示正在考虑中的其它子空间的语言模型的内插权重(即,在下一个轮次中可能被转移到的那些子空间)。例如,在第一轮次,用户说出“今晚的巨人游戏是什么时候?”本发明的实施例将“巨人”检测为实体,将其映射到知识源(或者如果不存在,则在知识源中为该实体创建条目),并提高与该子空间相关联的概率或权重(即,知识源的该部分),其指示用户对知识源中围绕该实体(巨人)的概念或动作感兴趣。基于子空间,计算从巨人实体的所有可能的转移(或仅仅可能的转移)。然后对与这些转移相对应的语言模型进行动态内插。
继续该示例,假设存在0.8的概率下一轮次将转移到特定玩家(例如,用户接下来将询问关于Sergio Romo),并且存在0.2的概率下一轮次将转移为团队球衣(例如,用户接下来将会问“巨人队的球衣多少钱?”)。可以提供基于与Sergio Romo和巨人队的球衣或(巨人队的相关商品)相对应的两个子空间的两个语言模型,并将其用于更精确地确定来自用户的下一个话语,以便基于转移概率来对每个语言模型的权重或分布进行内插。(在这种情况下,用0.8来对语言模型中的一个进行内插,并且用0.2来对语言模型中的另一个进行内插)。
进一步假设在第二轮次中,用户询问“Sergio Romo打得怎样?(因此,用户提出了前面段落中讨论的两个可能的接下来的轮次中的一个。)在这里,本发明的实施例将运动员的名字检测为实体,将其映射到知识源(或者如果不存在,则在知识源中为该实体创建条目),并提高与该子空间相关联的概率或权重,其指示用户对知识源中围绕该实体(SergioRomo)的概念或动作感兴趣。基于子空间并基于先前的轮次和意图/域(如来自第一轮次的运动队子空间(巨人)),计算来自当前子空间(与Sergio Romo相对应的子空间)的所有可能的转移(或仅仅可能的转移)。然后对与这些新转移相对应的语言模型进行内插,并将其用于更精确地识别从用户接收的下一个话语(第三轮次)。
继续图9,在步骤910处,接收第一查询。可以从参与与用户设备(如图1的设备102和104,或人机对话***)的会话的用户接收查询。在实施例中,第一查询由用户提供为口头查询或其它话语。
在步骤920处,将第一查询映射到用会话上下文信息进行个性化的知识源的第一子空间(或部分)。在实施例中,个性化的知识源包括与其它子空间有关的多个子空间,以便相关子空间的每个集合(或“相关子空间”)至少包括:第一子空间、与接下来的轮次或用户交互相对应的一个或多个第二子空间,以及与表示被从相关子空间集合中的第一子空间转移到特定第二子空间的可能性的每个第二子空间相关联的转移统计。因此,当将第一查询映射到第一部分或子空间时,可以确定可能被从第一子空间转移到的一个或多个第二子空间,以及与每个第二子空间相关联的一个或多个转移统计(如步骤930中所描述的)。在实施例中,基于并入个性化知识空间以及与用户交互序列相对应的历史信息来确定转移统计。在一个实施例中,相关子空间集包括第一实体-实体对与第二实体-实体对的关系、第一实体关系与第二实体关系的关系、第一意图/域与第二意图/域的关系,或者第一实体对/关系/意图/域与第二实体对/关系/意图/域的关系。在实施例中,可以如在方法400(图4)的步骤430中所描述的那样来对查询进行映射。
在步骤930处,基于在步骤920中确定的映射,确定与可能从用户接收的未来查询(第二查询)相对应的转移统计的第一集合。在实施例中,转移统计的第一集合包括与可以从第一子空间被转移到的一个或多个第二子空间中的每一个相关联的转移统计。在实施例中,转移统计包括转移概率的集合,并且如在方法800(图8)的步骤850或方法700(图7)的步骤730中所描述的那样来确定。
在步骤940处,基于转移统计的集合,提供一个或多个语言模型(或SLU模型)以用于与被预期将从用户接收的第二查询或交互(第二轮次)一起使用。在实施例中,提供一个或多个语言模型以更准确地确定来自用户的后续话语。在实施例中,基于转移统计的集合来对语言模型的权重或分布进行内插。
在方法900的一个实施例中,个性化的知识源中的多个相关子空间集合还包括:与第三轮次或用户交互相对应的一个或多个第三子空间,其中,转移统计还表示在给定从特定第一子空间向特定第二子空间的转移的情况下,特定第三子空间被从特定第二子空间转移到的可能性。另外,在一个实施例中,如在步骤910和920中所描述的,接收第二询问并将其映射到个性化的知识源。基于第一和第二查询的映射,实施例确定与可能从用户接收的未来查询(第三查询)相对应的转移统计的第二集合。另外,基于转移统计的第二集合,提供一个或多个语言模型以用于与被预期将从用户接收的第三查询或交互(第三轮次)一起使用。在实施例中,可以如步骤940中所描述的来提供这些“第三轮次语言模型”。
因此,我们已经描述了涉及用于改进语言模型和SLU模型的***和方法的技术的各个方面,其可以通过对模型所使用的知识源进行个性化以包括会话上下文信息来用于语音识别和会话理解***。
应该理解的是:本文中描述的实施例的各种特征、子组合和修改是有用的,并且可以在不参考其它特征或子组合的情况下在其它实施例中使用。此外,示例方法400、500、600、700、800和900中示出的步骤的次序和顺序并不意在以任何方式限制本发明的范围,并且事实上,在本发明的实施例中,步骤可以以与其实施例中的步骤的顺序的各种不同顺序发生。设想这样的变化及其组合也在本发明的实施例的范围内。例如,如前所述,预期在方法400、500和600中描述的用于对知识源进行个性化的过程中的任何过程可以与方法700、800和900一起使用。
已经描述了本发明的各个实施例,现在对适用于实现本发明的实施例的示例性计算环境进行描述。参考图10,提供了示例性计算设备并通常将其称为计算设备1000。计算设备1000只是合适的计算环境的一个示例,并不意在暗示对本发明的使用范围或功能的任何限制。计算设备1000也不应该解释为对所示出的任一组件或其组合有任何依赖性或要求。
本发明的实施例可以在计算机代码或机器可使用指令的一般性上下文中进行描述,其包括计算机可使用或计算机可执行指令(如由计算机或诸如个人数据助理、智能电话、平板PC或其它手持设备的其它机器执行的程序模块)。一般而言,包括例程、程序、对象、组件、数据结构等的程序模块指的是执行特定任务或实现特定抽象数据类型的代码。本发明的实施例可以在各种各样的***配置中实施,这些***配置包括:手持设备、消费电子产品、通用计算机、更专业的计算设备等。本发明的实施例还可以在分布式计算环境中实施,在分布式计算环境中,任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中,程序模块可以位于本地和远程计算机存储介质(包括存储器存储设备)二者中。
参考图10,计算设备1000包括:直接或间接耦接以下设备的总线1010:存储器1012、一个或多个处理器1014、一个或多个呈现组件1016、一个或多个输入/输出(I/O)端口1018、一个或多个I/O组件1020以及示例性电源1022。总线1010可以表示一个或多个总线(如地址总线、数据总线或者它们的组合)。虽然为了清楚起见,用线示出了图10的各个块,但实际上,这些块表示逻辑,而不一定是实际的组件。例如,可以认为呈现组件(如显示设备)是I/O组件。另外,处理器具有存储器。本发明人认识到这是本领域的特性,并重申:图10的图示仅是可结合本发明的一个或多个实施例来使用的示例性计算设备的例示。在诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等的类别之间不做区分,设想这些类别都在图10的范围之内,并且被称为“计算设备”。
计算设备1000通常包括各种各样的计算机可读介质。计算机可读介质可以是可由计算设备1000访问的任何可用介质,并且包括易失性和非易失性介质,可移动和不可移动介质。通过举例而非限制的方式,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于:RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁存储设备、或者可用于存储所需的信息并且可由计算设备1000访问的任何其它介质。然而,计算机存储介质不包括信号本身。通信介质通常体现为计算机可读指令、数据结构、程序模块或调制数据信号(如载波波形)或其它传输机制中的其它数据并且包括任何信息传递介质。术语“调制数据信号”意指具有其特性集合中的一个或多个特性或以对信号中的信息进行编码的方式改变的信号。通过举例而非限制的方式,通信介质包括诸如有线网络或直接线连接的有线介质,以及诸如声音、RF、红外线和其它无线介质的无线介质。上述各项中任意项的组合也应该包括在计算机可读介质的范围之内。
存储器1012包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移动的、不可移动的或它们的组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备1000包括从诸如存储器1012或I/O组件1020的各个实体读取数据的一个或多个处理器1014。呈现组件1016向用户或其它设备呈现数据指示。示例性呈现组件包括显示设备、扬声器、打印组件、振动组件等。
I/O端口1018允许计算设备1000逻辑地耦接到其它设备(包括I/O组件1020),其中一些可以是内置的。说明性组件包括麦克风、操纵杆、游戏垫、碟形卫星天线、扫描仪、打印机、通信组件(例如,网络通信组件、无线电或无线通信组件等)等等。I/O组件1020可以提供对空中手势、语音或由用户生成的其它生理输入进行处理的自然用户界面(NUI)。在一些实例中,输入可以发送到合适的网络单元用于进一步处理。NUI可以实现下列各项的任意组合:语音识别、触摸和手写笔识别、面部识别、生物计量识别、在屏幕上以及邻近屏幕的手势识别、空中手势、头眼跟踪以及与计算设备1000上的显示相关联的触摸识别。计算设备1000可以配备深度相机(诸如立体摄像***、红外摄像***、RGB摄像***以及这些的组合)来用于手势检测和识别。另外,计算设备1000可以配备能够进行运动检测的加速计或回转仪。加速计或回转仪的输出可以提供给计算设备600的显示器,以呈现融入式的增强现实或虚拟现实。
在不脱离所附权利要求书的范围的前提下,所描绘的各个组件以及未示出的组件的许多不同布置是可能的。已经用旨在是说明性而非限制性的方式对本发明的实施例进行了描述。替代实施例在阅读本公开内容之后以及由于阅读本公开内容将变得显而易见。在不脱离所附权利要求书的范围的前提下,可以完成实现前述内容的替代手段。某些特征和子组合是有用的,并且可以在不参考其它特征和子组合的情况下使用,并且被认为在权利要求书的范围内。
因此,在一个方面中,本发明的实施例涉及具有体现在其上的计算机可执行指令的一个或多个计算机可读介质,当由具有处理器和存储器的计算***执行时,所述计算机可执行指令使所述计算***执行用于基于用户历史来提供适用于会话上下文的语言模型的方法。所述方法包括:接收包括用户交互事件的一个或多个序列的使用历史信息;以及针对所述一个或多个序列中的每个事件,确定与所述事件相对应的可能的用户意图。所述方法还包括:基于针对每个事件所确定的可能的用户意图,确定意图转移概率的集合;以及使用所述意图转移概率的集合来提供语言模型。
在另一个方面中,提供了具有体现在其上的计算机可执行指令的一个或多个计算机可读介质,当由具有处理器和存储器的计算***执行时,所述计算机可执行指令使所述计算***执行用于基于用户历史来提供会话上下文模型的方法。所述方法包括:接收包括关于用户交互的一个或多个序列的信息的使用历史信息,每个序列至少包括第一和第二交互;以及针对所述一个或多个序列中的每个第一交互,确定与所述第一交互相对应的知识源的第一轮次部分。所述方法还包括:针对所述一个或多个序列中的每个第二交互,确定与所述第二交互相对应的知识源的第二轮次部分,从而形成第二轮次部分的集合;以及确定与每个第一轮次部分和每个第二轮次部分相关联的意图类型,从而形成第一轮次意图类型的集合和第二轮次意图类型的集合。所述方法还包括:基于所述第一轮次意图类型的集合和所述第二轮次意图类型的集合以及用户交互的所述一个或多个序列,确定转移概率的集合。
在一些实施例中,所述方法还包括:至少部分基于所述转移概率的集合,确定分别与所述第二轮次部分的集合的子集中的第二轮次部分相对应的语言模型的集合,从而形成会话上下文模型。在一些实施例中,所述方法还包括:确定与所述知识源的至少一个第二轮次部分相关联的权重;以及基于所述权重来提供语言模型。在一些实施例中,所述方法还包括:针对每个第一轮次部分,基于相应的第一交互的数量来确定所述第一轮次部分的权重;以及针对每个第二轮次部分,基于相应的第二交互的数量来确定所述第二轮次部分的权重。
在又一个方面中,提供了具有体现在其上的计算机可执行指令的一个或多个计算机可读介质,当由具有处理器和存储器的计算***执行时,所述计算机可执行指令使所述计算***执行用于提供适用于会话上下文的语言模型的方法。所述方法包括:接收第一查询;将所述第一查询映射到个性化的知识源的第一子空间;以及基于所述映射和所述个性化的知识源来确定与第二查询相对应的转移统计的第一集合。所述方法还包括:基于所述转移统计的第一集合来提供与所述第二查询一起使用的一个或多个语言模型。
在一些实施例中,所述个性化的知识源包括多个相关子空间集合,每个相关子空间集合包括:第一子空间、一个或多个第二子空间,每个第二子空间与可能的第二查询相对应,并且与每个第二子空间相关联的转移统计表示所述第二子空间被从所述第一子空间转移到的可能性。另外,在一些实施例中,所述相关子空间集合还包括一个或多个第三子空间,每个第三子空间与可能的第三查询相对应,并且其中,在给定从所述第一子空间向特定第二子空间的转移的情况下,所述转移统计还表示特定第三子空间被从特定第二子空间转移到的可能性。在一些实施例中,所述方法还包括:接收所述第二查询;将所述第二查询映射到个性化的知识源的所述一个或多个第二子空间中的一个;基于所述映射和所述个性化的知识源来确定与第三查询相对应的转移统计的第二集合;以及基于所述转移统计的第二集合来提供与所述第三查询一起使用的一个或多个第三轮次语言模型。

Claims (10)

1.具有体现在其上的计算机可执行指令的一个或多个计算机可读介质,当由具有处理器和存储器的计算***执行时,所述计算机可执行指令使所述计算***执行用于基于用户历史来提供适用于会话上下文的语言模型的方法,所述方法包括:
接收包括用户交互事件的一个或多个序列的使用历史信息;
针对所述一个或多个序列中的每个事件,确定与所述事件相对应的可能的用户意图;
基于针对每个事件所确定的所述可能的用户意图,确定意图转移概率的集合;以及
使用所述意图转移概率的集合来生成针对所述用户进行个性化的语言模型。
2.根据权利要求1所述的一个或多个计算机可读介质,其中,所述使用历史信息包括一个或多个用户会话日志。
3.根据权利要求1所述的一个或多个计算机可读介质,其中,所述转移概率的集合中的每个转移概率表示从与所述一个或多个序列中的第一序列中的第一事件相对应的第一意图向与所述一个或多个序列中的所述第一序列中的第二事件相对应的第二意图转移的可能性。
4.根据权利要求1所述的一个或多个计算机可读介质,其中,所提供的语言模型是至少部分基于所述意图转移概率的集合中的意图转移概率的子集来进行内插的。
5.一种用于基于用户历史信息来提供会话上下文模型的方法,所述方法包括:
接收包括关于用户交互的一个或多个序列的信息的使用历史信息,每个序列至少包括第一交互和第二交互;
针对所述一个或多个序列中的每个第一交互,确定与所述第一交互相对应的知识源的第一轮次部分;
针对所述一个或多个序列中的每个第二交互,确定与所述第二交互相对应的知识源的第二轮次部分,从而形成第二轮次部分的集合;
确定与每个第一轮次部分和每个第二轮次部分相关联的意图类型,从而形成第一轮次意图类型的集合和第二轮次意图类型的集合;
基于所述第一轮次意图类型的集合和所述第二轮次意图类型的集合以及所述用户交互的一个或多个序列,确定转移概率的集合;以及
至少部分基于所述转移概率的集合,确定每一个语言模型都与所述第二轮次部分的集合的子集中的第二轮次部分相对应的语言模型的集合,从而生成会话上下文模型。
6.根据权利要求5所述的方法,还包括:
确定与所述知识源的至少一个第二轮次部分相关联的权重;以及
基于所述权重来提供语言模型。
7.根据权利要求5所述的方法,其中,所述转移概率的集合中的每个转移概率表示从第一轮次意图类型向第二轮次意图类型转移的可能性。
8.一种用于提供适用于会话上下文的语言模型的计算机实现的方法,所述方法包括:
接收第一查询;
将所述第一查询映射到个性化的知识源的第一子空间;
基于所述映射和所述个性化的知识源来确定与第二查询相对应的转移统计的第一集合;以及
基于所述转移统计的第一集合来生成与所述第二查询一起使用的一个或多个语言模型。
9.根据权利要求8所述的计算机实现的方法,其中,所述个性化的知识源包括多个相关的子空间集合,每个相关的子空间集合包括:第一子空间、一个或多个第二子空间,每个第二子空间与可能的第二查询相对应,并且与每个第二子空间相关联的转移统计表示被从所述第一子空间转移去所述第二子空间的可能性。
10.根据权利要求8所述的计算机实现的方法,其中,每个子空间包括实体-实体对或实体和关系中的至少一个,并且其中,每个子空间与意图或域相关联。
CN201580032500.6A 2014-06-18 2015-06-17 用于对话理解***的会话上下文建模的方法和*** Active CN106575503B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/308,174 2014-06-18
US14/308,174 US20150370787A1 (en) 2014-06-18 2014-06-18 Session Context Modeling For Conversational Understanding Systems
PCT/US2015/036116 WO2015195729A1 (en) 2014-06-18 2015-06-17 Session context modeling for conversational understanding systems

Publications (2)

Publication Number Publication Date
CN106575503A true CN106575503A (zh) 2017-04-19
CN106575503B CN106575503B (zh) 2020-12-25

Family

ID=53541902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580032500.6A Active CN106575503B (zh) 2014-06-18 2015-06-17 用于对话理解***的会话上下文建模的方法和***

Country Status (7)

Country Link
US (1) US20150370787A1 (zh)
EP (1) EP3158559B1 (zh)
JP (1) JP6657124B2 (zh)
CN (1) CN106575503B (zh)
BR (1) BR112016028797A2 (zh)
RU (1) RU2693184C2 (zh)
WO (1) WO2015195729A1 (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107369443A (zh) * 2017-06-29 2017-11-21 北京百度网讯科技有限公司 基于人工智能的对话管理方法及装置
CN108255934A (zh) * 2017-12-07 2018-07-06 北京奇艺世纪科技有限公司 一种语音控制方法及装置
CN108597499A (zh) * 2018-04-02 2018-09-28 联想(北京)有限公司 语音处理方法以及语音处理装置
CN109002475A (zh) * 2018-06-15 2018-12-14 联想(北京)有限公司 内容输出方法及***、计算机***及计算机可读存储介质
CN109392309A (zh) * 2017-06-13 2019-02-26 谷歌有限责任公司 建立与非注册资源的基于音频的网络会话
CN109844741A (zh) * 2017-06-29 2019-06-04 微软技术许可有限责任公司 在自动聊天中生成响应
CN109857844A (zh) * 2018-12-29 2019-06-07 北京三快在线科技有限公司 基于点餐对话文本的意图识别方法、装置、电子设备
CN110070862A (zh) * 2018-01-19 2019-07-30 国际商业机器公司 基于状态的对话***的基于本体的自动引导的方法和***
WO2019144858A1 (zh) * 2018-01-23 2019-08-01 苏州思必驰信息科技有限公司 人机对话方法及电子设备
CN110136705A (zh) * 2019-04-10 2019-08-16 华为技术有限公司 一种人机交互的方法和电子设备
CN110603545A (zh) * 2017-04-26 2019-12-20 谷歌有限责任公司 组织在与自动化助理的人机对话中交换的消息
CN110869969A (zh) * 2017-06-29 2020-03-06 微软技术许可有限责任公司 用于在通信会话内生成个性化响应的虚拟助手
CN110892395A (zh) * 2017-06-28 2020-03-17 微软技术许可有限责任公司 提供增强的通信会话服务的虚拟助手
CN111797241A (zh) * 2020-06-17 2020-10-20 北京北大软件工程股份有限公司 基于强化学习的事件论元抽取方法及装置
CN112183708A (zh) * 2019-07-02 2021-01-05 国际商业机器公司 认知机器人过程自动化
CN112204656A (zh) * 2018-05-29 2021-01-08 简单对话合同会社 高效对话配置
CN112433598A (zh) * 2019-08-07 2021-03-02 科沃斯商用机器人有限公司 人机交互方法、设备及存储介质
CN112840335A (zh) * 2018-10-04 2021-05-25 微软技术许可有限责任公司 用于浏览器的以用户为中心的上下文信息
CN113168500A (zh) * 2019-01-22 2021-07-23 索尼集团公司 信息处理设备、信息处理方法及程序
CN113692617A (zh) * 2019-04-30 2021-11-23 微软技术许可有限责任公司 使用对话上下文来改善语言理解

Families Citing this family (138)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
KR102131099B1 (ko) * 2014-02-13 2020-08-05 삼성전자 주식회사 지식 그래프에 기초한 사용자 인터페이스 요소의 동적 수정 방법
JP6359327B2 (ja) * 2014-04-25 2018-07-18 シャープ株式会社 情報処理装置および制御プログラム
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10120955B2 (en) * 2014-07-18 2018-11-06 Nuance Communications, Inc. State tracking over machine-learned relational trees in a dialog system
EP3195307B1 (en) * 2014-09-14 2020-01-29 Google LLC Platform for creating customizable dialog system engines
GB2545813B (en) * 2014-10-15 2021-08-11 Google Llc Identifying teachable moments for contextual search
US10090002B2 (en) * 2014-12-11 2018-10-02 International Business Machines Corporation Performing cognitive operations based on an aggregate user model of personality traits of users
US10282409B2 (en) 2014-12-11 2019-05-07 International Business Machines Corporation Performance modification based on aggregation of audience traits and natural language feedback
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9966073B2 (en) * 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US9870196B2 (en) 2015-05-27 2018-01-16 Google Llc Selective aborting of online processing of voice inputs in a voice-enabled electronic device
US10083697B2 (en) 2015-05-27 2018-09-25 Google Llc Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device
CN105094315B (zh) * 2015-06-25 2018-03-06 百度在线网络技术(北京)有限公司 基于人工智能的人机智能聊天的方法和装置
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US20170024375A1 (en) * 2015-07-26 2017-01-26 Microsoft Technology Licensing, Llc Personal knowledge graph population from declarative user utterances
US10803391B2 (en) * 2015-07-29 2020-10-13 Google Llc Modeling personal entities on a mobile device using embeddings
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US11216735B2 (en) * 2015-10-05 2022-01-04 Verizon Media Inc. Method and system for providing synthetic answers to a personal question
US10832145B2 (en) * 2015-10-05 2020-11-10 International Business Machines Corporation Techniques for resolving entities in received questions
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10521410B2 (en) * 2015-11-20 2019-12-31 International Business Machines Corporation Semantic graph augmentation for domain adaptation
KR102450853B1 (ko) * 2015-11-30 2022-10-04 삼성전자주식회사 음성 인식 장치 및 방법
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
JP6481643B2 (ja) * 2016-03-08 2019-03-13 トヨタ自動車株式会社 音声処理システムおよび音声処理方法
CN107293294B (zh) * 2016-03-31 2019-07-16 腾讯科技(深圳)有限公司 一种语音识别处理方法及装置
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10026398B2 (en) * 2016-07-08 2018-07-17 Google Llc Follow-up voice query prediction
US10055481B2 (en) * 2016-07-20 2018-08-21 LogsHero Ltd. Method and system for automatic event classification
US10268734B2 (en) 2016-09-30 2019-04-23 International Business Machines Corporation Providing search results based on natural language classification confidence information
US11288574B2 (en) 2016-10-20 2022-03-29 Microsoft Technology Licensing, Llc Systems and methods for building and utilizing artificial intelligence that models human memory
US20180314729A9 (en) * 2016-10-28 2018-11-01 Roam Analytics, Inc. Semantic parsing engine
US20180144257A1 (en) * 2016-11-21 2018-05-24 Sap Se Cognitive enterprise system
US11275894B2 (en) 2016-11-21 2022-03-15 Sap Se Cognitive enterprise system
US10600418B2 (en) 2016-12-07 2020-03-24 Google Llc Voice to text conversion based on third-party agent content
CN106710596B (zh) 2016-12-15 2020-07-07 腾讯科技(上海)有限公司 回答语句确定方法及装置
CN106649694B (zh) * 2016-12-19 2020-05-26 北京云知声信息技术有限公司 语音交互中确定用户意图的方法及装置
CN106649696B (zh) * 2016-12-19 2020-05-26 北京云知声信息技术有限公司 信息分类方法及装置
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10713317B2 (en) * 2017-01-30 2020-07-14 Adobe Inc. Conversational agent for search
US10339927B2 (en) 2017-02-16 2019-07-02 GM Global Technology Operations LLC Vehicle control systems and methods for multi-intent queries input by voice
KR102304701B1 (ko) * 2017-03-28 2021-09-24 삼성전자주식회사 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770432A1 (en) * 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10847148B2 (en) * 2017-07-14 2020-11-24 International Business Machines Corporation Dynamic personalized multi-turn interaction of cognitive models
CN110019824A (zh) * 2017-07-20 2019-07-16 苏州狗尾草智能科技有限公司 基于知识图谱的人机交互方法、装置及***
US11436469B2 (en) 2017-07-31 2022-09-06 Microsoft Technology Licensing, Llc Knowledge graph for conversational semantic search
US10869060B2 (en) * 2018-01-30 2020-12-15 Google Llc Efficient context model computation design in transform coefficient coding
CN110110053B (zh) * 2018-02-01 2023-09-26 国际商业机器公司 在间接话语和事务之间建立逻辑连接
US11954613B2 (en) 2018-02-01 2024-04-09 International Business Machines Corporation Establishing a logical connection between an indirect utterance and a transaction
US20190266286A1 (en) * 2018-02-28 2019-08-29 Jordi Torras Method and system for a semantic search engine using an underlying knowledge base
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
CN110569494B (zh) * 2018-06-05 2023-04-07 北京百度网讯科技有限公司 用于生成信息的方法、装置、电子设备及可读介质
US10580176B2 (en) 2018-06-28 2020-03-03 Microsoft Technology Licensing, Llc Visualization of user intent in virtual agent interaction
US20200005117A1 (en) * 2018-06-28 2020-01-02 Microsoft Technology Licensing, Llc Artificial intelligence assisted content authoring for automated agents
US11005786B2 (en) 2018-06-28 2021-05-11 Microsoft Technology Licensing, Llc Knowledge-driven dialog support conversation system
CN109410948A (zh) * 2018-09-07 2019-03-01 北京三快在线科技有限公司 通信方法、装置、***、计算机设备以及可读存储介质
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN111144124B (zh) * 2018-11-02 2023-10-20 华为技术有限公司 机器学习模型的训练方法、意图识别方法及相关装置、设备
KR20200059703A (ko) * 2018-11-21 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN109902149B (zh) * 2019-02-21 2021-08-13 北京百度网讯科技有限公司 查询处理方法和装置、计算机可读介质
EP3938931A4 (en) 2019-03-11 2022-12-07 Parexel International, LLC METHODS, DEVICE AND SYSTEMS FOR ANNOUNCING TEXT DOCUMENTS
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11380304B1 (en) * 2019-03-25 2022-07-05 Amazon Technologies, Inc. Generation of alternate representions of utterances
CN109977215B (zh) 2019-03-29 2021-06-18 百度在线网络技术(北京)有限公司 基于关联兴趣点的语句推荐方法和装置
US10916237B2 (en) 2019-03-29 2021-02-09 Microsoft Technology Licensing, Llc Training utterance generation
US10970278B2 (en) * 2019-03-29 2021-04-06 Microsoft Technology Licensing, Llc Querying knowledge graph with natural language input
US10867132B2 (en) * 2019-03-29 2020-12-15 Microsoft Technology Licensing, Llc Ontology entity type detection from tokenized utterance
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11687553B2 (en) 2019-05-21 2023-06-27 Sisense Ltd. System and method for generating analytical insights utilizing a semantic knowledge graph
US11663498B2 (en) * 2019-05-21 2023-05-30 Sisense Ltd. System and method for generating organizational memory using semantic knowledge graphs
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11698918B2 (en) 2019-05-21 2023-07-11 Sisense Ltd. System and method for content-based data visualization using a universal knowledge graph
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
KR102339085B1 (ko) * 2019-07-22 2021-12-14 엘지전자 주식회사 사용자의 어플리케이션 사용 기록을 고려하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
US11176147B2 (en) 2019-07-25 2021-11-16 Microsoft Technology Licensing, Llc Querying a relational knowledgebase that provides data extracted from plural sources
US11295732B2 (en) * 2019-08-01 2022-04-05 Soundhound, Inc. Dynamic interpolation for hybrid language models
US11580310B2 (en) * 2019-08-27 2023-02-14 Google Llc Systems and methods for generating names using machine-learned models
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
DE102019133720A1 (de) * 2019-12-10 2021-06-10 Bayerische Motoren Werke Aktiengesellschaft Verbesserte Spracherkennung
CN111128183B (zh) * 2019-12-19 2023-03-17 北京搜狗科技发展有限公司 语音识别方法、装置和介质
CN111460118B (zh) * 2020-03-26 2023-10-20 聚好看科技股份有限公司 一种人工智能冲突语义识别方法及装置
CN111324643B (zh) * 2020-03-30 2023-08-29 北京百度网讯科技有限公司 知识图谱的生成方法、关系挖掘方法、装置、设备和介质
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN113836275B (zh) * 2020-06-08 2023-09-05 菜鸟智能物流控股有限公司 对话模型建立方法、装置、非易失性存储介质和电子装置
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN111651615B (zh) * 2020-07-24 2023-06-13 上海茂声智能科技有限公司 一种基于知识图谱进行人机交互的方法和***
CN112380331A (zh) * 2020-11-16 2021-02-19 北京京东尚科信息技术有限公司 信息推送的方法和装置
US20220164680A1 (en) * 2020-11-24 2022-05-26 International Business Machines Corporation Environment augmentation based on individualized knowledge graphs
US11393475B1 (en) * 2021-01-13 2022-07-19 Artificial Solutions Iberia S.L Conversational system for recognizing, understanding, and acting on multiple intents and hypotheses
CN113362131B (zh) * 2021-06-02 2022-09-13 合肥工业大学 一种融合知识图谱和用户交互的图模型智能商品推荐方法
US11861263B1 (en) * 2021-08-24 2024-01-02 X Development Llc Robust natural language based control of computer applications
US11822894B1 (en) * 2022-12-30 2023-11-21 Fmr Llc Integrating common and context-specific natural language understanding processing in a virtual assistant application

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1112698A (zh) * 1994-05-23 1995-11-29 北京超凡电子科技有限公司 汉语语音识别***的拼音校正法
US20040128624A1 (en) * 1998-09-11 2004-07-01 Sbc Technology Resources, Inc. System and methods for an architectural framework for design of an adaptive, personalized, interactive content delivery system
CN1703923A (zh) * 2002-10-18 2005-11-30 中国科学院声学研究所 一种便携式数字移动通讯设备及其语音控制方法和***
CN1874375A (zh) * 2006-06-23 2006-12-06 北京邮电大学 用于语音增值业务***的预取语音资源的实现方法
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US20100057687A1 (en) * 2008-09-04 2010-03-04 Microsoft Corporation Predicting future queries from log data
CN101989424A (zh) * 2009-07-30 2011-03-23 索尼公司 语音处理设备和方法及程序
CN102368256A (zh) * 2010-09-30 2012-03-07 微软公司 基于用户意图提供建议
CN102750125A (zh) * 2011-04-19 2012-10-24 无锡天堂软件技术有限公司 基于语音的控制方法与控制***
US20120271631A1 (en) * 2011-04-20 2012-10-25 Robert Bosch Gmbh Speech recognition using multiple language models
US8352246B1 (en) * 2010-12-30 2013-01-08 Google Inc. Adjusting language models
CN103065630A (zh) * 2012-12-28 2013-04-24 安徽科大讯飞信息科技股份有限公司 用户个性化信息语音识别方法及***
US20130152092A1 (en) * 2011-12-08 2013-06-13 Osher Yadgar Generic virtual personal assistant platform
CN103268348A (zh) * 2013-05-28 2013-08-28 中国科学院计算技术研究所 一种用户查询意图识别方法
CN103760984A (zh) * 2014-01-24 2014-04-30 成都万先自动化科技有限责任公司 人机对话***

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60036295T2 (de) * 2000-12-08 2008-05-29 Sony Deutschland Gmbh Schnittstelle auf hoher Ebene für dienstqualitätbasierte mobile Multimedia-Anwendungen
US7363027B2 (en) * 2003-11-11 2008-04-22 Microsoft Corporation Sequential multimodal input
ES2237345B1 (es) * 2005-02-28 2006-06-16 Prous Institute For Biomedical Research S.A. Procedimiento de conversion de fonemas a texto escrito y sistema informatico y programa informatico correspondientes.
US20120166371A1 (en) * 2005-03-30 2012-06-28 Primal Fusion Inc. Knowledge representation systems and methods incorporating data consumer models and preferences
WO2008001485A1 (fr) * 2006-06-26 2008-01-03 Nec Corporation système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue
JP5772214B2 (ja) * 2010-05-24 2015-09-02 株式会社デンソー 音声認識装置
US9679562B2 (en) * 2012-09-06 2017-06-13 GM Global Technology Operations LLC Managing in vehicle speech interfaces to computer-based cloud services due recognized speech, based on context
US9875494B2 (en) * 2013-04-16 2018-01-23 Sri International Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1112698A (zh) * 1994-05-23 1995-11-29 北京超凡电子科技有限公司 汉语语音识别***的拼音校正法
US20040128624A1 (en) * 1998-09-11 2004-07-01 Sbc Technology Resources, Inc. System and methods for an architectural framework for design of an adaptive, personalized, interactive content delivery system
CN1703923A (zh) * 2002-10-18 2005-11-30 中国科学院声学研究所 一种便携式数字移动通讯设备及其语音控制方法和***
CN1874375A (zh) * 2006-06-23 2006-12-06 北京邮电大学 用于语音增值业务***的预取语音资源的实现方法
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US20100057687A1 (en) * 2008-09-04 2010-03-04 Microsoft Corporation Predicting future queries from log data
CN101989424A (zh) * 2009-07-30 2011-03-23 索尼公司 语音处理设备和方法及程序
CN102368256A (zh) * 2010-09-30 2012-03-07 微软公司 基于用户意图提供建议
US8352246B1 (en) * 2010-12-30 2013-01-08 Google Inc. Adjusting language models
CN102750125A (zh) * 2011-04-19 2012-10-24 无锡天堂软件技术有限公司 基于语音的控制方法与控制***
US20120271631A1 (en) * 2011-04-20 2012-10-25 Robert Bosch Gmbh Speech recognition using multiple language models
US20130152092A1 (en) * 2011-12-08 2013-06-13 Osher Yadgar Generic virtual personal assistant platform
CN103065630A (zh) * 2012-12-28 2013-04-24 安徽科大讯飞信息科技股份有限公司 用户个性化信息语音识别方法及***
CN103268348A (zh) * 2013-05-28 2013-08-28 中国科学院计算技术研究所 一种用户查询意图识别方法
CN103760984A (zh) * 2014-01-24 2014-04-30 成都万先自动化科技有限责任公司 人机对话***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
COSIMO PALMISANO ET AL.: "《Using Context to Improve Predictive Modeling of Customers in Personalization Applications》", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING ( VOLUME: 20 , ISSUE: 11 , NOV. 2008 )》 *
王立才 等: "《上下文感知推荐***》", 《软件学报》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110603545A (zh) * 2017-04-26 2019-12-20 谷歌有限责任公司 组织在与自动化助理的人机对话中交换的消息
CN110603545B (zh) * 2017-04-26 2024-03-12 谷歌有限责任公司 用于组织消息的方法、***和非瞬时性计算机可读介质
US11475900B2 (en) 2017-06-13 2022-10-18 Google Llc Establishment of audio-based network sessions with non-registered resources
CN109392309B (zh) * 2017-06-13 2022-02-22 谷歌有限责任公司 建立与非注册资源的基于音频的网络会话
CN109392309A (zh) * 2017-06-13 2019-02-26 谷歌有限责任公司 建立与非注册资源的基于音频的网络会话
CN110892395A (zh) * 2017-06-28 2020-03-17 微软技术许可有限责任公司 提供增强的通信会话服务的虚拟助手
CN110892395B (zh) * 2017-06-28 2024-01-23 微软技术许可有限责任公司 提供增强的通信会话服务的虚拟助手
US11809829B2 (en) 2017-06-29 2023-11-07 Microsoft Technology Licensing, Llc Virtual assistant for generating personalized responses within a communication session
CN107369443A (zh) * 2017-06-29 2017-11-21 北京百度网讯科技有限公司 基于人工智能的对话管理方法及装置
CN110869969B (zh) * 2017-06-29 2023-10-31 微软技术许可有限责任公司 用于在通信会话内生成个性化响应的虚拟助手
CN109844741A (zh) * 2017-06-29 2019-06-04 微软技术许可有限责任公司 在自动聊天中生成响应
CN110869969A (zh) * 2017-06-29 2020-03-06 微软技术许可有限责任公司 用于在通信会话内生成个性化响应的虚拟助手
CN107369443B (zh) * 2017-06-29 2020-09-25 北京百度网讯科技有限公司 基于人工智能的对话管理方法及装置
CN109844741B (zh) * 2017-06-29 2023-09-01 微软技术许可有限责任公司 在自动聊天中生成响应
CN108255934B (zh) * 2017-12-07 2020-10-27 北京奇艺世纪科技有限公司 一种语音控制方法及装置
CN108255934A (zh) * 2017-12-07 2018-07-06 北京奇艺世纪科技有限公司 一种语音控制方法及装置
CN110070862A (zh) * 2018-01-19 2019-07-30 国际商业机器公司 基于状态的对话***的基于本体的自动引导的方法和***
WO2019144858A1 (zh) * 2018-01-23 2019-08-01 苏州思必驰信息科技有限公司 人机对话方法及电子设备
US11735163B2 (en) 2018-01-23 2023-08-22 Ai Speech Co., Ltd. Human-machine dialogue method and electronic device
CN108597499A (zh) * 2018-04-02 2018-09-28 联想(北京)有限公司 语音处理方法以及语音处理装置
CN112204656A (zh) * 2018-05-29 2021-01-08 简单对话合同会社 高效对话配置
CN109002475B (zh) * 2018-06-15 2021-12-24 联想(北京)有限公司 内容输出方法及***、计算机***及计算机可读存储介质
CN109002475A (zh) * 2018-06-15 2018-12-14 联想(北京)有限公司 内容输出方法及***、计算机***及计算机可读存储介质
CN112840335A (zh) * 2018-10-04 2021-05-25 微软技术许可有限责任公司 用于浏览器的以用户为中心的上下文信息
CN109857844B (zh) * 2018-12-29 2022-01-14 北京三快在线科技有限公司 基于点餐对话文本的意图识别方法、装置、电子设备
CN109857844A (zh) * 2018-12-29 2019-06-07 北京三快在线科技有限公司 基于点餐对话文本的意图识别方法、装置、电子设备
CN113168500A (zh) * 2019-01-22 2021-07-23 索尼集团公司 信息处理设备、信息处理方法及程序
CN110136705A (zh) * 2019-04-10 2019-08-16 华为技术有限公司 一种人机交互的方法和电子设备
CN113692617A (zh) * 2019-04-30 2021-11-23 微软技术许可有限责任公司 使用对话上下文来改善语言理解
CN112183708A (zh) * 2019-07-02 2021-01-05 国际商业机器公司 认知机器人过程自动化
CN112433598A (zh) * 2019-08-07 2021-03-02 科沃斯商用机器人有限公司 人机交互方法、设备及存储介质
CN112433598B (zh) * 2019-08-07 2024-06-04 科沃斯商用机器人有限公司 人机交互方法、设备及存储介质
CN111797241B (zh) * 2020-06-17 2023-08-22 北京北大软件工程股份有限公司 基于强化学习的事件论元抽取方法及装置
CN111797241A (zh) * 2020-06-17 2020-10-20 北京北大软件工程股份有限公司 基于强化学习的事件论元抽取方法及装置

Also Published As

Publication number Publication date
EP3158559A1 (en) 2017-04-26
JP6657124B2 (ja) 2020-03-04
US20150370787A1 (en) 2015-12-24
CN106575503B (zh) 2020-12-25
BR112016028797A2 (pt) 2017-08-22
RU2016149498A (ru) 2018-06-20
JP2017518588A (ja) 2017-07-06
EP3158559B1 (en) 2018-05-23
RU2016149498A3 (zh) 2019-01-30
WO2015195729A1 (en) 2015-12-23
RU2693184C2 (ru) 2019-07-01

Similar Documents

Publication Publication Date Title
CN106575503A (zh) 用于对话理解***的会话上下文建模
CN111602147B (zh) 基于非局部神经网络的机器学习模型
US11727677B2 (en) Personalized gesture recognition for user interaction with assistant systems
CN106462608B (zh) 改进语言模型的知识源个性化
US11657094B2 (en) Memory grounded conversational reasoning and question answering for assistant systems
US11314941B2 (en) On-device convolutional neural network models for assistant systems
US20190156206A1 (en) Analyzing Spatially-Sparse Data Based on Submanifold Sparse Convolutional Neural Networks
Pavlidis Recommender systems, cultural heritage applications, and the way forward
CN110737783B (zh) 一种推荐多媒体内容的方法、装置及计算设备
JP2015162244A (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
CN106537387B (zh) 检索/存储与事件相关联的图像
CN109101505A (zh) 一种推荐方法、推荐装置和用于推荐的装置
TW202301081A (zh) 輔助系統之基於真實世界文字偵測的任務執行
CN113486260B (zh) 互动信息的生成方法、装置、计算机设备及存储介质
CN112749332A (zh) 数据处理方法、装置以及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant