CN110692048B

CN110692048B - 会话中任务改变的检测

Info

Publication number: CN110692048B
Application number: CN201880033380.5A
Authority: CN
Inventors: 斯特凡·舍恩马克尔斯; 阿米特·斯里瓦斯塔瓦; 劳伦斯·威廉姆·科拉乔瓦尼; 三吉卡·赫瓦维塔拉纳; 阿基亚·戈拉克纳特·卡莱; 文·库赫
Original assignee: eBay Inc
Current assignee: eBay Inc
Priority date: 2017-03-20
Filing date: 2018-03-19
Publication date: 2023-08-15
Anticipated expiration: 2038-03-19
Also published as: KR20190131065A; US12020701B2; US11170769B2; CN110692048A; US20220020375A1; WO2018175291A1; US20180268818A1; KR102318502B1

Abstract

提出了用于检测会话中任务改变的方法、***和计算机程序。接收来自用户设备的用户话语。用户话语是与智能助理的会话的一部分。会话包括进行第一任务时的先前用户话语。基于对用户话语和先前用户话语应用机器学习模型，确定用户话语指示从第一任务到第二任务的任务改变。已在一段时间内利用其他用户的过去话语反复训练了该机器学习模型，所述确定是基于所述指示的确定性满足确定性阈值。响应于确定用户话语指示从第一任务到第二任务的任务改变，生成对用户话语的回复，以推进第二任务而不是第一任务。

Description

会话中任务改变的检测

相关申请的交叉引用

本申请要求于2017年3月20日提交的美国临时申请第62/473,816号的权益，其全部内容通过引用并入本文中。

技术领域

本文所公开的主题通常涉及有助于在网络服务内对会话中的任务改变进行检测的专用机器的技术领域，包括这样的专用机器的软件配置的计算机化变体以及对这样的变体的改进，并且本文所公开的主题还涉及以下技术：通过该技术，与有助于对会话中的任务改变进行检测的其他专用机器相比，这样的专用机器得到改进。

背景技术

会话具有传统交互(例如与搜索引擎或其他类型输入的交互)所没有的多个挑战。主要挑战之一是：用户可能在会话中的任何时间点放弃当前任务并且切换到新任务。为了提供良好的用户体验并且帮助用户实现目标，重要的是检测这些任务改变何时发生。

尽管任务改变对于人类是明显的，但是该问题在算法上是难以解决的。例如，如果用户搜索第一项目类型并且被问到“您要寻找什么颜色”，那么如果用户回答“红色，谢谢”，则用户想要看到红色的第一项目类型，而如果用户说“红色的[第二项目类型]”，则用户意图寻找第二项目类型。在句法上这些话语是相同的，但它们表达了非常不同的意愿。

能够使用手工编制的启发式规则(hand-crafted heuristic rules)来检测任务改变。然而，这样的手工编制仅在狭窄的环境下有用，并且对于每一组狭窄的环境都需要劳动密集的手工编制。

附图说明

附图中的各个附图仅示出了本公开内容的示例实施方式，并且不能被认为限制本公开内容的范围。

图1是示出了根据一些示例实施方式的联网***的框图。

图2是示出根据一些示例实施方式的智能助理的操作的图。

图3示出了根据一些示例实施方式的人工智能(AI)框架的特征。

图4是示出根据一些示例实施方式的服务架构的图。

图5是根据一些示例实施方式的用于实现AI框架的框图。

图6是根据一些示例实施方式的示例会话生成部件的框图。

图7是根据一些示例实施方式的生成会话(包括确定和继续任务)的方法的流程图。

图8是根据一些示例实施方式的执行会话的方法的流程图。

图9是根据一些示例实施方式的确认任务的方法的流程图。

图10是根据一些示例实施方式的重新训练机器学习***以用于会话的方法的流程图。

图11是根据一些示例实施方式的训练机器学习***以用于会话的方法的流程图。

图12是示出根据一些示例实施方式的可以安装在机器上的软件架构的示例的框图。

具体实施方式

一种基于数据驱动的、基于机器学习的方法可以识别各种会话中的任务改变。离线阶段以一组标记的示例来训练机器学习会话模型，包括检测任务改变。在线阶段使用经训练的机器学习模型来指导会话，包括检测会话中的各个时间点处的任务改变。各种示例实施方式针对离线阶段、在线阶段、或离线阶段和在线阶段的组合。任务是用户试图通过会话达到的目标。例如，可能正在查找特定项目，为另一项目获得项目的建议，跟踪先前交易(如订单)，提交关于交易的反馈等。使用诸如自动代理的代理来执行各种示例。

各个实施方式利用与用户的非会话网络交互的数据库来指导多个模拟会话，使得用户试图完成的任务的结构化表示已经是已知的，并且用户是正在继续其当前任务还是正在开始新任务的结构化表示已经是已知的，并且以用户如何表达任务目标的表面形式来训练机器学习模型。

在示例实施方式中，提出了用于检测会话中的任务改变的方法、***和计算机程序。包含来自用户设备的所记录的用户话语的文件被访问。用户话语是用户设备与智能助理之间的会话的一部分。会话包括进行第一任务时的先前用户话语。基于对用户话语和先前用户话语应用机器学习模型，确定用户话语指示从第一任务到第二任务的任务改变。机器学习模型已在一段时间内利用其他用户的过去话语进行了反复训练，所述确定是基于该指示的确定性满足确定性阈值。响应于确定用户话语指示从第一任务到第二任务的任务改变，生成对用户话语的回复以推进第二任务而不是第一任务。

图1是示出了根据一些示例实施方式的联网***的框图。参照图1，示出了基于客户端服务器的高层级网络架构100的示例实施方式。联网***102是基于网络的市场或支付***的示例形式，联网***102经由网络104(例如，因特网或广域网(WAN))向一个或更多个客户端设备110提供服务器端功能。图1示出了例如在客户端设备110上执行的web客户端112(例如，浏览器，诸如由华盛顿州雷蒙德市的微软公司(Corporation)开发的因特网浏览器(Internet/>))、应用114以及编程式客户端116。

客户端设备110可以包括但不限于：移动电话、台式计算机、膝上型计算机(laptop)、便携式数字助理(PDA)、智能电话、平板电脑、超级本、上网本、膝上型电脑(laptops)、多处理器***、基于微处理器或可编程消费电子产品、游戏控制台、机顶盒或用户可以利用以访问联网***102的任何其他通信设备。在一些实施方式中，客户端设备110可以包括显示模块(未示出)以显示信息(例如，以用户界面的形式)。在另外的实施方式中，客户端设备110可以包括触摸屏、加速度计、陀螺仪、摄像装置、麦克风、全球定位***(GPS)设备等中的一个或更多个。客户端设备110可以是用户的用于在联网***102内执行涉及数字项目的交易的设备。在一个实施方式中，联网***102是基于网络的市场，其对产品列表的请求进行响应，发布包括在基于网络的市场上可获得的产品的项目列表的发布物，并且管理这些市场交易的支付。一个或更多个用户106可以是人、机器或与客户端设备110交互的其他装置。在实施方式中，用户106不是网络架构100的一部分，但是可以经由客户端设备110或另外的装置与网络架构100交互。例如，网络104的一个或更多个部分可以是自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网的一部分、公共交换电话网络(PSTN)的一部分、蜂窝电话网络、无线网络、WiFi网络、WiMax网络、其它类型的网络、或者两个或更多个这样的网络的组合。

客户端设备110中的每一个可以包括一个或更多个应用(也称为“app”)，例如但不限于web浏览器、消息传送应用、电子邮件(email)应用、电子商务站点应用(也被称为市场应用)等。在一些实施方式中，如果电子商务站点应用被包括在客户端设备110中的给定一个中，则该应用被配置成在本地提供用户界面和至少一些功能，其中该应用被配置成在根据需要的基础上，针对在本地不可获得的数据或处理能力(例如，访问可供销售的项目的数据库、认证用户、验证支付方法等)与联网***102进行通信。相比之下，如果电子商务站点应用未包括在客户端设备110中，则客户端设备110可以使用其web浏览器来访问在联网***102上托管的电子商务站点(或其变体)。

一个或更多个用户106可以是人、机器或与客户端设备110交互的其他装置。在示例性实施方式中，用户106不是网络架构100的一部分，但可以经由客户端设备110或其他装置与网络架构100交互。例如，用户向客户端设备110提供输入(例如，触摸屏输入或字母数字输入)，并且该输入经由网络104被传送至联网***102。在这种情况下，联网***102响应于从用户接收到输入，经由网络104将信息传送至客户端设备110以呈现给用户。以这种方式，用户可以使用客户端设备110与联网***102进行交互。

应用程序接口(API)服务器216和web服务器218耦接至一个或更多个应用服务器140，并且向一个或更多个应用服务器140分别提供编程接口和web接口。应用服务器140托管包括人工智能框架144的智能个人助理***142，人工智能框架144中的每一个可以包括一个或更多个模块或应用，并且人工智能框架144中的每一个可以体现为硬件、软件、固件或其任何组合。

应用服务器140又被示为耦接至便于访问一个或更多个信息存储库或数据库226的一个或更多个数据库服务器226。在示例实施方式中，数据库226是存储要发布到发布***242的信息(例如，发布或列表)的存储设备。根据示例实施方式，数据库226还可以存储数字项目信息。

此外，在第三方服务器130上执行的第三方应用132被示为具有经由API服务器216所提供的编程接口对联网***102的编程访问。例如，使用从联网***102检索到的信息的第三方应用132支持由第三方托管的网站上的一个或更多个特征或功能。例如，第三方网站提供由联网***102的相关应用支持的一个或更多个促销、市场或支付功能。

此外，虽然图1所示的基于客户端-服务器的网络架构100采用了客户端-服务器架构，但是本发明主题当然不限于这样的架构，并且同样可以在例如分布式或对等式(peer-to-peer)架构***中找到应用。各种发布***102和人工智能框架***144也可以实现为独立的软件程序，其不一定具有联网能力。

web客户端212可以经由web服务器218所支持的web接口访问智能个人助理***142。类似地，编程客户端116经由API服务器216所提供的编程接口访问由智能个人助理***142提供的各种服务和功能。

此外，在(一个或更多个)第三方服务器130上执行的(一个或更多个)第三方应用132被示为经由API服务器114所提供的编程接口对联网***102进行编程访问。例如，使用从联网***102检索的信息的第三方应用132可以支持由第三方托管的网站上的一个或更多个特征或功能。例如，第三方网站可以提供由联网***102的相关应用支持的一个或更多个促销、市场或支付功能。

图2是示出根据一些示例实施方式的智能助理的操作的图。当今的在线购物是非个性化的、单向的，而不是会话的。购买者不能说普通的语言以表达他们的意愿，因此很难传达意图。在商业网站上购物通常比与销售人员或朋友谈论产品更困难，因此购买者经常难以找到他们想要的产品。

实施方式呈现了个人购物助理(也被称为智能助理)，该个人购物助理支持与购物者的双向通信以构建上下文(context)并且理解购物者的意图，从而能够传递更好的、个性化的购物结果。智能助理具有自然的、类似人的对话，这可以容易地帮助购买者，从而增加购买者再次使用智能助理进行未来购买的可能性。

人工智能框架144理解用户和可用库存，以响应自然语言查询，并且能够在预测和理解客户及其需求方面提供渐进式改进。

人工智能框架(AIF)144包括对话管理器504、自然语言理解(NLU)206、会话指导230、语音识别210、搜索218、协调器220以及基于显著性的对象计数和定位。AIF 144能够接收不同种类的输入，例如文本输入212、图像输入214和语音输入216，以生成相关结果222。如本文中所使用的，AIF 144包括由对应的服务器实现的多个服务(例如，NLU 206、会话指导230)，并且术语服务或服务器可以用于标识服务和对应的服务。

自然语言理解(NLU)206单元处理正式和非正式语言的自然语言文本输入212，检测文本的意图，以及提取有用信息，例如感兴趣的对象及其属性。因此，可以使用来自额外知识的丰富信息将自然语言用户输入转换成结构化查询，以进一步丰富查询。然后，通过协调器220将该信息传递给对话管理器504，以用于与用户或整个***中的其他部件的进一步的动作。结构化且丰富的查询还被搜索218使用，以用于改进的匹配。文本输入可以是对产品的查询、对先前查询的细化、或用于相关对象的其他信息(例如，鞋码)。

会话指导230将来自用户或机器人的会话话语作为输入，并且执行会话生成以便用适当的回复话语进行响应，以助于用户的任务和动作。语音识别210将语音216作为输入，并且执行语言识别以将语音转换成文本，然后将该文本传送到NLU以进行处理。在示例实施方式中，经由输入设备(例如，麦克风)捕获话语，并且将话语作为记录(例如，作为一个或更多个电子文件中的音频数据)存储在一个或更多个计算机存储器中。例如，音频记录的音频数据可以被包括在一个或更多个容器中，并且由一个或更多个编解码器进行编码或解码。文件格式可以是无压缩、无损压缩或有损压缩音频格式中的一个或多个。

NLU 206确定对象、与对象相关联的方面、如何创建搜索接口输入以及如何生成响应。例如，AIF 144可以向用户询问问题以弄清楚用户正在寻找什么。这意味着AIF 144不仅生成结果，而且还可以创建一系列交互操作以获得最佳或接近最佳的结果222。

例如，响应于查询“你能给我找到一双红色耐克鞋吗？”，AIF 144可以生成以下参数：<意图：购物；语句类型：问句；主导对象：鞋子；目标：自身；颜色：红色；品牌：耐克>。对于查询“我正在为我的妻子寻找一副太阳镜”，NLU可以生成<意图：购物；语句类型：陈述句；主导对象：太阳镜；目标：妻子；目标性别：女性>。

对话管理器504是如下模块：该模块分析用户的查询以提取含义，并且在将查询发送至搜索218之前确定是否存在需要被询问以便细化查询的问题。对话管理器504在用户与人工智能框架144之间的先前通信的上下文情况下使用当前通信。根据(例如，由知识图提供的)累积的知识以及搜索能够从库存中提取的内容的组合来自动生成问题。对话管理器的工作是针对用户创建响应。例如，如果用户说“你好”，则对话管理器504生成响应“嗨，我的名字是机器人”。

协调器220协调人工智能框架144内的其他服务之间的交互。下面参照图5提供关于协调器220与其他服务的交互的更多细节。

图3示出了根据一些示例实施方式的人工智能框架(AIF)144的特征。AIF 144能够与若干输入通道304(例如本地商务应用、聊天应用、社交网络、浏览器等)交互。此外，AIF144理解用户表达的意图306。例如，意图可以包括用户在寻找好的交易、或者用户在寻找礼物、或者用户在进行购买特定产品的任务、用户在寻找建议等。

此外，AIF 144执行从多个源(例如社交网络、电子邮件、日历、新闻、市场趋势等)的主动数据提取310。AIF 144获知用户细节312，例如用户偏好、期望价格范围、尺码、密切关系等。AIF 144促进服务网络内的多个服务，例如产品搜索、个性化、推荐、结账特征等。输出308可以包括推荐、结果等。

AIF 144是智能且友好的***，该***理解用户的意图(例如，有针对性的搜索、比较、购物、浏览)、必选参数(例如，产品、产品类别、项目)、可选参数(例如，项目的方面、颜色、尺码、场合)，以及隐性信息(例如，地理定位、个人偏好、年龄、性别)。AIF 144以普通语言通过精心设计的响应进行回应。

例如，AIF 144可以处理输入查询，例如：“嘿！请问你可以帮我为我女朋友找一双浅粉色的鞋吗？带有高跟。最高200美元。谢谢”；“我最近搜索了有经典詹姆斯迪安外观的男士皮夹克。想象几乎就是新星球大战电影中哈里森福特的皮夹克。然而，我正在寻找200美元至300美元的价格范围内的质量。也许不可能，但是我想看到！”；或者“我正在寻找黑色的北面聚热球(Northface Thermoball)夹克。”

替代于硬编码***，AIF 144提供具有机器学习能力的可配置的、灵活的接口以进行持续改进。AIF 144支持以下商业***：该商业***提供价值(将用户连接到用户想要的东西)、智能(了解和学习用户以及用户行为，以推荐正确的项目)、便利(提供多个用户界面)、易于使用以及高效率(节省用户时间和金钱)。

图4是示出根据一些实施方式的服务架构400的图。服务架构400呈现服务架构的各种视图，以便描述如何在各种数据中心或云服务上部署服务架构。架构400表示用于实现本文描述的实施方式的合适环境。

服务架构402表示云架构通常如何对用户、开发者等呈现。架构通常是在图1的其他视图中表示的实际底层架构实现方式的抽象表示。例如，服务架构402包括多个层，该多个层表示与服务架构402相关联的不同功能和/或服务。

体验服务层404表示从最终顾客的角度来看的、构建在不同的客户端平台上的服务和特征的逻辑分组，例如在平台(移动电话、台式机等)上运行的应用、基于web的呈现(移动web、桌面web浏览器等)，等等。体验服务层404包括呈现用户界面以及向客户端平台提供信息，使得可以呈现适当的用户接口、捕获客户端输入等。在市场的上下文中，驻留在该层中的服务的示例是主页(例如，主页视图)、查看项目列表、搜索/查看搜索结果、购物车、购买用户接口和有关服务、销售用户接口和有关服务、售后体验(发布交易、反馈等)等。在其他***的上下文中，体验服务层404将结合由***实现的这些终端用户服务和体验。

API层406包含允许与业务过程和核心层交互的API。这允许针对服务架构402进行第三方开发，并且允许第三方在服务架构402之上开发额外服务。

业务过程服务层408是针对所提供的服务，业务逻辑所驻留的位置。在市场的上下文中，这是实现诸如用户注册、用户登录、列表创建和发布、添加到购物车、提供报价、结账、发送***、打印标签、发货、退货等服务的地方。业务过程服务层408还在各种业务逻辑与数据实体之间进行协调，并且因此表示共享服务的组合。该层中的业务过程还可以支持多租户，以提高与一些云服务架构的兼容性。

数据实体服务层410在直接数据访问周围实施隔离，并且包含更高级别的层所依赖的服务。因此，在市场上下文中，该层可以包括诸如订单管理、金融机构管理、用户帐户服务等的底层服务。该层中的服务通常支持多租户。

基础设施服务层412包括那些不专用于正在实现的服务架构类型的服务。因此，在市场的上下文中，该层中的服务是不专用于或不特定于市场的服务。因此，如加密功能、密钥管理、CAPTCHA、认证和授权、配置管理、日志记录、跟踪、文档和管理等的功能驻留在该层中。

通常将在这些层中的一个或多个中实现本公开内容的实施方式。具体地，AIF144，以及协调器220和AIF 144的其他服务。

数据中心414是各种资源池416及其组成缩放单元(scale unit)的表示。该数据中心表示示出了在云计算模型中实现服务架构402所带来的缩放和弹性。资源池416包括服务器(或计算)缩放单元420、网络缩放单元418和存储缩放单元422。缩放单元是作为能够在数据中心内部署的最小单元的服务器、网络和/或存储单元。缩放单元允许根据需求的增加或减少而部署或移除更多容量。

网络缩放单元418包含可以部署的一个或更多个网络(例如，网络接口单元等)。网络可以包括例如虚拟LAN。计算缩放单元420通常包括包含多个处理单元(例如，处理器)的单元(服务器等)。存储缩放单元422包含一个或更多个存储设备，例如盘、存储附接网络(SAN)、网络附接存储(NAS)设备等。这些在下面的描述中总体地示出为SAN。每个SAN可以包括一个或更多个卷、盘等。

图1的剩余视图示出了服务架构400的另一示例。该视图更加注重硬件，并且示出了在图1的其他视图中的更加逻辑的架构之下的资源。云计算架构通常具有多个服务器或其他***424、426。这些服务器包括多个真实和/或虚拟服务器。因此服务器424包括服务器1以及虚拟服务器1A、1B、1C等。

服务器连接至一个或更多个网络，例如网络A 428和/或网络B 430，并且/或者通过所述一个或更多个网络互连。服务器还连接至多个存储设备，例如SAN 1(436)、SAN 2(438)等。SAN通常通过网络(如SAN访问A 432和/或SAN访问B 434)连接至服务器。

计算缩放单元420通常是服务器424和/或426的一些方面，如处理器和与其相关联的其他硬件。网络缩放单元418通常包括或至少利用所示网络A(428)和B(432)。存储缩放单元通常包括SAN 1(436)和/或SAN 2(438)的一些方面。因此，逻辑服务架构402可以被映射到物理架构。

本文中描述的实施方式的服务和其他实现方式将在服务器或虚拟服务器上运行，并且利用各种硬件资源来实现所公开的实施方式。

图5是根据一些示例实施方式的用于实现AIF 144的框图。具体地，图2的智能个人助理***142被示出为包括：前端部件502(FE)，智能个人助理***142通过该前端部件502(FE)与网络架构100内的其他***(例如，在网络104上)通信。前端部件502可以与现有消息传送***的结构(fabric)通信。如本文所使用的，术语“消息传送结构”是指可以为诸如脸书信使、微软科塔娜(Cortana)和其他“机器人”的第三方平台提供支持的API和服务的集合。在一个示例中，消息传送结构可以支持允许用户交流商业意图的在线商务生态***。可以在客户端设备(例如，图1中的客户端设备110，其作为与智能个人助理的接口的一部分)的显示器中呈现前端部件502的输出。

智能个人助理***142的前端部件502耦接至用于前端的后端部件504(BFF)，该后端部件504进行操作以将前端部件502与AIF 144链接。人工智能框架144包括以下讨论的若干部件。

在一个示例实施方式中，协调器220协调人工智能框架144内部的部件和外部的部件的通信。可以根据会话指导部件230、语音识别部件210和文本标准化部件(其可以形成语音识别部件210的一部分)得出AI协调器206的输入模态。会话指导部件230可以促进与用户或机器人的会话。语音识别部件210将音频信号(例如，讲出的话语)转换成文本。文本标准化部件操作以进行输入标准化，例如通过将情感符呈现成文本来进行语言标准化。其他标准化是可能的，例如，字形标准化、外语标准化、会话文本标准化等。

人工智能框架144还包括自然语言理解(NLU)部件206，该自然语言理解(NLU)部件206进行操作以解析和提取用户意图和意图参数(例如，必选或可选参数)。NLU部件206被示为包括子部件，例如拼写校正器(拼写器)、解析器、命名实体识别(NER)子部件、知识图和词义检测器(WSD)。

人工智能框架144还包括对话管理器204，该对话管理器204进行操作以理解(例如，诸如搜索查询或话语的输入的)“特征的完整性(completeness of specificity)”，并且决定下一动作类型和参数(例如，“搜索”或“从用户请求更多信息”)。在一个示例中，对话管理器204与上下文管理器518和自然语言生成(NLG)部件512相关联地操作。上下文管理器518管理用户关于在线个人助理(或“机器人”)的上下文和通信以及助理的相关联的人工智能。上下文管理器518包括两个部分：长期历史和短期存储器。例如，进入这些部分中的一个或两个部分中的数据条目可以包括给定输入的相关意图和所有参数以及所有有关结果、机器人交互、或通信的轮次(turn)。NLG部件512进行操作以根据AI消息构造自然语言话语，以呈现给与智能机器人交互的用户。

搜索部件218也包括在人工智能框架144内。如图所示，搜索部件218具有前端单元和后端单元。后端单元进行操作以管理项目和产品库存，并且提供搜索库存、针对意图的特定元组和意图参数进行优化的功能。身份服务522部件(可以构成或可以不构成人工智能框架144的部分)进行操作以管理用户简档，例如用户属性形式的显性信息(例如，“姓名”、“年龄”、“性别”、“地理位置”)，以及例如“信息提炼”形式的隐性信息，例如“用户兴趣”或“相似角色”等。身份服务522包括一组策略、API和服务，其很好地集中所有用户信息，从而使得AIF 144能够对用户的意愿具有洞察力。此外，身份服务522保护商业***及其用户免于被欺诈或恶意使用私人信息。

会话指导230也包括在人工智能框架144内。结合图6讨论会话指导部件230。

人工智能框架144的功能可以被设置成多个部分，例如决策制定部分和上下文部分。在一个示例中，决策制定部分包括由以下进行的操作：协调器220、NLU部件206及其子部件、对话管理器204、NLG部件512、会话指导部件230和语音识别部件210。AI功能的上下文部分涉及围绕用户的参数(隐性和显性)和传达的意图(例如，针对给定的库存或其他方面)。在一些示例实施方式中，为了随着时间的推移测量和提高AI质量，可以使用样本查询(例如，开发集合)来训练人工智能框架144，并且在不同的查询集合(例如，[0001]评估集合)上测试人工智能框架144，该两个集合要由人工整理(human curation)来开发或者来自使用数据。此外，根据有经验的整理专家所定义的交易和交互流或人工覆写(human override)524来训练人工智能框架144。在人工智能框架144的各种部件内编码的流程和逻辑定义了智能助理基于所识别的用户意图而做出的后续话语或呈现(例如，问题、结果集合)。

智能个人助理***142试图理解用户的意图(例如，有针对性的搜索、比较、购物，浏览等)、必选参数(例如，产品、产品类别、项目等)、以及可选参数(例如，诸如项目/产品的方面、场合等的显性信息)、以及隐性信息(例如，地理位置、个人偏好、年龄和性别等)，并且通过内容丰富和智能的回应来响应用户。显性输入模态可以包括文本、语音和视觉输入，并且可以利用用户的隐性知识(例如，地理位置、性别、出生地、先前的浏览历史等)来丰富。输出模态可以包括文本(例如，语音或自然语言句子，或产品相关信息)，以及智能设备(例如，客户端设备110)的屏幕上的图像。因此，输入模态是指用户可以与机器人通信的不同方式。输入模态还可以包括键盘或鼠标导航、触敏姿势等。

关于会话指导部件230的模态，会话为用户提供方便的输入和输出。此外，在移动电话上键入复杂文本查询是不方便的，并且长的文本查询通常具有较差的查全率(recall)。会话指导部件230的示例功能包括任务跟踪、任务改变和动作跟踪。在移动设备上运行时，具有会话功能的机器人是有益的。强大的深度神经网络可以用于启动会话生成应用。

参考语音识别部件210，特征提取部件进行操作以将原始音频波形转换成表示声音的某一维度的数的向量。该部件使用深度学习将原始信号投射到高维度语义空间中。声学模型部件进行操作以托管语音单元的统计模型，例如，音位(phonemes)和音位变体(allophones)。这些可以包括高斯混合模型(GMM)，但是也可以使用深度神经网络。语言模型部件使用语法的统计模型来定义词在句子中的组合方式。这样的模型可以包括基于n-gram的模型或建立在词嵌入之上的深度神经网络。语音到文本(STT)解码器部件通常以以下方式将语音话语转换为词序列：利用使用隐马尔可夫模型(HMM)框架中的特征提取部件、声学模型部件和语言模型部件从原始信号中得出的特征，以从特征序列得出词序列。在一个示例中，在云端的语音到文本服务将这些部件部署在具有API的云框架中，该API允许发布音频样本以用于语音话语以及检索对应的词序列。控制参数可以用于定制或影响语音到文本的处理。

机器学习算法可以用于由AIF 144服务进行的匹配、相关和最终重新排序。机器学习是给予计算机学习的能力无需被明确编程的研究领域。机器学习探索可以从数据中学习和基于数据进行预测的算法的研究和构建。这样的机器学习算法通过根据示例输入构建模型来进行操作，以便做出数据驱动的预测或决策，其被表达为输出。机器学习算法也可以用于教导如何实现处理。

可以使用深度学习模型、深度神经网络(DNN)、递归神经网络(RNN)、卷积神经网络(CNN)和长短期CNN以及其他ML模型和IR模型。例如，搜索218可以使用n-gram、实体和基于语义向量的查询来进行产品匹配。深度学习的语义向量使得能够直接将产品与非文本输入进行匹配。多级相关过滤可以使用BM25、预测的查询叶类别+产品叶类别、查询与产品之间的语义向量相似性、以及其他模型来选择最终重新排序算法下的前几个候选产品。

预测的点击率和转化率以及GMV构成了最终重排序方案，以朝向特定的业务目标、更多的购物参与度、更多的产品购买或更多的GMV轻微调整功能。点击预测和转换预测模型两者将查询、用户、销售者和产品作为输入信号。通过从登录管理(onboarding)、补充管理(sideboarding)和用户行为中学习来丰富用户简档，以提高针对各个用户由匹配阶段、相关阶段和排序阶段中的每一个阶段所使用的模型的精确度。为了提高模型改进的速度，在在线A/B测试之前使用离线评估管道。

在人工智能框架144的一个示例中，提供了用于语音识别部件210的两个附加部分，即扬声器适配部件和LM适配部件。扬声器适配部件允许STT***的客户端(例如，语音识别部件210)针对每个扬声器定制特征提取部件和声学模型部件。这可能是重要的，因为大多数语音到文本***都是根据来自目标区域的代表性扬声器组的数据进行训练的，并且通常***的准确度在很大程度上取决于目标扬声器与训练池中的扬声器匹配的程度如何。扬声器适配部件允许语音识别部件210(并且因此，人工智能框架144)通过不断学习用户的语调、发音、口音和其他语音因素的特质并且将这些特质应用于语音相关部件(例如，特征提取部件和声学模型部件)而对扬声器的变化具有鲁棒性。虽然该方法利用要为每个扬声器创建和保存的非显著尺寸的语音简档，但是准确度的潜在益处通常远远超过存储缺点。

语言模型(LM)适配部件进行操作，以使用来自目标域(例如，库存类别或用户角色)的新词和代表性语句来定制语言模型部件和语音到文本词汇。该能力允许人工智能框架144是可缩放的，因为支持新的类别和角色。

AIF的目标是针对AI提供可缩放和可扩展的框架，其中可以使用执行特定自然语言处理功能的服务动态地完成新活动(本文中也被称为任务)。添加新服务不需要重新设计整个***。替代地，如果需要，则准备服务(例如，使用机器学习算法)，并且协调器被配置有与新活动有关的新序列。下面提供关于序列配置的更多细节。

本文中呈现的实施方式提供了协调器220的动态配置，以学习新意图以及如何响应新意图。在一些示例实施方式中，协调器220通过接收与新活动相关联的新序列的配置来“学习”新技能。序列规范包括协调器220与来自AIF 144的一个或更多个服务服务器的集合之间的交互序列。在一些示例实施方式中，序列的每个交互(至少)包括：针对服务服务器的识别、要通过调用而传递至所识别的服务服务器的调用参数定义；以及由所识别的服务服务器返回的响应参数定义。

在一些示例实施方式中，除了协调器220之外，AIF 144内的服务不知道彼此，例如，它们不直接彼此交互。协调器220管理与其他服务器的所有交互。具有中央协调资源简化了其他服务的实现方式，其不需要知道其他服务提供的接口(例如，API)。当然，可以存在着以下一些情况：在成对的服务之间可以支持直接接口。

图6是示出根据一些示例实施方式的会话指导部件230的部件的框图。会话指导部件230被示为包括任务部件610、任务改变部件630和动作部件640，它们均被配置成彼此通信(例如，经由总线、共享存储器或交换机)。在一些实施方式中，会话指导部件230与上下文管理器部件518、自然语言生成部件512和人工智能框架144的其他部件结合操作。可以使用硬件(例如，机器的一个或更多个处理器)或硬件和软件的组合来实现本文中描述的模块中的任何一个或多个。例如，本文描述的任何模块可以将处理器(例如，机器的一个或多个处理器中的处理器)配置成执行为该模块设计的操作。此外，这些模块中的任何两个或更多个可以组合成单个模块，并且可以在多个模块之间细分本文中针对单个模块描述的功能。此外，根据各种示例实施方式，本文中描述为在单个机器、(一个或多个)数据库126、或设备(例如，客户端设备110)内实现的模块可以跨多个机器、(一个或多个)数据库126或设备而分布。

图7是根据一些示例实施方式的开始新类型的任务并且确定是否继续该任务的方法700的流程图。虽然顺序地呈现和描述该流程图中的各种操作，但是普通技术人员将理解，操作中的一些或全部可以以不同的顺序来执行、被组合或省略，或者并行执行。方法700中的操作可以由会话指导部件230的任务部件610使用上面参照图6描述的部件来执行。在一些实施方式中，方法700的操作由上下文管理器部件518、自然语言生成部件512和人工智能框架144的其他部件执行，或者与上下文管理器部件518、自然语言生成部件512和人工智能框架144的其他部件结合地来执行。

在操作705中，会话指导部件230的任务部件610开始新任务类型。在一些实施方式中，从操作新任务类型#1 710、新任务类型#2 720和新任务类型#3 730中选择新任务类型。以相应的操作继续任务类型#1712、继续任务类型#2 722以及继续任务类型#3 732来继续每个新任务类型。然后，会话指导部件230的任务部件610确定是否继续相应的任务。如果继续相应的任务，则迭代相应的任务。如果不继续相应的任务，则该方法循环回到操作705以开始新的任务类型。

图8是根据一些示例实施方式的执行会话的方法800的流程图。方法800能够应用于在线阶段和离线阶段两者。然而，在在线阶段中，该方法在一个或多个步骤处或在一个或多个步骤之间执行与机器学习模型的通信，以获得关于这是新任务还是当前任务的继续的预测，并且使用该预测来指导***，并随着会话展开帮助跟踪会话。

操作810从支持的任务类型中为用户选择新的任务类型。

操作812选择该任务类型的目标(例如，针对任务类型的特定开始查询)，识别针对该目标的任何所需的支持数据(例如，针对该查询的所允许的细化或动作)，并且利用这些信息初始化用户的会话上下文。

操作814调用自然语言生成器以生成表达该任务类型的目标的话语(例如，以文本、音频或图像形式)。该话语被发送至代理。

操作816从可以被模拟的(simulated)代理或实际代理接收回复。基于回复更新上下文。

操作818基于当前上下文和会话历史，选择是继续任务还是结束任务。如果继续执行任务，则进行操作820。如果结束任务，则进行操作810。

操作820基于当前上下文和会话历史，在会话中选择用户此时想要执行的动作。该动作可以是回答代理提出的问题，为其初始查询指定其他细化，改变先前的细化，以及/或者基于当前上下文提出问题等。利用该动作来更新上下文。

操作822调用自然语言生成器以生成话语，该话语表达针对该任务类型、动作和上下文的动作。该话语被发送至代理。

操作824从可以被模拟的代理或实际代理接收回复，并且基于该回复来更新上下文。

操作826基于当前上下文和会话历史，选择是继续任务还是结束任务。如果继续执行任务，则进行操作818。如果结束任务，则进行操作828。

操作828选择是否针对该会话生成最终话语。如果针对该会话生成最终话语，则操作828调用自然语言生成器，并且将最终话语发送至代理(例如，用户可以在会话结束时说“再见”)。

操作830选择是否开始新的会话。如果开始新的会话，则进行操作810。

在各种示例实施方式中，可以基于期望的行为、观察到的用户行为来确定选择，根据某种概率来随机选择，可以从聚合统计数据中选取选择，或者被选择以突出期望的情况或具有挑战性的情况。

图9是根据一些示例实施方式的确认任务的方法的流程图。

操作910响应于任务的上下文和历史而访问任务改变的概率。操作920响应于任务改变的不充分确定性，向用户询问是否改变任务。操作930响应于用户，继续当前任务或开始新任务。在另一示例实施方式中，如果任务改变的确定性充足，则模型继续进行新任务/改变任务。

如果模型不确定用户的最近话语是否表示任务改变(例如，在一个示例实施方式中，如果任务改变的预测概率为约50％)，则代理直接要求用户澄清。

基于规则的任务改变检测器通常不能这样做；基于规则的任务改变检测器仅发出二元决策——开始新任务与继续当前任务。这样的***通常决定一种方式或另一种方式，并且继续进行，这可能会在***错误时导致不良的用户体验。

图10是根据一些示例实施方式的重新训练机器学习***以用于会话的方法的流程图。在操作1010中，关于是继续当前任务还是开始新任务，收集来自图9的用户响应。操作1020利用用户响应来训练机器学习模型。

可以跟踪图9中的用户响应，然后将其用作附加标签以重新训练模型。这些示例特别有用，因为它们是模型不确定的“困难情况”。

图11是根据一些示例实施方式的离线训练机器学习***以用于会话的方法1100的流程图。操作1110访问诸如来自数据库126的结构化数据，该数据库126具有与用户的先前交易的记录。在一些实施方式中，这样的记录来自与用户的非会话交互(诸如搜索查询)，使得利用非会话交易的记录来训练会话机器学习模型。操作1120根据结构化数据来指导会话。操作1130用结构化数据和会话来训练机器学习***。由于会话的源是来自于具有已知结果的过去交易，因此训练具有负面和/或正面的反馈，以指导机器学习***匹配过去交易的结果。一些示例实施方式的进一步细节如下。

离线阶段开始于来自过去交易的多个示例会话。在一些示例实施方式中，过去的交易具有数据，该数据包括在会话中的每个时间点是否继续当前任务或是否开始新任务。在其他实施方式中，该数据是根据明确询问实际用户、根据手动标记或根据某些其他源而生成的。

生成已标记的训练示例，其对应于会话中的每个轮次。已标记的训练示例包括：1)分析本轮次的话语；2)基于(一个或多个)话语、话语的分析、先前的会话历史、会话和任务的所得出的上下文等来得出特征；以及3)将标签和所得出的特征提供给机器学习算法，以训练机器学习模型，该机器学习模型基于所得出的特征来预测这是新任务还是任务继续。

下面描述示例性使用实例。

会话分析可以包括拼写校正、句法或语义解析、命名实体提取、名词短语识别和/或其他步骤。所得出的特征可以包括基于话语的文本特征、基于命名实体提取结果的数字特征、话语(或从话语中得出的值)与先前的话语/问题之间的字符串或词相似性、基于与当前任务有关的上下文和/或已知值的与结构化数据的字符串或词相似性、或适合提供给机器学习算法的任何其他特征。机器学习算法可以是神经网络、梯度提升机(gradientboosted machine)、随机森林或任何其他算法。各种示例实施方式提供关于这是新任务还是当前任务的继续的预测，或者提供关于这是新任务或还是继续的概率估计。

为了在电子商务上下文中模拟这样的会话，将用户建模为具有上下文的状态机。在会话的每一轮次，***都会选择是保持当前状态还是过渡到新状态。在做出决定之后，基于用户的当前状态以及到目前为止会话的上下文，选择用户想要执行的动作。例如，***可以选择回答代理的问题，细化当前任务的某些方面，或开始具有特定目标的新任务。当动作被决定时，根据对会话状态的信任来更新所模拟的用户的上下文。然后，生成该动作的自然语言表示，并且模拟向代理说/键入/说出/发送该自然语言表示的用户。可选地，跟踪代理对会话的理解，以识别用户和代理有分歧的地方。最终，在每个步骤处跟踪并且存储状态、动作、上下文、自然语言表示、上下文、代理响应等，以供将来使用。

为了模拟购物查询，利用了非会话搜索的记录。例如，跟踪单独的用户并且将用户交互转换成会话。例如，站点上的用户可以从对“耐克鞋”的文本查询开始。然后，用户应用搜索过滤器，以将结果限制为9码和红色。在看到结果之后，用户将颜色过滤器调整为黑色。最终，用户改变他或她的主意，并且开始重新搜索“T恤”。

如下根据该交互来模拟会话。1)通过说“我想要一些耐克鞋”来模拟用户开始新任务；2)使代理用尺码问题作出响应；3)通过说“9码，谢谢”来模拟用户继续任务；4)使代理用关于颜色的问题作出响应；5)通过说用户要求“给我看看红色的”来模拟用户继续任务；6)使代理用关于价格的问题作出响应；7)通过说“换成黑色的怎么样？”来模拟用户继续任务(这模拟用户没有直接响应代理的问题，这在会话中可能发生)；8)使代理用一些更新的结果以及关于材质的问题作出响应；以及9)通过说“给我看看T恤”来模拟用户开始新任务。上面的话语是可以由自然语言生成***生成的示例，作为交互地表达相同动作的方式。

替选地，***聚集大量用户的行为，并且使用聚集的行为来模拟如上所述的各个动作序列。例如，***可以随机选择查询以开始新任务(可能地，但不必须地，基于站点上的文本查询受欢迎程度)。根据该查询，***知道哪些搜索过滤器或其他动作将是可用的，以及哪些用户通常使用。然后，***使代理选择要提出的问题或要显示的响应，并且***为所模拟的用户选择值，以进行“选择”(可能与代理选择的问题无关)。该***知道用户多久调整一次先前选择的过滤器(例如，更改价格范围、寻找不同的颜色/品牌等)并且使用这个来告知那些交互。在这种情况下，跟踪上下文对于生成真实的会话很重要，使得我们的模拟用户例如不会重复地指定相同的颜色。

在这种情况下，选择可以基于实际用户或基于实际代理的响应而被确定，基于受欢迎程度被随机选择，被均匀地随机选择，被选择以突出困难的交互(例如，模糊的品牌、可能看起来与当前任务有关的新任务等)，或通过其他方法被确定。

一些示例实施方式将搜索过滤器用于这些步骤。其他示例实施方式扩展了模拟以支持与当前任务有关的其他交互。例如，***模拟用户询问“还有什么其它颜色”以查看额外选项，询问“有什么区别”以响应关于存储器大小的问题，等等。这些示例可以与传统搜索引擎中显示的额外信息(例如，购买指南)直接对应，但不一定如此。在不存在对应的用户交互的情况下，***会估算所模拟的用户应在何时以及如何执行该动作。

此外，尽管该使用实例关注一种任务类型，但是示例实施方式适用于其他任务类型。例如，用户可以通过选择丢失的订单、选择问题描述并编写评论来报告丢失的订单。***可以通过以下操作将其模拟为“反馈任务”：例如，使所模拟的用户通过说“我从未收到我订购的鞋子”而开始新任务，并且然后从此开始执行动作。此外，模拟可以以类似的方式支持脚本化场景和其他更开放式的场景(例如，购物任务)。

该方法中的步骤是自然语言生成，其中模拟器生成与用户期望的动作对应的自然语言话语。实际上，该话语既取决于期望的动作，也取决于会话的当前上下文。例如，如果代理刚刚询问用户想要什么颜色，则“黑色”和“黑色，谢谢”是用户可以响应的自然方式。然而，如果代理刚刚询问用户想要什么材质，则“黑色”可以被理解，但不是传达目标的自然方式。相反，用户更有可能说诸如“你有黑色的鞋子吗？”或“我可以看看黑色的鞋子吗”之类的话语。

话语取决于上下文以及期望的动作。话语可以经由模板实例化、LSTM神经网络或任何其他替选方法来生成。例如，如果话语是从模板生成的，则这些模板可以具有可以替换期望值的位置(例如，“你有<颜色>的鞋子吗？”)，并且可以包含表达同一目标的各种不同的方式。此外，为了使话语更真实，***可以检测用户不太可能知道和键入的值，并且将这些值转换成更接近于用户表达数据的方式的值。例如，鞋跟高度的搜索过滤器可以是“低(3/4英寸至11/2英寸)”，但是用户不太可能准确键入该值。相反，用户会说类似“低”或“1英寸”的话。最终，为了使话语更加真实，***还可以对话语应用一些后处理变换，例如删除一些词，引入拼写错误等。

图12是示出根据一些示例实施方式的机器1200的部件的框图，机器1200能够从机器可读介质(例如，机器可读存储介质)读取指令，并且执行本文中讨论的方法中的任何一种或多种。具体地，图12示出了计算机***的示例形式的机器1200的示意表示，在该机器1200中可以执行用于使机器1200执行本文讨论的方法中的任何一种或多种的指令1210(例如，软件、程序、应用、小程序、app或其他可执行代码)。例如，指令1210可以使机器1200执行图1至图11的示例实施方式。另外地或替选地，指令1210可以实现与图1至图11的服务和部件相关联的服务器等。指令1210将通用的未编程机器1200转换成特定机器1200，该特定机器1200被编程为以所描述的方式执行所描述和所示出的功能。

在替选实施方式中，机器1200作为独立设备操作，或者可以耦接(例如，联网)至其他机器。在联网部署中，机器1200可以以服务器-客户端网络环境中的服务器机器或客户端机器的身份进行操作，或者作为对等(或分布式)网络环境中的对等机器进行操作。机器1200可以包括但不限于：交换器、控制器、服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体***、蜂窝电话、智能电话、移动设备、可穿戴设备(例如，智能手表)、智能家居设备(例如，智能电器)、其他智能设备、web设备、网络路由器、网络交换机、网络桥接器、或者能够顺序地或以其他方式执行指令1210的任何机器，其中该指令1210指定要由机器1200采取的动作。此外，虽然仅示出了单个机器1200，但是术语“机器”还应该被理解为包括单独地或联合地执行指令1210以执行本文中讨论的任何一种或多种方法的机器1200的集合。

机器1200可以包括处理器1204、存储器/存储装置1206和I/O部件1218，处理器1204、存储器/存储装置1206和I/O部件1218可以被配置成例如经由总线1202相互通信。在示例实施方式中，处理器1204(例如，中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另外的处理器或其任何合适的组合)可以包括例如可以执行指令1210的处理器1208和处理器1212。术语“处理器”意图包括多核处理器，该多核处理器可以包括可以同时执行指令的两个或更多个独立处理器(有时称为“核”)。尽管图12示出了多个处理器1204，但是机器1200可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如，多核处理器)、具有单个核的多个处理器、具有多个核的多个处理器、或者其任意组合。

存储器/存储装置1206可以包括诸如主存储器或其他存储器存储装置的存储器1214以及存储单元1216，这两者都能够由处理器1204例如经由总线1202访问。存储单元1216和存储器1214存储实现本文中描述的任何一个或多个方法或功能的指令1210。指令1210还可以在其被机器1200执行期间完全地或部分地驻留在存储器1214内、存储单元1216内、至少一个处理器1204内(例如，在处理器的高速缓冲存储器内)或它们的任何合适的组合内。因此，存储器1214、存储单元1216和处理器1204的存储器是机器可读介质的示例。

如本文中使用的，“机器可读介质”是指能够临时地或永久地存储指令和数据的设备，可以包括但不限于：随机存取存储器(RAM)、只读存储器(ROM)、缓冲存储器、闪速存储器、光学介质、磁性介质、高速缓冲存储器、其他类型的存储装置(例如，可擦除可编程只读存储器(EEPROM))和/或其任意合适组合。术语“机器可读介质”应被视为包括能够存储指令1210的单个介质或多个介质(例如，集中式或分布式数据库或相关联的高速缓冲存储器和服务器)。术语“机器可读介质”还应该被认为包括下述任何介质或多个介质的组合：所述任何介质或多个介质的组合能够存储用于被机器(例如，机器1200)执行的指令(例如，指令1210)，使得指令在被机器的一个或更多个处理器(例如，处理器1204)执行时，使机器执行本文中描述的方法中的任何一种或多种。因此，“机器可读介质”是指单个存储装置或设备，以及包括多个存储装置或设备的“基于云”的存储***或存储网络。术语“机器可读介质”不包括信号本身。

I/O部件1218可以包括用于接收输入、提供输出、产生输出、传送信息、交换信息、捕获测量等的各种各样的部件。在特定机器中包括的具体I/O部件1218将取决于机器的类型。例如，诸如移动电话的便携式机器很可能包括触摸输入设备或其他这样的输入机构，而无终端服务器(headless server)机器很可能不包括这样的触摸输入设备。将理解的是，I/O部件1218可以包括图12中未示出的许多其他部件。根据功能对I/O部件1218进行分组仅仅出于简化以下讨论的目的，分组决不是限制性的。在各种示例实施方式中，I/O部件1218可以包括输出部件1226和输入部件1228。输出部件1226可以包括视觉部件(例如，诸如等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT)的显示器)、声学部件(例如，扬声器)、触觉部件(例如，振动马达、阻力机构)、其他信号发生器等。输入部件1228可以包括字母数字输入部件(例如，键盘、被配置成接收字母数字输入的触摸屏、光电键盘(photo-optical keyboard)或其他字母数字输入部件)、基于点的输入部件(例如，鼠标、触摸板、跟踪球、操纵杆、运动传感器或其他指向仪器)、触觉输入部件(例如，物理按钮、提供触摸的位置和/或力或触摸姿势的触摸屏、或其他触觉输入部件)、音频输入部件(例如，麦克风)等。

在另外的示例实施方式中，I/O部件1218可以包括生物特征部件1230、运动部件1234、环境部件1236或位置部件1238等各种其他部件。例如，生物特征部件1230可以包括用于检测表达(例如，手部表达、面部表情、声音表达、身体姿势或眼睛跟踪)、测量生物信号(例如，血压、心率、体温、出汗或脑波)、识别人(例如，语音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的部件。运动部件1234可以包括加速度传感器部件(例如，加速度计)、重力传感器部件、旋转传感器部件(例如，陀螺仪)等。环境部件1236可以包括例如照明传感器部件(例如，光度计)、温度传感器部件(例如，检测环境温度的一个或多个温度计)、湿度传感器部件、压力传感器部件(例如，气压计)、声学传感器部件(例如，检测背景噪声的一个或多个麦克风)、接近度传感器部件(例如，检测附近对象的红外传感器)、气体传感器(例如，为了安全而检测危险气体的浓度或者测量大气中的污染物的气体检测传感器)、或者可以提供与周围物理环境对应的指示、测量或信号的其他部件。位置部件1238可以包括位置传感器部件(例如，全球定位***(GPS)接收器部件)、海拔传感器部件(例如，高度计或检测气压的气压计，其中可以根据气压来得出海拔)、取向传感器部件(例如，磁力计)等。

可以使用各种各样的技术来实现通信。I/O部件1218可以包括通信部件1240，通信部件1240能够进行操作以分别经由耦接(coupling)1224和耦接1222将机器1200耦接至网络1232或设备1220。例如，通信部件1240可以包括网络接口部件或其他合适的设备以与网络1232对接。在另外示例中，通信部件1240可以包括有线通信部件、无线通信部件、蜂窝通信部件、近场通信(NFC)部件、部件(例如，/>低功耗)、/>部件和经由其他模态提供通信的其他通信部件。设备1220可以是另外的机器或各种***设备中的任何***设备(例如，经由USB耦接的***设备)。

此外，通信部件1240可以检测标识符，或者包括能够操作以检测标识符的部件。例如，通信部件1240可以包括射频识别(RFID)标签读取器部件、NFC智能标签检测部件、光读取器部件(例如，用于检测诸如通用产品代码(UPC)条形码的一维条形码、诸如快速响应(QR)码的多维条形码、Aztec码、DataMatrix、Dataglyph、MaxiCode、PDF417、Ultra Code、UCC RSS-2D条形码和其他光学码的光学传感器)、或声学检测部件(例如，用于识别经标记的音频信号的麦克风)。此外，可以经由通信部件1240得出各种信息，如经由因特网协议(IP)地理位置得出的位置、经由信号三角测量得出的位置、经由检测可以指示特定位置的NFC信标信号得出的位置等。

在各种示例实施方式中，网络1232的一个或多个部分可以是自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网、因特网的一部分、公共交换电话网络(PSTN)的一部分、普通老式电话服务(POTS)网络、蜂窝电话网络、无线网络、网络、其它类型的网络、或者两个或更多个这样的网络的组合。例如，网络1232或网络1232的一部分可以包括无线或蜂窝网络，并且耦接1224可以是码分多址(CDMA)连接、全球移动通信***(GSM)连接或另外类型的蜂窝或无线耦接。在该示例中，耦接1224可以实现多种类型的数据传输技术中的任意数据传输技术，如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线服务(GPRS)技术、增强数据速率GSM演进(EDGE)技术、包括3G的第三代合作伙伴计划(3GPP)、***无线(4G)网络、通用移动通讯***(UMTS)、高速分组接入(HSPA)、全球微波接入互操作性(WiMAX)、长期演进(LTE)标准、由各种标准设置组织定义的其他数据传输技术、其他长距离协议或其他数据传输技术。

可以经由网络接口设备(例如，包括在通信部件1240中的网络接口部件)使用传输介质并且利用多个公知传输协议中的任意一种传输协议(例如，超文本传输协议(HTTP))通过网络1232来发送和接收指令1210。类似地，可以经由到设备1220的耦接1222(例如，对等耦接)使用传输介质来发送或接收指令1210。术语“传输介质”应被认为包括能够存储、编码或承载用于被机器1200执行的指令1210的任何无形介质，并且包括数字或模拟通信信号或有助于这样软件的通信的其他无形介质。

贯穿本说明书，多个实例可以实现被描述为单个实例的部件、操作或结构。虽然一种或多种方法的个体操作被示出和描述为分离的操作，但是一个或多个个体操作可以同时执行，并且不要求以所示的顺序执行操作。在示例配置中作为分离部件呈现的结构和功能可以实现为组合的结构或部件。类似地，作为单个部件呈现的结构和功能可以被实现为分离的部件。这些和其他变型、修改、添加以及改进落入本文中的主题的范围内。

本文中示出的实施方式被足够详细地描述，以使得本领域技术人员能够实践所公开的教导。可以使用其他实施方式以及从本文中示出的实施方式得出其他实施方式，使得可以在不偏离本公开内容的范围的情况下进行结构和逻辑上的替代和改变。因此，不以限制性的意义采用详细描述，并且各种实施方式的范围仅由所附权利要求以及这样的权利要求的等同方案的完全范围来限定。

如本文中使用的，术语“或”可以被解释为包含性或排他性意义。此外，可以为在本文中描述为单个实例的资源、操作或结构提供多个实例。此外，各种资源、操作、模块、引擎和数据存储之间的边界是任意的，并且在特定说明性配置的上下文中示出特定操作。可以设想功能的其他分配，并且其可以落入本公开内容的各种实施方式的范围内。通常，在示例配置中呈现为分离资源的结构和功能可以实现为组合的结构或资源。类似地，呈现为单个资源的结构和功能可以实现为分离的资源。这些和其他变型、修改、添加和改进落入由所附权利要求表示的本公开内容的实施方式的范围内。因此，说明书和附图被认为是说明性的而不是限制性意义的。

Claims

1.一种用于检测会话中的任务改变的***，包括：

一个或多个计算机处理器；

一个或多个计算机存储器；

包含在所述一个或多个计算机存储器中的一个或多个人工智能框架模块，所述一个或多个人工智能框架模块将所述一个或多个计算机处理器配置成执行用于引导与智能助理的会话的操作，所述操作包括：

接收来自用户设备的用户话语，所述用户话语是涉及所述智能助理的会话的一部分，所述会话包括进行第一任务的先前用户话语；

确定所述用户话语指示从所述第一任务到第二任务的任务改变，所述确定是基于满足确定性阈值的确定性；

响应于确定所述用户话语指示从所述第一任务到所述第二任务的任务改变，生成对所述用户话语的回复，以推进所述第二任务而不是所述第一任务；以及

将所述回复传达给所述用户设备以用于呈现在所述用户设备的用户界面中，

其中，基于将机器学习模型应用于所述用户话语和所述先前用户话语来确定所述确定性，所述机器学习模型已在一段时间上利用其他用户的过去话语被反复训练，并且

其中，对所述机器学习模型的训练包括：基于存储在基于网络的发布***的数据库中的交易记录来利用与所述其他用户的非会话交互。

2.根据权利要求1所述的***，所述操作还包括：基于有关所述指示的确定性不满足所述确定性阈值的识别，在会话文本中向所述用户请求澄清所述用户是否正在寻求任务改变。

3.根据权利要求2所述的***，所述操作还包括：基于接收到所述澄清，使用与所述澄清对应的标签来重新训练所述模型。

4.根据权利要求1所述的***，其中，所述第一任务是搜索基于网络的发布***上的列表中有特色的第一类型的项目，并且所述第二任务是搜索基于网络的发布***上的附加列表中有特色的第二类型的项目。

5.根据权利要求1所述的***，其中，所述第一任务的类型属于以下之一：获得对在基于网络的发布***上列出的满足特定准则的项目的建议，跟踪与使用所述基于网络的发布***先前购买的项目对应的订单，以及提交与关于所述基于网络的发布***完成的交易有关的反馈。

6.根据权利要求1所述的***，其中，所述回复指导所述用户执行用于调整与所述第二任务有关的过滤器的动作，所述过滤器是基于与所述第二任务有关的其他用户的聚集行为来选择的。

7.一种用于检测会话中的任务改变的方法，包括：

利用基于网络的发布***的一个或多个硬件处理器来接收来自用户设备的用户话语，所述用户话语是与智能助理的会话的一部分，所述会话包括进行第一任务的先前用户话语；

经由用户界面将所述回复传达为文本转语音输出或图形显示输出，

其中，对所述机器学习模型的训练包括：基于存储在基于网络的发布***的数据库中的交易记录来利用与其他用户的非会话交互。

8.根据权利要求7所述的方法，还包括：基于有关所述指示的确定性不满足所述确定性阈值的识别，在会话文本中向所述用户请求澄清所述用户是否正在寻求任务改变。

9.根据权利要求8所述的方法，还包括：基于接收到所述澄清，使用与所述澄清对应的标签来重新训练所述模型。

10.根据权利要求7所述的方法，其中，所述第一任务是搜索有基于网络的发布***上的列表中有特色的第一类型的项目，并且所述第二任务是搜索有所述基于网络的发布***上的附加列表中有特色的第二类型的项目。

11.根据权利要求7所述的方法，其中，所述第一任务的类型属于以下之一：获得对在基于网络的发布***上列出的满足特定准则的项目的建议，跟踪与使用所述基于网络的发布***先前购买的项目对应的订单，以及提交与关于所述基于网络的发布***完成的交易有关的反馈。

12.根据权利要求7所述的方法，其中，所述回复指导所述用户执行用于调整与所述第二任务有关的过滤器的动作，所述过滤器是基于与所述第二任务有关的其他用户的聚集行为来选择的。

13.一种包括指令的非暂态机器可读存储介质，所述指令在被一个或多个计算机处理器执行时，使所述一个或多个计算机处理器执行操作，所述操作包括：

接收来自用户设备的用户话语，所述用户话语是与智能助理的会话的一部分，所述会话包括进行第一任务的先前用户话语；

14.根据权利要求13所述的非暂态机器可读存储介质，所述操作还包括：基于有关所述指示的确定性不满足所述确定性阈值的识别，在会话文本中向所述用户请求澄清所述用户是否正在寻求任务改变。

15.根据权利要求14所述的非暂态机器可读存储介质，所述操作还包括：基于接收到所述澄清，使用与所述澄清对应的标签来重新训练所述模型。

16.根据权利要求13所述的非暂态机器可读存储介质，其中，所述第一任务是搜索有基于网络的发布***上的列表中有特色的第一类型的项目，并且所述第二任务是搜索有所述基于网络的发布***上的附加列表中有特色的第二类型的项目。

17.根据权利要求13所述的非暂态机器可读存储介质，其中，所述第一任务的类型属于以下之一：获得对在基于网络的发布***上列出的满足特定准则的项目的建议，跟踪与使用所述基于网络的发布***先前购买的项目对应的订单，以及提交与关于所述基于网络的发布***完成的交易有关的反馈。