CN110019699A

CN110019699A - 域间通过语法槽的分类

Info

Publication number: CN110019699A
Application number: CN201710791381.3A
Authority: CN
Inventors: 郑永强; 普仲朗
Original assignee: Sound Hunter Firm
Current assignee: Sound Hunter Firm
Priority date: 2017-09-05
Filing date: 2017-09-05
Publication date: 2019-07-16
Anticipated expiration: 2037-09-05
Also published as: JP6846390B2; JP2019046459A; CN117112761A; US11935029B2; JP2021089742A; US20190073660A1; CN110019699B

Abstract

本公开涉及域间通过语法槽的分类。虚拟助理根据域提供商创建的语法规则处理自然语言表达。虚拟助理唯一地标识多个用户中的每一个并且存储由每个用户的自然语言表达所填充的语法槽的值。虚拟助理存储槽值的历史并根据历史计算统计信息。虚拟助理提供商或分类客户端提供用户的属性值作为用于机器学习分类算法的标签。该算法处理语法槽值和标签，以计算用户的未知属性值的概率分布。用户和域语法的网络效应使虚拟助理变得有用，并提供越来越多的提高分类的准确性和有用性的数据。

Description

域间通过语法槽的分类

技术领域

本发明涉及机器学习领域，并且更具体地，涉及根据用户对用于自然语言理解的***所说的内容来对用户进行分类。

背景技术

域和语法

越来越多的人成为虚拟助理的用户，虚拟助理例如可以是SoundHound Hound、Okay Google、Amazon Alexa、百度度秘、Apple Siri、Line Clova、Microsoft Cortana、KTGiga Genie以及SK Telecom NUGU。这些***具有各种领域的知识，如天气、新闻、琐事、餐馆、数学、***(Wikipedia)。这样的***还具有各种领域的能力，例如恒温器、照明控制、音乐播放、SMS短信发送以及制作日历约会。一些虚拟助理是封闭***，因为一家公司控制着可用的域。这有助于确保友好的用户体验。一些虚拟助理是开放***，因为第三方可以创建域。

一些***具有成千上万的第三方域提供商。许多是小公司，甚至是个人程序员。许多域访问web应用程序编程接口(API)，以访问特定信息或动态信息或引起所请求的操作。例如，一些天气域访问国家天气服务API以获取天气报告信息。

许多API需要提供请求者ID的请求，并且API提供商存储分配给每个请求者ID的多个信用额度(credit)。每个API请求都消耗一定数量的信用额度。这样的API跟踪每个请求者的信用额度，并且将每个请求者限制在仅一定数量的信用额度。一些这样的API每天提供多个信用额度。一些这样的实施例允许请求者购买信用额度。

许多虚拟助理***使用客户端-服务器架构，其中客户端设备提供用户界面，并且服务器提供高性能处理和对大量数据的访问。各种***从诸如电话、汽车、机器人、购物亭和电器之类的连网设备接受语音或其他形式的自然语言表达。

为了支持用户易于访问这些***的知识和能力，域还包括语法。语法是自然语言处理***可用于将用户表达解析为指向域的表达的单词和短语的集合。语法具有对语法槽进行操作的语法规则，***用来自表达的信息来填充语法槽。

例如，给出天气报告的语法具有用于<位置>和<时间>的槽。如果用户询问“明天廷巴克图(Timbuktu)的天气怎么样”，则***用值“Timbuctoo”来填充<位置>槽并且用值“明天”来填充<时间>槽。如果用户说：“最近的至少4星级的法国餐厅在哪里”，则***使用针对餐厅域的语法，其具有值为“法国”的<食物样式>槽以及值为“至少4”的<星级>槽。如果用户说“向妈妈发消息：我爱你”，则***使用针对SMS短信发送域的语法槽，并用“妈妈”填充<接收者>槽并且用“我爱你”填充<消息>槽。如果用户说“猫有多少个爪子”，则***使用动物域语法，并用值“猫”来填充槽<物种>，用“爪子”来填充槽<属性>，用“多少”来填充槽<问题>。某些***存储用户表达的历史。

通常，虚拟助理具有的域越多，喜欢它的用户越多，用户越喜欢虚拟助理，域提供商越有动机来创建和改进域。

分类

分类是一种有用的监督式机器学习算法。它基于包含其类别成员已知并被标记的值的数据的训练集，来计算未知值属于一组类别中的哪一个类别的概率。分类结果是概率分布，尽管一些算法只输出最可能的值。例如，考虑个人汽车的大型数据集，每个汽车都以其品牌(如大众汽车或法拉利)来标记，并以其颜色(如红色或银色)来标记。对于未看见的法拉利，分类算法可以计算它是红色的概率和它是银色的概率。对于未看见的红色轿车，分类算法可以计算它是法拉利的概率和它是大众汽车的概率。

对人的分类对于许多目的是有用的。广告是一个。例如，男性和女性对一些广告采用非常不同的兴趣水平进行响应。给定人物名称和性别的大型数据集，知道新用户名称的***可以计算用户是男性或女性的概率。因此，***可以选择展示最感兴趣的广告。

发明内容

本公开涉及应用机器学习算法以基于语法槽的值对虚拟助理用户进行分类的***、方法和计算机可读介质。还公开了用于分类客户端的提供训练数据以接收高价值分类的***、方法和计算机可读介质。还公开了使用分类来提高对自然语言表达的解释的准确性的***、方法和计算机可读介质。

附图说明

图1示出了根据一些实施例的信息流。

图2示出了根据一些实施例的具有模块化域语法的虚拟助理，每个模块化域语法提供对不同API的访问。

图3示出了根据一些实施例的产生与用户ID相关联的槽值的虚拟助理。

图4示出了根据一些实施例的通过使用语法槽值对用户进行分类的***。

图5示出了根据一些实施例的分类服务。

图6A示出了根据一些实施例的使用英文的语法规则。

图6B示出了根据一些实施例的使用中国国语的语法规则。

图7示出了根据一些实施例的语法槽值和用户属性标签的数据库。

图8A示出了根据一些实施例的英文语法规则。

图8B示出了根据一些实施例的中国国语语法规则。

图8C示出了根据一些实施例的另一英文语法规则。

图8D示出了根据一些实施例的另一中国国语语法规则。

图9示出了根据一些实施例的语法槽值和用户属性标签的数据库。

图10示出了根据一些实施例的通过按照槽值进行的用户分类来改进自然语言理解域选择的虚拟助理。

图11示出了根据一些实施例的云数据库架构。

图12A示出了根据一些实施例的盘式非暂态计算机可读介质。

图12B示出了根据一些实施例的存储器芯片式非暂态计算机可读介质。

图12C示出了根据一些实施例的处理芯片。

图12D示出了根据一些实施例的处理芯片。

图13A示出了根据一些实施例的服务器***。

图13B示出了根据一些实施例的服务器芯片图。

具体实施方式

各种公司是虚拟助理提供商，并且许多事物是虚拟助理。例如，一些虚拟助理是手机上的应用。一些虚拟助理是家庭中的固定扬声器设备。一些虚拟助理是公共售货机。一些虚拟助理是汽车。

一些虚拟助理具有使用打字或手势的基于文本的界面并且具有显示屏。一些虚拟助理具有语音界面并通过文本到语音模块提供语音，该语音界面对从用户捕获的语音音频使用语音识别。一些虚拟助理使用其他界面，如神经活动检测和仿真。一些虚拟助理具有多种用户界面模式。

图1示出了根据一些实施例的去往和来自可以执行分类的虚拟助理提供商11的信息流的高级视图。虚拟助理用户向虚拟助理提供商11输入表达并获得响应(口头上、视觉上(作为动作)、或任何组合)。域提供商产生虚拟助理提供商11用来解释用户表达的语法。图中1未示出对虚拟助理可以响应用户表达而调用的数据源或动作服务的访问。

此外，虚拟助理提供商11可以执行分类。响应于来自分类客户端的关于特定用户的信息的请求，虚拟助理提供商向分类客户端提供分类信息。一些实施例响应于请求实时地执行用户分类。一些实施例计算和存储用户分类信息，并且响应于分类请求简单地查找结果。

虚拟助理提供商进行用户分类的优点在于，它向分类客户端提供关于特定用户的非常有价值的分类信息，而不向分类客户端提供用户的个人信息。

基于语法的虚拟助理

一些实施例使用模块化特定于域的语法。大多数虚拟助理提供商自己创建至少几个域语法。开放***的提供商允许(并依赖于)第三方域提供商来创建有用的语法。通常，这样的语法指示虚拟助理如何以有用的方式对语法可以解释的表达做出响应。通常，这种响应方式是访问web API以请求所需信息或执行所需的操作。

图2示出了模块化虚拟助理21的实施例。它接收用户表达并根据语法使用自然语言理解来解释这些表达。虚拟助理21接收语法22，语法22提供用于解释请求可从***获得信息的表达的语法规则。当虚拟助理21解释与语法22最密切相关的表达时，它向***23执行API请求并且接收具有用户所请求的信息的API响应。虚拟助理21继续创建并输出针对用户的响应。

在图2的实施例中，虚拟助理21还使用来自与股票市场相关的语法24的语法规则。当表达与语法24最密切相关时，虚拟助理21向股票价格数据的源25执行API请求。数据源25提供API响应，其中，虚拟助理21在用户响应中提供该API响应。

在图2的实施例中，虚拟助理21还使用来自与发送SMS文本消息有关的语法26的语法规则。当表达与发送SMS消息最密切相关时，虚拟助理21向SMS发送服务27执行API请求，SMS发送服务27进而执行所请求的SMS发送动作。

一些虚拟助理支持数千个具有语法的域，并且在许多情况下支持关联的信息源或动作能力。

捕获槽值

图3示出了虚拟助理31的组件。虚拟助理31接收用户表达并从一组域语法32接收语法规则。自然语言解析模块33根据语法规则解析表达以产生一组可能的解释和针对每个解释的可能性分数。可能性分数表示用户期望该表达根据规则被解释的可能性有多大。例如，“订购苹果馅饼”将在面包店域获得较高的分数，而在技术域获得较低的分数，但是“订购Apple部件(part)”将在技术域获得较高的分数，但在面包店域获得较低的分数。例如，“苹果花店”将在花卉域获得较高的分数，但在技术域获得较低的分数，但“苹果电话”将在技术域获得较高的分数，但在花卉域获得较低的分数。

选择模块34接收解释和分数，根据分数选择一个解释，并输出所选择的解释。API访问模块35执行web API命中(hit)，其包括通过诸如互联网之类的网络作出API请求并接收API响应。

解释包括由创建解释的语法规则指定的语法槽的值。通常，语法槽的值是API命中的参数。

在图3的实施例中，虚拟助理31随着每个用户表达一起接收用户ID(UID)。响应于选择解释，虚拟助理31输出UID和所选择的解释的槽值。

识别用户

每个用户具有诸如唯一号码、用户名或电子邮件地址之类的UID。一些***使用设备ID，其有效地识别个人设备的用户，设备ID例如可以是设备序列号或国际移动设备标识(IMEI)号码。Facebook Connect、Google+登录、QQ或Renren社交登录API还提供了跨服务或设备***来识别用户的无缝方式。语音ID、视网膜扫描、电话RFID、政府标识号码和信用***码是可以额外地或替代地用于识别用户的其他方式。

标记用户

图4示出了分类***40的实施例。***40包括虚拟助理41，虚拟助理41接收表达和UID，根据域语法42解析表达，并且产生槽值和UID对。***40将槽值与其配对的UID关联地存储在槽值数据库43中。

类别数据库44接收并存储类别标签和UID对。分类器算法45从数据库43获取每个用户的槽值，并从数据库44中获取已知用户的类别，并且对于正在或可以被请求的每个未标记的UID，基于数据库43中的槽值向量之间的相似度来计算分类。

一些实施例仅需要针对所有用户中的一小部分(例如10000个中的100个或100000000个中的10000个)的标签。在一些实施例中，大多数UID具有标签，并且所有用户中只有一小部分需要分类。通常，对于在用户间对类别变化具有随机分布的用户属性，数据库44具有的被标记的数据越多，那么分类越准确。

一些用户是自标记的。例如，输入其姓名、性别、家庭住址、出生日期或婚姻状况的用户提供对许多分类客户端请求有用的信息。在一些实施例中，人们标记UID。例如，一些实施例使用人类数据标记器来监听用户语音音频并输入用户的性别和口音。在一些实施例中，这种数据标记器还可以校正语音识别错误，这有助于根据语法槽值来提高分类的准确性。一些UID由机器标记。例如，一些***从移动设备随着用户表达一起接收地理定位数据，并且一些***对用户语音音频进行声学处理以识别性别、口音、年龄范围和环境噪声。一些实施例对用户进行语言标记，例如通过分析诸如俚语和口语之类的语言使用情况。一些实施例通过其语法槽值对用户进行分类。例如，一些实施例通过在天气查询中按照喜爱的运动队或感兴趣的位置对用户进行分类。

分类服务

图5示出了根据一些实施例的分类器服务数据流。分类器服务51包括用户语法槽值和所标记的用户分类的数据库。分类器服务51从分类客户端接收包括请求UID的分类请求。适当地，分类器服务51执行分类或查找预先计算的分类。分类器服务51进而向分类客户端提供分类响应。这适用于根据常用属性的分类。在用于广告使用的一些实施例中，性别、年龄、口音和位置是有用的常见属性。

在一些实施例中，分类器服务51从分类客户端接受所标记的UID。这对于具有不寻常或专有属性的分类客户端很有用。一些分类客户通过进行用户调查来标记UID。一些实施例通过观察用户行为并对用户属性作出后验结论来标记UID。

各种众所周知的机器学习分类算法适用于各种实施例。一些实施例使用奇异值分解或协同过滤的其他方法，其中大部分方法本质上是矩阵分解方法。各种开源和广泛使用的专有软件框架适用于各种实施例。一些示例是Tensorflow、Caffe、Spark MLLib、Theano、Torch、Keras和Scikit-Learn。

为了在实际处理性能量内满足可实现的运行时间，一些实施例应用维数降低。执行此操作的一种方式是根据所需属性手动选择对于分类而言最可能有效的语法槽。一些实施例在信用额度累加器中添加分配给域提供商的信用额度，该添加是根据分类客户端是否选择了他们的语法槽或分类客户端为分类器选择了多少个语法槽进行的。这激励域提供商创造具有不同兴趣并且特别是针对不同用户属性的域。

一些实施例通过计算语法槽和属性分类之间的聚类，然后选择具有最大区别能力的语法槽来应用维数降低。各种已知的维数降低算法适用于各种实施例。

一些实施例针对信用额度向分类客户端收费。一些实施例与信用额度累积器的值成比例地向域提供商进行支付。

一些实施例响应于分类请求立即计算分类。提供快速分类响应的需要限制了在可用时间内可被处理的数据量，从而限制了可实现的准确性。一些实施例较为不频繁地计算分类，例如每天一次或每周一次。这样做允许算法花费更多的时间和处理努力，以获得更准确的结果。然而，计算分类只是偶尔意味着不考虑新的数据。当新用户进入***时，这个问题尤其棘手，没有或者很少的语法槽值是已知的。这被称为冷启动问题。

为了使用最近获得的语法槽值来提供高准确性分类，一些实施例使用最近获得的语法槽值来计算快速分类从而产生每个类别的概率分布，然后使用这些概率分布来缩放先前计算的分类分布。

示例实施例

图6A示出了当用户询问关于天气的信息时虚拟助理服务器用于理解的英文示例语法规则。该语法规则适用于需要位置和时间参数的API，并使用天气报告进行响应。该语法规则开始于对名称为“天气域(Weather Domain)”的语法的定义。

接下来是为两个语法槽分配默认值的部分。槽$l被分配以由函数current_location()返回的值。这是表示用户创建表达的当前位置的数据结构。在一些实施例中，该位置是纬度和经度。当移动客户端设备向服务器提供用户表达语音音频时，该位置由移动客户端设备提供。

第二语法槽$t被分配以由函数current_time()返回的值。这是大致表示用户发出表达的时间的数据结构。

语法规则中接下来的部分描述用户可以构造表达的方式，其中自然语言虚拟助理应该使用这些表达来检测来自表达的位置和时间中的一者或两者、或既不用来检测位置也不用来检测时间。括号内由管道符号分隔的文本段是表达的替代形式。括号内的文本段是表达的可选部分。尖角括号内的文本段表示API参数和传递给这些参数的局部变量。因此，所示出的规则将识别短语“天气如何(what’s the weather)”、“天气将会如何(what isgoing to be the weather)”、“明天天气如何(what’s the weather going to betomorrow)”、“巴黎天气将如何(what is the weather going to be in Paris)”、“下周菲尔铁塔处的天气怎么样(what’s the weather going to be at the Eiffel Tower nextweek)”以及其他可识别的表达。

图6B显示了针对中国国语的类似语法规则。图6B的规则将会识别短语“天气如何”、“在明天的时候巴黎天气将会是什么”、“下周天气怎么样”以及“巴黎天气是什么”。

图7示出了针对图6A和图6B的天气域语法规则有用的用户槽值数据库70的一部分内容的表视图。前10名用户在天气域中为每个位置值“北京”或位置值“荷兰”构造了表达。每个用户还询问“现在”当前天气还是“明天”天气。该表还显示了针对这些相同的10个用户中的每一个用户，针对他们的性别(“男性(M)”或“女性(F)”)或喜爱的饮料(“咖啡”或“茶”)或两者进行标记。新用户N向虚拟助理询问北京当前天气。分类客户端请求将用户N分类为喜欢咖啡的人或喜欢茶的人。因此，分类器服务将对槽值数据运行分类器算法，并计算用户N喜欢咖啡的的概率1/4，以及用户N喜欢茶的的概率3/4。结果，分类器客户端将向用户N显示电子饮料菜单，该电子饮料菜单被排序为在咖啡类型之前显示茶的类型。

天气是一些虚拟助理最常用的域。餐厅评论、音乐播放和SMS消息也很受欢迎。对于许多模块化虚拟助理，大型公司创建这些域以驱动到对其API的用户流量。一些虚拟助理提供商使小公司、学术机构和个人能够创建提供某些用户感兴趣但不具有巨大商业价值的信息的域。

图8A示出了针对在数据库中查找信息的这种域的语法规则的示例。它是接受任何已知物种的英文名称的域，例如“狗的拉丁名字是什么(what is the Latin name fordog)”，并返回该物种的拉丁学名，例如狗的“Canis lupus familiaris”。图8B示出了这种域语法规则的另一个示例。它接受任何已知物种的中文名称，例如，针对竹的“竹的拉丁名是什么”，并返回拉丁学名，如“Bambusoideae”。

图8C示出了执行计算的简单域的示例语法规则。这是接受人的体重、一种运动活动和一段持续时间的域。然后，该域返回人在这样的时间量内进行这种活动所使用的能量。例如，响应于用户表达，“137磅的人跑步15分钟使用了多少能量(how much energy isused by a 137pound person doing running for 15minutes)”，域提供商API响应“141卡路里(141calories)”。

图8D示出了中文的类似示例语法规则。响应于用户表达“一个重62公斤的人骑自行车15分钟消耗多少能量”，域名提供商API响应“109大卡”。

图9示出了针对运动和拉丁名称域有用的用户槽值数据库90的一部分内容的表视图。10位用户将其饮料偏好标记为喜欢茶或咖啡。用户各自表达“跑步”、“骑自行车”或“步行”的活动，或者他们没有使用运动域。用户各自表达对于“植物”或“动物”界中的物种的拉丁名称的请求，或者用户没有使用拉丁名称域。通过将所标记的UID与槽值相关联，机器学习分类算法有可能计算出构造关于“跑步”运动的表达的新的用户N喜欢茶的概率为3/4并且喜欢咖啡的概率为1/4。如果用户N继续询问植物的拉丁名称，则机器学习算法将将用户N重新分类为喜欢茶的概率为2/3并且喜欢咖啡的概率为1/3。

对于具有大量用户、大量语法槽或大量标记属性的实施例，数据存储和分类处理可以强调***的实际限制。一些这样的实施例使用Hadoop分布式文件***(HDFS)或其他适用于分布式存储和数据处理的框架。

槽历史

一些实施例存储针对每个用户的每个槽的值的历史。考虑总是询问一个城市的天气的第一用户、经常询问两个不同的城市的天气的第二用户、以及倾向于询问各个城市的天气的第三用户。为了按照最喜爱的运动队来对用户进行分类，分类器算法可能会计算出第一用户喜欢所述一个城市的运动队的概率较高，但是对于第二用户，分类器算法可能计算出相对于所有其他队伍，喜欢所述两个城市的队伍的概率较高。分类器算法可能计算出对于第三用户，没有队伍偏好显著高于任何其他队伍偏好。

同样对于上述三个用户，针对第三用户，由于天气查询中的城市的多样性，广告分类客户端可能会接收到点击旅行相关广告的概率较高，但是对于第一用户，由于缺乏关于多个城市的查询，广告分类客户端可能会接收到点击旅行相关广告的概率较低。

存在各种对于从业者将是显而易见的使用语法槽值历史的方法。一些实施例在分类之前计算不同槽历史值的数量、统计方差、和模式中的一个或多个，并且根据统计数据中的一个或多个进行分类，并且在一些实施例中还根据最近或最常见的槽值进行分类。

一些实施例随着每个历史槽值一起存储其被表达的时间戳。一些这样的实施例忽略比一定时间更早的表达值。一些实施例基于表达的时间来过滤历史值。

操作模式

对于一些实施例，出于法律或道德原因，不与第三方共享特定用户数据(例如语法槽值)是重要的，但是允许向第三方提供诸如分类之类的派生信息。无论如何，许多供应商、广告商和其他分类客户端(如果拥有用户数据)将不会将其用于分类以外的目的。因此，分类API或其他形式的递送分类数据对于某些分类客户端是非常有用的。因此，分类客户端愿意针对那些有用的分类数据来奖励虚拟助理提供商，特别是具有高准确性的那些分类。这反过来又给予虚拟助理提供商奖励提供最有用的域语法的第三方域提供商的方法。

根据一些实施例，存在可能影响分类准确性和价值的许多因素。在一些实施例中，具有大量语法槽(通常由于具有大量的域)提高了分类准确性和价值。在一些实施例中，具有不同范围的域(特别是包括吸引广泛用户的具有区分用户的槽的域)提高了分类准确性和价值。在一些实施例中，具有令人上瘾并且使得用户构造许多表达的域提高了分类准确性和价值。在一些实施例中，具有被广泛认可并带来大量用户的域提高了分类准确性和价值。通常，对于虚拟助理的各种实施例，存在网络效应，通过该网络效应具有更有趣的域带来更多用户并且具有更多用户使得域提供商对于创建和改进域更感兴趣。

为了提高对域提供商提供更有用的域以便支持虚拟助理的激励，在一些实施例中，需要为虚拟助理提供商提供更有效的评估方案来评估一个或多个域提供商。在一些实施例中，虚拟助理提供商为一个或多个域提供商中的每一个分配信用额度权重，其中与一个或多个域提供商中的每一个的唯一标识符相关联地存储信用额度权重。该信用额度权重反映了一个或多个域提供商中的每一个的贡献；在一些实施例中，该信用额度权重对信用额度累加器针对每个域提供商增加的量进行衡量。在一些实施例中，该信用额度权重与域提供商的语法规则提供的分类范围的量成比例。

一些实施例从虚拟助理提供商和一个或多个域提供商之间的分类客户端的分类请求共享奖励。他们通过减去分类客户端针对每个请求的信用额度，并增加域提供商的信用额度累加器来完成这一操作。一些实施例简单地奖励所有域提供商。一些实施例与域提供商的语法规则提供的分类范围的量成比例地奖励域提供商。在一些实施例中，奖励是货币方式的，并且虚拟助理提供商对分类客户端进行收费以增加其信用额度计数。在一些实施例中，虚拟助理提供商根据所分配的信用额度权重为一个或多个域提供商中的每一个支付一笔钱。在一些实施例中，信用额度权重与域供应商应得到奖励的金额成比例；并且在一些实施例中，信用额度权重本身的值等于金额。

一些实施例允许分类客户端选择用于分类的所有域的子集，并且响应于分类请求将仅增加所选域的域提供商的信用额度累加器。一些实施例允许分类客户端选择域的子集并提供所标记数据的测试集合以找到域的有用子集。虚拟助理提供商根据分类客户端选择的域的数量向分类客户端收费。

一些这样的实施例自动计算由分类客户端提供的对于标签集合具有最大区别能力的域，根据语法槽值数据库提供按照域区分用户的能力的顺序提供域列表。这样的实施例还可以提供对于由分类客户端选择的子集的准确性估计。在分类客户端选择域之后，一些这样的实施例除了所选择的域之外，还根据剩余域的增量收益对列表重新排序。例如，两个竞争的天气域可以提供最有用的分类，但是在分类客户端选择一个之后，另一个天气域在有助于提高分类准确性方面可能极少程度地超出所选择的天气域的值。

一些实施例向域提供商提供现有槽值的列表，并且鼓励新的域提供商创建其他槽值。例如，如果天气域提供位置槽值，则不鼓励新的域提供商创建其他位置槽值，并鼓励新的域提供商创建具有其他有用槽值的语法规则。

一些实施例提供了域提供商尝试构造的所需槽的列表。一些这样的实施例提供经策划的列表(由人类专家选择的列表)。一些这样的实施例允许分类客户端列出域提供商实现的所需的、可能有价值的语法槽。这为域和语法槽创造了市场。

在一些实施例中，分类客户端可以产生用于虚拟助理使用的语法槽的函数。例如，分类客户端可能希望创建作为天气位置的分类槽，但只针对在运动活动语法槽中表达了值“跑步”的用户。

加权域选择

一些实施例使用按照语法槽的分类来改善虚拟助理内的自然语言处理。这样做提高了成功解释表达的速率，从而提高了用户的满意度和成功率。

图10示出了虚拟助理的组件。它接收用户表达并从一组域语法102中接收语法规则。自然语言解析模块103根据语法规则解析表达，以产生一组可能的解释和针对每个解释的可能性分数。

选择模块104接收解释和分数，根据分数选择一个解释，并输出所选择的解释。API访问模块105执行web API命中，其包括使用来自语法槽的值作出API请求和通过网络接收API响应。

在图10的实施例中，虚拟助理随着每个用户表达一起接收用户ID(UID)。响应于选择解释，虚拟助理输出UID和所选解释的槽值。对于每个表达，***在基于每个用户的域的数据库106中对UID和哪个域被选择进行积累。分类器算法107处理来自域数据库106的数据以产生针对UID的域概率分布。***使用域概率分布作为针对选择器104衡量解释分数以影响选择器104选择哪个解释的一组权重值。

在一些实施例中，分类器域权重仅仅是在针对UID的每个域中捕获的表达的历史频率。但是，这受制于冷启动问题。在一些实施例中，分类器算法计算跨域的权重的平滑分布。这通过将已知的域频率(即使***捕获到关于用户的很少数据)与其他类似用户的域频率进行比较来完成。各种机器学习分类算法适用于各种实施例。

实体实施例

图11示出了使用客户端-服务器类型的架构的实施例。用户111与设备112交互。设备112作为客户端，通过网络113与服务器114进行通信。服务器114作为虚拟助理，通过网络113向设备112提供响应。服务器114还向分类客户端115提供分类。

服务器114包括处理器116，处理器116处理来自设备112的自然语言请求，产生响应，并运行分类算法以向分类客户端115产生分类结果。处理器116执行存储在非暂态计算机可读介质117上的代码。处理器116根据存储在数据库118中的域语法规则来处理自然语言表达。此外，处理器116将用户槽值和用户标签存储在数据库118中。

图12A示出了根据一些实施例的作为非暂态计算机可读介质的旋转盘121。

图12B示出了根据一些实施例的作为非暂态计算机可读介质的闪存芯片122。

图12C示出了具有用于焊接到印刷电路板的球栅阵列的经封装的片上***设备123的底侧。片上***123是根据一些实施例的处理器。

图12D示出了片上***设备123的顶侧。

图13A示出了根据一些实施例的基于机架的多处理器服务器130。

图13B示出了根据一些实施例的处理器芯片131内的功能组件的框图。中央处理单元(CPU)132和图形处理单元(GPU)133通过互连134与用于临时数据存储的随机存取存储器(RAM)135、用于与其他服务器和设备通信的网络接口136以及用于接收用户输入并向用户提供输出的媒体接口137进行通信。

Claims

1.一种方法，包括：

通过根据语法解析来自所识别的用户的自然语言表达来确定语法槽的值；

针对语法槽存储与多个所述用户中的每一个用户相关联的值；

针对属性标签存储与所述多个用户中的每一个用户相关联的类别值；

基于与所述多个用户相关联的槽值和类别值来针对所述属性标签计算特定用户的分类；以及

响应于针对分类的请求：

针对分类客户端提供所述分类；和

从信用额度计数中减去增量。

2.根据权利要求1所述的方法，其中分类请求被接收，并且分类是通过web API接口提供的。

3.根据权利要求1所述的方法，其中对分类的计算是在所述针对分类的请求之前执行的。

4.根据权利要求1所述的方法，其中，对分类的计算是响应于针对分类的请求来执行的。

5.根据权利要求1所述的方法，其中所述分类包括概率。

6.根据权利要求1所述的方法，其中所述分类包括针对多个类别中的每个类别的概率。

7.根据权利要求1所述的方法，还包括：

对所述分类客户端进行收费以增加信用额度计数。

8.根据权利要求1所述的方法，其中所述语法由域提供商提供。

9.根据权利要求8所述的方法，还包括：

递增每个分类请求的信用额度累加器；和

与所述信用额度累加器的值成比例地向所述域提供商提供支付。

10.根据权利要求9所述的方法，还包括：

通过根据第二语法解析所述自然语言表达来确定所述第二语法的槽的值，所述第二语法由第二域提供商提供；

响应于所述分类请求，针对第二信用额度累加器增加第二增量；以及

与所述第二信用额度累加器的值成比例地向所述第二域提供商提供支付。

11.根据权利要求1所述的方法，还包括：

针对所述特定用户存储所述槽的历史值。

12.根据权利要求11所述的方法，还包括：

存储与所述历史值相关联的时间戳。

13.一种存储代码的非暂态计算机可读介质，所述代码如果由计算机***执行则将使得所述计算机***：

响应于针对分类的请求：

针对分类客户端提供所述分类；和

从信用额度计数中减去增量。

14.根据权利要求13所述的非暂态计算机可读介质，其中分类请求被接收，并且分类是通过web API接口提供的。

15.根据权利要求13所述的非暂态计算机可读介质，其中对分类的计算是在所述针对分类的请求之前执行的。

16.根据权利要求13所述的非暂态计算机可读介质，其中，对分类的计算是响应于针对分类的请求来执行的。

17.根据权利要求13所述的非暂态计算机可读介质，其中所述分类包括概率。

18.根据权利要求13所述的非暂态计算机可读介质，其中所述分类包括针对多个类别中的每个类别的概率。

19.根据权利要求13所述的非暂态计算机可读介质，还将使得所述计算机***：

对所述分类客户端进行收费以增加信用额度计数。

20.根据权利要求13所述的非暂态计算机可读介质，其中所述语法由域提供商提供。

21.根据权利要求20所述的非暂态计算机可读介质，还将使得所述计算机***：

递增每个分类请求的信用额度累加器；和

22.根据权利要求21所述的非暂态计算机可读介质，还将使得所述计算机***：

23.根据权利要求13所述的非暂态计算机可读介质，还将使得所述计算机***：

针对所述特定用户存储所述槽的历史值。

24.根据权利要求23所述的非暂态计算机可读介质，还将使得所述计算机***：

存储与所述历史值相关联的时间戳。

25.一种方法，包括：

基于与所述多个用户相关联的槽值和类别值，根据分类算法计算针对特定用户的域概率分布；

解析特定自然语言表达以产生多个解释分数和用于从中进行选择的域；以及

通过将域概率作为解释分数的权重来选择域。

26.根据权利要求25所述的方法，其中对所述域概率分布的计算是在解析所述特定自然语言表达之前执行的。

27.根据权利要求25所述的方法，其中对所述域概率分布的计算是响应于解析所述特定自然语言表达来执行的。

28.根据权利要求25所述的方法，还包括：

针对所述特定用户存储所述槽的历史值。

29.根据权利要求28所述的方法，还包括：

存储与所述历史值相关联的时间戳。

30.一种存储代码的非暂态计算机可读介质，所述代码如果由计算机***执行则将使得所述计算机***：

通过将域概率作为解释分数的权重来选择域。

31.根据权利要求30所述的非暂态计算机可读介质，其中对所述域概率分布的计算是在解析所述特定自然语言表达之前执行的。

32.根据权利要求30所述的非暂态计算机可读介质，其中对所述域概率分布的计算是响应于解析所述特定自然语言表达来执行的。

33.根据权利要求30所述的非暂态计算机可读介质，还将使得所述计算机***：

针对所述特定用户存储所述槽的历史值。

34.根据权利要求33所述的非暂态计算机可读介质，还将使得所述计算机***：

存储与所述历史值相关联的时间戳。

35.一种选择广告的方法，所述方法包括：

向虚拟助理提供商的web API发送针对分类的请求，所述请求包括用户ID；

从所述web API接收对应于所述用户ID的分类；

至少部分地根据所述分类来选择多个广告中的一个广告；以及

从所述虚拟助理提供商请求API信用额度。

36.根据权利要求35所述的方法，还包括：

向所述虚拟助理提供商提供针对多个用户的标记有感兴趣属性的用户ID数据。

37.根据权利要求35所述的方法，还包括：

选择用于分类的语法槽的子集。

38.根据权利要求35所述的方法，还包括：

对多个语法槽子集测试分类请求。

39.一种存储代码的非暂态算机可读介质，所述代码如果由计算机***执行则将使得所述计算机***：

从所述web API接收对应于所述用户ID的分类；

从所述虚拟助理提供商请求API信用额度。

40.根据权利要求39所述的非暂态算机可读介质，还将使得所述计算机***：

41.根据权利要求39所述的非暂态算机可读介质，还将使得所述计算机***：

选择用于分类的语法槽的子集。

42.根据权利要求39所述的非暂态算机可读介质，还将使得所述计算机***：

对多个语法槽子集测试分类请求。

43.一种方法，包括：

基于所识别的用户针对由域提供商创建的自然语言语法的槽所表达的值的向量，来对所述用户进行分类；以及

响应于执行所述分类，来奖励所述域提供商，

其中在针对多个其他用户中的每一个用户的槽向量上训练所述分类器，并且所述向量被以感兴趣的类别来标记。

44.根据权利要求43所述的方法，其中所述分类响应于来自分类客户端的API请求。

45.根据权利要求43所述的方法，其中所述分类响应于来自分类客户端的请求，所述方法还包括：

响应所述分类，减去所述分类客户端的API信用额度。

46.一种存储代码的非暂态计算机可读介质，所述代码如果由计算机***执行则将使得所述计算机***：

响应于执行所述分类，来奖励所述域提供商，

47.根据权利要求46所述的非暂态计算机可读介质，其中所述分类响应于来自分类客户端的API请求。

48.根据权利要求46所述的非暂态计算机可读介质，还将使得所述计算机***：

响应所述分类，减去所述分类客户端的API信用额度。