CN107430721A - 分布式规划*** - Google Patents
分布式规划*** Download PDFInfo
- Publication number
- CN107430721A CN107430721A CN201680013099.6A CN201680013099A CN107430721A CN 107430721 A CN107430721 A CN 107430721A CN 201680013099 A CN201680013099 A CN 201680013099A CN 107430721 A CN107430721 A CN 107430721A
- Authority
- CN
- China
- Prior art keywords
- candidate active
- user
- partially
- action sequence
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Operations Research (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Marketing (AREA)
- Biomedical Technology (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于执行期望动作序列的方法包括基于与至少一个其他实体的协商来确定候选活动列表。该确定还基于偏好信息、预期回报、优先级和/或任务列表。候选活动列表还可基于强化学习来确定。该方法还包括接收对候选活动之一的选择。该方法进一步包括执行与所选候选活动相对应的动作序列。以此方式,智能电话或其他计算设备可被变换成用于规划活动的智能伴侣。
Description
相关申请的交叉引用
本申请要求于2015年3月4日提交且题为“SYSTEM OF DISTRIBUTED PLANNING(分布式规划***)”的美国临时专利申请No.62/128,417的权益,其公开内容通过援引全部明确纳入于此。
背景
领域
本公开的某些方面一般涉及机器学习,尤其涉及用于执行期望动作序列的***和方法。
背景技术
可包括一群互连的人工神经元(例如,神经元模型)的人工神经网络是一种计算设备或者表示将由计算设备执行的方法。
卷积神经网络是一种前馈人工神经网络。卷积神经网络可包括神经元集合,其中每一个神经元具有感受野并且共同地拼出一输入空间。卷积神经网络(CNN)具有众多应用。具体地,CNN已被广泛使用于模式识别和分类领域。
深度学习架构(诸如,深度置信网络和深度卷积网络)是分层神经网络架构,其中第一层神经元的输出变成第二层神经元的输入,第二层神经元的输出变成第三层神经元的输入,以此类推。深度神经网络可被训练以识别特征阶层并因此它们被越来越多地用于对象识别应用。类似于卷积神经网络,这些深度学习架构中的计算可分布在处理节点群体上,其可被配置在一个或多个计算链中。这些多层架构可每次训练一层并可使用反向传播微调。
其他模型也可用于对象识别。例如,支持向量机(SVM)是可被应用于分类的学***面(例如,决策边界)。该超平面由监督式学***面增加训练数据的余裕。换言之,超平面应该具有到训练示例的最大的最小距离。
尽管这些解决方案在数个分类基准上取得了优异的结果,但它们的计算复杂度可能极其高。另外,模型的训练可能是有挑战性的。此外,虽然人工神经网络已在各种分类任务上达成了优异的结果,但它们尚未达成人工智能的更加远大的目标。例如,当今的人工神经网络能够以高准确度识别咖啡杯,但当今的人工神经网络无法恰好在人想要咖啡之前安排向他递送一杯咖啡。
概述
本公开的某些方面一般涉及提供、实现、和使用执行期望动作序列的方法。***可基于强化学习并且可以用机器学习网络(诸如神经网络)来实现。通过该***,智能电话或其他计算设备可被变换成用于规划活动的智能伴侣。
本公开的某些方面提供一种用于执行期望动作序列的方法。该方法一般包括基于与至少一个其他实体的协商、以及还有偏好信息、预期回报、优先级和/或任务列表来确定候选活动列表。该方法还可包括接收对候选活动之一的选择以及执行与所选候选活动相对应的动作序列。
本公开的某些方面提供一种配置成执行期望动作序列的装置。该装置一般包括存储器单元和耦合至该存储器单元的至少一个处理器。该(诸)处理器被配置成基于与至少一个其他实体的协商、以及还有偏好信息、预期回报、优先级和/或任务列表来确定候选活动列表。该(诸)处理器还可被配置成接收对候选活动之一的选择以及执行与所选候选活动相对应的动作序列。
本公开的某些方面提供一种用于执行期望动作序列的装备。该装备一般包括用于基于与至少一个其他实体的协商、以及还有偏好信息、预期回报、优先级和/或任务列表来确定候选活动列表的装置。该装备还可包括用于接收对候选活动之一的选择的装置以及用于执行与所选候选活动相对应的动作序列的装置。
本公开的某些方面提供一种其上记录有用于执行期望动作序列的程序代码的非瞬态计算机可读介质。该程序代码由处理器执行并且包括用于基于与至少一个其他实体的协商、以及还有偏好信息、预期回报、优先级和/或任务列表来确定候选活动列表的程序代码。该程序代码还包括用于接收对候选活动之一的选择的程序代码。该程序代码进一步包括用于执行与所选候选活动相对应的动作序列的程序代码。
本公开的附加特征和优点将在下文描述。本领域技术人员应该领会,本公开可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。本领域技术人员还应认识到,这样的等效构造并不脱离所附权利要求中所阐述的本公开的教导。被认为是本公开的特性的新颖特征在其组织和操作方法两方面连同进一步的目的和优点在结合附图来考虑以下描述时将被更好地理解。然而,要清楚理解的是,提供每一幅附图均仅用于解说和描述目的,且无意作为对本公开的限定的定义。
附图简述
在结合附图理解下面阐述的详细描述时,本公开的特征、本质和优点将变得更加明显,在附图中,相同附图标记始终作相应标识。
图1解说了根据本公开的某些方面的使用片上***(包括通用处理器)来设计神经网络的示例实现。
图2解说了根据本公开的各方面的***的示例实现。
图3A是解说根据本公开的各方面的神经网络的示图。
图3B是解说根据本公开的各方面的示例性深度卷积网络(DCN)的框图。
图4是解说根据本公开的各方面的用于分布式规划的示例性***的框图。
图5解说了根据本公开的各方面的示例性待办列表、用户状态信息和可能动作。
图6解说了根据本公开的各方面的示例性建议动作集。
图7和8是解说根据本公开的一方面的用于分布式规划的方法的示图。
详细描述
以下结合附图阐述的详细描述旨在作为各种配置的描述,而无意表示可实践本文中所描述的概念的仅有的配置。本详细描述包括具体细节以便提供对各种概念的透彻理解。然而,对于本领域技术人员将显而易见的是,没有这些具体细节也可实践这些概念。在一些实例中,以框图形式示出众所周知的结构和组件以避免湮没此类概念。
基于本教导,本领域技术人员应领会,本公开的范围旨在覆盖本公开的任何方面,不论其是与本公开的任何其他方面相独立地还是组合地实现的。例如,可以使用所阐述的任何数目的方面来实现装置或实践方法。另外,本公开的范围旨在覆盖使用作为所阐述的本公开的各个方面的补充或者与之不同的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解,所披露的本公开的任何方面可由权利要求的一个或多个元素来实施。
措辞“示例性”在本文中用于表示“用作示例、实例或解说”。本文中描述为“示例性”的任何方面不必被解释为优于或胜过其他方面。
尽管本文描述了特定方面,但这些方面的众多变体和置换落在本公开的范围之内。虽然提到了优选方面的一些益处和优点,但本公开的范围并非旨在被限定于特定益处、用途或目标。相反,本公开的各方面旨在能宽泛地应用于不同的技术、***配置、网络和协议,其中一些作为示例在附图以及以下对优选方面的描述中解说。详细描述和附图仅仅解说本公开而非限定本公开,本公开的范围由所附权利要求及其等效技术方案来定义。
执行期望动作序列
智能电话和其他移动设备正成为用户可通过其与世界交互的代理。通过使用智能电话,用户能够安排旅行、购买食物、找到当地娱乐、以及标识、定制、和请求许多其他服务。遗憾的是,对此类活动的协调可能采用众多应用,这可能会很耗时并且会导致功耗和用户挫折感增加。
本公开的各方面涉及受到强化学习影响的用于执行动作序列的用户选择型分布式规划。由用户进行的选择可发起动作序列,可接受由与另一实体的协商产生的提议,或者可接受经协商的提议并发起动作序列。即,不仅仅是呈现应用(其可包括但不限于有可能有用的软件程序和/或设备特征),根据本公开的各方面,还可呈现对可以用用户安装的应用来达成的完整活动的推荐。例如,不是简单地在晚上或周末显示电影应用,本公开的各方面可进一步在恰适时间提出购买近旁电影院的建议电影票并且还安排往返该电影院的交通工具。
强化学习可贯穿该用于执行期望动作序列的***来实现。强化学习是一种类型的机器学习,其中寻求回报的代理通过与环境的交互(例如,试错)来学习。使用回报信号来使目标的概念形式化。达成期望目标的行为可通过提供回报信号来加强。以此方式,期望行为可被学习。强化学习可在诸如马尔科夫决策过程(MDP)、部分可观测MDP、策略搜索环境等之类的环境中实现。此外,强化学习可使用例如时间差分学习办法或演员评判家(actor-critic)方法来实现,并且可以是监督式或非监督式的。以此方式,该***可进一步基于例如先前的用户经验和选择来提供活动建议。
强化学习模型包括变量,诸如“回报”和“期望回报”。对于分布式规划***,在智能电话用户与其智能电话交互时与智能电话用户有关的突出事件可被映射至这些强化学习变量。例如,在向用户呈现候选活动之后,用户可以选择这些候选活动中的一个候选活动。该***可被配置成使得用户对候选活动的选择对应于递送“回报”。该回报的效果将对应于在宠物展现期望行为之后给予宠物的犒劳的效果。
对于成功取得回报的***,其应当学习用户很可能选择的活动以及何时选择。在强化学习方面,如果用户在特定上下文中很可能选择某种活动,则该***旨在学习该活动在那种上下文中具有高“预期回报”。为了构建“预期回报”知识,该***可显式地询问用户以对候选活动进行评分以作为确定每个***建议的预期回报值的一种方式。替换地,该***可通过比较相对于同时呈现的替换候选活动而言用户选取给定建议的频度来被动地确定每个候选活动的预期回报值。
“预期回报”可进一步使用时间差分学习来建模,由此该***可以学习向用户提出建议的优选时机。通过用户的行为模型,该***可以学习用户所展现出的行为模式。例如,该***可确定用户即将下班。其可进一步学习他很可能在不久之后进入他的汽车。基于用户往往从他的汽车里进行电话呼叫的先前知识,该***随后可以预测状态“下班”之后应当是建议候选活动“拨打电话呼叫给X”,只要他首先“进入汽车”并且随后流逝约一分钟。即,该***可以学习在首先识别出状态“下班”后的某一时刻预期有回报(对候选活动的选择)。一旦检测到状态“进入汽车”,对回报的预期将增长。
虽然该***能以高置信度确定用户可能希望在该时刻拨打呼叫,但仍然存在关于用户优选的确切时间的一些不确定性。该***可提出两个类似建议:“现在拨打电话呼叫给X”和“两分钟后拨打电话呼叫给X”。用户可选择优选动作,由此指示优选定时,该***可利用该优选定时作为进一步训练其模型的回报信号。
强化学习办法可被进一步用于识别用户的基本行为状态,诸如“进入汽车”。然而,其他方法可被用于这些方面。例如,汽车座椅上的传感器可使用近场通信来识别携带接收到广播消息的智能电话的人已进入汽车。
图1解说了根据本公开的某些方面使用片上***(SOC)100进行前述分布式规划的示例实现100,SOC 100可包括通用处理器(CPU)或多核通用处理器(CPU)102。变量(例如,神经信号和突触权重)、与计算设备相关联的***参数(例如,带有权重的神经网络)、延迟、频率槽信息、以及任务信息可被存储在与神经处理单元(NPU)108相关联的存储器块、与CPU102相关联的存储器块、与图形处理单元(GPU)104相关联的存储器块、与数字信号处理器(DSP)106相关联的存储器块、专用存储器块118中,或可跨多个块分布。在通用处理器102处执行的指令可从与CPU 102相关联的程序存储器加载或可从专用存储器块118加载。
SOC 100还可包括为具体功能定制的附加处理块(诸如GPU 104、DSP 106、连通性块110(其可包括***长期演进(4G LTE)连通性、无执照Wi-Fi连通性、USB连通性、蓝牙连通性等))以及例如可检测和识别姿势的多媒体处理器112。在一种实现中,NPU实现在CPU、DSP、和/或GPU中。SOC 100还可包括传感器处理器114、图像信号处理器(ISP)、和/或导航120(其可包括全球定位***)。SOC可基于ARM指令集。
可能活动可以是可在指定时间执行的基于用户状态(包括日历信息)的活动。在本公开的一方面,加载到通用处理器102中的指令可包括用于确定候选活动列表的代码,该候选活动列表可包括可能活动的子集。此外,候选活动可基于与至少一个其他实体的协商。选择候选活动可进一步基于偏好信息、预期回报、优先级和/或任务列表。
协商可包括与至少一个其他实体的通信,其中该其他实体可以是另一个人、机器、数据库、智能电话上的应用等。可进行该协商以确定要由该至少一个其他实体执行的动作或动作序列。候选活动可包括完成任务列表上的任务的动作或动作序列、与至少一个其他实体的协商、或者协商和动作序列的组合。预期回报可以是关于一候选活动将被选择的预测。
优先级可以是与任务列表上的项目相关联的排序,该排序不同于用户对于完成该任务列表上的那些项目的偏好。例如,任务列表项目“吃热巧克力圣代”可具有高偏好排序但具有低优先级排序。类似地,任务项目“准备报税表”可具有低偏好排序但具有高优先级排序,尤其是在税季且用户尚未提交报税表的情况下。加载到通用处理器102中的指令还可包括用于接收对候选活动之一的选择以及执行与所选候选活动相对应的动作序列的代码。
图2解说了根据本公开的某些方面的***200的示例实现。如图2中所解说的,***200可具有可执行本文所描述的方法的各种操作的多个局部处理单元202。每个局部处理单元202可包括局部状态存储器204和可存储神经网络的参数的局部参数存储器206。另外,局部处理单元202可具有用于存储局部模型程序的局部(例如,神经元)模型程序(LMP)存储器208、用于存储局部学习程序的局部学习程序(LLP)存储器210、以及局部连接存储器212。此外,如图2中所解说的,每个局部处理单元202可与用于为该局部处理单元的各局部存储器提供配置的配置处理器单元214对接,并且与提供各局部处理单元202之间的路由的路由连接处理单元216对接。
深度学习架构可通过学习在每一层中以逐次更高的抽象程度来表示输入、藉此构建输入数据的有用特征表示来执行对象识别任务。以此方式,深度学习解决了传统机器学习的主要瓶颈。在深度学习出现之前,用于对象识别问题的机器学习办法可能严重依赖人类工程设计的特征,或许与浅分类器相结合。浅分类器可以是两类线性分类器,例如,其中可将特征向量分量的加权和与阈值作比较以预测输入属于哪一类。人类工程设计的特征可以是由拥有领域专业知识的工程师针对具体问题领域定制的模版或内核。相反,深度学习架构可学习以表示与人类工程师可能会设计的相似的特征,但它是通过训练来学习的。另外,深度网络可以学习以表示和识别人类可能还没有考虑过的新类型的特征。
深度学习架构可以学习特征阶层。例如,如果向第一层呈递视觉数据,则第一层可学习以识别输入流中的相对简单的特征(诸如边)。在另一示例中,如果向第一层呈递听觉数据,则第一层可学习以识别特定频率中的频谱功率。取第一层的输出作为输入的第二层可以学习以识别特征组合,诸如对于视觉数据识别简单形状或对于听觉数据识别声音组合。例如,更高层可学习以表示视觉数据中的复杂形状或听觉数据中的词语。再高层可学习以识别常见视觉对象或口语短语。
深度学习架构在被应用于具有自然阶层结构的问题时可能表现特别好。例如,机动交通工具的分类可受益于首先学习以识别轮子、挡风玻璃、以及其他特征。这些特征可在更高层以不同方式被组合以识别轿车、卡车和飞机。
神经网络可被设计成具有各种连通性模式。在前馈网络中,信息从较低层被传递到较高层,其中给定层中的每个神经元向更高层中的神经元进行传达。如上所述,可在前馈网络的相继层中构建阶层式表示。神经网络还可具有回流或反馈(也被称为自顶向下(top-down))连接。在回流连接中,来自给定层中的神经元的输出可被传达给相同层中的另一神经元。回流架构可有助于识别跨越不止一个按顺序递送给该神经网络的输入数据组块的模式。从给定层中的神经元到较低层中的神经元的连接被称为反馈(或自顶向下)连接。当高层级概念的识别可辅助辨别输入的特定低层级特征时,具有许多反馈连接的网络可能是有助益的。
参照图3A,神经网络的各层之间的连接可以是全连接的(302)或局部连接的(304)。在全连接网络302中,第一层中的神经元可将它的输出传达给第二层中的每个神经元,从而第二层中的每个神经元将从第一层中的每个神经元接收输入。替换地,在局部连接网络304中,第一层中的神经元可连接至第二层中有限数目的神经元。卷积网络306可以是局部连接的,并且被进一步配置成使得与针对第二层中每个神经元的输入相关联的连接强度被共享(例如,308)。更一般化地,网络的局部连接层可被配置成使得一层中的每个神经元将具有相同或相似的连通性模式,但其连接强度可具有不同的值(例如,310、312、314和316)。局部连接的连通性模式可能在更高层中产生空间上相异的感受野,这是由于给定区域中的更高层神经元可接收到通过训练被调谐为到网络的总输入的受限部分的性质的输入。
局部连接的神经网络可能非常适合于其中输入的空间位置有意义的问题。例如,被设计成识别来自车载相机的视觉特征的网络300可发展具有不同性质的高层神经元,这取决于它们与图像下部关联还是与图像上部关联。例如,与图像下部相关联的神经元可学习以识别车道标记,而与图像上部相关联的神经元可学习以识别交通信号灯、交通标志等。
DCN可以用受监督式学习来训练。在训练期间,DCN可被呈递图像(诸如限速标志的经裁剪图像),并且随后可计算“前向传递(forward pass)”以产生输出328。输出328可以是对应于特征(诸如“标志”、“60”、和“100”)的值向量。网络设计者可能希望DCN在输出特征向量中针对其中一些神经元输出高得分,例如与经训练的网络300的输出328中所示的“标志”和“60”对应的那些神经元。在训练之前,DCN产生的输出很可能是不正确的,并且由此可计算实际输出与目标输出之间的误差。DCN的权重可随后被调整以使得DCN的输出得分与目标更紧密地对准。
为了调整权重,学习算法可为权重计算梯度向量。该梯度可指示在权重被略微调整情况下误差将增加或减少的量。在顶层,该梯度可直接对应于连接倒数第二层中的活化神经元与输出层中的神经元的权重的值。在较低层中,该梯度可取决于权重的值以及所计算出的较高层的误差梯度。权重可随后被调整以减小误差。这种调整权重的方式可被称为“反向传播”,因为其涉及在神经网络中的“反向传递(backward pass)”。
在实践中,权重的误差梯度可能是在少量示例上计算的,从而计算出的梯度近似于真实误差梯度。这种近似方法可被称为随机梯度下降法。随机梯度下降法可被重复,直到整个***可达成的误差率已停止下降或直到误差率已达到目标水平。
在学习之后,DCN可被呈递新图像326并且在网络中的前向传递可产生输出328,其可被认为是该DCN的推断或预测。
深度置信网络(DBN)是包括多层隐藏节点的概率性模型。DBN可被用于提取训练数据集的阶层式表示。DBN可通过堆叠多层受限波尔兹曼机(RBM)来获得。RBM是一类可在输入集上学习概率分布的人工神经网络。由于RBM可在没有关于每个输入应该被分类到哪个类的信息的情况下学习概率分布,因此RBM经常被用于无监督式学习。使用混合无监督式和受监督式范式,DBN的底部RBM可按无监督方式被训练并且可以用作特征提取器,而顶部RBM可按受监督方式(在来自先前层的输入和目标类的联合分布上)被训练并且可用作分类器。
深度卷积网络(DCN)是卷积网络的网络,其配置有附加的池化和归一化层。DCN已在许多任务上达成现有最先进的性能。DCN可使用受监督式学习来训练,其中输入和输出目标两者对于许多典范是已知的并被用于通过使用梯度下降法来修改网络的权重。
DCN可以是前馈网络。另外,如上所述,从DCN的第一层中的神经元到下一更高层中的神经元群的连接跨第一层中的神经元被共享。DCN的前馈和共享连接可被利用于进行快速处理。DCN的计算负担可比例如类似大小的包括回流或反馈连接的神经网络小得多。
卷积网络的每一层的处理可被认为是空间不变模版或基础投影。如果输入首先被分解成多个通道,诸如彩色图像的红色、绿色和蓝色通道,那么在该输入上训练的卷积网络可被认为是三维的,其具有沿着该图像的轴的两个空间维度以及捕捉颜色信息的第三维度。卷积连接的输出可被认为在后续层318和320中形成特征图,该特征图(例如,320)中的每个元素从先前层(例如,318)中一定范围的神经元以及从该多个通道中的每一个通道接收输入。特征图中的值可以用非线性(诸如矫正)max(0,x)进一步处理。来自毗邻神经元的值可被进一步池化(这对应于降采样)并可提供附加的局部不变性以及维度缩减。还可通过特征图中神经元之间的侧向抑制来应用归一化,其对应于白化。
深度学习架构的性能可随着有更多被标记的数据点变为可用或随着计算能力提高而提高。现代深度神经网络用比仅仅十五年前可供典型研究者使用的计算资源多数千倍的计算资源来例行地训练。新的架构和训练范式可进一步推升深度学习的性能。经矫正的线性单元可减少被称为梯度消失的训练问题。新的训练技术可减少过度拟合(over-fitting)并因此使更大的模型能够达成更好的普遍化。封装技术可抽象出给定的感受野中的数据并进一步提升总体性能。
图3B是解说示例性深度卷积网络350的框图。深度卷积网络350可包括多个基于连通性和权重共享的不同类型的层。如图3B所示,该示例性深度卷积网络350包括多个卷积块(例如,C1和C2)。每个卷积块可配置有卷积层、归一化层(LNorm)、和池化层。卷积层可包括一个或多个卷积滤波器,其可被应用于输入数据以生成特征图。尽管仅示出了两个卷积块,但本公开不限于此,而是,根据设计偏好,任何数目的卷积块可被包括在深度卷积网络350中。归一化层可被用于对卷积滤波器的输出进行归一化。例如,归一化层可提供白化或侧向抑制。池化层可提供在空间上的降采样聚集以实现局部不变性和维度缩减。
例如,深度卷积网络的平行滤波器组可任选地基于ARM指令集被加载到SOC 100的CPU 102或GPU 104上以达成高性能和低功耗。在替换实施例中,平行滤波器组可被加载到SOC 100的DSP 106或ISP 116上。另外,DCN可访问其他可存在于SOC上的处理块,诸如专用于传感器114和导航120的处理块。
深度卷积网络350还可包括一个或多个全连接层(例如,FC1和FC2)。深度卷积网络350可进一步包括逻辑回归(LR)层。深度卷积网络350的每一层之间是要被更新的权重(未示出)。每一层的输出可以用作深度卷积网络350中后续层的输入以从第一卷积块C1处提供的输入数据(例如,图像、音频、视频、传感器数据和/或其他输入数据)学习阶层式特征表示。
在一个配置中,计算网络被配置成用于确定候选活动列表、接收对候选活动之一的选择、和/或执行与所选候选活动相对应的动作序列。计算网络包括确定装置、接收装置和执行装置。在一个方面,确定装置、接收装置和/或执行装置可以是配置成执行所叙述功能的通用处理器102、与通用处理器102相关联的程序存储器、存储器块118、局部处理单元202、和/或路由连接处理单元216。在另一配置中,前述装置可以是被配置成执行由前述装置所叙述功能的任何模块或任何装置。
根据本公开的某些方面,每个局部处理单元202可被配置成基于网络的一个或多个期望功能特征来确定网络的参数,以及随着所确定的参数被进一步适配、调谐和更新来使这一个或多个功能特征朝着期望的功能特征发展。
图4是解说根据本公开的各方面的用于分布式规划的示例性***400的框图。参照图4,示例性***400可包括待办列表块402,其也可被称为用户任务列表并且可包括目标、以及要由用户进行的用户活动日程表或要由用户执行的其他任务。可能动作块404可从用户状态块406接收用户状态信息以及与用户活动日程表有关的信息,并且可生成一个或多个可能活动。
用户状态信息可包括与用户的状态(例如,位置、可用性、生物数据)和/或由用户控制的项目的状态有关的信息。例如,用户状态信息可指示用户有排定在10am到4pm的会议,但从4pm到6:30pm有空。在另一示例中,用户状态可包括指示应该保养用户的汽车或应该支付用户家的财产税的信息。用户状态信息可经由用户输入、传感器数据来提供,或者可经由外部数据源来供应。
可能活动可以连同用户偏好信息经由偏好块410一起被供应给候选活动块418。尽管本示例示出了三个候选活动(例如,与动作块412a、412b和412c相关联的候选活动),但本公开不限于此,并且可供应更多或更少的候选活动。候选活动块418可进而基于例如可能活动和偏好信息来确定一个或多个用户可选动作或活动的列表。其中显示候选活动的用户接口可被称为动作选择块。偏好信息可经由用户输入来供应,或者可基于例如先前所选活动来确定。在一个示例中,用户偏好可包括每周锻炼2-4次的偏好。此用户偏好可通过用户输入数据来指定,或者可从用户的日历预约、社交媒体状态更新、签到位置信息、GPS数据等来确定或推断。另外,用户偏好信息可根据优先级来安排。
在一些方面,偏好块410中的偏好信息最初可以为空。此后,可基于用户选择来确定偏好。当用户选择特定候选活动或动作时,可在偏好块410中制作条目并且在将来建议该活动或动作的可能性可以增大。另一方面,当一候选活动或动作未被选择(例如,未被选中)或被忽略时,可应用负强化学习以使得在将来建议该活动动作的可能性可以减小。同样,当一候选活动未被选择而是取而代之被定制时,在将来建议初始候选活动的可能性可以减小。另一方面,将来建议该候选活动的定制版本的可能性可以更大。
在一些方面,偏好块410可包括或被告知来自一个或多个用户或用户群的平均数据。例如,偏好块410可包括该区域中的餐厅的评分平均值或正在本地电影院中播放的电影的用户评分。
候选活动块418还可接收可以是源自于与外部源的协商的动作或动作序列(例如,412a、412b、412c)的活动。例如,动作选择块418可接收向媒体共享或社交媒体网站上传事件(例如,学校野营)的照片或视频数据的动作、或在生日聚会之后准备和发送感谢信的动作。外部源可包括其他应用或外部数据源。例如,外部源可包括安装在智能电话或其他用户设备上的应用、或能经由网络连接访问的应用。
图5是解说根据本公开的各方面的示例性任务列表502(其也可被称为待办列表)、用户状态信息506和可能活动504的框图500。如图5所示,“待办”或任务列表502可包括例如家务、休闲活动和保养活动。用户状态信息506可包括与用户的当前状态(例如,位置、可用性、成就、特定任务的进展等)有关的信息。例如,用户可能正与朋友吃午饭或用户可能已经编制了购物清单。用户状态信息506还可包括在其间用户没有进行特定活动的时间帧。例如,用户状态信息506可指示自用户锻炼以来已经过了3天、或自用户的汽车换油以来已经过了2个月。
使用任务列表502和用户状态信息506,可以确定一个或多个可能活动504。例如,可生成与锻炼或换油有关的可能活动。
图6解说了根据本公开的各方面的用于执行期望动作序列的示例性***600。使用连同用户偏好610一起生成的可能动作602,候选活动或动作选择块608可以确定一个或多个可选候选动作或活动(例如,612a、612b和612c)的列表。尽管示出了三个动作,但动作数目仅仅是示例性而非限定性的。
候选活动可基于与一个或多个实体的协商。协商可包括但不限于对用户日程表和/或偏好和服务可用性的协调、确定评分以及服务付款。例如,给定领取食品杂货的可能动作以及用户不介意外卖的偏好信息,可与超市应用协商动作或候选活动612b以使得用户编制的购物清单被填充并且经由该超市应用作出安排以使该订单可供取货。
在另一示例中,给定用于换油的可能动作以及指示换油对于用户为相对低优先级的用户偏好信息,可使用换油公司应用来协商动作或候选活动612c以在近旁换油中心处等待时间小于十分钟的情况下调度换油。在任一示例中,经协商动作或候选活动可被包括在候选活动列表中,并且被呈现给用户以供选择。
动作或候选活动612a可以是与姐妹进行电话呼叫。在此场景中,协商关于该姐妹何时有空的时间。例如,用户的智能电话可与该姐妹的日历协调以确定她的空闲时间。动作或候选活动612a可被呈现给用户,从而指示该姐妹对于电话呼叫的可用性。同样,即使用户有时间进行电话呼叫,候选活动块在用户的姐妹将无法接听呼叫的情况下也将不显示呼叫该姐妹的建议。
在一些方面,经协商动作可使用多个应用来协调。例如,在候选活动612b中,超市应用可被用于填充和安排用户标识出的食品杂货的取货时间。另外,第二应用可以安排至超市的交通工具(例如,出租车或其他汽车服务)以领取食品杂货。此外,还可使用第三应用(其用于银行业务和预算制定)来确定例如是否可以购买非必需物品和/或此类购买在什么价格将会满足某些预算或现金流限制。
经协商动作还可以在多个数据库之间进行协调。例如,如果期望牙医预约,经协商动作可包括询问牙医的办公室以获得可用的预约时间并且根据用户的空闲时间来协调那些时间。当找到相互可用的时间时,可在用户的日历应用中设置提醒。
通过选择候选活动或动作,可在没有来自用户的进一步动作的情况下执行候选活动。以此方式,用户的智能手机或其他计算设备可被变换成用于执行期望动作序列的智能伴侣。
图7解说了用于分布式规划的方法700。在框702,该过程基于与一个或多个实体的协商并且基于用户偏好、预期回报、优先级或任务列表中的一者或多者来确定候选活动列表。该一个或多个实体可包括人、企业、数据中心、或者其他实体或服务供应商。
协商可包括与一个或多个实体、或与之对应的应用进行通信以确定可由实体执行的动作或动作序列。例如,在协商换油时,该***可查询专注于换油服务的全国性公司的数据中心,以在算法上确定本地经销商是否将向用户提供折扣价。然而,对于提供换油服务的小型独立企业而言,可能没有复杂的数据中心以供查询。在此情形中,该***可例如通过递送文本消息来直接询问本地企业的经营者,提醒他有用户请求在某一时间以某一价格提供标准换油。经营者同样可经由文本消息来批准或拒绝该请求、或还价。在另一示例中,托儿服务供应者(例如,保姆)可将他或她的随时间而变的报价输入到他们的电话上的基于日历的应用中。例如,周末白天可要求较低的价格,而周六晚上可要求较高的价格。托儿服务供应者可利用计算机、智能电话或其他移动设备来访问应用,并且该应用可由此被配置成自动地管理服务报价。
在一些方面,候选活动可基于用户的日程表和/或用户状态信息来确定。另外,候选活动可包括来自特定纲要的动作类别(例如,排定医疗预约)、与基于由用户执行的先前动作序列学习的活动或动作序列相关联的已知序列。用户的状态信息例如可包括用户当前状态、可用性、位置、状况等。
候选活动列表可包括呈现给用户以供选择的活动子集。活动可包括可被执行以完成任务列表上的任务的动作序列、与至少一个其他实体的协商、或其组合。
任务列表、偏好信息、以及优先级可与用户或其他实体相关联。任务列表可包括用户期望执行的活动或目标。预期回报是关于一候选活动将被用户选择的预测。
在框704,该过程接收对候选活动之一的选择。此外,在框706,该过程执行与所选活动相对应的动作序列。该过程可聚集跨多个应用的序列,且每个应用可与活动的不同部分相关联。例如,在所选活动是“约会之夜”的情况下,关于参与者日历、汽车服务、餐厅选择和/或预订排期以及电影和电影院位置的应用均可被用来协调该约会的某些方面。
图8是解说示例性分布式规划方法的详细流程图。该过程可接收各种输入(例如,802-816)。在框802,该过程可接收优先级信息。例如,用户可指定任务的优先级。在框818,可在存储器(例如,用户优先级数据库)中存储优先级信息以供后续使用。例如,在框840,可使用优先级信息来确定候选活动。
在框804,该过程可接收偏好信息。例如,偏好信息可包括用户对一种类型的活动、服务供应商等的偏好。在一些方面,偏好信息可包括排序或等级信息。在框820,可在存储器(例如,用户偏好数据库)中存储偏好信息,并且可使用偏好信息来确定候选活动(框840)。在一些方面,可使用强化学习模型来更新和/或修改所存储的偏好信息,其可基于接收到的对候选活动的选择(框842)来更新(框834)。在一个示例性配置中,在用户选择候选活动之一(或配置活动、或忽略所呈现的活动)后,可使用接收到的选择来更新强化学习模型。如上所述,强化学习模型可尝试以用户选择所提议的候选活动之一的形式来使回报最大化。在更新强化学习模型之后,可修改偏好信息以更准确地描述用户的实际选择行为。
该过程还可接收可用性信息(框808)、位置信息(框810)、和/或传感器数据(例如,生物数据,诸如来自可穿戴血糖监视器)(框812)。可使用可用性信息、位置信息和生物数据来确定用户的状态(框824)。在一些方面,在框836,可向其他实体或服务供应商广播所确定的用户状态。还可连同偏好信息一起使用所确定的用户状态以确定用户简档(框832)。用户简档可包括人口统计信息,并且可包括用户的年龄、性别、家庭信息(婚姻状态、子女数目等)、当前位置、频繁到访的位置、家庭和工作地址等。例如,用户简档可基于所供应的偏好信息而包括用户趋向于到访的位置的列表。此外,可使用所确定的用户状态来确定可能活动(框838)。
在一些方面,该过程还可接收平均用户简档信息(框806)。例如,由于对于新用户而言输入偏好数据可能较为麻烦,因此可使用外部用户简档基于匹配用户的平均用户偏好来初始化用户偏好。例如,偏好信息可以预加载从用户群编制的平均数据。在另一示例中,在没有用户指定的简档信息的情况下,可基于用户的位置信息来将用户简档配置成包括在用户的位置通常优选的活动,而无需与用户有关的任何附加知识。
可将所确定的用户简档与平均用户简档信息进行比较以确定用户和群体之间的相似性(框822)。在一个示例性配置中,可将用户简档与本身包含偏好信息的其他用户简档的数据库进行比较。基于该用户简档和其他简档的相似性,可更新用户偏好以包括具有类似简档的其他人之间共同的偏好。可基于所确定的候选活动(框840)、所接收的用户选择(框842)、以及对强化学习模型的更新(框834)来微调这些新推定的用户偏好。
该过程可进一步接收目标信息(框814)和排定的活动信息(框816)。目标信息可包括要完成的任务集。在一些方面,每个任务可进一步包括子任务和序列信息(例如,任务或子任务要被执行以完成目标的排序、优先级或次序)。可存储目标信息和排定的活动信息(分别在框826和830)。在一些方面,排定的活动和从目标推导的活动可被编制成任务列表。
可使用目标信息(例如,任务)来确定要被执行以完成目标的下一活动或诸活动(框828)。可使用所确定的下一活动信息、排定的活动信息、以及状态信息来确定可能活动(框838)。在一些方面,可能活动可基于用户简档或偏好信息来确定。
在确定可能活动之后,可在预测用户选择可能任务之一时查询服务供应者(框848)。可从确认其按所提议条款执行该任务的能力的服务供应者(诸如保姆的日历确认可用性以及接受通常价格)接收一个或多个动作提议(框846)。在一些方面,服务供应者可确认其执行任务的能力,但可以反对地提出(框852)新条款(诸如针对汽车服务的较高价格)。在框850,该过程可与服务供应者协商直至达成可接受条款,或者直至另一个服务供应者同意可接受提议。
除了接收基于来自该***的查询的动作提议之外,还可从服务供应者接收基于所广播的用户状态的动作提议(框836)。换言之,该过程甚至可在不存在任务列表或目标信息的情况下进行。
在框840,可确定候选活动集。候选活动可基于动作提议集、偏好信息、优先级信息、或其组合来确定。候选活动可被呈现给用户。候选活动可包括与服务供应者协商过的收到动作提议和任务相对应的具体动作。在框842,该过程可接收对候选活动的选择。进而,在框844,该过程可请求执行所选动作。在一些方面,接收到的选择可包括对所选候选活动的一部分的修改或消除。例如,在所选候选活动是约会之夜(其提供交通工具、晚餐预订以及本地电影院的电影票)的情况下,用户可修改约会之夜活动以移除交通工具或改变电影时间。
如果所执行的动作是从用户目标推导的(在框826),则可确定支持该目标的下一活动或诸活动(在框828)并将其添加至任务列表(在框830)。
可通过实现强化学习来改善候选活动和/或其列表(框834)。如此,当用户选择候选活动时,对所选候选活动进行后续建议的可能性可以更大。另一方面,当一候选活动未被选择或被忽略时,对该候选活动进行后续建议的可能性可以更小。
在一些方面,可以选择候选活动并对其进行进一步定制。例如,考虑到以上的约会之夜示例,在不期望汽车服务的情况下,可以删除汽车服务预订。此类定制也可被用来改善后续建议。在一些方面,候选活动可包括基于回报(例如,由服务供应商向用户提供的折扣;汽车多快能到达;电影院有多近等)对类似服务(例如,汽车服务、不同电影院)进行选择。
在一些方面,用户可从服务提供商接收所建议活动的促销机会。即,服务提供商可被通知潜在活动并且服务提供商可提供激励(回报),该激励可被包括在列出的活动中。如此,用户可以在评估所呈现的候选活动时考虑服务提供商激励。
以上所描述的方法的各种操作可由能够执行相应功能的任何合适的装置来执行。这些装置可包括各种硬件和/或(诸)软件组件和/或(诸)模块,包括但不限于电路、专用集成电路(ASIC)、或处理器。一般而言,在附图中有解说的操作的场合,那些操作可具有带相似编号的相应配对装置加功能组件。
如本文所使用的,术语“确定”涵盖各种各样的动作。例如,“确定”可包括演算、计算、处理、推导、研究、查找(例如,在表、数据库或其他数据结构中查找)、探知及诸如此类。另外,“确定”可包括接收(例如接收信息)、访问(例如访问存储器中的数据)、及类似动作。而且,“确定”可包括解析、选择、选取、确立及类似动作。
如本文中所使用的,引述一列项目中的“至少一个”的短语是指这些项目的任何组合,包括单个成员。作为示例,“a、b或c中的至少一个”旨在涵盖:a、b、c、a-b、a-c、b-c、以及a-b-c。
结合本公开所描述的各种解说性逻辑框、模块、以及电路可用设计成执行本文所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、分立的门或晶体管逻辑、分立的硬件组件或其任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,处理器可以是任何市售的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器、或任何其它此类配置。
结合本公开描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中实施。软件模块可驻留在本领域所知的任何形式的存储介质中。可使用的存储介质的一些示例包括随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、CD-ROM,等等。软件模块可包括单条指令、或许多条指令,且可分布在若干不同的代码段上,分布在不同的程序间以及跨多个存储介质分布。存储介质可被耦合到处理器以使得该处理器能从/向该存储介质读写信息。在替换方案中,存储介质可以被整合到处理器。
本文所公开的方法包括用于达成所描述的方法的一个或多个步骤或动作。这些方法步骤和/或动作可以彼此互换而不会脱离权利要求的范围。换言之,除非指定了步骤或动作的特定次序,否则具体步骤和/或动作的次序和/或使用可以改动而不会脱离权利要求的范围。
所描述的功能可在硬件、软件、固件或其任何组合中实现。如果以硬件实现,则示例硬件配置可包括设备中的处理***。处理***可以用总线架构来实现。取决于处理***的具体应用和整体设计约束,总线可包括任何数目的互连总线和桥接器。总线可将包括处理器、机器可读介质、以及总线接口的各种电路链接在一起。总线接口可用于尤其将网络适配器等经由总线连接至处理***。网络适配器可用于实现信号处理功能。对于某些方面,用户接口(例如,按键板、显示器、鼠标、操纵杆,等等)也可以被连接到总线。总线还可以链接各种其他电路,诸如定时源、***设备、稳压器、功率管理电路以及类似电路,它们在本领域中是众所周知的,因此将不再进一步描述。
处理器可负责管理总线和一般处理,包括执行存储在机器可读介质上的软件。处理器可用一个或多个通用和/或专用处理器来实现。示例包括微处理器、微控制器、DSP处理器、以及其他能执行软件的电路***。软件应当被宽泛地解释成意指指令、数据、或其任何组合,无论是被称作软件、固件、中间件、微代码、硬件描述语言、或其他。作为示例,机器可读介质可包括随机存取存储器(RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦式可编程只读存储器(EPROM)、电可擦式可编程只读存储器(EEPROM)、寄存器、磁盘、光盘、硬驱动器、或者任何其他合适的存储介质、或其任何组合。机器可读介质可被实施在计算机程序产品中。该计算机程序产品可以包括包装材料。
在硬件实现中,机器可读介质可以是处理***中与处理器分开的一部分。然而,如本领域技术人员将容易领会的,机器可读介质或其任何部分可在处理***外部。作为示例,机器可读介质可包括传输线、由数据调制的载波、和/或与设备分开的计算机产品,所有这些都可由处理器通过总线接口来访问。替换地或补充地,机器可读介质或其任何部分可被集成到处理器中,诸如高速缓存和/或通用寄存器文件可能就是这种情形。虽然所讨论的各种组件可被描述为具有特定位置,诸如局部组件,但它们也可按各种方式来配置,诸如某些组件被配置成分布式计算***的一部分。
处理***可以被配置为通用处理***,该通用处理***具有一个或多个提供处理器功能性的微处理器、以及提供机器可读介质中的至少一部分的外部存储器,它们都通过外部总线架构与其他支持电路***链接在一起。替换地,该处理***可包括一个或多个神经元形态处理器以用于实现本文所述的神经网络和其他处理***。作为另一替换方案,处理***可以用带有集成在单块芯片中的处理器、总线接口、用户接口、支持电路***、和至少一部分机器可读介质的专用集成电路(ASIC)来实现,或者用一个或多个现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、状态机、门控逻辑、分立硬件组件、或者任何其他合适的电路***、或者能执行本公开通篇所描述的各种功能性的电路的任何组合来实现。取决于具体应用和加诸于整体***上的总设计约束,本领域技术人员将认识到如何最佳地实现关于处理***所描述的功能性。
机器可读介质可包括数个软件模块。这些软件模块包括当由处理器执行时使处理***执行各种功能的指令。这些软件模块可包括传送模块和接收模块。每个软件模块可以驻留在单个存储设备中或者跨多个存储设备分布。作为示例,当触发事件发生时,可以从硬驱动器中将软件模块加载到RAM中。在软件模块执行期间,处理器可以将一些指令加载到高速缓存中以提高访问速度。随后可将一个或多个高速缓存行加载到通用寄存器文件中以供处理器执行。在以下述及软件模块的功能性时,将理解此类功能性是在处理器执行来自该软件模块的指令时由该处理器来实现的。此外,应领会,本公开的各方面产生对处理器、计算机、机器或实现此类方面的其它***的机能的改进。
如果以软件实现,则各功能可作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,这些介质包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,此类计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能用于携带或存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其他介质。另外,任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或无线技术(诸如红外(IR)、无线电、以及微波)从web网站、服务器、或其他远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL或无线技术(诸如红外、无线电、以及微波)就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘、和碟,其中盘(disk)常常磁性地再现数据,而碟(disc)用激光来光学地再现数据。因此,在一些方面,计算机可读介质可包括非瞬态计算机可读介质(例如,有形介质)。另外,对于其他方面,计算机可读介质可包括瞬态计算机可读介质(例如,信号)。上述的组合应当也被包括在计算机可读介质的范围内。
因此,某些方面可包括用于执行本文中给出的操作的计算机程序产品。例如,此类计算机程序产品可包括其上存储(和/或编码)有指令的计算机可读介质,这些指令能由一个或多个处理器执行以执行本文中所描述的操作。对于某些方面,计算机程序产品可包括包装材料。
此外,应当领会,用于执行本文中所描述的方法和技术的模块和/或其它恰适装置能由用户终端和/或基站在适用的场合下载和/或以其他方式获得。例如,此类设备能被耦合至服务器以促成用于执行本文中所描述的方法的装置的转移。替换地,本文所述的各种方法能经由存储装置(例如,RAM、ROM、诸如压缩碟(CD)或软盘等物理存储介质等)来提供,以使得一旦将该存储装置耦合至或提供给用户终端和/或基站,该设备就能获得各种方法。此外,可利用适于向设备提供本文所描述的方法和技术的任何其他合适的技术。
将理解,权利要求并不被限定于以上所解说的精确配置和组件。可在以上所描述的方法和装置的布局、操作和细节上作出各种改动、更换和变形而不会脱离权利要求的范围。
Claims (28)
1.一种执行期望动作序列的方法,包括:
至少部分地基于与至少一个其他实体的协商并且至少部分地基于偏好信息、期望回报、优先级和任务列表中的一者或多者来确定候选活动列表;
接收对所述候选活动之一的选择;以及
执行与所选候选活动相对应的动作序列。
2.如权利要求1所述的方法,其特征在于,所述偏好信息至少部分地基于来自一个或多个用户的平均数据。
3.如权利要求1所述的方法,其特征在于,对候选活动的选择增大对所选候选活动进行后续建议的可能性。
4.如权利要求1所述的方法,其特征在于,忽略所述候选活动列表中的候选活动减小对所选候选活动进行后续建议的可能性。
5.如权利要求1所述的方法,其特征在于,所述动作序列是跨多个应用聚集的。
6.如权利要求1所述的方法,其特征在于,所述候选活动包括来自特定纲要的动作类别。
7.如权利要求1所述的方法,其特征在于,所述执行包括至少部分地基于所述预期回报来从用于执行所选候选活动的类似服务中进行选择。
8.一种配置成执行期望动作序列的装置,所述装置包括:
存储器单元;以及
耦合至所述存储器单元的至少一个处理器,所述至少一个处理器被配置成:
至少部分地基于与至少一个其他实体的协商并且至少部分地基于偏好信息、期望回报、优先级和任务列表中的一者或多者来确定候选活动列表;
接收对所述候选活动之一的选择;以及
执行与所选候选活动相对应的动作序列。
9.如权利要求8所述的装置,其特征在于,所述偏好信息至少部分地基于来自一个或多个用户的平均数据。
10.如权利要求8所述的装置,其特征在于,所述至少一个处理器被进一步配置成增大对所选候选活动进行后续建议的可能性。
11.如权利要求8所述的装置,其特征在于,所述至少一个处理器被进一步配置成减小对所述候选活动列表中未被选择的候选活动进行后续建议的可能性。
12.如权利要求8所述的装置,其特征在于,所述至少一个处理器被进一步配置成跨多个应用聚集所述动作序列。
13.如权利要求8所述的装置,其特征在于,所述候选活动包括来自特定纲要的动作类别。
14.如权利要求8所述的装置,其特征在于,所述至少一个处理器被进一步配置成至少部分地基于所述预期回报来从用于执行所选候选活动的类似服务中进行选择。
15.一种配置成执行期望动作序列的装备,所述装备包括:
用于至少部分地基于与至少一个其他实体的协商并且至少部分地基于偏好信息、期望回报、优先级和任务列表中的一者或多者来确定候选活动列表的装置;
用于接收对所述候选活动之一的选择的装置;以及
用于执行与所选候选活动相对应的动作序列的装置。
16.如权利要求15所述的装备,其特征在于,所述偏好信息至少部分地基于来自一个或多个用户的平均数据。
17.如权利要求15所述的装备,其特征在于,对候选活动的选择增大对所选候选活动进行后续建议的可能性。
18.如权利要求15所述的装备,其特征在于,忽略所述候选活动列表中的候选活动减小对所选候选活动进行后续建议的可能性。
19.如权利要求15所述的装备,其特征在于,所述动作序列是跨多个应用聚集的。
20.如权利要求15所述的装备,其特征在于,所述候选活动包括来自特定纲要的动作类别。
21.如权利要求15所述的装备,其特征在于,所述用于执行的装置至少部分地基于所述预期回报来从用于执行所选候选活动的类似服务中进行选择。
22.一种其上记录有用于执行期望动作序列的程序代码的非瞬态计算机可读介质,所述程序代码由处理器执行并且包括:
用于至少部分地基于与至少一个其他实体的协商并且至少部分地基于偏好信息、期望回报、优先级和任务列表中的一者或多者来确定候选活动列表的程序代码;
用于接收对所述候选活动之一的选择的程序代码;以及
用于执行与所选候选活动相对应的动作序列的程序代码。
23.如权利要求22所述的非瞬态计算机可读介质,其特征在于,所述偏好信息至少部分地基于来自一个或多个用户的平均数据。
24.如权利要求22所述的非瞬态计算机可读介质,其特征在于,进一步包括用于增大对所选候选活动进行后续建议的可能性的程序代码。
25.如权利要求22所述的非瞬态计算机可读介质,其特征在于,进一步包括用于减小对所述候选活动列表中未被选择的候选活动进行后续建议的可能性的程序代码。
26.如权利要求22所述的非瞬态计算机可读介质,其特征在于,所述动作序列是跨多个应用聚集的。
27.如权利要求22所述的非瞬态计算机可读介质,其特征在于,所述候选活动包括来自特定纲要的动作类别。
28.如权利要求22所述的非瞬态计算机可读介质,其特征在于,所述执行包括至少部分地基于所述预期回报来从用于执行所选候选活动的类似服务中进行选择。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562128417P | 2015-03-04 | 2015-03-04 | |
US62/128,417 | 2015-03-04 | ||
US14/856,256 US20160260024A1 (en) | 2015-03-04 | 2015-09-16 | System of distributed planning |
US14/856,256 | 2015-09-16 | ||
PCT/US2016/018969 WO2016140829A1 (en) | 2015-03-04 | 2016-02-22 | System of distributed planning |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107430721A true CN107430721A (zh) | 2017-12-01 |
CN107430721B CN107430721B (zh) | 2022-02-25 |
Family
ID=55521818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680013099.6A Active CN107430721B (zh) | 2015-03-04 | 2016-02-22 | 分布式规划*** |
Country Status (4)
Country | Link |
---|---|
US (1) | US20160260024A1 (zh) |
EP (1) | EP3265970A1 (zh) |
CN (1) | CN107430721B (zh) |
WO (1) | WO2016140829A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108898076A (zh) * | 2018-06-13 | 2018-11-27 | 北京大学深圳研究生院 | 一种视频行为时间轴定位及候选框提取的方法 |
CN112262399A (zh) * | 2018-06-11 | 2021-01-22 | 日本电气方案创新株式会社 | 行动学习设备、行动学习方法、行动学习***、程序以及记录介质 |
TWI835638B (zh) * | 2022-05-04 | 2024-03-11 | 國立清華大學 | 於非對稱策略架構下以階層式強化學習訓練主策略的方法 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6584376B2 (ja) * | 2016-09-15 | 2019-10-02 | ヤフー株式会社 | 情報処理装置、情報処理方法、および、情報処理プログラム |
EP3662474B1 (en) * | 2017-07-30 | 2023-02-22 | NeuroBlade Ltd. | A memory-based distributed processor architecture |
CN111163531B (zh) * | 2019-12-16 | 2021-07-13 | 北京理工大学 | 一种基于ddpg的非授权频谱占空比共存方法 |
WO2020143848A2 (en) * | 2020-04-02 | 2020-07-16 | Alipay (Hangzhou) Information Technology Co., Ltd. | Determining action selection policies of an execution device |
CN112437690B (zh) * | 2020-04-02 | 2024-07-12 | 支付宝(杭州)信息技术有限公司 | 确定执行设备的动作选择方针的方法和装置 |
US11995048B2 (en) * | 2020-09-29 | 2024-05-28 | Adobe Inc. | Lifelong schema matching |
CN113657844B (zh) * | 2021-06-15 | 2024-04-05 | 中国人民解放军63920部队 | 任务处理流程的确定方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6603489B1 (en) * | 2000-02-09 | 2003-08-05 | International Business Machines Corporation | Electronic calendaring system that automatically predicts calendar entries based upon previous activities |
US20050026770A1 (en) * | 2001-01-22 | 2005-02-03 | Dongming Zhu | Low conductivity and sintering-resistant thermal barrier coatings |
CN101287040A (zh) * | 2006-11-29 | 2008-10-15 | Sap股份公司 | 基于发送方与接收方之间的交互历史和上下文的动作预测 |
CN101790717A (zh) * | 2007-04-13 | 2010-07-28 | 阿维萨瑞公司 | 用于企业管理的机器视觉*** |
CN102880672A (zh) * | 2011-09-09 | 2013-01-16 | 微软公司 | 自适应推荐*** |
CN103208041A (zh) * | 2012-01-12 | 2013-07-17 | 国际商业机器公司 | 使用上下文信息进行蒙特卡罗规划的方法和*** |
CN103208063A (zh) * | 2012-01-13 | 2013-07-17 | 三星电子(中国)研发中心 | 移动终端中的零碎时间利用方法及移动终端 |
WO2014018580A1 (en) * | 2012-07-26 | 2014-01-30 | Microsoft Corporation | Push-based recommendations |
KR20140046792A (ko) * | 2012-10-11 | 2014-04-21 | 황규원 | 여행 일정 작성 시스템 및 그 시스템을 이용한 여행 일정 작성 방법 |
CN104182449A (zh) * | 2013-05-20 | 2014-12-03 | Tcl集团股份有限公司 | 基于用户兴趣建模的个性化视频推荐***和方法 |
-
2015
- 2015-09-16 US US14/856,256 patent/US20160260024A1/en not_active Abandoned
-
2016
- 2016-02-22 EP EP16709199.0A patent/EP3265970A1/en not_active Withdrawn
- 2016-02-22 CN CN201680013099.6A patent/CN107430721B/zh active Active
- 2016-02-22 WO PCT/US2016/018969 patent/WO2016140829A1/en active Application Filing
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6603489B1 (en) * | 2000-02-09 | 2003-08-05 | International Business Machines Corporation | Electronic calendaring system that automatically predicts calendar entries based upon previous activities |
US20050026770A1 (en) * | 2001-01-22 | 2005-02-03 | Dongming Zhu | Low conductivity and sintering-resistant thermal barrier coatings |
CN101287040A (zh) * | 2006-11-29 | 2008-10-15 | Sap股份公司 | 基于发送方与接收方之间的交互历史和上下文的动作预测 |
CN101790717A (zh) * | 2007-04-13 | 2010-07-28 | 阿维萨瑞公司 | 用于企业管理的机器视觉*** |
CN102880672A (zh) * | 2011-09-09 | 2013-01-16 | 微软公司 | 自适应推荐*** |
CN103208041A (zh) * | 2012-01-12 | 2013-07-17 | 国际商业机器公司 | 使用上下文信息进行蒙特卡罗规划的方法和*** |
CN103208063A (zh) * | 2012-01-13 | 2013-07-17 | 三星电子(中国)研发中心 | 移动终端中的零碎时间利用方法及移动终端 |
WO2014018580A1 (en) * | 2012-07-26 | 2014-01-30 | Microsoft Corporation | Push-based recommendations |
KR20140046792A (ko) * | 2012-10-11 | 2014-04-21 | 황규원 | 여행 일정 작성 시스템 및 그 시스템을 이용한 여행 일정 작성 방법 |
CN104182449A (zh) * | 2013-05-20 | 2014-12-03 | Tcl集团股份有限公司 | 基于用户兴趣建模的个性化视频推荐***和方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112262399A (zh) * | 2018-06-11 | 2021-01-22 | 日本电气方案创新株式会社 | 行动学习设备、行动学习方法、行动学习***、程序以及记录介质 |
CN108898076A (zh) * | 2018-06-13 | 2018-11-27 | 北京大学深圳研究生院 | 一种视频行为时间轴定位及候选框提取的方法 |
TWI835638B (zh) * | 2022-05-04 | 2024-03-11 | 國立清華大學 | 於非對稱策略架構下以階層式強化學習訓練主策略的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107430721B (zh) | 2022-02-25 |
EP3265970A1 (en) | 2018-01-10 |
US20160260024A1 (en) | 2016-09-08 |
WO2016140829A1 (en) | 2016-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107430721A (zh) | 分布式规划*** | |
US20240203174A1 (en) | Vehicle dynamics control using deep learning to update an operational parameter of a vehicle drive train | |
US11868126B2 (en) | Wearable device determining emotional state of rider in vehicle and optimizing operating parameter of vehicle to improve emotional state of rider | |
US11499837B2 (en) | Intelligent transportation systems | |
CN108027899A (zh) | 用于提高经训练的机器学习模型的性能的方法 | |
EP4115306A1 (en) | Intelligent transportation systems including digital twin interface for a passenger vehicle | |
US20230052638A1 (en) | Systems and methods for proposal communication in a task determination system | |
JP2019117583A (ja) | 輸送システム、および輸送システムに用いられる情報処理装置、および情報処理方法 | |
US20240257583A1 (en) | Digital twin to represent operating states of a vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |