CN112347754A - 建立联合学习框架 - Google Patents
建立联合学习框架 Download PDFInfo
- Publication number
- CN112347754A CN112347754A CN202010764523.9A CN202010764523A CN112347754A CN 112347754 A CN112347754 A CN 112347754A CN 202010764523 A CN202010764523 A CN 202010764523A CN 112347754 A CN112347754 A CN 112347754A
- Authority
- CN
- China
- Prior art keywords
- mlm
- data
- primary
- hierarchy
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000004891 communication Methods 0.000 claims abstract description 42
- 238000010801 machine learning Methods 0.000 claims abstract description 16
- 238000010367 cloning Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 55
- 238000013473 artificial intelligence Methods 0.000 claims description 38
- 238000003860 storage Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 22
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims 3
- 230000000694 effects Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 22
- 230000004044 response Effects 0.000 description 20
- 238000012545 processing Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 18
- 230000000875 corresponding effect Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 9
- 239000008186 active pharmaceutical agent Substances 0.000 description 8
- 238000007726 management method Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 230000001537 neural effect Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- IAXXETNIOYFMLW-UHFFFAOYSA-N (4,7,7-trimethyl-3-bicyclo[2.2.1]heptanyl) 2-methylprop-2-enoate Chemical compound C1CC2(C)C(OC(=O)C(=C)C)CC1C2(C)C IAXXETNIOYFMLW-UHFFFAOYSA-N 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- SPBWHPXCWJLQRU-FITJORAGSA-N 4-amino-8-[(2r,3r,4s,5r)-3,4-dihydroxy-5-(hydroxymethyl)oxolan-2-yl]-5-oxopyrido[2,3-d]pyrimidine-6-carboxamide Chemical compound C12=NC=NC(N)=C2C(=O)C(C(=O)N)=CN1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O SPBWHPXCWJLQRU-FITJORAGSA-N 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/10—Interfaces, programming languages or software development kits, e.g. for simulating neural networks
- G06N3/105—Shells for specifying net layout
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
实施例涉及用于构建联合学***台,所述联合学习框架包括创建机器学习模型(MLM)的层次结构。MLM的层次结构具有在一级层中的一级MLM。训练一级MLM包括通过至少一个通信信道捕获贡献模型更新。创建二级MLM并将其逻辑上放置在层次结构的二级层中。二级MLM通过至少一个通信信道可操作地耦合到一级MLM。初始化创建的二级MLM,包括将一级MLM的权重和框架克隆到二级MLM中,并使用二级数据填充创建的二级MLM。填充的数据具有在创建的二级MLM局部的模型更新。二级MLM在逻辑上存储在二级层局部,并将对二级MLM的访问限制在二级层。
Description
背景技术
本实施例涉及用于创建和支持联合学***台和优化方法。框架表示学习模型的层次结构分层,并且实施例涉及在层次结构内训练和维护神经模型,以及响应于层次结构利用模型。
发明内容
实施例包括用于构建和维护联合学习框架的计算机***、计算机程序产品以及方法。
在一个方面,提供一种具有处理器和存储器的计算机***,用于与人工智能(AI)平台处理工具一起使用。处理器可操作地耦合到存储器并且与AI平台通信。AI平台工具包括层次结构管理器、训练管理器和MLM管理器。层次结构管理器用于构建包括层次结构的联合学习框架,更具体地说,是创建机器学习模型(MLM)的层次结构。所述层次结构在所述层次结构的一级层(primary layer)中包括一级MLM(primary MLM)。所述层次结构管理器还用于创建逻辑上位于所述层次结构的二级层(secondary layer)中的二级MLM(secondaryMLM)。所述二级MLM通过至少一个通信信道可操作地耦合到一级MLM。所述训练管理器用于训练所述一级MLM,这包括通过至少一个通信通道捕获贡献模型更新。所述训练管理器用于初始化所述创建的二级MLM,包括将所述一级MLM的权重和框架克隆到所述二级MLM中,并用二级数据填充所述创建的二级MLM。所述填充的数据包括对所述创建的二级MLM局部(local)的模型更新。所述MLM管理器用于在逻辑上将二级MLM放置在二级层局部,限制对所述二级层内的所述二级MLM的访问,并在逻辑上全局(globally)放置一级MLM数据。所述二级MLM可以访问所述一级MLM。
在另一方面,提供一种计算机程序设备以构建联合学习框架。该计算机程序产品包括计算机可读存储介质,该计算机可读存储介质具有包含其上的程序代码。程序代码可由处理器执行以构建联合学习框架,包括用于创建机器学习模型(MLM)的层次结构的程序代码。MLM的所述层次结构具有逻辑上位于所述层次结构的一级层中的一级MLM。程序代码训练所述一级MLM,包括通过至少一个通信通道捕获贡献模型更新。同样,程序代码创建逻辑上位于所述层次结构的二级层中的二级MLM。所述二级MLM通过至少一个通信信道可操作地耦合到所述一级MLM。此外,程序代码初始化所述创建的二级MLM,其包括将所述一级MLM的权重和框架克隆到所述二级MLM中并用二级数据填充所述创建的二级MLM的程序代码。所述填充的数据包括对所述创建的二级MLM局部的模型更新。此外,程序代码在逻辑上将所述二级MLM存储在所述二级层局部,并将对所述二级层MLM的访问限制为所述二级层局部的二级组的成员。程序代码在逻辑上全局存储所述一级MLM,并使所述一级MLM可被所述二级MLM访问。
在另一方面,提供了一种用于构建联合学习框架的方法,包括创建机器学习模型(MLM)的层次结构。MLM的所述层次结构具有逻辑上位于一级层中的一级MLM。训练所述一级MLM包括通过至少一个通信信道捕获贡献模型更新。创建二级MLM,并将其逻辑上放置在所述层次结构的二级层中。所述二级MLM通过至少一个通信信道可操作地耦合到所述一级MLM。初始化所述创建的二级MLM,包括将所述一级MLM的权重和框架克隆到所述二级MLM中,并用二级数据填充所述创建的二级MLM。所述填充的数据以模型更新的形式存在于所创建的二级MLM局部。所述二级MLM在逻辑上存储在所述二级层局部,并且对所述二级MLM的访问仅限于所述二级层。
通过以下结合附图对当前优选实施例的以下详细描述,这些以及其他特征和优点将变得显而易见。
附图说明
本文参考的附图形成说明书的一部分。除非另外明确指出,否则附图中所示的特征仅意在说明一些实施例,而不是所有实施例。
图1示出了说明计算机***的***图;
图2示出了说明如图1所示和描述的用于计算机***的示例性联合学习框架的框图和相关联的节点的层次结构;
图3示出了说明来自计算***的工具及其相关联的应用程序接口的框图;
图4示出了说明构建联合学习框架和创建二级MLM的流程图;
图5示出了说明通过首先确定训练数据的充分性来训练局部模型的流程图;
图6示出了说明基于云的支持***的计算机***/服务器的示例,以实现以上关于图1至图5中描述的***和过程的框图;
图7示出了说明云计算机环境的框图;
图8示出了说明由云计算环境提供的一组功能抽象模型层的框图。
具体实施方式
将容易理解,如本文的附图中一般性描述和示出的,本发明实施例的部件可以以各种不同的配置来布置和设计。因此,如附图所示,对本实施例的装置、***、方法和计算机程序产品的实施例的以下详细描述,并非旨在限制所要求保护的实施例的范围,而仅是代表性的、选择的实施例。
在整个说明书中,对“一个选择实施例(a select embodiment)”,“一个实施例(one embodiment)”或“一个实施例(an embodiment)”的引用是指结合该实施例描述的特定特征、结构或特性包括在至少一个实施例中。因此,贯穿本说明书在各处出现的短语“选择实施例”,“在一个实施例中”或“在一个实施例中”不一定是指同一实施例。
通过参考附图将最好地理解所示出的实施例,其中相似的部分始终由相似的数字表示。以下描述仅旨在作为示例,并且简单地示出了与本文所要求保护的实施例一致的装置、***和过程的某些选定实施例。
人工智能(Artificial Intelligence,AI)涉及针对与人类有关的计算机和计算机行为的计算机科学领域。人工智能是指机器基于信息能够做出决策时的智能,这可以最大化给定主题的成功机会。更具体地说,人工智能能够从数据集中学习以解决问题并提供相关建议。例如,在人工智能计算机***领域,自然语言***(例如人工智能计算机***或其他自然语言询问应答***)基于***获取的知识来处理自然语言。为了处理自然语言,可以使用从数据库或知识库中获得的数据来训练***,但是由于多种原因,产生的结果可能是不正确的或不准确的。
机器学习(Machine Learning,ML)是人工智能(AI)的子集,它利用算法从数据中学习并基于该数据创建预见。更具体地说,ML是通过创建神经网络的AI的应用,该神经网络可以通过执行未明确编程的任务来演示学习行为。深度学习是ML的一种类型,在ML中***可以完成复杂的任务。深度学习是ML的一种方法,它在连续的层中合并了神经网络,以迭代方式从数据中学习。神经网络是神经***运作方式的模型。基本单位称为神经元,通常组织成层。神经网络通过模拟大量类似于神经元抽象版本的互连处理单元来工作。神经网络通常有三个部分,包括:一个输入层,其具有表示输入域的单元;一个或多个隐藏层;以及一个输出层,其具有表示目标域的一个或多个单元。这些单元以不同的连接强度或权重连接。输入数据呈现给第一层,并且值从每个神经元传播到下一层的每个神经元。最终,结果从输出层传递出来。深度学习复杂的神经网络旨在模拟人脑的工作方式,因此可以训练计算机以支持定义不明确的抽象和问题。神经网络和深度学习经常用于图像识别、语音和计算机视觉应用中。
关于个性化的局部模型,来自不同组的数据的异质性以及在线学习设置中所需的即时响应会影响AI训练的有效性。例如,数据异质性可能是由于在组中使用不同的语言或不同的会话类型而导致的。大量参与者(客户端/帐户)可以细分为不同的组,例如,不同的项目和语言。因此,对特定的在线学习和数据隐私的需求可能会增加。
隐私是个人确定可以共享哪些数据并采用访问控制的能力。如果数据在公共领域,则对个人隐私构成威胁,因为数据被数据持有者保存。数据持有者的示例可以包括公共场所或半公共场所,例如但不限于社交网络应用程序、网站、移动应用程序、电子商务站点、银行和医院。通常,数据持有者有责任确保用户数据的隐私。除了公共领域中保存的数据外,知情或不知情,用户本身也可能导致数据泄漏。例如,许多移动应用程序寻求对我们的联系人、文件和相机的访问。如果不选择条款和条件,数据泄漏的机会将比比皆是。有多种技术可用于保护数据隐私。这些技术包括但不限于k匿名化(k-anonymity),l多样化(l-diversity),t保密(t-closeness),随机化,数据分布,密码学方法和基于多维灵敏度的匿名化。
提供示出并描述了***、方法和计算机程序产品,并且针对具有适合于局部组模式的局部化的联合学习框架(federated learning framework,FLF)。在此示出了FLF,其中多个MLM被组织为具有分层和依赖性的层次结构或层次结构表示。层次结构在本领域中被理解为倒置树结构,其中多个项目在分层中被分组。层次结构的示例在图2中显示和详细描述。如下面详细显示和描述的,FLF包括节点的层次结构和一个或多个相应的MLM。节点可以是处理器,通信控制器,群集控制器或一个或多个客户端可访问的终端。聚类技术可用于形成多个节点的组和一个或多个对应的MLM,在此称为局部MLM。局部MLM提供了个性化的局部模型,旨在捕获局部组模式数据并在局部基础上做出决策和预测,而层次结构中的全局模型则捕获层次结构中形成的组中的常规模式。更具体地,局部模型针对在层次结构中的局部组级别进行训练和在局部基础上做出反应,并不需要与联合的数据集或全局模型相同的数据量。
本文的实施例可以提供多个优点。通过维护局部模型和捕获可以强调局部行为的局部模式,可以增强组的性能。通常,局部模型在组或空间级别上维护,以减轻客户端对大型训练数据集的需求并减少训练时间。全局模型可以用于初始化新形成的组的局部模型,以确保在没有大量局部训练数据的情况下的性能。通常,当当前的局部训练数据集不足时,局部模型会与全局模型同步。可以利用局部模型来识别局部模式、做出决策、做出预测、减少客户端的计算和数据需求,以及识别客户端自然形成的组以帮助局部模式学习。这样,计算机***通过向客户端提供定制的学习来高效地和有效地操作。此外,可以添加隐私保护技术来保护客户的数据,例如针对特定客户量身定制的不同隐私标准。因此,本文的实施例可以在协作学习框架中提供隐私保护、个性化学习和在线学习。
通常,局部模型是基于局部数据或局部数据的分组,以下称为组。通常,由于训练时间的预算有限,模型通常以在线方式进行训练,客户端通常会等待分类结果。更多的训练数据可以确保性能,特别是在大量参与者提高准确性(例如在不同隐私方案下)的情况下。定义与组关联的局部模型可以在有限的训练时间内获得训练好的模型。
参照图1,示出了计算***(100)的示意图。如图所示,提供服务器(110)经由链接(102)和(104)与多个计算设备(180),(182),(184),(186),(188)和(190)跨计算机网络(105)进行通信。服务器(110)配置有通过总线(114)与存储器(116)通信的处理器(112)。示出服务器(110)带有人工智能(AI)平台(150),用于通过计算机网络(105)从一个或多个计算设备(180),(182),(184),(186),(188)和(190)进行认知计算,包括自然语言处理和机器学习。更具体地,计算设备(180),(182),(184),(186),(188)和(190)经由一个或多个有线和/或无线数据通信链路彼此通信并且与其他装置或组件通信。其中每个通信链路可以包括线路,路由器,交换机,发射器,接收器等中的一个或多个。在该网络布置中,服务器(110)和计算机网络(105)实现通信检测,识别和解析。服务器(110)的其他实施例可以与除本文所描述的组件、***、子***和/或设备之外的组件、***、子***和/或设备一起使用。
在此示出的AI平台(150)配置有工具以支持联合学***台(150)创建和管理(FLF)(130),以在包括至少一个全局或一级模型(primary model)以及至少一个局部或二级模型(secondary model)的层次结构中逻辑组织和定位神经模型。示出工具(152)-(156)通过至少一个通信链路(158)可操作地耦接到FLF(130)。
AI平台(150)可以从计算机网络(105)接收输入,并利用数据源(160)(在此也称为语料库或知识库)来选择性地访问数据。如图所示,数据源(160)配置有具有多个模型的库(162),这些模型由层次结构管理器(152)创建和管理。下面将示出和详细介绍如何创建模型的细节。应该理解的是,不同的域,例如不同的组或客户端,可以各自被分类为域。在本文所示的示例中,域包括但不限于域A(162A),域B(162B)和域C(162C)。尽管此处仅示出和表示三个域,但不应认为数量是限制性的。在一个实施例中,可以有不同数量的域。类似地,可以将域添加到库(162)。MLM管理器(154)针对每个域存储或分类相应的活动数据。如图所示,域A(162A)包括活动数据A(164A),域B(162B)包括活动数据B(164B),域C(162C)包括活动数据C(164C)。
应当理解,监督学习利用了来自数据源的数据。如本文中所示,数据源被称为知识库(160),并且被配置为具有模型形式的域和逻辑分组的活动数据(本文中也称为查询响应数据)。MLM管理器(154)用于从与计算机网络(105)通信的各种计算设备(180),(182),(184),(186),(188)和(190)以模型更新的形式收集或提取数据。一旦被收集,训练管理器(156)将从一个或多个计算设备收集的数据组织或安排到一个或多个相应模型中。更具体地,训练管理器(156)通过向域中的客户端发出查询并收集客户端对该查询的答复来训练模型。可以基于域内活动或域间活动来创建模型。此处显示了两个模型,尽管不应该将模型的数量及模型与域的关系视为限制。模型A(166A)被示为可操作地耦合到活动数据(164A),并且是域内活动模型。模型B(166B)被示为可操作地耦合到活动数据B(164B)和活动数据C(164C),并且是域间活动模型,在本文中也称为多类别分类模型。当检测到通信时,活动数据被更新,并且由训练管理器(156)动态地更新配置和可操作地耦合到活动数据的每个模型。
层次结构管理器(152)构建FLF(130),并在逻辑上组织机器学习模型(MLM)的层次结构(132)。在一个实施例中,MLM被维护在库(162)中并且被组织成FLF(130)。通常,层次结构(132)包含MLM的多层,MLM的层数从一级到二级再到三级,由此增加。
如在下文中进一步详细描述的,MLM管理器(154)在操作上和逻辑上将FLF(130)内的一个或多个二级MLM定位在二级层局部,并限制对二级MLM的访问。此外,MLM管理器(154)可以在全局上操作地定位和配置一级MLM,其中一级MLM可被二级MLM访问。另外,MLM管理器(154)可以使二级MLM与一级MLM同步,包括在二级MLM设置下聚合权重参数,并且利用包括在捕获的贡献数据中的聚合的局部神经模型权重来更新一级MLM。此外,如下文所述,MLM管理器(154)可以通过使用聚类技术在逻辑上定位或形成新的二级MLM。在图4中示出并描述了层次结构内的MLM的逻辑定位和聚类的细节。
训练管理器(156)训练一级MLM,其包括向一个或多个二级MLM或关联的数据源发出查询,并从一个或多个二级MLM或关联的数据源收集答复或模型更新。此外,训练管理器(156)初始化创建的二级MLM,如下面详细显示和描述的,其包括将一级MLM的权重和框架克隆到二级MLM中,并用二级数据填充所创建的二级MLM,所述填充的数据包括客户端对局部或可操作地耦合到所创建的二级MLM的查询的答复。
以诸如动作序列或修正的动作序列之类的一个或多个所导出动作的形式的响应输出(172)被传送或以其他方式传输至处理器(112)以用于执行。在一个实施例中,响应输出(172)被传送到对应的网络设备,在此示为视觉显示器(170),其可操作地耦合到服务器(110),或者在一个实施例中,可操作地耦合到计算机网络(105)上的一个或多个计算设备(180)-(190)。
参照图2,提供了框图(200)示出了联合学习框架(FLF)的示意图。如图所示,FLF示出了具有多个层的层次结构(210),在此被称为层,在此被示出具有三个层,被称为层0(220)、层1(240)和层2(270)。层次结构(210)表示用于组织和关联多个神经网络的结构,包括在各层之间创建依赖性和梯度。如示例中所示和所述,层次结构(210)是倒置树结构,其中多个项在分层中相关联。层次结构(210)被示为具有多个层,例如三层,但不应认为层数是限制性的。尽管层次结构(210)可以被认为是分组,但是应该在本文的实施例的上下文中理解,分组也发生在各个层内。每一层可具有一个或多个项,在本文中称为节点。如该示例中所示,层0(220)包括与模型(224)(以下称为全局模型)可操作地耦合的节点0,0(222)。在一个实施例中,节点0,0(222)被称为一级节点或独立节点。示出的层1(240)具有三个节点,包括可操作地耦合到局部或二级模型A(242A)的节点1,0(242),可操作地耦合到局部或二级模型B(244A)和的节点1,1(244),可操作地耦合到局部或二级模型C(246A)的节点1,2(246)。如以下所描述的,如虚线所示,节点1,0(242)可以是新形成的节点。根据节点1,0(242),节点1,1(244)和节点1,2(246)与节点0,0(222)的关系,它们被称为从属节点。所示的层2(270)具有八个节点,包括节点2,0(272),节点2,1(274),节点2,2(276),节点2,3(278),节点2,4(280),节点2,5(282),节点2,6(284)和节点2,7(286),称之为直接依赖于节点1,0(242),节点1,1(244)和节点1,2(246)的从属节点,并间接依赖于独立的节点0,0(222)。节点2,0(272)与数据2,0(272A)可操作地进行通信,节点2,1(274)与数据2,1(274A)可操作地进行通信,节点2,2(276)与数据2,2(276A)可操作地进行通信,节点2,3(278)与数据2,3(278A)可操作地进行通信,节点2,4(280)与数据2,4(280A)可操作地进行通信,节点2,5(282)与数据2,5(282A)可操作地进行通信,节点2,6(284)与数据2,6(284A)可操作地进行通信,并且节点2,7(286)与数据2,7(286A)可操作地进行通信。
跨层次结构的各层提供通信信道。如图所示,至少一个通信信道(230)使一级节点0,0(222)可操作地耦合到从属节点1,0(242)、从属节点1,1(244)和从属节点1,2(246)。提供局部通信信道以将层0,1(240)中的节点与层0,2(270)中的节点可操作地耦合。局部通信信道(250)通过通信信道(260)使节点1,0(242)与节点2,0(272)和节点2,1(274)可操作地耦合,局部通信信道(252)通过通信通道(262)使节点1,1(244)与节点2,2(276)、节点2,3(278)和节点2,4(280)可操作地耦合,并且局部通信通道(254)通过通信信道(264)使节点1,2(246)与节点2,5(282)、节点2,6(284)和节点2,7(286)可操作地耦合。
一级节点0,0(222)从基础层(例如层1(240))中的节点捕获贡献数据。如图所示,一级节点0,0(222)被局部地附接到全局模型(224),全局模型可以是任何合适的MLM,例如长短期存储器(long short-term memory,LSTM)。从属节点1,0(242),从属节点1,1(244)和从属节点1,2(246)可独立地包括可操作地耦合到局部或二级MLM的组或二级服务器,该MLM可以是任何合适的MLM,例如长短期存储器(LSTM)。如本文所示,从属节点1,0(242)与局部模型A(242A)进行局部通信,从属节点1,1(244)与局部模型B(244B)进行局部通信,而从属节点1,2(246)与局部模型C(246C)进行局部通信。层1(240)中显示的每个局部模型都基于层2(270)中的数据。在本文所示的示例中,局部模型A(242A)基于从数据2,0(272A)和数据2.1(274A)接收的模型更新,局部模型B(244A)基于从数据2,2(276A),数据2,3(278A)和数据2,4(280A)接收的模型更新,以及局部模型C(244A)基于从数据2,5(282A),数据2,6(284A)和数据2,7(286A)接收的模型更新。跨层次结构的各个层(例如,在层1(240)和层2(270)之间)通信的数据可以是梯度或模型参数信息,从而可以在层1(240)训练局部模型。梯度可以基于至少一个客户端的局部数据,并且在训练相应的MLM时可能会发生梯度,因为从层1(240)发出了对查询的答复。在一个实施例中,可以应用使用局部组模型由层1(240)中的节点对所有梯度求平均。同样,从属节点1,0(242),节点1,1(244)和节点1,2(246)的隔离会产生隐私差异,从而为局部化训练带来更多推动。相应地,这些特征允许用于层次结构(210)的节点的定位和分隔学习。
一级节点0,0(222)监测联合学习过程。一级节点0,0(222)的功能包括发出查询,收集查询响应以及聚合收集的响应以更新全局模型(224)。在一个实施例中,一级节点0,0(222)被称为聚合器。查询响应由客户端提供,在一个实施例中,客户端在此也称为参与者或参与方。查询响应基于局部数据。例如,由表示为节点2,1(274)的客户端提供的查询响应基于局部数据2,1(274A)。对查询的回复是从客户端(例如节点2,1(274))传达的模型更新的形式。可以经由局部模型A(242A)将模型更新传送到全局模型(224)。
层次结构(210)的MLM可以存储在知识库(160)中,并且可操作地耦合到服务器(110)。在一个示例性实施例中,层次结构(210)可以托管在仅由作为FLF成员的客户端访问的单个中央服务器上。或者,中央服务器可以维护全局模型(224),而一组单独的服务器可以负责一个或多组局部模型,例如用于局部模型A(242A)的本地服务器和用于局部模型B(244A)和局部模型C(246A)的单独本地服务器。在此版本中,最小化了局部模型的维护和存储。
所示的层次结构以及层次结构中表示的节点和相关项的关联数量和结构仅是示例,不应视为限制性的。层次结构(210)是针对对神经模型、预期的接收者和相关内容进行组织和分类的结构。如本文所示和所述,内容和相关联的原子单元可以响应于分层结构而被以允许的特性来分类或识别。通过定义和说明,分配一个或多个允许的特征并不等同于将通知类别组织到一个层次结构中。类似地,使用分层结构不必将优先级分配给任何内容。因此,分类模型在本文中被示为具有类别的表示的分层结构,针对该类别对内容和相关联的原子单元进行处理。
如图所示,在各种实施例中,计算机网络(105)可以包括本地网络连接和远程连接,使得AI平台(150)可以在任何大小的环境中操作,包括局部和全局,例如互联网。另外,AI平台(150)用作前端***,该前端***可使从网络可访问源和/或结构化数据源中提取或表示的各种知识可用。以这种方式,一些过程填充了AI平台(150),而人工智能平台(150)还包括用于接收请求并相应地响应的输入接口。
知识库(160)分别配置有逻辑分组的域(162A)-(162C)和相应的模型(164A)-(164C),供AI平台(150)使用。在一个实施例中,知识库(160)可以配置有其他或附加的输入源,因此,本文中示出和描述的输入源不应被认为是限制性的。类似地,在一个实施例中,知识库(160)包括与活动和任务有关的结构化、半结构化和/或非结构化内容。与计算机网络(105)通信的各种计算设备(180)-(190)可以包括用于逻辑分组的域和模型的接入点。一些计算设备可以包括用于数据库的设备,该数据库存储作为AI平台(150)所使用的信息主体的数据语料库,以生成响应输出(172)并将该响应传递输出给相应的网络设备,例如可操作地耦合到服务器(110)或整个计算机网络(105)上的一个或多个计算设备(180)-(190)的视觉显示器(170)。
在各种实施例中,计算机网络(105)可以包括本地网络连接和远程连接,以使得人工智能平台(150)可以在包括局部和全局(例如互联网)的任何大小的环境中操作。另外,人工智能平台(150)用作前端***,该前端***可使从网络可访问源和/或结构化数据源提取或表示的各种知识可用。以这种方式,一些过程填充了AI平台(150),其中AI平台(150)还包括一个或多个输入接口或门户,以接收请求并相应地做出响应。
经由网络连接或互联网连接到计算机网络(105)的AI平台(150)被配置为检测和管理与在线学***台(150)可以通过利用知识库(160)来有效地编排或优化针对相关活动数据的动作序列,在一个实施例中知识库(160)可以通过计算机网络(105)可操作地耦合到服务器(110)。
在一些说明性实施例中,服务器(110)可以是可从纽约Armonk的国际商业机器公司获得的IBMWatson***,其具有以下描述的说明性实施例的机制。下文中统称为AI工具的管理器(152)-(156)被示为体现在或集成在服务器(110)的AI平台(150)。AI工具可以在单独的计算***(例如,190)中实现,或者在一个实施例中,它们可以在跨计算机网络(105)连接到服务器(110)的一个或多个***中实现。无论体现在何处,AI工具都可以动态优化活动,以最小化或减轻风险。
可以利用人工智能平台(150)的设备类型和相应***的范围从小型手持设备,例如手持计算机/移动电话(180)到大型主机***,例如大型计算机(182)。手持式计算机(180)的示例包括个人数字助理(PDA),个人娱乐设备(例如MP4播放器),便携式电视和光盘播放器。信息处理***的其他示例包括笔或平板计算机(184),膝上型计算机或笔记本计算机(186),个人计算机***(188)和服务器(190)。如图所示,可以使用计算机网络(105)将各种设备和***联网在一起。可用于互连各种设备和***的计算机网络(105)的类型包括局域网(LAN),无线局域网(WLAN),互联网,公用电话交换网(PSTN),其他无线网络以及可用于互连设备和***的任何其他网络拓扑。许多设备和***包括非易失性数据存储,例如硬盘驱动器和/或非易失性存储器。一些设备和***可以使用单独的非易失性数据存储(例如,服务器(190)利用非易失性数据存储(190A),并且大型计算机(182)利用非易失性数据存储(182A)。非易失性数据存储(182A)可以是在各种设备和***外部的组件或可以在设备和***之一内部的组件。
用于支持人工智能平台(150)的设备和***可以采用多种形式,其中一些在图1中示出。例如,信息处理***可以采取台式机,服务器,便携式计算机,膝上型计算机,笔记本计算机或其他形状因素计算机或数据处理***的形式。此外,设备和***可以采用其他形式因素,例如个人数字助理(PDA),游戏设备,ATM机,便携式电话设备,通信设备或包含处理器和存储器的其他设备。
在本领域中,应用程序接口(API)被理解为两个或更多个应用程序之间的软件中介。关于图1中示出和描述的AI平台(150),可以利用一个或多个API来支持工具(152)-(156)中的一个或多个及其相关功能。参考图3,提供了框图(300),其示出了工具(352)-(356)中的至少一些及其相关的API。如图所示,多个工具被嵌入在AI平台(305)内,其中这些工具包括与API0(312)相关联的在这里被示为(352)的层次结构管理器(152),与API1(322)关联的在这里被示为(354)的MLM管理器(154),以及与API2(332)关联的在这里被示为(356)的训练管理器(156)。每个API可以以一种或多种语言和接口规范来实现。API0(312)提供功能支持以跨两个或多个域收集和整理活动数据。API1(322)为与所收集和整理的活动数据相对应的MLM提供功能支持;以及API2(332)提供功能支持以动态优化、编排和更新模型和相应的FLF分组。如图所示,每个API(312),(322)和(332)可操作地耦合到API编排器(360),或者称为编排层,其在本领域中被理解为用作抽象层以透明地将单独的API串接在一起。在一个实施例中,单独的API的功能可以被结合或组合。这样,本文所示的API的配置不应被认为是限制性的。因此,如本文所示,工具的功能可以由它们各自的API来体现或支持。
如本文所示和所述,一个或多个局部模型位于FLF内。在一个实施例中,局部模型可以代表一组节点和对应的数据。例如,如图2所示,局部模型B(244B)表示由节点2,2(276)、节点2,3(278)和节点2,4(280)形成的组。可以使用聚类技术在FLF中创建组。类似地,创建的组可以进行调整,在一个实施例中,该调整可以包括改变组的成员。关于聚类,有不同的机制来形成新的组。一种机制是根据现有层次结构自然形成新的组。例如,此类小组可以由从事相同项目的客户端组成。聚类技术也可以用于基于共享的相似物理特征(例如语言、作业、标题等)形成新的组。客户端可以为其成员组的所有局部模型做出贡献。关于组调整,可以通过拆分现有组或合并两个或多个组来创建新组。在拆分之前,需要进行分析以确定现有局部模型在预测组行为方面的性能。可能有助于拆分的性能特征的示例包括但不限于低预测精度。合并现有组可以适用于没有足够训练数据的组。因此,不同的技术可以被应用以在FLF中形成新的组。
参考图4,提供了流程图(400),示出了用于在FLF中创建新的二级模型的过程。如图所示,在层级结构管理器(152)的功能支持下,构建联合学***均值。通常,对模型进行训练并将其与预测进行比较。如果充分相关,则可以将组或二级模型进行组合。或者,由最接近的组进行预测。通常,使用具有最高接近度得分的组,并通过在活动通道上具有更接近的增量得分来更好地预测行为。在步骤(412),(414)或(416)中的一个或多个步骤中创建新的二级模型(410)之后,使用全局模型和相应的权重对所创建的新的二级模型进行初始化过程(420),并将全局模型的框架和权重应用于创建的二级模型。因此,创建并初始化了一个或多个二级模型。
在步骤(404)或步骤(410)之后,对现有的二级模型进行同步或训练。如图所示,如果没有足够的训练数据,则对所创建的二级模型(410)进行初始化(418),包括与一级模型(例如,全局模型)同步(420),或者如果有足够的训练数据,则基于仅来自属于创建的二级组的客户端的模型更新进行训练(422)。在一个实施例中,全局模型用于做出决定或预测,直到二级模型具有足够的训练数据来捕获局部模式。因此,二级MLM与全局模型可操作地相关并且同步。
参照图5,提供了流程图(500),示出用于对二级模型进行受控训练的过程。如上文所示和所述,全局模型的框架和权重用于创建或建立二级模型的初始框架,并且以联合学***均性能是否具有足够的改进。在一个实施例中,步骤(514)的确定在数学上表示为:
其中ρ是精度提高因子并且ρ>1是给定的常数,k是当前迭代,是在迭代k时局部模型的F1分数,其范围从0到1,并且是迭代k/2到迭代k的平均F1分数。Bthreshold增加百分数c(516)表示对步骤(514)的确定的肯定响应。然而,对步骤(514)的确定做出否定响应或在步骤(516)的增加之后做出确定以评估二级模型的性能度量是否超过目标性能度量(518)。在一个实施例中,步骤(518)中的确定在数学上表示为:
其中是目标F1分数并且N是迭代限制。在步骤(518)对确定做出否定响应之后,返回到步骤(510),并且肯定响应结束对二级模型的训练。因此,如本文中所示,基于数据的阈值量和目标性能度量来对二级模型进行训练。
上面在图1的***的描述中描述了示例在线学***。因此,本文示出和描述的强化学习从一级和二级数据源中动态学习不同状态的值,然后可以将其应用于创建局部的训练模块。
本文中示出和描述的实施例可以是与智能计算机平台一起使用的计算机***的形式,用于提供跨一个或多个域的活动的编排以最小化风险。工具(152)-(156)的各方面及其相关功能可以在单个位置的计算机***/服务器中体现,或者在一个实施例中,可以在共享计算资源的基于云的***中配置。参照图6,提供了框图(600),其示出了与基于云的支持***通信的计算机***/服务器(602)(以下称为主机(602))的示例,以实现以上关于图1至图5描述的***,工具和过程。主机(602)可与许多其他通用或专用计算***环境或配置一起操作。可以适合与主机(602)一起使用的众所周知的计算***、环境和/或配置的示例包括但不限于个人计算机***,服务器计算机***,瘦客户端,胖客户端,手持式或笔记本电脑设备,多处理器***,基于微处理器的***,机顶盒,可编程消费电子产品,网络PC,小型计算机***,大型计算机***和包括以上任何***,设备及其等同物的文件***(例如,分布式存储环境和分布式云计算环境)。
主机(602)可以在由计算机***执行的计算机***可执行指令(例如程序模块)的一般上下文中描述。通常,程序模块可以包括执行特定任务或实现特定抽象数据类型的例程,程序,对象,组件,逻辑,数据结构等。主机(602)可以在分布式云计算环境中实践,其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中,程序模块可以位于包括内存存储设备的本地和远程计算机***存储介质中。
如图6所示,主机(602)以诸如计算机***和/或服务器之类的通用计算设备的形式示出。主机(602)的组件可以包括但不限于一个或多个处理器或处理单元(604),例如硬件处理器,***存储器(606)和将包括***存储器(606)的各种***组件耦合到处理器(604)的总线(608)。总线(608)代表几种类型的总线结构中的任何一种或多种,包括使用各种总线体系结构中的任何一种的存储器总线或存储器控制器、***总线、加速图形端口以及处理器或本地总线。作为示例而非限制,此类体系结构包括行业标准体系结构(ISA)总线,微通道体系结构(MCA)总线,增强型ISA(EISA)总线,视频电子标准协会(VESA)本地总线和***组件互连(PCI)总线。主机(602)通常包括各种计算机***可读介质。这样的介质可以是主机(602)可访问的任何可用介质,并且它包括易失性和非易失性介质,可移动和不可移动介质。
存储器(606)可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)(630)和/或高速缓存存储器(632)。仅作为示例,可以提供存储***(634)以用于读取和写入不可移动的非易失性磁性介质(未示出并且通常称为“硬盘驱动器”)。尽管未示出,但是用于读取和写入可移动非易失性磁盘(例如“软盘”)的磁盘驱动器,以及用于读取或写入可移动非易失性光盘的光盘驱动器可以提供CD-ROM,DVD-ROM或其他光学介质之类的磁盘。在这样的情况下,每个都可以通过一个或多个数据介质接口连接到总线(608)。
具有一组(至少一个)程序模块(642)的程序/实用程序(640)可以作为示例而非限制地存储在存储器(606)中,以及一种操作***或更多应用程序,其他程序模块和程序数据。每个操作***,一个或多个应用程序,其他程序模块以及程序数据或其某种组合可包括联网环境的实现。程序模块(642)通常执行实施例的功能和/或方法,以动态地编排跨一个或多个域的活动以最小化风险。例如,一组程序模块(642)可以包括如图1中描述的工具(152)-(156)。
主机(602)还可以与一个或多个外部设备(614)通信,例如键盘、定点设备等,显示器(624),使用户能够与主机(602)交互的一个或多个设备,和/或使主机(602)与一个或多个其他计算设备进行通信的任何设备(例如,网卡,调制解调器等)。这种通信可以通过输入/输出(I/O)接口(622)发生。仍然,主机(602)可以经由网络适配器(620)与一个或多个网络通信,例如局域网(LAN),通用广域网(WAN)和/或公共网络(例如,因特网)。如图所示,网络适配器(620)通过总线(608)与主机(602)的其他组件通信。在一个实施例中,分布式文件***(未示出)的多个节点通过I/O接口(622)或通过网络适配器(620)与主机(602)通信。应当理解,尽管未示出,但是其他硬件和/或软件组件可以与主机(602)结合使用。示例包括但不限于:微代码,设备驱动程序,冗余处理单元,外部磁盘驱动器阵列,RAID***,磁带驱动器和数据档案存储***等。
在本文中,术语“计算机程序介质”,“计算机可用介质”和“计算机可读介质”通常用于指代诸如主存储器(606)之类的介质,包括RAM(630),高速缓存(632)和存储***(634),例如可移动存储驱动器和安装在硬盘驱动器中的硬盘。
计算机程序(也称为计算机控制逻辑)被存储在存储器中(606)。也可以经由诸如网络适配器(620)之类的通信接口来接收计算机程序。这样的计算机程序在运行时使计算机***能够执行本文所讨论的本实施例的特征。具体地,计算机程序在运行时使处理单元(604)能够执行计算机***的特征。因此,这样的计算机程序代表计算机***的控制器。
计算机可读存储介质可以是有形设备,其可以保留和存储由指令执行设备使用的指令。计算机可读存储介质可以是例如但不限于电子存储设备,磁存储设备,光存储设备,电磁存储设备,半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下:便携式计算机软盘,硬盘,动态或静态随机存取存储器(RAM),只读存储器(ROM),可擦除可编程只读存储器(EPROM或闪存),磁存储设备,便携式光盘只读存储器(CD-ROM),数字多功能磁盘(DVD),记忆棒,软盘,机械编码装置,例如打孔卡或具有其上记录有指令的凹槽中的凸起结构,以及上述内容的任何适当组合。如本文所使用的,计算机可读存储介质不应被理解为本身是瞬时信号,例如无线电波或其他自由传播的电磁波,通过波导传播的电磁波或其他传输介质(例如,穿过光纤电缆的光脉冲)或通过电线传输的电信号。
本文所述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者通过网络(例如,互联网,局域网,广域网和/或无线网络)下载到外部计算机或外部存储设备。该网络可以包括铜传输电缆,光传输光纤,无线传输,路由器,防火墙,交换机,网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应的计算/处理设备内的计算机可读存储介质中。
用于执行本实施例的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据,或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言(例如Smalltalk、C++等)以及常规的过程式编程语言(例如"C"编程语言或类似的编程语言)。计算机可读程序指令可以完全在用户的计算机上执行,部分在用户的计算机上执行,作为独立的软件包执行,部分在用户的计算机上并且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(LAN)或广域网(WAN),或者可以连接到外部计算机(例如,使用因特网服务提供商通过因特网)。在一些实施例中,为了执行本实施例的各方面,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。
在一个实施例中,主机(602)是云计算环境的节点。如本领域已知的,云计算是一种服务交付模型,用于实现对可配置计算资源(例如,网络,网络带宽,服务器,处理,内存,存储,应用,虚拟机和服务),可以以最少的管理工作量或与服务提供者的交互来快速进行配置和发布。该云模型可以包括至少五个特征,至少三个服务模型和至少四个部署模型。此类特征的示例如下:
按需自助式服务:云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。
广泛的网络接入:计算能力可以通过标准机制在网络上获取,这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。
资源池:提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者,其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下,消费者不能控制或甚至并不知晓所提供的资源的确切位置,但可以在较高抽象程度上指定位置(例如国家、州或数据中心),因此具有位置无关性。
迅速弹性:能够迅速、有弹性地(有时是自动地)部署计算能力,以实现快速扩展,并且能迅速释放来快速缩小。在消费者看来,用于部署的可用计算能力往往显得是无限的,并能在任意时候都能获取任意数量的计算能力。
可测量的服务:云***通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力,自动地控制和优化资源效用。可以监测、控制和报告资源使用情况,为服务提供者和消费者双方提供透明度。
服务模型如下:
软件即服务(SaaS):向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外,消费者既不管理也不控制包括网络、服务器、操作***、存储、乃至单个应用能力等的底层云基础架构。
平台即服务(PaaS):向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用,这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作***或存储的底层云基础架构,但对其部署的应用具有控制权,对应用托管环境配置可能也具有控制权。
基础架构即服务(IaaS):向消费者提供的能力是消费者能够在其中部署并运行包括操作***和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构,但是对操作***、存储和其部署的应用具有控制权,对选择的网络组件(例如主机防火墙)可能具有有限的控制权。
部署模型如下:
私有云:云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。
共同体云:云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。
公共云:云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。
混合云:云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成,这些云依然是独特的实体,但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。
云计算环境是面向服务的,特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。
现在参照图7,示意性云计算网络(700)。如图所示,云计算网络(700)包括具有一个或多个云计算节点(710)的云计算环境(750),云消费者所使用的本地计算设备可以与云计算节点(710)通信。这些本地计算设备的示例包括但不限于个人数字助理(PDA)或蜂窝电话(754A),台式计算机(754B),膝上型计算机(754C)和/或汽车计算机***(754N)。节点(710)内的各个节点可以进一步彼此通信。可以在一个或多个网络(如上文所述的私有,社区,公共或混合云或其组合)中对它们进行物理或虚拟分组(未显示)。这允许云计算环境(700)提供基础设施,平台和/或软件作为服务,云消费者不需要在本地计算设备上为其维护资源。应当理解,图7中所示的计算设备(754A-N)的类型仅旨在说明,并且云计算环境(750)可以通过任何类型的网络和/或网络可寻址连接(例如,使用网络浏览器)与任何类型的计算机化设备通信。
现在参照图8,示出由图7的云计算网络提供的一组功能抽象层(800)。应当预先理解,图8中所示的组件、层和功能仅旨在说明,并且实施例不限于此。如图所示,提供了以下层和相应功能:硬件和软件层(810),虚拟化层(820),管理层(830)和工作负载层(840)。
硬件和软件层(810)包括硬件和软件组件。硬件组件的例子包括:主机,例如***;基于RISC(精简指令集计算机)体系结构的服务器,例如IBM***;IBM ***;IBM ***;存储设备;网络和网络组件。软件组件的例子包括:网络应用服务器软件,例如IBM 应用服务器软件;数据库软件,例如IBM 数据库软件。(IBM,zSeries,pSeries,xSeries,BladeCenter,WebSphere以及DB2是国际商业机器公司在全世界各地的注册商标)。
虚拟层(820)提供一个抽象层,该层可以提供下列虚拟实体的例子:虚拟服务器、虚拟存储、虚拟网络(包括虚拟私有网络)、虚拟应用和操作***,以及虚拟客户端。
在一个示例中,管理层(830)可以提供下述功能:资源供应功能:提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取;计量和定价功能:在云计算环境内对资源的使用进行成本跟踪,并为此提供帐单和***。在一个例子中,该资源可以包括应用软件许可。安全功能:为云的消费者和任务提供身份认证,为数据和其它资源提供保护。用户门户功能:为消费者和***管理员提供对云计算环境的访问。服务水平管理功能:提供云计算资源的分配和管理,以满足必需的服务水平。服务水平协议(SLA)计划和履行功能:为根据SLA预测的对云计算资源未来需求提供预先安排和供应。
工作负载层(840)提供云计算环境可能实现的功能的示例。在该层中,可提供的工作负载或功能的示例包括:地图绘制与导航;软件开发及生命周期管理;虚拟教室的教学提供;数据分析处理;交易处理;和神经模型的层次结构管理。
应当理解,本文公开了一种***、方法、装置和计算机程序产品,用于评估自然语言输入,检测对应通信中的疑问句以及用答案和/或支持内容解决所检测到的疑问句。
尽管已经示出和描述了本实施例的特定实施例,但是对于本领域技术人员而言显而易见的是,基于本文的教导,可以在不脱离实施例及其更广泛方面的情况下进行改变和修改。因此,所附权利要求书将在其范围内包括所有在实施例的真实精神和范围内的改变和修改。此外,应当理解,实施例仅由所附权利要求书限定。本领域的技术人员将理解,如果意图引入特定数量的的权利要求要素,则将在权利要求中明确地陈述这种意图,并且在没有这种叙述的情况下,不存在这种限制。作为非限制性示例,为了帮助理解,以下所附权利要求包含使用介绍性短语“至少一个”和“一个或多个”以引入权利要求要素。但是,此类短语的使用不应解释为暗示不定冠词“一个(a)”或“一个(an)”对权利要求要素的引入将包含该引入的权利要求要素的任何特定权利要求限制为仅包含一个此类要素的实施例,即使在同一权利要求包括介绍性短语“一个或多个”或“至少一个”以及不定冠词例如“一个(a)”或“一个(an)”,在定冠词的权利要求中也是如此。
本实施例可以是***、方法和/或计算机程序产品。另外,本实施例的选择的方面可以采取以下形式:完全硬件实施例,完全软件实施例(包括固件,驻留软件,微代码等)或组合了软件和/或硬件方面的实施例,在本文中通常被称为“电路”,“模块”或“***”。此外,本实施例的方面可以采取计算机程序产品的形式,该计算机程序产品体现在其上具有用于使处理器执行本实施例的方面的计算机可读程序指令的计算机可读存储介质中。如此体现,所公开的***、方法和/或计算机程序产品可操作以改善人工智能平台的功能和操作以构建联合学习框架。
在此参考根据实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本实施例的各方面。将理解的是,流程图图示和/或框图的每个框以及流程图图示和/或框图中的框的组合可以通过计算机可读程序指令来实现。
可以将这些计算机可读程序指令提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器以产生机器,使得该指令经由计算机或其他处理器执行可编程数据处理设备执行,创建用于实现流程图和/或框图方框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,该计算机可读存储介质可以指导计算机,可编程数据处理装置和/或其他设备以特定方式起作用,从而使得其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或方框图或多个方框中指定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机,其他可编程数据处理设备或其他设备上,以使得在计算机,其他可编程设备或其他设备上执行一系列操作步骤以产生实现的计算机处理,使得指令在计算机、其他可编程装置或其他设备上执行以实现流程图和/或框图方框中指定的功能/动作。
附图中的流程图和框图示出了根据本实施例的各个实施例的***、方法和计算机程序产品的可能实现的架构,功能和操作。就这一点而言,流程图或框图中的每个方框可以代表指令的模块,片段或部分,其包括用于实现特定的逻辑功能的一个或多个可执行指令。在一些替代实施方式中,方框中指出的功能可以不按图中指出的顺序发生。例如,连续示出的两个方框实际上可以基本上同时执行,或者这些方框有时可以以相反的顺序执行,取决于所涉及的功能。还应当注意,框图和/或流程图的每个方框以及框图和/或流程图的方框的组合可以由执行指定功能或动作或实现特殊用途的硬件和计算机指令的组合的基于专用硬件的***来实现。
应当理解,尽管这里出于说明的目的已经描述了特定实施例,但是可以在不脱离实施例的精神和范围的情况下进行各种修改。在一个实施例中,FLF是可操作地跨层耦合的模型的逻辑层次结构。因此,实施例的保护范围仅由所附权利要求及其等同物限制。
Claims (20)
1.一种计算机***,包括:
可操作地耦合到存储器的处理器;
与所述处理器通信并具有自然语言处理工具的人工智能(AI)平台,包括:
层次结构管理器,用于构建包括层次结构的联合学习框架,所述层次结构管理器创建机器学习模型(MLM)的层次结构,其中,MLM的所述层次结构包括所述层次结构的一级层中的一级MLM;
训练管理器,用于训练一级MLM,包括通过至少一个通信信道捕获贡献模型更新;
所述层次结构管理器,用于创建逻辑上位于所述层次结构的二级层中的二级MLM,所述二级MLM通过所述至少一个通信信道可操作地耦合到所述一级MLM;
所述训练管理器,用于初始化创建的二级MLM,包括将所述一级MLM的权重和框架克隆到所述二级MLM中,并用二级数据填充所述创建的二级MLM,所述填充的数据包括所述创建的二级MLM局部的模型更新;
MLM管理器,用于将所述二级MLM逻辑上放置在所述二级层局部,并将对所述二级MLM的访问限制在所述二级层内;以及
所述MLM管理器,用于全局存储一级MLM数据,其中所述一级MLM可被所述二级MLM访问。
2.根据权利要求1所述的***,还包括所述MLM管理器,用于使所述二级MLM与所述一级MLM同步,包括在二级MLM设置下聚合权重参数,以及用于用包括在捕获的贡献数据中的聚合的局部神经网络模型权重来更新所述一级MLM。
3.根据权利要求1所述的***,还包括所述MLM管理器形成新的二级MLM,其包括所述MLM管理器在所述二级层内应用聚类技术,所应用的聚类技术用于识别新的聚类。
4.根据权利要求3所述的***,其中在所述二级层内应用所述聚类技术还包括:所述MLM管理器拆分所述二级MLM,所述拆分形成至少一个新的二级MLM,并训练所述至少一个新的二级MLM。
5.根据权利要求3所述的***,其中应用所述聚类技术还包括:所述MLM管理器将两个或更多个现有的二级MLM组合成合并的二级MLM。
6.根据权利要求1所述的***,还包括所述训练管理器使用所述二级MLM局部的模型更新来更新所述二级MLM。
7.一种用于构建联合学习框架的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,该计算机可读存储介质具有包含在其中的程序代码,所述程序代码可由处理器执行以:
建立联合学习框架,包括程序代码以创建机器学习模型(MLM)的层次结构,其中MLM的所述层次结构包括所述层次结构的一级层中的一级MLM;
训练所述一级MLM,包括捕获至少一个通信渠道中的贡献模型更新;
在所述层次结构的二级层中创建二级MLM,所述二级MLM通过至少一个通信信道逻辑耦合至所述一级MLM;
初始化创建的二级MLM,包括将所述一级MLM的权重和框架克隆到所述二级MLM,并用二级数据填充所述创建的二级MLM,所述填充的数据包括所述创建的二级MLM局部的模型更新;
将所述二级MLM存储在所述二级层局部,并将对所述二级MLM的访问限制在所述二级层局部的二级组的成员中;以及
全局存储所述一级MLM,其中所述一级MLM数据可被所述二级MLM访问。
8.根据权利要求7所述的计算机程序产品,还包括程序代码,用于使所述二级MLM与所述一级MLM同步,包括程序代码,用于在二级MLM设置下聚合局部数据和权重参数,并利用捕获的贡献数据中包含的聚合的局部神经网络模型权重来更新所述一级MLM。
9.根据权利要求7所述的计算机程序产品,还包括程序代码,用于形成新的二级MLM,包括程序代码,用于在所述二级层内应用聚类技术,所应用的聚类技术用于识别新的二级MLM。
10.根据权利要求9所述的计算机程序产品,其中在所述二级层内应用所述聚类技术还包括程序代码,用于拆分所述二级MLM并训练所形成的新的二级MLM。
11.根据权利要求9所述的计算机程序产品,其中应用所述聚类技术还包括程序代码,用于将两个或更多个现有的二级MLM组合成合并的二级MLM。
12.根据权利要求7所述的计算机程序产品,还包括程序代码,用于使用对所述二级MLM局部的模型更新来更新所述二级MLM。
13.一种方法,包括:建立联合学习框架,包括创建机器学习模型(MLM)的层次结构,其中MLM的所述层次结构包括一级层中的一级MLM;
训练所述一级MLM,包括通过至少一个通信信道捕获模型贡献更新;
在所述层次结构的二级层中创建二级MLM,所述二级层MLM通过所述至少一个通信信道可操作地耦合到所述一级MLM;
初始化创建的二级MLM,包括将所述一级MLM的权重和框架克隆到所述二级MLM中,并用二级数据填充所述创建的二级MLM,所述填充的数据包括所述创建的二级MLM局部的模型更新;以及
将所述二级MLM存储在所述二级层局部,并将对所述二级MLM的访问限制到所述二级层。
14.根据权利要求13所述的方法,还包括使所述二级MLM与所述一级MLM同步,包括在二级MLM设置下聚合权重参数,并利用包括在捕获的贡献数据中的聚合的局部神经网络模型权重来更新所述一级MLM。
15.根据权利要求13所述的方法,还包括形成新的二级MLM,包括在所述二级层内应用聚类技术,所应用的聚类技术识别新的二级MLM。
16.根据权利要求15所述的方法,其中在所述二级层内应用聚类技术还包括拆分所述二级MLM并训练所述新形成的二级MLM。
17.根据权利要求15所述的方法,其中应用所述聚类技术还包括将两个或更多个现有的二级MLM组合成合并的二级MLM。
18.根据权利要求15所述的方法,还包括全局存储所述一级MLM数据,其中所述一级MLM可被所述二级MLM访问。
19.根据权利要求15所述的方法,还包括使用对于所述二级MLM局部的模型更新来更新所述二级MLM。
20.一种***,所述***包括分别用于执行根据权利要求13-19中任意一项所述的方法的各个步骤的模块。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/536,711 US20210042628A1 (en) | 2019-08-09 | 2019-08-09 | Building a federated learning framework |
US16/536711 | 2019-08-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112347754A true CN112347754A (zh) | 2021-02-09 |
Family
ID=74358270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010764523.9A Pending CN112347754A (zh) | 2019-08-09 | 2020-07-30 | 建立联合学习框架 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210042628A1 (zh) |
CN (1) | CN112347754A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112884164A (zh) * | 2021-03-18 | 2021-06-01 | 中国地质大学(北京) | 面向智能移动终端实现的联邦机器学习迁移方法与*** |
CN112884165A (zh) * | 2021-03-18 | 2021-06-01 | 中国地质大学(北京) | 面向联邦机器学习的全流程服务迁移方法与*** |
CN113159279A (zh) * | 2021-03-18 | 2021-07-23 | 中国地质大学(北京) | 基于神经网络与深度学习的跨域知识协助方法与*** |
WO2022228335A1 (en) * | 2021-04-26 | 2022-11-03 | International Business Machines Corporation | Input-encoding with federated learning |
US11914678B2 (en) | 2020-09-23 | 2024-02-27 | International Business Machines Corporation | Input encoding for classifier generalization |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11755884B2 (en) * | 2019-08-20 | 2023-09-12 | Micron Technology, Inc. | Distributed machine learning with privacy protection |
US20220114491A1 (en) * | 2020-10-09 | 2022-04-14 | AquaSys LLC | Anonymous training of a learning model |
CN113240184B (zh) * | 2021-05-21 | 2022-06-24 | 浙江大学 | 一种基于联邦学习的楼宇空间单元冷负荷预测方法及*** |
US11777812B2 (en) | 2021-06-25 | 2023-10-03 | Qualcomm Technologies, Inc. | Zone-based federated learning |
CN113568973B (zh) * | 2021-07-21 | 2023-11-24 | 湖南天河国云科技有限公司 | 基于区块链和联邦学习的金融征信数据共享方法及装置 |
CN113850394B (zh) * | 2021-09-18 | 2023-02-28 | 北京百度网讯科技有限公司 | 联邦学习方法、装置、电子设备及存储介质 |
WO2022247143A1 (en) * | 2021-11-01 | 2022-12-01 | F. Hoffmann-La Roche Ag | Federated learning of medical validation model |
US20230259812A1 (en) * | 2022-02-14 | 2023-08-17 | Accenture Global Solutions Limited | Adaptive and evolutionary federated learning system |
KR20230155805A (ko) * | 2022-05-04 | 2023-11-13 | 삼성전자주식회사 | 이동 통신 시스템에서 연합 기계 학습 수행을 관리하기 위한 방법 및 장치 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107871160A (zh) * | 2016-09-26 | 2018-04-03 | 谷歌公司 | 通信高效联合学习 |
US20180329935A1 (en) * | 2017-05-11 | 2018-11-15 | Oracle International Corporation | Distributed storage and processing of hierarchical data structures |
CN109871702A (zh) * | 2019-02-18 | 2019-06-11 | 深圳前海微众银行股份有限公司 | 联邦模型训练方法、***、设备及计算机可读存储介质 |
CN110019751A (zh) * | 2018-01-10 | 2019-07-16 | 国际商业机器公司 | 机器学习模型修改和自然语言处理 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11144616B2 (en) * | 2017-02-22 | 2021-10-12 | Cisco Technology, Inc. | Training distributed machine learning with selective data transfers |
US11147459B2 (en) * | 2018-01-05 | 2021-10-19 | CareBand Inc. | Wearable electronic device and system for tracking location and identifying changes in salient indicators of patient health |
US11178182B2 (en) * | 2018-04-20 | 2021-11-16 | Sailpoint Technologies, Inc. | Automated access control management for computing systems |
US11443166B2 (en) * | 2018-10-29 | 2022-09-13 | Oracle International Corporation | Datacenter level utilization prediction without operating system involvement |
US11483212B2 (en) * | 2019-02-08 | 2022-10-25 | Ciena Corporation | Safeguarding artificial intelligence-based network control |
CN113498508A (zh) * | 2019-03-01 | 2021-10-12 | 瑞典爱立信有限公司 | 动态网络配置 |
US11636380B2 (en) * | 2019-04-09 | 2023-04-25 | Nxp B.V. | Method for protecting a machine learning model against extraction using an ensemble of a plurality of machine learning models |
US11169506B2 (en) * | 2019-06-26 | 2021-11-09 | Cisco Technology, Inc. | Predictive data capture with adaptive control |
-
2019
- 2019-08-09 US US16/536,711 patent/US20210042628A1/en active Pending
-
2020
- 2020-07-30 CN CN202010764523.9A patent/CN112347754A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107871160A (zh) * | 2016-09-26 | 2018-04-03 | 谷歌公司 | 通信高效联合学习 |
US20180329935A1 (en) * | 2017-05-11 | 2018-11-15 | Oracle International Corporation | Distributed storage and processing of hierarchical data structures |
CN110019751A (zh) * | 2018-01-10 | 2019-07-16 | 国际商业机器公司 | 机器学习模型修改和自然语言处理 |
CN109871702A (zh) * | 2019-02-18 | 2019-06-11 | 深圳前海微众银行股份有限公司 | 联邦模型训练方法、***、设备及计算机可读存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11914678B2 (en) | 2020-09-23 | 2024-02-27 | International Business Machines Corporation | Input encoding for classifier generalization |
CN112884164A (zh) * | 2021-03-18 | 2021-06-01 | 中国地质大学(北京) | 面向智能移动终端实现的联邦机器学习迁移方法与*** |
CN112884165A (zh) * | 2021-03-18 | 2021-06-01 | 中国地质大学(北京) | 面向联邦机器学习的全流程服务迁移方法与*** |
CN113159279A (zh) * | 2021-03-18 | 2021-07-23 | 中国地质大学(北京) | 基于神经网络与深度学习的跨域知识协助方法与*** |
CN112884164B (zh) * | 2021-03-18 | 2023-06-23 | 中国地质大学(北京) | 面向智能移动终端实现的联邦机器学习迁移方法与*** |
CN113159279B (zh) * | 2021-03-18 | 2023-06-23 | 中国地质大学(北京) | 基于神经网络与深度学习的跨域知识协助方法与*** |
WO2022228335A1 (en) * | 2021-04-26 | 2022-11-03 | International Business Machines Corporation | Input-encoding with federated learning |
Also Published As
Publication number | Publication date |
---|---|
US20210042628A1 (en) | 2021-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112347754A (zh) | 建立联合学习框架 | |
US11455473B2 (en) | Vector representation based on context | |
US10977389B2 (en) | Anonymity assessment system | |
AU2020385264B2 (en) | Fusing multimodal data using recurrent neural networks | |
US20200177634A1 (en) | Hybrid Network Infrastructure Management | |
US11093774B2 (en) | Optical character recognition error correction model | |
US11397891B2 (en) | Interpretability-aware adversarial attack and defense method for deep learnings | |
US11294884B2 (en) | Annotation assessment and adjudication | |
US11188517B2 (en) | Annotation assessment and ground truth construction | |
US20210216904A1 (en) | Knowledge Aided Feature Engineering | |
CN114667507A (zh) | 使用基于应用的剖析的机器学习工作负载的弹性执行 | |
US20230107309A1 (en) | Machine learning model selection | |
US11121986B2 (en) | Generating process flow models using unstructure conversation bots | |
US20210117775A1 (en) | Automated selection of unannotated data for annotation based on features generated during training | |
US20200134025A1 (en) | Augmentation of a Text Representation Model | |
US11934922B2 (en) | Predictive data and model selection for transfer learning in natural language processing | |
US11443216B2 (en) | Corpus gap probability modeling | |
US11200502B2 (en) | Streaming atomic link learning based on socialization and system accuracy | |
US11854264B2 (en) | Speculative actions based on predicting negative circumstances | |
US11893132B2 (en) | Discovery of personal data in machine learning models | |
US20220114459A1 (en) | Detection of associations between datasets | |
US20230024397A1 (en) | Classification of mouse dynamics data using uniform resource locator category mapping | |
US11551006B2 (en) | Removal of personality signatures | |
US11334716B2 (en) | Document anonymization including selective token modification | |
US20230177273A1 (en) | Intent classification enhancement through training data augmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |