CN115002215B

CN115002215B - 面向云上政企的资源分配模型训练方法以及资源分配方法

Info

Publication number: CN115002215B
Application number: CN202210376475.5A
Authority: CN
Inventors: 赵永利; 李卓桐; 李亚杰; 郁小松; 张�杰
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2023-12-05
Anticipated expiration: 2042-04-11
Also published as: CN115002215A

Abstract

本申请提供一种面向云上政企的资源分配模型训练方法，所述方法应用于基于SDN的云网络，所述云网络包括控制器、多个数据中心以及连接所述多个数据中心的光传送网，所述方法包括：利用所述控制器从所述数据中心以及所述光传送网中获取云网资源，根据所述云网资源构建资源抽象模型，并根据所述资源抽象模型对预先构建的强化学习神经网络模型进行初始化；构建业务训练集；利用所述业务训练集对所述强化学习神经网络模型进行训练，以得到资源分配模型。应用本申请提供的方法得到能够针对租户需求的资源分配模型，应用该资源分配模型，能够有效提升云网资源利用率，在保证租户数据隔离需求的同时降低开发维护成本，实现了云网资源的合理分配与按需调度。

Description

面向云上政企的资源分配模型训练方法以及资源分配方法

技术领域

本申请涉及云网络技术领域，尤其涉及一种面向云上政企的资源分配模型训练方法以及资源分配方法。

背景技术

随着云计算领域的不断发展，企业在云端部署信息***已经成为了一种趋势，企业上云意识和能力不断增强。具备高质量传送管道的光传送网(Optical TransportNetwork，OTN)随云计算的需求不断变化，不断深化云网协同能力，逐渐走向云网融合。一些云网租户(例如云上政企租户)的部分数据具备高度的私密性，不得出现数据泄露安全问题，因此通常要求网络运营商和云厂商利用多租户技术为其提供具备差异化隐私安全的云服务，不同的隐私安全保障措施会带来不同的成本，而利用同一云厂商的不同数据中心为其提供服务也会带来网络传送、计算和存储资源的合理分配与按需调度问题。

发明内容

有鉴于此，本申请的目的在于提出一种面向云上政企的资源分配模型训练方法以及资源分配方法。

基于上述目的，本申请提供了一种面向云上政企的资源分配模型训练方法，所述方法应用于基于SDN的云网络，所述云网络包括控制器、多个数据中心以及连接所述多个数据中心的光传送网，所述方法包括：利用所述控制器从所述数据中心以及所述光传送网中获取云网资源，根据所述云网资源构建资源抽象模型，并根据所述资源抽象模型对预先构建的强化学习神经网络模型进行初始化；构建业务训练集；利用所述业务训练集对所述强化学习神经网络模型进行训练，以得到资源分配模型。

可选地，所述强化学习神经网络模型是基于图神经网络以及强化学习构建的，所述根据所述资源抽象模型对预先构建的强化学习神经网络模型进行初始化，包括：根据所述资源抽象模型对所述强化学习神经网络模型中节点和边的隐藏层状态进行初始化。

可选地，所述构建业务训练集，包括：获取多个虚拟业务；根据所述虚拟业务的数据隔离需求对所述虚拟业务进行分类；针对经过分类的每个所述虚拟业务，构建该所述虚拟业务到每个所述数据中心的源宿节点对以及源宿节点路径；将全部所述源宿节点对和所述源宿节点路径作为所述业务训练集。

可选地，所述根据所述虚拟业务的数据隔离需求对所述虚拟业务进行分类，包括：将属于同一个虚拟租户的所述虚拟业务分为一个大类；在每个所述大类中，将隔离等级相同的所述虚拟业务分为一个小类。

可选地，所述利用所述业务训练集对所述强化学习神经网络模型进行训练，以得到资源分配模型，包括：对所述强化学习神经网络模型进行多轮迭代训练，每次所述迭代训练应用所述业务训练集中的一个所述虚拟业务对应的所有所述源宿节点路径进行训练，不同次所述迭代训练应用不同的所述虚拟业务，对于每次所述迭代训练执行如下操作：将所有所述源宿节点路径按照长度从短到长排序，选择前n条所述源宿节点路径作为候选路径，n为大于1的整数；对每条所述候选路径进行资源分配，得到多种分配行为；根据所述分配行为修改所述强化学习神经网络模型的所述隐藏层状态，并经由所述强化学习神经网络模型输出Q值；计算Q值最大的所述分配行为的奖惩值，将所述奖惩值累加进总奖惩值；响应于所述总奖惩值达到第一阈值和/或所述迭代训练次数达到第二阈值，所述迭代训练完成，得到所述资源分配模型，其中，所述第一阈值与所述第二阈值均为预先设定的。

可选地，所述计算Q值最大的所述分配行为的奖惩值，包括：根据下式确定所述奖惩值：

其中，Reward为所述奖惩值，为所述分配行为的数据隔离需求满足度奖惩值，φ_cost为所述分配行为的数据开销成本奖惩值。

基于同一发明构思，本申请还提供了一种应用任一项所述的面向云上政企的资源分配模型训练方法得到的资源分配模型进行资源分配的方法，包括：获取租户的业务请求；将所述业务请求输入至所述资源分配模型，利用所述资源分配模型输出资源分配方案。

基于同一发明构思，本申请还提供了一种面向云上政企的资源分配模型训练装置，所述装置应用于基于SDN的云网络，所述云网络包括控制器多个数据中心以及连接所述多个数据中心的光传送网，所述装置包括：初始化模块，被配置为利用所述控制器从所述数据中心以及所述光传送网中获取云网资源，根据所述云网资源构建资源抽象模型，并根据所述资源抽象模型对预先构建的强化学习神经网络模型进行初始化；训练集构建模块，被配置为构建业务训练集；训练模块，被配置为利用所述业务训练集对所述强化学习神经网络模型进行训练，以得到资源分配模型。

基于同一发明构思，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现任意一项所述的面向云上政企的资源分配模型训练方法。

基于同一发明构思，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行任意一项所述的面向云上政企的资源分配模型训练方法。

从上面所述可以看出，本申请提供的资源分配模型训练方法，所述方法应用于基于SDN的云网络，所述云网络包括控制器、多个数据中心以及连接所述多个数据中心的光传送网，所述方法包括：利用所述控制器从所述数据中心以及所述光传送网中获取云网资源，根据所述云网资源构建资源抽象模型，并根据所述资源抽象模型对预先构建的强化学习神经网络模型进行初始化；构建业务训练集；利用所述业务训练集对所述强化学习神经网络模型进行训练，以得到资源分配模型。应用本申请提供的方法得到能够针对租户需求的资源分配模型，应用该资源分配模型，能够有效提升云网资源利用率，在保证租户数据隔离需求的同时降低开发维护成本，实现了云网资源的合理分配与按需调度。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的面向云上政企的资源分配模型训练方法应用场景示意图；

图2为本申请实施例的面向云上政企的资源分配模型训练方法的流程示意图；

图3为本申请实施例的面向云上政企的资源分配模型训练方法的流程细化示意图；

图4为本申请实施例的资源抽象模型原理示意图；

图5为本申请实施例的多租户数据隔离技术原理示意图；

图6为本申请实施例的面向云上政企的资源分配模型训练装置的结构示意图；

图7为本申请实施例的资源分配装置的结构示意图；

图8为本申请实施例的电子设备硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

本申请的一个实施例提供了一种面向云上政企的资源分配模型训练方法，所述方法应用于基于SDN(SoftwareDefinedNetwork，软件定义网络)的云网络，如图1所示，所述云网络包括基于SDN的云网融合控制器、多个数据中心、多个租户以及连接所述多个数据中心的光传送网，OSU(Optical Service Unit)为所述光传送网中的光业务单元状态，如图2所示，所述方法包括：

步骤S101、利用所述控制器从所述数据中心以及所述光传送网中获取云网资源，根据所述云网资源构建资源抽象模型，并根据所述资源抽象模型对预先构建的强化学习神经网络模型进行初始化。本申请实施例中的控制器为基于SDN的云网融合控制器，该控制器能够可视光传送网和多个云数据中心的网络资源状态，并具备统一的云网控制能力和接口协议；该控制器能够集中管理和监控租户业务请求，并实现本申请实施例的面向云上政企的资源分配模型训练方法以及资源分配方法。

步骤S102、构建业务训练集。针对租户业务需求构建训练集，能够使基于该训练集进行训练的资源分配模型更好地满足租户的业务需求。

步骤S103、利用所述业务训练集对所述强化学习神经网络模型进行训练，以得到资源分配模型。一种具体的实施例中，所述资源分配模型被配置为为云上政企租户提供资源分配服务。

本实施例提供的资源分配模型训练方法包括：根据所述云网资源构建资源抽象模型，并根据所述资源抽象模型对预先构建的强化学习神经网络模型进行初始化，并针对租户需求构建业务训练集，使基于该训练集进行训练的资源分配模型更好地满足租户的业务需求；应用该资源分配模型，能够有效提升云网资源利用率，在保证租户数据隔离需求的同时降低开发维护成本，实现了云网资源的合理分配与按需调度。

在一些实施例中，所述强化学习神经网络模型是基于图神经网络以及强化学习构建的。现有技术中，基于启发式算法的资源优化模型的算法的时间空间复杂度将十分庞大，成本代价较高，并且由于启发式算法仅仅得出一个解，每次需要独立执行；而基于多模态网络和强化学习的资源优化模型，由于网络中需要考虑的资源和约束较多，图像识别过程困难，训练过程缓慢，学习效果难以保证，此外，强化学习本质上是对生成的多模态网络图像这样的欧几里得数据进行学习，但多模态网络拓扑本身是非欧几里得数据，如果改变网络节点位置但不改变连接结构，非欧几里得数据保持不变，但生成的多模态图像对于图像识别来说将是新的特征，这使得学习多模态网络图像的强化学习不具备泛化性。有鉴于此，本申请实施例基于图神经网络以及强化学习构建强化学习神经网络模型。图神经网络(GraphNeural Network，GNN)是一种直接在图结构上运行的神经网络，本申请实施例利用图神经网络的非欧几里得数据抽象能力，构建云网一体的资源分配模型，能够解决上述现有技术常用算法带来的技术问题，保证了利用本申请实施例提供的资源分配模型进行资源分配时云网资源的合理分配与按需调度。

在一些实施例中，所述步骤S101中根据所述资源抽象模型对预先构建的强化学习神经网络模型进行初始化，包括：根据所述资源抽象模型对所述强化学习神经网络模型中节点和边的隐藏层状态进行初始化。根据资源抽象模型初始化强化学习神经网络模型中节点和边的隐藏层状态，为后续模型训练时修改强化学习神经网络的隐藏层状态做准备。

一种具体的实施例中，如图3所示，所述步骤S101可以细化为：步骤S1011、采集云网资源：首先基于SDN的云网融合控制器需要OTN网络和云数据中心(即本申请实施例上述数据中心)的拓扑信息和多种异构资源信息；步骤S1012、建立云网一体的资源抽象模型(如图4所示，图4中各参数含义如表1所示，图4中节点1、节点2、节点3均为传送网络节点，节点4为数据中心抽象节点)：基于OTN和云数据中心的拓扑信息和资源状态，构建云网一体的资源抽象模型；步骤S1013、初始化资源优化模型：依照资源抽象模型初始化GNN中节点和边的隐藏层状态，完成构建并初始化基于GNN和RL的强化学习神经网络模型。其中，拓扑信息包括租户和云数据中心的地理位置，异构资源信息包括但不限于光传送网每条链路的OSU、云数据中心中计算资源、存储资源的数量以及存储数据库类型。

表1：资源抽象模型参数含义

在一些实施例中，如图3所示，所述步骤S102包括：

步骤S201、获取多个虚拟业务。所述虚拟业务可以为预先构建的，其数据结构与实际使用时租户请求的业务的数据结构相同。

步骤S202、根据所述虚拟业务的数据隔离需求对所述虚拟业务进行分类。所述数据隔离需求包括虚拟业务企业类别和隔离等级，一种具体的实施例中，所述数据隔离需求还包括针对每个租户的虚拟业务分析云数据中心需要为其提供独立数据库还是共享数据库。相同企业和相同的隔离等级排序/分类在一起，保证同一企业内部共享的数据业务尽可能分配至同一个数据中心的同一类型数据库内，将安全需求相似的业务统一存储，合理调度租户请求，减少冗余的隐私安全保障措施。

步骤S203、针对经过分类的每个所述虚拟业务，构建该所述虚拟业务到每个所述数据中心的源宿节点对以及源宿节点路径，将全部所述源宿节点对和所述源宿节点路径作为所述业务训练集。源节点的位置取决于租户的业务请求节点位置；云厂商为租户提供云服务时，同一云厂商的多个数据中心均可作为服务提供点，宿节点的位置取决于提供服务的数据中心的地理位置，所述源宿节点路径即为所述源节点到所述宿节点之间的数据传输路径。

上述步骤S201至S203获得的训练集能够满足任意租户的数据安全隔离需求，在提升计算、存储、传送三种资源利用率的同时，降低为租户开发和运维数据隔离多租户技术所带来的成本；上述分类过程将安全需求相似的业务统一存储，合理调度租户请求，减少冗余的隐私安全保障措施。根据数据隔离需求构建用于训练的数据集，使模型在后续的训练过程中能够学习网络资源和租户业务间的相关性，并修正网络状态或拓扑，保证较好的泛化能力。

多租户技术是一项云计算平台技术，该技术使得大量的租户能够共享同一堆栈的软、硬件资源，每个租户代表一个企业，租户内部有多个用户，每个租户能够按需使用资源，能够对软件服务进行客户化配置，而且不影响其他租户的使用。数据隔离是指多个租户在使用同一个***时，租户的业务数据是相互隔离存储的，不同租户的业务数据处理不会相互干扰。多租户技术需要实现安全、高效的数据隔离，从而保证租户数据安全及多租户平台的整体性能。对于多租户的数据库管理包括提供独立数据库和共享数据库，独立数据库为租户业务创建单独的数据库，数据间充分隔离，但独立数据库管理的成本和开销比较大；共享数据库仅通过租户的标识码字段进行区别，该方式管理成本和开销低，但数据隔离效果差。如图5所示，不同租户间的业务数据相互隔离，各自拥有独立数据库，同一租户下根据隔离需求不同也会分为多个数据相互隔离的子租户，子租户也拥有独立数据库，但像办公基础设施一类不同租户都需要用到的业务数据，则使用共享数据库。将上述步骤S201至S203获得的业务训练集应用于模型训练，最后得到的模型能够针对不同租户的不同业务需求合理分配独立数据库与共享数据库，既能保证数据隔离效果，也能降低管理成本与开销。

在一些实施例中，所述步骤S202包括：将属于同一个虚拟租户的所述虚拟业务分为一个大类；在每个所述大类中，将隔离等级相同的所述虚拟业务分为一个小类。将安全需求相似的业务统一存储，合理调度租户请求，减少冗余的隐私安全保障措施。

在一些实施例中，如图3所示，所述步骤S103包括：

对所述强化学习神经网络模型进行多轮迭代训练，每次所述迭代训练应用所述业务训练集中的一个所述虚拟业务对应的所有所述源宿节点路径进行训练，不同次所述迭代训练应用不同的所述虚拟业务，对于每次所述迭代训练执行如下步骤S301至步骤S305的操作：

步骤S301、将所有所述源宿节点路径按照长度从短到长排序，选择前n条所述源宿节点路径作为候选路径，n为大于1的整数。

步骤S302、对每条所述候选路径进行资源分配，得到多种分配行为。一种具体的实施例中，所述对每条所述候选路径进行资源分配包括对每条候选路径分配OSU和云资源并选择数据存储类型。

步骤S303、根据所述分配行为修改所述强化学习神经网络模型的所述隐藏层状态，并经由所述强化学习神经网络模型输出Q值。

步骤S304、计算Q值最大的所述分配行为的奖惩值；一种具体的实施例中，通过强化学习的ε贪婪算法(ε-greedy)选择最大的Q值对应的分配行为作为分配结果。

步骤S305、将所述奖惩值累加进总奖惩值。

响应于所述总奖惩值达到第一阈值和/或所述迭代训练次数达到第二阈值，所述迭代训练完成，得到所述资源分配模型，其中，所述第一阈值与所述第二阈值均为预先设定的。

一种更为具体的实施例中，所述步骤S303具体为：在每次资源分配行为结束后，依照分配行为修改所述强化学习神经网络模型的隐藏层的信息参数，利用GNN通过节点相互传递T个步长后，输出每个节点的输出隐藏值o_m+n，所有节点的输出隐藏值o_m+n通过一个向量乘积和一层全连接神经网络获得所需Q值，其中所述T步长在训练时根据所述信息参数不断调整。

在一些实施例中，所述步骤S304中计算Q值最大的所述分配行为的奖惩值，包括：根据下式确定所述奖惩值：

其中，Reward为所述奖惩值，为所述分配行为的数据隔离需求满足度奖惩值举例来说，当无法分配或者分配不满足政企数据隔离需求的资源时，/>为一个较大的负数；φ_cost为所述分配行为的数据开销成本奖惩值，具体来说为所造成的数据中心增加数据库类型的开销成本奖惩值，分配独立数据库时的开销成本奖励值将低于分享共享数据库的开销成本奖励值。

基于同一发明构思，本申请的一个实施例还提供了一种应用任一项所述的面向云上政企的资源分配模型训练方法得到的资源分配模型进行资源分配的方法，如图3所示，包括：

步骤S401、租户发出业务请求；

步骤S402、获取租户的业务请求；

步骤S403、将所述业务请求输入至所述资源分配模型，利用所述资源分配模型输出资源分配方案，所述资源分配方案包括业务的数据中心地理位置、分配的网络路径、计算存储和传送资源以及提供的数据存储类型。

本申请实施例提供的资源分配方法利用训练好的资源分配模型获得最佳的分配策略，能够有效提升云网资源利用率，在保证租户数据隔离需求的同时降低开发维护成本，实现了云网资源的合理分配与按需调度，大大提升了租户业务分配的异构资源利用率。

一种具体的实施例中，所述资源分配方法还包括：

获取云上政企租户的业务请求；

将所述业务请求输入至所述资源分配模型，利用所述资源分配模型输出针对所述云上政企租户的资源分配方案。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种面向云上政企的资源分配模型训练装置，所述装置应用于基于SDN的云网络，所述云网络包括控制器、多个数据中心以及连接所述多个数据中心的光传送网，如图6所示，所述装置包括：

初始化模块10，被配置为利用所述控制器从所述数据中心以及所述光传送网中获取云网资源，根据所述云网资源构建资源抽象模型，并根据所述资源抽象模型对预先构建的强化学习神经网络模型进行初始化；

训练集构建模块20，被配置为构建业务训练集；

训练模块30，被配置为利用所述业务训练集对所述强化学习神经网络模型进行训练，以得到资源分配模型。

本实施例提供的资源分配模型训练装置包括：初始化模块10以及训练集构建模块20根据所述云网资源构建资源抽象模型，并根据所述资源抽象模型对预先构建的强化学习神经网络模型进行初始化，并针对租户需求构建业务训练集，使基于该训练集进行训练的资源分配模型更好地满足租户的业务需求；应用该资源分配模型，能够有效提升云网资源利用率，在保证租户数据隔离需求的同时降低开发维护成本，实现了云网资源的合理分配与按需调度。

在一些实施例中，所述强化学习神经网络模型是基于图神经网络以及强化学习构建的，所述初始化模块10还被配置为：根据所述资源抽象模型对所述强化学习神经网络模型中节点和边的隐藏层状态进行初始化。

在一些实施例中，所述训练集构建模块20包括：

获取单元，被配置为获取多个虚拟业务；

分类单元，被配置为根据所述虚拟业务的数据隔离需求对所述虚拟业务进行分类；

构建单元，被配置为针对经过分类的每个所述虚拟业务，构建该所述虚拟业务到每个所述数据中心的源宿节点对以及源宿节点路径，将全部所述源宿节点对和所述源宿节点路径作为所述业务训练集。

在一些实施例中，所述分类单元还被配置为：将属于同一个虚拟租户的所述虚拟业务分为一个大类；在每个所述大类中，将隔离等级相同的所述虚拟业务分为一个小类。

在一些实施例中，所述训练模块30还被配置为：对所述强化学习神经网络模型进行多轮迭代训练，每次所述迭代训练应用所述业务训练集中的一个所述虚拟业务对应的所有所述源宿节点路径进行训练，不同次所述迭代训练应用不同的所述虚拟业务，对于每次所述迭代训练执行如下操作：

将所有所述源宿节点路径按照长度从短到长排序，选择前n条所述源宿节点路径作为候选路径，n为大于1的整数；

对每条所述候选路径进行资源分配，得到多种分配行为；

根据所述分配行为修改所述强化学习神经网络模型的所述隐藏层状态，并经由所述强化学习神经网络模型输出Q值；

计算Q值最大的所述分配行为的奖惩值，将所述奖惩值累加进总奖惩值；

在一些实施例中，所述计算Q值最大的所述分配行为的奖惩值，包括：

根据下式确定所述奖惩值：

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种应用任一项所述的面向云上政企的资源分配模型训练装置得到的资源分配模型进行资源分配的装置，如图7所示，包括：

获取模块40，被配置为获取租户的业务请求。

输出模块50，被配置为将所述业务请求输入至所述资源分配模型，利用所述资源分配模型输出资源分配方案。

本申请实施例提供的资源分配装置利用训练好的资源分配模型获得最佳的分配策略，能够有效提升云网资源利用率，在保证租户数据隔离需求的同时降低开发维护成本，实现了云网资源的合理分配与按需调度，大大提升了租户业务分配的异构资源利用率。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的面向云上政企的资源分配模型训练方法以及资源分配方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的面向云上政企的资源分配模型训练方法以及资源分配方法。

图8示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器910、存储器920、输入/输出接口930、通信接口940和总线950。其中处理器910、存储器920、输入/输出接口930和通信接口940通过总线950实现彼此之间在设备内部的通信连接。

处理器910可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器920可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器920可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器920中，并由处理器910来调用执行。

输入/输出接口930用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口940用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线950包括一通路，在设备的各个组件(例如处理器910、存储器920、输入/输出接口930和通信接口940)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器910、存储器920、输入/输出接口930、通信接口940以及总线950，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的面向云上政企的资源分配模型训练方法以及资源分配方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的面向云上政企的资源分配模型训练方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的面向云上政企的资源分配模型训练方法以及资源分配方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围(包括权利要求)被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种面向云上政企的资源分配模型训练方法，其特征在于，所述方法应用于基于SDN的云网络，所述云网络包括控制器、多个数据中心以及连接所述多个数据中心的光传送网，所述方法包括：

利用所述控制器从所述数据中心以及所述光传送网中获取云网资源，根据所述云网资源构建资源抽象模型，并根据所述资源抽象模型对预先构建的强化学习神经网络模型进行初始化；

构建业务训练集，包括：

获取多个虚拟业务；

根据所述虚拟业务的数据隔离需求对所述虚拟业务进行分类；

针对经过分类的每个所述虚拟业务，构建该所述虚拟业务到每个所述数据中心的源宿节点对以及源宿节点路径；

将全部所述源宿节点对和所述源宿节点路径作为所述业务训练集；

利用所述业务训练集对所述强化学习神经网络模型进行训练，以得到资源分配模型，包括：

对所述强化学习神经网络模型进行多轮迭代训练，每次所述迭代训练应用所述业务训练集中的一个所述虚拟业务对应的所有源宿节点路径进行训练，不同次所述迭代训练应用不同的所述虚拟业务，对于每次所述迭代训练执行如下操作：

对每条所述候选路径进行资源分配，得到多种分配行为；

根据所述分配行为修改所述强化学习神经网络模型的隐藏层状态，并经由所述强化学习神经网络模型输出Q值；

2.根据权利要求1所述的面向云上政企的资源分配模型训练方法，其特征在于，所述强化学习神经网络模型是基于图神经网络以及强化学习构建的，所述根据所述资源抽象模型对预先构建的强化学习神经网络模型进行初始化，包括：

根据所述资源抽象模型对所述强化学习神经网络模型中节点和边的隐藏层状态进行初始化。

3.根据权利要求1所述的面向云上政企的资源分配模型训练方法，其特征在于，所述根据所述虚拟业务的数据隔离需求对所述虚拟业务进行分类，包括：

将属于同一个虚拟租户的所述虚拟业务分为一个大类；

在每个所述大类中，将隔离等级相同的所述虚拟业务分为一个小类。

4.根据权利要求1所述的面向云上政企的资源分配模型训练方法，其特征在于，所述计算Q值最大的所述分配行为的奖惩值，包括：

根据下式确定所述奖惩值：

其中，为所述奖惩值，/>为所述分配行为的数据隔离需求满足度奖惩值，为所述分配行为的数据开销成本奖惩值。

5.一种应用如权利要求1至4任一项所述的面向云上政企的资源分配模型训练方法得到的资源分配模型进行资源分配的方法，其特征在于，包括：

获取租户的业务请求；

将所述业务请求输入至所述资源分配模型，利用所述资源分配模型输出资源分配方案。

6.一种面向云上政企的资源分配模型训练装置，其特征在于，所述装置应用于基于SDN的云网络，所述云网络包括控制器、多个数据中心以及连接所述多个数据中心的光传送网，所述装置包括：

初始化模块，被配置为利用所述控制器从所述数据中心以及所述光传送网中获取云网资源，根据所述云网资源构建资源抽象模型，并根据所述资源抽象模型对预先构建的强化学习神经网络模型进行初始化；

训练集构建模块，被配置为构建业务训练集，包括：

获取多个虚拟业务；

训练模块，被配置为利用所述业务训练集对所述强化学习神经网络模型进行训练，以得到资源分配模型，包括：

对每条所述候选路径进行资源分配，得到多种分配行为；

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任意一项所述的方法。

8.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行权利要求1至4任一所述方法。