CN113573264A

CN113573264A - 基于深度强化学习的5g切片的定价处理方法及装置

Info

Publication number: CN113573264A
Application number: CN202010352035.7A
Authority: CN
Inventors: 邢彪; 郑屹峰; 张卷卷; 陈维新; 章淑敏
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2021-10-29

Abstract

本发明公开了一种基于深度强化学习的5G切片的定价处理方法及装置，该方法包括：获取历史用户侧切片使用状态数据及相应的切片定价调整动作数据；基于深度强化学习算法，对历史用户侧切片使用状态数据及相应的切片定价调整动作数据进行训练，得到切片定价模型；获取待处理用户侧切片使用状态数据，将待处理用户侧切片使用状态数据输入至切片定价模型中进行计算，得到切片定价调整动作结果；将切片定价调整动作结果提供给计费中心，以供计费中心执行相应的定价调整动作。通过上述方式，能够提升网络切片定价的灵活性、合理性和精准度，更有效的实现切片差异化定价。

Description

基于深度强化学习的5G切片的定价处理方法及装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于深度强化学习的5G切片的定价处理方法及装置。

背景技术

网络切片(Network Slice)是5G网络的主要使用方式之一，网络切片是端到端的逻辑功能和其所需的物理或虚拟资源集合，包括接入网、传输网、核心网等，网络切片可认为是5G网络中的虚拟化“专网”；网络切片基于网络功能虚拟化的统一基础设施构建，实现低成本高效运营。网络切片技术可以实现通信网络的逻辑隔离，允许在每个网络切片中配置和重用网络元件及功能以满足特定的行业应用需求。网络切片使网络元件和功能可以在每个网络片中轻松配置和重用，以满足特定要求。网络切片的实现被认为是包括核心网络和无线接入网的端到端功能。每个切片都可以拥有自己的网络架构，工程机制和网络配置。

网络切片能够为每个用户提供定制化的服务，进而也需提供差异化的定价，有效的定价策略不但可以促进提升用户量、提高收入，还能够提高网络的使用效率。

但是，发明人在实现本发明的过程中发现：现有技术中通常是依靠人工对切片定价，定价策略不够灵活，无法根据环境的变化自适应，无法适应切片差异化定价的方式。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于深度强化学习的5G切片的定价处理方法及装置。

根据本发明的一个方面，提供了一种基于深度强化学习的5G切片的定价处理方法，包括：

获取历史用户侧切片使用状态数据及相应的切片定价调整动作数据；

基于深度强化学习算法，对历史用户侧切片使用状态数据及相应的切片定价调整动作数据进行训练，得到切片定价模型；

获取待处理用户侧切片使用状态数据，将待处理用户侧切片使用状态数据输入至切片定价模型中进行计算，得到切片定价调整动作结果；

将切片定价调整动作结果提供给计费中心，以供计费中心执行相应的定价调整动作。

可选地，方法进一步包括：

获取定价调整后的用户侧切片使用状态数据；以及，从计费中心获取定价调整后的切片收入数据；

根据定价调整后的用户侧切片使用状态数据以及定价调整后的切片收入数据进行计算得到回报值；

将回报值反馈给切片定价模型，以供切片定价模型根据回报值进行调优处理。

可选地，获取历史用户侧切片使用状态数据之后，方法进一步包括：

将历史用户侧切片使用状态数据进行归一化处理；

对归一化处理后的历史用户侧切片使用状态数据进行转换处理。

可选地，将切片定价调整动作结果提供给计费中心进一步包括：

将切片定价调整动作结果下发至网络切片管理功能模块，以供网络切片管理功能模块判断切片定价调整动作结果是否有效，若是，则向计费中心下发定价调整指令。

可选地，用户侧切片使用状态数据具体包括以下中的一种或多种：

用户服务等级协议需求、用户使用量、用户使用时长。

根据本发明的另一方面，提供了一种基于深度强化学习的5G切片的定价处理装置，包括：

数据获取模块，适于获取历史用户侧切片使用状态数据及相应的切片定价调整动作数据；

模型训练模块，适于基于深度强化学习算法，对历史用户侧切片使用状态数据及相应的切片定价调整动作数据进行训练，得到切片定价模型；

数据处理模块，适于获取待处理用户侧切片使用状态数据，将待处理用户侧切片使用状态数据输入至切片定价模型中进行计算，得到切片定价调整动作结果；

数据传输模块，适于将切片定价调整动作结果提供给计费中心，以供计费中心执行相应的定价调整动作。

可选地，数据获取模块进一步适于：获取定价调整后的用户侧切片使用状态数据；以及，从计费中心获取定价调整后的切片收入数据；

数据处理模块进一步适于：根据定价调整后的用户侧切片使用状态数据以及定价调整后的切片收入数据进行计算得到回报值；

数据传输模块进一步适于：将回报值反馈给切片定价模型，以供切片定价模型根据回报值进行调优处理。

可选地，数据处理模块进一步包括：

将历史用户侧切片使用状态数据进行归一化处理；

可选地，数据传输模块进一步适于：

将切片定价调整动作结果下发至网络切片管理功能模块，以供网络切片管理功能模块判断切片定价调整动作结果是否有效，若是，则将切片定价调整动作结果下发至计费中心。

用户服务等级协议需求、用户使用量、用户使用时长。

根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述基于深度强化学习的5G切片的定价处理方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述基于深度强化学习的5G切片的定价处理方法对应的操作。

根据本发明的基于深度强化学习的5G切片的定价处理方法及装置，通过获取历史用户侧切片使用状态数据及相应的切片定价调整动作数据；基于深度强化学习算法，对历史用户侧切片使用状态数据及相应的切片定价调整动作数据进行训练，得到切片定价模型；获取待处理用户侧切片使用状态数据，将待处理用户侧切片使用状态数据输入至切片定价模型中进行计算，得到切片定价调整动作结果；将切片定价调整动作结果提供给计费中心，以供计费中心执行相应的定价调整动作。该方式利用深度强化学习在处理高维状态和离散动作上的优势，根据历史时间段内的用户侧切片使用状态和选择的相应切片定价调整动作进行训练，得到切片定价模型，进而根据待处理的用户侧切片使用状态，来确定最佳的切片实例价格调整动作，从而提升网络切片定价的灵活性、合理性和精准度，更有效的实现切片差异化定价，进而促进提升用户量、提高切片收入以及提高网络的使用效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的基于深度强化学习的5G切片的定价处理方法的流程图；

图2示出了本发明另一实施例提供的基于深度强化学习的5G切片的定价处理方法的流程图；

图3示出了本发明实施例中5G网络切片的网络架构的示意图；

图4示出了本发明实施例中深度强化学习模型的示意图；

图5示出了本发明一个实施例中5G切片的定价处理方法的流程示意图；

图6示出了本发明实施例提供的基于深度强化学习的5G切片的定价处理装置的结构示意图；

图7示出了本发明实施例提供的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图3示出了本发明实施例中5G网络切片的网络架构的示意图，其中，CSMF(Communication Service Management Function，通信业务管理功能)，负责完成用户业务通信服务的需求订购和处理，负责将运营商/第三方客户的通信服务需求转化为对网络切片的需求，并通过和NSMF之间的接口向NSMF发送对网络切片的需求(如创建、终结、修改网络切片实例请求等)。

NSMF(Network Slice Management Function，网络切片管理功能)，负责接收CSMF发送的网络切片需求，对网络切片实例的生命周期、性能、故障等进行管理，编排网络切片实例的组成，分解网络切片实例的需求为各网络切片子网实例或网络功能的需求，向各NSSMF发送网络切片子网实例管理请求。

NSSMF(Network Slice Subnet Management Function，网络切片子网管理功能)，接收从NSMF下发的网络切片子网部署需求，对网络切片子网实例进行管理，编排网络切片子网实例的组成，将网络切片子网的SLA需求映射为网络服务的QoS(Quality of Service，服务质量)需求，向ETSI NFV域的NFVO***下发网络服务的部署请求。

本发明实施例中采用深度强化学习的方式训练切片定价模型，其中，强化学习(reinforcement learning)包含状态(state)、动作(action)、奖赏(reward)三个要素。智能体(agent)需要根据当前状态来采取动作，获得相应的奖赏之后，再去改进这些动作，使得下次再到相同状态时，智能体能做出更优的动作。通过训练强化学习算法模型，使得模型能够充分学习复杂外部环境的规律，并在不同的环境下做出正确的动作，并且在长期的交互中，获得较高的累计回报。

Q-Learning是强化学习算法中value-based的算法，即关注点是训练一个评判器(critic)。Q即为Q(s,a)就是在某一时刻的s状态下(s∈S)，采取动作a(a∈A)动作能够获得收益的期望，环境会根据agent的动作反馈相应的回报reward r，所以算法的主要思想是将State与Action构建成一张Q-table来存储Q值，然后根据Q值来选取能够获得最大收益的动作。虽然Q-table的方法易于实现，但是当状态和动作的空间越来越复杂时，通过Q-table的方法来训练agent将会非常耗时，因此本发明实施例采用深度神经网络作为估算Q值的函数，该种深度强化学习方法称为DQN。

DQN(Deep Q-network)是将Q-Learning与深度学习相结合，深度学习即用神经网络来学习数据。DQN不用Q表记录Q值，而是用深度神经网络代表价值函数来预测Q值，并通过不断更新神经网络从而学习到最优的行动路径。DQN中有两个神经网络，一个为参数相对固定的网络target-net，用来获取Q-目标(Q^target)的数值，另一个为eval_net用来获取Q评估(Q-eval)的数值。Q值根据以下规则来更新：

其中，s_t表示t时刻的状态，a_t表示t时刻选择的切片定价调整动作，执行定价调整动作a_t之后，状态由s_t转换为s_t+1。

R是从当前状态直到将来某个状态，期间所有行为所获得奖励值的加权总和。DQN的目标是可以学习一个策略π，这个策略可以最大化T个时步的折算累积回报(discountedcumulative reward)：

Q函数可定义为折算累积回报的期望，该期望是基于当前的状态和所选的动作，所有后续动作是根据策略π作出的：

Q^π(s,a)＝∑s,a[R]

学习的最终目的是要找到使得Q函数能取得最大值的策略：

图1示出了本发明实施例提供的基于深度强化学习的5G切片的定价处理方法的流程图，如图1所示，该方法包括以下步骤：

步骤S110，获取历史用户侧切片使用状态数据及相应的切片定价调整动作数据。

从NSMF(网络切片管理功能)中获取历史的用户侧切片使用状态数据，以及获取对应所选择的切片实例定价调整动作。

其中，用户侧切片使用状态数据包括SLA(Service level Agreement，服务等级协议)需求、用户使用量、用户使用时长。SLA包括安全性/私密性、可见性/可管理性、可靠性/可用性，以及具体的业务特征(业务类型、空口需求、定制化网络功能等)和相应的性能指标(时延、吞吐率、丢包率、掉话率等)。用户SLA需求包括：时延(例如小于5ms)、吞吐率、丢包率、掉话率、可靠性(例如99.999％)、服务范围、用户规模、隔离性(例如强、中、弱)、安全性(例如强、中、弱)、接入方式、max TP/site(例如5Gbps)等。

用户侧切片使用状态数据还包括用户使用量，即用户所使用的切片流量或业务请求数量；还包括用户使用时长，即用户使用该切片实例的时长。

其中，切片定价调整动作属于离散动作空间类型，本实施例中分为201种离散动作，即在原定价的基础上提高或者降低m％，m可取-100至100之间的整数。

步骤S120，基于深度强化学习算法，对历史用户侧切片使用状态数据及相应的切片定价调整动作数据进行训练，得到切片定价模型。

将历史用户侧切片使用状态数据和相应的切片定价调整动作数据作为训练样本，采用深度强化学习算法进行训练，得到切片定价模型。

步骤S130，获取待处理用户侧切片使用状态数据，将待处理用户侧切片使用状态数据输入至切片定价模型中进行计算，得到切片定价调整动作结果。

在训练得到切片定价模型之后，从NSMF中获取待处理的用户侧切片使用状态数据，并输入至切片定价模型中进行计算，切片定价模型输出切片定价调整动作，得到切片定价调整动作结果。

步骤S140，将切片定价调整动作结果下发至计费中心，以供计费中心执行相应的定价调整动作。

最终，将切片定价调整动作结果下发给计费中心，计费中心执行相应的定价调整动作。

根据本发明实施例所提供的基于深度强化学习的5G切片的定价处理方法，利用深度强化学习在处理高维状态和离散动作上的优势，根据历史时间段内的用户侧切片使用状态和选择的相应切片定价调整动作进行训练，得到切片定价模型，进而根据待处理的用户侧切片使用状态，来确定最佳的切片实例价格调整动作，从而提升网络切片定价的灵活性、合理性和精准度，更有效的实现切片差异化定价，进而促进提升用户量、提高切片收入以及提高网络的使用效率。

图2示出了本发明另一实施例提供的基于深度强化学习的5G切片的定价处理方法的流程图，如图2所示，该方法包括以下步骤：

步骤S210，获取历史用户侧切片使用状态数据及相应的切片定价调整动作数据。

从NSMF中获取历史用户侧切片使用状态，以及获取对应所选择的切片实例定价调整动作。其中，用户侧切片使用状态数据包括用户服务等级协议需求、用户使用量以及用户使用时长。

步骤S220，将历史用户侧切片使用状态数据进行归一化处理，对归一化处理后的历史用户侧切片使用状态数据进行转换处理。

在获取到历史用户侧切片使用状态数据之后，对数据进行归一化处理以及转换处理。其中，转换处理是将用户侧切片使用状态数据转换为机器可识别的形式，具体包括：对非数值型的需求属性转化成数值型，并对所有属性作标准化处理。计算时对每个维度分别进行，将数据按属性(如按列进行)减去其均值，并除以其方差。通过对数据进行标准化，能够提升切片定价模型的收敛速度、提升模型的精度。

之后，将获取到的数据集划分为训练数据和测试数据，例如取整个数据集的80％为训练数据，剩余20％为测试数据。用训练集进行训练，使得重建数据与原始数据越接近越好，用测试集来评价验证模型。

步骤S230，基于深度强化学习算法，对经过归一化处理和转换处理的历史用户侧切片使用状态数据及相应的切片定价调整动作数据进行训练，得到切片定价模型。

本发明实施例中使用深度学习框架搭建基于DQN的深度强化学习模型，通过搭建一个由深度神经网络构成的评判器，来估算用于评价切片实例定价调整动作的Q函数。分别输入历史用户侧切片使用状态数据s，包括用户SLA需求、用户使用量、用户使用时长以及对应所选择的切片定价调整动作a，输出此次动作选择的价值Q(s,a)，将评判器输出的值与目标Q值Q^target(s_i,a_i)进行比较并计算误差，将误差信号反馈至深度神经网络中，从而逐渐提升模型准确率、选取能够使该切片实例收入值最大化的定价调整动作。其中，误差计算方式如下：

error＝(Q(s_i,,a_i)-Q^target(s_i,,a_i))²＝(Q(s_i,,a_i)-(r_i+max_a(Q^target(s_i+1,,a))))²

图4示出了本发明实施例中深度强化学习模型的示意图，输入层1接收当前各网络切片的用户侧切片使用状态(s)，将输入层1经过两层全连接层(Dense)，分别设置128、64个神经元，激活函数均为“relu”；

输入层2接收对应的切片实例定价调整动作。将输入层2经过两层全连接层(Dense)，分别设置32、16个神经元，激活函数均为“relu”；

然后通过合并层(merge)来合并动作和状态，并经过两个全连接层(Dense)，分别设置64、32个神经元，激活函数为“relu”；分别在两个全连接层之后设置随机舍弃层(dropout)：舍弃概率设置为0.2，将在训练过程中每次更新参数时按一定概率(20％)随机断开输入神经元，用于防止过拟合；

输出层由1个全连接神经元组成，输出评判该用户侧切片使用状态下执行的切片实例定价调整动作的Q值。

训练的数据是从记忆库中随机提取的，记忆库记录着每一个状态下的行动、奖励、和下一个状态的结果(s,a,r,s')。记忆库的大小有限，当记录满了数据之后，下一个数据会覆盖记忆库中的第一个数据。本发明实施例中，使用经验回放来保存所有阶段的数据到一个回放存储器中。当训练神经网络时，从其中随机小批量选取来更新，而不是使用最近的，从而解决了样本之间相互关联的问题，将大大提高***的稳定性。

优选地，为避免动作选取局限性、丰富数据收集，引入贪婪算法来选取自愈动作：以epsilon概率随机选取行动，以1-epsilon概率选取目前已知最优的行动。随着学习的不断深入，epsilon的值可以变得越来越小，学习的方式从充分探索转为深入的专研。

本发明实施例中，具体的训练过程如下：

用随机权重初始化Q函数，使得目标Q函数Q^target＝Q。在每一个回合的每一个时间步骤t下：

(1)给定一个初始化用户侧切片使用状态s_t，基于贪婪算法给出切片实例定价调整动作a_t；

(2)计算得到回报r_t，达到新的用户侧切片使用状态s_t+1；

(3)将t时刻的(s_t,a_t,r_t,s_t+1)存入回放缓存中；

(4)从回放缓存中抽取出(s_i,a_i,r_i,s_i+1)，通常为一批的数量；

(5)计算目标值y＝r_i+maxQ^target(s_i+1,a)；

(6)更新Q函数神经网络的参数使Q(s_i,,a_i)与目标值y相接近；

(7)将更新后的Q函数神经网络权重赋值给Q^target＝Q。

最终，训练的模型收敛时，离线训练完成后，将计算得出的神经网络权重导出，至此，得到了切片定价模型。

具体实施时，使模型训练1000个回合(epochs＝1000)，批处理大小设置为32(batch_size＝32)，回放缓存大小设置为50000。选择平均绝对值误差MSE(Mean SquaredError)作为损失函数即目标函数(loss＝'mse')，梯度下降优化算法选择adam优化器用于改善传统梯度下降的学习速度(optimizer＝'adam')。神经网络通过梯度下降，可以找到使目标函数最小的最优权重值，随着训练回合数的增加，训练误差也逐渐下降，模型逐渐收敛。

步骤S240，获取待处理用户侧切片使用状态数据，将待处理用户侧切片使用状态数据输入至切片定价模型中进行计算，得到切片定价调整动作结果。

步骤S250，将切片定价调整动作结果下发至网络切片管理功能模块，以供网络切片管理功能模块判断切片定价调整动作结果是否有效，若是，则向计费中心下发定价调整指令，以便计费中心执行相应的定价调整动作。

将切片定价调整动作结果下发给NSMF，由NSMF判断是否需要触发定价调整动作，具体判断切片定价调整动作结果是否为零，若是，则表示切片定价调整动作结果无效；反之，则表示切片定价调整结果有效。若切片定价调整动作结果有效，就将切片定价调整动作结果下发至计费中心，计费中心执行相应的定价调整动作。

步骤S260，获取定价调整后的用户侧切片使用状态数据，以及，从计费中心获取定价调整后的切片收入数据。

步骤S270，根据定价调整后的用户侧切片使用状态数据以及定价调整后的切片收入数据进行计算得到回报值；将回报值反馈给切片定价模型，以供切片定价模型根据回报值进行调优处理。

获取定价调整后的用户侧切片使用状态数据，以及从计费中心获取定价调整后的切片收入值，根据定价调整后的用户侧切片使用状态数据以及定价调整后的切片收入值计算出回报值，将回报值反馈给切片定价模型，定价模型根据回报值进行调优。如果收入值较之前的时间段内的收入值有所提升，则回报值为正、反之回报值为负。

具体实施时，本实施例的方法可以按照预定的时间周期来执行，例如，在训练模型的过程中，将历史的多个周期内的用户侧切片使用状态数据以及各个周期内所选择的切片定价动作数据作为训练数据；在制定切片定价调整动作时，获取当前周期内的用户侧切片使用状态数据输入至切片定价模型中进行计算，输出对应的切片定价调整动作。

图5示出了本发明一个实施例中5G切片的定价处理方法的流程示意图，如图5所示，流程包括：

步骤1，在每个周期内将用户侧切片使用状态输入至预先训练得到的基于DQN的网络切片定价模型中。

步骤2，将定价模型输出的定价调整结果发送到NSMF网络切片管理功能，以便NSMF判断是否需要会触发定价调整操作。

步骤3，如果NSMF判断需要触发定价调整操作，则向计费中心下定价调整指令。

步骤4，计费中心根据接收到的定价调整指令实施定价调整动作，以便对切片用户进行计费。

步骤5，切片用户将定价调整后的用户侧切片使用状态数据发送至回报函数中。

步骤6，回报函数经过计算将这次动作的回报值反馈给基于DQN的网络切片定价模型，以供网络切片定价模型根据回报值进行调优。

根据本发明实施例所提供的基于深度强化学习的5G切片的定价处理方法，利用深度强化学习中的DQN在处理高维状态和离散动作上的优势，根据历史时间周期内的用户侧切片使用状态及相应选择的切片定价调整动作进行训练，得到切片定价模型，基于该定价模型来确定最佳的切片实例价格调整动作，能够根据当前的用户侧切片使用状态选取能够使该切片实例收入值最大化的定价调整动作，从而能够提升网络切片定价的灵活性、合理性和精准度，更有效的实现切片差异化定价。并且，通过计算切片定价调整之后所带来的回报值，使切片定价模型根据回报值进行调优，促进切片定价模型能够输出更优的定价调整动作。

图6示出了本发明实施例提供的基于深度强化学习的5G切片的定价处理装置的结构示意图，如图6所示，该装置包括：

数据获取模块61，适于获取历史用户侧切片使用状态数据及相应的切片定价调整动作数据；

模型训练模块62，适于基于深度强化学习算法，对历史用户侧切片使用状态数据及相应的切片定价调整动作数据进行训练，得到切片定价模型；

数据处理模块63，适于获取待处理用户侧切片使用状态数据，将待处理用户侧切片使用状态数据输入至切片定价模型中进行计算，得到切片定价调整动作结果；

数据传输模块64，适于将切片定价调整动作结果提供给计费中心，以供计费中心执行相应的定价调整动作。

在一种可选的方式中，数据获取模块61进一步适于：获取定价调整后的用户侧切片使用状态数据；以及，从计费中心获取定价调整后的切片收入数据；

数据处理模块63进一步适于：根据定价调整后的用户侧切片使用状态数据以及定价调整后的切片收入数据进行计算得到回报值；

数据传输模块64进一步适于：将回报值反馈给切片定价模型，以供切片定价模型根据回报值进行调优处理。

在一种可选的方式中，数据处理模块63进一步包括：

将历史用户侧切片使用状态数据进行归一化处理；

在一种可选的方式中，数据传输模块64进一步适于：

在一种可选的方式中，用户侧切片使用状态数据具体包括以下中的一种或多种：

用户服务等级协议需求、用户使用量、用户使用时长。

本发明实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的基于深度强化学习的5G切片的定价处理方法。

可执行指令具体可以用于使得处理器执行以下操作：

在一种可选的方式中，所述可执行指令使所述处理器执行以下操作：

在一种可选的方式中，所述可执行指令使所述处理器执行以下操作：获取历史用户侧切片使用状态数据之后，将历史用户侧切片使用状态数据进行归一化处理；对归一化处理后的历史用户侧切片使用状态数据进行转换处理。

在一种可选的方式中，用户服务等级协议需求、用户使用量、用户使用时长。

图7示出了本发明计算设备实施例的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图7所示，该计算设备可以包括：处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。

其中：处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。通信接口704，用于与其它设备比如客户端或其它服务器等的网元通信。处理器702，用于执行程序710，具体可以执行上述用于计算设备的基于深度强化学习的5G切片的定价处理方法实施例中的相关步骤。

具体地，程序710可以包括程序代码，该程序代码包括计算机操作指令。

处理器702可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器706，用于存放程序710。存储器706可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序710具体可以用于使得处理器702执行以下操作：

在一种可选的方式中，所述程序710使所述处理器702执行以下操作：

在一种可选的方式中，所述程序710使所述处理器702执行以下操作：获取历史用户侧切片使用状态数据之后，将历史用户侧切片使用状态数据进行归一化处理；对归一化处理后的历史用户侧切片使用状态数据进行转换处理。

在一种可选的方式中，所述程序710使所述处理器702执行以下操作：将切片定价调整动作结果下发至网络切片管理功能模块，以供网络切片管理功能模块判断切片定价调整动作结果是否有效，若是，则向计费中心下发定价调整指令。

在一种可选的方式中，用户侧切片使用状态数据具体包括以下中的一种或多种：用户服务等级协议需求、用户使用量、用户使用时长。

在此提供的算法或显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种基于深度强化学习的5G切片的定价处理方法，包括：

基于深度强化学习算法，对所述历史用户侧切片使用状态数据及相应的切片定价调整动作数据进行训练，得到切片定价模型；

获取待处理用户侧切片使用状态数据，将所述待处理用户侧切片使用状态数据输入至所述切片定价模型中进行计算，得到切片定价调整动作结果；

将所述切片定价调整动作结果提供给计费中心，以供所述计费中心执行相应的定价调整动作。

2.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

根据所述定价调整后的用户侧切片使用状态数据以及定价调整后的切片收入数据进行计算得到回报值；

将所述回报值反馈给所述切片定价模型，以供所述切片定价模型根据所述回报值进行调优处理。

3.根据权利要求1所述的方法，其特征在于，所述获取历史用户侧切片使用状态数据之后，所述方法进一步包括：

将所述历史用户侧切片使用状态数据进行归一化处理；

4.根据权利要求1所述的方法，其特征在于，所述将所述切片定价调整动作结果提供给计费中心进一步包括：

将所述切片定价调整动作结果下发至网络切片管理功能模块，以供所述网络切片管理功能模块判断切片定价调整动作结果是否有效，若是，则向计费中心下发定价调整指令。

5.根据权利要求1所述的方法，其特征在于，所述用户侧切片使用状态数据具体包括以下中的一种或多种：

用户服务等级协议需求、用户使用量、用户使用时长。

6.一种基于深度强化学习的5G切片的定价处理装置，包括：

模型训练模块，适于基于深度强化学习算法，对所述历史用户侧切片使用状态数据及相应的切片定价调整动作数据进行训练，得到切片定价模型；

数据处理模块，适于获取待处理用户侧切片使用状态数据，将所述待处理用户侧切片使用状态数据输入至所述切片定价模型中进行计算，得到切片定价调整动作结果；

数据传输模块，适于将所述切片定价调整动作结果提供给计费中心，以供所述计费中心执行相应的定价调整动作。

7.根据权利要求6所述的装置，其特征在于，所述数据获取模块进一步适于：获取定价调整后的用户侧切片使用状态数据；以及，从计费中心获取定价调整后的切片收入数据；

所述数据处理模块进一步适于：根据所述定价调整后的用户侧切片使用状态数据以及定价调整后的切片收入数据进行计算得到回报值；

所述数据传输模块进一步适于：将所述回报值反馈给所述切片定价模型，以供所述切片定价模型根据所述回报值进行调优处理。

8.根据权利要求6所述的装置，其特征在于，所述数据处理模块进一步包括：

将所述历史用户侧切片使用状态数据进行归一化处理；

9.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-5中任一项所述的基于深度强化学习的5G切片的定价处理方法对应的操作。

10.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-5中任一项所述的基于深度强化学习的5G切片的定价处理方法对应的操作。