CN115051931B

CN115051931B - 一种基于强化学习的虚拟化身迁移方法及其控制***

Info

Publication number: CN115051931B
Application number: CN202210641344.5A
Authority: CN
Inventors: 陈俊龙; 康嘉文; 徐敏锐; 余荣; 童泳桔; 谢胜利
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2024-03-08
Anticipated expiration: 2042-06-08
Also published as: CN115051931A

Abstract

本发明公开了一种基于强化学***均值时，获得奖励；S4：将获得的奖励和当前状态输入训练好的强化学习神经模型进行更新，使得服务总延迟T最小化，将最小化的服务总延迟T作为虚拟化身的最优迁移决策进行迁移。本发明实现对多用户环境下虚拟化身服务的资源竞争和总体服务时延进行权衡，给出动态环境下的最优迁移策略，更为显著地降低虚拟化身服务时延，提高元宇宙场景下的虚拟化身服务质量。

Description

一种基于强化学习的虚拟化身迁移方法及其控制***

技术领域

本发明涉及虚拟现实数据处理技术领域，更具体的，涉及一种基于强化学习的虚拟化身迁移方法及其控制***。

背景技术

元宇宙是整合多种新技术而产生的新型虚实相融的互联网应用和社会形态，它基于扩展现实技术提供沉浸式体验，以及数字孪生技术生成现实世界的镜像，通过区块链技术搭建经济体系，将虚拟世界与现实世界在经济***、社交***、身份***上密切融合，并且允许每个用户进行内容生产和编辑。在元宇宙虚拟空间中，人与物以虚拟化身(如虚拟人)身份体验元宇宙服务。比如在元宇宙应用场景中，移动节点通过构建虚拟化身/智能助手等来获取元宇宙服务。在元宇宙中，当移动节点的地理位置发生改变时，虚拟化身的在数字空间中的位置也要对应迁移，以持续性地给移动节点提供实时、高质量、具沉浸感的服务。所以，当移动节点的地理位置改变时，数字空间的虚拟化身也应当跟随动态迁移。移动节点通过预先向边缘计算提供者(如边缘服务器)购买存储、计算、通信等资源，预配置虚拟化身相关运行环境及参数，实现持续服务的虚拟化身动态迁移，保证元宇宙应用的沉浸感。

深度强化学习技术结合了深度学习的特征提取能力和强化学习的决策能力，可以直接根据输入的多维数据做出最优决策输出，是一种端对端的决策控制***，广泛应用于动态决策、实时预测、仿真模拟、游戏博弈等领域，其通过与环境不断地进行实时交互，将环境信息作为输入来获取失败或成功的经验来更新决策网络的参数，从而学习到最优决策。因此，将深度强化学习应用在元宇宙虚拟化身迁移场景中，通过与环境不断地进行实时交互，获取虚拟化身为移动节点提供服务的时延，并动态决策虚拟化身是否在边缘服务器进行迁移，使得产生的时延最小化，为移动节点提供低延迟高质量的虚拟化身服务。

虚拟机在线迁移是指在保证虚拟机上服务正常运行的同时，虚拟机在不同的物理主机之间进行迁移，其逻辑步骤与离线迁移几乎完全一致。不同的是，为了保证迁移过程中虚拟机服务的可用，迁移过程仅有非常短暂的停机时间。迁移的前面阶段，服务在源主机运行，当迁移进行到一定阶段，目的主机已经具备了运行***的必须资源，经过一个非常短暂的切换，源主机将控制权转移到目的主机，服务在目的主机上继续运行。对于服务本身而言，由于切换的时间非常短暂，用户感觉不到服务的中断，因而迁移过程对用户是透明的。在线迁移适用于对服务可用性要求很高的场景。另外，虚拟机通过迁移，能够降低物理机负载，从而提升虚拟机性能。因此，将虚拟机在线迁移技术应用在对服务可用性要求较高的元宇宙虚拟化身迁移场景中，能够减少边缘服务器负载，从而降低虚拟化身时延。

虚拟数字人是指具有数字化外形的虚拟人物。虚拟数字人具备形象能力、感知能力、表达能力和娱乐互动能力，被应用在多个领域中。按照应用场景或行业的不同，已经出现了娱乐型数字人(如虚拟主播、虚拟偶像)、教育型数字人(如虚拟教师)、助手型数字人(如虚拟客服、虚拟导游、智能助手)、影视数字人(如替身演员或虚拟演员)等。不同外形、不同功能的虚拟数字人赋能影视、传媒、游戏、金融、文旅等领域，根据需求为用户提供定制化服务。在元宇宙场景中，用户通过移动节点(手机、电脑、车载终端等)使用虚拟化身提供的服务，满足个性化需求。

现有技术之一，公开了一种虚拟机迁移方法及装置，涉及通信技术领域，可生成更加准确的虚拟机迁移策略，包括：通过获取表示迁移前待迁移主机、目标主机以及迁移前所述待迁移主机和所述目标主机之间东西向流量消耗的网络设备的资源使用情况的第一功耗，以及获取表示虚拟机迁移后待迁移主机、目标主机以及迁移后所述待迁移主机和所述目标主机之间东西向流量消耗的网络设备的资源使用情况的第二功耗，以及获取表示虚拟机迁移过程中连接所述待迁移主机和所述目标主机的网络设备的功耗的第三功耗，生成相应虚拟机迁移策略，并根据该策略进行虚拟机迁移。

现有技术之二，公开了一种基于深度强化学习的多用户边缘计算优化调度方法，步骤为：计算出用户任务的本地计算延迟和边缘计算延迟；根据本地计算延迟和边缘计算延迟建立计算任务卸载目标函数，将目标函数划分为两个子问题：(1)任务调度；(2)卸载决策和边缘服务器选择；利用任务调度算法获得子问题(1)的最优解，利用深度强化学习方法获得子问题(2)的最优解，结合两个子问题的最优解形成最优的多用户边缘计算调度方案。

以上现有技术存在的缺点与不足如下：

1.现有的对边缘任务卸载或迁移的方法大多运用传统的算法进行决策，这需要耗费大量的计算资源，增加了边缘服务器计算负载与决策时延；另外运用传统的算法并不能很好地根据动态环境给出实时的最优策略。

2.现有应用深度强化学习进行边缘任务卸载或迁移的方法使用DQN这样的常见DRL算法，这些方法仅控制单个用户与环境交互，并非现实中的多用户场景，此外，现有的方案没有充分考虑到多用户环境中资源竞争和总体服务时延之间的权衡，进而在实际应用中效果不显著。

3.现有的虚拟机迁移方案没有考虑到移动节点的高移动性会使得环境难以预测，使得产生的策略稳定性较差，进而增加时延波动性，影响用户体验。

发明内容

本发明为了解决以上现有技术存在的不足与缺陷的问题，提供了一种基于强化学习的虚拟化身迁移方法及其控制***。

为实现上述本发明目的，采用的技术方案如下：

一种基于强化学习的虚拟化身迁移方法，所述的方法包括步骤如下：

S1：获取移动节点在t时刻的当前状态，所述的当前状态包括移动节点当前位置、边缘服务器可接受请求数以及时延记录器中每一时间段的服务总时延；

S2：在t+1时刻，若做出卸载决策对虚拟化身进行迁移，根据当前状态计算t到t+1时间段内的服务总时延T；

S3：当服务总时延T小于时延记录器中的前步服务总时延的平均值时，获得奖励；

S4：将获得的奖励和当前状态输入训练好的强化学习神经模型进行更新，使得服务总延迟T最小化，将最小化的服务总延迟T作为虚拟化身的最优迁移决策进行迁移。

优选地，在对强化学习神经模型进行预训练时，还加入移动节点位置预测模型，用于通过移动节点前步的历史位置预测移动节点在t+1时刻的位置，将预测移动节点在t+1时刻的位置与移动节点当前位置/>边缘服务器可接受请求数ka_i以及时延记录器中每一时间段的服务总时延作为当前状态s返回。

优选地，所述的边缘服务器包括处理能力、处理资源最大容量和最大处理服务请求数量三个属性，其中，所述的处理能力C＝{c₁,…,c_n}表示服务器CPU处理请求的速度；所述的边缘服务器在同一时间段内最大处理服务请求数量Ka_max＝{Ka₁,…,Ka_n}。

进一步地，所述的虚拟化身通过链路在不同边缘服务器之间进行迁移，连接不同边缘服务器之间的链路带宽为B。

再进一步地，所述的服务总时延T是移动节点向边缘服务器发送服务请求的时延、边缘服务器处理服务请求产生的时延、移动节点等待产生的时延、和虚拟化身完成迁移的时延的总和。

再进一步地，移动节点向边缘服务器发送服务请求的时延，具体计算如下：

V_trans＝B_uelog₂(1+Ph/σ²)

式中，V_trans表示香农容量、B_ue表示移动节点发送请求的无线通信带宽、P表示移动节点的发射功率、h瑞利衰落信道、σ表示通信中存在的白噪声、A表示移动节点的天线增益、f表示载波频率、表示移动节点与边缘服务器的距离、S_trans表示服务请求的大小；

将移动节点与各个边缘服务器之间的距离定义为：

其中，表示移动节点u在时间t的位置，/>表示边缘服务器ei的位置，若干个边缘服务器的位置组成的集合为L_e＝{(x_1,y₁),…,(x_n,y_n)}。

再进一步地，边缘服务器处理服务请求产生的时延，其计算公式如下：

其中，S_load表示虚拟化身服务请求在服务器e_i上加载；C表示边缘服务器的处理能力。

再进一步地，所述的边缘服务器的可接受请求数量为若边缘服务器已满，则下一移动节点的卸载决策将被弹出，直到完成当前服务请求；

所述的边缘服务器按移动节点的优先级进行处理服务请求，移动节点等待产生的时延为：

其中，表示t时刻的卸载决策；服务请求数量集合K_req＝{Kr₁,…,Kr_m}；

当边缘服务器处理完成后，将大小为S_back的结果通过RSU发送给移动节点。

再进一步地，在t+1时间段，若做出卸载决策则表示虚拟化身进行迁移，虚拟化身完成迁移的时延由链路带宽B与加载数据大小决定，定义为：

其中，S_mig表示虚拟化身在不同边缘服务器之间迁移的数据大小。

一种边缘服务器控制***，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述的处理器执行所述的计算机程序时，实现一种基于强化学习的虚拟化身迁移方法的步骤。

本发明的有益效果如下：

本发明针对元宇宙中移动节点的虚拟化身服务场景，根据当前状态计算计算t到t+1时间段内的服务总时延T，通过与时延记录器中的前步服务总时延的平均值进行比较，将比较结果作为强化学习神经模型的输入进行更新，实现对多用户环境下虚拟化身服务的资源竞争和总体服务时延进行权衡，给出动态环境下的最优迁移策略，更为显著地降低虚拟化身服务时延，提高元宇宙场景下的虚拟化身服务质量。

本发明还通过结合虚拟化身迁移决策模型和用户位置预测模型联合预训练，能够通过预测用户未来的位置辅助虚拟化身迁移决策，显著降低元宇宙虚拟化身服务时延，使得虚拟化身为移动节点提供低时延的服务。

附图说明

图1是本发明所述的基于强化学习的虚拟化身迁移方法的步骤流程图。

图2是本发明所述的基于强化学习的虚拟化身迁移方法的***图。

图3是本发明所述的强化学习模型的原理图。

图4是DQN训练时的奖励。

图5是DRQN训练时的奖励。

图6是DQN训练时的延迟。

图7是DRQN训练时的延迟。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

为元宇宙场景中虚拟化身迁移问题构建环境变量。环境的时间集合可以表示为Time＝{1,…,T_max}。环境有n个边缘服务器E＝{e₁,…,e_n}，其分别对应连接n个基站{BS₁,BS₂,…,BS_n}。环境中的第i个边缘服务器e_i通过基站BS_i接收移动节点的请求并为移动节点提供虚拟化身服务。本实施例中所述的移动节点也可以称为用户，所述的移动节点可以是车载终端、手机终端。

如图1所示，一种基于强化学习的虚拟化身迁移方法，所述的方法包括步骤如下：

S1：获取移动节点在t时刻的当前状态s，所述的当前状态s包括移动节点当前位置边缘服务器可接受请求数ka_i以及时延记录器中每一时间段的服务总时延；

在一个具体的实施例中，所述的边缘服务器包括处理能力、处理资源最大容量和最大处理服务请求数量三个属性，其中，所述的处理能力C＝{c₁,…,c_n}表示服务器CPU处理请求的速度；然而由于边缘服务器处理资源容量有限，所述的边缘服务器在同一时间段内最大处理服务请求数量Ka_max＝{Ka₁,…,Ka_n}。

在一个具体的实施例中，所述的虚拟化身通过链路在不同边缘服务器之间进行迁移，连接不同边缘服务器之间的链路带宽为B。

在一个具体的实施例中，所述的服务总时延T是移动节点向边缘服务器发送服务请求的时延、边缘服务器处理服务请求产生的时延、移动节点等待产生的时延、和虚拟化身完成迁移的时延的总和。

其中，移动节点向边缘服务器发送服务请求的时延，具体计算如下：

V_trans＝B_uelog₂(1+Ph/σ²)

式中，V_trans表示香农容量、B_ue表示移动节点发送请求的无线通信带宽、P表示移动节点的发射功率、h表示瑞利衰落信道、σ表示通信中存在的白噪声、A表示移动节点的天线增益、f表示载波频率、表示移动节点与边缘服务器的距离、S_trans表示服务请求的大小；

将移动节点与各个边缘服务器之间的距离定义为：

其中，表示移动节点u在时间t的位置，/>表示边缘服务器e_i的位置，若干个边缘服务器的位置组成的集合为L_e＝{(x_1,y₁),…,(x_n,y_n)}。环境中的用户U＝{u₁,u₂,…,u_m}，其中u_m表示第m个用户。用户在时间t的位置为用户u向边缘服务器在时间t发送虚拟化身服务请求，服务请求数量集合K_req＝{Kr₁,…,Kr_m}。

在t时刻，当边缘服务器收到用户发送的服务请求时，通过深度强化学习模型自动做出卸载决策虚拟化身服务请求大小为S_trans，边缘服务器在决定卸载请求后，虚拟化身服务请求在服务器e_i上加载为S_load并进行处理。

其中，边缘服务器处理服务请求产生的时延，其计算公式如下：

在一个具体的实施例中，所述的边缘服务器的可接受请求数量为若边缘服务器已满，则下一移动节点的卸载决策将被弹出，直到完成当前服务请求；

在一个具体的实施例中，在t+1时间段，若做出卸载决策则表示虚拟化身进行迁移，虚拟化身完成迁移的时延由链路带宽B与加载数据大小决定，定义为：

服务总时延定义为所有时延的总和，即：

T＝T_trans+T_load+T_wait+T_mig

我们的目标是使得服务总延迟T最小化，即：

min T

本实施例所述的虚拟化身的最优迁移决策的伪代码如下：

如图2所示，在元宇宙中，当移动节点的地理位置发生改变时，虚拟化身在数字空间中的位置也要动态迁移，以持续性地给移动节点提供实时、高质量、具有沉浸感的服务。因此，当移动节点的地理位置改变时，数字空间的虚拟化身也应当动态迁移。当移动节点u₁从t时刻位置移动到t+1时刻的位置时，元宇宙虚拟化身从e₁迁移到e₃。由于基站BS₁和BS₃连接不同的边缘服务器e₁和e₃，这时候移动节点连接的信号需从BS₁转到BS₃；当移动节点u₂从t时刻位置移动到t+1时刻的位置时，元宇宙虚拟化身判断在e₂迁移会增加时延从而不进行迁移，BS₂继续为u₂提供信号，从而保证虚拟化身持续地为移动节点提供服务，保持移动节点在元宇宙中的沉浸感。

本实施例对强化学习神经模型进行更新，如图3所示，具体如下：

将(s,a,s’,r)存进经验池中，用于强化学习神经模型的更新，其中，s表示用户及边缘服务器在执行动作前的状态，a是卸载动作，s’是执行动作后的状态，r表示环境的奖励。奖励为1是作为奖励值，奖励为-1是作为惩罚值。

所述的强化学习神经模型采用DRQN算法，所述的强化学习神经模型通过不断地与环境进行交互，获得对应奖励，并通过不断更新Q值，使得误差函数值不断减小，进而获得虚拟化身的最优迁移决策，根据最优迁移决策完成虚拟化身迁移。

实施例2

基于实施例1所述的基于强化学习的虚拟化身迁移方法，本实施例所述的基于强化学习的虚拟化身迁移方法，具体如下：

在一个具体的实施例中，由于移动节点的位置会受到时间与速度的影响，预测移动节点未来的位置对于决定虚拟化身是否迁移具有重要作用。因此在对强化学习神经模型进行预训练时，还加入移动节点位置预测模型，用于通过移动节点前步的历史位置预测移动节点在t+1时刻的位置，将预测移动节点在t+1时刻的位置与移动节点当前位置/>边缘服务器可接受请求数ka_i以及时延记录器中每一时间段的服务总时延作为当前状态s返回。

本实施例所述的移动节点位置预测模型为LSTM神经网络模型，通过LSTM神经网络模型找到一个移动节点的位置与移动节点动作关系的函数，通过移动节点之前一系列的动作预测其未来可能的位置。本实施例将其近似为一个根据之前的ψ步位置预测未来t+1时刻的位置概率函数。该函数可以表示为：

式中，表示移动节点u在时间t的位置；/>表示移动节点u在时间t-ψ的位置。

由于移动节点(用户)移动速度较快，准确预测用户位置会给边缘服务器带来沉重的计算负担。因此，将用户的位置抽象为用户可能的位置区域。

结合移动节点位置预测模型对强化学习神经模型进行预训练的伪代码如下：

本实施例通过移动节点位置预测模型获取用户的位置历史轨迹，并对LSTM神经网络模型进行预训练。将用户的连续ψ步的位置输入LSTM神经网络模型后，LSTM神经网络模型对输入长度为ψ的序列进行解码，通过编码器生成t+1时刻的位置。将LSTM神经网络模型输出的预测位置添加到列表m后，与移动节点当前位置边缘服务器可接受请求数ka_i以及时延记录器中每一时间段的服务总时延作为当前状态s返回。

本实施例能够根据边缘服务器的状态、用户位置和网络状态应用深度强化学习来学习虚拟化身请求卸载和虚拟化身迁移决策。边缘服务器中储存了大量的历史数据，记录了过去虚拟化身的服务请求和用户的位置。

通过仿真评估了所述的虚拟化身迁移方法的性能。本实施例模拟了一个有35个边缘服务器的虚拟化身迁移环境，该环境中的每一个时隙是30秒，位于宽度为6个单位、高度为4个单位的二维坐标空间中。在这个空间里，每一个区域的面积为100x100平方米。边缘服务器均匀分布在空间中，所有移动节点都可以在这一区域内移动。

在链路传输中，我们将元宇宙移动节点发送服务请求的无线通信带宽B_ue设置为2Mhz。ρ是元宇宙移动节点设备天线的发射功率，设置为0.3W。σ表示通信中存在的白噪声，取值为10^-10。元宇宙移动节点设备天线增益A为3.93，载波频率f为915Mhz。

我们将虚拟化身服务请求大小S_trans设置为330KB，加载中在边缘服务器上的S_load设置为1024KB。由于实际返回的数据量通常很小，因此我们忽略S_back。我们假设每台边缘服务器都具有相同的属性。处理能力C＝63MB/秒，边缘服务器之间的链路带宽B为1Gbps，最大可接受请求数量为10。我们将移动节点数量限制在35以下，以保证每个移动节点至少能被处理1个请求。

我们将LSTM神经网络模型的输入层和输出层节点数设置为2，隐含层节点数据量为100。在预训练阶段，我们对其训练了100个epoch，学习率为0.001。将获取的元宇宙移动节点历史位置数量ψ设置为5。

基于真实的移动节点移动轨迹，我们选择一条包含移动状态和停止状态的移动路径对用户位置预测模型进行训练和测试。环境中的用户都将遵循此路径进行移动。

DQN(现有技术)及DRQN(本发明所述的虚拟化身迁移方法)训练时的奖励对比，如图4～7所示。

从图4～7的结果可以发现，本发明所使用的虚拟化身迁移方法优于只使用DQN的迁移方法。在经过相同训练次数的情况下本发明的方法能够经过训练快速获得较高的奖励，经过计算本发明的方法的奖励平均值在150左右，显著高于平均值为50的DQN迁移方法。同时，本发明的方法能够让虚拟化身服务时延快速达到一个较低的时延，并且稳定性比DQN迁移方法提高。经过计算，本发明的服务平均时延比DQN方法降低了约14％。

实施例3

一种边缘服务器控制***，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述的处理器执行所述的计算机程序时，实现如实施例1、或实施例2所述的基于强化学习的虚拟化身迁移方法的步骤。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于强化学习的虚拟化身迁移方法，其特征在于：所述的方法包括步骤如下：

S4：将获得的奖励和当前状态输入训练好的强化学习神经模型进行更新，使得服务总延迟T最小化，将最小化的服务总延迟T作为虚拟化身的最优迁移决策进行迁移；

所述的服务总时延T是移动节点向边缘服务器发送服务请求的时延、边缘服务器处理服务请求产生的时延、移动节点等待产生的时延、和虚拟化身完成迁移的时延的总和；

移动节点向边缘服务器发送服务请求的时延，具体计算如下：

V_trans＝B_uelog₂(1+Ph/σ²)

将移动节点与各个边缘服务器之间的距离定义为：

其中，表示单个移动节点在时间t的位置，/>表示边缘服务器e_i的位置，若干个边缘服务器的位置组成的集合为L_e＝{(x_1,y₁),…,(x_n,y_n)}；

在对强化学习神经模型进行预训练时，还加入移动节点位置预测模型，用于通过移动节点前步的历史位置预测移动节点在t+1时刻的位置，将预测移动节点在t+1时刻的位置与移动节点当前位置/>边缘服务器最大处理请求数ka_i以及时延记录器中每一时间段的服务总时延作为当前状态s返回；

所述的边缘服务器包括处理能力、处理资源最大容量和最大处理服务请求数量三个属性，其中，所述的处理能力C＝{c₁,…,c_n}表示n个边缘服务器CPU处理请求的速度；所述的边缘服务器在同一时间段内最大处理服务请求数量Ka_max＝{Ka₁,…,Ka_n}；

边缘服务器处理服务请求产生的时延，其计算公式如下：

其中，S_load表示虚拟化身服务请求在服务器e_i上的计算负载；C表示边缘服务器的处理能力；

所述的边缘服务器最大处理请求数量为若边缘服务器已满，则下一移动节点的卸载决策将被弹出，直到完成当前服务请求；

其中，表示t时刻移动节点u的卸载决策为将虚拟化身任务卸载至边缘服务器e_i；服务请求数量集合K_req＝{Kr₁,…,Kr_m}；

当边缘服务器处理完成后，将大小为S_back的结果通过RSU发送给移动节点；

在t+1时间段，若做出卸载决策则表示虚拟化身进行迁移，虚拟化身完成迁移的时延由链路带宽B与加载数据大小决定，定义为：

2.根据权利要求1所述的基于强化学习的虚拟化身迁移方法，其特征在于：所述的虚拟化身通过链路在不同边缘服务器之间进行迁移，连接不同边缘服务器之间的链路带宽为B。

3.一种边缘服务器控制***，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述的处理器执行所述的计算机程序时，实现如权利要求1～2任一项所述的方法的步骤。