CN117499960B

CN117499960B - 一种通信网络中资源调度方法、***、设备及介质

Info

Publication number: CN117499960B
Application number: CN202311839439.9A
Authority: CN
Inventors: 张健飞; 李建飞
Original assignee: Aoding Zhitong Beijing Technology Co ltd
Current assignee: Aoding Zhitong Beijing Technology Co ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-03-22
Anticipated expiration: 2043-12-29
Also published as: CN117499960A

Abstract

本发明公开一种通信网络中资源调度方法、***、设备及介质，涉及通信领域，该方法包括：根据通信网络中端到端的通感数据网络切片传输中，N3链路容量、N3链路上的传输延迟、用于通感服务的物理资源块和端到端的通感传输延迟，构建端到端通感传输延迟模型；端到端为边缘端到目标端；通感服务包括感知服务和通信服务；以最小化所有边缘端设备的通感服务的端到端下行链路传输延迟时间为目标，采用深度Q网络算法对端到端通感传输延迟模型进行优化，得到优化后的通感数据网络切片；对于边缘端构成的边缘端集群，采用深度强化学习算法进行计算资源缩放和服务放置优化。本发明提高了资源调度的鲁棒性。

Description

一种通信网络中资源调度方法、***、设备及介质

技术领域

本发明涉及通信技术领域，特别是涉及一种通信网络中资源调度方法、***、设备及介质。

背景技术

在5G-A/6G空口通信（简称5G-A/6G）环境下，连接设备和应用服务需求快速增长，设备协同和应用场景不断扩展，为实现高效智能数字化社会提供强大支持。这种动态变化环境，对5G-A/6G的连接性、延迟和计算能力的要求持续提高。为满足设备和应用对低延迟和高可靠通信的迫切需求，移动边缘计算成为5G-A/6G架构的关键组成部分，通过提供更快速和高效的通信体验，推动5G-A/6G技术的发展。同时，5G-A/6G面临着与物理世界联接不紧密的问题，而通感技术被认为是有效解决这一问题的手段。通过与物联网和多类感知器的紧密连接，通感技术能够打破网络与物理世界之间的信息壁垒，形成一个协同的网络与物理***。在这一基础上，5G-A/6G网络能够实时基于环境数据做出决策，实现对交通、医疗、制造等领域的智能化和精细化管控。

然而，在构建5G-A/6G架构搭建的过程中出现了两个挑战。首先，大规模异构终端协同接入引起的物理层通信资源分配与调度问题。在5G-A/6G环境中，大规模异构终端的协同接入涉及到不同服务质量需求，这些终端对网络延迟、带宽和可靠性等方面提出不同的要求。在满足多样化的物理终端需求的前提下，进行物理层通信资源的合理、有效地分配与调度，是5G-A/6G面临的一项重要而富有挑战性的任务。其次，5G-A/6G在计算资源的需求与供给之间面临动态平衡的问题。服务需求的动态变化以及边缘端可用资源的有限性，使得资源配置变得更为复杂。迫使5G-A/6G需要智能化和适应性更强的资源配置方法。如何在满足服务需求变化的前提下，高效平衡5G-A/6G的资源供给与边缘端的服务需求，是5G-A/6G面临的另一个具有挑战性的问题。综上所述，在5G-A/6G空口通信环境中，物理层通信和资源调度面临着动态性与复杂性的挑战，需要采用更智能化的方法以促进资源配置问题的解决。

目前，针对大规模异构终端协同接入引起的物理层通信资源分配与调度问题，很多相关研究工作都集中于各类不同应用程序的资源分配策略。然而，这些研究往往未充分考虑在5G-A/6G环境下同时存在通信服务与感知服务的通感数据传输的情况。未来研究需要考虑在保证通感数据服务质量的前提下，实现通感服务在资源争用和分配上的协同优化。针对5G-A/6G在计算资源需求与供给之间的动态平衡问题，目前托管在该环境中的多应用程序容器通常使用Kubernetes等编排工具在基于集群的架构中进行管理。然而，为支持5G-A/6G网络环境，开发适用于基于容器的多应用集群的资源管理解决方案仍是一个迫切需要解决的问题。强化学习方法已在这一问题领域得到广泛应用，其具备自适应环境变化的能力，且无需依赖先验知识。但是，强化学习的局限性在于存在引发服务中断的风险，主要体现在以下两点：一是环境的概率转移矩阵无法充分表达环境的真实动态，从而导致错误的资源扩展决策；二是在状态空间增长的情况下，估计准确的概率转移函数也变得极其困难。

可以看出，尽管在解决5G-A/6G中物理层通信和资源调度方面已有一些研究取得进展，但依然需要进一步深入研究以解决涉及资源分配调度需求与供给的问题。

发明内容

本发明的目的是提供一种通信网络中资源调度方法、***、设备及介质，能够适用复杂动态的集群环境，提高了资源调度的鲁棒性。

为实现上述目的，本发明提供了如下方案：本发明公开了一种通信网络中资源调度方法，包括：根据通信网络中端到端的通感数据网络切片传输中，N3链路容量、N3链路上的传输延迟、用于通感服务的物理资源块和端到端的通感传输延迟，构建端到端通感传输延迟模型；所述端到端为边缘端到目标端；所述边缘端为提供通感服务的端，所述目标端为接受通感服务的端；所述通感服务包括感知服务和通信服务；所述边缘端上部署有边缘端设备。

以最小化所有边缘端设备的通感服务的端到端下行链路传输延迟时间为目标，采用深度Q网络算法对端到端通感传输延迟模型进行优化，得到优化后的通感数据网络切片；采用优化后的通感数据网络切进行端到端的通感数据传输。

对于边缘端构成的边缘端集群，采用深度强化学习算法进行计算资源缩放和服务放置优化。

本发明还公开了一种通信网络中资源调度***，包括：端到端通感传输延迟模型构建模块，用于根据通信网络中端到端的通感数据网络切片传输中，N3链路容量、N3链路上的传输延迟、用于通感服务的物理资源块和端到端的通感传输延迟，构建端到端通感传输延迟模型；所述端到端为边缘端到目标端；所述边缘端为提供通感服务的端，所述目标端为接受通感服务的端；所述通感服务包括感知服务和通信服务。

通感传输延迟模型优化模块，用于以最小化所有边缘端设备的通感服务的端到端下行链路传输延迟时间为目标，采用深度Q网络算法对端到端通感传输延迟模型进行优化，得到优化后的通感数据网络切片。

计算资源缩放和服务放置优化模块，用于对于边缘端构成的边缘端集群，采用深度强化学习算法进行计算资源缩放和服务放置优化。

本发明还公开了一种电子设备，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行所述的通信网络中资源调度方法。

本发明还公开了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行所述的通信网络中资源调度方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明基于端到端通感数据网络切片传输，通过深度Q网络算法对计及联合传输和资源分配的通感应用进行优化，以及基于深度强化学习的优化计算资源缩放和服务放置决策，使得本发明方法能够适用复杂动态的集群环境，提高了资源调度的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种通信网络中资源调度方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明一种通信网络中资源调度方法具体应用在5G-A/6G环境下，针对的是物理层通信和资源调度所面临的动态性和复杂性挑战。本发明的目标是解决由大规模异构终端协同接入引起的资源分配与调度难题。在满足终端需求动态变化的同时，高效平衡通信***的计算资源供给与需求，以避免服务中断的风险。异构终端指的是网络或计算***中使用不同技术或规范的终端设备。这些设备可能采用不同的硬件、操作***、网络协议或通信标准，因此彼此之间存在差异。

实施例1，如图1所示，本实施例提供的一种通信网络中资源调度方法，包括如下步骤。

步骤101：根据通信网络中端到端的通感数据网络切片传输中，N3链路容量、N3链路上的传输延迟、用于通感服务的物理资源块和端到端的通感传输延迟，构建端到端通感传输延迟模型；所述端到端为边缘端到目标端；所述边缘端为提供通感服务的端，所述目标端为接受通感服务的端；所述通感服务包括感知服务和通信服务；所述边缘端上部署有边缘端设备。

边缘端是一个相对于中心云的位置概念，边缘端设备是指部署在边缘端上的各种计算和通信设备。

步骤102：以最小化所有边缘端设备的通感服务的端到端下行链路传输延迟时间为目标，采用深度Q网络算法对端到端通感传输延迟模型进行优化，得到优化后的通感数据网络切片；采用优化后的通感数据网络切进行端到端的通感数据传输。

其中，步骤102优化得到的是在传输相同数据量时，其传输延迟最小的网络切片。

步骤103：对于边缘端构成的边缘端集群，采用深度强化学习算法进行计算资源缩放和服务放置优化。

本实施例采用优化后的计算资源缩放和服务放置进行资源调度。

本实施例通过深度Q网络（Deep Q-network，DQN）算法优化E2E网络切片内通感服务的资源分配，最大程度地减少通感技术在E2E通信中的延迟，以满足边缘端的服务质量需求。首先，将通感技术与E2E切片技术相融合，建立其传输延迟模型，以便满足后续通信边缘端服务质量的要求。其次，明确定义并处理了一个优化问题，以最大程度地减少网络切片中边缘端经历总的E2E***延迟。最后，为解决这一复杂的优化问题，采用DQN算法作为替代，以优化资源分配。

其中，步骤101具体包括：步骤1011：分配用于通感服务的物理资源块（PhysicalResource Block，PRB）。

感知分配的PRB总数为：。

通信分配的PRB总数为：。

其中，为感知分配的PRB总数，/>为通信分配的PRB总数，/>为边缘端设备集，/>为目标集（目标端集），/>为通信服务集，整数变量/>表示分配给目标（目标端）v的用于感知服务的PRB数量，/>表示边缘端设备u的用于感知服务数据传输的PRB数量，表示通信服务c数据传输的PRB数量。

目标端可以为汽车。

独立感知服务表示只执行感知服务，不执行通信服务；通感传输时感知服务指集成感知和通信服务时的服务。

步骤1012：分配N3链路容量。

N为总N3链路的容量，为用于感知服务数据传输的可用N3链路的容量，为用于所有通信服务的可用N3链路的容量，/>为用于边缘端设备u的通信服务c的可用N3链路的容量。其中，/>。

步骤1013：计算N3链路上的传输延迟。

N3链路上感知服务的传输延迟为。

N3链路上边缘端设备u的通信服务c的传输延迟为。

其中，为需要通过N3链路从边缘端平面功能传输到单服务区的用于感知服务的数据量，/>为边缘端设备u的通信服务c需要传输的数据量。

步骤1014：约束单个服务区域中下行链路（Downlink，DL）传输功率。

假设所有目标v被分配相同的DL传输功率/>，所有边缘端设备被分配相同的DL传输功率/>，令/>，其中/>是所有边缘端设备和目标的最大单个服务区域DL传输功率预算。/>表示边缘端设备的数量，/>表示目标的数量。

步骤1015：计算感知服务和通信服务的数据速率。

目标v的感知服务的数据速率为，边缘端设备u的通信服务c的数据速率为，集成边缘端设备u的通信服务c的感知服务的数据速率为/>，进而，边缘端设备u的独立感知服务的数据速率为/>。

其中，B为PRB的带宽，F为资源元件（Resource Elements，REs)的带宽（REs是PRB的组成原件，一个PRB中包含I个REs），表示目标v的信道增益，/>表示边缘端设备u的信道增益，/>用于指示感知服务和通信服务c是否集成（/>表示边缘端设备使用执行通信和感知数据的联合传输），/>表示分配给集成感知服务和通信服务c的边缘端设备u的REs数量，/>为噪声功率谱密度。

步骤1016：计算目标v的传输延迟。

单个服务区域到所有目标的传输延迟时间为。

其中，表示用于感知服务的从单个服务区域到目标v的传输延迟，/>表示传输给目标v的数据量。

步骤1017：计算边缘端设备u的E2E通感传输延迟。边缘端设备u进行独立感知服务的传输延迟为，边缘端设备u进行通信服务c的感知延迟为/>，边缘端设备u在进行通感传输时感知服务的传输延迟为/>，边缘端设备u的E2E通信延迟为/>，边缘端设备u在进行通感传输时感知服务的无线传输延迟为，其独立感知服务的无线传输延迟为/>。

边缘端设备u在E2E通感传输延迟（端到端通感传输延迟模型）如下。

。

其中，表示端到端通感传输延迟，/>为通信服务c和边缘端设备u关系的二进制指示符，/>为1表示提供通信服务，/>为0表示不提供通信服务，/>表示边缘端设备u的端到端通信延迟，/>表示通信服务集，/>表示感知服务和通信服务c是否集成的标识符，/>表示边缘端设备u使用执行通信和感知数据的联合传输，/>表示边缘端设备u未使用执行通信和感知数据的联合传输，/>表示边缘端设备u是否请求感知服务的二进制指示符，/>表示边缘端设备u在进行通感传输时感知服务的无线传输延迟，/>表示边缘端设备u使用独立感知服务时的无线传输延迟。

将优化问题公式化以最小化所有边缘端设备的通感服务两者的总的E2E下行链路传输延迟时间。目标函数包括两个部分：所有边缘端设备的E2E通感传输延迟和N3链路上感知服务的传输延迟/>。

所述端到端通感传输延迟模型的目标函数表示为如下公式。

。

其中，表示端到端通感传输延迟，/>表示N3链路上感知服务的传输延迟，/>表示通信服务集，/>表示边缘端设备集，/>表示目标端集，/>表示约束条件，/>为通信服务c和边缘端设备u关系的二进制指示符，/>表示边缘端设备u的端到端通信延迟，表示感知服务和通信服务c是否集成的标识符，/>表示边缘端设备/>是否请求感知服务的二进制指示符，/>表示边缘端设备u在进行通感传输时感知服务的无线传输延迟，/>表示通信服务c的延迟预设值，/>表示感知服务的延迟预设值，/>表示边缘端设备u使用独立感知服务时的无线传输延迟，/>表示通信服务c数据传输的物理资源块数量，/>表示边缘端设备u的用于感知服务数据传输的物理资源块数量，/>表示分配给目标端v的用于感知服务的物理资源块数量，/>表示分配给集成感知服务和通信服务c的边缘端设备u的资源元件数量，/>表示一个物理资源块中资源元件数量，/>表示无线接入网络中可用物理资源块的总数，N表示N3链路的总容量，/>表示用于边缘端设备u的通信服务c的N3链路容量，/>表示用于感知服务数据传输的N3链路容量，/>表示正整数集合。/>包括0在内的所有正整数。

其中，步骤102中端到端通感传输延迟模型的优化问题属于非确定性多项式（NP-hard）的组合问题。因此，处理这一优化问题的最优解变得相当困难。基于深度强化学习的算法由于其弹性和对高度动态环境的控制，可以替代传统优化方法进行问题优化。本步骤利用DQN算法，一种采用神经网络来近似Q函数的深度强化学习算法。为理解DQN模型的功能，以下对所提DQN模型的状态、动作和奖励进行逐步描述。

1）DQN的状态取决于5G-A/6G和N3链路中的可用空口资源。

所述深度Q网络算法中t时刻的状态，即何时间t的状态表示为：。

其中，表示t时刻的状态集合，/>为t时刻的第一状态，/>为t时刻的第二状态，/>为t时刻的第三状态，/>表示t时刻的通信资源，/>表示t时刻的感知资源，/>表示t时刻的N3链路通信资源。

由于只有一个感知服务，且在时间t的整个N3链路资源是已知的，可得N3链路感知资源/>，其中，/>表示在t时刻的整个N3链路资源。

所述深度Q网络算法的动作空间表示为：。

其中，表示t时刻的动作空间，/>表示t时刻各边缘端设备感知服务和通信服务c是否集成的标识符的集合，/>表示t时刻各边缘端设备通信服务c数据传输的物理资源块数量的集合，/>表示t时刻分配给集成感知服务和通信服务c的各边缘端设备的资源元件的数量的集合，/>表示t时刻分配给各目标端的用于感知服务的物理资源块数量的集合，/>表示t时刻各边缘设备端用于感知服务数据传输的物理资源块数量的集合，/>表示用于各边缘端设备的通信服务c的N3链路容量。

。

其中，表示t时刻边缘端设备u的感知服务和通信服务c是否集成的标识符，/>表示t时刻边缘端设备u的通信服务c数据传输的PRB数量，/>表示t时刻分配给集成感知服务和通信服务c的边缘端设备u的资源元件的数量，/>表示t时刻分配给目标端v的用于感知服务的物理资源块数量，/>表示t时刻边缘端设备u的用于感知服务数据传输的物理资源块数量，/>表示t时刻边缘端设备u的通信服务c的N3链路容量，u取值范围为1至/>，v取值范围为1至/>。

由于本实施例目标是最小化所有边缘端设备的E2E传输延迟，所述深度Q网络算法的奖励函数表示为：。

。

其中，表示t时刻的奖励函数，/>表示边缘端设备集，/>表示t时刻端到端通感传输延迟，/>表示t时刻惩罚，/>具体为违反所述端到端通感传输延迟模型的目标函数的约束相关联的t时刻处的惩罚，通过增加总的E2E***延迟来惩罚奖励函数，表示目标函数中第/>个约束/>的布尔函数，G为目标函数中约束的数量。如果为真，则/>，如果/>为假，则/>。

基于DQN的资源分配算法，以最大限度地减少总的***延迟在E2E网络切片通感传输延迟，其伪代码如表1中算法1所示。

在深度Q网络算法中，有两个主要的神经网络，即评估网络（Q-network）和目标网络（Target network），表1中SGD为随机梯度下降（Stochastic Gradient Descent）的简称。评估网络用于估计当前状态下各个动作的Q值，目标网络用于估计未来状态下各个动作的Q值。

切片是指当前进行优化的网络切片。

(Epsilon Decay)和/>(Epsilon-Greedy)是强化学习中与探索与利用之间的权衡相关的两个概念。/>是指在强化学习中使用一个初始探索率/>，然后随着时间的推移逐渐减小这个探索率的过程。/>是一种基于探索率/>的策略，它以/>的概率选择当前最优的动作（即贪婪策略），以/>的概率选择一个随机动作（即探索）。

其中，x指的是从回放内存中随机抽样得到的一个经验。表示经验回放中存储的经验的集合。/>表示目标值或期望值。在深度Q网络算法中，它通常是用来更新Q函数的目标值。/>表示在时间步t时执行动作的奖励。/>是损失函数。在这个方程中，它是用来计算Q函数的预测值与目标值之间的差距的平方损失。

本实施例利用深度强化学习为资源缩放和服务放置提供决策依据，有效预测集群中托管程序节点上的资源使用和可用资源变化所反映的边缘端需求变化。同时，为了保障策略的最优性，一种符合移动边缘计算要求的马尔可夫决策过程（Markov DecisionProcess，MDP）被构建并作为深度强化学习(Deep Reinforcement Learning，DRL)的输入。

步骤103中深度强化学习输出是指缩放和放置策略，即在不同的状态下选择适当的动作。

其中，步骤103具体包括：根据所述边缘端集群中各边缘端的边缘计算需求和可用资源变化构建马尔可夫决策过程。

基于所述马尔可夫决策过程，得到优化后的计算资源缩放和服务放置。

对于状态空间，每个边缘端的需求和资源可用性在不同的时间戳t内是不断变化的。令表示不同服务的需求变化，/>的元素/>是大小为/>的矩阵，它包含边缘端集合/>中每个边缘端在t时刻服务/>的CPU和内存的平均资源使用率。/>中的值被归一化为边缘端上可用的总资源。此外，令/>表示t时所有边缘端的归一化可用资源，其矩阵大小同样为/>，其内部元素/>表示边缘端/>的平均资源。给定状态下的可用资源可以由服务/>的可用扩展资源进行限制。为了跟踪最新的扩展决策，采用大小为的矩阵/>来存储每个服务在每个边缘端上做出的决策。/>中的元素/>包含CPU分配/>和内存分配/>。因此，所述马尔可夫决策过程状态空间t时刻的状态表示为：/>。

其中，表示t时刻所述马尔可夫决策过程的状态，/>表示t时刻边缘端上的可用的总资源，/>中的元素/>为m×2的矩阵，/> 用来存储边缘端集群中每个边缘端t时刻时第i个服务的CPU和内存的平均资源使用率；/>表示t时刻所有边缘端的可用资源，/>中的元素/>为m×2的矩阵，/>用来存储第j个边缘端的平均资源，/>为m×n的矩阵，m表示服务的数量，n表示边缘端的数量，/>用来存储t时刻每个服务在每个边缘端上的决策，/>中元素/>用于存储CPU的资源分配量和内存的资源分配量。

动作空间大小恒定，每个动作为两个元素/>和/>组成的列表。

所述马尔可夫决策过程的动作为/>和/>组成的列表，其中/>存储CPU的资源缩放决策，/>存储存的资源缩放决策，/>和/>均属于{-u,-1,0,1,u}，-1和1表示水平缩放，-u和u表示垂直缩放的十进制值，0表示不进行缩放，所述水平缩放为调整动作的范围，所述垂直缩放为调整动作的幅度。

关于MDP的状态转移。和/>具有随机行为，其基于边缘端对应用程序的需求变化和集群中的边缘端服务器的资源使用的变化。因为这些值是未知的，所以本实施例中MDP的状态转移概率Pr是未知的。另一方面，状态设计还需要为托管多个应用程序的大型集群去执行主动伸缩决策的能力。为了避免破坏动作空间，给定时间步长内的每个状态都被分成几个步骤。假设当前状态在t，则状态表示为/>。例如，如果时间步长为t，则存在定义下一状态的两个迭代循环。第一个循环考虑修复一个应用程序服务，并将j增加1，直到通过所有主机并从a选择适当的伸缩操作。一旦j=m，j+变为0，i增加1，记为i+。此外，对于给定的i和j，状态处的/>由每个缩放决策更新。

给定当前状态、所采取的动作以及下一个状态，计算成本函数。所构建的成本函数由基于四种不同目标的四个成本函数共同组成。

首先，基于最小化应用负载目标，考虑到应用程序的负载是预测的，评估缩放决策并将分配的资源与每个应用程序所需的资源进行比较。如果决策低估了负载，则返回的成本是实际所需资源与缩放后的资源之间的差异。如果满足，则返回零。。

其次，基于最小化可用资源的过载目标，C2表示每个应用程序对每个边缘端上的CPU和内存的资源过载成本，。

然后，基于最小化容器优先级成本目标，为每个服务分配一个优先级，此值将服务的扩展优先于其他服务，优先级成本；接下来，基于最小化从服务边缘工作者到行动者的距离成本目标，最小化总距离成本/>。

最后，可得所述马尔可夫决策过程的成本函数为，其中，表示为权重，其和值为1，具体值通过最小化/>求得。

其中，表示经过t时刻的动作，t-1时刻状态转移到t时刻状态的成本，/>为第一权重，/>为第二权重，/>为第三权重，/>为第四权重，/>为t时刻应用程序的负载预测成本，当t时刻分配的资源小于应用程序实际所需的资源时，为t时刻应用程序实际所需的资源与t时刻分配的资源与之差，当t时刻分配的资源大于或者等于应用程序实际所需的资源时，/>为0；/>为t时刻每个应用程序（边缘端上运行的服务或任务）对每个边缘端上的CPU和内存的资源过载成本；/>为t时刻服务扩展优先级的优先级成本，/>为t时刻从服务边缘工作者到行动者的距离成本。

服务边缘工作者：指那些负责提供服务、维护、监控或管理边缘计算基础设施的人员。这可能包括***管理员、网络管理员、边缘设备操作员等。服务边缘工作者负责确保边缘计算环境的正常运行和服务可用性。

行动者：指在边缘环境中执行任务或操作的实体。这可能包括运行在边缘设备上的应用程序、服务、或者执行特定任务的智能体。行动者执行各种计算任务，可能涉及数据处理、实时决策、传感器数据收集等。

服务边缘工作者和行动者共同构成了边缘计算环境中的管理和执行实体。服务边缘工作者为负责管理和维护边缘端设备的工作人员，而行动者则为负责在边缘端执行任务（计算任务）的实体。

。

其中，表示t时刻的第一CUP成本，/>表示t时刻的第一存储成本。

；。

的约束条件为/>。

其中，表示t时刻第i个服务的CPU利用率，/>表示t时刻第j个边缘端对第i个服务的CPU的资源分配量，/>表示第i个服务的CPU需求。

。

的约束条件为/>。

其中，表示t时刻第i个服务的内存利用率，/>表示t时刻第j个边缘端对第i个服务的内存的资源分配量，/>表示第i个服务的内存需求。

。

其中，表示t时刻的第二CUP成本，/>表示t时刻的第二存储成本。/>

。

的约束为/>。

。

的约束为/>。

其中，表示第j个边缘端CPU的平均资源，/>表示第j个边缘端内存的平均资源。

。

其中，表示t时刻的第三CUP成本，/>表示t时刻的第三存储成本。

。

的约束为/>。

。

的约束为/>。

其中，表示第i个服务的优先级。

。

其中，是第j个边缘端的距离成本，/>是大小为m的矢量，/>为/>中第j个元素，对于任意/>，如果/>，则/>，否则为/>。

本实施例采用定制的DRL算法实现资源缩放和服务放置。步骤103最终目标是利用定制的DRL算法学习从一个状态到所有下一个状态的转移概率分布，并找到最优策略。该策略将一个状态作为输入，并输出使未来成本最小化的动作，未来成本通过/>进行贴现，这控制了未来动作对过去和当前状态的影响，以便使得强化学习方法实现更快的收敛。

是在t时刻选择策略/>所隐含的未来贴现成本，其指示选择动作/>，T是事件的最终时间步长，/>为t’时刻的动作，/>为t’时刻的状态，/>为/>时刻的状态，t’为未来时间，其取值范围是t≤t’≤T，/>表示未来/>时间段的成本折现。定制的DRL算法使用/>表示最优行动价值函数，/>，/>[ ]表示求希望，它使任何选定策略的平均期望成本最小化。最优Q函数（最优行动价值函数）选择下一状态的动作，其最小化遵循/>这一动作值函数，其中/>表示通过Pr实现从状态s转换到状态/>的状态链，Pr表示状态转移概率，/>是通过/>获得的当前成本，/>是从当前状态s到T时最后状态/>的期望值，/>表示状态变量，/>表示动作变量，/>表示未来成本折现。

DRL的基本形式是使用贝尔曼（Bellman）方程的迭代更新来找到最优动作值函数，最优动作值函数更新过程可表示为，其中/>是学习率，且Q函数的更新发生在Q学习算法之后。/>表示基础的最优行动价值函数，表示改进定制的最优行动价值函数。

定制的DRL资源缩放和服务放置优化算法伪代码如表2中算法2所示。

其中，y_k表示目标值或期望值。r_x表示在时间步t时执行动作的成本。

本发明一方面人工智能（Artificial Intelligence，AI）赋能的端到端（E2E）通感数据网络切片：为了应对大规模异构终端协同接入所带来网络延迟、带宽、可靠性等方面的资源分配/调度挑战，采用了E2E网络切片方法。该方法致力于为边缘端提供定制的网络切片，从源到目的地满足特定应用程序的先决条件，以确保提供高质量的服务。为了最大限度地减少边缘端的E2E网络切片***延迟，并进一步适应各种应用程序的不同要求，本发明引入了深度Q网络（DQN）算法，以对E2E网络切片进行资源优化。这种综合的方法有助于有效解决服务质量需求方面的挑战，提高网络性能和边缘端体验。另一方面，AI赋能的资源缩放和服务放置：尽管现有方法有助于应对网络中服务质量需求，但要支持5G-A/6G的新服务，需移动边缘计算提供更多计算资源。移动边缘计算受资源限制，动态配置基础设施上多个应用的资源成为新挑战。为了解决日益复杂的资源配置挑战，本发明提出了综合的智能资源缩放和服务放置解决方案。该方案利用深度强化学习方法为资源缩放和服务放置提供决策支持，能够有效地预测集群中托管程序节点上的资源使用情况以及可用资源的变化，从而更精准地满足边缘端需求的变化。在这一解决方案中，环境的概率转移矩阵通常是未知的。为了确保控制策略的最优性，本发明引入了一种无模型的环境概率转移矩阵，并将其应用于深度强化学习框架中。这一创新性的方法能够更好地适应复杂的环境动态，提高决策的鲁棒性和智能性。通过融合深度学习和无模型环境建模，本发明旨在提高资源配置的效率和精度，以满足日益变化的边缘端需求。

本发明将通感技术与E2E网络切片技术结合，充分发挥E2E网络切片的潜力，以确保5G-A/6G提供高质量的服务。利用DQN算法解决计及联合传输和资源分配的通感应用优化问题，旨在最大限度地减少边缘端的E2E网络切片***延迟，并进一步适应各种应用程序的不同要求。本发明提出了一个基于深度强化学习的资源缩放和服务放置解决方案，并在其优化过程中构建了适用于集群环境集成的架构，旨在适应复杂的环境动态，提高决策的鲁棒性和智能性。

实施例2，本实施例提供的一种通信网络中资源调度***，包括端到端通感传输延迟模型构建模块、通感传输延迟模型优化模块和计算资源缩放和服务放置优化模块。

端到端通感传输延迟模型构建模块用于根据通信网络中端到端的通感数据网络切片传输中，N3链路容量、N3链路上的传输延迟、用于通感服务的物理资源块和端到端的通感传输延迟，构建端到端通感传输延迟模型；所述端到端为边缘端到目标端；所述边缘端为提供通感服务的端，所述目标端为接受通感服务的端；所述通感服务包括感知服务和通信服务。

通感传输延迟模型优化模块用于以最小化所有边缘端设备的通感服务的端到端下行链路传输延迟时间为目标，采用深度Q网络算法对端到端通感传输延迟模型进行优化，得到优化后的通感数据网络切片。

计算资源缩放和服务放置优化模块用于对于边缘端构成的边缘端集群，采用深度强化学习算法进行计算资源缩放和服务放置优化。

实施例3，本实施例提供的一种电子设备，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行实施例1所述的通信网络中资源调度方法。

本实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行本实施例1所述的通信网络中资源调度方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种通信网络中资源调度方法，其特征在于，包括：

根据通信网络中端到端的通感数据网络切片传输中，N3链路容量、N3链路上的传输延迟、用于通感服务的物理资源块和端到端的通感传输延迟，构建端到端通感传输延迟模型；所述端到端为边缘端到目标端；所述边缘端为提供通感服务的端，所述目标端为接受通感服务的端；所述通感服务包括感知服务和通信服务；所述边缘端上部署有边缘端设备；

以最小化所有边缘端设备的通感服务的端到端下行链路传输延迟时间为目标，采用深度Q网络算法对端到端通感传输延迟模型进行优化，得到优化后的通感数据网络切片；采用优化后的通感数据网络切进行端到端的通感数据传输；

对于边缘端构成的边缘端集群，采用深度强化学习算法进行计算资源缩放和服务放置优化；

所述端到端通感传输延迟模型表示为：

其中，表示端到端通感传输延迟，/>为通信服务c和边缘端设备u关系的二进制指示符，/>表示边缘端设备u的端到端通信延迟，/>表示通信服务集，/>表示感知服务和通信服务c是否集成的标识符，/>表示边缘端设备u使用执行通信和感知数据的联合传输，/>表示边缘端设备u未使用执行通信和感知数据的联合传输，表示边缘端设备u是否请求感知服务的二进制指示符，/>表示边缘端设备u在进行通感传输时感知服务的无线传输延迟，/>表示边缘端设备u使用独立感知服务时的无线传输延迟。

2.根据权利要求1所述的通信网络中资源调度方法，其特征在于，所述端到端通感传输延迟模型的目标函数表示为：

；

其中，表示N3链路上感知服务的传输延迟，/>表示边缘端设备集，/>表示目标端集，/>表示约束条件，/>表示通信服务c的延迟预设值，/>表示感知服务的延迟预设值，表示边缘端设备u用于通信服务c数据传输的物理资源块数量，/>表示边缘端设备u的用于感知服务数据传输的物理资源块数量，/>表示分配给目标端v的用于感知服务的物理资源块数量，/>表示分配给集成感知服务和通信服务c的边缘端设备u的资源元件数量，/>表示一个物理资源块中资源元件数量，/>表示无线接入网络中可用物理资源块的总数，N表示N3链路的总容量，/>表示用于边缘端设备u的通信服务c的N3链路容量，/>表示用于感知服务数据传输的N3链路容量，/>表示正整数集合。

3.根据权利要求1所述的通信网络中资源调度方法，其特征在于，所述深度Q网络算法中t时刻的状态表示为：

；

其中，表示t时刻的状态集合，/>为t时刻的第一状态，/>为t时刻的第二状态，/>为t时刻的第三状态，/>表示t时刻的通信资源，/>表示t时刻的感知资源，/>表示t时刻的N3链路通信资源；

所述深度Q网络算法的动作空间表示为：

；

其中，表示t时刻的动作空间，/>表示t时刻各边缘端设备感知服务和通信服务c是否集成的标识符的集合，/>表示t时刻各边缘端设备通信服务c数据传输的物理资源块数量的集合，/>表示t时刻分配给集成感知服务和通信服务c的各边缘端设备的资源元件的数量的集合，/>表示t时刻分配给各目标端的用于感知服务的物理资源块数量的集合，/>表示t时刻各边缘设备端用于感知服务数据传输的物理资源块数量的集合，表示用于各边缘端设备的通信服务c的N3链路容量；

所述深度Q网络算法的奖励函数表示为：

；

其中，表示t时刻的奖励函数，/>表示边缘端设备集，/>表示t时刻端到端通感传输延迟，/>表示t时刻惩罚，/>表示目标函数中第/>个约束/>的布尔函数，G为约束的数量。

4.根据权利要求1所述的通信网络中资源调度方法，其特征在于，对于边缘端构成的边缘端集群，采用深度强化学习算法进行计算资源缩放和服务放置优化，具体包括：

根据所述边缘端集群中各边缘端的边缘计算需求和可用资源变化构建马尔可夫决策过程；

5.根据权利要求4所述的通信网络中资源调度方法，其特征在于，所述马尔可夫决策过程的状态空间表示为：

；

其中，表示t时刻所述马尔可夫决策过程的状态，/>表示t时刻边缘端上的可用的总资源，/>中的元素/>为m×2的矩阵，/>用来存储边缘端集群中每个边缘端t时刻时第i个服务的CPU和内存的平均资源使用率；/>表示t时刻所有边缘端的可用资源，中的元素/>为m×2的矩阵，/>用来存储第j个边缘端的平均资源，/>为m×n的矩阵，m表示服务的数量，n表示边缘端的数量，/>用来存储t时刻每个服务在每个边缘端上的决策，/>中元素/>用来存储CPU的资源分配量和内存的资源分配量；

所述马尔可夫决策过程的动作为和/>组成的列表，其中/>存储CPU的资源缩放决策，/>存储存的资源缩放决策，/>和/>均属于{-u,-1,0,1,u}，-1和1表示水平缩放，-u和u表示垂直缩放的十进制值，0表示不进行缩放，所述水平缩放为调整动作的范围，所述垂直缩放为调整动作的幅度；

所述马尔可夫决策过程的成本函数表示为：

；

其中，表示经过t时刻的动作，t-1时刻状态转移到t时刻状态的成本，/>为第一权重，/>为第二权重，/>为第三权重，/>为第四权重，/>为t时刻应用程序的负载预测成本，当t时刻分配的资源小于应用程序实际所需的资源时，/>为t时刻应用程序实际所需的资源与t时刻分配的资源与之差，当t时刻分配的资源大于或者等于应用程序实际所需的资源时，/>为0；/>为t时刻每个应用程序对每个边缘端上的CPU和内存的资源过载成本；/>为t时刻服务扩展优先级的优先级成本，/>为t时刻从服务边缘工作者到行动者的距离成本，服务边缘工作者为负责管理和维护边缘端设备的工作人员，行动者为负责在边缘端执行计算任务的实体。

6.根据权利要求5所述的通信网络中资源调度方法，其特征在于，；

其中，表示t时刻的第一CUP成本，/>表示t时刻的第一存储成本；

；

的约束条件为/>；

其中，表示t时刻第i个服务的CPU利用率，/>表示t时刻第j个边缘端对第i个服务的CPU的资源分配量，/>表示第i个服务的CPU需求；

；

的约束条件为/>；

其中，表示t时刻第i个服务的内存利用率，/>表示t时刻第j个边缘端对第i个服务的内存的资源分配量，/>表示第i个服务的内存需求；

；

其中，表示t时刻的第二CUP成本，/>表示t时刻的第二存储成本；

；

的约束为/>；

；

的约束为/>；

其中，表示第j个边缘端CPU的平均资源，/>表示第j个边缘端内存的平均资源；

；

其中，表示t时刻的第三CUP成本，/>表示t时刻的第三存储成本；

；

的约束为/>；

；

的约束为/>；

其中，表示第i个服务的优先级；

；

其中，是第j个边缘端的距离成本，/>是大小为/>的矢量，/>为/>中元素，对于任意/>，如果/>，则/>，否则为/>。

7.一种通信网络中资源调度***，其特征在于，包括：

端到端通感传输延迟模型构建模块，用于根据通信网络中端到端的通感数据网络切片传输中，N3链路容量、N3链路上的传输延迟、用于通感服务的物理资源块和端到端的通感传输延迟，构建端到端通感传输延迟模型；所述端到端为边缘端到目标端；所述边缘端为提供通感服务的端，所述目标端为接受通感服务的端；所述通感服务包括感知服务和通信服务；

通感传输延迟模型优化模块，用于以最小化所有边缘端设备的通感服务的端到端下行链路传输延迟时间为目标，采用深度Q网络算法对端到端通感传输延迟模型进行优化，得到优化后的通感数据网络切片；

计算资源缩放和服务放置优化模块，用于对于边缘端构成的边缘端集群，采用深度强化学习算法进行计算资源缩放和服务放置优化；

所述端到端通感传输延迟模型表示为：

8.一种电子设备，其特征在于，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至6中任一项所述的通信网络中资源调度方法。

9.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的通信网络中资源调度方法。