CN116827515A

CN116827515A - 一种基于区块链和强化学习的雾计算***性能优化算法

Info

Publication number: CN116827515A
Application number: CN202310775693.0A
Authority: CN
Inventors: 孔令和; 朱斌; 葛威; 吴世伟; 刘伟; 刘恒
Original assignee: Suzhou Zhongxi Biological Information Co ltd
Current assignee: Suzhou Zhongxi Biological Information Co ltd
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-09-29

Abstract

当前，雾计算技术得益于其分布式特性能一定程度上改善传统物联网和云计算所存在的延迟和性能问题而受到广泛关注，但受制于计算资源，雾节点无法保证数据的安全性和隐私性。区块链的分布式信任机制能够很好地与其结合以提高安全性和隐私性。不过，目前应用于雾计算的区块链技术仍存在着一些局限，吞吐量性能较低就是其中之一。因此，为了同时满足数据安全性和提高吞吐量的需求，在本文中我们提出了一种结合区块链技术的雾计算框架，其能够根据***状态进行动态调整，并采用决斗式深度强化学习算法来获得最优配置。仿真表明，本方案能有效提高区块链‑雾计算***的吞吐量性能并保证安全性。

Description

一种基于区块链和强化学习的雾计算***性能优化算法

技术领域

在本文中，我们提出了一个支持区块链的雾计算***框架以及性能优化算法，其不仅保证了数据的安全性和隐私性，同时能够通过分析***状态和用户Qos需求动态调整区块链的吞吐量和延迟，以提高***整体性能。通过分析复杂动态雾计算环境中的资源状态和区块链的***配置，我们将问题表述为一个马尔可夫过程，采用基于改进的Dueling深度强化学习算法，来对***进行智能优化。该算法能够动态调整块生成者、块大小和网络带宽分配，满足不同用户的QoS需求，提高吞吐量，降低延迟。仿真结果表明，有现有的方法相比，本文提出的区块链雾计算***架构和优化算法在不同***参数下均具备提高***吞吐量的有效性，并明显优于现有方案。

背景技术

近年来，物联网技术的发展已经引起了全球范围内的广泛关注。物联网应用的范围和规模也在不断扩大，包括家庭自动化、智能城市、智能医疗、智能工厂等各个领域。然而，由于物联网设备本身资源有限，大量的数据处理和存储需求往往需要额外的计算、存储和网络带宽资源。传统的云计算模式虽然可以集中处理数据，但却无法充分利用物联网设备本身的计算资源，而且其依赖于互联网传输数据，无法满足低延迟、高质量的服务需求。

为了解决这些问题，雾计算技术应运而生。雾计算是一种新型的计算架构，其主要思想是将计算、存储和网络资源推向物联网边缘，让边缘设备和云数据中心之间形成一个可编程的、可管理的计算平台。这样可以在物联网边缘提供更快速、更可靠、更安全的计算服务，同时也能够充分利用边缘设备本身的计算资源，减少数据传输成本和延迟。通过雾计算技术，物联网设备可以更加智能化、高效化地处理数据，并且实现更加丰富、多样化的应用场景。雾计算也被视为是未来物联网发展的重要方向之一，它将促进物联网技术的发展和应用，带来更多的商业机会和社会价值。

然而，雾计算也存在一些缺点有待解决。由于其计算模式涉及到大量的数据传输和存储，这就需要保证数据的安全性。但是，雾计算的边缘设备受制于计算资源的限制，通常安全性能较弱，因此会面临数据泄漏、数据丢失、数据篡改等安全问题；另外，在雾计算中，边缘设备和云数据中心之间需要进行频繁的数据传输，恶意攻击者可能会攻击数据传输通道，窃取数据或者干扰数据传输，从而危及数据的安全性；此外，在雾计算模式下，边缘设备通常会收集和处理大量的个人信息和敏感数据，如果这些信息和数据泄漏，可能会对个人隐私造成严重的影响，同时雾计算***中涉及到多个参与方，如边缘设备、云数据中心等，这也增加了隐私泄露的风险。

尽管雾计算作为一种新兴的计算模式，在物联网领域具有广泛的应用前景，但它仍然存在一些缺点和安全问题需要解决。其中，最主要的问题是数据安全和隐私问题。雾计算涉及到大量的数据传输和存储，这就需要保证数据的安全性。然而，由于边缘设备的计算资源有限，其安全性能通常较弱，可能会面临数据泄漏、数据丢失、数据篡改等安全问题。此外，边缘设备和云数据中心之间需要频繁的数据传输，这也增加了网络安全的挑战。恶意攻击者可能会攻击数据传输通道，窃取数据或者干扰数据传输，从而危及数据的安全性。除此之外，边缘设备通常会收集和处理大量的个人信息和敏感数据，如果这些信息和数据泄漏，可能会对个人隐私造成严重的影响。而且，由于雾计算***中涉及到多个参与方，如边缘设备、云数据中心等，这也增加了隐私泄露的风险。区块链作为一种解决方案，已被认为是应对雾计算挑战的最合适技术之一，其分布式信任机制与雾计算的分布式处理特性相得益彰。此外，区块链的共识协议和加密技术有助于确保数据在雾计算架构中的安全传输。然而，在将区块链与雾计算相结合的过程中，仍然存在一些问题，区块链的吞吐量和延迟可能无法完全满足雾计算的性能需求。这意味着，在实际应用中可能会出现性能瓶颈，影响***整体效率。因此，研究如何提高区块链的吞吐量和降低延迟，以便更好地适应雾计算环境，已成为学术界关注的重点。

为了解决上述问题，本文提出了一种基于深度强化学习技术的区块链雾计算性能优化算法。其采用Dueling深度学习强化算法，能够在复杂的动态环境下，根据雾计算节点状态、网络带宽和用户QoS需求动态选择分块者、分块大小和网络带宽分配，并根据用户的QoS需求提高吞吐量、降低延迟，大大提高了区块链雾计算***的可扩展性。

为了解决上述问题，本文提出了一种基于深度强化学习技术的区块链雾计算性能优化算法。该算法采用了Dueling深度学习强化技术，使区块链雾计算***能够在复杂多变的环境中进行自我调整。通过监测雾计算节点状态、网络带宽和用户的QoS需求，该算法能够动态地选择合适的分块者、分块大小以及网络带宽分配。这种自适应方法有助于提高区块链雾计算***的吞吐量和降低延迟，从而满足用户的QoS需求，为提高区块链雾计算***的可扩展性和吞吐性能提供了有效途径。

发明内容

1.针对结合区块链技术的雾计算***架构，根据雾计算节点状态、网络带宽和用户的QoS需求动态选择合适的分块者、分块大小以及网络带宽分配，优化***性能。

其特征在于，包括以下步骤：

(1)设计基于区块链的雾计算***架构，该***架构分为三层：物联网层、雾计算-区块链层和云服务层。关于每一层的定义如下：

①在物联网层级结构中，大量的智能物联设备协同工作，如智能汽车、智能环境监测设备以及智能家居等。这些智能设备通过高效的通信链路与雾计算节点相互连接，并在此过程中产生海量数据，交由雾计算-区块链层进行处理。

②在雾计算-区块链层中，雾计算设备与物联网层的智能设备紧密配合，雾计算设备首先从物联网层的各种智能设备采集数据，经过初步处理后，数据被打包并传输至区块链***。在区块链***中，各参与者通过共识算法达成一致，确保数据的真实性和完整性。当本地雾节点设备遇到计算能力不足以处理当前任务的情况时，它可以将部分计算任务卸载到远程云服务器上，这种卸载策略有助于提高整体计算效率，确保任务能够在合适的时间内完成。同时，通过区块链***，雾节点之间以及雾节点与云服务器层之间传输数据的完整性、可追溯性和不可篡改性得到了有效保障。另外，在雾计算-区块链***中，共识过程不会消耗雾计算设备的资源。相反，本地共识节点与远程云计算服务器共同支持整个共识过程，实现了分布式的共识决策。

③在云服务层，部署有运行区块链***的虚拟机，这些虚拟机能够高效地处理来自雾计算-区块链层的共识需求。通过云服务器层中的虚拟机，区块链***可以在极大范围内实现分布式共识，确保数据的安全、可靠和不可篡改。另外，云服务层还承担着处理雾节点设备发送的复杂计算任务的职责，当雾计算设备遇到计算能力不足处理特定任务时，这些任务会被卸载到云服务层，云服务器拥有更强大的计算能力和资源，可以快速地处理这些复杂任务。

(2)设计基于区块链-雾计算***架构的***资源模型和Qos模型，其定义如下：

雾节点作为区块生产者需要大量的计算资源，但由于雾计算-区块链层需要与云服务器层交互，我们很难准确知道节点在下一个时隙的计算能力。因此，在本文中我们将雾节点n的计算能力建模为随机变量c_n，并假设其计算能力可以划分为离散区间P，表示为P＝{P₀，P₁，...，P_P-1}。由此，雾节点n在时隙t的计算能力被表示为c_n(t)，并通过马尔科夫链来模拟该随机变量的状态。

P×P大小的状态转移概率矩阵Rⁿ(t)表示如下：

Rⁿ(t)＝[Pr(c_n(t+1)＝l_s|c_n(t)＝w_s)]_P×P l_s，w_s∈P (1)

另外，雾计算-区块链***中的大量数据传输需要占有网络带宽资源，但在其架构中很难准确地知道在下一个时隙中有多少网络带宽资源可用，因此，我们同样假设将网络带宽资源为B，并将网络带宽资源建模为随机变量w_b，其可以划分为离散区间X，表示为X＝{X₀，X₁，...，X_X-1}。w_b(t)是时隙t上的可用带宽资源，我们同样通过马尔科夫链来对该随机变量的状态进行建模。

X×X大小的状态转移概率矩阵O^b(t)表示如下：

O^b(t)＝[Pr(w_b(t+1)＝q_s|w_b(t)＝m_s)]_X×X q_s，w_s∈X (2)

在基于区块链的雾计算***中，针对不同应用场景，服务质量(QoS)需求可能存在显著差异。例如，某些应用需要低延迟以实现快速响应，而另一些应用则侧重于极高的吞吐量以处理大量数据。因此，根据不同的QoS需求，有必要动态调整区块链的配置以优化***性能。为了更好地评估和调整雾计算-区块链***的服务质量，我们通过两个关键指标来度量其性能，即吞吐量和延迟。为了表示这两个参数，我们可以引入一个向量Q，其中第一个参数表示吞吐量标准，第二个参数表示等待时间(延迟)标准，其具体表示如下：

Q＝[q_T，q_L] (3)

其中，吞吐量标准的计算表示如下：

其中δ_target是采用当前区块链配置计算的吞吐量，δ_avg是使用标准区块链配置计算的吞吐量。

其中θ_target是采用当前区块链配置计算的延迟，θ_avg是标准区块链配置下计算的延迟。

同时，我们引入用户偏好数组D＝{d₁，d₂}，其中d₁，d₂表示用户的偏好权重，即吞吐量和延迟要求，由于用户偏好在某个时隙的不确定性，我们将用户吞吐量偏好和时延偏好建模为随机变量D₁和D₂，并用马尔科夫链进行建模，得到状态转移概率矩阵D₁(t)和D₂(t)，其中t∈{0，1，2…，T-1}代表时隙。

通过引入的向量Q和D，可以得到所采用的区块链配置下Qos值，其表示如下：

Qos＝d₁·q_T+d₂·q_L (6)

(3)设计基于Dueling深度强化学习的吞吐量和延迟优化算法，建立马尔科夫决策过程，建立状态空间、动作空间和奖励函数。

①状态空间定义如下：

其中d₁(t)和d₂(t)代表用户偏好权重，c_N(t)为节点N在实时隙t的计算能力，w_B(t)则是时隙t下可用的网络带宽资源。

②动作空间定义如下：

A(t)＝{aⁿ(t)，a^b(t)，a^s(t)} (8)

其中aⁿ(t)∈{1，2，...，n…，N}指示哪个节点被选为块生成者，a^b(t)∈{1，2，...，b，..，B}指示可用的带宽资源，a^s(t)∈{1，2，...，s，..，S}表示数据块大小的级别。

③奖励函数定义如下：

其中δ_target和θ_target是所选配置的吞吐量和延迟，其计算方法如下：

其中c_n(t)是所选块生成者的计算能力，b_s是所选块大小级别对应的事务数，w_b(t)是所选的带宽资源，δ_avg以及θ_avg是通过对所有状态求平均值计算的标准吞吐量和延迟。

(4)设计基于Dueling深度强化学习的吞吐量和延迟优化算法，根据状态空间、动作空间和奖励函数动态调整。

在深度强化学习算法中，动作-状态价值函数Q(s，a)表示如下：

其中E^π表示数学期望，γ∈(0，1)为反映平衡即时和未来之间回报的贴现因子，r_t+k+1代表在t+k+1时间段策略下的即时奖励。

损失函数L(θ)可以训练网络产生近似Q(s，a)函数的值，公式表示如下：

其中θ为被评估网络的权重和偏差，θ^-为目标网络的权重和偏差。

被评估网络的Q_eval(s，a，θ)是V(s)和A(s，a)的组合，定义如下：

Q_eval(s，a，θ)＝V(s，θ，δ)+A(s，a，θ，ε) (14)

其中δ和ε是两个独立流的参数。

算法流程如下：

(1)初始化：

①根据权重和偏差θ初始化被评估网络；

②根据权重和偏差θ^-初始化目标网络；

③初始化记忆内存大小M，批处理大小B和贪婪系数∈。

(2)对被评估共进行K次迭代训练，每次迭代进行如下步骤：

①使用随机状态空间s_init重置环境，则s(t)＝s_init

②当状态空间不为终止状态时，即s(t)！＝s_terminal的条件下重复以下步骤：

①以概率∈随机选择动作a(t)；

②如不进行①，则设置a(t)＝argmax_a Q(s，a，θ)；

③获得即时奖励r(t)和下一状态s(t+1)；

④储存经验(s(t)，a(t)，r(t)，s(t+1))到经验回放内存中；

⑤从经验回放内存中随机取样(s(i)，a(i)，r(i)，s(i+1))；

⑥计算被评估网络的两个数据流，包括V(s，θ，δ)和A(s，a，θ，ε)，然后合并为

Q_eval(s，a，θ)；

⑦在目标网络中计算目标Q_target；

⑧如果下一个状态是终止状态，即s(t+1)＝s_terminal，那么Q_target＝r(t)；

如果不是，那么Q_target＝r(t)+γmax_a′Q(s(t+1)，a′，θ′)；

⑨训练被评估网络来最小化损失函数L(θ)，L(θ)＝E[(Q_target-Q_eval)²]

⑩根据经过一段时间训练后的被评估网络来更新目标网络；更新状态空间为

下一个状态空间s(t)←s(t+1)。

本发明的创造性体现在：

本发明针对高动态性和复杂性的雾计算环境，提出了一种创新性的解决方案。在这种环境中，传统优化方法往往难以适应环境的变化，无法实现根据环境的动态调整。为了解决这一问题，我们结合了Dueling深度强化学习的自适应和自学习能力，设计了一种基于区块链的雾计算***框架，同时我们利用Dueling深度强化学习算法，针对不同用户的QoS需求，实现区块链配置的动态调整。这种方法显著优化了区块链-雾计算***的吞吐量和延迟，提高了***的整体性能

附图说明

图1是本发明基于区块链的雾计算***模型结构图

图2是本发明算法优化架构与固定配置架构的收敛性能对比图

图3是本发明算法优化架构与固定配置架构在不同块大小下的Qos值

具体实施方式

针对结合区块链技术的雾计算***架构，根据雾计算节点状态、网络带宽和用户的QoS需求动态选择合适的分块者、分块大小以及网络带宽分配，优化***性能，其实施包括以下步骤：

(1)配置基于区块链的雾计算***架构，该***架构分为三层：物联网层、雾计算-区块链层和云服务层。其中在物联网的层次结构中，各类智能物联设备如智能汽车、智能环境监测设备和智能家居等共同协作。这些设备通过高效的通信链路与雾计算节点互相连接，产生的大量数据随后被传递到雾计算-区块链层进行处理与分析；而在雾计算-区块链层，雾计算设备与物联网层的各种智能设备紧密协作。首先，雾计算设备从物联网层的智能设备收集数据，经过预处理后，将数据打包并传输到区块链***。在区块链***内，参与者通过共识算法达成一致，确保数据的真实性和完整性。当本地雾节点设备的计算能力不足以应对当前任务时，可以将部分计算任务卸载至远程云服务器，这种卸载策略有助于提高整体计算效率并确保任务按时完成。此外，区块链***保证了雾节点间以及雾节点与云服务器层之间数据传输的完整性、可追溯性和不可篡改性。在雾计算-区块链层级中，共识过程不会消耗雾计算设备的资源。相反，本地共识节点与远程云计算服务器共同支持整个共识过程，实现分布式共识决策。而在云服务层，部署有运行区块链***的虚拟机，这些虚拟机能够高效地处理来自雾计算-区块链层的共识需求。通过云服务器层中的虚拟机，区块链***可以在极大范围内实现分布式共识，确保数据的安全、可靠和不可篡改。另外，云服务层还承担着处理雾节点设备发送的复杂计算任务的职责，当雾计算设备遇到计算能力不足以处理特定任务时，这些任务会被卸载到云服务层，云服务器拥有更强大的计算能力和资源，可以快速地处理这些复杂任务。

(2)配置基于区块链-雾计算***架构的***资源模型和Qos模型，方法如下：

P×P大小的状态转移概率矩阵Rⁿ(t)表示如下：

Rⁿ(t)＝[Pr(c_n(t+1)＝l_s|c_n(t)＝ws)]_P×P l_s，w_s∈P (1)

X×X大小的状态转移概率矩阵O^b(t)表示如下：

O^b(t)＝[Pr(w_b(t+1)＝q_s|w_b(t)＝m_s)]_X×X q_s，w_s∈X (2)

Q＝[q_T，q_L] (3)

其中，吞吐量标准的计算表示如下：

同时，我们引入用户偏好数组D＝{d₁，d₂}，其中d₁，d₂表示用户的偏好权重，即吞吐量和延迟要求，由于用户偏好在某个时隙的不确定性，我们将用户吞吐量偏好和时延偏好建模为随机变量D₁和D₂，并用马尔科夫链进行建模，得到状态转移概率矩阵D₁(t)和D₂(t)，其中t∈{0，1，2...，T-1}代表时隙。

Qos＝d₁·q_T+d₂·q_L (6)

(3)配置基于Dueling深度强化学习的吞吐量和延迟优化算法，建立马尔科夫决策过程，建立状态空间、动作空间和奖励函数。

①状态空间定义如下：

②动作空间定义如下：

A(t)＝{aⁿ(t)，a^b(t)，a^s(t)} (8)

③奖励函数定义如下：

(4)配置基于Dueling深度强化学习的吞吐量和延迟优化算法，并根据状态空间、动作空间和奖励函数动态调整。

Q_eval(s，a，θ)＝V(s，θ，δ)+A(s，a，θ，ε) (14)

其中δ和ε是两个独立流的参数。

算法流程如下：

(1)初始化：

①根据权重和偏差θ初始化被评估网络；

②根据权重和偏差θ^-初始化目标网络；

③初始化记忆内存大小M，批处理大小B和贪婪系数∈。

(2)对被评估共进行K次迭代训练，每次迭代进行如下步骤：

①使用随机状态空间s_init重置环境，则s(t)＝s_init

①以概率∈随机选择动作a(t)；

②如不进行①，则设置a(t)＝argmax_a Q(s，a，θ)；

③获得即时奖励r(t)和下一状态s(t+1)；

④储存经验(s(t)，a(t)，r(t)，s(t+1))到经验回放内存中；

⑤从经验回放内存中随机取样(s(i)，a(i)，r(i)，s(i+1))；

Q_eval(s，a，θ)；

⑦在目标网络中计算目标Q_target；

如果不是，那么Q_target＝r(t)+γmax_a′Q(s(t+1)，a′，θ′)；

下一个状态空间s(t)←s(t+1)。

我们假设有9个雾节点可以作为区块链共识的共识节点，4个可用带宽资源链接，区块大小分为4个级别：极高、高、中、低，雾节点的计算能力分为高、中、低三个等级，其状态转移概率矩阵如下：

同理，将可用带宽资源状态分为好、中、差，状态转移概率矩阵设为如下形式：

同样的，用户的吞吐量偏好和时延偏好分别为高、中、低。用户的状态转移概率矩阵被设置为如下形式：

图2是本发明算法优化架构与固定配置架构的收敛性能对比图，其中X轴是迭代次数，Y轴为Qos值所代表的收敛性能，可以发现，本发明所提出的方案具有更高的QoS，是固定配置方案的近两倍，这证明了该方案的有效性；图3是本发明算法优化架构与固定配置架构在不同块大小下的Qos值，同样的，本发明所提出的方案在不同的块大小下都有最好的性能，块大小远大于固定配置方案，同时，本发明方案还可以根据***的不同动态调整块大小，以获得更好的性能。

Claims

1.针对结合区块链技术的雾计算***架构，根据雾计算节点状态、网络带宽和用户的QoS需求动态选择合适的分块者、分块大小以及网络带宽分配的***性能优化算法，其特征在于：

首先，将基于区块链的雾计算***架构分为三层：物联网层，雾计算-区块链层和云服务层。在物联网层中大量的智能物联设备协同工作，并通过高效的通信链路与雾计算节点相互连接，并在此过程中产生海量数据，交由雾计算-区块链层进行处理；而在雾计算-区块链层中，雾计算设备与物联网层的智能设备紧密配合，从物联网层的各种智能设备采集数据，经过初步处理后，数据被打包并传输至区块链***，在区块链***中，各参与者通过共识算法达成一致，确保数据的真实性和完整性；最终云服务层中部署好的运行着区块链***的虚拟机对来自雾计算-区块链层的公式需求进行处理。其次，使用基于区块链-雾计算***架构的***资源模型和Qos模型对***状态进行评估，同时根据Dueling深度强化学习的吞吐量和延迟优化算法，建立马尔科夫决策过程，包括状态空间、动作空间和奖励函数，最终根据设计的基于Dueling深度强化学习的吞吐量和延迟优化算法，根据状态空间、动作空间和奖励函数对***状态进行动态调整。

2.根据权利要求1所述的区块链-雾计算***性能优化算法，其特征在于：

当本地雾节点设备遇到计算能力不足以处理当前任务的情况时，本地雾节点设备会将部分计算任务卸载到远程云服务器上，通过此种卸载策略来提高***整体计算效率，确保任务能够在合适的时间内完成。同时，通过区块链***，雾节点之间以及雾节点与云服务器层之间传输数据的完整性、可追溯性和不可篡改性得到了有效保障。另外，在雾计算-区块链***中，共识过程不会消耗雾计算设备的资源。相反，本地共识节点与远程云计算服务器共同支持整个共识过程，实现了分布式的共识决策。

3.根据权利要求1所述的区块链-雾计算***性能优化算法，其特征在于：

通过云服务器层中的虚拟机，区块链***可以在极大范围内实现分布式共识，确保数据的安全、可靠和不可篡改。另外，云服务层还承担着处理雾节点设备发送的复杂计算任务的职责，当雾计算设备遇到计算能力不足C_n处理特定任务时，这些任务会被卸载到云服务层，云服务器拥有更强大的计算能力和资源，可以快速地处理这些复杂任务。

4.根据权利要求1所述的区块链-雾计算***性能优化算法，其特征在于：

雾节点作为区块生产者需要大量的计算资源，但由于雾计算-区块链层需要与云服务器层交互，因此很难准确知道节点在下一个时隙的计算能力。因此，在本文中我们将雾节点n的计算能力建模为随机变量c_n，并假设其计算能力可以划分为离散区间P，表示为P＝{P₀,P₁,...,P_P-1}。由此，雾节点n在时隙t的计算能力被表示为c_n(t)，并通过马尔科夫链来模拟该随机变量的状态。

P×P大小的状态转移概率矩阵Rⁿ(t)表示如下：

Rⁿ(t)＝[Pr(c_n(t+1)＝l_s|c_n(t)＝w_s)]_P×P l_s，w_s∈P (1)

另外，雾计算-区块链***中的大量数据传输需要占有网络带宽资源，但在其架构中很难准确地知道在下一个时隙中有多少网络带宽资源可用，因此，我们同样假设将网络带宽资源为B，并将网络带宽资源建模为随机变量w_b，其可以划分为离散区间X，表示为X＝{X₀,X₁,...,X_X-1}。w_b(t)是时隙t上的可用带宽资源，我们同样通过马尔科夫链来对该随机变量的状态进行建模。

X×X大小的状态转移概率矩阵O^b(t)表示如下：

O^b(t)＝[Pr(w_b(t+1)＝q_S|w_b(t)＝m_S)]_X×X q_S，w_s∈X (2)

Q＝[q_T，q_L] (3)

其中，吞吐量标准的计算表示如下：

其中是采用当前区块链配置计算的延迟，/>是标准区块链配置下计算的延迟。

同时，我们引入用户偏好数组D＝{d₁,d₂},其中d₁,d₂表示用户的偏好权重，即吞吐量和延迟要求，由于用户偏好在某个时隙的不确定性，我们将用户吞吐量偏好和时延偏好建模为随机变量D₁和D₂，并用马尔科夫链进行建模，得到状态转移概率矩阵D₁(t)和D₂(t)，其中t∈{0,1,2...,T-1}代表时隙。

Qos＝d₁·q_T+d₂·q_L (6)。

5.根据权利要求1所述的区块链-雾计算***性能优化算法，其特征在于：

①状态空间定义如下：

②动作空间定义如下：

A(t)＝{aⁿ(t),a^b(t),a^s(t)} (8)

其中aⁿ(t)∈{1,2,...,n...,N}指示哪个节点被选为块生成者,a^b(t)∈{1,2,...,b,..,B}指示可用的带宽资源,a^s(t)∈{1,2,...,s,..,S}表示数据块大小的级别。

③奖励函数定义如下：

其中δ_target和是所选配置的吞吐量和延迟，其计算方法如下：

其中c_n(t)是所选块生成者的计算能力，b_s是所选块大小级别对应的事务数，w_b(t)是所选的带宽资源，δ_avg以及是通过对所有状态求平均值计算的标准吞吐量和延迟。

6.根据权利要求1所述的区块链-雾计算***性能优化算法，其特征在于：

在深度强化学习算法中，动作-状态价值函数Q(s,a)表示如下：

其中E^π表示数学期望，γ∈(0,1)为反映平衡即时和未来之间回报的贴现因子，r_t+k+1代表在t+k+1时间段策略下的即时奖励。

损失函数L(θ)可以训练网络产生近似Q(s,a)函数的值，公式表示如下：

其中θ为被评估网络的权重和偏差，θ为目标网络的权重和偏差。

被评估网络的Q_eval(s,a,θ)是V(s)和A(s,a)的组合，定义如下：

Q_eval(s,a,θ)＝V(s,θ,δ)+A(s,a,θ,ε) (14)

其中δ和ε是两个独立流的参数。

算法流程如下：

(1)初始化：

①根据权重和偏差θ初始化被评估网络；

②根据权重和偏差θ^-初始化目标网络；

③初始化记忆内存大小M，批处理大小B和贪婪系数∈。

(2)对被评估共进行K次迭代训练，每次迭代进行如下步骤：

①使用随机状态空间s_init重置环境，则s(t)＝s_init

1)以概率∈随机选择动作a(t)；

2)如不进行①，则设置a(t)＝argmax_aQ(s,a,θ)；

3)获得即时奖励r(t)和下一状态s(t+1)；

4)储存经验(s(t),a(t),r(t),s(t+1))到经验回放内存中；

5)从经验回放内存中随机取样(s(i),a(i),r(i),s(i+1))；

6)计算被评估网络的两个数据流，包括V(s,θ,δ)和A(s,a,θ,ε)，然后合并为Q_eval(s,a,θ)；

7)在目标网络中计算目标Q_target；

8)如果下一个状态是终止状态，即s(t+1)＝s_terminal，那么Q_target＝r(t)；如果不是，那么Q_target＝r(t)+γmax_a′Q(s(t+1),a′,θ′)；

9)训练被评估网络来最小化损失函数L(θ)，L(θ)＝E[(Q_target-Q_eval)²]

10)根据经过一段时间训练后的被评估网络来更新目标网络；更新状态空间为下一个状态空间s(t)←s(t+1)。