CN117527570B

CN117527570B - 基于边缘强化学习的传感器集群位置优化方法

Info

Publication number: CN117527570B
Application number: CN202311735253.9A
Authority: CN
Inventors: 时广轶; 王川; 王春波; 李文荣; 金玉丰
Original assignee: Wuxi Bewis Sensing Technology Co ltd
Current assignee: Wuxi Bewis Sensing Technology Co ltd
Priority date: 2023-12-18
Filing date: 2023-12-18
Publication date: 2024-05-17
Anticipated expiration: 2043-12-18
Also published as: CN117527570A

Abstract

本发明属于通信技术领域，公开了基于边缘强化学习的传感器集群位置优化方法，方法包括：每个异构传感器负责收集传感数据；每个预定区域设置一个边缘计算节点，区域中的异构传感器将收集到的传感数据传输到边缘计算节点进行边缘计算；各个区域的边缘计算节点将边缘计算后的数据发送到中心服务器，中心服务器对数据进行强化学习，学习如何优化传感器的位置和关系以达到最优的***性能；根据最优策略，中心服务器向边缘计算节点发送指令，指导各个传感器调整位置和状态；传感器位置调整后，中心服务器再次进行强化学习直到获得最优部署位置。本发明通过边缘计算，在数据源近处进行计算，节省网络带宽，提高数据处理速度，提高网络效率。

Description

基于边缘强化学习的传感器集群位置优化方法

技术领域

本发明属于传感器集群及物联网技术领域，尤其涉及基于边缘强化学习的传感器集群位置优化方法。

背景技术

物联网 (IoT) 是近年来快速发展的一个领域，涵盖了多种设备和传感器的网络连接。异构传感器网络，由于其可以收集多模态的异构数据，例如温度、湿度、位置、能效、信号、图像和声音等，已经在多个领域，如智能家居、环境监测、精准农业、工业自动化等，得到了广泛的应用。

在这些应用中，传感器的位置部署是影响传感器网络性能的关键因素。合理的部署可以提高网络的覆盖范围、信号质量、数据质量，同时减少能耗，延长网络寿命。传统的传感器部署方法通常采用静态的、手动的方式，不能很好地应对复杂和动态的环境条件。为此，需要设计一种自适应、智能的传感器部署方案。

边缘计算是处理异构传感器数据的有效方式，将计算任务靠近数据源进行，可以降低传输延时，提高数据处理速度，降低网络负载，提升用户体验。然而，边缘计算设备的计算资源有限，如何有效利用这些资源，进行有效的数据处理和特征提取，是一大挑战。

强化学习是一种基于反馈的机器学习方法，通过在环境中不断试错，更新策略，最终获得最优策略。在处理传感器位置优化问题上，可以通过强化学习算法，自动寻找最优的部署策略。然而，由于异构传感器网络的复杂性和动态性，如何设计有效的强化学习算法，找到最优的部署策略，是一个难题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明公开了基于边缘强化学习的传感器集群位置优化方法。本发明利用边缘计算进行快速的数据处理和优化策略生成，利用深度确定性策略梯度算法进行传感器位置的优化，以实现在复杂的异构传感器网络环境中进行有效的传感器部署和管理。

本发明的目的是通过如下技术方案实现的，提出的基于边缘强化学习的传感器集群位置优化方法包括：

步骤1，每个异构传感器负责收集传感数据，所述的传感数据包括温度数据、湿度数据/>、位置数据/>、能效数据/>、信号数据/>、图像数据/>和声音数据/>；定义数据集/>为所有传感器的数据集合，其中，/>表示第/>个传感器的数据，即/>，N为传感器数量；

步骤2，每个预定区域设置一个边缘计算节点，区域中的异构传感器将收集到的传感数据传输到边缘计算节点进行边缘计算，以降低传输数据的复杂性和通信成本，定义为边缘计算函数，即/>，其中，/>是第/>个传感器的计算结果；

步骤3，各个区域的边缘计算节点将边缘计算后的数据发送到中心服务器，所述中心服务器对数据进行强化学习，学习如何优化传感器的位置和关系以达到最优的***性能；所述强化学习过程中的策略是一个从状态/>到行动/>的映射/>，用于优化回报函数/>，状态/>为所有传感器的传感数据，行动/>用于调整传感器的位置和状态，/>为网络参数，回报函数/>表示***性能；强化学习的目标是找到最优策略/>，使得对于所有状态/>，都有：/>，

其中，表示期望，/>是指在已知状态/>和策略/>条件下的回报函数/>的期望；

步骤4，根据最优策略，中心服务器向边缘计算节点发送指令，指导各个传感器调整位置和状态；

步骤5，传感器位置调整后，中心服务器再次进行强化学习，如此反复，直到获得最优部署位置，其中，/>表示第/>次迭代后的状态，表示第/>次迭代的策略。

进一步地，所述的边缘计算节点进行边缘计算，包括以下步骤：

对于温度数据，边缘计算包括去除噪声和平滑处理，以减少异常值对结果的影响，设第个传感器的温度数据为/>，边缘计算函数为/>=/>，/>、/>、为加权因子，根据实验数据设置，边缘计算结果为/>；

对于湿度数据，边缘计算包括去除噪声和归一化处理，对于第个传感器的湿度数据为/>，边缘计算函数为/>，其中maxH为该传感器的湿度数据最大值，计算结果为/>；

对于位置数据，边缘计算包括传感器与网络中心夹角和设备间距离计算，对于第个传感器的位置坐标数据为/>，其边缘计算函数为/>,，/>为第/>个传感器与网络中心的夹角，/>为第/>个传感器与网络中心的距离，计算结果为/>；

对于能效数据，边缘计算包括能效统计和设备功耗评估，对于第个传感器的能效数据为/>，边缘计算函数为

，/>是第i个传感器在一定时间间隔内的能效统计值，M是传感器总数，/>是功耗显著度，/>，边缘计算结果为/>，/>为第i个传感器在一定时间间隔内的能效数据平均值；

对于信号数据，边缘计算包括信号质量评估和干扰源检测，对于第个传感器的误码率为/>，边缘计算函数为/>，/>为第/>个传感器的接收信号强度，/>为第/>个传感器的接收信号强度，/>为第/>个传感器的信噪比最大值，/>为第/>个传感器的信噪比最大值，/>为一定时间内第/>个传感器与网络失去联系的次数，计算结果为/>；

对于图像数据，边缘计算包括特征提取，对于第个传感器的图像角点数据为/>，边缘计算函数为/>，/>为第j个角点与邻接角点的最大距离，/>为第j个角点与邻接角点的最小距离，k为第j个角点的邻接角点数量，计算结果为，并将结果压缩编码；

对于声音数据，边缘计算包括噪声滤波，对于第个传感器的声音数据为/>，其边缘计算函数为/>，N为LMS自适应滤波器阶数，/>是权系数矢量，n是时间序列，m是滤波器阶数编号，/>为输入数据的/>时刻序列值，计算结果为/>，并将结果进行声音识别。

更进一步地，所述特征提取和压缩编码还包括以下步骤：

对原始图像进行预处理，所述的预处理包括灰度化和滤波操作；

利用图像的梯度信息，寻找图像中颜色或灰度发生变化的区域进行边缘检测；

寻找图像中的角点，即在多个方向上都有变化的点，进行角点检测；

提取出尺度不变和旋转不变的特征；

结合需求选择无损压缩或有损压缩。

更进一步地，所述的噪声滤波和声音识别包括以下步骤：

对原始声音信号进行预处理，包括归一化处理、分帧处理、窗口处理；

采用适应性噪声滤波技术来去除噪声，提高声音数据的质量；

采用长短期记忆网络深度学习模型根据提取出的特征，识别出声音的内容或来源。

更进一步地，所述的回报函数综合考虑传感器网络的能耗、延时、覆盖率和数据质量：

网络的总能耗表示传感器网络消耗的总能量，通过传感器的功耗模型和通信模型来计算，能耗的权重为/>，则能耗对回报函数的贡献为/>；

延时表示数据从传感器传输到服务器的时间，通过传感器和服务器的距离，以及网络的传输速率来计算，网络的平均延时为，延时的权重为/>，则延时对回报函数的贡献为/>；

覆盖率表示传感器网络覆盖的区域比例，通过统计传感器覆盖的格点数量来计算，网络的覆盖率为，覆盖率的权重为/>，则覆盖率对回报函数的贡献为/>；

数据质量表示传感器收集的数据的质量，设网络的数据质量为，数据质量的权重为/>，则数据质量对回报函数的贡献为/>，由此，回报函数为：，其中，权重系数/>为可调参数。

更进一步地，所述的强化学习的过程，学习如何优化传感器的位置和状态以达到最优的***性能，具体包括以下步骤：

初始化Actor网络和Critic网络/>，复制这两个网络得到目标网络/>和/>，初始化经验回放缓冲区/>，所述经验回放缓冲区用于存储状态-动作-奖励-新状态四元组；

对于每个时间步，根据当前状态和策略/>，选择一个动作/>，其中/>是添加的噪声，以增加探索性，执行动作/>，观察奖励/>和新状态/>，所述奖励r为回报函数的增加值，并将转移样本/>存储到/>；

从中随机抽取一个批次的样本，记为/>；

对于每个样本，计算目标/>，/>是折扣因子，是目标网络的输出值，并更新Critic网络；

更新Actor网络；

目标网络更新：使用软更新策略更新目标网络；

如果满足终止条件：达到最大迭代次数或者回报函数的值达到预设阈值，则停止训练。

更进一步地，更新Critic网络的包括以下步骤：

计算当前Critic网络的输出和目标网络输出值/>的差的平方作为损失函数，公式如下：

其中，是Critic网络的参数；

使用梯度下降算法对Critic网络的参数进行更新，公式如下：

其中，是学习率；

在每一个时间步或者每几个时间步执行一次，以此来不断更新Critic网络的参数，从而学习到一个更好的Critic网络。

更进一步地，更新Actor网络包括以下步骤：

使用策略梯度定理，计算更新Actor网络的梯度，策略梯度通过Critic网络的梯度来计算；

使用梯度上升算法对Actor网络的参数进行更新，公式如下：

在每一个时间步或者每几个时间步执行一次，以此来不断更新Actor网络的参数，从而学习到一个更好的策略；

其中，是Actor网络的参数，/>是预期回报，是希望最大化的目标；/>是预期回报/>关于Actor网络参数的梯度；/>是学习率，决定了在每次更新步骤中，沿着梯度上升的方向移动多远。

更进一步地，所述的使用软更新策略更新目标网络包括以下步骤：

对于目标Critic网络，将其参数部分更新为原Critic网络的参数/>，具体公式如下：

是第l轮更新过程输出结果的方差，/>是第l-1轮更新输出结果的置信度；

同样地，对于目标Actor网络，将其参数部分更新为原Actor网络的参数/>，具体公式如下：

其中，是第l轮更新的软更新的因子，计算如下：

；

是第l-1轮更新输出结果的置信度，/>是第l-1轮更新输出结果的均值，是第l-1轮更新输出结果的方差，/>是第l-1轮更新输出结果的方差与均值比；

以上的更新过程在每一个时间步或者每几个时间步执行一次，以此来不断地更新目标网络的参数，使其慢慢靠近原网络的参数；是目标Critic网络的参数；/>是原Critic网络的参数；/>是目标Actor网络的参数；/>是原Actor网络的参数；/>是软更新的因子，决定了新的参数在每轮迭代更新过程中的权重。

与现有方法相比，本发明方法的优点在于：通过应用强化学习方法，可以实现动态和自适应的传感器部署，优化网络性能，传统的静态和手动部署方法难以适应环境的变化和需求的多样性，而本发明方法可以根据实时的环境和网络状况自动调整部署策略。通过边缘计算，可以在数据源近处进行计算，减少数据传输，节省网络带宽，提高数据处理速度，从而提高网络效率。同时，通过对各种异构数据进行适当的处理和特征提取，可以有效地利用边缘计算设备的有限资源。由于本发明方法基于学习算法，因此可以方便地扩展到更大规模的传感器网络和更复杂的环境中。而许多传统的方法由于依赖特定的模型或假设，难以处理大规模和复杂的问题。适用于各种异构传感器和多模态数据，具有很高的通用性。无论是温度、湿度、位置、能耗、信号，还是图像和声音等数据，都可以通过本发明方法进行处理和优化。

附图说明

图1本发明的框架图。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

如图1所示，基于边缘强化学习的传感器集群位置优化方法，所述方法包括：

步骤1，每个异构传感器负责收集传感数据，所述的传感数据包括温度数据、湿度数据/>、位置数据/>、能效数据/>、信号数据/>、图像数据/>和声音数据/>；定义数据集/>为所有传感器的数据集合，其中，/>表示第/>个传感器的数据，即/>；N是滤波器总数；

步骤3，各个区域的边缘计算节点将边缘计算后的数据发送到中心服务器，中心服务器对数据进行强化学习，学习如何优化传感器的位置和关系以达到最优的***性能；所述的强化学习的过程中的策略是一个从状态/>到行动/>的映射/>，用于优化回报函数/>，在此案例中，状态/>为所有传感器的传感数据，行动/>为调整传感器的位置和状态，/>为网络参数，回报函数/>表示***性能；强化学习的目标是找到最优策略/>，使得对于所有状态/>，都有：/>，这是已知/>的条件下R的条件密度函数，其中，表示期望；/>是指在已知状态/>和策略/>条件下的回报函数/>的期望。argmax是一种函数，是对函数求参数(集合)的函数。当有另一个函数y=f(x)时，若有结果x0=argmax(f(x))，则表示当函数f(x)取x=x0的时候，得到f(x)取值范围的最大值；若有多个点使得f(x)取得相同的最大值，那么argmax(f(x))的结果就是一个点集。换句话说，argmax(f(x))是使得f(x)取得最大值所对应的变量点x(或x的集合)。arg即argument，此处意为“自变量”。

以上是异构传感器集群位置优化的总体技术方案，其主要包括异构传感器数据采集、边缘计算、服务器端强化学习、传感器调整以及再次强化学习等步骤。通过这种方法，可以实现传感器集群的自主优化和自适应部署，提高***的效率和性能。

具体实施过程中可能需要根据实际环境和传感器特性，对边缘计算函数、策略/>、回报函数/>进行适当的设计和调整。

边缘计算包括数据清洗、特征提取、数据压缩等操作，目的是减小数据量和复杂性，降低通信成本。

具体地，所述的边缘计算节点进行边缘计算，包括以下步骤：

对于声音数据，边缘计算包括噪声滤波，对于第个传感器的声音数据为/>，其边缘计算函数为/>，N为LMS自适应滤波器阶数，/>是权系数矢量，n是时间序列，m是滤波器阶数编号，计算结果为/>，并将结果进行声音识别。

常用的声音特征提取方法还包括：梅尔频率倒谱系数（MFCC）：MFCC 是声音识别中最常用的特征，它可以反映人耳对声音频率的感知特性。线性预测倒谱系数（LPCC）：LPCC是另一种常用的声音特征，它可以反映声音的共振峰信息。

声音识别：声音识别的目标是根据提取出的特征，识别出声音的内容或来源。常用的声音识别方法包括：隐藏马尔可夫模型（HMM）：HMM 是声音识别中最常用的方法，它可以有效处理声音信号的时序特性。

具体地，所述的特征提取和压缩编码包括以下步骤：

利用图像的梯度信息，寻找图像中颜色或灰度发生变化的区域进行边缘检测；边缘检测算法在对图像的边缘进行检测时，先大概检测出图像轮廓的一些像素，然后通过一些连接规则将那些像素点连接起来，最后再检测并连接一些之前未被识别的边界点、去除检测到的虚假的像素点和边界点并形成一个整体的边缘。然而在实际的图像中，边缘往往是各种类型的东西或模糊的风景的边缘，同时实际图像中可能存在着噪声，噪声和边缘同属于高频率的信号信息。目前常用的边缘检测模型有很多：一阶的有Roberts算子，Prewitt算子，Sobel算子，Canny算子等；二阶的有Laplacian算子等。图像的边缘检测是基于图像的梯度来实现的，而获得图像的梯度就转化成使用各种算子对图像进行卷积运算来获得的。

寻找图像中的角点，即在多个方向上都有变化的点，进行角点检测；角点检测算法可归纳为3类：基于灰度图像的角点检测、基于二值图像的角点检测、基于轮廓曲线的角点检测。基于灰度图像的角点检测又可分为基于梯度、基于模板和基于模板梯度组合3类方法，其中基于模板的方法主要考虑像素领域点的灰度变化，即图像亮度的变化，将与邻点亮度对比足够大的点定义为角点。常见的基于模板的角点检测算法有Kitchen-Rosenfeld角点检测算法，Harris角点检测算法、KLT角点检测算法及SUSAN角点检测算法。

提取出尺度不变和旋转不变的特征；

结合需求选择无损压缩或有损压缩。对于如图表或者漫画优先使用无损压缩，这是因为有损压缩方法，尤其是在低的位速条件下将会带来压缩失真。如医疗图像或者用于存档的扫描图像等这些有价值的内容的压缩也尽量选择无损压缩方法。有损方法非常适合于自然的图像，例如一些应用中图像的微小损失是可以接受的（有时是无法感知的），这样就可以大幅度地减小位速。

具体地，所述的噪声滤波和声音识别包括以下步骤：

采用适应性噪声滤波技术来去除噪声，提高声音数据的质量；示例性地，可选择现有技术中的基于最小二乘自适应滤波LMS等方法去除噪声。

具体地，所述的回报函数综合考虑传感器网络的能耗、延时、覆盖率和数据质量：

能耗表示传感器网络消耗的总能量，通过传感器的功耗模型和通信模型来计算，示例性地，现有技术中的功耗模型有MOSFET功耗模型，通信模型有衰减传播模型、自由空间传播模型等，因此本发明中的能耗计算方法可参照现有技术的方法进行，本发明不再赘述。设网络的总能耗为，能耗的权重为/>，则能耗对回报函数的贡献为/>；延时表示数据从传感器传输到服务器的时间，通过传感器和服务器的距离，以及网络的传输速率来计算，设网络的平均延时为/>，延时的权重为/>，则延时对回报函数的贡献为/>；覆盖率表示传感器网络覆盖的区域比例，通过统计传感器覆盖的格点数量来计算，设网络的覆盖率为/>，覆盖率的权重为/>，则覆盖率对回报函数的贡献为/>；数据质量表示传感器收集的数据的质量，设网络的数据质量为/>，数据质量的权重为/>，则数据质量对回报函数的贡献为/>，由此，回报函数为：/>，其中，权重系数/>为可调参数。

上述的回报函数是一种简化的模型，其他实施例中可能需要根据具体的场景和需求进行调整和优化。例如，对于延时和数据质量，可能需要考虑不同类型的数据（如图像、声音等）的特性和需求。

初始化Actor网络和Critic网络/>，复制这两个网络得到目标网络/>和/>，初始化经验回放缓冲区/>；

对于每个时间步，根据当前状态和策略/>，选择一个动作/>，其中/>是添加的噪声，以增加探索性，执行动作/>，观察奖励/>和新状态/>，并将转移样本/>存储到/>；

从中随机抽取一个批次的样本，记为/>；

更新Actor网络；

目标网络更新：使用软更新策略更新目标网络；

Critic网络的目标是学习评估一个给定状态动作对的Q值，这个值也就是我们从这个状态开始，选择这个动作，然后遵循我们的策略的预期回报。

具体地，更新Critic网络的包括以下步骤：

其中，是Critic网络的参数；

使用梯度下降算法对Critic网络的参数进行更新，公式如下：

其中，是学习率；参数更新公式中左边表示更新后的参数，右边表示更新前的参数，这是神经网络定义常用的表达方式。

具体地，更新Actor网络包括以下步骤：

使用策略梯度定理，计算更新Actor网络的梯度，策略梯度通过Critic网络的梯度来计算，公式如下：

使用梯度上升算法对Actor网络的参数进行更新，公式如下：

其中，是Actor网络的参数，即神经网络中的超参数，/>是预期回报，是希望最大化的目标；/>是从经验回放缓冲区/>中随机抽取的一批样本；/>是Critic网络的输出，即给定状态/>和动作/>的Q值；/>是Q值关于动作/>的梯度；/>是Actor网络的输出，即给定状态/>的动作；/>是策略函数关于Actor网络参数的梯度；/>是预期回报/>关于Actor网络参数的梯度；/>是学习率，决定了在每次更新步骤中，沿着梯度上升的方向移动多远。

为了提高算法的稳定性，使用了目标网络，并采用了软更新策略来更新这些目标网络。这意味着在更新网络参数时，不是直接使用新的参数替换旧的参数，而是用新的参数部分替换旧的参数。

/>

其中，是第l轮更新的软更新的因子，计算如下：

；

是目标Critic网络的参数；/>是原Critic网络的参数；/>是目标Actor网络的参数；/>是原Actor网络的参数；/>是软更新的因子，决定了新的参数在更新过程中的权重。

以上的更新过程在每一个时间步或者每几个时间步执行一次，以此来不断地更新目标网络的参数，使其慢慢靠近原网络的参数。与现有技术不同的是，本发明中的软更新因子在每轮更新中动态调整，可以更快得到更新结果。

所述的传感器的状态包括传输功率和检测方向。

与现有方法相比，本发明方法的优点在于：

通过应用强化学习方法，可以实现动态和自适应的传感器部署，优化网络性能，传统的静态和手动部署方法难以适应环境的变化和需求的多样性，而本发明方法可以根据实时的环境和网络状况自动调整部署策略。通过边缘计算，可以在数据源近处进行计算，减少数据传输，节省网络带宽，提高数据处理速度，从而提高网络效率。同时，通过对各种异构数据进行适当的处理和特征提取，可以有效地利用边缘计算设备的有限资源。由于本发明方法基于学习算法，因此可以方便地扩展到更大规模的传感器网络和更复杂的环境中。而许多传统的方法由于依赖特定的模型或假设，难以处理大规模和复杂的问题。适用于各种异构传感器和多模态数据，具有很高的通用性。无论是温度、湿度、位置、能耗、信号，还是图像和声音等数据，都可以通过本发明方法进行处理和优化。

本文所使用的词语“优选的”意指用作实例、示例或例证。本文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反，词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即，除非另外指定或从上下文中清楚，“X使用A或B”意指自然包括排列的任意一个。即，如果X使用A；X使用B；或X使用A和B二者，则“X使用A或B”在前述任一示例中得到满足。

而且，尽管已经相对于一个或实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示)，即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

本发明实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。上述的各装置或***，可以执行相应方法实施例中的存储方法。

综上所述，上述实施例为本发明的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于边缘强化学习的传感器集群位置优化方法，其特征在于，包括以下步骤：

步骤1，每个异构传感器负责收集传感数据，所述的传感数据包括温度数据T、湿度数据H、位置数据L、能效数据E、信号数据S、图像数据I和声音数据A；定义数据集D为所有传感器的数据集合，其中，D_i表示第i个传感器的数据，即D＝D₁,D₂,...,D_N，N为传感器数量；

步骤2，每个预定区域设置一个边缘计算节点，区域中的异构传感器将收集到的传感数据传输到边缘计算节点进行边缘计算，以降低传输数据的复杂性和通信成本，

其中，所述的边缘计算节点进行边缘计算，包括以下步骤：

对于温度数据，边缘计算包括去除噪声和平滑处理，以减少异常值对结果的影响，设第i个传感器的温度数据为T_i，边缘计算函数为 α₀、α₁、α₂为加权因子，预设为0.3,0.3,0.5,边缘计算结果为C_T,i＝f_T(T_i)；

对于湿度数据，边缘计算包括去除噪声和归一化处理，对于第i个传感器的湿度数据为H_i，边缘计算函数为其中maxH为该传感器的湿度数据最大值，计算结果为G_H,i＝f_H(H_i)；

对于位置数据，边缘计算包括传感器与网络中心夹角和设备间距离计算，对于第i个传感器的位置坐标数据为L_i，其边缘计算函数为α_i为第i个传感器与网络中心的夹角，d_i为第i个传感器与网络中心的距离，计算结果为C_L,i＝f_L(L_i)；

对于能效数据，边缘计算包括能效统计和设备功耗评估，对于第i个传感器的能效数据为E_i，边缘计算函数为γ_i是第i个传感器在预设时间周期的能效统计值，M是传感器总数，δ_i是功耗显著度，/>边缘计算结果为C_E,i＝f_E(E_i)，μ_ei为第i个传感器在一定时间间隔内的能效数据平均值；

对于信号数据，边缘计算包括信号质量评估和干扰源检测，对于第i个传感器的误码率为S_i，边缘计算函数为RSSI_i为第i个传感器的接收信号强度，RSSI_imax为第i个传感器的接收信号强度，SNR_i为第i个传感器的信噪比，SNR_imax为第i个传感器的信噪比最大值，ε_i为一定时间内第i个传感器与网络失去联系的次数，计算结果为C_S,i＝f_S(S_i)；

对于图像数据，边缘计算包括特征提取，对于第i个传感器的图像角点数据为I_i，边缘计算函数为为第j个角点与邻接角点的最大距离，/>为第j个角点与邻接角点的最小距离，k为第j个角点的邻接角点数量，所述邻接角点为该角点在预设距离内的相邻角点，计算结果为C_I,i＝f_I(I_i)，并将结果压缩编码；

对于声音数据，边缘计算包括噪声滤波，对于第i个传感器的声音数据为A_i，其边缘计算函数为M为LMS自适应滤波器阶数，w_m是权系数矢量，w_m(n)为权系数，n是时间序列，A_i(n-m)为输入数据的n-m时刻序列值，m是滤波器阶数编号，计算结果为C_A,i＝f_A(A_i)，并将结果进行声音识别；

步骤3，各个区域的边缘计算节点将边缘计算后的数据发送到中心服务器，所述中心服务器对数据进行强化学习，学习如何优化传感器的位置和关系以达到最优的***性能；所述强化学习过程中的策略π是一个从状态s到行动a的映射π＝(a|s,θ)，用于优化回报函数R，状态s为所有传感器的传感数据，行动a用于调整传感器的位置和状态，θ为网络参数，回报函数R表示***性能；强化学习的目标是找到最优策略π^*，使得对于所有状态s，都有：

其中，E[·]表示期望，E[R|s,π]是指在已知状态s和策略π条件下的回报函数R的期望；

步骤4，根据最优策略π^*，中心服务器向边缘计算节点发送指令，指导各个传感器调整位置和状态；

步骤5，传感器位置调整后，中心服务器再次进行强化学习，如此反复，直到获得最优部署位置，t＝0,1,2,...，其中，s^t表示第t次迭代后的状态，π^t+1表示第t+1次迭代的策略。

2.根据权利要求1所述的基于边缘强化学习的传感器集群位置优化方法，其特征在于，所述特征提取和压缩编码还包括以下步骤：

提取出尺度不变和旋转不变的特征；

结合需求选择无损压缩或有损压缩。

3.根据权利要求2所述的基于边缘强化学习的传感器集群位置优化方法，其特征在于，所述的噪声滤波和声音识别包括以下步骤：

4.根据权利要求3所述的基于边缘强化学习的传感器集群位置优化方法，其特征在于，所述的回报函数综合考虑传感器网络的能耗、延时、覆盖率和数据质量：

网络的总能耗E表示传感器网络消耗的总能量，通过传感器的功耗模型和通信模型来计算，能耗的权重为w_E，则能耗对回报函数的贡献为-w_E·E；

延时表示数据从传感器传输到服务器的时间，通过传感器和服务器的距离，以及网络的传输速率来计算，网络的平均延时为D，延时的权重为w_D，则延时对回报函数的贡献为-w_D·D；

覆盖率表示传感器网络覆盖的区域比例，通过统计传感器覆盖的格点数量来计算，网络的覆盖率为C，覆盖率的权重为w_C，则覆盖率对回报函数的贡献为w_C·C；

数据质量表示传感器收集的数据的质量，设网络的数据质量为Q，数据质量的权重为w_Q，则数据质量对回报函数的贡献为w_Q·Q，由此，回报函数为：R＝-w_E·E-w_D·D+w_C·C+w_Q·Q，其中，权重系数w_E,w_D,w_C,w_Q为可调参数。

5.根据权利要求4所述的基于边缘强化学习的传感器集群位置优化方法，其特征在于，所述的强化学习的过程，学习如何优化传感器的位置和状态以达到最优的***性能，具体包括以下步骤：

初始化Actor网络π和Critic网络Q，复制这两个网络得到目标网络π′和Q′，初始化经验回放缓冲区所述经验回放缓冲区用于存储状态-动作-奖励-新状态四元组；

对于每个时间步，根据当前状态s和策略π，选择一个动作其中/>是添加的噪声，以增加探索性，执行动作a，观察奖励r和新状态s′，所述奖励r为回报函数的增加值，并将转移样本(s，a，r，s′)存储到/>

从中随机抽取一个批次的样本，记为/>

对于每个样本计算目标y＝r+γQ′(s′，π′(s′))，γ是折扣因子，Q′(s′，π′(s′))是目标网络的输出值，并更新Critic网络；

更新Actor网络；

目标网络更新：使用软更新策略更新目标网络；

6.根据权利要求5所述的基于边缘强化学习的传感器集群位置优化方法，其特征在于，更新Critic网络的包括以下步骤：

计算当前Critic网络的输出Q(s，a)和目标网络输出值Q′(s′，π′(s′))的差的平方作为损失函数，公式如下：

其中，θ^Q是Critic网络的参数；

使用梯度下降算法对Critic网络的参数进行更新，公式如下：

其中，α是学习率；

在每一个时间步或者每几个时间步执行一次，以此来不断更新Critic网络的参数，从而学习到一个更好的Critic网络Q。

7.根据权利要求6所述的基于边缘强化学习的传感器集群位置优化方法，其特征在于，更新Actor网络包括以下步骤：

使用梯度上升算法对Actor网络的参数进行更新，公式如下：

其中，θ^π是Actor网络的参数，J是预期回报，是希望最大化的目标；是预期回报J关于Actor网络参数的梯度；α是学习率，决定了在每次更新步骤中，沿着梯度上升的方向移动多远。

8.根据权利要求7所述的基于边缘强化学习的传感器集群位置优化方法，其特征在于，所述的使用软更新策略更新目标网络包括以下步骤：

对于目标Critic网络，将其参数θ^Q′部分更新为原Critic网络的参数θ^Q，具体公式如下：

θ^Q′＝τ^lθ^Q+(1-τ^l)θ^Q′

同样地，对于目标Actor网络，将其参数θ^π′部分更新为原Actor网络的参数θ^π，具体公式如下：

其中，τ^l是第l轮更新的软更新的因子，计算如下：

是第l-1轮更新输出结果的置信度，/>是第l-1轮更新输出结果的均值，/>是第l-1轮更新输出结果的方差，/>是第l-1轮更新输出结果的方差与均值比；

以上的更新过程在每一个时间步或者每几个时间步执行一次，以此来不断地更新目标网络的参数，使其慢慢靠近原网络的参数；θ^Q′是目标Critic网络的参数；θ^Q是原Critic网络的参数；θ^π′是目标Actor网络的参数；θ^π是原Actor网络的参数；τ^l是软更新的因子，决定了新的参数在每轮迭代更新过程中的权重。