CN117527570B - 基于边缘强化学习的传感器集群位置优化方法 - Google Patents

基于边缘强化学习的传感器集群位置优化方法 Download PDF

Info

Publication number
CN117527570B
CN117527570B CN202311735253.9A CN202311735253A CN117527570B CN 117527570 B CN117527570 B CN 117527570B CN 202311735253 A CN202311735253 A CN 202311735253A CN 117527570 B CN117527570 B CN 117527570B
Authority
CN
China
Prior art keywords
network
data
sensor
edge
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311735253.9A
Other languages
English (en)
Other versions
CN117527570A (zh
Inventor
时广轶
王川
王春波
李文荣
金玉丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Bewis Sensing Technology Co ltd
Original Assignee
Wuxi Bewis Sensing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Bewis Sensing Technology Co ltd filed Critical Wuxi Bewis Sensing Technology Co ltd
Priority to CN202311735253.9A priority Critical patent/CN117527570B/zh
Publication of CN117527570A publication Critical patent/CN117527570A/zh
Application granted granted Critical
Publication of CN117527570B publication Critical patent/CN117527570B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0876Aspects of the degree of configuration automation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Automation & Control Theory (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于通信技术领域,公开了基于边缘强化学习的传感器集群位置优化方法,方法包括:每个异构传感器负责收集传感数据;每个预定区域设置一个边缘计算节点,区域中的异构传感器将收集到的传感数据传输到边缘计算节点进行边缘计算;各个区域的边缘计算节点将边缘计算后的数据发送到中心服务器,中心服务器对数据进行强化学习,学习如何优化传感器的位置和关系以达到最优的***性能;根据最优策略,中心服务器向边缘计算节点发送指令,指导各个传感器调整位置和状态;传感器位置调整后,中心服务器再次进行强化学习直到获得最优部署位置。本发明通过边缘计算,在数据源近处进行计算,节省网络带宽,提高数据处理速度,提高网络效率。

Description

基于边缘强化学习的传感器集群位置优化方法
技术领域
本发明属于传感器集群及物联网技术领域,尤其涉及基于边缘强化学习的传感器集群位置优化方法。
背景技术
物联网 (IoT) 是近年来快速发展的一个领域,涵盖了多种设备和传感器的网络连接。异构传感器网络,由于其可以收集多模态的异构数据,例如温度、湿度、位置、能效、信号、图像和声音等,已经在多个领域,如智能家居、环境监测、精准农业、工业自动化等,得到了广泛的应用。
在这些应用中,传感器的位置部署是影响传感器网络性能的关键因素。合理的部署可以提高网络的覆盖范围、信号质量、数据质量,同时减少能耗,延长网络寿命。传统的传感器部署方法通常采用静态的、手动的方式,不能很好地应对复杂和动态的环境条件。为此,需要设计一种自适应、智能的传感器部署方案。
边缘计算是处理异构传感器数据的有效方式,将计算任务靠近数据源进行,可以降低传输延时,提高数据处理速度,降低网络负载,提升用户体验。然而,边缘计算设备的计算资源有限,如何有效利用这些资源,进行有效的数据处理和特征提取,是一大挑战。
强化学习是一种基于反馈的机器学习方法,通过在环境中不断试错,更新策略,最终获得最优策略。在处理传感器位置优化问题上,可以通过强化学习算法,自动寻找最优的部署策略。然而,由于异构传感器网络的复杂性和动态性,如何设计有效的强化学习算法,找到最优的部署策略,是一个难题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了基于边缘强化学习的传感器集群位置优化方法。本发明利用边缘计算进行快速的数据处理和优化策略生成,利用深度确定性策略梯度算法进行传感器位置的优化,以实现在复杂的异构传感器网络环境中进行有效的传感器部署和管理。
本发明的目的是通过如下技术方案实现的,提出的基于边缘强化学习的传感器集群位置优化方法包括:
步骤1,每个异构传感器负责收集传感数据,所述的传感数据包括温度数据、湿度数据/>、位置数据/>、能效数据/>、信号数据/>、图像数据/>和声音数据/>;定义数据集/>为所有传感器的数据集合,其中,/>表示第/>个传感器的数据,即/>N为传感器数量;
步骤2,每个预定区域设置一个边缘计算节点,区域中的异构传感器将收集到的传感数据传输到边缘计算节点进行边缘计算,以降低传输数据的复杂性和通信成本,定义为边缘计算函数,即/>,其中,/>是第/>个传感器的计算结果;
步骤3,各个区域的边缘计算节点将边缘计算后的数据发送到中心服务器,所述中心服务器对数据进行强化学习,学习如何优化传感器的位置和关系以达到最优的***性能;所述强化学习过程中的策略是一个从状态/>到行动/>的映射/>,用于优化回报函数/>,状态/>为所有传感器的传感数据,行动/>用于调整传感器的位置和状态,/>为网络参数,回报函数/>表示***性能;强化学习的目标是找到最优策略/>,使得对于所有状态/>,都有:/>
其中,表示期望,/>是指在已知状态/>和策略/>条件下的回报函数/>的期望;
步骤4,根据最优策略,中心服务器向边缘计算节点发送指令,指导各个传感器调整位置和状态;
步骤5,传感器位置调整后,中心服务器再次进行强化学习,如此反复,直到获得最优部署位置,其中,/>表示第/>次迭代后的状态,表示第/>次迭代的策略。
进一步地,所述的边缘计算节点进行边缘计算,包括以下步骤:
对于温度数据,边缘计算包括去除噪声和平滑处理,以减少异常值对结果的影响,设第个传感器的温度数据为/>,边缘计算函数为/>=/>,/>、/>为加权因子,根据实验数据设置,边缘计算结果为/>
对于湿度数据,边缘计算包括去除噪声和归一化处理,对于第个传感器的湿度数据为/>,边缘计算函数为/>,其中maxH为该传感器的湿度数据最大值,计算结果为/>
对于位置数据,边缘计算包括传感器与网络中心夹角和设备间距离计算,对于第个传感器的位置坐标数据为/>,其边缘计算函数为/>,,/>为第/>个传感器与网络中心的夹角,/>为第/>个传感器与网络中心的距离,计算结果为/>
对于能效数据,边缘计算包括能效统计和设备功耗评估,对于第个传感器的能效数据为/>,边缘计算函数为
,/>是第i个传感器在一定时间间隔内的能效统计值,M是传感器总数,/>是功耗显著度,/>,边缘计算结果为/>,/>为第i个传感器在一定时间间隔内的能效数据平均值;
对于信号数据,边缘计算包括信号质量评估和干扰源检测,对于第个传感器的误码率为/>,边缘计算函数为/>,/>为第/>个传感器的接收信号强度,/>为第/>个传感器的接收信号强度,/>为第/>个传感器的信噪比最大值,/>为第/>个传感器的信噪比最大值,/>为一定时间内第/>个传感器与网络失去联系的次数,计算结果为/>
对于图像数据,边缘计算包括特征提取,对于第个传感器的图像角点数据为/>,边缘计算函数为/>,/>为第j个角点与邻接角点的最大距离,/>为第j个角点与邻接角点的最小距离,k为第j个角点的邻接角点数量,计算结果为,并将结果压缩编码;
对于声音数据,边缘计算包括噪声滤波,对于第个传感器的声音数据为/>,其边缘计算函数为/>N为LMS自适应滤波器阶数,/>是权系数矢量,n是时间序列,m是滤波器阶数编号,/>为输入数据的/>时刻序列值,计算结果为/>,并将结果进行声音识别。
更进一步地,所述特征提取和压缩编码还包括以下步骤:
对原始图像进行预处理,所述的预处理包括灰度化和滤波操作;
利用图像的梯度信息,寻找图像中颜色或灰度发生变化的区域进行边缘检测;
寻找图像中的角点,即在多个方向上都有变化的点,进行角点检测;
提取出尺度不变和旋转不变的特征;
结合需求选择无损压缩或有损压缩。
更进一步地,所述的噪声滤波和声音识别包括以下步骤:
对原始声音信号进行预处理,包括归一化处理、分帧处理、窗口处理;
采用适应性噪声滤波技术来去除噪声,提高声音数据的质量;
采用长短期记忆网络深度学习模型根据提取出的特征,识别出声音的内容或来源。
更进一步地,所述的回报函数综合考虑传感器网络的能耗、延时、覆盖率和数据质量:
网络的总能耗表示传感器网络消耗的总能量,通过传感器的功耗模型和通信模型来计算,能耗的权重为/>,则能耗对回报函数的贡献为/>
延时表示数据从传感器传输到服务器的时间,通过传感器和服务器的距离,以及网络的传输速率来计算,网络的平均延时为,延时的权重为/>,则延时对回报函数的贡献为/>
覆盖率表示传感器网络覆盖的区域比例,通过统计传感器覆盖的格点数量来计算,网络的覆盖率为,覆盖率的权重为/>,则覆盖率对回报函数的贡献为/>
数据质量表示传感器收集的数据的质量,设网络的数据质量为,数据质量的权重为/>,则数据质量对回报函数的贡献为/>,由此,回报函数为:,其中,权重系数/>为可调参数。
更进一步地,所述的强化学习的过程,学习如何优化传感器的位置和状态以达到最优的***性能,具体包括以下步骤:
初始化Actor网络和Critic网络/>,复制这两个网络得到目标网络/>和/>,初始化经验回放缓冲区/>,所述经验回放缓冲区用于存储状态-动作-奖励-新状态四元组;
对于每个时间步,根据当前状态和策略/>,选择一个动作/>,其中/>是添加的噪声,以增加探索性,执行动作/>,观察奖励/>和新状态/>,所述奖励r为回报函数的增加值,并将转移样本/>存储到/>
中随机抽取一个批次的样本,记为/>
对于每个样本,计算目标/>,/>是折扣因子,是目标网络的输出值,并更新Critic网络;
更新Actor网络;
目标网络更新:使用软更新策略更新目标网络;
如果满足终止条件:达到最大迭代次数或者回报函数的值达到预设阈值,则停止训练。
更进一步地,更新Critic网络的包括以下步骤:
计算当前Critic网络的输出和目标网络输出值/>的差的平方作为损失函数,公式如下:
其中,是Critic网络的参数;
使用梯度下降算法对Critic网络的参数进行更新,公式如下:
其中,是学习率;
在每一个时间步或者每几个时间步执行一次,以此来不断更新Critic网络的参数,从而学习到一个更好的Critic网络
更进一步地,更新Actor网络包括以下步骤:
使用策略梯度定理,计算更新Actor网络的梯度,策略梯度通过Critic网络的梯度来计算;
使用梯度上升算法对Actor网络的参数进行更新,公式如下:
在每一个时间步或者每几个时间步执行一次,以此来不断更新Actor网络的参数,从而学习到一个更好的策略;
其中,是Actor网络的参数,/>是预期回报,是希望最大化的目标;/>是预期回报/>关于Actor网络参数的梯度;/>是学习率,决定了在每次更新步骤中,沿着梯度上升的方向移动多远。
更进一步地,所述的使用软更新策略更新目标网络包括以下步骤:
对于目标Critic网络,将其参数部分更新为原Critic网络的参数/>,具体公式如下:
是第l轮更新过程输出结果的方差,/>是第l-1轮更新输出结果的置信度;
同样地,对于目标Actor网络,将其参数部分更新为原Actor网络的参数/>,具体公式如下:
其中,是第l轮更新的软更新的因子,计算如下:
是第l-1轮更新输出结果的置信度,/>是第l-1轮更新输出结果的均值,是第l-1轮更新输出结果的方差,/>是第l-1轮更新输出结果的方差与均值比;
以上的更新过程在每一个时间步或者每几个时间步执行一次,以此来不断地更新目标网络的参数,使其慢慢靠近原网络的参数;是目标Critic网络的参数;/>是原Critic网络的参数;/>是目标Actor网络的参数;/>是原Actor网络的参数;/>是软更新的因子,决定了新的参数在每轮迭代更新过程中的权重。
与现有方法相比,本发明方法的优点在于:通过应用强化学习方法,可以实现动态和自适应的传感器部署,优化网络性能,传统的静态和手动部署方法难以适应环境的变化和需求的多样性,而本发明方法可以根据实时的环境和网络状况自动调整部署策略。通过边缘计算,可以在数据源近处进行计算,减少数据传输,节省网络带宽,提高数据处理速度,从而提高网络效率。同时,通过对各种异构数据进行适当的处理和特征提取,可以有效地利用边缘计算设备的有限资源。由于本发明方法基于学习算法,因此可以方便地扩展到更大规模的传感器网络和更复杂的环境中。而许多传统的方法由于依赖特定的模型或假设,难以处理大规模和复杂的问题。适用于各种异构传感器和多模态数据,具有很高的通用性。无论是温度、湿度、位置、能耗、信号,还是图像和声音等数据,都可以通过本发明方法进行处理和优化。
附图说明
图1本发明的框架图。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
如图1所示,基于边缘强化学习的传感器集群位置优化方法,所述方法包括:
步骤1,每个异构传感器负责收集传感数据,所述的传感数据包括温度数据、湿度数据/>、位置数据/>、能效数据/>、信号数据/>、图像数据/>和声音数据/>;定义数据集/>为所有传感器的数据集合,其中,/>表示第/>个传感器的数据,即/>N是滤波器总数;
步骤2,每个预定区域设置一个边缘计算节点,区域中的异构传感器将收集到的传感数据传输到边缘计算节点进行边缘计算,以降低传输数据的复杂性和通信成本,定义为边缘计算函数,即/>,其中,/>是第/>个传感器的计算结果;
步骤3,各个区域的边缘计算节点将边缘计算后的数据发送到中心服务器,中心服务器对数据进行强化学习,学习如何优化传感器的位置和关系以达到最优的***性能;所述的强化学习的过程中的策略是一个从状态/>到行动/>的映射/>,用于优化回报函数/>,在此案例中,状态/>为所有传感器的传感数据,行动/>为调整传感器的位置和状态,/>为网络参数,回报函数/>表示***性能;强化学习的目标是找到最优策略/>,使得对于所有状态/>,都有:/>,这是已知/>的条件下R的条件密度函数,其中,表示期望;/>是指在已知状态/>和策略/>条件下的回报函数/>的期望。argmax是一种函数,是对函数求参数(集合)的函数。当有另一个函数y=f(x)时,若有结果x0=argmax(f(x)),则表示当函数f(x)取x=x0的时候,得到f(x)取值范围的最大值;若有多个点使得f(x)取得相同的最大值,那么argmax(f(x))的结果就是一个点集。换句话说,argmax(f(x))是使得f(x)取得最大值所对应的变量点x(或x的集合)。argargument,此处意为“自变量”。
步骤4,根据最优策略,中心服务器向边缘计算节点发送指令,指导各个传感器调整位置和状态;
步骤5,传感器位置调整后,中心服务器再次进行强化学习,如此反复,直到获得最优部署位置,其中,/>表示第/>次迭代后的状态,表示第/>次迭代的策略。
以上是异构传感器集群位置优化的总体技术方案,其主要包括异构传感器数据采集、边缘计算、服务器端强化学习、传感器调整以及再次强化学习等步骤。通过这种方法,可以实现传感器集群的自主优化和自适应部署,提高***的效率和性能。
具体实施过程中可能需要根据实际环境和传感器特性,对边缘计算函数、策略/>、回报函数/>进行适当的设计和调整。
边缘计算包括数据清洗、特征提取、数据压缩等操作,目的是减小数据量和复杂性,降低通信成本。
具体地,所述的边缘计算节点进行边缘计算,包括以下步骤:
对于温度数据,边缘计算包括去除噪声和平滑处理,以减少异常值对结果的影响,设第个传感器的温度数据为/>,边缘计算函数为/>=/>,/>、/>为加权因子,根据实验数据设置,边缘计算结果为/>
对于湿度数据,边缘计算包括去除噪声和归一化处理,对于第个传感器的湿度数据为/>,边缘计算函数为/>,其中maxH为该传感器的湿度数据最大值,计算结果为/>
对于位置数据,边缘计算包括传感器与网络中心夹角和设备间距离计算,对于第个传感器的位置坐标数据为/>,其边缘计算函数为/>,,/>为第/>个传感器与网络中心的夹角,/>为第/>个传感器与网络中心的距离,计算结果为/>
对于能效数据,边缘计算包括能效统计和设备功耗评估,对于第个传感器的能效数据为/>,边缘计算函数为
,/>是第i个传感器在一定时间间隔内的能效统计值,M是传感器总数,/>是功耗显著度,/>,边缘计算结果为/>,/>为第i个传感器在一定时间间隔内的能效数据平均值;
对于信号数据,边缘计算包括信号质量评估和干扰源检测,对于第个传感器的误码率为/>,边缘计算函数为/>,/>为第/>个传感器的接收信号强度,/>为第/>个传感器的接收信号强度,/>为第/>个传感器的信噪比最大值,/>为第/>个传感器的信噪比最大值,/>为一定时间内第/>个传感器与网络失去联系的次数,计算结果为/>
对于图像数据,边缘计算包括特征提取,对于第个传感器的图像角点数据为/>,边缘计算函数为/>,/>为第j个角点与邻接角点的最大距离,/>为第j个角点与邻接角点的最小距离,k为第j个角点的邻接角点数量,计算结果为,并将结果压缩编码;
对于声音数据,边缘计算包括噪声滤波,对于第个传感器的声音数据为/>,其边缘计算函数为/>,N为LMS自适应滤波器阶数,/>是权系数矢量,n是时间序列,m是滤波器阶数编号,计算结果为/>,并将结果进行声音识别。
常用的声音特征提取方法还包括:梅尔频率倒谱系数(MFCC):MFCC 是声音识别中最常用的特征,它可以反映人耳对声音频率的感知特性。线性预测倒谱系数(LPCC):LPCC是另一种常用的声音特征,它可以反映声音的共振峰信息。
声音识别:声音识别的目标是根据提取出的特征,识别出声音的内容或来源。常用的声音识别方法包括:隐藏马尔可夫模型(HMM):HMM 是声音识别中最常用的方法,它可以有效处理声音信号的时序特性。
具体地,所述的特征提取和压缩编码包括以下步骤:
对原始图像进行预处理,所述的预处理包括灰度化和滤波操作;
利用图像的梯度信息,寻找图像中颜色或灰度发生变化的区域进行边缘检测;边缘检测算法在对图像的边缘进行检测时,先大概检测出图像轮廓的一些像素,然后通过一些连接规则将那些像素点连接起来,最后再检测并连接一些之前未被识别的边界点、去除检测到的虚假的像素点和边界点并形成一个整体的边缘。然而在实际的图像中,边缘往往是各种类型的东西或模糊的风景的边缘,同时实际图像中可能存在着噪声,噪声和边缘同属于高频率的信号信息。目前常用的边缘检测模型有很多:一阶的有Roberts算子,Prewitt算子,Sobel算子,Canny算子等;二阶的有Laplacian算子等。图像的边缘检测是基于图像的梯度来实现的,而获得图像的梯度就转化成使用各种算子对图像进行卷积运算来获得的。
寻找图像中的角点,即在多个方向上都有变化的点,进行角点检测;角点检测算法可归纳为3类:基于灰度图像的角点检测、基于二值图像的角点检测、基于轮廓曲线的角点检测。基于灰度图像的角点检测又可分为基于梯度、基于模板和基于模板梯度组合3类方法,其中基于模板的方法主要考虑像素领域点的灰度变化,即图像亮度的变化,将与邻点亮度对比足够大的点定义为角点。常见的基于模板的角点检测算法有Kitchen-Rosenfeld角点检测算法,Harris角点检测算法、KLT角点检测算法及SUSAN角点检测算法。
提取出尺度不变和旋转不变的特征;
结合需求选择无损压缩或有损压缩。对于如图表或者漫画优先使用无损压缩,这是因为有损压缩方法,尤其是在低的位速条件下将会带来压缩失真。如医疗图像或者用于存档的扫描图像等这些有价值的内容的压缩也尽量选择无损压缩方法。有损方法非常适合于自然的图像,例如一些应用中图像的微小损失是可以接受的(有时是无法感知的),这样就可以大幅度地减小位速。
具体地,所述的噪声滤波和声音识别包括以下步骤:
对原始声音信号进行预处理,包括归一化处理、分帧处理、窗口处理;
采用适应性噪声滤波技术来去除噪声,提高声音数据的质量;示例性地,可选择现有技术中的基于最小二乘自适应滤波LMS等方法去除噪声。
采用长短期记忆网络深度学习模型根据提取出的特征,识别出声音的内容或来源。
具体地,所述的回报函数综合考虑传感器网络的能耗、延时、覆盖率和数据质量:
能耗表示传感器网络消耗的总能量,通过传感器的功耗模型和通信模型来计算,示例性地,现有技术中的功耗模型有MOSFET功耗模型,通信模型有衰减传播模型、自由空间传播模型等,因此本发明中的能耗计算方法可参照现有技术的方法进行,本发明不再赘述。设网络的总能耗为,能耗的权重为/>,则能耗对回报函数的贡献为/>;延时表示数据从传感器传输到服务器的时间,通过传感器和服务器的距离,以及网络的传输速率来计算,设网络的平均延时为/>,延时的权重为/>,则延时对回报函数的贡献为/>;覆盖率表示传感器网络覆盖的区域比例,通过统计传感器覆盖的格点数量来计算,设网络的覆盖率为/>,覆盖率的权重为/>,则覆盖率对回报函数的贡献为/>;数据质量表示传感器收集的数据的质量,设网络的数据质量为/>,数据质量的权重为/>,则数据质量对回报函数的贡献为/>,由此,回报函数为:/>,其中,权重系数/>为可调参数。
上述的回报函数是一种简化的模型,其他实施例中可能需要根据具体的场景和需求进行调整和优化。例如,对于延时和数据质量,可能需要考虑不同类型的数据(如图像、声音等)的特性和需求。
更进一步地,所述的强化学习的过程,学习如何优化传感器的位置和状态以达到最优的***性能,具体包括以下步骤:
初始化Actor网络和Critic网络/>,复制这两个网络得到目标网络/>和/>,初始化经验回放缓冲区/>
对于每个时间步,根据当前状态和策略/>,选择一个动作/>,其中/>是添加的噪声,以增加探索性,执行动作/>,观察奖励/>和新状态/>,并将转移样本/>存储到/>
中随机抽取一个批次的样本,记为/>
对于每个样本,计算目标/>,/>是折扣因子,是目标网络的输出值,并更新Critic网络;
更新Actor网络;
目标网络更新:使用软更新策略更新目标网络;
如果满足终止条件:达到最大迭代次数或者回报函数的值达到预设阈值,则停止训练。
Critic网络的目标是学习评估一个给定状态动作对的Q值,这个值也就是我们从这个状态开始,选择这个动作,然后遵循我们的策略的预期回报。
具体地,更新Critic网络的包括以下步骤:
计算当前Critic网络的输出和目标网络输出值/>的差的平方作为损失函数,公式如下:
其中,是Critic网络的参数;
使用梯度下降算法对Critic网络的参数进行更新,公式如下:
其中,是学习率;参数更新公式中左边表示更新后的参数,右边表示更新前的参数,这是神经网络定义常用的表达方式。
在每一个时间步或者每几个时间步执行一次,以此来不断更新Critic网络的参数,从而学习到一个更好的Critic网络
具体地,更新Actor网络包括以下步骤:
使用策略梯度定理,计算更新Actor网络的梯度,策略梯度通过Critic网络的梯度来计算,公式如下:
使用梯度上升算法对Actor网络的参数进行更新,公式如下:
在每一个时间步或者每几个时间步执行一次,以此来不断更新Actor网络的参数,从而学习到一个更好的策略;
其中,是Actor网络的参数,即神经网络中的超参数,/>是预期回报,是希望最大化的目标;/>是从经验回放缓冲区/>中随机抽取的一批样本;/>是Critic网络的输出,即给定状态/>和动作/>的Q值;/>是Q值关于动作/>的梯度;/>是Actor网络的输出,即给定状态/>的动作;/>是策略函数关于Actor网络参数的梯度;/>是预期回报/>关于Actor网络参数的梯度;/>是学习率,决定了在每次更新步骤中,沿着梯度上升的方向移动多远。
为了提高算法的稳定性,使用了目标网络,并采用了软更新策略来更新这些目标网络。这意味着在更新网络参数时,不是直接使用新的参数替换旧的参数,而是用新的参数部分替换旧的参数。
更进一步地,所述的使用软更新策略更新目标网络包括以下步骤:
对于目标Critic网络,将其参数部分更新为原Critic网络的参数/>,具体公式如下:
/>
是第l轮更新过程输出结果的方差,/>是第l-1轮更新输出结果的置信度;
同样地,对于目标Actor网络,将其参数部分更新为原Actor网络的参数/>,具体公式如下:
其中,是第l轮更新的软更新的因子,计算如下:
是第l-1轮更新输出结果的置信度,/>是第l-1轮更新输出结果的均值,是第l-1轮更新输出结果的方差,/>是第l-1轮更新输出结果的方差与均值比;
是目标Critic网络的参数;/>是原Critic网络的参数;/>是目标Actor网络的参数;/>是原Actor网络的参数;/>是软更新的因子,决定了新的参数在更新过程中的权重。
以上的更新过程在每一个时间步或者每几个时间步执行一次,以此来不断地更新目标网络的参数,使其慢慢靠近原网络的参数。与现有技术不同的是,本发明中的软更新因子在每轮更新中动态调整,可以更快得到更新结果。
所述的传感器的状态包括传输功率和检测方向。
与现有方法相比,本发明方法的优点在于:
通过应用强化学习方法,可以实现动态和自适应的传感器部署,优化网络性能,传统的静态和手动部署方法难以适应环境的变化和需求的多样性,而本发明方法可以根据实时的环境和网络状况自动调整部署策略。通过边缘计算,可以在数据源近处进行计算,减少数据传输,节省网络带宽,提高数据处理速度,从而提高网络效率。同时,通过对各种异构数据进行适当的处理和特征提取,可以有效地利用边缘计算设备的有限资源。由于本发明方法基于学习算法,因此可以方便地扩展到更大规模的传感器网络和更复杂的环境中。而许多传统的方法由于依赖特定的模型或假设,难以处理大规模和复杂的问题。适用于各种异构传感器和多模态数据,具有很高的通用性。无论是温度、湿度、位置、能耗、信号,还是图像和声音等数据,都可以通过本发明方法进行处理和优化。
本文所使用的词语“优选的”意指用作实例、示例或例证。本文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。
而且,尽管已经相对于一个或实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或***,可以执行相应方法实施例中的存储方法。
综上所述,上述实施例为本发明的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.基于边缘强化学习的传感器集群位置优化方法,其特征在于,包括以下步骤:
步骤1,每个异构传感器负责收集传感数据,所述的传感数据包括温度数据T、湿度数据H、位置数据L、能效数据E、信号数据S、图像数据I和声音数据A;定义数据集D为所有传感器的数据集合,其中,Di表示第i个传感器的数据,即D=D1,D2,...,DN,N为传感器数量;
步骤2,每个预定区域设置一个边缘计算节点,区域中的异构传感器将收集到的传感数据传输到边缘计算节点进行边缘计算,以降低传输数据的复杂性和通信成本,
其中,所述的边缘计算节点进行边缘计算,包括以下步骤:
对于温度数据,边缘计算包括去除噪声和平滑处理,以减少异常值对结果的影响,设第i个传感器的温度数据为Ti,边缘计算函数为 α0、α1、α2为加权因子,预设为0.3,0.3,0.5,边缘计算结果为CT,i=fT(Ti);
对于湿度数据,边缘计算包括去除噪声和归一化处理,对于第i个传感器的湿度数据为Hi,边缘计算函数为其中maxH为该传感器的湿度数据最大值,计算结果为GH,i=fH(Hi);
对于位置数据,边缘计算包括传感器与网络中心夹角和设备间距离计算,对于第i个传感器的位置坐标数据为Li,其边缘计算函数为αi为第i个传感器与网络中心的夹角,di为第i个传感器与网络中心的距离,计算结果为CL,i=fL(Li);
对于能效数据,边缘计算包括能效统计和设备功耗评估,对于第i个传感器的能效数据为Ei,边缘计算函数为γi是第i个传感器在预设时间周期的能效统计值,M是传感器总数,δi是功耗显著度,/>边缘计算结果为CE,i=fE(Ei),μei为第i个传感器在一定时间间隔内的能效数据平均值;
对于信号数据,边缘计算包括信号质量评估和干扰源检测,对于第i个传感器的误码率为Si,边缘计算函数为RSSIi为第i个传感器的接收信号强度,RSSIimax为第i个传感器的接收信号强度,SNRi为第i个传感器的信噪比,SNRimax为第i个传感器的信噪比最大值,εi为一定时间内第i个传感器与网络失去联系的次数,计算结果为CS,i=fS(Si);
对于图像数据,边缘计算包括特征提取,对于第i个传感器的图像角点数据为Ii,边缘计算函数为为第j个角点与邻接角点的最大距离,/>为第j个角点与邻接角点的最小距离,k为第j个角点的邻接角点数量,所述邻接角点为该角点在预设距离内的相邻角点,计算结果为CI,i=fI(Ii),并将结果压缩编码;
对于声音数据,边缘计算包括噪声滤波,对于第i个传感器的声音数据为Ai,其边缘计算函数为M为LMS自适应滤波器阶数,wm是权系数矢量,wm(n)为权系数,n是时间序列,Ai(n-m)为输入数据的n-m时刻序列值,m是滤波器阶数编号,计算结果为CA,i=fA(Ai),并将结果进行声音识别;
步骤3,各个区域的边缘计算节点将边缘计算后的数据发送到中心服务器,所述中心服务器对数据进行强化学习,学习如何优化传感器的位置和关系以达到最优的***性能;所述强化学习过程中的策略π是一个从状态s到行动a的映射π=(a|s,θ),用于优化回报函数R,状态s为所有传感器的传感数据,行动a用于调整传感器的位置和状态,θ为网络参数,回报函数R表示***性能;强化学习的目标是找到最优策略π*,使得对于所有状态s,都有:
其中,E[·]表示期望,E[R|s,π]是指在已知状态s和策略π条件下的回报函数R的期望;
步骤4,根据最优策略π*,中心服务器向边缘计算节点发送指令,指导各个传感器调整位置和状态;
步骤5,传感器位置调整后,中心服务器再次进行强化学习,如此反复,直到获得最优部署位置,t=0,1,2,...,其中,st表示第t次迭代后的状态,πt+1表示第t+1次迭代的策略。
2.根据权利要求1所述的基于边缘强化学习的传感器集群位置优化方法,其特征在于,所述特征提取和压缩编码还包括以下步骤:
对原始图像进行预处理,所述的预处理包括灰度化和滤波操作;
利用图像的梯度信息,寻找图像中颜色或灰度发生变化的区域进行边缘检测;
寻找图像中的角点,即在多个方向上都有变化的点,进行角点检测;
提取出尺度不变和旋转不变的特征;
结合需求选择无损压缩或有损压缩。
3.根据权利要求2所述的基于边缘强化学习的传感器集群位置优化方法,其特征在于,所述的噪声滤波和声音识别包括以下步骤:
对原始声音信号进行预处理,包括归一化处理、分帧处理、窗口处理;
采用适应性噪声滤波技术来去除噪声,提高声音数据的质量;
采用长短期记忆网络深度学习模型根据提取出的特征,识别出声音的内容或来源。
4.根据权利要求3所述的基于边缘强化学习的传感器集群位置优化方法,其特征在于,所述的回报函数综合考虑传感器网络的能耗、延时、覆盖率和数据质量:
网络的总能耗E表示传感器网络消耗的总能量,通过传感器的功耗模型和通信模型来计算,能耗的权重为wE,则能耗对回报函数的贡献为-wE·E;
延时表示数据从传感器传输到服务器的时间,通过传感器和服务器的距离,以及网络的传输速率来计算,网络的平均延时为D,延时的权重为wD,则延时对回报函数的贡献为-wD·D;
覆盖率表示传感器网络覆盖的区域比例,通过统计传感器覆盖的格点数量来计算,网络的覆盖率为C,覆盖率的权重为wC,则覆盖率对回报函数的贡献为wC·C;
数据质量表示传感器收集的数据的质量,设网络的数据质量为Q,数据质量的权重为wQ,则数据质量对回报函数的贡献为wQ·Q,由此,回报函数为:R=-wE·E-wD·D+wC·C+wQ·Q,其中,权重系数wE,wD,wC,wQ为可调参数。
5.根据权利要求4所述的基于边缘强化学习的传感器集群位置优化方法,其特征在于,所述的强化学习的过程,学习如何优化传感器的位置和状态以达到最优的***性能,具体包括以下步骤:
初始化Actor网络π和Critic网络Q,复制这两个网络得到目标网络π′和Q′,初始化经验回放缓冲区所述经验回放缓冲区用于存储状态-动作-奖励-新状态四元组;
对于每个时间步,根据当前状态s和策略π,选择一个动作其中/>是添加的噪声,以增加探索性,执行动作a,观察奖励r和新状态s′,所述奖励r为回报函数的增加值,并将转移样本(s,a,r,s′)存储到/>
中随机抽取一个批次的样本,记为/>
对于每个样本计算目标y=r+γQ′(s′,π′(s′)),γ是折扣因子,Q′(s′,π′(s′))是目标网络的输出值,并更新Critic网络;
更新Actor网络;
目标网络更新:使用软更新策略更新目标网络;
如果满足终止条件:达到最大迭代次数或者回报函数的值达到预设阈值,则停止训练。
6.根据权利要求5所述的基于边缘强化学习的传感器集群位置优化方法,其特征在于,更新Critic网络的包括以下步骤:
计算当前Critic网络的输出Q(s,a)和目标网络输出值Q′(s′,π′(s′))的差的平方作为损失函数,公式如下:
其中,θQ是Critic网络的参数;
使用梯度下降算法对Critic网络的参数进行更新,公式如下:
其中,α是学习率;
在每一个时间步或者每几个时间步执行一次,以此来不断更新Critic网络的参数,从而学习到一个更好的Critic网络Q。
7.根据权利要求6所述的基于边缘强化学习的传感器集群位置优化方法,其特征在于,更新Actor网络包括以下步骤:
使用策略梯度定理,计算更新Actor网络的梯度,策略梯度通过Critic网络的梯度来计算;
使用梯度上升算法对Actor网络的参数进行更新,公式如下:
在每一个时间步或者每几个时间步执行一次,以此来不断更新Actor网络的参数,从而学习到一个更好的策略;
其中,θπ是Actor网络的参数,J是预期回报,是希望最大化的目标;是预期回报J关于Actor网络参数的梯度;α是学习率,决定了在每次更新步骤中,沿着梯度上升的方向移动多远。
8.根据权利要求7所述的基于边缘强化学习的传感器集群位置优化方法,其特征在于,所述的使用软更新策略更新目标网络包括以下步骤:
对于目标Critic网络,将其参数θQ′部分更新为原Critic网络的参数θQ,具体公式如下:
θQ′=τlθQ+(1-τlQ′
是第l轮更新过程输出结果的方差,/>是第l-1轮更新输出结果的置信度;
同样地,对于目标Actor网络,将其参数θπ′部分更新为原Actor网络的参数θπ,具体公式如下:
其中,τl是第l轮更新的软更新的因子,计算如下:
是第l-1轮更新输出结果的置信度,/>是第l-1轮更新输出结果的均值,/>是第l-1轮更新输出结果的方差,/>是第l-1轮更新输出结果的方差与均值比;
以上的更新过程在每一个时间步或者每几个时间步执行一次,以此来不断地更新目标网络的参数,使其慢慢靠近原网络的参数;θQ′是目标Critic网络的参数;θQ是原Critic网络的参数;θπ′是目标Actor网络的参数;θπ是原Actor网络的参数;τl是软更新的因子,决定了新的参数在每轮迭代更新过程中的权重。
CN202311735253.9A 2023-12-18 2023-12-18 基于边缘强化学习的传感器集群位置优化方法 Active CN117527570B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311735253.9A CN117527570B (zh) 2023-12-18 2023-12-18 基于边缘强化学习的传感器集群位置优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311735253.9A CN117527570B (zh) 2023-12-18 2023-12-18 基于边缘强化学习的传感器集群位置优化方法

Publications (2)

Publication Number Publication Date
CN117527570A CN117527570A (zh) 2024-02-06
CN117527570B true CN117527570B (zh) 2024-05-17

Family

ID=89758957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311735253.9A Active CN117527570B (zh) 2023-12-18 2023-12-18 基于边缘强化学习的传感器集群位置优化方法

Country Status (1)

Country Link
CN (1) CN117527570B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106338919A (zh) * 2016-11-02 2017-01-18 哈尔滨工程大学 基于增强学习型智能算法的无人艇航迹跟踪控制方法
CN111897327A (zh) * 2020-07-14 2020-11-06 季华实验室 多移动机器人控制/分派模型获取方法、装置、电子设备
CN113759901A (zh) * 2021-08-12 2021-12-07 杭州电子科技大学 一种基于深度强化学习的移动机器人自主避障方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106338919A (zh) * 2016-11-02 2017-01-18 哈尔滨工程大学 基于增强学习型智能算法的无人艇航迹跟踪控制方法
CN111897327A (zh) * 2020-07-14 2020-11-06 季华实验室 多移动机器人控制/分派模型获取方法、装置、电子设备
CN113759901A (zh) * 2021-08-12 2021-12-07 杭州电子科技大学 一种基于深度强化学习的移动机器人自主避障方法

Also Published As

Publication number Publication date
CN117527570A (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN112424828B (zh) 一种集成空间约束的核模糊c均值快速聚类算法
Bischof et al. MDL principle for robust vector quantisation
CN108416740B (zh) 一种消除椒盐噪声的迭代自适应中值滤波方法
CN111681174A (zh) 抑制椒盐/高斯混噪目标图像的联合滤波方法
CN112508810A (zh) 非局部均值盲图像去噪方法、***及装置
CN112214342B (zh) 一种联邦学习场景中高效的错误数据检测方法
CN112163536B (zh) 基于粒子群算法改进的小波阈值函数去噪方法
CN116405109B (zh) 基于线性直驱的光模块通信自适应调制方法
CN112581973A (zh) 一种语音增强方法及***
CN114418069A (zh) 一种编码器的训练方法、装置及存储介质
CN116184988B (zh) 基于多模态数据的故障预测方法、装置、设备及存储介质
CN116091455A (zh) 基于机器视觉的钢网表面缺陷判定方法
Dorrani et al. Noisy images edge detection: Ant colony optimization algorithm
CN113222854A (zh) 一种小波变换的ct图像去噪方法
CN117527570B (zh) 基于边缘强化学习的传感器集群位置优化方法
CN117314940B (zh) 基于人工智能的激光切割零件轮廓快速分割方法
CN116543259A (zh) 一种深度分类网络噪声标签建模与纠正方法、***及存储介质
CN115761242B (zh) 一种基于卷积神经网络和模糊图像特征的去噪方法及终端机
CN112365551A (zh) 一种图像质量处理***、方法、设备和介质
CN115797212A (zh) 一种图像降噪方法、装置及存储介质
CN116167947A (zh) 一种基于噪声水平估计的图像降噪方法
CN115345872A (zh) 一种基于自适应降噪的刀具损伤灰度图像智能分类方法
CN109410214B (zh) 一种具有抗噪性和偏场校正的医学图像分割方法
CN115828120B (zh) 船舶交通行为模式自适应识别方法、***及计算机设备
CN118114031B (zh) 基于机器学习的无线电波形预测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant