CN103391548B - 基于时序差分td强化学习的无线传感网络入侵检测方法 - Google Patents

基于时序差分td强化学习的无线传感网络入侵检测方法 Download PDF

Info

Publication number
CN103391548B
CN103391548B CN201310302735.5A CN201310302735A CN103391548B CN 103391548 B CN103391548 B CN 103391548B CN 201310302735 A CN201310302735 A CN 201310302735A CN 103391548 B CN103391548 B CN 103391548B
Authority
CN
China
Prior art keywords
node
energy
intensified learning
sensing network
radio sensing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310302735.5A
Other languages
English (en)
Other versions
CN103391548A (zh
Inventor
范新南
倪建军
李敏
卞辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Campus of Hohai University
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN201310302735.5A priority Critical patent/CN103391548B/zh
Publication of CN103391548A publication Critical patent/CN103391548A/zh
Application granted granted Critical
Publication of CN103391548B publication Critical patent/CN103391548B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Alarm Systems (AREA)

Abstract

本发明专利公开了一种基于TD?(temporal?difference,时序差分)强化学***滑时间窗判定方法将其应用于分簇路由结构的无线传感网络入侵检测模型中。本发明所使用的数据均是在传输过程中节点采集的状态变量,用于强化学习的数据无需重复采集,计算和能量开销小,并且可以通过校对强化学习的学习率以调节能量预测的精度,对具有耗尽能力特征的攻击行为具有良好的检测率,具有广泛的应用价值。

Description

基于时序差分TD强化学习的无线传感网络入侵检测方法
技术领域
本发明属于无线传感网络信息安全领域,具体涉及一种改进的强化学习算法应用到无线传感网络的入侵检测中。
背景技术
无线传感网络的入侵检测通过收集传感器节点的入侵信息来实现对网络入侵者的有效识别,其功能更像是一个网络监视器和报警器,能够在入侵行为发生前或者发生时及时地向***提出警报,从而在破坏实施之前或网络数据遭到窃听等威胁之前采取适宜的安全措施。目前常用的入侵检测技术主要分为两种:误用检测技术和异常检测技术。
误用检测技术将被检测的行为与已知数据库中的攻击模式进行对比,若是匹配则认为该行为为具有恶意的入侵行为;若不匹配则判定为正常行为。该方法的优点是检测发现率高,缺点是依赖于数据库中攻击模式的完备性,误警率高。考虑到无线传感网络是应用型网络,不同应用领域所受到的攻击方式和攻击后所呈现的数据特征也不尽相同,难以制定统一标准的攻击模式数据库,因此误用检测技术难以普及。
异常检测技术是将通过统计数据来描述正常行为的规则,并通过特征对比检测异常行为即入侵行为。该方法有效弥补了误用检测技术过于依赖攻击数据库的不足,能够自适应地发现异常行为,但容易犯两类错误:1)不是入侵行为的不规则正常行为被误判为异常行为;2)没有表现出不规则的入侵行为容易被判别为正常行为。
本发明专利选用异常检测技术,以典型的分簇路由结构的无线传感网络为例,在簇头节点实施基于TD能量预测的异常检测方案。
发明内容
针对现有技术上存在的不足,本发明目的是在于提供一种基于TD强化学***滑时间窗的判定方法以降低入侵检测的误警率。
为了实现上述目的,本发明是通过如下的技术方案来实现:
基于TD强化学习的无线传感网络入侵检测方法,其特征在于,其步骤包括:
(a)、将无线传感网络传感器节点抽象成具有一定属性的自治Agent,包括簇头节点、簇成员节点和汇聚节点;使时序差分TD强化学习与Agent概念相结合,并对TD强化学习的奖赏函数进行改进;
(b)、将改进的TD强化学习应用于无线传感网络传感器节点的剩余能量预测,并通过调整学习率α使得TD能量预测在误差允许的范围内,记录稳定后的学习率α;
(c)、将TD能量预测与平滑时间窗相结合加入入侵检测模块中,以防止过高的误警率;
(d)、将入侵检测模块应用于分簇路由结构的无线传感网络传感器节点中,并在簇头节点形成时自动启动,用于检测簇内成员节点的异常能量状态;
(e)、根据改进TD强化学习算法中的计算公式进行节点的剩余能量的计算与预测;
(f)、当预测的节点剩余能量值与实际采集的剩余能量值存在较大误差超过一设定误差时,将其判为异常节点;将异常节点的状态数据存入异常缓冲区,并通过平滑时间窗模块统计其异常行为出现的次数,当超出规定的频率阈值时将其判为入侵节点;
(g)、基站对簇头节点采取同样的预测检测机制以检测簇头节点的安全性。
在所述步骤(a)中,将人工智能领域中的Agent技术应用到无线传感网络中,并将每个Agent赋予一定的属性。并对TD强化学习的奖赏函数进行改进,其改进的奖赏函数公式计算如下:
r t ( i ) = E i , j ( m , d ) = mE e l e c + mE a d θ , θ = 2 - - - ( 1 )
式中,在第k次数据传输时,Ei,j(m,d)为Agenti发送mbit数据至距离为d的Agentj处所需要的能量,Eelec,Ea为已知常量,Eelec表示节点在传输和接收模块处理1bit数据所消耗的能量,Ea为距离传播能量放大系数;d表示为两节点间的欧式距离,m为传输数据包文件的大小,θ为常数。
在所述步骤(b)中,预测剩余能量的计算方式如下:
E k + 1 = E k + α ( r k ( i ) + γE k + 1 - E k ) k = 1 , 2 , ... E 1 = E C 1 - - - ( 2 )
其中,Ek+1表示节点i在第k次传输后的预测能量剩余值,Ek为第k-1次传输后的实际剩余能量,E1为节点的初始能量值,为节点i的初始剩余能量,α∈(0,1)为学习率,γ∈[0,1]为延迟回报的比例因子,奖赏函数rk (i)已由式(1)给出。
本发明通过调整α来减小预测值与真实值之间的误差,定义误差值为:
Δe=|Eprediction-Eactual|≤T1(3)
其中,Eprediction为本发明提出的TD强化学习预测值,Eactual为实际采集到的真实值,T1为预先设置好的误差阈值。
在步骤(c)(f)中,平滑时间窗通过计数器统计异常行为出现的次数,并记录该异常行为发生节点的ID,在规定时间窗内出现的次数等,异常行为超过规定频率将其判别为入侵行为。
本发明所达到的有益效果:
本发明具有灵活性、适应性、鲁棒性高的优点,通过校对学习率α以调节TD能量预测的精度,并且强化学习所使用的数据是路由过程中已经采集的环境变量,计算与能耗成本少,具有广泛的应用价值。本发明与现有技术相比,其具有如下优点:
(1)、本发明不需要额外采集传感器节点的状态数据,其强化学习所使用的数据均是路由过程中采集的数据,计算与能耗成本低;
(2)、本发明可以通过校对学习率α以调节TD能量预测的精度,与现有的马尔科夫能量预测不同之处在于,当预测能量误差超出允许的误差范围时,后者每个传感器节点需要重新计算预测误差,将其和当前剩余能量一起重新发送给相邻节点,而前者只需要通过调整学习率α来减小预测能量与实际值的偏差,避免了重新计算预测误差时的大量通信开销,节约了节点的剩余能量;
(3)、相对于传统强化学习中采用稀疏式奖赏函数,本发明采用密集型的启发式奖赏函数,奖赏函数随着无线传感网络的能量状态,传输跳数和传输距离等特征信息自适应变化,大大提高了***的智能性;
(4)、基于TD强化学习的入侵检测模型只在传感器节点成为簇头节点时自动启动,其它的簇成员节点的入侵检测模型处于休眠状态,降低了入侵检测的能量消耗。
附图说明
下面结合附图和具体实施方式来详细说明本发明;
图1为本发明的无线传感网络体系结构图;
图2为本发明的TD强化学习原理图;
图3为本发明的入侵检测结构图;
图4为本发明的工作流程图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
图1为实施本发明的无线传感网络体系结构图,本发明将提出的基于TD能量预测的入侵检测应用于分簇结构的无线传感网络中,分簇结构的无线传感网络在数据传输时以“轮”为周期进行簇头节点的重新分配,每轮中分为两个阶段,簇头部署阶段和簇稳定传输阶段。簇头部署阶段中,普通节点根据接收簇头广播消息的信号强弱来选择加入距离自己最近的簇;节点处于簇稳定传输阶段的时间要比簇头部署节点阶段长很多,这样做的目的是为了减小计算开销。本发明的入侵检测模型只在传感器节点被选为簇头时自动启动,其他簇内成员节点的入侵检测模块处于休眠状态。
图2为本发明应用的强化学习算法原理2,将无线传感器节点抽象成具有一定属性的Agent,Agent通过与外界环境交互,获得状态s,执行动作a,并获得回报值函数(奖励或惩罚);强化学习Agent通过不断试错(trial-and-error)与环境交互,其目标是通过学习得到一个适合环境的最优行为策略π:S→A,该行为策略能够获得环境给予最大累积奖赏。
图3为基于TD强化学***滑时间窗,根据某段时间内异常行为出现的频率来判断该异常行为是否属于入侵行为,即当节点在时间间隔Δt(Δt≥0)出现Tm(Tm≥1)次异常行为时,才将其判别为入侵行为并发送告警。
为详细说明上述方法,本实施例的基于TD强化学习的无线传感网络入侵检测模型,其具体流程如附图4所示,包括如下步骤:
(a)、将无线传感网络传感器节点抽象成具有一定属性的自治Agent,包括簇头节点、簇成员节点和汇聚节点;使TD强化学习与Agent概念相结合,并对TD强化学习的奖赏函数进行改进;
(b)、将改进的TD强化学习应用于无线传感网络传感其节点的剩余能量预测,并通过调整学习率α使得TD能量预测在误差允许的范围内,记录稳定后的学习率α;
(c)、将TD能量预测与平滑时间窗相结合加入入侵检测模块中,以防止过高的误警率;
(d)、将入侵检测模块应用于分簇路由结构的无线传感网络传感器节点中,并在簇头节点形成时自动启动,用于检测簇内成员节点的异常能量状态;
(e)、根据改进TD强化学习算法中的计算公式进行节点的剩余能量的计算与预测;
(f)、当预测的节点剩余能量值与实际采集的剩余能量值存在较大误差时,将其判为异常节点;将异常节点的状态数据存入异常缓冲区,并通过平滑时间窗模块统计其异常行为出现的次数,当超出规定的频率阈值时将其判为入侵节点
(g)、基站对簇头节点采取同样的预测检测机制以检测簇头节点的安全性。
本发明基于TD强化学***滑时间窗判定,将其应用于分簇结构的无线传感网络的入侵检测模块中。本发明所使用的入侵检测数据无需重复采集,具有实时性高和计算成本小的优点,并且可以通过校队学习率α来调整能量预测的精度,对具有能量耗尽特征的攻击行为方式具有较好的检测率。
基于上述,本发明主要提出了基于TD(temporaldifference,时序差分学***滑时间窗判定方法将其应用于无线传感网络的入侵检测模块中,对耗尽能量的攻击行为具有良好的检测性能。本发明专利具有智能化、能耗少及自适应程度高等优点,可以应用于分簇路由的无线传感网络入侵检测模块中,具有广泛的应用价值。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (2)

1.基于时序差分TD强化学习的无线传感网络入侵检测方法,其特征在于,其步骤包括:
(a)、将无线传感网络传感器节点抽象成具有一定属性的自治Agent,包括簇头节点、簇成员节点和汇聚节点;使时序差分TD强化学习与Agent概念相结合,并对时序差分TD强化学习的奖赏函数进行改进;
(b)、将改进的时序差分TD强化学习应用于无线传感网络传感器节点的剩余能量预测,并通过调整学习率α使得时序差分TD能量预测在误差允许的范围内,记录稳定后的学习率α;
(c)、将时序差分TD能量预测与平滑时间窗相结合加入入侵检测模块中;
(d)、将入侵检测模块应用于分簇路由结构的无线传感网络传感器节点中,并在簇头节点形成时自动启动,用于检测簇内成员节点的异常能量状态;
(e)、进行节点的剩余能量的计算与预测;
(f)、当预测的节点剩余能量值与实际采集的剩余能量值超过一设定误差时,将其判为异常节点;将异常节点的状态数据存入异常缓冲区,并通过平滑时间窗模块统计其异常行为出现的次数,当超出规定的频率阈值时将其判为入侵节点;
(g)、基站对簇头节点采取同样的预测检测机制以检测簇头节点的安全性;
在所述步骤(a)中,对TD强化学习的奖赏函数进行改进,改进的奖赏函数公式如下:
rk (i)=Ei,j(m,d)=mEelec+mEαdθ,θ=2(1)
式中,在第k次数据传输时,Ei,j(m,d)为Agenti发送mbit数据至距离为d的Agentj处所需要的能量,Eelec,Ea为已知常量,Eelec表示节点在传输和接收模块处理1bit数据所消耗的能量,Ea为距离传播能量放大系数;d表示为两节点间的欧式距离,m为传输数据包文件的大小,θ为常数;
在所述步骤(b)中,预测剩余能量的计算方式如下:
{ E k + 1 = E k + α ( r k ( i ) + γE k + 1 - E k ) k = 1 , 2 , ... E 1 = E C 1 - - - ( 2 )
其中,Ek+1表示节点i在第k次传输后的预测能量剩余值,Ek为第k-1次传输后的实际剩余能量,E1为节点的初始能量值,为节点i的初始剩余能量,α∈(0,1)为学习率,γ∈[0,1]为延迟回报的比例因子,奖赏函数rk (i)已由式(1)给出;
通过调整α来减小预测值与真实值之间的误差,定义误差值为:
Δe=|Eprediction-Eactual|≤T1(3)
其中,Eprediction为TD强化学习预测值,Eactual为实际采集到的真实值,T1为预先设置好的误差阈值。
2.根据权利要求1所述的基于时序差分TD强化学***滑时间窗通过计数器统计异常行为出现的次数,并记录该异常行为发生节点的ID,在规定时间窗内出现的次数,异常行为超过规定频率将其判别为入侵行为。
CN201310302735.5A 2013-07-15 2013-07-15 基于时序差分td强化学习的无线传感网络入侵检测方法 Expired - Fee Related CN103391548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310302735.5A CN103391548B (zh) 2013-07-15 2013-07-15 基于时序差分td强化学习的无线传感网络入侵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310302735.5A CN103391548B (zh) 2013-07-15 2013-07-15 基于时序差分td强化学习的无线传感网络入侵检测方法

Publications (2)

Publication Number Publication Date
CN103391548A CN103391548A (zh) 2013-11-13
CN103391548B true CN103391548B (zh) 2016-05-25

Family

ID=49535688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310302735.5A Expired - Fee Related CN103391548B (zh) 2013-07-15 2013-07-15 基于时序差分td强化学习的无线传感网络入侵检测方法

Country Status (1)

Country Link
CN (1) CN103391548B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106936561B (zh) * 2015-12-29 2020-06-02 航天信息股份有限公司 一种侧信道攻击防护能力评估方法和***
CN107220540A (zh) * 2017-04-19 2017-09-29 南京邮电大学 基于强化学习的入侵检测方法
CN111970653B (zh) * 2020-06-05 2021-11-02 清华大学 基于虚伪审查的防窃听稀疏信号检测方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013976A (zh) * 2007-02-05 2007-08-08 南京邮电大学 无线传感器网络的混合入侵检测方法
CN101854653A (zh) * 2010-05-21 2010-10-06 南京邮电大学 一种无线多媒体传感器网络中的目标跟踪方法
CN102045708A (zh) * 2011-01-25 2011-05-04 河海大学常州校区 基于能量预测的无线传感器网络入侵检测方法
CN102448066A (zh) * 2011-12-22 2012-05-09 浙江工业大学 一种面向wsn的基于人工免疫和移动代理的轻量级入侵检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011130012A (ja) * 2009-12-15 2011-06-30 Sony Corp アクターノード、センサノード、担当区画変更方法、パラメータ変更方法、プログラムおよび情報処理システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013976A (zh) * 2007-02-05 2007-08-08 南京邮电大学 无线传感器网络的混合入侵检测方法
CN101854653A (zh) * 2010-05-21 2010-10-06 南京邮电大学 一种无线多媒体传感器网络中的目标跟踪方法
CN102045708A (zh) * 2011-01-25 2011-05-04 河海大学常州校区 基于能量预测的无线传感器网络入侵检测方法
CN102448066A (zh) * 2011-12-22 2012-05-09 浙江工业大学 一种面向wsn的基于人工免疫和移动代理的轻量级入侵检测方法

Also Published As

Publication number Publication date
CN103391548A (zh) 2013-11-13

Similar Documents

Publication Publication Date Title
Shen et al. ATTDC: An active and traceable trust data collection scheme for industrial security in smart cities
CN102868972B (zh) 基于改进q学习算法的物联网错误传感器节点定位方法
El Alami et al. Fuzzy logic based clustering algorithm for wireless sensor networks
Titouna et al. FDS: fault detection scheme for wireless sensor networks
CN103957525A (zh) 车联网中基于分簇信任评估的恶意节点检测方法
CN103533571B (zh) 基于投票策略的容错事件检测方法
CN103391548B (zh) 基于时序差分td强化学习的无线传感网络入侵检测方法
Harth et al. Quality-aware aggregation & predictive analytics at the edge
CN102045708A (zh) 基于能量预测的无线传感器网络入侵检测方法
CN105636093B (zh) 无线传感器网络节点的智能唤醒方法
CN103686737A (zh) 基于树形拓扑的无线传感网入侵容忍方法和***
Khan et al. Smart-City-based data fusion algorithm for internet of things.
Zhang et al. Wireless sensor data fusion algorithm based on the sensor scheduling and batch estimate
US20090150699A1 (en) Sleep scheduling method based on moving directions of target in sensor network
Nguyen et al. Enhancing energy efficiency of WSNs through a novel fuzzy logic based on LEACH protocol
CN106792795A (zh) 离散差分进化算法生成无线传感器最优化调度方案的方法
Achir et al. Power consumption prediction in wireless sensor networks
Yan et al. A Bayesian network approach to energy-aware distributed sensing
Belghith et al. Extending the network lifetime of wireless sensor networks using fuzzy logic
KR100888047B1 (ko) 센서 네트워크에서 키분배 방법 및 시스템
Shi et al. An energy consumption prediction model based on GSPN for wireless sensor networks
Das et al. Bayesian estimator based weather forecasting using WSN
Chai et al. Self-aware power management for maintaining event detection probability of supercapacitor-powered cyber-physical systems
Wu et al. Reduction of Power Consumption in Wireless Sensor Networks for Railway Disaster Prevention and Safety Monitoring System
Shen et al. Building effective scheduling algorithms for sensor networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160525