CN107292392B - 基于深度带权双q学习的大范围监控方法及监控机器人 - Google Patents

基于深度带权双q学习的大范围监控方法及监控机器人 Download PDF

Info

Publication number
CN107292392B
CN107292392B CN201710329549.9A CN201710329549A CN107292392B CN 107292392 B CN107292392 B CN 107292392B CN 201710329549 A CN201710329549 A CN 201710329549A CN 107292392 B CN107292392 B CN 107292392B
Authority
CN
China
Prior art keywords
robot
value
nextstate
depth
double
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710329549.9A
Other languages
English (en)
Other versions
CN107292392A (zh
Inventor
章宗长
潘致远
王辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANQI XIANCE (NANJING) TECHNOLOGY Co.,Ltd.
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201710329549.9A priority Critical patent/CN107292392B/zh
Publication of CN107292392A publication Critical patent/CN107292392A/zh
Priority to PCT/CN2018/082105 priority patent/WO2018205778A1/zh
Priority to US16/081,413 priority patent/US11224970B2/en
Application granted granted Critical
Publication of CN107292392B publication Critical patent/CN107292392B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40264Human like, type robot arm
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40298Manipulator on vehicle, wheels, mobile

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于深度带权双Q学习的大范围监控方法,首先,提供Q值表包括QA表和QB表的机器人,其次,不明物体进入大范围空间以触发机器人,再次,机器人感知当前状态s,判断当前状态s是否为目标状态,如是,则机器人到达下一状态并监控不明物体,如不是,机器人到下一状态,机器人根据下一状态得到奖赏值,机器人等概率的选择更新QA值或QB值,然后更新Q值,知道收敛得到一个最优监控策略。本发明不但解决监控范围有限和摄像头容量有限的问题,而且不需考虑多台摄像头同步的问题,降低了成本。本发明还公开了一种基于深度带权双Q学习的大范围监控机器人。

Description

基于深度带权双Q学习的大范围监控方法及监控机器人
技术领域
本发明涉及一种大范围监控领域,具体涉及一种基于深度带权双Q学习的大范围监控方法及监控机器人。
背景技术
在我们平时的生活中,监控***已经无处不在,例如:交通路口的红绿灯监控、住宅小区里的安全监控等。监控***结合多媒体技术、计算机网络、工业控制以及人工智能等多方面的知识,可用于安全防范、信息获取和调度指挥等方面,还可为生产流程,远程教育提供多种服务。但在一些需要完成具体任务的大范围环境中,例如寻找并追踪监控不明物体,目前的监控***还不能完全布控。原因在于:一方面由于监控摄像头的固有缺陷,例如监控范围,信息容量有限等问题;另一方面需要考虑布控的成本,大范围布控需要多摄像头、多地的同步监控,布控难,成本高。综上所述,如何对大范围的环境进行监控已经成为一项急需解决的问题。
现有的监控***存在如下缺陷:①有线模拟视频信号的传输距离有限。当传输距大于1km时,信号容易产生衰耗、畸变、群延等问题,图像质量将严重下降。②监控***大多以录像的形式保存信息,但这种方法的容量有限,且需定期上传或替换存储介质,不能实现自动化监控。③多摄像头的监控往往成本过高,同时现有的监控摄像头还未考虑多设备同步的问题。
发明内容
本发明的发明目的是提供一种基于深度带权双Q学习的大范围监控方法, 不但解决了因监控范围过大导致监控***无法完全布控的难题,而且解决了摄像头容量有限的问题。同时通过深度估值网络,直接对图像信息进行特征提取,自行判断是否有不明物体出现在监视范围内,其中特征并直接与Q值表关联,省去了多台摄像头同步的问题,降低了成本。
为实现上述发明目的,本发明提供以下的技术方案:一种基于深度带权双 Q学习的大范围监控方法,包括如下步骤:
S1、提供一大范围空间和一机器人,所述机器人在所述大范围空间中,在工作状态下,通过双Q学习方法从当前状态到达目标状态,所述机器人的Q值表包括QA表和QB表,Q值通过深度估值网络参数θ进行计算,其中,
QA值的更新公式如下:
δ=R(s,a)+γ[βAQA(s′,a*;θ)+(1-βA)QB(s′,a*;θ)]-QA(s,a;θ);
QA←QA(s,a;θ)+α(s,a)δ;
QB值的更新公式如下:
δ=R(s,a)+γ[βBQB(s′,a*;θ)+(1-βB)QA(s′,a*;θ)]-QB(s,a;θ);
QB←QB(s,a;θ)+α(s,a)δ;
其中,βA,βB表示权重;s′表示下一状态;a*表示下一状态的最优动作;aL表示下一状态的最差动作;c为自由参数,c≥0;δ表示时间差分;R表示奖赏值;γ表示目标折扣,0≤γ≤1;s表示当前状态,a表示当前动作;α表示学习率,α在区间(0,1)内;θ表示深度估值网络参数;
工作状态时,所述大范围空间中有不明物体;
目标状态时,所述不明物体在所述机器人的监控范围内;
S2、所述机器人设置其初始状态为当前状态s;
S3、所述机器人检测并判断当前状态s是否为工作状态,如否,进入S4,如是,进入S5;
S4、所述机器人待机后到达下一状态s′,进入S11;
S5、所述机器人通过深度估值网络检测并判断当前状态s是否为目标状态,如否,进入S6,如是,进入S7;
S6、所述机器人选择并执行当前动作a后到达下一状态s′,进入S8;
S7、所述机器人选择并执行当前动作a后到达下一状态s′并监控所述不明物体,进入S8;
S8、所述机器人根据下一状态s′得到奖赏值R,进入S9;
S9、所述机器人等概率的选择更新QA值或QB值并进行更新,进入S10
S10、所述机器人判断其Q值表是否收敛,如否,进入S11,如是,进入 S12;
S11、所述机器人重置下一状态s′为当前状态s,回到S3;
S12、所述机器人制定最优监控策略,进入S13;
S13、所述机器人重置下一状态s′为当前状态s,进入S14;
S14、所述机器人检测并判断当前状态s是否为工作状态,如否,进入S15,如是,进入S16;
S15、所述机器人待机后到达下一状态s′,返回S13;
S16、所述机器人检测并判断当前状态s是否为目标状态,如否,进入S17,如是,进入S18;
S17、所述机器人根据所述最优监控策略到达下一状态s′,回到S13;
S18、所述机器人选择并执行当前动作a后到达下一状态s′并监控所述不明物体,回到S13。
其中,在同一大范围空间中,所述机器人仅初次选择并执行当前动作a前初始化其Q值、学习率α、目标折扣γ、深度估值网络的结构和参数θ、动作选择方式以及权重β。
深度带权双Q方法利用深度估值网络,输入视频图像等状态信息和环境给予的反馈信号(如奖赏等),先通过可提取空间结构信息的卷积层神经网络来抽取图像中重要目标的特征信息,再通过全连接层的非线性变换来做分类或回归,最终在输出层产生每个动作的Q值。该网络通过网络参数θ,将奖赏值和误差项缩小至有限范围内,保证了Q值处于合理的范围内,并提高了该方法的稳定性。该网络对传统的Q学习算法进行了多处改进,其中包括:(1)在训练过程中利用经验回放机制,将得到的状态转移样本存放至记忆单元中,训练时从样本池中随机选择一小批样本对网络参数θ进行更新,增加了可利用的样本量,降低了样本间的关联性,提高了算法的稳定性。(2)除了使用深度网络表示当前Q值外,还另外使用一个网络来产生目标Q值,使用当前Q值和目标Q值的线性组合来选择动作,并通过最小化当前Q值和目标Q值之间的均方误差来更新网络参数θ。引入该网络后,在一段时间内目标Q值保持不变,可以减少值波动对训练过程的影响,提升算法的稳定性。
上述技术方案中,所述大范围空间划分为若干子空间,所述机器人选择并执行当前动作a后,静止于当前子空间或移动至与当前子空间相邻的子空间,每个所述子空间不大于所述机器人的监控范围。
上述技术方案中,所述机器人检测当前状态s时,通过其传感器获知所述不明物体的大概位置loci和所述机器人的精确位置loca,记作s=<loci,loca>。
上述技术方案中,所述机器人通过其摄像头获取图像信息,通过深度估值网络进行特征提取和分类,自行判断是否有不明物体在监控范围内,若有则通过其报警器进行报警。
上述技术方案中,所述机器人通过方式选择当前动作a。
上述技术方案中,所述机器人选择当前动作a时,有较大概率选择最大Q 值所代表的动作,较小概率选择其他任意动作。
上述技术方案中,所述奖赏值R的设置如下:
其中,loca为机器人的精确位置,loci为不明物体的大概位置,即当不明物体在机器人的监控范围内时给予正奖赏,而机器人未观测到不明物体时给予负奖赏。
上述技术方案中,所述机器人不断更新其学习率α,其中,所述机器人执行当前动作a时不明物体也在移动构成双移状态,n为双移状态下执行a动作的次数。
本发明还提供另外一个技术方案:一种基于深度带权双Q学习的大范围监控机器人,所述机器人的Q值表包括QA表和QB表,Q值通过深度估值网络参数θ进行计算,其中,
QA值的更新公式如下:
δ=R(s,a)+γ[βAQA(s′,a*;θ)+(1-βA)QB(s′,a*;θ)]-QA(s,a;θ);
QA←QA(s,a;θ)+α(s,a)δ;
QB值的更新公式如下:
δ=R(s,a)+γ[βBQB(s′,a*;θ)+(1-βB)QA(s′,a*;θ)]-QB(s,a;θ);
QB←QB(s,a;θ)+α(s,a)δ;
其中,βA,βB表示权重;s′表示下一状态;a*表示下一状态的最优动作;aL表示下一状态的最差动作;c为自由参数,c≥0;δ表示时间差分;R表示奖赏值;γ表示目标折扣,0≤γ≤1;s表示当前状态,a表示当前动作;α表示学习率,α在区间(0,1)内;θ表示深度估值网络参数;
所述机器人还设有实时检测其自身精确位置和不明物体大概位置的传感器和监控所述不明物体的摄像头,所述传感器和所述摄像头分别电连接所述机器人的主控芯片。
上述技术方案中,所述机器人还设有报警器,所述报警器电连接所述机器人的主控芯片。
由于上述技术方案运用,本发明与现有技术相比具有以下优点:
(1)本发明公开的基于深度带权双Q学习的大范围监控方法,能够很好地应对机器人在大范围空间中运动方式不受控的目标(不明物体)的移动跟踪问题,深度带权双Q学习方法通过对感知到的状态的判断,计算该状态下的风险Q值,随后根据该风险Q值来指导机器人选择动作进行移动,实现在无法知道目标(不明物体)的意图,难以对目标(不明物体)的行为进行判断的情况下监控大范围区域的目的。深度带权双Q学习方法是一种在Q学习方法和双Q学习方法之间的折衷方法,来指导Agent的下一步行动。原始的Q学习方法可用于大范围空间问题,却不能应对目标运动方式不受控的情况,而双Q学习方法虽然有效地解决了运动方式不受控的目标监控问题,但未能够在大范围情景中应用,而深度带权双Q学习方法能够很好地应对大范围环境中的实时监控难题。在使用深度带权双Q学习方法实时监控时,需要对Q值表进行更新,Q值表分为QA表和QB表,每次行动后,各有50%的概率对其中一个表的值进行更新。若需更新QA表中的值,则从QA中选择所有可能的下一状态中拥有最大Q值的动作,再利用该动作在 QA表和QB表中的值进行更新。QA表和QB表利用的比例由权值β决定。β的计算考虑了不明物体的状态、机器人的状态和当前动作,在传统的Q学习方法和双Q 学习方法之间做了折衷。方法通过不断减少目标估计值与当前估计值之差δ,最终会收敛得到一个能监视并追踪不明物体的最优监控策略。
(2)机器人感知大范围空间中自身位置以及不明物体的大致位置,通过双Q 学习达到目标状态进行监控,获取不明物体的图像信息并根据图像信息进行报警。
(3)机器人能够导航追踪不明物体,因此,仅需1台机器人即可完成整个危险区域的监控,无需考虑多台监视器同步的问题,而且节约了成本。
(4)机器人感知的状态为具有马尔科夫性质的状态,具有马尔科夫性质的状态的未来状态只与当前状态有关,与之前的状态没有关系,因此摄像头无需保存过去的信息,只需专注于当前自身和不明物体的位置,既解决了摄像头信息容量有限的问题,而且节约了成本。
(5)机器人在导航追踪不明物体时,通过设置奖赏值,根据该奖赏值,可以有效区分状态好的情况与不好的情况,提高机器人学习的速度,并且在一定程度上帮助机器人追踪不明物体。
(6)机器人根据其自身和目标(不明物体)的位置,选择是否需要回到充电点进行自动充电。
附图说明
图1是本发明公开的基于深度带权双Q学习的大范围监控机器人的组成示意图。
图2是本发明公开的基于深度带权双Q学习的大范围空间、机器人以及不明物体的位置示意图。
图3是本发明公开的基于深度带权双Q学习的大范围监控方法的流程图。
其中,10,、机器人;11、传感器;12、摄像头;13、主控芯片;20、大范围空间;21、子空间;30、不明物体。
具体实施方式
下面结合本发明的原理、附图以及实施例对本发明进一步描述
实施例一
参见图1,如其中的图例所示,为一种基于深度带权双Q学习的大范围监控机器人10,该机器人10的Q值表包括QA表和QB表,Q值通过深度估值网络参数θ进行计算,其中,
QA值的更新公式如下:
δ=R(s,a)+γ[βAQA(s′,a*;θ)+(1-βA)QB(s′,a*;θ)]-QA(s,a;θ);
QA←QA(s,a;θ)+α(s,a)δ;
QB值的更新公式如下:
δ=R(s,a)+γ[βBQB(s′,a*;θ)+(1-βB)QA(s′,a*;θ)]-QB(s,a;θ);
QB←QB(s,a;θ)+α(s,a)δ;
其中,βA,βB表示权重;s′表示下一状态;a*表示下一状态的最优动作;aL表示下一状态的最差动作;c为自由参数,c≥0;δ表示时间差分;R表示奖赏值;γ表示目标折扣,0≤γ≤1;s表示当前状态,a表示当前动作;α表示学习率,α在区间(0,1)内;θ表示深度估值网络参数;
该机器人10还设有实时检测其自身精确位置和不明物体大概位置的传感器11和监控不明物体的摄像头12,传感器11和摄像头12分别电连接机器人 10的主控芯片13。
该机器人10获取图像后,图像将作为深度估值网络的输入。深度估值网络由8层网络构成,所有网络节点均为修正线性单元ReLU。第1层为输入层,状态是扁平化长为84*84*3=21168的向量,奖赏信号为数值型标量,第2-5层为卷积层。第2层的卷积核尺寸为8*8,步长为4*4,输出通道数为32,这一层的输出维度为20*20*32。第3层的卷积核尺寸为4*4,步长为2*2,输出通道数为64,这一层的输出维度为9*9*64。第4层的卷积核尺寸为3*3,步长为1*1,输出通道数为64,这一层输出维度为7*7*64。第5层的卷积核尺寸为7*7,步长为1*1,输出通道数为1*1*512。第7层是全连接层,输出通道数为512。第8层也是全连接层,输出通道数为行动数,即输出值为每个状态-行动对对应的Q值。在经验重放机制中,每批样本数目为32,重放记忆单元大小为1000000,目标Q值每 10000个样本更新一次,当前Q值每行动数个样本更新一次。
参见图2和图3,如其中的图例所示,一种基于深度带权双Q学习的大范围监控方法,包括如下步骤:
S1、提供一大范围空间20和一机器人10,机器人10在大范围空间20中通过双Q学习方法在工作状态下从当前状态到达目标状态;
工作状态时,大范围空间20中有不明物体30;
目标状态时,不明物体30在机器人10的监控范围内;
S2、机器人10设置其初始状态为当前状态s;
S3、机器人10检测并判断当前状态s是否为工作状态,如否,进入S4,如是,进入S5;
S4、机器人10待机后到达下一状态s′,进入S11;
S5、机器人10检测并判断当前状态s是否为目标状态,如否,进入S6,如是,进入S7;
S6、机器人10选择并执行当前动作a后到达下一状态s′,进入S8;
S7、机器人10选择并执行当前动作a后到达下一状态s′并监控不明物体30,进入S8;
S8、机器人10根据下一状态s′得到奖赏值R,进入S9;
S9、机器人10等概率的选择更新QA值或QB值并进行更新,进入S10
S10、机器人10判断其Q值表是否收敛,如否,进入S11,如是,进入S12;
S11、机器人10重置下一状态s′为当前状态s,回到S3;
S12、机器人10制定最优监控策略,进入S13;
S13、机器人10重置下一状态s′为当前状态s,进入S14;
S14、机器人10通过深度估值网络检测并判断当前状态s是否为工作状态,如否,进入S15,如是,进入S16;
S15、机器人10待机后到达下一状态s′,返回S13;
S16、机器人10检测并判断当前状态s是否为目标状态,如否,进入S17,如是,进入S18;
S17、机器人10根据最优监控策略到达下一状态s′,回到S13;
S18、机器人10选择并执行当前动作a后到达下一状态s′并监控不明物体 30,回到S13。
上述技术方案中,在同一大范围空间中,机器人10仅初次选择并执行当前动作a前初始化其Q值、学习率α、目标折扣γ、动作选择方式、权重β、以及深度估值网络的结构和参数θ等,本实施例中,初始化后,Q值为0、自由参数c为 1、学习率α为0.8、目标折扣γ为0.95、动作选择方式为方式、权重β为0.5。
上述技术方案中,大范围空间20划分为若干子空间21,机器人10选择并执行当前动作a后,静止于当前子空间或移动至与当前子空间相邻的子空间,每个子空间21不大于机器人10的监控范围。
上述技术方案中,机器人10检测当前状态s时,通过其传感器获知不明物体30的大概位置loci和机器人10的精确位置loca,记作s=<loci,loca>。上述状态具有马尔科夫性质,具有马尔科夫性质的状态的未来状态只与当前状态有关,与之前的状态没有关系。
上述技术方案中,机器人10监控不明物体30时,通过其摄像头12获取不明物体的图像信息。
上述技术方案中,机器人10选择当前动作a时,有较大概率选择最大Q值所代表的动作,较小概率选择其他任意动作。
一种实施方式中,机器人10的摄像头12为360度可旋转摄像头。
一种实施方式中,机器人10还设有报警器(图中未视出),该报警器电连接机器人10的主控芯片13。机器人10根据图像信息,通过深度估值网络进行特征提取和分类,自行判断是否有不明物体在监控范围内,若有则通过其报警器进行报警。
一种实施方式中,机器人10通过方式选择当前动作a。动作为机器人10的运动方向,即向上、向下、向左、向右以及静止。
一种实施方式中,奖赏值R的设置如下:
其中,loca为机器人的精确位置,loci为不明物体的大概位置,即当不明物体在机器人的监控范围内时给予正奖赏,而机器人未观测到不明物体时给予负奖赏。
一种实施方式中,机器人10不断更新其学习率α,其中,所述机器人执行当前动作a时不明物体也在移动构成双移状态,n为双移状态下执行a动作的次数。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于深度带权双Q学习的大范围监控方法,其特征在于,包括如下步骤:
S1、提供一大范围空间和一机器人,所述机器人在所述大范围空间中,在工作状态下通过双Q学习方法从当前状态到达目标状态,所述机器人的Q值表包括QA表和QB表,Q值通过深度估值网络参数θ进行计算,其中,
QA值的更新公式如下:
δ=R(s,a)+γ[βAQA(s′,a*;θ)+(1-βA)QB(s′,a*;θ)]-QA(s,a;θ);
QA←QA(s,a;θ)+α(s,a)δ;
QB值的更新公式如下:
δ=R(s,a)+γ[βBQB(s′,a*;θ)+(1-βB)QA(s′,a*;θ)]-QB(s,a;θ);
QB←QB(s,a;θ)+α(s,a)δ;
其中,βA,βB表示权重;s′表示下一状态;a*表示下一状态的最优动作;aL表示下一状态的最差动作;c为自由参数,c≥0;δ表示时间差分;R表示奖赏值;γ表示目标折扣,0≤γ≤1;s表示当前状态,a表示当前动作;α表示学习率,α在区间(0,1)内,θ表示深度估值网络参数;
工作状态时,所述大范围空间中有不明物体;
目标状态时,所述不明物体在所述机器人的监控范围内;
S2、所述机器人设置其初始状态为当前状态s;
S3、所述机器人检测并判断当前状态s是否为工作状态,如否,进入S4,如是,进入S5;
S4、所述机器人待机后到达下一状态s′,进入S11;
S5、所述机器人检测并判断当前状态s是否为目标状态,如否,进入S6,如是,进入S7;
S6、所述机器人选择并执行当前动作a后到达下一状态s′,进入S8;
S7、所述机器人选择并执行当前动作a后到达下一状态s′并监控所述不明物体,进入S8;
S8、所述机器人根据下一状态s′得到奖赏值R,进入S9;
S9、所述机器人等概率的选择更新QA值或QB值并进行更新,进入S10
S10、所述机器人判断其Q值表是否收敛,如否,进入S11,如是,进入S12;
S11、所述机器人重置下一状态s′为当前状态s,回到S3;
S12、所述机器人制定最优监控策略,进入S13;
S13、所述机器人重置下一状态s′为当前状态s,进入S14;
S14、所述机器人检测并判断当前状态s是否为工作状态,如否,进入S15,如是,进入S16;
S15、所述机器人待机后到达下一状态s′,返回S13;
S16、所述机器人通过深度估值网络检测并判断当前状态s是否为目标状态,如否,进入S17,如是,进入S18;
S17、所述机器人根据所述最优监控策略到达下一状态s′,回到S13;
S18、所述机器人选择并执行当前动作a后到达下一状态s′并监控所述不明物体,回到S13;
其中,在同一大范围空间中,所述机器人仅初次选择并执行当前动作a前初始化其Q值、学习率α、目标折扣γ、深度估值网络的结构和参数θ、动作选择方式以及权重β。
2.根据权利要求1所述的基于深度带权双Q学习的大范围监控方法,其特征在于,所述大范围空间划分为若干子空间,所述机器人选择并执行当前动作a后,静止于当前子空间或移动至与当前子空间相邻的子空间,每个所述子空间不大于所述机器人的监控范围。
3.根据权利要求1所述的基于深度带权双Q学习的大范围监控方法,其特征在于,所述机器人检测当前状态s时,通过其传感器获知所述不明物体的大概位置loci和所述机器人的精确位置loca,记作s=<loci,loca>。
4.根据权利要求1所述的基于深度带权双Q学习的大范围监控方法,其特征在于,所述机器人通过其摄像头获取图像信息,通过深度估值网络进行特征提取和分类,自行判断是否有不明物体在监控范围内,若有则通过其报警器进行报警。
5.根据权利要求1所述的基于深度带权双Q学习的大范围监控方法,其特征在于,所述机器人通过ò-greedy方式选择当前动作a。
6.根据权利要求1所述的基于深度带权双Q学习的大范围监控方法,其特征在于,所述机器人选择当前动作a时,有较大概率选择最大Q值所代表的动作,较小概率选择其他任意动作。
7.根据权利要求1所述的基于深度带权双Q学习的大范围监控方法,其特征在于,所述奖赏值R的设置如下:
其中,loca为机器人的精确位置,loci为不明物体的大概位置,即当不明物体在机器人的监控范围内时给予正奖赏,而机器人未观测到不明物体时给予负奖赏。
8.根据权利要求1所述的基于深度带权双Q学习的大范围监控方法,其特征在于,所述机器人不断更新其学习率α,其中,所述机器人执行当前动作a时不明物体也在移动构成双移状态,n为双移状态下执行a动作的次数。
9.一种基于深度带权双Q学习的大范围监控机器人,其特征在于,所述机器人的Q值表包括QA表和QB表,Q值通过深度估值网络参数θ进行计算,其中,
QA值的更新公式如下:
δ=R(s,a)+γ[βAQA(s′,a*;θ)+(1-βA)QB(s′,a*;θ)]-QA(s,a;θ);
QA←QA(s,a;θ)+α(s,a)δ;
QB值的更新公式如下:
δ=R(s,a)+γ[βBQB(s′,a*;θ)+(1-βB)QA(s′,a*;θ)]-QB(s,a;θ);
QB←QB(s,a;θ)+α(s,a)δ;
其中,βA,βB表示权重;s′表示下一状态;a*表示下一状态的最优动作;aL表示下一状态的最差动作;c为自由参数,c≥0;δ表示时间差分;R表示奖赏值;γ表示目标折扣,0≤γ≤1;s表示当前状态,a表示当前动作;α表示学习率,α在区间(0,1)内;θ表示深度估值网络参数;
所述机器人还设有实时检测其自身精确位置和不明物体大概位置的传感器和监控所述不明物体的摄像头,所述传感器和所述摄像头分别电连接所述机器人的主控芯片。
10.根据权利要求9所述的基于深度带权双Q学习的大范围监控机器人,其特征在于,所述机器人还设有报警器,所述报警器电连接所述机器人的主控芯片。
CN201710329549.9A 2017-05-11 2017-05-11 基于深度带权双q学习的大范围监控方法及监控机器人 Active CN107292392B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710329549.9A CN107292392B (zh) 2017-05-11 2017-05-11 基于深度带权双q学习的大范围监控方法及监控机器人
PCT/CN2018/082105 WO2018205778A1 (zh) 2017-05-11 2018-04-08 基于深度带权双q学习的大范围监控方法及监控机器人
US16/081,413 US11224970B2 (en) 2017-05-11 2018-04-08 Large area surveillance method and surveillance robot based on weighted double deep Q-learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710329549.9A CN107292392B (zh) 2017-05-11 2017-05-11 基于深度带权双q学习的大范围监控方法及监控机器人

Publications (2)

Publication Number Publication Date
CN107292392A CN107292392A (zh) 2017-10-24
CN107292392B true CN107292392B (zh) 2019-11-22

Family

ID=60095103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710329549.9A Active CN107292392B (zh) 2017-05-11 2017-05-11 基于深度带权双q学习的大范围监控方法及监控机器人

Country Status (3)

Country Link
US (1) US11224970B2 (zh)
CN (1) CN107292392B (zh)
WO (1) WO2018205778A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292392B (zh) * 2017-05-11 2019-11-22 苏州大学 基于深度带权双q学习的大范围监控方法及监控机器人
EP3784451A1 (en) * 2018-06-15 2021-03-03 Google LLC Deep reinforcement learning for robotic manipulation
US11833681B2 (en) * 2018-08-24 2023-12-05 Nvidia Corporation Robotic control system
CN109514553B (zh) * 2018-11-21 2021-09-21 苏州大学 一种机器人移动控制的方法、***及设备
CN111859099B (zh) * 2019-12-05 2021-08-31 马上消费金融股份有限公司 基于强化学习的推荐方法、装置、终端以及存储介质
CN111026127B (zh) * 2019-12-27 2021-09-28 南京大学 基于部分可观测迁移强化学习的自动驾驶决策方法及***
CN112198870B (zh) * 2020-06-01 2022-09-02 西北工业大学 基于ddqn的无人机自主引导机动决策方法
USD962357S1 (en) * 2020-09-25 2022-08-30 Wen Hsien Lee Top toy
CN114851184B (zh) * 2021-01-20 2023-05-09 广东技术师范大学 一种面向工业机器人的强化学习奖励值计算方法
CN113503878B (zh) * 2021-07-07 2023-04-07 大连海事大学 一种无人船路径规划方法及***
CN115338610B (zh) * 2022-07-04 2024-02-13 中国科学院自动化研究所 双轴孔装配方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
CN102868972A (zh) * 2012-09-05 2013-01-09 河海大学常州校区 基于改进q学习算法的物联网错误传感器节点定位方法
CN104932264A (zh) * 2015-06-03 2015-09-23 华南理工大学 基于rbf网络的q学习框架仿人机器人稳定控制方法
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
WO2017004626A1 (en) * 2015-07-01 2017-01-05 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for providing reinforcement learning in a deep learning system
CN106411749A (zh) * 2016-10-12 2017-02-15 国网江苏省电力公司苏州供电公司 一种基于q学习的用于软件定义网络的路径选择方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8326780B2 (en) * 2008-10-14 2012-12-04 Honda Motor Co., Ltd. Smoothed sarsa: reinforcement learning for robot delivery tasks
WO2014190208A2 (en) * 2013-05-22 2014-11-27 Neurala, Inc. Methods and apparatus for early sensory integration and robust acquisition of real world knowledge
US20170032245A1 (en) * 2015-07-01 2017-02-02 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Providing Reinforcement Learning in a Deep Learning System
CN117910544A (zh) * 2015-11-12 2024-04-19 渊慧科技有限公司 使用优先化经验存储器训练神经网络
JP6348137B2 (ja) * 2016-03-24 2018-06-27 ファナック株式会社 工作物の良否を判定する加工機械システム
CN105867427B (zh) * 2016-04-18 2018-06-26 苏州大学 一种面向动态环境的机器人寻径在线控制方法
CN106598058A (zh) * 2016-12-20 2017-04-26 华北理工大学 内在动机驱动的极限学习机自发育***及其运行方法
US10241520B2 (en) * 2016-12-22 2019-03-26 TCL Research America Inc. System and method for vision-based flight self-stabilization by deep gated recurrent Q-networks
KR102113462B1 (ko) * 2017-02-09 2020-05-21 미쓰비시덴키 가부시키가이샤 위치 제어 장치 및 위치 제어 방법
CN107292392B (zh) * 2017-05-11 2019-11-22 苏州大学 基于深度带权双q学习的大范围监控方法及监控机器人

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
CN102868972A (zh) * 2012-09-05 2013-01-09 河海大学常州校区 基于改进q学习算法的物联网错误传感器节点定位方法
CN104932264A (zh) * 2015-06-03 2015-09-23 华南理工大学 基于rbf网络的q学习框架仿人机器人稳定控制方法
WO2017004626A1 (en) * 2015-07-01 2017-01-05 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for providing reinforcement learning in a deep learning system
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
CN106411749A (zh) * 2016-10-12 2017-02-15 国网江苏省电力公司苏州供电公司 一种基于q学习的用于软件定义网络的路径选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Intelligent Model Learning Based on Variance for Bayesian Reinforcement Learning》;Shuhua You et al;;《2015 IEEE 27th International Conference on Tools with Artificial Intelligence》;20151231;第170-177页; *
《基于自适应状态聚集Q学习的移动机器人动态规划方法》;王辉 等;;《计算机测量与控制》;20141031;第22卷(第10期);第3419-3422页; *

Also Published As

Publication number Publication date
CN107292392A (zh) 2017-10-24
US11224970B2 (en) 2022-01-18
US20210205985A1 (en) 2021-07-08
WO2018205778A1 (zh) 2018-11-15

Similar Documents

Publication Publication Date Title
CN107292392B (zh) 基于深度带权双q学习的大范围监控方法及监控机器人
CN106874914A (zh) 一种基于深度卷积神经网络的工业机械臂视觉控制方法
CN107422736A (zh) 一种无人船自主返航***及其工作方法
CN110162035A (zh) 一种集群机器人在有障碍物场景中的协同运动方法
CN103093654A (zh) 一种双摄像机交互式智能跟踪教学***
Wu et al. Reinforcement learning-based visual navigation with information-theoretic regularization
CN107450574A (zh) 复合飞行控制方法和***、飞行器
CN113568410A (zh) 一种异构智能体轨迹预测方法、***、设备及介质
Natalizio et al. Two families of algorithms to film sport events with flying robots
CN110412999A (zh) 对抗环境下多无人机任务分配的博弈智能决策方法及***
Hatanaka et al. A payoff-based learning approach to cooperative environmental monitoring for PTZ visual sensor networks
Bai et al. Cooperative multi-robot control for monitoring an expanding flood area
Gamal et al. Learning from fuzzy system demonstration: Autonomous navigation of mobile robot in static indoor environment using multimodal deep learning
Li et al. Vg-swarm: A vision-based gene regulation network for uavs swarm behavior emergence
CN109118580A (zh) 目标货物堆监控方法及相关装置
Sanghvi et al. Mgpi: A computational model of multiagent group perception and interaction
Hatanaka et al. Visual surveillance of human activities via gradient-based coverage control on matrix manifolds
CN109063739A (zh) 一种基于svm与强化学习的室内场景识别方法
Su et al. Dynamic task allocation for heterogeneous agents in disaster environments under time, space and communication constraints
Teraoka et al. Voronoi coverage control with time-driven communication for mobile sensing networks with obstacles
Wu et al. Planning efficient and robust behaviors for model-based power tower inspection
Singh et al. Novel optimal deployment of sensor nodes using bio inspired algorithm
Juliá et al. Local minima detection in potential field based cooperative multi-robot exploration
Ni et al. An improved vision-based SLAM approach inspired from animal spatial cognition
CN104679002A (zh) 受噪声污染的移动机器人***及其协调控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200410

Address after: 210038 building C4, Hongfeng Science Park, Nanjing Economic and Technological Development Zone, Nanjing, Jiangsu Province

Patentee after: NANQI XIANCE (NANJING) TECHNOLOGY Co.,Ltd.

Address before: Suzhou City, Jiangsu province 215000 Xiangcheng District Ji Road No. 8

Patentee before: SOOCHOW University

TR01 Transfer of patent right