CN107292392B

CN107292392B - 基于深度带权双q学习的大范围监控方法及监控机器人

Info

Publication number: CN107292392B
Application number: CN201710329549.9A
Authority: CN
Inventors: 章宗长; 潘致远; 王辉
Original assignee: Suzhou University
Current assignee: NANQI XIANCE (NANJING) TECHNOLOGY Co.,Ltd.
Priority date: 2017-05-11
Filing date: 2017-05-11
Publication date: 2019-11-22
Anticipated expiration: 2037-05-11
Also published as: CN107292392A; US11224970B2; US20210205985A1; WO2018205778A1

Abstract

本发明公开了一种基于深度带权双Q学习的大范围监控方法，首先，提供Q值表包括Q_A表和Q_B表的机器人，其次，不明物体进入大范围空间以触发机器人，再次，机器人感知当前状态s，判断当前状态s是否为目标状态，如是，则机器人到达下一状态并监控不明物体，如不是，机器人到下一状态，机器人根据下一状态得到奖赏值，机器人等概率的选择更新Q_A值或Q_B值，然后更新Q值，知道收敛得到一个最优监控策略。本发明不但解决监控范围有限和摄像头容量有限的问题，而且不需考虑多台摄像头同步的问题，降低了成本。本发明还公开了一种基于深度带权双Q学习的大范围监控机器人。

Description

基于深度带权双Q学习的大范围监控方法及监控机器人

技术领域

本发明涉及一种大范围监控领域，具体涉及一种基于深度带权双Q学习的大范围监控方法及监控机器人。

背景技术

在我们平时的生活中，监控***已经无处不在，例如：交通路口的红绿灯监控、住宅小区里的安全监控等。监控***结合多媒体技术、计算机网络、工业控制以及人工智能等多方面的知识，可用于安全防范、信息获取和调度指挥等方面，还可为生产流程，远程教育提供多种服务。但在一些需要完成具体任务的大范围环境中，例如寻找并追踪监控不明物体，目前的监控***还不能完全布控。原因在于：一方面由于监控摄像头的固有缺陷，例如监控范围，信息容量有限等问题；另一方面需要考虑布控的成本，大范围布控需要多摄像头、多地的同步监控，布控难，成本高。综上所述，如何对大范围的环境进行监控已经成为一项急需解决的问题。

现有的监控***存在如下缺陷：①有线模拟视频信号的传输距离有限。当传输距大于1km时，信号容易产生衰耗、畸变、群延等问题，图像质量将严重下降。②监控***大多以录像的形式保存信息，但这种方法的容量有限，且需定期上传或替换存储介质，不能实现自动化监控。③多摄像头的监控往往成本过高，同时现有的监控摄像头还未考虑多设备同步的问题。

发明内容

本发明的发明目的是提供一种基于深度带权双Q学习的大范围监控方法, 不但解决了因监控范围过大导致监控***无法完全布控的难题，而且解决了摄像头容量有限的问题。同时通过深度估值网络，直接对图像信息进行特征提取，自行判断是否有不明物体出现在监视范围内，其中特征并直接与Q值表关联，省去了多台摄像头同步的问题，降低了成本。

为实现上述发明目的，本发明提供以下的技术方案：一种基于深度带权双 Q学习的大范围监控方法，包括如下步骤：

S1、提供一大范围空间和一机器人，所述机器人在所述大范围空间中，在工作状态下，通过双Q学习方法从当前状态到达目标状态，所述机器人的Q值表包括Q_A表和Q_B表，Q值通过深度估值网络参数θ进行计算，其中，

Q_A值的更新公式如下：

δ＝R(s,a)+γ[β_AQ_A(s′,a^*；θ)+(1-β_A)Q_B(s′,a^*；θ)]-Q_A(s,a；θ)；

Q_A←Q_A(s,a；θ)+α(s,a)δ；

Q_B值的更新公式如下：

δ＝R(s,a)+γ[β_BQ_B(s′,a^*；θ)+(1-β_B)Q_A(s′,a^*；θ)]-Q_B(s,a；θ)；

Q_B←Q_B(s,a；θ)+α(s,a)δ；

其中，β_A，β_B表示权重；s′表示下一状态；a^*表示下一状态的最优动作；a_L表示下一状态的最差动作；c为自由参数，c≥0；δ表示时间差分；R表示奖赏值；γ表示目标折扣，0≤γ≤1；s表示当前状态，a表示当前动作；α表示学习率，α在区间(0,1)内；θ表示深度估值网络参数；

工作状态时，所述大范围空间中有不明物体；

目标状态时，所述不明物体在所述机器人的监控范围内；

S2、所述机器人设置其初始状态为当前状态s；

S3、所述机器人检测并判断当前状态s是否为工作状态，如否，进入S4，如是，进入S5；

S4、所述机器人待机后到达下一状态s′，进入S11；

S5、所述机器人通过深度估值网络检测并判断当前状态s是否为目标状态，如否，进入S6，如是，进入S7；

S6、所述机器人选择并执行当前动作a后到达下一状态s′，进入S8；

S7、所述机器人选择并执行当前动作a后到达下一状态s′并监控所述不明物体，进入S8；

S8、所述机器人根据下一状态s′得到奖赏值R，进入S9；

S9、所述机器人等概率的选择更新Q_A值或Q_B值并进行更新，进入S10

S10、所述机器人判断其Q值表是否收敛，如否，进入S11，如是，进入 S12；

S11、所述机器人重置下一状态s′为当前状态s，回到S3；

S12、所述机器人制定最优监控策略，进入S13；

S13、所述机器人重置下一状态s′为当前状态s，进入S14；

S14、所述机器人检测并判断当前状态s是否为工作状态，如否，进入S15，如是，进入S16；

S15、所述机器人待机后到达下一状态s′，返回S13；

S16、所述机器人检测并判断当前状态s是否为目标状态，如否，进入S17，如是，进入S18；

S17、所述机器人根据所述最优监控策略到达下一状态s′，回到S13；

S18、所述机器人选择并执行当前动作a后到达下一状态s′并监控所述不明物体，回到S13。

其中，在同一大范围空间中，所述机器人仅初次选择并执行当前动作a前初始化其Q值、学习率α、目标折扣γ、深度估值网络的结构和参数θ、动作选择方式以及权重β。

深度带权双Q方法利用深度估值网络，输入视频图像等状态信息和环境给予的反馈信号(如奖赏等)，先通过可提取空间结构信息的卷积层神经网络来抽取图像中重要目标的特征信息，再通过全连接层的非线性变换来做分类或回归，最终在输出层产生每个动作的Q值。该网络通过网络参数θ,将奖赏值和误差项缩小至有限范围内，保证了Q值处于合理的范围内，并提高了该方法的稳定性。该网络对传统的Q学习算法进行了多处改进，其中包括：(1)在训练过程中利用经验回放机制，将得到的状态转移样本存放至记忆单元中，训练时从样本池中随机选择一小批样本对网络参数θ进行更新，增加了可利用的样本量，降低了样本间的关联性，提高了算法的稳定性。(2)除了使用深度网络表示当前Q值外，还另外使用一个网络来产生目标Q值，使用当前Q值和目标Q值的线性组合来选择动作，并通过最小化当前Q值和目标Q值之间的均方误差来更新网络参数θ。引入该网络后，在一段时间内目标Q值保持不变，可以减少值波动对训练过程的影响，提升算法的稳定性。

上述技术方案中，所述大范围空间划分为若干子空间，所述机器人选择并执行当前动作a后，静止于当前子空间或移动至与当前子空间相邻的子空间，每个所述子空间不大于所述机器人的监控范围。

上述技术方案中，所述机器人检测当前状态s时，通过其传感器获知所述不明物体的大概位置loc_i和所述机器人的精确位置loc_a，记作s＝<loc_i,loc_a>。

上述技术方案中，所述机器人通过其摄像头获取图像信息，通过深度估值网络进行特征提取和分类，自行判断是否有不明物体在监控范围内，若有则通过其报警器进行报警。

上述技术方案中，所述机器人通过方式选择当前动作a。

上述技术方案中，所述机器人选择当前动作a时，有较大概率选择最大Q 值所代表的动作，较小概率选择其他任意动作。

上述技术方案中，所述奖赏值R的设置如下：

其中，loc_a为机器人的精确位置，loc_i为不明物体的大概位置，即当不明物体在机器人的监控范围内时给予正奖赏，而机器人未观测到不明物体时给予负奖赏。

上述技术方案中，所述机器人不断更新其学习率α，其中，所述机器人执行当前动作a时不明物体也在移动构成双移状态，n为双移状态下执行a动作的次数。

本发明还提供另外一个技术方案：一种基于深度带权双Q学习的大范围监控机器人，所述机器人的Q值表包括Q_A表和Q_B表，Q值通过深度估值网络参数θ进行计算，其中，

Q_A值的更新公式如下：

Q_A←Q_A(s,a；θ)+α(s,a)δ；

Q_B值的更新公式如下：

Q_B←Q_B(s,a；θ)+α(s,a)δ；

所述机器人还设有实时检测其自身精确位置和不明物体大概位置的传感器和监控所述不明物体的摄像头，所述传感器和所述摄像头分别电连接所述机器人的主控芯片。

上述技术方案中，所述机器人还设有报警器，所述报警器电连接所述机器人的主控芯片。

由于上述技术方案运用，本发明与现有技术相比具有以下优点：

(1)本发明公开的基于深度带权双Q学习的大范围监控方法，能够很好地应对机器人在大范围空间中运动方式不受控的目标(不明物体)的移动跟踪问题，深度带权双Q学习方法通过对感知到的状态的判断，计算该状态下的风险Q值，随后根据该风险Q值来指导机器人选择动作进行移动，实现在无法知道目标(不明物体)的意图，难以对目标(不明物体)的行为进行判断的情况下监控大范围区域的目的。深度带权双Q学习方法是一种在Q学习方法和双Q学习方法之间的折衷方法，来指导Agent的下一步行动。原始的Q学习方法可用于大范围空间问题，却不能应对目标运动方式不受控的情况，而双Q学习方法虽然有效地解决了运动方式不受控的目标监控问题，但未能够在大范围情景中应用，而深度带权双Q学习方法能够很好地应对大范围环境中的实时监控难题。在使用深度带权双Q学习方法实时监控时，需要对Q值表进行更新，Q值表分为Q_A表和Q_B表，每次行动后，各有50％的概率对其中一个表的值进行更新。若需更新Q_A表中的值，则从Q_A中选择所有可能的下一状态中拥有最大Q值的动作，再利用该动作在 Q_A表和Q_B表中的值进行更新。Q_A表和Q_B表利用的比例由权值β决定。β的计算考虑了不明物体的状态、机器人的状态和当前动作，在传统的Q学习方法和双Q 学习方法之间做了折衷。方法通过不断减少目标估计值与当前估计值之差δ，最终会收敛得到一个能监视并追踪不明物体的最优监控策略。

(2)机器人感知大范围空间中自身位置以及不明物体的大致位置，通过双Q 学习达到目标状态进行监控，获取不明物体的图像信息并根据图像信息进行报警。

(3)机器人能够导航追踪不明物体，因此，仅需1台机器人即可完成整个危险区域的监控，无需考虑多台监视器同步的问题，而且节约了成本。

(4)机器人感知的状态为具有马尔科夫性质的状态，具有马尔科夫性质的状态的未来状态只与当前状态有关，与之前的状态没有关系，因此摄像头无需保存过去的信息，只需专注于当前自身和不明物体的位置，既解决了摄像头信息容量有限的问题，而且节约了成本。

(5)机器人在导航追踪不明物体时，通过设置奖赏值，根据该奖赏值，可以有效区分状态好的情况与不好的情况，提高机器人学习的速度，并且在一定程度上帮助机器人追踪不明物体。

(6)机器人根据其自身和目标(不明物体)的位置，选择是否需要回到充电点进行自动充电。

附图说明

图1是本发明公开的基于深度带权双Q学习的大范围监控机器人的组成示意图。

图2是本发明公开的基于深度带权双Q学习的大范围空间、机器人以及不明物体的位置示意图。

图3是本发明公开的基于深度带权双Q学习的大范围监控方法的流程图。

其中，10,、机器人；11、传感器；12、摄像头；13、主控芯片；20、大范围空间；21、子空间；30、不明物体。

具体实施方式

下面结合本发明的原理、附图以及实施例对本发明进一步描述

实施例一

参见图1，如其中的图例所示，为一种基于深度带权双Q学习的大范围监控机器人10，该机器人10的Q值表包括Q_A表和Q_B表，Q值通过深度估值网络参数θ进行计算，其中，

Q_A值的更新公式如下：

Q_A←Q_A(s,a；θ)+α(s,a)δ；

Q_B值的更新公式如下：

Q_B←Q_B(s,a；θ)+α(s,a)δ；

该机器人10还设有实时检测其自身精确位置和不明物体大概位置的传感器11和监控不明物体的摄像头12，传感器11和摄像头12分别电连接机器人 10的主控芯片13。

该机器人10获取图像后，图像将作为深度估值网络的输入。深度估值网络由8层网络构成，所有网络节点均为修正线性单元ReLU。第1层为输入层，状态是扁平化长为84*84*3＝21168的向量，奖赏信号为数值型标量，第2-5层为卷积层。第2层的卷积核尺寸为8*8，步长为4*4，输出通道数为32，这一层的输出维度为20*20*32。第3层的卷积核尺寸为4*4，步长为2*2，输出通道数为64，这一层的输出维度为9*9*64。第4层的卷积核尺寸为3*3，步长为1*1，输出通道数为64，这一层输出维度为7*7*64。第5层的卷积核尺寸为7*7，步长为1*1，输出通道数为1*1*512。第7层是全连接层，输出通道数为512。第8层也是全连接层，输出通道数为行动数，即输出值为每个状态-行动对对应的Q值。在经验重放机制中，每批样本数目为32，重放记忆单元大小为1000000，目标Q值每 10000个样本更新一次,当前Q值每行动数个样本更新一次。

参见图2和图3，如其中的图例所示，一种基于深度带权双Q学习的大范围监控方法，包括如下步骤：

S1、提供一大范围空间20和一机器人10，机器人10在大范围空间20中通过双Q学习方法在工作状态下从当前状态到达目标状态；

工作状态时，大范围空间20中有不明物体30；

目标状态时，不明物体30在机器人10的监控范围内；

S2、机器人10设置其初始状态为当前状态s；

S3、机器人10检测并判断当前状态s是否为工作状态，如否，进入S4，如是，进入S5；

S4、机器人10待机后到达下一状态s′，进入S11；

S5、机器人10检测并判断当前状态s是否为目标状态，如否，进入S6，如是，进入S7；

S6、机器人10选择并执行当前动作a后到达下一状态s′，进入S8；

S7、机器人10选择并执行当前动作a后到达下一状态s′并监控不明物体30，进入S8；

S8、机器人10根据下一状态s′得到奖赏值R，进入S9；

S9、机器人10等概率的选择更新Q_A值或Q_B值并进行更新，进入S10

S10、机器人10判断其Q值表是否收敛，如否，进入S11，如是，进入S12；

S11、机器人10重置下一状态s′为当前状态s，回到S3；

S12、机器人10制定最优监控策略，进入S13；

S13、机器人10重置下一状态s′为当前状态s，进入S14；

S14、机器人10通过深度估值网络检测并判断当前状态s是否为工作状态，如否，进入S15，如是，进入S16；

S15、机器人10待机后到达下一状态s′，返回S13；

S16、机器人10检测并判断当前状态s是否为目标状态，如否，进入S17，如是，进入S18；

S17、机器人10根据最优监控策略到达下一状态s′，回到S13；

S18、机器人10选择并执行当前动作a后到达下一状态s′并监控不明物体 30，回到S13。

上述技术方案中，在同一大范围空间中，机器人10仅初次选择并执行当前动作a前初始化其Q值、学习率α、目标折扣γ、动作选择方式、权重β、以及深度估值网络的结构和参数θ等，本实施例中，初始化后，Q值为0、自由参数c为 1、学习率α为0.8、目标折扣γ为0.95、动作选择方式为方式、权重β为0.5。

上述技术方案中，大范围空间20划分为若干子空间21，机器人10选择并执行当前动作a后，静止于当前子空间或移动至与当前子空间相邻的子空间，每个子空间21不大于机器人10的监控范围。

上述技术方案中，机器人10检测当前状态s时，通过其传感器获知不明物体30的大概位置loc_i和机器人10的精确位置loc_a，记作s＝<loc_i,loc_a>。上述状态具有马尔科夫性质，具有马尔科夫性质的状态的未来状态只与当前状态有关，与之前的状态没有关系。

上述技术方案中，机器人10监控不明物体30时，通过其摄像头12获取不明物体的图像信息。

上述技术方案中，机器人10选择当前动作a时，有较大概率选择最大Q值所代表的动作，较小概率选择其他任意动作。

一种实施方式中，机器人10的摄像头12为360度可旋转摄像头。

一种实施方式中，机器人10还设有报警器(图中未视出)，该报警器电连接机器人10的主控芯片13。机器人10根据图像信息，通过深度估值网络进行特征提取和分类，自行判断是否有不明物体在监控范围内，若有则通过其报警器进行报警。

一种实施方式中，机器人10通过方式选择当前动作a。动作为机器人10的运动方向，即向上、向下、向左、向右以及静止。

一种实施方式中，奖赏值R的设置如下：

一种实施方式中，机器人10不断更新其学习率α，其中，所述机器人执行当前动作a时不明物体也在移动构成双移状态，n为双移状态下执行a动作的次数。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于深度带权双Q学习的大范围监控方法，其特征在于，包括如下步骤：

S1、提供一大范围空间和一机器人，所述机器人在所述大范围空间中，在工作状态下通过双Q学习方法从当前状态到达目标状态，所述机器人的Q值表包括Q_A表和Q_B表，Q值通过深度估值网络参数θ进行计算，其中，

Q_A值的更新公式如下：

Q_A←Q_A(s,a；θ)+α(s,a)δ；

Q_B值的更新公式如下：

Q_B←Q_B(s,a；θ)+α(s,a)δ；

其中，β_A，β_B表示权重；s′表示下一状态；a^*表示下一状态的最优动作；a_L表示下一状态的最差动作；c为自由参数，c≥0；δ表示时间差分；R表示奖赏值；γ表示目标折扣，0≤γ≤1；s表示当前状态，a表示当前动作；α表示学习率，α在区间(0,1)内，θ表示深度估值网络参数；

工作状态时，所述大范围空间中有不明物体；

目标状态时，所述不明物体在所述机器人的监控范围内；

S2、所述机器人设置其初始状态为当前状态s；

S4、所述机器人待机后到达下一状态s′，进入S11；

S5、所述机器人检测并判断当前状态s是否为目标状态，如否，进入S6，如是，进入S7；

S8、所述机器人根据下一状态s′得到奖赏值R，进入S9；

S10、所述机器人判断其Q值表是否收敛，如否，进入S11，如是，进入S12；

S11、所述机器人重置下一状态s′为当前状态s，回到S3；

S12、所述机器人制定最优监控策略，进入S13；

S13、所述机器人重置下一状态s′为当前状态s，进入S14；

S15、所述机器人待机后到达下一状态s′，返回S13；

S16、所述机器人通过深度估值网络检测并判断当前状态s是否为目标状态，如否，进入S17，如是，进入S18；

S18、所述机器人选择并执行当前动作a后到达下一状态s′并监控所述不明物体，回到S13；

2.根据权利要求1所述的基于深度带权双Q学习的大范围监控方法，其特征在于，所述大范围空间划分为若干子空间，所述机器人选择并执行当前动作a后，静止于当前子空间或移动至与当前子空间相邻的子空间，每个所述子空间不大于所述机器人的监控范围。

3.根据权利要求1所述的基于深度带权双Q学习的大范围监控方法，其特征在于，所述机器人检测当前状态s时，通过其传感器获知所述不明物体的大概位置loc_i和所述机器人的精确位置loc_a，记作s＝<loc_i,loc_a>。

4.根据权利要求1所述的基于深度带权双Q学习的大范围监控方法，其特征在于，所述机器人通过其摄像头获取图像信息，通过深度估值网络进行特征提取和分类，自行判断是否有不明物体在监控范围内，若有则通过其报警器进行报警。

5.根据权利要求1所述的基于深度带权双Q学习的大范围监控方法，其特征在于，所述机器人通过ò-greedy方式选择当前动作a。

6.根据权利要求1所述的基于深度带权双Q学习的大范围监控方法，其特征在于，所述机器人选择当前动作a时，有较大概率选择最大Q值所代表的动作，较小概率选择其他任意动作。

7.根据权利要求1所述的基于深度带权双Q学习的大范围监控方法，其特征在于，所述奖赏值R的设置如下：

8.根据权利要求1所述的基于深度带权双Q学习的大范围监控方法，其特征在于，所述机器人不断更新其学习率α，其中，所述机器人执行当前动作a时不明物体也在移动构成双移状态，n为双移状态下执行a动作的次数。

9.一种基于深度带权双Q学习的大范围监控机器人，其特征在于，所述机器人的Q值表包括Q_A表和Q_B表，Q值通过深度估值网络参数θ进行计算，其中，

Q_A值的更新公式如下：

Q_A←Q_A(s,a；θ)+α(s,a)δ；

Q_B值的更新公式如下：

Q_B←Q_B(s,a；θ)+α(s,a)δ；

10.根据权利要求9所述的基于深度带权双Q学习的大范围监控机器人，其特征在于，所述机器人还设有报警器，所述报警器电连接所述机器人的主控芯片。