CN106373160A

CN106373160A - 一种基于深度强化学习的摄像机主动目标定位方法

Info

Publication number: CN106373160A
Application number: CN201610797462.XA
Authority: CN
Inventors: 刘华平; 张辉; 孙富春
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2017-02-01
Anticipated expiration: 2036-08-31
Also published as: CN106373160B

Abstract

本发明提供了一种在图像采集应用中摄像机主动调整进行目标定位的方法，属于模式识别技术领域和摄像机主动定位技术领域。该方法包括训练一个评价摄像机定位效果的深度神经网络；进行多次目标定位试验，在定位实验过程中，训练一个拟合强化学习值函数的深度神经网络，通过深度神经网络判断摄像机“上转”、“下转”、“左转”、“右转”、“放大”、“缩小”和“不变”7种操作的优劣；采用决策网络根据摄像机当前获取的图像信息，对摄像机操作做出决策。该发明中提出的方法，基于深度强化学习算法，提高了采集图像的质量。能够适应不同的目标定位任务，自主学习定位方法，人为参与环节很少，是一个摄像机主动学习，自主目标定位的方法。

Description

一种基于深度强化学习的摄像机主动目标定位方法

技术领域

本发明涉及一种基于深度强化学习的摄像机主动目标定位方法，属于模式识别技术领域和摄像机主动定位技术领域。

背景技术

近年来，摄像机已经越来越多的应用于生产生活中，如：安保监控，车辆检测，目标跟踪，人脸识别。现阶段的应用场景中，摄像机提供图像信息，使用人工监控或目标检测算法等方式实现相应应用。在整个摄像机图像采集过程中，摄像机固定不动或者按照指定的路线循环调整角度，不能根据实际场景，主动调整视野，对目标进行主动定位。

现有的技术文献中，发明专利“摄像机红外主动跟踪装置及采用该装置的摄像机控制***”，公开号为102376156A，通过接收红外发射装置发出的红外信号并根据该信号对目标位置进行分析判定的目标信号拾取器，调整摄像机位置。该方法的缺点是，只能应用于对红外信号能够判别的目标定位场景，不能根据不同的应用做出相应调整。另外，该方法需要添加额外的红外装置，不是直接根据图像信息做出调整。

深度神经网络包含多层神经网络，后一层神经网络的输入是前一层神经网络的输出，一般情况下每一层神经网络都会有采用一种非线性的激励函数，也称激活函数，常用的激励函数有，ReLU函数:ReLU(a)＝max(0,a),其中a为输入量，如果输入量a小于0则输出为0，否则输出其本身；Sigmoid函数：其中e为自然常数。

发明内容

本发明的目的是提出一种基于深度强化学习的摄像机主动目标定位方法，提供一种在图像采集应用中摄像机主动调整进行目标定位的方法，该方法基于深度强化学习算法，提高了采集图像的质量。本发明摄像机可以通过“上转”、“下转”、“左转”、“右转”、“放大”、“缩小”和“不变”七种操作方式定位目标物体，利用深度神经网络作为强化学习值函数的逼近器，将图像信息输入深度神经网络，从而确定当前摄像机应该做出何种操作来定位目标所在位置。

本发明提出的一种基于深度强化学习的摄像机主动目标定位方法，其特征在于，该方法包括以下步骤：

(1)训练一个评价摄像机定位效果的深度神经网络，将该网络命名为评价网络N_R由多层神经网络组成；

(2)进行多次目标定位试验，在定位实验过程中，训练一个拟合强化学习值函数的深度神经网络，将该网络命名为决策网络N_Q，通过决策网络N_Q判断摄像机7种操作的优劣；

(3)完成决策网络N_Q训练后，采用决策网络N_Q根据摄像机当前获取的图像信息，对摄像机操作做出决策。

本发明提出的基于深度强化学习的摄像机主动目标定位方法的技术特点及有益效果：

为了实现摄像机对目标主动定位的应用，本发明结合了深度神经网络算法和强化学习算法，根据摄像机拍摄到的图像，控制摄像机转动，从而实现目标定位的摄像机控制***。强化学习又称增强学习，通过不断试错积累经验，根据积累的经验优化控制策略实现完成目标的目的。将强化学习算法应用于摄像机主动定位，摄像机获取的图像作为学习的信息来源，***需要有很好地处理图像数据的能力。深度神经网络能够有效地提取图像特征，而且可以通过学习的方式优化特征，使得特征适应于当前任务。

本方法具有以下有益效果：

1、本发明中的用于摄像机主动目标定位方法，决策网络根据当前图像信息，选择摄像机操作，完成目标定位，定位过程主动完成，不需要人为参与。

2、本发明中摄像机主动定位目标，对不同的目标定位任务，只需训练不同的评价网络，其余的学习算法具有普适性，通用性。

3、本发明采用评价网络对图像进行质量评价的方式，评价摄像机目标定位的效果，以此确定摄像机执行当前操作的回报，让摄像机从反复的试验中，自主学习实现目标定位方法。

具体实施方式

本发明提出的基于深度强化学习的摄像机主动目标定位方法的具体实现方式，包括以下步骤：

(1)训练一个评价摄像机定位效果的深度神经网络，将该网络命名为评价网络N_R由多层神经网络组成，具体步骤如下：

(1-1)设置评价网络N_R：评价网络N_R的网络结构依次为：输入层为RGB图像，图像高为H_net，宽为W_net，(一般设置为H_net＝W_net＝256像素)，由于RGB图像为3个维度，所以输入层的维度为H_net×W_net×3；L_RC层为卷积神经网络，激励函数为ReLU函数(L_RC层数一般取值为3～7之间)；L_RP层为全连接层(L_RP的层数一般取值为2～4之间)，前L_RP-1层的激励函数也为ReLU函数，最后一层全连接层激励函数为Sigmoid函数，且设置维度为1，作为评价网络N_R输出，评价网络N_R输出定义为评价值；将评价网络N_R中的所有参数统一表示为θ_R(参数为随机初始化，在训练阶段迭代更新)，评价网络N_R逐层的运算过程表示一个函数映射，命名为评价函数其中·表示网络的输入图像，实际计算中会输入不同的图像；R表示实数，函数意义为将维度为H_net×W_net×3的实数空间图像映射到1维实数空间的评价值；

(1-2)采集训练评价网络N_R的数据集：具体步骤如下：

(1-2-1)摄像机对含有目标的场景进行图像采集，目标被拍摄的角度和大小随机，采集到的图像为RGB图像，高为H_origin，宽为W_origin，此值由实际相机决定，总共采集M_origin张图像，记为IO_i，其中i＝1,2,…,M_origin，M_origin取值大于10000张较为合适；

(1-2-2)以原始图像的左上角为坐标原点，向下为x轴，向右为y轴；使用矩形框对每一张采集到的图像中的目标位置进行标注，将矩形框表示为((x₀,y₀)；(x₁,y₂))_i其中i＝1,2,…,M_origin，(x₀,y₀)和(x₁,y₁)为矩形框左上角和右下角在图像中的坐标；

(1-2-3)从每一张原始图像中遍历截取高h，宽w的所有图像，其中h取值遍历区间[H_origin/2,H_origin]内的所有整数，w取值遍历区间[W_origin/2,W_origin]内的所有整数，每张原始图像可以截取M_cut张图像，总截取图像数为M_origin×M_cut，获取的截取图像记为IC_i,j，其中i＝1,2,…,M_origin，j＝1,2,…,M_cut；

(1-2-4)计算截取图像IC_i,j和原始图像IO_i中目标所在的矩形框((x₀,y₀)；(x₁,y₂))_i的面积交并比作为每一张截取图像IC_i,j的品质分数s_i,j，即：如果截取图像IC_i,j的面积为矩形框((x₀,y₀)；(x₁,y₂))_i的面积为两者相交部分的面积为则每一张截取图像IC_i,j的品质分数

(1-2-5)通过双线性插值法，将所有截取图像的大小变化为H_net*W_net，并对所有截取图像重新编号后获得训练数据集其中M_train＝M_origin×M_cut为数据集中图像数量，数据集D中每个样本对应的品质分数作为训练数据集的标签，记为

(1-3)从数据集D中随机挑选M_R,b组样本，记为批量样本以及标签S中与其对应的批量标签一般批量大小M_R,b取值为100；

(1-4)根据步骤(1-1)的评价函数计算评价网络N_R对批量样本D_batch的评价值其中i＝1,2,…,M_R,b；

(1-5)定义评价网络N_R的优化目标为其中为第i个样本dⁱ输入网络后输出的评价值，将最小化评价值和标签之间的欧式距离作为优化目标训练网络，计算优化目标对评价网络参数θ_R的梯度为

(1-6)采用随机梯度下降法，更新评价网络参数其中α_R为评价网络的学习率，一般设置为0.01；

(1-7)重复上述步骤(1-3)～(1-6)，不断更新评价网络参数θ_R，直到评价网络收敛，完成评价网络训练，评价网络收敛的依据是连续C_R次优化目标J小于阈值η_R，一般C_R取100次，阈值η_R取0.05；

(2)进行多次目标定位试验，在定位实验过程中，训练一个拟合强化学习值函数的深度神经网络，将该网络命名为决策网络N_Q，通过决策网络N_Q判断摄像机7种操作的优劣，具体步骤如下：

(2-1)设置决策网络N_Q结构依次为：输入层为RGB图像，图像高为H_net，宽为W_net，与评价网络相同；L_QC层为卷积神经网络，激励函数为ReLU函数(L_QC一般取值为3～7之间)；L_QP层为全连接层(L_QP一般取值为2～4之间)，前L_QP-1层的激励函数也为ReLU函数，最后一层全连接层无激励函数，设置维度为7，作为网络输出，将决策网络N_Q中的全部参数统一表示为θ_Q(参数为随机初始化，在训练阶段迭代更新)，决策网络N_Q逐层的运算过程表示为一个函数映射，命名为决策函数其中·表示网络的输入图像，实际计算中会输入不同的图像；R表示实数，函数意义将维度为H_net×W_net×3的实数空间图像映射到7维实数空间的向量输出；7维向量输出对应摄像机7种操作的决策值，7种操作分别为：“上转”、“下转”、“左转”、“右转”、“放大”、“缩小”和“不变”；

(2-2)设置一个深度神经网络，其网络结构与决策网络N_Q结构完全相同，命名为靶标网络N_T，网络的参数表示为θ_T，令θ_T＝θ_Q，对应的靶标函数为其中·表示网络的输入图像，实际计算中会输入不同的图像；R表示实数，函数意义为将维度为H_net×W_net×3的实数空间图像映射到7维实数空间的向量输出；

(2-3)设置一个可以存储M_buffer组数据的缓存区B，设置缓存区B中当前存储样本编号M_sample＝0；

(2-4)设置一个训练计数器c₁＝0；

(2-5)设置一个连续成功定位计数器c₂＝0；

(2-5)设置当前时间t＝0；

(2-6)初始化摄像机到常规位置，视野最大化，开始一次定位试验；

(2-7)摄像机采集当前时刻的图像，采用双线性插值法，把图像大小变换为H_net*W_net，得到t时刻的RGB图像I_t，将图像I_t输入评价网络N_R，得到图像I_t的评价值

(2-8)从“上转”、“下转”、“左转”、“右转”、“放大”、“缩小”和“不变”七种操作中根据以下法则挑选一种操作，记为a_t：

(2-8-1)产生一个在区间[0,1]之间随机数q，如果q>ε，则将图像I_t输入决策网络N_Q中，得到7维的决策网络输出决策值7个决策值分别对应“上转”、“下转”、“左转”、“右转”、“放大”、“缩小”和“不变”七种操作，选择7个决策值中最大值对应的操作，作为选择的操作a_t；其中，ε为训练中采取随机策略的概率，取值0～1之间，一般取值为0.1；

(2-8-2)如果(2-8-1)中产生的随机数q≤ε，根据评价值y_t选择操作如下：如果y_t>β，选择“不变”操作作为操作a_t，如果y_t≤β，从除去“不变”操作外的其余6种操作中随机选择1种操作作为操作a_t；β为设置的摄像机成功定位目标对应的评价分界值，取值0～1之间，一般取值为0.6；

(2-9)摄像机执行步骤(2-8)选择的操作a_t，获得新的图像，采用双线性插值法，把图像大小变换为H_net*W_net，得到t+1时刻的RGB图像I_t+1；将图像I_t+1输入评价网络N_R，得到图像I_t+1的评价值

(2-10)计算当前操作的回报值，记为r_t：

(2-10-1)如果执行操作a_t为“不变”，根据图像I_t+1的评价值s_t+1计算回报值，若评价值s_t+1>β，则回报值r_t＝P_s；若评价值s_t+1≤β，则当前操作的回报值r_t＝-P_s；其中P_s为正数，一般P_s取值为1；

(2-10-2)如果执行操作a_t为其余任意一种操作，则根据图像I_t和I_t+1的评价差值计算回报值，评价差值Δs＝s_t+1-s_t，如果Δs>0，则回报值r_t＝P_g，否则，回报值r_t＝-P_g；其中P_g都为正数，一般P_g取值为0.1；

(2‐11)计算当前操作的终止标志，记为u_t：如果执行操作a_t为“不变”，则u_t＝0；否则，u_t＝1；

(2-12)将图像I_t，执行操作a_t，回报值r_t，终止标志u_t，图像I_t+1组成一组五元组(I_t,a_t,r_t,u_t,I_t+1)存入缓存区B中编号M_sample的存储空间更新编号M_sample，如果M_sample≥M_buffer，则M_sample＝0，否则，M_sample＝M_sample+1；

(2-13)如果缓存区B中存储的四元组数量小于M_start，则跳转到步骤(2-21)；否则，转步骤(2-14)，其中M_start为开始训练时的样本数，一般取值为1000；

(2-14)开始决策网络N_Q训练，从缓存区B中随机选取M_Q,b组五元组样本数据，将M_Q,b组五元组数据重新标号，记为其中j＝1,2,3...M_Q,b；M_Q,b为每次训练决策网络N_Q选取的样本批量数，一般取值为32；

(2-15)采用靶标网络N_T，计算每个样本的靶标函数值定义靶标估计值其中γ为折损参数，一般设置为0.99；j＝1,2,3...M_Q,b；

(2-16)计算当前决策网络N_Q对每个样本的七个操作的决策值其中j＝1,2,3...M_Q,b；

(2-17)选择每个样本的七个决策值中，对应操作a^j的决策值，记为

(2-18)定义决策网络N_Q的优化目标为计算优化目标对评价网络参数θ_Q的梯度为

(2-19)采用随机梯度下降法，更新决策网络参数其中α_R为决策网络的学习率，一般设置为0.0001；

(2-20)更新计数值c₁＝c₁+1；如果c₁>Count，更新靶标网络N_T的参数θ_T＝θ_Q，清零c₁＝0，否则，不更新靶标网络N_T的参数；

(2-21)如果操作a_t为“不变”，评价值s_t+1>β，则更新连续成功定位计数器c₂＝c₂+1；如果操作a_t为“不变”，评价值s_t+1≤β，则清零连续成功定位计数器c₂＝0；如果操作a_t为其余操作，则不更新c₂；

(2-22)如果操作a_t为“不变”，则此次定位试验结束，设置t＝0重新开始计时，跳转到步骤(2-23)；如果执行操作a_t为其余六种操作之一，则更新时间t＝t+1，跳转到步骤(2-7)，继续此次目标定位试验；

(2-23)判断网络训练是否完成，如果连续成功定位计数器c₂>C_Q，则完成决策网络N_Q训练，其中C_Q为设置的连续成功次数的阈值，一般取值为100次；否则，继续训练，跳转到步骤(2-6)；

(3)完成决策网络N_Q训练后，采用决策网络N_Q根据摄像机当前获取的图像信息，对摄像机操作做出决策；具体步骤如下：

(3-1)摄像机采集当前图像，采用双线性插值法，把图像大小变换为H_net*W_net，得到图像I；

(3-2)将图像I输入决策网络中，得到7种操作的决策值选择7种操作中决策值最大的操作a；

(3-3)摄像机执行操作a；

(3-4)重复步骤(3-1)～步骤(3-3)，根据学习到的决策网络完成目标定位任务。

Claims

1.一种基于深度强化学习的摄像机主动目标定位方法，其特征在于，该方法包括以下步骤：

2.如权利要求1所述方法，其特征在于，所述步骤(1)具体步骤如下：

(1-1)设置评价网络N_R：评价网络N_R的网络结构依次为：输入层为RGB图像，图像高为H_net，宽为W_net，由于RGB图像为3个维度，所以输入层的维度为H_net×W_net×3；L_RC层为卷积神经网络，激励函数为ReLU函数；L_RP层为全连接层，前L_RP-1层的激励函数也为ReLU函数，最后一层全连接层激励函数为Sigmoid函数，且设置维度为1，作为评价网络N_R输出，评价网络N_R输出定义为评价值；将评价网络N_R中的所有参数统一表示为θ_R，评价网络N_R逐层的运算过程表示一个函数映射，命名为评价函数其中·表示网络的输入图像，实际计算中会输入不同的图像；R表示实数，函数意义为将维度为H_net×W_net×3的实数空间图像映射到1维实数空间的评价值；

(1-2)采集训练评价网络N_R的数据集：

(1-3)从数据集D中随机挑选M_R,b组样本，记为批量样本以及标签S中与其对应的批量标签

(1-6)采用随机梯度下降法，更新评价网络参数其中α_R为评价网络的学习率；

(1-7)重复上述步骤(1-3)～(1-6)，不断更新评价网络参数θ_R，直到评价网络收敛，完成评价网络训练，评价网络收敛的依据是连续C_R次优化目标J小于阈值η_R。

3.如权利要求2所述方法，其特征在于，所述步骤(2)具体步骤如下：

(2-1)设置决策网络N_Q结构依次为：输入层为RGB图像，图像高为H_net，宽为W_net，与评价网络相同；L_QC层为卷积神经网络，激励函数为ReLU函数；L_QP层为全连接层，前L_QP-1层的激励函数也为ReLU函数，最后一层全连接层无激励函数，设置维度为7，作为网络输出，将决策网络N_Q中的全部参数统一表示为θ_Q，决策网络N_Q逐层的运算过程表示为一个函数映射，命名为决策函数其中·表示网络的输入图像，实际计算中会输入不同的图像；R表示实数，函数意义将维度为H_net×W_net×3的实数空间图像映射到7维实数空间的向量输出；7维向量输出对应摄像机7种操作的决策值，7种操作分别为：“上转”、“下转”、“左转”、“右转”、“放大”、“缩小”和“不变”；

(2-3)设置一个存储M_buffer组数据的缓存区B，设置缓存区B中当前存储样本编号M_sample＝0；

(2-4)设置一个训练计数器c₁＝0；

(2-5)设置一个连续成功定位计数器c₂＝0；

(2-5)设置当前时间t＝0；

(2-10)计算当前操作的回报值，记为r_t：

(2-10-1)如果执行操作a_t为“不变”，根据图像I_t+1的评价值s_t+1计算回报值，若评价值s_t+1>β，则回报值r_t＝P_s；若评价值s_t+1≤β，则当前操作的回报值r_t＝-P_s；其中P_s为正数；

(2-10-2)如果执行操作a_t为其余任意一种操作，则根据图像I_t和I_t+1的评价差值计算回报值，评价差值Δs＝s_t+1-s_t，如果Δs>0，则回报值r_t＝P_g，否则，回报值r_t＝-P_g；其中P_g都为正数；

(2-12)将图像I_t，执行操作a_t，回报值r_t，终止标志u_t，图像I_t+1组成一组五元组 (I_t,a_t,r_t,u_t,I_t+1)存入缓存区B中编号M_sample的存储空间更新编号M_sample，如果M_sample≥M_buffer，则M_sample＝0，否则，M_sample＝M_sample+1；

(2-13)如果缓存区B中存储的四元组数量小于M_start，则跳转到步骤(2-21)；否则，转步骤(2-14)，其中M_start为开始训练时的样本数；

(2-14)开始决策网络N_Q训练，从缓存区B中随机选取M_Q,b组五元组样本数据，将M_Q,b组五元组数据重新标号，记为其中j＝1,2,3...M_Q,b；M_Q,b为每次训练决策网络N_Q选取的样本批量数；

(2-15)采用靶标网络N_T，计算每个样本的靶标函数值定义靶标估计值其中γ为折损参数；j＝1,2,3...M_Q,b；

(2-19)采用随机梯度下降法，更新决策网络参数其中α_R为决策网络的学习率；

(2-23)判断网络训练是否完成，如果连续成功定位计数器c₂>C_Q，则完成决策网络N_Q训练，其中C_Q为设置的连续成功次数的阈值；否则，继续训练，跳转到步骤(2-6)。

4.如权利要求3所述方法其特征在于，所述步骤(1-2)具体步骤如下：

(1-2-1)摄像机对含有目标的场景进行图像采集，目标被拍摄的角度和大小随机，采集到的图像为RGB图像，高为H_origin，宽为W_origin，此值由实际相机决定，总共采集M_origin张图像，记为IO_i，其中i＝1,2,…,M_origin，M_origin；

5.如权利要求3所述方法，其特征在于，所述步骤(2-8)具体包括以下步骤：

(2-8-1)产生一个在区间[0,1]之间随机数q，如果q>ε，则将图像I_t输入决策网络N_Q中，得到7维的决策网络输出决策值7个决策值分别对应“上转”、“下转”、“左转”、“右转”、“放大”、“缩小”和“不变”七种操作，选择7个决策值中最大值对应的操作，作为选择的操作a_t；其中，ε为训练中采取随机策略的概率，取值0～1之间；

(2-8-2)如果(2-8-1)中产生的随机数q≤ε，根据评价值y_t选择操作如下：如果y_t>β，选择“不变”操作作为操作a_t，如果y_t≤β，从除去“不变”操作外的其余6种操作中随机选择1种操作作为操作a_t；β为设置的摄像机成功定位目标对应的评价分界值，取值0～1之间。

6.如权利要求1所述方法，其特征在于，所述步骤(3)的具体步骤如下：

(3-3)摄像机执行操作a；