CN111753982A

CN111753982A - 一种基于强化学习的人机融合自主性边界切换方法及***

Info

Publication number: CN111753982A
Application number: CN202010478808.6A
Authority: CN
Inventors: 康宇; 张倩倩; 王雪峰; 游诗艺; 吕文君
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-10-09
Anticipated expiration: 2040-05-29
Also published as: CN111753982B

Abstract

本发明公开了一种基于强化学习的人机融合自主性边界切换方法及***，属于人与机器(人工智能)共享控制技术领域，包括：获取决策信息，该决策信息包括被控对象所处环境状态对应的动作、环境状态对应的动作的不确定度以及人工对被控对象所处环境状态的判断结果；利用深度强化学习网络对决策信息进行处理，预测边界切换结果。本发明将自主性边界处理成动态边界，能够根据不同的问题背景，根据人和AI共享的过程，学习更优的界，实现人与机器共享自主控制效果。

Description

一种基于强化学习的人机融合自主性边界切换方法及***

技术领域

本发明涉及人与机器(人工智能)共享控制技术领域，特别涉及一种基于强化学习的人机融合自主性边界切换方法及***。

背景技术

在传统控制或者如今火热的人工智能控制领域，人充当的是控制***目标的终极来源的角色。但是人的各种感官等具有感知各种外界环境的能力，可以充当控制***的传感器；人的大脑具有独特的智能，可以作为***的控制器以及人的手脚可以作为具有执行力的执行器。因此，人的作用可以不仅仅体现在控制输入上。如果将人考虑到控制***的闭环中，利用人特有的智能优势，实现与智能体的共享控制，将会在诸多涉及人机***的共享控制问题中发挥更大的作用。

目前有关人机***自主性边界的种类包括：绝对边界、相对边界和其他边界。绝对边界指与具体人机***无关的静态边界，是人机切换过程中不可逾越的确定边界。相对边界是与具体人机***相关的动态边界。环境不确定性越大，就会造成相对边界越难确定。其他边界如对抗边界，指在对抗环境下需要考虑的自主性边界、网络化人机边界等。

人机***中人在***的构建中的地位有三种可能：一是***的目标、操控等需要人的深度参与，人是整个***中不可缺少的一个部分，此时“人在回路”(in-the-loop)；二是***目标由人给出，执行则由具有部分自主性的机器自行进行，此时“人在回路上”(on-the-loop)；第三则是机器可根据感知信息独立地确定目标并给出具体指令，无需人的介入，此时“人在回路外”(out-of-the-loop)。人在回路外的***不算严格意义的人机***；人在回路上的***中人的因素的考虑是可以与机器分离割裂的；而“人在回路”的人机***的设计和分析则同时包含了人和机器两个因素。

发明内容

本发明的目的在于根据被控环境的要求，进行更自主更合适的边界切换，实现人与机器共享自主控制效果。

为实现以上目的，本发明采用一种基于强化学习的人机融合自主性边界切换方法，包括：

获取决策信息，该决策信息包括被控对象所处环境状态对应的动作、环境状态对应的动作的不确定度以及人工对被控对象所处环境状态的判断结果；

利用深度强化学习网络对决策信息进行处理，预测边界切换结果。

进一步地，所述决策信息

其中s_t表示被控对象的环境状态，a_t表示环境状态s_t对应的动作，c_t表示动作a_t的不确定度，h_t表示人工对于状态s_t的判断。

进一步地，还包括：

采用贝叶斯神经网络估计所述动作a_t的不确定度c_t。

进一步地，所述采用贝叶斯神经网络估计所述动作a_t的不确定度c_t，包括：

利用给定数据集训练参数为φ的贝叶斯神经网络；

利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩，并根据一阶矩和二阶矩获得方差作为所述动作a_t的不确定度c_t；

利用训练得到的贝叶斯神经网络对环境状态s_t对应的动作的不确定性进行预测，得到预测分布。

进一步地，所述利用深度强化学习网络对决策信息进行处理，预测边界切换结果，包括：

S1、获取所述决策信息作为深度强化学习网络的输入；

S2、根据所述决策信息，计算演员网络的输出边界τ_t；

S3、根据演员网络的输出边界τ_t，计算奖赏值，并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算，得到时间差分δ；

S4、利用公式

对评论家网络Q_ω进行更新，其中

表示当前时刻对应的值函数，α^ω表示评论家网络Q_ω的权值参数步长，

表示决策信息，ω表示评论家网络参数，I表示衰减系数，

表示值函数

的梯度；

S5、利用公式

对演员网络π_θ进行更新，其中

表示当前时刻对应的值函数，α^θ表示演员网络π_θ的权值参数步长，θ表示演员网络参数，I表示衰减系数，

表示值函数

的梯度；

S6、重复执行步骤S2～S5，直至深度强化学习网络收敛，并将深度强化学习网络输出作为边界切换预测结果。

另一方面，采用一种基于强化学习的人机融合自主性边界切换***，包括：AI决策模块、人工决策模块、不确定性度量模块、被控对象以及边界切换模块，被控对象分别与AI决策模块和人工决策模块连接，不确定性度量模块与AI决策模块连接，AI决策模块和人工决策模块的输出均与边界切换模块连接，边界切换模块的输出分别与AI决策模块和人工决策模块的输入连接，其中：

AI决策模块根据被控对象当前的环境状态得到当前的环境状态对应的动作；

人工决策模块用于通过人工对被控对象当前的环境状态进行判断，得到判断结果；

不确定性度量模块用于对AI决策模块的输出值进行不确定性估计，得到当前的环境状态对应的动作的不确定度；

边界切换模块用于利用深度强化学习网络对AI决策模块、不确定性度量模块和人工决策模块的输出结果进行处理，预测边界切换结果。

进一步地，在所述被控对象为视觉数据时，所述AI决策模块采用卷积神经网络序列；在所述被控对象为序列数据时，所述AI决策模块采用循环神经网络序列。

进一步地，所述AI决策模块、不确定性度量模块和人工决策模块的输出结果构成决策信息

其中s_t表示环境状态，a_t表示环境状态s_t对应的动作，c_t表示动作a_t的不确定度，h_t表示人工对于状态s_t的判断。

进一步地，所述不确定性度量模块包括训练单元、预测单元和不确定度估算单元；

训练单元用于利用给定数据集训练参数为φ的贝叶斯神经网络；

不确定度估算单元用于利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩，并根据一阶矩和二阶矩获得方差作为所述动作a_t的不确定度c_t；

预测单元用于利用训练得到的贝叶斯神经网络对环境状态s_t对应的动作的不确定性进行预测，得到预测分布。

进一步地，所述边界切换模块包括：获取单元、输出边界计算单元、时间差分计算单元、第一更新单元、第二更新单元和预测单元；

获取单元用于获取决策信息

作为深度强化学习网络的输入；

输出边界计算单元用于根据所述决策信息

计算演员网络的输出边界τ_t；

时间差分计算单元用于根据演员网络的输出边界τ_t，计算奖赏值，并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算，得到时间差分δ；

第一更新单元用于利用公式

对评论家网络Q_ω进行更新，其中

表示当前时刻对应的值函数，α^ω表示评论家网络Q_ω的权值参数步长，ω表示评论家网络参数，I表示衰减系数，

表示值函数

的梯度；

第二更新单元用于利用公式

对演员网络π_θ进行更新，其中

表示值函数

的梯度；

预测单元用于控制输出边界计算单元、时间差分计算单元、第一更新单元以及第二更新单元循环动作直至深度强化学习网络收敛时，将深度强化学习网络输出作为边界切换预测结果。

与现有技术相比，本发明存在以下技术效果：本发明根据被控对象的具体被控环境的要求，在考虑人机融合的基础上，着重于切换边界的学习，不同于现有技术中的静态边界的使用，本方案中将自主性边界处理成动态边界，能够根据不同的问题背景，根据人和AI共享的过程，学习更优的界，既能达到充分发挥人和机器的各自优势，又能相互弥补缺陷，实现人与机器共享自主控制效果。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1是一种基于强化学习的人机融合自主性边界切换方法的流程示意图；

图2是一种基于强化学习的人机融合自主性边界切换***的结构示意图；

图3是AI决策***的架构图。

具体实施方式

为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。

如图1所示，本实施例公开了一种基于强化学习的人机融合自主性边界切换方法，包括如下步骤T1至T2：

T1、获取决策信息，该决策信息包括被控对象所处环境状态对应的动作、环境状态对应的动作的不确定度以及人工对被控对象所处环境状态的判断结果；

T2、利用深度强化学习网络对决策信息进行处理，预测边界切换结果。

需要说明的是，被控对象以半自动驾驶车辆为例，上述步骤T1所获取的决策信息包括车辆所处外界环境的当前状态s_t(包括车辆的位置，速度，所处道路信息，以及其他车辆的信息等)，以及AI决策***根据当前状态s_t发出的动作信号a_t(比如转向角度，制动大小等)，不确定性评估模块针对AI决策***的动作信号a_t所做出的不确定度评估c_t，以及半自动驾驶环境中人类对车辆所处外界环境状态的安全级别判断结果h_t；上述步骤T2中利用深度强化学***之间决策权限的切换，进而实现人机共享控制的目的。

需要说明的是，本实施例中利用AI智能决策***对被控对象当前所处的环境状态对应的动作进行预测，并对AI智能决策***的的可靠度或者不确定度进行度量，将AI智能决策***的预测结果及对应的不确定度以及人工对被控对象当前所处被控环境的控制量的判断，作为深度强化学习网络的输入，深度强化学习网络输出的即为人机切换***的自主性边界。

本实施例中通过根据被控对象所处的不同的被控环境，将自主性边界处理成动态边界，根据人机共享控制的过程，学习更优的界。

具体地，所述决策信息

其中s_t表示环境状态，a_t表示环境状态s_t对应的动作，c_t表示动作a_t的不确定度，h_t表示人工对于环境状态s_t的判断。

具体地，本实施例中采用贝叶斯神经网络估计所述动作a_t的不确定度c_t，包括如下步骤：

利用给定数据集训练参数为φ的贝叶斯神经网络；

需要说明的是，给定数据集D＝{x,y}，训练参数为φ的贝叶斯神经网络(Bayesianneural networks，BNN)，理论上可以得到p(φ|D)的后验分布和模型参数f^φ。

利用训练得到的贝叶斯神经网络对环境状态s_t对应的动作的不确定性进行预测，得到预测分布；

需要说明的是，假设环境状态s_t对应的动作的不确定性为x′，输出y′服从以下分布：p(y′|x′,D)＝∫p(y′|φ)p(φ|D)dθ，其中，y′＝f^φ(x′)是x′的模型预测输出。

利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩，并根据一阶矩和二阶矩获得方差作为所述动作a_t的不确定度c_t。

具体地，利用蒙特卡洛积分辅助获得预测分布的一阶矩：

和二阶矩：

从而获得方差：

其中，T表示采样次数)，J表示单位矩阵，τ表示模型精度。

本实施例通过利用贝叶斯神经网络在特定环境中自然解释参数估计中的不确定性，并将这种不确定性传播到预测中。

具体地，如上述步骤T2所述，利用深度强化学习网络对决策信息进行处理，预测边界切换结果，包括如下细分步骤S1至S6：

S1、获取所述决策信息

作为深度强化学习网络的输入，h_t取1或0；

本实施例中深度强化学习网络基于Actor-Critic框架实现自主性边界的学习。首先随机初始化演员网络π_θ和评论家网络Q_ω的权值参数步长分别是α^θ和α^ω，Δ＝0.01。

S2、根据所述决策信息，计算演员网络的输出边界τ_t；

需要说明的是，通过判断公式：

计算人的控制信号u_t和下一时刻的边界τ_t+1，τ_t为当前时刻的输出边界。

需要说明的是，奖赏值r_t＝r(s_t,a_t,u_t)，根据贝尔曼方程计算时间差分

其中

表示下一时刻对应的值函数，

表示当前时刻对应的值函数，γ∈(0,1]表示折扣因子。

S4、利用公式

对评论家网络Q_ω进行更新，其中

表示决策信息，ω表示评论家网络参数，I表示衰减系数，

表示值函数

的梯度；

S5、利用公式

对演员网络π_θ进行更新，其中

表示值函数

的梯度；

如图2所示，本实施例公开了一种基于强化学习的人机融合自主性边界切换***，包括：AI决策模块10、人工决策模块20、不确定性度量模块30、边界切换模块40以及被控对象50，被控对象50分别与AI决策模块10和人工决策模块20连接，不确定性度量模块与AI决策模块10连接，AI决策模块10和人工决策模块20的输出均与边界切换模块40连接，边界切换模块40的输出分别与AI决策模块10和人工决策模块20的输入连接，其中：

AI决策模块10根据被控对象50当前的环境状态得到当前的环境状态对应的动作；

人工决策模块20用于通过人工对被控对象50当前的环境状态进行判断，得到判断结果；

不确定性度量模块30用于对AI决策模块10的输出值进行不确定性估计，得到当前的环境状态对应的动作的不确定度；

边界切换模块40用于利用深度强化学习网络对AI决策模块10、不确定性度量模块30和人工决策模块20的输出结果进行处理，预测边界切换结果。

需要说明的是，由所述AI决策模块10、不确定性度量模块30和人工决策模块20的输出结果构成的决策信息

需要说明的是，在所述被控对象50为视觉数据时，所述AI决策模块10采用卷积神经网络序列；在所述被控对象50为序列数据时，所述AI决策模块10采用循环神经网络序列；图3示出了基于集成的思想给出的一种学习的示意图。

应当理解的是，人工智能和大数据等技术则带来了环境感知和策略选择等方面的自主能力，使得机器能够识别周边环境进而自主选择合适策略，发出指令并经由机器的自动化完成最终目标。本领域技术人员可以根据具体被控对象50的不同选取合适的AI决策***。

具体地，本实施例通过利用贝叶斯神经网络在特定环境中自然解释参数估计中的不确定性，并将这种不确定性传播到预测中。所述不确定性度量模块30包括训练单元、不确定度估算单元和预测单元；

具体地，所述边界切换模块40包括：获取单元、输出边界计算单元、时间差分计算单元、第一更新单元、第二更新单元和预测单元；

获取单元用于获取决策信息

作为深度强化学习网络的输入；

输出边界计算单元用于根据所述决策信息

计算演员网络的输出边界τ_t；

第一更新单元用于利用公式

对评论家网络Q_ω进行更新，其中

表示值函数

的梯度；

第二更新单元用于利用公式

对演员网络π_θ进行更新，其中

表示值函数

的梯度；

需要说明的是，本实施例公开的一种基于强化学习的人机融合自主性边界切换***与上述实施例所公开的一种基于强化学习的人机融合自主性边界切换方法具有相同或相应的技术特征，可实现相同的技术效果，该处不再赘述。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的人机融合自主性边界切换方法，其特征在于，包括：

2.如权利要求1所述的基于强化学习的人机融合自主性边界切换方法，其特征在于，所述决策信息

其中s_t表示被控对象的环境状态，a_t表示环境状态s_t对应的动作，c_t表示动作a_t的不确定度，h_t表示人工对于环境状态s_t的判断。

3.如权利要求1所述的基于强化学习的人机融合自主性边界切换方法，其特征在于，还包括：

采用贝叶斯神经网络估计所述动作a_t的不确定度c_t。

4.如权利要求3所述的基于强化学习的人机融合自主性边界切换方法，其特征在于，所述采用贝叶斯神经网络估计所述动作a_t的不确定度c_t，包括：

利用给定数据集训练参数为φ的贝叶斯神经网络；

5.如权利要求1～4任一项所述的基于强化学习的人机融合自主性边界切换方法，其特征在于，所述利用深度强化学习网络对决策信息进行处理，预测边界切换结果，包括：

S1、获取所述决策信息作为深度强化学习网络的输入；

S2、根据所述决策信息，计算演员网络的输出边界τ_t；

S4、利用公式

对评论家网络Q_ω进行更新，其中

表示决策信息，ω表示评论家网络参数，I表示衰减系数，

表示值函数

的梯度；

S5、利用公式

对演员网络π_θ进行更新，其中

表示值函数

的梯度；

6.一种基于强化学习的人机融合自主性边界切换***，其特征在于，包括：AI决策模块、人工决策模块、不确定性度量模块、被控对象以及边界切换模块，被控对象分别与AI决策模块和人工决策模块连接，不确定性度量模块与AI决策模块连接，AI决策模块和人工决策模块的输出均与边界切换模块连接，边界切换模块的输出分别与AI决策模块和人工决策模块的输入连接，其中：

7.如权利要求6所述的基于强化学习的人机融合自主性边界切换***，其特征在于，在所述被控对象为视觉数据时，所述AI决策模块采用卷积神经网络序列；在所述被控对象为序列数据时，所述AI决策模块采用循环神经网络序列。

8.如权利要求6所述的基于强化学习的人机融合自主性边界切换***，其特征在于，所述AI决策模块、不确定性度量模块和人工决策模块的输出结果构成决策信息