CN111753982A - 一种基于强化学习的人机融合自主性边界切换方法及*** - Google Patents

一种基于强化学习的人机融合自主性边界切换方法及*** Download PDF

Info

Publication number
CN111753982A
CN111753982A CN202010478808.6A CN202010478808A CN111753982A CN 111753982 A CN111753982 A CN 111753982A CN 202010478808 A CN202010478808 A CN 202010478808A CN 111753982 A CN111753982 A CN 111753982A
Authority
CN
China
Prior art keywords
boundary
network
uncertainty
reinforcement learning
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010478808.6A
Other languages
English (en)
Other versions
CN111753982B (zh
Inventor
康宇
张倩倩
王雪峰
游诗艺
吕文君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010478808.6A priority Critical patent/CN111753982B/zh
Publication of CN111753982A publication Critical patent/CN111753982A/zh
Application granted granted Critical
Publication of CN111753982B publication Critical patent/CN111753982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于强化学习的人机融合自主性边界切换方法及***,属于人与机器(人工智能)共享控制技术领域,包括:获取决策信息,该决策信息包括被控对象所处环境状态对应的动作、环境状态对应的动作的不确定度以及人工对被控对象所处环境状态的判断结果;利用深度强化学习网络对决策信息进行处理,预测边界切换结果。本发明将自主性边界处理成动态边界,能够根据不同的问题背景,根据人和AI共享的过程,学习更优的界,实现人与机器共享自主控制效果。

Description

一种基于强化学习的人机融合自主性边界切换方法及***
技术领域
本发明涉及人与机器(人工智能)共享控制技术领域,特别涉及一种基于强化学习的人机融合自主性边界切换方法及***。
背景技术
在传统控制或者如今火热的人工智能控制领域,人充当的是控制***目标的终极来源的角色。但是人的各种感官等具有感知各种外界环境的能力,可以充当控制***的传感器;人的大脑具有独特的智能,可以作为***的控制器以及人的手脚可以作为具有执行力的执行器。因此,人的作用可以不仅仅体现在控制输入上。如果将人考虑到控制***的闭环中,利用人特有的智能优势,实现与智能体的共享控制,将会在诸多涉及人机***的共享控制问题中发挥更大的作用。
目前有关人机***自主性边界的种类包括:绝对边界、相对边界和其他边界。绝对边界指与具体人机***无关的静态边界,是人机切换过程中不可逾越的确定边界。相对边界是与具体人机***相关的动态边界。环境不确定性越大,就会造成相对边界越难确定。其他边界如对抗边界,指在对抗环境下需要考虑的自主性边界、网络化人机边界等。
人机***中人在***的构建中的地位有三种可能:一是***的目标、操控等需要人的深度参与,人是整个***中不可缺少的一个部分,此时“人在回路”(in-the-loop);二是***目标由人给出,执行则由具有部分自主性的机器自行进行,此时“人在回路上”(on-the-loop);第三则是机器可根据感知信息独立地确定目标并给出具体指令,无需人的介入,此时“人在回路外”(out-of-the-loop)。人在回路外的***不算严格意义的人机***;人在回路上的***中人的因素的考虑是可以与机器分离割裂的;而“人在回路”的人机***的设计和分析则同时包含了人和机器两个因素。
发明内容
本发明的目的在于根据被控环境的要求,进行更自主更合适的边界切换,实现人与机器共享自主控制效果。
为实现以上目的,本发明采用一种基于强化学习的人机融合自主性边界切换方法,包括:
获取决策信息,该决策信息包括被控对象所处环境状态对应的动作、环境状态对应的动作的不确定度以及人工对被控对象所处环境状态的判断结果;
利用深度强化学习网络对决策信息进行处理,预测边界切换结果。
进一步地,所述决策信息
Figure BDA0002516651280000021
其中st表示被控对象的环境状态,at表示环境状态st对应的动作,ct表示动作at的不确定度,ht表示人工对于状态st的判断。
进一步地,还包括:
采用贝叶斯神经网络估计所述动作at的不确定度ct
进一步地,所述采用贝叶斯神经网络估计所述动作at的不确定度ct,包括:
利用给定数据集训练参数为φ的贝叶斯神经网络;
利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩,并根据一阶矩和二阶矩获得方差作为所述动作at的不确定度ct
利用训练得到的贝叶斯神经网络对环境状态st对应的动作的不确定性进行预测,得到预测分布。
进一步地,所述利用深度强化学习网络对决策信息进行处理,预测边界切换结果,包括:
S1、获取所述决策信息作为深度强化学习网络的输入;
S2、根据所述决策信息,计算演员网络的输出边界τt
S3、根据演员网络的输出边界τt,计算奖赏值,并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算,得到时间差分δ;
S4、利用公式
Figure BDA0002516651280000022
对评论家网络Qω进行更新,其中
Figure BDA0002516651280000031
表示当前时刻对应的值函数,αω表示评论家网络Qω的权值参数步长,
Figure BDA0002516651280000032
表示决策信息,ω表示评论家网络参数,I表示衰减系数,
Figure BDA0002516651280000033
表示值函数
Figure BDA0002516651280000034
的梯度;
S5、利用公式
Figure BDA0002516651280000035
对演员网络πθ进行更新,其中
Figure BDA0002516651280000036
表示当前时刻对应的值函数,αθ表示演员网络πθ的权值参数步长,θ表示演员网络参数,I表示衰减系数,
Figure BDA0002516651280000037
表示值函数
Figure BDA0002516651280000038
的梯度;
S6、重复执行步骤S2~S5,直至深度强化学习网络收敛,并将深度强化学习网络输出作为边界切换预测结果。
另一方面,采用一种基于强化学习的人机融合自主性边界切换***,包括:AI决策模块、人工决策模块、不确定性度量模块、被控对象以及边界切换模块,被控对象分别与AI决策模块和人工决策模块连接,不确定性度量模块与AI决策模块连接,AI决策模块和人工决策模块的输出均与边界切换模块连接,边界切换模块的输出分别与AI决策模块和人工决策模块的输入连接,其中:
AI决策模块根据被控对象当前的环境状态得到当前的环境状态对应的动作;
人工决策模块用于通过人工对被控对象当前的环境状态进行判断,得到判断结果;
不确定性度量模块用于对AI决策模块的输出值进行不确定性估计,得到当前的环境状态对应的动作的不确定度;
边界切换模块用于利用深度强化学习网络对AI决策模块、不确定性度量模块和人工决策模块的输出结果进行处理,预测边界切换结果。
进一步地,在所述被控对象为视觉数据时,所述AI决策模块采用卷积神经网络序列;在所述被控对象为序列数据时,所述AI决策模块采用循环神经网络序列。
进一步地,所述AI决策模块、不确定性度量模块和人工决策模块的输出结果构成决策信息
Figure BDA0002516651280000041
其中st表示环境状态,at表示环境状态st对应的动作,ct表示动作at的不确定度,ht表示人工对于状态st的判断。
进一步地,所述不确定性度量模块包括训练单元、预测单元和不确定度估算单元;
训练单元用于利用给定数据集训练参数为φ的贝叶斯神经网络;
不确定度估算单元用于利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩,并根据一阶矩和二阶矩获得方差作为所述动作at的不确定度ct
预测单元用于利用训练得到的贝叶斯神经网络对环境状态st对应的动作的不确定性进行预测,得到预测分布。
进一步地,所述边界切换模块包括:获取单元、输出边界计算单元、时间差分计算单元、第一更新单元、第二更新单元和预测单元;
获取单元用于获取决策信息
Figure BDA0002516651280000042
作为深度强化学习网络的输入;
输出边界计算单元用于根据所述决策信息
Figure BDA0002516651280000043
计算演员网络的输出边界τt
时间差分计算单元用于根据演员网络的输出边界τt,计算奖赏值,并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算,得到时间差分δ;
第一更新单元用于利用公式
Figure BDA0002516651280000044
对评论家网络Qω进行更新,其中
Figure BDA0002516651280000045
表示当前时刻对应的值函数,αω表示评论家网络Qω的权值参数步长,ω表示评论家网络参数,I表示衰减系数,
Figure BDA0002516651280000046
表示值函数
Figure BDA0002516651280000047
的梯度;
第二更新单元用于利用公式
Figure BDA0002516651280000048
对演员网络πθ进行更新,其中
Figure BDA0002516651280000049
表示当前时刻对应的值函数,αθ表示演员网络πθ的权值参数步长,θ表示演员网络参数,I表示衰减系数,
Figure BDA00025166512800000410
表示值函数
Figure BDA00025166512800000411
的梯度;
预测单元用于控制输出边界计算单元、时间差分计算单元、第一更新单元以及第二更新单元循环动作直至深度强化学习网络收敛时,将深度强化学习网络输出作为边界切换预测结果。
与现有技术相比,本发明存在以下技术效果:本发明根据被控对象的具体被控环境的要求,在考虑人机融合的基础上,着重于切换边界的学习,不同于现有技术中的静态边界的使用,本方案中将自主性边界处理成动态边界,能够根据不同的问题背景,根据人和AI共享的过程,学习更优的界,既能达到充分发挥人和机器的各自优势,又能相互弥补缺陷,实现人与机器共享自主控制效果。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种基于强化学习的人机融合自主性边界切换方法的流程示意图;
图2是一种基于强化学习的人机融合自主性边界切换***的结构示意图;
图3是AI决策***的架构图。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种基于强化学习的人机融合自主性边界切换方法,包括如下步骤T1至T2:
T1、获取决策信息,该决策信息包括被控对象所处环境状态对应的动作、环境状态对应的动作的不确定度以及人工对被控对象所处环境状态的判断结果;
T2、利用深度强化学习网络对决策信息进行处理,预测边界切换结果。
需要说明的是,被控对象以半自动驾驶车辆为例,上述步骤T1所获取的决策信息包括车辆所处外界环境的当前状态st(包括车辆的位置,速度,所处道路信息,以及其他车辆的信息等),以及AI决策***根据当前状态st发出的动作信号at(比如转向角度,制动大小等),不确定性评估模块针对AI决策***的动作信号at所做出的不确定度评估ct,以及半自动驾驶环境中人类对车辆所处外界环境状态的安全级别判断结果ht;上述步骤T2中利用深度强化学***之间决策权限的切换,进而实现人机共享控制的目的。
需要说明的是,本实施例中利用AI智能决策***对被控对象当前所处的环境状态对应的动作进行预测,并对AI智能决策***的的可靠度或者不确定度进行度量,将AI智能决策***的预测结果及对应的不确定度以及人工对被控对象当前所处被控环境的控制量的判断,作为深度强化学习网络的输入,深度强化学习网络输出的即为人机切换***的自主性边界。
本实施例中通过根据被控对象所处的不同的被控环境,将自主性边界处理成动态边界,根据人机共享控制的过程,学习更优的界。
具体地,所述决策信息
Figure BDA0002516651280000061
其中st表示环境状态,at表示环境状态st对应的动作,ct表示动作at的不确定度,ht表示人工对于环境状态st的判断。
具体地,本实施例中采用贝叶斯神经网络估计所述动作at的不确定度ct,包括如下步骤:
利用给定数据集训练参数为φ的贝叶斯神经网络;
需要说明的是,给定数据集D={x,y},训练参数为φ的贝叶斯神经网络(Bayesianneural networks,BNN),理论上可以得到p(φ|D)的后验分布和模型参数fφ
利用训练得到的贝叶斯神经网络对环境状态st对应的动作的不确定性进行预测,得到预测分布;
需要说明的是,假设环境状态st对应的动作的不确定性为x′,输出y′服从以下分布:p(y′|x′,D)=∫p(y′|φ)p(φ|D)dθ,其中,y′=fφ(x′)是x′的模型预测输出。
利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩,并根据一阶矩和二阶矩获得方差作为所述动作at的不确定度ct
具体地,利用蒙特卡洛积分辅助获得预测分布的一阶矩:
Figure BDA0002516651280000071
和二阶矩:
Figure BDA0002516651280000072
从而获得方差:
Figure BDA0002516651280000073
其中,T表示采样次数),J表示单位矩阵,τ表示模型精度。
本实施例通过利用贝叶斯神经网络在特定环境中自然解释参数估计中的不确定性,并将这种不确定性传播到预测中。
具体地,如上述步骤T2所述,利用深度强化学习网络对决策信息进行处理,预测边界切换结果,包括如下细分步骤S1至S6:
S1、获取所述决策信息
Figure BDA0002516651280000074
作为深度强化学习网络的输入,ht取1或0;
本实施例中深度强化学习网络基于Actor-Critic框架实现自主性边界的学习。首先随机初始化演员网络πθ和评论家网络Qω的权值参数步长分别是αθ和αω,Δ=0.01。
S2、根据所述决策信息,计算演员网络的输出边界τt
需要说明的是,通过判断公式:
Figure BDA0002516651280000075
计算人的控制信号ut和下一时刻的边界τt+1,τt为当前时刻的输出边界。
S3、根据演员网络的输出边界τt,计算奖赏值,并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算,得到时间差分δ;
需要说明的是,奖赏值rt=r(st,at,ut),根据贝尔曼方程计算时间差分
Figure BDA0002516651280000081
其中
Figure BDA0002516651280000082
表示下一时刻对应的值函数,
Figure BDA0002516651280000083
表示当前时刻对应的值函数,γ∈(0,1]表示折扣因子。
S4、利用公式
Figure BDA0002516651280000084
对评论家网络Qω进行更新,其中
Figure BDA0002516651280000085
表示当前时刻对应的值函数,αω表示评论家网络Qω的权值参数步长,
Figure BDA0002516651280000086
表示决策信息,ω表示评论家网络参数,I表示衰减系数,
Figure BDA0002516651280000087
表示值函数
Figure BDA0002516651280000088
的梯度;
S5、利用公式
Figure BDA0002516651280000089
对演员网络πθ进行更新,其中
Figure BDA00025166512800000810
表示当前时刻对应的值函数,αθ表示演员网络πθ的权值参数步长,θ表示演员网络参数,I表示衰减系数,
Figure BDA00025166512800000811
表示值函数
Figure BDA00025166512800000812
的梯度;
S6、重复执行步骤S2~S5,直至深度强化学习网络收敛,并将深度强化学习网络输出作为边界切换预测结果。
如图2所示,本实施例公开了一种基于强化学习的人机融合自主性边界切换***,包括:AI决策模块10、人工决策模块20、不确定性度量模块30、边界切换模块40以及被控对象50,被控对象50分别与AI决策模块10和人工决策模块20连接,不确定性度量模块与AI决策模块10连接,AI决策模块10和人工决策模块20的输出均与边界切换模块40连接,边界切换模块40的输出分别与AI决策模块10和人工决策模块20的输入连接,其中:
AI决策模块10根据被控对象50当前的环境状态得到当前的环境状态对应的动作;
人工决策模块20用于通过人工对被控对象50当前的环境状态进行判断,得到判断结果;
不确定性度量模块30用于对AI决策模块10的输出值进行不确定性估计,得到当前的环境状态对应的动作的不确定度;
边界切换模块40用于利用深度强化学习网络对AI决策模块10、不确定性度量模块30和人工决策模块20的输出结果进行处理,预测边界切换结果。
需要说明的是,由所述AI决策模块10、不确定性度量模块30和人工决策模块20的输出结果构成的决策信息
Figure BDA0002516651280000091
其中st表示环境状态,at表示环境状态st对应的动作,ct表示动作at的不确定度,ht表示人工对于状态st的判断。
需要说明的是,在所述被控对象50为视觉数据时,所述AI决策模块10采用卷积神经网络序列;在所述被控对象50为序列数据时,所述AI决策模块10采用循环神经网络序列;图3示出了基于集成的思想给出的一种学习的示意图。
应当理解的是,人工智能和大数据等技术则带来了环境感知和策略选择等方面的自主能力,使得机器能够识别周边环境进而自主选择合适策略,发出指令并经由机器的自动化完成最终目标。本领域技术人员可以根据具体被控对象50的不同选取合适的AI决策***。
具体地,本实施例通过利用贝叶斯神经网络在特定环境中自然解释参数估计中的不确定性,并将这种不确定性传播到预测中。所述不确定性度量模块30包括训练单元、不确定度估算单元和预测单元;
训练单元用于利用给定数据集训练参数为φ的贝叶斯神经网络;
不确定度估算单元用于利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩,并根据一阶矩和二阶矩获得方差作为所述动作at的不确定度ct
预测单元用于利用训练得到的贝叶斯神经网络对环境状态st对应的动作的不确定性进行预测,得到预测分布。
具体地,所述边界切换模块40包括:获取单元、输出边界计算单元、时间差分计算单元、第一更新单元、第二更新单元和预测单元;
获取单元用于获取决策信息
Figure BDA0002516651280000101
作为深度强化学习网络的输入;
输出边界计算单元用于根据所述决策信息
Figure BDA0002516651280000102
计算演员网络的输出边界τt
时间差分计算单元用于根据演员网络的输出边界τt,计算奖赏值,并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算,得到时间差分δ;
第一更新单元用于利用公式
Figure BDA0002516651280000103
对评论家网络Qω进行更新,其中
Figure BDA0002516651280000104
表示当前时刻对应的值函数,αω表示评论家网络Qω的权值参数步长,ω表示评论家网络参数,I表示衰减系数,
Figure BDA0002516651280000105
表示值函数
Figure BDA0002516651280000106
的梯度;
第二更新单元用于利用公式
Figure BDA0002516651280000107
对演员网络πθ进行更新,其中
Figure BDA0002516651280000108
表示当前时刻对应的值函数,αθ表示演员网络πθ的权值参数步长,θ表示演员网络参数,I表示衰减系数,
Figure BDA0002516651280000109
表示值函数
Figure BDA00025166512800001010
的梯度;
预测单元用于控制输出边界计算单元、时间差分计算单元、第一更新单元以及第二更新单元循环动作直至深度强化学习网络收敛时,将深度强化学习网络输出作为边界切换预测结果。
需要说明的是,本实施例公开的一种基于强化学习的人机融合自主性边界切换***与上述实施例所公开的一种基于强化学习的人机融合自主性边界切换方法具有相同或相应的技术特征,可实现相同的技术效果,该处不再赘述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于强化学习的人机融合自主性边界切换方法,其特征在于,包括:
获取决策信息,该决策信息包括被控对象所处环境状态对应的动作、环境状态对应的动作的不确定度以及人工对被控对象所处环境状态的判断结果;
利用深度强化学习网络对决策信息进行处理,预测边界切换结果。
2.如权利要求1所述的基于强化学习的人机融合自主性边界切换方法,其特征在于,所述决策信息
Figure FDA0002516651270000011
其中st表示被控对象的环境状态,at表示环境状态st对应的动作,ct表示动作at的不确定度,ht表示人工对于环境状态st的判断。
3.如权利要求1所述的基于强化学习的人机融合自主性边界切换方法,其特征在于,还包括:
采用贝叶斯神经网络估计所述动作at的不确定度ct
4.如权利要求3所述的基于强化学习的人机融合自主性边界切换方法,其特征在于,所述采用贝叶斯神经网络估计所述动作at的不确定度ct,包括:
利用给定数据集训练参数为φ的贝叶斯神经网络;
利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩,并根据一阶矩和二阶矩获得方差作为所述动作at的不确定度ct
利用训练得到的贝叶斯神经网络对环境状态st对应的动作的不确定性进行预测,得到预测分布。
5.如权利要求1~4任一项所述的基于强化学习的人机融合自主性边界切换方法,其特征在于,所述利用深度强化学习网络对决策信息进行处理,预测边界切换结果,包括:
S1、获取所述决策信息作为深度强化学习网络的输入;
S2、根据所述决策信息,计算演员网络的输出边界τt
S3、根据演员网络的输出边界τt,计算奖赏值,并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算,得到时间差分δ;
S4、利用公式
Figure FDA0002516651270000021
对评论家网络Qω进行更新,其中
Figure FDA0002516651270000022
表示当前时刻对应的值函数,αω表示评论家网络Qω的权值参数步长,
Figure FDA0002516651270000023
表示决策信息,ω表示评论家网络参数,I表示衰减系数,
Figure FDA0002516651270000024
表示值函数
Figure FDA0002516651270000025
的梯度;
S5、利用公式
Figure FDA0002516651270000026
对演员网络πθ进行更新,其中
Figure FDA0002516651270000027
表示当前时刻对应的值函数,αθ表示演员网络πθ的权值参数步长,θ表示演员网络参数,I表示衰减系数,
Figure FDA0002516651270000028
表示值函数
Figure FDA0002516651270000029
的梯度;
S6、重复执行步骤S2~S5,直至深度强化学习网络收敛,并将深度强化学习网络输出作为边界切换预测结果。
6.一种基于强化学习的人机融合自主性边界切换***,其特征在于,包括:AI决策模块、人工决策模块、不确定性度量模块、被控对象以及边界切换模块,被控对象分别与AI决策模块和人工决策模块连接,不确定性度量模块与AI决策模块连接,AI决策模块和人工决策模块的输出均与边界切换模块连接,边界切换模块的输出分别与AI决策模块和人工决策模块的输入连接,其中:
AI决策模块根据被控对象当前的环境状态得到当前的环境状态对应的动作;
人工决策模块用于通过人工对被控对象当前的环境状态进行判断,得到判断结果;
不确定性度量模块用于对AI决策模块的输出值进行不确定性估计,得到当前的环境状态对应的动作的不确定度;
边界切换模块用于利用深度强化学习网络对AI决策模块、不确定性度量模块和人工决策模块的输出结果进行处理,预测边界切换结果。
7.如权利要求6所述的基于强化学习的人机融合自主性边界切换***,其特征在于,在所述被控对象为视觉数据时,所述AI决策模块采用卷积神经网络序列;在所述被控对象为序列数据时,所述AI决策模块采用循环神经网络序列。
8.如权利要求6所述的基于强化学习的人机融合自主性边界切换***,其特征在于,所述AI决策模块、不确定性度量模块和人工决策模块的输出结果构成决策信息
Figure FDA0002516651270000031
其中st表示环境状态,at表示环境状态st对应的动作,xt表示动作at的不确定度,ht表示人工对于状态st的判断。
9.如权利要求7所述的基于强化学习的人机融合自主性边界切换***,其特征在于,所述不确定性度量模块包括训练单元、预测单元和不确定度估算单元;
训练单元用于利用给定数据集训练参数为φ的贝叶斯神经网络;
不确定度估算单元用于利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩,并根据一阶矩和二阶矩获得方差作为所述动作at的不确定度ct
预测单元用于利用训练得到的贝叶斯神经网络对环境状态st对应的动作的不确定性进行预测,得到预测分布。
10.如权利要求6~9任一项所述的基于强化学习的人机融合自主性边界切换***,其特征在于,所述边界切换模块包括:获取单元、输出边界计算单元、时间差分计算单元、第一更新单元、第二更新单元和预测单元;
获取单元用于获取决策信息
Figure FDA0002516651270000032
作为深度强化学习网络的输入;
输出边界计算单元用于根据所述决策信息
Figure FDA0002516651270000033
计算演员网络的输出边界τt
时间差分计算单元用于根据演员网络的输出边界τt,计算奖赏值,并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算,得到时间差分δ;
第一更新单元用于利用公式
Figure FDA0002516651270000034
对评论家网络Qω进行更新,其中
Figure FDA0002516651270000041
表示当前时刻对应的值函数,αω表示评论家网络Qω的权值参数步长,ω表示评论家网络参数,I表示衰减系数,
Figure FDA0002516651270000042
表示值函数
Figure FDA0002516651270000043
的梯度;
第二更新单元用于利用公式
Figure FDA0002516651270000044
对演员网络πθ进行更新,其中
Figure FDA0002516651270000045
表示当前时刻对应的值函数,αθ表示演员网络πθ的权值参数步长,θ表示演员网络参数,I表示衰减系数,
Figure FDA0002516651270000046
表示值函数
Figure FDA0002516651270000047
的梯度;
预测单元用于控制输出边界计算单元、时间差分计算单元、第一更新单元以及第二更新单元循环动作直至深度强化学习网络收敛时,将深度强化学习网络输出作为边界切换预测结果。
CN202010478808.6A 2020-05-29 2020-05-29 一种基于强化学习的人机融合自主性边界切换方法及*** Active CN111753982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010478808.6A CN111753982B (zh) 2020-05-29 2020-05-29 一种基于强化学习的人机融合自主性边界切换方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010478808.6A CN111753982B (zh) 2020-05-29 2020-05-29 一种基于强化学习的人机融合自主性边界切换方法及***

Publications (2)

Publication Number Publication Date
CN111753982A true CN111753982A (zh) 2020-10-09
CN111753982B CN111753982B (zh) 2024-07-12

Family

ID=72674338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010478808.6A Active CN111753982B (zh) 2020-05-29 2020-05-29 一种基于强化学习的人机融合自主性边界切换方法及***

Country Status (1)

Country Link
CN (1) CN111753982B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580801A (zh) * 2020-12-09 2021-03-30 广州优策科技有限公司 一种强化学习训练方法及基于强化学习的决策方法
CN112861440A (zh) * 2021-02-27 2021-05-28 哈尔滨工业大学(威海) 一种面向各类应用的软件机器人***及其工作方法
CN117697769A (zh) * 2024-02-06 2024-03-15 成都威世通智能科技有限公司 一种基于深度学习的机器人控制***和方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150253772A1 (en) * 2014-03-04 2015-09-10 Volvo Car Corporation Apparatus and method for continuously establishing a boundary for autonomous driving availability and an automotive vehicle comprising such an apparatus
CN107703953A (zh) * 2017-09-01 2018-02-16 中国科学院深圳先进技术研究院 一种无人机的姿态控制方法、装置、无人机及存储介质
CN107867283A (zh) * 2016-09-26 2018-04-03 浙江亚太机电股份有限公司 基于预测模型的集成式fcw/acc/aeb***及车辆
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置
CN108629690A (zh) * 2018-04-28 2018-10-09 福州大学 基于深度强化学习的期货量化交易***
CN110861634A (zh) * 2018-08-14 2020-03-06 本田技研工业株式会社 交互感知决策
US20200086862A1 (en) * 2018-09-14 2020-03-19 Honda Motor Co., Ltd. Uncertainty prediction based deep learning

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150253772A1 (en) * 2014-03-04 2015-09-10 Volvo Car Corporation Apparatus and method for continuously establishing a boundary for autonomous driving availability and an automotive vehicle comprising such an apparatus
CN107867283A (zh) * 2016-09-26 2018-04-03 浙江亚太机电股份有限公司 基于预测模型的集成式fcw/acc/aeb***及车辆
CN107703953A (zh) * 2017-09-01 2018-02-16 中国科学院深圳先进技术研究院 一种无人机的姿态控制方法、装置、无人机及存储介质
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置
CN108629690A (zh) * 2018-04-28 2018-10-09 福州大学 基于深度强化学习的期货量化交易***
CN110861634A (zh) * 2018-08-14 2020-03-06 本田技研工业株式会社 交互感知决策
US20200086862A1 (en) * 2018-09-14 2020-03-19 Honda Motor Co., Ltd. Uncertainty prediction based deep learning

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘庆杰;林友勇;李少利;: "面向智能避障场景的深度强化学习研究", 智能物联技术, no. 02, 18 September 2018 (2018-09-18) *
吴志强;张俊峰;: "基于深度强化学习的自动态势估计研究", 军事运筹与***工程, no. 02, 30 June 2018 (2018-06-30) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580801A (zh) * 2020-12-09 2021-03-30 广州优策科技有限公司 一种强化学习训练方法及基于强化学习的决策方法
CN112580801B (zh) * 2020-12-09 2021-10-15 广州优策科技有限公司 一种强化学习训练方法及基于强化学习的决策方法
CN112861440A (zh) * 2021-02-27 2021-05-28 哈尔滨工业大学(威海) 一种面向各类应用的软件机器人***及其工作方法
CN117697769A (zh) * 2024-02-06 2024-03-15 成都威世通智能科技有限公司 一种基于深度学习的机器人控制***和方法
CN117697769B (zh) * 2024-02-06 2024-04-30 成都威世通智能科技有限公司 一种基于深度学习的机器人控制***和方法

Also Published As

Publication number Publication date
CN111753982B (zh) 2024-07-12

Similar Documents

Publication Publication Date Title
Singla et al. Memory-based deep reinforcement learning for obstacle avoidance in UAV with limited environment knowledge
CN111753982A (zh) 一种基于强化学习的人机融合自主性边界切换方法及***
CN111123963B (zh) 基于强化学习的未知环境自主导航***及方法
CN107203134B (zh) 一种基于深度卷积神经网络的前车跟随方法
US20220164673A1 (en) Unsupervised control using learned rewards
JP6550678B2 (ja) 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム
CN111667513A (zh) 一种基于ddpg迁移学习的无人机机动目标跟踪方法
Chu et al. Fault reconstruction of thruster for autonomous underwater vehicle based on terminal sliding mode observer
JP2009176283A (ja) 物体特性のロバストな推定を用いる適応型運転者支援システム
CN113807460B (zh) 智能体动作的确定方法和装置、电子设备和介质
Zhou et al. Hybrid hierarchical reinforcement learning for online guidance and navigation with partial observability
CN115488896A (zh) 一种基于残余动态学习的机械臂未知外力识别与估计方法
Scheper et al. Evolution of robust high speed optical-flow-based landing for autonomous MAVs
Venugopal et al. A recurrent neural network controller and learning algorithm for the on-line learning control of autonomous underwater vehicles
Qing-Lai et al. Data-based optimal control for discrete-time zero-sum games of 2-D systems using adaptive critic designs
Li et al. Replay overshooting: Learning stochastic latent dynamics with the extended kalman filter
Lechner et al. Neuronal circuit policies
Zheng et al. An rnn-based learnable extended kalman filter design and application
CN116038716B (zh) 机器人的控制方法和机器人的控制模型的训练方法
Yu et al. Robot hand-eye cooperation based on improved inverse reinforcement learning
Cai et al. Implementation of the Human‐Like Lane Changing Driver Model Based on Bi‐LSTM
Ma et al. Automatic driving system using identification of switched systems with unknown switch points
CN110531620B (zh) 基于高斯过程近似模型的小车上山***自适应控制方法
CN116909136B (zh) 基于确定学习的2-dof直升机滑模控制方法及***
Howard et al. Towards evolved time to contact neurocontrollers for quadcopters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant