CN111062491B - 一种基于强化学习的智能体探索未知环境方法 - Google Patents

一种基于强化学习的智能体探索未知环境方法 Download PDF

Info

Publication number
CN111062491B
CN111062491B CN201911288498.5A CN201911288498A CN111062491B CN 111062491 B CN111062491 B CN 111062491B CN 201911288498 A CN201911288498 A CN 201911288498A CN 111062491 B CN111062491 B CN 111062491B
Authority
CN
China
Prior art keywords
environment
environmental
reinforcement learning
theta
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911288498.5A
Other languages
English (en)
Other versions
CN111062491A (zh
Inventor
周世海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi King's Friends Education Technology Co ltd
Original Assignee
Shaanxi King's Friends Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi King's Friends Education Technology Co ltd filed Critical Shaanxi King's Friends Education Technology Co ltd
Priority to CN201911288498.5A priority Critical patent/CN111062491B/zh
Publication of CN111062491A publication Critical patent/CN111062491A/zh
Application granted granted Critical
Publication of CN111062491B publication Critical patent/CN111062491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于强化学习的智能体探索未知环境方法,通过制定局部信息提取规则,计算环境参数特征表示中的局部信息和对环境参数特征表示进行预测的预测特征表示中的局部信息之间的差异度,构建了深度强化学习的内部奖励函数,该种方法构建的奖励函数能够赋予智能体感性选择能力,也就是具备人类在看到一部分环境特征的时会有感兴趣的感受的能力,使得智能体在环境探索中可以沿着感兴趣的环境特征进行探索,结构化了智能体的环境探索方式,同时,放大了智能体环境特征表示局部信息和实际环境状况的关联程度,使得智能体的行为意图可预测,有利于在工业领域对智能体进行把控,推动深度强化学习在工业领域的落地。

Description

一种基于强化学习的智能体探索未知环境方法
技术领域
本发明涉及机器学习技术领域,尤其是涉及一种基于强化学习的智能体探索未知环境方法。
背景技术
强化学习是机器学习领域的一种常用方法,尤其是强化学习结合神经网络之后发展出的深度强化学习更是大大推进了现代人工智能的发展。智能体是在强化学习中对环境探索主体的统称,包括无人机,机器人,工业设备的控制核心,仿真环境中的仿真机器人等等,随着深度学习的发展,强化学习的智能体也具备了各种强大的能力,尤其是在探索未知环境,并制定最优策略上,更是具备了强大的功能,该未知环境既包括了现实中野外、太空等未知的探索环境,也包含了工业控制中未知的各种生产设备环境情况以及仿真环境中的各种未知环境等等。
然而,虽然强化学习具备着强大的探索未知环境和制定最优策略功能,但是现阶段的强化学习仍然需要由人来制定奖励目标,使得强化学习在寻求最优策略的过程中往往要耗费大量时间,也就是在未知环境的探索上往往采取暴力穷举的方法,这往往使得工业生产中强化学习难以落地,尤其是深度强化学习,当面对复杂庞大的运算量时,耗费的时间成本远远大于使用深度强化学习所带来的收益,对环境的探索不够结构化。
在人类的认知领域,科学家与哲学家往往认为,由于人具有好奇心和兴趣点,使得人类在探索未知环境时,能够优先考虑自身感兴趣的部分,在自身感兴趣的基础上,结合目标任务,发展出人类根据自身性格特征所制定的策略,这能够使得人类在认识环境时,能够优先探索自己感兴趣的环境特征,然后再在自己感兴趣的环境特征基础上向外拓展,这种人类所具备的感性选择能力大大缩短了人类面对未知环境时候的探索时间,好奇心和兴趣点构成了结构化的探索方法。
然而,现阶段的智能体并不具备这种感性选择能力,也不具备与之相似的感性选择能力,使得智能体在面对未知环境时,仍然要耗费大量时间,虽然目前发展出了元学习方法,但是该方法是在智能体的记忆功能上进行提取操作,或者构建联系,虽然可以预见,该方法能够在积累一定的记忆基础上,发展出感性选择能力,但是该方法在训练前期仍然不可避免的需要穷举探索未知空间,学习速度较慢,且和人类婴儿本身就具备感性选择能力这一情况不相符。
同时,在智能体探索未知环境的时候,隐藏层的神经元数值变化缺乏规律,人们往往难以同步观察到每个神经元和被探索环境之间的对应关系,在非强化学习领域,尚可以通过调试神经元的值来进行观察,但是在强化学习领域,智能体输出的是动作,人们难以从外部观察智能体的动作来发现智能体的真实意图和内部情况,直接从内部调节神经元的值更是无法判断智能体的情况,使人们难以判断智能体的下一步是否将要做出具有危害性的行为,大大阻碍了深度强化学习落地工业领域的进度。
在深度学习领域,通常都认为神经网络中的隐藏层具备特征提取能力,隐藏层越多,特征提取的维度也就越高。近年来,相关技术人员也发现,调整隐藏层中某个特定神经元的值,可以调节最后输出内容,如在文本生成领域,调节某个隐藏层中特定神经元的值,可以使得输出文本的情感发生变化,从中我们很容易就可以得到,负责特征提取的隐藏层中,一个神经元能够对应某一特征下的一系列变化,但是该发现目前并没有在强化学习领域被深入挖掘,也没有科学家针对这一点提出大量创新算法提升强化学习智能体的探索能力,然而,容易预见的是,该方法能够让智能体和局部特征具备关联性,是人类兴趣点的雏形。
针对好奇心,现有技术中提出了一种好奇心算法,如OpenAI发表的论文《Large-Scale Study of Curiosity-Driven Learning》以及麻省理工学院的吴佳俊提出的ADEPT模型,通过计算环境特征向量和预测到的环境特征向量的差异度,根据该差异度构建奖励函数,以此来确定智能体对未知环境的探索情况,促使智能体不再探索已知情况,转而去探索未知空间,一定程度上节省了智能体的探索时间,且使得强化学习的环境探索不再独立于策略实现过程,然而该奖励函数的构建本质上仍然逃脱不了对未知环境的随机穷举,在面对未知环境时,仍然不具备结构性的探索方法,更是和人类的感性选择能力相去甚远,仍然需要配合外部奖励,且无法对内部的神经元数值进行特征解释。
发明内容
本发明所要解决的技术问题是提供一种能够赋予智能体感性选择能力,使得智能体在完全未知的环境中探索时能够使探索方法更结构化,大大缩短探索时间,节省计算机或控制芯片运算量,且能够读取智能体意图,有利于深度强化学习工业落地的一种基于强化学习的智能体探索未知环境方法。
本发明所采用的技术方案是,一种基于强化学习的智能体探索未知环境方法,包括:
S1、获取环境参数,从环境参数中提取环境特征表示,并记录智能体的动作;
S2、对环境参数的环境特征表示进行预测,得到预测特征表示;
S3、构建预测特征表示局部信息和环境特征表示局部信息的选取规则,计算预测特征表示局部信息和环境特征表示局部信息的差异度;
S4、构建强化学习计算模型,确立以差异度为核心的奖励函数;
S5、训练优化强化学习计算模型。
本发明的有益效果是:
(1)通过将预测特征表示局部信息和环境特征表示局部信息的差异度构建为强化学习的奖励函数,使得智能体的行为模式将以选定的局部信息对应的环境特征作为行动依据,使得智能体在探索环境时不再进行随机探索,而是沿着和局部信息相关的环境特征进行探索。
(2)通过构建局部信息的选取规则,使得当一个系列的环境特征所对应的局部信息不再符合选取规则时,智能体将另外重新选取符合选取规则的局部信息,使得智能体在探索未知环境时在探索一个系列的环境特征到一定程度时,随着选取规则的影响,使得智能体改换探索的系列环境特征,也就是说,智能体将会根据自身的兴趣所在,优先探索自身感兴趣的环境特征,然后随着选取规则的转换,转变兴趣点,这使得智能体的探索方式更结构化,与人类的感性选择能力相符合。
(3)通过构建选取规则,使得智能体探索的环境将受选取规则影响,使用者可以通过观测由选取规则确定的局部信息和智能体所探索的环境,确定智能体内部特征数值和外部环境的对应关系,从而能够更好的预计智能体的行动意图,有利于控制智能体,促进深度强化学习在工业领域的落地。
(4)由于智能体本身就具备兴趣点,使用者可以不再需要设立外部奖励,在面对完全未知难以设计奖励的领域,智能体也可以根据自身的兴趣来探索环境,大大加强了强化学习的泛用性,使得更多的领域能够使用强化学习算法实现自动化。
作为优先,所述步骤S1包括:
S11、获取t时刻的环境参数St,对St进行特征提取获得t时刻的环境特征表示
S12、获取t时刻的下一个时刻的环境参数St+1,对St+1进行特征提取获得t+1时刻的环境特征表示
S13、构造智能体的动作行为空间A;
S14、记录智能体在t时刻环境和t+1时刻环境之间做出的动作at
通过设定单个动作行为空间,适用于单智能体序列动作环境中的环境探索。
作为优先,所述步骤S2包括:
S21、将和at作为输入值,计算得到对/>进行预测的t+1时刻预测特征表示/>
下一刻的环境往往与当前时刻环境和执行的动作有关,将当前时刻环境和采取的动作作为输入值,能够较好的预测下一个环境状态,代表了智能体对环境的掌握情况。
作为优先,所述步骤S3包括:
S31、提取中的局部参数f(St+1,θ),其中θ为人工设定的局部参数选取条件;
S32、提取中与f(St+1,θ)维度信息一一对应的局部参数f’(St+1,θ);
S33、对f(St+1,θ)和f(St+1,θ)进行函数处理,得到g(St+1,θ)和g’(St+1,θ),计算g(St+1,θ)和g’(St+1,θ)的差异度H(St+1,θ)=H(g(St+1,θ),g’(St+1,θ))。
所述由于是对/>的预测,因此两者维度是一致的,且/>会因为预测而不断趋向于/>那么当根据θ从/>和/>提取维度一致的局部信息时,f’(St+1,θ)所对应的环境特征所在的系列是与f(St+1,θ)所对应的环境特征所在系列是相同的,计算差异度,代表了智能体对该系列环境特征的未知程度,对对f(St+1,θ)和f(St+1,θ)进行函数处理,有利于简化计算,所述系列是指在环境特征表示中,相应的局部环境特征表示的位置信息所对应的全部实际环境特征,进行函数处理是为了方便计算,当涉及到所选位置可变的局部信息时,需要用到类softmax函数进行处理来引入注意力机制,当所选位置为固定可变时,可以选择放大类函数或缩小类函数或包括但不限于softmax的归一化处理等等。
作为优先,所述步骤S5包括:
S41、利用神经网络构造强化学习计算模型;
S42、构造所述强化学习计算模型的奖励函数;
所述rt为t时刻执行at后获得的即时奖励,为与H(St+1,θ)相关的内部奖励函数,/>为人工设定的外部奖励。
将智能体对局部环境特征的未掌握情况作为奖励,使得智能体在探索空间时优先向着该局部环境特征进行探索,并且随着探索进度而使差异度不断减小,从而实现对环境中同属一个系列的环境特征的探索,同时由于探索目的由局部特征差异度决定,使得使用者通过观测已被选取的局部信息和环境特征即可得知每个局部信息所对应的具体环境特征,进一步的,在掌握智能体每一个局部信息所对应环境特征的基础上,由于智能体以差异度为奖励,使得使用者能根据差异度和环境特征的关系预测智能体的目的,即,我们可以知道智能体的目的在于探索哪一系列的环境特征,从而使得智能体的行为可解释化,使得智能体的行为更可控,且能够较好的预测智能体的接下来的一系列的行动目标,而不是只能观察到智能体接下来的一系列具体行为,有利于进一步促进深度强化学习在工业上的落地。
作为优先,所述方法包括N个智能体,所述步骤S1包括:
S1’1、获取t时刻N个智能体分别观测到的局部环境参数(St,1…,St,k…,St,N)=Kt,对Kt进行特征提取获得t+1时刻的环境特征表示k表示第k个智能体;
S1’2、获取t时刻的下一个时刻N个智能体分别观测到的局部环境参数Kt+1,对Kt+1进行特征提取获得t+1时刻的环境特征表示
S1’3、分别构造N个智能体的动作行为空间(A1…,Ak…,AN),Ak为第k个智能体的动作行为空间;
S1’4、记录N个智能体在t时刻环境和t+1时刻环境之间做出的N个动作(at,1…,at,k…,at,N)=Wt
通过构建多个智能体模型,适用于多智能体协作领域,比如多机器人合作探索环境或者构建多个不同维度的智能体(如图像、声音等)之间的联系,使得不同维度的多个智能体能够基于同一个目标进行写作。
作为优先,所述步骤S2包括:
S2’1、将Kt和Wt作为输入值,计算得到对t+1时刻的环境特征表示进行预测的与维度相同的综合预测特征表示/>或分立预测特征表示/>
所述综合预测特征表示是指,在基于多个智能体有其自身的同维度环境特征表示/>的基础上,将Kt和Wt作为输入值,得到一个与/>同维度的/>使得/>的每一个局部信息的位置,都能够在每个智能体的/>找到一一对应的局部信息的位置,从而建立起不同领域,如视觉听觉共用的一套特征表示,从而使智能体能够同步捕捉到不同领域之间环境特征的相关性,有利于智能体做出不同领域但是内容一致的动作行为,丰富了智能体的表达能力和信息接收能力,有利于人机交互。
所述分立预测特征表示是指,将Kt和Wt作为输入值输入后,获得与每个一一对应的/>有利于在同一领域的多智能体探索。
作为优先,所述步骤S3包括:
S3’1、提取中的局部参数f(Kt+1,θ),其中θ为人工设定的局部参数选取条件;
S3’2、提取中与f(St+1,k,θ)维度信息一一对应的局部参数f’(St+1,θ);
或提取中与f(St+1,k,θ)维度信息一一对应的局部参数f’(St+1,k,θ);
S3’3、对f(Kt+1,θ)和f’(St+1,θ)进行函数处理,得到g(Kt+1,θ)和g’(St+1,θ),分别计算g(St+1,k,θ)和g’(St+1,θ)的差异度
G(St+1,k,θ)=G(g(Kt+1,θ),g’(St+1,θ));
或对f(Kt+1,θ)和f(St+1,θ)进行函数处理,得到g(Kt+1,θ)和g’(Kt+1,θ),分别计算g(St+1,k,θ)和g’(St+1,k,θ)的差异度
F(Kt+1,θ)=F(g(Kt+1,θ),g’(Kt+1,θ))。
在不同模态合作模型中,通过计算综合预测特征表示的局部信息分别与其他智能体所代表的其他模态对应的局部信息的差异度,使得智能体能够将不同模态的环境特征所在的系列赋予综合预测特征表示中的对应位置,使智能体能够探索同时具备相应的模态环境特征的一系列实际环境特征,有利于探索过程的结构化,大大缩短了探索时间,丰富了智能体的信息接收能力和表达能力,有利于人机交互。
在同领域多智能体合作中,通过构建同每一个智能体环境和预测的差异度,来使的每个智能体都有自己的局部兴趣所在,有利于赋予每个智能体不同的行动策略来达到最终目标。
作为优先,所述步骤S5包括:
S4’1、利用神经网络构造强化学习计算模型;
S4’2、构造所述强化学习计算模型的奖励函数
或/>
所述rt为t时刻执行at后获得的即时奖励,为与H(St+1,θ)相关的内部奖励函数或/>为与F(Kt+1,θ)关的内部奖励函数,/>为人工设定的外部奖励。
在不同模态合作模型中,通过将每个智能体和综合预测特征表示局部信息之间的差异度构建为奖励,使得每个智能体都会根据综合预测特征表示局部信息做出最优策略动作,而最优策略动作将以综合预测特征表示作为主体,使得每个动作都将围绕一个核心主体,加强智能体的信息接收能力和表达能力,有利于在未知环境中进行探索,且有利于人机交互。
在同领域合作模型中,内部奖励赋予每个智能体各自的行动特色,而外部奖励赋予一个总的任务目标,由于每个智能体的行动策略因为兴趣点而不相同,使得每个智能体的分工不同,有利于最大化任务完成效率。
具体实施方式
本发明公开了一种基于强化学习的智能体探索未知环境方法,通过将环境特征表示的局部信息和预测特征表示的局部信息之间的差异度作为构建奖励函数的核心,使得智能体能够具备感性选择能力,结构化对未知环境的探索方法或探索路径,同时通过观测由选取规则决定的差异度也赋予了智能体更好的可解释性,有利于工业落地。
由于本发明的核心在于对提取后特征的处理上,也就是将特征提取器作为本发明的计算工具,因此,凡是具有特征提取功能的计算模型,都可以作为本发明的计算模型,包括但不限于BP神经网络,径向基神经网络,RNN神经网络,DNN神经网络,CNN神经网络,图神经网络等等。
实施例一:
为了更好的解释本发明的算法,本实施例将以DQN操控的只会前后左右移动的环境探索小车为基础,例举一个较为简单的案例。
本实施例包括一个动作价值输出神经网络,一个特征预测神经网络和一个动作预测神经网络。
所述动作价值输出网络包括输入层,隐藏层(即特征提取层)和输出层,所述输入层可以是N个卷积层,也可以是普通的全连接层,由于本实施例采用的模型是环境探索小车,输入层通常使用4个卷积层对图像进行处理。所述隐藏层是对输入层输入数据的特征提取,具备若干个神经网络层和若干个神经元对提取的特征进行分类,为了简化模型便于理解,本实施例中的隐藏层只使用两个全连接层,所述全连接层每层都只有五个神经元(l11,l12,l13,l14,l15),(l21,l22,l23,l24,l25),也就是说,在本实施例中,该模型具备五个较低维度的特征分类和五个较高维度的特征分类,共计十个特征分类。在以DQN为基础的动作价值输出网络中,输出层是智能体所能做出的动作所带来的预期最大累积奖励,在本模型中,输出层则有四个参数,代表环境探索小车的前后左右四个动作,参数的值代表每个动作做出后对后续一系列行为所能带来的最大累积奖励的预估,而小车最终做出的行为则是四个值中数值最高的值所对应的动作。
在本实施例中,我们用代表t时刻所采集的环境参数,/>为t+1时刻所采集的环境参数,/>代表t时刻所输出的动作对应的最大累积奖励分布,/>和/>为环境参数中提取的特征表示,分布在隐藏层的十个参数中,为了使提取到的特征能够不受环境噪声影响,我们构建一个新的三层全连接神经网络,将/>和/>作为输入层的参数,输出得到对两个时刻间的/>的预测/>使得提取到的环境特征只与动作相关,在已知和/>的基础上,我们另外再构建一个三层全连接神经网络,也就是特征预测神经网络,将/>和/>作为输入层的参数,输出得到/>的预测特征表示/>由于是对/>的预测,因此/>中每个参数所在位置的意义也被赋予了与中每个参数的位置相同的内涵,也就是说,/>包括(l′11,l′12,l′13,l′14,l′15),(l′21,l′22,l′23,l′24,l′25)。
在确定了本实施例的基础参数后,将构建本发明所描述的方法模型。首先确定提取规则θ,在本实施例中,为求简便,我们以(l′21,l′22,l′23,l′24,l′25)中数值最大的参数作为提取的局部信息l′2max,对l′2max的函数处理为,经过函数处理后的值为l′2max,在提取到最大值后,我们同时获得了l′2max所对应的位置信息,假如l′2max=l′24,那么与该位置对应的中的参数为l24,为了方便对比差异度,我们分别计算l′24在(l′21,l′22,l′23,l′24,l′25)中的概率g′1和l24在(l21,l22,l23,l24,l25)中的概率g1,该计算通常采用softmax函数(当然,我们也可以选择不对l′24和l24进行函数处理,此时则是g′1=l′24,g1=l24),那么在已知提取的局部信息后,我们用最简单的函数计算其差异度H=g1-g′1,使得当g1小于g′1时差异度为正,反之为负,使差异度具有方向性。
那么当我们构建奖励时,我们可以使外部奖励为0,内部奖励
γ1为放大系数,由于g1-g′1的绝对值是小于1的,为了使内部奖励具备明显效果,需要进行放大,通常取大于等于1的值,在本实施例中可以取为100,该内部奖励,使得在以g′1的值为基准的基础上,环境探索小车只有在大于g′1的g1所对应的环境特征上才能获得奖励,促使环境探索小车单方向探寻g1值增长的环境特征,同时,由于g′1是对g1的预测,那么当g1值不断增长时,g′1也会不断增长,最终能够完全掌握同一系列的环境特征,使用者通过观察l24位置所对应的环境特征的变化,即可很容易归纳出该位置所对应的环境特征系列,同时也能够很容易的预测环境探索小车在单向环境特征追寻时所想要追寻的内容。
同时,完全掌握当前系列的环境特征时,继续探索当前系列的环境将不再具有奖励,环境探索小车的探索目的性随之消除,直到环境表化使得l′24不再作为最大值,那么环境探索小车将会开始新系列的环境探索。
在已知奖励函数的基础上,根据DQN算法,对损失函数进行构建,我们可以得到L=L1+(1-λ)L2+λL3,其中λ为大于0小于1的权重系数, 其中为t+1时刻所能选取的动作中,预期累积奖励最大的动作所对应的值,/>为当前时刻选择的动作的预期累积奖励,/>L2表示/>的差异度,L3为/>和/>的交叉熵,当对损失函数进行优化使损失函数趋于最小时,L2能够实现/>对/>的预测,L3能够使提取的环境特征只和动作影响的因素有关,从而消除环境噪声。
由于损失函数和奖励函数已经确定,那么DQN算法本身作为现有技术,使得该方法的实现过程是可以预计的,因此在此不多赘述,并且由于DQN能够实现本实施例,那么作为DQN的改进,DDQN、Dueling-DQN、Nature DQN、DRQN等基于值函数和特征提取的深度强化学习方法也可以作为本实施例的计算模型。
在使用者观察环境小车模型时,我们可以把l′2max、l′2max在对应的参数、概率以及两者差异度作为观察量,从而可以从内部判断环境探索小车是处于什么样的意图状态,有利于及时对环境探索小车进行把控,并且在完全知晓所有系列的环境特征变化时,我们取消内部奖励,只设定外部奖励,也可以很容易知道环境探索小车在探索环境中的意图。
在本实施例中,使用了最大值这种数值可变的选取方式,我们也可以直接选择若干个具***置的环境特征表示,此时则随着环境特征的变化,环境小车的兴趣点将不会发生改变,而是针对局部环境特征做出行动反应,此时仍然存在局部环境特征和局部实际环境之间的关联性放大,方便使用者观测,来达到推测环境小车意图的效果,此时,在计算差异度奖励时,不再需要使用类softmax函数进行归一化处理,选定的环境特征表示的差值即可。此时,由于只在固定的局部特征上进行探索,那么在计算差异度时可以选择只计算差值的绝对值来设计奖励。当选择具有若干个参数的局部环境特征时,只需要将不同参数对应的差异度使用包括但不限于相加或相乘的方式进行累计,即可得到总的差异度,然后根据总的差异度来进行奖励设计,在得到总的差异度后,后续步骤于本实施例前述内容相同。
除此以外,当使用数值位置不可变的选取规则时,也可以选择如平均值等通过对环境特征表示进行换算后得到的数值作为局部信息的选取,通过观测平均值与实际环境之间的联系,可以得到平均值所能影响的实际环境特征。
实施例二:
实施例一虽然实现了可变化系列环境特征的探寻,但是不可避免的,在两个系列环境特征之间,会存在一个无奖励的过程,此时环境探索小车将会陷入一个无目标状态,直到环境变化改换预测特征表示中的最大值位置。
为了解决实施例一的问题,以实施例一为基础,我们可以对内部奖励做一个变化,加入负奖励,也就是惩罚项,比如设计一个对环境整体掌握度的表示来作为惩罚项,使得当环境探索小车完全掌握一个系列的环境特征时,会由于惩罚项使得环境探索小车不再停留于当前位置,主动去探索新的环境,针对环境总的差异度,我们可以使用交叉熵,也可以使用其他的计算方法,在这里,为了简化计算,我们将内部奖励构造为
其中δ为大于等于0的系数,为惩罚项的影响因子,该内部奖励使得当环境探索小车能够完全掌握当前系列的环境特征时,会由于巨大的负奖励促使环境探索小车追寻新变化,且由于环境小车在探寻过程中,使用的是最大值对应的概率作为奖励的构造内容,那么为了追求奖励,该系列的环境特征在总的环境特征中占比越来越高,使得其他环境特征对于环境掌握程度的影响越来越小,那么环境探索小车将会主动寻求使当前系列的环境特征占比降低的动作,在追寻新变化中,环境探索小车也就更容易因为环境的影响获得新的l′2max,从而缩短环境探索小车的探索时间,实现对环境的结构化探索,从直觉层面上进行解释,可以理解为,当环境探索小车感兴趣的点不再能够增长时,将会获得较大痛苦,较大的痛苦逼迫着环境探索小车脱离当前系列的环境特征,并随着时间推移对新的系列环境特征产生兴趣。
实施例三:
实施例一和实施例二都是以处于较高维度的(l21,l22,l23,l24,l25)作为兴趣点的转移,使得每一个兴趣点都对应比较概括抽象的环境特征,该方法偏于简单且探索信息不够全面,在实施例一和实施例二的基础上,我们需要一种既能对细节性的环境特征产生兴趣,也能对抽象性的环境特征产生兴趣的环境探索小车。
我们仍然以实施例二为基础,在本实施例中讨论如何使用本发明来实现能够全面探索环境的环境探索小车。
首先仍然是构建动作价值输出网络,其中,输入层与输出层与实施例一一致,但是针对隐藏层的两个全连接层,需要注意的是,我们需要让这两个全连接层使用相同的激活函数,使这两个全连接层上的经过激活函数处理后的参数具备可比性,在本实施例中,我们将这两个全连接层的参数记为(l31,l32,l33,l34,l35),(l41,l42,l43,l44,l45),综合表示为与实施例一同理可获得对/>的预测/>对应参数(l′31,l′32,l′33,l′34,l′35),(l′41,l′42,l′43,l′44,l′45),为了简便计算,本实施例仍然选取这十个参数中的最大值作为衡量差异的基准(选取最大值是为了方便计算,但是实际上选取最小值,选取中间值,选取最大的若干个值,选取最小的若干个值等等,只要能够根据一定规则从/>中可变的定位参数的方法,都可以获得差异衡量的基准,都可以根据实施例一描述的方法进行计算),在本实施例中,我们假设l′35为十个参数中的最大值l′max,计算l′35在整个中的概率g′2,同时计算l35在整个/>中的概率分布g2,在已知概率后,即可按照实施例一和实施例二所述的方法进行强化学习模型构建,为环境探索小车构建智能控制核心。
本实施例的方案通过将概率计算从实施例一中单个全连接层扩展到所有隐藏层的全连接层中,使得环境探索小车能够同时在细节性的环境特征和抽象性的环境特征中转移兴趣点,使得环境探索小车探索的环境更为全面的同时,仍然具备结构化的探索方法,且根据相关参数,仍然能够准确预测环境探索小车的意图所在。
实施例四:
实施例一到实施例三主要是说明基于值函数的深度强化学习构造方法,在本实施例中,主要说明结合策略梯度和值函数的深度强化学习构造方法,由于A2C、A3C、DDPG等方法都是在Actor-Critic的基础上实现的,是对Actor-Critic的优化,如果Actor-Critic能够实现,那么其他的基于策略梯度的深度强化学习方法也必然能够实现,因此,为了方便说明,在本实施例中使用Actor-Critic进行说明。
在本实施例中,根据Actor-Critic原理涉及一个Critic神经网络,一个Actor神经网络,一个特征预测神经网络和一个动作预测神经网络,在Actor-Critic中,根据现有技术可知,Actor神经网络的输入为当前时刻采集的环境参数,输出为具体的动作概率,以概率最大的动作为实际输出,当Actor神经网络执行动作时,我们可以得到执行动作所带来的奖励,执行动作后的环境参数和执行动作前的环境参数,而Critic神经网络则是执行动作所带来的奖励,执行动作后的环境参数和执行动作前的环境参数作为输入值,输出对执行动作所带来的预期累积奖励,然后根据这个预期累积奖励、执行的动作和执行动作前的环境参数来更新Actor神经网络的策略梯度。
上述内容属于现有技术,从中我们可以得到,在Actor-Critic中仍然存在一个对环境特征的提取,也就是Actor神经网络中仍然存在一个提取环境特征的隐藏层,在能够获得提取环境特征的隐藏层的基础上,我们根据实施例一中构建内部奖励的方法,可以很容易的就得到本发明应用于Actor-Critic的技术方案,因此本发明在Actor-Critic、A2C、A3C、DDPG等方法中也都是可以自由运用的,只要具备动作相关参数和环境参数之间的环境特征提取参数,即可构建特征预测神经网络,计算局部奖励,赋予智能体感性选择能力,结构化智能体的环境探索方法,使智能体的行为意图具备可解释性,促进深度强化学习在工业上的落地。
实施例五:
在多模态领域,经常需要多个智能体作为协同输出一个多角度演绎的共同的内容,这有利于推动具有高泛化能力的智能体的出现,本发明也适用于该领域。
在本实施例中,为了方便说明,只取最简单的模型,包括在声音和移动两个模态进行操作的两个智能体和一个作为核心的特征预测神经网络,动作智能体输入的环境参数为视觉图像,输出为具体的移动方位,声音智能体输入的环境参数为听觉声音,输出为各种发出的声音,那么在实施例一的基础上,我们可以获得一个声音的特征表示和视觉图像的特征表示/>其中,/>包括(l51,l52,l53,l54,l55),(l61,l62,l63,l64,l65),/>包括(l71,l72,l73,l74,l75),(l81,l82,l83,l84,l85),然后我们将当前时刻的视觉图像环境参数,听觉声音环境参数,当前时刻所执行的声音和当前时刻所执行的移动作为输入量,通过特征预测神经网络获得对下一时刻环境参数特征表示的综合预测/>可表示为(la1,la2,la3,la4,la5),(lb1,lb2,lb3,lb4,lb5),其中la1与l51和l71对应,其余同理依次对应,这使得视觉图像和听觉声音在特征预测神经网络上共用了一套特征表示,通过减少/>之间,以及/>与/>之间的差异度,就可以使得智能体能够对同时具备这两个不同模态的环境特征进行探索,在这个基础上,结合实施例一或实施例二分别计算/>之间的局部信息差异度和/>与/>之间的局部信息的差异度,并将两个差异度根据实施例一或实施例二分别构造的奖励进行累计(包括但不限于相加,相乘),即可得到总的内部奖励函数,在得到奖励函数的基础上,根据现有技术中已公开的多智能体强化学习模型如MAAC算法,即可完成深度强化学习模型的构建,本发明的重点在于利用局部信息构建奖励函数,通过该方法使智能体具备感性选择能力,从而实现环境探索的结构化和行为意图的解释化,促进工业落地,在构建完奖励函数后的具体处理上,现有技术中都已有公布,在此不多赘述,通过上述模型,智能体将会以/>中某个参数为基准,追求声音和视觉相关环境特征的单向变化,使得智能体行动时所能接收到的信息更具有关联性,更丰富,且能在同一时刻用不同行为来表示自身意图,有利于人机交互。
实施例六:
在多智能体协同合作中,往往会存在多个智能体采用相同的策略,导致或者由于环境不断变化导致不断的变化策略等现象,前者大大降低了智能体完成目标任务时的效率,后者则使智能体难以完成目标任务。
针对上述问题,本发明在赋予智能体个性化的感性能力之后,将使得每个智能体都具备不同的兴趣侧重点,进一步推动每个智能体的分工,并且使得智能体专注于某一系列环境特征的变化,使得同一时刻智能体之间的干扰性大大降低,从而使智能体能够完成合作任务。
在本实施例中,为了方便说明,使用两个输入层,隐藏层和输出层结构一致的智能体A和智能体B,根据实施例一到实施例四的内容,我们可以得到,智能体A的特征表示和智能体B的特征表示/>
我们根据两个智能体在分别在t时刻采取的动作,可以得到智能体A在t时刻采取的动作,智能体B在t时刻采取的动作,智能体A在采取动作前的环境参数,智能体A在采取动作后的环境参数,智能体B在采取动作前的环境参数,智能体B在采取动作后的环境参数,我们将上述内容作为输入层的输入数据,通过一个预测特征神经网络后,分别得到对的特征预测表示/>和对/>的预测特征表示/>在获取预测特征表示之后,即可根据实施例一到实施例五的内容分别计算两个智能体的内部奖励,在具备内部奖励的基础上,再赋予两个智能体一个外部奖励作为任务目标,构建深度强化学习模型,两个智能体即可根据任务目标和自身兴趣点完成任务分工,同时推进任务进展,大大加强了多智能体合作中的工作效率。
特别要注意的是,本发明的具体实施例是为了说明发明的具体使用方式,都做了简化处理方便理解,在实际运用中,使用的神经网络模型,神经网络模型中的激活函数,特征的层数,每个特征层的具体特征数量,选取规则的制定方式,提取局部信息后的函数处理,多智能体合作中的多智能体数量都可以根据情况进行选择,本发明的重点在于利用环境特征局部信息和对环境特征预测得到的预测特征局部信息构建奖励能够赋予智能体感性选择能力,同时在智能体获得感性选择能力的同时,也大大加强了智能体实际行动意图的可解释性,有利于深度强化学习在工业领域的落地,可以对智能体在工业生产中进行的操作进行预测,能够及时发现智能体可能做出的潜在危险行为,从而大大降低了智能体在工业领域的风险性,有利于推动生产力发展。
另外,上述内容虽然主要使用了环境特征表示和预测特征表示之间一一对应的位置关系进行奖励计算,但是实际上,使用非对应关系进行奖励计算也是可行的,但是在效果上不如使用对应位置来的好,以选定预测特征表示中的最大值为例,一方面,预测过程使得预测特征表示趋向于环境特征表示,而另一方面,非对应位置的值的增长使得预测特征表示中选定的位置会因为预测而发生变化,最后无法单向遍历同一个系列所对应的环境特征。但是仍然具有放大环境特征表示和实际环境特征之间的联系的效果,赋予智能体感性选择能力,使得智能体的意图可以更容易被观测,促进深度强化学习在工业上的落地。

Claims (2)

1.一种基于强化学习的智能体探索未知环境方法,包括智能体,所述智能体包括仿真环境中的仿真机器人,其特征在于,包括:S1、获取环境参数,从环境参数中提取环境特征表示,并记录智能体的动作;
S2、对环境参数的环境特征表示进行预测,得到预测特征表示;
S3、构建预测特征表示局部信息和环境特征表示局部信息的选取规则,计算预测特征表示局部信息和环境特征表示局部信息的差异度;
S4、构建强化学习计算模型,确立以差异度为核心的奖励函数;
S5、训练优化强化学习计算模型;
所述步骤S1包括:
S11、获取t时刻的环境参数St,对St进行特征提取获得t时刻的环境特征表示(St);
S12、获取t时刻的下一个时刻的环境参数St+1,对St+1进行特征提取获得t+1时刻的环境特征表示(St+1);
S13、构造智能体的动作行为空间A;
S14、记录智能体在t时刻环境和t+1时刻环境之间做出的动作at
所述步骤S2包括:
S21、将(St)和at作为输入值,计算得到对/>(St+1)进行预测的t+1时刻预测特征表示/>(St+1);
所述步骤S3包括:
S31、提取(St+1)中的局部参数f(St+1,θ),其中θ为人工设定的局部参数选取条件;
S32、提取(St+1)中与f(St+1,θ)维度信息一一对应的局部参数f’(St+1,θ);
S33、对f(St+1,θ)和f’(St+1,θ)进行函数处理,得到g(St+1,θ)和g’(St+1,θ),计算g(St+1,θ)和g’(St+1,θ)的差异度H(St+1,θ)=H(g(St+1,θ),g’(St+1,θ))。
2.根据权利要求1所述的一种基于强化学习的智能体探索未知环境方法,其特征在于,所述步骤S4包括:
S41、利用神经网络构造强化学习计算模型;
S42、构造所述强化学习计算模型的奖励函数;
所述rt为t时刻执行at后获得的即时奖励,为与H(St+1,θ)相关的内部奖励函数,/>为人工设定的外部奖励。
CN201911288498.5A 2019-12-13 2019-12-13 一种基于强化学习的智能体探索未知环境方法 Active CN111062491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911288498.5A CN111062491B (zh) 2019-12-13 2019-12-13 一种基于强化学习的智能体探索未知环境方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911288498.5A CN111062491B (zh) 2019-12-13 2019-12-13 一种基于强化学习的智能体探索未知环境方法

Publications (2)

Publication Number Publication Date
CN111062491A CN111062491A (zh) 2020-04-24
CN111062491B true CN111062491B (zh) 2024-06-14

Family

ID=70301553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911288498.5A Active CN111062491B (zh) 2019-12-13 2019-12-13 一种基于强化学习的智能体探索未知环境方法

Country Status (1)

Country Link
CN (1) CN111062491B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111586167B (zh) * 2020-05-06 2022-08-16 南京星火技术有限公司 智能体间协同方法、装置及相关产品
CN111260040B (zh) * 2020-05-06 2020-11-06 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于内在奖励的视频游戏决策方法
CN112115322B (zh) * 2020-09-25 2024-05-07 平安科技(深圳)有限公司 用户分群方法、装置、电子设备及存储介质
CN112257872B (zh) * 2020-10-30 2022-09-13 周世海 一种强化学习的目标规划方法
CN114489035B (zh) * 2020-11-13 2023-09-01 中国人民解放军陆军工程大学 一种基于累积迹强化学习的多机器人协同搜索方法
CN112465148A (zh) * 2020-11-27 2021-03-09 中国科学院深圳先进技术研究院 一种多智能体***的网络参数更新方法、装置及终端设备
CN112668235B (zh) * 2020-12-07 2022-12-09 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN112885378B (zh) * 2021-01-22 2023-03-24 中国地质大学(武汉) 一种语音情感识别方法、装置及存储介质
CN112884129B (zh) * 2021-03-10 2023-07-18 中国人民解放军军事科学院国防科技创新研究院 一种基于示教数据的多步规则提取方法、设备及存储介质
CN113111192B (zh) * 2021-04-28 2022-03-29 清华大学 智能体主动构建环境场景图谱的方法、设备和探索方法
CN113503885B (zh) * 2021-04-30 2024-02-20 山东师范大学 一种基于采样优化ddpg算法的机器人路径导航方法及***
CN113316169B (zh) * 2021-05-08 2023-01-31 北京科技大学 一种面向智慧港口的uav辅助通信能效优化方法及装置
CN114492845B (zh) * 2022-04-01 2022-07-15 中国科学技术大学 资源受限条件下提高强化学习探索效率的方法
CN115830489B (zh) * 2022-11-03 2023-10-20 南京小网科技有限责任公司 一种基于ai识别的智能动态分析***
CN116112525A (zh) * 2023-02-02 2023-05-12 重庆邮电大学 一种车联网任务卸载方法、***及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101893711A (zh) * 2009-05-20 2010-11-24 中国科学院电子学研究所 基于智能体群体演化的海洋分布目标检测方法
CN108803615A (zh) * 2018-07-03 2018-11-13 东南大学 一种基于深度强化学习的虚拟人未知环境导航算法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018212918A1 (en) * 2017-05-18 2018-11-22 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
US11568236B2 (en) * 2018-01-25 2023-01-31 The Research Foundation For The State University Of New York Framework and methods of diverse exploration for fast and safe policy improvement
KR101988504B1 (ko) * 2019-02-28 2019-10-01 아이덴티파이 주식회사 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법
CN110399920B (zh) * 2019-07-25 2021-07-27 哈尔滨工业大学(深圳) 一种基于深度强化学习的非完备信息博弈方法、装置、***及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101893711A (zh) * 2009-05-20 2010-11-24 中国科学院电子学研究所 基于智能体群体演化的海洋分布目标检测方法
CN108803615A (zh) * 2018-07-03 2018-11-13 东南大学 一种基于深度强化学习的虚拟人未知环境导航算法

Also Published As

Publication number Publication date
CN111062491A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
CN111062491B (zh) 一种基于强化学习的智能体探索未知环境方法
Wang et al. Deep reinforcement learning: A survey
Le et al. A deep hierarchical reinforcement learning algorithm in partially observable Markov decision processes
CN112119409B (zh) 具有关系存储器的神经网络
CN107403426B (zh) 一种目标物体检测方法及设备
CN112596515B (zh) 一种多物流机器人移动控制方法及装置
Xiang et al. Task-oriented deep reinforcement learning for robotic skill acquisition and control
CN111766782A (zh) 基于深度强化学习中Actor-Critic框架的策略选择方法
Huang et al. Computational modeling of emotion-motivated decisions for continuous control of mobile robots
Tongloy et al. Asynchronous deep reinforcement learning for the mobile robot navigation with supervised auxiliary tasks
Zhao et al. Aspw-drl: assembly sequence planning for workpieces via a deep reinforcement learning approach
Xu et al. Learning to learn: Hierarchical meta-critic networks
Ziya et al. Comparative study for deep reinforcement learning with CNN, RNN, and LSTM in autonomous navigation
Kashyap et al. Multi-objective optimization technique for trajectory planning of multi-humanoid robots in cluttered terrain
CN116702872A (zh) 基于离线预训练状态转移Transformer模型的强化学习方法和装置
Hafez et al. Improving robot dual-system motor learning with intrinsically motivated meta-control and latent-space experience imagination
Gankidi FPGA accelerator architecture for Q-learning and its applications in space exploration rovers
Chen et al. Policy gradient from demonstration and curiosity
Shao et al. Visual navigation with actor-critic deep reinforcement learning
CN113407820A (zh) 模型训练方法及相关***、存储介质
CN111783983A (zh) 用于实现导航的可迁移的元学习的无监督dqn强化学习
Kuo et al. Applying hybrid learning approach to RoboCup's strategy
CN114358247A (zh) 一种基于因果关系推断的智能体行为解释方法
CN115242428A (zh) 一种基于优化cw-rnn的网络安全态势预测方法
Zhao et al. HCS-R-HER: Hierarchical reinforcement learning based on cross subtasks rainbow hindsight experience replay

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240520

Address after: 710000, No. 19-1 Jiangong Road, Xincheng District, Xi'an City, Shaanxi Province

Applicant after: SHAANXI KING'S FRIENDS EDUCATION TECHNOLOGY Co.,Ltd.

Country or region after: China

Address before: 315722 No.14 Dongxi Road, Xizhou Town, Xiangshan County, Ningbo City, Zhejiang Province

Applicant before: Zhou Shihai

Country or region before: China

GR01 Patent grant
GR01 Patent grant