CN117075470A - 基于内部逻辑归纳的机器人决策策略训练方法及*** - Google Patents

基于内部逻辑归纳的机器人决策策略训练方法及*** Download PDF

Info

Publication number
CN117075470A
CN117075470A CN202310976077.1A CN202310976077A CN117075470A CN 117075470 A CN117075470 A CN 117075470A CN 202310976077 A CN202310976077 A CN 202310976077A CN 117075470 A CN117075470 A CN 117075470A
Authority
CN
China
Prior art keywords
robot
knowledge base
training
logic
symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310976077.1A
Other languages
English (en)
Inventor
章宗长
俞扬
周志华
徐嘉诚
陈超
张福翔
袁雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202310976077.1A priority Critical patent/CN117075470A/zh
Publication of CN117075470A publication Critical patent/CN117075470A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Automation & Control Theory (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开一种基于内部逻辑归纳的机器人决策策略训练方法及***,在像素‑符号混合形式输入的机器人决策环境下,该方法针对不同输入形式的特点,将深度强化学习算法和规则学习算法整合,分别处理像素输入和符号输入。在机器人决策策略训练过程中,规则学习算法从少量高质量样本中归纳出有价值的命题逻辑知识,然后使用归纳的命题逻辑知识进行奖励工程设计,帮助深度强化学习算法的训练,提高训练方法的样本数据利用效率。

Description

基于内部逻辑归纳的机器人决策策略训练方法及***
技术领域
本发明涉及一种基于内部逻辑归纳的机器人决策策略训练方法及***,属于机器人智能学习技术领域。
背景技术
深度强化学习技术正得到迅速发展,在诸如雅达利游戏、围棋、机器臂决策等领域取得显著成功。该技术表现出极大的潜力,被认为是解决实际序列决策问题的有前景的方案。但是,强化学习算法样本利用效率低的特点,阻碍了它进一步用于环境采样成本昂贵的真实环境下的机器人决策场景。
当前强化学习算法主要集中在处理单一类型的输入,如图像形式的像素输入或向量形式的符号输入。然而在很多现实场景中,算法可以同时获得上述两种形式的输入,如在自动驾驶场景中,车载视觉雷达捕获的是像素输入,车载激光雷达、城市道路信息和车辆指标信息(如速度、功率、坐标等)则是符号输入。有效利用两种不同形式的输入,能够进一步提高基于强化学习的机器人决策策略训练方法的样本利用效率。
在像素-符号混合形式输入的机器人决策场景中,像素输入通常提供更全面的信息,但由于像素输入和神经网络的复杂性,训练机器人决策策略需要大量的样本。相反,符号状态的维度要小得多,并且每个状态维度都具有固定且具体的含义,在符号状态上的训练会更快地收敛,但它通常会缺乏一些信息,导致无法获得最优的决策策略。
现有可用于机器人决策场景的强化学习算法主要关注单一形式的输入,只有少数工作围绕多种形式的输入进行,主要的研究方向是:多视图强化学习和符号深度强化学习。多视图强化学习关注来自多个视图的数据,每个视图共享公共的动力学模型,但遵循不同的观察模型。多视图强化学习研究如何从多个不同的观测模型中通过表征学习技术整合信息,而在本发明关心的设定中,像素输入已经包含了整合后的信息。符号深度强化学习则在分层强化学习框架下处理高维像素输入和任务级别的符号输入,它们关注如何利用任务级别的符号输入进行上层策略规划,而在本发明关心的设定中,符号输入可以直接用于决策辅助,两者关于符号输入的粒度和使用方法有很大的不同。
当遇到像素-符号混合形式输入的机器人决策场景时,常见的做法是将像素输入经过卷积神经网络处理得到低维表征,然后将低维表征与原始符号输入拼接,将拼接后的结果作为深度强化学习网络的输入。这种方法并没有很好地利用符号输入的特性,因为神经网络仍然需要大量样本来学习符号输入的语义,而且像素输入的高维度表示可能会干扰符号输入的识别。此外,现有的单纯处理像素输入的强化学习算法,在视觉感知变化的新任务上,难以复用旧任务上学习的知识。
发明内容
发明目的:针对现有技术存在的问题与不足,基于像素-符号混合形式输入的机器人决策环境的特点,本发明提供了一种基于内部逻辑归纳的机器人决策策略训练方法及***,利用深度强化学习算法和规则学习算法,分别处理像素输入和符号输入,并且提出了一种新颖的自适应奖励工程机制将两者有效地结合在一起,以解决现有技术在像素-符号混合形式输入的机器人决策环境下样本利用效率低,并在视觉感知变化的场景下难以知识迁移的问题,帮助机器人决策***进行高效训练和快速迁移部署。
技术方案:一种基于内部逻辑归纳的机器人决策策略训练方法,在像素-符号混合形式输入的机器人决策环境下,进行强化学习训练,该方法将深度强化学习算法和规则学习算法整合到一个***中。本方法使用深度强化学习算法处理像素输入,同时使用规则学习算法处理符号输入,旨在从少量高质量样本中归纳出有价值的命题逻辑知识,然后使用归纳的命题逻辑知识帮助机器人学习,提高样本数据利用效率。由于机器人内部逻辑归纳模块的训练集是在机器人决策策略训练过程中自动提取的,所以内部逻辑归纳模块的训练是一种自监督过程,不需要人工参与训练集的构建。此外,内部逻辑归纳模块带来一个额外优势是训练过程中导出的命题逻辑知识库具有良好的知识迁移性。
本发明基于真实***构建了仿真机器人决策环境E,该环境能提供与真实机器人决策场景下一致的状态与操作信息,基本模拟真实场景中对应的马尔科夫决策过程<S,A,P,R>,S表示状态空间,A表示动作空间,P表示状态转移函数,R表示奖励函数。与常见单一形式输入的机器人决策场景不同,像素-符号混合形式输入场景下的状态空间S由像素状态和符号状态/>组成,C,H,W,M分别表示像素图像的通道数、高、宽和符号向量的维度,/>表示实数。机器人在每个决策步骤接收状态信息s∈S,由像素状态信息sp∈Sp和符号状态信息ss∈Ss组成,并从动作空间A中选取可执行的动作a进行决策。
本发明方法涉及三个步骤,命题逻辑知识库的构建,命题逻辑知识库的检索,以及内部逻辑归纳模块设计。分别用于解决如何在机器人决策策略训练过程中构建有效的命题逻辑知识库,如何使用给定的命题逻辑知识库帮助深度强化学习算法的训练,以及如何将前两个步骤整合到一个框架中自适应的决定何时使用实时构建的命题逻辑知识库帮助深度强化学习算法的训练,实现机器人决策策略训练。
在命题逻辑知识库的构建步骤中,需要为规则学习算法准备一个训练数据集。在机器人决策策略训练的采样过程中会包含很多探索数据,但这类数据并不全都是规则学习算法所需要的,因为规则学习算法只需要高质量的样本,所以提出了一种两阶段样本过滤机制。假定环境采样过程中已获得机器人N条轨迹集合{Traji|i∈{1,2,…,N}},其中第i条轨迹记为并且其对应的回报为/>本方法第一阶段样本过滤机制为:去除轨迹集合中执行探索动作的符号状态和动作对,得到过滤后的轨迹集合{Traj′i|i∈{1,2,…,N}}。第二阶段样本过滤机制为:将N条轨迹按照回报大小降序排序,排序后的轨迹集合为/>并将轨迹展开为符号状态和动作对表示,得到最后取前K个符号状态和动作对作为规则学习算法的训练集/>基于训练集/>规则学习算法可以从中归纳出命题逻辑知识库KB,知识库的示例如下:
其中si代表符号输入中的一个符号特征,xj代表一个阈值,而a对应的是命题逻辑知识库建议的动作,a=cv表示执行代号为cv的动作。
在命题逻辑知识库的检索步骤中,给定一个将所有命题规则按顺序存储的知识库KB后,将仿真机器人决策环境给出的符号状态送到知识库中检索,一旦找到一个满足的匹配就完成检索的过程。具体而言,在机器人决策的每一个时间步,环境返回的符号状态被发送到知识库KB中,如果符号状态和知识库中某一条规则的规则体匹配,那么知识库将给出对应的规则头,即知识库建议的动作aadv;如果在知识库中没有找到匹配的规则体,那么对于这个符号状态知识库就不会给出建议。获得建议的动作后,使用知识库KB的建议构造内在奖励来促进强化学习策略的训练,如果机器人执行的动作aact与知识库建议的动作aadv一致,则给与大小为+x的内在奖励ri,如果不一致则给与大小为0的内在奖励ri,最终用于强化学习算法训练的混合奖励为r=re+λri,其中re是环境奖励,λ是内在奖励权重系数。
内部逻辑归纳模块旨在将命题逻辑知识库的构建和检索纳入强化学***均回报为最近p个回合的平均回报,短期平均回报/>为最近q个回合的平均回报,p大于q。当短期平均回报大于长期平均回报时,表明已经探索到更高回报的轨迹,此时应该使用规则学***均回报时,表明探索策略没有获得新的有效信息。在这种情况下强调过去的成功经验会使机器人陷入局部最优,所以不应该参考命题逻辑知识。最后内在奖励权重系数的计算如下:
最终用于训练机器人决策策略的混合奖励为r=re+λri
在感知输入变化的场景下,可以根据命题逻辑知识库的检索方法,使用本发明在旧场景上得到的关于机器人决策策略的命题逻辑知识,通过奖励工程的方式帮助旧场景上的命题逻辑知识快速迁移到新场景中去,减少训练所需要的环境采样数量,帮助机器人决策策略训练方法和***在新环境上的快速迁移部署。
一种基于内部逻辑归纳的机器人决策策略训练***,包括:命题逻辑知识库的构建模块,命题逻辑知识库的检索模块,以及内部逻辑归纳模块;
命题逻辑知识库的构建模块,用于解决如何在机器人决策策略训练过程中构建有效的命题逻辑知识库;
命题逻辑知识库的检索模块;使用给定的命题逻辑知识库帮助深度强化学习算法的训练;
内部逻辑归纳模块,用于将命题逻辑知识库的构建模块和命题逻辑知识库的检索模块两个模块整合到一个框架中,自适应的决定何时使用实时构建的命题逻辑知识库帮助深度强化学习算法的训练,实现机器人决策策略训练。
机器人决策策略训练***实现时,先构建了仿真机器人决策环境E。
命题逻辑知识库的构建模块中,需要为规则学习算法准备一个训练数据集所以提出了一种两阶段样本过滤机制;基于训练集/>规则学习算法从训练集/>中归纳出命题逻辑知识库KB。模块的具体实现过程和方法相同,不再赘述。
在命题逻辑知识库的检索模块中,给定一个将所有命题规则按顺序存储的知识库KB后,将仿真机器人决策环境给出的符号状态送到知识库中检索,一旦找到一个满足的匹配就完成检索的过程。模块的具体实现过程和方法相同,不再赘述。
内部逻辑归纳模块旨在将命题逻辑知识库的构建和检索纳入强化学***均回报为最近p个回合的平均回报,短期平均回报/>为最近q个回合的平均回报,p大于q;当短期平均回报大于长期平均回报时,表明已经探索到更高回报的轨迹,此时应该使用规则学***均回报时,表明探索策略没有获得新的有效信息;最后内在奖励权重系数的计算如下:
最终用于训练机器人决策策略的混合奖励为r=re+λri
在感知输入变化的场景下,根据命题逻辑知识库的检索方法,使用在旧场景上得到的关于机器人决策策略的命题逻辑知识,通过奖励工程的方式帮助旧场景上的命题逻辑知识快速迁移到新场景中去,帮助机器人决策策略训练***在新环境上的快速迁移部署。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于内部逻辑归纳的机器人决策策略训练方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于内部逻辑归纳的机器人决策策略训练方法的计算机程序。
有益效果:本发明提供一种基于内部逻辑归纳的机器人决策策略训练方法及***,用于训练机器人控制策略的方法相较于先前方法,将深度强化学习算法和规则学习算法有效地结合到一个***中,能够更有效地处理符号输入信息,在像素-符号混合形式输入的机器人控制环境中取得了更好的样本效率和测试性能。所述方法在训练过程中得到的命题逻辑知识库,在感知输入变化的机器人控制场景下,能够有效地将旧场景中获得知识迁移到新场景中去。本发明在一个像素-符号混合形式输入的模拟机器人控制环境上验证了本发明的有效性和合理性,实验结果表明本发明技术可以有效提升机器人控制策略训练方法的样本利用效率和测试性能。
附图说明
图1本发明所述的命题逻辑知识归纳模块示意图;
图2本发明所述的命题逻辑知识匹配模块示意图;
图3本发明所述的内部逻辑归纳模块的示意图;
图4本发明所述的基于内部逻辑归纳的机器人决策策略方法的训练流程图;
图5为本发明所述的用于验证基于内部逻辑归纳的机器人决策策略训练方法的环境实例图;
图6为本发明所述基于内部逻辑归纳的机器人控制策略训练方法在上述环境的验证结果。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于内部逻辑归纳的机器人决策策略训练方法可以用于自动驾驶决策***的构建。机器人决策策略训练方法在像素-符号混合形式输入的自动驾驶模拟环境上进行了验证,如图5所示。在该自动驾驶模拟环境中,我方需要控制自动驾驶汽车学习加速,减速和过弯等技能,在给定时间内行驶尽可能远的距离。环境状态输入有两种形式,分别是图像形式的像素输入和向量形式的符号输入。图6展示了本发明和其他相关算法在该模拟环境下的验证结果,对比算法分别有处理单一符号输入的Symbolic DQN、处理单一像素输入的PixelDQN和处理混合形式输入的Mixed DQN,实验结果表明本方法能够在该模拟环境下取得相较于现有强化学习算法更优的性能。本发明包括如下步骤:
步骤1:图1中展示了自动驾驶决策机器人与自动驾驶仿真环境模拟器的交互过程。决策机器人与基于真实***构建的自动驾驶仿真环境模拟器E进行交互,模拟器定义了一个马尔科夫决策过程<S,A,P,R>,决策机器人在该仿真环境中进行强化学习。状态空间S定义为环境信息,像素-符号混合形式输入的自动驾驶场景中的状态空间S由像素状态和符号状态/>组成,C,H,W,M分别表示像素图像的通道数、高、宽和符号向量的维度。动作空间A为机器人可采取动作集合,P为模拟器的状态转移函数,R为模拟器的奖赏函数。
以验证的像素-符号混合形式输入环境为例,本方法采用的模拟器一般需要包括如下步骤实现:
步骤11:初始化模拟器,初始化环境地图,添加机器人的信息,为机器人和障碍物在设定范围内选择随机的初始位置,并在对应位置初始化机器人和障碍物。
步骤12:为机器人计算状态信息。在像素-符号混合形式输入模拟器环境中,同时返回由车载视觉雷达等器件获得的像素输入表示的状态,和由车载激光雷达等器件获得的符号输入表示的状态。
步骤13:机器人根据环境状态进行决策,选择动作并提交给模拟器。在自动驾驶仿真模拟器中,机器人可采取的动作包括加速、减速、静止和左右转向。
步骤14:模拟器获取机器人选择的动作,计算该时间步环境奖励。在自动驾驶仿真模拟器中,模拟器根据当前状态与机器人提交的动作,基于机器人的行为,给出当前步的环境奖励,包括机器人到达指定距离的奖励、机器人执行动消耗的奖励。
步骤15:模拟器判断回合结束条件是否满足,若满足则结束当前情景。在自动驾驶仿真模拟器中,机器人累计执行动作达到一定次数,或机器人触碰到道路边缘,环境将会结束。
步骤2:使用命题逻辑知识库构建方法,根据与模拟环境交互过程中的得到的符号状态和动作,构造用于规则学习的训练集。规则学习算法不同于强化学习算法,其不需要探索性质的样本,所以本方法提出了两阶段过滤方法来去除低质量样本,图1中展示了命题逻辑知识库的构建流程。
步骤21:将从环境中获得的像素状态、符号状态、环境奖励和机器人在对应时刻执行的动作保存到经验回放数组中。
步骤22:从经验回访数组中获得由符号状态和动作组成的N条轨迹集合{Traji|i∈{1,2,…,N}},其中第i条轨迹记为并且其对应的回报为
步骤23:将轨迹集合中执行探索决策对应的符号状态和动作去除,得到过滤后的轨迹集合{Traj′i|i∈{1,2,…,N}}。
步骤24:将过滤后的N条轨迹按回报降序排序,排序后的轨迹集合为该集合满足当m<n时,/>并将轨迹展开为符号状态和动作对的表示形式最后取前K个符号状态和动作对作为规则学习算法的训练集/>
步骤25:基于训练集使用规则学习领域的重复增量剪枝以减少误差算法挖掘命题逻辑规则。该算法通过反复的增长和剪枝过程来形成规则。在增长阶段,通过添加最大化信息增益标准的条件来增长规则,以尽可能贴近训练数据,直到规则不再覆盖任何负例。在剪枝阶段,通过删除最大化剪枝函数的条件来剪枝规则,直到任何删除都不能提高函数值,以避免过拟合。在规则学习算法收敛后得到命题逻辑知识库KB,知识库的示例如下:
其中si代表符号输入中的一个符号特征,xj代表一个阈值,而a对应的是命题逻辑知识库建议的动作,a=n表示执行第n个动作。
步骤3:对于经验回访数组中的样本,使用命题逻辑知识库中的规则进行奖励工程来获得内在奖励,图2展示了通过命题逻辑索引进行奖励工程的过程,首先从经验回放数组中采样用于机器人训练的样本,然后将其符号状态送入命题逻辑知识库中检索,将检索得到的知识库建议动作与机器人执行动作比较得到内在奖励大小,具体流程如下:
步骤31:采样得到待进行奖励工程的样本<sp,ss,aact,re>,分别表示像素输入,符号输入,执行动作和环境奖励。将符号输入ss送到命题逻辑知识库中进行检索,当找到一个满足规则体的规则后就完成匹配过程,并返回对应的规则头,如果没有找到匹配的规则体,则不对该样本进行奖励工程。
步骤32:获得建议的动作后,如果机器人执行的动作aact与知识库建议的动作aadv一致,则给与大小为+x的内在奖励ri,如果不一致则大小为0,ri的计算公式如下:
最终,该样本的混合奖励为r=re+λri
步骤4:因为此处的命题逻辑知识强调利用过去的成功经验,但盲目的利用会导致训练的崩塌,于是本发明使用自适应内在奖励系数调节机制,根据训练历史状态,计算出内在奖励系数大小,并将最终的混合奖励用于强化学习机器人的训练。图4是使用修改后的混合奖励进行强化学习训练的全过程。
步骤41:计算最近p个回合的平均回报,记作长期平均回报计算最近q个回合的平均回报,记作短期平均回报/>其中p大于q。当短期平均回报大于长期平均回报时,表明已经探索了更高回报的轨迹,此时应该使用归纳得到的命题逻辑知识,因为规则学***均回报时,表明探索策略没有获得新的有效信息。在这种情况下强调过去的成功经验会使机器人陷入局部最优,所以不应该参考命题逻辑知识。最后内在奖励权重系数的计算如下:
最终用于训练机器人的混合奖励为r=re+λri
步骤42:使用奖励工程后的样本为<sp,ss,a,r>,其中混合奖励r=re+λri。从经验回放数组中采样样本,使用深度Q网络算法进行机器人的训练:机器人使用Q值网络Q(sp,a;θ)来近似状态动作值函数,θ表示Q值网络的网络参数,动作状态值函数的计算目标为其中γ∈(0,1]为折扣因子,/>表示在t时刻环境返回的像素状态信息,at表示在t时刻机器人执行的动作。为了稳定训练过程,我们额外使用一个目标网络/>参数θ的更新公式为这里的/>是神经网络的学习率。目标值网络的参数/>会定期更新,更新公式为/>这里的β∈(0,1]是控制目标网络参数更新速度的超参数。机器人的策略由/>导出。
步骤5:策略训练达到收敛后,完成训练过程,得到自动驾驶控制策略算法,以及可用于辅助自动驾驶***在新场景下快速部署的命题逻辑知识库。
机器人决策策略训练***和方法实现过程相同,不再赘述。
显然,本领域的技术人员应该明白,上述的本发明实施例的基于内部逻辑归纳的机器人决策策略训练方法各步骤或基于内部逻辑归纳的机器人决策策略训练***各模块可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

Claims (10)

1.一种基于内部逻辑归纳的机器人决策策略训练方法,其特征在于,在像素-符号混合形式输入的机器人决策环境下,使用深度强化学习算法处理像素输入,同时使用规则学习算法处理符号输入,旨在从样本数据中归纳出命题逻辑知识,然后使用归纳的命题逻辑知识帮助机器人学习;机器人决策策略训练方法包括:命题逻辑知识库的构建,命题逻辑知识库的检索,以及内部逻辑归纳模块设计三个步骤;三个步骤分别用于解决如何在机器人决策策略训练过程中构建有效的命题逻辑知识库,如何使用给定的命题逻辑知识库帮助深度强化学习算法的训练,以及如何将前两个步骤整合到一个框架中自适应的决定何时使用实时构建的命题逻辑知识库帮助深度强化学习算法的训练,实现机器人决策策略训练。
2.根据权利要求1所述的基于内部逻辑归纳的机器人决策策略训练方法,其特征在于,构建仿真机器人决策环境E,该环境能提供与真实机器人决策场景下一致的状态与操作信息,模拟真实场景中对应的马尔科夫决策过程<S,A,P,R>,S表示状态空间,A表示动作空间,P表示状态转移函数,R表示奖励函数;像素-符号混合形式输入场景下的状态空间S由像素状态和符号状态/>组成,C,H,W,M分别表示像素图像的通道数、高、宽和符号向量的维度,/>表示实数;机器人在每个决策步骤接收状态信息s∈S,由像素状态信息sp∈Sp和符号状态信息ss∈Ss组成,并从动作空间A中选取可执行的动作a进行决策。
3.根据权利要求1所述的基于内部逻辑归纳的机器人决策策略训练方法,其特征在于,在命题逻辑知识库的构建步骤中,需要为规则学习算法准备一个训练数据集,所以提出了一种两阶段样本过滤机制;设环境采样过程中已获得机器人N条轨迹集合{Traji|i∈{1,2,…,N}},其中第i条轨迹记为并且其对应的回报为/>第一阶段样本过滤机制为:去除轨迹集合中执行探索动作的符号状态和动作对,得到过滤后的轨迹集合{Traj′i|i∈{1,2,…,N}};第二阶段样本过滤机制为:将N条轨迹按照回报大小降序排序,排序后的轨迹集合为/>并将轨迹展开为符号状态和动作对表示,得到/>最后取前K个符号状态和动作对作为规则学习算法的训练集/>基于训练集/>规则学习算法从训练集/>中归纳出命题逻辑知识库KB,知识库的示例如下:
其中si代表符号输入中的一个符号特征,xj代表一个阈值,而a对应的是命题逻辑知识库建议的动作,a=cv表示执行代号为cv的动作。
4.根据权利要求1所述的基于内部逻辑归纳的机器人决策策略训练方法,其特征在于,在命题逻辑知识库的检索步骤中,给定一个将所有命题规则按顺序存储的知识库KB后,将仿真机器人决策环境给出的符号状态送到知识库KB中检索,一旦找到一个满足的匹配就完成检索的过程;在命题逻辑知识库的检索步骤的实现过程为:在机器人决策的每一个时间步,环境返回的符号状态被发送到知识库KB中,如果符号状态和知识库中某一条规则的规则体匹配,那么知识库将给出对应的规则头,即知识库建议的动作aadv;如果在知识库中没有找到匹配的规则体,那么对于这个符号状态知识库KB就不会给出建议;获得建议的动作后,使用知识库KB建议的动作构造内在奖励来促进强化学习策略的训练,如果机器人执行的动作aact与知识库建议的动作aadv一致,则给与大小为+x的内在奖励ri,如果不一致则给与大小为0的内在奖励ri,最终用于强化学习算法训练的混合奖励为r=re+λri,其中re是环境奖励,λ是内在奖励权重系数。
5.根据权利要求1所述的基于内部逻辑归纳的机器人决策策略训练方法,其特征在于,内部逻辑归纳模块旨在将命题逻辑知识库的构建和检索纳入强化学***均回报为最近p个回合的平均回报,短期平均回报/>为最近q个回合的平均回报,p大于q;当短期平均回报大于长期平均回报时,表明已经探索到更高回报的轨迹,此时应该使用规则学***均回报时,表明探索策略没有获得新的有效信息;最后内在奖励权重系数的计算如下:
最终用于训练机器人决策策略的混合奖励为r=re+λri
6.根据权利要求5所述的基于内部逻辑归纳的机器人决策策略训练方法,其特征在于,使用奖励工程后的样本为<sp,ss,a,r>,其中混合奖励r=re+λri;从经验回放数组中采样样本,使用深度Q网络算法进行机器人的训练:机器人使用Q值网络Q(sp,a;θ)来近似状态动作值函数,θ表示Q值网络的网络参数,动作状态值函数的计算目标为 其中γ∈(0,1]为折扣因子,/>表示在t时刻环境返回的像素状态信息,at表示在t时刻机器人执行的动作;为了稳定训练过程,额外使用一个目标网络/>参数θ的更新公式为/>这里的/>是神经网络的学习率;目标值网络的参数/>会定期更新,更新公式为/>这里的β∈(0,1]是控制目标网络参数更新速度的超参数;机器人的策略由导出。
7.根据权利要求1所述的基于内部逻辑归纳的机器人决策策略训练方法,其特征在于,在感知输入变化的场景下,根据命题逻辑知识库的检索方法,使用在旧场景上得到的关于机器人决策策略的命题逻辑知识,通过奖励工程的方式帮助旧场景上的命题逻辑知识快速迁移到新场景中去,帮助机器人决策策略训练方法在新环境上的快速迁移部署。
8.一种基于内部逻辑归纳的机器人决策策略训练***,其特征在于,在像素-符号混合形式输入的机器人决策环境下,使用深度强化学习算法处理像素输入,同时使用规则学习算法处理符号输入,旨在从样本数据中归纳出命题逻辑知识,然后使用归纳的命题逻辑知识帮助机器人学习;机器人决策策略训练***包括:命题逻辑知识库的构建模块,命题逻辑知识库的检索模块,以及内部逻辑归纳模块;三个模块分别用于解决如何在机器人决策策略训练过程中构建有效的命题逻辑知识库,如何使用给定的命题逻辑知识库帮助深度强化学习算法的训练,以及如何将命题逻辑知识库的构建模块和命题逻辑知识库的检索模块两个模块整合到一个框架中,自适应的决定何时使用实时构建的命题逻辑知识库帮助深度强化学习算法的训练,实现机器人决策策略训练。
9.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-7中任一项所述的基于内部逻辑归纳的机器人决策策略训练方法。
10.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-7中任一项所述的基于内部逻辑归纳的机器人决策策略训练方法的计算机程序。
CN202310976077.1A 2023-08-04 2023-08-04 基于内部逻辑归纳的机器人决策策略训练方法及*** Pending CN117075470A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310976077.1A CN117075470A (zh) 2023-08-04 2023-08-04 基于内部逻辑归纳的机器人决策策略训练方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310976077.1A CN117075470A (zh) 2023-08-04 2023-08-04 基于内部逻辑归纳的机器人决策策略训练方法及***

Publications (1)

Publication Number Publication Date
CN117075470A true CN117075470A (zh) 2023-11-17

Family

ID=88718647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310976077.1A Pending CN117075470A (zh) 2023-08-04 2023-08-04 基于内部逻辑归纳的机器人决策策略训练方法及***

Country Status (1)

Country Link
CN (1) CN117075470A (zh)

Similar Documents

Publication Publication Date Title
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN111142522B (zh) 一种分层强化学习的智能体控制方法
CN111260027B (zh) 一种基于强化学习的智能体自动决策方法
CN113110592A (zh) 一种无人机避障与路径规划方法
CN111766782B (zh) 基于深度强化学习中Actor-Critic框架的策略选择方法
WO2023102962A1 (zh) 一种训练端到端的自动驾驶策略的方法
CN111047085B (zh) 一种基于元学习的混合动力车辆工况预测方法
CN114162146B (zh) 行驶策略模型训练方法以及自动驾驶的控制方法
CN114194211B (zh) 一种自动驾驶方法、装置及电子设备和存储介质
CN109726676B (zh) 自动驾驶***的规划方法
CN111950393B (zh) 一种基于边界搜索智能体的时序动作片段分割方法
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及***
CN113722980A (zh) 海洋浪高预测方法、***、计算机设备、存储介质、终端
CN115860107A (zh) 一种基于多智能体深度强化学习的多机探寻方法及***
Li et al. Simulation of vehicle interaction behavior in merging scenarios: A deep maximum entropy-inverse reinforcement learning method combined with game theory
CN115826621B (zh) 一种基于深度强化学习的无人机运动规划方法及***
CN117075470A (zh) 基于内部逻辑归纳的机器人决策策略训练方法及***
Zhang et al. Vehicle driving longitudinal control based on double deep Q network
CN116923401A (zh) 一种自动驾驶跟驰速度控制方法、计算机设备及存储介质
Tian et al. Autopilot strategy based on improved DDPG algorithm
CN112884129B (zh) 一种基于示教数据的多步规则提取方法、设备及存储介质
CN114817989B (zh) 模型生成方法、运行控制方法、装置、设备及存储介质
CN115730529B (zh) 基于工况识别的phet能量管理策略生成方法及***
CN114444597B (zh) 基于渐进式融合网络的视觉跟踪方法及装置
CN117523359A (zh) 一种基于强化学习的图像比对识别方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination