CN116702872A

CN116702872A - 基于离线预训练状态转移Transformer模型的强化学习方法和装置

Info

Publication number: CN116702872A
Application number: CN202310737435.3A
Authority: CN
Inventors: 卢宗青; 周伯涵; 李可; 姜杰川
Original assignee: Peking University; Beijing Zhiyuan Artificial Intelligence Research Institute
Current assignee: Peking University; Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-09-05

Abstract

本发明公开了基于离线预训练状态转移Transformer模型的强化学习方法，属于人工智能技术领域。方法包括基于视频的观测数据离线预训练得到状态转移Transformer模型，以使所述状态转移Transformer模型根据输入的当前状态预测得到下一步状态，并得到从当前状态到下一步状态的状态转移的判别得分；利用所述状态转移Transformer模型，得到强化学习中的状态转移的判别得分作为内在奖励，以使强化学习的智能体根据所述内在奖励进行策略的学习和迭代，得到最优策略。本发明提出的方法比基线算法更具鲁棒性、样本效率和性能，在机器人控制、自动驾驶等领域具有很高的研究价值。

Description

基于离线预训练状态转移Transformer模型的强化学习方法和装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于离线预训练状态转移Transformer模型的强化学习方法和装置。

背景技术

从视觉观测数据中训练强化学习策略是一项具有挑战性的研究,其难点主要在于处理高维输入依赖大量计算资源、缺乏明确的动作信息、视觉数据的复杂性需要强大的特征提取技术、时间依赖性等。

目前的训练方法中，有一些采用从零开始的在线强化学习方案，这种方法采样效率低，难以进行有效样本探索和高难度探索，而且在线学习鉴别器的对抗性方法容易受到视觉观察中的噪声或局部变化导致的误分类影响；还有一些仅针对特定任务进行强化学习的策略训练，泛化能力弱，不适合处理开放性任务。因此，现有的观测学习方法适用范围有限：许多仅适用于向量观测环境，在应用于高维视觉观察或视频游戏时效果不好。

发明内容

为了解决现有技术中存在的问题，本发明提供了如下技术方案。

本发明第一方面提供了一种基于离线预训练状态转移Transformer模型的强化学习方法，包括：

基于视频的观测数据，对Transformer模型进行离线预训练得到状态转移Transformer模型，以使所述状态转移Transformer模型根据输入的当前状态预测得到下一步状态，并得到从当前状态到下一步状态的状态转移的判别得分；

利用所述状态转移Transformer模型得到强化学习中的状态转移的判别得分作为强化学习的内在奖励，以使强化学习的智能体根据所述内在奖励进行策略的学习和迭代，得到最优策略。

优选地，所述当前状态按照如下方法从所述视频中提取：在Atari环境中，当前状态通过所述视频中相邻的四帧观测数据堆叠得到；在MineCraft环境中，当前状态包括所述视频中当前的一帧观测数据。

优选地，所述基于视频的观测数据，对Transformer模型进行离线预训练得到状态转移Transformer模型包括：

将相邻两个时间步的状态分别输入到特征编码器中，得到对应的状态表征e_t和e_t+1；

将状态表征e_t输入到Transformer模型中，预测得到下一步的状态表征

将e_t、e_t+1和分别输入到状态转移判别器中，得到从e_t到e_t+1的真实状态转移的判别得分，以及e_t到/>的虚假状态转移的判别得分；

迭代训练，使真实状态转移的判别得分增高，虚假状态转移的判别得分降低，直至达到训练目标。

优选地，所述强化学习的智能体根据所述内在奖励进行策略的学习和迭代，得到最优策略包括：强化学习的智能体在环境中交互，在状态转移Transformer模型计算出的内在奖励的激励下通过最大化如下目标J迭代更新策略实现策略提升，最终得到最优策略：

其中，π表示策略，ρ₀表示初始状态分布，a_t表示在当前状态s_t下根据策略分布π(·|s_t)执行的动作，(s_t，s_t+1)表示当前时刻状态到下一时刻状态的转移，表示状态转移函数，γ为折扣因子，r(s_t，s_t+1)表示由状态转移Transformer模型针对(s_t，s_t+1)给出的内在奖励，/>表示期望，J表示最大化目标即最大化折扣奖励和的期望。

优选地，所述将e_t、e_t+1和分别输入到状态转移判别器中，得到从e_t到e_t+1的真实状态转移的判别得分，以及e_t到/>的虚假状态转移的判别得分，之后还包括：计算虚假状态转移的判别得分与真实状态转移的判别得分之间的差值，得到真实的状态转移与虚假的状态转移之间的差距；

所述利用所述状态转移Transformer模型得到强化学习中的状态转移的判别得分作为强化学习的内在奖励即为：利用真实的状态转移与虚假的状态转移之间的差距作为强化学习的内在奖励。

优选地，利用自监督时序距离预测方法学习状态观测的时序连续的特征表示，同时采用对抗学习的方法，通过判别器判别评分指导在特征表示的空间中精准预测单步转移规律。

优选地，所述强化学习中的状态转移按照如下方法获取：在强化学习中，智能体获取到环境的当前状态，并根据策略基于环境的当前状态选出执行的动作，智能体根据选出的执行的动作与环境交互产生状态转移。

本发明第二方面提供了一种基于离线预训练状态转移Transformer模型的强化学习装置，包括：

状态转移Transformer模型离线预训练模块，用于基于视频的观测数据，对Transformer模型进行离线预训练得到状态转移Transformer模型，以使所述状态转移Transformer模型根据输入的当前状态预测得到下一步状态，并得到从当前状态到下一步状态的状态转移的判别得分；

强化学习策略训练模块，用于利用所述状态转移Transformer模型得到强化学习中的状态转移的判别得分作为内在奖励，以使强化学习的智能体根据所述内在奖励进行策略的学习和迭代，得到最优策略。

本发明第三方面提供了一种存储器，存储有多条指令，所述指令用于实现如第一方面所述的基于离线预训练状态转移Transformer模型的强化学习方法。

本发明第四方面提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如第一方面所述的基于离线预训练状态转移Transformer模型的强化学习方法。

本发明的有益效果是：本发明提供了一种两阶段的基于离线预训练状态转移Transformer模型的强化学习方法，为使智能体能够有效地从视觉观察中学习提供了一种创新方法。其中，状态转移Transformer模型能够在仅基于视觉观察的情况下进行离线预训练得到，然后在没有任何环境奖励的情况下指导在线强化学习策略的训练。另外，通过状态转移判别器和自监督时间回归联合预测潜在转换，将自注意力集成到每个模块中以捕捉时间变化，从而在下游强化学习任务中提高了性能。通过在各种Atari和Minecraft环境中对训练得到的策略进行的实验验证了本发明提出的方法比基线算法更具鲁棒性、样本效率和性能。并且，在某些任务中甚至达到了与从显式环境奖励中学习的策略相当的性能。从视觉观察中进行强化学习，对于那些有视频演示可用，但环境交互受限且标记动作既昂贵又危险的情况，本发明提供的方法具有巨大的潜力，譬如在机器人控制、自动驾驶等领域具有很高的研究价值。

附图说明

图1为本发明所述基于离线预训练状态转移Transformer模型的强化学习方法的流程示意图；

图2为本发明所述基于离线预训练状态转移Transformer模型的强化学习方法的框架示意图；

图3为本发明所述基于离线预训练状态转移Transformer模型的强化学习装置的功能模块结构示意图。

具体实施方式

为了更好地理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。存储器可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件，在此不再赘述。

实施例一

如图1、2所示，本发明实施例提供了一种基于离线预训练状态转移Transformer模型的强化学习方法，包括：

S101，基于视频的观测数据，对Transformer模型进行离线预训练得到状态转移Transformer模型，以使所述状态转移Transformer模型根据输入的当前状态预测得到下一步状态，并得到从当前状态到下一步状态的状态转移的判别得分；

S102，利用所述状态转移Transformer模型，得到强化学习中的状态转移的判别得分作为内在奖励，以使强化学习的智能体根据所述内在奖励进行策略的学习和迭代，得到最优策略。

本发明提供的基于离线预训练状态转移Transformer模型的强化学习方法包括两阶段。在第一阶段(阶段一、离线预训练)，基于视频的观测数据，离线预训练得到了一个状态转移Transformer模型，可以有效捕捉演示视频中的信息，以预测观测状态的隐层转换。

在第二阶段(阶段二、在线强化学习)，利用第一阶段得到的状态转移Transformer模型为下游强化学习任务提供内在奖励，智能体可以仅从这个单独的内在奖励中进行学习和迭代策略，而无需环境奖励的指导。

在步骤S101中，所述当前状态可以按照如下方法从所述视频中提取：在Atari环境中，当前状态通过所述视频中相邻的四帧观测数据堆叠得到；在MineCraft环境中，当前状态包括所述视频中当前的一帧观测数据。如图2所示，相邻两个时间步的当前状态和均为相邻的四帧观测数据堆叠得到的。

其中，Atari环境是经典的街机游戏环境，由于其中每个任务都可以被建模为马尔可夫决策过程，因此成为一种流行的检验强化学习算法在视觉控制任务上应用的测试环境。在Atari环境中，为了确保状态反映游戏动态信息，当前状态由相邻四帧所观测的灰度游戏画面堆叠得到。

MineCraft环境是近期逐渐热门的3D游戏环境，由Minedojo提供模拟器接口，包含数千个开放式开放探索任务。智能体在场景复杂的MineCraft环境场景中完成任务的表现能够更充分地体现算法性能。由于Minedojo模拟器仅支持单帧观测状态转移，因此为对齐Atari中三维状态表示，MineCraft环境中的状态定义为智能体当前观测到的三通道第一人称视角图像。

在本发明实施例中，视频的观测数据可以按照如下方法获得：

其中，Atari环境的观测数据来自Google Dopamine(谷歌的一种开源强化学习框架)。对于每个Atari任务，观测数据集源于DQN(深度Q学习算法)50轮训练后经验回放池中最后储存的十万帧尺寸调整为(84,84)的灰度游戏画面。

MineCraft环境的观测数据来自相关研究Plan4MC(一种基于规划的解决开放式MineCraft任务的方法)。首先训练Plan4MC智能体，采取习得的专家策略收集五万帧尺寸为(160,256,3)的第一人称游戏画面构成专家观测数据集。

执行步骤S101，如图2所示，基于视频的观测数据，对Transformer模型进行离线预训练得到状态转移Transformer模型可以包括：

将相邻两个时间步的状态和/>分别输入到特征编码器中，得到对应的状态表征e_t和e_t+1；

迭代训练，使真实状态转移的判别得分尽可能高，虚假状态转移的判别得分尽可能低，直至达到训练目标。

进一步地，所述将e_t、e_t+1和分别输入到状态转移判别器中，得到从e_t到e_t+1的真实状态转移的判别得分，以及e_t到/>的虚假状态转移的判别得分，之后还包括：计算虚假状态转移的判别得分与真实状态转移的判别得分之间的差值，得到真实的状态转移与虚假的状态转移之间的差距；

另外，本发明实施例中利用自监督时序距离预测方法学习状态观测的时序连续的特征表示，同时采用对抗学习的方法，通过判别器判别评分指导在特征表示的空间中精准预测单步转移规律。从而，预训练完成的状态转移Transformer和判别器在强化学习过程中针对在线采集的观测序列提供内在奖励，从而提高下游强化学习任务的性能。

执行步骤S102，在强化学习中，智能体获取到环境的当前状态，并根据策略基于环境的当前状态选出执行的动作，智能体根据选出的执行的动作与环境交互产生状态转移。利用步骤S101训练得到的所述状态转移Transformer模型得到强化学习中的状态转移的判别得分作为强化学习的内在奖励，以使强化学习的智能体根据所述内在奖励进行策略的学习和迭代，得到最优策略。

具体的，可如图2所示，在强化学习的策略训练中，智能体获取到视觉观测环境的当前状态，然后智能体根据策略π_θ，基于当前状态选出执行的动作a_t，再然后智能体根据选出的执行的动作a_t与环境进行交互，从而产生状态转移。之后，可以利用离线预训练得到的状态转移Transformer模型，针对智能体与环境交互产生的状态转移的情况得到内在奖励最后智能体根据内在奖励/>更新策略π_θ。迭代训练，直至得到最优策略。

在本发明实施例中，所述强化学习的智能体根据所述内在奖励进行策略的学习和迭代，得到最优策略可以包括：强化学习的智能体在环境中交互，在状态转移Transformer模型计算出的内在奖励的激励下通过最大化如下目标J迭代更新策略实现策略提升，最终得到最优策略：

其中，π表示策略，ρ₀表示初始状态分布，a_t表示在当前状态t下根据策略分布π(·|s_t)执行的动作，(s_t，s_t+1)表示当前时刻状态到下一时刻状态的转移，表示状态转移函数，γ为折扣因子，r(s_t，s_t+1)表示由状态转移Transformer模型针对(s_t，s_t+1)给出的内在奖励，表示期望，J表示最大化目标即最大化折扣奖励和的期望。

实施例二

如图3所示，本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构，即本发明实施例还提供了基于离线预训练状态转移Transformer模型的强化学习装置，包括：

状态转移Transformer模型离线预训练模块201，用于基于视频的观测数据，对Transformer模型进行离线预训练得到状态转移Transformer模型，以使所述状态转移Transformer模型根据输入的当前状态预测得到下一步状态，并得到从当前状态到下一步状态的状态转移的判别得分；

强化学习策略训练模块202，用于利用所述状态转移Transformer模型得到强化学习中的状态转移的判别得分作为内在奖励，以使强化学习的智能体根据所述内在奖励进行策略的学习和迭代，得到最优策略。

在状态转移Transformer模型离线预训练模块201中，所述当前状态按照如下方法从所述视频中提取：在Atari环境中，当前状态通过所述视频中相邻的四帧观测数据堆叠得到；在MineCraft环境中，当前状态包括所述视频中当前的一帧观测数据。

进一步地，所述基于视频的观测数据，对Transformer模型进行离线预训练得到状态转移Transformer模型包括：

所述将e_t、e_t+1和分别输入到状态转移判别器中，得到从e_t到e_t+1的真实状态转移的判别得分，以及e_t到/>的虚假状态转移的判别得分，之后还包括：计算虚假状态转移的判别得分与真实状态转移的判别得分之间的差值，得到真实的状态转移与虚假的状态转移之间的差距；

利用自监督时序距离预测方法学习状态观测的时序连续的特征表示，同时采用对抗学习的方法，通过判别器判别评分指导在特征表示的空间中精准预测单步转移规律。

在强化学习策略训练模块202中，所述强化学习中的状态转移按照如下方法获取：在强化学习中，智能体获取到环境的当前状态，并根据策略基于环境的当前状态选出执行的动作，智能体根据选出的执行的动作与环境交互产生状态转移。

进一步地，所述强化学习的智能体根据所述内在奖励进行策略的学习和迭代，得到最优策略包括：强化学习的智能体在环境中交互，在状态转移Transformer模型计算出的内在奖励的激励下通过最大化如下目标J迭代更新策略实现策略提升，最终得到最优策略：

该装置可通过上述实施例一提供的基于离线预训练状态转移Transformer模型的强化学习方法实现，具体的实现方法可参见实施例一中的描述，在此不再赘述。

本发明还提供了一种存储器，存储有多条指令，所述指令用于实现如实施例一所述的基于离线预训练状态转移Transformer模型的强化学习方法。

本发明还提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如实施例一所述的基于离线预训练状态转移Transformer模型的强化学习方法。

采用本发明提供的技术方案，从视觉观察中进行强化学习，对于那些有视频演示可用，但环境交互受限且标记动作既昂贵又危险的情况具有巨大的潜力，譬如在机器人控制、自动驾驶等领域具有很高的研究价值。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于离线预训练状态转移Transformer模型的强化学习方法，其特征在于，包括：

2.如权利要求1所述的基于离线预训练状态转移Transformer模型的强化学习方法，其特征在于，所述当前状态按照如下方法从所述视频中提取：在Atari环境中，当前状态通过所述视频中相邻的四帧观测数据堆叠得到；在MineCraft环境中，当前状态包括所述视频中当前的一帧观测数据。

3.如权利要求1所述的基于离线预训练状态转移Transformer模型的强化学习方法，其特征在于，所述基于视频的观测数据，对Transformer模型进行离线预训练得到状态转移Transformer模型包括：

4.如权利要求3所述的基于离线预训练状态转移Transformer模型的强化学习方法，其特征在于，所述将e_t、e_t+1和分别输入到状态转移判别器中，得到从e_t到e_t+1的真实状态转移的判别得分，以及e_t到/>的虚假状态转移的判别得分，之后还包括：计算虚假状态转移的判别得分与真实状态转移的判别得分之间的差值，得到真实的状态转移与虚假的状态转移之间的差距；

5.如权利要求3所述的基于离线预训练状态转移Transformer模型的强化学习方法，其特征在于，利用自监督时序距离预测方法学习状态观测的时序连续的特征表示，同时采用对抗学习的方法，通过判别器判别评分指导在特征表示的空间中精准预测单步转移规律。

6.如权利要求1所述的基于离线预训练状态转移Transformer模型的强化学习方法，其特征在于，所述强化学习中的状态转移按照如下方法获取：在强化学习中，智能体获取到环境的当前状态，并根据策略基于环境的当前状态选出执行的动作，智能体根据选出的执行的动作与环境交互产生状态转移。

7.如权利要求1所述的基于离线预训练状态转移Transformer模型的强化学习方法，其特征在于，所述强化学习的智能体根据所述内在奖励进行策略的学习和迭代，得到最优策略包括：强化学习的智能体在环境中交互，在状态转移Transformer模型计算出的内在奖励的激励下通过最大化如下目标J迭代更新策略实现策略提升，最终得到最优策略：

其中，π表示策略，ρ₀表示初始状态分布，a_t表示在当前状态s_t下根据策略分布π(·|s_t)执行的动作，(s_t，s_t+1)表示当前时刻状态到下一时刻状态的转移，表示状态转移函数，γ为折扣因子，r(s_t，s_t+1)表示由状态转移Transformer模型针对(s_t，s_t+1)给出的内在奖励，表示期望，J表示最大化目标即最大化折扣奖励和的期望。

8.一种基于离线预训练状态转移Transformer模型的强化学习装置，其特征在于，包括：

9.一种存储器，其特征在于，存储有多条指令，所述指令用于实现如权利要求1-7任一项所述的基于离线预训练状态转移Transformer模型的强化学习方法。

10.一种电子设备，其特征在于，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如权利要求1-7任一项所述的基于离线预训练状态转移Transformer模型的强化学习方法。