CN109978012A

CN109978012A - 一种基于结合反馈的改进贝叶斯逆强化学习方法

Info

Publication number: CN109978012A
Application number: CN201910161936.5A
Authority: CN
Inventors: 张丽雅; 宁振虎; 薛菲; 王小平
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2019-07-05

Abstract

本发明公开了一种基于结合反馈的改进贝叶斯逆强化学习方法，本发明提出了一种结合专家反馈和演示的交互式的学习方法，在LfF中，专家评估学习者的行为，并以不同的奖励给出反馈，以改进学习者策略。在LfD中，Agent试图通过观察专家演示来学习其策略。将本方法的研究算法分为3个学习阶段：从非最佳演示中学习；从反馈中学习；演示和反馈学习；为减少需迭代的状态‑动作的数量，本发明提出了使用图像化贝叶斯规则迭代改进了Agent策略来加强学习到的奖赏函数，提高寻找最优动作的速度。

Description

一种基于结合反馈的改进贝叶斯逆强化学习方法

技术领域

本发明属于机器学习领域，涉及到机器学习中的逆向强化学习算法与图形化贝叶斯定理的结合，并与逆向强化学习算法中专家反馈进行交互式学习来结合使用。

背景技术

近年来，机器学习是各个领域的研究热点。机器学习的目的是训练复杂的***，如自动汽车和辅助机器人，以便在现实世界中执行复杂的任务。

强化学习是机器学习中应用最广泛的算法，但由于强化学习的奖赏函数都是人为设定的，具有很强的主观性。逆强化学习可以更好的解决这个问题。逆强化学习(IRL)问题首先由Russell(1998)提出，目前已经存在IRL算法有很多。比如说国防科技大学运用逆强化学习算法的思想研究了甲板优化调度应用等，这些算法试图找到一个单一的奖励函数来解释观察到的演示集的整体，将观测分区划分为多组较小的子演示。然后，每个子演示可归因于较小且较不复杂的一类奖励函数，这样就解决的奖赏函数需人为设定的问题。通过逆决策来寻找一个解释Agent观察到的状态-动作对的状态奖励函数的问题，在中就被称为逆强化学习(IRL)。

传统的逆强化学习在实际应用中往往都需要最优演示，但现实中这一条件往往不能实现。为适应专家演示存在非最优的情况，本发明提出了将反馈和演示相结合的方法，将反馈和演示进行交互式的学习，可以不单单只依靠专家演示，也可以通过专家的正负反馈迭代改进当前动作集，从而得到最优策略。

在进行策略优化的过程中，为减少每个状态下动作的数量，本发明通过定义新的似然函数来开发BIRL算法的新颖扩展，该新似然函数不需要迭代所有状态和动作，而是使用可能无限状态和动作空间上的轨迹样本。本发明采用了图形化表示的贝叶斯规则，来加强奖赏函数的学习。

发明内容

本发明在传统逆向强化学习的基础上，提出了将专家反馈和演示相结合的交互式学习方法，除此之外，为减少需迭代的状态-动作的数量，提出了使用图像化贝叶斯规则迭代改进了Agent策略来加强学习到的奖赏函数，提高寻找最优动作的速度。

本发明提出了一种结合专家反馈和演示的交互式的学习方法，传统的强化学习算法由于奖赏函数的设定问题，具有较大的局限性。传统的逆向强化学习算法在进行学习的过程中往往都需要最优的演示，这种需求在实际的应用中往往不能实现。

交互式学习技术可以分为两大类：从反馈中学习LfF和从演示中学习LfD。在LfF中，专家评估Agent的行为，并以不同的格式(例如二进制奖励、数字奖励等)给出反馈，以改进Agent策略即状态- 动作对。在LfD中，Agent试图通过观察专家演示来学习其策略。

LfD可大体上分为两大类：“直接模仿学习”和“学徒学习”。“直接模仿学习”包括使用监督学习算法直接推导策略的方法。“学徒学习”方法可以被构建为逆强化学习问题，通过学习专家演示来构造奖赏函数，然后，通过动态规划算法DP得到最大化预期的回报总额的策略。因此，在某种程度上，这种计算奖赏函数的方式对于Agent和环境的变化具有较好的鲁棒性。

在实践中，由于各种各样的原因，专家演示可能是非最佳的：比如说Agent不完全感知或者任务较复杂，专家很难演示或者演示不完整等。因此，这就意味着Agent需要处理某些情境的非最优展示。

为解决演示策略不是最优的情况，本发明提出了一种交互式学习方法，通过将反馈与IRL过程相结合来克服非最优演示的挑战。在 LfF中，专家评估学习者的行为，并以不同的奖励给出反馈，以改进学习者策略。在LfD中，Agent试图通过观察专家演示来学习其策略。将本方法的研究算法分为3个学习阶段，如图1。

阶段1：从非最佳演示中学习

在第一阶段，Agent将收到一组非最佳演示，并尝试学习通过IRL 方法得到Agent行为的奖励函数。一旦学习了奖励函数，就可得到策略π_IRL，通过动态规划算法DP使获得的奖励最大化。在此阶段中Agent 使用MLIRL方法来学习非最优演示。但由于演示不是最优的，Agent 采用的策略不一定是可取的，因此需要额外的信息来修改Agent采用的行为。为此，本发明使用反馈来处理非最优性。

阶段2：从反馈中学习

在这一阶段，专家可以自由地提供反馈，这些反馈可以被解释为 Agent所选择动作是不是最优的指示标签(正确或者错误)。在时间t 时，Agent执行动作a，这时专家给出的二元评估反馈为f_t，对于Agent 选择的是正确的动作，专家提供正面的反馈；对于Agent选择的错误动作，专家提供负面的反馈。

由于专家的反馈并不是完全正确的，比如专家对Agent的动作做出了错误的判断。因此，本发明假设专家产生观测误差的概率为e∈[0， 1]，专家与Agent动作判断是一致的概率为c∈[0，1]。注意，对于一个完美的专家，有e＝0和c＝1。

当Agent执行最佳动作A时，专家应该在下面两种情况下做出积极反馈：第一，当专家正确地解释所执行的动作，并且他与提供反馈一致，这时的概率为(1-e)c；第二，专家错误解释Agent所执行的动作时，且与反馈不一致时的概率为e(1-c)。因此，专家有(1-e) c+e(1-c)的概率做出积极反馈。另一方面，专家在两种情况下提供负面反馈：专家错误地解释所执行的动作并与其反馈一致时的概率为 ec；还有一种是专家正确地解释所执行的动作且专家与Agent反馈不一致时的概率为(1-e)(1-c)。因此，专家有ec+(1-e)(1-c)的概率对Agent的最佳行动给出负面反馈。同理，在针对Agent的非最优动作时，可以推断专家以ec+(1-e)(1-c)的概率对非最优动作做出正反馈，以(1-e)c+e(1-c)的概率对非最优动作做出负反馈。

Agent在当前状态动作对(s_t,a_t)时，可以得到的正面反馈f_t的概率为：

负反馈的概率如下：

在收到s_t状态下的动作反馈f_t后，Agent尝试从专家的正负反馈中进行学习，再根据分析结果更新该状态下所有动作的概率。即，Agent 使用专家的评估反馈作为证据，以改进其当前策略。为了对状态s_t中的每个动作a执行此动作，Agent假定每个动作a都是最优的(a^*＝a)，然后根据接收到的反馈f_t和(s_t,a_t)计算反馈概率模型分布P。此后，它使用计算分布和策略π(s_t，a)上的改进贝叶斯规则来推断受直接反馈f_t约束的s_t中作用a的后验概率π(s_t，a|f_t)，如下：

π(s_t,a|f_t)αP(f_t|s_t,a_t)×π(s_t,a) (3)

式中，在Agent处于状态s_t时，π(s_t,a)是当前动作a的概率，p是状态 -动作对(s_t,a_t)的反馈概率f_t。

根据上面得出的理论，下面本发明提出了一种通用的交互式学习算法，根据反馈模型P的模型迭代改进Agent策略π。

本发明提出了一种交互式技术算法来迭代地改进在第一阶段学习到的Agent策略π。该算法的输出是一个改进的Agent策略 (π^f＝π(s,a|f_t)交互式学习技术算法的实现步骤如下所示：

输入π_IRL，反馈概率模型P；

第一步π＝π_IRL，对每个轨迹重复；

第二步t＝0,选择初始状态s_t，重复直到轨迹结束；

第三步根据策略π从状态s_t中选择一个动作a_t；

第四步执行动作a_t并转到下一个状态s′；

第五步获得(s_t，a_t)的评估反馈f_t；

第六步对于每一个动作a∈A，a^*＝a，根据收到的反馈和提出的模型计算P(f_t|s_t,a_t)；

第七步计算π(s_t,a|f_t)；

第八步标准化π(s_t,...|f_t)；

第九步t＝t+1,s_t＝s′；

第十步返回

该算法将第一阶段的反馈模型P和学习策略π_IRL作为输入。在第一步中Agent根据策略π_IRL初始化当前策略，并根据状态在环境中生成轨迹。在每个轨迹中t中，Agent根据其当前策略选择在状态s_t时的动作，执行该动作并转移到下一个状态s′。然后，专家通过负反馈或正反馈f_t来评估Agent执行的动作的优良性。一旦收到响应a_t的反馈，对于状态s_t中可用的所有可能动作，Agent将依次将每个动作视为最佳动作，计算给定f_t(s_t,a_t)的概率分布，然后计算后验策略π(s_t,a|f_t)。该过程有助于根据专家的反馈来改进Agent的策略。重复相同的过程，直到轨迹终止。轨迹完成后，Agent将从初始状态开始另一个轨迹，并尝试再次更新其策略。

在本发明中，通过使用第一阶段的学习策略(π_IRL)初始化Agent 行为，故在交互式学习算法中克服了学习从零开始学习的缺点。虽然这一策略不是最优的，但它仍然可以被看作是Agent的一个很好的起点，并且可以根据非最优程度减少错误动作的次数。为了克服缺乏泛化的问题，可以在另一个专家的的演示中进行学习。为此，本发明将改进MLIRL扩展到具有两个输入的算法，即π^f和D。这样，就可以不只仅仅从反馈中学习。因此，本发明尝试在阶段二中的输出改进策略π^f中获益，来加强Agent学习最优动作的能力。

阶段3：演示和反馈学习(IRLDF)

在扩展的IRL算法，即从演示和反馈中逆强化学习(IRLDF)中，建议将改进后的策略作为对数似然函数中π(s,a)的指数，使得奖励函数达到最优解。换言之，似然函数中的每个π(s,a)被提升到后验概率π(s,a|f_t)的幂，该后验概率估计在状态中选择动作a的可能性。此外，由于IRL的泛化能力，专家评估的效果也能够得到泛化。因此，该算法的输出，即奖励函数R*可以更准确地反映专家的行为，因为Agent 可以从非最佳演示和反馈中同时学习。与只单单在非最优演示中学习相比，阶段三是同时在LfD和LfF方法的互补性中学习的，这样在估计奖励函数时会产生更小的误差并提高了学习速度。

由奖励参数θ和反馈条件下的证明的对数似然函数为：

式中，是Boltzmann分布，用于根据θ对Agent 在环境中的策略进行建模，f＝＜f₁,f₂,...＞是在第二阶段为评估Agent 行为。

新对数似然函数的梯度为：

IRLDF算法如下所示，其中k是收敛到最优解所需的迭代次数，α_t是迭代t时的学习率，θ₀由第一个倾斜阶段的学习权重向量θ¹初始化。在进行交互式学习之后，IRLDF算法只需要运行一次。此后，动态规划算法DP再次被用于推导策略π_IRLDF，该策略最大化新获得的奖励R^*。综上所述，IRLDF算法的实现过程如下：

输入非最优演示集D＝{d₁,d₂,...,d_M}，第2阶段π^f的输出，第1阶段的学习参数θ¹，以及转换模型；

第一步θ₀＝θ¹；

第二步对于t＝1:k，使用DP求解MDP策略

第三步计算

第四步计算

第五步返回值

本发明提出了一种使用图像化贝叶斯规则迭代改进了Agent策略来加强学习到的奖赏函数的方法。在实际任务中使用BIRL时，面临着连续和受约束的状态和动作空间非常大的约束，这使得标准的 BIRL推理算法不切实际。或者举个例子说，并不是所有的任务Agent 都是可能实现的。因此，本发明开发了一种新的基于图形的表示，它显着减小了状态空间的大小，并将任务特定约束直接编码到MDP的动作集中。

行为学习设置包括两个阶段：首先，一个灵活的数据驱动的MDP 表示，称为控制器图(CG)。第二，使用基于采样轨迹的BIRL奖励学习步骤。图2中是具有7个状态的随机最短路径MDP的CG的概念图，s和g分别指示开始和目标状态，策略显示为一种线，反向边用另一种虚线表示。

使用CGs有效地表示非常大的，可能是连续的MDPs，其动作集已经被约束到目标域。概念上如图2所示，CG是加权标记图ε,W＞具有顶点集合V＝{v_i}，边集ε＝{(v_i,v_j)_a}和转移矩阵W，使得V∈S和其中S和A分别是MDP的状态和动作空间。

为了构建CG，使用来自专家演示的样本或来自状态空间的随机样本来初始化空图。然后通过对现有节点进行采样来迭代地添加附加顶点样本，并启发式地进行探索和利用。

在Ng和Russell的基础上，开发了一种迭代BIRL算法，该算法使用从CGs中随机采样的轨迹来恢复非常大(可能是无限)空间中的奖励函数。为使用这些采样轨迹的BIRL定义了一个新的似然函数，如公式(5)所示。

其中Ξ是一组专家演示，每一个都是状态-动作对的轨迹。ζ(ξ,R)＝∑_(s,a)∈ξQ^π(s,a)策略π使用奖励R获得。是在迭代i时使用候选策略采样的轨迹，且k是当前迭代数。β是对专家在进行演示时采取最佳行动的信心。因此，随着奖励函数的改进，能够生成与专家相似度增加的样本轨迹。当每个轨迹被解释为单个动作时，这个新似然函数与中的原始函数有关。先验保持不变，如中给出的那样。后验由贝叶斯规则给出为Pr(R|Ξ)＝1/ηPr(Ξ|R)Pr(R)，其中η＝∫Pr(Ξ|R)Pr(R)dR。为了推断奖励后验分布，可以采用的相同算法，或者，通过实验发现，映射估计也产生了良好的结果。一旦找到奖励功能，它就可以用于生成运动规划的成本映射或直接嵌入到计划算法目标函数中，奖励函数是状态空间和动作空间特征的线性组合，然后推断特征权重。

附图说明

图1针对IRLDF算法三个实现阶段的基本流程图。

图2CGs概念图。

图3网格世界导航图。

图4 MLIRL算法在不同优化程度下对比。

图5 IRLDF算法在不同程度下的对比。

图6 MLIRL与IRLDF算法对比。

图7反馈参数模型对比。

图8公路汽车驾驶模拟图。

具体实施方式

为使本发明的目的、技术方案和特点更加清楚明白，以下结合具体实施例子，并参照附图，对本发明进行进一步的细化说明。针对恶意代码变种检测方法的基本流程图如图1所示。

实验环境如下：

为验证设计优化算法的性能，在Windows10操作***上，基于 Matlab2014a环境实现算法的仿真实验.PC机配置为Intel(R)Core i56500@3，2GHz处理器，4G内存。

将在以下两个模拟环境中评估本发明所述方法的性能：

·网格世界导航任务。

·公路汽车驾驶。

目前来说，诸多研究中未提出一种带反馈的IRL方法，因此，本发明将与传统IRL算法进行比较。为此，本发明选择与IRL方法相比性能更好的MLIRL方法与之进行比较。为了评估这两种方法，使用期望值度量EV来评估学习策略在奖励函数下的最优程度。EV值是通过找到所学奖励的策略，然后在真正的奖励函数下估计其预期的折扣奖励总额来计算的。每个算法的预期值在学习过程中根据交互次数进行评估。

专家通过演示向Agent提供最佳动作，也就是说，专家只需要一个交互状态-动作对(s,a)，就可以在理想情况下为Agent提供最优动作。但是，在反馈的情况下，Agent通常需要与专家进行多次交互(正面和负面反馈)，以实现最优行动。在本发明中假设，一个Agent在|S| 状态和|A|动作的环境中运行，每个状态只有一个最优动作。另外，假设存在一个随机变量x，它代表Agent在特定状态下执行最优动作所需的试验次数。Agent收到每个执行动作的正面或负面反馈。因此，有：

本发明将“Ex”定义为Agent做出正确决定所需的平均试验次数，可以很容易地获得：

式(7)意味着，当Agent仅从反馈中学***均反馈数量为因此，演示中的每个状态-动作对(s,a)与反馈的相等。将演示和反馈的交互比率度量 (IRatio)定义为：

其中i(LfF)是已传递反馈的数量，i(LfD)是在向Agent教学时演示中的(s,a)对的数量。有了这个定义，可以考虑三种情况：

·如果则表示演示和反馈的交互次数是相等的。

·如果则表示从反馈中传递的交互次数小于从演示中传递的交互次数。

·如果则意味着从演示中传递的交互次数小于从反馈中传递的交互次数。

图3中是网格世界导航图。在图中，各个方格代表地面、水坑、草地、障碍物和最终目标。

在第一个模拟中，提出了一个16×16的网格世界导航任务，如图 3。在这里，Agent可以使用五个操作(向上、向下、向左、向右和保持空闲)进行导航，并且有10％的机会向随机方向移动，用0或1 表示每个状态的特征，来表示它属于哪个特征。用Agent在迷宫中的位置来表示状态，保持了环境的马尔可夫性质。状态-动作(s,a)的对数等于1280。在这里，奖励函数对于算法来说是未知的，因此手动设置一个权重向量θ来定义Agent特定行为的奖励,比如说，Agent 在迷宫中需避开障碍物，移动来达到目标状态，Agent在移动过程中，它可能更喜欢穿越草地，而不是地面和水坑。奖励时根据定义的权重向量的θ的特征向量的Φ的线性组合。在本发明实验中，地面的奖励值为0，草地的奖励值为0.3，障碍物和水坑的奖励值为-5，到达最终目标时分配的奖励为10。Agent的目的是学习专家导航风格以达到目标。

根据算法计算出奖励的最优策略，然后得到策略，再次得到非最优演示的证明，在本发明中，假设在每一个状态下，Agent都有30％的概率选择非最优动作。为了保持算法最终结果的一致性，为此，本发明统一在一组状态中提取初始状态，当Agent达到最终目标时，所有演示都将终止。在交互学习算法的阶段，Agent从初始状态生成一个轨迹，并一直移动，直到到达目标或者通过一定数量的步骤。之后， Agent会重新选择一个状态，从头开始。

在本发明中，设置Boltzmann因子β，折扣因子γ，学习率α的值分别设置为0.7、0.9和0.4。除此之外，反馈模型的参数固定在c＝0.95 和e＝0.05。将实验重复运行超过50次，来确定两种算法的预期值EV。

图4显示了在演示中具有不同最优性级别的MLIRL方法的性能。从图中可以看出，随着非最优性水平的增加，期望值降低。图5描述了的方法在面对演示的不同最优性级别时的性能。正如预期的那样，随着非最优水平的提高，需要更多的评价反馈来改进学***固定在 70％。对该图的深入了解表明，MLIRL算法中Agent需要大约470 个最佳状态动作才能达到最佳结果，而本发明改进方法中的Agent 需要大约125个反馈。

图4和图5仅进行非最优证明的MLIRL的性能和的算法分别在不同的最优证明水平下的性能。反馈模型参数e和c的两个参数分别固定在0.05和0.95。根据交互次数比较IRLDF和MLIRL。这里，两种方法的初始演示的最优性级别都是预先定义的70％。对于MLIRL方法，交互是最佳演示中状态-动作的数量。在IRLDF算法中，交互是在交互阶段收到的反馈数。在所有情况下，最佳解决方案都是从真正的奖励函数派生的策略的预期值EV的最大值。

关于所需的信息量，根据每个Agent达到最佳动作所需的交互次数计算IRatio因子；即，在IRLDF算法中Agent为达到动作所需的交互次数为125，MLIRL方法中的Agent为达到目标动作所需的交互次数为470。计算结果表明，根据交互次数可得IRatio因子小于1(0.26 ＝125/470)。因此，与MLIRL相比，本发明新提出得IRLDF算法需要更少的交互次数，即专家演示的次数越少，证明了IRLDF算法的有效性，以及达到目标花费的时间更少，能更快的达到收敛等。

为测试反馈模型参数c,e，定义了三种模拟情况分别为：(1)接近完美的情况：c＝0.99和e＝0.01；(2)中等水平：c＝0.9，e＝0.1；(3)低等水平：c＝0.85，e＝0.15。将演示的非最优性水平定为30％。参数的估计值选择为c＝0.99，e＝0.01，c＝0.9，e＝0.1或c＝0.85，e＝0.15.

在图7中可以看出，在前期的学习过程中3种参数模型的期望值 EV是一致的，也就是学习效果是一致的，差异对比效果不明显。 c＝0.99和e＝0.01参数模型和c＝0.9，e＝0.1的参数模型可以在300次反馈后达到目标，c＝0.85和e＝0.15的参数模型在进行300反馈后仍无法获得目标。可见，c＝0.99和e＝0.01参数模型是最优的。

为了评估本发明设计方法在在更复杂和动态领域的性能，本发明在Netlogo仿真平台上模拟公路驾驶模型，如图8。Agent在公路上行驶的动作集分别为：左/右移动，加速/减速。本发明假设Agent的速度总是高于其他车辆的速度。

可以提供的专家的演示类型有三种情况：

第一种情况：驾驶员避免与其他车辆碰撞，在左车道低速行驶，不在右车道行驶。

第二种情况：驾驶员避免与其他车辆碰撞，在右车道低速行驶。

第三种情况：驾驶员不刻意避免与其他车辆产生碰撞，在右车道高速行驶。

为更好地评估学习3种驾驶风格的奖励函数，定义了一组特征功能来指示Agent与迎面驶来的车辆碰撞、Agent驾驶的车道以及Agent 在每个车道上的速度。在这个模拟中，给真正的训练者两分钟的时间，通过设计的游戏界面通过键盘控制Agent的车，向Agent提供演示，然后使用算法学习目标风格。这里的非最优性来自于Agent对演示的感知不完全(误差为30％)的假设，因此Agent将30％的演示感知为随机行为。

为减少专家与Agent之间的交互次数，在本次实验中，假设专家只对Agent不正确的动作提供负面反馈，对于正确的动作不提供反馈。除此之外，为使得Agent更好的衡量专家反馈，本发明设置专家反馈时间为t,即在时间反馈t后，若专家未对Agent的动作做出负面的反馈，则说明Agent执行的动作正确，在时间t内，专家做出负面反馈的回应，则证明Agent执行动作错误。

由于本实验定义了三种风格的驾驶演示，无法明确的确定真正奖赏函数。为解决这一问题，根据专家的最佳演示，可以根据MLIRL 算法中获得估计的奖励。并将估计的奖励作为Agent的真实奖励，然后计算得到相对应的策略。将Boltzmann因子β、贴现因子γ和学习率α分别设置为0.7、0.6和0.4。

IRLDF算法和IRLDF算法的对比结果如下表所示，第3列是 Agent学***衡。根据IRatio的值，IRLDF算法需要更少的交互次数，需要更少的专家提供反馈信息，从而加速Agent的学习过程，并加快收敛。

驾驶风格	学习算法	交互次数	负反馈的数量	EV	IRatio
						风格1	IRLDF	168	58	16.77	0.32
	MLRIL	519	-	16.71
						风格2	IRLDF	152	46	11.49	0.3
	MLRIL	504	-	11.43
						风格3	IRLDF	144	50	13.86	0.29
	MLRIL	496	-	13.8

Claims

1.一种基于结合反馈的改进贝叶斯逆强化学习方法，其特征在于：通过将反馈与IRL过程相结合来克服非最优演示的挑战；在LfF中，专家评估学习者的行为，并以不同的奖励给出反馈，以改进学习者策略；在LfD中，Agent试图通过观察专家演示来学习其策略；阶段1：从非最佳演示中学习

在第一阶段，Agent将收到一组非最佳演示，并尝试学习通过IRL方法得到Agent行为的奖励函数；一旦学习了奖励函数，就可得到策略π_IRL，通过动态规划算法DP使获得的奖励最大化；在此阶段中Agent使用MLIRL方法来学习非最优演示；但由于演示不是最优的，Agent采用的策略不一定是可取的，因此需要额外的信息来修改Agent采用的行为；

阶段2：从反馈中学习

在这一阶段，专家可以自由地提供反馈，这些反馈可以被解释为Agent所选择动作是不是最优的指示标签即正确或者错误；在时间t时，Agent执行动作a，这时专家给出的二元评估反馈为f_t，对于Agent选择的是正确的动作，专家提供正面的反馈；对于Agent选择的错误动作，专家提供负面的反馈；

由于专家的反馈并不是完全正确的，假设专家产生观测误差的概率为e∈[0，1]，专家与Agent动作判断是一致的概率为c∈[0，1]；注意，对于一个完美的专家，有e＝0和c＝1；

当Agent执行最佳动作A时，专家在下面两种情况下做出积极反馈：第一，当专家正确地解释所执行的动作，并且他与提供反馈一致，这时的概率为(1-e)c；第二，专家错误解释Agent所执行的动作时，且与反馈不一致时的概率为e(1-c)；因此，专家有(1-e)c+e(1-c)的概率做出积极反馈；另一方面，专家在两种情况下提供负面反馈：专家错误地解释所执行的动作并与其反馈一致时的概率为ec；还有一种是专家正确地解释所执行的动作且专家与Agent反馈不一致时的概率为(1-e)(1-c)；因此，专家有ec+(1-e)(1-c)的概率对Agent的最佳行动给出负面反馈；同理，在针对Agent的非最优动作时，推断专家以ec+(1-e)(1-c)的概率对非最优动作做出正反馈，以(1-e)c+e(1-c)的概率对非最优动作做出负反馈；

Agent在当前状态动作对(s_t,a_t)时，得到的正面反馈f_t的概率为：

负反馈的概率如下：

在收到s_t状态下的动作反馈f_t后，Agent尝试从专家的正负反馈中进行学习，再根据分析结果更新该状态下所有动作的概率；即，Agent使用专家的评估反馈作为证据，以改进其当前策略；为了对状态s_t中的每个动作a执行此动作，Agent假定每个动作a都是最优的(a^*＝a)，然后根据接收到的反馈f_t和(s_t,a_t)计算反馈概率模型分布P；此后，它使用计算分布和策略π(s_t，a)上的改进贝叶斯规则来推断受直接反馈f_t约束的s_t中作用a的后验概率π(s_t，a|f_t)，如下：

π(s_t,a|f_t)αP(f_t|s_t,a_t)×π(s_t,a)(3)

式中，在Agent处于状态s_t时，π(s_t,a)是当前动作a的概率，p是状态-动作对(s_t,a_t)的反馈概率f_t；

交互式学习算法根据反馈模型P的模型迭代改进Agent策略π；

采用交互式算法来迭代地改进在第一阶段学习到的Agent策略π；该交互式算法的输出是一个改进的Agent策略π^f＝π(s,a|f_t)

该交互式算法将第一阶段的反馈模型P和学习策略π_IRL作为输入；在第一步中Agent根据策略π_IRL初始化当前策略，并根据状态在环境中生成轨迹；在每个轨迹中t中，Agent根据其当前策略选择在状态s_t时的动作，执行该动作并转移到下一个状态s′；然后，专家通过负反馈或正反馈f_t来评估Agent执行的动作的优良性；一旦收到响应a_t的反馈，对于状态s_t中可用的所有可能动作，Agent将依次将每个动作视为最佳动作，计算给定f_t(s_t,a_t)的概率分布，然后计算后验策略π(s_t,a|f_t)；该过程有助于根据专家的反馈来改进Agent的策略；重复相同的过程，直到轨迹终止；轨迹完成后，Agent将从初始状态开始另一个轨迹，并尝试再次更新其策略；

通过使用第一阶段的学习策略π_IRL初始化Agent行为，故在交互式学习算法中克服了学习从零开始学习的缺点；虽然这一策略不是最优的，但它仍然可以被看作是Agent的一个很好的起点，并且根据非最优程度减少错误动作的次数；为克服缺乏泛化的问题，可以在另一个专家的的演示中进行学习；将改进MLIRL扩展到具有两个输入的算法，即π^f和D；这样，就不只仅仅从反馈中学习；因此，尝试在阶段2中的输出改进策略π^f中获益，来加强Agent学习最优动作的能力；阶段3：演示和反馈学习IRLDF

在扩展的IRL算法，即从演示和反馈中逆强化学习IRLDF中，建议将改进后的策略作为对数似然函数中π(s,a)的指数，使得奖励函数达到最优解；换言之，似然函数中的每个π(s,a)被提升到后验概率π(s,a|f_t)的幂，该后验概率估计在状态中选择动作a的可能性；此外，由于IRL的泛化能力，专家评估的效果也能够得到泛化；因此，该IRL算法的输出，即奖励函数R*可以更准确地反映专家的行为，因为Agent可以从非最佳演示和反馈中同时学习；

由奖励参数θ和反馈条件下的证明的对数似然函数为：

式中，是Boltzmann分布，用于根据θ对Agent在环境中的策略进行建模，f＝＜f₁,f₂,...＞是在第二阶段为评估Agent行为；

新对数似然函数的梯度为：

IRLDF算法中，其中k是收敛到最优解所需的迭代次数，α_t是迭代t时的学习率，θ₀由第一个倾斜阶段的学习权重向量θ¹初始化；在进行交互式学习之后，IRLDF算法只需要运行一次；此后，动态规划算法DP再次被用于推导策略π_IRLDF，该策略最大化新获得的奖励R*；

使用图像化贝叶斯规则迭代改进Agent策略来加强学习到的奖赏函数的方法；在实际任务中使用BIRL时，面临着连续和受约束的状态和动作空间非常大的约束，这使得标准的BIRL推理算法不切实际；开发一种新的基于图形的表示，它显着减小了状态空间的大小，并将任务特定约束直接编码到MDP的动作集中；

行为学习设置包括两个阶段：首先，一个灵活的数据驱动的MDP表示，称为控制器图CG；第二，使用基于采样轨迹的BIRL奖励学习步骤；具有7个状态的随机最短路径MDP的CG的概念中，s和g分别指示开始和目标状态，策略显示为一种线，反向边用另一种虚线表示；

使用CGs有效地表示非常大的，可能是连续的MDPs，其动作集已经被约束到目标域；CG是加权标记图具有顶点集合V＝{v_i}，边集ε＝{(v_i,v_j)_a}和转移矩阵W，使得V∈S和其中S和A分别是MDP的状态和动作空间；

为了构建CG，使用来自专家演示的样本或来自状态空间的随机样本来初始化空图；然后通过对现有节点进行采样来迭代地添加附加顶点样本，并启发式地进行探索和利用；

在Ng和Russell的基础上，开发了一种迭代BIRL算法，该算法使用从CGs中随机采样的轨迹来恢复非常大空间中的奖励函数；为使用这些采样轨迹的BIRL定义了一个新的似然函数，如公式(5)所示；

其中Ξ是一组专家演示，每一个都是状态-动作对的轨迹；ζ(ξ,R)＝∑_(s,a)∈ξQ^π(s,a)策略π使用奖励R获得；是在迭代i时使用候选策略采样的轨迹，且k是当前迭代数；β是对专家在进行演示时采取最佳行动的信心；因此，随着奖励函数的改进，能够生成与专家相似度增加的样本轨迹；当每个轨迹被解释为单个动作时，这个新似然函数与中的原始函数有关；先验保持不变，如中给出的那样；后验由贝叶斯规则给出为Pr(R|Ξ)＝1/ηPr(Ξ|R)Pr(R)，其中η＝∫Pr(Ξ|R)Pr(R)dR；为了推断奖励后验分布，采用的相同算法，或者，通过实验发现，映射估计也产生了良好的结果；一旦找到奖励功能，它就可以用于生成运动规划的成本映射或直接嵌入到计划算法目标函数中，奖励函数是状态空间和动作空间特征的线性组合，然后推断特征权重。

2.根据权利要求1所述的一种基于结合反馈的改进贝叶斯逆强化学习方法，其特征在于：IRLDF算法的实现过程如下，