CN102063640B

CN102063640B - 基于效用差分网络的机器人行为学习模型

Info

Publication number: CN102063640B
Application number: CN 201010564142
Authority: CN
Inventors: 宋晓; 麻士东; 龚光红
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2010-11-29
Filing date: 2010-11-29
Publication date: 2013-01-30
Anticipated expiration: 2030-11-29
Also published as: CN102063640A

Abstract

本发明的基于效用差分网络的机器人行为学习模型，包括效用拟合网络单元，差分信号计算网络单元，置信度评价网络单元、动作决策网络单元、动作校正网络单元和动作执行单元，利用该模型实现离线学习过程和在线决策过程。效用拟合网络单元计算得到动作执行后的状态的效用拟合值，差分信号计算网络单元用于计算差分信号，置信度评价网络单元将计算得到的置信度输出给动作校正网络单元，动作决策网络单元输出动作选择函数，动作校正网络单元利用置信度对动作选择函数进行校正，计算每个动作选取的概率值，输出概率最大的动作给动作执行单元执行。本发明能较好保证机器人获取环境知识的完备性，较好地保证了机器人行为决策的及时性和有效性。

Description

基于效用差分网络的机器人行为学习模型

技术领域

本发明涉及一种基于效用差分网络的机器人行为学习模型，属于人工智能领域的新应用之一。

背景技术

机器人智能行为一般是指机器人在感知周边环境的基础上进行推理与决策，达到行为智能决策的过程。智能行为决策模型的建立需要对知识进行获取、表示和推理，并且能够自动评价机器人行为的优劣。目前，基于强化学习技术的认知行为模型在知识的获取、对决策环境的适应性、可重用性等方面所具有的优点，使其成为智能行为建模的首选。

强化学习过程需要对环境进行探索。可表述为：在某个状态下，决策者选择并执行一个动作，然后感知下一步的环境状态以及相应的回报。决策者并没有被直接告知在什么情况下要采取什么行动，而是根据回报修正自身的行为，来赢得更多的回报。简单地说，强化学习过程就是允许决策者通过不断尝试以得到最佳行动序列的过程。

目前机器人强化学习的行为决策中使用较多的是基于特定知识或规则的反应式方式，这种方式的缺点一是知识获取有限，二是问题获取的知识往往带有经验性，不能及时学习新的知识，三是推理过程实时性不高等。

发明内容

本发明针对目前机器人强化学习的行为决策存在的缺点，建立了一种基于效用差分网络的机器人行为学习模型。该模型是一个基于评价的学习***，通过对环境的交互，自动生成***的控制率，进而控制给出选择动作。本发明基于效用差分网络的机器人行为学习模型，解决一般行为决策模型知识获取有限、经验性过强的问题，实现的离线学习过程和在线决策过程，解决推理过程实时性不高的问题。

一种基于效用差分网络的机器人行为学习模型，包括：效用拟合网络单元、差分信号计算网络单元、置信度评价网络单元、动作决策网络单元、动作校正网络单元和动作执行单元；所述的效用拟合网络单元用来计算t时刻动作a_t经动作执行单元执行后产生的状态空间向量s_t所得到的效用拟合值

并输出给差分信号计算网络单元；差分信号计算网络单元根据输入的效用拟合值

以及根据状态空间向量s_t计算的立即回报函数，进一步计算得到差分信号ΔTD_t，并将该差分信号ΔTD_t输出给效用拟合网络单元、置信度评价网络单元以及动作决策网络单元；效用拟合网络单元利用差分信号ΔTD_t更新效用拟合网络单元中神经网络的权值；置信度评价网络单元利用效用拟合网络单元中神经网络的输入层的输入向量和隐层的输出向量以及差分信号，计算动作决策结果的置信度，并将该置信度输出给动作校正网络单元；动作决策网络单元根据输入的差分信号ΔTD_t与状态空间向量s_t，进行动作的选择学习，输出动作选择函数

给动作校正网络单元，其中j、k为大于0的整数；动作校正网络单元利用输入的置信度，对输入的动作选择函数

进行校正，然后计算校正后的动作的选取概率值，将概率最大的动作输出给动作执行单元执行，该动作执行后的状态空间向量再反馈输入给效用拟合网络单元、差分信号计算网络单元和动作决策网络单元。

所述的学习模型具有两个过程：离线学习过程和在线决策过程；所述的离线学习过程中上述各单元都要参与，所述的在线决策过程中仅由离线学习最后得到的动作决策网络单元与动作执行单元参与，在线决策过程中的动作决策网络单元根据t时刻动作执行后的状态空间向量s_t进行计算并得出输出动作选择函数

通过动作选择器输出最终选择的动作给动作执行单元执行，执行动作后得到的状态空间向量再输入给动作决策网络单元。

本发明的优点与有益效果为：

(1)本发明的机器人学习模型不需要计算产生正确的行动，而是通过在行动-环境交互-评价的学习环境中解决机器人知识获取困难的问题。由于此学习模型不需要明确指定环境模型，环境的因果关系已经隐含在具体差分反馈网络中，从而能较好保证机器人获取环境知识的完备性；

(2)本模型设计的离线学习过程能在机器人决策前完成环境知识学习过程，在线决策过程能进一步完成机器人环境知识获取，运行时的决策不再进行探索和学习活动，只需要利用重构的网络进行计算和相加，这种离线与在线的模型设计保证了机器人的行为决策具有较好的实时性，较好地保证了机器人行为决策的及时性和有效性。

附图说明

图1为本发明学习模型第一实施例的离线学习过程结构示意图；

图2为本发明学习模型第一实施例的动作决策网络流程示意图；

图3为本发明学习模型第一实施例中动作决策网络中的遗传算子编码结构示意图；

图4为本发明学习模型第一实施例中动作决策网络中的遗传算子交叉操作示意图；

图5为本发明学习模型第二实施例中在线决策过程的示意图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。其中，第一实施例对本发明学习模型的离线学习过程进行了具体说明；第二实施例对在线决策过程进行说明。

如图1所示，本发明学习模型包括五个部分：效用拟合网络单元11、差分信号计算网络单元12、置信度评价网络单元13、动作决策网络单元14和动作校正网络单元15。本发明学习模型的离线学习过程中，五个部分都参与其中。

效用拟合网络单元11用来计算t时刻选择的动作a_t经动作执行单元16执行后产生的不同的状态空间向量s_t所得到的效用拟合值

并输出效用拟合值

给差分信号计算网络单元12，差分信号计算网络单元12输出差分信号ΔTD_t给置信度评价网络单元13和效用拟合网络单元11。效用拟合网络单元11再利用差分信号计算网络单元12输入的差分信号ΔTD_t来不断更新，从而达到真实的效用拟合。

差分信号计算网络单元12根据输入的效用拟合值

以及根据状态空间向量s_t计算的立即回报函数，进一步计算得到差分信号ΔTD_t，并将该差分信号ΔTD_t输出给效用拟合网络单元11、置信度评价网络单元13以及动作决策网络单元14。

置信度评价网络单元13利用效用拟合网络单元11中神经网络的输入层的输入向量和隐层的输出向量以及差分信号ΔTD_t计算动作决策结果的置信度，并将该置信度输出给动作校正网络单元15，用于对动作选择的调整。

动作决策网络单元14根据输入的差分信号ΔTD_t与状态空间向量s_t，利用递阶遗传算法对神经网络进行优化，实现动作的选择学习，输出动作选择函数

给动作校正网络单元15，其中j、k为大于0的整数。

动作校正网络单元15利用输入的置信度，对输入的动作选择函数

进行校正，将概率最大的动作输出。动作执行后的状态空间向量再反馈输入给效用拟合网络单元11、差分信号计算网络单元12和动作决策网络单元14。

其中，效用拟合网络单元11用来对特定的行为引起的状态变化进行效用评价，得到效用拟合值，由两层反馈的神经网络构成，如图1所示。神经网络的输入为状态空间向量s_t，隐层激活函数为Sigmoid函数，神经网络输出为对动作执行之后状态的效用拟合值，神经网络的权系数为A、B和C(。该神经网络包含n个输入向量单元，以及h个隐层单元，每个隐层单元接受n个输入并具有n个连接权值，输出单元接受n+h个输入并有n+h个权值。对于h的值，用户可以自行设定，一般设定为3，本发明实施例中设置为2。

该神经网络的输入向量为x_i(t)，i＝1，2，3...n，函数x_i(t)是s_t经过归一化得到的，则隐层单元的输出向量为：

y_{j} (t) = g [Σ_{i = 1}^{n} a_{ij} (t) x_{i} (i, j = 1,2,3, . . . h

上式中所用到的函数

a_ij(t)为输入层与隐层的权值A的向量，。效用拟合网络11的输出为对效用的拟合值

它是对输入层和隐层的线性组合：

\hat{U (s_{t})} = Σ_{i = 1}^{n} b_{i} (t) x_{i} (t) + Σ_{j = 1}^{h} c_{j} (t) y_{j} (t)

其中，b_i(t)表示输入层与输出层的权值B的向量，c_j(t)表示隐层与输出层的权值C的向量。

网络的权值A、B和C利用差分信号ΔTD_t进行更新，如果差分信号ΔTD_t为正，则说明在上一个行动产生了积极的效果，因此该行动被选择的机会应得到加强。输入层与输出层的权值B和隐层与输出层的权值C利用下式进行更新：

b_i(t+1)＝b_i(t)+λ·ΔTD_t+1·x_i(t)，i＝1，2，3...n

c_j(t+1)＝c_j(t)+λ·ΔTD_t+1·y_j(t)，j＝1，2，3...h

式中，λ为大于零的常数，可由用户自行设置。输入与隐层的权值A的更新按照下式进行：

a_ij(t+1)＝a_ij(t)+λ_h·ΔTD_t+1·y_j(t)·sgn(c_j(t))·x_i(t)

其中，λ_h为大于零的数，可由用户自行设置，ΔTD_t+1表示对应t+1时刻动作执行后产生的状态空间向量的差分信号，sgn是如下函数：

(z) = \{\begin{matrix} 1 & z > 0 \\ 0 & z = 0 \\ - 1 & z < 0 \end{matrix},

此处z为权值C的向量c_j(t)。

如图1所示，差分信号计算网络单元12根据效用拟合网络单元11输出的拟合效用以及状态的立即回报函数R(s_t)计算得到差分信号ΔTD_t。根据瞬时差分算法，ΔTD_t是利用下式进行迭代计算得到的：

ΔT D_{t} = R (s_{t}) + γ \cdot \hat{U} (s_{t + 1}) - \hat{U} (s_{t})

其中，R(s_t)是对状态s_t的立即评价，就是立即回报函数的输出，γ为折扣系数，可由用户自行设置。

表示t+1时刻动作执行后产生的状态空间向量s_t+1所得到的效用拟合值，

表示t时刻动作执行后产生的状态空间向量s_t所得到的效用拟合值。

计算得到的差分信号ΔTD_t用于对效用拟合网络单元11以及置信度评价网络单元13的权系数进行训练更新。如果差分信号ΔTD_t产生了积极的作用，则应加强这种动作，并且对它的置信度也应加强，即更相信此动作应被选择。另外，差分信号ΔTD_t还用来对动作决策网络单元14中动作选择函数的权值进行更新，以保证实现对最优动作的选择。

如图1所示，在动作决策网络单元14输出动作决策函数时，置信度评价网络单元13要计算输出动作的置信度，该置信度用于对动作选择的调整。置信度评价网络单元13的输入是状态向量x_i(t)和y_j(t)，它们从效用拟合网络单元11的隐层和输出层引出。

置信度p₀(t)通过如下公式计算：

p_{0} (t) = Σ_{i = 1}^{n} α_{i} (t) x_{i} (t) + Σ_{j = 1}^{h} β_{j} (t) y_{j} (t)

其中，权值α_i(t)和β_j(t)利用下式进行更新：

α_i(t+1)＝α_i(t)+λ_p·ΔTD_t+1·x_i(t)，i＝1，2，3...n

β_j(t+1)＝β_j(t)+λ_p·ΔTD_t+1·y_j(t)，j＝1，2，3...h

其中，λ_p表示学习率，是0-1之间的数值，经验值是0.618，用户可以根据自己的经验进行设置。从上式来看，难以保证p₀(t)的置信度区间在[0，1]，故引入Sigmoid函数对p₀(t)进行变换，得到p(t)，这样，输出置信度就与随机函数概率相吻合：

p (t) = \frac{1}{1 + e^{- a p_{0} (t)}}

置信度修正因子a起到平滑学习过程的作用，改变a，就可改变学习对环境的调节范围，若a过大，则会使学习***失去调节作用，应根据先验知识设定合适的a值，a＞0，本发明中a的取值范围是[1，10]。

置信度对动作选择的调节作用，反映了决策的不确定性。可以看出，随着状态的效用逐渐趋于真实值，即ΔTD_t的增加，置信度p(t)也是逐渐增加的，对动作的选择越来越确定。再利用输出置信度p(t)对动作决策网络单元14的每一个输出动作选择函数

进行校正，校正过程在动作校正网络单元15里完成。

动作决策网络单元14采用神经网络实现，它共分为四层，如图1所示，第一层到第四层分别是：输入层，模糊子集层，可变节点层和函数输出层，其中，可变节点层也称函数拟合层。分别用h＝1，2，3，4表示网络的四层。设

分别为第h层的第i个节点的输入和输出，i为每层的节点，其中，第一层节点数为I个，第二层节点数为I*J个，第三层节点数为L个，第四层节点数为K个，I，J，K，L都是正整数。均值m_ij，方差σ_ij分别为第二层中对应x_i(t)输入的第j个节点的高斯隶属函数的位置参数和宽度。

动作决策网络单元14的神经网络的输入层，输入量为状态空间向量s_t归一化得到的x_i(t)，它表征了输入时刻的机器人态势信息。输入层的第i个节点的输入

为：

I N_{i}^{1} = x_{i} (t), i = 1,2,3 . . . I

模糊子集层用来对输入层的输入变量进行模糊化处理。输出为每一输入向量的隶属度。输入层的每个x_i(t)在模糊子集层对应有J个输入，例如图1中，此处的J为2，其中，每个输入就是x_i(t)的一个模糊子集，输出是x_i(t)在这一模糊子集的隶属度。它的每一节点激活函数为高斯隶属函数，输出为：

{Q_{x_{i} j}}^{2} = \exp [- {(\frac{x_{j} (t) - m_{ij}}{σ_{ij}})}^{2}], i = 1,2,3 . . . I, j = 1,2,3 . . . J

其中，

为对应于输入x_i(t)的第j个输出，，exp是以自然对数e为底的指数函数，x_j(t)为输入层的第j个节点的输入。

神经网络为满足对于动作函数的拟合，需要在一定程度调整输出，可变节点层用来实现这种调节功能。可变节点层是通过节点数以及连接权值的变化实现调节功能的，节点数以及连接权值利用递阶遗传算法进行优化，动态确定它们的数目以及大小，以满足网络对动作函数的拟合，具体在后面介绍。可变节点层的激活函数为高斯函数，其位置参数与宽度分别为m_l和σ_l。第二层与第三层的连接数也是不确定的，也需要在优化过程中动态调整，连接权值都为1。第三层节点的输出为：

O_{l}^{3} = \exp [- {(\frac{Σ_{i = 1, j = 1}^{I, J} {O^{2}}_{x_{i} j} - m_{l}}{σ_{l}})}^{2}], l = 1,2,3 . . . L

节点数目与可选动作数是相同的，函数输出层输出的是对动作函数的拟合值，用来计算得到每个动作的选择概率。第四层节点的输出为：

{O_{k}}^{4} = Σ_{l = 1}^{L} ω_{lk} O_{l}^{3}, k = 1,2, 3 . . . K

其中，第四层的输出O_k ⁴就是动作选择函数

{\hat{A}}_{k} (s_{t}) = Σ_{l = 1}^{L} ω_{lk} O_{l}^{3}, k = 1,2, 3 . . . K

第三层每个节点与第四层都有连接，ω_lk为第三层第l个节点与第四层第k个节点的连接权值，连接权值ω_lk也需要在优化过程中动态调整。

假设网络第一层有I个输入，第i个输入在第二层有k_i个模糊划分，则第二层结点数共有k₁+k₂+...+k_I个，节点函数为各输入对于其模糊子集的隶属度函数。总结起来，需要动态调整优化的神经网络结构为：第三层节点数、第二层与第三层的连接数。需调整优化的网络参数为：第二层输入参数隶属函数的位置m_ij和宽度σ_ij、第三层(隐层)高斯激活函数的位置参数m_l与宽度σ_l以及第三层与第四层的连接权值ω_lk。

这里，利用混合递阶遗传算法对动作决策网络中的神经网络的结构和参数进行优化，网络的结构优化为确定第三层节点数、第二层与第三层的连接数。网络的参数优化包括输入向量的隶属度函数位置参数m_ij和宽度σ_ij、第三层隐节点的高斯函数的位置参数m_l与宽度σ_l以及第三层与第四层的连接权值ω_lk。利用递阶遗传算法对神经网络进行优化和调整，使网络在每一轮决策时，根据输入差分信号的变化，不断优化得到动作选择函数，以实现对动作的选择作用。

动作校正网络单元15利用置信度评价网络单元13输出的评价值即动作的置信度p(t)，对动作选择网络单元14输出的动作选择函数

进行校正，然后计算得到每个动作选取的概率值，将概率最大的动作输出。

校正过程是以

为均值，以p(t)为概率生成一个随机函数，作为新的动作选择函数A_j(s_t)。p(t)越小，则A_j(s_t)就越远离

反之，则越靠近以新的A_j(s_t)代替

动作选择函数A_j(s_t)值越大，则对应的动作a_j被选择的概率越大。选择概率的计算公式为：

P (a_{j} | s_{t}) = \frac{e^{A_{j} (s_{t})}}{\underset{k}{Σ} e^{A_{k} (s_{t})}}

则输出为概率值最大的动作。

机器人行为学习模型中，所述动作决策网络单元14还包括4个子单元：编码单元141，种群初始化单元142，适应度函数确定单元143，以及遗传操作单元144，如图2所示。

编码单元141是对遗传算法的染色体结构进行确定。递阶遗传算法是根据生物染色体的层次结构提出的，生物体中染色体中的基因可分为调节基因与构造基因，调节基因的作用是控制构造基因是否被激活。这里，借鉴生物染色体基因的这种特点，对上述优化问题进行编码。种群中的每个个体由决定网络的结构和参数两部分组成。种群个体的基因结构采用二级递阶结构编码，即按照生物染色体的基因层次结构分两层实现，上层基因实现对第三层节点数量以及第二层输入隶属函数的编码，也就是第三层节点数以及第二层输入隶属函数的参数m_ij和σ_ij。如图3所示，实现对第三层(隐层)节点数量进行控制的部分称为控制基因，下层为参数基因，实现对第三层(隐层)节点的隶属函数以及网络连接的编码，包括第三层(隐层)节点隶属函数参数m_l与σ_l以及第二层与第三层的连接数，以及第三层与第四层的连接权值ω_lk。

控制基因的隐节点数以及参数基因的表示网络连接的基因均采用二进制编码，用“0”、“1”分别表示“无”和“有”的情况。其他表示隶属函数参数以及连接权值的基因均采用实值编码，即用实数表示。将第三层结构编码为一个二进制串，一位表示第三层一个节点，作为控制基因，“1”表示该节点起作用，“0”表示该节点不起作用。这样，控制基因串中“1”的个数即为起作用的神经网络隐层节点的实际个数。参数基因中，第二、三层连接基因采用二进制编码，“1”表示相应的第二层与第三层有连接，“0”表示相应的第二层与第三层没连接。第三、四层权值基因采用实值编码，表示了第三层与第四层的连接权值。

由此可知，控制基因控制着节点的个数，如果某一节点为“0”，则此节点与前后两层都无连接，相应地它所对应的参数基因都是不存在的，可以看出，参数基因由控制基因来控制，如果上层控制基因的某一节点不存在，那么相应的下层参数基因就没有被激活，这正体现了控制基因的控制作用，并且这种控制作用能和网络的拓扑结构相对应。编码而成的一个个染色体构成种群，利用它们完成进化。

进一步地，种群初始化单元142是对染色体种群进行初始化。为了顺利进行遗传算法运行，需要在之前产生一定数量的染色体个体，并且这些个体应当是随机产生的，代表了多种网络结构的可能性，即应有足够的求解空间。合适的种群规模对于遗传算法的收敛具有重要意义，种群数量太小难以求得满意的结果，太大则计算复杂，种群规模一般取10～160。

进一步地，确定染色体的适应度函数单元143。个体的适应度函数采用个体误差和结构的复杂度来表示，在个体误差寻优的同时考虑控制网络的复杂度，从而得到最优的网络结构。网络的适应度函数形式如下：

f (i) = α \frac{1}{E (i)} + β \frac{1}{H (i)}, i = 1,2, . . ., I

其中，E(i)，H(i)分别表示第i个个体的个体误差和结构复杂度，其中：

E (i) = Σ_{j = 1}^{K} {({\hat{y}}_{ij} - y_{ij})}^{2}

H(i)＝1+exp[-c(N_i(0))]

和y_ij为第i个个体的第j个输出和期望输出，其中，期望输出y_ij为期望动作的选择函数

如果期望输出某个动作，则设它的期望值

其他期望动作函数都设为0。N_i(0)为第i个个体的隐层节点为零的数目，c为参数调节因子。其中，b，c为常值，α与β为大于零的常数，α+β＝1。利用这样的适应值函数可保证在优化网络权值的同时得到合适的神经网络结构。

进一步地，进行遗传操作单元144，遗传操作包括选择、交叉和变异。初始的种群，经过选择、交叉和变异之后，进行了一轮遗传操作，完成了一轮进化，得到了新一代的子种群，并循环这个过程，使得进化不断进行，以使子代收敛到最优。

选择是从上代种群中，根据个体的适应度，按照一定的规则或方法，选择出一些优良的个体遗传到下一代群体中。算法中采用精英选择的方法进行选择，即根据适应度值大小，每一代种群中最优的个体保留到下一代，这种方式保证了算法的渐进收敛。对于个体i，它的选择概率为：

p_{s} (i) = \frac{f_{i}}{Σ_{j = 1}^{N} f_{j}}

其中，f_i为个体i的适应度，N为种群的个体数。

交叉操作就是随机地使得两个体的基因对应位互换，这个过程反映了随机信息交换，目的在于产生新的基因组合，即产生新的个体。进化到一定程度时，特别是出现大多数个体相同的群体时，交叉是无法产生新的个体的，这时只能靠变异产生新的个体。变异是以一定概率使基因位发生改变，以增加新的搜索空间，也就是说，变异增加了全局优化的特质。在交叉和变异的过程中，随机性起到了重要的作用，只有随机的交叉和变异操作才保证了更新个体的出现，而这种随机性是通过交叉和变异概率表现出来的。

在遗传操作过程中，交叉概率和变异概率对遗传算法的性能有很大影响。如果在遗传算法(Genetic Algorithm，简称GA)运行初期，将交叉概率选大，变异概率选小，可以加快算法的收敛速度，有利于搜索最优解。但随着搜索的进行，就需要降低交叉概率增加变异概率，以至算法不易陷入局部极值，能搜索新的解。

同时变异概率不能取得太大，否则算法将难以收敛以及破坏最优解的基因。对于适应度高的解，取较低的交叉概率和变异概率，使其有较大的机会进入到下一代；而对于适应度较低的解，应取较高的交叉概率和变异概率，使其尽快被淘汰掉；当成熟收敛发生时，应加大交叉概率和变异概率，以加快新个体的产生。按照以上的交叉和变异概率的选取原则，采用一种自适应的交叉概率和变异概率的方法，其计算公式为：

p_{c} = \{\begin{matrix} \frac{f_{\max} - f_{avg}}{f} & (f_{\max} - f_{avg}) < f \\ 0.8 & (f_{\max} - f_{avg}) &GreaterEqual; f \end{matrix}

p_{m} = \{\begin{matrix} \frac{0.2 (f_{\max} - f^{'})}{f_{\max} - f_{avg}} & (f_{\max} - f^{'}) < (f_{\max} - f_{avg}) \\ 0.2 & (f_{\max} - f^{'}) &GreaterEqual; (f_{\max} - f_{avg}) \end{matrix}

其中，p_c为交叉概率，p_m为变异概率。f_max为群体中的最大适应度，f_avg为平均适应度，f是交叉的两个个体中较大的适应度，f′为变异个体的适应度。

该方法在进化空间较大时，能够快速找到最优解；在收敛到局部最优解附近，增加群体的多样性。可以看出适应度最大的个体变异概率为零，适应度较大的个体交叉和变异概率都很小，这样保护了优良个体。而适应度较小的个体交叉和变异概率都很大，需不断破坏它。

按照交叉概率在选中的两个个体之间进行交叉操作，交叉操作分别对控制基因以及参数基因的相对应部分进行操作，如图4所示。这样的交叉操作能使两个染色体的对应基因进行交叉，也保证了二进制编码和实数编码基因的对应交叉。两个染色体对应位的交叉采用单点交叉，随机地选择两个个体的相同位置，在选中的位置进行基因的互换操作。

变异操作包含对所有基因的操作，对控制基因以及参数基因中的二进制编码基因，采用位变异，进行逻辑取反操作，即把“1”变为“0”，把“0”变为“1”。对于实值编码的基因进行线形组合的高斯变异：

{\hat{m}}_{ij} = m_{ij} + α \frac{1}{f} N (0,1)

{\hat{σ}}_{ij} = σ_{ij} + α \frac{1}{f} N (0,1)

{\hat{m}}_{l} = m_{l} + α \frac{1}{f} N (0,1)

{\hat{σ}}_{l} = σ_{l} + α \frac{1}{f} N (0,1)

{\hat{ω}}_{lk} = ω_{lk} + α \frac{1}{f} N (0,1)

其中，α为进化率，f为每个个体的适应度，N(0，1)为期望为0，标准差为1的正态分布随机函数。

综上所述，递阶遗传算法实现神经网络优化的算法步骤为如下：

1.对网络结构和参数按照递阶结构进行编码，生成染色体个体。

2.随机生成2N个初始染色体种群，进化代数设为t＝0。

3.根据公式计算每个个体的适应度值及种群中最大适应度值和平均适应度值。

4.按照个体选择概率在种群中选择N个个体作为父代，令t＝t+1。

5.从父代中随机选择两个个体，按照交叉概率进行交叉操作。如果交叉，则首先复制两个体，原个体保留。用复制的个体进行交叉操作，产生两个新个体。直到父代种群都交叉完毕。

6.对所有个体按照变异概率进行变异操作。

7.当最优个体的适应度和群体适应度达到给定的阀值时，或者达到最大进化代数，则算法的迭代过程收敛、算法结束。否则转3继续执行，直至满足结束条件。

优化结束后，取最优个体的网络结构和参数作为决策网络，利用它实现动作决策的计算。

在动作决策网络单元14中，用递阶遗传算法来优化网络的结构和参数。在每一个新的态势出现后，首先利用瞬时差分算法(Temporal-Difference method，TD)所提供的差分信号ΔTD_t来对动作选择网络进行参数更新，以期得到更有利的可选动作。具体地说，它是利用差分信号ΔTD_t，通过对种群中的染色体每个参数基因中的第三层与第四层连接权值进行更新，之后再进行遗传操作。这样对应这个动作函数的权值空间都进行了更新，经遗传得到的对应动作的新权值也应该是更大的，能够反映对此最优动作的学习。差分信号对于连接权值的更新过程为：

其中，ω_ij为第三层第i个隐节点与第四层第j个动作选择函数的连接权值，

是加权系数，是0-1之间的数值，经验值是0.62。

本实施例利用递阶遗传算法对神经网络进行训练，实现知识学习。解决了现有技术中行为决策研究中较多是基于特定知识或规则的反应式方式，较好地解决了机器人行为决策的知识获取，推理决策问题，主体通过与环境交互学习逼近知识的完备性，具有较高层次的学习和推理能力。

图5为本发明学习模型第二实施例中在线决策过程的示意图。离线学习之后，最后得到的动作决策网络单元14为最优的，使用该动作决策网络单元14用于实时的在线决策。而其他，如效用拟合网络单元11、差分信号计算网络单元12、置信度评价网络单元13和动作校正网络单元15在在线决策过程中都去掉，不再使用。动作决策网络单元14根据选择的动作a_t经动作执行单元16执行后的状态空间向量s_t进行计算并得出输出动作选择函数

通过动作选择器输出最终选择的动作，该动作经动作执行单元16执行后得到的状态空间向量再输入给动作决策网络单元14。

本实施例利用训练得到的神经网络，进行机器人的行为实时决策。学习过程与决策过程的分离，保证了在线决策的效率，满足实时运行的需要。

Claims

1.一种基于效用差分网络的机器人行为学习模型的建模装置，包括动作执行单元(16)，其特征在于，该建模装置还包括：效用拟合网络单元(11)、差分信号计算网络单元(12)、置信度评价网络单元(13)、动作决策网络单元(14)和动作校正网络单元(15)；

所述的效用拟合网络单元(11)用来计算t时刻动作a_t经动作执行单元(16)执行后产生的状态空间向量s_t所得到的效用拟合值

并输出给差分信号计算网络单元(12)；差分信号计算网络单元(12)根据输入的效用拟合值

以及根据状态空间向量s_t计算的立即回报函数，进一步计算得到差分信号ΔTD_t，并将该差分信号ΔTD_t输出给效用拟合网络单元(11)、置信度评价网络单元(13)以及动作决策网络单元(14)；效用拟合网络单元(11)利用差分信号ΔTD_t更新效用拟合网络单元(11)中神经网络的权值；置信度评价网络单元(13)利用效用拟合网络单元(11)中神经网络的输入层的输入向量和隐层的输出向量以及差分信号，计算动作决策结果的置信度，并将该置信度输出给动作校正网络单元(15)；动作决策网络单元(14)根据输入的差分信号ΔTD_t与状态空间向量s_t，进行动作的选择学习，输出动作选择函数

给动作校正网络单元(15)，其中j、k为大于0的整数；动作校正网络单元(15)利用输入的置信度，对输入的动作选择函数

进行校正，然后计算校正后的动作的选取概率值，将概率最大的动作输出给动作执行单元(16)执行，该动作执行后的状态空间向量再反馈输入给效用拟合网络单元(11)、差分信号计算网络单元(12)和动作决策网络单元(14)；

所述的效用拟合网络单元(11)由神经网络构成，包括输入层、隐层和输出层，神经网络的权值为A、B和C，神经网络输入层的输入向量x_i(t)为t时刻动作执行后产生的状态空间向量s_t归一化得到的，隐层激活函数为Sigmoid函数，神经网络输出为对动作执行之后状态的效用拟合值

其中，b_i(t)表示输入层与输出层的权值B的向量，c_j(t)表示隐层与输出层的权值C的向量，n为输入层单元个数，h为隐层单元个数，y_j(t)为隐层单元的输出向量：

根据函数

计算，a_ij(t)为输入层与隐层的权值A的向量；所述的效用拟合网络单元(11)中神经网络的权值的向量，具体是利用下式进行更新：

b_i(t+1)＝b_i(t)+λ·ΔTD_t+1·x_i(t)，i＝1,2,3...n

c_j(t+1)＝c_j(t)+λ·ΔTD_t+1·y_j(t)，j＝1,2,3...h

a_ij(t+1)＝a_ij(t)+λ_h·ΔTD_t+1·y_j(t)·sgn(c_j(t))·x_i(t)

其中，λ为大于零的常数，λ_h为大于零的数，ΔTD_t+1表示对应t+1时刻动作执行后产生的状态空间向量的差分信号，sgn(c_j(t))根据函数sgn来确定，函数sgn为：

sgn (z) = \{\begin{matrix} 1 & z > 0 \\ 0 & z = 0 \\ - 1 & z < 0 \end{matrix}

所述的差分信号计算网络单元(12)根据瞬时差分算法计算得到差分信号ΔTD_t：其中，R(s_t)是对状态空间向量s_t的立即评价，γ为折扣系数，

表示t时刻动作执行后产生的状态空间向量s_t所得到的效用拟合值；

述置的信度评价网络单元(13)最终输出的置信度p(t)为：

p (t) = \frac{1}{1 + e^{- a p_{0} (t)}},

p_{0} (t) = Σ_{i = 1}^{n} α_{i} (t) x_{i} (t) + Σ_{j = 1}^{h} β_{j} (t) y_{j} (t)

其中，置信度修正因子a取值范围是[1，10]，x_i(t)、y_j(t)分别为效用拟合网络单元(11)中的神经网络的输入向量和隐层单元的输出向量，n、h分别为效用拟合网络单元(11)中的神经网络输入层单元个数和隐层单元个数；对应t+1时刻动作执行后的权值α_i(t+1)和β_j(t+1)的更新如下：

α_i(t+1)＝α_i(t)+λ_p·ΔTD_t+1·x_i(t)，i＝1,2,3...n

β_j(t+1)＝β_j(t)+λ_p·ΔTD_t+1·y_j(t)，j＝1,2,3...h

其中，λ_p表示学习率，是0-1之间的数值，ΔTD_t+1表示对应t+1时刻动作执行后产生的状态空间向量的差分信号；

所述的动作决策网络单元(14)采用神经网络实现，该神经网络包括输入层、模糊子集层、可变节点层和函数输出层，输入层的第i个节点的输入IN_i ¹为：

IN_i ¹＝x_i(t)，i＝1,2,3...I

其中，I为输入层节点个数，x_i(t)为由动作执行后的状态空间向量s_t归一化得到的向量；模糊子集层用来对输入层的输入进行模糊化处理，对应于输入x_i(t)的第j个输出

为：

{O_{x_{i} j}}^{2} = \exp [- {(\frac{x_{j} (t) - m_{ij}}{σ_{ij}})}^{2}], i = 1,2,3 . . . I, j = 1,2,3 . . . J

其中，J为输入层的每个x_i(t)在模糊子集层对应的输入个数，m_ij和σ_ij分别表示输入向量的隶属度函数的位置参数和宽度，x_j(t)为输入层的第j个节点的输入向量；

可变节点层的激活函数为高斯函数，该高斯函数的位置参数与宽度分别为m_l和σ_l，可变节点层的节点输出O_l ³为：

{O_{l}}^{3} = \exp [- {(\frac{Σ_{i = 1, j = 1}^{I, J} {O^{2}}_{x_{i} j} - m_{l}}{σ_{l}})}^{2}], l = 1,2,3 . . . L

其中，L为可变节点层的节点个数；函数输出层输出的是对动作函数的拟合值，就是动作选择函数

{\hat{A}}_{k} (s_{t}) = Σ_{l = 1}^{L} ω_{lk} {O_{l}}^{3}, k = 1,2,3 . . . K

其中，K为函数输出层的节点个数；ω_lk为第三层第l个节点与第四层第k个节点的连接权值；I,J,K,L都是正整数；

所述的输入向量的隶属度函数位置参数m_ij和宽度σ_ij、可变节点层的高斯函数的位置参数m_l与宽度σ_l、以及可变节点层与函数输出层的连接权值，采用递阶遗传算法进行优化和调整；

所述的动作校正网络单元(15)以

为均值，以p(t)为概率生成一个随机函数，作为新的动作选择函数A_j(s_t)，然后计算选取概率值P(a_j|s_t)，输出概率值最大的动作；选取概率值的公式为：其中，a_j为第j个动作，s_t为t时刻动作执行后的得到状态空间向量，A_k(s_t)为第k个动作选择函数，A_j(s_t)为第j个动作选择函数；

所述的建模装置具有两个过程：离线学习过程和在线决策过程；所述的离线学习过程中上述各个单元都要参与，所述的在线决策过程中仅由离线学习最后得到的动作决策网络单元(14)与动作执行单元(16)参与，在线决策过程中的动作决策网络单元(14)根据t时刻动作执行单元(16)执行动作后产生的状态空间向量s_t进行计算并得出输出动作选择函数

通过动作选择器输出最终选择的动作给动作执行单元(16)执行，执行动作后得到的状态空间向量再输入给动作决策网络单元(14)。