CN102063640B - 基于效用差分网络的机器人行为学习模型 - Google Patents

基于效用差分网络的机器人行为学习模型 Download PDF

Info

Publication number
CN102063640B
CN102063640B CN 201010564142 CN201010564142A CN102063640B CN 102063640 B CN102063640 B CN 102063640B CN 201010564142 CN201010564142 CN 201010564142 CN 201010564142 A CN201010564142 A CN 201010564142A CN 102063640 B CN102063640 B CN 102063640B
Authority
CN
China
Prior art keywords
action
layer
network unit
input
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201010564142
Other languages
English (en)
Other versions
CN102063640A (zh
Inventor
宋晓
麻士东
龚光红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN 201010564142 priority Critical patent/CN102063640B/zh
Publication of CN102063640A publication Critical patent/CN102063640A/zh
Application granted granted Critical
Publication of CN102063640B publication Critical patent/CN102063640B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明的基于效用差分网络的机器人行为学习模型,包括效用拟合网络单元,差分信号计算网络单元,置信度评价网络单元、动作决策网络单元、动作校正网络单元和动作执行单元,利用该模型实现离线学习过程和在线决策过程。效用拟合网络单元计算得到动作执行后的状态的效用拟合值,差分信号计算网络单元用于计算差分信号,置信度评价网络单元将计算得到的置信度输出给动作校正网络单元,动作决策网络单元输出动作选择函数,动作校正网络单元利用置信度对动作选择函数进行校正,计算每个动作选取的概率值,输出概率最大的动作给动作执行单元执行。本发明能较好保证机器人获取环境知识的完备性,较好地保证了机器人行为决策的及时性和有效性。

Description

基于效用差分网络的机器人行为学习模型
技术领域
本发明涉及一种基于效用差分网络的机器人行为学习模型,属于人工智能领域的新应用之一。
背景技术
机器人智能行为一般是指机器人在感知周边环境的基础上进行推理与决策,达到行为智能决策的过程。智能行为决策模型的建立需要对知识进行获取、表示和推理,并且能够自动评价机器人行为的优劣。目前,基于强化学习技术的认知行为模型在知识的获取、对决策环境的适应性、可重用性等方面所具有的优点,使其成为智能行为建模的首选。
强化学习过程需要对环境进行探索。可表述为:在某个状态下,决策者选择并执行一个动作,然后感知下一步的环境状态以及相应的回报。决策者并没有被直接告知在什么情况下要采取什么行动,而是根据回报修正自身的行为,来赢得更多的回报。简单地说,强化学习过程就是允许决策者通过不断尝试以得到最佳行动序列的过程。
目前机器人强化学习的行为决策中使用较多的是基于特定知识或规则的反应式方式,这种方式的缺点一是知识获取有限,二是问题获取的知识往往带有经验性,不能及时学习新的知识,三是推理过程实时性不高等。
发明内容
本发明针对目前机器人强化学习的行为决策存在的缺点,建立了一种基于效用差分网络的机器人行为学习模型。该模型是一个基于评价的学习***,通过对环境的交互,自动生成***的控制率,进而控制给出选择动作。本发明基于效用差分网络的机器人行为学习模型,解决一般行为决策模型知识获取有限、经验性过强的问题,实现的离线学习过程和在线决策过程,解决推理过程实时性不高的问题。
一种基于效用差分网络的机器人行为学习模型,包括:效用拟合网络单元、差分信号计算网络单元、置信度评价网络单元、动作决策网络单元、动作校正网络单元和动作执行单元;所述的效用拟合网络单元用来计算t时刻动作at经动作执行单元执行后产生的状态空间向量st所得到的效用拟合值
Figure BDA0000034814160000011
并输出给差分信号计算网络单元;差分信号计算网络单元根据输入的效用拟合值
Figure BDA0000034814160000012
以及根据状态空间向量st计算的立即回报函数,进一步计算得到差分信号ΔTDt,并将该差分信号ΔTDt输出给效用拟合网络单元、置信度评价网络单元以及动作决策网络单元;效用拟合网络单元利用差分信号ΔTDt更新效用拟合网络单元中神经网络的权值;置信度评价网络单元利用效用拟合网络单元中神经网络的输入层的输入向量和隐层的输出向量以及差分信号,计算动作决策结果的置信度,并将该置信度输出给动作校正网络单元;动作决策网络单元根据输入的差分信号ΔTDt与状态空间向量st,进行动作的选择学习,输出动作选择函数
Figure BDA0000034814160000021
给动作校正网络单元,其中j、k为大于0的整数;动作校正网络单元利用输入的置信度,对输入的动作选择函数
Figure BDA0000034814160000022
进行校正,然后计算校正后的动作的选取概率值,将概率最大的动作输出给动作执行单元执行,该动作执行后的状态空间向量再反馈输入给效用拟合网络单元、差分信号计算网络单元和动作决策网络单元。
所述的学习模型具有两个过程:离线学习过程和在线决策过程;所述的离线学习过程中上述各单元都要参与,所述的在线决策过程中仅由离线学习最后得到的动作决策网络单元与动作执行单元参与,在线决策过程中的动作决策网络单元根据t时刻动作执行后的状态空间向量st进行计算并得出输出动作选择函数
Figure BDA0000034814160000023
通过动作选择器输出最终选择的动作给动作执行单元执行,执行动作后得到的状态空间向量再输入给动作决策网络单元。
本发明的优点与有益效果为:
(1)本发明的机器人学习模型不需要计算产生正确的行动,而是通过在行动-环境交互-评价的学习环境中解决机器人知识获取困难的问题。由于此学习模型不需要明确指定环境模型,环境的因果关系已经隐含在具体差分反馈网络中,从而能较好保证机器人获取环境知识的完备性;
(2)本模型设计的离线学习过程能在机器人决策前完成环境知识学习过程,在线决策过程能进一步完成机器人环境知识获取,运行时的决策不再进行探索和学习活动,只需要利用重构的网络进行计算和相加,这种离线与在线的模型设计保证了机器人的行为决策具有较好的实时性,较好地保证了机器人行为决策的及时性和有效性。
附图说明
图1为本发明学习模型第一实施例的离线学习过程结构示意图;
图2为本发明学习模型第一实施例的动作决策网络流程示意图;
图3为本发明学习模型第一实施例中动作决策网络中的遗传算子编码结构示意图;
图4为本发明学习模型第一实施例中动作决策网络中的遗传算子交叉操作示意图;
图5为本发明学习模型第二实施例中在线决策过程的示意图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。其中,第一实施例对本发明学习模型的离线学习过程进行了具体说明;第二实施例对在线决策过程进行说明。
如图1所示,本发明学习模型包括五个部分:效用拟合网络单元11、差分信号计算网络单元12、置信度评价网络单元13、动作决策网络单元14和动作校正网络单元15。本发明学习模型的离线学习过程中,五个部分都参与其中。
效用拟合网络单元11用来计算t时刻选择的动作at经动作执行单元16执行后产生的不同的状态空间向量st所得到的效用拟合值
Figure BDA0000034814160000031
并输出效用拟合值
Figure BDA0000034814160000032
给差分信号计算网络单元12,差分信号计算网络单元12输出差分信号ΔTDt给置信度评价网络单元13和效用拟合网络单元11。效用拟合网络单元11再利用差分信号计算网络单元12输入的差分信号ΔTDt来不断更新,从而达到真实的效用拟合。
差分信号计算网络单元12根据输入的效用拟合值
Figure BDA0000034814160000033
以及根据状态空间向量st计算的立即回报函数,进一步计算得到差分信号ΔTDt,并将该差分信号ΔTDt输出给效用拟合网络单元11、置信度评价网络单元13以及动作决策网络单元14。
置信度评价网络单元13利用效用拟合网络单元11中神经网络的输入层的输入向量和隐层的输出向量以及差分信号ΔTDt计算动作决策结果的置信度,并将该置信度输出给动作校正网络单元15,用于对动作选择的调整。
动作决策网络单元14根据输入的差分信号ΔTDt与状态空间向量st,利用递阶遗传算法对神经网络进行优化,实现动作的选择学习,输出动作选择函数
Figure BDA0000034814160000034
给动作校正网络单元15,其中j、k为大于0的整数。
动作校正网络单元15利用输入的置信度,对输入的动作选择函数
Figure BDA0000034814160000035
Figure BDA0000034814160000036
进行校正,将概率最大的动作输出。动作执行后的状态空间向量再反馈输入给效用拟合网络单元11、差分信号计算网络单元12和动作决策网络单元14。
其中,效用拟合网络单元11用来对特定的行为引起的状态变化进行效用评价,得到效用拟合值,由两层反馈的神经网络构成,如图1所示。神经网络的输入为状态空间向量st,隐层激活函数为Sigmoid函数,神经网络输出为对动作执行之后状态的效用拟合值,神经网络的权系数为A、B和C(。该神经网络包含n个输入向量单元,以及h个隐层单元,每个隐层单元接受n个输入并具有n个连接权值,输出单元接受n+h个输入并有n+h个权值。对于h的值,用户可以自行设定,一般设定为3,本发明实施例中设置为2。
该神经网络的输入向量为xi(t),i=1,2,3...n,函数xi(t)是st经过归一化得到的,则隐层单元的输出向量为:
y j ( t ) = g [ Σ i = 1 n a ij ( t ) x i ( i , j = 1,2,3 , . . . h
上式中所用到的函数
Figure BDA0000034814160000038
aij(t)为输入层与隐层的权值A的向量,。效用拟合网络11的输出为对效用的拟合值
Figure BDA0000034814160000039
它是对输入层和隐层的线性组合:
U ( s t ) ^ = Σ i = 1 n b i ( t ) x i ( t ) + Σ j = 1 h c j ( t ) y j ( t )
其中,bi(t)表示输入层与输出层的权值B的向量,cj(t)表示隐层与输出层的权值C的向量。
网络的权值A、B和C利用差分信号ΔTDt进行更新,如果差分信号ΔTDt为正,则说明在上一个行动产生了积极的效果,因此该行动被选择的机会应得到加强。输入层与输出层的权值B和隐层与输出层的权值C利用下式进行更新:
bi(t+1)=bi(t)+λ·ΔTDt+1·xi(t),i=1,2,3...n
cj(t+1)=cj(t)+λ·ΔTDt+1·yj(t),j=1,2,3...h
式中,λ为大于零的常数,可由用户自行设置。输入与隐层的权值A的更新按照下式进行:
aij(t+1)=aij(t)+λh·ΔTDt+1·yj(t)·sgn(cj(t))·xi(t)
其中,λh为大于零的数,可由用户自行设置,ΔTDt+1表示对应t+1时刻动作执行后产生的状态空间向量的差分信号,sgn是如下函数:
( z ) = 1 z > 0 0 z = 0 - 1 z < 0 , 此处z为权值C的向量cj(t)。
如图1所示,差分信号计算网络单元12根据效用拟合网络单元11输出的拟合效用以及状态的立即回报函数R(st)计算得到差分信号ΔTDt。根据瞬时差分算法,ΔTDt是利用下式进行迭代计算得到的:
&Delta;T D t = R ( s t ) + &gamma; &CenterDot; U ^ ( s t + 1 ) - U ^ ( s t )
其中,R(st)是对状态st的立即评价,就是立即回报函数的输出,γ为折扣系数,可由用户自行设置。
Figure BDA0000034814160000045
表示t+1时刻动作执行后产生的状态空间向量st+1所得到的效用拟合值,
Figure BDA0000034814160000046
表示t时刻动作执行后产生的状态空间向量st所得到的效用拟合值。
计算得到的差分信号ΔTDt用于对效用拟合网络单元11以及置信度评价网络单元13的权系数进行训练更新。如果差分信号ΔTDt产生了积极的作用,则应加强这种动作,并且对它的置信度也应加强,即更相信此动作应被选择。另外,差分信号ΔTDt还用来对动作决策网络单元14中动作选择函数的权值进行更新,以保证实现对最优动作的选择。
如图1所示,在动作决策网络单元14输出动作决策函数时,置信度评价网络单元13要计算输出动作的置信度,该置信度用于对动作选择的调整。置信度评价网络单元13的输入是状态向量xi(t)和yj(t),它们从效用拟合网络单元11的隐层和输出层引出。
置信度p0(t)通过如下公式计算:
p 0 ( t ) = &Sigma; i = 1 n &alpha; i ( t ) x i ( t ) + &Sigma; j = 1 h &beta; j ( t ) y j ( t )
其中,权值αi(t)和βj(t)利用下式进行更新:
αi(t+1)=αi(t)+λp·ΔTDt+1·xi(t),i=1,2,3...n
βj(t+1)=βj(t)+λp·ΔTDt+1·yj(t),j=1,2,3...h
其中,λp表示学习率,是0-1之间的数值,经验值是0.618,用户可以根据自己的经验进行设置。从上式来看,难以保证p0(t)的置信度区间在[0,1],故引入Sigmoid函数对p0(t)进行变换,得到p(t),这样,输出置信度就与随机函数概率相吻合:
p ( t ) = 1 1 + e - a p 0 ( t )
置信度修正因子a起到平滑学习过程的作用,改变a,就可改变学习对环境的调节范围,若a过大,则会使学习***失去调节作用,应根据先验知识设定合适的a值,a>0,本发明中a的取值范围是[1,10]。
置信度对动作选择的调节作用,反映了决策的不确定性。可以看出,随着状态的效用逐渐趋于真实值,即ΔTDt的增加,置信度p(t)也是逐渐增加的,对动作的选择越来越确定。再利用输出置信度p(t)对动作决策网络单元14的每一个输出动作选择函数
Figure BDA0000034814160000053
进行校正,校正过程在动作校正网络单元15里完成。
动作决策网络单元14采用神经网络实现,它共分为四层,如图1所示,第一层到第四层分别是:输入层,模糊子集层,可变节点层和函数输出层,其中,可变节点层也称函数拟合层。分别用h=1,2,3,4表示网络的四层。设
Figure BDA0000034814160000054
分别为第h层的第i个节点的输入和输出,i为每层的节点,其中,第一层节点数为I个,第二层节点数为I*J个,第三层节点数为L个,第四层节点数为K个,I,J,K,L都是正整数。均值mij,方差σij分别为第二层中对应xi(t)输入的第j个节点的高斯隶属函数的位置参数和宽度。
动作决策网络单元14的神经网络的输入层,输入量为状态空间向量st归一化得到的xi(t),它表征了输入时刻的机器人态势信息。输入层的第i个节点的输入
Figure BDA0000034814160000055
为:
I N i 1 = x i ( t ) , i = 1,2,3 . . . I
模糊子集层用来对输入层的输入变量进行模糊化处理。输出为每一输入向量的隶属度。输入层的每个xi(t)在模糊子集层对应有J个输入,例如图1中,此处的J为2,其中,每个输入就是xi(t)的一个模糊子集,输出是xi(t)在这一模糊子集的隶属度。它的每一节点激活函数为高斯隶属函数,输出为:
Q x i j 2 = exp [ - ( x j ( t ) - m ij &sigma; ij ) 2 ] , i = 1,2,3 . . . I , j = 1,2,3 . . . J
其中,
Figure BDA0000034814160000058
为对应于输入xi(t)的第j个输出,,exp是以自然对数e为底的指数函数,xj(t)为输入层的第j个节点的输入。
神经网络为满足对于动作函数的拟合,需要在一定程度调整输出,可变节点层用来实现这种调节功能。可变节点层是通过节点数以及连接权值的变化实现调节功能的,节点数以及连接权值利用递阶遗传算法进行优化,动态确定它们的数目以及大小,以满足网络对动作函数的拟合,具体在后面介绍。可变节点层的激活函数为高斯函数,其位置参数与宽度分别为ml和σl。第二层与第三层的连接数也是不确定的,也需要在优化过程中动态调整,连接权值都为1。第三层节点的输出为:
O l 3 = exp [ - ( &Sigma; i = 1 , j = 1 I , J O 2 x i j - m l &sigma; l ) 2 ] , l = 1,2,3 . . . L
节点数目与可选动作数是相同的,函数输出层输出的是对动作函数的拟合值,用来计算得到每个动作的选择概率。第四层节点的输出为:
O k 4 = &Sigma; l = 1 L &omega; lk O l 3 , k = 1,2 , 3 . . . K
其中,第四层的输出Ok 4就是动作选择函数
Figure BDA0000034814160000063
A ^ k ( s t ) = &Sigma; l = 1 L &omega; lk O l 3 , k = 1,2 , 3 . . . K
第三层每个节点与第四层都有连接,ωlk为第三层第l个节点与第四层第k个节点的连接权值,连接权值ωlk也需要在优化过程中动态调整。
假设网络第一层有I个输入,第i个输入在第二层有ki个模糊划分,则第二层结点数共有k1+k2+...+kI个,节点函数为各输入对于其模糊子集的隶属度函数。总结起来,需要动态调整优化的神经网络结构为:第三层节点数、第二层与第三层的连接数。需调整优化的网络参数为:第二层输入参数隶属函数的位置mij和宽度σij、第三层(隐层)高斯激活函数的位置参数ml与宽度σl以及第三层与第四层的连接权值ωlk
这里,利用混合递阶遗传算法对动作决策网络中的神经网络的结构和参数进行优化,网络的结构优化为确定第三层节点数、第二层与第三层的连接数。网络的参数优化包括输入向量的隶属度函数位置参数mij和宽度σij、第三层隐节点的高斯函数的位置参数ml与宽度σl以及第三层与第四层的连接权值ωlk。利用递阶遗传算法对神经网络进行优化和调整,使网络在每一轮决策时,根据输入差分信号的变化,不断优化得到动作选择函数,以实现对动作的选择作用。
动作校正网络单元15利用置信度评价网络单元13输出的评价值即动作的置信度p(t),对动作选择网络单元14输出的动作选择函数
Figure BDA0000034814160000065
进行校正,然后计算得到每个动作选取的概率值,将概率最大的动作输出。
校正过程是以
Figure BDA0000034814160000066
为均值,以p(t)为概率生成一个随机函数,作为新的动作选择函数Aj(st)。p(t)越小,则Aj(st)就越远离
Figure BDA0000034814160000067
反之,则越靠近以新的Aj(st)代替
Figure BDA0000034814160000069
动作选择函数Aj(st)值越大,则对应的动作aj被选择的概率越大。选择概率的计算公式为:
P ( a j | s t ) = e A j ( s t ) &Sigma; k e A k ( s t )
则输出为概率值最大的动作。
机器人行为学习模型中,所述动作决策网络单元14还包括4个子单元:编码单元141,种群初始化单元142,适应度函数确定单元143,以及遗传操作单元144,如图2所示。
编码单元141是对遗传算法的染色体结构进行确定。递阶遗传算法是根据生物染色体的层次结构提出的,生物体中染色体中的基因可分为调节基因与构造基因,调节基因的作用是控制构造基因是否被激活。这里,借鉴生物染色体基因的这种特点,对上述优化问题进行编码。种群中的每个个体由决定网络的结构和参数两部分组成。种群个体的基因结构采用二级递阶结构编码,即按照生物染色体的基因层次结构分两层实现,上层基因实现对第三层节点数量以及第二层输入隶属函数的编码,也就是第三层节点数以及第二层输入隶属函数的参数mij和σij。如图3所示,实现对第三层(隐层)节点数量进行控制的部分称为控制基因,下层为参数基因,实现对第三层(隐层)节点的隶属函数以及网络连接的编码,包括第三层(隐层)节点隶属函数参数ml与σl以及第二层与第三层的连接数,以及第三层与第四层的连接权值ωlk
控制基因的隐节点数以及参数基因的表示网络连接的基因均采用二进制编码,用“0”、“1”分别表示“无”和“有”的情况。其他表示隶属函数参数以及连接权值的基因均采用实值编码,即用实数表示。将第三层结构编码为一个二进制串,一位表示第三层一个节点,作为控制基因,“1”表示该节点起作用,“0”表示该节点不起作用。这样,控制基因串中“1”的个数即为起作用的神经网络隐层节点的实际个数。参数基因中,第二、三层连接基因采用二进制编码,“1”表示相应的第二层与第三层有连接,“0”表示相应的第二层与第三层没连接。第三、四层权值基因采用实值编码,表示了第三层与第四层的连接权值。
由此可知,控制基因控制着节点的个数,如果某一节点为“0”,则此节点与前后两层都无连接,相应地它所对应的参数基因都是不存在的,可以看出,参数基因由控制基因来控制,如果上层控制基因的某一节点不存在,那么相应的下层参数基因就没有被激活,这正体现了控制基因的控制作用,并且这种控制作用能和网络的拓扑结构相对应。编码而成的一个个染色体构成种群,利用它们完成进化。
进一步地,种群初始化单元142是对染色体种群进行初始化。为了顺利进行遗传算法运行,需要在之前产生一定数量的染色体个体,并且这些个体应当是随机产生的,代表了多种网络结构的可能性,即应有足够的求解空间。合适的种群规模对于遗传算法的收敛具有重要意义,种群数量太小难以求得满意的结果,太大则计算复杂,种群规模一般取10~160。
进一步地,确定染色体的适应度函数单元143。个体的适应度函数采用个体误差和结构的复杂度来表示,在个体误差寻优的同时考虑控制网络的复杂度,从而得到最优的网络结构。网络的适应度函数形式如下:
f ( i ) = &alpha; 1 E ( i ) + &beta; 1 H ( i ) , i = 1,2 , . . . , I
其中,E(i),H(i)分别表示第i个个体的个体误差和结构复杂度,其中:
E ( i ) = &Sigma; j = 1 K ( y ^ ij - y ij ) 2
H(i)=1+exp[-c(Ni(0))]
Figure BDA0000034814160000083
和yij为第i个个体的第j个输出和期望输出,其中,期望输出yij为期望动作的选择函数
Figure BDA0000034814160000084
如果期望输出某个动作,则设它的期望值
Figure BDA0000034814160000085
其他期望动作函数都设为0。Ni(0)为第i个个体的隐层节点为零的数目,c为参数调节因子。其中,b,c为常值,α与β为大于零的常数,α+β=1。利用这样的适应值函数可保证在优化网络权值的同时得到合适的神经网络结构。
进一步地,进行遗传操作单元144,遗传操作包括选择、交叉和变异。初始的种群,经过选择、交叉和变异之后,进行了一轮遗传操作,完成了一轮进化,得到了新一代的子种群,并循环这个过程,使得进化不断进行,以使子代收敛到最优。
选择是从上代种群中,根据个体的适应度,按照一定的规则或方法,选择出一些优良的个体遗传到下一代群体中。算法中采用精英选择的方法进行选择,即根据适应度值大小,每一代种群中最优的个体保留到下一代,这种方式保证了算法的渐进收敛。对于个体i,它的选择概率为:
p s ( i ) = f i &Sigma; j = 1 N f j
其中,fi为个体i的适应度,N为种群的个体数。
交叉操作就是随机地使得两个体的基因对应位互换,这个过程反映了随机信息交换,目的在于产生新的基因组合,即产生新的个体。进化到一定程度时,特别是出现大多数个体相同的群体时,交叉是无法产生新的个体的,这时只能靠变异产生新的个体。变异是以一定概率使基因位发生改变,以增加新的搜索空间,也就是说,变异增加了全局优化的特质。在交叉和变异的过程中,随机性起到了重要的作用,只有随机的交叉和变异操作才保证了更新个体的出现,而这种随机性是通过交叉和变异概率表现出来的。
在遗传操作过程中,交叉概率和变异概率对遗传算法的性能有很大影响。如果在遗传算法(Genetic Algorithm,简称GA)运行初期,将交叉概率选大,变异概率选小,可以加快算法的收敛速度,有利于搜索最优解。但随着搜索的进行,就需要降低交叉概率增加变异概率,以至算法不易陷入局部极值,能搜索新的解。
同时变异概率不能取得太大,否则算法将难以收敛以及破坏最优解的基因。对于适应度高的解,取较低的交叉概率和变异概率,使其有较大的机会进入到下一代;而对于适应度较低的解,应取较高的交叉概率和变异概率,使其尽快被淘汰掉;当成熟收敛发生时,应加大交叉概率和变异概率,以加快新个体的产生。按照以上的交叉和变异概率的选取原则,采用一种自适应的交叉概率和变异概率的方法,其计算公式为:
p c = f max - f avg f ( f max - f avg ) < f 0.8 ( f max - f avg ) &GreaterEqual; f
p m = 0.2 ( f max - f &prime; ) f max - f avg ( f max - f &prime; ) < ( f max - f avg ) 0.2 ( f max - f &prime; ) &GreaterEqual; ( f max - f avg )
其中,pc为交叉概率,pm为变异概率。fmax为群体中的最大适应度,favg为平均适应度,f是交叉的两个个体中较大的适应度,f′为变异个体的适应度。
该方法在进化空间较大时,能够快速找到最优解;在收敛到局部最优解附近,增加群体的多样性。可以看出适应度最大的个体变异概率为零,适应度较大的个体交叉和变异概率都很小,这样保护了优良个体。而适应度较小的个体交叉和变异概率都很大,需不断破坏它。
按照交叉概率在选中的两个个体之间进行交叉操作,交叉操作分别对控制基因以及参数基因的相对应部分进行操作,如图4所示。这样的交叉操作能使两个染色体的对应基因进行交叉,也保证了二进制编码和实数编码基因的对应交叉。两个染色体对应位的交叉采用单点交叉,随机地选择两个个体的相同位置,在选中的位置进行基因的互换操作。
变异操作包含对所有基因的操作,对控制基因以及参数基因中的二进制编码基因,采用位变异,进行逻辑取反操作,即把“1”变为“0”,把“0”变为“1”。对于实值编码的基因进行线形组合的高斯变异:
m ^ ij = m ij + &alpha; 1 f N ( 0,1 )
&sigma; ^ ij = &sigma; ij + &alpha; 1 f N ( 0,1 )
m ^ l = m l + &alpha; 1 f N ( 0,1 )
&sigma; ^ l = &sigma; l + &alpha; 1 f N ( 0,1 )
&omega; ^ lk = &omega; lk + &alpha; 1 f N ( 0,1 )
其中,α为进化率,f为每个个体的适应度,N(0,1)为期望为0,标准差为1的正态分布随机函数。
综上所述,递阶遗传算法实现神经网络优化的算法步骤为如下:
1.对网络结构和参数按照递阶结构进行编码,生成染色体个体。
2.随机生成2N个初始染色体种群,进化代数设为t=0。
3.根据公式计算每个个体的适应度值及种群中最大适应度值和平均适应度值。
4.按照个体选择概率在种群中选择N个个体作为父代,令t=t+1。
5.从父代中随机选择两个个体,按照交叉概率进行交叉操作。如果交叉,则首先复制两个体,原个体保留。用复制的个体进行交叉操作,产生两个新个体。直到父代种群都交叉完毕。
6.对所有个体按照变异概率进行变异操作。
7.当最优个体的适应度和群体适应度达到给定的阀值时,或者达到最大进化代数,则算法的迭代过程收敛、算法结束。否则转3继续执行,直至满足结束条件。
优化结束后,取最优个体的网络结构和参数作为决策网络,利用它实现动作决策的计算。
在动作决策网络单元14中,用递阶遗传算法来优化网络的结构和参数。在每一个新的态势出现后,首先利用瞬时差分算法(Temporal-Difference method,TD)所提供的差分信号ΔTDt来对动作选择网络进行参数更新,以期得到更有利的可选动作。具体地说,它是利用差分信号ΔTDt,通过对种群中的染色体每个参数基因中的第三层与第四层连接权值进行更新,之后再进行遗传操作。这样对应这个动作函数的权值空间都进行了更新,经遗传得到的对应动作的新权值也应该是更大的,能够反映对此最优动作的学习。差分信号对于连接权值的更新过程为:
其中,ωij为第三层第i个隐节点与第四层第j个动作选择函数的连接权值,
Figure BDA0000034814160000102
是加权系数,是0-1之间的数值,经验值是0.62。
本实施例利用递阶遗传算法对神经网络进行训练,实现知识学习。解决了现有技术中行为决策研究中较多是基于特定知识或规则的反应式方式,较好地解决了机器人行为决策的知识获取,推理决策问题,主体通过与环境交互学习逼近知识的完备性,具有较高层次的学习和推理能力。
图5为本发明学习模型第二实施例中在线决策过程的示意图。离线学习之后,最后得到的动作决策网络单元14为最优的,使用该动作决策网络单元14用于实时的在线决策。而其他,如效用拟合网络单元11、差分信号计算网络单元12、置信度评价网络单元13和动作校正网络单元15在在线决策过程中都去掉,不再使用。动作决策网络单元14根据选择的动作at经动作执行单元16执行后的状态空间向量st进行计算并得出输出动作选择函数
Figure BDA0000034814160000111
通过动作选择器输出最终选择的动作,该动作经动作执行单元16执行后得到的状态空间向量再输入给动作决策网络单元14。
本实施例利用训练得到的神经网络,进行机器人的行为实时决策。学习过程与决策过程的分离,保证了在线决策的效率,满足实时运行的需要。

Claims (1)

1.一种基于效用差分网络的机器人行为学习模型的建模装置,包括动作执行单元(16),其特征在于,该建模装置还包括:效用拟合网络单元(11)、差分信号计算网络单元(12)、置信度评价网络单元(13)、动作决策网络单元(14)和动作校正网络单元(15);
所述的效用拟合网络单元(11)用来计算t时刻动作at经动作执行单元(16)执行后产生的状态空间向量st所得到的效用拟合值
Figure FDA00002133940300011
并输出给差分信号计算网络单元(12);差分信号计算网络单元(12)根据输入的效用拟合值
Figure FDA00002133940300012
以及根据状态空间向量st计算的立即回报函数,进一步计算得到差分信号ΔTDt,并将该差分信号ΔTDt输出给效用拟合网络单元(11)、置信度评价网络单元(13)以及动作决策网络单元(14);效用拟合网络单元(11)利用差分信号ΔTDt更新效用拟合网络单元(11)中神经网络的权值;置信度评价网络单元(13)利用效用拟合网络单元(11)中神经网络的输入层的输入向量和隐层的输出向量以及差分信号,计算动作决策结果的置信度,并将该置信度输出给动作校正网络单元(15);动作决策网络单元(14)根据输入的差分信号ΔTDt与状态空间向量st,进行动作的选择学习,输出动作选择函数
Figure FDA00002133940300013
Figure FDA00002133940300014
给动作校正网络单元(15),其中j、k为大于0的整数;动作校正网络单元(15)利用输入的置信度,对输入的动作选择函数
Figure FDA00002133940300015
进行校正,然后计算校正后的动作的选取概率值,将概率最大的动作输出给动作执行单元(16)执行,该动作执行后的状态空间向量再反馈输入给效用拟合网络单元(11)、差分信号计算网络单元(12)和动作决策网络单元(14);
所述的效用拟合网络单元(11)由神经网络构成,包括输入层、隐层和输出层,神经网络的权值为A、B和C,神经网络输入层的输入向量xi(t)为t时刻动作执行后产生的状态空间向量st归一化得到的,隐层激活函数为Sigmoid函数,神经网络输出为对动作执行之后状态的效用拟合值
Figure FDA00002133940300016
Figure FDA00002133940300017
其中,bi(t)表示输入层与输出层的权值B的向量,cj(t)表示隐层与输出层的权值C的向量,n为输入层单元个数,h为隐层单元个数,yj(t)为隐层单元的输出向量:
Figure FDA00002133940300018
Figure FDA00002133940300019
根据函数
Figure FDA000021339403000110
计算,aij(t)为输入层与隐层的权值A的向量;所述的效用拟合网络单元(11)中神经网络的权值的向量,具体是利用下式进行更新:
bi(t+1)=bi(t)+λ·ΔTDt+1·xi(t),i=1,2,3...n
cj(t+1)=cj(t)+λ·ΔTDt+1·yj(t),j=1,2,3...h
aij(t+1)=aij(t)+λh·ΔTDt+1·yj(t)·sgn(cj(t))·xi(t)
其中,λ为大于零的常数,λh为大于零的数,ΔTDt+1表示对应t+1时刻动作执行后产生的状态空间向量的差分信号,sgn(cj(t))根据函数sgn来确定,函数sgn为:
sgn ( z ) = 1 z > 0 0 z = 0 - 1 z < 0
所述的差分信号计算网络单元(12)根据瞬时差分算法计算得到差分信号ΔTDt其中,R(st)是对状态空间向量st的立即评价,γ为折扣系数,
Figure FDA00002133940300023
表示t+1时刻动作执行后产生的状态空间向量st+1所得到的效用拟合值,
Figure FDA00002133940300024
表示t时刻动作执行后产生的状态空间向量st所得到的效用拟合值;
述置的信度评价网络单元(13)最终输出的置信度p(t)为:
p ( t ) = 1 1 + e - a p 0 ( t ) , p 0 ( t ) = &Sigma; i = 1 n &alpha; i ( t ) x i ( t ) + &Sigma; j = 1 h &beta; j ( t ) y j ( t )
其中,置信度修正因子a取值范围是[1,10],xi(t)、yj(t)分别为效用拟合网络单元(11)中的神经网络的输入向量和隐层单元的输出向量,n、h分别为效用拟合网络单元(11)中的神经网络输入层单元个数和隐层单元个数;对应t+1时刻动作执行后的权值αi(t+1)和βj(t+1)的更新如下:
αi(t+1)=αi(t)+λp·ΔTDt+1·xi(t),i=1,2,3...n
βj(t+1)=βj(t)+λp·ΔTDt+1·yj(t),j=1,2,3...h
其中,λp表示学习率,是0-1之间的数值,ΔTDt+1表示对应t+1时刻动作执行后产生的状态空间向量的差分信号;
所述的动作决策网络单元(14)采用神经网络实现,该神经网络包括输入层、模糊子集层、可变节点层和函数输出层,输入层的第i个节点的输入INi 1为:
INi 1=xi(t),i=1,2,3...I
其中,I为输入层节点个数,xi(t)为由动作执行后的状态空间向量st归一化得到的向量;模糊子集层用来对输入层的输入进行模糊化处理,对应于输入xi(t)的第j个输出
Figure FDA00002133940300027
为:
O x i j 2 = exp [ - ( x j ( t ) - m ij &sigma; ij ) 2 ] , i = 1,2,3 . . . I , j = 1,2,3 . . . J
其中,J为输入层的每个xi(t)在模糊子集层对应的输入个数,mij和σij分别表示输入向量的隶属度函数的位置参数和宽度,xj(t)为输入层的第j个节点的输入向量;
可变节点层的激活函数为高斯函数,该高斯函数的位置参数与宽度分别为ml和σl,可变节点层的节点输出Ol 3为:
O l 3 = exp [ - ( &Sigma; i = 1 , j = 1 I , J O 2 x i j - m l &sigma; l ) 2 ] , l = 1,2,3 . . . L
其中,L为可变节点层的节点个数;函数输出层输出的是对动作函数的拟合值,就是动作选择函数
A ^ k ( s t ) = &Sigma; l = 1 L &omega; lk O l 3 , k = 1,2,3 . . . K
其中,K为函数输出层的节点个数;ωlk为第三层第l个节点与第四层第k个节点的连接权值;I,J,K,L都是正整数;
所述的输入向量的隶属度函数位置参数mij和宽度σij、可变节点层的高斯函数的位置参数ml与宽度σl、以及可变节点层与函数输出层的连接权值,采用递阶遗传算法进行优化和调整;
所述的动作校正网络单元(15)以
Figure FDA00002133940300033
为均值,以p(t)为概率生成一个随机函数,作为新的动作选择函数Aj(st),然后计算选取概率值P(aj|st),输出概率值最大的动作;选取概率值的公式为:其中,aj为第j个动作,st为t时刻动作执行后的得到状态空间向量,Ak(st)为第k个动作选择函数,Aj(st)为第j个动作选择函数;
所述的建模装置具有两个过程:离线学习过程和在线决策过程;所述的离线学习过程中上述各个单元都要参与,所述的在线决策过程中仅由离线学习最后得到的动作决策网络单元(14)与动作执行单元(16)参与,在线决策过程中的动作决策网络单元(14)根据t时刻动作执行单元(16)执行动作后产生的状态空间向量st进行计算并得出输出动作选择函数
Figure FDA00002133940300036
通过动作选择器输出最终选择的动作给动作执行单元(16)执行,执行动作后得到的状态空间向量再输入给动作决策网络单元(14)。
CN 201010564142 2010-11-29 2010-11-29 基于效用差分网络的机器人行为学习模型 Expired - Fee Related CN102063640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010564142 CN102063640B (zh) 2010-11-29 2010-11-29 基于效用差分网络的机器人行为学习模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010564142 CN102063640B (zh) 2010-11-29 2010-11-29 基于效用差分网络的机器人行为学习模型

Publications (2)

Publication Number Publication Date
CN102063640A CN102063640A (zh) 2011-05-18
CN102063640B true CN102063640B (zh) 2013-01-30

Family

ID=43998910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010564142 Expired - Fee Related CN102063640B (zh) 2010-11-29 2010-11-29 基于效用差分网络的机器人行为学习模型

Country Status (1)

Country Link
CN (1) CN102063640B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402712B (zh) * 2011-08-31 2014-03-05 山东大学 基于神经网络的机器人强化学习初始化方法
CN107972026B (zh) * 2016-10-25 2021-05-04 河北亿超机械制造股份有限公司 机器人、机械臂及其控制方法和装置
CN108229640B (zh) * 2016-12-22 2021-08-20 山西翼天下智能科技有限公司 情绪表达的方法、装置和机器人
CN110705682B (zh) * 2019-09-30 2023-01-17 北京工业大学 一种基于多层神经网络进行机器人行为预判的***及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5129039A (en) * 1988-09-17 1992-07-07 Sony Corporation Recurrent neural network with variable size intermediate layer
CN1372506A (zh) * 2000-03-24 2002-10-02 索尼公司 机器人设备行为决定方法和机器人设备
JP3412700B2 (ja) * 1993-06-28 2003-06-03 日本電信電話株式会社 神経回路網型パターン学習方法およびパターン処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5129039A (en) * 1988-09-17 1992-07-07 Sony Corporation Recurrent neural network with variable size intermediate layer
JP3412700B2 (ja) * 1993-06-28 2003-06-03 日本電信電話株式会社 神経回路網型パターン学習方法およびパターン処理装置
CN1372506A (zh) * 2000-03-24 2002-10-02 索尼公司 机器人设备行为决定方法和机器人设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特许3412700B2 2003.03.28

Also Published As

Publication number Publication date
CN102063640A (zh) 2011-05-18

Similar Documents

Publication Publication Date Title
Abraham Adaptation of fuzzy inference system using neural learning
Jantzen Neurofuzzy modelling
CN113138555A (zh) 一种基于遗传算法优化的grnn电主轴热误差建模方法
CN102063640B (zh) 基于效用差分网络的机器人行为学习模型
Abraham et al. Designing optimal neuro-fuzzy architectures for intelligent control
Hurst et al. A neural learning classifier system with self-adaptive constructivism for mobile robot control
CN101893852A (zh) 一种复杂工业过程的多目标建模方法
CN113687654A (zh) 一种基于进化算法的神经网络训练方法及路径规划方法
CN113112021A (zh) 类人行为决策模型的推理算法
Grosan et al. Hybrid intelligent systems
Zhou et al. An evolutionary approach toward dynamic self-generated fuzzy inference systems
Sendari et al. Fuzzy genetic Network Programming with Reinforcement Learning for mobile robot navigation
CN110598835B (zh) 基于高斯变异遗传算法优化神经网络的小车自动寻路方法
Desouky et al. Learning in n-pursuer n-evader differential games
Figueiredo et al. Reinforcement learning/spl I. bar/hierarchical neuro-fuzzy politree model for control of autonomous agents
Cabrita et al. Single and multi-objective genetic programming design for B-spline neural networks and neuro-fuzzy systems
Sendari et al. Two-Stage Reinforcement Learning Based on Genetic Network Programming for Mobile Robot
Zhang et al. Combat Decision-Making Modeling Method Based on Genetic Neural Network
CN114912589B (zh) 一种基于全连接神经网络优化的图像识别方法
Almeida et al. Automatically searching near-optimal artificial neural networks.
Nauck Neuro-fuzzy methods
Gope et al. Optimization of Fuzzy Neural Network Using Multiobjective NSGA-II
Karray Soft computing techniques for intelligent machines
Obaid et al. Study the Neural Network Algorithms of Mathematical Numerical Optimization
Hassan et al. A multi-objective genetic type-2 fuzzy extreme learning system for the identification of nonlinear dynamic systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130130

Termination date: 20131129