CN101599137A - 自治操作条件反射自动机及在实现智能行为中的应用 - Google Patents

自治操作条件反射自动机及在实现智能行为中的应用 Download PDF

Info

Publication number
CN101599137A
CN101599137A CNA2009100892633A CN200910089263A CN101599137A CN 101599137 A CN101599137 A CN 101599137A CN A2009100892633 A CNA2009100892633 A CN A2009100892633A CN 200910089263 A CN200910089263 A CN 200910089263A CN 101599137 A CN101599137 A CN 101599137A
Authority
CN
China
Prior art keywords
aoc
state
probability
constantly
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2009100892633A
Other languages
English (en)
Inventor
阮晓钢
戴丽珍
蔡建羡
陈静
郜园园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CNA2009100892633A priority Critical patent/CN101599137A/zh
Publication of CN101599137A publication Critical patent/CN101599137A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

自治操作条件反射自动机及在实现智能行为中的应用属于仿生领域。一种自治操作条件反射自动机AOC涉及一种描述自治式自动机器的离散计算机模型,主要包括:操作集合、状态集合、“条件-操作”规则集合、可观测的状态转移,以及操作条件反射学习律,并且,定义了基于AOC状态取向值的行为熵,规定了AOC的递归运行程序。AOC的重要特征在于模拟生物的操作条件反射机制,因而具有仿生的自组织功能,包括自学习和自适应功能,可用于描述,模拟,设计各种自组织***,特别地,应将其应用于描述,模拟,设计机器人***的各种智能行为。

Description

自治操作条件反射自动机及在实现智能行为中的应用
技术领域
本发明涉及一种自动机,一种基于操作条件反射原理的仿生自动机。
背景技术
用于学习***的自动机模型在1960s就有了,并被称为学习自动机,在过去的几年里,主要是改变学习自动机的结构来满足不同的应用要求,一般是既有输入又有输出。本发明是一个基于斯金纳操作条件反射理论的自组织***,具有自学习和自适应功能。斯金纳从20世纪20年代末,便开始了动物学习的实验研究并提出两种学习形式:一种是经典式条件反射学习,用以塑造有机体的应答行为;另一种是操作式条件反射学习,用以塑造有机体的操作行为。西方学者认为,这两种反射是两种不同的联结过程:经典性条件反射是S--R的联结过程;操作性条件反射是R--S的联结过程。
近十几年,自治***的学术关注度逐年增高,与自治***相关的文献总量逐年增多。本发明是一个自治式自动机,跟非自治式自动机不同,其输出不需要外部指令的驱动,是自动机根据自身的需要而作出的。相关的专利如:申请号为98115560.X,名称为顾客操作型自动机的画面生成方法及顾客操作型自动机、申请号为200710071071.0名称为基于带记忆确定有限自动机的正则表达式匹配加速方法等都是将自动机跟外界环境相交来实现一定的功能。目前,自治式操作条件反射自动机还没出现过。
本发明提出了一个基于斯金纳操作条件反射理论的抽象的自组织模型,用于描述,模拟,设计各种自组织***,使其表现出自学习和自适应特性,特别地,应将其应用于描述,模拟,设计机器人***的各种智能行为。
发明内容
本发明提供了一种可用于描述,模拟,设计具有自组织(包括自学习和自适应)功能的自治操作条件反射自动机。
本发明的操作条件反射自动机是一个九元组,包括:输入符号集合,内部状态集合、内部操作集合、输出符号集合、随机“条件-操作”规则集合、状态转移单元、观测单元、状态取向单元,以及操作条件反射学习单元,并且,规定了AOC的递归运行程序。AOC的重要特征在于模拟生物的操作条件反射机制,因而具有仿生的自组织功能,包括自学习和自适应功能,可用于描述,模拟,设计各种具有交互功能的自组织***。
一个一般的有限状态自动机是一个五元组:FA={A,Z,S,f,g}。其中,A表示有限输入符号集合,S表示有限(内部)状态符号集合(s(0)∈S为初始状态),Z表示有限输出(接受状态)符号集合,f:S×A→S表示状态转移函数,g:S→Z表示输出函数。有限状态自动机FA是一个非自治***。
AOC中操作符号不等同与有限状态自动机FA中的输入符号,AOC中操作符号代表的是AOC的内部操作,而FA中输入符号代表的是外部指令,在此意义上,AOC与有限状态自动机FA似乎是不等价的。AOC中的操作符号集合Ω并不是FA中的输入符号集合,而是AOC的内部操作。FA中的输入符号集合实际上是外部可能输入的指令的集合。AOC中没有输出符号集合,自然也没有输出函数。作为自治式***,AOC需要输出符号集合和输出函数。自治***也能或也需要作用于环境或客观世界。从状态空间方程的形式看,输出是状态的组合,或状态与操作的组合,因此,可以说AOC的内部状态集合本身就是一种输出符号的集合,并且,AOC的状态是可以观测的;定义中“AOC的状态是可以观测的”是指AOC自身有感受器,能检测到自身状态的改变,并不意味着外部世界能观测到这些量;自治式自动机也需要输出,这种输出不需要外部指令的驱动,是自动机根据自身的需要而作出的。
自治式自动机跟非自治式自动机相比较,其优势在于其输出不需要外部指令的驱动,是自动机根据自身的需要而作出的某种作用于环境的行动,也就是说即使外部环境发生改变,自治式自动机仍然可以照常工作,而非自治式自动机需要改变结构模型或参数来适应外部环境的变化。非自治***总可以转化为自治***,那么总可以找到一个自治操作条件反射AOC与相应的非自治操作条件反射自动机相对应。自治操作条件反射AOC应用更为广泛。
在信息论中,熵可用作某事件不确定度的量度。信息量越大,体系结构越规则,功能越完善,熵就越小。利用熵的概念,从理论上研究信息的计量、传递、变换、存储。本发明引入操作熵的概念,证明AOC操作熵ψ(t)的收敛性,由于***自组织的过程是吸取信息的过程,是吸取负熵的过程,是消除不确定性的过程,那么也就阐明AOC的自组织特性,AOC确实具有自学习和自适应功能。
本发明提出了一种自治操作条件反射自动机,并用其来模拟斯金纳的动物实验,以证明此自动机实现了模拟操作条件反射学***衡机器人的平衡控制,说明AOC可用于设计机器人***的各种智能行为。
本发明的自动机是一个九元组的自治操作条件反射自动机:
AOC=<t,Ω,S,Γ,δ,ε,η,ψ,s0>
Figure A20091008926300071
其中
(1)AOC的离散时间:t∈{0,1,2,…,nt},t=0为AOC的起始时刻;
(2)AOC的操作符号集合:Ω={αk|k=1,2,…,nΩ},αk为AOC的第k个操作符号;
(3)AOC的状态集合:S={si|i=0,1,2,…,nS},si为AOC的第i个状态;
(4)AOC的操作规则集合:Γ={rik(p)|p∈P;i∈{0,1,2,…,nS};k∈{0,1,2,…,nΩ}},随机“条件-操作”规则rik(p):si→αk(p)意味着AOC在其状态处于si∈S的条件下依概率p∈P实施操作αk∈Ω,p=pik=p(αk|si)即AOC在状态处于si的条件下实施操作αk的概率值,P表示pik的集合;
(5)AOC的状态转移函数:δ:S(t)×Ω(t)→S(t+1),AOC t+1时刻的状态s(t+1)∈S由t时刻的状态s(t)∈S和t时刻的操作α(t)∈Ω确定,与其t时刻之前的状态和操作无关;δ所确定的状态转移过程是已知的或未知的,但其状态转移的结果是能够观测的;
(6)AOC的取向函数:ε:S→E={εi|i=0,1,2,…,nS},εi=ε(si)∈E为状态si∈S的取向值;
(7)AOC的操作条件反射学习律:
Figure A20091008926300072
调节操作规则rik(p)∈Γ的实施概率p∈P:假设t时刻的状态为s(t),实施操作α(t)∈Ω,t+1时刻观测到的状态s(t+1),按照斯金纳的操作条件反射理论,如果ε(s(t+1))-ε(s(t))<0则p(α(t)|s(t))倾向于减小,反之,如果ε(s(t+1))-ε(s(t))>0则p(α(t)|s(t))倾向于增大。在t时刻自治操作条件反射自动机AOC处于状态s(t)=si并且当前选择操作α(t)=αk,同时依状态转移转移函数,下一时刻的状态s(t+1)=sj,模拟生物的操作条件反射机制,那么下一时刻即t+1时刻当前操作的概率将发生改变,它的值在原来的基础上增加Δ,这里Δ与取向值ε有关,取向值越大表明操作的结果越好,同时Δ越大,t+1时刻其余操作的概率都相应地减去一个值,并且减去的值的和正好是Δ,相应操作减去的值正好是上一时刻该操作的概率占这些操作(不包括t时刻被选中的操作)之和的比例乘以Δ。这样保证了每个时刻选择各个操作的概率之和都是1。更形式化地用公式描述为:当s(t)=si、α(t)=αk并且s(t+1)=sj时,那么pik(t+1)=pik(t)+Δ,其它操作的概率表示为piu(t+1)=piu(t)-Δξ,这里u表示0到nΩ之间不等于k的任何一个数值。其中,pik(t)是AOC状态处于si∈S的条件下实施操作αk∈Ω的概率在t时刻的值;pik(t+1)是AOC状态处于si∈S的条件下实施操作αk∈Ω的概率在t+1时刻的值;
Figure A20091008926300081
并且0≤pik+Δ≤1; &epsiv; &RightArrow; ij = &epsiv; ( s j ) - &epsiv; ( s i ) 即取向值的增量;
Figure A20091008926300083
是单调增函数,满足当且仅当x=0;a是学习率; &xi; = p iu ( t ) / &Sigma; v &NotEqual; k p iv ( t ) , 这里v表示0到nΩ之间不等于k的所有数值,
Figure A20091008926300086
表示AOC状态处于si∈S的条件下实施操作αu∈Ω的概率之和在t时刻的值;piu(t)是AOC状态处于si∈S的条件下实施操作αu∈Ω的概率在t时刻的值,piu(t+1)是AOC状态处于si∈S的条件下实施操作αu∈Ω的概率在t+1时刻的值。
(8)AOC的操作熵:ψ:P×E→R+,R+是正的实数集,AOC在t时刻的操作熵ψ(t)表示t时刻状态处于si条件下的操作熵之和:
&psi; ( t ) = &psi; ( &Omega; ( t ) | S ) = &Sigma; i = 0 n S p i &psi; i ( t ) = &Sigma; i = 0 n S p ( s i ) &psi; i ( &Omega; ( t ) | s i )
它由t时刻处于状态s(t)=si条件下的操作概率集合和取向函数集合决定。ψi(t)是AOC处于状态si条件下的操作熵:
&psi; i ( t ) = &psi; i ( &Omega; ( t ) | s i ) = - &Sigma; k = 1 n &Omega; p ik log 2 p ik = - &Sigma; k = 1 n &Omega; p ( &alpha; k | s i ) log 2 p ( &alpha; k | s i )
知道每个状态下的操作熵并加权求和就可以得出AOC在t时刻的操作熵
&psi; ( t ) = - &Sigma; i = 0 n S p i &Sigma; k = 1 n &Omega; p ik log 2 p ik = - &Sigma; i = 0 n S p ( s i ) &Sigma; k = 1 n &Omega; p ( &alpha; k | s i ) log 2 p ( &alpha; k | s i ) . 如果AOC的操作熵ψ(t)越来越小并且在t→∞时趋向于最小,那么就说明AOC操作熵ψ(t)是收敛的。AOC是一个基于斯金纳操作条件反射理论的自组织***,具有自学习和自适应功能。***自组织的过程是吸取信息的过程,是吸取负熵的过程,是消除不确定性的过程。为了阐明AOC的自组织特性,我们需要证明AOC操作熵ψ(t)的收敛性。
(9)AOC的起始状态:s0=s(0)∈S。
本发明的重要特征在于模拟生物的操作条件反射机制,因而具有仿生的自组织功能,包括自学习和自适应功能,可用于描述,模拟,设计各种自组织的***。
本发明中的自治操作条件反射自动机AOC依下述程序步骤递归地运行:
(1)初始化:设置t=0,随机给定AOC的初始状态s(0),给定学习率a,给定初始操作概率pik(0)=1/nΩ(i=0,1,2,…,nS;k=1,2,…,nΩ);给定停机时间Tf
(2)选择操作:依操作集合Γ中“条件-操作”规则集合Γ中的规则rik(p):si→αk(p),即AOC在其状态处于si∈S的条件下依概率p∈P实施操作αk∈Ω,p=pik=p(αk|si)是AOC在其状态处于si的条件下实施操作αk的概率值,随机地选择AOC状态处于s(t)∈S的操作α(t)∈Ω;
(3)实施操作:t时刻,AOC处于状态s(t)∈S实施上一步已选中的操作α(t)∈Ω,当前状态发生转移δ(s(t),α(t))=δ(si,αk);
(4)观测状态:依AOC的状态转移函数:δ:S(t)×Ω(t)→S(t+1),状态转移的结果是完全能够观测的,即存在j∈{0,1,2,…,nS}使得s(t+1)=sj
(5)操作条件反射:在t时刻实施操作,不仅AOC的状态发生转移,它的各个操作在下一时刻的实施概率也发生改变,则依操作条件反射学习律
Figure A20091008926300091
调节操作规则rik(p)∈Γ的实施概率p∈P。t时刻s(t)=si且α(t)=αk,那么t+1时刻的操作概率依
进行更新。其中,并且0≤pik+Δ≤1; &epsiv; &RightArrow; ij = &epsiv; ( s j ) - &epsiv; ( s i ) 即取向值的增量;a是学习率; &xi; = p iu ( t ) / &Sigma; v &NotEqual; k p iv ( t ) ;
(6)计算操作熵:根据定义的操作熵的公式
&psi; ( t ) = - &Sigma; i = 0 n S p i &Sigma; k = 1 n &Omega; p ik log 2 p ik = - &Sigma; i = 0 n S p ( s i ) &Sigma; k = 1 n &Omega; p ( &alpha; k | s i ) log 2 p ( &alpha; k | s i ) . 计算t时刻的操作熵,其中,p(si)是AOC状态si∈S的出现概率在t时刻的值,p(αk|si)是AOC状态处于si∈S的条件下实施操作αk∈Ω的概率在t时刻的值。
(7)递归转移:如果t+1≤Tf,那么t=t+1并重复(2)-(7);
(8)当t+1>Tf时停机。
本发明方法的流程图见图2。
附图说明
附图1,本发明中自治操作条件反射自动机的结构示意图;
t是离散时刻(1),Ω是操作αk(k=1,2,…,nΩ)的集合(2),S是状态si(i=0,1,2,…,nS)的集合(3),δ是状态转移函数(4),Γ是“条件-操作”规则rik(i∈{0,1,2,…,nS};k∈{1,2,…,nΩ})的集合(5),ε是取向函数(6),η是条件反射学习律(7),ψ是行为熵(8),s0是初始状态(9)。
附图2,自治操作条件反射自动机AOC程序流程图;
附图3,小白鼠的操作行为概率曲线;
附图4,小白鼠实验的操作熵曲线;
附图5,机器鸽的操作行为概率曲线;
附图6,机器鸽实验的操作熵曲线;
附图7,两轮自平衡机器人在直立状态即偏角θ=0°时的各操作行为概率曲线;
附图8,两轮自平衡机器人在偏角0°<θ<12°时的各操作行为概率曲线;
附图9,两轮自平衡机器人在偏角θ=12°时的各操作行为概率曲线;
附图10,两轮自平衡机器人在偏角-12°<θ<0°时的各操作行为概率曲线;
附图11,两轮自平衡机器人在偏角θ=-12°时的各操作行为概率曲线;
附图12,两轮自平衡机器人实验的操作熵曲线;
实施例
实施例一:一个最小***一具有学习能力的小白鼠,模拟斯金纳的小白鼠实验。简要地描述一下斯金纳的小白鼠实验:斯金纳箱内放进一只白鼠子,并设一杠杆,箱子的构造尽可能排除一切外部刺激。小白鼠在箱内可自由活动,当它压杠杆时,就会有一团食物掉进箱子下方的盘中,小白鼠就能吃到食物。箱外有一装置记录动物的动作。小白鼠会学会来不停地压杠杆,通过自己的动作获得食物奖励。本实验通过自治操作条件反射自动机来实现斯金纳的小白鼠实验。小白鼠有两个操作行为一个是压杠杆α1,另一个是不压杠杆α2,即操作集合Ω={α1,α2},概率分别用p1、p2表示。其状态集合S={s0,s1},s0表示饥饿状态,s1表示非饥饿状态。其操作规则:Γ={rik(p)|p∈P;i∈{0,1};k∈{0,1}},随机“条件-操作”规则rik(p):si→αk(p)意味着AOC在其状态处于si∈S的条件下依概率p∈P实施操作αk∈Ω,p=pik=p(αk|si)即AOC在状态处于si的条件下实施操作αk的概率值。其状态转移函数:δ:S(t)×Ω(t)→S(t+1),具体情况是:
s0×p1→s1,s0×p2→s0,s1×p1→s1,s1×p2→s0。其取向函数:ε:S→E={εi|i=0,1},εi=ε(si)∈E为状态si∈S的取向值,同时定义 &Delta; = a &times; &epsiv; &RightArrow; ij &times; ( 1 - p 1 ) . 其中a是学习率,
Figure A20091008926300102
是取向值的增量。初始时刻两个行为的概率都是0.5,只要小白鼠压杠杆就能获得奖赏,同时压杠杆的概率也增加即下一时刻小白鼠选择压杠杆的可能性增加,其概率依操作条件反射学习律
Figure A20091008926300103
更新,经过反复不断地学习,小白鼠选择压杠杆的概率p1越来越大。本实验的学习率a=0.01,经过668步的学习之后,小白鼠学会压杠杆获取食物,从附图3可以容易看出,小白鼠压杠杆的概率p1最终趋向于1。在实验的过程中,根据定义的操作熵的公式 &psi; ( t ) = - &Sigma; i = 0 n S p i &Sigma; k = 1 n &Omega; p ik log 2 p ik = - &Sigma; i = 0 n S p ( s i ) &Sigma; k = 1 n &Omega; p ( &alpha; k | s i ) log 2 p ( &alpha; k | s i ) 计算出了每个时刻的操作熵,随着时间的推移AOC的操作熵ψ(t)越来越小并且在t→∞时趋向于最小,见附图4,那么说明AOC操作熵ψ(t)是收敛的。AOC是一个基于斯金纳操作条件反射理论的自组织***,具有自学习和自适应功能。***自组织的过程是吸取信息的过程,是吸取负熵的过程,是消除不确定性的过程。既然已经证明了AOC操作熵ψ(t)的收敛性,那么也就阐明了AOC的自组织特性。
该实验的具体实施步骤如下:
(1)初始化:设置t=0,随机给定AOC的初始状态s(0),给定学习率a=0.01,给定初始操作概率pik(0)=0.5(i=0,1;k=1,2};给定停机时间Tf=1000;
(2)选择操作:依操作集合Γ中“条件-操作”规则集合Γ中的规则Γ={rik(p)|p∈P;i∈{0,1};k∈{1,2}},随机“条件-操作”规则rik(p):si→αk(p),即AOC在其状态处于si∈S的条件下依概率p∈P实施操作αk∈Ω,p=pik=p(αk|si)是AOC在0状态处于si的条件下实施操作αk的概率值,随机地选择AOC状态处于s(t)∈S的操作α(t)∈Ω;
(3)实施操作:t时刻,AOC处于状态s(t)∈S实施上一步已选中的操作α(t)∈Ω,当前状态依δ:S(t)×Ω(t)→S(t+1),具体情况是:
s0×p1→s1,s0×p2→s0,s1×p1→s1,s1×p2→s0发生转移;
(4)观测状态:依AOC的状态转移函数:δ:S(t)×Ω(t)→S(t+1),状态转移过程虽然是已知或未知的,但其状态转移的结果是完全能观测的,即存在j∈{0,1}使得s(t+1)=sj
(5)操作条件反射:在t时刻实施操作,不仅AOC的状态发生转移,它的各个操作在下一时刻的实施概率也发生改变,则依操作条件反射学习律
Figure A20091008926300112
调节操作规则rik(p)∈Γ的实施概率p∈P。t时刻s(t)=si且α(t)=αk,那么t+1时刻的操作概率依
Figure A20091008926300113
进行更新。其中,
Figure A20091008926300114
并且0≤pik+Δ≤1; &epsiv; &RightArrow; ij = &epsiv; ( s j ) - &epsiv; ( s i ) 即取向值的增量;a是学习率; &xi; = p iu ( t ) / &Sigma; v &NotEqual; k p iv ( t ) ;
(6)计算操作熵:根据定义的操作熵的公式
&psi; ( t ) = - &Sigma; i = 0 n S p i &Sigma; k = 1 n &Omega; p ik log 2 p ik = - &Sigma; i = 0 n S p ( s i ) &Sigma; k = 1 n &Omega; p ( &alpha; k | s i ) log 2 p ( &alpha; k | s i ) . 计算t时刻的操作熵,其中,p(si)是AOC状态si∈S的出现概率在t时刻的值,p(αk|si)是AOC状态处于si∈S的条件下实施操作αk∈Ω的概率在t时刻的值。
(7)递归转移:如果t+1≤Tf,那么t=t+1并重复(2)-(7);
(8)当t+1>Tf时停机。
实施例二:具有学习能力的机器鸽,模拟斯金纳的鸽子实验。本实验中机器鸽啄红色按钮时得到食物(正强化刺激),啄黄色按钮时无任何刺激,啄蓝色按钮时给予电击(负强化刺激),开始时鸽子啄红,黄和蓝三个按钮是随机的。一段时间之后,鸽子啄取红色按钮的次数明显高于啄取其它两个按钮的次数。为机器鸽定义一个3操作3状态的自治操作条件反射自动机,其操作集合Ω={α0,α1,α2},其元素分别是啄红色按钮α0、啄黄色按钮α1和啄蓝色按钮α2,概率分别用p0、p1、p2表示。状态集合S={s0,s1,s2},即零饥饿状态(非饥饿状态)s0、半饥饿状态s1、饥饿状态s2,状态转移规则为:
δ(s0×α0)=s0  δ(s0×α1)=s1  δ(s0×α2)=s1
δ(s1×α0)=s0  δ(s1×α1)=s2  δ(s1×α2)=s2
δ(s2×α0)=s1  δ(s2×α1)=s2  δ(s2×α2)=s2
以表格形式表示出来如下表1。其取向函数:ε:S→E={εi|i=0,±0.5,±1},εi=ε(si)∈E为状态si∈S的取向值,同时定义 &Delta; = a &times; &epsiv; &RightArrow; ij &times; ( 1 - p 0 ) . 其取向性:s0→s0:零取向 ( &epsiv; &RightArrow; 00 = 0 ) ; s0→s1:零取向 ( &epsiv; &RightArrow; 01 = 0 ) ; s1→s0:正取向 ( &epsiv; &RightArrow; 10 = 0.5 ) ; s1→s2:负取向 ( &epsiv; &RightArrow; 12 = - 0.5 ) ; s2→s1:正取向 ( &epsiv; &RightArrow; 21 = 1.0 ) ; s2→s2:负取向 ( &epsiv; &RightArrow; 22 = - 1.0 ) . 依操作条件反射学习律
Figure A20091008926300128
当前操作受到奖赏 ( &epsiv; &RightArrow; ij > 0 ) 时对应的实施概率倾向于增加,其他操作的实施概率相应减小;当前操作受到奖赏 ( &epsiv; &RightArrow; ij = 0 ) 时所有操作的概率都不变;当前操作受到奖赏 ( &epsiv; &RightArrow; ij < 0 ) 时对应的实施概率倾向于减小,其他操作的实施概率相应增加。各个操作的初始概率都是1/3,经过大概5000步的学习,机器鸽基本只啄红色按钮,不啄红色按钮和蓝色按钮,从附图5可以看出机器鸽啄红色按钮的概率p0趋向于1,啄黄色按钮的概率p1和蓝色按钮的概率p2都趋向于0。
表1机器鸽的状态转移
Figure A20091008926300131
在实验的过程中,每个时刻都根据定义的操作熵的公式
&psi; ( t ) = - &Sigma; i = 0 n S p i &Sigma; k = 1 n &Omega; p ik log 2 p ik = - &Sigma; i = 0 n S p ( s i ) &Sigma; k = 1 n &Omega; p ( &alpha; k | s i ) log 2 p ( &alpha; k | s i ) 计算出了操作熵,随着时间的推移AOC的操作熵ψ(t)越来越小并且在t→∞时趋向于最小,见附图6,那么说明AOC操作熵ψ(t)是收敛的。AOC是一个基于斯金纳操作条件反射理论的自组织***,具有自学习和自适应功能。***自组织的过程是吸取信息的过程,是吸取负熵的过程,是消除不确定性的过程。既然已经证明了AOC操作熵ψ(t)的收敛性,那么也就阐明了AOC的自组织特性。
该实验的具体实施步骤如下:
(1)初始化:设置t=0,随机给定AOC的初始状态s(0),给定学习率a=0.01,给定初始操作概率pik(0)=1/3(i=0,1,2;k=0,1,2);给定停机时间Tf=5000;
(2)选择操作:依操作集合Γ中“条件-操作”规则集合
Γ={rik(p)|p∈P;i∈{0,1,2};k∈{0,1,2}},随机“条件-操作”的规则rik(p):si→αk(p),即AOC在其状态处于si∈S的条件下依概率p∈P实施操作αk∈Ω,p=pik=p(αk|si)是AOC在其状态处于si的条件下实施操作αk的概率值,随机地选择AOC状态处于s(t)∈S的操作α(t)∈Ω;
(3)实施操作:t时刻,AOC处于状态s(t)∈S实施上一步已选中的操作α(t)∈Ω,当前状态δ:S(t)×Ω(t)→S(t+1)发生转移,具体情况是:
δ(s0×α0)=s0  δ(s0×α1)=s1  δ(s0×α2)=s1
δ(s1×α0)=s0  δ(s1×α1)=s2  δ(s1×α2)=s2
δ(s2×α0)=s1  δ(s2×α1)=s2  δ(s2×α2)=s2
(4)观测状态:依AOC的状态转移函数:δ:S(t)×Ω(t)→S(t+1),状态转移过程虽然是已知或未知的,但其状态转移的结果是完全可以观测的,即存在
j∈{0,1,2}使得s(t+1)=sj
(5)操作条件反射:在t时刻实施操作,不仅AOC的状态发生转移,它的各个操作在下一时刻的实施概率也发生改变,则依操作条件反射学习律调节操作规则rik(p)∈Γ的实施概率p∈P。t时刻s(t)=si且α(t)=αk,那么t+1时刻的操作概率依
Figure A20091008926300142
进行更新。其中,
Figure A20091008926300143
并且0≤pik+Δ≤1; &epsiv; &RightArrow; ij = &epsiv; ( s j ) - &epsiv; ( s i ) 即取向值的增量;a是学习率; &xi; = p iu ( t ) / &Sigma; v &NotEqual; k p iv ( t ) ;
(6)计算操作熵:根据定义的操作熵的公式
&psi; ( t ) = - &Sigma; i = 0 n S p i &Sigma; k = 1 n &Omega; p ik log 2 p ik = - &Sigma; i = 0 n S p ( s i ) &Sigma; k = 1 n &Omega; p ( &alpha; k | s i ) log 2 p ( &alpha; k | s i ) . 计算t时刻的操作熵,其中,p(si)是AOC状态si∈S的出现概率在t时刻的值,p(αk|sk)是AOC状态处于si∈S的条件下实施操作αk∈Ω的概率在t时刻的值。
(7)递归转移:如果t+1≤Tf,那么t=t+1并重复(2)-(7);
(8)当t+1>Tf时停机。
实施例三:通过自治操作条件反射自动机实现两轮自平衡机器人的平衡控制。两轮直立式机器人可以自由地在平地上左右移动。当偏角超出±12°机器人会失去平衡。为此设计的AOC自动机的状态集合就是机器人偏角,包括6个状态:θ=0°、0°<θ<12°、θ=12°、-12°<θ<0°、θ=-12°、|θ|>12°,分别用s0、s1、s2、s3、s4、s5、s6来表示,因此,状态集合S={s0,s1,s2,s2,s3,s4,s5,s6,}。其操作集合Ω={α0,α1,α2},包括不移动α0、向右移动α1、向左移动α2。其状态转移规则如下:
δ(s0×α0)=s0  δ(s0×α1)=s3  δ(s0×α2)=s1
δ(s1×α0)=s2  δ(s1×α1)=s0  δ(s1×α2)=s2
δ(s2×α0)=s5  δ(s2×α1)=s1  δ(s2×α2)=s5
δ(s3×α0)=s4  δ(s3×α1)=s4  δ(s3×α2)=s0
δ(s4×α0)=s5  δ(s4×α1)=s5  δ(s4×α2)=s3
见表2。其取向函数:ε:S→E={εi|i=0,±0.5,±1},εi=ε(si)∈E为状态si∈S的取向值,同时 &Delta; = a &times; &epsiv; &RightArrow; ij &times; ( 1 - p ik ) . 其取向性:s0→s0:正取向 ( &epsiv; &RightArrow; 00 = 0 ) ; s0→s3:零取向 ( &epsiv; &RightArrow; 03 = 0 ) ; s0→s1:零取向 ( &epsiv; &RightArrow; 01 = 0 ) ; s1→s0:正取向 ( &epsiv; &RightArrow; 10 = 1.0 ) ; s1→s2:负取向 ( &epsiv; &RightArrow; 12 = - 0.5 ) ; s2→s1:正取向 ( &epsiv; &RightArrow; 21 = 1.0 ) ; s2→s5:负取向 ( &epsiv; &RightArrow; 25 = - 1.0 ) ; s3→s4:负取向 ( &epsiv; &RightArrow; 34 = - 0.5 ) ; s3→s0:正取向 ( &epsiv; &RightArrow; 30 = 1.0 ) ; s4→s5:负取向 ( &epsiv; &RightArrow; 45 = - 1.0 ) ; s4→s3:正取向 ( &epsiv; &RightArrow; 43 = 1.0 ) . 其中pik表示机器人处于状态si下实施操作ak的概率。依操作条件反射学***衡,在前5种状态下它一般都能选择好的操作让θ趋向于0°,从附图7-11可以看出。在实验的过程中,每个时刻都根据定义的操作熵的公式
&psi; ( t ) = - &Sigma; i = 0 n S p i &Sigma; k = 1 n &Omega; p ik log 2 p ik = - &Sigma; i = 0 n S p ( s i ) &Sigma; k = 1 n &Omega; p ( &alpha; k | s i ) log 2 p ( &alpha; k | s i ) 计算出了操作熵,随着时间的推移AOC的操作熵ψ(t)越来越小并且在t→∞时趋向于最小,见附图12,那么说明AOC操作熵ψ(t)是收敛的。AOC是一个基于斯金纳操作条件反射理论的自组织***,具有自学习和自适应功能。***自组织的过程是吸取信息的过程,是吸取负熵的过程,是消除不确定性的过程。既然已经证明了AOC操作熵ψ(t)的收敛性,那么也就阐明了AOC的自组织特性。
表2两轮自平衡机器人的状态转移和取向机制
Figure A20091008926300153
该实验的具体实施步骤如下:
(1)初始化:设置t=0,随机给定AOC的初始状态s(0),给定学习率a=0.01,给定初始操作概率pik(0)=1/3(i=0,1,2;k=0,1,2);给定停机时间Tf=1500;
(2)选择操作:依操作集合Γ中“条件-操作”规则
Γ={rik(p)|p∈P;i∈{0,1,2,3,4};k∈{0,1,2}},随机“条件-操作”的规则rik(p):si→αk(p),即AOC在其状态处于si∈S的条件下依概率p∈P实施操作αk∈Ω,p=pik=p(αk|si)是AOC在其状态处于si的条件下实施操作αk的概率值,随机地选择AOC状态处于s(t)∈S的操作α(t)∈Ω;
(3)实施操作:t时刻,AOC处于状态s(t)∈S实施上一步已选中的操作α(t)∈Ω,当前状态δ:S(t)×Ω(t)→S(t+1),具体情况是:
δ(s0×α0)=s0  δ(s0×α1)=s3  δ(s0×α2)=s1
δ(s1×α0)=s2  δ(s1×α1)=s0  δ(s1×α2)=s2
δ(s2×α0)=s5  δ(s2×α1)=s1  δ(s2×α2)=s5
δ(s3×α0)=s4  δ(s3×α1)=s4  δ(s3×α2)=s0
δ(s4×α0)=s5  δ(s4×α1)=s5  δ(s4×α2)=s3
发生转移;
(4)观测状态:依AOC的状态转移函数:δ:S(t)×Ω(t)→S(t+1),状态转移过程虽然是已知或未知的,但其状态转移的结果是完全可以观测的,即存在
j∈{0,1,2,3,4}使得s(t+1)=sj
(5)操作条件反射:在t时刻实施操作,不仅AOC的状态发生转移,它的各个操作在下一时刻的实施概率也发生改变,则依操作条件反射学习律调节操作规则rik(p)∈Γ的实施概率p∈P。t时刻s(t)=si且α(t)=αk,那么t+1时刻的操作概率依
Figure A20091008926300162
进行更新。其中,
Figure A20091008926300163
并且0≤pik+Δ≤1; &epsiv; &RightArrow; ij = &epsiv; ( s j ) - &epsiv; ( s i ) 即取向值的增量;a是学习率; &xi; = p iu ( t ) / &Sigma; v &NotEqual; k p iv ( t ) ; 这里每种状态下的最优操作是不一样的,所以得算出每种状态下的不同操作对应的概率,一共有15个概率。
(6)计算操作熵:根据定义的操作熵的公式
&psi; ( t ) = - &Sigma; i = 0 n S p i &Sigma; k = 1 n &Omega; p ik log 2 p ik = - &Sigma; i = 0 n S p ( s i ) &Sigma; k = 1 n &Omega; p ( &alpha; k | s i ) log 2 p ( &alpha; k | s i ) . 计算t时刻的操作熵,其中,p(si)是AOC状态si∈S的出现概率在t时刻的值,p(αk|si)是AOC状态处于si∈S的条件下实施操作αk∈Ω的概率在t时刻的值。
(7)递归转移:如果t+1≤Tf,那么t=t+1并重复(2)-(7);
(8)当t+1>Tf时停机。

Claims (2)

1、一种自治操作条件反射自动机,以下简称AOC是一个九元组:
AOC = < t , &Omega; , S , &Gamma; , &delta; , &epsiv; , &eta; , &psi; , s 0 >
Figure A2009100892630002C2
其中
(1)AOC的离散时间:t∈{0,1,2,…,nt},t=0为AOC的起始时刻;
(2)AOC的操作符号集合:Ω={αk|k=1,2,…,nΩ},αk为AOC的第k个操作符号;
(3)AOC的状态集合:S={si|i=0,1,2,…,nS},si为AOC的第i个状态;
(4)AOC的操作规则集合:Γ={rik(p)|p∈P;i∈{0,1,2,…,nS};k∈{0,1,2,…,nΩ}},随机“条件-操作”规则rik(p):si→αk(p)意味着AOC在其状态处于si∈S的条件下依概率p∈P实施操作αk∈Ω,p=pik=p(αk|si)即AOC在状态处于si的条件下实施操作αk的概率值,P表示pik的集合;
(5)AOC的状态转移函数:δ:S(t)×Ω(t)→S(t+1),AOC t+1时刻的状态s(t+1)∈S由t时刻的状态s(t)∈S和t时刻的操作α(t)∈Ω确定,与其t时刻之前的状态和操作无关;δ所确定的状态转移过程是已知的或未知的,但其状态转移的结果是能够观测的;
(6)AOC的取向函数:ε:S→E={εi|i=0,1,2,…,nS},εi=ε(si)∈E为状态si∈S的取向值;
(7)AOC的操作条件反射学习律:
Figure A2009100892630002C3
模拟生物的操作条件反射机制,调节操作规则rik(p)∈Γ的实施概率,假设t时刻的状态为s(t)=si,实施操作α(t)=αk∈Ω,t+1时刻观测到的状态s(t+1)=sj,那么t+1时刻的操作概率依
Figure A2009100892630002C4
进行更新;这里其中,pik(t)是AOC状态处于si∈S的条件下实施操作αk∈Ω的概率在t时刻的值;pik(t+1)是AOC状态处于si∈S的条件下实施操作αk∈Ω的概率在t+1时刻的值;并且0≤pik+Δ≤1; &epsiv; &RightArrow; ij = &epsiv; ( s j ) - &epsiv; ( s i ) 即取向值的增量;
Figure A2009100892630002C7
是单调增函数,满足
Figure A2009100892630002C8
当且仅当x=0;a是学习率; &xi; = p iu ( t ) / &Sigma; v &NotEqual; k p iv ( t ) , 这里u表示0到nΩ之间不等于k的任何一个数值,
Figure A2009100892630003C1
表示AOC状态处于si∈S的条件下实施操作αu∈Ω的概率之和在t时刻的值,v表示0到nΩ之间不等于k的所有数值;piu(t)是AOC状态处于si∈S的条件下实施操作αu∈Ω的概率在t时刻的值,piu(t+1)是AOC状态处于si∈S的条件下实施操作αu∈Ω的概率在t+1时刻的值;
(8)AOC的操作熵:ψ:P×E→R+,R+是正的实数集,AOC在t时刻的操作熵ψ(t)表示t时刻状态处于si条件下的操作熵之和:
&psi; ( t ) = &psi; ( &Omega; ( t ) | S ) = &Sigma; i = 0 n S p i &psi; i ( t ) = &Sigma; i = 0 n S p ( s i ) &psi; i ( &Omega; ( t ) | s i )
它由t时刻处于状态s(t)=si条件下的操作概率集合和取向函数集合决定;ψi(t)是AOC处于状态si条件下的操作熵:
&psi; i ( t ) = &psi; i ( &Omega; ( t ) | s i ) = - &Sigma; k = 1 n &Omega; p ik log 2 p ik = - &Sigma; k = 1 n &Omega; p ( &alpha; k | s i ) log 2 p ( &alpha; k | s i )
知道每个状态下的操作熵并加权求和就可以得出AOC在t时刻的操作熵 &psi; ( t ) = - &Sigma; i = 0 n S p i &Sigma; k = 1 n &Omega; p ik log 2 p ik = - &Sigma; i = 0 n S p ( s i ) &Sigma; k = 1 n &Omega; p ( &alpha; k | s i ) log 2 p ( &alpha; k | s i ) ; 其中,p(si)是AOC状态si∈S的出现概率在t时刻的值,p(αk|si)是AOC状态处于si∈S的条件下实施操作αk∈Ω的概率在t时刻的值;
(9)AOC的起始状态:s0=s(0)∈S。
2、根据权利要求1所述的自治操作条件反射自动机AOC,其特征是它依下述程序步骤递归地运行:
(1)初始化:设置t=0,随机给定AOC的初始状态s(0),给定学习率a,给定初始操作概率pik(0)=1/nΩ(i=0,1,2,…,nS;k=1,2,…,nΩ);给定停机时间Tf
(2)选择操作:依操作集合Γ中“条件-操作”规则集合Γ中的规则rik(p):si→αk(p),即AOC在其状态处于si∈S的条件下依概率p∈P实施操作αk∈Ω,p=pik=p(αk|si)是AOC在其状态处于si的条件下实施操作αk的概率值,随机地选择AOC状态处于s(t)∈S的操作α(t)∈Ω;
(3)实施操作:t时刻,AOC处于状态s(t)∈S实施上一步已选中的操作α(t)∈Ω,当前状态发生转移δ(s(t),α(t))=δ(si,αk);
(4)观测状态:依AOC的状态转移函数:δ:S(t)×Ω(t)→S(t+1),状态转移的结果是完全能够观测的,即存在j∈{0,1,2,…,nS}使得s(t+1)=sj
(5)操作条件反射:在t时刻实施操作,不仅AOC的状态发生转移,它的各个操作在下一时刻的实施概率也发生改变,则依操作条件反射学习律
Figure A2009100892630004C1
调节操作规则rik(p)∈Γ的实施概率p∈P;t时刻s(t)=si且α(t)=αk,那么t+1时刻的操作概率依
进行更新;其中,
Figure A2009100892630004C3
并且0≤pik+Δ≤1; &epsiv; &RightArrow; ij = &epsiv; ( s j ) - &epsiv; ( s i ) 即取向值的增量;a是学习率; &xi; = p iu ( t ) / &Sigma; v &NotEqual; k p iv ( t ) ;
(6)计算操作熵:根据定义的操作熵的公式 &psi; ( t ) = - &Sigma; i = 0 n S p i &Sigma; k = 1 n &Omega; p ik log 2 p ik = - &Sigma; i = 0 n S p ( s i ) &Sigma; k = 1 n &Omega; p ( &alpha; k | s i ) log 2 p ( &alpha; k | s i ) ; 计算t时刻的操作熵,其中,p(si)是AOC状态si∈S的出现概率在t时刻的值,p(αk|si)是AOC状态处于si∈S的条件下实施操作αk∈Ω的概率在t时刻的值;
(7)递归转移:如果t+1≤Tf,那么t=t+1并重复(2)-(7);
(8)当t+1>Tf时停机。
CNA2009100892633A 2009-07-15 2009-07-15 自治操作条件反射自动机及在实现智能行为中的应用 Pending CN101599137A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2009100892633A CN101599137A (zh) 2009-07-15 2009-07-15 自治操作条件反射自动机及在实现智能行为中的应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2009100892633A CN101599137A (zh) 2009-07-15 2009-07-15 自治操作条件反射自动机及在实现智能行为中的应用

Publications (1)

Publication Number Publication Date
CN101599137A true CN101599137A (zh) 2009-12-09

Family

ID=41420574

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2009100892633A Pending CN101599137A (zh) 2009-07-15 2009-07-15 自治操作条件反射自动机及在实现智能行为中的应用

Country Status (1)

Country Link
CN (1) CN101599137A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103792846A (zh) * 2014-02-18 2014-05-14 北京工业大学 基于Skinner操作条件反射原理的机器人避障导航方法
CN104570738A (zh) * 2014-12-30 2015-04-29 北京工业大学 基于Skinner操作条件反射自动机的机器人轨迹跟踪方法
CN104614988A (zh) * 2014-12-22 2015-05-13 北京工业大学 一种具有内发动机机制的感知运动***认知及其学习方法
CN105094124A (zh) * 2014-05-21 2015-11-25 防灾科技学院 基于操作条件反射进行自主路径探索的方法及模型
CN105205533A (zh) * 2015-09-29 2015-12-30 华北理工大学 具有脑认知机理的发育自动机及其学习方法
WO2017114130A1 (zh) * 2015-12-31 2017-07-06 深圳光启合众科技有限公司 获取机器人的状态的方法和装置
CN108846477A (zh) * 2018-06-28 2018-11-20 上海浦东发展银行股份有限公司***中心 一种基于反射弧的智慧大脑决策***及决策方法
CN109212975A (zh) * 2018-11-13 2019-01-15 北方工业大学 一种具有发育机制的感知行动认知学习方法
CN111464707A (zh) * 2020-03-30 2020-07-28 中国建设银行股份有限公司 外呼处理方法、装置及***

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103792846A (zh) * 2014-02-18 2014-05-14 北京工业大学 基于Skinner操作条件反射原理的机器人避障导航方法
CN103792846B (zh) * 2014-02-18 2016-05-18 北京工业大学 基于Skinner操作条件反射原理的机器人避障导航方法
CN105094124A (zh) * 2014-05-21 2015-11-25 防灾科技学院 基于操作条件反射进行自主路径探索的方法及模型
CN104614988B (zh) * 2014-12-22 2017-04-19 北京工业大学 一种具有内发动机机制的感知运动***认知及其学习方法
CN104614988A (zh) * 2014-12-22 2015-05-13 北京工业大学 一种具有内发动机机制的感知运动***认知及其学习方法
CN104570738A (zh) * 2014-12-30 2015-04-29 北京工业大学 基于Skinner操作条件反射自动机的机器人轨迹跟踪方法
CN105205533A (zh) * 2015-09-29 2015-12-30 华北理工大学 具有脑认知机理的发育自动机及其学习方法
CN105205533B (zh) * 2015-09-29 2018-01-05 华北理工大学 具有脑认知机理的发育自动机及其学习方法
WO2017114130A1 (zh) * 2015-12-31 2017-07-06 深圳光启合众科技有限公司 获取机器人的状态的方法和装置
CN106926236A (zh) * 2015-12-31 2017-07-07 深圳光启合众科技有限公司 获取机器人的状态的方法和装置
CN106926236B (zh) * 2015-12-31 2020-06-30 深圳光启合众科技有限公司 获取机器人的状态的方法和装置
CN108846477A (zh) * 2018-06-28 2018-11-20 上海浦东发展银行股份有限公司***中心 一种基于反射弧的智慧大脑决策***及决策方法
CN108846477B (zh) * 2018-06-28 2022-06-21 上海浦东发展银行股份有限公司***中心 一种基于反射弧的智慧大脑决策***及决策方法
CN109212975A (zh) * 2018-11-13 2019-01-15 北方工业大学 一种具有发育机制的感知行动认知学习方法
CN111464707A (zh) * 2020-03-30 2020-07-28 中国建设银行股份有限公司 外呼处理方法、装置及***

Similar Documents

Publication Publication Date Title
CN101599137A (zh) 自治操作条件反射自动机及在实现智能行为中的应用
Li et al. Reinforcement learning for cyber-physical systems: with cybersecurity case studies
Rai et al. Driven by data or derived through physics? a review of hybrid physics guided machine learning techniques with cyber-physical system (cps) focus
Jia et al. Design automation for smart building systems
King et al. Making the most of statistical analyses: Improving interpretation and presentation
US10606898B2 (en) Interpreting human-robot instructions
CN103218689A (zh) 操作员状态评估的可靠性分析方法及装置
Srinivasan et al. A framework for describing functions in design
CN109993281A (zh) 一种基于深度学习的因果关系挖掘方法
Hollnagel et al. Work with technology: Some fundamental issues
Schmidt Social learning in the Anthropocene: Novel challenges, shadow networks, and ethical practices
CN101673354A (zh) 操作条件反射自动机及其在仿生自主学习控制中的应用
Thórisson Seed-programmed autonomous general learning
Diehl et al. A causal-based approach to explain, predict and prevent failures in robotic tasks
Geyer et al. Explainable AI for engineering design: A unified approach of systems engineering and component-based deep learning
Liu et al. Petri nets-based modeling solution for cyber–physical product control considering scheduling, deployment, and data-driven monitoring
CN116663416A (zh) 一种基于行为树的cgf决策行为仿真方法
Tijani et al. Towards a general framework for an observation and knowledge based model of occupant behaviour in office buildings
CN104614988A (zh) 一种具有内发动机机制的感知运动***认知及其学习方法
Yih Learning real-time scheduling rules from optimal policy of semi-Markov decision processes
CN111126706B (zh) 基于知识驱动的功能变更传播路径和工作量预测方法
El Namaki A Systems Approach to the Artificial Intelligence Concept
Carley et al. Computational organization theory: An introduction
US7512581B2 (en) Electronic circuit implementing knowledge enhanced electronic logic solutions
CN102393819A (zh) 一种基于matlab的模糊控制器hdl代码自动生成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20091209