CN110427536B - 一种类脑决策与运动控制*** - Google Patents

一种类脑决策与运动控制*** Download PDF

Info

Publication number
CN110427536B
CN110427536B CN201910738132.7A CN201910738132A CN110427536B CN 110427536 B CN110427536 B CN 110427536B CN 201910738132 A CN201910738132 A CN 201910738132A CN 110427536 B CN110427536 B CN 110427536B
Authority
CN
China
Prior art keywords
module
neuron
decision
target
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910738132.7A
Other languages
English (en)
Other versions
CN110427536A (zh
Inventor
任化龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yihai Yuan Knowledge Technology Co ltd
Original Assignee
Shenzhen Yihai Yuan Knowledge Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yihai Yuan Knowledge Technology Co ltd filed Critical Shenzhen Yihai Yuan Knowledge Technology Co ltd
Priority to CN201910738132.7A priority Critical patent/CN110427536B/zh
Publication of CN110427536A publication Critical patent/CN110427536A/zh
Priority to PCT/CN2020/108678 priority patent/WO2021027845A1/zh
Priority to GB2203448.2A priority patent/GB2605018A/en
Priority to JP2022508557A priority patent/JP7443492B2/ja
Priority to KR1020227003707A priority patent/KR20220029731A/ko
Priority to EP20852537.8A priority patent/EP4016334A4/en
Priority to US17/670,443 priority patent/US20220161421A1/en
Application granted granted Critical
Publication of CN110427536B publication Critical patent/CN110427536B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/1653Programme controls characterised by the control loop parameters identification, estimation, stiffness, accuracy, error analysis
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • B25J9/1692Calibration of manipulator
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/10Programme-controlled manipulators characterised by positioning means for manipulator elements
    • B25J9/1075Programme-controlled manipulators characterised by positioning means for manipulator elements with muscles or tendons
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/10Programme-controlled manipulators characterised by positioning means for manipulator elements
    • B25J9/14Programme-controlled manipulators characterised by positioning means for manipulator elements fluid
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33027Artificial neural network controller

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)
  • Orthopedic Medicine & Surgery (AREA)
  • Rheumatology (AREA)

Abstract

本发明公开了一种类脑决策与运动控制***,该***包括主动决策模块、自动决策模块、评价模块、记忆模块、感知模块、复合控制模块、输入通道模块、输出通道模块和受控对象模块,该***支持的三种工作模式包括主动监督模式、自动模式、反馈驱动模式,能够使机器人在和环境互动的过程中自主决策选择目标与操作并精细控制动作,以及能使机器人通过试错、模仿、示教学***衡,以及多执行元件的拮抗式控制等场景,从而有效解决了现有的机器人运动控制方案存在的一些问题。

Description

一种类脑决策与运动控制***
技术领域
本发明属于人工智能、类脑神经网络及机器人运动控制领域,具体涉及一种类脑决策与运动控制***。
背景技术
机器人手部(灵巧手)与摄像头配合操作复杂物体,以及机器人的双足、多足行走与运动平衡,是具有复杂操作能力的服务型机器人进入工业与家庭实用的两个很重要的技术环节。这一类机器人***的自由度数量往往很高,运动规划和运动控制问题非常复杂,其原因涉及诸多方面:第一,自由度数量很高的***难以用反向运动学解算运动轨迹,其运算复杂度很高而且解往往不唯一,因此机器人需要在可能的动作序列空间中选择并综合出合适的操作执行;第二,机器人需要能够在和环境互动的过程中自主决策选择一系列合适的目标与操作并根据反馈进行调整,并且决策的制定与操作的执行应与***内部状态、外部环境信息以及历史信息有机结合,机器人还应能够通过试错、模仿、示教调整既有操作或学习新的操作,以适应复杂多变的任务与环境;第三,机器人应能从动作序列中的任意子动作/元动作开始执行,还应能对各个子动作/元动作进行选择、切换、精细控制,以从任务的不同初始状态开始执行并灵活地适应***作对象的变化与干扰。
现有的技术方案包括采用复杂的数学建模(如机器人运动学与动力学解算)、采用预设的动作集合(即为各个关节的动作预先设定固定程序),以及采用改良的增强学习算法等等,但这些方案往往不能使机器人在和环境互动的过程中结合环境信息与记忆信息自主决策选择目标,并对操作(即动作序列)进行灵活地选择、综合与执行以及精细控制其中各个子动作/元动作,不能支持机器人从任务的不同初始状态开始执行并灵活地适应***作对象的变化与干扰,并且大多不易有效支持机器人自主试错学习或模仿学习来掌握新的动作和运动轨迹。因此,提供一种灵活的自主决策与运动控制***,是多自由度机器人***,尤其是机器人手部(灵巧手)与摄像头配合进行操作的***,以及多驱动器驱动的双足、多足机器人***能够走向实用的重要一环。
发明内容
有鉴于此,本发明提供了一种类脑决策与运动控制***,该***提供了主动决策模块与自动决策模块,既可以结合多模态感知信息、记忆信息和决策规则进行综合决策,也可以经验信息为主并结合较少感知信息和记忆信息进行快速决策,而且主动决策模块与自动决策模块能够形成共识,并通过评价模块从环境得到的反馈调整***对于目标与操作的预期,以及通过试错、模仿、示教学***衡,以及多执行元件的拮抗式控制等场景,从而有效解决了现有的机器人运动控制方案存在的上述问题。
为了实现上述目的,本发明采用如下技术方案:
一种类脑决策与运动控制***,所述***包括:主动决策模块、自动决策模块、评价模块、记忆模块、感知模块、复合控制模块、输入通道模块、输出通道模块和受控对象模块;
所述主动决策模块由目标集合、目标-操作-效果集合以及决策规则集合组成,通过综合多模态感知信息和记忆信息并结合决策规则主动选择目标和操作、指导复合控制模块执行精细操作,以及控制输入通道模块和输出通道模块;
所述目标集合记录出现过的各个目标及其综合价值与紧迫值,对于还没有出现过的目标,其综合价值设为默认值以表示好奇心;
所述目标-操作-效果集合记录在各个目标下可执行的操作以及在此情况下各个操作的综合效果值;
所述决策规则集合记录用户定义的决策规则与***新学习的决策规则,决策规则规定了***如何选择目标及操作;
选择目标的决策规则包括下面的一种或任几种:
1)在出现的一至多个目标中选择综合价值与紧迫值加权最大的目标;
2)在出现的一至多个目标中选择与任务最相关并且不与决策规则冲突的目标;
3)在出现的一至多个目标中选择最显著的目标;
4)交由自动决策模块自动选择目标;
5)随机选择目标;
6)选择未出现的假想目标;
7)无视出现的目标,直接进入操作选择过程;
所述主动决策模块选出目标后,则将该目标及其综合价值传给评价模块,再从目标-操作-效果集合中选择操作;
选择操作的决策规则包括下面的一种或任几种:
1)在目标-操作-效果集合中选择所选目标对应的综合效果值最大的操作;
2)试错学习并随机选择操作;
3)模仿学习并通过主动监督复合控制模块执行新动作序列;
4)不采取动作并等待;
5)交由自动决策模块自动选择操作;
6)预测学习并预演一套动作但并不实际执行,以预测其效果值;
上述各条决策规则互相配合执行;如果自动决策模块发来其选择的目标和操作,主动决策模块将其与自己选择的目标与操作进行加权形成最终决策;
主动决策模块最终决定执行某操作后,则将该操作及其综合效果值传给评价模块,再将该操作以脉冲序列信号通过主动启动控制通路和主动停止控制通路传给复合控制模块;
当收到评价模块传来目标或操作的预期误差值信号时,主动决策模块将对应目标当前的综合价值或对应操作当前的综合效果值加上预期误差值,即得到更新的综合价值或综合效果值,并分别更新至目标集合与目标-操作-效果集合中;
所述自动决策模块由目标集合与目标-操作-效果集合组成,在主动决策模块计算任务过重或***需要快速反应时根据经验以及相对少量感知信息和记忆信息自动选择目标和需要执行的操作,并及时指导复合控制模块执行操作,以及协助主动决策模块进行综合决策;
所述目标集合记录出现过的各个目标及其经验价值,对于还没有出现过的目标,其经验价值设为默认值;
所述目标-操作-效果集合记录每个目标可采取的默认操作及其经验效果值;
自动决策模块自动在当前出现的一至多个目标中选择经验价值最大的目标,并将该目标与其经验价值传给评价模块,再从目标-操作-效果集合中选择与此目标对应的各个默认操作中经验效果值最大者,并将该操作及其经验效果值传给评价模块;
自动决策模块将选择的目标与操作发给主动决策模块以形成共识,如果主动决策模块没有推迟或否决,自动决策模块随即将该操作以脉冲序列信号通过自动启动控制通路和自动停止控制通路传给复合控制模块;如果主动决策模块否决,则以其最终决策为准;如果主动决策模块与自动决策模块将各自选出的操作传给复合控制模块,则在复合控制模块将两种操作综合;
当收到评价模块传来目标或操作的预期误差值信号时,自动决策模块将对应目标当前的经验价值或对应操作当前的经验效果值加上预期误差值,即得到更新的经验价值或经验效果值,并分别更新至目标集合与目标-操作-效果集合中;
所述评价模块由缓存和评价规则集合组成,通过***内部或外部环境的反馈来评价目标的实际价值与所执行操作的实际效果值,并将预期误差值反馈给主动决策模块、自动决策模块与复合控制模块;
当主动决策模块传来某个目标及其综合价值或某个操作及其综合效果值时,评价模块将它们缓存;当***得到反馈或结果时,评价模块根据评价规则评测出目标的实际价值或操作的实际效果值,并用其减去缓存的目标的综合价值或操作的综合效果值即得到目标或操作的预期误差值,再将预期误差值传给主动决策模块以修正其存储的对应目标的综合价值或对应操作的综合效果值;
当自动决策模块传来某个目标及其经验价值或某个操作及其经验效果值时,评价模块将它们缓存;当***得到反馈或结果时,评价模块根据评价规则评测出目标的实际价值或操作的实际效果值,并用其减去缓存的目标的经验价值或操作的经验效果值即得到目标或操作的预期误差值,再将预期误差值传给自动决策模块以修正其存储的对应目标的经验价值或对应操作的经验效果值;
所述评价模块也将预期误差值传给复合控制模块以修正其编码的动作序列及其预期效果值;
所述记忆模块将***内部状态的历史信息和环境的历史信息编码并记录为记忆信息,并将记忆信息传给主动决策模块和自动决策模块以辅助决策过程,还将记忆信息传给复合控制模块以影响动作序列的选择和执行;
所述感知模块通过传感器为主动决策模块、自动决策模块、评价模块、记忆模块、复合控制模块提供感知信息,感知信息包括内部状态信息和外部环境信息,进一步包括:视频信息,音频信息,力反馈信息,温度信息,触感信息、关节角度、角速度与角加速度信息,位移、速度与加速度信息,以及姿态与平衡信息;
所述输入通道模块转换、中继、放大感知模块传来的感知信息,并分别输出至主动决策模块和复合控制模块;输入通道模块接受主动决策模块的控制信号输入以调节信号中继的放大倍数;当放大倍数越高,则***的决策和运动执行受感知信息的影响程度越高;当放大倍数越低,则***的决策和运动执行受感知信息的影响程度则越低;当放大倍数为0时,则***的决策和运动执行不受感知信息影响;
所述输出通道模块转换、中继、放大复合控制模块的输出信号,并传导至受控对象模块;输出通道模块接受主动决策模块的控制信号输入以调节信号中继的放大倍数;当放大倍数越高,则受控对象的执行强度越高;当放大倍数越低,则受控对象的执行强度越低;当放大倍数为0时,则阻止复合控制模块的输出传递给受控对象模块,动作序列在***中模拟预演而不实际执行;
所述受控对象模块,配置为由一至多个电机、液压元件、气动元件或人造肌肉执行元件组成;每个执行元件通过输出通道模块联接到一至多个基本控制单元以执行至少一种元动作;将一对执行元件分别通过输出通道模块联接到一至多个不同的基本控制单元以构成拮抗式控制;
所述复合控制模块由一至多个基本控制单元和一至多个辅助控制单元组成,用于学习、记忆、编码、精细控制、预想或执行一至多个动作序列,并协助主动决策模块在多个可能的动作序列中择优或综合执行。
进一步地,所述每个操作表示一至多个动作序列的组合;每个动作序列由一至多个元动作在时间维度排列组成;在任意时间点有零至多个元动作发生;同一个元动作在一个时间点发生或在不同的时间点发生;每个元动作表示一个对应执行元件能够执行的最小动作。
进一步地,所述基本控制单元由主动控制层、运动编码层、反向抑制层和中继层以及其中的神经元及联接关系组成,用于编码元动作以及控制元动作的启动与停止;
所述主动控制层包含2种脉冲神经元:启动神经元(IN)和停止神经元(SN);
所述运动编码层包含2种脉冲神经元:启动动作编码神经元(IAEN)和停止动作编码神经元(SAEN);
所述反向抑制层包含2种自激发式脉冲神经元:启动反向抑制神经元(IDIN)和停止反向抑制神经元(SDIN);
所述中继层包含2种自激发式脉冲神经元:启动中继神经元(IRN)和停止中继神经元(SRN)。
进一步地,所述基本控制单元根据输出联接方式分为两种子类型:输出型基本控制单元和预测型基本控制单元;
所述输出型基本控制单元的输出连接至输出通道模块以驱动执行元件;
所述预测型基本控制单元的输出连接至评价模块以预测动作序列的预期效果值而不实际执行。
进一步地,所述辅助控制单元由主动选择信号输入端、主动反向选择信号输入端、侧抑制反向抑制神经元(LDIN)、快速自激发式关断神经元(FSIN)及其与各个基本控制单元的联接组成,用于在多个备选的动作序列中主动或自动选择执行;
一至多个基本控制单元为一组,每组基本控制单元编码一个动作序列;
每个基本控制单元的启动动作编码神经元(IAEN)和停止动作编码神经元(SAEN)各自联向一个侧抑制反向抑制神经元(LDIN);
每组基本控制单元共享一至多个自激发关断神经元(FSIN);
所述侧抑制反向抑制神经元(LDIN)综合主动选择信号输入以及所属基本控制单元的运动编码层神经元的输入,产生脉冲信号并通过抑制性联接输出到其它组基本控制单元的自激发关断神经元(FSIN);
所述自激发关断神经元(FSIN)综合主动反向选择信号输入以及各个相邻组基本控制单元的侧抑制反向抑制神经元(LDIN)的输入,产生脉冲信号并通过抑制性联接输出到所属基本控制单元组的各个运动控制层神经元;
所述主动选择信号输入端接受主动决策模块的输入,以主动选择特定动作序列以备执行;
所述主动反向选择信号输入端接受主动决策模块的输入,以主动抑制特定动作序列的执行。
进一步地,所述自激发式脉冲神经元的工作模式包括:
在没有输入信号或输入信号总和为零的情况下,所述自激发式脉冲神经元仍会自动以默认频率发出脉冲信号,其默认频率的范围配置为10Hz至100Hz;
当输入信号总和为正值,所述自激发式脉冲神经元的脉冲信号发放频率则会提升,而且总和越大脉冲信号频率越高,直到预设的频率上限,反之亦然;
当输入信号总和为负值,所述自激发式脉冲神经元的脉冲信号发放频率则会降低,而且总和的绝对值越大脉冲信号频率越低,直至停止发出脉冲信号,反之亦然;
所述快速自激发式关断神经元(FSIN)的工作模式与自激发式脉冲神经元的工作模式相同,其默认频率的范围配置为20Hz至200Hz,用于快速关断下游目标神经元。
进一步地,所述主动控制层中,启动神经元(IN)接受来自主动决策模块的主动启动信号,以及中继神经元(IRN)的兴奋性联接;停止神经元(SN)接受来自主动决策模块的主动停止信号;它们分别将输入的信号综合并编码为脉冲信号输出给运动编码层对应的神经元;
所述运动编码层中,启动动作编码神经元(IAEN)接受启动神经元(IN)的兴奋性输入;停止动作编码神经元(SAEN)接受停止神经元(SN)的兴奋性输入;此外,它们还都接受来自记忆模块、感知模块、评价模块的输入;它们分别将所有输入信息进行综合,产生脉冲信号,进而调节反向抑制层相应神经元的脉冲发放频率和相位;
同一个基本控制单元内的启动动作编码神经元(IAEN)和停止动作编码神经元(SAEN)之间具有双向抑制性联接,通过突触权重编码该基本控制单元对应元动作的相对动作强度与相对持续时间;
多个基本控制单元中的启动动作编码神经元(IAEN)互相之间具有双向抑制性联接,通过突触权重编码动作序列中各个元动作执行的先后顺序;
来自不同基本控制单元中的启动动作编码神经元(IAEN)与停止动作编码神经元(SAEN)之间具有双向抑制性联接,通过突触权重编码动作序列中各个元动作的相对启动时间和相对停止时间;
所述反向抑制层中,启动反向抑制神经元(IDIN)接受启动动作编码神经元(IAEN)的抑制性输入信号、停止反向抑制神经元(SDIN)的抑制性输入信号以及停止中继神经元(SRN)的兴奋性输入信号,并将所有输入信号进行综合,产生脉冲信号,通过抑制性联接调节启动中继神经元(IRN)的脉冲发放频率和相位;停止反向抑制神经元(SDIN)接受停止动作编码神经元(SAEN)的抑制性输入信号,以及停止中继神经元(SRN)的兴奋性输入信号,并将所有输入信号进行综合,产生脉冲信号,通过抑制性联接调节停止中继神经元(SRN)的脉冲发放频率和相位;
所述中继层中,启动中继神经元(IRN)接受启动反向抑制神经元(IDIN)的抑制性输入信号,并通过投射到启动神经元(IN)的兴奋性联接,形成促进动作执行的正反馈闭环;停止中继神经元(SRN)接受停止神经元(SN)的兴奋性输入信号,以及停止反向抑制神经元(SDIN)的抑制性输入信号,并将所有输入信息进行综合,产生脉冲信号,并通过兴奋性联接投射到启动反向抑制神经元(IDIN),形成抑制动作执行的通路。
进一步地,所述基本控制单元包括5个控制通路:1)主动启动控制通路,2)主动停止控制通路,3)自动启动控制通路,4)自动停止控制通路,5)竞争选择控制通路;
所述主动启动控制通路由所属基本控制单元的启动神经元(IN)、启动动作编码神经元(IAEN)、启动反向抑制神经元(IDIN)、启动中继神经元(IRN)及其之间的联接组成,用于发起并持续执行该基本控制单元编码的元动作;
所述主动停止控制通路由所属基本控制单元的停止神经元(SN)、停止动作编码神经元(SAEN)、停止反向抑制神经元(SDIN)、停止中继神经元(SRN)、启动反向抑制神经元(IDIN)及其之间的联接组成,用于抑制及停止该基本控制单元编码的元动作;
所述自动启动控制通路由自动决策模块的自动启动信号输出端、所属基本控制单元的启动反向抑制神经元(IDIN)及其之间的联接组成,用于发起并执行自动选择的元动作;
所述自动停止控制通路由自动决策模块的自动停止信号输出端、所属基本控制单元的停止反向抑制神经元(SDIN)及其之间的联接组成,用于抑制及停止自动选择的元动作;
所述竞争选择控制通路由所属基本控制单元的启动神经元(IN)、停止中继神经元(SRN)、若干相竞争的基本控制单元的启动反向抑制神经元(IDIN)及其之间的联接组成,用于在多个备选的元动作间通过相互竞争来筛选出优胜的元动作执行。
进一步地,所述复合控制模块支持3种工作模式:主动监督模式、自动模式、反馈驱动模式;
所述主动监督模式用于由主动决策模块决定如何执行动作序列并提供示教,使复合控制模块学习新动作序列或更新调整既有动作序列;在主动监督模式下,动作序列的依序执行主要由主动决策模块驱动,即由主动决策模块给出动作序列中每个时刻应该执行或停止哪个元动作以及每个元动作的强度,并将主动启动信号和主动停止信号分别输入给对应基本控制单元的启动神经元(IN)和停止神经元(SN);
所述自动模式用于在没有或少量主动决策模块的干预下,或由自动决策模块提供初始元动作,复合控制模块自动完成动作序列的依序执行;在自动模式下,动作序列的依序执行主要由多个基本控制单元的运动编码层神经元互相之间的联接驱动;主动决策模块或自动决策模块只需提供动作序列中某个元动作作为起始,并通过主动启动控制通路或自动启动控制通路提供起始信号,动作序列的余下部分即可自动依序执行,直至动作序列结束;
所述反馈驱动模式用于通过反馈来调整动作,使***自动适应外部环境;在反馈驱动模式下,动作或动作序列的执行还受反馈信号驱动;评价模块将反馈信号输入至复合控制模块的运动编码层神经元,当***收到奖励,反馈信号使启动动作编码神经元(IAEN)得到一个兴奋性输入偏置量,并使停止动作编码神经元(SAEN)得到一个抑制性输入偏置量,从而使动作更易于发生,或使当前动作的幅度、力量更大,持续时间更长;当***收到惩罚,反馈信号使启动动作编码神经元(IAEN)得到一个抑制性输入偏置量,并使停止动作编码神经元(SAEN)得到一个兴奋性输入偏置量,从而使动作更不易发生,或使当前动作的幅度、力量减小,甚至提前结束;
所述3种工作模式各自独立工作或联合工作。
进一步地,所述主动控制层神经元与运动编码层神经元的数量比例关系配置为1:N,N为大于等于1的有理数;每个主动控制层神经元配置为联接到1至多个运动编码层神经元;各个联接的突触可塑性使该联接根据上、下游神经元的发放情况产生不一样的突触权重,使运动编码层神经元与各个元动作自动对应起来,实现神经元群体编码。
进一步地,所述主动控制层神经元与运动编码层神经元之间的突触联接可塑性受到评价模块传来的预期误差值信号的调制;
所述调制的过程包括:
1)当预期误差值为正值时,启动神经元(IN)联接到启动动作编码神经元(IAEN)的突触,其长时程增强作用(LTP)与预期误差值成正相关,而其长时程抑制作用(LTD)与预期误差值成负相关;停止神经元(SN)联接到停止动作编码神经元(SAEN)的突触,其长时程增强作用(LTP)与预期误差值成负相关,而其长时程抑制作用(LTD)与预期误差值成正相关;
2)当预期误差值为负值时,启动神经元(IN)联接到启动动作编码神经元(IAEN)的突触,其长时程增强作用(LTP)与预期误差值的绝对值成负相关,而其长时程抑制作用(LTD)与预期误差值的绝对值成正相关;停止神经元(SN)联接到停止动作编码神经元(SAEN)的突触,其长时程增强作用(LTP)与预期误差值的绝对值成正相关,而其长时程抑制作用(LTD)与预期误差值的绝对值成负相关;
3)当预期误差值为零时,主动控制层神经元与运动编码层神经元之间的突触联接可塑性维持在最低水平,使复合控制模块在反复执行或预演既有动作序列时缓慢巩固联接关系,防止既有动作序列变形或过快遗忘。
进一步地,所述各个基本控制单元的启动动作编码神经元(IAEN)互相之间的抑制性联接采用反赫布非对称延迟突触可塑性机制进行训练;
所述反赫布非对称延迟突触可塑性机制的工作过程包括:
1)每个突触具有一个长时程抑制累积势能(非负数)和一个长时程增强累积势能(非正数),并初始化为零;
2)当某个神经元激发时,如果在其后足够短的时间窗口内其下游神经元也激发了,则二者之间的突触的长时程抑制累积势能增加且增加量与二者脉冲发放时间间隔成负相关,否则长时程增强累积势能的绝对值增加一个默认常量;
3)长时程抑制累积势能和长时程增强累积势能分别随着时间流逝逐渐衰减直至归零;
4)当预期误差值为正值时,将各个突触的长时程抑制累积势能与长时程增强累积势能加权并乘以预期误差值,再叠加到突触权重,然后将长时程抑制累积势能和长时程增强累积势能都归零;
5)当预期误差值为负值时,将各个突触的长时程抑制累积势能与长时程增强累积势能加权并乘以预期误差值的绝对值,再叠加到突触权重,然后将长时程抑制累积势能和长时程增强累积势能都归零;
所述工作过程的第1)项在***初始化时进行;
所述工作过程的第2)至5)项按照任意次序进行并可重复进行。
进一步地,所述中继层神经元与主动控制层神经元的数量比例关系配置为1:N,N为正有理数,并且每个中继层神经元配置为联接到1至多个主动控制层神经元,各个联接的突触可塑性使该联接根据上、下游神经元的发放情况产生不一样的突触权重,使中继层神经元与各个元动作自动对应起来,实现神经元群体编码。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种类脑决策与运动控制***,该***提供了主动决策模块与自动决策模块,既可以结合多模态感知信息、记忆信息和决策规则进行综合决策,也可以经验信息为主并结合较少感知信息和记忆信息进行快速决策,而且主动决策模块与自动决策模块能够形成共识,并通过评价模块从环境得到的反馈调整***对于目标与操作的预期,以及通过试错、模仿、示教学***衡,以及多执行元件的拮抗式控制等场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种类脑决策与运动控制***的整体架构示意图;
图2为本发明实施例中一种类脑决策与运动控制***的基本控制单元示意图;
图3为本发明实施例中一种类脑决策与运动控制***的输出型基本控制单元示意图;
图4为本发明实施例中一种类脑决策与运动控制***的预测型基本控制单元示意图;
图5为本发明实施例中一种类脑决策与运动控制***的辅助控制单元示意图;
图6为本发明实施例中一种类脑决策与运动控制***的各启动动作编码神经元互相联接示意图;
图7为本发明实施例中一种类脑决策与运动控制***的反赫布非对称延迟突触可塑性机制示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见附图1,本发明实施例公开了一种类脑决策与运动控制***,该***包括:主动决策模块、自动决策模块、评价模块、记忆模块、感知模块、复合控制模块、输入通道模块、输出通道模块和受控对象模块;
所述主动决策模块由目标集合、目标-操作-效果集合以及决策规则集合组成,通过综合多模态感知信息和记忆信息并结合决策规则主动选择目标和操作、指导复合控制模块执行精细操作,以及控制输入通道模块和输出通道模块;
所述目标集合记录出现过的各个目标及其综合价值与紧迫值,对于还没有出现过的目标,其综合价值设为默认值以表示好奇心;
所述目标-操作-效果集合记录在各个目标下可执行的操作以及在此情况下各个操作的综合效果值;
所述决策规则集合记录用户定义的决策规则与***新学习的决策规则,决策规则规定了***如何选择目标及操作;
选择目标的决策规则包括下面的一种或任几种:
1)在出现的一至多个目标中选择综合价值与紧迫值加权最大的目标;
2)在出现的一至多个目标中选择与任务最相关并且不与决策规则冲突的目标;
3)在出现的一至多个目标中选择最显著(如最明亮、色彩最鲜艳、运动速度最快、尺寸最大等)的目标;
4)交由自动决策模块自动选择目标;
5)随机选择目标;
6)选择未出现的假想目标;
7)无视出现的目标,直接进入操作选择过程;
所述主动决策模块选出目标后,则将该目标及其综合价值传给评价模块,再从目标-操作-效果集合中选择操作;
选择操作的决策规则包括下面的一种或任几种:
1)在目标-操作-效果集合中选择所选目标对应的综合效果值最大的操作;
2)试错学习并随机选择操作;
3)模仿学习并通过主动监督复合控制模块执行新动作序列;
4)不采取动作并等待;
5)交由自动决策模块自动选择操作;
6)预测学习并预演一套动作但并不实际执行,以预测其效果值;
上述各条决策规则互相配合执行;如果自动决策模块发来其选择的目标和操作,主动决策模块将其与自己选择的目标与操作进行加权形成最终决策;
主动决策模块最终决定执行某操作后,则将该操作及其综合效果值传给评价模块,再将该操作以脉冲序列信号通过主动启动控制通路和主动停止控制通路传给复合控制模块;
当收到评价模块传来目标或操作的预期误差值信号时,主动决策模块将对应目标当前的综合价值或对应操作当前的综合效果值加上预期误差值,即得到更新的综合价值或综合效果值,并分别更新至目标集合与目标-操作-效果集合中;
所述自动决策模块由目标集合与目标-操作-效果集合组成,在主动决策模块计算任务过重或***需要快速反应时根据经验以及相对少量感知信息和记忆信息自动选择目标和需要执行的操作,并及时指导复合控制模块执行操作,以及协助主动决策模块进行综合决策;
所述目标集合记录出现过的各个目标及其经验价值,对于还没有出现过的目标,其经验价值设为默认值;
所述目标-操作-效果集合记录每个目标可采取的默认操作及其经验效果值;
自动决策模块自动在当前出现的一至多个目标中选择经验价值最大的目标,并将该目标与其经验价值传给评价模块,再从目标-操作-效果集合中选择与此目标对应的各个默认操作中经验效果值最大者,并将该操作及其经验效果值传给评价模块;
自动决策模块将选择的目标与操作发给主动决策模块以形成共识,如果主动决策模块没有推迟或否决,自动决策模块随即将该操作以脉冲序列信号通过自动启动控制通路和自动停止控制通路传给复合控制模块;如果主动决策模块否决,则以其最终决策为准;如果主动决策模块与自动决策模块将各自选出的操作传给复合控制模块,则在复合控制模块将两种操作综合;
当收到评价模块传来目标或操作的预期误差值信号时,自动决策模块将对应目标当前的经验价值或对应操作当前的经验效果值加上预期误差值,即得到更新的经验价值或经验效果值,并分别更新至目标集合与目标-操作-效果集合中;
所述评价模块由缓存和评价规则集合组成,通过***内部或外部环境的反馈来评价目标的实际价值与所执行操作的实际效果值,并将预期误差值反馈给主动决策模块、自动决策模块与复合控制模块;
当主动决策模块传来某个目标及其综合价值或某个操作及其综合效果值时,评价模块将它们缓存;当***得到反馈或结果时,评价模块根据评价规则评测出目标的实际价值或操作的实际效果值,并用其减去缓存的目标的综合价值或操作的综合效果值即得到目标或操作的预期误差值,再将预期误差值传给主动决策模块以修正其存储的对应目标的综合价值或对应操作的综合效果值;
当自动决策模块传来某个目标及其经验价值或某个操作及其经验效果值时,评价模块将它们缓存;当***得到反馈或结果时,评价模块根据评价规则评测出目标的实际价值或操作的实际效果值,并用其减去缓存的目标的经验价值或操作的经验效果值即得到目标或操作的预期误差值,再将预期误差值传给自动决策模块以修正其存储的对应目标的经验价值或对应操作的经验效果值;
所述评价模块也将预期误差值传给复合控制模块以修正其编码的动作序列及其预期效果值;
所述记忆模块将***内部状态的历史信息和环境的历史信息编码并记录为记忆信息,并将记忆信息传给主动决策模块和自动决策模块以辅助决策过程,还将记忆信息传给复合控制模块以影响动作序列的选择和执行;
所述感知模块通过传感器为主动决策模块、自动决策模块、评价模块、记忆模块、复合控制模块提供感知信息,感知信息包括内部状态信息和外部环境信息,进一步包括:视频信息,音频信息,力反馈信息,温度信息,触感信息、关节角度、角速度与角加速度信息,位移、速度与加速度信息,以及姿态与平衡信息;
所述输入通道模块转换、中继、放大感知模块传来的感知信息,并分别输出至主动决策模块和复合控制模块;输入通道模块接受主动决策模块的控制信号输入以调节信号中继的放大倍数;当放大倍数越高,则***的决策和运动执行受感知信息的影响程度越高;当放大倍数越低,则***的决策和运动执行受感知信息的影响程度则越低;当放大倍数为0时,则***的决策和运动执行不受感知信息影响;
所述输出通道模块转换、中继、放大复合控制模块的输出信号,并传导至受控对象模块;输出通道模块接受主动决策模块的控制信号输入以调节信号中继的放大倍数;当放大倍数越高,则受控对象的执行强度越高;当放大倍数越低,则受控对象的执行强度越低;当放大倍数为0时,则阻止复合控制模块的输出传递给受控对象模块,动作序列在***中模拟预演而不实际执行;
所述受控对象模块,配置为由一至多个电机、液压元件、气动元件或人造肌肉执行元件组成;每个执行元件通过输出通道模块联接到一至多个基本控制单元以执行至少一种元动作;也可将一对执行元件分别通过输出通道模块联接到一至多个不同的基本控制单元以构成拮抗式控制;
复合控制模块的输出信号经由输出通道模块输出至受控对象模块;输出信号为脉冲序列信号,输出通道模块将脉冲序列信号的频率转换为执行元件的输入电压值或电流值,并将连续脉冲的持续时间转换为执行元件的输入电压或电流的持续时间,当脉冲频率越高,相应执行元件的输出幅度、力量越强,当连续脉冲持续时间越长,相应执行元件的输出时间持续越久,反之亦然;
所述复合控制模块由一至多个基本控制单元和一至多个辅助控制单元组成,用于学习、记忆、编码、精细控制、预想或执行一至多个动作序列,并协助主动决策模块在多个可能的动作序列中择优或综合执行。
参见附图2,所述每个操作表示一至多个动作序列的组合;每个动作序列由一至多个元动作在时间维度排列组成;在任意时间点有零至多个元动作发生;同一个元动作在一个时间点发生或在不同的时间点发生;每个元动作表示一个对应执行元件能够执行的最小动作。
所述基本控制单元由主动控制层、运动编码层、反向抑制层和中继层以及其中的神经元及联接关系组成,用于编码元动作以及控制元动作的启动与停止;
所述主动控制层包含2种脉冲神经元:启动神经元(IN)和停止神经元(SN);
所述运动编码层包含2种脉冲神经元:启动动作编码神经元(IAEN)和停止动作编码神经元(SAEN);
所述反向抑制层包含2种自激发式脉冲神经元:启动反向抑制神经元(IDIN)和停止反向抑制神经元(SDIN);
所述中继层包含2种自激发式脉冲神经元:启动中继神经元(IRN)和停止中继神经元(SRN)。
所述基本控制单元根据输出联接方式分为两种子类型:输出型基本控制单元和预测型基本控制单元;
参见附图3,所述输出型基本控制单元的输出连接至输出通道模块以驱动执行元件;
参见附图4,所述预测型基本控制单元的输出连接至评价模块以预测动作序列的预期效果值而不实际执行。
参见附图5,所述辅助控制单元由主动选择信号输入端、主动反向选择信号输入端、侧抑制反向抑制神经元(LDIN)、快速自激发式关断神经元(FSIN)及其与各个基本控制单元的联接组成,用于在多个备选的动作序列中主动或自动选择执行;
一至多个基本控制单元为一组,每组基本控制单元编码一个动作序列;
每个基本控制单元的启动动作编码神经元(IAEN)和停止动作编码神经元(SAEN)各自联向一个侧抑制反向抑制神经元(LDIN);
每组基本控制单元共享一至多个自激发关断神经元(FSIN);
所述侧抑制反向抑制神经元(LDIN)综合主动选择信号输入以及所属基本控制单元的运动编码层神经元的输入,产生脉冲信号并通过抑制性联接输出到其它组基本控制单元的自激发关断神经元(FSIN);
所述自激发关断神经元(FSIN)综合主动反向选择信号输入以及各个相邻组基本控制单元的侧抑制反向抑制神经元(LDIN)的输入,产生脉冲信号并通过抑制性联接输出到所属基本控制单元组的各个运动控制层神经元;
所述主动选择信号输入端接受主动决策模块的输入,以主动选择特定动作序列以备执行;
所述主动反向选择信号输入端接受主动决策模块的输入,以主动抑制特定动作序列的执行。
所述自激发式脉冲神经元的工作模式包括:
在没有输入信号或输入信号总和为零的情况下,所述自激发式脉冲神经元仍会自动以默认频率发出脉冲信号,其默认频率的范围配置为10Hz至100Hz;
当输入信号总和为正值,所述自激发式脉冲神经元的脉冲信号发放频率则会提升,而且总和越大脉冲信号频率越高,直到预设的频率上限,反之亦然;
当输入信号总和为负值,所述自激发式脉冲神经元的脉冲信号发放频率则会降低,而且总和的绝对值越大脉冲信号频率越低,直至停止发出脉冲信号,反之亦然;
所述快速自激发式关断神经元(FSIN)的工作模式与自激发式脉冲神经元的工作模式相同,其默认频率的范围配置为20Hz至200Hz,且输出的联接为抑制型,用于快速关断下游目标神经元。
参见附图3,所述主动控制层中,启动神经元(IN)接受来自主动决策模块的主动启动信号P(脉冲序列、兴奋性联接),以及中继神经元(IRN)的兴奋性联接;停止神经元(SN)接受来自主动决策模块的主动停止信号Q(脉冲序列、兴奋性联接);它们分别将输入的信号综合并编码为脉冲信号输出给运动编码层对应的神经元;
所述运动编码层中,启动动作编码神经元(IAEN)接受启动神经元(IN)的兴奋性输入;停止动作编码神经元(SAEN)接受停止神经元(SN)的兴奋性输入;此外,它们还都接受来自记忆模块的输入M、感知模块的输入S、评价模块的输入R;它们分别将所有输入信息进行综合,产生脉冲信号,进而调节反向抑制层相应神经元的脉冲发放频率和相位;
同一个基本控制单元内的启动动作编码神经元(IAEN)和停止动作编码神经元(SAEN)之间具有双向抑制性联接,通过突触权重编码该基本控制单元对应元动作的相对动作强度(可随时间变化)与相对持续时间;
参见附图6,多个基本控制单元中的启动动作编码神经元(IAEN)互相之间具有双向抑制性联接,通过突触权重编码动作序列中各个元动作执行的先后顺序;
来自不同基本控制单元中的启动动作编码神经元(IAEN)与停止动作编码神经元(SAEN)之间具有双向抑制性联接,通过突触权重编码动作序列中各个元动作的相对启动时间和相对停止时间;
所述反向抑制层中,启动反向抑制神经元(IDIN)接受启动动作编码神经元(IAEN)的抑制性输入信号、停止反向抑制神经元(SDIN)的抑制性输入信号以及停止中继神经元(SRN)的兴奋性输入信号,并将所有输入信号进行综合,产生脉冲信号,通过抑制性联接调节启动中继神经元(IRN)的脉冲发放频率和相位;停止反向抑制神经元(SDIN)接受停止动作编码神经元(SAEN)的抑制性输入信号,以及停止中继神经元(SRN)的兴奋性输入信号,并将所有输入信号进行综合,产生脉冲信号,通过抑制性联接调节停止中继神经元(SRN)的脉冲发放频率和相位;
所述中继层中,启动中继神经元(IRN)接受启动反向抑制神经元(IDIN)的抑制性输入信号,并通过投射到启动神经元(IN)的兴奋性联接,形成促进动作执行的正反馈闭环;停止中继神经元(SRN)接受停止神经元(SN)的兴奋性输入信号,以及停止反向抑制神经元(SDIN)的抑制性输入信号,并将所有输入信息进行综合,产生脉冲信号,并通过兴奋性联接投射到启动反向抑制神经元(IDIN),形成抑制动作执行的通路。
所述基本控制单元包括5个控制通路:1)主动启动控制通路,2)主动停止控制通路,3)自动启动控制通路,4)自动停止控制通路,5)竞争选择控制通路;
所述主动启动控制通路由所属基本控制单元的启动神经元(IN)、启动动作编码神经元(IAEN)、启动反向抑制神经元(IDIN)、启动中继神经元(IRN)及其之间的联接组成,用于发起并持续执行该基本控制单元编码的元动作;
所述主动停止控制通路由所属基本控制单元的停止神经元(SN)、停止动作编码神经元(SAEN)、停止反向抑制神经元(SDIN)、停止中继神经元(SRN)、启动反向抑制神经元(IDIN)及其之间的联接组成,用于抑制及停止该基本控制单元编码的元动作;
所述自动启动控制通路由自动决策模块的自动启动信号输出端、所属基本控制单元的启动反向抑制神经元(IDIN)及其之间的联接组成,用于发起并执行自动选择的元动作;
所述自动停止控制通路由自动决策模块的自动停止信号输出端、所属基本控制单元的停止反向抑制神经元(SDIN)及其之间的联接组成,用于抑制及停止自动选择的元动作;
所述竞争选择控制通路由所属基本控制单元的启动神经元(IN)、停止中继神经元(SRN)、若干相竞争的基本控制单元的启动反向抑制神经元(IDIN)及其之间的联接组成,用于在多个备选的元动作间通过相互竞争来筛选出优胜的元动作执行。
在不需要执行动作时,各个基本控制单元的主动启动控制通路中只有启动反向抑制神经元(IDIN)在自发发生脉冲信号,它通过抑制性联接完全抑制了启动中继神经元(IRN),从而没有动作可以发生;
当主动决策模块选择执行某动作序列时,主动决策模块发出主动启动信号到该动作序列中的部分或全部元动作对应基本控制单元的启动神经元(IN)使之开始或加快脉冲发放,进而使启动动作编码神经元(IAEN)开始或加快脉冲发放,启动反向抑制神经元(IDIN)受到启动动作编码神经元(IAEN)的抑制而减慢脉冲发放,通过去抑制使启动中继神经元(IRN)开始或加快脉冲发放,并进一步通过正反馈联接激发启动神经元(IN),从而使该基本控制单元对应的元动作得以发起并持续执行;该动作序列涉及的各个基本控制单元中的启动动作编码神经元(IAEN)互相之间的联接使动作序列中的各个元动作得以按照一定节奏逐次执行,直至动作序列结束;
当主动决策模块发出主动停止信号,并输入至指定基本控制单元的停止神经元(SN),使之开始或加快脉冲发放,进而使停止动作编码神经元(SAEN)开始或加快脉冲发放,停止反向抑制神经元(SDIN)受到停止动作编码神经元(SAEN)的抑制而减慢脉冲发放,通过去抑制使停止中继神经元(SRN)开始或加快脉冲发放,并进一步通过正反馈联接使启动反向抑制神经元(IDIN)开始或加快脉冲发放,使之抑制了启动中继神经元(IRN)的脉冲发放,从而抑制及停止该基本控制单元编码的元动作;
当自动决策模块发出自动启动信号,并输入至指定基本控制单元的启动反向抑制神经元(IDIN),使之减慢脉冲发放,进而通过去抑制使启动中继神经元(IRN)开始或加快脉冲发放,并通过主动启动控制通路的正反馈环路将这一动作发起并持续执行;
当自动决策模块发出自动停止信号,并输入至指定基本控制单元的停止反向抑制神经元(SDIN),使之减慢脉冲发放,进而通过去抑制使停止中继神经元(SRN)开始或加快脉冲发放,并进一步通过正反馈联接使启动反向抑制神经元(IDIN)开始或加快脉冲发放,使之抑制了启动中继神经元(IRN)的脉冲发放,从而抑制及停止该基本控制单元编码的元动作。
所述复合控制模块支持3种工作模式:主动监督模式、自动模式、反馈驱动模式;
所述主动监督模式用于由主动决策模块决定如何执行动作序列并提供示教,使复合控制模块学习新动作序列或更新调整既有动作序列;在主动监督模式下,动作序列的依序执行主要由主动决策模块驱动,即由主动决策模块给出动作序列中每个时刻应该执行或停止哪个元动作以及每个元动作的强度,并将主动启动信号和主动停止信号分别输入给对应基本控制单元的启动神经元(IN)和停止神经元(SN);该模式适用于示教学习与模仿学习;
所述自动模式用于在没有或少量主动决策模块的干预下,或由自动决策模块提供初始元动作,复合控制模块自动完成动作序列的依序执行;在自动模式下,动作序列的依序执行主要由多个基本控制单元的运动编码层神经元互相之间的联接驱动;主动决策模块或自动决策模块只需提供动作序列中某个元动作作为起始,并通过主动启动控制通路或自动启动控制通路提供起始信号,动作序列的余下部分即可自动依序执行,直至动作序列结束;该模式的优点是动作序列可以由其中任意元动作开始执行,入口灵活,能支持机器人***从任务的不同初始状态开始执行并灵活地适应***作物体与干扰,而且动作的自动执行主要依赖于复合控制单元(通过运动编码层各个神经元互相之间的联接的突触权重)编码的动作序列,节省主动决策模块和自动决策模块的运算量;
所述反馈驱动模式用于通过反馈来调整动作,使***自动适应外部环境;在反馈驱动模式下,动作或动作序列的执行还受反馈信号驱动;评价模块将反馈信号输入至复合控制模块的运动编码层神经元,当***收到奖励,反馈信号使启动动作编码神经元(IAEN)得到一个兴奋性输入偏置量,并使停止动作编码神经元(SAEN)得到一个抑制性输入偏置量,从而使动作更易于发生,或使当前动作的幅度、力量更大,持续时间更长;当***收到惩罚,反馈信号使启动动作编码神经元(IAEN)得到一个抑制性输入偏置量,并使停止动作编码神经元(SAEN)得到一个兴奋性输入偏置量,从而使动作更不易发生,或使当前动作的幅度、力量减小,甚至提前结束;该模式的优点是控制***可以根据外部反馈来调整动作序列,从而趋利避害、更加适应外部操作环境。
所述3种工作模式各自独立工作或联合工作。
所述主动控制层神经元与运动编码层神经元的数量比例关系配置为1:N,N为大于等于1的有理数;每个主动控制层神经元配置为联接到1至多个运动编码层神经元;各个联接的突触可塑性使该联接根据上、下游神经元的发放情况产生不一样的突触权重,使运动编码层神经元与各个元动作自动对应起来,实现神经元群体编码。
所述主动控制层神经元与运动编码层神经元之间的突触联接可塑性受到评价模块传来的预期误差值信号的调制;
所述调制的过程包括:
1)当预期误差值为正值时,启动神经元(IN)联接到启动动作编码神经元(IAEN)的突触,其长时程增强作用(LTP)与预期误差值成正相关,而其长时程抑制作用(LTD)与预期误差值成负相关;停止神经元(SN)联接到停止动作编码神经元(SAEN)的突触,其长时程增强作用(LTP)与预期误差值成负相关,而其长时程抑制作用(LTD)与预期误差值成正相关;
2)当预期误差值为负值时,启动神经元(IN)联接到启动动作编码神经元(IAEN)的突触,其长时程增强作用(LTP)与预期误差值的绝对值成负相关,而其长时程抑制作用(LTD)与预期误差值的绝对值成正相关;停止神经元(SN)联接到停止动作编码神经元(SAEN)的突触,其长时程增强作用(LTP)与预期误差值的绝对值成正相关,而其长时程抑制作用(LTD)与预期误差值的绝对值成负相关;
3)当预期误差值为零时,主动控制层神经元与运动编码层神经元之间的突触联接可塑性维持在最低水平,使复合控制模块在反复执行或预演既有动作序列时缓慢巩固联接关系,防止既有动作序列变形或过快遗忘。
所述各个基本控制单元的启动动作编码神经元(IAEN)互相之间的抑制性联接采用反赫布非对称延迟突触可塑性机制进行训练;
参见附图7,所述反赫布非对称延迟突触可塑性机制的工作过程包括:
1)每个突触具有一个长时程抑制累积势能(非负数)和一个长时程增强累积势能(非正数),并初始化为零;
2)当某个神经元激发时,如果在其后足够短的时间窗口内其下游神经元也激发了,则二者之间的突触的长时程抑制累积势能增加且增加量与二者脉冲发放时间间隔成负相关,否则长时程增强累积势能的绝对值增加一个默认常量;
3)长时程抑制累积势能和长时程增强累积势能分别随着时间流逝逐渐衰减直至归零;
4)当预期误差值为正值时,将各个突触的长时程抑制累积势能与长时程增强累积势能加权(前者权重大于后者)并乘以预期误差值,再叠加到突触权重,然后将长时程抑制累积势能和长时程增强累积势能都归零;
5)当预期误差值为负值时,将各个突触的长时程抑制累积势能与长时程增强累积势能加权(前者权重小于后者)并乘以预期误差值的绝对值,再叠加到突触权重,然后将长时程抑制累积势能和长时程增强累积势能都归零;
所述工作过程的第1)项在***初始化时进行;
所述工作过程的第2)至5)项按照任意次序进行并可重复进行。
所述中继层神经元与主动控制层神经元的数量比例关系配置为1:N,N为正有理数,并且每个中继层神经元配置为联接到1至多个主动控制层神经元,各个联接的突触可塑性使该联接根据上、下游神经元的发放情况产生不一样的突触权重,使中继层神经元与各个元动作自动对应起来,实现神经元群体编码。
该***可以通过软件、固件或硬件实现。例如,该***可以嵌入支持脉冲神经网络的芯片,并集成进机器人***。
使用时根据需要来决定基本控制单元的个数、主动控制层神经元和运动编码层神经元的数量比例关系、以及中继层神经元和主动控制层神经元的数量比例关系。一般地,需要编码的不同动作序列越多、单个动作序列越长,则基本控制单元的个数应越多,也即运动编码层神经元的数量越多;需要使用的不同元动作数量越多,则主动控制层神经元和中继层神经元的数量应越多。每个基本控制单元对应一个元动作,而同一种元动作可以由多个基本控制单元参与编码并受其综合影响。
该***提供了主动决策模块与自动决策模块,既可以结合多模态感知信息、记忆信息和决策规则进行综合决策,也可以经验信息为主并结合较少感知信息和记忆信息进行快速决策,而且主动决策模块与自动决策模块能够形成共识,并通过评价模块从环境得到的反馈调整***对于目标与操作的预期,以及通过试错、模仿、示教学***衡,以及多执行元件的拮抗式控制等场景。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (22)

1.一种类脑决策与运动控制***,其特征在于,包括:主动决策模块、自动决策模块、评价模块、记忆模块、感知模块、复合控制模块、输入通道模块、输出通道模块和受控对象模块;
所述主动决策模块主动选择目标和操作、指导所述复合控制模块执行精细操作,以及控制所述输入通道模块和所述输出通道模块;
所述自动决策模块自动选择目标和需要执行的操作,指导所述复合控制模块执行操作,以及协助所述主动决策模块进行综合决策;
所述评价模块评价目标的实际价值与所执行操作的实际效果值,并将预期误差值反馈给所述主动决策模块、自动决策模块与复合控制模块;
所述记忆模块将记忆信息传给所述主动决策模块和所述自动决策模块以辅助决策过程,还将记忆信息传给所述复合控制模块以影响动作序列的选择和执行;
所述感知模块为所述主动决策模块、自动决策模块、评价模块、记忆模块、复合控制模块提供感知信息;
所述复合控制模块包括多个基本控制单元;每个基本控制单元包括多个神经元,其中,至少一个神经元接受来自所述主动决策模块的输入,至少一个神经元与位于该基本控制单元的一个或多个神经元形成单向或双向兴奋型或抑制型联接,至少一个神经元与位于其它基本控制单元的一个或多个神经元形成单向或双向兴奋型或抑制型联接,至少一个神经元联接至所述输出通道模块或所述评价模块;其中多个联接通过突触可塑性过程学习、记忆、编码、精细控制、预想或执行一个或多个动作序列,并协助主动决策模块在多个可能的动作序列中择优或综合执行;
所述输入通道模块转换、中继、放大所述感知模块传来的感知信息,并分别输出至所述主动决策模块和复合控制模块;
所述输出通道模块转换、中继、放大所述复合控制模块的输出信号,并传导至所述受控对象模块;
所述受控对象模块包括一个或多个执行元件。
2.根据权利要求1所述的一种类脑决策与运动控制***,其特征在于,所述主动决策模块由目标集合、目标-操作-效果集合以及决策规则集合组成,通过综合多模态感知信息和记忆信息并结合决策规则主动选择目标和操作、指导复合控制模块执行精细操作,以及控制输入通道模块和输出通道模块;
所述目标集合记录出现过的各个目标及其综合价值与紧迫值,对于还没有出现过的目标,其综合价值设为默认值以表示好奇心;
所述目标-操作-效果集合记录在各个目标下可执行的操作以及在此情况下各个操作的综合效果值;
所述决策规则集合记录用户定义的决策规则与***新学习的决策规则,决策规则规定了***如何选择目标及操作;
选择目标的决策规则包括下面的一种或任几种:
1)在出现的一至多个目标中选择综合价值与紧迫值加权最大的目标;
2)在出现的一至多个目标中选择与任务最相关并且不与决策规则冲突的目标;
3)在出现的一至多个目标中选择最显著的目标;
4)交由自动决策模块自动选择目标;
5)随机选择目标;
6)选择未出现的假想目标;
7)无视出现的目标,直接进入操作选择过程;
所述主动决策模块选出目标后,则将该目标及其综合价值传给评价模块,再从目标-操作-效果集合中选择操作;
选择操作的决策规则包括下面的一种或任几种:
1)在目标-操作-效果集合中选择所选目标对应的综合效果值最大的操作;
2)试错学习并随机选择操作;
3)模仿学习并通过主动监督复合控制模块执行新动作序列;
4)不采取动作并等待;
5)交由自动决策模块自动选择操作;
6)预测学习并预演一套动作但并不实际执行,以预测其效果值;
上述各条决策规则互相配合执行;如果自动决策模块发来其选择的目标和操作,主动决策模块将其与自己选择的目标与操作进行加权形成最终决策;
主动决策模块最终决定执行某操作后,则将该操作及其综合效果值传给评价模块,再将该操作以脉冲序列信号通过主动启动控制通路和主动停止控制通路传给复合控制模块;
当收到评价模块传来目标或操作的预期误差值信号时,主动决策模块将对应目标当前的综合价值或对应操作当前的综合效果值加上预期误差值,即得到更新的综合价值或综合效果值,并分别更新至目标集合与目标-操作-效果集合中。
3.根据权利要求1所述的一种类脑决策与运动控制***,其特征在于,所述自动决策模块由目标集合与目标-操作-效果集合组成,在主动决策模块计算任务过重或***需要快速反应时根据经验以及相对少量感知信息和记忆信息自动选择目标和需要执行的操作,并及时指导复合控制模块执行操作,以及协助主动决策模块进行综合决策;
所述目标集合记录出现过的各个目标及其经验价值,对于还没有出现过的目标,其经验价值设为默认值;
所述目标-操作-效果集合记录每个目标可采取的默认操作及其经验效果值;
自动决策模块自动在当前出现的一至多个目标中选择经验价值最大的目标,并将该目标与其经验价值传给评价模块,再从目标-操作-效果集合中选择与此目标对应的各个默认操作中经验效果值最大者,并将该操作及其经验效果值传给评价模块;
自动决策模块将选择的目标与操作发给主动决策模块以形成共识,如果主动决策模块没有推迟或否决,自动决策模块随即将该操作以脉冲序列信号通过自动启动控制通路和自动停止控制通路传给复合控制模块;如果主动决策模块否决,则以其最终决策为准;如果主动决策模块与自动决策模块将各自选出的操作传给复合控制模块,则在复合控制模块将两种操作综合;
当收到评价模块传来目标或操作的预期误差值信号时,自动决策模块将对应目标当前的经验价值或对应操作当前的经验效果值加上预期误差值,即得到更新的经验价值或经验效果值,并分别更新至目标集合与目标-操作-效果集合中。
4.根据权利要求2或3所述的一种类脑决策与运动控制***,其特征在于,所述每个操作表示一至多个动作序列的组合;
每个动作序列由一至多个元动作在时间维度排列组成;
在任意时间点有零至多个元动作发生;
同一个元动作在一个时间点发生或在不同的时间点发生;
每个元动作表示一个对应执行元件能够执行的最小动作。
5.根据权利要求1所述的一种类脑决策与运动控制***,其特征在于,所述评价模块由缓存和评价规则集合组成,通过***内部或外部环境的反馈来评价目标的实际价值与所执行操作的实际效果值,并将预期误差值反馈给主动决策模块、自动决策模块与复合控制模块;
当主动决策模块传来某个目标及其综合价值或某个操作及其综合效果值时,评价模块将它们缓存;当***得到反馈或结果时,评价模块根据评价规则评测出目标的实际价值或操作的实际效果值,并用其减去缓存的目标的综合价值或操作的综合效果值即得到目标或操作的预期误差值,再将预期误差值传给主动决策模块以修正其存储的对应目标的综合价值或对应操作的综合效果值;
当自动决策模块传来某个目标及其经验价值或某个操作及其经验效果值时,评价模块将它们缓存;当***得到反馈或结果时,评价模块根据评价规则评测出目标的实际价值或操作的实际效果值,并用其减去缓存的目标的经验价值或操作的经验效果值即得到目标或操作的预期误差值,再将预期误差值传给自动决策模块以修正其存储的对应目标的经验价值或对应操作的经验效果值;
所述评价模块也将预期误差值传给复合控制模块以修正其编码的动作序列及其预期效果值。
6.根据权利要求1所述的一种类脑决策与运动控制***,其特征在于,所述记忆模块将***内部状态的历史信息和环境的历史信息编码并记录为记忆信息,并将记忆信息传给主动决策模块和自动决策模块以辅助决策过程,还将记忆信息传给复合控制模块以影响动作序列的选择和执行。
7.根据权利要求1所述的一种类脑决策与运动控制***,其特征在于,所述感知模块通过传感器为主动决策模块、自动决策模块、评价模块、记忆模块、复合控制模块提供感知信息,感知信息包括内部状态信息和外部环境信息,进一步包括:视频信息,音频信息,力反馈信息,温度信息,触感信息、关节角度、角速度与角加速度信息,位移、速度与加速度信息,以及姿态与平衡信息。
8.根据权利要求1所述的一种类脑决策与运动控制***,其特征在于,所述输入通道模块转换、中继、放大感知模块传来的感知信息,并分别输出至主动决策模块和复合控制模块;输入通道模块接受主动决策模块的控制信号输入以调节信号中继的放大倍数;当放大倍数越高,则***的决策和运动执行受感知信息的影响程度越高;当放大倍数越低,则***的决策和运动执行受感知信息的影响程度则越低;当放大倍数为0时,则***的决策和运动执行不受感知信息影响。
9.根据权利要求1所述的一种类脑决策与运动控制***,其特征在于,所述输出通道模块转换、中继、放大复合控制模块的输出信号,并传导至受控对象模块;输出通道模块接受主动决策模块的控制信号输入以调节信号中继的放大倍数;当放大倍数越高,则受控对象的执行强度越高;当放大倍数越低,则受控对象的执行强度越低;当放大倍数为0时,则阻止复合控制模块的输出传递给受控对象模块,动作序列在***中模拟预演而不实际执行。
10.根据权利要求1所述的一种类脑决策与运动控制***,其特征在于,所述受控对象模块,配置为由一至多个电机、液压元件、气动元件或人造肌肉执行元件组成;每个执行元件通过输出通道模块联接到一至多个基本控制单元以执行至少一种元动作;将一对执行元件分别通过输出通道模块联接到一至多个不同的基本控制单元以构成拮抗式控制。
11.根据权利要求1所述的一种类脑决策与运动控制***,其特征在于,所述复合控制模块由一至多个基本控制单元和一至多个辅助控制单元组成,用于学习、记忆、编码、精细控制、预想或执行一至多个动作序列,并协助主动决策模块在多个可能的动作序列中择优或综合执行。
12.根据权利要求11所述的一种类脑决策与运动控制***,其特征在于,所述基本控制单元由主动控制层、运动编码层、反向抑制层和中继层以及其中的神经元及联接关系组成,用于编码元动作以及控制元动作的启动与停止;
所述主动控制层包含2种脉冲神经元:启动神经元和停止神经元;
所述运动编码层包含2种脉冲神经元:启动动作编码神经元和停止动作编码神经元;
所述反向抑制层包含2种自激发式脉冲神经元:启动反向抑制神经元和停止反向抑制神经元;
所述中继层包含2种自激发式脉冲神经元:启动中继神经元和停止中继神经元。
13.根据权利要求11所述的一种类脑决策与运动控制***,其特征在于,所述基本控制单元根据输出联接方式分为两种子类型:输出型基本控制单元和预测型基本控制单元;
所述输出型基本控制单元的输出连接至输出通道模块以驱动执行元件;
所述预测型基本控制单元的输出连接至评价模块以预测动作序列的预期效果值而不实际执行。
14.根据权利要求11所述的一种类脑决策与运动控制***,其特征在于,所述辅助控制单元由主动选择信号输入端、主动反向选择信号输入端、侧抑制反向抑制神经元、快速自激发式关断神经元及其与各个基本控制单元的联接组成,用于在多个备选的动作序列中主动或自动选择执行;
一至多个基本控制单元为一组,每组基本控制单元编码一个动作序列;
每个基本控制单元的启动动作编码神经元和停止动作编码神经元各自联向一个侧抑制反向抑制神经元;
每组基本控制单元共享一至多个自激发关断神经元;
所述侧抑制反向抑制神经元综合主动选择信号输入以及所属基本控制单元的运动编码层神经元的输入,产生脉冲信号并通过抑制性联接输出到其它组基本控制单元的自激发关断神经元;
所述自激发关断神经元综合主动反向选择信号输入以及各个相邻组基本控制单元的侧抑制反向抑制神经元的输入,产生脉冲信号并通过抑制性联接输出到所属基本控制单元组的各个运动控制层神经元;
所述主动选择信号输入端接受主动决策模块的输入,以主动选择特定动作序列以备执行;
所述主动反向选择信号输入端接受主动决策模块的输入,以主动抑制特定动作序列的执行。
15.根据权利要求14所述的一种类脑决策与运动控制***,其特征在于,所述自激发式脉冲神经元的工作模式包括:
在没有输入信号或输入信号总和为零的情况下,所述自激发式脉冲神经元仍会自动以默认频率发出脉冲信号,其默认频率的范围配置为10Hz至100Hz;
当输入信号总和为正值,所述自激发式脉冲神经元的脉冲信号发放频率则会提升,而且总和越大脉冲信号频率越高,直到预设的频率上限,反之亦然;
当输入信号总和为负值,所述自激发式脉冲神经元的脉冲信号发放频率则会降低,而且总和的绝对值越大脉冲信号频率越低,直至停止发出脉冲信号,反之亦然;
所述快速自激发式关断神经元的工作模式与自激发式脉冲神经元的工作模式相同,其默认频率的范围配置为20Hz至200Hz,用于快速关断下游目标神经元。
16.根据权利要求12所述的一种类脑决策与运动控制***,其特征在于,所述主动控制层中,启动神经元接受来自主动决策模块的主动启动信号,以及中继神经元的兴奋性联接;停止神经元接受来自主动决策模块的主动停止信号;它们分别将输入的信号综合并编码为脉冲信号输出给运动编码层对应的神经元;
所述运动编码层中,启动动作编码神经元接受启动神经元的兴奋性输入;停止动作编码神经元接受停止神经元的兴奋性输入;此外,它们还都接受来自记忆模块、感知模块、评价模块的输入;它们分别将所有输入信息进行综合,产生脉冲信号,进而调节反向抑制层相应神经元的脉冲发放频率和相位;
同一个基本控制单元内的启动动作编码神经元和停止动作编码神经元之间具有双向抑制性联接,通过突触权重编码该基本控制单元对应元动作的相对动作强度与相对持续时间;
多个基本控制单元中的启动动作编码神经元互相之间具有双向抑制性联接,通过突触权重编码动作序列中各个元动作执行的先后顺序;
来自不同基本控制单元中的启动动作编码神经元与停止动作编码神经元之间具有双向抑制性联接,通过突触权重编码动作序列中各个元动作的相对启动时间和相对停止时间;
所述反向抑制层中,启动反向抑制神经元接受启动动作编码神经元的抑制性输入信号、停止反向抑制神经元的抑制性输入信号以及停止中继神经元的兴奋性输入信号,并将所有输入信号进行综合,产生脉冲信号,通过抑制性联接调节启动中继神经元的脉冲发放频率和相位;停止反向抑制神经元接受停止动作编码神经元的抑制性输入信号,以及停止中继神经元的兴奋性输入信号,并将所有输入信号进行综合,产生脉冲信号,通过抑制性联接调节停止中继神经元的脉冲发放频率和相位;
所述中继层中,启动中继神经元接受启动反向抑制神经元的抑制性输入信号,并通过投射到启动神经元的兴奋性联接,形成促进动作执行的正反馈闭环;停止中继神经元接受停止神经元的兴奋性输入信号,以及停止反向抑制神经元的抑制性输入信号,并将所有输入信息进行综合,产生脉冲信号,并通过兴奋性联接投射到启动反向抑制神经元,形成抑制动作执行的通路。
17.根据权利要求11或12或16所述的一种类脑决策与运动控制***,其特征在于,所述基本控制单元包括5个控制通路:1)主动启动控制通路,2)主动停止控制通路,3)自动启动控制通路,4)自动停止控制通路,5)竞争选择控制通路;
所述主动启动控制通路由所属基本控制单元的启动神经元、启动动作编码神经元、启动反向抑制神经元、启动中继神经元及其之间的联接组成,用于发起并持续执行该基本控制单元编码的元动作;
所述主动停止控制通路由所属基本控制单元的停止神经元、停止动作编码神经元、停止反向抑制神经元、停止中继神经元、启动反向抑制神经元及其之间的联接组成,用于抑制及停止该基本控制单元编码的元动作;
所述自动启动控制通路由自动决策模块的自动启动信号输出端、所属基本控制单元的启动反向抑制神经元及其之间的联接组成,用于发起并执行自动选择的元动作;
所述自动停止控制通路由自动决策模块的自动停止信号输出端、所属基本控制单元的停止反向抑制神经元及其之间的联接组成,用于抑制及停止自动选择的元动作;
所述竞争选择控制通路由所属基本控制单元的启动神经元、停止中继神经元、若干相竞争的基本控制单元的启动反向抑制神经元及其之间的联接组成,用于在多个备选的元动作间通过相互竞争来筛选出优胜的元动作执行。
18.根据权利要求1或11或12或16所述的一种类脑决策与运动控制***,其特征在于,所述复合控制模块支持3种工作模式:主动监督模式、自动模式、反馈驱动模式;
所述主动监督模式用于由主动决策模块决定如何执行动作序列并提供示教,使复合控制模块学习新动作序列或更新调整既有动作序列;在主动监督模式下,动作序列的依序执行主要由主动决策模块驱动,即由主动决策模块给出动作序列中每个时刻应该执行或停止哪个元动作以及每个元动作的强度,并将主动启动信号和主动停止信号分别输入给对应基本控制单元的启动神经元和停止神经元;
所述自动模式用于在没有或少量主动决策模块的干预下,或由自动决策模块提供初始元动作,复合控制模块自动完成动作序列的依序执行;在自动模式下,动作序列的依序执行主要由多个基本控制单元的运动编码层神经元互相之间的联接驱动;主动决策模块或自动决策模块只需提供动作序列中某个元动作作为起始,并通过主动启动控制通路或自动启动控制通路提供起始信号,动作序列的余下部分即可自动依序执行,直至动作序列结束;
所述反馈驱动模式用于通过反馈来调整动作,使***自动适应外部环境;在反馈驱动模式下,动作或动作序列的执行还受反馈信号驱动;评价模块将反馈信号输入至复合控制模块的运动编码层神经元,当***收到奖励,反馈信号使启动动作编码神经元得到一个兴奋性输入偏置量,并使停止动作编码神经元得到一个抑制性输入偏置量,从而使动作更易于发生,或使当前动作的幅度、力量更大,持续时间更长;当***收到惩罚,反馈信号使启动动作编码神经元得到一个抑制性输入偏置量,并使停止动作编码神经元得到一个兴奋性输入偏置量,从而使动作更不易发生,或使当前动作的幅度、力量减小,甚至提前结束;
所述3种工作模式各自独立工作或联合工作。
19.根据权利要求12所述的一种类脑决策与运动控制***,其特征在于,所述主动控制层神经元与运动编码层神经元的数量比例关系配置为1:N,N为大于等于1的有理数;每个主动控制层神经元配置为联接到1至多个运动编码层神经元;各个联接的突触可塑性使该联接根据上、下游神经元的发放情况产生不一样的突触权重,使运动编码层神经元与各个元动作自动对应起来,实现神经元群体编码。
20.根据权利要求12所述的一种类脑决策与运动控制***,其特征在于,所述主动控制层神经元与运动编码层神经元之间的突触联接可塑性受到评价模块传来的预期误差值信号的调制;
所述调制的过程包括:
1)当预期误差值为正值时,启动神经元联接到启动动作编码神经元的突触,其长时程增强作用与预期误差值成正相关,而其长时程抑制作用与预期误差值成负相关;停止神经元联接到停止动作编码神经元的突触,其长时程增强作用与预期误差值成负相关,而其长时程抑制作用与预期误差值成正相关;
2)当预期误差值为负值时,启动神经元联接到启动动作编码神经元的突触,其长时程增强作用与预期误差值的绝对值成负相关,而其长时程抑制作用与预期误差值的绝对值成正相关;停止神经元联接到停止动作编码神经元的突触,其长时程增强作用与预期误差值的绝对值成正相关,而其长时程抑制作用与预期误差值的绝对值成负相关;
3)当预期误差值为零时,主动控制层神经元与运动编码层神经元之间的突触联接可塑性维持在最低水平,使复合控制模块在反复执行或预演既有动作序列时缓慢巩固联接关系,防止既有动作序列变形或过快遗忘。
21.根据权利要求11所述的一种类脑决策与运动控制***,其特征在于,所述各个基本控制单元的启动动作编码神经元互相之间的抑制性联接采用反赫布非对称延迟突触可塑性机制进行训练;
所述反赫布非对称延迟突触可塑性机制的工作过程包括:
1)每个突触具有一个长时程抑制累积势能和一个长时程增强累积势能,并初始化为零;
2)当某个神经元激发时,如果在其后足够短的时间窗口内其下游神经元也激发了,则二者之间的突触的长时程抑制累积势能增加且增加量与二者脉冲发放时间间隔成负相关,否则长时程增强累积势能的绝对值增加一个默认常量;
3)长时程抑制累积势能和长时程增强累积势能分别随着时间流逝逐渐衰减直至归零;
4)当预期误差值为正值时,将各个突触的长时程抑制累积势能与长时程增强累积势能加权并乘以预期误差值,再叠加到突触权重,然后将长时程抑制累积势能和长时程增强累积势能都归零;
5)当预期误差值为负值时,将各个突触的长时程抑制累积势能与长时程增强累积势能加权并乘以预期误差值的绝对值,再叠加到突触权重,然后将长时程抑制累积势能和长时程增强累积势能都归零;
所述工作过程中的第1)项在***初始化时进行;
所述工作过程的第2)至5)项按照任意次序组合进行并可重复进行。
22.根据权利要求12所述的一种类脑决策与运动控制***,其特征在于,所述中继层神经元与主动控制层神经元的数量比例关系配置为1:N,N为正有理数,并且每个中继层神经元配置为联接到1至多个主动控制层神经元,各个联接的突触可塑性使该联接根据上、下游神经元的发放情况产生不一样的突触权重,使中继层神经元与各个元动作自动对应起来,实现神经元群体编码。
CN201910738132.7A 2019-08-12 2019-08-12 一种类脑决策与运动控制*** Active CN110427536B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201910738132.7A CN110427536B (zh) 2019-08-12 2019-08-12 一种类脑决策与运动控制***
PCT/CN2020/108678 WO2021027845A1 (zh) 2019-08-12 2020-08-12 一种类脑决策与运动控制***
GB2203448.2A GB2605018A (en) 2019-08-12 2020-08-12 Brain-like decision and motion control system
JP2022508557A JP7443492B2 (ja) 2019-08-12 2020-08-12 脳型知能意思決定と運動制御システム
KR1020227003707A KR20220029731A (ko) 2019-08-12 2020-08-12 두뇌를 모방한 의사결정 및 모션 제어 시스템
EP20852537.8A EP4016334A4 (en) 2019-08-12 2020-08-12 BRAIN-TYPE MOTION CONTROL AND DECISION SYSTEM
US17/670,443 US20220161421A1 (en) 2019-08-12 2022-02-12 Brain-like decision-making and motion control system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910738132.7A CN110427536B (zh) 2019-08-12 2019-08-12 一种类脑决策与运动控制***

Publications (2)

Publication Number Publication Date
CN110427536A CN110427536A (zh) 2019-11-08
CN110427536B true CN110427536B (zh) 2022-03-04

Family

ID=68413915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910738132.7A Active CN110427536B (zh) 2019-08-12 2019-08-12 一种类脑决策与运动控制***

Country Status (7)

Country Link
US (1) US20220161421A1 (zh)
EP (1) EP4016334A4 (zh)
JP (1) JP7443492B2 (zh)
KR (1) KR20220029731A (zh)
CN (1) CN110427536B (zh)
GB (1) GB2605018A (zh)
WO (1) WO2021027845A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427536B (zh) * 2019-08-12 2022-03-04 深圳忆海原识科技有限公司 一种类脑决策与运动控制***
CN111267099B (zh) * 2020-02-24 2023-02-28 东南大学 基于虚拟现实的陪护机器控制***
CN113688981B (zh) * 2020-05-19 2024-06-18 深圳忆海原识科技有限公司 具有记忆与信息抽象功能的类脑神经网络
CN113311789A (zh) * 2021-04-25 2021-08-27 北京工业大学 一种基于5g和类脑脉冲神经网络模型的仓储机器人的控制方法
CN217597113U (zh) * 2021-07-19 2022-10-18 深圳忆海原识科技有限公司 一种用于隧洞或矿道的灵巧操作机器人
CN114116596A (zh) * 2022-01-26 2022-03-01 之江实验室 面向片上神经网络的基于动态中继的无限路由方法和架构
CN116151359B (zh) * 2022-11-29 2023-09-29 哈尔滨理工大学 一种基于深度神经网络的六足机器人驾驶员决策模型分层训练方法
CN116214527B (zh) * 2023-05-09 2023-08-11 南京泛美利机器人科技有限公司 一种增强人机协作适应性的三体协同智能决策方法和***
CN116922397B (zh) * 2023-09-13 2023-11-28 成都明途科技有限公司 机器人智能水平的测量方法、装置、机器人及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105431851A (zh) * 2013-07-31 2016-03-23 皇家飞利浦有限公司 用于定制患者护理的健康护理决策支持***
CN107924484A (zh) * 2015-07-23 2018-04-17 丰田汽车欧洲股份有限公司 用于在环境背景下模拟类人控制行为的***和基于计算机的方法
CN108289873A (zh) * 2015-12-04 2018-07-17 雀巢产品技术援助有限公司 用于改善认知的方法
CN108932840A (zh) * 2018-07-17 2018-12-04 北京理工大学 基于强化学习的无人驾驶车辆城市交叉口通行方法
CN109726804A (zh) * 2019-01-25 2019-05-07 江苏大学 一种基于行车预测场和bp神经网络的智能车辆驾驶行为拟人化决策方法
CN109817329A (zh) * 2019-01-21 2019-05-28 暗物智能科技(广州)有限公司 一种医疗问诊对话***以及应用于该***的强化学习方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8924021B2 (en) * 2006-04-27 2014-12-30 Honda Motor Co., Ltd. Control of robots from human motion descriptors
US20130290234A1 (en) * 2012-02-02 2013-10-31 Visa International Service Association Intelligent Consumer Service Terminal Apparatuses, Methods and Systems
CN102914967B (zh) * 2012-09-21 2015-01-28 浙江工业大学 采摘机器人的自主导航和人机协同采摘作业***
US20150298315A1 (en) * 2013-11-21 2015-10-22 Origami Robotics, Inc. Methods and systems to facilitate child development through therapeutic robotics
US9802309B2 (en) * 2014-07-24 2017-10-31 X Development Llc Methods and systems for generating instructions for a robotic system to carry out a task
CN106027300B (zh) * 2016-05-23 2019-03-05 深圳市飞仙智能科技有限公司 一种应用神经网络的智能机器人参数优化***及方法
CN109693234B (zh) * 2017-10-20 2021-08-27 深圳市优必选科技有限公司 机器人跌倒预测方法、装置、终端设备及计算机存储介质
CN108062108A (zh) * 2017-12-11 2018-05-22 郑宏远 一种基于机载计算机的智能多旋翼无人机及其实现方法
CN108568819A (zh) * 2018-04-20 2018-09-25 郑州科技学院 一种基于人工智能的智能机器人自主控制方法
CN109227543B (zh) * 2018-10-19 2020-07-28 华南理工大学 一种位置受限柔性关节机器人基于模式的智能控制方法
CN109407518B (zh) * 2018-12-20 2019-06-25 山东大学 家庭服务机器人运行状态自主认知方法及***
CN109630154B (zh) * 2019-01-24 2023-08-25 华能西藏雅鲁藏布江水电开发投资有限公司 一种用于隧道掘进的掘进机器人及远程移动终端指挥***
CN109799727B (zh) * 2019-03-20 2024-04-05 北京理工大学 一种远程控制窗帘及窗户的智能家居***
CN110000781B (zh) * 2019-03-29 2021-06-08 郑州大学 基于发育网络的移动机器人运动方向预先决策方法
CN110013312A (zh) * 2019-04-10 2019-07-16 东北大学 基于深度强化学习的机器人穿刺路径自主选取方法
CN110037696A (zh) * 2019-04-24 2019-07-23 广州贝方医疗设备有限公司 基于眼电开关的脑电生物反馈***
CN110427536B (zh) * 2019-08-12 2022-03-04 深圳忆海原识科技有限公司 一种类脑决策与运动控制***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105431851A (zh) * 2013-07-31 2016-03-23 皇家飞利浦有限公司 用于定制患者护理的健康护理决策支持***
CN107924484A (zh) * 2015-07-23 2018-04-17 丰田汽车欧洲股份有限公司 用于在环境背景下模拟类人控制行为的***和基于计算机的方法
CN108289873A (zh) * 2015-12-04 2018-07-17 雀巢产品技术援助有限公司 用于改善认知的方法
CN108932840A (zh) * 2018-07-17 2018-12-04 北京理工大学 基于强化学习的无人驾驶车辆城市交叉口通行方法
CN109817329A (zh) * 2019-01-21 2019-05-28 暗物智能科技(广州)有限公司 一种医疗问诊对话***以及应用于该***的强化学习方法
CN109726804A (zh) * 2019-01-25 2019-05-07 江苏大学 一种基于行车预测场和bp神经网络的智能车辆驾驶行为拟人化决策方法

Also Published As

Publication number Publication date
GB202203448D0 (en) 2022-04-27
WO2021027845A1 (zh) 2021-02-18
JP2022542716A (ja) 2022-10-06
GB2605018A (en) 2022-09-21
JP7443492B2 (ja) 2024-03-05
EP4016334A4 (en) 2023-03-08
EP4016334A1 (en) 2022-06-22
US20220161421A1 (en) 2022-05-26
CN110427536A (zh) 2019-11-08
KR20220029731A (ko) 2022-03-08

Similar Documents

Publication Publication Date Title
CN110427536B (zh) 一种类脑决策与运动控制***
Hagras et al. Evolving spiking neural network controllers for autonomous robots
Riedmiller et al. Learning to drive a real car in 20 minutes
WO2002066211A1 (fr) Procede de commande de fonctionnement, programme, et support d'enregistrement pour dispositif robotise, et dispositif robotise correspondant
Nicolis et al. Human intention estimation based on neural networks for enhanced collaboration with robots
CN111783994A (zh) 强化学习的训练方法和装置
TWI835638B (zh) 於非對稱策略架構下以階層式強化學習訓練主策略的方法
EP2898996A1 (en) Method of controlling a robotic system and a robotic system controller for implementing this method
Nehmzow Flexible control of mobile robots through autonomous competence acquisition
Saito et al. Learning architecture for real robotic systems-extension of connectionist Q-learning for continuous robot control domain
CN115994563A (zh) 用于智能辅助驾驶的类脑情境学习模型构建与训练方法
Scardua et al. Optimal control of ship unloaders using reinforcement learning
Yang et al. Least mean p-power extreme learning machine for obstacle avoidance of a mobile robot
Clark et al. Robotic system sensitivity to neural network learning rate: theory, simulation, and experiments
Jayawardena et al. Probabilistic neural network based learning from fuzzy voice commands for controlling a robot
Liu et al. Fuzzy controlled hopping in a biped robot
Minatohara et al. Self-organizing adaptive controllers: Application to the inverted pendulum
Riedmiller et al. Using neural reinforcement controllers in robotics
Riedmiller Application of sequential reinforcement learning to control dynamic systems
Kang et al. Learning deterministic spiking neuron feedback controllers
Wischmann et al. (Co) evolution of (de) centralized neural control for a gravitationally driven machine
CN114386605A (zh) 一种结合无监督和监督学习的液体状态机在线学习方法
Li et al. An actor-critic reinforcement learning algorithm based on adaptive RBF network
Huemer et al. A reward-value based constructive method for the autonomous creation of machine controllers
ZHOU et al. Intelligent robotic control using reinforcement learning agents with fuzzy evaluative feedback

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant