CN107063260A

CN107063260A - 一种基于鼠脑海马结构认知地图的仿生导航方法

Info

Publication number: CN107063260A
Application number: CN201710180995.8A
Authority: CN
Inventors: 于乃功; 方略; 罗子维; 苑云鹤; 蒋晓军; 翟羽佳
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-03-24
Filing date: 2017-03-24
Publication date: 2017-08-18
Anticipated expiration: 2037-03-24
Also published as: CN107063260B

Abstract

本发明一种基于鼠脑海马结构认知地图的仿生导航方法，属于仿生学技术领域。首先基于条纹细胞构建网格细胞网格野模型、其次基于网格细胞构建单一位置细胞位置野模型，最后构建大鼠脑内“认知地图”。在所构建认知地图的基础上，构建一个包含有输入层、位置细胞层、动作细胞层和输出层的前馈神经网络模型，并且采用Q学习算法来实现大鼠面向空间环境某一目标导航任务。本发明方法可广泛应用到仿生机器人导航、人工智能等诸多领域。

Description

一种基于鼠脑海马结构认知地图的仿生导航方法

技术领域

本发明涉及一种基于鼠脑海马结构认知地图的仿生导航方法，属于仿生学技术领域。

背景技术

自主定位和面向所处空间环境某一目标导航能力对于动物和自主移动机器人至关重要。尽管机器人能通过特定的传感器或环境中的一些先验信息来确定其当前所处空间位置信息，但是在没有任何先验知识的情况下，动物和人类通过来自于感官的不完整空间信息总可以迅速地定位自己当前所处位置信息。随着大鼠脑中与环境认知相关条纹细胞、网格细胞、位置细胞的陆续发现，对深入理解动物和人类迅速在所处空间环境中的自我定位过程提供了可能性。

1948年Tolman所做的的三通路导航实验说明大鼠能通过内在的“认知地图”进行导航，该认知地图即为大鼠脑内对其所处空间环境的全局表达。“认知地图”在大鼠空间导航中扮演着至关重要的作用。因此，“认知地图”如何形成、基于“认知地图”如何进行空间导航仍是一个重要的实验和理论问题。

1971年，O'keefe和Dostrovesky在大鼠海马结构海马区首次发现具有空间定位活动的位置细胞神经元。大鼠在二维空间活动时，当其经过环境中某一特定狭小区域时，对应位置细胞就会放电，单个位置细胞对应有单一位置细胞激活域，将此区域称之为位置细胞位置野。随着进一步的研究，位置细胞单一位置野被证实是“认知地图”的基本组成单位，单一位置细胞位置野与大鼠所处空间位置有着准确的对应关系，多个位置细胞联合编码大鼠所处环境，在大鼠脑内形成“认知地图”。2005年，Hafting等人于大鼠内嗅皮层中发现了另外一种具有强烈空间放电特性的网格细胞神经元，该神经元会呈现出对空间中某一特定区域发生重复性规律放电的特性，此区域被称之为网格细胞网格野。与位置细胞不同的是，网格细胞能在多个位置放电，多个网格细胞网格野相互交叠成一个个网格节点，连接网格节点所形成的正三角形遍及大鼠所处的整个空间环境。海马结构信息通路表明内嗅皮层到海马区纤维投射表明了内嗅皮层是海马结构中海马区的主要输入来源，即网格细胞作为输入得到海马区单一位置细胞位置野。2012年Krupic等于在傍下托和内嗅皮层浅皮层的细胞放电采样显示，存在着周期性条纹细胞放电野细胞，被称为条纹细胞，条纹细胞主要是通过整合大鼠自运动信息(速度和方向信息)来得到条纹细胞放电特征，即条纹细胞条纹波。傅里叶分析表明，多个条纹细胞相互作用能形成周期性的网格细胞网格野。

单一位置细胞位置野是“认知地图”的基本构成单位，如何得到单一位置细胞位置野是一个重要的理论问题。自从1971年发现位置细胞以来，许多不同位置细胞位置野模型被相继提出，自位置细胞发现以来，许多不同的位置细胞位置野模型被相继提出，其中包括有高斯函数模型，竞争学习模型，独立成分分析模型，自组织映射模型和卡尔曼滤波模型等。但是以上模型存在的问题是它们都只是针对位置细胞单独进行建模，并没有将与之有信息关联的条纹细胞、网格细胞考虑在内。

当大鼠进入到某一空间环境时，随着大鼠自由活动，位置细胞“位置野”迅速生成并覆盖大鼠所处整个空间环境。即随着大鼠对环境的不断探索，位置细胞“位置野”形成了表征大鼠所处空间环境的认知地图。一些实验研究已经对啮齿类动物面向目标导航学习进行了相关研究，基于海马“认知地图”的面向目标导航主要是通过强化学习来完成的，生物学研究发现，仅凭认知地图(位置细胞放电活动)并不能够正确预测大鼠未来运动方向，大脑腹侧被盖区(ventral tegmental area,VTA)主要是与奖励预测误差信号相关的多巴胺能神经元(dopaminergic neurons),多巴胺能神经元神经元将信息进投射至伏隔核(nucleus accumbens,NA),伏隔核输入主要来自于海马,前额叶皮层和伏隔核之间存在有双向纤维投射。即伏隔核从海马接收大鼠所处空间环境信息,从大脑腹侧被盖区接收相关奖励预测误差信息,并且与前额叶皮层相互作用来正确预测大鼠未来运动方向。大脑前额叶皮层中主要是与运动相关的神经元-动作细胞。而海马中主要是位置细胞。基于以上生物学相关关发现，大鼠面向目标的导航任务神经基础可能是海马位置细胞与伏隔核神经元之间与奖励信号相关的突触调节,伏隔核进一步将信息投射至大鼠前额叶皮层来实现大鼠正确预测未来运动方向。在连续状态空间和动作空间之间通过强化学习来实现大鼠面向目标导航任务，此处的连续状态空间指的是位置细胞放电活动，即大鼠脑内“认知地图”。基于此，构建一个包含有输入层、位置细胞层、动作细胞层和输出层的前馈神经网络模型，采用Q学习算法来实现大鼠面向目标导航任务。

发明内容

综合以上论述，本发明的目的首先是基于条纹细胞、网格细胞、位置细胞构建大鼠脑“认知地图”。其次是在认知地图基础上，构建一个包含有输入层、位置细胞层、动作细胞层和输出层的前馈神经网络模型，采用Q学习算法来实现大鼠面向目标导航任务。

为实现上述目的，本发明采用的技术方案为一种基于鼠脑海马结构认知地图的仿生导航方法，模型整体示意图如图1所示。由模型整体示意图可知，模型由两大模块组成。第一个模块是基于大鼠自运动信息，如何得到大鼠脑内部对于其所处空间环境的表达，即认知地图，其结构示意图如图2所示。第二个模块是在认知地图的基础上，通过Q学习实现大鼠面向空间环境某一目标导航任务，其结构示意图如图3所示。

两个模型采用如下技术方案实现：

S1构建一个虚拟大鼠随机探索二维空间环境并得到其二维空间运动轨迹图，其中大鼠的自运动信息由速度和方向信息构成，以水平轴为参考方向，α_t代表大鼠当前头朝向，v_t代表大鼠当前速度大小。

S2基于大鼠自运动信息即速度和方向信息得到条纹细胞空间表征，即条纹细胞条纹波。条纹细胞放电活动为：

其中，r＝(x,y)代表大鼠当前所处环境位置坐标，k_i代表波矢量，i＝1,2,3，波矢量方向表示的是波等相位行进的方向，大小称之为波数k_i，k_i为：

其中，λcos代表cos波波长。

S3基于条纹细胞空间表征得到网格细胞空间表征，即网格细胞网格野。三个朝向相差60°的条纹细胞叠加得到网格细胞网格野，网格细胞网格野空间表征ψ(r)为：

其中，r＝(x,y)代表大鼠当前所处环境位置坐标。

S4基于网格细胞空间表征得到位置细胞空间表征，即单一位置细胞位置野，位置细胞空间表征P(x,y)为：

其中，W_n代表第n个网格细胞与位置细胞之间的连接权值，gn(x,y)代表第n个网格细胞位于空间环境(x,y)位置点处的激活率，N代表网格细胞数量，N＝4,10,20。

S5大鼠在不断探索环境的过程中，形成在各个位置点的位置细胞放电特征，最终形成大鼠脑内对其所处空间环境的表达，即认知地图。

S6在认知地图基础上，建了一个由输入层、位置细胞、动作细胞和输出层所组成的前馈神经网络模型并通过Q学习算法来实现大鼠面向目标导航任务。

附图说明

图1本发明模型整体示意图。

图2鼠脑海马认知地图构建结构示意图。

图3基于鼠脑海马认知地图与Q学习面向目标导航结构示意图。

图4大鼠空间运动轨迹示意图。

图5于条纹细胞条纹波网格细胞网格野示意图

图6网格细胞网格野间距λ与二维cos波波长λcos之间关系图。

图7网格细胞线性叠加未经Sigmoid函数处理实验结果示意图

图8Sigmoid函数图

图9网格细胞线性叠加经Sigmoid函数处理实验结果示意图

图10认知地图形成过程示意图

图11实验环境示意图

图12前馈神经网络模型示意图.

图13输入层到位置细胞层前馈网络示意图。

图14大鼠空间导航示意图。

图15由输入层(位置细胞)、动作细胞构建的前馈网络模型示意图。

图16大鼠40次运行轨迹实验结果示意图

图17大鼠到达目标位置所需步数示意图

具体实施方式

以下结合附图和实施例对本发明作进一步解释。

S1大鼠自运动信息由头朝向和速度信息构成。以水平轴为参考方向，α_t代表大鼠当前头朝向。v_t代表大鼠当前速度大小。Δt代表时间周期。基于大鼠当前自运动信息和上一时刻大鼠位置信息(x_t-1,y_t-1)来计算大鼠当前位置信息(x_t,y_t)，当前自运动信息指的是头朝向α_t和速度v_t，如式(5)所示。

大鼠起始位置坐标为(x₀,y₀)＝(0,0)，大鼠空间运动轨迹图如图4所示。

S2条纹细胞被发现存在于内嗅皮层第3层中，该细胞在二维空间环境中的放电活动是一簇簇条纹波，条纹细胞整合大鼠自运动信息后将信息传递至内嗅皮层第2层中，其所产生的一簇簇条纹波通过叠加形成具有不同空间位相、定向、间距的网格细胞网格野基于条纹细胞条纹波网格细胞网格野示意图如图5所示。

对于条纹细胞放电活动，用二维cos波来表示，如式(6)所示。

其中，r＝(x,y)代表大鼠当前所处环境位置坐标，波矢量方向表示的是波等相位行进的方向，大小称之为波数k_i，如式(7)所示。

其中，λcos代表cos波波长。

S3生物学研究证实，网格细胞网格野呈正三角形遍布于大鼠所处的整个环境当中。基于此，网格细胞激活率函数可以由三个条纹细胞放电活动叠加来表示，三个条纹细胞波矢量朝向相差60°，如式(8)所示。

如式(8)所示，r＝(0,0)时，Ψ(r)有最大值为1。若选择空间环境中任意一空间位相r0＝(x0,y0)作为网格细胞网格野的某一峰值点，则网格细胞激活率函数转变为如式(9)所示。

ψ(r)＝ψ(r-r₀) (9)

波矢量是波数的函数，网格细胞网格野间距作为表征网格细胞空间放电特征的1个参数。如图6所示，圆圈表示网格细胞网格野节点，横向条纹表示的是条纹细胞二维cos波，网格细胞网格野间距λ与二维cos波的波长λcos之间的关系如式(10)所示。

又由式(7)可知，波数与网格细胞网格野间距λ之间的关系如式(11)所示。

S4为了得到与生物学上发现相一致的正三角形网格细胞网格野，选取波矢量朝向相差60°的三个条纹细胞叠加后得到所需网格细胞网格野。60°,120°,180°，选取k1,k2,k3如式(12)所示。

其中，θ表示网格细胞网格野定向。

由式(8)可知，Ψ(r)取值介于[-1/2，1]之间，为了使网格细胞激活率取值介于0到1之间，网格细胞激活率函数转变如式(13)所示。

将式(8)和式(9)代入式(13)得到网格细胞激活率函数如式(14)所示。

S5生物学研究发现海马结构中内嗅皮层到海马区纤维投射表明了内嗅皮层是海马结构中海马区的主要输入来源。网格细胞和位置细胞均为神经细胞，它们是由细胞体和细胞突起构成，而细胞突起是细胞体自身延伸出来的细长部分，细长部分又分为树突和轴突。每个神经元只有一个轴突，把信号传递到其它组织或另一个神经元，每个神经元有多个树突，接收刺激并将兴奋传入细胞体内，网格细胞与位置细胞之间信息传递亦是如此。即位置细胞从具有不同空间特征的网格细胞接收信息，然后与其相连接网格细胞之间的权值进行加权求和后得到位置细胞放电特征，网格细胞与位置细胞之间的连接权值函数如式(15)所示。

其中，Wn代表第n个网格细胞与位置细胞之间的连接权值，λn代表第n 个网格细胞网格野间距，σ(σ＝8cm)代表位置细胞放电激活域标准差。

S6由式(14)和式(15)可知，位置细胞激活率函数如式(16)所示。

其中，Wn代表第n个网格细胞与位置细胞之间的连接权值，gn(x,y)代表第n个网格细胞位于空间环境(x,y)位置点处的激活率，N代表网格细胞数量，N＝4,10,20。

S7生物学研究发现，单纯的对网格细胞输入和网格细胞与位置细胞之间连接权值进行线性叠加往往得到的输出是具有多个激活域的位置野，其结果示意图如图7所示，这与已有相关研究所证实单一位置细胞对应有单一位置野的结论不一致。本文在网格细胞网格野输入和网格细胞与位置细胞之间连接权值加权求和的基础上，引入Sigmoid函数，Sigmoid函数图如图8所示，对线性叠加后的输出进行处理从而得到与生物学研究发现相一致的单一位置细胞位置野，实现网格细胞到单一位置细胞位置野之间的映射关系，其实验结果示意图如图9所示，经Sigmoid函数处理后的位置细胞激活率如式(17)所示。

P'(x,y)＝1/(1+e^-(P-b)/a) (17)

其中，P代表的是位置细胞激活率，a代表的是Sigmoid函数倾斜系数，b代表的是Sigmoid函数中心。

S8大鼠在不断探索环境的过程中，形成在各个位置点的位置细胞放电特征，最终形成大鼠脑内对其所处空间环境的表达，即认知地图，认知地图形成过程示意图如图10所示。

S9一些实验研究已经对啮齿类动物面向目标导航学习进行了相关研究，基于海马“认知地图”的面向目标导航主要是通过强化学习来完成的，生物学研究发现，仅凭认知地图(位置细胞放电活动)并不能够正确预测大鼠未来运动方向，大脑腹侧被盖区(ventraltegmentalarea,VTA)主要是与奖励预测误差信号相关的多巴胺能神经元(dopaminergicneurons),多巴胺能神经元神经元将信息进投射至伏隔核(nucleusaccumbens,NA)，伏隔核输入主要来自于海马,前额叶皮层和伏隔核之间存在有双向纤维投射。即伏隔核从海马接收大鼠所处空间环境信息,从大脑腹侧被盖区接收相关奖励预测误差信息,并且与前额叶皮层相互作用来正确预测大鼠未来运动方向。大脑前额叶皮层中主要是与运动相关的神经元-动作细胞。而海马中主要是位置细胞。基于以上生物学相关关发现，大鼠面向目标的导航任务神经基础可能是海马位置细胞与伏隔核神经元之间与奖励信号相关的突触调节,伏隔核进一步将信息投射至大鼠前额叶皮层来实现大鼠正确预测未来运动方向。在连续状态空间和动作空间之间通过强化学习来实现大鼠面向目标导航任务，此处的连续状态空间指的是位置细胞放电活动，即大鼠脑内“认知地图”。基于此，构建一个包含有输入层、位置细胞层、动作细胞层和输出层的前馈神经网络模型，采用Q学习算法来实现大鼠面向目标导航任务。

S10实验环境是尺寸为10000×10000个点所构成的一个正方形盒子(如图11所示)。随着大鼠不断探索其所处空间环境，逐步形成空间各个位置点的位置细胞位置野，最终在大鼠脑内形成了对环境的内在地图表征-认知地图。因此在模型中，本文将大鼠所处当前位置点信息(x_t,y_t)作为输入信息。

S11构建了一个由输入层、位置细胞、动作细胞和输出层所组成的前馈神经网络模型来实现大鼠面向目标导航任务，前馈神经网络模型如图12所示。

S12输入层到位置细胞层前馈网络如图13所示。在输入层，输入X：(x_t,y_t)为大鼠当前所处位置输入信息。该前馈网络是一个全连接的网络，输入层的每一个神经元通过连接权重Wⁱ＝[w^i,1,w^i,2···w^i,n]与前馈网络输出层所有神经元依次连接。这里，i＝1…Q，Q＝500是位置细胞总数。权重是由函数f_u进行随机初始化的，函数f_u由以下公式(18)来描述。

公式中，u是来自于服从[0；1]之间均匀分布的一个随机值，v＝0.5和σ＝0.2。利用输入信息和权重来计算位置细胞放电率(见公式(19))，首先随机初始化权值。采用竞争学习算法，位置细胞会被某一个特定的输入所激励，从而使该位置细胞对于空间位置具有选择性。

第i个位置细胞放电率用以下公式(19)来描述：

公式中，σ_f＝0.07定义位置细胞位置野宽度，n是输入信息的空间维数，范数代表的是欧式距离。所构建的前馈神经网络模型中的权值按照胜者为王机制进行调整，也就是说采用竞争学习算法获胜的位置细胞神经元χ_t与输入信息之间的权值会发生改变，其余的不发生改变，获胜位置细胞神经元χ_t用以下公式(20)来描述：

χ_t＝argmin_i||X_t-W_t ⁱ|| (20)

获胜神经元的权值按照以下公式(21)改变：

公式中，0＜α＜＜1代表的是学习效率因子。

S13首先是大鼠当前位置信息作为输入对位置细胞放电活动产生影响，其次是位置细胞与运动神经元相连接通过Q学习产生一定的动作。大鼠通过不断学习学会从任意起始位置到目标位置之间的导航，其空间导航示意如图14所示。使用如图11所示的实验环境，大鼠所处环境的起始位置位于实验环境左下方(如图14中圆点标记所示)。目标点位于实验环境右上方(如图14中正方形所示)。开始时，大鼠随机的探索环境，在随机探索环境的过程中找到目标位置点(随机探索路径如图14中虚线所示)，而当大鼠经过一段时间学习后，它就能够很快找到从起始位置到目标位置的最短路径。在实验过程中，每当大鼠找到目标位置点后，将大鼠重新放置在起始位置重新开始新一轮的实验。在构建的模型中，在大多数情况下(80％)，大鼠在首次实验中都能够在200步内找到目标位置点，也就是说即使大鼠是首次随机探索本文中实验环境时，200步足以使大鼠找到目标位置点。

S14基于海马导航研究所常用的是强化学***方向上大鼠向西向东的运动由以下公式(22)和(23)来描述：

Δx＝±(Δs+c·ψ_x) (22)

Δy＝c·ψ_y (23)

公式中，Δs＝500代表的是大鼠每步步幅大小，ψ_x和ψ_y来自于服从[-1；1]均匀分布的随机值，c＝100是噪声幅值。负号表示大鼠向西运动，正号表示大鼠向东运动。同样的，对于西南和东北方向上大鼠的运动用以下公式(24)和(25)来描述：

S15大鼠运动到当前位置计算所得Q值为0时，大鼠在当前位置不再仅限于(北(N)，东北(NE)，东(E)，东南(SE)，南(S)，西南(SE)，西(W)，西北(NW))8个方向，而是进行随机探索运动，运动方向不确定。不过在这种情况下，大鼠保持方向不变的可能性为1-p_k，而它随机选择一个新方向的概率为p_k＝0.25。当Q值不为0时，随着大鼠对于环境的不断探索，大多数时间大鼠都会根据Q值来确定当前位置下一时刻的运动方向。从位置细胞到动作细胞的学习机制是Q学习算法。为了简便起见，将t时刻第i个位置细胞放电率用以下公式(26)来描述：

公式中，i＝1…Q，Q＝500是位置细胞总数。

S16通过以下公式(27)来定义动作值函数：

公式中，Γ_i,a代表的是第i个位置细胞与运动神经元a之间的连接权值。根据Reynolds所提及的使用平均Q学习规则。也就是按照以下公式(28)来更新在时刻t真正产生动作a_t的权值

公式中，β＝0.7代表的是学习率，δ＝0.7代表的是折减系数，R代表的是奖励。将奖励函数R_t用以下函数(29)来描述：

本发明主要是基于条纹细胞、网格细胞、位置细胞构建大鼠脑“认知地图”。在认知地图基础上，构建一个包含有输入层、位置细胞层、动作细胞层和输出层的前馈神经网络模型，采用Q学习算法来实现大鼠面向目标导航任务。大鼠40次运行轨迹实验结果和大鼠到达目标位置所需步数示意图分别如图17所示。

Claims

1.一种基于鼠脑海马结构认知地图的仿生导航方法，该方法的模型由两大模块组成；第一个模块是基于大鼠自运动信息，如何得到大鼠脑内部对于其所处空间环境的表达，即认知地图；第二个模块是在认知地图的基础上，通过Q学习实现大鼠面向空间环境某一目标导航任务；

两个模型采用如下技术方案实现：

S1构建一个虚拟大鼠随机探索二维空间环境并得到其二维空间运动轨迹图，其中大鼠的自运动信息由速度和方向信息构成，以水平轴为参考方向，α_t代表大鼠当前头朝向，v_t代表大鼠当前速度大小；

S2基于大鼠自运动信息即速度和方向信息得到条纹细胞空间表征，即条纹细胞条纹波；条纹细胞放电活动为：

<mrow> <msub> <mi>k</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mn>2</mn> <mi>&pi;</mi> </mrow> <msub> <mi>&lambda;</mi> <mi>cos</mi> </msub> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

其中，λcos代表cos波波长；

S3基于条纹细胞空间表征得到网格细胞空间表征，即网格细胞网格野；三个朝向相差60°的条纹细胞叠加得到网格细胞网格野，网格细胞网格野空间表征ψ(r)为：

其中，r＝(x,y)代表大鼠当前所处环境位置坐标；

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mn>1</mn> <mi>N</mi> </munderover> <msub> <mi>W</mi> <mi>n</mi> </msub> <msub> <mi>g</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

其中，W_n代表第n个网格细胞与位置细胞之间的连接权值，g_n(x,y)代表第n个网格细胞位于空间环境(x,y)位置点处的激活率，N代表网格细胞数量，N＝4,10,20；

S5大鼠在不断探索环境的过程中，形成在各个位置点的位置细胞放电特征，最终形成大鼠脑内对其所处空间环境的表达，即认知地图；