CN1588442A - 基于视皮层功能柱的特征识别网络设计与实现方法 - Google Patents
基于视皮层功能柱的特征识别网络设计与实现方法 Download PDFInfo
- Publication number
- CN1588442A CN1588442A CN 200410054194 CN200410054194A CN1588442A CN 1588442 A CN1588442 A CN 1588442A CN 200410054194 CN200410054194 CN 200410054194 CN 200410054194 A CN200410054194 A CN 200410054194A CN 1588442 A CN1588442 A CN 1588442A
- Authority
- CN
- China
- Prior art keywords
- sigma
- alpha
- partiald
- centerdot
- sam
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Complex Calculations (AREA)
Abstract
本发明为一种基于视皮层功能柱型结构对来自视网膜信号进行处理的层次结构,而设计的多层网络模拟与实现方法。其基本思想是:用并行分布式处理的结构和数学逼近工具模拟高等生物视皮层中的简单细胞、复杂细胞、超柱和TE柱的结构与功能,设计对图像信息进行特征响应与提取的加工流程与效仿视网膜多层信号处理方式的层次网络结构,设计拟神经节计算单元在传感器层上的感受野分布,设计简单细胞和复杂细胞局部采集信息、逐级的计算的机理,并以此为单元来搭建模拟超柱结构与TE柱结构的功能组件,为实现知觉和知觉不变性提供基础。
Description
技术领域
本发明属于计算机视觉、并行分布式处理和认知模型技术领域,具体涉及一种以高等哺乳动物视皮层中功能柱型结构为基础设计的对视图像信息进行等级处理,以获取几何特征和建立表征的层次网络计算模型,它为作为心理机能的感知行为提供了一种计算解释,并能有效地达到知觉不变性的要求,以及为知觉信息表达和用作人工智能直接表达做出范例。
背景技术
贯穿于整个视觉***的感受野和侧抑制机制具有非常重要的计算意义。视觉***在处理图像信息时采用的基本方式之一是通过不同形式的感受野逐级进行抽提,也就是在每一级抛弃一些不太重要的信息,抽提更有用的信息。对于大多数初级皮层细胞,最佳刺激是具有特殊朝向的光带或暗带,按其感受野的特征可分为简单细胞和复杂细胞。简而言之前者所提取的是关于在感受野中某一特定位置的类似于线段刺激的信息,而抛弃了线段中哪一点的对比是多少的信息。最佳朝向是任意的,也即各种有不同最佳朝向的细胞数大致相当,且分布有规律。后者的信号意义是关于朝向的抽象概念,而不问其位置在哪里。具有相似特征(复杂程度、感受野位置、朝向和眼优势)的细胞在视皮层中有规则地成群聚集在一起。视皮层的相邻细胞总是具有彼此紧靠的感受野,有时甚至是重叠的。经过大量的微电极探测结果,人们惊奇地发现相继的最佳朝向存在着惊人的有序性,并非杂乱无章。神经生理学家发现了视皮层的基本单位--超柱(hypercolumn):皮层的基本部件是约1mm见方、2mm深的小块,它包含一组对所有朝向(360°)有反应的朝向片(orientation column)和一组左右眼的眼优势(ocular dominance)柱,这个基本单位被称为超柱。视皮层以这样一种方式组织起来的意义还不十分清楚,一种较易接受的看法是:这种柱型结构为解决在二维空间上描绘二维以上的景物问题提供了一种方法。视皮层至少要处理四组参数:两组是视野中X和Y位置的变量,另一组是朝向,最后一组是不同程度的眼优势。视皮层表面的两组坐标用于标明视野中X、Y的位置,而两组柱型结构则能很快地处理另外两组变量:一整套朝向和眼优势[1]。上图是超柱结构,取自文献[1],从中可见一个超柱中多个朝向柱的排列。
颞下皮层区(TE区域)是指腹侧视觉皮层路径上的最终部分,它被认为是对物体的视觉识别过程中一个不可或缺的实质加工单位。通过实验[2]神经生理学家们认为TE区域至少对视觉识别物体的灵活性而言是极为重要的,可能是决定性的。TE区的神经元具有很大面积、且相互交叉重叠的感受野,它们中的绝大多数能覆盖整个视凹点,而视凹点是视锥分布最为密集,达15万个/平方毫米,是视分辨率最高的地方。TE区域神经元的一个重要特点是:只有中等复杂程度的特征(moderately complex feature)才能使它们有显著的响应,且对响应的特征有很强的选择性,即存在所谓与神经元相对应的优势特征。另外皮层中位置靠在一起的神经元具有类似的选择性。由此可见:TE区域是由许多柱形模块(TE柱)单元构造起来的,每个柱形构件是由许多响应类似但不完全相同的特征的神经元族聚而成。因此,在TE中实现了两件事:一是将相近的神经元组织在同一个局部柱型结构中;另一是对落于同一感受野内的刺激的位置有了响应的不变性。另外,TE区域也是由多层神经元叠合在一起的神经组织,从其中不同细胞所占的比重来看,由V2层到TE层简单细胞的比例递降、复杂细胞的比例递增。那么由这两种细胞的特征提取功能,以及在TE区中未发现象视网膜拓扑的组织构成,说明从TE下层(TEO)传递到TE层的联接是定义在特征空间上的,而不是定义在拓扑空间上的。由此,我们在模式识别上可以得到这样一个假设:相对复杂特征和不变性是在由定义在由简单特征构成的特征空间上计算得到的。研究发现:相邻的柱形结构对特征的选择性响应具有重叠性和连续性,多个响应不同但相近特征的柱型结构相互紧密联接,作为整体组成一个更大规模的单元,且这些大规模单元所响应的特征的组织是呈现一定规律的。重要的一点就是:某些复杂特征空间是被连续映射的。并且通过对TE的前区域(TEO & V4)的研究发现,它们是由响应多种不同层次的选择性的众多细胞混合构成:靠近V1的区域含有更多的简单细胞,它们响应简单特征;靠近TE的区域含有更多的复杂细胞,它们响应复杂特征。一级一级响应的层次型网络的输入输出彼此衔接,任何一级特征的神经计算都是通过局部网络来进行的,换句话说,就是简单特征的抽取结果输出是复杂特征计算的输入。这种层次性和组合性给基于特征说的模式识别模型、面向结构模拟的设计以强烈的暗示,并为对特征空间的形式化符号同态计算提供了依据[3]。
从这一皮层区有规律的柱型结构的有序组织来看,至少有两点可以肯定的就是:第一,TE柱所响应的特征不是复杂度高的特征,是被组合起来的;第二,对于复杂特征的响应不是由单细胞来完成的,而是由许多位于皮层不同位置的众细胞响应复合的结果。同一柱型结构中的感受野彼此衔接覆盖、对有效刺激的选择性循一定的拓扑方向依次发生微小的变化,即选择性是有重叠部分的。这些生理和心理特点,在视觉识别的功能上满足了两个表面上显得相互矛盾的要求:一是对输入图像微小变化的鲁棒性,一是对响应表达的准确性。对于由于照明、视角、姿态等不同而导致投影在视网膜上物像的“小”变化,TE柱的终极输出将仅有微小的变化,也就是说它能实现一定程度上的不变性。通过具有重叠选择性的多个神经元来表达知觉比单细胞响应假设准确[4]。
视觉计算理论的先驱Marr自己也承认此理论的完善需要认知科学的帮助。但视觉的计算理论将视觉过程分别用“广义图像表示、分割图像表示、几何表示、关系表示”这四个不同的信息表达方式来描述视图像信息处理不同阶段的结果[5],初步考虑了认知心理过程[6]。在生物视觉***中,其计算结构是通过感受野、侧抑制、神经网络的等级平行结构等重要机制构建起来的[7]。我们可以设计基于这种平行等级结构的计算机视觉模型。对比计算视觉和生物视觉的不同模型,虽然从将视信息的细节数据上升到抽象的表示这样一个转化和再组织过程来看,生物视觉过程在“从信号到符号”这样一个范型的高度上和经典的计算机视觉过程基本相似,但两者所使用的计算结构完全不同,前者具有极佳的实时性、灵活性和适应性等。通过对人视觉的研究,借助于神经生理和认知心理理论,完全可能找到一些新的突破点,而这些研究成果将有助于为计算视觉理论提供新的原型,以解决计算机视觉遇到的困难[8,9]。
本项发明的主要贡献在于基于生物视皮层功能柱型结构的组成、分布与功能特点[10,11,12],设计具有抽取视图像中最基本的微小特征能力的局域网络,并搭建一个并行分布式模型来实现感知能力。这种等级组构设计为许多心理现象提供了生理解释,这不仅对模式识别、计算机视觉有重要的价值,而且对人工智能***的知识获取和知识表示都具有非常重要的意义。
参考文献
1.韩济生主编,神经科学纲要,北京:北京医科大学、协和医科大学联合出版社,1993,495-504
2.Keiji Tanaka,Representation of visual features of objects in theinterotemportal cortex,Neural Network,Vol.9(8),1996,1459-1475
3.危辉、何新贵,视知觉下颞叶皮层区功能柱结构的多变元有理平方逼近模拟,模式识别与人工智能,Vol.11(2),1998,125-131
4.危辉、何新贵,基于视中枢神经机制的层次网络计算模型,计算机学报,Vol.23(6),2000,620-628
5.Ballard D.H.& Brown C.M.,Computer vision,Prentice-Hall Inc.,1982
6.David G.Myers,Psychology (3rd edition),Worth Publishers,1992,61-93
7.Gupta Madan M.& Knopf George K.(editors),Neuro-Vision systems:principlesand applications,IEEE Press,1994,4
8.赵南元,认知科学与广义进化论,北京:清华大学出版社,1994,1-40
9.Cohen Paul R.& Feigenbaum Edward A.,The handbook of artificial intelligencevolume III,William Kaufmann Inc.,1983,129-130
10.寿天德,视觉信息处理的脑机制,上海:上海科技教育出版社,1997,75-80
11.James W.Kalat,Biological Psychology(4th edition),Belmont California:Wadsworth Publishing Company,1992,262
12.杨雄里著,视觉的神经机制,上海:上海科学技术出版社,1996,215-267
13.何新贵、曾抗生,有理平方逼近的计算方法I:一些理论问题,应用数学与计算数学,Vol.3(1),1966
14.何新贵、曾抗生,有理平方逼近的计算方法II:计算方法,应用数学与计算数学,Vol.3(2),1966
发明内容
本发明的目标在于提出一种,建立于神经生理学和生理心理学理论基础上的,能对认知活动中的感知行为进行解释的并行分布式模型,通过人工神经元网络工具和数学逼近工具,模拟高等哺乳动物视皮层中简单细胞、复杂细胞、超柱结构和TE功能柱型结构的构成和功能,建立能够完成知觉信息处理和表征的设计和方法。
本发明通过构造一个金字塔状的神经网络层次模型,模拟视皮层中的简单细胞与复杂细胞的机能,以及功能柱型结构的功能和连接,对模拟视网膜的输入点阵信息进行逐级加工。模型的低层对朝向、长度、位置等基本特征进行选择,模型的高层实现特征的组合和响应的不变性。该设计基于这样的思想,即在高等哺乳动物的视皮层区中,有许多非常规整的柱形功能结构,它们形成的局域网络具有抽取视图像中最基本的特征的计算能力,相邻视神经细胞间的侧抑制机制和神经细胞的感受野为实现这样的并行计算能力提供了保证,并且视皮层的这种等级组构为许多心理现象提供了生理解释。该设计以认知观点看待模式识别问题,强调视知觉的计算依托和生理基础,也即“解释智能”的思想。这不仅对模式识别、计算机视觉有重要的价值,而且对人工智能***的直接表示具有非常重要的意义。
本发明从物体视觉识辨的神经生理学角度,构造一个近似于视皮层颞下皮层区TE功能柱型结构的软件组件来对物体特征进行抽提,其每个功能柱的计算功能是用有理平方逼近方法,经迭代训练,求出的多变元有理函数来完成的。
下面对本发明的内容作进一步描述。
1.基于生理特征的计算模型设计
通过对TE的前区域(TEO & V4)的研究发现,它们是由响应多种不同层次的选择性的众多细胞混合构成:靠近V1的区域含有更多的简单细胞,它们响应简单特征;靠近TE的区域含有更多的复杂细胞,它们响应复杂特征。一级一级响应的层次型网络的输入输出彼此衔接,任何一级特征的神经计算都是通过局部网络来进行的,换句话说就是简单特征的抽取结果输出是复杂特征计算的输入。这种层次性和组合性给结构模拟模型的设计以强烈的暗示,并为对特征空间的形式化符号同态计算提供了依据。通过解剖学上的染色示踪实验发现,TE区域细胞虽然具有很大的感受野,却不含有任何直接来自视网膜神经的连接,这就意味着至少从TE区域以后的视知觉神经计算是定义在特征空间上的,而不是定义在视网膜拓扑空间上的。此外,TE区域除了自身呈现出很有规律的重叠且又稍有区别的选择性响应柱形分布外,它还实现了对刺激位置响应的不变性,这为心理学中的知觉不变性问题提供了一些生理的机理性解释。
基于上面这些由解剖学提供的结构性证据和由生物物理实验提供的生理机能证据,本发明设计相应感知模型,其特征如下:
(1)是一个由经过训练的仿TE柱形结构阵列。
(2)每一个仿TE柱形结构都对落于视野内的图像(或它的某种处理结果)进行并行地计算,这相当于从图像中抽取出某一特定的特征(优势特征)。
(3)由于仿TE柱形结构具有一定的知觉不变性,因而也带有一定的鲁棒性,即优势特征的某种程度上的变体也不影响对它的识别。
(4)将多个响应组合起来,聚合到由众多特征刻画的概念,这是由感觉到知觉的一个升华。
(5)将对多个个体响应的“与”加,抽取出它们共有的特征,而抽象出概念,这是归纳过程。
(6)对应于一个相反的过程,由一个概念能“回忆”起它的许多特征,这是一个演绎过程。
生理学家们的研究表明,在大脑皮层上普遍存在着柱形结构,对于计算机视觉的研究而言这种各司其职的功能柱对“划分(segmentation)”问题具有非常重要的意义。TE区域是由许多柱形构件组成(推算起来不少于1300个),每个柱形构件是由许多响应类似但不完全相同的特征的神经细胞族聚而成,相邻的柱形构件对特征的选择性响应具有重叠性和连续性,如图1所示。
2.模拟视觉生理结构的分层模型设计
根据视觉的生理特点,我们设计了一个视皮层结构的分层措昔,即层次网络模型(亦称金字塔模型),其第I层为拟光感受阵列,第II层为拟神经节细胞阵列,第III层为拟超柱阵列,由I层、II层、III层、视图像逐级加工。模型的低层对朝向、长度、位置等基本特征进行选择,在模型的高层实现特征的组合和响应的不变性。由于(1)对控制晶状体聚焦的肌肉组织中的神经、双目配准、眼优势柱如何对深度进行计算的机理目前还不清楚;(2)且深度参数是由双目对比产生的,忽略这一维对左右目都相同的等级层次模型的研究而言不产生本质的影响;(3)另外由于表达深度的眼优势柱是超柱的一个组成部分,具有很好的结构附加性,对于柱型结构所敏感的特征的表达与计算而言,眼优势柱的输出仅是一小组参数而已,忽略它们对特征的表达与计算机制研究不产生本质的影响;所以本文仅讨论投影在视网膜上的二维视图像处理问题,限于对象TE柱所响应的、具有一定复杂程度的特征基元进行响应不变性的模拟,因为识别出特征为这个物体的识别作了非常重要的准备。
附图说明
图1为人大脑皮层中存在的柱形结构模型图示。
图2为模拟视皮层结构的层次网络模型图示。
图3为模型中三个阵列感受野的对应计算关系图示。
图4为计算单元模型。
图5为计算机单元表示直线位置的图示。
图6为直线段样本设计。
图7为感受野模型拓扑形状。
图8为超柱阵列表示的直线向量输出。
图9为网络单元的连接示意图。
具体实施方式
1.TE功能柱的数学计算模拟
人工神经元网络可以实现复杂的数学逼近映射,反过来各种数学逼近的计算理论也可以通过并行分布式设计来实现其算法的性能优化。一个只对特定的输入模式发生选择性反应的TE功能柱的数学实质是一个多变元的映射函数,对典型刺激(也称高响应输入或优势特征)的响应值大,对典型刺激的某些变种的响应值略小。本发明的问题是:已知一个由某一特征模式的典型刺激和它的一些变种(如微小的角度变化等)以及一个TE功能柱对它们的响应值组成的样本集合(Samples,简写为SAM),求解一个多变元函数来拟合此TE功能柱响应函数F对这组样本的计算。即已知一组样本,求解一个人工神经元网络在计算上实现这组样本的预期分类。特别指出的是:样本集合是经过初级皮层区的加工的,即它是一些简单特征(如小线段的朝向信息),而不是光刺激信息。
1.1多变元有理平方逼近
由于我们知道了TE功能柱响应函数至少在局部区域内是一个单峰函数,所以本发明设计用一个多变元有理函数来逼近TE功能柱响应函数:
其中α0,αi与βi均为待定参数,X=(x1,x2……,xn),记向量(α1、α2……αn)=α,(β1、β2…βn)=β,求R1,1(τ,X)的极值的方程组为:
其分子是线性的,它是能使逼近函数可能只有单个极值点的简单形式。由于一个满秩的线性方程组有且只有一组解,这个多维空间上的极值点就对应于被模拟的TE功能柱的典型特征,该极值点记为X0。所以方程组(1.2)有解X0的充分必要条件是:
此线性方程组的系数矩阵A和常数项α分别是: 和
线性方程组的矩阵表示为:
A×β=α,所以β是α的因变量,β=A-1α (1.2)’。
因此我们现在的问题是:已知样本集合{Xi,i=0,.......,N},和逼近函数的解析范型,确定:(1)能拟合样本集,和(2)满足上述条件(1.3)的有理函数的参数。
关于有理平方逼近的一些理论问题的讨论见[13,14]。
1.2多变元有理平方逼近参数计算的牛顿-梯度结合法
本算法的基本思想是将最小化
的问题化归为来最小化一系列
其中
即由于有理函数对系数τ而言是两个线性函数的比,分子中的系数本来就已经是线性的了,故用Taylor级数的线性项来近似是比较合适的[14]。
我们的算法如下:
第一步:解使
达到最小的系数τ0作为迭代初值,为此需解一个线性方程组
(若考虑到约束条件(1.2),则是求σ(τ)在(1.2)下的有条件极小值问题,这是一个非线性规划问题,可行解在一族超平面的相交边界上,应用拉格朗日乘数法,引进修正的函数 求F的无约束条件极值问题);
第二步:利用近似的α和方程组(1.2)’求出β;
第三步:用最小二乘原理,求得使(2.1)达到最小的ε,即解正规方程组,
k=0,1,......,n,
其中要对β求关于α的数值微分。由于β是α的因变量,所以必须对β求关于α的偏导,
即由(1.2)’有
这是一个一阶的偏微分方程组。通过A矩阵求逆可求出微分值。其增广矩阵(n+1)×(n+2)为:
第四步:如果ε足够小,满足精度要求,则算法结束;否则转第五步;
第五步:比较偏差ρ(τ0)与ρ(τ0+ε),如果ρ(τ0)>ρ(τ0+ε),则以τ0+ε代替τ0转第二步迭代;如果ρ(τ0)<=ρ(τ0+ε),则以τ0+λ0g(τ0)代替τ0转第二步迭代,其中 参见[14]。
1.3变元项的自适应选择
由于上述逼近过程中的变元是对初级皮层区中超柱个体的抽象,一个TE柱可能仅仅以整个阵列中的某一些超柱的输出为输入,所以要对变元进行选择。在我们的设计中是通过对特征样本所激发的超柱的频率统计,并以一个截距作为选择该变元有效的界限。
1.4极值的检验
2.朝向片响应的自组织
从视皮层的等级组构和认知心理学中关于视知觉的加工过程,本发明得到启发,设计了一个理论上可高度并行的计算模型,其概念设计的核心是三个阵列:拟光感受器阵列、拟神经节细胞阵列、拟超柱阵列,如图3。设k为超柱的感受野边长,那么相邻超柱体的感受野是重叠毗邻的:超柱(I,J)的覆盖区为(I,I+k-1)*(J,J+k-1)。由于皮层中的感受野是有重叠的,这样就不会漏掉成象于两个感受野边界上的刺激。三个阵列感受野的对应计算关系是:拟光感受器阵列接收图像信号的输入,在实验***中,该阵列数据取自一个监视器的象素矩阵;拟神经节细胞阵列按侧抑制原则对各自感受野范围内的光感受器单元加权求和,保留灰度梯度变化的边界;拟超柱阵列中的众朝向片对特定斜率的直线进行特征提取。
2.1简单细胞对直线的发现
直线是最基本和最重要的图像特征之一,直线的发现不是一件简单的事。视皮层中大多数神经元的感受野是呈一定朝向的带状,即对这些细胞来说如果用与感受野的朝向相一致的光带或暗带刺激时,细胞具有最大的反应。生理实验发现感受野的最佳朝向(即诱发最强神经反应的光带或暗带的方向)因细胞而异,通常限定得相当严格,顺时针或逆时针地将光带朝向变化10度或20度即可使反应显著减少或消失;一条与最佳朝向成90度的光带几乎引不起任何反应。
在一个超柱的不同朝向片中都存在大量的简单细胞,它们数量众多,分别对一定朝向、位置和长度的直线段敏感。这使得本发明可以通过模拟它们的特征提取特性,设计众多个排列有序的计算单元来达到同样的目的,即所设计的每一个计算单元都有自己的感受野范围,并计算出现在此范围中符合其最佳朝向直线段的长度。直线的位置由此计算单元的位置来表示,如图5所示细节。图中的简单细胞(理论上它们是毗邻有序排列的)覆盖同样的一片感受野,其上的短线段是细胞各自敏感的最佳朝向,权值矩阵阵列是经以下ANN训练算法得到的。
在人脑的感觉通道上的重要组织原则是神经元的有序排列,并且往往可以反应出所感觉到的外在刺激的某些物理特性,这在听觉和视觉***中都被证实。尽管许多低层次的神经元是预先排列好的,但高层次上的神经组织是通过学习自组织形成的。自组织映射(SOM)模型可以在多维处理单元阵列上形成输入信号的分布拓扑图,而在初始状态下这些阵列上是不存在与信号特征相对应的分布拓扑图的。因此利用SOM模型的这一特性可以从外界环境中按照某种测度或者是某种可序化的拓扑空间来抽取特征或者是表达信号抽象的、概念性的元素。在我们的题目中这种抽象的元素便是朝向性等由非单个神经细胞所能产生的概念。
因神经元感受野的范围是有一定限度的,以下以一个感受野尺度为n*n(为便于计算,n取为奇数)的超柱为例,来说明此超柱中各个朝向片的训练算法。我们取过其中心点的贯穿锯齿直线段为训练样本,它们的两端分别位于网格区域的边界上,如左图示。就此超柱、此长度而言,这样的朝向样本共有n+n-2个,其夹角精度为180/(n+n-2)度。当n=31时,此精度等于3度。而一根直线仅旋转了3度的变化是不易被觉察的。这样我们将图示的样本用数据矩阵表示成:
…,样本i,…,样本(2n-2)。注意这仅是我们希望引起最佳响应的理想样本,或说仅是优势样本。而此超柱中朝向片的数目也是n+n-2个。设orient_chip[2n-2]表示朝向片,sensors[n][n]表示传感器阵列,样本是此阵列的输出,w[2n-2][n][n]表示朝向片与传感器阵列间的连接权值,则权值按下述算法来调整。
算法1:超柱朝向片朝向性自组织适应响应的训练
(1)设定感受野范围为n*n,设定朝向片数目为2n-2;
(2)准备训练用的朝向样本;
(3)自组织训练
3.1初始化权值w[2n-2][n][n]为一随机较小值,以及朝向片k的邻接朝向片范围矩阵Sk(t),初始时为全部,然后随训练次数t的增加,矩阵Sk(t)的阶逐渐减小;
3.2提供一个新的朝向训练样本X(t),并将此n*n维向量规一化:
模长
X(t)=(x(t)[i][j]/|R|),其中模长大于零;
3.3计算Euclidean距离,即朝向样本与朝向片k之间的Euclidean距离: 并选择k*,使其满足
3.4按照下式来修改朝向片k*及其邻接朝向片的相应权值:
w(t+1)[k][i][j]=w(t)[k][i][j]+η(t)(x(t)[i][j]-w(t)[k][i][j]),这里k∈Sk*(t),
增益项0<η(t)=e-t<1,并随t下降到0,并将新的权向量规一化: W[k](t)=(w(t)[k][i][j]/|W[K]|);
3.5检测是否满足要求,满足则结束训练,否则继续;
3.6提供另一个训练样本,重复上面的训练过程;
4.在一定范围内改变感受野尺寸,求取对不同长度直线起反应的超柱的朝向片的权值分布。
算法定义的权值调整过程增加了活跃向量的平行性,使其方向一致。
2.2复杂细胞感受野范围的自组织
我们已经知道了简单细胞抽提的是关于在感受野中某一特定位置的线段刺激信息;而复杂细胞只对朝向敏感,对光带长度也有一定的要求,对位于其感受野范围内的何处并不在意。复杂细胞的感受野是由众多简单细胞组成的,并根据简单细胞的输出计算对位置不敏感的朝向性。在生理上许多感受野并列的简单细胞汇聚到一个复杂细胞,它感受野范围的形成是一个很复杂的先天发育和后天重塑过程,其中带有很大的个体性和随机性,考虑到工程实现上的可行性我们采用自组织的方法,通过训练使复杂细胞获得各自的感受野。有必要指出的是,只有在这个感受野模型拓扑形状轴向带上的、对朝向和位置都敏感的计算单元在生理上才对应于前文提到的“感受野并列的简单细胞”,如下图。在此模型中我们假设初始状态下的复杂细胞的感受野范围是没有限定的,为了使一定范围内的朝向具有位置的不变性需要对仅选择朝向性的复杂细胞的感受野范围进行一定的训练。以感应45度直线的复杂细胞为例,其感受野的训练样本的矩阵表示是: 样本i=……。
除了一些参数之外,复杂细胞感受野范围学习的自组织训练算法基本上同算法1。
2.3用样本对计算网络进行训练
整个***的训练是由各个神经细胞的训练构成的。通过给不同的神经细胞设定不同的感受野分区、感受野尺寸、朝向性,再设定被训练神经细胞与其感受野细胞间的初始权值,就可以用上述算法进行训练了。
3.中等复杂特征的连续映射
在前文中,我们已构造了一个获取简单直线特征的、模拟视知觉初级皮层的层次网络模型,通过训练对不同朝向、位置和长度敏感的简单和复杂细胞,并使它们有序排列,构造成象朝向片和超柱结构那样的对图像信息进行逐级处理的阵列。在上述这些加工的基础上,我们能获得一个视野范围内的直线段的集合:{(xc,yc,orient,length)},其中xc,yc是直线段的中点,orient是直线段的朝向,length是直线段的长度。而所谓视图像实际上就是不同明暗部分或颜色的组合,它们的边界信息更为重要。因为边界是可以用许多条直线段来逼近的,所以直线段特征是非常重要的基本特征。由此我们认为集合{(xc,yc,orient,length)}构成了一个特征基,它满足加法和数乘的封闭性,因此是一个线性空间。上图用来表示利用超柱阵列的直线向量输出,先实现直线特征的组合,再来实现对特征空间的连续映射。
我们使用若干个直线特征来组合成TE柱所选择的中等复杂特征。一排TE柱分别对一个类似于六面体顶点角的二维投影特征(以下简称为顶点角)有响应,所不同的是它们各自敏感的顶点角互为旋转了一点角度,也就是说从这一排TE柱整体来看,它们是对一个连续旋转角度的特征有响应,这些特征是连续的特征。我们要训练神经网络使其也能对这样的旋转,在一定的限定内具有响应的不变性。这对提高模式识别***的灵活性、鲁棒性和适应性都是很有意义的。根据Kolmogorov连续函数定理,我们设计了一个具有一层隐单元的三层前馈网络模型,层间的权值学习采用BP算法,网络的计算单元连接示意如下图。
Claims (6)
1、一种基于视皮层功能的特征识别网络模型,其特征在于为一个金字塔型的层次网络模型,其第I层为拟光感受阵列,第II层为拟神经节细胞阵列,第III层为拟超柱阵列,并通过功能柱型结构的功能和连接,对模拟视网膜的输入点阵信息进行逐级加工,模型的低层对朝向、长度、位置特征进行选择,模型的高层实现特征的组合和响应的不变性。
2、一种如权利要求1所述的网络模型的实现方法,其特征在于从物体视觉识别的神经生理学角度,构造了一个近似于视皮层颞下皮层区TE功能柱型结构的软件组织来对物体特征进行抽提,其每个功能柱的计算机功能是用多变元有理平方逼近方法,经迭代训练,求出多变元有理函数来完成。
3、根据权利要求2所述的网络模型的实现方法,其特征在于所述采用多变元有理平方逼近的方法,其做法为:
用下述多变元有理函数来逼近TE功能柱响应函数:
其中α0,αi与βi均为待定参数,X=(x1,x2,.....,xn),记向量(α1、α2……αn)=α,(β1、β2…βn)=β,求R1,1(τ,X)极值的方程组为:
其分子是线性的,该极值点记为X0,方程组(1.2)有解X0的充分必要条件是:
且系数矩阵A满秩,(1.3)
此线性方程组的系数矩阵A和常数项分别是:
线性方程组的矩阵表示为:
A×β=α,所以β是α的因变量,β=A-1α(1.2)’;
采用牛顿-梯度结合法求多变元有理函数的参数,
其步骤如下:
第一步:解使
达到最小的系数τ0作为迭代初值,为此需解一个线性方程组
第二步:利用近似的α和方程组(1.2)’求出β;
第三步:用最小二乘原理,求得使(2.1)达到最小的ε,即解正规方程组:
k=0,1,......,n
其中要对β求关于α的数值微分,由于β是α的因变量,所以对β求关于α的偏导,由(1.2)’有
这是一个一阶的偏微分方程组,通过A矩阵求逆可求出微分值。其增广矩阵(n+1)×(n+2)为:
第四步:如果ε足够小,满足精度要求,则算法结束;否则转第五步;
第五步:比较偏差ρ(τ0)与ρ(τ0+ε),如果ρ(τ0)>ρ(τ0+ε),则以τ0+ε代替τ0转第二步迭代;如果ρ(τ0)<=ρ(τ0+ε),则以τ0+λ0g(τ0)代替τ0转第二步迭代,其中
4、根据权利要求3所述的网络模型的实现方法,其特征在于三个阵列感受野的对应计算关系是:拟光感受器阵列接收图像信号的输入;拟神经节细胞阵列按侧抑制原则对各自感受野范围内的光感受器单元加权求和,保留灰度梯度变化的边界;拟超柱阵列中的众朝向片对特定斜率的直线进行特征提取。
5、根据权利要求4所述的网络模型的实现方法,其特征在于简单细胞对直线的发现,是设计众多个排列有序的计算单元来达到同样的目的,其所设计的每一个计算单元都有自己的感受野范围,并计算出现在此范围中符合其最佳朝向直线段的长度,直线的位置由此计算单元的位置来表示。
6、根据权利要求5所述的网络模型的实现方法,其特征在于超柱朝向片朝向性自组织适应响应的训练步骤如下:
(1)设定感受野范围为n×n,设定朝向片数目为2n-2;
(2)准备训练用的朝向样本:
(3)自组织训练
3.1初始化权值w[2n-2][n][n]为一随机较小值,以及朝向片k的邻接朝向片范围矩阵Sk(t),初始时为全部,然后随训练次数t的增加,矩阵Sk(t)的阶逐渐减小;
3.2提供一个新的朝向训练样本X(t),并将此n×n维向量规一化:模长
X(t)=(x(t)[i][j]/|R|),其中模长大于零;
3.3计算Euclidean距离,即朝向样本与朝向片k之间的Euclidean距离:
3.4按照下式来修改朝向片k*及其邻接朝向片的相应权值:
w(t+1)[k][i][j]=w(t)[k][i][j]+η(t)(x(t)[i][j]-w(t)[k][i][j]),这里
增益项0η<(t)=e-1<1,并随t下降到0,并将新的权向量规一化:
3.5检测是否满足要求,满足则结束训练,否则继续;
3.6提供另一个训练样本,重复上面的训练过程;
(4)在一定范围内改变感受野尺寸,求取对不同长度直线起反应的超柱的朝向片的权值分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410054194 CN1588442A (zh) | 2004-09-01 | 2004-09-01 | 基于视皮层功能柱的特征识别网络设计与实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410054194 CN1588442A (zh) | 2004-09-01 | 2004-09-01 | 基于视皮层功能柱的特征识别网络设计与实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1588442A true CN1588442A (zh) | 2005-03-02 |
Family
ID=34603070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200410054194 Pending CN1588442A (zh) | 2004-09-01 | 2004-09-01 | 基于视皮层功能柱的特征识别网络设计与实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1588442A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537852A (zh) * | 2018-04-17 | 2018-09-14 | 四川大学 | 一种基于图像局部对比度的自适应颜色恒常性方法 |
-
2004
- 2004-09-01 CN CN 200410054194 patent/CN1588442A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537852A (zh) * | 2018-04-17 | 2018-09-14 | 四川大学 | 一种基于图像局部对比度的自适应颜色恒常性方法 |
CN108537852B (zh) * | 2018-04-17 | 2020-07-07 | 四川大学 | 一种基于图像局部对比度的自适应颜色恒常性方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lindsey et al. | A unified theory of early visual representations from retina to cortex through anatomically constrained deep CNNs | |
Zhang et al. | Classification and quality evaluation of tobacco leaves based on image processing and fuzzy comprehensive evaluation | |
Wilson et al. | From orientations to objects: Configural processing in the ventral stream | |
Thrun et al. | Visualization and 3D printing of multivariate data of biomarkers | |
Fernandes et al. | KANTS: a stigmergic ant algorithm for cluster analysis and swarm art | |
López-Cruz et al. | Bayesian network modeling of the consensus between experts: An application to neuron classification | |
Corte-Valiente et al. | An artificial neural network for analyzing overall uniformity in outdoor lighting systems | |
Hua et al. | Military object real-time detection technology combined with visual salience and psychology | |
Zafar et al. | Metaheuristic optimization-based feature selection for imagery and arithmetic tasks: An fNIRS study | |
Ngongoma et al. | A review of plant disease detection systems for farming applications | |
Ong et al. | Data Mining Using Self-Organizing Kohonen Maps: A Technique for Effective Data Clustering & Visualization. | |
CN1588442A (zh) | 基于视皮层功能柱的特征识别网络设计与实现方法 | |
CN103065028B (zh) | 一种基于图多阶段任务***模块分解的可视化布局方法 | |
CN100367310C (zh) | 视网膜神经节细胞感受野尺度可变层次网络模型及其算法 | |
Karyono et al. | A novel adaptive lighting system which considers behavioral adaptation aspects for visually impaired people | |
Plebe | A model of the response of visual area V2 to combinations of orientations | |
dos Santos Vieira et al. | The application of machine learning to problems in graph drawing a literature review | |
Kerdels | A computational model of grid cells based on a recursive growing neural gas | |
Santosuosso et al. | Methods for geographic profiling of biological invasions with multiple origin sites | |
Robertson | Traversing the eco-healthscape: The final frontier in understanding shared determinants of health at the animal-society interface | |
Mahdi et al. | Bottom up saliency evaluation via deep features of state-of-the-art convolutional neural networks | |
Tromans et al. | Learning separate visual representations of independently rotating objects | |
Talwar et al. | A topological nomenclature for 3D shape analysis in connectomics | |
Ngongoma et al. | Maximizing a Farm Yield Through Precision Agriculture utilizing Fourth Industrial Revolution (4IR) Tools and Space Technology | |
Li et al. | Veridicality of three-dimensional shape perception predicted from amplitude spectra of natural textures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |