CN107704924A - 同步自适应时空特征表达学习模型的构建方法及相关方法 - Google Patents

同步自适应时空特征表达学习模型的构建方法及相关方法 Download PDF

Info

Publication number
CN107704924A
CN107704924A CN201610602678.6A CN201610602678A CN107704924A CN 107704924 A CN107704924 A CN 107704924A CN 201610602678 A CN201610602678 A CN 201610602678A CN 107704924 A CN107704924 A CN 107704924A
Authority
CN
China
Prior art keywords
mrow
msubsup
msub
crn
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610602678.6A
Other languages
English (en)
Other versions
CN107704924B (zh
Inventor
王亮
杜勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201610602678.6A priority Critical patent/CN107704924B/zh
Publication of CN107704924A publication Critical patent/CN107704924A/zh
Application granted granted Critical
Publication of CN107704924B publication Critical patent/CN107704924B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了针对序列的同步自适应时空特征表达学习模型的构建方法及其相关的模型分析方法和行为识别方法。其中,该构建法包括首先将长短时记忆神经元输入及三个控制门的全连接替换为四组独立的滤波器,依次构建卷积递归神经元;然后,将X个CRN并行排列,构建卷积递归神经网络层;接着根据以下方式构建隐含层:各CRN的输出只存在向其自身基本单元的反馈连接,且各CRN之间不存在连接关系;再在卷积递归神经网络层和输入序列之间构建卷积层;最后,将Y个卷积递归神经网络层相堆叠,形成卷积递归神经网络,单个卷积递归神经网络层包含Z个子层。通过本发明实施例可以获取更具区分性的序列时空信息表达,而且无需复杂的预处理。

Description

同步自适应时空特征表达学习模型的构建方法及相关方法
技术领域
本发明实施例涉及计算机视觉、模式识别和深度学习技术领域,具体涉及一种针对序列的同步自适应时空特征表达学习模型的构建方法、对根据该构建方法所构建的模型进行模型分析的方法以及利用该模型分析方法所分析后的模型进行行为识别的方法,但绝不限于此。
背景技术
近年来,神经网络技术的复兴推动了人工智能技术的飞速发展,现实生活中诸多数据都同时具有空间结构和时间动态特征,例如视频数据、客户历史购买数据、气象数据等等。现实社会中大量的数据都是以序列数据的形式记录的,数据中既包含空间结构信息又具有时变动态信息。例如:城市智能监控***每天所获取的大量视频数据,仅仅想依赖人力来对这些数据进行分析是不现实的,需要建立专门的模型实现计算机对这些数据的自动分析。深度学习技术的发展大力推动了人工智能产业化进程,其模型特点在于具有强大的数据特征表达学习能力。其中,卷积神经网络的特点在于提取静态数据的空间结构特征,递归神经网络的优势则在于序列特征建模,如果我们能够将两者的优势结合起来,提出一种同步提取序列中时空信息表达模型,以充分挖掘序列中空间和时间信息的关系,从而获得对原始数据的表达,将具有重要的现实意义。
目前存在两种提取序列数据时空结构信息的深度学习模型,分别是将卷积神经网络和递归神经网络以并联和串联的形式相结合,这两类模型的共同不足在于提取序列中空间结构和时变动态信息的过程是相互独立的,没有充分考虑序列中空间和时间信息间的相互作用关系,且串联结构模型还存在误差传递问题,这些都影响模型对序列中时空信息的表达学习。
有鉴于此,特提出本发明。
发明内容
为了解决上述现有技术中存在的问题,本发明的目的是提出一种针对序列的同步自适应时空特征表达学习模型的构建方法,以获取更具区分性的序列时空信息表达。在此基础上,本发明还提出一种利用该构建方法所构建的模型进行模型分析的方法以及利用该模型分析方法所分析的模型进行行为识别的方法。
为了实现上述目的,提供了以下技术方案:
一种针对序列的同步自适应时空特征表达学习模型的构建方法,所述方法可以包括:
将长短时记忆神经元输入及三个控制门的全连接替换为四组独立的滤波器,依次构建卷积递归神经元CRN;
将所述X个CRN并行排列,构建卷积递归神经网络层,建立所述各CRN的输出只向其自身基本单元的反馈连接,且在所述各CRN之间不建立连接关系;
在所述卷积递归神经网络层和输入序列之间构建卷积层;
将所述Y个卷积递归神经网络层相堆叠,形成卷积递归神经网络,其中单个卷积递归神经网络层包含Z个子层,X、Y及Z均为正整数。
优选地,将长短时记忆神经元输入及三个控制门的全连接替换为四组独立的滤波器,依次构建卷积递归神经元CRN,具体可以包括:
通过共享权重的卷积连接方式,将所述长短时记忆神经元的输入门、输入控制门、遗忘门和输出控制门与所述序列进行连接。
优选地,上述构建方法还包括:利用所述卷积递归神经元对于单一时刻的所述序列执行空间上的卷积操作,并对于所述序列各时刻在空间上的相同区域输出沿时间进行迭代运算。
利用上述任一构建方法所构建的模型进行模型分析的方法可以包括:
利用所述卷积层对所述序列进行层级化滤波,以确定所述序列对应的特征图序列;
基于所述特征图序列,计算所述卷积递归神经网络的输出;
基于所述卷积递归神经网络的所述输出,经全连接层降维,由软最大化层得到所述序列的类属概率;
基于所述序列的所述类属概率,对所述序列的每一帧所隶属的行为类别进行判定,并根据投票来决定所述序列整体的行为类别。
优选地,所述基于所述特征图序列,计算所述卷积递归神经网络的输出,具体包括:
根据以下公式确定所述CRN内滤波器的输出:
其中,所述所述所述和所述分别表示t时刻第l层第j个所述CRN的所述输入单元、所述输入控制门、所述遗忘门和所述输出控制门对应的滤波器输出;所述Mjc、所述Mji、所述Mjf和所述Mjo分别表示第j个所述CRN单元内部滤波器;所述p表示所述Mjc、所述Mji、所述Mjf和所述Mjo对应的空间位置元素;所述表示t时刻所述卷积递归神经网络中第l-1层的输出;所述kljc、所述klji、所述kljf及所述kljo分别表示所述输入单元、所述输入控制门、所述遗忘门及所述输出控制门;所述表示t-1时刻所述CRN单元的输出;所述wljhc、所述wljhi、所述wljhf及所述wljho分别表示由输出至所述输入单元、所述输入控制门、所述遗忘门及所述输出控制门的反馈连接权重;所述bljc、所述blji、所述bljf及所述bljo分别表示所述CRN内部基本单元的偏置;
根据以下公式对所述滤波器输出进行非线性映射,以确定所述CRN内部基本单元的输出:
其中,所述g和所述f分别表示非线性映射函数;
根据以下公式,确定所述CRN内部状态单元的输出:
其中,所述表示所述输入控制门对输入信号的幅度调整;所述表示所述CRN输出经所述遗忘门输出作幅度调整后影响当前时刻Cell的状态;所述表示t时刻所述CRN内部Cell的输出;
根据以下公式对所述Cell的输出进行非线性变换并由所述输出控制门加权,以确定CRN的输出:
其中,所述表示第l层第j个CRN在t时刻的输出;所述表示对应所述CRN的输出控制门状态;所述表示所述Cell状态的非线性映射函数。
优选地,所述基于所述序列的所述类属概率,对所述序列的每一帧所隶属的行为类别进行判定,并根据投票来决定所述序列的行为类别,还包括:
根据以下公式确定最小化交叉熵损失函数:
其中,所述δ(·)表示Kronecker函数;所述Vm表示所述序列;所述r表示所述序列Vm的真值标签(groundtruth);所述V表示训练集;所述S表示所述训练集V中的样本总量;所述K表示行为类别;所述N表示第m个样本所包含的帧数;所述p(Cnk|Vm)表示所述序列Vm中第n帧隶属于第k个行为类别C的概率;
基于δ学习规则,根据以下公式确定局部误差:
其中,所述L表示所述交叉熵损失函数;所述表示t时刻第l层第j个所述CRN输出的局部误差;所述表示所述CRN内部所述Cell状态的局部误差;
其中,所述根据误差反向传播算法的δ学习规则按照以下公式来确定:
其中,所述Pl+1表示第l+1层卷积运算输出元素集合;所述Ml+1表示第l+1层的CRN单元内部滤波器单次乘累加运算时共同的输入;所述Ul+1表示第l+1层所有所述CRN中的滤波器单元;所述k表示所述CRN输入中的单个元素;所述u表示第l+1层中的单个滤波器;所述wljku表示第l层第j个CRN的输入中第k个元素同第l+1层中第u个滤波器单元中对应元素间的连接权重;所述为第l+1层中滤波器u在t时刻输出的局部误差;所述Ulj表示第l层第j个CRN中的滤波器;所述u′则表示所述Ulj中的单个滤波器;所述wljhu′表示第l层第j个CRN的输出和其内部单元u′间的连接权重;所述表示Ulj中单个滤波器u′在t+1时刻的局部误差;
其中,所述根据链式法则按照以下公式来确定:
其中,所述表示所述CRN内部所述Cell状态对应非线性映射函数在t时刻的一阶导数;所述表示第l层第j个CRN内部所述Cell状态在t+1时刻的局部误差;所述表示所述CRN神经元内部所述遗忘门在t+1时刻的状态;
根据链式法则按照以下公式,来确定第l层第j个CRN内部输出控制门对应的局部误差:
其中,所述表示所述CRN内部Cell状态经激活函数作非线性映射后的输出;所述表示所述输出控制门映射函数对其输入的一阶导数;
根据δ学习规则和链式法则,按照以下公式确定所述CRN的所述Cell状态单元、所述遗忘门和所述输入控制门对应的局部误差:
其中,分别表示CRN输入单元、遗忘门和输入控制门三者对应的非线性映射函数在t时刻的一阶导数。
优选地,所述模型分析方法还可以包括:通过误差反向传播算法对所述滤波器进行微调。
利用上述模型分析方法所分析后的模型进行行为识别的方法包括:
利用所述模型分析模型中的卷积层对待识别序列进行层级化滤波,以确定所述待识别序列对应的特征图序列;
基于所述特征图序列,利用所述模型分析模型同步提取空间结构和时间动态信息表达;
基于所述空间结构和时间动态信息表达,来确定所述待识别序列隶属于各行为类别的概率分布;
将隶属概率最大的行为类别确定为所述待识别序列的识别结果。
与现有技术相比,上述技术方案至少具有以下有益效果:
本发明实施例通过采用上述技术方案,克服了现有技术没有充分考虑序列中空间和时间信息间的相互作用关系,且模型存在误差传递的缺陷,可以获取更具区分性的序列时空信息表达而无需复杂的预处理。
本发明实施例可以应用于解决多项基于序列分析的任务,例如基于视频的行为识别、行人再辨识以及大规模监控场景下的行为识别等。
附图说明
附图作为本发明的一部分,用来提供对本发明的进一步的理解,本发明的示意性实施例及其说明用于解释本发明,但不构成对本发明的不当限定。显然,下面描述中的附图仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。在附图中:
图1为根据一示例性实施例示出的针对序列的同步自适应时空特征表达学习模型的构建方法的流程示意图;
图2为根据另一示例性实施例示出的长短时记忆神经元结构示意图;
图3为根据一示例性实施例示出的卷积递归神经元的结构示意图;
图4为根据一示例性实施例示出的卷积神经网络的结构示意图;
图5为根据一示例性实施例示出的对图1所示方法构建的模型进行模型分析的方法的流程示意图;
图6为根据一示例性实施例示出的多尺度空时特征表达学习示意图;
图7为根据一示例性实施例示出的经调整后的卷积递归神经网络模型示意图;
图8为根据一示例性实施例示出的利用上述图5所示模型分析方法分析后的模型进行行为识别的方法流程示意图;
图9为根据另一示例性实施例示出的利用上述图5所示模型分析方法分析后的模型进行行为识别的方法流程示意图。
这些附图和文字描述并不旨在以任何方式限制本发明的构思范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
下面结合附图以及具体实施例对本发明实施例解决的技术问题、所采用的技术方案以及实现的技术效果进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请的一部分实施例,并不是全部实施例。基于本申请中的实施例,本领域普通技术人员在不付出创造性劳动的前提下,所获的所有其它等同或明显变型的实施例均落在本发明的保护范围内。本发明实施例可以按照权利要求中限定和涵盖的多种不同方式来具体化。
需要说明的是,在下面的描述中,为了方便理解,给出了许多具体细节。但是很明显,本发明的实现可以没有这些具体细节。
还需要说明的是,在没有明确限定或不冲突的情况下,本发明中的各个实施例及其中的技术特征可以相互组合而形成技术方案。
本发明实施例的主要思想是结合卷积神经网络和递归神经网络分别在提取静态空间结构和动态时变信息方面的优势,同时考虑传统递归神经网络训练过程存在的梯度消失和误差膨胀的问题,基于长短时记忆神经元设计中的门控结构和前馈反馈机制,以卷积递归神经元为基本单元可以构成卷积递归神经网络,以同步自适应学习序列数据中的空间结构和时间动态表达,基于学习到的表达来完成相关任务。
数据中的空间结构特征和时变动态特性间存在紧密联系,通过充分考虑二者间的相互作用关系来提取数据中的时空变化规律对分析这些数据具有重要意义。为此,本发明提出一种针对序列的同步自适应时空特征表达学习模型的构建方法。如图1所示,该方法可以包括步骤S100至步骤S140。
S100:将长短时记忆神经元输入及三个控制门的全连接替换为四组独立的滤波器,依次构建卷积递归神经元CRN。
图2示例性地示出了长短时记忆神经元结构中长短时记忆神经元的门控结构和前馈反馈机制。
图3示例性地示出了卷积递归神经元的结构。
S110:将X个CRN并行排列,构建卷积递归神经网络层。其中,X取正整数。
其中,多个卷积递归神经元并行排列构成滤波器组,各滤波器间连接独立。
S120:建立各卷积递归神经元的输出只向其自身基本单元的反馈连接,且在各卷积递归神经元之间不建立连接关系。
S130:在卷积递归神经网络层和输入的序列之间构建卷积层。
以视频帧序列为例,为了降低背景时变信息对模型的干扰,抑制其在训练集上的过拟合。所以,在卷积递归神经网络层和输入视频帧序列间接入在大规模图像数据集上训练好的卷积层。
S140:将Y个卷积递归神经网络层相堆叠,形成卷积递归神经网络。其中,单个卷积递归神经网络层包含Z个子层,Y和Z取正整数。
在本步骤中,将多个卷积递归神经网络层相堆叠形成卷积递归神经网络,各卷积递归神经网络层支持多尺度序列时空信息同步提取。
卷积递归神经网络层可以与卷积递归神经网络中的诸如pooling层、正则化层等所有类型层进行无缝对接。模型整体上前端为卷积层,后端为卷积递归神经网络层。该模型是一个有监督模型。
图4示例性地示出了卷积神经网络的结构。其中,Softmax层表示软最大化层。同一卷积递归神经网络层内包含多个子层,以不同的卷积尺度来对诸如视频数据等序列进行分析处理。
在一个可选的实施例中,上述将长短时记忆神经元输入及三个控制门的全连接替换为四组独立的滤波器,依次构建卷积递归神经元CRN,具体可以包括:通过共享权重的卷积连接方式,将长短时记忆神经元的输入门、输入控制门、遗忘门和输出控制门与序列进行连接。
在实际实施过程中,可以将长短时记忆神经元构建为多组相互独立的滤波器,并将长短时记忆神经元的输出反馈连接至输入门、输入控制门、遗忘门和输出控制门。
在一个可选的实施例中,上述本发明实施例的方法还可以包括:
利用卷积递归神经元对于单一时刻的序列执行空间上的卷积操作,并对于序列各时刻在空间上的相同区域输出沿时间进行迭代运算。
其中,相互独立的滤波器同步对同一输入区域进行卷积计算,前一时刻相同输入区域对应的输出结果通过由神经元输出至基本单元的反馈连接来影响当前同一输入区域对应的输出,实现同一时刻输出受当前输入数据的空间结构及其在之前时刻的结构变化信息共同影响。
由于在进行上述卷积操作的同时,对于序列各时刻数据空间上相同区域输出沿时间进行迭代运算。这样,整体上在做空间特征提取的同时考虑了序列不同时刻间的相互影响。
图5示例性地示出了对根据图1所示构建方法实施例所构建的模型进行模型分析的方法流程。如图5所示,该模型分析方法可以包括步骤S500至步骤S530。
S500:利用卷积层对序列进行层级化滤波,以确定序列对应的特征图序列。
在本步骤中,序列包括但不限于视频帧序列。例如,该序列可以是瑞典皇家理工学院公布的KTH行为识别数据库和中佛罗里达大学公布的YouTube行为识别数据库中公开的序列。其中,瑞典皇家理工学院公布的KTH行为识别数据库包含6个典型的行为类型:Walking、Jogging、Running、Boxing、Hand waving、Hand clapping,共600个视频序列,视频采样率为25FPS。中佛罗里达大学公布的YouTube行为识别数据库包含11个行为类别:basketball shooting,biking/cycling,diving,golf swinging,horse back riding,soccer juggling,swinging,tennis swinging,trampoline jumping,volleyballspiking,and walking with a dog,共1168个行为序列。
在实际应用中,可以基于图像数据集,利用卷积层对序列进行层级化滤波。通过对序列进行层级化滤波,可以降低背景变化对行为识别任务的干扰。
S510:基于特征图序列,计算卷积递归神经网络的输出。
同一卷积递归神经网络层内可以包含多个子层,以不同的卷积尺度来对序列数据(例如,可以是视频数据)进行分析,输出结果堆叠后作为下一层的输入(参见图6),从而实现多尺度序列时空信息的同步提取。
本发明实施例以卷积递归神经元(Convolutional Recurrent Neuron,CRN)为基本单元,将卷积和递归思想融入到同一个卷积递归神经元中,同时考虑解决因递归连接所带来的梯度消失和误差膨胀问题。
具体地,本发明实施例基于长短时记忆神经元的门控结构,输入单元、输入控制门(Input gate)、遗忘门(Forget gate)和输出控制门(Output gate)同输入的序列数据为共享权重的卷积连接方式,CRN内设有四组相互独立的滤波器,卷积递归神经元的输出反馈连接至输入单元及输入控制门、遗忘门和输出控制门。
作为示例,如图6所示,在第一个卷积递归神经网络层,两个通道分别采用4x4和3x3的卷积核来对输入的特征图序列做不同尺度下的特征提取;在第二个卷积层,则是分别以2x2和3x3的卷积核来对上一层的输出结果进行多尺度分析。为了便于后续处理,此处要求不同卷积尺度下的输出具有相同的空间维度。就单个卷积递归神经元(CRN)而言,其在空间上对单一时刻输入帧进行2D滤波,在时间上对不同帧的相同空间位置对应输出做递归分析,其内部的四组滤波器根据同一时刻的输入共同自适应地决定内部的信号传递及输出。
对于卷积递归神经网络模型分析的前向过程,假设:卷积递归神经网络(Convolutional Recurrent Neural Network,CRNN)中第l层的输出为xl,第l层的第j个CRN单元为Mj,该CRN单元内部的四组滤波器分别为输入单元kljc、输入控制门klji、遗忘门kljf和输出控制门kljo,CRN单元输出为hlj,由输出至输入单元、输入控制门、遗忘门及输出控制门的反馈连接权重分别为wljhc、wljhi、wljhf和wljho,CRN内部状态单元(Cell)的状态为slj,CRN内部四个基本单元的偏置分别为bljc、blji、bljf和bljo
具体地,步骤S510可以通过步骤S511至步骤S514来实现。
S511:根据以下公式确定CRN单元内部滤波器输出:
其中,分别表示t时刻第l层第j个CRN的输入单元、输入控制门、遗忘门和输出控制门对应的滤波器输出;p表示第j个CRN单元内部四组滤波器Mjc、Mji、Mjf和Mjo对应的空间位置元素;表示t时刻卷积递归神经网络中第l-1层的输出;表示t-1时刻CRN单元的输出。
本领域技术人员应清楚,上述假设仅为举例,不应视为对本发明保护范围的不当限定。
S512:根据以下公式对滤波器输出经非线性映射,以确定CRN内部基本单元的输出:
其中,g和f分别表示非线性映射函数。
优选地,g为Tanh双曲正切映射函数,f为Sigmoid映射函数。
S513:根据以下公式,确定CRN内部Cell的输出
其中,表示输入控制门对输入信号的幅度调整;表示CRN输出经遗忘门输出做幅度调整后影响当前时刻Cell的输出;表示t时刻CRN内部Cell状态。
S514:根据以下公式对Cell的输出进行非线性变换并由输出控制门加权,以确定卷积递归神经元CRN的输出:
其中,表示第l层第j个CRN在t时刻的输出;表示对应CRN的输出控制门状态;表示Cell状态的非线性映射函数,优选地为Tanh双曲正切函数。
模型最后一个卷积递归神经网络层输出即为所提取到的序列所含的时空信息表达。上述CRN的输出即为利用多尺度的卷积递归神经网络基于与序列对应的特征图序列同步提取其中的空间结构和时间动态信息表达。该空间结构和时间动态信息表达用于后续的识别任务。
S520:基于卷积递归神经网络的输出,并经全连接层降维,由软最大化层得到序列的类属概率。
在本步骤中,最后一个卷积递归神经网络层输出即为卷积递归神经网络的输出。将卷积递归神经网络的输出作为所提取到的序列对应的时空信息表达,经一个全连接层降维后由软最大化层得到序列的类属概率。
具体地,设最后一个CRNN层输出经全连接层映射后输出为ot,数据库行为类别为K,则ot的维度为K,其经Softmax层映射后得到t时刻视频帧隶属于各类别的概率。
S530:基于序列的类属概率,对序列的每一帧所隶属的行为类别进行判定,并根据投票来决定序列整体的行为类别。
例如,当序列长度为20帧时,对每一帧所隶属的行为类别进行判定,然后对这20帧的判定结果进行统计,找出对应帧最多的那个类别,将其视为序列所属行为类别。
具体地,在实际应用中,本步骤可以包括步骤S531至步骤
S531:根据以下公式确定最小化交叉熵(Cross Entropy)损失函数。其中,交叉熵损失函数为:
其中,δ(·)表示Kronecker函数;r表示序列Vm的真值标签(groundtruth);S表示训练集V中的样本总量;K表示行为类别;N表示第m个样本所包含的帧数;p(Cnk|Vm)表示序列Vm中第n帧隶属于第k个行为类别C的概率。
对于反向过程,采用误差沿时间反向传播(Back Propagation Through Time,BPTT)算法。
S532:基于δ学习规则,根据以下公式确定局部误差:
其中,L表示交叉熵损失函数;表示t时刻第l层第j个CRN输出的局部误差;表示CRN内部Cell状态的局部误差。
其中,根据误差反向传播算法的δ学习规则按照以下公式来确定:
其中,Pl+1表示第l+1层卷积运算输出元素集合;Ml+1表示第l+1层的CRN单元内部滤波器单次乘累加运算时共同的输入;Ul+1表示第l+1层所有CRN中的滤波器单元;k表示CRN输入中的单个元素;u表示第l+1层中的单个滤波器;wljku表示第l层第j个CRN的输入中第k个元素同第l+1层中第u个滤波器单元中对应元素间的连接权重;为第l+1层中滤波器u在t时刻输出的局部误差;Ulj表示第l层第j个CRN中的滤波器;u′则表示Ulj中的单个滤波器,wljhu′表示第l层第j个CRN的输出和其内部单元u′间的连接权重;表示Ulj中单个滤波器u′在t+1时刻的局部误差。
其中,t时刻第l层第j个CRN内部Cell状态的局部误差根据链式法则按照以下公式来确定:
其中,表示CRN内部Cell状态对应非线性映射函数在t时刻的一阶导数;表示第l层第j个CRN内部Cell状态在t+1时刻的局部误差;表示CRN神经元内部遗忘门在t+1时刻的状态。
S533:根据链式法则按照以下公式确定第l层第j个CRN内部输出控制门对应的局部误差为:
其中,表示CRN内部Cell状态经激活函数作非线性映射后的输出;表示输出控制门映射函数对其输入的一阶导数。
S534:根据δ学习规则和链式法则,按照以下公式确定CRN的Cell状态单元、遗忘门和输入控制门对应的局部误差:
其中,分别表示CRN输入单元、遗忘门和输入控制门三者对应的非线性映射函数在t时刻的一阶导数。
模型分析过程采用误差沿时间反向传播算法(Back Propagation Through Time,BPTT)算法,对于单个卷积递归神经网络层,需对原始序列进行迭代计算,该过程受卷积递归神经网络层输入状态和输出局部误差的影响,在已得到输入状态和输出局部误差的情况下,计算过程独立于其它各层,因此,卷积递归神经网络层可以同卷积神经网络中的所有类型层(例如:pooling、正则化层、dropout层等功能层)进行无缝对接。
在一个可选的实施例中,上述模型分析方法实施例还可以包括:通过误差反向传播算法对前端滤波器进行微调。
本实施例可以根据具体任务来对前端滤波器的参数进行微调。图7示例性地示出了经调整后的卷积递归神经网络模型示意图。
此外,本发明实施例还提出一种利用上述模型分析方法实施例分析后的模型进行行为识别的方法,如图8所示,该方法可以包括:
S800:利用模型分析方法分析后的模型中的卷积层对待识别序列进行层级化滤波,以确定待识别序列对应的特征图序列。
S810:基于特征图序列,利用模型分析方法分析后的模型同步提取空间结构和时间动态信息表达。
S820:基于空间结构和时间动态信息表达,确定待识别序列隶属于各行为类别的概率分布。
S830:将隶属概率最大的行为类别确定为待识别序列的识别结果。
下面以视频序列数据为例来说明利用模型分析模型进行行为识别的过程。如图9所示,利用模型分析模型进行行为识别的方法可以包括:
S900:利用模型分析方法分析后的模型中的卷积层对视频序列中各帧进行层级化滤波,以获取原始视频帧序列对应的特征图序列。
S910:利用多尺度的卷积递归神经网络基于特征图序列同步提取其中的空间结构和时间动态信息表达。
S920:基于所获取的空间结构和时间动态信息表达来完成行为识别任务。
本发明实施例通过对上述针对序列的同步自适应时空特征表达学习模型的构建方法所构建的模型进行模型分析,获得模型分析模型。再利用该模型分析模型对待识别序列进行层级化滤波,来确定待识别序列对应的特征图序列;然后,基于特征图序列,利用模型分析模型同步提取空间结构和时间动态信息表达;接着,基于空间结构和时间动态信息表达,来确定待识别序列隶属于各行为类别的概率分布;最后,将隶属概率最大的行为类别确定为待识别序列的识别结果。由此,本发明实施例可以在根据具体任务需求同步提取序列中时空信息表达的同时充分考虑其空间结构和时变信息两者间的关系,从而更好地表达序列中的时空信息结构,而且无需复杂的预处理,可以直接将原始序列数据作为输入以提取其中的时空信息表达。
接下来,借助行为识别实验结果来验证本发明实施例的有效性。
验证实验在两个标准的公开数据库上进行,其分别是瑞典皇家理工学院公布的KTH行为识别数据库,和中佛罗里达大学公布的YouTube行为识别数据库。前者是行为识别研究中最经典的数据库之一,包含6个典型的行为类型:Walking、Jogging、Running、Boxing、Hand waving、Hand clapping,由25个人在4种不同的场景下完成,共600个视频序列,视频采样率为25FPS。后者是一个具有挑战性的真实场景数据库,含11个行为类别:basketball shooting,biking/cycling,diving,golf swinging,horse back riding,soccer juggling,swinging,tennis swinging,trampoline jumping,volleyballspiking,and walking with a dog,共1168个行为序列。每个行为类别包含样本被划分为25组,每组至少四个样本,同一组内的样本具有相同的背景、视角及动作执行者。受摄像机运动、目标姿态及尺度变化、背景及视角变化、光照多变等因素影响。所有试验设置均于相应的对比方法一致。
表一示例性地示出了卷积递归神经网络在KTH数据库上的实验结果。
表一:
表二示例性地示出了卷积递归神经网络在YouTube数据库上的实验结果。
表二:
实验结果中,通过对传统行为识别方法中精度最好的模型周密轨迹(Wang等人的方法(2011),Wang等人的方法(2013))法进行对比,证明了卷积递归神经网络模型能够更好地提取序列中的时空信息表达。而且该模型操作简单,通用性强,具有较高的计算效率,便于实际应用。
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
以上对本发明实施例所提供的技术方案进行了详细的介绍。虽然本文应用了具体的个例对本发明的原理和实施方式进行了阐述,但是,上述实施例的说明仅适用于帮助理解本发明实施例的原理;同时,对于本领域技术人员来说,依据本发明实施例,在具体实施方式以及应用范围之内均会做出改变。
需要说明的是,本文中涉及到的流程图不仅仅局限于本文所示的形式,其还可以进行其他划分和/或组合。
还需要说明的是:附图中的标记和文字只是为了更清楚地说明本发明,不视为对本发明保护范围的不当限定。
术语“包括”、“包含”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
本发明的各个步骤可以用通用的计算装置来实现,例如,它们可以集中在单个的计算装置上,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备或者多处理器装置,也可以分布在多个计算装置所组成的网络上,它们可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。因此,本发明不限于任何特定的硬件和软件或者其结合。
本发明提供的方法可以使用可编程逻辑器件来实现,也可以实施为计算机程序软件或程序模块(其包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件或数据结构等等),例如根据本发明的实施例可以是一种计算机程序产品,运行该计算机程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现所述方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可以从计算机主体上拆卸下来的可移动介质(例如:采用热插拔技术的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器,例如:RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于:光存储介质(例如:CD-ROM和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种针对序列的同步自适应时空特征表达学习模型的构建方法,所述方法至少包括:
将长短时记忆神经元输入及三个控制门的全连接替换为四组独立的滤波器,依次构建卷积递归神经元CRN;
将所述X个CRN并行排列,构建卷积递归神经网络层;
其特点在于:
建立所述各CRN的输出只向其自身基本单元的反馈连接,且在所述各CRN之间不建立连接关系;
在所述卷积递归神经网络层和输入序列之间构建卷积层;
将Y个所述卷积递归神经网络层相堆叠,形成卷积递归神经网络,其中单个所述卷积递归神经网络层包含Z个子层,所述X、所述Y及所述Z均为正整数。
2.根据权利要求1所述的方法,其特征在于,将长短时记忆神经元输入及三个控制门的全连接替换为四组独立的滤波器,依次构建卷积递归神经元CRN,具体包括:
通过共享权重的卷积连接方式,将所述长短时记忆神经元的输入门、输入控制门、遗忘门和输出控制门与所述序列进行连接。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用所述卷积递归神经元对于单一时刻的所述序列执行空间上的卷积操作,并对于所述序列各时刻在空间上的相同区域输出沿时间进行迭代运算。
4.一种利用权利要求1至3中任一所述构建方法所构建的模型进行模型分析的方法,其特征在于,所述模型分析方法包括:
利用所述卷积层对所述序列进行层级化滤波,以确定所述序列对应的特征图序列;
基于所述特征图序列,计算所述卷积递归神经网络的输出;
基于所述卷积递归神经网络的所述输出,经全连接层降维,由软最大化层得到所述序列的类属概率;
基于所述序列的所述类属概率,对所述序列的每一帧所隶属的行为类别进行判定,并根据投票来决定所述序列整体的行为类别。
5.根据权利要求4所述的模型分析方法,其特征在于,所述基于所述特征图序列,计算所述卷积递归神经网络的输出,具体包括:
根据以下公式确定所述CRN内滤波器的输出:
<mrow> <msubsup> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>c</mi> </mrow> <mi>t</mi> </msubsup> <mo>=</mo> <munder> <mi>&amp;Sigma;</mi> <mrow> <mi>p</mi> <mo>&amp;Element;</mo> <msub> <mi>M</mi> <mrow> <mi>j</mi> <mi>c</mi> </mrow> </msub> </mrow> </munder> <msubsup> <mi>X</mi> <mrow> <mrow> <mo>(</mo> <mrow> <mi>l</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> </mrow> <mi>p</mi> </mrow> <mi>t</mi> </msubsup> <msub> <mi>k</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>c</mi> <mi>p</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>w</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>h</mi> <mi>c</mi> </mrow> </msub> <msubsup> <mi>h</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>+</mo> <msub> <mi>b</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>c</mi> </mrow> </msub> </mrow>
<mrow> <msubsup> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>i</mi> </mrow> <mi>t</mi> </msubsup> <mo>=</mo> <munder> <mi>&amp;Sigma;</mi> <mrow> <mi>p</mi> <mo>&amp;Element;</mo> <msub> <mi>M</mi> <mrow> <mi>j</mi> <mi>i</mi> </mrow> </msub> </mrow> </munder> <msubsup> <mi>x</mi> <mrow> <mrow> <mo>(</mo> <mrow> <mi>l</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> </mrow> <mi>p</mi> </mrow> <mi>t</mi> </msubsup> <msub> <mi>k</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>i</mi> <mi>p</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>w</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>h</mi> <mi>i</mi> </mrow> </msub> <msubsup> <mi>h</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>+</mo> <msub> <mi>b</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>i</mi> </mrow> </msub> </mrow>
<mrow> <msubsup> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>f</mi> </mrow> <mi>t</mi> </msubsup> <mo>=</mo> <munder> <mi>&amp;Sigma;</mi> <mrow> <mi>p</mi> <mo>&amp;Element;</mo> <msub> <mi>M</mi> <mrow> <mi>j</mi> <mi>f</mi> </mrow> </msub> </mrow> </munder> <msubsup> <mi>x</mi> <mrow> <mrow> <mo>(</mo> <mrow> <mi>l</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> </mrow> <mi>p</mi> </mrow> <mi>t</mi> </msubsup> <msub> <mi>k</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>f</mi> <mi>p</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>w</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>h</mi> <mi>f</mi> </mrow> </msub> <msubsup> <mi>h</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>+</mo> <msub> <mi>b</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>f</mi> </mrow> </msub> </mrow>
<mrow> <msubsup> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>o</mi> </mrow> <mi>t</mi> </msubsup> <mo>=</mo> <munder> <mi>&amp;Sigma;</mi> <mrow> <mi>p</mi> <mo>&amp;Element;</mo> <msub> <mi>M</mi> <mrow> <mi>j</mi> <mi>o</mi> </mrow> </msub> </mrow> </munder> <msubsup> <mi>x</mi> <mrow> <mrow> <mo>(</mo> <mrow> <mi>l</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> </mrow> <mi>p</mi> </mrow> <mi>t</mi> </msubsup> <msub> <mi>k</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>o</mi> <mi>p</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>w</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>h</mi> <mi>o</mi> </mrow> </msub> <msubsup> <mi>h</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>+</mo> <msub> <mi>b</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>o</mi> </mrow> </msub> </mrow>
其中,所述所述所述和所述分别表示t时刻第l层第j个所述CRN的所述输入单元、所述输入控制门、所述遗忘门和所述输出控制门对应的滤波器输出;所述Mjc、所述Mji、所述Mjf和所述Mjo分别表示第j个所述CRN单元内部滤波器;所述p表示所述Mjc、所述Mji、所述Mjf和所述Mjo对应的空间位置元素;所述表示t时刻所述卷积递归神经网络中第l-1层的输出;所述kljc、所述klji、所述kljf及所述kljo分别表示所述输入单元、所述输入控制门、所述遗忘门及所述输出控制门;所述表示t-1时刻所述CRN单元的输出;所述wljhc、所述wljhi、所述wljhf及所述wljho分别表示由输出至所述输入单元、所述输入控制门、所述遗忘门及所述输出控制门的反馈连接权重;所述bljc、所述blji、所述bljf及所述bljo分别表示所述CRN内部基本单元的偏置;
根据以下公式对所述滤波器输出进行非线性映射,以确定所述CRN内部基本单元的输出:
<mrow> <msubsup> <mi>u</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>c</mi> </mrow> <mi>t</mi> </msubsup> <mo>=</mo> <mi>g</mi> <mo>(</mo> <msubsup> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>c</mi> </mrow> <mi>t</mi> </msubsup> <mo>)</mo> <mo>;</mo> <msubsup> <mi>u</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>i</mi> </mrow> <mi>t</mi> </msubsup> <mo>=</mo> <mi>f</mi> <mo>(</mo> <msubsup> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>i</mi> </mrow> <mi>t</mi> </msubsup> <mo>)</mo> <mo>;</mo> <msubsup> <mi>u</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>f</mi> </mrow> <mi>t</mi> </msubsup> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <msubsup> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>f</mi> </mrow> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> <mo>;</mo> <msubsup> <mi>u</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>o</mi> </mrow> <mi>t</mi> </msubsup> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <msubsup> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>o</mi> </mrow> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> </mrow>
其中,所述g和所述f分别表示非线性映射函数;
根据以下公式,确定所述CRN内部状态单元的输出:
<mrow> <msubsup> <mi>s</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> <mo>=</mo> <msubsup> <mi>u</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>i</mi> </mrow> <mi>t</mi> </msubsup> <msubsup> <mi>u</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>c</mi> </mrow> <mi>t</mi> </msubsup> <mo>+</mo> <msubsup> <mi>u</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>f</mi> </mrow> <mi>t</mi> </msubsup> <msubsup> <mi>s</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> </mrow>
其中,所述表示所述输入控制门对输入信号的幅度调整;所述表示所述CRN输出经所述遗忘门输出作幅度调整后影响当前时刻Cell的状态;所述表示t时刻所述CRN内部Cell的输出;
根据以下公式对所述Cell的输出进行非线性变换并由所述输出控制门加权,以确定CRN的输出:
其中,所述表示第l层第j个CRN在t时刻的输出;所述表示对应所述CRN的输出控制门状态;所述表示所述Cell状态的非线性映射函数。
6.根据权利要求5所述的模型分析方法,其特征在于,所述基于所述序列的所述类属概率,对所述序列的每一帧所隶属的行为类别进行判定,并根据投票来决定所述序列的行为类别,还包括:
根据以下公式确定最小化交叉熵损失函数:
<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>V</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>S</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mi>l</mi> <mi>n</mi> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>K</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mi>&amp;delta;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>-</mo> <mi>r</mi> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mrow> <mi>n</mi> <mi>k</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>V</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> </mrow>
其中,所述δ(·)表示Kronecker函数;所述Vm表示所述序列;所述r表示所述序列Vm的真值标签(groundtruth);所述V表示训练集;所述S表示所述训练集V中的样本总量;所述K表示行为类别;所述N表示第m个样本所包含的帧数;所述p(Cnk|Vm)表示所述序列Vm中第n帧隶属于第k个行为类别C的概率;
基于δ学习规则,根据以下公式确定局部误差:
<mrow> <msubsup> <mi>&amp;xi;</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>h</mi> </mrow> <mi>t</mi> </msubsup> <mo>=</mo> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>L</mi> </mrow> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>h</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> </mrow> </mfrac> <mo>;</mo> <msubsup> <mi>&amp;xi;</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>s</mi> </mrow> <mi>t</mi> </msubsup> <mo>=</mo> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>L</mi> </mrow> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>s</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> </mrow> </mfrac> </mrow>
其中,所述L表示所述交叉熵损失函数;所述表示t时刻第l层第j个所述CRN输出的局部误差;所述表示所述CRN内部所述Cell状态的局部误差;
其中,所述根据误差反向传播算法的δ学习规则按照以下公式来确定:
<mrow> <msubsup> <mi>&amp;xi;</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>h</mi> </mrow> <mi>t</mi> </msubsup> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <msub> <mi>P</mi> <mrow> <mi>l</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </munder> <mrow> <mo>(</mo> <mrow> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>&amp;Element;</mo> <msub> <mi>M</mi> <mrow> <mi>l</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mrow> </munder> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>u</mi> <mo>&amp;Element;</mo> <msub> <mi>U</mi> <mrow> <mi>l</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mrow> </munder> <msub> <mi>w</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>k</mi> <mi>u</mi> </mrow> </msub> <msubsup> <mi>&amp;delta;</mi> <mi>u</mi> <mi>t</mi> </msubsup> <mo>+</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <msup> <mi>u</mi> <mo>&amp;prime;</mo> </msup> <mo>&amp;Element;</mo> <msub> <mi>U</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> </msub> </mrow> </munder> <msub> <mi>w</mi> <mrow> <msup> <mi>ljhu</mi> <mo>&amp;prime;</mo> </msup> </mrow> </msub> <msubsup> <mi>&amp;delta;</mi> <msup> <mi>u</mi> <mo>&amp;prime;</mo> </msup> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msubsup> </mrow> <mo>)</mo> </mrow> </mrow>
其中,所述Pl+1表示第l+1层卷积运算输出元素集合;所述Ml+1表示第l+1层的CRN单元内部滤波器单次乘累加运算时共同的输入;所述Ul+1表示第l+1层所有所述CRN中的滤波器单元;所述k表示所述CRN输入中的单个元素;所述u表示第l+1层中的单个滤波器;所述wljku表示第l层第j个CRN的输入中第k个元素同第l+1层中第u个滤波器单元中对应元素间的连接权重;所述为第l+1层中滤波器u在t时刻输出的局部误差;所述Ulj表示第l层第j个CRN中的滤波器;所述u′则表示所述Ulj中的单个滤波器;所述wljhu′表示第l层第j个CRN的输出和其内部单元u′间的连接权重;所述表示Ulj中单个滤波器u′在t+1时刻的局部误差;
其中,所述根据链式法则按照以下公式来确定:
其中,所述表示所述CRN内部所述Cell状态对应非线性映射函数在t时刻的一阶导数;所述表示第l层第j个CRN内部所述Cell状态在t+1时刻的局部误差;所述表示所述CRN神经元内部所述遗忘门在t+1时刻的状态;
根据链式法则按照以下公式,来确定第l层第j个CRN内部输出控制门对应的局部误差:
其中,所述表示所述CRN内部Cell状态经激活函数作非线性映射后的输出;所述表示所述输出控制门映射函数对其输入的一阶导数;
根据δ学习规则和链式法则,按照以下公式确定所述CRN的所述Cell状态单元、所述遗忘门和所述输入控制门对应的局部误差:
<mrow> <msubsup> <mi>&amp;delta;</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>c</mi> </mrow> <mi>t</mi> </msubsup> <mo>=</mo> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>L</mi> </mrow> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>c</mi> </mrow> <mi>t</mi> </msubsup> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>L</mi> </mrow> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>s</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> </mrow> </mfrac> <mfrac> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>s</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> </mrow> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>c</mi> </mrow> <mi>t</mi> </msubsup> </mrow> </mfrac> <mo>=</mo> <msubsup> <mi>&amp;xi;</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>s</mi> </mrow> <mi>t</mi> </msubsup> <msubsup> <mi>u</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>i</mi> </mrow> <mi>t</mi> </msubsup> <msup> <mi>g</mi> <mo>&amp;prime;</mo> </msup> <mrow> <mo>(</mo> <msubsup> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>c</mi> </mrow> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> </mrow>
<mrow> <msubsup> <mi>&amp;delta;</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>f</mi> </mrow> <mi>t</mi> </msubsup> <mo>=</mo> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>L</mi> </mrow> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>f</mi> </mrow> <mi>t</mi> </msubsup> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>L</mi> </mrow> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>s</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> </mrow> </mfrac> <mfrac> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>s</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> </mrow> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>u</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>f</mi> </mrow> <mi>t</mi> </msubsup> </mrow> </mfrac> <mfrac> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>u</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>f</mi> </mrow> <mi>t</mi> </msubsup> </mrow> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>f</mi> </mrow> <mi>t</mi> </msubsup> </mrow> </mfrac> <mo>=</mo> <msubsup> <mi>&amp;xi;</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>s</mi> </mrow> <mi>t</mi> </msubsup> <msubsup> <mi>s</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msup> <mi>f</mi> <mo>&amp;prime;</mo> </msup> <mrow> <mo>(</mo> <msubsup> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>f</mi> </mrow> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> </mrow>
<mrow> <msubsup> <mi>&amp;delta;</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>i</mi> </mrow> <mi>t</mi> </msubsup> <mo>=</mo> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>L</mi> </mrow> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>i</mi> </mrow> <mi>t</mi> </msubsup> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>L</mi> </mrow> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>s</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> </mrow> </mfrac> <mfrac> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>s</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> </mrow> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>u</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>i</mi> </mrow> <mi>t</mi> </msubsup> </mrow> </mfrac> <mfrac> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>u</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>i</mi> </mrow> <mi>t</mi> </msubsup> </mrow> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>i</mi> </mrow> <mi>t</mi> </msubsup> </mrow> </mfrac> <mo>=</mo> <msubsup> <mi>&amp;xi;</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>s</mi> </mrow> <mi>t</mi> </msubsup> <mi>g</mi> <mrow> <mo>(</mo> <msubsup> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>c</mi> </mrow> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> <msup> <mi>f</mi> <mo>&amp;prime;</mo> </msup> <mrow> <mo>(</mo> <msubsup> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> <mi>i</mi> </mrow> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> </mrow>
其中,分别表示CRN输入单元、遗忘门和输入控制门三者对应的非线性映射函数在t时刻的一阶导数。
7.根据权利要求4至6中任一所述的模型分析方法,其特征在于,所述模型的分析方法还包括:
通过误差反向传播算法对所述滤波器进行微调。
8.一种利用如权利要求4至6中任一所述模型分析方法所分析后的模型进行行为识别的方法,其特征在于,所述行为识别的方法包括:
利用所述模型分析方法分析后的模型中的卷积层对待识别序列进行层级化滤波,以确定所述待识别序列对应的特征图序列;
基于所述特征图序列,利用所述模型分析方法分析后的模型同步提取空间结构和时间动态信息表达;
基于所述空间结构和时间动态信息表达,来确定所述待识别序列隶属于各行为类别的概率分布;
将隶属概率最大的行为类别确定为所述待识别序列的识别结果。
CN201610602678.6A 2016-07-27 2016-07-27 同步自适应时空特征表达学习模型的构建方法及相关方法 Active CN107704924B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610602678.6A CN107704924B (zh) 2016-07-27 2016-07-27 同步自适应时空特征表达学习模型的构建方法及相关方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610602678.6A CN107704924B (zh) 2016-07-27 2016-07-27 同步自适应时空特征表达学习模型的构建方法及相关方法

Publications (2)

Publication Number Publication Date
CN107704924A true CN107704924A (zh) 2018-02-16
CN107704924B CN107704924B (zh) 2020-05-19

Family

ID=61169004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610602678.6A Active CN107704924B (zh) 2016-07-27 2016-07-27 同步自适应时空特征表达学习模型的构建方法及相关方法

Country Status (1)

Country Link
CN (1) CN107704924B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108510280A (zh) * 2018-03-23 2018-09-07 上海氪信信息技术有限公司 一种基于移动设备行为数据的金融欺诈行为预测方法
CN109063829A (zh) * 2018-06-22 2018-12-21 泰康保险集团股份有限公司 神经网络构建方法、装置、计算机设备和存储介质
CN109656134A (zh) * 2018-12-07 2019-04-19 电子科技大学 一种基于时空联合递归神经网络的智能车端到端决策方法
CN110210581A (zh) * 2019-04-28 2019-09-06 平安科技(深圳)有限公司 一种手写文本识别方法及装置、电子设备
CN111656412A (zh) * 2018-06-28 2020-09-11 株式会社小松制作所 用于判定作业车辆所进行的作业的***、方法以及已学习模型的制造方法
WO2021134519A1 (zh) * 2019-12-31 2021-07-08 华为技术有限公司 在神经网络推理中实现数据同步的装置和方法
CN113671031A (zh) * 2021-08-20 2021-11-19 北京房江湖科技有限公司 墙体空鼓检测方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140358546A1 (en) * 2013-05-28 2014-12-04 International Business Machines Corporation Hybrid predictive model for enhancing prosodic expressiveness
CN104615983A (zh) * 2015-01-28 2015-05-13 中国科学院自动化研究所 基于递归神经网络和人体骨架运动序列的行为识别方法
CN105243398A (zh) * 2015-09-08 2016-01-13 西安交通大学 基于线性判别分析准则的改进卷积神经网络性能的方法
CN105678292A (zh) * 2015-12-30 2016-06-15 成都数联铭品科技有限公司 基于卷积及递归神经网络的复杂光学文字序列识别***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140358546A1 (en) * 2013-05-28 2014-12-04 International Business Machines Corporation Hybrid predictive model for enhancing prosodic expressiveness
CN104615983A (zh) * 2015-01-28 2015-05-13 中国科学院自动化研究所 基于递归神经网络和人体骨架运动序列的行为识别方法
CN105243398A (zh) * 2015-09-08 2016-01-13 西安交通大学 基于线性判别分析准则的改进卷积神经网络性能的方法
CN105678292A (zh) * 2015-12-30 2016-06-15 成都数联铭品科技有限公司 基于卷积及递归神经网络的复杂光学文字序列识别***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宣森炎 等: "基于联合卷积和递归神经网络的交通标志识别", 《传感器与微***》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108510280A (zh) * 2018-03-23 2018-09-07 上海氪信信息技术有限公司 一种基于移动设备行为数据的金融欺诈行为预测方法
CN108510280B (zh) * 2018-03-23 2020-07-31 上海氪信信息技术有限公司 一种基于移动设备行为数据的金融欺诈行为预测方法
CN109063829A (zh) * 2018-06-22 2018-12-21 泰康保险集团股份有限公司 神经网络构建方法、装置、计算机设备和存储介质
CN109063829B (zh) * 2018-06-22 2021-03-16 泰康保险集团股份有限公司 神经网络构建方法、装置、计算机设备和存储介质
CN111656412A (zh) * 2018-06-28 2020-09-11 株式会社小松制作所 用于判定作业车辆所进行的作业的***、方法以及已学习模型的制造方法
CN109656134A (zh) * 2018-12-07 2019-04-19 电子科技大学 一种基于时空联合递归神经网络的智能车端到端决策方法
CN110210581A (zh) * 2019-04-28 2019-09-06 平安科技(深圳)有限公司 一种手写文本识别方法及装置、电子设备
CN110210581B (zh) * 2019-04-28 2023-11-24 平安科技(深圳)有限公司 一种手写文本识别方法及装置、电子设备
WO2021134519A1 (zh) * 2019-12-31 2021-07-08 华为技术有限公司 在神经网络推理中实现数据同步的装置和方法
CN113169989A (zh) * 2019-12-31 2021-07-23 华为技术有限公司 在神经网络推理中实现数据同步的装置和方法
CN113671031A (zh) * 2021-08-20 2021-11-19 北京房江湖科技有限公司 墙体空鼓检测方法和装置

Also Published As

Publication number Publication date
CN107704924B (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN107704924A (zh) 同步自适应时空特征表达学习模型的构建方法及相关方法
CN107506740B (zh) 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
CN108681712B (zh) 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法
Ghazi et al. Plant identification using deep neural networks via optimization of transfer learning parameters
Verma et al. Application of convolutional neural networks for evaluation of disease severity in tomato plant
CN106709461B (zh) 基于视频的行为识别方法及装置
CN109443382A (zh) 基于特征提取与降维神经网络的视觉slam闭环检测方法
CN107463919A (zh) 一种基于深度3d卷积神经网络进行面部表情识别的方法
CN108399435B (zh) 一种基于动静特征的视频分类方法
Ullah et al. One-shot learning for surveillance anomaly recognition using siamese 3d cnn
Verma et al. Deep learning-based multi-modal approach using RGB and skeleton sequences for human activity recognition
CN106203363A (zh) 人体骨架运动序列行为识别方法
Li et al. Pedestrian detection based on deep learning model
CN106462797A (zh) 共同特征上的定制分类器
CN111696137A (zh) 一种基于多层特征混合与注意力机制的目标跟踪方法
CN111652903A (zh) 一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法
CN104537684A (zh) 一种静态场景中的实时运动目标提取方法
CN109979161A (zh) 一种基于卷积循环神经网络的人体跌倒检测方法
Xiao et al. Overview: Video recognition from handcrafted method to deep learning method
Tan et al. Bidirectional long short-term memory with temporal dense sampling for human action recognition
CN109858496A (zh) 一种基于加权深度特征的图像特征提取方法
Yan et al. CHAM: action recognition using convolutional hierarchical attention model
Zhao et al. Human action recognition based on improved fusion attention CNN and RNN
Xu et al. Enhancing adaptive history reserving by spiking convolutional block attention module in recurrent neural networks
Kumar et al. Light-Weight Deep Learning Model for Human Action Recognition in Videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant