CN111860053B

CN111860053B - 一种多媒体数据识别方法及装置

Info

Publication number: CN111860053B
Application number: CN201910348456.XA
Authority: CN
Inventors: 高岱恒
Original assignee: Beijing Lynxi Technology Co Ltd
Current assignee: Beijing Lynxi Technology Co Ltd
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2023-11-24
Anticipated expiration: 2039-04-28
Also published as: WO2020220926A1; CN111860053A

Abstract

本发明提供了一种多媒体数据识别方法及装置，该方法包括：将待识别多媒体数据输入预先构建的神经网络结构中；其中，所述神经网络结构包括自适应的泄露‑集成‑发射ALIF时序模型，所述ALIF时序模型包括多层ALIF网络层；所述待识别多媒体数据包括图像数据和/或视频数据；通过所述神经网络结构中的多层ALIF网络层对所述待识别多媒体数据进行识别计算，并输出计算结果。本发明提出了一种融合了SNN和ANN于一身的新型算法ALIF,在模糊图像识别任务中能够表现出更好的识别能力和抗噪声能力,模型的鲁棒性更强，能够有效的识别出场景中是否含有目标物体。

Description

一种多媒体数据识别方法及装置

技术领域

本发明涉及深度学习技术领域，特别是涉及一种多媒体数据识别方法及装置。

背景技术

深度学习是指多层神经网络上运用各种机器学习算法解决图像，文本等各种问题的算法集合。深度学习从大类上可以归入神经网络，不过在具体实现上有许多变化。深度学习的核心是特征学习，旨在通过分层网络获取分层次的特征信息，从而解决以往需要人工设计特征的重要难题。深度学习是一个框架，包含多个重要算法如卷积神经网络(Convolutional Neural Networks,CNN)、自动编码器AutoEncoder、稀疏编码SparseCoding、限制波尔兹曼机 (Restricted Boltzmann Machine，RBM)、深信度网络(DeepBelief Networks， DBN)以及多层反馈循环神经网络(Recurrent neural Network，RNN)等神经网络。

对于不同问题(图像，语音，文本)，需要选用不同网络模型才能达到更好效果。在深度学习出现之前,常用的机器算法如支持向量机(Support Vector Machine，SVM)等,亦被广泛应用于各类任务当中。目前,我们所说的人工智能(Artificial Intelligence，AI),主要是指以神经网络模型为代表的深度学习算法和以SVM为代表的机器学习算法。

由于以深度学习为代表的人工神经网络(Artificial Neural Network,ANN) 类方法有缺陷--可解释性差,生物模拟层次低等种种原因,开始有人将注意力转到了类脑(brain-inspired)计算领域,以脉冲神经网络(Spiking Neural Network,SNN)为代表的第3代神经网络开始得到了广泛的关注。相比ANN,SNN 具有很低的功耗,这意味着低功耗意味着可以近似的模拟人脑的数百亿的神经元细胞成为可能(因为深度学习的本质就是将神经网络加深、加大,使其参数量爆增)。此外,SNN还具备更强的生物合理性。无论是从1907年法国生理科学家 Louis Lapicque提出的泄露-集成-发射(Leaky Integrate-and-Fire,LIF)模型, 还是20世纪中叶剑桥大学三一学院的霍奇金和赫胥黎发明的霍奇金-赫胥黎(Hodgkin-Huxley,HH)模型,都是从真正的生物大脑出发,分析神经元的工作机制以及其受到不同程度刺激下的反应。

但是,由于纯粹的SNN只能接收离散信号输入,而我们现实世界的任务基本都是连续输入。而目前对信号转换的研究还没有那么深入,而且,SNN类算法主要被用于神经形态芯片的设计和开发中。可以说,SNN还没有像ANN一样在例如目标识别、物体分类、图像生成等种种实际任务中大显神威。

图像识别,是计算机视觉领域的一个经典问题,随着以深度学习为代表的 AI技术的飞速发展,图像识别领域受到了许多研究人员的关注。但是,在模糊图像识别领域,由于难以评估模糊和噪声的数据分布形式并对其进行模拟建模,现有的基于ANN的算法难以达到与近似人类的识别能力。

目前,经典的模糊图像识别过程可以分为2个步骤:1)去除图像的噪声和模糊；2)对去噪后的图像进行图像识别。我们知道,图像中噪声的来源通常是由于剧烈的空间场景转换或由拍摄手法或装置(比如分辨率过低的拍摄设备)导致的。作为一个高度的病态问题(highly ill-posed problem),图像/视频的去噪通常需要依赖于大量的先验知识(比如对各种可能的噪声进行知识蒸馏(knowledge distilling)),对于噪声/模糊来源比较固定的情况,有3种比较常用的基于先验方式的去噪模式:

1.来自UCLA的Tony陈等于1998年提出的“全变分盲反卷积”；

2.Levin.L等于2009年基于Tony陈的全变分盲反卷积,提出了考虑稀疏图像先验的新方法；

3.Freeman等于2008年提出的重尾梯度先验,可以从单张图像中有效的去除由于拍摄者手抖而造成的模糊。

这些算法都是通过一个由粗到细的最大后验概率(MAP)框架来估计模糊核, 但是这种类型算法的问题在于比较耗时,而且对低分辨率图像效果不佳。

从2012年以来,随着深度学习的重新火热,有很多基于CNN的图像去模糊算法被提出来,比如西安交通大学的孙剑教授,提出了一种估计图像中各个小区域的模糊核方向的端到端的CNN架构。来自韩国首尔大学的研究人员提出了一种加入时序信息(可以对视频序列进行操作)的统一框架,可以有效的对视频/图像去模糊并进行超分辨率重建,并通过光流信息来对运动进行估计(有效去模糊)。

而对模糊来源高度异化的情况,如图1所示(有飞机的机场),因为原图本身包含的信息不足以让CNN类模型进行识别,所以相对CNN,加入时间维度的信息的模糊图片序列更容易被识别出来(基于图像的感兴趣区域随时间可以被RNN 类时序模型搜集全的假设)。

虽然之前的方法在图像/视频去噪方面取得了较好的效果，有利于识别任务的进行，但是运动模糊核估计或序列建模对不规则和密集噪声都具有较高的敏感性。此外，随着图像/视频中噪声和模糊的增加，时序模型的识别的成功率也会出现显著的降低。

发明内容

鉴于上述问题，本发明提供了一种克服上述问题或至少部分地解决了上述问题的一种多媒体数据识别方法及装置。

根据本发明的一个方面，提供了一种多媒体数据识别方法，包括：

将待识别多媒体数据输入预先构建的神经网络结构中；其中，所述神经网络结构包括自适应的泄露-集成-发射ALIF时序模型，所述ALIF时序模型包括多层ALIF网络层；所述待识别多媒体数据包括图像数据和/或视频数据；

通过所述神经网络结构中的多层ALIF网络层对所述待识别多媒体数据进行识别计算，并输出计算结果。

可选地，对于任意一层ALIF网络层，神经元输出通过以下公式进行计算：

y_t＝σ(v_t+δ)

其中，t表示第t个时间步，y_t表示ALIF网络层在第t个时间步的神经元的输出；σ表示包含自适应调整f_thres算法的激活函数；δ表示模拟大脑的随机噪声而设置的张量；v_t表示第t个时间步的膜电位。

可选地，第t个时间步的膜电位v_t通过以下公式进行计算：

v_t＝W_xx_t+αv_t-1

其中，v_t表示第t个时间步的膜电位，Wx表示ALIF时序模型中对输入进行变化的二维权重矩阵；x_t表示ALIF网络层的输入；v_t-1表示第t-1个时间步的膜电位；α表示预设矩阵；

若y_t≥f_thres，则v_t'＝v_t-β，β表示预设参数。

可选地，所述Wx的形状为：每个时间步输入的数据维度×ALIF网络层的单元数。

可选地，所述图像数据和/或视频数据为模糊图像数据和/或视频数据。

根据本发明的另一方面，还提供了一种多媒体数据识别装置，包括：

数据输入模块，配置为将待识别多媒体数据输入预先构建的神经网络结构中；其中，所述神经网络结构包括自适应的泄露-集成-发射ALIF时序模型，所述ALIF时序模型包括多层ALIF网络层；所述待识别多媒体数据包括图像数据和/或视频数据；

数据计算模块，配置为通过所述神经网络结构中的多层ALIF网络层对所述待识别多媒体数据进行识别计算，并输出计算结果。

可选地，所述数据计算模块还配置为：对于任意一层ALIF网络层，通过以下公式计算神经元的输出：

y_t＝σ(v_t+δ)

可选地，所述数据计算模块还配置为：通过以下公式计算第t个时间步的膜电位v_t：

v_t＝W_xx_t+αv_t-1

若y_t≥f_thres，则v_t'＝v_t-β，β表示预设参数。

根据本发明的又一方面，还提供了一种存储设备，其中存储由计算机程序，所述计算机程序在电子设备中运行时，由所述电子设备的处理器加载并执行上述任一项所述的多媒体数据识别方法。

根据本发明的又一方面，还提供了一种电子设备，包括：

处理器，用于运行计算机程序；以及

存储设备，用于存储计算机程序，所述计算机程序在所述电子设备中运行时由处理器加载并执行上述任一项所述的多媒体数据识别方法。

本发明提出了一种融合了SNN和ANN于一身的新型算法ALIF,在权重显著小于常用时序模型RNN,LSTM和GRU的前提下,在模糊图像识别任务中能够表现出更好的识别能力和抗噪声能力,模型的鲁棒性更强，能够有效的识别出场景中是否含有目标物体。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了模糊图像示意图；

图2示出了根据本发明实施例的神经网络结构示意图；

图3示出了根据本发明实施例的多媒体数据识别方法流程示意图；

图4示出了神经元示意图；

图5示出了根据本发明实施例的ALIF网络层计算示意图；

图6示出了根据本发明实施例的输入神经网络的训练图片示意图；

图7示出了根据本发明实施例的输入神经网络的测试图片示意图；

图8示出了根据本发明实施例的针对不同实现模型的神经网络的试验结果对比图；

图9示出了根据本发明实施例的多媒体数据识别装置结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提出了融合SNN和ANN的自适应的泄露-集成-发射(Adaptive LeakyIntegrate-and-Fire,ALIF)的时序算法模型,并且用其来进行模糊图像识别。图2示出了根据本发明实施例的神经网络结构示意图，如图2所示，因为ALIF是时序模型,因此图2所示神经网络的输入是连续的模糊图像,输入该神经网络的连续图像序列(GoI,Group ofImages)的时间步有2,5,10,15,20这五种情况。此外,为了比较,我们加入了RNN,LSTM等时序模型进行比较,图2中的 FC是全连接层的意思。

本发明实施例提供的神经网络结构中,主要在于ALIF,它是网络中的一层,与RNN,LSTM以及GRU等流行的深度学习时序模型的概念层次是一致的,只是在实现中更多的参考了脉冲神经网络的工作机制在生物层面更具合理性。

图3示出了根据本发明实施例的多媒体数据识别方法流程示意图，该多媒体数据可以包括模糊图像数据或模糊视频数据，如图3所示，本发明实施例提供的多媒体数据识别方法可以包括：

步骤S301，将待识别的多媒体数据输入预先构建的神经网络结构中；其中，所述神经网络结构包括自适应的泄露-集成-发射ALIF时序模型，所述ALIF时序模型包括多层ALIF网络层；所述待识别多媒体数据包括图像数据和/或视频数据；该待识别多媒体数据为模糊的图像数据或者是模糊视频数据，即为像素较低/噪声较大的多媒体数据。

步骤S302，通过所述神经网络结构中的多层ALIF网络层对所述待识别多媒体数据进行识别计算，并输出计算结果。

在脉冲神经网络模型中，参见图4可知，连在细胞膜上的分叉结构叫树突，是输入，那根长长的“尾巴”叫轴突，是输出。神经元输出的有电信号和化学信号。最主要的是沿着轴突细胞膜表面传播的一个电脉冲。树突和轴突都有大量的分支。轴突的末端通常连接到其他细胞的树突上，连接点上是一个叫“突触”的结构，一个神经元的输出通过突触传递给成千上万个下游的神经元。一个神经元有成千上万个上游神经元，积累它们的输入，产生输出。

图5示出了根据本发明实施例的ALIF网络层计算示意图。如图5,ALIF网络层的计算逻辑类似于RNN，但是本实施例通过加入了随机噪声,自适应发射模块等内容,使得它更具独特性。在图5中，v_t,1表示当前层为1，第t个时间步的膜电位，x_t表示ALIF网络层的输入，y_t表示ALIF网络层第t个时间步的神经元的输出。

其计算逻辑可以表示如下(以当前时间步为t例进行说明)。上述步骤S302 中，对于任意一层ALIF网络层每个时间步的神经元输出可通过以下公式进行计算：

y_t＝σ(v_t+δ)

其中，t表示第t个时间步，y_t表示ALIF网络层在第t个时间步的神经元的输出；σ表示包含自适应调整f_thres算法的激活函数；δ表示模拟大脑的随机噪声而设置的张量；v_t表示第t个时间步的膜电位。其中，f_thres算法是一个根据数据的发射值进行统计,自适应调整发射阈值的算法。假设有5个值要发射, 分别为0.5、0.4、0.7、0.8、0.9。当前设置的f_thres＝0.8,那么只有0.8和0.9 能成功的发射出去(实现传递),0.5、0.4、0.7这3个值并没有被神经元发射出去。

进一步地，第t个时间步的膜电位v_t通过以下公式进行计算：

v_t＝W_xx_t+αv_t-1

其中，W_x表示ALIF时序模型中对输入进行变化的二维权重矩阵；x_t表示 ALIF网络层的输入；v_t-1表示第t-1个时间步的膜电位；α表示预设矩阵。

Wx是时序模型中对输入进行变化的二维权重矩阵,该二维权重矩阵的矩阵形状为input_dim(每个时间步输入的数据维度(固定))×unit of ALIF(ALIF 网络层的单元数,跟RNN等时序模型中的概念一致),α可以表示预设矩阵，用于替代与膜电位v_t做矩阵乘法的W_h(其中，h代指Hidden(隐藏)),是一个1× unit of ALIF的矩阵。相比正常的unit ofALIF×unit of ALIF的W_h,尤其在unit很大的时候,节省了巨大的权重,从而能够有效的提升计算速度。

可选地，若y_t≥f_thres，则v_t'＝v_t-β

如果激活水平y_t中有大于f_thres的值,那么这个位置对应的膜电位将会减去预设参数β,β的作用相当于SNN中的恢复电位,即将膜电位回复到其初始位置. 值得注意的是,上述所有参数都是使用反向传播机制进行值的更新的,f_thres这一发射阈值是根据当前时间步的激活水平分布情况进行自适应的调整的，本发明不做限定。

本发明实施例提供的ALIF时序模型的具体计算逻辑可以如下，以时间步为 t时第l层的前向传播过程为例，其中，只有f_thres是标量。

输入：y_t,l-1，v_t-1,l

参数：W_l-1，b_l-1，α，β，δ

输出：y_t,l，v_t,l

step1(步骤1)，计算隐藏状态h_t,l

x_t,l＝y_t,l-1

h_t,l＝W_l-1x_t,l+b_l-1

step2(步骤2)，更新膜电位v_t,l

v_t,l＝h_t,l+αv_t-1,l

step3(步骤3)，获取激活后的y_t,l

y_t,l＝σ(v_t,l+δ)

step4(步骤4)，通过Adaptive learning method自适应学习方法更新 f_thres

f_thres,l＝update(f_thres,l)，具体实现逻辑如下：

1)设置超参p₁＝85％，p₂＝98％，lr_thres＝0.001

2)若y_t,l的f_thres,l<p₁或f_thres,l>p₂，则继续判断：

若f_thres,l<p₁，则f_thres,l＝f_thres,l+lr_thres

若否，则f_thres,l＝f_thres,l-lr_thres

结束判断

返回f_thres,l

step5(步骤5)，根据y_t,l和f_thres,l规则化v_t,l

v_t,l＝v_t,l-β·step(y_t,l-f_thres,l)

step6(步骤6)，通过变化界限限制y_t,l

y_t,l＝clip(y_t,l,0,f_thres,l)

基于上述实施例提供的方案，本发明实施例针对图6、图7所示输入神经网络的训练图片和测试图片采用不同的时序模型的神经网络结构进行了识别。如果输入数据为视频数据时，可以将视频数据理解成为离散的图片序列。如图 6、图7所示，训练图片的时候是对原图进行随机旋转正负15度后的图片,而测试图片是在其基础上加上了高斯模糊(Gaussian blur)和盐噪声(salt noise), 以时间步取10为例,测试图片以噪声占全部图片的30％为例，最左边的图片表示原图。

图8示出了针对不同实现模型的神经网络的试验结果对比图。针对ALIF、 CNN、MLP以及ConvSNN，改变盐噪声占全图的比例后对识别准确率进行测试。如图8所示试验结果表明,基于ALIF时序模型的神经网络结构对于不同噪声比例的识别模糊图片/视频的效果相较于CNN、MLP以及ConvSNN的更好。

经过多次试验,基于本发明实施例提供的识别方法，通过使用ALIF替代 RNN,LSTM等常见时序模型,对模糊图像识别具有非常强的鲁棒性。 ALIF/ConvALIF2D的结构是一个完备的、低复杂度的对时域,空域信息建模的网络层.在有噪声情况下的物体识别领域,有接近10％的提升,这在计算机视觉领域算的上是里程碑(milestone)式的成果。

基于同一发明构思，本发明实施例还提供了一种多媒体数据识别装置，如图9所示，多媒体数据识别装置可以包括：

数据输入模块910，配置为将待识别多媒体数据输入预先构建的神经网络结构中；其中，所述神经网络结构包括自适应的泄露-集成-发射ALIF时序模型，所述ALIF时序模型包括多层ALIF网络层；所述待识别多媒体数据包括图像数据和/或视频数据；

数据计算模块920，配置为通过所述神经网络结构中的多层ALIF网络层对所述待识别多媒体数据进行识别计算，并输出计算结果。

在本发明一可选实施例中，所述数据计算模块920还配置为：对于任意一层ALIF网络层，通过以下公式计算神经元的输出：

y_t＝σ(v_t+δ)

在本发明一可选实施例中，所述数据计算模块920还配置为：通过以下公式计算第t个时间步的膜电位v_t：

v_t＝W_xx_t+αv_t-1

若y_t≥f_thres，则v_t'＝v_t-β，β表示预设参数。

在本发明一可选实施例中，所述Wx的形状为：每个时间步输入的数据维度×ALIF网络层的单元数。

基于同一发明构思，本发明实施例还提供了一种存储设备，其中存储由计算机程序，所述计算机程序在电子设备中运行时，由所述电子设备的处理器加载并执行上述任一实施例所述的多媒体数据识别方法。

基于同一发明构思，本发明实施例还提供了一种电子设备，包括：

处理器，用于运行计算机程序；以及

存储设备，用于存储计算机程序，所述计算机程序在所述电子设备中运行时由处理器加载并执行上述任一实施例所述的多媒体数据识别方法。

本发明提出了一种考虑时序信息和空间信息(基于SNN和ANN方法融合) 的模糊图像/视频识别方法。本发明所提出的技术方案的基础思路为：集SNN 和ANN方法的优点合二为一,设计出一种新型的时序模型，从而有效的提取视频序列中的感兴趣区域,有效的增加了噪声来源复杂,图片/视频受影响程度大的情况下的图像识别能力。除此之外,本实施例提供的模型还能够把卷积纳入进来, 即类似ConvLSTM2D的形式,构造出本实施例特的ConvALIF2D,相比时序模型方法,融合了SNN和ANN于一身的新型算法ALIF,在权重显著小于常用时序模型 RNN,LSTM和GRU的前提下,在模糊图像识别任务中能够表现出更好的识别能力和抗噪声能力,模型的鲁棒性更强，能够有效的识别出场景中是否含有目标物体。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

至此，本领域技术人员应认识到，虽然本文已详尽示出和描述了本发明的多个示例性实施例，但是，在不脱离本发明精神和范围的情况下，仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此，本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims

1.一种多媒体数据识别方法，包括：

将待识别的多媒体数据输入预先构建的神经网络结构中；其中，所述神经网络结构包括自适应的泄露-集成-发射ALIF时序模型，所述ALIF时序模型包括多层ALIF网络层；所述待识别多媒体数据包括图像数据和/或视频数据；

通过所述神经网络结构中的多层ALIF网络层对所述待识别多媒体数据进行识别计算，并输出计算结果；

对于任意一层ALIF网络层，神经元输出通过以下公式进行计算：

y_t＝σ(v_t+δ)

2.根据权利要求1所述的方法，其中，第t个时间步的膜电位v_t通过以下公式进行计算：

v_t＝W_xx_t+αv_t-1

若y_t≥f_thres，则v_t'＝v_t-β，β表示预设参数。

3.根据权利要求2所述的方法，其中，所述Wx的形状为：每个时间步输入的数据维度×ALIF网络层的单元数。

4.根据权利要求1-3任一项所述的方法，其中，所述图像数据和/或视频数据为模糊图像数据和/或视频数据。

5.一种多媒体数据识别装置，包括：

数据输入模块，配置为将待识别的多媒体数据输入预先构建的神经网络结构中；其中，所述神经网络结构包括自适应的泄露-集成-发射ALIF时序模型，所述ALIF时序模型包括多层ALIF网络层；所述待识别多媒体数据包括图像数据和/或视频数据；

数据计算模块，配置为通过所述神经网络结构中的多层ALIF网络层对所述待识别多媒体数据进行识别计算，并输出计算结果；

所述数据计算模块还配置为：对于任意一层ALIF网络层，通过以下公式计算神经元的输出：

y_t＝σ(v_t+δ)

6.根据权利要求5所述的装置，其中，所述数据计算模块还配置为：通过以下公式计算第t个时间步的膜电位v_t：

v_t＝W_xx_t+αv_t-1

若y_t≥f_thres，则v_t'＝v_t-β，β表示预设参数。

7.一种存储设备，其中存储由计算机程序，所述计算机程序在电子设备中运行时，由所述电子设备的处理器加载并执行权利要求1-4任一项所述的多媒体数据识别方法。

8.一种电子设备，包括：

处理器，用于运行计算机程序；以及

存储设备，用于存储计算机程序，所述计算机程序在所述电子设备中运行时由处理器加载并执行权利要求1-4任一项所述的多媒体数据识别方法。