CN113378600A - 一种行为识别方法及*** - Google Patents

一种行为识别方法及*** Download PDF

Info

Publication number
CN113378600A
CN113378600A CN202010157538.9A CN202010157538A CN113378600A CN 113378600 A CN113378600 A CN 113378600A CN 202010157538 A CN202010157538 A CN 202010157538A CN 113378600 A CN113378600 A CN 113378600A
Authority
CN
China
Prior art keywords
time
optical flow
image
frame image
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010157538.9A
Other languages
English (en)
Other versions
CN113378600B (zh
Inventor
王萌
吴臻志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lynxi Technology Co Ltd
Original Assignee
Beijing Lynxi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Lynxi Technology Co Ltd filed Critical Beijing Lynxi Technology Co Ltd
Priority to CN202010157538.9A priority Critical patent/CN113378600B/zh
Priority to PCT/CN2021/079530 priority patent/WO2021180030A1/zh
Priority to US17/790,694 priority patent/US20230042187A1/en
Publication of CN113378600A publication Critical patent/CN113378600A/zh
Application granted granted Critical
Publication of CN113378600B publication Critical patent/CN113378600B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种行为识别方法和***,将视频数据截取成多个视频片段,对每个视频片段抽帧处理得到帧图像,并对帧图像提取光流得到光流图像;分别对每个视频片段的帧图像和光流图像进行特征提取,得到每个视频片段的帧图像和光流图像的特征图;分别对帧图像和光流图像的特征图进行空时卷积处理,确定每个视频片段的空间预测结果和时间预测结果;对所有视频片段的空间预测结果进行融合,得到空间融合结果,并对所有视频片段的时间预测结果进行融合,得到时间融合结果;对空间融合结果和时间融合结果进行双流融合,得到行为识别结果。本发明既能保证卷积效果,也能降低计算量和权重量,还可联系多张图片,处理图片之间的时序信息,提高识别准确率。

Description

一种行为识别方法及***
技术领域
本发明涉及行为识别技术领域,具体而言,涉及一种行为识别方法及***。
背景技术
基于视频数据的行为识别被广泛应用在各个领域。然而,相关技术中,针对视频数据的行为识别具有计算量较大,权重量也较大,识别准确率较低等问题。
发明内容
为解决上述问题,本发明的目的在于提供一种行为识别方法及***,即可以做到ANN中的卷积效果,也能降低计算量和权重量,还可以联系多张图片,处理图片之间的时序信息,提高了识别的准确率。
本发明提供了一种行为识别方法,包括:
将视频数据截取成多个视频片段,对每个视频片段抽帧处理,得到帧图像,并对抽帧后的所述帧图像提取光流,得到光流图像;
分别对每个视频片段的帧图像和光流图像进行特征提取,得到每个视频片段的帧图像和光流图像的特征图;
分别对帧图像和光流图像的特征图进行时空卷积处理,确定每个视频片段的空间预测结果和的时间预测结果;
对所有视频片段的空间预测结果进行融合,得到空间融合结果,并对所有视频片段的时间预测结果进行融合,得到时间融合结果;
对所述空间融合结果和所述时间融合结果进行双流融合,得到行为识别结果。
作为本发明进一步的改进,所述分别对帧图像和光流图像的特征图进行空时卷积处理,确定每个视频片段的空间预测结果和时间预测结果,包括:
分别对每个视频片段的帧图像和光流图像的特征图进行至少一次时序特征提取,得到第一特征向量;
对所述第一特征向量进行矩阵变换处理,得到第二特征向量;
对所述第二特征向量进行时序全连接处理,得到第三特征向量;
根据所述第三特征向量,确定每个视频片段的空间预测结果和时间预测结果。
作为本发明进一步的改进,分别对帧图像和光流图像的特征图进行至少一次时序特征提取,得到第一特征向量,包括:
分别对帧图像和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;
对所述第一时序卷积向量进行池化处理,得到第一中间特征向量;
进行一次时序特征提取时,将所述第一中间特征向量确定为第一特征向量;
进行n次时序特征提取时,对所述第一中间特征向量进行时序卷积处理,得到第二时序卷积向量,对所述第二时序卷积向量进行池化处理,得到第二中间特征向量,依次类推,将第n中间特征向量确定为第一特征向量,n为大于1的整数。
作为本发明进一步的改进,所述对每个视频片段抽帧处理,包括:
将所述每个视频片段按照一定间隔抽取帧,其中,间隔为视频片段的总帧数除以N1,得到N1帧图像,N1为大于1的整数。
作为本发明进一步的改进,所述对所述帧图像提取光流,包括:
对抽取出的N1帧图像,将后一帧与前一帧提取光流计算得到N1-1个光流;
复制第二帧与第一帧的光流作为第一个光流,与所述N1-1个光流合并为N1个光流。
作为本发明进一步的改进,所述分别对帧图像和光流图像的特征图进行空时卷积处理通过神经网络实现,所述方法还包括:根据训练集训练所述神经网络。
作为本发明进一步的改进,所述神经网络,包括:
级联的至少一Block块、Reshape层、LIF层、全连接层和Softmax层;
所述Block块包括:级联的ConvLIF层和池化层。
作为本发明进一步的改进,通过所述神经网络分别对帧图像和光流图像的特征图进行空时卷积处理,包括:
通过所述至少一Block块对每个视频片段的帧图像和光流图像进行至少一次时序特征提取,得到第一特征向量;
通过所述Reshape层对所述第一特征向量进行矩阵变换处理,得到第二特征向量;
通过LIF层和所述全连接层对所述第二特征向量进行时序全连接处理,得到第三特征向量;
根据所述第三特征向量,通过所述Softmax层确定每个视频片段的空间预测结果和时间预测结果。
作为本发明进一步的改进,通过所述至少一Block块对每个视频片段的帧图像和光流图像进行至少一次时序特征提取,得到第一特征向量,包括:
通过所述ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;
通过所述池化层对所述第一时序卷积向量进行池化处理,得到第一中间特征向量;
进行一次时序特征提取时,将所述第一中间特征向量确定为第一特征向量;
进行n次时序特征提取时,通过ConvLIF层对所述第一中间特征向量进行时序卷积处理,得到第二时序卷积向量,通过池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量,依次类推,将第n中间特征向量确定为第一特征向量,n为大于1的整数。
作为本发明进一步的改进,所述Block块还包括:级联于ConvLIF层和池化层之间的BN层,通过所述BN层对所述时序卷积向量进行标准化处理,并将标准化处理后的时序卷积向量进行池化处理。
作为本发明进一步的改进,所述LIF层用于:
根据t时刻的输入值Xt经过全连接运算后得到的值It,与t-1时刻的生物电压值
Figure BDA0002404619060000041
确定t时刻的膜电位值
Figure BDA0002404619060000042
根据t时刻的膜电位值
Figure BDA0002404619060000043
与发射阈值Vth,确定t时刻的输出值Ft
根据t时刻的输出值Ft确定是否重置膜电位,并根据重置的电压值Vreset确定重置的膜电位值
Figure BDA0002404619060000045
根据重置的膜电位值
Figure BDA0002404619060000046
确定t时刻的生物电压值
Figure BDA0002404619060000047
其中,所述t时刻的输出值Ft作为与所述LIF层级联的下一层的输入,所述t时刻的生物电压值
Figure BDA0002404619060000048
作为计算t+1时刻的膜电位值的输入。
作为本发明进一步的改进,所述ConvLIF层用于:
根据t时刻的输入值Xt经过卷积运算或全连接运算后得到的值It,与t-1时刻的生物电压值
Figure BDA0002404619060000049
确定t时刻的膜电位值
Figure BDA00024046190600000410
根据t时刻的膜电位值
Figure BDA00024046190600000411
与发射阈值Vth,确定t时刻的输出值Ft
根据t时刻的输出值Ft确定是否重置膜电位,并根据重置的电压值Vreset确定重置的膜电位值
Figure BDA00024046190600000412
根据重置的膜电位值
Figure BDA00024046190600000413
确定t时刻的生物电压值
Figure BDA00024046190600000414
其中,所述t时刻的输出值Ft作为与所述ConvLIF层级联的下一层的输入,所述t时刻的生物电压值
Figure BDA00024046190600000415
作为计算t+1时刻的膜电位值的输入。
作为本发明进一步的改进,所述根据t时刻的膜电位值和发射阈值Vth,确定时刻t的输出值,包括:
若t时刻的膜电位值
Figure BDA00024046190600000416
大于或等于发射阈值Vth,则确定所述t时刻的输出值为1;
若t时刻的膜电位值
Figure BDA00024046190600000417
小于发射阈值Vth,则确定所述t时刻的输出值为0。
作为本发明进一步的改进,所述根据重置的膜电位值
Figure BDA00024046190600000418
确定t时刻的生物电压值
Figure BDA00024046190600000419
包括:通过Leak激活函数对所述重置的膜电位值
Figure BDA00024046190600000420
进行计算,确定t时刻的生物电压值
Figure BDA00024046190600000421
作为本发明进一步的改进,对所有视频片段的空间预测结果和所有视频片段的时间预测结果进行融合时,对所有视频片段的预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种。
作为本发明进一步的改进,在双流融合时,所述空间融合结果和所述时间融合结果在双流融合时,将所述空间融合结果和所述时间融合结果采用加权融合。
本发明还提供了一种行为识别***,采用所述行为识别方法,包括:
数据预处理模块,其用于将视频数据截取成多个视频片段,对每个视频片段抽帧处理,得到帧图像,并对所述帧图像提取光流,得到光流图像;
特征提取模块,其用于分别对每个视频片段的帧图像和光流图进行图像特征提取,得到每个视频片段的帧图像和光流图像的特征图;
网络识别模块,其用于分别对帧图像和光流图像的特征图进行时空卷积处理,确定每个视频片段的空间预测结果和的时间预测结果;
网络融合模块,其用于对所有视频片段的空间预测结果进行融合,得到空间融合结果,并对所有视频片段的时间预测结果进行融合,得到时间融合结果;
双流融合模块,其用于对所述空间融合结果和所述时间融合结果进行双流融合,得到行为识别结果。
作为本发明进一步的改进,所述网络识别模块分别对帧图像和光流图像的特征图进行空时卷积处理,确定每个视频片段的空间预测结果和时间预测结果,包括:
分别对每个视频片段的帧图像和光流图像的特征图进行至少一次时序特征提取,得到第一特征向量;
对所述第一特征向量进行矩阵变换处理,得到第二特征向量;
对所述第二特征向量进行时序全连接处理,得到第三特征向量;
根据所述第三特征向量,确定每个视频片段的空间预测结果和时间预测结果。
作为本发明进一步的改进,所述网络识别模块分别对帧图像和光流图像的特征图进行至少一次时序特征提取,得到第一特征向量,包括:
分别对帧图像和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;
对所述第一时序卷积向量进行池化处理,得到第一中间特征向量;
进行一次时序特征提取时,将所述第一中间特征向量确定为第一特征向量;
进行n次时序特征提取时,对所述第一中间特征向量进行时序卷积处理,得到第二时序卷积向量,对所述第二时序卷积向量进行池化处理,得到第二中间特征向量,依次类推,将第n中间特征向量确定为第一特征向量,n为大于1的整数。
作为本发明进一步的改进,所述数据预处理模块对每个视频片段抽帧处理,包括:将所述每个视频片段按照一定间隔抽取帧,其中,间隔为视频片段的总帧数除以N1,得到N1帧图像,N1为大于1的整数。
作为本发明进一步的改进,所述数据预处理模块对抽帧后的帧图像提取光流,包括:对抽取出的N1帧图像,将后一帧与前一帧提取光流计算得到N1-1个光流;复制第二帧与第一帧的光流作为第一个光流,与N1-1个光流合并为N1个光流。
作为本发明进一步的改进,所述网络识别模块分别对帧图像和光流图像的特征图进行空时卷积处理通过神经网络实现,所述***还包括:根据训练集训练所述神经网络。
作为本发明进一步的改进,所述神经网络包括:级联的至少一Block块、Reshape层、LIF层、全连接层和Softmax层;所述Block块包括:级联的ConvLIF层和池化层。
作为本发明进一步的改进,通过所述神经网络分别对帧图像和光流图像的特征图进行空时卷积处理,包括:
通过所述至少一Block块对每个视频片段的帧图像和光流图像进行至少一次时序特征提取,得到第一特征向量;
通过所述Reshape层对所述第一特征向量进行矩阵变换处理,得到第二特征向量;
通过LIF层和所述全连接层对所述第二特征向量进行时序全连接处理,得到第三特征向量;
根据所述第三特征向量,通过所述Softmax层确定每个视频片段的空间预测结果和时间预测结果。
作为本发明进一步的改进,通过所述至少一Block块对每个视频片段的帧图像和光流图像进行至少一次时序特征提取,得到第一特征向量,包括:
通过所述ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;
通过所述池化层对所述第一时序卷积向量进行池化处理,得到第一中间特征向量;
进行一次时序特征提取时,将所述第一中间特征向量确定为第一特征向量;
进行n次时序特征提取时,通过ConvLIF层对所述第一中间特征向量进行时序卷积处理,得到第二时序卷积向量,通过池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量,依次类推,将第n中间特征向量确定为第一特征向量,n为大于1的整数。
作为本发明进一步的改进,所述Block块还包括:级联于ConvLIF层和池化层之间的BN层,通过所述BN层对所述时序卷积向量进行标准化处理,并将标准化处理后的时序卷积向量进行池化处理。
作为本发明进一步的改进,所述LIF层用于:
根据t时刻的输入值Xt经过全连接运算后得到的值It,与t-1时刻的生物电压值
Figure BDA0002404619060000071
确定t时刻的膜电位值
Figure BDA0002404619060000072
根据t时刻的膜电位值
Figure BDA0002404619060000073
与发射阈值Vth,确定t时刻的输出值Ft
根据t时刻的输出值Ft确定是否重置膜电位,并根据重置的电压值Vreset确定重置的膜电位值
Figure BDA0002404619060000074
根据重置的膜电位值
Figure BDA0002404619060000075
确定t时刻的生物电压值
Figure BDA0002404619060000076
其中,所述t时刻的输出值Ft作为与所述LIF层级联的下一层的输入,所述t时刻的生物电压值
Figure BDA0002404619060000077
作为计算t+1时刻的膜电位值的输入。
作为本发明进一步的改进,所述ConvLIF层用于:
根据t时刻的输入值Xt经过卷积运算或全连接运算后得到的值It,与t-1时刻的生物电压值
Figure BDA0002404619060000081
确定t时刻的膜电位值
Figure BDA0002404619060000082
根据t时刻的膜电位值
Figure BDA0002404619060000083
与发射阈值Vth,确定t时刻的输出值Ft
根据t时刻的输出值Ft确定是否重置膜电位,并根据重置的电压值Vreset确定重置的膜电位值
Figure BDA0002404619060000084
根据重置的膜电位值
Figure BDA0002404619060000085
确定t时刻的生物电压值
Figure BDA0002404619060000086
其中,所述t时刻的输出值Ft作为与所述ConvLIF层级联的下一层的输入,所述t时刻的生物电压值
Figure BDA0002404619060000087
作为计算t+1时刻的膜电位值的输入。
作为本发明进一步的改进,所述根据t时刻的膜电位值和发射阈值Vth,确定时刻t的输出值,包括:
若t时刻的膜电位值
Figure BDA0002404619060000088
大于或等于发射阈值Vth,则确定所述t时刻的输出值为1;
若t时刻的膜电位值
Figure BDA0002404619060000089
于发射阈值Vth,则确定所述t时刻的输出值为0。
作为本发明进一步的改进,所述根据重置的膜电位值
Figure BDA00024046190600000810
确定t时刻的生物电压值
Figure BDA00024046190600000811
包括:通过Leak激活函数对所述重置的膜电位值
Figure BDA00024046190600000812
进行计算,确定t时刻的生物电压值
Figure BDA00024046190600000813
作为本发明进一步的改进,所述网络融合模块对所有视频片段的空间预测结果和所有视频片段的时间预测结果进行融合时,对所有视频片段的预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种。
作为本发明进一步的改进,所述双流融合模块对所述空间融合结果和所述时间融合结果进行双流融合时,将所述空间融合结果和所述时间融合结果采用加权融合。
本发明还提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被处理器执行以实现所述的行为识别方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,、所述计算机程序被处理器执行以实现所述的行为识别方法。
本发明的有益效果为:
即可以做到ANN中的卷积效果,也能降低计算量和权重量,大大降低了计算量,降低对计算设备的要求,也相应减小网络的大小,减少存储空间。还可以联系多张图片,处理图片之间的时序信息,提高了识别的准确率。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开一示例性实施例所述的一种行为识别方法的流程示意图;
图2为本公开一示例性实施例所述的神经网络的结构图;
图3为本公开一示例性实施例所述的神经网络中ConvLIF层和LIF层的工作流程图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明,若本公开实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本公开的描述中,所用术语仅用于说明目的,并非旨在限制本公开的范围。术语“包括”和/或“包含”用于指定所述元件、步骤、操作和/或组件的存在,但并不排除存在或添加一个或多个其他元件、步骤、操作和/或组件的情况。术语“第一”、“第二”等可能用于描述各种元件,不代表顺序,且不对这些元件起限定作用。此外,在本公开的描述中,除非另有说明,“多个”的含义是两个及两个以上。这些术语仅用于区分一个元素和另一个元素。结合以下附图,这些和/或其他方面变得显而易见,并且,本领域普通技术人员更容易理解关于本公开所述实施例的说明。附图仅出于说明的目的用来描绘本公开所述实施例。本领域技术人员将很容易地从以下说明中认识到,在不背离本公开所述原理的情况下,可以采用本公开所示结构和方法的替代实施例。
本公开实施例的一种行为识别方法,从整个视频中稀疏地采样一系列短片段,每个视频片段都将给出其本身对于行为类别的初步预测,从这些片段的融合来得到视频级的预测结果,之后对所有模式(空间和时间)的预测融合产生最终的预测结果,如图1所示,包括:
S1,将视频数据截取成多个视频片段,对每个视频片段抽帧处理,得到帧图像,并对帧图像提取光流,得到光流图像。
在一种可选的实施方式中,将视频数据均分成N个视频片段。例如,平均分为4段。
在一种可选的实施方式中,对每个视频片段抽帧处理,包括:将每个视频片段按照一定间隔抽取帧,其中,间隔为视频片段的总帧数除以N1(例如40,按照舍掉余数的方法),得到N1(例如40)帧大小为[320,240,3]的图像。其中,N1为大于1的整数,本公开对N1的取值不做限制。
光流是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。在一种可选的实施方式中,对抽帧后的帧图像提取光流,包括:对抽取出的N1(例如40)帧图像,将后一帧与前一帧提取光流计算得到N1-1(例如39)个光流;复制第二帧与第一帧的光流作为第一个光流,与N1-1(例如39)个光流合并为N1(例如40)个光流。在一种可选的实施方式中,在计算光流时,采用Brox算法。
S2,分别对每个视频片段的帧图像和光流图像进行特征提取,得到每个视频片段的帧图像和光流图像的特征图。
在一种可选的实施方式中,采用ImageNet训练的Inception V3模型对帧图像和光流图像进行图像分类,提取图像特征,得到每个视频片段的帧图像和光流图像的特征图。
S3,分别对帧图像和光流图像的特征图进行空时卷积处理,确定每个视频片段的空间预测结果(即空间流的类别概率分布)和时间预测结果(即时间流的类别概率分布)。
在一种可选的实施方式中,分别对帧图像和光流图像的特征图进行空时卷积处理,确定每个视频片段的空间预测结果和时间预测结果,包括:
分别对每个视频片段的帧图像和光流图像的特征图进行至少一次时序特征提取,得到第一特征向量;
对第一特征向量进行矩阵变换处理,得到第二特征向量;
对第二特征向量进行时序全连接处理,得到第三特征向量;
根据第三特征向量,确定每个视频片段的空间预测结果和时间预测结果。
其中,时序特征提取可以是指对特征图进行带时序的特征提取处理。矩阵变换处理是指将一个矩阵后几个维度展开的过程。时序全连接处理是指带时序处理的全连接处理。这样,一次可以处理多张图片,不仅可以保证特征提取效果,还可以联系多张图片,处理图片之间的时序信息,从而提高识别准确率。
在一种可选的实施方式中,分别对帧图像和光流图像的特征图进行至少一次时序特征提取,得到第一特征向量,包括:
分别对帧图像和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;
对第一时序卷积向量进行池化处理,得到第一中间特征向量;
进行一次时序特征提取时,将所述第一中间特征向量确定为第一特征向量;
进行n次时序特征提取时,对所述第一中间特征向量进行时序卷积处理,得到第二时序卷积向量,对所述第二时序卷积向量进行池化处理,得到第二中间特征向量,依次类推,将第n中间特征向量确定为第一特征向量,n为大于1的整数。
其中,时序卷积处理可以是指对特征图进行带时序信息的卷积处理,例如,可以通过带时序信息的卷积层对特征图进行卷积处理。这样,能够联系多张图片,处理图片之间的时序信息。时序卷积向量包含了时间维度,因此需要将池化层进行封装,以使能对时序卷积向量进行池化处理。
在一种可选的实施方式中,分别对帧图像和光流图像的特征图进行空时卷积处理通过神经网络实现,所述方法还包括:根据训练集训练所述神经网络。
本公开可以采用例如UCF101数据集,其拥有来自101个动作类别的13320个视频,在动作方面具有最大的多样性,并且在摄像机运动,物体外观和姿势,物体比例,视点,杂乱的背景,照明条件等方面存在很大的差异。101个动作类别的视频分为25个组,每个组可以包含4-7个动作的视频。来自同一组的视频可能具有一些共同的特征,例如相似的背景,相似的视点等。动作类别可以分为五种类型:1)人与物体的互动2)仅身体动作3)人与人的互动4)演奏乐器5)运动。
将UCF101数据集中的视频数据进行抽帧处理,包括:将每个视频片段分解成帧图像并将帧数保存在csv文件中;从分解后的帧图像中选取多个帧数大于N1(例如40)且小于N2(例如900)的样本;将选取的样本的帧数平均分为4份;将每份样本按照一定间隔抽取帧,其中,间隔为视频片段的总帧数除以N1(例如40,按照舍掉余数的方法),得到N1帧(例如40)大小为[320,240,3]的图像。这种方式的采样片段只包含一小部分帧,与使用密集采样帧的方法相比,这种方法大大降低计算开销。同样,UCF101数据集中的视频数据在抽帧后,采用上述提取光流的方式提取光流,得到神经网络所需要的数据集。数据集按照ucfTrainTestlist分为训练集Train和测试集Test。通过训练集对神经网络进行训练,训练后的神经网络作为获取视频片段的时间预测结果和空间预测结果的预测模型。例如,将帧图像和光流图像的特征图输入训练后的神经网络中进行处理,训练后的神经网络输出每个视频片段的空间预测结果(即空间流的类别概率分布)和时间预测结果(即时间流的类别概率分布)。
在一种可选的实施方式中,如图2所示,神经网络包括:级联的至少一Block块、Reshape层、LIF层、全连接层和Softmax层;Block块包括:级联的ConvLIF层和池化层。
在一种可选的实施方式中,通过神经网络分别对帧图像和光流图像的特征图进行空时卷积处理,包括:
通过至少一Block块对每个视频片段的帧图像和光流图像进行至少一次时序特征提取,得到第一特征向量;
通过Reshape层对第一特征向量进行矩阵变换处理,得到第二特征向量;
通过LIF层和全连接层对第二特征向量进行时序全连接处理,得到第三特征向量;
根据第三特征向量,通过Softmax层确定每个视频片段的空间预测结果和时间预测结果。
在一种可选的实施方式中,通过至少一Block块对每个视频片段的帧图像和光流图像进行至少一次时序特征提取,得到第一特征向量,包括:
通过ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;
通过池化层对第一时序卷积向量进行池化处理,得到第一中间特征向量;
进行一次时序特征提取时,将第一中间特征向量确定为第一特征向量;
进行多n次时序特征提取时,通过ConvLIF层对所述第一中间特征向量进行时序卷积处理,得到第二时序卷积向量,通过池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量,依次类推,将第n中间特征向量确定为第一特征向量,n为大于1的整数。
举例来说,包括三个Block块,在进行三次时序特征提取时,可以通过第一个Block块的ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量,并通过第一个Block块的池化层对第一时序卷积向量进行池化处理,得到第一中间特征向量。通过第二个Block块的ConvLIF层对所述第一中间特征向量进行时序卷积处理,得到第二时序卷积向量,通过第二个Block块的池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量,通过第三个Block块的ConvLIF层对所述第二中间特征向量进行时序卷积处理,得到第三时序卷积向量,通过第三个Block块的池化层对所述第三时序卷积向量进行池化处理,得到第三中间特征向量,将第三中间特征向量确定为第一特征向量。本公开对Block块的数量不做限制。
在一种可选的实施方式中,Block块还包括:级联于ConvLIF层和池化层之间的BN(Batch Normalization)层,通过所述BN层对所述时序卷积向量进行标准化处理,并将标准化处理后的时序卷积向量进行池化处理。由于Block块输出数据的维度不适用于作为LIF层的输入,可以加入Reshape层对Block块的输出数据进行处理,将数据的维度展开后作为LIF层的输入。例如,Block块的输出shape为(10,2,2,1024),加入reshape层,对输出数据进行处理,将后面三个维度直接展开,得到shape为(10,4096)的数据。级联于ConvLIF层和池化层之间的BN(Batch Normalization)层,对数据进行批量标准化,可以加速网络收敛速度,提升训练的稳定性。
在一种可选的实施方式中,全连接层采用FC全连接层,池化层采用MaxPooling池化层。
在一种可选的实施方式中,如图3所示,LIF层用于:
根据t时刻的输入值Xt经过全连接运算后得到的值It,与t-1时刻的生物电压值
Figure BDA0002404619060000141
确定t时刻的膜电位值
Figure BDA0002404619060000142
其中,It=Xt*W,W为输入值Xt的权重,
Figure BDA0002404619060000143
根据t时刻的膜电位值
Figure BDA0002404619060000144
发射阈值Vth,确定t时刻的输出值Ft
根据t时刻的输出值Ft确定是否重置膜电位,并根据重置的电压值Vreset确定重置的膜电位值
Figure BDA0002404619060000145
其中,
Figure BDA0002404619060000146
根据重置的膜电位值
Figure BDA0002404619060000147
确定t时刻的生物电压值
Figure BDA0002404619060000148
其中,t时刻的输出值Ft作为与LIF层级联的下一层的输入,t时刻的生物电压值
Figure BDA0002404619060000149
为计算t+1时刻的膜电位值的输入,输入值Xt均为离散值。
在一种可选的实施方式中,如图3所示,ConvLIF层用于:
根据t时刻的输入值Xt经过卷积运算后得到的值It,与t-1时刻的生物电压值
Figure BDA00024046190600001410
确定t时刻的膜电位值
Figure BDA00024046190600001411
其中,It=Conv(Xt,W,),W为输入值Xt的权重,
Figure BDA00024046190600001412
根据t时刻的膜电位值
Figure BDA00024046190600001413
与发射阈值Vth,确定t时刻的输出值Ft
根据t时刻的输出值Ft确定是否重置膜电位,并根据重置的电压值Vreset确定重置的膜电位值
Figure BDA0002404619060000151
其中,
Figure BDA0002404619060000152
根据重置的膜电位值
Figure BDA0002404619060000153
确定t时刻的生物电压值
Figure BDA0002404619060000154
其中,t时刻的输出值Ft作为与ConvLIF层级联的下一层的输入,t时刻的生物电压值
Figure BDA0002404619060000155
作为计算t+1时刻的膜电位值的输入,输入值Xt均为离散值。
在一种可选的实施方式中,根据t时刻的膜电位值和发射阈值Vth,确定时刻t的输出值,包括:
若t时刻的膜电位值
Figure BDA0002404619060000156
大于或等于发射阈值Vth,则确定t时刻的输出值为1;
若t时刻的膜电位值
Figure BDA0002404619060000157
小于发射阈值Vth,则确定t时刻的输出值为0。在一种可选的实施方式中,根据重置的膜电位值
Figure BDA0002404619060000158
确定t时刻的生物电压值
Figure BDA0002404619060000159
包括:通过Leak激活函数对重置的膜电位值
Figure BDA00024046190600001510
进行计算,确定t时刻的生物电压值
Figure BDA00024046190600001511
α为泄露机制,β为理论值在0-1之间的偏置。
在一种可选的实施方式中,由于ConvLIF层比Conv层多出时间维度,故在ConvLIF与池化层连接时,需要将池化层封装起来,使其能够处理ConvLIF的输出结果。例如,采用TimeDistribution层将池化层MaxPooling2D进行封装,使MaxPooling2D层能处理ConvLIF的输出结果。
本公开所述的神经网络使用ANN和SNN融合的网络,即ConvLIF层和LIF层与归一化层和池化层的融合。其中LIF层是带有时序的全连接层,可以处理带有时序的信息,其作用类似于ANN中的LSTM,但权重量明显低于LSTM(本公开的卷积网络的LIF的计算量只有LSTM的四分之一,只有GRU的三分之一),大大降低了计算量,降低对计算设备的要求,也相应减小了网络的大小,减少了存储空间。ConvLIF层是带有时序信息的卷积层,可以处理带有时序的卷积,在ANN的卷积中,只能处理一张图片,且与前后的图片都没有关联,而ConvLIF层则一次可以处理多张图片,即可以做到ANN中的卷积效果,还可以联系多张图片,处理图片之间的时序信息,另外ConvLIF层的权重量也明显低于Conv3D层(本公开的卷积网络的ConvLIF2D层的权重量和计算量只有Conv3D层的二分之一),进一步降低了计算量,降低对计算设备的要求,也减小了网络的大小,减少了存储空间。
S4,对所有视频片段的空间预测结果进行融合,得到空间融合结果,并对所有视频片段的时间预测结果进行融合,得到时间融合结果。
在一种可选的实施方式中,对所有视频片段的空间预测结果和所有视频片段的时间预测结果进行融合时,对所有视频片段的空间预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种,对所有视频片段的时间预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种。在一种可选的实施方式中,空间预测结果和时间预测结果均采用直接平均的融合方法,这种融合方法可以联合建模多个视频片段,并从整个视频中捕获视觉信息,提高识别效果。本公开的行为识别方法对空间预测结果和时间预测结果的融合方法不作限制。
S5,对空间融合结果和时间融合结果进行双流融合,得到行为识别结果。
在一种可选的实施方式中,空间融合结果和时间融合结果采用加权融合进行双流融合,例如设置空间流融合结果的权重为0.6,时间流融合结果的权重为0.4。本公开的行为识别方法对双流融合的方法不作限制。
本公开实施方式所述的一种行为识别***,采用前述的行为识别方法,包括:
数据预处理模块,其用于将视频数据截取成多个视频片段,对每个视频片段抽帧处理,得到帧图像,并对所述帧图像提取光流,得到光流图像。
在一种可选的实施方式中,数据预处理模块将视频数据均分成N个视频片段。例如,平均分为4段。
在一种可选的实施方式中,数据预处理模块对每个视频片段抽帧处理时,包括:将每个视频片段按照一定间隔抽取帧,其中,间隔为视频片段的总帧数除以N1(例如40,40,按照舍掉余数的方法),得到N1(例如40)帧大小为[320,240,3]的图像。这种方式的采样片段只包含一小部分帧,与使用密集采样帧的方法相比,这种方法大大降低计算开销。本公开对N1的取值不做限制。
在一种可选的实施方式中,数据预处理模块对抽帧后的帧图像提取光流,包括:对抽取出的N1(例如40)帧图像,将后一帧与前一帧提取光流计算得到N1-1(例如39)个光流;复制第二帧与第一帧的光流作为第一个光流,与N1-1(例如39)个光流合并为N1(例如40)个光流。在一种可选的实施方式中,在计算光流时,采用Brox算法。
特征提取模块,其用于分别对每个视频片段的帧图像和光流图像进行特征提取,得到每个视频片段的帧图像和光流图像的特征图。
在一种可选的实施方式中,特征提取模块采用ImageNet训练的Inception V3模型对帧图像和光流图像进行图像分类,提取图像特征,得到每个视频片段的帧图像和光流图像的特征图。
网络识别模块,其用于分别对帧图像和光流图像的特征图进行空时卷积处理,确定每个视频片段的空间预测结果(即空间流的类别概率分布)和时间预测结果(即时间流的类别概率分布)。
在一种可选的实施方式中,网络识别模块在分别对帧图像和光流图像的特征图进行空时卷积处理,确定每个视频片段的空间预测结果和时间预测结果时,包括:
分别对每个视频片段的帧图像和光流图像的特征图进行至少一次时序特征提取,得到第一特征向量;
对第一特征向量进行矩阵变换处理,得到第二特征向量;
对第二特征向量进行时序全连接处理,得到第三特征向量;
根据第三特征向量,确定每个视频片段的空间预测结果和时间预测结果。
其中,时序特征提取可以是指对特征图进行带时序的特征提取处理。矩阵变换处理是指将一个矩阵后几个维度展开的过程。时序全连接处理是指带时序处理的全连接处理。这样,一次可以处理多张图片,不仅可以保证特征提取效果,还可以联系多张图片,处理图片之间的时序信息,从而提高识别准确率。
在一种可选的实施方式中,网络识别模块在分别对帧图像和光流图像的特征图进行至少一次时序特征提取,得到第一特征向量时,包括:
分别对帧图像和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;
对第一时序卷积向量进行池化处理,得到第一中间特征向量;
进行一次时序特征提取时,将所述第一中间特征向量确定为第一特征向量;
进行n次时序特征提取时,对所述第一中间特征向量进行时序卷积处理,得到第二时序卷积向量,对所述第二时序卷积向量进行池化处理,得到第二中间特征向量,依次类推,将第n中间特征向量确定为第一特征向量,n为大于1的整数。
其中,时序卷积处理可以是指对特征图进行带时序信息的卷积处理,例如,可以通过带时序信息的卷积层对特征图进行卷积处理。这样,能够联系多张图片,处理图片之间的时序信息。时序卷积向量包含了时间维度,因此需要将池化层进行封装,以使能对时序卷积向量进行池化处理。
在一种可选的实施方式中,网络识别模块分别对帧图像和光流图像的特征图进行空时卷积处理通过神经网络实现,所述***还包括:根据训练集训练所述神经网络。
本公开可以采用例如UCF101数据集,其拥有来自101个动作类别的13320个视频,在动作方面具有最大的多样性,并且在摄像机运动,物体外观和姿势,物体比例,视点,杂乱的背景,照明条件等方面存在很大的差异。101个动作类别的视频分为25个组,每个组可以包含4-7个动作的视频。来自同一组的视频可能具有一些共同的特征,例如相似的背景,相似的视点等。动作类别可以分为五种类型:1)人与物体的互动2)仅身体动作3)人与人的互动4)演奏乐器5)运动。
将UCF101数据集中的视频数据进行抽帧处理,包括:将每个视频片段分解成帧图像并将帧数保存在csv文件中;从分解后的帧图像中选取多个帧数大于N1(例如40)且小于N2(例如900)的样本;将选取的样本的帧数平均分为4份;将每份样本按照一定间隔抽取帧,其中,间隔为视频片段的总帧数除以N1(例如40,按照舍掉余数的方法),得到N1帧(例如40)大小为[320,240,3]的图像。这种方式的采样片段只包含一小部分帧,与使用密集采样帧的方法相比,这种方法大大降低计算开销。同样,UCF101数据集中的视频数据在抽帧后,采用上述提取光流的方式提取光流,得到神经网络所需要的数据集。数据集按照ucfTrainTestlist分为训练集Train和测试集Test。通过训练集对神经网络进行训练,训练后的神经网络作为获取视频片段的时间预测结果和空间预测结果的预测模型。例如,将帧图像和光流图像的特征图输入训练后的神经网络中进行处理,训练后的神经网络输出每个视频片段的空间预测结果(即空间流的类别概率分布)和时间预测结果(即时间流的类别概率分布)。
在一种可选的实施方式中,如图2所示,神经网络包括:级联的至少一Block块、Reshape层、LIF层、全连接层和Softmax层;Block块包括:级联的ConvLIF层和池化层。
在一种可选的实施方式中,通过神经网络分别对帧图像和光流图像的特征图进行空时卷积处理,包括:
通过至少一Block块对每个视频片段的帧图像和光流图像进行至少一次时序特征提取,得到第一特征向量;
通过Reshape层对第一特征向量进行矩阵变换处理,得到第二特征向量;
通过LIF层和全连接层对第二特征向量进行时序全连接处理,得到第三特征向量;
根据第三特征向量,通过Softmax层确定每个视频片段的空间预测结果和时间预测结果。
在一种可选的实施方式中,通过至少一Block块对每个视频片段的帧图像和光流图像进行至少一次时序特征提取,得到第一特征向量,包括:
通过ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;
通过池化层对第一时序卷积向量进行池化处理,得到第一中间特征向量;
进行一次时序特征提取时,将第一中间特征向量确定为第一特征向量;
进行n次时序特征提取时,通过ConvLIF层对所述第一中间特征向量进行时序卷积处理,得到第二时序卷积向量,通过池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量,依次类推,将第n中间特征向量确定为第一特征向量,n为大于1的整数。
举例来说,包括两个Block块,在进行两次时序特征提取时,可以通过第一个Block块的ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量,并通过第一个Block块的池化层对第一时序卷积向量进行池化处理,得到第一中间特征向量。通过第二个Block块的ConvLIF层对所述第一中间特征向量进行时序卷积处理,得到第二时序卷积向量,通过第二个Block块的池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量,将第二中间特征向量确定为第一特征向量。
在一种可选的实施方式中,Block块还包括:级联于ConvLIF层和池化层之间的BN(Batch Normalization)层,通过所述BN层对所述时序卷积向量进行标准化处理,并将标准化处理后的时序卷积向量进行池化处理。由于Block块输出数据的维度不适用于作为LIF层的输入,加入Reshape层对Block块的输出数据进行处理,将数据的维度展开后作为LIF层的输入。例如,Block块的输出shape为(10,2,2,1024),加入reshape层,对输出数据进行处理,将后面三个维度直接展开,得到shape为(10,4096)的数据。级联于ConvLIF层和池化层之间的BN(Batch Normalization)层,对数据进行批量标准化,可以加速网络收敛速度,提升训练的稳定性。
在一种可选的实施方式中,全连接层采用FC全连接层,池化层采用MaxPooling池化层。
在一种可选的实施方式中,如图3所示,LIF层用于:
根据t时刻的输入值Xt经过全连接运算后得到的值It,与t-1时刻的生物电压值
Figure BDA0002404619060000201
确定t时刻的膜电位值
Figure BDA0002404619060000202
其中,It=Xt*W,W为输入值Xt的权重,
Figure BDA0002404619060000203
根据t时刻的膜电位值
Figure BDA0002404619060000204
发射阈值Vth,确定t时刻的输出值Ft
根据t时刻的输出值Ft确定是否重置膜电位,并根据重置的电压值Vreset确定重置的膜电位值
Figure BDA0002404619060000205
其中,
Figure BDA0002404619060000206
根据重置的膜电位值
Figure BDA0002404619060000207
确定t时刻的生物电压值
Figure BDA0002404619060000208
其中,t时刻的输出值Ft作为与LIF层级联的下一层的输入,t时刻的生物电压值
Figure BDA0002404619060000211
作为计算t+1时刻的膜电位值的输入,输入值Xt均为离散值。
在一种可选的实施方式中,如图3所示,ConvLIF层用于:
根据t时刻的输入值Xt经过卷积运算后得到的值It,与t-1时刻的生物电压值
Figure BDA0002404619060000212
确定t时刻的膜电位值
Figure BDA0002404619060000213
其中,It=Conv(Xt,W,),W为输入值Xt的权重,
Figure BDA0002404619060000214
根据t时刻的膜电位值
Figure BDA0002404619060000215
与发射阈值Vth,确定t时刻的输出值Ft;根据t时刻的输出值Ft确定是否重置膜电位,并根据重置的电压值Vreset确定重置的膜电位值
Figure BDA0002404619060000216
Figure BDA0002404619060000217
Figure BDA0002404619060000218
根据重置的膜电位值
Figure BDA0002404619060000219
确定t时刻的生物电压值
Figure BDA00024046190600002110
其中,t时刻的输出值Ft作为与ConvLIF层级联的下一层的输入,t时刻的生物电压值
Figure BDA00024046190600002111
作为计算t+1时刻的膜电位值的输入,输入值Xt均为离散值。
在一种可选的实施方式中,根据t时刻的膜电位值和发射阈值Vth,确定时刻t的输出值,包括:
若t时刻的膜电位值
Figure BDA00024046190600002112
大于或等于发射阈值Vth,则确定t时刻的输出值为1;
若t时刻的膜电位值
Figure BDA00024046190600002113
于发射阈值Vth,则确定t时刻的输出值为0。在一种可选的实施方式中,根据重置的膜电位值
Figure BDA00024046190600002114
确定t时刻的生物电压值
Figure BDA00024046190600002115
包括:通过Leak激活函数对重置的膜电位值
Figure BDA00024046190600002116
进行计算,确定t时刻的生物电压值
Figure BDA00024046190600002117
α为泄露机制,β为理论值在0-1之间的偏置。
在一种可选的实施方式中,由于ConvLIF层比Conv层多出时间维度,故在ConvLIF与池化层连接时,需要将池化层封装起来,使其能够处理ConvLIF的输出结果。例如,采用TimeDistribution层将池化层MaxPooling2D进行封装,使MaxPooling2D层能处理ConvLIF的输出结果。
网络融合模块,其用于对所有视频片段的空间预测结果进行融合,得到空间融合结果,并对所有视频片段的时间预测结果进行融合,得到时间融合结果。
在一种可选的实施方式中,对所有视频片段的空间预测结果和所有视频片段的时间预测结果进行融合时,对所有视频片段的空间预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种,对所有视频片段的时间预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种。在一种可选的实施方式中,空间预测结果和时间预测结果均采用直接平均的融合方法,这种融合方法可以联合建模多个视频片段,并从整个视频中捕获视觉信息,提高识别效果。本公开的行为识别***对空间预测结果和时间预测结果的融合方法不作限制。
双流融合模块,其用于空间融合结果和时间融合结果进行双流融合,得到行为识别结果。
在一种可选的实施方式中,空间融合结果和时间融合结果采用加权融合进行双流融合,例如设置空间流融合结果的权重为0.6,时间流融合结果的权重为0.4。本公开的行为识别***对双流融合的方法不作限制。
本公开还涉及一种电子设备,包括服务器、终端等。该电子设备包括:至少一个处理器;与至少一个处理器通信连接的存储器;以及与存储介质通信连接的通信组件,所述通信组件在处理器的控制下接收和发送数据;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行以实现上述实施例中的行为识别方法。
在一种可选的实施方式中,存储器作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器通过运行存储在存储器中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述行为识别方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器中,当被一个或者多个处理器执行时,执行上述任意方法实施例中的行为识别方法。
上述产品可执行本申请实施例所提供的行为识别方法,具备执行方法相应的功能模块和有益效果,未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的行为识别方法。
本公开还涉及一种计算机可读存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的行为识别方法的实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
此外,本领域普通技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本领域技术人员应理解,尽管已经参考示例性实施例描述了本公开,但是在不脱离本公开的范围的情况下,可进行各种改变并可用等同物替换其元件。另外,在不脱离本公开的实质范围的情况下,可进行许多修改以使特定情况或材料适应本公开的教导。因此,本公开不限于所公开的特定实施例,而是本公开将包括落入所附权利要求范围内的所有实施例。

Claims (10)

1.一种行为识别方法,其特征在于,包括:
将视频数据截取成多个视频片段,对每个视频片段抽帧处理,得到帧图像,并对所述帧图像提取光流,得到光流图像;
分别对每个视频片段的帧图像和光流图像进行特征提取,得到每个视频片段的帧图像和光流图像的特征图;
分别对帧图像和光流图像的特征图进行空时卷积处理,确定每个视频片段的空间预测结果和时间预测结果;
对所有视频片段的空间预测结果进行融合,得到空间融合结果,并对所有视频片段的时间预测结果进行融合,得到时间融合结果;
对所述空间融合结果和所述时间融合结果进行双流融合,得到行为识别结果。
2.根据权利要求1所述的行为识别方法,其特征在于,所述分别对帧图像和光流图像的特征图进行空时卷积处理,确定每个视频片段的空间预测结果和时间预测结果,包括:
分别对每个视频片段的帧图像和光流图像的特征图进行至少一次时序特征提取,得到第一特征向量;
对所述第一特征向量进行矩阵变换处理,得到第二特征向量;
对所述第二特征向量进行时序全连接处理,得到第三特征向量;
根据所述第三特征向量,确定每个视频片段的空间预测结果和时间预测结果。
3.根据权利要求2所述的行为识别方法,其特征在于,所述分别对帧图像和光流图像的特征图进行至少一次时序特征提取,得到第一特征向量,包括:
分别对帧图像和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;
对所述第一时序卷积向量进行池化处理,得到第一中间特征向量;
进行一次时序特征提取时,将所述第一中间特征向量确定为第一特征向量;
进行n次时序特征提取时,对所述第一中间特征向量进行时序卷积处理,得到第二时序卷积向量,对所述第二时序卷积向量进行池化处理,得到第二中间特征向量,依次类推,将第n中间特征向量确定为第一特征向量,n为大于1的整数。
4.根据权利要求1所述的行为识别方法,其特征在于,所述对每个视频片段抽帧处理,包括:
将所述每个视频片段按照一定间隔抽取帧,其中,间隔为视频片段的总帧数除以N1,得到N1帧图像,N1为大于1的整数。
5.根据权利要求4所述的行为识别方法,其特征在于,对所述帧图像提取光流,包括:
对抽取出的N1帧图像,将后一帧与前一帧提取光流计算得到N1-1个光流;
复制第二帧与第一帧的光流作为第一个光流,与所述N1-1个光流合并为N1个光流。
6.根据权利要求1-5中任意一项所述的行为识别方法,其特征在于,所述分别对帧图像和光流图像的特征图进行空时卷积处理通过神经网络实现,所述方法还包括:根据训练集训练所述神经网络。
7.根据权利要求6所述的行为识别方法,其特征在于,所述神经网络,包括:
级联的至少一Block块、Reshape层、LIF层、全连接层和Softmax层;
所述Block块包括:级联的ConvLIF层和池化层。
8.一种行为识别***,其特征在于,采用如权利要求1-7中任意一项所述的一种基于ANN和SNN的行为识别方法,包括:
数据预处理模块,其用于将视频数据截取成多个视频片段,对每个视频片段抽帧处理,得到帧图像,并对所述帧图像提取光流,得到光流图像;
特征提取模块,其用于分别对每个视频片段的帧图像和光流图像进行图像特征提取,得到每个视频片段的帧图像和光流图像的特征图;
网络识别模块,其分别对帧图像和光流图像的特征图进行时空卷积处理,确定每个视频片段的空间预测结果和的时间预测结果;
网络融合模块,其对所有视频片段的空间预测结果进行融合,得到空间融合结果,并对所有视频片段的时间预测结果进行融合,得到时间融合结果;
双流融合模块,其用于对所述空间融合结果和所述时间融合结果进行双流融合,得到行为识别结果。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被处理器执行以实现如权利要求1-7中任一项所述的行为识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行以实现如权利要求1-7中任一项所述的行为识别方法。
CN202010157538.9A 2020-03-09 2020-03-09 一种行为识别方法及*** Active CN113378600B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010157538.9A CN113378600B (zh) 2020-03-09 2020-03-09 一种行为识别方法及***
PCT/CN2021/079530 WO2021180030A1 (zh) 2020-03-09 2021-03-08 行为识别方法及***、电子设备和计算机可读存储介质
US17/790,694 US20230042187A1 (en) 2020-03-09 2021-03-08 Behavior recognition method and system, electronic device and computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010157538.9A CN113378600B (zh) 2020-03-09 2020-03-09 一种行为识别方法及***

Publications (2)

Publication Number Publication Date
CN113378600A true CN113378600A (zh) 2021-09-10
CN113378600B CN113378600B (zh) 2023-12-29

Family

ID=77568439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010157538.9A Active CN113378600B (zh) 2020-03-09 2020-03-09 一种行为识别方法及***

Country Status (3)

Country Link
US (1) US20230042187A1 (zh)
CN (1) CN113378600B (zh)
WO (1) WO2021180030A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115171221A (zh) * 2022-09-06 2022-10-11 上海齐感电子信息科技有限公司 动作识别方法及动作识别***
WO2023061102A1 (zh) * 2021-10-15 2023-04-20 腾讯科技(深圳)有限公司 视频行为识别方法、装置、计算机设备和存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114339403B (zh) * 2021-12-31 2023-03-28 西安交通大学 一种视频动作片段生成方法、***、设备及可读存储介质
CN114677704B (zh) * 2022-02-23 2024-03-26 西北大学 一种基于三维卷积的时空特征多层次融合的行为识别方法
CN114973120B (zh) * 2022-04-14 2024-03-12 山东大学 一种基于多维传感数据与监控视频多模异构融合的行为识别方法及***
CN114842554B (zh) * 2022-04-22 2024-05-14 北京昭衍新药研究中心股份有限公司 一种基于局部和全局时空特征的群体猴子动作识别方法
CN115862151B (zh) * 2023-02-14 2023-05-26 福建中医药大学 基于游戏预测老年人反应能力的数据处理***及方法
CN117292291A (zh) * 2023-09-13 2023-12-26 杭州智驳科技有限公司 数字乡村独居老人安全求助方法、***、设备及存储介质
CN117523669A (zh) * 2023-11-17 2024-02-06 中国科学院自动化研究所 手势识别方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132785A1 (en) * 2015-11-09 2017-05-11 Xerox Corporation Method and system for evaluating the quality of a surgical procedure from in-vivo video
CN109377555A (zh) * 2018-11-14 2019-02-22 江苏科技大学 自主水下机器人前景视场三维重建目标特征提取识别方法
CN110826447A (zh) * 2019-10-29 2020-02-21 北京工商大学 一种基于注意力机制的餐厅后厨人员行为识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492319B (zh) * 2018-03-09 2021-09-03 西安电子科技大学 基于深度全卷积神经网络的运动目标检测方法
CN109711338A (zh) * 2018-12-26 2019-05-03 上海交通大学 利用光流指导特征融合的物体实例分割方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132785A1 (en) * 2015-11-09 2017-05-11 Xerox Corporation Method and system for evaluating the quality of a surgical procedure from in-vivo video
CN109377555A (zh) * 2018-11-14 2019-02-22 江苏科技大学 自主水下机器人前景视场三维重建目标特征提取识别方法
CN110826447A (zh) * 2019-10-29 2020-02-21 北京工商大学 一种基于注意力机制的餐厅后厨人员行为识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023061102A1 (zh) * 2021-10-15 2023-04-20 腾讯科技(深圳)有限公司 视频行为识别方法、装置、计算机设备和存储介质
CN115171221A (zh) * 2022-09-06 2022-10-11 上海齐感电子信息科技有限公司 动作识别方法及动作识别***
CN115171221B (zh) * 2022-09-06 2022-12-06 上海齐感电子信息科技有限公司 动作识别方法及动作识别***

Also Published As

Publication number Publication date
US20230042187A1 (en) 2023-02-09
WO2021180030A1 (zh) 2021-09-16
CN113378600B (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
CN113378600A (zh) 一种行为识别方法及***
Xiong et al. From open set to closed set: Counting objects by spatial divide-and-conquer
Ma et al. Bayesian loss for crowd count estimation with point supervision
CN109754015B (zh) 用于画作多标签识别的神经网络及相关方法、介质和设备
WO2022111506A1 (zh) 视频动作识别方法、装置、电子设备和存储介质
CN113688723B (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
US20210248378A1 (en) Spatiotemporal action detection method
CN109284738B (zh) 不规则人脸矫正方法和***
CN101470809B (zh) 一种基于扩展混合高斯模型的运动目标检测方法
CN111444878A (zh) 一种视频分类方法、装置及计算机可读存储介质
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN112149459A (zh) 一种基于交叉注意力机制的视频显著性物体检测模型及***
CN112668522B (zh) 一种人体关键点与人体掩码联合检测网络及方法
JP7150840B2 (ja) ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体
CN113239869B (zh) 基于关键帧序列和行为信息的两阶段行为识别方法及***
US20220100658A1 (en) Method of processing a series of events received asynchronously from an array of pixels of an event-based light sensor
CN113255616B (zh) 一种基于深度学习的视频行为识别方法
Rafique et al. Smart traffic monitoring through pyramid pooling vehicle detection and filter-based tracking on aerial images
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测***
CN112801019B (zh) 基于合成数据消除无监督车辆再识别偏差的方法及***
EP3789909A1 (en) Image classification in a sequence of frames
Zhang et al. Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention
CN113011308A (zh) 一种引入注意力机制的行人检测方法
CN114494981A (zh) 一种基于多层次运动建模的动作视频分类方法及***
Malav et al. DHSGAN: An end to end dehazing network for fog and smoke

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant