CN108416795A - 基于排序池化融合空间特征的视频动作识别方法 - Google Patents

基于排序池化融合空间特征的视频动作识别方法 Download PDF

Info

Publication number
CN108416795A
CN108416795A CN201810177015.3A CN201810177015A CN108416795A CN 108416795 A CN108416795 A CN 108416795A CN 201810177015 A CN201810177015 A CN 201810177015A CN 108416795 A CN108416795 A CN 108416795A
Authority
CN
China
Prior art keywords
video
sequence
vector
spaces
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810177015.3A
Other languages
English (en)
Other versions
CN108416795B (zh
Inventor
项欣光
赵恒颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201810177015.3A priority Critical patent/CN108416795B/zh
Publication of CN108416795A publication Critical patent/CN108416795A/zh
Application granted granted Critical
Publication of CN108416795B publication Critical patent/CN108416795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于排序池化融合空间特征的视频动作识别方法,包括:采用视频局部特征描述子算法对每个视频提取基本视觉特征向量集;对每个视频每帧图像的二维空间进行多尺度分割,构建二维空间金字塔模型;对金字塔模型中每个子空间内的视频基本特征向量集按照帧序列时间顺序排列;对每个子空间内的有序基本特征向量序列单独进行smooth操作;对每个子空间内经smooth操作后的有序特征向量序列单独运用排序池化算法,学习得到属于该子空间的模型参数;将金字塔模型中所有子空间得到的模型参数进行串联,得到的特征向量作为视频最终特征向量;通过使用分类器对该视频特征向量进行分类,识别出该视频的动作类别。

Description

基于排序池化融合空间特征的视频动作识别方法
技术领域
本发明涉及一种视频识别技术,特别是一种基于排序池化融合空间特征的视频动作识别方法。
背景技术
当今视频动作识别技术已经广泛应用于多媒体内容分析、人机交互、智能实时监控等领域中,该技术可以通过对视频进行特征提取生成特征向量,用分类器对特征向量进行分类的方法来实现。传统的视频动作识别方法中通常将视频三维时空域作为一个整体来捕捉视频动态变化特征,这种做法存在片面性,会导致丢失大量属于二维图像空间域或一维时序域特有的变化特性,因此,视频动作识别技术需要对视频时间、空间结构分开处理以便更加全面地捕捉视频动态变化中的时空特征信息,本文提出了一种基于排序池化融合空间特征的视频动作识别方法。
发明内容
本发明提供一种基于排序池化融合空间特征的视频动作识别方法,该方法通过使用分类器对时空特征提取方法所得到的视频特征向量进行分类的视频动作识别。
实现本发明目的的技术方案为:一种基于排序池化融合空间特征的视频动作识别方法,其特征在于,包括以下步骤:
步骤1,采用视频局部特征描述子算法对每个视频提取基本视觉特征向量集;
步骤2,对每个视频每帧图像的二维空间进行多尺度分割,构建二维空间金字塔模型;
步骤3,对金字塔模型中每个子空间内的视频基本特征向量集按照帧序列时间顺序排列;
步骤4,对每个子空间内的有序基本特征向量序列单独进行smooth操作;
步骤5,对每个子空间内经smooth操作后的有序特征向量序列单独运用排序池化算法,学习得到属于该子空间的模型参数;
步骤6,将金字塔模型中所有子空间得到的模型参数进行串联,得到的特征向量作为视频最终特征向量;
步骤7,通过使用分类器对该视频特征向量进行分类,识别出该视频的动作类别。
本发明将二维图像空间特征融入排序池化算法中,既继承了排序池化算法可以捕捉丰富的视频时序变化特征的优点,又弥补了其缺乏二维图像空间结构特征的缺点,不仅能够捕捉视频整体运动信息,还能更详细地捕捉到视频一维时序域、二维图像空间域的各自维度特有特征信息,补充视频特征描述子更丰富的动作动态变化信息,使得视频最终的特征向量包含更多属于该视频自身的动态变化特征,拥有更高的描述性能,进而提高视频动作的识别精确度。
下面结合说明书附图对本发明做进一步描述。
附图说明
图1是视频帧序列每帧图像二维空间多尺度分割示意图。
图2是本发明基于排序池化融合空间特征的视频动作识别方法流程图。
具体实施方式
结合图2,一种基于排序池化融合空间特征的视频动作识别方法,包括以下步骤:
步骤1,采用视频局部特征描述子算法对每个视频提取基本视觉特征向量集;
步骤2,对每个视频每帧图像的二维空间进行多尺度分割,构建二维空间金字塔模型;
步骤3,对金字塔模型中每个子空间内的视频基本特征向量集按照帧序列时间顺序排列;
步骤4,对每个子空间内的有序基本特征向量序列单独进行smooth操作;
步骤5,对每个子空间内经smooth操作后的有序特征向量序列单独运用排序池化算法,学习得到属于该子空间的模型参数;
步骤6,将金字塔模型中所有子空间得到的模型参数进行串联,得到的特征向量作为视频最终特征向量;
步骤7,通过使用分类器对该视频特征向量进行分类,识别出该视频的动作类别。
步骤1中的视频局部特征描述子算法可以使用方向梯度直方图或光流直方图算法。
步骤2中对视频的每一帧图像构建一个两层的空间金字塔模型,对图像的二维空间结构进行多尺度分割,金字塔的第一层是对每帧图像不作任何分割,即每帧图像的第一层尺度是一个完整的图像,金字塔的第二层是对每帧图像分别对横轴和纵轴做二等分,即把每帧图像的二维空间分成四等分,分割示意图如图1所示。
步骤3中将金字塔每层的每个子空间内的基本特征向量序列按照每个基本特征向量所属的帧图像的时间顺序排列,获得有序的基本特征向量序列,用表示,其中s表示金字塔的层号,n表示每层中子空间的序号,表示第t帧图像的第s层第n个子空间中的基本特征向量,X(s,n)表示该视频所有帧在第s层第n个子空间中的有序特征向量序列。
步骤4单独地对步骤三所得到的每个子空间的有序基本特征向量序列进行smooth操作,该smooth操作采用的是时变均值向量法对每个子空间的基本特征序列X(s,n)进行预处理,令V(s,n)表示预处理过后金字塔第s层中第n个子空间内的新特征向量序列,令表示该子空间内新特征向量序列中的第t帧新特征向量,则其中第t帧新特征向量的计算方式如公式:
其中是表示金子塔第s层第n个子空间内的从第一帧到第t帧图像的所有基本视觉特征向量序列的平均值,计算方式见公式:
步骤5以子空间为单位,单独对每个子空间的经smooth操作后有序的特征向量序列运用排序池化算法,学习得到属于该子空间的模型参数w(s,n),我们用每帧的新特征向量序列的偏序关系来表示每帧的新特征向量随着时序变化的内在联系,通过学习排序范式来对顺序约束条件建立数学模型,因为特征序列的顺序是已知的,即表示第t帧的特征向量在第t+1帧特征向量之前,所以所构建的数学模型的学习过程是有监督的,对于输入样本我们将特征序列中所有的特征向量两两组合其中表示时间的帧序号ti在tj之前,定义正例样本为样本标签设为1,则反例样本为样本标签设为-1。然后,我们就可以通过SVM的学习算法学习凸优化问题:
ξij≥0
当目标函数达到最优时,学习到的函数参数w(s,n)可以作为该子空间内的视频序列新的特征描述符。
步骤6中将步骤五所得到的该视频金字塔模型中所有子空间的模型参数w(s,n)串联,得到的特征向量W作为该视频最终特征向量。
步骤7中使用的分类器是支持向量机,支持向量机本身是一个二分类分类器,本发明中通过使用one-against-rest方法实现了多分类的功能,获得每个视频的动作类别。

Claims (5)

1.一种基于排序池化融合空间特征的视频动作识别方法,其特征在于,包括以下步骤:
步骤1,采用视频局部特征描述子算法对每个视频提取基本视觉特征向量集;
步骤2,对每个视频每帧图像的二维空间进行多尺度分割,构建二维空间金字塔模型;
步骤3,对金字塔模型中每个子空间内的视频基本特征向量集按照帧序列时间顺序排列;
步骤4,对每个子空间内的有序基本特征向量序列单独进行smooth操作;
步骤5,对每个子空间内经smooth操作后的有序特征向量序列单独运用排序池化算法,学习得到属于该子空间的模型参数;
步骤6,将金字塔模型中所有子空间得到的模型参数进行串联,得到的特征向量作为视频最终特征向量;
步骤7,通过使用分类器对该视频特征向量进行分类,识别出该视频的动作类别。
2.根据权利要求1所述的方法,其特征在于,所述步骤2中对视频的每一帧图像构建一个两层的空间金字塔模型,对图像的二维空间结构进行多尺度分割,以此将视频每帧图像的二维空间结构信息融入排序池化算法得到的视频特征向量中。
3.根据权利要求1所述的方法,其特征在于,所述步骤3中将金字塔每层的每个子空间内的基本特征向量序列按照该基本特征向量所属的帧图像的时间顺序排列,获得有序的基本特征向量序列,用表示,其中s表示金字塔的层号,n表示每层中子空间的序号,表示第t帧图像的第s层第n个子空间中的基本特征向量,X(s,n)表示该视频所有帧再第s层第n个子空间中的有序特征向量序列。
4.根据权利要求3所述的方法,其特征在于,所述步骤4中对步骤3所得到的每个子空间的有序基本特征向量序列进行smooth操作,该smooth操作采用的是时变均值向量法对每个子空间的基本特征序列X(s,n)进行预处理,令V(s,n)表示预处理过后金字塔第s层中第n个子空间内的新特征向量序列,令表示该子空间内新特征向量序列中的第t帧新特征向量,则其中第t帧新特征向量的计算方式如公式:
其中是表示金子塔第s层第n个子空间内的从第一帧到第t帧图像的所有基本视觉特征向量序列的平均值,计算方式见公式:
5.根据权利要求4所述的方法,其特征在于,所述步骤5中以视频二维空间金字塔模型中的子空间为单位,单独对每个子空间的有序特征向量序列运用排序池化算法,学习得到属于该子空间的模型参数W。
CN201810177015.3A 2018-03-04 2018-03-04 基于排序池化融合空间特征的视频动作识别方法 Active CN108416795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810177015.3A CN108416795B (zh) 2018-03-04 2018-03-04 基于排序池化融合空间特征的视频动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810177015.3A CN108416795B (zh) 2018-03-04 2018-03-04 基于排序池化融合空间特征的视频动作识别方法

Publications (2)

Publication Number Publication Date
CN108416795A true CN108416795A (zh) 2018-08-17
CN108416795B CN108416795B (zh) 2022-03-18

Family

ID=63129727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810177015.3A Active CN108416795B (zh) 2018-03-04 2018-03-04 基于排序池化融合空间特征的视频动作识别方法

Country Status (1)

Country Link
CN (1) CN108416795B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598201A (zh) * 2018-11-05 2019-04-09 北京三快在线科技有限公司 动作检测方法、装置、电子设备及可读存储介质
CN109670593A (zh) * 2018-12-21 2019-04-23 北京瀚海星云科技有限公司 一种评估、以及预测深度学习模型中层计算时间的方法
CN110096617A (zh) * 2019-04-29 2019-08-06 北京百度网讯科技有限公司 视频分类方法、装置、电子设备及计算机可读存储介质
CN112528872A (zh) * 2020-12-15 2021-03-19 中化资本数字科技有限公司 基于视频流的人脸检测模型的训练方法、装置及计算设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246895A (zh) * 2013-05-15 2013-08-14 中国科学院自动化研究所 基于深度信息的图像分类方法
US20150104102A1 (en) * 2013-10-11 2015-04-16 Universidade De Coimbra Semantic segmentation method with second-order pooling
CN105469050A (zh) * 2015-11-24 2016-04-06 南京师范大学 基于局部时空特征描述与金字塔词汇树的视频行为识别方法
US20170083798A1 (en) * 2015-09-17 2017-03-23 Canon Kabushiki Kaisha Devices, systems, and methods for generating a temporal-adaptive representation for video-event classification
CN106650674A (zh) * 2016-12-27 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于混合池化策略的深度卷积特征的动作识别方法
CN106845329A (zh) * 2016-11-11 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于深度卷积特征多通道金字塔池化的动作识别方法
CN106909887A (zh) * 2017-01-19 2017-06-30 南京邮电大学盐城大数据研究院有限公司 一种基于cnn和svm的动作识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246895A (zh) * 2013-05-15 2013-08-14 中国科学院自动化研究所 基于深度信息的图像分类方法
US20150104102A1 (en) * 2013-10-11 2015-04-16 Universidade De Coimbra Semantic segmentation method with second-order pooling
US20170083798A1 (en) * 2015-09-17 2017-03-23 Canon Kabushiki Kaisha Devices, systems, and methods for generating a temporal-adaptive representation for video-event classification
CN105469050A (zh) * 2015-11-24 2016-04-06 南京师范大学 基于局部时空特征描述与金字塔词汇树的视频行为识别方法
CN106845329A (zh) * 2016-11-11 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于深度卷积特征多通道金字塔池化的动作识别方法
CN106650674A (zh) * 2016-12-27 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于混合池化策略的深度卷积特征的动作识别方法
CN106909887A (zh) * 2017-01-19 2017-06-30 南京邮电大学盐城大数据研究院有限公司 一种基于cnn和svm的动作识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BASURA FERNANDO等: "Rank Pooling for Action Recognition", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
Y. WANG等: "Spatiotemporal pyramid network for video action recognition", 《PROCEEDINGS OF THE 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
周磊等: "基于步态动态图的步态识别方法", 《中国科技论文在线精品论文》 *
赵恒颖: "基于时空特征提取的视频动作识别技术研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
黄晓晖等: "一种基于深度图去噪与时空特征提取的动作识别方法", 《现代工业经济和信息化》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598201A (zh) * 2018-11-05 2019-04-09 北京三快在线科技有限公司 动作检测方法、装置、电子设备及可读存储介质
CN109670593A (zh) * 2018-12-21 2019-04-23 北京瀚海星云科技有限公司 一种评估、以及预测深度学习模型中层计算时间的方法
CN109670593B (zh) * 2018-12-21 2021-03-23 深圳致星科技有限公司 一种评估、以及预测深度学习模型中层计算时间的方法
CN110096617A (zh) * 2019-04-29 2019-08-06 北京百度网讯科技有限公司 视频分类方法、装置、电子设备及计算机可读存储介质
CN112528872A (zh) * 2020-12-15 2021-03-19 中化资本数字科技有限公司 基于视频流的人脸检测模型的训练方法、装置及计算设备

Also Published As

Publication number Publication date
CN108416795B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN104281853B (zh) 一种基于3d卷积神经网络的行为识别方法
CN110428428B (zh) 一种图像语义分割方法、电子设备和可读存储介质
CN108520535B (zh) 基于深度恢复信息的物体分类方法
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN108875624B (zh) 基于多尺度的级联稠密连接神经网络的人脸检测方法
CN108416795A (zh) 基于排序池化融合空间特征的视频动作识别方法
WO2018052587A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN103971137B (zh) 基于结构性稀疏特征学习的三维动态人脸表情识别方法
CN108549926A (zh) 一种用于精细化识别车辆属性的深度神经网络及训练方法
CN108090403A (zh) 一种基于3d卷积神经网络的人脸动态识别方法及***
CN109002755B (zh) 基于人脸图像的年龄估计模型构建方法及估计方法
CN109741341A (zh) 一种基于超像素和长短时记忆网络的图像分割方法
CN111507275B (zh) 一种基于深度学习的视频数据时序信息提取方法及装置
CN109325513B (zh) 一种基于海量单类单幅图像的图像分类网络训练方法
Dai et al. Tan: Temporal aggregation network for dense multi-label action recognition
CN112580521A (zh) 一种基于maml元学习算法的多特征真假视频检测方法
CN111160389A (zh) 一种基于融合vgg的岩性识别方法
CN113221770A (zh) 基于多特征混合学习的跨域行人重识别方法及***
CN107967481A (zh) 一种基于局部性约束和显著性的图像分类方法
CN114818931A (zh) 一种基于小样本元学习的水果图像分类方法
CN110508510A (zh) 一种塑料泵缺陷检测方法、装置及***
CN106980823A (zh) 一种基于帧间自相似的动作识别方法
CN111401209B (zh) 一种基于深度学习的动作识别方法
CN117576038A (zh) 基于YOLOv8网络的织物瑕疵检测方法及***
CN105469062A (zh) 一种基于主成分分析网框架的车型识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant