CN112149616B - 基于动态信息的人物交互行为识别方法 - Google Patents
基于动态信息的人物交互行为识别方法 Download PDFInfo
- Publication number
- CN112149616B CN112149616B CN202011087925.6A CN202011087925A CN112149616B CN 112149616 B CN112149616 B CN 112149616B CN 202011087925 A CN202011087925 A CN 202011087925A CN 112149616 B CN112149616 B CN 112149616B
- Authority
- CN
- China
- Prior art keywords
- mth
- interaction behavior
- video image
- character interaction
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 56
- 230000000007 visual effect Effects 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 21
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 79
- 230000006399 behavior Effects 0.000 claims description 74
- 210000004027 cell Anatomy 0.000 claims description 23
- 230000004913 activation Effects 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 210000004205 output neuron Anatomy 0.000 claims description 9
- 230000007787 long-term memory Effects 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000009471 action Effects 0.000 abstract description 14
- 238000001514 detection method Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于动态信息的人物交互行为识别方法,通过生成人物交互训练集并搭建人物交互行为识别网络,克服了现有技术适用性不好、对往复动作和遮挡动作有误判的问题。本发明实现的步骤是:(1)生成人物交互训练集;(2)构建视觉特征提取模块;(3)构建空间特征提取模块;(4)构建时序特征提取模块;(5)构建人物交互行为识别网络;(6)训练人物交互行为识别网络;(7)识别视频图像中的人物交互行为。本发明具有人物交互行为识别网络识别交互行为识别率高、适用性好的优点,可用于视频图像中交互行为的识别。
Description
技术领域
本发明属于图像处理技术领域,更进一步涉及视频图像识别技术领域中的一种基于动态信息的人物交互行为识别方法。本发明可对视频图像中的人与物体之间发生交互时的行为进行识别。
背景技术
人物交互行为识别是视频分析,场景理解领域中很重要的一个问题,主要目的是从一段包含人和物体的视频图像或者序列中识别人与物体的交互行为,这其中的重点在于高效提取人和物体在时间和空间上的特征表达,融合其视觉特征进行交互配对,实现精确的人物交互行为识别,人物交互行为识别广泛应用于监控安防及人机交互等方面,已成为计算机视觉和模式识别技术领域中重要的研究课题之一。
现有的方法大多数针对图像做处理,通过目标检测方法提取出人和物体的特征,结合相对空间位置提取人和物体的交互特征,最后融合人和物体的特征与交互特征进行交互行为识别。其缺陷在于单个图像缺乏交互动作的动态信息,对交互行为的识别帮助有限,无法解决往复动作的歧义和遮挡导致的交互动作误判等问题。此外,目标检测方法在不同场景下的效果差异很大,需要针对性的微调,使得此类方法适用性不好。
Yu-Wei Chao等人在其发表的论文“Learning to Detect Human-ObjectInteractions.”(IEEE winter conference on applications of computer vision(wacv),2018,pp.381-389)中提出了用视觉特征和空间交互特征进行人物交互行为检测的方法。该方法利用现有的目标检测方法检测出图像中存在的人和物体,对获得的人和物体进行两两配对,通过深度神经网络提取人和物体的视觉特征,通过人和物体的空间相对位置描述其空间交互特征,最后融合人物视觉特征和空间交互特征进行人物交互识别。该方法存在的不足之处是:在人物交互行为识别中,图像缺乏交互动作的动态信息,无法表征时序上的特征,对起身坐下,拿起放下等往复动作无法精确判断,对有物体遮挡的交互动作也会有误判,因此导致识别率不高。
上海交通大学在申请的专利文献“基于深度学习融合各种交互信息的多人行为检测方法及***”(专利申请号202010289689.X,公开号111523421A)中公开了一种融合人物交互信息的行为检测方法。该方法通过目标检测方法提取视频图像中的人和物体的位置,然后将提取到的人和物***置输入深度神经网络提取人物交互、人人交互、人记忆交互三种不同的表征信息,并融合三种表征信息进行行为识别。该方法存在的不足之处是:在输入深度神经网络之前用目标检测方法检测视频图像中存在的人和物体,目标检测的效果决定了后续行为识别的结果,而目标检测方法在不同数据集,不同场景下的效果差异很大,需要针对性的微调,导致此方法的适用性不强。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于动态信息的的人物交互行为识别方法,以解决现有技术存在的适用性不好、对往复动作和遮挡动作有误判的问题。
实现本发明目的的技术思路是,利用siamrpn算法生成视频图像中所有帧的人所在区域位置和物体所在区域位置,构建视觉特征提取模块提取人物视觉特征,构建空间特征提取模块提取人物空间特征,构建时序特征提取模块融合人物视觉特征和人物空间特征,学习其在时间上的交互特征,对视频图像中的人物交互行为进行识别。
本发明的实现的具体步骤如下:
(1)生成人物交互训练集:
(1a)选取至少3000张视频图像组成样本集,每张视频图像中至少含有一种人物交互行为及与每种人物交互行为对应的类别标签;
(1b)标注每张视频图像中第一帧的人和物体所在区域,利用siamrpn算法,分别生成每张视频图像中所有帧的人所在区域位置和物体所在区域位置;
(1c)用每张视频图像每一帧中的人和物体所在区域的并集生成2张二值图像,第一张二值图像中人所在区域的像素值为1,其余的像素值为0,在第二张二值图像中物体所在区域的像素值为1,其余的像素值为0,将2张二值图像的大小压缩到64×64个像素;
(1d)将样本集中所有的视频图像、所有帧的人所在区域位置、所有帧的物体所在区域位置和压缩后的二值图像组成人物交互训练集;
(2)构建视觉特征提取模块:
(2a)搭建一个10层的视觉特征提取模块,其结构依次为:输入卷积层→最大池化层→第一残差块组→第二残差块组→第三残差块组→第四残差块组→全局平均池化层→第一全连接层→concat层→第二全连接层;
所述第一残差块组包括3个串联的残差块,每个残差块由三个卷积层串联组成;
所述第二残差块组包括8个串联的残差块,每个残差块由三个卷积层串联组成;
所述第三残差块组包括36个串联的残差块,每个残差块由三个卷积层串联组成;
所述第四残差块组包括3个串联的残差块,每个残差块由三个卷积层串联组成;
(2b)设置每层参数为:将输入卷积层的卷积核大小设置为7×7,卷积核数量设置为64,卷积核步长设置为2,第一至第四残差块组中残差块的卷积核步长均设置为1,每个残差块中对应位置的三个卷积核的大小均相同,依次为1×1、3×3、1×1,第一残差块组中残差块的三个卷积核数量依次设置为64、64、256,第二残差块组中残差块的三个卷积核数量依次设置为128、128、512,第三残差块组中残差块的三个卷积核数量依次设置为256、256、1024,第四残差块组中残差块的三个卷积核数量依次设置为512、512、2048,最大池化层的池化区域核大小设置为3×3,步长设置为2,第一、第二全连接层的输出神经元个数分别设置为512、300,concat层的拼接维度设置为第1维;
(3)构建空间特征提取模块:
(3a)搭建一个空间特征提取模块,其结构依次为:第一卷积层→第二卷积层→全连接层;
(3b)设置每层参数为:将两个卷积层的卷积核大小均设置为5×5,步长均设置为1,卷积核数量依次设置为64,32,全连接层的输出神经元个数设置为128;
(4)构建时序特征提取模块:
(4a)搭建一个时序特征提取模块;其结构依次为:concat层→长短期记忆LSTM→全连接层→softmax激活层;
(4b)设置每层参数为:将concat层的拼接维度设置为第2维;长短期记忆LSTM由3个长短期记忆LSTM单元组成;利用参数设定公式,分别设定每个长短期记忆LSTM单元的输入门、遗忘门、输出门、细胞信息和隐藏信息结构参数;全连接层的输出神经元个数设置为20;
(5)构建人物交互行为识别网络:
将视觉特征提取模块和空间特征提取模块并联后再与时序特征提取模块串联,组成人物交互行为识别网络;
(6)训练人物交互行为识别网络:
将训练集中的每张视频图像依次输入到人物交互行为识别网络中,利用梯度下降法更新迭代人物交互行为网络的每层参数,直到梯度值收敛,得到训练好的人物交互行为识别网络;
(7)识别视频图像中的人物交互行为:
(7a)对待识别视频图像采用与步骤(1b)相同的方法,分别生成待视频图像中所有帧的人所在区域位置和物体所在区域位置;
(7b)对待视频图像采用与步骤(1c)相同的方法,生成对应的二值图像;
(7c)将待识别视频图像、所有帧的人所在区域位置、所有帧的物体所在区域位置和二值图像输入到训练好的人物交互行为识别网络中,输出人物交互行为识别结果。
与现有技术相比,本发明具有以下优点:
第一,由于本发明在生成人物交互训练集时,标注视频图像第一帧中的人和物体所在区域,并利用siamrpn算法生成每张视频图像中所有帧的人所在区域位置和物体所在区域位置,克服了现有技术的人物交互行为识别方法中依赖目标检测效果,导致在不同场景下识别效果差异大,适用性不强的问题,使得本发明能够适用于不同场景。
第二,由于本发明构建了一个由视觉特征提取模块、空间特征提取模块、时序特征提取模块组成的人物交互行为识别网络,克服了现有技术的人物交互行为识别方法缺乏交互动作的动态信息,无法解决往复动作的歧义和遮挡导致的交互动作误判的问题,使得本发明能够有效地提取视频图像中的时空信息,提高了人物交互行为识别的准确率。
附图说明
图1是本发明的流程图;
图2是本发明视觉特征提取模块的结构示意图;
图3是本发明人物交互行为识别网络的结构示意图。
具体实施方式
下面结合附图对本发明进行详细说明。
结合附图1对本发明的实现步骤做进一步的描述。
步骤1,生成人物交互训练集。
(1.1)选取至少3000张视频图像组成样本集,每张视频图像中至少含有一种人物交互行为及与每种人物交互行为对应的类别标签。
(1.2)标注每张视频图像中第一帧的人和物体所在区域,利用siamrpn算法,分别生成每张视频图像中所有帧的人所在区域位置和物体所在区域位置。
所述的siamrpn算法的步骤如下:
第1步,将已标注好的视频图像中第一帧的人或物体所在区域作为初始模板区域。
第2步,从视频图像中选取当前帧的下一帧,将初始模板区域的尺寸扩大一倍作为所选帧的搜索区域。
第3步,将初始模板区域和所选帧的搜索区域同时输入到孪生特征提取网络中,输出初始模板区域外观特征图和所选帧的搜索区域外观特征图,所述的孪生提取网络由模板区域提取网络和搜索区域提取网络孪生组成。
第4步,将初始模板区域外观特征图和所选帧的搜索区域外观特征图同时输入到区域生成网络中,获得多个候选区域及其外观特征图,初始模板区域外观特征图和多个候选区域外观特征图经过卷积层生成两个分支,第一个分支输出初始模板和候选区域匹配的得分,第二个分支输出对应候选区域的位置。
第5步,判断是否选完视频图像的所有帧,若是,生成该视频图像所有帧的人所在区域位置或物体所在区域位置后执行本步骤的(1.3),否则,执行本步骤的第2步。
(1.3)用每张视频图像每一帧中的人和物体所在区域的并集生成2张二值图像,第一张二值图像中人所在区域的像素值为1,其余的像素值为0,在第二张二值图像中物体所在区域的像素值为1,其余的像素值为0,将2张二值图像的大小压缩到64×64个像素。
(1.4)将样本集中所有的视频图像、所有帧的人所在区域位置、所有帧的物体所在区域位置和压缩后的二值图像组成人物交互训练集。
步骤2,构建视觉特征提取模块。
结合附图2对视觉特征提取模块的结构做进一步的描述。
搭建一个10层的视觉特征提取模块,其结构依次为:输入卷积层→最大池化层→第一残差块组→第二残差块组→第三残差块组→第四残差块组→全局平均池化层→第一全连接层→concat层→第二全连接层。
所述第一残差块组包括3个串联的残差块,每个残差块由三个卷积层串联组成。
所述第二残差块组包括8个串联的残差块,每个残差块由三个卷积层串联组成。
所述第三残差块组包括36个串联的残差块,每个残差块由三个卷积层串联组成。
所述第四残差块组包括3个串联的残差块,每个残差块由三个卷积层串联组成。
设置每层参数为:将输入卷积层的卷积核大小设置为7×7,卷积核数量设置为64,卷积核步长设置为2,第一至第四残差块组中残差块的卷积核步长均设置为1,每个残差块中对应位置的三个卷积核的大小均相同,依次为1×1、3×3、1×1,第一残差块组中残差块的三个卷积核数量依次设置为64、64、256,第二残差块组中残差块的三个卷积核数量依次设置为128、128、512,第三残差块组中残差块的三个卷积核数量依次设置为256、256、1024,第四残差块组中残差块的三个卷积核数量依次设置为512、512、2048,最大池化层的池化区域核大小设置为3×3,步长设置为2,第一、第二全连接层的输出神经元个数分别设置为512、300,concat层的拼接维度设置为第1维。
步骤3,构建空间特征提取模块。
搭建一个空间特征提取模块,其结构依次为:第一卷积层→第二卷积层→全连接层。
设置每层参数为:将两个卷积层的卷积核大小均设置为5×5,步长均设置为1,卷积核数量依次设置为64,32,全连接层的输出神经元个数设置为128。
步骤4,构建时序特征提取模块。
搭建一个时序特征提取模块;其结构依次为:concat层→长短期记忆LSTM→全连接层→softmax激活层。
设置每层参数为:将concat层的拼接维度设置为第2维;长短期记忆LSTM由3个长短期记忆LSTM单元组成;利用参数设定公式,分别设定每个长短期记忆LSTM单元的输入门、遗忘门、输出门、细胞信息和隐藏信息结构参数;全连接层的输出神经元个数设置为20。
所述的参数设定公式如下:
hm,t=om,t⊙tanh(cm,t)
其中,im,t表示t时刻第m个LSTM单元的输入门门控信号,所述门控信号为0到1之间的数值,m=1、2、3,σ(·)表示sigmoid激活函数,表示t时刻第m个LSTM单元的输入门门控信号im,t与t时刻第m个LSTM单元的输入向量xm,t之间的权重,/>表示t时刻第m个LSTM单元的输入门门控信号im,t与t-1时刻第m个LSTM单元的隐藏信息hm,t-1之间的权重,/>表示t时刻第m个LSTM单元的输入门门控信号im,t与t-1时刻第m个LSTM单元的细胞信息cm,t-1之间的权重,/>表示t时刻第m个LSTM单元输入门门控信号im,t的偏置,fm,t表示t时刻第m个LSTM单元的遗忘门门控信号,/>表示t时刻第m个LSTM单元的遗忘门门控信号fm,t与t时刻第m个LSTM单元的输入向量xm,t之间的权重,/>表示t时刻第m个LSTM单元的遗忘门门控信号fm,t与t-1时刻第m个LSTM单元的隐藏信息hm,t-1之间的权重,/>表示t时刻第m个LSTM单元的遗忘门门控信号fm,t与t-1时刻第m个LSTM单元的细胞信息cm,t-1之间的权重,/>表示t时刻第m个LSTM单元遗忘门门控信号fm,t的偏置,⊙表示点乘操作,tanh(·)表示tanh激活函数,/>表示t时刻第m个LSTM单元的细胞信息cm,t与t时刻第m个LSTM单元的输入向量xm,t之间的权重,/>表示t时刻第m个LSTM单元的细胞信息cm,t与t-1时刻第m个LSTM单元的隐藏信息hm,t-1之间的权重,/>表示t时刻第m个LSTM单元细胞信息cm,t的偏置,om,t表示t时刻第m个LSTM单元的输出门门控信号,/>表示t时刻第m个LSTM单元的输出门门控信号om,t与t时刻第m个LSTM单元的输入向量xm,t之间的权重,/>表示t时刻第m个LSTM单元的输出门门控信号om,t与t-1时刻第m个LSTM单元的隐藏信息hm,t-1之间的权重,/>表示t时刻第m个LSTM单元的输出门门控信号om,t与t-1时刻第m个LSTM单元的细胞信息cm,t-1之间的权重,/>表示t时刻第m个LSTM单元输出门门控信号om,t的偏置。
所述sigmoid激活函数和tanh激活函数的公式如下:
其中,x表示激活函数的输入,e(·)表示以自然常数e为底数的指数操作。
步骤5,构建人物交互行为识别网络。
参照附图3,人物交互行为识别网络由三个模块组成:视觉特征提取模块、空间特征提取模块、时序特征提取模块。
将视觉特征提取模块和空间特征提取模块并联后再与时序特征提取模块串联,组成人物交互行为识别网络。
步骤6,训练人物交互行为识别网络。
将训练集中的每张视频图像依次输入到人物交互行为识别网络中,利用梯度下降法更新迭代人物交互行为网络的每层参数,直到梯度值收敛,得到训练好的人物交互行为识别网络。
所述的梯度下降法的步骤如下:
第1步,将人物交互行为识别网络的学习率设置为0.001。
第2步,将输入训练人物交互行为识别网络时训练集中当前视频经时序特征提取模块的输出值与该视频图像的类别标签值的差值作为当前迭代更新的梯度值。
第3步,利用下式,更新迭代人物交互行为识别网络的各层参数:
其中,表示迭代更新后的人物交互行为识别网络的参数值,←表示赋值操作,θ表示人物交互行为识别网络迭代更新前的参数值,▽J表示人物交互行为识别网络的当前迭代更新的梯度值。
第4步,判断当前迭代更新的梯度值是否收敛,若是,则停止对参数的迭代更新,得到训练好的人物交互行为识别网络,否则,将当前视频图像的下一个视频图像作为当前视频图像后执行本步骤第2步。
步骤7,识别视频图像中的人物交互行为。
对待识别视频图像采用与步骤1(1.2)相同的方法,分别生成待视频图像中所有帧的人所在区域位置和物体所在区域位置。
对待视频图像采用与步骤1(1.3)相同的方法,生成对应的二值图像。
将待识别视频图像、所有帧的人所在区域位置、所有帧的物体所在区域位置和二值图像输入到训练好的人物交互行为识别网络中,输出人物交互行为识别结果。
Claims (3)
1.一种基于动态信息的人物交互行为识别方法,其特征在于,在生成人物交互训练集时,标注视频图像第一帧中的人和物体所在区域,并利用siamrpn算法生成每张视频图像中所有帧的人所在区域位置和物体所在区域位置,构建人物交互行为识别网络,对视频图像中的人物交互行为进行识别,该方法的步骤包括如下:
(1)生成人物交互训练集:
(1a)选取至少3000张视频图像组成样本集,每张视频图像中至少含有一种人物交互行为及与每种人物交互行为对应的类别标签;
(1b)标注每张视频图像中第一帧的人和物体所在区域,利用siamrpn算法,分别生成每张视频图像中所有帧的人所在区域位置和物体所在区域位置;
所述的siamrpn算法的步骤如下:
第一步,将已标注好的视频图像中第一帧的人或物体所在区域作为初始模板区域;
第二步,从视频图像中选取当前帧的下一帧,将初始模板区域的尺寸扩大一倍作为所选帧的搜索区域;
第三步,将初始模板区域和所选帧的搜索区域同时输入到孪生特征提取网络中,输出初始模板区域外观特征图和所选帧的搜索区域外观特征图,所述的孪生特征提取网络由模板区域提取网络和搜索区域提取网络孪生组成;
第四步,将初始模板区域外观特征图和所选帧的搜索区域外观特征图同时输入到区域生成网络中,获得多个候选区域及其外观特征图,初始模板区域外观特征图和多个候选区域外观特征图经过卷积层生成两个分支,第一个分支输出初始模板和候选区域匹配的得分,第二个分支输出对应候选区域的位置;
第五步,判断是否选完视频图像的所有帧,若是,生成该视频图像所有帧的人所在区域位置或物体所在区域位置,否则,执行第二步;
(1c)用每张视频图像每一帧中的人和物体所在区域的并集生成2张二值图像,第一张二值图像中人所在区域的像素值为1,其余的像素值为0,在第二张二值图像中物体所在区域的像素值为1,其余的像素值为0,将2张二值图像的大小压缩到64×64个像素;
(1d)将样本集中所有的视频图像、所有帧的人所在区域位置、所有帧的物体所在区域位置和压缩后的二值图像组成人物交互训练集;
(2)构建视觉特征提取模块:
(2a)搭建一个10层的视觉特征提取模块,其结构依次为:输入卷积层→最大池化层→第一残差块组→第二残差块组→第三残差块组→第四残差块组→全局平均池化层→第一全连接层→concat层→第二全连接层;
所述第一残差块组包括3个串联的残差块,每个残差块由三个卷积层串联组成;
所述第二残差块组包括8个串联的残差块,每个残差块由三个卷积层串联组成;
所述第三残差块组包括36个串联的残差块,每个残差块由三个卷积层串联组成;
所述第四残差块组包括3个串联的残差块,每个残差块由三个卷积层串联组成;
(2b)设置每层参数为:将输入卷积层的卷积核大小设置为7×7,卷积核数量设置为64,卷积核步长设置为2,第一至第四残差块组中残差块的卷积核步长均设置为1,每个残差块中对应位置的三个卷积核的大小均相同,依次为1×1、3×3、1×1,第一残差块组中残差块的三个卷积核数量依次设置为64、64、256,第二残差块组中残差块的三个卷积核数量依次设置为128、128、512,第三残差块组中残差块的三个卷积核数量依次设置为256、256、1024,第四残差块组中残差块的三个卷积核数量依次设置为512、512、2048,最大池化层的池化区域核大小设置为3×3,步长设置为2,第一、第二全连接层的输出神经元个数分别设置为512、300,concat层的拼接维度设置为第1维;
(3)构建空间特征提取模块:
(3a)搭建一个空间特征提取模块,其结构依次为:第一卷积层→第二卷积层→全连接层;
(3b)设置每层参数为:将两个卷积层的卷积核大小均设置为5×5,步长均设置为1,卷积核数量依次设置为64,32,全连接层的输出神经元个数设置为128;
(4)构建时序特征提取模块:
(4a)搭建一个时序特征提取模块;其结构依次为:concat层→长短期记忆LSTM→全连接层→softmax激活层;
(4b)设置每层参数为:将concat层的拼接维度设置为第2维;长短期记忆LSTM由三个长短期记忆LSTM单元组成;利用参数设定公式,分别设定每个长短期记忆LSTM单元的输入门、遗忘门、输出门、细胞信息和隐藏信息结构参数;全连接层的输出神经元个数设置为20;
(5)构建人物交互行为识别网络:
将视觉特征提取模块和空间特征提取模块并联后再与时序特征提取模块串联,组成人物交互行为识别网络;
(6)训练人物交互行为识别网络:
将训练集中的每张视频图像依次输入到人物交互行为识别网络中,利用梯度下降法更新迭代人物交互行为网络的每层参数,直到梯度值收敛,得到训练好的人物交互行为识别网络;
(7)识别视频图像中的人物交互行为:
(7a)对待识别视频图像采用与步骤(1b)相同的方法,分别生成待视频图像中所有帧的人所在区域位置和物体所在区域位置;
(7b)对待视频图像采用与步骤(1c)相同的方法,生成对应的二值图像;
(7c)将待识别视频图像、所有帧的人所在区域位置、所有帧的物体所在区域位置和二值图像输入到训练好的人物交互行为识别网络中,输出人物交互行为识别结果。
2.根据权利要求1所述的基于动态信息的人物交互行为识别方法,其特征在于,步骤(4b)中所述的参数设定公式如下:
hm,t=om,t⊙tanh(cm,t)
其中,im,t表示t时刻第m个LSTM单元的输入门门控信号,所述门控信号为0到1之间的数值,m=1、2、3,σ(·)表示sigmoid激活函数,表示t时刻第m个LSTM单元的输入门门控信号im,t与t时刻第m个LSTM单元的输入向量xm,t之间的权重,/>表示t时刻第m个LSTM单元的输入门门控信号im,t与t-1时刻第m个LSTM单元的隐藏信息hm,t-1之间的权重,/>表示t时刻第m个LSTM单元的输入门门控信号im,t与t-1时刻第m个LSTM单元的细胞信息cm,t-1之间的权重,/>表示t时刻第m个LSTM单元输入门门控信号im,t的偏置,fm,t表示t时刻第m个LSTM单元的遗忘门门控信号,/>表示t时刻第m个LSTM单元的遗忘门门控信号fm,t与t时刻第m个LSTM单元的输入向量xm,t之间的权重,/>表示t时刻第m个LSTM单元的遗忘门门控信号fm,t与t-1时刻第m个LSTM单元的隐藏信息hm,t-1之间的权重,/>表示t时刻第m个LSTM单元的遗忘门门控信号fm,t与t-1时刻第m个LSTM单元的细胞信息cm,t-1之间的权重,/>表示t时刻第m个LSTM单元遗忘门门控信号fm,t的偏置,⊙表示点乘操作,tanh(·)表示tanh激活函数,/>表示t时刻第m个LSTM单元的细胞信息cm,t与t时刻第m个LSTM单元的输入向量xm,t之间的权重,/>表示t时刻第m个LSTM单元的细胞信息cm,t与t-1时刻第m个LSTM单元的隐藏信息hm,t-1之间的权重,/>表示t时刻第m个LSTM单元细胞信息cm,t的偏置,om,t表示t时刻第m个LSTM单元的输出门门控信号,/>表示t时刻第m个LSTM单元的输出门门控信号om,t与t时刻第m个LSTM单元的输入向量xm,t之间的权重,/>表示t时刻第m个LSTM单元的输出门门控信号om,t与t-1时刻第m个LSTM单元的隐藏信息hm,t-1之间的权重,/>表示t时刻第m个LSTM单元的输出门门控信号om,t与t-1时刻第m个LSTM单元的细胞信息cm,t-1之间的权重,/>表示t时刻第m个LSTM单元输出门门控信号om,t的偏置;
所述sigmoid激活函数和tanh激活函数的公式如下:
其中,x表示激活函数的输入,e(·)表示以自然常数e为底数的指数操作。
3.根据权利要求1所述的基于动态信息的人物交互行为识别方法,其特征在于,步骤(6)中所述的梯度下降法的步骤如下:
第一步,将人物交互行为识别网络的学习率设置为0.001;
第二步,将输入训练人物交互行为识别网络时训练集中当前视频经时序特征提取模块的输出值与该视频图像的类别标签值的差值作为当前迭代更新的梯度值;
第三步,利用下式,更新迭代人物交互行为识别网络的各层参数:
其中,表示迭代更新后的人物交互行为识别网络的参数值,←表示赋值操作,θ表示人物交互行为识别网络迭代更新前的参数值,/>表示人物交互行为识别网络的当前迭代更新的梯度值;
第四步,判断当前迭代更新的梯度值是否收敛,若是,则停止对参数的迭代更新,得到训练好的人物交互行为识别网络,否则,将当前视频图像的下一个视频图像作为当前视频图像后执行第二步。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011087925.6A CN112149616B (zh) | 2020-10-13 | 2020-10-13 | 基于动态信息的人物交互行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011087925.6A CN112149616B (zh) | 2020-10-13 | 2020-10-13 | 基于动态信息的人物交互行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112149616A CN112149616A (zh) | 2020-12-29 |
CN112149616B true CN112149616B (zh) | 2023-10-20 |
Family
ID=73953143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011087925.6A Active CN112149616B (zh) | 2020-10-13 | 2020-10-13 | 基于动态信息的人物交互行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112149616B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800854A (zh) * | 2021-01-04 | 2021-05-14 | 中南大学 | 一种基于图像的机车乘务员作业自动分析*** |
CN112381072B (zh) * | 2021-01-11 | 2021-05-25 | 西南交通大学 | 一种基于时空信息及人、物交互的人体异常行为检测方法 |
CN113065451B (zh) * | 2021-03-29 | 2022-08-09 | 四川翼飞视科技有限公司 | 一种多模态融合的动作识别装置、方法和存储介质 |
CN113378676A (zh) * | 2021-06-01 | 2021-09-10 | 上海大学 | 基于多特征融合的图像中人物交互检测方法 |
CN116226702B (zh) * | 2022-09-09 | 2024-04-26 | 武汉中数医疗科技有限公司 | 一种基于生物电阻抗的甲状腺采样数据识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919085A (zh) * | 2019-03-06 | 2019-06-21 | 西安电子科技大学 | 基于轻量型卷积神经网络的人人交互行为识别方法 |
CN110223324A (zh) * | 2019-06-05 | 2019-09-10 | 东华大学 | 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法 |
CN110490906A (zh) * | 2019-08-20 | 2019-11-22 | 南京邮电大学 | 一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法 |
CN110532861A (zh) * | 2019-07-18 | 2019-12-03 | 西安电子科技大学 | 基于骨架引导多模态融合神经网络的行为识别方法 |
CN110765956A (zh) * | 2019-10-28 | 2020-02-07 | 西安电子科技大学 | 基于部件特征的双人交互行为识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10957053B2 (en) * | 2018-10-18 | 2021-03-23 | Deepnorth Inc. | Multi-object tracking using online metric learning with long short-term memory |
-
2020
- 2020-10-13 CN CN202011087925.6A patent/CN112149616B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919085A (zh) * | 2019-03-06 | 2019-06-21 | 西安电子科技大学 | 基于轻量型卷积神经网络的人人交互行为识别方法 |
CN110223324A (zh) * | 2019-06-05 | 2019-09-10 | 东华大学 | 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法 |
CN110532861A (zh) * | 2019-07-18 | 2019-12-03 | 西安电子科技大学 | 基于骨架引导多模态融合神经网络的行为识别方法 |
CN110490906A (zh) * | 2019-08-20 | 2019-11-22 | 南京邮电大学 | 一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法 |
CN110765956A (zh) * | 2019-10-28 | 2020-02-07 | 西安电子科技大学 | 基于部件特征的双人交互行为识别方法 |
Non-Patent Citations (2)
Title |
---|
姬晓飞 ; 谢旋 ; 任艳 ; .深度学习的双人交互行为识别与预测算法研究.智能***学报.2019,(第03期),全文. * |
张博言 ; 钟勇 ; 李振东 ; .基于动态模式和卷积特征的单目标跟踪算法.西北工业大学学报.2019,(第06期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN112149616A (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112149616B (zh) | 基于动态信息的人物交互行为识别方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN110119703B (zh) | 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法 | |
CN108537136B (zh) | 基于姿态归一化图像生成的行人重识别方法 | |
CN111814661B (zh) | 基于残差-循环神经网络的人体行为识别方法 | |
CN108764050B (zh) | 基于角度无关性的骨架行为识别方法、***及设备 | |
CN110852316B (zh) | 一种采用密集结构卷积网络的图像篡改检测和定位方法 | |
CN105678284B (zh) | 一种固定位人体行为分析方法 | |
CN111259850A (zh) | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 | |
CN108875708A (zh) | 基于视频的行为分析方法、装置、设备、***及存储介质 | |
CN111611874B (zh) | 基于ResNet和Canny的人脸口罩佩戴检测方法 | |
CN113011357B (zh) | 基于时空融合的深度伪造人脸视频定位方法 | |
CN108090447A (zh) | 双分支深层结构下的高光谱图像分类方法及装置 | |
CN110097029B (zh) | 基于Highway网络多视角步态识别的身份认证方法 | |
CN108985200A (zh) | 一种基于终端设备的非配合式的活体检测算法 | |
CN112926522B (zh) | 一种基于骨骼姿态与时空图卷积网络的行为识别方法 | |
CN112070010B (zh) | 一种联合多损失动态训练策略增强局部特征学习的行人重识别方法 | |
CN112364974B (zh) | 一种基于激活函数改进的YOLOv3算法 | |
CN112329771A (zh) | 一种基于深度学习的建筑材料样本识别方法 | |
CN111310720A (zh) | 基于图度量学习的行人重识别方法及*** | |
Putra et al. | The performance of Siamese neural network for face recognition using different activation functions | |
CN116682178A (zh) | 密集场景下的多人姿态检测方法 | |
CN115565146A (zh) | 基于自编码器获取鸟瞰图特征的感知模型训练方法及*** | |
CN109460485A (zh) | 一种图像库建立方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |