CN108509880A - 一种视频人物行为语义识别方法 - Google Patents
一种视频人物行为语义识别方法 Download PDFInfo
- Publication number
- CN108509880A CN108509880A CN201810236363.3A CN201810236363A CN108509880A CN 108509880 A CN108509880 A CN 108509880A CN 201810236363 A CN201810236363 A CN 201810236363A CN 108509880 A CN108509880 A CN 108509880A
- Authority
- CN
- China
- Prior art keywords
- video
- personage
- feature
- behavior
- lstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种视频人物行为语义识别方法,该方法以识别视频中的人物行为语义与社交关系为目标,首先利用卷积神经网络并行地抽取每个视频场景中的人物身份、人物行为和上下文三个方面的中层语义特征,接着通过两层循环神经网络来融合这三个方面的语义信息,最后完成视频中人物行为语义的识别,该方法有效的弥补的了视频场景的底层特征与高层语义之间的鸿沟,提取了全方位的视频特征包括人物脸部特征、人物行为特征以及上下文特征,提高了语义识别的准确率。本发明通过建立底层特征和高层语义之间的中层特征解决了低层特征对真实场景下的复杂行为建模困难的问题,能够达到解决底层特征与高层语义之间的鸿沟的目的。
Description
技术领域
本发明涉及机器学习,主要是通过底层特征到高层语义的转化方法来完成视频场景高层语义识别过程,属于深度学习、模式识别、视频信息处理等交叉技术应用领域。
背景技术
视频语义分析就是对视频中有序的帧图像进行语义分析。由于一段视频中可能包含多个场景,而这些场景又是由一组有序的帧图像组成。为了更好地分析视频语义,需要对视频进行预处理,包括把视频中的内容按某种方式进行镜头分割并场景化。首先,将通过镜头检测和寻找镜头转化的方法对视频进行分割。其次,将找出镜头中的关键帧集,并通过计算所有镜头的关键帧图像之间的相似度来进行聚类。然后,在视频场景化的基础上,研究视频中人物语义。
视频人物语义分析往往是以研究视频中的人物行为语义为中心,同时辅助视频中除人物以外的事物所构成的上下文环境对象的语义来提高分析人物语义信息的准确性。目前视频语义分析一般都是通过学习图像特征这种方法,图像的特征表示方法主要分为两类:低层特征和中层特征。低层特征是基于视频的像素经由各种变换而来的,没有语义含义。
发明内容
技术问题:本发明的目的是提供一种视频人物行为语义识别方法,主要解决了语义识别问题,是指怎样完成底层特征向高层语义的转化,达到解决底层特征与高层语义之间的鸿沟的目的。这里的底层特征向高层语义转化的方法具体描述如下:底层特征提取、中层特征融合、长短期记忆网络(LSTM)识别。首先,通过卷积神经网络(CNN)、采样与全连接操作来完成中层语义特征抽取与融合;然后,通过LSTM对融合的中层语义进行序列建模来完成语义的识别。
技术方案:本发明解决了中层特征语义提取问题,利用CNN完成人物、上下文以及动作的特征提取。
本发明解决了高层语义识别问题,主要是利用基于LSTM的语义序列模型来完成视频序列的人物语义识别。
本发明所述一种基于深度学习视频场景语义识别方法包括以下步骤:
步骤1):对视频图像底层特征描述与提取,具体步骤如下:
步骤1.1):人物身份底层特征描述与提取,通过对视频场景中人物的人脸进行检测和预处理来描述人物身份底层特征。其中人脸检测是基于局部二值直方图人脸检测器实现的,预处理是在检测之后需要对人脸图像进行灰度化、缩小和均衡化处理。
步骤1.2):人物行为底层特征描述与提取,通过融合视频场景中人物图像序列的时空特征。所述时空特征是指通过原视频帧以及视频帧之间的光流图片获取的人物行为轨迹特征。
步骤1.3):上下文底层特征描述与提取,通过提取从场景所发生的上下文环境和场景里面出现的一些物体的特征。
步骤2):基于预训练的CNN的中层语义特征提取,具体步骤如下:
步骤2.1):人物身份中层特征提取,在人物脸部数据集上完成卷积神经网络的训练。运用预先训练好的卷积神经网络结构的全连接层的特征向量作为人物身份中层特征。
步骤2.2):人物行为中层特征提取,在两个卷积神经网络融合来识别视频中的人物行为。运用训练好的融合神经网络的全连接层的特征向量作为视频中人物行为中层特征。
步骤2.3):上下文中层特征提取,将数据集ImageNet作为实验数据完成卷积神经网络的训练。运用预先训练好的卷积神经网络结构的全连接层的特征向量作为上下文中层特征。
步骤3):基于LSTM的视频人物行为语义识别,具体步骤如下:
步骤3.1):建立基于LSTM的视频人物行为语义识别模型,模型由两层LSTM组成,第一层LSTM用于接收视频语义特征序列并对其进行编码,第二层LSTM用第一层的编码结果作为输入并对其解码输出语义描述句子。
步骤3.2):基于LSTM的语义序列识别,首先将基于CNN提取出来的人物身份、人物行为和上下文语义特征向量作为输入,通过第一层LSTM进行编码,得到一个固定长度的输出向量;接着把第一层的输出向量作为输入,通过第二层LSTM进行解码,得到对视频序列语义的描述语句。本节的第一层和第二层共用一个LSTM,这样可以在编码与解码阶段共享参数,减少训练的复杂度。
步骤4):融合提取的人物身份特征、人物行为特征以及上下文特征,将融合后的特征输入到基于LSTM的视频语义识别模型中,进行视频语义识别。
作为本发明所述的一种基于深度学习视频场景语义识别方法进一步优化方案,步骤1.2)中所述时空特征为原视频帧以及视频帧之间的光流图片获取的人物行为轨迹特征。
作为本发明所述的一种基于深度学习视频场景语义识别方法进一步优化方案,步骤2.3)中卷积神经网络的训练是利用数据集ImageNet作为实验数据来完成。
作为本发明所述的一种基于深度学习视频场景语义识别方法进一步优化方案,步骤3.2)中所述的模型由两层LSTM组成,第一层和第二层共用一个LSTM,这样可以在编码与解码阶段共享参数,减少训练的复杂度。
有益效果:本发明提出的一种视频人物行为语义识别方法,是一种基于深度学习视频场景语义识别方法,其效果具体如下:
(1)本发明提供一种视频中层特征的方法,有效的弥补的了视频场景的底层特征与高层语义之间的鸿沟。
(2)本发明中所述的方法提取了全方位的视频特征包括人物脸部特征、人物行为特征以及上下文特征,提高了语义识别的准确率。
(3)本发明中所述基于LSTM的双层视频场景语义识别模型是一个端对端的模型,提高了长周期视频的语义识别的准确率。
附图说明
图1是视频场景语义提取方法的结构图。
图2是CNN-People架构提取特征图。
图3是D-CNNs-Activity架构提取特征图。
图4是CNN-Context架构提取特征。
具体实施方式
下面对本发明附图的某些实施例作更详细的描述。
根据附图1,本发明具体实施方式为:
1)视频图像底层特征描述与提取,具体步骤如下:
1.1)人物身份底层特征描述与提取,通过对视频场景中人物的人脸进行检测和预处理来描述人物身份底层特征。其中人脸检测是基于局部二值直方图(Local BinaryPatterns Histograms,LBPH)人脸检测器实现的,在检测之后对人脸图像进行灰度化、缩小和均衡化处理。经过上述预处理,利用LBPH人脸检测器得到人脸图像的二维特征向量,完成人物身份的底层特征描述与提取。运用OpenCV3提供的人脸检测接口来进行人脸检测与提取,抽取出视频场景中的人物语义输入
1.2)人物行为底层特征描述与提取,通过融合视频场景中人物图像序列的空间和时空特征。接着运用OpenCV3中goodFeaturesToTrack()函数,得到图像中的强边界作为跟踪的特征点。接着运用图像金字塔光流方法函数calcOpticalFlowPyrL(),对输入两幅连续的图像进行处理,在第一幅图像里选择一组特征点,输出为这组点在下一幅图像中的位置。再把得到的跟踪结果过滤一下,去掉不好特征点,将人物的动作轨迹标记出来,完成人物行为抽取出视频场景中的人物行为语义
1.3)上下文底层特征描述与提取,提取特征的目标是上下文环境和场景里面出现的一些物体。物体特征采用4,096-D DeCAF通用视觉特征,对于地点特征,采用多个预先训练好的上下文检测器来提取场景中的地点特征,组成一个集合作为提取的上下文特征表示,完成抽取出视频场景中的上下文语义
2)基于预训练的CNN的中层语义特征提取,具体步骤如下:
2.1)人物身份中层特征提取,在数据集Olivetti Faces上完成CNN-People的训练,CNN-People结构如图2所示。CNN-People模型有两个卷积与子采样层。全连接层相当于多层感知机中的隐含层。输出层即分类器,采用多类别的逻辑回归。总体上我们使用串联结构来组建CNN模型,上一层的输出接下一层的输入。用预先训练好的CNN-People,前向传播的fc7层的4096特征向量作为人物身份中层特征。
2.2)人物行为中层特征提取,双层卷积神经网络将两个卷积神经网络融合来识别视频中的人物行为。本节具体的是先分别对单帧图像和多帧的运动信息(光流)分别构建2个CNN网络,然后在分数层上对2种网络的输出作卷积融合。通过在数据集UCF101上前馈与反向传播来调优参数,完成双层卷积神经网络的训练。用训练好的D-CNNs-Activity网络,对视频场景中的图像进行训练,输出fc7全连接层的特征向量作为视频中人物行为中层特征。D-CNNs-Activity网络结构如图3所示。
2.3)上下文中层特征提取,选择数据集ImageNet作为实验数据,对于数据集中得到的图像我们通过13)节中介绍的方法进行预处理得到上下文的底层特征描述。接着使用手写字识别模型LeNet的网络来训练数据集ImageNet,将训练好的CNN-Context网络前向传播的fc7层的4096特征向量作为上下文中层特征。所述CNN-Context如图4所示。
3)基于LSTM的视频人物行为语义识别,具体步骤如下:
3.1)建立基于LSTM的语义序列建模,该模型由两层LSTM组成,第一层LSTM用于接收视频语义特征序列并对其进行编码,第二层LSTM用第一层的编码结果作为输入并对其解码输出语义描述句子。该模型主要分层两个阶段:编码阶段和解码阶段,如图4。
3.2)基于LSTM的语义序列识别,两层LSTM模型的每一层都有1000个隐型单元用于记录编码信息。在开始的几个时间点上,第一层的LSTM对两部分输入进行编码,第一部分是把经过CNN提取的人物身份、人物行为和上下文的中层语义特征作为输入,通过LSTM模块内部的四个交互过程进行计算而得到的隐含层输出信息Ht,第二部分是空填充的输入语义词语描述<pad>。在对第一层LSTM进行编码的时候没有损失。在当所有的视频序列的中层语义特征都输入完毕时,开始进行解码工作。第二层LSTM解码的时候也是两部分输入,一部分是第一层编码输出的隐含层信息Ht;由于没有了输入序列的中层语义特征,第二部分是空填充的输入语义词语描述<pad>。在编码的第一个时间点上,加入了一个<BOS>标志,用于标识开始解码工作。训练解码方法是根据前面的一个词汇输出描述和前一个时刻的隐含层输出信息Ht,最大化预测输出语句的对数似然。最终,根据第一层LSTM的隐含层的输出信息Zt作为条件,通过运用Softmax函数来计算每一个词汇在词汇集S上的分布,整个解码的训练过程中,LSTM根据结束标志<EOS>来动态结束训练,达到动态控制输出语义描述语句的长度。
4)融合提取的人物身份特征、人物行为特征以及上下文特征,将融合后的特征输入到基于LSTM的视频语义识别模型中,进行视频语义识别。在2层LSTM模型中,采用浅层融合技术来合成人物身份、人物行为、上下文特征。在解码阶段的每一个时间步长上,LSTM模型提供候选的词语集合。然后通过重新计算这些假设的评分,具体是按照一定的权重来累加人物身份、人物行为、上下文网络得到的评分,如公式P(yt=y′)=α*Pp(yt=y′)+β*Pa(yt=y′)+γ*Pc(yt=y′)所示,其中yt=y'代表选取y'这个时间步长,P(yt=y')代表y'这个时间点的视频人物行为语义的概率评分,Pp(yt=y')代表在y'这个时间点的人物身份的概率评分,Pa(yt=y')代表在y'这个时间点的人物行为的概率评分,Pc(yt=y')代表在y'这个时间点的上下文的概率评分。其中α+β+γ=1,以上三个参数初始值为1/3,并在数据集上,通过LSTM建模过程动态调谐。
Claims (7)
1.一种视频人物行为语义识别方法,其特征在于,该方法是一种基于深度学习的视频场景语义识别方法,包括以下步骤:
步骤1):对视频图像底层特征描述与提取:包括人物身份底层特征描述与提取,人物行为底层特征描述与提取,上下文底层特征描述与提取;
步骤2):基于预训练的卷积神经网络CNN的中层语义特征提取:包括人物身份中层特征提取,人物行为中层特征提取,上下文中层特征提取;
步骤3):基于长短期记忆网络LSTM的视频人物行为语义识别:包括建立基于LSTM的视频人物行为语义识别模型,基于LSTM的语义序列识别;
步骤4):融合提取的人物身份特征、人物行为特征以及上下文特征,将融合后的特征输入到基于LSTM的视频语义识别模型中,进行视频语义识别。
2.根据权利要求1所述的一种视频人物行为语义识别方法,其特征在于,在步骤1)中,对视频图像底层特征描述与提取具体步骤如下:
步骤1.1):人物身份底层特征描述与提取:对视频场景中人物的人脸进行检测和预处理来描述人物身份底层特征;其中人脸检测是基于局部二值直方图人脸检测器实现的,预处理是在检测之后需要对人脸图像进行灰度化、缩小和均衡化处理;
步骤1.2):人物行为底层特征描述与提取:融合视频场景中人物图像序列的时空特征;
步骤1.3):上下文底层特征描述与提取:提取从场景所发生的上下文环境和场景里面出现的一些物体的特征。
3.根据权利要求2所述的一种视频人物行为语义识别方法,其特征在于,步骤1.2)中所述时空特征是指通过原视频帧以及视频帧之间的光流图片获取的人物行为轨迹特征。
4.根据权利要求1所述的一种视频人物行为语义识别方法,其特征在于,步骤2)中基于预训练的CNN的中层语义特征提取,具体步骤如下:
步骤2.1):人物身份中层特征提取:在人物脸部数据集上完成卷积神经网络的训练,运用预先训练好的卷积神经网络结构的全连接层的特征向量作为人物身份中层特征;
步骤2.2):人物行为中层特征提取:在两个卷积神经网络融合来识别视频中的人物行为,运用训练好的融合神经网络的全连接层的特征向量作为视频中人物行为中层特征;
步骤2.3):上下文中层特征提取:运用预先训练好的卷积神经网络结构的全连接层的特征向量作为上下文中层特征。
5.根据权利要求4所述的一种视频人物行为语义识别方法,其特征在于,步骤2.3)中卷积神经网络的训练是利用数据集ImageNet作为实验数据来完成。
6.根据权利要求1所述的一种视频人物行为语义识别方法,其特征在于,步骤3)中基于LSTM的视频人物行为语义识别,具体步骤如下:
步骤3.1):建立基于LSTM的视频人物行为语义识别模型,模型由两层LSTM组成,第一层LSTM用于接收视频语义特征序列并对其进行编码,第二层LSTM用第一层的编码结果作为输入并对其解码输出语义描述句子;
步骤3.2):基于LSTM的语义序列识别,首先将基于CNN提取出来的人物身份、人物行为和上下文语义特征向量作为输入,通过第一层LSTM进行编码,得到一个固定长度的输出向量;接着把第一层的输出向量作为输入,通过第二层LSTM进行解码,得到对视频序列语义的描述语句。
7.根据权利要求6所述的一种视频人物行为语义识别方法,其特征在于,步骤3.2)中所述的模型由两层LSTM组成,第一层和第二层共用一个LSTM,这样可以在编码与解码阶段共享参数,减少训练的复杂度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810236363.3A CN108509880A (zh) | 2018-03-21 | 2018-03-21 | 一种视频人物行为语义识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810236363.3A CN108509880A (zh) | 2018-03-21 | 2018-03-21 | 一种视频人物行为语义识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108509880A true CN108509880A (zh) | 2018-09-07 |
Family
ID=63377957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810236363.3A Pending CN108509880A (zh) | 2018-03-21 | 2018-03-21 | 一种视频人物行为语义识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108509880A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409297A (zh) * | 2018-10-30 | 2019-03-01 | 咪付(广西)网络技术有限公司 | 一种基于双通道卷积神经网络的身份识别方法 |
CN109740419A (zh) * | 2018-11-22 | 2019-05-10 | 东南大学 | 一种基于Attention-LSTM网络的视频行为识别方法 |
CN109815785A (zh) * | 2018-12-05 | 2019-05-28 | 四川大学 | 一种基于双流卷积神经网络的人脸情绪识别方法 |
CN109902565A (zh) * | 2019-01-21 | 2019-06-18 | 深圳市烨嘉为技术有限公司 | 多特征融合的人体行为识别方法 |
CN109977970A (zh) * | 2019-03-27 | 2019-07-05 | 浙江水利水电学院 | 基于图像显著性检测的水工复杂场景下人物识别方法 |
CN110060264A (zh) * | 2019-04-30 | 2019-07-26 | 北京市商汤科技开发有限公司 | 神经网络训练方法、视频帧处理方法、装置及*** |
CN110084259A (zh) * | 2019-01-10 | 2019-08-02 | 谢飞 | 一种结合面部纹理和光流特征的面瘫分级综合评估*** |
CN110163876A (zh) * | 2019-05-24 | 2019-08-23 | 山东师范大学 | 基于多特征融合的左心室分割方法、***、设备及介质 |
CN110245603A (zh) * | 2019-06-12 | 2019-09-17 | 成都信息工程大学 | 一种群体异常行为实时检测方法 |
CN110674761A (zh) * | 2019-09-27 | 2020-01-10 | 三星电子(中国)研发中心 | 一种区域行为预警方法及*** |
CN111340006A (zh) * | 2020-04-16 | 2020-06-26 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法及*** |
CN111428593A (zh) * | 2020-03-12 | 2020-07-17 | 北京三快在线科技有限公司 | 一种文字识别方法、装置、电子设备及存储介质 |
CN111460933A (zh) * | 2020-03-18 | 2020-07-28 | 哈尔滨拓博科技有限公司 | 一种实时识别连续手写图形的方法 |
WO2020151247A1 (zh) * | 2019-01-23 | 2020-07-30 | 华为技术有限公司 | 图像分析方法以及*** |
CN111523378A (zh) * | 2020-03-11 | 2020-08-11 | 浙江工业大学 | 一种基于深度学习的人体行为预测方法 |
CN112699730A (zh) * | 2020-12-01 | 2021-04-23 | 贵州电网有限责任公司 | 一种基于yolo及卷积-循环网络的机房人物重识别方法 |
CN112975964A (zh) * | 2021-02-23 | 2021-06-18 | 青岛海科虚拟现实研究院 | 基于大数据的机器人自动控制方法、控制***、机器人 |
CN113312942A (zh) * | 2020-02-27 | 2021-08-27 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及设备和融合网络架构 |
CN113449801A (zh) * | 2021-07-08 | 2021-09-28 | 西安交通大学 | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 |
CN113646800A (zh) * | 2018-09-27 | 2021-11-12 | 株式会社OPTiM | 物体状况判断***、物体状况判断方法以及程序 |
CN113642482A (zh) * | 2021-08-18 | 2021-11-12 | 西北工业大学 | 一种基于视频时空上下文的视频人物关系分析方法 |
CN113744524A (zh) * | 2021-08-16 | 2021-12-03 | 武汉理工大学 | 一种基于车辆间协同计算通信的行人意图预测方法及*** |
CN113779303A (zh) * | 2021-11-12 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 视频集合的索引方法、装置和存储介质及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103824051A (zh) * | 2014-02-17 | 2014-05-28 | 北京旷视科技有限公司 | 一种基于局部区域匹配的人脸搜索方法 |
CN104021381A (zh) * | 2014-06-19 | 2014-09-03 | 天津大学 | 一种基于多层级特征的人体动作识别方法 |
US20150066496A1 (en) * | 2013-09-02 | 2015-03-05 | Microsoft Corporation | Assignment of semantic labels to a sequence of words using neural network architectures |
CN106845351A (zh) * | 2016-05-13 | 2017-06-13 | 苏州大学 | 一种用于视频的基于双向长短时记忆单元的行为识别方法 |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN107256221A (zh) * | 2017-04-26 | 2017-10-17 | 苏州大学 | 基于多特征融合的视频描述方法 |
US20170337271A1 (en) * | 2016-05-17 | 2017-11-23 | Intel Corporation | Visual search and retrieval using semantic information |
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
-
2018
- 2018-03-21 CN CN201810236363.3A patent/CN108509880A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150066496A1 (en) * | 2013-09-02 | 2015-03-05 | Microsoft Corporation | Assignment of semantic labels to a sequence of words using neural network architectures |
CN103824051A (zh) * | 2014-02-17 | 2014-05-28 | 北京旷视科技有限公司 | 一种基于局部区域匹配的人脸搜索方法 |
CN104021381A (zh) * | 2014-06-19 | 2014-09-03 | 天津大学 | 一种基于多层级特征的人体动作识别方法 |
CN106845351A (zh) * | 2016-05-13 | 2017-06-13 | 苏州大学 | 一种用于视频的基于双向长短时记忆单元的行为识别方法 |
US20170337271A1 (en) * | 2016-05-17 | 2017-11-23 | Intel Corporation | Visual search and retrieval using semantic information |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN107256221A (zh) * | 2017-04-26 | 2017-10-17 | 苏州大学 | 基于多特征融合的视频描述方法 |
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
Non-Patent Citations (1)
Title |
---|
高翔: "基于视频深度学习的人物行为分析与社交关系识别", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113646800A (zh) * | 2018-09-27 | 2021-11-12 | 株式会社OPTiM | 物体状况判断***、物体状况判断方法以及程序 |
CN109409297B (zh) * | 2018-10-30 | 2021-11-23 | 咪付(广西)网络技术有限公司 | 一种基于双通道卷积神经网络的身份识别方法 |
CN109409297A (zh) * | 2018-10-30 | 2019-03-01 | 咪付(广西)网络技术有限公司 | 一种基于双通道卷积神经网络的身份识别方法 |
CN109740419A (zh) * | 2018-11-22 | 2019-05-10 | 东南大学 | 一种基于Attention-LSTM网络的视频行为识别方法 |
CN109815785A (zh) * | 2018-12-05 | 2019-05-28 | 四川大学 | 一种基于双流卷积神经网络的人脸情绪识别方法 |
CN110084259A (zh) * | 2019-01-10 | 2019-08-02 | 谢飞 | 一种结合面部纹理和光流特征的面瘫分级综合评估*** |
CN110084259B (zh) * | 2019-01-10 | 2022-09-20 | 谢飞 | 一种结合面部纹理和光流特征的面瘫分级综合评估*** |
CN109902565A (zh) * | 2019-01-21 | 2019-06-18 | 深圳市烨嘉为技术有限公司 | 多特征融合的人体行为识别方法 |
WO2020151247A1 (zh) * | 2019-01-23 | 2020-07-30 | 华为技术有限公司 | 图像分析方法以及*** |
CN109977970A (zh) * | 2019-03-27 | 2019-07-05 | 浙江水利水电学院 | 基于图像显著性检测的水工复杂场景下人物识别方法 |
CN110060264A (zh) * | 2019-04-30 | 2019-07-26 | 北京市商汤科技开发有限公司 | 神经网络训练方法、视频帧处理方法、装置及*** |
CN110060264B (zh) * | 2019-04-30 | 2021-03-23 | 北京市商汤科技开发有限公司 | 神经网络训练方法、视频帧处理方法、装置及*** |
CN110163876B (zh) * | 2019-05-24 | 2021-08-17 | 山东师范大学 | 基于多特征融合的左心室分割方法、***、设备及介质 |
CN110163876A (zh) * | 2019-05-24 | 2019-08-23 | 山东师范大学 | 基于多特征融合的左心室分割方法、***、设备及介质 |
CN110245603A (zh) * | 2019-06-12 | 2019-09-17 | 成都信息工程大学 | 一种群体异常行为实时检测方法 |
CN110674761A (zh) * | 2019-09-27 | 2020-01-10 | 三星电子(中国)研发中心 | 一种区域行为预警方法及*** |
CN113312942A (zh) * | 2020-02-27 | 2021-08-27 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及设备和融合网络架构 |
CN113312942B (zh) * | 2020-02-27 | 2024-05-17 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及设备和融合网络架构*** |
CN111523378A (zh) * | 2020-03-11 | 2020-08-11 | 浙江工业大学 | 一种基于深度学习的人体行为预测方法 |
CN111428593A (zh) * | 2020-03-12 | 2020-07-17 | 北京三快在线科技有限公司 | 一种文字识别方法、装置、电子设备及存储介质 |
CN111460933A (zh) * | 2020-03-18 | 2020-07-28 | 哈尔滨拓博科技有限公司 | 一种实时识别连续手写图形的方法 |
CN111460933B (zh) * | 2020-03-18 | 2022-08-09 | 哈尔滨拓博科技有限公司 | 一种实时识别连续手写图形的方法 |
CN111340006A (zh) * | 2020-04-16 | 2020-06-26 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法及*** |
CN111340006B (zh) * | 2020-04-16 | 2024-06-11 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法及*** |
CN112699730A (zh) * | 2020-12-01 | 2021-04-23 | 贵州电网有限责任公司 | 一种基于yolo及卷积-循环网络的机房人物重识别方法 |
CN112975964B (zh) * | 2021-02-23 | 2022-04-01 | 青岛海科虚拟现实研究院 | 基于大数据的机器人自动控制方法、控制***、机器人 |
CN112975964A (zh) * | 2021-02-23 | 2021-06-18 | 青岛海科虚拟现实研究院 | 基于大数据的机器人自动控制方法、控制***、机器人 |
CN113449801B (zh) * | 2021-07-08 | 2023-05-02 | 西安交通大学 | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 |
CN113449801A (zh) * | 2021-07-08 | 2021-09-28 | 西安交通大学 | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 |
CN113744524A (zh) * | 2021-08-16 | 2021-12-03 | 武汉理工大学 | 一种基于车辆间协同计算通信的行人意图预测方法及*** |
CN113642482A (zh) * | 2021-08-18 | 2021-11-12 | 西北工业大学 | 一种基于视频时空上下文的视频人物关系分析方法 |
CN113642482B (zh) * | 2021-08-18 | 2024-02-02 | 西北工业大学 | 一种基于视频时空上下文的视频人物关系分析方法 |
CN113779303A (zh) * | 2021-11-12 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 视频集合的索引方法、装置和存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509880A (zh) | 一种视频人物行为语义识别方法 | |
CN110427867B (zh) | 基于残差注意力机制的面部表情识别方法及*** | |
CN109919031B (zh) | 一种基于深度神经网络的人体行为识别方法 | |
CN110110624B (zh) | 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法 | |
CN111523534B (zh) | 一种图像描述的方法 | |
CN109255284B (zh) | 一种基于运动轨迹的3d卷积神经网络的行为识别方法 | |
CN111144448A (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
CN109509192A (zh) | 融合多尺度特征空间与语义空间的语义分割网络 | |
CN108921032B (zh) | 一种新的基于深度学习模型的视频语义提取方法 | |
CN115223082A (zh) | 一种基于时空多尺度Transformer的航拍视频分类方法 | |
CN109214285A (zh) | 基于深度卷积神经网络与长短期记忆网络的摔倒检测方法 | |
CN113239801B (zh) | 基于多尺度特征学习和多级域对齐的跨域动作识别方法 | |
CN110765839B (zh) | 可见光面部图像的多路信息融合及人工智能情绪监测方法 | |
CN110232564A (zh) | 一种基于多模态数据的交通事故法律自动决策方法 | |
CN111914731A (zh) | 一种基于自注意力机制的多模态lstm的视频动作预测方法 | |
CN115147459A (zh) | 基于Swin Transformer的无人机目标跟踪方法 | |
Huang et al. | Spatial–temporal context-aware online action detection and prediction | |
CN112733764A (zh) | 一种基于多模态识别视频情感信息的方法 | |
CN116645694A (zh) | 基于动态自进化信息抽取和对齐的文本-目标检索方法 | |
Çaylı et al. | Auxiliary classifier based residual rnn for image captioning | |
CN114821770A (zh) | 文本到图像的跨模态行人再识别方法、***、介质和设备 | |
Mullick et al. | Learning deep and compact models for gesture recognition | |
Li | Research on methods of english text detection and recognition based on neural network detection model | |
CN115171029B (zh) | 基于无人驾驶的城市场景下的实例分割方法及*** | |
CN113627218A (zh) | 基于视频数据的人物识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180907 |
|
RJ01 | Rejection of invention patent application after publication |