CN110348345B - 一种基于动作连贯性的弱监督时序动作定位方法 - Google Patents

一种基于动作连贯性的弱监督时序动作定位方法 Download PDF

Info

Publication number
CN110348345B
CN110348345B CN201910575033.1A CN201910575033A CN110348345B CN 110348345 B CN110348345 B CN 110348345B CN 201910575033 A CN201910575033 A CN 201910575033A CN 110348345 B CN110348345 B CN 110348345B
Authority
CN
China
Prior art keywords
action
rgb
regression
segments
optical flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910575033.1A
Other languages
English (en)
Other versions
CN110348345A (zh
Inventor
王乐
翟元浩
刘子熠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910575033.1A priority Critical patent/CN110348345B/zh
Publication of CN110348345A publication Critical patent/CN110348345A/zh
Application granted granted Critical
Publication of CN110348345B publication Critical patent/CN110348345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于机器视觉领域,公开了一种基于动作连贯性的弱监督时序动作定位方法,包括:将视频分为RGB帧和光流分别处理;对于每个动作模态,首先针对视频上的每个时间点,提出长度不同的假设的动作片段,然后根据视频的动作连贯性和分类准确率使用卷积神经网络回归动作片段。对于两个动作模态得到的不同动作片段,通过一个特性的模块进行结合,筛选出最终的动作定位结果。本发明在给定视频类别的情况下,可定位视频中属于该类别的动作片段。

Description

一种基于动作连贯性的弱监督时序动作定位方法
技术领域
本发明属于计算机视觉技术领域,涉及弱监督时序动作定位方法,特别涉及一种基于动作连贯性的弱监督时序动作定位方法。
背景技术
时序动作定位是一项重要的计算机视觉问题,它在抽象的视频理解任务,如事件检测、视频总结和视频问题回答等方向有着非常重要的应用。
目前大多数的时序动作定位方法需要精确的时间标注,需要消耗大量人力物力;同时,可能因动作的边界的模糊性使得该时间标注不准确。另外,目前的时序动作定位方法中,未将RGB和光流分别处理,忽略了RGB和光流本身的特征;最终片段得分仅由分类得分得出,忽视了RGB和光流本身的区别,且对分类神经网络依赖性大,很难得到最优结果。
综上,亟需一种新的弱监督时序动作定位方法。
发明内容
本发明的目的在于提供一种基于动作连贯性的弱监督时序动作定位方法,以解决上述存在的一个或多个技术问题。本发明中,将视频分为RGB和光流分别处理,分别提出可能的动作片段,然后筛选融合来提出最后的结果,能够得出较优的定位结果。
为达到上述目的,本发明采用以下技术方案:
一种基于动作连贯性的弱监督时序动作定位方法,包括以下步骤:
步骤1,将待处理视频分为多个不重合片段,获取每个片段的RGB特征和光流特征;
步骤2,对步骤1获得的RGB特征和光流特征分别进行动作片段回归处理,获得RGB动作片段和光流动作片段;所述动作片段回归处理包括:对于待处理视频的每个时间点,枚举不同预设长度的假想的动作片段,对于不同长度的动作片段使用预定的回归神经网络进行回归,回归神经网络使用动作连贯性损失函数进行训练,并获得动作片段;
步骤3,通过动作连贯性损失函数评价步骤2得到的RGB动作片段和光流动作片段的置信程度;使用非最大值抑制过滤掉重合度超过阈值的动作片段;
步骤4,回归神经网络训练结束后;经过一个无参数的融合模块,筛选融合RGB动作片段和光流动作片段,得到最后的定位结果。
本发明的进一步改进在于,步骤1具体包括:将待处理视频分为多个不重合片段;对每个片段平均取样,使用卷积神经网络提取取样帧的特征,将提取获得的特征作为该片段的表示;其中,分别对RGB和光流提取特征。
本发明的进一步改进在于,步骤2中,动作片段回归处理具体包括:对于假想长度为P的动作片段,使用下式进行回归:
Figure BDA0002111861980000021
Figure BDA0002111861980000022
式中,xs为开始边界的序号,xe为结束边界的序号,
Figure BDA0002111861980000023
为在开始边界位置回归的结果,
Figure BDA0002111861980000024
为在结束边界位置回归的结果,P为动作片段长度。
本发明的进一步改进在于,步骤3中,动作连贯性损失函数由两部分组成;
一部分用来表征动作片段特征与其上下文特征的余弦相似度;假设该动作片段与其上下文的特征分别用如下符号表示
Figure BDA0002111861980000025
其中F(u)为视频在时间点为u特征表示,这部分的计算表达式为:
Figure BDA0002111861980000026
另一部分用分类置信度来表征:
Figure BDA0002111861980000031
其中,S(k,u)表示在类别k下,片段u的分类置信度;对于动作片段[xs,xe],将其扩充到[Xs,Xe],其中
Figure BDA0002111861980000032
作为该片段的上下文信息;
动作连贯性损失函数的表达式为:
L=αLc+(1-α)(Lc-1)
其中,α为超参数,取值为0<α<1。
本发明的进一步改进在于,步骤4中,回归网络训练结束后,对于RGB和光流分别得到的动作片段,筛选融合步骤具体包括:
由RGB和光流得到的动作片段分别为
Figure BDA0002111861980000033
其中,Nr和Nf分别为RGB和光流动作片段数;
对于每个RGB的动作片段,计算其与光流片段的最大IoU,计算公式为:
Figure BDA0002111861980000034
最终的筛选融合结果,为所有光流动作片段和具有I(pr,j)小于预设阈值的RGB动作片段的组合。
本发明的进一步改进在于,最终的筛选融合结果,为所有光流动作片段和具有I(pr,j)<0.4的RGB动作片段的组合。
本发明的进一步改进在于,α设置为0.6。
本发明的进一步改进在于,步骤2中,将步骤1得到的RGB特征Rs输入到多个回归网络;每个回归网络由3层1D卷积神经网络构成,并指定了一个片段长度P;
回归网络的最后一层有2个大小为1的卷积核,其输出分别回归开始边界和结束边界。
本发明的进一步改进在于,回归网络的前两层由空洞卷积网络构成。
本发明的进一步改进在于,回归网络的前两层的空洞卷积的空洞设置为
Figure BDA0002111861980000035
与现有技术相比,本发明具有以下有益效果:
本发明中,将视频分为RGB和光流分别处理,分别提出可能的动作片段,然后筛选融合来提出最后的结果,减少了传统方法中由于直接处理RGB和光流拼接的特征可能带来的干扰,能够得到较优的定位结果。本发明中,两个动作模态的表示不同,分别处理更能挖掘不同动作模态的特点;本发明设计了一个筛选融合模块来结合两个不同动作模态的动作定位结果。本发明的方法基于视频动作的连贯性,提出了一种基于余弦相似度的损失函数,结合了动作片段特征与动作片段分类置信度,一定程度上避免了传统方法中仅根据动作片段分类置信度评估动作片段的局限性。本发明的方法,可在只知道视频中动作类别的条件下,定位视频中的动作片段。
进一步地,为了避免过拟合,回归网络的前两层由空洞卷积网络构成;为了保证有足够的上下文信息输入到网络,回归网络的感受野被设置成了P,设置方法为将回归网络的前两层的空洞卷积的空洞设置为
Figure BDA0002111861980000041
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于动作连贯性的弱监督时序动作定位方法的流程示意图;
图2是本发明实施例中,与历史实验结果在THUMOS14数据集上的测试结果对比示意图;
图3是本发明实施例中,与历史实验结果在ActivityNet数据集上的测试结果对比示意图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
请参阅图1,本发明的一种基于动作连贯性的弱监督时序动作定位方法,包括以下步骤:
步骤1:特征提取。将视频分为多个不重合的15帧片段,对每个片段取3帧,使用卷积神经网络提取特征,将该特征作为该片段的表示。并且分别对RGB和光流提取特征,作为下一步的输入。
步骤2:动作片段回归。该步骤对RGB和光流分别进行如下相同的处理。对于视频的每个时间点,枚举不同长度的假想的动作片段。对于所有相同长度的动作片段,使用同一个卷积神经网络进行回归。
具体来说,假设对于假想长度为P的动作片段,其开始与结束边界的序号分别为xs和xe,神经网络在该位置回归的结果分别为
Figure BDA0002111861980000051
Figure BDA0002111861980000052
使用下式进行回归:
Figure BDA0002111861980000053
Figure BDA0002111861980000054
式中,xs为开始边界的序号,xe为结束边界的序号,
Figure BDA0002111861980000055
为在开始边界位置回归的结果,
Figure BDA0002111861980000056
为在结束边界位置回归的结果,P为动作片段长度。
步骤3:动作片段评估。使用动作连贯性损失函数评价由步骤2得到的动作片段的置信程度。同时使用该损失函数训练回归神经网络。具体地说,该损失函数由两部分组成,一部分用来度量动作片段特征与其上下文特征的余弦相似度,另一部分度量该片段与其上下文分类置信度之差。
步骤4:动作片段筛选融合。回归神经网络训练结束后,经过一个无参数的融合模块,筛选融合RGB和光流分别得到的动作片段,得到最后的结果。
其中,步骤2具体包括:
其损失函数的计算过程为:首先,对于动作片段[xs,xe],我们将其扩充到[Xs,Xe],其中
Figure BDA0002111861980000061
作为该片段的上下文信息。本发明的损失函数由两部分组成,一部分用来表征动作片段特征与其上下文特征的余弦相似度:假设该动作片段与其上下文的特征分别用如下符号表示
Figure BDA0002111861980000062
其中F(u)为视频在时间点为u特征表示。这部分的计算方法为:
Figure BDA0002111861980000063
另一部分用分类置信度来表征:
Figure BDA0002111861980000064
其中S(k,u)表示在类别k下,片段u的分类置信度。
最终的损失函数为:
L=αLc+(1-α)(Lc-1)
其中,α为超参数,取值为0<α<1。
步骤4具体包括:回归网络训练结束后,对于RGB和光流分别得到的动作片段,本发明进行如下的筛选融合过程:假设由RGB和光流得到的动作片段分别为
Figure BDA0002111861980000065
其中,Nr和Nf分别为RGB和光流动作片段数。
对于每个RGB的动作片段,计算其与光流片段的最大IoU:
Figure BDA0002111861980000066
最终的筛选融合结果为所有光流的动作片段和具有I(pr,j)<0.4的RGB动作片段的组合。
综上,本发明将RGB和光流分别处理,减少了传统方法中由于直接处理RGB和光流拼接的特征可能带来的干扰。两个动作模态的表示不同,分别处理更能挖掘不同动作模态的特点。同时,本发明设计了一个筛选融合模块来结合两个不同动作模态的动作定位结果。本发明设计的动作连贯性损失函数,结合了动作片段特征与动作片段分类置信度,一定程度上避免了传统方法中仅根据动作片段分类置信度评估动作片段的局限性。
实施例
请参阅图1,本发明实施例的一种基于动作连贯性的弱监督时序动作定位方法,具体包括以下步骤:
步骤1:分别对RGB和光流进行如下处理:将视频分为不重合的15帧一个片段的集合,对于每一个片段,随机取3帧作为该片段的代表帧,然后使用Temporal SegmentNetwork对该3帧提取特征,取平均值后作为该片段的特征。
步骤2:以RGB为例(光流与RGB处理方法相同),将由步骤1中得到的RGB特征Rs输入到多个回归网络。每个回归网络由3层1D卷积神经网络构成,并指定了一个片段长度P。为了避免过拟合,回归网络的前两层由空洞卷积网络构成,有256个大小为3的卷积核。最后一层有2个大小为1的卷积核,其输出分别回归开始边界和结束边界。为了保证有足够的上下文信息输入到网络,回归网络的感受野被设置成了P。设置方法为将回归网络的前两层的空洞卷积的空洞设置为
Figure BDA0002111861980000071
对于长度为T的视频,对于其每个时序位置,我们首先初始化假想的动作片段为
Figure BDA0002111861980000072
其中xe,i-xs,i=P。然后由回归网络的回归结果
Figure BDA0002111861980000073
Figure BDA0002111861980000074
回归结果为
Figure BDA0002111861980000075
回归计算过程为:
Figure BDA0002111861980000076
Figure BDA0002111861980000077
步骤3:对于动作片段[xs,xe],我们将其扩充到[Xs,Xe],其中
Figure BDA0002111861980000078
作为该片段的上下文信息。为了评估动作片段,该发明定义了一个动作连贯性损失函数,该损失函数由两部分组成,一部分用来表征动作片段特征与其上下文特征的余弦相似度:假设该动作片段与其上下文的特征分别用如下符号表示
Figure BDA0002111861980000081
其中F(u)为视频在时间点为u特征表示。这部分的计算方法为:
Figure BDA0002111861980000082
另一部分用分类置信度来表征:
Figure BDA0002111861980000083
其中S(k,u)表示在类别k下,片段u的分类置信度。
最终的损失函数为:
L=αLc+(1-α)(Lc-1)
其中,α为超参数,在实际中设置为0.6。回归网络训练时,回归网络的损失函数值是所有动作片段损失函数值的平均值。在测试时,使用IoU为0.4的非极大值抑制移除冗余的动作片段。
步骤4:回归网络训练结束后,对于RGB和光流分别得到的动作片段,本发明进行如下的筛选融合过程:假设由RGB和光流得到的动作片段分别为
Figure BDA0002111861980000084
其中Nr和Nf分别为RGB和光流剩余动作片段数。对于每个RGB的动作片段,计算其与光流片段的最大IoU:
Figure BDA0002111861980000085
最终的筛选融合结果为所有光流的动作片段和具有I(pr,j)<0.4的RGB动作片段的组合。请参阅图2和图3,通过实验对比本发明与历史实验数据的改善效果。
参见图2,为本发明与历史实验数据在THUMOS14数据集上的测试结果。可以看到在所有IoU下,本发明所测得mAP都超过了历史实验数据。
参见图3,为本发明与历史实验数据在ActivityNet数据集上的测试结果。可以看到在所有IoU下,以及平均情况下,本发明所测得mAP都超过了历史实验数据。
综上所述,本发明公开了一种基于动作连贯性的弱监督时序动作定位方法,即在给定视频类别的情况下定位视频中属于该类别的动作片段,属于机器视觉领域。本发明的主要思路为:将视频分为RGB帧和光流分别处理,对于每个动作模态,首先针对视频上的每个时间点,提出长度不同的假设的动作片段,然后根据视频的动作连贯性和分类准确率使用卷积神经网络回归动作片段。对于两个动作模态得到的不同动作片段,通过一个特性的模块进行结合,筛选出最终的动作定位结果。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (8)

1.一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,包括以下步骤:
步骤1,将待处理视频分为多个不重合片段,获取每个片段的RGB特征和光流特征;
步骤2,对步骤1获得的RGB特征和光流特征分别进行动作片段回归处理,获得RGB动作片段和光流动作片段;所述动作片段回归处理包括:对于待处理视频的每个时间点,枚举不同预设长度的假想的动作片段,对于不同长度的动作片段使用预定的回归神经网络进行回归,回归神经网络使用动作连贯性损失函数进行训练,并获得动作片段;
步骤3,通过动作连贯性损失函数评价步骤2得到的RGB动作片段和光流动作片段的置信程度;使用非最大值抑制过滤掉重合度超过阈值的动作片段;
步骤4,回归神经网络训练结束后;经过一个无参数的融合模块,筛选融合RGB动作片段和光流动作片段,得到最后的定位结果;
其中,步骤2中,动作片段回归处理具体包括:对于片段长度为P的动作片段,使用下式进行回归:
Figure FDA0003091741710000011
Figure FDA0003091741710000012
式中,xs为开始边界的序号,xe为结束边界的序号,
Figure FDA0003091741710000013
为在开始边界位置回归的结果,
Figure FDA0003091741710000014
为在结束边界位置回归的结果;
步骤2和步骤3中,动作连贯性损失函数由两部分组成;
一部分用来表征动作片段特征与其上下文特征的余弦相似度;假设该动作片段与其上下文的特征分别用如下符号表示
Figure FDA0003091741710000015
其中,F(u)为视频在时间点为u的特征,这部分的计算表达式为:
Figure FDA0003091741710000016
另一部分用分类置信度来表征:
Figure FDA0003091741710000021
其中,S(k,u)表示在类别k下,时间点u的分类置信度;对于动作片段[xs,xe],将其扩充到[Xs,Xe],其中
Figure FDA0003091741710000022
作为该片段的上下文信息;
动作连贯性损失函数的表达式为:
L=αLc+(1-α)(La-1)
其中,α为超参数,取值为0<α<1。
2.根据权利要求1所述的一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,步骤1具体包括:将待处理视频分为多个不重合片段;对每个片段平均取样,使用卷积神经网络提取取样帧的特征,将提取获得的特征作为该片段的表示;其中,分别对RGB和光流提取特征。
3.根据权利要求1所述的一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,步骤4中,回归网络训练结束后,对于RGB和光流分别得到的动作片段,筛选融合步骤具体包括:
由RGB和光流得到的动作片段分别为
Figure FDA0003091741710000023
其中,Nr和Nf分别为RGB和光流动作片段数;
对于每个RGB的动作片段,计算其与光流片段的最大IoU,计算公式为:
Figure FDA0003091741710000024
最终的筛选融合结果,为所有光流动作片段和具有I(pr,j)小于预设阈值的RGB动作片段的组合。
4.根据权利要求3所述的一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,最终的筛选融合结果,为所有光流动作片段和具有I(pr,j)<0.4的RGB动作片段的组合。
5.根据权利要求1所述的一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,α设置为0.6。
6.根据权利要求1所述的一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,步骤2中,将步骤1得到的RGB特征Rs输入到多个回归网络;每个回归网络由3层1D卷积神经网络构成,并指定了一个片段长度P;
回归网络的最后一层有2个大小为1的卷积核,其输出分别回归开始边界和结束边界。
7.根据权利要求6所述的一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,回归网络的前两层由空洞卷积网络构成。
8.根据权利要求7所述的一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,回归网络的前两层的空洞卷积的空洞设置为
Figure FDA0003091741710000031
CN201910575033.1A 2019-06-28 2019-06-28 一种基于动作连贯性的弱监督时序动作定位方法 Active CN110348345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910575033.1A CN110348345B (zh) 2019-06-28 2019-06-28 一种基于动作连贯性的弱监督时序动作定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910575033.1A CN110348345B (zh) 2019-06-28 2019-06-28 一种基于动作连贯性的弱监督时序动作定位方法

Publications (2)

Publication Number Publication Date
CN110348345A CN110348345A (zh) 2019-10-18
CN110348345B true CN110348345B (zh) 2021-08-13

Family

ID=68177039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910575033.1A Active CN110348345B (zh) 2019-06-28 2019-06-28 一种基于动作连贯性的弱监督时序动作定位方法

Country Status (1)

Country Link
CN (1) CN110348345B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866509B (zh) 2019-11-20 2023-04-28 腾讯科技(深圳)有限公司 动作识别方法、装置、计算机存储介质和计算机设备
CN111914644B (zh) * 2020-06-30 2022-12-09 西安交通大学 一种基于双模态协同的弱监督时序动作定位方法及***
CN112001420B (zh) * 2020-07-24 2022-09-09 武汉安视感知科技有限公司 一种矿井工人钻杆智能计时计数方法、设备及存储设备
CN111914778B (zh) * 2020-08-07 2023-12-26 重庆大学 一种基于弱监督学习的视频行为定位方法
CN115080750B (zh) * 2022-08-16 2022-11-08 之江实验室 基于融合提示序列的弱监督文本分类方法、***和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217214A (zh) * 2014-08-21 2014-12-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb-d人物行为识别方法
EP3147577A1 (en) * 2015-09-23 2017-03-29 Stn B.V. Device for and method of fluid flow monitoring
CN108399380A (zh) * 2018-02-12 2018-08-14 北京工业大学 一种基于三维卷积和Faster RCNN的视频动作检测方法
CN108573246A (zh) * 2018-05-08 2018-09-25 北京工业大学 一种基于深度学习的时序动作识别方法
CN108664931A (zh) * 2018-05-11 2018-10-16 中国科学技术大学 一种多阶段视频动作检测方法
CN108805083A (zh) * 2018-06-13 2018-11-13 中国科学技术大学 单阶段的视频行为检测方法
CN109409307A (zh) * 2018-11-02 2019-03-01 深圳龙岗智能视听研究院 一种基于时空上下文分析的在线视频行为检测***及其方法
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558811B (zh) * 2018-11-12 2023-04-07 中山大学 一种基于运动前景关注及非监督的关键帧提取的动作识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217214A (zh) * 2014-08-21 2014-12-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb-d人物行为识别方法
EP3147577A1 (en) * 2015-09-23 2017-03-29 Stn B.V. Device for and method of fluid flow monitoring
CN108399380A (zh) * 2018-02-12 2018-08-14 北京工业大学 一种基于三维卷积和Faster RCNN的视频动作检测方法
CN108573246A (zh) * 2018-05-08 2018-09-25 北京工业大学 一种基于深度学习的时序动作识别方法
CN108664931A (zh) * 2018-05-11 2018-10-16 中国科学技术大学 一种多阶段视频动作检测方法
CN108805083A (zh) * 2018-06-13 2018-11-13 中国科学技术大学 单阶段的视频行为检测方法
CN109409307A (zh) * 2018-11-02 2019-03-01 深圳龙岗智能视听研究院 一种基于时空上下文分析的在线视频行为检测***及其方法
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
AutoLoc: Weakly-supervised Temporal Action Localization in Untrimmed Videos;Zheng Shou 等;《arXiv》;20181218;第1-28页 *
Precise Temporal Action Localization by Evolving Temporal Proposals;Haonan Qiu 等;《arXiv》;20180416;第1-9页 *
Rethinking the Faster R-CNN Architecture for Temporal Action Localization;Yu-Wei Chao 等;《arXiv》;20180423;第1-13页 *
Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs;Zheng Shou 等;《2016 IEEE Conference on Computer Vision and Pattern Recognition》;20161231;第1049-1058页 *
基于动作模板匹配的弱监督动作定位;石祥斌 等;《http://kns.cnki.net/kcms/detail/51.1307.TP.20190408.1444.012.html》;20190408;第1-8页 *

Also Published As

Publication number Publication date
CN110348345A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN110348345B (zh) 一种基于动作连贯性的弱监督时序动作定位方法
Agrawal et al. Grape leaf disease detection and classification using multi-class support vector machine
CN112070772A (zh) 基于UNet++和ResNet的血液白细胞图像分割方法
CN108629768B (zh) 一种食管病理图像中上皮组织的分割方法
CN112883962B (zh) 眼底图像识别方法、装置、设备、存储介质以及程序产品
Wan et al. EAD‐net: A novel lesion segmentation method in diabetic retinopathy using neural networks
CN106157332A (zh) 一种基于ViBe算法的运动检测优化方法
CN108852350B (zh) 一种基于深度学习算法的识别与定位头皮脑电图致痫区的建模方法
Hasan et al. Skin lesion segmentation by using deep learning techniques
CN110246579B (zh) 一种病理诊断方法及装置
CN108876810A (zh) 视频摘要中利用图割算法进行运动目标检测的方法
CN111899272B (zh) 基于耦合神经网络和线连接器的眼底图像血管分割方法
Xia et al. Retinal vessel segmentation via a coarse-to-fine convolutional neural network
CN117237371A (zh) 基于实例感知扩散模型的结肠组织学图像腺体分割方法
CN111105874A (zh) 一种舌象特征标注方法、装置、计算机设备及存储介质
CN111667419A (zh) 一种基于Vibe算法的移动目标鬼影消除方法及***
CN114445898B (zh) 人脸活体检测方法、装置、设备、存储介质及程序产品
Joy et al. Analyzing epistemic and aleatoric uncertainty for drusen segmentation in optical coherence tomography images
CN113469053B (zh) 眼动轨迹鉴别方法及***
CN115546227A (zh) 基于改进Unet网络的视网膜血管分割网络、分割方法、计算机设备和存储介质
CN115249302A (zh) 基于多尺度上下文信息与注意力机制的肠壁血管分割方法
CN114241363A (zh) 工序识别方法、装置、电子设备和存储介质
CN110766680B (zh) 一种基于几何约束的白细胞图像分割方法
CN112906680A (zh) 一种行人属性识别方法、装置及电子设备
CN111325132A (zh) 一种智能监控***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant