CN108229280A - 时域动作检测方法和***、电子设备、计算机存储介质 - Google Patents
时域动作检测方法和***、电子设备、计算机存储介质 Download PDFInfo
- Publication number
- CN108229280A CN108229280A CN201710263004.2A CN201710263004A CN108229280A CN 108229280 A CN108229280 A CN 108229280A CN 201710263004 A CN201710263004 A CN 201710263004A CN 108229280 A CN108229280 A CN 108229280A
- Authority
- CN
- China
- Prior art keywords
- video clip
- temporal interval
- segment
- action
- pond
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 94
- 230000009471 action Effects 0.000 claims abstract description 462
- 230000002123 temporal effect Effects 0.000 claims abstract description 376
- 238000000034 method Methods 0.000 claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 53
- 238000000605 extraction Methods 0.000 claims description 27
- 230000009286 beneficial effect Effects 0.000 abstract description 7
- 230000000875 corresponding effect Effects 0.000 description 289
- 230000008520 organization Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 19
- 239000013598 vector Substances 0.000 description 19
- 238000012360 testing method Methods 0.000 description 18
- 238000013527 convolutional neural network Methods 0.000 description 17
- 230000006854 communication Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000006399 behavior Effects 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 8
- 238000012417 linear regression Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/44—Event detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明实施例公开了一种时域动作检测方法和***、电子设备、计算机存储介质,其中,方法包括:获取视频中存在动作实例的时域区间以及所述时域区间的至少一相邻片段;分别提取候选片段中各视频片段的动作特征,其中,所述候选片段包括所述时域区间对应的视频片段及其相邻片段;对所述候选片段中各视频片段的动作特征进行池化处理,获得所述时域区间对应的视频片段的全局特征;基于所述全局特征确定所述时域区间对应的视频片段的动作完整度得分。本发明实施例有益于准确的确定时域区间是否包含完整的动作实例,提高了动作完整度识别的准确率。
Description
技术领域
本发明涉及计算机视觉技术,尤其是一种时域动作检测方法和***、电子设备、计算机 存储介质。
背景技术
理解人的行为和动作是计算机视觉技术的一项重要任务。现有计算机视觉技术中的动作 识别技术,通过用深度学习的方法来融合形状信息、运动特征、以及长程时序关系等视频内 容,已经能够识别剪辑出的视频中的动作类别,但是需要预先对原始视频进行手工剪辑,截 取出原始视频中有动作的片段,手工剪辑视频需要耗费大量的人力,成本较高;并且,在实 际应用场景中,经常需要及时对未经剪辑的原始视频进行动作类别识别,这就要求动作识别 技术不再局限于从剪辑好的视频片段中识别动作的类别,还需要能够在未经剪辑的原始视频 中自动探测到有意义的动作、检测出每个动作实例的开始时间和结束时间。
时域动作检测技术,旨在视频中检测出与人物活动相关的动作片段,该视频可以是任何 方式的视频,例如可能但不限于是未经剪辑、较长的视频。时域动作检测技术在安全监控、 网络视频分析、视频直播分析、乃至无人驾驶等领域都具有巨大的应用价值。
发明内容
本发明实施例提供一种时域动作检测技术,包括时域动作检测方法和***、电子设备、 计算机存储介质。
根据本发明实施例的一个方面,提供的一种时域动作检测方法,包括:
获取视频中存在动作实例的时域区间以及所述时域区间的至少一相邻片段;
分别提取候选片段中各视频片段的动作特征,其中,所述候选片段包括所述时域区间对 应的视频片段及其相邻片段;
对所述候选片段中各视频片段的动作特征进行池化处理,获得所述时域区间对应的视频 片段的全局特征;
基于所述全局特征确定所述时域区间对应的视频片段的动作完整度得分。
可选地,在上述方法的另一实施例中,所述至少一相邻片段包括:所述视频中时序位于 所述时域区间之前的第一相邻片段,和/或,所述视频中时序位于所述时域区间之后的第二相 邻片段;所述第一相邻片段和所述第二相邻片段分别包括至少一个视频片段。
可选地,在上述方法的另一实施例中,所述获取视频中存在动作实例的时域区间以及所 述时域区间的至少一相邻片段,包括:
分别对所述视频中的各视频片段进行动作度估计,获得时序动作度序列;
基于所述时序动作度序列进行动作位置预测,获得所述视频中存在动作实例的时域区 间,所述时域区间包括起始时间和结束时间;
从所述视频中提取所述时域区间之前的第一相邻片段和/或所述时域区间之后的第二相邻 片段。
可选地,在上述方法的另一实施例中,所述分别对所述视频中的各视频片段进行动作度 估计,获得时序动作度序列,包括:
分别针对所述视频中的任一视频片段:
提取一帧图像作为原始图像,对所述原始图像进行动作度估计,得到第一动作度值;提 取所述任一视频片段的光流,并对获得的光流场图片进行合并,得到拼合光流场图像,对所 述拼合光流场图像进行动作度估计,得到第二动作度值;
由第一动作度值与第二动作度值,获取所述任一视频片段的动作度值;
所述视频中所有视频片段基于时序关系的动作度值形成所述时序动作度序列。
可选地,在上述方法的另一实施例中,所述获取所述任一视频片段的动作度值之后,还 包括:
对所述任一视频片段的动作度值进行归一化处理,得到归一化的动作度值;
所述时序动作度序列具体为:由归一化的动作度值形成的时序动作度序列。
可选地,在上述方法的另一实施例中,还包括:
基于所述时域区间对应的视频片段的动作特征,获取所述时域区间对应的视频片段的至 少一个动作类别的分类得分;
根据所述时域区间对应的视频片段的至少一个动作类别的分类得分,确定所述时域区间 对应的视频片段的检测动作类别。
可选地,在上述方法的另一实施例中,还包括:
输出所述时域区间以及所述时域区间对应的视频片段的检测动作类别。
可选地,在上述方法的另一实施例中,所述基于所述时域区间对应的视频片段的动作特 征,获取所述时域区间对应的视频片段的至少一个动作类别的分类得分,包括:
分别基于所述时域区间对应的各视频片段的动作特征,获取所述时域区间对应的各视频 片段分别属于所述至少一个动作类别的得分;
分别对所述时域区间对应的各视频片段属于同一动作类别的得分求和,获得所述时域区 间对应的视频片段的至少一个动作类别的分类得分。
可选地,在上述方法的另一实施例中,所述对所述候选视频片段中各视频片段的动作特 征进行池化处理,包括:
对提取的候选片段中各视频片段的动作特征进行时域金字塔式池化处理。
可选地,在上述方法的另一实施例中,所述对提取的候选片段中各视频片段的动作特征 进行时域金字塔式池化处理之后,还包括:
合并时域金字塔式池化后得到的池化特征。
可选地,在上述方法的另一实施例中,预设池化层数K的取值为1;
所述对提取的所述候选片段中各视频片段的动作特征进行时域金字塔式池化处理,包 括:
对于预设分割部分数BK的取值为1的任一第一待池化片段,由所述任一第一待池化片段 中各视频片段的动作特征获取所述任一第一待池化片段的池化特征;
对于预设分割部分数BK的取值大于1的任一第二待池化片段,将所述任一第二待池化片 段中的所有视频片段分割为BK个部分,分别由所述BK个部分中各部分视频片段的动作特征 获取对应部分的池化特征,并对所述BK个部分的池化特征进行合并,得到所述任一第二待池 化片段的池化特征;
所述第一待池化片段包括所述时域区间对应的视频片段、所述第一相邻片段和所述第二 相邻片段中的任意一个或多个;所述第二待池化片段包括所述候选片段中所述第一待池化片 段外的其他待池化片段。
可选地,在上述方法的另一实施例中,预设池化层数K的取值大于1;
所述对提取的所述候选片段中各视频片段的动作特征进行时域金字塔式池化处理,包 括:
分别针对第k个池化层:对于预设分割部分数BK的取值为1的任一第一待池化片段,由 所述任一第一待池化片段中各视频片段的动作特征获取所述任一第一待池化片段在第k层的 池化特征;对于预设分割部分数BK的取值大于1的任一第二待池化片段,将所述任一第二待 池化片段中的所有视频片段分割为BK个部分,分别由所述BK个部分中各部分视频片段的动 作特征获取对应部分的池化特征,并对所述BK个部分的池化特征进行合并,得到所述任一第 二待池化片段在第k层的池化特征;
分别针对各待池化片段:按照预设方式对所有K个池化层的池化特征进行合并,得到各 待池化片段的池化特征;
所述第一待池化片段包括所述时域区间对应的视频片段、所述第一相邻片段和所述第二 相邻片段中的任意一个或多个;所述第二待池化片段包括所述候选片段中所述第一待池化片 段外的其他待池化片段。
可选地,在上述方法的另一实施例中,所述合并时域金字塔式池化后得到的池化特征, 获得所述时域区间对应的视频片段的全局特征,包括:
分别对所述第一相邻片段的池化特征、所述时域区间对应的视频片段的池化特征和所述 第二相邻片段的池化特征进行合并,获得所述时域区间对应的视频片段时序结构化的所述全 局特征。
可选地,在上述方法的另一实施例中,预设池化层数K的取值大于1;
所述对提取的所述候选片段中各视频片段的动作特征进行时域金字塔式池化处理,包 括:
分别针对第k个池化层:识别预设分割部分数BK的取值是否为1;
若预设分割部分数BK的取值为1,由所述候选片段中各视频片段的动作特征获取所述候 选片段在第k层的池化特征;
若预设分割部分数BK的取值大于1,将所述候选片段中的所有视频片段分割为BK个部 分,分别由所述BK个部分中各部分中视频片段的动作特征获取对应部分的池化特征,并对所 述BK个部分的池化特征进行合并,得到所述候选片段在第k层的池化特征。
可选地,在上述方法的另一实施例中,所述合并时域金字塔式池化后得到的池化特征, 获得所述时域区间对应的视频片段的全局特征,包括:
按照预设方式对K个池化层的池化特征进行合并,获得所述时域区间对应的视频片段时 序结构化的所述全局特征。
可选地,在上述方法的另一实施例中,预设池化层数K的取值为1;
所述对提取的所述候选片段中各视频片段的动作特征进行时域金字塔式池化处理,包 括:
识别预设分割部分数BK的取值是否为1;
若预设分割部分数BK的取值为1,分别针对各待池化片段中的任一待池化片段,由所述 任一待池化片段中各视频片段的动作特征获取所述任一待池化片段的池化特征,所述待池化 片段包括所述时域区间内视频片段、所述第一相邻片段和所述第二相邻片段;对所有待池化 片段的池化特征进行合并,获得所述时域区间对应的视频片段时序结构化的所述全局特征;
若预设分割部分数BK的取值大于1,将所述候选片段中的所有视频片段分割为BK个部 分,分别由所述BK个部分中各部分中视频片段的动作特征获取对应部分的池化特征,并对所 述BK个部分的池化特征进行合并,获得所述时域区间对应的视频片段时序结构化的所述全局 特征。
可选地,在上述方法的另一实施例中,所述基于所述全局特征确定所述时域区间对应的 视频片段的动作完整度得分,包括:
对所述全局特征进行分类,得到所述候选片段对应的至少一个动作类别;
分别通过所述候选片段对应的各动作类别相关的分类器,基于所述全局特征识别所述时 域区间对应的视频片段包括当前动作类别完整的动作实例的程度,得到所述时域区间对应的 视频片段分别对应各动作类别的动作完整度得分。
可选地,在上述方法的另一实施例中,还包括:
基于所述时域区间对应的视频片段的分类得分与动作完整度得分,确定所述时域区间对 应的视频片段是否包含对应的各动作类别完整的动作实例。
可选地,在上述方法的另一实施例中,所述基于所述时域区间对应的视频片段的分类得 分与动作完整度得分,确定所述时域区间对应的视频片段是否包含对应的各动作类别完整的 动作实例,包括:
分别针对所述时域区间对应的视频片段对应的任一动作类别,对所述时域区间对应的视 频片段对应所述任一动作类别的分类得分与动作完整度得分求取乘积或者求和,获得所述时 域区间对应的视频片段是否包含所述任一动作类别完整的动作实例的置信度值;
基于所述置信度值是否大于预设阈值,确定所述时域区间对应的视频片段是否包含所述 任一动作类别完整的动作实例。
可选地,在上述方法的另一实施例中,还包括:
若所述时域区间对应的视频片段包含完整的动作实例对应的动作类别大于一个,选择对 应于最大置信度值的一个动作类别作为所述时域区间对应的视频片段的检测动作类别。
可选地,在上述方法的另一实施例中,所述基于所述时域区间对应的视频片段的分类得 分与动作完整度得分,确定所述时域区间对应的视频片段是否包含对应各动作类别完整的动 作实例,包括:
识别所述时域区间对应的视频片段的至少一个动作类别的分类得分中,是否存在分类得 分大于预设第一数值的预设动作类别;以及识别所述动作完整度得分中,是否存在动作完整 度得分大于预设第二数值的预设动作类别;
响应于存在分类得分大于预设第一数值的预设动作类别和/或动作完整度得分大于预设第 二数值的预设动作类别,以分类得分大于预设第一数值的预设动作类别和/或动作完整度得分 大于预设第二数值的预设动作类别作为目标动作类别,基于所述时域区间对应的视频片段对 应的目标动作类别的分类得分与动作完整度得分,确定所述时域区间对应的视频片段是否包 含所述目标动作类别完整的动作实例;
所述输出所述时域区间以及所述时域区间对应的视频片段的检测动作类别时,具体输出 所述目标动作类别及其时域区间。
可选地,在上述方法的另一实施例中,还包括:
若所述时域区间对应的视频片段包含至少一个动作类别完整的动作实例,基于所述全局 特征对所述时域区间进行位置回归,获得起止位置偏移量,所述起止位置偏移量包括时域区 间中起始时间和结束时间的位置偏移量;
通过所述起止位置偏移量对所述时域区间进行调整;
所述输出所述时域区间以及所述时域区间对应的视频片段的检测动作类别时,具体输出 调整后的时域区间以及所述时域区间对应的视频片段的检测动作类别。
根据本发明实施例的另一个方面,提供的一种时域动作检测***,包括:
第一获取模块,用于获取视频中存在动作实例的时域区间以及所述时域区间的至少一相 邻片段;
特征提取模块,用于分别提取候选片段中各视频片段的动作特征,其中,所述候选片段 包括所述时域区间对应的视频片段及其相邻片段;
池化处理模块,用于对所述候选片段中各视频片段的动作特征进行池化处理,获得所述 时域区间对应的视频片段的全局特征;
第一确定模块,用于基于所述全局特征确定所述时域区间对应的视频片段的动作完整度 得分。
可选地,在上述***的另一实施例中,所述至少一相邻片段包括:所述视频中时序位于 所述时域区间之前的第一相邻片段,和/或,所述视频中时序位于所述时域区间之后的第二相 邻片段;所述第一相邻片段和所述第二相邻片段分别包括至少一个视频片段。
可选地,在上述***的另一实施例中,所述第一获取模块包括:
动作估计子模块,用于分别对视频中的各视频片段进行动作度估计,获得时序动作度序 列;
位置预测子模块,用于基于所述时序动作度序列进行动作位置预测,获得所述视频中存 在动作实例的时域区间,所述时域区间包括起始时间和结束时间;
提取子模块,用于从所述视频中提取所述时域区间之前的第一相邻片段和/或所述时域区 间之后的第二相邻片段。
可选地,在上述***的另一实施例中,所述动作估计子模块包括:图像获取单元,用于 分别针对所述视频中的任一视频片段:提取一帧图像作为原始图像,以及提取所述任一视频 片段的光流,并对获得的光流场图片进行合并,得到拼合光流场图像;
第一子卷积神经网络,用于对所述原始图像进行动作度估计,得到第一动作度值;
第二子卷积神经网络,用于对所述拼合光流场图像进行动作度估计,得到第二动作度 值;
计算单元,用于由同一视频片段的第一动作度值与第二动作度值,获取所述任一视频片 段的动作度值;
所述视频中所有视频片段基于时序关系的动作度值形成所述时序动作度序列。
可选地,在上述***的另一实施例中,所述动作估计子模块还包括:
归一化单元,用于对所述计算单元获取的视频片段的动作度值进行归一化处理,得到归 一化的动作度值;
所述时序动作度序列具体为:由归一化的动作度值形成的时序动作度序列。
可选地,在上述***的另一实施例中,还包括:
第二获取模块,用于基于所述时域区间对应的视频片段的动作特征,获取所述时域区间 对应的视频片段的至少一个动作类别的分类得分;
第二确定模块,用于根据所述时域区间对应的视频片段的至少一个动作类别的分类得 分,确定所述时域区间对应的视频片段的检测动作类别。
可选地,在上述***的另一实施例中,还包括:
输出模块,用于输出所述时域区间以及所述时域区间对应的视频片段的检测动作类别。
可选地,在上述***的另一实施例中,所述第二获取模块包括:
第一获取子模块,用于分别基于所述时域区间对应的各视频片段的动作特征,获取所述 时域区间对应的各视频片段分别属于所述至少一个动作类别的得分;
第一计算子模块,用于分别对所述时域区间对应的各视频片段属于同一动作类别的得分 求和,获得所述时域区间对应的视频片段的至少一个动作类别的分类得分。
可选地,在上述***的另一实施例中,所述池化处理模块包括:
池化处理子模块,用于对提取的候选片段中各视频片段的动作特征进行时域金字塔式池 化处理。
可选地,在上述***的另一实施例中,所述池化处理模块还包括:
合并子模块,用于合并时域金字塔式池化后得到的池化特征。
可选地,在上述***的另一实施例中,预设池化层数K的取值为1;所述池化处理子模 块具体用于:对于预设分割部分数BK的取值为1的任一第一待池化片段,由所述任一第一待 池化片段中各视频片段的动作特征获取所述任一第一待池化片段的池化特征;对于预设分割 部分数BK的取值大于1的任一第二待池化片段,将所述任一第二待池化片段中的所有视频片 段分割为BK个部分,分别由各部分中视频片段的动作特征获取对应部分的池化特征,并对所 述BK个部分的池化特征进行合并,得到任一第二待池化片段的池化特征;所述第一待池化片 段包括所述时域区间对应的视频片段、所述第一相邻片段和所述第二相邻片段中的任意一个 或多个;所述第二待池化片段包括所述候选片段中所述第一待池化片段外的其他待池化片 段;
所述合并子模块,具体用于分别对所述第一相邻片段的池化特征、所述时域区间对应的 视频片段的池化特征和所述第二相邻片段的池化特征进行合并,获得所述时域区间对应的视 频片段时序结构化的所述全局特征。
可选地,在上述***的另一实施例中,预设池化层数K的取值大于1;
所述池化处理子模块具体用于:
分别针对第k个池化层:对于预设分割部分数BK的取值为1的任一第一待池化片段,由 所述任一第一待池化片段中各视频片段的动作特征获取所述任一第一待池化片段在第k层的 池化特征;对于预设分割部分数BK的取值大于1的任一第二待池化片段,将所述任一第一待 池化片段中的所有视频片段分割为BK个部分,分别由各部分中视频片段的动作特征获取对应 部分的池化特征,并对所述BK个部分的池化特征进行合并,得到所述任一第一待池化片段在 第k层的池化特征;以及分别针对各待池化片段:按照预设方式对所有K个池化层的池化特 征进行合并,得到各待池化片段的池化特征;所述第一待池化片段包括所述时域区间对应的 视频片段、所述第一相邻片段和所述第二相邻片段中的任意一个或多个;所述第二待池化片 段包括所述候选片段中所述第一待池化片段外的其他待池化片段;
所述合并子模块,具体用于分别对所述第一相邻片段的池化特征、所述时域区间对应的 视频片段的池化特征和所述第二相邻片段的池化特征进行合并,获得所述时域区间对应的视 频片段时序结构化的所述全局特征。
可选地,在上述***的另一实施例中,预设池化层数K的取值大于1;
所述池化处理子模块具体用于:分别针对第k个池化层:识别预设分割部分数BK的取值 是否为1;若预设分割部分数BK的取值为1,由所述候选片段中各视频片段的动作特征获取 所述候选片段在第k层的池化特征;若预设分割部分数BK的取值大于1,将所述候选片段中 的所有视频片段分割为BK个部分,分别由所述BK个部分各部分视频片段的动作特征获取对 应部分的池化特征,并对所述BK个部分的池化特征进行合并,得到所述候选片段在第k层的 池化特征;
所述合并子模块,具体用于按照预设方式对K个池化层的池化特征进行合并,获得所述 时域区间对应的视频片段时序结构化的所述全局特征。
可选地,在上述***的另一实施例中,预设池化层数K的取值为1;所述池化处理子模 块具体用于:
识别预设分割部分数BK的取值是否为1;
若预设分割部分数BK的取值为1,分别针对各待池化片段中的任一待池化片段,由所述 任一待池化片段中各视频片段的动作特征获取所述任一待池化片段的池化特征,所述待池化 片段包括所述时域区间内视频片段、所述第一相邻片段和所述第二相邻片段;对所有待池化 片段的池化特征进行合并,获得所述时域区间对应的视频片段时序结构化的所述全局特征;
若预设分割部分数BK的取值大于1,将所述候选片段中的所有视频片段分割为BK个部 分,分别由所述BK个部分中各部分视频片段的动作特征获取对应部分的池化特征,并对所述 BK个部分的池化特征进行合并,获得所述时域区间对应的视频片段时序结构化的所述全局特 征。
可选地,在上述***的另一实施例中,所述第一确定模块包括:
分类子模块,用于对所述全局特征进行分类,得到所述候选片段对应的至少一个动作类 别;
至少一个分类器,分别与所述候选片段对应的各动作类别相关,用于基于所述全局特征 识别所述时域区间对应的视频片段包括当前动作类别完整的动作实例的程度,得到所述时域 区间对应的视频片段分别对应各动作类别的动作完整度得分。
可选地,在上述***的另一实施例中,还包括:
第三确定模块,用于基于所述时域区间对应的视频片段的分类得分与动作完整度得分, 确定所述时域区间对应的视频片段是否包含对应的各动作类别完整的动作实例。
可选地,在上述***的另一实施例中,所述第三确定模块包括:
第二计算子模块,用于分别针对所述时域区间对应的视频片段对应的任一动作类别,对 所述时域区间对应的视频片段对应所述任一动作类别的分类得分与动作完整度得分求取乘积 或者求和,获得所述时域区间对应的视频片段是否包含所述任一动作类别完整的动作实例的 置信度值;
确定子模块,用于基于所述置信度值是否大于预设阈值,确定所述时域区间对应的视频 片段是否包含所述任一动作类别完整的动作实例。
可选地,在上述***的另一实施例中,所述确定子模块,还用于在所述时域区间对应的 视频片段包含完整的动作实例对应的动作类别大于一个时,选择对应于最大置信度值的一个 动作类别作为所述时域区间对应的视频片段的检测动作类别。
可选地,在上述***的另一实施例中,还包括:
识别模块,用于识别所述时域区间对应的视频片段的至少一个动作类别的分类得分中, 是否存在分类得分大于预设第一数值的预设动作类别;以及识别所述动作完整度得分中,是 否存在动作完整度得分大于预设第二数值的预设动作类别;
所述第三确定模块,具体用于在存在分类得分大于预设第一数值的预设动作类别和/或动 作完整度得分大于预设第二数值的预设动作类别时,以分类得分大于预设第一数值的预设动 作类别和/或动作完整度得分大于预设第二数值的预设动作类别作为目标动作类别,基于所述 时域区间对应的视频片段对应的目标动作类别的分类得分与动作完整度得分,确定所述时域 区间对应的视频片段是否包含所述目标动作类别完整的动作实例的操作;
所述输出模块具体用于输出所述目标动作类别及其时域区间。
可选地,在上述***的另一实施例中,还包括:
位置回归模块,用于在所述时域区间对应的视频片段包含至少一个动作类别完整的动作 实例时,基于所述全局特征对所述时域区间进行位置回归,获得起止位置偏移量,并通过所 述起止位置偏移量对所述时域区间进行调整;所述起止位置偏移量包括时域区间中起始时间 和结束时间的位置偏移量;
所述输出模块,具体用于输出调整后的时域区间以及所述时域区间对应的视频片段的检 测动作类别。
根据本发明实施例的又一个方面,提供的一种电子设备,包括上述任一实施例所述的时 域动作检测***。
根据本发明实施例的再一个方面,提供的一种电子设备,包括:
存储器,用于存储可执行指令;以及
处理器,用于与所述存储器通信以执行所述可执行指令从而完成以下操作:
获取视频中存在动作实例的时域区间以及所述时域区间的至少一相邻片段;
分别提取候选片段中各视频片段的动作特征,其中,所述候选片段包括所述时域区间对 应的视频片段及其相邻片段;
对所述候选片段中各视频片段的动作特征进行池化处理,获得所述时域区间对应的视频 片段的全局特征;
基于所述全局特征确定所述时域区间对应的视频片段的动作完整度得分。
根据本发明实施例的再一个方面,提供的一种计算机存储介质,用于存储计算机可读取 的指令,所述指令被执行时实现以下操作:
获取视频中存在动作实例的时域区间以及所述时域区间的至少一相邻片段;
分别提取候选片段中各视频片段的动作特征,其中,所述候选片段包括所述时域区间对 应的视频片段及其相邻片段;
对所述候选片段中各视频片段的动作特征进行池化处理,获得所述时域区间对应的视频 片段的全局特征;
基于所述全局特征确定所述时域区间对应的视频片段的动作完整度得分。
基于本发明上述实施例提供的时域动作检测方法和***、电子设备、计算机存储介质, 通过获取视频中存在动作实例的时域区间以及时域区间的至少一相邻片段,提取该时域区间 以及时域区间的至少一相邻片段的动作特征并进行池化处理,获得该时域区间对应的视频片 段的全局特征,基于全局特征确定时域区间对应的视频片段的动作完整度得分。本发明实施 例基于包含时域区间的上下文信息的全局特征来确定时域区间对应的视频片段的动作完整 度,从而有益于准确的确定时域区间是否包含完整的动作实例,提高了动作完整度识别的准 确率。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明 的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1为本发明时域动作检测方法一个实施例的流程图。
图2为本发明实施例中获得时序动作度序列一个具体实施例的流程图。
图3为本发明时域动作检测方法再一个实施例的流程图。
图4为本发明实施例中获得全局特征一个具体实施例的流程图。
图5为本发明实施例中获得全局特征另一个具体实施例的流程图。
图6为本发明实施例中确定完整度得分一个实施例的流程图。
图7为本发明时域动作检测方法又一个实施例的流程图。
图8为本发明时域动作检测***一个实施例的结构示意图。
图9为本发明实施例中第一获取模块一个具体实施例的结构示意图。
图10为本发明时域动作检测***另一个实施例的结构示意图。
图11为本发明实施例中第二获取模块一个具体实施例的结构示意图。
图12为本发明实施例中池化模块一个具体实施例的结构示意图。
图13为本发明实施例中第一确定模块一个具体实施例的结构示意图。
图14为本发明实施例中第三确定模块一个具体实施例的结构示意图。
图15为本发明时域动作检测***又一个实施例的结构示意图。
图16为本发明电子设备一个具体应用实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说 明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的 范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比 例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应 用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况 下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附 图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明实施例可以应用于计算机***/服务器等电子设备,其可与众多其它通用或专用计 算***环境或配置一起操作。适于与计算机***/服务器等电子设备一起使用的众所周知的计 算***、环境和/或配置的例子包括但不限于:个人计算机***、服务器计算机***、瘦客户 机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网 络个人电脑、小型计算机***﹑大型计算机***和包括上述任何***的分布式云计算技术环 境,等等。
计算机***/服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如 程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻 辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器 可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程 处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计 算***存储介质上。
在实现本发明的过程中,发明人通过研究发现,目前关于时域动作检测技术的研究尚处 于起步阶段,无法确定预测出的视频中可能存在动作实例的时域区间的动作完整度,即:该 时域区间是否准确的包含了一个完整的动作实例。
鉴于此,本发明实施例提供了新的时域动作检测技术,包括:时域动作检测方法和系 统、电子设备。
在本发明实施例中,卷积神经网络(Convolutional Neural Network,CNN)是已训练好的 卷积神经网络,其能够实现本发明各实施例中记载的相应操作,例如,对输入的图像或视频 片段进行动作度估计、分类、完整度识别,以获得输入的图像或视频片段的动作度值、相对 于每个预设动作类别的得分、相对于每个动作类别的完整度得分、计算候选片段的置信度值 等。
在本发明实施例中,视频片段指的是视频中的一部分,其可包括视频中的多帧连续图 像。
在本发明实施例中,动作实例指的是某动作类别的具体动作。
在本发明实施例中,动作度(Actionness)表征的是某帧图像或某视频片段可能属于某动 作实例的程度。
在本发明实施例中,完整度表征的是候选片段包含某动作类别完整的动作实例的程度。
在本发明实施例中,置信度表征的指某个候选片段是一个某动作类别动作的完整动作实 例的概率。其可选的数学形式为该候选片段属于某动作类别的概率乘以该候选片段为该动作 类别完整动作实例的概率。
图1为本发明时域动作检测方法一个实施例的流程图。如图1所示,该实施例的时域动 作检测方法包括:
102,获取视频中可能存在动作实例的时域区间以及该时域区间的至少一相邻片段。
其中,时域区间包括起始时间和结束时间,例如可以表示为起始时间和结束时间对(起 始时间,结束时间)。
示例性地,上述至少一相邻片段包括:视频中时序位于上述时域区间之前的第一相邻片 段,和/或,视频中时序位于上述时域区间之后的第二相邻片段。其中的第一相邻片段和第二 相邻片段分别包括至少一个视频片段。其中,第一相邻片段和第二相邻片段的长度可以根据 实际需求设置,并且可以实时调整和更新,示例性地,第一相邻片段和第二相邻片段的长度 具体可以是时域区间长度的一定比例,例如20%~70%。
104,分别提取候选片段中各视频片段的动作特征。
其中,候选片段包括上述时域区间对应的视频片段及其相邻片段。
106,对候选片段中各视频片段的动作特征进行池化处理,获得上述时域区间对应的视频 片段的全局特征。
108,基于全局特征确定上述时域区间对应的视频片段的动作完整度得分。
基于本发明上述实施例提供的时域动作检测方法,通过获取视频中存在动作实例的时域 区间以及时域区间的至少一相邻片段,提取该时域区间以及时域区间的至少一相邻片段的动 作特征并进行池化处理,获得该时域区间对应的视频片段的全局特征,基于全局特征确定时 域区间对应的视频片段的动作完整度得分。本发明实施例基于包含时域区间的上下文信息的 全局特征来确定时域区间对应的视频片段的动作完整度,从而有益于准确的确定时域区间是 否包含完整的动作实例,提高了动作完整度识别的准确率。
在本发明实施例的一个具体示例中,上述操作102中,获取视频中存在动作实例的时域 区间以及时域区间的至少一相邻片段,具体可以包括:
分别对视频中的各视频片段进行动作度估计,获得时序动作度序列;
基于时序动作度序列进行动作位置预测,获得视频中存在动作实例的时域区间,时域区 间包括起始时间和结束时间;
从视频中提取时域区间之前的第一相邻片段和/或时域区间之后的第二相邻片段。
每个时域区间之前和之后的相邻片段中包含该时域区间的上下文信息,提取每个时域区 间之前和之后的相邻片段,便可以获得每个动作位置预测的时域区间的上下文信息,以便结 合该上下文信息准确识别时域区间是否包括了某动作类别的一个完整的动作实例,从而更精 确的定位一个完整的动作实例。
图2为本发明实施例中获得时序动作度序列一个实施例的流程图。如图2所示,该实施 例具体可以通过如下操作实现:分别针对视频中的任一视频片段执行:
202,提取一帧图像作为原始图像,对原始图像进行动作度估计,得到第一动作度值;提 取视频片段的光流,并对获得的光流场图片进行合并,得到拼合光流场图像,对拼合光流场 图像进行动作度估计,得到第二动作度值。
例如,从视频中每隔若干帧(如6帧)提取一帧原始图像,以该帧原始图像及其之后的 五帧图像作为一个视频片段,提取该帧原始图像及其之后的五帧图像的光流,得到五帧光流 场图片。或者以视频中的每六帧图像构成一个视频片段,按照预设规则或者随机从每个视频 片段中提取一帧图像作为原始图像。
其中的光流场图片,例如可以是基于8位位图、共256个离散的色阶的灰度图像,灰度 图像的中值为128。
由于光流场是一个向量场,当使用灰度图像表示光流场图片时,需要用两幅标量场图片 表示光流场图片,即分别对应于光流场图片坐标轴的X方向和Y方向幅度的两幅标量场图 片。
示例性地,假设每个视频片段包括N帧图像,则分别基于N帧图像中的每相邻的两帧图 像进行计算,获得N-1组光流场图片,其中N-1组光流场图片中的每一组光流图像分别包括 一帧横向光流图像及一帧纵向光流图像。将光流场图片的像素值按照均值为128的标准,线 性映射到0到255的区间,然后将这N-1组光流场图片作为单独的通道拼合为一张N-1通道 的拼合光流场图像。
在一个具体示例中,可以分别通过两个预先训练好的卷积神经网络(本发明实施例中的 第一子卷积神经网络和第二子卷积神经网络),对原始图像进行动作度估计得到第一动作度 值、对拼合光流场图像进行动作度估计得到第二动作度值的操作。
具体可以通过标注有参考第一动作度值的样本图像对第一卷积神经网络模型进行训练, 来获得第一子卷积神经网络;通过标注有参考第二动作度值的样本拼合光流场图像对第二卷 积神经网络模型进行训练,来获得第二子卷积神经网络。
具体来说,通过第一卷积神经网络模型对样本视频中的样本图像进行动作度估计、输出 第一预测动作度值,基于第一预测动作度值与参考第一动作度值之间的差值对第一卷积神经 网络模型进行训练,即:对第一卷积神经网络模型的网络参数值进行调整,直至第一预测动 作度值与参考第一动作度值之间的差值满足预设条件,例如小于第一预设阈值,从而获得训 练好的第一子卷积神经网络。
通过第二卷积神经网络模型对样本拼合光流场图像进行动作度估计、输出第二预测动作 度值,基于第二预测动作度值与参考第二动作度值之间的差值对第二卷积神经网络模型进行 训练,即:对第二卷积神经网络模型的网络参数值进行调整,直至第二预测动作度值与参考 第二动作度值之间的差值满足预设条件,例如小于第二预设阈值,从而获得训练好的第二子 卷积神经网络。
204,由第一动作度值与第二动作度值,获取视频片段的动作度值。
例如,将第一动作度值与第二动作度值相加,由于同时结合了光流场图像的动作度值, 以获得更加准确的视频片段的动作度值。
通过操作204可以得到视频中各视频片段的动作度值,视频中所有视频片段的动作度值 在时序上构成动作度序列,即:根据时间变化的动作度值,称为时序动作度序列。例如,假 设视频中包含M个视频片段,其经过卷积神经网络计算得出的动作度估值分别为A1~AM, 那么该视频的时序动作度序列可表示为A1,A2,A3,……,AM。
进一步地,在获得待检测视频的时序动作度序列的另一个实施例中,通过操作204获取 视频片段的动作度值之后,还可以选择性地执行:
206,对视频片段的动作度值进行归一化处理,将视频片段的动作度值映射到[0,1]的范围 内,得到归一化的动作度值。则,基于实施例中获得的时序动作度序列具体为:由归一化的 动作度值形成的时序动作度序列,其形式为动作度值随时间变化的一维函数,值域范围为 0~1。
例如,可利用Sigmoid函数或Tanh函数将各视频片段的动作度值映射到[0,1]的范围内。 将时序动作度序列中的各动作度值归一化后,可更规范的表示各动作度值及不同动作度值之 间的差异,以便于后续有益于准确地进行动作位置预测。
在本发明的一个具体示例中,通过上述实施例获得时序动作度序列后,具体可以利用预 先设置的动作位置预测算法,例如滑窗法、时序动作度聚合算法等,基于时序动作度序列, 聚合得到视频中的动作预测时域区间。
仍以以上包含M个片段的视频为例,对于时序动作度序列A1,A2,A3,……,AM, 可通过时序动作度聚合算法,聚合得到一个或多个动作实例,可表示为例如A1A2、A5A6A7 等等,其中A1A2表示视频中的第一个片段和第二个片段为一个动作实例,A5A6A7表示视频 中的第五、六、七个片段为一个动作实例。由于A1,A2,A3,……,AM是在时序上的序 列,因此,序列中每个元素均具有对应的时间坐标,从而可以得到每个动作实例的发生时间 区间,即,在时域中的预测时域区间,其表示可能存在动作实例的一系列视频片段在时域中 的位置。
由此,根据视频中多个片段分别对应的动作度值生成视频的时序动作度序列,再对时序 动作度序列进行聚合,从而能够得到视频中一个或多个动作实例的发生时间(如,开始时间 和结束时间)。根据本发明实施例,能够在各种视频中,包括在经过剪辑的视频和未经剪辑的 原始视频中,均可检测到每个动作实例的开始时间和结束时间,实现时域动作检测。
另外,在本发明时域动作检测方法的另一实施例中,还可以包括如下操作:
基于上述时域区间对应的视频片段的动作特征,获取该时域区间对应的视频片段的至少 一个动作类别的分类得分;以及
根据该时域区间对应的视频片段的至少一个动作类别的分类得分,确定时域区间对应的 视频片段的检测动作类别。
本发明实施例中,可以根据实际应用需要设置动作类别的数量,例如应用于多分类(N 个可能类别)时,上述至少一个动作类别的分类得分可包括N+1个:时域区间对应的视频片 段分别对应于N个分类的得分和1个背景类的得分。则,可以选取N+1个分类得分中数值最 高的分类得分对应的都工作类别作为该时域区间对应的视频片段的检测动作类别。
另外,本发明实施例也可应用于识别视频中是否存在特定类别的动作,则上述至少一个 动作类别的分类得分可包括分别对应于视频中是、否存在特定类别的动作的两个得分。
进一步地,在本发明时域动作检测方法的又一实施例中,还可以输出时域区间以及时域 区间对应的视频片段的检测动作类别,输出信息具体可以表示为三元组(动作类别,起始时 间,结束时间)。
由此,基于本发明实施例的时域动作检测方法,便可以获得检测视频中可能包含动作的 时域区间和该动作所属的动作类别,以便用于准确的定位至视频中相应动作类别的位置。
图3为本发明时域动作检测方法再一个实施例的流程图。如图3所示,该实施例的时域 动作检测方法包括:
302,获取视频中可能存在动作实例的时域区间以及该时域区间的至少一相邻片段。
其中,时域区间包括起始时间和结束时间,例如可以表示为起始时间和结束时间对(起 始时间,结束时间)。
示例性地,上述至少一相邻片段包括:视频中时序位于上述时域区间之前的第一相邻片 段,和/或,视频中时序位于上述时域区间之后的第二相邻片段。其中的第一相邻片段和第二 相邻片段分别包括至少一个视频片段。
304,分别提取候选片段中各视频片段的动作特征。
其中,候选片段包括上述时域区间对应的视频片段及其相邻片段。
之后,同时执行操作306和310。
306,对候选片段中各视频片段的动作特征进行池化处理,获得上述时域区间对应的视频 片段的全局特征。
在其中一个具体示例中,可以对提取的候选片段中各视频片段的动作特征进行时域金字 塔式池化处理,获得上述时域区间对应的视频片段的全局特征。
308,基于全局特征确定上述时域区间对应的视频片段的动作完整度得分。
之后,执行操作314。
310,基于上述时域区间对应的视频片段的动作特征,获取该时域区间对应的视频片段的 至少一个动作类别的分类得分。
示例性地,该操作310具体可以通过如下方式实现:
分别基于上述时域区间对应的各视频片段的动作特征,获取该时域区间对应的各视频片 段分别属于上述至少一个动作类别的得分;
分别对该时域区间对应的各视频片段属于同一动作类别的得分求和,获得该时域区间对 应的视频片段的至少一个动作类别的分类得分。
312,根据上述时域区间对应的视频片段的至少一个动作类别的分类得分,确定该时域区 间对应的视频片段的检测动作类别。
314,基于上述时域区间对应的视频片段的分类得分与动作完整度得分,确定该时域区间 对应的视频片段是否包含对应的各动作类别完整的动作实例。
若该时域区间对应的视频片段包含对应的各动作类别完整的动作实例,可以输出该时域 区间以及时域区间对应的视频片段的检测动作类别,输出信息具体可以表示为三元组(检测 动作类别,起始时间,结束时间)。否则,若该时域区间对应的视频片段未包含对应的各动作 类别完整的动作实例,便可以不输出该时域区间以及时域区间对应的视频片段的检测动作类 别。
基于本发明上述实施例提供的时域动作检测方法,对视频进行动作位置预测获得可能包 括动作的位置(即:时域区间)后,提取每个时域区间之前和之后的相邻片段,便可以获得 每个动作位置预测的时域区间的上下文信息,由该时域区间对应的视频片段属于各动作类别 的分类得分和动作完整度得分,确定该时域区间对应的视频片段是否包括所属动作类别完整 的动作实例,从而获得视频中包括完整动作实例的动作位置检测结果。基于本发明实施例, 可以识别出视频中包括各动作类别或特定动作类别完整的动作实例的视频片段,实现对各动 作类别或特定动作类别完整的动作实例的准确识别和精确定位;并且,可以同时获取时域区 间对应的视频片段属于各动作类别的得分和动作完整度得分,提高了整个时域动作检测过程 的执行效率,节省检测时间。
在其中一个示例中,操作306中,具体可以基于预先设置的配置规则,对提取的候选片 段中各视频片段的动作特征进行结构化的时域金字塔式池化处理,获得上述时域区间对应的 视频片段的全局特征。
本发明实施例中,金字塔式是指:候选片段中不同长度的视频片段的动作特征位于不同 的层,位于不同层的、不同长度的视频片段的动作特征形成一个金字塔形状。例如,金字塔 的第1层(最底层)包括整个候选片段的动作特征,金字塔的第2层(金字塔从下往上层数 依次增加)包括候选片段中时域区间对应的视频片段的动作特征。作为本发明实施例金字塔 式结构的一种特殊示例,金字塔式结构也可以仅包括一个层,该层包括整个候选片段的动作 特征。
本发明实施例,提出了结构化的时域金字塔式池化方法,分别抽取时域区间前后和内部 的时间-空间特征进行多层次时域金字塔式池化,可以构造任意长度的候选片段的结构化全局 特征,表达时序上的动作特征,从而可以同时基于各粒度的动作特征及动作特征在时间上的 变化,更精确的定位发生某类动作类别动作实例的视频片段。
在其中一个具体示例中,一种可能的配置规则具体包括:池化层数K,以及时域区间对 应的视频片段、第一相邻片段和/或第二相邻片段在各层的分割部分数BK,其中,K、BK的取 值分别为大于或等于1的整数。时域区间对应的视频片段、第一相邻片段和第二相邻片段这 三阶段的池化层数K可以相同或不同,在同一层的分割部分数BK也可以相同或不同。
则在第一种可能的示例中,预设池化层数K的取值为1。相应地,对提取的候选片段中 各视频片段的动作特征进行时域金字塔式池化处理,包括:
对于预设分割部分数BK的取值为1的任一第一待池化片段,由任一第一待池化片段中各 视频片段的动作特征获取任一第一待池化片段的池化特征;
对于预设分割部分数BK的取值大于1的任一第二待池化片段,将任一第二待池化片段中 的所有视频片段分割为BK个部分,分别由BK个部分中各部分视频片段的动作特征获取对应 部分的池化特征,并对BK个部分的池化特征进行合并,得到任一第二待池化片段的池化特 征;
其中,第一待池化片段包括时域区间对应的视频片段、第一相邻片段和第二相邻片段中 的任意一个或多个;第二待池化片段包括候选片段中第一待池化片段外的其他待池化片段。 例如,若第一待池化片段包括时域区间对应的视频片段,则第二待池化片段包括第一相邻片 段和第二相邻片段;若第一待池化片段包括时域区间对应的视频片段和第一相邻片段,则第 二待池化片段包括第二相邻片段。
在第二种可能的示例中,预设池化层数K的取值大于1。相应地,对提取的候选片段中 各视频片段的动作特征进行时域金字塔式池化处理,包括:
分别针对第k个池化层:对于预设分割部分数BK的取值为1的任一第一待池化片段,由 任一第一待池化片段中各视频片段的动作特征获取任一第一待池化片段在第k层的池化特 征;对于预设分割部分数BK的取值大于1的任一第二待池化片段,将任一第二待池化片段中 的所有视频片段分割为BK个部分,分别由BK个部分中各部分视频片段的动作特征获取对应 部分的池化特征,并对BK个部分的池化特征进行合并,得到任一第二待池化片段在第k层的 池化特征;
分别针对各待池化片段:按照预设方式对所有K个池化层的池化特征进行合并,得到各 待池化片段的池化特征;
其中,第一待池化片段包括时域区间对应的视频片段、第一相邻片段和第二相邻片段中 的任意一个或多个;第二待池化片段包括候选片段中第一待池化片段外的其他待池化片段。
在基于上述第一种和第二种示例的另一个具体示例中,对提取的候选片段中各视频片段 的动作特征进行时域金字塔式池化处理之后,还可以包括:合并时域金字塔式池化后得到的 池化特征,来获得时域区间对应的视频片段的全局特征。
具体地,可以分别对第一相邻片段的池化特征、时域区间对应的视频片段的池化特征和 第二相邻片段的池化特征进行合并,获得时域区间对应的视频片段时序结构化的全局特征。
本发明各实施例中,时序结构是指作的不同阶段构成组合所形成的时间关系上的结构。 全局特征即整个候选片段的动作特征,其包含了比相应时域区间更全面的动作特征。
在又一个具体示例中,另一种可能的配置规则具体包括:池化层数K和候选片段的分割 部分数BK,其中,K、BK的取值分别为大于或等于1的整数。
则在第三种可能的示例中,预设池化层数K的取值大于1。相应地,对提取的候选片段 中各视频片段的动作特征进行时域金字塔式池化处理,包括:
分别针对第k个池化层:识别预设分割部分数BK的取值是否为1;
若预设分割部分数BK的取值为1,由候选片段中各视频片段的动作特征获取候选片段在 第k层的池化特征;
若预设分割部分数BK的取值大于1,将候选片段中的所有视频片段分割为BK个部分, 分别由BK个部分各部分视频片段的动作特征获取对应部分的池化特征,并对BK个部分的池 化特征进行合并,得到候选片段在第k层的池化特征。
在基于上述第三种示例的另一个具体示例中,对提取的候选片段中各视频片段的动作特 征进行时域金字塔式池化处理之后,也可以包括:合并时域金字塔式池化后得到的池化特 征,来获得时域区间对应的视频片段的全局特征。
具体地,可以按照预设方式对K个池化层的池化特征进行合并,获得时域区间对应的视 频片段时序结构化的全局特征。
基于另一种可能的配置规则,在第四种可能的示例中,预设池化层数K的取值为1。相 应地,对提取的候选片段中各视频片段的动作特征进行时域金字塔式池化处理,包括:
识别预设分割部分数BK的取值是否为1;
若预设分割部分数BK的取值为1,分别针对各待池化片段中的任一待池化片段,由任一 待池化片段中各视频片段的动作特征获取任一待池化片段的池化特征,待池化片段包括时域 区间内视频片段、第一相邻片段和第二相邻片段;对所有待池化片段的池化特征进行合并, 获得时域区间对应的视频片段时序结构化的全局特征;
若预设分割部分数BK的取值大于1,将候选片段中的所有视频片段分割为BK个部分, 分别由BK个部分中各部分视频片段的动作特征获取对应部分的池化特征,并对BK个部分的 池化特征进行合并,获得时域区间对应的视频片段时序结构化的全局特征。
本发明上述多个示例,示例性地提出了多种基于时域区间及其相邻区间的时间-空间特征 进行时域金字塔式池化的方法,可以构造出针对任意长度片段、不同层次、不同粒度的全局 特征,以便于根据实际需求和计算资源选择相应的时域金字塔式池化的方法来获得相应的全 局特征,检测时域区间包含某类动作的完整性。
图4为本发明实施例中获得全局特征一个实施例的流程图。该实施例中的配置规则具体 包括:池化层数K,时域区间内视频片段、第一相邻片段和/或第二相邻片段在各层的分割部 分数BK,其中,K、BK的取值分别为大于或等于1的整数。时域区间内视频片段、第一相邻 片段和第二相邻片段这三阶段的池化层数K可以相同或不同,在同一层的分割部分数BK也可 以相同或不同。
如图4所示,该实施例中,对候选片段中各视频片段的动作特征进行池化处理,以及合 并时域金字塔式池化后得到的池化特征,获得上述时域区间对应的视频片段的全局特征,包 括:
402,识别配置规则中的池化层数K的取值是否为1。
若池化层数K的取值为1,执行操作404。否则,若池化层数K的取值大于1,执行操作410。
404,分别针对候选片段中的任一待池化片段,识别该任一待池化片段的分割部分数BK的取值是否为1。
其中,待池化片段包括时域区间对应的视频片段、第一相邻片段和第二相邻片段。
对于分割部分数BK的取值为1的待池化片段,称为第一待池化片段,对于其中的任一第 一待池化片段,执行操作406。对于分割部分数BK的取值大于1的待池化片段,称为第二待 池化片段,对于其中的任一第二待池化片段,执行操作408。
其中,第一待池化片段包括时域区间对应的视频片段、第一相邻片段和第二相邻片段中 的任意一个或多个;第二待池化片段包括候选片段中第一待池化片段外的其他待池化片段。
406,由任一第一待池化片段中各视频片段的动作特征获取该任一第一待池化片段的池化 特征。
之后,执行操作418。
408,将任一第二待池化片段中的所有视频片段分割为BK个部分,分别由BK个部分中各 部分中视频片段的动作特征获取对应部分的池化特征,并对BK个部分的池化特征进行合并, 得到该任一第二待池化片段的池化特征。
之后,执行操作418。
410,分别针对第k个池化层:识别各待池化片段的分割部分数BK的取值是否为1。
其中的待池化片段包括时域区间对应的视频片段、第一相邻片段和第二相邻片段,k的取 值大于0且不大于K。
对于分割部分数BK的取值为1的任一第一待池化片段,称为第一待池化片段,对于其中 的任一第一待池化片段,执行操作412。对于分割部分数BK的取值大于1的待池化片段,称 为第二待池化片段,对于其中的任一第二待池化片段,执行操作414。
412,由该任一第一待池化片段中各视频片段的动作特征获取该任一第一待池化片段在第 k层的池化特征。
之后,执行操作416。
414,将该任一第二待池化片段中的所有视频片段分割为BK个部分,分别由该BK个部分 中各部分中视频片段的动作特征获取对应部分的池化特征,并对BK个部分的池化特征进行合 并,得到该任一第二待池化片段在第k层的池化特征。
416,分别针对各待池化片段:按照预设方式对所有K个池化层的池化特征进行合并,得 到各待池化片段的池化特征。
418,分别对第一相邻片段的池化特征、时域区间对应的视频片段的池化特征和第二相邻 片段的池化特征进行合并,获得时域区间对应的视频片段时序结构化的全局特征。
以下以一个具体应用为例,对本发明结构化的时域金字塔式池化方法进行进一步的详细 说明,具体如下:
对于动作位置预测得到的任意一个时域区间(起始时间,结束时间),它的内部、之前、之后一共有三个阶段(即:本发明实施例中的时域区间内视频片段、第一相邻片段和第二相邻片段),每个阶段内包括若干小的视频片段,对每一个视频片段,经过一个用于动作分 类的卷积神经网络进行特征提取,可以得到一个动作特征,具体体现为一组特征向量vt。对 时域区间内所有的视频片段s,…,e的特征向量vt,…,ve,第k层时域金字塔将这些视频片段 s,…,e作为一个整体等分成Bk个部分,每个部分的起止片段分别表示为ski,…,eki,那么对于 第k层第i个部分,求取vski,…,veki的平均值(另外也可以按照预设规则去其最大值或最小 值)作为用于表示该部分信息的池化向量,将这Bk个部分的池化向量按照视频片段的时序进 行合并作为第k层池化向量;再对时域区间内视频片段在所有K层的池化向量按照视频片段 的时序进行合并,例如以平均的方式合并,得到一个时域区间的池化向量。同样,也可以对 第一相邻片段和第二相邻片段进行类似操作,最终获得的时序结构化、金字塔结构的池化向 量(即:全局特征)是时域区间内视频片段、第一相邻片段和第二相邻片段这三各阶段的池 化向量合并而成,其中不同阶段的池化层数K和分割部分数Bk的配置规则可以不同,例如, 配置规则为由金字塔的第1层至更高层,每层的分割部分数依次增多。
图5为本发明实施例中获得全局特征另一个实施例的流程图。该实施例中,配置规则具 体包括:池化层数K和候选片段的分割部分数BK,其中,K、BK的取值分别为大于或等于1的整数。如图5所示,该实施例包括:
502,识别配置规则中的池化层数K的取值是否为1。
若池化层数K的取值为1,执行操作504。否则,若池化层数K的取值大于1,执行操作510。
504,识别分割部分数BK的取值是否为1。
若分割部分数BK的取值1,执行操作506。若分割部分数BK的取值大于1,执行操作508。
506,分别针对各待池化片段中的任一待池化片段,由该任一待池化片段中各视频片段的 动作特征获取该任一待池化片段的池化特征,并对所有待池化片段的池化特征进行合并,获 得上述时域区间对应的视频片段时序结构化的全局特征。
其中,待池化片段包括时域区间对应的视频片段、第一相邻片段和第二相邻片段。
之后,不执行本实施例的后续流程。
508,将候选片段中的所有视频片段分割为BK个部分,例如,可以将候选片段中的所有 视频片段平均分割为BK个部分,分别由BK个部分中各部分中视频片段的动作特征获取对应 部分的池化特征,并对该BK个部分的池化特征进行合并,得到上述时域区间对应片段时序结 构化的全局特征。
之后,不执行本实施例的后续流程。
510,分别针对第k个池化层:识别分割部分数BK的取值是否为1,其中,k的取值大于 0且不大于K。
若分割部分数BK的取值为1,执行操作512。若分割部分数BK大于1,执行操作514。
512,由候选片段中各视频片段的动作特征获取该候选片段在第k层的池化特征。
之后,执行操作516。
514,将候选片段中的所有视频片段分割为BK个部分,分别由BK个部分中各部分中视频 片段的动作特征获取对应部分的池化特征,并对该BK个部分的池化特征进行合并,得到候选 片段在第k层的池化特征。
516,按照预设方式对K个池化层的池化特征进行合并,获得时域区间对应的视频片段时 序结构化的全局特征。
以下以一个具体应用为例,对本发明结构化的时域金字塔式池化方法进行进一步的详细 说明,具体如下。该应用示例中,K的取值为2,Bk的取值为2:
对一个候选片段,金字塔的第1层(即:最底层)为整个候选片段,先处理第1层,即:对整个候选片段内各视频片段的特征向量进行平均合并,得到一个池化向量;再处理第2 层,即:将该候选片段分为前后50%两部分,在每个部分内部分别进行特征向量的平均合并,得到两组池化向量;
然后将金字塔两层的所有池化向量,共3组,按照时序关系进行拼接,得到一个更高维 度的特征向量,即该时域区间对应的视频片段的全局特征。这里拼接向量指将两个池化向量 首尾相接,得到一个维度更高的池化向量。
图6为本发明实施例中确定时域区间对应的视频片段的完整度得分一个实施例的流程 图。如图6所示,该实施例中,基于全局特征确定时域区间对应的视频片段的动作完整度得 分,具体可以包括:
602,对全局特征进行分类,得到上述候选片段对应的至少一个动作类别。
对N种可能的动作类别,分类结果将得到N+1个动作类别得分,其中的第N+1类为背景 类。其中,N为大于零的整数。
604,分别通过上述候选片段对应的各动作类别相关的分类器,基于全局特征识别上述时 域区间对应的视频片段包括当前动作类别完整的动作实例的程度,得到上述时域区间对应的 视频片段分别对应各动作类别的动作完整度得分。
即:对N种可能的动作类别,就对应N个分类器,每个分类器将接收到的全局特征与预 先学习的对应动作类别完整动作的特征进行比对,输出一个得分,即动作完整度。该动作完 整度得分表示一个时域区间包括某类动作类别完整的动作实例的程度(也即:可能性)。
图7为本发明时域动作检测方法又一个实施例的流程图。如图7所示,该实施例的时域 动作检测方法包括:
702,分别对视频中的各视频片段进行动作度估计,获得时序动作度序列。
704,基于上述时序动作度序列进行动作位置预测,获得视频中可能存在动作实例的时域 区间,该时域区间包括起始时间和结束时间,例如可以表示为起始时间和结束时间对(起始 时间,结束时间)。
根据动作位置预测结果,分别以各动作实例的时域区间作为当前时域区间,执行操作 706~728。
706,提取当前时域区间内所有视频片段,以及当前时域区间之前预设长度的第一相邻片 段和之后预设长度的第二相邻片段,同一动作实例的时域区间内所有视频片段、第一相邻片 段和第二相邻片段构成同一动作实例的候选片段。
其中,第一相邻片段和第二相邻片段分别包括至少一个视频片段。
708,以当前时域区间对应的候选片段作为当前候选片段,分别提取当前候选片段中各视 频片段的动作特征。
之后,同时执行操作710和714。
710,分别获取当前时域区间内各视频片段分别对应各动作类别的得分。
712,分别对当前时域区间内所有视频片段对应同一动作类别的得分求和,获得当前时域 区间对应的视频片段对应各动作类别的分类得分。
714,基于当前时域区间对应的视频片段的动作特征、第一相邻片段的动作特征和第二相 邻片段的动作特征,获取当前时域区间对应的视频片段时序结构化的全局特征。
716,对全局特征进行分类,得到当前候选片段对应的各动作类别。
718,通过当前候选片段对应的各动作类别相关的分类器,基于全局特征识别当前时域区 间对应的视频片段包括当前动作类别的完整动作实例的可能性,得到当前时域区间对应的视 频片段分别对应各动作类别的动作完整度得分。
其中,每一个动作类别对应一个分类器,即:该动作类别相关的分类器。
分别针对当前时域区间对应的视频片段和当前候选片段对应的所有动作类别中的各动作 类别,执行操作720~724。
720,基于时域区间对应的视频片段对应各动作类别的分类得分与动作完整度得分,获取 当前时域区间对应的视频片段是否包括对应各动作类别完整的动作实例的置信度值。
示例性地,该操作720中,可以以当前时域区间对应的视频片段对应的各动作类别作为 当前动作类别,对当前时域区间对应视频片段对应当前动作类别的分类得分与动作完整度得 分求取乘积或者求和,获取当前时域区间对应的视频片段是否包括当前动作类别完整的动作 实例的置信度值。
722,分别针对当前时域区间对应的视频片段和当前候选片段对应的所有动作类别中的各 动作类别,基于获取到的置信度值是否大于预设阈值,确定当前时域区间对应的视频片段是 否包含对应动作类别完整的动作实例。
本发明实施例中的预设阈值在实际应用中可以根据对检测结果的质量要求设置,并且可 以根据需要调整。
若当前时域区间对应的视频片段包含对应动作类别完整的动作实例,执行操作726。否 则,不执行本实施例的后续流程。
724,对于包含对应动作类别完整的动作实例的视频片段作为目标视频片段,获取目标视 频片段的动作位置检测结果。
其中,目标视频片段的动作位置检测结果包括完整的动作实例对应的检测动作类别、该 动作实例的起始时间和结束时间,具体可以表示为三元组(动作类别,起始时间,结束时 间),视频的动作位置检测结果包括各目标视频片段的动作位置检测结果。
可选地,若通过操作722,目标视频片段包括完整的动作实例对应的动作类别大于一个, 则可以选择对应于最大置信度值的一个动作实例对应的检测动作类别、该动作实例的起始时 间和结束时间作为目标视频片段的动作位置检测结果。
726,分别针对各目标视频片段包括的各完整的动作实例:基于该目标视频片段的全局特 征,对目标视频片段的动作位置检测结果中的时域区间进行位置回归,获得起止位置偏移 量,该起止位置偏移量包括起始时间的位置偏移量和结束时间的位置偏移量。
728,通过起止位置偏移量对动作位置检测结果中的时域区间进行调整,获得调整后的动 作位置检测结果,具体可以表示为三元组(动作类别,起始时间,结束时间)。
具体地,对一个视频进行时域动作检测时,可以在获得一个时域区间的动作位置检测结 果时,即实时输出该时域区间的动作位置检测结果;也可以在获得整个视频的动作位置检测 结果后,输出整个视频的动作位置检测结果,其可能包括一个或多个时域区间的动作位置检 测结果。
示例性地,可以将目标视频片段的全局特征输入一预先训练好的线性回归模型,由该线 性回归模型预测得到位置偏移量,并通过起止位置偏移量对动作位置检测结果中的时域区间 进行调整,从而获得更加准确的动作位置检测结果,以便从整个视频中得到与实际动作实例 的起止时间更接近的动作实例视频片段。
本发明实施例中,可以预先通过样本视频对初始线性回归模型进行训练,使得训练好的 线性回归模型接收到视频、候选片段的全局特征及其包括的时域区间后,可以基于全局特征 精确的定位出某动作类别完整的动作实例的准确时域区间,从而输出输入的时域区间中起始 时间的位置偏移量和结束时间的位置偏移量。输入的时域区间与准确时域区间一致时,起始 时间的位置偏移量和结束时间的位置偏移量均为0。其中的样本视频包含某动作类别完整的动 作实例、以及该类动作类别完整的动作实例精确的时域区间。
本发明实施例通过位置回归对视频中的动作起止时间(即:时域区间)进行更精细的调 整,进一步提升了在高交叠率(IOU)下的检测准确率。
基于本发明上述实施例提供的时域动作检测方法,可以识别出视频中包括各动作类别或 特定动作类别完整的动作实例的视频片段,实现对各动作类别或特定动作类别完整的动作实 例的准确识别和精确定位;并且,可以同时获取时域区间对应的视频片段属于各动作类别的 得分和动作完整度得分,提高了整个时域动作检测过程的执行效率,节省检测时间。本发明 实施例可以应用于对对各种长度的视频(包括剪辑出的视频和未经剪辑的视频)的检测,本 发明实施例应用于检测未经剪辑、较长的视频时,对视频中动作类别的识别和位置的精确定 位效果尤其显著。
本发明实施例的时域动作检测方法,可用于对视频进行各种预设特定动作类别(可称 为:目标动作类别)动作实例的检测,例如,应用于车辆驾驶场景中通过监控视频监控司机 是否存在疲劳驾驶行为(如:点头、闭眼等动作)时,可以设定点头、闭眼等疲劳驾驶行为 动作分别为一个目标动作类别,将监控视频作为视频,基于本发明实施例的时域动作检测方 法检测监控视频中是否存在完整的点头、闭眼等目标动作类别的完整动作,每个动作分别称 为一个动作实例。若监控视频中存在一个完整的点头、闭眼等目标动作类别的完整动作,则 确认司机发生了疲劳驾驶行为。
本发明上述实施例中,操作706~722具体可以通过一个预先训练好的神经网络实现。
示例性地,可以通过样本视频片段对初始神经网络模型进行训练,使得神经网络模型输 出的动作位置检测结果与样本视频片段预先标注的参考动作位置信息(动作类别,起始时 间,结束时间)之间的差别小于预设条件,从而获得训练好的神经网络,其中的样本视频片 段预先标注有参考动作位置信息(动作类别,起始时间,结束时间)。
本发明实施例的时域动作检测方法应用于各种具体场景时,基于时域区间对应的视频片 段的分类得分与动作完整度得分,确定该时域区间对应的视频片段是否包含目标动作类别完 整的动作实例,具体可以通过如下方式实现:识别时域区间对应的视频片段对应各动作类别 的分类得分中,是否存在分类得分大于预设第一数值的预设动作类别(此时认为时域区间对 应的视频片段属于该预设动作类别);以及识别时域区间对应的视频片段对应各动作类别的动 作完整度得分中,是否存在动作完整度得分大于预设第二数值的预设动作类别(此时认为时 域区间对应的视频片段包含了该预设动作类别的完整动作实例);
响应于存在分类得分大于预设第一数值的预设动作类别和/或动作完整度得分大于预设第 二数值的预设动作类别,以该分类得分大于预设第一数值的预设动作类别和/或动作完整度得 分大于预设第二数值的预设动作类别作为目标动作类别,基于该时域区间对应的视频片段对 应的目标动作类别的分类得分与动作完整度得分,确定该时域区间对应的视频片段是否包含 目标动作类别完整的动作实例。
相应地,该应用实施例中,输出的动作位置检测结果具体包括:时域区间对应的视频片 段包含完整的动作实例所属的目标动作类别、起始时间和结束时间。
图8为本发明时域动作检测***一个实施例的结构示意图。本发明各实施例的时域动作 检测***可用于实现上述各实施例的时域动作检测方法。如图8所示,该实施例的时域动作 检测***包括:第一获取模块,特征提取模块,池化处理模块和第一确定模块。其中:
第一获取模块,用于获取视频中存在动作实例的时域区间以及所述时域区间的至少一相 邻片段。
其中,上述时域区间的至少一相邻片段包括:视频中时序位于该时域区间之前的第一相 邻片段,和/或,视频中时序位于该时域区间之后的第二相邻片段。第一相邻片段和第二相邻 片段分别包括至少一个视频片段。
特征提取模块,用于分别提取候选片段中各视频片段的动作特征,其中,候选片段包括 时域区间对应的视频片段及其相邻片段。
池化处理模块,用于对候选片段中各视频片段的动作特征进行池化处理,获得上述时域 区间对应的视频片段的全局特征。
第一确定模块,用于基于上述全局特征确定上述时域区间对应的视频片段的动作完整度 得分。
基于本发明上述实施例提供的时域动作检测***,通过获取视频中存在动作实例的时域 区间以及时域区间的至少一相邻片段,提取该时域区间以及时域区间的至少一相邻片段的动 作特征并进行池化处理,获得该时域区间对应的视频片段的全局特征,基于全局特征确定时 域区间对应的视频片段的动作完整度得分。本发明实施例基于包含时域区间的上下文信息的 全局特征来确定时域区间对应的视频片段的动作完整度,从而有益于准确的确定时域区间是 否包含完整的动作实例,提高了动作完整度识别的准确率。
图9为本发明实施例中第一获取模块一个具体实施例的结构示意图。如图9所示,该实 施例的第一获取模块具体包括:
动作估计子模块,用于分别对视频中的各视频片段进行动作度估计,获得时序动作度序 列。
位置预测子模块,用于基于上述时序动作度序列进行动作位置预测,获得视频中存在动 作实例的时域区间,其中的时域区间包括起始时间和结束时间。
提取子模块,用于从视频中提取上述时域区间之前的第一相邻片段和/或所述时域区间之 后的第二相邻片段。
示例性地,动作估计子模块具体可以包括:
图像获取单元,用于分别针对视频中的任一视频片段:提取一帧图像作为原始图像,以 及提取任一视频片段的光流,并对获得的光流场图片进行合并,得到拼合光流场图像;
第一子卷积神经网络,用于对原始图像进行动作度估计,得到第一动作度值;
第二子卷积神经网络,用于对拼合光流场图像进行动作度估计,得到第二动作度值;
计算单元,用于由同一视频片段的第一动作度值与第二动作度值,获取任一视频片段的 动作度值。视频中所有视频片段基于时序关系的动作度值形成时序动作度序列。
进一步地,在另一个具体示例中,动作估计子模块还可以包括:归一化单元,用于对计 算单元获取的视频片段的动作度值进行归一化处理,得到归一化的动作度值。相应地,该实 施例中,时序动作度序列具体为:由视频中所有视频片段归一化的动作度值形成的时序动作 度序列。
图10为本发明时域动作检测***另一个实施例的结构示意图。如图10所示,与上述实 施例的时域动作检测***相比,本实施例的时域动作检测***还包括:第二获取模块和第二 确定模块。其中:
第二获取模块,用于基于时域区间对应的视频片段的动作特征,获取该时域区间对应的 视频片段的至少一个动作类别的分类得分。
第二确定模块,用于根据时域区间对应的视频片段的至少一个动作类别的分类得分,确 定该时域区间对应的视频片段的检测动作类别。
进一步地,再参见图10,在又一个实施例中,时域动作检测***还可以包括:输出模 块,用于输出时域区间以及时域区间对应的视频片段的检测动作类别。
图11为本发明实施例中第二获取模块一个具体实施例的结构示意图。如图11所示,该 实施例中,第二获取模块具体包括:
第一获取子模块,用于分别基于时域区间对应的各视频片段的动作特征,获取该时域区 间对应的各视频片段分别属于至少一个动作类别的得分;
第一计算子模块,用于分别对上述时域区间对应的各视频片段属于同一动作类别的得分 求和,获得该时域区间对应的视频片段的至少一个动作类别的分类得分。
图12为本发明实施例中池化模块一个具体实施例的结构示意图。如图12所示,该实施 例中,池化模块具体包括:池化处理子模块,用于基于预先设置的配置规则,对提取的候选 片段中各视频片段的动作特征进行时域金字塔式池化处理。
在其中一种配置规则中,具体包括:池化层数K和候选片段的分割部分数BK,其中,K、BK的取值分别为大于或等于1的整数。
基于该配置规则,在其中一个具体示例中,池化层数K的取值为1。池化处理子模块具 体用于:
识别预设分割部分数BK的取值是否为1;
若预设分割部分数BK的取值为1,分别针对各待池化片段中的任一待池化片段,由任一 待池化片段中各视频片段的动作特征获取任一待池化片段的池化特征,待池化片段包括时域 区间内视频片段、第一相邻片段和第二相邻片段;对所有待池化片段的池化特征进行合并, 获得时域区间对应的视频片段时序结构化的全局特征;以及
若预设分割部分数BK的取值大于1,将候选片段中的所有视频片段分割为BK个部分, 分别由BK个部分中各部分视频片段的动作特征获取对应部分的池化特征,并对BK个部分的 池化特征进行合并,获得时域区间对应的视频片段时序结构化的全局特征
进一步地,再参见图12,在池化模块的另一个实施例中,还可以选择性地包括合并子模 块,用于合并时域金字塔式池化后得到的池化特征。
在另一个具体示例中,配置规则具体包括:池化层数K和候选片段的分割部分数BK,其 中,K池化层数K的取值大于1,分割部分数BK的取值分别为大于或等于1的整数。
该另一个具体示例中,池化处理子模块具体用于:分别针对第k个池化层:识别预设分 割部分数BK的取值是否为1;若预设分割部分数BK的取值为1,由候选片段中各视频片段的 动作特征获取候选片段在第k层的池化特征;若预设分割部分数BK的取值大于1,将候选片 段中的所有视频片段分割为BK个部分,分别由BK个部分各部分视频片段的动作特征获取对 应部分的池化特征,并对BK个部分的池化特征进行合并,得到候选片段在第k层的池化特 征;
合并子模块,具体用于按照预设方式对K个池化层的池化特征进行合并,获得时域区间 对应的视频片段时序结构化的全局特征。
在又一个具体示例中,配置规则具体包括:池化层数K,以及时域区间对应的视频片 段、第一相邻片段和/或第二相邻片段在各层的分割部分数BK,其中,设池化层数K的取值 为1,分割部分数BK的取值分别为大于或等于1的整数。
则在该又一个具体示例中,池化处理子模块具体用于:对于预设分割部分数BK的取值为 1的任一第一待池化片段,由任一第一待池化片段中各视频片段的动作特征获取任一第一待池 化片段的池化特征;对于预设分割部分数BK的取值大于1的任一第二待池化片段,将任一第 二待池化片段中的所有视频片段分割为BK个部分,分别由各部分中视频片段的动作特征获取 对应部分的池化特征,并对BK个部分的池化特征进行合并,得到任一第二待池化片段的池化 特征;第一待池化片段包括时域区间对应的视频片段、第一相邻片段和第二相邻片段中的任 意一个或多个;第二待池化片段包括候选片段中第一待池化片段外的其他待池化片段;
合并子模块,具体用于分别对第一相邻片段的池化特征、时域区间对应的视频片段的池 化特征和第二相邻片段的池化特征进行合并,获得时域区间对应的视频片段时序结构化的全 局特征。
在再一个具体示例中,配置规则具体包括:池化层数K,以及时域区间对应的视频片 段、第一相邻片段和/或第二相邻片段在各层的分割部分数BK,其中,设池化层数K的取值 大于,分割部分数BK的取值分别为大于或等于1的整数。
则在该再一个具体示例中,池化处理子模块具体用于:分别针对第k个池化层:对于预 设分割部分数BK的取值为1的任一第一待池化片段,由任一第一待池化片段中各视频片段的 动作特征获取任一第一待池化片段在第k层的池化特征;对于预设分割部分数BK的取值大于 1的任一第二待池化片段,将任一第一待池化片段中的所有视频片段分割为BK个部分,分别 由各部分中视频片段的动作特征获取对应部分的池化特征,并对BK个部分的池化特征进行合 并,得到任一第一待池化片段在第k层的池化特征;以及分别针对各待池化片段:按照预设 方式对所有K个池化层的池化特征进行合并,得到各待池化片段的池化特征;第一待池化片 段包括时域区间对应的视频片段、第一相邻片段和第二相邻片段中的任意一个或多个;第二 待池化片段包括候选片段中第一待池化片段外的其他待池化片段;
合并子模块,具体用于分别对第一相邻片段的池化特征、时域区间对应的视频片段的池 化特征和第二相邻片段的池化特征进行合并,获得时域区间对应的视频片段时序结构化的全 局特征。图13为本发明实施例中第一确定模块一个具体实施例的结构示意图。如图13所 示,该实施例中,第一确定模块具体包括:
分类子模块,用于对全局特征进行分类,得到候选片段对应的至少一个动作类别;
至少一个分类器,分别与候选片段对应的各动作类别相关,用于基于全局特征识别时域 区间对应的视频片段包括当前动作类别完整的动作实例的程度,得到时域区间对应的视频片 段分别对应各动作类别的动作完整度得分。
进一步地,再参见图10,在时域动作检测***的又一实施例中,还可以包括:第三确定 模块,用于基于时域区间对应的视频片段的分类得分与动作完整度得分,确定时域区间对应 的视频片段是否包含对应的各动作类别完整的动作实例。
图14为本发明实施例中第三确定模块一个具体实施例的结构示意图。如图14所示,该 实施例中,第三确定模块具体包括:
第二计算子模块,用于分别针对时域区间对应的视频片段对应的任一动作类别,对时域 区间对应的视频片段对应任一动作类别的分类得分与动作完整度得分求取乘积或者求和,获 得时域区间对应的视频片段是否包含任一动作类别完整的动作实例的置信度值;
确定子模块,用于基于置信度值是否大于预设阈值,确定时域区间对应的视频片段是否 包含任一动作类别完整的动作实例。
可选地,确定子模块,还可用于在时域区间对应的视频片段包含完整的动作实例对应的 动作类别大于一个时,选择对应于最大置信度值的一个动作类别作为时域区间对应的视频片 段的检测动作类别。
进一步地,再参见图10,在时域动作检测***的再一实施例中,还可以包括:位置回归 模块,用于在时域区间对应的视频片段包含至少一个动作类别完整的动作实例时,基于全局 特征对时域区间进行位置回归,获得起止位置偏移量,并通过起止位置偏移量对时域区间进 行调整,其中的起止位置偏移量包括时域区间中起始时间和结束时间的位置偏移量。
相应地,该实施例中,输出模块,具体用于输出调整后的时域区间以及时域区间对应的 视频片段的检测动作类别。
图15为本发明时域动作检测***又一实施例的结构示意图。如图15所示,与上述各实 施例相比,该实施例的时域动作检测***还包括:识别模块,用于识别时域区间对应的视频 片段的至少一个动作类别的分类得分中,是否存在分类得分大于预设第一数值的预设动作类 别;以及识别动作完整度得分中,是否存在动作完整度得分大于预设第二数值的预设动作类 别。
相应地,该实施例中,第三确定模块,具体用于在存在分类得分大于预设第一数值的预 设动作类别和/或动作完整度得分大于预设第二数值的预设动作类别时,以分类得分大于预设 第一数值的预设动作类别和/或动作完整度得分大于预设第二数值的预设动作类别作为目标动 作类别,基于时域区间对应的视频片段对应的目标动作类别的分类得分与动作完整度得分, 确定时域区间对应的视频片段是否包含目标动作类别完整的动作实例;
输出模块,具体用于输出目标动作类别及其时域区间。
另外,本发明实施例中还提供了一种电子设备,包括本发明上述任一实施例的时域动作 检测***。
此外,本发明实施例中还提供了另一种电子设备,包括:
存储器,用于存储可执行指令;以及
处理器,用于与存储器通信以执行可执行指令从而完成以下操作:
获取视频中存在动作实例的时域区间以及时域区间的至少一相邻片段;
分别提取候选片段中各视频片段的动作特征,其中,候选片段包括时域区间对应的视频 片段及其相邻片段;
对候选片段中各视频片段的动作特征进行池化处理,获得时域区间对应的视频片段的全 局特征;
基于全局特征确定时域区间对应的视频片段的动作完整度得分。
本发明各实施例中的电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服 务器等。
另外,本发明实施例还提供了一种计算机存储介质,用于存储计算机可读取的指令,该 指令被执行时实现以下操作:
获取视频中存在动作实例的时域区间以及时域区间的至少一相邻片段;
分别提取候选片段中各视频片段的动作特征,其中,候选片段包括时域区间对应的视频 片段及其相邻片段;
对候选片段中各视频片段的动作特征进行池化处理,获得时域区间对应的视频片段的全 局特征;
基于全局特征确定时域区间对应的视频片段的动作完整度得分。
基于本发明上述各实施例的电子设备和计算机存储介质,基于包含时域区间的上下文信 息的全局特征来确定时域区间对应的视频片段的动作完整度,从而有益于准确的确定时域区 间是否包含完整的动作实例,提高了动作完整度识别的准确率。
图16为本发明电子设备一个具体应用实施例的结构示意图。图16示出了适于用来实现 本申请实施例的终端设备或服务器的电子设备的结构示意图。如图16所示,该电子设备包括 一个或多个处理器、通信部等,所述一个或多个处理器例如:一个或多个中央处理单元 (CPU),和/或一个或多个图像处理器(GPU)等,处理器可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而 执行各种适当的动作和处理。通信部可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,处理器可与只读存储器和/或随机访问存储器中通信以执行可执行指令, 通过总线与通信部相连、并经通信部与其他目标设备通信,从而完成本申请实施例提供的任 一项方法对应的操作,例如,获取视频中存在动作实例的时域区间以及所述时域区间的至少 一相邻片段;分别提取候选片段中各视频片段的动作特征,其中,所述候选片段包括所述时 域区间对应的视频片段及其相邻片段;对所述候选片段中各视频片段的动作特征进行池化处 理,获得所述时域区间对应的视频片段的全局特征;基于所述全局特征确定所述时域区间对 应的视频片段的动作完整度得分。
此外,在RAM中,还可存储有装置操作所需的各种程序和数据。CPU、ROM以及RAM 通过总线彼此相连。在有RAM的情况下,ROM为可选模块。RAM存储可执行指令,或在运 行时向ROM中写入可执行指令,可执行指令使处理器执行上述通信方法对应的操作。输入/ 输出(I/O)接口也连接至总线。通信部可以集成设置,也可以设置为具有多个子模块(例如 多个IB网卡),并在总线链接上。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包 括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安 装入存储部分。
需要说明的,如图16所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实 际需要对上述图16的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置 上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU 集成在CPU上,通信部可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明公开的保护范围。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程 序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上 的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对 应执行本申请实施例提供的方法步骤对应的指令,例如,获取视频中存在动作实例的时域区 间以及所述时域区间的至少一相邻片段的指令;分别提取候选片段中各视频片段的动作特征 的指令,其中,所述候选片段包括所述时域区间对应的视频片段及其相邻片段;对所述候选 片段中各视频片段的动作特征进行池化处理的指令,获得所述时域区间对应的视频片段的全 局特征的指令;基于所述全局特征确定所述时域区间对应的视频片段的动作完整度得分的指 令。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可 拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限 定的上述功能。
本发明实施例,例如可以应用于处理如下场景:
场景1:视频分享网站可以分析用户向网站上传的视频,基于视频中包含的完整动作实例 所属的动作类别,自动生成视频内容的相关标签(例如,跑步、跳高、竞走、撑杆跳、跳远 及三级跳等体育运动类的动作类别标签,以及日常生活活动等动作类别标签),将视频中最相 关的片段(即:包含该动作类别完整的动作实例的视频片段)而不是冗长的整个视频推送给 其他感兴趣的***,促进视频的高效搜索和快速传播。
场景2:用户视频分享网站或视频直播网站,需要分析网站用户上传的视频或直播视频中 是否有违规的动作/行为,可基于本发明实施例提供的时域动作检测方法对用户上传的视频 或直播视频进行检测,如存在违规的动作/行为,有益于准确定位这些动作/行为发生的时间 及其动作类别。
场景3:监控场景,在医院、护理所乃至家中,基于本发明实施例提供的时域动作检测方 法,通过监控视频对照顾病人、长者或儿童的服务人员进行监管,以便出现***行为时快速 做出反应。
场景4:在机器人/自动驾驶汽车与使用者的交互过程中,需要检测某些特定动作的发生 或结束来引导机器人的特定行为,这就基于本发明实施例提供的时域动作检测方法,准确检 测监控视频中的某些特定动作(即:特定动作类别的动作)、精确定位这些特定动作的开始时 间和结束时间。
本发明实施例具有以下总的有益技术效果:
可以识别出待检测视频中包括各动作类别或特定动作类别完整的动作实例的视频片段, 实现对各动作类别或特定动作类别完整的动作实例的准确识别和精确定位;
可以同时获取时域区间对应的视频片段属于各动作类别的分类得分和动作完整度得分, 提高了整个时域动作检测过程的执行效率,节省检测时间;
提出了结构化的时域金字塔池化方法,分别抽取时域区间前后和内部的时间-空间特征进 行多层次时域金字塔池化,可以构造任意长度的候选片段的结构化全局特征,表达时序上的 动作特征,从而可以同时基于各粒度的动作特征及动作特征在时间上的变化,更精确的定位 发生某类动作类别动作实例的视频片段;
通过位置回归对待检测视频的动作起止时间进行更精细的调整,进一步提升了在高交叠 率(IOU)下的检测准确率。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指 令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行 时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘 等各种可以存储程序代码的介质。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施 例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言,由 于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即 可。
可能以许多方式来实现本发明的方法和***、设备。例如,可通过软件、硬件、固件或 者软件、硬件、固件的任何组合来实现本发明的方法和***、设备。用于所述方法的步骤的 上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它 方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这 些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行 根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所 公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例 是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从 而设计适于特定用途的带有各种修改的各种实施例。
Claims (10)
1.一种时域动作检测方法,其特征在于,包括:
获取视频中存在动作实例的时域区间以及所述时域区间的至少一相邻片段;
分别提取候选片段中各视频片段的动作特征,其中,所述候选片段包括所述时域区间对应的视频片段及其相邻片段;
对所述候选片段中各视频片段的动作特征进行池化处理,获得所述时域区间对应的视频片段的全局特征;
基于所述全局特征确定所述时域区间对应的视频片段的动作完整度得分。
2.根据权利要求1所述的方法,其特征在于,所述至少一相邻片段包括:所述视频中时序位于所述时域区间之前的第一相邻片段,和/或,所述视频中时序位于所述时域区间之后的第二相邻片段;所述第一相邻片段和所述第二相邻片段分别包括至少一个视频片段。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
基于所述时域区间对应的视频片段的动作特征,获取所述时域区间对应的视频片段的至少一个动作类别的分类得分;
根据所述时域区间对应的视频片段的至少一个动作类别的分类得分,确定所述时域区间对应的视频片段的检测动作类别。
4.根据权利要求3所述的方法,其特征在于,所述基于所述时域区间对应的视频片段的动作特征,获取所述时域区间对应的视频片段的至少一个动作类别的分类得分,包括:
分别基于所述时域区间对应的各视频片段的动作特征,获取所述时域区间对应的各视频片段分别属于所述至少一个动作类别的得分;
分别对所述时域区间对应的各视频片段属于同一动作类别的得分求和,获得所述时域区间对应的视频片段的至少一个动作类别的分类得分。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述对所述候选视频片段中各视频片段的动作特征进行池化处理,包括:
对提取的候选片段中各视频片段的动作特征进行时域金字塔式池化处理。
6.根据权利要求5所述的方法,其特征在于,所述对提取的候选片段中各视频片段的动作特征进行时域金字塔式池化处理之后,还包括:
合并时域金字塔式池化后得到的池化特征。
7.一种时域动作检测***,其特征在于,包括:
第一获取模块,用于获取视频中存在动作实例的时域区间以及所述时域区间的至少一相邻片段;
特征提取模块,用于分别提取候选片段中各视频片段的动作特征,其中,所述候选片段包括所述时域区间对应的视频片段及其相邻片段;
池化处理模块,用于对所述候选片段中各视频片段的动作特征进行池化处理,获得所述时域区间对应的视频片段的全局特征;
第一确定模块,用于基于所述全局特征确定所述时域区间对应的视频片段的动作完整度得分。
8.一种电子设备,其特征在于,包括权利要求23至42任意一项所述的时域动作检测***。
9.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;以及
处理器,用于与所述存储器通信以执行所述可执行指令从而完成以下操作:
获取视频中存在动作实例的时域区间以及所述时域区间的至少一相邻片段;
分别提取候选片段中各视频片段的动作特征,其中,所述候选片段包括所述时域区间对应的视频片段及其相邻片段;
对所述候选片段中各视频片段的动作特征进行池化处理,获得所述时域区间对应的视频片段的全局特征;
基于所述全局特征确定所述时域区间对应的视频片段的动作完整度得分。
10.一种计算机存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时实现以下操作:
获取视频中存在动作实例的时域区间以及所述时域区间的至少一相邻片段;
分别提取候选片段中各视频片段的动作特征,其中,所述候选片段包括所述时域区间对应的视频片段及其相邻片段;
对所述候选片段中各视频片段的动作特征进行池化处理,获得所述时域区间对应的视频片段的全局特征;
基于所述全局特征确定所述时域区间对应的视频片段的动作完整度得分。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710263004.2A CN108229280B (zh) | 2017-04-20 | 2017-04-20 | 时域动作检测方法和***、电子设备、计算机存储介质 |
PCT/CN2018/083924 WO2018192570A1 (zh) | 2017-04-20 | 2018-04-20 | 时域动作检测方法和***、电子设备、计算机存储介质 |
SG11201909651V SG11201909651VA (en) | 2017-04-20 | 2018-04-20 | Time domain motion detection method and system, electronic device and computer storage medium |
US16/234,897 US10915741B2 (en) | 2017-04-20 | 2018-12-28 | Time domain action detecting methods and system, electronic devices, and computer storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710263004.2A CN108229280B (zh) | 2017-04-20 | 2017-04-20 | 时域动作检测方法和***、电子设备、计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108229280A true CN108229280A (zh) | 2018-06-29 |
CN108229280B CN108229280B (zh) | 2020-11-13 |
Family
ID=62656586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710263004.2A Active CN108229280B (zh) | 2017-04-20 | 2017-04-20 | 时域动作检测方法和***、电子设备、计算机存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10915741B2 (zh) |
CN (1) | CN108229280B (zh) |
SG (1) | SG11201909651VA (zh) |
WO (1) | WO2018192570A1 (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108615011A (zh) * | 2018-04-24 | 2018-10-02 | 东南大学 | 基于多尺度滑动窗口的非修剪视频行为识别预测方法 |
CN109325440A (zh) * | 2018-09-19 | 2019-02-12 | 深圳市赢世体育科技有限公司 | 人体动作识别方法及*** |
CN110110812A (zh) * | 2019-05-20 | 2019-08-09 | 江西理工大学 | 一种用于视频动作识别的串流深度网络模型 |
CN110516636A (zh) * | 2019-08-30 | 2019-11-29 | 盈盛智创科技(广州)有限公司 | 一种工序的监测方法、装置、计算机设备和存储介质 |
CN110543830A (zh) * | 2019-08-12 | 2019-12-06 | 珠海格力电器股份有限公司 | 动作检测方法、装置、存储介质 |
CN110659624A (zh) * | 2019-09-29 | 2020-01-07 | 上海依图网络科技有限公司 | 一种群体人员行为识别方法、装置和计算机存储介质 |
CN110955800A (zh) * | 2018-09-26 | 2020-04-03 | 传线网络科技(上海)有限公司 | 视频检索方法及装置 |
CN111126115A (zh) * | 2018-11-01 | 2020-05-08 | 顺丰科技有限公司 | 暴力分拣行为识别方法和装置 |
CN111275373A (zh) * | 2018-12-05 | 2020-06-12 | 北京京东尚科信息技术有限公司 | 提升机的效率获取方法、***、设备及可读存储介质 |
CN111291631A (zh) * | 2020-01-17 | 2020-06-16 | 北京市商汤科技开发有限公司 | 视频分析方法及其相关的模型训练方法、设备、装置 |
CN111382306A (zh) * | 2018-12-28 | 2020-07-07 | 杭州海康威视数字技术股份有限公司 | 查询视频帧的方法和装置 |
WO2020258598A1 (zh) * | 2019-06-24 | 2020-12-30 | 上海商汤智能科技有限公司 | 图像处理方法、提名评估方法及相关装置 |
CN112464898A (zh) * | 2020-12-15 | 2021-03-09 | 北京市商汤科技开发有限公司 | 事件检测方法及装置、电子设备和存储介质 |
CN113810751A (zh) * | 2020-06-12 | 2021-12-17 | 阿里巴巴集团控股有限公司 | 视频处理方法及设备、电子设备及服务器 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11636681B2 (en) * | 2018-11-21 | 2023-04-25 | Meta Platforms, Inc. | Anticipating future video based on present video |
CN111385490B (zh) * | 2018-12-28 | 2021-07-13 | 清华大学 | 视频拼接方法及装置 |
CN110263641A (zh) * | 2019-05-17 | 2019-09-20 | 成都旷视金智科技有限公司 | 疲劳检测方法、装置及可读存储介质 |
CN110188878A (zh) * | 2019-05-31 | 2019-08-30 | 北京市商汤科技开发有限公司 | 神经网络搜索方法及装置 |
CN110688927B (zh) * | 2019-09-20 | 2022-09-30 | 湖南大学 | 一种基于时序卷积建模的视频动作检测方法 |
CN111046736B (zh) * | 2019-11-14 | 2021-04-16 | 北京房江湖科技有限公司 | 一种提取文本信息的方法、装置和存储介质 |
US11138441B2 (en) * | 2019-12-06 | 2021-10-05 | Baidu Usa Llc | Video action segmentation by mixed temporal domain adaption |
CN111222476B (zh) | 2020-01-10 | 2023-06-06 | 北京百度网讯科技有限公司 | 视频时序动作的检测方法、装置、电子设备及存储介质 |
CN116635911A (zh) * | 2020-07-16 | 2023-08-22 | Oppo广东移动通信有限公司 | 动作识别方法及相关装置,存储介质 |
CN112380394B (zh) | 2020-10-27 | 2022-05-10 | 浙江工商大学 | 面向文本到视频片段定位的渐进式定位方法 |
EP4252203A4 (en) * | 2021-01-12 | 2024-06-19 | Samsung Electronics Co., Ltd. | ACTION LOCATION METHOD, DEVICE, ELECTRONIC EQUIPMENT AND COMPUTER-READABLE STORAGE MEDIUM |
US20230281247A1 (en) * | 2022-03-07 | 2023-09-07 | Twelve Labs, Inc. | Video retrieval method and apparatus using vectorizing segmented videos |
CN115830489B (zh) * | 2022-11-03 | 2023-10-20 | 南京小网科技有限责任公司 | 一种基于ai识别的智能动态分析*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130132311A1 (en) * | 2011-11-18 | 2013-05-23 | Honeywell International Inc. | Score fusion and training data recycling for video classification |
CN104933436A (zh) * | 2014-03-19 | 2015-09-23 | 通用汽车环球科技运作有限责任公司 | 具有动态完整性评分的基于视觉的多摄像头工厂监测 |
CN105354528A (zh) * | 2015-07-15 | 2016-02-24 | 中国科学院深圳先进技术研究院 | 基于深度图像序列的人体动作识别的方法及*** |
CN105740833A (zh) * | 2016-02-03 | 2016-07-06 | 北京工业大学 | 一种基于深度序列的人体行为识别方法 |
CN106203283A (zh) * | 2016-06-30 | 2016-12-07 | 重庆理工大学 | 基于三维卷积深度神经网络和深度视频的动作识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10572735B2 (en) * | 2015-03-31 | 2020-02-25 | Beijing Shunyuan Kaihua Technology Limited | Detect sports video highlights for mobile computing devices |
CN104933417B (zh) * | 2015-06-26 | 2019-03-15 | 苏州大学 | 一种基于稀疏时空特征的行为识别方法 |
US10068138B2 (en) * | 2015-09-17 | 2018-09-04 | Canon Kabushiki Kaisha | Devices, systems, and methods for generating a temporal-adaptive representation for video-event classification |
CN106203255B (zh) * | 2016-06-24 | 2019-04-23 | 华中科技大学 | 一种基于时间对齐的行人重识别方法及*** |
CN106897714B (zh) * | 2017-03-23 | 2020-01-14 | 北京大学深圳研究生院 | 一种基于卷积神经网络的视频动作检测方法 |
-
2017
- 2017-04-20 CN CN201710263004.2A patent/CN108229280B/zh active Active
-
2018
- 2018-04-20 SG SG11201909651V patent/SG11201909651VA/en unknown
- 2018-04-20 WO PCT/CN2018/083924 patent/WO2018192570A1/zh active Application Filing
- 2018-12-28 US US16/234,897 patent/US10915741B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130132311A1 (en) * | 2011-11-18 | 2013-05-23 | Honeywell International Inc. | Score fusion and training data recycling for video classification |
CN104933436A (zh) * | 2014-03-19 | 2015-09-23 | 通用汽车环球科技运作有限责任公司 | 具有动态完整性评分的基于视觉的多摄像头工厂监测 |
CN105354528A (zh) * | 2015-07-15 | 2016-02-24 | 中国科学院深圳先进技术研究院 | 基于深度图像序列的人体动作识别的方法及*** |
CN105740833A (zh) * | 2016-02-03 | 2016-07-06 | 北京工业大学 | 一种基于深度序列的人体行为识别方法 |
CN106203283A (zh) * | 2016-06-30 | 2016-12-07 | 重庆理工大学 | 基于三维卷积深度神经网络和深度视频的动作识别方法 |
Non-Patent Citations (1)
Title |
---|
赵竞雄: "基于深度信息的人体动作识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108615011A (zh) * | 2018-04-24 | 2018-10-02 | 东南大学 | 基于多尺度滑动窗口的非修剪视频行为识别预测方法 |
CN109325440A (zh) * | 2018-09-19 | 2019-02-12 | 深圳市赢世体育科技有限公司 | 人体动作识别方法及*** |
CN110955800A (zh) * | 2018-09-26 | 2020-04-03 | 传线网络科技(上海)有限公司 | 视频检索方法及装置 |
CN111126115B (zh) * | 2018-11-01 | 2024-06-07 | 顺丰科技有限公司 | 暴力分拣行为识别方法和装置 |
CN111126115A (zh) * | 2018-11-01 | 2020-05-08 | 顺丰科技有限公司 | 暴力分拣行为识别方法和装置 |
CN111275373B (zh) * | 2018-12-05 | 2024-05-21 | 北京京东乾石科技有限公司 | 提升机的效率获取方法、***、设备及可读存储介质 |
CN111275373A (zh) * | 2018-12-05 | 2020-06-12 | 北京京东尚科信息技术有限公司 | 提升机的效率获取方法、***、设备及可读存储介质 |
CN111382306A (zh) * | 2018-12-28 | 2020-07-07 | 杭州海康威视数字技术股份有限公司 | 查询视频帧的方法和装置 |
CN111382306B (zh) * | 2018-12-28 | 2023-12-01 | 杭州海康威视数字技术股份有限公司 | 查询视频帧的方法和装置 |
CN110110812B (zh) * | 2019-05-20 | 2022-08-19 | 江西理工大学 | 一种用于视频动作识别的串流深度网络模型构建方法 |
CN110110812A (zh) * | 2019-05-20 | 2019-08-09 | 江西理工大学 | 一种用于视频动作识别的串流深度网络模型 |
WO2020258598A1 (zh) * | 2019-06-24 | 2020-12-30 | 上海商汤智能科技有限公司 | 图像处理方法、提名评估方法及相关装置 |
CN110543830A (zh) * | 2019-08-12 | 2019-12-06 | 珠海格力电器股份有限公司 | 动作检测方法、装置、存储介质 |
CN110543830B (zh) * | 2019-08-12 | 2022-05-13 | 珠海格力电器股份有限公司 | 动作检测方法、装置、存储介质 |
CN110516636A (zh) * | 2019-08-30 | 2019-11-29 | 盈盛智创科技(广州)有限公司 | 一种工序的监测方法、装置、计算机设备和存储介质 |
CN110659624A (zh) * | 2019-09-29 | 2020-01-07 | 上海依图网络科技有限公司 | 一种群体人员行为识别方法、装置和计算机存储介质 |
JP7096431B2 (ja) | 2020-01-17 | 2022-07-05 | ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド | ビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置 |
TWI761813B (zh) * | 2020-01-17 | 2022-04-21 | 大陸商北京市商湯科技開發有限公司 | 視頻分析方法及其相關的模型訓練方法、電子設備、儲存介質 |
JP2022520511A (ja) * | 2020-01-17 | 2022-03-31 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | ビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置 |
CN111291631B (zh) * | 2020-01-17 | 2023-11-07 | 北京市商汤科技开发有限公司 | 视频分析方法及其相关的模型训练方法、设备、装置 |
WO2021142904A1 (zh) * | 2020-01-17 | 2021-07-22 | 北京市商汤科技开发有限公司 | 视频分析方法及其相关的模型训练方法、设备、装置 |
CN111291631A (zh) * | 2020-01-17 | 2020-06-16 | 北京市商汤科技开发有限公司 | 视频分析方法及其相关的模型训练方法、设备、装置 |
CN113810751A (zh) * | 2020-06-12 | 2021-12-17 | 阿里巴巴集团控股有限公司 | 视频处理方法及设备、电子设备及服务器 |
CN113810751B (zh) * | 2020-06-12 | 2022-10-28 | 阿里巴巴集团控股有限公司 | 视频处理方法及设备、电子设备及服务器 |
CN112464898A (zh) * | 2020-12-15 | 2021-03-09 | 北京市商汤科技开发有限公司 | 事件检测方法及装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2018192570A1 (zh) | 2018-10-25 |
CN108229280B (zh) | 2020-11-13 |
US20190138798A1 (en) | 2019-05-09 |
US10915741B2 (en) | 2021-02-09 |
SG11201909651VA (en) | 2019-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108229280A (zh) | 时域动作检测方法和***、电子设备、计算机存储介质 | |
US11734851B2 (en) | Face key point detection method and apparatus, storage medium, and electronic device | |
WO2021093468A1 (zh) | 视频分类方法、模型训练方法、装置、设备及存储介质 | |
Tao et al. | Manifold ranking-based matrix factorization for saliency detection | |
Han et al. | Two-stage learning to predict human eye fixations via SDAEs | |
CN108229478A (zh) | 图像语义分割及训练方法和装置、电子设备、存储介质和程序 | |
CN107679466B (zh) | 信息输出方法和装置 | |
CN116686017A (zh) | 一种用于视频动作识别的时间瓶颈注意力体系结构 | |
CN111859149A (zh) | 资讯信息推荐方法、装置、电子设备及存储介质 | |
CN109934247A (zh) | 电子装置及其控制方法 | |
Selvan et al. | Uncertainty quantification in medical image segmentation with normalizing flows | |
CN114611720B (zh) | 联邦学习模型训练方法、电子设备及存储介质 | |
CN112990222B (zh) | 一种基于图像边界知识迁移的引导语义分割方法 | |
CN115578770A (zh) | 基于自监督的小样本面部表情识别方法及*** | |
Yang et al. | Deep learning-based viewpoint recommendation in volume visualization | |
Shuang et al. | Scale-balanced loss for object detection | |
Yue et al. | Salient object detection in low-light images via functional optimization-inspired feature polishing | |
Lai et al. | Weakly supervised visual saliency prediction | |
Lu et al. | Learning channel-aware deep regression for object tracking | |
Siavelis et al. | An improved GAN semantic image inpainting | |
Ilic et al. | Is appearance free action recognition possible? | |
JP7225731B2 (ja) | 多変数データシーケンスの画像化 | |
Park et al. | Explaining generative diffusion models via visual analysis for interpretable decision-making process | |
Karavarsamis et al. | Classifying Salsa dance steps from skeletal poses | |
Zhang et al. | Fast contour detection with supervised attention learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |