CN108229280A

CN108229280A - 时域动作检测方法和***、电子设备、计算机存储介质

Info

Publication number: CN108229280A
Application number: CN201710263004.2A
Authority: CN
Inventors: 汤晓鸥; 熊元骏; 赵岳; 王利民; 武智融; 林达华
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-04-20
Filing date: 2017-04-20
Publication date: 2018-06-29
Anticipated expiration: 2037-04-20
Also published as: WO2018192570A1; CN108229280B; US20190138798A1; US10915741B2; SG11201909651VA

Abstract

本发明实施例公开了一种时域动作检测方法和***、电子设备、计算机存储介质，其中，方法包括：获取视频中存在动作实例的时域区间以及所述时域区间的至少一相邻片段；分别提取候选片段中各视频片段的动作特征，其中，所述候选片段包括所述时域区间对应的视频片段及其相邻片段；对所述候选片段中各视频片段的动作特征进行池化处理，获得所述时域区间对应的视频片段的全局特征；基于所述全局特征确定所述时域区间对应的视频片段的动作完整度得分。本发明实施例有益于准确的确定时域区间是否包含完整的动作实例，提高了动作完整度识别的准确率。

Description

时域动作检测方法和***、电子设备、计算机存储介质

技术领域

本发明涉及计算机视觉技术，尤其是一种时域动作检测方法和***、电子设备、计算机存储介质。

背景技术

理解人的行为和动作是计算机视觉技术的一项重要任务。现有计算机视觉技术中的动作识别技术，通过用深度学习的方法来融合形状信息、运动特征、以及长程时序关系等视频内容，已经能够识别剪辑出的视频中的动作类别，但是需要预先对原始视频进行手工剪辑，截取出原始视频中有动作的片段，手工剪辑视频需要耗费大量的人力，成本较高；并且，在实际应用场景中，经常需要及时对未经剪辑的原始视频进行动作类别识别，这就要求动作识别技术不再局限于从剪辑好的视频片段中识别动作的类别，还需要能够在未经剪辑的原始视频中自动探测到有意义的动作、检测出每个动作实例的开始时间和结束时间。

时域动作检测技术，旨在视频中检测出与人物活动相关的动作片段，该视频可以是任何方式的视频，例如可能但不限于是未经剪辑、较长的视频。时域动作检测技术在安全监控、网络视频分析、视频直播分析、乃至无人驾驶等领域都具有巨大的应用价值。

发明内容

本发明实施例提供一种时域动作检测技术，包括时域动作检测方法和***、电子设备、计算机存储介质。

根据本发明实施例的一个方面，提供的一种时域动作检测方法，包括：

获取视频中存在动作实例的时域区间以及所述时域区间的至少一相邻片段；

分别提取候选片段中各视频片段的动作特征，其中，所述候选片段包括所述时域区间对应的视频片段及其相邻片段；

对所述候选片段中各视频片段的动作特征进行池化处理，获得所述时域区间对应的视频片段的全局特征；

基于所述全局特征确定所述时域区间对应的视频片段的动作完整度得分。

可选地，在上述方法的另一实施例中，所述至少一相邻片段包括：所述视频中时序位于所述时域区间之前的第一相邻片段，和/或，所述视频中时序位于所述时域区间之后的第二相邻片段；所述第一相邻片段和所述第二相邻片段分别包括至少一个视频片段。

可选地，在上述方法的另一实施例中，所述获取视频中存在动作实例的时域区间以及所述时域区间的至少一相邻片段，包括：

分别对所述视频中的各视频片段进行动作度估计，获得时序动作度序列；

基于所述时序动作度序列进行动作位置预测，获得所述视频中存在动作实例的时域区间，所述时域区间包括起始时间和结束时间；

从所述视频中提取所述时域区间之前的第一相邻片段和/或所述时域区间之后的第二相邻片段。

可选地，在上述方法的另一实施例中，所述分别对所述视频中的各视频片段进行动作度估计，获得时序动作度序列，包括：

分别针对所述视频中的任一视频片段：

提取一帧图像作为原始图像，对所述原始图像进行动作度估计，得到第一动作度值；提取所述任一视频片段的光流，并对获得的光流场图片进行合并，得到拼合光流场图像，对所述拼合光流场图像进行动作度估计，得到第二动作度值；

由第一动作度值与第二动作度值，获取所述任一视频片段的动作度值；

所述视频中所有视频片段基于时序关系的动作度值形成所述时序动作度序列。

可选地，在上述方法的另一实施例中，所述获取所述任一视频片段的动作度值之后，还包括：

对所述任一视频片段的动作度值进行归一化处理，得到归一化的动作度值；

所述时序动作度序列具体为：由归一化的动作度值形成的时序动作度序列。

可选地，在上述方法的另一实施例中，还包括：

基于所述时域区间对应的视频片段的动作特征，获取所述时域区间对应的视频片段的至少一个动作类别的分类得分；

根据所述时域区间对应的视频片段的至少一个动作类别的分类得分，确定所述时域区间对应的视频片段的检测动作类别。

可选地，在上述方法的另一实施例中，还包括：

输出所述时域区间以及所述时域区间对应的视频片段的检测动作类别。

可选地，在上述方法的另一实施例中，所述基于所述时域区间对应的视频片段的动作特征，获取所述时域区间对应的视频片段的至少一个动作类别的分类得分，包括：

分别基于所述时域区间对应的各视频片段的动作特征，获取所述时域区间对应的各视频片段分别属于所述至少一个动作类别的得分；

分别对所述时域区间对应的各视频片段属于同一动作类别的得分求和，获得所述时域区间对应的视频片段的至少一个动作类别的分类得分。

可选地，在上述方法的另一实施例中，所述对所述候选视频片段中各视频片段的动作特征进行池化处理，包括：

对提取的候选片段中各视频片段的动作特征进行时域金字塔式池化处理。

可选地，在上述方法的另一实施例中，所述对提取的候选片段中各视频片段的动作特征进行时域金字塔式池化处理之后，还包括：

合并时域金字塔式池化后得到的池化特征。

可选地，在上述方法的另一实施例中，预设池化层数K的取值为1；

所述对提取的所述候选片段中各视频片段的动作特征进行时域金字塔式池化处理，包括：

对于预设分割部分数B_K的取值为1的任一第一待池化片段，由所述任一第一待池化片段中各视频片段的动作特征获取所述任一第一待池化片段的池化特征；

对于预设分割部分数B_K的取值大于1的任一第二待池化片段，将所述任一第二待池化片段中的所有视频片段分割为B_K个部分，分别由所述B_K个部分中各部分视频片段的动作特征获取对应部分的池化特征，并对所述B_K个部分的池化特征进行合并，得到所述任一第二待池化片段的池化特征；

所述第一待池化片段包括所述时域区间对应的视频片段、所述第一相邻片段和所述第二相邻片段中的任意一个或多个；所述第二待池化片段包括所述候选片段中所述第一待池化片段外的其他待池化片段。

可选地，在上述方法的另一实施例中，预设池化层数K的取值大于1；

分别针对第k个池化层：对于预设分割部分数B_K的取值为1的任一第一待池化片段，由所述任一第一待池化片段中各视频片段的动作特征获取所述任一第一待池化片段在第k层的池化特征；对于预设分割部分数B_K的取值大于1的任一第二待池化片段，将所述任一第二待池化片段中的所有视频片段分割为B_K个部分，分别由所述B_K个部分中各部分视频片段的动作特征获取对应部分的池化特征，并对所述B_K个部分的池化特征进行合并，得到所述任一第二待池化片段在第k层的池化特征；

分别针对各待池化片段：按照预设方式对所有K个池化层的池化特征进行合并，得到各待池化片段的池化特征；

可选地，在上述方法的另一实施例中，所述合并时域金字塔式池化后得到的池化特征，获得所述时域区间对应的视频片段的全局特征，包括：

分别对所述第一相邻片段的池化特征、所述时域区间对应的视频片段的池化特征和所述第二相邻片段的池化特征进行合并，获得所述时域区间对应的视频片段时序结构化的所述全局特征。

分别针对第k个池化层：识别预设分割部分数B_K的取值是否为1；

若预设分割部分数B_K的取值为1，由所述候选片段中各视频片段的动作特征获取所述候选片段在第k层的池化特征；

若预设分割部分数B_K的取值大于1，将所述候选片段中的所有视频片段分割为B_K个部分，分别由所述B_K个部分中各部分中视频片段的动作特征获取对应部分的池化特征，并对所述B_K个部分的池化特征进行合并，得到所述候选片段在第k层的池化特征。

按照预设方式对K个池化层的池化特征进行合并，获得所述时域区间对应的视频片段时序结构化的所述全局特征。

识别预设分割部分数B_K的取值是否为1；

若预设分割部分数B_K的取值为1，分别针对各待池化片段中的任一待池化片段，由所述任一待池化片段中各视频片段的动作特征获取所述任一待池化片段的池化特征，所述待池化片段包括所述时域区间内视频片段、所述第一相邻片段和所述第二相邻片段；对所有待池化片段的池化特征进行合并，获得所述时域区间对应的视频片段时序结构化的所述全局特征；

若预设分割部分数B_K的取值大于1，将所述候选片段中的所有视频片段分割为B_K个部分，分别由所述B_K个部分中各部分中视频片段的动作特征获取对应部分的池化特征，并对所述B_K个部分的池化特征进行合并，获得所述时域区间对应的视频片段时序结构化的所述全局特征。

可选地，在上述方法的另一实施例中，所述基于所述全局特征确定所述时域区间对应的视频片段的动作完整度得分，包括：

对所述全局特征进行分类，得到所述候选片段对应的至少一个动作类别；

分别通过所述候选片段对应的各动作类别相关的分类器，基于所述全局特征识别所述时域区间对应的视频片段包括当前动作类别完整的动作实例的程度，得到所述时域区间对应的视频片段分别对应各动作类别的动作完整度得分。

可选地，在上述方法的另一实施例中，还包括：

基于所述时域区间对应的视频片段的分类得分与动作完整度得分，确定所述时域区间对应的视频片段是否包含对应的各动作类别完整的动作实例。

可选地，在上述方法的另一实施例中，所述基于所述时域区间对应的视频片段的分类得分与动作完整度得分，确定所述时域区间对应的视频片段是否包含对应的各动作类别完整的动作实例，包括：

分别针对所述时域区间对应的视频片段对应的任一动作类别，对所述时域区间对应的视频片段对应所述任一动作类别的分类得分与动作完整度得分求取乘积或者求和，获得所述时域区间对应的视频片段是否包含所述任一动作类别完整的动作实例的置信度值；

基于所述置信度值是否大于预设阈值，确定所述时域区间对应的视频片段是否包含所述任一动作类别完整的动作实例。

可选地，在上述方法的另一实施例中，还包括：

若所述时域区间对应的视频片段包含完整的动作实例对应的动作类别大于一个，选择对应于最大置信度值的一个动作类别作为所述时域区间对应的视频片段的检测动作类别。

可选地，在上述方法的另一实施例中，所述基于所述时域区间对应的视频片段的分类得分与动作完整度得分，确定所述时域区间对应的视频片段是否包含对应各动作类别完整的动作实例，包括：

识别所述时域区间对应的视频片段的至少一个动作类别的分类得分中，是否存在分类得分大于预设第一数值的预设动作类别；以及识别所述动作完整度得分中，是否存在动作完整度得分大于预设第二数值的预设动作类别；

响应于存在分类得分大于预设第一数值的预设动作类别和/或动作完整度得分大于预设第二数值的预设动作类别，以分类得分大于预设第一数值的预设动作类别和/或动作完整度得分大于预设第二数值的预设动作类别作为目标动作类别，基于所述时域区间对应的视频片段对应的目标动作类别的分类得分与动作完整度得分，确定所述时域区间对应的视频片段是否包含所述目标动作类别完整的动作实例；

所述输出所述时域区间以及所述时域区间对应的视频片段的检测动作类别时，具体输出所述目标动作类别及其时域区间。

可选地，在上述方法的另一实施例中，还包括：

若所述时域区间对应的视频片段包含至少一个动作类别完整的动作实例，基于所述全局特征对所述时域区间进行位置回归，获得起止位置偏移量，所述起止位置偏移量包括时域区间中起始时间和结束时间的位置偏移量；

通过所述起止位置偏移量对所述时域区间进行调整；

所述输出所述时域区间以及所述时域区间对应的视频片段的检测动作类别时，具体输出调整后的时域区间以及所述时域区间对应的视频片段的检测动作类别。

根据本发明实施例的另一个方面，提供的一种时域动作检测***，包括：

第一获取模块，用于获取视频中存在动作实例的时域区间以及所述时域区间的至少一相邻片段；

特征提取模块，用于分别提取候选片段中各视频片段的动作特征，其中，所述候选片段包括所述时域区间对应的视频片段及其相邻片段；

池化处理模块，用于对所述候选片段中各视频片段的动作特征进行池化处理，获得所述时域区间对应的视频片段的全局特征；

第一确定模块，用于基于所述全局特征确定所述时域区间对应的视频片段的动作完整度得分。

可选地，在上述***的另一实施例中，所述至少一相邻片段包括：所述视频中时序位于所述时域区间之前的第一相邻片段，和/或，所述视频中时序位于所述时域区间之后的第二相邻片段；所述第一相邻片段和所述第二相邻片段分别包括至少一个视频片段。

可选地，在上述***的另一实施例中，所述第一获取模块包括：

动作估计子模块，用于分别对视频中的各视频片段进行动作度估计，获得时序动作度序列；

位置预测子模块，用于基于所述时序动作度序列进行动作位置预测，获得所述视频中存在动作实例的时域区间，所述时域区间包括起始时间和结束时间；

提取子模块，用于从所述视频中提取所述时域区间之前的第一相邻片段和/或所述时域区间之后的第二相邻片段。

可选地，在上述***的另一实施例中，所述动作估计子模块包括：图像获取单元，用于分别针对所述视频中的任一视频片段：提取一帧图像作为原始图像，以及提取所述任一视频片段的光流，并对获得的光流场图片进行合并，得到拼合光流场图像；

第一子卷积神经网络，用于对所述原始图像进行动作度估计，得到第一动作度值；

第二子卷积神经网络，用于对所述拼合光流场图像进行动作度估计，得到第二动作度值；

计算单元，用于由同一视频片段的第一动作度值与第二动作度值，获取所述任一视频片段的动作度值；

可选地，在上述***的另一实施例中，所述动作估计子模块还包括：

归一化单元，用于对所述计算单元获取的视频片段的动作度值进行归一化处理，得到归一化的动作度值；

可选地，在上述***的另一实施例中，还包括：

第二获取模块，用于基于所述时域区间对应的视频片段的动作特征，获取所述时域区间对应的视频片段的至少一个动作类别的分类得分；

第二确定模块，用于根据所述时域区间对应的视频片段的至少一个动作类别的分类得分，确定所述时域区间对应的视频片段的检测动作类别。

可选地，在上述***的另一实施例中，还包括：

输出模块，用于输出所述时域区间以及所述时域区间对应的视频片段的检测动作类别。

可选地，在上述***的另一实施例中，所述第二获取模块包括：

第一获取子模块，用于分别基于所述时域区间对应的各视频片段的动作特征，获取所述时域区间对应的各视频片段分别属于所述至少一个动作类别的得分；

第一计算子模块，用于分别对所述时域区间对应的各视频片段属于同一动作类别的得分求和，获得所述时域区间对应的视频片段的至少一个动作类别的分类得分。

可选地，在上述***的另一实施例中，所述池化处理模块包括：

池化处理子模块，用于对提取的候选片段中各视频片段的动作特征进行时域金字塔式池化处理。

可选地，在上述***的另一实施例中，所述池化处理模块还包括：

合并子模块，用于合并时域金字塔式池化后得到的池化特征。

可选地，在上述***的另一实施例中，预设池化层数K的取值为1；所述池化处理子模块具体用于：对于预设分割部分数B_K的取值为1的任一第一待池化片段，由所述任一第一待池化片段中各视频片段的动作特征获取所述任一第一待池化片段的池化特征；对于预设分割部分数B_K的取值大于1的任一第二待池化片段，将所述任一第二待池化片段中的所有视频片段分割为B_K个部分，分别由各部分中视频片段的动作特征获取对应部分的池化特征，并对所述B_K个部分的池化特征进行合并，得到任一第二待池化片段的池化特征；所述第一待池化片段包括所述时域区间对应的视频片段、所述第一相邻片段和所述第二相邻片段中的任意一个或多个；所述第二待池化片段包括所述候选片段中所述第一待池化片段外的其他待池化片段；

所述合并子模块，具体用于分别对所述第一相邻片段的池化特征、所述时域区间对应的视频片段的池化特征和所述第二相邻片段的池化特征进行合并，获得所述时域区间对应的视频片段时序结构化的所述全局特征。

可选地，在上述***的另一实施例中，预设池化层数K的取值大于1；

所述池化处理子模块具体用于：

分别针对第k个池化层：对于预设分割部分数B_K的取值为1的任一第一待池化片段，由所述任一第一待池化片段中各视频片段的动作特征获取所述任一第一待池化片段在第k层的池化特征；对于预设分割部分数B_K的取值大于1的任一第二待池化片段，将所述任一第一待池化片段中的所有视频片段分割为B_K个部分，分别由各部分中视频片段的动作特征获取对应部分的池化特征，并对所述B_K个部分的池化特征进行合并，得到所述任一第一待池化片段在第k层的池化特征；以及分别针对各待池化片段：按照预设方式对所有K个池化层的池化特征进行合并，得到各待池化片段的池化特征；所述第一待池化片段包括所述时域区间对应的视频片段、所述第一相邻片段和所述第二相邻片段中的任意一个或多个；所述第二待池化片段包括所述候选片段中所述第一待池化片段外的其他待池化片段；

所述池化处理子模块具体用于：分别针对第k个池化层：识别预设分割部分数B_K的取值是否为1；若预设分割部分数B_K的取值为1，由所述候选片段中各视频片段的动作特征获取所述候选片段在第k层的池化特征；若预设分割部分数B_K的取值大于1，将所述候选片段中的所有视频片段分割为B_K个部分，分别由所述B_K个部分各部分视频片段的动作特征获取对应部分的池化特征，并对所述B_K个部分的池化特征进行合并，得到所述候选片段在第k层的池化特征；

所述合并子模块，具体用于按照预设方式对K个池化层的池化特征进行合并，获得所述时域区间对应的视频片段时序结构化的所述全局特征。

可选地，在上述***的另一实施例中，预设池化层数K的取值为1；所述池化处理子模块具体用于：

识别预设分割部分数B_K的取值是否为1；

若预设分割部分数B_K的取值大于1，将所述候选片段中的所有视频片段分割为B_K个部分，分别由所述B_K个部分中各部分视频片段的动作特征获取对应部分的池化特征，并对所述 B_K个部分的池化特征进行合并，获得所述时域区间对应的视频片段时序结构化的所述全局特征。

可选地，在上述***的另一实施例中，所述第一确定模块包括：

分类子模块，用于对所述全局特征进行分类，得到所述候选片段对应的至少一个动作类别；

至少一个分类器，分别与所述候选片段对应的各动作类别相关，用于基于所述全局特征识别所述时域区间对应的视频片段包括当前动作类别完整的动作实例的程度，得到所述时域区间对应的视频片段分别对应各动作类别的动作完整度得分。

可选地，在上述***的另一实施例中，还包括：

第三确定模块，用于基于所述时域区间对应的视频片段的分类得分与动作完整度得分，确定所述时域区间对应的视频片段是否包含对应的各动作类别完整的动作实例。

可选地，在上述***的另一实施例中，所述第三确定模块包括：

第二计算子模块，用于分别针对所述时域区间对应的视频片段对应的任一动作类别，对所述时域区间对应的视频片段对应所述任一动作类别的分类得分与动作完整度得分求取乘积或者求和，获得所述时域区间对应的视频片段是否包含所述任一动作类别完整的动作实例的置信度值；

确定子模块，用于基于所述置信度值是否大于预设阈值，确定所述时域区间对应的视频片段是否包含所述任一动作类别完整的动作实例。

可选地，在上述***的另一实施例中，所述确定子模块，还用于在所述时域区间对应的视频片段包含完整的动作实例对应的动作类别大于一个时，选择对应于最大置信度值的一个动作类别作为所述时域区间对应的视频片段的检测动作类别。

可选地，在上述***的另一实施例中，还包括：

识别模块，用于识别所述时域区间对应的视频片段的至少一个动作类别的分类得分中，是否存在分类得分大于预设第一数值的预设动作类别；以及识别所述动作完整度得分中，是否存在动作完整度得分大于预设第二数值的预设动作类别；

所述第三确定模块，具体用于在存在分类得分大于预设第一数值的预设动作类别和/或动作完整度得分大于预设第二数值的预设动作类别时，以分类得分大于预设第一数值的预设动作类别和/或动作完整度得分大于预设第二数值的预设动作类别作为目标动作类别，基于所述时域区间对应的视频片段对应的目标动作类别的分类得分与动作完整度得分，确定所述时域区间对应的视频片段是否包含所述目标动作类别完整的动作实例的操作；

所述输出模块具体用于输出所述目标动作类别及其时域区间。

可选地，在上述***的另一实施例中，还包括：

位置回归模块，用于在所述时域区间对应的视频片段包含至少一个动作类别完整的动作实例时，基于所述全局特征对所述时域区间进行位置回归，获得起止位置偏移量，并通过所述起止位置偏移量对所述时域区间进行调整；所述起止位置偏移量包括时域区间中起始时间和结束时间的位置偏移量；

所述输出模块，具体用于输出调整后的时域区间以及所述时域区间对应的视频片段的检测动作类别。

根据本发明实施例的又一个方面，提供的一种电子设备，包括上述任一实施例所述的时域动作检测***。

根据本发明实施例的再一个方面，提供的一种电子设备，包括：

存储器，用于存储可执行指令；以及

处理器，用于与所述存储器通信以执行所述可执行指令从而完成以下操作：

根据本发明实施例的再一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时实现以下操作：

基于本发明上述实施例提供的时域动作检测方法和***、电子设备、计算机存储介质，通过获取视频中存在动作实例的时域区间以及时域区间的至少一相邻片段，提取该时域区间以及时域区间的至少一相邻片段的动作特征并进行池化处理，获得该时域区间对应的视频片段的全局特征，基于全局特征确定时域区间对应的视频片段的动作完整度得分。本发明实施例基于包含时域区间的上下文信息的全局特征来确定时域区间对应的视频片段的动作完整度，从而有益于准确的确定时域区间是否包含完整的动作实例，提高了动作完整度识别的准确率。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明时域动作检测方法一个实施例的流程图。

图2为本发明实施例中获得时序动作度序列一个具体实施例的流程图。

图3为本发明时域动作检测方法再一个实施例的流程图。

图4为本发明实施例中获得全局特征一个具体实施例的流程图。

图5为本发明实施例中获得全局特征另一个具体实施例的流程图。

图6为本发明实施例中确定完整度得分一个实施例的流程图。

图7为本发明时域动作检测方法又一个实施例的流程图。

图8为本发明时域动作检测***一个实施例的结构示意图。

图9为本发明实施例中第一获取模块一个具体实施例的结构示意图。

图10为本发明时域动作检测***另一个实施例的结构示意图。

图11为本发明实施例中第二获取模块一个具体实施例的结构示意图。

图12为本发明实施例中池化模块一个具体实施例的结构示意图。

图13为本发明实施例中第一确定模块一个具体实施例的结构示意图。

图14为本发明实施例中第三确定模块一个具体实施例的结构示意图。

图15为本发明时域动作检测***又一个实施例的结构示意图。

图16为本发明电子设备一个具体应用实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机***/服务器等电子设备，其可与众多其它通用或专用计算***环境或配置一起操作。适于与计算机***/服务器等电子设备一起使用的众所周知的计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***﹑大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

计算机***/服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

在实现本发明的过程中，发明人通过研究发现，目前关于时域动作检测技术的研究尚处于起步阶段，无法确定预测出的视频中可能存在动作实例的时域区间的动作完整度，即：该时域区间是否准确的包含了一个完整的动作实例。

鉴于此，本发明实施例提供了新的时域动作检测技术，包括：时域动作检测方法和系统、电子设备。

在本发明实施例中，卷积神经网络(Convolutional Neural Network，CNN)是已训练好的卷积神经网络，其能够实现本发明各实施例中记载的相应操作，例如，对输入的图像或视频片段进行动作度估计、分类、完整度识别，以获得输入的图像或视频片段的动作度值、相对于每个预设动作类别的得分、相对于每个动作类别的完整度得分、计算候选片段的置信度值等。

在本发明实施例中，视频片段指的是视频中的一部分，其可包括视频中的多帧连续图像。

在本发明实施例中，动作实例指的是某动作类别的具体动作。

在本发明实施例中，动作度(Actionness)表征的是某帧图像或某视频片段可能属于某动作实例的程度。

在本发明实施例中，完整度表征的是候选片段包含某动作类别完整的动作实例的程度。

在本发明实施例中，置信度表征的指某个候选片段是一个某动作类别动作的完整动作实例的概率。其可选的数学形式为该候选片段属于某动作类别的概率乘以该候选片段为该动作类别完整动作实例的概率。

图1为本发明时域动作检测方法一个实施例的流程图。如图1所示，该实施例的时域动作检测方法包括：

102，获取视频中可能存在动作实例的时域区间以及该时域区间的至少一相邻片段。

其中，时域区间包括起始时间和结束时间，例如可以表示为起始时间和结束时间对(起始时间，结束时间)。

示例性地，上述至少一相邻片段包括：视频中时序位于上述时域区间之前的第一相邻片段，和/或，视频中时序位于上述时域区间之后的第二相邻片段。其中的第一相邻片段和第二相邻片段分别包括至少一个视频片段。其中，第一相邻片段和第二相邻片段的长度可以根据实际需求设置，并且可以实时调整和更新，示例性地，第一相邻片段和第二相邻片段的长度具体可以是时域区间长度的一定比例，例如20％～70％。

104，分别提取候选片段中各视频片段的动作特征。

其中，候选片段包括上述时域区间对应的视频片段及其相邻片段。

106，对候选片段中各视频片段的动作特征进行池化处理，获得上述时域区间对应的视频片段的全局特征。

108，基于全局特征确定上述时域区间对应的视频片段的动作完整度得分。

基于本发明上述实施例提供的时域动作检测方法，通过获取视频中存在动作实例的时域区间以及时域区间的至少一相邻片段，提取该时域区间以及时域区间的至少一相邻片段的动作特征并进行池化处理，获得该时域区间对应的视频片段的全局特征，基于全局特征确定时域区间对应的视频片段的动作完整度得分。本发明实施例基于包含时域区间的上下文信息的全局特征来确定时域区间对应的视频片段的动作完整度，从而有益于准确的确定时域区间是否包含完整的动作实例，提高了动作完整度识别的准确率。

在本发明实施例的一个具体示例中，上述操作102中，获取视频中存在动作实例的时域区间以及时域区间的至少一相邻片段，具体可以包括：

分别对视频中的各视频片段进行动作度估计，获得时序动作度序列；

基于时序动作度序列进行动作位置预测，获得视频中存在动作实例的时域区间，时域区间包括起始时间和结束时间；

从视频中提取时域区间之前的第一相邻片段和/或时域区间之后的第二相邻片段。

每个时域区间之前和之后的相邻片段中包含该时域区间的上下文信息，提取每个时域区间之前和之后的相邻片段，便可以获得每个动作位置预测的时域区间的上下文信息，以便结合该上下文信息准确识别时域区间是否包括了某动作类别的一个完整的动作实例，从而更精确的定位一个完整的动作实例。

图2为本发明实施例中获得时序动作度序列一个实施例的流程图。如图2所示，该实施例具体可以通过如下操作实现：分别针对视频中的任一视频片段执行：

202，提取一帧图像作为原始图像，对原始图像进行动作度估计，得到第一动作度值；提取视频片段的光流，并对获得的光流场图片进行合并，得到拼合光流场图像，对拼合光流场图像进行动作度估计，得到第二动作度值。

例如，从视频中每隔若干帧(如6帧)提取一帧原始图像，以该帧原始图像及其之后的五帧图像作为一个视频片段，提取该帧原始图像及其之后的五帧图像的光流，得到五帧光流场图片。或者以视频中的每六帧图像构成一个视频片段，按照预设规则或者随机从每个视频片段中提取一帧图像作为原始图像。

其中的光流场图片，例如可以是基于8位位图、共256个离散的色阶的灰度图像，灰度图像的中值为128。

由于光流场是一个向量场，当使用灰度图像表示光流场图片时，需要用两幅标量场图片表示光流场图片，即分别对应于光流场图片坐标轴的X方向和Y方向幅度的两幅标量场图片。

示例性地，假设每个视频片段包括N帧图像，则分别基于N帧图像中的每相邻的两帧图像进行计算，获得N-1组光流场图片，其中N-1组光流场图片中的每一组光流图像分别包括一帧横向光流图像及一帧纵向光流图像。将光流场图片的像素值按照均值为128的标准，线性映射到0到255的区间，然后将这N-1组光流场图片作为单独的通道拼合为一张N-1通道的拼合光流场图像。

在一个具体示例中，可以分别通过两个预先训练好的卷积神经网络(本发明实施例中的第一子卷积神经网络和第二子卷积神经网络)，对原始图像进行动作度估计得到第一动作度值、对拼合光流场图像进行动作度估计得到第二动作度值的操作。

具体可以通过标注有参考第一动作度值的样本图像对第一卷积神经网络模型进行训练，来获得第一子卷积神经网络；通过标注有参考第二动作度值的样本拼合光流场图像对第二卷积神经网络模型进行训练，来获得第二子卷积神经网络。

具体来说，通过第一卷积神经网络模型对样本视频中的样本图像进行动作度估计、输出第一预测动作度值，基于第一预测动作度值与参考第一动作度值之间的差值对第一卷积神经网络模型进行训练，即：对第一卷积神经网络模型的网络参数值进行调整，直至第一预测动作度值与参考第一动作度值之间的差值满足预设条件，例如小于第一预设阈值，从而获得训练好的第一子卷积神经网络。

通过第二卷积神经网络模型对样本拼合光流场图像进行动作度估计、输出第二预测动作度值，基于第二预测动作度值与参考第二动作度值之间的差值对第二卷积神经网络模型进行训练，即：对第二卷积神经网络模型的网络参数值进行调整，直至第二预测动作度值与参考第二动作度值之间的差值满足预设条件，例如小于第二预设阈值，从而获得训练好的第二子卷积神经网络。

204，由第一动作度值与第二动作度值，获取视频片段的动作度值。

例如，将第一动作度值与第二动作度值相加，由于同时结合了光流场图像的动作度值，以获得更加准确的视频片段的动作度值。

通过操作204可以得到视频中各视频片段的动作度值，视频中所有视频片段的动作度值在时序上构成动作度序列，即：根据时间变化的动作度值，称为时序动作度序列。例如，假设视频中包含M个视频片段，其经过卷积神经网络计算得出的动作度估值分别为A1～AM，那么该视频的时序动作度序列可表示为A1，A2，A3，……，AM。

进一步地，在获得待检测视频的时序动作度序列的另一个实施例中，通过操作204获取视频片段的动作度值之后，还可以选择性地执行：

206，对视频片段的动作度值进行归一化处理，将视频片段的动作度值映射到[0,1]的范围内，得到归一化的动作度值。则，基于实施例中获得的时序动作度序列具体为：由归一化的动作度值形成的时序动作度序列，其形式为动作度值随时间变化的一维函数，值域范围为 0～1。

例如，可利用Sigmoid函数或Tanh函数将各视频片段的动作度值映射到[0,1]的范围内。将时序动作度序列中的各动作度值归一化后，可更规范的表示各动作度值及不同动作度值之间的差异，以便于后续有益于准确地进行动作位置预测。

在本发明的一个具体示例中，通过上述实施例获得时序动作度序列后，具体可以利用预先设置的动作位置预测算法，例如滑窗法、时序动作度聚合算法等，基于时序动作度序列，聚合得到视频中的动作预测时域区间。

仍以以上包含M个片段的视频为例，对于时序动作度序列A1，A2，A3，……，AM，可通过时序动作度聚合算法，聚合得到一个或多个动作实例，可表示为例如A1A2、A5A6A7 等等，其中A1A2表示视频中的第一个片段和第二个片段为一个动作实例，A5A6A7表示视频中的第五、六、七个片段为一个动作实例。由于A1，A2，A3，……，AM是在时序上的序列，因此，序列中每个元素均具有对应的时间坐标，从而可以得到每个动作实例的发生时间区间，即，在时域中的预测时域区间，其表示可能存在动作实例的一系列视频片段在时域中的位置。

由此，根据视频中多个片段分别对应的动作度值生成视频的时序动作度序列，再对时序动作度序列进行聚合，从而能够得到视频中一个或多个动作实例的发生时间(如，开始时间和结束时间)。根据本发明实施例，能够在各种视频中，包括在经过剪辑的视频和未经剪辑的原始视频中，均可检测到每个动作实例的开始时间和结束时间，实现时域动作检测。

另外，在本发明时域动作检测方法的另一实施例中，还可以包括如下操作：

基于上述时域区间对应的视频片段的动作特征，获取该时域区间对应的视频片段的至少一个动作类别的分类得分；以及

根据该时域区间对应的视频片段的至少一个动作类别的分类得分，确定时域区间对应的视频片段的检测动作类别。

本发明实施例中，可以根据实际应用需要设置动作类别的数量，例如应用于多分类(N 个可能类别)时，上述至少一个动作类别的分类得分可包括N+1个：时域区间对应的视频片段分别对应于N个分类的得分和1个背景类的得分。则，可以选取N+1个分类得分中数值最高的分类得分对应的都工作类别作为该时域区间对应的视频片段的检测动作类别。

另外，本发明实施例也可应用于识别视频中是否存在特定类别的动作，则上述至少一个动作类别的分类得分可包括分别对应于视频中是、否存在特定类别的动作的两个得分。

进一步地，在本发明时域动作检测方法的又一实施例中，还可以输出时域区间以及时域区间对应的视频片段的检测动作类别，输出信息具体可以表示为三元组(动作类别，起始时间，结束时间)。

由此，基于本发明实施例的时域动作检测方法，便可以获得检测视频中可能包含动作的时域区间和该动作所属的动作类别，以便用于准确的定位至视频中相应动作类别的位置。

图3为本发明时域动作检测方法再一个实施例的流程图。如图3所示，该实施例的时域动作检测方法包括：

302，获取视频中可能存在动作实例的时域区间以及该时域区间的至少一相邻片段。

示例性地，上述至少一相邻片段包括：视频中时序位于上述时域区间之前的第一相邻片段，和/或，视频中时序位于上述时域区间之后的第二相邻片段。其中的第一相邻片段和第二相邻片段分别包括至少一个视频片段。

304，分别提取候选片段中各视频片段的动作特征。

之后，同时执行操作306和310。

306，对候选片段中各视频片段的动作特征进行池化处理，获得上述时域区间对应的视频片段的全局特征。

在其中一个具体示例中，可以对提取的候选片段中各视频片段的动作特征进行时域金字塔式池化处理，获得上述时域区间对应的视频片段的全局特征。

308，基于全局特征确定上述时域区间对应的视频片段的动作完整度得分。

之后，执行操作314。

310，基于上述时域区间对应的视频片段的动作特征，获取该时域区间对应的视频片段的至少一个动作类别的分类得分。

示例性地，该操作310具体可以通过如下方式实现：

分别基于上述时域区间对应的各视频片段的动作特征，获取该时域区间对应的各视频片段分别属于上述至少一个动作类别的得分；

分别对该时域区间对应的各视频片段属于同一动作类别的得分求和，获得该时域区间对应的视频片段的至少一个动作类别的分类得分。

312，根据上述时域区间对应的视频片段的至少一个动作类别的分类得分，确定该时域区间对应的视频片段的检测动作类别。

314，基于上述时域区间对应的视频片段的分类得分与动作完整度得分，确定该时域区间对应的视频片段是否包含对应的各动作类别完整的动作实例。

若该时域区间对应的视频片段包含对应的各动作类别完整的动作实例，可以输出该时域区间以及时域区间对应的视频片段的检测动作类别，输出信息具体可以表示为三元组(检测动作类别，起始时间，结束时间)。否则，若该时域区间对应的视频片段未包含对应的各动作类别完整的动作实例，便可以不输出该时域区间以及时域区间对应的视频片段的检测动作类别。

基于本发明上述实施例提供的时域动作检测方法，对视频进行动作位置预测获得可能包括动作的位置(即：时域区间)后，提取每个时域区间之前和之后的相邻片段，便可以获得每个动作位置预测的时域区间的上下文信息，由该时域区间对应的视频片段属于各动作类别的分类得分和动作完整度得分，确定该时域区间对应的视频片段是否包括所属动作类别完整的动作实例，从而获得视频中包括完整动作实例的动作位置检测结果。基于本发明实施例，可以识别出视频中包括各动作类别或特定动作类别完整的动作实例的视频片段，实现对各动作类别或特定动作类别完整的动作实例的准确识别和精确定位；并且，可以同时获取时域区间对应的视频片段属于各动作类别的得分和动作完整度得分，提高了整个时域动作检测过程的执行效率，节省检测时间。

在其中一个示例中，操作306中，具体可以基于预先设置的配置规则，对提取的候选片段中各视频片段的动作特征进行结构化的时域金字塔式池化处理，获得上述时域区间对应的视频片段的全局特征。

本发明实施例中，金字塔式是指：候选片段中不同长度的视频片段的动作特征位于不同的层，位于不同层的、不同长度的视频片段的动作特征形成一个金字塔形状。例如，金字塔的第1层(最底层)包括整个候选片段的动作特征，金字塔的第2层(金字塔从下往上层数依次增加)包括候选片段中时域区间对应的视频片段的动作特征。作为本发明实施例金字塔式结构的一种特殊示例，金字塔式结构也可以仅包括一个层，该层包括整个候选片段的动作特征。

本发明实施例，提出了结构化的时域金字塔式池化方法，分别抽取时域区间前后和内部的时间-空间特征进行多层次时域金字塔式池化，可以构造任意长度的候选片段的结构化全局特征，表达时序上的动作特征，从而可以同时基于各粒度的动作特征及动作特征在时间上的变化，更精确的定位发生某类动作类别动作实例的视频片段。

在其中一个具体示例中，一种可能的配置规则具体包括：池化层数K，以及时域区间对应的视频片段、第一相邻片段和/或第二相邻片段在各层的分割部分数B_K，其中，K、B_K的取值分别为大于或等于1的整数。时域区间对应的视频片段、第一相邻片段和第二相邻片段这三阶段的池化层数K可以相同或不同，在同一层的分割部分数B_K也可以相同或不同。

则在第一种可能的示例中，预设池化层数K的取值为1。相应地，对提取的候选片段中各视频片段的动作特征进行时域金字塔式池化处理，包括：

对于预设分割部分数B_K的取值为1的任一第一待池化片段，由任一第一待池化片段中各视频片段的动作特征获取任一第一待池化片段的池化特征；

对于预设分割部分数B_K的取值大于1的任一第二待池化片段，将任一第二待池化片段中的所有视频片段分割为B_K个部分，分别由B_K个部分中各部分视频片段的动作特征获取对应部分的池化特征，并对B_K个部分的池化特征进行合并，得到任一第二待池化片段的池化特征；

其中，第一待池化片段包括时域区间对应的视频片段、第一相邻片段和第二相邻片段中的任意一个或多个；第二待池化片段包括候选片段中第一待池化片段外的其他待池化片段。例如，若第一待池化片段包括时域区间对应的视频片段，则第二待池化片段包括第一相邻片段和第二相邻片段；若第一待池化片段包括时域区间对应的视频片段和第一相邻片段，则第二待池化片段包括第二相邻片段。

在第二种可能的示例中，预设池化层数K的取值大于1。相应地，对提取的候选片段中各视频片段的动作特征进行时域金字塔式池化处理，包括：

分别针对第k个池化层：对于预设分割部分数B_K的取值为1的任一第一待池化片段，由任一第一待池化片段中各视频片段的动作特征获取任一第一待池化片段在第k层的池化特征；对于预设分割部分数B_K的取值大于1的任一第二待池化片段，将任一第二待池化片段中的所有视频片段分割为B_K个部分，分别由B_K个部分中各部分视频片段的动作特征获取对应部分的池化特征，并对B_K个部分的池化特征进行合并，得到任一第二待池化片段在第k层的池化特征；

其中，第一待池化片段包括时域区间对应的视频片段、第一相邻片段和第二相邻片段中的任意一个或多个；第二待池化片段包括候选片段中第一待池化片段外的其他待池化片段。

在基于上述第一种和第二种示例的另一个具体示例中，对提取的候选片段中各视频片段的动作特征进行时域金字塔式池化处理之后，还可以包括：合并时域金字塔式池化后得到的池化特征，来获得时域区间对应的视频片段的全局特征。

具体地，可以分别对第一相邻片段的池化特征、时域区间对应的视频片段的池化特征和第二相邻片段的池化特征进行合并，获得时域区间对应的视频片段时序结构化的全局特征。

本发明各实施例中，时序结构是指作的不同阶段构成组合所形成的时间关系上的结构。全局特征即整个候选片段的动作特征，其包含了比相应时域区间更全面的动作特征。

在又一个具体示例中，另一种可能的配置规则具体包括：池化层数K和候选片段的分割部分数B_K，其中，K、B_K的取值分别为大于或等于1的整数。

则在第三种可能的示例中，预设池化层数K的取值大于1。相应地，对提取的候选片段中各视频片段的动作特征进行时域金字塔式池化处理，包括：

若预设分割部分数B_K的取值为1，由候选片段中各视频片段的动作特征获取候选片段在第k层的池化特征；

若预设分割部分数B_K的取值大于1，将候选片段中的所有视频片段分割为B_K个部分，分别由B_K个部分各部分视频片段的动作特征获取对应部分的池化特征，并对B_K个部分的池化特征进行合并，得到候选片段在第k层的池化特征。

在基于上述第三种示例的另一个具体示例中，对提取的候选片段中各视频片段的动作特征进行时域金字塔式池化处理之后，也可以包括：合并时域金字塔式池化后得到的池化特征，来获得时域区间对应的视频片段的全局特征。

具体地，可以按照预设方式对K个池化层的池化特征进行合并，获得时域区间对应的视频片段时序结构化的全局特征。

基于另一种可能的配置规则，在第四种可能的示例中，预设池化层数K的取值为1。相应地，对提取的候选片段中各视频片段的动作特征进行时域金字塔式池化处理，包括：

识别预设分割部分数B_K的取值是否为1；

若预设分割部分数B_K的取值为1，分别针对各待池化片段中的任一待池化片段，由任一待池化片段中各视频片段的动作特征获取任一待池化片段的池化特征，待池化片段包括时域区间内视频片段、第一相邻片段和第二相邻片段；对所有待池化片段的池化特征进行合并，获得时域区间对应的视频片段时序结构化的全局特征；

若预设分割部分数B_K的取值大于1，将候选片段中的所有视频片段分割为B_K个部分，分别由B_K个部分中各部分视频片段的动作特征获取对应部分的池化特征，并对B_K个部分的池化特征进行合并，获得时域区间对应的视频片段时序结构化的全局特征。

本发明上述多个示例，示例性地提出了多种基于时域区间及其相邻区间的时间-空间特征进行时域金字塔式池化的方法，可以构造出针对任意长度片段、不同层次、不同粒度的全局特征，以便于根据实际需求和计算资源选择相应的时域金字塔式池化的方法来获得相应的全局特征，检测时域区间包含某类动作的完整性。

图4为本发明实施例中获得全局特征一个实施例的流程图。该实施例中的配置规则具体包括：池化层数K，时域区间内视频片段、第一相邻片段和/或第二相邻片段在各层的分割部分数B_K，其中，K、B_K的取值分别为大于或等于1的整数。时域区间内视频片段、第一相邻片段和第二相邻片段这三阶段的池化层数K可以相同或不同，在同一层的分割部分数B_K也可以相同或不同。

如图4所示，该实施例中，对候选片段中各视频片段的动作特征进行池化处理，以及合并时域金字塔式池化后得到的池化特征，获得上述时域区间对应的视频片段的全局特征，包括：

402，识别配置规则中的池化层数K的取值是否为1。

若池化层数K的取值为1，执行操作404。否则，若池化层数K的取值大于1，执行操作410。

404，分别针对候选片段中的任一待池化片段，识别该任一待池化片段的分割部分数B_K的取值是否为1。

其中，待池化片段包括时域区间对应的视频片段、第一相邻片段和第二相邻片段。

对于分割部分数B_K的取值为1的待池化片段，称为第一待池化片段，对于其中的任一第一待池化片段，执行操作406。对于分割部分数B_K的取值大于1的待池化片段，称为第二待池化片段，对于其中的任一第二待池化片段，执行操作408。

406，由任一第一待池化片段中各视频片段的动作特征获取该任一第一待池化片段的池化特征。

之后，执行操作418。

408，将任一第二待池化片段中的所有视频片段分割为B_K个部分，分别由B_K个部分中各部分中视频片段的动作特征获取对应部分的池化特征，并对B_K个部分的池化特征进行合并，得到该任一第二待池化片段的池化特征。

之后，执行操作418。

410，分别针对第k个池化层：识别各待池化片段的分割部分数B_K的取值是否为1。

其中的待池化片段包括时域区间对应的视频片段、第一相邻片段和第二相邻片段，k的取值大于0且不大于K。

对于分割部分数B_K的取值为1的任一第一待池化片段，称为第一待池化片段，对于其中的任一第一待池化片段，执行操作412。对于分割部分数B_K的取值大于1的待池化片段，称为第二待池化片段，对于其中的任一第二待池化片段，执行操作414。

412，由该任一第一待池化片段中各视频片段的动作特征获取该任一第一待池化片段在第 k层的池化特征。

之后，执行操作416。

414，将该任一第二待池化片段中的所有视频片段分割为B_K个部分，分别由该B_K个部分中各部分中视频片段的动作特征获取对应部分的池化特征，并对B_K个部分的池化特征进行合并，得到该任一第二待池化片段在第k层的池化特征。

416，分别针对各待池化片段：按照预设方式对所有K个池化层的池化特征进行合并，得到各待池化片段的池化特征。

418，分别对第一相邻片段的池化特征、时域区间对应的视频片段的池化特征和第二相邻片段的池化特征进行合并，获得时域区间对应的视频片段时序结构化的全局特征。

以下以一个具体应用为例，对本发明结构化的时域金字塔式池化方法进行进一步的详细说明，具体如下：

对于动作位置预测得到的任意一个时域区间(起始时间，结束时间)，它的内部、之前、之后一共有三个阶段(即：本发明实施例中的时域区间内视频片段、第一相邻片段和第二相邻片段)，每个阶段内包括若干小的视频片段，对每一个视频片段，经过一个用于动作分类的卷积神经网络进行特征提取，可以得到一个动作特征，具体体现为一组特征向量v_t。对时域区间内所有的视频片段s,…,e的特征向量v_t,…,v_e，第k层时域金字塔将这些视频片段 s,…,e作为一个整体等分成B_k个部分，每个部分的起止片段分别表示为s_ki,…,e_ki,那么对于第k层第i个部分，求取v_ski,…,v_eki的平均值(另外也可以按照预设规则去其最大值或最小值)作为用于表示该部分信息的池化向量，将这B_k个部分的池化向量按照视频片段的时序进行合并作为第k层池化向量；再对时域区间内视频片段在所有K层的池化向量按照视频片段的时序进行合并，例如以平均的方式合并，得到一个时域区间的池化向量。同样，也可以对第一相邻片段和第二相邻片段进行类似操作，最终获得的时序结构化、金字塔结构的池化向量(即：全局特征)是时域区间内视频片段、第一相邻片段和第二相邻片段这三各阶段的池化向量合并而成，其中不同阶段的池化层数K和分割部分数B_k的配置规则可以不同，例如，配置规则为由金字塔的第1层至更高层，每层的分割部分数依次增多。

图5为本发明实施例中获得全局特征另一个实施例的流程图。该实施例中，配置规则具体包括：池化层数K和候选片段的分割部分数B_K，其中，K、B_K的取值分别为大于或等于1的整数。如图5所示，该实施例包括：

502，识别配置规则中的池化层数K的取值是否为1。

若池化层数K的取值为1，执行操作504。否则，若池化层数K的取值大于1，执行操作510。

504，识别分割部分数B_K的取值是否为1。

若分割部分数B_K的取值1，执行操作506。若分割部分数B_K的取值大于1，执行操作508。

506，分别针对各待池化片段中的任一待池化片段，由该任一待池化片段中各视频片段的动作特征获取该任一待池化片段的池化特征，并对所有待池化片段的池化特征进行合并，获得上述时域区间对应的视频片段时序结构化的全局特征。

之后，不执行本实施例的后续流程。

508，将候选片段中的所有视频片段分割为B_K个部分，例如，可以将候选片段中的所有视频片段平均分割为B_K个部分，分别由B_K个部分中各部分中视频片段的动作特征获取对应部分的池化特征，并对该B_K个部分的池化特征进行合并，得到上述时域区间对应片段时序结构化的全局特征。

之后，不执行本实施例的后续流程。

510，分别针对第k个池化层：识别分割部分数B_K的取值是否为1，其中，k的取值大于 0且不大于K。

若分割部分数B_K的取值为1，执行操作512。若分割部分数B_K大于1，执行操作514。

512，由候选片段中各视频片段的动作特征获取该候选片段在第k层的池化特征。

之后，执行操作516。

514，将候选片段中的所有视频片段分割为B_K个部分，分别由B_K个部分中各部分中视频片段的动作特征获取对应部分的池化特征，并对该B_K个部分的池化特征进行合并，得到候选片段在第k层的池化特征。

516，按照预设方式对K个池化层的池化特征进行合并，获得时域区间对应的视频片段时序结构化的全局特征。

以下以一个具体应用为例，对本发明结构化的时域金字塔式池化方法进行进一步的详细说明，具体如下。该应用示例中，K的取值为2，B_k的取值为2：

对一个候选片段，金字塔的第1层(即：最底层)为整个候选片段，先处理第1层，即：对整个候选片段内各视频片段的特征向量进行平均合并，得到一个池化向量；再处理第2 层，即：将该候选片段分为前后50％两部分，在每个部分内部分别进行特征向量的平均合并，得到两组池化向量；

然后将金字塔两层的所有池化向量，共3组，按照时序关系进行拼接，得到一个更高维度的特征向量，即该时域区间对应的视频片段的全局特征。这里拼接向量指将两个池化向量首尾相接，得到一个维度更高的池化向量。

图6为本发明实施例中确定时域区间对应的视频片段的完整度得分一个实施例的流程图。如图6所示，该实施例中，基于全局特征确定时域区间对应的视频片段的动作完整度得分，具体可以包括：

602，对全局特征进行分类，得到上述候选片段对应的至少一个动作类别。

对N种可能的动作类别，分类结果将得到N+1个动作类别得分，其中的第N+1类为背景类。其中，N为大于零的整数。

604，分别通过上述候选片段对应的各动作类别相关的分类器，基于全局特征识别上述时域区间对应的视频片段包括当前动作类别完整的动作实例的程度，得到上述时域区间对应的视频片段分别对应各动作类别的动作完整度得分。

即：对N种可能的动作类别，就对应N个分类器，每个分类器将接收到的全局特征与预先学习的对应动作类别完整动作的特征进行比对，输出一个得分，即动作完整度。该动作完整度得分表示一个时域区间包括某类动作类别完整的动作实例的程度(也即：可能性)。

图7为本发明时域动作检测方法又一个实施例的流程图。如图7所示，该实施例的时域动作检测方法包括：

702，分别对视频中的各视频片段进行动作度估计，获得时序动作度序列。

704，基于上述时序动作度序列进行动作位置预测，获得视频中可能存在动作实例的时域区间，该时域区间包括起始时间和结束时间，例如可以表示为起始时间和结束时间对(起始时间，结束时间)。

根据动作位置预测结果，分别以各动作实例的时域区间作为当前时域区间，执行操作 706～728。

706，提取当前时域区间内所有视频片段，以及当前时域区间之前预设长度的第一相邻片段和之后预设长度的第二相邻片段，同一动作实例的时域区间内所有视频片段、第一相邻片段和第二相邻片段构成同一动作实例的候选片段。

其中，第一相邻片段和第二相邻片段分别包括至少一个视频片段。

708，以当前时域区间对应的候选片段作为当前候选片段，分别提取当前候选片段中各视频片段的动作特征。

之后，同时执行操作710和714。

710，分别获取当前时域区间内各视频片段分别对应各动作类别的得分。

712，分别对当前时域区间内所有视频片段对应同一动作类别的得分求和，获得当前时域区间对应的视频片段对应各动作类别的分类得分。

714，基于当前时域区间对应的视频片段的动作特征、第一相邻片段的动作特征和第二相邻片段的动作特征，获取当前时域区间对应的视频片段时序结构化的全局特征。

716，对全局特征进行分类，得到当前候选片段对应的各动作类别。

718，通过当前候选片段对应的各动作类别相关的分类器，基于全局特征识别当前时域区间对应的视频片段包括当前动作类别的完整动作实例的可能性，得到当前时域区间对应的视频片段分别对应各动作类别的动作完整度得分。

其中，每一个动作类别对应一个分类器，即：该动作类别相关的分类器。

分别针对当前时域区间对应的视频片段和当前候选片段对应的所有动作类别中的各动作类别，执行操作720～724。

720，基于时域区间对应的视频片段对应各动作类别的分类得分与动作完整度得分，获取当前时域区间对应的视频片段是否包括对应各动作类别完整的动作实例的置信度值。

示例性地，该操作720中，可以以当前时域区间对应的视频片段对应的各动作类别作为当前动作类别，对当前时域区间对应视频片段对应当前动作类别的分类得分与动作完整度得分求取乘积或者求和，获取当前时域区间对应的视频片段是否包括当前动作类别完整的动作实例的置信度值。

722，分别针对当前时域区间对应的视频片段和当前候选片段对应的所有动作类别中的各动作类别，基于获取到的置信度值是否大于预设阈值，确定当前时域区间对应的视频片段是否包含对应动作类别完整的动作实例。

本发明实施例中的预设阈值在实际应用中可以根据对检测结果的质量要求设置，并且可以根据需要调整。

若当前时域区间对应的视频片段包含对应动作类别完整的动作实例，执行操作726。否则，不执行本实施例的后续流程。

724，对于包含对应动作类别完整的动作实例的视频片段作为目标视频片段，获取目标视频片段的动作位置检测结果。

其中，目标视频片段的动作位置检测结果包括完整的动作实例对应的检测动作类别、该动作实例的起始时间和结束时间，具体可以表示为三元组(动作类别，起始时间，结束时间)，视频的动作位置检测结果包括各目标视频片段的动作位置检测结果。

可选地，若通过操作722，目标视频片段包括完整的动作实例对应的动作类别大于一个，则可以选择对应于最大置信度值的一个动作实例对应的检测动作类别、该动作实例的起始时间和结束时间作为目标视频片段的动作位置检测结果。

726，分别针对各目标视频片段包括的各完整的动作实例：基于该目标视频片段的全局特征，对目标视频片段的动作位置检测结果中的时域区间进行位置回归，获得起止位置偏移量，该起止位置偏移量包括起始时间的位置偏移量和结束时间的位置偏移量。

728，通过起止位置偏移量对动作位置检测结果中的时域区间进行调整，获得调整后的动作位置检测结果，具体可以表示为三元组(动作类别，起始时间，结束时间)。

具体地，对一个视频进行时域动作检测时，可以在获得一个时域区间的动作位置检测结果时，即实时输出该时域区间的动作位置检测结果；也可以在获得整个视频的动作位置检测结果后，输出整个视频的动作位置检测结果，其可能包括一个或多个时域区间的动作位置检测结果。

示例性地，可以将目标视频片段的全局特征输入一预先训练好的线性回归模型，由该线性回归模型预测得到位置偏移量，并通过起止位置偏移量对动作位置检测结果中的时域区间进行调整，从而获得更加准确的动作位置检测结果，以便从整个视频中得到与实际动作实例的起止时间更接近的动作实例视频片段。

本发明实施例中，可以预先通过样本视频对初始线性回归模型进行训练，使得训练好的线性回归模型接收到视频、候选片段的全局特征及其包括的时域区间后，可以基于全局特征精确的定位出某动作类别完整的动作实例的准确时域区间，从而输出输入的时域区间中起始时间的位置偏移量和结束时间的位置偏移量。输入的时域区间与准确时域区间一致时，起始时间的位置偏移量和结束时间的位置偏移量均为0。其中的样本视频包含某动作类别完整的动作实例、以及该类动作类别完整的动作实例精确的时域区间。

本发明实施例通过位置回归对视频中的动作起止时间(即：时域区间)进行更精细的调整，进一步提升了在高交叠率(IOU)下的检测准确率。

基于本发明上述实施例提供的时域动作检测方法，可以识别出视频中包括各动作类别或特定动作类别完整的动作实例的视频片段，实现对各动作类别或特定动作类别完整的动作实例的准确识别和精确定位；并且，可以同时获取时域区间对应的视频片段属于各动作类别的得分和动作完整度得分，提高了整个时域动作检测过程的执行效率，节省检测时间。本发明实施例可以应用于对对各种长度的视频(包括剪辑出的视频和未经剪辑的视频)的检测，本发明实施例应用于检测未经剪辑、较长的视频时，对视频中动作类别的识别和位置的精确定位效果尤其显著。

本发明实施例的时域动作检测方法，可用于对视频进行各种预设特定动作类别(可称为：目标动作类别)动作实例的检测，例如，应用于车辆驾驶场景中通过监控视频监控司机是否存在疲劳驾驶行为(如：点头、闭眼等动作)时，可以设定点头、闭眼等疲劳驾驶行为动作分别为一个目标动作类别，将监控视频作为视频，基于本发明实施例的时域动作检测方法检测监控视频中是否存在完整的点头、闭眼等目标动作类别的完整动作，每个动作分别称为一个动作实例。若监控视频中存在一个完整的点头、闭眼等目标动作类别的完整动作，则确认司机发生了疲劳驾驶行为。

本发明上述实施例中，操作706～722具体可以通过一个预先训练好的神经网络实现。

示例性地，可以通过样本视频片段对初始神经网络模型进行训练，使得神经网络模型输出的动作位置检测结果与样本视频片段预先标注的参考动作位置信息(动作类别，起始时间，结束时间)之间的差别小于预设条件，从而获得训练好的神经网络，其中的样本视频片段预先标注有参考动作位置信息(动作类别，起始时间，结束时间)。

本发明实施例的时域动作检测方法应用于各种具体场景时，基于时域区间对应的视频片段的分类得分与动作完整度得分，确定该时域区间对应的视频片段是否包含目标动作类别完整的动作实例，具体可以通过如下方式实现：识别时域区间对应的视频片段对应各动作类别的分类得分中，是否存在分类得分大于预设第一数值的预设动作类别(此时认为时域区间对应的视频片段属于该预设动作类别)；以及识别时域区间对应的视频片段对应各动作类别的动作完整度得分中，是否存在动作完整度得分大于预设第二数值的预设动作类别(此时认为时域区间对应的视频片段包含了该预设动作类别的完整动作实例)；

响应于存在分类得分大于预设第一数值的预设动作类别和/或动作完整度得分大于预设第二数值的预设动作类别，以该分类得分大于预设第一数值的预设动作类别和/或动作完整度得分大于预设第二数值的预设动作类别作为目标动作类别，基于该时域区间对应的视频片段对应的目标动作类别的分类得分与动作完整度得分，确定该时域区间对应的视频片段是否包含目标动作类别完整的动作实例。

相应地，该应用实施例中，输出的动作位置检测结果具体包括：时域区间对应的视频片段包含完整的动作实例所属的目标动作类别、起始时间和结束时间。

图8为本发明时域动作检测***一个实施例的结构示意图。本发明各实施例的时域动作检测***可用于实现上述各实施例的时域动作检测方法。如图8所示，该实施例的时域动作检测***包括：第一获取模块，特征提取模块，池化处理模块和第一确定模块。其中：

第一获取模块，用于获取视频中存在动作实例的时域区间以及所述时域区间的至少一相邻片段。

其中，上述时域区间的至少一相邻片段包括：视频中时序位于该时域区间之前的第一相邻片段，和/或，视频中时序位于该时域区间之后的第二相邻片段。第一相邻片段和第二相邻片段分别包括至少一个视频片段。

特征提取模块，用于分别提取候选片段中各视频片段的动作特征，其中，候选片段包括时域区间对应的视频片段及其相邻片段。

池化处理模块，用于对候选片段中各视频片段的动作特征进行池化处理，获得上述时域区间对应的视频片段的全局特征。

第一确定模块，用于基于上述全局特征确定上述时域区间对应的视频片段的动作完整度得分。

基于本发明上述实施例提供的时域动作检测***，通过获取视频中存在动作实例的时域区间以及时域区间的至少一相邻片段，提取该时域区间以及时域区间的至少一相邻片段的动作特征并进行池化处理，获得该时域区间对应的视频片段的全局特征，基于全局特征确定时域区间对应的视频片段的动作完整度得分。本发明实施例基于包含时域区间的上下文信息的全局特征来确定时域区间对应的视频片段的动作完整度，从而有益于准确的确定时域区间是否包含完整的动作实例，提高了动作完整度识别的准确率。

图9为本发明实施例中第一获取模块一个具体实施例的结构示意图。如图9所示，该实施例的第一获取模块具体包括：

动作估计子模块，用于分别对视频中的各视频片段进行动作度估计，获得时序动作度序列。

位置预测子模块，用于基于上述时序动作度序列进行动作位置预测，获得视频中存在动作实例的时域区间，其中的时域区间包括起始时间和结束时间。

提取子模块，用于从视频中提取上述时域区间之前的第一相邻片段和/或所述时域区间之后的第二相邻片段。

示例性地，动作估计子模块具体可以包括：

图像获取单元，用于分别针对视频中的任一视频片段：提取一帧图像作为原始图像，以及提取任一视频片段的光流，并对获得的光流场图片进行合并，得到拼合光流场图像；

第一子卷积神经网络，用于对原始图像进行动作度估计，得到第一动作度值；

第二子卷积神经网络，用于对拼合光流场图像进行动作度估计，得到第二动作度值；

计算单元，用于由同一视频片段的第一动作度值与第二动作度值，获取任一视频片段的动作度值。视频中所有视频片段基于时序关系的动作度值形成时序动作度序列。

进一步地，在另一个具体示例中，动作估计子模块还可以包括：归一化单元，用于对计算单元获取的视频片段的动作度值进行归一化处理，得到归一化的动作度值。相应地，该实施例中，时序动作度序列具体为：由视频中所有视频片段归一化的动作度值形成的时序动作度序列。

图10为本发明时域动作检测***另一个实施例的结构示意图。如图10所示，与上述实施例的时域动作检测***相比，本实施例的时域动作检测***还包括：第二获取模块和第二确定模块。其中：

第二获取模块，用于基于时域区间对应的视频片段的动作特征，获取该时域区间对应的视频片段的至少一个动作类别的分类得分。

第二确定模块，用于根据时域区间对应的视频片段的至少一个动作类别的分类得分，确定该时域区间对应的视频片段的检测动作类别。

进一步地，再参见图10，在又一个实施例中，时域动作检测***还可以包括：输出模块，用于输出时域区间以及时域区间对应的视频片段的检测动作类别。

图11为本发明实施例中第二获取模块一个具体实施例的结构示意图。如图11所示，该实施例中，第二获取模块具体包括：

第一获取子模块，用于分别基于时域区间对应的各视频片段的动作特征，获取该时域区间对应的各视频片段分别属于至少一个动作类别的得分；

第一计算子模块，用于分别对上述时域区间对应的各视频片段属于同一动作类别的得分求和，获得该时域区间对应的视频片段的至少一个动作类别的分类得分。

图12为本发明实施例中池化模块一个具体实施例的结构示意图。如图12所示，该实施例中，池化模块具体包括：池化处理子模块，用于基于预先设置的配置规则，对提取的候选片段中各视频片段的动作特征进行时域金字塔式池化处理。

在其中一种配置规则中，具体包括：池化层数K和候选片段的分割部分数B_K，其中，K、B_K的取值分别为大于或等于1的整数。

基于该配置规则，在其中一个具体示例中，池化层数K的取值为1。池化处理子模块具体用于：

识别预设分割部分数B_K的取值是否为1；

若预设分割部分数B_K的取值为1，分别针对各待池化片段中的任一待池化片段，由任一待池化片段中各视频片段的动作特征获取任一待池化片段的池化特征，待池化片段包括时域区间内视频片段、第一相邻片段和第二相邻片段；对所有待池化片段的池化特征进行合并，获得时域区间对应的视频片段时序结构化的全局特征；以及

若预设分割部分数B_K的取值大于1，将候选片段中的所有视频片段分割为B_K个部分，分别由B_K个部分中各部分视频片段的动作特征获取对应部分的池化特征，并对B_K个部分的池化特征进行合并，获得时域区间对应的视频片段时序结构化的全局特征

进一步地，再参见图12，在池化模块的另一个实施例中，还可以选择性地包括合并子模块，用于合并时域金字塔式池化后得到的池化特征。

在另一个具体示例中，配置规则具体包括：池化层数K和候选片段的分割部分数B_K，其中，K池化层数K的取值大于1，分割部分数B_K的取值分别为大于或等于1的整数。

该另一个具体示例中，池化处理子模块具体用于：分别针对第k个池化层：识别预设分割部分数B_K的取值是否为1；若预设分割部分数B_K的取值为1，由候选片段中各视频片段的动作特征获取候选片段在第k层的池化特征；若预设分割部分数B_K的取值大于1，将候选片段中的所有视频片段分割为B_K个部分，分别由B_K个部分各部分视频片段的动作特征获取对应部分的池化特征，并对B_K个部分的池化特征进行合并，得到候选片段在第k层的池化特征；

合并子模块，具体用于按照预设方式对K个池化层的池化特征进行合并，获得时域区间对应的视频片段时序结构化的全局特征。

在又一个具体示例中，配置规则具体包括：池化层数K，以及时域区间对应的视频片段、第一相邻片段和/或第二相邻片段在各层的分割部分数B_K，其中，设池化层数K的取值为1，分割部分数B_K的取值分别为大于或等于1的整数。

则在该又一个具体示例中，池化处理子模块具体用于：对于预设分割部分数B_K的取值为 1的任一第一待池化片段，由任一第一待池化片段中各视频片段的动作特征获取任一第一待池化片段的池化特征；对于预设分割部分数B_K的取值大于1的任一第二待池化片段，将任一第二待池化片段中的所有视频片段分割为B_K个部分，分别由各部分中视频片段的动作特征获取对应部分的池化特征，并对B_K个部分的池化特征进行合并，得到任一第二待池化片段的池化特征；第一待池化片段包括时域区间对应的视频片段、第一相邻片段和第二相邻片段中的任意一个或多个；第二待池化片段包括候选片段中第一待池化片段外的其他待池化片段；

合并子模块，具体用于分别对第一相邻片段的池化特征、时域区间对应的视频片段的池化特征和第二相邻片段的池化特征进行合并，获得时域区间对应的视频片段时序结构化的全局特征。

在再一个具体示例中，配置规则具体包括：池化层数K，以及时域区间对应的视频片段、第一相邻片段和/或第二相邻片段在各层的分割部分数B_K，其中，设池化层数K的取值大于，分割部分数B_K的取值分别为大于或等于1的整数。

则在该再一个具体示例中，池化处理子模块具体用于：分别针对第k个池化层：对于预设分割部分数B_K的取值为1的任一第一待池化片段，由任一第一待池化片段中各视频片段的动作特征获取任一第一待池化片段在第k层的池化特征；对于预设分割部分数B_K的取值大于 1的任一第二待池化片段，将任一第一待池化片段中的所有视频片段分割为B_K个部分，分别由各部分中视频片段的动作特征获取对应部分的池化特征，并对B_K个部分的池化特征进行合并，得到任一第一待池化片段在第k层的池化特征；以及分别针对各待池化片段：按照预设方式对所有K个池化层的池化特征进行合并，得到各待池化片段的池化特征；第一待池化片段包括时域区间对应的视频片段、第一相邻片段和第二相邻片段中的任意一个或多个；第二待池化片段包括候选片段中第一待池化片段外的其他待池化片段；

合并子模块，具体用于分别对第一相邻片段的池化特征、时域区间对应的视频片段的池化特征和第二相邻片段的池化特征进行合并，获得时域区间对应的视频片段时序结构化的全局特征。图13为本发明实施例中第一确定模块一个具体实施例的结构示意图。如图13所示，该实施例中，第一确定模块具体包括：

分类子模块，用于对全局特征进行分类，得到候选片段对应的至少一个动作类别；

至少一个分类器，分别与候选片段对应的各动作类别相关，用于基于全局特征识别时域区间对应的视频片段包括当前动作类别完整的动作实例的程度，得到时域区间对应的视频片段分别对应各动作类别的动作完整度得分。

进一步地，再参见图10，在时域动作检测***的又一实施例中，还可以包括：第三确定模块，用于基于时域区间对应的视频片段的分类得分与动作完整度得分，确定时域区间对应的视频片段是否包含对应的各动作类别完整的动作实例。

图14为本发明实施例中第三确定模块一个具体实施例的结构示意图。如图14所示，该实施例中，第三确定模块具体包括：

第二计算子模块，用于分别针对时域区间对应的视频片段对应的任一动作类别，对时域区间对应的视频片段对应任一动作类别的分类得分与动作完整度得分求取乘积或者求和，获得时域区间对应的视频片段是否包含任一动作类别完整的动作实例的置信度值；

确定子模块，用于基于置信度值是否大于预设阈值，确定时域区间对应的视频片段是否包含任一动作类别完整的动作实例。

可选地，确定子模块，还可用于在时域区间对应的视频片段包含完整的动作实例对应的动作类别大于一个时，选择对应于最大置信度值的一个动作类别作为时域区间对应的视频片段的检测动作类别。

进一步地，再参见图10，在时域动作检测***的再一实施例中，还可以包括：位置回归模块，用于在时域区间对应的视频片段包含至少一个动作类别完整的动作实例时，基于全局特征对时域区间进行位置回归，获得起止位置偏移量，并通过起止位置偏移量对时域区间进行调整，其中的起止位置偏移量包括时域区间中起始时间和结束时间的位置偏移量。

相应地，该实施例中，输出模块，具体用于输出调整后的时域区间以及时域区间对应的视频片段的检测动作类别。

图15为本发明时域动作检测***又一实施例的结构示意图。如图15所示，与上述各实施例相比，该实施例的时域动作检测***还包括：识别模块，用于识别时域区间对应的视频片段的至少一个动作类别的分类得分中，是否存在分类得分大于预设第一数值的预设动作类别；以及识别动作完整度得分中，是否存在动作完整度得分大于预设第二数值的预设动作类别。

相应地，该实施例中，第三确定模块，具体用于在存在分类得分大于预设第一数值的预设动作类别和/或动作完整度得分大于预设第二数值的预设动作类别时，以分类得分大于预设第一数值的预设动作类别和/或动作完整度得分大于预设第二数值的预设动作类别作为目标动作类别，基于时域区间对应的视频片段对应的目标动作类别的分类得分与动作完整度得分，确定时域区间对应的视频片段是否包含目标动作类别完整的动作实例；

输出模块，具体用于输出目标动作类别及其时域区间。

另外，本发明实施例中还提供了一种电子设备，包括本发明上述任一实施例的时域动作检测***。

此外，本发明实施例中还提供了另一种电子设备，包括：

存储器，用于存储可执行指令；以及

处理器，用于与存储器通信以执行可执行指令从而完成以下操作：

获取视频中存在动作实例的时域区间以及时域区间的至少一相邻片段；

分别提取候选片段中各视频片段的动作特征，其中，候选片段包括时域区间对应的视频片段及其相邻片段；

对候选片段中各视频片段的动作特征进行池化处理，获得时域区间对应的视频片段的全局特征；

基于全局特征确定时域区间对应的视频片段的动作完整度得分。

本发明各实施例中的电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。

另外，本发明实施例还提供了一种计算机存储介质，用于存储计算机可读取的指令，该指令被执行时实现以下操作：

基于本发明上述各实施例的电子设备和计算机存储介质，基于包含时域区间的上下文信息的全局特征来确定时域区间对应的视频片段的动作完整度，从而有益于准确的确定时域区间是否包含完整的动作实例，提高了动作完整度识别的准确率。

图16为本发明电子设备一个具体应用实施例的结构示意图。图16示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。如图16所示，该电子设备包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元 (CPU)，和/或一个或多个图像处理器(GPU)等，处理器可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。通信部可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，处理器可与只读存储器和/或随机访问存储器中通信以执行可执行指令，通过总线与通信部相连、并经通信部与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，获取视频中存在动作实例的时域区间以及所述时域区间的至少一相邻片段；分别提取候选片段中各视频片段的动作特征，其中，所述候选片段包括所述时域区间对应的视频片段及其相邻片段；对所述候选片段中各视频片段的动作特征进行池化处理，获得所述时域区间对应的视频片段的全局特征；基于所述全局特征确定所述时域区间对应的视频片段的动作完整度得分。

此外，在RAM中，还可存储有装置操作所需的各种程序和数据。CPU、ROM以及RAM 通过总线彼此相连。在有RAM的情况下，ROM为可选模块。RAM存储可执行指令，或在运行时向ROM中写入可执行指令，可执行指令使处理器执行上述通信方法对应的操作。输入/ 输出(I/O)接口也连接至总线。通信部可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

需要说明的，如图16所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图16的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU 集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，获取视频中存在动作实例的时域区间以及所述时域区间的至少一相邻片段的指令；分别提取候选片段中各视频片段的动作特征的指令，其中，所述候选片段包括所述时域区间对应的视频片段及其相邻片段；对所述候选片段中各视频片段的动作特征进行池化处理的指令，获得所述时域区间对应的视频片段的全局特征的指令；基于所述全局特征确定所述时域区间对应的视频片段的动作完整度得分的指令。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。

本发明实施例，例如可以应用于处理如下场景：

场景1：视频分享网站可以分析用户向网站上传的视频，基于视频中包含的完整动作实例所属的动作类别，自动生成视频内容的相关标签(例如，跑步、跳高、竞走、撑杆跳、跳远及三级跳等体育运动类的动作类别标签，以及日常生活活动等动作类别标签)，将视频中最相关的片段(即：包含该动作类别完整的动作实例的视频片段)而不是冗长的整个视频推送给其他感兴趣的***，促进视频的高效搜索和快速传播。

场景2：用户视频分享网站或视频直播网站，需要分析网站用户上传的视频或直播视频中是否有违规的动作/行为，可基于本发明实施例提供的时域动作检测方法对用户上传的视频或直播视频进行检测，如存在违规的动作/行为，有益于准确定位这些动作/行为发生的时间及其动作类别。

场景3：监控场景，在医院、护理所乃至家中，基于本发明实施例提供的时域动作检测方法，通过监控视频对照顾病人、长者或儿童的服务人员进行监管，以便出现***行为时快速做出反应。

场景4：在机器人/自动驾驶汽车与使用者的交互过程中，需要检测某些特定动作的发生或结束来引导机器人的特定行为，这就基于本发明实施例提供的时域动作检测方法，准确检测监控视频中的某些特定动作(即：特定动作类别的动作)、精确定位这些特定动作的开始时间和结束时间。

本发明实施例具有以下总的有益技术效果：

可以识别出待检测视频中包括各动作类别或特定动作类别完整的动作实例的视频片段，实现对各动作类别或特定动作类别完整的动作实例的准确识别和精确定位；

可以同时获取时域区间对应的视频片段属于各动作类别的分类得分和动作完整度得分，提高了整个时域动作检测过程的执行效率，节省检测时间；

提出了结构化的时域金字塔池化方法，分别抽取时域区间前后和内部的时间-空间特征进行多层次时域金字塔池化，可以构造任意长度的候选片段的结构化全局特征，表达时序上的动作特征，从而可以同时基于各粒度的动作特征及动作特征在时间上的变化，更精确的定位发生某类动作类别动作实例的视频片段；

通过位置回归对待检测视频的动作起止时间进行更精细的调整，进一步提升了在高交叠率(IOU)下的检测准确率。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法和***、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和***、设备。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种时域动作检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述至少一相邻片段包括：所述视频中时序位于所述时域区间之前的第一相邻片段，和/或，所述视频中时序位于所述时域区间之后的第二相邻片段；所述第一相邻片段和所述第二相邻片段分别包括至少一个视频片段。

3.根据权利要求1或2所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述时域区间对应的视频片段的动作特征，获取所述时域区间对应的视频片段的至少一个动作类别的分类得分，包括：

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述对所述候选视频片段中各视频片段的动作特征进行池化处理，包括：

6.根据权利要求5所述的方法，其特征在于，所述对提取的候选片段中各视频片段的动作特征进行时域金字塔式池化处理之后，还包括：

合并时域金字塔式池化后得到的池化特征。

7.一种时域动作检测***，其特征在于，包括：

8.一种电子设备，其特征在于，包括权利要求23至42任意一项所述的时域动作检测***。

9.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；以及

10.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时实现以下操作：