CN110163129A

CN110163129A - 视频处理的方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN110163129A
Application number: CN201910380910.XA
Authority: CN
Inventors: 刘袁; 马林; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2019-08-23
Anticipated expiration: 2039-05-08
Also published as: CN110163129B

Abstract

本申请提供了一种视频处理的方法、装置、电子设备及计算机可读存储介质，涉及视频处理领域。该方法包括：基于从视频信息中提取的所述特征序列，获取所述视频信息的多个第一动作片段时间信息；依次基于所述特征序列中的各个特征，确定出各个候选动作片段时间信息的时间起始点集合和时间截止点集合；确定出各个第一动作片段时间信息分别对应的第二时间起始点，并确定出各个第一动作片段时间信息分别对应的第二时间截止点；采用所述第二时间起始点以及所述第二时间截止点，生成多个修正后的第一动作片段时间信息。本申请可以从未经处理的视频中提取出有人类活动的动作片段时间信息。

Description

视频处理的方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及视频处理技术领域，具体而言，本申请涉及一种视频处理的方法、装置、电子设备及计算机可读存储介质。

背景技术

在视频处理领域，视频的动作片段时间信息是指生成一批包含人类动作片段的时间区域，而不需要对时间区域进行动作分类，主要应用在安防领域、视频制作、视频处理等方面，也可以称为动作提名。

在目前确定视频的动作片段时间信息方法中，主要是利用滑窗机制预先生成大量且彼此重叠的窗口，随后判别窗口中是否包含动作片段，但是由于动作时间长短不一，很难同时捕获多种长度的动作片段。许多情况下，动作片段可能延续几分钟，对于此类情况，现有技术往往无能为力。另一方面，现有算法产生的动作片段时间信息在动作的起止时间定位上通常不准确，导致其与实际的动作时间重叠度不是很高。

发明内容

本申请提供了一种视频处理的方法、装置、电子设备及计算机可读存储介质，可以解决有技术无法捕获多种长度的动作片段，以及捕获到的动作片段时间信息与实际的动作时间重叠度不是很高的问题。所述技术方案如下：

第一方面，提供了一种视频处理的方法，该方法包括：

基于从视频信息中提取的特征序列，获取视频信息的多个第一动作片段时间信息，每个第一动作片段时间信息具有第一时间起始点和第一时间截止点；

依次基于特征序列中的各个特征，确定出各个候选动作片段时间信息的时间起始点集合和时间截止点集合；

基于多个第一时间起始点和多个时间起始点集合，确定出各个第一动作片段时间信息分别对应的第二时间起始点，并基于多个第一时间截止点和多个时间截止点集合，确定出各个第一动作片段时间信息分别对应的第二时间截止点；其中，第二时间起始点与时间区域的真实时间起始点的差异值，小于第一时间起始点与真实时间起始点的差异值，第二时间截止点与时间区域的真实时间截止点的差异值，小于第一时间截止点与真实时间截止点的差异值；

采用第二时间起始点替换第一时间起始点，以及采用第二时间截止点替换第一时间截止点，生成多个修正后的第一动作片段时间信息。

优选地，从视频信息中提取的特征序列通过如下方式生成：

将视频信息输入预置的卷积网络，得到相应的特征序列，特征序列包括多个特征。

优选地，将视频信息输入预置的卷积网络，得到相应的特征序列的步骤，包括：

从视频信息的第一帧图像开始，将视频信息的连续预设数量的帧图像依次输入预置的卷积网络得到一个特征，直到视频的最后一帧图像，得到包含多个特征的特征序列。

优选地，基于从视频信息中提取的特征序列，获取视频信息的多个第一动作片段时间信息的步骤，包括：

将特征序列输入预置的粗粒度提名生成器，以使得粗粒度提名生成器从特征序列中，确定出各个动作在视频信息中对应的第一时间起始点和第一时间截止点；

将各个动作对应的第一时间起始点至第一时间截止点的时间区域，作为对应的各个第一动作片段时间信息。

优选地，依次基于特征序列中的各个特征，确定出各个候选动作片段时间信息的时间起始点集合和时间截止点集合的步骤，包括：

将各个特征输入预置的细粒度判别器，确定得到各个特征在对应候选动作片段时间信息中为时间起始点的概率及时间截止点的概率；

将各个候选动作片段时间信息中，时间起始点的概率超过时间起始点概率阈值的各个时间起始点，作为各个候选动作片段时间信息的时间起始点集合；

将各个候选动作片段时间信息中，时间截止点的概率超过时间截止点概率阈值的各个时间截止点，作为各个候选动作片段时间信息的时间截止点集合。

优选地，基于多个第一时间起始点和多个时间起始点集合，确定出各个第一动作片段时间信息分别对应的第二时间起始点的步骤，包括：

基于各个第一动作片段时间信息的第一时间起始点和第一时间截止点，生成多个时间起始点搜索空间；

当与第一动作片段时间信息对应的时间起始点集合中，至少一个时间起始点落入与第一动作片段时间信息对应的时间起始点搜索空间时，获取落入时间起始点搜索空间的时间起始点中概率值最大的时间起始点；

将各个概率值最大的时间起始点作为各个第一动作片段时间信息的第二时间起始点。

优选地，基于多个第一时间截止点和多个时间截止点集合，确定出各个第一动作片段时间信息分别对应的第二时间截止点的步骤，包括：

基于各个第一动作片段时间信息的第一时间起始点和第一时间截止点，生成时间截止点搜索空间；

当与第一动作片段时间信息对应的时间截止点集合中，至少一个时间截止点落入与第一动作片段时间信息对应的时间截止点搜索空间时，获取落入时间截止点搜索空间的时间截止点中概率值最大的时间截止点；

将各个概率值最大的时间截止点作为各个第一动作片段时间信息的第二时间截止点。

优选地，依次基于特征序列中的各个特征，确定出各个候选动作片段时间信息的时间起始点集合和时间截止点集合的步骤，还包括：

依次将各个特征输入预置的细粒度判别器，依次确定得到各个特征在对应候选动作片段时间信息中为动作中的概率。

优选地，还包括：

当动作中的概率大于动作中概率阈值时，生成与特征对应第二动作片段时间信息；

当第二动作片段时间信息与任一修正后的第一动作片段时间信息的交并比IoU超过IoU阈值时，将第二动作片段时间信息替换任一修正后的第一动作片段时间信息。

第二方面，提供了一种视频处理的装置，该装置包括：

获取模块，用于基于从视频信息中提取的特征序列，获取视频信息的多个第一动作片段时间信息，每个第一动作片段时间信息具有第一时间起始点和第一时间截止点；

判定模块，用于依次基于特征序列中的各个特征，确定出各个候选动作片段时间信息的时间起始点集合和时间截止点集合；

确定模块，用于基于多个第一时间起始点和多个时间起始点集合，确定出各个第一动作片段时间信息分别对应的第二时间起始点，并基于多个第一时间截止点和多个时间截止点集合，确定出各个第一动作片段时间信息分别对应的第二时间截止点；其中，第二时间起始点与时间区域的真实时间起始点的差异值，小于第一时间起始点与真实时间起始点的差异值，第二时间截止点与时间区域的真实时间截止点的差异值，小于第一时间截止点与真实时间截止点的差异值；

修正模块，用于采用第二时间起始点替换第一时间起始点，以及采用第二时间截止点替换第一时间截止点，生成多个修正后的第一动作片段时间信息。

优选地，从视频信息中提取的特征序列通过如下方式生成：

优选地，输入模块具体用于：

优选地，获取模块包括：

第一输入子模块，用于将特征序列输入预置的粗粒度提名生成器，以使得粗粒度提名生成器从特征序列中，确定出各个动作在视频信息中对应的第一时间起始点和第一时间截止点；

第一生成子模块，用于将各个动作对应的第一时间起始点至第一时间截止点的时间区域，作为对应的各个第一动作片段时间信息。

优选地，判定模块包括：

第二输入子模块，用于将各个特征输入预置的细粒度判别器，确定得到各个特征在对应候选动作片段时间信息中为时间起始点的概率及时间截止点的概率；

第二生成子模块，用于将各个候选动作片段时间信息中，时间起始点的概率超过时间起始点概率阈值的各个时间起始点，作为各个候选动作片段时间信息的时间起始点集合，以及，将各个候选动作片段时间信息中，时间截止点的概率超过时间截止点概率阈值的各个时间截止点，作为各个候选动作片段时间信息的时间截止点集合。

优选地，确定模块包括：

时间起始点搜索空间生成子模块，用于基于各个第一动作片段时间信息的第一时间起始点和第一时间截止点，生成多个时间起始点搜索空间；

第一比较子模块，用于当与第一动作片段时间信息对应的时间起始点集合中，至少一个时间起始点落入与第一动作片段时间信息对应的时间起始点搜索空间时，获取落入时间起始点搜索空间的时间起始点中概率值最大的时间起始点；

第一确定子模块，用于将各个概率值最大的时间起始点作为各个第一动作片段时间信息的第二时间起始点。

优选地，确定模块包括：

时间截止点搜索空间生成子模块，用于基于各个第一动作片段时间信息的第一时间起始点和第一时间截止点，生成时间截止点搜索空间；

第二比较子模块，用于当与第一动作片段时间信息对应的时间截止点集合中，至少一个时间截止点落入与第一动作片段时间信息对应的时间截止点搜索空间时，获取落入时间截止点搜索空间的时间截止点中概率值最大的时间截止点；

第二确定子模块，用于将各个概率值最大的时间截止点作为各个第一动作片段时间信息的第二时间截止点。

优选地，第二输入子模块，还用于：

优选地，还包括：

生成模块，用于当动作中的概率大于动作中概率阈值时，生成与特征对应第二动作片段时间信息；

替换模块，用于当第二动作片段时间信息与任一修正后的第一动作片段时间信息的交并比IoU超过IoU阈值时，将第二动作片段时间信息替换任一修正后的第一动作片段时间信息。

第三方面，提供了一种电子设备，该电子设备包括：

处理器、存储器和总线；

总线，用于连接处理器和存储器；

存储器，用于存储操作指令；

处理器，用于通过调用操作指令，可执行指令使处理器执行如本申请的第一方面所示的视频处理的方法对应的操作。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本申请第一方面所示的视频处理的方法。

本申请提供的技术方案带来的有益效果是：

在本发明实施例中，基于从视频信息中提取的特征序列，获取视频信息的多个第一动作片段时间信息，每个第一动作片段时间信息具有第一时间起始点和第一时间截止点，再依次基于特征序列中的各个特征，确定出各个候选动作片段时间信息的时间起始点集合和时间截止点集合，进一步基于多个第一时间起始点和多个时间起始点集合，确定出各个第一动作片段时间信息的第二时间起始点，并基于多个第一时间截止点和多个时间截止点集合，确定出各个第一动作片段时间信息的第二时间截止点；其中，第二时间起始点与时间区域的真实时间起始点的差异值，小于第一时间起始点与真实时间起始点的差异值，第二时间截止点与时间区域的真实时间截止点的差异值，小于第一时间截止点与真实时间截止点的差异值；再采用第二时间起始点替换第一时间起始点，以及采用第二时间截止点替换第一时间截止点，生成多个修正后的第一动作片段时间信息。

本发明实施例通过对从视频信息中提取的特征序列进行分析处理，得到不同时间长度的动作片段时间信息，因为是基于整个特征序列提取的动作片段时间信息，所以各个动作片段时间信息的第一时间起始点和第一时间截止点，与实际发生人类动作的视频片段对应的真实时间起始点和真实时间截止点出入较大，准确度较低；同时，针对每个特征单独判断时间起始点集合和时间截止点集合，与实际发生人类动作的视频片段对应的时间起始点和时间截止点出入较小，准确度较高，再将不同时间长度的动作片段时间信息与每个特征的判别结果相融合，即，将各个动作片段时间信息对应的准确度较高的时间起始点替换准确度较低的时间起始点，将准确度较高的时间截止点替换准确度较低的时间截止点，得到修正后的动作片段时间信息，这样，基于整个特征序列提取的动作片段时间信息保证了人类动作的识别率，针对每个特征单独进行判断，保证了各个动作片段时间信息的时间起始点、时间截止点的准确准，使得二者结合生成的修正后的动作片段时间信息的时间起始点、时间截止点与实际发生人类动作的视频片段对应的真实时间起始点、时间截止点的重叠度更高，准确度更高，不仅有利于从大量视频信息中挖掘出更有价值的信息，而且，也为动作识别、视频语义理解提供了帮助，尤其在安防领域，通过动作片段时间信息能够极大减少人类工作量、发现关键人物、提供有价值的场景，节省时间的同时也极大地提升了效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请一个实施例提供的一种视频处理的方法的流程示意图；

图2为本申请另一实施例提供的一种视频处理的方法的流程示意图；

图3为本申请粗粒度提名生成器的网络结构示意图；

图4为本申请细粒度提名生成器的网络结构示意图；

图5-1为本申请又一实施例提供的一种视频处理的装置的结构示意图；

图5-2为本申请又一实施例提供的一种视频处理的装置的结构示意图；

图6为本申请又一实施例提供的一种视频处理的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请提供的视频处理的方法、装置、电子设备和计算机可读存储介质，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

在一个实施例中提供了一种视频处理的方法，如图1所示，该方法包括：

步骤S101，基于从视频信息中提取的特征序列，获取视频信息的多个第一动作片段时间信息，每个第一动作片段时间信息具有第一时间起始点和第一时间截止点；

其中，对视频的原始数据进行特征提取，得到多个特征，多个特征按照视频的时间轴排列，即可得到视频信息对应的特征序列了。

所谓动作片段时间信息，是从视频中筛选出有包含有人类动作的至少一个片段，并生成对应的至少一个时间区域，而不需要对该时间区域内的动作进行动作分类。其中，每个动作片段时间信息都具有时间起始点和时间截止点。

例如，某个视频有10S，其中第5.0S～8.0S包含某个动作，那么该视频的动作片段时间信息为[5.0S，8.0S]，5.0S就是该动作片段时间信息的时间起始点，8.0S就是该动作片段时间信息的时间截止点；又例如，某个视频有63S，其中第10.2S～23.8S包含动作A，第30.5S～62.9S包含动作B，那么该视频的动作片段时间信息A为[10.2S，23.8S]，动作片段时间信息B为[30.5S，62.9S]，10.2S是动作片段时间信息A的时间起始点，23.8S是动作片段时间信息A的时间截止点，30.5S是动作片段时间信息B的时间起始点，62.9S是动作片段时间信息B的时间截止点。

需要说明的是，动作片段时间信息的记录形式除了采用上述形式外，还可以采用其它的形式进行记录，本领域技术人员可以根据实际需求进行调整，本发明实施例对此不作限制。

步骤S102，依次基于特征序列中的各个特征，确定出各个候选动作片段时间信息的时间起始点集合和时间截止点集合；

在实际应用中，步骤S101中生成的动作片段时间信息的时间起始点和时间截止点，可能与实际的时间起始点和时间截止点有差别，比如，动作片段时间信息A实际为[10S，24S]，但是在步骤S101中捕获到的动作片段时间信息A为[10.2S，23.8S]，所以，在本发明实施例中，需要进一步获取各个动作片段时间信息实际的时间起始点时间截止点。

具体地，按照特征序列的顺序，也就是视频的时间轴顺序，依次计算出各个特征点为时间起始点、时间截止点的概率是多少。在实际应用中，可能存在连续多个特征为同一个动作片段时间信息的时间起始点，或时间截止点，但是概率是不同的。

例如，动作片段时间信息A实际为[10S，24.0S]，第10S对应第N个特征，在步骤S102中，计算到第N-1个特征为时间起始点的概率为0.2，第N个特征为时间起始点的概率为0.9，那么就将第N-1个特征和第N个特征作为时间起始点集合，时间截止点集合与时间起始点集合同理，在此就不赘述了。一个时间起始点集合与一个时间截止点集合对应一个候选动作片段时间信息，也就是说，步骤S102可以生成多个候选动作片段时间信息，每个候选动作片段时间信息包括时间起始点集合和时间截止点集合。

需要说明的是，因为步骤S102是基于每个特征单独进行判断的，并且，每个特征都是基于视频的时间轴排序，所以，步骤S102可以按照时间轴的顺序，将计算得到的一个时间起始点集合和一个时间截止点集合组成一个候选动作片段时间信息，从而得到多个候选动作片段时间信息。而且，每个第一动作片段时间信息都有对应的候选动作片段时间信息，因为毕竟都是按时间轴的顺序来捕获同一个动作的，所以，二者的区别只是在于，第一动作片段时间信息的起始时间点和截止时间点只有一个，而候选动作片段时间信息的起始时间点可能是多个，截止时间点也可能是多个。

步骤S103，基于多个第一时间起始点和多个时间起始点集合，确定出各个第一动作片段时间信息分别对应的第二时间起始点，并基于多个第一时间截止点和多个时间截止点集合，确定出各个第一动作片段时间信息分别对应的第二时间截止点；其中，第二时间起始点与时间区域的真实时间起始点的差异值，小于第一时间起始点与真实时间起始点的差异值，第二时间截止点与时间区域的真实时间截止点的差异值，小于第一时间截止点与真实时间截止点的差异值；

步骤S102是针对每个特征进行判断，而步骤S101是针对所有特征进行判断，所以，步骤S102中得到的时间起始点、时间截止点的准确度会高于步骤S101中得到的时间起始点、时间截止点，所以，在本发明实施例中，将时间起始点集合中概率值最高的时间起始点作为第二时间起始点，将动作截止集合中概率值最高的时间截止点作为第二时间截止点，第二时间起始点与时间区域的真实时间起始点的差异值，小于第一时间起始点与真实时间起始点的差异值，第二时间截止点与时间区域的真实时间截止点的差异值，小于第一时间截止点与真实时间截止点的差异值。

步骤S104，采用第二时间起始点替换第一时间起始点，以及采用第二时间截止点替换第一时间截止点，生成多个修正后的第一动作片段时间信息。

针对每个第一动作片段时间信息，将第二时间起始点替换第一时间起始点，将第二时间截止点替换第一时间截止点，得到修正后的第一动作片段时间信息。

需要说明的是，进行替换动作的第一时间起始点和第二时间起始点，二者在时间轴上肯定是非常接近的，也就是说，第二时间起始点是按时间轴来替换第一时间起始点的，比如，采用3.2S的第二时间起始点来替换3.4S的第一时间起始点，而不会采用10.8S的第二时间起始点来替换3.4S的第一时间起始点；时间截止点同理，在此就不赘述了。

进一步，步骤S101和步骤S102可以同时执行，也可以按任意顺序先后执行，在实际应用中可以根据实际需求进行调整，本发明实施例对此不作限制。

在本发明实施例中，基于从视频信息中提取的特征序列，获取视频信息的多个第一动作片段时间信息，每个第一动作片段时间信息具有第一时间起始点和第一时间截止点，再依次基于特征序列中的各个特征，确定出各个候选动作片段时间信息的时间起始点集合和时间截止点集合，进一步基于多个第一时间起始点和多个时间起始点集合，确定出各个第一动作片段时间信息的第二时间起始点，并基于多个第一时间截止点和多个时间截止点集合，确定出各个第一动作片段时间信息的第二时间截止点，其中，第二时间起始点与时间区域的真实时间起始点的差异值，小于第一时间起始点与真实时间起始点的差异值，第二时间截止点与时间区域的真实时间截止点的差异值，小于第一时间截止点与真实时间截止点的差异值；再采用第二时间起始点替换第一时间起始点，以及采用第二时间截止点替换第一时间截止点，生成多个修正后的第一动作片段时间信息。

在又一个实施例中提供了一种视频处理的方法，如图2所示，该方法包括：

步骤S201，基于从视频信息中提取的特征序列，获取视频信息的多个第一动作片段时间信息，每个第一动作片段时间信息具有第一时间起始点和第一时间截止点；

在本发明一种优选的实施例中，所述从视频信息中提取的特征序列通过如下方式生成：

将视频信息输入预置的卷积网络，得到相应的特征序列，所述特征序列包括多个特征。

其中，预置的卷积网络可以为I3D卷积网络，视频信息可以是视频的原始数据，I3D卷积网络可以对视频的原始数据进行特征提取，得到多个特征，多个特征按照视频的时间轴排列，即可得到视频信息对应的特征序列了。

在本发明一种优选实施例中，将视频信息输入预置的卷积网络，得到相应的特征序列，包括：

具体而言，视频中包含大量的信息，如果将视频的每一帧图像作为输入，那么，总的计算量会非常大，且计算复杂度也较高。比如，一帧图像的分辨率为600*800，那么一帧图像就包含480000个像素点，假设某个视频10分钟，1S包括24帧图像，那么该视频就包含6912000000个像素点，如果对原始视频进行处理，也就是对6912000000个像素点进行处理，那么计算量是非常大的。

因此，在本发明实施例中，通过I3D卷积网络对视频进行特征提取，即，从视频的第一帧图像开始，将连续预设数量的帧连续的视频图像，比如8帧图像生成一个1024维度的特征，从而生成多个特征。比如，某个视频有800帧，将每8帧生成一个特征，经过特征提取后，就得到100个特征。这样就大大减少了动作片段时间信息时的计算量。

进一步，将K帧连续的视频图像生成一个1024维度的特征，则是从K帧视频图像中提取出可用于动作片段时间信息的信息，生成一个包含1024个数的数组，作为一个特征。

所谓动作片段时间信息，是从视频中筛选出有人类动作的至少一个片段，并生成对应的至少一个时间区域，而不需要对该时间区域内的动作进行动作分类。其中，每个动作片段时间信息都具有时间起始点和时间截止点。

在本发明一种优选实施例中，基于从视频信息中提取的特征序列，获取视频信息的多个第一动作片段时间信息的步骤，包括：

将所述特征序列输入预置的粗粒度提名生成器，以使得所述粗粒度提名生成器从所述特征序列中，确定出各个动作在所述视频信息中对应的第一时间起始点和第一时间截止点；

具体而言，预置的粗粒度提名生成器为基于卷积网络(Conv)生成的7个具有不同时间分辨率的输出层，定义为输入的特征序列的长度为L，7个输出层的时间分辨率分别为L/8，L/16，L/32，L/64，L/128，L/256和L/512。

对于每个输出层，在相应的时间分辨率基础上设定0.5、0.75、1、1.5共四个分辨率调整参数，不同的输出层负责捕获不同长度的动作片段时间信息。即，对于第i层，其时间分辨率为由于分辨率调整参数的存在，第i层负责捕捉的动作片段时间信息的长度为也就是说，粗粒度提名生成器可以同时捕获28种长度的动作片段时间信息，较好地实现对多种时间长度动作的捕获。

例如，以i＝3，L＝128为例，第三层可以捕获的动作片段时间信息的长度为[2，3，4，6]，也就是说，如果该特征序列中，动作片段时间信息A的长度为3个特征，动作片段时间信息B的长度为6个特征，动作片段时间信息C的长度为9个特征，那么，第三层就可以捕获到动作片段时间信息A和动作片段时间信息B，而无法捕获到动作片段时间信息C。

其中，动作片段时间信息的长度对应该动作片段时间信息在视频中的时间区域，比如，动作片段时间信息A的长度为3个特征，对应在视频中的时间区域为[10.2S，23.8S]。

进一步，7个输出层中，为最高层，时间分辨率最大(L/8)，为最低层，时间分辨率最小(L/512)。时间分辨率小的输出层用于对视频的浅层语义信息进行提取，为像素级处理；其中，浅层语义信息是对图像中边缘、纹理、条纹等的感知；时间分辨率高的输出层用于对视频的深层语义信息进行提取，比如用于物体识别、人脸识别等；其中，深层语义信息是对图像内容的理解，比如这个物体是什么类别，这个人在做什么动作等等。

但是分辨率较高的输出层其语义信息通常较弱，不利于对较短时间的动作的捕获，所以，本发明实施例中的粗粒度提名生成器采用了编码器-解码器的网络结构，如图3所示(为方便描述，以三层网络为例)，通过解卷积网络(Deconv)提升输出层的时间分辨率，并将其与对应的结合，生成最终的7个输出层其中，层的输入为的输出以及的输出，采用两个相邻层的输出作为的输入，可以提高层的识别率，这样，不同的输出层负责不同时间长度的动作的捕获，提升动作片段时间信息整体的识别率。

步骤S202，依次基于特征序列中的各个特征，确定出各个候选动作片段时间信息的时间起始点集合和时间截止点集合；

在实际应用中，步骤S201中生成的动作片段时间信息的时间起始点和时间截止点，可能与实际的时间起始点和时间截止点有差别，比如，动作片段时间信息A实际为[10S，24S]，但是在步骤S201中捕获到的动作片段时间信息A为[10.2S，23.8S]，所以，在本发明实施例中，需要进一步获取各个动作片段时间信息实际的时间起始点时间截止点。

在本发明一种优选实施例中，依次基于特征序列中的各个特征，确定出各个候选动作片段时间信息的时间起始点集合和时间截止点集合的步骤，包括：

具体而言，粗粒度提名生成器虽然能捕获不同长度的动作，但是其对动作起止时间的定位通常不准确，也就是与实际动作的重合度不高。细粒度判别器通过判别视频输入的每一个特征(每K帧提取一个1024维特征)为时间起始点(starting)、时间截止点(ending)以及动作中(middle)的概率，可以实现对视频的细粒度判别，因此，细粒度判别器对动作的边缘(时间起始点、时间截止点)具有较高的判断准确性。其具体网络结构如图4所示，左边的输入就是特征序列中的各个特征，每个特征经过多层卷积网络(Conv)的计算后，输出其为时间起始点、时间截止点以及动作中的概率，并将时间起始点的概率超过时间起始点概率阈值的各个时间起始点，作为时间起始点集合，将时间截止点的概率超过时间截止点概率阈值的各个时间截止点，作为时间截止点集合。

例如，在某个时间点附近，连续三个特征都被判定为时间起始点，且三个特征为时间起始点的概率依次为0.3、0.7、0.9，而时间起始点概率阈值为0.6，所以，将时间起始点概率为0.7和0.9的两个特征作为一个动作片段时间信息的时间起始点集合，时间截止点集合同理，在此就不赘述了。

需要说明的是，因为步骤S202是基于每个特征单独进行判断的，并且，每个特征都是基于视频的时间轴排序，所以，步骤S102可以按照时间轴的顺序，将计算得到的一个时间起始点集合和一个时间截止点集合组成一个候选动作片段时间信息，从而得到多个候选动作片段时间信息。而且，每个第一动作片段时间信息都有对应的候选动作片段时间信息，因为毕竟都是按时间轴的顺序来捕获同一个动作的，所以，二者的区别只是在于，第一动作片段时间信息的起始时间点和截止时间点只有一个，而候选动作片段时间信息的起始时间点可能是多个，截止时间点也可能是多个。

步骤S203，基于多个第一时间起始点和多个时间起始点集合，确定出各个第一动作片段时间信息分别对应的第二时间起始点，并基于多个第一时间截止点和多个时间截止点集合，确定出各个第一动作片段时间信息分别对应的第二时间截止点；其中，第二时间起始点与时间区域的真实时间起始点的差异值，小于第一时间起始点与真实时间起始点的差异值，第二时间截止点与时间区域的真实时间截止点的差异值，小于第一时间截止点与真实时间截止点的差异值；

步骤S202是针对每个特征进行判断，而步骤S101是针对所有特征进行判断，所以，步骤S202中得到的时间起始点、时间截止点的准确度会高于步骤S201中得到的时间起始点、时间截止点，所以，在本发明实施例中，将时间起始点集合中概率值最高的时间起始点作为第二时间起始点，将动作截止集合中概率值最高的时间截止点作为第二时间截止点，其中，第二时间起始点与时间区域的真实时间起始点的差异值，小于第一时间起始点与真实时间起始点的差异值，第二时间截止点与时间区域的真实时间截止点的差异值，小于第一时间截止点与真实时间截止点的差异值。

在本发明一种优选实施例中，基于多个第一时间起始点和多个时间起始点集合，确定出各个第一动作片段时间信息分别对应的第二时间起始点的步骤，包括：

基于多个第一时间截止点和时间截止点集合，确定出各个第一动作片段时间信息分别对应的第二时间截止点的步骤，包括：

具体而言，粗粒度提名生成器能够捕获不同长度的动作，但是对动作发生的起止时间判定通常不准确。相反，细粒度判别器则可以较好地捕获到动作发生的精确起止时间。因此，通过融合粗粒度提名生成器与细粒度判别器的结果，生成修正后的动作片段时间信息。具体步骤如下：

(1)粗粒度提名生成器产生的动作片段时间信息存在大量重叠，通过非极大值抑制(NMS)的方法，去除重叠度较高的提名，有利于提升动作片段时间信息的质量。生成的动作片段时间信息标记为 M表示动作片段时间信息的数量，[t_s,n,t_e,n]表示提名的起止时间。

(2)基于[t_s,n,t_e,n]设定搜索空间：

其中，d_d,n＝t_e,n-t_s,n为动作时间长度，ρ用于控制搜索空间的长度，和分别是起点搜索空间和时间截止点搜索空间。

(3)在搜索空间中，若存在概率值较高的时间起始点或者时间截止点概率，则对动作片段时间信息的时间起始点进行相应的修正，提升其对动作边缘的定位准确度。

例如，针对视频中的某个动作，步骤(1)中粗粒度提名生成器生成的动作片段时间信息A为[10.2S，23.8S]，经过步骤(2)计算得知，动作片段时间信息A的起点为搜索空间为[9.7S，10.7S]，时间截止点搜索空间为[23.3S，24.3S]，然后判断将该动作的候选动作片段时间信息的时间起始点集合中，是否有时间起始点落入[9.7S，10.7S]，如果只有一个，则将这个时间起始点作为第二时间起始点；如果有多个，则将多个中，概率值最高的那个时间起始点作为第二时间起始点，比如，该动作的候选动作片段时间信息的时间起始点集合中，有两个时间起始点落入[9.7S，10.7S]，一个为9.8S，一个为10.0S，9.8S为时间起始点的概率值为0.6，10.0S为时间起始点的概率值为0.85，那么，就将10.0S的这个时间起始点作为第二时间起始点；时间截止点同理，在此就不赘述了。

步骤S204，采用第二时间起始点替换第一时间起始点，以及采用第二时间截止点替换第一时间截止点，生成多个修正后的第一动作片段时间信息；

针对每个第一动作片段时间信息，将第二时间起始点替换第一时间起始点，将第二时间截止点替换第一时间截止点，得到修正后的第一动作片段时间信息，多个修正后的动作片段时间信息标记为

还是以上述事例进行举例说明，假设经过步骤(1)、(2)、(3)得到动作片段时间信息A的第二时间起始点为10.0S，第二动作截止时间点为24.0S，那么，用10.0S替换9.7S，用24.0S替换23.8S，从而得到修正后的动作片段时间信息A为[10S，24.0S]。

需要说明的是，因为每个第一动作片段时间信息都有对应的候选动作片段时间信息，所以，每个第一动作片段时间信息都会被修正，从而得到多个修正后的动作片段时间信息。

步骤S205，当动作中的概率大于动作中概率阈值时，生成与特征对应第二动作片段时间信息；

在步骤S202中，细粒度判别器还计算出了各个特征为动作中的概率，在本发明实施例中，当计算得到的动作中的概率大于动作中概率阈值时，还可以采用水域分割的方法生成包含该动作的第二动作片段时间信息，生成的多个第二动作片段时间信息记为其中M_t表示生成的动作片段时间信息总数。这种方法难以捕获较长的动作，因而识别率较低，但对于捕获的动作片段时间信息，通常与实际动作重叠度较高。

例如，某个动作的修正后的动作片段时间信息为[3.0S，6.0S]，细粒度判别器检测到4.5S对应的特征为该动作的动作中，且概率值为0.95，超过了动作中概率阈值0.6，那么，生成该动作的动作片段时间信息。为方便描述，记为第二动作片段时间信息。也就是说，针对同一动作，依次生成了第一动作片段时间信息、修正后的第一动作片段时间信息，以及第二动作片段时间信息。

进一步，如果有多个动作中的概率都大于动作中概率阈值，那么就相应生成多个第二动作片段时间信息。

步骤S206，当第二动作片段时间信息与任一修正后的第一动作片段时间信息的交并比IoU超过IoU阈值时，将第二动作片段时间信息替换任一修正后的第一动作片段时间信息。

具体而言，将第二动作片段时间信息与每个修正后的第一动作片段时间信息进行IoU(intersection over union，交并比)计算，当与任一修正后的第一动作片段时间信息的交并比IoU超过IoU阈值时，将第二动作片段时间信息替换该修正后的第一动作片段时间信息，即，将被相应的τ_n所取代。

如果有多个第二动作片段时间信息，则将每个第二动作分别与所有修正后的第一动作片段时间信息进行IoU计算，如果IoU超过IoU阈值，则进行替换即可。

进一步，步骤S201和步骤S202可以同时执行，也可以按任意顺序先后执行，在实际应用中可以根据实际需求进行调整，本发明实施例对此不作限制。

在本发明实施例中，通过卷积网络提取视频深层语义信息，将视频转换为特征序列，采用粗粒度提名生成器和细粒度判别器对特征序列进行分析处理；其中，粗力度提名生成器通过设置7个不同时间分辨率的输出层，捕获不同时间长度的动作片段，同时每个输出层设置相应的分辨率调整参数，进一步提升对不同时间长度动作的捕获能力，增加动作片段时间信息的整体识别率；同时，细粒度判别器针对每一个特征，判别其为时间起始点、时间截止点以及动作中的概率，细粒度的分析有利于对时间起始点、时间截止点的准确判定。通过将粗粒度提名生成器生成的动作片段时间信息与细粒度判别器的判别结果融合，即，将各个动作片段时间信息对应的准确度较高的时间起始点替换准确度较低的时间起始点，将准确度较高的时间截止点替换准确度较低的时间截止点，得到修正后的动作片段时间信息，这样，基于整个特征序列提取的动作片段时间信息保证了人类动作的识别率，针对每个特征单独进行判断，保证了动作片段时间信息的时间起始点、时间截止点的准确准，使得二者结合生成的修正后的动作片段时间信息与实际发生人类动作的视频片段对应的时间起始点、时间截止点的重叠度更高，准确度更高。

进一步，基于特征为视频中的概率，生成对应候选动作的第二动作片段时间信息，并将生成的动作片段时间信息与任一修正后的动作片段时间信息进行交并比计算，当交并比超过交并比阈值时，将生成的动作片段时间信息替换修正后的动作片段时间信息，从而可以进一步提升动作片段时间信息的时间起始点、时间截止点的准确度，进一步提升动作片段时间信息与实际发生人类动作的视频片段对应的时间起始点重叠度。

图5为本申请又一实施例提供的一种视频处理的装置的结构示意图，如图5-1所示，本实施例的装置可以包括：

获取模块501，用于基于从视频信息中提取的特征序列，获取视频信息的多个第一动作片段时间信息，每个第一动作片段时间信息具有第一时间起始点和第一时间截止点；

判定模块502，用于依次基于特征序列中的各个特征，确定出各个候选动作片段时间信息的时间起始点集合和时间截止点集合；

确定模块503，用于基于多个第一时间起始点和多个时间起始点集合，确定出各个第一动作片段时间信息分别对应的第二时间起始点，并基于多个第一时间截止点和多个时间截止点集合，确定出各个第一动作片段时间信息分别对应的第二时间截止点，其中，第二时间起始点与时间区域的真实时间起始点的差异值，小于第一时间起始点与真实时间起始点的差异值，第二时间截止点与时间区域的真实时间截止点的差异值，小于第一时间截止点与真实时间截止点的差异值；

修正模块504，用于采用第二时间起始点替换第一时间起始点，以及采用第二时间截止点替换第一时间截止点，生成多个修正后的第一动作片段时间信息。

在本发明一种优选实施例中，所述从视频信息中提取的特征序列通过如下方式生成：将视频信息输入预置的卷积网络，得到相应的特征序列，所述特征序列包括多个特征。

在本发明一种优选实施例中，输入模块具体用于：

在本发明一种优选实施例中，获取模块包括：

第一输入子模块，用于将所述特征序列输入预置的粗粒度提名生成器，以使得所述粗粒度提名生成器从所述特征序列中，确定出各个动作在所述视频信息中对应的第一时间起始点和第一时间截止点；

在本发明一种优选实施例中，判定模块包括：

第二输入子模块，用于将各个特征输入预置的细粒度判别器，确定得到各个特征在对应候选动作片段时间信息中为时间起始点的概率，或，时间截止点的概率；

在本发明一种优选实施例中，确定模块包括：

在本发明一种优选实施例中，第二输入子模块，还用于：

在本发明一种优选实施例中，如图5-2所示，装置还包括：

生成模块505，用于当动作中的概率大于动作中概率阈值时，生成与特征对应第二动作片段时间信息；

替换模块505，用于当第二动作片段时间信息与任一修正后的第一动作片段时间信息的交并比IoU超过IoU阈值时，将第二动作片段时间信息替换任一修正后的第一动作片段时间信息。

本实施例的视频处理的装置可执行本申请第一个实施例所示的视频处理的方法，其实现原理相类似，此处不再赘述。

本申请的又一实施例中提供了一种电子设备，该电子设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，与现有技术相比可实现：在本发明实施例中，基于从视频信息中提取的特征序列，获取视频信息的多个第一动作片段时间信息，每个第一动作片段时间信息具有第一时间起始点和第一时间截止点，再依次基于特征序列中的各个特征，确定出各个候选动作片段时间信息的时间起始点集合和时间截止点集合，进一步基于多个第一时间起始点和多个时间起始点集合，确定出各个第一动作片段时间信息的第二时间起始点，并基于多个第一时间截止点和多个时间截止点集合，确定出各个第一动作片段时间信息的第二时间截止点，其中，第二时间起始点与时间区域的真实时间起始点的差异值，小于第一时间起始点与真实时间起始点的差异值，第二时间截止点与时间区域的真实时间截止点的差异值，小于第一时间截止点与真实时间截止点的差异值；再采用第二时间起始点替换第一时间起始点，以及采用第二时间截止点替换第一时间截止点，生成多个修正后的第一动作片段时间信息。

在一个可选实施例中提供了一种电子设备，如图6所示，图6所示的电子设备6000包括：处理器6001和存储器6003。其中，处理器6001和存储器6003相连，如通过总线6002相连。可选地，电子设备6000还可以包括收发器6004。需要说明的是，实际应用中收发器6004不限于一个，该电子设备6000的结构并不构成对本申请实施例的限定。

处理器6001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器6001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线6002可包括一通路，在上述组件之间传送信息。总线6002可以是PCI总线或EISA总线等。总线6002可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器6003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器6003用于存储执行本申请方案的应用程序代码，并由处理器6001来控制执行。处理器6001用于执行存储器6003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

本申请的又一实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，在本发明实施例中，基于从视频信息中提取的特征序列，获取视频信息的多个第一动作片段时间信息，每个第一动作片段时间信息具有第一时间起始点和第一时间截止点，再依次基于特征序列中的各个特征，确定出各个候选动作片段时间信息的时间起始点集合和时间截止点集合，进一步基于多个第一时间起始点和多个时间起始点集合，确定出各个第一动作片段时间信息的第二时间起始点，并基于多个第一时间截止点和多个时间截止点集合，确定出各个第一动作片段时间信息的第二时间截止点，其中，第二时间起始点与时间区域的真实时间起始点的差异值，小于第一时间起始点与真实时间起始点的差异值，第二时间截止点与时间区域的真实时间截止点的差异值，小于第一时间截止点与真实时间截止点的差异值；再采用第二时间起始点替换第一时间起始点，以及采用第二时间截止点替换第一时间截止点，生成多个修正后的第一动作片段时间信息。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频处理的方法，其特征在于，包括：

基于从视频信息中提取的特征序列，获取所述视频信息的多个第一动作片段时间信息，每个第一动作片段时间信息具有第一时间起始点和第一时间截止点；动作片段时间信息指从视频中确定到的包括人类动作的视频片段对应的时间区域；

依次基于所述特征序列中的各个特征，确定出各个候选动作片段时间信息的时间起始点集合和时间截止点集合；

基于多个第一时间起始点和多个时间起始点集合，确定出各个第一动作片段时间信息分别对应的第二时间起始点，并基于多个第一时间截止点和多个时间截止点集合，确定出各个第一动作片段时间信息分别对应的第二时间截止点；其中，所述第二时间起始点与所述时间区域的真实时间起始点的差异值，小于所述第一时间起始点与所述真实时间起始点的差异值，所述第二时间截止点与所述时间区域的真实时间截止点的差异值，小于所述第一时间截止点与所述真实时间截止点的差异值；

2.根据权利要求1所述的视频处理的方法，其特征在于，所述从视频信息中提取的特征序列通过如下方式生成：

将视频信息输入预置的卷积网络，得到相应的特征序列，所述特征序列包括多个特征；

所述将视频信息输入预置的卷积网络，得到相应的特征序列，包括：

从所述视频信息的第一帧图像开始，将所述视频信息的连续预设数量的帧图像依次输入预置的卷积网络得到一个特征，直到所述视频信息的最后一帧图像，得到包含多个特征的特征序列。

3.根据权利要求1所述的视频处理的方法，其特征在于，所述基于从视频信息中提取的特征序列，获取所述视频信息的多个第一动作片段时间信息的步骤，包括：

4.根据权利要求1所述的视频处理的方法，其特征在于，所述依次基于所述特征序列中的各个特征，确定出各个候选动作片段时间信息的时间起始点集合和时间截止点集合的步骤，包括：

5.根据权利要求1-4任一项所述的视频处理的方法，其特征在于，所述基于多个第一时间起始点和多个时间起始点集合，确定出各个第一动作片段时间信息分别对应的第二时间起始点的步骤，包括：

6.根据权利要求1-4任一项所述的视频处理的方法，其特征在于，所述基于多个第一时间截止点和多个时间截止点集合，确定出各个第一动作片段时间信息分别对应的第二时间截止点的步骤，包括：

7.根据权利要求1-4任一项所述的视频处理的方法，其特征在于，所述依次基于所述特征序列中的各个特征，确定出各个候选动作片段时间信息的时间起始点集合和时间截止点集合的步骤，还包括：

依次将各个特征输入预置的细粒度判别器，依次确定得到各个特征在对应候选动作片段时间信息中为动作中的概率；

其中，所述方法还包括：

当所述动作中的概率大于动作中概率阈值时，生成与所述特征对应第二动作片段时间信息；

当所述第二动作片段时间信息与任一修正后的第一动作片段时间信息的交并比IoU超过IoU阈值时，将所述第二动作片段时间信息替换所述任一修正后的第一动作片段时间信息。

8.一种视频处理的装置，其特征在于，包括：

确定模块，用于基于多个第一时间起始点和多个时间起始点集合，确定出各个第一动作片段时间信息分别对应的第二时间起始点，并基于多个第一时间截止点和多个时间截止点集合，确定出各个第一动作片段时间信息分别对应的第二时间截止点；其中，所述第二时间起始点与所述时间区域的真实时间起始点的差异值，小于所述第一时间起始点与所述真实时间起始点的差异值，所述第二时间截止点与所述时间区域的真实时间截止点的差异值，小于所述第一时间截止点与所述真实时间截止点的差异值；

9.一种电子设备，其特征在于，其包括：

处理器、存储器和总线；

所述总线，用于连接所述处理器和所述存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，执行上述权利要求1-7中任一项所述的视频处理的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行上述权利要求1-7中任一项所述的视频处理的方法。