CN110852256B

CN110852256B - 时序动作提名的生成方法、装置、设备及存储介质

Info

Publication number: CN110852256B
Application number: CN201911087939.5A
Authority: CN
Inventors: 李剑; 林楚铭; 王亚彪; 汪铖杰; 李季檩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2023-04-18
Anticipated expiration: 2039-11-08
Also published as: CN110852256A

Abstract

本申请公开了一种时序动作提名的生成方法、装置、设备及存储介质，方法包括：获取视频中的多个视频帧；调用时序动作提名生成模型对多个视频帧进行预测处理，得到视频对应的时序边界置信图和动作完整度概率图，将时序边界置信图和动作完整度概率图进行融合，得到融合特征图；根据融合特征图输出视频的时序动作提名。由于基于稠密边界的两个时序边界置信图和动作完整度概率图是基于全局的提名级别信息(L*L维度)来对时序动作提名的边界进行预测，而非类似于BMN仅基于局部信息对时序动作提名的边界进行预测，因此在时序动作提名的生成任务中能够预测出较为准确的边界。

Description

时序动作提名的生成方法、装置、设备及存储介质

技术领域

本申请涉及机器学习领域，特别涉及一种时序动作提名的生成方法、装置、设备及存储介质。

背景技术

时序动作提名的生成任务是指：给未裁剪的长视频生成一定数量的时序动作提名，一个时序动作提名即是一个可能包含动作片段的时序区间(从开始边界到结束边界)。高质量的时序动作提名应该具备几点特质：(1)灵活的时序长度；(2)精确的时序边界；(3)可靠的置信度分数。时序动作提名是动作检测、视频分析等各种任务的关键步骤。

相关技术中采用基于边界的方法(boundary-basedmethods)来完成该生成任务。典型的基于边界的方法包括：用于时序动作提名生成的边界敏感网络(Boundary-Sensitive Network，BSN)和边界匹配网络(Boundary-Matching Network，BMN)。BSN包括两个处理阶段：(1)定位时序边界，通过组合边界生成动作提名；(2)构造时序动作提名的特征，根据该特征预测对应时序动作提名的置信度。BMN将BSN改进为端到端(end-to-end)的方法。主要通过边界匹配层改进BSN的第二步，对所有的动作提名预测置信度。

但是上述BMN仍然难以预测较高精度的边界。特别地，对视频中存在复杂动作、杂乱背景、边界模糊和时序跨度较大的动作的情况，BMN预测的边界精度较差。

发明内容

本申请实施例提供了一种时序动作提名的生成方法、装置、设备及存储介质，可以解决相关技术中的BMN在某些场景下预测的边界精度较差的问题。所述技术方案如下：

根据本申请的一个方面，提供了一种时序动作提名的生成方法，所述方法包括：

获取视频中的多个视频帧；

调用时序动作提名生成模型对所述多个视频帧进行预测处理，得到所述视频对应的时序边界置信图和动作完整度概率图，所述时序边界置信图用于预测时序动作提名的开始边界和结束边界，所述动作完整度概率图用于表征同一个时序动作提名的开始边界和结束边界的动作完整度概率；

将所述时序边界置信图和所述动作完整度概率图进行融合，得到融合特征图；

根据所述融合特征图输出所述视频的时序动作提名。

根据本申请的一个方面，提供了一种时序动作提名的生成装置，所述装置包括：

获取模块，用于获取视频中的多个视频帧；

调用模块，用于调用时序动作提名生成模型对所述多个视频帧进行预测处理，得到所述视频对应的时序边界置信图和动作完整度概率图；所述时序边界置信图用于预测时序动作提名的开始边界和结束边界，所述动作完整度概率图用于表征同一个时序动作提名的开始边界和结束边界的动作完整度概率；

融合模块，用于将所述时序边界置信图和所述动作完整度概率图进行融合，得到融合特征图；

输出模块，用于根据所述融合特征图输出所述视频的时序动作提名。

根据本申请的一个方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的时序动作提名的生成方法。

根据本申请的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的时序动作提名的生成方法。

本申请实施例至少存在如下有益效果:

通过对视频中的多个视频帧进行预测处理，得到该视频对应的两个时序边界置信图和动作完整度概率图，将时序边界置信图和动作完整度概率图进行融合得到融合特征图，根据融合特征图输出视频的时序动作提名。由于基于稠密边界的融合特征图是在全局维度(L*L)对时序动作提名的边界进行预测，而非类似于BMN仅基于局部信息对时序动作提名的边界进行预测，因此在时序动作提名的生成任务中能够预测出较为准确的边界。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示意性实施例提供的视频分析***的框图；

图2是本申请另一个示意性实施例提供的时序动作提名的生成方法的流程图；

图3是本申请另一个示意性实施例提供的时序动作提名的生成模型的原理示意图；

图4是本申请另一个示意性实施例提供的时序动作提名的生成模型的结构框图；

图5是本申请另一个示意性实施例提供的时序动作提名的生成模型的网络架构图；

图6是本申请另一个示意性实施例提供的时序动作提名的生成方法的流程图；

图7是本申请另一个示意性实施例提供的时序动作提名的生成方法的流程图；

图8是本申请另一个示意性实施例提供的时序动作提名的生成方法的流程图；

图9是本申请另一个示意性实施例提供的时序动作提名的生成方法的流程图；

图10是本申请另一个示意性实施例提供的时序动作提名的生成模型的框图；

图11是本申请另一个示意性实施例提供的时序动作提名的生成装置的框图；

图12是本申请另一个示意性实施例提供的计算机设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的若干个名词进行介绍：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术，自动驾驶技术有着广泛的应用前景。

本申请实施例提供的方案涉及人工智能的计算机视觉技术。本申请设计了一种基于稠密边界的时序动作提名生成模型(Dense Boundary Generator，DBG)。该模型是端到端的，且运行速度很快。该模型改进了BMN的边界生成方式，会对所有可能的时序动作提名预测出一个稠密边界置信度。

图1示出了本申请一个示例性实施例提供的视频分析***的框图。该***包括：前端设备120和计算机设备140。前端设备120和计算机设备140之间通过通信网络相连。

前端设备120可以是监控摄像头、智能家居设备、聊天机器人、台式电脑、智能手机等。前端设备120能够采集视频、生成视频、存储视频或下载视频。前端设备120向计算机设备140提供待处理的视频。

计算机设备140内设置有基于稠密边界的时序动作提名的生成模型142，该时序动作提名的生成模型142用于预测视频对应的两个时序边界置信图和动作完整度概率图，根据两个时序边界置信图和动作完整度概率图来输出该视频的时序动作提名。该时序动作提名可以用于后续的动作检测、视频分析和安防报警等。

上述视频分析***可以实现成为：教育场景中教师的上课动作分析、教育场景中的学生课堂表现分析、长视频中精华视频的提取、短视频中的关键动作检测等分析任务。

图2示出了本申请一个示例性实施例提供的时序动作提名的生成方法的流程图。本实施例以该方法应用于图1所示的计算机设备中来举例说明。该方法包括：

步骤201，获取视频中的多个视频帧；

待处理的视频中包括按照顺序排列的多个视频帧。每个视频帧对应有时间信息。可选地，该时间信息是帧号或时间戳。

步骤202，调用时序动作提名生成模型对多个视频帧进行预测处理，得到视频对应的时序边界置信图和动作完整度概率图；

可选地，该时序动作提名生成模型是基于稠密边界的时序动作提名生成模型。

时序边界置信图用于预测时序动作提名的开始边界和结束边界。可选地，时序边界置信图包括：开始边界置信图和结束边界置信图。开始边界置信图是用于描述开始边界的置信图，结束边界置信图是用于描述结束边界的置信图。可选地，每个时序边界置信图是L*L的。每个时序边界置信图是基于开始维度(startingdim)和结束维度(endingdim)来进行描述的二维图。

动作完整度概率图是用于表征同一个时序动作提名的开始边界和结束边界的动作完整度概率的二维图。可选地，动作完整度概率图也是L*L的。在一个示例中，L＝100。

步骤203，将时序边界置信图和动作完整度概率图进行融合，得到融合特征图。

融合特征图用于预测出L*L个时序动作提名，L*L个时序动作提名中存在冗余时序动作提名。因此，融合特征图能够预测出具有稠密边界的时序动作提名。

步骤204，根据融合特征图输出视频的时序动作提名。

计算机设备对融合特征图中的冗余时序动作提名进行去除后，输出该视频的时序动作提名。视频的时序动作提名可以为一个或多个。每一个时序动作提名包括：开始边界、结束边界和置信度。

综上所述，本实施例提供的方法，通过对视频中的多个视频帧进行预测处理，得到该视频对应的两个时序边界置信图和动作完整度概率图，将时序边界置信图和动作完整度概率图进行融合得到融合特征图，根据融合特征图输出视频的时序动作提名。由于基于稠密边界的融合特征图是在全局维度(L*L)对时序动作提名的边界进行预测，而非类似于BMN仅基于局部信息对时序动作提名的边界进行预测，因此在时序动作提名的生成任务中能够预测出较为准确的边界。

结合参考图3，基于稠密边界的时序动作提名生成模型(Dense BoundaryGenerator，DBG)，该模型包括：双流基网络(Dual Stream BaseNet，DSB)；动作完整度回归(Action-aware Completeness Regression，ACR)模块；时序边界分类(Temporal BoundaryClassification，TBC)模块。上述步骤202可替代实现成为如下步骤202a至步骤202c，如图4所示：

步骤202a，调用双流基网络对多个视频帧的视频特征进行处理，得到动作概率特征和双流特征；

双流基网络用于探索视频序列中的局部的丰富的行为。双流基网络会输出两种特征：低层的双流特征(Dual Stream Feature，DSF)和高层的动作概率特征(Action ScoreFeature，ASF)。

在一个示例中，视频帧的视频特征包括：RGB(RedGreenBlue，红绿蓝)特征和光流特征。双流特征是通过对RGB特征和光流特征进行融合后产生的。动作概率特征是对RGB特征和光流特征中的动作特征进行提取后产生的。

可选地，动作概率特征是在附加的动作分类损失函数下进行学习得到的。

步骤202b，调用动作完整度回归模块对动作概率特征进行第一预测处理，得到视频对应的动作完整度概率图；

动作完整度回归模块ACR用于对动作概率特征进行动作维度的全局性预测处理，得到所有候选时序动作提名的动作完整度概率图。该动作完整度概率图用于表征每个候选时序动作提名的开始边界和结束边界的动作完整度。

步骤202c，调用时序边界分类模块对双流特征进行第二预测处理，得到视频对应的时序边界置信图。

时序边界分类模块TBC用于对双流特征进行时空维度的边界预测处理，得到视频对应的时序边界置信图。该时序边界置信图包括开始边界置信图和结束边界置信图。

其中，开始边界置信图、结束边界置信图和动作完整度概率图用于融合为融合特征图，该融合特征图用于整体性给出时序动作提名的预测。

综上所述，本实施例提供的方法，通过双流基网络作为基于稠密边界的时序动作提名的生成模型的主干网络结构，能够充分捕获用于鉴别边界和动作的足够特征，从而探索视频序列中局部的丰富的行为。

图5示出了本申请一个示例性实施例提供的基于稠密边界的时序动作提名的生成模型的架构图。该生成模型包括：视频编码部520、稠密边界时序动作生成器540和后处理560。

视频编码部520包括：空间网络和时间网络。空间网络用于对视频帧进行编码，得到视频帧的RGB特征。时间网络用于对视频帧进行编码，得到视频帧的光流特征。

稠密边界时序动作生成器540包括：双流基网络542、动作完整度回归模块544和时序边界分类模块546。

双流基网络542包括：第一卷积层网络51、第二卷积层网络52、元素和(element-wisesum)层、三个预测卷积层53至55、平均(Averaging)层。

示例性的，第一卷积层网络51包括堆叠的2个一维卷积层，第二卷积层网络52包括堆叠的2个一维卷积层。第一卷积层网络51用于对视频帧中的RGB特征进行卷积特征提取，得到空间特征tf；第二卷积层网络52用于对视频帧中的光流特征进行卷积特征提取，得到时间特征sf。元素和层用于将空间特征tf和时间特征sf进行元素和相加，构造得到双流特征dsf。

示例性的，预测卷积层53用于对空间特征tf进行预测，得到第一动作概率；预测卷积层54用于对时间特征sf进行预测，得到第二动作概率；预测卷积层55用于双流特征dsf进行预测，得到第三动作概率。平均层用于对第一动作概率、第二动作概率、第三动作概率进行平均，得到高层的动作概率特征asf。

动作完整度回归模块544包括：第一动作提名特征生成层(Proposal featuregeneration layer，PEG层)和动作卷积网络。动作卷积网络包括：n个第一二维卷积核，n为正整数。在一个示例中，n为3。

第一PEG层用于将高层的动作概率特征asf转换为矩阵形式的动作概率特征asf。动作卷积网络用于将矩阵形式的动作概率特征asf进行卷积特征提取，得到动作完整度概率图。

时序边界分类模块546包括：第二PEG层和时序卷积网络。时序卷积网络包括：一个三维卷积核和m个第二二维卷积核，m为正整数。在一个示例中，m为2。

第二PEG层用于将低层的双流特征dsf转换为矩阵形式的双流特征dsf。时序卷积网络用于将矩阵形式的双流特征dsf进行卷积特征提取，得到开始边界置信图和结束边界置信图。

后处理包括：融合层和软-非极大值抑制操作(Soft-non-maximum suppression，Soft-NMS)层。融合层用于将两个时序边界置信图和动作完整度概率图进行融合，得到融合特征图。Soft-NMS层用于对融合特征图进行Soft-NMS处理去掉冗余时序动作提名，输出视频的稀疏的时序动作提名。

表一示意性的示出了上述稠密边界时序动作生成器540的网络架构设计。

表一

其中，1D代表一维，2D代表二维，3D代表三维。

图6示出了本申请另一个示例性实施例提供的基于稠密边界的时序动作提名的生成方法的流程图。本实施例以该方法应用于图5所示的生成模型中来举例说明。该方法包括：

步骤601，调用视频编码部对多个视频帧进行编码，得到每个视频帧的RGB特征和光流特征；

视频编码部包括：空间网络和时间网络。

对于多个视频帧中的每个视频帧，计算机设备调用空间网络对视频帧进行编码，得到视频帧的RGB特征。计算机设备调用时间网络用于对视频帧进行编码，得到视频帧的光流特征。

步骤602，调用双流基网络对多个视频帧的视频特征进行处理，得到动作概率特征和双流特征；

双流基网络包括：第一卷积层网络、第二卷积层网络、元素和层、三个预测卷积层和平均(Averaging)层。本步骤可选包括如下子步骤，如图7所示：

S6021，获取多个视频帧中每个视频帧的RGB特征和光流特征。S6022，调用第一卷积层网络对视频帧的RGB特征进行卷积处理，得到空间特征sf；调用第二卷积层对视频帧的光流特征进行卷积处理，得到时间特征tf。S6023，调用元素和层将空间特征sf和时间特征tf进行元素和操作，得到双流特征dsf。S6024，调用三个预测卷积层对空间特征sf、时间特征tf和双流特征dsf分别进行预测，得到与空间特征sf对应的第一动作概率、与时间特征tf对应的第二动作概率和与双流特征dsf对应的第三动作概率。S6025，调用平均层对第一动作概率、第二动作概率和第三动作概率进行平均，得到动作概率特征。

步骤603，调用动作完整度回归模块对动作概率特征进行第一预测处理，得到视频对应的动作完整度概率图；

动作完整度回归模块包括：第一PEG层和动作卷积网络。本步骤可选包括如下子步骤，如图8所示：

S6031，调用第一PEG层将动作概率特征转化为矩阵形式的第一特征图。S6032，调用动作卷积网络对矩阵形式的第一特征图进行卷积处理，得到视频对应的动作完整度概率图。

示例性的，动作卷积网络包括：三维卷积核和n个第一二维卷积核，n为正整数。例如，n为2。

步骤604，调用时序边界分类模块对双流特征进行第二预测处理，得到视频对应的时序边界置信图；

可选地，时序边界置信图包括：开始边界置信图和结束边界置信图。

时序边界分类模块546包括：第二PEG层和时序卷积网络。本步骤可选包括如下子步骤，如图9所示：

S 6041，调用第二PEG层将双流特征转化为矩阵形式的第二特征图。S6042，调用时序卷积网络对矩阵形式的第二特征图进行卷积处理，得到视频对应的时序边界置信图。

示例性的，时序卷积网络包括：一个三维卷积核和m个第二二维卷积核，m为正整数。例如，m为2。

步骤605，将时序边界置信图和动作完整度概率图进行融合，得到融合特征图；

计算机设备将开始边界置信图、结束边界置信图和动作完整度概率图进行相乘，融合得到融合特征图。

将上述生成的三个置信度图进行相乘融合，得到最终的P。

其中，i为不大于L的整数，j为不大于L的整数。i代表结束维度上的位置(坐标值)，j代表开始维度上的位置(坐标值)。融合特征图为L*L的图，P^c为动作完整度概率图、P^s为开始边界置信图、P^e为结束边界置信图。

可选地，在融合之前本申请先对两个时序边界置信度图进行一个如下的平滑处理。

其中，k为不大于L的整数。

步骤606，获取融合特征图中的L*L个候选时序动作提名；

由于上述生成模型生成的候选时序动作提名有LXL个，因此本申请需要做NMS，即非极大值抑制操作去除冗余的时序动作提名。得到最终的稀疏的时序动作提名。

步骤607，对L*L个候选时序动作提名中的冗余时序动作提名进行去除，输出视频的时序动作提名。

其中，输出的视频的每个时序动作提名具有边界和置信度。

可选地，在边界预测的时候需要一个后处理的过程，由于动作分类损失L_DSB是附加的损失函数，由双流基网络DSB预测出的动作概率不参与最终的动作提名的计算。

综上所述，本实施例提供的方法，通过采用PFG层和几个卷积层来探索丰富的全局语义信息。ACR最终输出LXL的动作完整度置信度图p^c，DSB最终输出LXLX2的边界置信度图p^e。示例性的，L＝100，PFG层是一种采样全局的动作提名特征的层，能够从全局信息上对时序动作的边界和完整度进行较为准确的提取。

本实施例提供的方法，还通过在融合之前对开始边界置信图和结束边界置信图进行平滑处理，能够得到更为准确的边界分类结果。

图10示出了相关技术中的BMN与本申请的DBG在边界预测时的对比。

相关技术中的BMN是利用局部信息预测每个时刻点(图中的开始边界置信度序列)上的边界概率，这种局部方法缺少动作的全局信息，这会难以处理边界模糊和时序跨度较大的动作。

本申请中的DBG是利用全局的提名级别信息来进行边界分类。该全局的提名级别信息是由PEG层和时序边界分类模块来提取到的，因此基于全局的提名级别信息能够提取得到稠密边界的时序动作提名，进而得到较为准确的边界。

在上述生成模型的训练过程中，本申请使用了三个损失函数，分别称之为动作分类损失L_DSB，边界分类损失L_TBC和完整度回归损失L_ACR。

其中，边界分类损失L_TBC是由开始边界

和结束边界

两个损失函数组成。分类损失函数L_DSB在本申请采用的是二分类逻辑回归损失(logistic regression loss)。完整度回归损失函数L_ACR使用的是光滑的L1损失(smooth L1loss0。

其中，g^a为动作分类损失标签,g^s为开始边界的边界分类损失标签,g^e为结束边界的边界分类损失标签,g^c为完整度回归损失标签。最终的训练损失函数是上述损失函数的加权。p代表概率，a代表动作，c代表完整度，s代表开始边界，e代表结束边界。最终的训练损失函数是上述损失函数的加权：

其中，λ为相应的权重，设置为2。

以下为本申请的装置实施例，对于装置实施例中未详细描述的细节，请参考上述方法实施例。

图11是本申请的一个示例性实施例提供的时序动作提名的生成模型的训练装置的框图，所述装置包括：

获取模块1120，用于获取视频中的多个视频帧；

调用模块1140，用于调用时序动作提名生成模型对所述多个视频帧进行预测处理，得到所述视频对应的时序边界置信图和动作完整度概率图；所述时序边界置信图用于预测时序动作提名的开始边界和结束边界，所述动作完整度概率图用于表征同一个时序动作提名的开始边界和结束边界的动作完整度概率；

融合模块1160，用于将所述时序边界置信图和所述动作完整度概率图进行融合，得到融合特征图；

输出模块1180，用于根据所述融合特征图输出所述视频的时序动作提名。

在一个可选的实施例中，所述时序动作提名生成模型包括：稠密边界时序动作生成器，所述稠密边界时序动作生成器包括：双流基网络、动作完整度回归模块和时序边界分类模块；

所述调用模块1140，用于调用所述双流基网络对所述多个视频帧的视频特征进行处理，得到动作概率特征和双流特征；调用所述动作完整度回归模块对所述动作概率特征进行第一预测处理，得到所述视频对应的所述动作完整度概率图；调用所述时序边界分类模块对所述双流特征进行第二预测处理，得到所述视频对应的所述时序边界置信图。

在一个可选的实施例中，所述双流基网络包括：第一卷积层网络、第二卷积层网络、相加层、三个预测卷积层和平均层；

所述调用模块1140，用于获取所述多个视频帧中每个视频帧的RGB特征和光流特征；调用所述第一卷积层网络对所述视频帧的RGB特征进行卷积处理，得到空间特征sf；调用所述第二卷积层对所述视频帧的光流特征进行卷积处理，得到时间特征tf；调用所述相加层将所述空间特征sf和所述时间特征tf进行元素和操作，得到双流特征dsf；调用所述三个预测卷积层对所述空间特征sf、所述时间特征tf和所述双流特征dsf分别进行预测，得到与所述空间特征sf对应的第一动作概率、与所述时间特征tf对应的第二动作概率和与所述双流特征dsf对应的第三动作概率；调用所述平均层对所述第一动作概率、所述第二动作概率和所述第三动作概率进行平均，得到所述动作概率特征。

在一个可选的实施例中，所述动作完整度回归模块包括：第一动作提名特征生成层和动作卷积网络；

所述调用模块1140，用于调用所述第一动作提名特征生成层将所述动作概率特征转化为矩阵形式的第一特征图；调用所述动作卷积网络对所述矩阵形式的第一特征图进行卷积处理，得到所述视频对应的动作完整度概率图。

在一个可选的实施例中，所述动作卷积网络包括：依次堆叠的n个第一二维卷积核，n为正整数。

在一个可选的实施例中，所述时序边界分类模块包括：第二动作提名特征生成层和时序卷积网络；

所述调用模块1140，用于调用所述第二动作提名特征生成层将所述双流特征转化为矩阵形式的第二特征图；调用所述时序卷积网络对所述矩阵形式的第二特征图进行卷积处理，得到所述视频对应的所述时序边界置信图。

在一个可选的实施例中，所述时序卷积网络包括：

依次堆叠的一个三维卷积核和m个第二二维卷积核，m为正整数。

在一个可选的实施例中，所述输出模块1160，用于获取所述融合特征图中的L*L个候选时序动作提名；对所述L*L个候选时序动作提名中的冗余时序动作提名进行去除，输出所述视频的所述时序动作提名，所述时序动作提名具有边界和置信度。

在一个可选的实施例中，所述时序动作提名生成模型还包括：视频编码部；所述调用模块1140还用于调用所述视频编码部对所述多个视频帧进行编码，得到每个视频帧的RGB特征和光流特征。

本申请还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的时序动作提名的生成模型的训练方法或时序动作提名的生成方法。需要说明的是，该计算机设备可以是如下图12所提供的计算机设备。

请参考图12，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：计算机设备1200包括中央处理单元(CPU)1201、包括随机存取存储器(RAM)1202和只读存储器(ROM)1203的***存储器1204，以及连接***存储器1204和中央处理单元1201的***总线1205。计算机设备1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)1206，和用于存储操作***1213、应用程序1214和其他程序模块1210的大容量存储设备1207。

基本输入/输出***1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中显示器1208和输入设备1209都通过连接到***总线1205的输入输出控制器1210连接到中央处理单元1201。基本输入/输出***1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1207通过连接到***总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说，大容量存储设备1207可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器1204和大容量存储设备1207可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1201执行，一个或多个程序包含用于实现上述时序动作提名的生成模型的训练方法或时序动作提名的生成方法的指令，中央处理单元1201执行该一个或多个程序实现上述各个方法实施例提供的时序动作提名的生成模型的训练方法或时序动作提名的生成方法。

根据本申请的各种实施例，计算机设备1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1200可以通过连接在***总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机***(未示出)。

存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，一个或者一个以上程序包含用于进行本申请实施例提供的时序动作提名的生成方法。

本申请实施例还提供一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并实现上述时序动作提名的生成方法。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述时序动作提名的生成模型的训练方法或时序动作提名的生成方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的时序动作提名的生成模型的训练方法或时序动作提名的生成方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种时序动作提名的生成方法，其特征在于，所述方法由运行有时序动作提名生成模型的计算机设备执行，所述时序动作提名生成模型包括稠密边界时序动作生成器，所述稠密边界时序动作生成器包括双流基网络、动作完整度回归模块和时序边界分类模块，所述方法包括：

获取视频中的多个视频帧；

调用所述双流基网络对所述多个视频帧的视频特征进行处理，得到动作概率特征和双流特征；调用所述动作完整度回归模块对所述动作概率特征进行第一预测处理，得到所述视频对应的动作完整度概率图，所述动作完整度概率图用于表征同一个时序动作提名的开始边界和结束边界的动作完整度概率；调用所述时序边界分类模块对所述双流特征进行第二预测处理，得到所述视频对应的时序边界置信图，所述时序边界置信图用于预测时序动作提名的开始边界和结束边界；

根据所述融合特征图输出所述视频的时序动作提名。

2.根据权利要求1所述的方法，其特征在于，所述双流基网络包括：第一卷积层网络、第二卷积层网络、相加层、三个预测卷积层和平均层；

所述调用所述双流基网络对所述多个视频帧的视频特征进行处理，得到动作概率特征和双流特征，包括：

获取所述多个视频帧中每个视频帧的红绿蓝RGB特征和光流特征；

调用所述第一卷积层网络对所述视频帧的RGB特征进行卷积处理，得到空间特征；调用所述第二卷积层对所述视频帧的光流特征进行卷积处理，得到时间特征；

调用所述相加层将所述空间特征和所述时间特征进行元素和操作，得到双流特征；

调用所述三个预测卷积层对所述空间特征、所述时间特征和所述双流特征分别进行预测，得到与所述空间特征对应的第一动作概率、与所述时间特征对应的第二动作概率和与所述双流特征对应的第三动作概率；

调用所述平均层对所述第一动作概率、所述第二动作概率和所述第三动作概率进行平均，得到所述动作概率特征。

3.根据权利要求1所述的方法，其特征在于，所述动作完整度回归模块包括：第一动作提名特征生成层和动作卷积网络；

所述调用所述动作完整度回归模块对所述动作概率特征进行第一预测处理，得到所述视频对应的所述动作完整度概率图，包括：

调用所述第一动作提名特征生成层将所述动作概率特征转化为矩阵形式的第一特征图；

调用所述动作卷积网络对所述矩阵形式的第一特征图进行卷积处理，得到所述视频对应的动作完整度概率图。

4.根据权利要求3所述的方法，其特征在于，所述动作卷积网络包括：依次堆叠的n个第一二维卷积核，n为正整数。

5.根据权利要求1所述的方法，其特征在于，所述时序边界分类模块包括：第二动作提名特征生成层和时序卷积网络；

所述调用所述时序边界分类模块对所述双流特征进行第二预测处理，得到所述视频对应的所述时序边界置信图，包括：

调用所述第二动作提名特征生成层将所述双流特征转化为矩阵形式的第二特征图；

调用所述时序卷积网络对所述矩阵形式的第二特征图进行卷积处理，得到所述视频对应的所述时序边界置信图。

6.根据权利要求5所述的方法，其特征在于，所述时序卷积网络包括：

7.根据权利要求1至6任一所述的方法，其特征在于，所述根据所述融合特征图输出所述视频的时序动作提名，包括：

获取所述融合特征图中的L*L个候选时序动作提名；

对所述L*L个候选时序动作提名中的冗余时序动作提名进行去除，输出所述视频的所述时序动作提名，所述时序动作提名具有边界和置信度。

8.根据权利要求1至6任一所述的方法，其特征在于，所述时序动作提名生成模型还包括：视频编码部；所述方法还包括：

调用所述视频编码部对所述多个视频帧进行编码，得到每个视频帧的RGB特征和光流特征。

9.一种时序动作提名的生成装置，其特征在于，所述装置运行有时序动作提名生成模型，所述时序动作提名生成模型包括稠密边界时序动作生成器，所述稠密边界时序动作生成器包括双流基网络、动作完整度回归模块和时序边界分类模块，所述装置包括：

获取模块，用于获取视频中的多个视频帧；

调用模块，用于调用所述双流基网络对所述多个视频帧的视频特征进行处理，得到动作概率特征和双流特征；调用所述动作完整度回归模块对所述动作概率特征进行第一预测处理，得到所述视频对应的动作完整度概率图，所述动作完整度概率图用于表征同一个时序动作提名的开始边界和结束边界的动作完整度概率；调用所述时序边界分类模块对所述双流特征进行第二预测处理，得到所述视频对应的时序边界置信图，所述时序边界置信图用于预测时序动作提名的开始边界和结束边界；

10.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上权利要求1至8任一所述的时序动作提名的生成方法。

11.一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上权利要求1至8任一所述的时序动作提名的生成方法。