CN111767985B

CN111767985B - 一种神经网络的训练方法、视频识别方法及装置

Info

Publication number: CN111767985B
Application number: CN202010567864.7A
Authority: CN
Inventors: 王子豪; 林宸; 邵婧; 盛律; 闫俊杰
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2022-07-22
Anticipated expiration: 2040-06-19
Also published as: CN111767985A; KR20220011208A; JP7163515B2; WO2021253938A1; JP2022541712A; TW202201285A; TWI770967B

Abstract

本公开提供了一种神经网络的训练方法、视频识别方法及装置，包括：获取样本视频，并构建包括多个有向无环图的神经网络；所述多个有向无环图中包括用于提取时间特征的至少一个有向无环图，和用于提取空间特征的至少一个有向无环图；所述有向无环图的每条边分别对应有多个操作方法，每个操作方法具有对应的权重参数；基于所述样本视频和每个样本视频对应的事件标签，对构建的所述神经网络进行训练，得到训练后的权重参数；基于训练后的权重参数，为所述多个有向无环图的每条边选择目标操作方法，以得到训练后的神经网络。

Description

一种神经网络的训练方法、视频识别方法及装置

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种神经网络的训练方法、视频识别方法及装置。

背景技术

视频识别是指识别视频中所发生的事件，相关技术中，一般是对进行图片识别的神经网络进行简单改造后用于视频识别。

然而，由于进行图片识别的神经网络是在图像维度上进行目标识别的，这样会忽略一些从图像维度无法提取的视频特征，从而影响了神经网络进行视频识别的精度。

发明内容

本公开实施例至少提供一种神经网络的训练方法、视频识别方法及装置。

第一方面，本公开实施例提供了一种神经网络的训练方法，包括：

获取样本视频，并构建包括多个有向无环图的神经网络；所述多个有向无环图中包括用于提取时间特征的至少一个有向无环图，和用于提取空间特征的至少一个有向无环图；所述有向无环图的每条边分别对应有多个操作方法，每个操作方法具有对应的权重参数；

基于所述样本视频和每个样本视频对应的事件标签，对构建的所述神经网络进行训练，得到训练后的权重参数；

基于训练后的权重参数，为所述多个有向无环图的每条边选择目标操作方法，以得到训练后的神经网络。

上述方法中，所构建的神经网络中不仅包括用于提取空间特征的有向无环图，还包括用于提取时间特征的有向无环图，有向无环图的每条边对应多个操作方法；这样在利用样本视频对神经网络进行训练后，可以得到训练后的操作方法的权重参数，进一步基于训练后的操作方法的权重参数来得到训练后的神经网络；这种方法训练的神经网络不仅进行了图像维度的空间特征识别，还进行了时间维度的时间特征识别，训练出的神经网络对于视频的识别精度较高。

一种可能的实施方式中，所述有向无环图包括两个输入节点；所述神经网络的每个节点对应一个特征图；

所述构建包括多个有向无环图的神经网络，包括：

将第N-1个有向无环图输出的特征图作为第N+1个有向无环图的一个输入节点的特征图，并将第N个有向无环图输出的特征图作为所述第N+1个有向无环图的另一个输入节点的特征图；N为大于1的整数；

其中，所述神经网络的第一个有向无环图中的目标输入节点对应的特征图为对样本视频的采样视频帧进行特征提取后的特征图，除所述目标输入节点外的另一个输入节点为空；所述神经网络的第二个有向无环图中一个输入节点的特征图为所述第一个有向无环图输出的特征图，另一个输入节点为空。

一种可能的实施方式中，根据以下方法确定有向无环图输出的特征图：

将所述有向无环图中除输入节点外的其他节点对应的特征图进行串联，将串联后的特征图作为所述有向无环图输出的特征图。

一种可能的实施方式中，所述用于提取时间特征的有向无环图中的每条边对应有多个第一操作方法，所述用于提取空间特征的有向无环图中的每条边对应有多个第二操作方法；所述多个第一操作方法中包括所述多个第二操作方法以及至少一个区别于所述第二操作方法的其他操作方法。

一种可能的实施方式中，所述神经网络还包括与第一个有向无环图连接的采样层，所述采样层用于对样本视频进行采样，得到采样视频帧，并对所述采样视频帧进行特征提取，得到采样视频帧对应的特征图，将所述采样视频帧对应的特征图输入第一个所述有向无环图的目标输入节点；

所述神经网络还包括与最后一个有向无环图的输出节点连接的全连接层；所述全连接层用于基于最后一个有向无环图输出的特征图计算所述样本视频对应的多种事件的发生概率；

所述基于所述样本视频和每个样本视频对应的事件标签，对构建的所述神经网络进行训练，得到训练后的权重参数，包括：

基于所述全连接层计算的所述样本视频对应的多种事件的发生概率，以及每个样本视频对应的事件标签，对构建的所述神经网络进行训练，得到训练后的权重参数。

一种可能的实施方式中，根据以下方法得到所述有向无环图中除输入节点外的每个节点对应的特征图：

根据指向该节点的每个上一级节点对应的特征图、以及该节点与指向该节点的每个上一级节点之间的边对应的所述操作方法的权重参数，生成该节点对应的特征图。

通过权重参数，可以控制任一节点与该任一节点的上一节点之间的边之间的操作方法对于该任一节点的特征图的影响，因此可以通过控制权重参数，来控制任一节点与任一节点的上一节点之间的边对应的操作方法，进而改变该任一节点的特征图的取值。

一种可能的实施方式中，所述根据指向该节点的每个上一级节点对应的特征图、以及该节点与指向该节点的每个上一级节点之间的边对应的所述操作方法的权重参数，生成该节点对应的特征图，包括：

针对该节点与指向该节点的每个上一级节点之间的边，基于该条边对应的每一种操作方法对该上一级节点的特征图进行处理，得到每一种操作方法对应的第一中间特征图；

将各个所述操作方法分别对应的所述第一中间特征图按照对应的权重参数进行加权求和，得到该条边对应的第二中间特征图；

将该节点与指向该节点的各个上一级节点之间的多条边分别对应的第二中间特征图进行求和运算，得到该节点对应的特征图。

通过这种方法，可以使得每种操作方法都在确定节点的特征图时加以运用，减少单一操作方法对于节点对应的特征图的影响，进而避免对神经网络的识别精度的影响。

一种可能的实施方式中，所述基于训练后的权重参数，为所述多个有向无环图的每条边选择目标操作方法，包括：

针对所述有向无环图的每条边，将该条边对应的权重参数最大的操作方法作为该条边对应的目标操作方法。

一种可能的实施方式中，所述基于训练后的权重参数，为所述多个有向无环图的每条边选择目标操作方法，以得到训练后的神经网络，包括：

针对每个节点，在指向该节点的边的个数大于目标个数的情况下，确定指向该节点的每条边对应的所述目标操作方法的权重参数；

按照对应的所述权重参数由大到小的顺序，对指向该节点的各条边进行排序，将除前K位的边外的其余边删除，其中，K为所述目标个数；

将进行删除处理后的神经网络作为所述训练后的神经网络。

通过这种方法，一方面可以降低神经网络的尺寸，另一方面可以减少神经网络的计算步骤，提高神经网络的计算效率。

第二方面，本公开实施例还提供了一种视频识别方法，包括：

获取待识别视频；

将所述待识别视频输入至基于第一方面或第一方面的任一种可能的实施方式所述的神经网络的训练方法训练得到的神经网络中，确定所述待识别视频对应的多种事件的发生概率；

将对应的发生概率符合预设条件的事件作为与所述待识别视频中发生的事件。

第三方面，本公开实施例提供了一种神经网络的训练装置，包括：

构建模块，用于获取样本视频，并构建包括多个有向无环图的神经网络；所述多个有向无环图中包括用于提取时间特征的至少一个有向无环图，和用于提取空间特征的至少一个有向无环图；所述有向无环图的每条边分别对应有多个操作方法，每个操作方法具有对应的权重参数；

训练模块，用于基于所述样本视频和每个样本视频对应的事件标签，对构建的所述神经网络进行训练，得到训练后的权重参数；

选择模块，用于基于训练后的权重参数，为所述多个有向无环图的每条边选择目标操作方法，以得到训练后的神经网络。

所述构建模块，在构建包括多个有向无环图的神经网络时，用于：

一种可能的实施方式中，所述构建模块，还用于根据以下方法确定有向无环图输出的特征图：

所述神经网络还包括与最后一个有向无环图的输出节点连接的全连接层；所述全连接层用于基于该输出节点的特征图计算所述样本视频对应的多种事件的发生概率；

所述训练模块，在基于所述样本视频和每个样本视频对应的事件标签，对构建的所述神经网络进行训练，得到训练后的权重参数时，用于：

一种可能的实施方式中，所述构建模块，还用于根据以下方法得到所述有向无环图中除输入节点外的每个节点对应的特征图：

一种可能的实施方式中，所述构建模块，在根据指向该节点的每个上一级节点对应的特征图、以及该节点与指向该节点的每个上一级节点之间的边对应的所述操作方法的权重参数，生成该节点对应的特征图时，用于：

一种可能的实施方式中，所述选择模块，在基于训练后的权重参数，为所述多个有向无环图的每条边选择目标操作方法时，用于：

一种可能的实施方式中，所述选择模块，在基于训练后的权重参数，为所述多个有向无环图的每条边选择目标操作方法，以得到训练后的神经网络时，用于：

将进行删除处理后的神经网络作为所述训练后的神经网络。

第四方面，本公开实施例还提供了一种视频识别装置，包括：

获取模块，用于获取待识别视频；

第一确定模块，用于将所述待识别视频输入至基于第一方面或第一方面任一种可能的实施方式所述的神经网络的训练方法训练得到的神经网络中，确定所述待识别视频对应的多种事件的发生概率；

第二确定模块，用于将对应的发生概率符合预设条件的事件作为与所述待识别视频中发生的事件。

第五方面，本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤，或执行上述第二方面中的步骤。

第六方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤，或执行上述第二方面中的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种神经网络的训练方法的流程图；

图2示出了本公开实施例所提供的一种包括有向无环图的神经网络的网络结构示意图；

图3a示出了本公开实施例所提供的一种时间卷积的处理过程示意图；

图3b示出了本公开实施例所提供的另一种时间卷积的处理过程示意图；

图4示出了本公开实施例所提供的一种神经网络结构的示意图；

图5示出了本公开实施例所提供的一种有向无环图的示意图；

图6示出了本公开实施例所提供的一种生成节点对应的特征图的方法的流程图；

图7示出了本公开实施例所提供的一种构建的神经网络的整体结构示意图；

图8示出了本公开实施例所提供的一种神经网络的训练方法的流程示意图；

图9示出了本公开实施例所提供的一种视频识别方法的流程示意图；

图10示出了本公开实施例所提供的一种神经网络的训练装置的架构示意图；

图11示出了本公开实施例所提供的一种视频识别装置的架构示意图；

图12示出了本公开实施例所提供的一种计算机设备的结构示意图；

图13示出了本公开实施例所提供的另一种计算机设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

相关技术中，在进行视频识别时，一般是对现有的图像识别的神经网络加以改造，然而现有的进行图像识别的神经网络是图像维度上进行识别的，而忽略了一些从图像维度上无法提取的视频特征，影响了神经网络的识别精度。

另外，相关技术中还会采用基于进化的算法搜索进行视频识别的神经网络，然而这种方法每次需要对多个神经网络进行训练完成之后，选择性能最佳的神经网络再次进行调整，在神经网络的调整过程中的计算量较大，训练效率较低。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

基于此，本公开实施例提供了一种神经网络的训练方法，所构建的神经网络中不仅包括用于提取空间特征的有向无环图，还包括用于提取时间特征的有向无环图，有向无环图的每条边对应多个操作方法；这样在利用样本视频对神经网络进行训练后，可以得到训练后的操作方法的权重参数，进一步基于训练后的操作方法的权重参数来得到训练后的神经网络；这种方法训练的神经网络不仅进行了图像维度的空间特征识别，还进行了时间维度的时间特征识别，训练出的神经网络对于视频的识别精度较高。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种神经网络的训练方法进行详细介绍，本公开实施例所提供的神经网络的训练方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、个人计算机等。此外，本公开实施例提出的方法还可以通过处理器执行计算机程序代码实现。

参见图1所示，为本公开实施例提供的一种神经网络的训练方法的流程图，所述方法包括步骤101～步骤103，其中：

步骤101、获取样本视频，并构建包括多个有向无环图的神经网络。

其中，所述多个有向无环图中包括用于提取时间特征的至少一个有向无环图，和用于提取空间特征的至少一个有向无环图；所述有向无环图的每条边分别对应有多个操作方法，每个操作方法具有对应的权重参数。

步骤102、基于所述样本视频和每个样本视频对应的事件标签，对构建的所述神经网络进行训练，得到训练后的权重参数。

步骤103、基于训练后的权重参数，为所述多个有向无环图的每条边选择目标操作方法，以得到训练后的神经网络。

以下是对上述步骤101～步骤103的详细介绍。

在一种可能的实施方式中，在构建神经网络时，用于提取时间特征的有向无环图的个数和用于提取空间特征的有向无环图的个数是预先设置好的。有向无环图的节点表示特征图，节点之间的边表示操作方法。

在构建包括多个有向无环图的神经网络时，可以将第N-1个有向无环图输出的特征图作为第N+1个有向无环图的一个输入节点的特征图，并将第N个有向无环图输出的特征图作为所述第N+1个有向无环图的另一个输入节点的特征图；N为大于1的整数。

在一种可能的实现方式中，每个有向无环图包括两个输入节点，可以将神经网络的第一个有向无环图的任意一个输入节点作为目标输入节点，目标输入节点的输入为对样本视频的采样视频帧进行特征提取后的特征图，所述神经网络的第一个有向无环图中除所述目标输入节点外的另一个输入节点为空；将神经网络的第二个有向无环图的一个输入节点对应的特征图为所述第一个有向无环图输出的特征图，另一个输入节点为空。在其他实施例中，有向无环图也可以包括一个、三个或更多个输入节点。

其中，在确定任一有向无环图输出的特征图时，可以将该有向无环图中除输入节点外的其他节点对应的特征图进行串联(contact)，并将串联后的特征图作为该有向无环图输出的特征图。

示例性的，构建的包括有向无环图的神经网络的网络结构可以如图2所示，图2中包括三个有向无环图，白色圆点表示输入节点，黑色圆点表示将有向无环图中除输入节点外的其他节点对应的特征图进行串联后的特征图，第一个有向无环图的一个输入节点对应样本视频的采样视频帧的特征图，另一个输入节点为空，第一个有向无环图的输出节点对应的特征图作为第二个有向无环图的其中一个输入节点，第二个有向无环图的输入节点为空，第二个有向无环图的输出的特征图和第一个有向无环图的输出的特征图分别作为第三个有向无环图的两个输入节点对应的特征图，以此类推。

在一种实施方式中，用于提取时间特征的有向无环图中的每条边对应有多个第一操作方法，用于提取空间特征的有向无环图中的每条边对应有多个第二操作方法，所述多个第一操作方法中包括所述多个第二操作方法以及至少一个区别于所述第二操作方法的其他操作方法。

示例性的，用于提取时间特征的有向无环图中的每条边对应的多个第一操作方法可以包括平均池化操作(如1×3×3的平均池化)、最大值池化操作(如1×3×3的最大值池化)、离散卷积操作(如1×3×3的离散卷积)、带洞离散卷积(如1×3×3的带洞离散卷积)；用于提取空间特征的有向无环图中的每条边对应的多个第二操作方法可以包括平均池化操作、最大值池化操作、离散卷积操作、带洞离散卷积、以及不同的时间卷积。

其中，所述时间卷积用于提取时间特征。示例性的，时间卷积可以是3+3×3尺寸的时间卷积，3+3×3尺寸的时间卷积表示在时间维度上的卷积核的大小是3，在空间维度上卷积核的大小是3×3，其处理过程示例性的可以如图3a所示，Cin表示输入的特征图，Cout表示经过处理后输出的特征图，ReLU表示激活函数，conv1×3×3表示时间维度上卷积核大小是1、空间维度上卷积核大小是3×3的卷积操作，conv3×1×1表示时间维度上卷积核大小是3、空间维度上卷积核大小是1×1的卷积操作，BatchNorm表示归一化操作，T、W、H分别表示时间维度、和空间的两个维度。

示例性的，时间卷积也可以是3+1×1尺寸的时间卷积，3+1×1尺寸的时间卷积表示在时间维度上的卷积核的大小是3，在空间维度上卷积核的大小是1×1，其处理过程示例性的可以如图3b所示，conv1×1×1表示时间维度上卷积核大小是1、空间维度上卷积核大小是1×1的卷积操作，其余符号的含义与图3a中的含义相同，在此将不再赘述。

在一种可能的实施方式中，初始构建神经网络时，用于提取时间特征的各个有向无环图的结构是相同的，但是在神经网络训练完成之后，不同的用于提取时间特征的有向无环图中的边对应的目标操作方法可能是不同的；同样的，构建神经网络时，用于提取空间特征的各个有向无环图的结构也是相同的，在神经网络训练完成之后，不同的用于提取空间特征的有向无环图中的边对应的目标操作方法也可能不同。

在一种可能的实施方式中，用于提取时间特征的每个有向无环图中包括两种有向无环图，一种是对于输入的特征图的尺寸和通道数进行改变的第一有向无环图，一种是对于输入的特征图的尺寸和通道数不进行改变的第二有向无环图。其中，第一有向无环图中可以包括第一预设个数的节点，第二有向无环图中可以包括第二预设个数的节点，第一预设个数和第二预设个数可以相同。用于提取空间特征的每个有向无环图中也可以包括两种有向无环图，一种是对于输入的特征图的尺寸和通道数进行改变的第三有向无环图，一种是对于输入的特征图的尺寸和通道数不进行改变的第四有向无环图，其中，第三有向无环图中可以包括第三预设个数的节点，第四有向无环图中可以包括第四预设个数的节点，第三预设个数和第四预设个数可以相同。

因此，在构建的神经网络中包括上述四种有向无环图，实际应用中，每一种有向无环图对应的预设个数的节点包括该有向无环图中每一级的节点的个数，在确定每一级节点个数之后，可以直接确定各个节点之间的连接关系，进而确定有向无环图。

示例性的，包含四种有向无环图的神经网络的网络结构可以如图4所示，在将样本视频输入至神经网络之后，可以先输入采样层，对样本视频进行采样，然后对采样之后的样本视频帧进行特征提取，输入至第一个有向无环图中，最后一个有向无环图输入全连接层中，全连接层的输入即为神经网络的输出。

这里需要说明的是，通过有向无环图控制特征图的尺寸和通道数，一方面可以扩大神经网络的感受野，另一方面可以减少神经网络的计算量，提高计算效率。

在一种可能的实施方式中，在确定有向无环图中除输入节点外的每个节点对应的特征图时，可以根据指向该节点的每个上一级节点对应的特征图、以及该节点与指向该节点的每个上一级节点之间的边对应的操作方法的权重参数，生成该节点对应的特征图。

示例性的，若有向无环图如图5所示，则在确定节点3对应的特征图时，指向节点3的节点为节点0、节点1和节点2，则可以根据节点0、节点1和节点2对应的特征图，以及节点0、节点1和节点2分别与节点3之间的边对应的操作方法的权重参数，确定节点3对应的特征图。

其中，若该有向无环图为用于提取时间特征的有向无环图，则节点0、节点1和节点2分别与节点3之间的边对应的操作方法为第一操作方法，若该有向无环图为用于提取空间特征的有向无环图，则节点0、节点1和节点2分别与节点3之间的边对应的操作方法为第二操作方法。

具体的，在生成节点对应的特征图时，可以参照图6所示的方法，包括以下几个步骤：

步骤601、针对当前节点与指向当前节点的每个上一级节点之间的边，基于该条边对应的每一种操作方法对该上一级节点的特征图进行处理，得到每一种操作方法对应的第一中间特征图。

示例性的，若当前节点所在的有向无环图为用于进行时间特征提取的有向无环图，指向该节点的有三条边，每条边对应六个第一操作方法，则针对任一条边，可以通过该条边对应的每一个操作方法对与该条边连接的上一节点对应的特征图分别进行处理，则可以得到该条边对应的六个第一中间特征图，指向该节点的有三条边，则通过计算，可以得到十八个第一中间特征图。

若当前节点所在的有向无环图为用于进行空间特征提取的有向无环图，指向该节点的有三条边，每条边对应四个第一操作方法，与上述计算方法类似，每条边对应的第一中间特征图为四个，通过计算可以得到十二个第一中间特征图。

步骤602、将各个所述操作方法分别对应的所述第一中间特征图按照对应的权重参数进行加权求和，得到该条边对应的第二中间特征图。

所述权重参数为待训练的模型参数，在一种可能的实施方式中，可以给权重参数随机赋值，然后在神经网络的训练过程中不断调整。

每条指向当前节点的边对应的操作方法都有对应的权重参数，在将各个操作方法对应的第一中间特征图按照对应的权重参数进行加权求和时，可以将第一特征图对应位置处的取值与该第一特征图对应的操作方法的权重参数相乘，然后将对应位置处的相乘结果进行相加，得到该条边对应的第二中间特征图。

延续步骤601中的例子，指向当前节点的有三条边，每条边对应六个第一操作方法，每个第一操作方法都有对应的权重参数，每条边可以对应六个第一中间特征图，然后将每条边对应的六个第一中间特征图按照对应的权重参数进行加权求和，得到每条边对应的第二中间特征图。

这里需要说明的是，不同边对应的同一种操作方法的权重参数可能不同，例如，边1和边2均指向当前节点，边1和边2对应的操作方法中均包括平均池化操作，边1对应的平均池化操作的权重参数可能为70％，边2对应的平均池化操作的权重参数可能为10％。

示例性的，在计算第i个节点和第j个节点之间的边对应的第二特征图时，可以通过如下公式进行计算：

其中，o和o’表示操作方法，O表示第i个节点和第j个节点之间的操作方法的集合，

表示第i个节点和第j个节点之间的边对应的操作方法“o”的权重参数，

表示第i个节点和第j个节点之间的边对应的操作方法“o’”的权重参数，o(x_i)表示第i个节点对应的特征图，

表示第i个节点和第j个节点之间的边对应的第二特征图。

步骤603、将当前节点与指向当前节点的各个上一级节点之间的多条边分别对应的第二中间特征图进行求和运算，得到当前节点对应的特征图。

其中，各个第二中间特征图的尺寸是相同的，在将各个第二中间特征图进行求和运算时，可以将各个第二中间特征图对应位置处的取值相加，得到当前节点对应的特征图。

另外，构建的神经网络中还包括采样层和全连接层，所述采样层用于对输入神经网络的视频进行采样，得到采样视频帧，并对采样视频帧进行特征提取，得到采样视频帧对应的特征图，然后将采样视频帧对应的特征图输入至第一个有向无环图的目标输入节点。所述全连接层用于基于最后一个有向无环图输出的特征图计算所述样本视频对应的多种事件的发生概率，综上，构建的神经网络的整体结构示例性的如图7所示，图7中包括三个有向无环图，一个全连接层，一个采样层，全连接层的输出即为神经网络的输出。

样本视频对应的事件标签用于表示样本视频中所发生的事件，示例性的，样本视频中所发生的事件可以包括人跑步、小狗玩耍、两个人打羽毛球等。在一种可能的实施方式中，在基于样本视频和样本视频对应的事件标签，对构建的神经网络进行训练时，可以通过如图8所示的方法，包括以下几个步骤：

步骤801、将样本视频输入至神经网络中，输出得到样本视频对应的多种事件的发生概率。

这里，样本视频对应的多种事件的个数与训练神经网络的样本视频的事件标签的种类个数相同，例如若通过400种事件标签的样本视频对神经网络进行训练，则在将任一视频输入至神经网络之后，神经网络可以输出输入的视频对应的400种事件分别的发生概率。

步骤802、基于样本视频对应的多种事件的发生概率，确定样本视频对应的预测事件。

例如，可以将对应的发生概率最大的事件确定为神经网络预测的事件，在另外一种可能的实施方式中，样本视频可能携带有多个事件标签，例如同时携带有小狗玩耍、两个人打羽毛球的事件标签，因此在基于样本视频对应的多种事件的发生概率，确定样本视频对应的预测事件时，还可以将对应的发生概率大于预设概率的事件确定为样本视频对应的预测事件。

步骤803、基于样本视频对应的预测事件以及样本视频的事件标签，确定本次训练过程中的损失值。

示例性的，可以基于样本视频对应的预测事件以及样本视频的事件标签确定本次训练过程中的交叉熵损失。

步骤804、判断本次训练过程中的损失值是否小于预设损失值。

若判断结果为是，则顺序执行步骤805；若判断结果为否，则调整本次训练过程中的神经网络参数的参数值，并返回执行步骤801。

这里，调整的神经网络参数包括有向无环图的各个边对应的操作方法的权重参数，由于各个权重参数可以影响有向无环图的各个边对应的目标操作方法的选择，因此这里的权重参数可以作为神经网络的结构参数；调整的神经网络参数中还包括操作参数，例如可以包括各个卷积操作的卷积核的大小、权重等。

由于结构参数和操作参数的收敛速度相差较大，当操作参数处于学习的早期时，当学习速率较小时，可能会导致结构参数的快速收敛，因此可以通过控制学习速率实现操作参数和结构参数的同步学习的过程。

示例性的，可以采用逐步学习速率衰减策略，具体的，可以预先设置超参数S，表示每优化操作参数和结构参数S次，衰减一次学习速率，衰减的幅度为d(预先设置的)，由此可以实现学习速率的逐步衰减，从而实现结构参数和操作参数的同步学习即同步优化。

现有技术中，在进行参数优化时，一般是通过如下公式：

ω^*(α)＝argmin_ωL(ω,α) (1)

上述公式(1)中，α表示结构参数，ω表示操作参数，L(ω,α)表示α固定时，基于ω计算出的损失值，ω^*(α)表示α固定，然后通过训练ω使得L(ω,α)最小时，ω的取值，即优化后的ω；上述公式(2)中，L(ω^*(α)，α)表示优化后的ω不变，基于α计算出的损失值，训练α，使得L(ω^*(α)，α)最小。这种方法中，α是需要不断调整的，每次调整α则需要重新训练ω，示例性的，若每次训练ω需要计算100次，若调整α100次，则最终需要计算10000次，计算量较大。

本公开实施例所提供的方法中，在进行参数优化时，一般是基于下述公式：

上述公式中，ξ表示操作参数的学习速率，

表示基于L(ω，α)计算ω的梯度值，在计算优化后的ω时，采用近似计算的方法，这样，每优化一次α值，在优化ω时，仅通过一次计算即可，因此可以看作是α和ω的同时优化。

基于这种方法，在搜索神经网络结构的同时，可以搜索出神经网络内部的网络参数，相比较先确定网络结构再确定网络参数的方法而言，提高了神经网络的确定效率。

步骤805、基于训练好的神经网络参数，确定训练好的神经网络模型。

在一种可能的实施方式中，可以基于训练好的权重参数，为多个有向无环图的每条边选择目标操作方法，为每条边确定目标操作方法后的神经网络模型即为训练好的神经网络。

示例性的，在基于训练好的权重参数，为多个有向无环图的每条边选择目标操作方法时，针对有向无环图的每条边，将该条边对应的权重参数最大的操作方法作为该条边对应目标操作方法。

在另外一种可能的实施方式中，为了降低神经网络的大小，以及提高神经网络的计算速度，在为多个有向无环图的每条边选择目标操作方法之后，还可以对有向无环图的边进行删减，然后将进行删减之后的神经网络作为训练好的神经网络。

具体的，针对每个节点，在指向该节点的边的个数大于目标个数的情况下，确定指向该节点的每条边对应的目标操作方法的权重参数，然后按照对应的权重参数由大到小的顺序，对指向该节点的各条边进行排序，保留排在前K位的边，将前K位之后的其余边删除，并将进行删除处理后的神经网络作为训练后的神经网络，其中，K为预设的目标个数。

示例性的，若目标个数为两个，指向某一节点的边的个数为三个，则可以分别确定指向该节点的三条边对应的目标操作方法的权重参数，并按照权重参数，对指向该节点的三条边进行由大到小的顺序排序，将排在前两位的边保留，将排在第三位的边删除。

基于相同的构思，本公开实施例还提供了一种视频识别方法，参见图9所示，为本公开实施例提供的一种视频识别方法的流程示意图，包括以下几个步骤：

步骤901、获取待识别视频。

步骤902、将所述待识别视频输入预先训练的神经网络中，确定所述待识别视频对应的多种事件的发生概率。

其中，所述神经网络是基于上述实施例提供的神经网络的训练方法训练得到的。

步骤903、将对应的发生概率符合预设条件的事件作为与所述待识别视频中发生的事件。

其中，所述发生概率符合预设条件的事件可以是发生概率最大的事件，或者发生概率大于预设概率值的事件。

下面将结合具体的实施例，对上述待识别视频输入至神经网络之后，神经网络对于待识别视频的详细的处理过程进行介绍，所述神经网络包括采样层、特征提取层、全连接层，所述特征提取层包括多个有向无环图。

1)采样层

待识别视频输入至神经网络之后，首先输入至采样层，采样层可以对待识别视频进行采样，获得多个采样视频帧，然后对采样视频帧进行特征提取，得到采样视频帧对应的特征图，然后将采样视频帧对应的特征图输入至特征提取层。

2)特征提取层

特征提取层包括多个用于进行时间特征提取的有向无环图和用于进行空间特征提取的有向无环图，每种类型的有向无环图的个数是预先设置好的，每种类型的有向无环图内的节点的个数也是预先设置好的，用于进行时间特征提取的有向无环图和用于进行空间特征提取的有向无环图的区别如下表1所示：

表1

采样层将采样视频帧对应的特征图输入至特征提取层之后，可以是将采样视频帧对应的特征图输入至第一个有向无环图的目标输入节点，第一个有向无环图的另一个输入节点为空，第二个有向无环图的一个输入节点与第一个有向无环图的输出节点连接，另一个输入节点为空，第三个有向无环图的一个输入节点与第二个有向无环图的输出节点连接，一个输入节点与第一个有向无环图的输出节点连接，以此类推，最后一个有向无环图的输出节点将对应的特征图输入至全连接层。

3)全连接层

有向无环图的输出节点对应的特征图输入至全连接层之后，全连接层可以基于输入的特征图确定输入的待识别视频中对应的多种事件的发生概率，其中，所述待识别视频中对应的多种事件可以为在训练神经网络时，所应用的样本视频对应的事件标签。

上述实施例所提供的方法中，所构建的神经网络中不仅包括用于提取空间特征的有向无环图，还包括用于提取时间特征的有向无环图，有向无环图的每条边对应多个操作方法；这样在利用样本视频对神经网络进行训练后，可以得到训练后的操作方法的权重参数，进一步基于训练后的操作方法的权重参数来得到训练后的神经网络；这种方法训练的神经网络不仅进行了图像维度的空间特征识别，还进行了时间维度的时间特征识别，训练出的神经网络对于视频的识别精度较高。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与神经网络的训练方法对应的神经网络的训练装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述神经网络的训练方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图10所示，为本公开实施例提供的一种神经网络的训练装置的架构示意图，所述装置包括：构建模块1001、训练模块1002、选择模块1003；其中，

构建模块1001，用于获取样本视频，并构建包括多个有向无环图的神经网络；所述多个有向无环图中包括用于提取时间特征的至少一个有向无环图，和用于提取空间特征的至少一个有向无环图；所述有向无环图的每条边分别对应有多个操作方法，每个操作方法具有对应的权重参数；

训练模块1002，用于基于所述样本视频和每个样本视频对应的事件标签，对构建的所述神经网络进行训练，得到训练后的权重参数；

选择模块1003，用于基于训练后的权重参数，为所述多个有向无环图的每条边选择目标操作方法，以得到训练后的神经网络。

所述构建模块1001，在构建包括多个有向无环图的神经网络时，用于：

一种可能的实施方式中，所述构建模块1001，还用于根据以下方法确定有向无环图输出的特征图：

所述训练模块1002，在基于所述样本视频和每个样本视频对应的事件标签，对构建的所述神经网络进行训练，得到训练后的权重参数时，用于：

一种可能的实施方式中，所述构建模块1001，还用于根据以下方法得到所述有向无环图中除输入节点外的每个节点对应的特征图：

一种可能的实施方式中，所述构建模块1001，在根据指向该节点的每个上一级节点对应的特征图、以及该节点与指向该节点的每个上一级节点之间的边对应的所述操作方法的权重参数，生成该节点对应的特征图时，用于：

一种可能的实施方式中，所述选择模块1003，在基于训练后的权重参数，为所述多个有向无环图的每条边选择目标操作方法时，用于：

一种可能的实施方式中，所述选择模块1003，在基于训练后的权重参数，为所述多个有向无环图的每条边选择目标操作方法，以得到训练后的神经网络时，用于：

将进行删除处理后的神经网络作为所述训练后的神经网络。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

基于同一发明构思，本公开实施例中还提供了与视频识别方法对应的视频识别装置，参照图11所示，为本公开实施例提供的一种视频识别装置的架构示意图，所述装置包括：获取模块1101、第一确定模块1102、以及第二确定模块1103，具体的：

获取模块1101，用于获取待识别视频；

第一确定模块1102，用于将所述待识别视频输入至基于上述实施例所述的神经网络的训练方法训练得到的神经网络中，确定所述待识别视频对应的多种事件的发生概率；

第二确定模块1103，用于将对应的发生概率符合预设条件的事件作为与所述待识别视频中发生的事件。

基于同一技术构思，本申请实施例还提供了一种计算机设备。参照图12所示，为本申请实施例提供的计算机设备的结构示意图，包括处理器1201、存储器1202、和总线1203。其中，存储器1202用于存储执行指令，包括内存12021和外部存储器12022；这里的内存12021也称内存储器，用于暂时存放处理器1201中的运算数据，以及与硬盘等外部存储器12022交换的数据，处理器1201通过内存12021与外部存储器12022进行数据交换，当计算机设备1200运行时，处理器1201与存储器1202之间通过总线1203通信，使得处理器1201在执行以下指令：

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的神经网络的训练方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的神经网络的训练方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的神经网络的训练方法的步骤，具体可参见上述方法实施例，在此不再赘述。

基于同一技术构思，本申请实施例还提供了一种计算机设备。参照图13所示，为本申请实施例提供的计算机设备1300的结构示意图，包括处理器1301、存储器1302、和总线1303。其中，存储器1302用于存储执行指令，包括内存13021和外部存储器13022；这里的内存13021也称内存储器，用于暂时存放处理器1301中的运算数据，以及与硬盘等外部存储器13022交换的数据，处理器1301通过内存13021与外部存储器13022进行数据交换，当计算机设备1300运行时，处理器1301与存储器1302之间通过总线1303通信，使得处理器1301在执行以下指令：

获取待识别视频；

将所述待识别视频输入至基于上述实施例所述的神经网络的训练方法训练得到的神经网络中，确定所述待识别视频对应的多种事件的发生概率；

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的视频识别方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的视频识别方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的视频识别方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本公开实施例还提供一种计算机程序，该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software DevelopmentKit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种神经网络的训练方法，其特征在于，包括：

获取样本视频，并构建包括多个有向无环图的神经网络；所述多个有向无环图中包括用于提取时间特征的至少一个有向无环图，和用于提取空间特征的至少一个有向无环图；所述有向无环图的每条边分别对应有多个操作方法，每个操作方法具有对应的权重参数；所述有向无环图包括两个输入节点；所述神经网络的每个节点对应一个特征图；

基于训练后的权重参数，为所述多个有向无环图的每条边选择目标操作方法，以得到训练后的神经网络；

其中，所述构建包括多个有向无环图的神经网络，包括：

将第N-1个有向无环图输出的特征图作为第N+1个有向无环图的一个输入节点的特征图，并将第N个有向无环图输出的特征图作为所述第N+1个有向无环图的另一个输入节点的特征图；N为大于1的整数；其中，所述神经网络的第一个有向无环图中的目标输入节点对应的特征图为对样本视频的采样视频帧进行特征提取后的特征图，除所述目标输入节点外的另一个输入节点为空；所述神经网络的第二个有向无环图中一个输入节点的特征图为所述第一个有向无环图输出的特征图，另一个输入节点为空。

2.根据权利要求1所述的方法，其特征在于，根据以下方法确定有向无环图输出的特征图：

3.根据权利要求1或2所述的方法，其特征在于，所述用于提取时间特征的有向无环图中的每条边对应有多个第一操作方法，所述用于提取空间特征的有向无环图中的每条边对应有多个第二操作方法；所述多个第一操作方法中包括所述多个第二操作方法以及至少一个区别于所述第二操作方法的其他操作方法。

4.根据权利要求1～3任一所述的方法，其特征在于，所述神经网络还包括与第一个有向无环图连接的采样层，所述采样层用于对样本视频进行采样，得到采样视频帧，并对所述采样视频帧进行特征提取，得到采样视频帧对应的特征图，将所述采样视频帧对应的特征图输入第一个所述有向无环图的目标输入节点；

所述神经网络还包括与最后一个有向无环图连接的全连接层；所述全连接层用于基于最后一个有向无环图输出的特征图计算所述样本视频对应的多种事件的发生概率；

5.根据权利要求1～4任一所述的方法，其特征在于，根据以下方法得到所述有向无环图中除输入节点外的每个节点对应的特征图：

6.根据权利要求5所述的方法，其特征在于，所述根据指向该节点的每个上一级节点对应的特征图、以及该节点与指向该节点的每个上一级节点之间的边对应的所述操作方法的权重参数，生成该节点对应的特征图，包括：

7.根据权利要求1～6任一所述的方法，其特征在于，所述基于训练后的权重参数，为所述多个有向无环图的每条边选择目标操作方法，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于训练后的权重参数，为所述多个有向无环图的每条边选择目标操作方法，以得到训练后的神经网络，包括：

将进行删除处理后的神经网络作为所述训练后的神经网络。

9.一种视频识别方法，其特征在于，包括：

获取待识别视频；

将所述待识别视频输入至基于权利要求1～权利要求8任一所述的神经网络的训练方法训练得到的神经网络中，确定所述待识别视频对应的多种事件的发生概率；

10.一种神经网络的训练装置，其特征在于，包括：

构建模块，用于获取样本视频，并构建包括多个有向无环图的神经网络；所述多个有向无环图中包括用于提取时间特征的至少一个有向无环图，和用于提取空间特征的至少一个有向无环图；所述有向无环图的每条边分别对应有多个操作方法，每个操作方法具有对应的权重参数；所述有向无环图包括两个输入节点；所述神经网络的每个节点对应一个特征图；

选择模块，用于基于训练后的权重参数，为所述多个有向无环图的每条边选择目标操作方法，以得到训练后的神经网络；

其中，所述构建模块，在构建包括多个有向无环图的神经网络时，用于：

11.一种视频识别装置，其特征在于，包括：

获取模块，用于获取待识别视频；

第一确定模块，用于将所述待识别视频输入至基于权利要求1～权利要求8任一所述的神经网络的训练方法训练得到的神经网络中，确定所述待识别视频对应的多种事件的发生概率；

12.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至8任一所述的神经网络的训练方法的步骤，或执行如权利要求9所述的视频识别方法的步骤。

13.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至8任一所述的神经网络的训练方法的步骤，或执行如权利要求9所述的视频识别方法的步骤。