CN108491817B

CN108491817B - 一种事件检测模型训练方法、装置以及事件检测方法

Info

Publication number: CN108491817B
Application number: CN201810277169.XA
Authority: CN
Inventors: 孙源良; 李彩虹; 李长升; 樊雨茂
Original assignee: Guoxin Youe Data Co Ltd
Current assignee: Guoxin Youe Data Co Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2021-02-26
Anticipated expiration: 2038-03-30
Also published as: CN108491817A

Abstract

本发明提供了一种事件检测模型训练方法、装置以及事件检测方法，其中事件检测模型训练方法包括：获取多个带有标签的训练视频中的训练图像帧；使用目标神经网络为每个训练视频中的所述训练图像帧提取特征向量；以每个训练视频为单位，使用自注意力机制处理网络对每个训练视频的特征向量构成的特征向量矩阵进行至少两轮权重赋值；将进行了权重赋值的特征向量矩阵输入至类别预测网络进行类别预测，获得所述训练视频的事件分类结果的概率向量；根据所述事件分类结果的概率向量以及由所述训练视频的标签构成的标签向量之间的比对结果，对事件检测模型进行训练。该方法能够在不影响模型精度的前提下，减少计算资源以及训练时间的耗费。

Description

一种事件检测模型训练方法、装置以及事件检测方法

技术领域

本发明涉及深度学习技术领域，具体而言，涉及一种事件检测模型训练方法、装置以及事件检测方法。

背景技术

随着神经网络在图像、视频、语音、文本等领域的迅猛发展，推动了一系列智能产品的落地，用户对基于神经网络的各种模型的精度要求也越来越高。在基于神经网络构建事件检测模型的时候，为了让神经网络充分学习视频中图像的特征，以提升事件检测模型的分类，需要将大量的训练视频输入到神经网络中，对神经网络进行训练。

但是在训练视频中通常会包括非常多的图像，数据量是非常庞大的。使用这些训练视频对神经网络训练的时候，虽然可以提高训练所得到的模型的精度，但是也正是由于数据量过多，会导致模型训练过程中所需要的计算量庞大，耗费过多的计算资源以及训练时间。

发明内容

有鉴于此，本发明实施例的目的在于提供一种事件检测模型训练方法、装置以及事件检测方法，能够在不影响模型精度的前提下，减少训练过程中所需要的计算量，减少计算资源以及训练时间的耗费。

第一方面，本发明实施例提供了一种事件检测模型训练方法，包括：

获取多个带有标签的训练视频中的训练图像帧；

使用目标神经网络为每个训练视频中的所述训练图像帧提取特征向量；

以每个训练视频为单位，使用自注意力机制处理网络对每个训练视频的特征向量构成的特征向量矩阵进行至少两轮权重赋值；

将进行了权重赋值的特征向量矩阵输入至类别预测网络进行类别预测，获得所述训练视频的事件分类结果的概率向量；

根据所述事件分类结果的概率向量以及由所述训练视频的标签构成的标签向量之间的比对结果，对所述目标神经网络、所述自注意力机制处理网络以及所述类别预测网络进行训练。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中：所述获取多个带有标签的训练视频中的训练图像帧，具体包括：

获取多个带有标签的训练视频；

按照预设采样频率，对所述训练视频进行采样；

将对每个训练视频采样得到的图像作为该训练视频中的训练图像帧。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中：采用如下方式使用自注意力机制处理网络对训练视频的特征向量矩阵进行权重赋值：

为训练视频的特征向量矩阵设置第一权重，并使用预设激活函数将设置有第一权重的特征向量矩阵进行激活；

为激活后的特征向量矩阵设置第二权重，得到所述训练视频对应的多维自注意力向量；

为所述多维自注意力向量增加预设约束，使得所述多维自注意力向量保持稀疏结构，以及保证所述多维自注意力向量中各向量表征的各训练视频帧之间具有对应关联。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中：为所述多维自注意力向量增加预设约束，包括：

为所述多维自注意力向量A计算正则项：||AA^T-I||_F ²；

其中，I为单位向量；A^T为A的转置向量；以及

所述正则项用于与交叉熵、L1范数计算损失函数；所述交叉熵为根据将所述多维自注意力向量输入类别预测网络进行类别预测得到的类比预测结果计算得到的。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中：所述将进行了权重赋值的特征向量矩阵输入至类别预测网络进行类别预测，具体包括：

将进行了权重赋值的所述特征向量矩阵切分成多个批次；每个批次中包括进行了权重赋值的子特征向量矩阵；

将各批次对应的进行了权重赋值的子特征向量矩阵输入目标分类器，获得每个批次对应的事件分类结果；

按照每个事件分类结果中批次的数量由多到少的顺序，对多个事件分类结果进行排序，并

将排序靠前的预设数量事件分类结果，作为所述训练视频的事件分类结果。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中：所述将各批次对应的进行了权重赋值的子特征向量矩阵输入目标分类器，获得每个批次对应的事件分类结果，具体包括：

依次将各批次对应的进行了权重赋值的子特征向量矩阵所包括的多个进行了权重赋值的特征向量分别输入所述目标分类器，获得每个进行了权重赋值的特征向量表征的训练图像帧的事件分类结果；

将对应有训练图像帧数量最多的事件分类结果作为该批次的事件分类结果。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中：

所述训练视频的事件分类结果中包括多个事件分类，以及与每个事件分类对应的概率；

所述方法还包括：

将每个事件分类对应的概率归一化，生成所述训练视频的事件分类结果的概率向量。

结合第一方面，本发明实施例提供了第一方面的第七种可能的实施方式，其中：所述根据所述事件分类结果的概率向量以及由所述训练视频的标签构成的标签向量之间的比对结果，对所述目标神经网络、所述自注意力机制处理网络以及所述类别预测网络进行训练，具体包括：

执行下述相似度确定操作，直至所述事件分类结果的概率向量以及所述训练视频的标签向量的相似度小于预设的相似度阈值；

所述相似度确定操作包括：

计算所述事件分类结果的概率向量以及所述训练视频的标签向量的相似度；

检测所述相似度是否小于预设的相似度阈值；

针对所述相似度不小于预设的相似度阈值的情况，对所述目标神经网络、所述自注意力机制处理网络以及所述类别预测网络的参数进行调整；

基于调整后的参数，使用目标神经网络为所有批次中的所述训练图像帧提取新的特征向量；将各所述训练视频中的所述训练图像帧的新的特征向量生成新的特征向量矩阵；使用自注意力机制处理网络对每个所述训练视频的特征向量矩阵进行新的权重赋值；以及，将进行了新的权重赋值的新的特征向量矩阵进行输入至类别预测网络进行类别预测，获得所述训练视频的事件分类结果的新的概率向量；并再次执行所述相似度确定操作。

第二方面，本发明实施例还提供一种事件检测方法，包括：

获取待检测视频；

将所述待检测视频输入至通过上述第一方面任意一项的事件检测模型训练方法得到的事件检测模型中，得到所述待检测视频的事件分类结果；

其中，所述事件检测模型包括：所述目标神经网络、所述自注意力机制处理网络以及所述类别预测网络。

第三方面，本发明实施例还提供一种事件检测模型训练装置，该装置包括：

获取模块，用于获取多个带有标签的训练视频中的训练图像帧；

特征提取模块，用于使用目标神经网络为每个训练视频中的所述训练图像帧提取特征向量；

权重赋值模块，用于以每个训练视频为单位，使用自注意力机制处理网络对每个训练视频的特征向量构成的特征向量矩阵进行至少两轮权重赋值；

类别预测模块，用于将进行了权重赋值的特征向量矩阵输入至类别预测网络进行类别预测，获得所述训练视频的事件分类结果的概率向量；

训练模块，用于根据所述事件分类结果的概率向量以及由所述训练视频的标签构成的标签向量之间的比对结果，对所述目标神经网络、所述自注意力机制处理网络以及所述类别预测网络进行训练。

本申请实施例在使用训练视频中的训练图像帧对事件检测模型进行训练的时候，会使用目标神经网络为所有批次中的训练图像帧提取特征向量。然后再使用自注意力机制处理网络对每个批次中训练图像帧的特征向量进行至少两轮权重赋值，从而增加训练视频中需要对注意的训练图像帧对应的特征向量的权重，减小训练视频中不需要注意或者需要少注意的训练图像帧对应的特征向量的权重，基于经过了权重赋值的特征向量矩阵对事件检测模型训练的过程中，事件检测模型能够更多的学习到需要多注意的训练图像帧中的特征，保证最终所得到的事件检测模型的精度；同时，由于训练视频中不需要注意或者需要少注意的事件的训练图像帧对应的特征向量的权重降低，也即，不需要注意或者需要少注意事件的训练图像帧对应的特征向量中的元素的值会相应降低，部分元素甚至会直接归零，进而基于这种特征向量矩阵对事件检测模型训练的时候，减少了大量的计算量，减少事件检测模型训练过程中所需要的计算量，减少计算资源以及训练事件的耗费。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的一种事件检测模型训练方法的流程图；

图2示出了本申请实施例二中以对特征项链矩阵进行两次权重复制为例，使用自注意力机制处理网络对训练视频的特征向量矩阵进行权重赋值方法的流程图；

图3示出了本申请实施例三提供的一种将进行了权重赋值的特征向量矩阵进行输入至类别预测网络进行类别预测的具体方法的流程图；

图4示出了本发明实施例四所提供的一种相似度确定操作方法的流程图；

图5示出了本发明实施例五所提供的一种事件检测模型训练装置的结构示意图；

图6示出了本发明实施例六所提供的一种事件检测方法的流程图；

图7本申请实施例八提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前在使用训练视频对事件检测模型进行训练的时候，是直接将训练视频输入至神经网络和分类器，对神经网络和分类器进行训练。实际在对神经网络和分类器进行训练过程中，需要神经网络和分类器对训练视频中每一张图像都执行运算。但是训练视频一般会包括多个事件，而有些事件的图像实际上是对视频的分类没有正面的贡献，反而会影响对事件检测模型的正常训练，因此，使用神经网络和分类器对这些对视频分类没有正面贡献的图像进行特征学习，反而会将很多计算量花费在不必要的地方，导致模型训练过程中需要的计算量庞大，耗费过多的计算资源以及训练时间。基于此，本申请提供一种事件检测模型训练方法、装置以及事件检测方法，可以在不影响模型精度的前提下，减少训练过程中所需要的计算量，减少计算资源以及训练时间的耗费。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种事件检测模型训练方法进行详细介绍。使用本申请实施例所提供的事件检测模型训练方法得到的事件检测模型能够有效完成对未剪辑视频中所发生事件的分类；同时还可以有效实现对网络视频自动化分类；另外，还能够为视频推荐***提供合理的标签支持，方便对海量视频进行有效推荐。

参见图1所示，本申请实施例一提供的事件检测模型训练方法包括：

S101：获取多个带有标签的训练视频中的训练图像帧。

在具体实现的时候，训练视频通常是一段比较长的视频，其一般包括至少一个事件；当训练视频中包括多个事件时，一般会将某个事件作为主要事件，其它事件作为次要事件，并基于该主要事件和次要事件对训练视频进行标签的标注。

此处，当训练视频中的事件有多个时，训练视频所标注的标签可以有多个，将主要事件的标签作为主标签，将次要事件的标签作为副标签为训练视频进行标签标注。

在对标签进行标注的时候，可以首先按照训练视频中每个事件对应的训练图像帧的数量在该训练视频中训练图像帧中数量中占据的比重，来确定每个事件对应的标签所占据的比重。

例如，训练视频A中包括五个事件，事件1、事件2、事件3、事件4以及事件5；假设训练视频A中所包括的训练图像帧的数量为500张，其中，属于事件1的训练图像帧的数量为240张，属于事件2的训练图像帧的数量为150张，属于事件3的训练图像帧的数量为70张，属于事件4的训练图像帧的数量为30张，属于事件5的训练图像帧的数量为10张。由于属于事件1的训练图像帧在训练视频中所有训练图像帧中占据的比重最大，因此可以确定事件1为主要事件，其它事件都为次要事件；根据属于各个事件的训练图像帧的数量，以及训练视频中包括的训练图像帧的总数量，可以确定，事件1、事件2、事件3、事件4以及事件5的占据训练视频的比重依次为：0.48、0.3、0.14、0.06以及0.02。因此，每个事件对应的标签所占据的比重也即：0.48、0.3、0.14、0.06以及0.02，并能够构成一个标签向量。

特殊地，在训练视频中，归属于某些事件的训练图像帧的数量是非常少的，例如在上述训练视频A中，在训练视频中包括了500张训练视频帧，而归属于事件5的训练视频帧的数量仅有10张，该事件5对应的标签所占据的比重也仅有0.02，其对模型的整体训练效果实际上是不会起到太大的作用的，因此，也可以不为该事件5设置标签，在上述实例中，仅由事件1、事件2、事件3、事件4分别对应的标签占据的比重构成一个标签向量。

需要注意的是，当采用此种方法得到的标签向量中各元素的和不为1时，需要对标签向量进行归一化，使得其与下述概率向量被量化到一致的量纲，具有相互比较的可能性。

另外，若使用整个的训练视频对事件检测模型进行训练，通常都会存在由于输入的数据量较大而造成模型收敛速度降低，训练过程需要耗费的时间长，资源多等问题。因此，为了加快模型收敛，减少模型训练过程中需要耗费的时间和资源，需要从整个的训练视频中获得训练图像帧；训练图像帧为整个训练视频所包括的所有图像的部分。一般地，可以采用按照预设的采样频率，分别对多个训练视频进行采样，将对每个训练视频采样得到的图像作为该训练视频中的训练图像帧，然后基于得到的每个训练视频的训练图像帧对事件检测模型进行训练。

S102：使用目标神经网络为每个训练视频中的训练图像帧提取特征向量。

在具体实现的时候，目标神经网络可以采用卷积神经网络模型(ConvolutionalNeural Network，CNN)对每个训练视频中的训练图像帧进行特征提取，获取与每张训练图像帧对应的特征向量。

此处，为了加快事件检测模型训练过程中的收敛，所使用的目标网络模型可以是将训练视频中的训练图像帧输入待训练的目标神经网络，对待训练的目标神经网络进行训练而得到的。

在使用目标神经网络为每个训练视频中的训练图像帧提取特征向量后，每个训练视频中训练图像帧的特征向量构成一个特征向量矩阵。

具体地，可以采用将各个训练视频中训练图像帧的特征向量进行拼接，形成该训练视频的特征向量矩阵。

此处将各个训练视频中的训练图像帧的特征向量进行拼接，形成的特征向量矩阵可以看作是使用多个训练图像帧的特征向量构成更高维度的特征向量。

具体地，由于属于同一训练视频的训练图像帧的尺寸是一致的，因此在使用同一目标神经网络为该训练视频中的所有训练图像帧进行特征提取，得到所有训练图像帧的特征向量的维度都是一样的。在将分别将各个批次中的训练图像帧的特征向量进行拼接，形成特征向量矩阵的时候，可以是横向拼接，也可以是纵向拼接。例如训练图像帧的特征向量的维度为1*512，那么将10张训练图像帧的特征向量进行纵向拼接所形成的特征向量矩阵的维度为：10*512,将10张训练图像帧的特征向量进行横向拼接所形成的特征向量矩阵的维度为：1*5120。

S103：以每个训练视频为单位，使用自注意力机制处理网络对每个训练视频的特征向量构成的特征向量矩阵进行至少两轮权重赋值。

在具体实现的时候，人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看，而往往是根据需求观察注意特定的一部分。而且当人们发现一个场景经常在某部分出现自己想观察的东西时，人们会进行学习在将来再出现类似场景时把注意力放到该部分上。自注意力机制利用这种原理，能够强化主要事件的关注，同时弱化对次要事件关注。

该强化对主要事件的关注，同时弱化对次要事件关注的过程，也即对以每个训练视频为单位，使用自注意力机制处理网络对每个训练视频的特征向量构成的特征向量矩阵进行权重赋值的过程。

使用自注意力机制处理网络对每个训练视频的特征向量构成的特征向量矩阵进行至少两轮权重赋值，能够充分的将主要事件对应的训练图像帧的权重加大，并将次要事件对应的训练图像帧的权重降低。

具体地，参见图2所示的实施例二中以对特征向量矩阵进行两次权重复制为例，使用自注意力机制处理网络对训练视频的特征向量矩阵进行权重赋值，具体包括：

S201：为训练视频的特征向量矩阵设置第一权重，并使用预设激活函数将设置有第一权重的特征向量矩阵进行激活。

S202：为激活后的特征向量矩阵设置第二权重，得到训练视频对应的多维自注意力向量。

此处，使用自注意力机制处理网络对训练视频的特征向量矩阵进行权重赋值得到的多维自注意力向量A满足下述公式：

A＝W₂tanh(W₁H^T)；

其中，H^T表示特征向量矩阵H的转置矩阵；W₁表示第一次对特征向量矩阵进行权重赋值时，为训练视频的特征向量矩阵设置第一权重；W₂表示第二次对特征向量矩阵进行权重赋值时，为训练视频的特征向量矩阵设置的第二权重；tanh表示激活函数。

这里，为了求解更加简单，正则项可以改写为：tr((M-N)^TA^TA(M-N))。

其中，

M和N用于表示训练图像帧和训练图像帧之间的滑动关系。

S203：为多维自注意力向量增加预设约束，使得多维自注意力向量保持稀疏结构，以及保证多维自注意力向量中各向量表征的各训练视频帧之间具有对应关联。

此处，为多维自注意力向量增加预设约束，具体包括：

为多维自注意力向量A计算正则项：||AA^T-I||_F ²；

其中，I为单位向量；A^T为A的转置向量；以及

正则项用于与交叉熵、L1范数计算损失函数；交叉熵为根据将多维自注意力向量输入类别预测网络进行类别预测得到的类比预测结果计算得到的。

损失函数为正则项、交叉熵损失以及L1范数的和。在为多维自注意力向量增加预设约束，也即在对模型进行训练的过程中对损失函数求解，使得损失函数的结果最小。

这里需要注意的是，还可以根据实际的需要，使用自意力机制处理网络对每个训练视频中训练图像帧的特征向量进行更多轮的权重赋值，进一步的增加主要事件对应的训练图像帧的权重，降低次要事件对应的训练图像帧的权重，使得关注点集中在需要关注的事件上。

S104：将进行了权重赋值的特征向量矩阵输入至类别预测网络进行类别预测，获得训练视频的事件分类结果的概率向量。

在具体实现的时候，可以使用maxpooling函数对特征向量矩阵进行类别预测。使用maxpooling函数对特征向量矩阵进行类别预测的时候，可以输出该特征向量矩阵属于不同分类的最大概率。且所有分类的最大概率之和并不一定为1。

例如，训练视频A包括4个事件，分别为事件1、事件2、事件3以及事件4，使用maxpooling函数对训练视频A特征向量矩阵进行类别预测，所得到训练视频A属于每一个事件的最大概率依次为：0.57、0.31、0.22以及0.12。

具体地，参见图3所示，本申请实施例三提供一种将进行了权重赋值的特征向量矩阵进行输入至类别预测网络进行类别预测的具体方法，包括：

S301：将进行了权重赋值的特征向量矩阵切分成多个批次；每个批次中包括进行了权重赋值的子特征向量矩阵。

在具体实现的时候，每一个训练视频中通常都包括至少一个事件，尤其是在训练视频中包括多个事件的时候，不同的事件通常会相互穿插出现在训练视频中，不同的事件之间也会有衔接。因此为了实现对特征向量矩阵表征的训练视频进行分类，并得到训练视频归属多个分类中每个分类的最大概率，需要将进行了权重赋值的特征向量矩阵切分成多个批次，每个批次都包括进行了权重赋值的子特征向量矩阵；该子特征向量矩阵中包括预设数量进行了权重赋值的特征向量，该预设数量可以根据实际需求进行设定。

S302：将各批次对应的进行了权重赋值的子特征向量矩阵输入目标分类器，获得每个批次对应的事件分类结果。

在具体实现的时候，每个批次对应的分类结果，可以用该批次中所有训练图像帧的分类结果来衡量；该批次中，有更多的训练图像帧归属于哪一类，那么该批次的归属于该类的概率就会较之其归属于其他类的概率高。

因此可以采用下述方式得到每个批次对应的分类结果：

依次将各批次对应的进行了权重赋值的子特征向量矩阵所包括的多个进行了权重赋值的特征向量分别输入目标分类器，获得每个进行了权重赋值的特征向量表征的训练图像帧的事件分类结果；将对应有训练图像帧数量最多的事件分类结果作为该批次的事件分类结果。

例如，训练视频A中包括事件1和事件2；对训练视频A对应的特征向量矩阵进行了两轮权重赋值后，对该训练视频的进行了权重赋值的特征向量矩阵划分批次，所得到的编号为1的批次中包括64张训练图像帧对应的子特征向量矩阵。将进行了权重赋值的64张训练图像对应的子特征向量矩阵输入至分类器，使用分类器基于子特征向量，对每个特征向量表征的训练图像帧进行分类，得到这64张训练图像帧中，分类结果为事件1的训练图像帧有50张，分类结果为事件2的训练图像帧有14张，属于事件1的训练图像帧的数量大于属于事件2的训练图像帧的数量，因此能够确定该编号为1的批次的分类结果为事件1。

S303：按照每个事件分类结果中批次的数量由多到少的顺序，对多个事件分类结果进行排序，并

S304：将排序靠前的预设数量事件分类结果，作为训练视频的事件分类结果。

训练视频的事件分类结果中包括多个事件分类，以及与每个事件分类对应的概率。

在另外一种实施例中，上述S301-S304的步骤执行多轮。每轮执行过程中，将特征向量矩阵切分成多个批次，得到每个批次对应的子特征向量矩阵中包括的特征向量数量，与其他轮得到的每个批次对应的子特征向量矩阵中包括的特征向量数量不同，这样，可以针对同一训练视频，得到多组事件分类结果，然后将某一分类在多组事件分类结果中最大的概率，作为，该分类的最大概率。

例如，对训练视频A包括事件1和事件2，对视频A执行四轮上述S301-S304的操作，得到的分类结果分别为：

第一轮：事件1：0.65；事件2:0.33；

第二轮：事件1：0.70；事件2:0.25；

第三轮：事件1：0.73；事件2:0.22；

第四轮：事件1：0.78；事件2:0.20；

则最终确定该训练视频A属于事件1的概率为0.78，属于事件2的概率为0.33。

S305：将每个事件分类对应的概率归一化，生成训练视频的事件分类结果的概率向量。

该概率向量用于和标签向量进行比对；只有将两者量化到一致的量纲上才有比对的意义，而使用maxpooling函数对特征向量矩阵进行类别预测的时候，可以输出该特征向量矩阵属于不同分类的最大概率，其和并不一定为一，因此要进行归一化。

S105：根据事件分类结果的概率向量以及由训练视频的标签构成的标签向量之间的比对结果，对目标神经网络、自注意力机制处理网络以及类别预测网络进行训练。

在具体实现的时候，本申请实施例四提供一种根据事件分类结果的概率向量以及由训练视频的标签构成的标签向量之间的比对结果，对目标神经网络、自注意力机制处理网络以及类别预测网络进行训练的方法，包括：

执行下述相似度确定操作，直至事件分类结果的概率向量以及训练视频的标签向量的相似度小于预设的相似度阈值；

参见图4所示，相似度确定操作包括：

S401：计算事件分类结果的概率向量以及训练视频的标签向量的相似度；

S402：检测相似度是否小于预设的相似度阈值；如果是，则跳转至S403；如果否，则跳转至S404。

S403：完成对目标神经网络、自注意力机制处理网络以及目标分类器的本轮训练；该流程结束。

S404：对目标神经网络、自注意力机制处理网络以及类别预测网络的参数进行调整；

S405：基于调整后的参数，使用目标神经网络为所有批次中的训练图像帧提取新的特征向量；将各训练视频中的训练图像帧的新的特征向量生成新的特征向量矩阵；使用自注意力机制处理网络对每个训练视频的特征向量矩阵进行新的权重赋值；以及，将进行了新的权重赋值的新的特征向量矩阵进行输入至类别预测网络进行类别预测，获得训练视频的事件分类结果的新的概率向量；并再次执行S401。

在具体实现的时候，在第一次对每个训练视频中训练图像帧的特征向量矩阵进行权重赋值之前，要按照权重随机分布的方式对自注意力机制处理网络进行初始赋值。进行了初始赋值的自注意力机制处理网络可能会将需要关注的事件的训练图像帧的权重降低，并将不需要关注，或者需要少关注的训练图像帧的权重提高，影响最终对训练视频分类结果的准确性，因此，需要在对自注意力机制处理网络进行训练，使得自注意力机制处理网络越来越趋向于提高需要多注意的事件对应的训练图像帧的权重，并且降低不需要注意或者需要少注意的训练图像帧权重的方向发展。

同时，若目标神经网络不能很好的学习到训练图像帧中的特征，也会影响最终对训练视频分类结果的准确性，因而要对目标神经网络进行训练，使得目标神经网络越来越趋向于能够更好的学习到训练图像帧中特征的方向发展。同样的，也需要对目标分类器进行训练，使得目标分类器向对特征向量分类时，向着分类正确的方向发展。

基于同一发明构思，本发明实施例中还提供了与事件检测模型训练方法对应的事件检测模型训练装置，由于本发明实施例中的装置解决问题的原理与本发明实施例上述事件检测模型训练方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

本发明实施例五提供一种事件检测模型训练装置，参见图5所示，本发明实施例所提供的事件检测模型训练装置包括：

获取模块51，用于获取多个带有标签的训练视频中的训练图像帧；

特征提取模块52，用于使用目标神经网络为每个训练视频中的训练图像帧提取特征向量；

权重赋值模块53，用于以每个训练视频为单位，使用自注意力机制处理网络对每个训练视频的特征向量构成的特征向量矩阵进行至少两轮权重赋值；

类别预测模块54，用于将进行了权重赋值的特征向量矩阵输入至类别预测网络进行类别预测，获得训练视频的事件分类结果的概率向量；

训练模块55，用于根据事件分类结果的概率向量以及由训练视频的标签构成的标签向量之间的比对结果，对目标神经网络、自注意力机制处理网络以及类别预测网络进行训练。

可选地，获取模块51，具体用于：获取多个带有标签的训练视频；

按照预设采样频率，对训练视频进行采样；

可选地，权重赋值模块53采用如下方式使用自注意力机制处理网络对训练视频的特征向量矩阵进行权重赋值：

为激活后的特征向量矩阵设置第二权重，得到训练视频对应的多维自注意力向量；

为多维自注意力向量增加预设约束，使得多维自注意力向量保持稀疏结构，以及保证多维自注意力向量中各向量表征的各训练视频帧之间具有对应关联。

可选地，权重赋值模块53采用如下方式为多维自注意力向量增加预设约束：为多维自注意力向量A计算正则项：||AA^T-I||_F ²；

其中，I为单位向量；A^T为A的转置向量；以及

可选地，类别预测模块54具体用于：将进行了权重赋值的特征向量矩阵切分成多个批次；每个批次中包括进行了权重赋值的子特征向量矩阵；

将排序靠前的预设数量事件分类结果，作为训练视频的事件分类结果。

可选地，类别预测模块54采用如下方式将各批次对应的进行了权重赋值的子特征向量矩阵输入目标分类器，获得每个批次对应的事件分类结果：

依次将各批次对应的进行了权重赋值的子特征向量矩阵所包括的多个进行了权重赋值的特征向量分别输入目标分类器，获得每个进行了权重赋值的特征向量表征的训练图像帧的事件分类结果；

可选地，训练视频的事件分类结果中包括多个事件分类，以及与每个事件分类对应的概率；

类别预测模块54还用于：将每个事件分类对应的概率归一化，生成训练视频的事件分类结果的概率向量。

可选地，训练模块55具体用于：执行下述相似度确定操作，直至事件分类结果的概率向量以及训练视频的标签向量的相似度小于预设的相似度阈值；

相似度确定操作包括：

计算事件分类结果的概率向量以及训练视频的标签向量的相似度；

检测相似度是否小于预设的相似度阈值；

针对相似度不小于预设的相似度阈值的情况，对目标神经网络、自注意力机制处理网络以及类别预测网络的参数进行调整；

基于调整后的参数，使用目标神经网络为所有批次中的训练图像帧提取新的特征向量；将各训练视频中的训练图像帧的新的特征向量生成新的特征向量矩阵；使用自注意力机制处理网络对每个训练视频的特征向量矩阵进行新的权重赋值；以及，将进行了新的权重赋值的新的特征向量矩阵进行输入至类别预测网络进行类别预测，获得训练视频的事件分类结果的新的概率向量；并再次执行相似度确定操作。

参见图6所示，本申请实施例六还提供一种事件检测方法，包括：

S601：获取待检测视频；

S602：将待检测视频输入至通过本申请任意一项实施例的事件检测模型训练方法得到的事件检测模型中，得到待检测视频的事件分类结果；

其中，事件检测模型包括：目标神经网络、自注意力机制处理网络以及类别预测网络。

本申请实施例七还提供一种事件检测装置，包括：

待检测视频获取模块，用于获取待检测视频；

事件检测模块，用于将待检测视频输入至通过本申请任意一项实施例的事件检测模型训练方法得到的事件检测模型中，得到待检测视频的事件分类结果；

对应于图1中的事件检测模型训练方法，本发明实施例八还提供了一种计算机设备，如图7所示，该设备包括存储器1000、处理器2000及存储在该存储器1000上并可在该处理器2000上运行的计算机程序，其中，上述处理器2000执行上述计算机程序时实现上述事件检测模型训练方法的步骤。

具体地，上述存储器1000和处理器2000能够为通用的存储器和处理器，这里不做具体限定，当处理器2000运行存储器1000存储的计算机程序时，能够执行上述事件检测模型训练方法，从而解决采用训练视频直接对事件检测模型进行训练时为了保证模型精度，导致所需要计算量大，耗费过多的计算资源以及训练时间的问题，进而达到在不影响模型精度的前提下，减少训练过程中所需要的计算量，减少计算资源以及训练时间的耗费的效果。

对应于图1中的事件检测模型训练方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述事件检测模型训练方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述客事件检测模型训练方法，从而解决采用训练视频直接对事件检测模型进行训练时为了保证模型精度，导致所需要计算量大，耗费过多的计算资源以及训练时间的问题，进而达到在不影响模型精度的前提下，减少训练过程中所需要的计算量，减少计算资源以及训练时间的耗费的效果。

本发明实施例所提供的事件检测模型训练方法、装置以及事件检测方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参靠前述方法实施例中的对应过程，在此不再赘述。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种事件检测模型训练方法，其特征在于，包括：

获取多个带有标签的训练视频中的训练图像帧；所述训练视频包括至少一个事件，当所述训练视频中包括多个事件时，将各个事件分为主要事件和次要事件，并基于主要事件和次要事件对所述训练视频进行标签的标注；其中，在基于主要事件和次要事件对所述训练视频进行标签标注时，按照训练视频中每个事件对应的训练图像帧的数量在该训练视频中训练图像帧的数量中占据的比重，来确定每个事件对应的标签所占据的比重；每个事件对应的标签所占据的比重构成一个标签向量；

根据所述事件分类结果的概率向量以及由所述训练视频的标签构成的标签向量之间的比对结果，对所述目标神经网络、所述自注意力机制处理网络以及所述类别预测网络进行训练；

所述根据所述事件分类结果的概率向量以及由所述训练视频的标签构成的标签向量之间的比对结果，对所述目标神经网络、所述自注意力机制处理网络以及所述类别预测网络进行训练，具体包括：

所述相似度确定操作包括：

检测所述相似度是否小于预设的相似度阈值；

2.根据权利要求1所述的方法，其特征在于，所述获取多个带有标签的训练视频中的训练图像帧，具体包括：

获取多个带有标签的训练视频；

按照预设采样频率，对所述训练视频进行采样；

3.根据权利要求1所述的方法，其特征在于，采用如下方式使用自注意力机制处理网络对训练视频的特征向量矩阵进行权重赋值：

4.根据权利要求3所述的方法，其特征在于，为所述多维自注意力向量增加预设约束，包括：

为所述多维自注意力向量A计算正则项：||AA^T-I||_F ²；

其中，I为单位向量；A^T为A的转置向量；以及

5.根据权利要求1所述的方法，其特征在于，所述将进行了权重赋值的特征向量矩阵输入至类别预测网络进行类别预测，具体包括：

6.根据权利要求5所述的方法，其特征在于，所述将各批次对应的进行了权重赋值的子特征向量矩阵输入目标分类器，获得每个批次对应的事件分类结果，具体包括：

7.根据权利要求1、5或6任意一项所述的方法，其特征在于，所述训练视频的事件分类结果中包括多个事件分类，以及与每个事件分类对应的概率；

所述方法还包括：

8.一种事件检测方法，其特征在于，包括：

获取待检测视频；

将所述待检测视频输入至通过权利要求1-7任意一项的事件检测模型训练方法得到的事件检测模型中，得到所述待检测视频的事件分类结果；

9.一种事件检测模型训练装置，其特征在于，该装置包括：

获取模块，用于获取多个带有标签的训练视频中的训练图像帧；所述训练视频包括至少一个事件，当所述训练视频中包括多个事件时，将各个事件分为主要事件和次要事件，并基于主要事件和次要事件对所述训练视频进行标签的标注；

所述获取模块还用于，在基于主要事件和次要事件对所述训练视频进行标签的标注时，按照训练视频中每个事件对应的训练图像帧的数量在该训练视频中训练图像帧的数量中占据的比重，来确定每个事件对应的标签所占据的比重；每个事件对应的标签所占据的比重构成一个标签向量；

训练模块，用于根据所述事件分类结果的概率向量以及由所述训练视频的标签构成的标签向量之间的比对结果，对所述目标神经网络、所述自注意力机制处理网络以及所述类别预测网络进行训练；

所述训练模块还用于，所述根据所述事件分类结果的概率向量以及由所述训练视频的标签构成的标签向量之间的比对结果，对所述目标神经网络、所述自注意力机制处理网络以及所述类别预测网络进行训练，具体包括：

所述相似度确定操作包括：

检测所述相似度是否小于预设的相似度阈值；