CN113177603A

CN113177603A - 分类模型的训练方法、视频分类方法及相关设备

Info

Publication number: CN113177603A
Application number: CN202110517456.5A
Authority: CN
Inventors: 张宁; 刘林
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Shanghai ICT Co Ltd; CM Intelligent Mobility Network Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Shanghai ICT Co Ltd; CM Intelligent Mobility Network Co Ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-07-27
Anticipated expiration: 2041-05-12
Also published as: CN113177603B; WO2022237065A1

Abstract

本发明提供了一种分类模型的训练方法、视频分类方法及相关设备，所述视频分类方法包括以下步骤：获取待分类视频；提取第三视频帧中的第二特征信息，并根据第二特征信息确定第三视频帧对应的权重值；对多个第三视频帧进行筛选，得到第二目标视频帧；将第二目标视频帧输入至目标分类模型中进行分类，得到分类结果。本发明实施例预先对待分类视频中的视频帧进行了筛选，输入至分类模型中的目标视频帧均为权重值大于等于第一预设阈值的视频帧，这样，剔除了待分类视频中的空白视频帧，确保上述目标视频帧不包括空白视频帧。分类模型无需对待分类视频中的空白视频帧进行相关计算，以此减少了分类模型的计算量，进而提高了视频分类的效率。

Description

分类模型的训练方法、视频分类方法及相关设备

技术领域

本发明实施例涉及视频处理技术领域，尤其涉及一种分类模型的训练方法、视频分类方法及相关设备。

背景技术

在大数据的环境下，视频的分类存储对于实现视频的管理以及兴趣推荐具有十分重要的作用。

目前，主要使用分类模型实现视频的分类，例如上述分类模型可以是支持向量机(support vector machine，SVM)。将训练集和待分类视频输入至分类模型中，分类模型依据训练集对待分类视频进行分类，输出分类结果，其中，上述训练集由携带有类别标签的多个已分类视频组成。

然而，待分类视频中可能包括空白视频帧，将包含有空白视频帧的待分类视频输入至分类模型中会导致分类模型进行无效计算，加大分类模型的计算量，进而导致视频分类效率较低。

发明内容

本发明实施例提供一种分类模型的训练方法、视频分类方法及相关设备，以解决因分类模型存在大量的无效计算，导致视频分类效率较低的技术问题。

为解决上述问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种分类模型的训练方法，由终端执行，所述方法包括：

获取训练集，其中，所述训练集包括多个第一目标视频帧和所述第一目标视频帧的标识信息；所述标识信息用于标识所述第一目标视频帧中所包括的图像特征，所述第一目标视频帧的权重值大于或等于第一预设阈值，且所述权重值与所述标识信息的数量相关；

通过所述训练集对初始分类模型进行训练，得到目标分类模型。

第二方面，本发明实施例还提供一种视频分类方法，由终端执行，所述方法包括：

获取待分类视频，所述待分类视频包括多个第三视频帧；

提取所述第三视频帧中的第二特征信息，并根据所述第二特征信息确定所述第三视频帧对应的权重值，所述第二特征信息用于表征所述第三视频帧中所包括的图像特征的数量；

对所述多个第三视频帧进行筛选，得到第二目标视频帧，所述第二目标视频帧的权重值大于或等于第一预设阈值；

将所述第二目标视频帧输入至目标分类模型中进行分类，得到分类结果，其中，所述分类结果包括用于识别所述第二目标视频帧所对应的图像特征的标识信息。

第三方面，本发明实施例还提供一种终端，包括：

第一收发器，用于获取训练集，其中，所述训练集包括多个第一目标视频帧和所述第一目标视频帧的标识信息；所述标识信息用于标识所述第一目标视频帧中所包括的图像特征，所述第一目标视频帧的权重值大于或等于第一预设阈值，且所述权重值与所述标识信息的数量相关；

训练模块，用于通过所述训练集对初始分类模型进行训练，得到目标分类模型。

第四方面，本发明实施例还提供一种终端，包括：

第二收发器，用于获取待分类视频，所述待分类视频包括多个第三视频帧；

提取模块，用于提取所述第三视频帧中的第二特征信息，并根据所述第二特征信息确定所述第三视频帧对应的权重值，所述第二特征信息用于表征所述第三视频帧中所包括的图像特征的数量；

筛选模块，用于对所述多个第三视频帧进行筛选，得到第二目标视频帧，所述第二目标视频帧的权重值大于或等于第一预设阈值；

分类模块，用于将所述第二目标视频帧输入至目标分类模型中进行分类，得到分类结果，其中，所述分类结果包括用于识别所述第二目标视频帧所对应的图像特征的标识信息。

第五方面，本发明实施例还提供一种设备，包括：收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；所述处理器，用于读取存储器中的程序实现如前述第一方面所述方法中的步骤；或者，所述处理器，用于读取存储器中的程序实现如前述第二方面所述方法中的步骤。

第六方面，本发明实施例还提供一种可读存储介质，用于存储程序，所述程序被处理器执行时实现如前述第一方面所述方法中的步骤；或者，所述程序被处理器执行时实现如前述第二方面所述方法中的步骤。

本发明实施例中，提取待分类视频中所有视频帧的特征信息，并根据该特征信息确定每个视频帧对应的权重值；依据每个视频帧对应的权重值对待分类视频中的所有视频帧进行筛选，得到目标视频帧，将目标视频帧输入至训练完成的目标分类模型中进行分类，得到分类结果。本发明实施例预先对待分类视频中的所有视频帧进行了筛选，输入至分类模型中的目标视频帧均为权重值大于或等于第一预设阈值的视频帧，这样，剔除了待分类视频中的空白视频帧，确保上述目标视频帧不包括空白视频帧。也就是说，分类模型无需对待分类视频中的空白视频帧进行相关计算，以此减少了分类模型的计算量，进而提高了视频分类的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的分类模型的训练方法的流程示意图；

图2是本发明实施例提供的使用神经网络模型进行分析的应用场景示意图；

图3是本发明实施例提供的视频分类方法的流程示意图；

图4是本发明实施例提供的视频分类方法的应用场景示意图；

图5是本发明实施提供的终端的结构示意图；

图6是本发明实施提供的另一终端的结构示意图；

图7是本发明实施提供的设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中的术语“第一”、“第二”等是用于区别类似的图像特征，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，本申请中使用“和/或”表示所连接图像特征的至少其中之一，例如A和/或B和/或C，表示包含单独A，单独B，单独C，以及A和B都存在，B和C都存在，A和C都存在，以及A、B和C都存在的7种情况。

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

参见图1，图1是本发明实施例提供的分类模型的训练方法的流程示意图。图1所示的分类模型的训练方法可以由终端执行。

如图1所示，分类模型的训练方法可以包括以下步骤：

步骤101，获取训练集。

应理解，上述分类模型可以是SVM，或者其他分类模型。

上述训练集包括多个第一目标视频帧和第一目标视频帧的标识信息。

其中，可以将训练集中的视频帧称为第一目标视频帧，标识信息用于标识第一目标视频帧中所包括的图像特征，一帧第一目标视频帧对应的标识信息的数量可以是一个或多个。

图像特征包括以下至少一项：实体特征、行为特征、场景特征。

在训练集中的视频为交通场景视频的情况下，上述实体特征是指视频帧所显示的实体，可以将视频帧中显示的自行车、公交车、摩托车和行人等对象理解为实体。应理解，上述实体特征在不同的场景视频具有不同的定义，且上述实体特征也可以由用户自定义设置。

在训练集中的视频为交通场景视频的情况下，上述行为特征是指视频帧中的实体所对应的行为，例如，行人通过马路，公交车通过路口等。应理解，上述行为特征在不同的场景视频具有不同的定义，且上述行为特征也可以由用户自定义设置。

在训练集中的视频为交通场景视频的情况下，上述场景特征是指视频帧所显示的场景，例如，视频帧显示的场景为十字路口，视频帧显示的场景为高速公路等。应理解，上述场景特征也可以由用户自定义设置。

需要理解的是，第一目标视频帧的权重值大于或等于第一预设阈值，且权重值与标识信息的数量相关，对于一帧视频帧，该视频帧对应的标识信息的数量越多，则该视频帧对应的权重值越高。具体如何确定第一目标视频帧的权重值的方式，请参阅后续实施例。

本步骤中，获取训练集，其中，该训练集可以是终端依据视频文件生成的，也可以是终端接收其他电子设备发送的视频文件。

步骤102，通过所述训练集对初始分类模型进行训练，得到目标分类模型。

本步骤中，在得到训练集后，终端使用该训练集对初始分类模型进行迭代训练，得到训练完成的目标分类模型。

在分类模型为SVM的情况下，可以通过以下方式对SVM进行训练。

设置Scikit-Learn数据库作为SVM的数据库，基于网格搜索法以及迭代训练的方式，调整惩罚参数和核参数，得到多个网格排列的准确率图像，将具备最高准确率的图像对应的惩罚参数和核参数，作为SVM对应的惩罚参数和核参数，得到训练完成的SVM。

其中，惩罚参数可以用C表示，惩罚参数越大，说明越不能容忍分类结果出现误差，容易导致分类结果过拟合；惩罚参数越小，容易导致分类结果欠拟合。

其中，核参数是SVM中径向基函数(Radial Basis Function，RBF)的一个参数，核参数越大，表示支持向量越少；核参数越小，表示支持向量越多。支持向量的个数影响SVM训练与预测的速度。

应理解，在一些实施例中，分类模型也可以是除SVM之外的其他分类模型，或神经网络模型，或其他形式的模型。

应理解，在一些实施例中，也可以设置除Scikit-Learn之外的数据库作为SVM的数据库。

可选地，所述获取训练集，包括：

提取第一视频中的多个第一视频帧；确定所述第一视频帧对应的第一特征信息；确定与所述第一特征信息对应的权重值，并根据所述权重值对所述多个第一视频帧进行筛选，得到第二视频帧；将所述第二视频帧输入预设的神经网络模型进行分析，得到所述第一目标视频帧。

本实施例中，上述第一视频可以是第三方机构提供的视频，例如，在训练集中的视频为交通场景视频的情况下，第一视频可以是第三方机构提供的处于交通场景下的视频。第一视频中的视频帧可以理解为第一视频帧。

对第一视频帧进行特征识别，识别出第一视频中的各个图像特征，并生成各个图像特征对应的标识信息，以此得到第一特征信息。其中，第一特征信息用于表征第一视频帧中所包括的图像特征的数量。

本实施例中，可以利用网络模型，基于Rule-Based规则，对第一视频进行图像识别，识别出第一视频中的各个图像特征，并得到各个图像特征对应的标识信息，其中，可以基于Rule-Based规则预先设置图像特征与标识信息之间的映射关系。应理解，在一些实施例中，也可以使用其他工具，对第一视频进行图像识别，在此不做具体限定。

确定与第一特征信息对应的权重值，如上所述，权重值与标识信息的数量有关，具体的，如何确定第一特征信息对应的权重值的方式，请参阅后续实施例。

在得到多个第一视频帧对应的权重值后，根据权重值对多个第一视频帧进行筛选，得到第二视频帧，应理解，第二视频帧的权重值大于或等于第一预设阈值。换言之，将多个第一视频帧中权重值小于第一预设阈值的视频帧确定为无效视频帧，将多个第一视频帧中权重值大于或等于第一预设阈值的视频帧确定为有效视频帧，并删除多个第一视频帧中的无效视频帧，得到第二视频帧。其中，无效视频帧是指空白视频帧，即不包括图像特征的视频帧，或者，图像特征数量较少的视频帧；上述第一预设阈值的具体数值可以自定义设置，在此不做具体限定。

本实施例中，根据权重值对多个第一视频帧进行筛选，得到第二视频帧，以此删除多个第一视频帧中的无效视频帧，剔除了训练集中的无效数据，进而减少了分类模型在视频分类过程中的计算量，提高视频分类的效率。

在得到第二视频帧后，将第二视频帧输入至预设的神经网络模型中进行分析，得到第一目标视频帧，具体的技术方案，请参阅后续实施例。

可选地，所述确定与所述第一特征信息对应的权重值包括：

将所述第一特征信息与预设系数的乘积结果，确定为所述权重值。

如上所述，图像特征包括但不限于实体特征、行为特征和场景特征。

一种可选的实施方式为，上述预设系数包括与实体特征对应的第一系数、与行为特征对应的第二系数以及与场景特征对应的第三系数。

将第一数量值与第一系数的乘积结果，确定为第一数值；将第二数量值与第二系数的乘积结果，确定为第二数值；将第三数量值与第三系数的乘积结果，确定为第三数值；将上述第一数值、第二数值和第三数值的和值结果，确定为权重值。

其中，上述第一数量值用于表征实体特征的数量，上述第二数量值用于表征行为特征的数量，第三数量值用于表征场景特征的数量。

另一种可选的实施方式为，将第一特征信息表征的图像特征的数量与预设系数的乘积结果，确定为权重值。

可选地，所述将所述第二视频帧输入预设的神经网络模型进行分析，得到所述第一目标视频帧包括：

将所述第二视频帧输入预设的神经网络模型中，确定所述第二视频帧中每个图像特征对应的标识信息；获取对所述标识信息进行校验的校验结果；在所述校验结果指示所述标识信息与所标识的图像特征匹配的情况下，确定所述第二视频帧为所述第一目标视频帧。

本实施例中，将第二视频帧输入至神经网络模型中，确定第二视频帧中每个图像特征对应的标识信息。其中，该神经网络模型可以是卷积神经网络模型，或者是其他类型的神经网络模型，在此不做具体限定。

上述校验结果用于指示标识信息与该标识信息对应的图像特征是否匹配，其中，上述校验结果可以是人工根据图像特征生成的。

在校验结果指示的标识信息与所标识的图像特征匹配的情况下，表示该神经网络模型确定的标识信息与该标识信息对应的图像特征匹配，则向神经网络模型发送正反馈信号，以此控制神经网络模型将该标识信息对应的第二视频帧输出至训练集中存储。

在校验结果指示的标识信息与所标识的图像特征不匹配的情况下，表示该神经网络模型确定的标识信息与该标识信息对应的图像特征不匹配，则向神经网络模型发送负反馈信号，控制神经网络模型再次对该标识信息对应的第二视频帧进行图像识别。

为清楚阐述本实施例，以下结合图2对本实施例进行阐述。

如图2所示，先确定第一视频帧对应的第一特征信息和对应的权重值，即图2中的“rule-based交通场景结构化数据”，将第一视频帧中权重值小于0.5的视频帧删除，得到第二视频帧。

将第二视频帧输入至神经网络模型中，神经网络模型对第二视频帧进行图像识别，确定第二视频帧中每个图像特征对应的标识信息，图2中的机器学习即神经网络模型。

人工对图像特征对应的标识信息进行校验，并向神经网络模型发送正反馈信号或负反馈信号。例如，“公交车”这一图像特征对应的标识信息为“bus”，1个第二视频帧中包括“公交车”这一图像特征，若神经网络模型对该图像特征生成的标识信息为“bus”，在人工判定该标识信息与图像特征匹配后，向神经网络模型发送正反馈信号；若神经网络模型对该图像特征生成的标识信息不为“bus”，在人工判定该标识信息与图像特征不匹配后，向神经网络模型发送负反馈信号。

神经网络模型在接收到正反馈信号后，将该第二视频帧输出值训练集，即图2中的交通场景分类训练集；在接收到负反馈信号后，继续对该第二视频帧进行图像识别。其中，可以将神经网络模型对第二视频帧进行图像识别，以及接收正/负反馈信号的过程，称为图2中的“强化学习过程”。

参见图3，图3是本发明实施例提供的视频分类方法的流程示意图。图3所示的视频分类方法可以由终端执行。

应理解，在一些实施例中，应用视频分类方法的终端与应用上述分类模型的训练方法的终端可以为同一终端。

如图3所示，视频分类方法可以包括以下步骤：

步骤201，获取待分类视频。

本步骤中，上述待分类视频是对目标视频进行去重操作后的视频，其中，上述目标视频可以是与终端通信的其他设备发送的视频。具体的如何对目标视频进行去重操作的技术方案，请参阅后续实施例。

步骤202，提取第三视频帧中的第二特征信息，并根据所述第二特征信息确定所述第三视频帧对应的权重值。

本步骤中，可以将待分类视频中的视频帧，称为第三视频帧。可以使用网络模型提取第三视频帧中的特征信息，或者，使用其他方法提供第三视频帧中的特征信息，在此不做具体限定。

第三视频帧中的特征信息称为第二特征信息，其中，第二特征信息用于表征第三视频帧中所包括的图像特征的数量。

应理解，提取第三视频帧中的第二特征信息的方法，与上述确定第一视频帧对应的第一特征信息的方法一致，在此不做重复阐述。

本步骤中，在提取第三视频帧中的第二特征信息的过程中，会基于与确述第二视频帧中每个图像特征对应的标识信息相同的方式，生成每个图像特征对应的标识信息，这里，可以将第三视频帧中每个图像图像特征对应的标识信息称为标签。

应理解，根据第二特征信息确定第三视频帧对应的权重值的方法，与上述确定第一特征信息对应的权重值的方法一致，在此不做重复阐述。

步骤203，对所述多个第三视频帧进行筛选，得到第二目标视频帧。

本步骤中，删除第三视频帧中权重值小于第一预设阈值的视频帧，得到第二目标视频帧，容易理解的是，第二目标视频帧的权重值大于或等于第一预设阈值。可选地，可以将所有的第二目标视频帧称为测试集。

步骤204，将所述第二目标视频帧输入至目标分类模型中进行分类，得到分类结果。

上述目标分类模型即训练完成的分类模型，本步骤中，将第二目标视频帧输入至目标分类模型中进行分类，得到分类结果，其中分类结果包括识别第二目标视频帧所对应的图像特征的标识信息。

应理解，第二目标视频帧可能包括多个不同的图像特征，那么，第二目标视频帧也可以包括多个不同的标识信息。

本实施例预先对待分类视频中的视频帧进行了筛选，输入至分类模型中的目标视频帧均为权重值大于等于第一预设阈值的视频帧，这样，剔除了待分类视频中的空白视频帧，确保上述目标视频帧不包括空白视频帧。分类模型无需对待分类视频中的空白视频帧进行相关计算，以此减少了分类模型的计算量，进而提高了视频分类的效率。

以下，具体说明如何对目标视频进行去重操作：

可选地，所述获取待分类视频，包括：

基于目标视频中第四视频帧中每个像素点对应的像素值，生成所述第四视频帧对应的高斯分布曲线；基于所述高斯分布曲线的标准差和平均值，计算所述第四视频帧对应的相对熵；删除所述目标视频中的第五视频帧，得到所述待分类视频。

本实施例中，可以将目标视频的视频帧中除终止视频帧之外的任一视频帧称为第四视频帧，将第四视频帧以高斯分布曲线的形式展示。

一种可选的实施方式为，可以基于第四视频帧中每一像素点对应的像素值，生成第四视频帧对应的高斯分布曲线。

另一种可选的实施方式为，可以基于第四视频帧中每一像素点对应的灰度值，生成第四视频帧对应的高斯分布曲线。

本实施例中，可以利用以下公式，确定第i帧对应的相对熵：

其中，KL(p_i,p_i+1)表示第i帧对应的相对熵，

表示第i帧对应的高斯分布曲线的标准差，

表示第i+1帧对应的高斯分布曲线的标准差，

表示第i帧对应的高斯分布曲线的平均值，

表示第i+1帧对应的高斯分布曲线的平均值。

其中，上述第i帧为第四视频帧，上述相对熵又可称为KL散度。

本实施例中，设置有第二预设阈值，若一视频帧的相对熵大于第二预设阈值，表示该视频帧表征的内容可能与该视频帧的相邻视频帧表征的内容相同或者相似，则需要将该视频帧删除。可以将相对熵大于第二预设阈值的视频帧称为第五视频帧，将目标视频中的第五视频帧删除，得到取待分类视频。

本实施例中，得到目标视频中每个第四视频帧对应的高斯分布曲线，并基于高斯分布曲线的标准差和平均值，得到每个第四视频帧对应的相对熵，该相对熵用于表征对应的视频帧与相邻视频帧的相似度；将目标视频中相对熵高于第二预设阈值的视频帧删除，以此对目标视频进行去重操作，得到待分布视频。本实施例中，通过对目标视频进行了去重操作，删除了目标视频中相似程度较高的第四视频帧，减少了分类模型的计算量，进而提高了视频分类的效率。

可选地，在得到分类结果之后，所述方法包括：

基于所述标签和每个图像特征对应的分类结果，确定所述第二目标视频帧对应的指标值；在所述指标值大于第三预设阈值的情况下，将所述第二目标视频帧存储至训练集。

如上所述，可以将第三视频帧中每个图像特征对应的标识信息称为标签，由于第二目标视频帧是第三视频帧删除部分视频帧后得到的，因此第二目标视频帧中也包括多个标签，其中，该标签用于表征第二目标视频帧中图像特征的类别。

上述指标值用于表征分类模型的分类结果的准确性，在指标值大于第三预设阈值的情况下，表示该分类结果较为准确，这样，将第二目标视频帧存储至数据集，以此扩充训练集中的训练数据。

以下，结合表1，具体说明如何基于标签和分类结果，确定第二目标视频帧对应的指标值：

	标签为P	标签为Q
			分类模型判断为P	A	B
分类模型判断为Q	C	D

表1

应理解，表1所应用的场景为，第二目标视频帧中只包括2个图像特征的情况。

应理解，表1中的A和D均表示标签表征的类别与分类结果表征的类别相同的第二目标视频帧的数量，在标签表征的类别与分类结果表征的类别相同的情况下，表示分类模型的分类结果正确。

表1中的B和C均表示标签表征的类别与分类结果表征的类别不同的第二目标视频帧的数量，在标签表征的类别与分类结果表征的类别不同的情况下，表示分类模型的分类结果错误。

本实施例中，可以设置四个指标值，分别为精准率、正确率、召回率和评价值，可以使用以下公式计算上述四个指标值：

R₁＝(A+D)/N*100％

R₂＝A/(A+B)*100％

R₃＝A/(A+C)*100％

R₄＝2*R₂*R₃/(R₂+R₃)*100％

其中，A、B、C和D从表1得到，N表示第二目标视频帧的数量，即A+B+C+D＝N；R₁表示精准率，R₂表示正确率，R₃表示召回率，R₄表示评价值。

本实施例中，可以设定第三预设阈值包括与精准率对应的第四数值，与正确率对应的第五数值，与召回率对应的第六数值以及与评价值对应的第七数值。

在精准率大于对应的第四数值，正确率大于对应的第五数值，召回率大于对应的第六数值以及评价值大于对应的第七数值的情况下，确定指标值大于第三预设阈值，将目标视频存储至训练集。

为便于理解，以下结合图4进行说明。

将第三方提供的交通场景数据作为交通场景数据集，应理解交通场景数据集即第一视频；确定第一视频帧对应的第一特征信息，并确定与第一特征信息对应的权重值，即对应图4中的“基于规则形成结构化数据”部分；根据权重值，对第一视频帧进行筛选，得到第二视频帧，并将第二视频帧输入至神经网络模型进行分析，得到第一目标视频帧，该第一目标视频帧为训练集中的视频帧，即对应图4中的“形成一套交通场景分类训练集”部分。

基于目标视频中第四视频帧对应的高斯分布曲线，对目标视频进行去重操作，得到待分类视频，即图4中的“视频分解成视频帧”部分；提取待分类视频中的第三视频帧对应的特征信息，对应图4中的“基于CNN提取视频帧的特征数据”部分；对多个第三视频帧进行筛选，得到第二目标视频帧，该第二目标视频帧为测试集中的视频帧，对应图4中的“基于规则形成结构化数据”部分。

使用训练集对SVM分类模型进行训练，在训练完成后，将测试集输入至SVM分类模型中，得到分类结果，并在通过评价指标度量后，即上述实施例中的指标值大于第三预设阈值的情况下，将测试集存储至交通场景数据集。

参见图5，图5是本发明实施例提供的终端的结构示意图。如图5所示，终端300包括：

第一收发器301，用于获取训练集；

训练模块302，用于通过所述训练集对初始分类模型进行训练，得到目标分类模型。

可选地，所述第一收发器301包括：

提取单元，用于提取第一视频中的多个第一视频帧；

确定单元，用于确定所述第一视频帧对应的第一特征信息；

筛选单元，用于确定与所述第一特征信息对应的权重值，并根据所述权重值对所述多个第一视频帧进行筛选，得到第二视频帧；

分析单元，用于将所述第二视频帧输入预设的神经网络模型进行分析，得到所述第一目标视频帧。

可选地，所述分析单元，还用于：

将所述第二视频帧输入预设的神经网络模型中，确定所述第二视频帧中每个图像特征对应的标识信息；

获取对所述标识信息进行校验的校验结果；

在所述校验结果指示所述标识信息与所标识的图像特征匹配的情况下，确定所述第二视频帧为所述第一目标视频帧。

可选地，所述确定单元，还用于：

终端300能够实现本发明实施例中图1方法实施例的各个过程，以及达到相同的有益效果，为避免重复，这里不再赘述。

参见图5，图5是本发明实施例提供的另一终端的结构示意图。如图5所示，终端400包括：

第二收发器401，用于获取待分类视频；

提取模块402，用于提取第三视频帧中的第二特征信息，并根据所述第二特征信息确定所述第三视频帧对应的权重值；

筛选模块403，用于对所述多个第三视频帧进行筛选，得到第二目标视频帧；

分类模块404，用于将所述第二目标视频帧输入至目标分类模型中进行分类，得到分类结果。

可选地，所述第二收发器401，还用于：

基于目标视频中第四视频帧中每个像素点对应的像素值，生成所述第四视频帧对应的高斯分布曲线；

基于所述高斯分布曲线的标准差和平均值，计算所述第四视频帧对应的相对熵；

删除所述目标视频中的第五视频帧，得到所述待分类视频。

可选地，所述终端400还包括：

确定模块，用于基于标签和每个图像特征对应的分类结果，确定所述第二目标视频帧对应的指标值；

存储模块，用于在所述指标值大于第三预设阈值的情况下，将所述第二目标视频帧存储至训练集。

终端400能够实现本发明实施例中图3方法实施例的各个过程，以及达到相同的有益效果，为避免重复，这里不再赘述。

应理解，上述终端300和终端400可以为同一终端。

本发明实施例还提供一种设备。请参见图7，电子设备可以包括处理器501、存储器502及存储在存储器502上并可在处理器501上运行的程序5021。

在电子设备为终端的情况下，程序5021被处理器501执行时可实现图1和/或图3对应的方法实施例中的任意步骤及达到相同的有益效果，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法的全部或者部分步骤是可以通过程序指令相关的硬件来完成，所述的程序可以存储于一可读取介质中。

本发明实施例还提供一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时可实现上述图1和/或图3对应的方法实施例中的任意步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

所述的存储介质，如只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

以上所述是本发明实施例的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种分类模型的训练方法，其特征在于，由终端执行，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取训练集，包括：

提取第一视频中的多个第一视频帧；

确定所述第一视频帧对应的第一特征信息，其中，所述第一特征信息用于表征所述第一视频帧中所包括的图像特征的数量；

确定与所述第一特征信息对应的权重值，并根据所述权重值对所述多个第一视频帧进行筛选，得到第二视频帧，所述第二视频帧的权重值大于或等于所述第一预设阈值；

将所述第二视频帧输入预设的神经网络模型进行分析，得到所述第一目标视频帧。

3.根据权利要求2所述的方法，其特征在于，所述将所述第二视频帧输入预设的神经网络模型进行分析，得到所述第一目标视频帧包括：

获取对所述标识信息进行校验的校验结果；

4.根据权利要求2所述的方法，其特征在于，所述确定与所述第一特征信息对应的权重值包括：

5.根据权利要求4所述的方法，其特征在于，所述图像特征包括以下至少一项：实体特征、行为特征、场景特征。

6.一种视频分类方法，其特征在于，由终端执行，所述方法包括：

获取待分类视频，所述待分类视频包括多个第三视频帧；

将所述第二目标视频帧输入至权利要求1至5中任一项所述的目标分类模型中进行分类，得到分类结果，其中，所述分类结果包括用于识别所述第二目标视频帧所对应的图像特征的标识信息。

7.根据权利要求6所述的方法，其特征在于，所述获取待分类视频，包括：

基于目标视频中第四视频帧中每个像素点对应的像素值，生成所述第四视频帧对应的高斯分布曲线，所述第四视频帧为所述目标视频的视频帧中除终止视频帧之外的任一视频帧；

删除所述目标视频中的第五视频帧，得到所述待分类视频，所述第五视频帧为相对熵大于第二预设阈值的视频帧。

8.根据权利要求6所述的方法，其特征在于，所述第二目标视频帧包括多个标签，所述标签用于表征所述第二目标视频帧中图像特征的类别；

在得到分类结果之后，所述方法包括：

基于所述标签和每个图像特征对应的分类结果，确定所述第二目标视频帧对应的指标值；

在所述指标值大于第三预设阈值的情况下，将所述第二目标视频帧存储至训练集，其中，所述训练集用于对初始分类模型进行训练。

9.一种终端，其特征在于，包括：

10.根据权利要求9所述的终端，其特征在于，所述第一收发器包括：

提取单元，用于提取第一视频中的多个第一视频帧；

确定单元，用于确定所述第一视频帧对应的第一特征信息，其中，所述第一特征信息用于表征所述第一视频帧中所包括的图像特征的数量；

筛选单元，用于确定与所述第一特征信息对应的权重值，并根据所述权重值对所述多个第一视频帧进行筛选，得到第二视频帧，所述第二视频帧的权重值大于或等于所述第一预设阈值；

11.根据权利要求10所述的终端，其特征在于，所述分析单元，还用于：

获取对所述标识信息进行校验的校验结果；

12.根据权利要求10所述的终端，其特征在于，所述确定单元，还用于：

13.一种终端，其特征在于，所述终端包括：

分类模块，用于将所述第二目标视频帧输入至权利要求9至12中任一项所述的目标分类模型中进行分类，得到分类结果，其中，所述分类结果包括用于识别所述第二目标视频帧所对应的图像特征的标识信息。

14.根据权利要求13所述的终端，其特征在于，所述第二收发器，还用于：

15.根据权利要求13所述的终端，其特征在于，所述终端还包括：

存储模块，用于在所述指标值大于第三预设阈值的情况下，将所述第二目标视频帧存储至训练集，其中，所述训练集用于对初始分类模型进行训练。

16.一种电子设备，包括：收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述处理器，用于读取存储器中的程序实现如权利要求1至5中任一项所述的分类模型的训练方法中的步骤；或者，所述处理器，用于读取存储器中的程序实现如权利要求6至8中任一项所述的视频分类方法中的步骤。

17.一种可读存储介质，用于存储程序，其特征在于，所述程序被处理器执行时实现如权利要求1至5中任一项所述的分类模型的训练方法中的步骤；或者，所述程序被处理器执行时实现如权利要求6至8中任一项所述的视频分类方法中的步骤。