CN114677578A

CN114677578A - 确定训练样本数据的方法和装置

Info

Publication number: CN114677578A
Application number: CN202210329395.4A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-06-28

Abstract

本申请公开了一种确定训练样本数据的方法和装置，属于图像识别技术领域，可以应用在对视频进行图像识别的应用场景中。所述方法包括：基于经过训练的第一图像识别模型，对第一样本图像进行图像识别，得到第一样本图像对应的第一预测识别结果；如果第一预测识别结果满足确定性条件，则将第一预测识别结果确定为第一样本图像对应的基准识别结果，将第一样本图像和对应的基准识别结果，确定为待训练的第二图像识别模型的训练样本数据；否则获取对第一样本图像标定得到的基准识别结果，将第一样本图像和标定得到的基准识别结果，确定为待训练的第二图像识别模型的训练样本数据。采用本申请，可以有效提高图像识别模型的识别结果准确度。

Description

确定训练样本数据的方法和装置

技术领域

本申请涉及图像识别技术领域，特别涉及一种确定训练样本数据的方法和装置。

背景技术

随着短视频业务的飞速发展，短视频平台出现了一种新的功能，用户可以基于物品类型进行短视频查找，例如，查找“空调”相关的视频。针对这种功能，服务器需要对短视频添加标签，以记录短视频所涉及的物品类型。这样，用户只要输入关键字，如手机、口红、打火机等，服务器就可以使用关键字查找具有相应物品类型标签的短视频。

在添加标签时，服务器一般使用图像识别模型对短视频的视频帧进行识别，确定其中涉及的物品类型，进而记录相应的物品类型标签。因为这种功能是一种比较新的功能，所以，上述的图像识别模型一般是直接使用已有的针对静态图片的图像识别模型。这样，无需重新训练模型，从而可以节省大量的人力资源和设备资源。

已有的针对静态图片的图像识别模型一般都是使用大量的静态图片的样本来训练的，这种静态图片一般具有清晰度高、背景简单、主体在图像中的位置和占比较为适中等特点。然而，短视频的视频帧经常会存在如下特点：清晰度较低、背景复杂、主体在图像中的位置较偏、主体过大或过小等。这样就会导致图像识别模型的识别结果准确度较低。

发明内容

本申请提供了一种确定训练样本数据的方法和装置，能够有效提高图像识别模型的识别结果准确度。

第一方面，提供了确定训练样本数据的方法，所述方法包括：

基于经过训练的第一图像识别模型，对第一样本图像进行图像识别，得到所述第一样本图像对应的第一预测识别结果；

如果所述第一预测识别结果满足确定性条件，则将所述第一预测识别结果确定为所述第一样本图像对应的基准识别结果，将所述第一样本图像和对应的基准识别结果，确定为待训练的第二图像识别模型的训练样本数据；

如果所述第一预测识别结果不满足确定性条件，则获取对所述第一样本图像标定得到的基准识别结果，将所述第一样本图像和标定得到的基准识别结果，确定为所述待训练的第二图像识别模型的训练样本数据。

在一种可能的实现方式中，所述第一预测识别结果包括预测对象类型信息，所述基准识别结果包括基准对象类型信息。

在一种可能的实现方式中，所述预测对象类型信息包括多种类型对应的置信度，所述确定性条件包括所述预测对象类型信息中存在大于阈值的置信度。

在一种可能的实现方式中，所述方法还包括：

在所述待训练的第二图像识别模型的训练样本数据中，获取任一样本图像和对应的基准识别结果；

对所述任一样本图像进行用于增加图像识别难度的变化处理，得到第二样本图像，基于所述任一样本图像对应的基准识别结果，确定所述第二样本图像对应的基准识别结果，将所述第二样本图像和对应的基准识别结果，确定为所述待训练的第二图像识别模型的训练样本数据。

在一种可能的实现方式中，所述变化处理包括对象位移处理、缩放处理、加噪处理、更换背景图像处理、降低对比度处理、旋转处理中的至少一种处理。

在一种可能的实现方式中，所述在所述待训练的第二图像识别模型的训练样本数据中，获取任一样本图像和对应的基准识别结果之前，所述方法还包括：

获取所述训练样本数据中对应的预测识别结果不满足确定性条件的样本图像的属性信息；确定每个属性信息所属的属性分类，确定包含属性信息的数量在所有属性信息中所占比例超过比例阈值的目标属性分类；基于属性分类与用于增加图像识别难度的图像变化方式的对应关系，确定所述目标属性分类对应的目标图像变化方式；

所述对所述任一样本图像进行用于增加图像识别难度的变化处理，得到第二样本图像，包括：

基于所述目标图像变化方式，对所述任一样本图像进行变化处理，得到第二样本图像。

在一种可能的实现方式中，所述第一样本图像是样本视频的视频帧；

所述方法还包括：

基于所述训练样本数据对所述待训练的第二图像识别模型进行训练；

将目标视频的视频帧输入经过训练的第二图像识别模型，得到第二预测识别结果。

第二方面，提供了一种确定训练样本数据的装置，所述装置包括：

识别模块，用于基于经过训练的第一图像识别模型，对第一样本图像进行图像识别，得到所述第一样本图像对应的第一预测识别结果；

确定模块，用于如果所述第一预测识别结果满足确定性条件，则将所述第一预测识别结果确定为所述第一样本图像对应的基准识别结果，将所述第一样本图像和对应的基准识别结果，确定为待训练的第二图像识别模型的训练样本数据；如果所述第一预测识别结果不满足确定性条件，则获取对所述第一样本图像标定得到的基准识别结果，将所述第一样本图像和标定得到的基准识别结果，确定为所述待训练的第二图像识别模型的训练样本数据。

在一种可能的实现方式中，所述确定模块，还用于：

所述确定模块，用于：

在一种可能的实现方式中，所述第一样本图像是样本视频的视频帧，所述装置还包括：

训练模块，用于基于所述训练样本数据对所述待训练的第二图像识别模型进行训练；

应用模块，用于将目标视频的视频帧输入经过训练的第二图像识别模型，得到第二预测识别结果。

第三方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，存储器用于存储计算机指令，处理器用于执行存储器存储的计算机指令，以使计算机设备执行第一方面及其可能的实现方式的方法。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序代码，当计算机程序代码被计算机设备执行时，计算机设备执行第一方面及其可能的实现方式的方法。

第五方面，提供了一种计算机程序产品，计算机程序产品包括计算机程序代码，在计算机程序代码被计算机设备执行时，计算机设备执行第一方面及其可能的实现方式的方法。

本申请实施例中，可以选用符合待训练的第二图像识别模型的使用场景的图像特点的图像，作为样本图像，先用已有的第一图像识别模型对样本图像进行识别，如果识别结果准确，则将样本图像和识别结果作为第二图像识别模型的训练样本数据，如果结果不够准确，则进行人工标定，将标定的识别结果和样本图像作为第二图像识别模型的训练样本数据。这样，即使经过训练的第一图像识别模型和待训练的第二图像识别模型对应的使用场景不同(例如，第一图像识别模型是针对静态图片，第二图像识别模型是针对视频帧)，通过上述方法也可以对第一图像识别模型不能准确识别的样本图像进行准别标定，进而得到大量的训练样本数据，而且这些训练样本数据中的样本图像都可以使用符合第二图像识别模型的使用场景的图像特点的图像，从而可以较为准确的对第二图像识别模型进行训练，提高第二图像识别模型的识别结果准确度。而且，这样确定训练样本数据，无需对每个样本图像都进行人工标定，节省了大量的人力，而且提高了效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种RCNN模型的处理示意图；

图2是本申请实施例提供的一种DCN模型的处理示意图；

图3是本申请实施例提供的一种图像识别的实际应用示意图；

图4本申请实施例提供的一种图像识别的实际应用示意图；

图5是本申请实施例提供的一种计算机设备的结构示意图；

图6是本申请实施例提供的一种确定训练样本数据的方法的流程示意图；

图7是本申请实施例提供的一种人工标定的示意图；

图8是本申请实施例提供的一种扩充训练样本数据集的方法的流程示意图；

图9是本申请实施例提供的一种将样本图像均分为四个区域的示意图；

图10是本申请实施例提供的一种对样本图像进行对象平移的示意图；

图11是本申请实施例提供的一种对样本图像进行对象缩放的示意图；

图12是本申请实施例提供的一种图像识别的实际应用示意图；

图13是本申请实施例提供的一种图像识别的实际应用示意图；

图14是本申请实施例提供的一种确定训练样本数据的装置的结构示意图；

图15是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供的一种确定训练样本数据的方法属于人工智能领域中的计算机视觉技术。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

下面对实施例中涉及到的名词进行解释：

图像识别模型：对输入图像中的物体进行识别得到识别结果的算法模型，是一种机器学习模型，如区域卷积神经网络(Region Convolutional Neural Network，RCNN)模型、快速(Fast)区域卷积神经网络模型、级联(Cascade)区域卷积神经网络模型、深度交叉网络(Deep&Cross Network，DCN)模型等。识别结果可以包括物体类型、物体在图像中的位置等。

图1是RCNN模型的处理示意图。将一张样本图像输入RCNN模型，模型通过区域建议算法产生一系列的候选目标区域，其中，区域建议算法可以是选择性搜索(SelectiveSearch)。然后提取这些目标区域提取卷积神经网络(Convolutional Neural Network，CNN)特征，并训练支持向量机(Support Vector Machine,SVM)分类这些特征。最后在分类后的区域基础上进行边界框(BoundingBox)回归。

图2是DCN模型的处理示意图。

下文中所涉及的第一图像识别模型和第二图像识别模型可以是针对不同特点的图像进行物体识别的模型，他们具有同类型的识别结果，例如，他们的输出都包括物体类型和物体在图像中的位置。

例如，第一图像识别模型是针对静态图片进行物体识别的模型，第二图像识别模型是针对视频帧进行物体识别的模型。静态图片和视频帧的图像特点具有鲜明的差别。

预测识别结果：模型直接输出的识别结果。例如，将图像输入模型，输出得到的可以是预测对象类型信息。

预测识别结果可以包括预测对象类型信息。预测识别结果还可以包括预测对象位置信息，如果图像中有多个对象，则预测识别结果可以包括每个对象对应的预测对象位置信息和预测对象类型信息。

基准识别结果：在训练模型的过程中，用于与模型输出的识别结果进行对比的参考值(或称真值)。基准识别结果可以包括基准对象类型信息，基准对象类型信息包括多种类型对应的置信度，置信度是概率值。基准识别结果还可以包括基准对象位置信息，如果图像中有多个对象，则基准识别结果可以包括每个对象对应的基准对象位置信息和基准对象类型信息。

训练样本数据：是由样本图像和基准识别结果组成的数据，可以用于完成对模型的一次训练调参。

对象类型信息：对象即图像中物体，对象类型信息是用于直接或间接体现图像中的物体所属类型的信息。对象类型信息可以是一个向量，向量的每一位对应一个对象类型，向量每一位上的数值代表模型输入的图像中具有相应对象类型的物体的概率。例如，对象类型信息是(0.8、0.1、0.1)，向量的第一位对应汽车、向量的第二位对应手机、向量的第三位对应打火机，则模型输入的图像中包含汽车的概率为0.8，包含手机的概率为0.1，包含打火机的概率为0.1。

本申请实施例应用的场景主要是用户在短视频平台上输入商品名称搜寻包含有该商品的短视频。首先，服务器需要使用图像识别模型，对全视频库中的短视频的视频帧进行识别，确定其中涉及的物品类型，进而记录相应的物品类型标签。对于新加入视频库的短视频，同样采取上述做法，记录相应的物品类型标签。这样，服务器将识别得到的物品类型标签与相应的短视频对应存储，生成物品类型标签与短视频对应关系表。然后，当用户在终端上的短视频应用程序中输入商品名称，比如“口红”，终端向服务器发送请求消息，其中，请求消息的功能是请求获取包含“口红”标签的短视频。服务器接收请求，并从存储的物品类型标签与短视频对应关系表中，获取相应的包含有“口红”标签的短视频，并将包含有一个或多个“口红”标签的短视频的列表发送给终端，列表中包括一个或多个短视频的选项。终端显示列表，用户可以在其中进行选择，点击相应短视频的选项，进而触发终端向服务器获取对应的短视频进行显示。如图3、图4所示，是用户在搜索“服装”后，向用户推荐的视频。

基于上述应用场景，在训练图像识别模型的过程中需要大量的训练样本数据，本申请实施例提供了一种确定训练样本数据的方法，该方法可以由计算机设备实现。该计算机设备可以是服务器等。服务器可以是一个单独的服务器，也可以是多个服务器组成的服务器组。

图5是本申请实施例提供的一种计算机设备的结构示意图，从硬件组成上来看，计算机设备500的结构可以如图5所示，包括处理器510、存储器520。

处理器510可以是中央处理器(central processing unit，CPU)或***级芯片(system on chip，SoC)等，处理器510可以用于基于经过训练的第一图像识别模型，对第一样本图像进行图像识别，可以用于判断第一预测识别结果是否满足确定性条件，还可以用于将第一样本图像和对应的基准识别结果确定为待训练的第二图像识别模型的训练样本数据，还可以用于将第一样本图像和标定得到的基准识别结果，确定为所述待训练的第二图像识别模型的训练样本数据等等。

存储器520可以包括各种易失性存储器或非易失性存储器，如固态硬盘(solidstate disk，SSD)、动态随机存取存储器(dynamic random access memory，DRAM)内存等。存储器520可以用于缓存图像识别模型识别样本图像处理过程中的预存数据、中间数据和结果数据，例如，第一样本图像对应的第一预测识别结果，第一样本图像对应的基准识别结果，第一样本图像标定得到的基准识别结果，待训练的第二图像识别模型的训练样本数据等等。

除了处理器510、存储器520，计算机设备500还可以包括通信部件530。

通信部件530可以是有线网络连接器、无线保真(wireless fidelity，WiFi)模块、蓝牙模块、蜂巢网通信模块等。通信部件530可以用于与其他设备进行数据传输，其他设备可以是服务器、也可以是终端等。例如，可以是服务器将不满足确定性条件的第一样本图像发送给终端，还可以是服务器根据接收到的位置信息和标签信息生成对象类型信息。

另外，本申请实施例中所涉及的终端或用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。

本申请实施例提供了一种确定训练样本数据的方法，参见图6，该方法的处理流程可以包括如下步骤：

601，基于经过训练的第一图像识别模型，对第一样本图像进行图像识别，得到第一样本图像对应的第一预测识别结果。

第一样本图像可以是视频帧，很可能具有清晰度较低、背景复杂、主体在图像中的位置较偏、主体过大或过小等的特点，是对图像识别模型来说识别难度大的图像，可以从包含商品图像的短视频的视频帧中获得。

例如，从全库视频号内容中随机的抽取一个高播放量的短视频，比如抽取得到一个播放量为100万、包含商品图片的短视频，然后获得该短视频的全部视频帧，也可以按照一定的时间间隔，抽取该短视频的视频帧，比如每隔1s提取一帧，这样，就得到了一个视频帧集，即为第一样本图像。

第一图像识别模型可以是RCNN模型、FastRCNN模型、Cascade RCNN模型等。通过静态的、目标明确的、清晰度高的、背景简单的图像训练图像识别模型，得到经过训练的第一图像识别模型。也就是说，这个模型可以不是特别针对视频帧进行图像识别的图像识别模型，该模型所针对图像除了上述特点的图片还可以是其他类型的图片，如卡通图片等。

第一预测识别结果，是将第一样本图像输入第一图像识别模型后，第一图像识别模型直接输出的识别结果。输出得到的识别结果可以包括预测对象类型信息，其中，预测对象类型信息是用于直接或间接体现第一样本图像中的物体可能所属类型的信息，预测对象类型信息包括第一样本图像中多种类型对应的置信度，置信度是概率值，是用来说明第一样本图像中具有相应的对象类型的可能性。

本申请实施例中，将第一样本图像输入第一图像识别模型，输出得到的预测对象类型信息可以是一个向量，向量的每一位对应一个对象类型，向量每一位上的数值代表模型输入的图像中具有相应对象类型的物体的概率(置信度)。比如预测对象类型信息是(0.7、0.2、0.1)，向量的第一位对应汽车、向量的第二位对应手机、向量的第三位对应打火机，则模型输入的图像中包含汽车的概率为0.7，包含手机的概率为0.2，包含打火机的概率为0.1。

第一预测识别结果还可以包括预测对象位置信息，例如可以是物品在图像中的外接矩形的四顶点坐标。如果图像中有多个对象，则预测识别结果可以包括每个对象对应的预测对象位置信息和预测对象类型信息。

602：如果第一预测识别结果满足确定性条件，则将第一预测识别结果确定为第一样本图像对应的基准识别结果，将第一样本图像和对应的基准识别结果，确定为待训练的第二图像识别模型的训练样本数据。

603：如果第一预测识别结果不满足确定性条件，则获取对第一样本图像标定得到的基准识别结果，将第一样本图像和标定得到的基准识别结果，确定为待训练的第二图像识别模型的训练样本数据。

确定性条件，该条件用于确定模型是否能对样本图像识别出一个较为确定的物体类型。预测识别结果满足确定性条件，说明图像识别模型对识别结果是比较确定的，预测识别结果不满足确定性条件，说明图像识别模型对识别结果不是很确定。在第一预测识别结果是预测对象类型信息，且预测对象类型信息包括多种类型的置信度的情况下，确定性条件包括预测对象类型信息中存在大于阈值的置信度。图像识别模型识别得到的预测对象类型信息中，如果某对象类型对应的置信度很高(超过阈值)，则说明图像识别模型能够较为肯定的所输入的图像的对象类型，如果所有对象类型对应的置信度都不高，则说明图像识别模型对所输入的图像的对象类型不是很肯定。

技术人员可以基于实际需求的考虑设定阈值，例如阈值可以为0.6，则确定性条件为预测对象信息中存在大于0.6的概率值。

例如，第一样本图像中包含的对象类型有一辆轿车，预测对象类型信息是多维向量(a₁,a₂,……,a_n)，轿车对应在该向量的a₁位置，且向量第一位代表了“轿车”的概率值(置信度)。

比如第一样本图像对应的预测对象类型信息是(0.8，0.1，0.05，0.05)，该向量的含义是第一样本图像包含轿车的概率是0.8，且包含其他对象类型的概率为分别为0.1，0.05，0.05。此时，预测对象类型信息中包括置信度0.8大于阈值0.6，说明第一图像识别模型对输入图像的对象类型是比较肯定的。这样可以认为第一图像识别模型识别的识别结果就是确定的，即第一预测识别结果满足确定性条件。

再比如只包含轿车的第一样本图像对应的预测对象类型信息是(0.3，0.2，0.25，0.25)。此时，预测对象类型信息中包括的置信度均小于阈值0.6，说明第一图像识别模型对输入图像的对象类型不是很肯定。这样可以认为第一图像识别模型识别的识别结果就是不确定的，即第一预测识别结果不满足确定性条件。

如果第一预测识别结果满足确定性条件，第一样本图像对应的基准识别结果，就是第一样本图像对应的第一预测识别结果；相应的，基准对象类型信息包括的第一样本图像中一种或多种类型对应的置信度，就是预测对象类型信息包括的第一样本图像中一种或多种类型对应的置信度。例如，第一样本图像对应的第一预测识别结果满足确定性条件，第一图像识别模型输出的预测对象类型信息是(0.8，0.7，0.65)，则基准对象类型信息也是(0.8，0.7，0.65)。

如果第一预测识别结果不满足确定性条件，服务器将不满足确定性条件的第一样本图像发送给终端，终端可以是电脑、平板、手机等。以电脑为例，技术人员打开终端上的标定应用程序，在标定应用程序上显示该第一样本图像，技术人员用鼠标框选第一样本图像中的对象，终端则可以获取位置信息。进一步，技术人员还可以为每个框选的对象输入类型信息。最终得到标定信息，标定信息由位置信息和类型信息组成。然后终端可以将标定信息发送至服务器。服务器可以基于位置信息确定基准对象位置信息，并基于类型信息确定基准对象类型信息，得到基准识别结果。图7提供了一种人工标定的示意图。

下面结合一个较为简单的例子进行说明：

第一样本图像中包含的对象有一辆卡车，对于卡车，技术人员在图像中点击卡车的左上角划到右下角，标定应用程序显示一个框，将卡车框出来，得到卡车的在第一图像识别模型中的位置信息，可以是左端坐标、顶端坐标、宽、高。此时，在框的上方自动弹出对象类型选择列表，其中包括多个预设的类型信息，技术人员选中预设类型信息中的“卡车”，即类型信息。技术人员点击保存，终端则获取到相应的标定信息。终端将标定信息发送至服务器。服务器可以直接将左端坐标、顶端坐标、宽、高作为基准对象位置信息。另外，基于类型信息“卡车”可以生成基准对象类型信息，基准对象类型信息可以为(0，1，0)，该向量的第一位对应轿车、第二位对应卡车、第三位对应公交车。

本申请实施例还提供了一种扩充训练样本数据集的方法。

训练图像识别模型时，使用的样本数据越多，训练后的图像识别模型检测图像的准确率就越高。对于第一样本图像而言，经过训练好的第一图像识别模型识别后，只有少量的样本图像的识别结果不满足确定性条件，这些识别结果不满足确定性条件的样本图像可以认为是识别难度较高的样本图像。更多识别难度较高的样本图像是更有利于提高模型的准确度的，为了获得更多识别难度较高的样本图像，需要考虑使用下面这种扩充训练样本数据集的方法。

参见图8，扩充训练样本数据集的方法包括如下步骤：

801，获取训练样本数据中对应的预测识别结果不满足确定性条件的样本图像的属性信息。

可以预先设置一种或多种属性项，属性项可以包括位置信息、背景复杂度、对象面积占比、清晰度、对象角度中的一种或多种。可以针对每个设定的属性项，获取样本图像的属性信息。

属性项是位置信息。属性信息的获取过程可以是：获取目标对象中心点坐标所在区域的坐标作为目标对象的位置信息。

属性项是背景复杂度。属性信息的获取过程可以是：可以先确定样本图像的对象位置信息，进而可以确定对象之外的图像区域，即背景区域，获取背景区域中各像素点的像素值，每个像素值包括多个色彩通道(如R、G、B)的分量值。对于每个色彩通道，可以计算各像素点在该色彩通道下的分量值的方差。将每个色彩通道对应的方差相加，得到总方差，作为样本图像的属性信息。

属性项是对象面积占比。属性信息的获取过程可以是：获取目标对象的四顶点坐标，并计算面积，与图像面积做商，得到一个0到1的之间的值。

属性项是清晰度。属性信息的获取过程可以是：可以使用各种清晰度算法对样本图像进行清晰度检测，得到清晰度的取值，作为样本图像的属性信息。

属性项是对象角度。属性信息的获取过程可以是：可以使用对象角度检测模型来检测样本图像中对象的角度值，作为样本图像的属性信息。对象角度检测模型可以是机器学习模型。

802，确定每个属性信息所属的属性分类。

属性项是位置信息。确定属性分类的处理可以如下：如图9，按照四宫格的形式将样本图像均分为四个区域，获取四个区域的四顶点坐标，将四宫格从左到右、从上到下分别标记为1号、2号、3号、4号区域。可以将对象中心坐标所在的区域确定为对应的属性分类。

属性项是背景复杂度。确定属性分类的处理可以如下：可以由技术人员设置阈值η，判断色彩通道(如R、G、B)对应总方差值是否大于阈值η，将大于阈值η确定为高背景复杂度，将小于等于阈值X确定为低背景复杂度。高背景复杂度和低背景复杂度即为属性分类。

属性项是对象面积占比。确定属性分类的处理可以如下：可以由技术人员设置0至0.33为低占比，设置0.33-0.66为中占比，设置0.66-1为高占比。低占比、中占比和高占比即为属性分类。

属性项是清晰度。确定属性分类的处理可以如下：可以由技术人员设置清晰度阈值，将小于等于清晰度阈值的记为低清晰度，将大于清晰度阈值的作为高清晰度。低清晰度和高清晰度即为属性分类。

属性项是对象角度。确定属性分类的处理可以如下：可以由技术人员设置基准角度为180度，将对象角度在0度-180度(包括0度，不包括180度)记为一个属性分类，180度-360度(包括180度，不包括360度)记为一个属性分类。

803，确定包含属性信息的数量在所有属性信息中所占比例超过比例阈值的目标属性分类。

上述提到了多种属性项，本步骤可以对一个或多个属性项进行处理。这里以一个属性项为例说明处理过程。

对于该属性项，在训练样本数据中对应的预测识别结果不满足确定性条件的多个样本图像中，确定该属性项的每种属性分类对应的样本图像的数量与此多个样本图像的数量的比值，得到比例。在每个属性分类对应的比例中确定大于比例阈值的目标属性分类。

同样的，对于每一个属性项都按照上述方法，最终得到每一个属性项对应的目标属性分类。

比如，考虑属性项为对象面积占比的情况，预先设定比例阈值为0.5，不满足确定性条件的样本图像有100张，其中，高占比、中占比、低占比分别为60张、30张、10张，对应的比例值为0.6、0.3、0.1，可见，高占比对应的比例值0.6大于0.5，则确定属性项为对象面积占比对应的目标属性分类为高占比。

804，基于属性分类与用于增加图像识别难度的图像变化方式的对应关系，确定目标属性分类对应的目标图像变化方式。

其中，变化处理包括对象位移处理、缩放处理、加噪处理、更换背景图像处理、降低对比度处理、旋转处理等中的至少一种处理。

服务器预先存储对每个属性分类与图像变化方式的对应关系表，如表1：

表1

属性项	图像变化方式
		位置信息	对象平移处理
背景复杂度	更换背景图像处理
		对象面积占比	对象缩放处理
清晰度	加噪处理或降低对比度处理
		对象角度	旋转处理

对象平移处理可以如图10所示，对象缩放处理可以如图11所示。

对于属性项是位置信息的情况，每种类型对应的图像变化方式可以如表2：

表2

对于属性项是背景复杂度的情况，每种类型对应的图像变化方式可以如表3：

表3

背景复杂度属性分类	图像变化方式
		高	提升背景复杂度
低	降低背景复杂度

提升背景复杂度的处理可以是：对于一些与平均像素值的差值较小像素值，调大其与平均像素值的差值。提升背景复杂度的处理可以是：对于一些与平均像素值的差值较大像素值，调小其与平均像素值的差值。

对于属性项是对象面积占比的情况，每种类型对应的图像变化方式可以如表4：

表4

对象面积占比属性分类	图像变化方式
		高占比	放大对象至原来的1.5倍
低占比	缩小对象至原来的0.5倍

对于属性项是清晰度的情况，每种类型对应的图像变化方式可以如表5：

表5

清晰度属性分类	图像变化方式
		低	降低至原清晰度的1/2

具体使用哪个或哪几个属性项的属性信息可以由技术人员预先设置。如果设置了多个属性项，每个属性项对应一个目标图像变化方式。

805，在待训练的第二图像识别模型的训练样本数据中，获取任一样本图像和对应的基准识别结果。

经过前面实施例中获取训练样本数据的处理，可以得到大量的第二图像识别模型的训练样本数据，得到训练样本数据集。

此时可以在训练样本数据集中任意选取训练样本数据，获取其中的样本图像和基准识别结果。

或者也可以只在训练样本数据集中获取对应的第一预测识别结果满足确定性条件的样本图像和其对应的基准识别结果。这种样本图像经过上述变化处理后更容易得到识别难度高的样本图像。

806，基于目标图像变化方式，对获取的样本图像进行变化处理，得到第二样本图像。

上述处理中，如果只使用一个属性项，则确定出一种目标图像变化方式。使用该目标图像变化方式，对获取的样本图像进行变化处理，能够得到一个第二样本图像。

上述处理中，如果使用了多种属性项，则确定出每种属性项对应的目标图像变化方式，也即得到多种目标图像变化方式，可以在此多种目标图像变化方式中任意选择一种或多种目标图像变化方式，对获取的样本图像进行变化处理，能够得到多个第二样本图像。例如，经过上述处理得到了A、B、C三种目标图像变化方式，可以基于A变化方式对获取的样本图像进行处理得到一个第二样本图像，可以基于A和B两种变化方式对获取的样本图像进行处理又得到一个第二样本图像，等等。

807，基于获取的样本图像对应的第一基准识别结果，确定第二样本图像对应的第二基准识别结果。

对于某些情况，可以直接将获取的样本图像对应的第一基准识别结果，确定为第二样本图像对应的第二基准识别结果。

对于某些情况，可以基于目标图像变化方式和获取的样本图像对应的第一基准识别结果，确定第二样本图像对应的第二基准识别结果。

比如，得到第二样本图像，所采用的目标图像变化方式为更换背景图像处理、加噪处理、降低对比度处理中的至少一种时，第一基准识别结果中的第一基准对象类型信息和(或)第一基准对象位置信息不会发生变化。所以可以直接将获取的样本图像对应的第一基准识别结果，确定为第二样本图像对应的第二基准识别结果。

比如，得到第二样本图像，所采用的目标图像变化方式为对象平移处理、缩放处理、旋转处理时，第一基准识别结果中的第一基准对象类型信息不会变化，而第一基准对象位置信息发生变化，则基于目标图像变化方式和第一基准对象位置信息确定第二基准对象位置信息，将第一基准对象类型信息和第二基准对象位置信息组成第二样本图像对应的第二基准识别结果。

808，将第二样本图像和对应的基准识别结果，确定为待训练的第二图像识别模型的训练样本数据。

本申请实施例中，在确定了一定数量的训练样本数据后，可以基于训练样本数据对待训练的第二图像识别模型进行训练。

对第二图像识别模型的训练过程可以如下：

首先，获取一定数量的训练样本数据，每个训练样本数据中可以包括样本图像和基准识别结果。训练的过程可以是迭代训练，将第一个训练样本数据中的样本图像输入到待训练的第二图像识别模型中，得到预测识别结果，将预测识别结果与基准识别结果进行对比，得到损失值，根据损失值对待训练的第二图像识别模型中的参数进行调整。

然后再根据第二个训练样本数据对模型进行训练，重复上述训练过程，直至满足训练结束条件。训练结束条件可以是达到指定的训练次数，或者是使用一定数量的图像验证模型的识别结果准确率超过准确率阈值，等等。将此时得到的第二图像识别模型确定为训练完成的第二图像识别模型。

本申请实施例中，第二图像识别模型可以是DCN模型，该模型能够自适应改变卷积核参数，可以对不同大小物体、物体形变等特点的图像有更准确的识别率，即对于识别难度大的图像有着更强的适应能力，可见，训练完成的DCN模型将对视频图像识别这种复杂场景有着更高的图像识别准确率。

表T示出了经过上述方法训练后的第二图像识别模型与原有的已经训练好的第一图像识别模型的实验数据对比。第二图像识别模型可以认为是针对视频帧进行图像识别的模型，第一图像识别模型可以认为是针对静态图像进行图像识别的模型。

表T

优化	mAP	AP50	AP75	mAR
					CascadeRCNN	0.868	0.963	0.911	0.9
+Augmentation	0.89	0.972	0.934	0.932

CascadeRCNN对应的mAP、AP50、AP75、mAR值是第一图像识别模型的实验数据。数据增强(+Augmentation)对应的mAP、AP50、AP75、mAR值是第二图像识别模型的实验数据。

下面对表头中的参数进行说明：

均值平均精确率(Mean Average Precision，mAP)：用于表示对象类型识别的准确度。

平均精确率(Average Precision，AP)50：预测对象位置信息和基准对象位置信息的交并比大于50则认为识别准确，在这种情况下，对象位置识别的准确率。

平均精确率(Average Precision，AP)75：预测对象位置信息和基准对象位置信息的交并比大于75则认为识别准确，在这种情况下，对象位置识别的准确率。

均值平均召回率(Mean Average Recall，mAR)：用于表示对象类型识别的召回率。

本申请实施例中，在对第二图像识别模型训练完毕后，可以使用第二图像识别模型对数据库中的视频进行图像识别，相应的处理可以是：将目标视频的视频帧输入经过训练的第二图像识别模型，得到第二预测识别结果。

获取数据库中的全部视频或符合指定条件(如具有商品链接)的视频作为目标视频。然后对于每个目标视频，获取目标视频的全部视频帧，或者，也可以按照一定的时间间隔抽取目标视频的视频帧，例如，每隔1s提取一帧。这样，对应每个目标视频，就得到了一个视频帧集。将该视频帧集中的每个视频帧分别输入经过训练的第二图像识别模型，得到该视频帧集对应的第二预测识别结果，第二预测识别结果可以包含预测对象类型信息，还可以包括预测对象位置信息等。

以第二预测识别结果包括预测对象类型信息为例，介绍一下服务器后续可能进行的处理。在某个目标视频中，对于一个物体类型，如果包含该物体类型的视频帧数量在所有视频帧中所占比例超过比例阈值，则为该目标视频添加该物体类型的标签，如果包含该物体类型的视频帧数量在所有视频帧中所占比例不超过比例阈值，则不记录该物体的类型标签。该比例阈值可以由技术人员基于经验设置。比如，比例阈值设定为10％，一个短视频共得到1000个视频帧，经过图像模型识别后，仅有90个视频帧包含打火机，则包含打火机的视频帧数量在所有视频帧中所占比例为9％，没有超过比例阈值10％，则不记录打火机的类型标签。

按照此方法，给数据库中全部视频或符合指定条件(如具有商品链接)的视频均添加相应的物体类型的标签，对于新加入数据库的视频，采取与上述相同的做法，添加相应的物体类型的标签。这样，服务器将识别得到的物体类型标签与对应的视频对应存储，生成物体类型标签与视频对应关系表。

图12和图13给出了第一图像识别模型和第二图像识别模型对视频帧进行图像识别的效果对比。图12左图是第一图像识别模型的识别结果，右图是第二图像识别模型的识别结果，相比之下，被遮挡住的T恤衫未被第一图像识别模型识别到，而第二图像识别模型可以识别出来。图13左图是第一图像识别模型的识别结果，右图是第二图像识别模型的识别结果，相比之下，在图中占比过大的貂皮大衣未被第一图像识别模型识别到，而第二图像识别模型可以识别出来。

图14是本申请实施例提供的一种确定训练样本数据的装置，所述装置包括：

识别模块1401，用于基于经过训练的第一图像识别模型，对第一样本图像进行图像识别，得到所述第一样本图像对应的第一预测识别结果；

确定模块1402，用于如果所述第一预测识别结果满足确定性条件，则将所述第一预测识别结果确定为所述第一样本图像对应的基准识别结果，将所述第一样本图像和对应的基准识别结果，确定为待训练的第二图像识别模型的训练样本数据；如果所述第一预测识别结果不满足确定性条件，则获取对所述第一样本图像标定得到的基准识别结果，将所述第一样本图像和标定得到的基准识别结果，确定为所述待训练的第二图像识别模型的训练样本数据。

在一种可能的实现方式中，所述确定模块，还用于：

训练模块1403，用于基于所述训练样本数据对所述待训练的第二图像识别模型进行训练；

应用模块1404，用于将目标视频的视频帧输入经过训练的第二图像识别模型，得到第二预测识别结果。

需要说明的是：上述实施例提供的确定训练样本数据的装置在进行确定训练样本数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的确定训练样本数据的装置与确定训练样本数据的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图15是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)1501和一个或一个以上的存储器1502，其中，存储器902中存储有至少一条指令，至少一条指令由处理器1501加载并执行以实现上述各个方法实施例提供的方法。当然，该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中……的方法。该计算机可读存储介质可以是非暂态的。例如，计算机可读存储介质可以是ROM(read-only memory，只读存储器)、RAM(random access memory，随机存取存储器)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种确定训练样本数据的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一预测识别结果包括预测对象类型信息，所述基准识别结果包括基准对象类型信息。

3.根据权利要求2所述的方法，其特征在于，所述预测对象类型信息包括多种类型对应的置信度，所述确定性条件包括所述预测对象类型信息中存在大于阈值的置信度。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述变化处理包括对象位移处理、缩放处理、加噪处理、更换背景图像处理、降低对比度处理、旋转处理中的至少一种处理。

6.根据权利要求4所述的方法，其特征在于，所述在所述待训练的第二图像识别模型的训练样本数据中，获取任一样本图像和对应的基准识别结果之前，所述方法还包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述第一样本图像是样本视频的视频帧；

所述方法还包括：

8.一种确定训练样本数据的装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至权利要求7任一项所述的确定训练样本数据的方法所执行的操作。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的确定训练样本数据的方法所执行的操作。