CN111552837A

CN111552837A - 基于深度学习的动物视频标签自动生成方法、终端及介质

Info

Publication number: CN111552837A
Application number: CN202010382574.5A
Authority: CN
Inventors: 刘露; 蔺昊
Original assignee: Shenzhen Inveno Technology Co ltd
Current assignee: Shenzhen Inveno Technology Co ltd
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2020-08-18

Abstract

本发明提供的一种基于深度学习的动物视频标签自动生成方法、终端及介质，方法包括以下步骤：抽取待检测视频中若干个关键帧图像，将所述关键帧图像输入到特征提取模型中；将特征提取模型输出的特征信息输入到训练好的目标检测算法模型中；记录目标检测算法模型输出的目标物体在待检测视频中的位置和类别，定义目标物体的类别为待检测视频的动物标签。该方法提高了识别效率和识别准确性。

Description

基于深度学习的动物视频标签自动生成方法、终端及介质

技术领域

本发明属于视频标签技术领域，具体涉及基于深度学习的动物视频标签自动生成方法、终端及介质。

背景技术

动物视频标签自动生成***是检测视频中是否有动物，以及动物是什么，从而给视频生成标签。现有动物视频标签自动生成***中常用的方法包括基于帧间差分法和传统计算机视觉图像处理方法。

参见图1、2，基于帧间差分法是通过对视频相邻帧或相隔几帧图像的两幅图像像素值做差分，得到两帧图像亮度差的绝对值，然后进行阈值化来提取图像中的运动区域，从而推断出视频中出现的动物区域。该方法逻辑简单，处理速度快。但是不能用于运动的摄像头中，也不能用于识别静止或运动速度很慢或非常快的目标，而且如果目标动物表面有大面积灰度值相似的情况下，识别效果也不好。更重要的是，这种方法只能用于识别视频中是否有动物，但并不能识别出动物具体是什么，甚至不能保证识别结果的正确性，因此这种方法使用场景的局限性较大。

参见图3、4、5，传统计算机视觉图像处理方法需要在训练数据集中对每种动物人工设计特征，然后再利用提取的特征训练分类器识别。由于在视频帧中检测动物需要先定位动物在视频帧图像的位置，然后再识别动物的类别。因此识别模型中除了要有分类功能，还需要有定位功能。在训练的时候，为了让最后训练得到的模型能够适应不同尺度的图片，会先按不同长宽比将图片缩放成多张图片，然后再采用不同尺度和长宽比的矩形框在图像中滑动的方法以遍历整幅图像，以这种穷举的策略来得到包含目标可能出现的位置区域。然后再对以上策略得到的每个位置区域的图像提取特征矩阵。最后将以上提取到的特征矩阵用于训练分类器。当模型训练好之后，实际应用时，需要以固定时间间隔抽取视频帧，然后使用模型对每帧图像识别图像中包含的动物类别。最后综合所有抽取到的视频帧的识别结果作为整个视频的识别结果。

传统计算机视觉图像处理方法虽然能够识别到视频中可能包含的动物类别。但是，滑动窗口的方式将会产生大量冗余窗口，并且还会增加后续特征提取和识别的负担，严重影响了处理效率。而且这种人工设计的特征提取模板提取到的特征矩阵的表达能力较弱，再加上分类器一般使用SVM或Adaboost之类的弱分类器，因此最后模型的识别准确率也很低。

发明内容

针对现有技术中的缺陷，本发明提供一种基于深度学习的动物视频标签自动生成方法、终端及介质，提高了识别效率和识别准确性。

第一方面，一种基于深度学习的动物视频标签自动生成方法，包括以下步骤：

抽取待检测视频中若干个关键帧图像，将所述关键帧图像输入到特征提取模型中；

将特征提取模型输出的特征信息输入到训练好的目标检测算法模型中；

记录目标检测算法模型输出的目标物体在待检测视频中的位置和类别，定义目标物体的类别为待检测视频的动物标签。

优选地，所述特征提取模型由卷积神经网络构成，并通过ImageNet分类数据集训练得到。

优选地，所述目标检测算法模型通过以下方法训练得到：

获取由多张训练图片构成的训练集，标注每张训练图片中物体的位置和类别；

基于TensorFlow框架编程实现目标检测算法；

利用所述训练集对所述目标检测算法进行训练；

保存训练好的目标检测算法为所述目标检测算法模型。

优选地，所述目标检测算法模型包括Faster RCNN算法模型。

优选地，所述抽取待检测视频中若干个关键帧图像，将所述关键帧图像输入到特征提取模型中具体包括：

以预设的时间间隔抽取待检测视频中若干个帧图像，利用感知哈希算法对抽取到的帧图像进行去重处理，以获得所述关键帧图像；

将所述关键帧图像输入到特征提取模型中。

优选地，所述目标检测算法模型包括YOLOv2算法模型。

按预设的时间间隔从待检测视频中抽取一帧图像；

利用感知哈希算法对新的帧图像与缓存的关键帧图像进行对比；如果对比结果小于预设的差异阈值时，丢弃新的帧图像；如果对比结果大于等于所述差异阈值时，定义新的帧图像为所述关键帧图像，将该关键帧图像输入到特征提取模型中；

缓存该关键帧图像。

优选地，所述记录目标检测算法模型输出的目标物体在待检测视频中的位置和类别，定义目标物体的类别为待检测视频的动物标签具体包括：

记录Faster RCNN算法模型或YOLOv2算法模型输出的每个关键帧图像中目标物体的位置和类别；

统计所有关键帧图像中每类动物出现的次数，按照降序排列方式对每类动物在待检测视频中出现的次数进行排序，以获得所述待检测视频的动物标签。

第二方面，一种终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行第一方面所述的方法。

第三方面，一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行第一方面所述的方法。

由上述技术方案可知，本发明提供的基于深度学习的动物视频标签自动生成方法、终端及介质，提高识别效率和识别准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为背景技术中提供的基于帧间差分法的动物视频检测方法的流程图。

图2为背景技术中提供的具体实施时，基于帧间差分法的动物视频检测方法的流程图。

图3为背景技术中提供的传统计算机视觉图像处理方法的流程图。

图4为背景技术中提供的传统计算机视觉图像处理方法中模型训练的方法流程图。

图5为背景技术中提供的传统计算机视觉图像处理方法中视频标签生成方法的流程图。

图6为本发明提供的动物视频标签自动生成方法的主要步骤。

图7为本发明提供的目标检测模型的训练方法流程图。

图8为本发明实施例二提供的Faster RCNN算法的标签生成***流程。

图9为本发明实施例二提供的YOLOv2算法的标签生成***流程。

图10为本发明实施例二提供的Faster RCNN算法的帧图像动物识别结果。

图11为本发明实施例二提供的YOLOv2算法的帧图像动物识别结果。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

实施例一：

一种基于深度学习的动物视频标签自动生成方法，参见图6，包括以下步骤：

具体地，本实施例提供的动物视频标签自动生成方法包括特征提取模型和目标检测模型。其中所述特征提取模型由卷积神经网络构成，并通过ImageNet分类数据集训练得到。特征提取模型用于提取待检测视频中关键帧图像的特征信息。目标检测模型包括***和分类器两个功能模块，***用来定位目标物体在关键帧图像中的位置，***输出目标物体的宽高、以及目标物体在关键帧图像中的坐标。分类器用于对***定位到的目标物体作分类，输出目标物体的类别。该基于深度学习的动物视频标签自动生成方法，提高识别效率和识别准确性。

实施例二：

实施例二在实施例一的基础上，进一步限定了目标检测模型的训练方法。

参见图7，所述目标检测模型通过以下方法训练得到：

基于TensorFlow框架编程实现目标检测算法；

利用所述训练集对所述目标检测算法进行训练；

保存训练好的目标检测算法为所述目标检测算法模型。

具体地，训练集中的训练图片可以根据具体用户的业务情况和使用情况确定。例如根据用户提供的业务中出现过的动物图片筛选出适当数量的图片，标注出动物在图片中的位置及其类别，将所有这些标注好的图片作为训练图片。该方法在训练过程中，还可以根据得到的位置和类别与训练图片的标注信息作对比，不断调整目标检测模型的参数，从而不断优化模型定位和分类能力。该方法在训练过程中会定期保存训练得到的目标检测模型，直到训练停止，取最优模型作为最终结果。以下给出两种目标检测模型的训练方法。

1、Faster RCNN算法。

所述目标检测模型包括基于tensorflow框架编写的Faster RCNN算法模型。参见图8，所述抽取待检测视频中若干个关键帧图像，将所述关键帧图像输入到特征提取模型中具体包括：

将所述关键帧图像输入到特征提取模型中。

具体地，该方法基于tensorflow框架编写Faster RCNN算法模型，再使用以上训练集训练Faster RCNN算法模型。Faster RCNN算法模型虽然识别精度准，但复杂度也较高，所以识别速度较慢，不能达到实时的效果。为此，该方法在使用Faster RCNN算法模型时，将以固定时间间隔抽取待检测视频中的帧图像，然后利用感知哈希算法对抽取到的帧图像做去重处理，只留下一系列差异较大的关键帧图像，再将关键帧图像的特征信息输入到FasterRCNN算法模型中，Faster RCNN算法模型输出每个关键帧图像中所有的动物类别及位置。

2、YOLOv2算法模型。

所述目标检测模型包括基于tensorflow框架编写的YOLOv2算法模型。参见图9，所述抽取待检测视频中若干个关键帧图像，将所述关键帧图像输入到特征提取模型中具体包括：

按预设的时间间隔从待检测视频中抽取一帧图像；；

缓存该关键帧图像。

具体地，该方法基于tensorflow框架编写的YOLOv2算法模型，再使用以上训练集训练YOLOv2算法模型。YOLOv2算法模型的特点是在保持与Faster RCNN算法模型相同的识别准确度的前提下，大幅提升了识别效率，达到40FPS—67FPS，能够满足视频实时处理的要求，并且还能够根据需要在准确度和速度间做调整。而在实际处理视频时，很多时候视频中相邻的帧图像不会有很大的差异，没有必要识别每一帧图像中的动物。为此，在实际应用中，该方法只需要缓存最近识别过的关键帧图像，然后利用感知哈希算法对最新帧图像与缓存的关键帧图像做对比，如果最新帧图像与缓存的关键帧图像差异很小，放弃对新帧图像的检测。如果差异较大，则使用YOLOv2算法模型定位新帧图像包含的动物及动物的类别。

具体地，该方法通过统计所有帧图像中每类动物出现的次数，按照每类动物在待检测视频中出现的次数降序排列，得到本视频中的动物标签。

图10为Faster RCNN算法模型的帧图像动物识别结果。图10中有两只狗，识别结果中根据模型定位得到的狗的坐标位置，并在坐标位置上画出两个方框，并根据分类结果给每个方框中的动物打上了标签，例如标出狗。具体实施时，不需要像图10一样标出方框和动物类别，只需要记录图像中的动物类别和每个类别动物有几只即可。图11为YOLOv2模型的帧图像动物识别结果。

本发明实施例所提供的方法，为简要描述，实施例部分未提及之处，可参考前述方法实施例中相应内容。

实施例三：

实施例三在上述实施例的基础上，提供了一种终端。

一种终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述的方法。

应当理解，在本发明实施例中，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等，输出设备可以包括显示器(LCD等)、扬声器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

本发明实施例所提供的终端，为简要描述，实施例部分未提及之处，可参考前述方法实施例中相应内容。

实施例四：

实施例四在在上述实施例的基础上，提供了一种介质。

一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述的方法。

所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元，例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本发明实施例所提供的介质，为简要描述，实施例部分未提及之处，可参考前述方法实施例中相应内容。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于深度学习的动物视频标签自动生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于深度学习的动物视频标签自动生成方法，其特征在于，

所述特征提取模型由卷积神经网络构成，并通过ImageNet分类数据集训练得到。

3.根据权利要求1所述基于深度学习的动物视频标签自动生成方法，其特征在于，所述目标检测算法模型通过以下方法训练得到：

基于TensorFlow框架编程实现目标检测算法；

利用所述训练集对所述目标检测算法进行训练；

保存训练好的目标检测算法为所述目标检测算法模型。

4.根据权利要求3所述基于深度学习的动物视频标签自动生成方法，其特征在于，

所述目标检测算法模型包括Faster RCNN算法模型。

5.根据权利要求4所述基于深度学习的动物视频标签自动生成方法，其特征在于，所述抽取待检测视频中若干个关键帧图像，将所述关键帧图像输入到特征提取模型中具体包括：

将所述关键帧图像输入到特征提取模型中。

6.根据权利要求3所述基于深度学习的动物视频标签自动生成方法，其特征在于，

所述目标检测算法模型包括YOLOv2算法模型。

7.根据权利要求6所述基于深度学习的动物视频标签自动生成方法，其特征在于，所述抽取待检测视频中若干个关键帧图像，将所述关键帧图像输入到特征提取模型中具体包括：

按预设的时间间隔从待检测视频中抽取一帧图像；

缓存该关键帧图像。

8.根据权利要求5或7所述基于深度学习的动物视频标签自动生成方法，其特征在于，所述记录目标检测算法模型输出的目标物体在待检测视频中的位置和类别，定义目标物体的类别为待检测视频的动物标签具体包括：

9.一种终端，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。