CN111552837A - 基于深度学习的动物视频标签自动生成方法、终端及介质 - Google Patents

基于深度学习的动物视频标签自动生成方法、终端及介质 Download PDF

Info

Publication number
CN111552837A
CN111552837A CN202010382574.5A CN202010382574A CN111552837A CN 111552837 A CN111552837 A CN 111552837A CN 202010382574 A CN202010382574 A CN 202010382574A CN 111552837 A CN111552837 A CN 111552837A
Authority
CN
China
Prior art keywords
video
key frame
animal
detected
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010382574.5A
Other languages
English (en)
Inventor
刘露
蔺昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Inveno Technology Co ltd
Original Assignee
Shenzhen Inveno Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Inveno Technology Co ltd filed Critical Shenzhen Inveno Technology Co ltd
Priority to CN202010382574.5A priority Critical patent/CN111552837A/zh
Publication of CN111552837A publication Critical patent/CN111552837A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供的一种基于深度学习的动物视频标签自动生成方法、终端及介质,方法包括以下步骤:抽取待检测视频中若干个关键帧图像,将所述关键帧图像输入到特征提取模型中;将特征提取模型输出的特征信息输入到训练好的目标检测算法模型中;记录目标检测算法模型输出的目标物体在待检测视频中的位置和类别,定义目标物体的类别为待检测视频的动物标签。该方法提高了识别效率和识别准确性。

Description

基于深度学习的动物视频标签自动生成方法、终端及介质
技术领域
本发明属于视频标签技术领域,具体涉及基于深度学习的动物视频标签自动生成方法、终端及介质。
背景技术
动物视频标签自动生成***是检测视频中是否有动物,以及动物是什么,从而给视频生成标签。现有动物视频标签自动生成***中常用的方法包括基于帧间差分法和传统计算机视觉图像处理方法。
参见图1、2,基于帧间差分法是通过对视频相邻帧或相隔几帧图像的两幅图像像素值做差分,得到两帧图像亮度差的绝对值,然后进行阈值化来提取图像中的运动区域,从而推断出视频中出现的动物区域。该方法逻辑简单,处理速度快。但是不能用于运动的摄像头中,也不能用于识别静止或运动速度很慢或非常快的目标,而且如果目标动物表面有大面积灰度值相似的情况下,识别效果也不好。更重要的是,这种方法只能用于识别视频中是否有动物,但并不能识别出动物具体是什么,甚至不能保证识别结果的正确性,因此这种方法使用场景的局限性较大。
参见图3、4、5,传统计算机视觉图像处理方法需要在训练数据集中对每种动物人工设计特征,然后再利用提取的特征训练分类器识别。由于在视频帧中检测动物需要先定位动物在视频帧图像的位置,然后再识别动物的类别。因此识别模型中除了要有分类功能,还需要有定位功能。在训练的时候,为了让最后训练得到的模型能够适应不同尺度的图片,会先按不同长宽比将图片缩放成多张图片,然后再采用不同尺度和长宽比的矩形框在图像中滑动的方法以遍历整幅图像,以这种穷举的策略来得到包含目标可能出现的位置区域。然后再对以上策略得到的每个位置区域的图像提取特征矩阵。最后将以上提取到的特征矩阵用于训练分类器。当模型训练好之后,实际应用时,需要以固定时间间隔抽取视频帧,然后使用模型对每帧图像识别图像中包含的动物类别。最后综合所有抽取到的视频帧的识别结果作为整个视频的识别结果。
传统计算机视觉图像处理方法虽然能够识别到视频中可能包含的动物类别。但是,滑动窗口的方式将会产生大量冗余窗口,并且还会增加后续特征提取和识别的负担,严重影响了处理效率。而且这种人工设计的特征提取模板提取到的特征矩阵的表达能力较弱,再加上分类器一般使用SVM或Adaboost之类的弱分类器,因此最后模型的识别准确率也很低。
发明内容
针对现有技术中的缺陷,本发明提供一种基于深度学习的动物视频标签自动生成方法、终端及介质,提高了识别效率和识别准确性。
第一方面,一种基于深度学习的动物视频标签自动生成方法,包括以下步骤:
抽取待检测视频中若干个关键帧图像,将所述关键帧图像输入到特征提取模型中;
将特征提取模型输出的特征信息输入到训练好的目标检测算法模型中;
记录目标检测算法模型输出的目标物体在待检测视频中的位置和类别,定义目标物体的类别为待检测视频的动物标签。
优选地,所述特征提取模型由卷积神经网络构成,并通过ImageNet分类数据集训练得到。
优选地,所述目标检测算法模型通过以下方法训练得到:
获取由多张训练图片构成的训练集,标注每张训练图片中物体的位置和类别;
基于TensorFlow框架编程实现目标检测算法;
利用所述训练集对所述目标检测算法进行训练;
保存训练好的目标检测算法为所述目标检测算法模型。
优选地,所述目标检测算法模型包括Faster RCNN算法模型。
优选地,所述抽取待检测视频中若干个关键帧图像,将所述关键帧图像输入到特征提取模型中具体包括:
以预设的时间间隔抽取待检测视频中若干个帧图像,利用感知哈希算法对抽取到的帧图像进行去重处理,以获得所述关键帧图像;
将所述关键帧图像输入到特征提取模型中。
优选地,所述目标检测算法模型包括YOLOv2算法模型。
优选地,所述抽取待检测视频中若干个关键帧图像,将所述关键帧图像输入到特征提取模型中具体包括:
按预设的时间间隔从待检测视频中抽取一帧图像;
利用感知哈希算法对新的帧图像与缓存的关键帧图像进行对比;如果对比结果小于预设的差异阈值时,丢弃新的帧图像;如果对比结果大于等于所述差异阈值时,定义新的帧图像为所述关键帧图像,将该关键帧图像输入到特征提取模型中;
缓存该关键帧图像。
优选地,所述记录目标检测算法模型输出的目标物体在待检测视频中的位置和类别,定义目标物体的类别为待检测视频的动物标签具体包括:
记录Faster RCNN算法模型或YOLOv2算法模型输出的每个关键帧图像中目标物体的位置和类别;
统计所有关键帧图像中每类动物出现的次数,按照降序排列方式对每类动物在待检测视频中出现的次数进行排序,以获得所述待检测视频的动物标签。
第二方面,一种终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行第一方面所述的方法。
第三方面,一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行第一方面所述的方法。
由上述技术方案可知,本发明提供的基于深度学习的动物视频标签自动生成方法、终端及介质,提高识别效率和识别准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为背景技术中提供的基于帧间差分法的动物视频检测方法的流程图。
图2为背景技术中提供的具体实施时,基于帧间差分法的动物视频检测方法的流程图。
图3为背景技术中提供的传统计算机视觉图像处理方法的流程图。
图4为背景技术中提供的传统计算机视觉图像处理方法中模型训练的方法流程图。
图5为背景技术中提供的传统计算机视觉图像处理方法中视频标签生成方法的流程图。
图6为本发明提供的动物视频标签自动生成方法的主要步骤。
图7为本发明提供的目标检测模型的训练方法流程图。
图8为本发明实施例二提供的Faster RCNN算法的标签生成***流程。
图9为本发明实施例二提供的YOLOv2算法的标签生成***流程。
图10为本发明实施例二提供的Faster RCNN算法的帧图像动物识别结果。
图11为本发明实施例二提供的YOLOv2算法的帧图像动物识别结果。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
实施例一:
一种基于深度学习的动物视频标签自动生成方法,参见图6,包括以下步骤:
抽取待检测视频中若干个关键帧图像,将所述关键帧图像输入到特征提取模型中;
将特征提取模型输出的特征信息输入到训练好的目标检测算法模型中;
记录目标检测算法模型输出的目标物体在待检测视频中的位置和类别,定义目标物体的类别为待检测视频的动物标签。
具体地,本实施例提供的动物视频标签自动生成方法包括特征提取模型和目标检测模型。其中所述特征提取模型由卷积神经网络构成,并通过ImageNet分类数据集训练得到。特征提取模型用于提取待检测视频中关键帧图像的特征信息。目标检测模型包括***和分类器两个功能模块,***用来定位目标物体在关键帧图像中的位置,***输出目标物体的宽高、以及目标物体在关键帧图像中的坐标。分类器用于对***定位到的目标物体作分类,输出目标物体的类别。该基于深度学习的动物视频标签自动生成方法,提高识别效率和识别准确性。
实施例二:
实施例二在实施例一的基础上,进一步限定了目标检测模型的训练方法。
参见图7,所述目标检测模型通过以下方法训练得到:
获取由多张训练图片构成的训练集,标注每张训练图片中物体的位置和类别;
基于TensorFlow框架编程实现目标检测算法;
利用所述训练集对所述目标检测算法进行训练;
保存训练好的目标检测算法为所述目标检测算法模型。
具体地,训练集中的训练图片可以根据具体用户的业务情况和使用情况确定。例如根据用户提供的业务中出现过的动物图片筛选出适当数量的图片,标注出动物在图片中的位置及其类别,将所有这些标注好的图片作为训练图片。该方法在训练过程中,还可以根据得到的位置和类别与训练图片的标注信息作对比,不断调整目标检测模型的参数,从而不断优化模型定位和分类能力。该方法在训练过程中会定期保存训练得到的目标检测模型,直到训练停止,取最优模型作为最终结果。以下给出两种目标检测模型的训练方法。
1、Faster RCNN算法。
所述目标检测模型包括基于tensorflow框架编写的Faster RCNN算法模型。参见图8,所述抽取待检测视频中若干个关键帧图像,将所述关键帧图像输入到特征提取模型中具体包括:
以预设的时间间隔抽取待检测视频中若干个帧图像,利用感知哈希算法对抽取到的帧图像进行去重处理,以获得所述关键帧图像;
将所述关键帧图像输入到特征提取模型中。
具体地,该方法基于tensorflow框架编写Faster RCNN算法模型,再使用以上训练集训练Faster RCNN算法模型。Faster RCNN算法模型虽然识别精度准,但复杂度也较高,所以识别速度较慢,不能达到实时的效果。为此,该方法在使用Faster RCNN算法模型时,将以固定时间间隔抽取待检测视频中的帧图像,然后利用感知哈希算法对抽取到的帧图像做去重处理,只留下一系列差异较大的关键帧图像,再将关键帧图像的特征信息输入到FasterRCNN算法模型中,Faster RCNN算法模型输出每个关键帧图像中所有的动物类别及位置。
2、YOLOv2算法模型。
所述目标检测模型包括基于tensorflow框架编写的YOLOv2算法模型。参见图9,所述抽取待检测视频中若干个关键帧图像,将所述关键帧图像输入到特征提取模型中具体包括:
按预设的时间间隔从待检测视频中抽取一帧图像;;
利用感知哈希算法对新的帧图像与缓存的关键帧图像进行对比;如果对比结果小于预设的差异阈值时,丢弃新的帧图像;如果对比结果大于等于所述差异阈值时,定义新的帧图像为所述关键帧图像,将该关键帧图像输入到特征提取模型中;
缓存该关键帧图像。
具体地,该方法基于tensorflow框架编写的YOLOv2算法模型,再使用以上训练集训练YOLOv2算法模型。YOLOv2算法模型的特点是在保持与Faster RCNN算法模型相同的识别准确度的前提下,大幅提升了识别效率,达到40FPS—67FPS,能够满足视频实时处理的要求,并且还能够根据需要在准确度和速度间做调整。而在实际处理视频时,很多时候视频中相邻的帧图像不会有很大的差异,没有必要识别每一帧图像中的动物。为此,在实际应用中,该方法只需要缓存最近识别过的关键帧图像,然后利用感知哈希算法对最新帧图像与缓存的关键帧图像做对比,如果最新帧图像与缓存的关键帧图像差异很小,放弃对新帧图像的检测。如果差异较大,则使用YOLOv2算法模型定位新帧图像包含的动物及动物的类别。
优选地,所述记录目标检测算法模型输出的目标物体在待检测视频中的位置和类别,定义目标物体的类别为待检测视频的动物标签具体包括:
记录Faster RCNN算法模型或YOLOv2算法模型输出的每个关键帧图像中目标物体的位置和类别;
统计所有关键帧图像中每类动物出现的次数,按照降序排列方式对每类动物在待检测视频中出现的次数进行排序,以获得所述待检测视频的动物标签。
具体地,该方法通过统计所有帧图像中每类动物出现的次数,按照每类动物在待检测视频中出现的次数降序排列,得到本视频中的动物标签。
图10为Faster RCNN算法模型的帧图像动物识别结果。图10中有两只狗,识别结果中根据模型定位得到的狗的坐标位置,并在坐标位置上画出两个方框,并根据分类结果给每个方框中的动物打上了标签,例如标出狗。具体实施时,不需要像图10一样标出方框和动物类别,只需要记录图像中的动物类别和每个类别动物有几只即可。图11为YOLOv2模型的帧图像动物识别结果。
本发明实施例所提供的方法,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例三:
实施例三在上述实施例的基础上,提供了一种终端。
一种终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述的方法。
应当理解,在本发明实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备可以包括显示器(LCD等)、扬声器等。
该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
本发明实施例所提供的终端,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例四:
实施例四在在上述实施例的基础上,提供了一种介质。
一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述的方法。
所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元,例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本发明实施例所提供的介质,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种基于深度学习的动物视频标签自动生成方法,其特征在于,包括以下步骤:
抽取待检测视频中若干个关键帧图像,将所述关键帧图像输入到特征提取模型中;
将特征提取模型输出的特征信息输入到训练好的目标检测算法模型中;
记录目标检测算法模型输出的目标物体在待检测视频中的位置和类别,定义目标物体的类别为待检测视频的动物标签。
2.根据权利要求1所述基于深度学习的动物视频标签自动生成方法,其特征在于,
所述特征提取模型由卷积神经网络构成,并通过ImageNet分类数据集训练得到。
3.根据权利要求1所述基于深度学习的动物视频标签自动生成方法,其特征在于,所述目标检测算法模型通过以下方法训练得到:
获取由多张训练图片构成的训练集,标注每张训练图片中物体的位置和类别;
基于TensorFlow框架编程实现目标检测算法;
利用所述训练集对所述目标检测算法进行训练;
保存训练好的目标检测算法为所述目标检测算法模型。
4.根据权利要求3所述基于深度学习的动物视频标签自动生成方法,其特征在于,
所述目标检测算法模型包括Faster RCNN算法模型。
5.根据权利要求4所述基于深度学习的动物视频标签自动生成方法,其特征在于,所述抽取待检测视频中若干个关键帧图像,将所述关键帧图像输入到特征提取模型中具体包括:
以预设的时间间隔抽取待检测视频中若干个帧图像,利用感知哈希算法对抽取到的帧图像进行去重处理,以获得所述关键帧图像;
将所述关键帧图像输入到特征提取模型中。
6.根据权利要求3所述基于深度学习的动物视频标签自动生成方法,其特征在于,
所述目标检测算法模型包括YOLOv2算法模型。
7.根据权利要求6所述基于深度学习的动物视频标签自动生成方法,其特征在于,所述抽取待检测视频中若干个关键帧图像,将所述关键帧图像输入到特征提取模型中具体包括:
按预设的时间间隔从待检测视频中抽取一帧图像;
利用感知哈希算法对新的帧图像与缓存的关键帧图像进行对比;如果对比结果小于预设的差异阈值时,丢弃新的帧图像;如果对比结果大于等于所述差异阈值时,定义新的帧图像为所述关键帧图像,将该关键帧图像输入到特征提取模型中;
缓存该关键帧图像。
8.根据权利要求5或7所述基于深度学习的动物视频标签自动生成方法,其特征在于,所述记录目标检测算法模型输出的目标物体在待检测视频中的位置和类别,定义目标物体的类别为待检测视频的动物标签具体包括:
记录Faster RCNN算法模型或YOLOv2算法模型输出的每个关键帧图像中目标物体的位置和类别;
统计所有关键帧图像中每类动物出现的次数,按照降序排列方式对每类动物在待检测视频中出现的次数进行排序,以获得所述待检测视频的动物标签。
9.一种终端,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
CN202010382574.5A 2020-05-08 2020-05-08 基于深度学习的动物视频标签自动生成方法、终端及介质 Pending CN111552837A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010382574.5A CN111552837A (zh) 2020-05-08 2020-05-08 基于深度学习的动物视频标签自动生成方法、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010382574.5A CN111552837A (zh) 2020-05-08 2020-05-08 基于深度学习的动物视频标签自动生成方法、终端及介质

Publications (1)

Publication Number Publication Date
CN111552837A true CN111552837A (zh) 2020-08-18

Family

ID=72001892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010382574.5A Pending CN111552837A (zh) 2020-05-08 2020-05-08 基于深度学习的动物视频标签自动生成方法、终端及介质

Country Status (1)

Country Link
CN (1) CN111552837A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819885A (zh) * 2021-02-20 2021-05-18 深圳市英威诺科技有限公司 基于深度学习的动物识别方法、装置、设备及存储介质
CN113076882A (zh) * 2021-04-03 2021-07-06 国家计算机网络与信息安全管理中心 一种基于深度学习的特定标志检测方法
CN114866788A (zh) * 2021-02-03 2022-08-05 阿里巴巴集团控股有限公司 视频的处理方法及装置
CN115115822A (zh) * 2022-06-30 2022-09-27 小米汽车科技有限公司 车端图像处理方法、装置、车辆、存储介质及芯片
CN116612494A (zh) * 2023-05-05 2023-08-18 交通运输部水运科学研究所 一种基于深度学习的视频监控中行人目标检测方法及装置
CN117037049A (zh) * 2023-10-10 2023-11-10 武汉博特智能科技有限公司 基于YOLOv5深度学习的图像内容检测方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718890A (zh) * 2016-01-22 2016-06-29 北京大学 一种基于卷积神经网络的特定视频检测方法
CN110119757A (zh) * 2019-03-28 2019-08-13 北京奇艺世纪科技有限公司 模型训练方法、视频类别检测方法、装置、电子设备和计算机可读介质
CN110147722A (zh) * 2019-04-11 2019-08-20 平安科技(深圳)有限公司 一种视频处理方法、视频处理装置及终端设备
CN110188794A (zh) * 2019-04-23 2019-08-30 深圳大学 一种深度学习模型的训练方法、装置、设备及存储介质
CN110472492A (zh) * 2019-07-05 2019-11-19 平安国际智慧城市科技股份有限公司 目标生物检测方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718890A (zh) * 2016-01-22 2016-06-29 北京大学 一种基于卷积神经网络的特定视频检测方法
CN110119757A (zh) * 2019-03-28 2019-08-13 北京奇艺世纪科技有限公司 模型训练方法、视频类别检测方法、装置、电子设备和计算机可读介质
CN110147722A (zh) * 2019-04-11 2019-08-20 平安科技(深圳)有限公司 一种视频处理方法、视频处理装置及终端设备
CN110188794A (zh) * 2019-04-23 2019-08-30 深圳大学 一种深度学习模型的训练方法、装置、设备及存储介质
CN110472492A (zh) * 2019-07-05 2019-11-19 平安国际智慧城市科技股份有限公司 目标生物检测方法、装置、计算机设备和存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114866788A (zh) * 2021-02-03 2022-08-05 阿里巴巴集团控股有限公司 视频的处理方法及装置
CN112819885A (zh) * 2021-02-20 2021-05-18 深圳市英威诺科技有限公司 基于深度学习的动物识别方法、装置、设备及存储介质
CN113076882A (zh) * 2021-04-03 2021-07-06 国家计算机网络与信息安全管理中心 一种基于深度学习的特定标志检测方法
CN115115822A (zh) * 2022-06-30 2022-09-27 小米汽车科技有限公司 车端图像处理方法、装置、车辆、存储介质及芯片
CN115115822B (zh) * 2022-06-30 2023-10-31 小米汽车科技有限公司 车端图像处理方法、装置、车辆、存储介质及芯片
CN116612494A (zh) * 2023-05-05 2023-08-18 交通运输部水运科学研究所 一种基于深度学习的视频监控中行人目标检测方法及装置
CN117037049A (zh) * 2023-10-10 2023-11-10 武汉博特智能科技有限公司 基于YOLOv5深度学习的图像内容检测方法及***
CN117037049B (zh) * 2023-10-10 2023-12-15 武汉博特智能科技有限公司 基于YOLOv5深度学习的图像内容检测方法及***

Similar Documents

Publication Publication Date Title
CN111552837A (zh) 基于深度学习的动物视频标签自动生成方法、终端及介质
CN111241947B (zh) 目标检测模型的训练方法、装置、存储介质和计算机设备
CN109492643B (zh) 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN110197146B (zh) 基于深度学习的人脸图像分析方法、电子装置及存储介质
WO2019128646A1 (zh) 人脸检测方法、卷积神经网络参数的训练方法、装置及介质
CN109344727B (zh) 身份证文本信息检测方法及装置、可读存储介质和终端
US20190362193A1 (en) Eyeglass positioning method, apparatus and storage medium
US20060222243A1 (en) Extraction and scaled display of objects in an image
CN111832366B (zh) 图像识别装置及方法
Molina-Moreno et al. Efficient scale-adaptive license plate detection system
CN110222582B (zh) 一种图像处理方法和相机
CN111368632A (zh) 一种签名识别方法及设备
US20240087352A1 (en) System for identifying companion animal and method therefor
CN111488943A (zh) 人脸识别的方法及设备
CN111027526A (zh) 一种提高车辆目标检测识别检测效率的方法
CN110796039B (zh) 一种面部瑕疵检测方法、装置、电子设备及存储介质
CN112200218A (zh) 一种模型训练方法、装置及电子设备
CN112541394A (zh) 黑眼圈及鼻炎识别方法、***及计算机介质
CN110796145B (zh) 基于智能决策的多证件分割关联方法及相关设备
CN110298302B (zh) 一种人体目标检测方法及相关设备
CN116912880A (zh) 一种基于鸟类关键点检测的鸟类识别质量评估方法及***
CN116543261A (zh) 用于图像识别的模型训练方法、图像识别方法设备及介质
CN112836682B (zh) 视频中对象的识别方法、装置、计算机设备和存储介质
CN113505763B (zh) 关键点检测方法、装置、电子设备及存储介质
Andiani et al. Face recognition for work attendance using multitask convolutional neural network (MTCNN) and pre-trained facenet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination