CN112802027A - 一种目标对象的分析方法、存储介质及电子装置 - Google Patents

一种目标对象的分析方法、存储介质及电子装置 Download PDF

Info

Publication number
CN112802027A
CN112802027A CN201911108160.7A CN201911108160A CN112802027A CN 112802027 A CN112802027 A CN 112802027A CN 201911108160 A CN201911108160 A CN 201911108160A CN 112802027 A CN112802027 A CN 112802027A
Authority
CN
China
Prior art keywords
sub
images
target object
image
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911108160.7A
Other languages
English (en)
Inventor
刘若鹏
栾琳
季春霖
刘凯品
陈欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Tianfu New District Guangqi Future Technology Research Institute
Original Assignee
Chengdu Tianfu New District Guangqi Future Technology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Tianfu New District Guangqi Future Technology Research Institute filed Critical Chengdu Tianfu New District Guangqi Future Technology Research Institute
Priority to CN201911108160.7A priority Critical patent/CN112802027A/zh
Publication of CN112802027A publication Critical patent/CN112802027A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种目标对象的分析方法、存储介质及电子装置,所述的方法包括对第一原始图像进行分割,得到多个子图像,使用第一模型对多个子图像进行分析,确定多个子图像中是否存在目标对象,其中,第一模型为使用多组数据对深度神经网络进行训练得到的,多组数据中的每组数据均包括:多个子图像样本,其中,多个子图像样本携带有对目标对象的标注信息。通过本发明,解决了相关技术中难以检测图像中的小目标的问题,达到高效识别小目标的效果。

Description

一种目标对象的分析方法、存储介质及电子装置
技术领域
本发明涉及通信领域,具体而言,涉及一种目标对象的分析方法、存储介质及电子装置。
背景技术
目标检测技术是计算机视觉中的研究热点,基于传统图像处理的目标检测技术通常采用提取边缘检测、纹理特征等方法对图像进行处理,然后判断目标在图像中位置。最近几年,基于深度学习的目标检测算法在学术界目标检测公共数据集上的准确率被提升了很多,同时网络的设计方法也基本能满足检测速度实时性要求。但是,相关技术中的目标检测算法并非是适用于各种场景的通用技术方案,在某些场景下,这些目标检测方案并不能够高效准确识别目标,例如大场景、小目标的情况。在这种情况下,检测目标往往仅占用图像中的少量像素,使用常规的目标检测方法很难高效识别。
以高空拍摄领域中的无人机拍摄为例,无人机是一个国家国防建设的重要领域,通过无人机航拍的图像对地面目标自动检测定位是迫切需要解决的问题。高空航拍的图像往往具有以下特点:1)高度较高;2)拍场景较大;3)图像中目标像素较小。在此前提下,仅使用传统目标检测方法对航拍图像进行目标检测是很难取得较好的结果。
发明内容
本发明实施例提供了一种目标对象的分析方法、存储介质及电子装置,以至少解决相关技术中难以检测图像中的小目标的问题。
根据本发明的一个实施例,提供了一种目标对象的分析方法,包括:对第一原始图像进行分割,得到多个子图像;
使用第一模型对所述多个子图像进行分析,确定所述多个子图像中是否存在所述目标对象,其中,所述第一模型为使用多组数据对深度神经网络进行训练得到的,所述多组数据中的每组数据均包括:多个子图像样本,其中,所述多个子图像样本携带有对所述目标对象的标注信息。
可选地,对第一原始图像进行分割,包括:按照预先设定的重叠率分割所述第一原始图像。
可选地,在对第一原始图像进行分割之前,还包括:
从获取的原始视频中提取多个第一原始图像,其中,所述多个第一原始图像中至少一个第一原始图像包括所述目标对象。
可选地,在使用第一模型对所述多个子图像进行分析,确定所述多个子图像的中是否存在所述目标对象之前,所述方法还包括:
使用所述多组数组对所述第一模型进行训练;
在根据以下至少之一确定的评价值在预设的时间段内维持不变时:坐标误差、分类误差和IOU误差,停止对所述第一模型继续训练。
可选地,在根据坐标误差、分类误差和IOU误差确定所述评价值的情况下,至少根据以下公式确定所述评价值loss:
Figure BDA0002271946680000021
其中,coordErr为所述坐标误差,iouErr为所述IOU误差,clsErr为所述分类误差,i为特征点在特征图上的位置坐标,S2为特征图的大小。
可选地,在使用第一模型对所述多个子图像进行分析,确定所述多个子图像的中是否存在所述目标对象之后,所述方法还包括:
在确定所述多个子图像中的指定子图像存在所述目标对象的情况下,输出分析得到的所述目标对象的第一目标信息;或者,
在确定所述多个子图像中的指定子图像存在所述目标对象的情况下,获取分析得到的所述目标对象的第一目标信息,根据所述第一目标信息得到所述目标对象在所述第一原始图像上的第二目标信息,输出所述第二目标信息。
可选地,在使用第一模型对所述多个子图像进行分析,确定所述多个子图像的中是否存在所述目标对象之前,所述方法还包括:
对深度残差网络模型进行裁剪,得到所述深度神经网络。
可选的,第一原始图像为无人机航拍的视频解码后获得的图像。
根据本发明的又一个实施例,还提供了一种计算机可读的存储介质,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明实施例,由于使用了携带有对目标对象的标注信息的子图像样本进行训练得到第一模型,并将分割后的子图像输入第一模型进行检测,通过分割能够提高目标对象在子图像中的相对比例,达到更好得检测效果。因此,可以解决相关技术中难以检测图像中的小目标的问题,达到高效检测小目标的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的目标对象的分析方法的流程图;
图2是根据本发明实施例的目标对象的分析装置的结构框图;
图3是根据本发明可选实施例的残差网络的基础模块示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
图1是根据本发明实施例的目标对象的分析方法的流程图,如图1所示,包括:
步骤S101,对第一原始图像进行分割,得到多个子图像,其中,所述多个子图像中包括:包含目标对象的第一子图像;
步骤S103,使用第一模型对所述多个子图像进行分析,确定所述多个子图像中是否存在所述目标对象,其中,所述第一模型为使用多组数据对深度神经网络进行训练得到的,所述多组数据中的每组数据均包括:多个子图像样本,其中,所述多个子图像样本携带有对所述目标对象的标注信息。
通过本发明实施例,由于使用了携带有对目标对象的标注信息的子图像样本进行训练得到第一模型,并将分割后的子图像输入第一模型进行检测,通过分割能够提高目标对象在子图像中的相对比例,达到更好得检测效果。因此,可以解决相关技术中难以检测图像中的小目标的问题,达到高效检测小目标的效果。
需要说明的是,训练所使用的多个子图像样本,可以是由原始的较大的图像分割而来的,分割得到的子图像样本中的目标对象在该子图像样本中的相对比例要高于该目标对象在分割图像之前的较大的原始图像中的相对比例,使用这种子图像样本可以更好地训练神经网络,以提高其识别小目标的效果。
子图像样本中携带有对目标对象的标注信息,该标注信息可以是表示子图像样本中有目标对象的标注,或者可以是表示子图像样本中无目标对象的标注,或者是表示子图像样本中的目标对象的位置、大小、种类等内容的标注。另外,可以只使用有目标对象的子图像样本进行训练,也可以使用有目标对象的子图像样本和无目标对象的子图像样本进行训练。除此之外,也可以使得用于训练深度神经网络模型的子图像样本的大小与待检测目标对象的被分割后的子图像的大小一致,即,令训练模型所使用的子图像样本和待输入到模型中进行检测的子图像的大小相同,更有助于提高模型检测小目标的效果。
在一个实施方式中,对第一原始图像进行分割,包括:按照预先设定的重叠率分割所述第一原始图像,例如,可以按照预先设定的重叠率分割所述第一原始图像,其中,重叠率可以设置为零,即不重叠,以使分割后的各个子图像之间不存在重叠;或者,重叠率可以设置为一定的比率,以使分割后的各个子图像之间存在重叠。
需要说明的是,可以直接分割第一原始图像,得到各个子图像;但使用这种方法得到的子图像中,有时会出现目标对象也被分割的情况,所以,也可以按照重叠率分割第一原始图像,以提高包含了完整或者较完整的目标对象的子图像在所有子图像中所占的比例。使用包含了完整或者较完整目标的子图像进行模型训练可以提高精确度和效率。其中,完整可以理解为子图像中正好包含了完整的目标对象;较完整可以理解为子图像中包含了一定面积的目标对象,例如包含了一半面积以上的目标对象,或者包含了3/4面积以上的目标对象等,该面积比例可以根据需要设置。
在一个实施方式中,在对第一原始图像进行分割之前,还包括:从获取的原始视频中提取多个第一原始图像,其中,所述多个第一原始图像中至少一个第一原始图像包括所述目标对象。
在一个实施方式中,在使用第一模型对所述多个子图像进行分析,确定所述多个子图像的中是否存在所述目标对象之前,所述方法还包括:
使用所述多组数组对所述第一模型进行训练;
在根据以下至少之一确定的评价值在预设的时间段内维持不变时:坐标误差、分类误差和IOU误差,停止对所述第一模型继续训练。
在一个实施方式中,在根据坐标误差、分类误差和IOU误差确定所述评价值的情况下,至少根据以下公式确定所述评价值loss:
Figure BDA0002271946680000061
其中,coordErr为所述坐标误差,iouErr为所述IOU误差,clsErr为所述分类误差,i为特征点在特征图上的位置坐标,S2为特征图的大小,其中i特征点为特征图上的一个像素点,特征图为图像输入网络模型,经过每一层卷积后得到的图像,特征图是由网络模型得到的。
在一个实施方式中,在使用第一模型对所述多个子图像进行分析,确定所述多个子图像的中是否存在所述目标对象之后,所述方法还包括:
在确定所述多个子图像中的指定子图像存在所述目标对象的情况下,输出分析得到的所述目标对象的第一目标信息;或者,
在确定所述多个子图像中的指定子图像存在所述目标对象的情况下,获取分析得到的所述目标对象的第一目标信息,根据所述第一目标信息得到所述目标对象在所述第一原始图像上的第二目标信息,输出所述第二目标信息。
需要说明的是,上述的第一目标信息可以是用于表示分析结果的信息,例如可以是分析得到的子图像中的目标对象的种类、种类置信度或者位置等信息;由于在某些情况下,需要得到目标对象在第一原始图像中的信息,例如位置信息等,所以还需要将第一目标信息转换成目标对象在第一原始图像上的第二目标信息,例如需要进行位置信息的换算。
在一个实施方式中,在使用第一模型对所述多个子图像进行分析,确定所述多个子图像的中是否存在所述目标对象之前,所述方法还包括:
对深度残差网络模型进行裁剪,得到所述深度神经网络。
需要说明的是,由于在目标物体的尺寸相对于原图像较小的情况下,如采用较深的骨干网络对图像的特征提取,可能会造成小目标被完全抽象掉,从而影响算法性能。所以可以对网络模型进行裁剪,使用裁剪后的深度神经网络进行训练,利用训练后得到的第一模型进行检测,以提高目标检测性能。
需要说明的是,本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在运算装置上为例,该运算终端可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器,可选地,上述运算装置还可以包括用于通信功能的传输设备以及输入输出设备。本领域普通技术人员可以理解,上述的运算装置的结构仅为示意,其并不对上述运算装置的结构造成限定。例如,该运算装置还可包括更多或者更少的组件,或者具有与上述不同的配置。
存储器可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的方法对应的计算机程序,处理器通过运行存储在存储器内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至运算装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备用于经由一个网络接收或者发送数据。上述的网络具体实例可包括运算装置的通信供应商提供的无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
实施例2
在本实施例中还提供了一种目标对象的分析装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图2是根据本发明实施例的目标对象的分析装置的结构框图,如图2所示,该装置包括:
分割模块21,用于对第一原始图像进行分割,得到多个子图像,其中,所述多个子图像中包括:包含目标对象的第一子图像;
分析模块23,用于使用第一模型对所述多个子图像进行分析,确定所述多个子图像中是否存在所述目标对象,其中,所述第一模型为使用多组数据对深度神经网络进行训练得到的,所述多组数据中的每组数据均包括:多个子图像样本,其中,所述多个子图像样本携带有对所述目标对象的标注信息。
通过本发明实施例,由于使用了携带有对目标对象的标注信息的子图像样本进行训练得到第一模型,并将分割后的子图像输入第一模型进行检测,通过分割能够提高目标对象在子图像中的相对比例,达到更好得检测效果。因此,可以解决相关技术中难以检测图像中的小目标的问题,达到高效检测小目标的效果。
在一个实施方式中,所述分割模块,包括:
第一分割子模块,用于按照预先设定的重叠率分割所述第一原始图像。
在一个实施方式中,该装置还包括:
提取模块,用于在对第一原始图像进行分割之前,从获取的原始视频中提取多个第一原始图像,其中,所述多个第一原始图像中至少一个第一原始图像包括所述目标对象。
在一个实施方式中,该装置还包括:
训练模块,用于在使用第一模型对所述多个子图像进行分析,确定所述多个子图像的中是否存在所述目标对象之前,使用所述多组数组对所述第一模型进行训练;
停止模块,用于在根据以下至少之一确定的评价值在预设的时间段内维持不变时:坐标误差、分类误差和IOU误差,停止对所述第一模型继续训练。
在一个实施方式中,所述停止模块,还用于在根据坐标误差、分类误差和IOU误差确定所述评价值的情况下,至少根据以下公式确定所述评价值loss:
Figure BDA0002271946680000091
其中,coordErr为所述坐标误差,iouErr为所述IOU误差,clsErr为所述分类误差,i为特征点在特征图上的位置坐标,S2为特征图的大小。
在一个实施方式中,该装置还包括:
第一输出模块,用于在使用第一模型对所述多个子图像进行分析,确定所述多个子图像的中是否存在所述目标对象之后,在确定所述多个子图像中的指定子图像存在所述目标对象的情况下,输出分析得到的所述目标对象的第一目标信息;或者,
第二输出模块,用于在使用第一模型对所述多个子图像进行分析,确定所述多个子图像的中是否存在所述目标对象之后,在确定所述多个子图像中的指定子图像存在所述目标对象的情况下,获取分析得到的所述目标对象的第一目标信息,根据所述第一目标信息得到所述目标对象在所述第一原始图像上的第二目标信息,输出所述第二目标信息。
在一个实施方式中,该装置还包括:
裁剪模块,用于在使用第一模型对所述多个子图像进行分析,确定所述多个子图像的中是否存在所述目标对象之前,对深度残差网络模型进行裁剪,得到所述深度神经网络。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
可选实施方式一
以下以无人机航拍场景为例,进一步解释本发明实施例的方案:
为了能使无人机航拍大场景下的目标检测算法取得较好的性能,需要针对该场景设计一种目标检测方法;本发明实施例旨在设计一种针对大场景下无人机图像的目标检测方法。
在大场景和高飞行高度下,无人机航拍图像中的目标尺寸比较小,因此可以通过增加目标尺寸在图像中相对大小的方法提高无人机图像的目标检测性能。例如,可以对无人机航拍图像的原始数据进行切割,使一张大图变成几张小图,则原始目标尺寸不变,但目标尺寸相对于切割图像变大,达到目标尺寸变大的目的,提高目标检测算法的性能。同时,还可以通过观察目标物体、图像数据的分布情况,利用网络剪枝方法对现存目标检测网络进行裁剪,提高目标检测性能。
示例性地,一种针对大场景下无人机图像的目标检测方法,包括如下步骤:
步骤1:通过对无人机航拍的视频解码,得到原始图像,即本申请前述中的第一原始图像,然后对该原始图像进行标注;
步骤2:建立训练数据集,将原始图像分割为几张小图像,即得到本申请前述中的多个子图像,根据原始图像的标注信息重新计算目标在分割图像中的坐标信息,并删除不包含目标的分割图像;
步骤3:将现存目标检测网络进行裁剪后,利用已建立的训练数据集对网络进行训练;
步骤4:利用训练好的网络权重文件对无人机航拍分割图像中的目标进行检测,并输出检测结果;其中检测结果可以是目标种类、种类的置信度、目标的位置等内容;
步骤5:根据检测结果中的目标位置信息,计算目标在原始图像中的目标位置信息,输出最终结果。
需要说明的是,为保证本发明实施例所涉及的目标检测方法能够对多场景多目标的数据检测,本发明实施例中的数据集应包含多个场景的数据。无人机机载摄像机拍摄的视频帧图像大小通常为1920*1080个像素,首先对视频解码的帧图像利用标注工具标注,保存其标注信息。然后根据实际需求,按照一定规律将图像分割成若干张小图,计算目标在分割图像中的位置信息,将其对应的图片和位置信息保存。
在目标检测工程化应用中,算法的实时性往往是首先考虑的,同时由于目标尺寸较小,若使用网络层数较多的检测网络,会使得某些小目标在特征度不断抽象的过程中消失,从而造成误检并且耗时较大。为了保证实时性和算法检测性能,本发明实施例对现存目标检测网络进行裁剪,设计出一种适合本场景的目标检测网络,并利用分割数据集进行训练;最后利用权重文件对分割后的测试图片进行检测,并重新计算目标在原始图像中的坐标位置信息。
近年来,深度学习在目标识别、目标跟踪、目标检测等领域蓬勃发展,并取得了较好的结果。与此同时,在安防、智能城市等领域,深度学习的工业应用已经落地,为深度学习的工程化提供了有利的依据。在无人机方面,使用无人机检测地面目标对地面站人员来说无疑是巨大的工作量,因此在无人机航拍过程中通过实时对视频中出现的目标自动检测对于无人机的发展是十分有利的。因此将深度学习技术应用到无人机中,可以很好地减少地面工作站的人力,提高无人机的工作效率。
可选实施方式二
假设已经收集到足够多的机载摄像机拍摄的各个场景的数据。本发明实施例主要分为原始数据集建立、分割数据集建立、网络裁剪并训练、分割测试图像网络结果输出、原始测试图像结果输出几个流程。
在深度学习工程应用的过程中,训练数据的质量对算法的性能有较重要的作用。因此建立好的训练集显得至关重要。另外,为了保证本发明实施例设计的检测网络模型具有较好的范化能力,需要使用多个无人机航拍的场景数据。本发明实施例中训练数据集的构建主要分为两个步骤,其具体步骤如下所示:
第一步:原始视频解码,由于机载摄像机拍摄的数据均为视频格式,首先要对多个场景下的视频进行解码。其中,为了保证训练集中目标姿态的多样性,使网络能够学习到更好的目标物体的特征。在解码的过程中可以每隔一定数量的帧数保存一帧图像,例如间隔20帧或者30帧保存一帧图像。视频解码完成后,可以挑选出包含三个或三个以上目标物体的图像作为原始图像训练集待标注的数据;
第二步:原始图像标注,利用labelImg标注工具对图像中的目标进行标注。labelImg标注工具是目标检测领域中常用的标注工具,通过该工具,可以对图像中多种目标物体进行标注。在标注过程中。各个目标物体用矩形框标注,并同时会得到矩形框的左上角(最小)、右下角(最大)在图像中的坐标,以及目标物的种类,不同种类的目标矩形框会以不同颜色加以区别。最终将标注结果以xml文件格式存储到本地计算机,方便后续对数据进行处理。
另外,在基于深度学习的目标检测算法中,学术界对小目标的定义大概在17*17个像素点,但是大场景下无人机航拍图像中的目标尺寸往往在10*10到15*15个像素点左右,远低于学术界的定义,直接利用现存目标检测算法和原始航拍图像对其中目标进行检测,会取得较差的算法性能。为了使航拍图像的目标尺寸的相对大小变大,本发明实施例采用对原始航拍图像进行切割的方式建立训练数据集。其具体步骤如下:
第一步:分割原始图像,根据实际需求将原始图像分割成若干份,在本发明实施例中将原始图像均分为四份,即原始图像尺寸是1920*1080,分割后的图像尺寸为960*540,并且每张小图不重叠。
第二步:重新计算坐标,根据分割的大小和原始图像的标注信息,计算目标物体在分割图像中的坐标信息,删除不包含目标物体的小图,同时对处在分割图像边界的目标进行处理,可以设定:如果目标的四分之三以上的面积在分割后的小图中的分割图像,判断目标在该分割图像中;然后,将分割好的图片和处理好的坐标信息分别保存在相对的文件夹和xml文件中。
另外,基于深度学习的目标检测算法主要分为one-stage思想和two-stage思想。two-stage从图片输入进检测网络得到检测结果需要两个步骤,第一步需要产生图像中可能包含目标物体的候选框;第二步利用候选框的特征对框的位置信息进行微调和分类,从而得到目标种类的置信度和位置。one-stage思想不需要先产生可能包含目标物体的候选框,通过卷积神经网络产生的特征图直接得到目标种类的置信度和位置。在该两种思想中,two-stage速度较慢,不满足工程应用的实时性要求;one-stage思想的速度具有优势。因此在本发明实施例中将利用one-stage思想进行网络设计。本发明实施例鉴于算法实时性的要求,采用one-stage思想;同时以深度残差网络为骨干网络。one-stage思想的目标检测网络,其骨干网络均较深,例如SSD系列和yolo系列,会更加有利于对图像特征的提取以及对图像特征的抽象化。
可以在yolo v3中采用darknet53作为骨干网络,以便更好地提取特征。但在无人机的大场景俯拍下,目标物体的尺寸相对于原图像较小,如采用较深的骨干网络对图像的特征提取,可能会造成小目标被完全抽象掉,从而影响算法性能。darknet53中有4个大的残差模块,其中1、2、3、4残差模块包含的残差基础模块数量分别为2、4、8、8,共计22个基础残差模块参与图像的卷积,使得网络深度非常深。因此本发明实施例对darknet53进行裁剪,依然保留4个残差模块,但每个模块包含的基础模块均为2个,使得检测网络的主干网络变的非常浅,保证在很好地提取特征的同时提升了网络运行速度。图3是根据本发明可选实施例的残差网络的基础模块示意图,残差网络的基础模块的结构如图3所示。
在深度学习领域中,网络通过对数据的学习即训练过程形成网络对数据的认知能力。在训练过程,算法一般通过loss函数指导网络学习。当loss函数的函数值达到最小值,意味着网络训练结束即达到了最优状态。本发明中用的loss函数为:
Figure BDA0002271946680000141
本发明实施例全部使用了均方和误差作为loss函数,由三部分组成:坐标误差、IOU误差和分类误差。其中corrdErr为坐标误差,该误差主要指导网络对即将预测的框的坐标位置学习,iouErr主要是指导网络在特征图上的某一个格子(像素)是否包含目标物体学习,从而指导网络对目标位置的预测。clsErr主要指导格子中包含某种目标物体的学习。在上述公式中,i是特征点在特征图上的位置坐标,S2为特征图的面积S*S。其中,i特征点为特征图上的一个像素点,特征图为图像输入网络模型,经过每一层卷积后得到的图像,特征图是由网络模型得到的。
最后,如上述的网络结构,在网络训练达到最优状态便获得用于无人机航拍场景下的网络结构和权重文件。由于在训练过程中,网络的输入是原始数据分割后的图像,因此在利用网络结果和权重文件检测图像时,应该将待检测图像按照上述的分割方法进行分割后输入网络进行分割图像的检测,得到在分割图像上的检测结果。
需要说明的是,利用权重文件得到的检测结果只是分割图像的检测结果,并不是最终检测图像的结果。因此,还可以利用分割图像的检测结果计算目标在原始图像中的检测结果,例如如果需要输出目标在原始图像中的坐标位置信息,则需要根据分割图像的检测结果和分割图像在原图中所处的区域计算出目标在原始图像中的坐标位置信息,并将最终结果输出。
通过对无人机大场景下的航拍图像进行分析,发现其中目标尺寸只有10*10到15*15之间,相对于1920*1080的图像占的比例较小。基于此前提,本发明实施例提出一种针对大场景下无人机航拍的目标检测算法。通过将原始图像切割成若干张小图像的技术手段增加了目标对象相对于图像的大小,从而提高目标物体在图像中的尺寸,使得目标检测网络可以很好地学习到目标的特征。同时针对无人机航拍图像中目标尺寸较小的问题,本发明实施例对现存检测网络进行裁剪,使得小目标在网络不断卷积过程中可以保留到特征,同时又能提升算法的速度,使得算法的实时性提高。通过这两种手段,使得目标检测网络的模型大小只有46M,并且在同一批实际场景测试集中,检测算法的精度超过了现存检测算法的精度。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例3
本发明的实施例还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,对第一原始图像进行分割,得到多个子图像,其中,所述多个子图像中包括:包含目标对象的第一子图像;
S2,使用第一模型对所述多个子图像进行分析,确定所述多个子图像中是否存在所述目标对象,其中,所述第一模型为使用多组数据对深度神经网络进行训练得到的,所述多组数据中的每组数据均包括:多个子图像样本,其中,所述多个子图像样本携带有对所述目标对象的标注信息。
通过本发明实施例,由于使用了携带有对目标对象的标注信息的子图像样本进行训练得到第一模型,并将分割后的子图像输入第一模型进行检测,通过分割能够提高目标对象在子图像中的相对比例,达到更好得检测效果。因此,可以解决相关技术中难以检测图像中的小目标的问题,达到高效检测小目标的效果。
可选地,计算机可读的存储介质还被设置为存储用于执行以上方法中任一项步骤的计算机程序,在此不再赘述。
可选地,在本实施例中,上述计算机可读的存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,对第一原始图像进行分割,得到多个子图像,其中,所述多个子图像中包括:包含目标对象的第一子图像;
S2,使用第一模型对所述多个子图像进行分析,确定所述多个子图像中是否存在所述目标对象,其中,所述第一模型为使用多组数据对深度神经网络进行训练得到的,所述多组数据中的每组数据均包括:多个子图像样本,其中,所述多个子图像样本携带有对所述目标对象的标注信息。
通过本发明实施例,由于使用了携带有对目标对象的标注信息的子图像样本进行训练得到第一模型,并将分割后的子图像输入第一模型进行检测,通过分割能够提高目标对象在子图像中的相对比例,达到更好得检测效果。因此,可以解决相关技术中难以检测图像中的小目标的问题,达到高效检测小目标的效果。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种目标对象的分析方法,其特征在于,包括:
对第一原始图像进行分割,得到多个子图像;
使用第一模型对所述多个子图像进行分析,确定所述多个子图像中是否存在所述目标对象,其中,所述第一模型为使用多组数据对深度神经网络进行训练得到的,所述多组数据中的每组数据均包括:多个子图像样本,其中,所述多个子图像样本携带有对所述目标对象的标注信息。
2.根据权利要求1所述的方法,其特征在于,对第一原始图像进行分割,包括:
按照预先设定的重叠率分割所述第一原始图像。
3.根据权利要求1所述的方法,其特征在于,在对第一原始图像进行分割之前,还包括:
从获取的原始视频中提取多个第一原始图像,其中,所述多个第一原始图像中至少一个第一原始图像包括所述目标对象。
4.根据权利要求1所述的方法,其特征在于,在使用第一模型对所述多个子图像进行分析,确定所述多个子图像的中是否存在所述目标对象之前,所述方法还包括:
使用所述多组数组对所述第一模型进行训练;
在根据坐标误差、分类误差和IOU误差中至少之一确定的评价值在预设的时间段内维持不变时,停止对所述第一模型继续训练。
5.根据权利要求4所述的方法,其特征在于,在根据坐标误差、分类误差和IOU误差确定所述评价值的情况下,至少根据以下公式确定所述评价值loss:
Figure FDA0002271946670000021
其中,coordErr为所述坐标误差,iouErr为所述IOU误差,clsErr为所述分类误差,i为特征点在特征图上的位置坐标,S2为特征图的大小。
6.根据权利要求1所述的方法,其特征在于,在使用第一模型对所述多个子图像进行分析,确定所述多个子图像的中是否存在所述目标对象之后,所述方法还包括:
在确定所述多个子图像中的指定子图像存在所述目标对象的情况下,输出分析得到的所述目标对象的第一目标信息;或者,
在确定所述多个子图像中的指定子图像存在所述目标对象的情况下,获取分析得到的所述目标对象的第一目标信息,根据所述第一目标信息得到所述目标对象在所述第一原始图像上的第二目标信息,输出所述第二目标信息。
7.根据权利要求1所述的方法,其特征在于,在使用第一模型对所述多个子图像进行分析,确定所述多个子图像的中是否存在所述目标对象之前,所述方法还包括:
对深度残差网络模型进行裁剪,得到所述深度神经网络。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述第一原始图像为无人机航拍的视频解码后获得的图像。
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至8任一项中所述的方法。
CN201911108160.7A 2019-11-13 2019-11-13 一种目标对象的分析方法、存储介质及电子装置 Pending CN112802027A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911108160.7A CN112802027A (zh) 2019-11-13 2019-11-13 一种目标对象的分析方法、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911108160.7A CN112802027A (zh) 2019-11-13 2019-11-13 一种目标对象的分析方法、存储介质及电子装置

Publications (1)

Publication Number Publication Date
CN112802027A true CN112802027A (zh) 2021-05-14

Family

ID=75803366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911108160.7A Pending CN112802027A (zh) 2019-11-13 2019-11-13 一种目标对象的分析方法、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN112802027A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408669A (zh) * 2021-07-30 2021-09-17 浙江大华技术股份有限公司 图像的确定方法、装置、存储介质及电子装置
CN113762220A (zh) * 2021-11-03 2021-12-07 通号通信信息集团有限公司 目标识别方法、电子设备、计算机可读存储介质
CN115170967A (zh) * 2022-07-22 2022-10-11 中科三清科技有限公司 一种茶叶采摘方法、装置、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016364A (zh) * 2017-04-01 2017-08-04 南京邮电大学 一种基于图像识别的快递位置获取方法
CN108229270A (zh) * 2017-01-12 2018-06-29 北京市商汤科技开发有限公司 用于从遥感图像中识别道路的方法、装置和电子设备
CN108710875A (zh) * 2018-09-11 2018-10-26 湖南鲲鹏智汇无人机技术有限公司 一种基于深度学习的航拍公路车辆计数方法及装置
CN109086679A (zh) * 2018-07-10 2018-12-25 西安恒帆电子科技有限公司 一种毫米波雷达安检仪异物检测方法
CN109087315A (zh) * 2018-08-22 2018-12-25 中国科学院电子学研究所 一种基于卷积神经网络的图像识别定位方法
CN109807887A (zh) * 2019-01-18 2019-05-28 上海交通大学 基于深度神经网络的柔性臂智能感知与控制方法和***
CN110223352A (zh) * 2019-06-14 2019-09-10 浙江明峰智能医疗科技有限公司 一种基于深度学习的医学图像扫描自动定位方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229270A (zh) * 2017-01-12 2018-06-29 北京市商汤科技开发有限公司 用于从遥感图像中识别道路的方法、装置和电子设备
CN107016364A (zh) * 2017-04-01 2017-08-04 南京邮电大学 一种基于图像识别的快递位置获取方法
CN109086679A (zh) * 2018-07-10 2018-12-25 西安恒帆电子科技有限公司 一种毫米波雷达安检仪异物检测方法
CN109087315A (zh) * 2018-08-22 2018-12-25 中国科学院电子学研究所 一种基于卷积神经网络的图像识别定位方法
CN108710875A (zh) * 2018-09-11 2018-10-26 湖南鲲鹏智汇无人机技术有限公司 一种基于深度学习的航拍公路车辆计数方法及装置
CN109807887A (zh) * 2019-01-18 2019-05-28 上海交通大学 基于深度神经网络的柔性臂智能感知与控制方法和***
CN110223352A (zh) * 2019-06-14 2019-09-10 浙江明峰智能医疗科技有限公司 一种基于深度学习的医学图像扫描自动定位方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408669A (zh) * 2021-07-30 2021-09-17 浙江大华技术股份有限公司 图像的确定方法、装置、存储介质及电子装置
CN113762220A (zh) * 2021-11-03 2021-12-07 通号通信信息集团有限公司 目标识别方法、电子设备、计算机可读存储介质
CN115170967A (zh) * 2022-07-22 2022-10-11 中科三清科技有限公司 一种茶叶采摘方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN110751215B (zh) 一种图像识别方法、装置、设备、***及介质
CN111784685A (zh) 一种基于云边协同检测的输电线路缺陷图像识别方法
CN108648169A (zh) 高压输电塔绝缘子缺陷自动识别的方法及装置
CN108022235A (zh) 高压输电铁塔关键部件缺陷识别方法
CN112802027A (zh) 一种目标对象的分析方法、存储介质及电子装置
CN109409377B (zh) 图像中文字的检测方法及装置
CN110443212B (zh) 用于目标检测的正样本获取方法、装置、设备及存储介质
CN112487848A (zh) 文字识别方法和终端设备
CN115170792B (zh) 红外图像处理方法、装置及设备、存储介质
CN113962274A (zh) 一种异常识别方法、装置、电子设备及存储介质
CN113255590A (zh) 一种缺陷检测模型训练方法、缺陷检测方法、装置及***
CN113515655A (zh) 一种基于图像分类的故障识别方法及装置
CN112380955A (zh) 动作的识别方法及装置
CN115187844A (zh) 基于神经网络模型的图像识别方法、装置及终端设备
CN110969610A (zh) 基于深度学习的电力设备红外热图的识别方法及***
CN111445442B (zh) 基于神经网络的人群计数方法、装置、服务器及存储介质
CN112464933A (zh) 一种地基凝视红外成像弱小目标智能识别方法
CN105246149B (zh) 地理位置的识别方法和装置
CN116416613A (zh) 一种基于改进YOLO v7的柑橘果实识别方法及***
CN115620178A (zh) 一种用于无人机的电网异常危险行为的实时检测方法
CN112581495A (zh) 图像处理方法、装置、设备及存储介质
CN111507119B (zh) 标识码识别方法、装置、电子设备及计算机可读存储介质
CN113033386B (zh) 一种基于高分辨率遥感影像的输电线路通道隐患识别方法及***
CN105102607A (zh) 图像处理装置、程序、存储介质和图像处理方法
CN103295238A (zh) 安卓平台上基于roi运动检测的视频实时定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination