CN111462069B - 目标对象检测模型训练方法、装置、电子设备及存储介质 - Google Patents

目标对象检测模型训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111462069B
CN111462069B CN202010238685.9A CN202010238685A CN111462069B CN 111462069 B CN111462069 B CN 111462069B CN 202010238685 A CN202010238685 A CN 202010238685A CN 111462069 B CN111462069 B CN 111462069B
Authority
CN
China
Prior art keywords
target object
target
image
deep learning
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010238685.9A
Other languages
English (en)
Other versions
CN111462069A (zh
Inventor
袁田
樊鸿飞
蔡媛
李果
贺沁雯
张文杰
许道远
豆修鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN202010238685.9A priority Critical patent/CN111462069B/zh
Publication of CN111462069A publication Critical patent/CN111462069A/zh
Application granted granted Critical
Publication of CN111462069B publication Critical patent/CN111462069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明实施例提供了一种目标对象检测模型的训练方法、装置、电子设备及存储介质,方法包括:将目标对象样本图像集合中的每个目标对象样本图像分别输入至质量评价模型,获取质量评价模型输出的目标质量数值;根据各个目标质量数值,将各个目标对象样本图像,划分为预设的多个目标级别;分别用每一个目标级别中的目标对象样本图像作为输入信息,以及对应的目标对象位置标注信息,对预设的第二深度学习网络模型进行分级训练,获得目标对象检测模型。可见,应用本发明实施例,分别用每一个目标级别对预设的第二深度学习网络模型进行分级训练,这样,可以让模型进行有梯度的学习,有针对性的对模型进行改善,提高了模型的训练速度。

Description

目标对象检测模型训练方法、装置、电子设备及存储介质
技术领域
本发明涉及图像中的目标对象检测的技术领域,特别是涉及一种目标对象检测模型的训练方法、装置、电子设备及存储介质。
背景技术
目前,计算机视觉技术在各个领域的应用越来越广泛,目标对象的检测是计算机视觉的研究内容之一,通常基于目标对象检测模型识别和定位图像或视频帧图像中的目标对象,进而可以应用在各个领域。相关技术中,目标对象检测模型的训练方法通常为:使用通过网络爬取等方式获得的包含目标对象的图像及其标注的图像中的目标对象位置,直接对预设的深度学习网络模型进行训练,获得训练好的目标对象检测模型。
例如:如果目标对象为车辆,则相关技术中,车辆检测模型的训练方法通常为:使用通过网络爬取等方式获得的包含车辆的图像及其标注的图像中的车辆位置,直接对预设的深度学习网络模型进行训练,获得训练好的车辆检测模型。
但是,这种使用通过网络爬取等方式获得的包含目标对象的图像及其标注的图像中的目标对象位置,直接对预设的深度学习网络模型进行训练,获得训练好的目标对象检测模型的方式,对目标对象检测模型的训练速度仍有待提高。
发明内容
本发明实施例的目的在于提供一种目标对象检测模型的训练方法、装置、电子设备及存储介质,以提高对目标对象检测模型的训练速度。具体技术方案如下:
第一方面,本发明实施例提供了一种目标对象检测模型的训练的方法,所述方法包括:
获取目标对象样本图像集合,所述目标对象样本图像集合中包含:预先获取的多个包含目标对象的目标对象样本图像及其对应的目标对象位置标注信息;
将每个目标对象样本图像分别输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值;所述质量评价模型为:用样本图像及其标注的图像质量数值,对预设的第一深度学习网络模型进行训练获得的;
根据各个目标质量数值,将所述各个目标对象样本图像,划分为预设的多个目标级别;
分别用每一个目标级别中的目标对象样本图像作为输入信息,以及对应的目标对象位置标注信息,对预设的第二深度学习网络模型进行分级训练,获得目标对象检测模型。
可选的,在所述将每个目标对象样本图像分别输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值的步骤之前,还包括:
分别将每个目标对象样本图像进行图像变换处理,获得对应的目标变换图像;所述图像变换处理用于增加目标对象样本图像的数量和/或增大分辨率;
所述将每个目标对象样本图像分别输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值的步骤,包括:
将获得的各个目标变换图像和各个目标对象样本图像,均作为目标对象样本图像输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值。
可选的,所述分别将每个目标对象样本图像进行图像变换处理,获得对应的目标变换图像的步骤,包括:
使用预设的图像数据增强算法,对每个目标对象样本图像进行多次数据增强处理,获得多个目标变换图像;和/或,
基于图像变换网络模型,增强或者抑制所述目标对象样本图像中不同的特征,获得所述目标对象样本图像对应的目标变换图像;和/或,
将每个目标对象样本图像输入至预设的超分辨率网络模型,获得所述预设的超分辨率网络模型输出的,分辨率高于目标对象样本图像的目标变换图像。
可选的,所述质量评价模型的训练过程包括:
获取训练样本集;所述训练样本集中包含多个训练样本;其中,每个训练样本包含:样本图像和其标注的图像质量数值;
将所述训练样本集中的每个样本图像输入到当前第一深度学习网络模型中,获取所述当前第一深度学习网络模型输出的各个样本图像对应的样本质量数值;
基于各个样本质量数值、各个标注的图像质量数值和预设的第一损失函数,计算损失值;
根据预设的第一损失函数的损失值,判断所述当前第一深度学习网络模型是否收敛;
如果是,则将当前第一深度学习网络模型作为训练好的质量评价模型;
如果否,则调整并更新所述当前第一深度学习网络模型的网络参数,返回执行所述将所述训练样本集中的每个样本图像输入到当前第一深度学习网络模型中,获取所述当前第一深度学习网络模型输出的各个样本图像对应的样本质量数值的步骤。
可选的,在所述分别用每一个目标级别中的目标对象样本图像作为输入信息,以及对应的目标对象位置标注信息,对预设的第二深度学习网络模型进行分级训练,获得目标对象检测模型的步骤之前,还包括:
使用预设的图像处理算法,对所述每一个目标级别中的目标对象样本图像进行图像处理,将所述每一个目标级别中的目标对象样本图像的数量转换为相同的预设数量;所述图像处理算法用于增加目标对象样本图像的数量。
可选的,所述第二深度学习网络模型为基于注意力机制的深度学习网络模型;
所述分别用每一个目标级别中的目标对象样本图像作为输入信息,以及对应的目标对象位置标注信息,对预设的第二深度学习网络模型进行分级训练,获得目标对象检测模型的步骤,包括:
基于目标质量数值,将所述多个目标级别中的质量最好的目标级别,作为当前输入级别;
将所述当前输入级别的每个目标对象样本图像输入至当前第二深度学习网络模型中,获取所述当前第二深度学习网络模型输出的各个目标对象位置预测信息;
基于各个目标对象位置预测信息、所述目标对象位置标注信息和预设的第二损失函数,计算损失值;
根据预设的第二损失函数的损失值,判断所述当前第二深度学习网络模型是否收敛;
如果所述当前第二深度学习网络模型未收敛,则调整并更新所述当前第二深度学习网络模型的网络参数及特征图的各个通道的权重数值,返回执行所述将所述当前输入级别的每个目标对象样本图像输入至当前第二深度学习网络模型中,获取所述当前第二深度学习网络模型输出的各个目标对象位置预测信息的步骤;
如果所述当前第二深度学习网络模型收敛,则获取当前输入级别的目标对象样本图像作为当前中间测试图像,输入至所述当前第二深度学习网络模型,获取所述当前中间测试图像对应的目标对象位置预测信息,并且基于对应的目标对象位置标注信息,判断所述当前第二深度学习网络模型的预测准确度是否达到预设的准确度阈值;
如果所述当前第二深度学习网络模型的预测准确度未达到预设的准确度阈值,则返回执行所述将所述当前输入级别的每个目标对象样本图像输入至当前第二深度学习网络模型中,获取所述当前第二深度学习网络模型输出的各个目标对象位置预测信息的步骤;
如果所述当前第二深度学习网络模型的预测准确度达到预设的准确度阈值,则将所述当前第二深度学习网络模型,作为使用当前输入级别中的目标对象样本图像训练好的当前中间目标对象检测模型;
判断是否存在未参与训练的目标级别;
如果存在,从未参与训练的目标级别中,选择质量最好的目标级别,作为当前输入级别;返回执行所述将所述当前输入级别的每个目标对象样本图像输入至当前第二深度学习网络模型中,获取所述当前第二深度学习网络模型输出的各个目标对象位置预测信息的步骤;
如果不存在未参与训练的目标级别,则确定所述当前中间目标对象检测模型为训练完成的目标对象检测模型。
可选的,在所述确定所述当前中间目标对象检测模型为训练完成的目标对象检测模型的步骤之后,还包括:
获取预设的测试集;所述测试集中包含多个目标测试图像和其对应的目标对象位置标注信息,所述目标测试图像中包含目标对象;
分别将每个目标测试图像输入至所述训练完成的目标对象检测模型中,获取所述训练完成的目标对象检测模型输出的各个目标对象位置预测信息;
基于各个目标测试图像对应的目标对象位置标注信息,和其对应的目标对象位置预测信息,判断所述训练完成的目标对象检测模型预测的结果是否准确;
如果是,则将所述训练完成的目标对象检测模型作为最终训练好的目标对象检测模型;
如果否,则继续对该训练完成的目标对象检测模型进行训练。
第二方面,本发明实施例提供了一种目标对象检测模型的训练装置,所述装置包括:
目标对象样本图像集合获取单元,用于获取目标对象样本图像集合,所述目标对象样本图像集合中包含:预先获取的多个包含目标对象的目标对象样本图像及其对应的目标对象位置标注信息;
目标质量数值获取单元,用于将每个目标对象样本图像分别输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值;所述质量评价模型为:用样本图像及其标注的图像质量数值,对预设的第一深度学习网络模型进行训练获得的;
目标级别划分单元,用于根据各个目标质量数值,将所述各个目标对象样本图像,划分为预设的多个目标级别;
目标对象检测模型获得单元,用于分别用每一个目标级别中的目标对象样本图像作为输入信息,以及对应的目标对象位置标注信息,对预设的第二深度学习网络模型进行分级训练,获得目标对象检测模型。
可选的,所述装置还包括:
目标变换图像获得单元,用于在所述目标质量数值获取单元将每个目标对象样本图像分别输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值之前,分别将每个目标对象样本图像进行图像变换处理,获得对应的目标变换图像;所述图像变换处理用于增加目标对象样本图像的数量和/或增大分辨率;
所述目标质量数值获取单元,具体用于:
将获得的各个目标变换图像和各个目标对象样本图像,均作为目标对象样本图像输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值。
可选的,所述目标变换图像获得单元,具体用于:
使用预设的图像数据增强算法,对每个目标对象样本图像进行多次数据增强处理,获得多个目标变换图像;和/或,
基于图像变换网络模型,增强或者抑制所述目标对象样本图像中不同的特征,获得所述目标对象样本图像对应的目标变换图像;和/或,
将每个目标对象样本图像输入至预设的超分辨率网络模型,获得所述预设的超分辨率网络模型输出的,分辨率高于目标对象样本图像的目标变换图像。
可选的,所述装置还包括:质量评价模型训练单元;
所述质量评价模型训练单元,具体用于:
获取训练样本集;所述训练样本集中包含多个训练样本;其中,每个训练样本包含:样本图像和其标注的图像质量数值;
将所述训练样本集中的每个样本图像输入到当前第一深度学习网络模型中,获取所述当前第一深度学习网络模型输出的各个样本图像对应的样本质量数值;
基于各个样本质量数值、各个标注的图像质量数值和预设的第一损失函数,计算损失值;
根据预设的第一损失函数的损失值,判断所述当前第一深度学习网络模型是否收敛;
如果是,则将当前第一深度学习网络模型作为训练好的质量评价模型;
如果否,则调整并更新所述当前第一深度学习网络模型的网络参数,返回执行所述将所述训练样本集中的每个样本图像输入到当前第一深度学习网络模型中,获取所述当前第一深度学习网络模型输出的各个样本图像对应的样本质量数值的步骤。
可选的,所述装置还包括:
数量转换单元,用于在所述目标对象检测模型获得单元分别用每一个目标级别中的目标对象样本图像作为输入信息,以及对应的目标对象位置标注信息,对预设的第二深度学习网络模型进行分级训练,获得目标对象检测模型之前,使用预设的图像处理算法,对所述每一个目标级别中的目标对象样本图像进行图像处理,将所述每一个目标级别中的目标对象样本图像的数量转换为相同的预设数量;所述图像处理算法用于增加目标对象样本图像的数量。
可选的,所述第二深度学习网络模型为基于注意力机制的深度学习网络模型;
所述目标对象检测模型获得单元,具体用于:
基于目标质量数值,将所述多个目标级别中的质量最好的目标级别,作为当前输入级别;
将所述当前输入级别的每个目标对象样本图像输入至当前第二深度学习网络模型中,获取所述当前第二深度学习网络模型输出的各个目标对象位置预测信息;
基于各个目标对象位置预测信息、所述目标对象位置标注信息和预设的第二损失函数,计算损失值;
根据预设的第二损失函数的损失值,判断所述当前第二深度学习网络模型是否收敛;
如果所述当前第二深度学习网络模型未收敛,则调整并更新所述当前第二深度学习网络模型的网络参数及特征图的各个通道的权重数值,返回执行所述将所述当前输入级别的每个目标对象样本图像输入至当前第二深度学习网络模型中,获取所述当前第二深度学习网络模型输出的各个目标对象位置预测信息的步骤;
如果所述当前第二深度学习网络模型收敛,则获取当前输入级别的目标对象样本图像作为当前中间测试图像,输入至所述当前第二深度学习网络模型,获取所述当前中间测试图像对应的目标对象位置预测信息,并且基于对应的目标对象位置标注信息,判断所述当前第二深度学习网络模型的预测准确度是否达到预设的准确度阈值;
如果所述当前第二深度学习网络模型的预测准确度未达到预设的准确度阈值,则返回执行所述将所述当前输入级别的每个目标对象样本图像输入至当前第二深度学习网络模型中,获取所述当前第二深度学习网络模型输出的各个目标对象位置预测信息的步骤;
如果所述当前第二深度学习网络模型的预测准确度达到预设的准确度阈值,则将所述当前第二深度学习网络模型,作为使用当前输入级别中的目标对象样本图像训练好的当前中间目标对象检测模型;
判断是否存在未参与训练的目标级别;
如果存在,从未参与训练的目标级别中,选择质量最好的目标级别,作为当前输入级别;返回执行所述将所述当前输入级别的每个目标对象样本图像输入至当前第二深度学习网络模型中,获取所述当前第二深度学习网络模型输出的各个目标对象位置预测信息的步骤;
如果不存在未参与训练的目标级别,则确定所述当前中间目标对象检测模型为训练完成的目标对象检测模型。
可选的,所述装置还包括:测试单元;
所述测试单元,具体用于:
在所述目标对象检测模型获得单元确定所述当前中间目标对象检测模型为训练完成的目标对象检测模型之后,获取预设的测试集;所述测试集中包含多个目标测试图像和其对应的目标对象位置标注信息,所述目标测试图像中包含目标对象;
分别将每个目标测试图像输入至所述训练完成的目标对象检测模型中,获取所述训练完成的目标对象检测模型输出的各个目标对象位置预测信息;
基于各个目标测试图像对应的目标对象位置标注信息,和其对应的目标对象位置预测信息,判断所述训练完成的目标对象检测模型预测的结果是否准确;
如果是,则将所述训练完成的目标对象检测模型作为最终训练好的目标对象检测模型;
如果否,则继续对该训练完成的目标对象检测模型进行训练。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一目标对象检测模型的训练的方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行上述任一目标对象检测模型的训练方法的步骤。
第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的目标对象检测模型的训练方法。
本发明实施例提供的目标对象检测模型的训练方法、装置、电子设备及存储介质,可以获取目标对象样本图像集合,所述目标对象样本图像集合中包含:预先获取的多个包含目标对象的目标对象样本图像及其对应的目标对象位置标注信息;将每个目标对象样本图像分别输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值;所述质量评价模型为:用样本图像及其标注的图像质量数值,对预设的第一深度学习网络模型进行训练获得的;根据各个目标质量数值,将所述各个目标对象样本图像,划分为预设的多个目标级别;分别用每一个目标级别中的目标对象样本图像作为输入信息,以及对应的目标对象位置标注信息,对预设的第二深度学习网络模型进行分级训练,获得目标对象检测模型。
可见,应用本发明实施例,根据目标对象样本图像的目标质量数值,将各个目标对象样本图像,划分为预设的多个目标级别,分别用每一个目标级别对预设的第二深度学习网络模型进行分级训练,这样,可以让模型进行有梯度的学习,有针对性的对模型进行改善,提高了模型的训练速度。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的目标对象检测模型的训练方法的一种流程图;
图2为本发明实施例提供的目标对象检测模型的训练方法的另一种流程图;
图3为本发明实施例提供的目标对象检测模型的训练方法的再一种流程图;
图4为对训练完成的目标对象检测模型进行测试的一种流程图;
图5为第二深度学习网络模型的一种结构图;
图6为图2所示实施例中步骤S202和图3所示实施例中步骤S302的第二种图像变换方式的具体流程图;
图7为本发明实施例中所使用的质量评价模型的训练方法的一种流程图;
图8为本发明实施例提供的目标对象检测模型的训练装置的结构示意图;
图9为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高对目标对象检测模型的训练速度,本发明实施例提供了一种目标对象检测模型的训练的方法、装置、电子设备及存储介质。
本发明实施例所提供的目标对象检测模型的训练的方法可以应用于任意需要提高对目标对象检测模型的训练速度的电子设备,如:电脑或移动终端等,在此不做具体限定。为了描述方便,以下简称电子设备。
参见图1,为本发明实施例提供的目标对象检测模型的训练方法,如图1所示,该方法的具体处理流程可以包括:
步骤S101,获取目标对象样本图像集合,所述目标对象样本图像集合中包含:预先获取的多个包含目标对象的目标对象样本图像及其对应的目标对象位置标注信息。
步骤S102,将每个目标对象样本图像分别输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值;所述质量评价模型为:用样本图像及其标注的图像质量数值,对预设的第一深度学习网络模型进行训练获得的。
步骤S103,根据各个目标质量数值,将所述各个目标对象样本图像,划分为预设的多个目标级别。
步骤S104,分别用每一个目标级别中的目标对象样本图像作为输入信息,以及对应的目标对象位置标注信息,对预设的第二深度学习网络模型进行分级训练,获得目标对象检测模型。
可见,应用本发明实施例,根据目标对象样本图像的目标质量数值,将各个目标对象样本图像,划分为预设的多个目标级别,分别用每一个目标级别对预设的第二深度学习网络模型进行分级训练,这样,可以让模型进行有梯度的学习,有针对性的对模型进行改善,提高了模型的训练速度。
参见图2,为本发明实施例提供的目标对象检测模型的训练方法的另一种流程图,包括:
步骤S201,获取目标对象样本图像集合,所述目标对象样本图像集合中包含:预先获取的多个包含目标对象的目标对象样本图像及其对应的目标对象位置标注信息。
可实施的,目标对象样本图像可以为通过爬虫获取的包含目标对象的视频帧图像或者图像,或者为采用高清或低清相机等方式采集的包含目标对象的视频帧图像或者图像,在此,对目标对象样本图像的获取方式不做具体限定。获取目标对象样本图像后,人工标注目标对象的位置信息,作为目标对象位置标注信息。
可实施的,目标对象位置标注信息可以包含:目标对象的中心点坐标,目标对象的长和宽。
步骤S202,分别将每个目标对象样本图像进行图像变换处理,获得对应的目标变换图像;所述图像变换处理用于增加目标对象样本图像的数量和/或增大分辨率。
步骤S203,将获得的各个目标变换图像和各个目标对象样本图像,均作为目标对象样本图像输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值。
其中,所述质量评价模型为:用样本图像及其标注的图像质量数值,对预设的第一深度学习网络模型进行训练获得的。
可实施的,在本实施例中,目标质量数值可以为0到100的数值,目标质量数值越大,表示目标对象样本图像的质量越好;也可以为目标质量数值越小,表示目标对象样本图像的质量越好,在这里不做具体限制。
步骤S204,根据各个目标质量数值,将所述各个目标对象样本图像,划分为预设的多个目标级别。
可实施的,目标级别预设的个数可以为3个或4个等。
可实施的,以目标质量数值越大,表示目标对象样本图像的质量越好,划分为3个目标级别为例,具体可以包括:
步骤A,将目标质量数值大于第一预设阈值的目标对象样本图像,作为第一目标级别的目标对象样本图像。
例如:第一预设阈值为80,将目标质量数值大于80的目标对象样本图像,作为第一目标级别的目标对象样本图像。即,该级别中的图像的质量最好。
步骤B,将目标质量数值大于第二预设阈值,且不大于第一预设阈值的目标对象样本图像,作为第二目标级别的目标对象样本图像;所述第二预设阈值小于所述第一预设阈值。
例如:第二预设阈值可以为50或60等数值。
步骤C,将目标质量数值不大于第二预设阈值的目标对象样本图像,作为第三目标级别的目标对象样本图像。
相较于前两个级别,该第三目标级别的目标对象样本图像的质量最差。
步骤S205,使用预设的图像处理算法,对所述每一个目标级别中的目标对象样本图像进行图像处理,将所述每一个目标级别中的目标对象样本图像的数量转换为相同的预设数量。
可实施的,预设的图像处理算法为用于增加目标对象样本图像的数量且不改变目标对象样本图像的质量的算法。例如:翻转、裁剪、旋转和遮挡等算法均可。
步骤S206,分别用每一个目标级别中的目标对象样本图像作为输入信息,以及对应的目标对象位置标注信息,对预设的第二深度学习网络模型进行分级训练,获得目标对象检测模型。
可见,应用本发明实施例,根据目标对象样本图像的目标质量数值,将各个目标对象样本图像,划分为预设的多个目标级别,分别用每一个目标级别对预设的第二深度学习网络模型进行分级训练,这样,可以让模型进行有梯度的学习,有针对性的对模型进行改善,提高了模型的训练速度。
而且,在本实施例中,先将每个目标对象样本图像进行图像变换处理,获得对应的目标变换图像,再将获得的各个目标变换图像和各个目标对象样本图像,均作为目标对象样本图像输入至质量评价模型,这样,增多了目标对象样本图像的数量,提高了获得目标对象样本图像的效率,进而提高了对目标对象检测模型的训练效率。同时,将每一个目标级别中的目标对象样本图像的数量转换为相同的预设数量,防止样本分布不均衡,预设的第二深度学习网络模型学习的不够充分,出现欠拟合的情况。
在其他实施例中,也可以不包含步骤S205,即不将每一个目标级别中的目标对象样本图像的数量转换为相同的预设数量,在可以实现对预设的第二深度学习网络模型进行分级训练,一定程度上也可以提高对模型的训练速度。
参见图3,为本发明实施例提供的目标对象检测模型的训练的方法的再一种流程图,包括:
步骤S301,获取目标对象样本图像集合。
其中,所述目标对象样本图像集合中包含:预先获取的多个包含目标对象的目标对象样本图像及其对应的目标对象位置标注信息。
步骤S302,分别将每个目标对象样本图像进行图像变换处理,获得对应的目标变换图像;所述图像变换处理用于增加目标对象样本图像的数量和/或增大分辨率。
步骤S303,将获得的各个目标变换图像和各个目标对象样本图像,均作为目标对象样本图像输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值。
其中,所述质量评价模型为:用样本图像及其标注的图像质量数值,对预设的第一深度学习网络模型进行训练获得的。
步骤S304,根据各个目标质量数值,将所述各个目标对象样本图像,划分为预设的多个目标级别。
步骤S305,使用预设的图像处理算法,对所述每一个目标级别中的目标对象样本图像进行图像处理,将所述每一个目标级别中的目标对象样本图像的数量转换为相同的预设数量;所述图像处理算法用于增加目标对象样本图像的数量。
实际应用中,本实施例中的步骤S301~S305可以与上述图2所示实施例中的步骤S201~S205相同。
步骤S306,基于目标质量数值,将所述多个目标级别中的质量最好的目标级别,作为当前输入级别。
步骤S307,将所述当前输入级别的每个目标对象样本图像输入至当前第二深度学习网络模型中,获取所述当前第二深度学习网络模型输出的各个目标对象位置预测信息。
本实施例中,所述第二深度学习网络模型为基于注意力机制的深度学习网络模型,具体的,所述第二深度学习网络模型可以为基于注意力机制的yolo-v3网络。
在其它实施例中,第二深度学习网络模型也可以是:未加入注意力机制的深度学习网络模型。
步骤S308,基于各个目标对象位置预测信息、所述目标对象位置标注信息和预设的第二损失函数,计算损失值。
可实施的,预设的第二损失函数可以为平方损失函数,具体的公式为:
其中,Loss2为第二损失函数的损失值;n为目标对象样本图像的序号;s为目标对象样本图像的个数;F′n为第n个目标对象样本图像对应的目标对象位置标注信息;Fn为第n个目标对象样本图像对应的目标对象位置预测信息。
可实施的,第二损失函数也可以为其它损失函数,在这里不做具体限定。
步骤S309,根据预设的第二损失函数的损失值,判断所述当前第二深度学习网络模型是否收敛。
如果所述当前第二深度学习网络模型未收敛,则执行步骤S310;如果所述当前第二深度学习网络模型收敛,则执行步骤S311。
步骤S310,调整并更新所述当前第二深度学习网络模型的网络参数及特征图的各个通道的权重数值。返回执行步骤S307。
在其它实施例中,当第二深度学习网络模型是:未加入注意力机制的深度学习网络模型时,本步骤可以为:只调整并更新所述当前第二深度学习网络模型的网络参数。
步骤S311,获取当前输入级别的目标对象样本图像作为当前中间测试图像,输入至所述当前第二深度学习网络模型,获取所述当前中间测试图像对应的目标对象位置预测信息,并且基于对应的目标对象位置标注信息,判断所述当前第二深度学习网络模型的预测准确度是否达到预设的准确度阈值。
本实施例中,采用本步骤,对使用当前输入级别中的目标对象样本图像训练后收敛的当前第二深度学习网络模型,进一步使用当前输入级别的目标对象样本图像作为当前中间测试图像,对当前第二深度学习网络模型预测的准确度进行了测试。这样,提高了用每一个目标级别的目标样本图像,对第二深度学习网络模型训练时获得的当前第二深度学习网络模型的准确度,获得的当前第二深度学习网络模型更精确。
在其他实施例中,也可以不包含本步骤,即不使用当前输入级别的目标对象样本图像作为当前中间测试图像,对当前第二深度学习网络模型预测的准确度进行测试。
如果所述当前第二深度学习网络模型的预测准确度未达到预设的准确度阈值,则返回执行步骤S307;如果所述当前第二深度学习网络模型的预测准确度达到预设的准确度阈值,则执行步骤S312。
步骤S312,将所述当前第二深度学习网络模型,作为使用当前输入级别中的目标对象样本图像训练好的当前中间目标对象检测模型。
步骤S313,判断是否存在未参与训练的目标级别。
如果存在未参与训练的目标级别,则执行步骤S314;如果不存在未参与训练的目标级别,则执行步骤S315。
步骤S314,从未参与训练的目标级别中,选择质量最好的目标级别,作为当前输入级别。返回执行步骤S307。
步骤S315,确定所述当前中间目标对象检测模型为训练完成的目标对象检测模型。
可见,应用本实施例,对基于注意力机制的深度学习网络模型进行训练,获得目标对象检测模型,可以对应该注意的特征提高重视,加快第二深度学习网络模型学习的速度,并且提高了第二深度学习网络模型预测的精确度。
通常对于图像质量较好的目标级别,第二深度学习网络模型学习的较容易,速度较快,在本实施例中,先用多个目标级别中的质量最好的目标级别对第二深度学习网络模型进行训练;再依次用未参与训练的目标级别中,质量最好的目标级别对第二深度学习网络模型进行训练。这样,这种由容易到难的有梯度的训练,有针对性的改善,较大程度的提高了模型的训练速度。
在其它实施例中,也可以先用质量最差的目标级别对第二深度学习网络模型进行训练,再依次用图像质量较差的目标级别进行训练,相对于无梯度的学习,这种方式在一定程度上也提高了模型的训练速度。
在其它实施例中,第二深度学习网络模型可以为:不采用注意力机制的深度学习网络模型,但是,采用分级训练的方法,也可以一定程度上提高模型的训练速度。
进一步的,在上述步骤S315之后,可以对训练完成的目标对象检测模型进行测试。
参见图4,为对训练完成的目标对象检测模型进行测试的一种流程图,如图4所示,包括:
步骤S401,获取预设的测试集。
其中,所述测试集中包含多个目标测试图像和其对应的目标对象位置标注信息,所述目标测试图像中包含目标对象。
可实施的,预设的测试集可以为相关技术中的coco-2017中的测试集。
步骤S402,分别将每个目标测试图像输入至所述训练完成的目标对象检测模型中,获取所述训练完成的目标对象检测模型输出的各个目标对象位置预测信息。
步骤S403,基于各个目标测试图像对应的目标对象位置标注信息,和其对应的目标对象位置预测信息,判断所述训练完成的目标对象检测模型预测的结果是否准确。
可实施的,可以在训练完成的目标对象检测模型预测的结果的准确率达到预设的目标阈值时,确定预测的结果准确。
如果判断的结果为是,即所述训练完成的目标对象检测模型预测的结果准确,则执行步骤S404;如果判断的结果为否,即所述训练完成的目标对象检测模型预测的结果不准确,则执行步骤S405。
步骤S404,将所述训练完成的目标对象检测模型作为最终训练好的目标对象检测模型。
步骤S405,继续对该训练完成的目标对象检测模型进行训练。
可实施的,可以执行图3所示实施例中的步骤S306,对目标对象检测模型进行新一轮的训练。
在本实施例中,使用测试集对训练完成的目标对象检测模型进行测试,进一步保证了目标对象检测模型的精确度,从而保证目标对象检测模型预测的结果较准确。
具体的,基于注意力机制的深度学习网络模型的工作原理,如图5所示。
参见图5,为第二深度学习网络模型的一种结构图,包括:
卷积模块510、池化模块520、注意力机制模块530、全连接模块540及输出模块550。
将目标对象样本图像输入第二深度学习网络模型中,依次经过卷积模块510和池化模块520,进行目标特征的提取,得到包含预设数量个通道的目标特征图,将所述预设数量个通道的目标特征图输入至注意力机制模块530,计算得到修正特征图,将修正特征图输入至全连接模块540和输出模块550,输出目标对象的位置信息。
其中,特征图的通道的个数是由第二深度学习网络中的参数确定的。
将所述预设数量个通道的目标特征图输入至注意力机制模块,采用如下公式,计算得到修正特征图:
其中,为修正特征图中第i个通道第h行第w列的数值;Mattention[i]为第i个通道的权重数值;Mfeature[h,w,i]为目标特征图中第i个通道的第h行第w列的数值。
其中,第i个通道的权重数值是在第二深度学习网络模型训练的过程中训练确定的。
可实施的,在上述注意力机制模块530之后,也可以继续连接另一个卷积模块和另一个池化模块;也可以连接另一个卷积模块、另一个池化模块和另一个注意力机制模块,在这里对第二深度学习网络模型的网络结构不做具体限定。
具体的,上述图2所示实施例中的步骤S202和图3所示实施例的步骤S302,分别将每个目标对象样本图像进行图像变换处理,获得对应的目标变换图像的具体实施方式至少可以包括以下三种图像变换方式:
第一种图像变换方式:使用预设的图像数据增强算法,对每个目标对象样本图像进行多次数据增强处理,获得多个目标变换图像。
可实施的,图像数据增强算法为:基于有限的数据生成更多同样有效的数据,丰富训练数据的分布。例如:翻转、裁剪、旋转和遮挡等数据增强的算法均可。
第二种图像变换方式:基于图像变换网络模型,增强或者抑制所述目标对象样本图像中不同的特征,获得所述目标对象样本图像对应的目标变换图像。
第三种图像变换方式:将每个目标对象样本图像输入至预设的超分辨率网络模型,获得所述预设的超分辨率网络模型输出的,分辨率高于目标对象样本图像的目标变换图像。
其中,预设的超分辨率网络模型可以为相关技术中训练好的超分辨率网络模型。可以为将低分辨率的图像转化为高分辨率的图像的卷积神经网络模型。进而再将目标变换图像也作为目标对象样本图像。采用这种图像变换方式,增加了目标对象样本图像数量的同时,也增大了目标对象样本图像的分辨率,进而可以更快获得较多质量较高的目标对象样本图像,解决了一般情况下,质量较高的目标对象样本图像较少的问题。
可实施的,将每个目标对象样本图像进行图像变换处理,获得对应的目标变换图像的具体实现,可以采用以上三种图像变换方式的任意组合。例如:将每一个目标对象样本图像都用以上三种图像变换方式进行处理;将每个目标对象样本图像只采用以上三种图像变换方式中的任意两种进行处理;或者将每个目标对象样本图像只采用以上任一种图像变换方式进行处理等等均可。
如图6所示,为上述步骤S202和图3所示实施例的步骤S302的第二种图像变换方式的具体流程,包括:
步骤S601,获取预先训练好的图像变换网络模型。
可实施的,所述图像变换网络模型为使用样本随机向量和目标对象样本图像训练好的生成式对抗网络中的生成网络,图像变换网络模型为输入随机向量后,输出与目标对象样本图像相似度较高的图像的一类网络模型。例如:图像变换网络模型可以为StyleGAN网络模型。
步骤S602,获取目标随机向量,并输入至所述图像变换网络模型,获取所述图像变换网络模型输出的目标图像。
可实施的,该目标随机向量为电子设备生成的。
步骤S603,采用图像分割方法,获取所述目标对象样本图像中待增强或者抑制的区域作为目标区域。
例如:目标对象为汽车,待增强的区域为图像中的车灯区域。则可以采用如下步骤对车灯区域进行增强,获得增强了车灯区域的目标变换图像;待抑制的区域为除了汽车之外的背景区域,则可以采用如下步骤对背景区域进行抑制。
步骤S604,获取所述图像变换网络模型,在生成所述目标图像时的各个中间特征图,作为各个特征图像。
步骤S605,计算各个特征图像与所述目标区域的相似度,将相似度最高的特征图像作为目标特征图像。
步骤S606,确定图像变换网络模型中,输出所述目标特征图像的目标层,调整所述目标层中的激活函数的参数,以对目标区域进行增强或者抑制,获得目标变换图像。
其中,调整所述目标层中的激活函数的参数,具体可以通过接收到的调整指令或者基于预设的调整规则,进行调整。
第一种方式:通过接收到的调整指令进行参数调整的方法具体可以为:在上述步骤S604中,获取各个特征图像后,将特征图像进行上采样的可视化处理,展示给用户,用户基于展示的特征图像,输入调整指令。
第二种方式:基于预设的调整规则进行参数调整,其中,预设的调整规则可以为一种预设的调参函数,电子设备可以基于该预设的调参函数,调整目标层的激活函数的参数,无需人为参与,实现自动化调参。
上述实施例中的质量评价模型的训练流程具体可以如图7所示。
参见图7,为本发明实施例中所使用的质量评价模型的训练方法的一种流程图,该方法的具体处理流程可以包括:
步骤S701,获取训练样本集;所述训练样本集中包含多个训练样本;其中,每个训练样本包含:样本图像和其标注的图像质量数值。
步骤S702,将所述训练样本集中的每个样本图像输入到当前第一深度学习网络模型中,获取所述当前第一深度学习网络模型输出的各个样本图像对应的样本质量数值。
可实施的,当前第一深度学习网络模型可以为预设的卷积神经网络模型,具体的可以为concept-50网络模型。
步骤S703,基于各个样本质量数值、各个标注的图像质量数值和预设的第一损失函数,计算损失值。
可实施的,预设的第一损失函数可以为平均绝对误差损失函数,具体的公式为:
其中,Loss1为第一损失函数的损失值;i为训练样本集中的样本图像的序号;m为训练样本集中的样本图像的个数;y′i为训练样本集中的第i个样本图像对应的标注的图像质量数值;yi为训练样本集中的第i个样本图像对应的的样本质量数值。
可实施的,第一损失函数也可以为其它损失函数,在这里不做具体限定。
步骤S704,根据预设的第一损失函数的损失值,判断所述当前第一深度学习网络模型是否收敛。
如果判断的结果为否,即所述当前第一深度学习网络模型不收敛,则执行步骤S705;如果判断的结果为是,即所述当前第一深度学习网络模型收敛,则执行步骤S706。
步骤S705,调整并更新所述当前第一深度学习网络模型的网络参数。返回执行步骤S702。
步骤S706,将当前第一深度学习网络模型作为训练好的质量评价模型。
可实施的,本发明实施例中的目标对象可以为车辆,目标对象样本图像可以为车辆样本图像,应用本发明实施例所述的方法,可以获得车辆检测模型,应用时,将图像输入到车辆检测模型中,可以较准确的获得图像中车辆的位置,进而应用到自动驾驶领域。
本发明实施例提供的目标对象检测模型的训练的装置的结构示意图,如图8所示,所述装置包括:
目标对象样本图像集合获取单元801,用于获取目标对象样本图像集合,所述目标对象样本图像集合中包含:预先获取的多个包含目标对象的目标对象样本图像及其对应的目标对象位置标注信息;
目标质量数值获取单元802,用于将每个目标对象样本图像分别输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值;所述质量评价模型为:用样本图像及其标注的图像质量数值,对预设的第一深度学习网络模型进行训练获得的;
目标级别划分单元803,用于根据各个目标质量数值,将所述各个目标对象样本图像,划分为预设的多个目标级别;
目标对象检测模型获得单元804,用于分别用每一个目标级别中的目标对象样本图像作为输入信息,以及对应的目标对象位置标注信息,对预设的第二深度学习网络模型进行分级训练,获得目标对象检测模型。
可选的,所述装置还包括:
目标变换图像获得单元,用于在所述目标质量数值获取单元将每个目标对象样本图像分别输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值之前,分别将每个目标对象样本图像进行图像变换处理,获得对应的目标变换图像;所述图像变换处理用于增加目标对象样本图像的数量和/或增大分辨率;
所述目标质量数值获取单元802,具体用于:
将获得的各个目标变换图像和各个目标对象样本图像,均作为目标对象样本图像输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值。
可选的,所述目标变换图像获得单元,具体用于:
使用预设的图像数据增强算法,对每个目标对象样本图像进行多次数据增强处理,获得多个目标变换图像;和/或,
基于图像变换网络模型,增强或者抑制所述目标对象样本图像中不同的特征,获得所述目标对象样本图像对应的目标变换图像;和/或,
将每个目标对象样本图像输入至预设的超分辨率网络模型,获得所述预设的超分辨率网络模型输出的,分辨率高于目标对象样本图像的目标变换图像。
可选的,其特征在于,所述装置还包括:质量评价模型训练单元;
所述质量评价模型训练单元,具体用于:
获取训练样本集;所述训练样本集中包含多个训练样本;其中,每个训练样本包含:样本图像和其标注的图像质量数值;
将所述训练样本集中的每个样本图像输入到当前第一深度学习网络模型中,获取所述当前第一深度学习网络模型输出的各个样本图像对应的样本质量数值;
基于各个样本质量数值、各个标注的图像质量数值和预设的第一损失函数,计算损失值;
根据预设的第一损失函数的损失值,判断所述当前第一深度学习网络模型是否收敛;
如果是,则将当前第一深度学习网络模型作为训练好的质量评价模型;
如果否,则调整并更新所述当前第一深度学习网络模型的网络参数,返回执行所述将所述训练样本集中的每个样本图像输入到当前第一深度学习网络模型中,获取所述当前第一深度学习网络模型输出的各个样本图像对应的样本质量数值的步骤。
可选的,所述装置还包括:
数量转换单元,用于在所述目标对象检测模型获得单元分别用每一个目标级别中的目标对象样本图像作为输入信息,以及对应的目标对象位置标注信息,对预设的第二深度学习网络模型进行分级训练,获得目标对象检测模型之前,使用预设的图像处理算法,对所述每一个目标级别中的目标对象样本图像进行图像处理,将所述每一个目标级别中的目标对象样本图像的数量转换为相同的预设数量;所述图像处理算法用于增加目标对象样本图像的数量。
可选的,所述第二深度学习网络模型为基于注意力机制的深度学习网络模型;
所述目标对象检测模型获得单元804,具体用于:
基于目标质量数值,将所述多个目标级别中的质量最好的目标级别,作为当前输入级别;
将所述当前输入级别的每个目标对象样本图像输入至当前第二深度学习网络模型中,获取所述当前第二深度学习网络模型输出的各个目标对象位置预测信息;
基于各个目标对象位置预测信息、所述目标对象位置标注信息和预设的第二损失函数,计算损失值;
根据预设的第二损失函数的损失值,判断所述当前第二深度学习网络模型是否收敛;
如果所述当前第二深度学习网络模型未收敛,则调整并更新所述当前第二深度学习网络模型的网络参数及特征图的各个通道的权重数值,返回执行所述将所述当前输入级别的每个目标对象样本图像输入至当前第二深度学习网络模型中,获取所述当前第二深度学习网络模型输出的各个目标对象位置预测信息的步骤;
如果所述当前第二深度学习网络模型收敛,则获取当前输入级别的目标对象样本图像作为当前中间测试图像,输入至所述当前第二深度学习网络模型,获取所述当前中间测试图像对应的目标对象位置预测信息,并且基于对应的目标对象位置标注信息,判断所述当前第二深度学习网络模型的预测准确度是否达到预设的准确度阈值;
如果所述当前第二深度学习网络模型的预测准确度未达到预设的准确度阈值,则返回执行所述将所述当前输入级别的每个目标对象样本图像输入至当前第二深度学习网络模型中,获取所述当前第二深度学习网络模型输出的各个目标对象位置预测信息的步骤;
如果所述当前第二深度学习网络模型的预测准确度达到预设的准确度阈值,则将所述当前第二深度学习网络模型,作为使用当前输入级别中的目标对象样本图像训练好的当前中间目标对象检测模型;
判断是否存在未参与训练的目标级别;
如果存在,从未参与训练的目标级别中,选择质量最好的目标级别,作为当前输入级别;返回执行所述将所述当前输入级别的每个目标对象样本图像输入至当前第二深度学习网络模型中,获取所述当前第二深度学习网络模型输出的各个目标对象位置预测信息的步骤;
如果不存在未参与训练的目标级别,则确定所述当前中间目标对象检测模型为训练完成的目标对象检测模型。
可选的,所述装置还包括:测试单元;
所述测试单元,具体用于:
在所述目标对象检测模型获得单元确定所述当前中间目标对象检测模型为训练完成的目标对象检测模型之后,获取预设的测试集;所述测试集中包含多个目标测试图像和其对应的目标对象位置标注信息,所述目标测试图像中包含目标对象;
分别将每个目标测试图像输入至所述训练完成的目标对象检测模型中,获取所述训练完成的目标对象检测模型输出的各个目标对象位置预测信息;
基于各个目标测试图像对应的目标对象位置标注信息,和其对应的目标对象位置预测信息,判断所述训练完成的目标对象检测模型预测的结果是否准确;
如果是,则将所述训练完成的目标对象检测模型作为最终训练好的目标对象检测模型;
如果否,则继续对该训练完成的目标对象检测模型进行训练。
本发明实施例还提供了一种电子设备,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现如下步骤:
获取目标对象样本图像集合,所述目标对象样本图像集合中包含:预先获取的多个包含目标对象的目标对象样本图像及其对应的目标对象位置标注信息;
将每个目标对象样本图像分别输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值;所述质量评价模型为:用样本图像及其标注的图像质量数值,对预设的第一深度学习网络模型进行训练获得的;
根据各个目标质量数值,将所述各个目标对象样本图像,划分为预设的多个目标级别;
分别用每一个目标级别中的目标对象样本图像作为输入信息,以及对应的目标对象位置标注信息,对预设的第二深度学习网络模型进行分级训练,获得目标对象检测模型。
可见,应用本发明实施例,根据目标对象样本图像的目标质量数值,将各个目标对象样本图像,划分为预设的多个目标级别,分别用每一个目标级别对预设的第二深度学习网络模型进行分级训练,这样,可以让模型进行有梯度的学习,有针对性的对模型进行改善,提高了模型的训练速度。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一目标对象检测模型的训练方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一目标对象检测模型的训练方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质及计算机程序产品等实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种目标对象检测模型的训练方法,其特征在于,所述方法包括:
获取目标对象样本图像集合,所述目标对象样本图像集合中包含:预先获取的多个包含目标对象的目标对象样本图像及其对应的目标对象位置标注信息;
将每个目标对象样本图像分别输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值;所述质量评价模型为:用样本图像及其标注的图像质量数值,对预设的第一深度学习网络模型进行训练获得的;
根据各个目标质量数值,将所述各个目标对象样本图像,划分为预设的多个目标级别;
分别用每一个目标级别中的目标对象样本图像作为输入信息,以及对应的目标对象位置标注信息,对预设的第二深度学习网络模型进行分级训练,获得目标对象检测模型,其中,先用所述多个目标级别中的质量最好的目标级别对所述第二深度学习网络模型进行训练;再依次用未参与训练的目标级别中,质量最好的目标级别对所述第二深度学习网络模型进行训练。
2.根据权利要求1所述的方法,其特征在于,在所述将每个目标对象样本图像分别输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值的步骤之前,还包括:
分别将每个目标对象样本图像进行图像变换处理,获得对应的目标变换图像;所述图像变换处理用于增加目标对象样本图像的数量和/或增大分辨率;
所述将每个目标对象样本图像分别输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值的步骤,包括:
将获得的各个目标变换图像和各个目标对象样本图像,均作为目标对象样本图像输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值。
3.根据权利要求2所述的方法,其特征在于,所述分别将每个目标对象样本图像进行图像变换处理,获得对应的目标变换图像的步骤,包括:
使用预设的图像数据增强算法,对每个目标对象样本图像进行多次数据增强处理,获得多个目标变换图像;和/或,
基于图像变换网络模型,增强或者抑制所述目标对象样本图像中不同的特征,获得所述目标对象样本图像对应的目标变换图像;和/或,
将每个目标对象样本图像输入至预设的超分辨率网络模型,获得所述预设的超分辨率网络模型输出的,分辨率高于目标对象样本图像的目标变换图像。
4.根据权利要求1所述的方法,其特征在于,所述质量评价模型的训练过程包括:
获取训练样本集;所述训练样本集中包含多个训练样本;其中,每个训练样本包含:样本图像和其标注的图像质量数值;
将所述训练样本集中的每个样本图像输入到当前第一深度学习网络模型中,获取所述当前第一深度学习网络模型输出的各个样本图像对应的样本质量数值;
基于各个样本质量数值、各个标注的图像质量数值和预设的第一损失函数,计算损失值;
根据预设的第一损失函数的损失值,判断所述当前第一深度学习网络模型是否收敛;
如果是,则将当前第一深度学习网络模型作为训练好的质量评价模型;
如果否,则调整并更新所述当前第一深度学习网络模型的网络参数,返回执行所述将所述训练样本集中的每个样本图像输入到当前第一深度学习网络模型中,获取所述当前第一深度学习网络模型输出的各个样本图像对应的样本质量数值的步骤。
5.根据权利要求1所述的方法,其特征在于,
在所述分别用每一个目标级别中的目标对象样本图像作为输入信息,以及对应的目标对象位置标注信息,对预设的第二深度学习网络模型进行分级训练,获得目标对象检测模型的步骤之前,还包括:
使用预设的图像处理算法,对所述每一个目标级别中的目标对象样本图像进行图像处理,将所述每一个目标级别中的目标对象样本图像的数量转换为相同的预设数量;所述图像处理算法用于增加目标对象样本图像的数量。
6.根据权利要求1或5所述的方法,其特征在于,所述第二深度学习网络模型为基于注意力机制的深度学习网络模型;
所述分别用每一个目标级别中的目标对象样本图像作为输入信息,以及对应的目标对象位置标注信息,对预设的第二深度学习网络模型进行分级训练,获得目标对象检测模型的步骤,包括:
基于目标质量数值,将所述多个目标级别中的质量最好的目标级别,作为当前输入级别;
将所述当前输入级别的每个目标对象样本图像输入至当前第二深度学习网络模型中,获取所述当前第二深度学习网络模型输出的各个目标对象位置预测信息;
基于各个目标对象位置预测信息、所述目标对象位置标注信息和预设的第二损失函数,计算损失值;
根据预设的第二损失函数的损失值,判断所述当前第二深度学习网络模型是否收敛;
如果所述当前第二深度学习网络模型未收敛,则调整并更新所述当前第二深度学习网络模型的网络参数及特征图的各个通道的权重数值,返回执行所述将所述当前输入级别的每个目标对象样本图像输入至当前第二深度学习网络模型中,获取所述当前第二深度学习网络模型输出的各个目标对象位置预测信息的步骤;
如果所述当前第二深度学习网络模型收敛,则获取当前输入级别的目标对象样本图像作为当前中间测试图像,输入至所述当前第二深度学习网络模型,获取所述当前中间测试图像对应的目标对象位置预测信息,并且基于对应的目标对象位置标注信息,判断所述当前第二深度学习网络模型的预测准确度是否达到预设的准确度阈值;
如果所述当前第二深度学习网络模型的预测准确度未达到预设的准确度阈值,则返回执行所述将所述当前输入级别的每个目标对象样本图像输入至当前第二深度学习网络模型中,获取所述当前第二深度学习网络模型输出的各个目标对象位置预测信息的步骤;
如果所述当前第二深度学习网络模型的预测准确度达到预设的准确度阈值,则将所述当前第二深度学习网络模型,作为使用当前输入级别中的目标对象样本图像训练好的当前中间目标对象检测模型;
判断是否存在未参与训练的目标级别;
如果存在,从未参与训练的目标级别中,选择质量最好的目标级别,作为当前输入级别;返回执行所述将所述当前输入级别的每个目标对象样本图像输入至当前第二深度学习网络模型中,获取所述当前第二深度学习网络模型输出的各个目标对象位置预测信息的步骤;
如果不存在未参与训练的目标级别,则确定所述当前中间目标对象检测模型为训练完成的目标对象检测模型。
7.根据权利要求6所述的方法,其特征在于,在所述确定所述当前中间目标对象检测模型为训练完成的目标对象检测模型的步骤之后,还包括:
获取预设的测试集;所述测试集中包含多个目标测试图像和其对应的目标对象位置标注信息,所述目标测试图像中包含目标对象;
分别将每个目标测试图像输入至所述训练完成的目标对象检测模型中,获取所述训练完成的目标对象检测模型输出的各个目标对象位置预测信息;
基于各个目标测试图像对应的目标对象位置标注信息,和其对应的目标对象位置预测信息,判断所述训练完成的目标对象检测模型预测的结果是否准确;
如果是,则将所述训练完成的目标对象检测模型作为最终训练好的目标对象检测模型;
如果否,则继续对该训练完成的目标对象检测模型进行训练。
8.一种目标对象检测模型的训练装置,其特征在于,所述装置包括:
目标对象样本图像集合获取单元,用于获取目标对象样本图像集合,所述目标对象样本图像集合中包含:预先获取的多个包含目标对象的目标对象样本图像及其对应的目标对象位置标注信息;
目标质量数值获取单元,用于将每个目标对象样本图像分别输入至质量评价模型,获取所述质量评价模型输出的各个目标对象样本图像的目标质量数值;所述质量评价模型为:用样本图像及其标注的图像质量数值,对预设的第一深度学习网络模型进行训练获得的;
目标级别划分单元,用于根据各个目标质量数值,将所述各个目标对象样本图像,划分为预设的多个目标级别;
目标对象检测模型获得单元,用于分别用每一个目标级别中的目标对象样本图像作为输入信息,以及对应的目标对象位置标注信息,对预设的第二深度学习网络模型进行分级训练,获得目标对象检测模型,其中,先用所述多个目标级别中的质量最好的目标级别对所述第二深度学习网络模型进行训练;再依次用未参与训练的目标级别中,质量最好的目标级别对所述第二深度学习网络模型进行训练。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
CN202010238685.9A 2020-03-30 2020-03-30 目标对象检测模型训练方法、装置、电子设备及存储介质 Active CN111462069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010238685.9A CN111462069B (zh) 2020-03-30 2020-03-30 目标对象检测模型训练方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010238685.9A CN111462069B (zh) 2020-03-30 2020-03-30 目标对象检测模型训练方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111462069A CN111462069A (zh) 2020-07-28
CN111462069B true CN111462069B (zh) 2023-09-01

Family

ID=71685181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010238685.9A Active CN111462069B (zh) 2020-03-30 2020-03-30 目标对象检测模型训练方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111462069B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949767B (zh) * 2021-04-07 2023-08-11 北京百度网讯科技有限公司 样本图像增量、图像检测模型训练及图像检测方法
CN113223729B (zh) * 2021-05-26 2021-11-02 广州天鹏计算机科技有限公司 一种医疗数据的数据处理方法
CN113344056B (zh) * 2021-05-31 2022-11-22 北京邮电大学 一种人员移动性预测模型的训练方法及装置
CN113255911B (zh) * 2021-06-07 2023-10-13 杭州海康威视数字技术股份有限公司 一种模型训练方法、装置、电子设备及存储介质
CN113408669B (zh) * 2021-07-30 2023-06-16 浙江大华技术股份有限公司 图像的确定方法、装置、存储介质及电子装置
CN114219803B (zh) * 2022-02-21 2022-07-15 浙江大学 一种三阶段图像质量评估的检测方法与***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5403180B1 (ja) * 2013-05-23 2014-01-29 富士ゼロックス株式会社 画像評価方法、画像評価装置及び画像評価プログラム
CN108198130A (zh) * 2017-12-28 2018-06-22 广东欧珀移动通信有限公司 图像处理方法、装置、存储介质及电子设备
CN108389172A (zh) * 2018-03-21 2018-08-10 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN108664840A (zh) * 2017-03-27 2018-10-16 北京三星通信技术研究有限公司 图像识别方法及装置
CN108764372A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 数据集的构建方法和装置、移动终端、可读存储介质
CN110245662A (zh) * 2019-06-18 2019-09-17 腾讯科技(深圳)有限公司 检测模型训练方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11645835B2 (en) * 2017-08-30 2023-05-09 Board Of Regents, The University Of Texas System Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5403180B1 (ja) * 2013-05-23 2014-01-29 富士ゼロックス株式会社 画像評価方法、画像評価装置及び画像評価プログラム
CN108664840A (zh) * 2017-03-27 2018-10-16 北京三星通信技术研究有限公司 图像识别方法及装置
CN108198130A (zh) * 2017-12-28 2018-06-22 广东欧珀移动通信有限公司 图像处理方法、装置、存储介质及电子设备
CN108389172A (zh) * 2018-03-21 2018-08-10 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN108764372A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 数据集的构建方法和装置、移动终端、可读存储介质
CN110245662A (zh) * 2019-06-18 2019-09-17 腾讯科技(深圳)有限公司 检测模型训练方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
袁媛.基于深度卷积网络的图像质量评价方法研究.武汉大学.2020,第1-132页. *

Also Published As

Publication number Publication date
CN111462069A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111462069B (zh) 目标对象检测模型训练方法、装置、电子设备及存储介质
US10096121B2 (en) Human-shape image segmentation method
CN111079570B (zh) 一种人体关键点识别方法、装置及电子设备
CN108090456B (zh) 识别车道线模型的训练方法、车道线识别方法及装置
WO2020239015A1 (zh) 一种图像识别、分类方法、装置、电子设备及存储介质
CN111460155B (zh) 一种基于知识图谱的信息可信度评估方法及装置
CN110929638B (zh) 一种人体关键点识别方法、装置及电子设备
CN113095129B (zh) 姿态估计模型训练方法、姿态估计方法、装置和电子设备
CN106355195B (zh) 用于测量图像清晰度值的***及其方法
CN112085056B (zh) 目标检测模型生成方法、装置、设备及存储介质
CN113065525A (zh) 年龄识别模型训练方法、人脸年龄识别方法及相关装置
CN114897738A (zh) 一种基于语义不一致性检测的图像盲修复方法
CN112434717B (zh) 一种模型训练方法及装置
CN115797735A (zh) 目标检测方法、装置、设备和存储介质
CN112183627A (zh) 生成预测密度图网络的方法和车辆年检标数量检测方法
CN117057443B (zh) 视觉语言模型的提示学习方法及电子设备
CN112307850A (zh) 神经网络训练方法、车道线检测方法、装置和电子设备
CN113222209A (zh) 基于域适应的区域尾气迁移预测方法、***及存储介质
CN112561050B (zh) 一种神经网络模型训练方法及装置
CN111353597B (zh) 一种目标检测神经网络训练方法和装置
CN116597246A (zh) 模型训练方法、目标检测方法、电子设备及存储介质
CN111222558A (zh) 图像处理方法及存储介质
CN113420604B (zh) 多人姿态估计方法、装置和电子设备
CN112016571B (zh) 一种基于注意力机制的特征提取方法、装置及电子设备
CN115661564A (zh) 图像处理模型的训练方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant