CN112541587A - 一种识别模型训练方法、装置、设备及计算机存储介质 - Google Patents

一种识别模型训练方法、装置、设备及计算机存储介质 Download PDF

Info

Publication number
CN112541587A
CN112541587A CN202011298547.6A CN202011298547A CN112541587A CN 112541587 A CN112541587 A CN 112541587A CN 202011298547 A CN202011298547 A CN 202011298547A CN 112541587 A CN112541587 A CN 112541587A
Authority
CN
China
Prior art keywords
preset
prediction
region
value
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011298547.6A
Other languages
English (en)
Inventor
聂泳忠
杨素伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiren Ma Diyan Beijing Technology Co ltd
Original Assignee
Xiren Ma Diyan Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiren Ma Diyan Beijing Technology Co ltd filed Critical Xiren Ma Diyan Beijing Technology Co ltd
Priority to CN202011298547.6A priority Critical patent/CN112541587A/zh
Publication of CN112541587A publication Critical patent/CN112541587A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Multimedia (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种识别模型训练方法、装置、设备及计算机存储介质。方法包括:获取训练样本中训练样本的预设识别区域和预测区域的重叠度,其中,预测区域由第一预设识别模型识别训练样本得到;以及,根据预设识别区域的第一坐标信息和预测区域的第二坐标信息,确定预测区域相对于预设识别区域的回归值,回归值用于表征预设识别区域和预测区域之间的位置关系;根据重叠度、回归值以及回归值的预设权重,确定预测区域相对于预设识别区域的损失值;基于损失值和第一预设识别模型,训练第二预设识别模型。能够使训练过程中产生的目标检测结果快速收敛到标注的真实框所框选的目标对象,提高预设识别模型的训练效率。

Description

一种识别模型训练方法、装置、设备及计算机存储介质
技术领域
本发明属于目标检测领域,尤其涉及一种识别模型训练方法、装置、设备及计算机存储介质。
背景技术
目标检测,也叫目标提取,其中,基于目标识别的深度学习的应用越来越广泛,例如在智能监控、智慧交通等***中,通过目标检测实现对目标的实时动态跟踪。
随着基于图像的深度学习的研究与应用越来越多,通过训练模型,得到能够在实际应用中实现目标检测的应用需求也越来越大。然而,在训练过程中,由于不同图像中的每一个物体的区域大小不一样,长度比也常常不一样,若训练过程中产生的目标检测结果不能快速的收敛到标注的真实框所框选的目标对象,会使得模型的训练耗时长,大大降低模型的训练效率。
发明内容
本发明实施例提供一种识别模型训练方法、装置、设备及计算机存储介质。能够使训练过程中产生的目标检测结果快速收敛到标注的真实框所框选的目标对象,提高预设识别模型的训练效率。
第一方面,本发明实施例提供一种识别模型训练方法,方法包括:
获取训练样本中训练样本的预设识别区域和预测区域的重叠度,其中,预测区域由第一预设识别模型识别训练样本得到;以及,
根据预设识别区域的第一坐标信息和预测区域的第二坐标信息,确定预测区域相对于预设识别区域的回归值,回归值用于表征预设识别区域和预测区域之间的位置关系;
根据重叠度、回归值以及回归值的预设权重,确定预测区域相对于预设识别区域的损失值;
基于损失值和第一预设识别模型,训练第二预设识别模型。
在第一方面的一些可实现方式中,当重叠度小于预设重叠度时,根重叠度、回归值以及回归值的第一预设权重,确定预测区域相对于预设识别区域的损失值。
在第一方面的一些可实现方式中,当重叠度大于或等于预设重叠度时,根重叠度、回归值以及回归值的第二预设权重,确定预测区域相对于预设识别区域的损失值。
在第一方面的一些可实现方式中,在获取训练样本中训练样本的预设识别区域和预测区域的重叠度之前,方法包括:
将训练样本输入预设识别模型,得到预测识别图像,其中,预测识别图像包括预测区域。
在第一方面的一些可实现方式中,确定预测区域相对于预设识别区域的损失值,包括:
将重叠度、回归值以及回归值的预设权重输入预设边框回归损失函数,得到损失值,其中,预设边框回归损失函数为:
Figure BDA0002786104710000021
其中,L为损失值,I为重叠度,α为预设权重,
Figure BDA0002786104710000022
为预测区域的第二坐标信息中的纵坐标,
Figure BDA0002786104710000023
为预测区域的第二坐标信息中的纵坐标,
Figure BDA0002786104710000024
为预设识别区域的第一坐标信息中的横坐标,
Figure BDA0002786104710000025
为预设识别区域的第一坐标信息中的纵坐标,C1和C2均为常数,且C1小于等于C2
第二方面,本发明实施例提供一种识别模型训练装置,装置包括:
获取模块,用于获取训练样本中训练样本的预设识别区域和预测区域的重叠度,其中,预测区域由第一预设识别模型识别训练样本得到;以及,
取模块,还用于根据预设识别区域的第一坐标信息和预测区域的第二坐标信息,确定预测区域相对于预设识别区域的回归值,回归值用于表征预设识别区域和预测区域之间的位置关系;
数据处理模块,用于根据重叠度、回归值以及回归值的预设权重,确定预测区域相对于预设识别区域的损失值;
训练模块,用于基于损失值和第一预设识别模型,训练第二预设识别模型。
在第二方面的一些可实现方式中,预设权重包括第一预设权重,数据处理模块,还用于当重叠度小于预设重叠度时,根重叠度、回归值以及回归值的第一预设权重,确定预测区域相对于预设识别区域的损失值。
在第二方面的一些可实现方式中,预设权重还包括第二预设权重,数据处理模块,还用于当重叠度大于或等于预设重叠度时,根重叠度、回归值以及回归值的第二预设权重,确定预测区域相对于预设识别区域的损失值。
第三方面,本发明提供一种识别模型训练设备,该设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现第一方面或者第一方面任一可实现方式中所述的识别模型训练方法。
第四方面,本发明提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面或者第一方面任一可实现方式中所述的识别模型训练方法。
本发明实施例提供了一种识别模型训练方法,通过获取训练样本的预设识别区域和预测区域的重叠度,以保证在在计算损失值时有更好的拟合效果和收敛效率,同时,根据预设识别区域的第一坐标信息和预测区域的第二坐标信息,确定预测区域相对于预设识别区域的回归值,不仅充分考虑了预测区域与预设识别区域之间的位置关系,而且计算量较少;最后根据重叠度、回归值以及回归值的预设权重,确定预测区域相对于预设识别区域的损失值,并基于损失值,训练预设识别模型,避免了冗余繁琐的计算过程,使训练过程中产生的预测区域快速收敛到标注的真实框所框选的目标对象,提高预设识别模型的训练效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种识别模型训练方法的流程示意图;
图2是本发明实施例提供的预设识别区域和预测区域的示意图;
图3是本发明实施例提供的一种识别模型训练装置的结构示意图;
图4是本发明实施例提供的一种识别模型训练设备的结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本发明,而不是限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
目标检测,也叫目标提取,其中,基于目标识别的深度学习的应用越来越广泛,例如在智能监控、智慧交通等***中,通过目标检测实现对目标的实时动态跟踪。
随着基于图像的深度学习的研究与应用越来越多,通过训练模型,得到能够在实际应用中实现目标检测的应用需求也越来越大。
在目标检测领域,一般把目标边界框表示为四个变量,这四个变量通常是目标边界框的中心点的横坐标(xcenter)、纵坐标(ycenter)、目标边界框的宽(w)和目标边界框的高(h),或者这四个变量是方形目标边界框的四个顶点。
当四个变量是方形目标边界框的四个顶点时,根据传统边框回归计算边框损失,要先独立地求出四个顶点的损失Loss,然后进行相加,这种做法假设了这四个点是相互独立的,但实际上由于这四个点顶点都依赖于同一个目标,因此这四个点有一定相关性的,所以,会使得传统边框回归方法计算得到的损失值不准确。而且,根据传统边框回归在计算边框损失时,实际评价框检测的指标是重叠度(Intersection over Union,IOU),在一些情况下,不同位置的预测框与真实框可能有相同大小的损失(Loss)值,但它们的IOU可能差异很大。因此,计算得到的损失值不准确。
另外,传统边框回归并不具有尺度不变性,大边界框的L2损失通常会大于小边界框的损失,这使得在网络训练过程中,网络会更加注重大边界框的定位,忽视小边界框的定位,最终导致模型对小目标的检测性能较差。而且,当预测框与真实框出现较大差异时,不同层次的计算得到的损失值会很大,容易产生梯度***,不宜收敛。
由于在训练过程中,由于不同图像中的每一个物体的区域大小不一样,长度比也常常不一样,若训练过程中产生的目标检测结果不能快速的收敛到标注的真实框所框选的目标对象,会使得模型的训练耗时长,大大降低模型的训练效率。
现有的边框回归算法有基于IOU的改进,但是由于IOU损失函数没有考虑预测框与真实框之间的位置关系,当预测框和真实框不相交时,不能反映两者之间距离的远近。而且,现有的改进方法中,例如结合目标边界框的中心点的横坐标、纵坐标、目标边界框的宽和高进行计算,考虑了覆盖面积、中心点距离与高宽比,计算出预测框和真实框之间长宽比的相似性,不仅计算量大,而且时间与空间复杂度较高。
针对于此,本发明实施例提供了一种识别模型训练方法,通过获取训练样本中的预设识别区域和预测区域的重叠度,以保证在在计算损失值时有更好的拟合效果和收敛效率,同时,根据预设识别区域的第一坐标信息和预测区域的第二坐标信息,确定预测区域相对于预设识别区域的回归值,最后根据重叠度、回归值以及回归值的预设权重,确定预测区域相对于预设识别区域的损失值,并基于损失值和第一预设识别模型,训练第二预设识别模型,提高预设识别模型的训练效率。
图1示出了本发明一个实施例提供的识别模型训练方法的流程示意图。如图1所示,该方法可以包括S110-S130:
S110、获取训练样本中训练样本的预设识别区域和预测区域的重叠度,以及,根据预设识别区域的第一坐标信息和预测区域的第二坐标信息,确定预测区域相对于预设识别区域的回归值。
在本发明实施例中,预测区域可以由第一预设识别模型识别训练样本得到。回归值用于表征预设识别区域和预测区域之间的位置关系。
在一些实施例中,将训练样本输入预设识别模型,得到预测识别图像,其中,预测识别图像包括预测区域。
在一些实施例中,预设识别区域可以是方形目标边界框,预设识别区域的第一坐标信息可以为方形目标边界框的四个顶点的坐标信息,示例性的,参考图2所示,其中,预设识别区域为G,预设识别区域的第一坐标信息可以为四个顶点的坐标,分别为(xG1,yG1)、(xG2,yG2)、(xG3,yG3)和(xG4,yG4)。第一预设识别模型识别训练样本得到的预测区域的为P,预测区域的第二坐标信息可以是四个顶点的坐标,分别为(xP1,yP1)、(xP2,yP2)、(xP3,yP3)和(xP4,yP4)。
在本发明实施例中,一方面,通过计算预设识别区域和预测区域之间重叠度,可以确定预设识别区域和预测区域之间有效覆盖面积。
在一些实施例中,预设识别区域和预测区域之间重叠度可以基于预设识别区域和预测区域之间重叠面积以及预设识别区域和预测区域之间并集的面积的比值计算获得。可以理解的是,在本发明实施例中,选择GIOU、DIOU以及CIOU等计算方法获得预设识别区域和预测区域之间重叠度也是是可以的,在此并不具体限定。
另一方面,通过根据第一坐标信息和第二坐标信息,计算预测区域相对于预设识别区域的回归值,避免了因传统边框回归并不具有尺度不变性,会导致的预设识别模型注重大边界框的定位,忽视小边界框的定位,最终导致识别模型对小目标的检测性能较差的缺点。因此,能够使训练好的预设识别模型具备更好的检测性能。
在计算获得重叠度和回归值之后,接下来可以执行S120。
S120、根据重叠度、回归值以及回归值的预设权重,确定预测区域相对于预设识别区域的损失值。
在一些实施例中,预设权重可以包括第一预设权重和第二预设权重。
当重叠度小于预设重叠度时,根据重叠度、回归值以及回归值的第一预设权重,确定预测区域相对于预设识别区域的损失值。
当重叠度大于或等于预设重叠度时,根据重叠度、回归值以及回归值的第二预设权重,确定预测区域相对于预设识别区域的损失值。
示例性的,当重叠度小于预设重叠度时,说明边框回归损失函数的重叠度不够高,需要提高训练过程中要针对提高重叠度进行着重训练,因此,可以设置一个较小的回归值的预设权重,即第一预设权重,例如,第一预设权重设置为0.2,以提高重叠度对整个边框回归损失函数影响力,以获得更好的拟合效果和收敛效率。
在本发明实施例中,在计算边框回归损失时,还包括计算预测区域相对于预设识别区域的回归值,因此,为了使训练好的预设识别模型具备更好的检测性能,当重叠度大于或等于预设重叠度时,可以设置一个较大的回归值的预设权重,即第二预设权重,例如,第二预设权重设置为0.7,以提高预测区域与预设识别区域之间的位置关系对整个边框回归损失函数影响力,从而保证边框回归损失函数收敛的高效性。
在一些实施例中,确定预测区域相对于预设识别区域的损失值,包括:
将重叠度、回归值以及回归值的预设权重输入预设边框回归损失函数,得到损失值,其中,预设边框回归损失函数为:
Figure BDA0002786104710000071
其中,L为损失值,I为重叠度,α为预设权重,
Figure BDA0002786104710000081
为预测区域的第二坐标信息中的纵坐标,
Figure BDA0002786104710000082
为预测区域的第二坐标信息中的纵坐标,
Figure BDA0002786104710000083
为预设识别区域的第一坐标信息中的横坐标,
Figure BDA0002786104710000084
为预设识别区域的第一坐标信息中的纵坐标,C1和C2均为常数,且C1小于等于C2
在得到损失值之后,接下来可以继续执行S130。
S130、基于损失值和第一预设识别模型,训练第二预设识别模型。
在本发明实施例中,由于边框回归损失韩式的计算过程中,不会产生新变量和大量的计算操作,例如,避免了预测区域和预设识别区域的四个对应顶点坐标以外的几何变量的繁冗计算。同时还避免了计算预测区域和预设识别区域的最小外接矩阵、宽高比等冗余繁琐的计算过程,在识别模型的训练过程中,大大降低了时间复杂度和空间复杂度。
另外,本发明实施例提供一种识别模型训练方法,通过获取训练样本的预设识别区域和预测损失值,训练预设识别模型,避免了冗余繁琐的计算过程,使训练过区域的重叠度,以保证在在计算损失值时有更好的拟合效果和收敛效率,同时,根据预设识别区域的第一坐标信息和预测区域的第二坐标信息,确定预测区域相对于预设识别区域的回归值,不仅充分考虑了预测区域与预设识别区域之间的位置关系,而且计算量较少;最后根据重叠度、回归值以及回归值的预设权重,确定预测区域相对于预设识别区域的损失值,并基于程中产生的预测区域快速收敛到标注的真实框所框选的目标对象,提高预设识别模型的训练效率。
作为一个具体的实施例,例如人脸识别模型的训练过程中。其中,预设的识别模型可以是区域卷积神经网络(Region Convolutional Neural Networks,RCNN),其中,只需获取训练样本中包括人脸的预设识别区域的第一坐标信息,以及根据预设的识别模型根据训练样本得到的预测区域的第二坐标信息,分别计算预设识别区域和预测区域的重叠度和回归值,接下来依据本发明实施例所提供的边框回归损失函数即可。
作为一个具体的实施例,例如交通识别模型的训练过程中,为了实现智慧交通,使得交通识别模型能够识别快速得到多个交通对象,交通对象例如信号灯、交通标识以及行驶中的车辆等。示例性的可以使用基于YOLO(You Only Look Once)的对象识别和定位算法作为预设识别模型,在训练样本中可以包括多种交通对象,每个交通对象对应一个预设识别区域,每个预设识别区与对应一个第一坐标信息,其中,每个交通对象可以根据置信度来区分。
在将训练样本输入预设识别模型后,可以得到对应每个交通对象的预测区域以及每个预测区域的第二坐标信息。其中,根据置信度可以确定属于同一交通对象的第一坐标信息和第二坐标信息,接下来,分别计算预设识别区域和预测区域的重叠度和回归值,接下来依据本发明实施例所提供的边框回归损失函数即可。
根据本发明实施例提供的识别模型训练方法,通过获取训练样本的预设识别区域和预测区域的重叠度,以保证在在计算损失值时有更好的拟合效果和收敛效率,同时,根据预设识别区域的第一坐标信息和预测区域的第二坐标信息,确定预测区域相对于预设识别区域的回归值,不仅充分考虑了预测区域与预设识别区域之间的位置关系,而且计算量较少;最后根据重叠度、回归值以及回归值的预设权重,确定预测区域相对于预设识别区域的损失值,并基于损失值,训练预设识别模型,避免了冗余繁琐的计算过程,使训练过程中产生的预测区域快速收敛到标注的真实框所框选的目标对象,提高预设识别模型的训练效率。
图3是本发明实施例提供的一种识别模型训练装置的结构示意图,如图3所示,该识别模型训练装置300可以包括:获取模块310、数据处理模块320和训练模块330。
获取模块310,用于获取训练样本中训练样本的预设识别区域和预测区域的重叠度,其中,预测区域由第一预设识别模型识别训练样本得到;以及,
获取模块310,还用于根据预设识别区域的第一坐标信息和预测区域的第二坐标信息,确定预测区域相对于预设识别区域的回归值,回归值用于表征预设识别区域和预测区域之间的位置关系;
数据处理模块320,用于根据重叠度、回归值以及回归值的预设权重,确定预测区域相对于预设识别区域的损失值;
训练模块330,用于基于损失值和第一预设识别模型,训练第二预设识别模型。
在一些实施例中,预设权重包括第一预设权重,数据处理模块330还用于当重叠度小于预设重叠度时,根重叠度、回归值以及回归值的第一预设权重,确定预测区域相对于预设识别区域的损失值。
在一些实施例中,预设权重还包括第二预设权重,数据处理模块330还用于当重叠度大于或等于预设重叠度时,根重叠度、回归值以及回归值的第二预设权重,确定预测区域相对于预设识别区域的损失值。
在一些实施例中,识别模型训练装置还可以包括输入模块,用于将训练样本输入预设识别模型,得到预测识别图像,其中,预测识别图像包括预测区域。
在一些实施例中,数据处理模块320还用于将重叠度、回归值以及回归值的预设权重输入预设边框回归损失函数,得到损失值,其中,预设边框回归损失函数为:
Figure BDA0002786104710000101
其中,L为损失值,IOU为重叠度,α为预设权重,
Figure BDA0002786104710000102
为预测区域的第二坐标信息中的纵坐标,
Figure BDA0002786104710000103
为预测区域的第二坐标信息中的纵坐标,
Figure BDA0002786104710000104
为预设识别区域的第一坐标信息中的横坐标,
Figure BDA0002786104710000105
为预设识别区域的第一坐标信息中的纵坐标,C1和C2均为常数,且C1小于等于C2
可以理解的是,本发明实施例的识别模型训练装置300,可以对应于本发明实施例中提供的识别模型训练方法的执行主体,识别模型训练装置300的各个模块/单元的操作和/或功能的具体细节可以参见上述本发明实施例中提供的识别模型训练方法中的相应部分的描述,为了简洁,在此不再赘述。
本发明实施例的识别模型训练装置,通过获取训练样本的预设识别区域和预测区域的重叠度,以保证在在计算损失值时有更好的拟合效果和收敛效率,同时,根据预设识别区域的第一坐标信息和预测区域的第二坐标信息,确定预测区域相对于预设识别区域的回归值,不仅充分考虑了预测区域与预设识别区域之间的位置关系,而且计算量较少;最后根据重叠度、回归值以及回归值的预设权重,确定预测区域相对于预设识别区域的损失值,并基于损失值,训练预设识别模型,避免了冗余繁琐的计算过程,使训练过程中产生的预测区域快速收敛到标注的真实框所框选的目标对象,提高预设识别模型的训练效率。
图4是本发明实施例提供的一种识别模型训练设备的硬件结构示意图。
如图4所示,本实施例中的识别模型训练设备400包括输入设备401、输入接口402、中央处理器403、存储器404、输出接口405、以及输出设备406。其中,输入接口402、中央处理器403、存储器404、以及输出接口405通过总线410相互连接,输入设备401和输出设备406分别通过输入接口402和输出接口405与总线410连接,进而与识别模型训练设备400的其他组件连接。
具体地,输入设备401接收来自外部的输入信息,并通过输入接口402将输入信息传送到中央处理器403;中央处理器403基于存储器404中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器404中,然后通过输出接口405将输出信息传送到输出设备406;输出设备406将输出信息输出到识别模型训练设备400的外部供用户使用。
也就是说,图4所示的识别模型训练设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合本发明实施例提供的识别模型训练方法。
在一个实施例中,图4所示的识别模型训练设备400包括:存储器404,用于存储程序;处理器403,用于运行存储器中存储的程序,以执行本发明实施例提供的识别模型训练方法。
本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现本发明实施例提供的识别模型训练方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory,ROM)、闪存、可擦除只读存储器(Erasable ReadOnly Memory,EROM)、软盘、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、光盘、硬盘、光纤介质、射频(Radio Frequency,RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或***。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的***、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种识别模型训练方法,其特征在于,包括:
获取训练样本中训练样本的预设识别区域和预测区域的重叠度,其中,所述预测区域由第一预设识别模型识别所述训练样本得到;以及,
根据所述预设识别区域的第一坐标信息和所述预测区域的第二坐标信息,确定所述预测区域相对于所述预设识别区域的回归值,所述回归值用于表征所述预设识别区域和所述预测区域之间的位置关系;
根据所述重叠度、所述回归值以及所述回归值的预设权重,确定所述预测区域相对于所述预设识别区域的损失值;
基于所述损失值和所述第一预设识别模型,训练第二预设识别模型。
2.根据权利要求1所述的方法,其特征在于,所述预设权重包括第一预设权重,所述方法包括:
当所述重叠度小于预设重叠度时,根所述重叠度、所述回归值以及所述回归值的第一预设权重,确定所述预测区域相对于所述预设识别区域的损失值。
3.根据权利要求1所述的方法,其特征在于,所述预设权重还包括第二预设权重,所述方法包括:
当所述重叠度大于或等于预设重叠度时,根所述重叠度、所述回归值以及所述回归值的第二预设权重,确定所述预测区域相对于所述预设识别区域的损失值。
4.根据权利要求1所述的方法,其特征在于,在所述获取训练样本中训练样本的预设识别区域和预测区域的重叠度之前,所述方法包括:
将所述训练样本输入预设识别模型,得到预测识别图像,其中,所述预测识别图像包括所述预测区域。
5.根据权利要求1所述的方法,其特征在于,所述确定所述预测区域相对于所述预设识别区域的损失值,包括:
将所述重叠度、所述回归值以及所述回归值的预设权重输入预设边框回归损失函数,得到所述损失值,其中,所述预设边框回归损失函数为:
Figure FDA0002786104700000021
其中,L为所述损失值,I为所述重叠度,α为所述预设权重,
Figure FDA0002786104700000022
为所述预测区域的第二坐标信息中的纵坐标,
Figure FDA0002786104700000023
为所述预测区域的第二坐标信息中的纵坐标,
Figure FDA0002786104700000024
为所述预设识别区域的第一坐标信息中的横坐标,
Figure FDA0002786104700000025
为所述预设识别区域的第一坐标信息中的纵坐标,C1和C2均为常数,且C1小于等于C2
6.一种识别模型训练装置,其特征在于,所述装置包括:
获取模块,用于获取训练样本中训练样本的预设识别区域和预测区域的重叠度,其中,所述预测区域由第一预设识别模型识别所述训练样本得到;以及,
所述获取模块,还用于根据所述预设识别区域的第一坐标信息和所述预测区域的第二坐标信息,确定所述预测区域相对于所述预设识别区域的回归值,所述回归值用于表征所述预设识别区域和所述预测区域之间的位置关系;
数据处理模块,用于根据所述重叠度、所述回归值以及所述回归值的预设权重,确定所述预测区域相对于所述预设识别区域的损失值;
训练模块,用于基于所述损失值和所述第一预设识别模型,训练第二预设识别模型。
7.根据权利要求1所述的装置,其特征在于,所述预设权重包括第一预设权重,所述数据处理模块,还用于当所述重叠度小于预设重叠度时,根所述重叠度、所述回归值以及所述回归值的第一预设权重,确定所述预测区域相对于所述预设识别区域的损失值。
8.根据权利要求1所述的装置,其特征在于,所述预设权重还包括第二预设权重,所述数据处理模块,还用于当所述重叠度大于或等于预设重叠度时,根所述重叠度、所述回归值以及所述回归值的第二预设权重,确定所述预测区域相对于所述预设识别区域的损失值。
9.一种识别模型训练设备,其特征在于,所述设备包括:处理器,以及存储有计算机程序指令的存储器;
所述处理器读取并执行所述计算机程序指令,以实现如权利要求1-5任意一项所述的识别模型训练方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-5任意一项所述的识别模型训练方法。
CN202011298547.6A 2020-11-19 2020-11-19 一种识别模型训练方法、装置、设备及计算机存储介质 Pending CN112541587A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011298547.6A CN112541587A (zh) 2020-11-19 2020-11-19 一种识别模型训练方法、装置、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011298547.6A CN112541587A (zh) 2020-11-19 2020-11-19 一种识别模型训练方法、装置、设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN112541587A true CN112541587A (zh) 2021-03-23

Family

ID=75014231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011298547.6A Pending CN112541587A (zh) 2020-11-19 2020-11-19 一种识别模型训练方法、装置、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN112541587A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410275A (zh) * 2018-10-15 2019-03-01 深圳步智造科技有限公司 位置预测方法、装置、设备以及可读存储介质
US20190251333A1 (en) * 2017-06-02 2019-08-15 Tencent Technology (Shenzhen) Company Limited Face detection training method and apparatus, and electronic device
CN110889446A (zh) * 2019-11-22 2020-03-17 高创安邦(北京)技术有限公司 人脸图像识别模型训练及人脸图像识别方法和装置
CN111680746A (zh) * 2020-06-08 2020-09-18 平安科技(深圳)有限公司 车损检测模型训练、车损检测方法、装置、设备及介质
CN111931915A (zh) * 2020-08-06 2020-11-13 中国科学院重庆绿色智能技术研究院 一种基于diou损失函数的训练网络的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190251333A1 (en) * 2017-06-02 2019-08-15 Tencent Technology (Shenzhen) Company Limited Face detection training method and apparatus, and electronic device
CN109410275A (zh) * 2018-10-15 2019-03-01 深圳步智造科技有限公司 位置预测方法、装置、设备以及可读存储介质
CN110889446A (zh) * 2019-11-22 2020-03-17 高创安邦(北京)技术有限公司 人脸图像识别模型训练及人脸图像识别方法和装置
CN111680746A (zh) * 2020-06-08 2020-09-18 平安科技(深圳)有限公司 车损检测模型训练、车损检测方法、装置、设备及介质
CN111931915A (zh) * 2020-08-06 2020-11-13 中国科学院重庆绿色智能技术研究院 一种基于diou损失函数的训练网络的方法

Similar Documents

Publication Publication Date Title
CN113378686B (zh) 一种基于目标中心点估计的两阶段遥感目标检测方法
CN111640089B (zh) 一种基于特征图中心点的缺陷检测方法及装置
WO2016062159A1 (zh) 图像匹配方法及手机应用测试平台
CN108710913A (zh) 一种基于深度学习的开关柜图像开关状态自动识别方法
CN109389163B (zh) 一种基于地形图的无人机影像分类***及方法
CN109214422B (zh) 基于dcgan的停车数据修补方法、装置、设备及存储介质
CN112084869A (zh) 一种基于紧致四边形表示的建筑物目标检测方法
AU2020103716A4 (en) Training method and device of automatic identification device of pointer instrument with numbers in natural scene
CN111091101B (zh) 基于一步法的高精度行人检测方法、***、装置
CN109584300A (zh) 一种确定车头朝向角度的方法及装置
CN113807301B (zh) 一种新增建设用地自动提取方法及自动提取***
CN104899892A (zh) 一种快速的星图图像星点提取方法
CN105225281A (zh) 一种车辆检测方法
CN113282215A (zh) 一种rpa***中基于目标检测技术的ui元素拾取方法和***
CN113850136A (zh) 基于yolov5与BCNN的车辆朝向识别方法及***
CN113034511A (zh) 基于高分辨率遥感影像与深度学习的乡村建筑识别算法
CN110349176B (zh) 基于三重卷积网络和感知干扰学习的目标跟踪方法和***
CN115346183A (zh) 一种车道线检测方法、终端及存储介质
CN116363319B (zh) 一种建筑物屋顶的建模方法、建模装置、设备及介质
JP3251840B2 (ja) 画像認識装置
CN112541587A (zh) 一种识别模型训练方法、装置、设备及计算机存储介质
CN114332570B (zh) 基于cdl深度学习进行作物迁移分类的方法和***
CN116628531A (zh) 众包地图道路对象要素聚类方法、***及存储介质
CN115731458A (zh) 一种遥感影像的处理方法、装置和电子设备
CN113792726A (zh) 一种基于视觉图像快速生成poi的方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination