CN115482417B - 多目标检测模型及其训练方法、装置、介质及设备 - Google Patents

多目标检测模型及其训练方法、装置、介质及设备 Download PDF

Info

Publication number
CN115482417B
CN115482417B CN202211212592.4A CN202211212592A CN115482417B CN 115482417 B CN115482417 B CN 115482417B CN 202211212592 A CN202211212592 A CN 202211212592A CN 115482417 B CN115482417 B CN 115482417B
Authority
CN
China
Prior art keywords
detection
target
real
frame
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211212592.4A
Other languages
English (en)
Other versions
CN115482417A (zh
Inventor
陈瑞斌
肖兵
李正国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Shixi Technology Co Ltd
Original Assignee
Zhuhai Shixi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Shixi Technology Co Ltd filed Critical Zhuhai Shixi Technology Co Ltd
Priority to CN202211212592.4A priority Critical patent/CN115482417B/zh
Publication of CN115482417A publication Critical patent/CN115482417A/zh
Application granted granted Critical
Publication of CN115482417B publication Critical patent/CN115482417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种多目标检测模型及其训练方法、装置、介质及设备,所述方法包括:从训练样本集中获取用于模型训练的至少一样本图像,将所述样本图像输入所述多目标检测模型以得到对应的检测目标信息;对所述检测目标信息进行评价,得到评价结果;依据所述评价结果调整所述检测目标结果,利用调整后的检测目标结果和所述样本图像训练所述多目标检测模型。本发明的方案在不增加模型参数量和训练数据前提下,提升物体检测中分类精度,从而加强算法鲁棒性。

Description

多目标检测模型及其训练方法、装置、介质及设备
技术领域
本发明涉及图像处理技术领域,特别是一种多目标检测模型及其训练方法、装置、介质及设备。
背景技术
在图像处理过程中,目标检测是进行图像识别的重要组成部分,而进行目标检测模型的深度学习检测网络的训练方式则会直接影响模型的检测结果准确度。目前大部分深度学习检测网络训练方式都是基于多任务解耦的,如yolo系列。但本质上任务与任务之间存在一定依赖,如果强行拆分会导致部分依赖任务在特殊情况下特征混乱,严重时会影响最终的分类结果。
发明内容
鉴于上述问题,本发明提出一种克服上述问题或者至少部分地解决上述问题的多目标检测模型及其训练方法、装置、介质及设备。
根据本发明的一个方面,提供了一种一种多目标检测模型,所述多目标检测模型基于YOLO网络架构创建,所述多目标检测模型包括进行图像特征学习的主干网络结构和损失函数结构;所述损失函数结构包括:模型预测解码器、真实信息分配模块、交并比计算模块、检测目标置信度回归模块、边框回归模块、分类模块以及模型先验模块。
可选地,所述模型预测解码器分别与交并比计算模块、检测目标置信度回归模块和分类模块耦合;
所述交并比计算模块还与所述检测目标置信度回归模块、边框回归模块和模型先验模块耦合;所述真实信息分配模块分别与所述交并比计算模块和模型先验模块耦合;所述模型先验模块还与分类模块耦合。
可选地,模型预测解码器,用于输出所述图像的检测目标信息;
真实信息分配模块,用于输出所述图像的真实目标信息;
交并比计算模块,用于计算检测框与真实框之间的交并比;
模型先验模块,用于根据真实信息分配模块和交并比计算模块的输出调整检测目标信息。
根据本发明的一个方面,提供了一种基于模型先验的多目标检测模型训练方法,应用于上述的多目标检测模型;所述方法包括:
对所述检测目标信息进行评价,得到评价结果;
依据所述评价结果调整所述检测目标结果,利用调整后的检测目标结果和所述样本图像训练所述多目标检测模型。
可选地,所述基于所述真实目标信息对所述检测目标信息进行评价,得到评价结果包括:
获取所述样本图像的真实目标信息;所述真实目标信息包括真实框的图像坐标;所述检测目标信息包括检测目标对应检测框的图像坐标;
利用所述交并比计算模块基于真实框的图像坐标和检测框的图像坐标,计算各检测框和各真实框的交并比,以将所述检测框与真实框之间的交并比作为评价结果。
可选地,所述依据所述评价结果调整所述检测目标结果包括:
基于所述样本图像的各检测框和各真实框的交并比生成交叠掩膜矩阵;
基于交叠掩膜矩阵生成检测目标对应的交叠类别列表;
依据所述交叠类别列表确定所述检测目标的类别标签,作为检测目标的最终类别标签。
可选地,所述基于各检测框和各真实框的交并比生成交叠掩膜矩阵包括:
获取各检测框对应的检测目标ID和各真实框对应的真实目标ID,以对各检测框和各真实框的交并比进行排序,生成交并比矩阵;
将所述交并比矩阵中交并比大于第一预设阈值的矩阵元素标记为第一参数,将小于或等于所述第一预设阈值的矩阵元素标记为第二参数;
基于所述交并比矩阵、所述第一参数和所述第二参数生成对应各检测目标的交叠掩膜矩阵。
可选地,所述基于交叠掩膜矩阵生成检测目标对应的交叠类别列表包括:
获取真实目标类别标签;
对所述真实目标类别标签和所述交叠掩膜矩阵进行去重得到对应各检测目标的交叠类别列表。
可选地,所述依据所述交叠类别列表确定所述检测目标的类别标签包括:
获取所述检测目标的交叠类别列表的类别总数;
若所述类别总数小于或等于第二预设阈值,则基于所述交叠类别列表中的类别标签作为所述检测目标的类别标签;
若所述类别总数大于所述第二预设阈值,则利用argmax函数从所述交叠类别列表确定所述检测目标的类别标签。
根据本发明的另一个方面,提供了一种基于模型先验的多目标检测模型训练装置,应用于上述任一项所述的多目标检测模型,所述装置包括:
目标检测单元,用于从训练样本集中获取用于模型训练的至少一样本图像,将所述样本图像输入所述多目标检测模型以得到对应的检测目标信息;
评价单元,用于对所述检测目标信息进行评价,得到评价结果;
训练单元,用于依据所述评价结果调整所述检测目标结果,利用调整后的检测目标结果和所述样本图像训练所述多目标检测模型。
根据本发明的另一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述任一项所述的基于模型先验的多目标检测模型训练方法。
根据本发明的另一个方面,提供了一种计算设备,所述计算设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述任一项所述的基于模型先验的多目标检测模型训练方法。
根据本发明的另一个方面,提供了一种摄像设备,所述摄像设备采用任一项所述的多目标检测模型,或执行所述的基于模型先验的多目标检测模型训练方法,或包括所述的基于模型先验的多目标检测模型训练装置,或具有所述的计算机可读存储介质。
本发明提供了一种多目标检测模型及其训练方法、装置、介质及设备,本发明的方案,在多目标检测模型对输入图像进行检测并检测目标信息之后,通过将模型的检测目标结果作为先验信息,通过分析先验信息自适应修改上述检测目标信息,进而根据修改后的检测目标信息重新生成样本以训练模型,能有效解决不同类别目标邻近或重叠导致的分类错误问题。在不增加模型参数量和训练数据前提下,提升物体检测中分类精度,从而加强算法鲁棒性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明实施例的多目标检测网络训练示意图;
图2示出了根据本发明一实施例IOU计算示意图;
图3示出了根据本发明实施例的基于模型先验的多目标检测模型训练方法流程示意图;
图4示出了根据图1的多目标检测网络检测结果示意图;
图5示出了根据传统多目标检测网络检测结果示意图;
图6示出了根据本发明实施例的召回曲线对比示意图;
图7出了根据本发明实施例的基于模型先验的多目标检测模型训练装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供另一种基于模型先验的多目标检测模型训练方法,本实施例的多目标检测模型基于YOLO网络架构创建,优选为YOLOv5或YOLOv7。本实施例的多目标检测模型包括进行图像特征学习的主干网络结构和损失函数结构。由于YOLO网络架构已开源,此处对此不多做赘述。如图1所示,损失函数结构可以包括模型预测解码器M1、真实信息分配模块M2、交并比计算模块M3、检测目标置信度回归模块M4、边框回归模块M5、分类模块M6以及模型先验模块M7。如图1所示,所述模型预测解码器M1分别与交并比计算模块M3、检测目标置信度回归模块M4和分类模块M6耦合;所述交并比计算模块M3还与所述检测目标置信度回归模块M4、边框回归模块M5和模型先验模块M7耦合;所述真实信息分配模块M2分别与所述交并比计算模块M3和模型先验模块M7耦合;所述模型先验模块M7还与分类模块M6耦合。
模型预测解码器M1.Decoder:用于输出所述图像的检测目标信息。不同的目标检测网络解码过程有所不同,解码器输出解耦为三部分:1.object,表征检测目标的置信度;2.bbox,表征检测框的图像坐标;3.class,表征预测的分类置信度。
真实信息分配模块M2.Build target:用于输出图像的真实目标信息。真实标签分配,负责把输入真实标签动态分配,并与模型输出层建立关联。不同检测网络的标签分配方式有所不同,输出解耦为两部分:1.bbox,表征真实框的图像坐标;2.class,表征真实目标的类别标签。
交并比计算模块M3.IOU calculator:用于计算检测框与真实框之间的交并比,用作检测框的回归好坏的评价标准。如图2示,矩形A与矩形B有交叠部分为AB,则交并比的计算公式如下:
检测目标置信度回归模块M4.object regression:该模块一般由回归loss组成,如交叉熵loss、focal loss等。
边框回归模块M5.bbox regression:该模块一般由giou loss组成。
分类模块M6.classification:该模块一般由分类loss组成。
模型先验模块M7,于根据真实信息分配模块和交并比计算模块的输出调整检测目标信息,具体可以根据M3结果(该结果用于评价边框回归的好坏)重新调整检测目标的类别标签。
如图3所示,本发明实施例的基于模型先验的多目标检测模型训练方法至少可以包括以下步骤S1~S3。
S1,从训练样本集中获取用于模型训练的至少一样本图像,将样本图像输入多目标检测模型以得到对应的检测目标信息;目标检测信息包括至少一检测目标以及检测目标对应的检测目标信息;检测目标信息包括检测目标的置信度、检测框的图像坐标、预测的分类置信度。本实施例的训练样本集为已标注有真实框的样本,每个真实框具有真实目标的真实目标类别以及图像坐标相关信息。在每次训练时,可以从训练样本集中随机选取多张进行单轮模型的迭代训练。结合前文所述,本实施例的多目标检测模型可以为可以实现输入图像中多种类型的目标检测,该多目标检测模型可以为基于yolo网络模型搭建生成。
S2,对检测目标信息进行评价,得到评价结果。
S3,依据评价结果调整检测目标结果,利用调整后的检测目标结果和所述样本图像训练所述多目标检测模型。
实际应用中,多目标检测网络如yolov5、yoloR和yolov7在训练时将任务解耦为边框回归(bounding boxes regression)、目标置信度回归(object regression)和多类别分类(classification)三个任务。换言之,对目标多目标检测模型的训练主要是针对检测目标置信度回归模块M4、边框回归模块M5和分类模块M6的训练。而检测目标置信度回归模块M4、边框回归模块M5和分类模块M6,各自设置有独立的损失函数,因此,可以以检测目标置信度回归模块M4、边框回归模块M5和分类模块M6各自对应的损失函数为训练约束条件控制训练迭代次数,直至停止训练。
传统方案中,没有设置模型先验模块M7,目标置信度回归M4依赖于交并比计算模块M3的计算结果,即边框回归的好坏影响于目标置信度。而多类别分类M6是独立于M4与M5的,那意味着当目标检测出错时,M6并不会有任何措施规避。实际应用中,多目标检测模型的边框回归、目标置信度回归和多类别分类三个训练任务之间本身就存在依赖,如边框回归决定了目标置信度和分类的类别。本发明实施例的方案在得到检测目标对应的检测目标信息之后,通过将模型的检测目标结果作为先验信息,通过分析先验信息自适应修改上述检测目标信息,即,在yolov5、yoloR和yolov7网络的loss函数中加入模型预测结果作为先验信息,通过分析先验信息自适应修改当前分类标签,能有效解决不同类别目标邻近或重叠导致的分类错误问题。在不增加模型参数量和训练数据前提下,提升物体检测中分类精度,从而加强算法鲁棒性。
在本发明实施例中,上述步骤S2基于所述真实目标信息对所述检测目标信息进行评价,得到评价结果可以包括:
S2-1,获取所述样本图像的真实目标信息;所述真实目标信息包括真实框的图像坐标。
S2-2,利用所述交并比计算模块基于真实框的图像坐标和检测框的图像坐标,计算各检测框和各真实框的交并比,以将所述检测框与真实框之间的交并比作为评价结果。
如图2,在得到真实框的图像坐标和检测框的图像坐标之后,可以计算真实框和检测框的交并比。本实施例中,无论是真实目标还是检测目标均具有对应的标识ID,在计算交并比时,可以分别计算每个检测框和每个真实框之间的交并比。
上述步骤S3,依据所述评价结果调整所述检测目标结果可以包括:
S3-1,基于述样本图像的各检测框和各真实框的交并比生成交叠掩膜矩阵。
上述步骤S2中可以获取到各个真实目标和各个检测目标的ID,可选地,在基于各检测框和各真实框的交并比生成交叠掩膜矩阵可以包括:
S3-1-1,获取各检测框对应的检测目标ID和各真实框对应的真实目标ID,以对各检测框和各真实框的交并比进行排序,生成交并比矩阵。
如表1示,设矩阵大小为n行m列(n为预测目标总数,m为真实目标总数),若采用双下标表示为IOUij,(0≤i≤n-1,0≤j≤m-1),其中下标i为预测目标,j为真实目标。若采用单下表表示为IOUi,其中下标i为预测目标。其中IOUi与IOUij的关系为IOUi=[IOUi0,IOUi2,...IOUi,m-1]。
表1IOU矩阵
IOU0,0 IOU0,1 ... IOU0,m-2 IOU0,m-1
IOU1,0 IOU1,1 ... IOU1,m-2 IOU1-2,m-1
... ... IOUi,j ... ...
IOUn-2,0 IOUn-2,1 ... IOUn-2,m-2 IOUn-2,m-1
IOUn-1,0 IOUn-1,1 ... IOUn-1,m-2 IOUn-1,m-1
表2为图4所示实施例的IOU矩阵,图4中,(a)为模型预测结果,(b)为标签。
表2实例IOU矩阵
也就是说,IOU矩阵按照真实目标为列、检测目标为行进行依次排序。
S3-1-2,将所述交并比矩阵中交并比大于第一预设阈值的矩阵元素标记为第一参数,将小于或等于所述第一预设阈值的矩阵元素标记为第二参数。
得到交并比矩阵之后,可以生成交叠掩膜mask。在本实施例中,第i个预测目标对应真实目标的掩膜为:
maski=IOUij>0,(0≤j≤m-1)
在本实施例中,设定第一预设阈值为0,对于交并比大于第一预设阈值0的IOU矩阵中的矩阵元素标记为第一参数True;小于或等于第一预设阈值0的IOU矩阵中的矩阵元素标记为第二参数False。
S3-1-3,基于所述交并比矩阵、所述第一参数和所述第二参数生成对应各检测目标的交叠掩膜矩阵。
由此,对应于表2的交并比矩阵的交叠掩膜矩阵可以如表3所示。
表3实例掩膜mask矩阵
True True False
True True False
False False True
对应表3,每一行的检测目标均具有对应的交叠掩膜矩阵,即,mask0=[True,True,False],mask1=[True,True,False],mask2=[False,False,True]。
S3-2,基于交叠掩膜矩阵生成检测目标对应的交叠类别列表。
在得到交叠掩膜矩阵之后,即可生成交叠类别列表iou_class,本实施例中,基于交叠掩膜矩阵生成检测目标对应的交叠类别列表包括:
S3-2-1,获取真实目标类别标签。
根据图4,Tclass=[圆圈,六边形,六边形]。
S3-2-2,对所述真实目标类别标签和所述交叠掩膜矩阵进行去重得到对应各检测目标的交叠类别列表。
取真实目标类别记为Tclass,其中第j个真实目标类别为Tclassi(0≤j≤m-1),则第i个预测目标与真实目标交叠的类别列表为:
iou_classi=unique(Tclass[maski]),(0≤i≤n-1)
其中为class[maski]切片操作,若掩膜矩阵A=[True,Flase,Flase,True],矩阵B=[0,1,2,3],则B[A]=[0,3]。
unique()为去重复函数,若矩阵B=[0,0,1,3,2,3,4],则Unique(B)=[0,1,2,3,4]。
结合图4,则iou_class如表4所示。
表4交叠类别列表
ID i=0 i=1 i=2
maski [True,True,False] [True,True,False] [False,False,True]
Tclass[maski] [圆圈,六边形] [圆圈,六边形] [六边形]
unique(Tclass[maski]) [圆圈,六边形] [圆圈,六边形] [六边形]
iou_class [圆圈,六边形] [圆圈,六边形] [六边形]
S3-3,依据所述交叠类别列表确定所述检测目标的类别标签,作为检测目标的最终类别标签。该步骤具体包括:
S3-3-1,获取所述检测目标的交叠类别列表的类别总数;
S3-3-2,若所述类别总数小于或等于第二预设阈值,则基于所述交叠类别列表中的类别标签作为所述检测目标的类别标签;
S3-3-3,若所述类别总数大于所述第二预设阈值,则利用argmax函数从所述交叠类别列表确定所述检测目标的类别标签。
计算预测目标最优类别,第i个预测目标的类别标签记为Pclassi,第i个预测目标的最优标签记为class_refinei,则
其中len()为取列表总数,若A=[True,Flase,Flase,True],则len(A)=4;
argmax()为取最大值元素对应的下标,若A=[4,1,2,0,3],则argmax(A)=0。
基于上述方式,表4对应的预测目标最优类别如表5所示。
表5
ID i=0 i=1 i=2
Len(iou_classi) 2 2 1
IOUi [0.99,0.32,0.0] [0.76,0.44,0.0] [0.0,0.0,0.99]
Argmax(IOUi) 0 1 N/A
Pclassi 圆圈 六边形 六边形
class_refinei 圆圈 圆圈 六边形
对于S3-3最后得到的检测目标的类别标签作为该检测目标的最终类别标签,进而根据样本图像和结合调整后的最终类别标签训练检测目标置信度回归模块、边框回归模块和真实信息分配模块,以实现多目标检测模型多训练。
在多目标模型的训练过程中把任务解耦为边框回归(bounding boxesregression)、目标置信度回归(object regression)和多类别分类(classification)。
如图5示,假设现在有圆圈和六边形需要检测。理想情况下为图5中(a)所示,当圆圈的检测框出现偏移时(如图5中(b)),M6依然认为检测物体为圆圈,但实际特征却是六边形。这种张冠李戴的情况在物体中心相近时更为明显(如图5中(c))。当类间的特征空间混淆时,即便边框与目标置信度回归都正常时,分类依然会出错。
图6中(a)为原版精准和召回曲线,头map50为0.991,手map50为0.929,平均为0.960;(b)为应用本方案训练结果,头map50为0.996,手map50为0.936,平均为0.966。每项指标都有一定提升。
基于同一发明构思,本发明实施例还提供了一种基于模型先验的多目标检测模型训练装置,所述多目标检测模型基于YOLO网络架构创建,所述多目标检测模型包括模型预测解码器、真实信息分配模块、交并比计算模块、检测目标置信度回归模块、边框回归模块、分类模块以及模型先验模块;如图7所示,本发明的基于模型先验的多目标检测模型训练装置可以包括:
目标检测单元710,用于从训练样本集中获取用于模型训练的至少一样本图像,将所述样本图像输入所述多目标检测模型以得到对应的检测目标信息;
评价单元720,用于对所述检测目标信息进行评价,得到评价结果;
调整单元730,用于依据所述评价结果调整所述检测目标结果,利用调整后的检测目标结果和所述样本图像训练所述多目标检测模型。
在本发明一可选实施例中,评价单元720还可以用于:
获取所述样本图像的真实目标信息;所述真实目标信息包括真实框的图像坐标;所述检测目标信息包括检测目标对应检测框的图像坐标;
利用所述交并比计算模块基于真实框的图像坐标和检测框的图像坐标,计算各检测框和各真实框的交并比,以将所述检测框与真实框之间的交并比作为评价结果。
在本发明一可选实施例中,调整单元730还可以用于:
基于所述样本图像的各检测框和各真实框的交并比生成交叠掩膜矩阵;
基于交叠掩膜矩阵生成检测目标对应的交叠类别列表;
依据所述交叠类别列表确定所述检测目标的类别标签,作为检测目标的最终类别标签。
在本发明一可选实施例中,调整单元730还可以用于:
获取各检测框对应的检测目标ID和各真实框对应的真实目标ID,以对各检测框和各真实框的交并比进行排序,生成交并比矩阵;
将所述交并比矩阵中交并比大于第一预设阈值的矩阵元素标记为第一参数,将小于或等于所述第一预设阈值的矩阵元素标记为第二参数;
基于所述交并比矩阵、所述第一参数和所述第二参数生成对应各检测目标的交叠掩膜矩阵。
在本发明一可选实施例中,调整单元730还可以用于:
获取真实目标类别标签;
对所述真实目标类别标签和所述交叠掩膜矩阵进行去重得到对应各检测目标的交叠类别列表。
获取所述检测目标的交叠类别列表的类别总数;
若所述类别总数小于或等于第二预设阈值,则基于所述交叠类别列表中的类别标签作为所述检测目标的类别标签;
若所述类别总数大于所述第二预设阈值,则利用argmax函数从所述交叠类别列表确定所述检测目标的类别标签。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述实施例所述的基于模型先验的多目标检测模型训练方法。
本发明实施例还提供了一种计算设备,所述计算设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行上述实施例所述的基于模型先验的多目标检测模型训练方法。
所属领域的技术人员可以清楚地了解到,上述描述的***、装置、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,为简洁起见,在此不另赘述。
另外,在本发明各个实施例中的各功能单元可以物理上相互独立,也可以两个或两个以上功能单元集成在一起,还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现,也可以采用软件或者固件的形式实现。
本领域普通技术人员可以理解:所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,其包括若干指令,用以使得一台计算设备(例如个人计算机,服务器,或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM),磁碟或者光盘等各种可以存储程序代码的介质。
或者,实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机,服务器,或者网络设备等的计算设备)来完成,所述程序指令可以存储于一计算机可读取存储介质中,当所述程序指令被计算设备的处理器执行时,所述计算设备执行本发明各实施例所述方法的全部或部分步骤。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:在本发明的精神和原则之内,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案脱离本发明的保护范围。

Claims (10)

1.一种基于模型先验的多目标检测模型训练方法,所述方法包括:
从训练样本集中获取用于模型训练的至少一样本图像,将所述样本图像输入所述多目标检测模型以得到对应的检测目标信息;
对所述检测目标信息进行评价,得到评价结果;所述评价结果包括检测目标的检测框和样本图像中真实目标的真实框之间的交并比;
依据所述评价结果调整所述检测目标信息,利用调整后的检测目标信息和所述样本图像训练所述多目标检测模型;
所述依据所述评价结果调整所述检测目标信息包括:
基于所述样本图像的各检测框和各真实框的交并比生成交叠掩膜矩阵;基于交叠掩膜矩阵生成检测目标对应的交叠类别列表;依据所述交叠类别列表确定所述检测目标的类别标签,作为检测目标的最终类别标签;
其中,所述基于各检测框和各真实框的交并比生成交叠掩膜矩阵包括:获取各检测框对应的检测目标ID和各真实框对应的真实目标ID,以对各检测框和各真实框的交并比进行排序,生成交并比矩阵;将所述交并比矩阵中交并比大于第一预设阈值的矩阵元素标记为第一参数,将小于或等于所述第一预设阈值的矩阵元素标记为第二参数;基于所述交并比矩阵、所述第一参数和所述第二参数生成对应各检测目标的交叠掩膜矩阵;
所述基于交叠掩膜矩阵生成检测目标对应的交叠类别列表包括:获取真实目标类别标签;对所述真实目标类别标签和所述交叠掩膜矩阵进行去重得到对应各检测目标的交叠类别列表。
2.根据权利要求1所述的方法,其特征在于,所述对所述检测目标信息进行评价,得到评价结果包括:
获取所述样本图像的真实目标信息;所述真实目标信息包括真实框的图像坐标;所述检测目标信息包括检测目标对应检测框的图像坐标;
基于真实框的图像坐标和检测框的图像坐标,计算各检测框和各真实框的交并比,以将所述检测框与真实框之间的交并比作为评价结果。
3.根据权利要求1所述的方法,其特征在于,所述依据所述交叠类别列表确定所述检测目标的类别标签包括:
获取所述检测目标的交叠类别列表的类别总数;
若所述类别总数小于或等于第二预设阈值,则基于所述交叠类别列表中的类别标签作为所述检测目标的类别标签;
若所述类别总数大于所述第二预设阈值,则利用argmax函数从所述交叠类别列表确定所述检测目标的类别标签。
4.一种多目标检测模型,其特征在于,所述多目标检测模型基于权利要求1-3任一项所述的基于模型先验的多目标检测模型训练方法进行训练;所述多目标检测模型基于YOLO网络架构创建,所述多目标检测模型包括进行图像特征学习的主干网络结构和损失函数结构;所述损失函数结构包括:模型预测解码器、真实信息分配模块、交并比计算模块、检测目标置信度回归模块、边框回归模块、分类模块以及模型先验模块。
5.根据权利要求4所述的多目标检测模型,其特征在于,所述模型预测解码器分别与交并比计算模块、检测目标置信度回归模块和分类模块耦合;
所述交并比计算模块还与所述检测目标置信度回归模块、边框回归模块和模型先验模块耦合;所述真实信息分配模块分别与所述交并比计算模块和模型先验模块耦合;所述模型先验模块还与分类模块耦合。
6.根据权利要求4所述的多目标检测模型,其特征在于,
模型预测解码器,用于输出所述图像的检测目标信息;
真实信息分配模块,用于输出所述图像的真实目标信息;
交并比计算模块,用于计算检测框与真实框之间的交并比;
模型先验模块,用于根据真实信息分配模块和交并比计算模块的输出调整检测目标信息。
7.一种基于模型先验的多目标检测模型训练装置,所述装置包括:
目标检测单元,用于从训练样本集中获取用于模型训练的至少一样本图像,将所述样本图像输入所述多目标检测模型以得到对应的检测目标信息;
评价单元,用于对所述检测目标信息进行评价,得到评价结果;所述评价结果包括检测目标的检测框和样本图像中真实目标的真实框之间的交并比;
训练单元,用于依据所述评价结果调整所述检测目标信息,利用调整后的检测目标信息和所述样本图像训练所述多目标检测模型;
所述训练单元还用于:基于所述样本图像的各检测框和各真实框的交并比生成交叠掩膜矩阵;基于交叠掩膜矩阵生成检测目标对应的交叠类别列表;依据所述交叠类别列表确定所述检测目标的类别标签,作为检测目标的最终类别标签;
其中,所述基于各检测框和各真实框的交并比生成交叠掩膜矩阵包括:获取各检测框对应的检测目标ID和各真实框对应的真实目标ID,以对各检测框和各真实框的交并比进行排序,生成交并比矩阵;将所述交并比矩阵中交并比大于第一预设阈值的矩阵元素标记为第一参数,将小于或等于所述第一预设阈值的矩阵元素标记为第二参数;基于所述交并比矩阵、所述第一参数和所述第二参数生成对应各检测目标的交叠掩膜矩阵;
所述基于交叠掩膜矩阵生成检测目标对应的交叠类别列表包括:获取真实目标类别标签;对所述真实目标类别标签和所述交叠掩膜矩阵进行去重得到对应各检测目标的交叠类别列表。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-3任一项所述的方法。
9.一种计算设备,其特征在于,所述计算设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-3任一项所述的方法。
10.一种摄像设备,其特征在于,所述摄像设备采用权利要求4-6任一项所述的多目标检测模型,或执行权利要求1-3任一项所述的基于模型先验的多目标检测模型训练方法,或包括权利要求7所述的基于模型先验的多目标检测模型训练装置,或具有权利要求8所述的计算机可读存储介质。
CN202211212592.4A 2022-09-29 2022-09-29 多目标检测模型及其训练方法、装置、介质及设备 Active CN115482417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211212592.4A CN115482417B (zh) 2022-09-29 2022-09-29 多目标检测模型及其训练方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211212592.4A CN115482417B (zh) 2022-09-29 2022-09-29 多目标检测模型及其训练方法、装置、介质及设备

Publications (2)

Publication Number Publication Date
CN115482417A CN115482417A (zh) 2022-12-16
CN115482417B true CN115482417B (zh) 2023-08-08

Family

ID=84394825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211212592.4A Active CN115482417B (zh) 2022-09-29 2022-09-29 多目标检测模型及其训练方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN115482417B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908790A (zh) * 2022-12-28 2023-04-04 北京斯年智驾科技有限公司 一种目标检测中心点偏移的检测方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107808122A (zh) * 2017-09-30 2018-03-16 中国科学院长春光学精密机械与物理研究所 目标跟踪方法及装置
CN111241947A (zh) * 2019-12-31 2020-06-05 深圳奇迹智慧网络有限公司 目标检测模型的训练方法、装置、存储介质和计算机设备
CN113239982A (zh) * 2021-04-23 2021-08-10 北京旷视科技有限公司 检测模型的训练方法、目标检测方法、装置和电子***
CN114462469A (zh) * 2021-12-20 2022-05-10 浙江大华技术股份有限公司 目标检测模型的训练方法、目标检测方法及相关装置
CN114764778A (zh) * 2021-01-14 2022-07-19 北京图森智途科技有限公司 一种目标检测方法、目标检测模型训练方法及相关设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858569A (zh) * 2019-03-07 2019-06-07 中国科学院自动化研究所 基于目标检测网络的多标签物体检测方法、***、装置
US11537882B2 (en) * 2019-10-28 2022-12-27 Samsung Sds Co., Ltd. Machine learning apparatus and method for object detection
JP2022091270A (ja) * 2020-12-09 2022-06-21 ブラザー工業株式会社 方法、システム、および、コンピュータプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107808122A (zh) * 2017-09-30 2018-03-16 中国科学院长春光学精密机械与物理研究所 目标跟踪方法及装置
CN111241947A (zh) * 2019-12-31 2020-06-05 深圳奇迹智慧网络有限公司 目标检测模型的训练方法、装置、存储介质和计算机设备
CN114764778A (zh) * 2021-01-14 2022-07-19 北京图森智途科技有限公司 一种目标检测方法、目标检测模型训练方法及相关设备
CN113239982A (zh) * 2021-04-23 2021-08-10 北京旷视科技有限公司 检测模型的训练方法、目标检测方法、装置和电子***
CN114462469A (zh) * 2021-12-20 2022-05-10 浙江大华技术股份有限公司 目标检测模型的训练方法、目标检测方法及相关装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
程璐飞.基于深度学习的多目标检测与分类算法的研究.《万方数据库》.2022,第8-53页. *

Also Published As

Publication number Publication date
CN115482417A (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
CN110070141B (zh) 一种网络入侵检测方法
CN109460793B (zh) 一种节点分类的方法、模型训练的方法及装置
CN110222780B (zh) 物体检测方法、装置、设备和存储介质
CN111931795B (zh) 基于子空间稀疏特征融合的多模态情感识别方法及***
CN110969200B (zh) 基于一致性负样本的图像目标检测模型训练方法及装置
CN113723070B (zh) 文本相似度模型训练方法、文本相似度检测方法及装置
CN111564179B (zh) 一种基于三元组神经网络的物种生物学分类方法及***
CN109858327B (zh) 一种基于深度学习的字符分割方法
CN115482417B (zh) 多目标检测模型及其训练方法、装置、介质及设备
CN111382572A (zh) 一种命名实体识别方法、装置、设备以及介质
CN109472048A (zh) 基于稀疏多项式混沌扩展评估智能电表结构可靠度的方法
CN113065525A (zh) 年龄识别模型训练方法、人脸年龄识别方法及相关装置
CN112613617A (zh) 基于回归模型的不确定性估计方法和装置
CN107688822B (zh) 基于深度学习的新增类别识别方法
CN114943674A (zh) 瑕疵检测方法、电子装置及存储介质
CN114943672A (zh) 图像瑕疵检测方法、装置、电子设备及存储介质
Liu et al. Fuzzy c-mean algorithm based on Mahalanobis distances and better initial values
CN114139636B (zh) 异常作业处理方法及装置
CN110751400A (zh) 一种风险评估方法及装置
CN107067034B (zh) 一种快速识别红外光谱数据分类的方法及***
CN114139643B (zh) 一种基于机器视觉的单甘酯质量检测方法及***
JP7306460B2 (ja) 敵対的事例検知システム、方法およびプログラム
CN113128556B (zh) 基于变异分析的深度学习测试用例排序方法
CN111859947B (zh) 一种文本处理装置、方法、电子设备及存储介质
CN111368576B (zh) 一种基于全局优化的Code128条码自动识读方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant