CN114882321A - 深度学习模型的训练方法、目标对象检测方法和装置 - Google Patents

深度学习模型的训练方法、目标对象检测方法和装置 Download PDF

Info

Publication number
CN114882321A
CN114882321A CN202210611399.1A CN202210611399A CN114882321A CN 114882321 A CN114882321 A CN 114882321A CN 202210611399 A CN202210611399 A CN 202210611399A CN 114882321 A CN114882321 A CN 114882321A
Authority
CN
China
Prior art keywords
sample
loss value
determining
target object
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210611399.1A
Other languages
English (en)
Inventor
陈子亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210611399.1A priority Critical patent/CN114882321A/zh
Publication of CN114882321A publication Critical patent/CN114882321A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种深度学习模型的训练方法和装置、一种目标对象检测方法和装置、电子设备、存储介质和计算机程序产品,涉及人工智能领域,尤其涉及深度学习、图像处理和计算机视觉技术领域,可用于物体检测和物体识别等场景。具体实现方案为:根据样本图像,确定样本图像中目标对象的样本类别和样本边框;样本图像包括目标对象的标签;根据样本类别、样本边框和标签,确定分类损失值和第一回归损失值;利用调整因子修正第一回归损失值,得到第二回归损失值,调整因子指示了样本图像的回归难易程度;以及根据分类损失值和第二回归损失值来调整深度学习模型的参数。

Description

深度学习模型的训练方法、目标对象检测方法和装置
技术领域
本公开涉及人工智能技术领域,尤其涉及计算机视觉、深度学习和图像处理技术领域。具体涉及一种深度学习模型的训练方法和装置、一种目标对象检测方法和装置、电子设备、存储介质和计算机程序产品。
背景技术
难样本挖掘(Hard Sample Mining)是目标检测的研究方向之一。难样本是指在训练过程中,模型无法正确分类或者很难分类的样本。如果能够将难样本挖掘出来,可有效解决难易样本不均衡的问题,从而使得模型学习到更好的特征表达,提高模型输出的准确性。
发明内容
本公开提供了一种深度学习模型的训练方法和装置、一种目标对象检测方法和装置、电子设备、存储介质和计算机程序产品。
根据本公开的一个方面,提供了一种深度学习模型的训练方法,包括:根据样本图像,确定样本图像中目标对象的样本类别和样本边框;样本图像包括目标对象的标签;根据样本类别、样本边框和标签,确定分类损失值和第一回归损失值;利用调整因子修正第一回归损失值,得到第二回归损失值,调整因子指示了样本图像的回归难易程度;以及根据分类损失值和第二回归损失值来调整深度学习模型的参数。
根据本公开的另一方面,提供了一种目标对象检测方法,包括:将待检测图像输入深度学习模型,得到待检测图像中目标对象的类别信息和定位信息,其中,深度学习模型是利用以上所述的深度学习模型的训练方法训练得到的。
根据本公开的另一方面,提供了一种深度学习模型的训练装置,包括:第一确定模块,用于根据样本图像,确定样本图像中目标对象的样本类别和样本边框;样本图像包括目标对象的标签;计算模块,用于根据样本类别、样本边框和标签,确定分类损失值和第一回归损失值;修正模块,用于利用调整因子修正第一回归损失值,得到第二回归损失值,调整因子指示了样本图像的回归难易程度;以及调整模块,用于根据分类损失值和第二回归损失值来调整深度学习模型的参数。
根据本公开的另一方面,提供了一种目标对象检测装置,该装置包括:检测模块,用于将待检测图像输入深度学习模型,得到待检测图像中目标对象的类别信息和定位信息,其中,深度学习模型是利用以上述的深度学习模型的训练装置训练得到的。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开提供的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开的实施例的可以应用深度学习模型的训练方法、目标对象检测方法和装置的示例性***架构示意图;
图2是根据本公开的实施例的深度学习模型的训练方法的流程图;
图3是根据本公开的实施例的深度学习模型的训练方法的示意图;
图4是根据本公开的实施例的目标对象检测方法的流程图;
图5是根据本公开的实施例的深度学习模型的训练装置的框图;
图6是根据本公开的实施例的目标对象检测装置的框图;以及
图7是根据本公开的实施例的深度学习模型的训练方法以及目标对象检测方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在计算机视觉等技术领域中,目标检测任务是一项核心的任务。目标检测任务可以包括分类分支和回归分支,分类分支用于进行目标识别,回归分支用于实现目标定位。
随着计算机视觉等技术领域的发展,人们逐渐关注到目标检测过程中的难样本挖掘问题,并提出了难样本挖掘策略以期解决难易样本不均衡的问题。然而,这些难样本挖掘策略主要集中在目标检测的分类分支上,而回归分支缺少难样本挖掘策略,从而忽略了回归分支对检测框准确性的影响。
图1是根据本公开一个实施例的可以应用深度学习模型的训练方法以及目标对象检测方法和装置的示例性***架构示意图。需要注意的是,图1所示仅为可以应用本公开实施例的***架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。
如图1所示,根据该实施例的***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用。例如,知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端或社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的深度学习模型的训练方法一般可以由服务器105执行。相应地,本公开实施例所提供的深度学习模型的训练装置一般可以设置于服务器105中。
备选地,本公开实施例所提供的深度学习模型的训练方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的深度学习模型的训练装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
需要说明的是,本公开实施例所提供的目标对象检测方法一般可以由服务器105执行。相应地,本公开实施例所提供的目标对象检测装置一般可以设置于服务器105中。本公开实施例所提供的目标对象检测方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的目标对象检测装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
备选地,本公开实施例所提供的目标对象检测方法一般也可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的目标对象检测装置也可以设置于终端设备101、102、或103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。
图2是根据本公开的实施例的深度学习模型的训练方法的流程图。
如图2所示,深度学习模型的训练方法200可以包括操作S210~S240。
在操作S210,根据样本图像,确定样本图像中目标对象的样本类别和样本边框。
在操作S220,根据样本类别、样本边框和标签,确定分类损失值和第一回归损失值。
在操作S230,利用调整因子修正第一回归损失值,得到第二回归损失值。
在操作S240,根据分类损失值和第二回归损失值来调整深度学习模型的参数。
根据本公开的实施例,样本图像可以是通过相机采集而得到的视频流中的任意一帧或多帧图像,或者可以采用其他方式获取,本公开对此不做限定。样本图像可以包括一个或多个目标对象以及目标对象的标签。所谓目标对象例如可以是指各种各样的物体,例如面部或者其他对象,具体不做限定。目标对象的标签用于指示样本图像中该目标对象的类别信息和定位信息。
根据本公开的实施例,将样本图像输入深度学习模型中,可以得到样本图像中目标对象的样本类别和样本边框。可以理解,上述深度学习模型可以是任意一个用于目标检测的深度学习模型,例如但不限于YOLO(You Only Look Once)系列、R-CNN(Regions withCNN features)系列、SSD(Single Shot MultiBox Detector,单次检测器)模型和RetinaNet模型等,具体可以根据实际应用场景进行选择。
根据本公开的实施例,分类损失值表征了样本图像的分类损失,第一回归损失值表征样本图像的回归损失。
根据本公开的实施例,利用调整因子修正第一回归损失值,得到第二回归损失值例如可以是通过将调整因子与第一回归损失值相乘,得到第二回归损失值。由于调整因子指示了样本图像的回归难易程度,这相当于根据样本图像的回归难易程度,将相应的权重赋予给该样本图像对应的回归损失。在模型训练过程中,难样本通常占据样本的少数,而容易样本往往占据样本中的多数。根据样本图像的回归难易程度,利用调整因子来修正第一回归损失值,以赋予回归容易样本较小的权重,而赋予回归难样本较大的权重,从而使得模型更关注回归难样本,由此实现在回归分支中挖掘难样本,进而提高回归分支预测结果的准确性。
需要说明的是,在本公开中,难样本是指在训练过程中,模型无法正确分类或者很难分类的样本。相应地,容易样本是指在训练过程中,模型容易正确分类的样本。而模型能否对样本进行正确分类可以根据训练过程中样本的损失大小来定义。例如,难分正样本是指错分成负样本的正样本,难分正样本是在训练过程中损失最大的正样本。难分负样本是指错分成正样本的负样本,难分负样本是训练过程中损失最大的负样本。又例如,易分正样本是指容易正确分类的正样本,易分正样本是在训练过程中损失最小的正样本。易分负样本是指容易正确分类的负样本,易分负样本是在训练过程中损失最小的负样本。
根据本公开的实施例,可以根据分类损失值和第二回归损失值来调整深度学习模型的参数。在本公开实施例中,可以利用多个批次的样本图像来训练上述深度学习模型,直至模型收敛。利用每个样本图像训练模型的过程与以上描述的过程相同或类似,在此不再赘述。
在本公开实施例的方案中,通过在回归分支上根据样本图像的回归难易程度来修正回归损失值,以赋予回归难样本较大的权重而回归容易样本较小的权重,使得模型更关注回归难样本,由此实现在回归分支中挖掘难样本。采用本公开的方法,可以在不增加计算量的情况下,使得模型重点优化难回归的样本,从而提高回归分支预测结果的准确性和检测效率。
根据本公开的实施例,操作S210可以包括如下操作。
对样本图像执行特征提取操作,得到多个多尺度特征图。对多个多尺度特征图进行多尺度融合处理,得到多个多尺度融合特征图。以及根据多个多尺度融合特征图,确定样本图像中目标对象的样本类别和样本边框。
根据本公开的实施例,在一个示例中,多个多尺度特征图包括N个尺度下的多尺度特征图,N为大于1的整数。对多个多尺度特征图进行多尺度融合处理例如可以采用以下操作:对最大尺度(例如第N尺度)下的多尺度特征图(记为第N尺度的多尺度特征图)执行卷积操作,得到第N尺度的多尺度融合特征图。将第N尺度的多尺度融合特征图执行反卷积操作,得到第N-1尺度的多尺度融合特征图,并将第N-1尺度的多尺度融合特征图与第N-1尺度的多尺度特征图进行加和,得到第N-1尺度的多尺度融合特征图。将第N-1尺度的多尺度融合特征图执行反卷积操作,得到第N-2尺度的多尺度融合特征图,将第N-2尺度的多尺度融合特征图与第N-2尺度的多尺度特征图进行加和,得到第N-2尺度的多尺度融合特征图。以此类推,得到多个多尺度融合特征图。多个多尺度特征图分别与多个多尺度融合特征图相对应,而每个多尺度特征图与该多尺度特征图对应的多尺度融合特征图的尺寸一致。
在本公开实施例中,通过使用多个多尺度融合特征图来确定样本图像中目标对象的样本类别和样本边框,使模型可以对不同尺度下的目标对象进行准确检测,从而提高模型的目标检测能力。
根据本公开的实施例,在一个示例中,目标对象的标签例如可以包括类别标签和位置标签。类别标签和位置标签分别用于指示样本图像中该目标对象的类别信息和定位信息。操作S220可以包括如下操作。
根据样本类别和类别标签,确定分类损失值;以及根据样本边框和位置标签,确定第一回归损失值。
可以理解,在确定分类损失时,可以采用任意一种分类损失函数根据样本类别和类别标签来计算分类损失值。示例性地,可以利用交叉熵损失函数来计算分类损失值,但本公开不局限于此。类似地,可以采用任意一种回归损失函数根据样本边框和位置标签来计算第一回归损失值。举例来说,可以利用GIOU(Generalized Intersection over Union)损失函数、CIOU损失函数(Complete Intersection over Union)、DIOU(DistanceIntersection over Union)损失函数或者Smooth 11损失函数等来计算第一回归损失值。
根据本公开的实施例,在一个示例中,可以采用如下操作来确定操作S230中的调整因子。
根据样本边框和位置标签,确定调整因子。
可以理解,位置标签用于指示样本图像中目标对象的定位信息。由于在操作S210中已经获取了样本边框以及用于指示样本图像中目标对象的类别信息和定位信息的标签。因此,在确定调整因子时无需额外获取其他数据。由此,可以在不增加计算量的情况下,以简单的方式实现难样本挖掘。
根据本公开的实施例,根据样本边框和位置标签,确定调整因子可以包括如下操作。
计算样本边框与位置标签的交并比;以及根据交并比,确定调整因子。
可以理解,样本边框与位置标签的交并比越大,代表样本图像回归越容易,而样本边框与位置标签的交并比越小,则代表样本图像回归越难。因此,可以根据样本边框和位置标签的交并比来衡量样本图像的回归难易程度。基于上述机制,可以根据交并比来确定赋予各个样本图像的调整因子。
前面已经介绍,根据样本图像的回归难易程度,利用调整因子来修正第一回归损失值,以赋予回归容易样本较小的权重而赋予回归难样本较大的权重。对应地,可以赋予回归容易样本一个较小的调整因子,而对于回归难样本来说,可以赋予一个较大的调整因子。因此,调整因子与交并比呈负相关关系。基于这种关系,可以自适应地调整各个样本图像的回归损失,从而可以在不增加计算量的情况下,使得模型重点优化难回归的样本,进而提高回归分支预测结果的准确性。
为了更准确地获取调整因子,可以使用以下公式(1)来计算调整因子。
Figure BDA0003669061090000081
在公式(1)中,w表示调整因子,l表示位置标签,
Figure BDA0003669061090000082
表示经由模型输出的样本边框,
Figure BDA0003669061090000083
表示位置标签与样本边框的交并比,γ表示超参数。
在一个示例中,超参数γ例如可以在0.8~1.2之间取值,具体可以根据实际情况设定。
由于分类分支和回归分支不会相互影响,在一些实施例中,可以将回归分支的难样本挖掘策略与分类分支的难样本挖掘策略结合使用。
根据本公开的实施例,在分类分支采用难样本挖掘策略的情况下,根据样本类别和类别标签,确定分类损失值例如可以采用如下操作。
根据样本类别和类别标签基于Focal loss损失函数来确定分类损失值。
Focal loss损失函数是基于二分类的交叉熵损失。它是一个动态缩放的交叉熵损失,通过一个动态缩放因子,可以动态降低训练过程中容易样本的权重,使损失函数能够更关注难样本,从而平衡正负样本的不均匀性。
Focal loss损失函数可以使用以下公式(2)来计算。
Figure BDA0003669061090000091
在公式(2)中,Lcls表示Focal loss损失函数,α和η表示超参数,
Figure BDA0003669061090000092
表示经由模型输出的样本类别,y表示类别标签。
在本公开实施例中,通过在分类分支和回归分支均采用难样本挖掘策略,使模型同时在分类分支和回归分支上重点优化难样本,从而在不增加计算量的情况下,进一步提高了模型的预测效果。
根据本公开的实施例,深度学习模型例如可以包括特征提取模块、特征融合模块和目标检测模块。在一个示例中,特征提取模块可以用于对样本图像执行特征提取操作,得到多个多尺度特征图。特征融合模块可以用于对多个多尺度特征图进行多尺度融合处理,得到多个多尺度融合特征图。目标检测模块可以用于根据多个多尺度融合特征图来确定样本图像中目标对象的样本类别和样本边框。在上述示例中,采用特征融合模块对多个多尺度特征图进行多尺度融合处理的过程可以与以上描述的过程相同,但本公开不局限于此。
根据本公开的实施例,操作S240可以包括如下操作。
根据分类损失值和第二回归损失值,确定联合损失值;以及根据联合损失值来调整特征提取模块、特征融合模块和目标检测模块的参数。
根据本公开的实施例,分类损失值可以是基于Focal loss损失函数来确定的,或者采用其他方式来确定,具体不做限定。
可以理解,由于分类分支和回归分支不会相互影响,因而可以根据实际情况对各个分支的损失值赋予预设权重,以便确定分类损失值和第二回归损失值在联合损失值中所占的比重,从而更加准确地调整模型的参数。
在本公开实施例中,通过利用联合损失值来调整特征提取模块、特征融合模块和目标检测模块的参数,使得模型至少可以重点优化难回归的样本,从而提高回归分支预测结果的准确性和检测效率。
图3是根据本公开的实施例的深度学习模型的训练方法的示意图。以下将参考图3对本公开的方案进行说明。
如图3所示,深度学习模型300包括特征提取模块310、特征融合模块320和目标检测模块330。以下将以利用样本图像R来训练深度学习模型300为例对本公开的方案进行详细说明。其中,样本图像R可以包括至少一个目标对象以及至少一个目标对象的类别标签y和位置标签l。
将样本图像R输入特征提取模块310中,以对样本图像R执行特征提取操作,得到多个多尺度特征图Fr。使用特征融合模块320对多个多尺度特征图Fr进行多尺度融合处理,得到多个多尺度融合特征图Fe。使用目标检测模块330对多个多尺度融合特征图Fe进行检测,得到样本图像R中目标对象的样本类别Sc和样本边框Sb。
根据样本类别Sc和类别标签y计算301分类损失值Lc。根据样本边框Sb、调整因子w和位置标签l计算302第二回归损失值Lr。其中,调整因子w是基于样本边框Sb和位置标签l来确定的。在一个示例中,调整因子w可以根据公式(1)计算得到。
根据分类损失值Lc和第二回归损失值Lr计算303联合损失值Lu。利用联合损失值Lu调整特征提取模块310、特征融合模块320和目标检测模块330的参数。
在一些实施例中,可以根据样本类别Sc和类别标签y基于Focal loss损失函数来确定分类损失值Lc。由此,可以同时在分类分支和回归分支上重点优化难样本,从而在不增加计算量的情况下,进一步提高了模型的预测效果。
根据本公开的实施例,可以利用多个批次的样本图像来训练上述深度学习模型,直至模型收敛。利用每个样本图像训练模型的过程与以上描述的过程相同或类似,在此不再赘述。经训练的深度学习模型可以用于目标对象的检测,下面将参考图4对目标对象检测方法进行说明。
图4是根据本公开的实施例的目标对象检测方法的流程图。
如图4所示,目标对象检测方法400包括操作S410~S430。
在操作S410,获取待检测图像。
根据本公开的实施例,样本图像可以是通过相机采集而得到的视频流中的任意一帧或多帧图像,或者可以采用其他方式获取,本公开对此不做限定。
待检测图像可以包括一个或多个目标对象。目标对象例如可以是指各种各样的物体,例如面部、车辆或者其他对象,这里不做限定。
在操作S420,获取深度学习模型。
根据本公开的实施例,这里所谓的深度学习模型是基于上述实施例中任一项所述的深度学习模型的训练方法训练得到的。
在操作S430,将待检测图像输入深度学习模型,得到待检测图像中目标对象的类别信息和定位信息。
根据本公开的实施例,目标对象的类别信息指示了样本图像中目标对象所属的类别。目标对象的定位信息则指示了目标对象在样本图像中的位置。由此,可以实现对待检测图像中目标对象的准确检测。
在本公开实施例的方案中,由于经由以上方法训练得到的深度学习模型可以重点优化难样本,因此,通过利用上述深度学习模型来检测待检测图像,可以提高目标对象检测的准确性和效率。
需要说明的是,操作S410与操作S420可以是并行执行的。但是本公开的实施例不限于此,这两组操作也可以按照其他顺序来执行,例如先执行操作S420,再执行操作S410。
图5是根据本公开的实施例的深度学习模型的训练装置的框图。如图5所示,深度学习模型的训练装置500包括第一确定模块510、计算模块520、修正模块530和调整模块540。
第一确定模块510用于根据样本图像,确定样本图像中目标对象的样本类别和样本边框。样本图像包括目标对象的标签。
计算模块520用于根据样本类别、样本边框和标签,确定分类损失值和第一回归损失值。
修正模块530用于利用调整因子修正第一回归损失值,得到第二回归损失值。调整因子指示了样本图像的回归难易程度。
调整模块540用于根据分类损失值和第二回归损失值来调整深度学习模型的参数。
根据本公开的实施例,标签包括类别标签和位置标签。上述深度学习模型的训练装置500还包括第二确定模块。第二确定模块用于根据样本边框和位置标签,确定调整因子。
根据本公开的实施例,第二确定模块包括第一计算单元和确定单元。第一计算单元用于计算样本边框与位置标签的交并比;以及确定单元用于根据交并比,确定调整因子。
根据本公开的实施例,调整因子与交并比呈负相关关系。
根据本公开的实施例,计算模块包括第二计算单元和第三计算单元。第二计算单元用于根据样本类别和类别标签,确定分类损失值;以及第三计算单元用于根据样本边框和位置标签,确定第一回归损失值。
根据本公开的实施例,第二计算单元包括计算子单元。计算子单元用于根据样本类别和类别标签基于Focal loss损失函数来确定分类损失值。
根据本公开的实施例,第一确定模块包括特征提取单元、融合单元和检测单元。特征提取单元用于对样本图像执行特征提取操作,得到多个多尺度特征图;融合单元用于对多个多尺度特征图进行多尺度融合处理,得到多个多尺度融合特征图;以及检测单元用于根据多个多尺度融合特征图,确定样本图像中目标对象的样本类别和样本边框。
根据本公开的实施例,深度学习模型包括特征提取模块、特征融合模块和目标检测模块;调整模块包括第四计算单元和调整单元。第四计算单元用于根据分类损失值和第二回归损失值,确定联合损失值;以及调整单元用于根据联合损失值来调整特征提取模块、特征融合模块和目标检测模块的参数。
图6是根据本公开的实施例的目标对象检测装置的框图。
如图6所示,目标对象检测装置600包括第一获取模块610、第二获取模块620和检测模块630。
第一获取模块610用于获取待检测图像。
第二获取模块620用于获取深度学习模型。其中,该深度学习模型是利用上述实施例中任一项的深度学习模型的训练装置训练得到的。
检测模块630用于将待检测图像输入深度学习模型,得到待检测图像中目标对象的类别信息和定位信息。
需要说明的是,装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如本公开实施例的方法。
根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如本公开实施例的方法。
根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如本公开实施例的方法。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如深度学习模型的训练方法和目标对象检测方法。例如,在一些实施例中,深度学习模型的训练方法和目标对象检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的深度学习模型的训练方法和目标对象检测方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行深度学习模型的训练方法和目标对象检测方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (21)

1.一种深度学习模型的训练方法,包括:
根据样本图像,确定所述样本图像中目标对象的样本类别和样本边框;所述样本图像包括所述目标对象的标签;
根据所述样本类别、所述样本边框和所述标签,确定分类损失值和第一回归损失值;
利用调整因子修正所述第一回归损失值,得到第二回归损失值,所述调整因子指示了所述样本图像的回归难易程度;以及
根据所述分类损失值和所述第二回归损失值来调整所述深度学习模型的参数。
2.根据权利要求1所述的方法,其中,所述标签包括类别标签和位置标签;所述方法还包括:
根据所述样本边框和所述位置标签,确定所述调整因子。
3.根据权利要求2所述的方法,其中,所述根据所述样本边框和所述位置标签,确定所述调整因子包括:
计算所述样本边框与所述位置标签的交并比;以及
根据所述交并比,确定所述调整因子。
4.根据权利要求3所述的方法,其中,所述调整因子与所述交并比呈负相关关系。
5.根据权利要求2所述的方法,其中,所述根据所述样本类别、所述样本边框和所述标签,确定分类损失值和第一回归损失值包括:
根据所述样本类别和所述类别标签,确定所述分类损失值;以及
根据所述样本边框和所述位置标签,确定所述第一回归损失值。
6.根据权利要求5所述的方法,其中,所述根据所述样本类别和所述类别标签,确定所述分类损失值包括:
根据所述样本类别和所述类别标签基于Focal loss损失函数来确定所述分类损失值。
7.根据权利要求1所述的方法,其中,所述根据样本图像,确定所述样本图像中目标对象的样本类别和样本边框包括:
对所述样本图像执行特征提取操作,得到多个多尺度特征图;
对所述多个多尺度特征图进行多尺度融合处理,得到多个多尺度融合特征图;以及
根据所述多个多尺度融合特征图,确定所述样本图像中目标对象的样本类别和样本边框。
8.根据权利要求1所述的方法,其中,所述深度学习模型包括特征提取模块、特征融合模块和目标检测模块;所述根据所述分类损失值和所述第二回归损失值来调整所述深度学习模型的参数包括:
根据所述分类损失值和所述第二回归损失值,确定联合损失值;以及
根据所述联合损失值来调整特征提取模块、特征融合模块和目标检测模块的参数。
9.一种目标对象检测方法,包括:
将待检测图像输入深度学习模型,得到所述待检测图像中目标对象的类别信息和定位信息,
其中,所述深度学习模型是利用权利要求1~8中任一项所述的方法训练得到的。
10.一种深度学习模型的训练装置,包括:
第一确定模块,用于根据样本图像,确定所述样本图像中目标对象的样本类别和样本边框;所述样本图像包括所述目标对象的标签;
计算模块,用于根据所述样本类别、所述样本边框和所述标签,确定分类损失值和第一回归损失值;
修正模块,用于利用调整因子修正所述第一回归损失值,得到第二回归损失值,所述调整因子指示了所述样本图像的回归难易程度;以及
调整模块,用于根据所述分类损失值和所述第二回归损失值来调整所述深度学习模型的参数。
11.根据权利要求10所述的装置,其中,所述标签包括类别标签和位置标签;所述装置还包括:
第二确定模块,用于根据所述样本边框和所述位置标签,确定所述调整因子。
12.根据权利要求11所述的装置,其中,所述第二确定模块包括:
第一计算单元,用于计算所述样本边框与所述位置标签的交并比;以及
确定单元,用于根据所述交并比,确定所述调整因子。
13.根据权利要求12所述的装置,其中,所述调整因子与所述交并比呈负相关关系。
14.根据权利要求11所述的装置,其中,所述计算模块包括:
第二计算单元,用于根据所述样本类别和所述类别标签,确定所述分类损失值;以及
第三计算单元,用于根据所述样本边框和所述位置标签,确定所述第一回归损失值。
15.根据权利要求14所述的装置,其中,所述第二计算单元包括:
计算子单元,用于根据所述样本类别和所述类别标签基于Focal loss损失函数来确定所述分类损失值。
16.根据权利要求10所述的装置,其中,所述第一确定模块包括:
特征提取单元,用于对所述样本图像执行特征提取操作,得到多个多尺度特征图;
融合单元,用于对所述多个多尺度特征图进行多尺度融合处理,得到多个多尺度融合特征图;以及
检测单元,用于根据所述多个多尺度融合特征图,确定所述样本图像中目标对象的样本类别和样本边框。
17.根据权利要求10所述的装置,其中,所述深度学习模型包括特征提取模块、特征融合模块和目标检测模块;所述调整模块包括:
第四计算单元,用于根据所述分类损失值和所述第二回归损失值,确定联合损失值;以及
调整单元,用于根据所述联合损失值来调整特征提取模块、特征融合模块和目标检测模块的参数。
18.一种目标对象检测装置,包括:
检测模块,用于将待检测图像输入深度学习模型,得到所述待检测图像中目标对象的类别信息和定位信息,
其中,所述深度学习模型是利用权利要求10~17中任一项所述的装置训练得到的。
19.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1~9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1~9中任一项所述的方法。
21.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1~9中任一项所述的方法。
CN202210611399.1A 2022-05-30 2022-05-30 深度学习模型的训练方法、目标对象检测方法和装置 Pending CN114882321A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210611399.1A CN114882321A (zh) 2022-05-30 2022-05-30 深度学习模型的训练方法、目标对象检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210611399.1A CN114882321A (zh) 2022-05-30 2022-05-30 深度学习模型的训练方法、目标对象检测方法和装置

Publications (1)

Publication Number Publication Date
CN114882321A true CN114882321A (zh) 2022-08-09

Family

ID=82679411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210611399.1A Pending CN114882321A (zh) 2022-05-30 2022-05-30 深度学习模型的训练方法、目标对象检测方法和装置

Country Status (1)

Country Link
CN (1) CN114882321A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115581436A (zh) * 2022-09-30 2023-01-10 北京航空航天大学 融合深度学习的高分辨率近红外脑功能层析成像算法
CN115936091A (zh) * 2022-11-24 2023-04-07 北京百度网讯科技有限公司 深度学习模型的训练方法、装置、电子设备以及存储介质
CN116484744A (zh) * 2023-05-12 2023-07-25 北京百度网讯科技有限公司 物体仿真方法、模型训练方法、装置、设备及存储介质
CN116663650A (zh) * 2023-06-06 2023-08-29 北京百度网讯科技有限公司 深度学习模型的训练方法、目标对象检测方法及装置
CN117036670A (zh) * 2022-10-20 2023-11-10 腾讯科技(深圳)有限公司 质量检测模型的训练方法、装置、设备、介质及程序产品

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115581436A (zh) * 2022-09-30 2023-01-10 北京航空航天大学 融合深度学习的高分辨率近红外脑功能层析成像算法
CN117036670A (zh) * 2022-10-20 2023-11-10 腾讯科技(深圳)有限公司 质量检测模型的训练方法、装置、设备、介质及程序产品
CN117036670B (zh) * 2022-10-20 2024-06-07 腾讯科技(深圳)有限公司 质量检测模型的训练方法、装置、设备、介质及程序产品
CN115936091A (zh) * 2022-11-24 2023-04-07 北京百度网讯科技有限公司 深度学习模型的训练方法、装置、电子设备以及存储介质
CN115936091B (zh) * 2022-11-24 2024-03-08 北京百度网讯科技有限公司 深度学习模型的训练方法、装置、电子设备以及存储介质
CN116484744A (zh) * 2023-05-12 2023-07-25 北京百度网讯科技有限公司 物体仿真方法、模型训练方法、装置、设备及存储介质
CN116484744B (zh) * 2023-05-12 2024-01-16 北京百度网讯科技有限公司 物体仿真方法、模型训练方法、装置、设备及存储介质
CN116663650A (zh) * 2023-06-06 2023-08-29 北京百度网讯科技有限公司 深度学习模型的训练方法、目标对象检测方法及装置
CN116663650B (zh) * 2023-06-06 2023-12-19 北京百度网讯科技有限公司 深度学习模型的训练方法、目标对象检测方法及装置

Similar Documents

Publication Publication Date Title
CN114882321A (zh) 深度学习模型的训练方法、目标对象检测方法和装置
US20220253631A1 (en) Image processing method, electronic device and storage medium
CN115082920B (zh) 深度学习模型的训练方法、图像处理方法和装置
CN112749300B (zh) 用于视频分类的方法、装置、设备、存储介质和程序产品
CN115861462B (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN114494784A (zh) 深度学习模型的训练方法、图像处理方法和对象识别方法
CN110633717A (zh) 一种目标检测模型的训练方法和装置
CN114612743A (zh) 深度学习模型的训练方法、目标对象识别方法和装置
CN115456167B (zh) 轻量级模型训练方法、图像处理方法、装置及电子设备
CN107291774B (zh) 错误样本识别方法和装置
CN113643260A (zh) 用于检测图像质量的方法、装置、设备、介质和产品
CN115359308B (zh) 模型训练、难例识别方法、装置、设备、存储介质及程序
CN114429633A (zh) 文本识别方法、模型的训练方法、装置、电子设备及介质
CN115578486A (zh) 图像生成方法、装置、电子设备和存储介质
CN113657249B (zh) 训练方法、预测方法、装置、电子设备以及存储介质
CN112784102B (zh) 视频检索方法、装置和电子设备
CN113837194A (zh) 图像处理方法、图像处理装置、电子设备以及存储介质
CN114724144B (zh) 文本识别方法、模型的训练方法、装置、设备及介质
CN116563669A (zh) 模型的训练方法、视频分类方法、装置及设备
CN113360672B (zh) 用于生成知识图谱的方法、装置、设备、介质和产品
CN115527069A (zh) 物品识别和物品识别***构建方法及装置
CN115482443A (zh) 图像特征融合及模型训练方法、装置、设备以及存储介质
CN113205189B (zh) 训练预测模型的方法、预测方法及装置
CN113239215B (zh) 多媒体资源的分类方法、装置、电子设备及存储介质
CN113408632A (zh) 提高图像分类准确性的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination