CN113887670A - 目标预测方法、模型训练方法、装置、设备、介质 - Google Patents
目标预测方法、模型训练方法、装置、设备、介质 Download PDFInfo
- Publication number
- CN113887670A CN113887670A CN202111290671.2A CN202111290671A CN113887670A CN 113887670 A CN113887670 A CN 113887670A CN 202111290671 A CN202111290671 A CN 202111290671A CN 113887670 A CN113887670 A CN 113887670A
- Authority
- CN
- China
- Prior art keywords
- prediction model
- target
- regression
- branch
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 abstract description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本公开公开了一种目标预测方法、模型训练方法、装置、设备、介质和产品,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于图像处理和图像识别等场景。具体实现方案为:通过目标预测模型中的分类分支对图像进行前向预测,以确定被预测目标的类别;找出所述目标预测模型中与所述类别关联的回归分支;以及利用所述目标预测模型中与所述类别关联的回归分支,对所述被预测目标进行后向预测。
Description
技术领域
本公开涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于图像处理和图像识别等场景。
背景技术
近年来,随着计算机软硬件技术的发展,人工智能和机器学习领域也得到了巨大的进步。计算机视觉是使用计算机及相关设备对生物视觉的一种模拟,是人工智能领域的一个重要部分,该技术也被广泛应用于图像处理及图像识别等应用场景。
目标检测是当前计算机视觉和机器学习领域的研究热点,如何高效提高检测效果和性能,已成为了重要的研究方向之一。
发明内容
本公开提供了一种目标预测方法、模型训练方法、装置、设备、存储介质以及计算机程序产品。
根据本公开的一方面,提供了一种目标预测方法,包括:通过目标预测模型中的分类分支对图像进行前向预测,以确定被预测目标的类别;找出所述目标预测模型中与所述类别关联的回归分支;以及利用所述目标预测模型中与所述类别关联的回归分支,对所述被预测目标进行后向预测。
根据本公开的另一方面,提供了一种模型训练方法,包括:针对至少一个类别,找出指定预测模型中与所述至少一个类别一一关联的至少一个回归分支,其中,所述至少一个类别为样本图像中包含的目标的类别;以及对所述指定预测模型中与所述至少一个类别一一关联的至少一个回归分支中的每个回归分支,分别进行独立训练。
根据本公开的另一方面,提供了一种目标预测装置,包括:类别确定模块、回归分支确定模块和后向预测模块,类别确定模块用于通过目标预测模型中的分类分支对图像进行前向预测,以确定被预测目标的类别;回归分支确定模块用于找出所述目标预测模型中与所述类别关联的回归分支;后向预测模块用于利用所述目标预测模型中与所述类别关联的回归分支,对所述被预测目标进行后向预测。
根据本公开的另一方面,提供了一种模型训练装置,包括:回归分支查找模块和回归分支独立训练模块,回归分支查找模块用于针对至少一个类别,找出指定预测模型中与所述至少一个类别一一关联的至少一个回归分支,其中,所述至少一个类别为样本图像中包含的目标的类别;回归分支独立训练模块用于对所述指定预测模型中与所述至少一个类别一一关联的至少一个回归分支中的每个回归分支,分别进行独立训练。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开实施例所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开实施例所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示例性示出了一实施例的模型训练的示意图;
图2示例性示出了另一实施例的模型训练的示意图;
图3示例性示出了适于本公开实施例的***架构;
图4示例性示出了根据本公开实施例的目标预测方法的流程图;
图5示例性示出了根据本公开实施例的目标预测方法的示意图;
图6示例性示出了根据本公开实施例的模型训练方法的流程图;
图7示例性示出了根据本公开实施例的模型训练方法的示意图;
图8示例性示出了根据本公开实施例的目标预测装置的框图;
图9示例性示出了根据本公开实施例的模型训练装置的框图;
图10示例性示出了用来实现本公开实施例的目标预测方法和模型训练方法以及对应装置的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
目标预测可以应用于图像处理和视频监控等领域,目标预测包括分类预测和回归预测。分类预测是指对输入的图像中的目标进行类别识别,回归预测是指对输入的图像中的目标进行位置、大小和形状等的预测。
目标检测是指,利用深度学习模型对图像中的目标进行识别和分类的技术。目标检测通常包括目标识别、目标分类以及目标位置定位等。目前,目标检测已大量应用在自动驾驶、安防监控等领域。在利用深度学习模型进行目标检测前,通常需要利用大量图像样本进行模型训练,在模型训练达到预设精度后方可投入使用。
目标预测包括前向的分类预测和后向的回归预测。分类预测是指对输入的图像中的目标进行类别识别,回归预测是指对输入的图像中的目标进行位置、大小和形状等的预测。与分类预测、回归预测分别对应地,用于目标预测的深度学习模型(目标预测模型)可以包括分类分支和回归分支。分类分支是指对目标进行分类的分支网络,回归分支是指对目标进行位置、大小和形状等参数进行回归的分支网络。
如图1所示,在一些实施方式中,可以采用one-stage(单阶段)目标预测模型进行目标预测的分类与回归。one-stage(单阶段)目标预测模型例如可以是YOLO(You OnlyLook Once,只看一次)模型,YOLO模型采用CNN(Convolution Neural Network,卷积神经网络)的主干网络提取特征,并通过全连接层对提取的特征进行合理加工和利用(如通过卷积计算进行特征融合等),便于后续进行分类和回归。YOLO模型将输入的图像分割成互不重合的网格,然后通过卷积得到与各个网格同等大小的特征图,默认特征图中的每个元素对应输入图像的一个网格,用特征图中的每个元素预测中心点在该网格内的目标。
如图2所示,在另一些实施方式中,可以采用two-stage(两阶段)目标预测模型进行目标预测的分类与回归。two-stage(两阶段)目标预测模型例如可以是FAST-R-CNN(快速的基于区域的卷积网络)模型等。采用FAST-R-CNN模型的目标识别步骤可以包括:输入图像,例如利用卷积神经网络这一主干网络对图像进行深度特征提取,然后通过RPN(RegionProposal Network,区域生成网络)生成候选框,并且RPN可以对目标的位置进行初步的预测。然后通过ROI Pooling(感兴趣区池化层,ROI为Region of Interest的简称)对候选框进行进一步的位置的精确的回归和修正。然后通过分类分支和回归分支分别完成对目标的类别和位置的预测。
应该理解,图像中不同类别的目标的位置、形状等均不尽相同,但上述的单阶段目标预测模型和两阶段目标预测模型,通过分类分支区分出的不同类别的目标均使用同一回归分支进行回归,因而其回归效果较差。
以下将结合附图和具体实施例详细阐述本公开。
适于本公开实施例的目标预测方法和模型训练方法及其对应装置的***架构介绍如下。
图3示例性示出了适于本公开实施例的***架构。需要注意的是,图3所示仅为可以应用本公开实施例的***架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他环境或场景。
如图3所示,本公开实施例中***架构300可以包括:
用于获取训练样本的终端301、用于模型训练的终端302和用于目标检测的终端303。
本公开实施例中,终端301可以用于执行样本处理方法,以获得用于模型训练的样本集。终端302可以根据终端301获得的样本集执行对应的模型训练方法以实现对应的模型训练。终端303可以基于终端302获得的模型对指定图像进行目标检测。
需要说明的是,样本处理和模型训练可以在同一终端上实现,也可在不同终端实现。
终端301、终端302和终端303可以是服务器,还可以是服务器集群。
应该理解,图3中终端301、终端302和终端303的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端301、终端302和终端303。
图4示例性示出了根据本公开实施例的目标预测方法的流程图。
如图4所示,根据本公开实施例的目标预测方法400包括操作S410~操作S430。
在操作S410,通过目标预测模型中的分类分支对图像进行前向预测,以确定被预测目标的类别。
在操作S420,找出目标预测模型中与该被预测目标的类别关联的回归分支。
在操作S430,利用目标预测模型中与该被预测目标的类别关联的回归分支,对被预测目标进行后向预测。
操作S410中,目标预测模型可以是经前期训练、达到预设的目标预测精度的深度学习模型,该模型包括分类分支和至少一个回归分支,其中,不同的回归分支与不同的类别相关联。图像中包括被预测目标,在图像输入至目标预测模型后,目标预测模型可对被预测目标进行分类和回归。在本公开实施例,前向预测可以理解为目标预测模型中的分类分支执行的预测操作。后向预测可以理解为目标预测模型中的各回归分支执行的预测操作。即前向预测在本公开实施例中可以是指,针对输入的图像,利用目标预测模型中的分类分支,对输入图像中的被预测对象进行分类,以获得被预测对象的类别的预测操作。后向预测在本公开实施例中可以是指,针对输入的图像,目标预测模型的分类分支对输入图像中的被预测目标进行分类,并获得被预测目标的类别后,再由于该类别相关联的回归分支进行回归,以获得被预测目标的回归预测结果。
需要说明的是,如果目标预测模型可预测的图像中的目标的类别的数量为一,则与该类别相关的回归分支的数量也为一,并与该类别关联。如果目标预测模型可预测的图像中的目标的类别的数量为b,则与类别相关的回归分支的数量也为b,类别与回归分支分别对应关联。
应该理解,被预测目标的类别能够表征该被预测目标的部分特有特征,根据本公开实施例的技术方案,回归分支与类别关联,即回归分支能够与该类别的被预测目标的部分特有特征关联,与类别关联的回归分支也能够更好地回归该类别的位置、大小等特征。
图5示出了根据本公开实施例的目标预测方法的示意图。
如图5所示,根据本公开实施例的目标预测方法500,其中,目标预测模型包括至少一个回归分支,至少一个回归分支中的每个回归分支对应于不同的类别。
操作S520中,找出目标预测模型中与类别关联的回归分支可以包括:根据目标预测模型中各回归分支与各类别的对应关系,找出目标预测模型中与被预测目标的类别关联的回归分支。
应该理解,一些目标预测模型可预测的被预测目标的类别可以有多个,本公开实施例中,相应的回归分支也具有多个,且与类别一一对应关联。
根据目标预测模型中各回归分支与各类别的对应关系,找出目标预测模型中与被预测目标的类别相关联的回归分支,具体可以是根据预先建立的类别与回归分支的关联数据表,并根据目标预测模型预测的具体类别在上述的关联数据表中查找与该类别关联的特定的回归分支并利用该回归分支进行回归预测。
一些实施方式中,对于不同类别的被预测目标,目标预测模型使用同一回归分支进行后向预测,即各个类别在模型中共享同一回归分支的权重。但是,图像中不同类别的被预测目标可能具有不同的形状,不同类别对应的不同形状的被预测目标在同一回归分支中进行回归预测,其准确性较低。而通过本公开实施例的技术方案,使得不同的类别对应于不同的回归分支,对于每个类别的被预测目标可以基于与其类别一一关联的回归分支进行回归预测,因而可提高回归的准确性。
图像中不同类别的被预测目标可能会出现至少部分重叠的情况,一些实施方式的目标预测模型对至少部分重叠的不同类别的被预测目标进行回归时采用同一回归分支,造成回归目标竞争的情况。而通过本公开实施例的技术方案,对于至少部分重叠的不同类别的被预测目标进行回归时,由于不同的类别对应于不同的回归分支,可对至少部分重叠的不同类别的被预测目标实现回归分支解耦,避免发生回归目标竞争情况。
示例性地,根据本公开实施例的目标预测方法,其中,目标预测模型中的回归分支的卷积层通道参数可以是根据目标预测模型中的分类分支的卷积层通道参数配置的。比如,分类分支的卷积层通道数为q(表示分类分支可以识别q个类别的目标),则回归分支的卷积层通道数可以对应配置为a(4*q),其中,a表示锚点框样本数,4表示回归时使用的参数的数量,如可以是真实框的中心点的坐标x和y,以及真实框的长和宽共4个量。
某一卷积层通道可用于学习被预测目标的某种特征。本公开实施例的技术方案中,基于目标预测模型中的分类分支的卷积层通道参数配置回归分支的卷积层通道参数,可以在对某一被预测目标进行回归时追踪对应类别在分类时的卷积层通道参数,以准确地对该类别的被预测目标进行回归预测。
例如,在一个实施例中,可以对目标预测模型中的回归分支做以下配置:可以配置9个卷积层通道;同时可以将卷积层通道0-2配置为与类别1关联的回归分支,将卷积层通道3-5配置为与类别2关联的回归分支,将卷积层通道6-8配置为与类别3关联的回归分支。这样,比如,被测目标为类别1,则回归时可以使用卷积层通道0-2对应的回归分支进行对被测目标进行回归预测。
示例性地,根据本公开实施例的目标预测方法,其中,对被预测目标进行后向预测,可以包括以下至少之一:对被预测目标进行位置预测,对被预测目标进行大小预测以及对被预测目标进行形状预测。
图6示出了根据本公开实施例的模型训练方法的流程图。
如图6所示,根据本公开实施例的模型训练方法600包括操作S610~操作S620。
在操作S610,针对至少一个类别,找出指定预测模型中与至少一个类别一一关联的至少一个回归分支,其中,至少一个类别为样本图像中包含的目标的类别。
在操作S620,对指定预测模型中与至少一个类别一一关联的至少一个回归分支中的每个回归分支,分别进行独立训练。
操作S610中,“指定预测模型”是指可实现目标预测的深度学习模型。
操作S620中,对指定预测模型中与至少一个类别一一关联的至少一个回归分支中的每个回归分支,分别进行独立训练。
根据本公开实施例的技术方案,可以预先将每个回归分支与对应的类别一一关联,并且针对每个回归分支,可以进行独立训练,这使得每个回归分支可以基于相应的与该回归分支关联的类别对应的样本训练得到,其余类别对应的样本并不影响本回归分支。经过独立训练的每个回归分支的参数更为合理,每个回归分支对相关联的类别的被预测目标的回归预测更为准确。
图7示出了根据本公开实施例的模型训练方法的示意图。
示例性地,根据本公开实施例的模型训练方法700,指定预测模型中不同的回归分支对应于不同的类别。
如图7所示,根据本公开实施例的模型训练方法700,操作S720中,对指定预测模型中与至少一个类别一一关联的至少一个回归分支中的每个回归分支,分别进行独立训练可以包括:利用同一样本集,对指定预测模型中与至少一个类别一一关联的至少一个回归分支中的每个回归分支,分别进行独立训练。
根据本公开实施例的技术方案,不同的回归分支与不同的类别一一对关联,对于同一样本集输入至指定预测模型中时,不同的回归分支只会对样本中与该回归分支关联的类别的被预测目标进行回归,因此在训练时,同一样本集中包含的其他类别的目标并不会造成指定预测模型的不同回归分支的混乱。相反地,同一样本集可包括多个类别的被预测目标,利用该同一样本集进行指定预测模型中的每个回归分支进行独立训练可提高回归分支训练效率。
示例性地,根据本公开实施例的模型训练方法还包括:对初始预测模型中的分类分支进行训练,以得到指定预测模型;或者对每个回归分支成功完成训练后得到的预测模型中的分类分支进行训练,得到对应的目标预测模型。
应该理解,根据本公开实施例的技术方案,可以分别对分类分支和回归分支进行训练,得到目标预测模型。而分类分支的训练和回归分支的训练,两者的顺序可以选择。即可以首先训练分类分支,包括对初始预测模型中的分类分支进行训练,以得到指定预测模型。还可以首先训练回归分支,再训练分类分支,包括对每个回归分支成功完成训练后得到的预测模型中的分类分支进行训练,得到对应的目标预测模型。
需要说明的是,本公开实施例的模型训练方法700在应用于基于锚点框进行目标检测时,用于训练目标检测模型的样本集可以是分为正样本锚点框和负样本锚点框的样本集。锚点框可理解为是在图像上预先设定的不同大小、不同长宽比的先验框。
正样本锚点框与负样本锚点框的划分方式有多种。
在一些实施方式中,可以针对至少一个真实框中的每个真实框,根据样本图像中各锚点框与真实框之间的交并比(Intersection of Union,简称为IOU),获取K个候选锚点框。然后根据样本图像中与K个候选锚点框一一对应的K个预测框(预测框是对对应的锚点框进行预测得到的)各自与真实框之间的交并比,从K个候选锚点框取出N个候选锚点框,以作为样本图像中的正样本锚点框,其中,N小于K。
该实施例中,根据表征锚点框与真实框重合率的第一交并比从各个各锚点框中选取了K个候选锚点框,然后根据第二交并比从K个候选锚点框中选取N个候选锚点框,作为样本图像中的正样本锚点框,即,根据预测框与真实框之间的有效重合率选取正样本锚点框,以提高确定正样本锚点框的准确性。另外第一交并比的数值、第二交并比的数值、候选锚点框的数值、正样本锚点框的数值均可变化,以适应不同的图像。
在另一些实施方式中,还可以针对至少一个真实框中的每个真实框,根据样本图像中各锚点框与真实框之间的交并比,获取K个候选锚点框。然后,根据样本图像中K个候选锚点框与伪掩膜区域之间的交并比,从K个候选锚点框中选取N个候选锚点框,以作为样本图像中的正样本锚点框,其中,N小于K。
在该实施例的中,先利用锚点框与真实框之间的交并比,从所有锚点框中初步筛选一些交并比较大的候选锚点框,如K个候选锚点框,再利用各候选锚点框与伪掩膜区域之间的交并比,从这K个候选锚点框中选择数量更小的一些交并比较大的N个候选锚点框作为正样本锚点框。经过上述两轮筛选,可以使得正样本锚点框的选取更为精确。另外,根据候选锚点框与伪掩膜区域之间的交并比确定正样本锚点框是以锚点框与目标之间的重合率作为选取正样本锚点框的基准的,因而候选锚点框与伪掩膜区域之间的交并比可以反映出锚点框内包含的目标的有效区域的面积大小,因此能够更为准确地选取正样本锚点框。
示例性地,根据本公开实施例的模型训练方法,初始预测模型中的回归分支的卷积层通道参数可以是根据初始预测模型中的分类分支的卷积层通道参数配置的。
根据本公开的实施例,本公开还提供了一种目标预测的装置。
如图8所示,根据本公开实施例的目标预测装置800包括:类别确定模块810、回归分支确定模块820和后向预测模块830。
类别确定模块810,用于通过目标预测模型中的分类分支对图像进行前向预测,以确定被预测目标的类别。在一实施例中,类别确定模块810用于执行上述操作S410。
回归分支确定模块820,用于找出目标预测模型中与类别关联的回归分支。在一实施例中,回归分支确定模块820用于执行上述操作S420。
后向预测模块830,用于利用目标预测模型中与类别关联的回归分支,对被预测目标进行后向预测。在一实施例中,后向预测模块830用于执行上述操作S430。
根据本公开实施例的目标预测装置,其中:目标预测模型包括至少一个回归分支,至少一个回归分支中的每个回归分支对应于不同的类别。
回归分支确定模块可以包括回归分支确定子模块,回归分支确定子模块用于根据目标预测模型中各回归分支与各类别的对应关系,找出目标预测模型中与被预测目标的类别关联的回归分支。
根据本公开实施例的目标预测装置,其中,目标预测模型中的至少一个回归分支的卷积层通道参数是根据目标预测模型中的分类分支的卷积层通道参数配置的。
根据本公开实施例的目标预测装置,其中,后向预测模块还用于执行以下操作至少之一:对被预测目标进行位置预测,对被预测目标进行大小预测,对被预测目标进行形状预测。
根据本公开的实施例,本公开还提供了一种模型训练装置。
如图9所示,根据本公开实施例的模型训练装置900包括:回归分支查找模块910和回归分支独立训练模块920。
回归分支查找模块910,用于针对至少一个类别,找出指定预测模型中与至少一个类别一一关联的至少一个回归分支,其中,至少一个类别为样本图像中包含的目标的类别。在一实施例中,回归分支查找模块710用于执行上述操作S610。
回归分支独立训练模块920,用于对指定预测模型中与至少一个类别一一关联的至少一个回归分支中的每个回归分支,分别进行独立训练。在一实施例中,回归分支独立训练模块920用于执行上述操作S620。
根据本公开实施例的模型训练装置,其中,指定预测模型中不同的回归分支对应于不同的类别。
根据本公开实施例的模型训练装置,其中,回归分支独立训练模块可以包括:回归分支独立训练子模块,回归分支独立训练子模块用于利用同一样本集,对指定预测模型中与至少一个类别一一关联的至少一个回归分支中的每个回归分支,分别进行独立训练。
根据本公开实施例的模型训练装置,还可以包括指定预测模型确定模块和目标预测模型确定模块。指定预测模型,用于对初始预测模型中的分类分支进行训练,以得到指定预测模型。目标预测模型确定模块,用于对每个回归分支成功完成训练后得到的预测模型中的分类分支进行训练,得到对应的目标预测模型。
根据本公开实施例的模型训练装置,其中,初始预测模型中的回归分支的卷积层通道参数是根据初始预测模型中的分类分支的卷积层通道参数配置的。
应该理解,本公开装置部分的实施例与本公开方法部分的实施例对应相同或类似,所解决的技术问题和所达到的技术效果也对应相同或类似,本公开在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,电子设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储电子设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
电子设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如目标预测方法、模型训练方法。例如,在一些实施例中,目标预测方法、模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的目标预测方法、模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行目标预测方法、模型训练方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式***的服务器,或者是结合了区块链的服务器。
本公开的技术方案中,所涉及的图像数据和样本数据的记录,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (21)
1.一种目标预测方法,包括:
通过目标预测模型中的分类分支对图像进行前向预测,以确定被预测目标的类别;
找出所述目标预测模型中与所述类别关联的回归分支;以及
利用所述目标预测模型中与所述类别关联的回归分支,对所述被预测目标进行后向预测。
2.根据权利要求1所述的方法,其中:
所述目标预测模型包括至少一个回归分支,所述至少一个回归分支中的每个回归分支对应于不同的类别;以及
所述找出所述目标预测模型中与所述类别关联的回归分支,包括:根据所述目标预测模型中各回归分支与各类别的对应关系,找出所述目标预测模型中与所述被预测目标的类别关联的回归分支。
3.根据权利要求2所述的方法,其中,所述目标预测模型中的所述至少一个回归分支的卷积层通道参数是根据所述目标预测模型中的所述分类分支的卷积层通道参数配置的。
4.根据权利要求1至3中任一项所述的方法,其中,对所述被预测目标进行后向预测,包括以下至少之一:
对所述被预测目标进行位置预测;
对所述被预测目标进行大小预测;
对所述被预测目标进行形状预测。
5.一种模型训练方法,包括:
针对至少一个类别,找出指定预测模型中与所述至少一个类别一一关联的至少一个回归分支,其中,所述至少一个类别为样本图像中包含的目标的类别;以及
对所述指定预测模型中与所述至少一个类别一一关联的至少一个回归分支中的每个回归分支,分别进行独立训练。
6.根据权利要求5所述的方法,其中,所述指定预测模型中不同的回归分支对应于不同的类别。
7.根据权利要求5或6所述的方法,其中,对所述指定预测模型中与所述至少一个类别一一关联的至少一个回归分支中的每个回归分支,分别进行独立训练,包括:
利用同一样本集,对所述指定预测模型中与所述至少一个类别一一关联的所述至少一个回归分支中的所述每个回归分支,分别进行独立训练。
8.根据权利要求5所述的方法,还包括:
对初始预测模型中的分类分支进行训练,以得到所述指定预测模型;或者
对所述每个回归分支成功完成训练后得到的预测模型中的分类分支进行训练,得到对应的目标预测模型。
9.根据权利要求8所述的方法,其中,所述初始预测模型中的回归分支的卷积层通道参数是根据所述初始预测模型中的所述分类分支的卷积层通道参数配置的。
10.一种目标预测装置,包括:
类别确定模块,用于通过目标预测模型中的分类分支对图像进行前向预测,以确定被预测目标的类别;
回归分支确定模块,用于找出所述目标预测模型中与所述类别关联的回归分支;以及
后向预测模块,用于利用所述目标预测模型中与所述类别关联的回归分支,对所述被预测目标进行后向预测。
11.根据权利要求10所述的装置,其中:
所述目标预测模型包括至少一个回归分支,所述至少一个回归分支中的每个回归分支对应于不同的类别;
所述回归分支确定模块包括回归分支确定子模块,所述回归分支确定子模块用于根据所述目标预测模型中各回归分支与各类别的对应关系,找出所述目标预测模型中与所述被预测目标的类别关联的回归分支。
12.根据权利要求11所述的装置,其中,所述目标预测模型中的所述至少一个回归分支的卷积层通道参数是根据所述目标预测模型中的所述分类分支的卷积层通道参数配置的。
13.根据权利要求10至12中任一项所述的装置,其中,所述后向预测模块还用于执行以下操作至少之一:
对所述被预测目标进行位置预测;
对所述被预测目标进行大小预测;
对所述被预测目标进行形状预测。
14.一种模型训练装置,包括:
回归分支查找模块,用于针对至少一个类别,找出指定预测模型中与所述至少一个类别一一关联的至少一个回归分支,其中,所述至少一个类别为样本图像中包含的目标的类别;
回归分支独立训练模块,用于对所述指定预测模型中与所述至少一个类别一一关联的至少一个回归分支中的每个回归分支,分别进行独立训练。
15.根据权利要求14所述的装置,其中,所述指定预测模型中不同的回归分支对应于不同的类别。
16.根据权利要求14或15所述的装置,其中,回归分支独立训练模块包括:
回归分支独立训练子模块,用于利用同一样本集,对所述指定预测模型中与所述至少一个类别一一关联的所述至少一个回归分支中的所述每个回归分支,分别进行独立训练。
17.根据权利要求14所述的装置,还包括指定预测模型确定模块和目标预测模型确定模块:
指定预测模型,用于对初始预测模型中的分类分支进行训练,以得到所述指定预测模型;或者
目标预测模型确定模块,用于对所述每个回归分支成功完成训练后得到的预测模型中的分类分支进行训练,得到对应的目标预测模型。
18.根据权利要求17所述的装置,其中,所述初始预测模型中的回归分支的卷积层通道参数是根据所述初始预测模型中的所述分类分支的卷积层通道参数配置的。
19.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。
21.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111290671.2A CN113887670A (zh) | 2021-11-02 | 2021-11-02 | 目标预测方法、模型训练方法、装置、设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111290671.2A CN113887670A (zh) | 2021-11-02 | 2021-11-02 | 目标预测方法、模型训练方法、装置、设备、介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113887670A true CN113887670A (zh) | 2022-01-04 |
Family
ID=79016427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111290671.2A Pending CN113887670A (zh) | 2021-11-02 | 2021-11-02 | 目标预测方法、模型训练方法、装置、设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113887670A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866767A (zh) * | 2018-08-27 | 2020-03-06 | ***通信集团江西有限公司 | 电信用户满意度的预测方法、装置、设备及介质 |
WO2020114236A1 (zh) * | 2018-12-05 | 2020-06-11 | 北京达佳互联信息技术有限公司 | 关键点检测方法、装置、电子设备及存储介质 |
CN112801164A (zh) * | 2021-01-22 | 2021-05-14 | 北京百度网讯科技有限公司 | 目标检测模型的训练方法、装置、设备及存储介质 |
CN112801146A (zh) * | 2021-01-13 | 2021-05-14 | 华中科技大学 | 一种目标检测方法及*** |
US20210174537A1 (en) * | 2019-12-10 | 2021-06-10 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for detecting target object in image |
-
2021
- 2021-11-02 CN CN202111290671.2A patent/CN113887670A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866767A (zh) * | 2018-08-27 | 2020-03-06 | ***通信集团江西有限公司 | 电信用户满意度的预测方法、装置、设备及介质 |
WO2020114236A1 (zh) * | 2018-12-05 | 2020-06-11 | 北京达佳互联信息技术有限公司 | 关键点检测方法、装置、电子设备及存储介质 |
US20210174537A1 (en) * | 2019-12-10 | 2021-06-10 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for detecting target object in image |
CN112801146A (zh) * | 2021-01-13 | 2021-05-14 | 华中科技大学 | 一种目标检测方法及*** |
CN112801164A (zh) * | 2021-01-22 | 2021-05-14 | 北京百度网讯科技有限公司 | 目标检测模型的训练方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
谢书翰等: "嵌入通道注意力的YOLOv4火灾烟雾检测模型", 液晶与显示, vol. 36, no. 10, 12 October 2021 (2021-10-12), pages 1445 - 1453 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112801164B (zh) | 目标检测模型的训练方法、装置、设备及存储介质 | |
CN113657465B (zh) | 预训练模型的生成方法、装置、电子设备和存储介质 | |
CN113642431A (zh) | 目标检测模型的训练方法及装置、电子设备和存储介质 | |
CN113705716B (zh) | 图像识别模型训练方法、设备、云控平台及自动驾驶车辆 | |
CN113947188A (zh) | 目标检测网络的训练方法和车辆检测方法 | |
CN112857268A (zh) | 对象面积测量方法、装置、电子设备和存储介质 | |
CN114648676A (zh) | 点云处理模型的训练和点云实例分割方法及装置 | |
CN113205041A (zh) | 结构化信息提取方法、装置、设备和存储介质 | |
CN112863187A (zh) | 感知模型的检测方法、电子设备、路侧设备和云控平台 | |
CN115359308A (zh) | 模型训练、难例识别方法、装置、设备、存储介质及程序 | |
CN115761698A (zh) | 一种目标检测方法、装置、设备及存储介质 | |
CN113554062B (zh) | 多分类模型的训练方法、设备和存储介质 | |
CN116152702A (zh) | 点云标签的获取方法、装置、电子设备和自动驾驶车辆 | |
CN115797660A (zh) | 图像检测方法、装置、电子设备和存储介质 | |
CN113936158A (zh) | 一种标签匹配方法及装置 | |
CN113887670A (zh) | 目标预测方法、模型训练方法、装置、设备、介质 | |
CN114494782A (zh) | 图像处理方法、模型训练方法、相关装置及电子设备 | |
CN114092739B (zh) | 图像处理方法、装置、设备、存储介质和程序产品 | |
CN112560987A (zh) | 图像样本处理方法、装置、设备、存储介质和程序产品 | |
CN113361524B (zh) | 图像处理方法及装置 | |
CN114581751B (zh) | 图像识别模型的训练方法和图像识别方法、装置 | |
CN114494818B (zh) | 图像处理方法、模型训练方法、相关装置及电子设备 | |
CN116416500B (zh) | 图像识别模型训练方法、图像识别方法、装置及电子设备 | |
CN114037865A (zh) | 图像处理方法、装置、设备、存储介质和程序产品 | |
CN115423094A (zh) | 模型训练方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |