CN115761698A - 一种目标检测方法、装置、设备及存储介质 - Google Patents
一种目标检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115761698A CN115761698A CN202211492519.7A CN202211492519A CN115761698A CN 115761698 A CN115761698 A CN 115761698A CN 202211492519 A CN202211492519 A CN 202211492519A CN 115761698 A CN115761698 A CN 115761698A
- Authority
- CN
- China
- Prior art keywords
- training
- recognition model
- task
- recognition
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种目标检测方法、装置、设备及存储介质。该方法包括:获取待处理图像;将待处理图像输入至预确定的目标识别模型,目标识别模型包括至少两个识别任务分支,目标识别模型的损失函数根据至少一个训练数据集中训练样本的任务标签确定;根据目标识别模型输出的至少两个识别结果确定目标检测结果,解决了多个单任务同时运行时效率较低的问题,通过目标识别模型对待处理图像进行处理,目标识别模型中包括至少两个识别任务分支,可以得到至少两个识别结果作为目标检测结果,本申请中的目标识别模型包括至少两个识别任务分支,在训练过程中损失函数根据训练样本的任务标签确定,在数据集不全面的基础上保证模型精度,提高目标识别准确率。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种目标检测方法、装置、设备及存储介质。
背景技术
感知(Perception)***是自动驾驶车对周围环境精确感知的一种***。其输出包括障碍物的位置、形状(2D或3D)、类别及速度信息,也包括对一些场景的语义理解(例如车道线类型,可行驶区域,施工区域,交通信号灯及交通路牌等)。
目前,基于视觉的感知研究通常为单一任务的深度学习网络,其在应用层面收到很大限制。如果存在多任务需求,通常需同时运行多个单任务。但是在实际应用中,多个单任务的网络同时在一个硬件上运行势必会造成硬件资源的利用率下降,从而导致运行效率大大降低。
发明内容
本发明提供了一种目标检测方法、装置、设备及存储介质,以解决多个单任务同时运行时效率较低的问题。
根据本发明的一方面,提供了一种目标检测方法,包括:
获取待处理图像;
将所述待处理图像输入至预确定的目标识别模型,所述目标识别模型包括至少两个识别任务分支,所述目标识别模型的损失函数根据至少一个训练数据集中训练样本的任务标签确定;
根据所述目标识别模型输出的至少两个识别结果确定目标检测结果。
根据本发明的另一方面,提供了一种目标检测装置,包括:
图像获取模块,用于获取待处理图像;
图像识别模块,用于将所述待处理图像输入至预确定的目标识别模型,所述目标识别模型包括至少两个识别任务分支,所述目标识别模型的损失函数根据至少一个训练数据集中训练样本的任务标签确定;
检测结果确定模块,用于根据所述目标识别模型输出的至少两个识别结果确定目标检测结果。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
图像采集装置,用于采集待处理图像;
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的目标检测方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的目标检测方法。
本发明实施例的技术方案,通过获取待处理图像;将所述待处理图像输入至预确定的目标识别模型,所述目标识别模型包括至少两个识别任务分支,所述目标识别模型的损失函数根据至少一个训练数据集中训练样本的任务标签确定;根据所述目标识别模型输出的至少两个识别结果确定目标检测结果,解决了多个单任务同时运行时效率较低的问题,通过目标识别模型对待处理图像进行处理,由于目标识别模型中包括至少两个识别任务分支,因此可以得到至少两个识别结果作为目标检测结果,本申请中的目标识别模型包括至少两个识别任务分支,在训练过程中损失函数根据训练样本的任务标签确定,在数据集不全面的基础上保证模型精度,提高目标识别准确率。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种目标检测方法的流程图;
图2是根据本发明实施例二提供的一种目标检测方法的流程图;
图3是根据本发明实施例二提供的一种确定目标检测结果的实现示例图;
图4是根据本发明实施例三提供的一种目标检测装置的结构示意图;
图5是实现本发明实施例的目标检测方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本发明实施例一提供了一种目标检测方法的流程图,本实施例可适用于对图像中的不同类型的目标进行检测的情况,该方法可以由目标检测装置来执行,该目标检测装置可以采用硬件和/或软件的形式实现,该目标检测装置可配置于电子设备中。如图1所示,该方法包括:
S101、获取待处理图像。
在本实施例中,待处理图像具体可以理解为具有检测需求的图像。待处理图像可以由图像采集装置采集,图像采集装置可以是照相机、摄像机等。以对车辆周围环境中的目标进行识别为例,图像采集装置可以安装在车上,在车辆行驶过程中采集车辆周围环境的图像。待处理图像中可以包括交通标识(例如,交通指示牌)、路面标识(例如,路面上的箭头、行人线、减速线、分流线、人行横道等)、障碍物(例如,机动车、非机动车、行人等)、车道线等。待处理图像可以按照一定的频率采集,可以在采集后实时进行处理,也可以批量处理。
S102、将待处理图像输入至预确定的目标识别模型,目标识别模型包括至少两个识别任务分支,目标识别模型的损失函数根据至少一个训练数据集中训练样本的任务标签确定。
在本实施例中,目标识别模型具体可以理解为预先通过对大量图像进行训练得到,在训练过程中根据损失函数的收敛程度不断调整模型的参数,最终得到符合要求的目标识别模型,完成训练。训练数据集具体可以理解为训练过程中所使用的数据集,训练数据集中标注的图像作为训练样本,进行模型训练得到目标识别模型。任务标签具体可以理解为每个训练样本所对应的任务的分类标签,例如,障碍物、车道线等,训练样本对应的分类标签可以表明此训练样本用于训练识别此类任务,例如,分类标签为障碍物的训练样本用于训练识别障碍物的识别任务分支。
训练好的目标识别模型可以直接输入图像,根据学习经验得到预测结果。本申请中的目标识别模型包括至少两个识别任务分支,每个识别任务分支识别不同类型的目标,例如,识别交通标识、路面标识、障碍物、车道线等。训练过程中所采用的每个训练数据集中训练样本均具有相应的任务标签,根据任务标签确定每个识别任务分支的损失函数,进而根据每个识别任务分支的损失函数确定目标识别模型的损失函数。
对于多任务学习来说,为满足模型训练和精度需求,需要全面的数据集。而现有技术中,并没有全面覆盖所有训练类型的数据集,单一的数据集通常不能同时满足所有的学习任务需求,进而影响模型训练结果和模型精度。本申请在进行模型训练时,采用多个训练数据集中的训练样本,不同的训练数据集中的训练样本用于进行不同类别的目标检测训练,因此通过任务标签对训练样本进行标注,通过任务标签确定损失函数,进而完成模型训练。解决了数据集不全面导致的无法完成多任务识别的问题,通过对多个训练数据集进行融合训练,有效利用现有数据集实现所有感知任务的融合训练,无需人工对数据集进行全面标注,节省资源和时间。
S103、根据目标识别模型输出的至少两个识别结果确定目标检测结果。
在本实施例中,目标检测结果具体可以理解为对待处理图像中的目标进行检测所得到的结果,目标检测结果可以是对待处理图像中的障碍物、路面标识,交通标识等进行框选所得到的矩形框,也可以是对车道线进行标识的线条等,目标检测结果可以直接在待处理图像中进行展示。
具体的,目标识别模型的每个识别任务分支均输出相应的识别结果,由于不同识别任务分支所识别的任务类型不同,因此识别任务分支所输出的识别结果也不相同。识别结果可以包括3D边界框、2D边界框、mask掩码等。根据目标识别模型的每个识别任务分支输出的识别结果,确定目标检测结果,可以直接将识别任务分支输出的识别结果作为目标检测结果,例如,检测框可直接作为目标识别结果;也可以将识别任务分支所输出的识别结果进行处理,得到的数据作为目标检测结果,例如,在车道线识别时,根据mask掩码确定每条车道线所在的位置,并拟合出车道线的曲线方程作为目标检测结果。在输出车道线时,如果需要输出曲线函数,还可以进行轮廓检测等处理。在有多条车道线线时,对不同的车道线进行标识,例如,从左到右的车道线分别标记为1、2、3…,其对应的mask掩码分别为1、2、3…,即车道线1对应的mask掩码为1,根据像素值为1的点拟合出车道线1。
本申请实施例提供了一种目标检测方法,通过获取待处理图像;将所述待处理图像输入至预确定的目标识别模型,所述目标识别模型包括至少两个识别任务分支,所述目标识别模型的损失函数根据至少一个训练数据集中训练样本的任务标签确定;根据所述目标识别模型输出的至少两个识别结果确定目标检测结果,解决了多个单任务同时运行时效率较低的问题,通过目标识别模型对待处理图像进行处理,由于目标识别模型中包括至少两个识别任务分支,因此可以得到至少两个识别结果作为目标检测结果,本申请中的目标识别模型包括至少两个识别任务分支,在训练过程中损失函数根据训练样本的任务标签确定,在数据集不全面的基础上保证模型精度,提高目标识别准确率。
实施例二
图2为本发明实施例二提供的一种目标检测方法的流程图,本实施例在上述实施例的基础上进行细化。如图2所示,该方法包括:
S201、获取至少一个训练数据集并进行标签分类,确定每个训练数据集的任务标签,训练数据集中包括至少一个训练样本以及对应的标准结果。
在本实施例中,标准结果具体可以理解为对训练样本标注的数据,作为训练所用的真值,训练样本的任务标签不同,所对应标准结果的类型也不相同。标准结果通常是人为进行标注的,或者通过其他方式标注的,在训练前需要预先确定标准结果。
获取至少一个训练数据集,每个训练数据集包括至少一个训练样本,以及训练样本对应的标准结果。根据训练数据集所可以识别或训练的数据类型对训练数据集进行标签分类,确定每个训练数据集的任务标签。例如,训练数据集为训练识别障碍物的检测框的训练样本,则对应的任务标签则可以是障碍物识别任务,也可以采用字符串的形式表示任务标签。在训练数据集的任务标签确定后,训练数据集中的训练样本的任务标签相应确定,即训练数据集中所有训练样本的任务标签与训练数据集的任务标签相同。
S202、将当前迭代下对应的训练样本输入至当前的待训练识别模型中,获得待训练识别模型所输出的至少两个训练结果,待训练识别模型包括至少两个识别任务分支。
在本实施例中,待训练识别模型具体可以理解为未进行训练的、基于深度学习的神经网络模型。训练结果具体可以理解为模型训练过程中,对训练样本进行目标检测所得到的结果。在当前迭代下,将训练样本输入至待训练识别模型中,待训练识别模型中的每个识别任务分支输出相应的训练结果。
可选的,待训练识别模型包括编码层、融合层和至少两个识别任务分支。
作为本实施例的一个可选实施例,本可选实施例进一步对将当前迭代下对应的训练样本输入至当前的待训练识别模型中,获得待训练识别模型所输出的至少两个训练结果进行优化,包括:
A1、将训练样本输入至当前的待训练识别模型中的编码层进行特征提取,得到至少一个图像特征,各图像特征的尺度不同。
在本实施例中,图像特征具体可以理解为表示图像的特征数据。将训练样本输入至当前的待训练识别模型中的编码层,通过编码层进行特征提取,编码层可以是一层或者多层,因此再进行特征提取时,可以得到一个或者多个图像特征,每个图像特征的尺度不同。本申请实施例可以采用EfficientNet作为编码层。
A2、将各图像特征输入至当前的待训练识别模型中的融合层进行特征融合,得到融合特征。
在本实施例中,融合特征具体可以理解为对不同尺度的图像特征进行融合处理后所得到的特征数据。将图像特征输入至当前的待训练识别模型中的融合层,通过融合层进行特征融合,得到融合特征。本申请实施例可以采用BiFPN作为融合层,对各图像特征进行融合处理得到融合特征。
A3、将融合特征输入至当前的待训练识别模型中的各识别任务分支,得到每个识别任务分支所输出的训练结果。
将融合特征分别输入至各识别任务分支中,每个识别任务分支均对融合特征进行解码,得到训练结果。本申请总的识别任务分支根据任务不同选择不同类型的分支,如果输出的训练结果为语义输出,则使用语义分割进行解码得到对应的训练结果;如果输出的训练结果为边界框,则用近似YOLO的解码器进行解码得到对应的训练结果。
本申请优选采用参数未确定好的编码层和融合层,在训练过程中同时对编码层、融合层以及各识别任务分支的参数进行调整。
S203、针对每个识别任务分支,根据识别任务分支对应的损失函数表达式,结合训练样本的任务标签、训练结果以及标准结果,获得相应的损失函数,并通过对各损失函数的融合处理形成拟合损失函数。
在本实施例中,拟合损失函数可以理解为多个损失函数进行拟合得到的一个损失函数,在对待训练识别模型进行反向传播时,需要使用损失函数,本申请不同的识别任务分支均具有相应的损失函数,因此在存在多个损失函数的情况下需要对多个损失函数进行拟合,然后基于拟合后的损失函数进行反向传播。损失函数可以是GAN损失函数、L1损失函数、focal损失函数、VGG perceptual损失函数、交叉熵损失函数等。
确定每个识别任务分支所对应的损失函数表达式,对于每个识别任务分支,确定训练样本的任务标签,经过识别任务分支所识别得到的训练结果以及标准结果,通过任务标签确定训练结果是否影响损失函数,即是否可用于确定损失函数,若是,则通过训练结果和标准结果计算相应的损失函数。将多个损失函数进行拟合,得到拟合损失函数。对各损失函数的融合处理形成拟合损失函数的方式可以是为每个损失函数设置不同的权重、取平均值等方式,本发明实施例对此不做具体限定。
作为本实施例的一个可选实施例,本可选实施例进一步优化包括:识别任务分支的损失函数表达式根据任务类型确定。
在本实施例中,任务类型可以是语义检测、边界框检测等,将识别任务分支按照检测方式进行分类;也可以是障碍物检测、车道线检测等,将识别任务分支按照检测的目标的类型进行分类。不同的任务类型所适用的损失函数不同,例如,识别并输出边界框时,使用focal损失函数,以提高小目标物体的检测率;可行驶区域、车道线等语义输出,采用交叉熵损失函数。
作为本实施例的一个可选实施例,本可选实施例进一步将根据识别任务分支对应的损失函数表达式,结合训练样本的任务标签、训练结果以及标准结果,获得相应的损失函数,优化为:如果训练样本的任务标签与识别任务分支匹配,根据识别任务分支的损失函数表达式结合对应的训练结果和标准结果,计算损失函数。
判断训练样本的任务标签与识别任务分支是否匹配,若匹配,则确定训练样本可用于训练识别任务分支,将训练结果和标准结果带入损失函数表达式,计算损失函数。若不匹配,则不根据此训练样本的训练结果和标准结果对此识别任务分支的损失函数进行更新。
以两个训练数据集为例,训练数据集1的任务标签为障碍物,训练数据集1中的训练样本对应的标准结果为障碍物的检测框(或边界框),训练数据集2中的训练样本对应的标准结果为车道线的mask掩码,识别任务分支1用于检测障碍物,识别任务分支2用于检测车道线。训练数据集1中的训练样本的任务标签与识别任务分支1匹配,根据训练样本的训练结果和标准结果计算识别任务分支1的损失函数;训练数据集2中的训练样本的任务标签与识别任务分支1不匹配,训练样本不用于计算识别任务分支1的损失函数;同理,根据训练数据集2中训练样本的训练结果和标准结果计算识别任务分支2的损失函数;训练数据集1中训练样本不用于计算识别任务分支2的损失函数。
本申请的训练方法,可以采用多个不同类型的训练数据集对待训练识别模型进行训练,通过任务标签确定训练样本是否对模型的识别任务分支的训练有效,解决了数据集不全面导致的无法训练多任务识别的问题,可以融合现有技术中的多种数据集,实现多任务识别。并且编码层和融合层作为公共数据处理层进行数据处理,处理后的数据输入至识别任务分支分别进行识别,仅需要一个编码层和融合层实现数据处理以及共享,相比部署多个单任务进行识别,节省硬件资源,提高运行效率。由于多任务学习的相互融合,各识别任务分支的准确率可以达到甚至超过单一任务网络的准确率。
作为本实施例的一个可选实施例,本可选实施例进一步将通过对各损失函数的融合处理形成拟合损失函数优化为:
B1、确定各损失函数在所有损失函数中所占的权重。
统计所有损失函数的总和,分别计算每个损失函数占总和的比例,作为对应的权重。本申请实施例中的损失函数的权重是动态调整的。
B2、根据各损失函数的权重确定拟合损失函数。
根据各损失函数的权重,对各损失函数进行加权运算,得到拟合损失函数。
本申请所使用的编码层和融合层也可以使用参数已经确定好的编码层和融合层,在训练过程中不需要调整参数,只需要调整识别任务分支的参数。
S204、基于拟合损失函数对待训练识别模型进行反向传播,得到用于下一迭代的待训练识别模型,直至满足迭代收敛条件,得到目标识别模型。
在神经网络模型的训练过程中,通过反向传播方法不断更新调整模型,直至模型的输出与目标趋于一致。在确定了拟合损失函数后,利用该拟合损失函数对待训练识别模型进行反向传播,得到目标识别模型。本发明实施例对具体的反向传播过程不做限定,可根据具体情况进行设置。模型训练完成后,就可以通过目标识别模型实现对待处理图像进行目标检测。
可选的,迭代收敛条件,包括:拟合损失函数的减少量小于预设阈值或者通过校验集对当前迭代下的待训练识别模型进行检测时,检测准确率高于预设准确率。
在本实施例中,预设阈值和预设准确率可以预先根据模型精度需求设置。校验集具体可以理解为用于对模型进行校验的数据集,包括用于识别的图像以及图像对应的真值。
在模型训练过程中,每次迭代后比较当前的拟合损失函数与上一次的拟合损失函数的大小,当拟合损失函数减小,且减小量小于预设阈值时,确定满足迭代收敛条件。或者,获取预先形成的校验集,将校验集中的每个图像分别输入到当前迭代下的待训练识别模型,确定识别的结果,将识别的结果与真值进行比较,确定识别是否正确。确定正确识别的图像的数量以及用于进行识别的图像总数量,计算正确识别的比例,将此比例作为检测准确率;比较检测准确率和预设准确率的大小,当检测准确率高于预设准确率时,确定满足迭代收敛条件。
S205、获取待处理图像。
S206、对待处理图像进行图像处理,图像处理包括以下至少一种:剪裁,贴边和缩放。
目标识别模型在处理图像时,可能对输入图像的大小具有一定要求。因此,若待处理图像的尺寸不符合目标识别模型的尺寸要求,在将待处理图像输入至目标识别模型之前,对待处理图像进行处理,可以是裁剪、贴边、缩小和放大中的一种或多种,将其调整为符合尺寸要求的大小。
S207、将处理后的待处理图像输入至预确定的目标识别模型。
S208、根据目标识别模型输出的至少两个识别结果确定目标检测结果。
示例性的,图3提供一种确定目标检测结果的实现示例图。将待处理图像31输入至预处理模块32进行预处理,例如,缩放。将处理后的待处理图像输入至编码层33,得到至少一个图像特征,各图像特征的尺度不同,将得到的图像特征输入至融合层34,得到融合特征,将融合特征分别输入不同的识别任务分支35,实现不同的类型目标的检测,得到相应的识别结果。识别任务分支35可以实现障碍物识别、路面标识识别、车道线识别、可行驶区域识别等。其中,障碍物识别可进行边界框识别或障碍物类别识别;路面标识识别可进行边界框识别或路面标识类别识别;车道线识别和可行驶区域识别可通过全连接层进行处理。边界框或类别识别可采用YOLO解码,车道线和可行驶区域可通过语义分割解码。
本申请实施例提供了一种目标检测方法,解决了多个单任务同时运行时效率较低的问题,目标识别模型中包括至少两个识别任务分支,在通过目标识别模型对待处理图像进行处理时,可以得到至少两个识别结果作为目标检测结果。通过任务标签确定训练样本是否对模型的识别任务分支的训练有效,解决了数据集不全面导致的无法训练多任务识别的问题,可以融合现有技术中的多种数据集,实现多任务识别。并且编码层和融合层作为公共数据处理层进行数据处理,节省硬件资源,提高运行效率。
实施例三
图4为本发明实施例三提供的一种目标检测装置的结构示意图。如图4所示,该装置包括:图像获取模块41、图像识别模块42和检测结果确定模块43。
其中,图像获取模块41,用于获取待处理图像;
图像识别模块42,用于将所述待处理图像输入至预确定的目标识别模型,所述目标识别模型包括至少两个识别任务分支,所述目标识别模型的损失函数根据至少一个训练数据集中训练样本的任务标签确定;
检测结果确定模块43,用于根据所述目标识别模型输出的至少两个识别结果确定目标检测结果。
本申请实施例提供了一种目标检测装置,解决了多个单任务同时运行时效率较低的问题,通过目标识别模型对待处理图像进行处理,由于目标识别模型中包括至少两个识别任务分支,因此可以得到至少两个识别结果作为目标检测结果,本申请中的目标识别模型包括至少两个识别任务分支,在训练过程中损失函数根据训练样本的任务标签确定,在数据集不全面的基础上保证模型精度,提高目标识别准确率。
可选的,该装置还包括:
图像处理模块,用于在将所述待处理图像输入至预确定的目标识别模型之前,对所述待处理图像进行图像处理,所述图像处理包括以下至少一种:剪裁,贴边和缩放。
可选的,该装置还包括:
训练数据获取模块,用于获取至少一个训练数据集并进行标签分类,确定每个训练数据集的任务标签,所述训练数据集中包括至少一个训练样本以及对应的标准结果;
训练结果获取模块,用于将当前迭代下对应的训练样本输入至当前的待训练识别模型中,获得待训练识别模型所输出的至少两个训练结果,所述待训练识别模型包括至少两个识别任务分支;
损失函数确定模块,用于针对每个识别任务分支,根据所述识别任务分支对应的损失函数表达式,结合训练样本的任务标签、训练结果以及标准结果,获得相应的损失函数,并通过对各损失函数的融合处理形成拟合损失函数;
目标模型确定模块,用于基于所述拟合损失函数对所述待训练识别模型进行反向传播,得到用于下一迭代的待训练识别模型,直至满足迭代收敛条件,得到目标识别模型。
可选的,训练结果获取模块,包括:
特征提取单元,用于将训练样本输入至当前的待训练识别模型中的编码层进行特征提取,得到至少一个图像特征,各所述图像特征的尺度不同;
特征融合单元,用于将各所述图像特征输入至当前的待训练识别模型中的融合层进行特征融合,得到融合特征;
训练结果确定单元,用于将所述融合特征输入至当前的待训练识别模型中的各识别任务分支,得到每个识别任务分支所输出的训练结果。
可选的,损失函数确定模块,具体用于:如果所述训练样本的任务标签与所述识别任务分支匹配,根据所述识别任务分支的损失函数表达式结合对应的训练结果和标准结果,计算损失函数。
可选的,损失函数确定模块,包括:
权重确定单元,用于确定各所述损失函数在所有损失函数中所占的权重;
损失函数拟合单元,用于根据各所述损失函数的权重确定拟合损失函数。
可选的,所述迭代收敛条件,包括:所述拟合损失函数的减少量小于预设阈值或者通过校验集对当前迭代下的待训练识别模型进行检测时,检测准确率高于预设准确率。
可选的,所述识别任务分支的损失函数表达式根据任务类型确定。
本发明实施例所提供的目标检测装置可执行本发明任意实施例所提供的目标检测方法,具备执行方法相应的功能模块和有益效果。
实施例四
图5示出了可以用来实施本发明的实施例的电子设备的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图5所示,电子设备包括图像采集装置50,至少一个处理器51,以及与至少一个处理器51通信连接的存储器,如只读存储器(ROM)52、随机访问存储器(RAM)53等,其中,图像采集装置50用于采集待处理图像,图像采集装置50的数量可以是一个或者多个,图5以一个为例;存储器存储有可被至少一个处理器执行的计算机程序,处理器51可以根据存储在只读存储器(ROM)52中的计算机程序或者从存储单元58加载到随机访问存储器(RAM)53中的计算机程序,来执行各种适当的动作和处理。在RAM 53中,还可存储电子设备操作所需的各种程序和数据。处理器51、ROM 52以及RAM 53通过总线54彼此相连。输入/输出(I/O)接口55也连接至总线54。
电子设备中的多个部件连接至I/O接口55,包括:输入单元56,例如键盘、鼠标等;输出单元57,例如各种类型的显示器、扬声器等;存储单元58,例如磁盘、光盘等;以及通信单元59,例如网卡、调制解调器、无线通信收发机等。通信单元59允许电子设备通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器51可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器51的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器51执行上文所描述的各个方法和处理,例如目标检测方法。
在一些实施例中,目标检测方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元58。在一些实施例中,计算机程序的部分或者全部可以经由ROM 52和/或通信单元59而被载入和/或安装到电子设备上。当计算机程序加载到RAM 53并由处理器51执行时,可以执行上文描述的目标检测方法的一个或多个步骤。备选地,在其他实施例中,处理器51可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行目标检测方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的***和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (11)
1.一种目标检测方法,其特征在于,包括:
获取待处理图像;
将所述待处理图像输入至预确定的目标识别模型,所述目标识别模型包括至少两个识别任务分支,所述目标识别模型的损失函数根据至少一个训练数据集中训练样本的任务标签确定;
根据所述目标识别模型输出的至少两个识别结果确定目标检测结果。
2.根据权利要求1所述的方法,其特征在于,将所述待处理图像输入至预确定的目标识别模型之前,还包括:
对所述待处理图像进行图像处理,所述图像处理包括以下至少一种:剪裁,贴边和缩放。
3.根据权利要求1所述的方法,其特征在于,所述目标识别模型的训练步骤,包括:
获取至少一个训练数据集并进行标签分类,确定每个训练数据集的任务标签,所述训练数据集中包括至少一个训练样本以及对应的标准结果;
将当前迭代下对应的训练样本输入至当前的待训练识别模型中,获得待训练识别模型所输出的至少两个训练结果,所述待训练识别模型包括至少两个识别任务分支;
针对每个识别任务分支,根据所述识别任务分支对应的损失函数表达式,结合训练样本的任务标签、训练结果以及标准结果,获得相应的损失函数,并通过对各损失函数的融合处理形成拟合损失函数;
基于所述拟合损失函数对所述待训练识别模型进行反向传播,得到用于下一迭代的待训练识别模型,直至满足迭代收敛条件,得到目标识别模型。
4.根据权利要求3所述的方法,其特征在于,所述将当前迭代下对应的训练样本输入至当前的待训练识别模型中,获得待训练识别模型所输出的至少两个训练结果,包括:
将训练样本输入至当前的待训练识别模型中的编码层进行特征提取,得到至少一个图像特征,各所述图像特征的尺度不同;
将各所述图像特征输入至当前的待训练识别模型中的融合层进行特征融合,得到融合特征;
将所述融合特征输入至当前的待训练识别模型中的各识别任务分支,得到每个识别任务分支所输出的训练结果。
5.根据权利要求3所述的方法,其特征在于,所述根据所述识别任务分支对应的损失函数表达式,结合训练样本的任务标签、训练结果以及标准结果,获得相应的损失函数,包括:
如果所述训练样本的任务标签与所述识别任务分支匹配,根据所述识别任务分支的损失函数表达式结合对应的训练结果和标准结果,计算损失函数。
6.根据权利要求3所述的方法,其特征在于,所述通过对各损失函数的融合处理形成拟合损失函数,包括:
确定各所述损失函数在所有损失函数中所占的权重;
根据各所述损失函数的权重确定拟合损失函数。
7.根据权利要求6所述的方法,其特征在于,所述迭代收敛条件,包括:所述拟合损失函数的减少量小于预设阈值或者通过校验集对当前迭代下的待训练识别模型进行检测时,检测准确率高于预设准确率。
8.根据权利要求3-7任一项所述的方法,其特征在于,所述识别任务分支的损失函数表达式根据任务类型确定。
9.一种目标检测装置,其特征在于,包括:
图像获取模块,用于获取待处理图像;
图像识别模块,用于将所述待处理图像输入至预确定的目标识别模型,所述目标识别模型包括至少两个识别任务分支,所述目标识别模型的损失函数根据至少一个训练数据集中训练样本的任务标签确定;
检测结果确定模块,用于根据所述目标识别模型输出的至少两个识别结果确定目标检测结果。
10.一种电子设备,其特征在于,所述电子设备包括:
图像采集装置,用于采集待处理图像;
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的目标检测方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-8中任一项所述的目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211492519.7A CN115761698A (zh) | 2022-11-25 | 2022-11-25 | 一种目标检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211492519.7A CN115761698A (zh) | 2022-11-25 | 2022-11-25 | 一种目标检测方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115761698A true CN115761698A (zh) | 2023-03-07 |
Family
ID=85338162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211492519.7A Pending CN115761698A (zh) | 2022-11-25 | 2022-11-25 | 一种目标检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115761698A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612358A (zh) * | 2023-07-20 | 2023-08-18 | 腾讯科技(深圳)有限公司 | 一种数据处理的方法、相关装置、设备以及存储介质 |
-
2022
- 2022-11-25 CN CN202211492519.7A patent/CN115761698A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612358A (zh) * | 2023-07-20 | 2023-08-18 | 腾讯科技(深圳)有限公司 | 一种数据处理的方法、相关装置、设备以及存储介质 |
CN116612358B (zh) * | 2023-07-20 | 2023-10-03 | 腾讯科技(深圳)有限公司 | 一种数据处理的方法、相关装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113902897B (zh) | 目标检测模型的训练、目标检测方法、装置、设备和介质 | |
CN113379718B (zh) | 一种目标检测方法、装置、电子设备以及可读存储介质 | |
CN113139543B (zh) | 目标对象检测模型的训练方法、目标对象检测方法和设备 | |
CN112966599B (zh) | 关键点识别模型的训练方法、关键点识别方法及装置 | |
CN112863187B (zh) | 感知模型的检测方法、电子设备、路侧设备和云控平台 | |
CN113705716B (zh) | 图像识别模型训练方法、设备、云控平台及自动驾驶车辆 | |
CN113378857A (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN115761698A (zh) | 一种目标检测方法、装置、设备及存储介质 | |
CN114022865A (zh) | 基于车道线识别模型的图像处理方法、装置、设备和介质 | |
CN113378768A (zh) | 垃圾桶状态识别方法、装置、设备以及存储介质 | |
CN114549961B (zh) | 目标对象的检测方法、装置、设备以及存储介质 | |
CN114724113B (zh) | 道路标牌识别方法、自动驾驶方法、装置和设备 | |
CN113706705B (zh) | 用于高精地图的图像处理方法、装置、设备以及存储介质 | |
CN113344121B (zh) | 训练招牌分类模型和招牌分类的方法 | |
CN113989300A (zh) | 车道线分割的方法、装置、电子设备和存储介质 | |
CN114612971A (zh) | 人脸检测方法、模型训练方法、电子设备及程序产品 | |
CN113936158A (zh) | 一种标签匹配方法及装置 | |
CN113869317A (zh) | 车牌识别方法、装置、电子设备和存储介质 | |
CN113902898A (zh) | 目标检测模型的训练、目标检测方法、装置、设备和介质 | |
CN113361524B (zh) | 图像处理方法及装置 | |
CN114529768B (zh) | 确定对象类别的方法、装置、电子设备和存储介质 | |
CN114092739B (zh) | 图像处理方法、装置、设备、存储介质和程序产品 | |
CN113887670A (zh) | 目标预测方法、模型训练方法、装置、设备、介质 | |
CN115953595A (zh) | 模型训练方法、装置、电子设备、介质和程序产品 | |
CN116758306A (zh) | 一种路面静态物体图像的增强方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |