CN114119964A - 一种网络训练的方法及装置、目标检测的方法及装置 - Google Patents

一种网络训练的方法及装置、目标检测的方法及装置 Download PDF

Info

Publication number
CN114119964A
CN114119964A CN202111435769.2A CN202111435769A CN114119964A CN 114119964 A CN114119964 A CN 114119964A CN 202111435769 A CN202111435769 A CN 202111435769A CN 114119964 A CN114119964 A CN 114119964A
Authority
CN
China
Prior art keywords
target detection
target
picture
loss function
picture sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111435769.2A
Other languages
English (en)
Inventor
吴嫣然
林培文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Lingang Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority to CN202111435769.2A priority Critical patent/CN114119964A/zh
Publication of CN114119964A publication Critical patent/CN114119964A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种网络训练的方法及装置、目标检测的方法及装置,其中,该方法包括:获取多个第一图片样本以及对每个第一图片样本进行增强处理得到的第二图片样本;将第一图片样本以及第二图片样本输入到待训练的目标检测网络,得到目标检测网络输出的针对第一图片样本的第一目标检测框,以及针对第二图片样本的第二目标检测框;基于第一目标检测框和第二目标检测框,确定目标损失函数值;基于目标损失函数值对待训练的目标检测网络的网络参数的参数值进行调整,得到训练好的目标检测网络。本公开通过对应的第一目标检测框和第二目标检测框之间的一致性约束,一定程度上能够使得目标检测网络能够对相似图片具备更为鲁棒性的检测性能。

Description

一种网络训练的方法及装置、目标检测的方法及装置
技术领域
本公开涉及目标检测技术领域,具体而言,涉及一种网络训练的方法及装置、目标检测的方法及装置。
背景技术
随着目标检测技术的不断发展,目标检测被广泛应用于各个领域,例如自动驾驶、智能安防等领域。为了实现对待检测目标的良好检测,需要事先为待检测目标准备大量的目标图像,并利用目标图像对目标检测网络进行训练,从而得到待检测目标的目标检测网络。
在将目标检测网络应用到实际的应用场景时,对于相邻帧图像可能会输出不同的预测结果,甚至会出现相邻帧的预测结果相差很大的现象,这导致了预测稳定性不足的问题,检测性能较差。
发明内容
本公开实施例至少提供一种网络训练的方法及装置、目标检测的方法及装置,以提升检测性能。
第一方面,本公开实施例提供了一种网络训练的方法,所述方法包括:
获取多个第一图片样本以及对每个所述第一图片样本进行增强处理得到的第二图片样本;所述第二图片样本与所述第一图片样本之间的相似度高于第一预设阈值;
将所述第一图片样本以及所述第二图片样本输入到待训练的目标检测网络,得到所述目标检测网络输出的针对所述第一图片样本的第一目标检测框,以及针对所述第二图片样本的第二目标检测框;
基于所述第一目标检测框和所述第二目标检测框,确定目标损失函数值;
基于所述目标损失函数值对所述待训练的目标检测网络的网络参数值进行调整,得到训练好的目标检测网络。
采用上述网络训练的方法,在进行网络训练的过程中,不仅可以对第一图片样本进行目标检测,还可以对第一图片样本增强后处理得到的第二图片样本进行目标检测,进而通过得到的第一目标检测框和第二目标检测框来确定目标损失函数值以进行目标检测网络的一致性训练。本公开中,通过增强处理得到的第二图片样本一定程度上涵盖了与第一图片样本相似的特征,通过对应的第一目标检测框和第二目标检测框之间的一致性约束,一定程度上能够使得目标检测网络能够对相似图片,如相邻的若干视频帧,具备更为鲁棒性的检测性能。
在一种可能的实施方式中,所述基于所述第一目标检测框和所述第二目标检测框,确定目标损失函数值,包括:
基于所述第一目标检测框和所述第二目标检测框之间的差值运算,得到第一子目标损失函数值;以及,
基于所述第一目标检测框和所述第一图片样本的第一目标标注框之间的差值运算、以及所述第二目标检测框和所述第二图片样本的第二目标标注框之间的差值运算,得到第二子目标损失函数值;
基于所述第一子目标损失函数值以及所述第二子目标损失函数值,确定所述目标损失函数值。
这里的目标损失函数值一方面是由第一目标检测框和第二目标检测框之间的差值运算所确定的第一子目标损失函数值来确定,另一方面可以是由目标检测框与目标标注框之间的差值运算所确定的第二子目标损失函数值来确定,前者用于约束两个检测框之间的接近程度,后者用于约束检测框与标注框之间的接近程度,越是接近,网络性能也越佳。
在一种可能的实施方式中,在一个所述第一图片样本对应多个第二图片样本,且多个第二图片样本之间的相似度高于第二预设阈值的情况下,所述基于所述第一子目标损失函数值以及所述第二子目标损失函数值,确定所述目标损失函数值,包括:
基于多个所述第二图片样本分别对应的第二目标检测框之间的差值运算,得到第三子目标损失函数值;
基于所述第一子目标损失函数值、所述第二子目标损失函数值以及所述第三子目标损失函数值,确定所述目标损失函数值。
这里,还可以约束多个目标检测框之间的接近程度,进而可以进一步提升网络的训练性能。
在一种可能的实施方式中,所述第二目标标注框由所述第一目标标注框确定。
在一种可能的实施方式中,所述基于所述第一目标检测框和所述第二目标检测框,确定目标损失函数值,包括:
确定所述第一目标检测框与所述第二目标检测框之间的交并比;
响应于所述交并比大于预设比例,基于所述第一目标检测框和所述第二目标检测框,确定目标损失函数值。
这里,可以先确定两个目标检测框之间的交互比是否满预设比例,以确定两个目标检测框针对的是否为同一个目标,并能够在确定同属于一个目标的前提下在进行相关目标损失函数值的计算,以提升网络的准确度。
在一种可能的实施方式中,按照如下至少一种方式对所述第一图片样本进行增强处理:
对所述第一图片样本进行图片处理,得到所述第二图片样本;
将所述第一图片样本包括的各个像素的像素值传输至预设间隔处的像素位置,得到各个像素更新后的像素值,并基于所述各个像素更新后的像素值确定所述第二图片样本;
获取图片尺寸小于预设阈值的补丁图片,并所述补丁图片粘贴至所述第一图片样本中除第一目标标注框所指示图片位置之外的其它位置,得到所述第二图片样本;
对所述第一图片样本叠加随机噪声,得到所述第二图片样本。
第二方面,本公开实施例还提供了一种目标检测的方法,所述方法包括:
获取待检测图片;
利用第一方面及其各种实施方式任一所述网络训练的方法训练好的目标检测网络对所述待检测图片进行目标检测,得到所述待检测图片对应的目标检测结果。
第三方面,本公开实施例还提供了一种网络训练的装置,所述装置包括:
获取模块,用于获取多个第一图片样本以及对每个所述第一图片样本进行增强处理得到的第二图片样本;所述第二图片样本与所述第一图片样本之间的相似度高于第一预设阈值;
检测模块,用于将所述第一图片样本以及所述第二图片样本输入到待训练的目标检测网络,得到所述目标检测网络输出的针对所述第一图片样本的第一目标检测框,以及针对所述第二图片样本的第二目标检测框;
确定模块,用于基于所述第一目标检测框和所述第二目标检测框,确定目标损失函数值;
训练模块,用于基于所述目标损失函数值对所述待训练的目标检测网络的网络参数值进行调整,得到训练好的目标检测网络。
第四方面,本公开实施例还提供了一种目标检测的装置,所述装置包括:
获取模块,用于获取待检测图片;
检测模块,用于利用第一方面及其各种实施方式任一所述网络训练的方法训练好的目标检测网络对所述待检测图片进行目标检测,得到所述待检测图片对应的目标检测结果。
第五方面,本公开实施例还提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如第一方面及其各种实施方式任一所述的网络训练的方法的步骤或者如第二方面所述的目标检测的方法的步骤。
第六方面,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面及其各种实施方式任一所述的网络训练的方法的步骤或者如第二方面所述的目标检测的方法的步骤。
关于上述装置、电子设备、及计算机可读存储介质的效果描述参见上述方法的说明,这里不再赘述。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种网络训练的方法的流程图;
图2示出了本公开实施例所提供的网络训练的方法中,网络训练的具体方法的流程图;
图3示出了本公开实施例所提供的一种目标检测的方法的流程图;
图4示出了本公开实施例所提供的一种网络训练的装置的示意图;
图5示出了本公开实施例所提供的一种目标检测的装置的示意图;
图6示出了本公开实施例所提供的一种电子设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
经研究发现,在将目标检测网络应用到实际的应用场景时,对于相邻帧图像可能会输出不同的预测结果,甚至会出现相邻帧的预测结果相差很大的现象,这导致了预测稳定性不足的问题,检测性能较差。
为了解决时序图片目标检测的问题,相关技术中提出了一种基于视频的目标检测方法,在视频目标检测方法中,通常会引入一个记忆模块,来对同一时序中的图片信息进行建模,建模的过程中,在做当前帧的目标检测时可以利用历史帧的信息。
然而上述方法依赖视频目标检测的标注,需要在训练时就使用大量的视频标注信息,无法利用现有的一些基于图片的目标检测标注,造成大量人力资源的浪费。此外,由于引入了新的记忆模块用以保存时序信息,模型的计算量大大增加,并且对于模型结构的修改,在模型的落地部署上引入了困难。
基于上述研究,本公开提供了一种基于一致性约束的网络训练的方法及装置、目标检测的方法及装置,以提升检测性能。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种网络训练的方法进行详细介绍,本公开实施例所提供的网络训练的方法的执行主体一般为具有一定计算能力的电子设备,该电子设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、蜂窝电话、无绳电话、个人数字助理(PersonalDigital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该网络训练的方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
参见图1所示,为本公开实施例提供的网络训练的方法的流程图,方法包括步骤S101~S104,其中:
S101:获取多个第一图片样本以及对每个第一图片样本进行增强处理得到的第二图片样本;第二图片样本与第一图片样本之间的相似度高于第一预设阈值;
S102:将第一图片样本以及第二图片样本输入到待训练的目标检测网络,得到目标检测网络输出的针对第一图片样本的第一目标检测框,以及针对第二图片样本的第二目标检测框;
S103:基于第一目标检测框和第二目标检测框,确定目标损失函数值;
S104:基于目标损失函数值对待训练的目标检测网络的网络参数值进行调整,得到训练好的目标检测网络。
为了便于理解本公开实施例提供的网络训练的方法,接下来首先对该方法的应用场景进行简单介绍。本公开实施例提供的网络训练的方法主要可以应用于目标检测相关领域,例如,可以应用于视频监控场景下的行人检测,还可以应用于自动驾驶场景下的车辆检测等。
考虑到相关技术中针对图片的目标检测无法兼顾周边相似的时序图片的相关信息而导致检测的稳定性比较低,而针对视频的目标检测则需要大量的标注信息而导致检测的效率较低。
正是为了解决上述问题,本公开实施例才提供了一种基于一致性约束进行目标检测网络训练的网络训练的方法,以在提升稳定性的情况下,提升检测效率。
其中,基于不同的应用场景,这里所获取的第一图片样本也不同。在获取到大量的适应于具体应用场景的第一图片样本的情况下,这里可以针对每个第一图片样本进行增强处理,以得到与第一图片样本相似度比较高的第二图片样本。
本公开实施例中的增强处理主要指的是对图片进行小幅度修改的过程,例如,可以是通过调整图片的亮度、对比度、饱和度和色相等图片处理方式得到增强处理后的第二图片样本;再如,可以是对图片的像素进行一定的位移,也即,可以将第一图片样本包括的各个像素的像素值传输至预设间隔处的像素位置,得到各个像素更新后的像素值,并基于各个像素更新后的像素值确定第二图片样本,这样所得到的第二图片样本与第一图片样本极为相似;再如,可以是补丁添加方式,也即,获取图片尺寸小于预设阈值的补丁图片,并补丁图片粘贴至第一图片样本中除预先标注的第一目标标注框所指示图片位置之外的其它位置,得到第二图片样本,例如,利用cutout、mosaic等数据增强的相关思想,在第一图片样本上没有标注框的位置贴上一小块额外的补丁,来获取相似的第二图片样本;再如,可以是采用加入随机噪声的方法,在不改变图片外观的基础上,叠加一个额外的噪声,使得网络能够对不同但相似的输入更加鲁棒。
不管是上述那种方式实现的增强处理,处理得到的第二图片样本与处理之前的第一图片样本之间的相似度均是比较高的,这里可以是高于第一预设阈值(例如0.8)。由于第二图片样本与第一图片样本存在较高的相似度,这样在进行后续目标检测时,所对应得到的检测结果理论上是更为一致的,通过一致性约束可以为目标检测网路的训练提供有力的数据支撑。
为了便于进行网络训练,本公开实施例中的第一图片样本可以是预先标注有第一目标标注框的图片样本,其中,上述第一目标标注框用于指示第一图片样本中目标对象所在图像区域。这样,在进行上述增强处理之后,可以基于第一图片样本的标注框信息直接或间接得到的第二图片样本的第二目标标注框,这里的第二目标标注框用于指示第二图片样本中目标对象所在图像区域。
基于不同的增强方式所确定的第二目标标注框的方式略有不同,例如,在以随机噪声叠加方式进行数据增强的情况下,第二图片样本的第二目标标注框可以是直接基于第一目标标注框确定的;在以偏移方式进行数据增强的情况下,第二图片样本的第二目标标注框可以是基于第一目标标注框的平移操作来确定的。
为了便于训练出稳定性更好的目标检测网络,本公开实施例可以同时将第一图片样本和第二图片样本输入到待训练的目标检测网络,以得到针对第一图片样本的第一目标检测框,以及针对第二图片样本的第二目标检测框。
有关目标检测网络可以训练的是图片样本与对应图片样本中目标对象所对应目标检测框的对应信息,而网络所输出的第一目标检测框和第二目标检测框后续可以与上述预先标注的目标标注框信息进行比对以进行目标检测网络的训练。
在进行目标检测网络训练的过程中,可以基于第一目标检测框和第二目标检测框,确定目标损失函数值。在未达到网络迭代截止条件的情况下,基于目标损失函数值对待训练的目标检测网络的网络参数值进行调整,而后,可以将第一图片样本以及第二图片样本输入到调整后的目标检测网络,对调整后的目标检测网络进行下一轮训练,直至达到网络迭代截止条件,得到训练好的目标检测网络。
这里的网络迭代截止条件可以是迭代次数达到预设次数(例如,100次),还可以是所有的图片样本被遍历一遍,还可以是目标损失函数值小于预设阈值,还可以是其它条件,本公开实施例可以结合不同的应用需求来选取,这里不做具体的限制。
这里以目标损失函数值小于预设阈值作为网络迭代截止条件进行示例说明,若在首轮进行目标检测网络训练之后,目标损失函数值并不小于预设阈值,这时可以基于目标损失函数值进行网络的反向传输,并调整网络参数值,继而进行第一轮的网络训练,并确定新的目标损失函数值,若新的目标损失函数值小于预设阈值,这时可以结束训练,若新的目标损失函数值不小于预设阈值,这时可以进行第三轮的网络训练,依此循环,直至新的目标损失函数值小于预设阈值,结束训练,并得到调整好的网络参数值。
这样,在获取到待检测图片的情况下,将待检测图片输入到已经训练好的目标检测网络的情况下,可以很快的得到待检测图片对应的目标检测结果,这里的目标检测结果,可以是用于指示待检测图片中的目标对象的位置、大小等信息的相关结果,另外,在具体应用中,可以是以目标检测框的形式呈现在待检测图片中的。
为了使网络能够更好地适应不同但相似的图片输入,预测出较为稳定的目标检测框,本公开实施例一方面可以采用约束两个图片样本之间的输出,另一方面可以约束各自图片样本的输出,也即,这里的目标损失函数值可以是由第一目标检测框和第二目标检测框之间的差值运算,所得到的第一子目标损失函数值来确定,还可以是由第一目标检测框和第一图片样本的第一目标标注框之间的差值运算、以及第二目标检测框和第二图片样本的第二目标标注框之间的差值运算,所得到的第二子目标损失函数值来确定。
其中,上述第一子目标损失函数值用于进行的是两个图片样本的预测结果之间的一致性约束,上述第二子目标损失函数值用于进行的是图片样本的预测结果与标注结果之间的一致性约束,通过这两项一致性约束,可以大大的提升网络的适应能力。
本公开实施例中,可以采用上述两个子目标损失函数值之间的加权求和来确定目标损失函数值。
在实际应用中,针对一个图片样本而言,其对应增强后的第二图片样本可以有多个,这多个第二图片样本之间的相似度比较高,例如可以高于第二预设阈值(0.9),可以支撑后续的网络训练。在这种情况下,针对每个第二图片样本而言,均可以得到对应的第二目标检测框。
为了进一步提升网络的稳定性,这里可以对多个第二图片样本之间的预测结果进行一致性约束,也即,可以多个第二图片样本分别对应的第二目标检测框之间的差值运算,所得到的第三子目标损失函数值来共同确定目标损失函数值。
考虑到在实际的应用中,有关图片样本中可能具有多个目标对象,在这种情况下,可以首先基于交并比运算确定第一图片样本和第二图片样本中同属于一个目标对象的检测框组,再进行有关网络的训练,具体可以通过如下步骤来确定:
步骤一、确定第一目标检测框对应的第一目标检测框与第二目标检测框对应的第二目标检测框之间的交并比;
步骤二、响应于交并比大于预设比例,基于第一目标检测框和第二目标检测框,确定目标损失函数值。
这里的交并比(Intersection of Union,IoU)可以用来描述两个检测框之间的重合度。与数学中的集合比较相似,等于两个集合的交集里面所包含的元素个数,除以它们的并集里面所包含的元素个数。这里的两个检测框可以看成是两个像素的集合,它们的交并比等于两个检测框重合部分的面积除以它们合并起来的面积。
在两个图片样本对应的两个目标检测框之间的IOU大于设定的预设比例(如0.7)的情况下,可以两个检测框视为相同的目标,继而约束它们的预测位置尽可能相近,从而达到更佳的一致性约束效果,进一步提升网络的稳定性。
在具体应用中,针对一个检测框组包括的两个目标检测框,可以先利用目标检测框包括的各个角的坐标来确定目标检测框在图片样本中的位置,而后通过坐标运算确定两个检测框重合部分的面积除以它们合并起来的面积,继而确定出IOU。此外,在目标对象有多个的话,这里可以利用各个目标检测框包括的各个角的坐标确定配对情况,进而可以确定出每个目标对象对应的检测框组。
为了便于进一步理解本公开实施例提供的网络训练的方法,接下来可以结合图2进一步进行说明。
如图2所示,针对配对好的两个图片样本(即第一图片样本和第二图片样本),这里,可以将两个图片样本分别输入到目标检测网络中,此时可以得到网络输出的第一目标检测框和第二目标检测框,这里,根据上述有关一致性约束可以对上述目标检测网络进行多轮训练,直至得到训练好的目标检测网络。
基于上述实施例提供的网络训练的方法,本公开实施例还提供了一种目标检测的方法,如图3所示,上述方法具体包括如下步骤:
S301:获取待检测图片;
S302:利用网络训练的方法训练好的目标检测网络对待检测图片进行目标检测,得到待检测图片对应的目标检测结果。
这里的待检测图片可以是基于不同的应用场景获取的,仅需将获取的待检测图片输入到上述训练好的目标检测网络,即可实现目标检测,简单高效,有关检测过程参见上述描述,在此不再赘述。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与方法对应的装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图4所示,为本公开实施例提供的一种网络训练的装置的示意图,装置包括:获取模块401、检测模块402、确定模块403、训练模块404;其中,
获取模块401,用于获取多个第一图片样本以及对每个第一图片样本进行增强处理得到的第二图片样本;第二图片样本与第一图片样本之间的相似度高于第一预设阈值;
检测模块402,用于将第一图片样本以及第二图片样本输入到待训练的目标检测网络,得到目标检测网络输出的针对第一图片样本的第一目标检测框,以及针对第二图片样本的第二目标检测框;
确定模块403,用于基于第一目标检测框和第二目标检测框,确定目标损失函数值;
训练模块404,用于基于目标损失函数值对待训练的目标检测网络的网络参数值进行调整,得到训练好的目标检测网络。
采用上述网络训练的装置,在进行网络训练的过程中,不仅可以对第一图片样本进行目标检测,还可以对第一图片样本增强后处理得到的第二图片样本进行目标检测,进而通过得到的第一目标检测框和第二目标检测框来确定目标损失函数值以进行目标检测网络的一致性训练。本公开中,通过增强处理得到的第二图片样本一定程度上涵盖了与第一图片样本相似的特征,通过对应的第一目标检测框和第二目标检测框之间的一致性约束,一定程度上能够使得目标检测网络能够对相似图片,如相邻的若干视频帧,具备更为鲁棒性的检测性能。
在一种可能的实施方式中,确定模块403,用于按照如下步骤基于第一目标检测框和第二目标检测框,确定目标损失函数值:
基于第一目标检测框和第二目标检测框之间的差值运算,得到第一子目标损失函数值;以及,
基于第一目标检测框和第一图片样本的第一目标标注框之间的差值运算、以及第二目标检测框和第二图片样本的第二目标标注框之间的差值运算,得到第二子目标损失函数值;
基于第一子目标损失函数值以及第二子目标损失函数值,确定目标损失函数值。
在一种可能的实施方式中,在一个第一图片样本对应多个第二图片样本,且多个第二图片样本之间的相似度高于第二预设阈值的情况下,确定模块403,用于按照如下步骤基于第一子目标损失函数值以及第二子目标损失函数值,确定目标损失函数值:
基于多个第二图片样本分别对应的第二目标检测框之间的差值运算,得到第三子目标损失函数值;
基于第一子目标损失函数值、第二子目标损失函数值以及第三子目标损失函数值,确定目标损失函数值。
在一种可能的实施方式中,第二目标标注框由第一目标标注框确定。
在一种可能的实施方式中,确定模块403,用于按照如下步骤基于第一目标检测框和第二目标检测框,确定目标损失函数值:
确定第一目标检测框对应的第一目标检测框与第二目标检测框对应的第二目标检测框之间的交并比;
响应于交并比大于预设比例,基于第一目标检测框和第二目标检测框,确定目标损失函数值。
在一种可能的实施方式中,获取模块401,用于按照如下至少一种方式对第一图片样本进行增强处理:
对第一图片样本进行图片处理,得到第二图片样本;
将第一图片样本包括的各个像素的像素值传输至预设间隔处的像素位置,得到各个像素更新后的像素值,并基于各个像素更新后的像素值确定第二图片样本;
获取图片尺寸小于预设阈值的补丁图片,并补丁图片粘贴至第一图片样本中除第一目标标注框所指示图片位置之外的其它位置,得到第二图片样本;
对第一图片样本叠加随机噪声,得到第二图片样本。
参照图5所示,为本公开实施例提供的一种目标检测的装置的示意图,装置包括:获取模块501、检测模块502;其中,
获取模块501,用于获取待检测图片;
检测模块502,用于利用上述网络训练的方法训练好的目标检测网络对待检测图片进行目标检测,得到待检测图片对应的目标检测结果。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
本公开实施例还提供了一种电子设备,如图6所示,为本公开实施例提供的电子设备结构示意图,包括:处理器601、存储器602、和总线603。存储器602存储有处理器601可执行的机器可读指令(比如,图4中的装置中获取模块401、检测模块402、确定模块403、训练模块404对应的执行指令等;再如,图5中的装置中获取模块501、检测模块502对应的执行指令等),当电子设备运行时,处理器601与存储器602之间通过总线603通信,机器可读指令被处理器601执行时执行如图1所示的网络训练的方法或者如图3所示的目标检测的方法。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (11)

1.一种网络训练的方法,其特征在于,所述方法包括:
获取多个第一图片样本以及对每个所述第一图片样本进行增强处理得到的第二图片样本;所述第二图片样本与所述第一图片样本之间的相似度高于第一预设阈值;
将所述第一图片样本以及所述第二图片样本输入到待训练的目标检测网络,得到所述目标检测网络输出的针对所述第一图片样本的第一目标检测框,以及针对所述第二图片样本的第二目标检测框;
基于所述第一目标检测框和所述第二目标检测框,确定目标损失函数值;
基于所述目标损失函数值对所述待训练的目标检测网络的网络参数值进行调整,得到训练好的目标检测网络。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一目标检测框和所述第二目标检测框,确定目标损失函数值,包括:
基于所述第一目标检测框和所述第二目标检测框之间的差值运算,得到第一子目标损失函数值;以及,
基于所述第一目标检测框和所述第一图片样本的第一目标标注框之间的差值运算、以及所述第二目标检测框和所述第二图片样本的第二目标标注框之间的差值运算,得到第二子目标损失函数值;
基于所述第一子目标损失函数值以及所述第二子目标损失函数值,确定所述目标损失函数值。
3.根据权利要求2所述的方法,其特征在于,在一个所述第一图片样本对应多个第二图片样本,且多个第二图片样本之间的相似度高于第二预设阈值的情况下,所述基于所述第一子目标损失函数值以及所述第二子目标损失函数值,确定所述目标损失函数值,包括:
基于多个所述第二图片样本分别对应的第二目标检测框之间的差值运算,得到第三子目标损失函数值;
基于所述第一子目标损失函数值、所述第二子目标损失函数值以及所述第三子目标损失函数值,确定所述目标损失函数值。
4.根据权利要求2或3所述的方法,其特征在于,所述第二目标标注框由所述第一目标标注框确定。
5.根据权利要求1-4任一所述的方法,其特征在于,所述基于所述第一目标检测框和所述第二目标检测框,确定目标损失函数值,包括:
确定所述第一目标检测框与所述第二目标检测框之间的交并比;
响应于所述交并比大于预设比例,基于所述第一目标检测框和所述第二目标检测框,确定目标损失函数值。
6.根据权利要求1-5任一所述的方法,其特征在于,按照如下至少一种方式对所述第一图片样本进行增强处理:
对所述第一图片样本进行图片处理,得到所述第二图片样本;
将所述第一图片样本包括的各个像素的像素值传输至预设间隔处的像素位置,得到各个像素更新后的像素值,并基于所述各个像素更新后的像素值确定所述第二图片样本;
获取图片尺寸小于预设阈值的补丁图片,并所述补丁图片粘贴至所述第一图片样本中除第一目标标注框所指示图片位置之外的其它位置,得到所述第二图片样本;
对所述第一图片样本叠加随机噪声,得到所述第二图片样本。
7.一种目标检测的方法,其特征在于,所述方法包括:
获取待检测图片;
利用权利要求1-6任一所述网络训练的方法训练好的目标检测网络对所述待检测图片进行目标检测,得到所述待检测图片对应的目标检测结果。
8.一种网络训练的装置,其特征在于,所述装置包括:
获取模块,用于获取多个第一图片样本以及对每个所述第一图片样本进行增强处理得到的第二图片样本;所述第二图片样本与所述第一图片样本之间的相似度高于第一预设阈值;
检测模块,用于将所述第一图片样本以及所述第二图片样本输入到待训练的目标检测网络,得到所述目标检测网络输出的针对所述第一图片样本的第一目标检测框,以及针对所述第二图片样本的第二目标检测框;
确定模块,用于基于所述第一目标检测框和所述第二目标检测框,确定目标损失函数值;
训练模块,用于基于所述目标损失函数值对所述待训练的目标检测网络的网络参数值进行调整,得到训练好的目标检测网络。
9.一种目标检测的装置,其特征在于,所述装置包括:
获取模块,用于获取待检测图片;
检测模块,用于利用权利要求1-6任一所述网络训练的方法训练好的目标检测网络对所述待检测图片进行目标检测,得到所述待检测图片对应的目标检测结果。
10.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至6任一所述的网络训练的方法的步骤或者如权利要求7所述的目标检测的方法的步骤。
11.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至6任一所述的网络训练的方法的步骤或者如权利要求7所述的目标检测的方法的步骤。
CN202111435769.2A 2021-11-29 2021-11-29 一种网络训练的方法及装置、目标检测的方法及装置 Pending CN114119964A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111435769.2A CN114119964A (zh) 2021-11-29 2021-11-29 一种网络训练的方法及装置、目标检测的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111435769.2A CN114119964A (zh) 2021-11-29 2021-11-29 一种网络训练的方法及装置、目标检测的方法及装置

Publications (1)

Publication Number Publication Date
CN114119964A true CN114119964A (zh) 2022-03-01

Family

ID=80371567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111435769.2A Pending CN114119964A (zh) 2021-11-29 2021-11-29 一种网络训练的方法及装置、目标检测的方法及装置

Country Status (1)

Country Link
CN (1) CN114119964A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114838496A (zh) * 2022-04-22 2022-08-02 江苏风神空调集团股份有限公司 基于人工智能的空调***性能检测方法
CN115375987A (zh) * 2022-08-05 2022-11-22 北京百度网讯科技有限公司 一种数据标注方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114838496A (zh) * 2022-04-22 2022-08-02 江苏风神空调集团股份有限公司 基于人工智能的空调***性能检测方法
CN114838496B (zh) * 2022-04-22 2024-02-23 北京百车宝科技有限公司 基于人工智能的空调***性能检测方法
CN115375987A (zh) * 2022-08-05 2022-11-22 北京百度网讯科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN115375987B (zh) * 2022-08-05 2023-09-05 北京百度网讯科技有限公司 一种数据标注方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US20210312214A1 (en) Image recognition method, apparatus and non-transitory computer readable storage medium
CN110933497A (zh) 视频图像数据插帧处理方法及相关设备
CN104584079A (zh) 用于增强现实应用程序的装置和方法
CN114119964A (zh) 一种网络训练的方法及装置、目标检测的方法及装置
Shokri et al. Salient object detection in video using deep non-local neural networks
CN109116129B (zh) 终端检测方法、检测设备、***及存储介质
US20220172476A1 (en) Video similarity detection method, apparatus, and device
CN113704531A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN103198311A (zh) 基于拍摄的图像来识别字符的方法及装置
CN110991310B (zh) 人像检测方法、装置、电子设备及计算机可读介质
CN114511041B (zh) 模型训练方法、图像处理方法、装置、设备和存储介质
CN108960012B (zh) 特征点检测方法、装置及电子设备
JP5832656B2 (ja) 画像中のテキストの検出を容易にする方法及び装置
CN113112542A (zh) 一种视觉定位方法、装置、电子设备及存储介质
CN110689014B (zh) 感兴趣区域的检测方法、装置、电子设备及可读存储介质
CN112990197A (zh) 车牌识别方法及装置、电子设备和存储介质
CN107203764A (zh) 长微博图片识别方法和装置
CN111428740A (zh) 网络翻拍照片的检测方法、装置、计算机设备及存储介质
CN113688839A (zh) 视频处理方法及装置、电子设备、计算机可读存储介质
CN111833285A (zh) 图像处理方法、图像处理装置及终端设备
KR102467036B1 (ko) 2차원 식별코드 검출을 위한 동적 영상 임계치 설정 방법 및 그 시스템
CN113887518A (zh) 一种行为检测的方法、装置、电子设备及存储介质
CN113391779A (zh) 类纸屏幕的参数调节方法、装置及设备
CN113743219B (zh) 运动目标检测方法、装置、电子设备及存储介质
CN112149463A (zh) 图像处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination