CN110807523B - 相似目标的检测模型生成方法及设备 - Google Patents
相似目标的检测模型生成方法及设备 Download PDFInfo
- Publication number
- CN110807523B CN110807523B CN201911013099.8A CN201911013099A CN110807523B CN 110807523 B CN110807523 B CN 110807523B CN 201911013099 A CN201911013099 A CN 201911013099A CN 110807523 B CN110807523 B CN 110807523B
- Authority
- CN
- China
- Prior art keywords
- loss
- neural network
- targets
- similar
- network layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明的目的是提供一种相似目标的检测模型生成方法及设备,在模型训练过程中,本发明根据标注的区分容易程度,构造一种类别损失抑制权值向量来优化Focal Loss损失函数,以对训练时神经网络预测的类别损失进行不同程度的抑制操作,这种有针对性的网络误差损失经过反向传播后,对网络参数进行更加精细化地更新调整,提升了深度神经网络模型对相似目标的辨别能力,从而实现了更加精细化地训练机制,使得模型对相似目标具有更强的区分能力。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种相似目标的检测模型生成方法及设备。
背景技术
近年来,基于深度神经网络模型的人工智能技术,在计算机视觉领域得到广泛应用,尤其是在目标检测任务当中,一些深度学习算法模型与框架,已经表现出惊人的准确率。
目前,学术界和工业界研究使用较为成熟的目标检测技术方案有YOLO(You OnlyLook Once)、SSD(Single Shot MultiBox Detector)、Faster-RCNN(Faster-Regions withConvolutional Neural Networks)等,这些神经网络检测框架,对一些常见的差异性目标可做出非常准确的检测效果。
图1为常见神经网络模型的训练方案流程图,训练过程中,不断给神经网络输入带标签的训练集;接下来,神经网络层对输入数据进行特征提取,输出层计算并输出样本的类别信息;然后,通过损失函数来计算网络输出与样本真实标签之间误差损失,将网络误差反向传播,求导计算更新网络参数,直到网络误差损失收敛为止。此时,便可得到训练完成的神经网络模型。
对于目标分类或者检测任务而言,通常在确定网络框架以后,模型的准确性在很大程度上由数据集和训练模型所用的损失函数所决定。在实际应用中,样本集自身的某些问题,往往给模型的准确性带来了很多挑战,例如样本不平衡问题,此时,模型在训练学***衡问题,学者们从损失函数的计算方式出发,让模型在训练和学***衡问题,设计了Focal Loss损失函数,如公式(1)所示,
FL(pt)=-αt(1-pt)γlog(pt) (1)
式中,αt∈(0,1)用于处理样本的不平衡问题,γ≥0用于控制样本的难分问题,pt为模型预测出的标签概率向量。按照作者建议,它们的取值分别为αt=0.25,γ=2。实验表明,Focal Loss损失函数能够使模型在一定程度上平衡正负样本的重要性,让模型对简单样本和困难样本具有不同的关注能力。
然而,在某些多变的实际场景中,由于光线、视角等变化因素,会导致一些属于不同类别的目标在视觉上变得十分相似,尤其是对与一些差异不太明显的目标,这些干扰更加增强了它们之间的相似性,显然,这种相似样本识别问题主要指某两个类别或者某几个类别之间干扰识别问题。当神经网络采用Sigmoid函数预测不同类别样本的标签信息时,如果对相似样本的类别进行预测,模型有可能对同一个目标同时输出两个高概率标签,此时,相似样本的识别困难问题就更加明显。
对于上述不同类别的相似目标检测识别问题,现有神经网络框架,难以得到满意的效果。
发明内容
本发明的一个目的是提供一种相似目标的检测模型生成方法及设备。
根据本发明的一个方面,提供了一种相似目标的检测模型生成方法,该方法包括:
构造训练集,并将训练集中相似目标划分为一个或者多个相似组;
根据所述相似组内目标之间在不同场景下的相似程度,对相似组内不同类别的目标的区分容易程度进行标注;
根据标注的区分容易程度,构造损失抑制权值向量,基于所述损失抑制权值向量优化Focal Loss损失函数;
将所述训练集输入至神经网络层得到当前的输出,基于当前的输出和优化后Focal Loss损失函数计算所述神经网络层的当前误差损失,将所述当前误差损失反向传播,以对所述神经网络层的参数进行调整,重复本步骤以继续对所述神经网络层进行训练,直至所述神经网络层收敛,将收敛后的神经网络层作为最终的相似目标的检测模型。
进一步的,上述方法中,根据所述相似组内的目标在不同场景下的相似程度,对相似组内不同类别的目标的区分容易程度进行标注,包括:
在相似组内目标之间无法区分的场景下,用数值0来标注相似组内的目标的识别容易程度值;
在相似组内目标之间既具有预设阈值范围内的相似性,又具有预设阈值范围内的区分性的场景下,用区间(0,1)之间的某个数值来标注相似组内的目标的识别容易程度值;
在相似组内目标之间明显可区分性的场景下,用数值1来标注相似组内的目标识别容易程度值。
进一步的,上述方法中,基于所述损失抑制权值向量优化Focal Loss损失函数中,
优化后的Focal Loss损失函数如下:
Loss(ps)=-αMs(1-ps)γlog(ps) (2)
式(2)中,s代表目标的类别(标签顺序),s=0,1,2,...,N,N为正整数;ps代表模型对第s类目标的预测结果,α∈(0,1)为平衡因子,γ≥0用于控制目标难分程度的参数,Ms为第s类目标的损失抑制权值向量,所述损失抑制权值向量Ms根据数值0、(0,1)之间的某个数值和数值1这三种识别容易程度数值中的一种生成。
进一步的,上述方法中,根据标注的区分容易程度,构造损失抑制权值向量,包括:
当具有相似性的第i类目标和第j类目标组成相似组G=(i,j),相似组G=(i,j)内的目标的识别容易程度值为数值0时,
构造损失抑制权值向量Ms如式(3)所示,
式(3)中,μI表示第i类目标的抑制权值,μj表示第j类目标的抑制权值。
进一步的,上述方法中,根据标注的区分容易程度,构造损失抑制权值向量,包括:
当具有相似性的第i类目标和第j类目标组成相似组G=(i,j),相似组G=(i,j)内的目标的识别容易程度值为(0,1)之间的某个数值时,
构造损失抑制权值向量Ms如式(4)所示,
式(4)中,μi表示第i类目标的抑制权值,μj表示第j类目标的抑制权值。
进一步的,上述方法中,当0<μi<1时,所述抑制权值μi的取值为0.2或者0.5;当0<μj<1时,所述抑制权值μj的取值为0.2或者0.5。
进一步的,上述方法中,根据标注的区分容易程度,构造损失抑制权值向量,包括:
当具有相似性的第i类目标和第j类目标组成相似组G=(i,j),相似组G=(i,j)内的目标的识别容易程度值为数值1时,
构造损失抑制权值向量Ms如式(5)所示,
式(5)中,μi表示第i类目标的抑制权值,μj表示第j类目标的抑制权值。
根据本发明的另一方面,还提供一种相似目标的检测模型生成设备,其中,该设备包括:
划分装置,用于构造训练集,并将训练集中相似目标划分为一个或者多个相似组;
标注装置,用于根据所述相似组内的目标之间在不同场景下的相似程度,对相似组内不同类别的目标的区分容易程度进行标注;
优选装置,用于根据标注的区分容易程度,构造损失抑制权值向量,基于所述损失抑制权值向量优化Focal Loss损失函数;
训练装置,用于将所述训练集输入至神经网络层得到当前的输出,基于当前的输出和优化后Focal Loss损失函数计算所述神经网络层的当前误差损失,将所述当前误差损失反向传播,以对所述神经网络层的参数进行调整,重复执行本训练装置以继续对所述神经网络层进行训练,直至所述神经网络层收敛,将收敛后的神经网络层作为最终的相似目标的检测模型。
根据本发明的另一方面,还提供一种基于计算的设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
构造训练集,并将训练集中相似目标划分为一个或者多个相似组;
根据所述相似组内的目标之间在不同场景下的相似程度,对相似组内不同类别的目标的区分容易程度进行标注;
根据标注的区分容易程度,构造损失抑制权值向量,基于所述损失抑制权值向量优化Focal Loss损失函数;
将所述训练集输入至神经网络层得到当前的输出,基于当前的输出和优化后Focal Loss损失函数计算所述神经网络层的当前误差损失,将所述当前误差损失反向传播,以对所述神经网络层的参数进行调整,重复本步骤以继续对所述神经网络层进行训练,直至所述神经网络层收敛,将收敛后的神经网络层作为最终的相似目标的检测模型。
根据本发明的另一方面,还提供一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
构造训练集,并将训练集中相似目标划分为一个或者多个相似组;
根据所述相似组内的目标之间在不同场景下的相似程度,对相似组内不同类别的目标的区分容易程度进行标注;
根据标注的区分容易程度,构造损失抑制权值向量,基于所述损失抑制权值向量优化Focal Loss损失函数;
将所述训练集输入至神经网络层得到当前的输出,基于当前的输出和优化后Focal Loss损失函数计算所述神经网络层的当前误差损失,将所述当前误差损失反向传播,以对所述神经网络层的参数进行调整,重复本步骤以继续对所述神经网络层进行训练,直至所述神经网络层收敛,将收敛后的神经网络层作为最终的相似目标的检测模型。
与现有技术相比,本发明在模型训练过程中,本发明根据标注的区分容易程度,构造一种类别损失抑制权值向量来优化Focal Loss损失函数,以对训练时神经网络预测的类别损失进行不同程度的抑制操作,这种有针对性的网络误差损失经过反向传播后,对网络参数进行更加精细化地更新调整,提升了深度神经网络模型对相似目标的辨别能力,从而实现了更加精细化地训练机制,使得模型对相似目标具有更强的区分能力。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出常见神经网络模型训练流程图;
图2示出本发明一实施例的五种不同的目标的示意图;
图3示出原始Focal loss损失函数训练的模型对相似目标的检测结果示意图;
图4示出本发明一实施例的训练方案对相似目标的检测结果示意图;
图5示出本发明一实施例的在一定视角偏移程度的不稳定环境下对相似目标的检测结果示意图;
图6示出本发明一实施例的在一定过曝程度下的不稳定环境下对相似目标的检测结果示意图;
图7示出本发明一实施例的相似目标的检测模型生成方法的示意图;
图8示出本发明一实施例的严重过曝下的相似目标的示意图;
图9示出本发明一实施例的具有一定差异的相似性目标的示意图;
图10示出本发明一实施例的具有明显差异的相似性目标的示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
实际的目标识别任务中,某些不同类别目标之间具有一定的相似性,导致现有的模型难以学习有效特征对不同类别的目标进行区分;另一方面由于应用场景中存在多种变化的因素,这些干扰更加增加了模型对相似目标的识别的难度。
如图2所示,图中展示五种不同的目标,分别为A、B、C、D、E。从图2中可以看出,B和D在正常环境中已经非常相似,当光照强度较大、或者B和D位于视角边缘和角落时,二者的相似性更加明显,现有的模型对其更加难以区分。
图3为采用Focal Loss损失函数训练的YOLOv2模型对五种目标进行识别的结果,可以看出,由于目标B和D相似,现有的模型对B目标进行检测识别时,同时输出了两个高概率标签:(B,1.0)和(D,0.98);现有的模型对D目标进行检测识别时,也同样输出两个高概率标签:(B,0.96)和(D,1.0)。
实际上,对于B目标,模型应该预测出概率较高的B标签和概率较低的D标签,或者只输出B标签;对于D目标,模型应该预测出概率较高的D标签和概率较低的B标签,或者只输出D标签;当场景比较稳定时对于B和D目标,模型应该尽量只预测出各自正确的高概率标签。
对于上述不同类别的相似目标检测识别问题,现有神经网络框架的模型,难以得到满意的效果。原因在于训练过程中,损失函数没有对不同类别相似目标样本的网络损失进行精细化计算,导致模型没对相似目标样本的辨别能力较差。
如图7所示,本发明提供一种相似目标的检测模型生成方法,所述方法包括:
步骤S1,构造训练集,并将训练集中相似目标划分为一个或者多个相似组;
在此,首先,本发明将相似目标的检测问题看成一个多标签分类问题,将相似目标划分为一个或者多个相似组;
步骤S2,根据所述相似组内的目标之间在不同场景下的相似程度,对相似组内不同类别的目标的区分容易程度进行标注;
在此,然后,在构造训练集时,根据相似组内目标之间在不同场景下的相似程度,即根据不同场景下相似目标之间的差异,例如,可以设计三种策略,对相似组内不同类别的目标的区分容易程度进行标注;
步骤S3,根据标注的区分容易程度,构造损失抑制权值向量,基于所述损失抑制权值向量优化Focal Loss损失函数;
步骤S4,将所述训练集输入至神经网络层得到当前的输出,基于当前的输出和优化后Focal Loss损失函数计算所述神经网络层的当前误差损失,将所述当前误差损失反向传播,以对所述神经网络层的参数进行调整,重复本步骤以继续对所述神经网络层进行训练,直至所述神经网络层收敛,将收敛后的神经网络层作为最终的相似目标的检测模型。
在此,接下来,在模型训练过程中,本发明根据标注的区分容易程度,构造一种类别损失抑制权值向量来优化Focal Loss损失函数,以对训练时神经网络预测的类别损失进行不同程度的抑制操作,这种有针对性的网络误差损失经过反向传播后,对网络参数进行更加精细化地更新调整,提升了深度神经网络模型对相似目标的辨别能力,从而实现了更加精细化地训练机制,使得模型对相似目标具有更强的区分能力。
针对前述相似目标难以识别的问题,本发明提出了一种针对相似目标检测的深度网络相似组损失抑制训练方案,本发明对模型的训练机制进行改进,通过本发明的方案训练出的深度网络模型能够对相似目标进行较为准确的类别检测识别。
具体的,对于图1的五种目标,本发明将B和D看成一个相似组,图4展示了本发明的方案训练出的模型对图2中相似目标的检测结果,可以看出,本发明提出的方法,具有非常好的抑制效果,对于同属于一个相似组的目标,模型对预测出的正确类别标签概率极高,而错误标签概率明显降低,其辨别能力得到了极大地提升。
图5和图6分别给出了一定视角偏移和过曝程度下的检测结果,可以看出,本发明提出的方案对相似目标依然具有较好的辨别能力。实际应用中,只需要设置阈值,对检出结果进行过滤,即可得到最终正确的目标类别。
接下来将对本发明提出的相似目标检测的深度网络相似组损失抑制训练方案进行详细介绍。
本发明的相似目标的检测模型生成方法一实施例中,步骤S2中,根据所述相似组内的目标之间在不同场景下的相似程度,对相似组内不同类别的目标的区分容易程度进行标注,包括:
在相似组内目标之间无法区分的场景下(第1种情况),用数值0来标注相似组内的目标的识别容易程度值;
在相似组内目标之间既具有预设阈值范围内的相似性,又具有预设阈值范围内的区分性的场景下(第2种情况),用区间(0,1)之间的某个数值来标注相似组内的目标的识别容易程度值;
在相似组内目标之间明显可区分性的场景下(第3种情况),用数值1来标注相似组内的目标识别容易程度值。
本发明的相似目标的检测模型生成方法一实施例中,步骤S3中,基于所述损失抑制权值向量优化Focal Loss损失函数中,
优化后的Focal Loss损失函数如下:
Loss(ps)=-αMs(1-ps)γlog(ps) (2)
式(2)中,s代表目标的类别(标签顺序),s=0,1,2,...,N,N为正整数;ps代表模型对第s类目标的预测结果,α∈(0,1)为平衡因子,γ≥0用于控制目标难分程度的参数,Ms为第s类目标的损失抑制权值向量,所述损失抑制权值向量Ms根据数值0、(0,1)之间的某个数值和数值1这三种识别容易程度数值中的一种生成。
本发明的相似目标的检测模型生成方法一实施例中,步骤S3中,根据标注的区分容易程度,构造损失抑制权值向量,包括:
当具有相似性的第i类目标和第j类目标组成相似组G=(i,j),相似组G=(i,j)内的目标的识别容易程度值为数值0时,
构造损失抑制权值向量Ms如式(3)所示,
式(3)中,μi表示第i类目标的抑制权值,μj表示第j类目标的抑制权值。
在此,当s=i,μi=1,μj=0时,结合式(2)分析可知,在训练模型时,若遇到一个第i类的目标,在计算类别损失时,模型将其预测为第j类目标时的损失将完全被抑制掉;同理,当s=i,μi=0,μj=1时,模型将其预测为第i类目标时的损失将完全被抑制掉,不考虑模型将目标预测为第i类目标时的损失。根据前文所述,这种做法等同于将第i类目标和第j类目标看作是同一个类别。当的时候,表明该目标不在相似组内,与其它目标不具有相似关系,训练时,不对网络预测的类别损失进行抑制,故其抑制权值向量为一个单位向量。
本发明的相似目标的检测模型生成方法一实施例中,步骤S3中,根据标注的区分容易程度,构造损失抑制权值向量,包括:
当具有相似性的第i类目标和第j类目标组成相似组G=(i,j),相似组G=(i,j)内的目标的识别容易程度值为(0,1)之间的某个数值时,
构造损失抑制权值向量Ms如式(4)所示,
式(4)中,μi表示第i类目标的抑制权值,μj表示第j类目标的抑制权值。
在此,式(4)中,0<μi<1和0<μj<1根据前文所述第(2)种区间(0,1)之间的某个数值的识别容易程度值而设置,通常这种情况下,建议抑制权值μi和μj的取值为0.2或者0.5,即当0<μi<1时,所述抑制权值μi的取值为0.2或者0.5;当0<μj<1时,所述抑制权值μj的取值为0.2或者0.5。
本发明的相似目标的检测模型生成方法一实施例中,步骤S3中,根据标注的区分容易程度,构造损失抑制权值向量,包括:
当具有相似性的第i类目标和第j类目标组成相似组G=(i,j),相似组G=(i,j)内的目标的识别容易程度值为数值1时,
构造损失抑制权值向量Ms如式(5)所示,
式(5)中,μi表示第i类目标的抑制权值,μj表示第j类目标的抑制权值。
在此,式(5)中μi=1,μj=1是根据前文所述第(3)种识别容易程度值而设置的。
具体的,假设现有N个类别的目标,其中第i类目标和第j类目标具有一定的相似性,它们之间易发生误识别现象。根据前文所述,将其组成一个相似组G=(i,j)。在构造训练集的过程中,需要根据实际情况对数据集标注以下三种识别容易程度:
(1)在某些情况下(如严重过曝、畸变、视角偏移等),相似组内不同类别的目标之间十分相似,以致完全无法区分时,这时,用数值0表示相似组内的目标的识别容易程度值。
(2)某些情况下,相似组内不同类别的目标之间既具有一定(预设阈值范围内)的相似性,又具有一定(预设阈值范围内)的区分性时,这时,用区间(0,1)之间的某个数值来表示相似组内的目标的识别容易程度值。
(3)当属于相似组内不同类别的目标在某些情况下明显可分时,这时,用数值1来表示相似组内的目标识别容易程度值。
根据上述分析,本专利提供的技术方案将根据训练集中三种样本区分容易程度的划分,设计三种抑制策略对模型训练时的Focal Loss进行优化,本专利优化设计的损失函数如式(2)所示,
Loss(ps)=-αMs(1-ps)γlog(ps) (2)
式(2)中,s代表目标的类别(标签顺序),s=0,1,2,...,N;ps代表模型对第s类目标的预测结果,α∈(0,1)为平衡因子,γ≥0用于控制目标难分程度的参数,这里,目标难分程度是指,目标识别分类问题中对样本进行分类识别的难易程度,Ms为第s类目标的损失抑制权值向量,所述损失抑制权值向量Ms根据数值0、(0,1)之间的某个数值和数值1这三种识别容易程度数值中的一种生成。
图7为本发明提出的针对相似目标检测的深度网络相似组损失抑制训练方案流程图。接下来,我们将对提出的相似组损失抑制策略进行详细介绍。
第1种情况:相似组内不同类别的训练样本在某些情况下无法区分。
这种情况发生的概率较小,一般只有在十分极端的情况下(如严重过曝、畸变等)才采用此方案。
如图8所示,由于严重过曝,两种相似目标B和D完全无法区分,对于该情况,我们将相似组G=(i,j)内的两个目标看成是同一个类别,在计算网络损失时,对其中的一个损失进行抑制。此时,构造损失抑制权值向量Ms如式(3)所示,
式(3)中的μi=0和μj=0是根据前文所述的第(1)种的数值0的识别容易程度值而设置,其中,
当s=i,μi=1,μj=0时,结合式(2)分析可知,在训练模型时,若遇到一个第i类的目标,在计算类别损失时,模型将其预测为第j类目标时的损失将完全被抑制掉;同理,当s=i,μi=0,μj=1时,模型将其预测为第i类目标时的损失将完全被抑制掉,不考虑模型将目标预测为第i类目标时的损失。根据前文所述,这种做法等同于将第i类目标和第j类目标看作是同一个类别。当的时候,表明该目标不在相似组内,与其它目标不具有相似关系,训练时,不对网络预测的类别损失进行抑制,故其抑制权值向量为一个单位向量。
第2种情况:相似组内不同类别的训练样本具有一定(预设阈值范围内)的可分性。
该情况在实际问题中出现的几率较大,这种情况下相似组内不同类别之间的样本虽然存在相似性,但是并不是完全不可分的,如图9所示,在轻微曝光环境下,相似组内的目标B和D具有一定的相似性和差异性。
为解决该情况下的相似目标识别问题,此时可以构造的损失抑制权值向量Ms如式(4)所示,
式(4)中,0<μi<1和0<μj<1根据前文所述第(2)种区间(0,1)之间的某个数值的识别容易程度值而设置,通常这种情况下,建议抑制权值μi和μj的取值为0.2或者0.5。
当s=i,μi=1,0<μj<1时,表明某个属于第i类的目标有可能会被模型预测为第j类目标,此时在训练模型时,用权值μj对这种情况下的类别损失进行抑制。同理,当s=j,0<μi<1,μj=1时,用权值μi对类别损失进行抑制。当时,不对训练时的损失做任何抑制。
在上述抑制策略中,通过抑制权值对网络的错误识别损失进行抑制,提高了正确类别损失在整个损失中的比重,从而提升了模型对正确类别的关注程度,让模型集中精力关注相似组内正确的分类结果上,增强了模型对相似目标的识别能力。
第3种情况:相似组内不同类别的训练样本明显可区分时。
此种情况在实际问题中有一定的出现几率,如图10所示,这种情况下,由于场景中的光照、视角等外在因素都比较稳定,相似组内不同类别的目标具有较为明显的差异性,并且可轻易将其区分开来,在训练过程中,不对模型预测的类别损失进行抑制处理,此时构造的损失抑制向量Ms如式(5)所示,式(5)中μi=1,μj=1是根据前文所述第(3)种识别容易程度值而设置的。
本发明对相似样本的识别提供了一套完整的解决方案,根据实际情况中区分相似目标的难易程度,本发明采用上述三种抑制策略对模型训练时的类别损失函数进行改进,降低了模型对相似组内错误类别的关注程度,提升了模型对正确类别的关注能力,使得模型对相似目标具有较强的辨别能力。
训练模型是算法实施方案中的关键步骤之一,在实际项目中,训练出的模型最终会用于产品当中。本发明提出的模型训练方法可以训练出辨别能力更强的神经网络模型用于公司无人收银机对商品进行检测和识别。整个产品***的实施方案分为以下两个部分:
第一部分:算法方案。该部分主要包含了摄像头数据采集模块、算法训练与测试模块、算法部署模块。
第二部分:软硬件产品集成方案。该部分主要将第一部分的算法方案用于无人收银机的商品识别与检测当中,整个过程包含了摄像头数据采集模块,算力板计算支撑模块、算法检测与识别模块、以及前后端数据处理与显示模块。
本专利提出的模型训练方案,增强了神经网络模型的检测识别能力,使公司无人收银机产品***更加准确稳定,极大地提升了产品的实际应用能力。
另外,目前在计算机视觉应用上,本发明还可用于优化一组或者多组相似目标的检测识别问题。在自然语言处理、语音信号处理等其它非视觉识别任务中,也可采用本发明改进的类别损失函数训练模型,提升模型对相似目标的识别率。
根据本发明的另一方面,还提供一种相似目标的检测模型生成设备,其中,该设备包括:
划分装置,用于构造训练集,并将训练集中相似目标划分为一个或者多个相似组;
标注装置,用于根据所述相似组内的目标之间在不同场景下的相似程度,对相似组内不同类别的目标的区分容易程度进行标注;
优选装置,用于根据标注的区分容易程度,构造损失抑制权值向量,基于所述损失抑制权值向量优化Focal Loss损失函数;
训练装置,用于将所述训练集输入至神经网络层得到当前的输出,基于当前的输出和优化后Focal Loss损失函数计算所述神经网络层的当前误差损失,将所述当前误差损失反向传播,以对所述神经网络层的参数进行调整,重复执行本训练装置以继续对所述神经网络层进行训练,直至所述神经网络层收敛,将收敛后的神经网络层作为最终的相似目标的检测模型。
根据本发明的另一方面,还提供一种基于计算的设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
构造训练集,并将训练集中相似目标划分为一个或者多个相似组;
根据所述相似组内的目标之间在不同场景下的相似程度,对相似组内不同类别的目标的区分容易程度进行标注;
根据标注的区分容易程度,构造损失抑制权值向量,基于所述损失抑制权值向量优化Focal Loss损失函数;
将所述训练集输入至神经网络层得到当前的输出,基于当前的输出和优化后Focal Loss损失函数计算所述神经网络层的当前误差损失,将所述当前误差损失反向传播,以对所述神经网络层的参数进行调整,重复本步骤以继续对所述神经网络层进行训练,直至所述神经网络层收敛,将收敛后的神经网络层作为最终的相似目标的检测模型。
根据本发明的另一方面,还提供一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
构造训练集,并将训练集中相似目标划分为一个或者多个相似组;
根据所述相似组内的目标之间在不同场景下的相似程度,对相似组内不同类别的目标的区分容易程度进行标注;
根据标注的区分容易程度,构造损失抑制权值向量,基于所述损失抑制权值向量优化Focal Loss损失函数;
将所述训练集输入至神经网络层得到当前的输出,基于当前的输出和优化后Focal Loss损失函数计算所述神经网络层的当前误差损失,将所述当前误差损失反向传播,以对所述神经网络层的参数进行调整,重复本步骤以继续对所述神经网络层进行训练,直至所述神经网络层收敛,将收敛后的神经网络层作为最终的相似目标的检测模型。
本发明的各设备和存储介质实施例的详细内容,具体可参见各方法实施例的对应部分,在此,不再赘述。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现前文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (10)
1.一种相似目标的检测模型生成方法,其中,该方法包括:
构造训练集,并将训练集中相似目标划分为相似组;
根据所述相似组内的目标之间在不同场景下的相似程度,对相似组内不同类别的目标的区分容易程度进行标注;
根据标注的区分容易程度,构造损失抑制权值向量,基于所述损失抑制权值向量优化Focal Loss损失函数;
将所述训练集输入至神经网络层得到当前的输出,基于当前的输出和优化后FocalLoss损失函数计算所述神经网络层的当前误差损失,将所述当前误差损失反向传播,以对所述神经网络层的参数进行调整,重复本步骤以继续对所述神经网络层进行训练,直至所述神经网络层收敛,将收敛后的神经网络层作为最终的相似目标的检测模型。
2.根据权利要求1所述的方法,其中,根据所述相似组内的目标之间在不同场景下的相似程度,对相似组内不同类别的目标的区分容易程度进行标注,包括:
在相似组内目标之间无法区分的场景下,用数值0来标注相似组内的目标的识别容易程度值;
在相似组内目标之间既具有预设阈值范围内的相似性,又具有预设阈值范围内的区分性的场景下,用区间(0,1)之间的某个数值来标注相似组内的目标的识别容易程度值;
在相似组内目标之间明显可区分性的场景下,用数值1来标注相似组内的目标识别容易程度值。
3.根据权利要求2所述的方法,其中,基于所述损失抑制权值向量优化Focal Loss损失函数中,
优化后的Focal Loss损失函数如下:
Loss(ps)=-αMs(1-ps)γlog(ps) (2)
式(2)中,s代表目标的类别,s=0,1,2,...,N,N为正整数;ps代表模型对第s类目标的预测结果,α∈(0,1)为平衡因子,γ≥0用于控制目标难分程度的参数,Ms为第s类目标的损失抑制权值向量,所述损失抑制权值向量Ms根据数值0、(0,1)之间的某个数值和数值1这三种识别容易程度数值中的一种生成。
6.根据权利要求5所述的方法,其中,当0<μi<1时,所述抑制权值μi的取值为0.2或者0.5;当0<μj<1时,所述抑制权值μj的取值为0.2或者0.5。
8.一种相似目标的检测模型生成设备,其中,该设备包括:
划分装置,用于构造训练集,并将训练集中相似目标划分为相似组;
标注装置,用于根据所述相似组内的目标之间在不同场景下的相似程度,对相似组内不同类别的目标的区分容易程度进行标注;
优选装置,用于根据标注的区分容易程度,构造损失抑制权值向量,基于所述损失抑制权值向量优化Focal Loss损失函数;
训练装置,用于将所述训练集输入至神经网络层得到当前的输出,基于当前的输出和优化后FocalLoss损失函数计算所述神经网络层的当前误差损失,将所述当前误差损失反向传播,以对所述神经网络层的参数进行调整,重复执行本训练装置以继续对所述神经网络层进行训练,直至所述神经网络层收敛,将收敛后的神经网络层作为最终的相似目标的检测模型。
9.一种基于计算的设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
构造训练集,并将训练集中相似目标划分为相似组;
根据所述相似组内的目标之间在不同场景下的相似程度,对相似组内不同类别的目标的区分容易程度进行标注;
根据标注的区分容易程度,构造损失抑制权值向量,基于所述损失抑制权值向量优化Focal Loss损失函数;
将所述训练集输入至神经网络层得到当前的输出,基于当前的输出和优化后FocalLoss损失函数计算所述神经网络层的当前误差损失,将所述当前误差损失反向传播,以对所述神经网络层的参数进行调整,重复本步骤以继续对所述神经网络层进行训练,直至所述神经网络层收敛,将收敛后的神经网络层作为最终的相似目标的检测模型。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
构造训练集,并将训练集中相似目标划分为相似组;
根据所述相似组内的目标之间在不同场景下的相似程度,对相似组内不同类别的目标的区分容易程度进行标注;
根据标注的区分容易程度,构造损失抑制权值向量,基于所述损失抑制权值向量优化Focal Loss损失函数;
将所述训练集输入至神经网络层得到当前的输出,基于当前的输出和优化后FocalLoss损失函数计算所述神经网络层的当前误差损失,将所述当前误差损失反向传播,以对所述神经网络层的参数进行调整,重复本步骤以继续对所述神经网络层进行训练,直至所述神经网络层收敛,将收敛后的神经网络层作为最终的相似目标的检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911013099.8A CN110807523B (zh) | 2019-10-23 | 2019-10-23 | 相似目标的检测模型生成方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911013099.8A CN110807523B (zh) | 2019-10-23 | 2019-10-23 | 相似目标的检测模型生成方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110807523A CN110807523A (zh) | 2020-02-18 |
CN110807523B true CN110807523B (zh) | 2022-08-05 |
Family
ID=69488997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911013099.8A Active CN110807523B (zh) | 2019-10-23 | 2019-10-23 | 相似目标的检测模型生成方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110807523B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112419269B (zh) * | 2020-11-23 | 2023-05-26 | 成都圭目机器人有限公司 | 一种道面病害分割的方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117836A (zh) * | 2018-07-05 | 2019-01-01 | 中国科学院信息工程研究所 | 一种基于焦点损失函数的自然场景下文字检测定位方法和装置 |
CN109740676A (zh) * | 2019-01-07 | 2019-05-10 | 电子科技大学 | 基于相似目标的物体检测迁移方法 |
CN109886307A (zh) * | 2019-01-24 | 2019-06-14 | 西安交通大学 | 一种基于卷积神经网络的图像检测方法及*** |
CN110070076A (zh) * | 2019-05-08 | 2019-07-30 | 北京字节跳动网络技术有限公司 | 用于选取训练用样本的方法和装置 |
CN110135296A (zh) * | 2019-04-30 | 2019-08-16 | 上海交通大学 | 基于卷积神经网络的机场跑道fod检测方法 |
CN110164438A (zh) * | 2019-05-27 | 2019-08-23 | 北京声智科技有限公司 | 一种语音识别方法、装置及电子设备 |
CN110175657A (zh) * | 2019-06-05 | 2019-08-27 | 广东工业大学 | 一种图像多标签标记方法、装置、设备及可读存储介质 |
CN110188730A (zh) * | 2019-06-06 | 2019-08-30 | 山东大学 | 基于mtcnn的人脸检测与对齐方法 |
CN110348384A (zh) * | 2019-07-12 | 2019-10-18 | 沈阳理工大学 | 一种基于特征融合的小目标车辆属性识别方法 |
-
2019
- 2019-10-23 CN CN201911013099.8A patent/CN110807523B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117836A (zh) * | 2018-07-05 | 2019-01-01 | 中国科学院信息工程研究所 | 一种基于焦点损失函数的自然场景下文字检测定位方法和装置 |
CN109740676A (zh) * | 2019-01-07 | 2019-05-10 | 电子科技大学 | 基于相似目标的物体检测迁移方法 |
CN109886307A (zh) * | 2019-01-24 | 2019-06-14 | 西安交通大学 | 一种基于卷积神经网络的图像检测方法及*** |
CN110135296A (zh) * | 2019-04-30 | 2019-08-16 | 上海交通大学 | 基于卷积神经网络的机场跑道fod检测方法 |
CN110070076A (zh) * | 2019-05-08 | 2019-07-30 | 北京字节跳动网络技术有限公司 | 用于选取训练用样本的方法和装置 |
CN110164438A (zh) * | 2019-05-27 | 2019-08-23 | 北京声智科技有限公司 | 一种语音识别方法、装置及电子设备 |
CN110175657A (zh) * | 2019-06-05 | 2019-08-27 | 广东工业大学 | 一种图像多标签标记方法、装置、设备及可读存储介质 |
CN110188730A (zh) * | 2019-06-06 | 2019-08-30 | 山东大学 | 基于mtcnn的人脸检测与对齐方法 |
CN110348384A (zh) * | 2019-07-12 | 2019-10-18 | 沈阳理工大学 | 一种基于特征融合的小目标车辆属性识别方法 |
Non-Patent Citations (3)
Title |
---|
"Focal Loss for Dense Object Detection";Tsung-Yi Lin等;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20180723;第42卷(第2期);第318-327页 * |
"Training Region-based Object Detectors with Online Hard Example Mining";Abhinav Shrivastava等;《arXiv》;20160412;第1-9页 * |
"互补学习:一种面向图像应用和噪声标注的深度神经网络训练方法";周彧聪等;《计算机研究与发展》;20171231;第54卷(第12期);第2649-2659页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110807523A (zh) | 2020-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113269073B (zh) | 一种基于yolo v5算法的船舶多目标追踪方法 | |
US10747637B2 (en) | Detecting anomalous sensors | |
US8965115B1 (en) | Adaptive multi-modal detection and fusion in videos via classification-based-learning | |
US11869235B1 (en) | Systems and methods of radar neural image analysis using nested autoencoding | |
CN104680144A (zh) | 基于投影极速学习机的唇语识别方法和装置 | |
CN110633991A (zh) | 风险识别方法、装置和电子设备 | |
CN109858547A (zh) | 一种基于bssd的目标检测方法与装置 | |
US20220366145A1 (en) | Generative language model for few-shot aspect-based sentiment analysis | |
CN113469118B (zh) | 多目标行人跟踪方法及装置、电子设备、存储介质 | |
EP4394723A1 (en) | Label generation method and apparatus, image classification model method and apparatus, and image classification method and apparatus | |
CN113704522A (zh) | 基于人工智能的目标图像快速检索方法及*** | |
CN113420694A (zh) | 快递流水线的堵塞识别方法、***、电子设备及可读存储介质 | |
CN110807523B (zh) | 相似目标的检测模型生成方法及设备 | |
CN117671508B (zh) | 基于sar图像的高陡边坡滑坡检测方法及*** | |
CN116152576B (zh) | 图像处理方法、装置、设备及存储介质 | |
US11983247B2 (en) | Methods, systems, articles of manufacture, and apparatus to recalibrate confidences for image classification | |
Adhikari et al. | Effect of label noise on robustness of deep neural network object detectors | |
CN116245139A (zh) | 图神经网络模型训练方法和装置、事件检测方法和装置 | |
CN112200488B (zh) | 针对业务对象的风险识别模型训练方法及装置 | |
CN114067401A (zh) | 目标检测模型的训练及身份验证方法和装置 | |
CN112989869B (zh) | 人脸质量检测模型的优化方法、装置、设备及存储介质 | |
CN114494999A (zh) | 一种双分支联合型目标密集预测方法及*** | |
Liu et al. | Research on Small Target Pedestrian Detection Algorithm Based on Improved YOLOv3 | |
Li et al. | A Fast Postprocessing Algorithm for the Overlapping Problem in Wafer Map Detection | |
Peng et al. | Instance-based dynamic label assignment for object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |