CN112884135B - 一种基于边框回归的数据标注校正方法 - Google Patents
一种基于边框回归的数据标注校正方法 Download PDFInfo
- Publication number
- CN112884135B CN112884135B CN202110473550.5A CN202110473550A CN112884135B CN 112884135 B CN112884135 B CN 112884135B CN 202110473550 A CN202110473550 A CN 202110473550A CN 112884135 B CN112884135 B CN 112884135B
- Authority
- CN
- China
- Prior art keywords
- training
- frame
- labeling
- correction method
- regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种基于边框回归的数据标注校正方法,包括如下步骤:将数据根据首次标注过程中的难易程度和对标注结果的置信度,分为gold标注和hard标注的两批样本数据;使用焦点损失函数改进目标检测算法YOLO V5,再使用gold标注的样本数据进行训练,待训练模型训练稳定后,每隔固定迭代次数保存m个训练模型;将保存的m个训练模型在hard标注的样本数据上进行推理,根据推理结果形成的所有图片进行离线保存;针对每一张图片将m个训练模型所有的推理结果进行汇总,对所有的边框进行聚类,聚类的簇数目设置为当前图片上真实目标的个数;统计边框数量对同簇内所有边框的四个边界点进行一般分布建模;根据建模结果校正边框的位置。
Description
技术领域
本发明涉及深度学习技术领域,尤其涉及一种基于边框回归的数据标注校正方法。
背景技术
当前以深度学习为核心的人工智能技术在工业视觉、自然语言处理、自动驾驶等领域取得突破性的进展。其中,在工业质检领域,卷积神经网络对缺陷分类的精度已经超过人眼,对缺陷的识别速度更是远超人类,准确率和检测效率的大幅提升使得以深度学习为关键技术的工业检测方案和设备进入产业化阶段。
深度学习是大数据时代的算法利器,有着传统机器学习难以超越的算法表现,但是深度学习对训练数据的依赖量是巨大的。在实际的工业场景中,高质量数据获取的难度较大,同时数据标注的时间和人力成本较高。而且对于一些困难样本,不同的标注人员的主观意识不同,对于困难样本的标注一致性很难得到保证。
对于深度学习来说,数据标注的一致性,会直接影响模型训练的过程,不一致的数据标注,常常会导致训练后模型推理的不稳定性,加大算法模型调优的难度。可以说,数据标注是人工智能行业的基石,数据对于模型性能的贡献是最大的,数据越多越丰富、代表性越强、模型效果越好,深度学习模型的健壮性和鲁棒性就越强。
根据以上分析,在深度学习的数据标注领域,仍存在以下问题:1、数据标注和校正工作量巨大,效率低;2、困难样本的标注难度高,标注人员主观意识的差异会导致标注的不一致性;3、困难样本的低质量标注对算法训练带来负面影响。
鉴于以上所述,实有必要提供一种新型的基于边框回归的数据标注校正方法以克服上述缺陷。
发明内容
本发明的目的是提供一种基于边框回归的数据标注校正方法,能够实现对目标的边框位置分布更精确的建模,节省大量人工的标注时间,且可以保证标注结果的高度一致性;在提升数据标注质量和数据分布多样性的同时,极大提高深度学习模型的鲁棒性和泛化性。
为了实现上述目的,本发明提供一种基于边框回归的数据标注校正方法,包括如下步骤:
S1:将数据根据首次标注过程中的难易程度和对标注结果的置信度,分为gold标注和hard标注的两批样本数据;
S2:使用焦点损失函数改进目标检测算法YOLO V5,再使用gold标注的样本数据进行训练,待训练模型训练稳定后,每隔固定迭代次数保存m个训练模型,其中m为大于10的整数;
S3:将保存的m个训练模型在hard标注的样本数据上进行推理,根据推理结果形成的所有图片进行离线保存;
S4:针对每一张图片将m个训练模型所有的推理结果进行汇总,对所有的边框进行聚类,聚类的簇数目设置为当前图片上真实目标的个数;
S5:统计每簇内的边框数量,若边框数量<m/2,则认为预测结果置信度低,保持人工的方式进行标注;若边框数量≥m/2,则认为预测结果置信度高,则进入S6;
S6:对S5中同簇内所有边框的上下左右四个边界点进行一般分布建模;
S7:根据S6中的建模结果,校正边框的位置。
优选的,S21:焦点损失函数包含QFL和DFL,分别如公式(1)和(2)所得;
公式(1)中,σ表示分类得分,y代表定位的置信度得分,β是调节分类得分和定位置信度得分之间绝对距离的调节因子;公式(2)中,Si表示yi经过softmax函数之后的结果。
优选的,S22:当训练的QFL和DFL累加后的总和不再大幅度下降时训练模型达到稳定状态,设置每隔固定的迭代次数保存训练模型,共保存m个训练模型。
优选的,对目标检测算法YOLO V5的输出维度进行修改,将预先标注的真实值标签gt限制在[gt0,gtn]范围内,对边框回归的每个回归参数预测一个n+1的向量,该向量满足任意分布,并且预测与该向量对应的概率分布P(gti),表示训练模型对当前边框回归的置信度,对预测的位置分布和概率分布仍然计算交叉熵损失函数并进行优化,其中,10<n<100,且n为整数。
优选的,S71:将S6中的建模结果向二维坐标系投影,并对投影曲线进行拟合。
优选的,S72:采用波峰识别算法分析曲线呈现的态势,曲线的峰值点满足一阶导数为零,二阶导数非负。
优选的,S73:当物体边界确定的时候,曲线往往只会出现一个波峰,此时根据波峰位置对含有hard标注的边框进行修正。
优选的,S74:当物体边界存在模糊不确定时,曲线可能会出现双峰型或者多峰型分布;若波峰的幅值相差较大,则选取最大波峰位置对含有hard标注的边框进行修正,否则,按照公式(3)通过加权和的形式对边框进行修正,
与现有技术相比,本发明提供的一种基于边框回归的数据标注校正方法,具有以下有益效果:1)采用使用焦点损失函数改进目标检测算法YOLO V5后,能够实现对目标的边框位置分布更精确的建模,带来更精确的坐标回归;
2)通过对回归边框位置的一般分布建模,结合曲线波峰分析算法,实现了对含有hard标注的边框精细校正,节省大量人工的标注时间,且可以保证标注结果的高度一致性;
3)将本发明中的含hard标注的样本数据加入训练集,在提升数据标注质量和数据分布多样性的同时,可对深度学习模型带来正向收益,极大提高深度学习模型的鲁棒性和泛化性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明提供的基于边框回归的数据标注校正方法的流程图。
图2为本发明提供的基于边框回归的数据标注校正方法的拟合后的效果图。
图3为本发明提供的基于边框回归的数据标注校正方法的物体边界模糊不确定时的展示图。
具体实施方式
为了使本发明的目的、技术方案和有益技术效果更加清晰明白,以下结合附图和具体实施方式,对本发明进行进一步详细说明。应当理解的是,本说明书中描述的具体实施方式仅仅是为了解释本发明,并不是为了限定本发明。
需要理解的是,术语 “上”、 “下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
请参阅图1,本发明提供一种基于边框回归的数据标注校正方法。
S1:将一批数据根据首次标注过程中的难易程度和对标注结果的置信度,分为gold标注和hard标注的两批样本数据,只有容易标注(若标注人员在0.1秒内可对图像类别作出判断,则认定为容易标注的样本数据)并且标注置信度高的样本分为gold标注的样本数据,其他均归入hard标注的样本数据。
S2:使用焦点损失函数(Generalized Focal loss,简称GFL)改进目标检测算法YOLO V5,再使用gold标注的样本数据进行训练,待训练模型训练稳定后,每隔固定迭代次数保存训练模型:
具体的:S21,焦点损失函数(GFL)是Focal loss(FL)的改进版,包含QFL(QualityFocal Loss)和DFL(Distribution Focal Loss),分别如公式(1)和(2)所得;
公式(1)中,σ表示分类得分,y代表定位的置信度得分,β是调节分类得分和定位置信度得分之间绝对距离的调节因子;公式(2)中,Si表示一个yi经过softmax函数之后的结果。
Focal loss主要针对离散的分类标签,而焦点损失函数可以处理连续值目标的全局优化问题,其中Quality Focal Loss可以针对hard标注的样本数据进行连续的分值预测。
Distribution Focal Loss可以通过对边框的位置进行任意分布建模来提供更加准确的边框回归信息,因为任意分布相对于回归框分布常用的狄拉克分布和高斯分布更加灵活,可以使用基于交并比(IOU)的损失函数,对现实世界的复杂数据适应性更好。
目标检测算法YOLO V5使用CSPDarknet53架构作为骨干网络,配合特征金字塔网络(FPN)和马赛克数据增强优化策略,使得目标检测算法YOLO V5在速度和精度上都做达到了单阶段检测算法的目前的最高水平,其使用的GIOU(Generalized Intersection overUnion) Loss使得算法对预测框的回归更加精确合理,符合本发明中对边框回归高精度的要求。
另外,本发明对目标检测算法YOLO V5的输出维度进行修改,将预先标注的真实值标签gt限制在[gt0,gtn]范围内,对边框回归的每个回归参数预测一个n+1的向量,该向量满足任意分布,并且预测与该向量对应的概率分布P(gti),表示模型对当前边框回归的置信度,对预测的位置分布和概率分布仍然计算交叉熵损失函数并进行优化,其中,10<n<100,且n为整数。
由于对边框的回归,也是采用一般分布进行建模,因而边框回归的回归框边界的分布是没有任何约束的,反应的是目标物体的边界潜在的真实分布情况;改进目标检测算法YOLO V5,再使用gold标注的样本数据进行训练后的训练模型,当训练的QFL和DFL累加后的总和不再大幅度下降时,训练模型达到稳定状态,设置每隔固定的迭代次数保存模型,共保存m个训练模型,其中m为大于10的整数。
S3:将保存的m个训练模型在hard标注的样本数据上进行推理,根据推理结果形成的所有图片进行离线保存。
S4:针对每一张图片将m个训练模型所有的推理结果进行汇总,忽略gold标注和hard标注的两批样本数据的类别信息,对所有的边框进行聚类,聚类的簇数目设置为当前图片上真实目标的个数,聚类的指标采用GIOU Loss。
S5:统计每簇内的边框数量,若数量<m/2,则认为改进后的改进目标检测算法YOLO V5预测结果置信度低,那么此时保持人工的方式进行标注;若数量≥m/2,则认为改进后的改进目标检测算法YOLO V5预测结果置信度高,那么此时则进入S6。
S6:对S5中同簇内所有边框的上下左右(y1,y2,x1,x2)四个边界点进行一般分布建模。下面以边框的左边界点x1为例,具体做法如下:
S61:将真实值标签gt设定的连续范围离散化,以区间长度1将[x0,xn]均分为n个小区间;
S62:获取精确度最优的训练模型在当前目标左边界的预测结果,得到xi和概率分布P(gti),i[0,1,2,...,n];
S63:对xi和P(gti)进行区间划分,绘制概率P-位置x分布图。
S7:根据S6中的建模结果,校正边框的位置:
具体的:S71:将S6中的建模结果向二维坐标系投影,并对投影曲线进行拟合,拟合后的效果如图2所示;
S72:采用波峰识别算法分析曲线呈现的态势,曲线的峰值点满足一阶导数为零,二阶导数非负;
S73:当物体边界较为确定的时候,曲线往往只会出现一个波峰,这时根据波峰位置对含有hard标注的边框进行校正;
S74:当物体边界存在模糊不确定时,曲线可能会出现双峰型或者多峰型分布,如图3所示;若波峰的幅值相差较大,则选取最大波峰位置对含有hard标注的边框进行校正,否则,按照公式(3)通过加权和的形式对含有hard标注的边框进行校正,
有益效果在于:本发明提供一种基于边框回归的数据标注校正方法,采用使用焦点损失函数改进目标检测算法YOLO V5后,能够实现对目标的边框位置分布更精确的建模,带来更精确的坐标回归。
通过对回归边框位置的一般分布建模,结合曲线波峰分析算法,实现了对含有hard标注的边框精细校正,节省大量人工的标注时间,且可以保证标注结果的高度一致性。
将本发明中的含hard标注的样本数据加入训练集,在提升数据标注质量和数据分布多样性的同时,可对深度学习模型带来正向收益,极大提高深度学习模型的鲁棒性和泛化性。
本发明并不仅仅限于说明书和实施方式中所描述,因此对于熟悉领域的人员而言可容易地实现另外的优点和修改,故在不背离权利要求及等同范围所限定的一般概念的精神和范围的情况下,本发明并不限于特定的细节、代表性的设备和这里示出与描述的示例。
Claims (8)
1.一种基于边框回归的数据标注校正方法,其特征在于,包括如下步骤:
S1:将数据根据首次标注过程中的难易程度和对标注结果的置信度,分为gold标注和hard标注的两批样本数据;只有容易标注并且标注置信度高的样本分为gold标注的样本数据,其他均归入hard标注的样本数据;
S2:使用焦点损失函数改进目标检测算法YOLO V5,再使用gold标注的样本数据进行训练,待训练模型训练稳定后,每隔固定迭代次数保存m个训练模型,其中m为大于10的整数;
S3:将保存的m个训练模型在hard标注的样本数据上进行推理,根据推理结果形成的所有图片进行离线保存;
S4:针对每一张图片将m个训练模型所有的推理结果进行汇总,对所有的边框进行聚类,聚类的簇数目设置为当前图片上真实目标的个数;
S5:统计每簇内的边框数量,若边框数量<m/2,则认为预测结果置信度低,保持人工的方式进行标注;若边框数量≥m/2,则认为预测结果置信度高,则进入S6;
S6:对S5中同簇内所有边框的上下左右四个边界点进行一般分布建模;
S7:根据S6中的建模结果,校正边框的位置。
3.如权利要求2所述的基于边框回归的数据标注校正方法,其特征在于,在步骤S2中还包括步骤S22:当训练的QFL和DFL累加后的总和不再大幅度下降时训练模型达到稳定状态,设置每隔固定的迭代次数保存训练模型,共保存m个训练模型。
4.如权利要求2所述的基于边框回归的数据标注校正方法,其特征在于,对目标检测算法YOLO V5的输出维度进行修改,将预先标注的真实值标签gt限制在[gt0,gtn]范围内,对边框回归的每个回归参数预测一个n+1的向量,该向量满足任意分布,并且预测与该向量对应的概率分布P(gti),表示训练模型对当前边框回归的置信度,对预测的位置分布和概率分布仍然计算交叉熵损失函数并进行优化,其中,10<n<100,且n为整数。
5.如权利要求1所述的基于边框回归的数据标注校正方法,其特征在于,在步骤S7中还包括步骤S71:将S6中的建模结果向二维坐标系投影,并对投影曲线进行拟合。
6.如权利要求5所述的基于边框回归的数据标注校正方法,其特征在于,在步骤S7中还包括步骤S72:采用波峰识别算法分析曲线呈现的态势,曲线的峰值点满足一阶导数为零,二阶导数非负。
7.如权利要求6所述的基于边框回归的数据标注校正方法,其特征在于,在步骤S7中还包括步骤S73:当物体边界确定的时候,曲线往往只会出现一个波峰,此时根据波峰位置对含有hard标注的边框进行修正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110473550.5A CN112884135B (zh) | 2021-04-29 | 2021-04-29 | 一种基于边框回归的数据标注校正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110473550.5A CN112884135B (zh) | 2021-04-29 | 2021-04-29 | 一种基于边框回归的数据标注校正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112884135A CN112884135A (zh) | 2021-06-01 |
CN112884135B true CN112884135B (zh) | 2021-07-30 |
Family
ID=76040242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110473550.5A Active CN112884135B (zh) | 2021-04-29 | 2021-04-29 | 一种基于边框回归的数据标注校正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112884135B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113963167B (zh) * | 2021-10-29 | 2022-05-27 | 北京百度网讯科技有限公司 | 应用于目标检测的方法、装置及计算机程序产品 |
CN116664988B (zh) * | 2023-07-24 | 2023-11-21 | 广立微(上海)技术有限公司 | 图片自动标注方法、装置、计算机设备和存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108597602B (zh) * | 2018-04-28 | 2021-11-05 | 中南大学 | 一种面向皮肤医学数据的标签纠错方法 |
US11568324B2 (en) * | 2018-12-20 | 2023-01-31 | Samsung Display Co., Ltd. | Adversarial training method for noisy labels |
CN110765844B (zh) * | 2019-09-03 | 2023-05-26 | 华南理工大学 | 一种基于对抗学习的非感应式餐盘图像数据自动标注方法 |
CN110766754B (zh) * | 2019-10-16 | 2022-08-05 | 南京理工大学 | 一种城轨列车受电弓目标定位方法 |
CN111340126B (zh) * | 2020-03-03 | 2023-06-09 | 腾讯云计算(北京)有限责任公司 | 物品识别方法、装置、计算机设备和存储介质 |
CN111832619A (zh) * | 2020-06-09 | 2020-10-27 | 哈尔滨市科佳通用机电股份有限公司 | 基于深度学习的目标检测数据集voc数据格式标注方法 |
CN112328822B (zh) * | 2020-10-15 | 2024-04-02 | 深圳市优必选科技股份有限公司 | 图片预标注方法、装置及终端设备 |
CN112668445A (zh) * | 2020-12-24 | 2021-04-16 | 南京泓图人工智能技术研究院有限公司 | 一种基于yolov5的蔬菜种类检测与识别方法 |
-
2021
- 2021-04-29 CN CN202110473550.5A patent/CN112884135B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112884135A (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104850865B (zh) | 一种多特征迁移学习的实时压缩跟踪方法 | |
CN112364931B (zh) | 一种基于元特征和权重调整的少样本目标检测方法及网络*** | |
CN112884742B (zh) | 一种基于多算法融合的多目标实时检测、识别及跟踪方法 | |
CN112884135B (zh) | 一种基于边框回归的数据标注校正方法 | |
CN111027493A (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
CN111898432B (zh) | 一种基于改进YOLOv3算法的行人检测***及方法 | |
CN113592911B (zh) | 表观增强深度目标跟踪方法 | |
CN112434586B (zh) | 一种基于域自适应学习的多复杂场景目标检测方法 | |
CN115393687A (zh) | 一种基于双伪标签优化学习的rgb图像半监督目标检测方法 | |
CN110866934A (zh) | 基于规范性编码的复杂点云分割方法及*** | |
CN110598698A (zh) | 基于自适应区域建议网络的自然场景文本检测方法和*** | |
CN112613428B (zh) | 基于平衡损失的Resnet-3D卷积牛视频目标检测方法 | |
WO2024055530A1 (zh) | 一种图像的目标检测方法、***、设备及存储介质 | |
CN111738164B (zh) | 一种基于深度学习的行人检测方法 | |
CN109766790A (zh) | 一种基于自适应特征通道的行人检测方法 | |
CN111652836A (zh) | 一种基于聚类算法和神经网络的多尺度目标检测方法 | |
CN115116074A (zh) | 一种手写体文字识别、及模型训练方法和装置 | |
CN114926498A (zh) | 一种基于时空约束与可学习特征匹配的快速目标跟踪方法 | |
CN114743201A (zh) | 一种基于旋转目标检测的万用表读数识别方法及*** | |
CN111797795A (zh) | 一种基于YOLOv3与SSR的行人检测算法 | |
CN111612802A (zh) | 一种基于现有图像语义分割模型的再优化训练方法及应用 | |
CN117152427A (zh) | 基于扩散模型和知识蒸馏的遥感图像语义分割方法与*** | |
CN107563327B (zh) | 一种基于自步反馈的行人重识别方法及*** | |
CN115880477A (zh) | 一种基于深度卷积神经网络的苹果检测定位方法与*** | |
CN116012903A (zh) | 一种人脸表情自动标注的方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |