CN112580684A - 基于半监督学习的目标检测方法、装置及存储介质 - Google Patents
基于半监督学习的目标检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112580684A CN112580684A CN202011288652.1A CN202011288652A CN112580684A CN 112580684 A CN112580684 A CN 112580684A CN 202011288652 A CN202011288652 A CN 202011288652A CN 112580684 A CN112580684 A CN 112580684A
- Authority
- CN
- China
- Prior art keywords
- data
- target detection
- semi
- tag data
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 78
- 238000012549 training Methods 0.000 claims abstract description 63
- 238000012545 processing Methods 0.000 claims abstract description 44
- 230000006870 function Effects 0.000 claims abstract description 41
- 238000004140 cleaning Methods 0.000 claims abstract description 30
- 238000013136 deep learning model Methods 0.000 claims abstract description 23
- 238000010606 normalization Methods 0.000 claims description 20
- 239000000126 substance Substances 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000010008 shearing Methods 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 6
- 238000005406 washing Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 abstract description 19
- 238000007689 inspection Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 5
- 238000012937 correction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Security & Cryptography (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioethics (AREA)
- Evolutionary Biology (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及目标检测技术领域,揭露一种基于半监督学习的目标检测方法,包括:基于获取的训练数据,确定与所述训练数据对应的标签数据;对所述标签数据进行数据清洗处理,获取清洗后的新标签数据;对所述新标签数据进行数据增强处理,获取与所述新标签数据对应的增强数据;基于所述增强数据和预设的人工标注的图像信息,训练深度学习模型,直至所述深度学习模型的损失函数收敛在预设范围内,以形成目标检测模型;基于所述目标检测模型获取待检测数据的目标检测结果。本发明还涉及区块链技术,所述新标签数据存储于区块链中。本发明可以提高基于半监督学习的目标检测的效率和准确度。
Description
技术领域
本发明涉及目标检测技术领域,尤其涉及一种基于半监督学习的目标检测的方法、装置、电子设备及计算机可读存储介质。
背景技术
人工智能背后的人工,主要是指在训练模型前,需要大量人力标注数据。虽然目前已有COCO等公开的目标检测数据集,但目标检测深度模型应用于实际项目前,还是需要在有标注的业务数据集上再次训练,以适应业务数据。目前,大部分人工智能企业,需要投入大量成本用于获取业务数据的人工标注。同时,对于已完成标注的数据,同样需要投入人工进行检查、清洗、修正以保证图像标注质量,这一需求来自于神经网络对数据的敏感性,因此标注数据需要构建多层次的标注和审查结构,对于大批量数据往往也只能通过抽样检查证明统计学可用。
目前,虽然用于分类任务的半监督学习方法取得了一定成果,但用于目标检测的半监督学习方法尚未成熟,仍存在计算精度度、数据量大等问题。
发明内容
本发明提供一种基于半监督学习的目标检测方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高基于半监督学习的目标检测的效率和准确度。
为实现上述目的,本发明提供一种基于半监督学习的目标检测方法,包括:基于获取的训练数据,确定与所述训练数据对应的标签数据;
对所述标签数据进行数据清洗处理,获取清洗后的新标签数据;
对所述新标签数据进行数据增强处理,获取与所述新标签数据对应的增强数据;
基于所述增强数据和预设的人工标注的图像信息,训练深度学习模型,直至所述深度学习模型的损失函数收敛在预设范围内,以形成目标检测模型;
基于所述目标检测模型获取待检测数据的目标检测结果。
可选地,所述确定与所述训练数据对应的标签数据的步骤包括:
对所述训练数据进行水平镜像翻转处理,并获取处理后的训练数据;
基于所述处理后的训练数据训练开源模型,直至所述开源模型收敛在规定范围内,形成标签获取模型;
根据所述标签获取模型获取无标注的训练数据的标签数据。
可选地,所述训练数据包括无标注的图像信息;
所述标签数据包括位于所述图像信息上的物体、用于包围所述物体的包围框的左上角横坐标、左上角纵坐标、右下角横坐标以及右下角纵坐标。
可选地,对所述标签数据进行数据清洗处理,获取清洗后的新标签数据的步骤包括:
基于所述包围框的左上角横坐标、左上角纵坐标、右下角横坐标以及右下角纵坐标,确定所述包围框的宽度、高度和中心点坐标信息;
根据所述包围框的宽度坐标、与所述包围框对应的图像信息的宽度,以及所述包围框的高度和中心坐标、与所述包围框对应的图像信息的高度,确定与所述包围框对应的转换坐标;
基于开源框架CLEANLAB对所述转换坐标进行数据清洗处理,获取清洗后的新标签数据。
可选地,所述新标签数据存储于区块链中,所述对所述新标签数据进行数据增强处理的步骤包括:
对所述新标签数据的颜色变量进行随机抖动;和/或,对所述新标签数据中的包围框内的物体进行几何变形;和/或,对所述新标签数据进行几何变形,并对所述新标签数据中的包围框进行对应的变换;其中,
所述颜色变量包括亮度、饱和度、对比度和透明度;
所述几何变形包括平移、翻转、剪切和旋转。
可选地,所述损失函数包括有监督损失和无监督损失之和;其中,
所述有监督损失的表达式为:
其中,x表示图像,p*和t*表示向量信息,b表示人工标注的图像信息中的包围框的序号,i表示先验框的序号,pi表示预测得到的先验框属于正样本的概率,ti表示先验框的坐标(包括左上角的横纵坐标和右下角的横纵坐标),当先验框i属于包围框b时,pi,b*为1,否则pi,b*为0,tb*表示包围框的人工标注的坐标,Ls表示supervised loss,Lcls表示分类的损失函数,Lreg表示回归的损失函数,Nreg表示回归项的规范化系数,Ncls表示分类项的规范化系数;
所述无监督损失的表达式为:
其中,x表示图像,q表示图像x的标签数据,b表示标签数据中的包围框的序号,i表示先验框的序号,pi表示预测得到的先验框属于正样本的概率,ti表示先验框的坐标(包括左上角的横纵坐标和右下角的横纵坐标),当先验框i属于包围框b时,qi,b*为1,否则qi,b*为0,sb*表示包围框的及其标注坐标,Lu表示unsupervised loss,Lcls表示分类的损失函数,Lreg 表示回归的损失函数,Nreg表示回归项的规范化系数,Ncls表示分类项的规范化系数;其中,
ω(x)=1ifmax(p(x;θ))≥τelse0
q(x)=ONE_HOT(argmax(p(x;θ)))
其中,θ表示所述深度学习模型可训练的参数,τ表示所述新标签数据的置信度阈值。
可选地,所述增强数据的数量为所述人工标注的图像信息的数量的10~15 倍。
为了解决上述问题,本发明还提供一种基于半监督学习的目标检测装置,所述装置包括:
标签数据确定单元,用于基于获取的训练数据,确定与所述训练数据对应的标签数据;
新标签数据获取单元,用于对所述标签数据进行数据清洗处理,获取清洗后的新标签数据;
增强数据获取单元,用于对所述新标签数据进行数据增强处理,获取与所述新标签数据对应的增强数据;
目标检测模型形成单元,基于所述增强数据和预设的人工标注的图像信息,训练深度学习模型,直至所述深度学习模型的损失函数收敛在预设范围内,以形成目标检测模型;
检测结果获取单元,用于基于所述目标检测模型获取待检测数据的目标检测结果。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述所述的基于半监督学习的目标检测方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于半监督学习的目标检测方法。
本发明实施例基于获取的训练数据,确定对应的标签数据,然后对标签数据进行数据清洗处理和数据增强处理,获取新标签数据和增强数据,基于增强数据和预设的人工标注的图像信息,训练深度学习模型,直至深度学习模型的损失函数收敛在预设范围内,以形成目标检测模型;通过上述特征,本发明实施例的自动化标注在质量上可以达到和经过多级检查修正之后接近的程度,同时成本大幅降低;也可以用于配合人工质检对已有数据进行检查改造,简化数据质量检查流程,除去人力成本之外,也可以节省管理和时间成本。
附图说明
图1为本发明一实施例提供的基于半监督学习的目标检测方法的流程图;
图2为本发明一实施例提供的基于半监督学习的目标检测装置的模块示意图;
图3为本发明一实施例提供的实现基于半监督学习的目标检测方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于半监督学习的目标检测方法。参照图1所示,为本发明一实施例提供的基于半监督学习的目标检测方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,基于半监督学习的目标检测方法包括:
S110:基于获取的训练数据,确定与所述训练数据对应的标签数据。
其中,训练数据可采用无标注的图像信息,并基于无标注的图像信息获取对应的标签数据;其中,标签数据进一步包括图像信息中的物体的类别、包围物体的包围框的左上角横坐标、左上角纵坐标、右下角横坐标以及右下角纵坐标。
其中,确定与训练数据对应的标签数据的步骤包括:
1、对训练数据进行水平镜像翻转处理,并获取处理后的训练数据;
2、基于处理后的训练数据训练DetectoRS开源模型,直至DetectoRS开源模型收敛在规定范围内,形成标签获取模型;
3、根据标签获取模型获取无标注的训练数据的标签数据。
需要说明的是,训练数据中的图像信息均采用原图,而非缩小尺寸的图像,训练数据中的图像信息包括尺寸为0.25,0.5,0.75,1,1.25,1.5,1.75, 2,2.25,2.5,2.75,3等多中尺度的图像,采用多种尺寸的图像信息能够提高后期模型的检测精度。
S120:对标签数据进行数据清洗处理,获取清洗后的新标签数据。
其中,对标签数据进行数据清洗处理,获取清洗后的新标签数据的具体过程可包括:
1、基于包围框的左上角横坐标、左上角纵坐标、右下角横坐标以及右下角纵坐标,确定包围框的宽度、高度和中心点坐标信息;
2、根据包围框的宽度坐标、与包围框对应的图像信息的宽度,以及包围框的高度和中心坐标、与包围框对应的图像信息的高度,确定与包围框对应的转换坐标;
具体地,可以将包围框的宽度坐标除以与包围框对应的图像信息的宽度,包围框的高度和中心坐标同时除以与包围框对应的图像信息的高度,获取与包围框对应的转换坐标;
3、基于开源框架CLEANLAB对转换坐标进行数据清洗处理,获取清洗后的新标签数据。
需要说明的是,现有的开源框架CLEANLAB能对带噪数据进行清洗,并用清洗后的数据训练模型。但其只能用于分类任务,在目标检测任务中不可使用,由于目标检测任务可视为分类任务和回归任务的叠加,为此,在本发明的基于半监督学习的目标检测方法中,可将回归任务转化为分类任务,从而使得CLEANLAB可以用于目标检测任务。
其中,由于CLEANLAB可用于处理高达1000类的分类问题,可将回归的目标输出值归一化至0和1之间,再把每0.001的步长划分为1类,则可细分为1*1e-3,2*1e-3,……,1000*1e-3这1000类,[(n-1)*1e-3,n*1e-3)内的数值,属于第n类。
在上述步骤中,获取与包围框对应的转换坐标的过程可将包围框的4个坐标都归一化至0和1之间,进而将目标检测任务转换为1000类的分类问题。例如,在神经网络中假设最后一层有m个神经元,输出m个标量,用向量v 表示。若处理回归问题,这m个神经元再连到1个神经元,得到1个标量w·v+b,输出连续值。若处理分类问题:这m个神经元再连到n个神经元,得到n个标量w·v+b,再用softmax等激活函数归一化成n个类别上的概率,即可将回归问题转化为分类问题。
S130:对新标签数据进行数据增强处理,获取与新标签数据对应的增强数据。
其中,新标签数据可存储于区块链中,对新标签数据进行数据增强处理的步骤包括:对新标签数据的颜色变量进行随机抖动;和/或,对新标签数据中的包围框内的物体进行几何变形;和/或,对新标签数据进行几何变形,并对新标签数据中的包围框进行对应的变换;其中,颜色变量包括亮度、饱和度、对比度和透明度;几何变形包括平移、翻转、剪切和旋转。
需要强调的是,为进一步保证上述新标签数据的私密和安全性,上述新标签数据还可以存储于一区块链的节点中。
具体地,清洗后的标签数据也可以理解为清洗后的带有机器标签的图像数据,对清洗后的标签数据进行数据增强处理的方式包括三种处理情况,第一种:对清洗后的标签数据进行颜色变量的随机抖动;第二种情况:对清洗后的标签数据中的包围框进行几何变形;第三种情况:对清洗后的标签数据进行几何变形,并对所述包围框进行对应的变换。其中,颜色变量包括亮度、饱和度、对比度和透明度等;几何变形包括平移、翻转、剪切和旋转等。
此外,在获取增强数据后,还可以在增强数据的图像上随机选取位置,并添加彩色随机噪声的矩形框,通过矩形框模拟真实场景中的遮挡情况,该矩形框可根据具体的应用场景或者需求进行选择性的添加。
S140:基于增强数据和预设的人工标注的图像信息,训练深度学习模型,直至深度学习模型的损失函数收敛在预设范围内,以形成目标检测模型。
可选地,损失函数包括有监督损失和无监督损失之和;其中,
有监督损失的表达式为:
其中,x表示图像,p*和t*表示向量信息,b表示人工标注的图像信息中的包围框的序号,i表示先验框的序号,pi表示预测得到的先验框属于正样本的概率,ti表示先验框的坐标(包括左上角的横纵坐标和右下角的横纵坐标),当先验框i属于包围框b时,pi,b*为1,否则pi,b*为0,tb*表示包围框的人工标注的坐标,Ls表示supervised loss,Lcls表示分类的损失函数,Lreg表示回归的损失函数,Nreg表示回归项的规范化系数,Ncls表示分类项的规范化系数;
无监督损失的表达式为:
其中,x表示图像,q表示图像x的标签数据,b表示标签数据中的包围框的序号,i表示先验框的序号,pi表示预测得到的先验框属于正样本的概率,ti表示先验框的坐标(包括左上角的横纵坐标和右下角的横纵坐标),当先验框i属于包围框b时,qi,b*为1,否则qi,b*为0,sb*表示包围框的及其标注坐标,Lu表示unsupervised loss,Lcls表示分类的损失函数,Lreg 表示回归的损失函数,Nreg表示回归项的规范化系数,Ncls表示分类项的规范化系数;其中,
ω(x)=1if max(p(x;θ))≥τelse0
q(x)=ONE_HOT(arg max(p(x;θ)))
在上述公式中,θ表示深度学习模型可训练的参数,τ表示新标签数据的置信度阈值。
需要说明的是,为提高数据量,同时避免人工标注的图像信息占比过小,增强数据的数量(即待及其标签的图像数量)为所述人工标注的图像信息的数量的10~15倍,该占比也可根据具体的应用场景及要求进行设定,并不限于该具体数值。
S150:基于目标检测模型获取待检测数据的目标检测结果。
本发明实施例的基于半监督学习的目标检测方法,可以大幅降低标注成本,并提升检测精度,和传统的方法相比,自动化标注在质量上可以达到和经过多级检查修正之后接近的程度,同时成本大幅降低;也可以用于配合人工质检对已有数据进行检查改造,简化数据质量检查流程;此外,除去人力成本之外,也可以节省管理和时间成本。另外,通过对现有数据清洗方法的改造,能应用于更多更复杂的场景,为后续拓展应用领域提供跟多可选方案。
与上述基于半监督学习的目标检测方法相对应,本发明还提供一种基于半监督学习的目标检测装置。
具体地,图3示出了根据本发明实施例的基于半监督学习的目标检测装置的功能模块。
如图3所示,本发明所述基于半监督学习的目标检测装置100可以安装于电子设备中。根据实现的功能,所述基于半监督学习的目标检测装置100 可以包括:标签数据确定单元101、新标签数据获取单元102、增强数据获取单元103、目标检测模型形成单元104、检测结果获取单元105。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
标签数据确定单元101,用于基于获取的训练数据,确定与所述训练数据对应的标签数据;
新标签数据获取单元102,用于对所述标签数据进行数据清洗处理,获取清洗后的新标签数据。需要强调的是,为进一步保证上述新标签数据的私密和安全性,上述新标签数据还可以存储于一区块链的节点中。
增强数据获取单元103,用于对所述新标签数据进行数据增强处理,获取与所述新标签数据对应的增强数据;
目标检测模型形成单元104,基于所述增强数据和预设的人工标注的图像信息,训练深度学习模型,直至所述深度学习模型的损失函数收敛在预设范围内,以形成目标检测模型;
检测结果获取单元105,用于基于所述目标检测模型获取待检测数据的目标检测结果。
具体地,在标签数据确定单元101中,所述确定与所述训练数据对应的标签数据的步骤包括:
对所述训练数据进行水平镜像翻转处理,并获取处理后的训练数据;
基于所述处理后的训练数据训练开源模型,直至所述开源模型收敛在规定范围内,形成标签获取模型;
根据所述标签获取模型获取无标注的训练数据的标签数据。
此外,所述训练数据包括无标注的图像信息;
所述标签数据包括位于所述图像信息上的物体、用于包围所述物体的包围框的左上角横坐标、左上角纵坐标、右下角横坐标以及右下角纵坐标。
在新标签数据获取单元102中,对所述标签数据进行数据清洗处理,获取清洗后的新标签数据的步骤包括:
基于所述包围框的左上角横坐标、左上角纵坐标、右下角横坐标以及右下角纵坐标,确定所述包围框的宽度、高度和中心点坐标信息;
根据所述包围框的宽度坐标、与所述包围框对应的图像信息的宽度,以及所述包围框的高度和中心坐标、以与所述包围框对应的图像信息的高度,确定与所述包围框对应的转换坐标;
基于开源框架CLEANLAB对所述转换坐标进行数据清洗处理,获取清洗后的新标签数据。
在增强数据获取单元103中,所述新标签数据存储于区块链中,所述对所述新标签数据进行数据增强处理的步骤包括:
对所述新标签数据的颜色变量进行随机抖动;和/或,对所述新标签数据中的包围框内的物体进行几何变形;和/或,对所述新标签数据进行几何变形,并对所述新标签数据中的包围框进行对应的变换;其中,
所述颜色变量包括亮度、饱和度、对比度和透明度;
所述几何变形包括平移、翻转、剪切和旋转。
此外,在目标检测模型形成单元104中,所述损失函数包括有监督损失和无监督损失之和;其中,
所述有监督损失的表达式为:
其中,x表示图像,p*和t*表示向量信息,b表示人工标注的图像信息中的包围框的序号,i表示先验框的序号,pi表示预测得到的先验框属于正样本的概率,ti表示先验框的坐标(包括左上角的横纵坐标和右下角的横纵坐标),当先验框i属于包围框b时,pi,b*为1,否则pi,b*为0,tb*表示包围框的人工标注的坐标,Ls表示supervised loss,Lcls表示分类的损失函数,Lreg表示回归的损失函数,Nreg表示回归项的规范化系数,Ncls表示分类项的规范化系数;
所述无监督损失的表达式为:
其中,x表示图像,q表示图像x的标签数据,b表示标签数据中的包围框的序号,i表示先验框的序号,pi表示预测得到的先验框属于正样本的概率,ti表示先验框的坐标(包括左上角的横纵坐标和右下角的横纵坐标),当先验框i属于包围框b时,qi,b*为1,否则qi,b*为0,sb*表示包围框的及其标注坐标,Lu表示unsupervised loss,Lcls表示分类的损失函数,Lreg 表示回归的损失函数,Nreg表示回归项的规范化系数,Ncls表示分类项的规范化系数;其中,
ω(x)=1if max(p(x;θ))≥τelse0
q(x)=ONE_HOT(arg max(p(x;θ)))
其中,θ表示所述深度学习模型可训练的参数,τ表示所述新标签数据的置信度阈值。
如图3所示,是本发明实现基于半监督学习的目标检测方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于半监督学习的目标检测程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字 (SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器 11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于半监督学习的目标检测程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器 10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如基于半监督学习的目标检测程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3 示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器 10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器 (Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是 LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于半监督学习的目标检测程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
基于获取的训练数据,确定与所述训练数据对应的标签数据;
对所述标签数据进行数据清洗处理,获取清洗后的新标签数据;
对所述新标签数据进行数据增强处理,获取与所述新标签数据对应的增强数据;
基于所述增强数据和预设的人工标注的图像信息,训练深度学习模型,直至所述深度学习模型的损失函数收敛在预设范围内,以形成目标检测模型;
基于所述目标检测模型获取待检测数据的目标检测结果。
可选地,所述确定与所述训练数据对应的标签数据的步骤包括:
对所述训练数据进行水平镜像翻转处理,并获取处理后的训练数据;
基于所述处理后的训练数据训练开源模型,直至所述开源模型收敛在规定范围内,形成标签获取模型;
根据所述标签获取模型获取无标注的训练数据的标签数据。
可选地,所述训练数据包括无标注的图像信息;
所述标签数据包括位于所述图像信息上的物体、用于包围所述物体的包围框的左上角横坐标、左上角纵坐标、右下角横坐标以及右下角纵坐标。可选地,对所述标签数据进行数据清洗处理,获取清洗后的新标签数据的步骤包括:
基于所述包围框的左上角横坐标、左上角纵坐标、右下角横坐标以及右下角纵坐标,确定所述包围框的宽度、高度和中心点坐标信息;
将所述包围框的宽度坐标除以与所述包围框对应的图像信息的宽度,所述包围框的高度和中心坐标同时除以与所述包围框对应的图像信息的高度,获取与所述包围框对应的转换坐标信息;
基于开源框架CLEANLAB对所述转换坐标进行数据清洗处理,获取清洗后的新标签数据。
可选地,所述新标签数据存储于区块链中,所述对所述新标签数据进行数据增强处理的步骤包括:
对所述新标签数据的颜色变量进行随机抖动;和/或,对所述新标签数据中的包围框内的物体进行几何变形;和/或,对所述新标签数据进行几何变形,并对所述新标签数据中的包围框进行对应的变换;其中,
所述颜色变量包括亮度、饱和度、对比度和透明度;
所述几何变形包括平移、翻转、剪切和旋转。
可选地,所述损失函数包括有监督损失和无监督损失之和;其中,
所述有监督损失的表达式为:
其中,x表示图像,p*和t*表示向量信息,b表示人工标注的图像信息中的包围框的序号,i表示先验框的序号,pi表示预测得到的先验框属于正样本的概率,ti表示先验框的坐标(包括左上角的横纵坐标和右下角的横纵坐标),当先验框i属于包围框b时,pi,b*为1,否则pi,b*为0,tb*表示包围框的人工标注的坐标,Ls表示supervised loss,Lcls表示分类的损失函数,Lreg表示回归的损失函数,Nreg表示回归项的规范化系数,Ncls表示分类项的规范化系数;
所述无监督损失的表达式为:
其中,x表示图像,q表示图像x的标签数据,b表示标签数据中的包围框的序号,i表示先验框的序号,pi表示预测得到的先验框属于正样本的概率,ti表示先验框的坐标(包括左上角的横纵坐标和右下角的横纵坐标),当先验框i属于包围框b时,qi,b*为1,否则qi,b*为0,sb*表示包围框的及其标注坐标,Lu表示unsupervised loss,Lcls表示分类的损失函数,Lreg 表示回归的损失函数,Nreg表示回归项的规范化系数,Ncls表示分类项的规范化系数;其中,
ω(x)=1if max(p(x;θ))≥τelse0
q(x)=ONE_HOT(arg max(p(x;θ)))
其中,θ表示所述深度学习模型可训练的参数,τ表示所述新标签数据的置信度阈值。
可选地,所述增强数据的数量为所述人工标注的图像信息的数量的10~15 倍。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于半监督学习的目标检测方法,其特征在于,所述方法包括:
基于获取的训练数据,确定与所述训练数据对应的标签数据;
对所述标签数据进行数据清洗处理,获取清洗后的新标签数据;
对所述新标签数据进行数据增强处理,获取与所述新标签数据对应的增强数据;
基于所述增强数据和预设的人工标注的图像信息,训练深度学习模型,直至所述深度学习模型的损失函数收敛在预设范围内,以形成目标检测模型;
基于所述目标检测模型获取待检测数据的目标检测结果。
2.如权利要求1所述的基于半监督学习的目标检测方法,其特征在于,所述确定与所述训练数据对应的标签数据的步骤包括:
对所述训练数据进行水平镜像翻转处理,获取翻转处理后的训练数据;
基于所述翻转处理后的训练数据训练开源模型,直至所述开源模型收敛在规定范围内,形成标签获取模型;
根据所述标签获取模型获取无标注的训练数据的标签数据。
3.如权利要求2所述的基于半监督学习的目标检测方法,其特征在于,
所述训练数据包括无标注的图像信息;
所述标签数据包括位于所述图像信息上的物体、用于包围所述物体的包围框的左上角横坐标、左上角纵坐标、右下角横坐标以及右下角纵坐标。
4.如权利要求3所述的基于半监督学习的目标检测方法,其特征在于,对所述标签数据进行数据清洗处理,获取清洗后的新标签数据的步骤包括:
基于所述包围框的左上角横坐标、左上角纵坐标、右下角横坐标以及右下角纵坐标,确定所述包围框的宽度、高度和中心点坐标信息;
根据所述包围框的宽度坐标、与所述包围框对应的图像信息的宽度,以及所述包围框的高度和中心坐标、与所述包围框对应的图像信息的高度,确定与所述包围框对应的转换坐标;
基于开源框架CLEANLAB对所述转换坐标进行数据清洗处理,获取清洗后的新标签数据。
5.如权利要求3所述的基于半监督学习的目标检测方法,其特征在于,所述新标签数据存储于区块链中,所述对所述新标签数据进行数据增强处理的步骤包括:
对所述新标签数据的颜色变量进行随机抖动;和/或,对所述新标签数据中的包围框内的物体进行几何变形;和/或,对所述新标签数据进行几何变形,并对所述新标签数据中的包围框进行对应的变换;其中,
所述颜色变量包括亮度、饱和度、对比度和透明度;
所述几何变形包括平移、翻转、剪切和旋转。
6.如权利要求1所述的基于半监督学习的目标检测方法,其特征在于,所述损失函数包括有监督损失和无监督损失之和;其中,
所述有监督损失的表达式为:
其中,x表示图像,p*和t*表示向量信息,b表示人工标注的图像信息中的包围框的序号,i表示先验框的序号,pi表示预测得到的先验框属于正样本的概率,ti表示先验框的坐标(包括左上角的横纵坐标和右下角的横纵坐标),当先验框i属于包围框b时,pi,b*为1,否则pi,b*为0,tb*表示包围框的人工标注的坐标,Ls表示supervised loss,Lcls表示分类的损失函数,Lreg表示回归的损失函数,Nreg表示回归项的规范化系数,Ncls表示分类项的规范化系数;
所述无监督损失的表达式为:
其中,x表示图像,q表示图像x的标签数据,b表示标签数据中的包围框的序号,i表示先验框的序号,pi表示预测得到的先验框属于正样本的概率,ti表示先验框的坐标(包括左上角的横纵坐标和右下角的横纵坐标),当先验框i属于包围框b时,qi,b*为1,否则qi,b*为0,sb*表示包围框的及其标注坐标,Lu表示unsupervised loss,Lcls表示分类的损失函数,Lreg表示回归的损失函数,Nreg表示回归项的规范化系数,Ncls表示分类项的规范化系数;其中,
ω(x)=1if max(p(x;θ))≥τelse0
q(x)=ONE_HOT(arg max(p(x;θ)))
其中,θ表示所述深度学习模型可训练的参数,τ表示所述新标签数据的置信度阈值。
7.如权利要求1所述的基于半监督学习的目标检测方法,其特征在于,
所述增强数据的数量为所述人工标注的图像信息的数量的10~15倍。
8.一种基于半监督学习的目标检测装置,其特征在于,所述装置包括:
标签数据确定单元,用于基于获取的训练数据,确定与所述训练数据对应的标签数据;
新标签数据获取单元,用于对所述标签数据进行数据清洗处理,获取清洗后的新标签数据;
增强数据获取单元,用于对所述新标签数据进行数据增强处理,获取与所述新标签数据对应的增强数据;
目标检测模型形成单元,基于所述增强数据和预设的人工标注的图像信息,训练深度学习模型,直至所述深度学习模型的损失函数收敛在预设范围内,以形成目标检测模型;
检测结果获取单元,用于基于所述目标检测模型获取待检测数据的目标检测结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的基于半监督学习的目标检测方法中的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的基于半监督学习的目标检测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011288652.1A CN112580684B (zh) | 2020-11-17 | 2020-11-17 | 基于半监督学习的目标检测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011288652.1A CN112580684B (zh) | 2020-11-17 | 2020-11-17 | 基于半监督学习的目标检测方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112580684A true CN112580684A (zh) | 2021-03-30 |
CN112580684B CN112580684B (zh) | 2024-04-09 |
Family
ID=75122779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011288652.1A Active CN112580684B (zh) | 2020-11-17 | 2020-11-17 | 基于半监督学习的目标检测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580684B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990374A (zh) * | 2021-04-28 | 2021-06-18 | 平安科技(深圳)有限公司 | 图像分类方法、装置、电子设备及介质 |
CN113139594A (zh) * | 2021-04-19 | 2021-07-20 | 北京理工大学 | 一种机载图像无人机目标自适应检测方法 |
CN113191409A (zh) * | 2021-04-20 | 2021-07-30 | 国网江苏省电力有限公司营销服务中心 | 标签数据扩充与深度学习的居民异常用电行为检测方法 |
CN113379322A (zh) * | 2021-07-06 | 2021-09-10 | 国网江苏省电力有限公司营销服务中心 | 一种基于标签增广的窃电用户判别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190205794A1 (en) * | 2017-12-29 | 2019-07-04 | Oath Inc. | Method and system for detecting anomalies in data labels |
CN110910375A (zh) * | 2019-11-26 | 2020-03-24 | 北京明略软件***有限公司 | 基于半监督学习的检测模型训练方法、装置、设备及介质 |
-
2020
- 2020-11-17 CN CN202011288652.1A patent/CN112580684B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190205794A1 (en) * | 2017-12-29 | 2019-07-04 | Oath Inc. | Method and system for detecting anomalies in data labels |
CN110910375A (zh) * | 2019-11-26 | 2020-03-24 | 北京明略软件***有限公司 | 基于半监督学习的检测模型训练方法、装置、设备及介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139594A (zh) * | 2021-04-19 | 2021-07-20 | 北京理工大学 | 一种机载图像无人机目标自适应检测方法 |
CN113191409A (zh) * | 2021-04-20 | 2021-07-30 | 国网江苏省电力有限公司营销服务中心 | 标签数据扩充与深度学习的居民异常用电行为检测方法 |
CN112990374A (zh) * | 2021-04-28 | 2021-06-18 | 平安科技(深圳)有限公司 | 图像分类方法、装置、电子设备及介质 |
WO2022227192A1 (zh) * | 2021-04-28 | 2022-11-03 | 平安科技(深圳)有限公司 | 图像分类方法、装置、电子设备及介质 |
CN112990374B (zh) * | 2021-04-28 | 2023-09-15 | 平安科技(深圳)有限公司 | 图像分类方法、装置、电子设备及介质 |
CN113379322A (zh) * | 2021-07-06 | 2021-09-10 | 国网江苏省电力有限公司营销服务中心 | 一种基于标签增广的窃电用户判别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112580684B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112580684B (zh) | 基于半监督学习的目标检测方法、装置及存储介质 | |
CN111932564B (zh) | 图片识别方法、装置、电子设备及计算机可读存储介质 | |
CN111652845A (zh) | 异常细胞自动标注方法、装置、电子设备及存储介质 | |
CN112732915A (zh) | 情感分类方法、装置、电子设备及存储介质 | |
CN111932547B (zh) | 图像中目标物的分割方法、装置、电子设备及存储介质 | |
CN112052850A (zh) | 车牌识别方法、装置、电子设备及存储介质 | |
CN112446544A (zh) | 交通流预测模型训练方法、装置、电子设备及存储介质 | |
CN112396005A (zh) | 生物特征图像识别方法、装置、电子设备及可读存储介质 | |
CN112137591B (zh) | 基于视频流的目标物位置检测方法、装置、设备及介质 | |
CN112749653A (zh) | 行人检测方法、装置、电子设备及存储介质 | |
CN112767320A (zh) | 图像检测方法、装置、电子设备及存储介质 | |
CN114708461A (zh) | 基于多模态学习模型的分类方法、装置、设备及存储介质 | |
CN114511038A (zh) | 虚假新闻检测方法、装置、电子设备及可读存储介质 | |
CN111985449A (zh) | 救援现场图像的识别方法、装置、设备及计算机介质 | |
CN115471775A (zh) | 基于录屏视频的信息验证方法、装置、设备及存储介质 | |
CN115205225A (zh) | 医学图像识别模型的训练方法、装置、设备及存储介质 | |
CN114494800A (zh) | 预测模型训练方法、装置、电子设备及存储介质 | |
CN112990374A (zh) | 图像分类方法、装置、电子设备及介质 | |
CN113065607A (zh) | 图像检测方法、装置、电子设备及介质 | |
CN112101481A (zh) | 目标物的影响因子筛选方法、装置、设备及存储介质 | |
CN114627435B (zh) | 基于图像识别的智能灯光调节方法、装置、设备及介质 | |
CN115147660A (zh) | 基于增量学习的图像分类方法、装置、设备及存储介质 | |
CN114463685A (zh) | 行为识别方法、装置、电子设备及存储介质 | |
CN113792801A (zh) | 人脸炫光程度的检测方法、装置、设备及存储介质 | |
CN113255456A (zh) | 非主动活体检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |