CN110457155A - 一种样本类别标签的修正方法、装置及电子设备 - Google Patents

一种样本类别标签的修正方法、装置及电子设备 Download PDF

Info

Publication number
CN110457155A
CN110457155A CN201910703759.9A CN201910703759A CN110457155A CN 110457155 A CN110457155 A CN 110457155A CN 201910703759 A CN201910703759 A CN 201910703759A CN 110457155 A CN110457155 A CN 110457155A
Authority
CN
China
Prior art keywords
characteristic
data
category
layer
dimensionality reduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910703759.9A
Other languages
English (en)
Other versions
CN110457155B (zh
Inventor
刘世霞
向首兴
叶曦
张慧
李岩
张志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Tsinghua University
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Beijing Dajia Internet Information Technology Co Ltd filed Critical Tsinghua University
Priority to CN201910703759.9A priority Critical patent/CN110457155B/zh
Publication of CN110457155A publication Critical patent/CN110457155A/zh
Application granted granted Critical
Publication of CN110457155B publication Critical patent/CN110457155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开关于一种样本类别标签的修正方法、装置及电子设备,用于通过可视化方法基于用户标注的数据对类标进行修正。该方法包括:获取分类数据的类标数据,并进行特征提取得到特征数据;对所述特征数据多次采样,按照采样顺序将对应得到的多层特征数据中每相邻两层特征数据按照上下级关系进行级联,构建层次结构图;将所述层次结构图的任一层至少部分区域的特征数据,及所述至少部分区域的特征数据下级级联的特征数据联合,对联合后的特征数据进行降维,对应得到一个二维平面数据;接收基于所述二维平面数据进行标注的数据,得到可信数据集;基于所述可信数据集和所述类标数据,利用双重优化类标数据的修正方法,修正获取的类标数据。

Description

一种样本类别标签的修正方法、装置及电子设备
技术领域
本公开涉及数据标注技术领域,尤其涉及一种样本类别标签的修正方法、装置及电子设备。
背景技术
在机器学习模型中,高质量的训练数据是有监督和半监督学习成功的一个关键因素,机器学习模型利用大量标注的训练数据样本进行学习,然后从中提取知识并用来对未知数据进行预测,而更好的预测模型需要更高质量的标注数据。
然而,在大数据时代,随着数据量的快速增长,数据质量越来越难保证,训练数据的类别标注错误又称类标错误便是一种典型的数据质量问题,为了处理训练数据中的类标错误,目前提出了使用机器学习技术来纠正训练数据类标错误的方法,但该方法需要预先知道训练数据的类标特性,利用训练数据类标的先验知识来进行辅助检测,并未将人加入到训练数据类标检验的分析循环过程中,使得利用该方法进行类标错误检测较为困难,并且对于大规模数据集来说,该方法识别类标错误的过程较慢,在出现大量类别标注错误的情况下,也不能有效地修正类标错误。
发明内容
本公开提供一种样本类别标签的修正方法、装置及电子设备,用于通过可视化方法结合用户标注的数据,对类标数据不断进行修正,能够提升标注数据的质量。
第一方面,本公开提供一种样本类别标签的修正方法,该方法包括:
获取分类数据的类标数据,并进行特征提取得到特征数据;
对所述特征数据多次采样,按照采样顺序将对应得到的多层特征数据中每相邻两层特征数据按照上下级关系进行级联,构建层次结构图;
将所述层次结构图的任一层至少部分区域的特征数据,及所述至少部分区域的特征数据下级级联的特征数据联合,对联合后的特征数据进行降维,对应得到一个二维平面数据;
接收基于所述二维平面数据进行标注的数据,得到可信数据集;
基于所述可信数据集和所述类标数据,利用双重优化类标数据的修正方法,修正获取的类标数据。
第二方面,本公开提供一种样本类别标签的修正电子设备,该设备包括:处理器;
用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如下步骤:
获取分类数据的类标数据,并进行特征提取得到特征数据;
对所述特征数据多次采样,按照采样顺序将对应得到的多层特征数据中每相邻两层特征数据按照上下级关系进行级联,构建层次结构图;
将所述层次结构图的任一层至少部分区域的特征数据,及所述至少部分区域的特征数据下级级联的特征数据联合,对联合后的特征数据进行降维,对应得到一个二维平面数据;
接收基于所述二维平面数据进行标注的数据,得到可信数据集;
基于所述可信数据集和所述类标数据,利用双重优化类标数据的修正方法,修正获取的类标数据。
第三方面,本公开提供一种样本类别标签的修正装置,该装置包括:特征提取单元、构建层次结构树单元、降维单元、可信数据单元、修正单元,其中:
特征提取单元,被配置为执行获取分类数据的类标数据,并进行特征提取得到特征数据;
构建层次结构树单元,被配置为执行对所述特征数据多次采样,按照采样顺序将对应得到的多层特征数据中每相邻两层特征数据按照上下级关系进行级联,构建层次结构图;
降维单元,被配置为执行将所述层次结构图的任一层至少部分区域的特征数据,及所述至少部分区域的特征数据下级级联的特征数据联合,对联合后的特征数据进行降维,对应得到一个二维平面数据;
可信数据单元,被配置为执行接收基于所述二维平面数据进行标注的数据,得到可信数据集;
修正单元,被配置为执行基于所述可信数据集和所述类标数据,利用双重优化类标数据的修正方法,修正获取的类标数据。
第四方面,本公开提供一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面所述方法的步骤。
本公开提供的一种样本类别标签的修正方法、装置及电子设备,具有以下
有益效果:
用于通过可视化方法将类标数据通过二维平面数据的方法展示给用户并由用户对数据进行类别标注,将用户标注的数据作为可信数据集,基于所述可信数据集和所述类标数据,利用双重优化类标数据的修正方法对类标数据不断进行修正,从而能够快速检测到类标错误并有效地进行修正,提升标注数据的质量。
附图说明
图1为本公开实施例提供的一种样本类别标签的修正方法流程图;
图2A为本公开实施例提供的一种二维平面数据示意图;
图2B为本公开实施例提供的一种二维图片展示示意图;
图3为本公开实施例提供的一种样本类别标签的修正装置示意图;
图4为本公开实施例提供的一种样本类别标签的修正电子设备示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
实施例1
本公开提供了一种样本类别标签的修正方法,通过提供可视化的方式将人加入到训练数据类标检验的分析循环过程中,利用人工标注的数据对类标(类别标签)数据进行修正,能够提升类标数据的质量,提高修正类标数据的准确率。
将特征数据通过二维平面数据的形式展现出来,能够帮助用户快速找到带来最大准确率增益的类标数据,并将用户确认的少量标注的数据有效地传播到整个数据集,从而达到提升类标数据质量的目的。
现有技术中利用基于深度学习神经网络模型进行数据的分类或预测时,往往都需要利用训练样本对该模型进行训练,由于训练样本中的标注数据的质量优劣能够导致该模型进行数据分类或预测的精准度,直接影响该模型的质量优劣。
本实施例的样本类别标签的修正方法,能够提高训练样本中类别标签数据的质量,能够应用于多种场景,包括但不限于对图片、文本、语音及多媒体信息的分类。例如,本实施例可以应用于图片分类,可以预先获取分类数据的类标图片,通过本实施例提供的一种样本类别标签的修正方法,对获取的类标图片进行特征提取得到特征数据;对所述特征数据多次采样,按照采样顺序将对应得到的多层特征数据中每相邻两层特征数据按照上下级关系进行级联,构建层次结构图;将所述层次结构图的任一层至少部分区域的特征数据,及所述至少部分区域的特征数据下级级联的特征数据联合,对联合后的特征数据进行降维,对应得到一个二维平面数据;接收基于所述二维平面数据进行标注的数据,得到可信图片集;基于所述可信图片集和所述类标图片,利用双重优化类标数据的修正方法,修正获取的类标图片。利用修正后的类标图片作为训练样本,对基于深度学习神经网络模型进行训练,从而一定程度上提高了该模型的分类或预测精度。
如图1所示,该方法具体实施流程如下:
步骤100、获取分类数据的类标数据,并进行特征提取得到特征数据;
本实施例中,所述类标数据是训练样本中的分类数据带有类别标注的数据,可以是图片形式的类标数据。获取的类标数据可以是获取的由人工标注的类标数据,也可以是有神经网络训练模型标注的类标数据,本实施例对如何获取类标数据不作过多限定。
本实施例利用特征提取网络对所述类标数据进行特征提取,其中特征提取网络可以是神经网络结构,本实施例对此不作过多限定。
作为一种可选的实施方式,得到特征数据之后还包括:
通过降维算法对所述特征数据预处理,降低所述特征数据的维度至设定值。
当得到的特征数据的特征维度过大时,计算的复杂度增加,耗时时间增大,为了解决该技术问题,可以对特征数据进行预处理,降低特征数据的维度,降低计算复杂度,提高运算速度。例如,所述特征数据的维度为d,其中d为正整数,该特征数据的维度用于表示该特征数据的特征或属性,在利用双重优化类标数据的修正方法进行计算的过程中会产生一个样本类别k×特征维度d的大小的矩阵,如果对所述特征数据d降维,相当于将d减小,能够减少计算过程中的数据量,减少计算复杂度。
步骤101、对所述特征数据多次采样,按照采样顺序将对应得到的多层特征数据中每相邻两层特征数据按照上下级关系进行级联,构建层次结构图;
本实施例中,通过对特征数据多次采样并构建层次结构图的方式,将所有的特征数据进行层次化处理,并进一步利用降维算法可以得到任一层至少部分区域的特征数据对应的二维平面数据,该任一层至少部分区域的特征数据可以是用户重点关注的一层的部分区域的特征数据,从而对用户关注的部分区域的特征数据进行二维平面可视化展示,便于用户进行人工标注。
本实施例中构建的层次结构图可以是可视化的,通过图像的方式将多层特征数据中每相邻两层特征数据的上下级关系进行显示,方便用户查看,也可以不是可视化的,只将该层次结构图的层数进行显示,而不会具体显示该层次结构图中每相邻两层特征数据的上下级关系。
本实施例中所述层次结构图可以是层次结构树。
作为一种可选的实施方式,可通过如下步骤将对应得到的多层特征数据按照采样顺序构建层次结构图:
1)按照采样顺序确定相邻采样时间对应的两层特征数据中,采样时间早的一层特征数据为另一层特征数据的下层特征数据;
2)对于每一层特征数据,根据相邻两层特征数据之间的上下级关系执行如下方式进行级联:将该层每个特征数据作为一个子节点,确定上一层特征数据中与各子节点最相似的特征数据,作为该子节点的父节点进行级联。
其中,每一层特征数据,一方面作为下一层特征数据的父节点,另一方面作为上一层特征数据的子节点,并且,每一层特征数据中作为父节点的特征数据可以是一个,也可以是多个,即每一层特征数据中可存在一个或多个父节点,并且,一个父节点的子节点可以为一个,也可以为多个。
实施中,采样次数与得到的多层特征数据的层数是相同的,即采样一次,能得到一层特征数据,对该层特征数据继续采样,又能得到一层特征数据,逐次按照采样顺序便能够得到多层特征数据。
作为一种可选的实施方式,所述采样次数根据所述特征数据的数据量和预设最上层的特征数据的数据量确定。
本实施例中预设最上层的特征数据的数据量可以由用户定义,根据采样前的特征数据的数据量(即所述特征数据的数据量)和用户定义的最上层的数据量,能够确定采样次数和多层特征数据的层数,其中,采样前的特征数据的数据量越大,最上层的数据量越小,采样次数越多,层数越多。
本实施例中提供如下任一方式对所述特征数据多次采样:
1)基于所述特征数据的密度和异常度,对所述特征数据多次采样;
2)基于所述特征数据的异常度,对所述特征数据进行多次蓝噪声采样;
其中,所述异常度为所述每个特征数据设定邻域中的异常数据点比例。所述设定邻域是指针对每个特征数据,与该特征数据相邻的设定区域。
步骤102、将所述层次结构图的任一层至少部分区域的特征数据,及所述至少部分区域的特征数据的下级级联的特征数据进行联合,对联合后的特征数据进行降维,对应得到至少一个二维平面数据;
本实施例中所述二维平面数据的输出方式为散点图或密度图,所述散点图以数据点的形式表示所述特征数据,所述密度图以密度分布的形式表示所述特征数据。其中,密度图是基于特征数据密度和异常度生成的。
本实施例中降维的过程包括两种方式:
方式一、若对层次结构图的最上层至少部分区域的特征数据进行降维时,将该最上层至少部分区域的特征数据直接进行降维;
方式二、若对除所述层次结构图的最上层外的其他层中的任一层至少部分区域的特征数据进行降维时,则将该层的至少部分区域的特征数据,及所述至少部分区域的特征数据的下级级联的特征数据进行联合,对联合后的特征数据进行降维。
其中,本实施例中基于所述层次结构图中各父节点与子节点之间的级联关系,能够联合该层的各个父节点以及该层的下级级联的子节点,联合的具体步骤如下:
1)根据标注指示确定待降维的一层至少部分区域的特征数据;
本实施例中的标注指示可以是用户发送的查看某层特征数据的二维平面数据并标注的指示,根据用户的标注指示,确定需要降维的该层特征数据。
用户可以对任一层特征数据进行标注指示,方便用户查看任一层特征数据的二维平面数据。
2)将所述待降维的一层至少部分区域的各特征数据作为父节点,并确定各父节点的子节点,联合所有的子节点及所述父节点;
可选的,当用户选择对某一层特征数据的二维平面数据进行查看后,指示切换至该层特征数据的较低一层进行查看时,可以将某一层特征数据中的各父节点的所有子节点作为该较低一层特征数据,将所述各父节点及所有子节点进行联合。
作为一种可选的实施方式,对所述联合后的特征数据进行降维的过程,可以是将所述联合后的特征数据投影到二维平面空间,得到一个二维平面数据,该二维平面数据可以是散点图和密度图。
可选的,选取所述联合后的特征数据中设定数量的所述父节点作为锚点;
基于增量式降维算法的最小化迭代运算,至所述锚点分布与降维后得到的特征数据的分布的相似度,及所述联合后的特征数据的分布与降维后得到的特征数据的分布的相似度满足迭代停止条件。
本实施例中的增量式降维算法能够保证特征数据投影到二维平面空间的稳定性,将至所述锚点分布与降维后得到的特征数据的分布相似作为优化目标。
本实施例中的基于增量式降维算法通过最小化以下代价函数实现降维目的:
fcost=α·KL(P||Q)+(1-α)KL(Pc||Qc) 式(1);
其中,KL(||)表示两个特征数据分布之间的KL散度,KL(P||Q)散度表示高维空间的上述联合后的特征数据间两两距离分布P和降维后得到的二维空间的特征数据的分布Q相似,KL(PC||QC)散度表示高维空间中锚点分布和高维空间中联合后的特征数据分布的相似度PC与二维空间中锚点分布和降维后的二维空间的特征数据分布的相似度QC的相似度。
步骤103、接收基于所述二维平面数据进行标注的数据,得到可信数据集;
本实施例接收用户基于所述二维平面数据进行标注的数据,得到可信数据集。
可选的,本实施例还可以通过带框图片的形式展示真实的分类数据和该分类数据的类标,并以多叉树的形式展示用户的修改历史记录,为帮助用户观察已完成的迭代轮次中的数据修正情况,还可以通过直方图的形式展现各个轮次中类标被修改的特征数据和可信数据集的类标分布。如图2A所示,通过密度图的方式直观的显示出特征数据的类标质量,如图2B所示,通过带框图片的形式展示真实的分类数据和该分类数据的类标。
可以通过用户对带框图片进行类标标注的方式,得到可信数据集,该可信数据集也可以通过带框图片的形式展现出来。
步骤104、基于所述可信数据集和所述类标数据,利用双重优化类标数据的修正方法,修正获取的类标数据。
作为一种可选的实施方式,所述利用双重优化类标数据的修正方法,修正获取的类标数据步骤包括:
利用贪心搜索和数据聚类对所述双重优化类标数据的修正方法进行优化;
利用优化后的双重优化类标数据的修正方法,修正获取的类标数据。
其中,本实施例中,利用贪心搜索和数据聚类对所述双重优化类标数据的修正方法中的损失函数的计算过程进一步优化,能够减少耗时,进一步提高算法运算速度。
上述双重优化类标数据的修正方法通过如下公式实现:
δi是一个k维向量,它的第j项δij表示特征数据xi属于类别yj的概率;l为损失函数。
式(2)中的表示所述可信数据集,表示该可信数据集的数据,表示该可信数据集的类标,m为所述可信数据集中可信数据的数量;表示所述类标数据,xi表示该类标数据的数据,yj表示该类标数据的类标,n为所述类标数据的数量;作为一个优化项,表示衡量修正的类标与修正前的类标的差别,γ为设定的常量系数;
式(3)是一个分类模型,基于所述类标数据xi及该类标数据的类标yj训练的,其中,Ω(β)是一个用以控制分类模型β复杂度的正则项,λ为设定的常量系数;
式(2)是一个数据纠正模型、式(3)是一个分类模型,该分类模型以类别的概率分布替代离散的类标,通过式(2)纠正类标数据,使得训练出的分类模型能够最小化在可信数据集和修正的类标数据上的预测损失。
求解上述双层优化问题的关键是消除(2)式中的β,并以δij表示θ;这样式(2)中就只有一个待求解参数δij,进而通过梯度下降方法求解。
具体的求解过程如下所示:
第一步、消除(2)式中的β;
可以使用KKT条件求解,如下:
函数g关于δij和θ连续可微,并且是可逆的,因此可以得出隐函数θ(δ);
第二步、将θ(δ)代入式(2),得到函数Fγ(δ);
通过求导法则对函数Fγ(δ)求导:
第三步、计算函数Fγ(δ)的梯度;
其中,ei是一个第i维为1,其他维为0的向量;J是隐函数理论定义的雅可比矩阵:
综上可知,在对梯度求解的过程中,包括一个nk×nk稠密矩阵的求逆,式(8)中θ维度为nk,n为正整数,k为样本类别,矩阵求逆的复杂度为O((nk)3),因此当数据量n很大的时候,计算消耗非常大,例如在处理10000个训练数据点的10分类问题时,使用Matlab计算该矩阵求逆所需时间超过100小时。
为了解决上述技术问题,本实施例在逻辑回归中选择线性核:
其中,θi是d维向量,d是xi的特征向量维度,k为样本类别,因此本实施例中的分类模型的θ维度为dk,矩阵求逆的复杂度为O((dk)3),由于d远小于n,因此,对于大规模数据来说,得到了极大的改进。
当特征维度d很大的时候,耗时仍然较长,因此本实施例还提出一种优化方法,用于在计算损失函数l时,加快数据的运算速度,其中损失函数l的定义如下:
可选的,使用降维算法对所述特征数据进行预处理,降低所述特征数据的维度d至设定值;
可选的,使用贪心搜索和数据聚类的方法:
假设纠正具有相似噪声和分布的数据所获得的损失函数上的收益应该相似,基于该假设,按照损失函数上的收益将数据聚类得到集群其中:
对于其中,1≤j≤s,根据贪心搜索方法,计算所有收益高于的数据梯度下降带来的总的损失函数值lj,选择总的损失函数值lj最小的数据,使其进行最大梯度下降,最大梯度下降是指在梯度方向,满足约束和边界条件的情况下移动的最大步长。
实施例2
基于相同的发明构思,本公开实施例还提供了一种样本类别标签的修正装置,由于该装置即是本公开实施例中的方法中的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
如图3所示,该装置包括特征提取单元、构建层次结构图单元、降维单元、可信数据单元、修正单元,其中:
特征提取单元,被配置为执行获取分类数据的类标数据,并进行特征提取得到特征数据;
构建层次结构图单元,被配置为执行对所述特征数据多次采样,按照采样顺序将对应得到的多层特征数据中每相邻两层特征数据按照上下级关系进行级联,构建层次结构图;
降维单元,被配置为执行将所述层次结构图的任一层至少部分区域的特征数据,及所述至少部分区域的特征数据的下级级联的特征数据进行联合,对联合后的特征数据进行降维,对应得到至少一个二维平面数据;
可信数据单元,被配置为执行接收基于所述二维平面数据进行标注的数据,得到可信数据集;
修正单元,被配置为执行基于所述可信数据集和所述类标数据,利用双重优化类标数据的修正方法,修正获取的类标数据。
作为一种可选的实施方式,所述构建层次结构图单元具体被配置为执行:
按照采样顺序确定相邻采样时间对应的两层特征数据中,采样时间早的一层特征数据为另一层特征数据的下层特征数据;
对于每一层特征数据,根据相邻两层特征数据之间的上下级关系执行如下方式进行级联:将该层每个特征数据作为一个子节点,确定上一层特征数据中与各子节点最相似的特征数据,作为该子节点的父节点进行级联。
作为一种可选的实施方式,所述降维单元具体被配置为执行:
根据标注指示确定待降维的一层至少部分区域的特征数据;
将所述待降维的一层至少部分区域的各特征数据作为父节点,并确定各父节点的子节点,联合所有的子节点及所述父节点。
作为一种可选的实施方式,所述降维单元具体被配置为执行:
选取所述联合后的特征数据中设定数量的所述父节点作为锚点;
基于增量式降维算法的最小化迭代运算,至所述锚点分布与降维后得到的特征数据的分布的相似度,及所述联合后的特征数据的分布与降维后得到的特征数据的分布的相似度满足迭代停止条件。
作为一种可选的实施方式,所述采样次数根据所述特征数据的数据量和预设最上层的特征数据的数据量确定。
作为一种可选的实施方式,所述二维平面数据的输出方式为散点图或密度图,所述散点图以数据点的形式表示所述特征数据,所述密度图以密度分布的形式表示所述特征数据。
作为一种可选的实施方式,所述构建层次结构图单元具体被配置为执行:
基于所述特征数据的密度和异常度,对所述特征数据多次采样;或者
基于所述特征数据的异常度,对所述特征数据进行多次蓝噪声采样;
其中,所述异常度为所述每个特征数据设定邻域中的异常数据点比例。
作为一种可选的实施方式,所述装置还包括预处理单元具体被配置为执行:
通过降维算法对所述特征数据预处理,降低所述特征数据的维度至设定值。
作为一种可选的实施方式,所述修正单元具体被配置为执行:
利用贪心搜索和数据聚类对所述双重优化类标数据的修正方法进行优化;
利用优化后的双重优化类标数据的修正方法,修正获取的类标数据。
实施例3
基于相同的发明构思,本公开实施例还提供了一种样本类别标签的修正电子设备,由于该电子设备即是本公开实施例中的方法中的电子设备,并且该电子设备解决问题的原理与该方法相似,因此该电子设备的实施可以参见方法的实施,重复之处不再赘述。
如图4所示,该电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如下步骤:
获取分类数据的类标数据,并进行特征提取得到特征数据;
对所述特征数据多次采样,按照采样顺序将对应得到的多层特征数据中每相邻两层特征数据按照上下级关系进行级联,构建层次结构图;
将所述层次结构图的任一层至少部分区域的特征数据,及所述至少部分区域的特征数据的下级级联的特征数据进行联合,对联合后的特征数据进行降维,对应得到至少一个二维平面数据;
接收基于所述二维平面数据进行标注的数据,得到可信数据集;
基于所述可信数据集和所述类标数据,利用双重优化类标数据的修正方法,修正获取的类标数据。
作为一种可选的实施方式,所述处理器具体被配置为执行:
按照采样顺序确定相邻采样时间对应的两层特征数据中,采样时间早的一层特征数据为另一层特征数据的下层特征数据;
对于每一层特征数据,根据相邻两层特征数据之间的上下级关系执行如下方式进行级联:将该层每个特征数据作为一个子节点,确定上一层特征数据中与各子节点最相似的特征数据,作为该子节点的父节点进行级联。
作为一种可选的实施方式,所述处理器具体被配置为执行:
根据标注指示确定待降维的一层至少部分区域的特征数据;
将所述待降维的一层至少部分区域的各特征数据作为父节点,并确定各父节点的子节点,联合所有的子节点及所述父节点。
作为一种可选的实施方式,所述处理器具体被配置为执行:
选取所述联合后的特征数据中设定数量的所述父节点作为锚点;
基于增量式降维算法的最小化迭代运算,至所述锚点分布与降维后得到的特征数据的分布的相似度,及所述联合后的特征数据的分布与降维后得到的特征数据的分布的相似度满足迭代停止条件。
作为一种可选的实施方式,所述采样次数根据所述特征数据的数据量和预设最上层的特征数据的数据量确定。
作为一种可选的实施方式,所述二维平面数据的输出方式为散点图或密度图,所述散点图以数据点的形式表示所述特征数据,所述密度图以密度分布的形式表示所述特征数据。
作为一种可选的实施方式,所述处理器具体被配置为执行:
基于所述特征数据的密度和异常度,对所述特征数据多次采样;或者
基于所述特征数据的异常度,对所述特征数据进行多次蓝噪声采样;
其中,所述异常度为所述每个特征数据设定邻域中的异常数据点比例。
作为一种可选的实施方式,所述处理器具体还被配置为执行:
通过降维算法对所述特征数据预处理,降低所述特征数据的维度至设定值。
作为一种可选的实施方式,所述处理器具体被配置为执行:
利用贪心搜索和数据聚类对所述双重优化类标数据的修正方法进行优化;
利用优化后的双重优化类标数据的修正方法,修正获取的类标数据。
本公开还提供一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如下步骤:
获取分类数据的类标数据,并进行特征提取得到特征数据;
对所述特征数据多次采样,按照采样顺序将对应得到的多层特征数据中每相邻两层特征数据按照上下级关系进行级联,构建层次结构图;
将所述层次结构图的任一层至少部分区域的特征数据,及所述至少部分区域的特征数据的下级级联的特征数据进行联合,对联合后的特征数据进行降维,对应得到至少一个二维平面数据;
接收基于所述二维平面数据进行标注的数据,得到可信数据集;
基于所述可信数据集和所述类标数据,利用双重优化类标数据的修正方法,修正获取的类标数据。
本领域内的技术人员应明白,本公开的实施例可提供为方法、***、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种样本类别标签的修正方法,其特征在于,该方法包括:
获取分类数据的类标数据,并进行特征提取得到特征数据;
对所述特征数据多次采样,按照采样顺序将对应得到的多层特征数据中每相邻两层特征数据按照上下级关系进行级联,构建层次结构图;
将所述层次结构图的任一层至少部分区域的特征数据,及所述至少部分区域的特征数据的下级级联的特征数据进行联合,对联合后的特征数据进行降维,对应得到一个二维平面数据;
接收基于所述二维平面数据进行标注的数据,得到可信数据集;
基于所述可信数据集和所述类标数据,利用双重优化类标数据的修正方法,修正获取的类标数据。
2.根据权利要求1所述的方法,其特征在于,所述按照采样顺序将对应得到的多层特征数据中每相邻两层特征数据按照上下级关系进行级联,构建层次结构图的步骤包括:
按照采样顺序确定相邻采样时间对应的两层特征数据中,采样时间早的一层特征数据为另一层特征数据的下层特征数据;
对于每一层特征数据,根据相邻两层特征数据之间的上下级关系执行如下方式进行级联:将该层每个特征数据作为一个子节点,确定上一层特征数据中与各子节点最相似的特征数据,作为该子节点的父节点进行级联。
3.根据权利要求2所述的方法,其特征在于,所述将层次结构图的任一层至少部分区域的特征数据,及所述至少部分区域的特征数据的下级级联的特征数据进行联合的步骤包括:
根据标注指示确定待降维的一层至少部分区域的特征数据;
将所述待降维的一层至少部分区域的各特征数据作为父节点,并确定各父节点的子节点,联合所有的子节点及所述父节点。
4.根据权利要求3所述的方法,其特征在于,所述对联合后的特征数据进行降维步骤包括:
选取所述联合后的特征数据中设定数量的所述父节点作为锚点;
基于增量式降维算法的最小化迭代运算,至所述锚点分布与降维后得到的特征数据的分布的相似度,及所述联合后的特征数据的分布与降维后得到的特征数据的分布的相似度满足迭代停止条件。
5.根据权利要求1所述的方法,其特征在于,所述对所述特征数据多次采样步骤包括:
基于所述特征数据的密度和异常度,对所述特征数据多次采样;或者
基于所述特征数据的异常度,对所述特征数据进行多次蓝噪声采样;
其中,所述异常度为所述每个特征数据设定邻域中的异常数据点比例。
6.根据权利要求1所述的方法,其特征在于,所述获取分类数据的类标数据,并进行特征提取得到特征数据步骤之后还包括:
通过降维算法对所述特征数据预处理,降低所述特征数据的维度至设定值。
7.根据权利要求1所述的方法,其特征在于,所述利用双重优化类标数据的修正方法,修正获取的类标数据步骤包括:
利用贪心搜索和数据聚类对所述双重优化类标数据的修正方法进行优化;
利用优化后的双重优化类标数据的修正方法,修正获取的类标数据。
8.一种样本类别标签的修正装置,其特征在于,该装置包括:特征提取单元、构建层次结构树单元、降维单元、可信数据单元、修正单元,其中:
特征提取单元,被配置为执行获取分类数据的类标数据,并进行特征提取得到特征数据;
构建层次结构树单元,被配置为执行对所述特征数据多次采样,按照采样顺序将对应得到的多层特征数据中每相邻两层特征数据按照上下级关系进行级联,构建层次结构图;
降维单元,被配置为执行将所述层次结构图的任一层至少部分区域的特征数据,及所述至少部分区域的特征数据下级级联的特征数据联合,对联合后的特征数据进行降维,对应得到一个二维平面数据;
可信数据单元,被配置为执行接收基于所述二维平面数据进行标注的数据,得到可信数据集;
修正单元,被配置为执行基于所述可信数据集和所述类标数据,利用双重优化类标数据的修正方法,修正获取的类标数据。
9.一种样本类别标签的修正电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的一种样本类别标签的修正方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~7任一所述的一种样本类别标签的修正方法。
CN201910703759.9A 2019-07-31 2019-07-31 一种样本类别标签的修正方法、装置及电子设备 Active CN110457155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910703759.9A CN110457155B (zh) 2019-07-31 2019-07-31 一种样本类别标签的修正方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910703759.9A CN110457155B (zh) 2019-07-31 2019-07-31 一种样本类别标签的修正方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110457155A true CN110457155A (zh) 2019-11-15
CN110457155B CN110457155B (zh) 2020-09-11

Family

ID=68484386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910703759.9A Active CN110457155B (zh) 2019-07-31 2019-07-31 一种样本类别标签的修正方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110457155B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115346084A (zh) * 2022-08-15 2022-11-15 腾讯科技(深圳)有限公司 样本处理方法、装置、电子设备、存储介质及程序产品
CN117332303A (zh) * 2023-12-01 2024-01-02 太极计算机股份有限公司 一种用于集群的标签纠正方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6298351B1 (en) * 1997-04-11 2001-10-02 International Business Machines Corporation Modifying an unreliable training set for supervised classification
CN101261628A (zh) * 2007-03-07 2008-09-10 国际商业机器公司 利用角度图显示层级结构数据的方法、交互方法及其装置
CN102982076A (zh) * 2012-10-30 2013-03-20 新华通讯社 基于语义标签库的多维度内容标注方法
CN107457591A (zh) * 2017-08-10 2017-12-12 广东长盈精密技术有限公司 夹具及设有该夹具的cnc加工设备
CN107992890A (zh) * 2017-11-30 2018-05-04 上海海事大学 一种基于局部特征的多视角分类器及设计方法
CN110019396A (zh) * 2017-12-01 2019-07-16 ***通信集团广东有限公司 一种基于分布式多维分析的数据分析***及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6298351B1 (en) * 1997-04-11 2001-10-02 International Business Machines Corporation Modifying an unreliable training set for supervised classification
CN101261628A (zh) * 2007-03-07 2008-09-10 国际商业机器公司 利用角度图显示层级结构数据的方法、交互方法及其装置
CN102982076A (zh) * 2012-10-30 2013-03-20 新华通讯社 基于语义标签库的多维度内容标注方法
CN107457591A (zh) * 2017-08-10 2017-12-12 广东长盈精密技术有限公司 夹具及设有该夹具的cnc加工设备
CN107992890A (zh) * 2017-11-30 2018-05-04 上海海事大学 一种基于局部特征的多视角分类器及设计方法
CN110019396A (zh) * 2017-12-01 2019-07-16 ***通信集团广东有限公司 一种基于分布式多维分析的数据分析***及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CE LIU等: "Self-Correction Method for Automatic Data Annotation", 《2017 4TH IAPR ASIAN CONFERENCE ON PATTERN RECOGNITION》 *
UMAA REBBAPRAGADA 等: "Active Label Correction", 《2012 IEEE 12TH INTERNATIONAL CONFERENCE ON DATA MINING》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115346084A (zh) * 2022-08-15 2022-11-15 腾讯科技(深圳)有限公司 样本处理方法、装置、电子设备、存储介质及程序产品
CN117332303A (zh) * 2023-12-01 2024-01-02 太极计算机股份有限公司 一种用于集群的标签纠正方法
CN117332303B (zh) * 2023-12-01 2024-03-26 太极计算机股份有限公司 一种用于集群的标签纠正方法

Also Published As

Publication number Publication date
CN110457155B (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
CN112101190B (zh) 一种遥感图像分类方法、存储介质及计算设备
CN111274811B (zh) 地址文本相似度确定方法以及地址搜索方法
CN104463209B (zh) 一种基于bp神经网络的pcb板上数字代码识别方法
US20230042221A1 (en) Modifying digital images utilizing a language guided image editing model
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN110132263A (zh) 一种基于表示学习的星图识别方法
WO2016095068A1 (en) Pedestrian detection apparatus and method
EP3912099A1 (en) Compound model scaling for neural networks
CN112836820B (zh) 用于图像分类任务的深度卷积网络训练方法、装置及***
CN104616029A (zh) 数据分类方法及装置
CN112906865B (zh) 神经网络架构搜索方法、装置、电子设备及存储介质
CN110991621A (zh) 一种基于通道数搜索卷积神经网络的方法
CN112200296A (zh) 网络模型量化方法、装置、存储介质及电子设备
CN112116104B (zh) 自动集成机器学习的方法、装置、介质及电子设备
CN110457155A (zh) 一种样本类别标签的修正方法、装置及电子设备
CN111739037A (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN109961129A (zh) 一种基于改进粒子群的海上静止目标搜寻方案生成方法
CN109993026A (zh) 亲属识别网络模型的训练方法及装置
CN115098717A (zh) 三维模型检索方法、装置、电子设备及存储介质
US20220138554A1 (en) Systems and methods utilizing machine learning techniques for training neural networks to generate distributions
CN109840558A (zh) 基于密度峰值-核心融合的自适应聚类方法
CN113704565A (zh) 基于全局区间误差的学习型时空索引方法、装置及介质
CN108376420A (zh) 模型生成装置及方法、评估装置及方法和存储介质
CN105740313B (zh) 设计等值域图
CN114281950B (zh) 基于多图加权融合的数据检索方法与***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant