CN113158889A - 数据清洗、训练方法及装置、计算机可读存储介质、终端 - Google Patents
数据清洗、训练方法及装置、计算机可读存储介质、终端 Download PDFInfo
- Publication number
- CN113158889A CN113158889A CN202110422607.9A CN202110422607A CN113158889A CN 113158889 A CN113158889 A CN 113158889A CN 202110422607 A CN202110422607 A CN 202110422607A CN 113158889 A CN113158889 A CN 113158889A
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- clean
- category
- discarded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000004140 cleaning Methods 0.000 title claims abstract description 45
- 238000013145 classification model Methods 0.000 claims abstract description 15
- 238000004590 computer program Methods 0.000 claims description 15
- 238000013441 quality evaluation Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
一种数据清洗、训练方法及装置、计算机可读存储介质、终端,数据清洗方法包括:获取待清洗数据,并对所述待清洗数据执行初始清洗操作,以得到干净数据集和待丢弃数据集,所述干净数据集中的各个数据属于预设类别;对所述待丢弃数据集中属于未知类别的数据进行聚类,以得到新的分类类别;将所述新的分类类别以及属于所述新的分类类别的数据加入所述干净数据集,所述干净数据集用于分类模型的训练。本发明技术方案能够保证数据清洗的有效性,在保证训练样本质量的前提下添加训练样本数量。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据清洗、训练方法及装置、计算机可读存储介质、终端。
背景技术
人脸识别技术主要是利用深度神经网络提取人脸面部特征用于身份识别。而深度神经网络的拟合需要大规模的数据集,现有的大规模数据集往往包含大量噪声数据,会对人脸识别的性能造成不利的影响。因此,在使用人脸识别的数据集前需要先对数据集进行清洗操作。
现有技术在对数据集进行清洗时,通常是致力于去除数据集中的噪声数据,获得更加干净的数据集。
然而,现有技术中的数据去噪方法会将大量包含有用信息的图片视作噪声删去,造成大量数据的浪费。
发明内容
本发明解决的技术问题是如何保证数据清洗的有效性,在保证训练样本的质量的前提下增加训练样本数量。
为解决上述技术问题,本发明实施例提供一种数据清洗方法,数据清洗方法包括:获取待清洗数据,并对所述待清洗数据执行初始清洗操作,以得到干净数据集和待丢弃数据集,所述干净数据集中的各个数据属于预设类别;对所述待丢弃数据集中属于未知类别的数据进行聚类,以得到新的分类类别;将所述新的分类类别以及属于所述新的分类类别的数据加入所述干净数据集,所述干净数据集用于分类模型的训练。
可选的,所述对所述待丢弃数据集中属于未知类别的数据进行聚类之前还包括:将所述待丢弃数据集中的各个数据按照是否属于所述预设类别划分为属于未知类别的数据以及属于所述预设类别的数据。
可选的,所述的数据清洗方法还包括:将所述待丢弃数据集中属于所述预设类别的数据加入所述干净数据集。
可选的,所述对所述待丢弃数据集中属于未知类别的数据进行聚类之前还包括:评估所述属于未知类别的数据的数据质量;筛选出数据质量达到预设阈值的数据,以用于聚类。
可选的,所述评估所述属于未知类别的数据的数据质量包括:将所述属于未知类别的数据输入至预先训练好的质量评估模型;根据所述质量评估模型的输出结果确定所述训练数据的数据质量。
可选的,所述对所述待丢弃数据集中属于未知类别的数据进行聚类包括:利用聚类算法对所述训练数据进行分类,以得到至少一个新的分类类别以及属于所述至少一个新的分类类别的训练数据。
可选的,所述待清洗数据为人脸图像,所述预设类别和所述新的分类类别为人脸身份。
为解决上述技术问题,本发明实施例还公开了一种数据训练方法,数据训练方法包括:获取干净数据集,所述干净数据集是采用以下方式得到的:获取待清洗数据,并对所述待清洗数据执行一次初始清洗操作,以得到干净数据集和待丢弃数据集,所述干净数据集中的各个数据属于预设类别,对所述待丢弃数据集中属于未知类别的数据进行聚类,以得到新的分类类别,将所述新的分类类别以及属于所述新的分类类别的数据加入所述干净数据集;利用所干净数据集对分类模型进行数据训练。
本发明实施例还公开了一种数据清洗装置,数据清洗装置包括:待清洗数据获取模块,用于获取待清洗数据,并对所述待清洗数据执行初始清洗操作,以得到干净数据集和待丢弃数据集,所述干净数据集中的各个数据属于预设类别;聚类模块,用于对所述待丢弃数据集中属于未知类别的数据进行聚类,以得到新的分类类别;加入模块,用于将所述新的分类类别以及属于所述新的分类类别的数据加入所述干净数据集,所述干净数据集用于分类模型的训练。
本发明实施例还公开了一种数据训练装置,数据训练装置包括:获取模块,用于获取干净数据集,所述干净数据集是采用以下方式得到的:获取待清洗数据,并对所述待清洗数据执行一次初始清洗操作,以得到干净数据集和待丢弃数据集,所述干净数据集中的各个数据属于预设类别,对所述待丢弃数据集中属于未知类别的数据进行聚类,以得到新的分类类别,将所述新的分类类别以及属于所述新的分类类别的数据加入所述干净数据集;训练模块,用于利用所干净数据集对分类模型进行数据训练。
本发明实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行所述数据清洗方法的步骤,或者执行所述数据训练方法的步骤。
本发明实施例还公开了一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行所述数据清洗方法的步骤,或者执行所述数据训练方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明技术方案中,通过对待丢弃数据集中被丢弃的数据进行分类,从中筛选出包含有用信息的数据,并将其加入到清理后的干净数据集中,从而增加了干净数据集的丰富度,保证了利用干净数据集进行训练的训练效果。
进一步地,在聚类之前评估所述属于未知类别的数据的数据质量;筛选出数据质量达到预设阈值的训练数据,以用于聚类。本发明技术方案通过筛选出高质量的训练数据,例如高质量的人脸图片,在此基础上进行聚类,可以保证聚类的准确性,从而能够保证训练数据的质量,进一步提升后续数据训练时的训练效果。
附图说明
图1是本发明实施例一种数据清洗方法的流程图;
图2是本发明实施例另一种数据清洗方法的流程图;
图3本发明实施例一种具体应用场景的示意图;
图4是本发明实施例一种数据训练方法的流程图;
图5是本发明实施例一种数据清洗装置的结构示意图;
图6是发明实施例一种数据训练装置的结构示意图。
具体实施方式
如背景技术中所述,现有技术中的数据去噪方法会将大量包含有用信息的图片视作噪声删去,造成大量数据的浪费。
本发明技术方案中,通过对待丢弃数据集中被丢弃的数据进行分类,从中筛选出包含有用信息的数据,并将其加入到清理后的干净数据集中,从而增加了干净数据集的丰富度,保证了利用干净数据集进行训练的训练效果。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例一种数据清洗方法的流程图。
本发明所述的方法可以用于终端设备侧,也即可以由终端设备执行所述数据清洗方法的各个步骤,所述终端设备包括但不限于手机、计算机、平板电脑等。
具体地,所述数据清洗方法可以包括以下步骤:
步骤S101:获取待清洗数据,并对所述待清洗数据执行初始清洗操作,以得到干净数据集和待丢弃数据集,所述干净数据集中的各个数据属于预设类别;
步骤S102:对所述待丢弃数据集中属于未知类别的数据进行聚类,以得到新的分类类别;
步骤S103:将所述新的分类类别以及属于所述新的分类类别的数据加入所述干净数据集,所述干净数据集用于分类模型的训练。
需要指出的是,本实施例中各个步骤的序号并不代表对各个步骤的执行顺序的限定。
本发明实施例中的待清洗数据可以是训练数据,本发明实施例的数据清洗方法可以是在数据训练操作之前执行的,通过对训练数据进行清洗,提升训练数据的质量,从而提升训练效果。
在步骤S101的具体实施中,获取待清洗数据,具体可以是通过各种可实施的方式来获取,例如可以由用户输入待清洗数据,或者从预先设置好的数据库中调取待清洗数据等。并对待清洗数据执行一次初始清洗操作,待清洗数据将被划分为干净数据集和待丢弃数据集,其中,干净数据集中的各个数据属于预设类别,相应地,待丢弃数据集中各个数据无法被划分至上述预设类别。
具体地,所述预设类别可以是预先设置好的。例如,待清洗数据为人脸,预设类别为人脸身份的情况下,可以通过标注的方式获得上述预设类别。
在一个非限制性的实施例中,待清洗数据中包括各个数据及其对应的标注类别,标注类别选自上述预设类别。在执行初始清洗操作时,可以确定标注类别是否正确,并将标注类别错误的数据加入待丢弃数据集。例如,待清洗数据为标注好的人脸图片,通过初始清洗操作能够发现标注错误的图片,并放入待丢弃数据集中。
需要说明的是,关于初始清洗操作的具体实施方式可以参照现有的数据清洗算法,本发明实施例对此不作限制。
对于待丢弃数据集中的数据,现有技术中直接将其进行丢弃,而在步骤S102的具体实施中,则将待丢弃数据集中属于未知类别的数据进行聚类,以得到新的分类类别。并在步骤S103的具体实施中将其加入干净数据集,以用于数据训练。
在本发明实施例一个具体实施例中,由于待丢弃数据集中的各个数据均属于未知类别的数据,因此可以直接对待丢弃数据集中的各个数据进行聚类。
在本发明一个优选实施例中,可以先对待丢弃数据集中的数据进行筛选,筛选出质量较好的数据,再对筛选出的数据进行聚类,以避免质量较差的数据影响聚类效果。
本发明实施例中所称质量较好的数据可以根据数据的格式不同采用不同的标准来判断,例如,数据的格式为图片时,质量较好的数据可以是分辨率较高的图片等。
考虑到经过清洗操作后的待丢弃数据集中可能存在大量有用的数据,本发明实施例可以将待丢弃数据中属于未知类别的数据进行聚类,获得新的分类类别,以实现待丢弃数据的回收利用。此外,相对于原有的干净数据集,本发明实施例中的干净数据集中的分类类别增加,提升了干净数据集的丰富性,对于数据训练的效果也有一定的提升作用。
在一个具体的应用场景中,待清洗数据可以为人脸图像,预设类别为预设的人脸身份。经过初始清洗操作后,干净数据集中的每一人脸图片具有对应的人脸身份,待丢弃数据集中的各个人脸图像则无法对应上述预设的人脸身份。为了实现数据的回收重利用,可以对待丢弃数据集中的数据执行聚类操作,获得新的人脸身份,并加入干净数据集中参与后续的数据训练。
在本发明一个非限制性的实施例中,请参照图2,所述数据清洗方法可以包括步骤S201-步骤S206。
在步骤S201中,获取待清洗数据,并对所述待清洗数据执行初始清洗操作,以得到干净数据集和待丢弃数据集,所述干净数据集中的各个数据属于预设类别。
关于步骤S201的具体实施方式可以参照步骤S101的相关表述,此处不再赘述。
在步骤S202中,判断待丢弃数据集中的数据是否属于预设类别。
考虑到在清洗操作中可能出现误判,将属于预设类别的数据进行丢弃,放入待丢弃数据集中,因此本发明实施例对待丢弃数据集中的各个数据重新执行一次判断,以筛选出属于预设类别的数据,也即将丢弃数据集中的数据重新划分为属于未知类别的数据以及属于所述预设类别的数据。
如果是,则执行步骤S206,将所述待丢弃数据集中属于所述预设类别的数据加入所述干净数据集。
如果不是,则执行步骤S203,评估所述属于未知类别的数据的数据质量,筛选出数据质量达到预设阈值的数据。
本实施例中,在对数据进行聚类之前,对数据的质量进行评估,以保证聚类的效果。具体实施中,根据待清洗数据的表现形式的不同,数据的质量的评估标准也可以不同。例如,待清洗数据为人脸图片时,可以根据图片分辨率评估数据质量,分辨率越高,数据质量也越高。
在一个具体实施例中,将所述属于未知类别的数据输入至预先训练好的质量评估模型;根据所述质量评估模型的输出结果确定所述训练数据的数据质量。
具体实施中,所述质量评估模型可以采用神经网络模型算法来构建。所述质量评估模型具体可以是二分类器。
在步骤S204中,对所述数据进行聚类,以得到新的分类类别。通过对筛选出的数据质量达到预设阈值的数据进行聚类,可以提升聚类的效果。
考虑到某些数据本身数据质量较高,但由于不能与预设类别相匹配而被丢弃,本实施例中将上述属于未知类别的数据质量较高的数据重新进行聚类,形成新的分类类别来参与后续的数据训练。
需要说明的是,聚类操作可以采用任意可实施的聚类算法,例如K-Means(K均值)聚类、均值漂移聚类、基于密度的聚类方法(DBSCAN)等,本发明实施例对此不作限制。
在步骤S205中,将所述新的分类类别以及属于所述新的分类类别的数据加入所述干净数据集。
至此,相较于经过初始清洗操作后的干净数据集,本发明实施例的干净数据集中增加了待丢弃数据集中被重新划分为预设类别的数据以及聚类为新的分类类别的数据,干净数据集的丰富性得到提升。
在本发明一个具体的应用场景中,请参照图3,待清洗数据为人脸图片,预设类别为已知人脸身份。待清洗数据经过初始清洗操作后,得到待丢弃数据集31以及干净数据集32。其中,待丢弃数据集31中的人脸图片在初始清洗操作中被判别不属于任意已知身份,干净数据集32中的每一人脸图片具有已知身份。
对于待丢弃数据集31中的人脸图片,在步骤33中先执行一次身份识别,得到已知身份的人脸图片34以及未知身份的人脸图片35。对于已知身份的人脸图片34,可以直接加入干净数据集31中。
对于未知身份的人脸图片35,在步骤36中,进行人脸质量评估以及聚类。其中,通过人脸质量评估过程,可以确保人脸检测器能够检测到人脸,或者,可以去除模糊的图片,或者还可以去除人脸姿态差异过大的图片。对于质量较好的人脸图片,可以通过聚类算法分成若干个类别,并将每一个类别标注为一个新的人脸身份。经过步骤36后,得到新的人脸身份37以及脏人脸样本38。
对于新的人脸身份37,可以直接将其加入干净数据集32中。对于脏人脸样本,则可以直接丢弃。
至此,经过上述过程获得的干净数据集32可以作为训练样本用于后续分类模型的数据训练。
本发明一个非限制性的实施例中,本发明实施例还公开了一种数据训练方法。请参照图4,所述数据训练方法可以包括以下步骤:
步骤S401:获取干净数据集;其中,所述干净数据集是通过以下方式得当的:所述干净数据集是采用以下方式得到的:获取待清洗数据,并对所述待清洗数据执行一次初始清洗操作,以得到干净数据集和待丢弃数据集,所述干净数据集中的各个数据属于预设类别,对所述待丢弃数据集中属于未知类别的数据进行聚类,以得到新的分类类别,将所述新的分类类别以及属于所述新的分类类别的数据加入所述干净数据集。
步骤S402:利用所干净数据集对分类模型进行数据训练。
关于干净数据集的具体计算方式可以参照前述实施例,此处不再赘述。
本实施例中,可以通过用户输入的方式获取所述干净数据集,或者在一个约定好的存储位置获取所述干净数据集。将干净数据集作为训练样本进行数据训练。其中,干净数据集中的各个数据具有标注好的类别,具体可以是所述预设类别以及所述新的分类类别。
如前所述,相较于现有技术中经过清洗步骤得到的干净数据集,本发明实施例中的干净数据集增加了待丢弃数据集中的重新划分为新的类别的数据,从而增加了训练样本的丰富性,能够提升模型的训练效果。
在一个具体应用场景中,所述分类模型可以是人脸识别模型,所述干净数据集中的数据为人脸图片。通过本发明实施例的数据训练方法,能够提升训练好的人脸识别模型识别精度,还能够提升该人脸模型的应用范围。
请参照图5,本发明实施例还公开了一种数据清洗装置50。数据清洗装置50可以包括:
待清洗数据获取模块501,用于获取待清洗数据,并对所述待清洗数据执行初始清洗操作,以得到干净数据集和待丢弃数据集,所述干净数据集中的各个数据属于预设类别;
聚类模块502,用于对所述待丢弃数据集中属于未知类别的数据进行聚类,以得到新的分类类别;
加入模块503,用于将所述新的分类类别以及属于所述新的分类类别的数据加入所述干净数据集,所述干净数据集用于分类模型的训练。
关于所述数据清洗装置50的工作原理、工作方式的更多内容,可以参照图1至图3中的相关描述,这里不再赘述。
请参照图6,本发明实施例还公开了一种数据训练装置60。数据训练装置60可以包括:
获取模块601,用于获取干净数据集,所述干净数据集是采用以下方式得到的:获取待清洗数据,并对所述待清洗数据执行一次初始清洗操作,以得到干净数据集和待丢弃数据集,所述干净数据集中的各个数据属于预设类别,对所述待丢弃数据集中属于未知类别的数据进行聚类,以得到新的分类类别,将所述新的分类类别以及属于所述新的分类类别的数据加入所述干净数据集;
训练模块602,用于利用所干净数据集对分类模型进行数据训练。
关于所述数据训练装置60的工作原理、工作方式的更多内容,可以参照图1至图4中的相关描述,这里不再赘述。
所述数据清洗装置50以及数据训练装置60(虚拟装置)例如可以是:芯片、或者芯片模组等。
关于上述实施例中描述的各个装置、产品包含的各个模块/单元,其可以是软件模块/单元,也可以是硬件模块/单元,或者也可以部分是软件模块/单元,部分是硬件模块/单元。例如,对于应用于或集成于芯片的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现;对于应用于或集成于芯片模组的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片模组内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现;对于应用于或集成于终端的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于终端内同一组件(例如,芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于终端内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。
本发明实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序运行时可以执行上述数据清洗方法或数据训练方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。
本发明实施例还公开了一种终端,所述终端可以包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序。所述处理器运行所述计算机程序时可以执行上述数据清洗方法或数据训练方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。
应理解,本申请实施例中,所述处理器可以为中央处理单元(central processingunit,简称CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor,简称DSP)、专用集成电路(application specific integrated circuit,简称ASIC)、现成可编程门阵列(field programmable gate array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和***,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (12)
1.一种数据清洗方法,其特征在于,包括:
获取待清洗数据,并对所述待清洗数据执行初始清洗操作,以得到干净数据集和待丢弃数据集,所述干净数据集中的各个数据属于预设类别;
对所述待丢弃数据集中属于未知类别的数据进行聚类,以得到新的分类类别;
将所述新的分类类别以及属于所述新的分类类别的数据加入所述干净数据集,所述干净数据集用于分类模型的训练。
2.根据权利要求1所述的数据清洗方法,其特征在于,所述对所述待丢弃数据集中属于未知类别的数据进行聚类之前还包括:
将所述待丢弃数据集中的各个数据按照是否属于所述预设类别划分为属于未知类别的数据以及属于所述预设类别的数据。
3.根据权利要求2所述的数据清洗方法,其特征在于,还包括:
将所述待丢弃数据集中属于所述预设类别的数据加入所述干净数据集。
4.根据权利要求1所述的数据清洗方法,其特征在于,所述对所述待丢弃数据集中属于未知类别的数据进行聚类之前还包括:
评估所述属于未知类别的数据的数据质量;
筛选出数据质量达到预设阈值的数据,以用于聚类。
5.根据权利要求4所述的数据清洗方法,其特征在于,所述评估所述属于未知类别的数据的数据质量包括:
将所述属于未知类别的数据输入至预先训练好的质量评估模型;
根据所述质量评估模型的输出结果确定所述训练数据的数据质量。
6.根据权利要求1所述的数据清洗方法,其特征在于,所述对所述待丢弃数据集中属于未知类别的数据进行聚类包括:
利用聚类算法对所述训练数据进行分类,以得到至少一个新的分类类别以及属于所述至少一个新的分类类别的训练数据。
7.根据权利要求1所述的数据清洗方法,其特征在于,所述待清洗数据为人脸图像,所述预设类别和所述新的分类类别为人脸身份。
8.一种数据训练方法,其特征在于,包括:
获取干净数据集,所述干净数据集是采用以下方式得到的:获取待清洗数据,并对所述待清洗数据执行一次初始清洗操作,以得到干净数据集和待丢弃数据集,所述干净数据集中的各个数据属于预设类别,对所述待丢弃数据集中属于未知类别的数据进行聚类,以得到新的分类类别,将所述新的分类类别以及属于所述新的分类类别的数据加入所述干净数据集;
利用所干净数据集对分类模型进行数据训练。
9.一种数据清洗装置,其特征在于,包括:
待清洗数据获取模块,用于获取待清洗数据,并对所述待清洗数据执行初始清洗操作,以得到干净数据集和待丢弃数据集,所述干净数据集中的各个数据属于预设类别;
聚类模块,用于对所述待丢弃数据集中属于未知类别的数据进行聚类,以得到新的分类类别;
加入模块,用于将所述新的分类类别以及属于所述新的分类类别的数据加入所述干净数据集,所述干净数据集用于分类模型的训练。
10.一种数据训练装置,其特征在于,包括:
获取模块,用于获取干净数据集,所述干净数据集是采用以下方式得到的:获取待清洗数据,并对所述待清洗数据执行一次初始清洗操作,以得到干净数据集和待丢弃数据集,所述干净数据集中的各个数据属于预设类别,对所述待丢弃数据集中属于未知类别的数据进行聚类,以得到新的分类类别,将所述新的分类类别以及属于所述新的分类类别的数据加入所述干净数据集;
训练模块,用于利用所干净数据集对分类模型进行数据训练。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1至7中任一项所述数据清洗方法的步骤,或者执行权利要求8所述的数据训练方法的步骤。
12.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1至7中任一项所述数据清洗方法的步骤,或者执行权利要求8所述的数据训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110422607.9A CN113158889A (zh) | 2021-04-15 | 2021-04-15 | 数据清洗、训练方法及装置、计算机可读存储介质、终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110422607.9A CN113158889A (zh) | 2021-04-15 | 2021-04-15 | 数据清洗、训练方法及装置、计算机可读存储介质、终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113158889A true CN113158889A (zh) | 2021-07-23 |
Family
ID=76868889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110422607.9A Pending CN113158889A (zh) | 2021-04-15 | 2021-04-15 | 数据清洗、训练方法及装置、计算机可读存储介质、终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158889A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229321A (zh) * | 2017-11-30 | 2018-06-29 | 北京市商汤科技开发有限公司 | 人脸识别模型及其训练方法和装置、设备、程序和介质 |
CN108875821A (zh) * | 2018-06-08 | 2018-11-23 | Oppo广东移动通信有限公司 | 分类模型的训练方法和装置、移动终端、可读存储介质 |
CN109491994A (zh) * | 2018-11-28 | 2019-03-19 | 中国科学院遥感与数字地球研究所 | Landsat-8卫星精选遥感数据集最简化筛选方法 |
CN109711370A (zh) * | 2018-12-29 | 2019-05-03 | 北京博睿视科技有限责任公司 | 一种基于wifi探测和人脸聚类的数据融合算法 |
CN109960808A (zh) * | 2019-03-26 | 2019-07-02 | 广东工业大学 | 一种文本识别方法、装置、设备及计算机可读存储介质 |
CN110928862A (zh) * | 2019-10-23 | 2020-03-27 | 深圳市华讯方舟太赫兹科技有限公司 | 数据清洗方法、数据清洗设备以及计算机存储介质 |
CN111652259A (zh) * | 2019-04-16 | 2020-09-11 | 上海铼锶信息技术有限公司 | 一种清洗数据的方法及*** |
CN111652257A (zh) * | 2019-03-27 | 2020-09-11 | 上海铼锶信息技术有限公司 | 一种样本数据清洗方法及*** |
-
2021
- 2021-04-15 CN CN202110422607.9A patent/CN113158889A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229321A (zh) * | 2017-11-30 | 2018-06-29 | 北京市商汤科技开发有限公司 | 人脸识别模型及其训练方法和装置、设备、程序和介质 |
CN108875821A (zh) * | 2018-06-08 | 2018-11-23 | Oppo广东移动通信有限公司 | 分类模型的训练方法和装置、移动终端、可读存储介质 |
CN109491994A (zh) * | 2018-11-28 | 2019-03-19 | 中国科学院遥感与数字地球研究所 | Landsat-8卫星精选遥感数据集最简化筛选方法 |
CN109711370A (zh) * | 2018-12-29 | 2019-05-03 | 北京博睿视科技有限责任公司 | 一种基于wifi探测和人脸聚类的数据融合算法 |
CN109960808A (zh) * | 2019-03-26 | 2019-07-02 | 广东工业大学 | 一种文本识别方法、装置、设备及计算机可读存储介质 |
CN111652257A (zh) * | 2019-03-27 | 2020-09-11 | 上海铼锶信息技术有限公司 | 一种样本数据清洗方法及*** |
CN111652259A (zh) * | 2019-04-16 | 2020-09-11 | 上海铼锶信息技术有限公司 | 一种清洗数据的方法及*** |
CN110928862A (zh) * | 2019-10-23 | 2020-03-27 | 深圳市华讯方舟太赫兹科技有限公司 | 数据清洗方法、数据清洗设备以及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI608369B (zh) | 分類方法、分類模組及電腦程式產品 | |
EP3080684B1 (en) | Object detection in optical sensor systems | |
CN111931859B (zh) | 一种多标签图像识别方法和装置 | |
CN109213862B (zh) | 物体识别方法和装置、计算机可读存储介质 | |
WO2020113561A1 (zh) | 一种从图像中提取结构化数据的方法、装置和设备 | |
CN111899243A (zh) | 一种图像清晰度评价方法、设备和计算机可读存储介质 | |
CN110245714B (zh) | 图像识别方法、装置及电子设备 | |
CN112561080A (zh) | 样本筛选方法、样本筛选装置及终端设备 | |
CN116562991B (zh) | 面向元宇宙电商平台的商品大数据信息识别方法及*** | |
CN110490237B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN110570390B (zh) | 一种图像检测方法及装置 | |
CN111783665A (zh) | 一种动作识别方法、装置、存储介质和电子设备 | |
CN112766218A (zh) | 基于非对称联合教学网络的跨域行人重识别方法和装置 | |
WO2023284609A1 (zh) | 图形码识别方法、装置、计算机设备和存储介质 | |
Mohammadi et al. | Improving cross-dataset performance of face presentation attack detection systems using face recognition datasets | |
CN116433704A (zh) | 一种基于中心点的细胞核分割方法及相关设备 | |
CN112149570A (zh) | 多人活体检测方法、装置、电子设备及存储介质 | |
CN107071553B (zh) | 一种修改视频语音的方法、装置和计算机可读存储介质 | |
CN113158889A (zh) | 数据清洗、训练方法及装置、计算机可读存储介质、终端 | |
CN116109907A (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN110704153B (zh) | 界面逻辑解析方法、装置、设备及可读存储介质 | |
CN115879002A (zh) | 一种训练样本生成方法、模型训练方法及装置 | |
CN112861874B (zh) | 一种基于多滤波器去噪结果的专家场去噪方法及*** | |
CN111597966B (zh) | 一种表情图像识别方法、装置及*** | |
CN110827261B (zh) | 图像质量检测方法及装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210723 |
|
RJ01 | Rejection of invention patent application after publication |