CN109598307B - 数据筛选方法、装置、服务器及存储介质 - Google Patents
数据筛选方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN109598307B CN109598307B CN201811489992.3A CN201811489992A CN109598307B CN 109598307 B CN109598307 B CN 109598307B CN 201811489992 A CN201811489992 A CN 201811489992A CN 109598307 B CN109598307 B CN 109598307B
- Authority
- CN
- China
- Prior art keywords
- data
- label
- acquiring
- category label
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开是关于一种数据筛选方法、装置、服务器及存储介质,属于互联网领域。该方法包括:采用至少一个分类模型对多个原始数据进行分类,得到每个原始数据的分类结果;基于每个原始数据的分类结果对该多个原始数据进行筛选,得到多个第一数据;根据该多个第一数据的类别标签,对该多个第一数据进行筛选,得到至少一个第二数据。本公开通过预设条件的预测概率筛选出第一数据,再根据类别标签筛选出第二数据,降低了人工标注带来的成本,避免了因人力资源有限所导致的对原始数据的利用率的限制,增大了海量的原始数据的利用率。
Description
技术领域
本公开涉及互联网领域,尤其涉及一种数据筛选方法、装置、服务器及存储介质。
背景技术
相关技术中,深度学习在自然语言处理、文本翻译等领域得到广泛应用,其中,深度学习模型的准确度依赖于训练数据的规模,为获取训练数据,需要对来自于互联网的原始数据进行筛选。
以图像分类为例,在对深度模型进行训练时,首先需要通过对原始数据进行人工标注,以获取足够多的标注数据,再从标注数据中筛选出训练数据,由于需要多个标签的多组训练数据,其中每个标签的训练数据量都需要达到“千”量级,才能够实现模型训练。
然而,在上述过程中,为得到“千”量级的训练数据,对每个训练数据而言,需要准备10-20个的标注数据,使得对数据标注投入的人力成本很大,并且由于人力资源有限,无法对尽可能多的数据进行人工标注,使得对海量的来自于互联网的原始数据利用不充分。
发明内容
为克服相关技术中存在的问题,本公开提供一种数据筛选方法、装置、服务器及存储介质。
根据本公开实施例的第一方面,提供一种数据筛选方法,该方法包括:
采用至少一个分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,该至少一个分类模型用于对输入的数据进行分类,该分类结果包括类别标签和预测概率,该预测概率用于指示每个原始数据属于每个类别标签的可能性;
基于每个原始数据的分类结果对该多个原始数据进行筛选,得到多个第一数据,该多个第一数据为预测概率符合预设条件的原始数据;
根据该多个第一数据的类别标签,对该多个第一数据进行筛选,得到至少一个第二数据。
在一种可能实施方式中,根据该多个第一数据的类别标签,对该多个第一数据进行筛选,得到至少一个第二数据包括:
根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵;
按照信息熵的数值从小到大的顺序,提取该多个第一数据中属于同一个类别标签的第一数据,得到各个类别标签对应的第一数据集;
将该各个类别标签对应的第一数据集中前第一目标数量个第一数据获取为该至少一个第二数据。
在一种可能实施方式中,根据该多个第一数据的类别标签,对该多个第一数据进行筛选,得到至少一个第二数据包括:
根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵;
提取该多个第一数据中属于同一个类别标签的第一数据,得到各个类别标签对应的第一数据集;
按照信息熵的数值从小到大的顺序,将该各个类别标签对应的第一数据集中前第一目标数量个第一数据获取为该至少一个第二数据。
在一种可能实施方式中,根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵包括:
对任一个第一数据,将该第一数据的至少一个类别标签的集合获取为预测向量,该预测向量用于指示每个分类模型对该第一数据进行预测的类别标签;
将该预测向量中各个类别标签的出现概率的集合获取为概率向量;
将该概率向量的信息熵获取为该第一数据的信息熵。
在一种可能实施方式中,根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵包括:
对每个第一数据,获取该第一数据的至少一个类别标签中各个类别标签的出现频次;
根据该各个类别标签的出现频次,获取该各个类别标签的出现频率,该出现频率为该出现频次除以该至少一个类别标签的数量所得到的数值;
将该各个类别标签的出现频率的信息熵获取为该第一数据的信息熵。
在一种可能实施方式中,基于该每个原始数据的分类结果对该多个原始数据进行筛选,得到多个第一数据包括:
按照预测概率的数值从大到小的顺序,提取该多个原始数据中属于同一个类别标签的原始数据,得到各个类别标签对应的第二数据集;
将该各个类别标签对应的第二数据集中前第二目标数量个原始数据获取为该多个第一数据。
在一种可能实施方式中,基于该每个原始数据的分类结果对该多个原始数据进行筛选,得到多个第一数据包括:
提取该多个原始数据中属于同一个类别标签的原始数据,得到各个类别标签对应的第二数据集;
按照预测概率的数值从大到小的顺序,将该各个类别标签对应的第二数据集中前第二目标数量个原始数据获取为该多个第一数据。
根据本公开实施例的第二方面,提供一种数据筛选装置,该装置包括:
分类单元,被配置为执行采用至少一个分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,该至少一个分类模型用于对输入的数据进行分类,该分类结果包括类别标签和预测概率,该预测概率用于指示每个原始数据属于每个类别标签的可能性;
第一筛选单元,被配置为执行基于该每个原始数据的分类结果对该多个原始数据进行筛选,得到多个第一数据,该多个第一数据为预测概率符合预设条件的原始数据;
第二筛选单元,被配置为执行根据该多个第一数据的类别标签,对该多个第一数据进行筛选,得到至少一个第二数据。
在一种可能实施方式中,该第二筛选单元包括:
第一获取子单元,被配置为执行根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵;
提取子单元,被配置为执行按照信息熵的数值从小到大的顺序,提取该多个第一数据中属于同一个类别标签的第一数据,得到各个类别标签对应的第一数据集;
第二获取子单元,被配置为执行将该各个类别标签对应的第一数据集中前第一目标数量个第一数据获取为该至少一个第二数据。
在一种可能实施方式中,该第二筛选单元包括:
第一获取子单元,被配置为执行根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵;
提取子单元,被配置为执行提取该多个第一数据中属于同一个类别标签的第一数据,得到各个类别标签对应的第一数据集;
第二获取子单元,被配置为执行按照信息熵的数值从小到大的顺序,将该各个类别标签对应的第一数据集中前第一目标数量个第一数据获取为该至少一个第二数据。
在一种可能实施方式中,该第一获取子单元还被配置为执行:
对任一个第一数据,将该第一数据的至少一个类别标签的集合获取为预测向量,该预测向量用于指示每个分类模型对该第一数据进行预测的类别标签;
将该预测向量中各个类别标签的出现概率的集合获取为概率向量;
将该概率向量的信息熵获取为该第一数据的信息熵。
在一种可能实施方式中,该第一获取子单元还被配置为执行:
对每个第一数据,获取该第一数据的至少一个类别标签中各个类别标签的出现频次;
根据该各个类别标签的出现频次,获取该各个类别标签的出现频率,该出现频率为该出现频次除以该至少一个类别标签的数量所得到的数值;
将该各个类别标签的出现频率的信息熵获取为该第一数据的信息熵。
在一种可能实施方式中,该第一筛选单元还被配置为执行:
按照预测概率的数值从大到小的顺序,提取该多个原始数据中属于同一个类别标签的原始数据,得到各个类别标签对应的第二数据集;
将该各个类别标签对应的第二数据集中前第二目标数量个原始数据获取为该多个第一数据。
在一种可能实施方式中,该第一筛选单元还被配置为执行:
提取该多个原始数据中属于同一个类别标签的原始数据,得到各个类别标签对应的第二数据集;
按照预测概率的数值从大到小的顺序,将该各个类别标签对应的第二数据集中前第二目标数量个原始数据获取为该多个第一数据。
根据本公开实施例的第三方面,提供一种服务器,该服务器包括:
处理器;
用于存储该处理器可执行指令的存储器;
其中,该处理器被配置为:
采用至少一个分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,该至少一个分类模型用于对输入的数据进行分类,该分类结果包括类别标签和预测概率,该预测概率用于指示每个原始数据属于每个类别标签的可能性;
基于每个原始数据的分类结果对该多个原始数据进行筛选,得到多个第一数据,该多个第一数据为预测概率符合预设条件的原始数据;
根据该多个第一数据的类别标签,对该多个第一数据进行筛选,得到至少一个第二数据。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当该存储介质中的指令由服务器的处理器执行时,使得服务器能够执行一种数据筛选方法,该方法包括:
采用至少一个分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,该至少一个分类模型用于对输入的数据进行分类,该分类结果包括类别标签和预测概率,该预测概率用于指示每个原始数据属于每个类别标签的可能性;
基于每个原始数据的分类结果对该多个原始数据进行筛选,得到多个第一数据,该多个第一数据为预测概率符合预设条件的原始数据;
根据该多个第一数据的类别标签,对该多个第一数据进行筛选,得到至少一个第二数据。
根据本公开实施例的第五方面,提供一种应用程序,包括一条或多条指令,该一条或多条指令可以由服务器的处理器执行时,使得服务器能够执行一种数据筛选方法,该方法包括:
采用至少一个分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,该至少一个分类模型用于对输入的数据进行分类,该分类结果包括类别标签和预测概率,该预测概率用于指示每个原始数据属于每个类别标签的可能性;
基于每个原始数据的分类结果对该多个原始数据进行筛选,得到多个第一数据,该多个第一数据为预测概率符合预设条件的原始数据;
根据该多个第一数据的类别标签,对该多个第一数据进行筛选,得到至少一个第二数据。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过采用至少一个分类模型对原始数据进行分类,从而筛选出预测概率符合预设条件的第一数据,再根据类别标签对第一数据进行筛选,从而得到至少一个第二数据,使得从原始数据筛选出第二数据的过程中,由于利用了分类模型所输出的每个原始数据的预测概率和类别标签,不仅降低了人工标注带来的成本,而且避免了因人力资源有限所导致的对原始数据的利用率的限制,从而增大了海量的原始数据的利用率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种数据筛选方法的流程图。
图2是根据一示例性实施例示出的一种数据筛选方法的流程图。
图3是根据一示例性实施例示出的一种数据筛选方法的示意图。
图4是根据一示例性实施例示出的一种数据筛选方法的示意图。
图5是根据一示例性实施例示出的一种数据筛选装置的逻辑结构框图。
图6是根据一示例性实施例示出的一种服务器的逻辑结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种数据筛选方法的流程图,如图1所示,数据筛选方法用于服务器中,包括以下步骤:
在步骤101中,服务器采用至少一个分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,该至少一个分类模型用于对输入的数据进行分类,该分类结果包括类别标签和预测概率,该预测概率用于指示每个原始数据属于每个类别标签的可能性。
在步骤102中,服务器基于每个原始数据的分类结果对该多个原始数据进行筛选,得到多个第一数据,该多个第一数据为预测概率符合预设条件的原始数据。
在步骤103中,服务器根据该多个第一数据的类别标签,对该多个第一数据进行筛选,得到至少一个第二数据。
本公开实施例提供的方法,通过采用至少一个分类模型对原始数据进行分类,从而筛选出预测概率符合预设条件的第一数据,再根据类别标签对第一数据进行筛选,从而得到至少一个第二数据,使得从原始数据筛选出第二数据的过程中,由于利用了分类模型所输出的每个原始数据的预测概率和类别标签,不仅降低了人工标注带来的成本,而且避免了因人力资源有限所导致的对原始数据的利用率的限制,从而增大了海量的原始数据的利用率。
在一种可能实施方式中,根据该多个第一数据的类别标签,对该多个第一数据进行筛选,得到至少一个第二数据包括:
根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵;
按照信息熵的数值从小到大的顺序,提取该多个第一数据中属于同一个类别标签的第一数据,得到各个类别标签对应的第一数据集;
将该各个类别标签对应的第一数据集中前第一目标数量个第一数据获取为该至少一个第二数据。
在一种可能实施方式中,根据该多个第一数据的类别标签,对该多个第一数据进行筛选,得到至少一个第二数据包括:
根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵;
提取该多个第一数据中属于同一个类别标签的第一数据,得到各个类别标签对应的第一数据集;
按照信息熵的数值从小到大的顺序,将该各个类别标签对应的第一数据集中前第一目标数量个第一数据获取为该至少一个第二数据。
在一种可能实施方式中,根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵包括:
对任一个第一数据,将该第一数据的至少一个类别标签的集合获取为预测向量,该预测向量用于指示每个分类模型对该第一数据进行预测的类别标签;
将该预测向量中各个类别标签的出现概率的集合获取为概率向量;
将该概率向量的信息熵获取为该第一数据的信息熵。
在一种可能实施方式中,根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵包括:
对每个第一数据,获取该第一数据的至少一个类别标签中各个类别标签的出现频次;
根据该各个类别标签的出现频次,获取该各个类别标签的出现频率,该出现频率为该出现频次除以该至少一个类别标签的数量所得到的数值;
将该各个类别标签的出现频率的信息熵获取为该第一数据的信息熵。
在一种可能实施方式中,基于该每个原始数据的分类结果对该多个原始数据进行筛选,得到多个第一数据包括:
按照预测概率的数值从大到小的顺序,提取该多个原始数据中属于同一个类别标签的原始数据,得到各个类别标签对应的第二数据集;
将该各个类别标签对应的第二数据集中前第二目标数量个原始数据获取为该多个第一数据。
在一种可能实施方式中,基于该每个原始数据的分类结果对该多个原始数据进行筛选,得到多个第一数据包括:
提取该多个原始数据中属于同一个类别标签的原始数据,得到各个类别标签对应的第二数据集;
按照预测概率的数值从大到小的顺序,将该各个类别标签对应的第二数据集中前第二目标数量个原始数据获取为该多个第一数据。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图2是根据一示例性实施例示出的一种数据筛选方法的流程图,如图2所示,数据筛选方法用于服务器中,包括以下步骤:
在步骤201中,服务器采用至少一个分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,该至少一个分类模型用于对输入的数据进行分类,该分类结果包括类别标签和预测概率,该预测概率用于指示每个原始数据属于每个类别标签的可能性。
其中,该至少一个分类模型可以通过卷积神经网络对输入模型的数据进行分类。不同的分类模型采取不同的训练数据,从而导致神经层参数和神经层架构可以不同,也即是,对同一个原始数据,输入不同的分类模型后,可能输出相同的分类结果,也可能输出不同的分类结果。在一种可能实施方式中,由于训练数据具有相同的类别,使得不同的分类模型所能够输出的类别标签的类别相同。
其中,该多个原始数据的数据规模可以是千万级,也可以是亿级,本公开实施例不对该多个原始数据的数据规模进行具体限定,可选地,该多个原始数据可以是从UGC(usergenerated content,用户原创内容)网站平台上随机获取的图像数据,也可以是已有的数据库中随机提取的图像数据,本公开实施例不对该多个原始数据的获取方式进行具体限定。
其中,该类别标签可以是以标签的形式指示输入模型的数据的类别,例如,该类别标签为“猫”、“狗”、“猴”或“人”等,以指示图像数据的类别;其中,该预测概率可以是以数值的方式指示属于某个类别标签的可能性大小,例如,原始数据属于类别标签“人”的预测概率可以是0.8,也即是分类模型预测该原始数据有80%的可能性是人像。
在上述步骤201中,将任一原始数据输入任一分类模型后,可以得到该原始数据属于每一个类别标签的预测概率,输出的分类结果可以为最大预测概率和该最大预测概率所对应的类别标签。
例如,假设采用K个分类模型对N个原始数据进行分类,且该K个分类模型具有相同的L个类别标签,图3是根据一示例性实施例示出的一种数据筛选方法的示意图,如图3所示,以第i个原始数据为例,将该第i个原始数据输入该K个分类模型,对K个分类模型中的任一分类模型而言,输出该第i个原始数据属于该L个类别标签的L个预测概率,将该L个预测概率中的最大值获取为最大预测概率,将该最大预测概率和最大预测概率对应的类别标签获取为该第i个原始数据的分类结果,依此类推,直到K个分类模型都对该第i个原始数据进行了分类,得到K个最大预测概率和K个类别标签。其中,L、N和K均为正整数,i为小于等于N的正整数,该第i个原始数据为该N个原始数据中的任一数据,对每个原始数据都可以进行上述分类过程,在此不作赘述。
在步骤202中,服务器提取该多个原始数据中属于同一个类别标签的原始数据,得到各个类别标签对应的第二数据集。
在上述步骤202中,图4是根据一示例性实施例示出的一种数据筛选方法的示意图,如图4所示,可以实现将该多个原始数据按照类别标签区分,从而得到L个第二数据集,每个第二数据集中的原始数据都具有相同的类别标签,其中,不同的第二数据集内的原始数据可以重叠,也即是,例如,当该第i个原始数据的K个类别标签中不完全相同时,每一个不同的类别标签所对应的第二数据集中,都应该包括该第i个原始数据。
在一些实施例中,在进行上述步骤202的提取过程时,可以按照一定顺序进行,例如,先提取具有第一个类别标签的原始数据,进而提取具有第二个类别标签的原始数据,以此类推,直到提取具有第L个类别标签的原始数据,从而得到L个第二数据集,可选地,上述对L个类别标签的提取还可以是同时进行的,本公开实施例不对L个类别标签的提取时序进行限定。
在一些实施例中,在进行上述步骤202的提取过程时,还可以设置L个空的第二数据集,先在第一个原始数据的K个类别标签中去掉重复的类别标签,将该第一个原始数据分配到剩余的类别标签所对应的第二数据集中,进而将第二个原始数据分配到相应的第二数据集,以此类推,直到将第N个原始数据分配到相应的第二数据集,从而得到L个第二数据集,可选地,上述将N个原始数据分配到L个第二数据集的过程可以是同时进行的,本公开实施例不对N个原始数据的分配时序进行限定。
在步骤203中,服务器按照预测概率的数值从大到小的顺序,将该各个类别标签对应的第二数据集中前第二目标数量个原始数据获取为该多个第一数据。
基于上述示例,假设第二目标数量为k,步骤203也即是将每个第二数据集的预测概率从大到小的前k个原始数据获取为第一数据。其中,该第二目标数量k可以是服务器预设的任一正整数,可选地,当存在数据数目小于k的第二数据集时,将该第二数据集的所有原始数据获取为第一数据,在一种可能实施方式中,该第二目标数量k还可以是按照预设规则获取的正整数,例如,该预设规则可以是将目标第二数据集的数据数目的1/2取整后获取为第二目标数量k,其中,该目标第二数据集为数据数目最少的第二数据集。
在上述过程中,对每个第二数据集,服务器获取预测概率时,可以先将该第二数据集中的所有原始数据按照预测概率从大到小进行排序,从而将前k个预测概率对应的原始数据获取为k个第一数据,在一种可能实施方式中,还可以先将预测概率最大的目标原始数据获取为第一数据,再在第二数据集的剩余数据中,将预测概率最大的原始数据获取为第一数据,重复执行上述步骤,直到获取了k个第一数据,进而对下一个第二数据集进行类似处理,在此不作赘述,直到对L个第二数据集都完成筛选,也即是将L个第二数据集得到的第一数据合并为该多个第一数据,该多个第一数据可以采用下述公式进行表示:
步骤202-203提供了从多个原始数据中筛选出多个第一数据的一种可能实现方法,也即是,先获取L个第二数据集,进而在各个第二数据集内按照预测概率从大到小的顺序提取第一数据,使得筛选出来的第一数据,是经过K个分类模型所确定的属于各个类别标签的概率较大的数据,使得从原始数据中过滤掉了一些难以分类的噪声数据,而在一些实施例中,该步骤202-203还可以采取如下方式进行替换:服务器按照预测概率的数值从大到小的顺序,提取该多个原始数据中属于同一个类别标签的原始数据,得到各个类别标签对应的第二数据集;将该各个类别标签对应的第二数据集中前第二目标数量个原始数据获取为该多个第一数据。也即是,在获取各个第二数据集时,得到的就是按照预测概率从大到小的顺序排列的原始数据,从而直接获取每个第二数据集中前k个原始数据为多个第一数据。
在步骤204中,服务器对任一个第一数据,将该第一数据的至少一个类别标签的集合获取为预测向量,该预测向量用于指示每个分类模型对该第一数据进行预测的类别标签。
在上述步骤204中,如果第j个第一数据的类别标签用predictionj表示,K个分类模型对第j个第一数据的预测向量可以表示为[predictionj,0,predictionj,1,...,predictionj,K]。基于上述示例,假设在步骤203中获取到了Q个第一数据,对该Q个第一数据中的第j个第一数据,可以将该第j个第一数据的K个类别标签的集合获取为预测向量,其中,该第j个第一数据可以是Q个第一数据中的任一数据,上述第j个第一数据的K个类别标签为步骤201中所得到的分类结果,Q为小于等于N的正整数,j为小于等于Q的正整数。例如,当K=10时,该预测向量可以是[“猫”,“狗”,“猴”,“人”,“猫”,“狗”,“猴”,“人”,“猫”,“狗”]。
在步骤205中,服务器将该预测向量中各个类别标签的出现概率的集合获取为概率向量。
其中,某个类别标签的出现概率为该类别标签的出现次数,除以预测向量的长度所获得的数值,基于上述示例,在该预测向量中,类别标签“猫”和“狗”出现了3次,类别标签“猴”和“人”出现了2次,预测向量的长度K=10,则该第j个第一数据的概率向量为[3/10,3/10,2/10,2/10]。
在步骤206中,服务器将该概率向量的信息熵获取为该第一数据的信息熵。
在上述过程中,该信息熵可以根据下述函数表达式进行计算:其中,H(x)为信息熵,pi表示该概率向量中的第i个出现概率,基于上述示例,该第j个第一数据的信息熵可以表示为将该Hj(x)所指示的数值获取为该第j个数据的信息熵。
步骤204-206是一种获取每个第一数据的信息熵的可能实现方法,也即是根据预测向量获取概率向量,从而获取信息熵,而在一种可能实施方式中,该步骤204-206可以采用如下方式进行替换:服务器对每个第一数据,获取该第一数据的至少一个类别标签中各个类别标签的出现频次;根据该各个类别标签的出现频次,获取该各个类别标签的出现频率,该出现频率为该出现频次除以该至少一个类别标签的数量所得到的数值;将该各个类别标签的出现频率的信息熵获取为该第一数据的信息熵。
在上述替换方式中,基于上述示例,也即是,不通过预测向量和概率向量,直接通过K个类别标签的出现频次{3,3,2,2},获取K个类别标签中各个标签的出现频率{3/10,3/10,2/10,2/10},从而将各个出现频率的信息熵获取为该第一数据的信息熵。
在步骤207中,按照信息熵的数值从小到大的顺序,提取该多个第一数据中属于同一个类别标签的第一数据,得到各个类别标签对应的第一数据集。
在上述步骤207中,可以实现将Q个第一数据按照类别标签区分,从而得到L个第一数据集,每个第一数据集中的第一数据都具有相同的类别标签,其中,不同的第一数据集内的第一数据可以重叠,也即是,当该第j个第一数据的K个类别标签中不完全相同时,每一个不同的类别标签所对应的第一数据集中,都应该包括该第j个第一数据,例如,基于上述示例,第j个第一数据的类别标签有“猫”、“狗”、“猴”和“人”4种,则这4个类别标签所对应的第一数据集中都包括该第j个第一数据。
在一些实施例中,在进行上述步骤207的提取过程时,可以先按照信息熵从小到大,提取具有第一个类别标签的第一数据,进而按照信息熵从小到大,提取具有第二个类别标签的第一数据,以此类推,直到按照信息熵从小到大,提取具有第L个类别标签的第一数据,从而得到L个第一数据集,其中,每个第一数据集中的第一数据都是按照信息熵从小到大排列的,可选地,上述按照信息熵从小到大对L个类别标签的提取还可以是同时进行的,本公开实施例不对L个类别标签的提取时序进行限定。
在步骤208中,将该各个类别标签对应的第一数据集中前第一目标数量个第一数据获取为该至少一个第二数据。
其中,该第一目标数量可以是服务器预设的任一正整数,可选地,当存在数据数目小于该第一目标数量的第一数据集时,将该第一数据集的所有第一数据获取为第二数据,在一种可能实施方式中,该第一目标数量还可以是按照预设规则获取的正整数,例如,该预设规则可以是将目标第一数据集的数据数目的1/2取整后获取为第一目标数量,其中,该目标第一数据集为数据数目最少的第一数据集。
在上述步骤208中,由于在步骤207中得到的L个第一数据集中的第一数据按照信息熵从小到大排列,可以直接将前第一目标数量个第一数据获取为该至少一个第二数据,使得筛选出来的第二数据,是经过K个分类模型所确定的属于各个类别标签的不确定度较小的数据,进而从第一数据中过滤掉了一些类别标签不确定度较大的噪声数据。
步骤207-208提供了从多个第一数据中筛选出至少一个第二数据的一种可能实现方法,也即是,先按照信息熵从小到大的顺序获取L个第一数据集,将各个第一数据集的前第一目标数量个第一数据获取为第二数据,而在一些实施例中,该步骤207-208还可以采取如下方式进行替换:服务器提取该多个第一数据中属于同一个类别标签的第一数据,得到各个类别标签对应的第一数据集;按照信息熵的数值从小到大的顺序,将该各个类别标签对应的第一数据集中前第一目标数量个第一数据获取为该至少一个第二数据。也即是,先获取不同类别标签的L个第一数据集,在每个第一数据集内按照信息熵从小到大的顺序获取第二数据。
在一些实施例中,针对上述替换方式,服务器在对每个第一数据集进行提取时,可以先将该第一数据集中的所有第一数据按照信息熵从小到大进行排序,从而将前第一目标数量个信息熵对应的第一数据获取为第二数据,在一种可能实施方式中,还可以先将信息熵最小的目标第一数据获取为第二数据,再在剔除了该目标第一数据的第一数据集中,将信息熵最小的第一数据获取为第二数据,重复执行上述步骤,直到获取了第一目标数量个第二数据,进而对下一个第一数据集进行类似处理,在此不作赘述,直到对L个第一数据集都完成筛选,也即是将L个第一数据集得到的第二数据合并为该至少一个第二数据。
本公开实施例提供的方法,通过采用至少一个分类模型对原始数据进行分类,从而筛选出预测概率符合预设条件的第一数据,再根据类别标签对第一数据进行筛选,从而得到至少一个第二数据,使得从原始数据筛选出第二数据的过程中,由于利用了分类模型所输出的每个原始数据的预测概率和类别标签,不仅降低了人工标注带来的成本,而且避免了因人力资源有限所导致的对原始数据的利用率的限制,从而增大了海量的原始数据的利用率;进一步地,通过将原始数据内的预测概率较大的数据获取为第一数据,从而过滤掉了原始数据中难以分类的噪声数据;此外,通过获取每个第一数据的信息熵,从而选取各个类别标签的数据集内信息熵较小的数据为第二数据,使得选取出的第二数据的分类过程中的不确定度较小,筛选的更为精确。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图5是根据一示例性实施例示出的一种数据筛选装置的逻辑结构框图。参照图5,该装置包括分类单元501,第一筛选单元502以及第二筛选单元503:
分类单元501,被配置为执行采用至少一个分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,该至少一个分类模型用于对输入的数据进行分类,该分类结果包括类别标签和预测概率,该预测概率用于指示每个原始数据属于每个类别标签的可能性;
第一筛选单元502,被配置为执行基于该每个原始数据的分类结果对该多个原始数据进行筛选,得到多个第一数据,该多个第一数据为预测概率符合预设条件的原始数据;
第二筛选单元503,被配置为执行根据该多个第一数据的类别标签,对该多个第一数据进行筛选,得到至少一个第二数据。
本公开实施例提供的装置,通过采用至少一个分类模型对原始数据进行分类,从而筛选出预测概率符合预设条件的第一数据,再根据类别标签对第一数据进行筛选,从而得到至少一个第二数据,使得从原始数据筛选出第二数据的过程中,由于利用了分类模型所输出的每个原始数据的预测概率和类别标签,不仅降低了人工标注带来的成本,而且避免了因人力资源有限所导致的对原始数据的利用率的限制,从而增大了海量的原始数据的利用率。
在一种可能实施方式中,基于图5的装置组成,该第二筛选单元503包括:
第一获取子单元,被配置为执行根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵;
提取子单元,被配置为执行按照信息熵的数值从小到大的顺序,提取该多个第一数据中属于同一个类别标签的第一数据,得到各个类别标签对应的第一数据集;
第二获取子单元,被配置为执行将该各个类别标签对应的第一数据集中前第一目标数量个第一数据获取为该至少一个第二数据。
在一种可能实施方式中,基于图5的装置组成,该第二筛选单元503包括:
第一获取子单元,被配置为执行根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵;
提取子单元,被配置为执行提取该多个第一数据中属于同一个类别标签的第一数据,得到各个类别标签对应的第一数据集;
第二获取子单元,被配置为执行按照信息熵的数值从小到大的顺序,将该各个类别标签对应的第一数据集中前第一目标数量个第一数据获取为该至少一个第二数据。
在一种可能实施方式中,该第一获取子单元还被配置为执行:
对任一个第一数据,将该第一数据的至少一个类别标签的集合获取为预测向量,该预测向量用于指示每个分类模型对该第一数据进行预测的类别标签;
将该预测向量中各个类别标签的出现概率的集合获取为概率向量;
将该概率向量的信息熵获取为该第一数据的信息熵。
在一种可能实施方式中,该第一获取子单元还被配置为执行:
对每个第一数据,获取该第一数据的至少一个类别标签中各个类别标签的出现频次;
根据该各个类别标签的出现频次,获取该各个类别标签的出现频率,该出现频率为该出现频次除以该至少一个类别标签的数量所得到的数值;
将该各个类别标签的出现频率的信息熵获取为该第一数据的信息熵。
在一种可能实施方式中,该第一筛选单元502还被配置为执行:
按照预测概率的数值从大到小的顺序,提取该多个原始数据中属于同一个类别标签的原始数据,得到各个类别标签对应的第二数据集;
将该各个类别标签对应的第二数据集中前第二目标数量个原始数据获取为该多个第一数据。
在一种可能实施方式中,该第一筛选单元502还被配置为执行:
提取该多个原始数据中属于同一个类别标签的原始数据,得到各个类别标签对应的第二数据集;
按照预测概率的数值从大到小的顺序,将该各个类别标签对应的第二数据集中前第二目标数量个原始数据获取为该多个第一数据。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关该数据筛选方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种服务器的逻辑结构框图,该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)601和一个或一个以上的存储器602,其中,该存储器602中存储有至少一条指令,该至少一条指令由该处理器601加载并执行以实现上述各个数据筛选方法实施例提供的数据筛选方法。当然,该服务器600还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器600还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器602,上述指令可由服务器600的处理器601执行以完成上述数据筛选方法,该方法包括:采用至少一个分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,该至少一个分类模型用于对输入的数据进行分类,该分类结果包括类别标签和预测概率,该预测概率用于指示每个原始数据属于每个类别标签的可能性;基于每个原始数据的分类结果对该多个原始数据进行筛选,得到多个第一数据,该多个第一数据为预测概率符合预设条件的原始数据;根据该多个第一数据的类别标签,对该多个第一数据进行筛选,得到至少一个第二数据。可选地,上述指令还可以由服务器600的处理器601执行以完成上述示例性实施例中所涉及的其他步骤。例如,该非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种应用程序,包括一条或多条指令,该一条或多条指令可以由服务器600的处理器601执行,以完成上述数据筛选方法,该方法包括:采用至少一个分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,该至少一个分类模型用于对输入的数据进行分类,该分类结果包括类别标签和预测概率,该预测概率用于指示每个原始数据属于每个类别标签的可能性;基于每个原始数据的分类结果对该多个原始数据进行筛选,得到多个第一数据,该多个第一数据为预测概率符合预设条件的原始数据;根据该多个第一数据的类别标签,对该多个第一数据进行筛选,得到至少一个第二数据。可选地,上述指令还可以由服务器600的处理器601执行以完成上述示例性实施例中所涉及的其他步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种数据筛选方法,其特征在于,所述方法包括:
采用至少一个分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,所述至少一个分类模型用于对输入的数据进行分类,所述分类结果包括类别标签和预测概率,所述预测概率用于指示每个原始数据属于每个类别标签的可能性;
基于所述每个原始数据的分类结果对所述多个原始数据进行筛选,得到多个第一数据,所述多个第一数据为预测概率符合预设条件的原始数据;
根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵;
按照信息熵的数值从小到大的顺序,提取所述多个第一数据中属于同一个类别标签的第一数据,得到各个类别标签对应的第一数据集;
将所述各个类别标签对应的第一数据集中前第一目标数量个第一数据获取为至少一个第二数据。
2.根据权利要求1所述的数据筛选方法,其特征在于,所述根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵包括:
对任一个第一数据,将所述第一数据的至少一个类别标签的集合获取为预测向量,所述预测向量用于指示每个分类模型对所述第一数据进行预测的类别标签;
将所述预测向量中各个类别标签的出现概率的集合获取为概率向量;
将所述概率向量的信息熵获取为所述第一数据的信息熵。
3.根据权利要求1所述的数据筛选方法,其特征在于,所述根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵包括:
对每个第一数据,获取所述第一数据的至少一个类别标签中各个类别标签的出现频次;
根据所述各个类别标签的出现频次,获取所述各个类别标签的出现频率,所述出现频率为所述出现频次除以所述至少一个类别标签的数量所得到的数值;
将所述各个类别标签的出现频率的信息熵获取为所述第一数据的信息熵。
4.根据权利要求1所述的数据筛选方法,其特征在于,所述基于所述每个原始数据的分类结果对所述多个原始数据进行筛选,得到多个第一数据包括:
按照预测概率的数值从大到小的顺序,提取所述多个原始数据中属于同一个类别标签的原始数据,得到各个类别标签对应的第二数据集;
将所述各个类别标签对应的第二数据集中前第二目标数量个原始数据获取为所述多个第一数据。
5.根据权利要求1所述的数据筛选方法,其特征在于,所述基于所述每个原始数据的分类结果对所述多个原始数据进行筛选,得到多个第一数据包括:
提取所述多个原始数据中属于同一个类别标签的原始数据,得到各个类别标签对应的第二数据集;
按照预测概率的数值从大到小的顺序,将所述各个类别标签对应的第二数据集中前第二目标数量个原始数据获取为所述多个第一数据。
6.一种数据筛选装置,其特征在于,所述装置包括:
分类单元,被配置为执行采用至少一个分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,所述至少一个分类模型用于对输入的数据进行分类,所述分类结果包括类别标签和预测概率,所述预测概率用于指示每个原始数据属于每个类别标签的可能性;
第一筛选单元,被配置为执行基于所述每个原始数据的分类结果对所述多个原始数据进行筛选,得到多个第一数据,所述多个第一数据为预测概率符合预设条件的原始数据;
第二筛选单元,包括第一获取子单元、提取子单元和第二获取子单元;
所述第一获取子单元,被配置为执行根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵;
所述提取子单元,被配置为执行按照信息熵的数值从小到大的顺序,提取所述多个第一数据中属于同一个类别标签的第一数据,得到各个类别标签对应的第一数据集;
所述第二获取子单元,被配置为执行将所述各个类别标签对应的第一数据集中前第一目标数量个第一数据获取为至少一个第二数据。
7.根据权利要求6所述的数据筛选装置,其特征在于,所述第一获取子单元还被配置为执行:
对任一个第一数据,将所述第一数据的至少一个类别标签的集合获取为预测向量,所述预测向量用于指示每个分类模型对所述第一数据进行预测的类别标签;
将所述预测向量中各个类别标签的出现概率的集合获取为概率向量;
将所述概率向量的信息熵获取为所述第一数据的信息熵。
8.根据权利要求6所述的数据筛选装置,其特征在于,所述第一获取子单元还被配置为执行:
对每个第一数据,获取所述第一数据的至少一个类别标签中各个类别标签的出现频次;
根据所述各个类别标签的出现频次,获取所述各个类别标签的出现频率,所述出现频率为所述出现频次除以所述至少一个类别标签的数量所得到的数值;
将所述各个类别标签的出现频率的信息熵获取为所述第一数据的信息熵。
9.根据权利要求6所述的数据筛选装置,其特征在于,所述第一筛选单元还被配置为执行:
按照预测概率的数值从大到小的顺序,提取所述多个原始数据中属于同一个类别标签的原始数据,得到各个类别标签对应的第二数据集;
将所述各个类别标签对应的第二数据集中前第二目标数量个原始数据获取为所述多个第一数据。
10.根据权利要求6所述的数据筛选装置,其特征在于,所述第一筛选单元还被配置为执行:
提取所述多个原始数据中属于同一个类别标签的原始数据,得到各个类别标签对应的第二数据集;
按照预测概率的数值从大到小的顺序,将所述各个类别标签对应的第二数据集中前第二目标数量个原始数据获取为所述多个第一数据。
11.一种服务器,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行指令以实现如权利要求1至权利要求5任一项所述的数据筛选方法所执行的操作。
12.一种非临时性计算机可读存储介质,当所述存储介质中存储的指令由服务器的处理器执行时,使得服务器能够实现如权利要求1至权利要求5任一项所述的数据筛选方法所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811489992.3A CN109598307B (zh) | 2018-12-06 | 2018-12-06 | 数据筛选方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811489992.3A CN109598307B (zh) | 2018-12-06 | 2018-12-06 | 数据筛选方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109598307A CN109598307A (zh) | 2019-04-09 |
CN109598307B true CN109598307B (zh) | 2020-11-27 |
Family
ID=65961470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811489992.3A Active CN109598307B (zh) | 2018-12-06 | 2018-12-06 | 数据筛选方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109598307B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263803A (zh) * | 2019-04-22 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 样本数据的处理方法、装置、服务器和存储介质 |
CN110543862B (zh) * | 2019-09-05 | 2022-04-22 | 北京达佳互联信息技术有限公司 | 数据获取方法、装置及存储介质 |
CN110659208A (zh) * | 2019-09-17 | 2020-01-07 | 北京声智科技有限公司 | 测试数据集的更新方法和装置 |
CN111078984B (zh) * | 2019-11-05 | 2024-02-06 | 深圳奇迹智慧网络有限公司 | 网络模型发布方法、装置、计算机设备和存储介质 |
CN113505273B (zh) * | 2021-05-24 | 2023-08-22 | 平安银行股份有限公司 | 基于重复数据筛选的数据排序方法、装置、设备及介质 |
CN113407457B (zh) * | 2021-07-08 | 2023-11-07 | 软子数字软件(广州)有限公司 | 多数据类型参数化定义及程序引用处理方法和*** |
CN117371533B (zh) * | 2023-11-01 | 2024-05-24 | 深圳市马博士网络科技有限公司 | 一种生成数据标签规则的方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488656B (zh) * | 2012-06-14 | 2018-11-13 | 深圳市世纪光速信息技术有限公司 | 一种数据处理方法及装置 |
JP6277818B2 (ja) * | 2014-03-26 | 2018-02-14 | 日本電気株式会社 | 機械学習装置、機械学習方法、及びプログラム |
CN106960219B (zh) * | 2017-03-10 | 2021-04-16 | 百度在线网络技术(北京)有限公司 | 图片识别方法及装置、计算机设备及计算机可读介质 |
CN108595497B (zh) * | 2018-03-16 | 2019-09-27 | 北京达佳互联信息技术有限公司 | 数据筛选方法、装置及终端 |
-
2018
- 2018-12-06 CN CN201811489992.3A patent/CN109598307B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109598307A (zh) | 2019-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109598307B (zh) | 数据筛选方法、装置、服务器及存储介质 | |
CN106651057B (zh) | 一种基于安装包序列表的移动端用户年龄预测方法 | |
CN108804512B (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
CN112889042A (zh) | 机器学习中超参数的识别与应用 | |
CN110516074B (zh) | 一种基于深度学习的网站主题分类方法及装置 | |
CN108519971B (zh) | 一种基于平行语料库的跨语种新闻主题相似性对比方法 | |
CN107545038B (zh) | 一种文本分类方法与设备 | |
US20210303967A1 (en) | Neural architecture search with weight sharing | |
CN110135505B (zh) | 图像分类方法、装置、计算机设备及计算机可读存储介质 | |
CN111914159B (zh) | 一种信息推荐方法及终端 | |
CN108846695A (zh) | 终端更换周期的预测方法及装置 | |
CN110990563A (zh) | 一种基于人工智能的传统文化素材库构建方法及*** | |
CN110647995A (zh) | 规则训练方法、装置、设备及存储介质 | |
WO2020210947A1 (en) | Using machine learning to assign developers to software defects | |
CN110457471A (zh) | 基于A-BiLSTM神经网络的文本分类方法和装置 | |
CN112232933A (zh) | 房源信息的推荐方法、装置、设备及可读存储介质 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN116797195A (zh) | 工单处理方法、装置、计算机设备和计算机可读存储介质 | |
CN112528624B (zh) | 文本处理方法、装置、搜索方法以及处理器 | |
CN104899310B (zh) | 信息排序方法、用于生成信息排序模型的方法及装置 | |
CN109657710B (zh) | 数据筛选方法、装置、服务器及存储介质 | |
CN114238764A (zh) | 基于循环神经网络的课程推荐方法、装置及设备 | |
CN113704623A (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN117520800A (zh) | 一种营养学文献模型训练方法、***、电子设备及介质 | |
CN110852064B (zh) | 关键句提取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |