CN109657710B - 数据筛选方法、装置、服务器及存储介质 - Google Patents

数据筛选方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN109657710B
CN109657710B CN201811489982.XA CN201811489982A CN109657710B CN 109657710 B CN109657710 B CN 109657710B CN 201811489982 A CN201811489982 A CN 201811489982A CN 109657710 B CN109657710 B CN 109657710B
Authority
CN
China
Prior art keywords
original data
word vector
word
data
category label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811489982.XA
Other languages
English (en)
Other versions
CN109657710A (zh
Inventor
张志伟
吴丽军
李铅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN201811489982.XA priority Critical patent/CN109657710B/zh
Publication of CN109657710A publication Critical patent/CN109657710A/zh
Application granted granted Critical
Publication of CN109657710B publication Critical patent/CN109657710B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开是关于一种数据筛选方法、装置、服务器及存储介质,属于互联网领域。该方法包括:采用分类模型对多个原始数据进行分类,得到每个原始数据的分类结果;基于分词工具和词向量模型,获取各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量;基于所述各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量,从所述多个原始数据中,确定目标数据。通过引入分词工具和词向量模型,使得原始数据中的文本信息能够以计算机可处理的向量形式表示,降低了人工标注带来的成本,增大了海量的原始数据的利用率。

Description

数据筛选方法、装置、服务器及存储介质
技术领域
本公开涉及互联网领域,尤其涉及一种数据筛选方法、装置、服务器及存储介质。
背景技术
相关技术中,深度学习在自然语言处理、文本翻译等领域得到广泛应用,其中,深度学习模型的准确度依赖于训练数据的规模,为获取训练数据,需要对来自于互联网的原始数据进行筛选。
以图像分类为例,在对深度模型进行训练时,首先需要通过对原始数据进行人工标注,以获取足够多的标注数据,再从标注数据中筛选出训练数据,由于需要多个标签的多组训练数据,其中每个标签的训练数据量都需要达到“千”量级,才能够实现模型训练。
然而,在上述过程中,为得到“千”量级的训练数据,对每个训练数据而言,需要准备10-20个的标注数据,使得对数据标注投入的人力成本很大,并且由于人力资源有限,无法对尽可能多的数据进行人工标注,使得对海量的来自于互联网的原始数据利用不充分。
发明内容
本公开提供一种数据筛选方法、装置、服务器及存储介质,能够克服数据标注投入的人力成本大,对数据利用不充分的问题。
根据本公开实施例的第一方面,提供一种数据筛选方法,该方法包括:
采用分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,每个原始数据包括文本信息和图像信息,该分类模型用于对图像信息进行分类,该分类结果包括至少一个类别标签;
基于分词工具和词向量模型,获取各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量;
基于该各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量,从该多个原始数据中,确定目标数据,该目标数据的文本信息的第二词向量与类别标签的第一词向量之间符合第一预设条件。
在一种可能实施方式中,基于分词工具和词向量模型,获取各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量包括:
对每个原始数据,采用该分词工具,提取该原始数据的文本信息中的至少一个词语;
将每个类别标签和该至少一个词语输入该词向量模型,输出该第一词向量和该至少一个词语的词向量;
将该至少一个词语的词向量的平均向量获取为该第二词向量。
在一种可能实施方式中,基于该各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量,从该多个原始数据中,确定目标数据包括:
对每个原始数据,获取该原始数据的第二词向量与该原始数据对应的各个类别标签的第一词向量的余弦距离;
将小于预设数值的余弦距离所对应的原始数据,确定为该目标数据。
在一种可能实施方式中,该分类结果还包括至少一个预测概率,每个预测概率用于指示一个原始数据属于一个类别标签的可能性。
在一种可能实施方式中,采用分类模型对多个原始数据进行分类,得到每个原始数据的分类结果包括:
对每个原始数据,将该原始数据输入该分类模型,输出该原始数据属于每个类别标签的预测概率,每个预测概率对应于一个类别标签;
将符合第二预设条件的预测概率所对应的类别标签,获取为该原始数据的至少一个类别标签。
在一种可能实施方式中,将符合第二预设条件的预测概率所对应的类别标签,获取为该原始数据的至少一个类别标签包括:
当该预测概率中的最大值大于概率阈值时,将大于概率阈值的预测概率所对应的类别标签,获取为该原始数据的至少一个类别标签;或,
当该预测概率中的最大值小于等于概率阈值时,将该预测概率中的最大值所对应的类别标签,获取为该原始数据的类别标签。
根据本公开实施例的第二方面,提供一种数据筛选装置,该装置包括:
分类单元,被配置为执行采用分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,每个原始数据包括文本信息和图像信息,该分类模型用于对图像信息进行分类,该分类结果包括至少一个类别标签;
获取单元,被配置为执行基于分词工具和词向量模型,获取各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量;
确定单元,被配置为执行基于该各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量,从该多个原始数据中,确定目标数据,该目标数据的文本信息的第二词向量与类别标签的第一词向量之间符合第一预设条件。
在一种可能实施方式中,该获取单元还被配置为执行:
对每个原始数据,采用该分词工具,提取该原始数据的文本信息中的至少一个词语;
将每个类别标签和该至少一个词语输入该词向量模型,输出该第一词向量和该至少一个词语的词向量;
将该至少一个词语的词向量的平均向量获取为该第二词向量。
在一种可能实施方式中,该确定单元还被配置为执行:
对每个原始数据,获取该原始数据的第二词向量与该原始数据对应的各个类别标签的第一词向量的余弦距离;
将小于预设数值的余弦距离所对应的原始数据,确定为该目标数据。
在一种可能实施方式中,该分类结果还包括至少一个预测概率,每个预测概率用于指示一个原始数据属于一个类别标签的可能性。
在一种可能实施方式中,该分类单元包括:
输出子单元,被配置为执行对每个原始数据,将该原始数据输入该分类模型,输出该原始数据属于每个类别标签的预测概率,每个预测概率对应于一个类别标签;
获取子单元,被配置为执行将符合第二预设条件的预测概率所对应的类别标签,获取为该原始数据的至少一个类别标签。
在一种可能实施方式中,该获取子单元还被配置为执行:
当该预测概率中的最大值大于概率阈值时,将大于概率阈值的预测概率所对应的类别标签,获取为该原始数据的至少一个类别标签;或,
当该预测概率中的最大值小于等于概率阈值时,将该预测概率中的最大值所对应的类别标签,获取为该原始数据的类别标签。
根据本公开实施例的第三方面,提供一种服务器,该服务器包括:
处理器;
用于存储该处理器可执行指令的存储器;
其中,该处理器被配置为:
采用分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,每个原始数据包括文本信息和图像信息,该分类模型用于对图像信息进行分类,该分类结果包括至少一个类别标签;
基于分词工具和词向量模型,获取各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量;
基于该各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量,从该多个原始数据中,确定目标数据,该目标数据的文本信息的第二词向量与类别标签的第一词向量之间符合第一预设条件。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当该存储介质中的指令由服务器的处理器执行时,使得服务器能够执行一种数据筛选方法,该方法包括:
采用分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,每个原始数据包括文本信息和图像信息,该分类模型用于对图像信息进行分类,该分类结果包括至少一个类别标签;
基于分词工具和词向量模型,获取各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量;
基于该各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量,从该多个原始数据中,确定目标数据,该目标数据的文本信息的第二词向量与类别标签的第一词向量之间符合第一预设条件。
根据本公开实施例的第五方面,提供一种应用程序,包括一条或多条指令,该一条或多条指令可以由服务器的处理器执行时,使得服务器能够执行一种数据筛选方法,该方法包括:
采用分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,每个原始数据包括文本信息和图像信息,该分类模型用于对图像信息进行分类,该分类结果包括至少一个类别标签;
基于分词工具和词向量模型,获取各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量;
基于该各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量,从该多个原始数据中,确定目标数据,该目标数据的文本信息的第二词向量与类别标签的第一词向量之间符合第一预设条件。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过采用分类模型对原始数据进行分类,从而得到每个原始数据的分类结果,并基于基于分词工具和词向量模型,获取类别标签的第一词向量和原始数据的第二词向量,从而将符合第一预设条件的原始数据确定为目标数据,由于引入了分词工具和词向量模型,使得原始数据中的文本信息能够以计算机可处理的向量形式表示,从而降低了人工标注带来的成本,而且避免了因人力资源有限所导致的对原始数据的利用率的限制,从而增大了海量的原始数据的利用率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种数据筛选方法的流程图。
图2是根据一示例性实施例示出的一种数据筛选方法的流程图。
图3是根据一示例性实施例示出的一种数据筛选方法的示意图。
图4是根据一示例性实施例示出的一种数据筛选装置的逻辑结构框图。
图5是根据一示例性实施例示出的一种服务器的逻辑结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种数据筛选方法的流程图,如图1所示,数据筛选方法用于服务器中,包括以下步骤:
在步骤101中,服务器采用分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,每个原始数据包括文本信息和图像信息,该分类模型用于对图像信息进行分类,该分类结果包括至少一个类别标签。
在步骤102中,服务器基于分词工具和词向量模型,获取各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量。
在步骤103中,服务器基于该各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量,从该多个原始数据中,确定目标数据,该目标数据的文本信息的第二词向量与类别标签的第一词向量之间符合第一预设条件。
本公开实施例提供的方法,通过采用分类模型对原始数据进行分类,从而得到每个原始数据的分类结果,并基于基于分词工具和词向量模型,获取类别标签的第一词向量和原始数据的第二词向量,从而将符合第一预设条件的原始数据确定为目标数据,由于引入了分词工具和词向量模型,使得原始数据中的文本信息能够以计算机可处理的向量形式表示,从而降低了人工标注带来的成本,而且避免了因人力资源有限所导致的对原始数据的利用率的限制,从而增大了海量的原始数据的利用率。
在一种可能实施方式中,基于分词工具和词向量模型,获取各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量包括:
对每个原始数据,采用该分词工具,提取该原始数据的文本信息中的至少一个词语;
将每个类别标签和该至少一个词语输入该词向量模型,输出该第一词向量和该至少一个词语的词向量;
将该至少一个词语的词向量的平均向量获取为该第二词向量。
在一种可能实施方式中,基于该各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量,从该多个原始数据中,确定目标数据包括:
对每个原始数据,获取该原始数据的第二词向量与该原始数据对应的各个类别标签的第一词向量的余弦距离;
将小于预设数值的余弦距离所对应的原始数据,确定为该目标数据。
在一种可能实施方式中,该分类结果还包括至少一个预测概率,每个预测概率用于指示一个原始数据属于一个类别标签的可能性。
在一种可能实施方式中,采用分类模型对多个原始数据进行分类,得到每个原始数据的分类结果包括:
对每个原始数据,将该原始数据输入该分类模型,输出该原始数据属于每个类别标签的预测概率,每个预测概率对应于一个类别标签;
将符合第二预设条件的预测概率所对应的类别标签,获取为该原始数据的至少一个类别标签。
在一种可能实施方式中,将符合第二预设条件的预测概率所对应的类别标签,获取为该原始数据的至少一个类别标签包括:
当该预测概率中的最大值大于概率阈值时,将大于概率阈值的预测概率所对应的类别标签,获取为该原始数据的至少一个类别标签;或,
当该预测概率中的最大值小于等于概率阈值时,将该预测概率中的最大值所对应的类别标签,获取为该原始数据的类别标签。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图2是根据一示例性实施例示出的一种数据筛选方法的流程图,如图2所示,数据筛选方法用于服务器中,包括以下步骤:
在步骤201中,服务器对每个原始数据,将该原始数据输入分类模型,输出该原始数据属于每个类别标签的预测概率,每个预测概率对应于一个类别标签。
其中,每个原始数据可以包括文本信息和图像信息,该多个原始数据的数据规模可以是千万级,也可以是亿级,本公开实施例不对该多个原始数据的数据规模进行具体限定,可选地,该多个原始数据可以是从UGC(user generated content,用户原创内容)网站平台上随机获取的数据,也可以是已有的数据库中随机提取的数据,本公开实施例不对该多个原始数据的获取方式进行具体限定。
可选地,该分类模型可以通过卷积神经网络对输入模型的图像信息进行分类,通过多个卷积层得到各个原始数据的特征图,采用激活函数对该特征图进行非线性处理,再将非线性处理后的图像输入判别网络,从而输出类别标签和预测概率,其中,该激活函数可以是sigmoid函数,可以是tanh函数,也可以是ReLU函数,本公开实施例不对该激活函数的实现形式进行限定,例如,该激活函数采用sigmoid,使得能够将变量映射到(0,1)的区间,从而在特征相差大的海量的原始数据中得到准确的类别标签。
其中,该类别标签可以是以标签的形式指示输入模型的图像信息的类别,例如,该类别标签为“猫”、“狗”、“猴”或“人”等,以指示图像信息的类别;其中,该预测概率可以是以数值的方式指示属于某个类别标签的可能性大小,例如,原始数据属于类别标签“人”的预测概率可以是0.8,也即是分类模型预测该原始数据有80%的可能性是人像。
在步骤201中,图3是根据一示例性实施例示出的一种数据筛选方法的示意图,参见图3,假设该分类模型选用L个类别标签,以第i个原始数据为例,将该第i个原始数据输入该分类模型,输出该第i个原始数据属于每个类别标签的L个预测概率,其中,每个预测概率用于指示该第i个原始数据属于一个类别标签的可能性,L和i为正整数,该第i个原始数据为多个原始数据中的任一数据,对每个原始数据都可以进行上述分类过程,在此不作赘述。
在步骤202中,当该预测概率中的最大值大于概率阈值时,服务器将大于概率阈值的预测概率所对应的类别标签,获取为原始数据的至少一个类别标签。
可选地,该概率阈值可以是服务器默认的数值,也可以是按照预设规则获取的数据,基于上述示例,该预设规则可以是将L个预测概率的中位数获取为该概率阈值,或,该预设规则还可以是将L个预测概率平均数获取为该概率阈值,本公开实施例不对该概率阈值的获取方式进行具体限定。
上述步骤202中,是一种获取任一原始数据的至少一个类别标签的可能实现方式,也即是通过一个分类模型,筛选出预测概率较大以及分类准确性较高的类别标签,而在一些实施例中,该步骤202可以采取下述方式进行替换:当该预测概率中的最大值小于等于概率阈值时,服务器将该预测概率中的最大值所对应的类别标签,获取为该原始数据的类别标签,也即是,如果某个原始数据的L个预测概率全都小于等于该概率阈值,为避免该原始数据没有对应的类别标签,则获取预测概率的最大值所对应的类别标签。
因此,在步骤202中所得到的类别标签可以采用下述函数式来进行表达:
Figure BDA0001895447380000081
其中,labeli为第i个原始数据所对应的至少一个类别标签,
Figure BDA0001895447380000082
为第i个原始数据的未经过筛选的第l个类别标签,probthreshold为概率阈值。
相应的,在步骤202的替换方式中所得到的类别标签可以采用下述函数式来进行表达:
Figure BDA0001895447380000083
其中,labeli为第i个原始数据所对应的至少一个类别标签,predictioni为第i个原始数据的任一个未经筛选的类别标签,argmax()函数用于指示输入量的最大值的索引位置。
在步骤203中,服务器对每个原始数据,采用分词工具,提取该原始数据的文本信息中的至少一个词语。
其中,该分词工具用于提取对该文本信息中的词语,例如,第i个原始数据的文本信息为“我喜欢火锅”,通过分词工具对文本信息进行处理,从而可以提取出“我”、“喜欢”和“火锅”三个词语,其中,该分词工具可以是jieba等,本公开实施例不对该文本信息的内容和分词工具的实现方式进行具体限定。
在步骤204中,服务器将每个类别标签和该至少一个词语输入词向量模型,输出第一词向量和该至少一个词语的词向量。
其中,该词向量模型可以通过词嵌入(word embedding)来获取输入词语的词向量,使得以计算机可处理的向量形式来表示文本信息,例如,该词向量模型可以是中文词向量模型ChineseWord2Vector等,其中,该第一词向量为L个类别标签所对应的L个词向量,该至少一个词语为上述步骤203中,服务器根据分词工具提取每个原始数据中的文本信息所得到的词语。
在步骤205中,服务器将该至少一个词语的词向量的平均向量获取为第二词向量。
其中,第二词向量为各个原始数据中文本信息所对应的词向量,该第二词向量的表达式可以如下:
Figure BDA0001895447380000091
其中,Vectori d为第i个原始数据的维度为d的第二词向量,#Wordi为第i个原始数据的文本信息进行分词后得到的词语个数,Embedding为词向量模型,d为词向量对应的维度。
通过上述步骤204-205,可以获取每个原始数据的词向量和每个类别标签的词向量,从而能够通过下述步骤206,采用余弦距离来判断第一词向量与第二词向量之间是否符合第一预设条件,避免了人工标注耗费的劳动成本,也就避免了由于人力资源有限而对原始数据利用率造成的限制,从而增大了海量的原始数据的利用率。
在步骤206中,服务器对每个原始数据,获取该原始数据的第二词向量与该原始数据对应的各个类别标签的第一词向量的余弦距离。
在上述过程中,以第i个原始数据为例,通过步骤201-202对该第i个原始数据输出的类别标签为“猫”、“狗”和“猴”,假设类别标签“猫”的第一词向量表示为Cat_vectori,类别标签“狗”的第一词向量表示为Dog_vectori,类别标签“猴”的第一词向量表示为Monkey_vectori,而第i个原始数据的第二词向量表示为Vectori,则该第二词向量和3个类别标签所对应的第一词向量的余弦距离为:distancei=cos(Vectori,Cat_vectori)=0.9,distancei=cos(Vectori,Dog_vectori)=0.6,distancei=cos(Vectori,Monkey_vectori)=0.3。此处仅以第i个原始数据为例进行说明,实际上对于每一个原始数据,都可以进行类似步骤,从而获取该原始数据的第二词向量以及各个对应类别标签的第一词向量之间的余弦距离,在此不作赘述。
在步骤207中,服务器将小于预设数值的余弦距离所对应的原始数据,确定为目标数据。
其中,该预设数值可以是服务器默认的阈值,例如,该预设数值可以为0.5,基于上述示例,如果第二词向量与类别标签“猴”之间的余弦距离小于该预设数值,也即是,distancei=cos(Vectori,Monkey_vectori)=0.3<0.5,则视为该第i个原始数据的第二词向量与类别标签“猴”的第一词向量之间符合第一预设条件,从而将该第i个原始数据获取为目标数据,“猴”为该目标数据对应的类别标签。在上述过程中,如果某个原始数据的所有余弦距离均大于等于该预设数值,则该原始数据不会被获取为目标数据,视为分类结果预测错误,该原始数据为噪声数据。
本公开实施例提供的方法,通过采用分类模型对原始数据进行分类,从而得到每个原始数据的分类结果,并基于基于分词工具和词向量模型,获取类别标签的第一词向量和原始数据的第二词向量,从而将符合第一预设条件的原始数据确定为目标数据,由于引入了分词工具和词向量模型,使得原始数据中的文本信息能够以计算机可处理的向量形式表示,从而降低了人工标注带来的成本,而且避免了因人力资源有限所导致的对原始数据的利用率的限制,从而增大了海量的原始数据的利用率;进一步地,通过将原始数据内预测概率大于概率阈值的类别标签,获取为该原始数据的至少一个类别标签,从而过滤掉了原始数据中难以分类的噪声数据;此外,通过将文本信息中至少一个词语的词向量的平均向量获取为第一词向量,使得每个原始数据能够用一个词向量来进行描述,进而根据第一词向量和第二词向量的余弦距离来确定目标数据,使得数据筛选的更为精确。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图4是根据一示例性实施例示出的一种数据筛选装置的逻辑结构框图。参照图4,该装置包括分类单元401,获取单元402和确定单元403:
分类单元401,被配置为执行采用分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,每个原始数据包括文本信息和图像信息,该分类模型用于对图像信息进行分类,该分类结果包括至少一个类别标签;
获取单元402,被配置为执行基于分词工具和词向量模型,获取各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量;
确定单元403,被配置为执行基于该各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量,从该多个原始数据中,确定目标数据,该目标数据的文本信息的第二词向量与类别标签的第一词向量之间符合第一预设条件。
本公开实施例提供的装置,通过采用分类模型对原始数据进行分类,从而得到每个原始数据的分类结果,并基于基于分词工具和词向量模型,获取类别标签的第一词向量和原始数据的第二词向量,从而将符合第一预设条件的原始数据确定为目标数据,由于引入了分词工具和词向量模型,使得原始数据中的文本信息能够以计算机可处理的向量形式表示,从而降低了人工标注带来的成本,而且避免了因人力资源有限所导致的对原始数据的利用率的限制,从而增大了海量的原始数据的利用率。
在一种可能实施方式中,该获取单元402还被配置为执行:
对每个原始数据,采用该分词工具,提取该原始数据的文本信息中的至少一个词语;
将每个类别标签和该至少一个词语输入该词向量模型,输出该第一词向量和该至少一个词语的词向量;
将该至少一个词语的词向量的平均向量获取为该第二词向量。
在一种可能实施方式中,该确定单元403还被配置为执行:
对每个原始数据,获取该原始数据的第二词向量与该原始数据对应的各个类别标签的第一词向量的余弦距离;
将小于预设数值的余弦距离所对应的原始数据,确定为该目标数据。
在一种可能实施方式中,该分类结果还包括至少一个预测概率,每个预测概率用于指示一个原始数据属于一个类别标签的可能性。
在一种可能实施方式中,基于图4的装置组成,该分类单元401包括:
输出子单元,被配置为执行对每个原始数据,将该原始数据输入该分类模型,输出该原始数据属于每个类别标签的预测概率,每个预测概率对应于一个类别标签;
获取子单元,被配置为执行将符合第二预设条件的预测概率所对应的类别标签,获取为该原始数据的至少一个类别标签。
在一种可能实施方式中,该获取子单元还被配置为执行:
当该预测概率中的最大值大于概率阈值时,将大于概率阈值的预测概率所对应的类别标签,获取为该原始数据的至少一个类别标签;或,
当该预测概率中的最大值小于等于概率阈值时,将该预测概率中的最大值所对应的类别标签,获取为该原始数据的类别标签。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种服务器的逻辑结构框图,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)501和一个或一个以上的存储器502,其中,该存储器502中存储有至少一条指令,该至少一条指令由该处理器501加载并执行以实现上述各个方法实施例提供的数据筛选方法。当然,该服务器500还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器500还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器502,上述指令可由服务器500的处理器501执行以完成上述数据筛选方法,该方法包括:采用分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,每个原始数据包括文本信息和图像信息,该分类模型用于对图像信息进行分类,该分类结果包括至少一个类别标签;基于分词工具和词向量模型,获取各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量;基于该各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量,从该多个原始数据中,确定目标数据,该目标数据的文本信息的第二词向量与类别标签的第一词向量之间符合第一预设条件。可选地,上述指令还可以由服务器500的处理器501执行以完成上述示例性实施例中所涉及的其他步骤。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种应用程序,包括一条或多条指令,该一条或多条指令可以由服务器500的处理器501执行,以完成上述数据筛选方法,该方法包括:采用分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,每个原始数据包括文本信息和图像信息,该分类模型用于对图像信息进行分类,该分类结果包括至少一个类别标签;基于分词工具和词向量模型,获取各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量;基于该各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量,从该多个原始数据中,确定目标数据,该目标数据的文本信息的第二词向量与类别标签的第一词向量之间符合第一预设条件。可选地,上述指令还可以由服务器500的处理器501执行以完成上述示例性实施例中所涉及的其他步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (8)

1.一种数据筛选方法,其特征在于,所述方法包括:
采用分类模型对多个原始数据中的图像信息进行分类,得到每个原始数据的分类结果,所述每个原始数据包括文本信息和图像信息,所述分类模型用于对图像信息进行分类,所述分类结果包括至少一个类别标签;
基于分词工具和词向量模型,获取各个类别标签的第一词向量和所述每个原始数据中文本信息的第二词向量;
基于所述各个类别标签的第一词向量和所述每个原始数据中文本信息的第二词向量,从所述多个原始数据中,确定目标数据,所述目标数据的文本信息的第二词向量与类别标签的第一词向量之间符合第一预设条件;
所述采用分类模型对多个原始数据中的图像信息进行分类,得到每个原始数据的分类结果包括:
对于所述每个原始数据,将所述原始数据中的图像信息输入所述分类模型,输出所述图像信息属于每个类别标签的预测概率,每个预测概率对应一个类别标签,用于指示所述图像信息属于所述类别标签的可能性;
当所述预测概率中的最大值小于等于概率阈值时,将所述预测概率中的最大值所对应的类别标签,获取为所述图像信息的类别标签;
所述基于所述各个类别标签的第一词向量和所述每个原始数据中文本信息的第二词向量,从所述多个原始数据中,确定目标数据包括:
对所述每个原始数据,获取所述原始数据中文本信息的第二词向量与所述原始数据中图像信息对应的各个类别标签的第一词向量的余弦距离;
将小于预设数值的余弦距离所对应的原始数据,确定为所述目标数据。
2.根据权利要求1所述的数据筛选方法,其特征在于,所述基于分词工具和词向量模型,获取各个类别标签的第一词向量和所述每个原始数据中文本信息的第二词向量包括:
对所述每个原始数据,采用所述分词工具,提取所述原始数据的文本信息中的至少一个词语;
将所述每个类别标签和所述至少一个词语输入所述词向量模型,输出所述第一词向量和所述至少一个词语的词向量;
将所述至少一个词语的词向量的平均向量获取为所述第二词向量。
3.根据权利要求1所述的数据筛选方法,其特征在于,所述采用分类模型对多个原始数据中的图像信息进行分类,得到所述每个原始数据的分类结果,还包括:
当所述预测概率中的最大值大于所述概率阈值时,将大于所述概率阈值的预测概率所对应的类别标签,获取为所述原始数据中图像信息的至少一个类别标签。
4.一种数据筛选装置,其特征在于,所述装置包括:
分类单元,被配置为执行采用分类模型对多个原始数据中的图像信息进行分类,得到每个原始数据的分类结果,所述每个原始数据包括文本信息和图像信息,所述分类模型用于对图像信息进行分类,所述分类结果包括至少一个类别标签;
获取单元,被配置为执行基于分词工具和词向量模型,获取各个类别标签的第一词向量和所述每个原始数据中文本信息的第二词向量;
确定单元,被配置为执行基于所述各个类别标签的第一词向量和所述每个原始数据中文本信息的第二词向量,从所述多个原始数据中,确定目标数据,所述目标数据的文本信息的第二词向量与类别标签的第一词向量之间符合第一预设条件;
所述分类单元,包括:
输出子单元,被配置为执行对于所述每个原始数据,将所述原始数据中的图像信息输入所述分类模型,输出所述图像信息属于每个类别标签的预测概率,每个预测概率对应一个类别标签,用于指示所述图像信息属于所述类别标签的可能性;
获取子单元,被配置为执行当所述预测概率中的最大值小于等于概率阈值时,将所述预测概率中的最大值所对应的类别标签,获取为所述图像信息的类别标签;
所述确定单元还被配置为执行:
对所述每个原始数据,获取所述原始数据中文本信息的第二词向量与所述原始数据中图像信息对应的各个类别标签的第一词向量的余弦距离;
将小于预设数值的余弦距离所对应的原始数据,确定为所述目标数据。
5.根据权利要求4所述的数据筛选装置,其特征在于,所述获取单元还被配置为执行:
对所述每个原始数据,采用所述分词工具,提取所述原始数据的文本信息中的至少一个词语;
将所述每个类别标签和所述至少一个词语输入所述词向量模型,输出所述第一词向量和所述至少一个词语的词向量;
将所述至少一个词语的词向量的平均向量获取为所述第二词向量。
6.根据权利要求4所述的数据筛选装置,其特征在于,所述获取子单元还被配置为执行:
当所述预测概率中的最大值大于所述概率阈值时,将大于所述概率阈值的预测概率所对应的类别标签,获取为所述原始数据中图像信息的至少一个类别标签。
7.一种服务器,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行以实现如权利要求1至权利要求3任一项所述的数据筛选方法所执行的操作。
8.一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行一种以实现如权利要求1至权利要求3任一项所述的数据筛选方法所执行的操作。
CN201811489982.XA 2018-12-06 2018-12-06 数据筛选方法、装置、服务器及存储介质 Active CN109657710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811489982.XA CN109657710B (zh) 2018-12-06 2018-12-06 数据筛选方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811489982.XA CN109657710B (zh) 2018-12-06 2018-12-06 数据筛选方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN109657710A CN109657710A (zh) 2019-04-19
CN109657710B true CN109657710B (zh) 2022-01-21

Family

ID=66112715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811489982.XA Active CN109657710B (zh) 2018-12-06 2018-12-06 数据筛选方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN109657710B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543920B (zh) * 2019-09-12 2022-04-22 北京达佳互联信息技术有限公司 图像识别模型的性能检测方法、装置、服务器及存储介质
CN113159921A (zh) * 2021-04-23 2021-07-23 上海晓途网络科技有限公司 一种逾期预测方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528588A (zh) * 2016-09-14 2017-03-22 厦门幻世网络科技有限公司 一种为文本信息匹配资源的方法及装置
CN106971154A (zh) * 2017-03-16 2017-07-21 天津大学 基于长短记忆型递归神经网络的行人属性预测方法
CN107391703A (zh) * 2017-07-28 2017-11-24 北京理工大学 图像库的建立方法及***、图像库和图像分类方法
CN108595497A (zh) * 2018-03-16 2018-09-28 北京达佳互联信息技术有限公司 数据筛选方法、装置及终端
CN108763325A (zh) * 2018-05-04 2018-11-06 北京达佳互联信息技术有限公司 一种网络对象处理方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9342991B2 (en) * 2013-03-14 2016-05-17 Canon Kabushiki Kaisha Systems and methods for generating a high-level visual vocabulary
US9652688B2 (en) * 2014-11-26 2017-05-16 Captricity, Inc. Analyzing content of digital images
CN105279517A (zh) * 2015-09-30 2016-01-27 西安电子科技大学 基于半监督关系主题模型的弱标签社交图像识别方法
CN106021364B (zh) * 2016-05-10 2017-12-12 百度在线网络技术(北京)有限公司 图片搜索相关性预测模型的建立、图片搜索方法和装置
CN106529606A (zh) * 2016-12-01 2017-03-22 中译语通科技(北京)有限公司 一种提升图像识别准确率的方法
CN108537240A (zh) * 2017-03-01 2018-09-14 华东师范大学 基于领域本体的商品图像语义标注方法
CN107563444A (zh) * 2017-09-05 2018-01-09 浙江大学 一种零样本图像分类方法及***
CN108197109B (zh) * 2017-12-29 2021-04-23 北京百分点科技集团股份有限公司 一种基于自然语言处理的多语言分析方法和装置
CN108319672B (zh) * 2018-01-25 2023-04-18 南京邮电大学 基于云计算的移动终端不良信息过滤方法及***
CN108664989B (zh) * 2018-03-27 2019-11-01 北京达佳互联信息技术有限公司 图像标签确定方法、装置及终端
CN108629043B (zh) * 2018-05-14 2023-05-12 平安科技(深圳)有限公司 网页目标信息的提取方法、装置及存储介质
CN108734212B (zh) * 2018-05-17 2024-06-04 腾讯科技(北京)有限公司 一种确定分类结果的方法以及相关装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528588A (zh) * 2016-09-14 2017-03-22 厦门幻世网络科技有限公司 一种为文本信息匹配资源的方法及装置
CN106971154A (zh) * 2017-03-16 2017-07-21 天津大学 基于长短记忆型递归神经网络的行人属性预测方法
CN107391703A (zh) * 2017-07-28 2017-11-24 北京理工大学 图像库的建立方法及***、图像库和图像分类方法
CN108595497A (zh) * 2018-03-16 2018-09-28 北京达佳互联信息技术有限公司 数据筛选方法、装置及终端
CN108763325A (zh) * 2018-05-04 2018-11-06 北京达佳互联信息技术有限公司 一种网络对象处理方法及装置

Also Published As

Publication number Publication date
CN109657710A (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
CN109934293B (zh) 图像识别方法、装置、介质及混淆感知卷积神经网络
CN109598307B (zh) 数据筛选方法、装置、服务器及存储介质
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN110490081B (zh) 一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法
CN110135505B (zh) 图像分类方法、装置、计算机设备及计算机可读存储介质
CN108959474B (zh) 实体关系提取方法
CN109522970B (zh) 图像分类方法、装置及***
CN111160959B (zh) 一种用户点击转化预估方法及装置
CN110377733B (zh) 一种基于文本的情绪识别方法、终端设备及介质
CN112446441B (zh) 模型训练数据筛选方法、装置、设备及存储介质
CN110929640B (zh) 一种基于目标检测的宽幅遥感描述生成方法
WO2022042297A1 (zh) 文本聚类方法、装置、电子设备及存储介质
CN113627151B (zh) 跨模态数据的匹配方法、装置、设备及介质
CN113312899B (zh) 文本分类方法、装置和电子设备
CN112182269B (zh) 图像分类模型的训练、图像分类方法、装置、设备及介质
CN111401343B (zh) 识别图像中人的属性的方法、识别模型的训练方法和装置
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
CN113011532A (zh) 分类模型训练方法、装置、计算设备及存储介质
CN113762005B (zh) 特征选择模型的训练、对象分类方法、装置、设备及介质
WO2019218482A1 (zh) 基于大数据的人群筛选方法、装置、终端设备及可读存储介质
CN114266252A (zh) 命名实体识别方法、装置、设备及存储介质
CN111967383A (zh) 年龄估计方法、年龄估计模型的训练方法和装置
CN110008972B (zh) 用于数据增强的方法和装置
CN109033078B (zh) 语句类别识别方法及装置、存储介质、处理器
CN116229180A (zh) 一种基于对称kld的处理多类型标签噪声的自适应动态阈值方法、***、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant