CN110196910A - 一种语料分类的方法及装置 - Google Patents

一种语料分类的方法及装置 Download PDF

Info

Publication number
CN110196910A
CN110196910A CN201910468030.8A CN201910468030A CN110196910A CN 110196910 A CN110196910 A CN 110196910A CN 201910468030 A CN201910468030 A CN 201910468030A CN 110196910 A CN110196910 A CN 110196910A
Authority
CN
China
Prior art keywords
vector
candidate
translation
corpus
feature words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910468030.8A
Other languages
English (en)
Other versions
CN110196910B (zh
Inventor
孙健
周桐
李涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Apas Technology Co ltd
Original Assignee
Zhuhai Tianyan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Tianyan Technology Co Ltd filed Critical Zhuhai Tianyan Technology Co Ltd
Priority to CN201910468030.8A priority Critical patent/CN110196910B/zh
Publication of CN110196910A publication Critical patent/CN110196910A/zh
Application granted granted Critical
Publication of CN110196910B publication Critical patent/CN110196910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种语料分类的方法及装置,属于数据分析领域。其中方法部分包括:从各既定类别的文本语料中分别进行提取,得到所述文本语料对应的特征词;将所述特征词分别按目标语种进行翻译,根据所得的译文和所述特征词各自对应的向量特征组成各既定类别对应的译文向量;提取候选语料中对应的候选词组成候选向量,分别与各既定类别对应的译文向量进行匹配,根据所得的匹配度确定所述候选语料所属的目标类别。本申请通过对已知语种的文本语料中的关键词进行分析,经翻译后与未知语种的候选语料进行匹配,从而预测出未知语料所属的类别,在没有对应语种的翻译人员的情况下也可以进行语料的分类,提高了信息处理的效率。

Description

一种语料分类的方法及装置
技术领域
本申请涉及数据处理领域,尤其涉及对未知语种的语料进行分类的方法及装置。
背景技术
随着互联网中信息数量的***式增长,信息的传递已经扩展在多个国家的媒介中进行传播。网络数据中的绝大部分都是以文本形式存在的,如何利用自然语言处理技术对这些文本信息进行分类,使得用户能够更准确,快速的查找到有用信息,成为人工智能领域的一个重要研究问题。目前对网页、新闻等语料进行分类时,主要是通过机器学习模型进行分类,在线上对网页进行分类时,根据构建的各类别的人工标注的样本不断进行训练,得到分类模型后再对候选语料进行分类。
但在多语种环境下,就需要建立不同语种的样本,则需要针对每个语种分别人工标注,并分别构建每个语种下的训练规则。如果目标语种较多,那么构建成本会很高,大大降低了信息处理的效率。
发明内容
本申请实施例的目的是提供一种语料分类的方法及装置,以实现对多语种环境下对语料进行分类的需求。
为解决上述技术问题,本申请实施例是这样实现的:
根据本申请实施例的第一方面,提供一种语料分类的方法,所述方法包括:
从各既定类别的文本语料中分别进行提取,得到所述文本语料对应的特征词;
将所述特征词分别按目标语种进行翻译,根据所得的译文和所述特征词各自对应的向量特征组成各既定类别对应的译文向量;所述译文向量用于描述所述目标语种中每个既定类别下的所述特征词对应的特征属性;
提取候选语料中对应的候选词组成候选向量,将所述候选向量分别与各既定类别对应的译文向量进行匹配,得到所述候选向量与每个既定类别的译文向量对应的匹配度;
根据所述匹配度确定所述候选语料所属的目标类别。
本申请一实施例中,所述方法还包括:
提取所述译文向量中各特征词分别对应的权重概率;
以所述特征词对应的向量特征为样本特征进行迭代训练,得到所述语种模型;
将所述语种模型作为各既定类别对应的译文向量与所述候选向量分别进行匹配。
本申请一实施例中,所述从各既定类别的文本语料中分别进行提取时,
对所述文本语料进行分词,统计分词后所得的关键词;
查找所述关键词分别对应的近义词或关联词,统计所述关键词对应的向量特征;
根据所述向量特征分别设定所述关键词各自对应的权重,根据所述权重进行筛选,得到所述文本语料对应的特征词。
本申请一实施例中,所述组成各既定类别对应的译文向量时,
将所述特征词对应的向量特征进行提取,得到所述译文对应的向量特征,将所述译文连同所述特征词进行关联组合后,形成所述译文向量。
本申请一实施例中,所述组成各既定类别对应的译文向量时,
当所述特征词在所述目标语种下对应的译文大于一种时,将每种译文分别与所述特征词进行关联组合,并均分所述特征词对应的向量特征中的权重,将每种译文分别与所述特征词进行关联组合,形成多组对应的译文向量。
本申请一实施例中,所述提取候选语料中对应的候选词组成候选向量时,
对所述候选语料进行分析,分别提取其中的候选词,
分别提取所述候选词对应的特征属性及所述特征属性各自对应的权重,分别得到各候选词对应的各自对应的向量特征;
将所述候选词对应的向量特征进行拟合,组成所述候选语料对应的候选向量。
本申请一实施例中,所述将所述候选向量分别与各既定类别对应的译文向量进行匹配时,
提取所述候选向量中所述候选词对应的向量特征;
将所述候选词对应的向量特征分别与每个译文向量对应的向量特征进行匹配;
根据所得的匹配度筛选出大于既定阈值的既定类别;
将所述大于既定阈值的既定类别作为所述候选语料所属的目标类别。
根据本申请实施例的第二方面,提供一种语料分类的装置,所述装置包括:
提取模块,用于从各既定类别的文本语料中分别进行提取,得到所述文本语料对应的特征词;
翻译模块,用于将所述特征词分别按目标语种进行翻译,根据所得的译文和所述特征词各自对应的向量特征组成各既定类别对应的译文向量;所述译文向量用于描述所述目标语种中每个既定类别下的所述特征词对应的特征属性;
匹配模块,用于提取候选语料中对应的候选词组成候选向量,将所述候选向量分别与各既定类别对应的译文向量进行匹配,得到所述候选向量与每个既定类别的译文向量对应的匹配度;
划分模块,用于根据所述匹配度确定所述候选语料所属的目标类别。
本申请一实施例中,所述装置还包括,模型单元,具体包括:
提取单元,用于提取所述译文向量中各特征词分别对应的权重概率;
训练单元,用于以所述特征词对应的向量特征为样本特征进行迭代训练,得到所述语种模型;
匹配单元,用于将所述语种模型作为各既定类别对应的译文向量与所述候选向量分别进行匹配。
本申请一实施例中,所述提取模块,具体包括,
分词单元,用于对所述文本语料进行分词,统计分词后所得的关键词;
关联单元,用于查找所述关键词分别对应的近义词或关联词,统计所述关键词对应的向量特征;
筛选单元,用于根据所述向量特征分别设定所述关键词各自对应的权重,根据所述权重进行筛选,得到所述文本语料对应的特征词。
本申请一实施例中,所述翻译模块中,具体包括:
关联单元,用于将所述特征词对应的向量特征进行提取,得到所述译文对应的向量特征,将所述译文连同所述特征词进行关联组合后,形成所述译文向量。
本申请一实施例中,所述翻译模块中,当所述特征词在所述目标语种下对应的译文大于一种时,将每种译文分别与所述特征词进行关联组合,并均分所述特征词对应的向量特征中的权重,将每种译文分别与所述特征词进行关联组合,形成多组对应的译文向量。
本申请一实施例中,所述匹配模块中,具体包括:
分析单元,用于对所述候选语料进行分析,分别提取其中的候选词,
权重分配单元,用于分别提取所述候选词对应的特征属性及所述特征属性各自对应的权重,分别得到各候选词对应的各自对应的向量特征;
拟合单元,用于将所述候选词对应的向量特征进行拟合,组成所述候选语料对应的候选向量。
由以上本申请实施例提供的技术方案可见,本申请实施例从各既定类别的文本语料中分别进行提取,得到所述文本语料对应的特征词;将所述特征词分别按目标语种进行翻译,根据所得的译文和所述特征词各自对应的向量特征组成各既定类别对应的译文向量;提取候选语料中对应的候选词组成候选向量,将所述候选向量分别与各既定类别对应的译文向量进行匹配,得到所述候选向量与每个既定类别的译文向量对应的匹配度;根据所述匹配度确定所述候选语料所属的目标类别。本方案通过对已知语种的文本语料中的关键词进行分析,经翻译后与未知语种的候选语料进行匹配,从而预测出未知语料所属的类别,在没有对应语种的翻译人员的情况下也可以进行语料的分类,提高了信息处理的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一个实施例的语料分类的方法的流程图;
图2是本申请的一个实施例的语料分类的装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本申请实施例提供了一种语料分类的方法及装置。
下面首先对本申请实施例提供的一种语料分类的方法进行介绍。
目前网络数据中的绝大部分都是以文本形式存在的,文本数据又往往属于不同的语种,现有技术对网页、新闻等语料进行分类时,将预置的人工标注的样本不断进行训练,需要大量的人工处理,训练得到分类模型后再对候选语料进行分类。但在多语种环境下,对多语种的样本分别进行标记则往往不太现实,降低了开发效率。本发明通过对已知语种的文本语料中的关键词进行分析,训练出各既定类别的译文向量,并对候选预料进行分析,提取出候选向量后再分别与各类别的译文向量进行匹配,从而确定出候选语料对应的目标类别,使在没有对应语种的翻译人员的情况下也可以进行语料的分类,提高了信息处理的效率。
图1是本申请的一个实施例的语料分类的方法的流程图,如图1所示,该方法可以包括以下步骤:
在步骤101中,从各既定类别的文本语料中分别进行提取,得到所述文本语料对应的特征词。
本实施例中,从各既定类别的文本语料中分别进行提取时,
步骤101a,对所述文本语料进行分词,统计分词后所得的关键词;
对文本语料的全文进行语义分析后进行划分,统计划分后所得分词中各实词,特别是名词、动词分别对应的词频,以及这些实词在文本语料中的位置,将词频大于既定阈值,和/或位于标题、首段、末段等关键位置的实词作为该文本语料对应的关键词。
步骤101b,查找所述关键词分别对应的近义词或关联词,统计所述关键词对应的向量特征;
分别查找这些关键字各自对应的同义词或近义词,统计这些关键词对应的向量特征,本实施例中,提取这些关键词(含同义词和/或近义词)对应的词频、长度、词性、位置标记、是否开头、是否加粗等特征属性,将这些特征属性作为关键词的向量特征。
步骤101c,根据所述向量特征分别设定所述关键词各自对应的权重,根据所述权重进行筛选,得到所述文本语料对应的特征词
由于文本语料中的关键词过多,故需要根据权重进行筛选,从关键词中将表示该既定类别对应特征的特征词提取出来,即使提取出的特征词准确表示该既定类别对应的类别特征。
具体地,分别设定所述关键词的向量属性所各自对应的权重,如并将各关键词对应的属性进行加权求和,根据加权求和之后所得的值进行筛选,具体地,本实施中根据设定的权重阈值对各关键词进行筛选,将加权求和之后所得值大于权重阈值对应的关键字作为特征词。
步骤102:将所述特征词分别按目标语种进行翻译,根据所得的译文和所述特征词各自对应的向量特征组成各既定类别对应的译文向量;所述译文向量用于描述所述目标语种中每个既定类别下的所述特征词对应的特征属性
调用既定的翻译词库,将各特征词分别按目标语种进行翻译,得到各特征词对应的译文,提取译文对应的词频、长度、词性、位置标记、是否开头、是否加粗等特征属性,并根据所述特征属性和对应的权重进行统计,得到译文对应的向量特征,连同未经翻译的特征词对应的向量特征进行组合,形成译文向量。
本实施例中,译文向量中包括两部分,一部分为来源于既定类别的文本中的特征词,表示了既定类别的对应特征,另一部分为特征词对应的译文,表示既定类别对应特征的语种属性。正常情况下,各既定类别分别对应的文本语料中,由于译文经过特征词翻译后得到,则每个特征词对应的向量特征与译文对应的向量特征相等,但特别地,如果特征词对应的译文有一种以上,则将特征词与每种译文分别组成译文向量,此时将译文的向量特征中对应的各权重分别进行均分,在与特征词的向量特征进行组合形成多组对应的译文向量,译文向量中的对应权重为关键词和对应译文权重的平均值。
在其他实施例中,将译文向量中的向量特征连同特征词对应的向量特征进行训练,得到语种模型,采用模型结构替代各既定类别的译文向量,具体为:
步骤102a,提取所述译文向量中各特征词分别对应的权重概率;
在每个既定类别对应译文向量中,提取各译文向量中特征词、译文对应的向量特征,将向量特征中的权重参数分别归一化为权重概率。
步骤102b,以所述特征词对应的向量特征为样本特征进行迭代训练,得到所述语种模型;
将各既定类别中特征词对应的向量特征同样进行归一化后,将采用SVM(支持向量机)方法对各既定类别中特征词对应的向量特征和译文向量对应的向量特征进行训练。将该类别下的文本语料中各特征词对应的向量特征与该译文向量对应的向量特征的差值作为正样本;将该类别下的文本语料中的非特征词对应的向量特征与该译文向量对应的向量特征的差值作为负样本;分别在各既定类型的文本语料中根据样本特征进行迭代训练,得到语种模型,从而对该语种下的各译文进行类别划分,判断译文属于某一既定类别的对应概率。
步骤102c,将所述语种模型作为各既定类别对应的译文向量与所述候选向量分别进行匹配。
后续步骤中,从候选语料中提取候选词组成候选向量,将候选向量在所述语种模型中进行匹配,得到候选向量属于各既定类别的概率,将概率最高对应类别作为所述候选语料所属的目标类别。
步骤103:提取候选语料中对应的候选词组成候选向量,将所述候选向量分别与各既定类别对应的译文向量进行匹配,得到所述候选向量与每个既定类别的译文向量对应的匹配度;
将候选语料转化为候选向量时,包括如下步骤:
步骤103a,对所述候选语料进行分析,分别提取其中的候选词,
在目标语种的候选语料进行分词,根据分词的结果进行筛选,将分词结果中对应的实词,特别是名词、动词分别对应词频,以及实词在文本语料中的位置,将词频大于既定阈值,和/或位于标题、首段、末段等关键位置的实词作为该候选语料对应的候选词。
步骤103b,分别提取所述候选词对应的特征属性及所述特征属性各自对应的权重,分别得到各候选词对应的各自对应的向量特征;
本实施例中,提取这些关键词(含同义词和/或近义词)对应的词频、长度、词性、位置标记、是否开头、是否加粗等特征属性,将这些特征属性结合对应的权重进行关联,分别得到各候选词对应的向量特征。
步骤103c,将所述候选词对应的向量特征进行拟合,组成所述候选语料对应的候选向量。
本实施例中,将候选词对应的向量特征进行归一化,组成候选语料对应的候选向量。
将所述候选向量分别与各既定类别对应的译文向量进行匹配时,提取所述候选向量中所述候选词对应的向量特征;将向量特征分别与每个既定类别对应的译文向量进行匹配;如候选向量与某个译文向量对应的匹配度较大,则候选向量与该译文向量有较为近似的特征词,且特征词对应的特征属性也较为相似,即候选语料与该既定类别的文本语料属于同一分类的概率较大。反之,如候选向量与某个译文向量对应的匹配度较小,则候选向量与该译文向量对应的特征词差异较大,即候选语料与该既定类别的文本语料属于同一分类的概率较小。
在其他实施例中,调用训练完毕的语种模型,将候选预料对应的候选向量在所述语种模型中进行匹配,判断候选向量分别与各译文向量对应的相关分值,以便在后续步骤中进行选取。
步骤104:,根据所述匹配度确定所述候选语料所属的目标类别。
选取匹配后所得匹配度大于既定阈值的既定类别作为目标类别,则所述候选语料属于所述目标类别。
在其他实施例中,所述候选向量与每个既定类别的译文向量对应的匹配度大于既定阈值的目标类别有一个以上,则所述候选语料属于一个以上的既定类别。
本方案通过对已知语种的文本语料中的关键词进行分析,经翻译后与未知语种的候选语料进行匹配,从而预测出未知语料所属的类别,在没有对应语种的翻译人员的情况下也可以进行语料的分类,提高了信息处理的效率。
在另一个可选的实施例中,语料分类时
步骤201:从各既定类别的文本语料中分别进行提取,得到所述文本语料对应的特征词;
在既定类别的文本语料对应的文档集合中,获取每个实词及其同义词,同前缀相关词,公共子串相关词,语义相关词,将对应的集合记为S;
步骤202:将所述特征词分别按目标语种进行翻译,根据所得的译文和所述特征词各自对应的向量特征组成各既定类别对应的译文向量;所述译文向量用于描述所述目标语种中每个既定类别下的所述特征词对应的特征属性;
本实施例中,以目标语言将集合S进行翻译,将译文对应的集合记为D。提取集合S中与既定类别的文本语料相匹配的关键词作为特征词,利用主题模型或者词嵌入方式将特征词进行训练,生成特征词对应的特征属性,同理,生成特征词对应译文的特征属性。
计算特征词的特征属性对应的权重因子时,综合TF/IDF、页面聚合度值和语义聚合度值进行计算:
1)TF/IDF:计算该特征词对应的TF/IDF值,记为g1;
该TF/IDF表示特征词的词频和逆文档频率乘积。其中,TF是特征词对应的词频,IDF是特征词在文档集合中出现的个数,然后取倒数。
2)页面聚合程度值:在一个句子级别滑动窗口为M(正整数)的条件下,出现其他特征词的个数,记为g2;
3)语义聚合程度值:在一个向量空间的领域N范围内,出现其他特征词的个数,记为g3;
则该特征词对应的权重:G=a1*g1+a2*g2+a3*g3,其中,a1、a2、a3是给定的系数。
同理,计算某一特征词对应译文的特征属性对应的权重因子时,综合TF/IDF、页面聚合度值和语义聚合度值进行计算:
1)TF/IDF:计算该特征词对应译文的TF/IDF值,记为h1;
该TF/IDF表示特征词的词频和逆文档频率乘积。
2)页面聚合程度值:在一个句子级别滑动窗口为M的条件下,出现其他特征词对应译文的个数,记为h2;
3)语义聚合程度值:在一个向量空间的领域N范围内,出现其他特征词对应译文的个数,记为h3。
特征词对应译文的权重为:H=b1*h1+b2*h2+b3*h3,其中,b1、b2、b3是给定的系数。
所以,综上所述,计算既定类别的文本语料档所对应的译文向量为:
其中,Vdoc是既定类别的文本语料doc对应的译文向量,n为文本语料doc中的特征词数量,i=1、2、3、…、n,Vwi为特征词wi和特征词译文对应的特征属性,Gwi是特征词wi对应的权重,Hwi为特征词wi对应译文的权重。
进一步,从既定类别的文本语料中,选取一定数量的实词(动词、名次等)作为标签词,计算正样本的特征向量,选取一定数量的其他词(虚词、叹词等)作为非标签词,计算负样本的特征向量,将正样本的特征向量、负样本的特征向量分别与译文向量相减后进行正则化,从而训练回归模型。
步骤203:提取候选语料中对应的候选词组成候选向量,将所述候选向量分别与各既定类别对应的译文向量进行匹配,得到所述候选向量与每个既定类别的译文向量对应的匹配度;
如步骤202相似,本实施例中,对候选语料进行分词,提取分词所得结果与集合D中相匹配的关键词作为候选词,同时获取候选词在翻译之前对应的原文,进而后续组成候选向量。
同上,计算候选语料中各候选词、原文对应的权重,进而形成候选语料对应的候选向量。
将候选向量与所述步骤202中得到的回归模型进行分析,得到候选向量与各既定类别的译文向量的匹配度。
步骤204:根据所述匹配度确定所述候选语料所属的目标类别。
本发明通过对已知语种的文本语料中的关键词进行分析,训练出各既定类别的译文向量,并对候选预料进行分析,提取出候选向量后再分别与各类别的译文向量进行匹配,从而确定出候选语料对应的目标类别,使在没有对应语种的翻译人员的情况下也可以进行语料的分类,提高了信息处理的效率。
图2是本申请的一个实施例的语料分类的装置的结构示意图。请参考图2,在一种软件实施方式中,图片中的语料分类装置800,可以包括:提取模块801、翻译模块802、匹配模块803和划分模块804,其中,
提取模块801,用于从各既定类别的文本语料中分别进行提取,得到所述文本语料对应的特征词;
翻译模块802,用于将所述特征词分别按目标语种进行翻译,根据所得的译文和所述特征词各自对应的向量特征组成各既定类别对应的译文向量;所述译文向量用于描述所述目标语种中每个既定类别下的所述特征词对应的特征属性;
匹配模块803,用于提取候选语料中对应的候选词组成候选向量,将所述候选向量分别与各既定类别对应的译文向量进行匹配,得到所述候选向量与每个既定类别的译文向量对应的匹配度;
划分模块804,用于根据所述匹配度确定所述候选语料所属的目标类别。
所述提取模块801中,包括:
分词单元,用于对所述文本语料进行分词,统计分词后所得的关键词;
关联单元,用于查找所述关键词分别对应的近义词或关联词,统计所述关键词对应的向量特征;
筛选单元,用于根据所述向量特征分别设定所述关键词各自对应的权重,根据所述权重进行筛选,得到所述文本语料对应的特征词。
所述语料分类装置800还包括,模型单元,具体包括:
提取单元,用于提取所述译文向量中各特征词分别对应的权重概率;
训练单元,用于以所述特征词对应的向量特征为样本特征进行迭代训练,得到所述语种模型;
匹配单元,用于将所述语种模型作为各既定类别对应的译文向量与所述候选向量分别进行匹配。
所述翻译模块802中,具体包括:
关联单元,用于将所述特征词对应的向量特征进行提取,得到所述译文对应的向量特征,将所述译文连同所述特征词进行关联组合后,形成所述译文向量。
所述翻译模块802中,当所述特征词在所述目标语种下对应的译文大于一种时,将每种译文分别与所述特征词进行关联组合,并均分所述特征词对应的向量特征中的权重,将每种译文分别与所述特征词进行关联组合,形成多组对应的译文向量。
所述匹配模块803中,具体包括:
分析单元,用于对所述候选语料进行分析,分别提取其中的候选词,
权重分配单元,用于分别提取所述候选词对应的特征属性及所述特征属性各自对应的权重,分别得到各候选词对应的各自对应的向量特征;
拟合单元,用于将所述候选词对应的向量特征进行拟合,组成所述候选语料对应的候选向量。
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (13)

1.一种语料分类的方法,其特征在于,所述方法包括:
从各既定类别的文本语料中分别进行提取,得到所述文本语料对应的特征词;
将所述特征词分别按目标语种进行翻译,根据所得的译文和所述特征词各自对应的向量特征组成各既定类别对应的译文向量;所述译文向量用于描述所述目标语种中每个既定类别下的所述特征词对应的特征属性;
提取候选语料中对应的候选词组成候选向量,将所述候选向量分别与各既定类别对应的译文向量进行匹配,得到所述候选向量与每个既定类别的译文向量对应的匹配度;
根据所述匹配度确定所述候选语料所属的目标类别。
2.根据权利要求1所述的方法,其特征在于,包括:从各既定类别的文本语料中分别进行提取时,
对所述文本语料进行分词,统计分词后所得的关键词;
查找所述关键词分别对应的近义词或关联词,统计所述关键词对应的向量特征;
根据所述向量特征分别设定所述关键词各自对应的权重,根据所述权重进行筛选,得到所述文本语料对应的特征词。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
提取所述译文向量中各特征词分别对应的权重概率;
以所述特征词对应的向量特征为样本特征进行迭代训练,得到所述语种模型;
将所述语种模型作为各既定类别对应的译文向量与所述候选向量分别进行匹配。
4.根据权利要求1所述的方法,其特征在于,所述组成各既定类别对应的译文向量时,
将所述特征词对应的向量特征进行提取,得到所述译文对应的向量特征,将所述译文连同所述特征词进行关联组合后,形成所述译文向量。
5.根据权利要求4所述的方法,其特征在于,所述组成各既定类别对应的译文向量时,
当所述特征词在所述目标语种下对应的译文大于一种时,将每种译文分别与所述特征词进行关联组合,并均分所述特征词对应的向量特征中的权重,将每种译文分别与所述特征词进行关联组合,形成多组对应的译文向量。
6.根据权利要求1所述的方法,其特征在于,所述提取候选语料中对应的候选词组成候选向量时,
对所述候选语料进行分析,分别提取其中的候选词,
分别提取所述候选词对应的特征属性及所述特征属性各自对应的权重,分别得到各候选词对应的各自对应的向量特征;
将所述候选词对应的向量特征进行拟合,组成所述候选语料对应的候选向量。
7.根据权利要求1所述的方法,其特征在于,所述将所述候选向量分别与各既定类别对应的译文向量进行匹配时,
提取所述候选向量中所述候选词对应的向量特征;
将所述候选词对应的向量特征分别与每个译文向量对应的向量特征进行匹配;
根据所得的匹配度筛选出大于既定阈值的既定类别;
将所述大于既定阈值的既定类别作为所述候选语料所属的目标类别。
8.一种语料分类的装置,其特征在于,所述装置包括:
提取模块,用于从各既定类别的文本语料中分别进行提取,得到所述文本语料对应的特征词;
翻译模块,用于将所述特征词分别按目标语种进行翻译,根据所得的译文和所述特征词各自对应的向量特征组成各既定类别对应的译文向量;所述译文向量用于描述所述目标语种中每个既定类别下的所述特征词对应的特征属性;
匹配模块,用于提取候选语料中对应的候选词组成候选向量,将所述候选向量分别与各既定类别对应的译文向量进行匹配,得到所述候选向量与每个既定类别的译文向量对应的匹配度;
划分模块,用于根据所述匹配度确定所述候选语料所属的目标类别。
9.根据权利要求8所述的装置,其特征在于,所述提取模块,具体包括,
分词单元,用于对所述文本语料进行分词,统计分词后所得的关键词;
关联单元,用于查找所述关键词分别对应的近义词或关联词,统计所述关键词对应的向量特征;
筛选单元,用于根据所述向量特征分别设定所述关键词各自对应的权重,根据所述权重进行筛选,得到所述文本语料对应的特征词。
10.根据权利要求8或9所述的装置,其特征在于,所述装置还包括,模型单元,具体包括:
提取单元,用于提取所述译文向量中各特征词分别对应的权重概率;
训练单元,用于以所述特征词对应的向量特征为样本特征进行迭代训练,得到所述语种模型;
匹配单元,用于将所述语种模型作为各既定类别对应的译文向量与所述候选向量分别进行匹配。
11.根据权利要求8所述的装置,其特征在于,所述翻译模块中,具体包括:
关联单元,用于将所述特征词对应的向量特征进行提取,得到所述译文对应的向量特征,将所述译文连同所述特征词进行关联组合后,形成所述译文向量。
12.根据权利要求11所述的装置,其特征在于:所述翻译模块中,当所述特征词在所述目标语种下对应的译文大于一种时,将每种译文分别与所述特征词进行关联组合,并均分所述特征词对应的向量特征中的权重,将每种译文分别与所述特征词进行关联组合,形成多组对应的译文向量。
13.根据权利要求8所述的装置,其特征在于,所述匹配模块中,具体包括:
分析单元,用于对所述候选语料进行分析,分别提取其中的候选词,
权重分配单元,用于分别提取所述候选词对应的特征属性及所述特征属性各自对应的权重,分别得到各候选词对应的各自对应的向量特征;
拟合单元,用于将所述候选词对应的向量特征进行拟合,组成所述候选语料对应的候选向量。
CN201910468030.8A 2019-05-30 2019-05-30 一种语料分类的方法及装置 Active CN110196910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910468030.8A CN110196910B (zh) 2019-05-30 2019-05-30 一种语料分类的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910468030.8A CN110196910B (zh) 2019-05-30 2019-05-30 一种语料分类的方法及装置

Publications (2)

Publication Number Publication Date
CN110196910A true CN110196910A (zh) 2019-09-03
CN110196910B CN110196910B (zh) 2022-02-15

Family

ID=67753486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910468030.8A Active CN110196910B (zh) 2019-05-30 2019-05-30 一种语料分类的方法及装置

Country Status (1)

Country Link
CN (1) CN110196910B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522927A (zh) * 2020-04-15 2020-08-11 北京百度网讯科技有限公司 基于知识图谱的实体查询方法和装置
CN112307210A (zh) * 2020-11-06 2021-02-02 中冶赛迪工程技术股份有限公司 一种文档标签预测方法、***、介质及电子器件
CN112417153A (zh) * 2020-11-20 2021-02-26 虎博网络技术(上海)有限公司 文本分类方法、装置、终端设备和可读存储介质
CN112836045A (zh) * 2020-12-25 2021-05-25 中科恒运股份有限公司 基于文本数据集的数据处理方法、装置及终端设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667177A (zh) * 2009-09-23 2010-03-10 清华大学 双语文本的对齐方法及装置
WO2011100862A1 (en) * 2010-02-22 2011-08-25 Yahoo! Inc. Bootstrapping text classifiers by language adaptation
CN103902619A (zh) * 2012-12-28 2014-07-02 ***通信集团公司 一种网络舆情监控方法及***
US20180165278A1 (en) * 2016-12-12 2018-06-14 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for translating based on artificial intelligence
CN108460396A (zh) * 2017-09-20 2018-08-28 腾讯科技(深圳)有限公司 负采样方法和装置
CN108510977A (zh) * 2018-03-21 2018-09-07 清华大学 语种识别方法及计算机设备
CN108536756A (zh) * 2018-03-16 2018-09-14 苏州大学 基于双语信息的情绪分类方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667177A (zh) * 2009-09-23 2010-03-10 清华大学 双语文本的对齐方法及装置
WO2011100862A1 (en) * 2010-02-22 2011-08-25 Yahoo! Inc. Bootstrapping text classifiers by language adaptation
CN103902619A (zh) * 2012-12-28 2014-07-02 ***通信集团公司 一种网络舆情监控方法及***
US20180165278A1 (en) * 2016-12-12 2018-06-14 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for translating based on artificial intelligence
CN108460396A (zh) * 2017-09-20 2018-08-28 腾讯科技(深圳)有限公司 负采样方法和装置
CN108536756A (zh) * 2018-03-16 2018-09-14 苏州大学 基于双语信息的情绪分类方法及***
CN108510977A (zh) * 2018-03-21 2018-09-07 清华大学 语种识别方法及计算机设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张凤鸣等: "《武器装备数据挖掘技术》", 30 June 2017, 国防工业出版社 *
朱珠: "基于双语的事件抽取方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
魏向清 等: "《中国外语类辞书编纂出版30年回顾与反思》", 28 February 2011, 上海辞书出版社 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522927A (zh) * 2020-04-15 2020-08-11 北京百度网讯科技有限公司 基于知识图谱的实体查询方法和装置
CN112307210A (zh) * 2020-11-06 2021-02-02 中冶赛迪工程技术股份有限公司 一种文档标签预测方法、***、介质及电子器件
CN112417153A (zh) * 2020-11-20 2021-02-26 虎博网络技术(上海)有限公司 文本分类方法、装置、终端设备和可读存储介质
CN112417153B (zh) * 2020-11-20 2023-07-04 虎博网络技术(上海)有限公司 文本分类方法、装置、终端设备和可读存储介质
CN112836045A (zh) * 2020-12-25 2021-05-25 中科恒运股份有限公司 基于文本数据集的数据处理方法、装置及终端设备

Also Published As

Publication number Publication date
CN110196910B (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及***
CN110196910A (zh) 一种语料分类的方法及装置
Singh et al. Sentiment analysis of textual reviews; Evaluating machine learning, unsupervised and SentiWordNet approaches
CN104881458B (zh) 一种网页主题的标注方法和装置
CN108197109A (zh) 一种基于自然语言处理的多语言分析方法和装置
Zagibalov et al. Unsupervised classification of sentiment and objectivity in Chinese text
Banik et al. Evaluation of naïve bayes and support vector machines on bangla textual movie reviews
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN109558587B (zh) 一种针对类别分布不平衡的舆论倾向性识别的分类方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
Wu et al. News filtering and summarization on the web
Abdelali et al. Arabic dialect identification in the wild
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及***
CN112395395A (zh) 文本关键词提取方法、装置、设备及存储介质
Patel et al. Dynamic lexicon generation for natural scene images
CN110688540B (zh) 一种作弊账户筛选方法、装置、设备及介质
KR101543680B1 (ko) 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법
Wang et al. Multi‐label emotion recognition of weblog sentence based on Bayesian networks
CN112527963B (zh) 基于词典的多标签情感分类方法及装置、设备、存储介质
CN110888983B (zh) 一种正负面情感分析方法、终端设备及存储介质
CN110688461B (zh) 一种综合多源知识的在线文本类教育资源标签生成方法
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
CN107577667B (zh) 一种实体词处理方法和装置
CN115510269A (zh) 视频推荐的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220728

Address after: No.16 and 17, unit 1, North District, Kailin center, No.51 Jinshui East Road, Zhengzhou area (Zhengdong), Henan pilot Free Trade Zone, Zhengzhou City, Henan Province, 450000

Patentee after: Zhengzhou Apas Technology Co.,Ltd.

Address before: E301-27, building 1, No.1, hagongda Road, Tangjiawan Town, Zhuhai City, Guangdong Province

Patentee before: ZHUHAI TIANYAN TECHNOLOGY Co.,Ltd.