CN108021667A - 一种文本分类方法和装置 - Google Patents

一种文本分类方法和装置 Download PDF

Info

Publication number
CN108021667A
CN108021667A CN201711267904.0A CN201711267904A CN108021667A CN 108021667 A CN108021667 A CN 108021667A CN 201711267904 A CN201711267904 A CN 201711267904A CN 108021667 A CN108021667 A CN 108021667A
Authority
CN
China
Prior art keywords
classification
term vector
target text
grades
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711267904.0A
Other languages
English (en)
Inventor
李想
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XINHUA NETWORK CO Ltd
Original Assignee
XINHUA NETWORK CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XINHUA NETWORK CO Ltd filed Critical XINHUA NETWORK CO Ltd
Priority to CN201711267904.0A priority Critical patent/CN108021667A/zh
Publication of CN108021667A publication Critical patent/CN108021667A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种文本分类方法和装置。方法包括:提取目标文本中的关键词;基于提取的关键词,利用预先训练好的词向量模型,得到所述目标文本的词向量特征;计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值,N为正整数;将最大相似度值对应的类目确定为所述目标文本所属的类目。本申请实现了新闻的自动分类,相比于现有技术中的人工分类方法,本申请大大提高了新闻分类的效率。

Description

一种文本分类方法和装置
技术领域
本申请涉及文本处理技术领域,尤其涉及一种文本分类方法和装置。
背景技术
面对海量的新闻信息,目前主要是通过用户输入关键词搜索所关注的新闻,或通过页面推荐由用户选择所关注的新闻。
为了提高搜索或者推荐用户所关注的新闻的效率和准确率,目前采用预先对新闻进行分类,以实现用户在其所关注的类目领域下进行搜索或在用户所关注的类目领域下进行推荐。
然而,目前的新闻分类方法往往依赖于人工操作,费时费力,效率很低。
发明内容
有鉴于此,本申请提供一种文本分类方法和装置,以提高新闻分类的效率。技术方案如下:
本申请的一方面提供一种文本分类方法,所述方法包括:
提取目标文本中的关键词;
基于提取的关键词,利用预先训练好的词向量模型,得到所述目标文本的词向量特征;
计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值,N为正整数;
将最大相似度值对应的类目确定为所述目标文本所属的类目。
可选地,设置N级类目树包括:
根据新闻内容的特点,先制定一级类目,再在所述一级类目下制定二级类目;再在所述二级类目下制定三级类目,以此类推,直至完成在N-1级类目下制定N级类目;
其中,同一级类目中的各个类目所代表的领域不同。
可选地,所述方法还包括:
对所述N级类目树中的各级类目分别进行关键词标记;
利用预先训练好的词向量模型,分别获取所述各级类目中各关键词的词向量特征;
基于获取的所述各级类目中各关键词的词向量特征,得到所述各级类目的词向量特征。
可选地,所述提取目标文本中的关键词之前,所述方法还包括:预处理所述目标文本;
其中所述预处理所述目标文本至少包括:去除所述目标文本中对所述目标文本分类有影响的词语、去除所述目标文本中的url链接。
可选地,所述计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值包括:
利用余弦相似度算法,计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值。
本申请的另一方面提供一种文本分类装置,所述装置包括:
关键词提取单元,用于提取目标文本中的关键词;
第一词向量特征获取单元,用于基于提取的关键词,利用预先训练好的词向量模型,得到所述目标文本的词向量特征;
相似度值计算单元,用于计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值,N为正整数;
分类单元,用于将最大相似度值对应的类目确定为所述目标文本所属的类目。
可选地,所述装置还包括:
N级类目树设置单元,用于设置N级类目树;
其中所述N级类目树设置单元具体用于,根据新闻内容的特点,先制定一级类目,再在所述一级类目下制定二级类目;再在所述二级类目下制定三级类目,以此类推,直至完成在N-1级类目下制定N级类目;
其中,同一级类目中的各个类目所代表的领域不同。
可选地,所述装置还包括:
关键词标记单元,用于对所述N级类目树中的各级类目分别进行关键词标记;
第二词向量特征获取单元,用于利用预先训练好的词向量模型,分别获取所述各级类目中各关键词的词向量特征;
类目词向量特征确定单元,用于基于获取的所述各级类目中各关键词的词向量特征,得到所述各级类目的词向量特征。
可选地,所述装置还包括:
预处理单元,用于预处理所述目标文本;
其中所述预处理单元具体用于,去除所述目标文本中对所述目标文本分类有影响的词语、去除所述目标文本中的url链接。
可选地,所述相似度值计算单元具体用于,利用余弦相似度算法,计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值。
本申请提供的文本分类方法和装置中,提取目标文本中的关键词;基于提取的关键词,利用预先训练好的词向量模型,得到所述目标文本的词向量特征;计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值,N为正整数;将最大相似度值对应的类目确定为所述目标文本所属的类目。本申请实现了新闻的自动分类,相比于现有技术中的人工分类方法,本申请大大提高了新闻分类的效率。
同时,本申请利用预先训练好的词向量模型得到目标文本的词向量特征以及预先设置的N级类目树中各级类目的词向量特征,并通过计算目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值,将最大相似度值对应的类目确定为目标文本所属的类目,本申请利用词向量特征,使得对目标文本内容的分析更准确,保证了文本分类的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请中N级类目树的结构示意图;
图2为本申请提供的一种文本分类方法的流程图;
图3为本申请提供的一种文本分类装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先申请人需要说明的是,在具体实现本申请提供的文本分类方法前,本申请先预先设置了一N级类目树,该N级类目树包括有N级类目,且同一级类目中的各个类目所代表的领域不同。
如图1所示,该N级类目树的一级类目包括文学类目、政治类目、体育类目、娱乐类目等。文学类目(即一级类目)下又包括多个不同的二级类目,如历史文学类目、宗教文学类目、现代文学类目等;政治类目下也包括多个不同的二级类目,如政治理论类目、政治体制类目等。本申请优选地将各级类目所代表的领域尽可能互斥,使不同类目以及同一级类目中的各个类目所代表的领域不同。
具体地,本申请设置N级类目树的方法包括:根据新闻内容的特点,先制定一级类目,再在一级类目下制定二级类目;再在二级类目下制定三级类目,以此类推,直至完成在N-1级类目下制定N级类目。本申请中,N优选等于2,即制定二级类目树,为了便于说明,本申请后文以二级类目树为例继续说明。
在设置好二级类目树后,本申请进一步对二级类目树中的各级类目分别进行关键词标记,进而利用预先训练好的词向量模型,分别获取各级类目中各关键词的词向量特征;最后基于获取的各级类目中各关键词的词向量特征,得到各级类目的词向量特征。
本申请中,每一级类目对应的关键词包括至少一个,当某一级类目对应的关键词为多个时,该多个关键词间包括与关系、或关系等。
以道路运输类目对应的关键词包括“公路”和“运输”,医疗卫生体制类目对应的关键词包括“医改”或“医保”,其中关键词“公路”、“运输”为与关系,关键词“医改”、“医保”为或关系为例。
本申请利用预先训练好的词向量模型,分别获取道路运输类目中“公路”的词向量特征和“运输”的词向量特征,以及医疗卫生体制类目中“医改”的词向量特征和“医保”的词向量特征。基于该“公路”的词向量特征和“运输”的词向量特征得到道路运输类目的词向量特征,基于该“医改”的词向量特征和“医保”的词向量特征得到医疗卫生体制类目的词向量特征。
由此,本申请不仅预先设置好了二级类目树,且确定了该二级类目树中各个一级类目以及各个二级类目的词向量特征。
具体地,本申请中,由于道路运输类目中的“公路”、“运输”为与关系,因此在后文计算目标文本的词向量特征与道路运输类目的词向量特征间的相似度值时,是将计算得到的目标文本的词向量特征与关键词“公路”的词向量特征间的相似度值A1,以及目标文本的词向量特征与关键词“运输”的词向量特征间的相似度值A2中,其中A1大于A2,确定最小相似度值,即A2作为目标文本的词向量特征与道路运输类目的词向量特征间的相似度值。
由于医疗卫生体制类目中的“医改”或“医保”为或关系,因此在后文计算目标文本的词向量特征与医疗卫生体制类目的词向量特征间的相似度值时,是将计算得到的目标文本的词向量特征与关键词“医改”的词向量特征间的相似度值B1,以及目标文本的词向量特征与关键词“医保”的词向量特征间的相似度值B2中,其中B1大于B2,确定最大相似度值,即B1作为目标文本的词向量特征与医疗卫生体制类目的词向量特征间的相似度值。
本申请提供的文本分类方法,具体参阅图2所示,包括:
步骤101,提取目标文本中的关键词。
其中,目标文本为待分类的文本。本申请提取目标文本中的关键词可以具体采用TF-IDF(termfrequency–inverse document frequency,词频-逆向文件频率)提取目标文本中的关键词。
作为本申请优选地,本申请还可以在步骤101前包括步骤100,预处理所述目标文本。
其中预处理目标文本可以包括:去除所述目标文本中对所述目标文本分类有影响的词语,例如“***照片,×年×月×日”、“记者.*?摄”等,以及去除所述目标文本中的url链接。
可以理解地,本申请中预处理目标文本还可以包括:去除所述目标文本中没有明确含义的词语,如语气助词、副词、介词、连接词等,以及标点符号。本申请对于预处理目标文本的实现方式不做限定。
步骤102,基于提取的关键词,利用预先训练好的词向量模型,得到所述目标文本的词向量特征。
本申请中,预先训练好的词向量模型可以包括以下任意一种:word2vector模型、LSA(Latent Semantic Analysis,潜在语义分析)矩阵分解模型、PLSA(ProbabilityLatent Semantic Analysis,概率潜语义分析)潜在语义分析概率模型和LDA(LatentDirichlet Allocation,潜在狄利克雷分布)模型(通称为文档主题生成模型)。
具体在本申请中,本申请基于提取的关键词和其得分,利用预先训练好的词向量模型,得到所述目标文本的词向量特征。
比如,提取的关键词为A,利用预先训练好的词向量模型得到该关键词A的词向量为a,该关键词A的得分为b,那么该目标文本的词向量特征为∑ab。
本申请中,一个文本对应一个词向量特征。
步骤103,计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值,N为正整数。
具体地,本申请利用余弦相似度算法,计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值。
更具体地,假设目标文本的词向量特征为a,类目的词向量特征为b,则利于公式计算目标文本的词向量特征a与类目的词向量特征为b间的相似度值。
本申请在实际应用时,可以首先计算目标文本的词向量特征与各一级类目的词向量特征间的相似度值,确定出相似度值最大时对应的一级类目。进而再在确定的一级类目下,继续计算目标文本的词向量特征与该确定的一级类目下的各个二级类目的词向量特征间的相似度值。
步骤104,将最大相似度值对应的类目确定为所述目标文本所属的类目。
在计算得到目标文本的词向量特征分别与各个二级类目的词向量特征间的相似度值后,确定最大相似度值对应的二级类目为目标文本所属的类目。
以一级类目包括文学类目、政治类目,文学类目下的二级类目包括历史文学类目、宗教文学类目、现代文学类目,政治类目下的二级类目包括政治理论类目、政治体制类目,目标文本为新闻为例。
本申请首先计算该新闻的词向量特征与文学类目的词向量特征间的相似度值,如C1,该新闻的词向量特征与政治类目的词向量特征间的相似度值,如C2。假设C1大于C2,那么可以确定,该新闻与文学类目更接近,进而进一步计算该新闻的词向量特征与文学类目下的历史文学类目的词向量特征间的相似度值,如C11,该新闻的词向量特征与文学类目下的宗教文学类目的词向量特征间的相似度值,如C12,该新闻的词向量特征与文学类目下的现代文学类目的词向量特征间的相似度值,如C13。假设C13大于C12大于C11,由此可以确定,该新闻归属于现代文学类目,将其分类在现代文学类目下。
本申请提供的文本分类方法,本申请实现了新闻的自动分类,相比于现有技术中的人工分类方法,本申请大大提高了新闻分类的效率。
同时,本申请利用预先训练好的词向量模型得到目标文本的词向量特征以及预先设置的N级类目树中各级类目的词向量特征,并通过计算目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值,将最大相似度值对应的类目确定为目标文本所属的类目,本申请利用词向量特征,使得对目标文本内容的分析更准确,保证了文本分类的准确性。
基于前文本申请提供的文本分类方法,本申请还提供一种文本分类装置,如图3所示,包括:关键词提取单元100、第一词向量特征获取单元200、相似度值计算单元300和分类单元400。其中,
关键词提取单元100,用于提取目标文本中的关键词;
第一词向量特征获取单元200,用于基于提取的关键词,利用预先训练好的词向量模型,得到所述目标文本的词向量特征;
相似度值计算单元300,用于计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值,N为正整数;
分类单元400,用于将最大相似度值对应的类目确定为所述目标文本所属的类目。
优选地,所述装置还包括:
N级类目树设置单元,用于设置N级类目树;
其中所述N级类目树设置单元具体用于,根据新闻内容的特点,先制定一级类目,再在所述一级类目下制定二级类目;再在所述二级类目下制定三级类目,以此类推,直至完成在N-1级类目下制定N级类目;
其中,同一级类目中的各个类目所代表的领域不同。
优选地,所述装置还包括:
关键词标记单元,用于对所述N级类目树中的各级类目分别进行关键词标记;
第二词向量特征获取单元,用于利用预先训练好的词向量模型,分别获取所述各级类目中各关键词的词向量特征;
类目词向量特征确定单元,用于基于获取的所述各级类目中各关键词的词向量特征,得到所述各级类目的词向量特征。
优选地,所述装置还包括:
预处理单元,用于预处理所述目标文本;
其中所述预处理单元具体用于,去除所述目标文本中对所述目标文本分类有影响的词语、去除所述目标文本中的url链接。
优选地,所述相似度值计算单元300具体用于,利用余弦相似度算法,计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种文本分类方法和装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种文本分类方法,其特征在于,所述方法包括:
提取目标文本中的关键词;
基于提取的关键词,利用预先训练好的词向量模型,得到所述目标文本的词向量特征;
计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值,N为正整数;
将最大相似度值对应的类目确定为所述目标文本所属的类目。
2.根据权利要求1所述的方法,其特征在于,设置N级类目树包括:
根据新闻内容的特点,先制定一级类目,再在所述一级类目下制定二级类目;再在所述二级类目下制定三级类目,以此类推,直至完成在N-1级类目下制定N级类目;
其中,同一级类目中的各个类目所代表的领域不同。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对所述N级类目树中的各级类目分别进行关键词标记;
利用预先训练好的词向量模型,分别获取所述各级类目中各关键词的词向量特征;
基于获取的所述各级类目中各关键词的词向量特征,得到所述各级类目的词向量特征。
4.根据权利要求1所述的方法,其特征在于,所述提取目标文本中的关键词之前,所述方法还包括:预处理所述目标文本;
其中所述预处理所述目标文本至少包括:去除所述目标文本中对所述目标文本分类有影响的词语、去除所述目标文本中的url链接。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值包括:
利用余弦相似度算法,计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值。
6.一种文本分类装置,其特征在于,所述装置包括:
关键词提取单元,用于提取目标文本中的关键词;
第一词向量特征获取单元,用于基于提取的关键词,利用预先训练好的词向量模型,得到所述目标文本的词向量特征;
相似度值计算单元,用于计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值,N为正整数;
分类单元,用于将最大相似度值对应的类目确定为所述目标文本所属的类目。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
N级类目树设置单元,用于设置N级类目树;
其中所述N级类目树设置单元具体用于,根据新闻内容的特点,先制定一级类目,再在所述一级类目下制定二级类目;再在所述二级类目下制定三级类目,以此类推,直至完成在N-1级类目下制定N级类目;
其中,同一级类目中的各个类目所代表的领域不同。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
关键词标记单元,用于对所述N级类目树中的各级类目分别进行关键词标记;
第二词向量特征获取单元,用于利用预先训练好的词向量模型,分别获取所述各级类目中各关键词的词向量特征;
类目词向量特征确定单元,用于基于获取的所述各级类目中各关键词的词向量特征,得到所述各级类目的词向量特征。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
预处理单元,用于预处理所述目标文本;
其中所述预处理单元具体用于,去除所述目标文本中对所述目标文本分类有影响的词语、去除所述目标文本中的url链接。
10.根据权利要求6-9任一项所述的装置,其特征在于,
所述相似度值计算单元具体用于,利用余弦相似度算法,计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值。
CN201711267904.0A 2017-12-05 2017-12-05 一种文本分类方法和装置 Pending CN108021667A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711267904.0A CN108021667A (zh) 2017-12-05 2017-12-05 一种文本分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711267904.0A CN108021667A (zh) 2017-12-05 2017-12-05 一种文本分类方法和装置

Publications (1)

Publication Number Publication Date
CN108021667A true CN108021667A (zh) 2018-05-11

Family

ID=62078462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711267904.0A Pending CN108021667A (zh) 2017-12-05 2017-12-05 一种文本分类方法和装置

Country Status (1)

Country Link
CN (1) CN108021667A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446525A (zh) * 2018-10-26 2019-03-08 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质和计算机设备
CN110717092A (zh) * 2018-06-27 2020-01-21 北京京东尚科信息技术有限公司 为文章匹配对象的方法、***、设备及存储介质
CN111046170A (zh) * 2018-10-15 2020-04-21 北京京东尚科信息技术有限公司 用于输出信息的方法和装置
CN111949789A (zh) * 2019-05-16 2020-11-17 北京京东尚科信息技术有限公司 文本分类方法和文本分类***
CN113010669A (zh) * 2020-12-24 2021-06-22 华戎信息产业有限公司 一种新闻分类方法和***
CN114238579A (zh) * 2021-12-20 2022-03-25 北京聆心智能科技有限公司 文本分析方法、装置、介质和计算设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011096969A1 (en) * 2010-02-02 2011-08-11 Alibaba Group Holding Limited Method and system for text classification
CN102214233A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种对文本进行分类的方法及装置
TW201137640A (en) * 2010-04-23 2011-11-01 Alibaba Group Holding Ltd Text classification method and system
CN103744981A (zh) * 2014-01-14 2014-04-23 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的***
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN105760524A (zh) * 2016-03-01 2016-07-13 淮阴工学院 一种科学新闻标题的多层次多分类方法
CN107085581A (zh) * 2016-02-16 2017-08-22 腾讯科技(深圳)有限公司 短文本分类方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011096969A1 (en) * 2010-02-02 2011-08-11 Alibaba Group Holding Limited Method and system for text classification
TW201137640A (en) * 2010-04-23 2011-11-01 Alibaba Group Holding Ltd Text classification method and system
CN102214233A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种对文本进行分类的方法及装置
CN102214233B (zh) * 2011-06-28 2013-04-10 东软集团股份有限公司 一种对文本进行分类的方法及装置
CN103744981A (zh) * 2014-01-14 2014-04-23 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的***
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN107085581A (zh) * 2016-02-16 2017-08-22 腾讯科技(深圳)有限公司 短文本分类方法和装置
CN105760524A (zh) * 2016-03-01 2016-07-13 淮阴工学院 一种科学新闻标题的多层次多分类方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717092A (zh) * 2018-06-27 2020-01-21 北京京东尚科信息技术有限公司 为文章匹配对象的方法、***、设备及存储介质
CN111046170A (zh) * 2018-10-15 2020-04-21 北京京东尚科信息技术有限公司 用于输出信息的方法和装置
CN109446525A (zh) * 2018-10-26 2019-03-08 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质和计算机设备
CN111949789A (zh) * 2019-05-16 2020-11-17 北京京东尚科信息技术有限公司 文本分类方法和文本分类***
CN113010669A (zh) * 2020-12-24 2021-06-22 华戎信息产业有限公司 一种新闻分类方法和***
CN114238579A (zh) * 2021-12-20 2022-03-25 北京聆心智能科技有限公司 文本分析方法、装置、介质和计算设备
CN114238579B (zh) * 2021-12-20 2023-02-10 北京聆心智能科技有限公司 文本分析方法、装置、介质和计算设备

Similar Documents

Publication Publication Date Title
CN108021667A (zh) 一种文本分类方法和装置
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
CN105468605B (zh) 一种实体信息图谱生成方法及装置
CN102411563B (zh) 一种识别目标词的方法、装置及***
Abdelnasser et al. Al-Bayan: an Arabic question answering system for the Holy Quran
CN103729402B (zh) 一种基于图书目录的知识图谱的构建方法
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
CN106599054B (zh) 一种题目分类及推送的方法及***
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN109543178A (zh) 一种司法文本标签体系构建方法及***
CN106777274A (zh) 一种中文旅游领域知识图谱构建方法及***
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及***
CN104881458B (zh) 一种网页主题的标注方法和装置
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN104408093A (zh) 一种新闻事件要素抽取方法与装置
CN110399606B (zh) 一种无监督电力文档主题生成方法及***
Liliana et al. Indonesian news classification using support vector machine
CN113033198B (zh) 相似文本推送方法、装置、电子设备及计算机存储介质
WO2021043087A1 (zh) 文字布局方法、装置、电子设备及计算机可读存储介质
Nam et al. Padding methods in convolutional sequence model: an application in Japanese handwriting recognition
CN103092966A (zh) 一种挖掘词汇的方法及装置
CN105893362A (zh) 获取知识点语义向量的方法、确定相关知识点的方法及***
CN109710725A (zh) 一种基于文本分类的中文表格列标签恢复方法和***
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN103268346A (zh) 半监督分类方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180511