CN110019785B - 一种文本分类方法及装置 - Google Patents

一种文本分类方法及装置 Download PDF

Info

Publication number
CN110019785B
CN110019785B CN201710910888.6A CN201710910888A CN110019785B CN 110019785 B CN110019785 B CN 110019785B CN 201710910888 A CN201710910888 A CN 201710910888A CN 110019785 B CN110019785 B CN 110019785B
Authority
CN
China
Prior art keywords
text
classified
classification
database
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710910888.6A
Other languages
English (en)
Other versions
CN110019785A (zh
Inventor
胡斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201710910888.6A priority Critical patent/CN110019785B/zh
Publication of CN110019785A publication Critical patent/CN110019785A/zh
Application granted granted Critical
Publication of CN110019785B publication Critical patent/CN110019785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本分类方法及装置,该方法包括:获取待分类文本和包括多个不同分类参考文本的数据库;评价待分类文本与数据库中每个参考文本的相似度,得到待分类文本与每个参考文本之间的相似度衡量值;根据相似度衡量值以及参考文本的分类,获得待分类文本对每个分类的评估值;将评估值的最大值对应的分类确定为待分类文本的类别。由于数据库中参考文本的分类是可穷举的,根据待分类文本与已知分类的参考文本之间的相似度即可实现对待分类文本的分类,能够对任意一个待分类文本进行分类,提高了文本分类的覆盖率。

Description

一种文本分类方法及装置
技术领域
本申请涉及大数据技术领域,具体涉及一种文本分类方法及装置。
背景技术
文本分类,就是对文本按照一定的分类体系或标准进行自动分类标记,这样,用户不仅可以方便地浏览文本而且可以通过类别来查询所需的文本。
目前使用的文本分类方式,一般使用强规则匹配,利用例如正则表达式、决策树算法等机制实现。具体实现时,在算法执行前预置一些人为定义的条件规则集合,执行时顺序匹配规则,根据文本匹配的规则对应的规则分类,确定该文本的所属分类。
由于不同作者对于同一内容的文本表述方式必然存在不同,而人为整理定义的规则是有限的,不可能将现实中所用的规则进行穷举,因此,现有的文本分类算法无法对某些文本进行分类,存在覆盖率不全的问题。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的文本分类方法及装置,提高文本分类的覆盖率。
本申请实施例提供的一种文本分类方法,包括:
获取待分类文本和预先构建的数据库,所述数据库包括多个参考文本以及该参考文本的分类,所述数据库中的参考文本至少分为两类;
评价所述待分类文本与所述数据库中每个参考文本的相似度,得到所述待分类文本与所述每个参考文本之间的相似度衡量值;
根据所述相似度衡量值以及所述参考文本的分类,获得所述待分类文本对每个分类的评估值;
将所述评估值的最大值对应的分类确定为所述待分类文本的类别。
可选的,所述评价所述待分类文本与所述数据库中每个参考文本的相似度,得到所述待分类文本与所述每个参考文本之间的相似度衡量值,具体包括:
对待分类文本进行第一分词处理,得到所述待分类文本的分词结果;
基于TF-IDF算法,获得所述分词结果中每个词对所述数据库中每个参考文本的贡献度;
根据所述待分类文本的分词结果中每个词对同一参考文本的贡献度,获得所述待分类文本与该参考文本的相似度衡量值。
可选的,所述根据所述相似度衡量值以及所述参考文本的分类,获得所述待分类文本对每个分类的评估值,具体包括:
从所述数据库中,筛选出与所述待分类文本之间的相似度衡量值大于预设阈值的参考文本;
根据所述待分类文本和每个分类中筛选出的参考文本之间的相似度衡量值,获得所述待分类文本对该分类的评估值。
可选的,在获取待分类文本和对应的预先构建的数据库前,所述方法还包括:
通过爬虫从至少一个预先选取的网站中爬取该网站发布的参考文本和参考文本的分类,得到初始数据库;
对所述初始数据库中的参考文本进行第二分词处理,得到每个参考文本的分词结果,所述第一分词处理的分词规则与所述第二分词处理的分词规则相同;
依据所述初始数据库中参考文本的分词结果,对所述初始数据库中的参考文本进行倒排索引处理;
根据倒排索引的处理结果以及爬取到的参考文本的分类,得到所述数据库。
可选的,所述根据所述待分类文本的分词结果中每个词对同一参考文本的贡献度,获得所述待分类文本与该参考文本的相似度衡量值,具体包括:
对所述待分类文本的分词结果中每个词对目标参考文本的贡献度求平均,得到贡献度均值,所述数据库包括所述目标参考文本;
将所述贡献度均值确定为所述待分类文本与所述目标参考文本的相似度衡量值。
本申请实施例提供的一种文本分类装置,包括:第一获取模块、第二获取模块、评价模块和确定模块;
所述第一获取模块,用于获取待分类文本和预先构建的数据库,所述数据库包括多个参考文本以及该参考文本的分类,所述数据库中的参考文本至少分为两类;
所述评价模块,用于评价所述待分类文本与所述数据库中每个参考文本的相似度,得到所述待分类文本与所述每个参考文本之间的相似度衡量值;
所述第二获取模块,用于根据所述相似度衡量值以及所述参考文本的分类,获得所述待分类文本对每个分类的评估值;
所述确定模块,用于将所述评估值的最大值对应的分类确定为所述待分类文本的类别。
可选的,所述装置,还包括:分词模块;
所述分词模块,用于对待分类文本进行第一分词处理,得到所述待分类文本的分词结果;
所述评价模块,具体包括:第一获取子模块和第二获取子模块;
所述第一获取子模块,用于基于TF-IDF算法,获得所述分词结果中每个词对所述数据库中每个参考文本的贡献度;
所述第二获取子模块,用于根据所述待分类文本的分词结果中每个词对同一参考文本的贡献度,获得所述待分类文本与该参考文本的相似度衡量值。
可选的,所述第二获取模块,具体包括:筛选子模块和第三获取子模块;
所述筛选子模块,用于从所述数据库中,筛选出与所述待分类文本之间的相似度衡量值大于预设阈值的参考文本;
所述第三获取子模块,用于根据所述待分类文本和每个分类中筛选出的参考文本之间的相似度衡量值,获得所述待分类文本对该分类的评估值。
本申请实施例还提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现如上述实施例所述的文本分类方法。
本申请实施例还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行如上述实施例所述的文本分类方法。
借由上述技术方案,本申请提供的文本分类方法,以预先构建的数据库中已知分类的参考文本为分类依据,将待分类文本与参考文本进行相似性检索匹配,评价待分类文本与每个参考文本的相似度。再根据参考文本的已知分类,以及待分类文本对每个分类中参考文本的相似度,确定待分类文本对每个分类的评估值,即待分类文本与属于该分类下参考文本的综合相似度,将评估值最大值对应的分类确定为该待分类文本的类别。由于参考文本的分类是可穷举的,并且在对待分类文本进行分类时,无需人为设定分类的规则,也无需考虑规则的完整性,根据待分类文本与已知分类的参考文本之间的相似度即可实现对待分类文本的分类,能够对任意一个待分类文本进行分类,提高了文本分类的覆盖率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例提供的一种文本分类方法的流程示意图;
图2示出了本申请实施例中一种评价待分类文本与数据库中参考文本相似度的流程示意图;
图3示出了本申请实施例提供的一种文本分类装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在现有的文本分类方法中,一般依赖人为预先确定的条件规则进行。例如,在使用正则表达式、决策树算法时,先确定每个类别的分类规则,再将待分类文本与每个类别的分类规则逐一顺序匹配,找到匹配成功的规则,则将该规则对应的分类确定为待分类文本的类别。然而,由于人为整理或定义的条件规则是有限的,而人们对于同一内容的表述方式不尽相同,这使得现有的文本分类方法不可能穷举所有现实中的规则,致使文本分类算法的覆盖率不全,无法对某些待分类文本进行分类。
为此,本申请实施例提供了一种文本分类方法,以多个预先获取的已知分类的参考文本为依据,将待分类文本与这些参考文本进行相似性检索匹配,统计已知分类中存在最多与待分类文本相似性高的参考文本,则该分类即为待分类文本的类别。由于文本的分类可穷举,本申请实施例基于待分类文本与这些参考文本进行相似性检索匹配的结果对待分类文本进行分类,则不存在无法为某些待分类文本进行分类的问题,提高了文本分类算法的覆盖率。
基于上述思想,为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请的具体实施方式做详细说明。
参见图1,该图为本申请实施例提供的一种文本分类方法的流程示意图。
本实施例提供的文本分类方法,包括以下步骤S101-S104。
S101:获取待分类文本和预先构建的数据库。
其中,数据库包括多个参考文本以及该参考文本的分类,该数据库中的参考文本的至少分为两类。
可以理解的是,数据库中的参考文本及其分类可以为待分类文本提供分类的依据。在具体实施时,为了便于数据库的管理和维护,提高分类的效率,可以为不同领域(如司法领域、医疗领域等)的待分类文本对应不同类型的数据库。举例而言,在为司法文本进行分类时,数据库中参考文本可以是由权威机构发布的司法文献(如裁判文书、法律论文等),参考文本的分类为发布该文献的权威机构对该参考文本的分类(如民事、刑事、行政等)。
在实际操作中,预先构建与待分类文本对应的数据库时,可以通过爬虫从待分类文本对应领域的网上权威机构发布的文献,例如司法领域的参考文本可以从裁判文书网、知识产权领域权威网站和司法领域专业网站等网站上爬取。一般在这些权威网站上已经对其发布的文献进行了分类。因此,在本实施例中,可以直接根据权威网站上发布的文献及其对该文献的分类构建数据库,不仅可以穷举该领域中文本的分类,还可以保证文本分类的准确性。
S102:评价待分类文本与数据库中每个参考文本的相似度,得到待分类文本与每个参考文本之间的相似度衡量值。
在本实施例中,可以通过待分类文本中特定词在参考文本中的贡献度(即,判断待分类文本中的某些词是否在参考文本中出现,以及该词在参考文本中的贡献度)来评价二者之间的相似度,得到该相似度衡量值。可以理解的是,当该词对参考文本的贡献度越高,则说明其在参考文本中的重要性越高,越可能为参考文本的关键字。因此,若待分类文本中包括的参考文本关键字越多,则说明参考文本和待分类文本的相似度越高。
在本实施例可能的实现方式中,如图2所示,步骤S102可以具体包括以下步骤S1021-S1023。
S1021:对待分类文本进行第一分词处理,得到待分类文本的分词结果。
可以理解的是,本领域技术人员可以采用任意一种分词算法对待分类文本进行第一分词处理,本申请实施例中对此不做任何限定。
S1022:基于词频-逆向文件频率(Term Frequency–Inverse DocumentFrequency,TF-IDF)算法,获得分词结果中每个词对数据库中每个参考文本的贡献度。
TF-IDF算法是一种统计方法,用于评估一个字词(即,本实施例中待分类文本分词结果中的每个词)对于一个文件集或一个语料库(即,本实施例中的数据库)中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
因此,本实施例中在构建数据库时,为了便于后续TF-IDF算法的应用,数据库的构建,具体可以通过以下步骤实现:
首先,通过爬虫从至少一个预先选取的网站中爬取该网站发布的参考文本和参考文本的分类,得到初始数据库。
参考文本及其分类的爬取与上文所述的类似,具体参见上文的说明即可,这里不再赘述。
其次,对初始数据库中的参考文本进行第二分词处理,得到每个参考文本的分词结果。
需要说明的是,为了保证TF-IDF算法的准确,第一分词处理的分词规则与第二分词处理的分词规则相同。即,采用相同的分词算法和分词规则对初始数据库中的参考文本和待分类文本进行分词处理。
再次,依据初始数据库中参考文本的分词结果,对初始数据库中的参考文本进行倒排索引处理。
倒排索引,源于实际应用中需要根据属性的值来查找记录。倒排索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录,因而称为倒排索引。
在本实施例中,对初始数据库中的参考文本进行倒排索引处理,即统计初始数据库中参考文本分词结果中每个词(即查询项)出现的至少一个参考文本。例如,依据分词结果中的“合同”一词,对初始数据库中的参考文本进行倒排索引处理,即统计初始数据库中所有出现“合同”的参考文本,将其与“合同”一词对应。
最后,根据倒排索引的处理结果以及爬取到的参考文本的分类,得到数据库。即,在本实施例中,数据库最终包括参考文本分词结果的倒排索引以及每个参考文本的分类。
在实际应用中,待分类文本分词结果中每个词对数据库中每个参考文本的贡献度可以采用以下公式得出:
Figure BDA0001424942600000081
式中,t为包含域信息的查询项,也就是说在标题和文章内容中相同的词为不同的查询项,在本申请实施例可能的实现方式中只统计出现的文本正文中的查询项对贡献度的影响;
q为查询语句,包括至少一个查询项t,在本申请实施例中q为待分类文本分词结果中当前计算贡献度的分词;
d为数据库中的参考文本;
t in q即q中包含域信息的查询项,
Figure BDA0001424942600000082
即分别统计查询语句q中每个查询词t的tf(t in d)×idf(t)2×Boost()×norm(t,d)之和;
tf(t in d)为项频率因子,参考文本d中包含的查询项t越多,则此文本则打分越高;
idf(t)为查询项t在倒排索引中出现的频率,倒排索引中出现频率较高的分词结果具有较低的idf,倒排索引中出现频率较少的分词结果具有较高的idf;
Boost()为权重值;
norm(t,d)和queryNorm(q)为标准化因子;
coord(q,d)为参考文本d中满足查询语句q查询条件个数的度量,当一篇文本中包含满足查询语句q查询条件的词个数越多,则此文本coord越高,即本申请实施例中参考文本d参与倒排索引的词的个数越多,coord越高。
S1023:根据待分类文本的分词结果中每个词对同一参考文本的贡献度,获得待分类文本与该参考文本的相似度衡量值。
在本实施例中,得到待分类文本分词结果中每个词对同一参考文本的贡献度后,可以将同一参考文本与待分类文本分词结果中每个词的贡献度求平均,得到的值则为待分类文本与该参考文本的相似度衡量值。
即,对待分类文本的分词结果中每个词对数据库中的目标参考文本的贡献度求平均,得到贡献度均值;将贡献度均值确定为待分类文本与目标参考文本的相似度衡量值。
可以理解的是,本领域技术人员还可以采用除求平均值之外的计算方式(如求和)统计待分类文本分词结果中每个词对同一参考文本的贡献度,本申请实施例对此不做任何限定,这里也不再一一列举。
S103:根据相似度衡量值以及参考文本的分类,获得待分类文本对每个分类的评估值。
在本实施例中,根据数据库中已知的参考文本的分类,统计待分类文本对该分类下参考文本的相似度综合,即待分类文本对该分类的评估值,评估值越大则说明待分类文本与该分类下参考文本的相似度越高。
在本实施例可能的实现方式中,为了去除数据噪声,可以先从数据库中,筛选出与待分类文本之间的相似度衡量值大于预设阈值的参考文本;再根据待分类文本和每个分类中筛选出的参考文本之间的相似度衡量值,获得待分类文本对该分类的评估值。
在实际操作中,本领域技术人员可以根据实际情况具体设定预设阈值,这里不再一一列举。
S104:将评估值的最大值对应的分类确定为待分类文本的类别。
由于待分类文本对该分类的评估值越大则说明待分类文本与该分类下参考文本的相似度越高,因此,待分类文本对数据库中每个分类的评估值的最大值所对应的分类即为待分类文本的类别。
在本实施例中,以预先构建的数据库中已知分类的参考文本为分类依据,将待分类文本与参考文本进行相似性检索匹配,评价待分类文本与每个参考文本的相似度。再根据参考文本的已知分类,以及待分类文本对每个分类中参考文本的相似度,确定待分类文本对每个分类的评估值,即待分类文本与属于该分类下参考文本的综合相似度,将评估值最大值对应的分类确定为该待分类文本的类别。由于参考文本的分类是可穷举的,并且在对待分类文本进行分类时,无需人为设定分类的规则,也无需考虑规则的完整性,根据待分类文本与已知分类的参考文本之间的相似度即可实现对待分类文本的分类,能够对任意一个待分类文本进行分类,提高了文本分类的覆盖率。
基于上述实施例提供的文本分类方法,本申请实施例还提供了一种文本分类装置。
参见图3,该图为本申请实施例提供的一种文本处理装置的结构示意图。
本实施例提供的一种文本分类装置,包括:第一获取模块100、第二获取模块200、评价模块300和确定模块400。
第一获取模块100,用于获取预先构建的数据库和待分类文本,数据库包括多个参考文本以及该参考文本的分类,数据库中参考文本至少分为两类。
评价模块300,用于评价待分类文本与数据库中每个参考文本的相似度,得到待分类文本与每个参考文本之间的相似度衡量值。
第二获取模块200,用于根据相似度衡量值以及参考文本的分类,获得待分类文本对每个分类的评估值。
确定模块400,用于将评估值的最大值对应的分类确定为待分类文本的类别。
在本实施例可能的实现方式中,该装置还包括:分词模块。
分词模块,用于对待分类文本进行第一分词处理,得到待分类文本的分词结果。
评价模块300,具体包括:第一获取子模块和第二获取子模块。
第一获取子模块,用于基于TF-IDF算法,获得分词结果中每个词对数据库中每个参考文本的贡献度。
第二获取子模块,用于根据待分类文本的分词结果中每个词对同一参考文本的贡献度,获得待分类文本与该参考文本的相似度衡量值。
在本实施例可能的实现方式中,第二获取模块200,具体包括:筛选子模块和第三获取子模块。
筛选子模块,用于从数据库中,筛选出与待分类文本之间的相似度衡量值大于预设阈值的参考文本。
第三获取子模块,用于根据待分类文本和每个分类中筛选出的参考文本之间的相似度衡量值,获得待分类文本对该分类的评估值。
在本实施例可能的实现方式中,该装置还包括:数据库构架模块。
数据库构架模块,具体包括:爬取子模块、处理子模块和第四获取子模块。
爬取子模块,用于通过爬虫从至少一个预先选取的网站中爬取该网站发布的参考文本和参考文本的分类,得到初始数据库。
分词模块,还用于对初始数据库中的参考文本进行第二分词处理,得到每个参考文本的分词结果,第一分词处理的分词规则与第二分词处理的分词规则相同。
处理子模块,用于依据初始数据库中参考文本的分词结果,对初始数据库中的参考文本进行倒排索引处理。
第四获取子模块,用于根据倒排索引的处理结果以及爬取到的参考文本的分类,得到数据库。
在本实施例可能的实现方式中,第二获取子模块,具体包括:计算子模块和确定子模块。
计算子模块,用于对待分类文本的分词结果中每个词对目标参考文本的贡献度求平均,得到贡献度均值,数据库包括目标参考文本。
确定子模块,用于将贡献度均值确定为待分类文本与目标参考文本的相似度衡量值。
在本实施例中,以预先构建的数据库中已知分类的参考文本为分类依据,将待分类文本与参考文本进行相似性检索匹配,评价待分类文本与每个参考文本的相似度。再根据参考文本的已知分类,以及待分类文本对每个分类中参考文本的相似度,确定待分类文本对每个分类的评估值,即待分类文本与属于该分类下参考文本的综合相似度,将评估值最大值对应的分类确定为该待分类文本的类别。由于参考文本的分类是可穷举的,并且在对待分类文本进行分类时,无需人为设定分类的规则,也无需考虑规则的完整性,根据待分类文本与已知分类的参考文本之间的相似度即可实现对待分类文本的分类,能够对任意一个待分类文本进行分类,提高了文本分类的覆盖率。
基于上述实施例提供的一种文本处理方法和装置,本申请实施例还提供了另一种文本处理装置。
本实施例提供的文本处理装置包括处理器和存储器,上述实施例中的第一获取模块、第二获取模块、评价模块和确定模块均作为程序模块存储在存储器中,由处理器执行存储在存储器中的上述程序模块来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数以实现对待分类文本的分类。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(Flash RAM),存储器包括至少一个存储芯片。
在本实施例中,以预先构建的数据库中已知分类的参考文本为分类依据,将待分类文本与参考文本进行相似性检索匹配,评价待分类文本与每个参考文本的相似度。再根据参考文本的已知分类,以及待分类文本对每个分类中参考文本的相似度,确定待分类文本对每个分类的评估值,即待分类文本与属于该分类下参考文本的综合相似度,将评估值最大值对应的分类确定为该待分类文本的类别。由于参考文本的分类是可穷举的,并且在对待分类文本进行分类时,无需人为设定分类的规则,也无需考虑规则的完整性,根据待分类文本与已知分类的参考文本之间的相似度即可实现对待分类文本的分类,能够对任意一个待分类文本进行分类,提高了文本分类的覆盖率。
基于上述实施例提供的一种文本处理方法和装置,本申请实施例还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:
获取待分类文本和预先构建的数据库,数据库包括多个参考文本以及该参考文本的分类,数据库中的参考文本至少分为两类;评价待分类文本与数据库中每个参考文本的相似度,得到待分类文本与每个参考文本之间的相似度衡量值;根据相似度衡量值以及参考文本的分类,获得待分类文本对每个分类的评估值;将评估值的最大值对应的分类确定为待分类文本的类别。
所述评价所述待分类文本与所述数据库中每个参考文本的相似度,得到所述待分类文本与所述每个参考文本之间的相似度衡量值,具体可以包括:对待分类文本进行第一分词处理,得到所述待分类文本的分词结果;基于TF-IDF算法,获得所述分词结果中每个词对所述数据库中每个参考文本的贡献度;根据所述待分类文本的分词结果中每个词对同一参考文本的贡献度,获得所述待分类文本与该参考文本的相似度衡量值。
所述根据所述相似度衡量值以及所述参考文本的分类,获得所述待分类文本对每个分类的评估值,具体可以包括:从所述数据库中,筛选出与所述待分类文本之间的相似度衡量值大于预设阈值的参考文本;根据所述待分类文本和每个分类中筛选出的参考文本之间的相似度衡量值,获得所述待分类文本对该分类的评估值。
在获取待分类文本和对应的预先构建的数据库前,还可以包括:通过爬虫从至少一个预先选取的网站中爬取该网站发布的参考文本和参考文本的分类,得到初始数据库;对所述初始数据库中的参考文本进行第二分词处理,得到每个参考文本的分词结果,所述第一分词处理的分词规则与所述第二分词处理的分词规则相同;依据所述初始数据库中参考文本的分词结果,对初始数据库中的参考文本进行倒排索引处理;根据倒排索引的处理结果以及爬取到的参考文本的分类,得到所述数据库。
所述根据所述待分类文本的分词结果中每个词对同一参考文本的贡献度,获得所述待分类文本与该参考文本的相似度衡量值,具体可以包括:对所述待分类文本的分词结果中每个词对目标参考文本的贡献度求平均,得到贡献度均值,所述数据库包括所述目标参考文本;将所述贡献度均值确定为所述待分类文本与所述目标参考文本的相似度衡量值。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述实施例所述的文本分类方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述实施例所述的文本分类方法。
本发明实施例提供了一种设备,该设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取待分类文本和预先构建的数据库,所述数据库包括多个参考文本以及该参考文本的分类,所述数据库中的参考文本至少分为两类;评价所述待分类文本与所述数据库中每个参考文本的相似度,得到所述待分类文本与所述每个参考文本之间的相似度衡量值;根据所述相似度衡量值以及所述参考文本的分类,获得所述待分类文本对每个分类的评估值;将所述评估值的最大值对应的分类确定为所述待分类文本的类别。
所述评价所述待分类文本与所述数据库中每个参考文本的相似度,得到所述待分类文本与所述每个参考文本之间的相似度衡量值,具体可以包括:对待分类文本进行第一分词处理,得到所述待分类文本的分词结果;基于TF-IDF算法,获得所述分词结果中每个词对所述数据库中每个参考文本的贡献度;根据所述待分类文本的分词结果中每个词对同一参考文本的贡献度,获得所述待分类文本与该参考文本的相似度衡量值。
所述根据所述相似度衡量值以及所述参考文本的分类,获得所述待分类文本对每个分类的评估值,具体可以包括:从所述数据库中,筛选出与所述待分类文本之间的相似度衡量值大于预设阈值的参考文本;根据所述待分类文本和每个分类中筛选出的参考文本之间的相似度衡量值,获得所述待分类文本对该分类的评估值。
在获取待分类文本和对应的预先构建的数据库前,还可以包括:通过爬虫从至少一个预先选取的网站中爬取该网站发布的参考文本和参考文本的分类,得到初始数据库;对所述初始数据库中的参考文本进行第二分词处理,得到每个参考文本的分词结果,所述第一分词处理的分词规则与所述第二分词处理的分词规则相同;依据所述初始数据库中参考文本的分词结果,对所述初始数据库中的参考文本进行倒排索引处理;根据倒排索引的处理结果以及爬取到的参考文本的分类,得到所述数据库。
所述根据所述待分类文本的分词结果中每个词对同一参考文本的贡献度,获得所述待分类文本与该参考文本的相似度衡量值,具体可以包括:对所述待分类文本的分词结果中每个词对目标参考文本的贡献度求平均,得到贡献度均值,所述数据库包括所述目标参考文本;将所述贡献度均值确定为所述待分类文本与所述目标参考文本的相似度衡量值。
本文中的设备可以是服务器、PC、PAD、手机等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(FlashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(Transitory Media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (7)

1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本和预先构建的数据库,所述数据库包括多个参考文本以及该参考文本的分类,所述数据库中的参考文本至少分为两类;
评价所述待分类文本与所述数据库中每个参考文本的相似度,得到所述待分类文本与所述每个参考文本之间的相似度衡量值;所述评价所述待分类文本与所述数据库中每个参考文本的相似度,得到所述待分类文本与所述每个参考文本之间的相似度衡量值,具体包括:
对待分类文本进行第一分词处理,得到所述待分类文本的分词结果;
基于TF-IDF算法,获得所述分词结果中每个词对所述数据库中每个参考文本的贡献度;
根据所述待分类文本的分词结果中每个词对同一参考文本的贡献度,获得所述待分类文本与该参考文本的相似度衡量值;所述根据所述待分类文本的分词结果中每个词对同一参考文本的贡献度,获得所述待分类文本与该参考文本的相似度衡量值,具体包括:对所述待分类文本的分词结果中每个词对目标参考文本的贡献度求平均,得到贡献度均值,所述数据库包括所述目标参考文本;将所述贡献度均值确定为所述待分类文本与所述目标参考文本的相似度衡量值;
根据所述相似度衡量值以及所述参考文本的分类,获得所述待分类文本对每个分类的评估值;
将所述评估值的最大值对应的分类确定为所述待分类文本的类别。
2.根据权利要求1所述的文本分类方法,其特征在于,所述根据所述相似度衡量值以及所述参考文本的分类,获得所述待分类文本对每个分类的评估值,具体包括:
从所述数据库中,筛选出与所述待分类文本之间的相似度衡量值大于预设阈值的参考文本;
根据所述待分类文本和每个分类中筛选出的参考文本之间的相似度衡量值,获得所述待分类文本对该分类的评估值。
3.根据权利要求1所述的文本分类方法,其特征在于,在获取待分类文本和对应的预先构建的数据库前,所述方法还包括:
通过爬虫从至少一个预先选取的网站中爬取该网站发布的参考文本和参考文本的分类,得到初始数据库;
对所述初始数据库中的参考文本进行第二分词处理,得到每个参考文本的分词结果,所述第一分词处理的分词规则与所述第二分词处理的分词规则相同;
依据所述初始数据库中参考文本的分词结果,对所述初始数据库中的参考文本进行倒排索引处理;
根据倒排索引的处理结果以及爬取到的参考文本的分类,得到所述数据库。
4.一种文本分类装置,其特征在于,所述装置包括:第一获取模块、第二获取模块、评价模块和确定模块,分词模块;
所述第一获取模块,用于获取待分类文本和预先构建的数据库,所述数据库包括多个参考文本以及该参考文本的分类,所述数据库中的参考文本至少分为两类;
所述分词模块,用于对待分类文本进行第一分词处理,得到所述待分类文本的分词结果;
所述评价模块,用于评价所述待分类文本与所述数据库中每个参考文本的相似度,得到所述待分类文本与所述每个参考文本之间的相似度衡量值;
所述第二获取模块,用于根据所述相似度衡量值以及所述参考文本的分类,获得所述待分类文本对每个分类的评估值;
所述评价模块,具体包括:第一获取子模块和第二获取子模块;
所述第一获取子模块,用于基于TF-IDF算法,获得所述分词结果中每个词对所述数据库中每个参考文本的贡献度;
所述第二获取子模块,用于根据所述待分类文本的分词结果中每个词对同一参考文本的贡献度,获得所述待分类文本与该参考文本的相似度衡量值;所述根据所述待分类文本的分词结果中每个词对同一参考文本的贡献度,获得所述待分类文本与该参考文本的相似度衡量值,具体包括:对所述待分类文本的分词结果中每个词对目标参考文本的贡献度求平均,得到贡献度均值,所述数据库包括所述目标参考文本;将所述贡献度均值确定为所述待分类文本与所述目标参考文本的相似度衡量值;
所述确定模块,用于将所述评估值的最大值对应的分类确定为所述待分类文本的类别。
5.根据权利要求4所述的文本分类装置,其特征在于,所述第二获取模块,具体包括:筛选子模块和第三获取子模块;
所述筛选子模块,用于从所述数据库中,筛选出与所述待分类文本之间的相似度衡量值大于预设阈值的参考文本;
所述第三获取子模块,用于根据所述待分类文本和每个分类中筛选出的参考文本之间的相似度衡量值,获得所述待分类文本对该分类的评估值。
6.一种存储介质,其特征在于,其上存储有程序,该程序被处理器执行时实现如权利要求1-3任一项所述的文本分类方法。
7.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1-3任一项所述的文本分类方法。
CN201710910888.6A 2017-09-29 2017-09-29 一种文本分类方法及装置 Active CN110019785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710910888.6A CN110019785B (zh) 2017-09-29 2017-09-29 一种文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710910888.6A CN110019785B (zh) 2017-09-29 2017-09-29 一种文本分类方法及装置

Publications (2)

Publication Number Publication Date
CN110019785A CN110019785A (zh) 2019-07-16
CN110019785B true CN110019785B (zh) 2022-03-01

Family

ID=67186452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710910888.6A Active CN110019785B (zh) 2017-09-29 2017-09-29 一种文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN110019785B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948370B (zh) * 2019-11-26 2023-04-11 上海哔哩哔哩科技有限公司 数据分类方法、装置以及计算机设备
CN110990577A (zh) * 2019-12-25 2020-04-10 北京亚信数据有限公司 一种文本分类方法和装置
CN113220840B (zh) * 2021-05-17 2023-08-01 北京百度网讯科技有限公司 文本处理方法、装置、设备以及存储介质
CN113254655B (zh) * 2021-07-05 2021-09-17 北京邮电大学 文本分类方法、电子设备及计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103714118A (zh) * 2013-11-22 2014-04-09 浙江大学 图书交叉阅读方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6910037B2 (en) * 2002-03-07 2005-06-21 Koninklijke Philips Electronics N.V. Method and apparatus for providing search results in response to an information search request
US9355091B2 (en) * 2013-03-13 2016-05-31 Crimson Hexagon, Inc. Systems and methods for language classification
CN105718598A (zh) * 2016-03-07 2016-06-29 天津大学 基于at的时间模型构建方法与网络突发事件预警方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103714118A (zh) * 2013-11-22 2014-04-09 浙江大学 图书交叉阅读方法

Also Published As

Publication number Publication date
CN110019785A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN107908740B (zh) 信息输出方法和装置
US11734233B2 (en) Method for classifying an unmanaged dataset
US8832102B2 (en) Methods and apparatuses for clustering electronic documents based on structural features and static content features
CN110019785B (zh) 一种文本分类方法及装置
US10019442B2 (en) Method and system for peer detection
Oghbaie et al. Pairwise document similarity measure based on present term set
US20150066904A1 (en) Integrating and extracting topics from content of heterogeneous sources
CN109388634B (zh) 地址信息的处理方法、终端设备及计算机可读存储介质
Guo et al. An analysis framework for content-based job recommendation
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
KR102135074B1 (ko) 인공지능 기반의 팩트 체크 가이드라인을 이용한 가짜 뉴스 판별 시스템
JP2018537768A (ja) ソーシャルビジネス特性を持つユーザの識別
CN110825868A (zh) 一种基于话题热度的文本推送方法、终端设备及存储介质
US10147095B2 (en) Chain understanding in search
CN104615723B (zh) 查询词权重值的确定方法和装置
KR101585644B1 (ko) 단어 연관성 분석을 이용한 문서 분류 장치, 방법 및 이를 위한 컴퓨터 프로그램
KR101621735B1 (ko) 추천 검색어 제공 방법 및 시스템
CN113792084A (zh) 数据热度的分析方法、装置、设备及存储介质
CN106997340A (zh) 词库的生成以及利用词库的文档分类方法及装置
US11308130B1 (en) Constructing ground truth when classifying data
CN107315807B (zh) 人才推荐方法和装置
CN110019697A (zh) 一种刑事文书的推送方法及装置
Li et al. Research on hot news discovery model based on user interest and topic discovery
García et al. Benchmarking research performance at the university level with information theoretic measures
CN110929497B (zh) 文书确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant