CN102411592A - 一种文本分类方法和装置 - Google Patents

一种文本分类方法和装置 Download PDF

Info

Publication number
CN102411592A
CN102411592A CN2010102924612A CN201010292461A CN102411592A CN 102411592 A CN102411592 A CN 102411592A CN 2010102924612 A CN2010102924612 A CN 2010102924612A CN 201010292461 A CN201010292461 A CN 201010292461A CN 102411592 A CN102411592 A CN 102411592A
Authority
CN
China
Prior art keywords
vocabulary
vocabulary group
group
word frequency
classifying documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010102924612A
Other languages
English (en)
Other versions
CN102411592B (zh
Inventor
孙翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taobao China Software Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN 201010292461 priority Critical patent/CN102411592B/zh
Publication of CN102411592A publication Critical patent/CN102411592A/zh
Priority to HK12106886.0A priority patent/HK1166384A1/xx
Application granted granted Critical
Publication of CN102411592B publication Critical patent/CN102411592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种文本分类方法和装置。将待分类文档进行分词,对分词得到的各词汇进行组合,得到待分类文档词汇组集合,其中,待分类文档词汇组集合中的各词汇组包括至少两个词汇;统计所述待分类文档词汇组集合中各词汇组的词频;从预先获得的词汇组向量中提取所述待分类文档词汇组集合中的各词汇组的向量;将待分类文档中各词汇组的词频作为词汇组的向量数,对上述提取的各词汇组的所有向量求和,得到总分类向量;对所述总分类向量进行预置分类算法的处理,得到待分类文档的分类结果。根据本申请实施例,可以提高分类结果的准确性。

Description

一种文本分类方法和装置
技术领域
本申请涉及通信和计算机技术领域,特别是涉及一种文本分类方法和装置。
背景技术
随着互联网在全球范围内的快速发展,人们面临的信息呈指数增加。在人们所面临的信息中有大量的文本信息,因此,对文本信息的处理技术尤为重要。其中,对文本信息进行分类是组织和管理文本信息的一个有效手段,将文本信息进行分类可以方便人们对文本信息的浏览、查找和使用。文本分类是指由计算机对文本信息经过某种分类算法的处理后,把文本判别到预先定义好的类别中,即,文本到类别的映射。
在现有的文本分类方法中,通常都是将文档按照一定的原理切割成多个词汇,并假设各个词汇在文档中出现的概率是独立的,即,假设词汇与词汇之间不存在相互影响。在上述假设下,只需要对单个词汇在文档中出现的次数进行统计,即,统计单个词汇的词频,然后将单个词汇的词频经过特定分类算法的处理后,得到分类结果。
但是,发明人在研究中发现,不同词汇之间不存在相互影响仅仅是一种非常理想化的假设。在实际应用中,文档的整个语义都需要依靠上下文来表达,这就决定了词汇与词汇之间是彼此关联并相互影响的。例如,“***”与“周恩来”两个词汇在一些政治文档中同时出现的概率很高,由此可见,这两个词汇在文档中是彼此关联并相互影响的,它们在文档中出现的概率不是独立的。因此,在假设词汇在文档中出现的概率是独立的前提条件下,统计单个词汇的词频,并将单个词汇的词频经过特定分类算法的处理后所得到的分类结果是不准确的。
发明内容
为了解决上述技术问题,本申请实施例提供了一种文本分类方法和装置,以提高分类结果的准确性。
本申请实施例公开了如下技术方案:
一种文本分类方法,包括:将待分类文档进行分词,对分词得到的各词汇进行组合,得到待分类文档词汇组集合,其中,待分类文档词汇组集合中的各词汇组包括至少两个词汇;统计所述待分类文档词汇组集合中各词汇组的词频;从预先获得的词汇组向量中提取所述待分类文档词汇组集合中的各词汇组的向量,其中,所述预先获得词汇组向量是预先将具有确定类别的样本文档进行分词,对分词得到的各词汇进行组合,得到样本文档词汇组集合,统计所述样本文档词汇组集合中各词汇组的词频,将同一词汇组在各样本文档类别中的词频组成词频向量,对所述词频向量进行归一化处理,得到词汇组向量,其中,样本文档词汇组集合中各词汇组包括至少两个词汇;将待分类文档中各词汇组的词频作为词汇组的向量数,对上述提取的各词汇组的所有向量求和,得到总分类向量;对所述总分类向量进行预置分类算法的处理,得到待分类文档的分类结果。
一种文本分类装置,包括:词汇组合模块,用于将待分类文档进行分词,对分词得到的各词汇进行组合,得到待分类文档词汇组集合,其中,待分类文档词汇组集合中的各词汇组包括至少两个词汇;词频统计模块,用于统计所述待分类文档词汇组集合中各词汇组的词频;向量提取模块,用于从预先获得的词汇组向量中提取所述待分类文档词汇组集合中的各词汇组的向量,其中,所述预先获得词汇组向量是预先将具有确定类别的样本文档进行分词,对分词得到的各词汇进行组合,得到样本文档词汇组集合,统计所述样本文档词汇组集合中各词汇组的词频,将同一词汇组在各样本文档类别中的词频组成词频向量,对所述词频向量进行归一化处理,得到词汇组向量,其中,样本文档词汇组集合中各词汇组包括至少两个词汇;向量求和模块,用于将待分类文档中各词汇组的词频作为词汇组的向量数,对上述提取的各词汇组的所有向量求和,得到总分类向量;分类模块,用于对所述总分类向量进行预置分类算法的处理,得到待分类文档的分类结果。
由上述实施例可以看出,利用词汇组词频替代原有的单个词汇的词频,在此基础上,统计词汇组的词频,当从预先基于样本文档获得的词汇组向量中提取待分类文档词汇组集合中的各词汇组的向量后,将待分类文档词汇组集合中各词汇组的词频作为词汇组的向量数,对提取的各词汇组的所有向量进行求和,得到总分类向量,对所述总分类向量进行预置分类算法的处理,得到待分类文档的分类结果。由于整个文本分类方法是基于词汇组的词频进行的,考虑了词汇与词汇之间的相互影响和相互关联,相对于现有的文类方法,提高了分类结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一种文本分类方法的一个实施例的流程图;
图2为本申请一种文本分类方法的另一个实施例的流程图;
图3为本申请一种文本分类装置的一个实施例的结构图;
图4为本申请文本分类装置中词汇组合模块的一个结构示意图;
图5为本申请文本分类装置中词频统计模块的一个结构示意图;
图6为本申请一种文本分类装置的另一个实施例的结构图。
具体实施方式
在现有的文本分类方法中,假设词汇与词汇之间不存在相互的影响,并基于单个词汇的词频进行分类。但是,本申请的发明人发现:词汇与词汇之间是存在相互的关联,并相互影响的。例如,对于“硝酸钾”这个词汇,单独考察可能会认为它是一个带有化学色彩的词汇;如果在一篇文档A中同时出现“硝酸钾”和“初中”两个词汇,可能会认为该文档A是初中化学教材;如果在一篇文档B中同时出现“硝酸钾”和“***”两个词汇,可能会认为该文档B是军事科技类读物。因此,“硝酸钾”、“初中”和“***”之间是相互关联和相互影响的。如果基于单个词汇的词频进行文本文类,必然会降低文类结果的准确性。而本申请所提供的文本分类方法和装置可以提高分类结果的准确性。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例进行详细描述。
实施例一
请参阅图1,其为本申请一种文本分类方法的一个实施例的流程图,该方法包括以下步骤:
步骤101:将待分类文档进行分词,对分词得到的各词汇进行组合,得到待分类文档词汇组集合,其中,待分类文档词汇组集合中的各词汇组包括至少两个词汇;
其中,所述将分类文档进行分词,对分词得到的各词汇进行组合,得到待分类文档词汇组集合包括:将待分类文档进行分词,得到待分类文档中的所有词汇;将得到的词汇进行两两组合,得到待分类文档词汇组集合,其中,各待分类文档词汇组都包括两个词汇。
例如,当需要对文档1进行分类,则文档1为待分类文档。为了方便描述,假设将文档1按照切割原理切割成100个词汇,即,待分类文档经过分词后,得到100个词汇。对分词处理后得到的100个词汇进行组合,得到第二词汇组集合,在第二词汇组集合中,各个词汇组包括至少两个词汇。
需要说明的是,将词汇进行组合后所得到的词汇组的数量将远远超过词汇的数量,为了减少计算量,优选的方式是,在分词处理后得到的100个词汇中,将任意两个词汇进行组合,即进行两两组合,得到第二词汇组集合,其中的每个词汇组都包括两个词汇。在此情况下,所述将待分类文档进行分词,对待分类文档中各词汇进行组合,得到第二词汇组集合包括:将待分类文档进行分词,得到待分类文档中的所有词汇;将得到的词汇进行两两组合,得到第二词汇组集合,其中,各词汇组包括两个词汇。
当然,除了进行两两组合之外,还可以进行三三组合、四四组合......,本申请实施例对第二词汇组集合中各个词汇组所包括的词汇数量并不进行限定。
步骤102:统计所述待分类文档词汇组集合中各词汇组的词频;
其中,所述统计待分类文档词汇组集合中各词汇组的词频包括:统计待分类文档中单个词汇的词频;根据所述待分类文档词汇组集合的各词汇组中单个词汇的词频,计算得到所述待分类文档词汇组集合的各词汇组的词频。
例如,以包括100个词汇的待分类文档1为例,根据本领域技术人员所知,词频即为单个词汇在文档中出现的次数,通过分别统计100个词汇在待分类文档1中出现的次数,得到词汇A的词频为10,词汇B的词频为20,......依次类推。如果进行了两两组合,而对于一个包括词汇A和词汇B的词汇组来说,根据词汇A词频和词汇B的词频,计算得到该词汇组的词频。
需要说明的是,本申请实施例对上述获得样本文档词汇组集合中各词汇组的词频的具体计算方法并不进行限定。如,可以取各词汇组中单个词汇的词频的最小值或最大值,以包括词汇A和词汇B的词汇组为例,F(A+B)=Min(F(A),F(B)),或者,F(A+B)=Max(F(A),F(B)),其中,F(A+B)为该词汇组的词频,F(A)为词汇A的词频,F(B)为词汇B的词频。也可以取各词汇组中单个词汇的词频的算数均值或调和均值,以包括词汇A和词汇B的词汇组为例,F(A+B)=(F(A)+F(B))/2,或者,
Figure BSA00000284648300051
其中,F(A+B)为该词汇组的词频,F(A)为词汇A的词频,F(B)为词汇B的词频。还可以取各词汇组中单个词汇的词频的对数之积,以包括词汇A和词汇B的词汇组为例,F(A+B)=log(F(A))*log(F(B)),其中,F(A+B)为该词汇组的词频,F(A)为词汇A的词频,F(B)为词汇B的词频。
经过上述处理后,统计出词汇组“A”和“B”的词频数为18,其中,出现在政治类文档中的次数为5次,出现在军事类文档中的次数为6次,出现在经济类文档中的次数为7次。将词汇组“A”和“B”在三种样本文档类别中的词频组成词频向量(5,6,7),对词频向量进行归一化处理,得到词汇组“A”和“B”的子分类向量(0.27,0.33,0.4)。按照相同的方法,可以获得样本文档中所有词汇组的词汇组向量。
步骤103:从预先获得的词汇组向量中提取所述待分类文档词汇组集合中的各词汇组的向量,其中,所述预先获得词汇组向量是预先将具有确定类别的样本文档进行分词,对分词得到的各词汇进行组合,得到样本文档词汇组集合,统计所述样本文档词汇组集合中各词汇组的词频,将同一词汇组在各样本文档类别中的词频组成词频向量,对所述词频向量进行归一化处理,得到词汇组向量,其中,样本文档词汇组集合中各词汇组包括至少两个词汇;
除了统计得到待分类文档词汇组集合中各词汇组的词频之外,还需要从预先获得的词汇组向量中提取所述待分类文档词汇组集合中的各词汇组的向量。词汇组向量是通过机器学习的方式预先获得的。
例如,通过对样本文档进行机器学习,得到一个词汇组向量。机器学习的具体过程为:预先获取一定量的样本文档,所谓样本文档,即为预先经过人工识别而具有确定类别的文档。如,抽取300个文档作为样本文档,而对于这300个样本文档,经过人工识别,已经明确知道每个样本文档的类别,其中的100个文档为政治类文档,另外的100个文档为军事类文档,剩余的100个文档为经济类文档。先对300个样本文档进行分词,得到所有样本文档分词后的词汇,对样本文档中各词汇进行组合,得到样本文档词汇组集合,样本文档词汇组集合中的各词汇组包括至少两个词汇,组合后再统计样本文档词汇组集合中各词汇组的词频。
其中,所述将具有确定类别的样本文档进行分词,对分词得到的各词汇进行组合,得到样本文档词汇组集合包括:将样本文档进行分词,得到样本文档中的所有词汇;将得到的词汇进行两两组合,得到样本文档词汇组集合,其中,各样本文档词汇组都包括两个词汇。
这里,对样本文档进行分词并组合成样本文档词汇组的过程与对待分类文档进行分词并组合成待分类文档词汇组的过程相同,相关过程可以看见步骤101中的描述,此处不再赘述。
需要说明的是,将词汇进行组合后所得到的词汇组的数量将远远超过词汇的数量,为了减少计算量,优选的方式是,在分词处理后得到的词汇中,将任意两个词汇进行组合,即进行两两组合,得到第一词汇组集合,其中的每个词汇组都包括两个词汇。当然,除了进行两两组合之外,还可以进行三三组合、四四组合......,本申请实施例对第一词汇组集合中各个词汇组所包括的词汇数量并不进行限定。
其中,所述统计样本文档词汇组集合中各词汇组的词频包括:统计样本文档中单个词汇的词频;根据所述样本文档词汇组集合的各词汇组中单个词汇的词频,计算得到所述样本文档词汇组集合的各词汇组的词频。
例如,以包括100个词汇的样本文档1为例,根据本领域技术人员所知,词频即为单个词汇在样本文档中出现的次数,通过分别统计100个词汇在样本文档1中出现的次数,得到词汇A的词频为10,词汇B的词频为20,......依次类推。如果进行了两两组合,而对于一个包括词汇A和词汇B的词汇组来说,根据词汇A词频和词汇B的词频,计算得到该词汇组的词频。
这里,对样本文档词汇组集合中各词汇组词频的统计过程与对待分类文档词汇组集合中各词汇组词频的统计过程相同,相关过程可以看见步骤102中的描述,此处不再赘述。
步骤104:将待分类文档中各词汇组的词频作为词汇组的向量数,对上述提取的各词汇组的所有向量求和,得到总分类向量;
例如,当在欧式空间内对提取的各词汇组的所有向量求和时,如果文档A中词汇组a的词频为2,词汇组b的词频为3,词汇组a的子分类向量为m,词汇组b的子分类向量为n,......,则待分类文档的总分类向量=2×m+3×n+...+...。
需要说明的是,在本实施例中,除了可以在欧式空间内对提取的各词汇组的所有向量求和外,还可以在其他空间,如球面空间对所有向量求和。本实施例对此并不限定。
步骤105:对所述总分类向量进行预置分类算法的处理,得到待分类文档的分类结果。
需要说明的是,本申请实施例对预置分类算法并不进行限定,可以采用任何一种现有的分类算法对总分类向量进行处理,得到文档A的分类结果。
进一步的,在将待分类文档中各词汇进行组合后,获得的词汇组的数目将非常地庞大,特别是词汇组中包括的词汇越多,词汇组的数目越大。因此,会增加文本分类中的计算量和计算复杂度。为了减少计算量和降低计算复杂度,在得到待分类文档词汇组集合后,对所述待分类文档词汇组集合中的词汇组进行筛选,则所述统计待分类文档词汇组集合中各词汇组的词频,并从预先获得的词汇组向量中提取所述待分类文档词汇组集合中的各词汇组的向量包括:统计经筛选后得到的词汇组的词频,并从预先获得的词汇组向量中提取所述待分类文档词汇组集合中经筛选后得到的词汇组的向量。
这里需要说明的是,可以根据具体的使用需求,任意设置筛选规则,并利用筛选规则对待分类文档词汇组集合中的词汇组进行筛选,本实施例对此并不限定。
由上述实施例可以看出,利用词汇组词频替代原有的单个词汇的词频,在此基础上,统计词汇组的词频,当从预先基于样本文档获得的词汇组向量中提取待分类文档词汇组集合中的各词汇组的向量后,将待分类文档词汇组集合中各词汇组的词频作为词汇组的向量数,对提取的各词汇组的所有向量进行求和,得到总分类向量,对所述总分类向量进行预置分类算法的处理,得到待分类文档的分类结果。由于整个文本分类方法是基于词汇组的词频进行的,考虑了词汇与词汇之间的相互影响和相互关联,相对于现有的文类方法,提高了分类结果的准确性。
同时,基于单个词汇的词频的文档分类方法容易受到个别词频高的词汇的影响。即,可能几个个别的词汇就能决定整篇文档的分类结果。比如,“硝酸钾”在化学领域是一个词频较高的词汇,它就很有可能会成为一种奇异词汇。当任何文档出现“硝酸钾”这个奇异词汇时,它都会使分类的结果最终为化学。可见,奇异词对分类结果有很大地影响,而也影响了分类结果的准确性。而在基于词汇组的词频的文档分类方法中,由于奇异词需要与其它非奇异词组合成词汇组,奇异词的情况得到极大地遏制,奇异词对分类结果的影响也被弱化了,最终提高了分类结果的准确性。
进一步的,当得到待分类文档词汇组集合后,对该词汇组集合中的词汇组进行筛选,后续,只统计经筛选后得到的词汇组的词频,可以进一步减少计算量和降低计算复杂度。
实施例二
下面以一个具体的应用场景为例详细说明文本的分类方法。其中,在该应用场景中,将待分类文档中任意两个词汇进行组合,获得一个词汇组,并进一步通过计算两个词汇的词频的算数均值的方法,获得一个词汇组的词频。请参阅图2,其为本申请一种文本分类方法的另一个实施例的流程图,该方法包括以下步骤:
步骤201:抽取样本文档,其中,样本文档为预先经过人工识别而具有确定类别的文档;
例如,人工抽取一些文档,并通过人工识别的方式将抽取的文档的划分到确定的类别中,如,将抽取的文档划分到政治、军事和经济中的任意一个类别内。
需要说明的是,本申请实施例并不对样本文档的数量进行限定。当然,抽取的样本数量越多,最终,文本分类的准确性越高。
步骤202:将样本文档进行分词,对样本文档中任意两个词汇进行组合,得到样本文档词汇组集合;
例如,样本文档经分词后有100个词汇,将100个词汇中的任意两个词汇进行组合,共可以得到
Figure BSA00000284648300091
个词汇组,4950个词汇组构成第一词汇组集合。
需要说明的是,本申请实施例对分词的方法不进行限定,可以采用任何现有的分词方法进行分词。
步骤203:统计样本文档词汇组集合中各词汇组的词频,将同一词汇组在各样本文档类别中的词频组成词频向量;
例如,当统计出样本文档词汇组集合中所有词汇的词频后,将同一个词汇组在步骤201中确定的各样本文档类别中的词频组成词频向量。如,对于一个词汇组“***”和“周恩来”而言,在政治类的文档、军事类的文档和经济类的文档中经常出现。其中,可以先分别统计“***”和“周恩来”两个词汇在待分类文档中的词频,然后根据两个词汇的词频,计算得到词汇组“***”和“周恩来”的词频。如果经过统计后,该词汇组在所有政治类的样本文档中出现的次数为1次,在所有军事类样本文档中出现的次数为10次,在所有经济类样本文档中出现的次数为100次,则将词汇组“***”和“周恩来”在各样本文档类别中的词频组成的词频向量为(1,10,100)。
步骤204:将各个词汇组的词频向量进行归一化处理,得到词汇组向量;
例如,以上述步骤203中获得的词频向量(1,10,100)为例,通过归一化方法得到词汇组向量为(0.009,0.09,0.901)。
当然,本申请实施例对归一化的处理方法并不进行限定,可以采用任何一种归一化的处理方法对词频向量进行归一化处理。
步骤205:将待分类文档进行分词,对待分类文档中的任意两个词汇进行组合,得到待分类文档词汇组集合;
对待分类文档的组合方式与步骤202中对样本文档中各词汇的组合方式相同,本步骤可以参考步骤202执行。
步骤206:统计待分类文档词汇组集合中所有词汇的词频,并从步骤204获得的词汇组向量中提取待分类文档中的各词汇组的向量;
例如,当待分类文档词汇组集合中包括有词汇组“***”和“周恩来”,并且按照步骤203中的方法统计出该词汇组的词频为10次,则从步骤204所获得的词汇组向量中提取词汇组“***”和“周恩来”的词汇组向量(0.009,0.09,0.901)。
步骤207:将待分类文档中各词汇组的词频作为词汇组的向量数,对提取的各词汇组的所有向量求和,得到总分类向量;
例如,对于欧式空间来说,如果文档A中词汇组a的词频为2,词汇组b的词频为3,词汇组a的子分类向量为m,词汇组b的子分类向量为n,......,则待分类文档的总分类向量=2×m+3×n+...+...。
步骤208:将总分类向量进行预置分类算法的处理,得到待分类文档的分类结果。
需要说明的是,本申请实施例对预置分类算法并不进行限定,可以采用任何一种现有的分类算法对总分类向量进行处理,得到文档A的分类结果。
例如,可以比较总分类向量中的数值,将最大数值所指向的类别作为待分类文档的类别。如,对于一个总分类向量为(0.2,0.3,0.5)的待分类文档来说,最大数值0.5所指向的类别为经济,则该待分类文档为经济类。当然,除了上述分类算法之外,还可以采用其他的分类算法得出分类结果。
由上述实施例可以看出,利用词汇组词频替代原有的单个词汇的词频,在此基础上,统计词汇组的词频,当从预先基于样本文档获得的词汇组向量中提取待分类文档词汇组集合中的各词汇组的向量后,将待分类文档词汇组集合中各词汇组的词频作为词汇组的向量数,对提取的各词汇组的所有向量进行求和,得到总分类向量,对所述总分类向量进行预置分类算法的处理,得到待分类文档的分类结果。由于整个文本分类方法是基于词汇组的词频进行的,考虑了词汇与词汇之间的相互影响和相互关联,相对于现有的文类方法,提高了分类结果的准确性。
同时,基于单个词汇的词频的文档分类方法容易受到个别词频高的词汇的影响。即,可能几个个别的词汇就能决定整篇文档的分类结果。比如,“硝酸钾”在化学领域是一个词频较高的词汇,它就很有可能会成为一种奇异词汇。当任何文档出现“硝酸钾”这个奇异词汇时,它都会使分类的结果最终为化学。可见,奇异词对分类结果有很大地影响,而也影响了分类结果的准确性。而在基于词汇组的词频的文档分类方法中,由于奇异词需要与其它非奇异词组合成词汇组,奇异词的情况得到极大地遏制,奇异词对分类结果的影响也被弱化了,最终提高了分类结果的准确性。
进一步的,当得到待分类文档词汇组集合后,对该词汇组集合中的词汇组进行筛选,后续,只统计经筛选后得到的词汇组的词频,可以进一步减少计算量和降低计算复杂度。
实施例四
与上述一种文本分类方法相对应,本申请实施例还提供了一种文本分类装置。请参阅图3,其为本申请一种文本分类装置的一个实施例的结构图,该装置包括:词汇组合模块301、词频统计模块302、向量提取模块303、向量求和模块304和分类模块305。下面结合该装置的工作原理进一步介绍其内部结构以及连接关系。
词汇组合模块301,用于将待分类文档进行分词,对分词得到的各词汇进行组合,得到待分类文档词汇组集合,其中,待分类文档词汇组集合中的各词汇组包括至少两个词汇;
词频统计模块302,用于统计所述待分类文档词汇组集合中各词汇组的词频;
向量提取模块303,用于从预先获得的词汇组向量中提取所述待分类文档词汇组集合中的各词汇组的向量,其中,所述预先获得词汇组向量是预先将具有确定类别的样本文档进行分词,对分词得到的各词汇进行组合,得到样本文档词汇组集合,统计所述样本文档词汇组集合中各词汇组的词频,将同一词汇组在各样本文档类别中的词频组成词频向量,对所述词频向量进行归一化处理,得到词汇组向量,其中,样本文档词汇组集合中各词汇组包括至少两个词汇;
向量求和模块304,用于将待分类文档中各词汇组的词频作为词汇组的向量数,对上述提取的各词汇组的所有向量求和,得到总分类向量;
分类模块305,用于对所述总分类向量进行预置分类算法的处理,得到待分类文档的分类结果。
优选的,请参阅图4,其为本申请文本分类装置中词汇组合模块的一个结构示意图,词汇组合模块301包括:分词子模块3011和词汇组组合子模块3012,
分词子模块3011,用于将待分类文档进行分词,得到待分类文档中的所有词汇;
词汇组组合子模块3012,用于将得到的词汇进行两两组合,得到待分类文档词汇组集合,其中,各待分类文档词汇组都包括两个词汇。
优选的,请参阅图5,其为本申请文本分类装置中词频统计模块的一个结构示意图,词频统计模块302包括:单词词频统计子模块3021和词频计算子模块3022,
单词词频统计子模块3021,用于统计待分类文档中单个词汇的词频;
词频计算子模块3022,用于根据所述待分类文档词汇组集合中各词汇组中单个词汇的词频,计算得到所述待分类文档词汇组集合中各词汇组的词频。
优选的,请参阅图6,其为本申请一种文本分类装置的另一个实施例的结构图。如图6所示,除了包括词汇组合模块301、词频统计模块302、向量提取模块303、向量求和模块304和分类模块305之外,还进一步包括:筛选模块306,用于在得到待分类文档词汇组集合后,对所述待分类文档词汇组集合中的词汇组进行筛选,则词频统计模块302,用于统计经筛选后得到的词汇组的词频,从预先获得的词汇组向量中提取所述待分类文档词汇组集合中经筛选后得到的词汇组的向量。
由上述实施例可以看出,利用词汇组词频替代原有的单个词汇的词频,在此基础上,统计词汇组的词频,当从预先基于样本文档获得的词汇组向量中提取待分类文档词汇组集合中的各词汇组的向量后,将待分类文档词汇组集合中各词汇组的词频作为词汇组的向量数,对提取的各词汇组的所有向量进行求和,得到总分类向量,对所述总分类向量进行预置分类算法的处理,得到待分类文档的分类结果。由于整个文本分类方法是基于词汇组的词频进行的,考虑了词汇与词汇之间的相互影响和相互关联,相对于现有的文类方法,提高了分类结果的准确性。
同时,基于单个词汇的词频的文档分类方法容易受到个别词频高的词汇的影响。即,可能几个个别的词汇就能决定整篇文档的分类结果。比如,“硝酸钾”在化学领域是一个词频较高的词汇,它就很有可能会成为一种奇异词汇。当任何文档出现“硝酸钾”这个奇异词汇时,它都会使分类的结果最终为化学。可见,奇异词对分类结果有很大地影响,而也影响了分类结果的准确性。而在基于词汇组的词频的文档分类方法中,由于奇异词需要与其它非奇异词组合成词汇组,奇异词的情况得到极大地遏制,奇异词对分类结果的影响也被弱化了,最终提高了分类结果的准确性。
进一步的,当得到待分类文档词汇组集合后,对该词汇组集合中的词汇组进行筛选,后续,只统计经筛选后得到的词汇组的词频,可以进一步减少计算量和降低计算复杂度。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上对本申请所提供的一种文本分类方法和装置进行了详细介绍,本文中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种文本分类方法,其特征在于,包括:
将待分类文档进行分词,对分词得到的各词汇进行组合,得到待分类文档词汇组集合,其中,待分类文档词汇组集合中的各词汇组包括至少两个词汇;
统计所述待分类文档词汇组集合中各词汇组的词频;
从预先获得的词汇组向量中提取所述待分类文档词汇组集合中的各词汇组的向量,其中,所述预先获得词汇组向量是预先将具有确定类别的样本文档进行分词,对分词得到的各词汇进行组合,得到样本文档词汇组集合,统计所述样本文档词汇组集合中各词汇组的词频,将同一词汇组在各样本文档类别中的词频组成词频向量,对所述词频向量进行归一化处理,得到词汇组向量,其中,样本文档词汇组集合中各词汇组包括至少两个词汇;
将待分类文档中各词汇组的词频作为词汇组的向量数,对上述提取的各词汇组的所有向量求和,得到总分类向量;
对所述总分类向量进行预置分类算法的处理,得到待分类文档的分类结果。
2.根据权利要求1所述的文本分类方法,其特征在于,所述将具有确定类别的样本文档进行分词,对分词得到的各词汇进行组合,得到样本文档词汇组集合包括:
将样本文档进行分词,得到样本文档中的所有词汇;
将得到的词汇进行两两组合,得到样本文档词汇组集合,其中,各样本文档词汇组都包括两个词汇。
3.根据权利要求1所述的文本分类方法,其特征在于,所述统计样本文档词汇组集合中各词汇组的词频包括:
统计样本文档中单个词汇的词频;
根据所述样本文档词汇组集合的各词汇组中单个词汇的词频,计算得到所述样本文档词汇组集合的各词汇组的词频。
4.根据权利要求1所述的文本分类方法,其特征在于,所述将待分类文档进行分词,对分词得到的各词汇进行组合,得到待分类文档词汇组集合包括:
将待分类文档进行分词,得到待分类文档中的所有词汇;
将得到的词汇进行两两组合,得到待分类文档词汇组集合,其中,各待分类文档词汇组都包括两个词汇。
5.根据权利要求1所述的文本分类方法,其特征在于,所述统计待分类文档词汇组集合中各词汇组的词频包括:
统计待分类文档中单个词汇的词频;
根据所述待分类文档词汇组集合的各词汇组中单个词汇的词频,计算得到所述待分类文档词汇组集合的各词汇组的词频。
6.根据权利要求1-5中的任意一项所述的文本分类方法,其特征在于,在得到待分类文档词汇组集合后,对所述待分类文档词汇组集合中的词汇组进行筛选,
则所述统计待分类文档词汇组集合中各词汇组的词频,从预先获得的词汇组向量中提取所述待分类文档词汇组集合中的各词汇组的向量包括:统计经筛选后得到的词汇组的词频,从预先获得的词汇组向量中提取所述待分类文档词汇组集合中经筛选后得到的词汇组的向量。
7.一种文本分类装置,其特征在于,包括:
词汇组合模块,用于将待分类文档进行分词,对分词得到的各词汇进行组合,得到待分类文档词汇组集合,其中,待分类文档词汇组集合中的各词汇组包括至少两个词汇;
词频统计模块,用于统计所述待分类文档词汇组集合中各词汇组的词频;
向量提取模块,用于从预先获得的词汇组向量中提取所述待分类文档词汇组集合中的各词汇组的向量,其中,所述预先获得词汇组向量是预先将具有确定类别的样本文档进行分词,对分词得到的各词汇进行组合,得到样本文档词汇组集合,统计所述样本文档词汇组集合中各词汇组的词频,将同一词汇组在各样本文档类别中的词频组成词频向量,对所述词频向量进行归一化处理,得到词汇组向量,其中,样本文档词汇组集合中各词汇组包括至少两个词汇;
向量求和模块,用于将待分类文档中各词汇组的词频作为词汇组的向量数,对上述提取的各词汇组的所有向量求和,得到总分类向量;
分类模块,用于对所述总分类向量进行预置分类算法的处理,得到待分类文档的分类结果。
8.根据权利要求7所述的文本分类装置,其特征在于,所述词汇组合模块包括:
分词子模块,用于将待分类文档进行分词,得到待分类文档中的所有词汇;
词汇组组合子模块,用于将得到的词汇进行两两组合,得到待分类文档词汇组集合,其中,各待分类文档词汇组都包括两个词汇。
9.根据权利要求7所述的文本分类装置,其特征在于,所述词频统计模块包括:
单词词频统计子模块,用于统计待分类文档中单个词汇的词频;
词频计算子模块,用于根据所述待分类文档词汇组集合中各词汇组中单个词汇的词频,计算得到所述待分类文档词汇组集合中各词汇组的词频。
10.根据权利要求7-9中的任意一项所述的文本分类装置,其特征在于,所述文本分类模块还包括:
筛选模块,用于在得到待分类文档词汇组集合后,对所述待分类文档词汇组集合中的词汇组进行筛选,
则词频统计模块,用于统计经筛选后得到的词汇组的词频,从预先获得的词汇组向量中提取所述待分类文档词汇组集合中经筛选后得到的词汇组的向量。
CN 201010292461 2010-09-21 2010-09-21 一种文本分类方法和装置 Active CN102411592B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN 201010292461 CN102411592B (zh) 2010-09-21 2010-09-21 一种文本分类方法和装置
HK12106886.0A HK1166384A1 (en) 2010-09-21 2012-07-12 Method and apparatus for classifying text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010292461 CN102411592B (zh) 2010-09-21 2010-09-21 一种文本分类方法和装置

Publications (2)

Publication Number Publication Date
CN102411592A true CN102411592A (zh) 2012-04-11
CN102411592B CN102411592B (zh) 2013-08-07

Family

ID=45913667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010292461 Active CN102411592B (zh) 2010-09-21 2010-09-21 一种文本分类方法和装置

Country Status (2)

Country Link
CN (1) CN102411592B (zh)
HK (1) HK1166384A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978354A (zh) * 2014-04-10 2015-10-14 中电长城网际***应用有限公司 文本分类方法和装置
CN105095209A (zh) * 2014-04-21 2015-11-25 北京金山网络科技有限公司 文档聚类方法及装置、网络设备
CN106156163A (zh) * 2015-04-15 2016-11-23 株式会社日立制作所 文本分类方法以及装置
CN106997340A (zh) * 2016-01-25 2017-08-01 阿里巴巴集团控股有限公司 词库的生成以及利用词库的文档分类方法及装置
CN107992501A (zh) * 2016-10-27 2018-05-04 腾讯科技(深圳)有限公司 社交网络信息识别方法、处理方法及装置
CN111177379A (zh) * 2019-12-20 2020-05-19 深圳市优必选科技股份有限公司 低精度问题的归类方法、智能终端及计算机可读存储介质
CN113032562A (zh) * 2021-03-18 2021-06-25 中国人民解放***箭军工程大学 一种多次迭代对折词汇层级分类方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN101059805A (zh) * 2007-03-29 2007-10-24 复旦大学 基于网络流和分层知识库的动态文本聚类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN101059805A (zh) * 2007-03-29 2007-10-24 复旦大学 基于网络流和分层知识库的动态文本聚类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
伍建军,康耀红: "《基于改进的互信息特征选择的文本分类》", 《计算机应用》 *
姜远; 周志华;: "《基于词频分类器集成的文本分类方法》", 《计算机研究与发展》 *
张鹏飞; 李赟; 刘建毅; 钟义信;: "《基于相对词频的文本特征抽取方法》", 《计算机应用研究》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978354A (zh) * 2014-04-10 2015-10-14 中电长城网际***应用有限公司 文本分类方法和装置
CN105095209A (zh) * 2014-04-21 2015-11-25 北京金山网络科技有限公司 文档聚类方法及装置、网络设备
CN106156163A (zh) * 2015-04-15 2016-11-23 株式会社日立制作所 文本分类方法以及装置
CN106156163B (zh) * 2015-04-15 2021-06-22 株式会社日立制作所 文本分类方法以及装置
CN106997340A (zh) * 2016-01-25 2017-08-01 阿里巴巴集团控股有限公司 词库的生成以及利用词库的文档分类方法及装置
CN106997340B (zh) * 2016-01-25 2020-07-31 阿里巴巴集团控股有限公司 词库的生成以及利用词库的文档分类方法及装置
CN107992501A (zh) * 2016-10-27 2018-05-04 腾讯科技(深圳)有限公司 社交网络信息识别方法、处理方法及装置
CN111177379A (zh) * 2019-12-20 2020-05-19 深圳市优必选科技股份有限公司 低精度问题的归类方法、智能终端及计算机可读存储介质
CN111177379B (zh) * 2019-12-20 2023-05-23 深圳市优必选科技股份有限公司 低精度问题的归类方法、智能终端及计算机可读存储介质
CN113032562A (zh) * 2021-03-18 2021-06-25 中国人民解放***箭军工程大学 一种多次迭代对折词汇层级分类方法及***
CN113032562B (zh) * 2021-03-18 2024-02-02 中国人民解放***箭军工程大学 一种多次迭代对折词汇层级分类方法及***

Also Published As

Publication number Publication date
CN102411592B (zh) 2013-08-07
HK1166384A1 (en) 2012-10-26

Similar Documents

Publication Publication Date Title
Guo et al. Augmenting data with mixup for sentence classification: An empirical study
CN100583101C (zh) 基于领域知识的文本分类特征选择及权重计算方法
CN102411592B (zh) 一种文本分类方法和装置
CN110442722B (zh) 分类模型训练的方法及装置、数据分类的方法及装置
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
WO2017097231A1 (zh) 话题处理方法及装置
CN107844559A (zh) 一种文件分类方法、装置及电子设备
CN104361037B (zh) 微博分类方法及装置
CN108874921A (zh) 提取文本特征词的方法、装置、终端设备及存储介质
CN105975491A (zh) 企业新闻分析方法及***
CN107729520B (zh) 文件分类方法、装置、计算机设备及计算机可读介质
CN103886077B (zh) 短文本的聚类方法和***
CN110442842A (zh) 合同内容的提取方法及装置、计算机设备、存储介质
CN109241392A (zh) 目标词的识别方法、装置、***及存储介质
CN104462229A (zh) 一种事件分类方法及装置
CN105045913A (zh) 基于WordNet以及潜在语义分析的文本分类方法
CN111639185B (zh) 关系信息抽取方法、装置、电子设备和可读存储介质
CN103577587A (zh) 一种新闻主题分类方法
CN103246686A (zh) 文本分类方法和装置及文本分类的特征处理方法和装置
CN103268346A (zh) 半监督分类方法及***
Roy et al. Region selection in handwritten character recognition using artificial bee colony optimization
CN108153726A (zh) 文本处理方法和装置
CN101673305A (zh) 行业分类方法、装置和服务器
CN102034117B (zh) 一种图像分类方法和装置
Knight et al. Hypergen-a distributed genetic algorithm on a hypercube

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1166384

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1166384

Country of ref document: HK

TR01 Transfer of patent right

Effective date of registration: 20211118

Address after: Room 554, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: TAOBAO (CHINA) SOFTWARE CO.,LTD.

Address before: Box four, 847, capital building, Grand Cayman Island capital, Cayman Islands, UK

Patentee before: ALIBABA GROUP HOLDING Ltd.

TR01 Transfer of patent right