CN106372117A

CN106372117A - 一种基于词共现的文本分类方法及其装置

Info

Publication number: CN106372117A
Application number: CN201610709153.2A
Authority: CN
Inventors: 李科; 谈佳丽; 李扬帆; 杨家富
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-08-23
Filing date: 2016-08-23
Publication date: 2017-02-01
Anticipated expiration: 2036-08-23
Also published as: CN106372117B

Abstract

本发明涉及计算机技术领域，公开了一种基于词共现的文本分类方法及其装置。所述文本分类方法及其装置，不但应用主题词表和修饰词表两种词表的匹配来进行综合性分类考量，还从宏观词共现和微观词共现两种维度来分析文本词汇与主题词表的共现相关度，由此不但可简化算法，提高分类速度和效率，还可以提高文本分类的准确性，满足文本分类的高精确度要求，便于实际推广和应用。

Description

一种基于词共现的文本分类方法及其装置

技术领域

本发明涉及计算机技术领域，具体地，涉及一种基于词共现的文本分类方法及其装置。

背景技术

随着电子计算机应用技术的日益成熟和互联网的迅速发展，人类社会进入了一个信息***的时代。在这个信息***的时代，知识合理分类的期望与需求愈发迫切。如何在海量信息中快速有效地找到用户所需要的信息，是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术，可以在较大程度上解决信息杂乱现象的问题，方便用户准确地定位所需的信息和分流信息，其作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础，有着广泛的应用前景。

为了对文本进行分类，传统方法为基于知识工程的分类方法，即由专业人员手工编写分类规则来指导分类。而现在，基于机器学习的文本分类方法虽然也有所发展，例如采用训练语料进行分类器训练，然后用训练后的分类器对文本进行分类，但是这种分类方式存在效率低下和精确度低的问题。

发明内容

针对前述现有技术的问题，本发明提供了一种基于词共现的文本分类方法及其装置，其不但应用主题词表和修饰词表两种词表的匹配来进行综合性分类考量，还从宏观词共现和微观词共现两种维度来分析文本词汇与主题词表的共现相关度，由此不但可简化算法，提高分类速度和效率，还可以提高文本分类的准确性，满足文本分类的高精确度要求，便于实际推广和应用。

本发明采用的技术方案，一方面提供了一种基于词共现的文本分类方法，包括步骤如下：S101.获取主题词表和修饰词表，所述主题词表中包含有K个类别的分类主题词集，所述修饰词表包含有K个类别的分类修饰词集，其中，K为不小于2的自然数，所述主题词表中的类别与所述修饰词表中的类别一一对应；S102.对待分类文本d进行预处理，获取文本特征词集；S103.针对各个类别，一方面将对应的分类主题词集与所述文本特征词集进行匹配，进而利用TF-IDF统计方法计算所述待分类文本d与分类主题词集的第一共现相关度Sim₁(Q_k ^T,d)，同时利用构建词共现图时的词对共现度计算方法计算待分类文本d与分类主题词集的第二共现相关度Sim₂(Q_k ^T,d)，另一方面将对应的分类修饰词集与所述文本特征词集进行匹配，利用语言模型计算所述待分类文本d与分类修饰词集的第三共现相关度Sim₃(Q_k ^F,d)，最后根据如下线性公式得到所述待分类文本d与该类别对应的综合共现相关度Sim(Q_k,d)：

Sim(Q_k,d)＝b*(a*Sim₁(Q_k ^T,d)+(1-a)*Sim₂(Q_k ^T,d))+(1-b)*Sim₃(Q_k ^F,d)

式中，Q_k为第k个类别，Q_k ^T为第k个类别的分类主题词集，Q_k ^F为第k个类别的分类修饰词集，k为介于1～K之间的自然数，a和b分别为介于0～1之间的权重系数；S104.确定所有综合共现相关度的最高值，并查找到与所述最高值对应的类别，将所述待分类文本分类至该类别。

优化的，所述待分类文本d包含有若干篇子集，则所述利用TF-IDF统计方法计算所述待分类文本d与分类主题词集的第一共现相关度Sim₁(Q_k ^T,d)的公式如下：

{Sim}_{1} ({Q_{k}}^{T}, d) = Σ_{i = 1, j = 1}^{I, J} (t f (c_{i}, t_{k, j}) * i t f (c_{i}, t_{k, j}))

式中，c_i为文本特征词集D中第i个文本特征词，t_k,j为分类主题词集Q_k ^T中第_j个主题词，I为文本特征词集D中文本特征词总数，J为分类主题词集Q_k ^T中主题词总数，tf(c_i,t_k,j)为在含有主题词t_k,j的子集中文本特征词c_i的词频，itf(c_i,t_k,j)为文本特征词c_i相对于主题词t_k,j的逆向词频。

进一步优化的，所述词频tf(c_i,t_k,j)的计算公式如下：

tf(c_i,t_k,j)＝log(f(c_i,t_k,j)+1.0)

式中，f(c_i,t_k,j)为在含有主题词t_k,j的子集中包含文本特征词c_i的总数。

进一步优化的，所述逆向词频itf(c_i,t_k,j)的计算公式如下：

i t f (c_{i}, t_{k, j}) = l o g (\frac{J}{n (T (c_{i}))} + 1.0)

式中，n(T(c_i))为在含有主题词t_k,j的子集中包含文本特征词c_i的子集总数。

优化的，所述利用构建词共现图时的词对共现度计算方法计算待分类文本d与分类主题词集的第二共现相关度Sim₂(Q_k ^T,d)的计算公式如下：

{Sim}_{2} ({Q_{k}}^{T}, d) = Σ_{i = 1, j = 1}^{I, J} {sim}_{2} (c_{i}, t_{k, j})

式中，

c_i为文本特征词集中第i个文本特征词，t_k,j为分类主题词集Q_k ^T中第_j个主题词，I为文本特征词集中文本特征词总数，J为分类主题词集Q_k ^T中主题词总数，f(c_it_k,j)为文本特征词c_i和主题词t_k,j在所述待分类文本d中且同一个句子中的共同出现次数，f(c_i)为文本特征词c_i在所述待分类文本d中出现的次数，f(t_k,j)为主题词t_k,j在所述待分类文本d中出现的次数。

优化的，所述利用语言模型计算所述待分类文本d与分类修饰词集的第三共现相关度Sim₃(Q_k ^F,d)的计算公式如下：

{Sim}_{3} ({Q_{k}}^{T}, d) = Σ_{n}^{N} \log P (f_{k, n} | d)

式中，P(f_k,n|d)为在所述待分类文本d中生成修饰词f_k,n的概率，f_k,n为在分类主题词集Q_k ^F中第n个修饰词，N为分类修饰词集Q_k ^T中修饰词的总数。

进一步优化的，所述概率P(f_k,n|d)采用Dirichlet平滑方法来估计，其计算公式如下：

P (f_{k, n} | d) = \frac{f (f_{k, n}, d) + u \frac{f (f_{k, n}, D)}{n (D)}}{n (d) + u}

式中，f(f_k,n,d)为在所述文本特征词集中修饰词f_k,n的数量，f(f_k,n,D)为在文档集D的文本特征词集中修饰词f_k,n的数量，n(D)为在文档集D的文本特征词集中特征词总数，n(d)为所述文本特征词集中特征词总数，u为介于100～200之间的系数，所述文档集D为本地所有已分类文档和所有待分类文档的集合。

优化的，在所述对待分类文本d进行预处理，获取文本特征词集的步骤中包含如下步骤：先采用汉语词法分析***ICTCLAS中的中文分词功能对所述待分类文本d进行分词处理，然后去除停用词，获取所述文本特征词集。

优化的，所述权重系数a介于0.55～0.65之间，所述权重系数b介于0.35～0.45之间。

本发明采用的技术方案，另一方面提供了一种实现前述基于词共现的文本分类方法的装置，包括依次相连的词表获取单元、文本预处理单元、计算单元和分类判定单元；所述词表获取单元，用于获取主题词表和修饰词表，所述主题词表中包含有K个类别的分类主题词集，所述修饰词表包含有K个类别的分类修饰词集，其中，K为不小于2的自然数，所述主题词表中的类别与所述修饰词表中的类别一一对应；所述文本预处理单元，用于获对待分类文本d进行预处理，获取文本特征词集；所述计算单元，用于针对各个类别，一方面将对应的分类主题词集与所述文本特征词集进行匹配，进而利用TF-IDF统计方法计算所述待分类文本d与分类主题词集的第一共现相关度Sim₁(Q_k ^T,d)，同时利用构建词共现图时的词对共现度计算方法计算待分类文本d与分类主题词集的第二共现相关度Sim₂(Q_k ^T,d)，另一方面将对应的分类修饰词集与所述文本特征词集进行匹配，利用语言模型计算所述待分类文本d与分类修饰词集的第三共现相关度Sim₃(Q_k ^F，d)最后根据如下线性公式得到所述待分类文本d与该类别对应的综合共现相关度Sim(Q_k,d)：

式中，Q_k为第k个类别，Q_k ^T为第k个类别的分类主题词集，Q_k ^F为第k个类别的分类修饰词集，k为介于1～K之间的自然数，a和b分别为介于0～1之间的权重系数；所述分类判定单元，用于确定所有综合共现相关度的最高值，并查找到与所述最高值对应的类别，将所述待分类文本分类至该类别。

综上，采用本发明所提供的一种基于词共现的文本分类方法及其装置，具有如下有益效果：(1)本发明将文本分类分为两个部分：主题词表与文本内容的匹配和修饰词表与文本内容的匹配，并通过宏观词共现和微观词共现来分析词汇与主题词之间的相关度，由此不但可简化算法，提高分类速度和效率，还可以提高文本分类的准确性，满足文本分类的高精确度要求；(2)在分类处理过程中，由于加入了经典语言模型下的匹配，可进一步提高文本分类的准确性，便于实际推广和应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于词共现的文本分类方法的流程示意图。

图2是本发明提供的词共现图的举例示意图。

图3是本发明提供的实现基于词共现的文本分类方法的装置的结构示意图。

具体实施方式

以下将参照附图，通过实施例方式详细地描述本发明提供的基于词共现的文本分类方法及其装置。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况，本文中术语“/和”是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况，另外，本文中字符“/”，一般表示前后关联对象是一种“或”关系。

实施例一

图1示出了本发明提供的基于词共现的文本分类方法的流程示意图，图2示出了本发明提供的词共现图的举例示意图。本实施例提供的所述基于词共现的文本分类方法，包括步骤如下。

S101.获取主题词表和修饰词表，所述主题词表中包含有K个类别的分类主题词集，所述修饰词表包含有K个类别的分类修饰词集，其中，K为不小于2的自然数，所述主题词表中的类别与所述修饰词表中的类别一一对应。

在步骤S101中，所述获取主题词表和修饰词表的方式，可以是读取存储单元中已经构建好的主题词表和修饰词表，也可以是利用权威知识库来即时获取主题词表和修饰词表。以针对睡眠知识的文本分类为例，先通过如下两种措施中的任意一种构建主题词表：(1)利用***，即根据“睡眠”搜索词，在***进行搜索，然后参考对应的目录，把睡眠主题词表与分成几大类，抽取一级类目主题词，并根据目录对应内容，抽取下级类目主题词，从而构建起主题词表；(2)利用问答网页抽取主题词，即在专业主题词的基础上，添加用户非专业习惯用词，具体来说就是，选择现有权威的健康社区，如搜狐健康网，对用户提问及发表博客进行筛选、采集和分析，得到与各类证型共现的表证词，经由领域专家确认后作为有意义的词汇，再纳入到规范主题词的同义词中，实现专业描述词语用户语词的映射，从而构建起主题词表。然后利用已构建的主题词建立修饰词表，即选出与主题词表中主题词相配合使用的修饰词构建修饰词表，例如针对同一类别下的主题词“血压”，与“血压”相配合使用修饰词“高”、“低”和“波动”等即为对应类别下的修饰词。

S102.对待分类文本d进行预处理，获取文本特征词集。

在步骤S102中，可以但不限于通过网络爬虫的方式从网络上爬取有效文本资源作为所述待分类文本。同时优化的，在所述对待分类文本d进行预处理，获取文本特征词集的步骤中包含如下步骤：先采用汉语词法分析***ICTCLAS中的中文分词功能对所述待分类文本d进行分词处理，然后去除停用词，获取所述文本特征词集。所述汉语词法分析***ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)是中国科学院计算技术研究所在多年研究工作积累的基础上，研制出的一种汉语分词***，其主要功能包括中文分词、词性标注、命名实体识别及新词识别等，目前已经升级到了ICTCLAS3.0版本：ICTCLAS3.0版本的单机分词速度为996KB/s，分词精度为98.45％，API(Appl ication Programming Interface,应用程序编程接口)不超过200KB，各种词典数据压缩后不到3M，是当前世界上最好的汉语词法分析器。

S103.针对各个类别，一方面将对应的分类主题词集与所述文本特征词集进行匹配，进而利用TF-IDF统计方法计算所述待分类文本d与分类主题词集的第一共现相关度Sim₁(Q_k ^T,d)，同时利用构建词共现图时的词对共现度计算方法计算待分类文本d与分类主题词集的第二共现相关度Sim₂(Q_k ^T,d)，另一方面将对应的分类修饰词集与所述文本特征词集进行匹配，利用语言模型计算所述待分类文本d与分类修饰词集的第三共现相关度Sim₃(Q_k ^F,d)，最后根据如下线性公式得到所述待分类文本d与该类别对应的综合共现相关度Sim(Q_k,d)：

式中，Q_k为第k个类别，Q_k ^T为第k个类别的分类主题词集，Q_k ^F为第k个类别的分类修饰词集，k为介于1～K之间的自然数，a和b分别为介于0～1之间的权重系数。

在步骤S103中，所述待分类文本d包含有若干篇子集，则所述利用TF-IDF统计方法计算所述待分类文本d与分类主题词集的第一共现相关度Sim₁(Q_k ^T,d)的计算公式如下：

{Sim}_{1} ({Q_{k}}^{T}, d) = Σ_{i = 1, j = 1}^{I, J} (t f (c_{i}, t_{k, j}) * i t f (c_{i}, t_{k, j}))

式中，c_i为文本特征词集D中第i个文本特征词，t_k,j为分类主题词集Q_k ^T中第_j个主题词，I为文本特征词集D中文本特征词总数，J为分类主题词集Q_k ^T中主题词总数，tf(c_i,t_k,j)为在含有主题词t_k,j的子集中文本特征词c_i的词频，itf(c_i,t_k,j)为文本特征词c_i相对于主题词t_k,j的逆向词频。所述子集是指在所述待分类文本d中更细化的文本单元，例如章节或者在小说集中的单篇小说文章。所述第一共现相关度为宏观词共现(指通过词汇与主题词在整个文档集不同文档中的共同表现情况来计算共现相关度)的估算结果。TF-IDF(termfrequency–inverse document frequency，词频-逆向文档频率)统计方法是一种用于信息检索与数据挖掘的常用加权技术，用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降，由此结合逆向文档频率IDF和词频TF概念，可以采用控制单一变量的方法来分析词汇、文档、主题词三者之间的关系，进而得到高准确性的词汇与主题词间的宏观相关关系——即所述第一共现相关度。其中，进一步优化的，所述词频tf(c_i,t_k,j)的计算公式如下：

tf(c_i,t_k,j)＝log(f(c_i,t_k,j)+1.0)

式中，f(c_i,t_k,j)为在含有主题词t_k,j的子集中包含文本特征词c_i的总数。所述逆向词频itf(c_i,t_k,j)的计算公式如下：

i t f (c_{i}, t_{k, j}) = l o g (\frac{J}{n (T (c_{i}))} + 1.0)

在步骤S103中，所述利用构建词共现图时的词对共现度计算方法计算待分类文本d与分类主题词集的第二共现相关度Sim₂(Q_k ^T,d)的计算公式如下：

{Sim}_{2} ({Q_{k}}^{T}, d) = Σ_{i = 1, j = 1}^{I, J} {sim}_{2} (c_{i}, t_{k, j})

式中，

如图2举例所示的词共现图，其描述了各组词汇对在文档中的关系：相关或者不相关，其中相关的两个词汇肯定会出现在同一连通图中，并直接或间接的在词共现图中相连，以表示两者存在共现关系，例如图2中的词汇对(W1和W2)，由于存在词对共现度v_(1,2)，因此词W1和W2相连，并用词对共现度v_(1,2)作为两词汇间的无向边权重，该无向边权重的值越小，相应的两个词汇之间的共现度越弱；而对于不相关的两个词汇，则不会出现在同一连通图中，也不相连，例如图2中的词汇对(W6和W7)。由此可以利用构建词共现图时的词对共现度计算方法计算所述第二共现相关度。此外，词对(Wx，Wy)的词对共现度v_(Wx,Wy)的定义公式如下：

v_{(W x, W y)} = \frac{R (W x | W y) + R (W y | W x)}{2}

式中，R(Wx|Wy)为词Wx相对于词Wy的相对共现度，R(Wy|Wx)为词Wy相对于词Wx的相对共现度。

在步骤S103中，所述利用语言模型计算所述待分类文本d与分类修饰词集的第三共现相关度Sim₃(Q_k ^F,d)的计算公式如下：

{Sim}_{3} ({Q_{k}}^{T}, d) = Σ_{n}^{N} \log P (f_{k, n} | d)

式中，P(f_k,n|d)为在所述待分类文本d中生成修饰词f_k,n的概率，f_k,n为在分类主题词集Q_k ^F中第n个修饰词，N为分类修饰词集Q_k ^T中修饰词的总数。所述语言模型可以但不限于为经典的MLE(Maximum Likelihood Estimation，最大似然估计)模型。进一步具体的，所述概率P(f_k,n|d)采用Dirichlet平滑方法来估计，其计算公式如下：

P (f_{k, n} | d) = \frac{f (f_{k, n}, d) + u \frac{f (f_{k, n}, D)}{n (D)}}{n (d) + u}

式中，f(f_k,n,d)为在所述文本特征词集中修饰词f_k,n的数量，f(f_k,n,D)为在文档集D的文本特征词集中修饰词f_k,n的数量，n(D)为在文档集D的文本特征词集中特征词总数，n(d)为所述文本特征词集中特征词总数，u为介于100～200之间的系数，所述文档集D为本地所有已分类文档和所有待分类文档的集合。作为优化的，在本实施例中，u取值为150。

此外，所述权重系数a和b的具体数值可以根据实验确定最佳值。在实验过程中，将所述权重系数a和b分别设置成0.0、0.2、0.4、0.8和1.0，其中，当所述权重系数a取0.0时，表示只考虑微观词共现，不考虑宏观词共现的影响，当所述权重系数a取1.0时，表示只考虑宏观词共现，不考虑微观词共现的影响，当所述权重系数b取0.0时，表示只考虑对主题词表与文本内容的匹配，当所述权重系数b取1.0时，表示只考虑对修饰词表与文本内容的匹配，由此可以将多方面因素混合起来考量共现相关性。通过实验结果发现，当所述权重系数a介于0.55～0.65之间，且所述权重系数b介于0.35～0.45之间时，最终得到综合共现相关度的准确性较高，符合期望。作为举例的，在本实施例中，所述权重系数a采用0.6，且所述权重系数b采用0.4，可以使最终综合共现相关度的准确性最高。

S104.确定所有综合共现相关度的最高值，并查找到与所述最高值对应的类别，将所述待分类文本分类至该类别。

综上，本实施例所提供的基于词共现的文本分类方法，具有如下技术效果：(1)本发明将文本分类分为两个部分：主题词表与文本内容的匹配和修饰词表与文本内容的匹配，并通过宏观词共现和微观词共现来分析词汇与主题词之间的相关度，由此不但可简化算法，提高分类速度和效率，还可以提高文本分类的准确性，满足文本分类的高精确度要求；(2)在分类处理过程中，由于加入了经典语言模型下的匹配，可进一步提高文本分类的准确性，便于实际推广和应用。

实施例二

图3示出了本发明提供的实现基于词共现的文本分类方法的装置的结构示意图。本实施例提供的所述装置为实现实施例一所述的基于词共现的文本分类方法的装置，包括依次相连的词表获取单元、文本预处理单元、计算单元和分类判定单元；所述词表获取单元，用于获取主题词表和修饰词表，所述主题词表中包含有K个类别的分类主题词集，所述修饰词表包含有K个类别的分类修饰词集，其中，K为不小于2的自然数，所述主题词表中的类别与所述修饰词表中的类别一一对应；所述文本预处理单元，用于获对待分类文本d进行预处理，获取文本特征词集；所述计算单元，用于针对各个类别，一方面将对应的分类主题词集与所述文本特征词集进行匹配，进而利用TF-IDF统计方法计算所述待分类文本d与分类主题词集的第一共现相关度Sim₁(Q_k ^T,d)，同时利用构建词共现图时的词对共现度计算方法计算待分类文本d与分类主题词集的第二共现相关度Sim₂(Q_k ^T，d)，另一方面将对应的分类修饰词集与所述文本特征词集进行匹配，利用语言模型计算所述待分类文本d与分类修饰词集的第三共现相关度Sim₃(Q_k ^F，d)，最后根据如下线性公式得到所述待分类文本d与该类别对应的综合共现相关度Sim(Q_k,d)：

本实施例提供的所述装置的工作方式和技术效果，可以基于实施例一中所描述的内容得到，于此不再赘述。

如上所述，可较好地实现本发明。对于本领域的技术人员而言，根据本发明的教导，设计出不同形式的基于词共现的文本分类方法及其装置并不需要创造性的劳动。在不脱离本发明的原理和精神的情况下对这些实施例进行变化、修改、替换、整合和变型仍落入本发明的保护范围内。

Claims

1.一种基于词共现的文本分类方法，其特征在于，包括步骤如下：

S101.获取主题词表和修饰词表，所述主题词表中包含有K个类别的分类主题词集，所述修饰词表包含有K个类别的分类修饰词集，其中，K为不小于2的自然数，所述主题词表中的类别与所述修饰词表中的类别一一对应；

S102.对待分类文本d进行预处理，获取文本特征词集；

式中，Q_k为第k个类别，Q_k ^T为第k个类别的分类主题词集，Q_k ^F为第k个类别的分类修饰词集，k为介于1～K之间的自然数，a和b分别为介于0～1之间的权重系数；

2.如权利要求1所述的一种基于词共现的文本分类方法，其特征在于，所述待分类文本d包含有若干篇子集，则所述利用TF-IDF统计方法计算所述待分类文本d与分类主题词集的第一共现相关度Sim₁(Q_k ^T,d)的公式如下：

3.如权利要求2所述的一种基于词共现的文本分类方法，其特征在于，所述词频tf(c_i,t_k,j)的计算公式如下：

tf(c_i,t_k,j)＝log(f(c_i,t_k,j)+1.0)

4.如权利要求2所述的一种基于词共现的文本分类方法，其特征在于，所述逆向词频itf(c_i,t_k,j)的计算公式如下：

5.如权利要求1所述的一种基于词共现的文本分类方法，其特征在于，所述利用构建词共现图时的词对共现度计算方法计算待分类文本d与分类主题词集的第二共现相关度Sim₂(Q_k ^T,d)的计算公式如下：

式中，

6.如权利要求1所述的一种基于词共现的文本分类方法，其特征在于，所述利用语言模型计算所述待分类文本d与分类修饰词集的第三共现相关度Sim₃(Q_k ^F,d)的计算公式如下：

7.如权利要求6所述的一种基于词共现的文本分类方法，其特征在于，所述概率P(f_k,n|d)采用Dirichlet平滑方法来估计，其计算公式如下：

8.如权利要求1所述的一种基于词共现的文本分类方法，其特征在于，在所述对待分类文本d进行预处理，获取文本特征词集的步骤中包含如下步骤：

先采用汉语词法分析***ICTCLAS中的中文分词功能对所述待分类文本d进行分词处理，然后去除停用词，获取所述文本特征词集。

9.如权利要求1所述的一种基于词共现的文本分类方法，其特征在于，所述权重系数a介于0.55～0.65之间，所述权重系数b介于0.35～0.45之间。

10.一种实现如权利要求1至9任意一项所述的基于词共现的文本分类方法的装置，其特征在于，包括依次相连的词表获取单元、文本预处理单元、计算单元和分类判定单元；

所述词表获取单元，用于获取主题词表和修饰词表，所述主题词表中包含有K个类别的分类主题词集，所述修饰词表包含有K个类别的分类修饰词集，其中，K为不小于2的自然数，所述主题词表中的类别与所述修饰词表中的类别一一对应；

所述文本预处理单元，用于获对待分类文本d进行预处理，获取文本特征词集；

所述计算单元，用于针对各个类别，一方面将对应的分类主题词集与所述文本特征词集进行匹配，进而利用TF-IDF统计方法计算所述待分类文本d与分类主题词集的第一共现相关度Sim₁(Q_k ^T,d)，同时利用构建词共现图时的词对共现度计算方法计算待分类文本d与分类主题词集的第二共现相关度Sim₂(Q_k ^T,d)，另一方面将对应的分类修饰词集与所述文本特征词集进行匹配，利用语言模型计算所述待分类文本d与分类修饰词集的第三共现相关度Sim₃(Q_k ^F,d)，最后根据如下线性公式得到所述待分类文本d与该类别对应的综合共现相关度Sim(Q_k，d)：

所述分类判定单元，用于确定所有综合共现相关度的最高值，并查找到与所述最高值对应的类别，将所述待分类文本分类至该类别。