CN106599072B

CN106599072B - 一种文本聚类方法及装置

Info

Publication number: CN106599072B
Application number: CN201611035287.7A
Authority: CN
Inventors: 王伟
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2016-11-21
Filing date: 2016-11-21
Publication date: 2020-07-10
Anticipated expiration: 2036-11-21
Also published as: CN106599072A

Abstract

本发明实施例公开了一种文本聚类方法和装置，实现了提高文本聚类效率和质量的目的。其中，所述方法包括：获取待聚类文本，所述待聚类文本中包括各个特征词；对所述待聚类文本的各个特征词进行聚类，得到每一个词聚类类别分别对应的特征词集；构建与每个待聚类文本对应的文本向量，所述文本向量中的每一维表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度；利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类。

Description

一种文本聚类方法及装置

技术领域

本发明涉及自然语言文本智能分析领域，尤其涉及一种文本聚类方法及装置。

背景技术

文本聚类是聚类分析技术在文本处理领域的一种应用。文本聚类的方法能自动发现一个文本集中的若干簇，并将文本集中的所有文本划分成多个簇，使得属于同一个簇中的文本之间的内容具有较高的相似度，而属于不同簇的文本之间的内容差别较大。文本聚类方法可应用于很多方面，例如：美国国防部的话题检测与追踪(TDT，Topic detectionand tracking)项目就力图通过文本聚类方法在一个新闻文本流中自动发现热点话题；此外，还可以使用文本聚类方法对搜索引擎返回的结果网页进行聚类，从而使用户获得更加结构化的和可理解的搜索结果；通过使用文本聚类方法，还可自动产生类似于雅虎目录(Yahoo Directory)那样的网络文本的分类体系等。

目前的文本聚类方法通常是基于向量空间模型(Vector Space Model，VSM)的。在向量空间模型中，每个文本都被表示为一个多维欧几里德空间中的文本向量，空间中的每一维都和一个特征词相对应，文本向量在每一维上的取值一般定义为该维所对应的特征词在该文本向量所对应的文本中出现的次数。对于任何一个文本集，利用向量空间模型可以产生一个基于特征词的文本向量矩阵V(n*k)，其中n为文本集中文本的数量，k为每个文本向量的维数，矩阵的每一行都对应一个文本向量。获得文本集的向量矩阵后，可以利用各种经典的聚类算法如K均值(K-means)算法、层次凝聚聚类(HAC)算法等对文本集的向量矩阵进行聚类计算，从而产生文本聚类结果。

由于向量空间模型的每一个特征词就是一维，当特征词的数量较多时，维数也同样很多，因此在获得文本向量矩阵进行后续的聚类计算时，计算量会非常庞大，计算效率较低。

此外，因为现有技术中文本向量的维数较多，使得文本向量对文本的表示极为稀疏，即文本向量中各维语义表达极为分散，因而造成在以语义为依据的文本聚类过程中，效果较差。

发明内容

为了解决现有技术存在的技术问题，本发明提供了一种文本聚类方法及装置，实现了提高文本聚类效率和质量的目的。

本发明实施例提供了一种文本聚类方法，所述方法包括：

获取待聚类文本，所述待聚类文本中包括各个特征词；

对所述待聚类文本的各个特征词进行聚类，得到每一个词聚类类别分别对应的特征词集；

构建与每个待聚类文本对应的文本向量，所述文本向量中的每一维表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度；

利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类。

可选的，所述构建与每个待聚类文本对应的文本向量包括：

计算所述待聚类文本中每个特征词的词权重，所述词权重表示所述特征词相对于所在的待聚类文本的重要程度；

利用所述词聚类类别中每个特征词的词权重，分别得到每个待聚类文本中每个词聚类类别的类权重，所述类权重表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度；

利用所述每个待聚类文本中每个词聚类类别的类权重分别构建所述与每个待聚类文本对应的文本向量，所述文本向量的每一维为对应待聚类文本中一个词聚类类别的类权重。

可选的，在计算所述待聚类文本中每个特征词的词权重步骤之后，所述方法还包括：

分别选取每个待聚类文本中词权重由大到小排列的前N个特征词，所述N为大于0的整数；

所述利用所述词聚类类别中每个特征词的词权重，分别得到每个待聚类文本中每个词聚类类别的类权重包括：

利用所述词聚类类别中选取得到的每个特征词的词权重，分别得到每个待聚类文本中每个词聚类类别的类权重。

可选的，所述每个待聚类文本中每个词聚类类别的类权重具体为：

每个待聚类文本中每个词聚类类别归一化后的类权重；

所述归一化后的类权重具体通过如下公式计算：

其中，C_k为第k类词聚类类别，w_jk表示待聚类文本d_j的词聚类类别C_k的类权重，tfidf_ij表示待聚类文本d_j中属于词聚类类别C_k的特征词word_i的tf-idf值，w′_jk表示待聚类文本d_j在词聚类类别C_k上归一化后的类权值，N表示词聚类类别的总数。

本发明实施例还提供了一种文本聚类装置，所述装置包括：文本获取单元、特征词聚类单元、向量构建单元和文本聚类单元；

其中，所述文本获取单元，用于获取待聚类文本，所述待聚类文本中包括各个特征词；

所述特征词聚类单元，用于对所述待聚类文本的各个特征词进行聚类，得到每一个词聚类类别分别对应的特征词集；

所述向量构建单元，用于构建与每个待聚类文本对应的文本向量，所述文本向量中的每一维表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度；

所述文本聚类单元，用于利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类。

可选的，所述向量构建单元包括：

词权重计算单元、类权重计算单元和文本向量构建单元；

其中，所述词权重计算单元，用于计算所述待聚类文本中每个特征词的词权重，所述词权重表示所述特征词相对于所在的待聚类文本的重要程度；

所述类权重计算单元，用于利用所述词聚类类别中每个特征词的词权重，分别得到每个待聚类文本中每个词聚类类别的类权重，所述类权重表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度；

所述文本向量构建单元，用于利用所述每个待聚类文本中每个词聚类类别的类权重分别构建所述与每个待聚类文本对应的文本向量，所述文本向量的每一维为对应待聚类文本中一个词聚类类别的类权重。

可选的，所述装置还包括：

特征词选取单元，用于分别选取每个待聚类文本中词权重由大到小排列的前N个特征词，所述N为大于0的整数；

所述类权重计算单元，具体用于：

利用所述词聚类类别中选取得到的每个特征词的词权重，分别得到每个待聚类文本中每个词聚类类别的类权重，所述类权重表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度。

可选的，所述类权重计算单元，具体用于：

利用所述词聚类类别中每个特征词的词权重，分别得到每个待聚类文本中每个词聚类类别的归一化后的类权重；

所述归一化后的类权重具体通过如下公式计算：

本发明通过获取待聚类文本，对所述待聚类文本的各个特征词进行聚类，得到每一个词聚类类别分别对应的特征词，然后构建与每个待聚类文本对应的文本向量，并利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类。由于本发明将文本向量的每一维“压缩”到一类特征词，而不是一个特征词，即文本向量中的每一维表示一个词聚类类别的特征词相对于一个待聚类文本的重要程度，这样文本向量的维度就会大大降低，有效减少后续文本聚类过程中的计算量，提高文本聚类的速度。

相对于现有技术，本发明不仅在聚类速度上有大幅度的提升，在文本聚类的效果上也有较好的表现。这是因为相对于现有技术，文本向量的维度由高维变为低维，且词聚类一般都是将具有相似语义的特征词聚为一类，因此得到的文本向量稀疏性较低，在以语义为依据的文本聚类过程中能够产生更好的效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例一提供的一种文本聚类方法的流程图；

图2为本发明实施例一中构建与每个待聚类文本对应的文本向量方法的流程图；

图3为本发明实施例三提供的一种文本聚类装置结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

参见图1，该图为本发明实施例一提供的一种文本聚类方法的流程图。

本实施例提供的文本聚类方法包括如下步骤：

步骤S101：获取待聚类文本，所述待聚类文本中包括各个特征词。

所述待聚类文本可以是关于任何题材的文本，其所用语言可以是中文、英文或其他语言。所述待聚类文本包括多个文本，其文件格式可以是.txt、.doc等能够对所述待聚类文本中的特征词进行处理的格式。所述特征词是指含义完整且独立的词汇，例如“国家”、“金融”、“事件”、“nature”、“tree”等等。从词性来讲，所述特征词可以是名词、动词、形容词等，本发明不做具体限定。

在实际应用中，可以通过对所述待聚类文本进行分词和去停用词(Stop Words)来得到所述特征词。

其中，所述分词是指按照语素对文本进行划分的手段。现有的对中文文本进行分词的算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

其中，基于字符串匹配的分词方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。

基于理解的分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子***、句法语义子***、总控部分。在总控部分的协调下，分词子***可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。

基于统计的分词方法的原理为：从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。

所述去停用词是指将停用词去除。不同的用户对停用词的定义可能有不同，但通常指的是一些没有什么实际含义的功能词，例如“的”“呢”“了”“the”“that”“this”等。去掉停用词的目的是为了提高特征词的质量和待处理文本的处理效率。

另外，若所述待聚类文本是以多个文件的形式存在的，为了节约处理时间，可以合并为一个文件。

步骤S102：对所述待聚类文本的各个特征词进行聚类，得到每一个词聚类类别分别对应的特征词集。

在本实施例中，对所述待聚类文本的各个特征词进行聚类，是指将所述待聚类文本中的所有特征词按照一定规则划分为若干个词聚类类别，得到每一个词聚类类别分别对应的特征词集合，每个特征词属于且仅属于其中一个词聚类类别。所述词聚类类别的数量可以是预先设定的一个固定值，也可以是***在聚类的过程中自动得到的，具体取决于聚类的算法。关于如何对所述待聚类文本的各个特征词进行聚类，可以采用现有的词聚类算法实现，目前的词聚类算法可以分为分割法、层次聚类法、基于密度的聚类算法等，其中分割法主要包括K-means算法。

所谓K-means算法，也被称为K-均值或K-平均。该算法首先将特征词转化为向量，得到所有特征词的向量集合。然后人工设定词聚类类别个数K，并随机选取K个向量作为类别中心向量。接着，遍历所有特征词，将每个特征词划分到最近的中心向量，特征词之间的距离可以通过向量余弦公式计算。计算每个类别中所有向量的平均值，作为该类别新的中心向量。重复遍历步骤和平均值计算步骤，直到这K个中心点收敛，算法结束。

层次聚类算法是指通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类“树”。假设有N个待聚类的样本，对于层次聚类来说，基本步骤就是：1、(初始化)把每个样本归为一类，计算每两个类之间的距离，也就是样本与样本之间的相似度；2、寻找各个类之间最近的两个类，把他们归为一类(这样类的总数就少了一个)；3、重新计算新生成的这个类与各个旧类之间的相似度；4、重复2和3直到所有样本点都归为一类，结束。

基于密度的聚类算法的中心思想为：在整个样本空间点中，各目标类簇是由一群的稠密样本点组成的，而这些稠密样本点被低密度区域(噪声)分割，而算法的目的就是要过滤低密度区域，发现稠密样本点。

在本实施例中，采用K-means算法，进行词聚类的结果可以表示为向量的形式，例如：

ClusterResult＝＜＜word₁,C₁＞＜word₂,C₂＞......＜word_n,C_n＞＞

其中，n表示词表长度，C_i表示第i个词word_i所属的类别编号。

步骤S103：构建与每个待聚类文本对应的文本向量，所述文本向量中的每一维表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度。

现有技术中，文本向量的每一维都和一个特征词相对应，文本向量在每一维上的取值一般定义为该维所对应的特征词在该文本向量所对应的文本中出现的次数(特征词相对于待聚类文本的重要程度的其中一种表现形式)。这样，在特征词众多的时候，文本向量的维数也会非常多，从而导致在后续文本聚类过程中计算量极大。

为了克服这个技术问题，本实施例将文本向量的每一维“压缩”到一类特征词，而不是一个特征词，即文本向量中的每一维表示的是一个词聚类类别的特征词集相对于一个待聚类文本的重要程度，这样文本向量的维度就会大大降低，有效减少后续文本聚类过程中的计算量。

具体的，参见图2，构建与每个待聚类文本对应的文本向量可以包括下述步骤S1031至步骤S1033。

步骤S1031：计算所述待聚类文本中每个特征词的词权重，所述词权重表示所述特征词相对于所在的待聚类文本的重要程度。

计算词权重的方法有很多，现有技术采用一个特征词在其出现的待聚类文本出现的次数(即词频)来表示该特征词相对于所在的待聚类文本的重要程度。而在本实施例中，所述词权重为tf-idf(term frequency–inverse document frequency，词频-逆向文件频率)值。tf-idf值综合考虑了一个特征词在其出现的待聚类文本出现的次数以及该特征词在所有待聚类文本中出现的次数，所以相对于现有技术而言更为准确。

所述特征词的tf-idf值根据如下公式计算：

其中，tf-idf_j(w_i)表示待聚类文本d_j中特征词w_i的tf-idf值，n_ij表示待聚类文本d_j中特征词w_i的个数，Σ_kn_k,j表示待聚类文本d_j中特征词的总数量，|D|表示待聚类文本的总数量，|{j:w_i∈d_j}|表示包含特征词w_i的待聚类文本的数量。

为了节约计算时间，提高计算效率，在计算所述待聚类文本中每个特征词的词权重之后，可以以待聚类文本为单位，按照词权重由高到低的顺序进行排序，选取前N个特征词，所述N为大于0的整数。下述步骤中提到的特征词可以指所述前N个特征词。

例如，每个待聚类文本中选取词权重最高的前100个特征词，形成如下向量：

d_j＝＜＜word_1j,tfidf_1j＞＜word_2j,tfidf_2j＞......＜word_100j,tfidf_100j＞＞

其中，d_j为第j个待聚类文本，word_1j至word_100j表示第j个待聚类文本中的权重值最大的前100个特征词，tfidf_1j至fidf_100j分别表示与每个特征词对应的tf-idf值。

步骤S1032：利用所述词聚类类别中每个特征词的词权重，分别得到每个待聚类文本中每个词聚类类别的类权重，所述类权重表示一个待聚类文本中一个词聚类类别的特征词集相对于该待聚类文本的重要程度。

以词权重为tf-idf值为例，每个待聚类文本中每个词聚类类别的类权重可以通过如下公式表示：

其中，C_k为第k类词聚类类别，w_jk表示待聚类文本d_j的词聚类类别C_k的类权重，tfidf_ij表示待聚类文本d_j中属于词聚类类别C_k的特征词word_i的tf-idf值。

为了便于后续的文本聚类计算，可以进一步将类权重归一化，例如令：

w′_jk表示待聚类文本d_j在词聚类类别C_k上归一化后的类权值，N表示词聚类类别的总数。

通过本步骤，待聚类文本d_j可以表示为：d_j＝＜＜C₁,w'_j1＞＜C₂,w'_j2＞......＜C_N,w'_jN＞＞。

步骤S1033：利用所述每个待聚类文本中每个词聚类类别的类权重分别构建所述与每个待聚类文本对应的文本向量。

本实施例在得到每个待聚类文本中每个词聚类类别的类权重后，分别构建所述与每个待聚类文本对应的文本向量，所述文本向量的每一维为对应待聚类文本中一个词聚类类别的类权重。

若将所有待聚类文本对应的文本向量构建为一个矩阵，则可以表示为

其中，N代表词聚类类别的数量，M代表待聚类文本的数量。

步骤S104：利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类。

在本实施例中，在得到每个待聚类文本对应的文本向量后，可以利用现有技术中的方法对所述待聚类文本进行聚类，例如根据所述文本向量计算所述待聚类文本之间的相似度，然后进一步利用聚类算法对所述待聚类文本进行聚类。

本实施例通过获取待聚类文本，对所述待聚类文本的各个特征词进行聚类，得到每一个词聚类类别分别对应的特征词，然后构建与每个待聚类文本对应的文本向量，并利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类。由于本实施例将文本向量的每一维“压缩”到一类特征词，而不是一个特征词，即文本向量中的每一维表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度，这样文本向量的维度就会大大降低，有效减少后续文本聚类过程中的计算量，提高文本聚类的速度。

相对于现有技术，本实施例不仅在聚类速度上有大幅度的提升，在文本聚类的效果上也有较好的表现。这是因为相对于现有技术，文本向量的维度由高维变为低维，且词聚类一般都是将具有相似语义的特征词聚为一类，因此得到的文本向量稀疏性较低，在以语义为依据的文本聚类过程中能够产生更好的效果。

为了证明该观点，发明人收集了2000个待聚类文本进行实验，这2000个待聚类文本涉及10个领域，它们分别为经济、军事、体育、医药、环境、计算机、交通、教育、艺术和政治，每个领域均分别包括200个待聚类文本。

发明人采用全局F值(F-measure)来衡量文本聚类效果。下面首先介绍一下F值和全局F值。

F值组合了信息检索中的查准率(precision)与查全率(recall)的思想来进行聚类评价。一个聚类j的查准率和查全率的计算方法如下：

n_i为待聚类文本类别i的文本数量，n_j为聚类后文本类别j的文本数量，n_ij为聚类后文本类别j中隶属于待聚类文本类别i的文本数量。

F值计算公式如下：

全局F值是对每个待聚类文本类别i的F值的加权平均得到，具体计算公式如下：

全局F值越大，说明文本聚类效果越好。

发明人采用余弦法进行文本相似度计算，以及采用k-means算法对待聚类文本进行聚类。通过实验，基于现有技术的文本向量(一个维度对应一个特征词)进行5次文本聚类，得到的全局F值均值为0.642。而基于本实施例提供的文本聚类方法(词聚类部分采用k-means算法，计算重要程度部分采用tf-idf值)得到的全局F值均值为0.703，大于现有技术的全局F值均值。由此可以证明，采用本实施例提供的文本聚类方法在聚类效果上要优于现有技术的聚类方法。

基于以上实施例提供的一种文本聚类方法，本发明实施例还提供了一种文本聚类装置，下面结合附图来详细说明其工作原理。

实施例二

参见图3，该图为本发明实施例二提供的一种文本聚类装置的结构框图。

本实施例提供的文本聚类装置包括：文本获取单元101、特征词聚类单元102、向量构建单元103和文本聚类单元104；

其中，所述文本获取单元101，用于获取待聚类文本，所述待聚类文本中包括各个特征词；

所述特征词聚类单元102，用于对所述待聚类文本的各个特征词进行聚类，得到每一个词聚类类别分别对应的特征词集；

所述向量构建单元103，用于构建与每个待聚类文本对应的文本向量，所述文本向量中的每一维表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度；

所述文本聚类单元104，用于利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类。

本实施例通过获取待聚类文本，对所述待聚类文本的各个特征词进行聚类，得到每一个词聚类类别分别对应的特征词，然后构建与每个待聚类文本对应的文本向量，并利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类。由于本实施例将文本向量的每一维“压缩”到一类特征词，而不是一个特征词，即文本向量中的每一维表示一个词聚类类别的特征词相对于一个待聚类文本的重要程度，这样文本向量的维度就会大大降低，有效减少后续文本聚类过程中的计算量，提高文本聚类的速度。

可选的，所述向量构建单元103包括：

词权重计算单元、类权重计算单元和文本向量构建单元；

可选的，所述装置还包括：

所述类权重计算单元，具体用于：

可选的，所述词权重计算单元，具体用于：

计算所述待聚类文本中每个特征词的tf-idf值，所述特征词的tf-idf值根据如下公式计算：

其中，tf-idf_j(w_i)表示待聚类文本d_j中特征词w_i的tf-idf值，n_ij表示待聚类文本d_j中特征词w_i的个数，∑_kn_k,j表示待聚类文本d_j中特征词的总数量，|D|表示待聚类文本的总数量，|{j:w_i∈d_j}|表示包含特征词w_i的待聚类文本的数量。

当介绍本发明的各种实施例的元件时，冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外，还可以有其它元件。

需要说明的是，本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。