CN106096066B

CN106096066B - 基于随机近邻嵌入的文本聚类方法

Info

Publication number: CN106096066B
Application number: CN201610683598.8A
Authority: CN
Inventors: 徐森; 徐静; 花小朋; 李先锋; 徐秀芳; 安晶; 皋军; 曹瑞
Original assignee: Yangcheng Institute of Technology
Current assignee: Yangcheng Institute of Technology
Priority date: 2016-08-17
Filing date: 2016-08-17
Publication date: 2019-11-15
Anticipated expiration: 2036-08-17
Also published as: CN106096066A

Abstract

本发明公开了一种基于随机近邻嵌入的文本聚类方法，包括以下步骤：对文本集进行预处理，将文本集表示为标准化词‑文本共现矩阵；通过t‑分布随机近邻嵌入（t‑SNE）将高维文本数据嵌入到低维空间，使高维空间相似度较低的文本对应的低维嵌入点距离较远，相似度较高的文本对应的低维嵌入点距离较近；将多个低维嵌入点作为K均值算法的初始质心，并根据低维空间映射点坐标，采用K均值算法进行聚类。解决了因文本高维稀疏特性带来的维数灾难问题，降低了文本数据的维数，缩短了聚类算法的运行时间，提高了聚类算法的精度。

Description

基于随机近邻嵌入的文本聚类方法

技术领域

本发明涉及一种文本聚类集成方法，具体地涉及一种基于随机近邻嵌入的文本聚类方法。

背景技术

随着网络信息的飞速增长和搜索引擎等技术的日趋成熟，人类社会所面临的主要问题已经不再是信息匮乏，而是如何提高信息获取和信息访问的效率。当前，网上的信息绝大部分以文本形式呈现，因此，如何有效组织大规模文本集已成为一个极富挑战的问题。

文本/文档聚类(text/document clustering)依据著名的聚类假设：同类的文本相似度较大，而不同类的文本相似度较小。作为一种最主要的无监督机器学习方法，聚类不需要训练，也不需要预先对文本手工标注类别，因此具有较强的自动化处理能力，已经成为对文本数据集进行有效组织、摘要和导航的重要手段，引起越来越多的研究人员关注。文本聚类典型应用包括：①文本聚类可以作为多文本自动文摘等自然语言处理应用的预处理步骤，例如可以对每天的重要新闻进行聚类，对同主题新闻文档进行冗余消除、信息融合、文本生成等处理，从而生成简明扼要的摘要；②对搜索引擎返回的结果进行聚类，根据用户输入的检索关键词，对检索到的文档进行聚类，并输出多个不同类别的简要描述，缩小检索范围，使用户迅速定位到感兴趣的主题。③对用户感兴趣的文档聚类，发现用户的兴趣模式，并用于信息过滤和信息主动推荐等服务。④文本聚类技术还有助于改善文本分类的结果。⑤数字图书馆服务。通过文本聚类方法，将高维空间的文档映射到二维空间，使得聚类结果可视化；⑥文本集合的自动整理。

由于近义词及歧义词的普遍存在，即使具有相同语义的文本数据集生成的向量空间也是高维稀疏的，另外，由于向量空间模型在文本表示能力方面具有局限性，使得现有的降维技术面临小样本问题，从而给聚类算法带来挑战。现有的聚类算法在处理文本数据时难以同时兼顾以下两点要求：(1)聚类精度高；(2)运行速度快。总体来看，速度快的聚类算法以牺牲精度为代价，而精度高的聚类算法则运行缓慢。

发明内容

针对上述技术问题，本发明目的是：提供一种基于随机近邻嵌入的文本聚类方法，解决了因文本高维稀疏特性带来的维数灾难问题，降低了文本数据的维数，缩短了聚类算法的运行时间，提高了聚类算法的精度。

本发明的技术方案是：

一种基于随机近邻嵌入的文本聚类方法，其特征在于，包括以下步骤：

S01：对文本集进行预处理，将文本集表示为标准化词-文本共现矩阵；

S02：通过t-分布随机近邻嵌入(t-SNE)将高维文本数据嵌入到低维空间，使高维空间相似度较低的文本对应的低维嵌入点距离较远，相似度较高的文本对应的低维嵌入点距离较近；

S03：将多个低维嵌入点作为K均值算法的初始质心，并根据低维空间映射点坐标，采用K均值算法进行聚类。

优选的，所述步骤S01中标准化词-文本共现矩阵的构建步骤包括：

S11：对文本集进行分词，移除低频词，生成特征词集W；

S12：统计词w_i在文本向量d_j中出现的次数t_ij，词频tf_ij＝t_ij/Σ_it_ij；

S13：统计词w_i在文本集中的次数n_i，逆文本频率idf_i＝log(n/n_i)，计算归一化因子s_j＝(Σⁿ _i＝1(tf_ij×idf_i)²)^1/2，n为文本集的大小；

S14：计算加权文本向量u._j:u_ij＝tf_ij×idf_i×s_j，构建标准化词-文本共现矩阵A:A._j＝u._j。

优选的，所述步骤S02包括以下步骤：

S21：高维数据点x_i，x_j之间的距离被转换为低维映射点的联合概率分布P，其元素p_ij为：σ表示高斯函数的方差，表示第k个文本与第l个文本之间的距离；

S22：定义高维数据点x_i，x_j所对应的低维映射点y_i与y_j的联合概率q_ij，用q_ij来建模p_ii，两个分布P，Q的差异以KL散度衡量：

上式的梯度为：

使用1个自由度的t分布测量y_i，y_j之间的相似度不同：

采用重尾测量低维映射点之间的相似度，使得相似度较低的点在映射空间下的距离较大，而相似度较高的点在映射空间下的距离较小。

优选的，所述步骤S03中K均值算法初始质心的计算包括以下步骤：

求出整个文本集X＝{x₁，x₂，...，x_n}的质心向量u₀：

当1≤k≤K时，其中k为初始质心的个数，K为簇的个数，查找与u₀及前k-1个初始质心u₀，u₁，…，u_k-1距离之和最大的数据点x_i，将其作为第k个均值向量，设d(u₀,x_i)表示u₀与x_i的距离，则通过公式计算初始质心。

与现有技术相比，本发明的优点是：

1.解决了因文本高维稀疏特性带来的维数灾难问题，降低了文本数据的维数，缩短了聚类算法的运行时间，提高了聚类算法的精度。

2.本发明的K均值算法初始质心的选取方法，使得运算结果更加稳定。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为本发明基于随机近邻嵌入的文本聚类方法的流程图；

图2为本发明基于随机近邻嵌入的文本聚类方法的标准化词-文本共现矩阵的构造流程图；

图3为本发明基于随机近邻嵌入的文本聚类方法的t-SNE流程图；

图4为本发明基于随机近邻嵌入的文本聚类方法的K均值算法初始质心选取方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

实施例：

如图1所示，一种基于随机近邻嵌入的文本聚类方法，包括以下步骤：

标准化词-文本共现矩阵的构建如图2所示，步骤包括：

S11：对文本集进行分词，移除低频词，生成特征词集W；

随机近邻嵌入(SNE)用条件概率表示原始高维欧氏空间中的数据点之间的相似度，即数据点x_j到x_i的相似度为条件概率p_j|i，它表示当近邻点的概率密度服从中心在x_i的高斯分布时，x_i将x_j选为近邻的概率，当x_i，x_j距离相对较小时，p_j|i相对大，当x_i，x_j远离时，p_j|i趋于无穷小。条件概率p_j|i根据下式计算：

其中，σ_i为中心在x_i的高斯分布的方差。

不妨假设数据点x_i和x_j被映射到低维空间的嵌入点y_i和y_j，高斯分布的方差σ_i＝1/2^1/2，则y_j到y_i的条件概率q_j|i：

假设低维映射点为Y＝{y₁，...，y_n}，当映射点y_i和y_j正确建模数据点x_i和x_j之间的相似度时，条件概率q_j|i＝p_j|i。为了最小化条件概率q_j|i到p_j|i的差异，SNE引入KL散度(Kullback-Leibler divergences)建模q_j|i到p_j|i的误匹配，并最小化所有点的KL散度之和，代价函数C定义如下：

其中P_i表示给定数据点x_i相对于所有其他数据点的条件概率分布，Q_i表示映射点y_i相对于所有其他映射点的条件概率分布。

SNE根据预先设定的复杂度因子(perplexity)执行二元搜索，获取能生成P_i的σ_i，复杂度因子定义如下：

其中H(P_i)为P_i的熵：

H(P_i)＝-∑_jp_j|ilog₂p_j|i

SNE采用梯度下降方法最小化式(2)中的代价函数：

梯度下降通过从以原点为中心点，具有较小方差的等高斯分布随机采样映射点进行初始化，为了加速优化过程，避免陷入较差的局部最小值，在梯度中加入一个相对大的动量项。具体地，在梯度搜索的每次迭代中，为了确定映射点坐标变化，当前的梯度被加到上一步梯度的指数衰减和。带动量项的梯度更新规则为：

其中，Y^(t)表示第t次迭代的解，η表示学习率，α(t)表示第t次迭代的动量项。

t-分布随机近邻嵌入(t-SNE)建立在SNE基础上，高维数据点x_i，x_j之间的距离被转换为低维映射点的联合概率分布P，其元素p_ij为：σ表示高斯函数的方差，表示第k个文本与第l个文本之间的距离。

为了计算低维空间映射点之间的相似度，t-SNE定义数据点x_i和x_j在低维空间的嵌入点y_i和y_j的联合概率q_ij，用q_ij来建模p_ii，两个分布P，Q的差异以KL散度衡量：

上式(4)的梯度为：

与SNE使用高斯函数测量y_i，y_j之间的相似度不同，t-SNE使用1个自由度的t分布测量y_i，y_j之间的相似度不同：

通过采用重尾测量低维映射点之间的相似度，使得相似度较低的点在映射空间下的距离较大，而相似度较高的点在映射空间下的距离较小。

t-SNE的流程图如图3所示，其中梯度迭代次数T一般设为1000；当迭代次数t<250时，动量项α(t)＝0.5，当t≥250时，α(t)＝0.8；学习率η初值为100，每次迭代结束根据自适应学习率机制进行更新。

K均值(K-means)算法是使用最广泛的聚类算法，其准则函数为最小化误差平方和作为。对于某个簇C_k，若其包含n_k个对象，质心向量为u_k，则该簇中所有对象相对于u_k的误差(距离)平方和：

假设有K个簇，则误差平方和准则函数为：

对于给定的数据集X，不同的划分会产生不同的均值向量u_k，即可以把准则函数E看作是K个p维向量u_k的函数，对式(7)求导并令导数为0，得到

于是有即u_k为簇C_k中所有点的均值向量。这样聚类分析问题就可以归结为如何找到一组最优的均值向量u₁ ^*，u₂ ^*，…，u_K ^*，分别用它们代表簇C_k，并把所有对象划分到离其最近的簇中，使得最终的E最小。实际求解一般使用启发式方法来搜索u₁ ^*，u₂ ^*，…，u_K ^*，即预先指定K个初始质心，并通过一些搜索策略使其逼近最优质心。

由于K均值算法初始质心的选取对聚类结果有较大影响，不同的初值收敛到不同的局部极小值，因此算法极不稳定。本发明介绍一种K均值算法初始质心的选取方法。如图4所示。

求出整个文本集X＝{x₁，x₂，...，x_n}的质心向量u₀：

当1≤k≤K时，其中k为初始质心的个数，K为簇的个数，查找与u₀及前k-1个初始质心u₀，u₁，…，u_k-1距离之和最大的数据点x_i，将其作为第k个均值向量，设d(u₀,x_i)表示u₀与x_i的距离，则通过公式(10)计算初始质心：

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于随机近邻嵌入的文本聚类方法，其特征在于，包括以下步骤：

S03：将多个低维嵌入点作为K均值算法的初始质心，并根据低维空间映射点坐标，采用K均值算法进行聚类；

所述K均值算法初始质心的计算包括以下步骤：

求出整个文本集X＝{x₁，x₂，...，x_n}的质心向量u₀：

2.根据权利要求1所述的基于随机近邻嵌入的文本聚类方法，其特征在于，所述步骤S01中标准化词-文本共现矩阵的构建步骤包括：

S11：对文本集进行分词，移除低频词，生成特征词集W；

3.根据权利要求1所述的基于随机近邻嵌入的文本聚类方法，其特征在于，所述步骤S02包括以下步骤：

S21：高维数据点x_i，x_j之间的距离被转换为低维映射点的联合概率分布P，其元素p_ij为：

σ表示高斯函数的方差，表示第k个文本与第l个文本之间的距离；

上式的梯度为：

使用1个自由度的t分布测量y_i，y_j之间的相似度不同：