CN106096066B - 基于随机近邻嵌入的文本聚类方法 - Google Patents
基于随机近邻嵌入的文本聚类方法 Download PDFInfo
- Publication number
- CN106096066B CN106096066B CN201610683598.8A CN201610683598A CN106096066B CN 106096066 B CN106096066 B CN 106096066B CN 201610683598 A CN201610683598 A CN 201610683598A CN 106096066 B CN106096066 B CN 106096066B
- Authority
- CN
- China
- Prior art keywords
- text
- point
- dimensional
- similarity
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于随机近邻嵌入的文本聚类方法,包括以下步骤:对文本集进行预处理,将文本集表示为标准化词‑文本共现矩阵;通过t‑分布随机近邻嵌入(t‑SNE)将高维文本数据嵌入到低维空间,使高维空间相似度较低的文本对应的低维嵌入点距离较远,相似度较高的文本对应的低维嵌入点距离较近;将多个低维嵌入点作为K均值算法的初始质心,并根据低维空间映射点坐标,采用K均值算法进行聚类。解决了因文本高维稀疏特性带来的维数灾难问题,降低了文本数据的维数,缩短了聚类算法的运行时间,提高了聚类算法的精度。
Description
技术领域
本发明涉及一种文本聚类集成方法,具体地涉及一种基于随机近邻嵌入的文本聚类方法。
背景技术
随着网络信息的飞速增长和搜索引擎等技术的日趋成熟,人类社会所面临的主要问题已经不再是信息匮乏,而是如何提高信息获取和信息访问的效率。当前,网上的信息绝大部分以文本形式呈现,因此,如何有效组织大规模文本集已成为一个极富挑战的问题。
文本/文档聚类(text/document clustering)依据著名的聚类假设:同类的文本相似度较大,而不同类的文本相似度较小。作为一种最主要的无监督机器学习方法,聚类不需要训练,也不需要预先对文本手工标注类别,因此具有较强的自动化处理能力,已经成为对文本数据集进行有效组织、摘要和导航的重要手段,引起越来越多的研究人员关注。文本聚类典型应用包括:①文本聚类可以作为多文本自动文摘等自然语言处理应用的预处理步骤,例如可以对每天的重要新闻进行聚类,对同主题新闻文档进行冗余消除、信息融合、文本生成等处理,从而生成简明扼要的摘要;②对搜索引擎返回的结果进行聚类,根据用户输入的检索关键词,对检索到的文档进行聚类,并输出多个不同类别的简要描述,缩小检索范围,使用户迅速定位到感兴趣的主题。③对用户感兴趣的文档聚类,发现用户的兴趣模式,并用于信息过滤和信息主动推荐等服务。④文本聚类技术还有助于改善文本分类的结果。⑤数字图书馆服务。通过文本聚类方法,将高维空间的文档映射到二维空间,使得聚类结果可视化;⑥文本集合的自动整理。
由于近义词及歧义词的普遍存在,即使具有相同语义的文本数据集生成的向量空间也是高维稀疏的,另外,由于向量空间模型在文本表示能力方面具有局限性,使得现有的降维技术面临小样本问题,从而给聚类算法带来挑战。现有的聚类算法在处理文本数据时难以同时兼顾以下两点要求:(1)聚类精度高;(2)运行速度快。总体来看,速度快的聚类算法以牺牲精度为代价,而精度高的聚类算法则运行缓慢。
发明内容
针对上述技术问题,本发明目的是:提供一种基于随机近邻嵌入的文本聚类方法,解决了因文本高维稀疏特性带来的维数灾难问题,降低了文本数据的维数,缩短了聚类算法的运行时间,提高了聚类算法的精度。
本发明的技术方案是:
一种基于随机近邻嵌入的文本聚类方法,其特征在于,包括以下步骤:
S01:对文本集进行预处理,将文本集表示为标准化词-文本共现矩阵;
S02:通过t-分布随机近邻嵌入(t-SNE)将高维文本数据嵌入到低维空间,使高维空间相似度较低的文本对应的低维嵌入点距离较远,相似度较高的文本对应的低维嵌入点距离较近;
S03:将多个低维嵌入点作为K均值算法的初始质心,并根据低维空间映射点坐标,采用K均值算法进行聚类。
优选的,所述步骤S01中标准化词-文本共现矩阵的构建步骤包括:
S11:对文本集进行分词,移除低频词,生成特征词集W;
S12:统计词wi在文本向量dj中出现的次数tij,词频tfij=tij/Σitij;
S13:统计词wi在文本集中的次数ni,逆文本频率idfi=log(n/ni),计算归一化因子sj=(Σn i=1(tfij×idfi)2)1/2,n为文本集的大小;
S14:计算加权文本向量u.j:uij=tfij×idfi×sj,构建标准化词-文本共现矩阵A:A.j=u.j。
优选的,所述步骤S02包括以下步骤:
S21:高维数据点xi,xj之间的距离被转换为低维映射点的联合概率分布P,其元素pij为:σ表示高斯函数的方差,表示第k个文本与第l个文本之间的距离;
S22:定义高维数据点xi,xj所对应的低维映射点yi与yj的联合概率qij,用qij来建模pii,两个分布P,Q的差异以KL散度衡量:
上式的梯度为:
使用1个自由度的t分布测量yi,yj之间的相似度不同:
采用重尾测量低维映射点之间的相似度,使得相似度较低的点在映射空间下的距离较大,而相似度较高的点在映射空间下的距离较小。
优选的,所述步骤S03中K均值算法初始质心的计算包括以下步骤:
求出整个文本集X={x1,x2,...,xn}的质心向量u0:
当1≤k≤K时,其中k为初始质心的个数,K为簇的个数,查找与u0及前k-1个初始质心u0,u1,…,uk-1距离之和最大的数据点xi,将其作为第k个均值向量,设d(u0,xi)表示u0与xi的距离,则通过公式计算初始质心。
与现有技术相比,本发明的优点是:
1.解决了因文本高维稀疏特性带来的维数灾难问题,降低了文本数据的维数,缩短了聚类算法的运行时间,提高了聚类算法的精度。
2.本发明的K均值算法初始质心的选取方法,使得运算结果更加稳定。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为本发明基于随机近邻嵌入的文本聚类方法的流程图;
图2为本发明基于随机近邻嵌入的文本聚类方法的标准化词-文本共现矩阵的构造流程图;
图3为本发明基于随机近邻嵌入的文本聚类方法的t-SNE流程图;
图4为本发明基于随机近邻嵌入的文本聚类方法的K均值算法初始质心选取方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
实施例:
如图1所示,一种基于随机近邻嵌入的文本聚类方法,包括以下步骤:
S01:对文本集进行预处理,将文本集表示为标准化词-文本共现矩阵;
S02:通过t-分布随机近邻嵌入(t-SNE)将高维文本数据嵌入到低维空间,使高维空间相似度较低的文本对应的低维嵌入点距离较远,相似度较高的文本对应的低维嵌入点距离较近;
S03:将多个低维嵌入点作为K均值算法的初始质心,并根据低维空间映射点坐标,采用K均值算法进行聚类。
标准化词-文本共现矩阵的构建如图2所示,步骤包括:
S11:对文本集进行分词,移除低频词,生成特征词集W;
S12:统计词wi在文本向量dj中出现的次数tij,词频tfij=tij/Σitij;
S13:统计词wi在文本集中的次数ni,逆文本频率idfi=log(n/ni),计算归一化因子sj=(Σn i=1(tfij×idfi)2)1/2,n为文本集的大小;
S14:计算加权文本向量u.j:uij=tfij×idfi×sj,构建标准化词-文本共现矩阵A:A.j=u.j。
随机近邻嵌入(SNE)用条件概率表示原始高维欧氏空间中的数据点之间的相似度,即数据点xj到xi的相似度为条件概率pj|i,它表示当近邻点的概率密度服从中心在xi的高斯分布时,xi将xj选为近邻的概率,当xi,xj距离相对较小时,pj|i相对大,当xi,xj远离时,pj|i趋于无穷小。条件概率pj|i根据下式计算:
其中,σi为中心在xi的高斯分布的方差。
不妨假设数据点xi和xj被映射到低维空间的嵌入点yi和yj,高斯分布的方差σi=1/21/2,则yj到yi的条件概率qj|i:
假设低维映射点为Y={y1,...,yn},当映射点yi和yj正确建模数据点xi和xj之间的相似度时,条件概率qj|i=pj|i。为了最小化条件概率qj|i到pj|i的差异,SNE引入KL散度(Kullback-Leibler divergences)建模qj|i到pj|i的误匹配,并最小化所有点的KL散度之和,代价函数C定义如下:
其中Pi表示给定数据点xi相对于所有其他数据点的条件概率分布,Qi表示映射点yi相对于所有其他映射点的条件概率分布。
SNE根据预先设定的复杂度因子(perplexity)执行二元搜索,获取能生成Pi的σi,复杂度因子定义如下:
其中H(Pi)为Pi的熵:
H(Pi)=-∑jpj|ilog2pj|i
SNE采用梯度下降方法最小化式(2)中的代价函数:
梯度下降通过从以原点为中心点,具有较小方差的等高斯分布随机采样映射点进行初始化,为了加速优化过程,避免陷入较差的局部最小值,在梯度中加入一个相对大的动量项。具体地,在梯度搜索的每次迭代中,为了确定映射点坐标变化,当前的梯度被加到上一步梯度的指数衰减和。带动量项的梯度更新规则为:
其中,Y(t)表示第t次迭代的解,η表示学习率,α(t)表示第t次迭代的动量项。
t-分布随机近邻嵌入(t-SNE)建立在SNE基础上,高维数据点xi,xj之间的距离被转换为低维映射点的联合概率分布P,其元素pij为:σ表示高斯函数的方差,表示第k个文本与第l个文本之间的距离。
为了计算低维空间映射点之间的相似度,t-SNE定义数据点xi和xj在低维空间的嵌入点yi和yj的联合概率qij,用qij来建模pii,两个分布P,Q的差异以KL散度衡量:
上式(4)的梯度为:
与SNE使用高斯函数测量yi,yj之间的相似度不同,t-SNE使用1个自由度的t分布测量yi,yj之间的相似度不同:
通过采用重尾测量低维映射点之间的相似度,使得相似度较低的点在映射空间下的距离较大,而相似度较高的点在映射空间下的距离较小。
t-SNE的流程图如图3所示,其中梯度迭代次数T一般设为1000;当迭代次数t<250时,动量项α(t)=0.5,当t≥250时,α(t)=0.8;学习率η初值为100,每次迭代结束根据自适应学习率机制进行更新。
K均值(K-means)算法是使用最广泛的聚类算法,其准则函数为最小化误差平方和作为。对于某个簇Ck,若其包含nk个对象,质心向量为uk,则该簇中所有对象相对于uk的误差(距离)平方和:
假设有K个簇,则误差平方和准则函数为:
对于给定的数据集X,不同的划分会产生不同的均值向量uk,即可以把准则函数E看作是K个p维向量uk的函数,对式(7)求导并令导数为0,得到
于是有即uk为簇Ck中所有点的均值向量。这样聚类分析问题就可以归结为如何找到一组最优的均值向量u1 *,u2 *,…,uK *,分别用它们代表簇Ck,并把所有对象划分到离其最近的簇中,使得最终的E最小。实际求解一般使用启发式方法来搜索u1 *,u2 *,…,uK *,即预先指定K个初始质心,并通过一些搜索策略使其逼近最优质心。
由于K均值算法初始质心的选取对聚类结果有较大影响,不同的初值收敛到不同的局部极小值,因此算法极不稳定。本发明介绍一种K均值算法初始质心的选取方法。如图4所示。
求出整个文本集X={x1,x2,...,xn}的质心向量u0:
当1≤k≤K时,其中k为初始质心的个数,K为簇的个数,查找与u0及前k-1个初始质心u0,u1,…,uk-1距离之和最大的数据点xi,将其作为第k个均值向量,设d(u0,xi)表示u0与xi的距离,则通过公式(10)计算初始质心:
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (3)
1.一种基于随机近邻嵌入的文本聚类方法,其特征在于,包括以下步骤:
S01:对文本集进行预处理,将文本集表示为标准化词-文本共现矩阵;
S02:通过t-分布随机近邻嵌入(t-SNE)将高维文本数据嵌入到低维空间,使高维空间相似度较低的文本对应的低维嵌入点距离较远,相似度较高的文本对应的低维嵌入点距离较近;
S03:将多个低维嵌入点作为K均值算法的初始质心,并根据低维空间映射点坐标,采用K均值算法进行聚类;
所述K均值算法初始质心的计算包括以下步骤:
求出整个文本集X={x1,x2,...,xn}的质心向量u0:
当1≤k≤K时,其中k为初始质心的个数,K为簇的个数,查找与u0及前k-1个初始质心u0,u1,…,uk-1距离之和最大的数据点xi,将其作为第k个均值向量,设d(u0,xi)表示u0与xi的距离,则通过公式计算初始质心。
2.根据权利要求1所述的基于随机近邻嵌入的文本聚类方法,其特征在于,所述步骤S01中标准化词-文本共现矩阵的构建步骤包括:
S11:对文本集进行分词,移除低频词,生成特征词集W;
S12:统计词wi在文本向量dj中出现的次数tij,词频tfij=tij/Σitij;
S13:统计词wi在文本集中的次数ni,逆文本频率idfi=log(n/ni),计算归一化因子sj=(Σn i=1(tfij×idfi)2)1/2,n为文本集的大小;
S14:计算加权文本向量u.j:uij=tfij×idfi×sj,构建标准化词-文本共现矩阵A:A.j=u.j。
3.根据权利要求1所述的基于随机近邻嵌入的文本聚类方法,其特征在于,所述步骤S02包括以下步骤:
S21:高维数据点xi,xj之间的距离被转换为低维映射点的联合概率分布P,其元素pij为:
σ表示高斯函数的方差,表示第k个文本与第l个文本之间的距离;
S22:定义高维数据点xi,xj所对应的低维映射点yi与yj的联合概率qij,用qij来建模pii,两个分布P,Q的差异以KL散度衡量:
上式的梯度为:
使用1个自由度的t分布测量yi,yj之间的相似度不同:
采用重尾测量低维映射点之间的相似度,使得相似度较低的点在映射空间下的距离较大,而相似度较高的点在映射空间下的距离较小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610683598.8A CN106096066B (zh) | 2016-08-17 | 2016-08-17 | 基于随机近邻嵌入的文本聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610683598.8A CN106096066B (zh) | 2016-08-17 | 2016-08-17 | 基于随机近邻嵌入的文本聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106096066A CN106096066A (zh) | 2016-11-09 |
CN106096066B true CN106096066B (zh) | 2019-11-15 |
Family
ID=58070610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610683598.8A Active CN106096066B (zh) | 2016-08-17 | 2016-08-17 | 基于随机近邻嵌入的文本聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106096066B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341522A (zh) * | 2017-07-11 | 2017-11-10 | 重庆大学 | 一种基于密度语义子空间的文本与图像无标签识别的方法 |
CN108108687A (zh) * | 2017-12-18 | 2018-06-01 | 苏州大学 | 一种手写体数字图像聚类方法、***及设备 |
CN108427762A (zh) * | 2018-03-21 | 2018-08-21 | 北京理工大学 | 利用随机游走的自编码文档表示方法 |
CN108845560B (zh) * | 2018-05-30 | 2021-07-13 | 国网浙江省电力有限公司宁波供电公司 | 一种电力调度日志故障分类方法 |
CN108760675A (zh) * | 2018-06-05 | 2018-11-06 | 厦门大学 | 一种太赫兹异常光谱识别方法及*** |
CN109034021B (zh) * | 2018-07-13 | 2022-05-20 | 昆明理工大学 | 一种易混淆数字手写体的再识别方法 |
CN109145111B (zh) * | 2018-07-27 | 2023-05-26 | 深圳市翼海云峰科技有限公司 | 一种基于机器学习的多特征文本数据相似度计算方法 |
CN109783816B (zh) * | 2019-01-11 | 2023-04-07 | 河北工程大学 | 短文本聚类方法及终端设备 |
CN110197193A (zh) * | 2019-03-18 | 2019-09-03 | 北京信息科技大学 | 一种多参数流式数据自动分群方法 |
CN110458187B (zh) * | 2019-06-27 | 2020-07-31 | 广州大学 | 一种恶意代码家族聚类方法和*** |
CN110823543B (zh) * | 2019-11-07 | 2020-09-04 | 北京化工大学 | 一种基于往复机械活塞杆轴心轨迹包络与信息熵特征的负荷识别方法 |
CN111625576B (zh) * | 2020-05-15 | 2023-03-24 | 西北工业大学 | 一种基于t-SNE的成绩聚类分析方法 |
CN112242200A (zh) * | 2020-09-30 | 2021-01-19 | 吾征智能技术(北京)有限公司 | 一种基于流行性感冒智能认知模型的***及设备 |
CN113537281B (zh) * | 2021-05-26 | 2024-03-19 | 山东大学 | 一种对多个高维数据进行可视化比较的降维方法 |
CN114328920A (zh) * | 2021-12-27 | 2022-04-12 | 盐城工学院 | 基于一致流形逼近与投影的文本聚类方法及*** |
CN114281994B (zh) * | 2021-12-27 | 2022-06-03 | 盐城工学院 | 一种基于三层加权模型的文本聚类集成方法及*** |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365999A (zh) * | 2013-07-16 | 2013-10-23 | 盐城工学院 | 一种基于相似度矩阵谱分解的文本聚类集成方法 |
-
2016
- 2016-08-17 CN CN201610683598.8A patent/CN106096066B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365999A (zh) * | 2013-07-16 | 2013-10-23 | 盐城工学院 | 一种基于相似度矩阵谱分解的文本聚类集成方法 |
Non-Patent Citations (2)
Title |
---|
Visualizing Data using t-SNE;Laurens van der Maaten;《Journal of Machine Learning Research》;20081108;2580-2586页 * |
文本聚类集成关键技术研究;徐森;《中国博士学位论文全文数据库信息科技辑》;20110715;3-4页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106096066A (zh) | 2016-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106096066B (zh) | 基于随机近邻嵌入的文本聚类方法 | |
RU2628431C1 (ru) | Подбор параметров текстового классификатора на основе семантических признаков | |
US20220076150A1 (en) | Method, apparatus and system for estimating causality among observed variables | |
CN110458187B (zh) | 一种恶意代码家族聚类方法和*** | |
CN110866030A (zh) | 一种基于无监督学习的数据库异常访问检测方法 | |
CN110046634B (zh) | 聚类结果的解释方法和装置 | |
JP2003256441A (ja) | 文書分類方法及び装置 | |
JP2013519152A (ja) | テキスト分類の方法及びシステム | |
CN111985228B (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN111125469B (zh) | 一种社交网络的用户聚类方法、装置以及计算机设备 | |
Cholewa et al. | Estimation of the number of states for gesture recognition with Hidden Markov Models based on the number of critical points in time sequence | |
KR20180137386A (ko) | 커뮤니티 검출 방법 및 커뮤니티 검출 프레임워크 장치 | |
Moitra et al. | Cluster-based data reduction for persistent homology | |
Shahbazi et al. | Extended subtree: a new similarity function for tree structured data | |
CN112818121A (zh) | 一种文本分类方法、装置、计算机设备及存储介质 | |
Bruzzese et al. | DESPOTA: DEndrogram slicing through a pemutation test approach | |
CN112835798B (zh) | 聚类学习方法、测试步骤聚类方法及相关装置 | |
CN109993208A (zh) | 一种有噪声图像的聚类处理方法 | |
CN112579783A (zh) | 基于拉普拉斯图谱的短文本聚类方法 | |
US20100088073A1 (en) | Fast algorithm for convex optimization with application to density estimation and clustering | |
CN104616027A (zh) | 一种非相邻的图结构稀疏人脸识别方法 | |
CN109670071B (zh) | 一种序列化多特征指导的跨媒体哈希检索方法和*** | |
CN116089639A (zh) | 一种辅助三维建模方法、***、装置和介质 | |
Yazdi et al. | Hierarchical tree clustering of fuzzy number | |
KR102276369B1 (ko) | 3차원 포인트 클라우드 신뢰도 판단 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |