CN107609102A

CN107609102A - 一种短文本在线聚类方法

Info

Publication number: CN107609102A
Application number: CN201710816052.XA
Authority: CN
Inventors: 费高雷; 赵海林; 胡光岷; 于富财
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-09-12
Filing date: 2017-09-12
Publication date: 2018-01-19

Abstract

本发明公开一种短文本在线聚类方法，对于现有的在线聚类方法准确度不高的问题，本申请通过改进的短文本增量聚类方法，对短文本进行聚类处理，相似度阈值随类中包含的社交短文本数量动态改变，增加了聚类的灵活性；并结合短文本语义相似度，对增量聚类进一步地处理；并引入重聚类、类合并和类修剪，解决在线聚类固有的类中心偏移问题以及短文本聚合性差的问题。

Description

一种短文本在线聚类方法

技术领域

本发明属于数据挖掘领域，特别涉及一种短文本聚类技术。

背景技术

随着web2.0时代的到来，微博客服务越来越受到人们的关注，吸引了大量用户。推特、新浪微博等便是其中最成功的案例，据统计，推特上每天产生4亿条短文本消息。通过对这些内容进行分析，能够获得很多无价的信息，这些信息有助于辅助公司、政府部门等机构做出重要决策。而短文本在线聚类是从这些社交短文本中实时提取有价值信息的一种重要手段。

文本聚类的算法有很多，主要包括非增量文本聚类和增量文本聚类。非增量聚类需要一次性聚类全部数据，无法分批次聚类数据且得到整体聚类结果。增量聚类则允许多批次甚至无数次数据输入，要求增量聚类方法能基于以前聚类结果继续对新数据聚类。非增量文本聚类可分为层次聚类、基于划分聚类、基于密度聚类、基于网格聚类、基于模型聚类，此外还有自组织神经网络聚类、基于蚁群聚类等方法。这些方法都能用于文本聚类，但层次和基于划分的聚类在文本聚类任务中更加常用。典型的增量文本聚类方法可以分为两种，一种是传统非增量聚类算法经过一些额外的计算改造成增量的聚类算法，第二种是如今增量文本聚类中最常使用的对每个数据只处理一次的Single-Pass贪婪算法。

层次聚类法分为自顶而下分治和自底而上聚合两种方法。分治方法初始将所有数据点归为一类，按照一定的距离标准将数据按类别分割，一层层往下分割直到满足终止条件或数据点全部分开。聚合的方法则是初始将每个数据点分别看做一类，按照一定的相似度标准将多个类合并，一层层向上合并直到数据点全部归为一类。层次聚类法的的优点是有清晰的数据组织结构，能够通过阈值或聚类熵调整聚类的粒度，缺点是有比较高的计算复杂度，计算时间和空间复杂度为。代表性算法有BIRCH算法、CURE算法、CHAMELEON算法等。

基于划分的聚类方法中最典型的算法是k-means，步骤是初始随机选择k个类中心点，根据数据点到类中心点距离按最近原则分配所有点到最近类中心，重新计算类中数据点的中心点作为新的类中心，再重复聚类和类中心计算直到结果稳定或者到达一定次数。k-means本质上结合了贪婪算法和EM算法。k-means的缺点也很明显：类别数需要指定但通常很难确定，初始类中心的选择影响聚类结果，基于划分和层次聚类对离群数据点都很敏感。

自组织映射(SOM)神经网络是由Kohonen等人提出的无监督神经网络算法。该神经网络由输入层和竞争层两层神经元组成，竞争层各神经元初始赋予较小的随机权重向量。然后从训练样本集中选择文档向量输入，文档向量是一个固定维度的向量，计算输入向量与神经元的相似度，相似度最大的神经元获胜，按调整获胜神经元及其附近神经元的权重，使获胜神经元与输入数据更相似，经过大量文本训练使输出层神经元识别数据中不同的模式。该方法有对噪声点不敏感和聚类质量高的特点，但是比k均值的时间复杂度高。输出层的神经元是有一定的拓扑结构的，如何设计输出层的拓扑结构以及如何确定输出层的神经元个数都是要解决的问题。输出层的拓扑结构应该和数据类应有的结构相近，而确定文本类之间是怎样的一种拓扑关系是一个难题。输出层的神经元个数决定了类别数，和k-means的问题类似，过多或过少的类别数严重影响聚类的结果，而很多情况下无法知道大概的聚类数。

发明内容

为解决上述技术问题，本申请提出了一种短文本在线聚类方法，通过改进的短文本贪婪聚类对短文本进行聚类处理，并引入重聚类、合并类以及修剪类，进一步提高在线聚类的准确性。

本申请采用的技术方案为：一种短文本在线聚类方法，包括：

S1、对获取的社交短文本进行预处理，提取文本特征；

所述文本特征包括：短文本中的单词、单词对应的词性以及命名实体标记。

S2、根据文本特征，采用向量空间模型计算短文本相似度；

S3、若步骤S2中计算出的最大相似度大于设定的第一阈值范围的上限；则将该文本加入到最大相似度对应的已知类；若步骤S2中计算出的最大相似度小于设定的第一阈值范围的下限；则创建一个新类；否则执行步骤S4；

S4、根据语义的方法计算与步骤S2计算得到的最大相似度对应的类的相似度，若该相似度大于设定的第一阈值的最大值；则将该文本加入到最大相似度对应的已知类；若计算得到的相似度小于设定的第一阈值的最小值；则创建一个新类；

S5、对步骤S4得到的每个类计算类中短文本与当前类中心向量的相似度，对于相似度低于第一阈值范围的下限的短文本则返回步骤S2重新归类；若找到最相似类则将当前类中的该短文本删除，并加入最相似类中，如果没有最相似类则创建新类；

S6、对经步骤S5处理之后的类进行合并操作；

S7、对经步骤S6处理的类进行修剪操作。

进一步地，步骤S2具体为：根据文本特征构建短文本向量；计算短文本向量与各已知类中心向量的与余弦相似度。

进一步地，步骤S4具体为：

基于WordNet计算文本相似度，具体表达式如下：

其中，α为平滑因子，β为调节距离和深度两个度量对相似度贡献的比例因子，h为两概念节点的最小公共包含节点深度，l为两概念节点的距离；

或者

基于Word2vec计算文本相似度，具体为：通过将单词表征成固定维数的向量，然后根据单词向量计算文本向量，根据余弦相似度计算得到文本之间的相似性。

进一步地，步骤S6具体为：计算经步骤S5处理之后的类的信息熵，以及任意两个类的相似度；若相似度大于第二阈值，则计算若两个类合并后的类的信息熵，若合并后的类的信息熵大小变化值不超过0.1，则将两个类进行合并；否则不合并。

进一步地，步骤S7具体为：根据经步骤S6处理后的各类中心时间将全部类从小到大排序，删除超出类失效时间范围的类；

当类总个数超出上限时，按类中社交短文本数量从小到大对类进行第一次排序；再按类更新时间从小到大对类进行第二次排序，最后依次删除第二次排序后靠前的类，直到类总个数低于上限。

本发明的有益效果：本发明的一种短文本在线聚类方法，通过改进的短文本增量聚类方法，对短文本进行聚类处理，相似度阈值随类中包含的社交短文本数量动态改变，增加了聚类的灵活性；并结合短文本语义相似度，对增量聚类进一步地处理；并引入重聚类、类合并和类修剪，解决在线聚类固有的类中心偏移问题以及短文本聚合性差的问题；本申请的方法提高在线聚类的准确性，有助于更快、更准确的从社交媒体上获取有价值的信息，可以直接或间接的产生经济效益。

附图说明

图1为本发明的方案流程图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

如图1所示为本申请的方案流程图，本申请的技术方案为：一种短文本在线聚类方法，包括：

S1、对获取的社交短文本进行预处理，提取文本特征；

S2、根据文本特征，采用向量空间模型计算短文本相似度；

S3、若步骤S2中计算出的最大相似度大于设定的相似度阈值的最大值；则将该文本加入到最大相似度对应的已知类；若步骤S2中计算出的最大相似度小于设定的相似度阈值的最小值；则创建一个新类；否则执行步骤S4；

S4、根据语义的方法计算与步骤S2计算得到的最大相似度对应的类的相似度，若该相似度大于设定的相似度阈值的最大值；则将该文本加入到最大相似度对应的已知类；若计算得到的相似度小于设定的相似度阈值的最小值；则创建一个新类；

S5、对步骤S4得到的每个类计算类中短文本与当前类中心向量的相似度，对于相似度低于阈值的短文本则返回步骤S2重新归类；若找到最相似类则将当前类中的该短文本删除，并加入最相似类中，如果没有最相似类则创建新类；

S6、对经步骤S5处理之后的类进行合并操作；

S7、对经步骤S6处理的类进行修剪操作。

所述步骤S1具体为：逐条从流式数据中读取社交短文本，经过预处理将原始短文本转化为规范形式，然后提取短文本特征，具体特征包括短文本所包含单词及单词对应的词性和命名实体标记。

步骤S2具体为：通过步骤S1提取的短文本特征，构建短文本向量。短文本向量是加权的词频向量，具体通过词语的词性、命名实体类型进行加权，加权体现了单词不同词性以及是否为命名实体的重要程度不一样；一般权重设置：名词、动词权重为固定的1.0，命名实体中人名、地名、机构名权重为1.2，其他如形容词、副词为0.5。短文本向量是短文本相似度计算的依据，也用于在语义相似度计算时构建加权短文本语义向量。

类中心向量的构建方法是累加聚入类中的社交短文本向量，因此类中心向量也基于词频向量。当一条社交短文本从类中移除时，需要从类中心向量中减去该社交短文本向量。类中心向量用于构建和加权类中心语义向量，是相似度计算的依据。类中心向量是有长度限制的，因为一般社交短文本的长度受到限制。一般将类中心向量的长度限制在25个单词，一个事件的内容用25个以内的词是可以描述清楚的，还可以让类中心向量长度和社交短文本向量长度相差不大，防止类中边缘词语增多导致社交短文本与类的不相似性逐渐增加。

相似度阈值采用一个随每个类大小变化的值。当类中社交短文本数量较少时，一般来说类的主题还不明显，类中心向量比较均等地分布在大量词上，主题相似的社交短文本和类中心相似度较低，降低相似度阈值有助于主题相似的社交短文本聚类；而当类中社交短文本增加，主题开始明确，类中心向量开始倾向部分主题词，增加相似度阈值有利于排除主题不相似社交短文本。相似度阈值的具体计算方法如式(1)分段函数，阈值有一个上限和一个下限，本申请中上限取0.6，下限取0.4，以20条社交短文本的类为最大阈值，将相似阈值均匀伸缩在0.4到0.6之间。

相似度计算在聚类中主要表现为短文本与类的相似度计算。在VSM方法中采用社交短文本向量和类中心向量的余弦相似度算法，而含语义的方法中综合之前提到的WordNet和Word2vec语义相似度计算方法。

首先采用VSM方法计算与各已知类的余弦相似度。

步骤S3具体为：判断若步骤S2中计算出的最大相似度是否在给出的相似度阈值范围(0.46-0.61)内，若大于设定的相似度阈值的上限；则将该文本加入到最大相似度对应的已知类；若小于设定的相似度阈值的下限；则创建一个新类；否则执行步骤S4。

步骤S4具体为：基于WordNet计算文本相似度的方法是一种语义方法，即以WordNet作为工具计算单词的相似性，从而得到文本相似性。WordNet是由普林斯顿大学开发的基于认知科学的英语词汇数据库。它将大量的英语词汇组织成词语网络，词语网络中的基本单位是同义词集，同义词集是语义等价的词汇集合，一个同义词集中的词语具有相同的概念。同义词集按照多种关系连接起来组成词语网络，名词、动词、形容词、副词组织成基本独立的词语网络。目前常用的方法包括以下三类：

Li相似度是基于两概念节点的最小公共包含节点和两概念之间的距离计算相似度，计算方法如式(2)。公式中α是一个平滑因子；β是一个调节距离和深度两个度量对相似度贡献的比例因子；h是两概念节点的最小公共包含节点深度，l是两概念节点的距离。Li相似度随h增加而增加，随l增加而减小，深度越深说明该最小公共包含节点的概念越具体，相等距离在具体层面比在抽象层面的实际距离应该更近，所以该度量是基于最短路径方法的改进。Li相似度方法结合了深度和距离且灵活可变，是词语相似度度量的较好方法。

Wu&Palmer相似度根据两个词语对应的概念节点在网络中的深度和两个概念节点的最小公共包含节点即最低公共祖先节点的深度来计算，因此该方法也是利用节点的上下位关系，计算方法如式(3)。

基于Word2vec的方法，是通过将单词表征成固定维数的向量，然后根据单词向量计算文本向量，最后利用余弦相似度计算得到文本之间的相似性。Word2vec是Google在2013年开源的一款将词表征为实数值向量的高效工具，其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多自然语言处理相关的工作，比如聚类、找同义词、词性分析等等。

步骤S5具体为：本申请采用重聚类的方法来解决类中心漂移的问题；类中心的漂移导致了贪婪增量聚类结果跟文本输入顺序有关，该现象主要存在于聚类的增量过程中，随着越来越多的社交短文本被聚在一起，类中心会逐渐发生变化而以前聚入类中的短文本与类中心不再相似，因此在增量聚类到一定数量或间隔一定时间之后需要对每个类中的成员进行调整。

主要操作过程为：对每个类计算类中短文本与当前类中心向量的相似度，对于低于第一阈值范围的下限0.46的短文本需要返回步骤2重新寻找更相似的类；如果找到最相似类则将当前类中的目标短文本删除，加入最相似类中，如果没有最相似类则创建新类。

步骤S6具体为：本申请采用类合并来解决引入重聚类方法产生的离群点问题，实际情况是有些离群点能够和现有的类再次合并，而更多离群点无论经过多少次重聚类和合并的过程都无法合并入合适的类中，因此需要及时对这些离群点进行处理有利于提高聚类时的处理速度。

社交短文本因为文本长度限制词语特征少，可能导致描述一个主题时只描述了主题内容的一部分，聚类时相同主题的短文本可能因为包含词语的少许差别而没有聚在一起，但随着类中社交短文本数量逐渐增多，每个类的中心逐渐向完整主题信息的方向偏移，可能让同一个主题的类越来越相似，此外重聚类步骤让类中不相似的成员进行了调整，改变了一些类的词语倾向，并产生了一些离群点，因此在重聚类之后对相似的类进行合并是必要的。

本申请采用类的信息熵来衡量两个类的相似度，原理是当两个类相似的时候，把一个类合并入另一个类时信息熵不会增加太多。假设B、C是两个待合并的类，信息熵变化阈值为0.1，如果计算得B、C合并后，合并类的信息熵变化值小于阈值，则说明B、C两个类相似，可以合并；否则不相似，不能合并。

合并相似类的两个指标是类相似度和类信息熵。类信息熵由类中心向量得到，计算方法是将类中心向量归一化，即每一维除以向量总和，让向量每一维相加为1，如式(4)。以归一化的类中心向量近似类中词语出现的概率分布，以近似的概率分布计算类的信息熵，如式(5)。类合并之后的信息熵增加说明类的主题变得不明确，而熵减少说明类的主题更加确定，因此在类的信息熵增加不多的情况下可以将类合并。

但例外的是如果合并后类的中心偏向于一两个词的时候熵也会减小，但这种情况一般说明类合并不正确，因为一两个词语通常是不可能将一个主题概括出来的。为了消除这种错误情况，需要先比较两个类的相似度，只有在类足够相似的时候才允许类合并。因此类合并的方法是先计算两个类的相似度，当类足够相似时(大于类相似度阈值0.51，即第二阈值)才计算类合并的信息熵变化，当信息熵增加不大或减少时合并两个类。信息熵条件减少了类按相似度合并时混入的噪声让主题更突出而不是更模糊，而相似度条件减少了按信息熵合并时错误的过度聚合，两个条件相辅相成互为补充。

步骤S7具体为：本申请通过修剪类去除聚类中的噪声。社交短文本中存在大量的噪声，存在于一般的类中和离群点中。在预处理时过滤了相当多与事件无关的社交短文本，但依然存在与事件无关的噪声社交短文本，其中一部分会成为离群点，当然一些与事件相关的社交短文本因表述和其他相关社交短文本差异较大也会成为离群点，这些离群点也可以当做噪声处理。离群点在短文本聚类中数量较多，对离群点的处理可以加快聚类速度，增加聚类准确性。

修剪类的具体方法是，在重聚类与类合并处理之后对类进行修剪，修剪分为两步，第一步根据类中心时间将全部类从小到大排序，删除超出类失效时间范围。第二步，当类总个数超出上限时，将类按照类中社交短文本数量和更新时间排序，类中社交短文本数量按从小到大是第一排序规则，类更新时间按从小到大是第二排序规则，删除排序靠前的类直到类数量低于上限。

修剪类主要依据以下几个指标：

(1)类失效时间范围。当类中心时间超出了失效时间范围说明该类描述的事情已经过了相当长一段时间，失去了事件检测的价值，可以将其删除。类失效时间范围一般根据事件检测的时间要求取合适的值，如1天或2天比较合适。

(2)类最近更新时间。每个类别有一个独立的更新时间，类最近更新时间是上次该类中成员发生变化的时候的计算机时间，更新时间越靠后表示类再次更新的可能性更大，在删除类时应该先删除更新时间较前的类。

(3)类总个数上限。类总个数上限将类的总个数控制在上限范围内。类个数太多可能导致聚类速度过慢或超出计算机的处理和存储能力，类总个数上限根据硬件性能的实际情况确定。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种短文本在线聚类方法，其特征在于，包括：

S1、对获取的社交短文本进行预处理，提取文本特征；

S2、根据文本特征，采用向量空间模型计算短文本相似度；

S6、对经步骤S5处理之后的类进行合并操作；

S7、对经步骤S6处理的类进行修剪操作。

2.根据权利要求1所述的一种短文本在线聚类方法，其特征在于，步骤S2具体为：根据文本特征构建短文本向量；计算短文本向量与各已知类中心向量的与余弦相似度。

3.根据权利要求1所述的一种短文本在线聚类方法，其特征在于，步骤S4具体为：

基于WordNet计算文本相似度，具体表达式如下：

<mrow> <msub> <mi>Sim</mi> <mrow> <mi>L</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>a</mi> <mi>l</mi> </mrow> </msup> <mo>&CenterDot;</mo> <mfrac> <mrow> <msup> <mi>e</mi> <mrow> <mi>&beta;</mi> <mi>h</mi> </mrow> </msup> <mo>-</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>&beta;</mi> <mi>h</mi> </mrow> </msup> </mrow> <mrow> <msup> <mi>e</mi> <mrow> <mi>&beta;</mi> <mi>h</mi> </mrow> </msup> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>&beta;</mi> <mi>h</mi> </mrow> </msup> </mrow> </mfrac> </mrow>

或者

4.根据权利要求1所述的一种短文本在线聚类方法，其特征在于，步骤S6具体为：计算经步骤S5处理之后的类的信息熵，以及任意两个类的相似度；若相似度大于第二阈值，则计算若两个类合并后的类的信息熵，若合并后的类的信息熵大小变化值不超过0.1，则将两个类进行合并；否则不合并。

5.根据权利要求1所述的一种短文本在线聚类方法，其特征在于，步骤S7具体为：根据经步骤S6处理后的各类中心时间将全部类从小到大排序，删除超出类失效时间范围的类；