CN106599072B - 一种文本聚类方法及装置 - Google Patents

一种文本聚类方法及装置 Download PDF

Info

Publication number
CN106599072B
CN106599072B CN201611035287.7A CN201611035287A CN106599072B CN 106599072 B CN106599072 B CN 106599072B CN 201611035287 A CN201611035287 A CN 201611035287A CN 106599072 B CN106599072 B CN 106599072B
Authority
CN
China
Prior art keywords
text
word
clustered
clustering
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611035287.7A
Other languages
English (en)
Other versions
CN106599072A (zh
Inventor
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201611035287.7A priority Critical patent/CN106599072B/zh
Publication of CN106599072A publication Critical patent/CN106599072A/zh
Application granted granted Critical
Publication of CN106599072B publication Critical patent/CN106599072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文本聚类方法和装置,实现了提高文本聚类效率和质量的目的。其中,所述方法包括:获取待聚类文本,所述待聚类文本中包括各个特征词;对所述待聚类文本的各个特征词进行聚类,得到每一个词聚类类别分别对应的特征词集;构建与每个待聚类文本对应的文本向量,所述文本向量中的每一维表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度;利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类。

Description

一种文本聚类方法及装置
技术领域
本发明涉及自然语言文本智能分析领域,尤其涉及一种文本聚类方法及装置。
背景技术
文本聚类是聚类分析技术在文本处理领域的一种应用。文本聚类的方法能自动发现一个文本集中的若干簇,并将文本集中的所有文本划分成多个簇,使得属于同一个簇中的文本之间的内容具有较高的相似度,而属于不同簇的文本之间的内容差别较大。文本聚类方法可应用于很多方面,例如:美国国防部的话题检测与追踪(TDT,Topic detectionand tracking)项目就力图通过文本聚类方法在一个新闻文本流中自动发现热点话题;此外,还可以使用文本聚类方法对搜索引擎返回的结果网页进行聚类,从而使用户获得更加结构化的和可理解的搜索结果;通过使用文本聚类方法,还可自动产生类似于雅虎目录(Yahoo Directory)那样的网络文本的分类体系等。
目前的文本聚类方法通常是基于向量空间模型(Vector Space Model,VSM)的。在向量空间模型中,每个文本都被表示为一个多维欧几里德空间中的文本向量,空间中的每一维都和一个特征词相对应,文本向量在每一维上的取值一般定义为该维所对应的特征词在该文本向量所对应的文本中出现的次数。对于任何一个文本集,利用向量空间模型可以产生一个基于特征词的文本向量矩阵V(n*k),其中n为文本集中文本的数量,k为每个文本向量的维数,矩阵的每一行都对应一个文本向量。获得文本集的向量矩阵后,可以利用各种经典的聚类算法如K均值(K-means)算法、层次凝聚聚类(HAC)算法等对文本集的向量矩阵进行聚类计算,从而产生文本聚类结果。
由于向量空间模型的每一个特征词就是一维,当特征词的数量较多时,维数也同样很多,因此在获得文本向量矩阵进行后续的聚类计算时,计算量会非常庞大,计算效率较低。
此外,因为现有技术中文本向量的维数较多,使得文本向量对文本的表示极为稀疏,即文本向量中各维语义表达极为分散,因而造成在以语义为依据的文本聚类过程中,效果较差。
发明内容
为了解决现有技术存在的技术问题,本发明提供了一种文本聚类方法及装置,实现了提高文本聚类效率和质量的目的。
本发明实施例提供了一种文本聚类方法,所述方法包括:
获取待聚类文本,所述待聚类文本中包括各个特征词;
对所述待聚类文本的各个特征词进行聚类,得到每一个词聚类类别分别对应的特征词集;
构建与每个待聚类文本对应的文本向量,所述文本向量中的每一维表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度;
利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类。
可选的,所述构建与每个待聚类文本对应的文本向量包括:
计算所述待聚类文本中每个特征词的词权重,所述词权重表示所述特征词相对于所在的待聚类文本的重要程度;
利用所述词聚类类别中每个特征词的词权重,分别得到每个待聚类文本中每个词聚类类别的类权重,所述类权重表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度;
利用所述每个待聚类文本中每个词聚类类别的类权重分别构建所述与每个待聚类文本对应的文本向量,所述文本向量的每一维为对应待聚类文本中一个词聚类类别的类权重。
可选的,在计算所述待聚类文本中每个特征词的词权重步骤之后,所述方法还包括:
分别选取每个待聚类文本中词权重由大到小排列的前N个特征词,所述N为大于0的整数;
所述利用所述词聚类类别中每个特征词的词权重,分别得到每个待聚类文本中每个词聚类类别的类权重包括:
利用所述词聚类类别中选取得到的每个特征词的词权重,分别得到每个待聚类文本中每个词聚类类别的类权重。
可选的,所述每个待聚类文本中每个词聚类类别的类权重具体为:
每个待聚类文本中每个词聚类类别归一化后的类权重;
所述归一化后的类权重具体通过如下公式计算:
Figure BDA0001158114580000031
Figure BDA0001158114580000032
其中,Ck为第k类词聚类类别,wjk表示待聚类文本dj的词聚类类别Ck的类权重,tfidfij表示待聚类文本dj中属于词聚类类别Ck的特征词wordi的tf-idf值,w′jk表示待聚类文本dj在词聚类类别Ck上归一化后的类权值,N表示词聚类类别的总数。
本发明实施例还提供了一种文本聚类装置,所述装置包括:文本获取单元、特征词聚类单元、向量构建单元和文本聚类单元;
其中,所述文本获取单元,用于获取待聚类文本,所述待聚类文本中包括各个特征词;
所述特征词聚类单元,用于对所述待聚类文本的各个特征词进行聚类,得到每一个词聚类类别分别对应的特征词集;
所述向量构建单元,用于构建与每个待聚类文本对应的文本向量,所述文本向量中的每一维表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度;
所述文本聚类单元,用于利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类。
可选的,所述向量构建单元包括:
词权重计算单元、类权重计算单元和文本向量构建单元;
其中,所述词权重计算单元,用于计算所述待聚类文本中每个特征词的词权重,所述词权重表示所述特征词相对于所在的待聚类文本的重要程度;
所述类权重计算单元,用于利用所述词聚类类别中每个特征词的词权重,分别得到每个待聚类文本中每个词聚类类别的类权重,所述类权重表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度;
所述文本向量构建单元,用于利用所述每个待聚类文本中每个词聚类类别的类权重分别构建所述与每个待聚类文本对应的文本向量,所述文本向量的每一维为对应待聚类文本中一个词聚类类别的类权重。
可选的,所述装置还包括:
特征词选取单元,用于分别选取每个待聚类文本中词权重由大到小排列的前N个特征词,所述N为大于0的整数;
所述类权重计算单元,具体用于:
利用所述词聚类类别中选取得到的每个特征词的词权重,分别得到每个待聚类文本中每个词聚类类别的类权重,所述类权重表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度。
可选的,所述类权重计算单元,具体用于:
利用所述词聚类类别中每个特征词的词权重,分别得到每个待聚类文本中每个词聚类类别的归一化后的类权重;
所述归一化后的类权重具体通过如下公式计算:
Figure BDA0001158114580000041
Figure BDA0001158114580000042
其中,Ck为第k类词聚类类别,wjk表示待聚类文本dj的词聚类类别Ck的类权重,tfidfij表示待聚类文本dj中属于词聚类类别Ck的特征词wordi的tf-idf值,w′jk表示待聚类文本dj在词聚类类别Ck上归一化后的类权值,N表示词聚类类别的总数。
本发明通过获取待聚类文本,对所述待聚类文本的各个特征词进行聚类,得到每一个词聚类类别分别对应的特征词,然后构建与每个待聚类文本对应的文本向量,并利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类。由于本发明将文本向量的每一维“压缩”到一类特征词,而不是一个特征词,即文本向量中的每一维表示一个词聚类类别的特征词相对于一个待聚类文本的重要程度,这样文本向量的维度就会大大降低,有效减少后续文本聚类过程中的计算量,提高文本聚类的速度。
相对于现有技术,本发明不仅在聚类速度上有大幅度的提升,在文本聚类的效果上也有较好的表现。这是因为相对于现有技术,文本向量的维度由高维变为低维,且词聚类一般都是将具有相似语义的特征词聚为一类,因此得到的文本向量稀疏性较低,在以语义为依据的文本聚类过程中能够产生更好的效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例一提供的一种文本聚类方法的流程图;
图2为本发明实施例一中构建与每个待聚类文本对应的文本向量方法的流程图;
图3为本发明实施例三提供的一种文本聚类装置结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
参见图1,该图为本发明实施例一提供的一种文本聚类方法的流程图。
本实施例提供的文本聚类方法包括如下步骤:
步骤S101:获取待聚类文本,所述待聚类文本中包括各个特征词。
所述待聚类文本可以是关于任何题材的文本,其所用语言可以是中文、英文或其他语言。所述待聚类文本包括多个文本,其文件格式可以是.txt、.doc等能够对所述待聚类文本中的特征词进行处理的格式。所述特征词是指含义完整且独立的词汇,例如“国家”、“金融”、“事件”、“nature”、“tree”等等。从词性来讲,所述特征词可以是名词、动词、形容词等,本发明不做具体限定。
在实际应用中,可以通过对所述待聚类文本进行分词和去停用词(Stop Words)来得到所述特征词。
其中,所述分词是指按照语素对文本进行划分的手段。现有的对中文文本进行分词的算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
其中,基于字符串匹配的分词方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子***、句法语义子***、总控部分。在总控部分的协调下,分词子***可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。
基于统计的分词方法的原理为:从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。
所述去停用词是指将停用词去除。不同的用户对停用词的定义可能有不同,但通常指的是一些没有什么实际含义的功能词,例如“的”“呢”“了”“the”“that”“this”等。去掉停用词的目的是为了提高特征词的质量和待处理文本的处理效率。
另外,若所述待聚类文本是以多个文件的形式存在的,为了节约处理时间,可以合并为一个文件。
步骤S102:对所述待聚类文本的各个特征词进行聚类,得到每一个词聚类类别分别对应的特征词集。
在本实施例中,对所述待聚类文本的各个特征词进行聚类,是指将所述待聚类文本中的所有特征词按照一定规则划分为若干个词聚类类别,得到每一个词聚类类别分别对应的特征词集合,每个特征词属于且仅属于其中一个词聚类类别。所述词聚类类别的数量可以是预先设定的一个固定值,也可以是***在聚类的过程中自动得到的,具体取决于聚类的算法。关于如何对所述待聚类文本的各个特征词进行聚类,可以采用现有的词聚类算法实现,目前的词聚类算法可以分为分割法、层次聚类法、基于密度的聚类算法等,其中分割法主要包括K-means算法。
所谓K-means算法,也被称为K-均值或K-平均。该算法首先将特征词转化为向量,得到所有特征词的向量集合。然后人工设定词聚类类别个数K,并随机选取K个向量作为类别中心向量。接着,遍历所有特征词,将每个特征词划分到最近的中心向量,特征词之间的距离可以通过向量余弦公式计算。计算每个类别中所有向量的平均值,作为该类别新的中心向量。重复遍历步骤和平均值计算步骤,直到这K个中心点收敛,算法结束。
层次聚类算法是指通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类“树”。假设有N个待聚类的样本,对于层次聚类来说,基本步骤就是:1、(初始化)把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似度;2、寻找各个类之间最近的两个类,把他们归为一类(这样类的总数就少了一个);3、重新计算新生成的这个类与各个旧类之间的相似度;4、重复2和3直到所有样本点都归为一类,结束。
基于密度的聚类算法的中心思想为:在整个样本空间点中,各目标类簇是由一群的稠密样本点组成的,而这些稠密样本点被低密度区域(噪声)分割,而算法的目的就是要过滤低密度区域,发现稠密样本点。
在本实施例中,采用K-means算法,进行词聚类的结果可以表示为向量的形式,例如:
ClusterResult=<<word1,C1><word2,C2>......<wordn,Cn>>
其中,n表示词表长度,Ci表示第i个词wordi所属的类别编号。
步骤S103:构建与每个待聚类文本对应的文本向量,所述文本向量中的每一维表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度。
现有技术中,文本向量的每一维都和一个特征词相对应,文本向量在每一维上的取值一般定义为该维所对应的特征词在该文本向量所对应的文本中出现的次数(特征词相对于待聚类文本的重要程度的其中一种表现形式)。这样,在特征词众多的时候,文本向量的维数也会非常多,从而导致在后续文本聚类过程中计算量极大。
为了克服这个技术问题,本实施例将文本向量的每一维“压缩”到一类特征词,而不是一个特征词,即文本向量中的每一维表示的是一个词聚类类别的特征词集相对于一个待聚类文本的重要程度,这样文本向量的维度就会大大降低,有效减少后续文本聚类过程中的计算量。
具体的,参见图2,构建与每个待聚类文本对应的文本向量可以包括下述步骤S1031至步骤S1033。
步骤S1031:计算所述待聚类文本中每个特征词的词权重,所述词权重表示所述特征词相对于所在的待聚类文本的重要程度。
计算词权重的方法有很多,现有技术采用一个特征词在其出现的待聚类文本出现的次数(即词频)来表示该特征词相对于所在的待聚类文本的重要程度。而在本实施例中,所述词权重为tf-idf(term frequency–inverse document frequency,词频-逆向文件频率)值。tf-idf值综合考虑了一个特征词在其出现的待聚类文本出现的次数以及该特征词在所有待聚类文本中出现的次数,所以相对于现有技术而言更为准确。
所述特征词的tf-idf值根据如下公式计算:
Figure BDA0001158114580000081
其中,tf-idfj(wi)表示待聚类文本dj中特征词wi的tf-idf值,nij表示待聚类文本dj中特征词wi的个数,Σknk,j表示待聚类文本dj中特征词的总数量,|D|表示待聚类文本的总数量,|{j:wi∈dj}|表示包含特征词wi的待聚类文本的数量。
为了节约计算时间,提高计算效率,在计算所述待聚类文本中每个特征词的词权重之后,可以以待聚类文本为单位,按照词权重由高到低的顺序进行排序,选取前N个特征词,所述N为大于0的整数。下述步骤中提到的特征词可以指所述前N个特征词。
例如,每个待聚类文本中选取词权重最高的前100个特征词,形成如下向量:
dj=<<word1j,tfidf1j><word2j,tfidf2j>......<word100j,tfidf100j>>
其中,dj为第j个待聚类文本,word1j至word100j表示第j个待聚类文本中的权重值最大的前100个特征词,tfidf1j至fidf100j分别表示与每个特征词对应的tf-idf值。
步骤S1032:利用所述词聚类类别中每个特征词的词权重,分别得到每个待聚类文本中每个词聚类类别的类权重,所述类权重表示一个待聚类文本中一个词聚类类别的特征词集相对于该待聚类文本的重要程度。
以词权重为tf-idf值为例,每个待聚类文本中每个词聚类类别的类权重可以通过如下公式表示:
Figure BDA0001158114580000091
其中,Ck为第k类词聚类类别,wjk表示待聚类文本dj的词聚类类别Ck的类权重,tfidfij表示待聚类文本dj中属于词聚类类别Ck的特征词wordi的tf-idf值。
为了便于后续的文本聚类计算,可以进一步将类权重归一化,例如令:
Figure BDA0001158114580000092
w′jk表示待聚类文本dj在词聚类类别Ck上归一化后的类权值,N表示词聚类类别的总数。
通过本步骤,待聚类文本dj可以表示为:dj=<<C1,w'j1><C2,w'j2>......<CN,w'jN>>。
步骤S1033:利用所述每个待聚类文本中每个词聚类类别的类权重分别构建所述与每个待聚类文本对应的文本向量。
本实施例在得到每个待聚类文本中每个词聚类类别的类权重后,分别构建所述与每个待聚类文本对应的文本向量,所述文本向量的每一维为对应待聚类文本中一个词聚类类别的类权重。
若将所有待聚类文本对应的文本向量构建为一个矩阵,则可以表示为
Figure BDA0001158114580000101
其中,N代表词聚类类别的数量,M代表待聚类文本的数量。
步骤S104:利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类。
在本实施例中,在得到每个待聚类文本对应的文本向量后,可以利用现有技术中的方法对所述待聚类文本进行聚类,例如根据所述文本向量计算所述待聚类文本之间的相似度,然后进一步利用聚类算法对所述待聚类文本进行聚类。
本实施例通过获取待聚类文本,对所述待聚类文本的各个特征词进行聚类,得到每一个词聚类类别分别对应的特征词,然后构建与每个待聚类文本对应的文本向量,并利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类。由于本实施例将文本向量的每一维“压缩”到一类特征词,而不是一个特征词,即文本向量中的每一维表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度,这样文本向量的维度就会大大降低,有效减少后续文本聚类过程中的计算量,提高文本聚类的速度。
相对于现有技术,本实施例不仅在聚类速度上有大幅度的提升,在文本聚类的效果上也有较好的表现。这是因为相对于现有技术,文本向量的维度由高维变为低维,且词聚类一般都是将具有相似语义的特征词聚为一类,因此得到的文本向量稀疏性较低,在以语义为依据的文本聚类过程中能够产生更好的效果。
为了证明该观点,发明人收集了2000个待聚类文本进行实验,这2000个待聚类文本涉及10个领域,它们分别为经济、军事、体育、医药、环境、计算机、交通、教育、艺术和政治,每个领域均分别包括200个待聚类文本。
发明人采用全局F值(F-measure)来衡量文本聚类效果。下面首先介绍一下F值和全局F值。
F值组合了信息检索中的查准率(precision)与查全率(recall)的思想来进行聚类评价。一个聚类j的查准率和查全率的计算方法如下:
Figure BDA0001158114580000111
Figure BDA0001158114580000112
ni为待聚类文本类别i的文本数量,nj为聚类后文本类别j的文本数量,nij为聚类后文本类别j中隶属于待聚类文本类别i的文本数量。
F值计算公式如下:
Figure BDA0001158114580000113
全局F值是对每个待聚类文本类别i的F值的加权平均得到,具体计算公式如下:
Figure BDA0001158114580000114
全局F值越大,说明文本聚类效果越好。
发明人采用余弦法进行文本相似度计算,以及采用k-means算法对待聚类文本进行聚类。通过实验,基于现有技术的文本向量(一个维度对应一个特征词)进行5次文本聚类,得到的全局F值均值为0.642。而基于本实施例提供的文本聚类方法(词聚类部分采用k-means算法,计算重要程度部分采用tf-idf值)得到的全局F值均值为0.703,大于现有技术的全局F值均值。由此可以证明,采用本实施例提供的文本聚类方法在聚类效果上要优于现有技术的聚类方法。
基于以上实施例提供的一种文本聚类方法,本发明实施例还提供了一种文本聚类装置,下面结合附图来详细说明其工作原理。
实施例二
参见图3,该图为本发明实施例二提供的一种文本聚类装置的结构框图。
本实施例提供的文本聚类装置包括:文本获取单元101、特征词聚类单元102、向量构建单元103和文本聚类单元104;
其中,所述文本获取单元101,用于获取待聚类文本,所述待聚类文本中包括各个特征词;
所述特征词聚类单元102,用于对所述待聚类文本的各个特征词进行聚类,得到每一个词聚类类别分别对应的特征词集;
所述向量构建单元103,用于构建与每个待聚类文本对应的文本向量,所述文本向量中的每一维表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度;
所述文本聚类单元104,用于利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类。
本实施例通过获取待聚类文本,对所述待聚类文本的各个特征词进行聚类,得到每一个词聚类类别分别对应的特征词,然后构建与每个待聚类文本对应的文本向量,并利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类。由于本实施例将文本向量的每一维“压缩”到一类特征词,而不是一个特征词,即文本向量中的每一维表示一个词聚类类别的特征词相对于一个待聚类文本的重要程度,这样文本向量的维度就会大大降低,有效减少后续文本聚类过程中的计算量,提高文本聚类的速度。
相对于现有技术,本实施例不仅在聚类速度上有大幅度的提升,在文本聚类的效果上也有较好的表现。这是因为相对于现有技术,文本向量的维度由高维变为低维,且词聚类一般都是将具有相似语义的特征词聚为一类,因此得到的文本向量稀疏性较低,在以语义为依据的文本聚类过程中能够产生更好的效果。
可选的,所述向量构建单元103包括:
词权重计算单元、类权重计算单元和文本向量构建单元;
其中,所述词权重计算单元,用于计算所述待聚类文本中每个特征词的词权重,所述词权重表示所述特征词相对于所在的待聚类文本的重要程度;
所述类权重计算单元,用于利用所述词聚类类别中每个特征词的词权重,分别得到每个待聚类文本中每个词聚类类别的类权重,所述类权重表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度;
所述文本向量构建单元,用于利用所述每个待聚类文本中每个词聚类类别的类权重分别构建所述与每个待聚类文本对应的文本向量,所述文本向量的每一维为对应待聚类文本中一个词聚类类别的类权重。
可选的,所述装置还包括:
特征词选取单元,用于分别选取每个待聚类文本中词权重由大到小排列的前N个特征词,所述N为大于0的整数;
所述类权重计算单元,具体用于:
利用所述词聚类类别中选取得到的每个特征词的词权重,分别得到每个待聚类文本中每个词聚类类别的类权重,所述类权重表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度。
可选的,所述词权重计算单元,具体用于:
计算所述待聚类文本中每个特征词的tf-idf值,所述特征词的tf-idf值根据如下公式计算:
Figure BDA0001158114580000131
其中,tf-idfj(wi)表示待聚类文本dj中特征词wi的tf-idf值,nij表示待聚类文本dj中特征词wi的个数,∑knk,j表示待聚类文本dj中特征词的总数量,|D|表示待聚类文本的总数量,|{j:wi∈dj}|表示包含特征词wi的待聚类文本的数量。
当介绍本发明的各种实施例的元件时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外,还可以有其它元件。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种文本聚类方法,其特征在于,所述方法包括:
获取待聚类文本,所述待聚类文本中包括各个特征词;
对所述待聚类文本的各个特征词进行聚类,得到每一个词聚类类别分别对应的特征词集;
构建与每个待聚类文本对应的文本向量,所述文本向量中的每一维表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度;
利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类;
所述构建与每个待聚类文本对应的文本向量包括:
计算所述待聚类文本中每个特征词的词权重,所述词权重表示所述特征词相对于所在的待聚类文本的重要程度;
利用所述词聚类类别中每个特征词的词权重,分别得到每个待聚类文本中每个词聚类类别的类权重,所述类权重表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度;
利用所述每个待聚类文本中每个词聚类类别的类权重分别构建所述与每个待聚类文本对应的文本向量,所述文本向量的每一维为对应待聚类文本中一个词聚类类别的类权重。
2.根据权利要求1所述的方法,其特征在于,在计算所述待聚类文本中每个特征词的词权重步骤之后,所述方法还包括:
分别选取每个待聚类文本中词权重由大到小排列的前N个特征词,所述N为大于0的整数;
所述利用所述词聚类类别中每个特征词的词权重,分别得到每个待聚类文本中每个词聚类类别的类权重包括:
利用所述词聚类类别中选取得到的每个特征词的词权重,分别得到每个待聚类文本中每个词聚类类别的类权重。
3.根据权利要求1或2所述的方法,其特征在于,所述每个待聚类文本中每个词聚类类别的类权重具体为:
每个待聚类文本中每个词聚类类别归一化后的类权重;
所述归一化后的类权重具体通过如下公式计算:
Figure FDA0002306896740000011
Figure FDA0002306896740000021
其中,Ck为第k类词聚类类别,wjk表示待聚类文本dj的词聚类类别Ck的类权重,tfidfij表示待聚类文本dj中属于词聚类类别Ck的特征词wordi的tf-idf值,w'jk表示待聚类文本dj在词聚类类别Ck上归一化后的类权值,N表示词聚类类别的总数。
4.一种文本聚类装置,其特征在于,所述装置包括:文本获取单元、特征词聚类单元、向量构建单元和文本聚类单元;
其中,所述文本获取单元,用于获取待聚类文本,所述待聚类文本中包括各个特征词;
所述特征词聚类单元,用于对所述待聚类文本的各个特征词进行聚类,得到每一个词聚类类别分别对应的特征词集;
所述向量构建单元,用于构建与每个待聚类文本对应的文本向量,所述文本向量中的每一维表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度;
所述文本聚类单元,用于利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类;
所述向量构建单元包括:
词权重计算单元、类权重计算单元和文本向量构建单元;
其中,所述词权重计算单元,用于计算所述待聚类文本中每个特征词的词权重,所述词权重表示所述特征词相对于所在的待聚类文本的重要程度;
所述类权重计算单元,用于利用所述词聚类类别中每个特征词的词权重,分别得到每个待聚类文本中每个词聚类类别的类权重,所述类权重表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度;
所述文本向量构建单元,用于利用所述每个待聚类文本中每个词聚类类别的类权重分别构建所述与每个待聚类文本对应的文本向量,所述文本向量的每一维为对应待聚类文本中一个词聚类类别的类权重。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
特征词选取单元,用于分别选取每个待聚类文本中词权重由大到小排列的前N个特征词,所述N为大于0的整数;
所述类权重计算单元,具体用于:
利用所述词聚类类别中选取得到的每个特征词的词权重,分别得到每个待聚类文本中每个词聚类类别的类权重,所述类权重表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度。
6.根据权利要求4或5所述的装置,其特征在于,所述类权重计算单元,具体用于:
利用所述词聚类类别中每个特征词的词权重,分别得到每个待聚类文本中每个词聚类类别的归一化后的类权重;
所述归一化后的类权重具体通过如下公式计算:
Figure FDA0002306896740000031
Figure FDA0002306896740000032
其中,Ck为第k类词聚类类别,wjk表示待聚类文本dj的词聚类类别Ck的类权重,tfidfij表示待聚类文本dj中属于词聚类类别Ck的特征词wordi的tf-idf值,w'jk表示待聚类文本dj在词聚类类别Ck上归一化后的类权值,N表示词聚类类别的总数。
CN201611035287.7A 2016-11-21 2016-11-21 一种文本聚类方法及装置 Active CN106599072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611035287.7A CN106599072B (zh) 2016-11-21 2016-11-21 一种文本聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611035287.7A CN106599072B (zh) 2016-11-21 2016-11-21 一种文本聚类方法及装置

Publications (2)

Publication Number Publication Date
CN106599072A CN106599072A (zh) 2017-04-26
CN106599072B true CN106599072B (zh) 2020-07-10

Family

ID=58591780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611035287.7A Active CN106599072B (zh) 2016-11-21 2016-11-21 一种文本聚类方法及装置

Country Status (1)

Country Link
CN (1) CN106599072B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145568A (zh) * 2017-05-04 2017-09-08 成都华栖云科技有限公司 一种快速的新闻事件聚类***及方法
CN110362815A (zh) * 2018-04-11 2019-10-22 北京京东尚科信息技术有限公司 文本向量生成方法和装置
CN109101633B (zh) * 2018-08-15 2019-08-27 北京神州泰岳软件股份有限公司 一种层次聚类方法及装置
CN109766437A (zh) * 2018-12-07 2019-05-17 中科恒运股份有限公司 一种文本聚类方法、文本聚类装置及终端设备
CN110083828A (zh) * 2019-03-29 2019-08-02 珠海远光移动互联科技有限公司 一种文本聚类方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
US20160170966A1 (en) * 2014-12-10 2016-06-16 Brian Kolo Methods and systems for automated language identification
CN105912576B (zh) * 2016-03-31 2020-06-09 北京外国语大学 情感分类方法及***
CN106095996B (zh) * 2016-06-22 2020-02-21 量子云未来(北京)信息科技有限公司 用于文本分类的方法

Also Published As

Publication number Publication date
CN106599072A (zh) 2017-04-26

Similar Documents

Publication Publication Date Title
CN107085581B (zh) 短文本分类方法和装置
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及***
US11126647B2 (en) System and method for hierarchically organizing documents based on document portions
CN106599072B (zh) 一种文本聚类方法及装置
Alami et al. Unsupervised neural networks for automatic Arabic text summarization using document clustering and topic modeling
CN110209808B (zh) 一种基于文本信息的事件生成方法以及相关装置
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
WO2011070832A1 (ja) 検索キーワードから文書データを検索する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム
CN106484797B (zh) 基于稀疏学习的突发事件摘要抽取方法
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及***
KR102373146B1 (ko) 군집 기반 중복문서 제거 장치 및 제거 방법
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
Vidyadhari et al. Particle grey wolf optimizer (pgwo) algorithm and semantic word processing for automatic text clustering
Campbell et al. Content+ context networks for user classification in twitter
Villegas et al. Vector-based word representations for sentiment analysis: a comparative study
Mercier et al. Senticite: An approach for publication sentiment analysis
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
Bhowmik Keyword extraction from abstracts and titles
Yang et al. Exploring word similarity to improve chinese personal name disambiguation
Ihou et al. A smoothed latent generalized dirichlet allocation model in the collapsed space
CN114298020A (zh) 一种基于主题语义信息的关键词向量化方法及其应用
Maylawati et al. Feature-based approach and sequential pattern mining to enhance quality of Indonesian automatic text summarization
AL-SAQQA et al. Unsupervised sentiment analysis approach based on clustering for Arabic text
Keyan et al. Multi-document and multi-lingual summarization using neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant