CN108920482B - 基于词汇链特征扩展和lda模型的微博短文本分类方法 - Google Patents

基于词汇链特征扩展和lda模型的微博短文本分类方法 Download PDF

Info

Publication number
CN108920482B
CN108920482B CN201810393067.4A CN201810393067A CN108920482B CN 108920482 B CN108920482 B CN 108920482B CN 201810393067 A CN201810393067 A CN 201810393067A CN 108920482 B CN108920482 B CN 108920482B
Authority
CN
China
Prior art keywords
microblog
words
vocabulary
chain
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810393067.4A
Other languages
English (en)
Other versions
CN108920482A (zh
Inventor
刘端阳
刘坤
沈国江
刘志
朱李楠
杨曦
阮中远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201810393067.4A priority Critical patent/CN108920482B/zh
Publication of CN108920482A publication Critical patent/CN108920482A/zh
Application granted granted Critical
Publication of CN108920482B publication Critical patent/CN108920482B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于词汇链特征扩展和LDA模型的微博分类方法,针对微博文本长度短、内容少、特征稀疏等问题,提出了词汇链特征扩展方法。在《同义词词林》的基础上生成基础词汇链,再利用基础词汇链去扩展微博文本。词汇链不仅能够涵盖到被《同义词词林》收录的词汇,而且还能涵盖到未被《同义词词林》收录的其他词汇,并且在扩展微博文本的同时还能不断丰富词汇链。针对向量空间模型在微博文本分类中高维数、语义特征不明显的问题,使用LDA主题模型的主题概率分布来表示微博文本,有效地降低了相似度计算的维度,并且融合了一定的语义特征。本方法综合了词汇链特征扩展和LDA模型的各自的优势,提出了微博分类方法。实验结果表明,这个方法有效地提高了微博文本的分类性能。

Description

基于词汇链特征扩展和LDA模型的微博短文本分类方法
技术领域
本发明涉及一种微博文本的分类方法。
背景技术
随着微博的普及和发展,它在促进人们交流和沟通的同时也带来了巨大的挑战。日常广泛使用的微博使得信息出现了***式的增长,微博文本的主要特点有:文本篇幅短、内容少、特征稀疏等。由于这些特点,从海量的微博中筛选出用户感兴趣的部分,并将其加以分类,就成为一个研究热点和难点。
微博文本的分类方法主要有两类:一类是基于大规模语料库的方法。这类方法针对微博文本特征稀疏等问题,利用知识库进行概念语义扩展,常用的知识库有WordNet、Wikipedia和《同义词词林》等。采用这种方法可以挖掘文本内部词语之间的潜在关系,扩展微博文本的特征信息,但是对未收录在知识库中的词语就没有作用,使用范围有限。另一类是基于搜索引擎的方法,即使用搜索引擎搜索文本关键词并利用所得内容去扩展微博文本。这种方法能够在一定程度解决微博短文本特征稀疏的问题,但是引入特征的同时不可避免的会引入噪声数据,同时这种借助搜索引擎的文本扩展方法也非常耗时。
近几年来,采用主题模型进行文本分类的方法成为研究热点,其中隐含狄里克雷分配(LDA:Latent Dirichlet Allocation)模型是常用的主题模型。很多研究都利用LDA模型训练得到的主题分布对向量空间模型(VSM:Vector Space Model)进行加权,可以获得良好的分类性能。一些研究则利用LDA模型处理得到的主题概率分布作为文本的向量表示,也有一些研究利用LDA模型来提取文本所隐藏的主题信息。在这些研究中,LDA模型都可以获得较好的效果,但是在微博文本分类领域,LDA模型也无法解决微博文本的特征稀疏问题。
发明内容
本发明克服了上述分类方法的不足,综合了词汇链特征扩展和 LDA模型各自的优势,提供一种基于词汇链特征扩展和LDA模型的微博分类方法。
本发明提出的微博分类方法,首先在《同义词词林》的基础上生成基础词汇链,然后利用基础词汇链对微博文本进行特征扩展。词汇链不仅能够涵盖到被《同义词词林》收录的词语,而且还能涵盖到未被《同义词词林》收录的其它词语,并且在扩展微博文本的同时还能不断丰富词汇链。最后使用LDA模型对词汇链扩展后的微博语料库进行建模处理,将微博文本映射成主题概念分布,这样不仅有将降低了相似度计算的维度,还融合了一定的语义特征。实验证明,这个方法有效地提高了微博文本的分类性能。
本发明涉及的《同义词词林》是一部汉语分类词典,根据树状层次把所有收录的词条组织起来,共分为大、中、小三类词语,最新版的《同义词词林》包含了近八万条词语。《同义词词林》的词语编码总共八位,前面七位表示词语的五层结构。其中,第一位是大写英文字母,表示词语的第一层;第二位是小写英文字母,表示词语的第二层;第三位和第四位是二位十进制整数,表示词语的第三层;第五位是大写英文字母,表示第四层;第六位和第七位是二位十进制整数,表示第五层。而词语编码的第八位,即词语编码的最后一位,取值为“=”、“#”和“@”,其中,“=”表示词语同义;“#”表示词语相关;“@”表示词语独立,即该词既没有同义词,也没有相关词。例如:“Gb12A01=尊敬崇敬敬重敬爱尊崇”,其中“Gb12A01=”是编码,“尊敬”、“崇敬”、“敬重”等都是该编码所对应的同义词语。
本发明涉及的词汇链是指文本中一组相似相近的词语共同组成的链式词汇集。它是基于文章的语义结构的,表达了文章的主题信息,每一条链表示某一主题信息。生成词汇链的基本原理是对文本预处理后的候选词汇集中的词语逐一进行筛选,计算候选词语与每个词汇链的语义相似度,语义相似度结果最大的词汇链即为该候选词语所属的链,并把该候选词语***到该词汇链中。对于某个微博类别的微博文本集,可以将该微博类别的微博文本集视为一篇文档,然后生成该文档的词汇链,选取其中最能代表该类的词汇链作为该微博类别的基础词汇链,用来扩展微博文本。
本发明涉及的LDA模型,即隐含狄里克雷分配(Latent Dirichlet Allocation)模型,是一种对文本数据进行有效降维和发掘潜在主题信息的模型,比较适合用于文本分类。LDA模型是一个三层贝叶斯概率生成的模型,其中文档表示为隐含主题的概率分布,主题表示为词语的概率分布。该模型将文档表示成主题概率分布,而主题的数量是一定的,从而较好地实现对文档的降维。
本发明是通过以下技术方案,综合了词汇链特征扩展和LDA模型各自的优势,在《同义词词林》的基础上,实现了一种基于词汇链特征扩展和LDA模型的微博分类方法。整个方案分为三个阶段:微博预处理(从第1步至第3步)、词汇链扩展(从第4步至第20步) 和LDA建模分类(从第21步至第24步)。
本发明的基于词汇链特征扩展和LDA模型的微博分类方法,具体如下:
(1)通过相应的渠道,如新浪微博、腾讯微博等,获取一定数量且包含多个不同微博类别的微博文本数据;
(2)对获取的微博文本进行预处理,主要包括文本清理、中文分词和去停用词等。首先采用正则表达式来去除微博中的空文本、表情符号、账户名称、网络链接和图片等无关的噪声数据,然后利用分词工具对微博文本进行中文分词和词性标注,并去除那些没有意义且频繁出现的词语,如虚词;
(3)输出微博语料库;
(4)将微博语料库分为训练集和测试集;
(5)针对训练集,进行基础词汇链的生成;
(6)开始循环,依次处理训练集中的各个微博类别;
(7)计算和统计某个微博类别下所有微博词语的出现频率;
(8)对于该微博类别的微博词语,如果某个词语未被《同义词词林》收录且出现频率大于或等于指定阈值ε(ε=3,可以根据情况设定),则把该词语归为词汇链L0。如果某个词语未被《同义词词林》收录且出现频率小于阈值ε,则该词语不归入任何词汇链,保留其出现频率,用于下次累计;
(9)建立该微博类别的候选词汇集,把该微博类别下所有被《同义词词林》收录的词语w1,w2,…,wn划入候选词汇集;
(10)开始循环,依次处理该微博类别的候选词汇集的词语 wi(i=1,2,…,n);
(11)如果该微博类别除L0外没有其它词汇链,则生成初始词汇链L1,并把词语w1加入词汇链L1,并返回第10步,继续处理下一个词语。否则,继续下一步;
(12)分别计算词wi与m条词汇链Lj(j=1,…,m)的语义相似度 S(wi,Lj),计算公式为:
Figure BDA0001643886650000051
其中,nj为词汇链Lj包含的词语个数,wjk为词汇链Lj的第k个词语。Sim(wi,wjk)为两个词语的语义相似度,采用了基于《同义词词林》的相似度计算方法,计算公式为:
Figure BDA0001643886650000052
其中Sim(wi,wj)为两个词语wi和wj的语义相似度,取值范围为 0~1。d为系数,由两个词语所对应的编码在哪一层分支(即编码不相同)所决定。如果两个词语在第一层分支,即第一层的编码不相同,则两个词语的相似度直接取为0.1,即 Sim(wi,wj)=0.1;如果两个词语在第二层分支,即第二层编码不相同,则d=0.65;同理,如果两个词语在第三层至第五层分支,则d的取值分别为0.8,0.9,0.96。t为分支层节点的总个数; h为分支间的距离。举例说明:有三个《同义词词林》的词语编码,如下:
Bi10D01=獭水獭海狸
Bi10D02@旱獭
Bi10D03=海獭海龙
词语“水獭”和“海獭”的语义相似度计算过程中,由于这两个词语是在第五层分支,其系数d的值取0.96;该分支层的节点总数为3,则t值为3;词语“水獭”在01分支,“海獭”在 03分支,因此h值为2。
(13)计算
Figure BDA0001643886650000061
可以得知在所有词汇链 Lj(j=1,…,m)中,词语wi与词汇链Lr(1≤r≤m)的相似度S(wi,Lr)最大。
(14)比较S(wi,Lr)和预设的相似度阈值σ,如果S(wi,Lr)≥σ,就把词语wi加入到对应的词汇链Lr中。如果S(wi,Lr)<σ,就生成一个新词汇链,并把词语wi加入到新生成的词汇链中。
(15)判断候选词汇集中的词是否处理完毕,如果没有,则返回第10步,继续处理下一个词语;否则,继续下一步。
(16)判断训练集中的所有微博类别是否处理完毕,如果没有,则返回第6步;否则,继续下一步;
(17)汇总训练集中所有微博类别的词汇链,形成基础词汇链,用于扩展微博文本,基础词汇链生成完毕。
(18)词汇链特征扩展:根据基础词汇链分别对训练集和测试集的微博词语进行特征扩展。
(19)针对训练集的所有微博词语,如果词语被《同义词词林》收录,则在基础词汇链中找到对应微博类别的包含该词语的词汇链,并检查该词汇链的词语数量。如果词语数量大于或等于设定值(根据经验可设定为8),则直接使用该词汇链去扩展原词语;否则,保持原词语,不进行扩展处理。如果词语未被《同义词词林》收录,则检查该词语是否在对应微博类别的词汇链L0中,如果在,则使用词汇链L0去扩展原词语;否则,保持原词语,不进行扩展处理。最后,输出扩展后的训练集。
(20)针对测试集语料库的所有微博词语,如果词语被《同义词词林》收录,则在基础词汇链中搜索所有微博类别的词汇链,如果存在某个微博类别的某条词汇链包含该词语,则直接使用该词汇链去扩展原词语;否则,计算该词语和每个微博类别的所有词汇链的相似度,并从中选取最大的相似度。如果这个最大的相似度大于或等于相似度阈值σ,则直接采用该词汇链来扩展原词语,同时将该词语加入到该词汇链中,扩充原词汇链;否则,保持原词语,不进行扩展处理。如果词语未被《同义词词林》收录,则在基础词汇链中搜索所有微博类别的L0词汇链。如果存在某个微博类别的L0词汇链包含该词语,则直接使用该 L0词汇链扩展原词语;否则,累计该词语的出现频率,包括训练集中的出现次数,判断该词的出现频率是否大于或等于指定阈值ε,如果是,则把该词归入对应微博类别的L0词汇链。最后,输出扩展后的测试集和扩展后的基础词汇链。扩展后的基础词汇链可以用于下次训练或微博分类。
(21)使用LDA主题模型分别对扩展后的训练集和测试集进行建模,提取每条微博的主题概率分布,输出训练集微博和测试集微博的主题概率分布。
(22)依次计算训练集中每个微博类别的主题概率分布。计算方法采用求平均值的方法,即对某个微博类别下的所有微博,计算这些微博的主题概率分布的平均值。例如,若训练集中体育类别的微博有2000条,则这2000条微博的主题概率分布的平均值即为体育类的主题概率分布。
(23)依次计算测试集中每条微博与各个微博类别主题概率分布的相似度,相似度值最大的为微博所属类别,相似度计算公式如下:
Sim(W,C)=2/[DKL(W||C)+DKL(C||W)]
其中,W为某条微博的主题概率分布,C为某个微博类别的主题概率分布,Sim(W,C)表示微博与微博类别的相似度,它的值越大,则表示两者越相近。DKL(W||C)表示W与C的KL距离,而DKL(C||W)表示C与W的KL距离。在计算KL距离时,由于 KL距离是不对称的,因此,DKL(W||C)和DKL(C||W)是不相等的。公式中的KL距离,是用来衡量两个概率分布的差异情况,其计算公式如下:
Figure BDA0001643886650000081
其中,P和Q是两个主题概率分布,x表示主题概率分布P和 Q的某个维度,topics[k]表示LDA模型所使用的k个主题值。由于LDA主题模型的主题个数是一定的,因此x∈topics[k]。
(24)输出分类结果。
本发明的有益效果:首先在《同义词词林》的基础上生成基础词汇链,然后利用基础词汇链去扩展微博文本。词汇链不仅能够涵盖到被《同义词词林》收录的词语,而且还能涵盖到未被《同义词词林》收录的其它词语,并且在扩展微博文本的同时还能不断丰富词汇链。最后使用LDA模型对扩展后的微博语料库进行建模处理,并利用得到的主题概率分布作为微博文本的向量表示,不仅达到了降维的目的,还融合一定的语义特征。这个方法有效提高了微博文本的分类性能。
附图说明
附图1本发明方法的流程图。
具体实施方式
下面结合附图进一步说明本发明的技术方案。
本发明的基于词汇链特征扩展和LDA模型的微博分类方法,具体实施步骤如下:
(1)通过相应的渠道,如新浪微博、腾讯微博等,获取一定数量且包含多个不同微博类别的微博文本数据;
(2)对获取的微博文本进行预处理,主要包括文本清理、中文分词和去停用词等。首先采用正则表达式来去除微博中的空文本、表情符号、账户名称、网络链接和图片等无关的噪声数据,然后利用分词工具对微博文本进行中文分词和词性标注,并去除那些没有意义且频繁出现的词语,如虚词;
(3)输出微博语料库;
(4)将微博语料库分为训练集和测试集;
(5)针对训练集,进行基础词汇链的生成;
(6)开始循环,依次处理训练集中的各个微博类别;
(7)计算和统计某个微博类别下所有微博词语的出现频率;
(8)对于该微博类别的微博词语,如果某个词语未被《同义词词林》收录且出现频率大于或等于指定阈值ε(ε=3,可以根据情况设定),则把该词语归为词汇链L0。如果某个词语未被《同义词词林》收录且出现频率小于阈值ε,则该词语不归入任何词汇链,保留其出现频率,用于下次累计;
(9)建立该微博类别的候选词汇集,把该微博类别下所有被《同义词词林》收录的词语w1,w2,…,wn划入候选词汇集;
(10)开始循环,依次处理该微博类别的候选词汇集的词语 wi(i=1,2,…,n);
(11)如果该微博类别除L0外没有其它词汇链,则生成初始词汇链L1,并把词语w1加入词汇链L1,并返回第10步,继续处理下一个词语。否则,继续下一步;
(12)分别计算词wi与m条词汇链Lj(j=1,…,m)的语义相似度 S(wi,Lj),计算公式为:
Figure BDA0001643886650000101
其中,nj为词汇链Lj包含的词语个数,wjk为词汇链Lj的第k个词语。Sim(wi,wjk)为两个词语的语义相似度,采用了基于《同义词词林》的相似度计算方法,计算公式为:
Figure BDA0001643886650000102
其中Sim(wi,wj)为两个词语wi和wj的语义相似度,取值范围为 0~1。d为系数,由两个词语所对应的编码在哪一层分支(即编码不相同)所决定。如果两个词语在第一层分支,即第一层的编码不相同,则两个词语的相似度直接取为0.1,即Sim(wi,wj)=0.1;如果两个词语在第二层分支,即第二层编码不相同,则d=0.65;同理,如果两个词语在第三层至第五层分支,则d的取值分别为0.8,0.9,0.96。t为分支层节点的总个数; h为分支间的距离。举例说明:有三个《同义词词林》的词语编码,如下:
Bi10D01=獭水獭海狸
Bi10D02@旱獭
Bi10D03=海獭海龙
词语“水獭”和“海獭”的语义相似度计算过程中,由于这两个词语是在第五层分支,其系数d的值取0.96;该分支层的节点总数为3,则t值为3;词语“水獭”在01分支,“海獭”在
03分支,因此h值为2。
(13)计算
Figure BDA0001643886650000111
可以得知在所有词汇链 Lj(j=1,…,m)中,词语wi与词汇链Lr(1≤r≤m)的相似度S(wi,Lr)最大。
(14)比较S(wi,Lr)和预设的相似度阈值σ,如果S(wi,Lr)≥σ,就把词语wi加入到对应的词汇链Lr中。如果S(wi,Lr)<σ,就生成一个新词汇链,并把词语wi加入到新生成的词汇链中。
(15)判断候选词汇集中的词是否处理完毕,如果没有,则返回第10步,继续处理下一个词语;否则,继续下一步。
(16)判断训练集中的所有微博类别是否处理完毕,如果没有,则返回第6步;否则,继续下一步;
(17)汇总训练集中所有微博类别的词汇链,形成基础词汇链,用于扩展微博文本,基础词汇链生成完毕。
(18)词汇链特征扩展:根据基础词汇链分别对训练集和测试集的微博词语进行特征扩展。
(19)针对训练集的所有微博词语,如果词语被《同义词词林》收录,则在基础词汇链中找到对应微博类别的包含该词语的词汇链,并检查该词汇链的词语数量。如果词语数量大于或等于设定值(根据经验可设定为8),则直接使用该词汇链去扩展原词语;否则,保持原词语,不进行扩展处理。如果词语未被《同义词词林》收录,则检查该词语是否在对应微博类别的词汇链L0中,如果在,则使用词汇链L0去扩展原词语;否则,保持原词语,不进行扩展处理。最后,输出扩展后的训练集。
(20)针对测试集语料库的所有微博词语,如果词语被《同义词词林》收录,则在基础词汇链中搜索所有微博类别的词汇链,如果存在某个微博类别的某条词汇链包含该词语,则直接使用该词汇链去扩展原词语;否则,计算该词语和每个微博类别的所有词汇链的相似度,并从中选取最大的相似度。如果这个最大的相似度大于或等于相似度阈值σ,则直接采用该词汇链来扩展原词语,同时将该词语加入到该词汇链中,扩充原词汇链;否则,保持原词语,不进行扩展处理。如果词语未被《同义词词林》收录,则在基础词汇链中搜索所有微博类别的L0词汇链。如果存在某个微博类别的L0词汇链包含该词语,则直接使用该 L0词汇链扩展原词语;否则,累计该词语的出现频率,包括训练集中的出现次数,判断该词的出现频率是否大于或等于指定阈值ε,如果是,则把该词归入对应微博类别的L0词汇链。最后,输出扩展后的测试集和扩展后的基础词汇链。扩展后的基础词汇链可以用于下次训练或微博分类。
(21)使用LDA主题模型分别对扩展后的训练集和测试集进行建模,提取每条微博的主题概率分布,输出训练集微博和测试集微博的主题概率分布。
(22)依次计算训练集中每个微博类别的主题概率分布。计算方法采用求平均值的方法,即对某个微博类别下的所有微博,计算这些微博的主题概率分布的平均值。例如,若训练集中体育类别的微博有2000条,则这2000条微博的主题概率分布的平均值即为体育类的主题概率分布。
(23)依次计算测试集中每条微博与各个微博类别主题概率分布的相似度,相似度值最大的为微博所属类别,相似度计算公式如下:
Sim(W,C)=2/[DKL(W||C)+DKL(C||W)]
其中,W为某条微博的主题概率分布,C为某个微博类别的主题概率分布,Sim(W,C)表示微博与微博类别的相似度,它的值越大,则表示两者越相近。DKL(W||C)表示W与C的KL距离,而DKL(C||W)表示C与W的KL距离。在计算KL距离时,由于 KL距离是不对称的,因此,DKL(W||C)和DKL(C||W)是不相等的。公式中的KL距离,是用来衡量两个概率分布的差异情况,其计算公式如下:
Figure BDA0001643886650000131
其中,P和Q是两个主题概率分布,x表示主题概率分布P和 Q的某个维度,topics[k]表示LDA模型所使用的k个主题值。由于LDA主题模型的主题个数是一定的,因此x∈topics[k]。
(24)输出分类结果。
如附图1,本方法分为三个阶段:预处理,词汇链扩展和LDA 建模分类。第一阶段为预处理,从第1步至第3步。针对微博文本进行预处理,包含文本清理、中文分词和去停用词等,过滤掉微博中的标签、表情符号、超链接等与分类无关的信息。第一阶段预处理后,可以获得微博语料库。第二阶段为词汇链扩展,从第4步至第20步,包含基础词汇链的生成和词汇链特征扩展。微博语料库首先分为训练集和测试集两部分。基础词汇链,是针对训练集,在《同义词词林》的基础上生成的。训练集的词汇链特征扩展,是在基础词汇链基础上进行扩展的,扩展后可以得到扩展后的训练集;而测试集的词汇链特征扩展,则是在基础词汇链和《同义词词林》的基础上进行扩展的,扩展后可以得到扩展后的测试集,同时也可以丰富原有基础词汇链,形成扩展后的基础词汇链。第三阶段为LDA建模分类,从第21步至第24步。主要是对扩展后的训练集和测试集,分别进行LDA建模,获得训练集和测试集的主题概念分布;然后进行分类处理,从而获得最终的分类结果。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (1)

1.基于词汇链特征扩展和LDA模型的微博分类方法,包括如下步骤:
1)获取包含多个不同微博类别的微博文本数据;
2)对获取的微博文本进行预处理,包括文本清理、中文分词和去停用词;首先采用正则表达式来去除微博中的空文本、表情符号、账户名称、网络链接和图片的无关的噪声数据,然后利用分词工具对微博文本进行中文分词和词性标注,并去除那些没有意义且频繁出现的词语;
3)输出微博语料库;
4)将微博语料库分为训练集和测试集;
5)针对训练集,进行基础词汇链的生成;
6)开始循环,依次处理训练集中的各个微博类别;
7)计算和统计某个微博类别下所有微博词语的出现频率;
8)对于该微博类别的微博词语,如果某个词语未被《同义词词林》收录且出现频率大于或等于指定阈值ε,则把该词语归为词汇链L0;如果某个词语未被《同义词词林》收录且出现频率小于阈值ε,则该词语不归入任何词汇链,保留其出现频率,用于下次累计;
9)建立该微博类别的候选词汇集,把该微博类别下所有被《同义词词林》收录的词语w1,w2,…,wn划入候选词汇集;
10)开始循环,依次处理该微博类别的候选词汇集的词语wi(i=1,2,…,n);
11)如果该微博类别除L0外没有其它词汇链,则生成初始词汇链L1,并把词语w1加入词汇链L1,并返回第10步,继续处理下一个词语;否则,继续下一步;
12)分别计算词wi与m条词汇链Lj(j=1,…,m)的语义相似度S(wi,Lj),计算公式为:
Figure FDA0002406978860000021
其中,nj为词汇链Lj包含的词语个数,wjk为词汇链Lj的第k个词语,Sim(wi,wjk)为两个词语的语义相似度,采用了基于《同义词词林》的相似度计算方法;
13)计算
Figure FDA0002406978860000022
可以得知在所有词汇链Lj(j=1,…,m)中,词语wi与词汇链Lr(1≤r≤m)的相似度S(wi,Lr)最大;
14)比较S(wi,Lr)和预设的相似度阈值σ,如果S(wi,Lr)≥σ,就把词语wi加入到对应的词汇链Lr中;如果S(wi,Lr)<σ,就生成一个新词汇链,并把词语wi加入到新生成的词汇链中;
15)判断候选词汇集中的词是否处理完毕,如果没有,则返回第10步,继续处理下一个词语;否则,继续下一步;
16)判断训练集中的所有微博类别是否处理完毕,如果没有,则返回第6步;否则,继续下一步;
17)汇总训练集中所有微博类别的词汇链,形成基础词汇链,用于扩展微博文本,基础词汇链生成完毕;
18)词汇链特征扩展:根据基础词汇链分别对训练集和测试集的微博词语进行特征扩展;
19)针对训练集的所有微博词语,如果词语被《同义词词林》收录,则在基础词汇链中找到对应微博类别的包含该词语的词汇链,并检查该词汇链的词语数量;如果词语数量大于或等于设定值,则直接使用该词汇链去扩展原词语;否则,保持原词语,不进行扩展处理;如果词语未被《同义词词林》收录,则检查该词语是否在对应微博类别的词汇链L0中,如果在,则使用词汇链L0去扩展原词语;否则,保持原词语,不进行扩展处理;最后,输出扩展后的训练集;
20)针对测试集语料库的所有微博词语,如果词语被《同义词词林》收录,则在基础词汇链中搜索所有微博类别的词汇链,如果存在某个微博类别的某条词汇链包含该词语,则直接使用该词汇链去扩展原词语;否则,计算该词语和每个微博类别的所有词汇链的相似度,并从中选取最大的相似度;如果这个最大的相似度大于或等于相似度阈值σ,则直接采用该词汇链来扩展原词语,同时将该词语加入到该词汇链中,扩充原词汇链;否则,保持原词语,不进行扩展处理;如果词语未被《同义词词林》收录,则在基础词汇链中搜索所有微博类别的L0词汇链;如果存在某个微博类别的L0词汇链包含该词语,则直接使用该L0词汇链扩展原词语;否则,累计该词语的出现频率,包括训练集中的出现次数,判断该词的出现频率是否大于或等于指定阈值ε,如果是,则把该词归入对应微博类别的L0词汇链;最后,输出扩展后的测试集和扩展后的基础词汇链;扩展后的基础词汇链可以用于下次训练或微博分类;
21)使用LDA主题模型分别对扩展后的训练集和测试集进行建模,提取每条微博的主题概率分布,输出训练集微博和测试集微博的主题概率分布;
22)依次计算训练集中每个微博类别的主题概率分布;计算方法采用求平均值的方法,即对某个微博类别下的所有微博,计算这些微博的主题概率分布的平均值;
23)依次计算测试集中每条微博与各个微博类别主题概率分布的相似度,相似度值最大的为微博所属类别,相似度计算公式如下:
Sim(W,C)=2/[DKL(W||C)+DKL(C||W)]
其中,W为某条微博的主题概率分布,C为某个微博类别的主题概率分布,Sim(W,C)表示微博与微博类别的相似度,它的值越大,则表示两者越相近;DKL(W||C)表示W与C的KL距离,而DKL(C||W)表示C与W的KL距离;
24)输出分类结果。
CN201810393067.4A 2018-04-27 2018-04-27 基于词汇链特征扩展和lda模型的微博短文本分类方法 Active CN108920482B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810393067.4A CN108920482B (zh) 2018-04-27 2018-04-27 基于词汇链特征扩展和lda模型的微博短文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810393067.4A CN108920482B (zh) 2018-04-27 2018-04-27 基于词汇链特征扩展和lda模型的微博短文本分类方法

Publications (2)

Publication Number Publication Date
CN108920482A CN108920482A (zh) 2018-11-30
CN108920482B true CN108920482B (zh) 2020-08-21

Family

ID=64403210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810393067.4A Active CN108920482B (zh) 2018-04-27 2018-04-27 基于词汇链特征扩展和lda模型的微博短文本分类方法

Country Status (1)

Country Link
CN (1) CN108920482B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008335A (zh) * 2018-12-12 2019-07-12 阿里巴巴集团控股有限公司 自然语言处理的方法及装置
CN109885680B (zh) * 2019-01-22 2020-05-19 仲恺农业工程学院 一种基于义原扩展的短文本分类预处理方法、***及装置
CN110136188B (zh) * 2019-05-16 2023-01-17 东莞职业技术学院 一种基于特征的立体图像匹配算法
CN110750698A (zh) * 2019-09-09 2020-02-04 深圳壹账通智能科技有限公司 知识图谱构建方法、装置、计算机设备及存储介质
CN112580355B (zh) * 2020-12-30 2021-08-31 中科院计算技术研究所大数据研究院 一种新闻资讯话题检测及实时聚合方法
CN113591468B (zh) * 2021-06-15 2024-02-13 天津师范大学 国际组织科技文本词汇链自动构建与主题发现方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140114496A (ko) * 2013-03-14 2014-09-29 한국과학기술원 워드 클라우드 기반 텍스트 문서의 이미지화 요약 방법 및 이를 이용한 정보 제공 시스템
CN107506360A (zh) * 2016-06-14 2017-12-22 科大讯飞股份有限公司 一种文章评分方法及***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140114496A (ko) * 2013-03-14 2014-09-29 한국과학기술원 워드 클라우드 기반 텍스트 문서의 이미지화 요약 방법 및 이를 이용한 정보 제공 시스템
CN107506360A (zh) * 2016-06-14 2017-12-22 科大讯飞股份有限公司 一种文章评分方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Three knowledge-free methods for automatic lexical chain extraction;Steffen Remus;《Proceedings of NAACL-HLT 2013》;20130630;全文 *
一种基于词汇链的关键词抽取方法;索红光;《中文信息学报》;20061231;第20卷(第6期);全文 *

Also Published As

Publication number Publication date
CN108920482A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及***
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
CN102479191B (zh) 提供多粒度分词结果的方法及其装置
CN106502994B (zh) 一种文本的关键词提取的方法和装置
CN109543178B (zh) 一种司法文本标签体系构建方法及***
CN107038229B (zh) 一种基于自然语义分析的用例提取方法
CN106776562A (zh) 一种关键词提取方法和提取***
CN108536677A (zh) 一种专利文本相似度计算方法
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN102622338A (zh) 一种短文本间语义距离的计算机辅助计算方法
CN110222172B (zh) 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN110209818B (zh) 一种面向语义敏感词句的分析方法
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN107092675B (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
CN110728144A (zh) 一种基于上下文语义感知的抽取式文档自动摘要方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN102722526B (zh) 基于词性分类统计的重复网页和近似网页的识别方法
CN112632272B (zh) 基于句法分析的微博情感分类方法和***
Campbell et al. Content+ context networks for user classification in twitter
CN113761128A (zh) 领域同义词典与模式匹配相结合的事件关键信息抽取方法
CN112765977A (zh) 一种基于跨语言数据增强的分词方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant