CN110543564A - 基于主题模型的领域标签获取方法 - Google Patents

基于主题模型的领域标签获取方法 Download PDF

Info

Publication number
CN110543564A
CN110543564A CN201910784200.3A CN201910784200A CN110543564A CN 110543564 A CN110543564 A CN 110543564A CN 201910784200 A CN201910784200 A CN 201910784200A CN 110543564 A CN110543564 A CN 110543564A
Authority
CN
China
Prior art keywords
word
words
model
topic
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910784200.3A
Other languages
English (en)
Other versions
CN110543564B (zh
Inventor
黄改娟
王胜
张仰森
蒋玉茹
段瑞雪
张雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201910784200.3A priority Critical patent/CN110543564B/zh
Publication of CN110543564A publication Critical patent/CN110543564A/zh
Application granted granted Critical
Publication of CN110543564B publication Critical patent/CN110543564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于主题模型的领域标签获取方法,在海量学术数据的基础上,分析学术数据固有的特点,引入学术词频特征构建FLDA主题模型,利用主题模型将同一学者的学术文档进行“主题‑短语”抽取。其次,引入领域体系,将主题模型的抽取结果与体系标签进行向量表征,经过位置加权后使用相似度进行体系映射,最终获得学者的领域标签。实验表明,FLDA模型与传统的LDA模型、基于统计的TFIDF算法和基于网络图的TextRank算法相比,最终获取的标签词效果更好,准确率更高,说明基于主题模型的标签抽取方法在学术领域具有良好的适用性。

Description

基于主题模型的领域标签获取方法
技术领域
本发明涉及一种基于主题模型的领域标签获取方法,具体的,涉及一种学者的领域标签 的获取方法,属于信息处理技术领域。
背景技术
经济社会的蓬勃发展,促使着各种科技项目不断产生,项目从立项、评审到验收均需要 前沿学者的参与。在以往的经验中,学者的遴选往往由专人进行人为遴选,通过人为统计各 学者的研究领域,选择与项目领域相符的学者。然而现有技术的方法往往有以下缺点:同一 时间内存在大量项目需要前沿学者参与,这无形中加大了人为遴选的工作量;人为遴选容易 受到人的主观性和局限性影响,且在整个遴选过程中容易受到自身的知识层次、社会关系、 个人偏好与利益等因素的影响,对学者的领域判断不全面,进而影响遴选结果的准确性。
现有技术的领域标签获取主要分为传统的领域标签获取和基于关键词的领域标签获取。
在传统领域方面,一种方法是利用学者在互联网各平台的简介进行抽取,称之为网络标 签。区别于抽取的标签,网络标签通常由本人或他人总结添加,且没有统一的规范,用词随 意,进而导致获取的标签复杂多样,可用性低。另外,由于互联网内容较为随意,且多带有 作者的写作特点,这导致在标签抽取过程中较难区分正确的数据信息和无用的信息,抽取时 往往要针对特定平台、特定学者设计具有针对性的抽取方案,无形中增加了的工作量。
另一种方法是基于本体技术,设计P2P模式的学者研究领域管理***,利用RDF技术解 决学者领域获取的问题,但由于该方法使用了特定的模板,导致方法的扩展性不足。
还有一种方法是利用J2EE技术实现学者信息管理***,通过人工更新学者的基本信息和 研究领域等信息,并提供咨询学者推荐模块,通过使用Pearson相似度计算用户问题文本与 学者研究领域的相似性来实现学者推荐功能,该方法需要学者登陆网站进行信息的更新与维 护,只适应少量学者单一领域的情况,无法完成大规模学者发现与机器化领域标签抽取的功 能。
在基于关键词的领域标签抽取方面,其有多种抽取方法,常用的关键词抽取基础包括统 计、主题、网络图等。关键词是对文章具有高度概括性的一系列词语,自动关键词抽取是识 别文本中具有代表性的词语或短语的技术,自从该领域被提出以来,相关研究人员相继提出 了各种各样的方法,总体上分为有监督和无监督两大类,其中有监督的方法需要人为标注语 料,对小文本情况下适用,但随着海量互联网数据的增加,人工标注成本越来越大,近年来 逐步转向无监督的方法。统计法的核心思路是通过文本中词语的统计信息进行抽取,该方法 无需训练数据,直接使用词频、位置等进行判断筛选。例如一种方法是利用加权因子和词贡 献度来修正TFIDF结果权值,来提升细分领域中的关键词提取效果;还有一种方法是利用N 元语言模型和文档权重归并实现学者领域的自动识别,N元语言模型直接使用词序进行计算, 无需对文档进行分词、特征提取等操作即可对文档进行领域分类,进而找出学者的领域标签。 主题模型是利用概率分布实现关键词抽取,目前主要流行的是LDA(隐含迪利克雷分布)模 型。包括为研究用户的行为演变过程,使用静态LDA与改进的fLDA抽取主题词进行用户历 史兴趣提取;为了减少微博热点事件中数据稀疏的问题,将时间序列特征与词频加权特征引 入LDA算法,该方法得到的话题关键词具有较高的可解释性,同时能够较好的表明话题所展 示的内容。现有技术进一步提出一种基于LDA的话题聚类方法,该方法首先将LDA得到的 关键词进行聚类,使用结果对LDA得出的话题的进行结果优化,该方法能够有效提高聚类结 果的准确性与召回率。在网络图方面,基于PageRank改编的TextRank算法最为著名。也有 为解决学术关键词抽取结果较差的问题,使用先验知识计算候选结果在学术领域中的权重, 然后结合TextRank对候选关键词进行综合排序,最终得到相关度较高的学术性关键词;以及 利用词向量构建概率偏移矩阵,对textrank算法进行了改进,提高了算法的性能。
基于统计、网络图等无监督方法虽然不需要提前对语料进行人工标注,但其却严重依赖 语料库的效果与规模,例如TFIDF等方法结构简单,提取出的关键词缺乏分布情况与语义等 信息。TextRank等方法虽然能获取到关键词的分布信息,但网络图的构建需要大量的数据来 构成边,且抽取出的关键词缺乏主题相关性。尽管有上述等缺点,无监督方法在工作量上仍 具有优势。
本发明拟使用基于主题的抽取方法,将学术文档集合看作待抽取语料使用改进的FLDA 主题模型对语料进行“主题-短语“抽取,得到主题分布矩阵,实现标签的自动获取。
发明内容
为解决现有技术存在的问题,本发明提出了基于主题模型的领域标签获取方法,在海量 学术数据的基础上,分析学术数据固有的特点,引入学术词频特征构建FLDA主题模型,利 用主题模型将同一学者的学术文档进行“主题-短语”抽取。其次,引入领域体系,将主题模型 的抽取结果与体系标签进行向量表征,经过位置加权后使用相似度进行体系映射,最终获得 学者的领域标签
本发明为了实现上述的技术目的,采用如下的技术方案。
一种基于主题模型的领域标签获取方法,参见图1,包括以下的步骤:
S1,数据预处理
获取初始数据集合;
S2,关键词抽取
通过FLDA进行“主题-短语”抽取,根据在文中出现的位置对短语进行权重赋值,并使用 word2vec对其进行向量表征;
S3,领域体系映射
将“主题-短语”映射到体系,实现学者领域的统一管理;
S4,综合排序
将向量表征结果与权重赋值结果加权排序,通过阈值获得最能代表学者的标签词。
根据前述的一种基于主题模型的领域标签获取方法,具体的,S1,数据预处理,包括S11, 数据去重处理,以及S12,分词。
具体的,为了消除多数据源爬取造成的重复数据对计算结果的影响,在S1,数据预处理 阶段,需要进行S11,数据去重处理,得到学者的文献集合。
本发明使用字共现、作者贡献与关键词重合率构建清洗模型:
对于两个待比较的文本,首先判断其DOI是否相同,对于相同DOI的直接过滤;
对于DOI不相同或不存在的,首先使用字共现对标题进行判断,若共现度大于80%则继 续判断作者共现次数和关键词共现次数,如果作者共现次数大于1且关键字共现率大于0.5, 则判定结果为重复并清除。
所述的共现公式如下所示为:
其中,A、B分别为两个标题的字集合,len(A)为标题A的字集合的长度,len(B) 为标题B的字集合的长度,len(A∩B)为两个标题字集合取交集后的长度,min{len(A),len(B)}为两个长度中的最小值。
S12,分词。
在分词阶段,首先提取论文关键词数据添加为分词工具的用户词典,同时使用TextRank 在计算之前抽取出关键短语,将关键短语也添加到分词工具的用户词典中。
另外,将整体语料数据按照词频排序,人工筛选高频无关词,将无关词添加到分词工具 的停用词表中。
根据前述的一种基于主题模型的领域标签获取方法,具体的,S2,关键词抽取中,通过 FLDA进行“主题-短语”抽取。
现有技术在基于主题的关键词抽取模型中,主流的是LDA主题模型,该模型认为一批文 档中含有多个主题,而每个主题下又可以用一些列短语来近似表示当前主题。一个文档的形 成是通过一定的概率选择一个主题,随后通过一定的概率选择当前主题下的短语,重复此过 程直到形成一篇文档。而LDA主题抽取过程则是上述过程的逆操作。LDA主题模型通常在 新闻领域应用较广,然而在科技文献领域,主题建模效果会受到科技文献特殊词频分布的影 响。
通过对学者学术文档的统计分析,发现学术文档的频次信息满足幂函数分布,如图2为 学术文档前2000个高频次词,其中横坐标表示高频词按照频次降序排序后对应的序号,纵坐 标为高频词频次。
经过统计得知,频词排名前10%的单词占据了全部学术文档词集的81.1%,符合Zipf分 布,且对词频的研究发现,最能代表主题的词往往不是极高频词与极低频词,而是频次较靠 前的中高频词。如果直接使用LDA模型对文档进行提取,则会造成某些中频词的缺失,同时, 用于词频较高的特征词通常结对出现,通常高频词被分配到主题中的概率比较大,因此导致 各话题的区分度不高,在S1,数据预处理过程中虽然进行了停用词过滤,但仍不能做到完全 的过滤。
因此,本发明提出一种词频加权的LDA主题模型,首先统计文档中的词频信息,将词频 特征引入Gibbs采样的过程中,降低高频词的影响力,提高中频特征词的影响力,构建FLDA 模型,使得模型不过分偏重于高频特征词词语。FLDA模型如下所述:
LDA模型通过Gibbs抽样获得抽样参数和θ,获取参数和θ的目的是构造一个收敛的马 尔可夫链,进而从马尔可夫链中抽取合适的样本。
LDA对短语的分配过程即为对zi的抽样。其中,zi的后验公式为如下式所示:
P(zi=j|z-i,w)→P(wi|zi=j,z-i,w-i)P(zi=j|z-i)
zi=j为将主题j分配给当前词Wi,z-i为分配给非zi的词语权重和,W-i为非当前位置的 词。
已知P(w|z)仅与相关,因此通过在上积分,得到下式:
为Gibbs抽样参数,为当前主题j对应的Gibbs抽样参数,为对参数进行积分,
是“主题-短语”的多项式分布,遵循下式:
另外,同时,的先验分布,因此对后验概 率进行积分,即可获得下式:
其中,是分配给主题j且与词w相同的词的权重和,为分配给主题j且的所有词 的权重和,β为Dirichlet分布的参数,v为词库的大小。
同理可知,P(z)仅与θ有关,因此通过在θ上积分可得下式:
表示di中分配给主题i的词语权重和,T为主题数。
通过公式 结合得到下式:
经过上述的计算,得到了LDA的非标准分布,但需要除去所有“主题-短语”分配的概率和, 如下式所示:
其中,wi第i个词语,zi=j为将当前主题j分配给当前词wi,z-i为分配给非zi的词权重 和,表示主题为j且词语与词语wi相同的权重和,表示文档di中主题为i的词语的权 重和,表示当前文档中拥有主题的词语的权重和,V表示词库大小,T表示主题个数,P(zi= j|z-i,wi)为经过重新计算的后验概率。
模型的词频加权公式如下:
其中,ni表示当前此的词频,nmid表示选择中频词的词频,nmax表示词频统计结果中的最大值, nmin表示词频统计结果中的最小值,Ci表示当前词的权重,取值范围为[1,2],为保障加权后总 特征词的个数不变,需要对每个特征词的权重做调整,其中,Fi为特征词调整后的权重,为当前词出现的个数,为所有词的权重和。参见图3,由于Gibbs采样initialize 时单词w分配给主题z的概率是随机的,因此,将计算得到的Fi替换掉Gibbs采样过程中初 始化的随机值,并在此基础上循环计算至收敛并获得参数和θ。
word2vec法进行词向量表征
Word2vec通过深度学习在百万级词典与数亿级的训练语料上进行训练,训练得到的结果 即为词向量模型,词向量有效的在空间中表达了词的语义信息。向量的训练模型指的是浅层 神经网络CBOW或Skip-gram模型,其中,CBOW模型如图4所示。
CBOW模型的特点是根据上下文来预测当前词,训练时,首先为所有词语初始化一个N 维词向量,并模型将输入窗口期内的上下文词进行累加,同时根据词频构建Huffmam树来获 得Huffman路径,根据路径计算叶节点的概率,随后采用梯度下降的方法调整非叶节点的参 数和上下文的词向量,进行多次迭代后使结果收敛于真实结果。
权重赋值
由于学术论文通常分为标题、摘要、关键词、内容等信息。根据以往经验,标题往往蕴 含全文的中心思想,是全文内容的重要总结,因此本发明增加标题中词语的最终权重。关键 词部分对全文主旨也具有一定的代表能力,而摘要部分则认为是对全文内容的简要概括。
优选的,本发明的权重赋值为,将标题的权重置为4,将关键词的权重置为3,将摘要的 权重置为2。
FLDA模型参数的选择
本发明中选取20为最优主题个数。
S3,领域体系映射
由于各学者的学术文档通过主题模型获得的短语存在差异性,无法对学者进行统一管理, 因此引入学术领域体系实现对学者的统一衡量。
领域体系参照国家自然科学基金领域体系制定,能尽最大程度的覆盖各领域的研究范围。
本发明将主题模型的结果映射到领域体系中,映射公式如下:
F(A,B)=sim(A,B)*CA*LA
其中,A为主题模型获得的短语,B为体系词,使用向量模型获得对应的词向量,对于 未登录词则使用字向量拼接成词向量。sim(A,B)为最终计算的余弦相似度。CA为主题模型分 配的概率,LA为短语在文档中的位置系数,取值范围为[2,3,4],F(A,B)为经过加权得到的相 似度。CB则为体系词的最终得分。
S4,综合排序
经过映射公式获得最终得分CB,对当前学者所对应的所有体系词按照得分CB由高到低排序, 取前四项得分最高的体系词作为最能代表学者研究领域的领域标签词。
本发明采用上述的技术方案,取得如下的技术效果。
本发明的FLDA模型与传统的LDA模型、基于统计的TFIDF算法和基于网络图的TextRank算法相比,最终获取的标签词效果更好,准确率更高,说明基于主题模型的标签抽取方法在学术领域具有良好的适用性。
附图说明
图1为本发明基于主题模型的领域标签获取方法的示意框架图;
图2为文档-词频分布图;
图3为Gibbs采样流程图;
图4为CBOW模型示意图;
图5为困惑度-主题数关系图。
具体实施方式
为使本发明的目的、技术方案和有益效果更加清楚,下面将结合本发明实施例中及附图, 对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例, 而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动 前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
一种基于主题模型的领域标签获取方法,包括以下的步骤:
S1,数据预处理
获取初始数据集合,具体的,采用如下的方法:
S11,数据去重处理
本实施例使用字共现、作者贡献与关键词重合率构建清洗模型:
对于两个待比较的文本,首先判断其DOI是否相同,对于相同DOI的直接过滤;
对于DOI不相同或不存在的,首先使用字共现对标题进行判断,若共现度大于80%则继 续判断作者共现次数和关键词共现次数,如果作者共现次数大于1且关键共现率大于0.5,则 判定结果为重复并清除。
所述的共现公式如下所示为:
其中,A、B分别为两个标题的字集合,len(A)为标题A的字集合的长度,len(B) 为标题B的字集合的长度,len(A∩ B)为两个标题字集合取交集后的长度,min{len(A),len(B)}为两个长度中的最小值。
S12,分词
在分词阶段,首先提取论文关键词数据添加为分词工具的用户词典,同时使用TextRank 在计算之前抽取出关键短语,将关键短语也添加到分词工具的用户词典中。
另外,将整体语料数据按照词频排序,人工筛选高频无关词,将无关词添加到分词工具 的停用词表中。
S2,关键词抽取
通过FLDA进行“主题-短语”抽取,对短语根据在文中出现的位置进行权重赋值,并使用 word2vec对其进行向量表征。
通过FLDA进行“主题-短语”抽取:
LDA模型通过Gibbs抽样获得抽样参数和θ,获取参数和θ的目的是构造一个收敛的马 尔可夫链,进而从马尔可夫链中抽取合适的样本。
LDA对短语的分配过程即为对zi的抽样。其中,zi的后验公式为如下式所示:
P(zi=j|z-i,w)→P(wi|zi=j,z-i,w-i)P(zi=j|z-i)
zi=j为将主题j分配给当前词Wi,z-i为分配给非zi的词语权重和,W-i为非当前位置的 词。
已知P(w|z)仅与相关,因此通过在上积分,得到下式:
为Gibbs抽样参数,为当前主题j对应的Gibbs抽样参数,为对参数进行积分,
是“主题-短语”的多项式分布,遵循下式:
另外,同时,的先验分布,因此对后验概 率进行积分,即可获得下式:
其中,是分配给主题j且与词w相同的词的权重和,为分配给主题j且的所有词 的权重和,β为Dirichlet分布的参数,v为词库的大小。
同理可知,P(z)仅与θ有关,因此通过在θ上积分可得下式:
表示di中分配给主题i的词语权重和,T为主题数。
通过公式 结合得到下式:
经过上述的计算,得到了LDA的非标准分布,但需要除去所有“主题-短语”分配的概率和, 如下式所示:
其中,wi第i个词语,zi=j为将当前主题j分配给当前词wi,z-i为分配给非zi的词权重 和,表示主题为j且词语与词语wi相同的权重和,表示文档di中主题为i的词语的权 重和,表示当前文档中拥有主题的词语的权重和,V表示词库大小,T表示主题个数,P(zi= j|z-i,wi)为经过重新计算的后验概率。
模型的词频加权公式如下:
其中,ni表示当前此的词频,nmid表示选择中频词的词频,nmax表示词频统计结果中的最大值, nmin表示词频统计结果中的最小值,Ci表示当前词的权重,取值范围为[1,2],为保障加权后总 特征词的个数不变,需要对每个特征词的权重做调整,其中,Fi为特征词调整后的权重,为当前词出现的个数,为所有词的权重和。参见图3,由于Gibbs采样initialize 时单词w分配给主题z的概率是随机的,因此,将计算得到的Fi替换掉Gibbs采样过程中初 始化的随机值,并在此基础上循环计算至收敛并获得参数和θ。
word2vec法进行词向量表征
Word2vec通过深度学习在百万级词典与数亿级的训练语料上进行训练,训练得到的结果 即为词向量模型,词向量有效的在空间中表达了词的语义信息。
具体的,采用CBOW模型进行向量的训练。CBOW模型的特点是根据上下文来预测当前词,训练时,首先为所有词语初始化一个N维词向量,并模型将输入窗口期内的上下文词进行累加,同时根据词频构建Huffmam树来获得Huffman路径,根据路径计算叶节点的概率,随后采用梯度下降的方法调整非叶节点的参数和上下文的词向量,进行多次迭代后使结 果收敛于真实结果。
权重赋值
本实施例将标题的权重置为4,将关键词的权重置为3,将摘要的权重置为2。
作为一种优选的方案,本实施例中选取20为最优主题个数。
S3,领域体系映射
将“主题-短语”映射到体系,实现学者领域的统一管理;
本实施例将主题模型的结果映射到领域体系中,映射公式如下:
F(A,B)=sim(A,B)*CA*LA
其中,A为主题模型获得的短语,B为体系词,使用向量模型获得对应的词向量,对于 未登录词则使用字向量拼接成词向量。sim(A,B)为最终计算的余弦相似度。CA为主题模型分 配的概率,LA为短语在文档中的位置系数,取值范围为[2,3,4],F(A,B)为经过加权得到的相 似度。CB则为体系词的最终得分。
S4,综合排序
将向量表征结果与权重赋值结果加权排序,获得最能代表学者的标签词。
具体的,经过映射公式获得最终得分CB,对当前学者所对应的所有体系词按照得分由高 到低排序,取前四项得分最高的体系词作为最能代表学者研究领域的领域标签词。
实验例:
为获取尽可能真实的实验数据,本发明使用网络爬虫技术,爬取CNKI与万方数据库中 的论文数据源,数据使用jieba进行分词处理,向量表征使用腾讯AI实验室公布的词向量模 型,本实验例将从评价标准介绍,数据预处理,FLDA模型参数主题数的选择,基于主题模 型的标签算法的评价四个方面进行介绍。
评价标准:
由于LDA主题模型属于无监督模型,因此没有比较直观评价标准去衡量模型的好坏。本 实验例选择利用主题模型的“主题-短语”矩阵进行评价,引入困惑度作为模型的评价标准,通 常认为,困惑度越低,模型的效果就越好。困惑度的计算公式如公式所示。
p(w)=p(z|d)*p(w|z)。
其中,Perplexity(D)表示当前模型的困惑度,d表是学术文档文本,M表示学术文档的 个数,当前语料中所有词的数量和,p(w)为词w出现在矩阵中的概率,p(z|d)表示学 术文档d为主题z的概率,p(w|z)表示的是词w出现在主题z中的概率。困惑度衡量主题模 型预测出的结果与原样本信息的符合度。
在计算标签准确度时,使用F1值来衡量学者标签的准确性,随机挑选多位学者,人工参 照领域标签并结合对学者的了解,选择4个最合适的标签作为正确标签。根据算法排序得到 的前四个标签与正确标签使用上述指标进行评价计算,并最终计算平均F1值,计算公式如下 所示:
其中,hi表示标准标签的个数,mi表示算法得到的标签个数,hi∩mi表示算法得到的正 确的标签数。N为样本总数。
数据预处理
为消除多数据源爬取造成的重复数据对计算结果的影响,在预处理阶段需要对数据进行 去重处理,使用字共现、作者贡献与关键词重合率构建清洗模型,对于两个待比较的文本, 首先判断其DOI是否相同,对于相同DOI的则直接过滤,对于DOI不相同或不存在的,首 先使用字共现对标题进行判断,若共现度大于80%则继续判断作者共现次数和关键词共现次 数,如果作者共现次数大于1且关键共现率大于0.5的话,则判定结果为重复并清除。
在分词阶段,首先提取海量论文关键词数据添加为分词工具的用户词典,同时使用 TextRank在计算之前抽取出关键短语,将关键短语也添加到分词工具的用户词典中。另外, 将整体语料数据按照词频排序,人工筛选高频无关词,将无关词添加到分词工具的停用词表 中。
FLDA模型参数的选择
主题模型中主题数的选取是影响主题聚类结果的重要因素,主题数如果设置的过小,则 会导致模型聚类结果没有区分度,主题数如果设置的过大,则会导致将当前文档错误的划分 到别的主题中,因此本节通过实验来计算不同主题数下的困惑度,并根据困惑度来确定最终 主题数。实验在其余参数不变的情况下只改变主题数,得到的实验结果如图4所示。
其中LDA曲线为LDA主题模型的困惑度曲线,FLDA曲线为经过词频加权的LDA主题模型的困惑度曲线。关系图中横坐标为主题数,纵坐标为困惑度。实验中使用同一组参数重复做三次实验,取实验结果的平均值。
由实验结果可得,随着主题数的增加,三种模型的困惑度都呈下降趋势,且都在主题数 为20左右时下降幅度放缓甚至收敛,因此选取20为最优主题个数。
标签算法的评价
引入领域体系以达到统一衡量学者的学术领域,其中,领域体系参照国家自然科学基金 领域体系制定,并在此基础上做适当修改,领域体系示例如表1所示。
表1领域体系示例
由于在学术领域标签抽取方面缺乏较权威的数据集,为验证算法的有效性,本次实验数 据使用12位学者的学术论文数据,并分别用TFIDF算法、TextRank算法、LDA算法和FLDA 算法获取学者的学术标签并进行比较,具体示例如表2所示。
在评价算法时,人工根据学者的主页介绍、招生简章等信息选取体系中适当的词语做为 学者领域标签的标准答案,将算法获取的标签词称作当前答案,将当前答案与标准答案进行 效果评价。
表2算法抽取标签结果对比
表3算法F1值比较
由表2可得,经过FLDA算法获得的标签与标准答案拥有较高的重合性。算法效果要优 于LDA于TFIDF算法。
表3的数据为参照公式(15)(16)(17)进行计算得到F1值,其中4-2代表使用算法获得4个得分最高的标签,与两个标准答案进行计算;4-3代表使用算法获得4个得分最高的标签,与三个标准答案进行计算;4-4则为与四个标准答案进行计算。经分析可得,在多种预测情况下,FLDA的F1值要高于传统LDA算法、基于统计的TFIDF算法和基于网络图的 TextRank算法。这说明通过引入多词频特征加权的FLDA模型不仅能够从篇章及分析文档的 内容及其之间的联系,而且能够将学术数据降维,更适用于处理一定数量级的学术文档,有 利于后续的标签映射与计算。该模型在一定程度上能够反映学者的研究方向,使用户能够较 方便的对学者做全面了解,节省了用户的时间和精力。也间接说明了经过多词频特征加权的FLDA算法相较于传统算法能够较好的提取学术文本中的关键信息。
本发明提供的技术方案,不受上述实施例的限制,凡是利用本发明的结构和方式,经过 变换和代换所形成的技术方案,都在本发明的保护范围内。

Claims (8)

1.一种基于主题模型的领域标签获取方法,其特征在于包括以下的步骤:
S1,数据预处理
获取初始数据集合;
S2,关键词抽取
通过FLDA进行“主题-短语”抽取,根据在文中出现的位置对短语进行权重赋值,并使用word2vec对其进行向量表征;
S3,领域体系映射
将“主题-短语”映射到体系,实现学者领域的统一管理;
S4,综合排序
将向量表征结果与权重赋值结果加权排序,通过阈值获得最能代表学者的标签词。
2.根据权利要求1所述的基于主题模型的领域标签获取方法,其特征在于:
S1,数据预处理包括S11,数据去重处理,以及S12,分词;
其中,S11,数据去重处理,得到学者的文献集合;
使用字共现、作者贡献与关键词重合率构建清洗模型:
对于两个待比较的文本,首先判断其DOI是否相同,对于相同DOI的直接过滤;
对于DOI不相同或不存在的,首先使用字共现对标题进行判断,若共现度大于80%则继续判断作者共现次数和关键词共现次数,如果作者共现次数大于1且关键字共现率大于0.5,则判定结果为重复并清除;
所述的共现公式如下所示为:
其中,A、B分别为两个标题的字集合,len(A)为标题A的字集合的长度,len(B)为标题B的字集合的长度,len(A∩B)为两个标题字集合取交集后的长度,min{len(A),len(B)}为两个长度中的最小值;
其中,S12,分词,获得初始数据集合;
首先提取论文关键词数据添加为分词工具的用户词典,同时使用TextRank在计算之前抽取出关键短语,将关键短语也添加到分词工具的用户词典中;
将整体语料数据按照词频排序,人工筛选高频无关词,将无关词添加到分词工具的停用词表中。
3.根据权利要求1所述的基于主题模型的领域标签获取方法,其特征在于:所述的通过FLDA进行“主题-短语”抽取的方法为,通过Gibbs抽样获得抽样参数和θ,
zi的后验公式为如下式所示:
P(zi=j|z-i,w)→P(wi|zi=j,z-i,w-i)P(zi=j|z-i),
其中,zi=j为将主题j分配给当前词Wi,z-i为分配给非zi的词语权重和,W-i为非当前位置的词,
已知P(w|z)仅与相关,因此通过在上积分,得到下式:
其中,为Gibbs抽样参数,为当前主题j对应的Gibbs抽样参数,为对参数进行积分,
是“主题-短语”的多项式分布,遵循下式:
另外,同时,的先验分布,因此对后验概率进行积分,即可获得下式:
其中,是分配给主题j且与词w相同的词的权重和,为分配给主题j且的所有词的权重和,β为Dirichlet分布的参数,v为词库的大小,
同理可知,P(z)仅与θ有关,因此通过在θ上积分可得下式:
表示di中分配给主题i的词语权重和,T为主题数,
通过公式P(zi=j|z-i,w)→P(wi|zi=j,z-i,w-i)P(zi=j|z-i), 结合得到下式:
经过上述的计算,得到了LDA的非标准分布,然后除去所有“主题-短语”分配的概率和,如下式所示:
其中,wi第i个词语,zi=j为将当前主题j分配给当前词wi,z-i为分配给非zi的词权重和,表示主题为j且词语与词语wi相同的权重和,表示文档di中主题为i的词语的权重和,表示当前文档中拥有主题的词语的权重和,V表示词库大小,T表示主题个数,P(zi=j|z-i,wi)为经过重新计算的后验概率;
模型的词频加权公式如下:
其中,ni表示当前此的词频,nmid表示选择中频词的词频,nmax表示词频统计结果中的最大值,nmin表示词频统计结果中的最小值,Ci表示当前词的权重,取值范围为[1,2],为保障加权后总特征词的个数不变,需要对每个特征词的权重做调整,其中,Fi为特征词调整后的权重,为当前词出现的个数,为所有词的权重和;
将计算得到的Fi替换掉Gibbs采样过程中初始化的随机值,并在此基础上循环计算至收敛并获得参数和θ。
4.根据权利要求3所述的基于主题模型的领域标签获取方法,其特征在于:所述向量表征的方法为word2vec法。
5.根据权利要求3所述的基于主题模型的领域标签获取方法,其特征在于:标题的权重设置为4,关键词的权重设置为3,摘要的权重设置为2。
6.根据权利要求3至5任一所述的基于主题模型的领域标签获取方法,其特征在于:FLDA模型的主题个数为20个。
7.根据权利要求1所述的基于主题模型的领域标签获取方法,其特征在于:S3,领域体系映射的映射公式为:
F(A,B)=sim(A,B)*CA*LA
其中,A为主题模型获得的短语,B为体系词,使用向量模型获得对应的词向量,对于未登录词则使用字向量拼接成词向量,sim(A,B)为最终计算的余弦相似度,CA为主题模型分配的概率,LA为短语在文档中的位置系数,取值范围为[2,3,4],F(A,B)为经过加权得到的相似度,CB则为体系词的最终得分。
8.根据权利要求1所述的基于主题模型的领域标签获取方法,其特征在于:S4,综合排序,对当前学者所对应的所有体系词按照得分CB由高到低排序,取前得分最高的数项体系词作为最能代表学者研究领域的领域标签词。
CN201910784200.3A 2019-08-23 2019-08-23 基于主题模型的领域标签获取方法 Active CN110543564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910784200.3A CN110543564B (zh) 2019-08-23 2019-08-23 基于主题模型的领域标签获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910784200.3A CN110543564B (zh) 2019-08-23 2019-08-23 基于主题模型的领域标签获取方法

Publications (2)

Publication Number Publication Date
CN110543564A true CN110543564A (zh) 2019-12-06
CN110543564B CN110543564B (zh) 2023-06-20

Family

ID=68712039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910784200.3A Active CN110543564B (zh) 2019-08-23 2019-08-23 基于主题模型的领域标签获取方法

Country Status (1)

Country Link
CN (1) CN110543564B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241283A (zh) * 2020-01-15 2020-06-05 电子科技大学 一种科研学者画像的快速表征方法
CN111831804A (zh) * 2020-06-29 2020-10-27 深圳价值在线信息科技股份有限公司 一种关键短语的提取方法、装置、终端设备及存储介质
CN112446204A (zh) * 2020-12-07 2021-03-05 北京明略软件***有限公司 一种文档标签的确定方法、***及计算机设备
CN112508376A (zh) * 2020-11-30 2021-03-16 中国科学院深圳先进技术研究院 一种指标体系构建方法
CN112883148A (zh) * 2021-01-15 2021-06-01 上海柏观数据科技有限公司 一种基于研究趋势匹配的学科人才评价控制方法和装置
CN113190672A (zh) * 2021-05-12 2021-07-30 上海热血网络科技有限公司 一种广告判定模型、广告过滤的方法及***
CN113298399A (zh) * 2021-05-31 2021-08-24 西南大学 基于大数据的科研项目分析方法
CN114492425A (zh) * 2021-12-30 2022-05-13 中科大数据研究院 采用一套领域标签体系将多维度数据打通的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150193535A1 (en) * 2014-01-07 2015-07-09 International Business Machines Corporation Identifying influencers for topics in social media
CN105740342A (zh) * 2016-01-22 2016-07-06 天津中科智能识别产业技术研究院有限公司 一种基于社会关系主题模型的社交网络朋友推荐方法
CN109766544A (zh) * 2018-12-24 2019-05-17 中国科学院合肥物质科学研究院 基于lda和词向量的文档关键词抽取方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150193535A1 (en) * 2014-01-07 2015-07-09 International Business Machines Corporation Identifying influencers for topics in social media
CN105740342A (zh) * 2016-01-22 2016-07-06 天津中科智能识别产业技术研究院有限公司 一种基于社会关系主题模型的社交网络朋友推荐方法
CN109766544A (zh) * 2018-12-24 2019-05-17 中国科学院合肥物质科学研究院 基于lda和词向量的文档关键词抽取方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIMING LI 等: "Supervised topic models for multi-label classification", 《NEUROCOMPUTING》 *
李熙铭: "基于主题模型的多标签文本分类和流文本数据建模若干问题研究", 《中国优秀博士学位论文库》 *
王胜 等: "基于SL-LDA的领域标签获取方法", 《计算机科学》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241283A (zh) * 2020-01-15 2020-06-05 电子科技大学 一种科研学者画像的快速表征方法
CN111831804A (zh) * 2020-06-29 2020-10-27 深圳价值在线信息科技股份有限公司 一种关键短语的提取方法、装置、终端设备及存储介质
CN111831804B (zh) * 2020-06-29 2024-04-26 深圳价值在线信息科技股份有限公司 一种关键短语的提取方法、装置、终端设备及存储介质
CN112508376A (zh) * 2020-11-30 2021-03-16 中国科学院深圳先进技术研究院 一种指标体系构建方法
CN112446204A (zh) * 2020-12-07 2021-03-05 北京明略软件***有限公司 一种文档标签的确定方法、***及计算机设备
CN112883148A (zh) * 2021-01-15 2021-06-01 上海柏观数据科技有限公司 一种基于研究趋势匹配的学科人才评价控制方法和装置
CN113190672A (zh) * 2021-05-12 2021-07-30 上海热血网络科技有限公司 一种广告判定模型、广告过滤的方法及***
CN113298399A (zh) * 2021-05-31 2021-08-24 西南大学 基于大数据的科研项目分析方法
CN114492425A (zh) * 2021-12-30 2022-05-13 中科大数据研究院 采用一套领域标签体系将多维度数据打通的方法

Also Published As

Publication number Publication date
CN110543564B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN110543564A (zh) 基于主题模型的领域标签获取方法
CN107229610B (zh) 一种情感数据的分析方法及装置
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及***
CN108090070B (zh) 一种中文实体属性抽取方法
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
CN109408743B (zh) 文本链接嵌入方法
CN109670014B (zh) 一种基于规则匹配和机器学习的论文作者名消歧方法
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN109885675B (zh) 基于改进lda的文本子话题发现方法
Rezaei et al. Multi-document extractive text summarization via deep learning approach
CN112559684A (zh) 一种关键词提取及信息检索方法
CN114706972B (zh) 一种基于多句压缩的无监督科技情报摘要自动生成方法
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN116304063B (zh) 一种简单的情感知识增强提示调优的方面级情感分类方法
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
CN112686025A (zh) 一种基于自由文本的中文选择题干扰项生成方法
CN109614490A (zh) 基于lstm的金融新闻倾向性分析方法
CN113032573B (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及***
CN112084312A (zh) 一种基于知识图构建的智能客服***
CN111563361B (zh) 文本标签的提取方法及装置、存储介质
Chen Tracking latent domain structures: An integration of Pathfinder and Latent Semantic Analysis
CN114662488A (zh) 词向量生成方法和设备、计算设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant