CN105631018B - 基于主题模型的文章特征抽取方法 - Google Patents
基于主题模型的文章特征抽取方法 Download PDFInfo
- Publication number
- CN105631018B CN105631018B CN201511016955.7A CN201511016955A CN105631018B CN 105631018 B CN105631018 B CN 105631018B CN 201511016955 A CN201511016955 A CN 201511016955A CN 105631018 B CN105631018 B CN 105631018B
- Authority
- CN
- China
- Prior art keywords
- article
- word
- theme
- distribution
- articles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于主题模型的文章特征抽取方法,包括:基于原始语料库构建文章的引用关系网络,构建主题模型的生成模型和参数联合表达式,根据所述生成模型构建主题模型的推断过程,对新语料库采样文章,根据采样文章的采样结果提取文章参数。本发明使用了文章引用网络以扩展传统的主题模型,从而提取出更加精确的文章特征。
Description
技术领域
本发明涉及文章特征抽取技术领域,具体地,涉及基于主题模型的文章特征抽取方法,尤其是一种集成引用关系网络整理,基于主题模型的特征抽取的方法。
背景技术
科研活动是提高社会生产力和综合国力的战略支撑。世界各国都非常重视对于科研活动的投入。我国已经将科技研发摆在国家发展全局的核心位置,国家财政对科研的支出稳步增加。2012年,中国的研究与试验发展投入经费(包括工业界和学术界)已经超过万亿,为10298.4亿元,达到中等发达国家水平。
科研活动最直接的产出结果之一是学术文章。据统计,从2004年至2014年,我国科研人员在国际上共发表科技文章136.98万篇,位居世界第二;文章共被引用1037.01万次,位居世界第四。科研实践表明,学术文章是科研人员开展科研活动或继续进行深入研究的非常重要的信息资源。然而,面对信息化时代浩如烟海的文献资料,如何快速而准确地检索到自己所需要的学术资源,对于科研人员来说,确实是一项非常重要而且具有挑战性的工作。
面对学术搜索推荐的需求,谷歌公司在2004年推出了测试版的学术搜索引擎,为全世界的科研人员提供免费的学术文献信息服务;2006年,微软公司推出了学术搜索引擎Microsoft Academic Search。尽管这些综合性的学术搜索引擎依托了其所属商业搜索公司的搜索技术,实际上,它们的搜索结果并不令人满意。现有的这些学术搜索引擎针对用户的查询输入,仍然以文章列表的形式返回查询结果。它们更多注重于检索结果的精准性,即将文章搜索结果与用户查询的关键词进行精确的匹配,而没有重视文章在各自领域内所处的位置,以及文章话题的发展趋势。但是,对于科研人员来说,比精确匹配标题更重要的,往往是得到所属学科主题内的前沿成果和重要贡献文章。例如,初涉某一研究领域的搜索用户在进行搜索时,他们并不明确自己需要什么类型的文献,其搜索的关键词常常只是粗略的主题或者话题,如果采用上述综合性的学术搜索引擎,用户往往无法快速有效地了解相关学科主题内的前沿成果和重要贡献文章,得到的结果不能令人满意。
可见,构建一套高效实用的学术搜索推荐***,对于科研人员获取所需资源、及时掌握学科发展动态、提高自身科研能力,进而增强国家的科研实力,都具有相当重要的意义。正因如此,近年来学术搜索推荐***逐渐得到人们的重视。从2000年开始,有关文章搜索和推荐***的文章数量呈逐年上升的趋势。据不完全统计,仅2013年的相关文章数量就达到了30余篇。但是,学术搜索推荐***的研究仍然处于初始阶段。
在学术搜索***的构建过程中,一个重要的内容是从大规模的文章数据集和引用网络关系数据集中,抽取文章的特征。如每篇文章的主题、文章的学术贡献度、文章间引用关系的强弱和主题对应的特征词。
到目前为止,国内外关注文章特征抽取的主要研究方向包括:对文章的语义进行分析,从而得到与该文章主题相似的其他文章的推荐结果;对文章引用网络建模分析,得出文章的重要性。
目前,基于主题分析的文章特征抽取方法包括:使用主题模型(如LDA算法)分析文章主题,并在推荐***的协同过滤算法中引入主题相似度;结合主题模型和语言模型寻找相似主题文章;基于LDA算法,对词语组主题建模等。基于文章引用网络的文章特征抽取方法包括:使用HITS算法,对基于文章和术语构建的二分图计算文章的权威值;利用文章引用网络,计算文章作者的权威值并进行推荐;利用PageRank算法,结合期刊的质量和引用网络,计算文章的PageRank值等。
但是,这些研究成果要么没有考虑到模型对大样本量文章数据库的可用性,要么仅仅关注引用网络的信息而忽略了文章文本信息的抽取,要么仅仅考虑了文章数据库文本信息但忽略了引用关系网络的信息。因此最终的结果的使用价值都不高。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于主题模型的文章特征抽取方法。
根据本发明提供的一种基于主题模型的文章特征抽取方法,包括:
步骤A:基于原始语料库构建文章的引用关系网络,设定初始文章集合并根据引用关系网络得到新语料库;
步骤B:针对新语料库,构建主题模型的生成模型和参数联合表达式;
步骤C:根据所述生成模型构建主题模型的推断过程;
步骤D:根据主题模型的推断过程,对新语料库采样文章;
步骤E:根据采样文章的采样结果提取文章参数。
优选地,所述步骤A包括:
步骤A1,将顶点集V设为空集,将边集E设为空集,将图G设为V,E的集合;
步骤A2,对于原始语料库中的每一篇文章,把当前文章结点u加到顶点集V中,将当前文章结点u的所有引用关系添加到边集E中;
步骤A3:将通过步骤A2得到的图G作为所述引用关系网络;
步骤A4,将顶点集V设为初始已知点集V0,将边集E设为初始已知边集E0,将图G设为V,E的集合;
步骤A5,不断查找原始语料库中不在顶点集V中的点v,如果存在这样的点v且点v和顶点集V中的点存在引用关系,则把点v加入顶点集V中,并且把点v的引用关系加入E中;直到V,E不再变化为止;
步骤A6:将通过步骤A5得到图G对应的语料库导出作为所述新语料库。
优选地,所述步骤B包括:
步骤B1:对新语料库的各个主题,执行如下步骤:
基于狄利克雷超参数β生成第k个主题到词的分布的多项式参数其中,β是所服从的狄利克雷分布的参数;k为正整数;
步骤B2:对新语料库的各篇文章,执行如下步骤:
基于狄利克雷超参数α生成第m篇文章到主题的分布的多项式参数θm;其中,α是θm所服从的狄利克雷分布的参数;m为正整数;
基于狄利克雷超参数η生成第m篇文章的引用强度分布的多项式参数δm;其中,η是δm所服从的狄利克雷分布的参数;
基于贝塔分布的超参数组生成第m篇文章的原创指数的伯努利参数λm;其中,是λm所服从的贝塔分布的参数;
步骤B3:对各篇文章中的各个词执行如下步骤:
生成服从伯努利参数为λm的伯努利分布的第m篇文章的第n个词的原创指数sm,n;n为正整数;
-如果sm,n为1,则生成服从参数为δm的多项式分布的引用文章cm,n,生成服从参数为θcm,n的多项式分布的主题zm,n,生成服从参数为的多项式分布的词wm,n;
-如果sm,n为0,则生成服从参数为θm的多项式分布的主题zm,n,生成服从参数为的多项式分布的词wm,n;
其中,表示矩阵θ对应cm,n的行向量,表示矩阵对应zm,n的行向量;θ表示文章到主题的分布矩阵,表示主题到词的分布矩阵,wm,n代表第m篇文章中的第n个词,zm,n代表第m篇文章中的第n个词的主题,cm,n代表第m篇文章中的第n个词且该第n个词是非原创词所引用文章;
步骤B4:构建主题模型的联合概率分布如下:
其中,p(A|B)表示B条件下A的概率,符号→表示向量;为主题到词的分布,为文章到主题的分布,为文章的引用的分布,为文章中原创词的分布,为第k个主题下的词频,K表示主题数量,为第m篇文章下主题的频数,M为文章数量,为第m篇文章的引用的频数,为第m篇文章中非原创词的频数,为第m篇文章中原创词的频数;B(p,q)表示参数为p和q的Beta分布;
Δ(·)定义为:
其中,为向量的维数,Γ为Gamma函数,Ak表示向量的第k个分量。
优选地,所述步骤C包括:
步骤C1:采用如下吉布斯采样公式进行参数估计:
其中,表示向量去除zm,n对应的分量;符号∝表示正比于;代表主题zm,n下,词wm,n出现的频数;表示向量中wm,n对应的分量;V表示总词数;表示zm,n中第t个词出现的频数;βt表示向量的第t个分量;表示cm,n中主题为zm,n且sm,n=0的词的频数;表示cm,n中主题为zm,n且sm,n=1的词的频数;表示向量的zm,n对应的分量;表示cm,n中主题为第k个主题且sm,n=0的词的频数;表示cm,n中主题为第k个主题且sm,n=1的词的频数;αk表示向量的第k个分量;表示向量去除cm,n对应的分量;表示第m篇文章中来自cm,n的词数,表示向量的cm,n对应的分量;Lm表示第m篇文章总共引用文章的数目;表示第m篇文章中来自第r篇被引用的文章的词数;ηr表示向量的第r个分量;表示向量去除sm,n对应的分量;表示 表示 代表第m篇文章中所有非原创的词的频数;代表所有原创的词的频数;表示第m篇文章中主题为zm,n且sm,n=0的词的频数;表示第m篇文章中主题为zm,n且sm,n=1的词的频数;表示 表示第m篇文章中主题为第k个主题且sm,n=0的词的频数;表示 表示第m篇文章中主题为第k个主题且sm,n=0的词的频数;代表第m篇文章中所有非原创的词的频数,代表第m篇文章中所有原创的词的频数。
优选地,所述步骤D包括:
步骤D1:初始化;对新语料库中每篇文章中每个词wm,n基于二项分布随机采样原创指标sm,n;若对sm,n的采样得到sm,n=1,则基于多项分布随机从当下采样的文章的引用文章中抽取一篇引用文章cm,n;为当下采样的词wm,n基于多项分布随机赋予主题zm,n;
步骤D2:重新扫描新语料库;对于每个词wm,n,按照所述吉布斯采样公式重新采样原创指标sm,n;若新得到的对sm,n的采样sm,n=1,则再次采样wm,n对应的引用文章cm,n,否则,则直接略去对引用文章cm,n的采样;采样wm,n的主题zm,n,在新语料库中进行更新;
其中,步骤D2被重复执行,直到吉布斯采样收敛,进入步骤D3继续执行;
步骤D3:根据统计出的新语料库中每篇文章中对应sm,n=1的词的比重、每篇文章引用的出现频率、每篇文章中主题的出现频率、以及每个主题下单词出现的频率,分别得到每篇文章的原创指数λ、引用强度分布δ、每篇文章的主题分布θ、以及每个主题的单词分布φ。
优选地,所述步骤D还包括:
对于一篇加入到新语料库中的新文章dnew,统计这篇文章dnew的主题分布θnew、引用强度分布δnew、原创指数λnew,具体包括步骤:
步骤D401:初始化,对当前文章dnew中的每个词wm,n基于二项分布随机赋予原创指标sm,n,若对sm,n的采样得到sm,n=1,则基于多项分布随机从该文章dnew的引用文章中抽取一篇引用文章cm,n;为该词wm,n基于多项分布随机赋予主题zm,n;
步骤D402:重新扫描当前文章dnew,对于每个词wm,n按照所述吉布斯采样公式重新采样原创指标sm,n;若新得到的对sm,n的采样sm,n=1,则再次采样wm,n对应的引用文章cm,n,否则,则直接略去对引用文章cm,n的采样;采样wm,n的主题zm,n,在新语料库中进行更新;
其中,步骤D402被重复执行,直到吉布斯采样收敛,进入步骤D403继续执行;
步骤D403:统计当前文章dnew的主题分布θnew,统计文章dnew中对应sm,n=1的词的比重λnew,统计文章引用的出现分布δnew。
优选地,所述步骤E包括:
使用下面的公式得到相关的参数:
其中,θm,k是第m篇文章关于第k个主题的分布概率,是第k个主题关于第t个词的分布概率,λm是第m篇文章的原创指数,δm,c是第m篇文章和第c篇文章引用关系的强弱;表示第m篇文章中主题为第k个主题的词的频数;表示第k个主题中第t个词出现的频数,表示V表示第k个主题中词的数量;表示第m篇文章的所有引用过第c篇文章的词的频数,表示
在优选的技术方案中:抽取语料库中的有效关键词,并将有效关键词处理成为抽象对象;文章提取的主题个数、主题分布的集中程度、文章引用分布的集中程度,可由用户需求决定或由***预设。假定每篇文章中每个词的主题来源是随机的,由文章本身的主题分布产生或由该文章所引用的某篇文章的主题分布产生;
文本生成的概率模型包含以下假设:
(1)每篇文章中每个词的主题服从多项分布,且其先验分布服从Dirichlet分布。
(2)每个主题下的不同的字词服从多项分布,且其先验分布服从Dirichlet分布。
(3)每篇文章中每个词的引用来源服从多项分布,且其先验分布服从Dirichlet分布。
(4)每篇文章中每个词的原创性服从二项分布,且其先验分布服从Beta分布;
其中,关于概率模型假设,先验分布的参数将由文章平均长度、主题个数、文章平均引用文章数量决定。
与现有技术相比,本发明具有如下的有益效果:
1、本发明基于上述现有技术中存在的问题,从一个新的视角来思考文章特征抽取方法,能够提高文章特征抽取的准确性并能从文章中抽取出传统特征抽取***没有考虑到的信息。
2、本发明使用引用网络的信息扩展了传统的主题模型,使得模型可以由两方面的信息综合抽取文章特征,不仅对资料库数据量较大的情况适用,并且能对动态扩展的数据库适用,还能够抽取以往主题模型不能抽取的文章引用关系强度、文章原创指数等信息。
3、本发明利用文章主题分布的稀疏性,主题中字词分布的稀疏性,文章引用分布的稀疏性,减少采样复杂度。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是原始文章数据样例。
图2是新型主题模型的生成过程。
图3为本发明的方法流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明利用原创的方法来抽取文章特征。本发明使用了文章引用网络以扩展传统的主题模型,使得主题模型可以同时利用主题模型和引用网络抽取文章特征,从而提取出更加精确的文章特征。本发明的主要步骤包括:
步骤A:基于原始语料库构建文章的引用关系网络,设定初始文章集合并根据引用关系网络得到新语料库;
步骤B:针对新语料库,构建主题模型的生成模型和参数联合表达式;
步骤C:根据所述生成模型构建主题模型的推断过程;
步骤D:根据主题模型的推断过程,对新语料库采样文章;
步骤E:根据采样文章的采样结果提取文章参数。
本发明所设计的文章特征抽取方法涉及整理引用关系网络的自动化科学程序、结合引用网络的新型主题模型生成模型及联合表达式推导、新型主题模型推断过程和采样算法推导、新型主题模型的参数估计这五个核心组件。本发明提供的方法包括如下步骤:
关于步骤A,基于大样本量的原始语料库,自动生成文章(例如论文)的引用关系网络,并输出到文件;语料库包括两部分信息,一部分信息是关于文章本身的信息,包括文章题目、作者、摘要等,另一部分信息是文章间的引用关系,比如文章A引用文章B,文章A引用文章C。
互联网上的学术数据浩如烟海,且每年以百万级的数量增长。因此本发明中根据已有的XML和JSON格式的原始语料库,基于原始语料库中的每一篇文章,抽取出文章标题、文章摘要以及文章参考文献,然后设定初始文章集合,根据学术文章的引用关系,获得最大连通分支,并导出作为新语料库。
已有的原始文章语料库格式如表1和图1所示。
表1.原始文章数据存储格式规范
在所述步骤A中,所述基于原始语料库构建文章的引用关系网络的步骤,包括:
步骤A1,将顶点集V设为空集,将边集E设为空集,将图G设为V,E的集合;
步骤A2,对于原始语料库中的每一篇文章,把当前文章结点u加到顶点集V中,将当前文章结点u的所有引用关系添加到边集E中;
步骤A3:将通过步骤A2得到的图G作为所述引用关系网络。
在所述步骤A中,所述设定初始文章集合并根据引用关系网络得到新语料库的步骤,包括:根据引用关系网络,自动获得最大连通分支,得到新语料库;具体包括:
步骤A4,将顶点集V设为初始已知点集V0,将边集E设为初始已知边集E0,将图G设为V,E的集合;
步骤A5,不断查找原始语料库中不在顶点集V中的点v,如果存在这样的点v且点v和顶点集V中的点存在引用关系,则把点v加入顶点集V中,并且把点v的引用关系加入E中;直到V,E不再变化为止;
步骤A6:将通过步骤A5得到图G对应的语料库导出作为所述新语料库。
关于步骤B,传统的主题模型利用每篇文章的词频特性作为文章的主题特征,本发明中采用的主题模型能够涵盖文章之间的关系,即文章引用关系网络。所述主题模型包括两个核心部分,分别为生成模型(在步骤B中详述)、推断过程(在步骤C中详述)。生成模型相当于在已知参数的条件下,我们假设文章生成过程服从的模型,文章的生成模型的对应图模型可参见附图2。
所述步骤B包括:
步骤B1:对新语料库的各个主题,执行如下步骤:
基于狄利克雷超参数β生成第k个主题到词的分布的多项式参数其中,β是所服从的狄利克雷分布的参数;k为正整数;
步骤B2:对新语料库的各篇文章,执行如下步骤:
基于狄利克雷超参数α生成第m篇文章到主题的分布的多项式参数θm;其中,α是θm所服从的狄利克雷分布的参数;m为正整数;
基于狄利克雷超参数η生成第m篇文章的引用强度分布的多项式参数δm;其中,η是δm所服从的狄利克雷分布的参数;
基于贝塔分布的超参数组生成第m篇文章的原创指数的伯努利参数λm;其中,是λm所服从的贝塔分布的参数;本领域技术人员理解,贝塔分布本身需要两个超参数,这两个超参数可以互换。
步骤B3:对各篇文章中的各个词执行如下步骤:
生成服从伯努利参数为λm的伯努利分布的第m篇文章的第n个词的原创指数sm,n;n为正整数;
-如果sm,n为1,则生成服从参数为δm的多项式分布的引用文章cm,n,生成服从参数为的多项式分布的主题zm,n,生成服从参数为的多项式分布的词wm,n;
-如果sm,n为0,则生成服从参数为θm的多项式分布的主题zm,n,生成服从参数为的多项式分布的词wm,n;
其中,表示矩阵θ对应cm,n的行向量,表示矩阵对应zm,n的行向量;θ表示文章到主题的分布矩阵,表示主题到词的分布矩阵;wm,n代表第m篇文章中的第n个词,zm,n代表第m篇文章中的第n个词的主题,cm,n代表第m篇文章中的第n个词且该第n个词是非原创词所引用文章;
步骤B4:构建主题模型的联合概率分布如下:
其中,p(A|B)表示B条件下A的概率,符号→表示向量;为主题到词的分布,为文章到主题的分布,为文章的引用的分布,为文章中原创词的分布,为第k个主题下的词频,K表示主题数量,为第m篇文章下主题的频数,M为文章数量,为第m篇文章的引用的频数,为第m篇文章中非原创词的频数,为第m篇文章中原创词的频数;B(p,q)表示参数为p和q的Beta分布;
Δ(·)定义为:
其中,为向量的维数,Γ为Gamma函数,Ak表示向量的第k个分量。
关于步骤C,推断过程用于估计生成模型中的参数。在实际情形中,我们是已知文章中的单词,希望反过去推导出隐含的参数,这里便需要通过统计推断的方法完成。对于我们提出的新型主题模型,常规的最优化方法无法解决最大似然估计的问题,转而我们采用一种称为吉布斯采样的方式来进行参数估计。
所述步骤C包括:
步骤C1:采用如下吉布斯采样公式进行参数估计:
其中,表示向量去除zm,n对应的分量;符号∝表示正比于;代表主题zm,n下,词wm,n出现的频数;表示向量中wm,n对应的分量;V表示总词数;表示zm,n中第t个词出现的频数;βt表示向量的第t个分量;表示cm,n中主题为zm,n且sm,n=0的词的频数;表示cm,n中主题为zm,n且sm,n=1的词的频数;表示向量的zm,n对应的分量;表示cm,n中主题为第k个主题且sm,n=0的词的频数;表示cm,n中主题为第k个主题且sm,n=1的词的频数;αk表示向量的第k个分量;表示向量去除cm,n对应的分量;表示第m篇文章中来自cm,n的词数,表示向量的cm,n对应的分量;Lm表示第m篇文章总共引用文章的数目;表示第m篇文章中来自第r篇被引用的文章的词数;ηr表示向量的第r个分量;表示向量去除sm,n对应的分量;表示 表示 代表第m篇文章中所有非原创的词的频数;代表所有原创的词的频数;表示第m篇文章中主题为zm,n且sm,n=0的词的频数;表示第m篇文章中主题为zm,n且sm,n=1的词的频数;表示 表示第m篇文章中主题为第k个主题且sm,n=0的词的频数;表示 表示第m篇文章中主题为第k个主题且sm,n=0的词的频数;代表第m篇文章中所有非原创的词的频数,代表第m篇文章中所有原创的词的频数。
其中,中的下标代表相应的先验分布参数的分量。
关于步骤D,根据新型主题模型的推断过程,设计采样算法,采样文章数据库;我们可以到写出完整的推断过程。
所述步骤D包括:
步骤D1:初始化;对新语料库中每篇文章中每个词wm,n基于二项分布随机采样原创指标sm,n;若对sm,n的采样得到sm,n=1,则基于多项分布随机从当下采样的文章的引用文章中抽取一篇引用文章cm,n;为当下采样的词wm,n基于多项分布随机赋予主题zm,n;
步骤D2:重新扫描新语料库;对于每个词wm,n,按照所述吉布斯采样公式重新采样原创指标sm,n;若新得到的对sm,n的采样sm,n=1,则再次采样wm,n对应的引用文章cm,n,否则,则直接略去对引用文章cm,n的采样;采样wm,n的主题zm,n,在新语料库中进行更新;
其中,重复步骤D2,直到吉布斯采样收敛;
步骤D3:根据统计出的新语料库中每篇文章中对应sm,n=1的词的比重、每篇文章引用的出现频率、每篇文章中主题的出现频率、以及每个主题下单词出现的频率,分别得到每篇文章的原创指数λ、引用强度分布δ、每篇文章的主题分布θ、以及每个主题的单词分布φ;
对于一篇新文章(即在新加入当下新语料库的文章)dnew,统计这篇文章的主题分布θnew、引用强度分布δnew、原创指数λnew,具体包括步骤:
步骤D401:初始化,对当前文章dnew中的每个词wm,n基于二项分布随机赋予原创指标sm,n,若对wm,n的采样得到sm,n=1,则基于多项分布随机从该文章ddnew的引用文章中抽取一篇引用文章cm,n;为该词wm,n基于多项分布随机赋予主题zm,n;
步骤D402:重新扫描当前文章dnew,对于每个词wm,n按照所述吉布斯采样公式重新采样原创指标sm,n;若新得到的对sm,n的采样sm,n=1,则再次采样wm,n对应的引用文章cm,n,否则,则直接略去对引用文章cm,n的采样;采样wm,n的主题zm,n,在新语料库中进行更新;
其中,重复步骤D402,直到吉布斯采样收敛;
步骤D403:统计当前文章dnew的主题分布,该主题分布就是θnew,统计文章dnew中对应sm,n=1的词的比重,该比重就是λnew,统计文章引用的出现分布,该分布就是δnew。
关于步骤E,待主题模型收敛后(例如优选地根据步骤四中的吉布斯采样算法,我们进行循环采样,到采样进行足够次数之后,可以视为模型参数收敛),我们使用下面的公式得到相关的参数:
其中,θm,k是第m篇文章关于第k个主题的分布概率,是第k个主题关于第t个词的分布概率,λm是第m篇文章的原创指数,δm,c是第m篇文章和第c篇文章引用关系的强弱;表示第m篇文章中主题为第k个主题的词的频数;表示第k个主题中第t个词出现的频数,表示V表示第k个主题中词的数量;表示第m篇文章的所有引用过第c篇文章的词的频数,表示
上标(·)代表将单项式对此处的上标求和,如
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (5)
1.一种基于主题模型的文章特征抽取方法,其特征在于,包括:
步骤A:基于原始语料库构建文章的引用关系网络,设定初始文章集合并根据引用关系网络得到新语料库;
步骤B:针对新语料库,构建主题模型的生成模型和参数联合表达式;
步骤C:根据所述生成模型构建主题模型的推断过程;
步骤D:根据主题模型的推断过程,对新语料库采样文章;
步骤E:根据采样文章的采样结果提取文章参数;
所述步骤B包括:
步骤B1:对新语料库的各个主题,执行如下步骤:
基于狄利克雷超参数β生成第k个主题到词的分布的多项式参数其中,β是所服从的狄利克雷分布的参数;k为正整数;
步骤B2:对新语料库的各篇文章,执行如下步骤:
基于狄利克雷超参数α生成第m篇文章到主题的分布的多项式参数θm;其中,α是θm所服从的狄利克雷分布的参数;m为正整数;
基于狄利克雷超参数η生成第m篇文章的引用强度分布的多项式参数δm;其中,η是δm所服从的狄利克雷分布的参数;
基于贝塔分布的超参数组生成第m篇文章的原创指数的伯努利参数λm;其中,是λm所服从的贝塔分布的参数;
步骤B3:对各篇文章中的各个词执行如下步骤:
生成服从伯努利参数为λm的伯努利分布的第m篇文章的第n个词的原创指数sm,n;n为正整数;
-如果sm,n为1,则生成服从参数为δm的多项式分布的引用文章cm,n,生成服从参数为的多项式分布的主题zm,n,生成服从参数为的多项式分布的词wm,n;
-如果sm,n为0,则生成服从参数为θm的多项式分布的主题zm,n,生成服从参数为的多项式分布的词wm,n;
其中,表示矩阵θ对应cm,n的行向量,表示矩阵对应zm,n的行向量;θ表示文章到主题的分布矩阵,表示主题到词的分布矩阵,wm,n代表第m篇文章中的第n个词,zm,n代表第m篇文章中的第n个词的主题,cm,n代表第m篇文章中的第n个词且该第n个词是非原创词所引用文章;
步骤B4:构建主题模型的联合概率分布如下:
其中,p(A|B)表示B条件下A的概率,符号→表示向量;为主题到词的分布,为文章到主题的分布,为文章的引用的分布,为文章中原创词的分布,为第k个主题下的词频,K表示主题数量,为第m篇文章下主题的频数,M为文章数量,为第m篇文章的引用的频数,为第m篇文章中非原创词的频数,为第m篇文章中原创词的频数;B(p,q)表示参数为p和q的贝塔分布;
△(·)定义为:
其中,为向量的维数,Γ为Gamma函数,Ak表示向量的第k个分量;
所述步骤C包括:
步骤C1:采用如下吉布斯采样公式进行参数估计:
其中,表示向量去除zm,n对应的分量;符号∝表示正比于;代表主题zm,n下,词wm,n出现的频数;表示向量中wm,n对应的分量;V表示总词数;表示zm,n中第t个词出现的频数;βt表示向量的第t个分量;表示cm,n中主题为zm,n且sm,n=0的词的频数;表示cm,n中主题为zm,n且sm,n=1的词的频数;表示向量的zm,n对应的分量;表示cm,n中主题为第k个主题且sm,n=0的词的频数;表示cm,n中主题为第k个主题且sm,n=1的词的频数;αk表示向量的第k个分量;表示向量去除cm,n对应的分量;表示第m篇文章中来自cm,n的词数,表示向量的cm,n对应的分量;Lm表示第m篇文章总共引用文章的数目;表示第m篇文章中来自第r篇被引用的文章的词数;ηr表示向量的第r个分量;表示向量去除sm,n对应的分量;表示 表示 代表第m篇文章中所有非原创的词的频数;代表所有原创的词的频数;表示第m篇文章中主题为zm,n且sm,n=0的词的频数;表示第m篇文章中主题为zm,n且sm,n=1的词的频数;表示 表示第m篇文章中主题为第k个主题且sm,n=0的词的频数;表示 表示第m篇文章中主题为第k个主题且sm,n=0的词的频数;代表第m篇文章中所有非原创的词的频数,代表第m篇文章中所有原创的词的频数。
2.根据权利要求1所述的基于主题模型的文章特征抽取方法,其特征在于,所述步骤D包括:
步骤D1:初始化;对新语料库中每篇文章中每个词wm,n基于二项分布随机采样原创指数sm,n;若对sm,n的采样得到sm,n=1,则基于多项分布随机从当下采样的文章的引用文章中抽取一篇引用文章cm,n;为当下采样的词wm,n基于多项分布随机赋予主题zm,n;
步骤D2:重新扫描新语料库;对于每个词wm,n,按照所述吉布斯采样公式重新采样原创指数sm,n;若新得到的对sm,n的采样sm,n=1,则再次采样wm,n对应的引用文章cm,n,否则,则直接略去对引用文章cm,n的采样;采样wm,n的主题zm,n,在新语料库中进行更新;
其中,步骤D2被重复执行,直到吉布斯采样收敛,进入步骤D3继续执行;
步骤D3:根据统计出的新语料库中每篇文章中对应sm,n=1的词的比重、每篇文章引用的出现频率、每篇文章中主题的出现频率、以及每个主题下单词出现的频率,分别得到每篇文章的原创指数λ、引用强度分布δ、每篇文章的主题分布θ、以及每个主题的单词分布φ。
3.根据权利要求2所述的基于主题模型的文章特征抽取方法,其特征在于,所述步骤D还包括:
对于一篇加入到新语料库中的新文章dnew,统计这篇文章dnew的主题分布θnew、引用强度分布δnew、原创指数λnew,具体包括步骤:
步骤D401:初始化,对当前文章dnew中的每个词wm,n基于二项分布随机赋予原创指数sm,n,若对sm,n的采样得到sm,n=1,则基于多项分布随机从该文章dnew的引用文章中抽取一篇引用文章cm,n;为该词wm,n基于多项分布随机赋予主题zm,n;
步骤D402:重新扫描当前文章dnew,对于每个词wm,n按照所述吉布斯采样公式重新采样原创指数sm,n;若新得到的对sm,n的采样sm,n=1,则再次采样wm,n对应的引用文章cm,n,否则,则直接略去对引用文章cm,n的采样;采样wm,n的主题zm,n,在新语料库中进行更新;
其中,步骤D402被重复执行,直到吉布斯采样收敛,进入步骤D403继续执行;
步骤D403:统计当前文章dnew的主题分布θnew,统计文章dnew中对应sm,n=1的词的比重λnew,统计文章引用的出现分布δnew。
4.根据权利要求1所述的基于主题模型的文章特征抽取方法,其特征在于,所述步骤E包括:
使用下面的公式得到相关的参数:
其中,θm,k是第m篇文章关于第k个主题的分布概率,是第k个主题关于第t个词的分布概率,λm是第m篇文章的原创指数的伯努利参数,δm,c是第m篇文章和第c篇文章引用关系的强弱;表示第m篇文章中主题为第k个主题的词的频数;表示第k个主题中第t个词出现的频数,表示V表示第k个主题的总词数;表示第m篇文章的所有引用过第c篇文章的词的频数,表示
5.根据权利要求1所述的基于主题模型的文章特征抽取方法,其特征在于,所述步骤A包括:
步骤A1,将顶点集V设为空集,将边集E设为空集,将图G设为V,E的集合;
步骤A2,对于原始语料库中的每一篇文章,把当前文章结点u加到顶点集V中,将当前文章结点u的所有引用关系添加到边集E中;
步骤A3:将通过步骤A2得到的图G作为所述引用关系网络;
步骤A4,将顶点集V设为初始已知点集V0,将边集E设为初始已知边集E0,将图G设为V,E的集合;
步骤A5,不断查找原始语料库中不在顶点集V中的点v,如果存在这样的点v且点v和顶点集V中的点存在引用关系,则把点v加入顶点集V中,并且把点v的引用关系加入E中;直到V,E不再变化为止;
步骤A6:将通过步骤A5得到图G对应的语料库导出作为所述新语料库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511016955.7A CN105631018B (zh) | 2015-12-29 | 2015-12-29 | 基于主题模型的文章特征抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511016955.7A CN105631018B (zh) | 2015-12-29 | 2015-12-29 | 基于主题模型的文章特征抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105631018A CN105631018A (zh) | 2016-06-01 |
CN105631018B true CN105631018B (zh) | 2018-12-18 |
Family
ID=56045951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511016955.7A Active CN105631018B (zh) | 2015-12-29 | 2015-12-29 | 基于主题模型的文章特征抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105631018B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372147B (zh) * | 2016-08-29 | 2020-09-15 | 上海交通大学 | 基于文本网络的异构主题网络构建和可视化方法 |
CN106709520B (zh) * | 2016-12-23 | 2019-05-31 | 浙江大学 | 一种基于主题模型的医案分类方法 |
CN107515854B (zh) * | 2017-07-27 | 2021-06-04 | 上海交通大学 | 基于带权时序文本网络的时序社区以及话题的检测方法 |
CN108549625B (zh) * | 2018-02-28 | 2020-11-17 | 首都师范大学 | 一种基于句法宾语聚类的中文篇章表现主题分析方法 |
CN110555198B (zh) * | 2018-05-31 | 2023-05-23 | 北京百度网讯科技有限公司 | 用于生成文章的方法、装置、设备和计算机可读存储介质 |
CN109299257B (zh) * | 2018-09-18 | 2020-09-15 | 杭州科以才成科技有限公司 | 一种基于lstm和知识图谱的英文期刊推荐方法 |
CN109597879B (zh) * | 2018-11-30 | 2022-03-29 | 京华信息科技股份有限公司 | 一种基于“引文关系”数据的业务行为关系抽取方法及装置 |
CN110807315A (zh) * | 2019-10-15 | 2020-02-18 | 上海大学 | 一种基于主题模型的在线评论情感挖掘方法 |
CN115438654B (zh) * | 2022-11-07 | 2023-03-24 | 华东交通大学 | 文章标题生成方法、装置、存储介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1766871A (zh) * | 2004-10-29 | 2006-05-03 | 中国科学院研究生院 | 基于上下文的半结构化数据语义提取的处理方法 |
JP2011180862A (ja) * | 2010-03-02 | 2011-09-15 | Nippon Telegr & Teleph Corp <Ntt> | 用語抽出方法とその装置と、プログラム |
CN104408153A (zh) * | 2014-12-03 | 2015-03-11 | 中国科学院自动化研究所 | 一种基于多粒度主题模型的短文本哈希学习方法 |
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100030732A1 (en) * | 2008-07-31 | 2010-02-04 | International Business Machines Corporation | System and method to create process reference maps from links described in a business process model |
-
2015
- 2015-12-29 CN CN201511016955.7A patent/CN105631018B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1766871A (zh) * | 2004-10-29 | 2006-05-03 | 中国科学院研究生院 | 基于上下文的半结构化数据语义提取的处理方法 |
JP2011180862A (ja) * | 2010-03-02 | 2011-09-15 | Nippon Telegr & Teleph Corp <Ntt> | 用語抽出方法とその装置と、プログラム |
CN104408153A (zh) * | 2014-12-03 | 2015-03-11 | 中国科学院自动化研究所 | 一种基于多粒度主题模型的短文本哈希学习方法 |
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
Non-Patent Citations (2)
Title |
---|
基于LDA模型的评论热点挖掘:原理与实现;余传明 等;《信息***》;20100531;第33卷(第5期);第103-106页 * |
基于主题特征的关键词抽取;刘俊 等;《计算机应用研究》;20121130;第29卷(第11期);第4224-4227页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105631018A (zh) | 2016-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105631018B (zh) | 基于主题模型的文章特征抽取方法 | |
CN104899273B (zh) | 一种基于话题和相对熵的网页个性化推荐方法 | |
CN104699766B (zh) | 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法 | |
CN106649272B (zh) | 一种基于混合模型的命名实体识别方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答***构建方法 | |
CN106484664A (zh) | 一种短文本间相似度计算方法 | |
WO2022156328A1 (zh) | 一种融合服务协作关系的Restful类型Web服务聚类方法 | |
CN106682172A (zh) | 一种基于关键词的文献研究热点推荐方法 | |
CN106156272A (zh) | 一种基于多源语义分析的信息检索方法 | |
CN106897437B (zh) | 一种知识***的高阶规则多分类方法及其*** | |
CN102073729A (zh) | 一种关系化知识共享平台及其实现方法 | |
CN105630768A (zh) | 一种基于层叠条件随机场的产品名识别方法及装置 | |
Zhao et al. | Research on information extraction of technical documents and construction of domain knowledge graph | |
CN105843860A (zh) | 一种基于并行item-based协同过滤算法的微博关注推荐方法 | |
CN105808729B (zh) | 基于论文间引用关系的学术大数据分析方法 | |
CN105468780B (zh) | 一种微博文本中产品名实体的规范化方法及装置 | |
Liu et al. | Chinese named entity recognition based on rules and conditional random field | |
CN105787072B (zh) | 一种面向流程的领域知识抽取与推送方法 | |
CN107908749A (zh) | 一种基于搜索引擎的人物检索***及方法 | |
Sun et al. | Joint topic-opinion model for implicit feature extracting | |
CN115730078A (zh) | 用于类案检索的事件知识图谱构建方法、装置及电子设备 | |
CN110188352A (zh) | 一种文本主题确定方法、装置、计算设备及存储介质 | |
CN109918508A (zh) | 基于网络爬虫采集技术的用户画像生成方法 | |
Chen et al. | Web Evaluation Analysis of Tourism Destinations Based on Data Mining | |
CN103294662B (zh) | 一致性判断装置及一致性判断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |