CN105631018B

CN105631018B - 基于主题模型的文章特征抽取方法

Info

Publication number: CN105631018B
Application number: CN201511016955.7A
Authority: CN
Inventors: 沈嘉明; 宋振宇; 李世韬; 毛宇宁; 谈兆炜; 朱鸿儒; 王乐群; 郭运奇; 王彪; 傅洛伊; 王新兵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2018-12-18
Anticipated expiration: 2035-12-29
Also published as: CN105631018A

Abstract

本发明提供了一种基于主题模型的文章特征抽取方法，包括：基于原始语料库构建文章的引用关系网络，构建主题模型的生成模型和参数联合表达式，根据所述生成模型构建主题模型的推断过程，对新语料库采样文章，根据采样文章的采样结果提取文章参数。本发明使用了文章引用网络以扩展传统的主题模型，从而提取出更加精确的文章特征。

Description

基于主题模型的文章特征抽取方法

技术领域

本发明涉及文章特征抽取技术领域，具体地，涉及基于主题模型的文章特征抽取方法，尤其是一种集成引用关系网络整理，基于主题模型的特征抽取的方法。

背景技术

科研活动是提高社会生产力和综合国力的战略支撑。世界各国都非常重视对于科研活动的投入。我国已经将科技研发摆在国家发展全局的核心位置，国家财政对科研的支出稳步增加。2012年，中国的研究与试验发展投入经费(包括工业界和学术界)已经超过万亿，为10298.4亿元，达到中等发达国家水平。

科研活动最直接的产出结果之一是学术文章。据统计，从2004年至2014年，我国科研人员在国际上共发表科技文章136.98万篇，位居世界第二；文章共被引用1037.01万次，位居世界第四。科研实践表明，学术文章是科研人员开展科研活动或继续进行深入研究的非常重要的信息资源。然而，面对信息化时代浩如烟海的文献资料，如何快速而准确地检索到自己所需要的学术资源，对于科研人员来说，确实是一项非常重要而且具有挑战性的工作。

面对学术搜索推荐的需求，谷歌公司在2004年推出了测试版的学术搜索引擎，为全世界的科研人员提供免费的学术文献信息服务；2006年，微软公司推出了学术搜索引擎Microsoft Academic Search。尽管这些综合性的学术搜索引擎依托了其所属商业搜索公司的搜索技术，实际上，它们的搜索结果并不令人满意。现有的这些学术搜索引擎针对用户的查询输入，仍然以文章列表的形式返回查询结果。它们更多注重于检索结果的精准性，即将文章搜索结果与用户查询的关键词进行精确的匹配，而没有重视文章在各自领域内所处的位置，以及文章话题的发展趋势。但是，对于科研人员来说，比精确匹配标题更重要的，往往是得到所属学科主题内的前沿成果和重要贡献文章。例如，初涉某一研究领域的搜索用户在进行搜索时，他们并不明确自己需要什么类型的文献，其搜索的关键词常常只是粗略的主题或者话题，如果采用上述综合性的学术搜索引擎，用户往往无法快速有效地了解相关学科主题内的前沿成果和重要贡献文章，得到的结果不能令人满意。

可见，构建一套高效实用的学术搜索推荐***，对于科研人员获取所需资源、及时掌握学科发展动态、提高自身科研能力，进而增强国家的科研实力，都具有相当重要的意义。正因如此，近年来学术搜索推荐***逐渐得到人们的重视。从2000年开始，有关文章搜索和推荐***的文章数量呈逐年上升的趋势。据不完全统计，仅2013年的相关文章数量就达到了30余篇。但是，学术搜索推荐***的研究仍然处于初始阶段。

在学术搜索***的构建过程中，一个重要的内容是从大规模的文章数据集和引用网络关系数据集中，抽取文章的特征。如每篇文章的主题、文章的学术贡献度、文章间引用关系的强弱和主题对应的特征词。

到目前为止，国内外关注文章特征抽取的主要研究方向包括：对文章的语义进行分析，从而得到与该文章主题相似的其他文章的推荐结果；对文章引用网络建模分析，得出文章的重要性。

目前，基于主题分析的文章特征抽取方法包括：使用主题模型(如LDA算法)分析文章主题，并在推荐***的协同过滤算法中引入主题相似度；结合主题模型和语言模型寻找相似主题文章；基于LDA算法，对词语组主题建模等。基于文章引用网络的文章特征抽取方法包括：使用HITS算法，对基于文章和术语构建的二分图计算文章的权威值；利用文章引用网络，计算文章作者的权威值并进行推荐；利用PageRank算法，结合期刊的质量和引用网络，计算文章的PageRank值等。

但是，这些研究成果要么没有考虑到模型对大样本量文章数据库的可用性，要么仅仅关注引用网络的信息而忽略了文章文本信息的抽取，要么仅仅考虑了文章数据库文本信息但忽略了引用关系网络的信息。因此最终的结果的使用价值都不高。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于主题模型的文章特征抽取方法。

根据本发明提供的一种基于主题模型的文章特征抽取方法，包括：

步骤A：基于原始语料库构建文章的引用关系网络，设定初始文章集合并根据引用关系网络得到新语料库；

步骤B：针对新语料库，构建主题模型的生成模型和参数联合表达式；

步骤C：根据所述生成模型构建主题模型的推断过程；

步骤D：根据主题模型的推断过程，对新语料库采样文章；

步骤E：根据采样文章的采样结果提取文章参数。

优选地，所述步骤A包括：

步骤A1，将顶点集V设为空集，将边集E设为空集，将图G设为V，E的集合；

步骤A2，对于原始语料库中的每一篇文章，把当前文章结点u加到顶点集V中，将当前文章结点u的所有引用关系添加到边集E中；

步骤A3：将通过步骤A2得到的图G作为所述引用关系网络；

步骤A4，将顶点集V设为初始已知点集V₀，将边集E设为初始已知边集E₀，将图G设为V，E的集合；

步骤A5，不断查找原始语料库中不在顶点集V中的点v，如果存在这样的点v且点v和顶点集V中的点存在引用关系，则把点v加入顶点集V中，并且把点v的引用关系加入E中；直到V，E不再变化为止；

步骤A6：将通过步骤A5得到图G对应的语料库导出作为所述新语料库。

优选地，所述步骤B包括：

步骤B1：对新语料库的各个主题，执行如下步骤：

基于狄利克雷超参数β生成第k个主题到词的分布的多项式参数其中，β是所服从的狄利克雷分布的参数；k为正整数；

步骤B2：对新语料库的各篇文章，执行如下步骤：

基于狄利克雷超参数α生成第m篇文章到主题的分布的多项式参数θ_m；其中，α是θ_m所服从的狄利克雷分布的参数；m为正整数；

基于狄利克雷超参数η生成第m篇文章的引用强度分布的多项式参数δ_m；其中，η是δ_m所服从的狄利克雷分布的参数；

基于贝塔分布的超参数组生成第m篇文章的原创指数的伯努利参数λ_m；其中，是λ_m所服从的贝塔分布的参数；

步骤B3：对各篇文章中的各个词执行如下步骤：

生成服从伯努利参数为λ_m的伯努利分布的第m篇文章的第n个词的原创指数s_m，_n；n为正整数；

-如果s_m，_n为1，则生成服从参数为δ_m的多项式分布的引用文章c_m,n，生成服从参数为θ_cm,n的多项式分布的主题z_m,n，生成服从参数为的多项式分布的词w_m,n；

-如果s_m,n为0，则生成服从参数为θ_m的多项式分布的主题z_m,n，生成服从参数为的多项式分布的词w_m,n；

其中，表示矩阵θ对应c_m,n的行向量，表示矩阵对应z_m,n的行向量；θ表示文章到主题的分布矩阵，表示主题到词的分布矩阵，w_m,n代表第m篇文章中的第n个词，z_m,n代表第m篇文章中的第n个词的主题，c_m,n代表第m篇文章中的第n个词且该第n个词是非原创词所引用文章；

步骤B4：构建主题模型的联合概率分布如下：

其中，p(A|B)表示B条件下A的概率，符号→表示向量；为主题到词的分布，为文章到主题的分布，为文章的引用的分布，为文章中原创词的分布，为第k个主题下的词频，K表示主题数量，为第m篇文章下主题的频数，M为文章数量，为第m篇文章的引用的频数，为第m篇文章中非原创词的频数，为第m篇文章中原创词的频数；B(p,q)表示参数为p和q的Beta分布；

Δ(·)定义为：

其中，为向量的维数，Γ为Gamma函数，A_k表示向量的第k个分量。

优选地，所述步骤C包括：

步骤C1：采用如下吉布斯采样公式进行参数估计：

其中，表示向量去除z_m,n对应的分量；符号∝表示正比于；代表主题z_m,n下，词w_m,n出现的频数；表示向量中w_m,n对应的分量；V表示总词数；表示z_m,n中第t个词出现的频数；β_t表示向量的第t个分量；表示c_m,n中主题为z_m,n且s_m,n＝0的词的频数；表示c_m,n中主题为z_m,n且s_m,n＝1的词的频数；表示向量的z_m,n对应的分量；表示c_m,n中主题为第k个主题且s_m,n＝0的词的频数；表示c_m,n中主题为第k个主题且s_m,n＝1的词的频数；α_k表示向量的第k个分量；表示向量去除c_m,n对应的分量；表示第m篇文章中来自c_m,n的词数，表示向量的c_m,n对应的分量；L_m表示第m篇文章总共引用文章的数目；表示第m篇文章中来自第r篇被引用的文章的词数；η_r表示向量的第r个分量；表示向量去除s_m,n对应的分量；表示表示代表第m篇文章中所有非原创的词的频数；代表所有原创的词的频数；表示第m篇文章中主题为z_m,n且s_m,n＝0的词的频数；表示第m篇文章中主题为z_m,n且s_m,n＝1的词的频数；表示表示第m篇文章中主题为第k个主题且s_m,n＝0的词的频数；表示表示第m篇文章中主题为第k个主题且s_m,n＝0的词的频数；代表第m篇文章中所有非原创的词的频数，代表第m篇文章中所有原创的词的频数。

优选地，所述步骤D包括：

步骤D1：初始化；对新语料库中每篇文章中每个词w_m,n基于二项分布随机采样原创指标s_m,n；若对s_m,n的采样得到s_m,n＝1，则基于多项分布随机从当下采样的文章的引用文章中抽取一篇引用文章c_m,n；为当下采样的词w_m,n基于多项分布随机赋予主题z_m,n；

步骤D2：重新扫描新语料库；对于每个词w_m,n，按照所述吉布斯采样公式重新采样原创指标s_m,n；若新得到的对s_m,n的采样s_m,n＝1，则再次采样w_m,n对应的引用文章c_m,n，否则，则直接略去对引用文章c_m,n的采样；采样w_m,n的主题z_m,n，在新语料库中进行更新；

其中，步骤D2被重复执行，直到吉布斯采样收敛，进入步骤D3继续执行；

步骤D3：根据统计出的新语料库中每篇文章中对应s_m,n＝1的词的比重、每篇文章引用的出现频率、每篇文章中主题的出现频率、以及每个主题下单词出现的频率，分别得到每篇文章的原创指数λ、引用强度分布δ、每篇文章的主题分布θ、以及每个主题的单词分布φ。

优选地，所述步骤D还包括：

对于一篇加入到新语料库中的新文章d_new，统计这篇文章d_new的主题分布θ_new、引用强度分布δ_new、原创指数λ_new，具体包括步骤：

步骤D401：初始化，对当前文章d_new中的每个词w_m,n基于二项分布随机赋予原创指标s_m,n,若对s_m,n的采样得到s_m,n＝1，则基于多项分布随机从该文章d_new的引用文章中抽取一篇引用文章c_m,n；为该词w_m,n基于多项分布随机赋予主题z_m,n；

步骤D402：重新扫描当前文章d_new，对于每个词w_m,n按照所述吉布斯采样公式重新采样原创指标s_m,n；若新得到的对s_m,n的采样s_m,n＝1，则再次采样w_m,n对应的引用文章c_m,n，否则，则直接略去对引用文章c_m,n的采样；采样w_m,n的主题z_m,n，在新语料库中进行更新；

其中，步骤D402被重复执行，直到吉布斯采样收敛，进入步骤D403继续执行；

步骤D403：统计当前文章d_new的主题分布θ_new，统计文章d_new中对应s_m,n＝1的词的比重λ_new，统计文章引用的出现分布δ_new。

优选地，所述步骤E包括：

使用下面的公式得到相关的参数：

其中，θ_m，k是第m篇文章关于第k个主题的分布概率，是第k个主题关于第t个词的分布概率，λ_m是第m篇文章的原创指数，δ_m，c是第m篇文章和第c篇文章引用关系的强弱；表示第m篇文章中主题为第k个主题的词的频数；表示第k个主题中第t个词出现的频数，表示V表示第k个主题中词的数量；表示第m篇文章的所有引用过第c篇文章的词的频数，表示

在优选的技术方案中：抽取语料库中的有效关键词，并将有效关键词处理成为抽象对象；文章提取的主题个数、主题分布的集中程度、文章引用分布的集中程度，可由用户需求决定或由***预设。假定每篇文章中每个词的主题来源是随机的，由文章本身的主题分布产生或由该文章所引用的某篇文章的主题分布产生；

文本生成的概率模型包含以下假设：

(1)每篇文章中每个词的主题服从多项分布，且其先验分布服从Dirichlet分布。

(2)每个主题下的不同的字词服从多项分布，且其先验分布服从Dirichlet分布。

(3)每篇文章中每个词的引用来源服从多项分布，且其先验分布服从Dirichlet分布。

(4)每篇文章中每个词的原创性服从二项分布，且其先验分布服从Beta分布；

其中，关于概率模型假设，先验分布的参数将由文章平均长度、主题个数、文章平均引用文章数量决定。

与现有技术相比，本发明具有如下的有益效果：

1、本发明基于上述现有技术中存在的问题，从一个新的视角来思考文章特征抽取方法，能够提高文章特征抽取的准确性并能从文章中抽取出传统特征抽取***没有考虑到的信息。

2、本发明使用引用网络的信息扩展了传统的主题模型，使得模型可以由两方面的信息综合抽取文章特征，不仅对资料库数据量较大的情况适用，并且能对动态扩展的数据库适用，还能够抽取以往主题模型不能抽取的文章引用关系强度、文章原创指数等信息。

3、本发明利用文章主题分布的稀疏性，主题中字词分布的稀疏性，文章引用分布的稀疏性，减少采样复杂度。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是原始文章数据样例。

图2是新型主题模型的生成过程。

图3为本发明的方法流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明利用原创的方法来抽取文章特征。本发明使用了文章引用网络以扩展传统的主题模型，使得主题模型可以同时利用主题模型和引用网络抽取文章特征，从而提取出更加精确的文章特征。本发明的主要步骤包括：

步骤C：根据所述生成模型构建主题模型的推断过程；

步骤D：根据主题模型的推断过程，对新语料库采样文章；

步骤E：根据采样文章的采样结果提取文章参数。

本发明所设计的文章特征抽取方法涉及整理引用关系网络的自动化科学程序、结合引用网络的新型主题模型生成模型及联合表达式推导、新型主题模型推断过程和采样算法推导、新型主题模型的参数估计这五个核心组件。本发明提供的方法包括如下步骤：

关于步骤A，基于大样本量的原始语料库，自动生成文章(例如论文)的引用关系网络，并输出到文件；语料库包括两部分信息，一部分信息是关于文章本身的信息，包括文章题目、作者、摘要等，另一部分信息是文章间的引用关系，比如文章A引用文章B，文章A引用文章C。

互联网上的学术数据浩如烟海，且每年以百万级的数量增长。因此本发明中根据已有的XML和JSON格式的原始语料库，基于原始语料库中的每一篇文章，抽取出文章标题、文章摘要以及文章参考文献，然后设定初始文章集合，根据学术文章的引用关系，获得最大连通分支，并导出作为新语料库。

已有的原始文章语料库格式如表1和图1所示。

表1.原始文章数据存储格式规范

在所述步骤A中，所述基于原始语料库构建文章的引用关系网络的步骤，包括：

步骤A3：将通过步骤A2得到的图G作为所述引用关系网络。

在所述步骤A中，所述设定初始文章集合并根据引用关系网络得到新语料库的步骤，包括：根据引用关系网络，自动获得最大连通分支，得到新语料库；具体包括：

关于步骤B，传统的主题模型利用每篇文章的词频特性作为文章的主题特征，本发明中采用的主题模型能够涵盖文章之间的关系，即文章引用关系网络。所述主题模型包括两个核心部分，分别为生成模型(在步骤B中详述)、推断过程(在步骤C中详述)。生成模型相当于在已知参数的条件下，我们假设文章生成过程服从的模型，文章的生成模型的对应图模型可参见附图2。

所述步骤B包括：

步骤B1：对新语料库的各个主题，执行如下步骤：

步骤B2：对新语料库的各篇文章，执行如下步骤：

基于贝塔分布的超参数组生成第m篇文章的原创指数的伯努利参数λ_m；其中，是λ_m所服从的贝塔分布的参数；本领域技术人员理解，贝塔分布本身需要两个超参数，这两个超参数可以互换。

步骤B3：对各篇文章中的各个词执行如下步骤：

生成服从伯努利参数为λ_m的伯努利分布的第m篇文章的第n个词的原创指数s_m，n；n为正整数；

-如果s_m，n为1，则生成服从参数为δ_m的多项式分布的引用文章c_m,n，生成服从参数为的多项式分布的主题z_m,n，生成服从参数为的多项式分布的词w_m,n；

其中，表示矩阵θ对应c_m,n的行向量，表示矩阵对应z_m,n的行向量；θ表示文章到主题的分布矩阵，表示主题到词的分布矩阵；w_m,n代表第m篇文章中的第n个词，z_m,n代表第m篇文章中的第n个词的主题，c_m,n代表第m篇文章中的第n个词且该第n个词是非原创词所引用文章；

步骤B4：构建主题模型的联合概率分布如下：

Δ(·)定义为：

关于步骤C，推断过程用于估计生成模型中的参数。在实际情形中，我们是已知文章中的单词，希望反过去推导出隐含的参数，这里便需要通过统计推断的方法完成。对于我们提出的新型主题模型，常规的最优化方法无法解决最大似然估计的问题，转而我们采用一种称为吉布斯采样的方式来进行参数估计。

所述步骤C包括：

步骤C1：采用如下吉布斯采样公式进行参数估计：

其中，表示向量去除z_m,n对应的分量；符号∝表示正比于；代表主题z_m,n下，词w_m,n出现的频数；表示向量中w_m,n对应的分量；V表示总词数；表示z_m,n中第t个词出现的频数；β_t表示向量的第t个分量；表示c_m,n中主题为z_m,n且s_m,n＝0的词的频数；表示c_m,n中主题为z_m,n且s_m,n＝1的词的频数；表示向量的z_m,n对应的分量；表示c_m,n中主题为第k个主题且s_m,n＝0的词的频数；表示c_m,n中主题为第k个主题且s_m,n＝1的词的频数；α_k表示向量的第k个分量；表示向量去除c_m,n对应的分量；表示第m篇文章中来自c_m,n的词数，表示向量的c_m,n对应的分量；L_m表示第m篇文章总共引用文章的数目；表示第m篇文章中来自第r篇被引用的文章的词数；ηr表示向量的第r个分量；表示向量去除s_m,n对应的分量；表示表示代表第m篇文章中所有非原创的词的频数；代表所有原创的词的频数；表示第m篇文章中主题为z_m,n且s_m,n＝0的词的频数；表示第m篇文章中主题为z_m,n且s_m,n＝1的词的频数；表示表示第m篇文章中主题为第k个主题且s_m,n＝0的词的频数；表示表示第m篇文章中主题为第k个主题且s_m,n＝0的词的频数；代表第m篇文章中所有非原创的词的频数，代表第m篇文章中所有原创的词的频数。

其中，中的下标代表相应的先验分布参数的分量。

关于步骤D，根据新型主题模型的推断过程，设计采样算法，采样文章数据库；我们可以到写出完整的推断过程。

所述步骤D包括：

其中，重复步骤D2，直到吉布斯采样收敛；

步骤D3：根据统计出的新语料库中每篇文章中对应s_m,n＝1的词的比重、每篇文章引用的出现频率、每篇文章中主题的出现频率、以及每个主题下单词出现的频率，分别得到每篇文章的原创指数λ、引用强度分布δ、每篇文章的主题分布θ、以及每个主题的单词分布φ；

对于一篇新文章(即在新加入当下新语料库的文章)d_new，统计这篇文章的主题分布θ_new、引用强度分布δ_new、原创指数λ_new，具体包括步骤：

步骤D401：初始化，对当前文章d_new中的每个词w_m,n基于二项分布随机赋予原创指标s_m,n,若对w_m,n的采样得到s_m,n＝1，则基于多项分布随机从该文章d_dnew的引用文章中抽取一篇引用文章c_m,n；为该词w_m,n基于多项分布随机赋予主题z_m,n；

其中，重复步骤D402，直到吉布斯采样收敛；

步骤D403：统计当前文章d_new的主题分布，该主题分布就是θ_new，统计文章d_new中对应s_m,n＝1的词的比重，该比重就是λ_new，统计文章引用的出现分布，该分布就是δ_new。

关于步骤E，待主题模型收敛后(例如优选地根据步骤四中的吉布斯采样算法，我们进行循环采样，到采样进行足够次数之后，可以视为模型参数收敛)，我们使用下面的公式得到相关的参数：

上标(·)代表将单项式对此处的上标求和，如

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于主题模型的文章特征抽取方法，其特征在于，包括：

步骤C：根据所述生成模型构建主题模型的推断过程；

步骤D：根据主题模型的推断过程，对新语料库采样文章；

步骤E：根据采样文章的采样结果提取文章参数；

所述步骤B包括：

步骤B1：对新语料库的各个主题，执行如下步骤：

步骤B2：对新语料库的各篇文章，执行如下步骤：

步骤B3：对各篇文章中的各个词执行如下步骤：

步骤B4：构建主题模型的联合概率分布如下：

其中，p(A|B)表示B条件下A的概率，符号→表示向量；为主题到词的分布，为文章到主题的分布，为文章的引用的分布，为文章中原创词的分布，为第k个主题下的词频，K表示主题数量，为第m篇文章下主题的频数，M为文章数量，为第m篇文章的引用的频数，为第m篇文章中非原创词的频数，为第m篇文章中原创词的频数；B(p,q)表示参数为p和q的贝塔分布；

△(·)定义为：

其中，为向量的维数，Γ为Gamma函数，A_k表示向量的第k个分量；

所述步骤C包括：

步骤C1：采用如下吉布斯采样公式进行参数估计：

2.根据权利要求1所述的基于主题模型的文章特征抽取方法，其特征在于，所述步骤D包括：

步骤D1：初始化；对新语料库中每篇文章中每个词w_m,n基于二项分布随机采样原创指数s_m,n；若对s_m,n的采样得到s_m,n＝1，则基于多项分布随机从当下采样的文章的引用文章中抽取一篇引用文章c_m,n；为当下采样的词w_m,n基于多项分布随机赋予主题z_m,n；

步骤D2：重新扫描新语料库；对于每个词w_m,n，按照所述吉布斯采样公式重新采样原创指数s_m,n；若新得到的对s_m,n的采样s_m,n＝1，则再次采样w_m,n对应的引用文章c_m,n，否则，则直接略去对引用文章c_m,n的采样；采样w_m,n的主题z_m,n，在新语料库中进行更新；

3.根据权利要求2所述的基于主题模型的文章特征抽取方法，其特征在于，所述步骤D还包括：

步骤D401：初始化，对当前文章d_new中的每个词w_m,n基于二项分布随机赋予原创指数s_m,n,若对s_m,n的采样得到s_m,n＝1，则基于多项分布随机从该文章d_new的引用文章中抽取一篇引用文章c_m,n；为该词w_m,n基于多项分布随机赋予主题z_m,n；

步骤D402：重新扫描当前文章d_new，对于每个词w_m,n按照所述吉布斯采样公式重新采样原创指数s_m,n；若新得到的对s_m,n的采样s_m,n＝1，则再次采样w_m,n对应的引用文章c_m,n，否则，则直接略去对引用文章c_m,n的采样；采样w_m,n的主题z_m,n，在新语料库中进行更新；

4.根据权利要求1所述的基于主题模型的文章特征抽取方法，其特征在于，所述步骤E包括：

使用下面的公式得到相关的参数：

其中，θ_m，k是第m篇文章关于第k个主题的分布概率，是第k个主题关于第t个词的分布概率，λ_m是第m篇文章的原创指数的伯努利参数，δ_m，c是第m篇文章和第c篇文章引用关系的强弱；表示第m篇文章中主题为第k个主题的词的频数；表示第k个主题中第t个词出现的频数，表示V表示第k个主题的总词数；表示第m篇文章的所有引用过第c篇文章的词的频数，表示

5.根据权利要求1所述的基于主题模型的文章特征抽取方法，其特征在于，所述步骤A包括：

步骤A3：将通过步骤A2得到的图G作为所述引用关系网络；