CN110110047B

CN110110047B - 基于tf-idf和领域词典的主题内容聚合分析方法

Info

Publication number: CN110110047B
Application number: CN201910359911.6A
Authority: CN
Inventors: 赵瑞雪; 寇远涛; 张洁; 鲜国建; 仲跻亮
Original assignee: Agricultural Information Institute of CAAS
Current assignee: Agricultural Information Institute of CAAS
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2021-03-19
Anticipated expiration: 2039-04-30
Also published as: CN110110047A

Abstract

本发明公开了一种基于TF‑IDF和领域词典的主题内容聚合分析方法，属于情报信息处理领域。基于TF‑IDF获取主题需求词的扩展词集；将其作为检索文本遵循基于领域词典的检索策略完成对资源池中多种类型资源的检索，经过审核进行资源删补，对每种目标资源类型，根据资源的时效性、权威性及相关度进行有序排列和发布。与传统方法相比，本方法通过扩展词集保证了主题内资源的检全率，通过基于领域词典的检索策略和具有针对性的各类型资源排序模型，保证了主题内资源的检准率；通过审核原则保障了主题内资源的质量。易扩展易维护，同时大大降低了主题资源内容聚合的时间和人工成本。

Description

基于TF-IDF和领域词典的主题内容聚合分析方法

技术领域

本发明提出一种基于TF-IDF和领域词典的主题内容聚合分析方法，属于情报信息处理领域。

背景技术

互联网时代，学术资源的出版和发行逐渐转向数字化和虚拟化，知识流通速度不断提升，知识成果产出周期缩短，1950年之后的论文发表量达到此前论文发表总量的400倍之多。知识***时代，资源过载导致科研知识发现需求被淹没，面向特定专业领域主题的学术资源精准发现问题日渐突出。

为帮助科研团队及时掌握其所属研究领域的发展态势及最新研究进展，为领域内课题申报、研究生定题及成果研究的全过程提供资源及知识服务支撑，满足科研主体对特定主题的信息资源需求，传统的解决方式主要采用基于智库的信息资源定时推送服务。这种方式的服务实现流程包括资源来源遴选、检索词确定及人工检索、智库专家审核、检索词迭代调整及补检索，报告编辑及服务推送等几大流程。该种方式可以在一定程度上解决大数据时代知识需求湮没的问题，但是在人工和时间成本上消耗较大，随着资源体量及类型复杂度的不断提升，该种方式的主题资源检全率及资源质量难以保障。总体来说，该方法不具有可持续性，同时不易扩展，每拓展一个新的主题领域所产生的综合成本较高。

发明内容：

鉴于现有算法的不足以及聚合信息的不确定性和复杂性，本发明的目的在于解决自动高效聚合特定主题的信息资源的问题，提出了一种基于TF-IDF和领域词典的主题内容聚合分析方法。

基于该方法基于特征提取算法及领域词典实现面向科研主体特定需求的主题资源内容自动聚合与分析。在获取到主题需求词后，首先基于TF-IDF获取到主题需求词的扩展主题词集合；之后以扩展主题词集合作为检索文本遵循基于领域词典的智能检索策略完成对资源池中多种类型资源的检索，经过审核进行资源少量删补及排序调整，检索结果遵循兼顾相关度、时效性及质量度的资源排序模型；最后完成用户需求专题的定制化配置，并利用前端页面为科研主体呈现主题化的资源聚合和可视化分析服务。

本发明所提出的基于TF-IDF和领域词典的主题内容聚合分析方法，包含如下步骤：

步骤S1：获取用于主题聚合的指定领域和1个初始需求词，并根据初始需求词指定领域词典；

领域词典建立在所指定领域的科学叙词表基础上，科学叙词表包含所指定领域的叙词、非叙词以及词间语义关系；

步骤S2：对初始需求词扩展，得到正式扩展词集，包括如下步骤：

S2-1：语料资源召回

使用步骤S1确定的初始需求词，在原始语料资源库中通过检索，召回K个最相关的资源，作为命中结果集；

此处，原始语料资源库指从资源池中抽取出来的期刊资源，这些资源的关键字段齐全且没有异常字符，所述关键字段包括：标题、关键词、摘要、作者、来源期刊、作者机构；K取值为正整数，该参数决定了进入步骤S2-2语料遴选阶段的资源数量；所述资源池是指通过自建、购买等多种渠道汇聚而成的电子资源集合；

S2-2：语料遴选

抽取命中结果集中各资源的关键字段，包括：标题、关键词、摘要、作者、来源期刊、作者机构，作为关键字段对象集合；

S2-3：语料分词

将上一步抽取出来的关键字段对象集合进行碎片化，根据预先设置的分词粒度参数和分词策略，形成文本碎片词集；

S2-4：词集过滤

使用停用词表、生活常用词表对文本碎片词集进行过滤：

将文本碎片词集中，隶属于停用词表、生活常用词表的词项提取出，然后将这些词项逐个与核心期刊关键词表对比；若其隶属于核心期刊关键词表，则将其保留在文本碎片词集中，若其不属于核心期刊关键词表，则从文本碎片词集中去除该词项；所述核心期刊关键词表，由原始语料资源库中的核心期刊收录文章的关键词构成；

将文本碎片词集保留下来的所有词项的集合称为候选扩展词集合A′；

S2-5：特征词提取

利用TF-IDF算法，对候选扩展词集合A′中的每个词项，计算其与初始需求词的相关度，作为该词项对整个候选扩展词集合A′的重要性程度，设第n个词项对A′的重要性程度为w_n；然后将重要性程度w_n从大到小降序排列，提取出w_n值最大的前M个词项作为特征词，这些特征词构成正式扩展词集A；

其中，M为预先设置参数，表示正式扩展词集A中的词项个数，且取值为正整数；

所述重要性程度计算公式为：

TF_n指第n个词项在集合A′中出现的词频，

f_n为第n个词项在集合A′中出现的次数，f_d为集合A′中的词项总个数；log为取对数运算；

IDF_n则是第n个词项在集合A′中的逆向词频指数，其中K为步骤S2-1预设的参数，K_n为K条资源中包含有第n个词项的资源数量；

步骤S3：通过检索建立备选资源集；

S3-1：检索词扩展

将步骤S2-5得到的正式扩展词集A中各词项基于领域词典进行扩展，即依据该领域词典对应的科学叙词表中英对照及“用代属分参”语义关系对各词项进行上下位、统一词及中英对照词的扩展，并去掉其中的重复词项，生成正式检索词集B；

S3-2：检索词拼接

将正式检索词集B中的各词项拼接成为检索词串，作为检索输入文本，检索词串的拼接规则为词项之间以“或”运算符连接；

S3-3：资源结果召回

首先确定检索涉及的目标资源类型，然后对每种目标资源类型指定相应的关键字段，将关键字段设置为该种目标资源类型的默认检索字段，使用步骤S3-2中获取到的检索词串，在资源池中进行检索时，只在每个资源的默认检索字段进行检索，若该资源的默认检索字段中包括正式检索词集B中的1个或多个词项，则将该资源纳入备选资源集；

所述目标资源类型，包括新闻资讯、中文期刊、外文期刊、OA期刊、领域专家、科研成果；

步骤S4：审核及快速补充，排序后获得最终正式主题结果集

对上步中得到的备选资源集进行审核及补充，形成最终正式主题结果集；包括如下步骤：

S4-1：对备选资源集中各资源按照如下标准进行审核：

(1)根据S3-3中该资源所属的目标资源类型相应的关键字段，查看该资源的关键字段均不为空；

(2)该资源的全部内容无异常字符；

对符合以上标准的资源则通过审核，纳入候选主题结果集；当有异常字符的情况下若通过修改可消除的，则修改后也将其纳入候选主题结果集；

S4-2补录新增资源

对每种目标资源类型建立相应的录入模板，所述录入模板指每个类型的资源必填的字段和非必填的字段；

对资源池外其他的与初始需求词高度相关的资源，若拟将其作为新增资源，则首先根据该资源所属的目标资源类型选择相应的录入模板，并按照录入模板录入相应的内容，至少应在对应的录入模板中录入所要求必填的字段；

步骤S4-3新增资源导入

将完成录入的新增资源的关键字段与候选主题结果集中的资源的关键字段进行比对，以排除重复的资源；若非重复资源则将其纳入到候选主题结果集。

步骤S4-4：结果排序

对每种目标资源类型，根据资源的时效性、权威性及相关度，对步骤S4-3获得的候选主题结果集中的资源进行有序排列，获得最终正式主题结果集；

步骤S5：将最终正式主题结果集进行发布，发布时根据不同目标资源类型，按照步骤S4-4获得的排序进行展示。

作为优选，步骤S1所述初始需求词是非复合词。

作为优选，步骤S2-1中，在原始语料资源库中通过检索召回K个最相关的资源，是采用基于Lucene的TF-IDF算法的检索策略获得的检索结果。

作为优选，步骤S2-3中，使用中文分词插件IKAnalyzer，将抽取出来的关键字段对象集合进行碎片化。

作为优选，步骤S2-3中，采用双向最大匹配法完成分词。

作为优选，步骤S5中，还包括对最终正式主题结果集进行可视化展示，包括：

利用图形展示最终正式主题结果集中期刊逐年发表的数量；

对最终正式主题结果集中资源的关键字段，提取词频较高的词项，使用可视化插件进行高频词云展示。

对比现有技术，本发明有益效果在于：该种方法借鉴了互联网音乐歌单及阅读书单的设计思想，实现了特定主题的学术资源自动聚合及分析。与传统信息推送服务方式相比，该种方法具有以下优点：

(1)通过扩展主题词集合保证了主题内资源的检全率，

(2)通过基于领域词典的智能检索策略和具有针对性的各类型资源排序模型，保证了主题内资源的检准率；

(3)通过单条优质资源的删除、快速索引及主题挂接，保障了主题内资源的质量；

(4)通过对主题资源集合的可视化分析，提升了对主题资源呈现的多样性和立体性，帮助科研主体更直观地了解主题研究态势；

(5)该方法构建的主题资源集合易扩展易维护，同时大大降低了主题资源内容聚合的时间和人工成本。

(6)实现了在特定专业领域利用一个初始需求词快速扩展，并自动在领域资源库中抽取多种类型的相关资源，并兼顾时效性、权威性和相关度进行排序输出。

附图说明

图1为本方法的完整流程图；

图2为步骤S2流程图；

图3为步骤S3流程图；

图4为步骤S4流程图；

图5为步骤S4-4新闻资讯类资源的排序因子拓扑结构图；

图6为步骤S4-4中文期刊资源的排序因子拓扑结构图；

图7为步骤S4-4外文期刊资源的排序因子拓扑结构图；

图8为步骤S4-4OA期刊资源的排序因子拓扑结构图；

图9为步骤S4-4领域专家资源的排序因子拓扑结构图；

图10为步骤S4-4科研成果资源的排序因子拓扑结构图。

具体实施方式

下面将对本发明加以详细说明，同时也叙述了本发明技术方案解决的技术问题及有益效果，需要指出的是，所描述的实例仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明提出了一种基于TF-IDF和领域词典的主题内容聚合分析方法。流程图见图1。

初始需求词的获取：综合使用线上及线下渠道搜集的主题服务需求，凝练提取支撑主题聚合的初始需求词，其中：

线上渠道，主要关注通过权威网站发布的最新热点问题，提炼形成领域内热点主题的初始需求词；

线下渠道，则采用面对面访谈或调查问卷的方式，遴选优质科研团队收集该团队的科研主题及主要的学科关注点，提炼成为该主题高度概括的初始需求词。提炼形成的初始需求词个数为1个，长度上不超过10位字符。

如，基于线上线下渠道可获取提炼出农业领域的热点主题词，包括粮食和食物安全/蔬菜育种/动物营养/农业生物技术/农业立体污染防治/生态文明/农村电商/农业供给侧改革/食品安全/生物遗传育种/智慧农业等。

步骤S2：对初始需求词扩展，得到正式扩展词集，主要流程如图2所示，包括如下步骤：

S2-1：语料资源召回

使用步骤S1确定的初始需求词，在原始语料资源库中通过检索(例如基于Lucene)，召回K个最相关(TF-IDF算法)的资源，作为命中结果集；

S2-2：语料遴选

S2-3：语料分词

选用中文分词插件IKAnalyzer，将上一步抽取出来的关键字段对象集合进行碎片化，根据预先设置的分词粒度参数和分词策略，形成文本碎片词集；

S2-4：词集过滤

使用停用词表、生活常用词表对文本碎片词集进行过滤：

S2-5：特征词提取

所述重要性程度计算公式为：

TF_n指第n个词项在集合A′中出现的词频，

Log的底不限定；

示例：如主题的初始需求词为“生物防治”，若M设置为20，通过智能扩展后，可以得到的正式扩展词集A为：[″生物防治″，″天敌″，″菌株″，″害虫″，″线虫″，″病原菌″，″真菌″，″根结线虫″，″生防″，″拮抗菌″，″生防菌″，″昆虫″，″烟蚜″，″寄生蜂″，″豚草″，″中生菌素″，″空心莲子草″，″生物农药″，″天敌昆虫″，″白僵菌″]。

步骤S3：通过检索建立备选资源集；

使用上一步中获取到的正式扩展词集，基于兼顾时效性、权威性和相关度进行检索，从资源池中召回对应类型的Top N条资源检索结果。流程如图3所示，包括检索词扩展、检索词拼接、结果召回三步；选用开源搜索服务器Apache/Lucene Solr(简称Solr)进行检索。

S3-1：检索词扩展

将步骤S2-5得到的正式扩展词集A中各词项根据开源搜索服务器Apache/LuceneSolr(简称Solr)默认分词策略及领域词典进行扩展，即依据该领域词典对应的科学叙词表中英对照及“用代属分参”语义关系对各词项进行上下位、统一词及中英对照词的扩展，并去掉其中的重复词项，生成正式检索词集B；

3.1.1检索分词

根据选用的solr检索服务器全词匹配策略，当词项用英文双引号(″″)括起时，solr IK分词器不会对该词进行分词，而只是将检索输入文本中词项单个识别出来，供下一步进行对应的词项扩展使用；因此，

经过检索分词之后，结果如下所示：

3.1.2词项扩展

在获取到的分词结果的基础上，针对切分出来的每个词项进行领域词典(实现：基于领域词典插件Lucene-skos label filter)的自动扩展；

单个词项a_i扩展完成后的检索词项集表示为：[a_i1|a_i2|a_i3|...|a_in]

(其中，i为正整数，0＜i≤M；n为正整数，表示基于领域词典扩展出来的检索词项数。)

领域词典基于Lucene-skos label filter插件的构建建立在领域中己相对成熟的科学叙词表基础上，包括：将存在于关系型数据库中的领域科学叙词表依据批量转换规则转换至RDF，ETL工具与solr插件扩展环境；

所述的RDF是资源描述三元组(Resource Description Framework)，具体包括如下步骤：

(1)领域科学叙词表包含所指定的相关领域的叙词、非叙词以及词间语义关系。例如：农业领域科学叙词表CAT中包含了农业、林业、生物等领域在内的6万多个叙词、非叙词以及13万多条词间语义关系。

(2)转换过程依据科学叙词表中英对照及“用代属分参”共六种语义关系，所述六种语义关系与RDF三元组中概念及关系标签的对应规则如下：

用：叙词及非叙词-------＞RDF概念：concept

代：叙词与非叙词间的指代关系-------＞RDF关系：skos：altLabel

属：叙词的上位词-------＞RDF关系：skos：broader

分：叙词的下位词-------＞RDF关系：skos：narrower

参：叙词的相关词-------＞RDF关系：skos：related

中英对照词：叙词的中英文表述-------＞RDF关系：skos：prefLabel

(3)遵循以上规则，使用开源ETL工具(Extract-Transform-Load)将科学叙词表批量转换为符合SKOS标准的RDF三元组。

(4)将转换所得的RDF三元组，遵循Solr的接口调用规范，生成Lucene-skos labelfilter插件，利用其对检索词进行上下位、统一词及中英对照词等多种语义关系的扩展，得到扩展词项集合。实际应用过程中的扩展关系支持按需配置，如可以只配置支持对上下位词的扩展，也可配置成为支持全部语义关系的扩展。

示例，生物防治主题的分词结果各词项基于领域词典插件扩展出来的中英对照及同义词如下：

生物防治：

[生物防治|生防|biological control|biotic control|biologicalprevention]

天敌：[天敌|nature enemy|natural enemies|predator]

菌株：[菌株|microbial strain|bacteria|isolates|bacterial strain]

害虫：[害虫|pest insect|insect]

线虫：[线虫|nematoda|c.elegans|caenorhabditis elegans|nematode]

病原菌：

[病原菌|pathogenic bacterium|bacteria|pathogenic fungi|pathogenicbacteria]

生防：[生物防治|生防|biological control|biotic control|biologicalprevention]

拮抗菌：[拮抗菌|antagonist|antagonistic strain|antagonistic bacterium|antagonistic bacteria]

昆虫：[昆虫|insecta|insects|insect]

中生菌素：[中生菌素|zhongshengmycin]

空心莲子草：[空心莲子草|alternanthera philoxeroides(mart.)griseb|alternanthera philoxeroides griseb|alternanthera philoxeroides]

白僵菌：[白僵菌|beauveria spp.|beauveria|beauveria bassiana]

3.1.3词项去重融合

选用solr Remove Duplicates Token Filter(Solr RDF Filter)对3.2.2中获取到的扩展词项集合，去掉其中的重复词项，最后获得目标主题下的正式检索词集B，其词项数量为正整数。

示例：生物防治主题下经过以上步骤后，获取到的正式检索词集B如下：

S3-2：检索词拼接

将正式检索词集B中的各词项拼接成为检索词串，作为检索输入文本，检索词串的拼接规则为词项之间以“或”运算符连接；即：若以a_i表示正式检索词集B中的第i个词项，则拼接完成后得到的检索输入文本为：

″a₁″OR″a₂″OR″a₃″...OR″a_M″；M表示正式检索词集B中的词项个数；

检索时，searchtext：″a₁″OR″a₂″OR″a₃″...OR″a_M″其中，searchtext指代默认检索的大字段，该字段支持自定义配置；M为正整数，表示正式检索词集B的词项个数；

S3-3：结果召回

检索策略的制定是指根据目标资源类型对默认检索字段searchtext进行配置，配置完成后，检索服务器将只根据searchtext中配置的对应字段进行资源检索。

所述目标资源类型，包括新闻资讯、中文期刊、外文期刊、OA期刊、领域专家、科研成果；这六类资源的默认检索字段searchtext的配置策略如下表所示。

表1 不同目标资源类型的关键字段

步骤S4：审核及快速补充，排序后获得最终正式主题结果集，如图4所示；

S4-1：对备选资源集中各资源按照如下标准进行审核：

(2)该资源的全部内容无异常字符；

S4-2补录新增资源

对资源池外其他的与初始需求词高度相关的资源，若拟将其作为新增资源，则首先根据该资源所属的目标资源类型选择相应的录入模板(表2)，并按照录入模板录入相应的内容，至少应在对应的录入模板中录入所要求必填的字段；

步骤S4-3新增资源导入

六种资源的相应录入模板如下表所示：

表2 六种资源的相应录入模板

S4-3新增资源导入

S4-4：结果排序

进行有序排列的方法为：按照每个资源的综合得分的分值进行降序排列；综合得分的计算方法如下：

(1)目标资源类型为新闻资讯时(图5)，候选主题结果集中，该类型下第i个资源的综合得分的计算公式如下：

F_i＝Q_i*D_i*S_i

其中，F_i为第i个资源的综合得分，Q_i为第i个资源的权威性得分，D_i为第i个资源的时效性得分，S_i为第i个资源的相关度得分；

其中，X₁为任意大于1的数值；

其中，e为自然对数，currentyear指当前年份，publishyear指该资源的发布年份；

其中，W_ij为该类型第i个资源的相关度字段j的权重值，W_ij＞0，g_ij为资源i的字段j的相关度得分；相关度字段包括：标题、关键词、摘要、来源网站、内容；j取不同值，对应不同的相关度字段；p为相关度字段的数量；

其中，m为正式检索词集B在该类型下第i个资源中的命中词项数，m为正整数；TF_cj为正式检索词集B中的词项c在第i个资源的j字段中出现的频率，f_cj为词项c在第i个资源的j字段中的出现次数，f_dj为第i个资源的j字段进行分词后所包含的总词项数；IDF_c指词项c在第i个资源的逆转文档频率，N指候选主题结果集的目标资源类型为新闻资讯的资源总数量，n_cj指在字段j中出现词项c的新闻资讯类型资源的数量；

(2)目标资源类型为中文期刊时(图6)，候选主题结果集中，该类型下第i个资源的综合得分的计算公式如下：

F_i＝Q_i*D_i*S_i

Q_i＝JournalLevel+CitedBy_i/[(currentyear-publishyear)+1]

其中，JournelLevel指该类型的第i个资源在发表期刊收录级别上的得分，CitedBy_i为第i个资源的累计被引次数，currentyear指当前年份，publishyear是第i个资源的出版年份；

其中，a₁＞a₂＞a₃＞a₄＞a₅＞1，取值可根据需要进行配置；

其中，e为自然对数；

其中，W_ij为该类型第i个资源的相关度字段j的权重值，W_ij＞0，g_ij为资源i字段j的默认相关度得分；相关度字段包括：标题、关键词、摘要、作者、来源期刊、作者机构；j取不同值，对应不同的相关度字段；p为相关度字段的数量；

其中，m为正式检索词集B在该类型下第i个资源中的命中词项数，m为正整数；TF_cj为正式检索词集B中的词项c在第i个资源的j字段中出现的频率，f_cj为词项c在第i个资源的j字段中的出现次数，f_dj为第i个资源的j字段进行分词后所包含的总词项数；IDF_c指词项c在第i个资源的逆转文档频率，N指候选主题结果集的目标资源类型为中文期刊的资源总数量，n_cj指在字段j中出现词项c的中文期刊类型资源的数量；

(3)目标资源类型为外文期刊时(图7)，候选主题结果集中，该类型下第i个资源的综合得分的计算公式如下：

F_i＝Q_i*D_i*T_i*S_i

其中，F_i为第i个资源的综合得分，Q_i为第i个资源的权威性得分，D_i为第i个资源的时效性得分，S_i为第i个资源的相关度得分；T_i为第i个资源的偏好性得分；

Q_i＝JournalLevel+CitedBy_i/[(currentyear-publishyear)+1]

其中，e为自然对数；

X₂＞1，

其中，m为正式检索词集B在该类型下第i个资源中的命中词项数，m为正整数；TF_cj为正式检索词集B中的词项c在第i个资源的j字段中出现的频率，f_cj为词项c在第i个资源的j字段中的出现次数，f_dj为第i个资源的j字段进行分词后所包含的总词项数；IDF_c指词项c在第i个资源的逆转文档频率，N指候选主题结果集的目标资源类型为外文期刊的资源总数量，n_cj指在字段j中出现词项c的外文期刊类型资源的数量；

(4)目标资源类型为OA期刊时(图8)，候选主题结果集中，该类型下第i个资源的综合得分的计算公式如下：

F_i＝Q_i*D_i*T_i*S_i

F_i为第i个资源的综合得分，Q_i为第i个资源的权威性得分，D_i为第i个资源的时效性得分，S_i为第i个资源的相关度得分；T_i为第i个资源的偏好性得分；

Q_i＝CitedBy_i/[(currentyear-publishyear)+1]

其中，CitedBy_i为第i个资源的累计被引次数，currentyear指当前年份，publishyear是第i个资源的出版年份；

其中，e为自然对数；

T_i＝languagescore*urlscore

其中，languagescore为第i个资源的语种得分，urlscore为第i个资源的全文链接有无得分：

其中，X₃＞1，为可配置参数；

其中，X₄＞1，为可配置参数；

其中，m为正式检索词集B在该类型下第i个资源中的命中词项数，m为正整数；TF_cj为正式检索词集B中的词项c在第i个资源的j字段中出现的频率，f_cj为词项c在第i个资源的j字段中的出现次数，f_dj为第i个资源的j字段进行分词后所包含的总词项数；IDF_c指词项c在第i个资源的逆转文档频率，N指候选主题结果集的目标资源类型为OA期刊的资源总数量，n_cj指在字段j中出现词项c的OA期刊类型资源的数量；

(5)目标资源类型为领域专家时(图9)，候选主题结果集中，该类型下第i个资源的综合得分的计算公式如下：

F_i＝Q_i*S_i

其中，F_i指第i个专家的综合得分，Q_i为第i个专家的权威性得分，S_i为第i个专家的相关度得分；

其中，ZClevel为第i个专家的职称得分，X₅＞1，为可配置参数；

其中，W_ij为该类型第i个资源的相关度字段j的权重值，W_ij＞0，g_ij为第i个专家的字段j的默认相关度得分；相关度字段包括：姓名、主要成就、研究方向、本人简介、工作单位、教育背景；j取不同值，对应不同的相关度字段；p为相关度字段的数量；

其中，m为正式检索词集B在该类型下第i个资源中的命中词项数，m为正整数；TF_cj为正式检索词集B中的词项c在第i个资源的j字段中出现的频率，f_cj为词项c在第i个资源的j字段中的出现次数，f_dj为第i个资源的j字段进行分词后所包含的总词项数；IDF_c指词项c在第i个资源的逆转文档频率，N指候选主题结果集的目标资源类型为领域专家的资源总数量，n_cj指在字段j中出现词项c的领域专家类型资源的数量；

(6)目标资源类型为科研成果时(图10)，候选主题结果集中，该类型下第i个资源的综合得分的计算公式如下：

F_i＝Q_i*D_i*S_i

(其中，X₆＞X₇＞1，均为可配置参数；)

其中，e为自然对数，currentyear指当前年份，publishyear为该科研成果的获奖年份；

其中，W_ij为该类型第i个资源的相关度字段j的权重值，W_ij＞0，g_ij为资源i字段j的默认相关度得分；相关度字段包括：标题、奖项名称、主要完成人、第一完成单位、关键词、摘要；j取不同值，对应不同的相关度字段；p为相关度字段的数量；

其中，m为正式检索词集B在该类型下第i个资源中的命中词项数，m为正整数；TF_cj为正式检索词集B中的词项c在第i个资源的j字段中出现的频率，f_cj为词项c在第i个资源的j字段中的出现次数，f_dj为第i个资源的j字段进行分词后所包含的总词项数；IDF_c指词项c在第i个资源的逆转文档频率，N指候选主题结果集的目标资源类型为科研成果的资源总数量，n_cj指在字段j中出现词项c的科研成果类型资源的数量。

根据对最终正式主题结果集的配置和主题基本信息的完善，完成对目标主题的展示及资源集的配置及发布，最终实现目标主题内容在前端页面的展示和可视化呈现。

可视化展示主要包括对期刊文章发表趋势及主题高频词云的可视化。期刊文章发表趋势选择线型图展示中外文期刊文章按照年份的发表数量变化情况，主题高频词云则是抽取中外文期刊的关键词，并提取词频较高的词项，使用可视化插件完成高频词云在前台页面的展示。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换和替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于TF-idf和领域词典的主题内容聚合分析方法，其特征在于，包含如下步骤：

S2-1：语料资源召回

此处，原始语料资源库指从资源池中抽取出来的期刊资源，这些资源的关键字段齐全且没有异常字符，所述关键字段包括：标题、关键词、摘要、作者、来源期刊和作者机构；K取值为正整数，该参数决定了进入步骤S2-2语料遴选阶段的资源数量；所述资源池是指通过自建或购买汇聚而成的电子资源集合；

S2-2：语料遴选

抽取命中结果集中各资源的关键字段，包括：标题、关键词、摘要、作者、来源期刊和作者机构，作为关键字段对象集合；

S2-3：语料分词

S2-4：词集过滤

使用停用词表和生活常用词表对文本碎片词集进行过滤：

将文本碎片词集中，隶属于停用词表和生活常用词表的词项提取出，然后将这些词项逐个与核心期刊关键词表对比；若其隶属于核心期刊关键词表，则将其保留在文本碎片词集中，若其不属于核心期刊关键词表，则从文本碎片词集中去除该词项；所述核心期刊关键词表，由从原始语料资源库中的核心期刊收录文章的关键字段构成；

S2-5：特征词提取

所述重要性程度计算公式为：

TF_n指第n个词项在集合A′中出现的词频，

步骤S3：通过检索建立备选资源集，包括如下步骤；

S3-1：检索词扩展

S3-2：检索词拼接

S3-3：资源结果召回

所述目标资源类型，包括新闻资讯、中文期刊、外文期刊、OA期刊、领域专家和科研成果；

步骤S4：审核及快速补充，排序后获得最终正式主题结果集

对上述步骤中得到的备选资源集进行审核及补充，形成最终正式主题结果集；包括如下步骤：

S4-1：对备选资源集中各资源按照如下标准进行审核：

(2)该资源的全部内容无异常字符；

符合以上标准的资源则通过审核，纳入候选主题结果集；当有异常字符的情况下若通过修改可消除的，则修改后也将其纳入候选主题结果集；

S4-2补录新增资源

S4-3新增资源导入

将完成录入的新增资源的关键字段与候选主题结果集中的资源的关键字段进行比对，以排除重复的资源；若非重复资源则将其纳入到候选主题结果集；

S4-4：结果排序

2.根据权利要求1所述一种基于TF-idf和领域词典的主题内容聚合分析方法，其特征在于，步骤S1所述初始需求词是非复合词。

3.根据权利要求1所述一种基于TF-idf和领域词典的主题内容聚合分析方法，其特征在于，步骤S2-1中，在原始语料资源库中通过检索召回K个最相关的资源，是采用基于Lucene的TF-IDF算法的检索策略获得的检索结果。

4.根据权利要求1所述一种基于TF-idf和领域词典的主题内容聚合分析方法，其特征在于，步骤S2-3中，使用中文分词插件IKAnalyzer，将抽取出来的关键字段对象集合进行碎片化。

5.根据权利要求1或4所述一种基于TF-idf和领域词典的主题内容聚合分析方法，其特征在于，步骤S2-3中，采用双向最大匹配法完成分词。

6.根据权利要求1所述一种基于TF-idf和领域词典的主题内容聚合分析方法，其特征在于，步骤S5中，还包括对最终正式主题结果集进行可视化展示，包括：

利用图形展示最终正式主题结果集中期刊逐年发表的数量；

7.根据权利要求1所述一种基于TF-idf和领域词典的主题内容聚合分析方法，其特征在于，步骤S4-4，将候选主题结果集按照目标资源类型，进行有序排列的方法为：按照每个资源的综合得分的分值进行降序排列；综合得分的计算方法如下：

(1)目标资源类型为新闻资讯时，候选主题结果集中，该类型下第i个资源的综合得分的计算公式如下：

F_i＝Q_i*D_i*S_i

其中，X₁为任意大于1的数值；

其中，W_ij为该类型第i个资源的相关度字段j的权重值，W_ij＞0，g_ij为资源i的字段j的相关度得分；相关度字段包括：标题、关键词、摘要、来源网站和内容；j取不同值，对应不同的相关度字段；p为相关度字段的数量；

(2)目标资源类型为中文期刊时，候选主题结果集中，该类型下第i个资源的综合得分的计算公式如下：

F_i＝Q_i*D_i*S_i

Q_i＝JournalLevel+CitedBy_i/[(currentyear-publishyear)+1]

其中，e为自然对数；

其中，W_ij为该类型第i个资源的相关度字段j的权重值，W_ij＞0，g_ij为资源i字段j的默认相关度得分；相关度字段包括：标题、关键词、摘要、作者、来源期刊和作者机构；j取不同值，对应不同的相关度字段；p为相关度字段的数量；

(3)目标资源类型为外文期刊时，候选主题结果集中，该类型下第i个资源的综合得分的计算公式如下：

F_i＝Q_i*D_i*T_i*S_i

Q_i＝JournalLevel+CitedBy_i/[(currentyear-publishyear)+1]

其中，e为自然对数；

X₂＞1，

(4)目标资源类型为OA期刊时，候选主题结果集中，该类型下第i个资源的综合得分的计算公式如下：

F_i＝Q_i*D_i*T_i*S_i

Q_i＝CitedBy_i/[(currentyear-publishyear)+1]

其中，e为自然对数；

T_i＝languagescore*urlscore

其中，X₃＞1，为可配置参数；

其中，X₄＞1，为可配置参数；

(5)目标资源类型为领域专家时，候选主题结果集中，该类型下第i个资源的综合得分的计算公式如下：

F_i＝Q_i*S_i

其中，W_ij为该类型第i个资源的相关度字段j的权重值，W_ij＞0，g_ij为第i个专家的字段j的默认相关度得分；相关度字段包括：姓名、主要成就、研究方向、本人简介、工作单位和教育背景；j取不同值，对应不同的相关度字段；p为相关度字段的数量；

(6)目标资源类型为科研成果时，候选主题结果集中，该类型下第i个资源的综合得分的计算公式如下：

F_i＝Q_i*D_i*S_i

(其中，X₆＞X₇＞1，均为可配置参数；)

其中，W_ij为该类型第i个资源的相关度字段j的权重值，W_ij＞0，g_ij为资源i字段j的默认相关度得分；相关度字段包括：标题、奖项名称、主要完成人、第一完成单位、关键词和摘要；j取不同值，对应不同的相关度字段；p为相关度字段的数量；