CN101630321A

CN101630321A - 一种基于数据挖掘的在线文章筛选方法

Info

Publication number: CN101630321A
Application number: CN200910042170A
Authority: CN
Inventors: 罗笑南; ***; 刘宁; 文允; 叶均杰
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2009-08-26
Filing date: 2009-08-26
Publication date: 2010-01-20

Abstract

本发明公开了一种基于数据挖掘的在线文章筛选方法，具体来说，公开了一种利用各种方法来识别网络文章的方法，它属于网络技术领域。该方法主要步骤包括：(1)关键字匹配；(2)是否发表；(3)内容覆盖程度；(4)相似度筛选，多余删除；(5)文章适用的语言分类；(6)有效提取相关的优秀文章；(7)精品文章再筛选；(8)垃圾文章删除；(9)精品文章作者推荐。利用此方法可以提高筛选效率，并且可以节约人力成本。

Description

一种基于数据挖掘的在线文章筛选方法

技术领域

本发明公开了一种基于数据挖掘的在线文章筛选方法，它属于网络技术领域领域。

背景技术

文章筛选是指为获得对某一方面的文章的需要而进行的文章客观评价，从而确定满足筛选准则的程度所进行的***的独立的并形成结果的过程。文章筛选主要是面对文章内容体系(比如文章包含的内容是否丰富，是否有实际作用)的符合性、有效性和适宜性进行的检查活动和过程，就筛选的方式来说筛选具有***性和独立性的特点。***性是指被筛选的所有要素都应覆盖；独立性是为了使筛选活动独立于被筛选人或单位，以确保筛选的公正和客观。

但是现行的在线筛选方法不是使用人为参与因素过多就是所使用的方法太过简单，比如只使用点击率。

人为进行的文章筛选机制即浪费人力和物力，而且有主观性因素等缺陷，比如人为喜好或者受知识所限所作出的决策上的失误。而当多个筛选人员存在的时候又存在人员能力上的不同照成筛选上的差异。

而光靠点击率的方法又存在很多现行的问题，比如文章受时间因素影响很大，越早的文章因为时间关系一般都是名列前茅，而新的比较好的文章因为出现的时间比较晚一直不能置顶，反而失去了很多关注的机会。这样就会导致好的文章的消失。

数据挖掘(Data Mining)，又称为数据库中的知识发现(KnowledgeDiscovery in Database，KDD)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程，简单的说，数据挖掘就是从大量数据中提取或“挖掘”知识。数据挖掘能很好应用在文章的筛选上。有效的使用数据挖掘的方法可以减少很多人为负担，本专利就使用部分数据挖掘方法解决了现行文章筛选的问题。

发明内容

本发明克服了现有技术的不足，提出了一种基于数据挖掘的在线文章筛选方法。通过多种方法的结合，可以尽量避免人为因素参与从而自动实现文章筛选的效果。本发明可以应用于政府和比较权威的网站的文章建设，可以达到较好的效果。

本发明在内容覆盖和相似度比较方面使用到数据挖掘，对于内容覆盖可以使用几个关键字眼识别就认为覆盖一个内容点，或者一段程序有相应的输入和输出就认为覆盖该功能点。而对于相似度比较则使用部分字眼或者段落匹配，这里对各类字眼或者段落设立一定权值，当总的累加和超过一定的阈值后就认为该两篇文章是雷同的。在不同各类文章的排序方面使用前向反馈神经网络的方法，根据录入文章的数目不断修改各个相关的属性，比如时间、文章级别、点击率，根据他们所占用的权值，进行动态排名。

该方法主要步骤包括：

对于所有的文章的筛选原则如下：

(1)关键字匹配；

(2)是否发表；

(3)查看内容覆盖程度；

(4)相似度筛选，多余删除；

(5)文章适用的语言分类；

(6)有效提取相关的优秀文章；

(7)精品文章再筛选；

(8)垃圾文章删除；

(9)精品文章作者推荐。

整个步骤是按整个筛选原则，按顺序一步步进行筛选。先按原则(1)～(4)进行筛选删除，然后使用原则(5)进行分类，再使用(6)(7)进行细化取经，并通过(8)取出一些库中已经不适合的文章，再所有步骤完成后，就是用(9)进行推荐工作。

本发明所包括的模块有：

(1)检查模块

(2)核心期刊存储列表

(3)精品文章存储区

(4)垃圾文章存储区

(5)人为因素介入模块

(6)库中文章搜索模块

检查模块是本方法的核心部件是实现一些文章的字眼的提取和部分内容的匹配和内容评分，在文章提取，匹配，评分中使用的所有数据挖掘方法也在该模块进行实现。核心期刊列表是进行检查所必要存在的一个列表，为了更好寻找一个文章是否发表在核心期刊。精品文章和垃圾文章区存储就是进行筛选后的文章所在的分类区，为了便于读者更好进行相应文章的选择。人为因素介入区是对某个主题约稿和处理某些不能用该方法处理的文章，从而提高筛选的准确率。这个模块可能包含用户界面和对本方法所对应***相应的操作接口等。库中文章搜索模块是为了给用户提供方便来搜索相应的文章或者相应精品文章，从而达到比较高的参考价值。

本发明的有益效果是：

(1)不管是旧的还是新的只要是好的文章都会出现在前几名，从而达到精华文章常置顶的目的。

(2)可以更好的排除无关于相应网站的文章，特别对现行网络上流行的垃圾文章和广告盛行的现象可以得到更好的制止。

(3)在很多方面可以比人为更加有利，即可以避免个人知识的缺陷还有重复工作的疲劳造成的失误。

(4)可以有效的节省人力资源，节省人力开支，节约成本。

附图说明

以下结合附图，对本发明做出进一步的详细说明：

图1为本发明的实施流程图；

图2为本发明模块结构图；

图3为排名前向反馈神经网络方法示意图。

具体实施方式

下面结合附图对本发明做进一步的说明。

本发明的实施流程图如图1所示，其基本步骤如下：

(1)对于一篇新的文章，首先看该文章是否是关于特定网站所需的文章，这个可以从关键字，摘要提取相应的字眼来检查这里可以使用一个关键属性，如果该属性值为false(与本网站收录的内容无关)，则直接淘汰。如果为yes则进入下一步筛选；

(2)其次看该文章是否在国内或者国外核心杂志上发表，如果文章有发表过，则查找一个核心期刊表，如果文章发表在该核心期刊表中的期刊上则可以基本上录用该文章。若文章不在核心期刊列表中，则因为该文章已经发表过可以给一个相应的得分。这里这个核心期刊表是需要动态维护，一般维护周期一周一次就可以。本核心期刊表可以从相关网站下载，也可以自己设定一些相关属性(引用次数，点击数，文章级别)进行动态计算，根据每个期刊的得分来确定哪些是核心期刊，各个相似的网站的筛选机制还可以进行相互共享相应的核心期刊列表来达到更新的目的；

(3)然后根据该文章所覆盖的内容点，根据覆盖的内容点得到相应的得分，并且这个得分可以根据本文件库所有的文章覆盖的内容点的多少进行动态调整。最后通过累计所覆盖的内容点得到该文章这部分的分数。具体内容点的计算可以使用数据挖掘关联规则方法。因为网站涉及文章很多，从中提取相应的字眼组成某部分内容的描述，或者从相应的输入输出中得到某部分代码的功能点是比较容易的事情。而当每审批一个文章可以对现有的关联规则进行动态调整和筛选，去掉一些旧的关联规则，而保留一些新的有用的关联规则；

(4)然后可以对本文章进行相似度度量，可以从关键字，摘要甚至可以是采用全文匹配原则。这里先考虑关键字匹配，如果关键字匹配后采用全文匹配，当出现一定相似度，就根据原来的文章的得分情况判断，若是原有文章得分较低则删除时间较久的文章，否则删除新录入的文章。这里使用的相似度度量不是对全文进行逐字逐句的匹配，而是先对关键字进行比较，得到一定的相似度得分，然后对摘要进行匹配。这里对摘要进行匹配是使用部分字眼，而这部分字眼是在以前大量文章中提取的使用关联规则分类的方法，越多的相关字眼的匹配说明这两篇文章的相似度就越高，可以保证较好的相似度度量；

(5)然后根据文章的语言进行分类。文章的语言部分可以分为摘要和正文两部分，比如摘要有无英文描述等。文章语言的分类是为了适应各个语种的文章的需求；

(6)接着检查近期是否有对某方面的文章特别的需要，如果有就检测是否该文章是特别需要的类型，如果是则归档，进行优秀文章记录，否则进行下一步筛选。这里需要一个相关的原则，可能一些文章得分较低，但是有较大的需求，这部分文章可能降级录取，这部分的调整可以由人为调整，也可以有一些设计的***进行调整；

(7)最后一步进行综合评审，这个综合筛选主要是人为因素的介入小部分文章的筛选，包括对一些精品文章的提取精华部分，对一些垃圾文章直接人为删除，对一些不确定文章进行归档。这部分存在价值是保证本发明的正确性，在本方法不能进行筛选的时候就必须人为参与了。实际实验中，本部分可以提高筛选准确率5％～10％；

(8)最后进行文章作者积分录入模块，根据文章的作者累计相应作者的文章，这部分作用也是为了适当的时候向作者约稿，或者省去部分的筛选过程；

(9)以上所述的各个部分文章的得分要最后累加起来，进行本文章的整体评价，并且对该文章进行分数评级，从最差，到最好，并且根据文章的等级进行分类存储，以便于要寻找某一个特定的文章时会出现的手忙脚乱的现象。而如前面所说，各个部分的分数是会动态调整的，但是这个调整需要比较麻烦的过程，基本是靠数据挖掘方法和时间的积累。总之该筛选机制对文章的选择，在时间的不断积累后将越来越准确。

本发明拟定的方法所对应的几个模块，如图2所示，检查模块是本方法的核心部件，是实现一些文章的字眼的提取和部分内容的匹配和内容评分，在文章提取、匹配、评分中使用的所有数据挖掘方法也在该模块进行实现。核心期刊列表就是为了步骤2所进行检查所必要存在的一个列表，为了更好寻找一个文章是否发表在核心期刊。精品文章区和垃圾文章区存储就是进行筛选后的文章所在的分类区，为了便于读者更好进行相应文章的选择。人为因素介入模块就如步骤7、8所述的某个主题约稿和处理某些不能用该方法处理的文章，从而提高筛选的准确率。这个模块可能包含用户界面和对本方法所对应***相应的操作接口等。库中文章搜索模块是为了给用户提供方便来搜索相应的文章或者相应精品文章，从而达到比较高的参考价值。

步骤9所述的数据挖掘调整排名的方法可以是前向反馈神经网络的方法，如图3所示，例如，根据点击数、文章级别，入库年限，引用次数，给与各个属性相应的权值进行多点修正，即各个节点都有一个权值(每个节点上的数字)，而每一列的节点权值之和为1，每经过一层节点数据就少一个，直到最后一个节点，最后一个节点的得分也就是该文章的综合得分，而根据这个综合得分就可以确定文章的最后排名。而这个计算和排名在每一定的周期，如1小时就要更新一次，以保证排名的准确性。

Claims

1、一种基于数据挖掘的在线文章筛选方法，其特征在于，该方法主要步骤包括：

1)、首先看该文章是否是关于特定网站所需的文章，从关键字、摘要提取相应的字眼作为一个关键属性，如果该属性与本网站收录的内容无关，属性值为false，则直接淘汰；如果属性值为yes则进入下一步筛选；

2)、其次看该文章是否在国内或者国外核心杂志上发表，如果文章有发表，则查找一个核心期刊表，如果文章发表在该核心期刊表中的期刊上则录用该文章；若文章不在核心期刊列表中，则因为该文章已经发表过就给一个相应的得分；

3)、然后根据该文章所覆盖的内容点，根据覆盖的内容点得到相应的得分，并且这个得分是根据本文件库所有的文章覆盖的内容点的多少进行动态调整，最后通过累计所覆盖的内容点得到该文章这部分的分数，具体内容点的计算使用数据挖掘关联规则方法；

4)、然后对本文章进行相似度审核，从关键字，摘要甚至是采用全文匹配原则；先考虑关键字匹配，如果关键字匹配后采用全文匹配，当出现一定相似度，就根据原来的文章的得分情况判断，若是原有文章得分较低则删除时间较久的文章，否则删除新录入的文章，这里使用的相似度审核不是对全文进行逐字逐句的匹配，而是先对关键字进行比较，得到一定的相似度得分，然后对摘要进行匹配；

5)、然后根据文章的语言进行分类，文章的语言部分可以分为摘要和正文两部分，文章语言的分类是为了适应各个语种的文章的需求；

6)、接着检查近期是否有对某方面的文章特别的需要，如果有就检测是否该文章是特别需要的类型，如果是则归档，进行优秀文章记录，否则进行下一步筛选；这里需要一个相关的原则，一些文章得分较低，但是有较大的需求，这部分文章就降级录取，这部分的调整既能够由人为调整，也能够有一些设计的***进行调整；

7)、最后一步进行综合评审，这个综合筛选主要是人为因素的介入小部分文章的筛选，包括对一些精品文章的提取精华部分，对一些垃圾文章直接人为删除，对一些不确定文章进行归档；

8)、最后进行文章作者积分录入模块，根据文章的作者累计相应作者的文章；

9)、以上所述的各个部分文章的得分要累加起来，进行本文章的整体评价，并且对该文章进行分数评级，并且根据文章的等级进行分类存储。

2、根据权利要求1所述一种基于数据挖掘的在线文章筛选方法，其特征在于，步骤2)中核心期刊表是需要动态维护，一般维护周期一周一次，本核心期刊表从相关网站下载，自己设定一些相关属性，包括引用次数、点击率、影响因子，然后进行动态计算，根据每个期刊的得分来确定哪些是核心期刊，各个相似的网站的筛选机制进行相互共享相应的核心期刊列表来达到更新的目的。