CN109446397A

CN109446397A - 一种数据挖掘方法及***

Info

Publication number: CN109446397A
Application number: CN201811245624.4A
Authority: CN
Inventors: 姚洲鹏
Original assignee: Hangzhou Fan Wen Science And Technology Ltd
Current assignee: Hangzhou Fan Wen Science And Technology Ltd
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2019-03-08

Abstract

本发明提供了一种数据挖掘方法及***，所述方法包括步骤：对待采集数据按照第一预设规则进行分析；对分析之后的待采集数据按照第二预设规则进行采集；对采集得到的数据按照第三预设规则进行预处理，并存储预处理后得到的数据；依据用户提供的检索要素，在所述存储的数据中进行挖掘，获得挖掘结果。所述方法及***解决了目前的大多数新闻数据服务商提供的数据挖掘方法不能实现细颗粒度的新闻要素提取和多维度并发检索的问题，满足了用户可以根据自己的需求在采集的新闻数据中进行多层次的复合提取，改善了用户体验。

Description

一种数据挖掘方法及***

技术领域

本发明涉及互联网技术领域，更具体地，涉及一种数据挖掘方法及***。

背景技术

在当今一个信息化和数据化的时代，每天都大量的新闻数据产生，这些新闻数据的价值是不可估量的。对于新闻媒体行业来说，抓取每天的新闻数据在日常工作中也显得十分重要。新闻工作者们需要快速准确地跟踪社会热点事件，扩大新闻线索，不断采集大量网络媒体信息。

大多数新闻数据服务商提供的数据主要是基于全网爬虫式抓取，或者给用户提供简单的数据抓取工具，让用户自己利用数据抓取工具进行数据抓取，这两种情况会导致用户抓取的数据没有进行细化分类，数据颗粒度比较粗，并且抓取的数据会包含有广告等垃圾信息，所以目前大部分针对新闻数据的数据挖掘方法并不能灵活地设置各种挖掘字段，那么用户在进行数据挖掘时，就不能准确地挖掘出自己需要的数据，无法根据自己的需求实现多层次复合提取，极大降低了用户体验。

发明内容

本发明的目的在于提供一种数据挖掘方法及***，解决目前针对新闻数据的数据挖掘方法不能实现细颗粒度的新闻要素提取和多维度并发检索的问题，满足了用户可以对数据进行多层次的复合提取。

为实现上述目的，本发明提供了一种数据挖掘方法，包括以下步骤：

对待采集数据按照第一预设规则进行分析；

对分析之后的待采集数据按照第二预设规则进行采集；

对采集得到的数据按照第三预设规则进行预处理，并存储预处理后得到的数据；

依据用户提供的检索要素，在所述存储的数据中进行挖掘，获得挖掘结果。

优选地，所述第一预设规则为将待采集数据的分析结果表示为包括链接地址、内容类型和地域信息字段的形式。

优选地，所述第二预设规则为将分析之后的待采集数据以包括标题、正文、来源、作者和发布时间字段的形式进行采集。

优选地，所述第三预设规则为对所有采集得到的数据均生成包含相似度计算、文本分类、原创性判断和文章字数字段信息的标签。

为实现上述目的，本发明还提供了一种数据挖掘***，包括：

数据分析模块，用于对待采集数据按照第一预设规则进行分析；

数据采集模块，用于对分析之后的待采集数据按照第二预设规则进行采集；

数据预处理模块，用于对采集得到的数据按照第三预设规则进行预处理，并存储预处理后得到的数据；

数据挖掘模块，用于依据用户提供的检索要素，在所述存储的数据中进行挖掘，获得挖掘结果。

本发明与现有技术相比，具有以下优点及突出性效果：

本发明提供的数据挖掘方法及***，通过预先对待采集的数据按照第一预设规则进行分析，可以得到干净的数据，过滤掉广告等垃圾信息，然后对这些数据进行采集，对采集到的数据按照第三预设规则进行预处理，这样可以对数据生成多种字段信息对应的标签，将预处理之后的数据进行存储，用户可以根据自己的需要进行多种检索要素的设置，所述方法从数据中读取相应的字段信息，挖掘出满足用户要求的数据，实现了多层次复合提取，极大方便了用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种数据挖掘方法的流程示意图；

图2位本发明实施例公开的一种数据挖掘***的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

如图1所示，本发明实施例一公开了一种数据挖掘方法，包括以下步骤：

S101，对待采集的数据按照第一预设规则进行分析，本实施例中，第一预设规则是将待采集数据的分析结果表示为包括链接地址、内容类型和地域信息字段的形式，对待采集的数据进行分析的目的是精准定位数据资源，进行有针对性地采集数据，过滤掉广告等垃圾信息，保证采集数据的纯净性。上述链接地址为待采集数据所在页面的url地址，内容类型包括但不限于科技新闻、经济新闻和体育新闻，地域信息表示待采集的新闻数据的地域范围。具体实施时，待采集的新闻数据来源包括有网站、客户端和报纸，进一步地，采集的网站新闻来源包括但不限于光明网、新华网和人民网等中央媒体，或者地方省级新闻网站。

S102，对分析之后的待采集数据按照第二预设规则进行采集，第二预设规则为将分析之后的待采集数据以包括标题、正文、来源、作者和发布时间字段的形式进行采集，具体来说，必须设置相应的第二预设规则，才能将完全将分析之后的待采集数据采集下来，这是个规则匹配的过程，比如说，当用户需要采集的新闻数据为标题内容包含“全国教育大会”的新闻数据，那么就需要在第二预设规则中的标题设置进行相应的设置，当用户需要将新闻数据的正文内容全部采集下来，也需要在第二预设规则中的对应设置上进行添加。当用户需要将新闻数据的来源、作者和发布时间这些信息全部采集下来，那么也需要相应地添加设置，在待采集的新闻网站上存在翻页时，那么第二预设规则就要设置相应的翻页规则；在用户没有指定的情况下，该方法默认采集链接地址当前页面的新闻数据，用户可以根据需求设置采集之前页面的新闻数据。

S103，对采集得到的数据按照第三预设规则进行预处理，并存储预处理后得到的数据，第三预设规则为对所有采集得到的数据均生成包含相似度计算、文本分类、原创性判断和文章字数字段信息的标签。具体实施时，预处理操作包括但不限于相似度计算、文本分类、原创性判断和文章字数统计。具体来说，进行相似度计算时，先采用中文分词库中的细颗粒度分词创建索引，完成分词操作，并统计每个词的词频之后，利用TF-IDF技术针对每个分词计算权重，提取核心关键词；接着利用Word2vec算法针对每篇文章进行语义分析，以去除同类同义词汇，然后将被采集文章和数据库中的文章简化为两个以关键词权重为分量的N维向量，利用向量模型进行余弦相似度计算。通过向量空间中两个向量夹角的余弦值来表示两篇文章的相似度，余弦值越大说明两篇文章越相似，这样就得到了每篇相似文章的相似ID，可以根据相似ID判断出原创文章的转载文章，进而可根据转载文章的热度判断出新闻热点。

本实施例中，文本分类是通过支持向量机算法实现的，具体来说，首先进行文本特征提取，即对全部训练文档进行分词，由这些词作为向量的维数来表示文本，统计每一类内文档所有出现的词语及其频率，然后剔除停用词和单字词，统计每一类内出现词语的总词频，并取其中的若干个频率最高的词汇作为这一类别的特征词集，去除每一类别中都出现的词，合并所有类别的特征词集，形成总特征词集。然后利用现有技术中的TF-IDF权重计算公式表示文本特征，再对关键词的词频进行归一化处理，那么原来的文本信息就被抽象成一个向量化的样本集，把该样本集与一个类别的模板文件进行相似度计算，若不属于该类别，则与其他类别的模板文件进行计算，直到分进相应的类别，将所属类别也作为该文章的标签之一。

原创性判断就是将采集的新闻文章的特征信息和转载关键词库、原创关键词库以及媒体关键词库进行比较，判定是否属于原创文章，并将是否属于原创文章作为该文章的标签之一；同时，对采集到的新闻文章的字数进行统计，将统计得到的该文章字数也作为该文章的标签之一。

预处理之后的新闻数据存储在服务器中，本实施例中，利用分布式存储技术对新闻数据进行存储，即将采集得到的数据分散存储在多台设备上，这样利用多台存储服务器来分担存储负荷，提高了该***的存取效率；同时在需要增加大规模数据量的时候，只需对服务器扩容即可；另一方面，随着数据量的增加，服务器出现故障的概率也在不断增加，采用分布式存储技术来存储新闻数据保证了即使部分服务器出现故障之后，对这个***不会造成太大的影响，提高了该***的可靠性。

S104，依据用户提供的检索要素，在上述存储的预处理后得到的数据中进行挖掘，获得挖掘结果。具体来说，用户在对存储的新闻数据进行数据挖掘时，可进行多层次设置检索要素，比如用户可以设置具体的新闻来源、地域信息、新闻内容类型和发布时间等字段信息，新闻来源可以限定来自于网站、客户端和报纸，进一步地，用户可以限定来自于光明网、新华网和人民网等中央媒体，或者地方省级新闻网站。对于地域信息，用户可以选择在指定省份的新闻数据中进行挖掘；对于新闻内容类型，用户可以限定挖掘的新闻数据来自于科技新闻、经济新闻或者体育新闻；对于发布时间，用户可以指定只在最近十天发布的新闻数据中进行挖掘。并且，具体实施时，用户可以为一次数据挖掘操作创建一个栏目，比如，用户创建一个标题为电影的栏目，然后输入所有检索要素，比如新闻来源为人民网，新闻类型为娱乐新闻，并且必须是原创文章，那么所述方法就会检索数据库中所有新闻数据的标签，把符合要求的数据归类到电影栏目中。

实施例二

本发明实施例二公开了一种数据挖掘***，包括：

数据分析模块201，用于对待采集的数据按照第一预设规则进行分析，本实施例中，第一预设规则是将待采集数据的分析结果表示为包括链接地址、内容类型和地域信息字段的形式，对待采集的数据进行分析的目的是精准定位数据资源，进行有针对性地采集数据，过滤掉广告等垃圾信息，保证采集数据的纯净性。上述链接地址为待采集数据所在页面的url地址，内容类型包括但不限于科技新闻、经济新闻和体育新闻，地域信息表示待采集的新闻数据的地域范围。具体实施时，待采集的新闻数据来源包括有网站、客户端和报纸，进一步地，采集的网站新闻来源包括但不限于光明网、新华网和人民网等中央媒体，或者地方省级新闻网站。

数据采集模块202，用于对分析之后的待采集数据按照第二预设规则进行采集，第二预设规则为将分析之后的待采集数据以包括标题、正文、来源、作者和发布时间字段的形式进行采集，具体来说，必须设置相应的第二预设规则，才能将完全将分析之后的待采集数据采集下来，这就是个规则匹配的过程，比如说，当用户需要采集的新闻数据为标题内容包含“全国教育大会”的新闻数据，那么就需要在第二预设规则中的标题设置进行相应的设置，当用户需要将新闻数据的正文内容全部采集下来，也需要在第二预设规则中的对应设置上进行添加。当用户需要将新闻数据的来源、作者和发布时间这些信息全部采集下来，那么也需要相应地添加设置，在待采集的新闻网站上存在翻页时，那么第二预设规则就要设置相应的翻页规则；在用户没有指定的情况下，该***默认采集链接地址当前页面的新闻数据，用户可以根据需求设置采集之前页面的新闻数据。

数据预处理模块203，用于对采集得到的数据按照第三预设规则进行预处理，并存储预处理后得到的数据，第三预设规则为对所有采集得到的数据均生成包含相似度计算、文本分类、原创性判断和文章字数字段信息的标签。具体实施时，预处理操作包括但不限于相似度计算、文本分类、原创性判断和文章字数统计。具体来说，进行相似度计算时，先采用中文分词库中的细颗粒度分词创建索引，完成分词操作，并统计每个词的词频之后，利用TF-IDF技术针对每个分词计算权重，提取核心关键词；接着利用Word2vec算法针对每篇文章进行语义分析，以去除同类同义词汇，然后将被采集文章和数据库中的文章简化为两个以关键词权重为分量的N维向量，利用向量模型进行余弦相似度计算。通过向量空间中两个向量夹角的余弦值来表示两篇文章的相似度，余弦值越大说明两篇文章越相似，这样就得到了每篇相似文章的相似ID，可以根据相似ID判断出原创文章的转载文章，进而可根据转载文章的热度判断出新闻热点。

数据挖掘模块204，用于依据用户提供的检索要素，在上述存储的预处理后得到的数据中进行挖掘，获得挖掘结果。具体来说，用户在对存储的新闻数据进行数据挖掘时，可进行多层次设置检索要素，比如用户可以设置具体的新闻来源、地域信息、新闻内容类型和发布时间等字段信息，新闻来源可以限定来自于网站、客户端和报纸，进一步地，用户可以限定来自于光明网、新华网和人民网等中央媒体，或者地方省级新闻网站。对于地域信息，用户可以选择在指定省份的新闻数据中进行挖掘；对于新闻内容类型，用户可以限定挖掘的新闻数据来自于科技新闻、经济新闻或者体育新闻；对于发布时间，用户可以指定只在最近十天发布的新闻数据中进行挖掘。并且，具体实施时，用户可以为一次数据挖掘操作创建一个栏目，比如，用户创建一个标题为电影的栏目，然后输入所有检索要素，比如新闻来源为人民网，新闻类型为娱乐新闻，并且必须是原创文章，那么所述***就会检索数据库中所有新闻数据的标签，把符合要求的数据归类到电影栏目中。

本发明实施例公开的数据挖掘方法及***通过预先对待采集的数据按照第一预设规则进行分析，可以得到干净的数据，过滤掉广告等垃圾信息，然后对这些数据进行采集，对采集到的数据按照第三预设规则进行预处理，这样可以对数据生成多种字段信息对应的标签，将预处理之后的数据进行存储，用户可以根据自己的需要进行多种检索要素的设置，可以满足用户不同使用场景下的多层级复合检索需求，实现数据的精准挖掘。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据挖掘方法，其特征在于，包括以下步骤：

对待采集数据按照第一预设规则进行分析；

对分析之后的待采集数据按照第二预设规则进行采集；

2.如权利要求1所述的一种数据挖掘方法，其特征在于，所述第一预设规则为将待采集数据的分析结果表示为包括链接地址、内容类型和地域信息字段的形式。

3.如权利要求1所述的一种数据挖掘方法，其特征在于，所述第二预设规则为将分析之后的待采集数据以包括标题、正文、来源、作者和发布时间字段的形式进行采集。

4.如权利要求1所述的一种数据挖掘方法，其特征在于，所述第三预设规则为对所有采集得到的数据均生成包含相似度计算、文本分类、原创性判断和文章字数字段信息的标签。

5.一种数据挖掘***，其特征在于，包括：

6.如权利要求5所述的一种数据挖掘***，其特征在于，所述第一预设规则为将待采集数据的分析结果表示为包括链接地址、内容类型和地域信息字段的形式。

7.如权利要求5所述的一种数据挖掘***，其特征在于，所述第二预设规则为将分析之后的待采集数据以包括标题、正文、来源、作者和发布时间字段的形式进行采集。

8.如权利要求5所述的一种数据挖掘***，其特征在于，所述第三预设规则为对所有采集得到的数据均生成包含相似度计算、文本分类、原创性判断和文章字数字段信息的标签。