CN112100535A

CN112100535A - 一种基于dfa算法进行网络舆情分析***及其方法

Info

Publication number: CN112100535A
Application number: CN202010971747.7A
Authority: CN
Inventors: 卢宪政; 左赋斌
Original assignee: Nanjing Zhishuyun Information Technology Co ltd
Current assignee: Nanjing Zhishuyun Information Technology Co ltd
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2020-12-18

Abstract

本发明公开了一种基于DFA算法进行网络舆情分析***及其方法，包括数据抓取层，用于对待监测的源数据按照预设的规则进行内容抓取，并将抓取内容发送至原始数据存储层；原始数据存储层，用于存储接收到的数据，包括关系型数据库和分布式文件***；数据分析层，用于对原始数据存储层存储的数据按照预设的DFA算法进行数据分析，并将分析结果发送至分析结果层；分析结果层，用于存储接收的分析结果；以及控制层和前端展示层。本发明其架构清晰、简洁，可根据用户的需求实现有针对性的监控，关键字支持动态配置且识别效率高。

Description

一种基于DFA算法进行网络舆情分析***及其方法

技术领域

本发明涉及一种基于DFA算法进行网络舆情分析***及其方法，属于数据分析技术领域。

背景技术

随着计算机信息技术快速的普及应用，信息传播的渠道越来越多，当下流行的网络为广大网民提供了一个自由的舆论平台，针对国内外的重大时事，网民的思想观点都能够快速形成网络舆论，产生的巨大影响力引起了相关部门机构的关注，存在于网络舆情监控***中的问题也逐渐显现。

舆情监控是指网络监控***对互联网上的各种信息进行分类整理，筛选出热点话题和敏感的话题趋势数据，通过图表等方式将分析后的结果直观展示出来，从而确定舆情在网站中的变化情况。

现有的舆情分析***有很多，但大都是对全网进行监控分析，为了实现全面监控，其架构相对复杂，不够简洁。而对于一些有针对性的去监控，如只监控本地的某些论坛和某些网站，从而实现本地或当地居民的动态进行监控，现有舆情分析***因其架构复杂、不简洁不太适用这种场景，识别效率低。因此，急需一种能够有针对性进行监控、架构清晰简洁、识别率高的舆情分析***。

发明内容

针对上述现有技术存在的问题，本发明提供一种基于DFA算法进行网络舆情分析***及其方法，其架构清晰、简洁，可根据用户的需求实现有针对性的监控，关键字支持动态配置且识别效率高。

为了实现上述目的，本发明采用如下技术方案：一种基于DFA算法进行网络舆情分析***，包括：

数据抓取层，用于对待监测的源数据按照预设的规则进行内容抓取，并将抓取内容发送至原始数据存储层；

原始数据存储层，用于存储接收到的数据，包括关系型数据库和分布式文件***；

数据分析层，用于对原始数据存储层存储的数据按照预设的DFA算法进行数据分析，并将分析结果发送至分析结果层；

分析结果层，用于存储接收的分析结果；

控制层，用于控制分析结果层的数据仓库及相关业务功能的访问权限；

前端展示层，用于展示舆情分析结果，并对外提供API以供调用查询；

所述数据抓取层、原始数据存储层、数据分析层、分析结果层和前端展示层之间依次进行数据传输。

基于DFA算法进行网络舆情分析***中，所述源数据包括各门户网站的新闻、论坛讨论帖、博客内容、微博和公众号内容。

基于DFA算法进行网络舆情分析***中，所述数据抓取层通过定时任务执行设计好的脚本对源数据进行下载、预清洗和解析，并将解析后获得的有效数据进行预处理后保存到原始数据存储层；整个所述数据抓取层包括：

来源管理模块，用于管理和维护需要监控的数据源网站列表信息；

抓取规则模块，用于针对不同的数据源网站配置与其内部页面相匹配的抓取规则；

内容解析脚本模块，用于针对不同数据源网站的网页特征和源码元素配置相应的解析策略，脚本使用xpath进行配置；

定时任务模块，用于设置抓取任务和解析任务的执行计划，并根据预设的时间和周期定时执行相关任务；

下载器，用于从互联网下载页面内容，并将下载的内容传送给预清洗模块；

预清洗模块，用于对接收的内容进行预清洗，并将预清洗好的数据交由解析器进行处理；

解析器，用于根据解析脚本对预清洗好的数据进行解析，抽取出有用的信息；解析器产生的结果通过输出管道进行输出和保存，支持输出到文件和数据库；

调度器，用于管理待下载的URL列表，并对URL进行去重，调用下载器下载相应的内容；具体的，通过Redis作为消息队列存储和管理URL列表，并通过先进先出的算法进行逐一处理，调用下载器下载相应的内容。

基于DFA算法进行网络舆情分析***中，所述数据分析层包括：

预设关键字模块，用于管理和维护需要监测的关键字列表；

定时器，用于定时执行数据分析任务，结合数据量的大小来设定定时任务的执行频率；

数据加载器，用于从原始数据库和文件***加载文本内容，通过SQL语句或文件读取方式获取待分析的内容列表，并根据文件名称、数据标识过滤已处理过的数据；

词频分析器，利用DFA算法，结合预设的关键字，对抓取的原始内容进行词频分析和统计；

结果输出模块，用于将分析和统计结果输出到数据仓库或文件***，并按照不同的主题库进行保存。

基于DFA算法进行网络舆情分析***中，整个***中数据存储包括原始数据表、舆情敏感词表、敏感数据表和舆情数据表，所述原始数据表用于存储抓取的原始数据，所述舆情敏感词表用于存储舆情敏感词，所述敏感数据表用于存储***自动分析出的敏感数据；所述舆情数据表用于存储舆情数据。

一种基于DFA算法进行网络舆情分析的方法，所述方法包括：

数据抓取：从待监测的数据源网站按照预设的规则进行内容抓取，并将抓取内容保存到原始数据存储层；

数据分析：对原始数据存储层存储的数据按照预设的DFA算法进行关键词分析，并将分析结果输出到数据仓库或文件***，并按照不同的主题库进行保存；

数据展示：判断是否还有未分析的内容，若有，则返回数据分析继续分析；若无，则根据需要将分析后的结果展示出来。

基于DFA算法进行网络舆情分析的方法中，所述数据抓取和数据分析具体包括：

从数据源网站抓取内容，内容去除html标签，只保留原始文字，并保存到原始数据表；

再从原始数据表中获取待分析的内容，根据配置的关键词进行内容分析，获取包含敏感词的敏感数据，保存到敏感数据表，并更新原始数据状态为已分析；

管理员通过页面从敏感数据表获取待处理数据，人工判断是否转舆情处理；转舆情的数据保存到舆情信息表，状态更新为已转舆情；不转舆情的数据记为已忽略。

基于DFA算法进行网络舆情分析的方法中，所述数据抓取具体包括：

通过下载器从待监测的数据源网站下载网页内容，并将下载的网页内容发给预清洗模块处理；

解析器根据解析脚本对预清洗好的数据进行解析，抽取其中有用的信息，并将解析内容发给输出管道；若解析器在解析过程中发现新的链接，则将新发现的链接传送给用于管理待下载URL列表的调度器，调度器对URL列表进行去重，并调用下载区下载相应的内容；其中，解析脚本基于xpath进行编写，同时解析器支持Jsoup解析工具；

输出管道对解析器产生的结果进行输出和保存，支持输出到文件和数据库。

基于DFA算法进行网络舆情分析的方法中，所述数据分析具体包括：

先利用数据加载器从原始数据库和文件***加载文本内容，通过SQL语句或文件读取方式获取待分析的内容列表，并根据文件名称、数据标识过滤已处理过的数据；

调用词频分析器，利用DFA算法，结合预设的关键字，对待分析的内容进行词频分析和统计；

将分析和统计结果输出到数据仓库或文件***，并按照不同的主题库进行保存。

基于DFA算法进行网络舆情分析的方法中，所述数据源网站包括各门户网站、论坛、博客、微博和公众号。

与现有的技术相比，本发明主要由数据抓取层、原始数据存储层、数据分析层、分析结果层、控制层和前端展示层组成，数据抓取层用于对待监测的源数据按照预设的规则进行内容抓取，并将抓取内容发送至原始数据存储层；数据分析层用于对原始数据存储层存储的数据按照预设的DFA算法进行数据分析，并将分析结果发送至分析结果层，整个架构清晰、简洁，可根据用户的需求实现有针对性的监控，关键字支持动态配置且识别效率高。

附图说明

图1为本发明的总体架构图；

图2为本发明数据抓取和数据分析流程图；

图3为本发明数据抓取流程图；

图4为本发明数据存储各个表间的关系示意图；

图5为本发明文字模拟状态转换机示意图；

图6为本发明HashMap数据结构示意图。

具体实施方式

下面结合附图对本发明实施中的技术方案进行清楚，完整的描述，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1至图3所示，本发明提供的一种基于DFA算法进行网络舆情分析的方法，包括：

数据抓取：从待监测的数据源网站按照预设的规则进行内容抓取，并将抓取内容保存到原始数据存储层；具体的，先通过定时任务执行调度任务，再通过URL下载网页内容，解析网页内容，获取有效信息，对有效信息进行预处理，并保存到原始数据库(即原始数据存储层)；其中，数据源网站可根据监测要求设置，如各门户网站、论坛、博客、微博和公众号等；

数据分析：针对原始数据，按照设计好的算法进行数据分析，得到预期结果的过程，具体的，对原始数据存储层存储的数据按照预设的DFA算法进行关键词分析，并将分析结果输出到数据仓库或文件***，并按照不同的主题库进行保存；

基于DFA算法进行网络舆情分析的方法中，所述数据抓取和数据分析具体流程如下：

一种基于DFA算法进行网络舆情分析***，包括：

数据抓取层，用于对待监测的源数据按照预设的规则进行内容抓取，并将抓取内容发送至原始数据存储层；其中，源数据包括各门户网站的新闻、论坛讨论帖、博客内容、微博和公众号内容；

数据分析层，用于对原始数据存储层存储的数据按照预设的DFA算法进行数据分析，如统计某一关键词出现的次数、频率和热度分布等，并将分析结果发送至分析结果层；

分析结果层，用于存储接收的分析结果；

基于DFA算法进行网络舆情分析***中，所述源数据包括。

基于DFA算法进行网络舆情分析***中，所述所述数据抓取层通过定时任务执行设计好的脚本对源数据进行下载、预清洗和解析，并将解析后获得的有效数据进行预处理后保存到原始数据存储层；整个所述数据抓取层包括：

基于DFA算法进行网络舆情分析***中，所述数据分析层包括：

预设关键字模块，用于管理和维护需要监测的关键字列表；

定时器，用于定时执行数据分析任务，结合数据量的大小来设定定时任务的执行频率，一般设置为每分钟一次，一次分析10000条数据；

如图4所示，基于DFA算法进行网络舆情分析***中，整个***中数据存储包括原始数据表、舆情敏感词表、敏感数据表和舆情数据表，所述原始数据表用于存储抓取的原始数据，所述舆情敏感词表用于存储舆情敏感词，所述敏感数据表用于存储***自动分析出的敏感数据；所述舆情数据表用于存储舆情数据。

上述词频分析器的实现方式如下：

DFA算法常被用于敏感词识别和过滤，简单且高效，本专利主要借助于此算法的Java实现，对预设关键字的词频和分布进行统计，从而达到舆情监测的目的。

DFA，全称Deterministic Finite Automaton，即确定有穷自动机：从一个状态通过一系列的事件转换到另一个状态，即state->event->state，DFA的流程变化属于现有技术，故在此不做详述。

确定：状态以及引起状态转换的事件都是可确定的，不存在“意外”。

有穷：状态以及事件的数量都是可穷举的。

在Java中实现关键字识别的关键就是DFA算法的实现，例如我们需要监控以下关键字：中国、中国人、中国人民、中国人寿、中华、中华人民和中华文明，需要将关键字转换为如图5所示结构。

构建图5中的文字状态转换机，需要通过Java语言中的HashMap数据结构，具体过程如下：

(1)在HashMap中查询“中”看其是否在hashMap中存在，如果不存在，则说明以“中”开头的敏感词还不存在，则我们需要构建以“中”开头的树，跳至(3)。

(2)如果在HashMap中查找到了，表明存在以“中”开头的关键字，设置hashMap＝hashMap.get("中")，跳至1，依次匹配“国”、“人”等等。

(3)判断该字是否为该词中的最后一个字。若是表示敏感词结束，设置标志位isEnd＝1，否则设置标志位isEnd＝0。

按照以上流程依次构建中国、中国人、中国人民、中国人寿、中华、中华人民和中华文明等关键字，得到如图6所示数据结构：

按照以上数据结构，可以很方便的从原文中检索关键字，例如原文内容如下：

中国，是以华夏文明为源泉、中华文化为基础，并以汉族为主体民族的多民族国家，通用汉语、汉字，汉族与少数民族被统称为“中华民族”，又自称为炎黄子孙、龙的传人。

循环匹配整个原文内容，依次匹配“中”“国”“是”“以”“华”“夏”等等，按以下流程进行处理：

在HashMap中查询是否有此字开头的map，如果存在则得到一个新的map＝hashMap.get(“$当前字$”)，进行第二步；如果不存在，则跳出循环

判断map里的isEnd是否是1，如果不是1则返回第一步，处理当前字后的下一个字，依次循环处理，直到isEnd＝1，则匹配出该关键字，将该关键字的累计出现次数加1。

当循环处理结束后，原始内容里的关键字及其出现次数均被统计了出来，将统计结果保存到数据仓库对应的主题库，用于后续的查询和展示。

综上所述，本发明由数据抓取层、原始数据存储层、数据分析层、分析结果层、控制层和前端展示层之间的配合，利用数据抓取层对待监测的源数据按照预设的规则进行内容抓取，并将抓取内容发送至原始数据存储层；利用数据分析层对原始数据存储层存储的数据按照预设的DFA算法进行数据分析，并将分析结果发送至分析结果层，整个架构清晰、简洁，可根据用户的需求实现有针对性的监控，关键字支持动态配置且识别效率高。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于DFA算法进行网络舆情分析***，其特征在于，包括：

分析结果层，用于存储接收的分析结果；

2.根据权利要求1所述的一种基于DFA算法进行网络舆情分析***，其特征在于，所述源数据包括各门户网站的新闻、论坛讨论帖、博客内容、微博和公众号内容。

3.根据权利要求1所述的一种基于DFA算法进行网络舆情分析***，其特征在于，所述数据抓取层通过定时任务执行设计好的脚本对源数据进行下载、预清洗和解析，并将解析后获得的有效数据进行预处理后保存到原始数据存储层；整个所述数据抓取层包括：

4.根据权利要求1所述的一种基于DFA算法进行网络舆情分析***，其特征在于，所述数据分析层包括：

预设关键字模块，用于管理和维护需要监测的关键字列表；

5.根据权利要求1所述的一种基于DFA算法进行网络舆情分析***，其特征在于，整个***中数据存储包括原始数据表、舆情敏感词表、敏感数据表和舆情数据表，所述原始数据表用于存储抓取的原始数据，所述舆情敏感词表用于存储舆情敏感词，所述敏感数据表用于存储***自动分析出的敏感数据；所述舆情数据表用于存储舆情数据。

6.一种基于DFA算法进行网络舆情分析的方法，其特征在于，所述方法包括：

7.根据权利要求6所述的一种基于DFA算法进行网络舆情分析的方法，其特征在于，所述数据抓取和数据分析具体包括：

8.根据权利要求6所述的一种基于DFA算法进行网络舆情分析的方法，其特征在于，所述数据抓取具体包括：

9.根据权利要求8所述的一种基于DFA算法进行网络舆情分析的方法，其特征在于，所述数据分析具体包括：

10.根据权利要求6所述的一种基于DFA算法进行网络舆情分析的方法，其特征在于，所述数据源网站包括各门户网站、论坛、博客、微博和公众号。