CN104850549A - 一种网络舆情的监控方法 - Google Patents

一种网络舆情的监控方法 Download PDF

Info

Publication number
CN104850549A
CN104850549A CN201410050402.2A CN201410050402A CN104850549A CN 104850549 A CN104850549 A CN 104850549A CN 201410050402 A CN201410050402 A CN 201410050402A CN 104850549 A CN104850549 A CN 104850549A
Authority
CN
China
Prior art keywords
opinion
link
supervising
network public
public
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410050402.2A
Other languages
English (en)
Inventor
屠巍瀚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XIYI DIGITAL TECHNOLOGY (SHANGHAI) Co Ltd
Original Assignee
XIYI DIGITAL TECHNOLOGY (SHANGHAI) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XIYI DIGITAL TECHNOLOGY (SHANGHAI) Co Ltd filed Critical XIYI DIGITAL TECHNOLOGY (SHANGHAI) Co Ltd
Priority to CN201410050402.2A priority Critical patent/CN104850549A/zh
Publication of CN104850549A publication Critical patent/CN104850549A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种网络舆情的监控方法,所述网络舆情的监控方法包括以下步骤:S1、生成采集脚本,并根据所述采集脚本对网页页面文本源代码进行分析并进行链接抓取;S2、在抓取完链接后把获得的链接存入链接池,对所述链接池进行行进行出式的处理;S3、定期通过采集集群对链接池中的数据进行数据采集并将采集到的数据存入数据库中的页面快照;S4、搜索服务器根据用户需求的关键词对存储的页面快照进行并发式定期搜索获得搜索结果;根据搜索结果完成网络舆情的监控。本发明提供的网络舆情的监控方法,可以获知舆情事件最开始的节点在哪里,哪个地方的传播是转折点,传播的路径等,形成一套完整的舆情监控和追溯***。

Description

一种网络舆情的监控方法
技术领域
本发明涉及网络舆情监控领域,尤其涉及一种网络舆情的监控方法。
背景技术
随着网络大力普及,人们越来越习惯在网络表达自己的观点,并且由于网络的庞大性和隐匿性,导致观点的表达更加真实、大胆,网络舆情逐渐引起人们的广泛关注。网络舆情具有一定地域特点,网络的热点话题也是社会中的热点话题,寻找网络舆情和社会舆情的联系,将舆情在网络上的传播和其在地理位置上的传播联系起来,是网络舆情的一个研究趋势。
但目前在舆情监控应用领域中,存在数据来源的局限性;当前舆情监控***大多局限在某种或者某类特定的网络形态,导致舆情监控不够全面;并且现有技术仅停留在web2.0时代,无法从大量社交工具中获取信息源,无法获得舆情事件最开始的节点在哪里,哪个地方的传播是转折点,传播的路径等。
发明内容
本发明针对现有技术中,目前在舆情监控应用领域中,存在数据来源的局限性;当前舆情监控***大多局限在某种或者某类特定的网络形态,导致舆情监控不够全面;并且现有技术仅停留在web2.0时代,无法从大量社交工具中获取信息源,无法获得舆情事件最开始的节点在哪里,哪个地方的传播是转折点,传播的路径等缺陷,提供了一种网络舆情的监控方法。
本发明就上述技术问题提供的技术方案如下:
本发明提供了一种网络舆情的监控方法,所述网络舆情的监控方法包括以下步骤:
S1、生成采集脚本,并根据所述采集脚本对网页页面文本源代码进行分析并进行链接抓取;
S2、在抓取完链接后把获得的链接存入链接池,对所述链接池进行行进行出式的处理;
S3、定期通过采集集群对链接池中的数据进行数据采集并将采集到的数据存入数据库中的页面快照;
S4、搜索服务器根据用户需求的关键词对存储的页面快照进行并发式定期搜索获得搜索结果;根据搜索结果完成网络舆情的监控。
在本发明所述的网络舆情的监控方法中,所述步骤S1中所述采集脚本包括针对各大资讯网站、微博、论坛的php采集脚本,或全局性的适应各种类型页面的php采集脚本。
在本发明所述的网络舆情的监控方法中,所述步骤S3中所述采集集群分布在不同的linux服务器上,每台linux服务器上分别运行多个不相同的php采集进程,以对链接池中的数据进行数据采集。
在本发明所述的网络舆情的监控方法中,所述步骤S3包括:
采集集群对页面源代码进行图片与链接地址的转换然并提出关键字,并将所述关键字存入数据库中,并在指定的时间更新页面的数据。
根据权利要求4所述的网络舆情的监控方法,其特征在于,所述搜索服务器为Sphinx搜索服务器。
在本发明所述的网络舆情的监控方法中,所述步骤S4中根据搜索结果完成网络舆情的监控包括,对检索到包含了用户需求的关键词的内容根据预定规则进行存档,或即时通过短信、邮件等方式发送至客户。
在本发明所述的网络舆情的监控方法中,所述对检索到包含了用户需求的关键词的内容根据预定规则进行存档包括对检索到包含了用户需求的关键词的内容根据时间先后顺序或内容的传播路径进行存档。
本发明提供的网络舆情的监控方法,克服了目前在舆情监控应用领域中,存在数据来源的局限性;当前舆情监控***大多局限在某种或者某类特定的网络形态,导致舆情监控不够全面;并且现有技术仅停留在web2.0时代,无法从大量社交工具中获取信息源,无法获得舆情事件最开始的节点在哪里,哪个地方的传播是转折点,传播的路径的缺陷,可以获知舆情事件最开始的节点在哪里,哪个地方的传播是转折点,传播的路径等,形成一套完整的舆情监控和追溯***,特定的政府部门可以通过本网络舆情的监控方法净化互联网信息,营造一个健康绿色良好的上网环境;另外可以及时发现指定网络热点,从中挖掘潜在商业价值,便于商业利用。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明实施例的网络舆情的监控方法的流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图和具体实施例对本发明作更为详细的说明。
本发明针对目前在舆情监控应用领域中,存在数据来源的局限性;当前舆情监控***大多局限在某种或者某类特定的网络形态,导致舆情监控不够全面;并且现有技术仅停留在web2.0时代,无法从大量社交工具中获取信息源,无法获得舆情事件最开始的节点在哪里,哪个地方的传播是转折点,传播的路径的缺陷,公开了一种网络舆情的监控方法。
如图1所示,本发明实施例的网络舆情的监控方法的流程图。在本发明实施例提供的一种网络舆情的监控方法,舆情是指将在互联网上各种信息发布平台上的布信息通php脚本采集到并存入mysql数据库并进行即时的信息分析,然后通过关键字检索引擎Sphinx进行舆情的即时通知。所述网络舆情的监控方法包括以下步骤:
S1、生成采集脚本,并根据所述采集脚本对网页页面文本源代码进行分析并进行链接抓取;
S2、在抓取完链接后把获得的链接存入链接池,对所述链接池进行行进行出式的处理;
S3、定期通过采集集群对链接池中的数据进行数据采集并将采集到的数据存入数据库中的页面快照;
S4、搜索服务器根据用户需求的关键词对存储的页面快照进行并发式定期搜索获得搜索结果;根据搜索结果完成网络舆情的监控。
优选地,本发明实施例提供的网络舆情的监控方法中,所述步骤S1中所述采集脚本包括针对各大资讯网站、微博、论坛的php采集脚本,或全局性的适应各种类型页面的php采集脚本。
优选地,本发明实施例提供的网络舆情的监控方法中,所述步骤S3中所述采集集群分布在不同的linux服务器上,每台linux服务器上分别运行多个不相同的php采集进程,以对链接池中的数据进行数据采集。
优选地,本发明实施例提供的网络舆情的监控方法中,所述步骤S3包括:
采集集群对页面源代码进行图片与链接地址的转换然并提出关键字,并将所述关键字存入数据库中,并在指定的时间更新页面的数据。
优选地,本发明实施例提供的网络舆情的监控方法中,所述搜索服务器为Sphinx搜索服务器。
优选地,本发明实施例提供的网络舆情的监控方法中,所述步骤S4中根据搜索结果完成网络舆情的监控包括,对检索到包含了用户需求的关键词的内容根据预定规则进行存档,或即时通过短信、邮件等方式发送至客户。
优选地,本发明实施例提供的网络舆情的监控方法中,所述对检索到包含了用户需求的关键词的内容根据预定规则进行存档包括对检索到包含了用户需求的关键词的内容根据时间先后顺序或内容的传播路径进行存档。
以下通过一个更为具体的实施例来解释本发明的原理:
首先针对对各大资讯网站,微博,论坛编写指定php采集脚本,或编全局性的适应比较大众页面的php采集脚本,此脚本通过页面源代文本分析进行链接抓取,抓取完链接后把链接存入链接池,此链接池为redis队列以行进行出的方式进行消耗。然后由采集集群,这个集群分布在不同的linux机器,每台linux机器上分别运行不相同的php采集进程,每个进行获取链接池中的数据进行数据采集并存入页面快照,页面是通过把页面源代码进行图片与链接地址的转换然后把页面存在本地,并提取关键字存入mysql库中。采集群只是负责采集单页面,存快照并提出关键字,并在提定日期更新单页面的数据,采集链接脚本需要一个采集并更新当站的最新数据,需要不停的采,对一个更新度不高的网站可以进行1小时一更新,更新度高的网站需要进行1分钟更一次。以上是将数据采集到***中,***需要进行监控,需要搭建一个Sphinx搜索服务器,对数据进行查询,搜索服务需要比较强大的可以支持大数据并支持一定量的高并发。我们提供定制监控***,此***是同linux,nginx,php,mysql根据业务开发的一个***,由客户提供关键字然后由***进行即时的搜索,这个搜过可以根据客户需求进行秒及查询和分种级查询,这是由客户通过管理工具设定的,然后由***完成,当有搜到相关关键字的内容时可以根据规则进行存档,或着即时通过短信,邮件等方式发送直客户。同样的当客户需要些事之后,客户可以看到此事件最开始的节点在哪里,哪个地方的传播是转折点,传播的路径等,形成一套完整的舆情监控和追溯***。解决了从庞大的互联网中搜集全面的信息源的问题和如何从分析中追溯舆情源的问题。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (7)

1.一种网络舆情的监控方法,其特征在于,所述网络舆情的监控方法包括以下步骤:
S1、生成采集脚本,并根据所述采集脚本对网页页面文本源代码进行分析并进行链接抓取;
S2、在抓取完链接后把获得的链接存入链接池,对所述链接池进行行进行出式的处理;
S3、定期通过采集集群对链接池中的数据进行数据采集并将采集到的数据存入数据库中的页面快照;
S4、搜索服务器根据用户需求的关键词对存储的页面快照进行并发式定期搜索获得搜索结果;根据搜索结果完成网络舆情的监控。
2.根据权利要求1所述的网络舆情的监控方法,其特征在于,所述步骤S1中所述采集脚本包括针对各大资讯网站、微博、论坛的php采集脚本,或全局性的适应各种类型页面的php采集脚本。
3.根据权利要求1所述的网络舆情的监控方法,其特征在于,所述步骤S3中所述采集集群分布在不同的linux服务器上,每台linux服务器上分别运行多个不相同的php采集进程,以对链接池中的数据进行数据采集。
4.根据权利要求3所述的网络舆情的监控方法,其特征在于,所述步骤S3包括:
采集集群对页面源代码进行图片与链接地址的转换并提出关键字,并将所述关键字存入数据库中,并在指定的时间更新页面的数据。
5.根据权利要求4所述的网络舆情的监控方法,其特征在于,所述搜索服务器为Sphinx搜索服务器。
6.根据权利要求1所述的网络舆情的监控方法,其特征在于,所述步骤S4中根据搜索结果完成网络舆情的监控包括,对检索到包含了用户需求的关键词的内容根据预定规则进行存档,或即时通过短信、邮件等方式发送至客户。
7.根据权利要求6所述的网络舆情的监控方法,其特征在于,所述对检索到包含了用户需求的关键词的内容根据预定规则进行存档包括对检索到包含了用户需求的关键词的内容根据时间先后顺序或内容的传播路径进行存档。
CN201410050402.2A 2014-02-13 2014-02-13 一种网络舆情的监控方法 Pending CN104850549A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410050402.2A CN104850549A (zh) 2014-02-13 2014-02-13 一种网络舆情的监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410050402.2A CN104850549A (zh) 2014-02-13 2014-02-13 一种网络舆情的监控方法

Publications (1)

Publication Number Publication Date
CN104850549A true CN104850549A (zh) 2015-08-19

Family

ID=53850197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410050402.2A Pending CN104850549A (zh) 2014-02-13 2014-02-13 一种网络舆情的监控方法

Country Status (1)

Country Link
CN (1) CN104850549A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574191A (zh) * 2015-12-26 2016-05-11 中国人民解放军信息工程大学 在线社会网络多源点信息溯源***及其方法
CN106302407A (zh) * 2016-08-02 2017-01-04 四川秘无痕信息安全技术有限责任公司 一种监控微信朋友圈发送数据的方法
CN107944019A (zh) * 2017-12-11 2018-04-20 中广在线(北京)文化传媒有限公司 一种基于爬虫技术的境外舆情监测装置、***及方法
CN108268662A (zh) * 2018-02-09 2018-07-10 平安科技(深圳)有限公司 基于h5页面的社交图谱生成方法、电子装置及存储介质
CN109902454A (zh) * 2019-03-15 2019-06-18 北京邮电大学 应用敏感信息提取方法、装置、设备及可读存储介质
CN110162673A (zh) * 2019-05-27 2019-08-23 上海吉江数据技术有限公司 信息变动监控***、方法及装置
CN110413681A (zh) * 2019-08-01 2019-11-05 上海胜泰信息技术有限公司 一款Web端基于大数据技术的可视化数据处理方法
CN112395539A (zh) * 2020-11-26 2021-02-23 格美安(北京)信息技术有限公司 一种基于自然语言处理的舆情风险监测方法及***
CN113434751A (zh) * 2021-07-14 2021-09-24 国际关系学院 一种网络热点人工智能预警***及方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574191A (zh) * 2015-12-26 2016-05-11 中国人民解放军信息工程大学 在线社会网络多源点信息溯源***及其方法
CN105574191B (zh) * 2015-12-26 2018-10-23 中国人民解放军信息工程大学 在线社会网络多源点信息溯源***及其方法
CN106302407B (zh) * 2016-08-02 2019-05-17 四川秘无痕信息安全技术有限责任公司 一种监控微信朋友圈发送数据的方法
CN106302407A (zh) * 2016-08-02 2017-01-04 四川秘无痕信息安全技术有限责任公司 一种监控微信朋友圈发送数据的方法
CN107944019A (zh) * 2017-12-11 2018-04-20 中广在线(北京)文化传媒有限公司 一种基于爬虫技术的境外舆情监测装置、***及方法
CN108268662B (zh) * 2018-02-09 2020-11-10 平安科技(深圳)有限公司 基于h5页面的社交图谱生成方法、电子装置及存储介质
CN108268662A (zh) * 2018-02-09 2018-07-10 平安科技(深圳)有限公司 基于h5页面的社交图谱生成方法、电子装置及存储介质
CN109902454A (zh) * 2019-03-15 2019-06-18 北京邮电大学 应用敏感信息提取方法、装置、设备及可读存储介质
CN110162673A (zh) * 2019-05-27 2019-08-23 上海吉江数据技术有限公司 信息变动监控***、方法及装置
CN110413681A (zh) * 2019-08-01 2019-11-05 上海胜泰信息技术有限公司 一款Web端基于大数据技术的可视化数据处理方法
CN112395539A (zh) * 2020-11-26 2021-02-23 格美安(北京)信息技术有限公司 一种基于自然语言处理的舆情风险监测方法及***
CN112395539B (zh) * 2020-11-26 2021-12-17 格美安(北京)信息技术有限公司 一种基于自然语言处理的舆情风险监测方法及***
CN113434751A (zh) * 2021-07-14 2021-09-24 国际关系学院 一种网络热点人工智能预警***及方法
CN113434751B (zh) * 2021-07-14 2023-06-02 国际关系学院 一种网络热点人工智能预警***及方法

Similar Documents

Publication Publication Date Title
CN104850549A (zh) 一种网络舆情的监控方法
US8626835B1 (en) Social identity clustering
JP6494777B2 (ja) 端末にプッシュされるデータコンテンツを選択するための方法およびデバイス
O'Kelly et al. Identifying conservation successes, failures and future opportunities; assessing recovery potential of wild ungulates and tigers in eastern Cambodia
Bordin et al. Dspbench: A suite of benchmark applications for distributed data stream processing systems
CN107800591B (zh) 一种统一日志数据的分析方法
CN104182506A (zh) 日志管理方法
US20140143655A1 (en) Method for adjusting content of a webpage in real time based on users online behavior and profile
CN103297503B (zh) 基于分层次信息提取服务器的移动终端群智感知***
CN101583964A (zh) 广告数据的大规模聚集和报告
WO2015020922A1 (en) Dynamic collection analysis and reporting of telemetry data
CN106951557B (zh) 日志关联方法、装置和应用其的计算机***
Nithya et al. Novel pre-processing technique for web log mining by removing global noise and web robots
CN104572976B (zh) 网站数据更新方法和***
CN104133878A (zh) 用户标签的生成方法和装置
CN102446225A (zh) 一种实时搜索的方法、装置和***
CN103023714A (zh) 基于网络话题的活跃度与集群结构分析***及方法
CN104252532A (zh) 一种统计网站信息的方法及装置
CN106407429A (zh) 文件追踪方法、装置及***
CN102811207A (zh) 网络信息推送方法及***
CN105518644A (zh) 在地图上实时处理并显示社交数据的方法
CN103902667A (zh) 一种基于元搜索的网络信息采集器简单实现方法
Rao et al. An optimal machine learning model based on selective reinforced Markov decision to predict web browsing patterns
CN107704620A (zh) 一种档案管理的方法、装置、设备和存储介质
US20160188676A1 (en) Collaboration system for network management

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150819