CN111859065A - 一种基于大数据的舆情聆听*** - Google Patents

一种基于大数据的舆情聆听*** Download PDF

Info

Publication number
CN111859065A
CN111859065A CN202010452790.2A CN202010452790A CN111859065A CN 111859065 A CN111859065 A CN 111859065A CN 202010452790 A CN202010452790 A CN 202010452790A CN 111859065 A CN111859065 A CN 111859065A
Authority
CN
China
Prior art keywords
information
website
websites
public opinion
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010452790.2A
Other languages
English (en)
Inventor
张�林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Yuying Information Technology Co ltd
Original Assignee
Anhui Yuying Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Yuying Information Technology Co ltd filed Critical Anhui Yuying Information Technology Co ltd
Priority to CN202010452790.2A priority Critical patent/CN111859065A/zh
Publication of CN111859065A publication Critical patent/CN111859065A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的舆情聆听***,涉及互联网信息处理技术领域,为解决现有舆情聆听***对于数据采集方面不够全面,通常只涉猎到一些常用网址,且信息采集较杂,对于采集信息无初步处理,导致数据库负担较大的问题。所述***内置网点与采集模块相连,所述采集模块与分析聆听模块相连,所述采集模块和分析聆听模块均基于智能网络爬虫***运行,所述***内置网点包括微博、博客、社区论坛网址、信息资讯网址、政府机构网址、新闻资讯网址、媒体网站、视频网站、搜索引擎以及社交网站。

Description

一种基于大数据的舆情聆听***
技术领域
本发明涉及互联网信息处理技术领域,具体为一种基于大数据的舆情聆听***。
背景技术
从传统的社会学理论上讲,舆情本身是民意理论中的一个概念,它是民意的一种综合反映。从现代舆情理论的严格意义上讲,舆情本身并不是对民意规律的简单概括,而是对“民意及其作用于执政者及其政治取向规律”的一种描述。在实际工作中,舆情信息员对舆情概念的理解,必须把握四层义:1.舆情是民意集合的反映。换句话说,民意是形成舆情的始源,没有民意,就没有舆情;2.舆情所要反映的民意,是那些对执政者决策行为能够产生影响的“民意”,而非民意的全部;3.舆情因变事项是舆情产生的基础,研究、分析舆情,首先要深入研究、分析舆情因变事项的发生、发展和变化的规律;4.舆情空间对舆情传播及其对执政者决策行为的影响有重要作用。这里特别强调的是,舆情定义中的“民众社会政治态度”,是指民众对执政者及其所持有的政治取向的看法、意见和态度。民众的这种社会政治态度说到底是对自身利益需求的一种诉求和表达,它不仅包括民众对国家政治的看法、意见和态度,对社会政治的看法、意见和态度,同时还包括民众对社会事物的看法、意见和态度。
但是,现有舆情聆听***对于数据采集方面不够全面,通常只涉猎到一些常用网址,且信息采集较杂,对于采集信息无初步处理,导致数据库负担较大;因此,不满足现有的需求,对此我们提出了一种基于大数据的舆情聆听***。
发明内容
本发明的目的在于提供一种基于大数据的舆情聆听***,以解决上述背景技术中提出的现有舆情聆听***对于数据采集方面不够全面,通常只涉猎到一些常用网址,且信息采集较杂,对于采集信息无初步处理,导致数据库负担较大的问题。
为实现上述目的,本发明提供如下技术方案:一种基于大数据的舆情聆听***,包括***内置网点,***内置网点与采集模块相连,采集模块与分析聆听模块相连,采集模块和分析聆听模块均基于智能网络爬虫***运行。
优选的,***内置网点包括微博、博客、社区论坛网址、信息资讯网址、政府机构网址、新闻资讯网址、媒体网站、视频网站、搜索引擎以及社交网站。
优选的,微博包括新浪微博、腾讯微博、网易微博、搜狐微博等,博客包括新浪博客、腾讯博客、网易博客、博客网等,社区论坛网址包括天涯论坛、新浪论坛、网易论坛、搜狐社区等,信息资讯网址包括行业资讯网、地方信息网等,政府机构网址包括中国政府网、首都之窗等,新闻资讯网址包括网易、人民网、新浪网等,媒体网站包括***,中国日报等,视频网站包括Youtube、优酷、腾讯视频、爱奇艺、Bilibili等,搜索引擎包括谷歌、百度、搜狗等,社交网站包括FaceBook、豆瓣、QQ、微信等。
优选的,采集模块包括智能提取、关键词检索、全文索引、智能去重和分类存储。
优选的,智能提取包括标题、文章正文、作者、日期、来源提取。
优选的,智能去重包括URL去重、标题去重和正文去重。
优选的,分析聆听模块包括智能初步分析、人工二次分析和上传至信息载体三部分。
优选的,智能初步分析的信息包括网址,点击数,回复数,转发数等。
与现有技术相比,本发明的有益效果是:
1、本发明通过在该***内设置内置网点,***内置网点包括微博、博客、社区论坛网址、信息资讯网址、政府机构网址、新闻资讯网址、媒体网站、视频网站、搜索引擎以及社交网站,其中,微博为新浪微博、腾讯微博、网易微博、搜狐微博等,博客为新浪博客、腾讯博客、网易博客、博客网等,社区论坛网址为天涯论坛、新浪论坛、网易论坛、搜狐社区等,信息资讯网址为行业资讯网、地方信息网等,政府机构网址为中国政府网、首都之窗等,新闻资讯网址为网易、人民网、新浪网等,媒体网站为***,中国日报等,视频网站为Youtube、优酷、腾讯视频、爱奇艺、Bilibili等,搜索引擎为谷歌、百度、搜狗等,社交网站为FaceBook、豆瓣、QQ、微信等,涉猎范围广,可从各个方面进行舆情信息的采集,数据较为全面。
2、通过采用智能提取,采集模块在提取舆情数据时,仅截取标题、文章正文、作者、日期和来源信息,过滤掉广告等无用的垃圾信息,有效减少了数据库负担。
3、通过采用智能去重,智能去重包括URL去重、标题去重和正文去重,通过三种方式,有效去除重复或相似内容,进一步减小数据库负担,且方便后续的查询以及检索。
4、通过采用智能初步分析,智能初步分析信息包括网址,点击数,回复数,转发数等,经由以上数据,可判断该舆论的重要度,并且仅将重要度较高的舆情转移至人工二次分析阶段,降低工作人员的工作负担,提高了舆情分析效率
5、通过采用人工二次分析,在***初步分析的基础上,经由舆情分析人员进行数据信息的二次加工处理,从而得出更加准确、合理的分析信息。
附图说明
图1为本发明的整体结构示意图;
图2为本发明的***内置网点结构示意图;
图3为本发明的采集模块结构示意图;
图4为本发明的分析聆听模块结构示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
请参阅图1-4,本发明提供的一种实施例:一种基于大数据的舆情聆听***,包括***内置网点,***内置网点与采集模块相连,采集模块能够对***内置网点的信息进行采集,并进行智能提取、关键词检索、全文索引、智能去重和分类存储等操作,采集模块与分析聆听模块相连,分析聆听模块能够对采集模块收集到的舆情信息,进行智能初步分析、人工二次分析和上传至信息载体,采集模块和分析聆听模块均基于智能网络爬虫***运行,智能网络爬虫***可以实现舆情数据的高质量以及快速的抓取。
进一步,***内置网点包括微博、博客、社区论坛网址、信息资讯网址、政府机构网址、新闻资讯网址、媒体网站、视频网站、搜索引擎以及社交网站,内置多网点,可从各个方面进行舆情信息的采集,数据较为全面。
进一步,微博包括新浪微博、腾讯微博、网易微博、搜狐微博等,博客包括新浪博客、腾讯博客、网易博客、博客网等,社区论坛网址包括天涯论坛、新浪论坛、网易论坛、搜狐社区等,信息资讯网址包括行业资讯网、地方信息网等,政府机构网址包括中国政府网、首都之窗等,新闻资讯网址包括网易、人民网、新浪网等,媒体网站包括***,中国日报等,视频网站包括Youtube、优酷、腾讯视频、爱奇艺、Bilibili等,搜索引擎包括谷歌、百度、搜狗等,社交网站包括FaceBook、豆瓣、QQ、微信等。
进一步,采集模块包括智能提取、关键词检索、全文索引、智能去重和分类存储,智能提取能够提取文章中的重要信息,经由关键词检索查找出文章中出现频率较高的关键词,由全文索引查找每个词条的出现频率,以此为基准建立一个以词库为目录的索引,智能去除重复以及相似的内容,并通过关键词以及词库的匹配进行分类存储。
进一步,智能提取包括标题、文章正文、作者、日期、来源提取,仅对关键内容进行提取,过滤掉广告等无用的垃圾信息,有效减少数据库负担。
进一步,智能去重包括URL去重、标题去重和正文去重,通过三种方式,有效去除重复或相似内容,进一步减小数据库负担,且方便查询以及检索。
进一步,分析聆听模块包括智能初步分析、人工二次分析和上传至信息载体三部分,***经由该舆情所在的网址,点击数,回复数,转发数等进行初步分析,在此基础上,经由舆情分析人员进行数据信息的二次加工处理,从而得出较为准确、合理的分析信息,并通过微博等信息载体将分析内容进行展示,方便查看。
进一步,智能初步分析的信息包括网址,点击数,回复数,转发数等,经由以上数据,可判断该舆论的重要度,仅将重要度较高的舆情转移至人工二次分析阶段,降低工作人员的工作负担,提高了舆情分析效率。
工作原理:使用时,该***基于智能网络爬虫***运行,首先由采集模块对***内置网点进行舆情信息的采集,***内置网点包括微博、博客、社区论坛网址、信息资讯网址、政府机构网址、新闻资讯网址、媒体网站、视频网站、搜索引擎以及社交网站,其中,微博为新浪微博、腾讯微博、网易微博、搜狐微博等,博客为新浪博客、腾讯博客、网易博客、博客网等,社区论坛网址为天涯论坛、新浪论坛、网易论坛、搜狐社区等,信息资讯网址为行业资讯网、地方信息网等,政府机构网址为中国政府网、首都之窗等,新闻资讯网址为网易、人民网、新浪网等,媒体网站为***,中国日报等,视频网站为Youtube、优酷、腾讯视频、爱奇艺、Bilibili等,搜索引擎为谷歌、百度、搜狗等,社交网站为FaceBook、豆瓣、QQ、微信等,内置网点涉猎范围广,可从各个方面进行舆情信息的采集,数据较为全面,信息的采集过程为智能提取,仅提取标题、文章正文、作者、日期以及来源,过滤掉广告等无用的垃圾信息,有效减少数据库负担,再经由关键词检索查找出文章中出现频率较高的关键词,由全文索引查找每个词条的出现频率,以此为基准建立一个以词库为目录的索引,依靠URL去重、标题去重和正文去重三种方式智能去除重复以及相似的内容,并通过关键词以及词库的匹配进行分类存储,存储后的信息经由该舆情所在的网址,点击数,回复数,转发数等进行初步的***分析,在此基础上,经由舆情分析人员进行数据信息的二次加工处理,从而得出较为准确、合理的分析信息,并通过微博等信息载体上将分析内容进行展示,方便用户查看。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (8)

1.一种基于大数据的舆情聆听***,包括***内置网点,其特征在于:所述***内置网点与采集模块相连,所述采集模块与分析聆听模块相连,所述采集模块和分析聆听模块均基于智能网络爬虫***运行。
2.根据权利要求1所述的一种基于大数据的舆情聆听***,其特征在于:所述***内置网点包括微博、博客、社区论坛网址、信息资讯网址、政府机构网址、新闻资讯网址、媒体网站、视频网站、搜索引擎以及社交网站。
3.根据权利要求2所述的一种基于大数据的舆情聆听***,其特征在于:所述微博包括新浪微博、腾讯微博、网易微博、搜狐微博等,所述博客包括新浪博客、腾讯博客、网易博客、博客网等,所述社区论坛网址包括天涯论坛、新浪论坛、网易论坛、搜狐社区等,所述信息资讯网址包括行业资讯网、地方信息网等,所述政府机构网址包括中国政府网、首都之窗等,所述新闻资讯网址包括网易、人民网、新浪网等,所述媒体网站包括***,中国日报等,所述视频网站包括Youtube、优酷、腾讯视频、爱奇艺、Bilibili等,所述搜索引擎包括谷歌、百度、搜狗等,所述社交网站包括FaceBook、豆瓣、QQ、微信等。
4.根据权利要求1所述的一种基于大数据的舆情聆听***,其特征在于:所述采集模块包括智能提取、关键词检索、全文索引、智能去重和分类存储。
5.根据权利要求4所述的一种基于大数据的舆情聆听***,其特征在于:所述智能提取包括标题、文章正文、作者、日期、来源提取。
6.根据权利要求4所述的一种基于大数据的舆情聆听***,其特征在于:所述智能去重包括URL去重、标题去重和正文去重。
7.根据权利要求1所述的一种基于大数据的舆情聆听***,其特征在于:所述分析聆听模块包括智能初步分析、人工二次分析和上传至信息载体三部分。
8.根据权利要求7所述的一种基于大数据的舆情聆听***,其特征在于:智能初步分析的信息包括网址,点击数,回复数,转发数等。
CN202010452790.2A 2020-05-26 2020-05-26 一种基于大数据的舆情聆听*** Withdrawn CN111859065A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010452790.2A CN111859065A (zh) 2020-05-26 2020-05-26 一种基于大数据的舆情聆听***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010452790.2A CN111859065A (zh) 2020-05-26 2020-05-26 一种基于大数据的舆情聆听***

Publications (1)

Publication Number Publication Date
CN111859065A true CN111859065A (zh) 2020-10-30

Family

ID=72985670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010452790.2A Withdrawn CN111859065A (zh) 2020-05-26 2020-05-26 一种基于大数据的舆情聆听***

Country Status (1)

Country Link
CN (1) CN111859065A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381317A (zh) * 2020-11-26 2021-02-19 方是哲如管理咨询有限公司 一种组织行为分析和结果预测大数据平台
CN112650947A (zh) * 2020-12-31 2021-04-13 安徽不如信息科技有限公司 一种便于携带的舆情收集处理***
CN113158066A (zh) * 2021-05-11 2021-07-23 两比特(北京)科技有限公司 一种云合数据影视剧播放效果分析***
CN116701729A (zh) * 2023-08-01 2023-09-05 贵州融云信息技术有限公司 一种网络舆情检测***及检测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381317A (zh) * 2020-11-26 2021-02-19 方是哲如管理咨询有限公司 一种组织行为分析和结果预测大数据平台
CN112650947A (zh) * 2020-12-31 2021-04-13 安徽不如信息科技有限公司 一种便于携带的舆情收集处理***
CN113158066A (zh) * 2021-05-11 2021-07-23 两比特(北京)科技有限公司 一种云合数据影视剧播放效果分析***
CN116701729A (zh) * 2023-08-01 2023-09-05 贵州融云信息技术有限公司 一种网络舆情检测***及检测方法
CN116701729B (zh) * 2023-08-01 2023-10-31 贵州融云信息技术有限公司 一种网络舆情检测***及检测方法

Similar Documents

Publication Publication Date Title
CN111859065A (zh) 一种基于大数据的舆情聆听***
CN102708096B (zh) 一种基于语义的网络智能舆情监测***及其工作方法
CN109783815B (zh) 一种多维度网络舆情大数据对比分析方法
CN103617174A (zh) 一种基于云计算的分布式搜索方法
CN101201838A (zh) 利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法
CN103678412A (zh) 一种文档检索的方法及装置
US20070271228A1 (en) Documentary search procedure in a distributed system
CN107918644A (zh) 声誉管理框架内的新闻议题分析方法和实施***
Gupta et al. A review on search engine optimization: Basics
Nikhil et al. A survey on text mining and sentiment analysis for unstructured web data
CN104615627A (zh) 一种基于微博平台的事件舆情信息提取方法及***
CN103559258A (zh) 基于云计算的网页排序方法
CN111783456A (zh) 一种利用语义分析技术的舆情分析方法
Poonkuzhali et al. Signed approach for mining web content outliers
Ahamed et al. An Efficient Mechanism for Deep Web Data Extraction Based on Tree‐Structured Web Pattern Matching
CN104217026A (zh) 一种基于图模型的中文微博客倾向性检索方法
CN113015172A (zh) 一种基于大数据的舆情聆听***
Wang et al. A government policy analysis platform based on knowledge graph
Jin et al. Tise: A temporal search engine for web contents
Luo et al. Structuring T weets for improving T witter search
CN102214179A (zh) 网络信息抓取方法
CN112528196B (zh) 一种互联网舆情热度指数实时生成自动监测***及方法
Yu et al. Friend recommendation mechanism for social media based on content matching
Yuan et al. OPO: Online public opinion analysis system over text streams
Fen et al. Research on internet hot topic detection based on MapReduce architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201030