CN112395513A - 一种舆情传播力分析方法 - Google Patents

一种舆情传播力分析方法 Download PDF

Info

Publication number
CN112395513A
CN112395513A CN202011375251.XA CN202011375251A CN112395513A CN 112395513 A CN112395513 A CN 112395513A CN 202011375251 A CN202011375251 A CN 202011375251A CN 112395513 A CN112395513 A CN 112395513A
Authority
CN
China
Prior art keywords
information
analysis
emotion
data
public opinion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011375251.XA
Other languages
English (en)
Inventor
王晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Space Visual Creation Technology Co ltd
Original Assignee
Chongqing Space Visual Creation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Space Visual Creation Technology Co ltd filed Critical Chongqing Space Visual Creation Technology Co ltd
Priority to CN202011375251.XA priority Critical patent/CN112395513A/zh
Publication of CN112395513A publication Critical patent/CN112395513A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于信息分析技术领域,尤其涉及一种舆情传播力分析方法,包括:S1,从指定的信息入口处采集数据信息;S2,对采集的数据信息进行标准化处理;S3,用预设的信息情感模型,对标准化处理后的数据信息进行情感分析,情感分析的结果包括正面属性、中性属性和负面属性;S4,将情感分析的结果存储到数据库中,并对情感分析后的数据结果进行统计;S5,筛选出带有负面属性数据结果,进行传播路径分析和关键传播点分析;S6,展示统计结果以及带有负面属性的分析结果。使用本方法,可以实时、准确、快速的进行网络舆情的监控和分析,并能够快速找到负面属性舆情的传播链和关键传播节点,能及时准确的作出相应措施。

Description

一种舆情传播力分析方法
技术领域
本发明属于信息分析技术领域,尤其涉及一种舆情传播力分析方法。
背景技术
随着网络发展,特别是新媒体技术的高速发展与迭代,全球信息的边界越来越模糊,用户可通过多种渠道了解世界。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论。
新媒体在带来便捷性的同时,也带来了巨大的监管压力。网友通过网络来表达观点,通过转发与转载等方式,可以在非常短的时间内在造成巨大的舆论影响。如果舆论是负面的,有可能会造成负面情绪的蔓延,如果处理不及时,会带来不好的影响。
因此,需要一种舆情传播力分析方法,能够对网络舆情进行实时、准确、快速的监控和分析,让相关人员可了解舆情的实时情况,在需要干预时能及时作出应对。
发明内容
本发明的目的在于,提供一种舆情传播力分析方法,能够对网络舆情进行实时、准确、快速的监控和分析,让相关人员可了解舆情的实时情况,在需要干预时能及时作出应对。
本发明提供的基础方案为:
一种舆情传播力分析方法,包括:
S1,从指定的信息入口处采集数据信息;
S2,对采集的数据信息进行标准化处理;
S3,用预设的信息情感模型,对标准化处理后的数据信息进行情感分析,情感分析的结果包括正面属性、中性属性和负面属性;
S4,将情感分析的结果存储到数据库中,并对情感分析后的数据结果进行统计;
S5,筛选出带有负面属性数据结果,进行传播路径分析和关键传播点分析;
S6,展示统计结果以及带有负面属性的分析结果。
基础方案工作原理及有益效果:
使用本方法,从指定的信息入口采集数据信息,并对采集的信息进行标准化处理后,会用预设的信息情感模型,对标准化处理后的数据信息进行情感分析。之后,对情感分析的结果进行统计,并将带有负面属性数据的结果筛选出来。
当发现带有负面属性的分析结果时,会将这些带有负面属性的数据结果筛选出来,并对其进行路径传播分析和关键传播点分析。
通过路径传播分析,可以对其传播途径进行层层挖掘,了解这些负面属性信息的具体传播过程,便于从源头对其进行处理。通过关键传播点分析,可以了解到关键性的传播节点,即那些拥有大量转发/回复/跟帖的关键用户,便于在对舆情传播进行控制时,找到重点突破对象。
使用本方法,可以实时、准确、快速的进行网络舆情的监控和分析,让相关人员可了解舆情的实时情况。并能够在存在负面舆情时,快速找到其传播链和关键传播节点,在需要干预时能及时准确的作出相应措施。
进一步,S1中,采集数据的步骤包括:
S11,把预设的数据采集的页面作为入口点,爬取起始页面上的信息,并且把爬取内容组成有效的结构化数据;
S12,将用户的UID和当前页面的URL组成新的URL,存入到数据采集列表入口中;
S13,将爬取到的数据存储到本地数据库中。
这样的设置,便于爬取当前页面内容,以及后续的数据更新。
进一步,S2中,标准化处理包括分词、文本分类和聚类。
进一步,S3中,预设的信息情感模型的训练步骤包括:
S311,抓取用于训练的信息内容;
S312,对用于训练的信息进行特征提取;
S313,根据用于训练的信息特征以及机器学习算法模块进行训练并建立信息情感模型。
进一步,S3中,情感分析的步骤包括:
S321,抓取待识别信息内容;
S322,对待识别信息进行特征提取;
S323,根据待识别信息特征用预设的信息情感模型判断信息是属于正面、中性还是负面。
进一步,S312及S322中,特征提取时,使用的技术均包括自然语言分析中的智能分词技术和文本相似技术。
进一步,S1中,采集数据的信息入口包括网站、客户端、微博、头条号和微信公众号。
通过全网多级渠道采集数据信息,能够从多个维度对舆情进行全方位的智能分析,使分析结果更加客观和全面。
进一步,S1中,按照预设的频率进行数据信息采集。
可以根据具体的情况,设置数据信息采集的频率,合理利用***资源。
进一步,S6中,展示的方式为可视化图标展示。
可以更加一目了然的对统计结果进行了解。
附图说明
图1为本发明一种舆情传播力分析方法实施例一的流程图。
具体实施方式
下面通过具体实施方式进一步详细说明:
实施例一
如图1所示,一种舆情传播力分析方法,包括:
S1,按照预设的频率,从指定的信息入口处采集数据信息;具体的,采集数据的信息入口包括网站、客户端、微博、头条号和微信公众号。
具体的,包括:S11,把预设的数据采集的页面作为入口点,爬取起始页面上的信息,并且把爬取内容组成有效的结构化数据;S12,将用户的UID和当前页面的URL组成新的URL,存入到数据采集列表入口中;S13,将爬取到的数据存储到本地数据库中。
S2,对采集的数据信息进行标准化处理;本实施例中,标准化处理包括分词、文本分类和聚类。
S3,用预设的信息情感模型,对标准化处理后的数据信息进行情感分析,情感分析的结果包括正面属性、中性属性和负面属性。
其中,预设的信息情感模型的训练步骤包括:S311,抓取用于训练的信息内容;S312,对用于训练的信息进行特征提取;S313,根据用于训练的信息特征以及机器学习算法模块进行训练并建立信息情感模型。
情感分析的步骤包括:S321,抓取待识别信息内容;S322,对待识别信息进行特征提取;S323,根据待识别信息特征用预设的信息情感模型判断信息是属于正面、中性还是负面。
S312及S322中,特征提取时,使用的技术均包括自然语言分析中的智能分词技术和文本相似技术。
S4,将情感分析的结果存储到数据库中,并对情感分析后的数据结果进行统计;
S5,筛选出带有负面属性数据结果,进行传播路径分析和关键传播点分析;
S6,展示统计结果以及带有负面属性的分析结果。本实施例中,展示的方式为可视化图标展示。
具体实施过程如下:
使用本方法,采集数据的信息入口包括网站、客户端、微博、头条号和微信公众号。通过全网多级渠道采集数据信息,能够从多个维度对舆情进行全方位的智能分析,使分析结果更加客观和全面。
从指定的信息入口采集数据信息,并对采集的信息进行标准化处理后,会用预设的信息情感模型,对标准化处理后的数据信息进行情感分析。之后,对情感分析的结果进行统计,并将带有负面属性数据的结果筛选出来。
当发现带有负面属性的分析结果时,会将这些带有负面属性的数据结果筛选出来,并对其进行路径传播分析和关键传播点分析。
通过路径传播分析,可以对其传播途径进行层层挖掘,了解这些负面属性信息的具体传播过程,便于从源头对其进行处理。通过关键传播点分析,可以了解到关键性的传播节点,即那些拥有大量转发/回复/跟帖的关键用户,便于在对舆情传播进行控制时,找到重点突破对象。
实际使用时,本发明能够对网站、客户端、微博、头条号、微信公众号、等数信息端口全方位采集,不留死角,定向采集+非定向补充采集数据,每天约二十万+数据。分布式集群采集,单个采集器支持200个网站、1000个采集器并行,网站、论坛等最快3分钟轮询一次,微博信息实时推送。数台云服务器,7*24小时无间断采集;自动类聚达1000篇/分钟,1亿篇文章关键词检索响应时间0.03秒。模板和脚本引擎实现元数据抽取;信息抽取准确率达99%以上。自动分析页面层级关系,采集到最深层内容;可采集论坛跟帖、微博评论、网站评论。
使用本方法,可以实时、准确、快速的进行网络舆情的监控和分析,让相关人员可了解舆情的实时情况。并能够在存在负面舆情时,快速找到其传播链和关键传播节点,在需要干预时能及时准确的作出相应措施。
实施例二
由于部分互联网用户在表述自己的观点,尤其是当自己的观点带有负向情绪时,为了显示自己的表达能力和技巧,不会直接说出自己想说的话,而是将自己想表达的内容通过一种隐晦的方式暗藏在表达的内容中,而其表达的内容,从语言上分析完全不存在负向的内容。对于这些内容,采用实施例一中的技术方案,并不能发现发表者真正想表达的东西。而这些用户由于自己的表达方式及技巧,通常都拥有较大的受众群体和影响力。虽然产生了负面的传播效应,但是使用实施例的技术方案却发现不了负面传播的源头。
现在的技术中,虽然有使用如NLP等语言分析技术来进行反讽内容的分析。但是,互联网的语言习惯更新非常快,一个训练好的分析模型,经常用不了多久时间,便已无效,需要重新投入训练。一来效率低下,二来在时效性方面难以保证,很多反讽内容由于未被识别出,难以对其进行及时性的处理。
未解决上述问题,本实施例中,与实施例一不同的是,本实施例中,
还包括:
S11,当采集数据信息包括留言信息时,将数据信息分类为发表信息和留言信息,并进行关联;
S41,将发表信息的情感分析数据,和与其关联的留言信息的情感分析数据进行对比分析,若对比分析结果为发表信息正常但关联的留言信息异常时,将发表内容标记为疑似内涵内容;
S61,展示疑似内涵内容。
具体实施过程如下:
当出现互联网用户为了显示自己的表达能力和技巧,通过隐晦的方式将自己的负向观点暗藏在表达的内容中时,正常的分析方法,只会将这些内容当作正常的内容进行处理,即使采取现有的NLP***来进行反讽分析,时效性上也难以保障。
使用本方法,在采集数据信息包括留言信息时,会将数据信息分类为发表信息和留言信息,并进行关联。之后,会将发表信息的情感分析数据和与其关联的留言信息的情感分析数据进行对比分析,若对比分析结果为发表信息正常但关联的留言信息异常时,将发表内容标记为疑似内涵内容。这样,虽然不能够百分百准确的将带有负面观点的内涵文章识别出来,但是,却已经足够将绝大多数这类文章识别出来并标记。在然后,对这些疑似内涵内容进行展示,由工作人员进行核对识别。
虽然由于互联网用户的跳脱性思维,采用本方法,有时会出现因为正常的调侃评论而将其识别为内涵文章的情况。但是,这类情况只是少数。
除此,当负向观点已经有一定传播时,通过本方法,和现有的其他方法相比,也能够快速的排查、锁定到传播这类内涵文章的关键传播节点。
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims (9)

1.一种舆情传播力分析方法,其特征在于,包括:
S1,从指定的信息入口处采集数据信息;
S2,对采集的数据信息进行标准化处理;
S3,用预设的信息情感模型,对标准化处理后的数据信息进行情感分析,情感分析的结果包括正面属性、中性属性和负面属性;
S4,将情感分析的结果存储到数据库中,并对情感分析后的数据结果进行统计;
S5,筛选出带有负面属性数据结果,进行传播路径分析和关键传播点分析;
S6,展示统计结果以及带有负面属性的分析结果。
2.根据权利要求1所述的舆情传播力分析方法,其特征在于:S1中,采集数据的步骤包括:
S11,把预设的数据采集的页面作为入口点,爬取起始页面上的信息,并且把爬取内容组成有效的结构化数据;
S12,将用户的UID和当前页面的URL组成新的URL,存入到数据采集列表入口中;
S13,将爬取到的数据存储到本地数据库中。
3.根据权利要求2所述的舆情传播力分析方法,其特征在于:S2中,标准化处理包括分词、文本分类和聚类。
4.根据权利要求3所述的舆情传播力分析方法,其特征在于:S3中,预设的信息情感模型的训练步骤包括:
S311,抓取用于训练的信息内容;
S312,对用于训练的信息进行特征提取;
S313,根据用于训练的信息特征以及机器学习算法模块进行训练并建立信息情感模型。
5.根据权利要求4所述的舆情传播力分析方法,其特征在于:S3中,情感分析的步骤包括:
S321,抓取待识别信息内容;
S322,对待识别信息进行特征提取;
S323,根据待识别信息特征用预设的信息情感模型判断信息是属于正面、中性还是负面。
6.根据权利要求5所述的舆情传播力分析方法,其特征在于:S312及S322中,特征提取时,使用的技术均包括自然语言分析中的智能分词技术和文本相似技术。
7.根据权利要求6所述的舆情传播力分析方法,其特征在于:S1中,采集数据的信息入口包括网站、客户端、微博、头条号和微信公众号。
8.根据权利要求7所述的舆情传播力分析方法,其特征在于:S1中,按照预设的频率进行数据信息采集。
9.根据权利要求8所述的舆情传播力分析方法,其特征在于:S6中,展示的方式为可视化图标展示。
CN202011375251.XA 2020-11-30 2020-11-30 一种舆情传播力分析方法 Pending CN112395513A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011375251.XA CN112395513A (zh) 2020-11-30 2020-11-30 一种舆情传播力分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011375251.XA CN112395513A (zh) 2020-11-30 2020-11-30 一种舆情传播力分析方法

Publications (1)

Publication Number Publication Date
CN112395513A true CN112395513A (zh) 2021-02-23

Family

ID=74605697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011375251.XA Pending CN112395513A (zh) 2020-11-30 2020-11-30 一种舆情传播力分析方法

Country Status (1)

Country Link
CN (1) CN112395513A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111269A (zh) * 2021-05-10 2021-07-13 网易(杭州)网络有限公司 数据处理方法、装置、计算机可读存储介质及电子设备
CN114547167A (zh) * 2022-01-27 2022-05-27 启明信息技术股份有限公司 一种汽车舆情情感分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145216A (zh) * 2018-08-29 2019-01-04 中国平安保险(集团)股份有限公司 网络舆情监控方法、装置及存储介质
CN110533212A (zh) * 2019-07-04 2019-12-03 西安理工大学 基于大数据的城市内涝舆情监测预警方法
CN111538888A (zh) * 2020-06-05 2020-08-14 国网山东省电力公司检修公司 基于主动监测引擎和大数据的网络舆情烈度演化分析***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145216A (zh) * 2018-08-29 2019-01-04 中国平安保险(集团)股份有限公司 网络舆情监控方法、装置及存储介质
CN110533212A (zh) * 2019-07-04 2019-12-03 西安理工大学 基于大数据的城市内涝舆情监测预警方法
CN111538888A (zh) * 2020-06-05 2020-08-14 国网山东省电力公司检修公司 基于主动监测引擎和大数据的网络舆情烈度演化分析***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111269A (zh) * 2021-05-10 2021-07-13 网易(杭州)网络有限公司 数据处理方法、装置、计算机可读存储介质及电子设备
CN114547167A (zh) * 2022-01-27 2022-05-27 启明信息技术股份有限公司 一种汽车舆情情感分析方法

Similar Documents

Publication Publication Date Title
WO2014210184A2 (en) Real-time and adaptive data mining
CN107885793A (zh) 一种微博热点话题分析预测方法及***
CN104899324B (zh) 一种基于idc有害信息监测***的样本训练***
CN110533212A (zh) 基于大数据的城市内涝舆情监测预警方法
CN108733791B (zh) 网络事件检测方法
Whitney et al. Don’t want to get caught? don’t say it: The use of emojis in online human sex trafficking ads
CN112395513A (zh) 一种舆情传播力分析方法
Dueñas-Fernández et al. Detecting trends on the web: A multidisciplinary approach
CN111626568A (zh) 知识库构建方法、装置和知识搜索方法、***
Zhang Application of data mining technology in digital library.
Ibrahim et al. Web mining techniques and technologies: A landscape view
CN110717089A (zh) 一种基于网络日志的用户行为分析***及方法
Memon et al. Harvesting covert networks: a case study of the iMiner database
Hu Big data analysis of criminal investigations
KR101665649B1 (ko) 소셜 미디어 데이터 분석 시스템 및 이를 이용한 소셜 미디어 데이터 분석 방법
Yang et al. Public cultural knowledge graph platform
Phillips et al. Extracting social structure from darkweb forums
Jarrett et al. Towards a service-oriented architecture for pre-processing crowd-sourced sentiment from Twitter
Fen et al. Research on internet hot topic detection based on MapReduce architecture
De et al. Research contributions published on betweenness centrality algorithm: modelling to analysis in the context of social networking
Yuan et al. OPO: Online public opinion analysis system over text streams
Chen et al. Research on Network Intelligent Finance Data Mining and Analysis System and Quantitative Model
Konstantinidis et al. Community structure and evolution analysis of osn interactions around real-world social phenomena
Kumar Singh et al. Efficient Management of Community Question Answering Sites using Improved Spectral Clustering.
CN113612765B (zh) 一种网站检测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210223