CN109145215B - 网络舆情分析方法、装置及存储介质 - Google Patents

网络舆情分析方法、装置及存储介质 Download PDF

Info

Publication number
CN109145215B
CN109145215B CN201810997205.XA CN201810997205A CN109145215B CN 109145215 B CN109145215 B CN 109145215B CN 201810997205 A CN201810997205 A CN 201810997205A CN 109145215 B CN109145215 B CN 109145215B
Authority
CN
China
Prior art keywords
public opinion
articles
target
emotion
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810997205.XA
Other languages
English (en)
Other versions
CN109145215A (zh
Inventor
苑利慧
盛瑞生
高巍华
张兆轶
陆柏含
李温键
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Insurance (group) Co Of China Ltd
Original Assignee
Ping An Insurance (group) Co Of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Insurance (group) Co Of China Ltd filed Critical Ping An Insurance (group) Co Of China Ltd
Priority to CN201810997205.XA priority Critical patent/CN109145215B/zh
Publication of CN109145215A publication Critical patent/CN109145215A/zh
Application granted granted Critical
Publication of CN109145215B publication Critical patent/CN109145215B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种网络舆情分析方法,包括:根据舆情事件确定预设关键词,采集与预设关键词相关的舆情文章;对所述舆情文章进行分词处理,得到每篇舆情文章对应的词汇集合;采用聚类算法对所述舆情文章进行聚类分析,生成所述舆情事件的多个观点主题,根据观点主题确定所述舆情文章所属情感类别;筛选出关于所述舆情事件的目标舆情文章,利用预设的计算规则计算所述目标舆情文章的舆情评分;确定所述目标舆情文章对应的舆情级别;及,根据舆情级别最高的目标舆情文章及其对应的观点主题生成预警信息并输出。本发明还提出一种电子装置及存储介质。利用本发明,实现对舆情事件的全面监控和预警,便于用户针对舆情事件进行相应决策。

Description

网络舆情分析方法、装置及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种网络舆情分析方法、电子装置及计算机可读存储介质。
背景技术
网络舆情是指在网络上流行的对社会事件不同看法的网络舆论,是社会舆论的一种表现形式。近年来,网络舆情对生活秩序和社会稳定的影响与日俱增,一些重大的网络舆情事件使人们开始认识到网络对社会监督起到的巨大作用。同时,网络舆情突发事件如果处理不当,极有可能诱发民众的不良情绪,引发群众的违规和过激行为,进而对社会稳定构成威胁。
因此,对于网络舆情状态的监测就变得尤为重要。目前舆情***大多是通过舆情分析师筛选舆情,然后对***进行跟踪,从而对事件在影响力上对其舆情状态有一个大致的判断,但是这种方案存在监测媒体源不够全面的缺陷,且无法直观地了解到网络舆情的舆情状态,进而导致无法及时准确地进行预警。
发明内容
本发明提供一种网络舆情分析方法、电子装置及计算机可读存储介质,其主要目的在于提高对舆情的监控预警能力,帮助用户针对舆情事件进行相应决策。
为实现上述目的,本发明提供一种网络舆情分析方法,该方法包括:
根据舆情事件确定预设关键词,通过网络爬虫从预设的数据渠道采集与预设关键词相关的舆情文章;
对所述舆情文章进行分词处理,得到每篇舆情文章对应的词汇集合;
采用聚类算法对所述舆情文章进行聚类分析,生成所述舆情事件的多个观点主题,根据观点主题确定所述舆情文章所属情感类别,并为所述舆情文章标注第一情感标签;
根据所述舆情文章的第一情感标签,筛选出关于所述舆情事件的目标舆情文章,利用预设的计算规则计算所述目标舆情文章的舆情评分;
根据舆情评分与舆情级别的映射关系,确定所述目标舆情文章对应的舆情级别;及
根据舆情级别最高的目标舆情文章及其对应的观点主题生成预警信息并输出。
此外,为实现上述目的,本发明提供一种电子装置,该装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的网络舆情分析程序程序,该程序被所述处理器执行时实现如上所述的网络舆情分析方法的任意步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有网络舆情分析程序,该程序被处理器执行时实现如上所述的网络舆情分析方法的任意步骤。
相较于现有技术,本发明提出的网络舆情分析方法、电子装置及计算机可读存储介质,1.通过采用聚类算法对舆情文章进行聚类分析,生成舆情事件的多个观点主题确定对应的情感类别,实现了对舆情事件的高度概括,有效提高了关于舆情事件的舆情文章的情感分析效率;2.通过对收集的文章进行聚类分析及与预设词库进行比对这两种方式,判断关于舆情事件的舆情文章所属的情感类别并标注第一/第二情感标签,根据两个情感标签筛选出所有负面舆情文章作为舆情事件的目标舆情文章,使获取的关于舆情事件的目标舆情文章更全面,有助于实现对舆情的全面监控及预警;3.计算负面舆情文章的舆情评分,根据舆情评分对负面舆情文章进行分级分析,有助于对舆情文章的影响力的判断,提高了对舆情的监控预警能力,有助于用户针对舆情事件进行相应决策。
附图说明
图1为本发明电子装置较佳实施例的示意图;
图2为图1中网络舆情分析程序的程序模块示意图;
图3为本发明网络舆情分析方法第一个较佳实施例的流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种网络舆情分析方法,该方法应用于一种电子装置1。参照图1所示,为本发明电子装置1较佳实施例的示意图。
在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有数据处理功能的终端设备,所述服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器。
该电子装置1包括存储器11、处理器12,通信总线13,及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备,例如该电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括该电子装置1的内部存储单元也包括外部存储设备。
存储器11不仅可以用于存储安装于该电子装置1的应用软件及各类数据,例如网络舆情分析程序10等,还可以用于暂时地存储已经输出或者将要输出的数据。处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如网络舆情分析程序10等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其他电子设备之间建立通信连接。
图1仅示出了具有组件11-14的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。
可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示器也可以称为显示屏或显示单元,用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
在图1所示的装置实施例中,存储器11中存储有网络舆情分析程序10。处理器12执行存储器11中存储的网络舆情分析程序10时实现如下步骤:
根据舆情事件确定预设关键词,通过网络爬虫从预设的数据渠道采集与预设关键词相关的舆情文章;
本发明实施例中的舆情事件一般是当下发生的某个事件,用户在确定具体舆情事件后,需针对该舆情事件预先设置能体现该舆情事件的一个或多个关键词,并预先设置待爬取的统一资源定位符(Uniform Resource Locator,URL)列表,定时使用网络爬虫根据上述URL列表中的URL地址及预先设置的一个或多个关键词,从预设的数据渠道采集与该舆情事件相关的舆情文章。
具体地,预设的数据渠道包括但不仅限于微博、微信、论坛等,从上述数据渠道获取到的舆情文章主要包括新闻、论坛帖子、微博博文、微信文章等。
对所述舆情文章进行分词处理,得到每篇舆情文章对应的词汇集合;
在对舆情文章进行分词处理之前,分别提取每篇舆情文章的正文数据,去除超级文本标记语言(Hyper Text Markup Language,HTML)标签数据(例如,图片、链接,甚至音乐、程序等非文字元素)、图像标记等无关数据,然后通过正则表达式去除正文数据中的非中文字符。
然后,对保留的正文数据通过分词工具进行分词,将中文段落生成以空格分隔的初始词汇集合。按照预设的停用词词表对初始词汇集合进行去停用词处理,将经去停用词处理后的词汇集合作为该舆情文章的词汇集合,即以空格分隔的词汇集合作为特征用来表征舆情文章。
采用聚类算法对所述舆情文章进行聚类分析,生成所述舆情事件的多个观点主题,根据观点主题确定所述舆情文章所属情感类别,并为所述舆情文章标注第一情感标签;
可以理解的是,不同的人对同一个舆情事件的观点态度存在多样化,因此,需要了解大众针对该舆情事件的观点。在本实施例中,通过对所有舆情文章进行聚类分析,高度概括出舆情文章的观点主题。具体地,该步骤可以细化为以下步骤:
获取预设的语料库,例如,中文***语料库,基于该语料库,根据词频-逆文档频率指数(TF-IDF)算法计算每篇舆情文章对应的词汇集合中各个词汇的重要程度,根据重要程度由高到低的顺序对每篇舆情文章对应的词汇集合中的各个词汇进行排序。选择每篇舆情文章对应的词汇集合中的排序靠前的预设数量的(例如,N个,其中,N>0,且N为整数)词汇作为每篇舆情文章的关键词。
另外,基于中文***语料库生成中文语料的Word2vec模型,通过该Word2vec模型分别计算每篇舆情文章的N个关键词的词向量,并利用上述步骤得到的N个关键词的词向量计算每篇舆情文章的词向量。
在计算得到每篇舆情文章的词向量后,利用Kmeans算法对所有与舆情事件相关的所有舆情文章进行聚类分析,将所有目标舆情文章划分为多个观点主题,并人为判断所述多个观点主题对应的情感类别,例如,正面、负面、中性。具体地,在进行聚类分析时,算法中K值的初始值随机设置,即多个聚类中心,也就是分类的类群的数量,可以根据对分类结果的评估调整K值,直至分类结果的准确度达到预设阈值为止。
确定上述多个观点主题对应的情感类别后,分别确定每个观点主题下各舆情文章所属的情感类别,并分别为舆情文章标注第一情感标签,例如,正面为“1”、中立为“0”、负面为“-1”。
根据所述舆情文章的第一情感标签,筛选出关于所述舆情事件的目标舆情文章,利用预设的计算规则计算所述目标舆情文章的舆情评分;
可以理解的是,网络舆情中,一般需要监控预警并进行相应处理的为负面舆情文章,因此,在确定采集到的所有舆情文章的第一情感标签后,根据标签类型所有舆情文章中筛选出标签为“-1”的舆情文章,作为关于该舆情事件的目标舆情文章。
为了进一步了解目标舆情文章的影响力,需计算各目标舆情文章的舆情评分,具体地,该步骤可以细化为以下步骤:
分别获取每篇目标舆情文章的各个影响因子对应的权重;及
根据各个影响因子对应的权重计算所述目标舆情文章的舆情评分。
具体地,影响因子包括:目标舆情文章对应的发布媒体的媒体级别、目标舆情文章在各数据渠道的热度、目标舆情文章涉及的内容。其中,目标舆情文章对应的发布媒体的媒体级别包括:中央权威、核心财经、综合门户、财经垂直、资讯客户端、自媒体大V及其他,目标舆情文章在各数据渠道的热度这一影响因子包括转载量及舆情讨论量这两个子因子,目标舆情文章涉及的内容这一影响因子包括:文章具体内容(例如,公司战略,日常管理、公司产品、公司服务、监管处罚等)、是否涉及管理层、涉及的专业公司、政治相关度等子因子。
在计算各目标舆情文章的舆情评分之前,需预先设置舆情评分权重表,该表中分别说明了不同的影响因子对应的权重,可以理解的是,对舆情事件舆情评分影响越大的影响因子,其对应的权重越大。例如,在舆情评分权重表中,不同级别的媒体对应的权重各不相同,影响力大的媒体级别(例如,中央权威)对应的权重大于影响力相对较小的媒体级别(例如,自媒体大V)。需要说明的是,舆情评分权重表中影响因子类型、及其对应的预设权重为预先设置的内容,均可根据实际情况进行调整。在计算目标舆情文章的舆情评分时,首先获取各目标舆情文章的具体信息,确定各影响因子对应的实际内容,根据各影响因子的实际内容从预设的,舆情评分权重表中读取各影响因子对应的权重。
进一步地,对于不包含子因子的影响因子,直接根据影响因子的实际内容从舆情评分权重表中读取对应的权重,然而,对于包含多个子因子的影响因子,需事先根据子因子的实际内容计算自因子对应的影响因子的综合权重,其综合权重的计算公式为:
ai=mi*∑mijij
其中,mi为各影响因子对应的初始权重,mij为第i个影响因子的第j个子因子对应的初始权重,βij为第i个影响因子的第j个子因子对应的实际权重。
在确定各目标舆情文章的各影响因子对应的权重后,计算各目标舆情文章的舆情评分,舆情评分越高,说明舆情影响力越大。在本实施例中,舆情评分的计算公式为:
S=M*∑ai
其中,M为所述目标舆情文章的舆情评分初始值,M=100,i为影响所述目标舆情文章舆情评分的各影响因子,ai为第i个影响因子对应的权重。
根据舆情评分与舆情级别的映射关系,确定所述目标舆情文章对应的舆情级别;
计算得到关于该舆情事件的目标舆情文章的舆情评分后,根据舆情评分的高低顺序对所有目标舆情文章进行排序,并对所有目标舆情文章进行分级。等级越高,目标舆情文章的影响力越大。
例如,将舆情评分在[0,15)区间内的目标舆情文章对应的等级确定为I级,将舆情评分在[15,30)区间内的目标舆情文章对应的等级确定为II级,将舆情评分在[30,40)区间内的目标舆情文章对应的等级确定为III级,将舆情评分在[40,50)区间内的目标舆情文章对应的等级确定为IV级,将舆情评分在[50,100]区间内的目标舆情文章对应的等级确定为V级。
根据舆情级别最高的目标舆情文章及其对应的观点主题生成预警信息并输出。
根据舆情评分确定关于舆情事件的各负面舆情文章对应的等级后,筛选出级别较高的、影响力较大的目标舆情文章进行预警。具体的,选择等级最高(V级)的目标舆情文章,并分别获取上述目标舆情文章对应的观点主题,根据观点主题对上述目标舆情文章进行分类,分别根据不同观点主题对应的目标舆情文章生成预警信息并输出,供用户参考并进行相应决策。
在其他实施例中,根据目标舆情文章的舆情评分对目标舆情文章进行分级后,可能存在需要对其对应的级别进行人为修改的情况,例如,一篇目标舆情文章中包含一些敏感信息,亟需进行相应处理,需人为确定该目标舆情文章的目标级别(例如,V级),在收到调整级别的分别指令后,读取该目标舆情文章根据舆情评分确定的初始级别(例如,III级),当该目标舆情文章的目标级别与初始级别不一致时,取目标级别与初始级别中级别较高者作为该目标舆情文章的最终级别,并对该目标舆情文章的级别进行更新。
上述实施例提出的电子装置,通过采用聚类算法对舆情文章进行聚类分析,生成舆情事件的多个观点主题确定对应的情感类别,实现了对舆情事件的高度概括,有效提高了关于舆情事件的舆情文章的情感分析效率;然后筛选出负面舆情文章,计算负面舆情文章的舆情评分,根据舆情评分对负面舆情文章进行分级分析,有助于对舆情文章的影响力的判断,提高了对舆情的监控预警能力。
可选地,在其他的实施例中,网络舆情分析程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行,以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。例如,参照图2所示,为图1中网络舆情分析程序10的模块示意图,该实施例中,网络舆情分析程序10可以被分割为获取模块110、分词模块120、分类模块130、计算模块140、分级模块150及预警模块160,所述模块110-160所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
获取模块110,用于根据舆情事件确定预设关键词,通过网络爬虫从预设的数据渠道采集与预设关键词相关的舆情文章;
分词模块120,用于对所述舆情文章进行分词处理,得到每篇舆情文章对应的词汇集合;
分类模块130,用于采用聚类算法对所述舆情文章进行聚类分析,生成所述舆情事件的多个观点主题,根据观点主题确定所述舆情文章所属情感类别,并为所述舆情文章标注第一情感标签;
计算模块140,用于根据所述舆情文章的第一情感标签,筛选出关于所述舆情事件的目标舆情文章,利用预设的计算规则计算所述目标舆情文章的舆情评分;
分级模块150,用于根据舆情评分与舆情级别的映射关系,确定所述目标舆情文章对应的舆情级别;及
预警模块160,用于根据舆情级别最高的目标舆情文章及其对应的观点主题生成预警信息并输出。
此外,本发明还提供一种网络舆情分析方法。参照图3所示,为本发明网络舆情分析方法第一个较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,网络舆情分析方法包括步骤S1-S4:
S1、根据舆情事件确定预设关键词,通过网络爬虫从预设的数据渠道采集与预设关键词相关的舆情文章;
本发明实施例中的舆情事件一般是当下发生的某个事件,用户在确定具体舆情事件后,需针对该舆情事件预先设置能体现该舆情事件的一个或多个关键词,并预先设置待爬取的统一资源定位符(URL)列表,定时使用网络爬虫根据上述URL列表中的URL地址及预先设置的一个或多个关键词,从预设的数据渠道采集与该舆情事件相关的舆情文章。
具体地,预设的数据渠道包括但不仅限于微博、微信、论坛等,从上述数据渠道获取到的舆情文章主要包括新闻、论坛帖子、微博博文、微信文章等。
S2、对所述舆情文章进行分词处理,得到每篇舆情文章对应的词汇集合;
在对舆情文章进行分词处理之前,分别提取每篇舆情文章的正文数据,去除超级文本标记语言(HTML)标签数据(例如,图片、链接,甚至音乐、程序等非文字元素)、图像标记等无关数据,然后通过正则表达式去除正文数据中的非中文字符。
然后,对保留的正文数据通过分词工具进行分词,将中文段落生成以空格分隔的初始词汇集合。按照预设的停用词词表对初始词汇集合进行去停用词处理,将经去停用词处理后的词汇集合作为该舆情文章的词汇集合,即以空格分隔的词汇集合作为特征用来表征舆情文章。
S3、采用聚类算法对所述舆情文章进行聚类分析,生成所述舆情事件的多个观点主题,根据观点主题确定所述舆情文章所属情感类别,并为所述舆情文章标注第一情感标签;
可以理解的是,不同的人对同一个舆情事件的观点态度存在多样化,因此,需要了解大众针对该舆情事件的观点。在本实施例中,通过对所有舆情文章进行聚类分析,高度概括出舆情文章的观点主题。具体地,该步骤可以细化为以下步骤:
获取预设的语料库,例如,中文***语料库,基于该语料库,根据词频-逆文档频率指数(TF-IDF)算法计算每篇舆情文章对应的词汇集合中各个词汇的重要程度,根据重要程度由高到低的顺序对每篇舆情文章对应的词汇集合中的各个词汇进行排序。选择每篇舆情文章对应的词汇集合中的排序靠前的预设数量的(例如,N个,其中,N>0,且N为整数)词汇作为每篇舆情文章的关键词。
另外,基于中文***语料库生成中文语料的Word2vec模型,通过该Word2vec模型分别计算每篇舆情文章的N个关键词的词向量,并利用上述步骤得到的N个关键词的词向量计算每篇舆情文章的词向量。
在计算得到每篇舆情文章的词向量后,利用Kmeans算法对所有与舆情事件相关的所有舆情文章进行聚类分析,将所有目标舆情文章划分为多个观点主题,并人为判断所述多个观点主题对应的情感类别,例如,正面、负面、中性。具体地,在进行聚类分析时,算法中K值的初始值随机设置,即多个聚类中心,也就是分类的类群的数量,可以根据对分类结果的评估调整K值,直至分类结果的准确度达到预设阈值为止。
确定上述多个观点主题对应的情感类别后,分别确定每个观点主题下各舆情文章所属的情感类别,并分别为舆情文章标注第一情感标签,例如,正面为“1”、中立为“0”、负面为“-1”。
S4、根据所述舆情文章的第一情感标签,筛选出关于所述舆情事件的目标舆情文章,利用预设的计算规则计算所述目标舆情文章的舆情评分;
可以理解的是,网络舆情中,一般需要监控预警并进行相应处理的为负面舆情文章,因此,在确定采集到的所有舆情文章的第一情感标签后,根据标签类型所有舆情文章中筛选出标签为“-1”的舆情文章,作为关于该舆情事件的目标舆情文章。
为了进一步了解目标舆情文章的影响力,需计算各目标舆情文章的舆情评分,具体地,该步骤可以细化为以下步骤:
分别获取每篇目标舆情文章的各个影响因子对应的权重;及
根据各个影响因子对应的权重计算所述目标舆情文章的舆情评分。
具体地,影响因子包括:目标舆情文章对应的发布媒体的媒体级别、目标舆情文章在各数据渠道的热度、目标舆情文章涉及的内容。其中,目标舆情文章对应的发布媒体的媒体级别包括:中央权威、核心财经、综合门户、财经垂直、资讯客户端、自媒体大V及其他,目标舆情文章在各数据渠道的热度这一影响因子包括转载量及舆情讨论量这两个子因子,目标舆情文章涉及的内容这一影响因子包括:文章具体内容(例如,公司战略,日常管理、公司产品、公司服务、监管处罚等)、是否涉及管理层、涉及的专业公司、政治相关度等子因子。
在计算各目标舆情文章的舆情评分之前,需预先设置舆情评分权重表,该表中分别说明了不同的影响因子对应的权重,可以理解的是,对舆情事件舆情评分影响越大的影响因子,其对应的权重越大。例如,在舆情评分权重表中,不同级别的媒体对应的权重各不相同,影响力大的媒体级别(例如,中央权威)对应的权重大于影响力相对较小的媒体级别(例如,自媒体大V)。需要说明的是,舆情评分权重表中影响因子类型、及其对应的预设权重为预先设置的内容,均可根据实际情况进行调整。在计算目标舆情文章的舆情评分时,首先获取各目标舆情文章的具体信息,确定各影响因子对应的实际内容,根据各影响因子的实际内容从预设的,舆情评分权重表中读取各影响因子对应的权重。
进一步地,对于不包含子因子的影响因子,直接根据影响因子的实际内容从舆情评分权重表中读取对应的权重,然而,对于包含多个子因子的影响因子,需事先根据子因子的实际内容计算自因子对应的影响因子的综合权重,其综合权重的计算公式为:
ai=mi*∑mijij
其中,mi为各影响因子对应的初始权重,各影响因子对应的初始权重的总和为100%,mij为第i个影响因子的第j个子因子对应的初始权重,βij为第i个影响因子的第j个子因子对应的实际权重。
在确定各目标舆情文章的各影响因子对应的权重后,计算各目标舆情文章的舆情评分,舆情评分越高,说明舆情影响力越大。在本实施例中,舆情评分的计算公式为:
S=M*∑ai
其中,M为所述目标舆情文章的舆情评分初始值,M=100,i为影响所述目标舆情文章舆情评分的各影响因子,ai为第i个影响因子对应的权重。
S5、根据舆情评分与舆情级别的映射关系,确定所述目标舆情文章对应的舆情级别;
计算得到关于该舆情事件的目标舆情文章的舆情评分后,根据舆情评分的高低顺序对所有目标舆情文章进行排序,并对所有目标舆情文章进行分级。等级越高,目标舆情文章的影响力越大。
例如,将舆情评分在[0,15)区间内的目标舆情文章对应的等级确定为I级,将舆情评分在[15,30)区间内的目标舆情文章对应的等级确定为II级,将舆情评分在[30,40)区间内的目标舆情文章对应的等级确定为III级,将舆情评分在[40,50)区间内的目标舆情文章对应的等级确定为IV级,将舆情评分在[50,100]区间内的目标舆情文章对应的等级确定为V级。
S6、根据舆情级别最高的目标舆情文章及其对应的观点主题生成预警信息并输出。
根据舆情评分确定关于舆情事件的各负面舆情文章对应的等级后,筛选出级别较高的、影响力较大的目标舆情文章进行预警。具体的,选择等级最高(V级)的目标舆情文章,并分别获取上述目标舆情文章对应的观点主题,根据观点主题对上述目标舆情文章进行分类,分别根据不同观点主题对应的目标舆情文章生成预警信息并输出,供用户参考并进行相应决策。
在其他实施例中,该方法还包括:接收针对所述目标舆情信息发出的分级指令,读取分级指令中的舆情级别,当该分级指令中的舆情级别与根据舆情评分确定的舆情评级不一致时,取舆情级别较高者作为该目标舆情文章对应的舆情级别。
根据目标舆情文章的舆情评分对目标舆情文章进行分级后,可能需要对其对应的级别进行人为修改,例如,一篇目标舆情文章中包含一些敏感信息,亟需进行相应处理,需人为确定该目标舆情文章的目标级别(例如,V级),在收到调整级别的分别指令后,读取该目标舆情文章根据舆情评分确定的初始级别(例如,III级),当该目标舆情文章的目标级别与初始级别不一致时,取目标级别与初始级别中级别较高者作为该目标舆情文章的最终级别,并对该目标舆情文章的级别进行更新。
上述实施例提出的网络舆情分析方法,通过采用聚类算法对舆情文章进行聚类分析,生成舆情事件的多个观点主题确定对应的情感类别,实现了对舆情事件的高度概括,有效提高了关于舆情事件的舆情文章的情感分析效率;然后筛选出负面舆情文章,计算负面舆情文章的舆情评分,根据舆情评分对负面舆情文章进行分级分析,有助于对舆情文章的影响力的判断,提高了对舆情的监控预警能力。
在本发明网络舆情分析方法的第二个较佳实施例中,所述网络舆情分析方法的步骤S1-S6与上述实施例相似,区别在于,在步骤S4之前还包括以下步骤:
将所述舆情文章对应的词汇集合中的词汇分别与预设的第一关键词库、第二关键词库进行匹配;
其中,第一关键词库为用户根据舆情事件预先确定的正面关键词库,第二关键词库为用户根据舆情事件预先确定的负面关键词库。
分别计算所述舆情文章对应的词汇集合与第一关键词库的第一匹配率、与第二关键词库的第二匹配率;
分别计算每篇舆情文章的词汇集合与正面关键词库的第一匹配率、与负面关键词库的第二匹配率。
根据第一匹配率、第二匹配率,分析所述舆情文章所属情感类别,为所述舆情文章标注第二情感标签;
当一篇舆情文章的第一匹配率大于或等于第一预设阈值(例如,50%)、第二匹配率小于第二预设阈值(例如,20%)时,判断该舆情文章为正面舆情文章;当一篇舆情文章的第二匹配率大于或等于第一预设阈值(例如,50%)、第一匹配率小于第二预设阈值(例如,20%)时,判断该舆情文章为负面舆情文章;当一篇舆情文章的第一匹配率及第二匹配率均不满足上述两种情况时,判断该舆情文章为中立舆情文章;然后根据每篇舆情文章对应的情感为每篇舆情文章标注第二感情标签。
当所述舆情文章的第一情感标签与第二情感标签不一致时,根据预设规则更新所述舆情文章对应的情感类别及第一情感标签。
当一篇舆情文章的第一情感标签与第二情感标签一致时,不需要对其情感标签进行修改,保留原有情感标签;当一篇舆情文章的第一情感标签与第二情感标签不一致时,为了使后续筛选的目标舆情文章更全面,不管一篇舆情文章的第一情感标签为“1”、“-1、“0”,只要第二情感标签为“-1”,都将该舆情文章的第一情感标签更新为“-1”;同理,不管一篇舆情文章的第二情感标签为“1”、“-1、“0”,只要第一情感标签为“-1”,都保留该舆情文章的第一情感标签“-1”。
上述实施例提出的网络舆情分析方法,通过对收集的文章进行聚类分析及与预设词库进行比对这两种方式,判断关于舆情事件的舆情文章所属的情感类别并标注第一/第二情感标签,根据两个情感标签筛选出所有负面舆情文章作为舆情事件的目标舆情文章,使获取的关于舆情事件的目标舆情文章更全面,有助于实现对舆情的全面监控及预警。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有网络舆情分析程序10,该程序被处理器执行时实现如下操作:
根据舆情事件确定预设关键词,通过网络爬虫从预设的数据渠道采集与预设关键词相关的舆情文章;
对所述舆情文章进行分词处理,得到每篇舆情文章对应的词汇集合;
采用聚类算法对所述舆情文章进行聚类分析,生成所述舆情事件的多个观点主题,根据观点主题确定所述舆情文章所属情感类别,并为所述舆情文章标注第一情感标签;
根据所述舆情文章的第一情感标签,筛选出关于所述舆情事件的目标舆情文章,利用预设的计算规则计算所述目标舆情文章的舆情评分;
根据舆情评分与舆情级别的映射关系,确定所述目标舆情文章对应的舆情级别;及
根据舆情级别最高的目标舆情文章及其对应的观点主题生成预警信息并输出。
本发明计算机可读存储介质具体实施方式与上述网络舆情分析方法和电子装置1各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种网络舆情分析方法,应用于电子装置,其特征在于,该方法包括:
根据舆情事件确定预设关键词,通过网络爬虫从预设的数据渠道采集与预设关键词相关的舆情文章;
对所述舆情文章进行分词处理,得到每篇舆情文章对应的词汇集合;
采用聚类算法对所述舆情文章进行聚类分析,生成所述舆情事件的多个观点主题,根据观点主题确定所述舆情文章所属情感类别,并为所述舆情文章标注第一情感标签;
将所述舆情文章对应的词汇集合分别与预设的第一关键词库、第二关键词库进行匹配,分析所述舆情文章的所述情感类别并标注第二情感标签,根据预设规则更新所述舆情文章对应的情感类别及目标情感标签,所述预设规则为当舆情文章的第一情感标签与第二情感标签一致时,将第一情感标签或第二情感标签作为目标情感标签;当舆情文章的第一情感标签与第二情感标签不一致时,只要其中一个情感标签为负面情感标签,则将负面情感标签作为目标情感标签;
根据所述舆情文章的目标情感标签,筛选出关于所述舆情事件的目标舆情文章,利用预设的计算规则计算所述目标舆情文章的舆情评分,所述预设的计算规则为分别获取每篇目标舆情文章的各个影响因子对应的权重;及根据各个影响因子对应的权重计算所述目标舆情文章的舆情评分,计算公式为S=M*∑ai,其中,M为所述目标舆情文章的舆情评分初始值,i为影响所述目标舆情文章舆情评分的各影响因子,ai为各影响因子对应的权重;
根据舆情评分与舆情级别的映射关系,确定所述目标舆情文章对应的舆情级别;及
根据舆情级别最高的目标舆情文章及其对应的观点主题生成预警信息并输出。
2.如权利要求1所述的网络舆情分析方法,其特征在于,所述影响因子包括:所述目标舆情文章的发布媒体的媒体级别、所述目标舆情文章在各数据渠道的热度、所述目标舆情文章涉及的内容。
3.如权利要求1所述的网络舆情分析方法,其特征在于,该方法还包括:
接收针对所述目标舆情文章发出的分级指令,读取分级指令中的舆情级别,当该分级指令中的舆情级别与根据舆情评分确定的舆情评级不一致时,取舆情级别较高者作为该目标舆情文章对应的舆情级别。
4.如权利要求1至3中任一项所述的网络舆情分析方法,其特征在于,在所述“采用聚类算法对所述舆情文章进行聚类分析,生成所述舆情事件的多个观点主题,根据观点主题确定所述舆情文章所属情感类别,并为所述舆情文章标注第一情感标签”的步骤之后,该方法还包括:
将所述舆情文章对应的词汇集合中的词汇分别与预设的第一关键词库、第二关键词库进行匹配;
分别计算所述舆情文章对应的词汇集合与第一关键词库的第一匹配率、与第二关键词库的第二匹配率;
根据第一匹配率、第二匹配率,分析所述舆情文章所属情感类别,为所述舆情文章标注第二情感标签;
当所述舆情文章的第一情感标签与第二情感标签不一致时,根据预设规则更新所述舆情文章对应的情感类别及第一情感标签。
5.一种电子装置,其特征在于,该装置包括:存储器、处理器,所述存储器上存储有可在所述处理器上运行的网络舆情分析程序,该程序被所述处理器执行时实现如下步骤:
根据舆情事件确定预设关键词,通过网络爬虫从预设的数据渠道采集与预设关键词相关的舆情文章;
对所述舆情文章进行分词处理,得到每篇舆情文章对应的词汇集合;
采用聚类算法对所述舆情文章进行聚类分析,生成所述舆情事件的多个观点主题,根据观点主题确定所述舆情文章所属情感类别,并为所述舆情文章标注第一情感标签;
将所述舆情文章对应的词汇集合分别与预设的第一关键词库、第二关键词库进行匹配,分析所述舆情文章的所述情感类别并标注第二情感标签,根据预设规则更新所述舆情文章对应的情感类别及目标情感标签,所述预设规则为当舆情文章的第一情感标签与第二情感标签一致时,将第一情感标签或第二情感标签作为目标情感标签;当舆情文章的第一情感标签与第二情感标签不一致时,只要其中一个情感标签为负面情感标签,则将负面情感标签作为目标情感标签;
根据所述舆情文章的目标情感标签,筛选出关于所述舆情事件的目标舆情文章,利用预设的计算规则计算所述目标舆情文章的舆情评分,所述预设的计算规则为分别获取每篇目标舆情文章的各个影响因子对应的权重;及根据各个影响因子对应的权重计算所述目标舆情文章的舆情评分,计算公式为S=M*∑ai,其中,M为所述目标舆情文章的舆情评分初始值,i为影响所述目标舆情文章舆情评分的各影响因子,ai为各影响因子对应的权重;
根据舆情评分与舆情级别的映射关系,确定所述目标舆情文章对应的舆情级别;及
根据舆情级别最高的目标舆情文章及其对应的观点主题生成预警信息并输出。
6.如权利要求5所述的电子装置,其特征在于,所述影响因子包括:所述目标舆情文章对应的数据渠道、所述目标舆情文章在各数据渠道的热度、所述目标舆情文章涉及的内容。
7.如权利要求6所述的电子装置,其特征在于,所述网络舆情分析程序被所述处理器执行时还实现如下步骤:
接收针对所述目标舆情文章发出的分级指令,读取分级指令中的舆情级别,当该分级指令中的舆情级别与根据舆情评分确定的舆情评级不一致时,取舆情级别较高者作为该目标舆情文章对应的舆情级别。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有网络舆情分析程序,该程序被处理器执行时实现如权利要求1至4中任一项所述的网络舆情分析方法的步骤。
CN201810997205.XA 2018-08-29 2018-08-29 网络舆情分析方法、装置及存储介质 Active CN109145215B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810997205.XA CN109145215B (zh) 2018-08-29 2018-08-29 网络舆情分析方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810997205.XA CN109145215B (zh) 2018-08-29 2018-08-29 网络舆情分析方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN109145215A CN109145215A (zh) 2019-01-04
CN109145215B true CN109145215B (zh) 2023-11-07

Family

ID=64829139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810997205.XA Active CN109145215B (zh) 2018-08-29 2018-08-29 网络舆情分析方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN109145215B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948019B (zh) * 2019-01-10 2021-10-08 中央财经大学 一种深层网络数据获取方法
CN109977300A (zh) * 2019-02-22 2019-07-05 深圳壹账通智能科技有限公司 企业舆情获取方法、装置、终端及计算机存储介质
CN110222513B (zh) * 2019-05-21 2023-06-23 平安科技(深圳)有限公司 一种线上活动的异常监测方法、装置及存储介质
CN110442713A (zh) * 2019-07-08 2019-11-12 深圳壹账通智能科技有限公司 文章管理方法、装置、计算机设备和存储介质
CN110795554B (zh) * 2019-10-29 2022-07-26 北京字节跳动网络技术有限公司 目标信息分析方法、装置、设备及存储介质
CN112749269B (zh) * 2019-10-31 2024-06-21 北京国双科技有限公司 实体舆情计算方法及***
CN111026868B (zh) * 2019-12-05 2022-07-15 厦门市美亚柏科信息股份有限公司 一种多维度舆情危机预测方法、终端设备及存储介质
CN111160738A (zh) * 2019-12-18 2020-05-15 上海秒针网络科技有限公司 事件处理方法、装置、存储介质及电子装置
CN111160019B (zh) * 2019-12-30 2023-08-15 中国联合网络通信集团有限公司 一种舆情监测的方法、装置及***
CN111310476B (zh) * 2020-02-21 2021-11-02 山东大学 一种使用基于方面的情感分析方法的舆情监控方法和***
CN111460354A (zh) * 2020-03-31 2020-07-28 上海蜜度信息技术有限公司 用于将网络舆情数据的数据主题数值化的方法与设备
CN111538828B (zh) * 2020-04-21 2023-04-25 招商局金融科技有限公司 文本情感分析方法、装置、计算机装置及可读存储介质
CN111784492A (zh) * 2020-07-10 2020-10-16 讯飞智元信息科技有限公司 舆情分析和财务预警方法、装置、电子设备和存储介质
CN112084448B (zh) * 2020-08-31 2024-05-07 北京金堤征信服务有限公司 相似信息处理方法以及装置
CN112051905B (zh) * 2020-10-10 2021-03-19 青海师范大学 一种舆情预警装置
CN113392195B (zh) * 2021-02-25 2023-07-28 中国人民解放军战略支援部队信息工程大学 舆情监测方法及装置、电子设备及存储介质
CN113051455B (zh) * 2021-03-31 2022-04-26 合肥供水集团有限公司 一种基于网络文本数据的水务舆情识别方法
CN113505581A (zh) * 2021-07-27 2021-10-15 北京工商大学 基于apso-lstm网络的教育大数据文本分析方法
CN113609297A (zh) * 2021-08-23 2021-11-05 南京擎盾信息科技有限公司 用于法院行业的舆情监控方法和装置
CN114861027B (zh) * 2022-04-29 2024-06-18 深圳市东晟数据有限公司 一种基于大数据及自然语言处理的多维度舆情推荐方法
CN116522917B (zh) * 2023-03-06 2024-01-26 北京麦克斯泰科技有限公司 舆情信息热度评分方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
CN106294326A (zh) * 2016-08-23 2017-01-04 成都科来软件有限公司 一种新闻报道情感倾向分析方法
CN107516279A (zh) * 2017-08-15 2017-12-26 皑沐(上海)文化传媒有限公司 一种网络舆情自动预警的方法
CN107704513A (zh) * 2017-08-31 2018-02-16 四川长虹电器股份有限公司 一种网络舆情监控方法及***
CN107704558A (zh) * 2017-09-28 2018-02-16 北京车慧互动广告有限公司 一种用户意见抽取方法及***
CN108319587A (zh) * 2018-02-05 2018-07-24 中译语通科技股份有限公司 一种多权重的舆情价值计算方法及***、计算机

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140317118A1 (en) * 2013-04-18 2014-10-23 International Business Machines Corporation Context aware dynamic sentiment analysis
US9256670B2 (en) * 2013-10-10 2016-02-09 International Business Machines Corporation Visualizing conflicts in online messages

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
CN106294326A (zh) * 2016-08-23 2017-01-04 成都科来软件有限公司 一种新闻报道情感倾向分析方法
CN107516279A (zh) * 2017-08-15 2017-12-26 皑沐(上海)文化传媒有限公司 一种网络舆情自动预警的方法
CN107704513A (zh) * 2017-08-31 2018-02-16 四川长虹电器股份有限公司 一种网络舆情监控方法及***
CN107704558A (zh) * 2017-09-28 2018-02-16 北京车慧互动广告有限公司 一种用户意见抽取方法及***
CN108319587A (zh) * 2018-02-05 2018-07-24 中译语通科技股份有限公司 一种多权重的舆情价值计算方法及***、计算机

Also Published As

Publication number Publication date
CN109145215A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109145215B (zh) 网络舆情分析方法、装置及存储介质
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
CN109145216B (zh) 网络舆情监控方法、装置及存储介质
CN109271512B (zh) 舆情评论信息的情感分析方法、装置及存储介质
CN108629043B (zh) 网页目标信息的提取方法、装置及存储介质
US11176124B2 (en) Managing a search
WO2019227710A1 (zh) 网络舆情的分析方法、装置及计算机可读存储介质
CA2578513C (en) System and method for online information analysis
Ding et al. Entity discovery and assignment for opinion mining applications
US11620283B2 (en) Method and system for analytic based connections among user types in an online platform
CN111538931A (zh) 基于大数据的舆情监控方法、装置、计算机设备及介质
US9286408B2 (en) Analyzing uniform resource locators
JP4911599B2 (ja) 風評情報抽出装置及び風評情報抽出方法
WO2012096388A1 (ja) 意外性判定システム、意外性判定方法およびプログラム
US9418058B2 (en) Processing method for social media issue and server device supporting the same
US20140297628A1 (en) Text Information Processing Apparatus, Text Information Processing Method, and Computer Usable Medium Having Text Information Processing Program Embodied Therein
CN111612610A (zh) 风险预警方法及***、电子设备及存储介质
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
WO2015084757A1 (en) Systems and methods for processing data stored in a database
EP2595065B1 (en) Categorizing data sets
CN114969484A (zh) 业务数据搜索方法、装置、设备及存储介质
Luo et al. Query ambiguity identification based on user behavior information
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN112182390B (zh) 一种函件推送方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant