CN104820629A

CN104820629A - 一种智能的舆情突发事件应急处理***及方法

Info

Publication number: CN104820629A
Application number: CN201510243751.0A
Authority: CN
Inventors: 陈勇; 陈金勇
Original assignee: CETC 54 Research Institute
Current assignee: CETC 54 Research Institute
Priority date: 2015-05-14
Filing date: 2015-05-14
Publication date: 2015-08-05
Anticipated expiration: 2035-05-14
Also published as: CN104820629B

Abstract

本发明公开了一种智能的舆情突发事件应急处理***及方法。涉及将自然语言处理技术、本体理论和语义关联技术应用于互联网舆情突发事件的智能识别和防控预案的自动生成。它基于计算机信息处理方法实现对应急防控预案的格式化转化，实现舆情突发事件情景与预案之间的语义匹配，实现对各种互联网舆情突发事件的准确识别和辅助决策。本发明可以对互联网舆情进行实时监控，辅助互联网舆情防控决策，提高处置舆情突发事件的防控响应速度。

Description

一种智能的舆情突发事件应急处理***及方法

技术领域

本发明属于计算机应用领域，涉及将自然语言处理技术、本体理论和语义关联技术应用于互联网舆情突发事件的智能识别和防控方案的自动生成。它基于计算机信息处理方法实现对应急防控预案的格式化转化，实现舆情突发事件情景与预案之间的语义匹配，实现对各种互联网舆情突发事件的准确识别和辅助决策。

背景技术

随着互联网技术的不断发展，互联网已成为一种被广泛使用的大众媒介，其触角几乎伸向社会的各个领域，并逐渐成为公众舆论的一个新的重要媒介。网络舆情是公众在互联网上公开表达的对某种社会现象或社会问题的具有一定影响力和倾向性的共同意见，网络舆情对政治生活秩序和社会稳定的影响与日俱增,一些网络舆情突发事件不能及时妥善处理,极有可能诱发民众的不良情绪及不良行为的发生,进而对社会稳定形成严重威胁。迫切需要一种技术手段能够实现对网络舆情信息的自动监控，能够对舆情突发事件的处置提供决策支持。

发明内容

本发明就是针对上述需求，提出了一种计算机应用***―舆情突发事件应急处理***，它能够对互联网舆情进行实时监控，能够辅助决策者根据舆情突发事件的实际情况有针对性地形成相适合的防控方案，加快对网络舆情突发事件的处置响应速度。

本发明所要解决的技术问题由以下技术方案实现：

一种智能的舆情突发事件应急处理***，其特征在于：该***包括互联网信息采集与解析模块、互联网信息分析模块、网络文本类别判断与聚类分析模块、应急处理方案生成模块和应急处理效果评估模块；所述互联网信息采集与解析模块用于从互联网上采集信息，抽取出网页中自然语言文字以及网页的元数据信息，并保存到数据库中；所述互联网信息分析模块用于对采集来的信息中的自然语言文字进行特征抽取，形成文本特征；所述网络文本类别判断与聚类分析模块用于对网络文本的类别进行判断，对累积网络文本进行聚类分析；所述应急处理方案生成模块用于根据舆情事件的具体情况自动生成相应的处理预案，决策人员可以基于处理预案制定执行方案；所述应急处理效果评估模块用于对执行方案的执行效果进行评估。

一种智能的舆情突发事件应急处理***及方法，其特征在于该方法包括以下步骤:

①互联网信息采集与解析：由连接互联网的计算机从互联网论坛、博客、新闻网站上采集论坛帖子、博客内容和网站新闻网页等网络数据，然后，利用计算机采用基于规则的信息抽取技术自动地对网络数据进行解析，从其中抽取两类信息：自然语言文字信息和网页的元数据信息；自然语言文字信息包括新闻标题、新闻正文、论坛帖子标题、帖子内容等信息；网页的元数据信息包括发表时间、作者、发帖者、帖子回复量、帖子阅读量、出现的网站名称、网站URL等信息，解析出来的信息保存到数据库中，信息采集与解析是一个持续的过程，形成对互联网站的自动连续监控；

②互联网信息分析：首先利用自然语言处理技术的中文分词方法对网络文本的标题和正文内容分别进行分词，并对分词结果中每个词项的词性进行标注，之后舍弃掉除名词、动词、形容词之外的词项，然后利用文本多精度表示方法抽取网络文本的单个词项特征和词项关联特征，再根据分词结果中的词性标注情况识别出网络文本中的地理位置特征和人物特征，地理位置特征是网络文本中出现的地理位置名称、人物特征是网络文本中出现的人物名称；

③将步骤②处理后的网络文本中的词项与计算机数据库中设定的舆情类别的词项特征进行比对匹配，并根据匹配结果将网络文本按照计算机数据库中设定的舆情类别进行归类处理；将不能归类的网络文本进行聚类分析，把内容相近的网络文本聚成簇，若簇内网络文本数量超出设定阈值，则对簇内网络文本进行舆情类别的词项特征抽处理，并将抽取的舆情类别的词项特征补充到计算机数据库中；对于完成归类的网络文本转入步骤④；其中，匹配内容包括单个词项特征、词项关联特征、地理位置特征和人物特征；

④如果在指定时间段内，属于某一类别的网络文本的数量或者出现该类别网络文本的网站数量超过指定的阈值，则启动应急预案；

完成智能舆情突发事件的应急处理。

其中，在步骤④之后还包括应急处理效果评估步骤：首先按照评估指标采集指标数据，然后将指标数据输入评估公式得出量化评估结果。

其中，在步骤③中根据匹配结果将网络文本按照计算机数据库中设定的舆情类别进行归类处理具体为：网络文本类别判断的方法是将网络文本的词项与每个舆情类别的词项特征进行比对匹配，分别在单个词特征、词关联特征、地理位置特征和人物特征四个方面进行匹配运算，根据匹配情况得到网络文本与各个舆情类别的相似度值，将文本归属为相似度值最高的舆情类别。

其中，步骤③中对簇内网络文本进行舆情类别的词项特征抽处理，具体为：假设簇T包含的网络文本有T＝{t₁,t₂,…t_n},利用文本多精度表示方法抽取出每个文本t_i的单个词项特征和词项关联特征，再采用统计方法计算出T中所有文本的所有单个词项特征和词项关联特征的统计分布规律，选择在T中一半以上网络文本中出现过的词汇作为舆情类别词项特征，并计算出其在T内的平均发生频率作为舆情类别特征词项的频率；其中，1≤i≤n。

其中，步骤④中应急预案的生成方法为：基于互联网舆情事件情景本体知识库模型和网络舆情防控措施预案本体知识库，利用语义匹配技术根据舆情事件情景的具体情况，从防控措施预案库中自动匹配出最适合的应急处理预案。

与现有的技术相比，本发明具有以下的优点和有益效果:

1、本发明不仅能够对网络舆情进行自动监控，还能够针对突发舆情事件给出防控措施方案。

2、本发明的舆情类型识别计算机数据库具有可扩展性，通过文本聚类分析不断补充新型舆情类型特征到数据库中，使***能够识别新增类型的舆情事件。

附图说明

图1***模块组成图

图2舆情分类体系模型图

图3舆情分类体系概念属性模型图

图4舆情分类体系示意图

图5类别特征产生过程工作原理图

图6语义匹配原理图

图7基于网络文本聚类的知识扩展图

图8舆情事件情景本体知识库图

图9舆情防控措施预案本体知识库图

图10网络舆情防控知识语义模型图

图11基于语义的匹配方法图

图12应急处理效果评估指标体系图

具体实施方式

下面将结合附图和具体实施例对本发明做进一步说明。但本发明的实施方式不限于此。

本实施例提供一种智能的舆情突发事件应急处理***，该***包括互联网信息采集与解析模块，互联网信息分析模块，网络文本类别判断与聚类分析模块，应急处理方案生成模块，应急处理效果评估模块，如附图1所示；所述互联网信息采集与解析模块用于从互联网上采集信息，抽取出网页中自然语言文字以及网页的元数据信息，并保存到数据库中；所述互联网信息分析模块用于对采集来的信息中的自然语言文字进行特征抽取，形成文本特征；所述网络文本类别判断与聚类分析模块用于对网络文本的类别进行判断，对累积网络文本进行聚类分析；所述应急处理方案生成模块用于根据舆情事件的具体情况自动生成相应的处理预案，决策人员可以基于处理预案制定执行方案；所述应急处理效果评估模块用于对执行方案的执行效果进行评估。

本实施例还提供一种智能的舆情突发事件应急处理***的工作方法，该方法包括以下步骤:

①互联网信息采集与解析：由连接互联网的计算机从互联网论坛、博客、新闻网站上采集论坛帖子、博客内容和网站新闻网页等网络数据，然后，利用计算机采用基于规则的信息抽取技术自动地对网络数据进行解析，从其中抽取两类信息：自然语言文字信息和网页的元数据信息。自然语言文字信息包括新闻标题、新闻正文、论坛帖子标题、帖子内容、作者、发帖者等信息；网页的元数据信息包括发表时间、帖子回复量、帖子阅读量、出现的网站名称、网站URL等，解析出来的关键信息保存到数据库中，信息采集与解析是一个持续的过程，形成对互联网站的自动连续监控。

②互联网信息分析：首先利用自然语言处理技术的中文分词方法对网络文本的标题和正文内容进行分词和词性标注处理，标注出每个词项的词性，舍弃掉文本中除名词、动词、形容词之外的词汇。然后利用已获得国家发明专利授权的“一种用于文本检索***的文本多精度表示方法”所述方法抽取网络文本的单个词特征和词关联特征。另外，根据分词结果中的词性标注情况识别出文本中的地理位置特征和人物特征，地理位置特征是网络文本中出现的地理位置名称、人物特征是网络文本中出现的人物名称，如附图5中的网络文本语义特征抽取功能单元所示。总的来说网络文本的特征是一组词汇，配有其发生频率。

③网络文本类别判断与聚类分析：其目的是基于网络文本的内容采用文本分类技术判断网络文本的所属类别。所属类别是基于本体论事先建立起来的一个舆情分类体系模型中的一种，舆情分类体系模型如附图2所示，它是一个层次化模型，第一层是大类，第二层是小类，每个小类都由概念属性来定义，如附图3所示，有两个概念属性：类别语义特征和防控策略。类别语义特征包括：

单个词特征：类别语义特征抽取模块抽取出的网络文本的单个词特征；

词关联特征：类别语义特征抽取模块抽取出的网络文本的多词关联特征；

地理位置特征：类别语义特征抽取模块抽取出的网络文本中的地理位置名称；

人物特征：类别语义特征抽取模块抽取出的网络文本中的人物名称；

实例：该类型网络舆情的一个实例文本；

类别判断准则。判断一批某类舆情相关的文本累积是否真的是一次舆情事件。例如，IF出现舆情文本的网站数量大于n THEN是一次舆情事件；IF舆情文本的回帖数量大于n THEN是一次舆情事件。

防控策略包括防控原则和防控方法，防控原则是针对某类舆情事件开展防御和控制的基本原则；防控方法是针对某类舆情采取的具体防控措施。

图4是一个实际舆情分类体系的示意图。

每一个类别都有其类别特征，为每个类别产生类别特征的方法如附图5所示：首先采集各个类别的若干网络文本作为训练样本，利用自然语言处理技术的中文分词方法对所有训练样本进行分词和词性标注处理，标注出每个词项的词性，舍弃掉文本中除名词、动词、形容词之外的词汇；由网络文本语义特征抽取功能单元抽取每个文本的单个词特征、词关联特征、地理位置特征和人物特征，再由类别语义特征抽取功能单元抽取类别语义特征；具体方法是：利用计算机采用统计算法计算出每个文本的各个特征在每个类别内以及训练样本全集的统计分布规律，选择在一半以上类别样本文档中出现过且不是训练样本全集内所有样本所共有的词汇作为类别特征词，并计算出其类别内平均发生频率作为类别特征词的频率。总的来说类别特征是一组代表类别特征的词汇，配有其平均发生频率。

网络文本类别判断的方法是将网络文本的特征词项与每一个类别特征词项进行比对匹配，如附图6所示，分别在单个词特征、词关联特征、地理位置特征和人物特征四个方面进行匹配运算，并按照下面的公式计算相似度值，将文本归属为相似度值最高的类别。

其中，

d表示待分类文档；

C表示类别；

coord(d,C)表示待识别文本d中包含类别C的类别特征词项的数量；

frequency表示特征词项t在类别特征中的词频；

weight(t)：表示特征词项t的权重；

frequency和weight值可以从建模过程中创建的类别特征词项表中获得，类别特征词项表如表1所示。

表1 类别特征词项表

类别	特征词	词频	权重
				varchar	varchar	float	float

idf (t) =1+log (\frac{numofClasses}{ClassFreq (t) + 1})

numofClasses：表示共有几个类别；

ClassFreq(t)：表示特征项项t同时是几个类别的特征词项。

如附图7所示，网络文本经过预处理功能单元处理后，获得文本分词结果并去除停用词，再通过语义特征抽取模块得到其语义特征，利用网络文本类别判断功能单元判读其是否为已知的n种网络舆情的一种，若是则将其归类，否则，将其转给网络文本聚类分析功能单元进行分析，看其中是否有热点话题,对采集来到每一个网络文本都进行类别判断，符合分类条件的网络文本被赋以相应的类别标签。如果在指定时间段内，属于某一类别的网络文本的数量、出现该类别网络文本的网站数量超过指定的阈值，则向***操作人员发出告警，进而由应急处理方案生成模块给出应急处理方案。

在上述网络文本类别判断过程中，会出现一些不属于现有舆情分类体系模型中的任何一类的文本，随着时间的推移，未知类型文本会不断累积，对累积的未知类型文本进行聚类分析,把内容相近的网络文本聚成簇，若簇内网络文本数量超出一定阈值，则将其作为热点话题提交人工判读，如果确定其为新的舆情类别，则对其进行舆情类别语义特征抽处理，并将抽取的类别语义特征补充到知识库中，具体过程如附图7所示；上述过程保证了本***的知识库的可扩展性，使得***在补充知识后能够识别互联网上的新型舆情。

④应急处理方案生成：是在舆情类型识别的基础上，针对识别出的舆情类型提供应急处置预案，其特征是，利用本体论技术构建层次化的互联网舆情事件情景本体知识库模型和网络舆情防控措施预案本体知识库模型。前者对舆情事件进行定性和定量的描述，如附图8所示；后者将自然语言文字方式存在的舆情应急防控规章制度、处理规范、应对措施进行数字化，如附图9所示。这样做的目的是将非格式化的信息转变为计算机可理解的格式化信息。有了上述两个知识库模型的支撑，就可以基于计算机利用语义匹配技术自动地实现舆情事件的自动识别，相应防范措施、处理方案的快速自动推理，处理预案的实时辅助生成。情景本体知识库包括舆情、时间、网站、参与者、受众、潜在危害等知识概念。

在互联网信息分析和网络文本类别判断步骤中识别出来的舆情事件的信息会被抽取出来存储到舆情事件情景本体知识库中；舆情类别信息由网络文本类别判断步骤给出，具体采用的是文本分类技术；舆情内容、时间发生时间、时间持续时间、网站名称、网站数量、参与者用户名由互联网信息分析步骤给出的，采用的是基于规则的信息抽取技术；其它信息如舆情等级、参与者IP地址等信息则根据先验知识进行填写。

舆情防控措施预案本体知识库包括编制依据、适用范围、资源、防控措施四个方面，其内容根据具体的法律法规内容进行填写。

基于互联网舆情事件情景本体知识库和网络舆情防控措施预案本体知识库共同构成了网络舆情防控知识语义模型，基于此模型，利用语义匹配技术生成应急预案，如附图10所示。应急预案是指导处置各种舆情突发事件的方案和方法，而每个舆情事件的具体条件、状况和参数各不相同，决策者需要根据具体情况从防控预案中选定适当的防控处置措施、方法和实施步骤作为应急预案，并调配相应的组织机构和部门执行应急预案。为此，将事件情景的“舆情类别”、“舆情内容”、“舆情等级”分别与预案本体的“适用事件类型”、“适用事件内容”、“适用事件等级”相匹配，如附图11所示，从而发现与舆情事件相适合的应对预案，如表2和表3所示。

表2 基于语义匹配生成的预案示例

表3 预案示例说明

应对预案只是一个指导性的方案，需要再根据舆情的具体情况，例如，时间、网站、参与者、受众、潜在危害等情况生成一个具体的执行方案。

⑤应急处理效果评估：应急处理效果评估是基于评估指标体系和评估计算公式完成的，评估指标体系包含了需要评估的事项，评估计算公式计算出量化评估结果；评估指标体系如附图12所示，每个指标的详细描述如表4所示。

表4 应急处理效果评估指标体系

舆情强度指标旨在衡量舆情在范围和形式上的情况。①舆情范围指的是舆情的广度，由网站覆盖度、地区覆盖度、网站数量三个指标来衡量。网站覆盖度指的是包含舆情文本的网站占样本网站的比重；样本网站是经过精心选取的，能在一定程度上代表整个网络状态和水平的网站集合；由于各网站的规模级别不同，要对其进行加权处理，出现舆情文本的样本网站越多，说明舆情的范围越广，当实施防控措施后，如果包含舆情文本的网站数量出现减少的趋势说明防控措施发挥了作用。地区覆盖度指的是包含舆情文本的网站的地理分布情况，出现舆情文本的网站分布越广，说明舆情的影响范围越广。网站数量指的是包含舆情文本的网站的总数量，数量越多，说明舆情的影响范围越广。②舆情形式指的是舆情传播的媒介渠道种类、所用网络文本的长短、网络文本的媒体种类。媒介渠道种类可以是BBS、微博、博客、交友平台、电子邮件等，所用的渠道越多，则传播能力越强。所用网络文本的长度越长，则传播能力越强。媒体种类可以是文本、音频、视频，所用媒体种类越多则舆情影响越强。

受众关注度指标旨在反映网络舆情对受众的影响力，通过受众情况、受众响应、受众态度等指标来衡量。①受众情况指的是受舆情影响的受众数量和受众范围，受众数量通过网络文本浏览者IP数量来测量，受众范围通过网络文本浏览者IP的分布地域广度来测量。②受众响应指的是浏览者对网络文本的关注程度，通过阅读量、转发量、回帖量、活跃度来衡量。阅读量通过网络文本的点击数量来测量，转发量通过网络文本在全互联网范围内不同网站的出现次数来测量，回帖量通过网络文本回复数量来测量，活跃度通过单位时间内对网络文本的回复数量来测量③受众态度指的是浏览者对网络文本所表达的观点的认同度，通过正面态度回帖数量、中性态度回帖数量、负面态度回帖数量来衡量。

该指标体系的各级指标的权重通过层次分析法计算得出，每一项指标均可量化计算得出，指标的量化计算方法分为三种：指数计算、频率/密度计算和权重系数确定。

(1)指数计算

指标体系中有定量指标和定性指标。定量指标包括阅读量、转发量、回帖量等指标；定性指标包括视听化程度。为具有可比性，将定性指标与定量指标按归一化处理，这里采用指数计算方法，具体采用Sigmoid函数进行计算，其中x表示阅读量、转发量、回帖量等。以受众响应为例，设对于网络文本i，网络文本的点击数量为x_1i，网络文本在全互联网范围内不同网站的出现次数为x_2i，网络文本回复数量为x_3i，单位时间内对网络文本的回复数量为x_4i。设阅读量、转发量、回帖量、活跃度的权重是g1、g2、g3、g4，则网络文本对受众响应的影响力P1为：

P1＝f(x_1i)×g₁+f(x_2i)×g₂+f(x_3i)×g₃+f(x_4i)×g₄

(2)频率计算

活跃度是根据网民对网络文本的回复频率来衡量，以天、星期、月为统计时间单位。

(3)权重系数确定

根据专家经验利用层次分析法确定各种属性因素的权重系数。其主要特征是把复杂的问题分解为若干个组成因素，将这些因素按从属关系分为层次结构；专家评比时只需对各因素进行两两比较，确定同一层次中诸因素的相对重要性，然后综合专家的判断决定各因素相对重要的顺序。用这种方法来决定各因素的加权系数比在很多因素中凭经验同时定出加权系数更科学一些，因为人们只作两两比较时容易得出比较准确的判断。但在使用这些方法时，为了保证效果，每一层次所包含的因素一般超过10个。进行两两对比时按9分制进行，1代表相当，3是稍好，5是明显地好，7是十分好，9是极好。如介于上述二者之间则用2、4、6或8分表示。根据两两对比打分结果构成评分矩阵，通过求矩阵的最大特征根和特征向量即可计算出各因素相对于上一层目标的重要性或评价权重。如果要求计算各参数对再上一层目标的重要性顺序或影响程度大小，可以将底层的各参数的权重逐一乘上与其有关的上一层因素的权重，然后相加，这样各参数对再上一层的优劣顺序或加权系数就计算出来了。

量化评估结果的计算公式为,

E = Σ_{i = 1}^{n} ω_{i} \times A_{i}

其中，A_i代表一级指标，舆情强度和受众关注度的分值，ω_i代表各自的权重。

每一个一级指标则是由其下属的二级指标决定的，计算公式为其中，是第i个一级指标的第j项，其权重为ω_j。类似地，每一个二级指标由其下属的三级指标决定。

Claims

1.一种智能的舆情突发事件应急处理***，其特征在于：该***包括互联网信息采集与解析模块、互联网信息分析模块、网络文本类别判断与聚类分析模块、应急处理方案生成模块和应急处理效果评估模块；所述互联网信息采集与解析模块用于从互联网上采集信息，抽取出网页中自然语言文字以及网页的元数据信息，并保存到数据库中；所述互联网信息分析模块用于对采集来的信息中的自然语言文字进行特征抽取，形成文本特征；所述网络文本类别判断与聚类分析模块用于对网络文本的类别进行判断，对累积网络文本进行聚类分析；所述应急处理方案生成模块用于根据舆情事件的具体情况自动生成相应的处理预案，决策人员可以基于处理预案制定执行方案；所述应急处理效果评估模块用于对执行方案的执行效果进行评估。

2.一种智能的舆情突发事件应急处理方法，其特征在于包括以下步骤:

①互联网信息采集与解析：由连接互联网的计算机从互联网上采集网络文本；然后，计算机采用基于规则的信息抽取技术自动地对网络文本进行解析，从其中抽取两类信息：自然语言文字信息和网页的元数据信息；

②互联网信息分析：首先利用自然语言处理技术的中文分词方法对网络文本的标题和正文内容分别进行分词，并对分词结果中每个词项的词性进行标注，之后舍弃掉除名词、动词、形容词之外的词项，然后利用文本多精度表示方法抽取网络文本的单个词项特征和词项关联特征，再根据分词结果中的词性标注情况识别出网络文本中的地理位置特征和人物特征；

完成智能舆情突发事件的应急处理。

3.根据权利要求2所述的一种智能的舆情突发事件应急处理方法，其特征在于：在步骤④之后还包括应急处理效果评估步骤：首先按照评估指标采集指标数据，然后将指标数据输入评估公式得出量化评估结果。

4.根据权利要求2所述的一种智能的舆情突发事件应急处理方法，其特征在于：在步骤③中根据匹配结果将网络文本按照计算机数据库中设定的舆情类别进行归类处理具体为：网络文本类别判断的方法是将网络文本的词项与每个舆情类别的词项特征进行比对匹配，分别在单个词特征、词关联特征、地理位置特征和人物特征四个方面进行匹配运算，根据匹配情况得到网络文本与各个舆情类别的相似度值，将文本归属为相似度值最高的舆情类别。

5.根据权利要求2所述的一种智能的舆情突发事件应急处理方法，其特征在于：步骤③中对簇内网络文本进行舆情类别的词项特征抽处理，具体为：假设簇T包含的网络文本有T＝{t₁,t₂,…t_n},利用文本多精度表示方法抽取出每个文本t_i的单个词项特征和词项关联特征，再采用统计方法计算出T中所有文本的所有单个词项特征和词项关联特征的统计分布规律，选择在T中一半以上网络文本中出现过的词汇作为舆情类别词项特征，并计算出其在T内的平均发生频率作为舆情类别特征词项的频率；其中，1≤i≤n。

6.根据权利要求2所述的一种智能的舆情突发事件应急处理方法，其特征在于：步骤④中应急预案的生成方法为：基于互联网舆情事件情景本体知识库模型和网络舆情防控措施预案本体知识库，利用语义匹配技术根据舆情事件情景的具体情况，从防控措施预案库中自动匹配出最适合的应急处理预案。