CN107193796B

CN107193796B - 一种舆情事件检测方法及装置

Info

Publication number: CN107193796B
Application number: CN201610197073.3A
Authority: CN
Inventors: 蔡慧慧; 刘克松; 张丹; 于晓明; 杨建武
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Peking University; Beijing Founder Electronics Co Ltd
Priority date: 2016-03-14
Filing date: 2016-03-31
Publication date: 2021-12-24
Anticipated expiration: 2036-03-31
Also published as: CN107193796A

Abstract

本发明公开了一种舆情事件检测方法及装置，方法包括：获取待检测文本的特征词向量；获取所有特征词对应的向量，并获取敏感义项向量；计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度；获取相似度最大时对应的第一敏感义项，并获取待检测文本中第一敏感义项的数量和待检测文本中特征词的数量，根据第一预设权值和第二预设权值，计算第一敏感义项的数量和特征词的数量的加权和，当加权和大于阈值时确定待检测文本中描述的事件为舆情事件。本发明通过对待检测文本向量化，能够达到有效的语义约束；同时通过计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度，能够准确检测出需要进行关注的舆情事件的问题。

Description

一种舆情事件检测方法及装置

技术领域

本发明涉及计算机技术领域，具体涉及一种舆情事件检测方法及装置。

背景技术

随着互联网的迅猛发展，网络舆情正在成为普通百姓表达利益诉求，倡导社会公平公正，不间断地向我国各级政府传达民众共同心声的一块思想阵地。越来越多的人愿意把所想表达的观点和所看到的现象发布到网络上，通过网络的传播让更多的人参与进来，从而对网民情绪和社会稳定产生了重大影响。因此，利用现代科学技术，准确检测舆情事件具有十分重要的意义。

目前关于舆情事件的检测发现，还停留在利用一些舆情敏感词汇来进行语义匹配，又由于与舆情事件关联的命名实体词，如人名、外文人名译名和机构名简称，只有出现在相关联事件的语境中才体现舆情。而对于存在重名的命名实体，需要结合当前舆情事件背景分析其含义，对于该类具有歧义的特征词，传统静态语料库中可能未含有对其最新的解释性义项。这种传统的基于舆情特征词(敏感词、命名实体等)的过滤方法，因其实现机制简单、执行效率高，仍是一种重要的预处理手段；然而，面对互联网海量文本，尤其是碎片化、不规范的社会化媒体内容，该预处理过滤机制由于缺乏有效的语义约束，存在一定的假阳性，容易造成错判、漏判，无法准确识别需要进行关注的舆情事件。在大数据的网络舆情预警应用环境中给后续处理带来相当可观的噪音数据输入，因此亟需要具备语义理解能力的数据预处理机制。

发明内容

由于传统的特征词过滤方法面对互联网海量文本，缺乏有效的语义约束，容易造成错判、漏判，无法准确检测出需要进行关注的舆情事件的问题，本发明提出一种舆情事件检测方法及装置。

第一方面，本发明提出一种舆情事件检测方法，包括：

获取待检测文本的特征词向量，所述特征词向量的元素表示待检测文本中对应的特征词是否出现；

从语义知识库中获取所有特征词对应的向量，并从敏感词库获取敏感义项向量，所述特征词对应的向量的元素包括当前特征词、当前特征词是否包含敏感义项、当前特征词的当前义项和当前特征词对应的特征词向量，所述敏感义项向量表示当前特征词对应的向量中的义项为当前敏感义项；

计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度，其中，所述所有特征词对应的特征词向量包括所有敏感义项向量；

获取相似度最大时对应的第一敏感义项，并获取待检测文本中所述第一敏感义项的数量和待检测文本中特征词的数量，根据第一预设权值和第二预设权值，计算所述第一敏感义项的数量和所述特征词的数量的加权和，当所述加权和大于阈值时确定待检测文本中描述的事件为舆情事件。

优选地，所述获取待检测文本的特征词向量之前包括：

根据网页内容构建所述语义知识库。

优选地，所述网页内容存储在xml格式文件中。

优选地，所述网页内容为***。

优选地，所述根据网页内容构建所述语义知识库之后包括：

根据所述语义知识库和预设特征词的敏感义项建立敏感词库。

第二方面，本发明还提出一种舆情事件检测装置，包括：

特征词向量获取模块，用于获取待检测文本的特征词向量，所述特征词向量的元素表示待检测文本中对应的特征词是否出现；

对应向量获取模块，用于从语义知识库中获取所有特征词对应的向量，并从敏感词库获取敏感义项向量，所述特征词对应的向量的元素包括当前特征词、当前特征词是否包含敏感义项、当前特征词的当前义项和当前特征词对应的特征词向量，所述敏感义项向量表示当前特征词对应的向量中的义项为当前敏感义项；

相似度计算模块，用于计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度，其中，所述所有特征词对应的特征词向量包括所有敏感义项向量；

事件检测模块，用于获取相似度最大时对应的第一敏感义项，并获取待检测文本中所述第一敏感义项的数量和待检测文本中特征词的数量；根据第一预设权值和第二预设权值，计算所述第一敏感义项的数量和所述特征词的数量的加权和，当所述加权和大于阈值时确定待检测文本中描述的事件为舆情事件。

优选地，还包括：

语义知识库构建模块，用于根据网页内容构建所述语义知识库。

优选地，所述网页内容存储在xml格式文件中。

优选地，所述网页内容为***。

优选地，还包括：

敏感词库建立模块，用于根据所述语义知识库和预设特征词的敏感义项建立敏感词库。

由上述技术方案可知，本发明通过对待检测文本向量化，能够达到有效的语义约束；同时通过计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度，能够准确检测出需要进行关注的舆情事件的问题，大大降低错判和漏判的概率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种舆情事件检测方法的流程示意图；

图2为本发明一实施例提供的一种舆情事件检测方法的流程图；

图3为本发明一实施例提供的一种舆情事件检测装置的结构示意图。

具体实施方式

下面结合附图，对发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

图1示出了本发明一实施例提供的一种舆情事件检测方法的流程示意图，包括：

S101、获取待检测文本的特征词向量，所述特征词向量的元素表示待检测文本中对应的特征词是否出现；

S102、从语义知识库中获取所有特征词对应的向量，并从敏感词库获取敏感义项向量，所述特征词对应的向量的元素包括当前特征词、当前特征词是否包含敏感义项、当前特征词的当前义项和当前特征词对应的特征词向量，所述敏感义项向量表示当前特征词对应的向量中的义项为当前敏感义项；

S103、计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度，其中，所述所有特征词对应的特征词向量包括所有敏感义项向量；

S104、获取相似度最大时对应的第一敏感义项，并获取待检测文本中所述第一敏感义项的数量和待检测文本中特征词的数量，根据第一预设权值和第二预设权值，计算所述第一敏感义项的数量和所述特征词的数量的加权和，当所述加权和大于阈值时确定待检测文本中描述的事件为舆情事件。

其中，当所述特征词向量的元素对应的特征词为敏感词时，可将对应元素设为0。

本实施例通过对待检测文本向量化，能够达到有效的语义约束；同时通过计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度，能够准确检测出需要进行关注的舆情事件的问题，大大降低错判和漏判的概率。

作为本实施例的可选方案，步骤S101之前包括：

S100、根据网页内容构建所述语义知识库。

通过构建语义知识库，对舆情敏感词进行歧义标注，为分析检测舆情事件提供语义支撑，为待检测文本中的敏感词找到正确的含义提供依据。由于舆情特征词往往是对舆情的直接体现，但是舆情特征词在不同的语境却可以表示不同的含义，因此，该类具有歧义的舆情特征词往往给文本过滤预处理带来假阳性问题。因此，通过借助该语义知识库准确给出其描述可识别出其在具体语境中所表达的意思。

其中，对于语义知识库中存储的特征词对应的向量，是通过对分词预处理后的文本利用深度学习工具word2vec进行训练得到的。对每个分词(即为待检测文本中的特征词)，都可以用一定维数的向量将其有效表示。如下表所示

具体地，所述网页内容存储在xml格式文件中。

举例来说，所述网页内容为***。

***(Wikipedia)是规模最大的在线网络百科全书之一，采用群体在线合作编辑的Wiki机制，具有质量高、覆盖广、实时演化和半结构化等特点，是用来构建语义知识库的优质语料来源。特别针对***中的歧义词，人工标注反映舆情特征的义项，为后续预警分析提供支持。以xml格式的***语料作为输入，从中提取词的描述内容，分析是否为歧义词和重定向词、是否需要繁简转换，保留摘要介绍部分，同时对敏感特征词进行标注。

借助***强大的语义知识，可自动增加舆情敏感词，扩大舆情事件的表征范围，从而辅助用户更好地把握舆情动向，制定相关对策予以应对。

进一步地，步骤S100之后包括：

S1001、根据所述语义知识库和预设特征词的敏感义项建立敏感词库。

其中，对待检测文本进行处理时，可以以分句为处理单位，对敏感词进行处理。具体处理时，将待检测文本分句的特征词向量中的特征词与语义知识库中特征词对应的向量相匹配，通过计算不同特征词的义项之间的相似度以及与待检测文本的相似度，相似度越高说明该义项越贴近其在文本中的真实含义，则选取该义项与敏感词相配，利用最优化方法获取目标函数最大值时各歧义词在文本中的准确含义。计算公式如下：

maxf(w_i)

f(w_i)＝f(w_i+1)+Sim(w_i,w_i+1)+Sim(w_i,doc_i)

s.t.

w_i∈{v₁,v₂…,v_m}

doc_i＝(w₁,w₂,…,w_n),w_i＝0

其中：w_i表示待检测文本中的特征词，f(w_i)表示词w_i到句子结尾词的语义相似度值，doc_i是文本去除敏感词后的向量表示，即相应位置的元素置为0；v₁，v₂……是特征词对应的向量，若该词为非歧义词，则有一个向量表示，反之，有多个向量表示；Sim(w_i,w_i+1)是计算相邻敏感词相似度的函数，Sim(w_i,doc_i)是计算敏感词与文本的相似度的函数。由于词与文本均用词向量来表示，相似度计算函数可采用余弦相似度计算方法。

举例来说，根据待检测文本检测舆情事件时，如图2所示，可先对待检测文本进行分词和去停用词操作，其中，分词是指将待检测文本中的句子分成多个特征词，去停用词是指删去待检测文本中的停用词，如“同时”、“另外”等。

然后，利用word2vec从语义知识库和敏感词库中获取待检测文本中敏感义项的向量，便于后续针对待检测文本的句子中的相邻词进行相似度计算；

接着，利用每个特征词的敏感义项向量与其他特征词对应的向量及待检测文本的特征词向量进行相似度计算，取相似度最大值时各敏感义项的含义，从而获取与其他词及待检测文本都能合理搭配的敏感义项，确定该特征词在待检测文本中的具体含义；

最后，对文本中的命名实体及敏感义项进行权重求和，大于一定阈值则判定为需要预警的舆情事件。其中，命名实体是指待检测文本中特征词的数量。

本实施例利用特征词的不同义项和待检测文本中所有特征词的信息标注进行有监督学习的语义识别。能够避免仅仅依靠关键词匹配对舆情事件进行错误检测的弊端，从而准确识别舆情事件，对需要预警的舆情事件进行预警提示。

图3示出了本发明一实施例提供的一种舆情事件检测装置的结构示意图，包括：

特征词向量获取模块31，用于获取待检测文本的特征词向量，所述特征词向量的元素表示待检测文本中对应的特征词是否出现；

对应向量获取模块32，用于从语义知识库中获取所有特征词对应的向量，并从敏感词库获取敏感义项向量，所述特征词对应的向量的元素包括当前特征词、当前特征词是否包含敏感义项、当前特征词的当前义项和当前特征词对应的特征词向量，所述敏感义项向量表示当前特征词对应的向量中的义项为当前敏感义项；

相似度计算模块33，用于计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度，其中，所述所有特征词对应的特征词向量包括所有敏感义项向量；

事件检测模块34，用于获取相似度最大时对应的第一敏感义项，并获取待检测文本中所述第一敏感义项的数量和待检测文本中特征词的数量；根据第一预设权值和第二预设权值，计算所述第一敏感义项的数量和所述特征词的数量的加权和，当所述加权和大于阈值时确定待检测文本中描述的事件为舆情事件。

作为本实施例的可选方案，还包括：

具体地，所述网页内容存储在xml格式文件中。

举例来说，所述网页内容为***。

进一步地，还包括：

本发明的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

Claims

1.一种舆情事件检测方法，其特征在于，包括：

从语义知识库中获取所有特征词对应的向量，所述特征词对应的向量的元素包括当前特征词、当前特征词是否包含敏感义项、当前特征词的当前义项和当前特征词对应的特征词向量；并从敏感词库获取敏感义项向量，所述敏感义项向量表示当前特征词对应的向量中的义项为预设的特征词敏感义项；且所述敏感词库是基于所述语义知识库和预设特征词的敏感义项建立的；其中，所述语义知识库所有特征词中的敏感特征词对应的向量均具有歧义标注；

计算待检测文本的特征词向量和所有特征词对应的特征词向量的总体相似度，其中，所述所有特征词对应的特征词向量包括从敏感词库获取的所有敏感义项向量；且所述计算待检测文本的特征词向量和所有特征词对应的特征词向量的总体相似度具体包括：计算多个特征词向量之间相似度以及计算各特征词与背景文本向量的相似度的和，以作为所述总体相似度；

其中，所述总体相似度函数f(w_i)的相关计算公式如下：

max f(w_i)

f(w_i)＝f(w_i+1)+Sim(w_i,w_i+1)+Sim(w_i,doc_i)

s.t.

w_i∈{v₁,v₂…，v_m}

doc_i＝(w₁，w₂，…，w_n)，w_i＝0

其中，w_i表示待检测文木中的特征词向量，v₁，v₂……是待检测文木中各分词分别对应的特征词向量，若该词为非歧义词，则有一个向量表示，反之，有多个向量表示；f(w_i)表示所述计算待检测文本的特征词向量和所有特征词对应的特征词向量的总体相似度；Sim(w_i,w_i+1)表示两两相邻特征词向量之间相似度；Sim(w_i,doc_i)表示各特征词与背景文本向量的相似度；其中，doc_i是背景文本向量，为对待检测文本去除敏感特征词后的背景文本进行的向量表示，即将是否包含敏感义项相应位置的元素置为0时背景文本的向量表示；

获取待检测文本特征体总体相似度函数取最大值时待检测文本的特征词向量对应的第一敏感义项，包括：通过最优化方法，并基于语义知识库中的歧义标注，获取总体相似度函数取最大值时待检测文本的特征词向量对应的第一敏感义项，以确定歧义词在文本中的准确含义；

对待检测文本中的多个敏感特征词，均重复执行上述各步骤以分别获得其对应的第一敏感义项；根据获得的第一敏感义项，并获取待检测文本中所述第一敏感义项的数量和待检测文本中特征词的数量，根据第一预设权值和第二预设权值，计算所述第一敏感义项的数量和所述特征词的数量的加权和，当所述加权和大于阈值时确定待检测文本中描述的事件为舆情事件。

2.根据权利要求1所述的方法，其特征在于，所述获取待检测文本的特征词向量之前包括：

根据网页内容构建所述语义知识库。

3.根据权利要求2所述的方法，其特征在于，所述网页内容存储在xml格式文件中。

4.根据权利要求3所述的方法，其特征在于，所述网页内容为***。

5.根据权利要求4所述的方法，其特征在于，所述根据网页内容构建所述语义知识库之后包括：

根据所述语义知识库和预设的特征词敏感义项建立敏感词库。

6.一种舆情事件检测装置，其特征在于，包括：

对应向量获取模块，用于从语义知识库中获取所有特征词对应的向量，所述特征词对应的向量的元素包括当前特征词、当前特征词是否包含敏感义项、当前特征词的当前义项和当前特征词对应的特征词向量；并从敏感词库获取敏感义项向量，所述敏感义项向量表示当前特征词对应的向量中的义项为预设的特征词敏感义项；且所述敏感词库是基于所述语义知识库和预设特征词的敏感义项建立的；其中，所述语义知识库所有特征词中的敏感特征词对应的向量均具有歧义标注；

相似度计算模块，用于计算待检测文本的特征词向量和所有特征词对应的特征词向量的总体相似度，其中，所述所有特征词对应的特征词向量包括从敏感词库获取的所有敏感义项向量；且所述计算待检测文本的特征词向量和所有特征词对应的特征词向量的总体相似度具体包括：计算多个特征词向量之间相似度以及计算各特征词与背景文本向量的相似度的和，以作为所述总体相似度；

其中，所述总体相似度函数f(w_i)的相关计算公式如下：

maxf(w_i)

f(w_i)＝f(w_i+1)+Sim(w_i,w_i+1)+Sim(w_i,doc_i)

s.t.

w_i∈{v₁,v₂…,v_m}

doc_i＝(w₁,w₂,…,w_n),w_i＝0

其中，w_i表示待检测文本中的特征词向量，v₁，v₂……是待检测文本中各分词分别对应的特征词向量，若该词为非歧义词，则有一个向量表示，反之，有多个向量表示；f(w_i)表示所述计算待检测文本的特征词向量和所有特征词对应的特征词向量的总体相似度；Sim(w_i,w_i+1)表示两两相邻特征词向量之间相似度；Sim(w_i,doc_i)表示各特征词与背景文本向量的相似度；其中，doc_i是背景文本向量，为对待检测文本去除敏感特征词后的背景文本进行的向量表示，即将是否包含敏感义项相应位置的元素置为0时背景文本的向量表示；

事件检测模块，用于获取待检测文本特征体总体相似度函数取最大值时特征词向量对应的第一敏感义项，包括：通过最优化方法，并基于语义知识库中的歧义标注，获取总体相似度函数取最大值时待检测文本的特征词向量对应的第一敏感义项，以确定歧义词在文本中的准确含义；

事件检测模块，还用于对待检测文本中的多个敏感特征词，均重复执行上述各步骤以分别获得其对应的第一敏感义项；根据获得的第一敏感义项，并获取待检测文本中所述第一敏感义项的数量和待检测文本中特征词的数量；根据第一预设权值和第二预设权值，计算所述第一敏感义项的数量和所述特征词的数量的加权和，当所述加权和大于阈值时确定待检测文本中描述的事件为舆情事件。

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求7所述的装置，其特征在于，所述网页内容存储在xml格式文件中。

9.根据权利要求8所述的装置，其特征在于，所述网页内容为***。

10.根据权利要求9所述的装置，其特征在于，还包括：

敏感词库建立模块，用于根据所述语义知识库和预设的特征词敏感义项建立敏感词库。