CN111324801A

CN111324801A - 基于热点词的司法领域热点事件发现方法

Info

Publication number: CN111324801A
Application number: CN202010096023.2A
Authority: CN
Inventors: 余正涛; 梁昊远; 毛存礼; 郭军军; 黄于欣; 张勇丙
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2020-06-23
Anticipated expiration: 2040-02-17
Also published as: CN111324801B

Abstract

本发明涉及基于热点词的司法领域热点事件发现方法，属自然语言处理领域。本发明先对爬取的司法舆情新闻进行处理，通过HanLP工具分词并抽取舆情新闻中的舆情要素，然后通过对舆情要素进行词频统计得到热点词集合并建立热点词与舆情新闻的对应关系，接下来通过相似度计算***对舆情新闻进行两两评估以决定归并与否，相似度计算***包括三个子***：基于舆情新闻正文要素统计的文本相似度计算***、基于BERT的舆情标题相似度计算***以及基于tf‑idf的舆情标题相似度计算***。在得到以上子***的结果后，通过分别设置阈值的方式决定两条舆情文本是否属于同一热点事件。最后根据子***的最终结果决定两条舆情是否为同一热点事件。

Description

基于热点词的司法领域热点事件发现方法

技术领域

本发明涉及基于热点词的司法领域热点事件发现方法，属于自然语言处理技术领域。

背景技术

伴随互联网的迅速发展，社交网络逐渐成为获得与分享新闻的重要渠道。大量司法领域的相关舆情也会在互联网中显现出来，而司法领域的相关舆情聚焦于社会热点案件问题，因此社会热点极易聚焦在一些敏感事件上，导致社会舆论呈现病毒式的爆发趋势。因此司法部门如何快速且有效地发现这些热点事件成为了一个至关重要的问题。

在互联网上，数据的实时性非常强，一些热点案件的相关舆情数量极易在短时间内呈***式增长，因此，在司法领域舆情的热点事件发现中，需要定期爬取互联网中的数据且时间间隔不能太长。这也就导致了司法领域数据有以下特点：(1)数据主题数量难以预估；(2)数据里各主题的舆情分布不均衡；(3)数据中充斥大量噪声。而正是由于这些特点，传统的主题模型无法得到准确的主题。

综上所有，需要提供一种能够加快热点事件发现速度且提高准确率的司法领域热点事件发现方法。

发明内容

为解决上述问题，本发明提供了基于热点词的司法领域热点事件发现方法。

本发明的技术方案是：基于热点词的司法领域热点事件发现方法，所述方法的具体步骤如下：

Step1、利用爬虫爬取司法舆情新闻并对数据进行预处理，并使用开源工具分词并提取中文舆情新闻中的要素得到要素集合，并对要素进行词频统计；

Step2、如果数据库中并没有热点事件，则把Step1中词频大于等于阈值的要素定义为热点词，并通过相似度计算***计算各个热点词所对应舆情新闻之间的相似度，根据返回结果决定舆情新闻是否合并；若相似度大于等于阈值则将舆情新闻以及其对应的热点词合并为热点事件，相似度小于阈值的舆情新闻将被丢弃；

Step3、如果数据库中已有热点事件，则对Step1中词频大于等于阈值的要素定义为热点词，归入热点词集合；将词频小于阈值的要素与原有热点事件下的热点词进行对比，若该要素在原热点事件下的热点词集合中出现，则也将该要素定义为热点词，并归入热点词集合，否则丢弃该要素；

Step4、将Step3中得到的热点词集合下的热点词所对应的舆情新闻与原有热点事件下的舆情新闻通过相似度计算***进行相似度计算，根据计算结果决定该舆情新闻是属于原有热点事件或属于新的热点事件；若相似度大于等于阈值则将热点词以及其对应的舆情新闻归入原热点事件，否则将舆情新闻新增为一个新的热点事件。

进一步地，所述Step1的具体步骤如下：

利用爬虫从新浪微博、新闻网站爬取司法舆情新闻，在经过预处理之后得到新闻数据；

使用开源工具HanLP对得到的司法舆情数据分词并抽取舆情要素，得到要素集合；

对舆情要素集合进行词频统计。

进一步地，所述Step2的具体步骤如下：

如果数据库中没有热点事件，则将词频大于等于阈值的要素定义为热点词，并建立各热点词与其来源的舆情新闻之间的对应关系；

通过相似度计算***计算各个热点词所对应的舆情新闻之间的相似度，将相似度计算***返回的结果为“True”的舆情新闻以及其对应的热点词合并为热点事件。

进一步地，所述步骤Step4的具体步骤如下：

将Step3中得到的热点词集合下的热点词与其来源的舆情新闻建立对应关系，得到热点词——舆情新闻集合；

将热点词——舆情新闻集合下的所有舆情新闻与原有热点事件下的舆情新闻通过相似度计算***做相似度计算；

若最终返回结果为“True”，则将该舆情新闻及其对应的热点词与原有热点事件下的舆情新闻以及热点词进行合并；

若最终返回结果为“False”，则使用该舆情新闻及其对应的热点词新增为一个新的热点事件。

进一步地，所述相似度计算***包含以下子***：

基于舆情新闻正文要素统计的文本相似度计算***；

统计每条舆情文本的舆情要素，利用两条舆情文本的要素词共现计算两条舆情文本之间的相似度，若相似度大于等于阈值，则返回“True”，否则返回“False”；

基于BERT的舆情标题相似度计算***；

利用BERT预训练的词向量表征每条舆情标题，通过计算两条标题文本之间的欧氏距离计算两条标题之间的相似度，若相似度大于等于阈值，则返回“True”，否则返回“False”；

基于tf-idf的舆情标题相似度计算***；

利用tf-idf表征每条舆情标题，通过计算两条标题文本之间的余弦相似度计算两条标题之间的相似度，若相似度大于等于阈值，则返回“True”，否则返回“False”；

最终根据三个子***的结果来判定，如果三个结果中有2个及以上的“True”，则认为这两条舆情文本为相似文本，属于同一热点事件。

根据本发明的构思，本发明还提供了一种基于热点词的司法领域舆情热点事件发现装置，如图4所示，该装置包括：

数据获取模块，用于利用网络爬虫技术获取网络上的司法舆情新闻以及对数据进行预处理及分词；

要素抽取模块，使用开源工具HanLP(https://github.com/hankcs/HanLP)在得到的司法舆情数据中抽取舆情要素；

词频统计模块，对要素抽取模块得到的舆情要素进行词频统计；

相似度计算模块，利用舆情新闻的要素、tf-idf以及BERT预训练的词向量计算舆情新闻之间的相似度；

合并模块，根据相似度计算模块的结果判断是否进行合并。

本发明的有益效果是：

本发明通过定义热点词的方式发现司法领域中的热点事件，既能通过简单的词汇表征文本，又防止了少量词汇对于文本表征的干扰；本发明的文本相似度计算系统结合了词频统计、BERT预训练词向量以及tf-idf对文本进行表征，并使用欧几里得距离和余弦相似度对文本的相似度进行计算，从而提高了热点事件的准确率。

本发明提出的方法及装置结构较传统主题模型更为简单，而且在数据量较少、分布失衡且噪声较大的情况下效率和准确率更高。

附图说明

图1为本发明中的方法步骤示意图；

图2为本发明中的方法流程示意图；

图3为本发明中的相似度计算***流程示意图；

图4为本发明中的装置结构示意图。

具体实施方式

实施例1：如图1所示，为基于热点词的司法领域热点事件发现方法，图2为本发明的方法流程示意图，图3为本发明的相似度计算***示意图，图4为本发明的装置结构示意图。

所述方法的具体步骤如下：

A步骤、利用爬虫爬取司法舆情新闻并对数据进行预处理，并使用开源工具 HanLP(https://github.com/hankcs/HanLP)对本文进行分词并提取中文舆情新闻中的要素得到要素集合，并对要素进行词频统计；

B步骤、如果数据库中并没有热点事件，则将A步骤中词频大于等于阈值的要素定义为热点词并归入热点词集合，并通过相似度计算***计算各个热点词所对应舆情新闻之间的相似度，根据返回结果决定舆情新闻是否合并；若相似度大于等于阈值则将舆情新闻以及其对应的热点词合并为热点事件，相似度小于阈值的舆情新闻将被丢弃；

C步骤、如果数据库中已有热点事件，则对A步骤中词频大于等于阈值的要素定义为热点词，归入热点词集合；将词频小于阈值的要素与原有热点事件下的热点词进行对比，若该要素在原热点事件下的热点词集合中出现，则也将该要素定义为热点词，并归入热点词集合，否则丢弃该要素；

D步骤、将C步骤中得到的热点词集合下的热点词所对应的舆情新闻与原有热点事件下的舆情新闻通过相似度计算***进行相似度计算，如果相似度计算***得到的结果为“True”则将热点词以及其对应的舆情新闻归入原热点事件，否则将其热点词及舆情新闻合并为一个新的热点事件。

在A步骤中，本发明的数据主要为新浪微博以及各大新闻网站中的司法舆情，经过数据预处理之后，使用开源工具HanLP(https://github.com/hankcs/HanLP)进行分词并抽取要素。由于在舆情新闻中，最具有区分度的主要为人名与组织机构名，而地名由于频率太高，无法作为舆情要素使用。假设爬取到的舆情新闻数据集合为 D＝{d₁,d₂,...,d_N}，其中N为文本总数。则舆情新闻数据集合D由HanLP抽取要素之后得到要素集合被表示为X＝{x₁,x₂,...x_M}，其中M为舆情要素的数量。在得到要素集合后对其中的要素分别进行词频统计；

在B步骤中，将要素集合X中词频大于等于阈值的要素定义为热点词，并建立热点词集合R＝{r₁,r₂,...,r_n}，其中n为热点词总数，然后建立热点词与舆情文本之间的对应关系。例如：热点词r₁来自于舆情文本{d₁,d₂,d₃}，则将其表示为r₁→{d₁,d₂,d₃}。根据实际情况，本发明将词频的阈值设置为10。再使用相似度计算***对各舆情文本之间的相似度进行计算。相似度计算***包含以下子***：

一、基于舆情新闻正文要素统计的文本相似度计算***；

二、基于BERT的舆情标题相似度计算***；

三、基于tf-idf的舆情标题相似度计算***。

下面分别介绍三个子***的具体实施方案：

基于舆情新闻正文要素统计的文本相似度计算***主要使用舆情新闻中的要素进行计算，其计算公式如下：

其中，F代表两个文本的相似度，x_i∩x_j代表两条舆情文本中要素的交集的数量，|x|_max代表两条舆情文本中要素最大的数量。

若两条文本的相似度大于等于阈值将被认为是同属于一个热点事件，返回“True”，否则返回“False”，此处阈值设置为0.4。

基于BERT的舆情标题相似度计算***主要使用谷歌提出的BERT模型预训练的中文词向量以及欧几里得距离计算文本的相似度，具体流程如下：

首先根据分词结果构建词表，每个词有一个对应的ID；

然后设置文本长度(L)设置为15，词数超过L的文本将被截断，词数小于L 的文本在文本最后用0填充；

使用开源工具BERT(https://github.com/ymcui/Chinese-BERT-wwm)表征文本，每个词都被表示为一个向量

其中D为词向量的维度。则文本

接下来对于每条文本按每个词进行词向量的相加，即

因此，最终

再使用欧几里得距离衡量两条文本的相似度，欧氏距离是最常用的距离计算公式，衡量的是多维空间中各个点之间的绝对距离，其计算公式如下：

若两条文本的相似度大于等于阈值将被认为是同属于一个热点事件，返回“True”，否则返回“False”，此处阈值设置为0.5。

基于tf-idf的舆情标题相似度计算***主要使用tf-idf表示文本并使用余弦相似度计算文本之间的相似性，具体流程如下：

首先根据分词结果构建词表，每个词有一个对应的ID；

利用tf-idf的公式计算每个词对应的权重，td-idf包含了tf(词频)与idf(逆文档频率)，其计算公式如下：

其中n_i,j表示该词在文档d_j中出现的次数，∑_kn_k,j则表示文档d_j中所有词汇出现的次数总和。

其中，|D|表示语料库中的文档总数，|{j:t_i∈d_j}|表示包含词汇t_i的文档数量，为避免分母为0的情况，因此在分母项加一。最终，文本可以由下式表示：

s＝tf_ij×idf_i

由此，两条舆情标题的余弦相似度可以由以下公式计算：

若两条文本的相似度大于等于阈值将被认为是同属于一个热点事件，返回“True”，否则返回“False”，此处阈值设置为0.75。

最终，由三个子***的返回值决定最终结果，判定规则如下：若三个子***中有二个及以上的返回结果为“True”则认为这两条文本属于同一热点事件，并返回 “True”,否则返回“False”。

在C步骤中包含以下步骤：C01步骤：将要素集合X中词频大于等于阈值的要素定义为热点词并建立热点词集合；C02步骤：将要素集合X中词频小于阈值的要素于原热点事件下的热点词进行判断该要素是否为热点词；C04步骤：将得到的热点词与其来源舆情新闻建立对应关系。

在C01步骤中，将A步骤得到的要素集合X＝{x₁,x₂,...x_M}下的词频大于等于阈值的要素定义为热点词，并建立热点词集合R＝{r₁,r₂,...,r_n}，其中n为热点词总数，此处阈值同样被设置为10；

在C02步骤中，获取原热点事件下的热点词集合R′，将要素集合X中词频小于阈值的要素与R′中的热点词进行对比，如果该要素在原热点事件下的热点词中出现过，即x_i∈R′，那么该要素仍然会被定义为热点词，并归入热点词集合R。由于司法案件涉及案件发生、警方逮捕、法院一审及二审等多个事件，所以此处设定是为了防止某个案件由于上述事件的时间间隔而被定义为一个新的热点事件；

在C03步骤中，将得到的热点词集合R＝{r₁,r₂,...,r_n}下的热点词与其来源的舆情新闻建立对应关系r_i→{d₁,d₂,...,d_n}。例如：热点词r₁∈R是舆情文本{d₁,d₂,d₃}中出现的词频大于阈值的要素，那就将此关系表示为r₁→{d₁,d₂,d₃}。

在D步骤中，利用C步骤得到的所有热点词与舆情文本之间对应关系 r_i→{d₁,d₂,...,d_n}，及原热点事件下的舆情文本，通过步骤B中所述相似度计算*** 判定两个文本是否属于同一热点事件。若返回结果为“True”，则将热点词r_i及其对应的舆情文本{d₁,d₂,...,d_n}合并到被对比的原热点事件中；否则，将舆情文本两两之间再次计算相似度从而进行合并，返回结果为“True”的舆情文本及其热点词将被合并且成为一个新的热点事件，否则将舆情文本单独新增为一个新的热点事件。

合并模块，根据相似度计算模块的结果判断是否进行合并。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于热点词的司法领域热点事件发现方法，其特征在于：

所述方法的具体步骤如下：

Step2、如果数据库中并没有热点事件，则把Step1中词频大于等于阈值的要素定义为热点词，并通过相似度计算***计算各个热点词所对应舆情新闻之间的相似度，根据返回结果决定舆情新闻是否合并；

Step4、将Step3中得到的热点词集合下的热点词所对应的舆情新闻与原有热点事件下的舆情新闻通过相似度计算***进行相似度计算，根据计算结果决定该舆情新闻是属于原有热点事件或属于新的热点事件。

2.根据权利要求1所述的基于热点词的司法领域热点事件发现方法，其特征在于：所述Step1的具体步骤如下：

对舆情要素集合进行词频统计。

3.根据权利要求1所述的基于热点词的司法领域热点事件发现方法，其特征在于：所述Step2的具体步骤如下：

4.根据权利要求1所述的基于热点词的司法领域热点事件发现方法，其特征在于：所述步骤Step4的具体步骤如下：

5.根据权利要求1所述的基于热点词的司法领域热点事件发现方法，其特征在于：所述相似度计算***包含以下子***：

基于舆情新闻正文要素统计的文本相似度计算***；

基于BERT的舆情标题相似度计算***；

基于tf-idf的舆情标题相似度计算***；