CN111597328A

CN111597328A - 一种新事件主题提取方法

Info

Publication number: CN111597328A
Application number: CN202010541567.5A
Authority: CN
Inventors: 云红艳; 贺英; 张秀华; 李正民
Original assignee: Qingdao University
Current assignee: Qingdao University
Priority date: 2020-05-27
Filing date: 2020-06-15
Publication date: 2020-08-28
Anticipated expiration: 2040-06-15
Also published as: CN111597328B

Abstract

本发明属于网络信息技术领域，涉及一种新事件主题提取方法，基于BERT对新闻事件文本数据集进行向量化表示，其上下文的联系更密切，表达方式更准确，而且利用注意力机制的双向长短记忆网络实现了对网络中的大数据量的新闻文本进行学习，用以发现新事件，实现对数据的高效准确利用，采用有监督和无监督方法结合的方式，比单一的方式更有效率，其方法简单，能够深层次提取语义信息，可以对网络中的新闻文本进行分析与挖掘，实现新事件的发现，有利于相关监管部门及个人用户对新事件的实时掌控，便于后续的工作。

Description

一种新事件主题提取方法

技术领域：

本发明属于网络信息技术领域，涉及一种新事件主题提取方法，特别是一种基于BERT和注意力机制的双向长短记忆网络训练新事件发现模型和多特征融合的主题建模分析提取新事件主题的方法。

背景技术：

伴随着大数据时代互联网的发展，人们被大量来源广泛的新闻信息环绕，比如报纸、网络等，其中新闻最常见的载体是文本，文本是最容易获取有价值信息的方式。由于不同来源产生的新闻信息方式各种各样，新闻文本的格式和蕴含的信息也往往杂乱无章，同时产生新闻信息的数量也极其庞大，完全依赖人工实现中文新闻事件的检测是几乎不可能的。同时，网络中的大量文本包含着人们对某一个事件的关注程度以及影响，因此针对网络新闻文本进行挖掘研究有利于尽早发现热点关注事件。

目前热点新闻事件的发现方法多基于人工监控的方法，此方法在网络中的新闻事件发现监测中需要较高的资源成本，包括以计算机为辅助的方法从网络中获取数据，再由人工检查的方法同样也费时费力。随着机器学习的兴起，目前普遍采用的事件发现方法是根据聚类的方法实现，此方法对新闻文本进行聚类发现新事件，但是其在新事件发现方面精度不高，易造成错误识别。随着神经网络的兴起，其在各个领域都取得了巨大的成就，神经网络不仅克服了人工构建特征的局限，而且对于大数据其更适用。CN201810696452.6提供了一种面向领域的中文文本主题句生成方法，其特征在于，包括以下步骤：面向领域文本数据集，建立相应的领域知识图谱，应用深度神经网络模型对文本进行语义信息抽取，按照主题句式对文本进行分类，最终生成文本的主题句，该方法通过创建领域知识图谱的方法获得数据集概念模型和内容叙述模式特性，并利用深度学习模型对文本数据进行标注和分类训练，进而生成出文本的主题句，实现基于知识的查询和统计。但是该方法还存在以下不足：首先，该方法只能面向特定的领域数据集，并不适用于各领域通用数据集；其次，该方法需要创建领域知识图谱，此方式资源开销巨大且需要高度的专业素养；最后，该方法利用深度学习方法对文本数据进行标注和分类，此操作只能针对特定领域，面对新领域新数据模型表现较差。因此，需要提供一种新事件主题提取方法，采用深度学习方法，实现新事件的发现，并利用主题建模的方法实现新事件的主题提取。

发明内容：

本发明的目的在于克服现有技术存在的缺点，设计提供一种基于BERT和注意力机制的双向长短记忆网络训练新事件发现模型和多特征融合的主题建模分析提取新事件主题的方法，利用深度学习中的神经网络实现对海量文本数据的挖掘与处理，实现高效准确分析利用文本数据。

为了实现上述的目标，本发明实现新事件主题提取的过程包括以下步骤：

步骤1：根据事件关键词获取新闻事件文本数据流，根据获取的新闻事件文本数据流，构建新闻事件文本数据集，文本中的每一条记录包括新闻文本的事件类型标签以及事件的具体文本描述，并将新闻事件文本数据集划分训练集Train、验证集Val和测试集Test；

步骤2：对步骤1划分的训练集Train、验证集Val和测试集Test，以BERT表示模型为基础，，输出高维稠密向量表示，得到新闻事件文本数据集的高维稠密向量表示，其中BERT表示模型的模型层数为12，隐藏大小为768，注意力头为12；

步骤3：将步骤2获得的新闻事件文本数据集的高维稠密向量表示作为输入，根据训练集Train、验证集Val，采用Xavier进行神经网络参数初始化，采用dropout策略以梯度下降的方法作为神经网络参数及输入特征向量的更新，得到新事件发现模型；

步骤4：设置新事件发现模型的阈值，如果识别结果大于这一阈值，则判定此事件属于已知新闻事件类型并给出事件的主题；如果预测结果阈值小于设定的阈值则判定此事件为新事件，对判定为新事件的新闻文本进行整合存储得到新事件文本数据集；

步骤5：对步骤4获得的新事件文本数据集中包含的无用信息进行去除操作，保留新闻事件文本对新闻事件的描述内容，并采用结巴中文分词工具进行分词后建立自定义词典提高分词的精度；其中无用信息包括特殊字符、停用词等没有实质价值的标记；

步骤6：对步骤5得到的预处理后的新事件文本数据集提取实体特征和LDA主题热词特征后与原文进行词级拼接形成新的新闻文本描述，并对实体特征和LDA主题热词特征通过对特征增加词频的方式进行加权表示；其中实体特征包括人物实体特征、地点实体特征和组织名实体特征；

步骤7：对于步骤6处理后的新闻文本数据集，计算每个词的词频/逆文档率，用以衡量每个词相对于当前主题的重要度，并根据计算结果为每个词赋予相应的权重值；

步骤8：根据步骤6、7获得的特征及其权重值，利用Kmeans算法对步骤7得到的新事件文本数据集按多个事件进行聚类，并对新事件进行主题建模分析；将主题建模分析结果结合词频/逆文档率对新事件文本集的表示，对每个事件抽取十个关键词作为新事件的主题词，完成新事件主题的提取。

本发明所述步骤1具体包含以下步骤：

步骤1.1：根据新闻事件文本数据获取需求，确定具体新闻事件的关键词；

步骤1.2：对于确定的新闻事件关键词，构建以Scrapy框架为基础通过百度搜索引擎获取新闻事件文本数据链接的数据爬虫***，获取新闻事件文本数据流；

步骤1.3：对于获取的新闻事件文本数据流对文本内容进行规范化操作，去除空格等无效内容，对剩余有效内容进行拼接处理形成一条记录为一条新闻文本的规范化表示形成新闻事件文本集；

步骤1.4：对于步骤1.3得到的新闻事件文本集，按照7:2:1的比例划分训练集Train、验证集Val和测试集Test。

本发明与现有技术相比，基于BERT对新闻事件文本数据集进行向量化表示，其上下文的联系更密切，表达方式更准确，而且利用注意力机制的双向长短记忆网络实现了对网络中的大数据量的新闻文本进行学习，用以发现新事件，实现对数据的高效准确利用，采用有监督和无监督方法结合的方式，比单一的方式更有效率，其方法简单，能够深层次提取语义信息，可以对网络中的新闻文本进行分析与挖掘，实现新事件的发现，有利于相关监管部门及个人用户对新事件的实时掌控，便于后续的工作。

附图说明：

图1为本发明的工作流程示意图。

图2为本发明构建的新事件发现模型结构图。

图3为本发明实体特征抽取模型结构图。

图4为本发明主题抽取过程流程图。

具体实施方式：

下面通过实施例并结合附图对本发明做进一步描述。

实施例：

本发实施例实现新事件主题提取的过程包括以下步骤：

步骤1：根据事件关键词获取新闻事件文本数据流，根据获取的新闻事件文本数据流，构建新闻事件文本数据集，文本中的每一条记录包括新闻文本的事件类型标签以及事件的具体文本描述，并将新闻事件文本数据集划分训练集Train、验证集Val和测试集Test，具体为：

步骤1.4：对于步骤1.3得到的新闻事件文本集，按照7:2:1的比例划分训练集Train、验证集Val和测试集Test；

步骤2：对步骤1划分的训练集Train、验证集Val和测试集Test，以BERT表示模型为基础进行文本的向量化，输出高维稠密向量表示，得到新闻事件文本数据集的高维稠密向量表示，其中BERT表示模型参数的模型层数为12，隐藏大小为768，注意力头为12，得到的高维稠密向量表示维度为768，具体为：[8.3772335e-05,3.9696515e-05,3.854327e-05,0.0018235502,0.00028364992,3.3392924e-05,3.613378e-05,0.0011939545,8.937488e-06,0.00028550622,1.6984109e-06,0.014312873,4.2274103e-05,0.0057512685,0.008945758,2.318987e-05,1.9686187e-05,3.6920403e-05,…]

步骤3：将步骤2获得的新闻事件文本数据集的高维稠密向量表示作为输入，根据训练集Train、验证集Val，采用Xavier进行神经网络参数初始化，采用dropout策略以梯度下降的方法作为神经网络参数及输入特征向量的更新，得到基于BERT、注意力机制的双向长短记忆网络的新事件发现模型；

步骤4：设置新事件发现模型的阈值为0.9，如果识别结果大于这一阈值，则判定此事件属于已知新闻事件类型并给出事件的主题；如果预测结果阈值小于设定的阈值则判定此事件为新事件，对判定为新事件的新闻文本进行整合存储得到新事件文本数据集；

步骤5：对步骤4获得的新事件文本数据集中包含的无用信息进行去除操作，保留新闻事件文本对新闻事件的描述内容，并采用结巴中文分词工具进行分词后建立自定义词典提高分词的精度；其中无用信息包括特殊字符、停用词等没有实质价值的标记得到的预处理结果；

步骤7：对于步骤6处理后的新闻文本数据集，计算每个词的词频/逆文档率，用以衡量每个词相对于当前主题的重要度，并根据计算结果为每个词赋予相应的权重向量；具体如下：0.11178106295272044，0.11178106295272044，0.11178106295272044，0.11178106295272044，0.11178106295272044，0.16767159442908067…

步骤8：根据步骤6、7获得的特征及其权重值，利用Kmeans算法对步骤7得到的新事件文本数据集按多个事件进行聚类，并对新事件进行主题建模分析；将主题建模分析结果结合词频/逆文档率对新事件文本集的表示，对每个事件抽取十个关键词作为新事件的主题词，完成新事件主题的提取，其中Kmeans新事件主题提取是一个反复迭代的过程，分为四个步骤，首先选取新闻文本集中的k个对象作为初始中心，每个对象代表着一个聚类簇中心；其次，对于样本中的数据对象，根据它们与这些聚类中心的欧氏距离，按距离最近的原则将它们分到距离它们最近的聚类中心所对应的类；然后，将每个类别中所有对象所对应的均值作为该类别的聚类中心，计算目标函数的值；最后，判断聚类中心和目标函数的值是否发生改变，若不变，则输出结果，若改变，则返回第二步。最终聚类完成后结合TF-IDF对新事件文本的表示，抽取出每个事件类别的关键词。

本实施例中未具体描述的策略、方法或算法均采用本领域已有的现有技术。

Claims

1.一种新事件主题提取方法，其特征在于包括以下步骤：

步骤5：对步骤4获得的新事件文本数据集中包含的无用信息进行去除操作，保留新闻事件文本对新闻事件的描述内容，并采用结巴中文分词工具进行分词后建立自定义词典提高分词的精度；其中无用信息包括特殊字符、停用词没有实质价值的标记；

2.根据权利要求1所述新事件主题提取方法，其特征在于所述步骤1具体包含以下步骤：

步骤1.3：对于获取的新闻事件文本数据流对文本内容进行规范化操作，去除包括空格的无效内容，对剩余有效内容进行拼接处理形成一条记录为一条新闻文本的规范化表示形成新闻事件文本集；