CN115455155B

CN115455155B - 一种政务文本的主题信息提取方法及存储介质

Info

Publication number: CN115455155B
Application number: CN202211402800.7A
Authority: CN
Inventors: 赵习枝; 仇阿根; 张福浩; 罗宁; 朱鹏; 陶坤旺; 方美丽; 陈才; 郑佳荣; 陈颂; 刘尚钦
Original assignee: Chinese Academy of Surveying and Mapping
Current assignee: Chinese Academy of Surveying and Mapping
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-03-03
Anticipated expiration: 2042-11-10
Also published as: CN115455155A

Abstract

一种政务文本的主题信息提取方法及存储介质，其中所述方法，首先对非结构化的政务文本数据进行预处理，对预处理后的文本数据，采用MacBERT模型进行字向量提取；然后通过BiGRU模型捕捉句子中的语义信息，得到关键词的高级特征向量；最后计算关键词重要性，对关键词重要性降序排列，选取重要性较高的关键词作为主题信息关键词，实现政务文本的主题信息提取。本发明在于结合MacBERT模型和BiGRU模型对非结构化的政务文本数据进行主题信息提取，不仅减小模型过拟合风险，而且能够很好的提取关键词高级特征，获得更准确的主题信息关键词，帮助政府部门快速地挖掘分析非结构化文本。

Description

一种政务文本的主题信息提取方法及存储介质

技术领域

本发明涉及自然语言处理技术领域，具体的，涉及一种政务文本的主题信息提取方法及存储介质。

背景技术

政务大数据指政府所拥有和管理的数据，它来源广泛，形式多样，具体包含（不限于）自然信息、辖区建设、辖区健康管理统计监察和服务与民生消费类数据。目前，非结构化政务数据日益增多，它的数据结构不规则或不完整，没有预定义的数据模型，难以用数据库二维逻辑表来表现，如何快速而高效的对政务数据主题信息进行提取成为亟需解决的技术问题。

利用人工智能技术领域的自然语言处理技术，对政务数据中的主题信息进行提取，可以实现非结构化文本的挖掘分析。例如对于上海市人民政府办公厅关于印发《上海市自建房安全专项整治工作方案》, 采用主题信息提取模型对该文件进行分析，剖析文本中主题表述的一般特点，最终得到“自建房”、“专项”、“排查”、“整治”、“消除”、“安全隐患”、“加强保障”“、督促指导”主题信息关键词。政务文本的主题信息提取可以实现快速文本理解。

发明内容

针对政务非结构化文本数据中存在的数据结构不规则问题，本发明提出一种政务文本的主题信息提取方法，有效提取政务文本主题信息，实现快速文本理解。

为达此目的，本发明采用以下技术方案：

一种政务文本的主题信息提取方法，包括：

数据预处理步骤S110:

对非结构化的政务文本数据进行预处理，所述预处理包括过滤掉无关信息，并对所述文本数据进行分词处理；

文本特征向量提取与处理步骤S120：

对预处理后的所述政务文本信息数据，采用MacBERT模型进行字向量提取，获取关键字特征向量，然后将所述关键字特征向量作为输入，通过BiGRU模型捕捉句子中的语义信息，优化特征向量，得到关键词的高级特征向量；

获得主题信息步骤S130：接收在步骤S120中所提取的关键词的高级特征向量，计算关键词重要性，对关键词重要性降序排列，选取重要性高的关键词作为主题信息关键词，实现政务文本的主题信息提取。

可选的，所述预处理具体包括：删除标点符号和空格，在政务文本数据中引入领域词典，对数据作分词处理，利用通用停用词库进行停用词过滤，去掉分词后的政务文本数据中对应的停用词。

可选的，所述政务文本信息数据包括非结构化的政务文本数据，具体为：描述辖区建设和辖区健康管理统计监察情况等信息的自然文本语言。

可选的，在步骤S120中，所述BiGRU模型为一种双向的改进的循环神经网络。

可选的，所述BiGRU模型包括正向GRU模型

和反向GRU模型

，其中正向GRU模型

中对关键字特征向量采用正向输入即

，反向GRU模型

对关键字特征向量采用反向输入即

，

每个GRU模型

，由更新门

和重置门

构成，GRU模型内部的信息传播过程如下式：

其中，

为向量输入，

为重置门

的权重矩阵，

为更新门

的权重矩阵，

为现在信息

的权重矩阵，

为逐元素相乘，

为sigmoid函数，

为双曲正切函数，现在信息

由过去信息

与当前输入

共同决定，

为

时刻的信息输出，包含过去信息

和现在信息

，更新门

用来控制当前的状态需要遗忘多少历史信息和接受多少新信息，重置门

用来控制候选状态中有多少信息是从历史信息中得到；

最终，所述BiGRU模型的输出

由以下公式定义得出：

其中，

为正向GRU模型输出，

为反向GRU模型输出，

表示

时刻

所对应的权重，

表示

所对应的权重，

表示

时刻

所对应的偏置项。

可选的，在步骤S120中，由MacBERT模型进行字向量提取，提取出的所述字向量通过双向的GRU模型提取出上下文特征，拼接生成关键词的高级特征向量。

可选的，主题信息关键词重要性P通过sigmoid函数获得，其中0<P<1：

其中，

是

的权重矩阵，

是

的偏置项。

可选的，对每个主题信息关键词的重要性P按从大到小排序，选取前八个作为主题信息关键词。

本发明进一步公开了一种存储介质，用于存储计算机可执行指令，其特征在于：

所述计算机可执行指令在被处理器执行时执行上述的政务文本主题信息提取方法。

本发明提供的政务文本的主题信息提取方法，与现有技术相比，具有如下优势：

1）由于本发明采用MacBERT模型，可以获取关键字特征向量，解决局部特征提取能力不足问题。

2）由于本发明采用BiGRU模型，可以捕捉句子中的语义信息，得到关键词的高级特征向量，有效的利用文本信息并采用并行计算，大大提高主题信息提取效率。

3）由于本发明将MacBERT模型与BiGRU模型相融合，改善单一模型对于主题信息提取效果，进而提高主题信息提取准确度并减小模型过拟合风险。

附图说明

图1是根据本发明具体实施例的一种政务文本的主题信息提取方法及存储介质的基础流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

本发明在于结合MacBERT模型（Masked Language modeling as CorrectionBidirectional Encoder Representation from Transformers）与BiGRU模型（Bi-GateRecurrent Unit）对非结构化的政务文本数据进行主题信息提取。首先采用MacBERT层进行字向量提取，获取关键字特征向量；然后通过BiGRU层捕捉句子中的语义信息，提取关键词高级特征向量，从而使特征更具判断力；最后计算关键词重要性，对关键词重要性降序排列，选取重要性较高的关键词作为主题信息关键词，实现政务文本的主题信息提取。

参见图1，示出了根据本发明具体实施例的政务文本的主题信息提取方法及存储介质的基础流程图。

数据预处理步骤S110:

具体的，所述预处理具体包括：删除标点符号、删除空格等，在政务文本数据中引入领域词典，对数据作分词处理，利用通用停用词库进行停用词过滤，去掉分词后的政务文本数据中对应的停用词。

具体的，在步骤S110中，所述非结构化的政务文本数据包括描述辖区建设和辖区健康管理统计监察情况等信息的自然文本语言。

当然本发明不以此为限制，本发明的处理方法也可以适用于其他的政务文本信息。

文本特征向量提取与处理步骤S120：

对预处理后的所述政务文本信息数据，例如非结构化的政务文本数据，采用MacBERT模型进行字向量提取，获取关键字特征向量，然后将所述关键字特征向量作为输入，通过BiGRU模型捕捉句子中的语义信息，优化特征向量，得到关键词的高级特征向量。

具体的，在步骤S120中，所述MacBERT模型可以获取关键字特征向量

，解决局部特征提取能力不足问题。

具体的，在步骤S120中，所述BiGRU模型为一种双向的改进的循环神经网络，包括正向GRU模型

和反向GRU模型

，其中正向GRU模型

中对关键字特征向量采用正向输入即

，反向GRU模型

对关键字特征向量采用反向输入即

，

每个GRU模型

，由更新门

和重置门

构成，GRU模型内部的信息传播过程如下式：

其中，

为向量输入，

为重置门

的权重矩阵，

为更新门

的权重矩阵，

为现在信息

的权重矩阵，

为逐元素相乘，

为sigmoid函数，

为双曲正切函数，现在信息

由过去信息

与当前输入

共同决定，

为

时刻的信息输出，包含过去信息

和现在信息

。更新门

用来控制当前的状态需要遗忘多少历史信息和接受多少新信息，有助于捕捉序列里长期的依赖关系。重置门

用来控制候选状态中有多少信息是从历史信息中得到，有助于捕捉序列里短期的依赖关系。

最终，所述BiGRU模型的输出

由以下公式定义得出：

其中，

为正向GRU模型输出，

为反向GRU模型输出，

表示

时刻

所对应的权重，

表示

所对应的权重，

表示

时刻

所对应的偏置项。

具体的，在步骤S120中，由MacBERT模型进行字向量提取，提取出的所述字向量通过双向的GRU模型提取出上下文特征，拼接生成关键词的高级特征向量，从而提高主题信息的提取准确率。

获得主题信息步骤S130：接收在步骤S120中所提取的关键词的高级特征向量，计算关键词重要性，对关键词重要性降序排列，选取重要性较高的关键词作为主题信息关键词，实现政务文本的主题信息提取。

具体的，在步骤S130中，主题信息关键词重要性P通过sigmoid函数获得，其中0<P<1：

其中，

是

的权重矩阵，

是

的偏置项。通过所提出的模型对数据进行训练，获得模型的最优参数。

具体的，对每个主题信息关键词的重要性P按从大到小排序，可以选取前八个作为主题信息关键词。

一种存储介质，用于存储计算机可执行指令，其特征在于：

显然，本领域技术人员应该明白，上述本发明的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上,可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定保护范围。