CN115455155B - 一种政务文本的主题信息提取方法及存储介质 - Google Patents
一种政务文本的主题信息提取方法及存储介质 Download PDFInfo
- Publication number
- CN115455155B CN115455155B CN202211402800.7A CN202211402800A CN115455155B CN 115455155 B CN115455155 B CN 115455155B CN 202211402800 A CN202211402800 A CN 202211402800A CN 115455155 B CN115455155 B CN 115455155B
- Authority
- CN
- China
- Prior art keywords
- information
- keywords
- model
- government affair
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 52
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 230000002441 reversible effect Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000036541 health Effects 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种政务文本的主题信息提取方法及存储介质,其中所述方法,首先对非结构化的政务文本数据进行预处理,对预处理后的文本数据,采用MacBERT模型进行字向量提取;然后通过BiGRU模型捕捉句子中的语义信息,得到关键词的高级特征向量;最后计算关键词重要性,对关键词重要性降序排列,选取重要性较高的关键词作为主题信息关键词,实现政务文本的主题信息提取。本发明在于结合MacBERT模型和BiGRU模型对非结构化的政务文本数据进行主题信息提取,不仅减小模型过拟合风险,而且能够很好的提取关键词高级特征,获得更准确的主题信息关键词,帮助政府部门快速地挖掘分析非结构化文本。
Description
技术领域
本发明涉及自然语言处理技术领域,具体的,涉及一种政务文本的主题信息提取方法及存储介质。
背景技术
政务大数据指政府所拥有和管理的数据,它来源广泛,形式多样,具体包含(不限于)自然信息、辖区建设、辖区健康管理统计监察和服务与民生消费类数据。目前,非结构化政务数据日益增多,它的数据结构不规则或不完整,没有预定义的数据模型,难以用数据库二维逻辑表来表现,如何快速而高效的对政务数据主题信息进行提取成为亟需解决的技术问题。
利用人工智能技术领域的自然语言处理技术,对政务数据中的主题信息进行提取,可以实现非结构化文本的挖掘分析。例如对于上海市人民政府办公厅关于印发《上海市自建房安全专项整治工作方案》, 采用主题信息提取模型对该文件进行分析,剖析文本中主题表述的一般特点,最终得到“自建房”、“专项”、“排查”、“整治”、“消除”、“安全隐患”、“加强保障”“、督促指导”主题信息关键词。政务文本的主题信息提取可以实现快速文本理解。
发明内容
针对政务非结构化文本数据中存在的数据结构不规则问题,本发明提出一种政务文本的主题信息提取方法,有效提取政务文本主题信息,实现快速文本理解。
为达此目的,本发明采用以下技术方案:
一种政务文本的主题信息提取方法,包括:
数据预处理步骤S110:
对非结构化的政务文本数据进行预处理,所述预处理包括过滤掉无关信息,并对所述文本数据进行分词处理;
文本特征向量提取与处理步骤S120:
对预处理后的所述政务文本信息数据,采用MacBERT模型进行字向量提取,获取关键字特征向量,然后将所述关键字特征向量作为输入,通过BiGRU模型捕捉句子中的语义信息,优化特征向量,得到关键词的高级特征向量;
获得主题信息步骤S130:接收在步骤S120中所提取的关键词的高级特征向量,计算关键词重要性,对关键词重要性降序排列,选取重要性高的关键词作为主题信息关键词,实现政务文本的主题信息提取。
可选的,所述预处理具体包括:删除标点符号和空格,在政务文本数据中引入领域词典,对数据作分词处理,利用通用停用词库进行停用词过滤,去掉分词后的政务文本数据中对应的停用词。
可选的,所述政务文本信息数据包括非结构化的政务文本数据,具体为:描述辖区建设和辖区健康管理统计监察情况等信息的自然文本语言。
可选的,在步骤S120中,所述BiGRU模型为一种双向的改进的循环神经网络。
其中,为向量输入,为重置门的权重矩阵,为更新门的权重矩阵,为现在信息的权重矩阵,为逐元素相乘,为sigmoid函数,为双
曲正切函数,现在信息由过去信息与当前输入共同决定,为时刻的信息输
出,包含过去信息和现在信息,更新门用来控制当前的状态需要遗忘多少历史
信息和接受多少新信息,重置门用来控制候选状态中有多少信息是从历史信息中得到;
可选的,在步骤S120中,由MacBERT模型进行字向量提取,提取出的所述字向量通过双向的GRU模型提取出上下文特征,拼接生成关键词的高级特征向量。
可选的,主题信息关键词重要性P通过sigmoid函数获得,其中0<P<1:
可选的,对每个主题信息关键词的重要性P按从大到小排序,选取前八个作为主题信息关键词。
本发明进一步公开了一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行上述的政务文本主题信息提取方法。
本发明提供的政务文本的主题信息提取方法,与现有技术相比,具有如下优势:
1)由于本发明采用MacBERT模型,可以获取关键字特征向量,解决局部特征提取能力不足问题。
2)由于本发明采用BiGRU模型,可以捕捉句子中的语义信息,得到关键词的高级特征向量,有效的利用文本信息并采用并行计算,大大提高主题信息提取效率。
3)由于本发明将MacBERT模型与BiGRU模型相融合,改善单一模型对于主题信息提取效果,进而提高主题信息提取准确度并减小模型过拟合风险。
附图说明
图1是根据本发明具体实施例的一种政务文本的主题信息提取方法及存储介质的基础流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明在于结合MacBERT模型(Masked Language modeling as CorrectionBidirectional Encoder Representation from Transformers)与BiGRU模型(Bi-GateRecurrent Unit)对非结构化的政务文本数据进行主题信息提取。首先采用MacBERT层进行字向量提取,获取关键字特征向量;然后通过BiGRU层捕捉句子中的语义信息,提取关键词高级特征向量,从而使特征更具判断力;最后计算关键词重要性,对关键词重要性降序排列,选取重要性较高的关键词作为主题信息关键词,实现政务文本的主题信息提取。
参见图1,示出了根据本发明具体实施例的政务文本的主题信息提取方法及存储介质的基础流程图。
数据预处理步骤S110:
对非结构化的政务文本数据进行预处理,所述预处理包括过滤掉无关信息,并对所述文本数据进行分词处理;
具体的,所述预处理具体包括:删除标点符号、删除空格等,在政务文本数据中引入领域词典,对数据作分词处理,利用通用停用词库进行停用词过滤,去掉分词后的政务文本数据中对应的停用词。
具体的,在步骤S110中,所述非结构化的政务文本数据包括描述辖区建设和辖区健康管理统计监察情况等信息的自然文本语言。
当然本发明不以此为限制,本发明的处理方法也可以适用于其他的政务文本信息。
文本特征向量提取与处理步骤S120:
对预处理后的所述政务文本信息数据,例如非结构化的政务文本数据,采用MacBERT模型进行字向量提取,获取关键字特征向量,然后将所述关键字特征向量作为输入,通过BiGRU模型捕捉句子中的语义信息,优化特征向量,得到关键词的高级特征向量。
具体的,在步骤S120中,所述BiGRU模型为一种双向的改进的循环神经网络,包括
正向GRU模型和反向GRU模型,其中正向GRU模型中对关键字特征
向量采用正向输入即,反向GRU模型对关键字特征向量
采用反向输入即,
其中,为向量输入,为重置门的权重矩阵,为更新门的权重矩阵,为现在信息的权重矩阵,为逐元素相乘,为sigmoid函数,为双
曲正切函数,现在信息由过去信息与当前输入共同决定,为时刻的信息输
出,包含过去信息和现在信息。更新门用来控制当前的状态需要遗忘多少历史
信息和接受多少新信息,有助于捕捉序列里长期的依赖关系。重置门用来控制候选状态
中有多少信息是从历史信息中得到,有助于捕捉序列里短期的依赖关系。
具体的,在步骤S120中,由MacBERT模型进行字向量提取,提取出的所述字向量通过双向的GRU模型提取出上下文特征,拼接生成关键词的高级特征向量,从而提高主题信息的提取准确率。
获得主题信息步骤S130:接收在步骤S120中所提取的关键词的高级特征向量,计算关键词重要性,对关键词重要性降序排列,选取重要性较高的关键词作为主题信息关键词,实现政务文本的主题信息提取。
具体的,在步骤S130中,主题信息关键词重要性P通过sigmoid函数获得,其中0<P<1:
具体的,对每个主题信息关键词的重要性P按从大到小排序,可以选取前八个作为主题信息关键词。
一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行上述的政务文本主题信息提取方法。
本发明提供的政务文本的主题信息提取方法,与现有技术相比,具有如下优势:
1)由于本发明采用MacBERT模型,可以获取关键字特征向量,解决局部特征提取能力不足问题。
2)由于本发明采用BiGRU模型,可以捕捉句子中的语义信息,得到关键词的高级特征向量,有效的利用文本信息并采用并行计算,大大提高主题信息提取效率。
3)由于本发明将MacBERT模型与BiGRU模型相融合,改善单一模型对于主题信息提取效果,进而提高主题信息提取准确度并减小模型过拟合风险。
显然,本领域技术人员应该明白,上述本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。
Claims (5)
1.一种政务文本的主题信息提取方法,其特征在于,包括如下步骤:
数据预处理步骤S110:
对非结构化的政务文本数据进行预处理,所述预处理包括过滤掉无关信息,并对所述文本数据进行分词处理;
文本特征向量提取与处理步骤S120:
对预处理后的所述政务文本数据,采用MacBERT模型进行字向量提取,获取关键字特征向量,然后将所述关键字特征向量作为输入,通过BiGRU模型捕捉句子中的语义信息,优化特征向量,得到关键词的高级特征向量;
获得主题信息步骤S130:接收在步骤S120中所提取的关键词的高级特征向量,计算关键词重要性,对关键词重要性降序排列,选取重要性高的关键词作为主题信息关键词,实现政务文本的主题信息提取;
在步骤S120中,所述BiGRU模型为一种双向的改进的循环神经网络;
其中,为向量输入,为重置门的权重矩阵,为更新门的权重矩阵,
为现在信息的权重矩阵,为逐元素相乘,为sigmoid函数,为双曲正切
函数,现在信息由过去信息与当前输入共同决定,为时刻的信息输出,包含
过去信息和现在信息,更新门用来控制当前的状态需要遗忘多少历史信息和接
受多少新信息,重置门用来控制候选状态中有多少信息是从历史信息中得到;
在步骤S120中,由MacBERT模型进行字向量提取,提取出的所述字向量通过双向的GRU模型提取出上下文特征,拼接生成关键词的高级特征向量;
在步骤S130中,
主题信息关键词重要性P通过sigmoid函数获得,其中0<P<1:
2.根据权利要求1所述的主题信息提取方法,其特征在于:
所述预处理具体包括:删除标点符号和空格,在政务文本数据中引入领域词典,对数据作分词处理,利用通用停用词库进行停用词过滤,去掉分词后的政务文本数据中对应的停用词。
3.根据权利要求2所述的主题信息提取方法,其特征在于:
所述政务文本信息数据包括非结构化的政务文本数据,具体为:描述辖区建设和辖区健康管理统计监察情况的自然文本语言。
4.根据权利要求1所述的主题信息提取方法,其特征在于:
对每个主题信息关键词的重要性P按从大到小排序,选取前八个作为主题信息关键词。
5.一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行权利要求1-4中任意一项所述的政务文本的主题信息提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211402800.7A CN115455155B (zh) | 2022-11-10 | 2022-11-10 | 一种政务文本的主题信息提取方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211402800.7A CN115455155B (zh) | 2022-11-10 | 2022-11-10 | 一种政务文本的主题信息提取方法及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115455155A CN115455155A (zh) | 2022-12-09 |
CN115455155B true CN115455155B (zh) | 2023-03-03 |
Family
ID=84295516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211402800.7A Active CN115455155B (zh) | 2022-11-10 | 2022-11-10 | 一种政务文本的主题信息提取方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115455155B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535886A (zh) * | 2020-04-15 | 2021-10-22 | 北大方正信息产业集团有限公司 | 信息处理方法、装置和设备 |
CN114398877A (zh) * | 2022-01-12 | 2022-04-26 | 平安普惠企业管理有限公司 | 基于人工智能的主题提取方法、装置、电子设备及介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4040328A1 (en) * | 2021-02-09 | 2022-08-10 | Tata Consultancy Services Limited | Extracting mentions of complex relation types from documents |
CN114153802A (zh) * | 2021-12-03 | 2022-03-08 | 西安交通大学 | 一种基于Bert和残差自注意力机制的政务文件主题分类方法 |
CN114357172B (zh) * | 2022-01-07 | 2024-08-09 | 北京邮电大学 | 一种基于ERNIE-BiGRU-Attention的谣言检测方法 |
CN115310448A (zh) * | 2022-08-10 | 2022-11-08 | 南京邮电大学 | 一种基于bert和字词向量结合的中文命名实体识别方法 |
-
2022
- 2022-11-10 CN CN202211402800.7A patent/CN115455155B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535886A (zh) * | 2020-04-15 | 2021-10-22 | 北大方正信息产业集团有限公司 | 信息处理方法、装置和设备 |
CN114398877A (zh) * | 2022-01-12 | 2022-04-26 | 平安普惠企业管理有限公司 | 基于人工智能的主题提取方法、装置、电子设备及介质 |
Non-Patent Citations (1)
Title |
---|
面向机器阅读理解的候选句抽取算法;郭鑫 等;《计算机科学》;20200531;第47卷(第5期);198-203 * |
Also Published As
Publication number | Publication date |
---|---|
CN115455155A (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Dependency sensitive convolutional neural networks for modeling sentences and documents | |
CN111144131B (zh) | 一种基于预训练语言模型的网络谣言检测方法 | |
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN111222305A (zh) | 一种信息结构化方法和装置 | |
CN111368086A (zh) | 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法 | |
CN111325029A (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
Sartakhti et al. | Persian language model based on BiLSTM model on COVID-19 corpus | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN111831783A (zh) | 一种篇章级关系抽取方法 | |
CN107526721A (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
Wang et al. | Mongolian named entity recognition with bidirectional recurrent neural networks | |
CN114462379A (zh) | 一种改进的基于事件演化图的脚本学习方法和装置 | |
CN113886601A (zh) | 电子文本事件抽取方法、装置、设备及存储介质 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN113869054B (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
Sairam et al. | Image Captioning using CNN and LSTM | |
Paria et al. | A neural architecture mimicking humans end-to-end for natural language inference | |
CN113761192A (zh) | 文本处理方法、文本处理装置及文本处理设备 | |
Nair et al. | Fake news detection model for regional language | |
CN115455155B (zh) | 一种政务文本的主题信息提取方法及存储介质 | |
US20240086643A1 (en) | Visual Dialogue Method and System | |
CN111382333A (zh) | 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法 | |
Bhargava et al. | Deep paraphrase detection in indian languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |