CN115455155B - 一种政务文本的主题信息提取方法及存储介质 - Google Patents

一种政务文本的主题信息提取方法及存储介质 Download PDF

Info

Publication number
CN115455155B
CN115455155B CN202211402800.7A CN202211402800A CN115455155B CN 115455155 B CN115455155 B CN 115455155B CN 202211402800 A CN202211402800 A CN 202211402800A CN 115455155 B CN115455155 B CN 115455155B
Authority
CN
China
Prior art keywords
information
keywords
model
government affair
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211402800.7A
Other languages
English (en)
Other versions
CN115455155A (zh
Inventor
赵习枝
仇阿根
张福浩
罗宁
朱鹏
陶坤旺
方美丽
陈才
郑佳荣
陈颂
刘尚钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Academy of Surveying and Mapping
Original Assignee
Chinese Academy of Surveying and Mapping
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Academy of Surveying and Mapping filed Critical Chinese Academy of Surveying and Mapping
Priority to CN202211402800.7A priority Critical patent/CN115455155B/zh
Publication of CN115455155A publication Critical patent/CN115455155A/zh
Application granted granted Critical
Publication of CN115455155B publication Critical patent/CN115455155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种政务文本的主题信息提取方法及存储介质,其中所述方法,首先对非结构化的政务文本数据进行预处理,对预处理后的文本数据,采用MacBERT模型进行字向量提取;然后通过BiGRU模型捕捉句子中的语义信息,得到关键词的高级特征向量;最后计算关键词重要性,对关键词重要性降序排列,选取重要性较高的关键词作为主题信息关键词,实现政务文本的主题信息提取。本发明在于结合MacBERT模型和BiGRU模型对非结构化的政务文本数据进行主题信息提取,不仅减小模型过拟合风险,而且能够很好的提取关键词高级特征,获得更准确的主题信息关键词,帮助政府部门快速地挖掘分析非结构化文本。

Description

一种政务文本的主题信息提取方法及存储介质
技术领域
本发明涉及自然语言处理技术领域,具体的,涉及一种政务文本的主题信息提取方法及存储介质。
背景技术
政务大数据指政府所拥有和管理的数据,它来源广泛,形式多样,具体包含(不限于)自然信息、辖区建设、辖区健康管理统计监察和服务与民生消费类数据。目前,非结构化政务数据日益增多,它的数据结构不规则或不完整,没有预定义的数据模型,难以用数据库二维逻辑表来表现,如何快速而高效的对政务数据主题信息进行提取成为亟需解决的技术问题。
利用人工智能技术领域的自然语言处理技术,对政务数据中的主题信息进行提取,可以实现非结构化文本的挖掘分析。例如对于上海市人民政府办公厅关于印发《上海市自建房安全专项整治工作方案》, 采用主题信息提取模型对该文件进行分析,剖析文本中主题表述的一般特点,最终得到“自建房”、“专项”、“排查”、“整治”、“消除”、“安全隐患”、“加强保障”“、督促指导”主题信息关键词。政务文本的主题信息提取可以实现快速文本理解。
发明内容
针对政务非结构化文本数据中存在的数据结构不规则问题,本发明提出一种政务文本的主题信息提取方法,有效提取政务文本主题信息,实现快速文本理解。
为达此目的,本发明采用以下技术方案:
一种政务文本的主题信息提取方法,包括:
数据预处理步骤S110:
对非结构化的政务文本数据进行预处理,所述预处理包括过滤掉无关信息,并对所述文本数据进行分词处理;
文本特征向量提取与处理步骤S120:
对预处理后的所述政务文本信息数据,采用MacBERT模型进行字向量提取,获取关键字特征向量,然后将所述关键字特征向量作为输入,通过BiGRU模型捕捉句子中的语义信息,优化特征向量,得到关键词的高级特征向量;
获得主题信息步骤S130:接收在步骤S120中所提取的关键词的高级特征向量,计算关键词重要性,对关键词重要性降序排列,选取重要性高的关键词作为主题信息关键词,实现政务文本的主题信息提取。
可选的,所述预处理具体包括:删除标点符号和空格,在政务文本数据中引入领域词典,对数据作分词处理,利用通用停用词库进行停用词过滤,去掉分词后的政务文本数据中对应的停用词。
可选的,所述政务文本信息数据包括非结构化的政务文本数据,具体为:描述辖区建设和辖区健康管理统计监察情况等信息的自然文本语言。
可选的,在步骤S120中,所述BiGRU模型为一种双向的改进的循环神经网络。
可选的,所述BiGRU模型包括正向GRU模型
Figure 95761DEST_PATH_IMAGE001
和反向GRU模型
Figure 340797DEST_PATH_IMAGE002
,其中正向GRU模型
Figure 589376DEST_PATH_IMAGE003
中对关键字特征向量采用正向输入即
Figure 811016DEST_PATH_IMAGE004
,反向GRU模型
Figure 218864DEST_PATH_IMAGE005
对关键字特征向量采用反向输入即
Figure 510168DEST_PATH_IMAGE006
每个GRU模型
Figure 105097DEST_PATH_IMAGE007
,由更新门
Figure 772839DEST_PATH_IMAGE008
和重置门
Figure 35193DEST_PATH_IMAGE009
构成,GRU模型内部的信 息传播过程如下式:
Figure 497398DEST_PATH_IMAGE010
其中,
Figure 346668DEST_PATH_IMAGE011
为向量输入,
Figure 411576DEST_PATH_IMAGE012
为重置门
Figure 138224DEST_PATH_IMAGE009
的权重矩阵,
Figure 161543DEST_PATH_IMAGE013
为更新门
Figure 872010DEST_PATH_IMAGE008
的权重矩阵,
Figure 740609DEST_PATH_IMAGE014
为现在信息
Figure 852922DEST_PATH_IMAGE015
的权重矩阵,
Figure 280099DEST_PATH_IMAGE016
为逐元素相乘,
Figure 477862DEST_PATH_IMAGE017
为sigmoid函数,
Figure 150151DEST_PATH_IMAGE018
为双 曲正切函数,现在信息
Figure 976025DEST_PATH_IMAGE015
由过去信息
Figure 216514DEST_PATH_IMAGE019
与当前输入
Figure 760627DEST_PATH_IMAGE011
共同决定,
Figure 111974DEST_PATH_IMAGE020
Figure 293819DEST_PATH_IMAGE021
时刻的信息输 出,包含过去信息
Figure 705209DEST_PATH_IMAGE019
和现在信息
Figure 736619DEST_PATH_IMAGE015
,更新门
Figure 485132DEST_PATH_IMAGE008
用来控制当前的状态需要遗忘多少历史 信息和接受多少新信息,重置门
Figure 426543DEST_PATH_IMAGE009
用来控制候选状态中有多少信息是从历史信息中得到;
最终,所述BiGRU模型的输出
Figure 133468DEST_PATH_IMAGE022
由以下公式定义得出:
Figure DEST_PATH_IMAGE023
其中,
Figure 353972DEST_PATH_IMAGE001
为正向GRU模型输出,
Figure 312700DEST_PATH_IMAGE002
为反向GRU模型输出,
Figure 967673DEST_PATH_IMAGE024
表示
Figure 720865DEST_PATH_IMAGE021
时刻
Figure 726867DEST_PATH_IMAGE001
所对应的 权重,
Figure DEST_PATH_IMAGE025
表示
Figure 551604DEST_PATH_IMAGE002
所对应的权重,
Figure 202028DEST_PATH_IMAGE026
表示
Figure 486641DEST_PATH_IMAGE021
时刻
Figure 855305DEST_PATH_IMAGE022
所对应的偏置项。
可选的,在步骤S120中,由MacBERT模型进行字向量提取,提取出的所述字向量通过双向的GRU模型提取出上下文特征,拼接生成关键词的高级特征向量。
可选的,主题信息关键词重要性P通过sigmoid函数获得,其中0<P<1:
Figure 14891DEST_PATH_IMAGE027
其中,
Figure 785401DEST_PATH_IMAGE028
Figure 739451DEST_PATH_IMAGE029
的权重矩阵,
Figure 595411DEST_PATH_IMAGE030
Figure 558688DEST_PATH_IMAGE029
的偏置项。
可选的,对每个主题信息关键词的重要性P按从大到小排序,选取前八个作为主题信息关键词。
本发明进一步公开了一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行上述的政务文本主题信息提取方法。
本发明提供的政务文本的主题信息提取方法,与现有技术相比,具有如下优势:
1)由于本发明采用MacBERT模型,可以获取关键字特征向量,解决局部特征提取能力不足问题。
2)由于本发明采用BiGRU模型,可以捕捉句子中的语义信息,得到关键词的高级特征向量,有效的利用文本信息并采用并行计算,大大提高主题信息提取效率。
3)由于本发明将MacBERT模型与BiGRU模型相融合,改善单一模型对于主题信息提取效果,进而提高主题信息提取准确度并减小模型过拟合风险。
附图说明
图1是根据本发明具体实施例的一种政务文本的主题信息提取方法及存储介质的基础流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明在于结合MacBERT模型(Masked Language modeling as CorrectionBidirectional Encoder Representation from Transformers)与BiGRU模型(Bi-GateRecurrent Unit)对非结构化的政务文本数据进行主题信息提取。首先采用MacBERT层进行字向量提取,获取关键字特征向量;然后通过BiGRU层捕捉句子中的语义信息,提取关键词高级特征向量,从而使特征更具判断力;最后计算关键词重要性,对关键词重要性降序排列,选取重要性较高的关键词作为主题信息关键词,实现政务文本的主题信息提取。
参见图1,示出了根据本发明具体实施例的政务文本的主题信息提取方法及存储介质的基础流程图。
数据预处理步骤S110:
对非结构化的政务文本数据进行预处理,所述预处理包括过滤掉无关信息,并对所述文本数据进行分词处理;
具体的,所述预处理具体包括:删除标点符号、删除空格等,在政务文本数据中引入领域词典,对数据作分词处理,利用通用停用词库进行停用词过滤,去掉分词后的政务文本数据中对应的停用词。
具体的,在步骤S110中,所述非结构化的政务文本数据包括描述辖区建设和辖区健康管理统计监察情况等信息的自然文本语言。
当然本发明不以此为限制,本发明的处理方法也可以适用于其他的政务文本信息。
文本特征向量提取与处理步骤S120:
对预处理后的所述政务文本信息数据,例如非结构化的政务文本数据,采用MacBERT模型进行字向量提取,获取关键字特征向量,然后将所述关键字特征向量作为输入,通过BiGRU模型捕捉句子中的语义信息,优化特征向量,得到关键词的高级特征向量。
具体的,在步骤S120中,所述MacBERT模型可以获取关键字特征向量
Figure 918125DEST_PATH_IMAGE031
,解决局部特征提取能力不足问题。
具体的,在步骤S120中,所述BiGRU模型为一种双向的改进的循环神经网络,包括 正向GRU模型
Figure 807190DEST_PATH_IMAGE032
和反向GRU模型
Figure 884868DEST_PATH_IMAGE002
,其中正向GRU模型
Figure 651835DEST_PATH_IMAGE033
中对关键字特征 向量采用正向输入即
Figure 131358DEST_PATH_IMAGE004
,反向GRU模型
Figure 692790DEST_PATH_IMAGE034
对关键字特征向量 采用反向输入即
Figure 116818DEST_PATH_IMAGE035
每个GRU模型
Figure 297263DEST_PATH_IMAGE036
,由更新门
Figure 257391DEST_PATH_IMAGE008
和重置门
Figure 865090DEST_PATH_IMAGE009
构成,GRU模型内部的信 息传播过程如下式:
Figure 41994DEST_PATH_IMAGE037
其中,
Figure 760551DEST_PATH_IMAGE011
为向量输入,
Figure 339300DEST_PATH_IMAGE012
为重置门
Figure 117900DEST_PATH_IMAGE009
的权重矩阵,
Figure 782100DEST_PATH_IMAGE038
为更新门
Figure DEST_PATH_IMAGE039
的权重矩阵,
Figure 130779DEST_PATH_IMAGE040
为现在信息
Figure 439401DEST_PATH_IMAGE015
的权重矩阵,
Figure 513536DEST_PATH_IMAGE016
为逐元素相乘,
Figure 274818DEST_PATH_IMAGE017
为sigmoid函数,
Figure 725391DEST_PATH_IMAGE018
为双 曲正切函数,现在信息
Figure 747574DEST_PATH_IMAGE015
由过去信息
Figure 867977DEST_PATH_IMAGE019
与当前输入
Figure 8233DEST_PATH_IMAGE011
共同决定,
Figure DEST_PATH_IMAGE041
Figure 465760DEST_PATH_IMAGE042
时刻的信息输 出,包含过去信息
Figure 483394DEST_PATH_IMAGE019
和现在信息
Figure 164911DEST_PATH_IMAGE015
。更新门
Figure 900786DEST_PATH_IMAGE008
用来控制当前的状态需要遗忘多少历史 信息和接受多少新信息,有助于捕捉序列里长期的依赖关系。重置门
Figure 693161DEST_PATH_IMAGE009
用来控制候选状态 中有多少信息是从历史信息中得到,有助于捕捉序列里短期的依赖关系。
最终,所述BiGRU模型的输出
Figure 299723DEST_PATH_IMAGE022
由以下公式定义得出:
Figure DEST_PATH_IMAGE043
其中,
Figure 978573DEST_PATH_IMAGE032
为正向GRU模型输出,
Figure 201744DEST_PATH_IMAGE002
为反向GRU模型输出,
Figure 532231DEST_PATH_IMAGE044
表示
Figure 524458DEST_PATH_IMAGE042
时刻
Figure 547778DEST_PATH_IMAGE032
所对应的 权重,
Figure 992665DEST_PATH_IMAGE025
表示
Figure 362729DEST_PATH_IMAGE002
所对应的权重,
Figure 475042DEST_PATH_IMAGE026
表示
Figure 138104DEST_PATH_IMAGE042
时刻
Figure 460501DEST_PATH_IMAGE022
所对应的偏置项。
具体的,在步骤S120中,由MacBERT模型进行字向量提取,提取出的所述字向量通过双向的GRU模型提取出上下文特征,拼接生成关键词的高级特征向量,从而提高主题信息的提取准确率。
获得主题信息步骤S130:接收在步骤S120中所提取的关键词的高级特征向量,计算关键词重要性,对关键词重要性降序排列,选取重要性较高的关键词作为主题信息关键词,实现政务文本的主题信息提取。
具体的,在步骤S130中,主题信息关键词重要性P通过sigmoid函数获得,其中0<P<1:
Figure DEST_PATH_IMAGE045
其中,
Figure 336053DEST_PATH_IMAGE046
Figure DEST_PATH_IMAGE047
的权重矩阵,
Figure 129303DEST_PATH_IMAGE048
Figure 228846DEST_PATH_IMAGE047
的偏置项。通过所提出的模型对数据进行训 练,获得模型的最优参数。
具体的,对每个主题信息关键词的重要性P按从大到小排序,可以选取前八个作为主题信息关键词。
一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行上述的政务文本主题信息提取方法。
本发明提供的政务文本的主题信息提取方法,与现有技术相比,具有如下优势:
1)由于本发明采用MacBERT模型,可以获取关键字特征向量,解决局部特征提取能力不足问题。
2)由于本发明采用BiGRU模型,可以捕捉句子中的语义信息,得到关键词的高级特征向量,有效的利用文本信息并采用并行计算,大大提高主题信息提取效率。
3)由于本发明将MacBERT模型与BiGRU模型相融合,改善单一模型对于主题信息提取效果,进而提高主题信息提取准确度并减小模型过拟合风险。
显然,本领域技术人员应该明白,上述本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims (5)

1.一种政务文本的主题信息提取方法,其特征在于,包括如下步骤:
数据预处理步骤S110:
对非结构化的政务文本数据进行预处理,所述预处理包括过滤掉无关信息,并对所述文本数据进行分词处理;
文本特征向量提取与处理步骤S120:
对预处理后的所述政务文本数据,采用MacBERT模型进行字向量提取,获取关键字特征向量,然后将所述关键字特征向量作为输入,通过BiGRU模型捕捉句子中的语义信息,优化特征向量,得到关键词的高级特征向量;
获得主题信息步骤S130:接收在步骤S120中所提取的关键词的高级特征向量,计算关键词重要性,对关键词重要性降序排列,选取重要性高的关键词作为主题信息关键词,实现政务文本的主题信息提取;
在步骤S120中,所述BiGRU模型为一种双向的改进的循环神经网络;
所述BiGRU模型包括正向GRU模型
Figure 218286DEST_PATH_IMAGE001
和反向GRU模型
Figure 284593DEST_PATH_IMAGE002
,其中正向GRU模型
Figure 26284DEST_PATH_IMAGE003
中对关键字特征向量采用正向输入即
Figure 551943DEST_PATH_IMAGE004
,反向GRU模型
Figure 286550DEST_PATH_IMAGE005
对关键字特征向量采用反向输入即
Figure 456631DEST_PATH_IMAGE006
每个GRU模型
Figure 25016DEST_PATH_IMAGE007
,由更新门
Figure 132911DEST_PATH_IMAGE008
和重置门
Figure 546575DEST_PATH_IMAGE009
构成,GRU模型内部的信息传 播过程如下式:
Figure 571163DEST_PATH_IMAGE010
其中,
Figure 169503DEST_PATH_IMAGE011
为向量输入,
Figure 404176DEST_PATH_IMAGE012
为重置门
Figure 231317DEST_PATH_IMAGE009
的权重矩阵,
Figure 126723DEST_PATH_IMAGE013
为更新门
Figure 771331DEST_PATH_IMAGE008
的权重矩阵,
Figure 103087DEST_PATH_IMAGE014
为现在信息
Figure 858553DEST_PATH_IMAGE015
的权重矩阵,
Figure 841421DEST_PATH_IMAGE016
为逐元素相乘,
Figure 656931DEST_PATH_IMAGE017
为sigmoid函数,
Figure 475982DEST_PATH_IMAGE018
为双曲正切 函数,现在信息
Figure 35139DEST_PATH_IMAGE015
由过去信息
Figure 639558DEST_PATH_IMAGE019
与当前输入
Figure 235756DEST_PATH_IMAGE011
共同决定,
Figure 932316DEST_PATH_IMAGE020
Figure 154219DEST_PATH_IMAGE021
时刻的信息输出,包含 过去信息
Figure 127991DEST_PATH_IMAGE019
和现在信息
Figure 19724DEST_PATH_IMAGE015
,更新门
Figure 564100DEST_PATH_IMAGE008
用来控制当前的状态需要遗忘多少历史信息和接 受多少新信息,重置门
Figure 465060DEST_PATH_IMAGE009
用来控制候选状态中有多少信息是从历史信息中得到;
最终,所述BiGRU模型的输出
Figure 27759DEST_PATH_IMAGE022
由以下公式定义得出:
Figure 355973DEST_PATH_IMAGE023
其中,
Figure 620601DEST_PATH_IMAGE001
为正向GRU模型输出,
Figure 325252DEST_PATH_IMAGE001
为反向GRU模型输出,
Figure 8037DEST_PATH_IMAGE024
表示
Figure 133250DEST_PATH_IMAGE021
时刻
Figure 26120DEST_PATH_IMAGE001
所对应的权重,
Figure 409827DEST_PATH_IMAGE025
表示
Figure 196387DEST_PATH_IMAGE026
所对应的权重,
Figure 7348DEST_PATH_IMAGE027
表示
Figure 121934DEST_PATH_IMAGE021
时刻
Figure 782768DEST_PATH_IMAGE022
所对应的偏置项;
在步骤S120中,由MacBERT模型进行字向量提取,提取出的所述字向量通过双向的GRU模型提取出上下文特征,拼接生成关键词的高级特征向量;
在步骤S130中,
主题信息关键词重要性P通过sigmoid函数获得,其中0<P<1:
Figure 440145DEST_PATH_IMAGE028
其中,
Figure 546641DEST_PATH_IMAGE029
Figure 538737DEST_PATH_IMAGE030
的权重矩阵,
Figure 264248DEST_PATH_IMAGE031
Figure 526864DEST_PATH_IMAGE030
的偏置项。
2.根据权利要求1所述的主题信息提取方法,其特征在于:
所述预处理具体包括:删除标点符号和空格,在政务文本数据中引入领域词典,对数据作分词处理,利用通用停用词库进行停用词过滤,去掉分词后的政务文本数据中对应的停用词。
3.根据权利要求2所述的主题信息提取方法,其特征在于:
所述政务文本信息数据包括非结构化的政务文本数据,具体为:描述辖区建设和辖区健康管理统计监察情况的自然文本语言。
4.根据权利要求1所述的主题信息提取方法,其特征在于:
对每个主题信息关键词的重要性P按从大到小排序,选取前八个作为主题信息关键词。
5.一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行权利要求1-4中任意一项所述的政务文本的主题信息提取方法。
CN202211402800.7A 2022-11-10 2022-11-10 一种政务文本的主题信息提取方法及存储介质 Active CN115455155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211402800.7A CN115455155B (zh) 2022-11-10 2022-11-10 一种政务文本的主题信息提取方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211402800.7A CN115455155B (zh) 2022-11-10 2022-11-10 一种政务文本的主题信息提取方法及存储介质

Publications (2)

Publication Number Publication Date
CN115455155A CN115455155A (zh) 2022-12-09
CN115455155B true CN115455155B (zh) 2023-03-03

Family

ID=84295516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211402800.7A Active CN115455155B (zh) 2022-11-10 2022-11-10 一种政务文本的主题信息提取方法及存储介质

Country Status (1)

Country Link
CN (1) CN115455155B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535886A (zh) * 2020-04-15 2021-10-22 北大方正信息产业集团有限公司 信息处理方法、装置和设备
CN114398877A (zh) * 2022-01-12 2022-04-26 平安普惠企业管理有限公司 基于人工智能的主题提取方法、装置、电子设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4040328A1 (en) * 2021-02-09 2022-08-10 Tata Consultancy Services Limited Extracting mentions of complex relation types from documents
CN114153802A (zh) * 2021-12-03 2022-03-08 西安交通大学 一种基于Bert和残差自注意力机制的政务文件主题分类方法
CN114357172B (zh) * 2022-01-07 2024-08-09 北京邮电大学 一种基于ERNIE-BiGRU-Attention的谣言检测方法
CN115310448A (zh) * 2022-08-10 2022-11-08 南京邮电大学 一种基于bert和字词向量结合的中文命名实体识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535886A (zh) * 2020-04-15 2021-10-22 北大方正信息产业集团有限公司 信息处理方法、装置和设备
CN114398877A (zh) * 2022-01-12 2022-04-26 平安普惠企业管理有限公司 基于人工智能的主题提取方法、装置、电子设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向机器阅读理解的候选句抽取算法;郭鑫 等;《计算机科学》;20200531;第47卷(第5期);198-203 *

Also Published As

Publication number Publication date
CN115455155A (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
Zhang et al. Dependency sensitive convolutional neural networks for modeling sentences and documents
CN111144131B (zh) 一种基于预训练语言模型的网络谣言检测方法
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN111222305A (zh) 一种信息结构化方法和装置
CN111368086A (zh) 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法
CN111325029A (zh) 一种基于深度学习集成模型的文本相似度计算方法
Sartakhti et al. Persian language model based on BiLSTM model on COVID-19 corpus
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN111831783A (zh) 一种篇章级关系抽取方法
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
Wang et al. Mongolian named entity recognition with bidirectional recurrent neural networks
CN114462379A (zh) 一种改进的基于事件演化图的脚本学习方法和装置
CN113886601A (zh) 电子文本事件抽取方法、装置、设备及存储介质
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN113869054B (zh) 一种基于深度学习的电力领域项目特征识别方法
Sairam et al. Image Captioning using CNN and LSTM
Paria et al. A neural architecture mimicking humans end-to-end for natural language inference
CN113761192A (zh) 文本处理方法、文本处理装置及文本处理设备
Nair et al. Fake news detection model for regional language
CN115455155B (zh) 一种政务文本的主题信息提取方法及存储介质
US20240086643A1 (en) Visual Dialogue Method and System
CN111382333A (zh) 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法
Bhargava et al. Deep paraphrase detection in indian languages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant