CN117609432A

CN117609432A - 一种通过标签抽取策略实现政策智能检索方法

Info

Publication number: CN117609432A
Application number: CN202311769128.XA
Authority: CN
Inventors: 吴静; 董文兰; 钱晶; 吴刚; 孙浩
Original assignee: National Center For Chronic And Noncommunicable Disease Control And Prevention Chinese Center For Disease Control And Prevention
Current assignee: National Center For Chronic And Noncommunicable Disease Control And Prevention Chinese Center For Disease Control And Prevention
Priority date: 2023-12-21
Filing date: 2023-12-21
Publication date: 2024-02-27

Abstract

本发明公开了一种通过标签抽取策略实现政策智能检索方法，如下：获取政策文本、获取预定义的关键词列表；对获取政策文本进行分词，得到分词后的词语列表；对获取预定义的关键词列表与分词后的词语列表进行匹配，并且利用实体抽取模型对政策文本进行实体抽取，将匹配和实体抽取的结果汇总得到最终的实体标签集；根据获取政策文本与实体标签集，构建一个表达政策领域内在语义关系的政策知识图谱；根据用户输入的标签，基于政策知识图谱进行政策查询。本发明利用实体抽取模型可以学习到政策文本中丰富的语义信息，从而精确地获取政策文本中的标签信息。采用标签抽取策略抽取的标签定位政策内容的主题和范畴，从而支撑政策智能检索的精准度和效率。

Description

一种通过标签抽取策略实现政策智能检索方法

技术领域

本发明涉及信息处理技术领域，更具体的，涉及一种通过标签抽取策略实现政策智能检索方法。

背景技术

目前，政策的发布部门、发布时间、发布站点等均不相同，从而导致政策信息分散。用户想要了解本产业领域的政策信息，往往要通过搜索大量的网站信息，同时还要对获取的政策信息进行分析，来判断自身是否符合申报条件，这样繁琐的流程占用了企业等用户大量的时间。用户往往要从海量的政策中逐个分析才能获知自身适合申报的政策，占用大量人工时间，效率低。企业无法及时获取政策信息，也无法及时判断自身是否符合申报条件并完成申报流程，需要充分发挥海量数据和丰富应用场景优势。

然而传统搜索方式的局限性在于：只能对政策内容进行模糊匹配，无法实现对政策所属标签的精确匹配。此外，也无法识别和关联同一类内容的政策。

发明内容

本发明为了解决现有技术只能对政策内容进行模糊匹配，无法实现对政策精准查询的问题，提出了一种通过标签抽取策略实现政策智能检索方法，其能够精准提取政策文本中的关键信息，进一步转化为标签以实现高效、精准的信息检索。

为实现上述本发明目的，采用的技术方案如下：

一种通过标签抽取策略实现政策智能检索方法，所述方法包括步骤如下：

获取政策文本、获取预定义的关键词列表；

对获取政策文本进行分词，对分词得到的词语进行词性标注；

对获取预定义的关键词列表与分词后的词语列表进行匹配，并且利用实体抽取模型对政策文本进行实体抽取，将匹配和实体抽取的结果汇总得到最终的实体标签集；

根据获取政策文本与得到的实体标签集，构建一个表达政策领域内在语义关系的政策知识图谱；所述政策知识图谱包括政策文件和实体标签，语义关系为政策文件指向实体标签的关联关系；

根据接收到用户输入的标签，基于得到的政策知识图谱进行政策查询。

优选地，所述获取政策文本，包括

获取原始政策文档；

对获取原始政策文档进行文本内容提取，将文档中的文本内容与其他非文本内容分开，得到政策文本。

进一步地，在获取政策文本之后，在对获取政策文本进行分词之前；所述方法还包括：

对政策文本进行数据清洗；

对政策文本进行数据标准化处理。

优选地，采用基于词典的分词方法、或基于统计的分词方法、或基于词典的分词方法结合基于统计的分词方法对获取政策文本进行分词。

进一步地，在获取政策文本之后，在对获取政策文本进行分词之前，所述方法还包括：

采用训练好的实体抽取模型对所述获取政策文本进行识别，识别得到未登录词；所述未登录词包括新词、专有名词；

将识别得到的未登录词经过审核后加入到词典中，更新词典；

基于更新后的词典对获取政策文本进行分词。

优选地，所述获取预定义的关键词列表，包括：

读取关键词配置文件；所述关键词配置文件包括关键词列表，用于确定一个关键词是否被抽取为对应的标签；

所述关键词列表的数据结构中Map映射的键为关键词，值则是待抽取的标签名。

优选地，对获取预定义的关键词列表与分词后的词语列表进行匹配，并且利用实体抽取模型对政策文本进行实体抽取，将匹配和实体抽取的结果汇总得到最终的实体标签集，包括：

采用实体抽取模型对政策文本内容进行实体抽取得到带有实体标签的第一实体标签集；

对政策文本进行分词得到分词后的词语列表，再逐一匹配词语列表中每一个词语，判断词语列表中的词语是否出现在关键词列表中，若存在则得到词语以及对应的标签结果，最终汇总得到第二实体标签集；

将第一实体标签集、第二实体标签集按照一定比例进行组合并去重后汇总，得到实体标签集。

进一步地，所述实体抽取模型利用ALBERT预训练语言模型结合BILSTM双向长短时记忆神经网络以及CRF条件随机场构建得到。

一种计算机***，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的通过标签抽取策略实现政策智能检索方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时，实现所述的通过标签抽取策略实现政策智能检索方法的步骤。

本发明的有益效果如下：

本发明将处理过的政策文本与预定义的关键词列表进行匹配，从而为文本赋予更丰富的语义信息。并通过匹配和实体抽取的标签抽取策略抽取标签定位政策内容的主题和范畴，从而支撑政策智能检索的精准度和效率。本发明利用实体抽取模型可以学习到政策文本中丰富的语义信息，从而精确地获取政策文本中的标签信息。本发明能够通过精确的实体抽取及后续的图谱查询，实现政策与政策之间的智能关联，为用户提供更为精准和便捷的政策检索服务。在此基础上，进一步推动政务信息化建设的进步，并为相关企业和个人提供更为高效的政策咨询服务。

附图说明

图1是本发明一种通过标签抽取策略实现政策智能检索方法的步骤流程图。

图2是本发明实体抽取模型的原理结构图。

具体实施方式

以下将参照附图和优选实施例来说明本发明的实施方式，本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

实施例1

如图1所示，一种通过标签抽取策略实现政策智能检索方法，所述方法包括步骤如下：

S1：获取政策文本、获取预定义的关键词列表；

S2：对获取政策文本进行分词，对分词得到的词语进行词性标注；

S3：对获取预定义的关键词列表与分词后的词语列表进行匹配，并且利用实体抽取模型对政策文本进行实体抽取，将匹配和实体抽取的结果汇总得到最终的实体标签集；

S4：根据获取政策文本与得到的实体标签集，构建一个表达政策领域内在语义关系的政策知识图谱；所述政策知识图谱包括政策文件和实体标签，语义关系为政策文件指向实体标签的关联关系；

S5：根据接收到用户输入的标签，基于得到的政策知识图谱进行政策查询。

在一个具体的实施例中，所述获取政策文本，包括：

获取原始政策文档；

一般的，原始政策文档中或多或少的存在一些其他非文本元素（例如图片、图表等），如果直接进行分词，会受其他非文本元素的影响。因此本实施例首先需要对原始政策文档进行文本内容提取，将文档中的文本内容与其他非文本元素（例如图片、图表等）分开。这通常通过解析政策文档的文本编码来实现，例如PDF的解码、WORD文件的读取、HTML的标签解析等。

解析政策文档的文本编码的具体实现：在Java中，可以使用Apache PDFBox库或iText库来解析PDF文档。这些库提供了丰富的功能，可以从PDF文件中提取文本内容。解析Word文本，可以使用Apache POI库，利用POI的XWPFDocument类来读取Word文档。对于HTML解析，可以使用Jsoup库来解析HTML文档，并提取所需的文本内容。

在一个具体的实施例中，在获取政策文本之后，在对获取政策文本进行分词之前，所述方法还包括：

对政策文本进行数据清洗；

对政策文本进行数据标准化处理。

本实施例，对获取原始政策文档进行文本内容提取之后，政策文本中可能存在一些无关元素或特殊字符，例如空格、换行符、特殊符号等。因此本实施例还需要对政策文本进行数据清洗，去除或替换文本中的一些无关元素或特殊字符，例如空格、换行符、特殊符号等，从而得到一个干净的文本数据。

有时候获取政策文本中存在粗体、非粗体；大写、小写等多种数据格式，因此也需要进行数据标准化处理，例如将文本内容转化为小写、或进行同义词替换等，以便后续处理。

本实施例可以先判断获取的政策文本中是否存在空格、换行符、特殊符号等一些无关元素或特殊字符。若存在则进行数据清洗。若不存在，则可以不进行数据清洗。

至于政策文本的清洗，可以使用Java的正则表达式（Regex）来去除不必要的符号和标记，或者使用字符串操作方法来处理政策文本。

同理，若政策文本中的数据格式都是统一的，则可以不用进行数据格式化处理；反之则需要数据标准化处理。

本实施例采用基于词典的分词方法、或基于统计的分词方法、或基于词典的分词方法结合基于统计的分词方法对获取政策文本进行分词。

本实施例对获取政策文本进行分词具体实现：可以采用一些成熟的中文分词工具，如jieba分词器。jieba分词器允许开发者添加自定义的分词词典，以便能够适应不同领域的文本分词需求。例如，在政策文本中，可能会包含一些法律法规的专业术语，将这些术语加入到分词词典中，可以提高分词的准确度。

分词对应的部分伪代码如下：

`python

import jieba

#添加自定义词典

jieba.load_userdict("custom_dict.txt")

words = jieba.cut("政策文本内容")

#输出分词结果

print("/".join(words))

```

其中，`custom_dict.txt`是一个包含专业术语的自定义词典，格式通常为一个词占一行，词与词频之间用空格分隔。

基于更新后的词典对获取政策文本进行分词。

本实施例在处理特定领域的文本时，通常会有大量的专业词汇或新词。通过使用训练好的实体抽取模型，能够在未登录词中发现这些新词，经过人工审核后可以加入到词典中，提高分词的准确度。

本实施例的步骤，具体在对政策文本进行数据清洗，和/或对政策文本进行数据标准化处理之后，再采用训练好的实体抽取模型对所述获取政策文本进行识别，识别得到未登录词。

在一个具体的实施例中，所述获取预定义的关键词列表，包括：

所述的关键词配置文件是预先构建的，所述配置文件包括关键词列表，分别用于确定一个关键词是否应被抽取为对应的标签。

关键词列表，其列表的结构为：Map映射的键（key）为关键词，值（value）则是待抽取的标签名，通常是与政策内容直接相关的词语或短语，例如“疾病预防”、“营养健康”等关键词，每个关键词都对应一个标签。

通过上述的文本处理阶段，可以确保政策文本数据的质量和后续处理的准确度，为后续和图谱构建提供强有力的支持。

本实施例中，匹配、实体抽取是核心环节之一，主要负责将处理过的政策文本进行实体抽取、对关键词列表与分词后的词语列表进行匹配，从而为文本赋予更丰富的语义信息。此阶段的关键任务包括利用抽取的实体标签定位政策内容的主题和范畴，从而支撑政策智能检索的精准度和效率。

在实施例中，对获取预定义的关键词列表与分词后的词语列表进行匹配，并且利用实体抽取模型对政策文本进行实体抽取，将匹配和实体抽取的结果汇总得到最终的实体标签集，包括：

在本实施例中，将第一实体标签集、第二实体标签集可以按照50%：50%的比例进行组合并去重后汇总，得到实体标签集；第一实体标签集、第二实体标签集也可以按照40%：60%的比例进行组合并去重后汇总；也可以按照其他的比例，具体根据实际应用场景选择。

值得注意的是，这种通过对关键词列表与分词后的词语列表进行匹配，并且利用实体抽取模型对政策文本进行实体抽取的标签抽取策略，考虑到了政策文本的特性及其在实际应用中的需求，旨在通过技术手段解决以下问题：

问题1：传统的政策检索方式往往依赖于简单的关键词匹配，这导致检索结果很难精确匹配用户的真实需求。

问题2：在政策信息繁杂的情况下，传统方法很难快速找到与特定政策相关的其他政策。

通过上述算法的应用，本发明能够通过精确的标签抽取及后续的图谱查询，实现政策与政策之间的智能关联，为用户提供更为精准和便捷的政策检索服务。在此基础上，进一步推动政务信息化建设的进步，并为相关企业和个人提供更为高效的政策咨询服务。

在一个具体的实施例中，所述实体抽取模型利用ALBERT预训练语言模型结合BILSTM双向长短时记忆神经网络和CRF条件随机场构建得到，模型结构为ALBERT-BILSTM-CRF，模型结构图如图2所示，图2中以慢性病防控政策为例进行的说明。

在本实施例中，根据获取政策文本与得到的实体标签集，构建一个表达政策领域内在语义关系的政策知识图谱；所述政策知识图谱包括政策文件和实体标签，语义关系为政策文件指向实体标签的关联关系。

在本实例中，政策编辑用户提交政策文件后，获取政策文件利用上述S1~S3的步骤方法，自动抽取政策文本获取政策文本对应的实体标签集。

获得标签实体集，可以由管理员进行后续的标签微调和政策审核，确保标签的准确性和政策的合规性。

在一个具体的实施例中，将政策文本和实体标签转化为政策知识图谱中的实体和关系，具体：利用RDF（Resource Description Framework）或其他图谱构建技术，将政策文本和实体标签转化为政策知识图谱中的实体和关系，得到政策知识图谱。

使用neo4j图数据库的Cypher查询语言，将政策本体和关联关系更新同步到图谱平台。

在一个具体的实施例中，根据接收到用户输入的标签，基于得到的政策知识图谱进行政策查询；

在本实施例中，基于政策知识图谱的查询：图谱平台提供一个用户友好的Web界面或API接口，允许用户通过选择或输入标签进行政策查询，图谱平台根据接收到的标签，基于政策知识图谱中的实体和关系进行政策文本查询。

本实例，在图谱同步环节中，政策文本和实体标签将被转化为图谱中的实体和关系，其中，实体包括“政策”和“标签”两类，而关系则表示政策和标签之间的关联。例如，如果政策A包含标签B，那么在图谱中将存在一条从实体“政策A”到实体“标签B”的有向边。

在智能查询环节中，用户可以通过政策知识图谱查询找到与特定标签关联的所有政策。例如，如果用户查询与“新能源”标签关联的政策，那么图谱平台将返回所有与“新能源”标签直接关联的政策，从而帮助用户快速找到相关的政策信息。

通过上述的政策标签图谱构建过程，本发明实现了政策信息的结构化管理和高效检索，进一步提升了政策信息服务的智能化水平，并为政府和企业提供了一个高效、精准的政策信息检索工具。

在一个具体的实施例中，还提供了一种计算机***，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述通过标签抽取策略实现政策智能检索方法的步骤。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

在一个具体的实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时，实现如上通过标签抽取策略实现政策智能检索方法的步骤。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种通过标签抽取策略实现政策智能检索方法，其特征在于：所述方法包括步骤如下：

获取政策文本、获取预定义的关键词列表；

对获取政策文本进行分词，得到分词后的词语列表；

2.根据权利要求1所述的通过标签抽取策略实现政策智能检索方法，其特征在于：所述获取政策文本，包括：

获取原始政策文档；

对获取原始政策文档进行文本内容提取，将原始政策文档中的文本内容与其他非文本内容分开，得到政策文本。

3.根据权利要求1或2任一项所述的通过标签抽取策略实现政策智能检索方法，其特征在于：在获取政策文本获取预定义的关键词列表之后，在对获取政策文本进行分词之前；所述方法还包括：

对政策文本进行数据清洗；

对政策文本进行数据标准化处理。

4.根据权利要求1所述的通过标签抽取策略实现政策智能检索方法，其特征在于：采用基于词典的分词方法、或基于统计的分词方法、或基于词典的分词方法结合基于统计的分词方法对获取政策文本进行分词。

5.根据权利要求4所述的通过标签抽取策略实现政策智能检索方法，其特征在于：在获取政策文本获取预定义的关键词列表之后，在对获取政策文本进行分词之前，所述方法还包括：

基于更新后的词典对获取政策文本进行分词。

6.根据权利要求1所述的通过标签抽取策略实现政策智能检索方法，其特征在于：所述获取预定义的关键词列表，包括：

7.根据权利要求1所述的通过标签抽取策略实现政策智能检索方法，其特征在于：对获取预定义的关键词列表与分词后的词语列表进行匹配，并且利用实体抽取模型对政策文本进行实体抽取，将匹配和实体抽取的结果汇总得到最终的实体标签集，包括：

8.根据权利要求5或7任一项所述的通过标签抽取策略实现政策智能检索方法，其特征在于：所述实体抽取模型利用ALBERT预训练语言模型结合BILSTM双向长短时记忆神经网络以及CRF条件随机场构建得到。

9.一种计算机***，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的通过标签抽取策略实现政策智能检索方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述的计算机程序被处理器执行时，实现如权利要求1至8任一项所述的通过标签抽取策略实现政策智能检索方法的步骤。