CN116562265B

CN116562265B - 一种信息智能解析方法、***及存储介质

Info

Publication number: CN116562265B
Application number: CN202310811685.7A
Authority: CN
Inventors: 王铁鑫; 张超; 苏圣阳; 孙进宇; 刘彬
Original assignee: Nanjing Dnet System Technology Co ltd; Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing Dnet System Technology Co ltd; Nanjing University of Aeronautics and Astronautics
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-12-01
Anticipated expiration: 2043-07-04
Also published as: CN116562265A

Abstract

本发明公开了一种信息智能解析方法、***及存储介质，涉及人工智能领域，所述方法包括：政策文件预处理，获取政策关键内容；使用自然语言处理技术，训练政策指标自动抽取模型，所述自然语言处理技术主要包括：命名实体识别、关系抽取；根据政策指标自动抽取模型，将政策文本自动解析为指标三元组；构建政策指标知识图谱，使用图数据库存储指标三元组信息；政策知识查询，针对于企业，提供政策指标知识查询的服务。本发明有效解决政策文本解读困难问题，使用政策指标三元组表示政策文件，构建知识图谱存储政策信息，能自动抽取、存储政策文本的关键信息并提供政策知识查询等服务。

Description

一种信息智能解析方法、***及存储介质

技术领域

本发明公开了一种信息智能解析方法、***及存储介质，涉及人工智能领域。

背景技术

随着信息化技术的发展，用户整理信息文件的信息化平台已成为常用的便捷渠道，但是这些平台难以将信息文件进行准确的推荐。对于用户来说，找到符合自己需要的信息文件比较困难。原因主要是：不了解信息文件，看不明白，也不会使用；信息文件数量庞大，筛选信息文件消耗大量时间以及需要具备一定的专业知识。

发明内容

针对以上技术问题，本申请旨在提出一种信息智能解析方法、***及存储介质，有效解决信息文件解读困难问题，使用信息文件的指标三元组表示政策文件，构建知识图谱存储政策信息，能自动抽取、存储信息文件的关键信息并提供信息文件的知识查询、知识推理等服务。

为实现上述的目的，本发明所采取的技术方案如下：

一种信息智能解析方法，所述方法包括以下步骤：

S1，使用文字识别方法从设定的原文件中提取关键内容，获取待处理信息并保存；

S2，使用自然语言处理方法训练BERT-BiLSTM-CRF指标自动抽取模型，所述自然语言处理方法主要包括：命名实体识别过程、关系抽取过程；

S3，通过训练好的BERT-BiLSTM-CRF指标自动抽取模型，将待处理信息自动解析为指标三元组信息；

S4，构建设定指标知识图谱，使用图数据库存储所述指标三元组信息；

S5，查询设定指标，得到指标三元组序列信息，反馈给用户。

进一步的，所述步骤S1具体包含以下内容：

使用爬虫技术获取设定的原文件，使用文字识别方法OCR在所述设定的原文件中提取关键内容，获取待处理信息保存到excel文件中。

进一步的，所述步骤S2具体包含以下内容：

将所述待处理信息按照设定比例分为训练集和测试集，使用实体-关系联合抽取的方式，对待处理信息训练集进行标注，训练BERT-BiLSTM-CRF指标自动抽取模型；

所述BERT-BiLSTM-CRF指标自动抽取模型包含BERT模块、BiLSTM模块以及CRF模块，所述BERT模块将输入的待处理信息通过构建两个无监督训练任务转换为词向量，所述BiLSTM模块将BERT模块的输出词向量作为输入，进行编码计算后输出到CRF模块，在CRF模块中进行最终的解码计算，得到预测序列。

进一步的，所述实体-关系联合抽取方法包含以下内容：

对待处理信息训练集进行标注，标注标签格式包含三个部分，第一部分为对实体在词中位置信息的标注，该部分的标注规则参照BIOES标注规范，标签和代表的信息为{B：实体开始，I：实体内部，E：实体结束，S：单个实体}；第二部分为对关系信息进行标注，根据已制定的实体类型，进行简化编码，标注出关系的类型信息；第三部分为实体的主客体信息，即关系的方向，标注规则为{1：实体1，2：实体2}或{3：实体}。

进一步的，所述BERT模块包含两个无监督训练任务，分别是语句遮挡训练MLM和句子关系预测NSP；NSP任务中根据输入两个句子的拼接，判断两个句子是否为上下句关系；MLM将句子以字符为单位进行切分，然后在训练样本中随机选取部分字符，在原句中抹去该部分字符，使用剩余的字符来预测被抹去的字符。

进一步的，所述BiLSTM模块以及CRF模块共同构成BiLSTM-CRF模块，BiLSTM-CRF模块包含以下内容：

将BERT模块得到的词向量输入到BiLSTM模块中进行编码，所述BiLSTM模块由前向LSTM层和后向LSTM层组成，输出为两层LSTM输出的综合，LSTM计算的公式表达如下所示：

f_t＝σ(W_f[h_t-1，x_t]+b_f)；

i_t＝σ(W_i[h_t-1，x_t]+b_i)；

o_t＝σ(W_o[h_t-1，x_t]+b_o)；

h_t＝o_T*tanh(c_t)；

在上式中：o_t为输入门、f_t为输出门，i_t为遗忘门，c_t为记忆cell，σ和tanh为激活函数，W是门的权重矩阵，b为门的偏置向量，x_t为当前单元的输入信息，h_t-1为上一隐藏层的状态，c_t-1和c_t为上一序列和当前的cell状态，为临时的cell状态；当前单元对上一单元传入信息的取舍，当前输入的保留程度以及对下一单元的输出都根据f_t，i_t和O_t的计算结果来决定；

BiLSTM模块的输出结果表达式为：

CRF模块根据邻近标签的关系创建一个标签转移矩阵，生成概率不同的标签序列，将计算得分最高的序列设定为最终的预测序列；对于任意一个序列X＝(x₁，x₂，...，x_n)，在CRF模块中的分数计算公式为：

其中，Y为序列X的预测序列，P是BiLSTM模块输出的得分矩阵，即h_t，P_i，j表示第i个词的第j个标签的分数，A表示转移分数矩阵，A_i，j表示标签i转移为标签j的分数；预测序列Y产生的概率公式为：

将等式两边取对数得到预测序列的似然函数：

其中，表示真实的标注序列，Y_X表示所有可能的标注序列，最终解码后得到最大分数的输出序列为：

进一步的，所述S3为：

利用训练好的BERT-BiLSTM-CRF指标自动抽取模型从待处理信息中抽取＜头实体，关系，尾实体＞的三元组形式。

本申请还提供一种信息智能解析***，所述解析***包括：

预处理模块，所述预处理模块使用文字识别方法从设定的原文件中提取关键内容，获取待处理信息并保存；

模型训练模块，所述模型训练模块使用自然语言处理方法，训练设定指标自动抽取模型，所述自然语言处理方法主要包括：命名实体识别过程、关系抽取过程；

指标抽取模块，所述指标抽取模块根据设定指标自动抽取模型，将待处理信息自动解析为指标三元组信息；

存储模块，所述存储模块构建设定指标知识图谱，使用图数据库存储所述指标三元组信息；

查询模块，所述查询模块查询设定指标，得到指标三元组序列信息，反馈给用户。

本申请还提供一种计算机可读存储介质，所述存储介质中存储程序，所述程序被处理器执行时实现上述信息智能解析方法。

有益效果：

本申请提出的一种信息智能解析方法、***及存储介质，有效解决信息文件解读困难问题，使用信息文件的指标三元组表示政策文件，构建知识图谱存储政策信息，能自动抽取、存储信息文件的关键信息并提供信息文件的知识查询、知识推理等服务。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例中提供的一种信息智能解析方法流程图；

图2为本发明实施例中提供的一种信息智能解析方法方案中实体-关系联合抽取模型示意图；

图3为本发明实施例中提供的政策知识图谱的构建流程图；

图4为本发明实施例中提供的图数据库中政策文件的存储示例图。

具体实施方式

下面将结合附图和具体实施方式对本发明做进一步详细的叙述，显然，所描述的实施例是本发明的一部分实施例，基于本发明中，本领域中普通技术人员在没有做出创造性劳动的前提下所获得的其他实施例，都属于本发明保护范围。

实施例1

图1为本发明提供的一种信息智能解析方法，目前，针对为企业提供政策信息的平台是政策计算器，它的主要功能特点：对国家级和所在省市的政策进行了汇总，并提供了分类查询功能。部分政策计算器提供了自测功能，通过企业填报的数据判断是否可以申报某政策。但是这种技术存在以下不足的方面：数据重复填报严重，初次填报数据的流程冗杂；通过填报的数据进行模糊筛选，没有挖掘数据信息，难以精确匹配；政策计算器主要针对企业进行申报辅助，在政府审核时无法使用。

本实施例为针对企业扶持政策的智能解析，该方法包括以下步骤：

S1，使用文字识别方法从设定的原文件中提取关键内容，获取待处理信息并保存；本实施例提供的方案为使用爬虫技术从政策信息发布网站中获取政策原文件，再通过optical character recognition OCR文本识别技术获取政策文件PDF中的关键内容，得到政策文本主要信息并保存到excel文件中。

S2，使用自然语言处理方法训练BERT-BiLSTM-CRF指标自动抽取模型，在本实施例中，训练政策指标自动抽取模型，所述自然语言处理方法主要包括：命名实体识别过程、关系抽取过程；

图2为本发明实施例中提供的一种信息智能解析方法的实体-关系联合抽取模型示意图，该实体-关系联合抽取模型包含以下内容：

将上述excel文件中的待处理信息按照7：3的比例分为训练集和测试集，使用实体-关系联合抽取的方式，对政策文本训练集进行标注。标注标签的形式和格式可以自行定义，能够体现样本与其对应的特征即可，在本实施例中，在数据标注时使用的标注标签格式主要包含三个部分：第一部分是对实体在词中位置信息的标注，该部分的标注规则参照BIOES标注规范，标签和代表的信息为{B(实体开始)，I(实体内部)，E(实体结束)，S(单个实体)}；第二部分是对关系信息进行标注，根据已制定的实体类型，进行简化编码，标注出关系的类型信息。第三部分是对实体的主客体信息，即关系的方向，标注规则为{1(实体1)，2(实体2)}或{3(实体)}；在第三部分中，由于政策文本的特殊性，部分类型的政策指标关系会省略政策指标的主体，对此类关系需要补充其主体部分，故将此类实体单独标注。其余不在实体关系三元组内的字符全部打上标签“O”。

采用基于BERT-BiLSTM-CRF的知识抽取模型，即BERT-BiLSTM-CRF指标自动抽取模型实现实体和关系联合抽取任务。BERT-BiLSTM-CRF指标自动抽取模型首先将标注好的序列输入到BERT层，得到语境化的词向量；然后将词向量输入BiLSTM层进行编码，BiLSTM模块将BERT模块的输出词向量作为输入，进行编码计算后输出到CRF模块，在CRF模块中进行最终的解码计算，得到预测序列。

BERT模型在语言模型预训练时，构建了两个无监督训练任务，分别是语句遮挡训练MLM(Mask Language Model)和句子关系预测NSP(Next Sentence Prediction)。NSP任务中会输入两个句子的拼接，模型判断两个句子是否为上下句关系。MLM会将句子以字符为单位进行切分，然后在训练样本中随机选取15％切分后的字符，在原句中抹去它们，使用其他剩余的字符来预测被抹去的字符。

经过上述BERT层得到了语境化的词向量，将词向量输入到BiLSTM层中进行编码，该BiLSTM层由前向LSTM层和后向LSTM层组成，输出为两层LSTM输出的综合。门控概念是LSTM模型运行的核心，LSTM模型中的门包括遗忘门i_t、输入门o_t、输出门f_t和记忆cellc_t。使用遗忘门和输入门在计算过程中传递有用信息并过滤无用信息，使用记忆cell的输出与输出门的输出相乘作为整个结构的输出。LSTM计算的公式表达如下所示：

f_t＝σ(W_f[h_t-1，x_t]+b_f)；

i_t＝σ(W_i[h_t-1，x_t]+b_i)；

o_t＝σ(W_o[h_t-1，x_t]+b_o)；

h_t＝o_t*tanh(c_t)；

BiLSTM模块的输出结果表达式为：

将等式两边取对数得到预测序列的似然函数：

S3，利用训练好的政策指标自动抽取模型，从政策文本中抽取＜头实体，关系，尾实体＞的三元组形式。在政策文本中提取到的指标三元组中的实体类型可分为以下14种：年份、地点、学历、职称、企业或机构、企业类型、产业、荣誉或头衔资格、经济类型、金钱、人数、年龄、时间、场地；由于政策文本的特殊性，部分类型的政策指标关系会省略政策指标的主体，对此类关系自动补充其主体部分，例如：＜企业资质，资质类型，高新技术企业＞等。表1为本发明实施例中提供的政策指标三元组的类别及示例；

表1

。

开发客户端界面可视化展示政策指标抽取功能及结果。该客户端是基于Vue框架开发，提供政策文本内容输入、“抽取”按钮传递数据、指标三元组表格渲染的功能。通过将政策文本内容手动输入或者粘贴输入之后，点击“抽取”按钮，客户端将输入的政策文本内容传递给服务端；服务端接口是基于Flask框架开发，接口接收到客户端传递的政策文本内容后，将政策文本内容输入到已训练好的政策指标自动抽取模型中，经过模型的处理，输出识别出来的政策指标三元组序列，服务端接口获取到指标三元组序列，并传递给客户端；客户端接收到政策指标三元组序列之后，依次将每一条三元组信息按照“头实体”、“关系”、“尾实体”形式渲染到表格中。

S4，构建政策指标知识图谱，描述政策指标中的实体和概念，以及他们之间的关系。

图3为本发明实施例中提供的政策知识图谱的构建流程图，该流程包含以下具体内容：

具体的，首先对包含数据库、表格等结构化、半结构化数据中已有的语义结构进行梳理，结合政策申报领域专家的经验，自顶向下的构建政策知识图谱的模式层；然后使用图数据库对步骤S3中抽取的指标三元组进行存储，从而构建知识图谱的数据层。

知识图谱数据层构建方法包含以下具体内容：首先，基于python语言依次读取S1步骤中预处理得到的excel表格中每一个政策文件信息，一个政策文件信息包括名称、等级、类别和文本内容；等级包括区级、市级、省级、国家；类别包括科技、工信、人才等。其次，将每一个政策文件中的文本内容输入到模型中，模型处理之后，将政策指标三元组序列返回；进而，将该政策文件的名称、等级、类别、指标三元组序列存储到一个json文件中，直至excel表格中所有的政策文件全部解析存储到该json文件中。该json文件作为图数据库存储所需数据的中间形式。

基于Vue框架开发客户端，客户端获取上述json文件，依次提取每一个政策的信息：名称、类别、等级、指标三元组序列，然后将改内容传递给服务端；该服务端是基于Springboot框架开发，用来接受客户端传递的政策信息，并连接neo4j数据库，将政策信息存储到neo4j数据库中。在该neo4j数据库中，对于每一个政策，首先创建一个根节点，该节点的属性为政策的名称、类别和等级；其次，将指标三元组中的头实体和尾实体分别创建节点，该节点的属性为实体的名称；然后，为政策节点和头实体节点建立一条边，该边的内容为“指标”；然后，为三元组中的头实体和尾实体创建边，该边的内容为对应指标三元组中的关系内容：比如：“指标囊括”、“具有”等。图4为本发明实施例中提供的图数据库中一个政策文件的存储示例图。

S5，查询设定指标，得到指标三元组序列信息，反馈给用户，为企业提供政策指标查询服务。

在S4中所有政策指标数据存储到图数据库中之后，企业可以选择相应的查询条件，如政策的名称、等级、类别或者表1中具体的指标类型，然后获取到所需要的政策指标信息。对于政策名称查询条件，企业可以获取到政策名称对应的政策内容；对于政策等级查询条件，企业可以获取到该等级的所有政策内容；对于政策类别查询条件，企业可以获取到该类别的所有政策内容；对于具体的指标类型，企业可以获取到具有该指标类型的所有政策内容。对企业提供这种政策查询服务，可以有效地减轻企业阅读大量政策PDF文件的负担。

本实施例提出一种信息智能解析方法，能够有效解决政策文本解读困难问题，使用政策指标三元组表示政策文件，构建知识图谱存储政策信息，能自动抽取、存储政策文本的关键信息并提供政策知识查询、政策知识推理等服务。

实施例2

本发明实施例提供了一种信息智能解析***，预处理模块，所述预处理模块使用文字识别方法从设定的原文件中提取关键内容，获取待处理信息并保存；

基于本实施例的应用场景，该***为基于知识表征的企业扶持政策智能解析***，该***包含以下内容：

预处理模块，政策文件预处理，使用文字识别技术从政策文件中提取关键内容，获取政策文本并保存；模型训练模块，基于命名实体识别以及关系抽取的自然语言处理方法，训练出一个高效的政策指标提取模型；指标抽取模块，利用训练模块中的最终模型，自动将输入的政策文本解析为指标三元组；存储模块，构建指标知识图谱，使用图数据库存储政策指标信息；查询模块，为企业提供政策指标查询服务。

实施例3

本发明实施例提供了一种计算机可读存储介质，所述存储介质中存储程序，所述程序被处理器执行时实现上述的一种信息智能解析方法。

本发明有效解决政策文本解读困难问题，使用政策指标三元组表示政策文件，构建知识图谱存储政策信息，能自动抽取、存储政策文本的关键信息并提供政策知识查询等服务。

Claims

1.一种信息智能解析方法，其特征在于，所述方法包括以下步骤：

S1，使用文字识别方法从设定的原文件中提取关键内容，获取待处理信息并保存；所述待处理信息为政策文本；

S2，使用自然语言处理方法训练BERT-BiLSTM-CRF指标自动抽取模型，所述自然语言处理方法包括：命名实体识别过程、关系抽取过程；

S3，通过训练好的BERT-BiLSTM-CRF指标自动抽取模型，将待处理信息自动解析为指标三元组信息；从政策文本中抽取<头实体，关系，尾实体>的三元组形式；在政策文本中提取到的指标三元组中的实体类型可分为以下14种：年份、地点、学历、职称、企业或机构、企业类型、产业、荣誉或头衔资格、经济类型、金钱、人数、年龄、时间、场地；由于政策文本的特殊性，部分类型的政策指标关系会省略政策指标的主体，对此类关系自动补充其主体部分；

开发客户端界面可视化展示政策指标抽取功能及结果；该客户端基于Vue框架开发，提供政策文本内容输入、抽取按钮传递数据、指标三元组表格渲染的功能；通过将政策文本内容手动输入或者粘贴输入之后，点击抽取按钮，客户端将输入的政策文本内容传递给服务端；服务端接口是基于Flask框架开发，接口接收到客户端传递的政策文本内容后，将政策文本内容输入到已训练好的政策指标自动抽取模型中，经过模型的处理，输出识别出来的政策指标三元组序列，服务端接口获取到指标三元组序列，并传递给客户端；客户端接收到政策指标三元组序列之后，依次将每一条三元组信息按照头实体、关系、尾实体形式渲染到表格中；

知识图谱数据层构建方法包含以下具体内容：首先，基于python语言依次读取S1步骤中预处理得到的excel表格中每一个政策文件信息，一个政策文件信息包括名称、等级、类别和文本内容；等级包括区级、市级、省级、国家；类别包括科技、工信、人才；

其次，将每一个政策文件中的文本内容输入到所述政策指标自动抽取模型中，政策指标自动抽取模型处理之后，将政策指标三元组序列返回；将该政策文件的名称、等级、类别、指标三元组序列存储到一个json文件中，直至excel表格中所有的政策文件全部解析存储到该json文件中；该json文件作为图数据库存储所需数据的中间形式；

基于Vue框架开发客户端，客户端获取所述json文件，依次提取每一个政策的信息，然后将该信息发送给服务端；所述服务端基于Springboot框架开发，用于接受客户端传递的政策信息，并连接neo4j数据库，将政策信息存储到neo4j数据库中；

在所述neo4j数据库中，对于每一个政策，首先创建一个根节点，该节点的属性为政策的名称、类别和等级；其次，将指标三元组中的头实体和尾实体分别创建节点，该节点的属性为实体的名称；然后，为政策节点和头实体节点建立一条边，该边的内容为“指标”；然后，为三元组中的头实体和尾实体创建边，该边的内容为对应指标三元组中的关系内容；

2.根据权利要求1所述的一种信息智能解析方法，其特征在于，所述步骤S1具体包含以下内容：

3.根据权利要求2所述的一种信息智能解析方法，其特征在于，所述步骤S2具体包含以下内容：

4.根据权利要求3所述的一种信息智能解析方法，其特征在于，所述实体-关系联合抽取方法包含以下内容：

5.根据权利要求3所述的一种信息智能解析方法，其特征在于，所述BERT模块包含两个无监督训练任务，分别是语句遮挡训练MLM和句子关系预测NSP；NSP任务中根据输入两个句子的拼接，判断两个句子是否为上下句关系；MLM将句子以字符为单位进行切分，然后在训练样本中随机选取部分字符，在原句中抹去该部分字符，使用剩余的字符来预测被抹去的字符。

6.根据权利要求3所述的一种信息智能解析方法，其特征在于，所述BiLSTM模块以及CRF模块共同构成BiLSTM-CRF模块，BiLSTM-CRF模块包含以下内容：

；

在上式中：为输入门、/>为输出门，/>为遗忘门，/>为记忆cell，/>和/>为激活函数，/>是门的权重矩阵，/>为门的偏置向量，/>为当前单元的输入信息，/>为上一隐藏层的状态，/>和/>为上一序列和当前的cell状态，/>为临时的cell状态；当前单元对上一单元传入信息的取舍，当前输入的保留程度以及对下一单元的输出都根据/>，/>和/>的计算结果来决定；

BiLSTM模块的输出结果表达式为：

；

CRF模块根据邻近标签的关系创建一个标签转移矩阵，生成概率不同的标签序列，将计算得分最高的序列设定为最终的预测序列；对于任意一个序列，在CRF模块中的分数计算公式为：

；

其中，Y为序列X的预测序列，P是BiLSTM模块输出的得分矩阵，即，/>表示第i个词的第j个标签的分数，A表示转移分数矩阵，/>表示标签i转移为标签j的分数；预测序列Y产生的概率公式为：

；

将等式两边取对数得到预测序列的似然函数：

；

其中，表示真实的标注序列，/>表示所有可能的标注序列，最终解码后得到最大分数的输出序列为：

。

7.根据权利要求1所述的一种信息智能解析方法，其特征在于，所述S3为：

利用训练好的BERT-BiLSTM-CRF指标自动抽取模型从待处理信息中抽取<头实体，关系，尾实体>的三元组形式。

8.一种信息智能解析***，其特征在于，所述解析***包括：

所述指标抽取模块通过训练好的BERT-BiLSTM-CRF指标自动抽取模型，将待处理信息自动解析为指标三元组信息；从政策文本中抽取<头实体，关系，尾实体>的三元组形式；在政策文本中提取到的指标三元组中的实体类型可分为以下14种：年份、地点、学历、职称、企业或机构、企业类型、产业、荣誉或头衔资格、经济类型、金钱、人数、年龄、时间、场地；由于政策文本的特殊性，部分类型的政策指标关系会省略政策指标的主体，对此类关系自动补充其主体部分；

所述存储模块通过以下方式进行知识图谱数据层构建：首先，基于python语言依次读取预处理得到的excel表格中每一个政策文件信息，一个政策文件信息包括名称、等级、类别和文本内容；等级包括区级、市级、省级、国家；类别包括科技、工信、人才；

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储程序，所述程序被处理器执行时实现如权利要求1至7任一项所述的一种信息智能解析方法。