CN116562265B - 一种信息智能解析方法、***及存储介质 - Google Patents
一种信息智能解析方法、***及存储介质 Download PDFInfo
- Publication number
- CN116562265B CN116562265B CN202310811685.7A CN202310811685A CN116562265B CN 116562265 B CN116562265 B CN 116562265B CN 202310811685 A CN202310811685 A CN 202310811685A CN 116562265 B CN116562265 B CN 116562265B
- Authority
- CN
- China
- Prior art keywords
- policy
- index
- information
- entity
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000003058 natural language processing Methods 0.000 claims abstract description 15
- 238000005516 engineering process Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 29
- 238000002372 labelling Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 238000011161 development Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000010380 label transfer Methods 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 238000009877 rendering Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims 4
- 230000000007 visual effect Effects 0.000 claims 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000012797 qualification Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种信息智能解析方法、***及存储介质,涉及人工智能领域,所述方法包括:政策文件预处理,获取政策关键内容;使用自然语言处理技术,训练政策指标自动抽取模型,所述自然语言处理技术主要包括:命名实体识别、关系抽取;根据政策指标自动抽取模型,将政策文本自动解析为指标三元组;构建政策指标知识图谱,使用图数据库存储指标三元组信息;政策知识查询,针对于企业,提供政策指标知识查询的服务。本发明有效解决政策文本解读困难问题,使用政策指标三元组表示政策文件,构建知识图谱存储政策信息,能自动抽取、存储政策文本的关键信息并提供政策知识查询等服务。
Description
技术领域
本发明公开了一种信息智能解析方法、***及存储介质,涉及人工智能领域。
背景技术
随着信息化技术的发展,用户整理信息文件的信息化平台已成为常用的便捷渠道,但是这些平台难以将信息文件进行准确的推荐。对于用户来说,找到符合自己需要的信息文件比较困难。原因主要是:不了解信息文件,看不明白,也不会使用;信息文件数量庞大,筛选信息文件消耗大量时间以及需要具备一定的专业知识。
发明内容
针对以上技术问题,本申请旨在提出一种信息智能解析方法、***及存储介质,有效解决信息文件解读困难问题,使用信息文件的指标三元组表示政策文件,构建知识图谱存储政策信息,能自动抽取、存储信息文件的关键信息并提供信息文件的知识查询、知识推理等服务。
为实现上述的目的,本发明所采取的技术方案如下:
一种信息智能解析方法,所述方法包括以下步骤:
S1,使用文字识别方法从设定的原文件中提取关键内容,获取待处理信息并保存;
S2,使用自然语言处理方法训练BERT-BiLSTM-CRF指标自动抽取模型,所述自然语言处理方法主要包括:命名实体识别过程、关系抽取过程;
S3,通过训练好的BERT-BiLSTM-CRF指标自动抽取模型,将待处理信息自动解析为指标三元组信息;
S4,构建设定指标知识图谱,使用图数据库存储所述指标三元组信息;
S5,查询设定指标,得到指标三元组序列信息,反馈给用户。
进一步的,所述步骤S1具体包含以下内容:
使用爬虫技术获取设定的原文件,使用文字识别方法OCR在所述设定的原文件中提取关键内容,获取待处理信息保存到excel文件中。
进一步的,所述步骤S2具体包含以下内容:
将所述待处理信息按照设定比例分为训练集和测试集,使用实体-关系联合抽取的方式,对待处理信息训练集进行标注,训练BERT-BiLSTM-CRF指标自动抽取模型;
所述BERT-BiLSTM-CRF指标自动抽取模型包含BERT模块、BiLSTM模块以及CRF模块,所述BERT模块将输入的待处理信息通过构建两个无监督训练任务转换为词向量,所述BiLSTM模块将BERT模块的输出词向量作为输入,进行编码计算后输出到CRF模块,在CRF模块中进行最终的解码计算,得到预测序列。
进一步的,所述实体-关系联合抽取方法包含以下内容:
对待处理信息训练集进行标注,标注标签格式包含三个部分,第一部分为对实体在词中位置信息的标注,该部分的标注规则参照BIOES标注规范,标签和代表的信息为{B:实体开始,I:实体内部,E:实体结束,S:单个实体};第二部分为对关系信息进行标注,根据已制定的实体类型,进行简化编码,标注出关系的类型信息;第三部分为实体的主客体信息,即关系的方向,标注规则为{1:实体1,2:实体2}或{3:实体}。
进一步的,所述BERT模块包含两个无监督训练任务,分别是语句遮挡训练MLM和句子关系预测NSP;NSP任务中根据输入两个句子的拼接,判断两个句子是否为上下句关系;MLM将句子以字符为单位进行切分,然后在训练样本中随机选取部分字符,在原句中抹去该部分字符,使用剩余的字符来预测被抹去的字符。
进一步的,所述BiLSTM模块以及CRF模块共同构成BiLSTM-CRF模块,BiLSTM-CRF模块包含以下内容:
将BERT模块得到的词向量输入到BiLSTM模块中进行编码,所述BiLSTM模块由前向LSTM层和后向LSTM层组成,输出为两层LSTM输出的综合,LSTM计算的公式表达如下所示:
ft=σ(Wf[ht-1,xt]+bf);
it=σ(Wi[ht-1,xt]+bi);
ot=σ(Wo[ht-1,xt]+bo);
ht=oT*tanh(ct);
在上式中:ot为输入门、ft为输出门,it为遗忘门,ct为记忆cell,σ和tanh为激活函数,W是门的权重矩阵,b为门的偏置向量,xt为当前单元的输入信息,ht-1为上一隐藏层的状态,ct-1和ct为上一序列和当前的cell状态,为临时的cell状态;当前单元对上一单元传入信息的取舍,当前输入的保留程度以及对下一单元的输出都根据ft,it和Ot的计算结果来决定;
BiLSTM模块的输出结果表达式为:
CRF模块根据邻近标签的关系创建一个标签转移矩阵,生成概率不同的标签序列,将计算得分最高的序列设定为最终的预测序列;对于任意一个序列X=(x1,x2,...,xn),在CRF模块中的分数计算公式为:
其中,Y为序列X的预测序列,P是BiLSTM模块输出的得分矩阵,即ht,Pi,j表示第i个词的第j个标签的分数,A表示转移分数矩阵,Ai,j表示标签i转移为标签j的分数;预测序列Y产生的概率公式为:
将等式两边取对数得到预测序列的似然函数:
其中,表示真实的标注序列,YX表示所有可能的标注序列,最终解码后得到最大分数的输出序列为:
进一步的,所述S3为:
利用训练好的BERT-BiLSTM-CRF指标自动抽取模型从待处理信息中抽取<头实体,关系,尾实体>的三元组形式。
本申请还提供一种信息智能解析***,所述解析***包括:
预处理模块,所述预处理模块使用文字识别方法从设定的原文件中提取关键内容,获取待处理信息并保存;
模型训练模块,所述模型训练模块使用自然语言处理方法,训练设定指标自动抽取模型,所述自然语言处理方法主要包括:命名实体识别过程、关系抽取过程;
指标抽取模块,所述指标抽取模块根据设定指标自动抽取模型,将待处理信息自动解析为指标三元组信息;
存储模块,所述存储模块构建设定指标知识图谱,使用图数据库存储所述指标三元组信息;
查询模块,所述查询模块查询设定指标,得到指标三元组序列信息,反馈给用户。
本申请还提供一种计算机可读存储介质,所述存储介质中存储程序,所述程序被处理器执行时实现上述信息智能解析方法。
有益效果:
本申请提出的一种信息智能解析方法、***及存储介质,有效解决信息文件解读困难问题,使用信息文件的指标三元组表示政策文件,构建知识图谱存储政策信息,能自动抽取、存储信息文件的关键信息并提供信息文件的知识查询、知识推理等服务。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例中提供的一种信息智能解析方法流程图;
图2为本发明实施例中提供的一种信息智能解析方法方案中实体-关系联合抽取模型示意图;
图3为本发明实施例中提供的政策知识图谱的构建流程图;
图4为本发明实施例中提供的图数据库中政策文件的存储示例图。
具体实施方式
下面将结合附图和具体实施方式对本发明做进一步详细的叙述,显然,所描述的实施例是本发明的一部分实施例,基于本发明中,本领域中普通技术人员在没有做出创造性劳动的前提下所获得的其他实施例,都属于本发明保护范围。
实施例1
图1为本发明提供的一种信息智能解析方法,目前,针对为企业提供政策信息的平台是政策计算器,它的主要功能特点:对国家级和所在省市的政策进行了汇总,并提供了分类查询功能。部分政策计算器提供了自测功能,通过企业填报的数据判断是否可以申报某政策。但是这种技术存在以下不足的方面:数据重复填报严重,初次填报数据的流程冗杂;通过填报的数据进行模糊筛选,没有挖掘数据信息,难以精确匹配;政策计算器主要针对企业进行申报辅助,在政府审核时无法使用。
本实施例为针对企业扶持政策的智能解析,该方法包括以下步骤:
S1,使用文字识别方法从设定的原文件中提取关键内容,获取待处理信息并保存;本实施例提供的方案为使用爬虫技术从政策信息发布网站中获取政策原文件,再通过optical character recognition OCR文本识别技术获取政策文件PDF中的关键内容,得到政策文本主要信息并保存到excel文件中。
S2,使用自然语言处理方法训练BERT-BiLSTM-CRF指标自动抽取模型,在本实施例中,训练政策指标自动抽取模型,所述自然语言处理方法主要包括:命名实体识别过程、关系抽取过程;
图2为本发明实施例中提供的一种信息智能解析方法的实体-关系联合抽取模型示意图,该实体-关系联合抽取模型包含以下内容:
将上述excel文件中的待处理信息按照7:3的比例分为训练集和测试集,使用实体-关系联合抽取的方式,对政策文本训练集进行标注。标注标签的形式和格式可以自行定义,能够体现样本与其对应的特征即可,在本实施例中,在数据标注时使用的标注标签格式主要包含三个部分:第一部分是对实体在词中位置信息的标注,该部分的标注规则参照BIOES标注规范,标签和代表的信息为{B(实体开始),I(实体内部),E(实体结束),S(单个实体)};第二部分是对关系信息进行标注,根据已制定的实体类型,进行简化编码,标注出关系的类型信息。第三部分是对实体的主客体信息,即关系的方向,标注规则为{1(实体1),2(实体2)}或{3(实体)};在第三部分中,由于政策文本的特殊性,部分类型的政策指标关系会省略政策指标的主体,对此类关系需要补充其主体部分,故将此类实体单独标注。其余不在实体关系三元组内的字符全部打上标签“O”。
采用基于BERT-BiLSTM-CRF的知识抽取模型,即BERT-BiLSTM-CRF指标自动抽取模型实现实体和关系联合抽取任务。BERT-BiLSTM-CRF指标自动抽取模型首先将标注好的序列输入到BERT层,得到语境化的词向量;然后将词向量输入BiLSTM层进行编码,BiLSTM模块将BERT模块的输出词向量作为输入,进行编码计算后输出到CRF模块,在CRF模块中进行最终的解码计算,得到预测序列。
BERT模型在语言模型预训练时,构建了两个无监督训练任务,分别是语句遮挡训练MLM(Mask Language Model)和句子关系预测NSP(Next Sentence Prediction)。NSP任务中会输入两个句子的拼接,模型判断两个句子是否为上下句关系。MLM会将句子以字符为单位进行切分,然后在训练样本中随机选取15%切分后的字符,在原句中抹去它们,使用其他剩余的字符来预测被抹去的字符。
经过上述BERT层得到了语境化的词向量,将词向量输入到BiLSTM层中进行编码,该BiLSTM层由前向LSTM层和后向LSTM层组成,输出为两层LSTM输出的综合。门控概念是LSTM模型运行的核心,LSTM模型中的门包括遗忘门it、输入门ot、输出门ft和记忆cellct。使用遗忘门和输入门在计算过程中传递有用信息并过滤无用信息,使用记忆cell的输出与输出门的输出相乘作为整个结构的输出。LSTM计算的公式表达如下所示:
ft=σ(Wf[ht-1,xt]+bf);
it=σ(Wi[ht-1,xt]+bi);
ot=σ(Wo[ht-1,xt]+bo);
ht=ot*tanh(ct);
在上式中:ot为输入门、ft为输出门,it为遗忘门,ct为记忆cell,σ和tanh为激活函数,W是门的权重矩阵,b为门的偏置向量,xt为当前单元的输入信息,ht-1为上一隐藏层的状态,ct-1和ct为上一序列和当前的cell状态,为临时的cell状态;当前单元对上一单元传入信息的取舍,当前输入的保留程度以及对下一单元的输出都根据ft,it和Ot的计算结果来决定;
BiLSTM模块的输出结果表达式为:
CRF模块根据邻近标签的关系创建一个标签转移矩阵,生成概率不同的标签序列,将计算得分最高的序列设定为最终的预测序列;对于任意一个序列X=(x1,x2,...,xn),在CRF模块中的分数计算公式为:
其中,Y为序列X的预测序列,P是BiLsTM模块输出的得分矩阵,即ht,Pi,j表示第i个词的第j个标签的分数,A表示转移分数矩阵,Ai,j表示标签i转移为标签j的分数;预测序列Y产生的概率公式为:
将等式两边取对数得到预测序列的似然函数:
其中,表示真实的标注序列,YX表示所有可能的标注序列,最终解码后得到最大分数的输出序列为:
S3,利用训练好的政策指标自动抽取模型,从政策文本中抽取<头实体,关系,尾实体>的三元组形式。在政策文本中提取到的指标三元组中的实体类型可分为以下14种:年份、地点、学历、职称、企业或机构、企业类型、产业、荣誉或头衔资格、经济类型、金钱、人数、年龄、时间、场地;由于政策文本的特殊性,部分类型的政策指标关系会省略政策指标的主体,对此类关系自动补充其主体部分,例如:<企业资质,资质类型,高新技术企业>等。表1为本发明实施例中提供的政策指标三元组的类别及示例;
表1
。
开发客户端界面可视化展示政策指标抽取功能及结果。该客户端是基于Vue框架开发,提供政策文本内容输入、“抽取”按钮传递数据、指标三元组表格渲染的功能。通过将政策文本内容手动输入或者粘贴输入之后,点击“抽取”按钮,客户端将输入的政策文本内容传递给服务端;服务端接口是基于Flask框架开发,接口接收到客户端传递的政策文本内容后,将政策文本内容输入到已训练好的政策指标自动抽取模型中,经过模型的处理,输出识别出来的政策指标三元组序列,服务端接口获取到指标三元组序列,并传递给客户端;客户端接收到政策指标三元组序列之后,依次将每一条三元组信息按照“头实体”、“关系”、“尾实体”形式渲染到表格中。
S4,构建政策指标知识图谱,描述政策指标中的实体和概念,以及他们之间的关系。
图3为本发明实施例中提供的政策知识图谱的构建流程图,该流程包含以下具体内容:
具体的,首先对包含数据库、表格等结构化、半结构化数据中已有的语义结构进行梳理,结合政策申报领域专家的经验,自顶向下的构建政策知识图谱的模式层;然后使用图数据库对步骤S3中抽取的指标三元组进行存储,从而构建知识图谱的数据层。
知识图谱数据层构建方法包含以下具体内容:首先,基于python语言依次读取S1步骤中预处理得到的excel表格中每一个政策文件信息,一个政策文件信息包括名称、等级、类别和文本内容;等级包括区级、市级、省级、国家;类别包括科技、工信、人才等。其次,将每一个政策文件中的文本内容输入到模型中,模型处理之后,将政策指标三元组序列返回;进而,将该政策文件的名称、等级、类别、指标三元组序列存储到一个json文件中,直至excel表格中所有的政策文件全部解析存储到该json文件中。该json文件作为图数据库存储所需数据的中间形式。
基于Vue框架开发客户端,客户端获取上述json文件,依次提取每一个政策的信息:名称、类别、等级、指标三元组序列,然后将改内容传递给服务端;该服务端是基于Springboot框架开发,用来接受客户端传递的政策信息,并连接neo4j数据库,将政策信息存储到neo4j数据库中。在该neo4j数据库中,对于每一个政策,首先创建一个根节点,该节点的属性为政策的名称、类别和等级;其次,将指标三元组中的头实体和尾实体分别创建节点,该节点的属性为实体的名称;然后,为政策节点和头实体节点建立一条边,该边的内容为“指标”;然后,为三元组中的头实体和尾实体创建边,该边的内容为对应指标三元组中的关系内容:比如:“指标囊括”、“具有”等。图4为本发明实施例中提供的图数据库中一个政策文件的存储示例图。
S5,查询设定指标,得到指标三元组序列信息,反馈给用户,为企业提供政策指标查询服务。
在S4中所有政策指标数据存储到图数据库中之后,企业可以选择相应的查询条件,如政策的名称、等级、类别或者表1中具体的指标类型,然后获取到所需要的政策指标信息。对于政策名称查询条件,企业可以获取到政策名称对应的政策内容;对于政策等级查询条件,企业可以获取到该等级的所有政策内容;对于政策类别查询条件,企业可以获取到该类别的所有政策内容;对于具体的指标类型,企业可以获取到具有该指标类型的所有政策内容。对企业提供这种政策查询服务,可以有效地减轻企业阅读大量政策PDF文件的负担。
本实施例提出一种信息智能解析方法,能够有效解决政策文本解读困难问题,使用政策指标三元组表示政策文件,构建知识图谱存储政策信息,能自动抽取、存储政策文本的关键信息并提供政策知识查询、政策知识推理等服务。
实施例2
本发明实施例提供了一种信息智能解析***,预处理模块,所述预处理模块使用文字识别方法从设定的原文件中提取关键内容,获取待处理信息并保存;
模型训练模块,所述模型训练模块使用自然语言处理方法,训练设定指标自动抽取模型,所述自然语言处理方法主要包括:命名实体识别过程、关系抽取过程;
指标抽取模块,所述指标抽取模块根据设定指标自动抽取模型,将待处理信息自动解析为指标三元组信息;
存储模块,所述存储模块构建设定指标知识图谱,使用图数据库存储所述指标三元组信息;
查询模块,所述查询模块查询设定指标,得到指标三元组序列信息,反馈给用户。
基于本实施例的应用场景,该***为基于知识表征的企业扶持政策智能解析***,该***包含以下内容:
预处理模块,政策文件预处理,使用文字识别技术从政策文件中提取关键内容,获取政策文本并保存;模型训练模块,基于命名实体识别以及关系抽取的自然语言处理方法,训练出一个高效的政策指标提取模型;指标抽取模块,利用训练模块中的最终模型,自动将输入的政策文本解析为指标三元组;存储模块,构建指标知识图谱,使用图数据库存储政策指标信息;查询模块,为企业提供政策指标查询服务。
实施例3
本发明实施例提供了一种计算机可读存储介质,所述存储介质中存储程序,所述程序被处理器执行时实现上述的一种信息智能解析方法。
本发明有效解决政策文本解读困难问题,使用政策指标三元组表示政策文件,构建知识图谱存储政策信息,能自动抽取、存储政策文本的关键信息并提供政策知识查询等服务。
Claims (9)
1.一种信息智能解析方法,其特征在于,所述方法包括以下步骤:
S1,使用文字识别方法从设定的原文件中提取关键内容,获取待处理信息并保存;所述待处理信息为政策文本;
S2,使用自然语言处理方法训练BERT-BiLSTM-CRF指标自动抽取模型,所述自然语言处理方法包括:命名实体识别过程、关系抽取过程;
S3,通过训练好的BERT-BiLSTM-CRF指标自动抽取模型,将待处理信息自动解析为指标三元组信息;从政策文本中抽取<头实体,关系,尾实体>的三元组形式;在政策文本中提取到的指标三元组中的实体类型可分为以下14种:年份、地点、学历、职称、企业或机构、企业类型、产业、荣誉或头衔资格、经济类型、金钱、人数、年龄、时间、场地;由于政策文本的特殊性,部分类型的政策指标关系会省略政策指标的主体,对此类关系自动补充其主体部分;
开发客户端界面可视化展示政策指标抽取功能及结果;该客户端基于Vue框架开发,提供政策文本内容输入、抽取按钮传递数据、指标三元组表格渲染的功能;通过将政策文本内容手动输入或者粘贴输入之后,点击抽取按钮,客户端将输入的政策文本内容传递给服务端;服务端接口是基于Flask框架开发,接口接收到客户端传递的政策文本内容后,将政策文本内容输入到已训练好的政策指标自动抽取模型中,经过模型的处理,输出识别出来的政策指标三元组序列,服务端接口获取到指标三元组序列,并传递给客户端;客户端接收到政策指标三元组序列之后,依次将每一条三元组信息按照头实体、关系、尾实体形式渲染到表格中;
S4,构建设定指标知识图谱,使用图数据库存储所述指标三元组信息;
知识图谱数据层构建方法包含以下具体内容:首先,基于python语言依次读取S1步骤中预处理得到的excel表格中每一个政策文件信息,一个政策文件信息包括名称、等级、类别和文本内容;等级包括区级、市级、省级、国家;类别包括科技、工信、人才;
其次,将每一个政策文件中的文本内容输入到所述政策指标自动抽取模型中,政策指标自动抽取模型处理之后,将政策指标三元组序列返回;将该政策文件的名称、等级、类别、指标三元组序列存储到一个json文件中,直至excel表格中所有的政策文件全部解析存储到该json文件中;该json文件作为图数据库存储所需数据的中间形式;
基于Vue框架开发客户端,客户端获取所述json文件,依次提取每一个政策的信息,然后将该信息发送给服务端;所述服务端基于Springboot框架开发,用于接受客户端传递的政策信息,并连接neo4j数据库,将政策信息存储到neo4j数据库中;
在所述neo4j数据库中,对于每一个政策,首先创建一个根节点,该节点的属性为政策的名称、类别和等级;其次,将指标三元组中的头实体和尾实体分别创建节点,该节点的属性为实体的名称;然后,为政策节点和头实体节点建立一条边,该边的内容为“指标”;然后,为三元组中的头实体和尾实体创建边,该边的内容为对应指标三元组中的关系内容;
S5,查询设定指标,得到指标三元组序列信息,反馈给用户。
2.根据权利要求1所述的一种信息智能解析方法,其特征在于,所述步骤S1具体包含以下内容:
使用爬虫技术获取设定的原文件,使用文字识别方法OCR在所述设定的原文件中提取关键内容,获取待处理信息保存到excel文件中。
3.根据权利要求2所述的一种信息智能解析方法,其特征在于,所述步骤S2具体包含以下内容:
将所述待处理信息按照设定比例分为训练集和测试集,使用实体-关系联合抽取的方式,对待处理信息训练集进行标注,训练BERT-BiLSTM-CRF指标自动抽取模型;
所述BERT-BiLSTM-CRF指标自动抽取模型包含BERT模块、BiLSTM模块以及CRF模块,所述BERT模块将输入的待处理信息通过构建两个无监督训练任务转换为词向量,所述BiLSTM模块将BERT模块的输出词向量作为输入,进行编码计算后输出到CRF模块,在CRF模块中进行最终的解码计算,得到预测序列。
4.根据权利要求3所述的一种信息智能解析方法,其特征在于,所述实体-关系联合抽取方法包含以下内容:
对待处理信息训练集进行标注,标注标签格式包含三个部分,第一部分为对实体在词中位置信息的标注,该部分的标注规则参照BIOES标注规范,标签和代表的信息为{B:实体开始,I:实体内部,E:实体结束,S:单个实体};第二部分为对关系信息进行标注,根据已制定的实体类型,进行简化编码,标注出关系的类型信息;第三部分为实体的主客体信息,即关系的方向,标注规则为{1:实体1,2:实体2}或{3:实体}。
5.根据权利要求3所述的一种信息智能解析方法,其特征在于,所述BERT模块包含两个无监督训练任务,分别是语句遮挡训练MLM和句子关系预测NSP;NSP任务中根据输入两个句子的拼接,判断两个句子是否为上下句关系;MLM将句子以字符为单位进行切分,然后在训练样本中随机选取部分字符,在原句中抹去该部分字符,使用剩余的字符来预测被抹去的字符。
6.根据权利要求3所述的一种信息智能解析方法,其特征在于,所述BiLSTM模块以及CRF模块共同构成BiLSTM-CRF模块,BiLSTM-CRF模块包含以下内容:
将BERT模块得到的词向量输入到BiLSTM模块中进行编码,所述BiLSTM模块由前向LSTM层和后向LSTM层组成,输出为两层LSTM输出的综合,LSTM计算的公式表达如下所示:
;
;
;
;
;
;
在上式中:为输入门、/>为输出门,/>为遗忘门,/>为记忆cell,/>和/>为激活函数,/>是门的权重矩阵,/>为门的偏置向量,/>为当前单元的输入信息,/>为上一隐藏层的状态,/>和/>为上一序列和当前的cell状态,/>为临时的cell状态;当前单元对上一单元传入信息的取舍,当前输入的保留程度以及对下一单元的输出都根据/>,/>和/>的计算结果来决定;
BiLSTM模块的输出结果表达式为:
;
CRF模块根据邻近标签的关系创建一个标签转移矩阵,生成概率不同的标签序列,将计算得分最高的序列设定为最终的预测序列;对于任意一个序列,在CRF模块中的分数计算公式为:
;
其中,Y为序列X的预测序列,P是BiLSTM模块输出的得分矩阵,即,/>表示第i个词的第j个标签的分数,A表示转移分数矩阵,/>表示标签i转移为标签j的分数;预测序列Y产生的概率公式为:
;
将等式两边取对数得到预测序列的似然函数:
;
其中,表示真实的标注序列,/>表示所有可能的标注序列,最终解码后得到最大分数的输出序列为:
。
7.根据权利要求1所述的一种信息智能解析方法,其特征在于,所述S3为:
利用训练好的BERT-BiLSTM-CRF指标自动抽取模型从待处理信息中抽取<头实体,关系,尾实体>的三元组形式。
8.一种信息智能解析***,其特征在于,所述解析***包括:
预处理模块,所述预处理模块使用文字识别方法从设定的原文件中提取关键内容,获取待处理信息并保存;
模型训练模块,所述模型训练模块使用自然语言处理方法,训练设定指标自动抽取模型,所述自然语言处理方法主要包括:命名实体识别过程、关系抽取过程;
指标抽取模块,所述指标抽取模块根据设定指标自动抽取模型,将待处理信息自动解析为指标三元组信息;
所述指标抽取模块通过训练好的BERT-BiLSTM-CRF指标自动抽取模型,将待处理信息自动解析为指标三元组信息;从政策文本中抽取<头实体,关系,尾实体>的三元组形式;在政策文本中提取到的指标三元组中的实体类型可分为以下14种:年份、地点、学历、职称、企业或机构、企业类型、产业、荣誉或头衔资格、经济类型、金钱、人数、年龄、时间、场地;由于政策文本的特殊性,部分类型的政策指标关系会省略政策指标的主体,对此类关系自动补充其主体部分;
开发客户端界面可视化展示政策指标抽取功能及结果;该客户端基于Vue框架开发,提供政策文本内容输入、抽取按钮传递数据、指标三元组表格渲染的功能;通过将政策文本内容手动输入或者粘贴输入之后,点击抽取按钮,客户端将输入的政策文本内容传递给服务端;服务端接口是基于Flask框架开发,接口接收到客户端传递的政策文本内容后,将政策文本内容输入到已训练好的政策指标自动抽取模型中,经过模型的处理,输出识别出来的政策指标三元组序列,服务端接口获取到指标三元组序列,并传递给客户端;客户端接收到政策指标三元组序列之后,依次将每一条三元组信息按照头实体、关系、尾实体形式渲染到表格中;
存储模块,所述存储模块构建设定指标知识图谱,使用图数据库存储所述指标三元组信息;
所述存储模块通过以下方式进行知识图谱数据层构建:首先,基于python语言依次读取预处理得到的excel表格中每一个政策文件信息,一个政策文件信息包括名称、等级、类别和文本内容;等级包括区级、市级、省级、国家;类别包括科技、工信、人才;
其次,将每一个政策文件中的文本内容输入到所述政策指标自动抽取模型中,政策指标自动抽取模型处理之后,将政策指标三元组序列返回;将该政策文件的名称、等级、类别、指标三元组序列存储到一个json文件中,直至excel表格中所有的政策文件全部解析存储到该json文件中;该json文件作为图数据库存储所需数据的中间形式;
基于Vue框架开发客户端,客户端获取所述json文件,依次提取每一个政策的信息,然后将该信息发送给服务端;所述服务端基于Springboot框架开发,用于接受客户端传递的政策信息,并连接neo4j数据库,将政策信息存储到neo4j数据库中;
在所述neo4j数据库中,对于每一个政策,首先创建一个根节点,该节点的属性为政策的名称、类别和等级;其次,将指标三元组中的头实体和尾实体分别创建节点,该节点的属性为实体的名称;然后,为政策节点和头实体节点建立一条边,该边的内容为“指标”;然后,为三元组中的头实体和尾实体创建边,该边的内容为对应指标三元组中的关系内容;
查询模块,所述查询模块查询设定指标,得到指标三元组序列信息,反馈给用户。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储程序,所述程序被处理器执行时实现如权利要求1至7任一项所述的一种信息智能解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310811685.7A CN116562265B (zh) | 2023-07-04 | 2023-07-04 | 一种信息智能解析方法、***及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310811685.7A CN116562265B (zh) | 2023-07-04 | 2023-07-04 | 一种信息智能解析方法、***及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116562265A CN116562265A (zh) | 2023-08-08 |
CN116562265B true CN116562265B (zh) | 2023-12-01 |
Family
ID=87502139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310811685.7A Active CN116562265B (zh) | 2023-07-04 | 2023-07-04 | 一种信息智能解析方法、***及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116562265B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117609432A (zh) * | 2023-12-21 | 2024-02-27 | 中国疾病预防控制中心慢性非传染性疾病预防控制中心 | 一种通过标签抽取策略实现政策智能检索方法 |
CN117520552B (zh) * | 2024-01-08 | 2024-04-16 | 北京中科江南信息技术股份有限公司 | 政策文本处理方法、装置、设备及存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105573984A (zh) * | 2015-12-18 | 2016-05-11 | 小米科技有限责任公司 | 社会经济指标的识别方法及装置 |
CN111428053A (zh) * | 2020-03-30 | 2020-07-17 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法 |
CN112241438A (zh) * | 2020-10-09 | 2021-01-19 | 浙江水木海角科技服务有限公司 | 一种政策服务信息数据处理和查询方法及*** |
CN113312501A (zh) * | 2021-06-29 | 2021-08-27 | 中新国际联合研究院 | 基于知识图谱的安全知识自助查询***的构建方法及装置 |
CN113360671A (zh) * | 2021-06-16 | 2021-09-07 | 浙江工业大学 | 一种基于知识图谱的医保医疗单据审核方法及其*** |
CN113535917A (zh) * | 2021-06-30 | 2021-10-22 | 山东师范大学 | 基于旅游知识图谱的智能问答方法及*** |
CN114461781A (zh) * | 2021-12-30 | 2022-05-10 | 阿里云计算有限公司 | 一种数据存储方法、数据查询方法、服务器及存储介质 |
CN114580639A (zh) * | 2022-02-23 | 2022-06-03 | 中南民族大学 | 一种基于政务三元组自动抽取对齐的知识图谱构建的方法 |
CN115292490A (zh) * | 2022-08-02 | 2022-11-04 | 福建省科立方科技有限公司 | 一种用于政策解读语义的分析算法 |
CN115310425A (zh) * | 2022-10-08 | 2022-11-08 | 浙江浙里信征信有限公司 | 基于政策文本分类和关键信息识别的政策文本分析方法 |
CN115344666A (zh) * | 2022-05-30 | 2022-11-15 | 招商银行股份有限公司 | 政策匹配方法、装置、设备与计算机可读存储介质 |
CN115470871A (zh) * | 2022-11-02 | 2022-12-13 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及*** |
CN115906842A (zh) * | 2022-10-08 | 2023-04-04 | 浙江浙里信征信有限公司 | 一种政策信息识别方法 |
CN115953041A (zh) * | 2022-12-30 | 2023-04-11 | 广东数源智汇科技有限公司 | 一种营商政策***的构建方案及*** |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9461876B2 (en) * | 2012-08-29 | 2016-10-04 | Loci | System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction |
US10733375B2 (en) * | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US20220092096A1 (en) * | 2020-09-23 | 2022-03-24 | International Business Machines Corporation | Automatic generation of short names for a named entity |
-
2023
- 2023-07-04 CN CN202310811685.7A patent/CN116562265B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105573984A (zh) * | 2015-12-18 | 2016-05-11 | 小米科技有限责任公司 | 社会经济指标的识别方法及装置 |
CN111428053A (zh) * | 2020-03-30 | 2020-07-17 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法 |
CN112241438A (zh) * | 2020-10-09 | 2021-01-19 | 浙江水木海角科技服务有限公司 | 一种政策服务信息数据处理和查询方法及*** |
CN113360671A (zh) * | 2021-06-16 | 2021-09-07 | 浙江工业大学 | 一种基于知识图谱的医保医疗单据审核方法及其*** |
CN113312501A (zh) * | 2021-06-29 | 2021-08-27 | 中新国际联合研究院 | 基于知识图谱的安全知识自助查询***的构建方法及装置 |
CN113535917A (zh) * | 2021-06-30 | 2021-10-22 | 山东师范大学 | 基于旅游知识图谱的智能问答方法及*** |
CN114461781A (zh) * | 2021-12-30 | 2022-05-10 | 阿里云计算有限公司 | 一种数据存储方法、数据查询方法、服务器及存储介质 |
CN114580639A (zh) * | 2022-02-23 | 2022-06-03 | 中南民族大学 | 一种基于政务三元组自动抽取对齐的知识图谱构建的方法 |
CN115344666A (zh) * | 2022-05-30 | 2022-11-15 | 招商银行股份有限公司 | 政策匹配方法、装置、设备与计算机可读存储介质 |
CN115292490A (zh) * | 2022-08-02 | 2022-11-04 | 福建省科立方科技有限公司 | 一种用于政策解读语义的分析算法 |
CN115310425A (zh) * | 2022-10-08 | 2022-11-08 | 浙江浙里信征信有限公司 | 基于政策文本分类和关键信息识别的政策文本分析方法 |
CN115906842A (zh) * | 2022-10-08 | 2023-04-04 | 浙江浙里信征信有限公司 | 一种政策信息识别方法 |
CN115470871A (zh) * | 2022-11-02 | 2022-12-13 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及*** |
CN115953041A (zh) * | 2022-12-30 | 2023-04-11 | 广东数源智汇科技有限公司 | 一种营商政策***的构建方案及*** |
Non-Patent Citations (4)
Title |
---|
Taxonomy of Link Prediction for Social Network Analysis: A Review;Herman Yuliansyah;IEEE;第8卷;第183470页-183487页 * |
产业政策知识图谱的自动化构建;揣子昂等;情报工程;第8卷(第3期);第28页-51页 * |
基于司法判决书的知识图谱构建与知识服务应用分析;黄茜茜等;情报科学;第40卷(第2期);第133页-139页 * |
融合决策蕴涵的知识图谱推理方法;翟岩慧等;计算机科学与探索;第1页-16页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116562265A (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428053B (zh) | 一种面向税务领域知识图谱的构建方法 | |
CN110427623B (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和*** | |
CN110825882B (zh) | 一种基于知识图谱的信息***管理方法 | |
CN116562265B (zh) | 一种信息智能解析方法、***及存储介质 | |
Navigli et al. | Learning domain ontologies from document warehouses and dedicated web sites | |
CN111767368B (zh) | 一种基于实体链接的问答知识图谱构建方法及存储介质 | |
CN110633409A (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN109885672A (zh) | 一种面向在线教育的问答式智能检索***及方法 | |
CN111078875B (zh) | 一种基于机器学习的从半结构化文档中提取问答对的方法 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN113822026B (zh) | 一种多标签实体标注方法 | |
CN111914556A (zh) | 基于情感语义转移图谱的情感引导方法及*** | |
CN115599899B (zh) | 基于飞行器知识图谱的智能问答方法、***、设备及介质 | |
CN115470871B (zh) | 基于命名实体识别与关系抽取模型的政策匹配方法及*** | |
CN114911945A (zh) | 基于知识图谱的多价值链数据管理辅助决策模型构建方法 | |
CN116719913A (zh) | 一种基于改进命名实体识别的医疗问答***及其构建方法 | |
CN112749283A (zh) | 一种面向法律领域的实体关系联合抽取方法 | |
CN116186237A (zh) | 一种基于事件因果推断的实体关系的联合抽取方法 | |
CN114722810A (zh) | 一种基于信息抽取和多属性决策的房地产客户画像方法和*** | |
CN117034135A (zh) | 一种基于提示学习和双信息源融合的api推荐方法 | |
CN116258204A (zh) | 基于知识图谱的工业安全生产违规处罚管理方法及*** | |
CN116186241A (zh) | 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质 | |
CN116304011A (zh) | 一种区域产业链的生成方法、装置与存储介质 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |