CN115470871A - 基于命名实体识别与关系抽取模型的政策匹配方法及*** - Google Patents
基于命名实体识别与关系抽取模型的政策匹配方法及*** Download PDFInfo
- Publication number
- CN115470871A CN115470871A CN202211363986.XA CN202211363986A CN115470871A CN 115470871 A CN115470871 A CN 115470871A CN 202211363986 A CN202211363986 A CN 202211363986A CN 115470871 A CN115470871 A CN 115470871A
- Authority
- CN
- China
- Prior art keywords
- policy
- model
- policy element
- entity
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 114
- 238000000605 extraction Methods 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 105
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 53
- 230000014509 gene expression Effects 0.000 claims abstract description 26
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 8
- 238000007635 classification algorithm Methods 0.000 claims description 39
- 239000011159 matrix material Substances 0.000 claims description 35
- 238000002372 labelling Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 21
- 238000013145 classification model Methods 0.000 claims description 19
- 230000007704 transition Effects 0.000 claims description 18
- 238000012795 verification Methods 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 15
- 230000003993 interaction Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 abstract 1
- 239000012634 fragment Substances 0.000 abstract 1
- 238000011161 development Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000008093 supporting effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Human Resources & Organizations (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于命名实体识别与关系抽取模型的政策匹配方法及***。本发明的方法包括如下步骤:构造政策语句或政策语句片段的命名实体识别与关系抽取数据集,并进行人工标签标注;基于已标注数据,训练所需的算法模型以及编写专家规则;使用算法模型及专家规则,将政策文章中的政策申报条件语句文本转化为多个政策要素关系表达式,并将形成政策关系逻辑表达式与企业条件列表计算匹配得分。本发明充分利用命名实体识别与关系抽取技术解决政策服务领域的政策条件分解和政策条件与企业条件匹配度计算的难题。方法融合深度学习方法和专家规则的政策分解方法,可以细粒度地抽取政策条件语句中的要素实体、所包含关系以及关系值。
Description
技术领域
本发明涉及人工智能和自然语言处理领域,特别涉及一种基于命名实体识别与关系抽取模型的政策匹配方法及***。
背景技术
随着互联网技术的飞速发展,各行业数据信息在爆发式增长,推动了行业大数据智能化分析挖掘服务与创新应用的发展,进一步推动着我国数字经济的发展。
在诸多政务大数据服务应用中,政策大数据服务是一个重要的服务领域。中国是一个政府主导、政策驱动型的经济发展模式,每年在国家、省市和科技园区等不同层面,都会发布大量的政策文件。各类宏观和产业扶持类政策,是企业高度关注的信息,对企业的运营和发展具有十分重要的意义。近几年,在国家政策大力支持和引导背景下,企业也逐步拥有了企业管理规范化和政府惠企政策项目申报的意识。在惠企政策项目申报过程中,不仅要时刻关注政府政策情况的发布和变化,还要把握政策信息的时效性和准确性,并且需要充分的政策信息支撑,支撑信息越充分,获得的信息量越大,获得的信息精准度与自己更相符,惠企政策项目申报的成功率越高。因此,如何高效、及时、精准地获取惠企政策信息,掌握政府对产业方向的政策引导和扶持信息,对企业运营和成长发展具有十分重要的意义和价值。
对政府而言,通过政策服务,能引导企业和产业发展方向,通过政策服务,政府也希望能及时了解惠企政策对企业和产业发展的实际作用和效果,并以此作为政策制定的依据,及时调整和优化政策。因此,通过政策服务大数据,对于政府及时了解企业对相关政策的关注程度、评估政策对企业和产业发展的扶持作用,帮助科学制定政策,也具有十分重要的意义和价值。
然而,目前无论对于企业还是政府,都缺少基于信息化和智能化技术的高效政策服务。一方面,企业难以及时高效地获得政府发布的惠企政策信息,需要通过人工查看和收集政策的方式,效率低下,费时费力。另一方面,由于缺少信息化和智能化手段,政府也难以掌握企业对不同政策关注程度的信息,难以评估惠企政策对企业帮扶、促进企业成长和产业发展的实际效果。
基于上述需求背景,我们发明了一种基于命名实体识别与关系抽取模型的政策匹配方法,可以根据企业信息和具体的政策条件,进行企业与相关政策的自动匹配,并将符合企业条件的政策匹配给企业,从而避免企业用人工方式去收集查找政策信息。
发明内容
发明目的:本发明提出了一种基于命名实体识别与关系抽取模型的政策匹配方法,充分利用命名实体识别与关系抽取技术解决政策服务领域的政策条件分解难题,本发明还提供了一种应用所述基于命名实体识别与关系抽取模型的政策匹配方法的***。
为了实现上述目的,本发明提出的技术方案为:
一种基于命名实体识别和关系抽取模型的政策匹配方法,该方法包括如下步骤:
S1.构造政策语句分类数据集,对政策语句分类数据集进行人工标签标注;
S2.基于步骤S1中已标注的政策语句分类数据集,训练政策语句分类算法模型,并使用政策语句分类算法模型对政策文章中的句子进行分类,识别出包含政策要素条件关系的句子;
S3. 构造政策要素实体边界识别数据集,对政策要素实体边界识别数据集进行人工标签标注;
S4.基于步骤S3中的已标注的政策要素实体边界识别数据集,训练政策要素实体边界识别算法模型,并使用政策要素实体边界识别算法模型,对S2中政策语句分类算法模型识别出的包含政策要素条件关系的句子进行政策要素实体边界识别;
S5. 构造政策要素实体分类数据集,并对政策要素实体分类数据集进行人工标签标注;
S6.基于步骤S5中已标注的政策要素实体分类数据集,训练政策要素实体分类算法模型,并使用政策要素实体分类算法模型,对S4中政策要素实体边界识别算法模型识别出的政策要素实体进行政策要素实体分类;
S7.构造政策要素关系分类数据集,并对政策要素关系分类数据集进行人工标签标注;
S8.基于步骤S7中已标注的政策要素关系分类数据集,训练政策要素关系分类算法模型,并使用政策要素关系分类算法模型和政策领域专家知识编写的人工规则,对S6中政策要素实体分类算法模型识别出的已分类的政策要素实体进行政策要素关系实体分类,识别已分类的政策要素实体中包含的关系类型;
S9.构造数值关系类型的政策要素中的关系值边界识别数据集,并对政策要素关系值边界识别数据集进行标签标注;
S10.基于步骤S9中已标注的政策要素关系值边界识别数据集,训练政策要素关系值边界识别算法模型,并使用训练政策要素关系值边界识别算法模型,对步骤S8中政策要素关系分类算法模型识别出的包含数值关系类型的政策要素,识别其关系值的边界;
S11.基于步骤S1-S10的文本分类、命名实体识别和关系抽取算法模型及专家规则,政策文章中的政策申报条件语句文本可以转化为多个“条件名称-关系-值”这样的政策要素关系表达式,并在政策要素关系表达式间以逻辑关系“And”或“Or”连接,形成政策关系逻辑表达式;
S12.使用同样已规范化成“条件名称-关系-值”格式的企业条件列表和政策关系逻辑表达式计算匹配路径得分,以最大值作为匹配得分。
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S1中所述构造政策语句分类数据集具体方法是:
S101.对于预先收集好的政策文档集合D,将政策文档集合D中的每一篇政策文档d分割为多个句子,形成政策语句分类数据集S 1 ;
S102.对于政策语句分类数据集S 1 中的每一个句子,人工进行标签标注,类标1表示该句子包含政策要素条件关系,类标0表示该句子不包含政策要素条件关系;
S103.对于步骤S101中标注好的政策语句分类数据集S 1 ,将其中80%分为训练集,20%分为验证集。
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S2中所述训练政策语句分类算法模型具体方法是:
S201.参数定义:对于一篇给定的政策句子,n表示该政策句子中包含n个字符,表示该政策文本中的第i个字符,模型的输出为每个句子是否包含政策要素条件关系,其中,标签“1”表示这句话包含政策要素条件关系,标签“0”表示这句话不包含政策要素条件关系;
S202.模型训练:基于神经网络搭建的短文本分类模型,训练政策语句分类器,具体方法是:
S2021.使用词表,对来自训练集的句子批次中的政策句子s进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S203.模型推理:使用政策语句分类模型,识别政策语句是否包含政策要素条件关系,具体方法是:
S2032.然后输入到训练好的前向和后向LSTM和线性分类器中;
S2033.模型输出“1”表示该句子包含政策要素条件关系,输出“0”表示该句子不包含政策要素条件关系。
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S3中所述构造政策要素实体边界识别数据集具体方法是:
S301.使用步骤S2中的政策语句分类算法模型,从政策语句分类数据集S 1 中识别出包含政策要素条件关系的政策语句,并加以人工校验,形成政策要素实体边界识别数据集S 2 ;
S302.对于政策要素实体边界识别数据集S 2 中的每一个句子,人工进行边界标签标注:给定一个包含n个字符的句子,输出每个单词对应的边界标签,其中,边界标签B表示对应字符为政策要素实体的起始字符,E对应字符为政策要素实体的结束字符,I对应字符为政策要素实体的非起始且非结束字符,O表示对应字符不在政策要素实体中,并且一个句子中可能包含不只一个政策语句要素实体;
S303.对于步骤S301中标注好的政策语句分类数据集S 2 ,将其中80%分为训练集,20%分为验证集。
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S4中所述训练政策要素实体边界识别算法模型具体方法是:
S401.参数定义:对于一篇给定的政策句子, n表示该政策句子中包含n个字符,表示该政策文本中的第i个字符,模型的输出为每个字符对应的边界标签,其中,边界标签B表示对应字符为政策要素实体的起始字符,I对应字符为政策要素实体的非起始字符,O表示对应字符不在政策要素实体中;
S402.模型训练:基于双向LSTM和CRF搭建的边界识别模型,训练政策要素实体边界识别算法模型,具体方法是:
S4021.使用词表,对来自训练集的句子批次中的政策句子进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示。然后输入到前向和后向LSTM中进行特征提取;
S4023.对于每个句子的真实边界标签,使用当前转移状态矩阵在正确路径的分数与所有路径分数之和的负对数似然作为损失函数进行模型训练,模型不断优化CRF模型中的起始状态向量、终止状态向量,以及状态转移矩阵M这些矩阵参数,最终使得矩阵中正确转移状态序列的分数最大,此时模型收敛;
S403.模型推理:使用政策要素实体边界识别算法模型,识别政策语句的政策要素实体,具体方法是:
S4032.然后输入到训练好的前向和后向LSTM中;
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S5中所述构造政策要素实体分类数据集具体方法是:
S501.使用步骤S4中的政策要素实体边界识别算法模型及Viterbi解码,从政策语句要素实体边界数据集S 2 中识别政策语句要素实体,并加以人工校验,形成政策语句要素实体分类数据集S 3 ;
S502.对于政策语句要素实体分类数据集S 3 中的每一个要素实体,人工进行标签标注;
S503.对于步骤S502中标注好的政策要素实体分类数据集S 3 ,将其中80%分为训练集,20%分为验证集。
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S6中所述训练政策要素实体分类算法模型具体方法是:
S602.模型训练:基于神经网络搭建的短文本分类模型,训练政策要素实体分类器,具体方法是:
S6021.使用词表,对来自训练集的句子批次中的政策要素实体s ent 进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S603.模型推理:使用政策要素实体分类模型,识别政策要素实体的类别,具体方法是:
S6032.然后输入到训练好的前向和后向LSTM和线性分类器中;
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S7中所述构造政策要素关系分类数据集具体方法是:
S701.对于政策要素实体分类数据集S 3 ,筛选出包含数值关系的政策语句要素实体形成政策要素关系分类数据集S 4 ;
S702.对于政策要素关系分类数据集S 4 中的每一个要素实体,人工进行标签标注,标注政策要素实体中包含的数值关系类型,具体是大于、大于等于、小于、小于等于以及等于5类,且每个标注政策要素实体可能包含不止一个关系类型;
S703.对于步骤S702中标注好的政策要素关系分类数据集S 4 ,将其中80%分为训练集,20%分为验证集。
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S8中所述训练政策要素关系分类算法模型具体方法是:
S801.参数定义:对于一个给定的政策要素实体, n表示该政策要素实体中包含n个字符,表示该政策要素实体中的第i个字符,模型的输出为每个政策要素关系类别,表示5种政策要素关系类别,一个政策要素中可能包含多个政策要素关系;
S802.模型训练:基于神经网络搭建的短文本分类模型,训练政策要素关系分类器,具体方法是:
S8021.使用词表,对来自训练集的句子批次中的政策要素实体进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S803.模型推理:使用政策要素关系分类模型,识别政策要素关系的类别,具体方法是:
S8032.然后输入到训练好的前向和后向LSTM和线性分类器中;
S804.利用专家规则和外部知识库识别政策要素关系分类:S5中的12类政策要素实体中除了数值关系外,还包含其它类型的关系,利用专家知识及外部知识库识别这些关系类型以及关系的值。
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S9中所述构造政策要素中的关系值边界识别数据集具体方法是:
S901.整理政策要素关系分类数据集S 4 加以人工校验,形成政策要素中的关系值边界识别数据集S 5 ;
S902.对于政策要素中的关系值边界识别数据集S 5 中的每一个关系实体,人工进行边界标签标注:给定一个包含n个字符的政策要素实体 ,输出每个单词对应的边界标签,其中,边界标签B表示对应字符为政策要素中的关系值的起始字符,E对应字符为政策要素中的关系值的结束字符,I对应字符为政策要素中的关系值的非起始且非结束字符,O表示对应字符不在政策要素中的关系值中;
S903.对于步骤S902中标注好的政策语句分类数据集S 5 ,将其中80%分为训练集,20%分为验证集。
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S10中所述训练政策要素中的关系值边界识别算法模型具体方法是:
S1002.模型训练:基于双向LSTM和CRF搭建的边界识别模型,训练政策要素中的关系值边界识别算法模型,具体方法是:
S10021.使用词表,对来自训练集的句子批次中的政策要素实体进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S10023.对于每个句子的真实边界标签,使用当前转移状态矩阵在正确路径的分数与所有路径分数之和的负对数似然作为损失函数进行模型训练,模型不断优化CRF模型中的起始状态向量、终止状态向量,以及状态转移矩阵M这些矩阵参数,最终使得矩阵中正确转移状态序列的分数最大,此时模型收敛;
S1003.模型推理:使用政策要素中的关系值边界识别算法模型,识别政策语句的政策要素中的关系值,具体方法是:
S10032.然后输入到训练好的前向和后向LSTM中;
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S12中所述匹配得分计算具体方法是:
S1201.将步骤S11所述政策关系逻辑表达式转化为析取范式(DNF)格式,即政策关系逻辑表达式可分解为多个子表达式,每个子表达式内的条件以“And”相连,子表达式之间以“Or”相连;
S1202.使用同样已规范化成“条件名称-关系-值”格式的企业条件列表和政策关系逻辑表达式的所有子表达式计算匹配路径得分,企业条件与政策条件相符则记为匹配,否则不匹配,某个子表达式匹配得分为匹配的条件个数除以总条件数,若某个子表达式全部条件匹配则匹配得分为1.0,若没有子表达式完全匹配,则以最大得分作为最终匹配得分。
一种基于命名实体识别和关系抽取模型的政策匹配***,该政策匹配***应用于上述方法,该***包括:
数据库层:数据库主要用来存储本***的政策文档及其结果,提供用户层所需要的数据;
用户层:用于基于Web技术实现与用户交互,给用户提供政策录入、政策管理、政策分解及政策查询功能;提供企业信息录入、企业信息更新、企业信息查询功能;
人机交互模型预测层:用于通过用户层提供的政策文本并对这些政策文档进行预处理后,通过训练好的模型和专家规则进行推断得到政策要素实体及关系,然后后台管理员使用逻辑关系“And”或“Or”连接政策要素条件形成政策关系逻辑表达式,将结果保存在数据库中;
算法训练层:利用现有的政策文档作为数据集来训练算法模型;然后,通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据;最后,对这些新的数据进行预处理,进行人工标注,来训练基于命名实体识别和关系抽取模型的政策匹配方法,提升算法精度。
有益效果:
相对于现有技术,本发明的优点在于:(1)设计了一个融合深度学习方法和专家规则的政策分解方法,可以细粒度地抽取政策条件语句中的要素实体、所包含关系以及关系值;(2)设计了一个政策条件与企业条件匹配度计算的方法,量化政策与企业条件匹配程度。
附图说明
图1为本发明的基于命名实体识别与关系抽取模型政策匹配方法流程图;
图2为基于神经网络搭建的文本分类模型框架图;
图3为基于神经网络搭建的边界识别模型框架图;
图4为本发明的政策匹配***工作流程框架图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
如图1所示,本发明公开的基于命名实体识别与关系抽取模型的政策匹配方法,该方法包括如下步骤:
S1.构造政策语句分类数据集,对政策语句分类数据集进行人工标签标注;
S2.基于步骤S1中已标注的政策语句分类数据集,训练政策语句分类算法模型,并使用政策语句分类算法模型对政策文章中的句子进行分类,识别出包含政策要素条件关系的句子;
S3. 构造政策要素实体边界识别数据集,对政策要素实体边界识别数据集进行人工标签标注;
S4.基于步骤S3中的已标注的政策要素实体边界识别数据集,训练政策要素实体边界识别算法模型,并使用政策要素实体边界识别算法模型,对S2中政策语句分类算法模型识别出的包含政策要素条件关系的句子进行政策要素实体边界识别;
S5. 构造政策要素实体分类数据集,并对政策要素实体分类数据集进行人工标签标注;
S6.基于步骤S5中已标注的政策要素实体分类数据集,训练政策要素实体分类算法模型,并使用政策要素实体分类算法模型,对S4中政策要素实体边界识别算法模型识别出的政策要素实体进行政策要素实体分类;
S7.构造政策要素关系分类数据集,并对政策要素关系分类数据集进行人工标签标注;
S8.基于步骤S7中已标注的政策要素关系分类数据集,训练政策要素关系分类算法模型,并使用政策要素关系分类算法模型和政策领域专家知识编写的人工规则,对S6中政策要素实体分类算法模型识别出的已分类的政策要素实体进行政策要素关系实体分类,识别已分类的政策要素实体中包含的关系类型;
S9.构造数值关系类型的政策要素中的关系值边界识别数据集,并对政策要素关系值边界识别数据集进行标签标注;
S10.基于步骤S9中已标注的政策要素关系值边界识别数据集,训练政策要素关系值边界识别算法模型,并使用训练政策要素关系值边界识别算法模型,对步骤S8中政策要素关系分类算法模型识别出的包含数值关系类型的政策要素,识别其关系值的边界;
S11.基于步骤S1-S10的文本分类、命名实体识别和关系抽取算法模型及专家规则,政策文章中的政策申报条件语句文本可以转化为多个“条件名称-关系-值”这样的政策要素关系表达式,并在政策要素关系表达式间以逻辑关系“And”或“Or”连接,形成政策关系逻辑表达式;
S12.使用同样已规范化成“条件名称-关系-值”格式的企业条件列表和政策关系逻辑表达式计算匹配路径得分,以最大值作为匹配得分。
步骤S1中所述构造政策语句分类数据集具体方法是:
S101.对于预先收集好的政策文档集合D,将政策文档集合D中的每一篇政策文档d分割为多个句子,形成政策语句分类数据集S 1 ;
S102.对于政策语句分类数据集S 1 中的每一个句子,人工进行标签标注,类标1表示该句子包含政策要素条件关系,类标0表示该句子不包含政策要素条件关系;
S103.对于步骤S101中标注好的政策语句分类数据集S 1 ,将其中80%分为训练集,20%分为验证集。
步骤S2中所述训练政策语句分类算法模型具体方法是:
S201.参数定义:对于一篇给定的政策句子,n表示该政策句子中包含n个字符,表示该政策文本中的第i个字符,模型的输出为每个句子是否包含政策要素条件关系,其中,标签“1”表示这句话包含政策要素条件关系,标签“0”表示这句话不包含政策要素条件关系;
S202.模型训练:基于神经网络搭建的短文本分类模型,训练政策语句分类器,具体方法是:
S2021.使用词表,对来自训练集的句子批次中的政策句子s进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S203.模型推理:使用政策语句分类模型,识别政策语句是否包含政策要素条件关系,具体方法是:
S2032.然后输入到训练好的前向和后向LSTM和线性分类器中;
S2033.模型输出“1”表示该句子包含政策要素条件关系,输出“0”表示该句子不包含政策要素条件关系。
步骤S3中所述构造政策要素实体边界识别数据集具体方法是:
S301.使用步骤S2中的政策语句分类算法模型,从政策语句分类数据集S 1 中识别出包含政策要素条件关系的政策语句,并加以人工校验,形成政策要素实体边界识别数据集S 2 ;
S302.对于政策要素实体边界识别数据集S 2 中的每一个句子,人工进行边界标签标注:给定一个包含n个字符的句子,输出每个单词对应的边界标签,其中,边界标签B表示对应字符为政策要素实体的起始字符,E对应字符为政策要素实体的结束字符,I对应字符为政策要素实体的非起始且非结束字符,O表示对应字符不在政策要素实体中,并且一个句子中可能包含不只一个政策语句要素实体;
S303.对于步骤S301中标注好的政策语句分类数据集S 2 ,将其中80%分为训练集,20%分为验证集。
步骤S4中所述训练政策要素实体边界识别算法模型具体方法是:
S401.参数定义:对于一篇给定的政策句子, n表示该政策句子中包含n个字符,表示该政策文本中的第i个字符,模型的输出为每个字符对应的边界标签,其中,边界标签B表示对应字符为政策要素实体的起始字符,I对应字符为政策要素实体的非起始字符,O表示对应字符不在政策要素实体中;
S402.模型训练:基于双向LSTM和CRF搭建的边界识别模型,训练政策要素实体边界识别算法模型,具体方法是:
S4021.使用词表,对来自训练集的句子批次中的政策句子进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示。然后输入到前向和后向LSTM中进行特征提取;
S4023.对于每个句子的真实边界标签,使用当前转移状态矩阵在正确路径的分数与所有路径分数之和的负对数似然作为损失函数进行模型训练,模型不断优化CRF模型中的起始状态向量、终止状态向量,以及状态转移矩阵M这些矩阵参数,最终使得矩阵中正确转移状态序列的分数最大,此时模型收敛;
S403.模型推理:使用政策要素实体边界识别算法模型,识别政策语句的政策要素实体,具体方法是:
S4032.然后输入到训练好的前向和后向LSTM中;
步骤S5中所述构造政策要素实体分类数据集具体方法是:
S501.使用步骤S4中的政策要素实体边界识别算法模型及Viterbi解码,从政策语句要素实体边界数据集S 2 中识别政策语句要素实体,并加以人工校验,形成政策语句要素实体分类数据集S 3 ;
S502.对于政策语句要素实体分类数据集S 3 中的每一个要素实体,人工进行标签标注。根据领域专家知识,政策语句要素实体可分为多个类别,比如对于企业注册地、营收状况、从业人员、知识产权情况等的要求,每个政策语句要素实体属于其中一类,本***将政策语句要素实体分为12类;
S503.对于步骤S502中标注好的政策要素实体分类数据集S 3 ,将其中80%分为训练集,20%分为验证集。
步骤S6中所述训练政策要素实体分类算法模型具体方法是:
S602.模型训练:基于神经网络搭建的短文本分类模型,训练政策要素实体分类器,具体方法是:
S6021.使用词表,对来自训练集的句子批次中的政策要素实体Sent进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S603.模型推理:使用政策要素实体分类模型,识别政策要素实体的类别,具体方法是:
S6032.然后输入到训练好的前向和后向LSTM和线性分类器中;
步骤S7中所述构造政策要素关系分类数据集具体方法是:
S701.对于政策要素实体分类数据集S 3 ,筛选出包含数值关系的政策语句要素实体形成政策要素关系分类数据集S 4 ;
S702.对于政策要素关系分类数据集S 4 中的每一个要素实体,人工进行标签标注,标注政策要素实体中包含的数值关系类型,具体是大于、大于等于、小于、小于等于以及等于5类,且每个标注政策要素实体可能包含不止一个关系类型;
S703.对于步骤S702中标注好的政策要素关系分类数据集S 4 ,将其中80%分为训练集,20%分为验证集。
步骤S8中所述训练政策要素关系分类算法模型具体方法是:
S801.参数定义:对于一个给定的政策要素实体, n表示该政策要素实体中包含n个字符,表示该政策要素实体中的第i个字符,模型的输出为每个政策要素关系类别,表示5种政策要素关系类别,一个政策要素中可能包含多个政策要素关系;
S802.模型训练:基于神经网络搭建的短文本分类模型,训练政策要素关系分类器,具体方法是:
S8021.使用词表,对来自训练集的句子批次中的政策要素实体进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S83.模型推理:使用政策要素关系分类模型,识别政策要素关系的类别,具体方法是:
S832.然后输入到训练好的前向和后向LSTM和线性分类器中;
S804.利用专家规则和外部知识库识别政策要素关系分类:S5中的12类政策要素实体中除了数值关系外,还包含其它类型的关系,利用专家知识及外部知识库识别这些关系类型以及关系的值。
步骤S9中所述构造政策要素中的关系值边界识别数据集具体方法是:
S901.整理政策要素关系分类数据集S 4 加以人工校验,形成政策要素中的关系值边界识别数据集S 5 ;
S902.对于政策要素中的关系值边界识别数据集S 5 中的每一个关系实体,人工进行边界标签标注:给定一个包含n个字符的政策要素实体 ,输出每个单词对应的边界标签,其中,边界标签B表示对应字符为政策要素中的关系值的起始字符,E对应字符为政策要素中的关系值的结束字符,I对应字符为政策要素中的关系值的非起始且非结束字符,O表示对应字符不在政策要素中的关系值中;
S903.对于步骤S902中标注好的政策语句分类数据集S 5 ,将其中80%分为训练集,20%分为验证集。
步骤S10中所述训练政策要素中的关系值边界识别算法模型具体方法是:
S1002.模型训练:基于双向LSTM和CRF搭建的边界识别模型,训练政策要素中的关系值边界识别算法模型,具体方法是:
S10021.使用词表,对来自训练集的句子批次中的政策要素实体进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S10023.对于每个句子的真实边界标签,使用当前转移状态矩阵在正确路径的分数与所有路径分数之和的负对数似然作为损失函数进行模型训练,模型不断优化CRF模型中的起始状态向量、终止状态向量,以及状态转移矩阵M这些矩阵参数,最终使得矩阵中正确转移状态序列的分数最大,此时模型收敛;
S1003.模型推理:使用政策要素中的关系值边界识别算法模型,识别政策语句的政策要素中的关系值,具体方法是:
S10032.然后输入到训练好的前向和后向LSTM中;
步骤S12中所述匹配得分计算具体方法是:
S1201.将步骤S11所述政策关系逻辑表达式转化为析取范式(DNF)格式,即政策关系逻辑表达式可分解为多个子表达式,每个子表达式内的条件以“And”相连,子表达式之间以“Or”相连;
S1202.使用同样已规范化成“条件名称-关系-值”格式的企业条件列表和政策关系逻辑表达式的所有子表达式计算匹配路径得分。企业条件与政策条件相符则记为匹配,否则不匹配,某个子表达式匹配得分为匹配的条件个数除以总条件数。若某个子表达式全部条件匹配则匹配得分为1.0,若没有子表达式完全匹配,则以最大得分作为最终匹配得分。
以上是本发明提出的基于命名实体识别和关系抽取模型的政策匹配方法的具体实施过程。
如图4所示,本发明公开的基于命名实体识别和关系抽取模型的政策匹配方法是基于上述提出的基于命名实体识别和关系抽取算法进行***设计的。该***主要包括数据库、用户层、人机交互模型预测层、算法训练层。
数据库层:数据库主要用来存储本***的政策文档及其结果,提供用户层所需要的数据;
用户层:用于基于Web技术实现与用户交互,给用户提供政策录入、政策管理、政策分解及政策查询功能;提供企业信息录入、企业信息更新、企业信息查询功能。
人机交互模型预测层:用于通过用户层提供的政策文本并对这些政策文档进行预处理后,通过训练好的模型和专家规则进行推断得到政策要素实体及关系,然后后台管理员使用逻辑关系“And”或“Or”连接政策要素条件形成政策关系逻辑表达式,将结果保存在数据库中;
算法训练层:利用现有的政策文档作为数据集来训练算法模型;然后,通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据;最后,对这些新的数据进行预处理,进行人工标注,来训练基于命名实体识别和关系抽取模型的政策匹配方法,提升算法精度。
该***是人机交互的过程。首先,利用现有的政策文本数据集来训练命名实体识别和关系抽取任务模型;然后,管理员不断提供新的政策文件到***,使用训练好的政策条件抽取模型进行推断得到政策条件关系;其次,管理员对与本专利发明自动生成的候选政策条件进行人工调整之后,再次作为训练数据保存到数据库中,成为下一次模型训练的数据。通过人机交互的方式不断地扩充数据来提升本专利发明涉及的多个命名实体识别和关系抽取算法模型的准确度。因此,该人机过程由管理员、政策分解***、数据库3个实体一起构成一个不断学习与数据集扩充的闭环。
在本申请所提供的实施例中,应该理解到,所揭露的方法,在没有超过本申请的精神和范围内,可以通过其他的方式实现。当前的实施例只是一种示范性的例子,不应该作为限制,所给出的具体内容不应该限制本申请的目的。例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (13)
1.一种基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,该方法包括如下步骤:
S1.构造政策语句分类数据集,对政策语句分类数据集进行人工标签标注;
S2.基于步骤S1中已标注的政策语句分类数据集,训练政策语句分类算法模型,并使用政策语句分类算法模型对政策文章中的句子进行分类,识别出包含政策要素条件关系的句子;
S3.构造政策要素实体边界识别数据集,对政策要素实体边界识别数据集进行人工标签标注;
S4.基于步骤S3中的已标注的政策要素实体边界识别数据集,训练政策要素实体边界识别算法模型,并使用政策要素实体边界识别算法模型,对S2中政策语句分类算法模型识别出的包含政策要素条件关系的句子进行政策要素实体边界识别;
S5.构造政策要素实体分类数据集,并对政策要素实体分类数据集进行人工标签标注;
S6.基于步骤S5中已标注的政策要素实体分类数据集,训练政策要素实体分类算法模型,并使用政策要素实体分类算法模型,对S4中政策要素实体边界识别算法模型识别出的政策要素实体进行政策要素实体分类;
S7.构造政策要素关系分类数据集,并对政策要素关系分类数据集进行人工标签标注;
S8.基于步骤S7中已标注的政策要素关系分类数据集,训练政策要素关系分类算法模型,并使用政策要素关系分类算法模型和政策领域专家知识编写的人工规则,对S6中政策要素实体分类算法模型识别出的已分类的政策要素实体进行政策要素关系实体分类,识别已分类的政策要素实体中包含的关系类型;
S9.构造数值关系类型的政策要素中的关系值边界识别数据集,并对政策要素关系值边界识别数据集进行标签标注;
S10.基于步骤S9中已标注的政策要素关系值边界识别数据集,训练政策要素关系值边界识别算法模型,并使用训练政策要素关系值边界识别算法模型,对步骤S8中政策要素关系分类算法模型识别出的包含数值关系类型的政策要素,识别其关系值的边界;
S11.基于步骤S1-S10的文本分类、命名实体识别和关系抽取算法模型及专家规则,政策文章中的政策申报条件语句文本可以转化为多个“条件名称-关系-值”这样的政策要素关系表达式,并在政策要素关系表达式间以逻辑关系“And”或“Or”连接,形成政策关系逻辑表达式;
S12.使用同样已规范化成“条件名称-关系-值”格式的企业条件列表和政策关系逻辑表达式计算匹配路径得分,以最大值作为匹配得分。
2.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S1中所述构造政策语句分类数据集具体方法是:
S101.对于预先收集好的政策文档集合D,将政策文档集合D中的每一篇政策文档d分割为多个句子,形成政策语句分类数据集S 1 ;
S102.对于政策语句分类数据集S 1 中的每一个句子,人工进行标签标注,类标1表示该句子包含政策要素条件关系,类标0表示该句子不包含政策要素条件关系;
S103.对于步骤S101中标注好的政策语句分类数据集S 1 ,将其中80%分为训练集,20%分为验证集。
3.根据权利要求2所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S2中所述训练政策语句分类算法模型具体方法是:
S201.参数定义:对于一篇给定的政策句子,n表示该政策句子中包含n个字符,表示该政策文本中的第i个字符,模型的输出为每个句子是否包含政策要素条件关系,其中,标签“1”表示这句话包含政策要素条件关系,标签“0”表示这句话不包含政策要素条件关系;
S202.模型训练:基于神经网络搭建的短文本分类模型,训练政策语句分类器,具体方法是:
S2021.用词表,对来自训练集的句子批次中的政策句子s进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S203.模型推理:使用政策语句分类模型,识别政策语句是否包含政策要素条件关系,具体方法是:
S20232.然后输入到训练好的前向和后向LSTM和线性分类器中;
S20233.模型输出“1”表示该句子包含政策要素条件关系,输出“0”表示该句子不包含政策要素条件关系。
4.根据权利要求3所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S3中所述构造政策要素实体边界识别数据集具体方法是:
S301.使用步骤S2中的政策语句分类算法模型,从政策语句分类数据集S 1 中识别出包含政策要素条件关系的政策语句,并加以人工校验,形成政策要素实体边界识别数据集S 2 ;
S302.对于政策要素实体边界识别数据集S 2 中的每一个句子,人工进行边界标签标注:给定一个包含n个字符的句子,输出每个单词对应的边界标签,其中,边界标签B表示对应字符为政策要素实体的起始字符,E对应字符为政策要素实体的结束字符,I对应字符为政策要素实体的非起始且非结束字符,O表示对应字符不在政策要素实体中,并且一个句子中可能包含不只一个政策语句要素实体;
S303.对于步骤S301中标注好的政策语句分类数据集S 2 ,将其中80%分为训练集,20%分为验证集。
5.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S4中所述训练政策要素实体边界识别算法模型具体方法是:
S401.参数定义:对于一篇给定的政策句子, n表示该政策句子中包含n个字符,表示该政策文本中的第i个字符,模型的输出为每个字符对应的边界标签,其中,边界标签B表示对应字符为政策要素实体的起始字符,I对应字符为政策要素实体的非起始字符,O表示对应字符不在政策要素实体中;
S402.模型训练:基于双向LSTM和CRF搭建的边界识别模型,训练政策要素实体边界识别算法模型,具体方法是:
S4021.使用词表,对来自训练集的句子批次中的政策句子进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S4023.对于每个句子的真实边界标签,使用当前转移状态矩阵在正确路径的分数与所有路径分数之和的负对数似然作为损失函数进行模型训练,模型不断优化CRF模型中的起始状态向量、终止状态向量,以及状态转移矩阵M这些矩阵参数,最终使得矩阵中正确转移状态序列的分数最大,此时模型收敛;
S403.模型推理:使用政策要素实体边界识别算法模型,识别政策语句的政策要素实体,具体方法是:
S4032.然后输入到训练好的前向和后向LSTM中;
6.根据权利要求5所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S5中所述构造政策要素实体分类数据集具体方法是:
S501.使用步骤S4中的政策要素实体边界识别算法模型及Viterbi解码,从政策语句要素实体边界数据集S 2 中识别政策语句要素实体,并加以人工校验,形成政策语句要素实体分类数据集S 3 ;
S502.对于政策语句要素实体分类数据集S 3 中的每一个要素实体,人工进行标签标注;
S503.对于步骤S502中标注好的政策要素实体分类数据集S 3 ,将其中80%分为训练集,20%分为验证集。
7.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S6中所述训练政策要素实体分类算法模型具体方法是:
S602.模型训练:基于神经网络搭建的短文本分类模型,训练政策要素实体分类器,具体方法是:
S6021.使用词表,对来自训练集的句子批次中的政策要素实体s ent 进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S603.模型推理:使用政策要素实体分类模型,识别政策要素实体的类别,具体方法是:
S6032.然后输入到训练好的前向和后向LSTM和线性分类器中;
8.根据权利要求7所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S7中所述构造政策要素关系分类数据集具体方法是:
S701.对于政策要素实体分类数据集S 3 ,筛选出包含数值关系的政策语句要素实体形成政策要素关系分类数据集S 4 ;
S702.对于政策要素关系分类数据集S 4 中的每一个要素实体,人工进行标签标注,标注政策要素实体中包含的数值关系类型,所述数值关系类型是指大于、大于等于、小于、小于等于、等于这5类,且每个标注政策要素实体包含一个或者一个以上的关系类型;
S703.对于步骤S702中标注好的政策要素关系分类数据集S 4 ,将其中80%分为训练集,20%分为验证集。
9.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S8中所述训练政策要素关系分类算法模型具体方法是:
S801.参数定义:对于一个给定的政策要素实体, n表示该政策要素实体中包含n个字符,表示该政策要素实体中的第i个字符,模型的输出为每个政策要素关系类别,表示5种政策要素关系类别,一个政策要素中可能包含多个政策要素关系;
S802.模型训练:基于神经网络搭建的短文本分类模型,训练政策要素关系分类器,具体方法是:
S8021.使用词表,对来自训练集的句子批次中的政策要素实体进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S803.模型推理:使用政策要素关系分类模型,识别政策要素关系的类别,具体方法是:
S8032.然后输入到训练好的前向和后向LSTM和线性分类器中;
S804.利用专家规则和外部知识库识别政策要素关系分类:S5中的12类政策要素实体中除了数值关系外,还包含其它类型的关系,利用专家知识及外部知识库识别这些关系类型以及关系的值。
10.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S9中所述构造政策要素中的关系值边界识别数据集具体方法是:
S901.整理政策要素关系分类数据集S 4 加以人工校验,形成政策要素中的关系值边界识别数据集S 5 ;
S902.对于政策要素中的关系值边界识别数据集S 5 中的每一个关系实体,人工进行边界标签标注:给定一个包含n个字符的政策要素实体 ,输出每个单词对应的边界标签,其中,边界标签B表示对应字符为政策要素中的关系值的起始字符,E对应字符为政策要素中的关系值的结束字符,I对应字符为政策要素中的关系值的非起始且非结束字符,O表示对应字符不在政策要素中的关系值中;
S903.对于步骤S902中标注好的政策语句分类数据集S 5 ,将其中80%分为训练集,20%分为验证集。
11.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S10中所述训练政策要素中的关系值边界识别算法模型具体方法是:
S1002.模型训练:基于双向LSTM和CRF搭建的边界识别模型,训练政策要素中的关系值边界识别算法模型,具体方法是:
S10021.使用词表,对来自训练集的句子批次中的政策要素实体进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S10023.对于每个句子的真实边界标签,使用当前转移状态矩阵在正确路径的分数与所有路径分数之和的负对数似然作为损失函数进行模型训练,模型不断优化CRF模型中的起始状态向量、终止状态向量,以及状态转移矩阵M这些矩阵参数,最终使得矩阵中正确转移状态序列的分数最大,此时模型收敛;
S1003.模型推理:使用政策要素中的关系值边界识别算法模型,识别政策语句的政策要素中的关系值,具体方法是:
S10032.然后输入到训练好的前向和后向LSTM中;
12.根据权利要求2所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S12中所述匹配得分计算具体方法是:
S1201.将步骤S11所述政策关系逻辑表达式转化为析取范式格式,即政策关系逻辑表达式可分解为多个子表达式,每个子表达式内的条件以“And”相连,子表达式之间以“Or”相连;
S1202.使用同样已规范化成“条件名称-关系-值”格式的企业条件列表和政策关系逻辑表达式的所有子表达式计算匹配路径得分,企业条件与政策条件相符则记为匹配,否则不匹配,某个子表达式匹配得分为匹配的条件个数除以总条件数,若某个子表达式全部条件匹配则匹配得分为1.0,若没有子表达式完全匹配,则以最大得分作为最终匹配得分。
13.一种基于命名实体识别和关系抽取模型的政策匹配***,其特征在于,该政策匹配***应用于权利要求1-12之一所述方法,该***包括:
数据库层:数据库主要用来存储本***的政策文档及其结果,提供用户层所需要的数据;
用户层:用于基于Web技术实现与用户交互,给用户提供政策录入、政策管理、政策分解及政策查询功能;提供企业信息录入、企业信息更新、企业信息查询功能;
人机交互模型预测层:用于通过用户层提供的政策文本并对这些政策文档进行预处理后,通过训练好的模型和专家规则进行推断得到政策要素实体及关系,然后后台管理员使用逻辑关系“And”或“Or”连接政策要素条件形成政策关系逻辑表达式,将结果保存在数据库中;
算法训练层:利用现有的政策文档作为数据集来训练算法模型;然后,通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据;最后,对这些新的数据进行预处理,进行人工标注,来训练基于命名实体识别和关系抽取模型的政策匹配方法,提升算法精度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211363986.XA CN115470871B (zh) | 2022-11-02 | 2022-11-02 | 基于命名实体识别与关系抽取模型的政策匹配方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211363986.XA CN115470871B (zh) | 2022-11-02 | 2022-11-02 | 基于命名实体识别与关系抽取模型的政策匹配方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115470871A true CN115470871A (zh) | 2022-12-13 |
CN115470871B CN115470871B (zh) | 2023-02-17 |
Family
ID=84336249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211363986.XA Active CN115470871B (zh) | 2022-11-02 | 2022-11-02 | 基于命名实体识别与关系抽取模型的政策匹配方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115470871B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522165A (zh) * | 2023-06-27 | 2023-08-01 | 武汉爱科软件技术股份有限公司 | 一种基于孪生结构的舆情文本匹配***及方法 |
CN116562265A (zh) * | 2023-07-04 | 2023-08-08 | 南京航空航天大学 | 一种信息智能解析方法、***及存储介质 |
CN117235206A (zh) * | 2023-08-30 | 2023-12-15 | 上海通办信息服务有限公司 | 一种基于深度学习的政策匹配方法 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107209750A (zh) * | 2014-11-19 | 2017-09-26 | 里德爱思唯尔股份有限公司雷克萨斯尼克萨斯分公司 | 用于自动地标识文档中的潜在重要事实的***及方法 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN108446355A (zh) * | 2018-03-12 | 2018-08-24 | 深圳证券信息有限公司 | 投融资事件要素抽取方法、装置及设备 |
CN108920445A (zh) * | 2018-04-23 | 2018-11-30 | 华中科技大学鄂州工业技术研究院 | 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置 |
CN109493265A (zh) * | 2018-11-05 | 2019-03-19 | 北京奥法科技有限公司 | 一种基于深度学习的政策解读方法及政策解读*** |
CN110209770A (zh) * | 2019-06-03 | 2019-09-06 | 北京邮电大学 | 一种基于策略价值网络和树搜索增强的命名实体识别方法 |
US20200184017A1 (en) * | 2018-12-11 | 2020-06-11 | American Express Travel Related Services Company, Inc. | Identifying data of interest using machine learning |
CN111930966A (zh) * | 2020-10-07 | 2020-11-13 | 杭州实在智能科技有限公司 | 一种用于数字政务的智能政策匹配方法及*** |
CN112035653A (zh) * | 2020-11-05 | 2020-12-04 | 北京智源人工智能研究院 | 一种政策关键信息提取方法和装置、存储介质、电子设备 |
CN112101041A (zh) * | 2020-09-08 | 2020-12-18 | 平安科技(深圳)有限公司 | 基于语义相似度的实体关系抽取方法、装置、设备及介质 |
CN112241438A (zh) * | 2020-10-09 | 2021-01-19 | 浙江水木海角科技服务有限公司 | 一种政策服务信息数据处理和查询方法及*** |
WO2021150676A1 (en) * | 2020-01-21 | 2021-07-29 | Ancestry.Com Operations Inc. | Joint extraction of named entities and relations from text using machine learning models |
CN113190656A (zh) * | 2021-05-11 | 2021-07-30 | 南京大学 | 一种基于多标注框架与融合特征的中文命名实体抽取方法 |
CN113254602A (zh) * | 2021-07-06 | 2021-08-13 | 北京邮电大学 | 面向科技政策领域的知识图谱构建方法及*** |
CN113989811A (zh) * | 2021-10-29 | 2022-01-28 | 深圳前海环融联易信息科技服务有限公司 | 基于深度学习的贸易合同中项目公司、供应商的提取方法 |
CN114036921A (zh) * | 2020-12-18 | 2022-02-11 | 京东科技控股股份有限公司 | 一种政策信息匹配方法和装置 |
CN114254620A (zh) * | 2021-12-23 | 2022-03-29 | 国泰新点软件股份有限公司 | 政策解析方法、装置和存储介质 |
CN114462409A (zh) * | 2022-01-28 | 2022-05-10 | 南京审计大学 | 一种基于对抗训练的审计领域命名实体识别方法 |
-
2022
- 2022-11-02 CN CN202211363986.XA patent/CN115470871B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107209750A (zh) * | 2014-11-19 | 2017-09-26 | 里德爱思唯尔股份有限公司雷克萨斯尼克萨斯分公司 | 用于自动地标识文档中的潜在重要事实的***及方法 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN108446355A (zh) * | 2018-03-12 | 2018-08-24 | 深圳证券信息有限公司 | 投融资事件要素抽取方法、装置及设备 |
CN108920445A (zh) * | 2018-04-23 | 2018-11-30 | 华中科技大学鄂州工业技术研究院 | 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置 |
CN109493265A (zh) * | 2018-11-05 | 2019-03-19 | 北京奥法科技有限公司 | 一种基于深度学习的政策解读方法及政策解读*** |
US20200184017A1 (en) * | 2018-12-11 | 2020-06-11 | American Express Travel Related Services Company, Inc. | Identifying data of interest using machine learning |
CN110209770A (zh) * | 2019-06-03 | 2019-09-06 | 北京邮电大学 | 一种基于策略价值网络和树搜索增强的命名实体识别方法 |
WO2021150676A1 (en) * | 2020-01-21 | 2021-07-29 | Ancestry.Com Operations Inc. | Joint extraction of named entities and relations from text using machine learning models |
CN112101041A (zh) * | 2020-09-08 | 2020-12-18 | 平安科技(深圳)有限公司 | 基于语义相似度的实体关系抽取方法、装置、设备及介质 |
CN111930966A (zh) * | 2020-10-07 | 2020-11-13 | 杭州实在智能科技有限公司 | 一种用于数字政务的智能政策匹配方法及*** |
CN112241438A (zh) * | 2020-10-09 | 2021-01-19 | 浙江水木海角科技服务有限公司 | 一种政策服务信息数据处理和查询方法及*** |
CN112035653A (zh) * | 2020-11-05 | 2020-12-04 | 北京智源人工智能研究院 | 一种政策关键信息提取方法和装置、存储介质、电子设备 |
CN114036921A (zh) * | 2020-12-18 | 2022-02-11 | 京东科技控股股份有限公司 | 一种政策信息匹配方法和装置 |
CN113190656A (zh) * | 2021-05-11 | 2021-07-30 | 南京大学 | 一种基于多标注框架与融合特征的中文命名实体抽取方法 |
CN113254602A (zh) * | 2021-07-06 | 2021-08-13 | 北京邮电大学 | 面向科技政策领域的知识图谱构建方法及*** |
CN113989811A (zh) * | 2021-10-29 | 2022-01-28 | 深圳前海环融联易信息科技服务有限公司 | 基于深度学习的贸易合同中项目公司、供应商的提取方法 |
CN114254620A (zh) * | 2021-12-23 | 2022-03-29 | 国泰新点软件股份有限公司 | 政策解析方法、装置和存储介质 |
CN114462409A (zh) * | 2022-01-28 | 2022-05-10 | 南京审计大学 | 一种基于对抗训练的审计领域命名实体识别方法 |
Non-Patent Citations (6)
Title |
---|
CHENGCHENG MAI 等: "Pretraining Multi-modal Representations for Chinese NER Task with Cross-Modality Attention", 《WSDM ’22》 * |
CHENGCHENG MAI 等: "TSSE-DMM: Topic Modeling for Short Texts Based on Topic Subdivision and Semantic Enhancement", 《PAKDD 2021》 * |
GUILLAUME LAMPLE 等: "Neural Architectures for Named Entity Recognition", 《ARXIV》 * |
曹树金 等: "基于深度学习的中共党史文献命名实体识别研究", 《情报资料工作》 * |
罗友恒: "面向政务客服对话场景的知识点匹配算法研究与应用", 《中国优秀硕士学位论文全文数据库 社会科学I辑》 * |
胡漠 等: "我国智慧政府信息协同网络结构识别与分析", 《情报学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522165A (zh) * | 2023-06-27 | 2023-08-01 | 武汉爱科软件技术股份有限公司 | 一种基于孪生结构的舆情文本匹配***及方法 |
CN116522165B (zh) * | 2023-06-27 | 2024-04-02 | 武汉爱科软件技术股份有限公司 | 一种基于孪生结构的舆情文本匹配***及方法 |
CN116562265A (zh) * | 2023-07-04 | 2023-08-08 | 南京航空航天大学 | 一种信息智能解析方法、***及存储介质 |
CN116562265B (zh) * | 2023-07-04 | 2023-12-01 | 南京航空航天大学 | 一种信息智能解析方法、***及存储介质 |
CN117235206A (zh) * | 2023-08-30 | 2023-12-15 | 上海通办信息服务有限公司 | 一种基于深度学习的政策匹配方法 |
CN117235206B (zh) * | 2023-08-30 | 2024-04-30 | 上海通办信息服务有限公司 | 一种基于深度学习的政策匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115470871B (zh) | 2023-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428053B (zh) | 一种面向税务领域知识图谱的构建方法 | |
CN111708773B (zh) | 一种多源科创资源数据融合方法 | |
CN108897857B (zh) | 面向领域的中文文本主题句生成方法 | |
CN115470871B (zh) | 基于命名实体识别与关系抽取模型的政策匹配方法及*** | |
CN109271529B (zh) | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 | |
CN113806563B (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
Li et al. | A policy-based process mining framework: mining business policy texts for discovering process models | |
CN111783399A (zh) | 一种法律裁判文书信息抽取方法 | |
Kaur | Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study | |
CN113255321A (zh) | 基于文章实体词依赖关系的金融领域篇章级事件抽取方法 | |
Alwan et al. | Political Arabic articles orientation using rough set theory with sentiment lexicon | |
CN113934909A (zh) | 基于预训练语言结合深度学习模型的金融事件抽取方法 | |
CN114580639A (zh) | 一种基于政务三元组自动抽取对齐的知识图谱构建的方法 | |
CN113869055A (zh) | 基于深度学习的电网项目特征属性识别方法 | |
Channabasamma et al. | A contextual model for information extraction in resume analytics using NLP’s spacy | |
Wosiak | Automated extraction of information from Polish resume documents in the IT recruitment process | |
CN115033705A (zh) | 电网调控风险预警信息知识图谱设计方法及*** | |
CN114722810A (zh) | 一种基于信息抽取和多属性决策的房地产客户画像方法和*** | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN111563374B (zh) | 一种基于司法裁判文书的人员社交关系抽取方法 | |
CN112989830A (zh) | 一种基于多元特征和机器学习的命名实体识别方法 | |
CN116432965B (zh) | 基于知识图谱的岗位能力分析方法及树状图生成方法 | |
CN112257442A (zh) | 一种基于扩充语料库神经网络的政策文件信息提取方法 | |
CN111737498A (zh) | 一种应用于离散制造业生产过程的领域知识库建立方法 | |
CN116383414A (zh) | 一种基于碳核查知识图谱的智能文件评审***及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |