CN115619192A - 一种面向需求计划规则的混合式关系提取算法 - Google Patents

一种面向需求计划规则的混合式关系提取算法 Download PDF

Info

Publication number
CN115619192A
CN115619192A CN202211408137.1A CN202211408137A CN115619192A CN 115619192 A CN115619192 A CN 115619192A CN 202211408137 A CN202211408137 A CN 202211408137A CN 115619192 A CN115619192 A CN 115619192A
Authority
CN
China
Prior art keywords
supervised
relation
semi
learning
mfop
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211408137.1A
Other languages
English (en)
Other versions
CN115619192B (zh
Inventor
刘嫣然
汪亦星
许璐
倪颖
梅杰
杨阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Materials Branch of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Materials Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Materials Branch of State Grid Jiangsu Electric Power Co Ltd filed Critical Materials Branch of State Grid Jiangsu Electric Power Co Ltd
Priority to CN202211408137.1A priority Critical patent/CN115619192B/zh
Publication of CN115619192A publication Critical patent/CN115619192A/zh
Application granted granted Critical
Publication of CN115619192B publication Critical patent/CN115619192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Public Health (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Water Supply & Treatment (AREA)
  • Quality & Reliability (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向需求计划规则的混合式关系提取算法,包括有通用数据集上的参数预提取阶段、自主学***不一样,导致噪声可能比较大的问题。可以关系提取后,实现对可能存在不合理的地方,把该不合理的地方提示给人类用户。

Description

一种面向需求计划规则的混合式关系提取算法
技术领域
本发明属于电力领域,涉及一种面向需求计划规则的混合式关系提取算法。
发明背景
需求计划作为物资管理的源头是智慧采购的基础。随着近年来电网对计划管理的精益化要求和计划提报的时效性要求不断提高,传统采用人工方式进行需求计划审核存在“效率低、易出错”的问题,计划管理工作业务链条长、涉及层级多,需求计划种类繁杂,规则体系涉及业务编码、商务计算、时空范围等众多约束条件,计划专职与审查专家需要逐条对照规则进行人工审核。再者,由于需求计划涉及众多批次,审核要点多、关联关系复杂、细则难以准确把握。因此,亟待一种新的需求计划信息智能化技术,利用机器学习、深度学习与数据科学的工具,将现有审核要点中的复杂逻辑提取为可以快速高效地标准化审核的机器规则,提升需求计划审查的效率与准确率,为高效采购实施夯实基础。
基于深度学习的关系抽取方法主要分为远程监督和有监督学习两类,其中有监督学习在训练过程中使用人工标注的数据集,而远程监督的方法通过对齐远程知识库自动对语料进行标注。无论是有监督还是远程监督模型,其性能均依赖于训练集的标记质量,而远程监督数据集的标注方式使其包含大量噪声,如何降低噪声对模型的影响是远程监督关系抽取的重点研究问题。
面向需求计划规则的任务而言,需要解决的问题是:
1、对大量未知的需求计划规则的关系提取,需要具备在弱监督下的关系提取能力;
2、在提取时,各类人员的撰写需求计划的水平不一样,导致噪声可能比较大;
3、关系提取后,这些关系需要被人类用户审批,按照要求,应该有个对疑点关系的提示,即对未知的需求计划中,可能存在不合理的地方,该不合理的地方需要被机器提示给人类用户。
而对于需求计划规则的开发而言,可能具有的资源有:
1、通过已有的一些常用公开数据集,可以学习到一些常用的关系;
2、存在有很多各具特征的算法方案,可以多个算法进行学习,且硬件上资源可以支撑多个算法比较学习;
3、在使用初期时,使用者的审批流程也是对未知样本的关系审核流程,可以提供一个新的样本;
4、对于大集团的需求计划规则,可以定义一个通用模板,编写其核心内容的重要语句时,使用者可以往里面填写语义内容,实现核心内容语句关系的自动确定。
所以,不难看出,为了充分利用以上的资源条件,完成需要解决的问题,可以1、设计一个混合式关系提取算法,利用半监督的方案大量学***时积累样本数据的来训练多个全监督方案,用投票的方案,继而来监督半监督方案关系抽取的结果;3、用稳定性的角度来控制准确性是否偏差过大;4、最后,如果利用多个学习方案,特别是知道它们的偏差后,可以用投票的方案,把偏差最大的内容作为怀疑对象或者不合理对象,提供给用户,提示用户分析和审批。总之,本算法在学习模型上,类似于一个多师一生的师生学习方案,且师生关系在不断转换。
发明内容
为了克服现有技术存在的问题,本发明的目的是提供一种面向需求计划规则的混合式关系提取算法,基于现有的人工智能技术、关系提取理论,在半监督学习的基础上,实现标准样本的关系提取,继而比较,并把认为可能存在不合理的内容,提示给用户审批,通过主动学习实现元学习的能力。
本发明的目的通过以下技术方案实现:
一种面向需求计划规则的混合式关系提取算法,其特征在于,步骤如下:
步骤1、在通用数据集上的参数预提取阶段
步骤1-1、通过定义一个通用模板,编写其核心内容的重要语句时,使用者可以往里面填写语义内容,实现核心内容语句关系的自动确定,这样就具备了一个初始为空的通用关系的小规则库R1,其内容未来可以通过简单的文本识别和位置定位即可获得,而非复杂的关系抽取方案。除此之外,该设置该模块格式要求,可以控制小节的长度,从而获得在本通用模板下,远程监督关系抽取的距离长度lf的数值。
步骤1-2、在通用非专业的全标签数据集DatasetG(1)~DatasetG(n)上,使用90%的数据,让1个半监督的学习算法MH、m个全监督的学习算法MF(1)~MF(m)各自学习,训练好各自模型MHt、MFt(1)~MFt(m)。然后测试出它们在剩下的10%的样本上的性能,具体为在计算出在这些所有n个的数据集、每个单独一个数据集上,1个半监督与m个全监督投票法在关系提取上的差异。其具体工作如下:
对单独数据集剩下的10%的全标签样本的所有关系抽取的结果RsG(mi) (mi=1~mimax)进行统计,其中mimax是所有的三元法关系的总数,这个结果是从所有的学习算法的结果共同汇总所得。半监督学习算法得到部分是RsGh(mih) (mih=1~mihmax)。全监督学习算法得到部分是RsGf(mif) (mif=1~mifmax),它们之间存在交叉,整个RsG(mi)中还包括被半监督和全监督学习分别识别到的次数。三元法的关系表达是本领域公知内容,其主要内容为ABC组成,A和C是对象,B是关系,例如南京(A)属于(B)江苏(C)。在本发明中,每个三元法关系结果还包括有一个被发现的数组Timde1(RsG, deth1,detf1,Realout),其中RsG表示是在预训练是在通用数据集上;deth1是被半监督学习算法测试到的结果,只有1或者0;detf1是被m个全监督算法测试到的次数,其值从0到m。例如第rm个关系“南京属于江苏”的Timde1(RsG,1,2,1),即表明其被半监督关系抽取到了,被全监督抽取到了2次,Realout是这个关系在全标签样本是否人为标注为正确,只有1或者0,1代表为正确,0代表为不正确。
全监督投票法,设置一个变量votenum,其范围从1到m。对于全监督方法的模型MFt(1)~MFt(m),在它们这10%的样本中的结果进行投票法,Rsf(mi)中有被全监督方法的模型MFt(1)~MFt(m)发现过大于等于votenum次,那么即判断从全监督的角度,保留这个关系为真(1)。举例而言,如果m为10,votenum为2,上面RsG(mi)中的Timde1(RsG, deth1,detf1,Realout)中一个第rm个关系“南京属于江苏”的Timde1(RsG,1,2,1),就会变成为Timde2(RsG, deth2,detf2,Realout)=(RsG,1,1,1),detf2现在与deth1、deth2一样,只有1或者0,表示确认关系。1表示被m个全监督模型以votenum阈值投票的结果为确认,此刻在这个关系上,半监督与全监督的效果一样,且它们均符合真实的人为标签Realout的结果。
使用遍历法,设置votenum从1到m,然后单独的一个数据集中,寻找到在哪个值下,在所有结果中detf2和Realout相等的结果比例为最高,得到n个数据集上的votenumbest(ni),ni=1~n。然后对这些votenumbest(ni)取平均值,得到voteop,作为后期投票法得到的投票阈值。
使用如上的全监督投票法,阈值为voteop,得到其在n个通用数据集上的准确率Pre(MFop(1))~Pre(MFop(n))。继而计算出它们的平均值avg(MFop)、方差var(MFop),用作后期使用。
另外,计算每个单独数据集中,半监督的方法的准确度表现,Pre(Mht(1))~Pre(Mht (n))。继而计算出它们的平均值avg(Mht)、方差var(Mht),用作后期使用。
步骤2、在专业但是弱标签的数据集上自主学习阶段
步骤2-1、使用半监督学习算法MH,学习弱标签的数据集DatasetS。把步骤1-1获得到的,在通用模板下,远程监督关系抽取的距离长度lf的数值,提供给MH,作为其参数。同时,把步骤1-1中一个初始为空的通用关系的小规则库R1作为其评价的指标,要求其自主学习的数据包含所有的小规则库R1,训练好模型MHt2。
步骤2-2、把学习好的半监督学习算法MHt2对DatasetS得到所有三元关系集的知识结果,以句子为单位长度,列为新的全监督学习的数据样本DatasetSF(1),与DatasetG(1)~DatasetG(n)一起提供给m个全监督的学习算法MF(1)~MF(m)学习,训练好各自模型MFt2(1)~MFt2(m)。
步骤3、主动学习阶段
此刻,本算法已经开始面向审批人员工作,这个阶段是把多个学习方法的结果差异化最大的内容,提交给审批人员,请审批人员对这些内容做出标签。
步骤3-1、对每一个新的样本,用在第2步骤中训练好的半监督模型MHt2、全监督模型模型MFt2(1)~MFt2(m)进行关系抽取,得到Rsf2(mj)关系集,mj=1~mjmax,它包含一组与步骤1-2类似的三元组结果,包括有一个被发现的数组Timede1(Rsf2, deth1,detf1,Realout)。此刻由于没有标签,所以Realout均为Null。此刻,计算defh1为0的情况下,detf1大于7的情况;以及defh1为1,derf1小于2的情况,即半监督、全监督双方差异很大的情况。把这些情况提供给审批人员,请审批人员集中实施标注,即标注Realout。
步骤3-2、人工标注后的内容,即有三元关系集的知识结果,以句子为单位长度,列为新的数据样本DatasetSF(2),添加到步骤2-2的数据集,参考步骤2-2,训练好模型MHt2。
步骤3-3、参考步骤2-2,用MHt2去分析步骤3-1的新样本,并把其对步骤3-1的新样本抽取到的三元关系给所有全监督学习学习,训练好各自模型MFt2(1)~MFt2(m);
步骤3-4、重复步骤3-1到步骤3-3,直至至少有连续3次样本在分析时,没有步骤3-1双发差异很大的情况发生。由于知识样本是增量,所以这类差异很大的情况的数量上的理论上是一直缩小的。同时,如果用户想要提高速度、减少时间的话,可以对步骤3-1的无标签三元关系组多主动增加标签,从而提高学习的样本。
步骤4、应用部署阶段
该阶段的工作为面对新的任务,不主动要求审批人员提供争议位置的标注,而是被动接受每一个任务审批的结果,并把全监督和半监督模型分析结果不一致的内容提供给用户,提醒其此处可能出现不合理的地方,即完成发明背景中的问题3。
步骤4-1、对每一个新的样本,用在第3步骤中训练好的半监督模型MHt2、全监督模型模型MFt2(1)~MFt2(m)进行关系抽取,得到Rsf3(mk)关系集,mk=1~mkmax,它包含一组与步骤1-2类似的三元组结果,包括有一个被发现的数组Timkde1(Rsf2, deth1,detf1,Realout)。此刻由于没有标签,所以Realout均为Null。此刻,参考步骤1-2,把步骤1-2中获得的voteop记入本步骤,当derf1大于等于voteop的时候,Timkde2(Rsf2, deth2,detf2,Realout)中derf2为1,否则为0。把所有deth2和detf2不一致的内容部分,显示给用户,提醒其此处可能出现不合理的地方。
步骤4-2、当用户对步骤4-1的样本审批后,会得到不通过(0)或者通过(1)的结果,把这结果作为弱标签,与步骤2中的数据集一起作为数据集。每隔NumT1个样本,按照步骤2集中学习更新,得到新的训练好的半监督模型MHt2、全监督模型MFt2(1)~MFt2(m)。
步骤4-3、每隔NumT2(其中,NumT2>NumT1)个样本,按照步骤1-2集中学***均值avg’(MFop)、方差var’(MFop);统计出半监督的方法的准确度表现,计算出它们的平均值avg’(Mht)。
条件1:分析步骤3中全监督模型平均值的准确范围B1是否在步骤1-2获得的3个方差的准确范围B0内。
B0: (avg (MFop)-3*var(MFop)) ~ (avg(MFop)+3*var(MFop))
B1: (avg’(MFop)-var’(MFop) ) ~(avg’(MFop)+var’(MFop))
条件2:分析步骤3中半监督模型平均值的avg’(Mht)是否在步骤1-2获得的3方差准确范围C0内。
C0: (avg(Mht)- 3*var’(Mht)) ~ (avg(Mht) + 3*var’(Mht))
如果条件1或者条件2不成立一个,那么就说明学习到了过多的噪声,需要重新进入步骤3,学习准确标签后,再部署。
本发明在模型上主要包括有一个半监督的学习算法MH,多个全监督的学习算法MF(1)~MF(m)。在数据集上包括有多个通用但是非专业的全标签数据集DatasetG(1)~DatasetG(n),一个专业但是只有整体正确与否的需求计划规则的样本集DatasetS,这个样本集的样本是在每次审批时会被增加弱标签的样本。在本发明的学习流程上,本发明包括有通用数据集上的参数预提取阶段、自主学习阶段、主动学习阶段、应用部署阶段4个阶段。另外,本发明还可以通过定义一个通用模板,编写其核心内容的重要语句时,使用者可以往里面填写语义内容,通过简单的语义识别,依据其在文本中的位置,可以实现核心内容语句关系的自动确定,这样就具备了一个通用关系的小规则库R1。
本发明的有益效果是:
通过实现本方案,可以解决面向需求计划规则的关系提取的3个问题。可以对大量未知的需求计划规则的关系提取,具备了在弱监督下的关系提取能力。可以缓解在提取时,各类人员的撰写需求计划的水平不一样,导致噪声可能比较大的问题。可以关系提取后,实现对可能存在不合理的地方,把该不合理的地方提示给人类用户。
附图说明
图1为本发明实施例的整体算法流程图。
具体实施例
下面结合图1,进一步阐述本发明内容。
本发明基于现有的人工智能技术、关系提取理论,提出了一款用于大型企业需求计划规则中的关系提取的算法,它在半监督学习的基础上,实现标准样本的关系提取,继而比较,并把认为可能存在不合理的内容,提示给用户审批,通过主动学习实现元学习的能力。
本发明在模型上主要包括有一个半监督的学习算法MH,多个全监督的学习算法MF(1)~MF(m)。在数据集上包括有多个通用但是非专业的全标签数据集DatasetG(1)~DatasetG(n),一个专业但是只有整体正确与否的需求计划规则的样本集DatasetS,这个样本集的样本是在每次审批时会被增加弱标签样本的。在学习流程上,本发明包括有通用数据集上的参数预提取阶段、自主学习阶段、主动学习阶段、应用部署阶段4个阶段。另外,本发明还可以通过定义一个通用模板,编写其核心内容的重要语句时,使用者可以往里面填写语义内容,实现核心内容语句关系的自动确定,这样就具备了一个通用关系的小规则库R1。
在本发明的具体实施例中,半监督的学习算法MH采用的是文献(倪骏. 基于弱监督学习的关系抽取方法研究[D]. 大连理工大学.)中的TMNN算法。全监督的学习算法一共有10个,即m=10,分别是:
[1].Multi-head,该方法将关系抽取任务视为一个多头选择问题,能够提取实体对间的多种关系类型。
[2].Multi-head+AT,模型使用基于多头注意力机制的对抗学习方法进行实体关系抽取。
[3].Sci IE,模型引入一个多任务设置用于分类科学文章中的实体、关系和共现词簇。该关系分类模型能通过共现词连接,利用跨句子的关系和减少级联错误。
[4].Relation-Metric,模型结合度量学习和卷积神经网络实现关系抽取。
[5].Biaffine Attention,使用一个深层双仿射注意网络层(Deep Biaffine At-tention Layer),扩展 Bi LSTM-CRF 模型学习隐藏状态的二阶交互。
[6].Multi-turn QA,模型将实体关系抽取定义为一个多轮对话问答任务,在序列标注方法中取得了 SOTA(State-of-the-art)效果。
[7].Dy GIE++,进一步扩展了基于跨度的 Dy GIE模型,引入共指解析实现增强实体和关系特征表示。
[8].Sp ERT是一个基于跨度注意力的实体关系抽取方法,在 Co NLL04 和ADE 数据集上实现了最好的效果。
[9].Hierarchical Attention,提出一个辅助的基于语言模型训练目标,并且采用了层级多头注意力机制,能够捕捉最重要的语义信息增强关系抽取的能力。
[10].Cas Rel,它首先确认所有可能的头实体,其次使用特定的关系标签器去识别每个头实体相对应的关系和尾实体。
本实施例中,通用但是非专业的全标签数据集为TACRED数据集、Sem Eval-2010Task 8数据集、SCIERC数据集、CoNLL04数据集、ADE数据集,即n=5。专业但是只有整体正确与否的需求计划规则的样本集DatasetS为自建。
其步骤如下:
步骤1、在通用数据集上的参数预提取阶段
步骤1-1、通过定义一个通用模板,编写其核心内容的重要语句时,使用者可以往里面填写语义内容,实现核心内容语句关系的自动确定,这样就具备了一个初始为空的通用关系的小规则库R1,其内容未来可以通过简单的文本识别和位置定位即可获得,而非复杂的关系抽取方案。除此之外,该设置该模块格式要求,可以控制小节的长度,从而获得在本通用模板下,远程监督关系抽取的距离长度lf的数值。
本实施例中,R1为自建,共有78个标准三元语义规则,包括甲方的子单位,经费关系,任务关系等多个类,只要填写到准确位置,就能通过文本识别,自动分析出78个标准三元语义规则,而非是关系抽取出来的。另外,由于建立了标准的长度,所以lf被限制在了80个汉字以内。
步骤1-2、在通用非专业的全标签数据集DatasetG(1)~DatasetG(n)上,使用90%的数据,让1个半监督的学习算法MH、m个全监督的学习算法MF(1)~MF(m)各自学习,训练好各自模型MHt、MFt(1)~MFt(m)。然后测试出它们在剩下的10%的样本上的性能,具体为在计算出在这些所有n个的数据集、每个单独一个数据集上,1个半监督与m个全监督投票法在关系提取上的差异。本实施例中,m=10,n=5。其具体工作如下:
对单独数据集剩下的10%的全标签样本的所有关系抽取的结果RsG(mi) (mi=1~mimax)进行统计,其中mimax是所有的三元法关系的总数,这个结果是从所有的学习算法的结果共同汇总所得。半监督学习算法得到部分是RsGh(mih) (mih=1~mihmax)。全监督学习算法得到部分是RsGf(mif) (mif=1~mifmax),它们之间存在交叉,整个RsG(mi)中还包括被半监督和全监督学习分别识别到的次数。三元法的关系表达是本领域公知内容,其主要内容为ABC组成,A和C是对象,B是关系,例如南京(A)属于(B)江苏(C)。在本发明中,每个三元法关系结果还包括有一个被发现的数组Timde1(RsG, deth1,detf1,Realout),其中RsG表示是在预训练是在通用数据集上;deth1是被半监督学习算法测试到的结果,只有1或者0;detf1是被m个全监督算法测试到的次数,其值从0到m。例如第rm个关系“南京属于江苏”的Timde1(RsG,1,2,1),即表明其被半监督关系抽取到了,被全监督抽取到了2次,Realout是这个关系在全标签样本是否人为标注为正确,只有1或者0,1代表为正确,0代表为不正确。
全监督投票法,设置一个变量votenum,其范围从1到m。对于全监督方法的模型MFt(1)~MFt(m),在它们这10%的样本中的结果进行投票法,Rsf(mi)中有被全监督方法的模型MFt(1)~MFt(m)发现过大于等于votenum次,那么即判断从全监督的角度,保留这个关系为真(1)。举例而言,如果m为10,votenum为2,上面RsG(mi)中的Timde1(RsG, deth1,detf1,Realout)中一个第rm个关系“南京属于江苏”的Timde1(RsG,1,2,1),就会变成为Timde2(RsG, deth2,detf2,Realout)=(RsG,1,1,1),detf2现在与deth1、deth2一样,只有1或者0,表示确认关系。1表示被m个全监督模型以votenum阈值投票的结果为确认,此刻在这个关系上,半监督与全监督的效果一样,且它们均符合真实的人为标签Realout的结果。
使用遍历法,设置votenum从1到m,然后单独的一个数据集中,寻找到在哪个值下,在所有结果中detf2和Realout相等的结果比例为最高,得到n个数据集上的votenumbest(ni),ni=1~n。然后对这些votenumbest(ni)取平均值,得到voteop,作为后期投票法得到的投票阈值。
本具体实施例中,voteop=3。
使用如上的全监督投票法,阈值为voteop,得到其在n个通用数据集上的准确率Pre(MFop(1))~Pre(MFop(n))。继而计算出它们的平均值avg(MFop)、方差var(MFop),用作后期使用。
另外,计算每个单独数据集中,半监督的方法的准确度表现,Pre(Mht(1))~Pre(Mht (n))。继而计算出它们的平均值avg(Mht)、方差var(Mht),用作后期使用。
步骤2、在专业但是弱标签的数据集上自主学习阶段
步骤2-1、使用半监督学习算法MH,学习弱标签的数据集DatasetS。把步骤1-1获得到的,在通用模板下,远程监督关系抽取的距离长度lf的数值,提供给MH,作为其参数。同时,把步骤1-1中一个初始为空的通用关系的小规则库R1作为其评价的指标,要求其自主学习的数据包含所有的小规则库R1,训练好模型MHt2。
本实施例中,由于R1是通过文本语义自主分析,而非关系抽取出来的,把语义按照撰写时的位置,投射到已知的78个规则中,所以是能够简单分析到的。然后通过把这78个规则,提供给MH学习即可。
步骤2-2、把学习好的半监督学习算法MHt2对DatasetS得到所有三元关系集的知识结果,以句子为单位长度,列为新的全监督学习的数据样本DatasetSF(1),与DatasetG(1)~DatasetG(n)一起提供给m个全监督的学习算法MF(1)~MF(m)学习,训练好各自模型MFt2(1)~MFt2(m)。
步骤3、主动学习阶段
此刻,本算法已经开始面向审批人员工作,这个阶段是把多个学习方法的结果差异化最大的内容,提交给审批人员,请审批人员对这些内容做出标签。
步骤3-1、对每一个新的样本,用在第2步骤中训练好的半监督模型MHt2、全监督模型MFt2(1)~MFt2(m)进行关系抽取,得到Rsf2(mj)关系集,mj=1~mjmax,它包含一组与步骤1-2类似的三元组结果,包括有一个被发现的数组Timede1(Rsf2, deth1,detf1,Realout)。此刻由于没有标签,所以Realout均为Null。此刻,计算defh1为0的情况下,detf1大于7的情况;以及defh1为1,derf1小于2的情况,即半监督、全监督双方差异很大的情况。把这些情况提供给审批人员,请审批人员集中实施标注,即标注Realout。
步骤3-2、人工标注后的内容,即有三元关系集的知识结果,以句子为单位长度,列为新的数据样本DatasetSF(2),添加到步骤2-2的数据集,参考步骤2-1,训练好模型MHt2。
步骤3-3、参考步骤2-2,用MHt2去分析步骤3-1的新样本,并把其对步骤3-1的新样本抽取到的三元关系给所有全监督学习学习,训练好各自模型MFt2(1)~MFt2(m);
步骤3-4、重复步骤3-1到步骤3-3,直至至少有连续3次样本在分析时,没有步骤3-1双发差异很大的情况发生。由于知识样本是增量,所以这类差异很大的情况的数量上的理论上是一直缩小的。同时,如果用户想要提高速度、减少时间的话,可以对步骤3-1的无标签三元关系组多主动增加标签,从而提高学习的样本。
步骤4、应用部署阶段
该阶段的工作为面对新的任务,不主动要求审批人员提供争议位置的标注,而是被动接受每一个任务审批的结果,并把全监督和半监督模型分析结果不一致的内容提供给用户,提醒其此处可能出现不合理的地方,即完成发明背景中的问题3。
步骤4-1、对每一个新的样本,用在第3步骤中训练好的半监督模型MHt2、全监督模型模型MFt2(1)~MFt2(m)进行关系抽取,得到Rsf3(mk)关系集,mk=1~mkmax,它包含一组与步骤1-2类似的三元组结果,包括有一个被发现的数组Timkde1(Rsf2, deth1,detf1,Realout)。此刻由于没有标签,所以Realout均为Null。此刻,参考步骤1-2,把步骤1-2中获得的voteop记入本步骤,当derf1大于等于voteop的时候,Timkde2(Rsf2, deth2,detf2,Realout)中derf2为1,否则为0。把所有deth2和detf2不一致的内容部分,显示给用户,提醒其此处可能出现不合理的地方。
步骤4-2、当用户对步骤4-1的样本审批后,会得到不通过(0)或者通过(1)的结果,把这结果作为弱标签,与步骤2中的数据集一起作为数据集。每隔NumT1个样本,按照步骤2集中学习更新,得到新的训练好的半监督模型MHt2、全监督模型MFt2(1)~MFt2(m)。本实施例中,NumT1=100。
步骤4-3、每隔NumT2(其中,NumT2>NumT1)个样本,按照步骤1-2集中学***均值avg’(MFop)、方差var’(MFop);统计出半监督的方法的准确度表现,计算出它们的平均值avg’(Mht)。本实施例中,NumT1=300。
条件1:分析步骤3中现有的全监督模型平均值的准确范围B1是否在步骤1-2获得的3个方差准确范围B0内。
B0: (avg (MFop)-3*var(MFop)) ~ (avg(MFop)+3*var(MFop))
B1: (avg’(MFop)-var’(MFop) ) ~(avg’(MFop)+var’(MFop))
条件2:分析步骤3中半监督模型平均值的avg’(Mht)是否在步骤1-2获得的3方差准确范围C0内。
C0: (avg(Mht)- 3*var’(Mht)) ~ (avg(Mht) + 3*var’(Mht))
如果条件1或者条件2不成立一个,那么就说明学习到了过多的噪声,需要重新进入步骤3,学习准确标签后,再部署。
通过实现本方案,可以解决面向需求计划规则的关系提取的3个问题。可以对大量未知的需求计划规则的关系提取,具备了在弱监督下的关系提取能力。可以缓解在提取时,各类人员的撰写需求计划的水平不一样,导致噪声可能比较大的问题。可以关系提取后,实现对可能存在不合理的地方,把该不合理的地方提示给人类用户。

Claims (4)

1.一种面向需求计划规则的混合式关系提取算法,其特征在于,步骤如下:
步骤1、在通用数据集上的参数预提取阶段
步骤1-1、设置通用模板的格式要求,控制小节的长度,从而获得在本通用模板下,远程监督关系抽取的距离长度lf的数值;
步骤1-2、在通用非专业的全标签数据集DatasetG(1)~DatasetG(n)上,使用90%的数据作为训练集,剩下的10%作为测试集,得到投票阈值voteop,以及其在n个通用数据集上的准确率的平均值、方差,确定后期使用的稳定范围;
步骤2、在专业但是弱标签的数据集上自主学习阶段
步骤2-1、使用半监督学习算法MH,学习弱标签的数据集DatasetS;把步骤1-1获得到的,在通用模板下,远程监督关系抽取的距离长度lf的数值,提供给MH,作为其参数;同时,把步骤1-1中一个初始为空的通用关系的小规则库R1作为其评价的指标,要求其自主学习的数据包含所有的小规则库R1,训练好半监督模型MHt2;
步骤2-2、把学习好的半监督学习算法MHt2对DatasetS得到所有三元关系集的知识结果,以句子为单位长度,列为新的全监督学习的数据样本DatasetSF(1),与DatasetG(1)~DatasetG(n)一起提供给m个全监督的学习算法MF(1)~MF(m)学习,训练好各自模型MFt2(1)~MFt2(m);
步骤3、主动学习阶段
步骤3-1、对每一个新的样本,用在第2步骤中训练好的半监督模型MHt2、全监督模型MFt2(1)~MFt2(m)进行关系抽取,得到Rsf2(mj)关系集,mj=1~mjmax,它包含一组与步骤1-2类似的三元组结果,包括有一个被发现的数组Timede1(Rsf2, deth1,detf1,Realout);此刻由于没有标签,所以Realout均为Null;此刻,计算defh1为0的情况下,detf1大于7的情况;以及defh1为1,derf1小于2的情况,即半监督、全监督双方差异很大的情况;把这些情况集中实施标注,即标注Realout;
步骤3-2、人工标注后的内容,即有三元关系集的知识结果,以句子为单位长度,列为新的数据样本DatasetSF(2),添加到步骤2-2的数据集,参考步骤2-2,训练好半监督模型MHt2;
步骤3-3、参考步骤2-2,用MHt2去分析步骤3-1的新样本,并把其对步骤3-1的新样本抽取到的三元关系给所有全监督学习学习,训练好各自模型MFt2(1)~MFt2(m);
步骤3-4、重复步骤3-1到步骤3-3,直至至少有连续3次样本在分析时,没有步骤3-1双发差异很大的情况发生;
步骤4、应用部署阶段
步骤4-1、对每一个新的样本,用在第3步骤中训练好的半监督模型MHt2、全监督模型模型MFt2(1)~MFt2(m)进行关系抽取,得到Rsf3(mk)关系集,mk=1~mkmax,它包含一组与步骤1-2类似的三元组结果,包括有一个被发现的数组Timkde1(Rsf2, deth1,detf1,Realout);此刻由于没有标签,所以Realout均为Null,此刻,参考步骤1-2,把步骤1-2中获得的voteop记入本步骤,当derf1大于等于voteop的时候,Timkde2(Rsf2, deth2,detf2,Realout)中derf2为1,否则为0;把所有deth2和detf2不一致的内容部分,显示给用户,提醒其此处可能出现不合理的地方;
步骤4-2、当用户对步骤4-1的样本审批后,会得到不通过(0)或者通过(1)的结果,把这结果作为弱标签,与步骤2中的数据集一起作为数据集;每隔NumT1个样本,按照步骤2集中学习更新,得到新的训练好的半监督模型MHt2、全监督模型MFt2(1)~MFt2(m);
步骤4-3、每隔NumT2个样本,其中,NumT2>NumT1,按照步骤1-2集中学***均值avg’(MFop)、方差var’(MFop);统计出半监督的方法的准确度表现,计算出它们的平均值avg’(Mht);
条件1:分析步骤3中全监督模型平均值的准确范围B1是否在步骤1-2获得的3个方差的准确范围B0内;
B0: (avg (MFop)-3*var(MFop)) ~ (avg(MFop)+3*var(MFop))
B1: (avg’(MFop)-var’(MFop) ) ~(avg’(MFop)+var’(MFop))
条件2:分析步骤3中半监督模型平均值的avg’(Mht)是否在步骤1-2获得的3方差准确范围C0内;
C0: (avg(Mht)- 3*var’(Mht)) ~ (avg(Mht) + 3*var’(Mht))
如果条件1或者条件2不成立一个,那么就说明学习到了过多的噪声,需要重新进入步骤3,学习准确标签后,再部署。
2.根据权利要求1所述的面向需求计划规则的混合式关系提取算法,其特征在于,步骤1具体如下:
步骤1-1、通过定义一个通用模板,编写其核心内容的重要语句,实现核心内容语句关系的自动确定,具备一个初始为空的通用关系的小规则库R1,其内容未来通过简单的文本识别和位置定位即可获得,而非复杂的关系抽取方案;设置该模块格式要求,控制小节的长度,从而获得在本通用模板下,远程监督关系抽取的距离长度lf的数值;
步骤1-2、在通用非专业的全标签数据集DatasetG(1)~DatasetG(n)上,使用90%的数据,让1个半监督的学习算法MH、m个全监督的学习算法MF(1)~MF(m)各自学习,训练好各自模型MHt、MFt(1)~MFt(m);然后测试出它们在剩下的10%的样本上的性能,具体为在计算出在这些所有n个的数据集、每个单独一个数据集上,1个半监督与m个全监督投票法在关系提取上的差异。
3.根据权利要求2所述的面向需求计划规则的混合式关系提取算法,其特征在于,步骤1-2具体工作如下:
对单独数据集剩下的10%的全标签样本的所有关系抽取的结果RsG(mi) (mi=1~mimax)进行统计,其中mimax是所有的三元法关系的总数,这个结果是从所有的学习算法的结果共同汇总所得;半监督学习算法得到部分是RsGh(mih) (mih=1~mihmax);全监督学习算法得到部分是RsGf(mif) (mif=1~mifmax),它们之间存在交叉,整个RsG(mi)中还包括被半监督和全监督学习分别识别到的次数;三元法的关系表达是本领域公知内容,其主要内容为ABC组成,A和C是对象,B是关系,每个三元法关系结果还包括有一个被发现的数组Timde1(RsG,deth1,detf1,Realout),其中RsG表示是在预训练是在通用数据集上;deth1是被半监督学习算法测试到的结果,只有1或者0;detf1是被m个全监督算法测试到的次数,其值从0到m;
全监督投票法,设置一个变量votenum,其范围从1到m;对于全监督方法的模型MFt(1)~MFt(m),在它们这10%的样本中的结果进行投票法,Rsf(mi)中有被全监督方法的模型MFt(1)~MFt(m)发现过大于等于votenum次,那么即判断从全监督的角度,保留这个关系为真(1);1表示被m个全监督模型以votenum阈值投票的结果为确认,此刻在这个关系上,半监督与全监督的效果一样,且它们均符合真实的人为标签Realout的结果;
使用遍历法,设置votenum从1到m,然后单独的一个数据集中,寻找到在哪个值下,在所有结果中detf2和Realout相等的结果比例为最高,得到n个数据集上的votenumbest(ni),ni=1~n;
然后对这些votenumbest(ni)取平均值,得到voteop,作为后期投票法得到的投票阈值;
使用如上的全监督投票法,阈值为voteop,得到其在n个通用数据集上的准确率Pre(MFop(1))~Pre(MFop(n));继而计算出它们的平均值avg(MFop)、方差var(MFop),用作后期使用;另外,计算每个单独数据集中,半监督的方法的准确度表现,Pre(Mht(1))~Pre(Mht(n));继而计算出它们的平均值avg(Mht)、方差var(Mht),用作后期使用。
4.根据权利要求1所述的面向需求计划规则的混合式关系提取算法,其特征在于,步骤4中,把全监督和半监督模型分析结果不一致的内容提供给用户,提醒其此处可能出现不合理的地方。
CN202211408137.1A 2022-11-10 2022-11-10 一种面向需求计划规则的混合式关系提取方法 Active CN115619192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211408137.1A CN115619192B (zh) 2022-11-10 2022-11-10 一种面向需求计划规则的混合式关系提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211408137.1A CN115619192B (zh) 2022-11-10 2022-11-10 一种面向需求计划规则的混合式关系提取方法

Publications (2)

Publication Number Publication Date
CN115619192A true CN115619192A (zh) 2023-01-17
CN115619192B CN115619192B (zh) 2023-10-03

Family

ID=84877808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211408137.1A Active CN115619192B (zh) 2022-11-10 2022-11-10 一种面向需求计划规则的混合式关系提取方法

Country Status (1)

Country Link
CN (1) CN115619192B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294593A (zh) * 2016-07-28 2017-01-04 浙江大学 结合从句级远程监督和半监督集成学习的关系抽取方法
US20180137435A1 (en) * 2016-11-17 2018-05-17 Kabushiki Kaisha Toshiba Information extraction support device, information extraction support method and computer program product
CN110427629A (zh) * 2019-08-13 2019-11-08 苏州思必驰信息科技有限公司 半监督文本简化模型训练方法和***
CN111737497A (zh) * 2020-06-30 2020-10-02 大连理工大学 基于多源语义表示融合的弱监督关系抽取方法
CN112906368A (zh) * 2021-02-19 2021-06-04 北京百度网讯科技有限公司 行业文本增量方法、相关装置及计算机程序产品
CN113627190A (zh) * 2021-08-27 2021-11-09 上海复深蓝软件股份有限公司 可视化数据转换方法、装置、计算机设备及存储介质
CN113936217A (zh) * 2021-10-25 2022-01-14 华中师范大学 先验语义知识引导的高分辨率遥感影像弱监督建筑物变化检测方法
CN114884894A (zh) * 2022-04-18 2022-08-09 南京邮电大学 一种基于迁移学习的半监督网络流量分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294593A (zh) * 2016-07-28 2017-01-04 浙江大学 结合从句级远程监督和半监督集成学习的关系抽取方法
US20180137435A1 (en) * 2016-11-17 2018-05-17 Kabushiki Kaisha Toshiba Information extraction support device, information extraction support method and computer program product
CN110427629A (zh) * 2019-08-13 2019-11-08 苏州思必驰信息科技有限公司 半监督文本简化模型训练方法和***
CN111737497A (zh) * 2020-06-30 2020-10-02 大连理工大学 基于多源语义表示融合的弱监督关系抽取方法
CN112906368A (zh) * 2021-02-19 2021-06-04 北京百度网讯科技有限公司 行业文本增量方法、相关装置及计算机程序产品
CN113627190A (zh) * 2021-08-27 2021-11-09 上海复深蓝软件股份有限公司 可视化数据转换方法、装置、计算机设备及存储介质
CN113936217A (zh) * 2021-10-25 2022-01-14 华中师范大学 先验语义知识引导的高分辨率遥感影像弱监督建筑物变化检测方法
CN114884894A (zh) * 2022-04-18 2022-08-09 南京邮电大学 一种基于迁移学习的半监督网络流量分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
QI YAO 等: "Saliency Guided Self-Attention Network for Weakly and Semi-Supervised Semantic Segmentation", 《IEEE ACCESS》, vol. 8, pages 14413 - 14423, XP011768413, DOI: 10.1109/ACCESS.2020.2966647 *
姚祺: "基于自注意力机制的弱监督和半监督语义分割", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2, pages 138 - 2804 *
彭博: "基于ALBERT的网络文物信息资源实体关系抽取方法研究", 《情报杂志》, vol. 41, no. 8, pages 156 - 162 *
罗耀东: "湿地实体识别与开放关系抽取的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 1, pages 138 - 2703 *

Also Published As

Publication number Publication date
CN115619192B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
CN110347839A (zh) 一种基于生成式多任务学习模型的文本分类方法
CN108717433A (zh) 一种面向程序设计领域问答***的知识库构建方法及装置
CN110175585B (zh) 一种简答题自动批改***及方法
CN110888989B (zh) 一种智能学习平台及其构建方法
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
Xu et al. CET-4 score analysis based on data mining technology
CN116645129A (zh) 一种基于知识图谱的制造资源推荐方法
CN117033603A (zh) 一种垂直领域大模型的构建方法、装置、设备及存储介质
CN116561264A (zh) 一种基于知识图谱的智能问答***的构建方法
Lou [Retracted] Evaluation of College English Teaching Quality Based on Improved BT‐SVM Algorithm
CN116342167B (zh) 基于序列标注命名实体识别的智能成本度量方法和装置
CN113988083B (zh) 一种用于航运新闻摘要生成的事实性信息编码与评估方法
CN115619192B (zh) 一种面向需求计划规则的混合式关系提取方法
CN113222471B (zh) 一种基于新媒体数据的资产风控方法及设备
CN114519092A (zh) 一种面向中文领域大规模复杂关系数据集构建框架
CN114281998A (zh) 基于众包技术的面向多层次标注者的事件标注***构建方法
CN114462387A (zh) 无标注语料下的句型自动判别方法
Yu et al. Data mining technology in the analysis of college students’ psychological problems
He et al. A credible predictive model for employment of college graduates based on LightGBM
CN114510649B (zh) 基于去重样本的社交网络和lstm模型准确率计算方法
CN117934209B (zh) 一种基于知识图谱的区域电力***碳排放大数据分析方法
CN117540727B (zh) 基于albert模型与rpa技术的主观题评分方法及***
Feifei et al. Intelligent question and answer analysis model of power ICT based on BI-LSTM-CRF
CN113158079B (zh) 基于差异性案件要素的案件舆情时间线生成方法
Arandi et al. Bidirectional recommendation in HR analytics through text summarization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant