CN110287334B - 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法 - Google Patents

一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法 Download PDF

Info

Publication number
CN110287334B
CN110287334B CN201910511427.0A CN201910511427A CN110287334B CN 110287334 B CN110287334 B CN 110287334B CN 201910511427 A CN201910511427 A CN 201910511427A CN 110287334 B CN110287334 B CN 110287334B
Authority
CN
China
Prior art keywords
data
model
training
defining
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910511427.0A
Other languages
English (en)
Other versions
CN110287334A (zh
Inventor
朱全银
王佳薇
周泓
冯万利
李翔
王文豪
丁瑾
金鹰
高尚兵
宗慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN201910511427.0A priority Critical patent/CN110287334B/zh
Publication of CN110287334A publication Critical patent/CN110287334A/zh
Application granted granted Critical
Publication of CN110287334B publication Critical patent/CN110287334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Educational Administration (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Educational Technology (AREA)
  • Human Computer Interaction (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法。首先对学校领域问答对数据集预处理得到实体识别模型标注数据集EntityData;利用数据集EntityData训练基于BERT‑BiLSTM‑CRF的实体识别模型,得到学校领域实体识别模型SchoolEntityModel;然后对学校领域问答对数据集预处理得到属性抽取模型标注数据集AttributeData;利用数据集AttributeData训练基于BERT的属性抽取模型,得到学校领域属性抽取模型SchoolAttributeModel;最后分别通过SchoolEntityModel和SchoolAttributeModel抽取出问句对数据集中的实体、属性和属性值,从而建立知识三元组,构建学校领域知识图谱。本发明方法可有效构建学校领域知识图谱。

Description

一种基于实体识别和属性抽取模型的学校领域知识图谱构建 方法
技术领域
本发明属于知识图谱构建技术领域,特别涉及一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法。
背景技术
实体识别也称为命名实体识别或实体抽取,是从原始数据语料中自动识别出命名实体。由于实体是知识图谱中最基本的元素,其抽取的完整性、准确率、召回率等将直接影响到知识图谱构建的质量。因此,实体识别是从半结构化数据或非结构化数据中获取知识的重要方法,是构建知识图谱的基础与关键的一步。
知识抽取是从自然语言文本或者多媒体内容文档等中通过自动化或者半自动化的技术抽取出可用的知识单元,知识单元主要包括实体、关系以及属性三个知识要素,并以此为基础,形成一系列高质量的事实表达,为知识图谱的构建奠定基础。
知识图谱源于语义网络,以语义网的资源描述框架规范形式表示实例和关系,对于特定领域而言,计算机更易于理解知识图谱中实体及其关系,更智能化处理信息。知识图谱是知识的一种表示形式,是由描述实体间关系的三元组构成的知识网络。把非结构化的文本知识结构化应用知识图谱的第一步是构建知识图谱,而构建知识图谱的重点在于三元组抽取。根据知识覆盖的范围,知识图谱可以分为开放域通用知识图谱和垂直领域知识图谱。目前大多数已发布的知识图谱是开放域通用知识图谱,但是相较于垂直领域知识图谱,其需要囊括人类的所有知识、知识***庞杂、涉及范围广,而垂直领域知识图谱只涉及小领域、知识体系更完善和更专业。
朱全银等人在知识图谱,学校领域数据挖掘、分类抽取方面已有的研究基础包括:Wanli Feng.Research of theme statement extraction for chinese literaturebased on lexical chain.International Journal of Multimedia and UbiquitousEngineering,Vol.11,No.6(2016),pp.379-388;刘金岭,冯万利.基于属性依赖关系的模式匹配方法[J].微电子学与计算机,2011,28(12):167-170;朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24;朱全银,冯万利等人申请、公开与授权的相关专利:李翔,朱全银,胡荣林,周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08;肖绍章,朱全银,李翔,钱凯,于柿民,潘舒新,瞿学新,唐海波,邵武杰,高阳,江丽萍.一种学生浏览网页分类方法.中国专利公开号:CN107506472A,2017.12.22;朱全银,潘舒新,冯万利,李翔,贾笑颖,胡荣林,周泓,于柿民,赵阳,瞿学新,杨茂灿,唐海波,邵武杰.一种多维度网页浏览行为评估方法.中国专利公开号:CN106886577A,2017.06.23;朱全银,严云洋,胡荣林,李翔,瞿学新,唐海波,赵阳,高阳,钱凯.一种基于互信息和关联规则的文本特征提取方法.中国专利公开号:CN107766323A,2018.03.06;朱全银,唐海波,严云洋,李翔,胡荣林,瞿学新,邵武杰,许康,赵阳,钱凯,高阳.一种基于深度学习的用户文献阅读兴趣分析方法.中国专利公开号:CN108280114A,2018.07.13;朱全银,于柿民,胡荣林,冯万利,周泓.一种基于知识图谱的专家组合推荐方法.中国专利公开号:CN109062961A,2018.12.21。
传统的知识图谱构建方法需要有专家的参与,针对上述问题:百华睿.知识图谱构建方法及***.中国专利公开号:CN108694177A,2018.10.23,属于专业数字出版领域,根据四个匹配单元模块,将文本中的关键词与领域主题进行匹配,得到知识元实例、属性和关系,进而构建知识图谱;范亮,崔小龙,朱毅,吴士民,石薇,秦东亮.基于知识点连接关系的知识图谱构建方法.中国专利公开号:CN107784088A,2018.03.09,属于教育学习领域,目的是增强知识点总结归纳的能力,构建方法是将教学知识点的元知识点和复合知识点组合;丁帅,李玲,杨善林,王浩.医疗知识图谱构建方法及装置.中国专利公开号:CN108492887A,2018.09.04,属于医疗技术领域,根据Aprior算法确定的实体的频繁项集并计算节点强度指标,从而构建知识图谱;贾维嘉,丁建辉,马世珩.动态知识图谱的构建方法.中国专利公开号:CN108509654A,2018.09.07,属于信息抽取技术领域,利用实体的联合向量构建动态知识图谱;曾伟雄.一种构建知识图谱的方法及装置.中国专利公开号:CN109145003A,2019.01.04,数据处理对象为结构化数据,采用确定基准实体的方法更新数据并构建知识图谱。但是目前还没有结合神经网络模型对学校领域的实体识别和属性抽取并构建学校领域知识图谱的方法。
发明内容
发明目的:针对上述问题,本发明提供一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法,结合神经网络模型对学校领域的实体识别和属性抽取,并且构建的学校领域知识图谱可以更好地应用于知识可视化、知识问答、个性化推荐。
技术方案:本发明提出一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法,包括如下步骤:
(1)对学校领域问答对数据集进行预处理,得到实体识别模型标注数据集EntityData;
(2)利用数据集EntityData训练基于BERT-BiLSTM-CRF的实体识别模型,得到学校领域实体识别模型SchoolEntityModel;
(3)对学校领域问答对数据集进行预处理,得到属性抽取模型标注数据集AttributeData;
(4)利用数据集AttributeData训练基于BERT的属性抽取模型,得到学校领域属性抽取模型SchoolAttributeModel;
(5)利用问句对数据集分别通过实体识别模型SchoolEntityModel和属性抽取模型SchoolAttributeModel抽取出实体、属性和属性值,通过实体、属性和属性值建立知识三元组,构建学校领域知识图谱。
进一步的,所述步骤(1)中得到实体识别模型标注数据集EntityData的具体步骤如下:
(1.1)定义预处理后的问答对集合QASet,定义question,answer,triple分别为单个问答对的问句、答案和三元组,并且满足关系QASet={[question1,answer1,triple1],[question2,answer2,triple2],…,[questionQASetNum,answerQAS etNum,tripleQASetNum]},其中,QASetNum为问答对集合中数据的个数,对问答对数据进行预处理,得到问答对集合QASet;
(1.2)定义Word、Label分别为问句和答案中每个字构成的数据集、每个字对应的标签构成的数据集,Word={word1,word2,…,wordQANum},Label={label1,label2,…,labelQANum},wordn为Word中第n个字,labeln为Label中第n个字对应的标签,其中,QANum为问句和答案的总个数,变量n∈[1,QANum],定义LabelTemp为单个问句和答案中每个字对应的标签构成的数据,其中,定义计数器count1,令count1=1,用于遍历QASet;
(1.3)若count1≤QASetNum,执行步骤(1.4),否则执行步骤(1.6);
(1.4)遍历步骤(1.1)中集合QASet的数据,将数据处理为单个字存入数据集Word中,并将数据集Label中的所有数据标注为非实体标签,若question或者answer存在于triple中,则将LabelTemp标注为实体标签,替换Label中对应位置的数据;
(1.5)令count1=count1+1,执行步骤(1.3);
(1.6)将Word和Label中的数据打包为一个个元组,得到实体识别模型标注数据集EntityData={[word1,label2],[word2,label2],…,[wordQANum,labelQANum]},wordn与labeln间用制表符分隔。
进一步的,所述步骤(2)中得到学校领域实体识别模型SchoolEntityModel的具体步骤如下:
(2.1)定义学校领域的已标注的训练数据集EntityTrain,验证数据集EntityValid,测试数据集EntityTest,计算已标注的数据集EntityData总数EntitySum。分别定义训练集比例TrainProp、验证集比例ValidProp和测试集比例TestProp;
(2.2)按照TrainProp、ValidProp和TestProp的比例划分数据集EntityData,设定TrainProp=6,ValidProp=2,TestProp=2。分别计算训练集总数TrainNum=EntitySum*TrainProp/(TrainProp+ValidProp+TestProp)、验证集总数ValidNum=EntitySum*ValidProp/(TrainProp+ValidProp+TestProp)以及测试集总数TestNum=EntitySum*TestProp/(TrainProp+ValidProp+TestProp),得到EntityTrain={R1,R2,…,RTrainNum}、EntityValid={R1,R2,…,RValidNum}和EntityTest={R1,R2,…,RTestNum};
(2.3)定义类InputEntityExample用来表示数据,初始化变量EId、EText和ELabel,分别表示训练id、字和字对应的标签;
(2.4)定义类DataProcessor用于数据处理,编写继承类SchoolNerProcessor,定义getEntityLabels函数用来返回实体标签集,定义createEntityExample函数用于调用类InputEntityExample给EId、EText和ELabel赋值,生成训练和验证样本;
(2.5)定义函数modelBuilder,构建模型SchoolEntityModel。实现以下内容:将EText与ELabel转换为ids表示,使用参数加载BERT模型,得到字embedding和最大序列长度maxseqlength。使用TensorFlow对输入数据的ids表示按行求和得到当前batch中的序列长度lengths。定义变量LabelsNum为步骤(1)中标签数据集Label的标签数量,利用BERT模型的参数作为SchoolEntityModel模型的参数初始值,加载BiLSTM-CRF模型,输入模型参数embedding、num_labels、maxseqlength、lengths、getEntityLabels函数返回的集合labels并设置模型参数lstm维度为128,droupout_rate为0.5。定义模型评测方法metric_eval,对模型的输出结果使用Viterbi解码;
(2.6)利用TensorFlow将标注训练数据集EntityTrain转化为数据文件EntityTrain.tf_record,读取该数据文件组成batch;
(2.7)训练BERT-BiLSTM-CRF模型,其中模型参数设置BERT中文模型路径、训练时批量处理数据集的大小32和学习率2e-5;
(2.8)得到基于BERT-BiLSTM-CRF的学校领域实体识别模型SchoolEntityModel。
进一步的,所述步骤(3)中得到属性抽取模型标注数据集AttributeData的具体步骤如下:
(3.1)定义属性集合AttrList、问句question、答案answer、三元组triple=(question,attr,answer)。遍历步骤(1)中的问答对集合QASet获取triple,从triple中解析出属性保存至AttrList,其中,AttrList={attr1,attr2,…,attrQASetNum},attrn为AttrList中第n个属性,变量n∈[1,QASetNum]。将得到的AttrList添加到集合QASet中;
(3.2)定义单个句子的正样本PositiveSample、负样本NegativeSample和总样本AllSample。遍历步骤(1)中的问答对集合QASet获取question和attr,得到PositiveSample={question,attr,'1'}。从属性集合AttrList中随机抽取出5个属性{attr1,attr2,…,attr5},得到NegativeSample={question,attrm,'0'},m={1,2,3,4,5}。从而得到AllSample={PositiveSample,NegativeSample1,NegativeSample2,…,NegativeSample5},其中,'1'表示该属性attr是问句question中的属性,'0'则表示该属性attr不是问句question中的属性;
(3.3)得到AttributeData={AllSample1,AllSample2,…,AllSampleQASetNum}。
进一步的,所述步骤(4)中得到学校领域属性抽取模型SchoolAttributeModel的具体步骤如下:
(4.1)将已标注的数据集AttributeData按照比例划分为训练集AttributeTrain、验证集AttributeValid和测试集AttributeTest,设定比例为6:2:2;
(4.2)定义类InputAttributeExample用来表示数据,初始化变量AId、AText1、ATex2和ALabel分别表示训练id、问句文本数据、问句属性文本数据和每个句子对应的属性标签;
(4.3)编写DataProcessor的继承类AttributeProcesor。定义createAttrExample函数用于调用类InputAttrExample给AId、AText1、ATex2和ALabel赋值,生成训练和验证样本;
(4.4)构建模型SchoolAttributeModel,加载预训练模型,读取数据。定义训练样本TrainExamples,从训练集AttributeTrain中读取数据并赋值给AId、AText1、ATex2和ALabel,得到训练样本TrainExamples={[AText11,AText21,ALabel1],[AText12,AText22,ALabel2],…,[AText1AttTrainNum,AText2AttTrainNum,ALabelAttTrainNum]},AttTrainNum为训练集AttributeTrain中数据的总数;
(4.5)判断是否训练,若训练则执行步骤(4.6),否则执行步骤(4.14);
(4.6)定义变量count2用于遍历训练样本TrainExamples,令count2=1,定义训练样本TrainExamples的总数Sum;
(4.7)若count2≤Sum,则执行步骤(4.8),否则执行步骤(4.10);
(4.8)遍历训练样本TrainExamples,将其进行特征转换,使用BERT模型的convert_single_example函数将每条数据由类InputAttrExample转换为该模型能够处理的类InputFeatures结构,保存至AttrTain.tf_record文件;
(4.9)令count2=count2+1,执行步骤(4.7);
(4.10)定义变量MaxScore用于保存模型参数的最高f1值,定义计数器flags,令flags初始值为1,其中flags∈[1,Sum]。根据AttrTain.tf_record文件生成tf.data.TFRecordDataset输入模型SchoolAttributeModel训练,模型参数设置BERT中文模型路径、训练时批量处理数据集的大小32和学习率5e-5,每经过一个epoch利用验证集AttributeValid进行调整参数,输出f1值;
(4.11)设定阈值为5,若flags≤阈值,则执行步骤(4.12),否则执行步骤(4.13);
(4.12)从步骤(4.8)得到f1值,若f1值>MaxScore,则更新MaxScore,否则flags=flags+1;
(4.13)选取在验证集上f1值最高的模型参数并保存模型SchoolAttributeModel,执行步骤(4.5);
(4.14)定义测试样本TestExamples,从测试集AttributeTest中读取数据赋值给AId、AText1、ATex2和ALabel,得到TestExamples,其中,TestExamples={[AText11,AText21,ALabel1],[AText12,AText22,ALabel2],…,[AText1AttTestNum,AText2AttTestNum,ALabelAttTestNum]},AttTestNum为测试集AttributeTest中数据的总数。加载BERT模型,读取测试样本TestExamples数据并按照步骤(4.8)对数据进行特征转换;
(4.15)将步骤(4.14)的特征输入模型SchoolAttributeModel,进行模型测试。
进一步的,所述步骤(5)中构建学校领域知识图谱的具体步骤如下:
(5.1)通过利用步骤(2)和步骤(4)得到的实体识别模型SchoolEntityModel和属性抽取模型SchoolAttributeModel,在学校领域问句对数据集中抽取出实体Item1、属性Relation和属性值Item2,定义三元组triple=(Item1,Relation,Item2);
(5.2)定义知识三元组数据集Triples,得到Triples={triple1,triple2,…,tripleK},K为数据集Triples总数;
(5.3)将Triples保存至csv文件,导入到图数据库Neo4j中,从而构建学校领域知识图谱。
本发明采用上述技术方案,具有以下有益效果:
本发明方法利用已有的学校领域问答对数据集预处理为标注数据集,有效地构建了学校领域的知识图谱,为特定领域特别是学校领域提供一种知识图谱的构建方法,具体描述如下:本发明利用实体识别模型,将学校领域的实体识别转换为了序列标注方法,该模型能够兼顾上下文语义信息,增强词向量模型泛化能力;利用属性抽取模型,学习句子关系表示,实现在句子级别上的二分类方法;在问答对数据集上通过实体识别模型和属性抽取模型抽取出实体和属性,从而构建三元组(实体,属性,属性值),存储到图数据库Neo4j中。基于已构建的学校领域知识图谱,可以应用于知识可视化、知识问答、个性化推荐。
附图说明
图1为本发明的总体流程图;
图2为图1中实体识别模型数据预处理方法的具体流程图;
图3为图1中训练基于BERT-BiLSTM-CRF的学校领域实体识别模型方法的具体流程图;
图4为图1中属性抽取模型数据预处理方法的具体流程图;
图5为图1中训练基于BERT的学校领域属性抽取模型方法的具体流程图;
图6为图1中构建学校领域知识图谱方法的流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1-图6所示,本发明所述的一种实体识别和属性抽取模型的学校领域知识图谱构建方法,包括如下步骤:(涉及的全局变量如表1)
表1全局变量表
变量定义 变量名称
EntityData 实体识别模型的标注数据集
AttributeData 属性抽取模型标注数据集
SchoolEntityModel 学校领域实体识别模型
SchoolAttributeModel 学校领域属性抽取模型
DataProcessor 数据处理类
QANum 问句和答案的总个数
QASet 预处理后的问答对集合
QASetNum 问答对集合中数据的个数
步骤1:对学校领域问答对数据集进行预处理,得到实体识别模型标注数据集EntityData;(步骤1的变量说明如表2)
表2步骤1变量表
步骤1.1:定义预处理后的问答对集合QASet,定义question,answer,triple分别为单个问答对的问句、答案和三元组,并且满足关系QASet={[question1,answer1,triple1],[question2,answer2,triple2],…,[questionQASetNum,answerQAS etNum,tripleQASetNum]},其中,QASetNum为问答对集合中数据的个数,对问答对数据进行预处理,得到问答对集合QASet;
步骤1.2:定义Word、Label分别为问句和答案中每个字构成的数据集、每个字对应的标签构成的数据集,Word={word1,word2,…,wordQANum},Label={label1,label2,…,labelQANum},wordn为Word中第n个字,labeln为Label中第n个字对应的标签,其中,QANum为问句和答案的总个数,变量n∈[1,QANum],定义LabelTemp为单个问句和答案中每个字对应的标签构成的数据,其中,定义计数器count1,令count1=1,用于遍历QASet;
步骤1.3:若count1≤QASetNum,执行步骤1.4,否则执行步骤1.6;
步骤1.4:遍历步骤1.1中集合QASet的数据,将数据处理为单个字存入数据集Word中,并将数据集Label中的所有数据标注为非实体标签,若question或者answer存在于triple中,则将LabelTemp标注为实体标签,替换Label中对应位置的数据;
步骤1.5:令count1=count1+1,执行步骤1.3;
步骤1.6:将Word和Label中的数据打包为一个个元组,得到实体识别模型标注数据集EntityData={[word1,label2],[word2,label2],…,[wordQANum,labelQANum]},wordn与labeln间用制表符分隔。
步骤2:利用数据集EntityData训练基于BERT-BiLSTM-CRF的实体识别模型,得到学校领域实体识别模型SchoolEntityModel;(步骤2的变量说明如表3)
表3步骤2变量表
步骤2.1:定义学校领域的已标注的训练数据集EntityTrain,验证数据集EntityValid,测试数据集EntityTest,计算已标注的数据集EntityData总数EntitySum。分别定义训练集比例TrainProp、验证集比例ValidProp和测试集比例TestProp;
步骤2.2:按照TrainProp、ValidProp和TestProp的比例划分数据集EntityData,设定TrainProp=6,ValidProp=2,TestProp=2。分别计算训练集总数TrainNum=EntitySum*TrainProp/(TrainProp+ValidProp+TestProp)、验证集总数ValidNum=EntitySum*ValidProp/(TrainProp+ValidProp+TestProp)以及测试集总数TestNum=EntitySum*TestProp/(TrainProp+ValidProp+TestProp),得到EntityTrain={R1,R2,…,RTrainNum}、EntityValid={R1,R2,…,RValidNum}和EntityTest={R1,R2,…,RTestNum};
步骤2.3:定义类InputEntityExample用来表示数据,初始化变量EId、EText和ELabel,分别表示训练id、字和字对应的标签;
步骤2.4:定义类DataProcessor用于数据处理,编写继承类SchoolNerProcessor,定义getEntityLabels函数用来返回实体标签集,定义createEntityExample函数用于调用类InputEntityExample给EId、EText和ELabel赋值,生成训练和验证样本;
步骤2.5:定义函数modelBuilder,构建模型SchoolEntityModel。实现以下内容:将EText与ELabel转换为ids表示,使用参数加载BERT模型,得到字embedding和最大序列长度maxseqlength。使用TensorFlow对输入数据的ids表示按行求和得到当前batch中的序列长度lengths。定义变量LabelsNum为步骤1中标签数据集Label的标签数量,利用BERT模型的参数作为SchoolEntityModel模型的参数初始值,加载BiLSTM-CRF模型,输入模型参数embedding、num_labels、maxseqlength、lengths、getEntityLabels函数返回的集合labels并设置模型参数lstm维度为128,droupout_rate为0.5。定义模型评测方法metric_eval,对模型的输出结果使用Viterbi解码;
步骤2.6:利用TensorFlow将标注训练数据集EntityTrain转化为数据文件EntityTrain.tf_record,读取该数据文件组成batch;
步骤2.7:训练BERT-BiLSTM-CRF模型,其中模型参数设置BERT中文模型路径、训练时批量处理数据集的大小32和学习率2e-5;
步骤2.8:得到基于BERT-BiLSTM-CRF的学校领域实体识别模型SchoolEntityModel。
步骤3:对学校领域问答对数据集进行预处理,得到属性抽取模型标注数据集AttributeData;(步骤3的变量说明如表4)
表4步骤3变量表
变量定义 变量名称
AttrList 属性集合
question 单个问答对的问句
answer 单个问答对的答案
triple 单个问答对的三元组
attrn AttrList中第n个属性
PositiveSample 单个句子的正样本
NegativeSample 单个句子的负样本
AllSample 单个句子的总样本
步骤3.1:定义属性集合AttrList、问句question、答案answer、三元组triple=(question,attr,answer)。遍历步骤1中的问答对集合QASet获取triple,从triple中解析出属性保存至AttrList,其中,AttrList={attr1,attr2,…,attrQASetNum},attrn为AttrList中第n个属性,变量n∈[1,QASetNum]。将得到的AttrList添加到集合QASet中;
步骤3.2:定义单个句子的正样本PositiveSample、负样本NegativeSample和总样本AllSample。遍历步骤1中的问答对集合QASet获取question和attr,得到PositiveSample={question,attr,'1'}。从属性集合AttrList中随机抽取出5个属性{attr1,attr2,…,attr5},得到NegativeSample={question,attrm,'0'},m={1,2,3,4,5}。从而得到AllSample={PositiveSample,NegativeSample1,NegativeSample2,…,NegativeSample5},其中,'1'表示该属性attr是问句question中的属性,'0'则表示该属性attr不是问句question中的属性;
步骤3.3:得到AttributeData={AllSample1,AllSample2,…,AllSampleQASetNum}。
步骤4:利用数据集A训练基于BERT的属性抽取模型,得到学校领域属性抽取模型SchoolAttributeModel;(步骤4的变量说明如表5)
表5步骤4变量表
步骤4.1:将已标注的数据集AttributeData按照比例划分为训练集AttributeTrain、验证集AttributeValid和测试集AttributeTest,设定比例为6:2:2;
步骤4.2:定义类InputAttributeExample用来表示数据,初始化变量AId、AText1、ATex2和ALabel分别表示训练id、问句文本数据、问句属性文本数据和每个句子对应的属性标签;
步骤4.3:编写DataProcessor的继承类AttributeProcesor。定义createAttrExample函数用于调用类InputAttrExample给AId、AText1、ATex2和ALabel赋值,生成训练和验证样本;
步骤4.4:构建模型SchoolAttributeModel,加载预训练模型,读取数据。定义训练样本TrainExamples,从训练集AttributeTrain中读取数据并赋值给AId、AText1、ATex2和ALabel,得到训练样本TrainExamples={[AText11,AText21,ALabel1],[AText12,AText22,ALabel2],…,[AText1AttTrainNum,AText2AttTrainNum,ALabelAttTrainNum]},AttTrainNum为训练集AttributeTrain中数据的总数;
步骤4.5:判断是否训练,若训练则执行步骤4.6,否则执行步骤4.14;
步骤4.6:定义变量count2用于遍历训练样本TrainExamples,令count2=1,定义训练样本TrainExamples的总数Sum;
步骤4.7:若count2≤Sum,则执行步骤4.8,否则执行步骤4.10;
步骤4.8:遍历训练样本TrainExamples,将其进行特征转换,使用BERT模型的convert_single_example函数将每条数据由类InputAttrExample转换为该模型能够处理的类InputFeatures结构,保存至AttrTain.tf_record文件;
步骤4.9:令count2=count2+1,执行步骤4.7;
步骤4.10:定义变量MaxScore用于保存模型参数的最高f1值,定义计数器flags,令flags初始值为1,其中flags∈[1,Sum]。根据AttrTain.tf_record文件生成tf.data.TFRecordDataset输入模型SchoolAttributeModel训练,模型参数设置BERT中文模型路径、训练时批量处理数据集的大小32和学习率5e-5,每经过一个epoch利用验证集AttributeValid进行调整参数,输出f1值;
步骤4.11:设定阈值为5,若flags≤阈值,则执行步骤4.12,否则执行步骤4.13;
步骤4.12:从步骤4.8得到f1值,若f1值>MaxScore,则更新MaxScore,否则flags=flags+1;
步骤4.13:选取在验证集上f1值最高的模型参数并保存模型SchoolAttributeModel,执行步骤4.5;
步骤4.14:定义测试样本TestExamples,从测试集AttributeTest中读取数据赋值给AId、AText1、ATex2和ALabel,得到TestExamples,其中,TestExamples={[AText11,AText21,ALabel1],[AText12,AText22,ALabel2],…,[AText1AttTestNum,AText2AttTestNum,ALabelAttTestNum]},AttTestNum为测试集AttributeTest中数据的总数。加载BERT模型,读取测试样本TestExamples数据并按照步骤4.8对数据进行特征转换;
步骤4.15:将步骤4.14的特征输入模型SchoolAttributeModel,进行模型测试。
步骤5:在问句对文本数据上抽取出实体、属性和属性值,建立知识三元组,构建学校领域知识图谱;(步骤5的变量说明如表6)
表6步骤5变量表
变量定义 变量名称
Item1 实体
Relation 属性
Item2 属性值
triple 三元组
Triples 知识三元组数据集
步骤5.1:通过利用步骤2和步骤4得到的实体识别模型SchoolEntityModel和属性抽取模型SchoolAttributeModel,在学校领域问句对数据集中抽取出实体Item1、属性Relation和属性值Item2,定义三元组triple=(Item1,Relation,Item2);
步骤5.2:定义知识三元组数据集Triples,得到Triples={triple1,triple2,…,tripleK},K为数据集Triples总数;
步骤5.3:将Triples保存至csv文件,导入到图数据库Neo4j中,从而构建学校领域知识图谱。
通过对46559条学校领域问答对数据进行处理,首先将数据分别处理为用于训练实体识别模型和属性抽取模型的标注数据,然后训练基于BERT-BiLSTM-CRF的实体识别模型和基于BERT的属性抽取模型。在测试集上,模型的识别准确率为95%。根据模型实现在非结构化文本数据中抽取出实体和属性,从而有效建立三元组,构建知识图谱。本发明提出的知识图谱构建方法普遍适用于学校领域问句对数据。

Claims (1)

1.一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法,其特征在于,包括如下步骤:
(1)对学校领域问答对数据集进行预处理,得到实体识别模型标注数据集EntityData,具体步骤如下:
(1.1) 定义预处理后的问答对集合QASet,定义question, answer, triple分别为单个问答对的问句、答案和三元组,并且满足关系QASet= {[question1,answer1,triple1],[question2,answer2,triple2],…,[questionQASetNum,answerQASetNum,tripleQASetNum]},其中,QASetNum为问答对集合中数据的个数;对问答对数据进行预处理,得到问答对集合QASet;
(1.2) 定义Word、Label分别为问句和答案中每个字构成的数据集、每个字对应的标签构成的数据集,Word={word1,word2,wordn,…,wordQANum},Label={label1,label2,labeln…,labelQANum},wordn为Word中第n个字,labeln为Label中第n个字对应的标签,其中,QANum为问句和答案的总个数,变量n∈[1, QANum];定义LabelTemp为单个问句和答案中每个字对应的标签构成的数据,其中,LabelTempLabel;定义计数器count1,令count1=1,用于遍历QASet;
(1.3) 若count1≤QASetNum,执行步骤(1.4),否则执行步骤(1.6);
(1.3) 若count1≤QASetNum,执行步骤(1.4),否则执行步骤(1.6);
(1.4) 遍历步骤(1.1)中集合QASet的数据,将数据处理为单个字存入数据集Word中,并将数据集Label中的所有数据标注为非实体标签,若question或者answer存在于triple中,则将LabelTemp标注为实体标签,替换Label中对应位置的数据;
(1.5) 令count1=count1+1,执行步骤(1.3);
(1.6) 将Word和Label中的数据打包为一个个元组,得到实体识别模型标注数据集EntityData={[word1,label2], [word2,label2],…,[wordQANum,labelQANum]},wordn与labeln间用制表符分隔;
(2)利用数据集EntityData训练基于BERT-BiLSTM-CRF的实体识别模型,得到学校领域实体识别模型SchoolEntityModel,具体步骤如下:
(2.1) 定义学校领域的已标注的训练数据集EntityTrain,验证数据集EntityValid,测试数据集EntityTest,计算已标注的数据集EntityData总数EntitySum;分别定义训练集比例TrainProp、验证集比例ValidProp和测试集比例TestProp;
(2.2) 按照TrainProp、ValidProp和TestProp的比例划分数据集EntityData,设定TrainProp=6, ValidProp=2, TestProp=2;分别计算训练集总数、验证集总数以及测试集总数,得到EntityTrain={ETrR1,ETrR2,…, ETrRTrainNum}、EntityValid={EVR1,EVR2,…,EVRValidNum}和EntityTest={ETeR1,ETeR2,…,ETeRTestNum};
(2.3) 定义类InputEntityExample用来表示数据,初始化变量EId、EText和ELabel,分别表示训练id、字和字对应的标签;
(2.4) 定义类DataProcessor用于数据处理,编写继承类SchoolNerProcessor,定义getEntityLabels函数用来返回实体标签集,定义createEntityExample函数用于调用类InputEntityExample给EId、EText和ELabel赋值,生成训练和验证样本;
(2.5) 定义函数modelBuilder,构建模型SchoolEntityModel;实现以下内容:将EText与ELabel转换为ids表示,使用参数加载BERT模型,得到字embedding和最大序列长度maxseqlength;使用TensorFlow对输入数据的ids表示按行求和得到当前batch中的序列长度lengths;定义变量LabelsNum为步骤(1)中标签数据集Label的标签数量,利用BERT模型的参数作为SchoolEntityModel模型的参数初始值,加载BiLSTM-CRF模型,输入模型参数embedding、LabelsNum、maxseqlength、lengths、getEntityLabels函数返回的集合labels并设置模型参数lstm维度为128,droupout_rate为0.5;定义模型评测方法metric_eval,对模型的输出结果使用Viterbi解码;
(2.6) 利用TensorFlow将标注训练数据集EntityTrain转化为数据文件EntityTrain.tf_record,读取该数据文件组成batch;
(2.7) 训练BERT-BiLSTM-CRF模型,其中模型参数设置BERT中文模型路径、训练时批量处理数据集的大小32和学习率2e-5
(2.8) 得到基于BERT-BiLSTM-CRF的学校领域实体识别模型SchoolEntityModel;
(3)对学校领域问答对数据集进行预处理,得到属性抽取模型标注数据集AttributeData,具体步骤如下:
(3.1) 定义属性集合AttrList、问句question、答案answer、三元组triple=(question,attr,answer);遍历步骤(1)中的问答对集合QASet获取triple,从triple中解析出属性保存至AttrList,其中,AttrList={attr1,attr2, attrk,…,attrQASetNum},attrk为AttrList中第k个属性,变量k∈[1,QASetNum];将得到的AttrList添加到集合QASet中;
(3.2) 定义单个句子的正样本PositiveSample、负样本NegativeSample和总样本AllSample;遍历步骤(1)中的问答对集合QASet获取question和attr,得到PositiveSample={question,attr,'1'};从属性集合AttrList中随机抽取出5个属性{attr1,attr2,…,attr5},得到NegativeSample={question,attrm,'0'},m={1,2,3,4,5};从而得到AllSample={PositiveSample,NegativeSample1,NegativeSample2,…, NegativeSample5},其中,'1'表示该属性attr是问句question中的属性,'0'则表示该属性attr不是问句question中的属性;
(3.3) 得到AttributeData={AllSample1,AllSample2,…,AllSampleQASetNum};
(4)利用数据集AttributeData训练基于BERT的属性抽取模型,得到学校领域属性抽取模型SchoolAttributeModel,具体步骤如下:
(4.1) 将已标注的数据集AttributeData按照比例划分为训练集AttributeTrain、验证集AttributeValid和测试集AttributeTest,设定比例为6:2:2;
(4.2) 定义类InputAttributeExample用来表示数据,初始化变量AId、AText1、ATex2和ALabel分别表示训练id、问句文本数据、问句属性文本数据和每个句子对应的属性标签;
(4.3) 编写DataProcessor的继承类AttributeProcesor;定义createAttrExample函数用于调用类InputAttrExample给AId、AText1、ATex2和ALabel赋值,生成训练和验证样本;
(4.4) 构建模型SchoolAttributeModel,加载预训练模型,读取数据;定义训练样本TrainExamples,从训练集AttributeTrain中读取数据并赋值给AId、AText1、ATex2和ALabel,得到训练样本TrainExamples={[AText11,AText21,ALabel1],[AText12,AText22,ALabel2],…,[AText1AttTrainNum,AText2AttTrainNum,ALabelAttTrainNum]},AttTrainNum为训练集AttributeTrain中数据的总数;
(4.5) 判断是否训练,若训练则执行步骤(4.6),否则执行步骤(4.14);
(4.6) 定义变量count2用于遍历训练样本TrainExamples,令count2=1,定义训练样本TrainExamples的总数Sum;
(4.7) 若count2≤Sum,则执行步骤(4.8),否则执行步骤(4.10);
(4.8) 遍历训练样本TrainExamples,将其进行特征转换,使用BERT模型的convert_single_example函数将每条数据由类InputAttrExample转换为该模型能够处理的类InputFeatures结构,保存至AttrTain.tf_record文件;
(4.9) 令count2=count2+1,执行步骤(4.7);
(4.10) 定义变量MaxScore用于保存模型参数的最高f1值,定义计数器flags,令flags初始值为1,其中flags∈[1,Sum];根据AttrTain.tf_record文件生成tf.data.TFRecordDataset输入模型SchoolAttributeModel训练,模型参数设置BERT中文模型路径、训练时批量处理数据集的大小32和学习率5e-5,每经过一个epoch利用验证集AttributeValid进行调整参数,输出f1值;
(4.11) 设定阈值为5,若flags≤阈值,则执行步骤(4.12),否则执行步骤(4.13);
(4.12) 从步骤(4.8)得到f1值,若f1值>MaxScore,则更新MaxScore,否则flags=flags+1;
(4.13) 选取在验证集上f1值最高的模型参数并保存模型SchoolAttributeModel,执行步骤(4.5);
(4.14) 定义测试样本TestExamples,从测试集AttributeTest中读取数据赋值给AId、AText1、ATex2和ALabel,得到TestExamples,其中,TestExamples= {[AText11,AText21,ALabel1],[AText12,AText22,ALabel2],…,[AText1AttTestNum,AText2AttTestNum,ALabelAttTestNum]},AttTestNum为测试集AttributeTest中数据的总数;加载BERT模型,读取测试样本TestExamples数据并按照步骤(4.8)对数据进行特征转换;
(4.15) 将步骤(4.14)的特征输入模型SchoolAttributeModel,进行模型测试;
(5)在问句对文本数据上抽取出实体、属性和属性值,建立知识三元组,构建学校领域知识图谱,具体步骤如下:
(5.1) 通过利用步骤(2)和步骤(4)得到的实体识别模型SchoolEntityModel和属性抽取模型SchoolAttributeModel,在学校领域问句对数据集中抽取出实体Item1、属性Relation和属性值Item2,定义三元组triple=(Item1,Relation,Item2);
(5.2) 定义知识三元组数据集Triples,得到Triples={triple1,triple2,…,tripleK},K为数据集Triples总数;
(5.3) 将Triples保存至csv文件,导入到图数据库Neo4j中,从而构建学校领域知识图谱。
CN201910511427.0A 2019-06-13 2019-06-13 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法 Active CN110287334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910511427.0A CN110287334B (zh) 2019-06-13 2019-06-13 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910511427.0A CN110287334B (zh) 2019-06-13 2019-06-13 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN110287334A CN110287334A (zh) 2019-09-27
CN110287334B true CN110287334B (zh) 2023-12-01

Family

ID=68004042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910511427.0A Active CN110287334B (zh) 2019-06-13 2019-06-13 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN110287334B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825721B (zh) * 2019-11-06 2023-05-02 武汉大学 大数据环境下高血压知识库构建与***集成方法
CN110837558B (zh) * 2019-11-07 2022-04-15 成都星云律例科技有限责任公司 一种裁判文书实体关系抽取方法及***
CN110866125A (zh) * 2019-11-14 2020-03-06 北京京航计算通讯研究所 基于bert算法模型的知识图谱构建***
CN111221976A (zh) * 2019-11-14 2020-06-02 北京京航计算通讯研究所 基于bert算法模型的知识图谱构建方法
CN111078875B (zh) * 2019-12-03 2022-12-13 哈尔滨工程大学 一种基于机器学习的从半结构化文档中提取问答对的方法
CN112988988A (zh) * 2019-12-18 2021-06-18 华为技术有限公司 问答方法、装置及设备
CN111125438B (zh) * 2019-12-25 2023-06-27 北京百度网讯科技有限公司 实体信息提取方法、装置、电子设备及存储介质
CN110781254A (zh) * 2020-01-02 2020-02-11 四川大学 一种案情知识图谱自动构建方法及***及设备及介质
CN113488034A (zh) * 2020-04-27 2021-10-08 海信集团有限公司 一种语音信息的处理方法、装置、设备及介质
CN111813950B (zh) * 2020-05-20 2024-02-27 淮阴工学院 一种基于神经网络自适应寻优调参的建筑领域知识图谱构建方法
CN111627564B (zh) * 2020-05-25 2024-02-27 日立楼宇技术(广州)有限公司 用户检测模型的训练及检测方法、装置、设备和存储介质
CN112115271B (zh) * 2020-06-01 2024-05-03 泰康保险集团股份有限公司 知识图谱构建方法及装置
CN111694967B (zh) * 2020-06-11 2023-10-20 腾讯科技(深圳)有限公司 属性抽取方法、装置、电子设备及介质
CN111666414B (zh) * 2020-06-12 2023-10-17 上海观安信息技术股份有限公司 一种敏感数据检测云服务的方法和云服务平台
CN111797624A (zh) * 2020-06-30 2020-10-20 厦门大学附属第一医院 一种基于npl的药品名片自动提取方法
CN111798987A (zh) * 2020-07-07 2020-10-20 云知声智能科技股份有限公司 一种实体关系抽取方法和设备
CN112100394B (zh) * 2020-08-10 2023-07-21 淮阴工学院 一种用于推荐医疗专家的知识图谱构建方法
CN112131393B (zh) * 2020-08-11 2023-09-22 淮阴工学院 一种基于bert和相似度算法的医疗知识图谱问答***构建方法
CN112100395B (zh) * 2020-08-11 2024-03-29 淮阴工学院 一种专家合作可行性分析方法
CN112069046B (zh) * 2020-08-28 2022-03-29 平安科技(深圳)有限公司 数据泄露提醒方法、装置、设备及计算机可读存储介质
CN112101009B (zh) * 2020-09-23 2024-03-26 中国农业大学 一种基于知识图谱的红楼梦人物关系框架相似度评判方法
CN112184178A (zh) * 2020-10-14 2021-01-05 深圳壹账通智能科技有限公司 邮件内容提取方法、装置、电子设备及存储介质
CN112231460B (zh) * 2020-10-27 2022-07-12 中国科学院合肥物质科学研究院 一种基于农业百科知识图谱的问答***的构建方法
CN112199519A (zh) * 2020-11-18 2021-01-08 北京观微科技有限公司 一种基于Bert的实体关系流水线抽取方法和***
CN112613314A (zh) * 2020-12-29 2021-04-06 国网江苏省电力有限公司信息通信分公司 基于bert模型的电力通信网络知识图谱构建方法
CN112328812B (zh) * 2021-01-05 2021-03-26 成都数联铭品科技有限公司 基于自调参数的领域知识抽取方法与***、电子设备
CN113076718B (zh) * 2021-04-09 2022-03-11 苏州爱语认知智能科技有限公司 一种商品属性抽取方法及其***
CN113486666A (zh) * 2021-07-07 2021-10-08 济南超级计算技术研究院 一种医学命名实体识别方法及***
CN113849597B (zh) * 2021-08-31 2024-04-30 艾迪恩(山东)科技有限公司 基于命名实体识别的违法广告词检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Enriching Pre-trained Language Model with Entity Information for Relation Classification;Shanchan Wu;《https://arxiv.org/pdf/1905.08284.pdf》;20190520;第1-4页 *
基于知识图谱的医疗专家***;杨笑然;《中国优秀硕士学位论文全文数据库信息科技辑》;20190115(第1期);正文第35-49、78页 *

Also Published As

Publication number Publication date
CN110287334A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110287334B (zh) 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法
CN109543183B (zh) 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
JP7468929B2 (ja) 地理知識取得方法
CN108959270B (zh) 一种基于深度学习的实体链接方法
CN110598000A (zh) 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN111813950B (zh) 一种基于神经网络自适应寻优调参的建筑领域知识图谱构建方法
CN106055675B (zh) 一种基于卷积神经网络和距离监督的关系抽取方法
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN112100394B (zh) 一种用于推荐医疗专家的知识图谱构建方法
CN111143672B (zh) 基于知识图谱的专业特长学者推荐方法
CN112100401B (zh) 面向科技服务的知识图谱构建方法、装置、设备及存储介质
CN112487202A (zh) 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN114548321B (zh) 基于对比学习的自监督舆情评论观点对象分类方法
CN103440315B (zh) 一种基于主题的Web页面清洗方法
CN110413768A (zh) 一种文章题目自动生成方法
CN110175334A (zh) 基于自定义的知识槽结构的文本知识抽取***和方法
CN112101029B (zh) 一种基于bert模型的高校导师推荐管理方法
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN112071429A (zh) 一种基于知识图谱的医疗自动问答***构建方法
CN114942991B (zh) 一种基于隐喻识别的情感分类模型构建方法
CN113535897A (zh) 一种基于句法关系和意见词分布的细粒度情感分析方法
CN111368093A (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN117216221A (zh) 一种基于知识图谱的智能问答***及构建方法
CN115964468A (zh) 一种基于多层次模板匹配的乡村信息智能问答方法及装置
CN116244497A (zh) 一种基于异质数据嵌入的跨域论文推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190927

Assignee: Fanyun software (Nanjing) Co.,Ltd.

Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY

Contract record no.: X2023980052895

Denomination of invention: A method for constructing a school domain knowledge graph based on entity recognition and attribute extraction models

Granted publication date: 20231201

License type: Common License

Record date: 20231219