CN110287334B

CN110287334B - 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法

Info

Publication number: CN110287334B
Application number: CN201910511427.0A
Authority: CN
Inventors: 朱全银; 王佳薇; 周泓; 冯万利; 李翔; 王文豪; 丁瑾; 金鹰; 高尚兵; 宗慧
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2023-12-01
Anticipated expiration: 2039-06-13
Also published as: CN110287334A

Abstract

本发明公开了一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法。首先对学校领域问答对数据集预处理得到实体识别模型标注数据集EntityData；利用数据集EntityData训练基于BERT‑BiLSTM‑CRF的实体识别模型，得到学校领域实体识别模型SchoolEntityModel；然后对学校领域问答对数据集预处理得到属性抽取模型标注数据集AttributeData；利用数据集AttributeData训练基于BERT的属性抽取模型，得到学校领域属性抽取模型SchoolAttributeModel；最后分别通过SchoolEntityModel和SchoolAttributeModel抽取出问句对数据集中的实体、属性和属性值，从而建立知识三元组，构建学校领域知识图谱。本发明方法可有效构建学校领域知识图谱。

Description

一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法

技术领域

本发明属于知识图谱构建技术领域，特别涉及一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法。

背景技术

实体识别也称为命名实体识别或实体抽取，是从原始数据语料中自动识别出命名实体。由于实体是知识图谱中最基本的元素，其抽取的完整性、准确率、召回率等将直接影响到知识图谱构建的质量。因此，实体识别是从半结构化数据或非结构化数据中获取知识的重要方法，是构建知识图谱的基础与关键的一步。

知识抽取是从自然语言文本或者多媒体内容文档等中通过自动化或者半自动化的技术抽取出可用的知识单元，知识单元主要包括实体、关系以及属性三个知识要素，并以此为基础，形成一系列高质量的事实表达，为知识图谱的构建奠定基础。

知识图谱源于语义网络，以语义网的资源描述框架规范形式表示实例和关系，对于特定领域而言，计算机更易于理解知识图谱中实体及其关系，更智能化处理信息。知识图谱是知识的一种表示形式，是由描述实体间关系的三元组构成的知识网络。把非结构化的文本知识结构化应用知识图谱的第一步是构建知识图谱，而构建知识图谱的重点在于三元组抽取。根据知识覆盖的范围，知识图谱可以分为开放域通用知识图谱和垂直领域知识图谱。目前大多数已发布的知识图谱是开放域通用知识图谱，但是相较于垂直领域知识图谱，其需要囊括人类的所有知识、知识***庞杂、涉及范围广，而垂直领域知识图谱只涉及小领域、知识体系更完善和更专业。

朱全银等人在知识图谱，学校领域数据挖掘、分类抽取方面已有的研究基础包括：Wanli Feng.Research of theme statement extraction for chinese literaturebased on lexical chain.International Journal of Multimedia and UbiquitousEngineering,Vol.11,No.6(2016),pp.379-388；刘金岭,冯万利.基于属性依赖关系的模式匹配方法[J].微电子学与计算机,2011,28(12):167-170；朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24；朱全银，冯万利等人申请、公开与授权的相关专利：李翔，朱全银，胡荣林，周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08；肖绍章，朱全银，李翔，钱凯，于柿民，潘舒新，瞿学新，唐海波，邵武杰，高阳，江丽萍.一种学生浏览网页分类方法.中国专利公开号:CN107506472A,2017.12.22；朱全银，潘舒新，冯万利，李翔，贾笑颖，胡荣林，周泓，于柿民，赵阳，瞿学新，杨茂灿，唐海波，邵武杰.一种多维度网页浏览行为评估方法.中国专利公开号:CN106886577A,2017.06.23；朱全银，严云洋，胡荣林，李翔，瞿学新，唐海波，赵阳，高阳，钱凯.一种基于互信息和关联规则的文本特征提取方法.中国专利公开号:CN107766323A,2018.03.06；朱全银，唐海波，严云洋，李翔，胡荣林，瞿学新，邵武杰，许康，赵阳，钱凯，高阳.一种基于深度学习的用户文献阅读兴趣分析方法.中国专利公开号:CN108280114A,2018.07.13；朱全银，于柿民，胡荣林，冯万利，周泓.一种基于知识图谱的专家组合推荐方法.中国专利公开号:CN109062961A,2018.12.21。

传统的知识图谱构建方法需要有专家的参与，针对上述问题：百华睿.知识图谱构建方法及***.中国专利公开号:CN108694177A,2018.10.23，属于专业数字出版领域，根据四个匹配单元模块，将文本中的关键词与领域主题进行匹配，得到知识元实例、属性和关系，进而构建知识图谱；范亮，崔小龙，朱毅，吴士民，石薇，秦东亮.基于知识点连接关系的知识图谱构建方法.中国专利公开号:CN107784088A,2018.03.09，属于教育学习领域，目的是增强知识点总结归纳的能力，构建方法是将教学知识点的元知识点和复合知识点组合；丁帅，李玲，杨善林，王浩.医疗知识图谱构建方法及装置.中国专利公开号:CN108492887A,2018.09.04，属于医疗技术领域，根据Aprior算法确定的实体的频繁项集并计算节点强度指标，从而构建知识图谱；贾维嘉，丁建辉，马世珩.动态知识图谱的构建方法.中国专利公开号:CN108509654A,2018.09.07，属于信息抽取技术领域，利用实体的联合向量构建动态知识图谱；曾伟雄.一种构建知识图谱的方法及装置.中国专利公开号:CN109145003A,2019.01.04，数据处理对象为结构化数据，采用确定基准实体的方法更新数据并构建知识图谱。但是目前还没有结合神经网络模型对学校领域的实体识别和属性抽取并构建学校领域知识图谱的方法。

发明内容

发明目的：针对上述问题，本发明提供一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法，结合神经网络模型对学校领域的实体识别和属性抽取，并且构建的学校领域知识图谱可以更好地应用于知识可视化、知识问答、个性化推荐。

技术方案：本发明提出一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法，包括如下步骤：

(1)对学校领域问答对数据集进行预处理，得到实体识别模型标注数据集EntityData；

(2)利用数据集EntityData训练基于BERT-BiLSTM-CRF的实体识别模型，得到学校领域实体识别模型SchoolEntityModel；

(3)对学校领域问答对数据集进行预处理，得到属性抽取模型标注数据集AttributeData；

(4)利用数据集AttributeData训练基于BERT的属性抽取模型，得到学校领域属性抽取模型SchoolAttributeModel；

(5)利用问句对数据集分别通过实体识别模型SchoolEntityModel和属性抽取模型SchoolAttributeModel抽取出实体、属性和属性值，通过实体、属性和属性值建立知识三元组，构建学校领域知识图谱。

进一步的，所述步骤(1)中得到实体识别模型标注数据集EntityData的具体步骤如下：

(1.1)定义预处理后的问答对集合QASet，定义question,answer,triple分别为单个问答对的问句、答案和三元组，并且满足关系QASet＝{[question₁,answer₁,triple₁],[question₂,answer₂,triple₂],…,[question_QASetNum,answer_QAS _etNum,triple_QASetNum]}，其中，QASetNum为问答对集合中数据的个数，对问答对数据进行预处理，得到问答对集合QASet；

(1.2)定义Word、Label分别为问句和答案中每个字构成的数据集、每个字对应的标签构成的数据集，Word＝{word₁,word₂,…,word_QANum}，Label＝{label₁,label₂,…,label_QANum}，word_n为Word中第n个字，label_n为Label中第n个字对应的标签，其中，QANum为问句和答案的总个数，变量n∈[1,QANum]，定义LabelTemp为单个问句和答案中每个字对应的标签构成的数据，其中，定义计数器count1，令count1＝1，用于遍历QASet；

(1.3)若count1≤QASetNum，执行步骤(1.4)，否则执行步骤(1.6)；

(1.4)遍历步骤(1.1)中集合QASet的数据，将数据处理为单个字存入数据集Word中，并将数据集Label中的所有数据标注为非实体标签，若question或者answer存在于triple中，则将LabelTemp标注为实体标签，替换Label中对应位置的数据；

(1.5)令count1＝count1+1，执行步骤(1.3)；

(1.6)将Word和Label中的数据打包为一个个元组，得到实体识别模型标注数据集EntityData＝{[word₁,label₂],[word₂,label₂],…,[word_QANum,label_QANum]}，word_n与label_n间用制表符分隔。

进一步的，所述步骤(2)中得到学校领域实体识别模型SchoolEntityModel的具体步骤如下：

(2.1)定义学校领域的已标注的训练数据集EntityTrain，验证数据集EntityValid，测试数据集EntityTest，计算已标注的数据集EntityData总数EntitySum。分别定义训练集比例TrainProp、验证集比例ValidProp和测试集比例TestProp；

(2.2)按照TrainProp、ValidProp和TestProp的比例划分数据集EntityData，设定TrainProp＝6，ValidProp＝2，TestProp＝2。分别计算训练集总数TrainNum＝EntitySum*TrainProp/(TrainProp+ValidProp+TestProp)、验证集总数ValidNum＝EntitySum*ValidProp/(TrainProp+ValidProp+TestProp)以及测试集总数TestNum＝EntitySum*TestProp/(TrainProp+ValidProp+TestProp)，得到EntityTrain＝{R₁,R₂,…,R_TrainNum}、EntityValid＝{R₁,R₂,…,R_ValidNum}和EntityTest＝{R₁,R₂,…,R_TestNum}；

(2.3)定义类InputEntityExample用来表示数据，初始化变量EId、EText和ELabel，分别表示训练id、字和字对应的标签；

(2.4)定义类DataProcessor用于数据处理，编写继承类SchoolNerProcessor，定义getEntityLabels函数用来返回实体标签集，定义createEntityExample函数用于调用类InputEntityExample给EId、EText和ELabel赋值，生成训练和验证样本；

(2.5)定义函数modelBuilder，构建模型SchoolEntityModel。实现以下内容：将EText与ELabel转换为ids表示，使用参数加载BERT模型，得到字embedding和最大序列长度maxseqlength。使用TensorFlow对输入数据的ids表示按行求和得到当前batch中的序列长度lengths。定义变量LabelsNum为步骤(1)中标签数据集Label的标签数量，利用BERT模型的参数作为SchoolEntityModel模型的参数初始值，加载BiLSTM-CRF模型，输入模型参数embedding、num_labels、maxseqlength、lengths、getEntityLabels函数返回的集合labels并设置模型参数lstm维度为128，droupout_rate为0.5。定义模型评测方法metric_eval，对模型的输出结果使用Viterbi解码；

(2.6)利用TensorFlow将标注训练数据集EntityTrain转化为数据文件EntityTrain.tf_record，读取该数据文件组成batch；

(2.7)训练BERT-BiLSTM-CRF模型，其中模型参数设置BERT中文模型路径、训练时批量处理数据集的大小32和学习率2e-5；

(2.8)得到基于BERT-BiLSTM-CRF的学校领域实体识别模型SchoolEntityModel。

进一步的，所述步骤(3)中得到属性抽取模型标注数据集AttributeData的具体步骤如下：

(3.1)定义属性集合AttrList、问句question、答案answer、三元组triple＝(question,attr,answer)。遍历步骤(1)中的问答对集合QASet获取triple，从triple中解析出属性保存至AttrList，其中，AttrList＝{attr₁,attr₂,…,attr_QASetNum}，attr_n为AttrList中第n个属性，变量n∈[1,QASetNum]。将得到的AttrList添加到集合QASet中；

(3.2)定义单个句子的正样本PositiveSample、负样本NegativeSample和总样本AllSample。遍历步骤(1)中的问答对集合QASet获取question和attr，得到PositiveSample＝{question,attr,'1'}。从属性集合AttrList中随机抽取出5个属性{attr₁,attr₂,…,attr₅}，得到NegativeSample＝{question,attr_m,'0'}，m＝{1,2,3,4,5}。从而得到AllSample＝{PositiveSample,NegativeSample₁,NegativeSample₂,…,NegativeSample₅}，其中，'1'表示该属性attr是问句question中的属性，'0'则表示该属性attr不是问句question中的属性；

(3.3)得到AttributeData＝{AllSample₁,AllSample₂,…,AllSample_QASetNum}。

进一步的，所述步骤(4)中得到学校领域属性抽取模型SchoolAttributeModel的具体步骤如下：

(4.1)将已标注的数据集AttributeData按照比例划分为训练集AttributeTrain、验证集AttributeValid和测试集AttributeTest，设定比例为6:2:2；

(4.2)定义类InputAttributeExample用来表示数据，初始化变量AId、AText1、ATex2和ALabel分别表示训练id、问句文本数据、问句属性文本数据和每个句子对应的属性标签；

(4.3)编写DataProcessor的继承类AttributeProcesor。定义createAttrExample函数用于调用类InputAttrExample给AId、AText1、ATex2和ALabel赋值，生成训练和验证样本；

(4.4)构建模型SchoolAttributeModel，加载预训练模型，读取数据。定义训练样本TrainExamples，从训练集AttributeTrain中读取数据并赋值给AId、AText1、ATex2和ALabel，得到训练样本TrainExamples＝{[AText1₁,AText2₁,ALabel₁],[AText1₂,AText2₂,ALabel₂],…,[AText1_AttTrainNum,AText2_AttTrainNum,ALabel_AttTrainNum]}，AttTrainNum为训练集AttributeTrain中数据的总数；

(4.5)判断是否训练，若训练则执行步骤(4.6)，否则执行步骤(4.14)；

(4.6)定义变量count2用于遍历训练样本TrainExamples，令count2＝1，定义训练样本TrainExamples的总数Sum；

(4.7)若count2≤Sum，则执行步骤(4.8)，否则执行步骤(4.10)；

(4.8)遍历训练样本TrainExamples，将其进行特征转换，使用BERT模型的convert_single_example函数将每条数据由类InputAttrExample转换为该模型能够处理的类InputFeatures结构，保存至AttrTain.tf_record文件；

(4.9)令count2＝count2+1，执行步骤(4.7)；

(4.10)定义变量MaxScore用于保存模型参数的最高f1值，定义计数器flags，令flags初始值为1，其中flags∈[1,Sum]。根据AttrTain.tf_record文件生成tf.data.TFRecordDataset输入模型SchoolAttributeModel训练，模型参数设置BERT中文模型路径、训练时批量处理数据集的大小32和学习率5e-5，每经过一个epoch利用验证集AttributeValid进行调整参数，输出f1值；

(4.11)设定阈值为5，若flags≤阈值，则执行步骤(4.12)，否则执行步骤(4.13)；

(4.12)从步骤(4.8)得到f1值，若f1值＞MaxScore，则更新MaxScore，否则flags＝flags+1；

(4.13)选取在验证集上f1值最高的模型参数并保存模型SchoolAttributeModel，执行步骤(4.5)；

(4.14)定义测试样本TestExamples，从测试集AttributeTest中读取数据赋值给AId、AText1、ATex2和ALabel，得到TestExamples，其中，TestExamples＝{[AText1₁,AText2₁,ALabel₁],[AText1₂,AText2₂,ALabel₂],…,[AText1_AttTestNum,AText2_AttTestNum,ALabel_AttTestNum]}，AttTestNum为测试集AttributeTest中数据的总数。加载BERT模型，读取测试样本TestExamples数据并按照步骤(4.8)对数据进行特征转换；

(4.15)将步骤(4.14)的特征输入模型SchoolAttributeModel，进行模型测试。

进一步的，所述步骤(5)中构建学校领域知识图谱的具体步骤如下：

(5.1)通过利用步骤(2)和步骤(4)得到的实体识别模型SchoolEntityModel和属性抽取模型SchoolAttributeModel，在学校领域问句对数据集中抽取出实体Item1、属性Relation和属性值Item2，定义三元组triple＝(Item1,Relation,Item2)；

(5.2)定义知识三元组数据集Triples，得到Triples＝{triple₁,triple₂,…,triple_K}，K为数据集Triples总数；

(5.3)将Triples保存至csv文件，导入到图数据库Neo4j中，从而构建学校领域知识图谱。

本发明采用上述技术方案，具有以下有益效果：

本发明方法利用已有的学校领域问答对数据集预处理为标注数据集，有效地构建了学校领域的知识图谱，为特定领域特别是学校领域提供一种知识图谱的构建方法，具体描述如下：本发明利用实体识别模型，将学校领域的实体识别转换为了序列标注方法，该模型能够兼顾上下文语义信息，增强词向量模型泛化能力；利用属性抽取模型，学习句子关系表示，实现在句子级别上的二分类方法；在问答对数据集上通过实体识别模型和属性抽取模型抽取出实体和属性，从而构建三元组(实体,属性,属性值)，存储到图数据库Neo4j中。基于已构建的学校领域知识图谱，可以应用于知识可视化、知识问答、个性化推荐。

附图说明

图1为本发明的总体流程图；

图2为图1中实体识别模型数据预处理方法的具体流程图；

图3为图1中训练基于BERT-BiLSTM-CRF的学校领域实体识别模型方法的具体流程图；

图4为图1中属性抽取模型数据预处理方法的具体流程图；

图5为图1中训练基于BERT的学校领域属性抽取模型方法的具体流程图；

图6为图1中构建学校领域知识图谱方法的流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1-图6所示，本发明所述的一种实体识别和属性抽取模型的学校领域知识图谱构建方法，包括如下步骤：(涉及的全局变量如表1)

表1全局变量表

变量定义	变量名称
		EntityData	实体识别模型的标注数据集
AttributeData	属性抽取模型标注数据集
		SchoolEntityModel	学校领域实体识别模型
SchoolAttributeModel	学校领域属性抽取模型
		DataProcessor	数据处理类
QANum	问句和答案的总个数
		QASet	预处理后的问答对集合
QASetNum	问答对集合中数据的个数

步骤1：对学校领域问答对数据集进行预处理，得到实体识别模型标注数据集EntityData；(步骤1的变量说明如表2)

表2步骤1变量表

步骤1.1：定义预处理后的问答对集合QASet，定义question,answer,triple分别为单个问答对的问句、答案和三元组，并且满足关系QASet＝{[question₁,answer₁,triple₁],[question₂,answer₂,triple₂],…,[question_QASetNum,answer_QAS _etNum,triple_QASetNum]}，其中，QASetNum为问答对集合中数据的个数，对问答对数据进行预处理，得到问答对集合QASet；

步骤1.2：定义Word、Label分别为问句和答案中每个字构成的数据集、每个字对应的标签构成的数据集，Word＝{word₁,word₂,…,word_QANum}，Label＝{label₁,label₂,…,label_QANum}，word_n为Word中第n个字，label_n为Label中第n个字对应的标签，其中，QANum为问句和答案的总个数，变量n∈[1,QANum]，定义LabelTemp为单个问句和答案中每个字对应的标签构成的数据，其中，定义计数器count1，令count1＝1，用于遍历QASet；

步骤1.3：若count1≤QASetNum，执行步骤1.4，否则执行步骤1.6；

步骤1.4：遍历步骤1.1中集合QASet的数据，将数据处理为单个字存入数据集Word中，并将数据集Label中的所有数据标注为非实体标签，若question或者answer存在于triple中，则将LabelTemp标注为实体标签，替换Label中对应位置的数据；

步骤1.5：令count1＝count1+1，执行步骤1.3；

步骤1.6：将Word和Label中的数据打包为一个个元组，得到实体识别模型标注数据集EntityData＝{[word₁,label₂],[word₂,label₂],…,[word_QANum,label_QANum]}，word_n与label_n间用制表符分隔。

步骤2：利用数据集EntityData训练基于BERT-BiLSTM-CRF的实体识别模型，得到学校领域实体识别模型SchoolEntityModel；(步骤2的变量说明如表3)

表3步骤2变量表

步骤2.1：定义学校领域的已标注的训练数据集EntityTrain，验证数据集EntityValid，测试数据集EntityTest，计算已标注的数据集EntityData总数EntitySum。分别定义训练集比例TrainProp、验证集比例ValidProp和测试集比例TestProp；

步骤2.2：按照TrainProp、ValidProp和TestProp的比例划分数据集EntityData，设定TrainProp＝6，ValidProp＝2，TestProp＝2。分别计算训练集总数TrainNum＝EntitySum*TrainProp/(TrainProp+ValidProp+TestProp)、验证集总数ValidNum＝EntitySum*ValidProp/(TrainProp+ValidProp+TestProp)以及测试集总数TestNum＝EntitySum*TestProp/(TrainProp+ValidProp+TestProp)，得到EntityTrain＝{R₁,R₂,…,R_TrainNum}、EntityValid＝{R₁,R₂,…,R_ValidNum}和EntityTest＝{R₁,R₂,…,R_TestNum}；

步骤2.3：定义类InputEntityExample用来表示数据，初始化变量EId、EText和ELabel，分别表示训练id、字和字对应的标签；

步骤2.4：定义类DataProcessor用于数据处理，编写继承类SchoolNerProcessor，定义getEntityLabels函数用来返回实体标签集，定义createEntityExample函数用于调用类InputEntityExample给EId、EText和ELabel赋值，生成训练和验证样本；

步骤2.5：定义函数modelBuilder，构建模型SchoolEntityModel。实现以下内容：将EText与ELabel转换为ids表示，使用参数加载BERT模型，得到字embedding和最大序列长度maxseqlength。使用TensorFlow对输入数据的ids表示按行求和得到当前batch中的序列长度lengths。定义变量LabelsNum为步骤1中标签数据集Label的标签数量，利用BERT模型的参数作为SchoolEntityModel模型的参数初始值，加载BiLSTM-CRF模型，输入模型参数embedding、num_labels、maxseqlength、lengths、getEntityLabels函数返回的集合labels并设置模型参数lstm维度为128，droupout_rate为0.5。定义模型评测方法metric_eval，对模型的输出结果使用Viterbi解码；

步骤2.6：利用TensorFlow将标注训练数据集EntityTrain转化为数据文件EntityTrain.tf_record，读取该数据文件组成batch；

步骤2.7：训练BERT-BiLSTM-CRF模型，其中模型参数设置BERT中文模型路径、训练时批量处理数据集的大小32和学习率2e-5；

步骤2.8：得到基于BERT-BiLSTM-CRF的学校领域实体识别模型SchoolEntityModel。

步骤3：对学校领域问答对数据集进行预处理，得到属性抽取模型标注数据集AttributeData；(步骤3的变量说明如表4)

表4步骤3变量表

变量定义	变量名称
		AttrList	属性集合
question	单个问答对的问句
		answer	单个问答对的答案
triple	单个问答对的三元组
		attr_n	AttrList中第n个属性
PositiveSample	单个句子的正样本
		NegativeSample	单个句子的负样本
AllSample	单个句子的总样本

步骤3.1：定义属性集合AttrList、问句question、答案answer、三元组triple＝(question,attr,answer)。遍历步骤1中的问答对集合QASet获取triple，从triple中解析出属性保存至AttrList，其中，AttrList＝{attr₁,attr₂,…,attr_QASetNum}，attr_n为AttrList中第n个属性，变量n∈[1,QASetNum]。将得到的AttrList添加到集合QASet中；

步骤3.2：定义单个句子的正样本PositiveSample、负样本NegativeSample和总样本AllSample。遍历步骤1中的问答对集合QASet获取question和attr，得到PositiveSample＝{question,attr,'1'}。从属性集合AttrList中随机抽取出5个属性{attr₁,attr₂,…,attr₅}，得到NegativeSample＝{question,attr_m,'0'}，m＝{1,2,3,4,5}。从而得到AllSample＝{PositiveSample,NegativeSample₁,NegativeSample₂,…,NegativeSample₅}，其中，'1'表示该属性attr是问句question中的属性，'0'则表示该属性attr不是问句question中的属性；

步骤3.3：得到AttributeData＝{AllSample₁,AllSample₂,…,AllSample_QASetNum}。

步骤4：利用数据集A训练基于BERT的属性抽取模型，得到学校领域属性抽取模型SchoolAttributeModel；(步骤4的变量说明如表5)

表5步骤4变量表

步骤4.1：将已标注的数据集AttributeData按照比例划分为训练集AttributeTrain、验证集AttributeValid和测试集AttributeTest，设定比例为6:2:2；

步骤4.2：定义类InputAttributeExample用来表示数据，初始化变量AId、AText1、ATex2和ALabel分别表示训练id、问句文本数据、问句属性文本数据和每个句子对应的属性标签；

步骤4.3：编写DataProcessor的继承类AttributeProcesor。定义createAttrExample函数用于调用类InputAttrExample给AId、AText1、ATex2和ALabel赋值，生成训练和验证样本；

步骤4.4：构建模型SchoolAttributeModel，加载预训练模型，读取数据。定义训练样本TrainExamples，从训练集AttributeTrain中读取数据并赋值给AId、AText1、ATex2和ALabel，得到训练样本TrainExamples＝{[AText1₁,AText2₁,ALabel₁],[AText1₂,AText2₂,ALabel₂],…,[AText1_AttTrainNum,AText2_AttTrainNum,ALabel_AttTrainNum]}，AttTrainNum为训练集AttributeTrain中数据的总数；

步骤4.5：判断是否训练，若训练则执行步骤4.6，否则执行步骤4.14；

步骤4.6：定义变量count2用于遍历训练样本TrainExamples，令count2＝1，定义训练样本TrainExamples的总数Sum；

步骤4.7：若count2≤Sum，则执行步骤4.8，否则执行步骤4.10；

步骤4.8：遍历训练样本TrainExamples，将其进行特征转换，使用BERT模型的convert_single_example函数将每条数据由类InputAttrExample转换为该模型能够处理的类InputFeatures结构，保存至AttrTain.tf_record文件；

步骤4.9：令count2＝count2+1，执行步骤4.7；

步骤4.10：定义变量MaxScore用于保存模型参数的最高f1值，定义计数器flags，令flags初始值为1，其中flags∈[1,Sum]。根据AttrTain.tf_record文件生成tf.data.TFRecordDataset输入模型SchoolAttributeModel训练，模型参数设置BERT中文模型路径、训练时批量处理数据集的大小32和学习率5e-5，每经过一个epoch利用验证集AttributeValid进行调整参数，输出f1值；

步骤4.11：设定阈值为5，若flags≤阈值，则执行步骤4.12，否则执行步骤4.13；

步骤4.12：从步骤4.8得到f1值，若f1值＞MaxScore，则更新MaxScore，否则flags＝flags+1；

步骤4.13：选取在验证集上f1值最高的模型参数并保存模型SchoolAttributeModel，执行步骤4.5；

步骤4.14：定义测试样本TestExamples，从测试集AttributeTest中读取数据赋值给AId、AText1、ATex2和ALabel，得到TestExamples，其中，TestExamples＝{[AText1₁,AText2₁,ALabel₁],[AText1₂,AText2₂,ALabel₂],…,[AText1_AttTestNum,AText2_AttTestNum,ALabel_AttTestNum]}，AttTestNum为测试集AttributeTest中数据的总数。加载BERT模型，读取测试样本TestExamples数据并按照步骤4.8对数据进行特征转换；

步骤4.15：将步骤4.14的特征输入模型SchoolAttributeModel，进行模型测试。

步骤5：在问句对文本数据上抽取出实体、属性和属性值，建立知识三元组，构建学校领域知识图谱；(步骤5的变量说明如表6)

表6步骤5变量表

变量定义	变量名称
		Item1	实体
Relation	属性
		Item2	属性值
triple	三元组
		Triples	知识三元组数据集

步骤5.1：通过利用步骤2和步骤4得到的实体识别模型SchoolEntityModel和属性抽取模型SchoolAttributeModel，在学校领域问句对数据集中抽取出实体Item1、属性Relation和属性值Item2，定义三元组triple＝(Item1,Relation,Item2)；

步骤5.2：定义知识三元组数据集Triples，得到Triples＝{triple₁,triple₂,…,triple_K}，K为数据集Triples总数；

步骤5.3：将Triples保存至csv文件，导入到图数据库Neo4j中，从而构建学校领域知识图谱。

通过对46559条学校领域问答对数据进行处理，首先将数据分别处理为用于训练实体识别模型和属性抽取模型的标注数据，然后训练基于BERT-BiLSTM-CRF的实体识别模型和基于BERT的属性抽取模型。在测试集上，模型的识别准确率为95％。根据模型实现在非结构化文本数据中抽取出实体和属性，从而有效建立三元组，构建知识图谱。本发明提出的知识图谱构建方法普遍适用于学校领域问句对数据。

Claims

1.一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法，其特征在于，包括如下步骤：

（1）对学校领域问答对数据集进行预处理，得到实体识别模型标注数据集EntityData，具体步骤如下：

(1.1) 定义预处理后的问答对集合QASet，定义question, answer, triple分别为单个问答对的问句、答案和三元组，并且满足关系QASet= {[question₁,answer₁,triple₁],[question₂,answer₂,triple₂],…,[question_QASetNum,answer_QASetNum,triple_QASetNum]}，其中，QASetNum为问答对集合中数据的个数；对问答对数据进行预处理，得到问答对集合QASet；

(1.2) 定义Word、Label分别为问句和答案中每个字构成的数据集、每个字对应的标签构成的数据集，Word={word₁,word₂,word_n,…,word_QANum}，Label={label₁,label₂,label_n…,label_QANum}，word_n为Word中第n个字，label_n为Label中第n个字对应的标签，其中，QANum为问句和答案的总个数，变量n∈[1, QANum]；定义LabelTemp为单个问句和答案中每个字对应的标签构成的数据，其中，LabelTempLabel；定义计数器count1，令count1=1，用于遍历QASet；

(1.3) 若count1≤QASetNum，执行步骤(1.4)，否则执行步骤(1.6)；

(1.4) 遍历步骤(1.1)中集合QASet的数据，将数据处理为单个字存入数据集Word中，并将数据集Label中的所有数据标注为非实体标签，若question或者answer存在于triple中，则将LabelTemp标注为实体标签，替换Label中对应位置的数据；

(1.5) 令count1=count1+1，执行步骤(1.3)；

(1.6) 将Word和Label中的数据打包为一个个元组，得到实体识别模型标注数据集EntityData={[word₁,label₂], [word₂,label₂],…,[word_QANum,label_QANum]}，word_n与label_n间用制表符分隔；

（2）利用数据集EntityData训练基于BERT-BiLSTM-CRF的实体识别模型，得到学校领域实体识别模型SchoolEntityModel，具体步骤如下：

(2.1) 定义学校领域的已标注的训练数据集EntityTrain，验证数据集EntityValid，测试数据集EntityTest，计算已标注的数据集EntityData总数EntitySum；分别定义训练集比例TrainProp、验证集比例ValidProp和测试集比例TestProp；

(2.2) 按照TrainProp、ValidProp和TestProp的比例划分数据集EntityData，设定TrainProp=6， ValidProp=2， TestProp=2；分别计算训练集总数、验证集总数以及测试集总数，得到EntityTrain={ETrR₁,ETrR₂,…, ETrR_TrainNum}、EntityValid={EVR₁,EVR₂,…,EVR_ValidNum}和EntityTest={ETeR₁,ETeR₂,…,ETeR_TestNum}；

(2.3) 定义类InputEntityExample用来表示数据，初始化变量EId、EText和ELabel，分别表示训练id、字和字对应的标签；

(2.4) 定义类DataProcessor用于数据处理，编写继承类SchoolNerProcessor，定义getEntityLabels函数用来返回实体标签集，定义createEntityExample函数用于调用类InputEntityExample给EId、EText和ELabel赋值，生成训练和验证样本；

(2.5) 定义函数modelBuilder，构建模型SchoolEntityModel；实现以下内容：将EText与ELabel转换为ids表示，使用参数加载BERT模型，得到字embedding和最大序列长度maxseqlength；使用TensorFlow对输入数据的ids表示按行求和得到当前batch中的序列长度lengths；定义变量LabelsNum为步骤(1)中标签数据集Label的标签数量，利用BERT模型的参数作为SchoolEntityModel模型的参数初始值，加载BiLSTM-CRF模型，输入模型参数embedding、LabelsNum、maxseqlength、lengths、getEntityLabels函数返回的集合labels并设置模型参数lstm维度为128，droupout_rate为0.5；定义模型评测方法metric_eval，对模型的输出结果使用Viterbi解码；

(2.6) 利用TensorFlow将标注训练数据集EntityTrain转化为数据文件EntityTrain.tf_record，读取该数据文件组成batch；

(2.7) 训练BERT-BiLSTM-CRF模型，其中模型参数设置BERT中文模型路径、训练时批量处理数据集的大小32和学习率2e^-5；

(2.8) 得到基于BERT-BiLSTM-CRF的学校领域实体识别模型SchoolEntityModel；

（3）对学校领域问答对数据集进行预处理，得到属性抽取模型标注数据集AttributeData，具体步骤如下：

(3.1) 定义属性集合AttrList、问句question、答案answer、三元组triple=(question,attr,answer)；遍历步骤(1)中的问答对集合QASet获取triple，从triple中解析出属性保存至AttrList，其中，AttrList={attr₁,attr₂, attr_k,…,attr_QASetNum}，attr_k为AttrList中第k个属性，变量k∈[1,QASetNum]；将得到的AttrList添加到集合QASet中；

(3.2) 定义单个句子的正样本PositiveSample、负样本NegativeSample和总样本AllSample；遍历步骤(1)中的问答对集合QASet获取question和attr，得到PositiveSample={question,attr,'1'}；从属性集合AttrList中随机抽取出5个属性{attr₁,attr₂,…,attr₅}，得到NegativeSample={question,attr_m,'0'}，m={1,2,3,4,5}；从而得到AllSample={PositiveSample,NegativeSample₁,NegativeSample₂,…, NegativeSample₅}，其中，'1'表示该属性attr是问句question中的属性，'0'则表示该属性attr不是问句question中的属性；

(3.3) 得到AttributeData={AllSample₁,AllSample₂,…,AllSample_QASetNum}；

（4）利用数据集AttributeData训练基于BERT的属性抽取模型，得到学校领域属性抽取模型SchoolAttributeModel，具体步骤如下：

(4.1) 将已标注的数据集AttributeData按照比例划分为训练集AttributeTrain、验证集AttributeValid和测试集AttributeTest，设定比例为6:2:2；

(4.2) 定义类InputAttributeExample用来表示数据，初始化变量AId、AText1、ATex2和ALabel分别表示训练id、问句文本数据、问句属性文本数据和每个句子对应的属性标签；

(4.3) 编写DataProcessor的继承类AttributeProcesor；定义createAttrExample函数用于调用类InputAttrExample给AId、AText1、ATex2和ALabel赋值，生成训练和验证样本；

(4.4) 构建模型SchoolAttributeModel，加载预训练模型，读取数据；定义训练样本TrainExamples，从训练集AttributeTrain中读取数据并赋值给AId、AText1、ATex2和ALabel，得到训练样本TrainExamples={[AText1₁,AText2₁,ALabel₁],[AText1₂,AText2₂,ALabel₂],…,[AText1_AttTrainNum,AText2_AttTrainNum,ALabel_AttTrainNum]}，AttTrainNum为训练集AttributeTrain中数据的总数；

(4.5) 判断是否训练，若训练则执行步骤(4.6)，否则执行步骤(4.14)；

(4.6) 定义变量count2用于遍历训练样本TrainExamples，令count2=1，定义训练样本TrainExamples的总数Sum；

(4.7) 若count2≤Sum，则执行步骤(4.8)，否则执行步骤(4.10)；

(4.8) 遍历训练样本TrainExamples，将其进行特征转换，使用BERT模型的convert_single_example函数将每条数据由类InputAttrExample转换为该模型能够处理的类InputFeatures结构，保存至AttrTain.tf_record文件；

(4.9) 令count2=count2+1，执行步骤(4.7)；

(4.10) 定义变量MaxScore用于保存模型参数的最高f1值，定义计数器flags，令flags初始值为1，其中flags∈[1,Sum]；根据AttrTain.tf_record文件生成tf.data.TFRecordDataset输入模型SchoolAttributeModel训练，模型参数设置BERT中文模型路径、训练时批量处理数据集的大小32和学习率5e^-5，每经过一个epoch利用验证集AttributeValid进行调整参数，输出f1值；

(4.11) 设定阈值为5，若flags≤阈值，则执行步骤(4.12)，否则执行步骤(4.13)；

(4.12) 从步骤(4.8)得到f1值，若f1值＞MaxScore，则更新MaxScore，否则flags=flags+1；

(4.13) 选取在验证集上f1值最高的模型参数并保存模型SchoolAttributeModel，执行步骤(4.5)；

(4.14) 定义测试样本TestExamples，从测试集AttributeTest中读取数据赋值给AId、AText1、ATex2和ALabel，得到TestExamples，其中，TestExamples= {[AText1₁,AText2₁,ALabel₁],[AText1₂,AText2₂,ALabel₂],…,[AText1_AttTestNum,AText2_AttTestNum,ALabel_AttTestNum]}，AttTestNum为测试集AttributeTest中数据的总数；加载BERT模型，读取测试样本TestExamples数据并按照步骤(4.8)对数据进行特征转换；

(4.15) 将步骤(4.14)的特征输入模型SchoolAttributeModel，进行模型测试；

（5）在问句对文本数据上抽取出实体、属性和属性值，建立知识三元组，构建学校领域知识图谱，具体步骤如下：

(5.1) 通过利用步骤(2)和步骤(4)得到的实体识别模型SchoolEntityModel和属性抽取模型SchoolAttributeModel，在学校领域问句对数据集中抽取出实体Item1、属性Relation和属性值Item2，定义三元组triple=(Item1,Relation,Item2)；

(5.2) 定义知识三元组数据集Triples，得到Triples={triple₁,triple₂,…,triple_K}，K为数据集Triples总数；

(5.3) 将Triples保存至csv文件，导入到图数据库Neo4j中，从而构建学校领域知识图谱。