CN113468887A - 基于边界与片段分类的学者信息关系抽取方法和*** - Google Patents

基于边界与片段分类的学者信息关系抽取方法和*** Download PDF

Info

Publication number
CN113468887A
CN113468887A CN202110685661.2A CN202110685661A CN113468887A CN 113468887 A CN113468887 A CN 113468887A CN 202110685661 A CN202110685661 A CN 202110685661A CN 113468887 A CN113468887 A CN 113468887A
Authority
CN
China
Prior art keywords
entity
text
word
module
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110685661.2A
Other languages
English (en)
Inventor
曹安蕲
唐果
傅洛伊
王新兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202110685661.2A priority Critical patent/CN113468887A/zh
Publication of CN113468887A publication Critical patent/CN113468887A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于边界与片段分类的学者信息关系抽取方法,所述方法包括如下步骤:步骤S1:获取不同教师的个人信息和文本内容;步骤S2:将文本中实体词进行同类实体词替换扩增训练数据;步骤S3:使用预训练模型对文本进行嵌入并提取语义特征;步骤S4:主体词边界识别和实体片段分类;步骤S5:客体词边界以及对应关系边界识别和实体片段分类;步骤S6:根据识别和分类结果进行用户画像。利用概率图思想、结合半指针‑半标注方式,解决关系抽取中一个主体词对应多个客体词,一个客体词对应多个主体词,两个相同实体之间关系不同的问题。利用边界增强实体片段分类的方式能够降低尾指针预测错误带来的影响,提高实体关系抽取准确率。

Description

基于边界与片段分类的学者信息关系抽取方法和***
技术领域
本发明涉及机器学习和自然语言处理的技术领域,具体地,涉及基于边界与片段分类的学者信息关系抽取方法和***。
背景技术
构建学者画像需要从文本中抽取出学者姓名、邮箱、职称、个人主页、教育经历和工作经历等信息,学者信息大多来源于其个人主页或者介绍性网页中(百度百科、学校教师名录),存在信息来源少、数据噪声大以及数据信息冗余多的问题,并且学者信息文本是通过预处理从网页爬取到的html文件得到的与传统意义上的自然文本存在一定语法差异,因此很难通过自定义规则方法提取出这些信息,然而人工提取这些网页的学者信息存在工作量大、效率低等问题,所以利用自然语言处理中的实体关系抽取技术对这些网页文本进行信息提取是十分重要的。
实体关系抽取是信息抽取领域中的一个重要分支,其包含两个子任务:实体识别和关系抽取,即从一段自然文本中识别出实体,并抽取出各实体对之间的关系,最终形成关系三元组<s,p,o>,其中s代表主体词(subject),p代表谓词,即关系(predicate),o代表客体词(object)。实体指文本中时间、地点、人物和组织等概念;关系指实体之间的语义联系。
目前实体关系抽取主要采用神经网络模型,主要有两种实现模式:1、流水线形式;2、联合抽取模式。流水线方法指在实体识别完成后,直接进行实体之间的关系抽取,虽然流水线式学习易于实现,并且两个抽取模型的灵活性高,实体识别模型和关系抽取模型可以采用独立数据集,但是实体识别模型的错误会影响关系抽取模型的效果,出现误差传播的现象,同时实体识别模型会得到许多冗余的实体,增加了后续关系抽取任务的难度和复杂度,并且流水线式学习忽略了两个任务之间的联系,因此研究者们将命名实体识别和关系抽取融合成一个任务,进行联合学习,联合学习能够在一定程度上缓解误差的传播,并且两个任务融合成一个模型,增加了模型学习和预测的效率,提高了模型的鲁棒性,近几年Transformer模型大幅度提高了自然语言处理不同领域任务的精度,并且微调Transformer预训练模型能够降低训练模型的数据量,因此,本发明在BERT预训练模型的基础上,采用了指针网络和片段分类模型,对文本进行实体关系抽取。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于边界与片段分类的学者信息关系抽取方法和***。
根据本发明提供的一种基于边界与片段分类的学者信息关系抽取方法,所述方法包括如下步骤:
步骤S1:获取不同教师的个人信息和文本内容;
步骤S2:将文本中实体词进行同类实体词替换扩增训练数据;
步骤S3:使用预训练模型对文本进行嵌入并提取语义特征;
步骤S4:主体词边界识别和实体片段分类;
步骤S5:客体词边界以及对应关系边界识别和实体片段分类;
步骤S6:根据识别和分类结果进行用户画像。
优选地,所述步骤S1包括如下步骤:
步骤S101:根据教师名单从互联网中获取不同教师的个人信息的文本内容;
步骤S102:提取步骤S101中得到的html文件中文本内容,删去html标签,得到教师个人信息的一整段纯文本文件;
步骤S103:根据中文句号以及句子最长长度阈值对文本进行分句;
步骤S104:标注文本构建实体关系抽取数据集。
优选地,所述步骤S2包括如下步骤:
步骤S201:通过实体识别模型BERT-CRF,构建实体库,实体类别包括时间、机构、姓名、院系、学位、职务和职称;
步骤S202:通过实体识别模型BERT-CRF,将步骤S103中得到的句子进行实体识别;
步骤S203:将步骤S202得到的每个句子的实体进行同类实体替换,扩增数据集,替换的实体来自于步骤S201构建的实体库。
优选地,所述步骤S3包括如下步骤:
步骤S301:使用BERT预训练模型对文本进行嵌入并提取语义特征;
步骤S302:将文本进行分词得到的文本矩阵T={t1,t2,···,tn},其中n表示句子分词之后的字符长度;tn表示第n个文本分词;
步骤S303:对于每一个字符的输入嵌入向量来自于字符嵌入、位置嵌入以及字符类型嵌入的加和值X={x1,x2,···,xn}作为BERT预训练模型输入,得到包含语义信息的编码向量H={h1,h2,···,hn},其中xn表示第n个加和值;hn表示第n个编码向量值。
优选地,所述步骤S4包括如下步骤:
步骤S401:将步骤S302得到的编码向量作为Linear层输入,使用sigmoid激活函数,得到每个token是否是头尾指针的概率,公式如下:
Figure BDA0003124511740000031
Figure BDA0003124511740000032
其中σ表示sigmoid函数,
Figure BDA0003124511740000033
分别表示第i个字符作为主体词的头指针的概率、第i个字符作为主体词的尾指针的概率;start、end分别表示头指针、尾指针,其中下标s表示主体词;Wstart、Wend分别表示预测头指针概率的可训练的权重矩阵、预测尾指针概率的可训练的权重矩阵,bstart、bend分别表示预测头指针的偏置、预测尾指针的偏置;hi表示由步骤S303获得的第i个字符的编码向量;概率超过某一个阈值,则将其相对应的token分配标记为1,否则标记为0;
步骤S402:遍历所有头指针标记为1的token,其在序列中的位置令为ystarts,找到位于头指针之后的第一个尾指针,其在序列中的位置令为
Figure BDA0003124511740000034
得到序列
Figure BDA0003124511740000035
令为Hsub,其中H为步骤S303中编码向量H,下标sub表示主体词序列;
步骤S403:遍历步骤S402得到的主体词序列作为双向LSTM,输入得到主体词序列的编码向量ssub,公式如下:
ssub=LSTM(Hsub)
其中LSTM表示双向长短时循环神经网络;
步骤S404:遍历步骤S403得到的主体词编码向量s作为Linear层输入,使用softmax激活函数,得到主体词序列是否是实体的概率,公式如下:
Ps=softmax(WTssub+b)
其中Ps是主体词序列是否是实体的概率,其中s表示主体词,矩阵W∈Rd×k,d是主体词编码维度,k是实体类别数量,b表示偏置;概率超过某一阈值,则将其对应实体类别标记为1,否则标记为0。
优选地,所述步骤S5包括:
步骤S501:将步骤S404预测实体类别为1的主体词编码向量s与向量H相加,作为Linear层输入,使用sigmoid激活函数,得到每个token是否是对应关系的客体词的头尾指针的概率,公式如下:
Figure BDA0003124511740000041
Figure BDA0003124511740000042
其中r表示主体词和客体词关系,其中
Figure BDA0003124511740000043
Figure BDA0003124511740000044
表示序列中第i个字符为客体词的头指针和尾指针概率,
Figure BDA0003124511740000045
Figure BDA0003124511740000046
是预测关系r的头指针和尾指针的可训练权重矩阵,
Figure BDA0003124511740000047
Figure BDA0003124511740000048
表示预测关系r的头指针和尾指针的偏置;
步骤S502:遍历每一个关系r所有头指针标记为1的token,其在序列中的位置令为
Figure BDA0003124511740000049
找到位于头指针之后的第一个尾指针,其在序列中的位置令为
Figure BDA00031245117400000410
预测出主体词对应关系r的客体词序列
Figure BDA00031245117400000411
令为
Figure BDA00031245117400000412
步骤S503:遍历步骤S402得到的主体词序列作为双向LSTM,输入得到的客体词的编码向量s,公式如下:
Figure BDA00031245117400000413
其中LSTM与步骤S403步骤中的LSTM参数共享,
Figure BDA00031245117400000414
是主体词对应关系r的客体词编码向量,obj表示客体词;
步骤S504:遍历步骤S403得到的客体词编码向量s作为Linear层输入,并使用softmax激活函数,得到主体词序列是否是实体的概率,公式如下:
Figure BDA00031245117400000415
其中Ps是客体词序列是否是实体的概率,其中矩阵W∈Rd×k,d是主体词编码维度,k是实体类别数量,并且参数与步骤S404中共享;概率超过某一阈值,则将其对应实体类别标记为1,否则标记为0。
本发明还提供一种基于边界与片段分类的学者信息关系抽取***,所述***包括如下模块:
模块M1:获取不同教师的个人信息和文本内容;
模块M2:将文本中实体词进行同类实体词替换扩增训练数据;
模块M3:使用预训练模型对文本进行嵌入并提取语义特征;
模块M4:主体词边界识别和实体片段分类;
模块M5:客体词边界以及对应关系边界识别和实体片段分类;
模块M6:根据识别和分类结果进行用户画像。
优选地,所述模块M1包括如下模块:
模块M101:根据教师名单从互联网中获取不同教师的个人信息的文本内容;
模块M102:提取模块M101中得到的html文件中文本内容,删去html标签,得到教师个人信息的一整段纯文本文件;
模块M103:根据中文句号以及句子最长长度阈值对文本进行分句;
模块M104:标注文本构建实体关系抽取数据集。
优选地,所述模块M2包括如下模块:
模块M201:通过实体识别模型BERT-CRF,构建实体库,实体类别包括时间、机构、姓名、院系、学位、职务和职称;
模块M202:通过实体识别模型BERT-CRF,将模块M103中得到的句子进行实体识别;
模块M203:将模块M202得到的每个句子的实体进行同类实体替换,扩增数据集,替换的实体来自于模块M201构建的实体库。
优选地,所述模块M3包括如下模块:
模块M301:使用BERT预训练模型对文本进行嵌入并提取语义特征;
模块M302:将文本进行分词得到的文本矩阵T={t1,t2,…,tn},其中n表示句子分词之后的字符长度;tn表示第n个文本分词;
模块M303:对于每一个字符的输入嵌入向量来自于字符嵌入、位置嵌入以及字符类型嵌入的加和值X={x1,x2,…,xn}作为BERT预训练模型输入,得到包含语义信息的编码向量H={h1,h2,…,hn},其中xn表示第n个加和值;hn表示第n个编码向量值。
与现有技术相比,本发明具有如下的有益效果:
1、本发明使用训练好的实体识别模型BERT-CRF构建实体库,并用于关系抽取模型的数据增强,提高了数据集的多样性,减少了人工构造数据集的成本;
2、本发明使用概率图思想将联合概率分布p(s,p,o)转换成条件概率分布p(p,o|s)和半指针-半标注方式解决了关系抽取中一个主体词对应多个客体词,主体词、客体词对应多个关系以及一个客体词对应多个主体词问题;
3、本发明采用实体片段分类,解决指针网络预测过程中由于缺失尾指针导致实体预测过长的问题。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的关系抽取模型预测流程图;
图2为本发明数据集扩增的流程图;
图3为本发明的基于边界增强的片段分类关系抽取模型的示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
参照图1,本发明提供一种基于边界与片段分类的学者信息关系抽取方法,包括如下步骤:
步骤S1:从百度百科和教师名录中获取不同教师的个人信息的文本内容;步骤S1包括:爬虫爬取学者信息,预处理文本,构建基础数据集。步骤S101:根据教师名单从互联网中获取不同教师的个人信息的文本内容;步骤S102:提取步骤S101中得到的html文件中文本内容(删去html标签),得到教师个人信息的一整段纯文本文件;步骤S103:根据中文句号以及句子最长长度阈值对文本进行分句;步骤S104:人工标注文本构建实体关系抽取数据集。其数据格式如下:
{"text":"2012.12在华中师范大学高分子化学研究所学院获得农学硕士学位。",
"spo_list":[
["农学硕士学位",26,"硕士学位-时间","2012.12",0],
…]}
其中"text"字段为从网页中获取的文本,"spo_list"字段记录该文本中<s,p,o>三元组,其中每一个列表是一个三元组,列表中第一个元素是主体词,第二个元素是主体词第一个字符在文本中的位置,第三个元素是主体词与客体词的关系,第4个元素是客体词,最后一个元素是客体词第一个字符在文本中的位置。
步骤S2:参照图2,将文本中实体词进行同类实体词替换扩增训练数据;步骤S2包括:构建实体库,运用实体库对数据进行扩增并进行训练集和测试集划分。步骤S201:通过实体识别模型BERT-CRF,构建实体库(实体类别包括:时间、机构、姓名、院系、学位、职务、职称);其格式如下;
{"time":["2012-10","2002","2002年","2012.10",…],
"degree:["本科","硕士","博士",…],
…}
其中包含time,degree,institute,department,title,job,name字段,每一个字段记录类别是该字段的实体。
步骤S202:通过实体识别模型BERT-CRF,将步骤S103中得到的句子进行实体识别(实体类别同步骤S201中实体库中实体类别);步骤S203:将步骤S202得到的每个句子的实体进行同类实体替换,扩增数据集,其中替换的实体来自于步骤S201构建的实体库。
步骤S3:参照图3,使用BERT预训练模型对文本进行词嵌入并提取语义特征;步骤S3包括:加载预训练的BERT模型对文本进行嵌入得到词向量。步骤S301:将文本进行分词得到的文本矩阵T={t1,t2,…tn},其中n表示句子分词之后字符长度;对于每一个字符的输入嵌入向量来自于字符嵌入、位置嵌入以及字符类型嵌入的加和值X={x1,x2,…,xn}作为BERT预训练模型输入,得到包含语义信息的编码向量H={h1,h2,…,hn}。
步骤S4:主体词边界识别和实体片段分类;步骤S4包括:预测主体词头、尾指针,并对得到的实体序列进行分类。
步骤S401:将步骤S302得到的编码向量作为Linear层输入,并使用sigmoid激活函数,得到每个token是否是头尾指针的概率,公式如下;
Figure BDA0003124511740000071
Figure BDA0003124511740000072
其中σ表示sigmoid函数,
Figure BDA0003124511740000073
Figure BDA0003124511740000074
表示第i个字符作为主体词的头和尾指针的概率;start和end表示头指针和尾指针,其中s表示主体词;Wstart和Wend表示预测头指针和尾指针概率的可训练的权重矩阵,bstart和bend表示预测头指针和尾指针的偏置;hi表示由步骤S303获得的第i个字符的编码向量;概率超过某一个阈值,则将其相对应的token分配标记为1,否则标记为0。
步骤S402:遍历所有头指针标记为1的token(其在序列中的位置令为
Figure BDA0003124511740000075
),找到位于头指针之后的第一个尾指针(其在序列中的位置令为
Figure BDA0003124511740000076
)得到序列
Figure BDA0003124511740000077
(令为Hsub)。
Figure BDA0003124511740000078
其中Lsub表示主体词边界,
Figure BDA0003124511740000081
表示第i个字符标签是否为头尾指针,
Figure BDA0003124511740000082
表示第i个字符模型预测头尾指针的概率;
步骤S403:遍历步骤S402得到的主体词序列作为双向LSTM(长短时循环神经网络)输入得到主体词的编码向量s,公式如下:
ssub=LSTM(Hsub)
其中LSTM表示双向长短时循环神经网络;
步骤S404:遍历步骤S403得到的主体词编码向量s作为Linear层输入,并使用softmax激活函数,得到主体词序列是否是实体的概率,公式如下:
Ps=softmax(WTssub+b)
其中Ps是主体词序列是否是实体的概率,其中s表示主体词,矩阵W∈Rd×k,d是主体词编码维度,k是实体类别数量,b表示偏置。如果概率超过某一阈值,则将其对应实体类别标记为1,否则标记为0。主体词实体分类的损失函数采用交叉熵损失函数,其公式如下:
Figure BDA0003124511740000083
其中class表示真实实体的类型,
Figure BDA0003124511740000084
表示主体词片段分类的损失函数,n表示主体词片段数量,i表示第i个实体片段,j表示主体词类型标签。
步骤S5:客体词边界以及对应关系边界识别和实体片段分类。步骤S5包括:预测对应关系的客体词边界,预测客体词实体类型。
步骤S501:将步骤S404预测实体类别为1的主体词编码向量s与向量H相加,作为Linear层输入,并使用sigmoid激活函数,得到每个token是否是对应关系的客体词的头尾指针的概率,公式如下:
Figure BDA0003124511740000085
Figure BDA0003124511740000086
其中r表示主体词和客体词关系,其中
Figure BDA0003124511740000087
Figure BDA0003124511740000088
表示序列中第i个字符为客体词的头指针和尾指针概率,
Figure BDA0003124511740000089
Figure BDA00031245117400000810
是预测关系r的头指针和尾指针的可训练权重矩阵,
Figure BDA00031245117400000811
Figure BDA00031245117400000812
表示预测关系r的头指针和尾指针的偏置。
步骤S502:遍历每一个关系r所有头指针标记为1的token(其在序列中的位置令为
Figure BDA00031245117400000813
),找到位于头指针之后的第一个尾指针(其在序列中的位置令为
Figure BDA00031245117400000814
),预测出主体词对应关系r的客体词序列
Figure BDA00031245117400000815
(令为
Figure BDA00031245117400000816
)。客体词头尾预测、指针网络的损失函数采用的二元交叉熵损失函数,其公式如下:
Figure BDA0003124511740000091
其中Lobj表示主体词边界,
Figure BDA0003124511740000092
表示第i个字符标签是否为头尾指针,
Figure BDA0003124511740000093
表示第i个字符模型预测头尾指针的概率;
步骤S503:遍历步骤S402得到的主体词序列作为双向LSTM(长短时循环神经网络)输入得到的客体词的编码向量s,公式如下:
Figure BDA0003124511740000094
其中LSTM与步骤S403步骤中的LSTM参数共享,s_obj^r是主体词对应关系r的客体词编码向量,obj表示客体词。
步骤S504:遍历步骤S403得到的客体词编码向量s作为Linear层输入,并使用softmax激活函数,得到主体词序列是否是实体的概率,公式如下:
Figure BDA0003124511740000095
其中Ps是客体词序列是否是实体的概率,其中矩阵W∈Rd×k,d是主体词编码维度,k是实体类别数量,并且参数与步骤S404中共享。如果概率超过某一阈值,则将其对应实体类别标记为1,否则标记为0。客体词实体分类的损失函数采用交叉熵损失函数,其公式如下:
Figure BDA0003124511740000096
其中class表示真实实体的类型,
Figure BDA0003124511740000097
表示主体词片段分类的损失函数,n表示主体词片段数量,i表示第i个实体片段,j表示主体词类型标签。
步骤S505:整个模型的损失函数为主体词边界损失、客体词边界损失以及实体分类损失,其公式如下:
Figure BDA0003124511740000098
训练时使用自适应学习算法Adam进行参数优化。
首先,本发明通过实体识别模型BERT-CRF扩增数据集,能大大增加数据集多样性并且减少人工成本增加效率。其次,本发明采用概率图思想将三元组联合概率分解成条件概率,同时使用半指针-半标注的形式解决了关系抽取中一个主体词对应多个客体词、一个客体词对应多个主体词以及主体词和客体词对应多个关系问题。最后,使用实体片段分类能够解决指针网络预测过程中尾指针预测错误导致实体过长的问题。同时边界识别关注实体上下文信息而实体分类关注实体自身的信息,两者联合学习,能够提高模型预测准确率。通过实体和关系抽取构建了关于学者的学者画像,能够帮助用户更加高效的关注学者信息同时我们也能够通过这些精确简洁的信息分析学者教育或工作迁移图。并且该工作能够很方便地迁移到其他领域地信息抽取中。
步骤S6:根据识别和分类结果进行用户画像。
本发明还提供一种基于边界与片段分类的学者信息关系抽取***,所述***包括如下模块:模块M1:从百度百科和教室名录中获取不同教师的个人信息和文本内容;模块M101:根据教师名单从互联网中获取不同教师的个人信息的文本内容;模块M102:提取模块M101中得到的html文件中文本内容,删去html标签,得到教师个人信息的一整段纯文本文件;模块M103:根据中文句号以及句子最长长度阈值对文本进行分句;模块M104:标注文本构建实体关系抽取数据集。
模块M2:将文本中实体词进行同类实体词替换扩增训练数据;模块M201:通过实体识别模型BERT-CRF,构建实体库,实体类别包括时间、机构、姓名、院系、学位、职务和职称;模块M202:通过实体识别模型BERT-CRF,将模块M103中得到的句子进行实体识别;模块M203:将模块M202得到的每个句子的实体进行同类实体替换,扩增数据集,替换的实体来自于模块M201构建的实体库。
模块M3:使用BERT预训练模型对文本进行嵌入并提取语义特征;模块M301:将文本进行分词得到的文本矩阵T={t1,t2,···,tn},其中n表示句子分词之后的字符长度;
模块M302:对于每一个字符的输入嵌入向量来自于字符嵌入、位置嵌入以及字符类型嵌入的加和值X={x1,x2,···,xn}作为BERT预训练模型输入,得到包含语义信息的编码向量H={h1,h2,···,hn}。
模块M4:主体词边界识别和实体片段分类;
模块M5:客体词边界以及对应关系边界识别和实体片段分类。
模块M6:根据识别和分类结果进行用户画像。
本发明使用训练好的实体识别模型BERT-CRF构建实体库,并用于关系抽取模型的数据增强,提高了数据集的多样性,减少了人工构造数据集的成本;本发明使用概率图思想将联合概率分布p(s,p,o)转换成条件概率分布p(p,o|s)和半指针-半标注方式解决了关系抽取中一个主体词对应多个客体词,主体词、客体词对应多个关系以及一个客体词对应多个主体词问题;本发明采用实体片段分类,解决指针网络预测过程中由于缺失尾指针导致实体预测过长的问题。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的***及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的***及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于边界与片段分类的学者信息关系抽取方法,其特征在于,所述方法包括如下步骤:
步骤S1:获取不同教师的个人信息和文本内容;
步骤S2:将文本中实体词进行同类实体词替换扩增训练数据;
步骤S3:使用预训练模型对文本进行嵌入并提取语义特征;
步骤S4:主体词边界识别和实体片段分类;
步骤S5:客体词边界以及对应关系边界识别和实体片段分类;
步骤S6:根据识别和分类结果进行用户画像。
2.根据权利要求1所述的一种基于边界与片段分类的学者信息关系抽取方法,其特征在于,所述步骤S1包括如下步骤:
步骤S101:根据教师名单从互联网中获取不同教师的个人信息的文本内容;
步骤S102:提取步骤S101中得到的html文件中文本内容,删去html标签,得到教师个人信息的一整段纯文本文件;
步骤S103:根据中文句号以及句子最长长度阈值对文本进行分句;
步骤S104:标注文本构建实体关系抽取数据集。
3.根据权利要求1所述的一种基于边界与片段分类的学者信息关系抽取方法,其特征在于,所述步骤S2包括如下步骤:
步骤S201:通过实体识别模型BERT-CRF,构建实体库,实体类别包括时间、机构、姓名、院系、学位、职务和职称;
步骤S202:通过实体识别模型BERT-CRF,将步骤S103中得到的句子进行实体识别;
步骤S203:将步骤S202得到的每个句子的实体进行同类实体替换,扩增数据集,替换的实体来自于步骤S201构建的实体库。
4.根据权利要求1所述的一种基于边界与片段分类的学者信息关系抽取方法,其特征在于,所述步骤S3包括如下步骤:
步骤S301:使用BERT预训练模型对文本进行嵌入并提取语义特征;
步骤S302:将文本进行分词得到的文本矩阵T={t1,t2,…,tn},其中n表示句子分词之后的字符长度;tn表示第n个文本分词;
步骤S303:对于每一个字符的输入嵌入向量来自于字符嵌入、位置嵌入以及字符类型嵌入的加和值X={x1,x2,…,xn}作为BERT预训练模型输入,得到包含语义信息的编码向量H={h1,h2,…,hn},其中xn表示第n个加和值;hn表示第n个编码向量值。
5.根据权利要求1所述的一种基于边界与片段分类的学者信息关系抽取方法,其特征在于,所述步骤S4包括如下步骤:
步骤S401:将步骤S302得到的编码向量作为Linear层输入,使用sigmoid激活函数,得到每个token是否是头尾指针的概率,公式如下:
Figure FDA0003124511730000021
Figure FDA0003124511730000022
其中σ表示sigmoid函数,
Figure FDA0003124511730000023
e分别表示第i个字符作为主体词的头指针的概率、第i个字符作为主体词的尾指针的概率;start、end分别表示头指针、尾指针,其中下标s表示主体词;Wstart、Wend分别表示预测头指针概率的可训练的权重矩阵、预测尾指针概率的可训练的权重矩阵,bstart、bend分别表示预测头指针的偏置、预测尾指针的偏置;hi表示由步骤S303获得的第i个字符的编码向量;概率超过某一个阈值,则将其相对应的token分配标记为1,否则标记为0;
步骤S402:遍历所有头指针标记为1的token,其在序列中的位置令为
Figure FDA0003124511730000024
找到位于头指针之后的第一个尾指针,其在序列中的位置令为
Figure FDA0003124511730000025
得到序列
Figure FDA0003124511730000026
令为Hsub,其中H为步骤S303中编码向量H,下标sub表示主体词序列;
步骤S403:遍历步骤S402得到的主体词序列作为双向LSTM,输入得到主体词序列的编码向量ssub,公式如下:
ssub=LSTM(Hsub)
其中LSTM表示双向长短时循环神经网络;
步骤S404:遍历步骤S403得到的主体词编码向量s作为Linear层输入,使用softmax激活函数,得到主体词序列是否是实体的概率,公式如下:
Ps=soffmax(WTssub+b)
其中Ps是主体词序列是否是实体的概率,其中s表示主体词,矩阵W∈Rd×k,d是主体词编码维度,k是实体类别数量,b表示偏置;概率超过某一阈值,则将其对应实体类别标记为1,否则标记为0。
6.根据权利要求1所述的一种基于边界与片段分类的学者信息关系抽取方法,其特征在于,所述步骤S5包括:
步骤S501:将步骤S404预测实体类别为1的主体词编码向量s与向量H相加,作为Linear层输入,使用sigmoid激活函数,得到每个token是否是对应关系的客体词的头尾指针的概率,公式如下:
Figure FDA0003124511730000031
Figure FDA0003124511730000032
其中r表示主体词和客体词关系,其中
Figure FDA0003124511730000033
Figure FDA0003124511730000034
表示序列中第i个字符为客体词的头指针和尾指针概率,
Figure FDA0003124511730000035
Figure FDA0003124511730000036
是预测关系r的头指针和尾指针的可训练权重矩阵,
Figure FDA0003124511730000037
Figure FDA0003124511730000038
表示预测关系r的头指针和尾指针的偏置;
步骤S502:遍历每一个关系r所有头指针标记为1的token,其在序列中的位置令为
Figure FDA0003124511730000039
找到位于头指针之后的第一个尾指针,其在序列中的位置令为
Figure FDA00031245117300000310
预测出主体词对应关系r的客体词序列
Figure FDA00031245117300000311
令为
Figure FDA00031245117300000312
步骤S503:遍历步骤S402得到的主体词序列作为双向LSTM,输入得到的客体词的编码向量s,公式如下:
Figure FDA00031245117300000313
其中LSTM与步骤S403步骤中的LSTM参数共享,
Figure FDA00031245117300000314
是主体词对应关系r的客体词编码向量,obj表示客体词;
步骤S504:遍历步骤S403得到的客体词编码向量s作为Linear层输入,并使用softmax激活函数,得到主体词序列是否是实体的概率,公式如下:
Figure FDA00031245117300000315
其中Ps是客体词序列是否是实体的概率,其中矩阵W∈Rd×k,d是主体词编码维度,k是实体类别数量,并且参数与步骤S404中共享;概率超过某一阈值,则将其对应实体类别标记为1,否则标记为0。
7.一种基于边界与片段分类的学者信息关系抽取***,其特征在于,所述***包括如下模块:
模块M1:获取不同教师的个人信息和文本内容;
模块M2:将文本中实体词进行同类实体词替换扩增训练数据;
模块M3:使用预训练模型对文本进行嵌入并提取语义特征;
模块M4:主体词边界识别和实体片段分类;
模块M5:客体词边界以及对应关系边界识别和实体片段分类;
模块M6:根据识别和分类结果进行用户画像。
8.根据权利要求7所述的一种基于边界与片段分类的学者信息关系抽取***,其特征在于,所述模块M1包括如下模块:
模块M101:根据教师名单从互联网中获取不同教师的个人信息的文本内容;
模块M102:提取模块M101中得到的html文件中文本内容,删去html标签,得到教师个人信息的一整段纯文本文件;
模块M103:根据中文句号以及句子最长长度阈值对文本进行分句;
模块M104:标注文本构建实体关系抽取数据集。
9.根据权利要求7所述的一种基于边界与片段分类的学者信息关系抽取***,其特征在于,所述模块M2包括如下模块:
模块M201:通过实体识别模型BERT-CRF,构建实体库,实体类别包括时间、机构、姓名、院系、学位、职务和职称;
模块M202:通过实体识别模型BERT-CRF,将模块M103中得到的句子进行实体识别;
模块M203:将模块M202得到的每个句子的实体进行同类实体替换,扩增数据集,替换的实体来自于模块M201构建的实体库。
10.根据权利要求7所述的一种基于边界与片段分类的学者信息关系抽取***,其特征在于,所述模块M3包括如下模块:
模块M301:使用BERT预训练模型对文本进行嵌入并提取语义特征;
模块M302:将文本进行分词得到的文本矩阵T={t1,t2,…,tn},其中n表示句子分词之后的字符长度;tn表示第n个文本分词;
模块M303:对于每一个字符的输入嵌入向量来自于字符嵌入、位置嵌入以及字符类型嵌入的加和值X={x1,x2,…,xn}作为BERT预训练模型输入,得到包含语义信息的编码向量H={h1,h2,…,hn},其中xn表示第n个加和值;hn表示第n个编码向量值。
CN202110685661.2A 2021-06-21 2021-06-21 基于边界与片段分类的学者信息关系抽取方法和*** Pending CN113468887A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110685661.2A CN113468887A (zh) 2021-06-21 2021-06-21 基于边界与片段分类的学者信息关系抽取方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110685661.2A CN113468887A (zh) 2021-06-21 2021-06-21 基于边界与片段分类的学者信息关系抽取方法和***

Publications (1)

Publication Number Publication Date
CN113468887A true CN113468887A (zh) 2021-10-01

Family

ID=77868803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110685661.2A Pending CN113468887A (zh) 2021-06-21 2021-06-21 基于边界与片段分类的学者信息关系抽取方法和***

Country Status (1)

Country Link
CN (1) CN113468887A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114239566A (zh) * 2021-12-14 2022-03-25 公安部第三研究所 基于信息增强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质
CN114297366A (zh) * 2021-11-18 2022-04-08 北京智谱华章科技有限公司 一种基于mt5预训练模型的学者职称和年龄预测方法和装置
CN114783559A (zh) * 2022-06-23 2022-07-22 浙江太美医疗科技股份有限公司 医学影像报告信息抽取方法、装置、电子设备和存储介质
CN115510866A (zh) * 2022-11-16 2022-12-23 国网江苏省电力有限公司营销服务中心 一种面向电力领域实体关系协同的知识抽取方法及***
CN116227483A (zh) * 2023-02-10 2023-06-06 南京南瑞信息通信科技有限公司 一种基于词边界的中文实体抽取方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657135A (zh) * 2018-11-13 2019-04-19 华南理工大学 一种基于神经网络的学者用户画像信息抽取方法及模型
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN112215004A (zh) * 2020-09-04 2021-01-12 中国电子科技集团公司第二十八研究所 一种基于迁移学习在军事装备文本实体抽取中的应用方法
CN112487807A (zh) * 2020-12-09 2021-03-12 重庆邮电大学 一种基于膨胀门卷积神经网络的文本关系抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657135A (zh) * 2018-11-13 2019-04-19 华南理工大学 一种基于神经网络的学者用户画像信息抽取方法及模型
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN112215004A (zh) * 2020-09-04 2021-01-12 中国电子科技集团公司第二十八研究所 一种基于迁移学习在军事装备文本实体抽取中的应用方法
CN112487807A (zh) * 2020-12-09 2021-03-12 重庆邮电大学 一种基于膨胀门卷积神经网络的文本关系抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张秋颖等: "基于BERT-BiLSTM-CRF的学者主页信息抽取", 《计算机应用研究》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114297366A (zh) * 2021-11-18 2022-04-08 北京智谱华章科技有限公司 一种基于mt5预训练模型的学者职称和年龄预测方法和装置
CN114239566A (zh) * 2021-12-14 2022-03-25 公安部第三研究所 基于信息增强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质
CN114239566B (zh) * 2021-12-14 2024-04-23 公安部第三研究所 基于信息增强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质
CN114783559A (zh) * 2022-06-23 2022-07-22 浙江太美医疗科技股份有限公司 医学影像报告信息抽取方法、装置、电子设备和存储介质
CN114783559B (zh) * 2022-06-23 2022-09-30 浙江太美医疗科技股份有限公司 医学影像报告信息抽取方法、装置、电子设备和存储介质
CN115510866A (zh) * 2022-11-16 2022-12-23 国网江苏省电力有限公司营销服务中心 一种面向电力领域实体关系协同的知识抽取方法及***
CN116227483A (zh) * 2023-02-10 2023-06-06 南京南瑞信息通信科技有限公司 一种基于词边界的中文实体抽取方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN108182295B (zh) 一种企业知识图谱属性抽取方法及***
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和***
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN113468887A (zh) 基于边界与片段分类的学者信息关系抽取方法和***
CN113177124B (zh) 一种垂直领域知识图谱构建方法及***
CN111767732B (zh) 基于图注意力模型的文档内容理解方法及***
CN106778878B (zh) 一种人物关系分类方法及装置
CN111710428B (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
CN114580424B (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN111143574A (zh) 一种基于少数民族文化知识图谱的查询及可视化***构建方法
CN113051356A (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN115952791A (zh) 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN114756681A (zh) 一种基于多注意力融合的评教文本细粒度建议挖掘方法
CN116070602A (zh) 一种pdf文档智能标注与抽取方法
CN113836306B (zh) 基于篇章成分识别的作文自动测评方法、设备和存储介质
Tarride et al. A comparative study of information extraction strategies using an attention-based neural network
CN113312918B (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN112417155B (zh) 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质
CN111563374B (zh) 一种基于司法裁判文书的人员社交关系抽取方法
CN116975292A (zh) 信息识别方法、装置、电子设备、存储介质及程序产品
CN112148879A (zh) 一种自动给代码打数据结构标签的计算机可读存储介质
CN114661900A (zh) 一种文本标注推荐方法、装置、设备及存储介质
CN115344668A (zh) 一种多领域与多学科科技政策资源检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211001