CN113468887A

CN113468887A - 基于边界与片段分类的学者信息关系抽取方法和***

Info

Publication number: CN113468887A
Application number: CN202110685661.2A
Authority: CN
Inventors: 曹安蕲; 唐果; 傅洛伊; 王新兵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2021-10-01

Abstract

本发明提供了一种基于边界与片段分类的学者信息关系抽取方法，所述方法包括如下步骤：步骤S1：获取不同教师的个人信息和文本内容；步骤S2：将文本中实体词进行同类实体词替换扩增训练数据；步骤S3：使用预训练模型对文本进行嵌入并提取语义特征；步骤S4：主体词边界识别和实体片段分类；步骤S5：客体词边界以及对应关系边界识别和实体片段分类；步骤S6：根据识别和分类结果进行用户画像。利用概率图思想、结合半指针‑半标注方式，解决关系抽取中一个主体词对应多个客体词，一个客体词对应多个主体词，两个相同实体之间关系不同的问题。利用边界增强实体片段分类的方式能够降低尾指针预测错误带来的影响，提高实体关系抽取准确率。

Description

基于边界与片段分类的学者信息关系抽取方法和***

技术领域

本发明涉及机器学习和自然语言处理的技术领域，具体地，涉及基于边界与片段分类的学者信息关系抽取方法和***。

背景技术

构建学者画像需要从文本中抽取出学者姓名、邮箱、职称、个人主页、教育经历和工作经历等信息，学者信息大多来源于其个人主页或者介绍性网页中(百度百科、学校教师名录)，存在信息来源少、数据噪声大以及数据信息冗余多的问题，并且学者信息文本是通过预处理从网页爬取到的html文件得到的与传统意义上的自然文本存在一定语法差异，因此很难通过自定义规则方法提取出这些信息，然而人工提取这些网页的学者信息存在工作量大、效率低等问题，所以利用自然语言处理中的实体关系抽取技术对这些网页文本进行信息提取是十分重要的。

实体关系抽取是信息抽取领域中的一个重要分支，其包含两个子任务：实体识别和关系抽取，即从一段自然文本中识别出实体，并抽取出各实体对之间的关系，最终形成关系三元组<s，p，o>，其中s代表主体词(subject)，p代表谓词，即关系(predicate)，o代表客体词(object)。实体指文本中时间、地点、人物和组织等概念；关系指实体之间的语义联系。

目前实体关系抽取主要采用神经网络模型，主要有两种实现模式：1、流水线形式；2、联合抽取模式。流水线方法指在实体识别完成后，直接进行实体之间的关系抽取，虽然流水线式学习易于实现，并且两个抽取模型的灵活性高，实体识别模型和关系抽取模型可以采用独立数据集，但是实体识别模型的错误会影响关系抽取模型的效果，出现误差传播的现象，同时实体识别模型会得到许多冗余的实体，增加了后续关系抽取任务的难度和复杂度，并且流水线式学习忽略了两个任务之间的联系，因此研究者们将命名实体识别和关系抽取融合成一个任务，进行联合学习，联合学习能够在一定程度上缓解误差的传播，并且两个任务融合成一个模型，增加了模型学习和预测的效率，提高了模型的鲁棒性，近几年Transformer模型大幅度提高了自然语言处理不同领域任务的精度，并且微调Transformer预训练模型能够降低训练模型的数据量，因此，本发明在BERT预训练模型的基础上，采用了指针网络和片段分类模型，对文本进行实体关系抽取。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于边界与片段分类的学者信息关系抽取方法和***。

根据本发明提供的一种基于边界与片段分类的学者信息关系抽取方法，所述方法包括如下步骤：

步骤S1：获取不同教师的个人信息和文本内容；

步骤S2：将文本中实体词进行同类实体词替换扩增训练数据；

步骤S3：使用预训练模型对文本进行嵌入并提取语义特征；

步骤S4：主体词边界识别和实体片段分类；

步骤S5：客体词边界以及对应关系边界识别和实体片段分类；

步骤S6：根据识别和分类结果进行用户画像。

优选地，所述步骤S1包括如下步骤：

步骤S101：根据教师名单从互联网中获取不同教师的个人信息的文本内容；

步骤S102：提取步骤S101中得到的html文件中文本内容，删去html标签，得到教师个人信息的一整段纯文本文件；

步骤S103：根据中文句号以及句子最长长度阈值对文本进行分句；

步骤S104：标注文本构建实体关系抽取数据集。

优选地，所述步骤S2包括如下步骤：

步骤S201：通过实体识别模型BERT-CRF，构建实体库，实体类别包括时间、机构、姓名、院系、学位、职务和职称；

步骤S202：通过实体识别模型BERT-CRF，将步骤S103中得到的句子进行实体识别；

步骤S203：将步骤S202得到的每个句子的实体进行同类实体替换，扩增数据集，替换的实体来自于步骤S201构建的实体库。

优选地，所述步骤S3包括如下步骤：

步骤S301：使用BERT预训练模型对文本进行嵌入并提取语义特征；

步骤S302：将文本进行分词得到的文本矩阵T＝{t₁，t₂，···，t_n}，其中n表示句子分词之后的字符长度；t_n表示第n个文本分词；

步骤S303：对于每一个字符的输入嵌入向量来自于字符嵌入、位置嵌入以及字符类型嵌入的加和值X＝{x₁，x₂，···，x_n}作为BERT预训练模型输入，得到包含语义信息的编码向量H＝{h₁，h₂，···，h_n}，其中x_n表示第n个加和值；h_n表示第n个编码向量值。

优选地，所述步骤S4包括如下步骤：

步骤S401：将步骤S302得到的编码向量作为Linear层输入，使用sigmoid激活函数，得到每个token是否是头尾指针的概率，公式如下：

其中σ表示sigmoid函数，

分别表示第i个字符作为主体词的头指针的概率、第i个字符作为主体词的尾指针的概率；start、end分别表示头指针、尾指针，其中下标s表示主体词；W_start、W_end分别表示预测头指针概率的可训练的权重矩阵、预测尾指针概率的可训练的权重矩阵，b_start、b_end分别表示预测头指针的偏置、预测尾指针的偏置；h_i表示由步骤S303获得的第i个字符的编码向量；概率超过某一个阈值，则将其相对应的token分配标记为1，否则标记为0；

步骤S402：遍历所有头指针标记为1的token，其在序列中的位置令为y_starts，找到位于头指针之后的第一个尾指针，其在序列中的位置令为

得到序列

令为H_sub，其中H为步骤S303中编码向量H，下标sub表示主体词序列；

步骤S403：遍历步骤S402得到的主体词序列作为双向LSTM，输入得到主体词序列的编码向量s_sub，公式如下：

s_sub＝LSTM(H_sub)

其中LSTM表示双向长短时循环神经网络；

步骤S404：遍历步骤S403得到的主体词编码向量s作为Linear层输入，使用softmax激活函数，得到主体词序列是否是实体的概率，公式如下：

P_s＝softmax(W^Ts_sub+b)

其中P_s是主体词序列是否是实体的概率，其中s表示主体词，矩阵W∈R^d×k,d是主体词编码维度，k是实体类别数量，b表示偏置；概率超过某一阈值，则将其对应实体类别标记为1，否则标记为0。

优选地，所述步骤S5包括：

步骤S501：将步骤S404预测实体类别为1的主体词编码向量s与向量H相加，作为Linear层输入，使用sigmoid激活函数，得到每个token是否是对应关系的客体词的头尾指针的概率，公式如下：

其中r表示主体词和客体词关系，其中

和

表示序列中第i个字符为客体词的头指针和尾指针概率，

和

是预测关系r的头指针和尾指针的可训练权重矩阵，

和

表示预测关系r的头指针和尾指针的偏置；

步骤S502：遍历每一个关系r所有头指针标记为1的token，其在序列中的位置令为

找到位于头指针之后的第一个尾指针，其在序列中的位置令为

预测出主体词对应关系r的客体词序列

令为

步骤S503：遍历步骤S402得到的主体词序列作为双向LSTM，输入得到的客体词的编码向量s，公式如下：

其中LSTM与步骤S403步骤中的LSTM参数共享，

是主体词对应关系r的客体词编码向量，obj表示客体词；

步骤S504：遍历步骤S403得到的客体词编码向量s作为Linear层输入，并使用softmax激活函数，得到主体词序列是否是实体的概率，公式如下：

其中P_s是客体词序列是否是实体的概率，其中矩阵W∈R^d×k，d是主体词编码维度，k是实体类别数量，并且参数与步骤S404中共享；概率超过某一阈值，则将其对应实体类别标记为1，否则标记为0。

本发明还提供一种基于边界与片段分类的学者信息关系抽取***，所述***包括如下模块：

模块M1：获取不同教师的个人信息和文本内容；

模块M2：将文本中实体词进行同类实体词替换扩增训练数据；

模块M3：使用预训练模型对文本进行嵌入并提取语义特征；

模块M4：主体词边界识别和实体片段分类；

模块M5：客体词边界以及对应关系边界识别和实体片段分类；

模块M6：根据识别和分类结果进行用户画像。

优选地，所述模块M1包括如下模块：

模块M101：根据教师名单从互联网中获取不同教师的个人信息的文本内容；

模块M102：提取模块M101中得到的html文件中文本内容，删去html标签，得到教师个人信息的一整段纯文本文件；

模块M103：根据中文句号以及句子最长长度阈值对文本进行分句；

模块M104：标注文本构建实体关系抽取数据集。

优选地，所述模块M2包括如下模块：

模块M201：通过实体识别模型BERT-CRF，构建实体库，实体类别包括时间、机构、姓名、院系、学位、职务和职称；

模块M202：通过实体识别模型BERT-CRF，将模块M103中得到的句子进行实体识别；

模块M203：将模块M202得到的每个句子的实体进行同类实体替换，扩增数据集，替换的实体来自于模块M201构建的实体库。

优选地，所述模块M3包括如下模块：

模块M301：使用BERT预训练模型对文本进行嵌入并提取语义特征；

模块M302：将文本进行分词得到的文本矩阵T＝{t₁，t₂，…，t_n}，其中n表示句子分词之后的字符长度；t_n表示第n个文本分词；

模块M303：对于每一个字符的输入嵌入向量来自于字符嵌入、位置嵌入以及字符类型嵌入的加和值X＝{x₁，x₂，…，x_n}作为BERT预训练模型输入，得到包含语义信息的编码向量H＝{h₁，h₂，…，h_n}，其中x_n表示第n个加和值；h_n表示第n个编码向量值。

与现有技术相比，本发明具有如下的有益效果：

1、本发明使用训练好的实体识别模型BERT-CRF构建实体库，并用于关系抽取模型的数据增强，提高了数据集的多样性，减少了人工构造数据集的成本；

2、本发明使用概率图思想将联合概率分布p(s，p，o)转换成条件概率分布p(p，o|s)和半指针-半标注方式解决了关系抽取中一个主体词对应多个客体词，主体词、客体词对应多个关系以及一个客体词对应多个主体词问题；

3、本发明采用实体片段分类，解决指针网络预测过程中由于缺失尾指针导致实体预测过长的问题。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的关系抽取模型预测流程图；

图2为本发明数据集扩增的流程图；

图3为本发明的基于边界增强的片段分类关系抽取模型的示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

参照图1，本发明提供一种基于边界与片段分类的学者信息关系抽取方法，包括如下步骤：

步骤S1：从百度百科和教师名录中获取不同教师的个人信息的文本内容；步骤S1包括：爬虫爬取学者信息，预处理文本，构建基础数据集。步骤S101：根据教师名单从互联网中获取不同教师的个人信息的文本内容；步骤S102：提取步骤S101中得到的html文件中文本内容(删去html标签)，得到教师个人信息的一整段纯文本文件；步骤S103：根据中文句号以及句子最长长度阈值对文本进行分句；步骤S104：人工标注文本构建实体关系抽取数据集。其数据格式如下：

{"text":"2012.12在华中师范大学高分子化学研究所学院获得农学硕士学位。",

"spo_list":[

["农学硕士学位",26,"硕士学位-时间","2012.12",0],

…]}

其中"text"字段为从网页中获取的文本，"spo_list"字段记录该文本中<s,p,o>三元组，其中每一个列表是一个三元组，列表中第一个元素是主体词，第二个元素是主体词第一个字符在文本中的位置，第三个元素是主体词与客体词的关系，第4个元素是客体词，最后一个元素是客体词第一个字符在文本中的位置。

步骤S2：参照图2，将文本中实体词进行同类实体词替换扩增训练数据；步骤S2包括：构建实体库，运用实体库对数据进行扩增并进行训练集和测试集划分。步骤S201：通过实体识别模型BERT-CRF，构建实体库(实体类别包括：时间、机构、姓名、院系、学位、职务、职称)；其格式如下；

{"time":["2012-10","2002","2002年","2012.10",…],

"degree:["本科","硕士","博士",…],

…}

其中包含time,degree,institute,department,title,job,name字段，每一个字段记录类别是该字段的实体。

步骤S202：通过实体识别模型BERT-CRF，将步骤S103中得到的句子进行实体识别(实体类别同步骤S201中实体库中实体类别)；步骤S203：将步骤S202得到的每个句子的实体进行同类实体替换，扩增数据集，其中替换的实体来自于步骤S201构建的实体库。

步骤S3：参照图3，使用BERT预训练模型对文本进行词嵌入并提取语义特征；步骤S3包括：加载预训练的BERT模型对文本进行嵌入得到词向量。步骤S301：将文本进行分词得到的文本矩阵T＝{t₁,t₂,…t_n}，其中n表示句子分词之后字符长度；对于每一个字符的输入嵌入向量来自于字符嵌入、位置嵌入以及字符类型嵌入的加和值X＝{x₁,x₂,…,x_n}作为BERT预训练模型输入，得到包含语义信息的编码向量H＝{h₁,h₂,…,h_n}。

步骤S4：主体词边界识别和实体片段分类；步骤S4包括：预测主体词头、尾指针，并对得到的实体序列进行分类。

步骤S401：将步骤S302得到的编码向量作为Linear层输入，并使用sigmoid激活函数，得到每个token是否是头尾指针的概率，公式如下；

其中σ表示sigmoid函数，

和

表示第i个字符作为主体词的头和尾指针的概率；start和end表示头指针和尾指针，其中s表示主体词；W_start和W_end表示预测头指针和尾指针概率的可训练的权重矩阵，b_start和b_end表示预测头指针和尾指针的偏置；h_i表示由步骤S303获得的第i个字符的编码向量；概率超过某一个阈值，则将其相对应的token分配标记为1，否则标记为0。

步骤S402：遍历所有头指针标记为1的token(其在序列中的位置令为

)，找到位于头指针之后的第一个尾指针(其在序列中的位置令为

)得到序列

(令为H_sub)。

其中L_sub表示主体词边界，

表示第i个字符标签是否为头尾指针，

表示第i个字符模型预测头尾指针的概率；

步骤S403：遍历步骤S402得到的主体词序列作为双向LSTM(长短时循环神经网络)输入得到主体词的编码向量s，公式如下：

s_sub＝LSTM(H_sub)

其中LSTM表示双向长短时循环神经网络；

步骤S404：遍历步骤S403得到的主体词编码向量s作为Linear层输入，并使用softmax激活函数，得到主体词序列是否是实体的概率，公式如下：

P_s＝softmax(W^Ts_sub+b)

其中P_s是主体词序列是否是实体的概率，其中s表示主体词，矩阵W∈R^d×k,d是主体词编码维度，k是实体类别数量，b表示偏置。如果概率超过某一阈值，则将其对应实体类别标记为1，否则标记为0。主体词实体分类的损失函数采用交叉熵损失函数,其公式如下：

其中class表示真实实体的类型，

表示主体词片段分类的损失函数，n表示主体词片段数量，i表示第i个实体片段，j表示主体词类型标签。

步骤S5：客体词边界以及对应关系边界识别和实体片段分类。步骤S5包括：预测对应关系的客体词边界，预测客体词实体类型。

步骤S501：将步骤S404预测实体类别为1的主体词编码向量s与向量H相加，作为Linear层输入，并使用sigmoid激活函数，得到每个token是否是对应关系的客体词的头尾指针的概率，公式如下：

其中r表示主体词和客体词关系，其中

和

表示序列中第i个字符为客体词的头指针和尾指针概率，

和

是预测关系r的头指针和尾指针的可训练权重矩阵，

和

表示预测关系r的头指针和尾指针的偏置。

步骤S502：遍历每一个关系r所有头指针标记为1的token(其在序列中的位置令为

)，预测出主体词对应关系r的客体词序列

(令为

)。客体词头尾预测、指针网络的损失函数采用的二元交叉熵损失函数，其公式如下：

其中L_obj表示主体词边界，

表示第i个字符标签是否为头尾指针，

表示第i个字符模型预测头尾指针的概率；

步骤S503：遍历步骤S402得到的主体词序列作为双向LSTM(长短时循环神经网络)输入得到的客体词的编码向量s，公式如下：

其中LSTM与步骤S403步骤中的LSTM参数共享，s_obj^r是主体词对应关系r的客体词编码向量，obj表示客体词。

其中P_s是客体词序列是否是实体的概率，其中矩阵W∈R^d×k，d是主体词编码维度，k是实体类别数量，并且参数与步骤S404中共享。如果概率超过某一阈值，则将其对应实体类别标记为1，否则标记为0。客体词实体分类的损失函数采用交叉熵损失函数,其公式如下：

其中class表示真实实体的类型，

步骤S505:整个模型的损失函数为主体词边界损失、客体词边界损失以及实体分类损失，其公式如下:

训练时使用自适应学习算法Adam进行参数优化。

首先，本发明通过实体识别模型BERT-CRF扩增数据集，能大大增加数据集多样性并且减少人工成本增加效率。其次，本发明采用概率图思想将三元组联合概率分解成条件概率，同时使用半指针-半标注的形式解决了关系抽取中一个主体词对应多个客体词、一个客体词对应多个主体词以及主体词和客体词对应多个关系问题。最后，使用实体片段分类能够解决指针网络预测过程中尾指针预测错误导致实体过长的问题。同时边界识别关注实体上下文信息而实体分类关注实体自身的信息，两者联合学习，能够提高模型预测准确率。通过实体和关系抽取构建了关于学者的学者画像，能够帮助用户更加高效的关注学者信息同时我们也能够通过这些精确简洁的信息分析学者教育或工作迁移图。并且该工作能够很方便地迁移到其他领域地信息抽取中。

步骤S6：根据识别和分类结果进行用户画像。

本发明还提供一种基于边界与片段分类的学者信息关系抽取***，所述***包括如下模块：模块M1：从百度百科和教室名录中获取不同教师的个人信息和文本内容；模块M101：根据教师名单从互联网中获取不同教师的个人信息的文本内容；模块M102：提取模块M101中得到的html文件中文本内容，删去html标签，得到教师个人信息的一整段纯文本文件；模块M103：根据中文句号以及句子最长长度阈值对文本进行分句；模块M104：标注文本构建实体关系抽取数据集。

模块M2：将文本中实体词进行同类实体词替换扩增训练数据；模块M201：通过实体识别模型BERT-CRF，构建实体库，实体类别包括时间、机构、姓名、院系、学位、职务和职称；模块M202：通过实体识别模型BERT-CRF，将模块M103中得到的句子进行实体识别；模块M203：将模块M202得到的每个句子的实体进行同类实体替换，扩增数据集，替换的实体来自于模块M201构建的实体库。

模块M3：使用BERT预训练模型对文本进行嵌入并提取语义特征；模块M301：将文本进行分词得到的文本矩阵T＝{t₁，t₂，···，t_n}，其中n表示句子分词之后的字符长度；

模块M302：对于每一个字符的输入嵌入向量来自于字符嵌入、位置嵌入以及字符类型嵌入的加和值X＝{x₁，x₂，···，x_n}作为BERT预训练模型输入，得到包含语义信息的编码向量H＝{h₁，h₂，···，h_n}。

模块M4：主体词边界识别和实体片段分类；

模块M5：客体词边界以及对应关系边界识别和实体片段分类。

模块M6：根据识别和分类结果进行用户画像。

本发明使用训练好的实体识别模型BERT-CRF构建实体库，并用于关系抽取模型的数据增强，提高了数据集的多样性，减少了人工构造数据集的成本；本发明使用概率图思想将联合概率分布p(s,p,o)转换成条件概率分布p(p,o|s)和半指针-半标注方式解决了关系抽取中一个主体词对应多个客体词，主体词、客体词对应多个关系以及一个客体词对应多个主体词问题；本发明采用实体片段分类，解决指针网络预测过程中由于缺失尾指针导致实体预测过长的问题。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的***及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的***及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于边界与片段分类的学者信息关系抽取方法，其特征在于，所述方法包括如下步骤：

步骤S1：获取不同教师的个人信息和文本内容；

步骤S3：使用预训练模型对文本进行嵌入并提取语义特征；

步骤S4：主体词边界识别和实体片段分类；

步骤S6：根据识别和分类结果进行用户画像。

2.根据权利要求1所述的一种基于边界与片段分类的学者信息关系抽取方法，其特征在于，所述步骤S1包括如下步骤：

步骤S104：标注文本构建实体关系抽取数据集。

3.根据权利要求1所述的一种基于边界与片段分类的学者信息关系抽取方法，其特征在于，所述步骤S2包括如下步骤：

4.根据权利要求1所述的一种基于边界与片段分类的学者信息关系抽取方法，其特征在于，所述步骤S3包括如下步骤：

步骤S302：将文本进行分词得到的文本矩阵T＝{t₁，t₂，…，t_n}，其中n表示句子分词之后的字符长度；t_n表示第n个文本分词；

步骤S303：对于每一个字符的输入嵌入向量来自于字符嵌入、位置嵌入以及字符类型嵌入的加和值X＝{x₁，x₂，…，x_n}作为BERT预训练模型输入，得到包含语义信息的编码向量H＝{h₁，h₂，…，h_n}，其中x_n表示第n个加和值；h_n表示第n个编码向量值。

5.根据权利要求1所述的一种基于边界与片段分类的学者信息关系抽取方法，其特征在于，所述步骤S4包括如下步骤：

其中σ表示sigmoid函数，

e分别表示第i个字符作为主体词的头指针的概率、第i个字符作为主体词的尾指针的概率；start、end分别表示头指针、尾指针，其中下标s表示主体词；W_start、W_end分别表示预测头指针概率的可训练的权重矩阵、预测尾指针概率的可训练的权重矩阵，b_start、b_end分别表示预测头指针的偏置、预测尾指针的偏置；hi表示由步骤S303获得的第i个字符的编码向量；概率超过某一个阈值，则将其相对应的token分配标记为1，否则标记为0；

步骤S402：遍历所有头指针标记为1的token，其在序列中的位置令为