CN115169326A

CN115169326A - 一种中文关系抽取方法、装置、终端及存储介质

Info

Publication number: CN115169326A
Application number: CN202210392477.3A
Authority: CN
Inventors: 李龙; 张煇; 梁力伟; 王恩慧
Original assignee: Shanxi Changhe Technology Co ltd
Current assignee: Shanxi Changhe Technology Co ltd
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-10-11

Abstract

本发明实施例公开了一种中文关系抽取方法、装置、终端及存储介质，该方法包括：获取待处理的语句的字符表示和所有潜在单词；通过多粒度网格模型基于所述字符表示以及所有的所述潜在单词得到第一特征；通过Bert模型提取所述语句中的第二特征；对所述第一特征与所述第二特征进行拼接得到拼接特征；将所述拼接特征输入softmax分类器，预测所述语句中的实体关系。本方案将Bert与多粒度网格模型进行结合，不仅利用Bert生成句子的字符向量，而且将单词多个含义融人了字符表示进行编码，更好地解决了中文多义词歧义的问题；且实验结果表明，本发明的模型在中文关系抽取任务中取得了更好的效果。

Description

一种中文关系抽取方法、装置、终端及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种中文关系抽取方法、装置、终端及存储介质。

背景技术

关系抽取是信息抽取的子任务之一，具有十分重要的地位，其目的是从冗余、多源分散的文本中抽取出实体对之间的关系，从而构成结构化的实体-关系三元组。关系抽取在知识图谱的构建、关系问答***等众多下游任务上有着广泛的应用价值。如通过抽取人物间关系联合人物实体，可获得人物知识图谱，以实现跨姓的大知识挖掘和推理服务。通过抽取旅游景点、文化之间的关系，可获得文化知识图谱，为实现文化旅游问答***提供基础。

由于关系抽取在自然语言处理领域占据着重要地位，因此获得了大量学者的关注。Liu等人首先提出了CNN(中文名称为：卷积神经网络)的神经网络方法来自动提取句子特征，避免了特征工程带来的错误传播问题，F1值达到59.42；Zeng等人将表达了位置信息的嵌入表示融入到 CNN网络中，通过最大池化获得句子中最重要的特征；受此启发，Zeng等人在其基础上进行扩充，提出了PCNN(Pulse Coupled Neural Network，脉冲耦合神经网络)方法，根据两个给定实体的位置将卷积结果分成三段，并设计分段最大池化层代替单个最大池化层，从而捕获结构信息和其他潜在信息；然而，PCNN模型面临着句子选择的问题，Lin等人将注意力机制应用于包中的所有实例，F1值达到60.55；但由于CNN网络无法捕捉长距离句子特征，因此Zhang等人首先尝试利用RNN(中文名称为：循环神经网络)方法，其在长文本建模时可以体现其记忆优势， F1值达到61.04；Zhou等人又在RNN模型中引入了注意机制，F1值达到 59.48。

上述研究虽然在一定程度上提升了中文关系抽取的准确度，但仍存在一些问题，包括：

(1)基于词的关系抽取模型很大程度依赖分词结果，分词越准确，效果越好，反之就会有错误传播问题。比如句子“达尔文研究所有杜鹃”，如果句子被正确划分为“达尔文/研究/所有/杜鹃”，那么实体“达尔文”和“杜鹃”就可以得到正确的“研究”的关系，但如果句子被划分为“达尔文/研究所/有/杜鹃”，那实体“达尔文”和“杜鹃”就会被错误标注为“属于”的关系。

(2)而基于字符的关系抽取方法虽然不受分词结果影响，但无法捕捉单词的信息，无法解决多义词歧义的问题。如句子中“杜鹃”有着“杜鹃花”和“杜鹃鸟”两种含义，对于基于字符的关系抽取，没有额外知识则很难判别其真实含义。

由此，目前需要有一种更好的方案来解决现有技术中的问题。

发明内容

有鉴于此，本发明提出了一种中文关系抽取方法、装置、终端及存储介质，用以克服现有技术中的问题。

具体的，本发明提出了以下具体的实施例：

本发明实施例提出了一种中文关系抽取方法，包括：

获取待处理的语句的字符表示和所有潜在单词；

通过多粒度网格模型基于所述字符表示以及所有的所述潜在单词得到第一特征；

通过Bert模型提取所述语句中的第二特征；

对所述第一特征与所述第二特征进行拼接得到拼接特征；

将所述拼接特征输入softmax分类器，预测所述语句中的实体关系。

在一个具体的实施例中，所述字符表示通过字符嵌入与位置嵌入进行拼接得到；

所述字符嵌入是通过将所述语句表示为多个字符，并通过Skip gram 模型将每个所述字符进行映射得到的；

所述位置嵌入为每个所述字符到预设头尾实体的相对距离。

在一个具体的实施例中，所述潜在单词是通过整合有外部中文数据库的word2vec对所述语句中的字符串进行转换后得到。

在一个具体的实施例中，所述多粒度网格模型包括LSTM模型。

在一个具体的实施例中，所述拼接基于下列公式来进行：

h^*＝Hα^T；

α＝softmax(w^TH^*)；

H^*＝tanh(H)；

其中,h为第一特征，Vec为第二特征；W为可训练的参数；T代表向量的转置、h^*为拼接特征。

本发明实施例还提出了一种中文关系抽取装置，包括：

获取模块，用于获取待处理的语句的字符表示和所有潜在单词；

第一特征模块，用于通过多粒度网格模型基于所述字符表示以及所有的所述潜在单词得到第一特征；

第二特征模块，用于通过Bert模型提取所述语句中的第二特征；

拼接模块，用于对所述第一特征与所述第二特征进行拼接得到拼接特征；

预测模块，用于将所述拼接特征输入softmax分类器，预测所述语句中的实体关系。

所述位置嵌入为每个所述字符到预设头尾实体的相对距离。

本发明实施例还提出了一种终端，包括处理器与存储器，所述存储器中存储有计算机程序，所述处理器在执行所述计算机程序时实现上述的方法。

本发明实施例还提出了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被执行时实现上述的方法。

以此，本发明实施例提出了一种中文关系抽取方法、装置、终端及存储介质，该方法包括：获取待处理的语句的字符表示和所有潜在单词；通过多粒度网格模型基于所述字符表示以及所有的所述潜在单词得到第一特征；通过Bert模型提取所述语句中的第二特征；对所述第一特征与所述第二特征进行拼接得到拼接特征；将所述拼接特征输入softmax分类器，预测所述语句中的实体关系。本方案将Bert与多粒度网格模型进行结合，不仅利用Bert生成句子的字符向量，而且将单词多个含义融入了字符表示进行编码，更好地解决了中文多义词歧义的问题；且实验结果表明，本发明的模型在中文关系抽取任务中取得了更好的效果。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。

图1示出了本发明实施例提出的一种中文关系抽取方法的流程示意图；

图2示出了本发明实施例提出的一种中文关系抽取方法中联合Bert 和多粒度网格网络的中文关系抽取模型示意图；

图3示出了本发明实施例提出的一种中文关系抽取装置的结构示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下文中，可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本发明的各种实施例中被清楚地限定。

实施例1

本发明实施例1公开了一种中文关系抽取方法，如图1所示，包括以下步骤：

步骤101、获取待处理的语句的字符表示和所有潜在单词；

具体的的，所述字符表示通过字符嵌入与位置嵌入进行拼接得到；所述字符嵌入是通过将所述语句表示为多个字符，并通过Skip gram模型将每个所述字符进行映射得到的；所述位置嵌入为每个所述字符到预设头尾实体的相对距离。

具体的，具体的，首先将句子s表示为由M个字符s＝{c₁，c₂，…，c_M}组成的一个字符序列，通过Skip gram模型将每个字符c_i映射为一个d^c维字符嵌入，表示为

此外，利用位置嵌入来指定实体对，将每个字符的位置嵌入表示为当前字符到头实体和尾实体的相对距离，分别表示为

由字符嵌入和位置嵌入拼接得到字符c_i的向量表示

其中

得到最终句子的字符表示

具体的，为了捕获单词级特征，还需要输入句子中所有潜在单词的信息。在这里，潜在单词是它与在分段的大型原始文本上构建的词典中的单词相匹配的任何字符子序列，w_b，e作为从第b个字符开始，到第e个字符结束的子序列。如果使用word2vec将单词w_b，e转换为实值向量

只能将其映射到一个嵌入，忽略了许多单词具有多个词义的事实。因此将一个外部知识库整合到模型(如图2所示)中以表示词义。w_b，e的词义集合表示为Sense(w_b，e)，将其中的每个词义

转化为实值向量

最后，将单词w_b，e表示为一个向量集合

步骤102、通过多粒度网格模型基于所述字符表示以及所有的所述潜在单词得到第一特征；

具体的，所述多粒度网格模型包括LSTM模型。

具体的，编码器部分将外部知识与词义消歧结合起来，使用多粒度网格LSTM网络为每个输入实例构造分布式表示。编码器的直接输入是一个字符序列，以及词典中的所有潜在单词。经过训练后，编码器的输出是输入句子的隐藏状态向量。

首先，LSTM单元由四个基本的门结构组成：输入门i_j控制哪些信息进入单元；输出门o_j控制将从单元输出的信息；忘记门f_j控制单元中哪些信息将被删除。所有三个门都带有权重矩阵为W(包括W_i、W_o、W_f、 W_c)与U(包括U_i、U_o、U_f、U_c)、b_i、b_o、b_f与b_c代表其偏置向量。σ()表示sigmoid函数，当前单元状态c_j记录截止当前时间的所有历史信息流。因此，基于字符的LSTM函数包括：

其中，

表示句子中第j个字符向量，

表示前一时刻隐藏状态的向量表示。

对于与词典相匹配的每个单词w_b，e，其第k个词义表示为

将其所有词义表示都计算在内，单词w_b，e的第k个词义的计算为：

其中

表示输入门与输出门的单词级别的集合，

表示单词w_b，e的第k个词义的记忆单元，然后将所有词义合并为一个综合表示

以计算w_b，e的记忆单元：

所有词义的状态都将被计算在单词表示

中，可以更好地表示多义词。D表示与其匹配的词汇表，

表示以第e个字符结尾的与D匹配的所有单词，所有循环路径将流入字符e得到当前单元

其中

为正则化项。

最后，使用公式3计算序列中每个字符的最终隐藏状态向量

步骤103、通过Bert模型提取所述语句中的第二特征；

为了更好地解决中文一词多义问题，因此引入Bert模型从整个输入语句中提取特征，首先，它使用Masked Language Model(MLM)和Next Sentence Prediction(NSP)作为新的训练任务；其次，使用了大量数据和计算能力来满足Bert的训练强度。因此利用Bert可以更好地提取输入的汉语句子s中的特征：Vec＝Bert(s)。

步骤104、对所述第一特征与所述第二特征进行拼接得到拼接特征；

具体的，分别学习了一个实例的隐藏状态后，将h和Vec进行合并：

得到最终的隐藏状态后，采用字符级注意力机制来合并特征：

H^*＝tanh(H) (12)

α＝softmax(w^TH^*) (13)

h^*＝Hα^T (14)

其中，W为可训练的参数；T代表向量的转置、h^*为拼接特征。

步骤105、将所述拼接特征输入softmax分类器，预测所述语句中的实体关系。

具体的，将h^*输入softmax分类器来预测关系：

o＝Wh^*+b (15)

p(y|s)＝softmax(o) (16)

对于所有训练实例(Sⁱ，yⁱ)，使用交叉熵定义目标函数：

本发明采用SanWen数据集进行实验，数据集的句子来自837篇中文文献，数据集包含9种类型，分别为Unknow,Create,Use,Near,Social, Located,Ownership,General-Special,Family,Part-Whole。数据集详细信息如表1所示。

表1 SanWen数据集

数据集	训练集	验证集	测试集
				SanWen	695	58	84

本发明模型中使用的参数取值如表2所示。通过实验证明，表2中的取值为本发明中最好的超参数取值。

表2参数取值

超参数	值
		学习率	0.0005
Dropout	0.5
		字符嵌入	100
网格嵌入	200
		位置嵌入	5
LSTM隐藏层	200
		正则化	1e-8

表3将本发明模型结果与各基线模型的F1值与AUC进行了对比， Zeng等人提出了一个CNN模型。Zeng等人在此基础上加入位置嵌入，提出了分段CNN模型。在PCNN模型的基础上，Lin等人添加了选择性注意机制，Li等人提出了多粒度网格网络。从结果中，我们可以观察到由于分词的准确性以及多义词信息的存在，本发明模型在所有模型中表现最好，因此语义层次的信息可以提高从文本中获取深层语义信息的能力。

表3各模型F1值与AUC对比

实施例2

为了对本发明进行进一步的说明，本发明实施例2还公开了一种中文关系抽取装置，如图3所示，包括：

获取模块201，用于获取待处理的语句的字符表示和所有潜在单词；

第一特征模块202，用于通过多粒度网格模型基于所述字符表示以及所有的所述潜在单词得到第一特征；

第二特征模块203，用于通过Bert模型提取所述语句中的第二特征；

拼接模块204，用于对所述第一特征与所述第二特征进行拼接得到拼接特征；

预测模块205，用于将所述拼接特征输入softmax分类器，预测所述语句中的实体关系。

进一步的，所述字符表示通过字符嵌入与位置嵌入进行拼接得到；

所述字符嵌入是通过将所述语句表示为多个字符，并通过Skipgram 模型将每个所述字符进行映射得到的；

所述位置嵌入为每个所述字符到预设头尾实体的相对距离。

进一步的，所述潜在单词是通过整合有外部中文数据库的word2vec 对所述语句中的字符串进行转换后得到。

进一步的，所述多粒度网格模型包括LSTM模型。

进一步的，所述拼接基于下列公式来进行：

h^*＝Hα^T；

α＝softmax(w^TH^*)；

H^*＝tanh(H)；

实施例3

本发明实施例3还公开了一种终端，包括处理器与存储器，所述存储器中存储有计算机程序，所述处理器在执行所述计算机程序时实现实施例 1中所述的方法。

实施例4

本发明实施例4还公开了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被执行时实现实施例1中所述的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器 (ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种中文关系抽取方法，其特征在于，包括：

获取待处理的语句的字符表示和所有潜在单词；

通过Bert模型提取所述语句中的第二特征；

对所述第一特征与所述第二特征进行拼接得到拼接特征；

2.如权利要求1所述的方法，其特征在于，所述字符表示通过字符嵌入与位置嵌入进行拼接得到；

所述字符嵌入是通过将所述语句表示为多个字符，并通过Skip gram模型将每个所述字符进行映射得到的；

所述位置嵌入为每个所述字符到预设头尾实体的相对距离。

3.如权利要求1所述的方法，其特征在于，所述潜在单词是通过整合有外部中文数据库的word2vec对所述语句中的字符串进行转换后得到。

4.如权利要求1所述的方法，其特征在于，所述多粒度网格模型包括LSTM模型。

5.如权利要求1所说的方法，其特征在于，所述拼接基于下列公式来进行：

h^*＝Hα^T；

α＝softmax(w^TH^*)；

H^*＝tanh(H)；

其中，h为第一特征，Vec为第二特征；W为可训练的参数；T代表向量的转置、h^*为拼接特征。

6.一种中文关系抽取装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述字符表示通过字符嵌入与位置嵌入进行拼接得到；

所述位置嵌入为每个所述字符到预设头尾实体的相对距离。

8.一种终端，其特征在于，包括处理器与存储器，所述存储器中存储有计算机程序，所述处理器在执行所述计算机程序时实现权利要求1-5任一项所述的方法。

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序被执行时实现权利要求1-5任一项所述的方法。