CN114626373A

CN114626373A - 实体关系的抽取方法、装置、存储介质及计算机设备

Info

Publication number: CN114626373A
Application number: CN202210208071.5A
Authority: CN
Inventors: 罗琴; 唐光远; 李润静; 张俊杰; 熊琼
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2022-06-14
Anticipated expiration: 2042-03-04
Also published as: CN114626373B

Abstract

本申请实施例公开了一种实体关系的抽取方法、装置、存储介质及计算机设备，涉及文本处理领域。本申请基于深度学习的方法训练模型和抽取实体关系，相对于现有技术中的基于人工词典和规则方法抽取实体关系来说，可以减少人工标注的工作量，提高实体关系抽取的效率和准确性。

Description

实体关系的抽取方法、装置、存储介质及计算机设备

技术领域

本申请涉及文本处理领域，尤其涉及一种实体关系的抽取方法、装置、存储介质及计算机设备。

背景技术

企业对外采购物料之前，需要将接线图纸形成核价BOM表，此过程依赖大量人工作业，具有耗时耗力的问题，为解决该问题相关技术利用人工智能的语义分析与图片分析等技术结合完成接线图的原材料提取与用量统计。一段新闻或者文字中获取自己需要的且重要的信息以及它们之间存在的关系，因此关系抽取就显得十分重要，便于快速从文本中检索出我们需要的关键信息，而且能识别出它们之间的对应关系。这对于工业文件的数据挖掘和知识发现研究的展开有着重要意义和研究价值。所以关系抽取就可以应用到接线图纸形成核价BOM表这个项目中。

早期实体关系抽取均是基于人工词典和规则的方法，这类方法需要耗费大量的人工作业进行标注，且实体关系抽取的效率和准确性不高。

发明内容

本申请实施例提供了实体关系的抽取方法、装置、存储介质及计算机设备，可以解决现有技术中抽取实体关系存在效率不高和准确性不高的问题。所述技术方案如下：

第一方面，本申请实施例提供了一种实体关系的抽取方法，所述方法包括：

对工业文本文件进行数据清洗和分句得到得到多个语句；

对所述语句进行真实实体关系的标注得到标注语句；

将所述标注语句输入到ELECTRA预训练模型得到词向量；

将所述词向量输入到BiGRU模型得到中间向量；

将所述中间向量输入到CNN模型得到文本特征向量；

通过全连接层中的softmax分类器对所述文本特征向量进行处理得到所述语句的预测实体关系；

计算所述预测实体关系和真实实体关系之间的误差；

根据所述误差更新所述ELECTRA预训练模型的网络权重得到目标ELECTRA模型；

部署所述目标ELECTRA模型；

完成部署后，利用所述目标ELECTRA模型抽取待识别工业文本文件的实体关系。

第二方面，本申请实施例提供了一种实体关系的抽取装置，所述装置包括：

预处理单元，用于对工业文本文件进行数据清洗和分句得到得到多个语句；

标注单元，用于对所述语句进行真实实体关系的标注得到标注语句；

向量生成单元，用于将所述标注语句输入到ELECTRA预训练模型得到词向量；

所述向量生成单元，还用于将所述词向量输入到BiGRU模型得到中间向量；

所述向量生成单元，还用于将所述中间向量输入到CNN模型得到文本特征向量；

预测单元，用于通过全连接层中的softmax分类器对所述文本特征向量进行处理得到所述语句的预测实体关系；

计算单元，用于计算所述预测实体关系和真实实体关系之间的误差；

更新单元，用于根据所述误差更新所述ELECTRA预训练模型的网络权重得到目标ELECTRA模型；

部署单元，用于部署所述目标ELECTRA模型；

抽取单元，用于完成部署后，利用所述目标ELECTRA模型抽取待识别工业文本文件的实体关系。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种计算机设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

对工业文本文件进行数据清洗和分句得到多个语句，对各个语句进行进行真实实体关系的标注得到标注语句，然后利用ELECTRA预训练模型、BiGRU模型和CNN模型对标注语句进行处理得到文本特征向量，然后利用softmax分类器得到语句的预测实体关系，基于误差函数计算真实结果和预测结果之间的误差，然后误差更新ELECTRA预训练模型的网络权重得到目标ELECTRA模型，最后部署目标ELECTRA模型，以及利用目标ELECTRA模型进行实体关系抽取。本申请基于深度学习的方法训练模型和抽取实体关系，相对于现有技术中的基于人工词典和规则方法抽取实体关系来说，可以减少人工标注的工作量，提高实体关系抽取的效率和准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例提供的***架构的示意图；

图2是本申请实施例提供的实体关系的抽取方法的流程示意图；

图3是本申请提供的一种实体关系的抽取装置的结构示意图；

图4是本申请提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

需要说明的是，本申请提供的实体关系的抽取方法一般由计算机设备执行，相应的，实体关系的抽取装置一般设置于计算机设备中。

图1示出了可以应用于本申请的实体关系的抽取方法或实体关系的抽取装置的示例性***架构。

如图1所示，***架构可以包括：计算机设备101和服务器102。计算机设备101和服务器102之间可以通过网络进行通信，网络用于上述各个单元之间提供通信链路的介质。网络可以包括各种类型的有线通信链路或无线通信链路，例如：有线通信链路包括光纤、双绞线或同轴电缆等，无线通信链路包括蓝牙通信链路、无线保真(WIreless-FIdelity，Wi-Fi)通信链路或微波通信链路等。

其中，服务器102中存储有多个文本文件，计算机设备101可以从服务器102中获取工业文本文件进行数据清洗和分句得到多个语句，然后对语句进行真实实体关系的标注得到标注语句；将标注语句输入到ELECTRA预训练模型得到词向量；将词向量输入到BiGRU模型得到中间向量；将中间向量输入到CNN模型得到文本特征向量；通过全连接层中的softmax分类器对文本特征向量进行处理得到语句的预测实体关系；计算预测实体关系和真实实体关系之间的误差；根据误差更新ELECTRA预训练模型的网络权重得到目标ELECTRA模型；部署目标ELECTRA模型；完成部署后，利用目标ELECTRA模型抽取待识别工业文本文件的实体关系。

需要说明的是，计算机设备101和服务器102可以是硬件，也可以是软件。当计算机设备101和服务器102为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当计算机设备101和服务器102为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不做具体限定。

本申请的计算机设备上可以安装有各种通信客户端应用，例如：视频录制应用、视频播放应用、语音交互应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

计算机设备可以是硬件，也可以是软件。当计算机设备为硬件时，可以是具有显示屏的各种计算机设备，包括但不限于智能手机、平板电脑、膝上型便携式计算机和台式计算机等等。当计算机设备为软件时，可以是安装上述所列举的计算机设备中。其可以实现呈多个软件或软件模块(例如：用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不作具体限定。

当计算机设备为硬件时，其上还可以安装有显示设备和摄像头，显示设备显示可以是各种能实现显示功能的设备，摄像头用于采集视频流；例如：显示设备可以是阴极射线管显示器(cathode ray tube display，简称CR)、发光二极管显示器(light-emittingdiode display，简称LED)、电子墨水屏、液晶显示屏(liquid crystal display，简称LCD)、等离子显示面板(plasma display panel，简称PDP)等。用户可以利用计算机设备上的显示设备，来查看显示的文字、图片、视频等信息。

应理解，图1中的计算机设备、网络和服务器的数目仅是示意性的。根据实现需要，可以是任意数量的计算机设备、网络和服务器。

下面将结合附图2，对本申请实施例提供的实体关系的抽取方法进行详细介绍。其中，本申请实施例中的实体关系的抽取装置可以是图1所示的计算机设备。

请参见图2，为本申请实施例提供了一种实体关系的抽取方法的流程示意图。如图2所示，本申请实施例的所述方法可以包括以下步骤：

S201、对工业文本文件进行数据清洗和分句得到多个语句。

其中，工业文本文件(industrial text file)表示工厂内执行生产执行的相关文件，包括但不限于：作业指导书、产品质检书和安全说明书等。工业文本文件的格式本申请不作限制，也为word格式、pdf格式或图像格式等，工业文本文件可以为结构化文件或非结构化文件。计算机设备提取工业文本文件中的文本信息，文本信息包括中文字符、英文字符、标点符号和数字字符中的一种或多种。计算机设备对提取的文本信息进行数据清洗和分句得到多个语句。数据清洗包括：去除文本信息中预设的标点符号，例如：预设的标点符号为引号、冒号和书名号等。文本信息包括多个段落，每个段落由多个语句组成，计算机设备可以根据句号来对各个段落进行分句得到多个语句，然后针对每个语句执行后续的模型训练过程。

S202、对语句进行真实实体关系的标注得到标注语句。

其中，对分句得到的各个语句打上实体关系标签，实体关系标签表示语句对应的两个实体的真实实体关系。

S203、将标注语句输入到ELECTRA预训练模型得到词向量。

其中，ELECTRA模型为一种基于中文的文本处理模型，ELECTRA预训练模型的网络权重为初始化后的网络权重。ELECTRA预训练模型具有语义表征能力，可以对文本信息进行语义编码，具有在参数量较少的情况下达到理想的训练效果。计算机设备将标注语句输入到ELECTRA预训练模型得到词向量。

S204、将词向量输入到BiGRU模型得到中间向量。

其中，BiGRU模型(双向门控循环单元模型)也称为BiGRU-Attention模型，BiGRU-Attention模型共分为三部分：文本向量化输入层、隐含层和输出层。隐含层由BiGRU层、attention层和Dense层(全连接层)三层构成。将S203中得到的词向量输入到BiGRU模型中进行语义训练，GRU(gated recurrent unit，门控循环单元)模型是LSTM(long short-termmemory)长短期记忆模型的一种简化变体模型，GRU模型有一种更新门，更新门能够决定从各个状态中保留和删除的信息，还有重置门用来控制计算是否与上一状态有依赖的关系。当然它也可以觉得RNN中的长距离依赖关系。所以BiGRU模型通过门机制来记忆前面的节点信息，可以解决梯度消失问题。计算机设备将词向量输入到BiGRU模型得到中间向量。

S205、将中间向量输入到CNN模型得到文本特征向量。

其中，CNN(convolutional neural networks，卷积神经网络)模型是一类包含卷积计算且具有深度结构的前馈神经网络(feedforward neural networks)，是深度学***移不变分类(shift-invariant classification)，因此也被称为“平移不变人工神经网络(shift-invariant artificial neural networks,SIANN)。计算机设备将S204得到的中间向量输入到CNN模型来进一步提取语义的局部特征得到文本特征向量。

S206、通过全连接层中的softmax分类器对文本特征向量进行处理得到语句的预测实体关系。

其中，CNN模型的结构中，经多个卷积层和池化层后，连接着1个或1个以上的全连接层，全连接层中的每个神经元与其前一层的所有神经元进行全连接，全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。

进一步的，所述通过全连接层中的softmax分类器对所述文本特征向量进行处理得到所述语句的预测实体关系，包括：

通过全连接层中的softmax分类器分别计算预设的多个实体关系中各个实体关系的条件概率；

将条件概率最大的实体关系作为所述语句的预测实体关系。

其中，各个实体关系的条件概率之和等于1，各个实体关系的条件概率的取值范围在0和1之间，预设的多个实体关系可以为配件从属、属性长度从属、属性管径从属、属性数量从属和主客从属，对应的多个实体包括：长度、管径、数量、配件、主体和客体。

S207、计算预测实体关系和真实实体关系之间的误差。

其中，利用损失函数计算标注的真实实体关系和预测实体关系之间的误差，损失函数可以为交叉熵损失函数，交叉熵损失函数的输出值为交叉熵，表示是实际输出和期望输出之间的距离，也就是交叉熵越小，概率分布越接近。

S208、根据误差更新ELECTRA预训练模型的网络权重得到目标ELECTRA模型。

其中，网络权重表示ELECTRA预训练模型中包含的神经元的权值参数或偏置参数，根据误差利用反向传播算法更新根据误差利用反向传播算法更新模型后的网络权重后得到目标ELECTRA模型。进一步的，计算机设备还可以对ELECTRA预训练模型的网络结构进行更新。

进一步的，本申请在更新网络权重时可以使用dropout策略，这样在人工神经网络的训练过程中基于dropout策略使部分神经元权重置为0，即使部分神经元失效，从而可以减少参数数量，避免过拟合。其本质是在训练过程中增加一些噪声进行训练，因此可以避免过拟合。

S209、部署目标ELECTRA模型。

其中，计算机设备在生产环境中部署目标ELECTRA模型。

S210、完成部署后，利用目标ELECTRA模型抽取待识别工业文本文件的实体关系。

其中，利用S201中的方法对待识别工业文本文件进行数据清洗和分句得到多个语句，然后对各个语句输入到目标ELECTRA模型进行处理得到实体关系。

本申请的实施例在抽取工业文本文件的实体关系时，对工业文本文件进行数据清洗和分句得到多个语句，对各个语句进行进行真实实体关系的标注得到标注语句，然后利用ELECTRA预训练模型、BiGRU模型和CNN模型对标注语句进行处理得到文本特征向量，然后利用softmax分类器得到语句的预测实体关系，基于误差函数计算真实结果和预测结果之间的误差，然后误差更新ELECTRA预训练模型的网络权重得到目标ELECTRA模型，最后部署目标ELECTRA模型，以及利用目标ELECTRA模型进行实体关系抽取。本申请基于深度学习的方法训练模型和抽取实体关系，相对于现有技术中的基于人工词典、规则和机器学习的方法抽取实体关系来说，可以减少人工标注的工作量，提高实体关系抽取的效率和准确性。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图3，其示出了本申请一个示例性实施例提供的实体关系的抽取装置的结构示意图，以下简称装置3。该装置3可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分。装置3包括：预处理单元301、标注单元302、向量生成单元303、预测单元304、计算单元305、更新单元306、部署单元307和抽取单元308。

预处理单元301，用于对工业文本文件进行数据清洗和分句得到得到多个语句；

标注单元302，用于对所述语句进行真实实体关系的标注得到标注语句；

向量生成单元303，用于将所述标注语句输入到ELECTRA预训练模型得到词向量；

所述向量生成单元303，还用于将所述词向量输入到BiGRU模型得到中间向量；

所述向量生成单元303，还用于将所述中间向量输入到CNN模型得到文本特征向量；

预测单元304，用于通过全连接层中的softmax分类器对所述文本特征向量进行处理得到所述语句的预测实体关系；

计算单元305，用于计算所述预测实体关系和真实实体关系之间的误差；

更新单元306，用于根据所述误差更新所述ELECTRA预训练模型的网络权重得到目标ELECTRA模型；

部署单元307，用于部署所述目标ELECTRA模型；

抽取单元308，用于完成部署后，利用所述目标ELECTRA模型抽取待识别工业文本文件的实体关系。

在一个或多个可能的实施例中，所述计算所述预测实体关系和真实实体关系之间的误差，包括：

利用交叉熵损失函数计算所述预测实体关系和所述真实实体关系之间的误差。

在一个或多个可能的实施例中，所述通过全连接层中的softmax分类器对所述文本特征向量进行处理得到所述语句的预测实体关系，包括：

将条件概率最大的实体关系作为所述语句的预测实体关系。

在一个或多个可能的实施例中，所述工业文本文件为空调工业文本文件，所述预设的多个实体关系包括：配件从属、属性长度从属、属性管径从属、属性数量从属和主客从属，对应的多个实体包括：长度、管径、数量、配件、主体和客体。

在一个或多个可能的实施例中，利用反向传播算法更新ELECTRA预训练模型的网络权重。

在一个或多个可能的实施例中，在更新所述ELECTRA预训练模型的网络权重的过程中使用dopout策略。

在一个或多个可能的实施例中，所述数据清洗包括：去除预设类型的标点符号和空格符号；利用句号进行分句。

需要说明的是，上述实施例提供的装置3在执行实体关系的抽取方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成上述的全部或者部分功能。另外，上述实施例提供的实体关系的抽取装置与实体关系的抽取方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图2所示实施例的方法步骤，具体执行过程可以参见图2所示实施例的具体说明，在此不进行赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的实体关系的抽取方法。

请参见图4，为本申请实施例提供了一种计算机设备的结构示意图。如图4所示，所述计算机设备400可以包括：至少一个处理器401，至少一个网络接口404，用户接口403，存储器405，至少一个通信总线402。

其中，通信总线402用于实现这些组件之间的连接通信。

其中，用户接口403可以包括显示屏(Display)、摄像头(Camera)，可选用户接口403还可以包括标准的有线接口、无线接口。

其中，网络接口404可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器401可以包括一个或者多个处理核心。处理器401利用各种接口和线路连接整个计算机设备400内的各个部分，通过运行或执行存储在存储器405内的指令、程序、代码集或指令集，以及调用存储在存储器405内的数据，执行计算机设备400的各种功能和处理数据。可选的，处理器401可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器401可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器401中，单独通过一块芯片进行实现。

其中，存储器405可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器405包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器405可用于存储指令、程序、代码、代码集或指令集。存储器405可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。如图4所示，作为一种计算机存储介质的存储器405中可以包括操作***、网络通信模块、用户接口模块以及应用程序。

在图4所示的计算机设备400中，用户接口403主要用于为用户提供输入的接口，获取用户输入的数据；而处理器401可以用于调用存储器405中存储的应用程序，并具体执行如图2所示的方法，具体过程可参照图2所示，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种实体关系的抽取方法，其特征在于，包括：

对工业文本文件进行数据清洗和分句得到得到多个语句；

对所述语句进行真实实体关系的标注得到标注语句；

将所述标注语句输入到ELECTRA预训练模型得到词向量；

将所述词向量输入到BiGRU模型得到中间向量；

将所述中间向量输入到CNN模型得到文本特征向量；

计算所述预测实体关系和真实实体关系之间的误差；

部署所述目标ELECTRA模型；

2.根据权利要求1所述的方法，其特征在于，所述计算所述预测实体关系和真实实体关系之间的误差，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述通过全连接层中的softmax分类器对所述文本特征向量进行处理得到所述语句的预测实体关系，包括：

将条件概率最大的实体关系作为所述语句的预测实体关系。

4.根据权利要求3所述的方法，其特征在于，所述工业文本文件为空调工业文本文件，所述预设的多个实体关系包括：配件从属、属性长度从属、属性管径从属、属性数量从属和主客从属，对应的多个实体包括：长度、管径、数量、配件、主体和客体。

5.根据权利要求1或2或4所述的方法，其特征在于，利用反向传播算法更新ELECTRA预训练模型的网络权重。

6.根据权利要求5所述的方法，其特征在于，在更新所述ELECTRA预训练模型的网络权重的过程中使用dopout策略。

7.根据权利要求5所述的方法，其特征在于，所述数据清洗包括：去除预设类型的标点符号和空格符号；利用句号进行分句。

8.一种实体关系的抽取装置，其特征在于，包括：

部署单元，用于部署所述目标ELECTRA模型；

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～7任意一项的方法步骤。

10.一种计算机设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～7任意一项的方法步骤。