CN114626373A - 实体关系的抽取方法、装置、存储介质及计算机设备 - Google Patents

实体关系的抽取方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN114626373A
CN114626373A CN202210208071.5A CN202210208071A CN114626373A CN 114626373 A CN114626373 A CN 114626373A CN 202210208071 A CN202210208071 A CN 202210208071A CN 114626373 A CN114626373 A CN 114626373A
Authority
CN
China
Prior art keywords
model
entity relationship
electra
entity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210208071.5A
Other languages
English (en)
Other versions
CN114626373B (zh
Inventor
罗琴
唐光远
李润静
张俊杰
熊琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Zhuhai Lianyun Technology Co Ltd
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Zhuhai Lianyun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai, Zhuhai Lianyun Technology Co Ltd filed Critical Gree Electric Appliances Inc of Zhuhai
Priority to CN202210208071.5A priority Critical patent/CN114626373B/zh
Publication of CN114626373A publication Critical patent/CN114626373A/zh
Application granted granted Critical
Publication of CN114626373B publication Critical patent/CN114626373B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种实体关系的抽取方法、装置、存储介质及计算机设备,涉及文本处理领域。本申请基于深度学习的方法训练模型和抽取实体关系,相对于现有技术中的基于人工词典和规则方法抽取实体关系来说,可以减少人工标注的工作量,提高实体关系抽取的效率和准确性。

Description

实体关系的抽取方法、装置、存储介质及计算机设备
技术领域
本申请涉及文本处理领域,尤其涉及一种实体关系的抽取方法、装置、存储介质及计算机设备。
背景技术
企业对外采购物料之前,需要将接线图纸形成核价BOM表,此过程依赖大量人工作业,具有耗时耗力的问题,为解决该问题相关技术利用人工智能的语义分析与图片分析等技术结合完成接线图的原材料提取与用量统计。一段新闻或者文字中获取自己需要的且重要的信息以及它们之间存在的关系,因此关系抽取就显得十分重要,便于快速从文本中检索出我们需要的关键信息,而且能识别出它们之间的对应关系。这对于工业文件的数据挖掘和知识发现研究的展开有着重要意义和研究价值。所以关系抽取就可以应用到接线图纸形成核价BOM表这个项目中。
早期实体关系抽取均是基于人工词典和规则的方法,这类方法需要耗费大量的人工作业进行标注,且实体关系抽取的效率和准确性不高。
发明内容
本申请实施例提供了实体关系的抽取方法、装置、存储介质及计算机设备,可以解决现有技术中抽取实体关系存在效率不高和准确性不高的问题。所述技术方案如下:
第一方面,本申请实施例提供了一种实体关系的抽取方法,所述方法包括:
对工业文本文件进行数据清洗和分句得到得到多个语句;
对所述语句进行真实实体关系的标注得到标注语句;
将所述标注语句输入到ELECTRA预训练模型得到词向量;
将所述词向量输入到BiGRU模型得到中间向量;
将所述中间向量输入到CNN模型得到文本特征向量;
通过全连接层中的softmax分类器对所述文本特征向量进行处理得到所述语句的预测实体关系;
计算所述预测实体关系和真实实体关系之间的误差;
根据所述误差更新所述ELECTRA预训练模型的网络权重得到目标ELECTRA模型;
部署所述目标ELECTRA模型;
完成部署后,利用所述目标ELECTRA模型抽取待识别工业文本文件的实体关系。
第二方面,本申请实施例提供了一种实体关系的抽取装置,所述装置包括:
预处理单元,用于对工业文本文件进行数据清洗和分句得到得到多个语句;
标注单元,用于对所述语句进行真实实体关系的标注得到标注语句;
向量生成单元,用于将所述标注语句输入到ELECTRA预训练模型得到词向量;
所述向量生成单元,还用于将所述词向量输入到BiGRU模型得到中间向量;
所述向量生成单元,还用于将所述中间向量输入到CNN模型得到文本特征向量;
预测单元,用于通过全连接层中的softmax分类器对所述文本特征向量进行处理得到所述语句的预测实体关系;
计算单元,用于计算所述预测实体关系和真实实体关系之间的误差;
更新单元,用于根据所述误差更新所述ELECTRA预训练模型的网络权重得到目标ELECTRA模型;
部署单元,用于部署所述目标ELECTRA模型;
抽取单元,用于完成部署后,利用所述目标ELECTRA模型抽取待识别工业文本文件的实体关系。
第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供一种计算机设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
本申请一些实施例提供的技术方案带来的有益效果至少包括:
对工业文本文件进行数据清洗和分句得到多个语句,对各个语句进行进行真实实体关系的标注得到标注语句,然后利用ELECTRA预训练模型、BiGRU模型和CNN模型对标注语句进行处理得到文本特征向量,然后利用softmax分类器得到语句的预测实体关系,基于误差函数计算真实结果和预测结果之间的误差,然后误差更新ELECTRA预训练模型的网络权重得到目标ELECTRA模型,最后部署目标ELECTRA模型,以及利用目标ELECTRA模型进行实体关系抽取。本申请基于深度学习的方法训练模型和抽取实体关系,相对于现有技术中的基于人工词典和规则方法抽取实体关系来说,可以减少人工标注的工作量,提高实体关系抽取的效率和准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例提供的***架构的示意图;
图2是本申请实施例提供的实体关系的抽取方法的流程示意图;
图3是本申请提供的一种实体关系的抽取装置的结构示意图;
图4是本申请提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
需要说明的是,本申请提供的实体关系的抽取方法一般由计算机设备执行,相应的,实体关系的抽取装置一般设置于计算机设备中。
图1示出了可以应用于本申请的实体关系的抽取方法或实体关系的抽取装置的示例性***架构。
如图1所示,***架构可以包括:计算机设备101和服务器102。计算机设备101和服务器102之间可以通过网络进行通信,网络用于上述各个单元之间提供通信链路的介质。网络可以包括各种类型的有线通信链路或无线通信链路,例如:有线通信链路包括光纤、双绞线或同轴电缆等,无线通信链路包括蓝牙通信链路、无线保真(WIreless-FIdelity,Wi-Fi)通信链路或微波通信链路等。
其中,服务器102中存储有多个文本文件,计算机设备101可以从服务器102中获取工业文本文件进行数据清洗和分句得到多个语句,然后对语句进行真实实体关系的标注得到标注语句;将标注语句输入到ELECTRA预训练模型得到词向量;将词向量输入到BiGRU模型得到中间向量;将中间向量输入到CNN模型得到文本特征向量;通过全连接层中的softmax分类器对文本特征向量进行处理得到语句的预测实体关系;计算预测实体关系和真实实体关系之间的误差;根据误差更新ELECTRA预训练模型的网络权重得到目标ELECTRA模型;部署目标ELECTRA模型;完成部署后,利用目标ELECTRA模型抽取待识别工业文本文件的实体关系。
需要说明的是,计算机设备101和服务器102可以是硬件,也可以是软件。当计算机设备101和服务器102为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当计算机设备101和服务器102为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块,在此不做具体限定。
本申请的计算机设备上可以安装有各种通信客户端应用,例如:视频录制应用、视频播放应用、语音交互应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
计算机设备可以是硬件,也可以是软件。当计算机设备为硬件时,可以是具有显示屏的各种计算机设备,包括但不限于智能手机、平板电脑、膝上型便携式计算机和台式计算机等等。当计算机设备为软件时,可以是安装上述所列举的计算机设备中。其可以实现呈多个软件或软件模块(例如:用来提供分布式服务),也可以实现成单个软件或软件模块,在此不作具体限定。
当计算机设备为硬件时,其上还可以安装有显示设备和摄像头,显示设备显示可以是各种能实现显示功能的设备,摄像头用于采集视频流;例如:显示设备可以是阴极射线管显示器(cathode ray tube display,简称CR)、发光二极管显示器(light-emittingdiode display,简称LED)、电子墨水屏、液晶显示屏(liquid crystal display,简称LCD)、等离子显示面板(plasma display panel,简称PDP)等。用户可以利用计算机设备上的显示设备,来查看显示的文字、图片、视频等信息。
应理解,图1中的计算机设备、网络和服务器的数目仅是示意性的。根据实现需要,可以是任意数量的计算机设备、网络和服务器。
下面将结合附图2,对本申请实施例提供的实体关系的抽取方法进行详细介绍。其中,本申请实施例中的实体关系的抽取装置可以是图1所示的计算机设备。
请参见图2,为本申请实施例提供了一种实体关系的抽取方法的流程示意图。如图2所示,本申请实施例的所述方法可以包括以下步骤:
S201、对工业文本文件进行数据清洗和分句得到多个语句。
其中,工业文本文件(industrial text file)表示工厂内执行生产执行的相关文件,包括但不限于:作业指导书、产品质检书和安全说明书等。工业文本文件的格式本申请不作限制,也为word格式、pdf格式或图像格式等,工业文本文件可以为结构化文件或非结构化文件。计算机设备提取工业文本文件中的文本信息,文本信息包括中文字符、英文字符、标点符号和数字字符中的一种或多种。计算机设备对提取的文本信息进行数据清洗和分句得到多个语句。数据清洗包括:去除文本信息中预设的标点符号,例如:预设的标点符号为引号、冒号和书名号等。文本信息包括多个段落,每个段落由多个语句组成,计算机设备可以根据句号来对各个段落进行分句得到多个语句,然后针对每个语句执行后续的模型训练过程。
S202、对语句进行真实实体关系的标注得到标注语句。
其中,对分句得到的各个语句打上实体关系标签,实体关系标签表示语句对应的两个实体的真实实体关系。
S203、将标注语句输入到ELECTRA预训练模型得到词向量。
其中,ELECTRA模型为一种基于中文的文本处理模型,ELECTRA预训练模型的网络权重为初始化后的网络权重。ELECTRA预训练模型具有语义表征能力,可以对文本信息进行语义编码,具有在参数量较少的情况下达到理想的训练效果。计算机设备将标注语句输入到ELECTRA预训练模型得到词向量。
S204、将词向量输入到BiGRU模型得到中间向量。
其中,BiGRU模型(双向门控循环单元模型)也称为BiGRU-Attention模型,BiGRU-Attention模型共分为三部分:文本向量化输入层、隐含层和输出层。隐含层由BiGRU层、attention层和Dense层(全连接层)三层构成。将S203中得到的词向量输入到BiGRU模型中进行语义训练,GRU(gated recurrent unit,门控循环单元)模型是LSTM(long short-termmemory)长短期记忆模型的一种简化变体模型,GRU模型有一种更新门,更新门能够决定从各个状态中保留和删除的信息,还有重置门用来控制计算是否与上一状态有依赖的关系。当然它也可以觉得RNN中的长距离依赖关系。所以BiGRU模型通过门机制来记忆前面的节点信息,可以解决梯度消失问题。计算机设备将词向量输入到BiGRU模型得到中间向量。
S205、将中间向量输入到CNN模型得到文本特征向量。
其中,CNN(convolutional neural networks,卷积神经网络)模型是一类包含卷积计算且具有深度结构的前馈神经网络(feedforward neural networks),是深度学***移不变分类(shift-invariant classification),因此也被称为“平移不变人工神经网络(shift-invariant artificial neural networks,SIANN)。计算机设备将S204得到的中间向量输入到CNN模型来进一步提取语义的局部特征得到文本特征向量。
S206、通过全连接层中的softmax分类器对文本特征向量进行处理得到语句的预测实体关系。
其中,CNN模型的结构中,经多个卷积层和池化层后,连接着1个或1个以上的全连接层,全连接层中的每个神经元与其前一层的所有神经元进行全连接,全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。
进一步的,所述通过全连接层中的softmax分类器对所述文本特征向量进行处理得到所述语句的预测实体关系,包括:
通过全连接层中的softmax分类器分别计算预设的多个实体关系中各个实体关系的条件概率;
将条件概率最大的实体关系作为所述语句的预测实体关系。
其中,各个实体关系的条件概率之和等于1,各个实体关系的条件概率的取值范围在0和1之间,预设的多个实体关系可以为配件从属、属性长度从属、属性管径从属、属性数量从属和主客从属,对应的多个实体包括:长度、管径、数量、配件、主体和客体。
S207、计算预测实体关系和真实实体关系之间的误差。
其中,利用损失函数计算标注的真实实体关系和预测实体关系之间的误差,损失函数可以为交叉熵损失函数,交叉熵损失函数的输出值为交叉熵,表示是实际输出和期望输出之间的距离,也就是交叉熵越小,概率分布越接近。
S208、根据误差更新ELECTRA预训练模型的网络权重得到目标ELECTRA模型。
其中,网络权重表示ELECTRA预训练模型中包含的神经元的权值参数或偏置参数,根据误差利用反向传播算法更新根据误差利用反向传播算法更新模型后的网络权重后得到目标ELECTRA模型。进一步的,计算机设备还可以对ELECTRA预训练模型的网络结构进行更新。
进一步的,本申请在更新网络权重时可以使用dropout策略,这样在人工神经网络的训练过程中基于dropout策略使部分神经元权重置为0,即使部分神经元失效,从而可以减少参数数量,避免过拟合。其本质是在训练过程中增加一些噪声进行训练,因此可以避免过拟合。
S209、部署目标ELECTRA模型。
其中,计算机设备在生产环境中部署目标ELECTRA模型。
S210、完成部署后,利用目标ELECTRA模型抽取待识别工业文本文件的实体关系。
其中,利用S201中的方法对待识别工业文本文件进行数据清洗和分句得到多个语句,然后对各个语句输入到目标ELECTRA模型进行处理得到实体关系。
本申请的实施例在抽取工业文本文件的实体关系时,对工业文本文件进行数据清洗和分句得到多个语句,对各个语句进行进行真实实体关系的标注得到标注语句,然后利用ELECTRA预训练模型、BiGRU模型和CNN模型对标注语句进行处理得到文本特征向量,然后利用softmax分类器得到语句的预测实体关系,基于误差函数计算真实结果和预测结果之间的误差,然后误差更新ELECTRA预训练模型的网络权重得到目标ELECTRA模型,最后部署目标ELECTRA模型,以及利用目标ELECTRA模型进行实体关系抽取。本申请基于深度学习的方法训练模型和抽取实体关系,相对于现有技术中的基于人工词典、规则和机器学习的方法抽取实体关系来说,可以减少人工标注的工作量,提高实体关系抽取的效率和准确性。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参见图3,其示出了本申请一个示例性实施例提供的实体关系的抽取装置的结构示意图,以下简称装置3。该装置3可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分。装置3包括:预处理单元301、标注单元302、向量生成单元303、预测单元304、计算单元305、更新单元306、部署单元307和抽取单元308。
预处理单元301,用于对工业文本文件进行数据清洗和分句得到得到多个语句;
标注单元302,用于对所述语句进行真实实体关系的标注得到标注语句;
向量生成单元303,用于将所述标注语句输入到ELECTRA预训练模型得到词向量;
所述向量生成单元303,还用于将所述词向量输入到BiGRU模型得到中间向量;
所述向量生成单元303,还用于将所述中间向量输入到CNN模型得到文本特征向量;
预测单元304,用于通过全连接层中的softmax分类器对所述文本特征向量进行处理得到所述语句的预测实体关系;
计算单元305,用于计算所述预测实体关系和真实实体关系之间的误差;
更新单元306,用于根据所述误差更新所述ELECTRA预训练模型的网络权重得到目标ELECTRA模型;
部署单元307,用于部署所述目标ELECTRA模型;
抽取单元308,用于完成部署后,利用所述目标ELECTRA模型抽取待识别工业文本文件的实体关系。
在一个或多个可能的实施例中,所述计算所述预测实体关系和真实实体关系之间的误差,包括:
利用交叉熵损失函数计算所述预测实体关系和所述真实实体关系之间的误差。
在一个或多个可能的实施例中,所述通过全连接层中的softmax分类器对所述文本特征向量进行处理得到所述语句的预测实体关系,包括:
通过全连接层中的softmax分类器分别计算预设的多个实体关系中各个实体关系的条件概率;
将条件概率最大的实体关系作为所述语句的预测实体关系。
在一个或多个可能的实施例中,所述工业文本文件为空调工业文本文件,所述预设的多个实体关系包括:配件从属、属性长度从属、属性管径从属、属性数量从属和主客从属,对应的多个实体包括:长度、管径、数量、配件、主体和客体。
在一个或多个可能的实施例中,利用反向传播算法更新ELECTRA预训练模型的网络权重。
在一个或多个可能的实施例中,在更新所述ELECTRA预训练模型的网络权重的过程中使用dopout策略。
在一个或多个可能的实施例中,所述数据清洗包括:去除预设类型的标点符号和空格符号;利用句号进行分句。
需要说明的是,上述实施例提供的装置3在执行实体关系的抽取方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成上述的全部或者部分功能。另外,上述实施例提供的实体关系的抽取装置与实体关系的抽取方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图2所示实施例的方法步骤,具体执行过程可以参见图2所示实施例的具体说明,在此不进行赘述。
本申请还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的实体关系的抽取方法。
请参见图4,为本申请实施例提供了一种计算机设备的结构示意图。如图4所示,所述计算机设备400可以包括:至少一个处理器401,至少一个网络接口404,用户接口403,存储器405,至少一个通信总线402。
其中,通信总线402用于实现这些组件之间的连接通信。
其中,用户接口403可以包括显示屏(Display)、摄像头(Camera),可选用户接口403还可以包括标准的有线接口、无线接口。
其中,网络接口404可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器401可以包括一个或者多个处理核心。处理器401利用各种接口和线路连接整个计算机设备400内的各个部分,通过运行或执行存储在存储器405内的指令、程序、代码集或指令集,以及调用存储在存储器405内的数据,执行计算机设备400的各种功能和处理数据。可选的,处理器401可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器401可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作***、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器401中,单独通过一块芯片进行实现。
其中,存储器405可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器405包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器405可用于存储指令、程序、代码、代码集或指令集。存储器405可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。如图4所示,作为一种计算机存储介质的存储器405中可以包括操作***、网络通信模块、用户接口模块以及应用程序。
在图4所示的计算机设备400中,用户接口403主要用于为用户提供输入的接口,获取用户输入的数据;而处理器401可以用于调用存储器405中存储的应用程序,并具体执行如图2所示的方法,具体过程可参照图2所示,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种实体关系的抽取方法,其特征在于,包括:
对工业文本文件进行数据清洗和分句得到得到多个语句;
对所述语句进行真实实体关系的标注得到标注语句;
将所述标注语句输入到ELECTRA预训练模型得到词向量;
将所述词向量输入到BiGRU模型得到中间向量;
将所述中间向量输入到CNN模型得到文本特征向量;
通过全连接层中的softmax分类器对所述文本特征向量进行处理得到所述语句的预测实体关系;
计算所述预测实体关系和真实实体关系之间的误差;
根据所述误差更新所述ELECTRA预训练模型的网络权重得到目标ELECTRA模型;
部署所述目标ELECTRA模型;
完成部署后,利用所述目标ELECTRA模型抽取待识别工业文本文件的实体关系。
2.根据权利要求1所述的方法,其特征在于,所述计算所述预测实体关系和真实实体关系之间的误差,包括:
利用交叉熵损失函数计算所述预测实体关系和所述真实实体关系之间的误差。
3.根据权利要求1或2所述的方法,其特征在于,所述通过全连接层中的softmax分类器对所述文本特征向量进行处理得到所述语句的预测实体关系,包括:
通过全连接层中的softmax分类器分别计算预设的多个实体关系中各个实体关系的条件概率;
将条件概率最大的实体关系作为所述语句的预测实体关系。
4.根据权利要求3所述的方法,其特征在于,所述工业文本文件为空调工业文本文件,所述预设的多个实体关系包括:配件从属、属性长度从属、属性管径从属、属性数量从属和主客从属,对应的多个实体包括:长度、管径、数量、配件、主体和客体。
5.根据权利要求1或2或4所述的方法,其特征在于,利用反向传播算法更新ELECTRA预训练模型的网络权重。
6.根据权利要求5所述的方法,其特征在于,在更新所述ELECTRA预训练模型的网络权重的过程中使用dopout策略。
7.根据权利要求5所述的方法,其特征在于,所述数据清洗包括:去除预设类型的标点符号和空格符号;利用句号进行分句。
8.一种实体关系的抽取装置,其特征在于,包括:
预处理单元,用于对工业文本文件进行数据清洗和分句得到得到多个语句;
标注单元,用于对所述语句进行真实实体关系的标注得到标注语句;
向量生成单元,用于将所述标注语句输入到ELECTRA预训练模型得到词向量;
所述向量生成单元,还用于将所述词向量输入到BiGRU模型得到中间向量;
所述向量生成单元,还用于将所述中间向量输入到CNN模型得到文本特征向量;
预测单元,用于通过全连接层中的softmax分类器对所述文本特征向量进行处理得到所述语句的预测实体关系;
计算单元,用于计算所述预测实体关系和真实实体关系之间的误差;
更新单元,用于根据所述误差更新所述ELECTRA预训练模型的网络权重得到目标ELECTRA模型;
部署单元,用于部署所述目标ELECTRA模型;
抽取单元,用于完成部署后,利用所述目标ELECTRA模型抽取待识别工业文本文件的实体关系。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~7任意一项的方法步骤。
10.一种计算机设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~7任意一项的方法步骤。
CN202210208071.5A 2022-03-04 2022-03-04 实体关系的抽取方法、装置、存储介质及计算机设备 Active CN114626373B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210208071.5A CN114626373B (zh) 2022-03-04 2022-03-04 实体关系的抽取方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210208071.5A CN114626373B (zh) 2022-03-04 2022-03-04 实体关系的抽取方法、装置、存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN114626373A true CN114626373A (zh) 2022-06-14
CN114626373B CN114626373B (zh) 2024-06-25

Family

ID=81900459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210208071.5A Active CN114626373B (zh) 2022-03-04 2022-03-04 实体关系的抽取方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN114626373B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051892A (zh) * 2021-03-22 2021-06-29 哈尔滨理工大学 基于transformer模型的汉语词义消歧方法
CN113255320A (zh) * 2021-05-13 2021-08-13 北京熙紫智数科技有限公司 基于句法树和图注意力机制的实体关系抽取方法及装置
WO2021212749A1 (zh) * 2020-04-24 2021-10-28 平安科技(深圳)有限公司 命名实体标注方法、装置、计算机设备和存储介质
CN113704481A (zh) * 2021-03-11 2021-11-26 腾讯科技(深圳)有限公司 一种文本处理方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021212749A1 (zh) * 2020-04-24 2021-10-28 平安科技(深圳)有限公司 命名实体标注方法、装置、计算机设备和存储介质
CN113704481A (zh) * 2021-03-11 2021-11-26 腾讯科技(深圳)有限公司 一种文本处理方法、装置、设备及存储介质
CN113051892A (zh) * 2021-03-22 2021-06-29 哈尔滨理工大学 基于transformer模型的汉语词义消歧方法
CN113255320A (zh) * 2021-05-13 2021-08-13 北京熙紫智数科技有限公司 基于句法树和图注意力机制的实体关系抽取方法及装置

Also Published As

Publication number Publication date
CN114626373B (zh) 2024-06-25

Similar Documents

Publication Publication Date Title
WO2022057658A1 (zh) 推荐模型训练方法、装置、计算机设备及存储介质
CN112085565B (zh) 基于深度学习的信息推荐方法、装置、设备及存储介质
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN111368548A (zh) 语义识别方法及装置、电子设备和计算机可读存储介质
US11030405B2 (en) Method and device for generating statement
CN112330455A (zh) 用于推送信息的方法、装置、设备以及存储介质
WO2019133506A1 (en) Intelligent routing services and systems
CN112836509A (zh) 一种专家***知识库构建方法及***
CN112487794A (zh) 行业分类方法、装置、终端设备及存储介质
CN114175018A (zh) 新词分类技术
Li et al. Intention understanding in human–robot interaction based on visual-NLP semantics
Bibi et al. Class association and attribute relevancy based imputation algorithm to reduce twitter data for optimal sentiment analysis
CN113553510A (zh) 一种文本信息推荐方法、装置及可读介质
CN113435182A (zh) 自然语言处理中分类标注的冲突检测方法、装置和设备
CN112560461A (zh) 新闻线索的生成方法、装置、电子设备及存储介质
CN115269781A (zh) 模态关联度预测方法、装置、设备、存储介质及程序产品
CN111767720B (zh) 一种标题生成方法、计算机及可读存储介质
CN113688232B (zh) 招标文本分类方法、装置、存储介质及终端
Malik et al. Reimagining application user interface (UI) design using deep learning methods: Challenges and opportunities
CN114626373B (zh) 实体关系的抽取方法、装置、存储介质及计算机设备
WO2023137903A1 (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN115345669A (zh) 文案生成方法、装置、存储介质及计算机设备
CN114330296A (zh) 新词发现方法、装置、设备以及存储介质
CN114970544A (zh) 信息处理方法、装置、存储介质及服务器
CN113704471A (zh) 语句的分类方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant