CN110413999A - 实体关系抽取方法、模型训练方法及相关装置 - Google Patents

实体关系抽取方法、模型训练方法及相关装置 Download PDF

Info

Publication number
CN110413999A
CN110413999A CN201910645405.3A CN201910645405A CN110413999A CN 110413999 A CN110413999 A CN 110413999A CN 201910645405 A CN201910645405 A CN 201910645405A CN 110413999 A CN110413999 A CN 110413999A
Authority
CN
China
Prior art keywords
training sample
vector
entity
target
relation extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910645405.3A
Other languages
English (en)
Other versions
CN110413999B (zh
Inventor
王李鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Big Data Technologies Co Ltd
Original Assignee
New H3C Big Data Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Big Data Technologies Co Ltd filed Critical New H3C Big Data Technologies Co Ltd
Priority to CN201910645405.3A priority Critical patent/CN110413999B/zh
Publication of CN110413999A publication Critical patent/CN110413999A/zh
Application granted granted Critical
Publication of CN110413999B publication Critical patent/CN110413999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种实体关系抽取方法、模型训练方法及相关装置,涉及自然语言处理技术领域,通过对目标训练样本集包括的多个训练样本进行学习时,从多个维度对每一训练样本进行充分的学习,并对学习后得到的语义关联向量进行处理,得到多维语义特征向量,从而再对多维语义特征向量进行处理,得到该目标训练样本集对应的预测实体关系,使得基于该预测实体关系、语义关联向量及训练实体关系,更新实体关系抽取模型的模型参数,相比于现有技术,使得实体关系抽取模型能够学习到训练样本在不同维度下的语义表示,而非仅学习训练样本在单个维度下的语义表示,从而使实体关系抽取时,能够结合样本的多个维度确定实体关系,提升实体关系抽取的准确度。

Description

实体关系抽取方法、模型训练方法及相关装置
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种实体关系抽取方法、模型训练方法及相关装置。
背景技术
关系抽取(Relation Extraction,RE)属于自然语言处理的一种应用场景;利用关系抽取,可以将标注了两个实体的句子,获得两个实体之间的语义关系。
比如,给定句子“李湘晒闺女做家务照,王诗龄憨态可掬,头插玫瑰萌翻众网友”,其中标注两个实体“李湘”和“王诗龄”,关系抽取任务需要完整的目标即为返回两个实体的语义关系,比如“母女”。
关系抽取的结果一般被用于问答***或者是知识图谱等应用场景中,但针对关系抽取模型的训练往往需要大量的标注数据,而目前针对标注数据的获取方式,由于训练样本中存在大量的噪音数据,从而导致实体关系抽取的精度往往较低。
发明内容
本申请的目的在于提供一种实体关系抽取方法、模型训练方法及相关装置,能够提升实体关系抽取的准确度。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供一种实体关系抽取模型训练方法,所述方法包括:
获得目标训练样本集及所述目标训练样本集对应的训练实体关系,其中,所述目标训练样本集包括多个训练样本;
将所述多个训练样本中的每一所述训练样本向量化,得到每一所述训练样本各自对应的特征嵌入向量;
提取每一所述特征嵌入向量在多个维度的语义信息,得到每一所述训练样本各自对应的多维语义特征向量,其中,所述多维语义特征向量表征对语义关联向量进行学习后得到的语义结果,所述语义关联向量表征对所述训练样本的多个维度进行学习后得到的语义结果;
根据所有所述多维语义特征向量,获得所述目标训练样本集对应的预测实体关系;
基于所述预测实体关系、所述语义关联向量及所述训练实体关系,更新所述实体关系抽取模型的模型参数。
第二方面,本申请实施例提供一种实体关系抽取方法,所述方法包括:
接收待预测样本;
利用本申请实施例第一方面提供的实体关系抽取模型训练方法训练完成的实体关系抽取模型对所述待预测样本进行处理,得到所述待预测样本对应的预测抽取结果,其中,所述预测抽取结果包括多个实体关系及所述多个实体关系中每一实体关系各自对应的分类概率;
将最大的分类概率所对应的实体关系作为所述待预测样本对应的预测实体关系。
第三方面,本申请实施例提供一种实体关系抽取模型训练装置,所述装置包括:
第一处理模块,用于获得目标训练样本集及所述目标训练样本集对应的训练实体关系,其中,所述目标训练样本集包括多个训练样本;
所述第一处理模块还用于,将所述多个训练样本中的每一所述训练样本向量化,得到每一所述训练样本各自对应的特征嵌入向量;
所述第一处理模块还用于,提取每一所述特征嵌入向量在多个维度的语义信息,得到每一所述训练样本各自对应的多维语义特征向量,其中,所述多维语义特征向量表征对语义关联向量进行学习后得到的语义结果,所述语义关联向量表征对所述训练样本的多个维度进行学习后得到的语义结果;
所述第一处理模块还用于,根据所有所述多维语义特征向量,获得所述目标训练样本集对应的预测实体关系;
参数更新模块,用于基于所述预测实体关系、所述语义关联向量及所述训练实体关系,更新所述实体关系抽取模型的模型参数。
第四方面,本申请实施例提供一种实体关系抽取装置,所述装置包括:
接收模块,用于接收待预测样本;
第二处理模块,用于利用本申请实施例第一方面提供的实体关系抽取模型训练方法训练完成的实体关系抽取模型对所述待预测样本进行处理,得到所述待预测样本对应的预测抽取结果,其中,所述预测抽取结果包括多个实体关系及所述多个实体关系中每一实体关系各自对应的分类概率;
所述第二处理模块还用于,将最大的分类概率所对应的实体关系作为所述待预测样本对应的预测实体关系。
第五方面,本申请实施例提供一种电子设备,所述电子设备包括存储器,用于存储一个或多个程序;处理器。当所述一个或多个程序被所述处理器执行时,实现上述的实体关系抽取模型训练方法或实体关系抽取方法。
第六方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的实体关系抽取模型训练方法或实体关系抽取方法。
本申请实施例提供的一种实体关系抽取方法、模型训练方法及相关装置,通过对目标训练样本集包括的多个训练样本进行学习时,从多个维度对每一训练样本进行充分的学习,并对学习后得到的语义关联向量进行处理,得到多维语义特征向量,从而再对多维语义特征向量进行处理,得到该目标训练样本集对应的预测实体关系,使得基于该预测实体关系、语义关联向量及训练实体关系,更新实体关系抽取模型的模型参数,相比于现有技术,使得实体关系抽取模型能够学习到训练样本在不同维度下的语义表示,而非仅学习训练样本在单个维度下的语义表示,从而使实体关系抽取时,能够结合样本的多个维度确定实体关系,提升实体关系抽取的准确度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本申请实施例提供的电子设备的一种示意性结构框图;
图2为本申请实施例提供的实体关系抽取模型训练方法的一种示意性流程图;
图3为一种实体关系抽取模型的示意性结构图;
图4为图2中S207的子步骤的一种示意性流程图;
图5为图3中多维语义学习层的一种示意性结构图;
图6为图2中S209的子步骤的一种示意性流程图;
图7为图2中S211的子步骤的一种示意性流程图;
图8为图2中S205的子步骤的一种示意性流程图;
图9为本申请实施例提供的实体关系抽取模型训练方法的另一种示意性流程图;
图10为本申请实施例提供的实体关系抽取方法的一种示意性流程图;
图11为本申请实施例提供的实体关系抽取模型训练装置的一种示意性结构图;
图12为本申请实施例提供的实体关系抽取装置的一种示意性结构图。
图中:100-电子设备;101-存储器;102-处理器;103-通信接口;400-实体关系抽取模型训练装置;401-第一处理模块;402-参数更新模块;500-实体关系抽取装置;501-接收模块;502-第二处理模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如上所述,由于针对关系抽取模型的训练往往需要大量的标注数据,而人工标注的方式需要耗费大量的人力、物力等资源,且数量有限,从而导致获取标注数据是一件较为奢侈的事;另外,由于标注数据的数据量较少,同样也限制了模型训练的效果。
因此,目前一般采用远程监督(Distant Supervision)的方式获取大量的标注样本。其中,远程监督是一种采用知识库去对齐文本的方案以获取大量标注样本的方法,知识库可以用于表征记录有两个实体的实体关系,比如<实体1,关系,实体2>;通过将样本数据与知识库进行对齐,确定出样本数据中两个实体间的实体关系,从而实现对样本数据的标注,获取大量的标注样本。
比如,假定一知识库包括<乔布斯,创始人,苹果>的实体关系条目,用该实体关系条目对齐文本的具体做法是:只要某个句子中包含了“乔布斯”和“苹果”,就把这个句子中“乔布斯”认定为“苹果”的“创始人”。
但这种对齐方案会受到噪音数据的影响。比如假定一个句子为“乔布斯吃了一个苹果”,利用上述文本对齐的方案,该句子中同样包含了“乔布斯”和“苹果”,但显而易见,该句子中“乔布斯”与“苹果”两者间并非“创始人”的关系。
因此,在上述远程监督的基础上,目前还有一种在远程监督的模型中添加注意力Attention机制的实体关系抽取方案。比如对于上述三元组<乔布斯,创始人,苹果>,假设抽取的句子有“乔布斯吃了一个苹果”和“乔布斯创建了苹果”;显然,这两个句子中只有一个是“创始人”关系,另一个不是“创始人”关系;因此,基于Attention机制的远程监督方案中,通过在不同的句子中使用Attention机制,以减小噪音数据的权重系数,从而降低噪音数据的干扰;比如在前述示例中,通过减小“乔布斯吃了一个苹果”这一句子的权重系数,从而将降低噪音数据的影响。
但发明人在实际的应用中发现,上述基于Attention机制的远程监督方案中,仅仅是对句子在单个维度进行学习后,对不同句子中的噪音数据降低权重系数;但由于学习维度较少,从而使得对句子的学习不够充分,对每一句子的权重系数还较为粗略,进而使得实体关系抽取的精度同样较低。
因此,基于上述缺陷,本申请实施例提供的一种可能的实现方式为:通过对目标训练样本集包括的多个训练样本进行学习时,从多个维度对每一训练样本进行充分的学习,并根据学习后得到的语义关联向量进行处理,得到多维语义特征向量,从而再对多维语义特征向量进行处理,得到该目标训练样本集对应的预测实体关系,使得基于该预测实体关系、语义关联向量及训练实体关系,更新实体关系抽取模型的模型参数,使得实体关系抽取模型能够学习到训练样本在不同维度下的语义表示。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1为本申请实施例提供的电子设备100的一种示意性结构框图,该电子设备100可作为训练实体关系抽取模型、以实现本申请实施例提供的实体关系抽取模型训练方法的设备,或者是运行有利用该实体关系抽取模型训练方法训练完成的实体关系抽取模型、以实现本申请实施例提供的实体关系抽取方法的设备,比如手机、个人电脑(personal computer,PC)、平板电脑、服务器等等。
其中,电子设备100包括存储器101、处理器102和通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
存储器101可用于存储软件程序及模块,如本申请实施例提供的实体关系抽取模型训练装置400或者是实体关系抽取装置500对应的程序指令/模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器101可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解,图1所示的结构仅为示意,电子设备100还可以包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
下面以图1所示的电子设备100作为示意性执行主体,对本申请实施例提供的实体关系抽取训练方法及实体关系抽取方法进一步说明。
请参阅图2,图2为本申请实施例提供的实体关系抽取模型训练方法的一种示意性流程图,包括以下步骤:
S203,获得目标训练样本集及目标训练样本集对应的训练实体关系;
S205,将多个训练样本中的每一训练样本向量化,得到每一训练样本各自对应的特征嵌入向量;
S207,提取每一特征嵌入向量在多个维度的语义信息,得到每一训练样本各自对应的多维语义特征向量;
S209,根据所有多维语义特征向量,获得目标训练样本集对应的预测实体关系;
S211,基于预测实体关系、语义关联向量及训练实体关系,更新实体关系抽取模型的模型参数。
在本申请实施例中获得目标训练样本集包括多个训练样本,另外,本申请实施例所训练的实体关系抽取模型可以包括多个样本输入接口,每一样本输入接口可对应输入一个训练样本,该实体关系抽取模型可同时输入多个训练样本以进行模型的训练。
其中,对于某一次具体的训练过程中,获得的目标训练样本集对应有训练实体关系,该目标训练样本集中包括的所有训练样本均对应该训练实体关系。
例如,可以基于远程监督的方式,比如上述示例中的三元组<乔布斯,创始人,苹果>,在大量的训练样本中,获得与该三元组对齐的k个训练样本,将所获得的k个训练样本的集合作为该目标训练样本集;且假定k个训练样本分别表示为x1、x2、…、xk,这k个训练样本共同对应同一个训练实体关系“创始人”;其中,在对模型进行训练时,需要一次将k个训练样本输入至实体关系抽取模型中,即利用k个训练样本完成实体关系抽取模型的一次训练过程。
在本申请实施例中,对于目标训练样本集中包括的多个训练样本,需要将多个训练样本中的每一训练样本向量化,得到每一训练样本各自对应的特征嵌入向量;比如上述示例中的“乔布斯吃了一个苹果”和“乔布斯创建了苹果”,需要将两个句子均进行向量化,得到两个句子各自对应的特征嵌入向量。
其中,本申请实施例所训练的实体关系抽取模型可以存在多种网络结果形式。示例性地,请参阅图3,图3为一种实体关系抽取模型的示意性结构图,该实体关系抽取模型可以包括嵌入层(embedding layer)、多维语义学习层(Multi-dimensional semanticlearning layer)、句子间注意力层(sentence-level attention layer)及前馈神经网络层(feed-forward layer),嵌入层可用于执行S205,将目标训练样本集包括的多个训练样本中的每一训练样本均向量化,从而获得每一训练样本各自对应的特征嵌入向量。
值得说明的是,一般在获得大量训练样本对模型进行批量训练时,需要设置批尺寸batch_size,以使模型处理的特征嵌入向量的维度相同。
但在实际的应用场景中,获得的训练样本的尺寸可能与batch_size是不同的;比如假定batch_size设置为n×20,表征特征嵌入向量是一个n行20列的矩阵,其对应的句子尺寸包含有20个字;但在比如上述示例中,“乔布斯吃了一个苹果”仅包含9个字,“乔布斯创建了苹果”则仅包含了8个字,这与batch_size的尺寸是不相符的。
因此,作为一种可能的实现方式,可以将所有的特征嵌入向量与设置的batch_size对齐;比如在上述示例中,batch_size设置为n×20,“乔布斯吃了一个苹果”对应的特征嵌入向量原本的维度为n×9,“乔布斯创建了苹果”对应的特征嵌入向量原本的维度为n×8;则可以将“乔布斯吃了一个苹果”对应的特征嵌入向量中缺省的11列元素置为0、以及将“乔布斯创建了苹果”对应的特征嵌入向量中缺省的12列元素置为0,从而使两个句子各自对应的特征嵌入向量的维度均为n×20。
示例性地,假定图3所示的实体关系抽取模型输入有k个训练样本用于训练,若训练样本(x,y)中,假定实体关系y所能取得的值共有n_classes种,即可能有n_classes种实体关系,则y∈{y1,y2,…,yn_classes};且假定嵌入层输出的每一训练样本各自对应的特征嵌入向量分别为e11、e12、…、e1n,e21、e22、…、e2n,…,ek1、ek2、…、ekn;eij的维度为h。
由此,根据S205向量化后得到的每一训练样本各自对应的特征嵌入向量,执行S207提取每一特征嵌入向量在多个维度的语义信息,从而得到每一训练样本各自对应的多维语义特征向量li,i=1,2,…,k。
比如,在如图3所示实体关系抽取模型中,将嵌入层输出的特征嵌入向量e11、e12、…、e1n,e21、e22、…、e2n,…,ek1、ek2、…、ekn输入至多维语义学习层提取多个维度的语义信息,从而输出每一训练样本各自对应的多维语义特征向量li
其中,在提取每一特征嵌入向量在多个维度的语义信息时,可以对每一训练样本在多个维度进行学习,获得表征对训练样本的多个维度进行学习后得到的语义结果的语义关联向量,使得在对训练样本进行学习时,能够从多个维度对训练样本进行充分的学习,而不仅限于不同句子间单个维度上的关联;然后再对所有语义关联向量进行学习,将对所有语义关联向量进行学习后得到的语义结果,作为每一训练样本对应的多维语义特征向量。
由此,根据S207所获得的所有多维语义特征向量li,执行S209,采用例如图3所示实体关系抽取模型网络结构中的句子间注意力层和前馈神经网络层对所有多维语义特征向量li进行处理,从而获得该目标训练样本集对应的预测实体关系;进而执行S211,基于该预测实体关系、语义关联向量、以及训练实体关系,更新实体关系抽取模型的模型参数,从而实现对该实体关系抽取模型的训练。
可见,基于上述设计,本申请实施例提供的一种实体关系抽取模型训练方法,通过对目标训练样本集包括的多个训练样本进行学习时,从多个维度对每一训练样本进行充分的学习,并对学习后得到的语义关联向量进行处理,得到多维语义特征向量,从而再对多维语义特征向量进行处理,得到该目标训练样本集对应的预测实体关系,使得基于该预测实体关系、语义关联向量及训练实体关系,更新实体关系抽取模型的模型参数,相比于现有技术,使得实体关系抽取模型能够学习到训练样本在不同维度下的语义表示,而非仅学习训练样本在单个维度下的语义表示,从而使实体关系抽取时,能够结合样本的多个维度确定实体关系,提升实体关系抽取的准确度。
值得说明的是,作为一种可能的实现方式,上述S203、S205、S207及S209可以利用实体关系抽取模型中自有的结构层实现,比如在如图3所示的实体关系抽取模型中,可以由嵌入层实现S203及S205、多维语义学习层实现S207、句子间注意力层和前馈神经网络层相配合实现S209;而在本申请实施例其他一些可能的应用场景中,上述S203、S205、S207及S209还可以利用其他的功能模块实现,比如将S203、S205、S207及S209的过程作为预处理步骤,最后再以得到的结果,更新实体关系抽取模型的模型参数;本申请实施例对执行S203、S205、S207及S209的功能模块与实体关系抽取模型的关系并不做限定,只要能实现更新实体关系抽取模型的模型参数即可。
另外,为实现S207,请参阅图4,图4为图2中S207的子步骤的一种示意性流程图,作为一种可能的实现方式,以目标训练样本集中包括的多个训练样本中的其中一个训练样本作为目标训练样本为例,S207可以包括以下子步骤:
S207-1,根据目标训练样本对应的目标特征嵌入向量,得到目标训练样本对应的中间特征向量;
S207-2,对中间特征向量进行多个维度的学习处理,获得目标训练样本对应的目标语义关联向量;
S207-3,根据目标语义关联向量及中间特征向量,得到目标训练样本对应的目标多维语义特征向量。
在执行S207时,图3中的多维语义学习层可以有多种结构形式,示例性地,请参阅图5,图5为图3中多维语义学习层的一种示意性结构图,作为一种可能的实现方式,图3中的多维语义学习层可以基于BiLSTM(Bi-directional Long Short-Term Memory,双向长短期记忆网络)、2维-Attention机制及前馈神经网络构建。
在基于如图5所示的多维语义学习层的网络结构中,下面以k个训练样本中的第一个训练样本作为目标训练样本为例,对S207的计算过程进行示例性说明。
在执行S207-1时,假定第一个训练样本对应的目标特征嵌入向量表示为e11、e12、…、e1n,将该目标训练样本输入至BiLSTM中,由BiLSTM对目标训练样本的上下文信息进行学习,并将学习后得到的语义结果作为该目标训练样本对应的中间特征向量;假定BiLSTM输出的向量表示为u11、u12、…、u1n,且LSTM输出的维度为h,则有:
u1t=BiLSTM(u1t-1,e1t),......t=1,2,…,n;
式中,ut∈R2h
则对于第一个训练样本整个句子而言,得到的中间特征向量U表示为:
U=[u11,u12,…,u1n];
式中,U∈Rn×2h,[]表示向量的合并操作,比如a=(1,2,3),b=(4,5,6),则[a,b]=(1,2,3,4,5,6)。
而在执行S207-2时,可以利用如图5中的2维-Attention机制对中间特征向量进行多个维度的学习处理,从而获得目标训练样本对应的目标语义关联向量,学习处理的过程可满足如下公式:
A=soft max(W2 tanh(W1UT));
式中,A表示目标语义关联向量,A∈Rr×n,W1∈Rd×2h,W2∈Rr×d,W1和W2均为需要学习的参数。
其中,需要说明的是,S207-2中利用的2维-Attention机制,由于需要学习目标训练样本向量不同维度的语义表示,因此,S207-2中的处理对象中间特征向量U为包含N行子特征的矩阵,N为大于1的整数。
由此,在执行S207-2时,对中间特征向量U的每一行子特征各自进行学习处理,并将所有行子特征各自处理后的结果进行合并,得到目标语义关联向量。
比如对于上述计算获得的中间特征向量U,U为n行2h列的矩阵,则在执行S207-2时,利用Attention机制对中间特征向量U的每一行包含的所有元素各自进行学习处理,得到每一行元素的处理结果;然后将n行元素各自学习处理后得到的结果进行合并,合并得到的结果则为目标语义关联向量A,其中,目标语义关联向量A中的每一行元素表示一个维度下学习的语义结果。
另外,在执行S207-3时,首先利用S207-2得到的目标语义关联向量A对S207-1得到的中间特征向量U进行进一步学习,比如在图5所示的结构中,图5中的mr为M的第r行元素,表征第r个维度下学习的语义结果;然后将M作为前馈神经网络的输入,经前馈神经网络进行处理后,得到目标多维语义特征向量;假定前馈神经网络的输出向量表示为l1,则:
M=AU;
l1=W·flatten(M)+b;
式中,M∈Rr×2h,flatten函数表征把矩阵拉平,即降维,flatten(M)∈R2hr×1,表征需要将维度为Rr×2h的矩阵降为R2hr×1;W∈RL×2hr,b∈RL,L为前馈神经网络的输出维度,W和b均为需要学习的参数。
由此,将k个训练样本中的每个训练样本均作为目标训练样本,通过执行上述S207的所有子步骤,获得k个训练样本各自对应的多维语义特征向量l1、l2、…、lk
其中,需要说明的是,图5仅为示意,列举出一种多维语义学习层的结构,在本申请实施例其他一些可能的应用场景中,多维语义学习层还可以为其他结构存在,比如示例性地,还可以基于BiLSTM构建多维语义学习层,通过多个BiLSTM对训练样本进行多次反复的训练,能够学习训练样本不同维度下更深层次的语义信息;本申请实施例对多维语义学习层的结构不进行限定,只要能够学习到训练样本在多个维度的语义信息即可。
另外,基于上述获得的多维语义特征向量l1、l2、…、lk,为实现S209,请参阅图6,图6为图2中S209的子步骤的一种示意性流程图,作为一种可能的实现方式,S209可以包括以下子步骤:
S209-1,利用注意力Attention机制对所有多维语义特征向量进行处理,得到目标训练样本集对应的注意力特征向量;
S209-2,基于注意力特征向量,获得目标训练样本集对应的预测实体关系。
在例如图3所示的实体关系抽取模型中,可以由句子间注意力层和前馈神经网络层两者相配合,以实现S209的计算过程。
其中,句子间注意力层可用于实现S209-1的步骤,句子间注意力层的目的是为k个训练样本中的真正样本分配较大的权重系数,而为k个训练样本的噪音样本分配较小的权重系数,以减小实体关系抽取训练时噪音数据产生的影响。
假定句子间注意力层输出的注意力特征向量表示为v,则有:
式中,表示对应位置的点乘运算,wa和wb均为需要学习的参数,且wa∈R1×L,wb∈RL×1,v∈R1×L
由此,前馈神经网络层可用于实现S209-2的步骤,前馈神经网络层对句子间注意力层输出的注意力特征向量v进行输出学习时,假定得到的输出向量表示为o,则:
o=soft max(Wov+bo);
式中,Wo和bo均为需要学习的参数,Wo∈RL×n_classes,bo∈Rn_classes;o∈Rn_classes,且oj=p(y=yj|x),j=1,2,…,n_classes,即oj表示训练样本x对应的实体关系为yj的概率。
另外,为实现S211,请参阅图7,图7为图2中S211的子步骤的一种示意性流程图,作为一种可能的实现方式,S211可以包括以下子步骤:
S211-1,基于预测实体关系、语义关联向量及训练实体关系,获得多个维度中每一维度下的损失函数值;
S211-2,根据所有维度下的损失函数值之和,更新实体关系抽取模型的模型参数。
如上所示,本申请实施例中的语义关联向量表征的是对训练样本的多个维度进行学习后得到的语义结果;因此,在更新实体关系抽取模型的模型参数时,可以利用该语义关联,根据训练样本在不同维度下学习后得到的语义结果,计算损失函数。
示例性地,在更新实体关系抽取模型的模型参数时,可以基于预测实体关系、语义关联向量及训练实体关系,计算获得多个维度中每一维度下的损失函数值,然后在根据所有维度下的损失函数值之和,利用例如梯度下降优化算法等,最小化得到的损失函数值之和,从而实现更新实体关系抽取模型的模型参数。
示例性地,本申请实施例可以基于交叉熵构建损失函数,因此,作为一种可能的实现方式,对于给定样本(xi,yi),i=1,2,…,N,所有维度下的损失函数值之和可以满足如下公式:
式中,p(yi|xi)表示训练样本xi的实体关系为yi的概率,|| ||F表示弗罗贝尼乌斯Frobenius范数,α为设定的调节系数,A表示语义关联向量,I表示单位矩阵。
并且,可选地,为实现S205,请参阅图8,图8为图2中S205的子步骤的一种示意性流程图,作为一种可能的实现方式,每一训练样本中均包括两个实体,同样以目标训练样本集包括的多个训练样本中的其中一个训练样本作为目标训练样本为例,S205可以包括以下子步骤:
S205-1,获取目标训练样本中的第一实体和第二实体;
S205-2,获取目标训练样本中每个文字各自对应的字向量,以及每个文字各自对应的第一位置嵌入向量和第二位置嵌入向量;
S205-3,将每个文字各自对应的字向量、第一位置嵌入向量及第二位置嵌入向量进行合并,得到每个文字各自对应的字嵌入向量;
S205-4,将目标训练样本中所有文字各自对应的字嵌入向量进行合并,得到目标训练样本对应的特征嵌入向量。
在实体关系抽取的应用场景中,由于句子中的每个字都对两个实体间的实体关系存在贡献,且一般距离实体越近的字对实体关系的贡献越大,为此,本申请实施例采用字符嵌入和位置嵌入的方式向量化训练样本,从而得到每一训练样本对应的特征嵌入向量。
示例性地,在向量化目标训练样本时,可以先获取目标训练样本中的第一实体和第二实体。
其中,获取第一实体和第二实体的方式,可以基于远程监督的方式实现;比如,实体关系抽取模型所获得的输入为:x=(“乔布斯”,“苹果”,句子1,句子2,…,句子k),向量化目标训练样本时,可以通过文本对齐的方式,比对目标训练样本中包含的“乔布斯”和“苹果”,从而获得第一实体和第二实体。
然后,将目标训练样本中的每个文字均转换为各自对应的字向量,并根据目标训练样本中的第一实体和第二实体,获取每个文字各自对应的第一位置嵌入向量和第二位置嵌入向量,其中,第一位置嵌入向量表征每个文字与第一实体的相对位置距离,第二位置嵌入向量表征每个文字与第二实体的相对位置距离。
其中,示例性地,在将目标训练样本中的每个文字转换为各自对应的字向量时,可以采用在电子设备内存储特征向量表的方式实现;具体地说,电子设备内存储的该特征向量表表征的是多个字向量的集合,特征向量表中的每一列所有元素的集合,均代表一个字;通过比对该特征向量表,即可获取目标训练样本中每个文字对应的字向量。
另外,在获取每个文字对应的第一位置嵌入向量和第二位置嵌入向量时,可以通过为句子中的每个字相对于第一实体和第二实体的位置下标,分别计算出每个文字分别距离第一实体的第一位置距离,以及每个文字分别距离第二实体的第二位置距离,然后根据查找位置嵌入向量表的方式,分别将第一位置距离和第二位置距离向量化,从而获得每个文字对应的第一位置嵌入向量和第二位置嵌入向量;其中,位置嵌入向量表的作用同样是将各个位置距离转换为对应的向量表示,通过比对该位置嵌入向量表,将位置嵌入向量表中对应列的所有元素,作为位置距离所对应的位置嵌入向量。
比如,在上述示例性句子“乔布斯吃了一个苹果”中,每个字的位置下标分别为“乔/0布/1斯/2吃/3了/4一/5个/6苹/7果/8”,假设pos1和pos2分别表示第一实体“乔布斯”的位置下标和第二实体“苹果”的位置下标,则pos1=0,pos2=7;另外,假定该句子中每个文字的位置信息表示为position=(I1,I2,…,In),则所有文字的位置信息为pos=((I1-pos1,I1-pos2),(I2-pos1,I2-pos2),…,(In-pos1,In-pos2));比如在上述示例句子中,“乔”的位置信息表示为(0,-7),“一”的位置信息表示为(4,-3)。
另外,为避免位置信息中出现负值,可以将所有文字的位置信息正数化,比如为每个数值均加上一个设定的值,例如10,则上述示例中,“乔”的位置信息更新为(10,3),“一”的位置信息更新为(14,7)。
由此,将获得的目标训练样本中每个文字各自对应的字向量、第一位置嵌入向量及第二位置嵌入向量进行合并,从而得到目标训练样本中每个文字各自对应的字嵌入向量。
其中,需要说明的是,假定字嵌入时,每个字对应的字向量的向量维度为dim1,位置嵌入时对应的向量维度为dim2,则最终每个字对应的字嵌入向量的向量维度为dim1+2*dim2;比如,假定字向量的向量维度为100,即包含100个元素,位置嵌入时对应的向量维度为4,即利用4个元素表示位置距离,则最终每个字对应的字嵌入向量的向量维度则为108。
由此,基于所获得的目标训练样本中每个文字各自对应的字嵌入向量,将所有的字嵌入向量进行合并,从而得到目标训练样本对应的特征嵌入向量。
比如,以k个训练样本中的第一个训练样本作为目标训练样本为例,若第一个训练样本中每个字各自对应的字嵌入向量分别为e11、e12、…、e1n,则第一个训练样本对应的特征嵌入向量表示为[e11,e12,…,e1n]。
需要说明的是,上述仅以一个目标训练样本集为例,详述了利用本申请实施例提供的实体关系抽取模型训练方法进行一次训练的过程,在实际的应用场景中,往往需要多个训练样本集对实体关系抽取模型进行多次训练,直至实体关系抽取模型满足设定的收敛条件。
为此,可选地,在图2所示的流程步骤的基础上,请参阅图9,图9为本申请实施例提供的实体关系抽取模型训练方法的另一种示意性流程图,作为一种可能的实现方式,在执行S203之前,该实体关系抽取方法还包括以下步骤:
S201,获得与多个实体关系一一对应的多个训练样本集;
S202,将多个训练样本集中的其中一个训练样本集作为目标训练样本集。
在本申请实施例中,可以通过例如网络爬虫(web crawler)等方式获取大量的训练样本,然后再采用例如远程监督的方式,利用多个三元组(比如上述的<乔布斯,创始人,苹果>),通过文本对齐的方式,获得与多个实体关系一一对应的多个训练样本集;比如假定预先设置有10个三元组,通过网络爬虫的方式获取有十万条句子作为训练样本,通过文本对齐的方式,将十万条句子中对齐同一个三元组的句子分类为一个训练样本集,依次类推,从而根据十万条句子中获得与10个三元组一一对应的10个训练样本集,且每一训练样本集包含多个训练样本。
接着,将获得的多个训练样本集中的其中一个训练样本集作为目标训练样本集,进而以目标训练样本集作为实体关系抽取模型的输入,依次执行上述的S203~S211的步骤,完成一次实体关系抽取模型的训练过程。
然后,通过执行例如图9中S212的方式,判断该实体关系抽取模型是否已经满足设定的收敛条件,比如训练的次数是否达到设定的阈值,或者是连续两次更新参数时参数的变化值小于设定的阈值,或者是误差小于设定的阈值等等;若该实体关系抽取模型未满足设定的收敛条件,则返回S202继续执行该实体关系抽取模型训练方法,以继续更新该实体关系抽取模型的模型参数,直至在执行S212时,判定该实体关系抽取模型满足设定的收敛条件,完成该实体关系抽取模型的训练。
利用本申请实施例提供的上述实体关系抽取模型训练方法训练完成后得到的实体关系抽取模型,可以应用在智能问答***、实体关系抽取、文本分类等多种应用场景。
比如,示例性地,下面以利用上述的实体关系抽取模型训练方法训练完成的实体关系抽取模型,应用在实体关系抽取的应用场景为例,对本申请实施例其他的一种实体关系抽取方法进行实体性说明。
请参阅图10,图10为本申请实施例提供的实体关系抽取方法的一种示意性流程图,包括以下步骤:
S301,接收待预测样本;
S303,利用上述实体关系抽取模型训练方法训练完成的实体关系抽取模型对待预测样本进行处理,得到待预测样本对应的预测抽取结果;
S305,将最大的分类概率所对应的实体关系作为待预测样本对应的预测实体关系。
在本申请实施例中,可以将接收的待预测样本作为利用上述实体关系抽取模型训练方法训练完成的实体关系抽取模型的输入,由训练完成的实体关系抽取模型对该待预测样本进行处理,从而得到该待预测样本对应的预测抽取结果,其中,待预测样本对应的预测抽取结果包括多个实体关系及多个实体关系中每一实体关系各自对应的分类概率。
由此,利用每一实体关系各自对应的分类概率,可以将最大的分类概率对应的实体关系作为该待预测样本对应的预测实体关系。
其中,实体关系抽取可以应用在多个领域,比如在医疗领域中,可以对电子病历进行实体关系抽取,以建立医疗知识图谱;或者是在农业领域中,可以对农业信息文本进行实体关系抽取,以建立农业知识图谱。
比如在农业领域,现阶段农业信息数据已经具有很大的规模,获取大量有价值的农业数据变得比较容易,但是,获取的大多数农业信息数据为非结构化文本数据或者半结构化文本数据,难以有效的直接利用,还得需要进一步的理解和筛选。
而利用实体关系抽取可以快速将非结构化或半结构化的自然语言文本中抽取结构化信息,并对结构化的数据进行存储,便于查询和获取,比如用户可以通过查询建立的农业知识图谱,获得所需要的农业知识。例如,给定句子“玉米,也叫包谷,是重要的粮食作物和饲料作物”,其中“玉米”和“包谷”表示实体,且是已知的,实体关系抽取返回的两个实体的实体关系类别是“别名”;基于实体关系抽取所返回的两个实体的实体关系,将该句子添加至农业知识图谱中,以便用户可以通过查询农业知识图谱,学习“玉米”的别称,或者是获悉“包谷”的学名是“玉米”。
其中,示例性地,假定将农业信息文本的实体关系定义为8类,包括:别名、原产地、成分、子类、荣誉称号、价值、分类等级和其他,下面以具体的农业信息文本“水稻原产于中国和印度”作为待预测样本为例,对本申请实施例提供的实体关系抽取方法进一步说明。
利用训练完成的实体关系抽取模型对上述农业信息文本进行处理时,可以得到该农业信息文本对应的预测抽取结果,该预测抽取结果包括多个农业实体关系以及多个农业实体关系中每一农业实体关系各自对应的分类概率。
若该农业信息文本对应的预测抽取结果包括上述示例的8类实体关系,则作为一种示例,该农业信息文本对应的预测抽取结果可以为:
P(别名)=0.03;
P(原产地)=0.7;
P(成分)=0.04;
P(子类)=0.07;
P(荣誉称号)=0.03;
P(价值)=0.08;
P(分类等级)=0.02;
P(其他)=0.03;
其中,P(原产地)=0.7最大,则可以将对应的农业实体关系“原产地”作为该农业信息文本对应的预测实体关系;也就是说,经过该实体关系抽取模型预测“水稻原产于中国和印度”这一农业信息文本对应的预测实体关系为“原产地”。
由此,可以将所获得农业信息文本与预测实体关系的对应关系更新于农业知识图谱中,以使用户可以通过检索实体关键词的方式,查询农业知识图谱,以辅助用户快速了解所需的农业知识。
基于与本申请实施例提供的上述实体关系抽取模型训练方法相同的发明构思,请参阅图11,图11为本申请实施例提供的实体关系抽取模型训练装置400的一种示意性结构图,该实体关系抽取模型训练装置400包括第一处理模块401和参数更新模块402。
第一处理模块401用于获得目标训练样本集及目标训练样本集对应的训练实体关系,其中,目标训练样本集包括多个训练样本;
第一处理模块401还用于,将多个训练样本中的每一训练样本向量化,得到每一训练样本各自对应的特征嵌入向量;
第一处理模块401还用于,提取每一特征嵌入向量在多个维度的语义信息,得到每一训练样本各自对应的多维语义特征向量,其中,多维语义特征向量表征对语义关联向量进行学习后得到的语义结果,语义关联向量表征对训练样本的多个维度进行学习后得到的语义结果;
第一处理模块401还用于,根据所有多维语义特征向量,获得目标训练样本集对应的预测实体关系;
参数更新模块402,用于基于预测实体关系、语义关联向量及训练实体关系,更新实体关系抽取模型的模型参数。
其中,为描述的方便和简洁,上述实体关系抽取模型训练装置400的具体工作过程,请参照前述对应的实体关系抽取模型训练方法中对应的步骤,本申请实施例在此不再进行赘述。
另外,基于与本申请实施例提供的上述实体关系抽取方法相同的发明构思,请参阅图12,图12为本申请实施例提供的实体关系抽取装置500的一种示意性结构图,该实体关系抽取装置500包括接收模块501和第二处理模块502。
接收模块501用于接收待预测样本;
第二处理模块502用于利用上述实体关系抽取模型训练方法训练完成的实体关系抽取模型对待预测样本进行处理,得到待预测样本对应的预测抽取结果,其中,预测抽取结果包括多个实体关系及多个实体关系中每一实体关系各自对应的分类概率;
第二处理模块502还用于,将最大的分类概率所对应的实体关系作为待预测样本对应的预测实体关系。
其中,为描述的方便和简洁,上述实体关系抽取装置500的具体工作过程,请参照前述对应的实体关系抽取方法实施例中对应的步骤,本申请实施例在此不再进行赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。
也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本申请实施例提供的一种实体关系抽取方法、模型训练方法及相关装置,通过对目标训练样本集包括的多个训练样本进行学习时,从多个维度对每一训练样本进行充分的学习,并对学习后得到的语义关联向量进行处理,得到多维语义特征向量,从而再对多维语义特征向量进行处理,得到该目标训练样本集对应的预测实体关系,使得基于该预测实体关系、语义关联向量及训练实体关系,更新实体关系抽取模型的模型参数,相比于现有技术,使得实体关系抽取模型能够学习到训练样本在不同维度下的语义表示,而非仅学习训练样本在单个维度下的语义表示,从而使实体关系抽取时,能够结合样本的多个维度确定实体关系,提升实体关系抽取的准确度。
并且,还利用训练完成的实体关系抽取模型对农业信息文本进行实体关系的抽取,从而获得农业信息文本对应的预测实体关系,以使用户可以通过检索实体关键词的方式,辅助用户快速了解所需的农业知识。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (14)

1.一种实体关系抽取模型训练方法,其特征在于,所述方法包括:
获得目标训练样本集及所述目标训练样本集对应的训练实体关系,其中,所述目标训练样本集包括多个训练样本;
将所述多个训练样本中的每一所述训练样本向量化,得到每一所述训练样本各自对应的特征嵌入向量;
提取每一所述特征嵌入向量在多个维度的语义信息,得到每一所述训练样本各自对应的多维语义特征向量,其中,所述多维语义特征向量表征对语义关联向量进行学习后得到的语义结果,所述语义关联向量表征对所述训练样本的多个维度进行学习后得到的语义结果;
根据所有所述多维语义特征向量,获得所述目标训练样本集对应的预测实体关系;
基于所述预测实体关系、所述语义关联向量及所述训练实体关系,更新所述实体关系抽取模型的模型参数。
2.如权利要求1所述的方法,其特征在于,提取每一所述特征嵌入向量在多个维度的语义信息,得到每一所述训练样本各自对应的多维语义特征向量的步骤,包括:
根据目标训练样本对应的目标特征嵌入向量,得到所述目标训练样本对应的中间特征向量,其中,所述中间特征向量表征对所述目标训练样本的上下文信息进行学习后得到的语义结果,所述目标训练样本为所述目标训练样本集包括的多个训练样本中的之一;
对所述中间特征向量进行多个维度的学习处理,获得所述目标训练样本对应的目标语义关联向量;
根据所述目标语义关联向量及所述中间特征向量,得到所述目标训练样本对应的目标多维语义特征向量。
3.如权利要求2所述的方法,其特征在于,所述中间特征向量为包含N行子特征的矩阵,N为大于1的整数;
对所述中间特征向量进行多个维度的学习处理,获得所述目标训练样本对应的目标语义关联向量的步骤,包括;
对所述中间特征向量的每一行子特征各自进行学习处理,并将所有行子特征各自处理后的结果进行合并,得到所述目标语义关联向量。
4.如权利要求1所述的方法,其特征在于,基于所述预测实体关系、所述语义关联向量及所述训练实体关系,更新所述实体关系抽取模型的模型参数的步骤,包括:
基于所述预测实体关系、所述语义关联向量及所述训练实体关系,获得所述多个维度中每一维度下的损失函数值;
根据所有维度下的损失函数值之和,更新所述实体关系抽取模型的模型参数。
5.如权利要求4所述的方法,其特征在于,所有维度下的损失函数值之和满足如下公式:
式中,p(yi|xi)表示训练样本xi的实体关系为yi的概率,|| ||F表示弗罗贝尼乌斯Frobenius范数,α为设定的调节系数,A表示所述语义关联向量,I表示单位矩阵。
6.如权利要求1所述的方法,其特征在于,根据所有所述多维语义特征向量,获得所述目标训练样本集对应的预测实体关系的步骤,包括:
利用注意力Attention机制对所有所述多维语义特征向量进行处理,得到所述目标训练样本集对应的注意力特征向量;
基于所述注意力特征向量,获得所述目标训练样本集对应的所述预测实体关系。
7.如权利要求1所述的方法,其特征在于,每一所述训练样本中均包括两个实体;
将所述多个训练样本中的每一所述训练样本向量化,得到每一所述训练样本各自对应的特征嵌入向量的步骤,包括:
获取目标训练样本中的第一实体和第二实体,其中,所述目标训练样本为所述目标训练样本集包括的多个训练样本中的之一;
获取所述目标训练样本中每个文字各自对应的字向量,以及每个文字各自对应的第一位置嵌入向量和第二位置嵌入向量,其中,所述第一位置嵌入向量表征每个文字与所述第一实体的相对位置距离,所述第二位置嵌入向量表征每个文字与所述第二实体的相对位置距离;
将每个文字各自对应的所述字向量、所述第一位置嵌入向量及所述第二位置嵌入向量进行合并,得到每个文字各自对应的字嵌入向量;
将所述目标训练样本中所有文字各自对应的字嵌入向量进行合并,得到所述目标训练样本对应的特征嵌入向量。
8.如权利要求1所述的方法,其特征在于,在获得目标训练样本集及所述目标训练样本集对应的训练实体关系的步骤之前,所述方法还包括:
获得与多个实体关系一一对应的多个训练样本集,其中,每一所述训练样本集包含多个训练样本;
将所述多个训练样本集中的每一所述训练样本集依次作为所述目标训练样本集,以更新所述实体关系抽取模型的模型参数,直至所述实体关系抽取模型满足设定的收敛条件。
9.一种实体关系抽取方法,其特征在于,所述方法包括:
接收待预测样本;
利用如权利要求1-8任一项所述的方法训练完成的实体关系抽取模型对所述待预测样本进行处理,得到所述待预测样本对应的预测抽取结果,其中,所述预测抽取结果包括多个实体关系及所述多个实体关系中每一实体关系各自对应的分类概率;
将最大的分类概率所对应的实体关系作为所述待预测样本对应的预测实体关系。
10.如权利要求9所述的方法,其特征在于,所述待预测样本为农业信息文本;
所述预测抽取结果包括多个农业实体关系以及所述多个农业实体关系中每一农业实体关系各自对应的分类概率;
所述农业信息文本对应的预测实体关系为最大的分类概率所对应的农业实体关系。
11.一种实体关系抽取模型训练装置,其特征在于,所述装置包括:
第一处理模块,用于获得目标训练样本集及所述目标训练样本集对应的训练实体关系,其中,所述目标训练样本集包括多个训练样本;
所述第一处理模块还用于,将所述多个训练样本中的每一所述训练样本向量化,得到每一所述训练样本各自对应的特征嵌入向量;
所述第一处理模块还用于,提取每一所述特征嵌入向量在多个维度的语义信息,得到每一所述训练样本各自对应的多维语义特征向量,其中,所述多维语义特征向量表征对语义关联向量进行学习后得到的语义结果,所述语义关联向量表征对所述训练样本的多个维度进行学习后得到的语义结果;
所述第一处理模块还用于,根据所有所述多维语义特征向量,获得所述目标训练样本集对应的预测实体关系;
参数更新模块,用于基于所述预测实体关系、所述语义关联向量及所述训练实体关系,更新所述实体关系抽取模型的模型参数。
12.一种实体关系抽取装置,其特征在于,所述装置包括:
接收模块,用于接收待预测样本;
第二处理模块,用于利用如权利要求1-8任一项所述的方法训练完成的实体关系抽取模型对所述待预测样本进行处理,得到所述待预测样本对应的预测抽取结果,其中,所述预测抽取结果包括多个实体关系及所述多个实体关系中每一实体关系各自对应的分类概率;
所述第二处理模块还用于,将最大的分类概率所对应的实体关系作为所述待预测样本对应的预测实体关系。
13.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-10中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-10中任一项所述的方法。
CN201910645405.3A 2019-07-17 2019-07-17 实体关系抽取方法、模型训练方法及相关装置 Active CN110413999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910645405.3A CN110413999B (zh) 2019-07-17 2019-07-17 实体关系抽取方法、模型训练方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910645405.3A CN110413999B (zh) 2019-07-17 2019-07-17 实体关系抽取方法、模型训练方法及相关装置

Publications (2)

Publication Number Publication Date
CN110413999A true CN110413999A (zh) 2019-11-05
CN110413999B CN110413999B (zh) 2020-10-16

Family

ID=68361826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910645405.3A Active CN110413999B (zh) 2019-07-17 2019-07-17 实体关系抽取方法、模型训练方法及相关装置

Country Status (1)

Country Link
CN (1) CN110413999B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825827A (zh) * 2019-11-13 2020-02-21 北京明略软件***有限公司 一种实体关系识别模型训练、实体关系识别方法及装置
CN111177383A (zh) * 2019-12-24 2020-05-19 上海大学 一种融合文本语法结构和语义信息的文本实体关系自动分类方法
CN111241838A (zh) * 2020-01-15 2020-06-05 北京百度网讯科技有限公司 文本实体的语义关系处理方法、装置及设备
CN111274412A (zh) * 2020-01-22 2020-06-12 腾讯科技(深圳)有限公司 信息提取方法、信息提取模型训练方法、装置及存储介质
CN111651994A (zh) * 2020-06-03 2020-09-11 浙江同花顺智能科技有限公司 一种信息抽取方法、装置、电子设备和存储介质
CN111737416A (zh) * 2020-06-29 2020-10-02 重庆紫光华山智安科技有限公司 案件处理模型的训练方法、案件文本处理方法及相关装置
CN111814476A (zh) * 2020-06-09 2020-10-23 北京捷通华声科技股份有限公司 一种实体关系的抽取方法和装置
CN112860889A (zh) * 2021-01-29 2021-05-28 太原理工大学 一种基于bert的多标签分类方法
CN112989032A (zh) * 2019-12-17 2021-06-18 医渡云(北京)技术有限公司 实体关系分类方法、装置、介质及电子设备
CN113010690A (zh) * 2021-03-29 2021-06-22 华南理工大学 一种基于文本信息增强实体嵌入的方法
CN113836943A (zh) * 2021-11-25 2021-12-24 中国电子科技集团公司第二十八研究所 基于语义等级的关系抽取方法、装置
CN114328978A (zh) * 2022-03-10 2022-04-12 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 关系抽取方法、装置、设备及可读存储介质
CN114579755A (zh) * 2022-01-26 2022-06-03 北京博瑞彤芸科技股份有限公司 构建中医知识图谱的方法及装置
CN115130621A (zh) * 2022-08-31 2022-09-30 支付宝(杭州)信息技术有限公司 一种模型训练方法、装置、存储介质及电子设备
CN117221839A (zh) * 2023-11-09 2023-12-12 北京中科网芯科技有限公司 5g信令识别方法及其***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090319257A1 (en) * 2008-02-23 2009-12-24 Matthias Blume Translation of entity names
CN109522557A (zh) * 2018-11-16 2019-03-26 中山大学 文本关系抽取模型的训练方法、装置及可读存储介质
CN109800435A (zh) * 2019-01-29 2019-05-24 北京金山数字娱乐科技有限公司 一种语言模型的训练方法及装置
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090319257A1 (en) * 2008-02-23 2009-12-24 Matthias Blume Translation of entity names
CN109522557A (zh) * 2018-11-16 2019-03-26 中山大学 文本关系抽取模型的训练方法、装置及可读存储介质
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和***
CN109800435A (zh) * 2019-01-29 2019-05-24 北京金山数字娱乐科技有限公司 一种语言模型的训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DONG-RU RUAN ET AL.: "The Semantic Similarity Relation of Entities Discovery: Using Word Embedding", 《THE 9TH INTERNATIONAL CONFERENCE ON MODELLING, IDENTIFICATION AND CONTROL》 *
鄂海红 等: "深度学习实体关系抽取研究综述", 《软件学报》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825827B (zh) * 2019-11-13 2022-10-25 北京明略软件***有限公司 一种实体关系识别模型训练、实体关系识别方法及装置
CN110825827A (zh) * 2019-11-13 2020-02-21 北京明略软件***有限公司 一种实体关系识别模型训练、实体关系识别方法及装置
CN112989032A (zh) * 2019-12-17 2021-06-18 医渡云(北京)技术有限公司 实体关系分类方法、装置、介质及电子设备
CN111177383B (zh) * 2019-12-24 2024-01-16 上海大学 一种融合文本语法结构和语义信息的文本实体关系自动分类方法
CN111177383A (zh) * 2019-12-24 2020-05-19 上海大学 一种融合文本语法结构和语义信息的文本实体关系自动分类方法
CN111241838A (zh) * 2020-01-15 2020-06-05 北京百度网讯科技有限公司 文本实体的语义关系处理方法、装置及设备
CN111241838B (zh) * 2020-01-15 2023-10-31 北京百度网讯科技有限公司 文本实体的语义关系处理方法、装置及设备
CN111274412A (zh) * 2020-01-22 2020-06-12 腾讯科技(深圳)有限公司 信息提取方法、信息提取模型训练方法、装置及存储介质
CN111651994A (zh) * 2020-06-03 2020-09-11 浙江同花顺智能科技有限公司 一种信息抽取方法、装置、电子设备和存储介质
CN111651994B (zh) * 2020-06-03 2023-09-19 浙江同花顺智能科技有限公司 一种信息抽取方法、装置、电子设备和存储介质
CN111814476A (zh) * 2020-06-09 2020-10-23 北京捷通华声科技股份有限公司 一种实体关系的抽取方法和装置
CN111814476B (zh) * 2020-06-09 2024-04-16 北京捷通华声科技股份有限公司 一种实体关系的抽取方法和装置
CN111737416B (zh) * 2020-06-29 2022-08-19 重庆紫光华山智安科技有限公司 案件处理模型的训练方法、案件文本处理方法及相关装置
CN111737416A (zh) * 2020-06-29 2020-10-02 重庆紫光华山智安科技有限公司 案件处理模型的训练方法、案件文本处理方法及相关装置
CN112860889A (zh) * 2021-01-29 2021-05-28 太原理工大学 一种基于bert的多标签分类方法
CN113010690B (zh) * 2021-03-29 2022-11-18 华南理工大学 一种基于文本信息增强实体嵌入的方法
CN113010690A (zh) * 2021-03-29 2021-06-22 华南理工大学 一种基于文本信息增强实体嵌入的方法
CN113836943B (zh) * 2021-11-25 2022-03-04 中国电子科技集团公司第二十八研究所 基于语义等级的关系抽取方法、装置
CN113836943A (zh) * 2021-11-25 2021-12-24 中国电子科技集团公司第二十八研究所 基于语义等级的关系抽取方法、装置
CN114579755A (zh) * 2022-01-26 2022-06-03 北京博瑞彤芸科技股份有限公司 构建中医知识图谱的方法及装置
CN114328978B (zh) * 2022-03-10 2022-05-24 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 关系抽取方法、装置、设备及可读存储介质
CN114328978A (zh) * 2022-03-10 2022-04-12 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 关系抽取方法、装置、设备及可读存储介质
CN115130621A (zh) * 2022-08-31 2022-09-30 支付宝(杭州)信息技术有限公司 一种模型训练方法、装置、存储介质及电子设备
CN115130621B (zh) * 2022-08-31 2022-12-27 支付宝(杭州)信息技术有限公司 一种模型训练方法、装置、存储介质及电子设备
CN117221839A (zh) * 2023-11-09 2023-12-12 北京中科网芯科技有限公司 5g信令识别方法及其***
CN117221839B (zh) * 2023-11-09 2024-01-16 北京中科网芯科技有限公司 5g信令识别方法及其***

Also Published As

Publication number Publication date
CN110413999B (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN110413999A (zh) 实体关系抽取方法、模型训练方法及相关装置
CN111339774B (zh) 文本的实体关系抽取方法和模型训练方法
WO2020232861A1 (zh) 命名实体识别方法、电子装置及存储介质
CN105404632B (zh) 基于深度神经网络对生物医学文本序列化标注的***和方法
CN105139237A (zh) 信息推送的方法和装置
CN110427493A (zh) 电子病历处理方法、模型训练方法及相关装置
CN104462066A (zh) 语义角色标注方法及装置
CN111881671B (zh) 一种属性词提取方法
Vaferi et al. Application of recurrent networks to classification of oil reservoir models in well-testing analysis
CN110532398B (zh) 基于多任务联合神经网络模型的家族图谱自动构建方法
US20230334286A1 (en) Machine-learning method and system to optimize health-care resources using doctor-interpretable entity profiles
CN110413769A (zh) 场景分类方法、装置、存储介质及其电子设备
CN110852106A (zh) 基于人工智能的命名实体处理方法、装置及电子设备
CN112801762B (zh) 基于商品感知的多模态视频高光检测方法及其***
Xu et al. Intelligent emotion detection method based on deep learning in medical and health data
CN116258145B (zh) 多模态命名实体识别方法、装置、设备以及存储介质
CN111710428A (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
JP7081454B2 (ja) 処理装置、処理方法、及び処理プログラム
CN114021584B (zh) 基于图卷积网络和翻译模型的知识表示学习方法
CN114841151A (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
Mahapatra et al. MRMR-SSA: a hybrid approach for optimal feature selection
Naved et al. IoT-Enabled Convolutional Neural Networks: Techniques and Applications
CN112131884B (zh) 用于实体分类的方法和装置、用于实体呈现的方法和装置
CN113761188A (zh) 文本标签确定方法、装置、计算机设备和存储介质
Xu et al. Deep Multi‐Scale Residual Connected Neural Network Model for Intelligent Athlete Balance Control Ability Evaluation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant