CN114297409A

CN114297409A - 模型训练方法、信息抽取方法及装置、电子设备、介质

Info

Publication number: CN114297409A
Application number: CN202111676300.8A
Authority: CN
Inventors: 樊乘源; 刘海锋
Original assignee: Shenzhen Huantai Technology Co Ltd
Current assignee: Shenzhen Huantai Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-08

Abstract

本公开实施例是关于一种模型训练方法、信息抽取方法及装置、电子设备、存储介质，涉及计算机技术领域，该模型训练方法包括：获取训练语料，并确定所述训练语料对应的三元组，以将所述三元组确定为训练数据；根据所述训练数据训练多个神经网络模型，并通过所述多个神经网络模型对所述训练数据进行类型预测得到预测三元组；对所述预测三元组的权重进行调整，并根据调整权重后的预测三元组更新训练数据；根据更新后的训练数据对神经网络模型的模型参数进行调整，获取信息抽取模型。本公开的技术方案能够提高标注的精准度以及模型的准确性。

Description

模型训练方法、信息抽取方法及装置、电子设备、介质

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种模型训练方法、模型训练装置、信息抽取方法、信息抽取装置、电子设备以及计算机可读存储介质。

背景技术

信息抽取是知识图谱构建中一项重要的技术，通过信息抽取，可以补全图谱中缺失的属性。

常见的信息抽取方案有两种，一种是基于抽取关系类型的信息抽取，通过预定义的抽取关系类型从图谱中抽取出三元组入库，通过训练模型从训练数据中抽取出三元组。另外一种是开放域信息抽取技术。其中为了解决标注效率低的问题，通常会采用远程监督的方案进行预标注。

上述方式中，基于抽取关系类型的信息抽取方式中由于远程监督而导致出现训练数据漏标和错标的问题，标注的结果不准确；训练数据的标注数量有限，存在一定的局限性；并且根据训练数据训练的信息抽取模型的准确性较低。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种模型训练方法、信息抽取方法及装置、电子设备、存储介质，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的训练数据不准确以及模型准确性较低的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种模型训练方法，包括：获取训练语料，并确定所述训练语料对应的三元组，以将所述三元组确定为训练数据；根据所述训练数据训练多个神经网络模型，并通过所述多个神经网络模型对所述训练数据进行类型预测得到预测三元组；对所述预测三元组的权重进行调整，并根据调整权重后的预测三元组更新训练数据；根据更新后的训练数据对神经网络模型的模型参数进行调整，获取信息抽取模型。

根据本公开的一个方面，提供一种信息抽取方法，包括：获取待处理语料；通过信息抽取模型对所述待处理语料进行信息抽取，获取所述待处理语料对应的预测结果；其中，所述信息抽取模型根据上述任意一项所述的模型训练方法训练得到。

根据本公开的一个方面，提供一种模型训练装置，包括：训练数据获取模块，用于获取训练语料，并确定所述训练语料对应的三元组，以将所述三元组确定为训练数据；预测模块，用于根据所述训练数据训练多个神经网络模型，并通过所述多个神经网络模型对所述训练数据进行类型预测得到预测三元组；权重调整模块，用于对所述预测三元组的权重进行调整，并根据调整权重后的预测三元组更新训练数据；模型参数调整模块，用于根据更新后的训练数据对神经网络模型的模型参数进行调整，获取信息抽取模型。

根据本公开的一个方面，提供一种信息抽取装置，包括：语料获取模块，用于获取待处理语料；结果确定模块，用于通过信息抽取模型对所述待处理语料进行信息抽取，获取所述待处理语料对应的预测结果；其中，所述信息抽取模型根据上述任意一项所述的模型训练方法训练得到。

根据本公开的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的模型训练方法或上述任意一项所述的信息抽取方法。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的模型训练方法或上述任意一项所述的信息抽取方法。

本公开实施例中提供的模型训练方法、模型训练装置、信息抽取方法、信息抽取装置、电子设备以及计算机可读存储介质中，一方面，通过训练数据训练多个神经网络模型，并通过多个不同的神经网络模型对训练数据进行类型预测得到预测三元组，能够从训练数据中准确识别出错误标注以及漏标注的训练数据，提高标注的准确性和全面性。另一方面，避免了训练数据标注数量有限以及无法解决错误标注和漏标注的训练数据而导致的局限性，增加了应用范围。再一方面，通过调整预测三元组的权重来更新训练数据，进而根据更新的训练数据来训练模型，能够通过双向权重调整更新训练数据中预测三元组的权重，从而提高模型训练的精准度，提高模型准确性和可靠性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的模型训练方法或信息抽取方法的***架构的示意图。

图2示出了适于用来实现本公开实施例的电子设备的结构示意图。

图3示意性示出本公开实施例中一种模型训练方法的示意图。

图4示意性示出本公开实施例中确定三元组得分的示意图。

图5示意性示出本公开实施例中确定预测三元组的流程示意图。

图6示意性示出本公开实施例中确定候选三元组和待剔除三元组的流程示意图。

图7示意性示出本公开实施例中进行模型训练的流程示意图。

图8示意性示出本公开实施例中信息抽取的流程示意图。

图9示意性示出本公开实施例中一种信息抽取方法的流程示意图。

图10示意性示出本公开实施例中一种模型训练装置的框图。

图11示意性示出本公开实施例中信息抽取装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和 /或微控制器装置中实现这些功能实体。

相关技术中，常见的信息抽取方案有两种，一种是基于抽取关系类型的信息抽取。通过预定义了需要抽取的目标关系类型schema从图谱中抽取出三元组入库。例如预定义了schema为妻子、女儿，通过训练模型，就可以从训练语料“刘某某的老婆是朱某，他的女儿是刘某”中抽取出三元组“刘某某-女儿-刘某，刘某某-妻子-朱某”。另外一种是开放域信息抽取技术，通过对文本进行句法分析和命名实体识别，依靠预定义模板或者模型抽取出三元组。例如识别出了“刘某某演唱歌曲1”符合模板：人物-动词-名词，就可以抽取出三元组刘某某-演唱-歌曲1。但是开放域实体识别准确率低，三元组没有归一化，导致应用范围较小。

在训练基于预定义schema的信息抽取模型时，通常需要准备大量的语料并进行标注，并且标注语料需要耗费大量的人力，标注效率较低。为了解决标注效率低的问题，采用远程监督的方案进行预标注，流程如下：准备通用知识图谱；识别出待抽取文本中所有出现在图谱中的三元组作为候选；人工校验候选三元组是否正确。使用远程监督的方式标注，会产生漏标的问题。在分类问题中，出现正例未标注问题时，通常会使用PU learning技术，从未标注样本里找到可靠的负样本。

对于远程监督而言，未出现在通用图谱中三元组无法被识别出来。例如通用图谱中只存在刘某某-妻子-朱某，不存在刘某某-女儿-刘某。预标注时就无法识别出来“刘某某的老婆是朱某，他的女儿是刘某”中刘某某 -女儿-刘某这个三元组。如果这时直接将标注出来的语料作为训练语料，这条样本就会对模型产生负向影响。远程监督中获取到大量未标注数据想要作为训练语料，或者想要在新增的schema上进行信息抽取时，操作量较大。例如新增了丈夫这个schema，但是在标注数据时，并没有标注出来“刘某某的老婆是朱某，他的女儿是刘某”中对应的三元组朱某-丈夫-刘某某。如果要新增schema，就要重新标注整个数据。

PU learning在只有正类和无标记数据的情况下，训练二分类器，得到未标注的正例，将其作为正例处理，并不会考虑二分类器实际是基于已有训练数据，得出的正例并不能100％正确；而且PU learning不会对错误样本进行处理。

为了解决上述技术问题，本公开实施例中提供了一种模型训练方法，可以应用于信息抽取或序列标注等应用场景。

图1示出了可以应用本公开实施例的模型训练方法及装置或信息抽取方法及装置的***架构的示意图。

如图1所示，***架构100可以包括客户端101、网络102、服务器 103。其中，客户端可以为客户端，例如可以为智能手机、电脑、平板电脑智能音箱等终端。网络102用以在客户端101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线通信链路、无线通信链路等等，在本公开实施例中，客户端101和服务器103之间的网络102可以是有线通信链路，例如可以通过串口连接线提供通信链路，也可以是无线通信链路，通过无线网络提供通信链路。服务器103可以是具有计算功能的服务器或者是客户端，例如便携式计算机、台式计算机、智能手机等具有计算功能的终端设备，用于对客户端发送的语料进行处理。

该模型训练方法可以应用于对信息进行抽取的模型的训练场景中。参考图1中所示，具体可以应用于使用客户端101将训练语料发送至服务器103，服务器103对客户端上获取到的目标对象进行信息抽取的过程中。其中，客户端可以是各种类型的具有计算功能的设备，例如可以为智能手机、平板电脑、台式计算机、车载设备、可穿戴设备等等。目标对象可以为各种类型的文本信息。服务器103可以利用客户端101发送的训练语料得到训练数据，并根据训练数据训练多个神经网络模型以通过多个神经网络模型得到训练数据对应的预测三元组，进一步根据调整后的预测三元组的权重来更新训练数据，基于更新后的训练数据对神经网络模型的模型参数进行调整，生成信息抽取模型。基于此，当服务器103接收到由客户端101发送的需要进行信息抽取的待处理语料时，可以使用训练好的信息抽取模型来对待处理语料进行信息抽取，以得到对应的预测结果。并且可以将预测结果发送至客户端101进行显示和其他处理操作。

需要说明的是，本公开实施例所提供的模型训练方法以及信息抽取方法可以完全由服务器来执行。相应地，模型训练装置和信息抽取装置可设置于服务器中。

图2示出了适于用来实现本公开示例性实施方式的电子设备的示意图。本公开的终端可以被配置为如图2所示电子设备的形式，然而，需要说明的是，图2示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本公开的电子设备至少包括处理器和存储器，存储器用于存储一个或多个程序，当一个或多个程序被处理器执行时，使得处理器可以实现本公开示例性实施方式的方法。

具体的，如图2所示，电子设备200可以包括：处理器210、内部存储器221、外部存储器接口222、通用串行总线(Universal Serial Bus， USB)接口230、充电管理模块240、电源管理模块241、电池242、天线 1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(Subscriber IdentificationModule，SIM)卡接口295等。其中传感器模块280可以包括深度传感器、压力传感器、陀螺仪传感器、气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器及骨传导传感器等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备200 的具体限定。在本申请另一些实施例中，电子设备200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器、调制解调处理器、图形处理器、图像信号处理器、控制器、视频编解码器、数字信号处理器、基带处理器和/或神经网络处理器(Neural-etwork Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。另外，处理器210 中还可以设置存储器，用于存储指令和数据。本示例性实施方式中的模型训练方法可以由应用处理器、图形处理器或图像信号处理器来执行，当方法涉及到神经网络相关的处理时，可以由NPU来执行。

内部存储器221可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。外部存储器接口222可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备200的存储能力。

移动终端200的通信功能可以通过移动通信模块、天线1、无线通信模块、天线2、调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。移动通信模块可以提供应用在移动终端200上2G、3G、4G、5G等移动通信解决方案。无线通信模块可以提供应用在移动终端200上的无线局域网、蓝牙、近场通信等无线通信解决方案。

显示屏用于实现显示功能，如显示用户界面、图像、视频等。摄像模块用于实现拍摄功能，如拍摄图像、视频等。音频模块用于实现音频功能，如播放音频，采集语音等。电源模块用于实现电源管理功能，如为电池充电、为设备供电、监测电池状态等。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读存储介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

接下来，参考图3对本公开实施例中的模型训练方法进行详细说明。

在步骤S310中，获取训练语料，并确定所述训练语料对应的三元组，以将所述三元组确定为训练数据。

本公开实施例中，训练语料指的是优化之前的数据，其可以为各种类型的训练语料，训练语料可以通过远程监督的方式获取。远程监督指的是将文本与大规模知识图谱进行实体对齐，利用知识图谱已有的实体间关系对文本进行标注。其可以将已有的知识库对应到丰富的非结构化数据中 (比如新闻文本)，从而生成大量的训练数据，以训练出一个关系抽取器。

三元组是表示实体及实体关系的语义网络，例如三元组可以为实体 -关系-实体。对于训练语料而言，可以获取训练语料的初始三元组，并对训练语料的初始三元组进行筛选来确定三元组。具体地，可以根据目标关系类型将所述训练数据中的所有三元组确定为初始三元组，并根据语义信息从所述初始三元组中确定待抽取三元组，以确定所述三元组。其中，目标关系类型用于描述待抽取的三元组中的实体之间的关系，目标关系类型可以为表示实体间关系的名词，例如妻子；目标关系类型也可以为表示实体之间的关系的动词，例如参演等等。目标关系类型可以根据实际需求进行定义，且对于不同类型的实体，其对应的目标关系类型也不同。举例而言，当实体为人物时，目标关系类型可以包括但不限于丈夫、妻子、作品、参演等等。

在确定出目标关系类型后，可以根据目标关系类型对训练语料进行抽取，将抽取的所有三元组确定为初始三元组。进一步地，可以根据语义信息判断初始三元组是否为待抽取三元组，若是，则将待抽取三元组确定为训练语料的三元组。其中，可以提取语义信息，并判断语义信息中是否包含目标关系类型。若包含该目标关系类型，则确定初始三元组为待抽取三元组。通过确定初始三元组以及根据语义信息对初始三元组进行筛选得到目标关系类型对应的三元组，从而将三元组作为训练数据，能够对训练语料进行优化，提高训练数据的准确性。举例而言，若训练语料为“2月19日，96岁的资深演员侯某某离世，她曾在《电影1》和《电影2》等电影饰演婆婆一角，而临终前侯婆婆一直说，自己好喜欢电影，好喜欢周某某”，得到的训练数据可以为电影2-编剧-周某某，侯某某-出演-电影1。

接下来，在步骤S320中，根据所述训练数据训练多个神经网络模型，并通过所述多个神经网络模型对所述训练数据进行类型预测得到预测三元组。

本公开实施例中，多个神经网络模型的模型参数可以不同，且多个神经网络模型可以根据不同的训练数据而得到。具体地，可以将训练数据划分为多个训练数据子集，并根据多个训练数据子集分别进行模型训练得到多个不同的神经网络模型。

其中，可以通过交叉验证将训练数据划分为多个训练数据子集。交叉验证可以为n折交叉验证。n的数量可以根据具体需求进行设定，例如n可以为5或者是其它数值。基于此，可以使用n折交叉验证的方式，将训练数据划分为n份，即n个训练数据子集，从而根据n个训练数据子集来训练n个神经网络模型。n个神经网络模型均可以包括一个指针网络，以用于确定主语或者是宾语等等。

在根据多个训练数据子集来训练多个神经网络模型时，可以将多个训练数据子集中的一个训练数据子集作为验证集，将剩余训练数据子集作为训练集，分别对多个神经网络模型分别进行训练。具体地，对于第 i个模型而言，其验证集可以为第i个训练数据子集，除第一个训练数据子集之外的剩余训练数据子集均作为训练集。

在模型训练过程中，可以通过每个模型对应的训练集，使用每个模型对与所述每个模型关联的验证集所对应的训练数据进行预测，根据验证集的预测结果对每个模型的模型参数进行调整，以训练每个神经网络模型。其中，对于每个模型而言，都是在该模型对应的这部分验证集上得分最高的模型。因此，每个模型都是以在其对应的验证集上分数值最高为训练目标进行训练。即，每个模型可以选取使得验证集上分数值最高的参数确定每个模型的模型参数，从而完成每个模型的训练过程。此处的分数值可以为F1值，F1值用于评价模型的准确性。

举例而言，参考图5中所示，当使用5折交叉验证时，训练数据被分为5份即5个Fold(Fold1、Fold2...Fold5)。其中，第1个模型使用Fold1 作为验证集，使用Fold2、Fold3、Fold4、Fold5作为训练集。以此类推，第5个模型使用Fold5作为验证集，使用Fold1、Fold2、Fold3、Fold4作为训练集。对于每个模型而言，其使用4个Fold进行训练，并使用1个 Fold进行预测，从而得到5个模型。5个模型都是在该模型对应的这部分验证集上得分最高的模型。因此，可以验证集上分数值最高为训练目标对每个模型进行训练。

在训练得到多个神经网络模型后，可以根据多个神经网络模型来对训练数据进行预测得到对应的预测三元组。图5中示意性示出了确定预测三元组的流程图，参考图5中所示，主要包括以下步骤：

在步骤S510中，通过所述多个神经网络模型对所述训练数据进行预测，得到多个目标三元组的多个得分；

在步骤S520中，对所述目标三元组的多个得分进行平均处理获取每个目标三元组的目标得分，并根据所述目标得分确定所述预测三元组。

本公开实施例中，可以分别使用多个神经网络模型对训练数据进行预测，以得到多个目标三元组。目标三元组指的是通过多个神经网络模型进行预测得到的所有三元组。即，可以使用每个神经网络模型对训练数据进行卷积操作，得到未分类的目标三元组。每个神经网络模型可以对应多个目标三元组，且多个神经网络模型得到的多个目标三元组可以相同，也可以不同，此处不作特殊限定。在得到多个目标三元组后，可以计算每个目标三元组针对于每个神经网络模型的得分。并且，相同的目标三元组相对于不同神经网络模型的得分可以相同或不同。

进一步地，可以对每个目标三元组的多个得分进行平均处理，确定预测三元组。平均处理包括进行求和操作以及计算平均值。每个目标三元组的目标得分可以为其平均得分。继续参考图5中所示，每个模型选取在验证集Test上F1值最高的模型的参数，通过不同的模型继续对训练数据进行预测，以得到每个目标三元组的得分，进一步将不同模型得到的相同目标三元组的得分通过平均分数的方式进行投票和汇总，以得到每个目标三元组的目标得分。

预测三元组指的是通过多个训练好的神经网络模型对训练数据进行预测得到的预测三元组。预测三元组指的是类型确定的目标三元组。预测三元组的类型可以结合目标三元组的目标得分、阈值以及语义信息而确定，具体可以包括候选三元组以及待剔除三元组。候选三元组可以包括未存在于训练数据中需要新增的三元组(即漏标的三元组)，还可以包括原本已经存在于训练数据中的标注正确的三元组。待剔除三元组指的是需要删除的标注错误的三元组。第一阈值用于确定候选三元组，第二阈值用于确定待剔除三元组。

举例而言，通过多个神经网络模型对训练数据“刘某某和妻子朱某在中国香港结婚”进行预测，每个神经网络模型得到多个目标三元组，且每个模型得到的目标三元组可能重复。接下来，计算每个目标三元组在每个神经网络模型下的得分，并将所有得分求平均值得到平均分。例如，“刘某某和妻子朱某在中国香港结婚”，刘某某-妻子-朱某这个目标三元组的平均分是0.9，刘某某-朋友-朱某这个目标三元组的平均分是0.2。进一步可以将三元组的平均分与第一阈值或者是第二阈值进行对比，以确定预测三元组。例如，将刘某某-朋友-朱某标记为待剔除三元组，将目标三元组刘某某-出生地-中国香港标记为待剔除三元组。

图6中示意性示出了确定候选三元组和待剔除三元组的流程图，参考图6中所示，主要包括以下步骤：

在步骤S610中，判断所述目标三元组的目标得分是否大于第一阈值；若是，则转至步骤S620；若否，则转至步骤S630。

在步骤S620中，若所述目标得分大于第一阈值，将所述目标三元组确定为候选三元组。

在步骤S630中，判断所述目标得分是否小于第二阈值；若否，则转至步骤S640；若是，则转至步骤S650。

在步骤S640中，判断目标得分大于第一阈值的三元组是否存在于语义信息中；若否，则转至步骤S650。其中，所述第二阈值小于所述第一阈值。

在步骤S650中，若所述目标得分小于第二阈值，或所述目标得分大于第一阈值且所述三元组未存在于语义信息中，将所述目标三元组确定为待剔除三元组。

本公开实施例中，第一阈值可以为上限阈值，例如可以为0.6或者是其它数值，具体根据实际需求而确定，此处以第一阈值为0.6为例进行说明。第二阈值可以为下限阈值，例如可以为0.3或其他数值，此处以0.3为例进行说明。

当某个目标三元组的目标得分大于第一阈值且目标三元组存在于训练数据的语义信息中时，可将目标三元组确定为候选三元组。当目标三元组的目标得分小于第二阈值时，可将目标三元组确定为待剔除三元组。除此之外，当目标三元组的目标得分大于第一阈值，且目标三元组未存在与训练数据对应的语义信息中时，可将目标三元组确定为待剔除三元组。

举例而言，例如“刘某某和妻子朱某在中国香港结婚”，刘某某-妻子- 朱某这个目标三元组的平均分是0.9，那么将其作为候选三元组。刘某某-出生地-中国香港虽然符合事实，在图谱中有对应三元组，但是无法从“刘某某和妻子朱某在中国香港结婚”的语义信息中得到，则将目标三元组刘某某-出生地-中国香港标记为待剔除三元组。若“刘某某和妻子朱某在中国香港结婚”，刘某某-朋友-朱某这个目标三元组的平均分是0.2，则将刘某某-朋友-朱某标记为待剔除三元组。本公开实施例中，通过第一阈值和第二阈值，以及语义信息对训练数据对应的多个目标三元组进行筛选得到预测三元组，能够从训练数据中准确识别出错误标注以及漏标注的三元组，避免了标注数量有限而导致的局限性，提高标注的准确性和全面性，能够提高确定预测三元组的准确性。

除此之外，对于表示候选三元组的新增关系类型，可以只标注部分语料作为种子集，通过迭代即可获得所有语料的三元组，避免了需要标注全部的训练语料的复杂操作，提高了操作效率。

继续参考图3中所示，在步骤S330中，对所述预测三元组的权重进行调整，并根据调整权重后的预测三元组更新训练数据。

本公开实施例中，由于训练数据中的三元组可能存在错标和漏标的问题，直接添加候选三元组和移除待剔除三元组会影响准确性，因此通过调整权重的方式来标记候选三元组和待剔除三元组。具体地，将出现在训练数据中的待剔除三元组权重降低，将未出现在训练数据中的候选三元组的权重增加。在增加候选三元组的权重时，可以按照指标参数来确定候选三元组的权重。指标参数可以为模型的准确率，也可以为其他数值，具体根据实际需求进行设置。例如，当模型的准确率为0.7时，候选三元组的权重可以为0.7。在降低待剔除三元组的权重时，其权重可以根据分数阈值而确定。分数阈值用于表示是否为三元组，具体可以根据实际需求进行设定，例如可以为0.5或者也可以为其他数值，只要小于候选三元组的权重即可。

例如候选三元组的权重为0.7，待剔除三元组的权重为0.5。对于训练数据“刘某某和妻子朱某在中国香港结婚，他们的女儿是刘某”，原本标注的三元组是刘某某-出生地-中国香港，在进行权重调整时，将其中的三元组确定为：刘某某-妻子-朱某-0.7，刘某某-出生地-中国香港-0.5，其他三元组的权重默认为1，并且将更新权重后的三元组确定为更新后的训练数据。

举例而言，若训练语料为“2月19日，96岁的资深演员侯某某离世，她曾在《电影1》和《电影2》等电影饰演婆婆一角，而临终前侯婆婆一直说，自己好喜欢电影，好喜欢周某某”，得到的训练数据可以为电影2-编剧-周某某以及侯某某-出演-电影1。其中，电影2-编剧-周某某表示的三元组为待剔除三元组(待剔除标签)，将其权重降低为0.5。侯某某-出演-电影2代表的三元组为候选三元组(候选标签)，将其权重增加为0.7。基于此，可以得到更新后的训练数据。本公开实施例中，通过增加未处于训练数据中的候选三元组的权重，并降低处于训练数据中的待剔除三元组的权重，使用双重权重调整方式，能够提高训练数据的准确性，并且避免了直接删除和添加三元组对训练数据的干扰。需要说明的是，对于未处于训练数据中的候选三元组，其调整前的权重为0；对于处于训练数据中的待剔除三元组，其调整前的权重为1。

继续参考图3中所示，在步骤S340中，根据更新后的训练数据对神经网络模型的模型参数进行调整，获取信息抽取模型。

本公开实施例中，可以使用带权重的更新后的训练数据来对神经网络模型的模型参数进行调整以进行模型训练，进而获取信息抽取模型。可以基于损失函数，使用更新后的训练数据来进行模型训练。

图7中示意性示出了进行模型训练的流程图，参考图9中所示，主要包括以下步骤：

在步骤S710中，调整候选三元组的函数权重，并调整待剔除三元组的函数权重。

本步骤中，函数权重指的是候选三元组或待剔除三元组在损失函数的权重。候选三元组在损失函数的权重以及待剔除三元组在损失函数的权重可以不同。通过调整候选三元组的函数权重和调整待剔除三元组的函数权重，能够调节候选三元组和待剔除三元组对模型的影响程度。为了提高准确性，可以提高候选三元组的函数损失，降低待剔除三元组的函数损失。具体地，可以按照指标参数来调整候选三元组的函数权重。指标参数指的是模型的准确率，例如可以为0.7。因为模型的准确率大约在0.7左右，所以候选三元组正确的期望是0.7左右，因此为候选三元组设置0.7的系数(原来不在训练数据中的三元组系数为0)。并且，可以按照分数阈值来调整待剔除三元组的函数损失，分数阈值用于判断是否为三元组。分数阈值例如可以为0.5。由于判断是否为三元组的分数阈值是0.5，所以将待剔除三元组设置了0.5的系数(原来在训练数据中的三元组系数为1)。

在步骤S720中，根据所述候选三元组的函数权重以及所述待剔除三元组的函数权重对损失函数进行更新，确定目标损失函数。

本步骤中，损失函数可以为交叉熵损失函数。在计算目标损失函数时，可以根据函数权重对损失函数进行处理来计算。具体地，可以将候选三元组的函数权重、以及待剔除三元组的函数权重与损失函数进行乘法操作，得到目标损失函数。具体地，可以将损失函数与函数权重相乘，将损失函数调整为目标损失函数。例如，通过程序los＝los*ratio，根据权重ratio对损失函数los进行调整。通过按照指标参数增加候选三元组的函数权重，按照分数阈值降低待剔除三元组的函数权重来对损失函数的函数权重进行更新，能够提高目标损失函数的准确性，降低候选三元组以及待剔除三元组对损失函数的影响。

在步骤S730中，以所述目标损失函数最小为训练目标，根据更新后的训练数据对神经网络模型的模型参数进行调整，以获取所述信息抽取模型。

本步骤中，可以将目标损失函数最小作为训练目标，将更新后的训练数据作为输入，将更新后的训练数据的三元组(候选三元组以及待剔除三元组)作为拟合目标，对神经网络模型的模型参数进行调整，直至目标损失函数最小时结束训练过程，以得到信息抽取模型。

本公开实施例中，通过对损失函数的权重进行调整，以及根据更新后的训练数据对神经网络模型进行训练得到信息抽取模型，解决了相关技术中信息抽取时错误标注以及漏标注的问题，能够提高标注的准确性。使用双向权重调整方式，能够调整训练数据中未标注的三元组和错标三元组的权重，从而提高模型的准确性，提高模型训练效果。需要说明的是，神经网络模型可以为基于PU learning(Positive-unlabeled learning)算法的模型。PU learning算法即在只有正类数据和无标记数据的情况下，训练二分类器。得到未标注的正例，将其作为正例处理，并不会考虑二分类器实际是基于已有训练数据，得出的正例并不能完全正确，而且PU learning不会对错误样本进行处理。因此需要将PU learning 得到的样本降低权重。改进的PU learning算法候选三元组以及待剔除三元组的权重进行了调整，并且对损失函数的权重进行了调整，能够提高准确性。

表1

模型	准确率	召回率	F1值
				原始模型	73.03％	73.38％	73.38％
改进PU learning	74.98％	73.21％	76.84％

表1中示意性示出了模型训练的对比结果。参考表1中所示，使用改进的PUlearning模型，准确率相对于原始模型提高了1.95％，F1值提高了3.46％。因此，提高了模型训练的准确性，也提高了模型的准确性。

图8中示意性示出了信息抽取的流程图，参考图8中所示，主要包括以下步骤：

在步骤S810中，准备训练语料。

在步骤S820中，基于远程监督数据训练抽取模型。

在步骤S830中，三元组权重调整。

在步骤S840中，训练带权重的信息抽取模型。

在步骤S850中，得到预测结果。

本公开实施例中，通过训练好的信息抽取模型来进行信息抽取，能够避免错标漏标的问题，提高了三元组的准确性。

综上所述，本公开实施例中的技术方案，使用改进PU learning的信息抽取流程来解决信息抽取时，训练语料过少以及三元组漏标的问题，基于n折交叉验证的三元组抽取方式，通过训练n个有差异的模型，可以有效的从训练数据中识别出标注错误和漏标的样本，避免了局限性，增加了应用范围。在训练语料较少的情况下避免了三元组漏标错标的情况，提高了三元组标注的准确性和完整性。可以调整训练数据中候选三元组和错标三元组的权重，使用权重调整后的数据作为训练数据，并且调整了候选三元组和待剔除三元组的损失函数的权重，使用了双向权重调整方式，提升模型训练效率，提高模型训练的准确率，提高模型的可靠性。在新增关系类型时，无需再标注全部的训练语料，只需要标注少量的种子集，通过迭代，即可确定出所有的三元组，减少了操作步骤，提高了标注效率。

本公开实施例中，还提供了一种信息抽取方法，参考图9中所示，主要包括以下步骤：

在步骤S910中，获取待处理语料；

在步骤S920中，通过信息抽取模型对所述待处理语料进行信息抽取，获取所述待处理语料对应的预测结果；其中，所述信息抽取模型根据上述任意一项所述的模型训练方法训练得到。

本公开实施例中，待处理语料可以为任何类型的语料，具体可以为待抽取的文本或者是待标注的序列等等。信息抽取模型指的是对待处理语料进行三元组抽取的模型，其可以为任意类型的模型，例如可以为神经网络模型。信息抽取，即从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术。待处理语料对应的预测结果，可以包括待处理语料中能够得到的所有三元组。基于此，实际应用时，只需将待处理语料输入至信息抽取模型中进行卷积操作，输出即为待处理语料对应的所有三元组。

在序列标注的场景中，也存在实体漏标和错标的模型，因此将模型的任务由信息抽取任务改为序列标注任务，也可以提高序列标注的准确性。

本公开实施例中提供了一种模型训练装置，参考图10中所示，该模型训练装置1000可以包括：

训练数据获取模块1001，用于获取训练语料，并确定所述训练语料对应的三元组，以将所述三元组确定为训练数据；

预测模块1002，用于根据所述训练数据训练多个神经网络模型，并通过所述多个神经网络模型对所述训练数据进行类型预测得到预测三元组；

权重调整模块1003，用于对所述预测三元组的权重进行调整，并根据调整权重后的预测三元组更新训练数据；

模型参数调整模块1004，用于根据更新后的训练数据对神经网络模型的模型参数进行调整，获取信息抽取模型。

在本公开的一种示例性实施例中，训练数据获取模块包括：三元组确定模块，用于根据目标关系类型将所述训练数据中的所有三元组确定为初始三元组，并根据所述训练数据的语义信息在所述初始三元组中确定待抽取三元组，以确定所述三元组。

在本公开的一种示例性实施例中，预测模块包括：数据拆分模块，用于根据所述训练数据进行交叉验证得到多个训练数据子集；训练控制模块，用于将所述多个训练数据子集中的一个训练数据子集作为验证集，将剩余训练数据子集作为训练集，对多个神经网络模型进行训练。

在本公开的一种示例性实施例中，训练控制模块被配置为：将所述多个训练数据子集中的第i个训练数据子集作为验证集，将剩余训练数据子集作为训练集；以第i个神经网络模型的验证集分数值最高为模型训练目标，对多个神经网络模型中的第i个神经网络模型进行训练，并确定训练好的第i个神经网络模型。

在本公开的一种示例性实施例中，预测模块包括：得分确定模块，用于通过所述多个神经网络模型对所述训练数据进行预测，得到多个目标三元组的多个得分；预测三元组确定模块，用于对所述目标三元组的多个得分进行平均处理获取每个目标三元组的目标得分，并根据所述目标得分确定所述预测三元组。

在本公开的一种示例性实施例中，预测三元组确定模块包括：第一确定模块，用于若所述目标得分大于第一阈值，将所述三元组确定为候选三元组；第二确定模块，用于若所述目标得分小于第二阈值，或所述目标得分大于第一阈值且所述三元组未存在于所述训练数据对应的语义信息中，将所述三元组确定为待剔除三元组；其中，所述第一阈值大于所述第二阈值。

在本公开的一种示例性实施例中，权重调整模块被配置为：降低处于所述训练数据中的待剔除三元组的权重，增加所述训练数据之外的候选三元组的权重，并根据调整权重后的三元组更新训练数据。

在本公开的一种示例性实施例中，模型参数调整模块包括：权重调整模块，用于调整候选三元组的函数权重，并调整待剔除三元组的函数权重；损失函数更新模块，用于根据所述候选三元组的函数权重以及所述待剔除三元组的函数权重对损失函数进行更新，确定目标损失函数；模型参数更新模块，用于以所述目标损失函数最小为训练目标，根据更新后的训练数据对神经网络模型的模型参数进行调整，以获取所述信息抽取模型。

在本公开的一种示例性实施例中，权重调整模块被配置为：根据指标参数确定所述候选三元组的函数权重，并根据分数阈值确定所述待剔除三元组的函数权重。

需要说明的是，上述模型训练装置中各模块的具体细节已经在对应的模型训练方法中进行了详细描述，因此此处不再赘述。

本公开实施例中还提供了一种信息抽取装置，参考图11中所示，该信息抽取装置1100可以包括：

语料获取模块1101，用于获取待处理语料；

结果确定模块1102，用于通过信息抽取模型对所述待处理语料进行信息抽取，获取所述待处理语料对应的预测结果；其中，所述信息抽取模型上述任意一项所述的模型训练方法训练得到。

需要说明的是，上述信息抽取装置中各模块的具体细节已经在对应的信息抽取方法中进行了详细描述，因此此处不再赘述。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等) 执行根据本公开实施方式的方法。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种模型训练方法，其特征在于，包括：

获取训练语料，并确定所述训练语料对应的三元组，以将所述三元组确定为训练数据；

根据所述训练数据训练多个神经网络模型，并通过所述多个神经网络模型对所述训练数据进行类型预测得到预测三元组；

对所述预测三元组的权重进行调整，并根据调整权重后的预测三元组更新训练数据；

根据更新后的训练数据对神经网络模型的模型参数进行调整，获取信息抽取模型。

2.根据权利要求1所述的模型训练方法，其特征在于，所述确定所述训练语料对应的三元组，包括：

根据目标关系类型将所述训练数据中的三元组确定为初始三元组，并根据所述训练数据的语义信息在所述初始三元组中确定待抽取三元组，以确定所述三元组。

3.根据权利要求1所述的模型训练方法，其特征在于，所述根据所述训练数据训练多个神经网络模型，包括：

根据所述训练数据得到多个训练数据子集；

将所述多个训练数据子集中的一个训练数据子集作为验证集，将剩余训练数据子集作为训练集，对多个神经网络模型进行训练。

4.根据权利要求3所述的模型训练方法，其特征在于，所述将所述多个训练数据子集中的一个训练数据子集作为验证集，将剩余训练数据子集作为训练集，对多个神经网络模型进行训练，包括：

将所述多个训练数据子集中的第i个训练数据子集作为验证集，将剩余训练数据子集作为训练集；

以第i个神经网络模型的验证集分数值最高为模型训练目标，对多个神经网络模型中的第i个神经网络模型进行训练，并确定训练好的第i个神经网络模型。

5.根据权利要求3所述的模型训练方法，其特征在于，所述通过所述多个神经网络模型对所述训练数据进行类型预测得到预测三元组，包括：

通过所述多个神经网络模型对所述训练数据进行预测，得到多个目标三元组的多个得分；

对所述目标三元组的多个得分进行平均处理获取每个目标三元组的目标得分，并根据所述目标得分确定所述预测三元组。

6.根据权利要求5所述的模型训练方法，其特征在于，所述根据所述目标得分确定所述预测三元组，包括：

若所述目标得分大于第一阈值，将所述三元组确定为候选三元组；

若所述目标得分小于第二阈值，或所述目标得分大于第一阈值且所述三元组未存在于所述训练数据对应的语义信息中，将所述三元组确定为待剔除三元组；其中，所述第一阈值大于所述第二阈值。

7.根据权利要求6所述的模型训练方法，其特征在于，所述对所述预测三元组的权重进行调整，并根据调整权重后的预测三元组更新训练数据，包括：

降低处于所述训练数据中的待剔除三元组的权重，增加所述训练数据之外的候选三元组的权重，并根据调整权重后的三元组更新训练数据。

8.根据权利要求6所述的模型训练方法，其特征在于，所述根据更新后的训练数据对神经网络模型的模型参数进行调整，获取信息抽取模型，包括：

调整候选三元组的函数权重，并调整待剔除三元组的函数权重；

根据所述候选三元组的函数权重以及所述待剔除三元组的函数权重对损失函数进行更新，确定目标损失函数；

以所述目标损失函数最小为训练目标，根据更新后的训练数据对神经网络模型的模型参数进行调整，以获取所述信息抽取模型。

9.根据权利要求8所述的模型训练方法，其特征在于，所述调整候选三元组的函数权重，并调整待剔除三元组的函数权重，包括：

根据指标参数确定所述候选三元组的函数权重，并根据分数阈值确定所述待剔除三元组的函数权重。

10.一种信息抽取方法，其特征在于，包括：

获取待处理语料；

通过信息抽取模型对所述待处理语料进行信息抽取，获取所述待处理语料对应的预测结果；其中，所述信息抽取模型根据权利要求1-9中任意一项所述的模型训练方法训练得到。

11.一种模型训练装置，其特征在于，包括：

训练数据获取模块，用于获取训练语料，并确定所述训练语料对应的三元组，以将所述三元组确定为训练数据；

预测模块，用于根据所述训练数据训练多个神经网络模型，并通过所述多个神经网络模型对所述训练数据进行类型预测得到预测三元组；

权重调整模块，用于对所述预测三元组的权重进行调整，并根据调整权重后的预测三元组更新训练数据；

模型参数调整模块，用于根据更新后的训练数据对神经网络模型的模型参数进行调整，获取信息抽取模型。

12.一种信息抽取装置，其特征在于，包括：

语料获取模块，用于获取待处理语料；

结果确定模块，用于通过信息抽取模型对所述待处理语料进行信息抽取，获取所述待处理语料对应的预测结果；其中，所述信息抽取模型根据权利要求1-9中任意一项所述的模型训练方法训练得到。

13.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-9任意一项所述的模型训练方法或权利要求10所述的信息抽取方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-9任意一项所述的模型训练方法或权利要求10所述的信息抽取方法。