CN110543634B

CN110543634B - 语料数据集的处理方法、装置、电子设备及存储介质

Info

Publication number: CN110543634B
Application number: CN201910822709.2A
Authority: CN
Inventors: 张熙; 刘亭村; 李小勇; 王春露
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2021-03-02
Anticipated expiration: 2039-09-02
Also published as: CN110543634A

Abstract

本发明实施例提供了一种语料数据集的处理方法、装置、电子设备及存储介质，可以实现获取原始的语料数据集，语料数据集中包括多条提及以及预先针对各条提及标注的标签数据；判断语料数据集中的各条提及之间是否具有关联关系；针对具有关联关系的关联提及，根据关联提及的标签数据，计算关联提及的边缘概率；从语料数据集中，删除边缘概率小于预设概率值的关联提及。应用本发明可以剔除语料数据集中人为标注带来的错误信息，降低语料数据集中的噪声问题，进而提高模型训练的准确度，提高关系提取的准确率。

Description

语料数据集的处理方法、装置、电子设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种语料数据集的处理方法、装置、电子设备及存储介质。

背景技术

关系提取是抽取一个句子中包含的实体之间的关系，从而在海量的文本中抽取出有用的信息。实体对应真实世界的实体，一般表现为一个词或一个短语，比如曹操、仙人掌等等。关系则刻画两个或多个实体的关系，比如张三是诗集的作者，那么张三与诗集的关系即是“创作”关系。关系提取可以识别文本中词语间的因果关系、从医学出版物中提取基因与疾病的关系用于疾病风险标记、从商品评论文本中抽取用户对商品的评价信息、从社交网络中用户的留言和分享数据中提取用户关注的信息等，目前已经应用在生物信息学、社交网络、智能问答、信息检索等众多场景。

关系提取首先需要从给定的带有标注数据的语料数据集里训练出一个模型，就是训练一个关系分类器，当模型训练好了之后，给它一个包含两个实体的句子，根据语料数据集训练出的关系分类器来判定该句子应当分到哪一类中去，从而完成句子中两实体的关系分类。但是，语料数据集中的标注数据包括人为标注的标签，因为不是所有标注者都可以正确理解语料数据集中的两个实体间的关系，所以人为标注的错误信息比较多，语料数据集里的错误标注信息形成噪声，影响训练模型的准确度，因此，我们需要提出改进方法，降低语料数据集中因为错误标注信息带来的噪声问题。

发明内容

本发明实施例的目的在于提供一种语料数据集的处理方法、装置、电子设备及存储介质，以实现降低语料数据集中的噪声问题。具体技术方案如下：

获取原始的语料数据集，所述语料数据集中包括多条提及以及预先针对各条提及标注的标签数据；

判断所述语料数据集中的各条提及之间是否具有关联关系；

针对具有关联关系的关联提及，根据所述关联提及的标签数据，计算所述关联提及的边缘概率；

从所述语料数据集中，删除边缘概率小于预设概率值的关联提及。

可选的，所述根据所述关联提及的标签数据，计算所述关联提及的边缘概率，包括：

根据所述语料数据集中具有关联关系的各关联提及，构建图模型，所述图模型包括结点和边，所述结点表示关联提及，所述边表示两个结点所示关联提及之间具有关联关系；

根据各结点所示关联提及的标签数据，经过多轮迭代，计算所述各结点所示关联提及的边缘概率。

可选的，所述关联提及的标签数据包括各标注者标注的所述关联提及的标签数据；所述根据各结点所示关联提及的标签数据，经过多轮迭代，计算所述各结点所示关联提及的边缘概率，包括：

若为第一轮迭代，则根据所述各标注者标注的各关联提及的标签数据，利用第一预设概率计算公式，计算所述各结点所示关联提及的标签类型为正类的概率，其中，所述第一预设概率计算公式为：

γ_i为第i个结点所示关联提及的标签类型为正类的概率，

为第k个标注者标注的第i个结点所示关联提及的标签数据，C_i为对第i个结点所示关联提及进行标注的标注者的总数目；

根据所述各结点所示关联提及的标签类型为正类的概率，确定所述各结点所示关联提及的边缘概率。

可选的，所述关联提及的标签数据包括各标注者标注的所述关联提及的标签数据；所述根据各结点所示关联提及的标签数据，经过多轮迭代，计算所述各结点所示关联提及的边缘概率，还包括：

若不是第一轮迭代，则根据各结点所示关联提及的标签数据及预设的兼容性矩阵选择规则，为所述各条边分别选择对应的兼容性矩阵；

根据所述各结点所示关联提及当前的边缘概率及所述各标注者标注的各关联提及的标签数据，利用预设标注质量计算公式，计算各标注者对应的标签类型为正类的第一标注质量和标签类型为负类的第二标注质量，其中，所述预设标注质量计算公式为：

α^k为第k个标注者对应的标签类型为正类的第一标注质量，β^k为第k个标注者对应的标签类型为负类的第二标注质量，N_k为第k个标注者标记的关联提及的数量，γ_i为第i个结点所示关联提及的标签类型为正类的概率，

为第k个标注者标注的第i个结点所示关联提及的标签数据；

基于所述各标注者对应的第一标注质量及第二标注质量，利用第二预设概率计算公式，计算所述各结点所示关联提及的标签类型为正类的概率，其中，所述第二预设概率计算公式为：

其中，

p_i＝P(y_i＝1|x_i,ω)＝σ(ω^Tx_i+b)

p_i为利用预设估计算法、第i个结点所示关联提及的标签类型为正类的概率，y_i为第i个结点所示关联提及的标签数据，x_i为第i个结点所示关联提及，ω为所述预设估计算法的估计参数，b为计算偏置；

根据所述各条边对应的兼容性矩阵、所述各结点所示关联提及当前的边缘概率及所述各条边当前的信念传播信息，计算所述各结点对应的信念值；

计算本轮迭代计算得到的所述各结点对应的信念值分别与上一轮迭代计算得到的相同结点对应的信念值的差值；

判断各差值之和是否小于预设阈值，以及迭代次数是否达到预设次数；

若所述各差值之和小于所述预设阈值，或者，所述迭代次数达到所述预设次数，则根据所述各结点所示关联提及的标签类型为正类的概率，确定所述各结点所示关联提及的边缘概率。

可选的，所述根据所述各条边对应的兼容性矩阵、所述各结点所示关联提及当前的边缘概率及所述各条边当前的信念传播信息，计算所述各结点对应的信念值，包括：

根据所述各条边对应的兼容性矩阵、所述各结点所示关联提及当前的边缘概率及所述各条边当前的信念传播信息，利用预设更新公式，更新所述各条边的信念传播信息，其中，所述预设更新公式为：

m_ij为第i个结点到第j个结点所连接的边对应的信念传播信息，y_i为第i个结点所示关联提及的标签数据，y_j为第j个结点所示关联提及的标签数据，Φ_i为第i个结点所示关联提及的边缘概率，

为第i个结点到第j个结点所连接的边s对应的兼容性矩阵，N(i)为第i个结点的所有相邻结点，k为N(i)中除去j结点外的所有相邻结点，m_ki为第i个结点的第k个相邻结点到第i个结点所连接的边对应的信念传播信息，Z₁为归一化常数；

根据更新后的所述各条边的信念传播信息、所述各结点所示关联提及当前的边缘概率，利用预设信念值计算公式，计算所述各结点对应的信念值，其中，所述预设信念值计算公式为：

b_i为第i个结点对应的信念值，Z₂为归一化常数。

可选的，在所述判断各差值之和是否小于预设阈值，以及迭代次数是否达到预设次数之后，所述方法还包括：

若所述各差值之和不小于所述预设阈值，并且所述迭代次数未达到所述预设次数，则利用随机梯度下降优化方法，调整所述估计参数，并执行下一轮迭代。

本发明实施例还提供一种语料数据集的处理装置，所述装置包括：

获取模块，用于获取原始的语料数据集，所述语料数据集中包括多条提及以及预先针对各条提及标注的标签数据；

判断模块，用于判断所述语料数据集中的各条提及之间是否具有关联关系；

计算模块，用于针对具有关联关系的关联提及，根据所述关联提及的标签数据，计算所述关联提及的边缘概率；

删除模块，用于从所述语料数据集中，删除边缘概率小于预设概率值的关联提及。

可选的，所述计算模块，具体用于：

本发明实施例还提供一种电子设备，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述方法。

本发明实施例提供了一种语料数据集的处理方法、装置、电子设备及存储介质，获取原始的语料数据集，语料数据集中包括多条提及以及预先针对各条提及标注的标签数据，判断语料数据集中的各条提及之间是否具有关联关系，针对具有关联关系的关联提及，根据关联提及的标签数据，计算关联提及的边缘概率，从语料数据集中，删除边缘概率小于预设概率值的关联提及。

本发明中关联提及的边缘概率小于预设概率值时表示该提及中标注的两实体间的关系是不成立的，通过判断语料数据集中关联提及的边缘概率值与预设概率值的大小关系，删除边缘概率小于预设概率值的关联提及，也就删除了语料数据集中相应的不准确的标注信息。应用本发明可以剔除语料数据集中人为标注带来的错误信息，降低语料数据集中的噪声问题，进而提高模型训练的准确度，提高关系提取的准确率。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语料数据集的处理方法流程图。

图2为本发明实施例提供的一种语料数据集的处理方法示意图。

图3为本发明实施例提供的一种语料数据集的处理装置结构示意图。

图4为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种语料数据集的处理方法、装置、电子设备及存储介质，以下分别进行详细说明。

图1为本发明提供的一种语料数据集的处理方法流程图。该方法由终端设备执行，终端设备中安装有执行软件或硬件。如图1所示，本发明实施例提供的技术方案具体包括：

S101：获取原始的语料数据集，语料数据集中包括多条提及以及预先针对各条提及标注的标签数据；

S102：判断语料数据集中的各条提及之间是否具有关联关系；

S103：针对具有关联关系的关联提及，根据关联提及的标签数据，计算关联提及的边缘概率；

S104：从语料数据集中，删除边缘概率小于预设概率值的关联提及。

本发明中关联提及的边缘概率小于预设概率值时表示该提及中标注的两实体间的关系是不成立的，通过判断语料数据集中关联提及的边缘概率值与预设概率值的大小关系，删除边缘概率小于预设概率值的关联提及，也就删除了语料数据集中相应的不准确的标注信息。应用本发明可以剔除语料数据集中人为标注带来的错误信息，降低语料数据集中的噪声问题，进而提高模型训练的准确度，提高关系提取的准确率。

对于本发明实施例中，获取文本信息，组成语料库，也可以利用现有的语料库，从语料库中生成相关的语料数据集，为后续本发明实施例的实现提供语言文本材料基础。语料数据集包含丰富的原始语句实例，原始语句中包含有多个词对，一个词对包含两个实体，包含两个实体的一条原始语句为这两个实体的一条提及，并且在语料数据集中已经标注有提及中两实体间的关系，还标注有针对各条提及标注的标签数据。标签数据可以基于众包方法得到，众包方法是将需要标注的数据集通过网络平台或者其他平台交由标注人员进行标注，很多非职业的标注者以较低的报酬在一些平台上帮助科研工作者或者公司来标注数据，这种标注质量的要求并不是很严格，标注周期短。在众包的标注平台上，一般每个提及都会得到多个标注者的标注，因此每一个提及都会得到大量的标签数据。当然，标签数据也可以由职业人员进行标注或者***自动生成。

在获取语料数据集后判断针对各条提及标注的标签数据是正类或者负类的，正类表示一条提及中标注的两实体间的关系是成立的，负类表示一条提及中标注的两实体间的关系是不成立的，在本发明实施过程中将正类和负类用两个不同的量进行定量化表示，比如将正类表示为1，负类表示为0。

可选的，当一条提及中的多个实体与另一条提及中的多个实体中有相同的某个实体时，这两条提及之间具有关联关系，比如，提及“李白是唐朝的诗人”和提及“唐玄宗是唐朝的皇帝”因为实体“唐朝”而产生关联。比如，从淘宝、微博等平台获取原始评论，从中获取原始的语料数据集，以一条提及中包含两个实体为例，并且将提及中的实体分为形容词和名词，那么可以根据以下几种关系判断提及间具有关联：两个提及来自于同一个原始评论，且共享原始评论语句中同一位置的名词；两个提及来自于同一个原始评论，且共享原始评论语句中同一位置的形容词；两个提及来自于不同原始评论，且共享原始评论语句中的名词；两个提及来自于不同原始评论，且共享原始评论语句中的形容词；两个提及来自于不同原始评论，且共享原始评论语句中的形容词和名词；两个提及来自于同一个原始评论，共享原始评论语句中的形容词和名词，且至少有一个名词或形容词在评论句中的位置不同。当然，本发明并不限定实体只能分为形容词和名词。没有关联的提及不进行处理，在原始语料集和处理后的语料集中是一样的。

可选的，根据关联提及的标签数据，计算关联提及的边缘概率，包括：

根据语料数据集中具有关联关系的各关联提及，构建图模型，图模型包括结点和边，结点表示关联提及，边表示两个结点所示关联提及之间具有关联关系；

根据各结点所示关联提及的标签数据，经过多轮迭代，计算各结点所示关联提及的边缘概率。

图模型是由点和线组成的图形，属于结构模型，可用于描述大量事物和事物之间的关系。构成图模型的图形的每条边可以被赋以权，组成加权图，权可取一定数值，用以表示距离、流量、费用等。本发明实施例中，将结点表示为x_i，用以代表关联提及，对应的关联提及中标注有C_i个标签数据，表示为y_i ¹，...，y_i ^Ci，两个关联提及具有关联关系时，代表两个关联提及的结点x_i和结点x_j之间构成边，表示为s；结点和边构成图模型，此时图模型的边被赋以权表示两个结点所示关联提及之间具有关联关系。

根据各结点所示关联提及的标签数据，计算各结点所示关联提及的边缘概率时，由于存在多个标签数据，而且在计算过程开始只有提及和提及中标注的标签数据作为计算数据，如何计算最终的边缘概率，这就在计算过程中引入了众包最大似然估计的问题，需要利用预设估计算法求解众包最大似然估计问题。最大似然估计是推导一个函数然后求解这个函数的问题，这个函数已知输入值x，需要求解输出值f(x)，但是不知道函数中的其他参数，那么问题在于如何知道函数中其他未知参数的值从而得到输出值f(x)，本发明实施例中，输入值x可以理解为提及和提及中标注的标签数据，输出值f(x)可以理解为边缘概率。本发明实施例中求解众包最大似然估计问题是通过期望最大化算法结合图模型完成的。期望最大化算法是一种迭代算法，主要用于从不完整的数据中求解最大似然估计。迭代过程主要包括：给定某个初始参数，估计未知参数的值；从未知参数当前值出发，重新估计某个初始参数值，迭代这一过程，直至满足某个收敛条件。

如图2所示，结点x_i和结点x_j之间构成边s，根据兼容性选择规则为边s划分兼容性矩阵，兼容性矩阵包括

和

其中，

代表边所连接的两个结点所示关联提及是同质的，两个结点所示关联提及的标签类型相互促进；

代表边所连接的两个结点所示关联提及是异质的，两个结点所示关联提及的标签类型相互抑制；本发明实施例中除上述两个兼容性矩阵外还包括传递任何信息的全1兼容性矩阵。兼容性选择规则在后文中进行详细描述，这里不再赘述。

图中方框表示图模型，图模型中包括结点和结点之间的边，结点x_i带有对应关联提及中标注的C_i个标签数据，边带有兼容性矩阵信息。以结点x_i对应的关联提及和对应关联提及中C_i个标签数据为输入值，计算某个初始参数。根据计算得到的某个初始参数，通过图模型的计算，估计未知参数α、β和ω的值，根据得到的未知参数α、β和ω的值，重新估计某个初始参数，迭代这一过程，直至满足某个收敛条件，得到结点x_i对应的边缘概率b_i(y_i)为输出值，相应的，输入其余各结点对应的标签数据，可以得到其余各结点对应的边缘概率。

本发明实施例，通过图的结构将概率模型可视化，能够了解复杂分布中的变量之间的关系，把概率上的复杂计算过程理解为在图上进行信息传递的过程。

可选的，关联提及的标签数据包括各标注者标注的关联提及的标签数据；根据各结点所示关联提及的标签数据，经过多轮迭代，计算各结点所示关联提及的边缘概率，包括：

若为第一轮迭代，则根据各标注者标注的各关联提及的标签数据，利用第一预设概率计算公式，计算各结点所示关联提及的标签类型为正类的概率，其中，第一预设概率计算公式为：

γ_i为第i个结点所示关联提及的标签类型为正类的概率，

根据各结点所示关联提及的标签类型为正类的概率，确定各结点所示关联提及的边缘概率。

当得到C_i个标注者标注的第i个结点所示关联提及的标签数据，首先通过多数投票算法得到第i个结点的边缘概率，作为计算的初始值，比如，得到第i个结点所示关联提及的标签数据有10个，其中有9个正类标签，即9个1，一个负类标签，即一个0，那么通过多数投票算法得到第i个结点的边缘概率为0.9，但是这种方法得到的边缘概率是不准确的，用多数投票算法得到的边缘概率进行计算得到的结果是不准确的，所以本发明实施例中通过第一轮迭代计算第i个结点所示关联提及的标签类型为正类的概率，为后续迭代计算过程提供数据基础。

可选的，各结点所示关联提及的边缘概率表示为Φ＝(1-γ,γ)。

边缘概率表示只考虑当前结点的概率，本发明实施例中，各结点所示关联提及的边缘概率表示各结点所示关联提及当前的分类概率，如果结点所示关联提及的边缘概率小于预设概率值，则结点所示关联提及中标注的两实体间的关系是不成立的，将结点边缘概率小于预设概率值的关联提及进行删除，剔除语料数据集中不准确的标注信息。

可选的，关联提及的标签数据包括各标注者标注的关联提及的标签数据；根据各结点所示关联提及的标签数据，经过多轮迭代，计算各结点所示关联提及的边缘概率，还包括：

若不是第一轮迭代，则根据各结点所示关联提及的标签数据及预设的兼容性矩阵选择规则，为各条边分别选择对应的兼容性矩阵；

根据各结点所示关联提及当前的边缘概率及各标注者标注的各关联提及的标签数据，利用预设标注质量计算公式，计算各标注者对应的标签类型为正类的第一标注质量和标签类型为负类的第二标注质量，其中，预设标注质量计算公式为：

为第k个标注者标注的第i个结点所示关联提及的标签数据；

基于各标注者对应的第一标注质量及第二标注质量，利用第二预设概率计算公式，计算各结点所示关联提及的标签类型为正类的概率，其中，第二预设概率计算公式为：

其中，

p_i＝P(y_i＝1|x_i,ω)＝σ(ω^Tx_i+b)

p_i为利用预设估计算法下、第i个结点所示关联提及的标签类型为正类的概率，y_i为第i个结点所示关联提及的标签数据，x_i为第i个结点所示关联提及，ω为所述预设估计算法的估计参数，b为计算偏置；

根据各条边对应的兼容性矩阵、各结点所示关联提及当前的边缘概率及各条边当前的信念传播信息，计算各结点对应的信念值；

计算本轮迭代计算得到的各结点对应的信念值分别与上一轮迭代计算得到的相同结点对应的信念值的差值；

若各差值之和小于预设阈值，或者，迭代次数达到预设次数，则根据各结点所示关联提及的标签类型为正类的概率，确定各结点所示关联提及的边缘概率。

可选的，本发明实施例中预设标注质量计算公式和第二预设概率计算公式是通过最大似然估计算法和期望最大化算法推导得到的，将第一轮迭代得到的第i个结点所示关联提及的标签类型为正类的概率作为计算初始值，估计未知参数α、β、ω和b的值，进行计算得到各结点对应的信念值，由此，计算过程中，p_i表示的利用预设估计算法下、第i个结点所示关联提及的标签类型为正类的概率和y_i表示的第i个结点所示关联提及的标签数据，都是预测的值而不是最后的稳定值，b作为计算偏置值可以存在也可以不存在，存在可以使计算得到的值更加准确。其中，未知参数α、β和ω的估计方法是不同的，参数α、β是利用预设标注质量计算公式得到的，而估计参数ω是利用随机梯度下降优化方法得到的。

如果信念值的各差值之和小于预设阈值，说明计算得到稳定的输出值，此时计算各结点所示关联提及的边缘概率，本发明实施例中还设置了迭代次数，当迭代次数达到预设次数时，对各结点所示关联提及的边缘概率进行计算，避免计算无限循环的问题。

可选的，将兼容性矩阵表示为：

可选的，

代表边所连接的两个结点所示关联提及是异质的，两个结点所示关联提及的标签类型相互抑制；ρ是可调参数，根据需要进行设置；本发明实施例中除上述两个兼容性矩阵外还包括传递任何信息的全1兼容性矩阵。

预设的兼容性矩阵选择规则为：

当一条边连接的两个结点中，一个结点所示关联提及的标签类型为正类会增加另一个结点所示关联提及的标签类型为正类的可能性，则为该边选择兼容性矩阵

当一条边连接的两个结点中，一个结点所示关联提及的标签类型为正类会增加另一个结点所示关联提及的标签类型为负类的可能性，则为该边选择兼容性矩阵

可选的，具体如何进行选择兼容性矩阵是实际计算过程中根据提及中实体与实体间的距离、实体与实体间是否有其他连词、实体构成的词对是否与语料数据集有关等关系进行的。比如，针对上述两个提及来自于同一个原始评论且共享原始评论语句中同一位置的名词而产生关联的两个提及，如果两个关联提及中的形容词在名词的同侧，当两个提及中实体与实体间的距离都较大时，表示这两个关联提及是同质的，为连接这两个关联提及的边选择同质兼容性矩阵

当一个关联提及中实体与实体间的距离较大，另一个关联提及中实体与实体间的距离较小，表示这两个关联提及是异质的，为连接这两个关联提及的边选择异质兼容性矩阵

当两个关联提及中实体与实体间的距离都较小时，如果两个形容词间有连词，为连接这两个关联提及的边选择同质兼容性矩阵，如果两个形容词间没有连词，为连接这两个关联提及的边选择异质兼容性矩阵，除此之外的情况，选择全1兼容性矩阵；距离大小的判断根据实际情况进行不同设定。

根据各结点所示关联提及的标签数据及预设的兼容性矩阵选择规则，为各条边分别选择对应的兼容性矩阵，得到各条边两个结点所示关联提及的标签类型之间关系的定量化表示。

可选的，每一轮迭代中各结点所示关联提及当前的边缘概率为上一轮迭代计算得到的边缘概率，比如第二轮迭代时各结点所示关联提及当前的边缘概率为第一轮迭代计算得到的边缘概率。

可选的，判断各差值之和是否小于预设阈值，以及迭代次数是否达到预设次数时，可以二者选其一进行判断。当各差值之和小于预设阈值，而迭代次数没有达到预设次数时，可以根据各结点所示关联提及的标签类型为正类的概率，确定各结点所示关联提及的边缘概率。当迭代次数达到预设次数，而各差值之和没有小于预设阈值时，也可以根据各结点所示关联提及的标签类型为正类的概率，确定各结点所示关联提及的边缘概率。

可选的，根据各条边对应的兼容性矩阵、各结点所示关联提及当前的边缘概率及各条边当前的信念传播信息，计算各结点对应的信念值，包括：

根据各条边对应的兼容性矩阵、各结点所示关联提及当前的边缘概率及各条边当前的信念传播信息，利用预设更新公式，更新各条边的信念传播信息，其中，预设更新公式为：

根据更新后的各条边的信念传播信息、各结点所示关联提及当前的边缘概率，利用预设信念值计算公式，计算各结点对应的信念值，其中，预设信念值计算公式为：

b_i为第i个结点对应的信念值，Z₂为归一化常数。

可选的，各条边的信念传播信息表示结点与结点之间相互传递关联提及是同质还是异质的信息，表示一个结点所示关联提及对另一个结点所示关联提及的影响，结点对应的信念值表示所有其他结点对本结点产生影响之后的概率估计值。在计算过程中，根据算法需要，首先对各条边的信念传播信息赋初值，然后多次迭代更新信念传播信息和信念值直到计算收敛，归一化常数可使信念值的和为1，即可以使信念值的差值波动处于一个0到1的范围。本发明实施例中，第一轮迭代时各条边当前的信念传播信息的初始值设为1，从第二轮迭代开始，各条边当前的信念传播信息为更新得到的值。当然，初始值并不一定必须设定为1，可以根据需要另行设定。

信息在信念传播过程中，每一个结点都会收到其所有相邻结点的信息，结果是使每个结点都可以获得其他结点传递的信息，利用信念传播计算边缘概率可以节省计算时间。

可选的，在判断各差值之和是否小于预设阈值，以及迭代次数达到预设次数之后，本发明实施例提供的方法还包括：

若各差值之和不小于预设阈值，并且迭代次数未达到预设次数，则利用随机梯度下降优化方法，调整估计参数，并执行下一轮迭代。

当各结点对应的信念值分别与上一轮迭代计算得到的相同结点对应的信念值的差值之和不小于预设阈值，说明此时模型还没有收敛，并且迭代次数未达到预设次数时，计算还没有达到停止条件，因此需要执行下一轮迭代。

本发明实施例还提供一种语料数据集的处理装置，如图3所示，该装置包括获取模块310、判断模块320、计算模块330、删除模块340，其中：

获取模块310，用于获取原始的语料数据集，语料数据集中包括多条提及以及预先针对各条提及标注的标签数据；

判断模块320，用于判断语料数据集中的各条提及之间是否具有关联关系；

计算模块330，用于针对具有关联关系的关联提及，根据关联提及的标签数据，计算关联提及的边缘概率；

删除模块340，用于从语料数据集中，删除边缘概率小于预设概率值的关联提及。

可选的，计算模块330，具体可以用于：

可选的，关联提及的标签数据包括各标注者标注的关联提及的标签数据；在用于根据各结点所示关联提及的标签数据，经过多轮迭代，计算各结点所示关联提及的边缘概率时，计算模块330具体可以用于：

γ_i为第i个结点所示关联提及的标签类型为正类的概率，

可选的，关联提及的标签数据包括各标注者标注的关联提及的标签数据；在用于根据各结点所示关联提及的标签数据，经过多轮迭代，计算各结点所示关联提及的边缘概率时，计算模块330还可以用于：

为第k个标注者标注的第i个结点所示关联提及的标签数据；

其中，

p_i＝P(y_i＝1|x_i,ω)＝σ(ω^Tx_i+b)

若各差值之和小于所述预设阈值，或者，迭代次数达到预设次数，则根据各结点所示关联提及的标签类型为正类的概率，确定各结点所示关联提及的边缘概率。

可选的，在用于根据各条边对应的兼容性矩阵、各结点所示关联提及当前的边缘概率及各条边当前的信念传播信息，计算各结点对应的信念值时，计算模块330还可以用于：

b_i为第i个结点对应的信念值，Z₂为归一化常数。

可选的，本发明实施例提供的装置还可以包括调整模块，用于若各差值之和不小于预设阈值，并且迭代次数未达到预设次数，则利用随机梯度下降优化方法，调整估计参数，并执行下一轮迭代。

本发明实施例还提供了一种电子设备，如图4所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401、通信接口402、存储器403通过通信总线404完成相互间的通信；

存储器403，用于存放计算机程序；

处理器401，用于执行存储器403上所存放的程序时，至少实现如下步骤：

获取原始的语料数据集，语料数据集中包括多条提及以及预先针对各条提及标注的标签数据；

判断语料数据集中的各条提及之间是否具有关联关系；

针对具有关联关系的关联提及，根据关联提及的标签数据，计算关联提及的边缘概率；

从语料数据集中，删除边缘概率小于预设概率值的关联提及。

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

上述存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processor，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本实施例中，处理器401通过读取存储器403中存储的机器可执行指令，被机器可执行指令促使能够实现：电子设备通过获取原始的语料数据集，语料数据集中包括多条提及以及预先针对各条提及标注的标签数据；判断语料数据集中的各条提及之间是否具有关联关系；针对具有关联关系的关联提及，根据关联提及的标签数据，计算关联提及的边缘概率；从语料数据集中，删除边缘概率小于预设概率值的关联提及。本发明中关联提及的边缘概率小于预设概率值时表示该提及中标注的两实体间的关系是不成立的，通过判断语料数据集中关联提及的边缘概率值与预设概率值的大小关系，删除边缘概率小于预设概率值的关联提及，也就删除了语料数据集中相应的不准确的标注信息。应用本发明可以剔除语料数据集中人为标注带来的错误信息，降低语料数据集中的噪声问题，进而提高模型训练的准确度，提高关系提取的准确率。

本发明实施例还提供了一种计算机可读存储介质，其中，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时至少实现如下步骤：

判断语料数据集中的各条提及之间是否具有关联关系；

本实施例中，机器可读存储介质在运行时执行本发明实施例所提供的方法的计算机程序，因此能够实现：通过获取原始的语料数据集，语料数据集中包括多条提及以及预先针对各条提及标注的标签数据；判断语料数据集中的各条提及之间是否具有关联关系；针对具有关联关系的关联提及，根据关联提及的标签数据，计算关联提及的边缘概率；从语料数据集中，删除边缘概率小于预设概率值的关联提及。本发明中关联提及的边缘概率小于预设概率值时表示该提及中标注的两实体间的关系是不成立的，通过判断语料数据集中关联提及的边缘概率值与预设概率值的大小关系，删除边缘概率小于预设概率值的关联提及，也就删除了语料数据集中相应的不准确的标注信息。这样，应用本发明可以剔除数据集中人为标注带来的错误信息，降低数据集中的噪声问题，进而提高模型训练的准确度，提高关系提取的准确率。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种语料数据集的处理方法，其特征在于，所述方法包括：

获取原始的语料数据集，所述语料数据集中包括多条提及以及预先针对各条提及标注的标签数据，所述语料数据集包含原始语句，所述原始语句包含多个词对，一个词对包含两个实体，包含两个实体的一条原始语句为所述两个实体的一条提及；

判断所述语料数据集中的各条提及之间是否具有关联关系；

2.根据权利要求1所述的方法，其特征在于，所述根据所述关联提及的标签数据，计算所述关联提及的边缘概率，包括：

3.根据权利要求2所述的方法，其特征在于，所述关联提及的标签数据包括各标注者标注的所述关联提及的标签数据；所述根据各结点所示关联提及的标签数据，经过多轮迭代，计算所述各结点所示关联提及的边缘概率，包括：

γ_i为第i个结点所示关联提及的标签类型为正类的概率，

4.根据权利要求3所述的方法，其特征在于，所述关联提及的标签数据包括各标注者标注的所述关联提及的标签数据；所述根据各结点所示关联提及的标签数据，经过多轮迭代，计算所述各结点所示关联提及的边缘概率，包括：

为第k个标注者标注的第i个结点所示关联提及的标签数据；

其中，

p_i＝P(y_i＝1|x_i,ω)＝σ(ω^Tx_i+b)

p_i为利用预设估计算法下、第i个结点所示关联提及的标签类型为正类的概率，y_i为第i个结点所示关联提及的标签数据，x_i为第i个结点所示关联提及，ω为所述预设估计算法的估计参数，b为计算偏置，ω^T为所述预设估计算法的估计参数的转置，σ(ω^Tx_i+b)为ω^Tx_i+b映射到(0,1)区间的数值；

5.根据权利要求4所述的方法，其特征在于，所述根据所述各条边对应的兼容性矩阵、所述各结点所示关联提及当前的边缘概率及所述各条边当前的信念传播信息，计算所述各结点对应的信念值，包括：

b_i为第i个结点对应的信念值，Z₂为归一化常数。

6.根据权利要求4所述的方法，其特征在于，在所述判断各差值之和是否小于预设阈值，以及迭代次数是否达到预设次数之后，所述方法还包括：

7.一种语料数据集的处理装置，其特征在于，所述装置包括：

获取模块，用于获取原始的语料数据集，所述语料数据集中包括多条提及以及预先针对各条提及标注的标签数据，所述语料数据集包含原始语句，所述原始语句包含多个词对，一个词对包含两个实体，包含两个实体的一条原始语句为所述两个实体的一条提及；

8.根据权利要求7所述的装置，其特征在于，所述计算模块，具体用于：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法。