CN111428490B

CN111428490B - 一种利用语言模型的指代消解弱监督学习方法

Info

Publication number: CN111428490B
Application number: CN202010212088.9A
Authority: CN
Inventors: 辛欣; 明坤
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-01-17
Filing date: 2020-03-24
Publication date: 2021-05-18
Anticipated expiration: 2040-03-24
Also published as: CN111428490A

Abstract

本发明涉及一种利用语言模型的指代消解弱监督学习方法，属于自然语言处理中的信息抽取技术领域。所述方法包括：步骤1：数据集的预处理；步骤2：先在少量标注的数据集上训练指代消解模型；步骤3：在大规模无标注数据集上基于多头自注意力机制训练语言模型；步骤4：在无标注和有标注的数据上进行基于指代消解模型输出的弱监督学习，引入对多头自注意力机制特殊设计的损失，将多头自注意力机制中的抽头划分为特殊抽头和普通抽头，分别计算不同的损失。所述方法使特殊抽头具有输出与指代消解模型相似分布概率的能力，提升了指代消解***的准确度，得到的语言模型和指代消解模型能够扩展现有指代消解模型的使用领域，模型参数具有更好的可解释性。

Description

一种利用语言模型的指代消解弱监督学习方法

技术领域

本发明涉及一种利用语言模型的指代消解弱监督学习方法，属于自然语言处理技术领域。

背景技术

指代消解是指对于给定的文本篇章，分析出文本篇章中所有表示同一实体的词语，实体通常是人或物品。以句子“小李去了法国旅游，他在那边玩得很开心。”为例，句子中的两个代词“他”和“那边”分别表示“小李”和“法国”。代词“他”与“小李”的关系称为“指代”，在这个“指代”关系中具有确切意义的词称为先行词，先行词通常是名词词组，即例句中的“小李”和“法国”；表述会随先行词发生变化的词称为照应语，照应语通常是代词，即例句中的“他”和“那边”。分析代词“他”和“那边”分别与哪些词语有“指代”关系的过程称为指代消解。

指代消解技术是文本摘要和对话问答***中的关键支撑技术。在上述***中，用户关心实体间往往散布于文本的不同位置，涉及的实体通常可以有多种不同的表达方式，为了更准确且没有遗漏地从文本中抽取相关信息，必须对其中的指代关系进行消解，以获得相应信息在该文本中的完整描述。例如，在文本摘要***中，摘要***会从输入文本中选择若干句能代表文本主旨的语句作为摘要输出，但生成的摘要中可能含有代词，例如“他”，为了保证摘要能够给出明确的信息，此时需要指代消解***分析出代词“这一计划”所指的具体人物；在购物网站的客服自动问答***中，经常会遇到“我想投诉这家店铺”等类型的客户诉求，想要解决客户的问题，需要根据前后文和语境推断出代词“这家店铺”具体指哪家店铺。

现有的指代消解方法需要大量人工标注出指代关系的文本数据，训练过程中从数据中随机抽取若干例句输入模型，由双向长短期记忆网络结合上下文提取句子中每一个词的特征变量，然后根据词特征变量计算出该词与其他词存在指代关系的概率，并推断出句子中代词所指的具体实体，再根据推断结果计算模型损失，更新模型参数。

但是在现有指代消解方法的模型训练中，需要先由人工标注大量数据，再将标注好的数据输入模型进行学习，从而获得指代关系的判别器。但是目前公开的指代消解标注数据并不多，尤其在各种不同的特定领域内，少有公开的数据，并且人工标注指代消解数据的成本也较高，如果缺少相关领域的数据进行训练，现有指代消解方法的精确度会大幅下降。另外，现有方法通过神经网络训练指代消解模型的方案，得到的模型解释性不足。

发明内容

本发明的目的在于针对现有指代消解方法受数据缺失影响会导致精确度下降的技术缺陷，提出了一种利用语言模型的指代消解弱监督学习方法。

所述利用语言模型的指代消解弱监督学习方法，包括以下步骤：

步骤1：分别对数据集中的有标注数据和无标注数据进行预处理；

其中，对无标注数据进行的预处理包括分词、词性标注以及生成词向量，对有标注数据进行的处理为词向量处理；

步骤2：基于有标注数据训练指代消解模型A，对于输入的词序列，先生成词序列对应的词向量序列，再由指代消解模型A计算出各词之间的指代关系候选分数，然后由各词之间的指代关系候选分数推断出各词的指代关系，依据推断出的各词指代关系计算出本次训练的指代消解任务损失，最后由损失进行反向传播，更新指代消解模型A中的所有参数；不断重复此步骤，得到训练好的指代消解模型A；

其中，两个词之间的指代关系候选分数表示这两个词表示同一实体的概率；词的指代关系是指该词是否有先行词，以及该词若有先行词，那么具体是输入词序列中的哪个词为先行词；训练好的指代消解模型A能够独立完成指代消解，用于弱监督训练；

步骤2具体包括以下子步骤；

步骤2.1：计算指代关系候选分数；通过(1)计算第i个词与第j个词之间的指代关系候选分数s(i，j)：

s(i，j)＝coreference(e₁，...e_j，...，e_i...，e_M) (1)

其中，指代关系候选分数s(i，j)表示模型A输出的关于第j个词为第i个词的先行词的概率；coreference(·)是指代关系候选函数，对于输入的词向量序列[e₁，...e_j，...，e_i...，e_M]，返回第j个词为第i个词的先行词的概率；i的取值范围为2到M，j的取值范围为1到i-1；

步骤2.2：推断指代关系；通过指代关系候选分数s(i，j)确定第i个词与第j个词之间的指代关系，具体包括以下子步骤：

步骤2.2.1：推断候选先行词；通过指代关系候选分数s(i，*)确定第i个词与第j个词之间的候选先行词，具体通过(2)计算：

k_i＝argmax(s(i，*)) (2)

其中，s(i，*)表示s(i，j)由j从2到i-1依次取值所得的集合，即s(i，*)＝[s(i，1)，...，s(i，i-1)]；argmax(·)是取最大值参数函数，该函数的输出是在输入的有序集合中最大值所对应的位置，k_i表示对于第i个词，该词可能的先行词为输入词序列中的第k_i个词；i的取值范围为2到M，j的取值范围为1到i-1；

步骤2.2.2：推断先行词；通过指代关系候选分数s(i，*)确定第i个词的先行词，具体通过(3)计算：

其中，k′_i表示对于第i个词，该词先行词为输入词序列中的第k′_i个词；当s(i，k_i)＞0时，k′_i＝k_i，k′_i具有实际意义；当s(i，k_i)＜＜0时，k′_i＝0，k′_i不具有实际意义，即对于第i个词，该词没有先行词；i的取值范围为2到M；

步骤2.3：通过(4)计算指代消解任务损失：

其中，log(·)是对数函数，Υ(i)表示第i个词的候选先行词词序，即γ(i)＝{∈，1，...，i-1}，∈表示第i个词没有先行词；GOLD(i)表示由与第i个词指向相同实体的其他词组成的集合；

步骤2.4：进行反向传播，通过(5)计算指代消解模型A中所有参数的更新值：

其中，θ_j表示指代消解模型A中第j个参数；步骤2.1的coreference(·)函数中包含指代消解模型A的所有参数；μ表示学习率，根据经验选择；通过不断进行反向传播，指代消解模型A中的所有参数将不断发生变化，使loss_A逐渐变小，最终得到训练好的指代消解模型A；

步骤3：基于无标注数据，采用多头自注意力机制训练语言模型B，在训练过程中，首先对于输入的词序列，随机遮住一个词，即对该词进行掩码处理；然后通过计算各词的编码器特征和解码器特征以提取被遮住词的上下文语义、语境信息，依据上下文语义、语境信息推断出被遮住词，即掩码词；再计算掩码词预测任务的损失；由损失反向传播更新语言模型B中的所有参数，得到训练好的语言模型B；

其中，语言模型是指当句子中的某个词被遮住时，能够通过其他词的信息正确预测出被遮住词的模型；语言模型B中的参数包括编码器和解码器中参与多头自注意力机制运算的映射矩阵；

步骤3，包括以下子步骤：

步骤3.1：掩码处理；对于输入语言模型的词序列，进行掩码处理，具体通过(6)计算：

其中，M表示输入词序列的长度，Random(·)是随机数函数，对于输入的数字，返回1到该数字之间的一个随机数；“1到该数字之间”包括该数字；

表示用于掩码处理的词向量；

是模型的参数，通过训练过程得到具体的取值；

步骤3.2：计算词的编码器特征；对于掩码处理后的词序列，通过多头自注意力机制的编码器部分编码编码器特征；

其中，编码器特征指输入词向量后，由多头自注意力机制的编码器部分输出的特征，步骤3.2具体包括以下子步骤：

步骤3.2.1：通过(7)计算单头自注意力机制输出head_i：

其中，head_i表示第i个头的自注意力机制的输出；softmax(·)是指数归一化函数，对于输入进行指数归一化；Q，Z，V分别表示自注意力机制中的查询、键、值，Q，Z，V三个矩阵相等，都为将输入的词向量按行排列所得的矩阵；

分别为与Q，Z，V对应的映射矩阵；d_k表示矩阵Z的列数；

步骤3.2.2：基于head_i通过(8)计算多头自注意力机制输出，即编码器特征m_ei：

m_ei＝Concat(head₁，...，head_H)W^o (8)

其中，head₁，...，head_H表示由步骤3.2.1计算得到的H个单头自注意力机制输出；m_ei对应第i个词的编码器特征，H是自注意力机制的头数，依据经验选择；W^o为H个拼接后的单头自注意力机制输出向量到多头自注意力机制输出的映射矩阵；

步骤3.3：计算词的解码器特征m_di，该特征由输入词序列对应的词向量和编码器特征，通过多头自注意力机制的解码器计算得到；具体通过(9)计算：

m_di＝Decoder([e₁，...，e_i]，[m_e1，...，m_ei]) (9)

其中，m_di表示第i个词的解码器特征；[e₁，...，e_i]由表示从1个词到第i个词的词向量组成的序列；[m_e1，...，m_ei]由表示从1个词到第i个词的编码器特征组成的序列；Decoder(·)表示多头自注意力机制的解码器，对于输入的从第1个词到第i个词的词向量组成的序列和从第1个词到第i个词的编码器特征组成的序列，返回第i个词向量对应的多头自注意力机制解码器输出m_di；

步骤3.4通过(10)和(11)计算掩码词预测的损失：

其中，p_i是模型输出的对于输入词序列中进行掩码处理的词为输出词典中的第i个词的概率；

表示输入词序列中进行掩码处理的词对应的解码器特征的转置；W^Di表示从词的解码器特征到输出词典中各个词概率的映射矩阵W^D的第i行；N表示语言模型输出词典中的词数；ω_i∈{0，1}表示在输出词典中的第i个词是否是输入词序列中进行掩码处理的词，当ω_i＝0时，表示词典中的第i个词不是输入词序列中进行掩码处理的词；当ω_i＝1时，表示词典中的第i个词是输入词序列中进行掩码处理的词，即该掩码词在进行掩码处理前是输出词典中的第i；log(·)是对数函数；exp(·)是指数函数；

步骤3.5：进行反向传播，通过(12)计算语言模型B中所有参数的更新值：

其中，θ_i表示语言模型B中第i个参数；μ表示学习率，根据经验选择；通过不断进行反向传播，语言模型B中的所有参数将不断发生变化，使loss_B1逐渐变小，最终得到训练好的语言模型B；语言模型B中的所有参数指步骤3.2.1、步骤3.2.2、步骤3.2.3中语言模型B的多头自注意力机制的编码器和解码器中的所有映射矩阵；步骤4：进行语言模型B的弱监督训练，基于无标注数据和有标注数据，语言模型B的注意力分数分布在受到指代消解模型A输出的指代关系候选分数的指导；具体为：在弱监督学习中将语言模型B中自注意力机制的多个抽头划分特殊单头自注意力机制和普通单头自注意力机制；

其中，特殊单头自注意力机制对应的注意力分布在训练中与指代消解模型A的输出逐渐趋向相似，普通单头自注意力机制对应的自注意力分布在训练中学习与指代消解模型的输出逐渐趋向不同，具体的注意力分布训练通过特殊单头自注意力机制和普通单头自注意力机制分别计算不同的交叉熵损失实现；再由该交叉熵损失进行反向传播，更新语言模型B的参数后，得到具有独立完成指代消解关系计算的能力语言模型B；其中，指代消解模型A的输出指模型A在处理输入词序列后，输出的各词之间的指代关系候选分数；

步骤4：语言模型B的弱监督训练具体包括以下子步骤：

步骤4.1：计算语言模型B对于输入词序列中特殊词的注意力分数,在步骤3.2所述的注意力机制中模型B的具有H个单头注意力机制，其中有H_s个是特殊单头自注意力机制，其余为普通单头自注意力机制；其中S_h＝[S_h11,…,S_hij,…,S_hkk,]表示第h个特殊单头自注意力机制对于输入词序列中特殊词的注意力分数；特殊词是指执行步骤1后，词性被标注为名词或代词的词；K指在输入词序列中特殊词的个数，即输入词序列中包含的名词和代词的个数之和；N_h＝[N_h11，...，N_hij，...，N_hkk，]表示第h个普通单头自注意力机制对于输入词序列中特殊词的注意力分数，i的取值范围为1到K，j的取值范围为1到i；

步骤4.2：计算指代消解模型A对于输入词序列中特殊词的指代关系候选分数，通过模型A在无标注数据上，由步骤2.1，得到L＝[l₁₁，...，l_ij，...，l_kk，]，l_ij表示输入词序列中的第i个特殊词与第j个特殊词的候选关系分数，L表示模型A对于输入词序列中特殊词计算得到的指代关系候选分数序列；K指在输入词序列中特殊词的个数，即输入词序列中包含的名词和代词的个数之和；

步骤4.3：通过(13)计算语言模型B弱监督训练的损失loss_B2；

步骤4.4：通过(14)计算语言模型B的训练总损失loss_B：

loss_B＝αloss_B1+(1-α)loss_B2 (14)

其中，α是调节两个损失的超参数；训练总损失loss_B由语言模型B的掩码词预测损失loss_B1和语言模型B弱监督训练的损失loss_B2按一定比例加权计算得到；

步骤4.5：进行反向传播，通过(15)计算语言模型B中所有参数的更新值：

其中，θ_i表示语言模型B中第i个参数；μ表示学习率根据经验选择；通过不断进行反向传播，语言模型B中的所有参数将不断发生变化，使loss_B逐渐变小，最终得到训练好的具有独立完成指代消解关系计算的能力的语言模型B；步骤4.6：模型A、B交替迭代训练，具体包括以下子步骤：

步骤4.6.1：从有标注数据中随机一个抽取句子输入指代消解模型A，由步骤2计算loss_A，再进行反向传播迭代，更新指代消解模型A中的所有参数；

步骤4.6.2：从无标注数据中随机抽取一个句子输入指代语言模型B，由步骤3.4计算loss_B1，并由步骤4.1计算语言模型B输出的各特殊词之间的注意力分数；再由步骤4.2计算指代消解模型A对于该输入词序列输出的各特殊词之间的指代关系候选分数s(i，j)，再由步骤4.4计算loss_B；最后进行反向传播迭代，更新语言模型B中的所有参数。

步骤4.6.3：不断重复步骤4.6.1与步骤4.6.2，直到指代消解模型A的损失loss_A＜ε_A且语言模型B的损失loss_B＜ε_B；

其中，ε_A和ε_B分别是指代消解模型A和语言模型B的训练停止界限，依据经验选取；

有益效果

本发明是一种利用语言模型的指代消解弱监督方法，与现有技术相比，具有如下有益效果：

1.所述方法针对现有方法在数据不足时精确度下降的技术缺陷，引入在未标注数据上训练语言模型，然后进行弱监督训练的方法，提升了指代消解***的准确度，得到的语言模型和指代消解模型能够扩展现有指代消解模型的使用领域，具有更强的泛用性；

2.所述方法针对现有方法模型可解释性不足的问题，引入对多头自注意力机制特殊设计的损失，将多头自注意力机制中的抽头划分为特殊抽头和普通抽头，分别计算不同的损失，使特殊抽头具有输出与指代消解模型相似分布概率的能力，提高了模型参数的可解释性。

附图说明

图1是本发明一种利用语言模型的指代消解弱监督学习方法的流程图；

图2是本发明模型训练损失计算流程图；

图3是本发明中指代消解模型A在少量标注数据上的训练演示；

图4是本发明中语言模型B在大规模无标注数据上的训练演示。

具体实施方式

下面结合具体实施例1以及附图1、附图2、附图3、附图4对本发明一种利用语言模型的指代消解弱监督学习方法进行细致阐述。

实施例1

本实施例阐述了本发明所述的一种利用语言模型的指代消解弱监督方法中的具体实施。

图1所示，是所述方法的流程图，训练过程中，轮流从有标注和无标注的数据中随机抽取句子输入模型。

具体实施时，无标注数据往往是大规模的；小规模的数据指包含千数量级的训练文本篇章，即为数据中有几千篇文本，每篇文本的篇幅约为几百字；大规模的数据是指数据中的文本为百万级以上，其中的每篇文本的篇幅也约为几百字；

有标注的数据中已经包含了人工标注的分词和词性的结果，所以仅对其进行生成词向量的处理。

图2所示，是所述方法所包含的三种损失的计算流程。

首先从有标注的指代消解数据中随机抽取的一个句子，有标注即该句子已人工进行分词，已被人工标注出具有指代关系的簇；本实施例以“史密斯/去了/法国/旅游/，/他/在/当地/玩得/很/开心/。”为例；此时：

x＝[x₁，x₂，...，x_M]＝[史密斯，去了，法国，旅游，，，他，在，当地，玩，很，开心，。]，Cluster＝[[史密斯，他]]；Cluster是表示人工标注的该句子的指代消解簇，Cluster是二维元组，该元组第一维的维度即为该句子中有几个指代消解簇，该元组第二维的维度即为每个指代消解簇中词的个数，属于同一个指代消解簇的词在句子中表示同一个实体，即该句子的Cluster元组中第一维的维度是1，表示该句子中存在一个指代消解簇，该元组中唯一簇的维度是2，分别是″史密斯″和″他″，表示该句子中的″史密斯″和″他″皆表示同一个实体，实体指人物或物品，M＝12，M表示句子中词的个数；

步骤1：数据预处理，对于已标注的数据，使用词嵌入技术，将句子中的每个词转化为其嵌入向量，具体包括以下子步骤；

步骤1.1：由BERT模型生成各词中每个字的字向量，即对于词″史密斯″，由BERT模型分别生成史″、″密、″斯″三个字对应的字向量，对于输入句子中的其他词，也进行相应的处理；

步骤1.2：将由BERT模型生成字向量进行算术平均，计算得到词向量，即对于词″史密斯″，由步骤B.1计算得到″史″、″密、″斯″三个字对应的字向量，现将这三个字向量进行算术平均的结果作为词″史密斯″的词向量；

步骤2：计算各词之间的指代关系候选分数，具体包括以下子步骤：

步骤2.1：计算各词之间的指代关系候选分数s(i，j)，如果s(i，j)＞0则表示模型判断“输入序列中的第j个词是第i个词的先行词”具有可能性，即在本例中″他″和″史密斯″这一对词所对应的先行词候选分数为s(6，1)，如果s(6，1)＞0则表示模型判断″他″和″史密斯″具有指向相同实体的可能性；

其中，步骤1到步骤2.1如图3所示；步骤3按照end2end模型进行计算，end2end模型引用自以下文献；

Lee K，He L，Zettlemoyer L.Higher-order Coreference Resolution withCoarse-to-fine Inference[J].2018..

步骤2.2：推断各词的指代关系；对于一个词，如果它与某一个在它之前出现的词之间的指代关系候选分数最大且大于零，则该词为这个词的先行词，在本例中，指代消解模型A对于词″他″与其之前词的指代关系候选分数分别为s(6，1)＝0.7，s(6，2)＝0.06，s(6，3)＝0.12，s(6，4)＝0.11，s(6，5)＝0.01，由s(6，1)为其中的最大项，可推理出指代消解模型A判断″他″和″史密斯″指向相同实体；

步骤2.3：计算指代消解任务loss_A，进行反向传播迭代，更新模型A的参数；

至此，模型A的一次训练过程结束，轮换为进行模型B的训练，具体包括以下子步骤：

从无标注的大规模数据中随机抽取的一个句子，无标注即该句子无人工标注相关结果，没有人工分词结果，没有人工标注的指代消解簇；例如，输入的句子为“小亮赢了比赛，他很开心。”，与步骤A不同，无标注的数据除了句子文本，不包含其他信息；

重复步骤1：进行无标注数据句子的预处理，具体包括以下子步骤：

步骤1.1：对输入的句子进行分词，得到X＝[x₁，x₂，...，x_M]＝[小亮，赢，了，比赛，，，他，很开心，。]，M＝8，M为句子长度；

步骤1.2：对分词后的句子进行词性标注，对于本例中的句子，各词的词性分别为：小亮(名词)、赢(动词)、了(助动词)、比赛(名词)、，(标点)、他(代词)、很开心(形容词)、。(标点)；

步骤1：生成词向量，通过嵌入技术，将句子中的每个词转化为其嵌入向量；

步骤3：训练语言模型B，具体包括以下子步骤；

步骤3.1：从输入词序列中随机选取一个词进行掩码处理，本例中″他″被随机选中，将表示″他″的词向量被重置为掩码词向量

进行掩码处理，即

e₆表示词″他″在进行掩码处理前对应的词向量，其他词的词向量保持不变，进行掩码处理后，语言模型A将无法直接获得关于″他″这一词的语音信息，需要借助句子中其他词的语义信息判断出进行掩码处理的词原本内容；

步骤3.2：参考Transformer多头自注意力机制，对于输入的词向量序列，计算单头自注意力机制输出head_ij，i表示该自注意力机制的头数，j表示输出与第i个词相对应；计算多头自注意力机制编码器部分的输出m_ei，e表示编码器部分的输出，i表示与第i个词相对应；

步骤3.3：参考Transformer多头自注意力机制，计算多头自注意力机制解码器部分的输出m_di，d表示解码器部分的输出，i表示与第i个词相对应；

其中，步骤8和步骤9按照Transformer模型进行计算，Transformer模型引用自以下文献；

Vaswani A，Shazeer N，Parmar N，et al.Attention is all you need[C]//Advances in neura] information processing systems.2017：5998-6008.

步骤3.4计算loss_B1；通过模型B预测输入词序列中进行掩码处理的词的原本内容，在本例中″他″是需要语言模型B进行预测的词，由步骤3.3得到″他″对应的解码器向量m_d6，再将解码器向量m_d6由单层前向神经网络映射至输出词典，得到语言模型B对于进行掩码处理的词的原本内容的预测概率，并由此概率计算loss_B1；输出词典表示语言模型B进行掩码词预测时的输出空间，例如进行掩码处理的词可能是两万个词中的任意一个，那么这两万个词就组成了掩码词预测的输出词典，在本例中输出词典是数据集中所有词的集合；

步骤4：进行语言模型B和指代消解模型A的弱监督学习，图4中展示了进行弱监督训练时，语言模型A的注意力分数分布向指代消解模型B的指代关系候选分数分布的学习过程；在联合训练前，训练好的指代消解模型A具有独立完成指代消解关系计算的能力，但受到标注数据少的影响，精确度和使用领域的泛用性都不是最佳；基于大规模无标注数据训练好的语言模型具有很好的获取语句上下文信息相关特征的能力，词的上下文信息对进行指代消解关系的推断有重要作用，但此时语言模型B不具有独立完成指代消解关系计算的能力；弱监督具体包括以下子步骤：

步骤4.1：计算语言模型B对于输入词序列中特殊词的注意力分数，由步骤3.3可计算得到在Transformer多头自注意力机制中各词之间注意力分数，然后仅筛选出与名词和代词相关的注意力分数，即在本例中，只筛选出各词与″小亮″和″他″之间的注意力分数；

步骤4.2：由指代消解模型A在该输入词序列上执行步骤2.1计算得到词间的指代关系候选分数s(i，j)；然后筛选输入词序列中对应的指代关系候选分数；即在本例中，只筛选出输入词序列中其余各词与″小亮″和″他″之间的指代关系候选分数；

步骤4.3：由步骤4.1和步骤4.2的注意力分数和指代关系候选分数计算交叉熵损失得到loss_B2，然后与loss_B1按一定加权相加得到loss_B，在本例中loss_B＝0.7loss_B1+0.3loss_B2；然后进行反向传播迭代，更新模型B的参数；由以上步骤得到的语言模型B具有进行指代消解任务的能力。

其中，在进行loss_B2的计算时，所述方法针对现有方法模型可解释性不足的问题，引入对多头自注意力机制特殊设计的损失，将多头自注意力机制中的抽头划分为特殊抽头和普通抽头，分别计算不同的损失，使特殊抽头具有输出与指代消解模型相似分布概率的能力，提高了模型参数的可解释性。

所述方法针对现有方法在数据不足时精确度下降的技术缺陷，引入在大规模未标注数据进行语言模型，然后进行弱监督训练的方法，提升了指代消解***的准确度，得到的语言模型和指代消解模型能够扩展现有指代消解模型的使用领域，具有更强的泛用性。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种利用语言模型的指代消解弱监督学习方法，其特征在于：包括以下步骤：

步骤2中，两个词之间的指代关系候选分数表示这两个词表示同一实体的概率；词的指代关系是指该词是否有先行词，以及该词若有先行词，那么具体是输入词序列中的哪个词为先行词；训练好的指代消解模型A能够独立完成指代消解，用于弱监督训练；

步骤2具体包括以下子步骤；

步骤2.1：计算指代关系候选分数；

步骤2.2：推断指代关系；通过指代关系候选分数确定词与词之间的指代关系；

步骤2.3：计算指代消解任务损失；

步骤2.4：进行反向传播计算指代消解模型A中所有参数的更新值；

步骤3，包括以下子步骤：

步骤3.1：掩码处理；对于输入语言模型的词序列，进行掩码处理；

其中，编码器特征指输入词向量后，由多头自注意力机制的编码器部分输出的特征；

步骤3.3：计算词的解码器特征m_di，该解码器特征m_di由输入词序列对应的词向量和编码器特征通过多头自注意力机制的解码器计算得到；

步骤3.4计算掩码词预测的损失：

步骤3.5：进行反向传播，计算语言模型B中所有参数的更新值；

步骤4：语言模型B的弱监督训练具体包括以下子步骤：

步骤4.1：计算语言模型B对于输入词序列中特殊词的注意力分数,在步骤3.2所述的注意力机制中模型B的具有H个单头注意力机制，其中有H_s个是特殊单头自注意力机制，其余为普通单头自注意力机制；其中S_h＝[S_h11,...,S_hij,...,S_hKi]表示第h个特殊单头自注意力机制对于输入词序列中特殊词的注意力分数；特殊词是指执行步骤2.2后，词性被标注为名词或代词的词；K指在输入词序列中特殊词的个数，即输入词序列中包含的名词和代词的个数之和；N_h＝[N_h11,...,N_hij,...,N_hKi]表示第h个普通单头自注意力机制对于输入词序列中特殊词的注意力分数，i的取值范围为1到K，j的取值范围为1到i；

步骤4.2：计算指代消解模型A对于输入词序列中特殊词的指代关系候选分数，通过模型A在无标注数据上，由步骤2.1，得到L＝[l₁₁,...,l_ij,...,l_Ki]，l_ij表示输入词序列中的第i个特殊词与第j个特殊词的候选分数，L表示模型A对于输入词序列中特殊词计算得到的指代关系候选分数序列；K指在输入词序列中特殊词的个数，即输入词序列中包含的名词和代词的个数之和；

步骤4.3：通过(1)计算语言模型B弱监督训练的损失loss_B2；

步骤4.4：通过(2)计算语言模型B的训练总损失loss_B：

loss_B＝αloss_B1+(1-α)loss_B2 (2)

步骤4.5：进行反向传播，通过(3)计算语言模型B中所有参数的更新值：

步骤4.6.2：从无标注数据中随机抽取一个句子输入指代语言模型B，由步骤3.4计算loss_B1，并由步骤4.1计算语言模型B输出的各特殊词之间的注意力分数；再由步骤4.2计算指代消解模型A对于该输入词序列输出的各特殊词之间的指代关系候选分数l_ij，再由步骤4.4计算loss_B；最后进行反向传播迭代，更新语言模型B中的所有参数；

步骤4.6.3：不断重复步骤4.6.1与步骤4.6.2，直到指代消解模型A的损失loss_A<ε_A且语言模型B的损失loss_B<ε_B；

其中，ε_A和ε_B分别是指代消解模型A和语言模型B的训练停止界限，依据经验选取。

2.根据权利要求1所述的一种利用语言模型的指代消解弱监督学习方法，其特征在于：步骤2.1通过(4)计算第i个词与第j个词之间的指代关系候选分数l_ij：

l_ij＝coreference(e₁,...e_j,...,e_i...,e_M) (4)

其中，指代关系候选分数l_ij表示模型A输出的关于第j个词为第i个词的先行词的概率；coreference(·)是指代关系候选函数，对于输入的词向量序列[e₁,...e_j,...,e_i...,e_M]，返回第j个词为第i个词的先行词的概率；i的取值范围为2到M，j的取值范围为1到i-1，M表示输入词序列向量的长度。

3.根据权利要求2所述的一种利用语言模型的指代消解弱监督学习方法，其特征在于：步骤2.2具体包括以下子步骤：

步骤2.2.1：推断候选先行词；通过指代关系候选分数l_i*确定第i个词与第j个词之间的候选先行词，具体通过(5)计算：

k_i＝argmax(l_i*) (5)

其中，l_i*表示l_ij由j从2到i-1依次取值所得的集合，即l_i*＝[l_i1,...,l_ii-1]；argmax(·)是取最大值参数函数，该函数的输出是在输入的有序集合中最大值所对应的位置，k_i表示对于第i个词，该词可能的先行词为输入词序列中的第k_i个词；i的取值范围为2到M，j的取值范围为1到i-1；

步骤2.2.2：推断先行词；通过指代关系候选分数l_i*确定第i个词的先行词，具体通过(6)计算：

其中，k′_i表示对于第i个词，该词先行词为输入词序列中的第k′_i个词；当

时，k′_i＝k_i，k′_i具有实际意义；当

时，k′_i＝0，k′_i不具有实际意义，即对于第i个词，该词没有先行词；i的取值范围为2到M。

4.根据权利要求3所述的一种利用语言模型的指代消解弱监督学习方法，其特征在于：步骤2.3具体通过(7)：

其中，log(·)是对数函数，γ(i)表示第i个词的候选先行词词序，即γ(i)＝{τ,1,...,i-1}，τ表示第i个词没有先行词；GOLD(i)表示由与第i个词指向相同实体的其他词词序组成的集合。

5.根据权利要求4所述的一种利用语言模型的指代消解弱监督学习方法，其特征在于：步骤2.4具体通过(8)计算指代消解模型A中所有参数的更新值：

其中，θ′_i表示指代消解模型A中第i个参数；步骤2.1的coreference(·)函数中包含指代消解模型A的所有参数；μ表示学习率，根据经验选择；通过不断进行反向传播，指代消解模型A中的所有参数将不断发生变化，使loss_A逐渐变小，最终得到训练好的指代消解模型A。

6.根据权利要求5所述的一种利用语言模型的指代消解弱监督学习方法，其特征在于：步骤3.1掩码处理，具体通过(9)计算：

其中，Random(·)是随机数函数，对于输入的数字，返回1到该数字之间的一个随机数；“1到该数字之间”包括该数字；

表示用于掩码处理的词向量；

是模型的参数，通过训练过程得到具体的取值。

7.根据权利要求6所述的一种利用语言模型的指代消解弱监督学习方法，其特征在于：步骤3.2具体包括以下子步骤：

步骤3.2.1：通过(10)计算单头自注意力机制输出head_i：

其中，head_i表示第i个头的自注意力机制的输出；softmax(·)是指数归一化函数，对于输入进行指数归一化；Q，Z，V分别表示自注意力机制中的查询、键、值，Q，Z，V三个矩阵相等，都为将输入的词向量按行排列所得的矩阵；W_i ^Q，W_i ^Z，W_i ^V分别为与Q，Z，V对应的映射矩阵；d_z表示矩阵Z的列数；

步骤3.2.2：基于head_i通过(11)计算多头自注意力机制输出，即编码器特征m_ei：

m_ei＝Concat(head₁,...,head_H)W^o (11)

其中，head₁,...,head_H表示由步骤3.2.1计算得到的H个单头自注意力机制输出；m_ei对应第i个词的编码器特征，H是单头自注意力机制的头数，依据经验选择；W^o为H个拼接后的单头自注意力机制输出向量到多头自注意力机制输出的映射矩阵。

8.根据权利要求7所述的一种利用语言模型的指代消解弱监督学习方法，其特征在于：步骤3.3中解码器特征具体通过(12)计算：

m_di＝Decoder([e₁,...,e_i],[m_e1,...,m_ei]) (12)

其中，m_di表示第i个词的解码器特征；[e₁,...,e_i]由表示从1个词到第i个词的词向量组成的序列；[m_e1,...,m_ei]由表示从1个词到第i个词的编码器特征组成的序列；Decoder(·)表示多头自注意力机制的解码器，对于输入的从第1个词到第i个词的词向量组成的序列和从第1个词到第i个词的编码器特征组成的序列，返回第i个词向量对应的多头自注意力机制解码器输出m_di。

9.根据权利要求8所述的一种利用语言模型的指代消解弱监督学习方法，其特征在于：步骤3.4通过(13)和(14)计算掩码词预测的损失

表示输入词序列中进行掩码处理的词对应的解码器特征的转置；W^Di表示从词的解码器特征到输出词典中各个词概率的映射矩阵W^D的第i行；N表示语言模型输出词典中的词数；ω_i∈{0,1}表示在输出词典中的第i个词是否是输入词序列中进行掩码处理的词，当ω_i＝0时，表示词典中的第i个词不是输入词序列中进行掩码处理的词；当ω_i＝1时，表示词典中的第i个词是输入词序列中进行掩码处理的词，即该掩码词在进行掩码处理前是输出词典中的第i；log(·)是对数函数；exp(·)是指数函数。

10.根据权利要求9所述的一种利用语言模型的指代消解弱监督学习方法，其特征在于：步骤3.5中，特殊单头自注意力机制对应的注意力分布在训练中与指代消解模型A的输出逐渐趋向相似，普通单头自注意力机制对应的自注意力分布在训练中学习与指代消解模型的输出逐渐趋向不同，具体的注意力分布训练通过特殊单头自注意力机制和普通单头自注意力机制分别计算不同的交叉熵损失实现；再由该交叉熵损失进行反向传播，更新语言模型B的参数后，得到具有独立完成指代消解关系计算的能力语言模型B；其中，指代消解模型A的输出指模型A在处理输入词序列后，输出的各词之间的指代关系候选分数。