CN115358341A

CN115358341A - 一种基于关系模型的指代消歧的训练方法及***

Info

Publication number: CN115358341A
Application number: CN202211050793.9A
Authority: CN
Inventors: 于伟; 靳雯; 赵洲洋; 石江枫; 王全修; 吴凡
Original assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Current assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2022-11-18
Anticipated expiration: 2042-08-30
Also published as: CN115358341B

Abstract

本发明涉及人工智能技术领域，具体涉及一种基于关系模型的指代消歧的训练方法及***，该方法将任意一个样本中的所有指代词作为主语分别标注为主语标签形成主语训练数据；按照指代词出现的顺序，在当前指代词为主语时，将当前指代词的两侧添加标记符并将上一个指代词作为宾语且标注为关系标签形成关系训练数据，获取所有指代词作为主语时对应的关系训练数据，得到关系训练集；获取主语训练数据和关系训练集中每个字符的特征向量，将所有样本的主语训练数据、关系训练集和特征向量输入关系模型中进行训练，使关系模型提取出正确的关系，解决了目前关系模型无法识别多次出现的同一个指代词与实体之间的关系的问题。

Description

一种基于关系模型的指代消歧的训练方法及***

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于关系模型的指代消歧的训练方法及***。

背景技术

关系抽取任务，就是从一句话中，找到哪些实体与哪些实体有哪些关系。关系抽取任务是信息提取中的一个重要子任务。关系抽取可以从复杂的非结构化文本中提取出机器能够理解的结构化数据。非结构化的文本在进行关系抽取之后，可以得到结构化的图数据，进行实体与实体之间的跨文本关联。所谓的关系，指的是文本中实体与实体之间的关系，具体的关系为一系列的主谓宾三元组：(主语S，谓语P，宾语O)。在关系抽取模型中，目前主流的方法之一是采用多轮问答法。

对于李晓雅，殷凡，孙子军，李霞宇等人于2019年在意大利佛罗伦萨的计算语言学协会发表并被收录在计算语言学协会第57届年会论文集的第1340-1350页中的实体关系提取作为多轮次问答的论文中公开了将任务转换为多回合问答问题，即实体和关系的提取转换为从上下文中识别答案跨度的任务，也即多轮问答法就是对文中的每个实体类型，进行多轮问答，从而提取出所有的关系，该方案的缺点在于：文本中如果出现多个指代同一实体的指代词，则无法识别相应指代词与实体之间的关系是什么，也不能确定反复出现的多个指代词是否是指代的同一个实体。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种基于关系模型的指代消歧的训练方法及***，所采用的技术方案具体如下：

第一方面，本发明一个实施例提供了一种基于关系模型的指代消歧的训练方法，该训练方法包括：

S100，获取训练集T，T中包括n个文本样本T＝{T₁,T₂,…,T_n}，其中第i个文本样本T_i中包括m个实体Su_i＝{Su_i,1,Su_i,2,…,Su_i,m}和R(j)个指代T_i中第j个实体Su_i,j的指代词

Z中元素的顺序是按照指代词在T_i中出现的顺序排序，i的取值范围为1到n，R(j)的函数值为整数且满足

j的取值范围为1到m；

S200，将T_i中的SUM个指代词分别标记为主语标签，得到T_i的主语训练数据；

S300，将文本样本T_i中的任意一个指代词作为主语标注关系标签得到一条关系训练数据，获取SUM个指代词的关系训练数据集；其中，第r个指代Su_i,j的指代词

作为主语的关系训练数据为：在T_i中

的两侧分别添加第一标识符和第二标识符，得到调整后的T_i；将调整后的T_i中第r-1个指代Su_i,j的指代词

作为宾语，将宾语标注为指代关系标签；当r＝1时，将Su_i,j作为宾语且标注为指代关系标签；其中，r的取值范围为1到R；

S400，获取主语训练数据和关系训练数据集中每个字符的特征向量，将n个文本样本T中所有文本样本的主语训练数据、关系训练数据集和特征向量输入关系模型中，对关系模型进行训练。

第二方面，本发明另一个实施例提供了一种基于关系模型的指代消歧的训练***，所述***包括处理器和非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述训练方法。

本发明具有如下有益效果：

该训练方法按照指代词在样本T_i中出现的顺序排序，获取样本T_i的主语训练数据和关系训练数据集，其中主语训练数据是将所有指代词标注为主语标签，关系训练数据是将任意一个指代词作为主语，在主语的两侧增加标识符得到调整后的文本，并在调整后的文本中将作为主语的前一个指代词或者实体作为宾语标注为指代关系标签，获取n个样本中每个样本的主语训练数据和关系训练数据集及其特征向量，并将其输入关系模型中进行训练，通过该方式训练关系模型，使关系模型提取出正确的关系，得到正确的关系图谱，解决了目前关系模型无法识别在一个文本中多次出现同一个指代词与实体之间的关系的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种基于关系模型的指代消歧的训练方法流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于关系模型的指代消歧的训练方法及***，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一个或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于关系模型的指代消歧的训练方法及***的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种基于关系模型的指代消歧的训练方法流程图，该训练方法包括以下步骤：

j的取值范围为1到m。

可选的，实体为命名实体。进一步，命名实体为人名实体。

可选的，在实体为人名实体时，指代词为人称代词。

例如：一个文本样本为“张三在北京上班，他的父亲是张大，他的母亲是李四，他今年刚毕业，他好不容易才找到的工作”，在该文本中包括3个人名实体{张三，张大，李四}和4个指代张三的人称代词“他”，按照自然顺序排序并为了方便表达这四个人称代词分别称为A1、A2、A3和A4，得到指代词集合{A1,A2,A3,A4}。

S200，将T_i中的SUM个指代词分别标记为主语标签，得到T_i的主语训练数据。

其中，在进行指代关系标注时，以指代词作为主语，指代词的前一个指代词或者指代的实体为宾语，在主语上标注主语标签形成主语训练数据，在宾语上标注关系标签形成关系训练集。

具体的，对于主语训练数据，在进行标注时，将样本中的所有指代词作为主语进行标注。例如文本样本：“张三在北京上班，他的父亲是张大，他的母亲是李四，他今年刚毕业，他好不容易才找到的工作”中，将文本样本中的指代词{A1,A2,A3,A4}都标记为主语标签，其中主语标签可以是“B-主语”，其他字符标记为“O”。带有标签的文本样本为最终得到的主语训练数据。

作为主语的关系训练数据为：在T_i中

作为宾语，将宾语标注为指代关系标签；当r＝1时，将Su_i,j作为宾语且标注为指代关系标签；其中，r的取值范围为1到R。

优选的，第一标识符和第二标识符均为成对标识符和至少一个字母构成的组合标识符，其中字母位于成对标识符的中间位置，能够防止文本本身的常用符号与添加的标识符混淆，减少网络出错的概率。其中，成对标识符为“《”和“》”、“<”和“>”、“(”和“)”、“[”和“]”、“【”和“】”、“{”和“}”等。

优选的，第一标识符和第二标识符成对出现且位于主语实体或者指代词的两侧。

优选的，第一标识符为“<\S>”，第二标识符为“<\T>”。

其中，获取关系训练数据时，将后一个指代词作为主语，前一个指代词作为宾语来标记关系，且当r＝1时，宾语为Su_i,j，Su_i,j是一个实体，这样会形成一个由后向前链式的指代关系，且指代同一个实体的指代词经该链式指代关系能够指向同一个实体。

例如，对于样本“张三在北京上班，他的父亲是张大，他的母亲是李四，他今年刚毕业，他好不容易才找到的工作”，获取主语训练数据的步骤包括：将一个样本中的所有指代词作为主语标注为主语标签，其中指代词的主语标签可以是“B-主语”，得到所有指代词具有主语标签的一条训练数据。获取关系训练数据集的步骤包括：在A1作为主语时，在主语A1的两侧分别添加第一标识符“<\S>”和第二标识符“<\T>”，得到调整后的文本：“张三在北京上班，<\S>他<\T>的父亲是张大，他的母亲是李四，他今年刚毕业，他好不容易才找到的工作”；此时，“张三”为宾语，在调整后的文本中将张三标注为指代关系标签，其中指代关系标签可以是将“张三”分别标记为“B-指代”“I-指代”，得到一条A1作为主语时对应的关系训练数据。同理，当A2作为主语时，调整后的文本为：“张三在北京上班，他的父亲是张大，<\S>他<\T>的母亲是李四，他今年刚毕业，他好不容易才找到的工作”；此时，“A1”为宾语，在调整后的文本中A1的指代关系标签为“B-指代”，得到一条A2作为主语时对应的关系训练数据。依次类推，得到四个指代词分别作为主语时对应的关系训练数据集。在关系训练集中能够得到这样一个链式传递关系：A4指代A3，A3指代A2，A2指代A1，A1指代实体张三。

可选的，关系模型为BERT模型。BERT模型的损失函数为交叉熵损失函数，在交叉熵损失函数收敛时模型训练完成。

其中，每个字符的特征向量包括相应字符的字向量、位置向量和段向量，其中，字向量为当前字符在当前文本中的语义信息，为一个768维的向量；位置向量为当前字符在当前文本中第几个位置；段向量为当前字符在当前文本中的第几个子句中。其中第一标识符和第二标识符分别生成一个字向量、一个位置向量和一个段向量，也即“<S>”生成一个字向量、一个位置向量和一个段向量，“<T>”也生成为一个字向量、占一个位置向量和一个段向量。

BERT模型的预测结果为由K条关系组成的关系列表L＝{L₁,L₂,…L_K}，每条关系以三元组形式表示{S,P,O}，其中S为指主语，P为关系，O为宾语。将步骤S201中标注的样本输入关系模型之后预测得到的关系列表为：{{A1,指代,张三},{A2,指代,A1},{A3,指代,A2},{A4,指代,A3}}。

所述步骤S400之后还包括后处理步骤：

S520，获取关系模型输出的具有K条关系的关系列表L＝{L₁,L₂,…L_K}，其中第k条关系列表为{S_k,P_k,O_k}，其中S_k为预测的主语实体，P_k为预测的关系，O_k为预测的宾语。

S540，在L_k中的P_k为指代关系时，将L_k中的{S_k,O_k}添加到连通图集合中，其中k的取值范围为1到K。

其中，S_k和O_k分别作为连通图中的顶点且将S_k和O_k连接起来。同理，将关系列表中所有是指代关系的主语和宾语放入连通图中。

S560，根据连通图集合创建实体映射表B。

在实体映射表记录着某一命名实体与指代该命名实体的所有指代词之间的映射关系。例如，在B中记录着张三与A1、A2、A3和A4之间的映射关系。

优选的，还包括：S580，在L_k中的P_k为非指代关系时，根据L_k中的指代词查询B，得到相应的命名实体；利用得到的命名实体替换L_k中的指代词，得到重建的关系。该方法能够将原本无法确定的关系重建为具有实际意义的关系。其中P_k为“指代”时，为指代关系，为“母亲”等亲属关系时，即为非指代关系。例如在非指代关系{他，母亲，李四}中，无法确定“他”是谁，也就无法确定李四是谁的母亲，采用该方法将该指代词替换为命名实体，得到{张三，母亲，李四}，此时，即可确定李四是张三的母亲，能够得到一个具有实际意义的关系。

综上所述，本发明实施例公开了一种基于关系模型的指代消歧的训练方法，该训练方法包括：获取包括n个样本的数据集，第i个文本样本T_i中包括m个实体Su_i和指代第j个实体Su_i,j的R个指代词Z，指代词Z中的顺序是按照指代词在T_i中出现的顺序排序；获取样本T_i的主语训练数据和关系训练数据集，其中主语训练数据是将所有指代词标注为主语标签，关系训练数据是将任意一个指代词作为主语，在主语的两侧增加标识符得到调整后的文本，并在调整后的文本中将作为主语的前一个指代词或者实体作为宾语标注为指代关系标签，获取n个样本中每个样本的主语训练数据和关系训练数据集，将n个样本的主语训练数据、关系训练数据集和特征向量输入关系模型中，对关系模型进行训练。通过该方式训练关系模型，能够得到相应的关系列表，通过关系列表之间的映射关系能够得到关系中多个指代词与实体之间的指代关系，使关系模型提取出正确的关系，得到正确的关系图谱。解决了目前关系模型无法识别在一个文本中多次出现同一个指代词与实体之间的关系的问题。

基于与上述方法相同的发明构思，本发明实施例还提供了一种基于关系模型的指代消歧的训练***，所述***包括处理器和非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述任意一个实施例所述的基于关系模型的指代消歧的训练方法，该训练方法在上述实施例已经详细说明，不再赘述。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。