CN117574878A

CN117574878A - 用于混合领域的成分句法分析方法、装置及介质

Info

Publication number: CN117574878A
Application number: CN202410049989.9A
Authority: CN
Inventors: 白雪峰; 张岳
Original assignee: Westlake University
Current assignee: Westlake University
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-02-20
Anticipated expiration: 2044-01-15
Also published as: CN117574878B

Abstract

本申请提供了一种用于混合领域的成分句法分析方法、装置及介质，所述成分句法分析方法包括：利用至少包含第一领域和第二领域的训练数据的第一训练数据集，基于与成分句法分析任务相关联的至少一种文本序列处理任务对预训练语言模型进行训练，以得到第一语言模型，其中，第一训练数据集中的训练数据具有针对各种文本序列处理任务的真值标注；至少利用第一领域的成分句法标注数据，基于成分句法分析任务对训练好的第一语言模型进行补充训练以得到成分句法分析器，并用于第一领域和第二领域的文本序列的成分句法分析。本申请在部分领域标注数据缺乏甚至缺失的情况下，仍能使成分句法分析器具有较好的领域泛化能力，且具有较高的成分句法解析精确度。

Description

用于混合领域的成分句法分析方法、装置及介质

技术领域

本申请属于自然语言处理领域，尤其涉及一种用于混合领域的成分句法分析方法、装置及介质。

背景技术

成分句法分析是自然语言处理中的一项重要任务，其目标是将句子分解为成分（如主语、谓语、宾语等），并描述它们之间的句法关系。成分句法分析可以帮助计算机更好地理解人类语言输入，并在各种自然语言处理应用中发挥重要作用，如机器翻译、文本摘要、问答***等。

现有的成分句法分析器例如可以利用特定领域的文本数据，以成分句法分析任务为目标，对预训练语言模型（Pre-trained Language Model）进行训练，然后再利用该领域的人工标注的数据进行模型微调（Fine-tune），从而得到最终用于成分句法分析的模型。然而，当能够用于模型微调的其他领域的标注数据较少时，微调训练后得到的成分句法分析器的领域泛化通常较差。

由此可见，现有技术尚未能解决在特定领域的人工标注数据较少甚至缺失的情况下，训练得到的成分句法分析器仍然具有较好的领域泛化能力和较高的成分句法解析精确度的问题。

发明内容

针对上述问题，提出了本申请以解决现有技术存在的上述问题。

本申请的目的在于提供一种用于混合领域的成分句法分析方法、装置及介质，其能够在特定领域的人工标注数据较少甚至缺失的情况下，使得训练得到的成分句法分析器仍然具有较好的领域泛化能力和较高的成分句法解析精确度。

根据本公开的第一方案，提供了一种用于混合领域的成分句法分析方法，其包括：利用至少包含第一领域的训练数据和第二领域的训练数据的第一训练数据集，基于与成分句法分析任务相关联的至少一种文本序列处理任务，对预训练语言模型进行训练，以得到训练好的第一语言模型，其中，所述第一训练数据集中的训练数据具有针对所述至少一种文本序列处理任务中各种文本序列处理任务的真值标注；至少利用第一领域的成分句法标注数据，基于成分句法分析任务，对训练好的第一语言模型进行补充训练，以得到成分句法分析器；利用所述成分句法分析器对第一领域的文本序列和第二领域的文本序列进行成分句法分析。

根据本申请的第二方案，提供了一种用于混合领域的成分句法分析的装置，所述装置包括处理器，其配置为执行根据本申请各个实施例的用于混合领域的成分句法分析方法的步骤。

根据本申请的第三方案，提供了一种非暂时性计算机可读介质，其上存储有指令，其中当由处理器执行时，所述指令执行根据本申请各个实施例的用于混合领域的成分句法分析方法的步骤。

本申请通过利用第一领域的训练数据和第二领域的训练数据，在多个领域上对预训练语言模型进行联合训练以融合多领域的知识，以实现通过联合学习的方式来获得具有领域泛化性的文本上下文表示，进而能够在特定领域的人工标注数据较少甚至缺失的情况下，使得训练得到的成分句法分析器仍然具有较好的领域泛化能力和较高的成分句法解析精确度。

附图说明

在不一定按比例绘制的附图中，相同的附图标记可以在不同的视图中描述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例，并且与说明书以及权利要求书一起用于对所公开的实施例进行说明。在适当的时候，在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的，而并非旨在作为本装置或方法的穷尽或排他实施例。

图1示出根据本申请实施例的用于混合领域的成分句法分析方法的流程图；

图2示出根据本申请实施例的成分句法分析器的训练过程示意图；

图3示出根据本申请实施例的不同领域之间的知识关联示意图；

图4示出根据本申请实施例的不同成分句法分析任务与成分句法分析之间的关系示意图；

图5示出根据本申请实施例的基于序列化真值标注的统一化训练数据示意图；

图6示出根据本申请实施例的文本编码处理示意图；以及

图7示出根据本申请实施例的成分句法分析原理示意图。

具体实施方式

为使本领域技术人员更好的理解本公开的技术方案，下面结合附图和具体实施方式对本公开作详细说明。下面结合附图和具体实施例对本公开的实施例作进一步详细描述，但不作为对本公开的限定。本文中所描述的各个步骤，如果彼此之间没有前后关系的必要性，则本文中作为示例对其进行描述的次序不应视为限制，本领域技术人员应知道可以对其进行顺序调整，只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。

在本申请的一些实施例中，提供了一种用于混合领域的成分句法分析方法。图1示出了根据本申请实施例的用于混合领域的成分句法分析方法的流程图。如图1所示，用于混合领域的成分句法分析方法包括步骤S101至步骤S103。

在步骤S101中，利用至少包含第一领域的训练数据和第二领域的训练数据的第一训练数据集，基于与成分句法分析任务相关联的至少一种文本序列处理任务，对预训练语言模型进行训练，以得到训练好的第一语言模型。其中，第一训练数据集中的训练数据具有针对至少一种文本序列处理任务中各种文本序列处理任务的真值标注。每种文本序列处理任务都具有真值标注。

示例性地，可以通过真值标注将多个不同文本序列处理任务的任务处理结果的数据统一化成序列标注形式。序列标注形式的任务处理结果能够使多个不同文本序列处理任务之间易于进行联合训练，同时也有利于多任务之间的信息交互。

在步骤S102中，至少利用第一领域的成分句法标注数据，基于成分句法分析任务，对训练好的第一语言模型进行补充训练，以得到成分句法分析器。

补充训练为针对具体的分析任务，例如成分句法分析任务来对第一语言模型进行的针对性训练，以便获得对分析任务来讲更有针对性的分析模型。

示例性地，补充训练可以为微调。为了能够有效地利用多领域多任务知识来增强成分句法分析，如图2所示，使用“预训练-微调”两阶段框架对成分句法分析器进行训练。以步骤S101中获得的第一语言模型作为初始化模型，通过利用成分句法标注数据，也就是成分句法任务的真值标注对该模型进行微调，来进行成分句法分析器的训练。

在步骤S103中，利用成分句法分析器对第一领域的文本序列和第二领域的文本序列进行成分句法分析。

本申请通过利用第一领域的训练数据和第二领域的训练数据，在多个领域上对预训练语言模型进行联合训练以融合多领域的知识，以实现通过联合学习的方式来获得具有领域泛化性的文本上下文表示，进而能够在特定领域的人工标注数据较少甚至缺失的情况下，使得训练得到的成分句法分析器仍然具有较好的领域泛化能力和较高的成分句法解析精确度。这里的特定领域可以为第二领域，但并非限定于此，还可以为任何的与训练数据集中的训练数据具有共性知识的领域。

在一些实施例中，第二领域的训练数据多于第一领域的训练数据。

具体而言，在对预训练语言模型进行训练时，使得第二领域的训练文本多于第一领域的训练数据，能够使第一语言模型更好地习得第二领域的知识，并且能够使得后续的成分句法分析任务中，使用较少的第二领域的标注数据，即可获得较高的成分句法解析精确度。

在一些实施例中，成分句法分析方法中的步骤S102，至少利用第一领域的成分句法标注数据，基于成分句法分析任务，对训练好的第一语言模型进行补充训练，以得到成分句法分析器进一步包括利用第一领域的成分句法标注数据和第二领域的成分句法标注数据，基于成分句法分析任务，对训练好的第一语言模型进行补充训练，以得到成分句法分析器。其中，第二领域的成分句法标注数据少于第一领域的成分句法标注数据。

具体而言，第一语言模型和成分句法分析器还可以使用多领域的训练数据进行训练而获得。图3示出了根据本申请实施例的不同领域之间的知识关联示意图。如图3所示，不同领域文本数据之间存在共性知识，同时利用多个领域的文本数据进行训练有利于帮助预训练语言模型的神经网络学习通用的语义表示，以减少语义表示中的领域偏见，进而提高第一语言模型以及成分句法分析器的输出结果的精度。并且，使用少于第一领域的数据的第二领域的数据即可实现通过多领域数据训练提高成分句法分析的精度，有益于减轻第一语言模型和成分句法分析器的训练负担，提高训练效率。

在一些实施例中，成分句法分析方法中的与成分句法分析任务相关联的至少一种文本序列处理任务包括目标文本序列预测任务、词性标签预测任务、命名实体标签预测任务和语义角色标签预测任务中的一种或其组合。

成分句法分析任务旨在通过在对预训练语言模型进行训练的预训练阶段融入多种任务所蕴含的不同语义知识来增强语言模型的语义建模能力。具体而言，在例如情感分类预测、语义预测、篇章结构预测等诸多的文本序列处理任务中，挑选出目标文本序列预测、词性标签预测、命名实体标签预测、语义角色标签预测这四个与倾向于学习句法分析的任务来执行预训练。

如图4和图5所示，对于词性标签预测任务，为每个词分配一个词性标签，如“王小明”是名词；对于命名实体标签预测任务，首先将文本中的实体词（如“A地”）分配对应的实体标签（如“地名”），对于非实体词，赋予其空标签；对于语义角色标签预测任务，首先为核心动词（如“收购”）赋予“动作”标签，为施事关系的对象（如“王小明”）赋予“施事者”标签，为受事关系的对象（如“三个项目”）赋予“受事者”标签。

并且，如图4和图5所示，对于目标文本序列预测任务，将输入文本进行随机掩码（即随机替换为特殊字符），并训练神经网络预测对应位置的词。其他三种自然语言处理任务均能为成分句法分析的提供有益信息。其中，词性标签有利于判断短语类别（如“收购”作为动词可以构成一个基础成分单元），命名实体标签有利于处理特殊短语成分（如识别地名“A地”有助于处理包含专有词的文本），语义角色标签有利于预测成分之间的结构（如识别“收购”和“A地”之间的语义关系能够帮助预测“收购”和“三个项目”之间的动词短语关系）。

在与成分句法分析任务相关联的至少一种文本序列处理任务为多种的情况下，以各种文本序列处理任务对应的优化目标的加权和作为总体优化目标对预训练语言模型进行联合训练。

通过在预训练阶段将多任务、多领域的知识融合到神经网络中，能够使得神经网络具有更强的自然语言句法建模能力，从而提升模型在成分句法分析任务上的精确度与泛化能力。为了融合多领域的知识，本发明提出在多个任务上进行联合预训练，通过联合训练的方式来获得具有领域泛化性的文本上下文表示。

示例性地，使用联合训练的方式来同时优化以上四个任务，总体优化目标为：

……式（1）

其中，是目标文本序列预测任务的优化目标，/>是词性标签预测任务的优化目标，/>是命名实体标签预测任务的优化目标，/>是语义角色标签预测任务的优化目标，/>、/>和/>是超参数。超参数用来控制不同任务之间的重要比例。在训练过程中，可以使用梯度下降法来进行神经网络的优化。

在一些实施例中，目标文本序列预测任务基于训练文本序列生成满足用户要求的目标文本序列。具体而言，在目标文本序列预测任务中，给定输入文本，其中/>表示文本中的第/>个词，/>代表文本的总长度。首先随机地将文本中的第i个词/>随机替换成“[MASK]”字符来进行掩码处理，目标文本序列预测任务训练神经网络根据掩码后的文本来恢复原始的文本。

假设掩码后的文本表示为，则目标文本序列预测任务的优化目标/>是最大化下面的文本的似然值：

……式（2）

其中，代表所有目标文本序列预测训练数据，/>代表以掩码后文本/>预测原文本/>的条件概率。

如图5所示，词性标签预测任务基于训练文本序列生成对应的词性标签序列。具体而言，在词性标签预测任务中，给定输入文本，词性标签预测任务旨在预测输入文本序列对应的词性标签序列/>，其中/>代表文本中第i个词所对应的词性标签。词性标签预测任务的优化目标/>是最大化下面的似然值：

……式（3）

其中，代表所有词性标签预测数据，/>代表以输入文本/>预测词性标签序列的条件概率。

如图5所示，命名实体标签预测任务基于训练文本序列生成对应的命名实体标签序列。具体而言，在命名实体标签预测任务中，给定输入文本，命名实体标签预测任务旨在预测输入文本序列对应的词性标签序列/>，其中/>代表文本中第i个词所对应的命名实体标签。命名实体标签预测任务的优化目标是最大化下面的似然值：

……式（4）

其中，代表所有命名实体标签预测数据，/>代表以输入文本/>预测命名实体标签序列/>的条件概率。

如图5所示，语义角色标签预测任务基于训练文本序列生成对应的语义角色标签序列。具体而言，在语义角色标签预测任务中，给定输入文本，语义角色标签预测任务旨在预测输入文本序列对应的词性标签序列/>，其中代表文本中第/>个词所对应的语义角色标签。语义角色标签预测任务的优化目标/>是最大化下面的似然值：

……式（5）

其中，代表所有语义角色标签预测数据，/>代表以输入文本/>预测语义角色标签序列/>的条件概率。

通过这种统一化数据处理方式，能够将目标文本序列预测、词性标签预测、命名实体标签预测、语义角色标签预测三个不同的任务的结果数据统一成序列标注的形式，从而能够使多个不同文本序列处理任务之间易于进行联合训练，同时也有利于多任务之间的信息交互，进而能够通过联合训练有效地利用其他相关任务所蕴含的知识来增强句法分析任务的性能，并且能够利用多个领域的文本参与句法分析相关的任务，从而能够更好地将领域之间的通用知识迁移到成分句法分析器中，提升模型的跨领域泛化能力。

在一些实施例中，成分句法分析方法进一步包括对第一训练数据集中的训练数据进行预处理，使得各个训练数据针对各种文本序列处理任务的真值标注具有相同的序列长度。通过真值标注，将多个不同文本序列处理任务的任务处理结果的数据统一化成具有相同的序列长度的序列标注形式，能够使多个不同文本序列处理任务之间更加易于进行联合训练，同时也更加利于多任务之间的信息交互。

在一些实施例中，如图6所示，在成分句法分析方法中，第一训练数据集中的训练数据由预训练数据经Transformer编码器模型进行文本编码后获得。预训练数据至少包含第一领域的预训练数据。基于Transformer的编码器模型作为文本编码器，以多领域的文本作为输入，并输出编码后的文本以进行后续的成分句法分析任务的训练。

在一些实施例中，成分句法分析任务基于训练文本序列生成对应的成分句法标签序列。

具体而言，在上述对预训练语言模型进行训练的预训练阶段，给定一个初始化神经网络模型，之后构造了使得第一语言模型的输出结果序列标注形式统一化的训练数据，并在此基础上使用一个融合多领域多任务知识的预训练框架来指导神经网络的训练。最终，预训练阶段获得的模型将用于进行成分句法分析任务的补充训练。

在补充训练阶段，例如微调阶段，假设输入文本序列所对应的成分句法树可以表示为一个三元组集合：/>，其中/>代表第/>个片段的左边界，/>代表第/>个片段的右边界，/>代表第/>个片段的标签。成分句法分析任务旨在学习一个从/>到/>的映射/>来从输入文本中预测其蕴含的成分句法知识。

为了和第一语言模型的输入输出形式保持一致，将成分句法分析任务的输入输出均转换为序列标注形式。具体而言，如图7所示，为输入文本序列中的每个词分配一个二元组标签，以获得输入文本序列/>的成分句法标签序列/>。其中，二元组的第一位代表当前词/>和下一个词/>在句法树中的共同祖先个数，二元组的第二位代表当前词/>和下一个词/>在句法树中的最近共同祖先。示例性地，当前词/>为“A地”，当前词/>的下一个词为“收购”，“A地”和“收购”在成分句法树中的共同祖先个数为2，最近共同祖先为VP，则“A地”的二元组标签为（2，VP）。

假设作为初始化模型的输入的成分句法标签序列为，则成分句法分析任务旨在最优化如下似然：

……式（6）

其中，代表成分句法分析任务的优化目标，/>代表所有成分句法分析数据，代表以输入文本/>预测成分句法标签序列/>的条件概率。

在推理过程中，给定预测的成分句法标签序列，本发明使用基于规则的方式根据当前词与前一个词的共同祖先以及共同祖先个数来还原成分句法树。

在本申请的一些实施例中，提供了一种用于混合领域的成分句法分析的装置，装置包括处理器，其配置为执行根据本申请各个实施例的用于混合领域的成分句法分析方法的步骤。

处理器可以是包括诸如微处理器、中央处理单元（CPU）、图形处理单元（GPU）等一个或更多个通用处理设备的处理设备。更具体地，处理器可以是复杂指令集运算（CISC）微处理器、精简指令集运算（RISC）微处理器、超长指令字（VLIW）微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。处理器还可以是诸如专用集成电路（ASIC）、现场可编程门阵列（FPGA）、数字信号处理器（DSP）、片上***（SoC）等一个或更多个专用处理设备。

在本申请的一些实施例中，提供了一种非暂时性计算机可读介质，其上存储有指令，其中当由处理器执行时，指令执行根据本申请各个实施例的用于混合领域的成分句法分析方法的步骤。

具体而言，处理器可以通信地联接到计算机，并且被配置为执行存储在非暂时性计算机可读介质中的计算机可执行指令。非暂时性计算机可读介质例如为存储器，存储器可以包括只读存储器（ROM）、随机存取存储器（RAM）、相变随机存取存储器（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、电可擦除可编程只读存储器（EEPROM）、其他类型的随机存取存储器（RAM）、闪存盘或其他形式的闪存、缓存、寄存器、静态存储器、光盘只读存储器（CD-ROM）、数字通用光盘（DVD）或其他光学存储器、盒式磁带或其他磁存储设备等。在一些实施例中，存储器可以存储计算机可执行指令以及在执行计算机可执行指令时使用或生成的数据。处理器可以执行计算机可执行指令以实现根据本申请的各个实施例的用于大数据分析的基于图生成自然语言文本的方法。所述方法通过图遍历顺序转换任务建模了图的向量表示，形成了图向量表示空间和文本向量表示空间，并采用多任务训练的方式进行模型优化，进而通过训练神经网络进行图结构预测，能够增强神经网络对图的理解能力，有助于生成与图更加语义一致的文本。并且，该方法能够通过子图补全任务有效建模图的子图级上下文信息，因而能够有效地利用大规模无标签的图数据，从而使得神经网络能够更好地学习图的通用特征，有助于提升文本生成的质量。

本申请的用于混合领域的成分句法分析方法、装置及介质中，通过对预训练语言模型进行训练的预训练来将多任务、多领域的知识融合到第一语言模型的神经网络中，使得第一语言模型的神经网络具有更强的自然语言句法建模能力，从而提升第一语言模型在成分句法分析任务上的精确度与泛化能力。并且，通过序列标注的数据处理方法，将多个不同文本序列处理任务的任务处理结果的数据统一化成序列标注形式，解决了多任务之间的输出形式差异问题，从而能够进行多任务预训练，有助于进行成分句法分析的学习。而且，通过多领域联合训练的方式来融合多领域的知识，以获得具有领域泛化性的文本上下文表示。

此外，尽管已经在本文中描述了示例性实施例，其范围包括任何和所有基于本公开的具有等同元件、修改、省略、组合（例如，各种实施例交叉的方案）、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释，并不限于在本说明书中或本申请的实施期间所描述的示例，其示例将被解释为非排他性的。因此，本说明书和示例旨在仅被认为是示例，真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。

以上描述旨在是说明性的而不是限制性的。例如，上述示例（或其一个或更多方案）可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外，在上述具体实施方式中，各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反，本发明的主题可以少于特定的公开的实施例的全部特征。从而，以下权利要求书作为示例或实施例在此并入具体实施方式中，其中每个权利要求独立地作为单独的实施例，并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

Claims

1.一种用于混合领域的成分句法分析方法，其特征在于，包括：

利用至少包含第一领域的训练数据和第二领域的训练数据的第一训练数据集，基于与成分句法分析任务相关联的至少一种文本序列处理任务，对预训练语言模型进行训练，以得到训练好的第一语言模型，其中，所述第一训练数据集中的训练数据具有针对所述至少一种文本序列处理任务中各种文本序列处理任务的真值标注；

至少利用第一领域的成分句法标注数据，基于成分句法分析任务，对训练好的第一语言模型进行补充训练，以得到成分句法分析器；

利用所述成分句法分析器对第一领域的文本序列和第二领域的文本序列进行成分句法分析。

2.如权利要求1所述的成分句法分析方法，其特征在于，所述第二领域的训练数据多于所述第一领域的训练数据。

3.如权利要求1所述的成分句法分析方法，其特征在于，所述至少利用第一领域的成分句法标注数据，基于成分句法分析任务，对训练好的第一语言模型进行补充训练，以得到成分句法分析器进一步包括：

利用第一领域的成分句法标注数据和第二领域的成分句法标注数据，基于成分句法分析任务，对训练好的第一语言模型进行补充训练，以得到成分句法分析器，其中，所述第二领域的成分句法标注数据数量少于所述第一领域的成分句法标注数据。

4.如权利要求1-3中任一项所述的成分句法分析方法，其特征在于，所述与成分句法分析任务相关联的至少一种文本序列处理任务包括目标文本序列预测任务、词性标签预测任务、命名实体标签预测任务和语义角色标签预测任务中的一种或其组合；

在所述与成分句法分析任务相关联的至少一种文本序列处理任务为多种的情况下，以各种文本序列处理任务对应的优化目标的加权和作为总体优化目标对所述预训练语言模型进行联合训练。

5.如权利要求4所述的成分句法分析方法，其特征在于，

所述目标文本序列预测任务基于训练文本序列生成满足用户要求的目标文本序列；

所述词性标签预测任务基于训练文本序列生成对应的词性标签序列；

所述命名实体标签预测任务基于训练文本序列生成对应的命名实体标签序列；

所述语义角色标签预测任务基于训练文本序列生成对应的语义角色标签序列。

6.如权利要求1-3中任一项所述的成分句法分析方法，其特征在于，所述成分句法分析方法进一步包括：

对所述第一训练数据集中的训练数据进行预处理，使得各个训练数据针对各种文本序列处理任务的真值标注具有相同的序列长度。

7.如权利要求1或2所述的成分句法分析方法，其特征在于，

所述第一训练数据集中的训练数据由预训练数据经Transformer编码器模型进行文本编码后获得，所述预训练数据至少包含第一领域的预训练数据。

8.如权利要求1或3所述的成分句法分析方法，其特征在于，

所述成分句法分析任务基于训练文本序列生成对应的成分句法标签序列。

9.一种用于混合领域的成分句法分析的装置，其特征在于，所述装置包括处理器，其配置为执行如权利要求1-8中任一项所述的用于混合领域的成分句法分析方法的步骤。

10.一种非暂时性计算机可读介质，其上存储有指令，其中当由处理器执行时，所述指令执行如权利要求1-8中任一项所述的用于混合领域的成分句法分析方法的步骤。