CN117273014B

CN117273014B - 基于迁移学习的跨领域语义解析方法

Info

Publication number: CN117273014B
Application number: CN202311552549.7A
Authority: CN
Inventors: 夏振涛; 李艳; 谈辉
Original assignee: Yozosoft Co ltd
Current assignee: Yozosoft Co ltd
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-02-09
Anticipated expiration: 2043-11-21
Also published as: CN117273014A

Abstract

本发明涉及语义解析技术领域，尤其涉及一种基于迁移学习的跨领域语义解析方法,该方法包括：获取与对应的源域样本集合，源域样本集合中包括至少两个语段样本，每个语段样本中包括至少两个语素；获取初始语义解析模型；确定源域语义解析模型；确定目标域以及与目标域对应的目标域样本集合；通过目标域样本集合对源域语义解析模型进行训练；将待测语段输入语义解析模型，输出得到语义解析结果。针对源域和目标域之间的语义区别，在通过源域对应的样本训练模型后，通过目标域样本对于模型进行微调，在花费较少样本成本的情况下，使得语义解析模型能够对于源域及目标域内的样本进行语义分析以及识别，提高了跨领域语义解析的效率和准确率。

Description

基于迁移学习的跨领域语义解析方法

技术领域

本申请涉及语义解析技术领域，特别涉及基于迁移学习的跨领域语义解析方法。

背景技术

依存分析是各种自然语言处理***中的重要组成部分，如语义角色标注、关系抽取、机器翻译等。依存分析有两种主要方法：基于图的方法和基于转移的方法。

相关技术中，在进行依存分析的过程当中，通常会基于领域对于依存分析的样本进行划分，并对应建立不同的模型，以实现不同领域的语义依存分析。

然而，针对不同领域建立模型并重新训练的方式，会使得模型的建立过程成本较高且时间冗长，降低了跨领域语义解析的效率。

发明内容

本发明的目的在于克服现有技术的不足与缺陷，提供了一种基于迁移学习的跨领域语义解析方法，提高了跨领域语义解析的效率和准确率，该技术方案应用于计算机设备中，该方法包括：

获取与对应的源域样本集合，源域样本集合中包括至少两个语段样本，每个语段样本中包括至少两个语素，语段样本标注有样本语素识别结果以及样本语素关联关系结果；样本语素识别结果用于指示语段样本中包括的语素以及语素内容，样本语素关联关系结果用于指示语素的性质以及关联关系，源域样本集合为基于通用语言数据库提取获得的样本集合；

获取初始语义解析模型，初始语义解析模型配置有初始参数，初始语义解析模型为基于机器学习的神经网络模型；

通过源域样本集合对初始语义解析模型进行训练，得到源域语义解析模型；

确定目标域以及与目标域对应的目标域样本集合，目标域样本集合中包括至少两个语段样本，目标域样本集合中的语段样本指示的内容与目标域相关联，语段样本标注有语素识别结果以及语素关联关系结果；

通过目标域样本集合对源域语义解析模型进行训练，得到语义解析模型；

将待测语段输入语义解析模型，输出得到语义解析结果，语义解析结果包括语素结果以及语素关联关系结果，待测语段的语段内容属于至少一个目标域。

在一个可选的实施例中，初始语义解析模型包括文本表示层、自注意力层以及堆栈指针网络层。

在一个可选的实施例中，通过源域样本集合对初始语义解析模型进行训练，得到源域语义解析模型，包括：

将源域语段样本集合输入初始语义解析模型；

通过文本表示层对源域样本集合中的语段样本进行文本表示分析，输出得到与语段样本对应的文本特征向量；

将文本特征向量输入堆栈指针网络层，输出得到与源域样本集合对应的预测语义解析结果，预测语义解析结果包括预测语素识别结果以及预测语素关联关系结果；

确定预测语素识别结果与样本语素识别结果的差异，并确定预测语素关联关系结果与样本语素关联关系结果的差异；

基于预测语素识别结果与样本语素识别结果的差异以及预测语素关联关系结果与样本语素关联关系结果的差异对初始语义解析模型的参数进行训练，得到源域语义解析模型，并通过自注意力层生成与源域语义解析模型对应的自注意力参数。

在一个可选的实施例中，文本特征向量的形式包括词性嵌入向量以及单词嵌入向量；

单词嵌入向量用于表征源域样本集合中的语段样本的单词语素；

词性嵌入向量用于与单词嵌入向量串联。

在一个可选的实施例中，自注意力参数实现字符序列形式。

在一个可选的实施例中，通过目标域样本集合对源域语义解析模型进行训练，得到语义解析模型，包括：

保留自注意力参数；

通过目标域样本集合对源域语义解析模型进行训练，得到与目标域对应的目标域参数集合；

基于目标域参数集合对源域语义解析模型进行调整，得到语义解析模型。

在一个可选的实施例中，目标域样本集合中包括至少两个目标域语段样本；

通过目标域样本集合对源域语义解析模型进行训练，得到与目标域对应的目标域参数集合，包括：

将目标域语段样本输入源域语义解析模型中，输出得到目标域预测语素识别结果；

结合目标域预测语素识别结果与目标域语段样本对应的样本目标域预测语素识别结果，确定目标域预测语素识别结果与样本目标域预测语素识别结果的差异；

基于目标域预测语素识别结果与样本目标域预测语素识别结果的差异，确定与目标域对应的目标域参数集合，目标域参数集合实现为参数形式。

在一个可选的实施例中，目标域样本集合中的样本数量与源域样本集合中的样本数量比值为1：10。

在一个可选的实施例中，目标域的数量为至少两个。

在一个可选的实施例中，该方法还包括：

基于语义解析结果生成可视化语义解析界面，在可视化语义解析界面中，包括待测语段的语段内容、与语素结果对应的语素分析列表，以及与语素关联关系结果对应的语素关联关系分析列表。

本申请至少包括如下有益效果：

在进行跨领域语义解析的过程当中，首先针对源域，对初始语义解析模型进行训练，以得到适配源域的解析模型，在确定目标域后，通过的结合目标域的样本对于源域解析模型进行再次训练，以得到适配目标域解析的语义解析模型，并通过语义解析模型对于待测语段进行语义解析，最终得到准确的语义解析结果。在进行语义解析的过程当中，针对源域和目标域之间的语义区别，在通过源域对应的样本训练模型后，通过目标域样本对于模型进行微调，在花费较少样本成本的情况下，使得语义解析模型能够对于源域及目标域内的样本进行语义分析以及识别，提高了跨领域语义解析的效率和准确率。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。

图1示出了本申请一个示例性实施例提供的一种基于迁移学习的跨领域语义解析方法的流程示意图。

图2示出了本申请一个示例性实施例提供的另一种基于迁移学习的跨领域语义解析方法的流程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互结合。下面将参考附图并结合实施例来详细说明本发明。

为了使本领域技术人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包括，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1示出了本申请一个示例性实施例提供的一种基于迁移学习的跨领域语义解析方法的流程示意图，以该方法应用于计算机设备中为例进行说明，该方法包括：

步骤101，获取与对应的源域样本集合。

本申请实施例中，计算机设备可以具备数据发送、数据接收以及数据处理功能。可选地，计算机设备能够实现为个人电脑、手提电脑、具有触摸屏的手机等，本申请对于计算机设备的具体形式不做限定。

在本申请实施例中，源域样本集合中包括至少两个语段样本，每个语段样本中包括至少两个语素，语段样本标注有样本语素识别结果以及样本语素关联关系结果；样本语素识别结果用于指示语段样本中包括的语素以及语素内容，样本语素关联关系结果用于指示语素的性质以及关联关系。

在一个示例中，语段样本内可以包括一个主谓宾语齐全的句子，或，语段样本内可以包括一句短句。例如，语段样本实现为“我吃饭”，或，语段样本实现为“好球！”。

本申请实施例中，源域指示一个语言使用领域。例如，源域实现为新闻评论领域，或，源域实现为广播节目领域。本申请对于源域所对应的语言使用领域不做限定。在一个示例中，源域样本集合为基于通用语言数据库提取获得的样本集合。

步骤102，获取初始语义解析模型。

在本申请实施例中，初始语义解析模型为基于机器学习的神经网络模型。可选地，初始语义解析模型配置有初始参数。

步骤103，通过源域样本集合对初始语义解析模型进行训练，得到源域语义解析模型。

该过程为对于初始语义解析模型进行训练的过程，在训练完成后，所得源域语义解析模型将能够对于与源域对应的语段样本进行内容确定以及语义解析，以分析出语段样本中的语素内容、语素性质以及语素之间的关联关系。

步骤104，确定目标域以及与目标域对应的目标域样本集合。

在本申请实施例中，目标域样本集合中包括至少两个语段样本，目标域样本集合中的语段样本指示的内容与目标域相关联，语段样本标注有语素识别结果以及语素关联关系结果。

步骤105，通过目标域样本集合对源域语义解析模型进行训练，得到语义解析模型。

在本申请实施例中，目标域即指示与源域不同的至少一个语言应用领域。例如，当源域指示新闻评论领域时，目标域将可以实现为商品售后领域、知识产权应用领域、产品管理论坛领域。目标域与源域可以存在关联关系，但目标域与源域不一致。

在本申请实施例中，目标域样本集合中的样本数量教育源域样本集合中的样本数量。对应训练后，语义解析模型及具有对于属于目标域的语段样本进行语素解析的功能。

步骤106，将待测语段输入语义解析模型，输出得到语义解析结果。

在本申请实施例中，语义解析结果包括语素结果以及语素关联关系结果，待测语段的语段内容属于至少一个目标域。

在本申请实施例中，语义解析结果实现为可视化的字段形式，在字段中，计算机设备向用户表示待测语段对应的语素分析结果，语素分析结果可以以列表、文字、图表等形式展示语素结果以及语素关联关系结果。本申请对于语义解析结果的可视化实现形式不做限定。

综上所述，本申请实施例提供的方法，在进行跨领域语义解析的过程当中，首先针对源域，对初始语义解析模型进行训练，以得到适配源域的解析模型，在确定目标域后，通过的结合目标域的样本对于源域解析模型进行再次训练，以得到适配目标域解析的语义解析模型，并通过语义解析模型对于待测语段进行语义解析，最终得到准确的语义解析结果。在进行语义解析的过程当中，针对源域和目标域之间的语义区别，在通过源域对应的样本训练模型后，通过目标域样本对于模型进行微调，在花费较少样本成本的情况下，使得语义解析模型能够对于源域及目标域内的样本进行语义分析以及识别，提高了跨领域语义解析的效率和准确率。

图2示出了本申请一个示例性实施例提供的另一种基于迁移学习的跨领域语义解析方法的流程示意图，以该方法应用于计算机设备中为例进行说明，该方法包括：

步骤201，获取与对应的源域样本集合。

该过程与步骤101所示的过程对应，在此不作赘述。

步骤202，获取初始语义解析模型。

在本申请实施例中，初始语义解析模型包括相互连接的文本表示层、自注意力层以及堆栈指针网络层。其中，各层级网络的作用分别为：文本表示层用于将输入的语段内容转换为向量形式进行输出，自注意力层用于生成自注意力参数，且自注意力参数与语段内容当中的语句含义相对应，即自注意力参数与语段样本所对应的语言应用领域相关联。堆栈指针网络层以指针网络为骨干，设置内部栈进行维持头次顺序，以进行语义识别。因此，本申请实施例中，文本表示层为文本特征的提取层，自注意力层为对应参数的生成层，堆栈指针网络层为模型的结果输出层。

针对堆栈指针网络层，其以指针网络为骨干。该模型在树状结构中设置了一个内部栈来维持头词的顺序。该模型首先读取整句话，并将每个单词编码到编码器的隐藏状态中。解码器实现了自顶向下、深度优先的转移***。在每一个时间步，解码器接收栈顶单词的编码器隐藏状态，生成解码器隐藏状态，并确定注意向量，以生成注意力评分函数，对于注意力评分函数，该模型采用了双仿射注意机制。指针网络根据中的最高注意得分值返回一个位置，并生成一个新的依赖弧，然后解析器将压入堆栈。如果解析器将指向自身，则认为已经找到了它的所有孩子。最后，解析器进入下一步。当堆栈中只包含根时，解析过程结束，注意力评分以及双仿射注意参数对应生成。

步骤203，将源域语段样本集合输入初始语义解析模型。

步骤203至步骤207所示的过程即为对于初始语义解析模型进行训练，得到源域语义解析模型的过程。

步骤204，通过文本表示层对源域样本集合中的语段样本进行文本表示分析，输出得到与语段样本对应的文本特征向量。

在本申请实施例中，文本表示层用于生成文本特征向量，在一个示例中，文本特征向量的形式包括词性嵌入向量以及单词嵌入向量；单词嵌入向量用于表征源域样本集合中的语段样本的单词语素；词性嵌入向量用于与单词嵌入向量串联，对于单词语素的词性进行表征。

步骤205，将文本特征向量输入堆栈指针网络层，输出得到与源域样本集合对应的预测语义解析结果。

该过程即为通过堆栈指针网络层，确定作为输出的语义解析结果的过程。在本申请实施例中，与标注的情况对应，预测语义解析结果包括预测语素识别结果以及预测语素关联关系结果。

在本申请实施例中，堆栈指针网络层引入了双仿射注意评分机制，在将文本特征向量输入堆栈指针网络层，输出得到预测语义解析结果，同时还会输出得到双仿射注意评分参数，该双仿射注意评分参数与源域唯一对应。

步骤206，确定预测语素识别结果与样本语素识别结果的差异，并确定预测语素关联关系结果与样本语素关联关系结果的差异。

在本申请实施例中，可选地，初始语义解析模型具备基于损失函数的主动学习功能，在此情况下，其基于识别得到的差异，进行主动学习。

步骤207，基于预测语素识别结果与样本语素识别结果的差异以及预测语素关联关系结果与样本语素关联关系结果的差异对初始语义解析模型的参数进行训练，得到源域语义解析模型，并通过自注意力层生成与源域语义解析模型对应的自注意力参数。

在本申请实施例中，自注意力参数为针对源域的注意力参数，注意力参数以数字序列的形式，作为训练得到的源域语义解析模型的参数的一部分。

在进行模型参数的调整后，基于初始语义解析模型的结构，即可得到源域语义解析模型。

需要说明的是，在本申请实施例中源域语义解析模型专用于解析与源域相对应的语言应用领域当中的语段内容。

步骤208，确定目标域以及与目标域对应的目标域样本集合。

该过程即为进行目标域确定的过程。在一个示例中，目标域样本集合中的样本数量与源域样本集合中的样本数量比值为1：10。也即，在源域语义解析模型训练完成后，目标域样本集合中的样本数量要求较低。

步骤209，将目标域语段样本输入源域语义解析模型中，输出得到目标域预测语素识别结果。

步骤210，结合目标域预测语素识别结果与目标域语段样本对应的样本目标域预测语素识别结果，确定目标域预测语素识别结果与样本目标域预测语素识别结果的差异。

步骤211，基于目标域预测语素识别结果与样本目标域预测语素识别结果的差异，确定与目标域对应的目标域参数集合。

在本申请实施例中，通过步骤209至步骤211所示的过程，以较低的样本量对于源域语义解析模型对应的参数进行进一步调整，以确定目标域参数集合，目标域参数集合即用于生成语义解析模型。

本申请实施例中，目标域参数集合包括双仿射注意评分参数以及自注意力参数。

可选地，目标域的数量为至少两个。在一个示例中，目标域的数量为3个。

步骤212，基于目标域参数集合对源域语义解析模型进行调整，得到语义解析模型。

该过程即为语义解析模型的生成过程。

需要说明的是，在该过程中，基于目标域参数集合对源域语义解析模型进行调整主要为两部分的参数调整，分别为双仿射注意评分的调整，以及自注意力参数的调整。在保留源域语义解析模型其他参数不变的情况下，基于训练结果得到与目标域对应的自注意力参数以及双仿射注意评分后，即可在模型其他参数不变的情况下，仅通过自注意力参数和双仿射注意评分参数对于源域语义解析模型进行调整，以生成语义解析模型。

步骤213，将待测语段输入语义解析模型，输出得到语义解析结果。

该过程即为将对应目标域的待测语段输入语义解析模型中，输出得到语义解析结果的过程。

步骤214，基于语义解析结果生成可视化语义解析界面。

本申请实施例中，在可视化语义解析界面中，包括待测语段的语段内容、与语素结果对应的语素分析列表，以及与语素关联关系结果对应的语素关联关系分析列表。

其中，语素分析列表中包括待测语段中的每个语素的分解情况，以及语素类型标注，语素关联关系分析列表用于指示不同语素之间的相互关系。例如，在一个语素关联分析列表中，将一个语素标注为头词，其余语素从头词开始，与头词发生关联关系。

在本申请实施例中，模型在自注意机制和迁移学习下，能够在三个不同的目标领域提高学习效果。回顾模型体系结构，多头注意可以捕捉不同的特征进行跨域依存关系解析，迁移学习也可以在目标域训练数据有限的情况下有效地改善网络。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种基于迁移学习的跨领域语义解析方法，其特征在于，所述方法应用于计算机设备中，所述方法包括：

获取与对应的源域样本集合，所述源域样本集合中包括至少两个语段样本，每个语段样本中包括至少两个语素，所述语段样本标注有样本语素识别结果以及样本语素关联关系结果，所述样本语素识别结果用于指示所述语段样本中包括的语素以及语素内容，所述样本语素关联关系结果用于指示所述语素的性质以及关联关系，所述源域样本集合为基于通用语言数据库提取获得的语段样本的集合；

获取初始语义解析模型，所述初始语义解析模型配置有初始参数，所述初始语义解析模型为基于机器学习的神经网络模型，所述初始语义解析模型包括文本表示层、自注意力层以及堆栈指针网络层，其中，所述文本表示层为文本特征的提取层，所述自注意力层为参数的生成层，所述堆栈指针网络层为结果输出层；

通过所述源域样本集合对所述初始语义解析模型进行训练，得到源域语义解析模型；

确定目标域以及与所述目标域对应的目标域样本集合，所述目标域样本集合中包括至少两个所述语段样本，所述目标域样本集合中的语段样本指示的内容与所述目标域相关联，所述语段样本标注有所述语素识别结果以及所述语素关联关系结果；

通过所述目标域样本集合对所述源域语义解析模型进行训练，得到语义解析模型；

将待测语段输入所述语义解析模型，输出得到语义解析结果，所述语义解析结果包括语素结果以及语素关联关系结果，所述待测语段的语段内容属于至少一个所述目标域；

其中，

所述通过所述源域样本集合对所述初始语义解析模型进行训练，得到源域语义解析模型，包括：

将所述源域样本集合输入所述初始语义解析模型；

通过所述文本表示层对所述源域样本集合中的语段样本进行文本表示分析，输出得到与所述语段样本对应的文本特征向量；

将所述文本特征向量输入所述堆栈指针网络层，输出得到与所述源域样本集合对应的预测语义解析结果，所述预测语义解析结果包括预测语素识别结果以及预测语素关联关系结果；

确定所述预测语素识别结果与所述样本语素识别结果的差异，并确定所述预测语素关联关系结果与所述样本语素关联关系结果的差异；

基于所述预测语素识别结果与所述样本语素识别结果的差异以及所述预测语素关联关系结果与所述样本语素关联关系结果的差异对所述初始语义解析模型的参数进行训练，得到所述源域语义解析模型，并通过所述自注意力层生成与所述源域语义解析模型对应的自注意力参数；

所述通过所述目标域样本集合对所述源域语义解析模型进行训练，得到语义解析模型，包括：

保留所述自注意力参数；

通过所述目标域样本集合对所述源域语义解析模型进行训练，得到与所述目标域对应的目标域参数集合；

基于所述目标域参数集合对所述源域语义解析模型进行调整，得到所述语义解析模型。

2.根据权利要求1所述的方法，其特征在于，所述文本特征向量的形式包括词性嵌入向量以及单词嵌入向量；

所述单词嵌入向量用于表征所述源域样本集合中的语段样本的单词语素；

所述词性嵌入向量用于与所述单词嵌入向量串联。

3.根据权利要求1所述的方法，其特征在于，所述自注意力参数实现字符序列形式。

4.根据权利要求1所述的方法，其特征在于，所述目标域样本集合中包括至少两个目标域语段样本；

所述通过所述目标域样本集合对所述源域语义解析模型进行训练，得到与所述目标域对应的目标域参数集合，包括：

将所述目标域语段样本输入所述源域语义解析模型中，输出得到目标域预测语素识别结果；

结合所述目标域预测语素识别结果与所述目标域语段样本对应的样本目标域预测语素识别结果，确定所述目标域预测语素识别结果与所述样本目标域预测语素识别结果的差异；

基于所述目标域预测语素识别结果与所述样本目标域预测语素识别结果的差异，确定与所述目标域对应的所述目标域参数集合，所述目标域参数集合实现为参数形式。

5.根据权利要求4所述的方法，其特征在于，所述目标域样本集合中的样本数量与所述源域样本集合中的样本数量比值为1：10。

6.根据权利要求1所述的方法，其特征在于，所述目标域的数量为至少两个。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述语义解析结果生成可视化语义解析界面，在所述可视化语义解析界面中，包括所述待测语段的语段内容、与所述语素结果对应的语素分析列表，以及与所述语素关联关系结果对应的语素关联关系分析列表。