CN116757188A

CN116757188A - 一种基于对齐查询实体对的跨语言信息检索训练方法

Info

Publication number: CN116757188A
Application number: CN202310790028.9A
Authority: CN
Inventors: 刘井平; 宋雨秋; 叶琪; 阮彤
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2023-06-29
Filing date: 2023-06-29
Publication date: 2023-09-15

Abstract

本发明公开了一种基于对齐查询实体对的跨语言信息检索训练方法。本发明包括以下步骤：构建对齐查询实体对和随机采样训练文档集；查询实体和训练文档分别输入多语言预训练语言模型获得向量表示并计算相似度得分和得分分布情况；设计整体损失函数为Hinge Loss和KL散度的加权和，用目标语种查询实体的得分分布去指导源语种查询实体得分分布，根据损失函数和梯度下降优化算法更新多语言预训练语言模型参数。本发明适用于跨语言信息检索任务，为模型在该任务上带来了性能提升，增强了多语言预训练语言模型对于不同语种下相同查询语义的感知能力。

Description

一种基于对齐查询实体对的跨语言信息检索训练方法

技术领域

本发明属于自然语言处理技术领域，具体来说涉及跨语言信息检索领域，更具体地说，本发明提供了一种基于对齐查询实体对的跨语言信息检索训练方法。

背景技术

跨语言信息检索(Cross-Lingual Information Retrieval,CLIR)是一种检索任务，与常规检索任务不同的是候选文档语种不同于查询语种，即输入源语种查询，输出目标语种候选文档的排序结果。

目前跨语言信息检索技术大体上可以分为两类：基于翻译的跨语言信息检索技术和基于多语言预训练语言模型的检索技术。基于翻译的跨语种检索技术可以是将查询翻译为目标语种或文档翻译成查询语种，也可以是将查询和文档翻译成相同的中间语种，之后再进行同语种检索。此类方法解决了早期语种不统一的问题，但是该方法过度依赖于机器翻译***的性能和词典规模，且无法解决词的多义性问题，尤其是不同语种间的词的多义性，严重影响了检索结果的准确性。基于多语种预训练语言模型的方法提供了使用同一模型联合学习多种语种表示的可能性，此类方法将不同的语种在语义上进行统一后再执行信息检索任务。相比基于翻译的方法，基于多语言预训练语言模型的方法可以更好的挖掘语义信息，尤其是传统方法无法捕捉的更深层次的信息，这些信息使得模型有着更好的泛化性能。

然而，基于多语言预训练语言模型的方法存在以下缺点：(1)跨语言信息检索效果次优，多语言预训练语言模型在预训练阶段大多缺少面向跨语言信息检索的预训练任务，大多数多语言预训练语言模型的预训练任务都是在掩码语言模型任务的基础上进行的一系列改进，不包含面向信息检索的预训练任务。(2)对不同语种间的语义对齐知识的感知能力欠佳，mBERT、XLM-R、mT5等在内的一些多语言预训练语言模型甚至没有引入对齐语料，同时由于预训练语料语种不平衡，导致模型性能存在语言偏差。

综上所述，亟需设计一种新的面向跨语言信息检索任务的训练方法来解决上述问题。

发明内容

有鉴于此，本发明提供了一种基于对齐查询实体对的跨语言信息检索训练方法。第一，为解决多语言预训练语言模型因缺乏面向跨语言信息检索的预训练任务而导致模型性能不佳的问题，本发明提出基于语义对齐的查询实体对来设计面向跨语言信息检索的对比学习策略，以优化模型性能。第二，为了帮助模型更好地学习不同语种之间的语义对齐知识，本发明基于Kullback-Leibler divergence Loss用目标语种查询实体的得分分布去指导源语种查询实体的得分分布。第三，为保证检索的效率，本发明将查询实体和候选文档分别输入多语言预训练语言模型，并对候选文档的向量表示进行预存储。

本发明的技术路线实现形式为：获取语义对齐的源语种—目标语种查询实体对，从目标语种候选文档中为每个源语种查询实体随机采样一条正样本和一条负样本构建对比学习训练集；将源语种查询实体、目标语种查询实体、训练文档分别输入多语言预训练语言模型获得各自对应的向量表示，将每个查询实体的向量表示与每个训练文档的向量表示进行点乘计算获得查询实体与训练文档的相似度得分；将Hinge Loss和将Hinge Loss和Kullback-Leibler divergence Loss加权求和作为整体损失函数，计算损失函数值并优化多语言预训练语言模型的参数，从而提升多语言预训练语言模型在跨语言信息检索任务上的效果。

本发明适用于跨语言信息检索任务，具体步骤为：

S1、从跨语言信息检索数据集中提取源语种查询实体形成源语种查询实体集提取目标语种查询实体，形成目标语种查询实体集/>具体地，/>为具有相同语义的对齐查询实体对，针对每个源语种查询实体/>从目标语种候选文档集/>中随机采样一条正样本/>和一条负样本/>形成训练文档集/>n和m为正整数；

S2、将E^s中的实体、E^a中的实体和中的文档分别输入多语言预训练语言模型，输出对应的向量表示；

S3、将源语种查询实体的向量表示与训练文档的向量表示进行点乘计算得到源语种查询实体与训练文档的相似度得分，同时，将目标语种查询实体的向量表示与训练文档的向量表示进行点乘计算得到目标语种查询实体与训练文档的相似度得分，将Hinge Loss和Kullback-Leibler divergence Loss加权求和作为整体损失函数，计算损失函数值并优化多语言预训练语言模型的参数；

S4、在跨语言信息检索时，将所有候选文档分别输入微调后的多语言预训练语言模型，输出所有候选文档的向量表示并进行预存储，将查询实体query输入微调后的多语言预训练语言模型，输出查询实体query的向量表示，将查询实体query的向量表示与预存储的所有候选文档的向量表示做点乘计算，获得查询实体query和预存储的所有候选文档的相似度得分，根据相似度得分进行递减排序，将排名前10的候选文档作为检索结果返回。

进一步地，步骤S1包括：

S11、获取跨语言信息检索数据集，所述跨语言信息检索数据集涉及的语种集为L＝{l₁,l₂,…,l_k}，k为正整数，数据集中语义相同但语种不同的查询实体具有相同的标识序号，每个查询实体与每个候选文档的相关度标签用数字表示，数字越大表示相关度越高，0表示完全不相关；

S12、确定源语种s和目标语种a，满足s,a∈L且s≠a即可形成一组源语种—目标语种对<s,a>；

S13、提取源语种查询实体形成源语种查询实体集根据E^s中每个查询实体的标识序号，提取语义对齐的目标语种查询实体，形成目标语种查询实体集具体地，/>为具有相同语义的对齐查询实体对，1≤i≤n，n为正整数；

S14、根据查询实体与候选文档的相关度标签，将相关度标签为0的定为负样本，相关度标签不为0的定为正样本，随机采样形成

进一步地，步骤S2包括：

S21、确定多语言预训练语言模型，所述多语言预训练语言模型包括输入编码层、N个Transformer编码器以及1个全连接层，N为正整数，所述多语言预训练语言模型的参数为预训练好的参数；

S22、将E^s中的查询实体、E^a中的查询实体和中的训练文档分别输入多语言预训练语言模型，输出对应的向量表示：

其中，为源语种查询实体/>的向量表示，/>为目标语种查询实体/>的向量表示，/>和/>分别为目标语种训练文档/>和/>的向量表示，/>和/>分别为/>对应的正样本和负样本，MPLM表示多语言预训练语言模型的参数，[CLS]和[SEP]是多语言预训练语言模型中的特殊token，将[CLS]对应的向量作为输入的向量表示，1≤i≤n，n为正整数。

进一步地，步骤S3包括：

S31、将源语种查询实体的向量表示与训练文档的所有向量表示依次进行点乘计算得到源语种查询实体与训练文档的相似度得分：

其中，表示源语种查询实体/>与目标语种训练文档/>的相似度得分，表示源语种查询实体/>与目标语种训练文档/>的相似度得分，1≤i,j≤n，若则模型预测结果/>否则/>

S32、将目标语种查询实体的向量表示与训练文档的所有向量表示依次进行点乘计算得到目标语种查询实体与训练文档的相似度得分：

其中，表示目标语种查询实体/>与目标语种训练文档/>的相似度得分，表示目标语种查询实体/>与目标语种训练文档/>的相似度得分，1≤i,j≤n；

S33、对每个的所有/>和/>做Softmax操作获得源语种查询实体的得分分布/>同时，对每个/>的所有/>和/>做Softmax操作获得目标语种查询实体的得分分布/>

S33、设计损失函数：将Hinge Loss和Kullback-Leibler divergence Loss加权求和作为整体损失函数具体形式化表示如下：

其中，为Hinge Loss，/>为模型预测结果，/>为Kullback-Leiblerdivergence Loss，α为/>的权重参数，0<α≤1；

S34、计算损失函数值，根据损失函数进行反向传播，计算参数的梯度，并根据梯度下降优化算法更新多语言预训练语言模型的参数。

采用上述策略后，本发明的积极效果是：

(1)本发明提出了一种基于对齐查询实体对的跨语言信息检索训练方法，利用对齐查询实体对，结合对比学习对多语言预训练语言模型进行优化，模型在跨语言信息检索任务上性能有所提升；

(2)本发明基于Kullback-Leibler divergence Loss用目标语种查询实体的得分分布去指导源语种查询实体的得分分布，增强了多语言预训练语言模型对于不同语种下相同查询语义的感知能力；

(3)本发明将查询实体和候选文档分别输入多语言预训练语言模型，并对候选文档的向量表示进行预存储，相比于将查询实体与文档拼接后输入的做法提升了检索的效率。

附图说明

图1是本发明一种基于对齐查询实体对的跨语言信息检索训练方法的流程示意图

图2是本发明一种基于对齐查询实体对的跨语言信息检索训练方法的原理结构示意图

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，并使本发明的上述目的、技术方案和优点能够更加明显易懂，下面结合实施例及实施例附图对本发明作进一步详细说明。

请参见图1，图1是本发明一种基于对齐查询实体对的跨语言信息检索训练方法的流程示意图，具体步骤包括：

进一步地，步骤S1包括：

进一步地，步骤S2包括：

进一步地，步骤S3包括：

请参见图2，图2是本发明一种基于对齐查询实体对的跨语言信息检索训练方法的原理结构示意图。该方法包括：首先，将源语种查询实体、目标语种查询实体和训练文档集分别输入多语言预训练语言模型，输出各自的向量表示；接着，源语种查询实体的向量表示和训练文档的向量表示进行点乘等操作获得源语种查询实体与训练文档的相似度得分及源语种查询实体的得分分布情况，目标语种查询实体的向量表示和训练文档的向量表示进行点乘等操作获得目标语种查询实体与训练文档的相似度得分及目标语种查询实体的得分分布情况；然后，将Hinge Loss和Kullback-Leibler divergence Loss加权求和作为整体损失函数，用源语种查询实体与其对应的正样本和负样本的相似度得分计算HingeLoss，用源语种查询实体的得分分布和目标语种查询实体的得分分布计算Kullback-Leibler divergence Loss，根据损失函数和梯度下降优化算法更新多语言预训练语言模型的参数。

具体的实施例：

1)数据集

本发明的数据集为开源跨语言信息检索数据集CLIRMatrix中的Multi-8。数据集涉及8个语种，分别为中文、英文、西班牙语、俄语、日语、法语、德语、***语。每个语种与其他7个语种皆能组成源语种—目标语种对。(实施例以源语种为英文，目标语种为中文为例)

2)实验设置

本发明利用PyTorch深度学习框架，多语言预训练语言模型为mBERT，模型由Adam优化算法训练，学习率设置为5e-5，批量大小设置为16，对比的Baseline方法为仅用源语种查询实体和目标语种候选文档数据对mBERT进行微调(记为mBERT-Base)。

3)评测指标

本发明的评测指标主要采用nDCG@1、nDCG@5、nDCG@10(Normalized DiscountedReciprocal Gain)。实验结果如表II所示。从结果得知：本发明性能优于mBERT-Base方法。

表II基于对齐查询实体对的跨语言信息检索训练方法与mBERT-Base方法的比较结果

方法	nDCG@1	nDCG@5	nDCG@10
				mBERT-Base	43.28	57.72	62.33
本发明方法	46.09	58.99	63.94

上文中，参照附图描述了本发明的具体实施方式。但是，本领域中的普通技术人员能够理解，在不偏离本发明的精神和范围的情况下，还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。

Claims

1.一种基于对齐查询实体对的跨语言信息检索训练方法，其特征在于，具体步骤为：

S1、从跨语言信息检索数据集中提取源语种查询实体形成源语种查询实体集提取目标语种查询实体，形成目标语种查询实体集/>具体地，/>为具有相同语义的对齐查询实体对，针对每个源语种查询实体/>从目标语种候选文档集/>中随机采样一条正样本/>和一条负样本/>形成训练文档集/>1≤i≤n，n和m为正整数；

2.根据权利要求1所述的一种基于对齐查询实体对的跨语言信息检索训练方法，其特征在于，所述的步骤S1具体包括：

S13、提取源语种查询实体形成源语种查询实体集根据E^s中每个查询实体的标识序号，提取语义对齐的目标语种查询实体，形成目标语种查询实体集/> 具体地，/>为具有相同语义的对齐查询实体对，1≤i≤n，n为正整数；

3.根据权利要求1所述的一种基于对齐查询实体对的跨语言信息检索训练方法，其特征在于，所述的步骤S2具体包括：

其中，为源语种查询实体/>的向量表示，/>为目标语种查询实体/>的向量表示，和/>分别为目标语种训练文档/>和/>的向量表示，/>和/>分别为/>对应的正样本和负样本，MPLM表示多语言预训练语言模型的参数，[CLS]和[SEP]是多语言预训练语言模型中的特殊token，将[CLS]对应的向量作为输入的向量表示，1≤i≤n，n为正整数。

4.根据权利要求1所述的一种基于对齐查询实体对的跨语言信息检索训练方法，其特征在于，所述的步骤S3具体包括：

其中，表示源语种查询实体/>与目标语种训练文档/>的相似度得分，/>表示源语种查询实体/>与目标语种训练文档/>的相似度得分，1≤i,j≤n，若/> 则模型预测结果/>否则/>

其中，为Hinge Loss，/>为模型预测结果，/>为Kullback-Leibler divergenceLoss，α为/>的权重参数，0<α≤1；