CN116757188A - 一种基于对齐查询实体对的跨语言信息检索训练方法 - Google Patents
一种基于对齐查询实体对的跨语言信息检索训练方法 Download PDFInfo
- Publication number
- CN116757188A CN116757188A CN202310790028.9A CN202310790028A CN116757188A CN 116757188 A CN116757188 A CN 116757188A CN 202310790028 A CN202310790028 A CN 202310790028A CN 116757188 A CN116757188 A CN 116757188A
- Authority
- CN
- China
- Prior art keywords
- language
- training
- query entity
- query
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 129
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000006870 function Effects 0.000 claims abstract description 24
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000013519 translation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013549 information retrieval technique Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于对齐查询实体对的跨语言信息检索训练方法。本发明包括以下步骤:构建对齐查询实体对和随机采样训练文档集;查询实体和训练文档分别输入多语言预训练语言模型获得向量表示并计算相似度得分和得分分布情况;设计整体损失函数为Hinge Loss和KL散度的加权和,用目标语种查询实体的得分分布去指导源语种查询实体得分分布,根据损失函数和梯度下降优化算法更新多语言预训练语言模型参数。本发明适用于跨语言信息检索任务,为模型在该任务上带来了性能提升,增强了多语言预训练语言模型对于不同语种下相同查询语义的感知能力。
Description
技术领域
本发明属于自然语言处理技术领域,具体来说涉及跨语言信息检索领域,更具体地说,本发明提供了一种基于对齐查询实体对的跨语言信息检索训练方法。
背景技术
跨语言信息检索(Cross-Lingual Information Retrieval,CLIR)是一种检索任务,与常规检索任务不同的是候选文档语种不同于查询语种,即输入源语种查询,输出目标语种候选文档的排序结果。
目前跨语言信息检索技术大体上可以分为两类:基于翻译的跨语言信息检索技术和基于多语言预训练语言模型的检索技术。基于翻译的跨语种检索技术可以是将查询翻译为目标语种或文档翻译成查询语种,也可以是将查询和文档翻译成相同的中间语种,之后再进行同语种检索。此类方法解决了早期语种不统一的问题,但是该方法过度依赖于机器翻译***的性能和词典规模,且无法解决词的多义性问题,尤其是不同语种间的词的多义性,严重影响了检索结果的准确性。基于多语种预训练语言模型的方法提供了使用同一模型联合学习多种语种表示的可能性,此类方法将不同的语种在语义上进行统一后再执行信息检索任务。相比基于翻译的方法,基于多语言预训练语言模型的方法可以更好的挖掘语义信息,尤其是传统方法无法捕捉的更深层次的信息,这些信息使得模型有着更好的泛化性能。
然而,基于多语言预训练语言模型的方法存在以下缺点:(1)跨语言信息检索效果次优,多语言预训练语言模型在预训练阶段大多缺少面向跨语言信息检索的预训练任务,大多数多语言预训练语言模型的预训练任务都是在掩码语言模型任务的基础上进行的一系列改进,不包含面向信息检索的预训练任务。(2)对不同语种间的语义对齐知识的感知能力欠佳,mBERT、XLM-R、mT5等在内的一些多语言预训练语言模型甚至没有引入对齐语料,同时由于预训练语料语种不平衡,导致模型性能存在语言偏差。
综上所述,亟需设计一种新的面向跨语言信息检索任务的训练方法来解决上述问题。
发明内容
有鉴于此,本发明提供了一种基于对齐查询实体对的跨语言信息检索训练方法。第一,为解决多语言预训练语言模型因缺乏面向跨语言信息检索的预训练任务而导致模型性能不佳的问题,本发明提出基于语义对齐的查询实体对来设计面向跨语言信息检索的对比学习策略,以优化模型性能。第二,为了帮助模型更好地学习不同语种之间的语义对齐知识,本发明基于Kullback-Leibler divergence Loss用目标语种查询实体的得分分布去指导源语种查询实体的得分分布。第三,为保证检索的效率,本发明将查询实体和候选文档分别输入多语言预训练语言模型,并对候选文档的向量表示进行预存储。
本发明的技术路线实现形式为:获取语义对齐的源语种—目标语种查询实体对,从目标语种候选文档中为每个源语种查询实体随机采样一条正样本和一条负样本构建对比学习训练集;将源语种查询实体、目标语种查询实体、训练文档分别输入多语言预训练语言模型获得各自对应的向量表示,将每个查询实体的向量表示与每个训练文档的向量表示进行点乘计算获得查询实体与训练文档的相似度得分;将Hinge Loss和将Hinge Loss和Kullback-Leibler divergence Loss加权求和作为整体损失函数,计算损失函数值并优化多语言预训练语言模型的参数,从而提升多语言预训练语言模型在跨语言信息检索任务上的效果。
本发明适用于跨语言信息检索任务,具体步骤为:
S1、从跨语言信息检索数据集中提取源语种查询实体形成源语种查询实体集 提取目标语种查询实体,形成目标语种查询实体集/>具体地,/>为具有相同语义的对齐查询实体对,针对每个源语种查询实体/>从目标语种候选文档集/>中随机采样一条正样本/>和一条负样本/>形成训练文档集/>n和m为正整数;
S2、将Es中的实体、Ea中的实体和中的文档分别输入多语言预训练语言模型,输出对应的向量表示;
S3、将源语种查询实体的向量表示与训练文档的向量表示进行点乘计算得到源语种查询实体与训练文档的相似度得分,同时,将目标语种查询实体的向量表示与训练文档的向量表示进行点乘计算得到目标语种查询实体与训练文档的相似度得分,将Hinge Loss和Kullback-Leibler divergence Loss加权求和作为整体损失函数,计算损失函数值并优化多语言预训练语言模型的参数;
S4、在跨语言信息检索时,将所有候选文档分别输入微调后的多语言预训练语言模型,输出所有候选文档的向量表示并进行预存储,将查询实体query输入微调后的多语言预训练语言模型,输出查询实体query的向量表示,将查询实体query的向量表示与预存储的所有候选文档的向量表示做点乘计算,获得查询实体query和预存储的所有候选文档的相似度得分,根据相似度得分进行递减排序,将排名前10的候选文档作为检索结果返回。
进一步地,步骤S1包括:
S11、获取跨语言信息检索数据集,所述跨语言信息检索数据集涉及的语种集为L={l1,l2,…,lk},k为正整数,数据集中语义相同但语种不同的查询实体具有相同的标识序号,每个查询实体与每个候选文档的相关度标签用数字表示,数字越大表示相关度越高,0表示完全不相关;
S12、确定源语种s和目标语种a,满足s,a∈L且s≠a即可形成一组源语种—目标语种对<s,a>;
S13、提取源语种查询实体形成源语种查询实体集根据Es中每个查询实体的标识序号,提取语义对齐的目标语种查询实体,形成目标语种查询实体集 具体地,/>为具有相同语义的对齐查询实体对,1≤i≤n,n为正整数;
S14、根据查询实体与候选文档的相关度标签,将相关度标签为0的定为负样本,相关度标签不为0的定为正样本,随机采样形成
进一步地,步骤S2包括:
S21、确定多语言预训练语言模型,所述多语言预训练语言模型包括输入编码层、N个Transformer编码器以及1个全连接层,N为正整数,所述多语言预训练语言模型的参数为预训练好的参数;
S22、将Es中的查询实体、Ea中的查询实体和中的训练文档分别输入多语言预训练语言模型,输出对应的向量表示:
其中,为源语种查询实体/>的向量表示,/>为目标语种查询实体/>的向量表示,/>和/>分别为目标语种训练文档/>和/>的向量表示,/>和/>分别为/>对应的正样本和负样本,MPLM表示多语言预训练语言模型的参数,[CLS]和[SEP]是多语言预训练语言模型中的特殊token,将[CLS]对应的向量作为输入的向量表示,1≤i≤n,n为正整数。
进一步地,步骤S3包括:
S31、将源语种查询实体的向量表示与训练文档的所有向量表示依次进行点乘计算得到源语种查询实体与训练文档的相似度得分:
其中,表示源语种查询实体/>与目标语种训练文档/>的相似度得分,表示源语种查询实体/>与目标语种训练文档/>的相似度得分,1≤i,j≤n,若 则模型预测结果/>否则/>
S32、将目标语种查询实体的向量表示与训练文档的所有向量表示依次进行点乘计算得到目标语种查询实体与训练文档的相似度得分:
其中,表示目标语种查询实体/>与目标语种训练文档/>的相似度得分,表示目标语种查询实体/>与目标语种训练文档/>的相似度得分,1≤i,j≤n;
S33、对每个的所有/>和/>做Softmax操作获得源语种查询实体的得分分布/>同时,对每个/>的所有/>和/>做Softmax操作获得目标语种查询实体的得分分布/>
S33、设计损失函数:将Hinge Loss和Kullback-Leibler divergence Loss加权求和作为整体损失函数具体形式化表示如下:
其中,为Hinge Loss,/>为模型预测结果,/>为Kullback-Leiblerdivergence Loss,α为/>的权重参数,0<α≤1;
S34、计算损失函数值,根据损失函数进行反向传播,计算参数的梯度,并根据梯度下降优化算法更新多语言预训练语言模型的参数。
采用上述策略后,本发明的积极效果是:
(1)本发明提出了一种基于对齐查询实体对的跨语言信息检索训练方法,利用对齐查询实体对,结合对比学习对多语言预训练语言模型进行优化,模型在跨语言信息检索任务上性能有所提升;
(2)本发明基于Kullback-Leibler divergence Loss用目标语种查询实体的得分分布去指导源语种查询实体的得分分布,增强了多语言预训练语言模型对于不同语种下相同查询语义的感知能力;
(3)本发明将查询实体和候选文档分别输入多语言预训练语言模型,并对候选文档的向量表示进行预存储,相比于将查询实体与文档拼接后输入的做法提升了检索的效率。
附图说明
图1是本发明一种基于对齐查询实体对的跨语言信息检索训练方法的流程示意图
图2是本发明一种基于对齐查询实体对的跨语言信息检索训练方法的原理结构示意图
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,并使本发明的上述目的、技术方案和优点能够更加明显易懂,下面结合实施例及实施例附图对本发明作进一步详细说明。
请参见图1,图1是本发明一种基于对齐查询实体对的跨语言信息检索训练方法的流程示意图,具体步骤包括:
S1、从跨语言信息检索数据集中提取源语种查询实体形成源语种查询实体集 提取目标语种查询实体,形成目标语种查询实体集/>具体地,/>为具有相同语义的对齐查询实体对,针对每个源语种查询实体/>从目标语种候选文档集/>中随机采样一条正样本/>和一条负样本/>形成训练文档集/>n和m为正整数;
S2、将Es中的实体、Ea中的实体和中的文档分别输入多语言预训练语言模型,输出对应的向量表示;
S3、将源语种查询实体的向量表示与训练文档的向量表示进行点乘计算得到源语种查询实体与训练文档的相似度得分,同时,将目标语种查询实体的向量表示与训练文档的向量表示进行点乘计算得到目标语种查询实体与训练文档的相似度得分,将Hinge Loss和Kullback-Leibler divergence Loss加权求和作为整体损失函数,计算损失函数值并优化多语言预训练语言模型的参数;
S4、在跨语言信息检索时,将所有候选文档分别输入微调后的多语言预训练语言模型,输出所有候选文档的向量表示并进行预存储,将查询实体query输入微调后的多语言预训练语言模型,输出查询实体query的向量表示,将查询实体query的向量表示与预存储的所有候选文档的向量表示做点乘计算,获得查询实体query和预存储的所有候选文档的相似度得分,根据相似度得分进行递减排序,将排名前10的候选文档作为检索结果返回。
进一步地,步骤S1包括:
S11、获取跨语言信息检索数据集,所述跨语言信息检索数据集涉及的语种集为L={l1,l2,…,lk},k为正整数,数据集中语义相同但语种不同的查询实体具有相同的标识序号,每个查询实体与每个候选文档的相关度标签用数字表示,数字越大表示相关度越高,0表示完全不相关;
S12、确定源语种s和目标语种a,满足s,a∈L且s≠a即可形成一组源语种—目标语种对<s,a>;
S13、提取源语种查询实体形成源语种查询实体集根据Es中每个查询实体的标识序号,提取语义对齐的目标语种查询实体,形成目标语种查询实体集 具体地,/>为具有相同语义的对齐查询实体对,1≤i≤n,n为正整数;
S14、根据查询实体与候选文档的相关度标签,将相关度标签为0的定为负样本,相关度标签不为0的定为正样本,随机采样形成
进一步地,步骤S2包括:
S21、确定多语言预训练语言模型,所述多语言预训练语言模型包括输入编码层、N个Transformer编码器以及1个全连接层,N为正整数,所述多语言预训练语言模型的参数为预训练好的参数;
S22、将Es中的查询实体、Ea中的查询实体和中的训练文档分别输入多语言预训练语言模型,输出对应的向量表示:
其中,为源语种查询实体/>的向量表示,/>为目标语种查询实体/>的向量表示,/>和/>分别为目标语种训练文档/>和/>的向量表示,/>和/>分别为/>对应的正样本和负样本,MPLM表示多语言预训练语言模型的参数,[CLS]和[SEP]是多语言预训练语言模型中的特殊token,将[CLS]对应的向量作为输入的向量表示,1≤i≤n,n为正整数。
进一步地,步骤S3包括:
S31、将源语种查询实体的向量表示与训练文档的所有向量表示依次进行点乘计算得到源语种查询实体与训练文档的相似度得分:
其中,表示源语种查询实体/>与目标语种训练文档/>的相似度得分,表示源语种查询实体/>与目标语种训练文档/>的相似度得分,1≤i,j≤n,若 则模型预测结果/>否则/>
S32、将目标语种查询实体的向量表示与训练文档的所有向量表示依次进行点乘计算得到目标语种查询实体与训练文档的相似度得分:
其中,表示目标语种查询实体/>与目标语种训练文档/>的相似度得分,表示目标语种查询实体/>与目标语种训练文档/>的相似度得分,1≤i,j≤n;
S33、对每个的所有/>和/>做Softmax操作获得源语种查询实体的得分分布/>同时,对每个/>的所有/>和/>做Softmax操作获得目标语种查询实体的得分分布/>
S33、设计损失函数:将Hinge Loss和Kullback-Leibler divergence Loss加权求和作为整体损失函数具体形式化表示如下:
其中,为Hinge Loss,/>为模型预测结果,/>为Kullback-Leiblerdivergence Loss,α为/>的权重参数,0<α≤1;
S34、计算损失函数值,根据损失函数进行反向传播,计算参数的梯度,并根据梯度下降优化算法更新多语言预训练语言模型的参数。
请参见图2,图2是本发明一种基于对齐查询实体对的跨语言信息检索训练方法的原理结构示意图。该方法包括:首先,将源语种查询实体、目标语种查询实体和训练文档集分别输入多语言预训练语言模型,输出各自的向量表示;接着,源语种查询实体的向量表示和训练文档的向量表示进行点乘等操作获得源语种查询实体与训练文档的相似度得分及源语种查询实体的得分分布情况,目标语种查询实体的向量表示和训练文档的向量表示进行点乘等操作获得目标语种查询实体与训练文档的相似度得分及目标语种查询实体的得分分布情况;然后,将Hinge Loss和Kullback-Leibler divergence Loss加权求和作为整体损失函数,用源语种查询实体与其对应的正样本和负样本的相似度得分计算HingeLoss,用源语种查询实体的得分分布和目标语种查询实体的得分分布计算Kullback-Leibler divergence Loss,根据损失函数和梯度下降优化算法更新多语言预训练语言模型的参数。
具体的实施例:
1)数据集
本发明的数据集为开源跨语言信息检索数据集CLIRMatrix中的Multi-8。数据集涉及8个语种,分别为中文、英文、西班牙语、俄语、日语、法语、德语、***语。每个语种与其他7个语种皆能组成源语种—目标语种对。(实施例以源语种为英文,目标语种为中文为例)
2)实验设置
本发明利用PyTorch深度学习框架,多语言预训练语言模型为mBERT,模型由Adam优化算法训练,学习率设置为5e-5,批量大小设置为16,对比的Baseline方法为仅用源语种查询实体和目标语种候选文档数据对mBERT进行微调(记为mBERT-Base)。
3)评测指标
本发明的评测指标主要采用nDCG@1、nDCG@5、nDCG@10(Normalized DiscountedReciprocal Gain)。实验结果如表II所示。从结果得知:本发明性能优于mBERT-Base方法。
表II基于对齐查询实体对的跨语言信息检索训练方法与mBERT-Base方法的比较结果
方法 | nDCG@1 | nDCG@5 | nDCG@10 |
mBERT-Base | 43.28 | 57.72 | 62.33 |
本发明方法 | 46.09 | 58.99 | 63.94 |
上文中,参照附图描述了本发明的具体实施方式。但是,本领域中的普通技术人员能够理解,在不偏离本发明的精神和范围的情况下,还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。
Claims (4)
1.一种基于对齐查询实体对的跨语言信息检索训练方法,其特征在于,具体步骤为:
S1、从跨语言信息检索数据集中提取源语种查询实体形成源语种查询实体集 提取目标语种查询实体,形成目标语种查询实体集/>具体地,/>为具有相同语义的对齐查询实体对,针对每个源语种查询实体/>从目标语种候选文档集/>中随机采样一条正样本/>和一条负样本/>形成训练文档集/>1≤i≤n,n和m为正整数;
S2、将Es中的实体、Ea中的实体和中的文档分别输入多语言预训练语言模型,输出对应的向量表示;
S3、将源语种查询实体的向量表示与训练文档的向量表示进行点乘计算得到源语种查询实体与训练文档的相似度得分,同时,将目标语种查询实体的向量表示与训练文档的向量表示进行点乘计算得到目标语种查询实体与训练文档的相似度得分,将Hinge Loss和Kullback-Leibler divergence Loss加权求和作为整体损失函数,计算损失函数值并优化多语言预训练语言模型的参数;
S4、在跨语言信息检索时,将所有候选文档分别输入微调后的多语言预训练语言模型,输出所有候选文档的向量表示并进行预存储,将查询实体query输入微调后的多语言预训练语言模型,输出查询实体query的向量表示,将查询实体query的向量表示与预存储的所有候选文档的向量表示做点乘计算,获得查询实体query和预存储的所有候选文档的相似度得分,根据相似度得分进行递减排序,将排名前10的候选文档作为检索结果返回。
2.根据权利要求1所述的一种基于对齐查询实体对的跨语言信息检索训练方法,其特征在于,所述的步骤S1具体包括:
S11、获取跨语言信息检索数据集,所述跨语言信息检索数据集涉及的语种集为L={l1,l2,…,lk},k为正整数,数据集中语义相同但语种不同的查询实体具有相同的标识序号,每个查询实体与每个候选文档的相关度标签用数字表示,数字越大表示相关度越高,0表示完全不相关;
S12、确定源语种s和目标语种a,满足s,a∈L且s≠a即可形成一组源语种—目标语种对<s,a>;
S13、提取源语种查询实体形成源语种查询实体集根据Es中每个查询实体的标识序号,提取语义对齐的目标语种查询实体,形成目标语种查询实体集/> 具体地,/>为具有相同语义的对齐查询实体对,1≤i≤n,n为正整数;
S14、根据查询实体与候选文档的相关度标签,将相关度标签为0的定为负样本,相关度标签不为0的定为正样本,随机采样形成
3.根据权利要求1所述的一种基于对齐查询实体对的跨语言信息检索训练方法,其特征在于,所述的步骤S2具体包括:
S21、确定多语言预训练语言模型,所述多语言预训练语言模型包括输入编码层、N个Transformer编码器以及1个全连接层,N为正整数,所述多语言预训练语言模型的参数为预训练好的参数;
S22、将Es中的查询实体、Ea中的查询实体和中的训练文档分别输入多语言预训练语言模型,输出对应的向量表示:
其中,为源语种查询实体/>的向量表示,/>为目标语种查询实体/>的向量表示,和/>分别为目标语种训练文档/>和/>的向量表示,/>和/>分别为/>对应的正样本和负样本,MPLM表示多语言预训练语言模型的参数,[CLS]和[SEP]是多语言预训练语言模型中的特殊token,将[CLS]对应的向量作为输入的向量表示,1≤i≤n,n为正整数。
4.根据权利要求1所述的一种基于对齐查询实体对的跨语言信息检索训练方法,其特征在于,所述的步骤S3具体包括:
S31、将源语种查询实体的向量表示与训练文档的所有向量表示依次进行点乘计算得到源语种查询实体与训练文档的相似度得分:
其中,表示源语种查询实体/>与目标语种训练文档/>的相似度得分,/>表示源语种查询实体/>与目标语种训练文档/>的相似度得分,1≤i,j≤n,若/> 则模型预测结果/>否则/>
S32、将目标语种查询实体的向量表示与训练文档的所有向量表示依次进行点乘计算得到目标语种查询实体与训练文档的相似度得分:
其中,表示目标语种查询实体/>与目标语种训练文档/>的相似度得分,表示目标语种查询实体/>与目标语种训练文档/>的相似度得分,1≤i,j≤n;
S33、对每个的所有/>和/>做Softmax操作获得源语种查询实体的得分分布/>同时,对每个/>的所有/>和/>做Softmax操作获得目标语种查询实体的得分分布/>
S33、设计损失函数:将Hinge Loss和Kullback-Leibler divergence Loss加权求和作为整体损失函数具体形式化表示如下:
其中,为Hinge Loss,/>为模型预测结果,/>为Kullback-Leibler divergenceLoss,α为/>的权重参数,0<α≤1;
S34、计算损失函数值,根据损失函数进行反向传播,计算参数的梯度,并根据梯度下降优化算法更新多语言预训练语言模型的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310790028.9A CN116757188A (zh) | 2023-06-29 | 2023-06-29 | 一种基于对齐查询实体对的跨语言信息检索训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310790028.9A CN116757188A (zh) | 2023-06-29 | 2023-06-29 | 一种基于对齐查询实体对的跨语言信息检索训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116757188A true CN116757188A (zh) | 2023-09-15 |
Family
ID=87958814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310790028.9A Pending CN116757188A (zh) | 2023-06-29 | 2023-06-29 | 一种基于对齐查询实体对的跨语言信息检索训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116757188A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076614A (zh) * | 2023-10-13 | 2023-11-17 | 中山大学深圳研究院 | 基于迁移学习的跨语种文本检索方法及终端设备 |
-
2023
- 2023-06-29 CN CN202310790028.9A patent/CN116757188A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076614A (zh) * | 2023-10-13 | 2023-11-17 | 中山大学深圳研究院 | 基于迁移学习的跨语种文本检索方法及终端设备 |
CN117076614B (zh) * | 2023-10-13 | 2024-02-02 | 中山大学深圳研究院 | 基于迁移学习的跨语种文本检索方法及终端设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442760B (zh) | 一种问答检索***的同义词挖掘方法及装置 | |
CN109344236B (zh) | 一种基于多种特征的问题相似度计算方法 | |
US8069027B2 (en) | Word alignment apparatus, method, and program product, and example sentence bilingual dictionary | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN113761890B (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN112257453A (zh) | 融合关键词和语义特征的汉越文本相似度计算方法 | |
CN109271524B (zh) | 知识库问答***中的实体链接方法 | |
CN109614493B (zh) | 一种基于监督词向量的文本缩写识别方法及*** | |
CN110909116B (zh) | 一种面向社交媒体的实体集合扩展方法及*** | |
US20220114340A1 (en) | System and method for an automatic search and comparison tool | |
CN112860898B (zh) | 一种短文本框聚类方法、***、设备及存储介质 | |
Bojkovský et al. | STUFIIT at SemEval-2019 task 5: Multilingual hate speech detection on Twitter with MUSE and ELMo embeddings | |
CN112214989A (zh) | 一种基于bert的汉语句子简化方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN114064901B (zh) | 一种基于知识图谱词义消歧的书评文本分类方法 | |
CN116757188A (zh) | 一种基于对齐查询实体对的跨语言信息检索训练方法 | |
Mahmoodvand et al. | Semi-supervised approach for Persian word sense disambiguation | |
Hao et al. | SCESS: a WFSA-based automated simplified chinese essay scoring system with incremental latent semantic analysis | |
CN114970523B (zh) | 一种基于文本语义增强的主题提示式关键词提取方法 | |
US20230055769A1 (en) | Specificity ranking of text elements and applications thereof | |
Alwaneen et al. | Stacked dynamic memory-coattention network for answering why-questions in Arabic | |
CN112000782A (zh) | 一种基于k-means聚类算法的智能客服问答*** | |
CN111581326A (zh) | 一种基于异构外部知识源图结构抽取答案信息的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |