CN115168537B

CN115168537B - 语义检索模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN115168537B
Application number: CN202210769033.7A
Authority: CN
Inventors: 曲瑛琪; 王海峰; �田�浩; 吴华; 吴甜; 刘璟; 丁宇辰; 邢毅然
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2023-06-27
Anticipated expiration: 2042-06-30
Also published as: JP2024006944A; CN115168537A

Abstract

本公开提供了一种语义检索模型的训练方法、装置、电子设备及存储介质，涉及机器学习与自然语言处理等人工智能技术领域。具体实现方案为：获取至少两个原始语义检索模型中各原始语义检索模型对应的目标查询语句类型，原始语义检索模型对应的目标查询语句类型为原始语义检索模型处理各种类型的查询语句中、准确性最高的查询语句类型；基于至少两个原始语义检索模型、各原始语义检索模型对应的目标查询语句类型和预先建立的语料库，获取蒸馏数据集；基于蒸馏数据集，对目标语义检索模型进行训练。本公开的技术，能够使得训练的目标语义检索模型能够融合至少两个原始语义检索模型的检索能力，克服单一语义检索模型的缺陷，提高语义检索的准确性。

Description

语义检索模型的训练方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，具体涉及机器学习与自然语言处理等人工智能技术领域，尤其涉及一种语义检索模型的训练方法、装置、电子设备及存储介质。

背景技术

信息时代，人们希望从海量的书本、网页、文档中快速地找到自己需要的信息。从大规模的数据中召回候选项，辅以对召回的数据进行置信度打分的重排序，已经成为当前信息检索的主流模式。

其中，在检索任务的召回阶段，通常有两种不同的方式：基于稀疏向量的检索和基于稠密向量的检索。其中，基于稀疏向量的检索方式，将查询语句query和候选语料编码成稀疏的向量，该向量的维度通常为词典大小。该方式主要依靠字面匹配程度来进行相似度计算。常见的算法包括BM25等，基于稀疏向量的检索对应的语义检索模型是不可学习的。这种方式迁移能力强，不受限于特定领域。基于稠密向量的检索方式，通过对应的语义检索模型将查询语句query和候选语料分别编码成语义空间中的两个向量，并基于向量进行相似度计算，以召回相关的结果。该方式中，需要通过训练数据来对语义检索模型进行训练，能够利用语义信息进行匹配程度的判断，但是迁移能力较差。

发明内容

本公开提供了一种语义检索模型的训练方法、装置、电子设备及存储介质。

根据本公开的一方面，提供了一种语义检索模型的训练方法，包括：

获取至少两个原始语义检索模型中各所述原始语义检索模型对应的目标查询语句类型，所述原始语义检索模型对应的目标查询语句类型为所述原始语义检索模型处理各种类型的查询语句中、准确性最高的查询语句类型；

基于至少两个原始语义检索模型、各所述原始语义检索模型对应的目标查询语句类型和预先建立的语料库，获取蒸馏数据集；

基于蒸馏数据集，对目标语义检索模型进行训练。

根据本公开的另一方面，提供了一种语义检索模型的训练装置，包括：

类型获取模块，用于获取至少两个原始语义检索模型中各所述原始语义检索模型对应的目标查询语句类型，所述原始语义检索模型对应的目标查询语句类型为所述原始语义检索模型处理各种类型的查询语句中、准确性最高的查询语句类型；

数据获取模块，用于基于至少两个原始语义检索模型和预先建立的语料库，获取蒸馏数据集；

训练模块，用于基于蒸馏数据集，对目标语义检索模型进行训练。

根据本公开的再一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。

根据本公开的再另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。

根据本公开的技术，能够使得训练的目标语义检索模型能够融合至少两个原始语义检索模型的检索能力，克服单一语义检索模型的缺陷，提高语义检索的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是本实施例的语义检索模型的训练方法的架构图；

图5是根据本公开第四实施例的示意图；

图6是根据本公开第五实施例的示意图；

图7是用来实现本公开实施例的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

需要说明的是，本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(TabletComputer)等智能设备；显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

现有技术中，基于稀疏向量的检索方式和基于稠密向量的检索方式，通常单独使用，但是基于稀疏向量的检索方式只能建模字面匹配，缺乏对内容的语义理解，效果较差；而单独使用稠密向量的检索方式，会缺失一些字面匹配的信息。总之，单独使用上述任一种检索方式，均会导致语义检索的准确性欠佳。

图1是根据本公开第一实施例的示意图；如图1所示，本实施例提供一种语义检索模型的训练方法，具体可以包括如下步骤：

S101、获取至少两个原始语义检索模型中各原始语义检索模型对应的目标查询语句类型；

其中原始语义检索模型对应的目标查询语句类型为该原始语义检索模型处理各种类型的查询语句中、准确性最高的查询语句类型。

S102、基于至少两个原始语义检索模型、各原始语义检索模型对应的目标查询语句类型和预先建立的语料库，获取蒸馏数据集；

S103、基于蒸馏数据集，对目标语义检索模型进行训练。

本实施例的语义检索模型的训练方法的执行主体可以为语义检索模型的训练装置，该装置可以为电子实体；或者也可以为采用软件集成的应用，使用时，运行在计算机设备之上，实现对语义检索模型的训练。

本实施例的至少两个语义检索模型可以包括基于稀疏向量的语义检索模型和基于稠密向量的语义检索模型。其中基于稀疏向量的语义检索模型，可以基于词典编码查询语句query和/或候选语料等任一语料的字面上的语义向量。而基于稠密向量的语义检索模型，是基于预先训练的神经网络模型实现编码查询语句query和候选语料的语义层面上的语义向量。例如，本实施例的基于稠密向量的语义检索模型可以基于RocketQAv2、ColBERT、Phrase-BERT、或者COIL模型等等实现。

也就是说，本实施例的至少两个原始语义检索模型可以包括BM25模型、RocketQAv2、ColBERT、Phrase-BERT、以及COIL模型等中的至少两个。且，本实施例中使用的原始语义检索模型均为已知的、或者已经训练好的。

由于各原始语义检索模型处理不同类型的查询语句，相应的准确性也不同。对于擅长处理的查询语句类型，原始语义检索模型在处理时准确性较高；而对于不擅长处理的查询语句的类型，原始语义检索模型在处理时的准确性较低。基于此，本实施例中，在选取各原始语义检索模型对应的目标查询语句类型时，可以基于各原始语义检索模型对各种查询语句类型对应的查询语句处理的准确性，来获取对应的目标查询语句类型。例如，可以选择准确性最高的查询语句类型作为目标查询语句类型。可选地，本实施例中，可以根据实际需求，获取各原始语义检索模型对应的一种、两者或者多种目标查询语句类型。例如，若仅获取一种目标查询语句类型时，可选择的目标查询语句语料太不丰富，可以再多获取一些目标查询语句类型。也可以理解为，目标查询语句类型为原始语义检索模型擅长处理的查询语句的类型，这样，基于目标查询语句类型，获取蒸馏数据时，更能够体现对应的原始语义检索模型的特性，进而，基于这样的蒸馏数据，训练目标语义模型时，可以使得目标语义检索模型，学习到原始语义检索模型的特性。

本实施例的目标查询语句类型可以为寻址类、寻找答案类或者寻找资源类。或者实际应用中，也可以按照领域或者场景等划分查询语句类型，进而获取到相应的目标查询语句类型。

本实施例中，可以基于至少两个原始语义检索模型、各原始语义检索模型对应的目标查询语句类型和预先建立的语料库，获取蒸馏数据集；由于该蒸馏数据集是基于至少两个原始语义检索模型筛选出来的，能够兼容各原始语义检索模型的特性。进而基于蒸馏数据集，对目标语义检索模型进行训练，可以使得目标语义检索模型可以融合各个原始语义检索模型的特性，克服单一的语义检索模型的不准确的缺陷，更加准确地进行语义检索，提高召回结果的准确性。

本实施例的语义检索模型的训练方法，通过基于至少两个原始语义检索模型和预先建立的语料库，获取蒸馏数据集；并进一步基于蒸馏数据集，对目标语义检索模型进行训练，能够使得训练的目标语义检索模型能够融合至少两个原始语义检索模型的检索能力，克服单一语义检索模型的缺陷，提高语义检索的准确性。

图2是根据本公开第二实施例的示意图。本实施例的语义检索模型的训练方法，在上述图1所示实施例的技术方案的基础上，进一步更加详细地描述本公开的技术方案。如图2所示，本实施例的语义检索模型的训练方法，具体可以包括如下步骤：

S201、获取至少两个原始语义检索模型中各原始语义检索模型对应的目标查询语句类型；

S202、基于各原始语义检索模型对应的目标查询语句类型，获取各原始语义检索模型对应的目标查询语句；

S203、基于各原始语义检索模型和各原始语义检索模型对应的目标查询语句，从语料库中召回预设数量的召回语料；

S204、基于各原始语义检索模型对应的目标查询语句以及对应召回的预设数量的召回语料，生成蒸馏数据集；

为了使得生成的蒸馏数据集中蒸馏数据能够更加准确地反应出各原始语义检索模型的特性，本实施例中，尽量选取各原始语义检索模型擅长数量的查询语句作为目标查询query进行语料召回。基于各语义检索模型的目标查询query和以及召回相应的召回语料，便能够体现对应语义检索模型的检索能力和检索特性。因此，本实施例中，基于各原始语义检索模型对应的目标查询语句以及召回的预设数量的召回语料，生成蒸馏数据集。

本实施例中，步骤S201获取各原始语义检索模型对应的目标查询语句类型，具体实现时，可以包括如下任一方式：

第一种方式、基于预先建立的各种类型查询语句对应的测试集，获取各原始语义检索模型对应的目标查询语句类型；

在第一种方式中，可以基于不同类型的查询语句预先建立对应的测试集。例如，不同类型的查询语句可以包括寻址类、寻找答案类或者寻找资源类。或者也可以按照领域或者场景划分查询语句的类型。

在该方式中，可以采用各种类型的查询语句对应的测试集，检测各原始语义检索模型的准确率。若准确率大于预设准确率阈值，如90％、95％或者其他比例值，则可以将该查询语句类型作为该原始语义检索模型对应的目标查询语句类型。或者也可以将各种查询语句类型按照准确性由高到低的顺序排序，获取准确性最高的目标查询语句类型。本实施例中，每种原始语义检索模型对应的目标查询语句类型可以包括一种、两种或者多种，在此不做限定。

第二种方式、基于各原始语义检索模型的属性，获取各原始语义检索模型对应的目标查询语句类型。

在该实现方式中，可以预先定义有个原始语义检索模型的属性。具体地，原始语义检索模型的属性可以基于训练该模型时的训练集的类型、领域或者场景来配置，该属性可以标识该原始语义检索模型在训练时使用的训练数据的类型、领域或者场景，则表示该原始语义检索模型擅长处理该类型、领域或者场景的查询语句，相对于处理其他类型的查询语句，处理该类型、领域或者场景的查询语句的准确性最高。其中训练集的类型也可以包括寻址类、寻找答案类或者寻找资源类。基于此，可以将原始语义检索模型的属性，作为原始语义检索模型对应的目标查询语句类型。

本实施例中，无论采用上述哪种方式，均可以准确地获取到各原始语义检索模型对应的目标查询语句类型。

接下来，基于各原始语义检索模型对应的目标查询语句类型，获取各原始语义检索模型对应的目标查询语句。例如，可以基于用户的历史行为数据，收集各种类型的查询语句，并存储在以查询语句语料库中。使用时，基于目标查询语句类型，从查询语句语料库中获取对应的任一查询语句，作为目标查询语句即可。或者也可以采用其他方式获取目标查询语句。例如，直接基于目标查询语句类型，从用户的日志中获取对应类型的任一查询语句，作为目标查询语句。

本实施例中，在生成蒸馏数据集时，根据所需要生成的蒸馏数据集的规模大小，可以按照上述方式，重复进行上述步骤S202和步骤S203，获取每个原始语义检索模型对应的每个目标查询语句、以及针对每个目标查询语句从语料库中召回的预设数量的召回语料。也就是说，针对于一个目标查询语句，一个原始语义检索模型，可以从语料库中召回预设数量的召回语料。本实施例中的预设数量，可以根据实际需求来设置。例如可以为100条、80条、50条、20条或者其他条召回语料。

本实施例中，可以将各原始语义检索模型对应的目标查询语句以及召回的预设数量的召回语料，直接作为蒸馏数据，加入蒸馏数据集。由于召回语料都是基于原始语义检索模型根据目标查询语句获取的，所以在蒸馏数据集中是作为正样本的蒸馏数据，所以，还需要配置目标查询语句和召回语料的相关度为1，以标识该条蒸馏数据为正样本，可以表示查询该目标查询语句时，该召回语料被召回的概率为1。

相反，在构建蒸馏数据集中的负样本的蒸馏数据时，可以参考原始语义检索模型对应的目标查询语句以及召回的预设数量的召回语料，构建一个不可能召回的负样本语料，并配置目标查询语句和该负样本语料的相关度为0，以标识该条蒸馏数据为负样本，可以表示查询该目标查询语句时，该负样本语料被召回的概率为0。

步骤S201-S204为上述图1所示实施例的步骤S101的一种实现方式。

S205、基于蒸馏数据集，对目标语义检索模型进行训练。

本实施例的语义检索模型的训练方法，通过获取各原始语义检索模型对应的目标查询语句以及对应召回的预设数量的召回语料，生成蒸馏数据集，并进一步基于蒸馏数据集，对目标语义检索模型进行训练。由于获取的各原始语义检索模型对应的目标查询语句以及对应召回的预设数量的召回语料，能够充分体现各原始语义检索模型的能力和性能，所以可以使得生成的蒸馏数据集能够携带各原始语义检索模型的特性，进而基于蒸馏数据集，对目标语义检索模型进行训练时，可以使得训练的目标语义检索模型能够融合至少两个原始语义检索模型的检索能力，克服单一的语义检索模型的缺陷，有效地提高语义检索的准确性。

图3是根据本公开第三实施例的示意图。本实施例的语义检索模型的训练方法，在上述图1所示实施例的技术方案的基础上，进一步更加详细地描述本公开的技术方案。如图3所示，本实施例的语义检索模型的训练方法，具体可以包括如下步骤：

S301、基于预先建立的各种类型查询语句对应的测试集，获取至少两个原始语义检索模型中各原始语义检索模型对应的目标查询语句类型；

具体实现方式可以参考上述图2所示实施例的相关记载，在此不再赘述。

S302、基于各原始语义检索模型对应的目标查询语句类型，获取各原始语义检索模型对应的目标查询语句；

S303、基于各原始语义检索模型和各原始语义检索模型对应的目标查询语句，从语料库中召回预设数量的召回语料；

S304、采用预先训练的精排模型，对各原始语义检索模型对应的目标查询语句以及召回的预设数量的召回语料进行筛选，生成蒸馏数据集；

步骤S301-S304为上述图1所示实施例的步骤S101的一种实现方式。

与上述图2所示实施例不同的是，本实施例中，在筛选生成蒸馏数据集的时候，还采用精排模型，对各原始语义检索模型对应的目标查询语句以及召回的预设数量的召回语料进行筛选，生成蒸馏数据集。例如，图4是本实施例的语义检索模型的训练方法的架构图。对应地，图2所示实施例的架构图，可以为图4中去掉精排模型对召回结果的筛选。

本实施例的采用神经网络结构的原始语义检索模型以及目标语义检索模型均可以采用双塔结构的模型，实现对查询语句query和候选语料的分别编码，进而基于编码结果，计算两者的向量相似度。本实施例的精排模型，可以采用标注数据进行预先训练而得。精排模型能够建模查询语句query和候选语料之间的交互信息，能力比相应的双塔结构的模型更强。因此，使用精排模型对各个原始语义检索模型的召回结果进行筛选和过滤，能够有效地提升蒸馏数据集中的蒸馏数据的质量。

在本公开的一个实施例中，步骤S304采用预先训练的精排模型，对各原始语义检索模型对应的目标查询语句以及召回的预设数量的召回语料进行筛选，生成蒸馏数据集，具体可以包括如下步骤：

(a1)基于精排模型、各原始语义检索模型对应的目标查询语句以及召回的预设数量的召回语料，筛选正样本数据；

(b1)基于精排模型、各原始语义检索模型对应的目标查询语句以及召回的预设数量的召回语料，筛选负样本数据；

(c1)将正样本数据和负样本数据，存入蒸馏数据集中。

例如，本实施例中，可以基于精排模型，分别筛选正样本数据和负样本数据，作为蒸馏数据，共同构成蒸馏数据集。具体地，蒸馏数据集中正样本数据和负样本数据的比例可以根据实际需求来设置，例如可以为1:1、也可以为1:2、1:3、1:4，或者还可以为其他比例，在此不做限定，根据所需样本的数量，筛选对应的样本数据即可。

本实施例中，生成蒸馏数据集时，融合样本的方或者蒸馏数据中也可以不标识正样本数据和负样本数据，例如每条蒸馏数据中可以包括一条查询语句、至少两条召回语料以及至少两条召回语料与该查询语句的相关度排序。该形式的蒸馏数据也可以为软标签数据，通过该形式的蒸馏数据训练目标语义检索模型，可以使得目标语义检索模型学习不同召回语料与同一查询语句的相关度的打分排序。本实施例中，步骤S304采用预先训练的精排模型，对各原始语义检索模型对应的目标查询语句以及召回的预设数量的召回语料进行筛选，生成蒸馏数据集，可以具有如下三种情况：

第一种情况、直接合并；

该种情况中，需要基于每个原始语义检索模型，按照上述方式获取正样本数据和负样本数据；然后将至少两个原始语义检索模型中每个原始语义检索模型产生的正样本数据和负样本数据，直接合并后，得到最终的蒸馏数据集。也就是说，该种情况得到的蒸馏数据集中充分包括有每个原始语义检索模型蒸馏出来的正样本数据和负样本数据。

例如，对应地，此种情况下步骤(a1)可以包括如下步骤：

(a2)对于各原始语义检索模型对应的目标查询语句，采用精排模型计算目标查询语句和对应召回的预设数量的召回语料各召回语料的相关度分值；

(b2)从预设数量的召回语料的前N条中删除相关度分值小于预设阈值的召回语料；其中N为大于1的正整数；

(c2)基于目标查询语句和预设数量的召回语料中的前N条剩下的各召回语料，构建正样本数据。

例如，此时构建的正样本数据中可以包括目标查询语句、预设数量的召回语料中的前N条中相关度分值大于或者等于预设阈值的召回语料。由于该样本要作为正样本，训练目标语义检索模型，所以此时可以重新配置正样本数据的相关度分值的标签为1，使得目标语义检索模型能够学习到基于该目标查询语句，能够召回对应正样本数据中的召回语料的能力。

例如，对应地，此种情况下步骤(b1)可以包括如下步骤：

(a3)对于各原始语义检索模型对应的目标查询语句，从预设数量的召回语料中的第N+1条之后的召回语料中，选择相关度分值小于预设阈值的召回语料；N为大于1的正整数；

(b3)基于目标查询语句和从预设数量的召回语料中的第N+1条之后的召回语料中选择的相关度分值小于预设阈值的召回语料，构建负样本数据。

同理，此时构建的负样本数据中可以包括目标查询语句、预设数量的召回语料中的第N+1条之后的召回语料中相关度分值小于预设阈值的召回语料。由于该样本要作为负样本，训练目标语义检索模型，所以此时可以重新配置负样本数据的相关度分值的标签为0，使得目标语义检索模型能够学习到基于该目标查询语句，不召回对应负样本数据中的召回语料的能力。

例如，以预设数量为100条时，N取20为例。对于每个原始语义检索模型针对任一目标查询语句召回的前100条召回语料，可以取前20条中相关度分值小于预设阈值的召回语料，以提高正样本的质量。而负样本数据，可以从第20条到第100条中取相关度分值小于预设阈值的召回语料来构建。该预设阈值可以根据经验来设置，如0.1、0.2或者其他数值。采用该方式，可以有效地提高蒸馏数据集中蒸馏数据的质量。

第二种情况、交叉合并；

在该种情况中，可以取每个原始语义检索模型的产生的正样本数据，存储蒸馏数据集。而负样本数据可以从至少两个原始语义检索模型的全部的召回结果中筛选。也就是说，这种情况得到的蒸馏数据集中充分包括有每个原始语义检索模型蒸馏出来的正样本数据，但是负样本数据可能仅是部分原始语义检索模型蒸馏出来的。

例如，此时对应地，步骤(b1)基于精排模型、各原始语义检索模型对应的目标查询语句以及召回的预设数量的召回语料，筛选负样本数据，具体可以包括如下步骤：

(a4)对于各原始语义检索模型对应的目标查询语句，采用精排模型计算对应的目标查询语句和对应召回的预设数量的召回语料中各召回语料的相关度分值；

(b4)根据各目标查询语句和各召回语料的相关度分值，从至少两个原始语义检索模型的所有召回语料中，按照预设的方式，筛选负样本数据。

例如，可以按照相关度分值由小到大的顺序，筛选所需数量的负样本数据。或者也可以直接取相关度分值小于预设阈值的所有召回语料。或者还可以按照其他方式筛选负样本数据，在此不做限定。按照此方式，可以参考至少两个原始语义检索模型的所有召回语料，选择质量更高的负样本数据，进而提高蒸馏数据集的质量。

第三种情况、软标签数据合并；

在该种情况下，不同于上述前两种情况，至少两个原始语义检索模型中各原始语义检索模型对应的目标查询语句和对应召回的预设数量的召回语料，不区分正负样本，直接保留原始语义检索模型的原打分或排序结果，并进行合并。此时采用蒸馏数据集训练目标语义检索模型时，训练目标语义检索模型学习原始语义检索模型对不同样本数据的打分高低，或者排序顺序。

实际应用中，可以根据需求选择上述三种情况中的任一情况，生成蒸馏数据集。无论采用哪种方式，均能够获取到准确、合理、有效地蒸馏数据集。

本实施例中，通过上述方式，在生成蒸馏数据集时，尽量采用各原始语义检索模型擅长处理的目标查询语句类型，生成相关类型的蒸馏数据，以最大可能的利用各原始语义检索模型的优势，生成具有优势的蒸馏数据。例如，RocketQAv2模型可能对于问题类query的表现更好，就可以在这一步中调整生成蒸馏数据集时查询语句的分布，增大RocketQAv2模型处理问题类查询语句的比例，得到更有效地蒸馏数据。其他原始语义检索模型也同理，选择擅长处理的查询语句的类型，以得到更有效的蒸馏数据，在此不再赘述。

S305、基于蒸馏数据集，对目标语义检索模型进行训练。

本实施例的目标语义检索模型为一个双塔结构的模型。

对于不同的蒸馏数据集的生成方式，可以采用不同的训练方式。例如，针对生成蒸馏数据集的上述情况一和情况二。即对于直接合并和交叉合并的生成方式，可以采用hardlabel方式进行训练，使用常见的对比学习训练方式，采用交叉熵损失，引入批次内负采样，进行训练。对于软标签数据合并方式，即上述的生成蒸馏数据集的情况三，可以采用marginMSE方式进行训练，学习样本对之间的打分。这两种方式可以根据训练效果灵活选择。

使用融合后的蒸馏数据训练后的双塔结构的目标语义检索模型，可以集成多个teacher即原始语义检索模型的特点，并且由于在蒸馏数据产出过程中控制了不同teacher的数据分布，只保留有优势、差异大的部分，能够使得他们产出的弱标签训练数据最大程度发挥作用。

经过弱标签数据的训练，双塔结构的目标语义检索模型的效果能够超过标注数据训练的结果，并且具有更强的泛化性，减弱对标注数据的过拟合，解决部分由于数据偏差造成的鲁棒性问题。

本实施例的语义检索模型的训练方法，通过精排模型，获取各原始语义检索模型的目标查询语句以及对应召回的预设数量的召回语料，生成蒸馏数据集，并进一步有效地提高了蒸馏数据集的质量，进而基于蒸馏数据集，对目标语义检索模型进行训练，可以使得训练的目标语义检索模型的准确性更好。

本实施例的语义检索模型的训练方法，可以将至少两种原始语义检索模型的能力集成到双塔结构的目标语义检索模型中，能够有效地提升目标语义检索模型的检索能力。

本实施例的语义检索模型的训练方法，至少两个原始语义检索模型中包括有稀疏向量检索模型，使得目标语义检索模型能够学习到了一定的稀疏向量检索的能力，对字面精排匹配的场景解决能力有所提升，从而提升目标语义检索模型的泛化能力，具有更好的零样本下领域迁移性能。

另外，相对于已有的双塔结构的语义检索模型，本公开实施例中没有改变双塔模型的结构，保持了双塔模型快速部署、检索效率高的特点，能够广泛应用于大规模的检索场景下。

本实施例的语义检索模型的训练方法，在应用时，多种原始语义检索模型的能力集成的方案能够灵活扩展，当出现一个某方面能力更强的模型或***后，采用此方案能够有效吸收该***的优势，提高目标语义检索模型的性能。

图5是根据本公开第四实施例的示意图；如图5所示，本实施例提供一种语义检索模型的训练装置500，包括：

类型获取模块501，用于获取至少两个原始语义检索模型中各原始语义检索模型对应的目标查询语句类型，原始语义检索模型对应的目标查询语句类型为原始语义检索模型处理各种类型的查询语句中、准确性最高的查询语句类型；

数据获取模块502，用于基于至少两个原始语义检索模型、、各原始语义检索模型对应的目标查询语句类型和预先建立的语料库，获取蒸馏数据集；

训练模块503，用于基于蒸馏数据集，对目标语义检索模型进行训练。

本实施例的语义检索模型的训练装置500，通过采用上述模块实现语义检索模型的训练的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图6是根据本公开第五实施例的示意图；本实施例提供一种语义检索模型的训练装置600，在上述图5所示实施例的技术方案的基础上，进一步更加详细地描述本公开的技术方案。如图6所示，本实施例提供一种语义检索模型的训练装置600，包括上述图5所示的同名同功能模块，类型获取模块601，数据获取模块602和训练模块603。

其中，数据获取模块602，包括：

语句获取单元6021，用于基于各原始语义检索模型对应的目标查询语句类型，获取各原始语义检索模型对应的目标查询语句；

语料获取单元6022，用于基于各原始语义检索模型和各原始语义检索模型对应的目标查询语句，从语料库中召回预设数量的召回语料；

生成单元6023，用于基于各原始语义检索模型对应的目标查询语句以及对应召回的预设数量的召回语料，生成蒸馏数据集。

进一步地，在本公开的一个实施例中，类型获取模块601，用于：

基于预先建立的各种类型查询语句对应的测试集，获取各原始语义检索模型对应的目标查询语句类型。

基于各原始语义检索模型的属性，获取各原始语义检索模型对应的目标查询语句类型。

进一步地，在本公开的一个实施例中，生成单元6023，用于：

采用预先训练的精排模型，对各原始语义检索模型对应的目标查询语句以及对应召回的预设数量的召回语料进行筛选，生成蒸馏数据集。

进一步地，在本公开的一个实施例中，生成单元6023，用于：

基于精排模型、各原始语义检索模型对应的目标查询语句以及对应召回的预设数量的召回语料，筛选正样本数据；

基于精排模型、各原始语义检索模型对应的目标查询语句以及对应召回的预设数量的召回语料，筛选负样本数据；

将正样本数据和负样本数据，存入蒸馏数据集中。

进一步地，在本公开的一个实施例中，生成单元6023，用于：

对于各原始语义检索模型对应的目标查询语句，采用精排模型计算目标查询语句和对应召回的预设数量的召回语料中各召回语料的相关度分值；

从预设数量的召回语料的前N条中删除相关度分值小于预设阈值的召回语料；其中N为大于1的正整数；

基于目标查询语句和预设数量的召回语料中的前N条剩下的各召回语料，构建正样本数据。

进一步地，在本公开的一个实施例中，生成单元6023，用于：

对于各原始语义检索模型对应的目标查询语句，从预设数量的召回语料中的第N+1条之后的召回语料中，选择相关度分值小于预设阈值的召回语料；其中N为大于1的正整数；

基于目标查询语句和从预设数量的召回语料中的第N+1条之后的召回语料中选择的相关度分值小于预设阈值的召回语料，构建负样本数据。

进一步地，在本公开的一个实施例中，生成单元6023，用于：

对于各原始语义检索模型对应的目标查询语句，采用精排模型计算对应的目标查询语句和对应召回的预设数量的召回语料中各召回语料的相关度分值；

根据各目标查询语句和各召回语料的相关度分值，从至少两个原始语义检索模型的所有召回语料中，按照预设的方式，筛选负样本数据。

本实施例的语义检索模型的训练装置600，通过采用上述模块实现语义检索模型的训练的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如本公开的上述方法。例如，在一些实施例中，本公开的上述方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的本公开的上述方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行本公开的上述方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语义检索模型的训练方法，包括：

获取至少两个原始语义检索模型中各所述原始语义检索模型对应的目标查询语句类型，所述原始语义检索模型对应的目标查询语句类型为所述原始语义检索模型处理各种类型的查询语句中、准确性最高的查询语句类型；所述目标查询语句类型包括寻址类、寻找答案类或者寻找资源类；

基于蒸馏数据集，对目标语义检索模型进行训练；

基于至少两个原始语义检索模型、各所述原始语义检索模型对应的目标查询语句类型和预先建立的语料库，获取蒸馏数据集，包括：

基于各所述原始语义检索模型对应的目标查询语句类型，获取各所述原始语义检索模型对应的目标查询语句；

基于各所述原始语义检索模型和各所述原始语义检索模型对应的目标查询语句，从所述语料库中召回预设数量的召回语料；

基于各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料，生成所述蒸馏数据集。

2.根据权利要求1所述的方法，其中，获取至少两个原始语义检索模型中各所述原始语义检索模型对应的目标查询语句类型，包括：

基于预先建立的各种类型查询语句对应的测试集，获取各所述原始语义检索模型对应的所述目标查询语句类型。

3.根据权利要求1所述的方法，其中，获取至少两个原始语义检索模型中各所述原始语义检索模型对应的目标查询语句类型，包括：

基于各所述原始语义检索模型的属性，获取各所述原始语义检索模型对应的所述目标查询语句类型。

4.根据权利要求1所述的方法，其中，基于各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料，生成所述蒸馏数据集，包括：

采用预先训练的精排模型，对各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料进行筛选，生成所述蒸馏数据集。

5.根据权利要求4所述的方法，其中，采用预先训练的精排模型，对各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料进行筛选，生成所述蒸馏数据集，包括：

基于所述精排模型、各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料，筛选正样本数据；

基于所述精排模型、各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料，筛选负样本数据；

将所述正样本数据和所述负样本数据，存入所述蒸馏数据集中。

6.根据权利要求5所述的方法，其中，基于所述精排模型、各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料，筛选正样本数据，包括：

对于各所述原始语义检索模型对应的目标查询语句，采用所述精排模型计算所述目标查询语句和对应召回的所述预设数量的召回语料中各所述召回语料的相关度分值；

从所述预设数量的召回语料的前N条中删除所述相关度分值小于预设阈值的召回语料；其中N为大于1的正整数；

基于所述目标查询语句和所述预设数量的召回语料中的前N条剩下的各召回语料，构建所述正样本数据。

7.根据权利要求5所述的方法，其中，基于所述精排模型、各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料，筛选负样本数据，包括：

对于各所述原始语义检索模型对应的目标查询语句，从所述预设数量的召回语料中的第N +1条之后的召回语料中，选择相关度分值小于预设阈值的召回语料；其中N为大于1的正整数；

基于所述目标查询语句和从所述预设数量的召回语料中的第N +1条之后的召回语料中选择的相关度分值小于预设阈值的召回语料，构建负样本数据。

8.根据权利要求5所述的方法，其中，基于所述精排模型、各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料，筛选负样本数据，包括：

对于各所述原始语义检索模型对应的目标查询语句，采用所述精排模型计算对应的所述目标查询语句和对应召回的所述预设数量的召回语料中各所述召回语料的相关度分值；

根据各所述目标查询语句和各所述召回语料的相关度分值，从所述至少两个原始语义检索模型的所有召回语料中，按照预设的方式，筛选所述负样本数据。

9.一种语义检索模型的训练装置，包括：

类型获取模块，用于获取至少两个原始语义检索模型中各所述原始语义检索模型对应的目标查询语句类型，所述原始语义检索模型对应的目标查询语句类型为所述原始语义检索模型处理各种类型的查询语句中、准确性最高的查询语句类型；所述目标查询语句类型包括寻址类、寻找答案类或者寻找资源类；

数据获取模块，用于基于至少两个原始语义检索模型、各所述原始语义检索模型对应的目标查询语句类型和预先建立的语料库，获取蒸馏数据集；

训练模块，用于基于蒸馏数据集，对目标语义检索模型进行训练；

所述数据获取模块，包括：

语句获取单元，用于基于各所述原始语义检索模型对应的目标查询语句类型，获取各所述原始语义检索模型对应的目标查询语句；

语料获取单元，用于基于各所述原始语义检索模型和各所述原始语义检索模型对应的目标查询语句，从所述语料库中召回预设数量的召回语料；

生成单元，用于基于各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料，生成所述蒸馏数据集。

10.根据权利要求9所述的装置，其中，所述类型获取模块，用于：

11.根据权利要求9所述的装置，其中，所述类型获取模块，用于：

12.根据权利要求9所述的装置，其中，所述生成单元，用于：

13.根据权利要求12所述的装置，其中，所述生成单元，用于：

14.根据权利要求13所述的装置，其中，所述生成单元，用于：

15.根据权利要求13所述的装置，其中，所述生成单元，用于：

对于各所述原始语义检索模型对应的查询语句，从所述预设数量的召回语料中的第N+1条之后的召回语料中，选择相关度分值小于预设阈值的召回语料；其中N为大于1的正整数；

16.根据权利要求13所述的装置，其中，所述生成单元，用于：

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。