CN114880452A

CN114880452A - 一种基于多视角对比学习的文本检索方法

Info

Publication number: CN114880452A
Application number: CN202210578261.6A
Authority: CN
Inventors: 曾骏; 于扬; 赵翊竹; 朱泓宇; 文俊浩
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-08-09
Anticipated expiration: 2042-05-25
Also published as: CN114880452B

Abstract

本发明涉及一种基于多视角对比学习的文本检索方法，该方法包括MvCR整体框架，其中Inner‑type对比学习模块中，通过参数共享机制为双编码器生成查询和文档的增强视图，并使用批量负样本以无监督的方式提高双编码器的表示能力；Cross‑type对比学习模块中，利用Inner‑type对比学习模块生成的增强视图的表示，并使用通过监督学习方法训练的异构数据增强技术采样的“硬负样本”，显着降低了影响由假阴性和未标记的阳性样本引起的噪声。另外该方还加入异构数据增强方法，可以生成多样化和代表性的训练示例。实验表明本方法在两个流行的稠密文本检索基准上实现很高的性能。

Description

一种基于多视角对比学习的文本检索方法

技术领域

本发明涉及稠密文本检索技术领域，特别涉及基于多视角对比学习的文本检索方法。

背景技术

一个典型的稠密文本检索模型采用双编码器结构将查询和文档编码成为稠密向量，并且查询和文档之间的相关性通过嵌入向量之间的相似度来度量。通常双编码器是通过对比学习方式进行训练的，例如，对于给定的查询和它对应的正样本文档，稠密文本检索任务首先通过负采样策略获得一定数量的负样本文档，然后经过双编码器获得稠密向量后去优化InfoNCE损失，优化目标为在嵌入空间中使查询与正样本文档的距离更加接近，查询与负样本文档的距离更加远。在真实世界稠密文本检索的应用程序中，语料中的文档被预先计算为稠密向量，并且利用近似最近邻搜索进行高效的文本检索。

最近的研究探索了构建稠密文本检索***的负样本训练实例以及负采样的各种方法。例如，BM25负采样通过使用BM25算法在预料库中召回top-k文档，根据文档的BM25分数筛选出查询的负样本，这种负样本由于更加关注查询和文档之间的精确匹配信号，很可能在语义层面会遗漏一个查询的相关段落。Gao等人在当前或最近的小批次中选择“硬”负样本，但是在DPR研究中发现，分批处理局部负样本虽然在学习单词或视觉表征方面有效，但在稠密文本检索的表征学习方面并不明显优于BM25等稀疏文本检索方法，并且没有办法避免“假负例”的情况。Qu等人建议利用交叉编码器启发式地过滤“假负例”，以进一步提高性能，并且该方法提出了一种数据增强技术，即利用交叉编码器在大规模无监督数据上生成伪标签去覆盖域外用户检索意图，结果显示了负采样技术和数据增强在稠密文本检索任务的重要性。值得注意的是，上述的负采样策略专注于挖掘语义层面的“硬”负样本，却忽略了BM25负样本的精确匹配特征，此外，数据增强虽然有效，但是过多的训练数据导致训练时间成倍增长。

另一方面，双编码器的模型体系结构能够独立并且高效地对查询和文档进行编码，这是文本检索任务必然需要考虑的方面，但是高效的双塔结构由于缺少查询和文档之间的交互建模，因此在性能方面逊色于基于Cross-Encoder体系结构(在Cross-Encoder体系结构中，查询和文档通过[SEP]符号连接输入到模型中)的检索性能。有大量工作通过在双编码器上添加额外的交互层弥补精度与效率的间隙，例如Khattab等人使用一个后期交互层Maxsim：它计算查询中每一个术语对所有文档单词的最大相似度分数，查询和文档的相似度得分由所有最大相似度分数加权得到。Humeau等人通过在BERT之后建立一个两阶段的注意力网络进行交互，它通过关注全局信息指导生成查询和文档的稠密向量，额外的结构不可避免的导致模型参数量以及检索的响应时间增加，并且从结果来看，性能并不稳定。此外，一些针对稠密文本检索任务的预训练方法，例如Condensor和coCondener通过“建立结构阅读”和“段落对比训练”的方式鼓励模型去学习将信息聚合到CLS向量中，生成高质量的CLS表示，虽然结果是有竞争性的，但是从头预训练一个稠密文本检索的深度结构需要大量的计算资源。

发明内容

针对现有技术存在的上述问题，本发明要解决的技术问题是：如何设计一种在保证文本检索效率的同时又能改进文本检索性能的方法。

为解决上述技术问题，本发明采用如下技术方案：一种基于多视角对比学习的文本检索方法，包括如下步骤：

S1：对于一个有标签的语料库。

S11：通过BM25算法召回和查询相关的top-k文档，在剔除查询对应的地面真值文档后，构建BM25负样本。

S12：利用BM25负样本通过InfoNCE损失训练一个基于BERT的双编码器，然后使用训练好的双编码器在语料库中检索最相关的top-k文档，在剔除地面真值后构建神经负样本。

通过S12得到训练实例集T，T中的每个训练实例由一组文本对组成，q₁表示第一个查询，

表示第一个查询对应的正样本文档，

表示第一个查询对应的负样本文档，q_n表示第n个查询，

表示第n个查询对应的正样本文档，

表示第n个查询对应的负样本文档。

S2：构建和训练MvCR整体框架：包括Cross-type对比学习模块和Inner-type对比学习模块，其中Cross-type对比学习模块包括两个独立的稠密编码器E_P(·)和E_Q(·)，采用两个预训练好的BERT_q和BERT_p分别对应的初始化E_P(·)和E_Q(·)。

克隆BERT_q为

克隆BERT_p为

和

构成Inner-type对比学习模块，中提供查询和文档的正样本表示的编码器。

对于BERT_q将来自BERT最后一层的[CLS]向量对应的查询的整体表示c_q，对于BERT_p将来自BERT最后一层的[CLS]向量对应的文档的整体表示c_p，并进行一次Cross类型的对比学习，其优化目标是让查询与正样本的距离更接近，与负样本的距离更远，形式上定义为Cross_Loss₁：

c_q＝BERT_q(query)_[cls] (2)

c_p＝BERT_p(document)_[cls] (3)

其中sim(·)函数计算两个向量之间的点积，n为负样本的个数。

S21：Inner-type对比学习模块：

和

在训练的时候被固定。

采用一个额外的平均池化层对

和

的最后一层输出取平均值生成查询和文档的正样本表示，同时采用In-batch负样本以无监督的对比学习方式训练。

对于查询对比学习模块BERT_q和

Inner-type的优化定义为InnerLoss₁：

对于文档对比学习模块BERT_p和

定义InnerLoss₂为：

在公式(7)和公式(8)中，N为批次的大小，sim(·)函数计算两个向量之间的点积。

S22：Cross-type对比学习模块：

希望

与c_q具有相同的正负文档样本，也就是

和

数量相同，优化目标为让嵌入空间中的

与

的距离更接近，

与

的距离更远，优化目标被形式化为Cross_Loss₂：

与

两者与原文档表示具有相同的查询，即c_q，优化目标是让

与c_q的距离更加接近，同时让

与c_q距离更远，优化目标被形式化为Cross_Loss₃：

其中，sim(·)函数计算两个向量之间的点积，n为负样本的个数。

S23：联合上述损失，采用线性组合定义最终的训练损失函数：

将S1得到的训练实例集T中的训练实例输入MvCR整体框架，当损失Loss_total不再变化时，得到训练好的MvCR整体框架。

S3：对于一个新查询，将该新查询输入训练好的MvCR整体框架，训练好的MvCR整体框架输出在语料库中检索的最相关的top-k’文档。

具体的，所述S2训练MvCR的整体框架时，考虑采用动态权重去组合Loss_total：

其中，α表示Gross_Loss₁的权重，β表示Gross_Loss₂的权重，γ表示Gross_Loss₃的权重，δ表示InnerLoss₁的权重，ε表示InnerLoss₂的权重。

相对于现有技术，本发明至少具有如下优点：

1.现有的研究为双编码器分配两个独立的模型，将查询和文档分别嵌入到独立的空间中，本方法通过多视角对比学习的方式采用联合训练去优化模型生成更好的表示，其中Inner-type和Cross-type对比学习模块之间相互依赖，因此，本方法将所有模型进行参数共享，它支持一个模型完成上述所有流程，在无损性能的条件下提供了更高的效率。

2.本发明提出了一种基于多视图对比学***。

附图说明

图1为MvCR的整体框架。

图2为异质数据增强示例。

具体实施方式

下面对本发明作进一步详细说明。

本发明主要考虑一个针对文本检索的对比学习范式，给出一个问题q和一个包含C个文档的集合，文本检索的目的是从C个文本文档中检索出与q最相关的k个文档p⁺＝{p₁,…,p_i,…p_k},(|P+|<<|C|)。训练实例由一组文本对组成：

在OpenQA的场景中，

是为包含问题答案的文档。文本检索模型为双编码器结构包括两个独立的稠密编码器E_P(·)和E_Q(·)用于将文档和查询映射到d维稠密向量，具体的，采用两个BERT模型分别初始化E_P(·)和E_Q(·)，并将E_P(·)和E_Q(·)最后一层的输出中的[CLS]标记的表示作为查询和文档的编码，即得E_P(p)和E_Q(q)；然后通过Faiss索引向量并进行有效的检索。查询q和文档p之间的相似性使用向量之间点积定义：

sim(q,p)＝E_Q(q)^T·E_P(p) (13)

稠密文本检索模型通过传统的对比学习方式训练，本质是学习查询和段落的稠密表示，使查询与积极的段落在嵌入空间的距离更接近，与消极的段落彼此远离，形式上，给定一组文本对

本文最小化以下损失函数：

本发明的目标是优化具有n个负文档训练实例的负对数可能性。由于计算成本限制，n的值实际上被设置为远远小于语料库文档的数量C。在本发明中，用于训练稠密文本检索的负样本由数据增强技术产生，后面将讨论数据增强方法和负样本个数n对文本检索的影响。

直接从预训练的语言模型中获取句子向量用于稠密文本检索会导致召回灾难，因此本发明采用半监督的多视角对比学习方式生成高质量的句子表示改进这个缺陷。总体而言，MvCR由两个对比学习模块组成，在Cross-type对比学习模块中，本发明采用监督学习的方式利用数据增强后的数据训练一个双编码器结构的检索器，在Inner-type对比学习模块中，本发明采用无监督的方式修改语言模型，激励语言模型在嵌入空间中意识到不同句子之间的相似性。MvCR整体框架见图1。

一种基于多视角对比学习的文本检索方法，包括如下步骤：

在文本检索任务中，查询与文档之间的精确匹配和语义匹配特征对训练模型都非常有用，因此本发明提出了一种数据增强策略，它可以生成具有多样性以及代表性的“硬负样本”。异构数据增强模块如图2所示，

S1：数据增强策略，对于一个有标签的语料库。

S11：通过BM25算法召回和查询相关的top-k文档，在剔除查询对应的地面真值文档后，构建BM25负样本；所述BM25算法是现有技术。

S12：利用BM25负样本通过InfoNCE损失训练一个基于BERT的双编码器，然后使用训练好的双编码器在语料库中检索最相关的top-k文档，在剔除地面真值后构建神经负样本；

表示第一个查询对应的正样本文档，

表示第一个查询对应的负样本文档，q_n表示第n个查询，

表示第n个查询对应的正样本文档，

表示第n个查询对应的负样本文档；

克隆BERT_q为

克隆BERT_p为

和

构成Inner-type对比学习模块，中提供查询和文档的正样本表示的编码器；文本检索模型为双编码器结构包括两个独立的稠密编码器E_P(·)和E_Q(·)用于将文档和查询映射到d维稠密向量，具体的，采用两个BERT模型分别初始化E_P(·)和E_Q(·)，并将E_P(·)和E_Q(·)最后一层的输出中的[CLS]标记的表示作为查询和文档的编码，即得E_P(p)和E_Q(q)。

c_q＝BERT_q(query)_[cls] (2)

c_p＝BERT_p(document)_[cls] (3)

S21：Inner-type对比学习模块：

和

在训练的时候被固定；即更新MvCR整体框架的参数时，

和

的参数一直都是初始化时的参数。

对于

和

为了降低计算效率，它们在训练的时候被固定，用来提供查询与文档的正视角表示，固定

和

能够尽可能的利用预训练模型的知识信息，如果不固定，这些信息可能在微调的过程中被破坏。

采用一个额外的平均池化层对

和

的最后一层输出取平均值生成查询和文档的正样本表示，同时采用In-batch负样本以无监督的对比学习方式训练；

对于查询对比学习模块BERT_q和

MvCR的优化目标是拉近查询表示c_q和

生成的增强正例视图

的距离，拉远c_p与同一批次内其余实例的距离。Inner-type的优化定义为Inner Loss₁：

对于文档对比学习模块BERT_p和

遵循查询对比模块中的思想，但是优化目标被修改为让文档表示c_p和增强视图

的距离更加接近，与同批次内其余样本彼此远离。定义Inner Loss₂为：

在公式7和公式8中，N为批次的大小，sim(·)函数计算两个向量之间的点积；Inner-type对比学习模块通过生成不同角度的视图改进双编码器的表示。

S22：Cross-type对比学习模块：

根据查询和文档的增强视图

和

本发明做了Cross-type的对比学习去尽可能的捕捉未标注的阳性样本，同时进一步改进双编码器的表示能力。希望

与c_q具有相同的正负文档样本，也就是

和

数量相同，优化目标为让嵌入空间中的

与

的距离更接近，

与

的距离更远，优化目标被形式化为Cross_Loss₂：

与

两者与原文档表示具有相同的查询，即c_q，优化目标是让

与c_q的距离更加接近，同时让

与c_q距离更远，优化目标被形式化为Cross_Loss₃：

Cross-type对比学习模块可以看作是另一种的数据增强方式，但是它不依赖额外的数据工程同时可以构建具有高区分性的对比样本。

具体的，S12中利用BM25负样本通过InfoNCE损失训练一个基于BERT的双编码器的过程如下：

1.采用BM25算法在文档语料库中为查询召回top-k文档，将BM25分数从大到小排列，排除真之后按照顺序取固定数量的负例文档(8个)

2.构建基于BERT的双编码器的训练实例，其每个样本由本文对组成：一个查询，一个正例文档，8个负例文档。

3.根据第2步构建的训练实例，训练一个只带有Cross loss1损失的双塔BERT检索器Retrieve。

4.利用第3步的检索器重新在语料库中问查询进行文档召回，按照召回分数从大到小排列，排除真值后按照顺序构建BERT负例。

即使是专家标注的数据集中，也存在大量未标记的阳性样本，为此，本发明采用一个训练有素的交叉编码器结构根据提前设定的阈值对训练实例去噪，并且在无标签语料库中生成伪标签，它以查询和文档的连接(例如[SEP]符号)作为输入，并输出查询与文档之间的相关性得分。在本发明的实验中，设置如果相关性得分高于0.9，则标记为正样本，如果得分小于0.1则标记为“硬”负样本。最后本发明在三种负样本集合中随机采样生成具有多样性的训练实例，这包括BM25负样本所关注的精确匹配特征以及去噪之前和去噪之后的神经“硬负样本”关注的语义特征。

其中，α表示Cross_Loss₁的权重，β表示Cross_Loss₂的权重，γ表示Gross_Loss₃的权重，δ表示Inner Loss₁的权重，ε表示Inner Loss₂的权重。

实验与分析

1.数据集

本发明在两个流行的基准上进行实验：Nature Questions(NQ)和MS-MARCO文档排名。它们的详细的信息见表1。

表1 MSMARCO和Natural Questions数据集细节

数据集	训练集查询数量	开发集查询数量	测试集中查询数量	文档数量
					MSMARCO	502,939	6,980	6,837	8,841,323
Nature Questions	58,812	6,515	3,610	21,015,324

MS-MARCO是迄今为止最大的公共搜索基准，有大约880万个文档以及从Bing搜索日志中取样的查询，OpenQA实验使用了NQ数据集，它包括大约2100万文档以及从谷歌搜索日志中收集的查询。本发明使用Qu等人的数据处理脚本，并且根据异质数据增强技术为两个数据集进生成训练实例。本发明关注第一阶段的检索步骤，即从整个语料库中找到相关的段落。

2评价指标

本发明采用平均倒数排名(MRR)和top-k排名的召回(Recall@k)来评估文本检索的性能。MRR计算检索到第一个正样本文档排名的平均倒数。Recall@k计算检索到的top-k文档包含正样本的比例。

3实验环境设置

表2 MvCR训练的超参数

本发明使用深度学习框架Pytorch，并且基于Hugging Face库在4张RTX 3060GPUs(12G显存)执行实验，利用APEX和梯度累计降低GPU内存消耗。双编码器用BERT-Base进行初始化，额外的，本发明也尝试使用Condensor初始化，它是一个针对稠密文本检索任务的预训练模型，它通过额外关注[CLS]位置信息，可以有效地将信息压缩成单个稠密向量表示。对于实验流程，第一步，本发明遵循DPR的实验设置，首先使用BM25负样本训练一个双编码器，并检索top-200的文档，然后本发明加载了一个训练有素的交叉编码器模型，例如ERNIE-2.0-Large，对被检索到的文档去噪和并且利用异质数据增强策略生成多样性的训练实例，第二步，本发明以Condensor初始化另外一个双编码器，并且在具有多样性属性的NQ和MS-MARCO数据集上微调双编码器。对于稠密文本检索任务，验证检查点需要对整个语料库进行编码，因此评估检查点会变得非常昂贵，例如使用一张RTX 3060GPU编码需要花费6小时。由于本发明的计算资源的限制，所以本发明采取最后一个训练检查点去评估模型，本发明对两个数据集作同样的事情。其他详细的超参数见表2。

4对比实验模型

表3 MvCR在MS-MARCO和Natural Questions数据集上的文本检索结果

本发明将MvCR与以前的最先进模型比较，被考虑的基线包括稀疏和稠密文本检索方法。在稀疏检索模型中，除了基于精确匹配的传统BM25检索器，还有4个被强化神经网络检索器，这包括doc2query、DeepCT、docTTTTTquery和GAR。DeepCT使用BERT学习术语权重增强BM25***，doc2query和docTTTTTquery使用生成式神经网络扩展文档，GAR使用生成模型，表3中间部分列出了稠密文本检索任务的最新研究进展，DPR使用BERT-Base初始化双编码器作为检索器，同ME-BERT一样，使用同批次负样本或BM25“硬负样本”训练模型。ColBERT同样使用BM25负样本，但是在结构上它通过在双编码器上添加额外的层建模查询和文档之间的交互。ANCE使用Roberta去初始化双编码器，采用迭代的方式根据不同训练阶段的检查点在整个语料库上渐进式的检索“硬负样本”。RocketQA和PAIR，Condensor以及coCondensor通过构造高质量“硬负样本”，多阶段训练，数据增强，知识蒸馏，对比预训练等方式改进稠密文本检索。表3底部展示了本发明方法，它在稠密文本检索方面展示了最新的结果。

5实验结果分析

5.1主要实验结果见表3，本发明从原始论文中复制结果，如果原论文没有报告研究结果，本发明以空格填充，最好和第二好的结果分别是粗体和下划线的字体。本发明报告了MvCR在负样本个数为32的结果。

①本发明可以看到，MvCR在MS-MARCO和NQ数据集上都显著优于所有基线。RocketQA和PAIR是与MvCR同一时期的工作。RocketQA通过跨批负、结合Re-Ranker去噪的“硬负样本”训练双编码器。PAIR利用以查询为中心和以文档为中心的对比关系进行稠密的文本检索，它同样采用了RocketQA的数据增强方法。本发明观察到MvCR在MSMARCO以及NQ数据集上的MRR，Recall@50，Recall@1K都优于现阶段最新的RocketQA和PAIR，本发明认为MvCR的多重对比结构以及异质数据增强改进了检索器，使它特别的适用于稠密文本检索。

②在稀疏文本检索方法中，COIL是一种上下文精确匹配检索架构，它带来了语义词汇匹配，它根据重叠查询文档标记的上下文表示对查询和段落进行评分，并且是一个相当强大的基线。

本发明还观察到，稀疏检索器的总体表现比稠密检索器差，这样的发现在之前的研究中也有报道，这表明了稠密文本检索方法的有效性。特别的，在稠密文本检索的基线中，模型依赖训练的负样本质量，例如DPR，ME-BERT，Col-BERT使用BM25负样本，ANCE迭代的挖掘“硬负样本”，RocketQA和PAIR采用启发式数据增强去除硬负样本中的“假负样本”。本发明的方法在此基础上构建多样性训练实例，稠密文本检索的性能随着负样本的质量而逐渐改进，此外本发明发现，结合稠密编码与对比学习的预训练方法Condensor和coCondensor对稠密文本检索也有促进作用。

5.2负样本个数的影响

在异质数据增强模块中，本发明专注于获得具有多样性和代表性的“硬负样本”，本发明发现“硬负样本”的数量会显著地影响MvCR的性能和训练时间。在表4中，本发明报告了在负样本个数为n的情况下，处理每个批次的延迟以及对应的检索性能。此外，为了公平的对比，本发明为不同的负样本个数设置相同的批次大小以固定Inner-type对比学习模块的影响，在这种设置下，本发明发现MvCR的MRR@10和Recall@1K不断被改进直到n为32(由于计算成本问题，MvCR仅在64个负样本内进行验证)。数量多而且质量高的负样本似乎是改进模型的一个重要推进器，但是计算成本过高也是一个需要考虑的问题。后续的所有消融实验均在MSMARCO数据集上，并且建立在n＝8的条件下。

表4负样本数量对检索性能的影响

N	MRR@10	R@1	R@50
				n＝1	34.56	22.09	84.48
n＝4	38.26	25.37	87.32
				n＝8	38.70	25.77	87.64
n＝1	38.86	26.07	87.79
				n＝3	39.08	26.13	87.82
n＝6	38.58	25.69	87.64

为了检验多视角对比学习框架对稠密文本检索的效果，除了传统的对比训练损失(Cross_Loss₁)外，本发明一个接着一个的删除了其余的对比损失，例如Inner-type对比学习模块中的Inner Loss₁和Inner Loss₂，Cross-type对比学习模块中的Cross_Loss₂和Cross_Loss₃。此外，本发明验证了异质数据增强策略对MvCR性能的影响，本发明通过使用BM25负样本而不是数据增强处理后的数据实现。表5显示了消融的实验结果，本发明可以看到，多视角对比学习框架对稠密文本检索有显著改进，其中Cross-type对比学习模块的影响最大，本发明将Cross-type对比模块视作一种没有数据工程的数据增强方式，它可以模拟大量未标记样本，从而明显地区分正向和负向样本，Inner-type对比学习则进一步的改进了模型的表示能力。去掉数据增强模块导致MVCR的性能下降，也直观的说明了大规模训练数据对稠密文本检索任务有效性和必要性。

表5 MvCR的消融实验

Method	MRR@10	R@1	R@50
				MvCR	38.70	25.77	87.64
w/o InnerLoss1	38.65(-0.05)	25.42	87.39
				w/o InnerLoss2	38.35(-0.30)	25.36	87.23
w/o CrossLoss2	38.24(-0.11)	25.34	87.12
				w/o CrossLoss3	37.78(-0.46)	24.98	86.76
w/o数据增强	37.00(-0.78)	23.89	85.59

5.3预训练模型的影响

本发明注意到基线模型中选择了不同预训练语言模型作为初始化，并进行实验验证了MvCR对语言模型的敏感性，结果展示在表6中，本发明注意到，针对稠密文本检索的预训练模型对MvCR性能有所改进，非特定预训练的Bert-like模型并不是改进性能的主要因素。

表6预训练模型对MvCR的影响

语言模型类别	MRR@10	R@1	R@50
				BERT-base	38.70	25.77	87.64
Roberta-base	38.75	25.74	87.65
				Condensor	39.08	26.13	87.82

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。