CN111259127A

CN111259127A - 一种基于迁移学习句向量的长文本答案选择方法

Info

Publication number: CN111259127A
Application number: CN202010043764.4A
Authority: CN
Inventors: 张引; 王炜
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-06-09
Anticipated expiration: 2040-01-15
Also published as: CN111259127B

Abstract

本发明公开了一种基于迁移学习句向量的长文本答案选择方法，采用两阶段方法构建迁移学习句向量网络以及训练预测网络，其中迁移学习句向量网络包括包括孪生网络结构、注意力聚合结构和分类层；训练预测网络包括孪生网络结构和距离度量层。首先，本发明不需要对数据集文本序列进行分词，直接以完整的问题答案句子作为输入，避免了分词工具造成的错误传播。其次，第二阶段的训练预测网络结构简单，计算效率高。最后，引入迁移学习方法结合孪生网络结构及注意力机制获得语义更加相似的句向量模型权重，对第二阶段的训练预测网络提供了代表句子级的语义向量，获得了比传统方法及普通深度学习网络方法更好的效果，尤其对于长文本数据，其效果更突出。

Description

一种基于迁移学习句向量的长文本答案选择方法

技术领域

本发明涉及自然语言处理、深度学习中的预训练语言模型、注意力机制。具体为一种基于迁移学习句向量的长文本答案选择方法。

背景技术

互联网在这些年高速发展，各种信息平台以“井喷”的方式暴增。据Hootsuite网站和wearesocial两个网站不完全统计，截至2019年，世界上的网民数量已经突破3.5亿人，而且全球45％的人口都是社交媒体的使用者。数据显示，从2018年到2019年网络用户新增了439万人次，而且社交媒体用户在这一年中增长了348万人次。大量的数据显示，目前全球网络已经到达了一个非常发达的盛世，随着网络带来的是无数的互联网知识信息。大量的网站承载着网络信息充斥在互联网环境中，带来的问题是如何有效的搜索利用，因此搜索引擎的存在就显得非常重要。现在计算机的存储和计算速度已经迎来了黄金时代，以前计算机的计算能力和存储能力成为阻碍搜索引擎发展的绊脚石，这些问题随着高性能计算，高性能存储的到来，如何高效精准搜索到最相关的检索结果成为搜索引擎的研究重点。

针对这个研究重点，我们必须攻克的是精准检索海量文档中最相关的信息这一难题。纵观搜索发展历史，第一代搜索引擎Archie 3主要用来搜索分布在各个主机中的文件。当万维网出现后，出现了EINet Galaxy(Tradewave Galaxy)4，功能相当于是最早的门户网站。中间经过历代搜索引擎技术更新，在以百度、谷歌、微软等大型互联网公司主导的Baidu搜索引擎、Google搜索引擎、Bing搜索引擎为主的竞争下，如何精准搜索将仍是今后一直持续的研究热点。随着人工智能浪潮兴起，机器学习，深度学习方法为图像识别、自然语言处理、语音识别处理等领域带来了新的解决思路。面对搜索引擎检索召回的结果不理想的现状，很多检索结果需要搜索人进行二次筛选过滤，因此自动问答技术应运而生。

答案选择技术是自动问答技术中的一个重要步骤，在生活中有着广泛应用，如小米的小爱同学、Iphone的Siri、微软的小冰以及百度度秘等等都是自动问答技术的实际落地产物。在任务型自动问答领域，自动问答技术成就的机器人助手能够极大的解放双手，只用语音命令即可控制完成一系列任务。在闲聊型自动问答领域，闲聊机器人可以为乏味枯燥的生活中增添一丝人生乐趣。在现代医学领域，自动问答技术可以为医生患者构建更加方便高效的沟通方式。因此，如何改进自动问答领域的问答精准性变得尤为重要，针对检索型自动问答领域，在其中扮演着非常重要角色的答案选择技术，在上文中介绍的搜索引擎中同样占据着非常重要的角色。

现有的答案选择方法通常使用孪生网络结构，对问题文本和答案文本分别建模，最后通过余弦距离等相似度度量方法分辨问题和答案是否匹配。但是传统方法主要是聚焦在短文本匹配任务上，缺乏对长文本应用场景的研究，难以解决长文本应用领域的“语义迁移”和“语义鸿沟”等问题。而且由于医疗领域的问答数据普遍具有“问题短答案长”的特性，其使用现有的答案选择方法匹配效果和召回精度都无法满足上线需要，因此为了更好地对长文本数据进行答案选择，主要涉及的技术难点如下：

1.如何设计模型建模长文本序列；

2.如何利用外部知识，引入迁移学习方法提升召回精度；

3.如何设计评价指标量化模型的效果。

发明内容

为了解决上述问题，本发明提出了一种基于迁移学习句向量的长文本答案选择方法，使用BERT作为特征提取层建模长文本数据，采取迁移学习+训练预测两阶段任务。首先，问题和答案文本序列作为输入，使用BERT输入格式进行处理，不需要额外分词，避免了分词造成的错误传播。其次，使用迁移学习方法并辅以孪生网络结构和注意力聚合结构，使迁移学习得到的问题和答案句向量更加语义相似。最后，在训练预测过程中使用迁移学习的模型权重参数初始化得到文本的句向量，并简单地通过距离度量方法计算问题和答案句向量的语义相似度，由于简化了训练预测网络结构，获得了更高的召回效率及更低的显存占用，本发明采用两阶段方式，相对于直接使用BERT的[CLS]语义向量，获得了更高的召回精度。

为了实现上述目的，本发明采用如下的技术方案：

一种基于迁移学习句向量的长文本答案选择方法，步骤如下：

1)使用XPATH设计爬虫爬取问诊论坛医患问答数据，并做数据清洗；将医患问答数据中的答案作为正样本；针对医患问答数据中的问题，使用Lucene索引工具进行相关性答案的检索召回，将相关性答案作为负样本；根据获得的正样本和负样本构造点式答案选择数据集，并按照27:1～8:1的比例划分迁移学习数据集和训练预测数据集；

2)建立迁移学习句向量网络，包括孪生网络结构、注意力聚合结构和分类层，所述孪生网络结构包括成对的输入层、特征提取层、池化层，所述的注意力聚合结构包括注意力层、聚合网络层；所述的特征提取层采用BERT模型，加载全词遮盖权重BERT参数进行初始化，特征提取后取均值池化输出，并依次经过注意力层、聚合网络层对特征进行聚合输出；聚合输出向量同BERT池化输出向量进行拼接并输入到分类层进行二分类输出；

利用步骤1)得到的迁移学习数据集，对迁移学习句向量网络进行训练，采用MRR、Precision@K评价指标方法，将问题和答案是否匹配的二分类值同真实标签进行匹配，选择匹配分数最高的模型对应的网络参数，得到BertAttTL迁移学习句向量模型；

3)建立训练预测网络，包括孪生网络结构和距离度量层，所述孪生网络结构包括成对的输入层、特征提取层、池化层；所述的特征提取层采用BERT模型，使用步骤2)得到的BertAttTL迁移学习句向量模型的权重参数对训练预测网络中的BERT模型和池化层参数进行初始化，经池化层输出问题句向量和答案句向量，将两种句向量输入到距离度量层获取语义相似度，依照相似度以阈值进行划分得到是否相似的二分类值作为预测内容输出；利用步骤1)得到的训练预测数据集对训练预测网络进行训练，采用MRR、Precision@K评价指标方法，将最终得到的二分类值同真实标签进行匹配，选取匹配分数最高的模型对应的网络参数，得到训练好的训练预测网络；

4)将待处理的问题和答案文本输入步骤3)得到的训练预测网络中，输出所有候选答案的二分类值，得到待处理问题的最终答案。

进一步的，所述的MRR、Precision@K评价指标方法具体为：

将迁移学习句向量网络或训练预测网络的输出表示为pred＝[p₁,p₂,...,p_n]，其中p_i表示第i个候选答案的预测值0或1，0表示不相似，1表示相似，n表示样本集中的测试样例的个数；真实标签数据表示为label＝[t₁,t₁,,...,t_n]，其中t_i表示第i个候选答案的真实标签0或1，0表示不相似，1表示相似，n表示样本集中的测试样例的个数；针对一个问题的所有候选答案，通过迁移学习句向量网络或训练预测网络获取二分类值之后进行排序，得到针对第i个问题的正确答案的排名rank_i；

MRR计算公式为：

其中，Q为问题集合，|Q|表示所有问题的数量；

Precision@K计算公式为：

其中，Precisiin表示精度，K表示指标中考虑的答案的个数，在本发明中取值为1、2和3，Num(True Answers)表示正确答案的个数，Sum(related K Answers)表示召回的相关答案总个数。

进一步的，所述的迁移学习句向量网络包括孪生网络结构、注意力聚合结构和分类层，所述孪生网络结构包括成对的输入层、特征提取层、池化层，所述的注意力聚合结构包括注意力层、聚合网络层，注意力层主要是在孪生网络结构中加入了注意力机制，使用问题的上下文来丰富答案文本的语义表征，同时使用答案的上下文来丰富问题文本的语义表征，通过问题和答案的语义交互，其能有效提高匹配效果；聚合网络层主要是在注意力机制后对问题融合表征和答案融合表征通过比较层和聚合层，进一步加深模型对问题和答案的相似部分及不相似部分的特征建模，其能在注意力机制基础上有效提升匹配效果。所述的特征提取层采用BERT进行建模，并且BERT采用全词覆盖的BERT权重参数进行初始化；

将配对样本输入到孪生网络结构中，成对的输入层对应问题和答案两个文本序列，按照BERT的输入格式[CLS]+Question+[SEP]、[CLS]+Answer+[SEP]分别对问题文本和答案文本进行处理；BERT特征建模后将12层池化层输出取均值，分别得到维度统一的池化输出：问题池化输出Q pool和答案池化输出A pool，维度长度为768维；

将问题池化输出Q pool和答案池化输出A pool输入到注意力层，通过注意力机制分别得到问题语义对齐向量Z₂和答案语义对齐向量Z₂'；将Q pool、A pool、Z₂和Z₂'输入到聚合网络层，针对问题，Q pool和Z₂通过[Q pool,Z₂],[Q pool,Q pool-Z₂],[Q pool,Qpool*Z₂]变换，然后经过一层线性变换拼接得到拼接向量[O₁,O₂,O₃]，所述的拼接向量经过一层线性变换并使用DropOut机制，得到问题注意力聚合输出Fused_Q；同理，针对答案，Apool和Z₂'经过聚合网络层，得到答案注意力聚合输出Fused_A；

将Fused_Q、Fused_A、Q pool、A pool进一步拼接得到[Q pool,A pool,|Q pool-Apool|,Q pool*A pool,Fused Q,Fused A]，将拼接向量输入到分类层，通过Softmax分类得到预测输出pred＝[p₁,p₂,...,p_n]，其中p_i表示第i个候选答案的预测值0或1，0表示不相似，1表示相似，n表示样本集中的测试样例的个数。

进一步的，所述的步骤3)中语义相似度的计算方法采用余弦距离、曼哈顿距离、欧拉度量、点乘度量中的任意一种。

本发明具备的有益效果：

(1)本发明使用自然语言处理技术中的预训练语言模型BERT来获得长文本数据的字表征，不需要额外的数据分词阶段，避免了分词工具造成的分词不准确问题，从而避免了因分词不准确造成的语义错误传播问题；

(2)设计了两阶段方法，第一阶段有效使用迁移学***行语料知识，第二阶段使用简单的训练预测网络具有更高的模型推理效率，综合两阶段任务，具有更高的答案选择召回精度；

(3)针对大批量答案搜索场景，本发明提出的直接获得全部文本序列句向量的方式，能有效避免预训练语言模型的多个文本对之间的耗时计算，效率更高。例如：预训练语言模型计算同一个问题和m个答案的匹配分数时，每次都需要将问题和其中一个答案配对送入模型中去进行计算，因此问题被重复编码了m次，问题和答案总共编码了2*m次，这在大规模搜索场景下，m值非常大，所带来的的额外时间开销是非常巨大的，而本发明仅需获得问题和所有答案的句向量，仅需要编码问题一次和答案m次共m+1次，相比于2*m次编码工作，本发明的方法减少了将近一半的编码时间，因此效率更高；

(4)本发明采取预训练语言模型BERT作为特征提取器，能有效对长文本数据进行语义建模，避免了现有答案选择方法在长文本数据上的“语义迁移”和“语义鸿沟”现象。

附图说明

图1为基于迁移学习句向量的长文本答案选择方法的迁移学习模型结构图；

图2为基于迁移学习句向量的长文本答案选择方法的训练预测模型结构图。

具体实施方式

以下结合具体实例对本发明做详细说明。

由于医疗领域的问答数据普遍具有“问题短答案长”的特性，其使用现有的答案选择方法匹配效果和召回精度都无法满足上线需要，因此本发明提出的基于迁移学习句向量的长文本答案选择方法经实验验证，能够有效处理长文本答案选择问题。

如图1所示，本发明提出的一种基于迁移学习句向量的长文本答案选择方法，所采用的迁移学习句向量网络包括包括输入层、特征提取层、注意力聚合网络层、分类层，所述的特征提取层采用BERT进行建模，并且BERT采用全词覆盖的BERT权重参数进行初始化；

输入层对应问题和答案两个文本序列，按照BERT的输入格式[CLS]+Question+[SEP],[CLS]+Answer+[SEP]对两个文本进行处理。BERT特征建模后将12层池化层输出取均值得到维度统一的池化输出，维度长度为768维；注意力聚合网络层将两个文本序列通过注意力机制得到语义对齐输出，对齐向量Z2和池化输出Z1通过[Z1,Z2],[Z1,Z1-Z2],[Z1,Z1*Z2]变换，并分别经过一层线性变换拼接得到[O1,O2,O3],拼接向量经过一层线性变换并使用DropOut机制，得到问题注意力聚合输出FusedQ和答案注意力聚合输出FusedA，将这两者同池化输出拼接得到[Q pool,A pool,|Q pool-A pool|,Q pool*A pool,Fused Q,FusedA]，将其通过Softmax分类得到预测输出，经过迁移学习句向量网络训练，得到语义更加相似的句向量。

如图2所示，本发明提出的一种基于迁移学习句向量的长文本答案选择方法，所采用的训练预测网络包括的训练预测网络包括输入层、特征提取层，距离度量层，所述的特征提取层采用BERT，并用步骤3)训练好的迁移学习权重参数进行初始化；

输入层对应问题和答案两个文本序列，按照BERT的输入格式[CLS]+Question+[SEP],[CLS]+Answer+[SEP]对两个文本进行处理。BERT特征建模后将12层池化层输出取均值得到维度统一的池化输出，维度长度为768维；使用步骤3)训练的迁移学习权重参数进行初始化，得到了语义更加相似的句向量，采用余弦距离、曼哈顿距离、欧拉度量、点乘度量计算两个句向量的相似度，使用阈值对相似度进行分割得到是否相似的二分类值。

在本发明的一个具体实施实例中，采用上述迁移学习句向量网络和训练预测网络对长文本问答数据进行答案选择，步骤如下：

步骤一、通过Python和XPATH构建爬虫框架，对三九健康网等医疗问诊平台抓取医患问答数据，采取一定规则方法去除文本之外的网页标签，如<div>等，对数据进行去重，经过处理，最终得到约575万条医患问答数据，按(问题，病情描述，病情回答)三元组的形式入库存储。

步骤二、入库的病情回答为正确答案，使用Lucene工具对该问题进行相关性答案召回，召回500条按相关度排序的负样本答案集合，在第1至5条负样本中抽取一条、第5至50条负样本中抽取一条、第50至100条负样本中抽取一条和第100至500条负样本中抽取一条。对于召回的相关负样本答案少于100条的样本，候选答案集合构造中减少最后第100至500间的采样。4354417条全量数据集按话题类别抽样出小样本数据集作为训练预测数据集，包含120000条训练集、20000条验证集以及20000条测试集，按总量的8:1取标注数据作为迁移学习数据集，其中迁移学习数据集不与训练预测数据集有交叉部分。

在本发明的一个具体实施例中，语料格式如下：

其中Question表示问题文本，Answer表示答案文本。

步骤三、使用Pytorch搭建迁移学习句向量网络，使用全词遮盖BERT权重参数进行初始化，网络包括输入层、特征提取层、注意力聚合网络层、分类层，在步骤二得到的迁移学习数据集上进行训练预测，最终得到语义向量更加相似的句向量模型权重文件。

迁移学习句向量网络训练的损失函数采用交叉熵损失：

loss＝-y*logy′

其中y表示问题答案是否匹配的真实标签，y′为样例数据是否匹配的模型预测向量。

在测试集中，针对一个问题q和3个答案[a₁,a₂,a₃]对于预测向量pred＝[0.71,0.68.0.35]和真实标签label＝[0,1,0]，依照如下MRR计算公式，|Q|＝1，以阈值0.5作为划分预测结果得到pred＝[1,1,0]，根据真实标签可知正确答案标签预测正确，同时对答案按照预测概率进行排序得知第二条答案预测概率最高排在第二位，即rank_i＝2，则MRR＝1/2＝0.5。依照Precision-K计算公式，K取1、2和3，可知当k＝1时，Num(True Answers)＝0,则Precision@1＝0；当k＝2时，Num(True Answers)＝1，Sum(related K Answers)＝2，则Precision@2＝0.5；当k＝3时，Num(True Answers)＝1，Sum(related K Answers)＝3，则Precision@3＝1/3＝0.33。本实例仅针对一个问题和多个答案进行解释，测试集中存在多个问题，需要将最后结果指标按照问题数量取均值计算即可。

步骤四、使用Pytorch搭建训练预测网络，使用步骤三迁移学习句向量网络权重模型进行初始化，包括输入层、特征提取层，距离度量层，在步骤二得到的训练预测小样本数据集上进行训练预测。

训练预测网络的损失函数采用均方误差损失：

loss＝(y-y＇)²

得到问题句向量和答案句向量之后，使用余弦相似度分类器计算两个句向量的语义相似度，公式如下，例如:问题句向量为[1,1,0,0,1],答案句向量为[0,1,1,0,0]，则依照余弦相似度公式计算相似度为

针对测试集中所有样例得出pred预测结果，同时与真实标签label进行比较，按照MRR和Precision@K(k取值1,2,3)计算公式得到测试集上的指标。

步骤五、使用步骤四训练好的模型在测试集数据上进行推理，最终得到的预测值按阈值进行分割，即可获得问题答案是否语义相似。

与现有的技术相比，首先，本发明不需要对数据集文本序列进行分词，直接以完整的问题答案句子作为输入，避免了分词工具造成的错误传播。其次，第二阶段的训练预测网络结构简单，计算效率高。最后，引入迁移学习方法结合孪生网络结构及注意力机制获得语义更加相似的句向量模型权重，对第二阶段的训练预测网络提供了代表句子级的语义向量，获得了比传统方法及普通深度学习网络方法更好的效果，尤其对于长文本数据，其效果更突出。为了客观地评价本发明的模型的性能，将本发明的模型与其他模型进行比较，对比模型包括Siamese RNN、QACNN、DEATT、Cam、Seq Match Seq、ESIM。本实施例采用的评价指标为MRR、Precision@1、Precision@2、Precision@3。这些指标用于评价问题和召回答案之间的相似度。数值越大，效果越好。如表1所示，本发明综合两阶段任务，具有更高的答案选择召回精度，本发明的模型效果优于所有的对比模型。如表2所示，本发明与预训练语言模型BERT相比，推理阶段的耗时只有0.5秒，效率高。

表1对比实验的召回精度结果

模型	MRR	Precision@1	Precision@2	Precision@3
					Siamese RNN	0.571769	0.311137	0.580483	0.833433
QACNN	0.612844	0.363327	0.650470	0.873225
					DEATT	0.525945	0.258348	0.508098	0.745051
Cam	0.636339	0.415917	0.656469	0.827634
					Seq Match Seq	0.631340	0.407518	0.651070	0.828834
ESIM	0.523529	0.254749	0.505299	0.743251
					本发明	0.739136	0.543491	0.818636	0.971406

表2本发明和预训练语言模型的计算耗时结果对比

模型	推理阶段耗时(答案数量m＝4)
		预训练语言模型BERT	4.5秒
本发明	0.5秒

以上实施例仅表达了本发明的一种具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于迁移学习句向量的长文本答案选择方法，其特征在于，步骤如下：

1)获取权威的医患问答数据，将医患问答数据中的答案作为正样本；针对医患问答数据中的问题，使用Lucene索引工具进行相关性答案检索召回，将相关性答案作为负样本；根据获得的正样本和负样本构造答案选择数据集，并按照27:1～8:1的比例划分迁移学习数据集和训练预测数据集；

2.如权利要求1所述的一种基于迁移学习句向量的长文本答案选择方法，其特征在于，所述的MRR、Precision@K评价指标方法具体为：

将迁移学习句向量网络或训练预测网络的输出表示为pred＝[p₁,p₂,...,p_n]，其中p_i表示第i个候选答案的预测值0或1，0表示不相似，1表示相似，n表示样本集中的测试样例的个数；真实标签数据表示为label＝[t₁,t₂,,...,t_n]，其中t_i表示第i个候选答案的真实标签0或1，0表示不相似，1表示相似；针对一个问题的所有候选答案，通过迁移学习句向量网络或训练预测网络获取二分类值之后进行排序，得到针对第i个问题的正确答案的排名rank_i；

MRR计算公式为：

其中，Q为问题集合，|Q|表示所有问题的数量；

Precision@K计算公式为：

其中，Precision表示精度，K表示指标中考虑的答案的个数，在本发明中取值为1、2和3，Num(True Answers)表示正确答案的个数，Sum(related K Answers)表示召回的相关答案总个数。

3.如权利要求1所述的一种基于迁移学习句向量的长文本答案选择方法，其特征在于，所述的迁移学习句向量网络包括孪生网络结构、注意力聚合结构和分类层，所述孪生网络结构包括成对的输入层、特征提取层、池化层，所述的注意力聚合结构包括注意力层、聚合网络层；所述的特征提取层采用BERT进行建模，并且BERT采用全词覆盖的BERT权重参数进行初始化；

将问题池化输出Q pool和答案池化输出A pool输入到注意力层，通过注意力机制分别得到问题语义对齐向量Z₂和答案语义对齐向量Z₂'；将Q pool、A pool、Z₂和Z₂'输入到聚合网络层，针对问题，Q pool和Z₂通过[Q pool,Z₂],[Q pool,Q pool-Z₂],[Q pool,Q pool*Z₂]变换，然后经过一层线性变换拼接得到拼接向量[O₁,O₂,O₃]，所述的拼接向量经过一层线性变换并使用DropOut机制，得到问题注意力聚合输出Fused_Q；同理，针对答案，A pool和Z₂'经过聚合网络层，得到答案注意力聚合输出Fused_A；

将Fused_Q、Fused_A、Q pool、A pool进一步拼接得到[Q pool,A pool,|Q pool-A pool|,Q pool*A pool,Fused Q,Fused A]，将拼接向量输入到分类层，通过Softmax分类得到预测输出pred＝[p₁,p₂,...,p_n]，其中p_i表示第i个候选答案的预测值0或1，0表示不相似，1表示相似，n表示样本集中的测试样例的个数。

4.如权利要求1所述的一种基于迁移学习句向量的长文本答案选择方法，其特征在于，所述的步骤3)中语义相似度的计算方法采用余弦距离、曼哈顿距离、欧拉度量、点乘度量中的任意一种。