CN113742471B

CN113742471B - 一种普法问答***的向量检索式对话方法

Info

Publication number: CN113742471B
Application number: CN202111081901.4A
Authority: CN
Inventors: 沈志熙; 刘鹏
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2023-09-12
Anticipated expiration: 2041-09-15
Also published as: CN113742471A

Abstract

本发明公开了一种普法问答***的向量检索式对话方法，其包括步骤1：构建普法问答***的法律问答数据集；步骤2：构建问句数据集的向量索引；步骤3：将问题文本输入普法问答***；步骤4：根据问题文本生成句意向量；步骤5：根据向量索引检索到与问题句意向量最相似的目标问句，并在法律问答数据集中找到对应的答案；步骤6：将返回的答案合成为语音输出给咨询者；本发明通过bert模型生成句意向量，解决了词表征中一词多义的问题，语义匹配的准确率高；其建立的二叉树索引解决了随机选取的样本中心点可能导致某个二叉树检索效果并不好的技术问题，并且平衡了不同度量函数对于文本语义向量相似度计算所产生偏差，能够有效提高检索准确率。

Description

一种普法问答***的向量检索式对话方法

技术领域

本发明涉及人机对话***技术领域，特别涉及一种问答***的对话方法。

背景技术

基于法律领域的问答***是普法机器人***最为核心的功能，咨询者提出问题，计算机能够对问题进行正确的理解是问答***的第一步，只有清楚咨询者的意图，才能根据咨询者意愿检索出相匹配的答案。计算机无法理解自然语言，因此必须将自然语言表征为向量，才能使计算机有效识别。

文本句向量一般是由词向量生成模型先将一个中文句子中的每个词转成固定维度的词向量，词向量中编码进了词语与词语之间的相似性和差异性，然后通过词向量累加、TF-IDF加权平均等方法计算得到。

传统词向量生成方法包括：Bow模型和Word2Vec模型。

①Bow模型

Bow模型也称为词袋模型，它通过统计词频的方式来实现文本信息的向量表征。对于一个文本，它将其中每个词语都看成是相互独立的，只关注它们出现的次数，而不关心出现顺序、语法等其他影响因素。

Bow模型首先需要对语料中出现的所有词语进行统计，构建一个词汇表。对于需要获取向量表示的文本，则统计词汇表中每个词语在该文本中出现的次数。最后可以获取一个N维的稀疏向量来表征该文本，其中，N表示词汇表的大小，词汇表中每个词语在该文本中出现的频数对应着每一维的值。

Bow模型原理简单，容易理解与实现，但却有明显的缺点：第一，它忽略了文本词汇间上下文结构关系，仅通过统计各个词汇在文本中出现的次数来表征该词汇在文本中的重要程度；第二，在构建词汇表时，由于语料库一般都比较大，因此对应的词汇表也较大，但每条语料所包含的词汇并不多，会导致Bow模型生成的文本向量十分稀疏，存储和计算的难度都比较大；第三，一个词汇通常不仅包含一种含义，该模型无法区分词汇在整个文本中所表示的含义，例如，“小明喜欢吃苹果”和“小明喜欢用苹果”经由该模型所获取的向量表征很相似，但明显意思不同。

②Word2Vec模型

Word2Vec模型是一种基于迭代的模型，它预期处理的语言任务是上下文的预测，生成词向量是该模型在训练过程中的中间产物。按照模型结构划分，它可以划分为两种，一种是连续词袋模型CBOW，另一种则是跳字模型Skip-Gram。两种结构的模型输入均为语料的one-hot向量，one-hot向量可以表示为R|V|×1，其中|V|表示词汇表中词语的总量。只需要确定某词语在词汇表中的索引位置，那么其one-hot向量中与索引位置对应的元素值为1，其余位置值均为0。例如，词汇表为{“我”，“喜欢”，“吃”，“葡萄”}，则“我”的one-hot向量为{1，0，0，0}。这种表示方法的缺陷在于每个词都是相互独立的，无法计算词语之间的相似度。Word2Vec就是将词语的one-hot向量映射到低维空间形成词向量，能够较好的体现词语之间的相似性。

从上述分析可知，使用传统的词向量生成方法来获取文本的向量表征，都具有各自明显的局限性，对于BOW模型来说，它忽略了句子的语序语法等重要因素，仅依靠统计词频的方式来获取文本向量并无法完整表达文本的语义信息；对于Word2Vec模型来说，虽然通过浅层的神经网络将文本信息压缩到一个较低维的空间中，且在表征语义相似性方面效果不错，但是获取的词向量仍然是静态的，无法解决一词多义的问题，且无法表征上下文语境。

构建问句的表征向量是本检索式问答***的上游任务，后续需要根据问题的句意向量在问答数据集中检索出与其最相似的目标问句，然后返回问题答案。为了检索效率，通常要给问答数据集建立向量索引。在构建向量索引构建时，不同向量距离度量函数对向量相似度的影响并不完全相同，现有技术中在构建向量索引构建时通常只选择同一种通常距离度量函数。而若能有效平衡不同度量函数对于文本语义向量相似度计算所产生偏差，则能够有效提高检索准确率。

发明内容

有鉴于此，本发明的目的是提供一种普法问答***的向量检索式对话方法，以解决传统BOW模型及Word2Vec模型词向量生成方法所存在的技术缺点，并解决不同度量函数对于文本语义向量相似度计算所产生偏差，以提高检索准确率的技术问题。

本发明普法问答***的向量检索式对话方法，其包括：

步骤1：构建普法问答***的法律问答数据集，所述法律问答数据集由问句数据集和与问句数据集对应的答案数据集构成；

步骤2：对问句数据集中每条问句构建特征向量，并构建问句数据集的向量索引；

步骤3：识别咨询者的语音获得问题文本，将问题文本输入普法问答***；

步骤4：普法问答***根据问题文本生成句意向量；

步骤5：普法问答***根据问句数据集的向量索引检索到与问题文本的句意向量最相似的目标问句，并根据目标问句的ID在法律问答数据集中找到对应的答案；

步骤6：普法问答***将检索返回的答案合成为语音输出给咨询者；

其特征在于：

所述问句数据集的向量索引为由Annoy向量检索算法创建的二叉树索引,创建二叉树索引包括以下步骤：

I)在问句数据集中随机选择两个样本点作为初始样本中心点，然后做聚类数为2的kmeans操作，整个聚类过程收敛后，会得到两个聚类中心点；将这两个聚类中心点相连得到一条线段，过该线段的中心点做一条垂直平分该线段的线将整个问句数据集的特征空间划分为两个子空间；

II)在子空间中依照步骤I)中的方法继续进行迭代划分，直到每个子空间中的样本点数不超过k即得到二叉树索引；其中k根据样本点总数自动设定；

III)重复步骤I)和步骤II)，得到若干个二叉树索引；且所得到的若干个二叉树索引中一部分为是基于余弦距离度量的二叉树索引，另一部分是基于欧式距离度量的二叉树索引；

在步骤5中普法问答***根据问句数据集的向量索引检索与问题文本的句意向量最相似的目标问句包括以下步骤：

a)加载二叉树索引对根据问题文本生成的句意向量进行检索，在二叉树索引遍历过程中，每棵二叉树索引返回K个检索结果，N棵二叉树索引返回N*K个近邻相似结果，对这N*K个近邻相似结果进行聚合操作，按照出现的次数返回前K个近邻相似结果；

b)对于步骤a)得到的前K个近邻相似结果，基于余弦距离构建的二叉树索引采用余弦公式计算向量间的距离并对结果进行降序排列，构成第一个候选集；基于欧式距离构建的二叉树索引则采用欧式公式计算向量间的距离并进行降序排列，构成第二个候选集；

c)首先返回两个候选集中都存在的近邻结果K1，然后从第一个候选集中选择(K-K1)/2个近邻结果，并从第二个候选集也依次选择(K-K1)/2个近邻结果，共返回K个结果；

d)将返回的K个结果分别与问题文本的句意向量进行余弦相似度计算，将余弦相似度最大的结果作为与问题文本的句意向量最相似的目标问句。

进一步，所述步骤4中普法问答***根据问题文本生成句意向量包括以下步骤：

1)普法问答***通过Bert模型对问题文本进行分词处理：将中文文本按字拆分为单个token，获得字列表tokens，然后在句前与句后分别添加标签[CLS]和[SEP]，并且针对每个token都将段嵌入segment_id置为0；

2)查询Bert模型的词汇表vocab将字列表tokens转化为input_ids的形式，且编码层要求输入文本的长度为设定的max_len长度，对于长度不足的问题文本，将input_ids添0来补充；并设定input_mask为1或0来对应input_ids，用于区分问题文本中有实意的token和补充的无实意token；

3)将intput_ids，segment_id以及input_mask作为transformer层的输入，Bert模型的各个transformer层将输入编码为特征向量，将最后一层transformer输出的各个特征向量作为对应token的表征向量，忽略无实意token对应的表征向量，然后将有实意token的表征向量相加求平均得到问题文本的句意向量。

本发明的有益效果：

1、本发明普法问答***的向量检索式对话方法，其通过bert模型生成问题文本的句意向量，Bert是一种动态的词向量表征，会通过不同的上下文去调整每个词的词表征，解决了词表征中一词多义的问题。Bert模型随着transformer层数增加，它获取的语义信息也更充分，选取最后一层transformer输出的表征向量，语义匹配的准确率最高，能更好的表征上下文语境，表征效果最好。由于现有CBOW获取的词向量是静态的，没有融合上下文语义，且存在一词多义的问题无法解决，因此其语义匹配的准确率相对与本发明中的bert模型会低很多。

2、本发明普法问答***的向量检索式对话方法，其采用Annoy向量检索算法创建问句数据集的二叉树索引，由于在创建二叉树索引结构时随机选取的样本中心点可能会导致该二叉树检索效果并不好。本发明通过建立多棵二叉树索引并在检索时同时加在各个二叉树索引对问题句意向量进行检索，解决了随机选取的样本中心点可能导致某个二叉树检索效果并不好的技术问题。

3、本发明普法问答***的向量检索式对话方法，其所建立的二叉树索引中一部分是基于余弦距离度量建立的，另一部分是基于欧式距离度量建立的，在检索过程中两中独立方式的二叉树索引共同返回K个检索结果，从而平衡了不同度量函数对于文本语义向量相似度计算所产生偏差，能够有效提高检索准确率。

附图说明

图1为Bert模型网络结构图。图中E代表输入序列的嵌入；Tran表示transformer结构中的编码器encoder，它的作用是将输入序列编码为特征向量；T表示输入序列在最后一层transformer所生成的词向量表征。

图2为Bert模型的输入表征。图中，Token Embeddings：词嵌入，它是将输入文本中的每个token均转化为固定维度的向量以便计算机识别，Bert中是转换为768维的向量进行表示。图中，Segment Embeddings：段嵌入，它主要解决的是句子对的分类任务，帮助区分两个句子；段嵌入的向量表示只有0和1，如果是两个不同的句子，那么会将第一个句子中的每个token都赋0，第二个句子中的每个token都赋1；如果只有一个句子，那么就全赋0。图中，Position Embeddings：位置嵌入，因为Bert采用的网络架构为多层双向transformer，不同于RNN，它无法编码输入序列的顺序。位置嵌入的功能就是将词语的位置信息以向量的形式记录下来。Bert的位置嵌入采用的是绝对位置，且它对输入序列的长度有要求，最多允许其包含512个token，因此Bert在这512个位置都训练了一个不同的向量来进行表征。

图3为二叉树索引检索示意图。

图4为多度量结合示意图。

图5为聚合重排序示意图。

图6为问答流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步描述。

本实施例普法问答***的向量检索式对话方法，其包括以下步骤：

步骤1：构建普法问答***的法律问答数据集，所述法律问答数据集由问句数据集和与问句数据集对应的答案数据集构成。

问答数据集是检索式问答***的核心，咨询者所有可能获取到的答案均来自于此数据集，如果该问答对数据集没有涵盖与咨询者问题相匹配的问答语料，那么即使此问答***在后续的文本语义向量表示以及向量检索步骤做得十分精确与高效，问答***依然无法反馈给咨询者匹配的答案。在具体实施中，可以通过人工编写网络爬虫从法律问答社区中获取初始问答语料，然后对初始语料数据进行清洗，去重以及整理等操作后用于构建数据集。将通过网络爬虫爬取到的初始问答对语料***MongoDB数据库进行存储，数据包含的属性有数据ID，问题以及答案。

步骤2：对问句数据集中每条问句构建特征向量，并构建问句数据集的向量索引。本步骤中问句数据集的向量索引为由Annoy向量检索算法创建的二叉树索引，创建二叉树索引包括以下步骤：

III)重复步骤I)和步骤II)，得到若干个二叉树索引。由于在做kmeans聚类时选取的随机中心点会影响后续所创建的二叉树，因此为解决这一缺陷，本步骤通过建立多棵二叉树的方式来减小这一影响，并行对多棵二叉树同时检索，便可以得到与目标点target相近点的大致分布。

Annoy更好的融合了聚类的思想，且通过Annoy构建好的向量索引可以以文件的形式进行保存，后续可以直接加载使用，即它的索引创建与检索是分离的。

作为对步骤2的一种改进，所述步骤III)得到的若干个二叉树索引中：一部分为是基于余弦距离度量的二叉树索引，另一部分是基于欧式距离度量的二叉树索引。由于向量索引构建时，不同向量距离度量函数对向量相似度的影响并不完全相同。考虑到不同距离度量函数对计算向量相似度的影响，因此本改进提出多度量结合的方法来构建二叉树索引，以提高检索精度，减小单一距离度量方式产生的误差。

步骤3：识别咨询者的语音获得问题文本，将问题文本输入普法问答***。具体实施中，咨询者通过麦克风向普法问答***输入语音问题，语音问题再通过语音识别模块转化为文本信息作为普法问答***的输入。

步骤4：普法问答***根据问题文本生成句意向量，其包括以下步骤：

步骤5：普法问答***根据问句数据集的向量索引检索到与问题文本的句意向量最相似的目标问句，并根据目标问句的ID在法律问答数据集中找到对应的答案。

根据问句数据集的向量索引检索与问题文本的句意向量最相似的目标问句包括以下步骤：

d)将返回的K个结果分别与问题文本的句意向量进行余弦相似度计算，将余弦相似度最大的结果作为与问题文本的句意向量最相似的目标问句。在具体实施中，还可进一步设置条件判断最大余弦相似度是否大于0.9，若大于0.9则向普法问答***返回问题答案，否则存储问题并返回空文本；如此可进一步提高回答的准确性。

步骤6：普法问答***将检索返回的答案合成为语音输出给咨询者。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种普法问答***的向量检索式对话方法，包括：

步骤4：普法问答***根据问题文本生成句意向量；

其特征在于：

2.根据权利要求1所述的普法问答***的向量检索式对话方法，其特征在于：所述步骤4中普法问答***根据问题文本生成句意向量包括以下步骤：