CN113742471B - 一种普法问答***的向量检索式对话方法 - Google Patents
一种普法问答***的向量检索式对话方法 Download PDFInfo
- Publication number
- CN113742471B CN113742471B CN202111081901.4A CN202111081901A CN113742471B CN 113742471 B CN113742471 B CN 113742471B CN 202111081901 A CN202111081901 A CN 202111081901A CN 113742471 B CN113742471 B CN 113742471B
- Authority
- CN
- China
- Prior art keywords
- question
- vector
- text
- binary tree
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 125
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000007429 general method Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000005259 measurement Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 8
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 4
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 241000220225 Malus Species 0.000 description 2
- 235000021016 apples Nutrition 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 235000009754 Vitis X bourquina Nutrition 0.000 description 1
- 235000012333 Vitis X labruscana Nutrition 0.000 description 1
- 240000006365 Vitis vinifera Species 0.000 description 1
- 235000014787 Vitis vinifera Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000013067 intermediate product Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种普法问答***的向量检索式对话方法,其包括步骤1:构建普法问答***的法律问答数据集;步骤2:构建问句数据集的向量索引;步骤3:将问题文本输入普法问答***;步骤4:根据问题文本生成句意向量;步骤5:根据向量索引检索到与问题句意向量最相似的目标问句,并在法律问答数据集中找到对应的答案;步骤6:将返回的答案合成为语音输出给咨询者;本发明通过bert模型生成句意向量,解决了词表征中一词多义的问题,语义匹配的准确率高;其建立的二叉树索引解决了随机选取的样本中心点可能导致某个二叉树检索效果并不好的技术问题,并且平衡了不同度量函数对于文本语义向量相似度计算所产生偏差,能够有效提高检索准确率。
Description
技术领域
本发明涉及人机对话***技术领域,特别涉及一种问答***的对话方法。
背景技术
基于法律领域的问答***是普法机器人***最为核心的功能,咨询者提出问题,计算机能够对问题进行正确的理解是问答***的第一步,只有清楚咨询者的意图,才能根据咨询者意愿检索出相匹配的答案。计算机无法理解自然语言,因此必须将自然语言表征为向量,才能使计算机有效识别。
文本句向量一般是由词向量生成模型先将一个中文句子中的每个词转成固定维度的词向量,词向量中编码进了词语与词语之间的相似性和差异性,然后通过词向量累加、TF-IDF加权平均等方法计算得到。
传统词向量生成方法包括:Bow模型和Word2Vec模型。
①Bow模型
Bow模型也称为词袋模型,它通过统计词频的方式来实现文本信息的向量表征。对于一个文本,它将其中每个词语都看成是相互独立的,只关注它们出现的次数,而不关心出现顺序、语法等其他影响因素。
Bow模型首先需要对语料中出现的所有词语进行统计,构建一个词汇表。对于需要获取向量表示的文本,则统计词汇表中每个词语在该文本中出现的次数。最后可以获取一个N维的稀疏向量来表征该文本,其中,N表示词汇表的大小,词汇表中每个词语在该文本中出现的频数对应着每一维的值。
Bow模型原理简单,容易理解与实现,但却有明显的缺点:第一,它忽略了文本词汇间上下文结构关系,仅通过统计各个词汇在文本中出现的次数来表征该词汇在文本中的重要程度;第二,在构建词汇表时,由于语料库一般都比较大,因此对应的词汇表也较大,但每条语料所包含的词汇并不多,会导致Bow模型生成的文本向量十分稀疏,存储和计算的难度都比较大;第三,一个词汇通常不仅包含一种含义,该模型无法区分词汇在整个文本中所表示的含义,例如,“小明喜欢吃苹果”和“小明喜欢用苹果”经由该模型所获取的向量表征很相似,但明显意思不同。
②Word2Vec模型
Word2Vec模型是一种基于迭代的模型,它预期处理的语言任务是上下文的预测,生成词向量是该模型在训练过程中的中间产物。按照模型结构划分,它可以划分为两种,一种是连续词袋模型CBOW,另一种则是跳字模型Skip-Gram。两种结构的模型输入均为语料的one-hot向量,one-hot向量可以表示为R|V|×1,其中|V|表示词汇表中词语的总量。只需要确定某词语在词汇表中的索引位置,那么其one-hot向量中与索引位置对应的元素值为1,其余位置值均为0。例如,词汇表为{“我”,“喜欢”,“吃”,“葡萄”},则“我”的one-hot向量为{1,0,0,0}。这种表示方法的缺陷在于每个词都是相互独立的,无法计算词语之间的相似度。Word2Vec就是将词语的one-hot向量映射到低维空间形成词向量,能够较好的体现词语之间的相似性。
从上述分析可知,使用传统的词向量生成方法来获取文本的向量表征,都具有各自明显的局限性,对于BOW模型来说,它忽略了句子的语序语法等重要因素,仅依靠统计词频的方式来获取文本向量并无法完整表达文本的语义信息;对于Word2Vec模型来说,虽然通过浅层的神经网络将文本信息压缩到一个较低维的空间中,且在表征语义相似性方面效果不错,但是获取的词向量仍然是静态的,无法解决一词多义的问题,且无法表征上下文语境。
构建问句的表征向量是本检索式问答***的上游任务,后续需要根据问题的句意向量在问答数据集中检索出与其最相似的目标问句,然后返回问题答案。为了检索效率,通常要给问答数据集建立向量索引。在构建向量索引构建时,不同向量距离度量函数对向量相似度的影响并不完全相同,现有技术中在构建向量索引构建时通常只选择同一种通常距离度量函数。而若能有效平衡不同度量函数对于文本语义向量相似度计算所产生偏差,则能够有效提高检索准确率。
发明内容
有鉴于此,本发明的目的是提供一种普法问答***的向量检索式对话方法,以解决传统BOW模型及Word2Vec模型词向量生成方法所存在的技术缺点,并解决不同度量函数对于文本语义向量相似度计算所产生偏差,以提高检索准确率的技术问题。
本发明普法问答***的向量检索式对话方法,其包括:
步骤1:构建普法问答***的法律问答数据集,所述法律问答数据集由问句数据集和与问句数据集对应的答案数据集构成;
步骤2:对问句数据集中每条问句构建特征向量,并构建问句数据集的向量索引;
步骤3:识别咨询者的语音获得问题文本,将问题文本输入普法问答***;
步骤4:普法问答***根据问题文本生成句意向量;
步骤5:普法问答***根据问句数据集的向量索引检索到与问题文本的句意向量最相似的目标问句,并根据目标问句的ID在法律问答数据集中找到对应的答案;
步骤6:普法问答***将检索返回的答案合成为语音输出给咨询者;
其特征在于:
所述问句数据集的向量索引为由Annoy向量检索算法创建的二叉树索引,创建二叉树索引包括以下步骤:
I)在问句数据集中随机选择两个样本点作为初始样本中心点,然后做聚类数为2的kmeans操作,整个聚类过程收敛后,会得到两个聚类中心点;将这两个聚类中心点相连得到一条线段,过该线段的中心点做一条垂直平分该线段的线将整个问句数据集的特征空间划分为两个子空间;
II)在子空间中依照步骤I)中的方法继续进行迭代划分,直到每个子空间中的样本点数不超过k即得到二叉树索引;其中k根据样本点总数自动设定;
III)重复步骤I)和步骤II),得到若干个二叉树索引;且所得到的若干个二叉树索引中一部分为是基于余弦距离度量的二叉树索引,另一部分是基于欧式距离度量的二叉树索引;
在步骤5中普法问答***根据问句数据集的向量索引检索与问题文本的句意向量最相似的目标问句包括以下步骤:
a)加载二叉树索引对根据问题文本生成的句意向量进行检索,在二叉树索引遍历过程中,每棵二叉树索引返回K个检索结果,N棵二叉树索引返回N*K个近邻相似结果,对这N*K个近邻相似结果进行聚合操作,按照出现的次数返回前K个近邻相似结果;
b)对于步骤a)得到的前K个近邻相似结果,基于余弦距离构建的二叉树索引采用余弦公式计算向量间的距离并对结果进行降序排列,构成第一个候选集;基于欧式距离构建的二叉树索引则采用欧式公式计算向量间的距离并进行降序排列,构成第二个候选集;
c)首先返回两个候选集中都存在的近邻结果K1,然后从第一个候选集中选择(K-K1)/2个近邻结果,并从第二个候选集也依次选择(K-K1)/2个近邻结果,共返回K个结果;
d)将返回的K个结果分别与问题文本的句意向量进行余弦相似度计算,将余弦相似度最大的结果作为与问题文本的句意向量最相似的目标问句。
进一步,所述步骤4中普法问答***根据问题文本生成句意向量包括以下步骤:
1)普法问答***通过Bert模型对问题文本进行分词处理:将中文文本按字拆分为单个token,获得字列表tokens,然后在句前与句后分别添加标签[CLS]和[SEP],并且针对每个token都将段嵌入segment_id置为0;
2)查询Bert模型的词汇表vocab将字列表tokens转化为input_ids的形式,且编码层要求输入文本的长度为设定的max_len长度,对于长度不足的问题文本,将input_ids添0来补充;并设定input_mask为1或0来对应input_ids,用于区分问题文本中有实意的token和补充的无实意token;
3)将intput_ids,segment_id以及input_mask作为transformer层的输入,Bert模型的各个transformer层将输入编码为特征向量,将最后一层transformer输出的各个特征向量作为对应token的表征向量,忽略无实意token对应的表征向量,然后将有实意token的表征向量相加求平均得到问题文本的句意向量。
本发明的有益效果:
1、本发明普法问答***的向量检索式对话方法,其通过bert模型生成问题文本的句意向量,Bert是一种动态的词向量表征,会通过不同的上下文去调整每个词的词表征,解决了词表征中一词多义的问题。Bert模型随着transformer层数增加,它获取的语义信息也更充分,选取最后一层transformer输出的表征向量,语义匹配的准确率最高,能更好的表征上下文语境,表征效果最好。由于现有CBOW获取的词向量是静态的,没有融合上下文语义,且存在一词多义的问题无法解决,因此其语义匹配的准确率相对与本发明中的bert模型会低很多。
2、本发明普法问答***的向量检索式对话方法,其采用Annoy向量检索算法创建问句数据集的二叉树索引,由于在创建二叉树索引结构时随机选取的样本中心点可能会导致该二叉树检索效果并不好。本发明通过建立多棵二叉树索引并在检索时同时加在各个二叉树索引对问题句意向量进行检索,解决了随机选取的样本中心点可能导致某个二叉树检索效果并不好的技术问题。
3、本发明普法问答***的向量检索式对话方法,其所建立的二叉树索引中一部分是基于余弦距离度量建立的,另一部分是基于欧式距离度量建立的,在检索过程中两中独立方式的二叉树索引共同返回K个检索结果,从而平衡了不同度量函数对于文本语义向量相似度计算所产生偏差,能够有效提高检索准确率。
附图说明
图1为Bert模型网络结构图。图中E代表输入序列的嵌入;Tran表示transformer结构中的编码器encoder,它的作用是将输入序列编码为特征向量;T表示输入序列在最后一层transformer所生成的词向量表征。
图2为Bert模型的输入表征。图中,Token Embeddings:词嵌入,它是将输入文本中的每个token均转化为固定维度的向量以便计算机识别,Bert中是转换为768维的向量进行表示。图中,Segment Embeddings:段嵌入,它主要解决的是句子对的分类任务,帮助区分两个句子;段嵌入的向量表示只有0和1,如果是两个不同的句子,那么会将第一个句子中的每个token都赋0,第二个句子中的每个token都赋1;如果只有一个句子,那么就全赋0。图中,Position Embeddings:位置嵌入,因为Bert采用的网络架构为多层双向transformer,不同于RNN,它无法编码输入序列的顺序。位置嵌入的功能就是将词语的位置信息以向量的形式记录下来。Bert的位置嵌入采用的是绝对位置,且它对输入序列的长度有要求,最多允许其包含512个token,因此Bert在这512个位置都训练了一个不同的向量来进行表征。
图3为二叉树索引检索示意图。
图4为多度量结合示意图。
图5为聚合重排序示意图。
图6为问答流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步描述。
本实施例普法问答***的向量检索式对话方法,其包括以下步骤:
步骤1:构建普法问答***的法律问答数据集,所述法律问答数据集由问句数据集和与问句数据集对应的答案数据集构成。
问答数据集是检索式问答***的核心,咨询者所有可能获取到的答案均来自于此数据集,如果该问答对数据集没有涵盖与咨询者问题相匹配的问答语料,那么即使此问答***在后续的文本语义向量表示以及向量检索步骤做得十分精确与高效,问答***依然无法反馈给咨询者匹配的答案。在具体实施中,可以通过人工编写网络爬虫从法律问答社区中获取初始问答语料,然后对初始语料数据进行清洗,去重以及整理等操作后用于构建数据集。将通过网络爬虫爬取到的初始问答对语料***MongoDB数据库进行存储,数据包含的属性有数据ID,问题以及答案。
步骤2:对问句数据集中每条问句构建特征向量,并构建问句数据集的向量索引。本步骤中问句数据集的向量索引为由Annoy向量检索算法创建的二叉树索引,创建二叉树索引包括以下步骤:
I)在问句数据集中随机选择两个样本点作为初始样本中心点,然后做聚类数为2的kmeans操作,整个聚类过程收敛后,会得到两个聚类中心点;将这两个聚类中心点相连得到一条线段,过该线段的中心点做一条垂直平分该线段的线将整个问句数据集的特征空间划分为两个子空间;
II)在子空间中依照步骤I)中的方法继续进行迭代划分,直到每个子空间中的样本点数不超过k即得到二叉树索引;其中k根据样本点总数自动设定;
III)重复步骤I)和步骤II),得到若干个二叉树索引。由于在做kmeans聚类时选取的随机中心点会影响后续所创建的二叉树,因此为解决这一缺陷,本步骤通过建立多棵二叉树的方式来减小这一影响,并行对多棵二叉树同时检索,便可以得到与目标点target相近点的大致分布。
Annoy更好的融合了聚类的思想,且通过Annoy构建好的向量索引可以以文件的形式进行保存,后续可以直接加载使用,即它的索引创建与检索是分离的。
作为对步骤2的一种改进,所述步骤III)得到的若干个二叉树索引中:一部分为是基于余弦距离度量的二叉树索引,另一部分是基于欧式距离度量的二叉树索引。由于向量索引构建时,不同向量距离度量函数对向量相似度的影响并不完全相同。考虑到不同距离度量函数对计算向量相似度的影响,因此本改进提出多度量结合的方法来构建二叉树索引,以提高检索精度,减小单一距离度量方式产生的误差。
步骤3:识别咨询者的语音获得问题文本,将问题文本输入普法问答***。具体实施中,咨询者通过麦克风向普法问答***输入语音问题,语音问题再通过语音识别模块转化为文本信息作为普法问答***的输入。
步骤4:普法问答***根据问题文本生成句意向量,其包括以下步骤:
1)普法问答***通过Bert模型对问题文本进行分词处理:将中文文本按字拆分为单个token,获得字列表tokens,然后在句前与句后分别添加标签[CLS]和[SEP],并且针对每个token都将段嵌入segment_id置为0;
2)查询Bert模型的词汇表vocab将字列表tokens转化为input_ids的形式,且编码层要求输入文本的长度为设定的max_len长度,对于长度不足的问题文本,将input_ids添0来补充;并设定input_mask为1或0来对应input_ids,用于区分问题文本中有实意的token和补充的无实意token;
3)将intput_ids,segment_id以及input_mask作为transformer层的输入,Bert模型的各个transformer层将输入编码为特征向量,将最后一层transformer输出的各个特征向量作为对应token的表征向量,忽略无实意token对应的表征向量,然后将有实意token的表征向量相加求平均得到问题文本的句意向量。
步骤5:普法问答***根据问句数据集的向量索引检索到与问题文本的句意向量最相似的目标问句,并根据目标问句的ID在法律问答数据集中找到对应的答案。
根据问句数据集的向量索引检索与问题文本的句意向量最相似的目标问句包括以下步骤:
a)加载二叉树索引对根据问题文本生成的句意向量进行检索,在二叉树索引遍历过程中,每棵二叉树索引返回K个检索结果,N棵二叉树索引返回N*K个近邻相似结果,对这N*K个近邻相似结果进行聚合操作,按照出现的次数返回前K个近邻相似结果;
b)对于步骤a)得到的前K个近邻相似结果,基于余弦距离构建的二叉树索引采用余弦公式计算向量间的距离并对结果进行降序排列,构成第一个候选集;基于欧式距离构建的二叉树索引则采用欧式公式计算向量间的距离并进行降序排列,构成第二个候选集;
c)首先返回两个候选集中都存在的近邻结果K1,然后从第一个候选集中选择(K-K1)/2个近邻结果,并从第二个候选集也依次选择(K-K1)/2个近邻结果,共返回K个结果;
d)将返回的K个结果分别与问题文本的句意向量进行余弦相似度计算,将余弦相似度最大的结果作为与问题文本的句意向量最相似的目标问句。在具体实施中,还可进一步设置条件判断最大余弦相似度是否大于0.9,若大于0.9则向普法问答***返回问题答案,否则存储问题并返回空文本;如此可进一步提高回答的准确性。
步骤6:普法问答***将检索返回的答案合成为语音输出给咨询者。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (2)
1.一种普法问答***的向量检索式对话方法,包括:
步骤1:构建普法问答***的法律问答数据集,所述法律问答数据集由问句数据集和与问句数据集对应的答案数据集构成;
步骤2:对问句数据集中每条问句构建特征向量,并构建问句数据集的向量索引;
步骤3:识别咨询者的语音获得问题文本,将问题文本输入普法问答***;
步骤4:普法问答***根据问题文本生成句意向量;
步骤5:普法问答***根据问句数据集的向量索引检索到与问题文本的句意向量最相似的目标问句,并根据目标问句的ID在法律问答数据集中找到对应的答案;
步骤6:普法问答***将检索返回的答案合成为语音输出给咨询者;
其特征在于:
所述问句数据集的向量索引为由Annoy向量检索算法创建的二叉树索引,创建二叉树索引包括以下步骤:
I)在问句数据集中随机选择两个样本点作为初始样本中心点,然后做聚类数为2的kmeans操作,整个聚类过程收敛后,会得到两个聚类中心点;将这两个聚类中心点相连得到一条线段,过该线段的中心点做一条垂直平分该线段的线将整个问句数据集的特征空间划分为两个子空间;
II)在子空间中依照步骤I)中的方法继续进行迭代划分,直到每个子空间中的样本点数不超过k即得到二叉树索引;其中k根据样本点总数自动设定;
III)重复步骤I)和步骤II),得到若干个二叉树索引;且所得到的若干个二叉树索引中一部分为是基于余弦距离度量的二叉树索引,另一部分是基于欧式距离度量的二叉树索引;
在步骤5中普法问答***根据问句数据集的向量索引检索与问题文本的句意向量最相似的目标问句包括以下步骤:
a)加载二叉树索引对根据问题文本生成的句意向量进行检索,在二叉树索引遍历过程中,每棵二叉树索引返回K个检索结果,N棵二叉树索引返回N*K个近邻相似结果,对这N*K个近邻相似结果进行聚合操作,按照出现的次数返回前K个近邻相似结果;
b)对于步骤a)得到的前K个近邻相似结果,基于余弦距离构建的二叉树索引采用余弦公式计算向量间的距离并对结果进行降序排列,构成第一个候选集;基于欧式距离构建的二叉树索引则采用欧式公式计算向量间的距离并进行降序排列,构成第二个候选集;
c)首先返回两个候选集中都存在的近邻结果K1,然后从第一个候选集中选择(K-K1)/2个近邻结果,并从第二个候选集也依次选择(K-K1)/2个近邻结果,共返回K个结果;
d)将返回的K个结果分别与问题文本的句意向量进行余弦相似度计算,将余弦相似度最大的结果作为与问题文本的句意向量最相似的目标问句。
2.根据权利要求1所述的普法问答***的向量检索式对话方法,其特征在于:所述步骤4中普法问答***根据问题文本生成句意向量包括以下步骤:
1)普法问答***通过Bert模型对问题文本进行分词处理:将中文文本按字拆分为单个token,获得字列表tokens,然后在句前与句后分别添加标签[CLS]和[SEP],并且针对每个token都将段嵌入segment_id置为0;
2)查询Bert模型的词汇表vocab将字列表tokens转化为input_ids的形式,且编码层要求输入文本的长度为设定的max_len长度,对于长度不足的问题文本,将input_ids添0来补充;并设定input_mask为1或0来对应input_ids,用于区分问题文本中有实意的token和补充的无实意token;
3)将intput_ids,segment_id以及input_mask作为transformer层的输入,Bert模型的各个transformer层将输入编码为特征向量,将最后一层transformer输出的各个特征向量作为对应token的表征向量,忽略无实意token对应的表征向量,然后将有实意token的表征向量相加求平均得到问题文本的句意向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111081901.4A CN113742471B (zh) | 2021-09-15 | 2021-09-15 | 一种普法问答***的向量检索式对话方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111081901.4A CN113742471B (zh) | 2021-09-15 | 2021-09-15 | 一种普法问答***的向量检索式对话方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113742471A CN113742471A (zh) | 2021-12-03 |
CN113742471B true CN113742471B (zh) | 2023-09-12 |
Family
ID=78739104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111081901.4A Active CN113742471B (zh) | 2021-09-15 | 2021-09-15 | 一种普法问答***的向量检索式对话方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113742471B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100360B (zh) * | 2020-10-30 | 2024-02-02 | 北京淇瑀信息科技有限公司 | 一种基于向量检索的对话应答方法、装置和*** |
CN114416701A (zh) * | 2022-03-30 | 2022-04-29 | 威海海洋职业学院 | 一种基于大数据的财务咨询智能引导***及方法 |
CN114817511B (zh) * | 2022-06-27 | 2022-09-23 | 深圳前海环融联易信息科技服务有限公司 | 基于核主成分分析的问答交互方法、装置及计算机设备 |
CN116932730B (zh) * | 2023-09-14 | 2023-12-01 | 天津汇智星源信息技术有限公司 | 基于多叉树和大规模语言模型的文档问答方法及相关设备 |
CN117668198A (zh) * | 2023-12-15 | 2024-03-08 | 暗物质(北京)智能科技有限公司 | 一种问答处理方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101582073A (zh) * | 2008-12-31 | 2009-11-18 | 北京中机科海科技发展有限公司 | 一种基于领域本体的智能检索***及方法 |
CN110598078A (zh) * | 2019-09-11 | 2019-12-20 | 京东数字科技控股有限公司 | 数据检索方法及装置、计算机可读存储介质、电子设备 |
WO2020112177A1 (en) * | 2018-11-28 | 2020-06-04 | Intuit Inc. | Detecting duplicated questions using reverse gradient adversarial domain adaptation |
CN111581354A (zh) * | 2020-05-12 | 2020-08-25 | 金蝶软件(中国)有限公司 | 一种faq问句相似度计算方法及其*** |
CN112395396A (zh) * | 2019-08-12 | 2021-02-23 | 科沃斯商用机器人有限公司 | 问答匹配和搜索方法、设备、***及存储介质 |
CN112417127A (zh) * | 2020-12-02 | 2021-02-26 | 网易(杭州)网络有限公司 | 对话模型的训练、对话生成方法、装置、设备及介质 |
CN113345466A (zh) * | 2021-06-01 | 2021-09-03 | 平安科技(深圳)有限公司 | 基于多麦克风场景的主说话人语音检测方法、装置及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7523127B2 (en) * | 2002-01-14 | 2009-04-21 | Testout Corporation | System and method for a hierarchical database management system for educational training and competency testing simulations |
US10824622B2 (en) * | 2013-11-25 | 2020-11-03 | Sap Se | Data statistics in data management systems |
-
2021
- 2021-09-15 CN CN202111081901.4A patent/CN113742471B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101582073A (zh) * | 2008-12-31 | 2009-11-18 | 北京中机科海科技发展有限公司 | 一种基于领域本体的智能检索***及方法 |
WO2020112177A1 (en) * | 2018-11-28 | 2020-06-04 | Intuit Inc. | Detecting duplicated questions using reverse gradient adversarial domain adaptation |
CN112395396A (zh) * | 2019-08-12 | 2021-02-23 | 科沃斯商用机器人有限公司 | 问答匹配和搜索方法、设备、***及存储介质 |
CN110598078A (zh) * | 2019-09-11 | 2019-12-20 | 京东数字科技控股有限公司 | 数据检索方法及装置、计算机可读存储介质、电子设备 |
CN111581354A (zh) * | 2020-05-12 | 2020-08-25 | 金蝶软件(中国)有限公司 | 一种faq问句相似度计算方法及其*** |
CN112417127A (zh) * | 2020-12-02 | 2021-02-26 | 网易(杭州)网络有限公司 | 对话模型的训练、对话生成方法、装置、设备及介质 |
CN113345466A (zh) * | 2021-06-01 | 2021-09-03 | 平安科技(深圳)有限公司 | 基于多麦克风场景的主说话人语音检测方法、装置及设备 |
Non-Patent Citations (1)
Title |
---|
"基于虚拟现实的普法机器人***设计与实现";刘鹏;《中国优秀硕士学位论文全文数据库社会科学|辑》;第G114-12页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113742471A (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113742471B (zh) | 一种普法问答***的向量检索式对话方法 | |
CN112115238B (zh) | 一种基于bert和知识库的问答方法和*** | |
CN110321419B (zh) | 一种融合深度表示与交互模型的问答匹配方法 | |
US20230039496A1 (en) | Question-and-answer processing method, electronic device and computer readable medium | |
CN112035730B (zh) | 一种语义检索方法、装置及电子设备 | |
CN112269868B (zh) | 一种基于多任务联合训练的机器阅读理解模型的使用方法 | |
CN108710894B (zh) | 一种基于聚类代表点的主动学习标注方法和装置 | |
CN108304372A (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索*** | |
CN110765277B (zh) | 一种基于知识图谱的移动端的在线设备故障诊断方法 | |
CN116127095A (zh) | 一种序列模型与知识图谱结合的问答方法 | |
CN112948601B (zh) | 一种基于受控语义嵌入的跨模态哈希检索方法 | |
CN113239169B (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN104199965A (zh) | 一种语义信息检索方法 | |
CN110516145B (zh) | 一种基于句向量编码的信息搜索方法 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及*** | |
CN111191051A (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及*** | |
CN112989813A (zh) | 一种基于预训练语言模型的科技资源关系抽取方法及装置 | |
CN116662518A (zh) | 问答方法、装置、电子设备及可读存储介质 | |
CN117273134A (zh) | 一种基于预训练语言模型的零样本知识图谱补全方法 | |
CN115905487A (zh) | 文档问答方法、***、电子设备及存储介质 | |
CN107562907B (zh) | 一种智能律师专家案件应答装置 | |
CN117454898A (zh) | 一种根据输入文本实现法人实体标准化输出的方法及装置 | |
CN111125304A (zh) | 一种基于word2vec的专利文本自动分类方法 | |
CN107609096B (zh) | 一种智能律师专家应答方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |