CN111046152A

CN111046152A - Faq问答对自动构建方法、装置、计算机设备及存储介质

Info

Publication number: CN111046152A
Application number: CN201910969443.4A
Authority: CN
Inventors: 杨凤鑫; 徐国强
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-04-21
Anticipated expiration: 2039-10-12
Also published as: WO2021068352A1; CN111046152B

Abstract

本发明实施例公开了一种FAQ问答对自动构建方法、装置、计算机设备及存储介质。其中，所述方法属于人工智能和自然语言处理技术领域，其包括：获取待阅读的文档；对待阅读的文档进行解析并对解析后的文档进行分段以得到分段后的文档作为目标文档；根据待回答问题及预设的筛选模型，从目标文档中筛选出与待回答问题相匹配的段落作为目标段落；根据目标段落及待回答问题，基于预设的阅读理解模型生成FAQ问答对。本申请实施例由于是先筛选出与待回答问题相匹配的目标段落，再根据目标段落及待回答问题生成FAQ问答对，无需对非目标段落进行处理，在一定程度上减少了生成FAQ问答对时非目标段落带来的干扰信息，使生成的FAQ问答对匹配准确度更高。

Description

FAQ问答对自动构建方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能和自然语言处理技术领域，尤其涉及一种FAQ问答对自动构建方法、装置、计算机设备及存储介质。

背景技术

FAQ是英文Frequently Asked Questions的缩写，中文意思就是“经常问到的问题”，或者更通俗地叫做“常见问题解答”。FAQ被认为是一种常用的在线顾客服务手段，一个好的FAQ***，应该至少可以回答用户80％的一般问题以及常见问题。这样不仅方便了用户，也大大减轻了网站工作人员的压力，节省了大量的顾客服务成本，并且增加了顾客的满意度。因此，如何有效实现FAQ数据库的构建尤为重要。

而目前，问答领域的FAQ自动构建主要有以下三种方法：(1)通过对待阅读的文章和待回答的问题进行分词，获取分词后得到相应的词语串，将词语串输入到自动阅读理解模型中，即可输出与问题对应的答案。(2)根据用户提出的问题与问答库中的已有问句记录相似性，在已有的“问题-答案”对数据库中找到与用户提问相匹配的问句，并将其对应的答案返回给用户，完成FAQ对答。(3)采用对已经建立的FAQ，以人工录入的方式建立与标准问句对应的句式模板。对用户的问句用句式模板进行匹配，再通过句式模板与FAQ的映射，匹配到FAQ。以上三种方法虽然能在一定程度上匹配成功，实现FAQ问答对的自动构建，但FAQ问答对的匹配准确度仍然比较低。

发明内容

本发明实施例提供了一种FAQ问答对自动构建方法、装置、计算机设备及存储介质，旨在解决现有FAQ问答对自动构建匹配准确度比较低的问题。

第一方面，本发明实施例提供了一种FAQ问答对自动构建方法，其包括：

获取待阅读的文档；

对所述待阅读的文档进行解析并对解析后的文档进行分段以得到分段后的文档作为目标文档；

根据待回答问题及预设的筛选模型，从所述目标文档中筛选出与所述待回答问题相匹配的段落作为目标段落；

根据所述目标段落及所述待回答问题，基于预设的阅读理解模型生成FAQ问答对。

第二方面，本发明实施例还提供了一种FAQ问答对自动构建装置，其包括：

获取单元，用于获取待阅读的文档；

解析分段单元，用于对所述待阅读的文档进行解析并对解析后的文档进行分段以得到分段后的文档作为目标文档；

筛选单元，用于根据待回答问题及预设的筛选模型，从所述目标文档中筛选出与所述待回答问题相匹配的段落作为目标段落；

生成单元，用于根据所述目标段落及所述待回答问题，基于预设的阅读理解模型生成FAQ问答对。

第三方面，本发明实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现上述方法。

本发明实施例提供了一种FAQ问答对自动构建方法、装置、计算机设备及存储介质。其中，所述方法包括：获取待阅读的文档；对所述待阅读的文档进行解析并对解析后的文档进行分段以得到分段后的文档作为目标文档；根据待回答问题及预设的筛选模型，从所述目标文档中筛选出与所述待回答问题相匹配的段落作为目标段落；根据所述目标段落及所述待回答问题，基于预设的阅读理解模型生成FAQ问答对。本发明实施例的技术方案，由于是先筛选出与待回答问题相匹配的目标段落，再根据目标段落及待回答问题生成FAQ问答对，无需对非目标段落进行处理，在一定程度上减少了生成FAQ问答对时非目标段落带来的干扰信息，可使生成的FAQ问答对匹配准确度更高。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种FAQ问答对自动构建方法的场景示意图；

图2为本发明实施例提供的一种FAQ问答对自动构建方法的流程示意图；

图3为本发明实施例提供的一种FAQ问答对自动构建方法的子流程示意图；

图4为本发明实施例提供的一种FAQ问答对自动构建方法的子流程示意图；

图5为本发明实施例提供的一种FAQ问答对自动构建方法的子流程示意图；

图6为本发明另一实施例提供的一种FAQ问答对自动构建方法的流程示意图；

图7为本发明实施例提供的一种FAQ问答对自动构建装置的示意性框图；

图8为本发明实施例提供的FAQ问答对自动构建装置的解析分段单元的示意性框图；

图9为本发明实施例提供的FAQ问答对自动构建装置的筛选单元的示意性框图；

图10为本发明实施例提供的FAQ问答对自动构建装置的生成单元的示意性框图；

图11为本发明另一实施例提供的一种FAQ问答对自动构建装置的示意性框图；以及

图12为本发明实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

请参阅图1，图1是本发明实施例提供的一种FAQ问答对自动构建方法的场景示意图。本发明实施例的FAQ问答对自动构建方法可应用于服务器中，例如可通过配置于服务器上的软件程序来实现该FAQ问答对自动构建方法。服务器与终端进行通信，以使服务器调用用户通过终端上传的待阅读的文档并根据待回答的问题和待阅读文档进行一系列处理后得到FAQ问答对，实现FAQ问答对的自动构建。该终端可以为台式电脑、手提电脑、平板电脑等，在此不做具体限制。另外，在图1中，该终端和用户的个数为一个，可以理解的是，在实际应用过程中，该终端和用户的个数可以为多个，图1仅仅起到示意说明的作用。

请参阅图2，图2是本发明实施例提供的一种FAQ问答对自动构建方法的流程示意图。如图2所示，该方法包括以下步骤S100-S130。

S100、获取待阅读的文档。

具体地，服务器要实现FAQ问答对的自动构建，首先需获取待阅读的文档，进而基于该待阅读的文档进行一系列处理后才可生成FAQ问答对。在本发明实施例中，可由用户通过用户终端上传待阅读的文档，具体地，用户可通过用户终端的FAQ网页端上传待阅读的文档以将所述待阅读的文档发送到服务器。其中，在本发明实施例中，所述待阅读的文档为PDF文档。

需要说明的是，在其它实施例中，待阅读的文档也可以为其它类型的文档，例如Word文档。

S110、对所述待阅读的文档进行解析并对解析后的文档进行分段以得到分段后的文档作为目标文档。

具体地，服务器获取了待阅读的文档之后需对该待阅读的文档进行解析，以得到所需格式的文档，进而将该文档中的内容进行分段以最终得到具有预设文档结构的文档。

请参阅图3，在一实施例中，例如在本发明实施例中，所述步骤S110包括如下步骤S111-S112。

S111、对所述待阅读的文档采用层叠CRF模型进行解析以得到XML文档。

S112、通过预设分段方式对所述XML文档进行分段，以得到具有预设文档结构的文档作为目标文档。

在本发明实施例中，采用层叠CRF模型对待阅读的文档进行解析，以得到XML文档。其中，CRF为Conditional Random Field的缩写，其中文全称为条件随机域，本实施例中之所以采用层叠CRF模型，是因为层叠CRF模型对待阅读的文档进行解析的处理时间比较短且处理效果较好。XML为Extensible Markup Language的缩写，其中文全称为可扩展标记语言。在对待阅读的文档进行解析而得到XML文档之后，需再对XML文档进行分段以得到分段后的文档作为目标文档。具体地，可通过预设的分段方式来实现对XML文档进行分段，其中所采用的分段方式包括有多种方式，譬如在本实施例中所选择的分段方式是以二级标题作为分段。在其它实施例中，也可以根据实际需求选择采用一级标题或文章段落等其它分段方式。

需要说明的是，在其它实施例中，也可采用其它模型对待阅读的文档进行解析，例如可采用隐马尔可夫模型，也即HMM(Hidden Markov Model)模型。

S120、根据待回答问题及预设的筛选模型，从所述目标文档中筛选出与所述待回答问题相匹配的段落作为目标段落。

具体地，服务器对待阅读的文档进行解析并对解析后的文档进行分段获得目标文档之后，还需对目标文档进行筛选以得到与待回答问题相匹配的段落作为目标段落。在本发明实施例中，待回答的问题为存储于预设数据库中的问题模板中的问题。具体地，用户在终端的FAQ网页端上传待阅读的文档之后，可根据上传的待阅读的文档内容或者文档名选择相应的问题模板。例如，若用户在FAQ网页端页面上传待阅读的文档内容为寿险或意外险，则选择与寿险或意外险相关的问题模板，该问题模板中包括了与寿险或意外险相关的多个常见问题。服务器根据用户的选择调用相应的问题模板并根据问题模板中的问题及预设的筛选模型，从目标文档中筛选出与问题模板中的问题相匹配的段落作为目标段落。

在某些实施例，例如本发明实施例中，如图4所示，所述步骤S120可包括以下步骤S121-S123。

S121、根据所述待回答问题及预设的所述筛选模型对所述目标文档进行编码以得到第一段落文本向量。

在本发明实施例中，为实现对目标文档进行筛选以得到与待回答问题相匹配的段落，首先需要根据待回答问题及筛选模型对目标文档进行编码得到第一段落文本向量。其中，预设的筛选模型例如为Bert(Bidirectional Encoder Representations FromTransformers)模型。Bert模型是一种基于Transformer采用了双向语言的一种模型，能够提取到文档的语法语义信息，并且还能够结合文档上下文信息进行提取。具体地，服务器根据待回答问题及Bert模型对目标文档生成第一段落文本向量。其中，第一段落文本向量为三维向量，该三维向量为目标文档的文本向量表示。之所以采用Bert模型对目标文档生成第一段落文本向量，是因为Bert模型能够提取目标文档的语法语义信息，并且还能够结合目标文档上下文信息进行提取，提高提取的准确性。

需要说明的是，在其它实施例中，根据实际需求也可采用其它模型对目标文档进行筛选得到目标段落，例如Word2vec(Word to vector)模型。

S122、根据所述待回答问题计算每个所述第一段落文本向量与所述待回答问题相匹配的概率。

S123、将概率最大的所述第一段落文本向量所对应的段落确定为与所述待回答问题相匹配的段落，并作为目标段落。

在本发明实施例中，服务器根据待回答问题及Bert模型对目标文档生成第一段落文本向量之后，还需根据待回答问题计算每个第一段落文本向量与待回答问题相匹配的概率并对计算出的概率进行排序取概率最大的第一段落文本向量所对应的段落作为目标段落。具体地，使用Softmax函数根据待回答问题计算每个第一段落文本向量与待回答问题相匹配的概率，得到概率之后再对计算出的概率进行排序，取概率最大的第一段落文本向量所对应的段落作为目标段落。

S130、根据所述目标段落及所述待回答问题，基于预设的阅读理解模型生成FAQ问答对。

具体地，服务器从目标文档中筛选出与待回答问题相匹配的段落之后，会根据筛选出的段落及待回答问题生成FAQ问答对。具体地，可通过预设的阅读理解模型自动生成FAQ问答对。其中，所述阅读理解模型用于根据目标段落及待回答问题在目标段落中预测出与待回答问题相对应的答案的开始和结束的位置，从而确定答案，生成FAQ问答对。在本发明实施例中，由于从目标文档中筛选出与待回答问题相匹配的段落作为目标段落，服务器进而根据目标段落及待回答问题，基于预设的生成模型可生成FAQ问答对，无需对非目标段落进行处理，在一定程度上减少了生成FAQ问答对时非目标段落带来的干扰信息，生成的FAQ问答对的准确率比较高，因此可削弱跨领域带来的影响，对跨领域问题生成匹配准确度比较高的FAQ问答对。

在某些实施例，例如本实施例中，如图5所示，所述步骤S130可包括以下步骤S131-S134。

S131、对所述目标段落及所述待回答问题分别进行编码以得到第二段落文本向量及问题文本向量。

在本发明实施例中，服务器从目标文档中筛选出与待回答问题相匹配的段落之后，会对筛选出来的目标段落及待回答问题分别进行编码。具体地，首先是采用预设的模型例如Bert模型对目标段落及待回答问题进行编码，然后再采用预设的模型例如EncoderBlock对编码后的目标段落及待回答问题进行再编码，从而得到第二段落文本向量及问题文本向量。其中，第二段落文本向量及问题文本向量均为三维向量，该三维向量中的第一分量为Batch_Size，该Batch_Size为批处理参数，其极限值为训练集样本总数。在本实施例中Batch_Size值为32，表明预设模型是采用小批量对目标段落及待回答问题进行批处理的。在其它实施例中，Batch_Size也可设置为其它值，只需达到对目标段落及待回答问题进行编码处理后可得到第二段落文本向量及问题文本向量即可。该三维向量中的第二分量为句子的长度。该三维向量中的第三分量为每个词对应的维度。Encoder Block包括卷积神经网络、自注意力机制以及前向神经网络。其中，卷积神经网络为(Convolutional NeuralNetworks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeural Networks)，是深度学习(Deep learning)的代表算法之一。自注意力机制(Self-attention)利用了Attention机制，可考虑到上下文信息的表征。具体地，首先使用Bert模型对目标段落及待回答问题进行编码可得到第一临时段落文本向量及第一临时问题文本向量，第一临时段落文本向量及第一临时问题文本向量均为三维向量，可称为第一三维向量。然后再使用卷积神经网络对第一临时段落文本向量及第一临时问题文本向量进行编码可得到第二临时段落文本向量及第二临时问题文本向量，第二临时段落文本向量及第二临时问题文本向量也均为三维向量，可称为第二三维向量，第二三维向量中的每个词的维度相比于第一三维向量中的每个词的维度有所下降。其次再通过自注意力机制，将第二临时段落文本向量及第二临时问题文本向量中为除当前词外的每个其它词计算一个权重，将权重值做加权求和得到第三临时段落文本向量及第三临时问题文本向量，第三临时段落文本向量及第三临时问题文本向量可称为第三三维向量，第三三维向量与第二三维向量相比较每个分量表示的含义均相同，第三三维向量只是对第二三维向量的进一步提取且第三三维向量中的每个词的维度相比于第二三维向量中的每个词的维度有所下降。最后再将第三临时段落文本向量及第三临时问题文本向量通过一个前向神经网络继续提取得到最终所需的段落文本向量及问题文本向量，其中，最终所需的段落文本向量定义为第二段落文本向量，该第二段落文本向量及问题文本向量中的每个词的维度相比于第三临时段落文本向量及第三临时问题文本向量中的每个词的维度有所下降。可理解地，在此步骤中，只叠加了一个Encoder Block，而一个Encoder Block中有多层网络，而网络的层数越高反向传播时就会存在梯度消失的问题，为了缓解此问题，在本实施例中，使用卷积神经网络、自注意力机制以及前向神经网络进行编码时都会加上残差，而加上残差就可以缓解此问题。

需要说明的是，在其它实施例中，根据实际需求也可采用其它模型对目标段落及待回答问题分别进行编码只需得到第二段落文本向量及问题文本向量即可，例如用RNN(Recurrent Neural Network)模型替代自注意力机制(Self-attention)。

S132、对所述第二段落文本向量及所述问题文本向量进行编码以得到新文本向量。

在本发明实施例中，对目标段落及待回答问题分别进行编码得到第二段落文本向量及问题文本向量之后，还需对第二段落文本向量及问题文本向量进行编码得到新文本向量。具体地，是在Context-Query Attention层对第二段落文本向量及问题文本向量进行Attention编码操作。其中，Attention编码操作包括Context-to-Query及Query-to-Context的Attention编码操作。Context-to-Query的Attention编码操作，指的是将Context的长度N和Query的长度M，构成一个相关性矩阵N*M，然后对这个相关性矩阵N*M的每一行做Softmax编码计算得到Attention分数，最后将Attention分数与原始Query的文本向量进行计算加权求和得到包含Attention信息的文本向量。Query-to-Contex的Attention编码操作指的是将Query的长度M和Context的长度N，构成一个相关性矩阵M*N，然后对这个相关性矩阵M*N的每一行做Softmax计算得到Attention分数，最后将Attention分数与原始Context的文本向量进行计算加权求和得到包含Attention信息的文本向量。通过在Context-Query Attention层对第二段落文本向量及问题文本向量进行Context-to-Query及Query-to-Context的编码操作可得到新文本向量。

需要说明的是，在本发明实施例中的新文本向量也为三维向量，且每个分量所表示的含义与第二段落文本向量及问题文本向量相同，只是实现了第二段落文本向量及问题文本向量的交互，其第三分量即每个词的维度有所增加，为描述简洁方便，在此不再赘述。

S133、根据预设的提取模型对所述新文本向量进行编码以得到目标文本向量。

在本发明实施例中，对第二段落文本向量及问题文本向量进行编码以得到新文本向量之后，还需根据预设的提取模型对新文本向量进行编码以得到目标文本向量。其中，预设的提取模型例如为Encoder Block，该Encoder Block与步骤S131中Encoder Block中的Block个数不一样，但都包括卷积神经网络、自注意力机制以及前向神经网络，在卷积神经网络、自注意力机制以及前向神经网络对新文本向量进行编码时都会加上残差。在此步骤中叠加了三个Encoder Block对新文本向量进行编码，以进一步从新文本向量中提取目标文本向量，目标向量中的每个词的维度相比于新文本向量中的每个词的维度有所下降，从而使得生成FAQ问答对的匹配准确度更高。

S134、对所述目标文本向量进行计算以得到所述待回答问题的答案开始及结束的位置，从而生成所述FAQ问答对。

在本发明实施例中，通过Encoder Block对新文本向量进行编码得到目标文本向量之后，还需对目标文本向量进行计算以得到待回答问题的答案开始及结束的位置，从而生成FAQ问答对。具体地，将步骤S133中第一个Encoder Block编码得到的文本向量和第二个Encoder Block编码得到的文本向量拼接在一起作为待回答问题的答案开始的位置，将第一个Encoder Block编码得到的文本向量和第三个Encoder Block编码得到的文本向量拼接在一起作为待回答问题的答案结束的位置，然后对待回答问题的答案开始及结束的位置分别进行Softmax操作，得到待回答问题的答案开始及结束位置的概率，并取待回答问题的答案开始及结束位置概率最大的作为待回答问题的答案开始及结束的位置，从而生成FAQ问答对，进而实现FAQ问答对的自动构建。

图6为本发明另一实施例提供的FAQ问答对自动构建方法的流程示意图，如图6所示，在本实施例中，所述方法包括步骤S100-S190。也即，在本实施例中，所述方法在上述实施例的步骤S130之后，还包括步骤S140-S190。

S140、获取所述FAQ问答对并将获取的所述FAQ问答对反馈给用户。

在本发明实施例中，用户在FAQ网页端页面上传待阅读的文档内容，并根据待阅读文档的内容或者文档名选择相关的问题模板，服务器根据用户的选择调用相关问题模板并根据问题模板中的问题及Bert筛选模型，从目标文档中筛选出与问题模板中的问题相匹配的段落作为目标段落，然后根据目标段落及待回答的问题生成FAQ问答对之后，会将生成的FAQ问答对反馈给用户。具体地，服务器获取生成的FAQ问答对并将获取的FAQ问答对显示于FAQ网页端的页面中，用户可根据需要进行后续操作。例如，若用户对所产生的FAQ问答对满意，可直接导出FAQ问答对，若不满意，可在FAQ网页端修改界面进行修改。

S150、判断是否接收到用户发送的修改指令。

在本发明实施例中，服务器获取FAQ问答对并将获取的FAQ问答对反馈给用户之后，会判断是否接收到用户发送的修改指令。

S160、若接收到用户发送的修改指令，则将所述修改指令中由用户所输入的问题作为所述待回答问题，返回执行所述根据待回答问题及预设的筛选模型，从所述目标文档中筛选出与所述待回答问题相匹配的段落作为目标段落的步骤S120。

在本发明实施例中，服务器若接收到用户发送的修改指令，则表明用户对FAQ问答对并不满意，用户可在FAQ网页端的修改页面中输入自己想提问的问题，然后服务器将修改指令中由用户所输入的问题作为待回答问题，并返回执行步骤S120。也即，重新确定待回答的问题之后，根据待回答问题对及预设筛选模型，从所述目标文档中筛选出与所述待回答问题相匹配的段落作为目标段落，之后，再依次执行后续步骤，最后再将获取的FAQ问答对再反馈给用户。

S170、若未接收到用户发送的修改指令，则判断所述待回答问题是否为预设数据库问题模板中的问题。

S180、若所述待回答问题不是预设数据库问题模板中的问题，则根据所述待回答问题更新所述预设数据库问题模板中的问题。

S190、若所述待回答问题是预设数据库问题模板中的问题，则不更新所述预设数据库问题模板中的问题。

在本发明实施例中，服务器若没有接收到用户发送的修改指令，则表明用户对生成的FAQ问答对满意，则判断待回答问题是否为预设数据库问题模板中的问题，若待回答问题是预设数据库中的问题，则表明待回答问题为问题模板中的问题且用户较为满意，可导出生成的FAQ问答对。若待回答问题不是预设数据库中的问题，则表明待回答问题为用户输入的问题且回答正确率较高，则需将该用户输入的问题补充到预设数据库问题模板中以更新和扩充预设数据库问题模板中的问题，从而在进行下一次FAQ问答对自动生成操作时，预设数据库问题模板中的问题就会更加丰富，就更加能满足用户需求。

需要说明的是，在本发明实施例中，用户在FAQ网页端修改界面进行修改的操作将会被记录下来，修改后的结果将会被当作待回答问题的历史记录，这些历史记录可作为大量的标注数据以便对FAQ问答对模型进行优化操作。

图7是本发明实施例提供的一种FAQ问答对自动构建装置200的示意性框图。如图7所示，对应于以上FAQ问答对自动构建方法，本发明还提供一种FAQ问答对自动构建装置200。该FAQ问答对自动构建装置200包括用于执行上述FAQ问答对自动构建方法的单元，该装置可以被配置于服务器中。具体地，请参阅图7，该FAQ问答对自动构建装置200包括获取单元201、解析分段单元202、筛选单元203以及生成单元204。

其中，获取单元201用于获取待阅读的文档；解析分段单元202用于对所述待阅读的文档进行解析并对解析后的文档进行分段以得到分段后的文档作为目标文档；筛选单元203用于根据待回答问题及预设的筛选模型，从所述目标文档中筛选出与所述待回答问题相匹配的段落作为目标段落；生成单元204用于根据所述目标段落及所述待回答问题，基于预设的阅读理解模型生成FAQ问答对。

在某些实施例，例如本实施例中，如图8所示，所述解析分段单元202包括解析单元2021及分段单元2022。

其中，解析单元2021用于对所述待阅读的文档采用层叠CRF模型进行解析以得到XML文档；分段单元2022用于通过预设分段方式对所述XML文档进行分段，以得到具有预设文档结构的文档作为目标文档。

在某些实施例，例如本实施例中，如图9所示，所述筛选单元203包括解第一编码单元2031、计算单元2032以及确定单元2033。

其中，第一编码单元2031用于根据所述待回答问题及预设的所述筛选模型对所述目标文档进行编码以得到第一段落文本向量；第一计算单元2032用于根据所述待回答问题计算每个所述第一段落文本向量与所述待回答问题相匹配的概率；确定单元2033用于将概率最大的所述第一段落文本向量所对应的段落确定为与所述待回答问题相匹配的段落，并作为目标段落。

在某些实施例，例如本实施例中，如图10所示，所述生成单元204包括第二编码单元2041、第三编码单元2042、第四编码单元2043、生成子单元2044。

其中，第二编码单元2041用于对所述目标段落及所述待回答问题分别进行编码以得到第二段落文本向量及问题文本向量；第二编码单元2042用于对所述第二段落文本向量及所述问题文本向量进行编码以得到新文本向量；第三编码单元2043用于根据预设的提取模型对所述新文本向量进行编码以得到目标文本向量；第二生成子单元2044用于对所述目标文本向量进行计算以得到所述待回答问题的答案开始及结束的位置，从而生成所述FAQ问答对。

在某些实施例，例如本实施例中，如图11所示，所述装置200还包括反馈单元205、第一判断单元206、修改单元207、第二判断单元208以及更新单元209。

其中，反馈单元205用于获取所述FAQ问答对并将获取的所述FAQ问答对反馈给用户；第一判断单元206用于判断是否接收到用户发送的修改指令；修改单元207用于若接收到用户发送的所述修改指令，则将所述修改指令中由用户所输入的问题作为所述待回答问题；第二判断单元208用于若未接收到用户发送的所述修改指令，则判断所述待回答问题是否为预设数据库问题模板中的问题；更新单元209用于若所述待回答问题不是预设数据库问题模板中的问题，则根据所述待回答问题更新所述预设数据库问题模板中的问题。

上述FAQ问答对自动构建装置可以实现为一种计算机程序的形式，该计算机程序可以在如图12所示的计算机设备上运行。

请参阅图12，图12是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备300为服务器，具体地，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图12，该计算机设备300包括通过***总线301连接的处理器302、存储器和网络接口305，其中，存储器可以包括非易失性存储介质503和内存储器304。

该非易失性存储介质303可存储操作***3031和计算机程序3032。该计算机程序3032被执行时，可使得处理器302执行一种FAQ问答对自动构建方法。

该处理器302用于提供计算和控制能力，以支撑整个计算机设备300的运行。

该内存储器304为非易失性存储介质303中的计算机程序3032的运行提供环境，该计算机程序3032被处理器302执行时，可使得处理器302执行一种FAQ问答对自动构建方法。

该网络接口305用于与其它设备进行网络通信。本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备300的限定，具体的计算机设备300可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器302用于运行存储在存储器中的计算机程序3032，以实现如下步骤：获取待阅读的文档；对所述待阅读的文档进行解析并对解析后的文档进行分段以得到分段后的文档作为目标文档；根据待回答问题及预设的筛选模型，从所述目标文档中筛选出与所述待回答问题相匹配的段落作为目标段落；根据所述目标段落及所述待回答问题，基于预设的阅读理解模型生成FAQ问答对。

在某些实施例，例如本实施例中，处理器302在实现所述对所述待阅读的文档进行解析并对解析后的文档进行分段以得到分段后的文档作为目标文档步骤时，具体实现如下步骤：对所述待阅读的文档采用层叠CRF模型进行解析以得到XML文档；通过预设分段方式对所述XML文档进行分段，以得到具有预设文档结构的文档作为目标文档。

在某些实施例，例如本实施例中，处理器302在实现所述根据待回答问题及预设的筛选模型，从所述目标文档中筛选出与所述待回答问题相匹配的段落作为目标段落步骤时，具体实现如下步骤：根据所述待回答问题及预设的所述筛选模型对所述目标文档进行编码以得到第一段落文本向量；根据所述待回答问题计算每个所述第一段落文本向量与所述待回答问题相匹配的概率；将概率最大的所述第一段落文本向量所对应的段落确定为与所述待回答问题相匹配的段落，并作为目标段落。

在某些实施例，例如本实施例中，处理器302在实现所述根据所述目标段落及所述待回答问题，基于预设的阅读理解模型生成FAQ问答对步骤时，具体实现如下步骤：对所述目标段落及所述待回答问题分别进行编码以得到第二段落文本向量及问题文本向量；对所述第二段落文本向量及所述问题文本向量进行编码以得到新文本向量；根据预设的提取模型对所述新文本向量进行编码以得到目标文本向量；对所述目标文本向量进行计算以得到所述待回答问题的答案开始及结束的位置，从而生成所述FAQ问答对。

在某些实施例，例如本实施例中，处理器302在实现所述目标段落及所述待回答问题，基于预设的生成模型生成FAQ问答对的步骤之后，具体实现还包括如下步骤：获取所述FAQ问答对并将获取的所述FAQ问答对反馈给用户；判断是否接收到用户发送的修改指令；若接收到用户发送的所述修改指令，则将所述修改指令中由用户所输入的问题作为所述待回答问题并返回执行所述根据待回答问题及预设的筛选模型，从所述目标文档中筛选出与所述待回答问题相匹配的段落作为目标段落的步骤；若未接收到用户发送的所述修改指令，则判断所述待回答问题是否为预设数据库问题模板中的问题；若所述待回答问题不是预设数据库问题模板中的问题，则根据所述待回答问题更新所述预设数据库问题模板中的问题；若所述待回答问题是预设数据库问题模板中的问题，则不更新所述预设数据库问题模板中的问题。

应当理解，在本申请实施例中，处理器302可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器302还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该计算机程序被该计算机***中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行如下步骤：获取待阅读的文档；对所述待阅读的文档进行解析并对解析后的文档进行分段以得到分段后的文档作为目标文档；根据待回答问题及预设的筛选模型，从所述目标文档中筛选出与所述待回答问题相匹配的段落作为目标段落；根据所述目标段落及所述待回答问题，基于预设的阅读理解模型生成FAQ问答对。

在某些实施例，例如本实施例中，所述处理器在执行所述计算机程序而实现所述对所述待阅读的文档进行解析并对解析后的文档进行分段以得到分段后的文档作为目标文档步骤时，具体实现如下步骤：对所述待阅读的文档采用层叠CRF模型进行解析以得到XML文档；通过预设分段方式对所述XML文档进行分段，以得到具有预设文档结构的文档作为目标文档。

在某些实施例，例如本实施例中，所述处理器在执行所述计算机程序而实现所述根据待回答问题及预设的筛选模型，从所述目标文档中筛选出与所述待回答问题相匹配的段落作为目标段落步骤时，具体实现如下步骤：根据所述待回答问题及预设的所述筛选模型对所述目标文档进行编码以得到第一段落文本向量；根据所述待回答问题计算每个所述第一段落文本向量与所述待回答问题相匹配的概率；将概率最大的所述第一段落文本向量所对应的段落确定为与所述待回答问题相匹配的段落，并作为目标段落。

在某些实施例，例如本实施例中，所述处理器在执行所述计算机程序而实现所述根据所述目标段落及所述待回答问题，基于预设的阅读理解模型生成FAQ问答对步骤时，具体实现如下步骤：对所述目标段落及所述待回答问题分别进行编码以得到第二段落文本向量及问题文本向量；对所述第二段落文本向量及所述问题文本向量进行编码以得到新文本向量；根据预设的提取模型对所述新文本向量进行编码以得到目标文本向量；对所述目标文本向量进行计算以得到所述待回答问题的答案开始及结束的位置，从而生成所述FAQ问答对。

在某些实施例，例如本实施例中，所述处理器在执行所述计算机程序而实现所述目标段落及所述待回答问题，基于预设的生成模型生成FAQ问答对的步骤之后，具体实现还包括如下步骤：获取所述FAQ问答对并将获取的所述FAQ问答对反馈给用户；判断是否接收到用户发送的修改指令；若接收到用户发送的所述修改指令，则将所述修改指令中由用户所输入的问题作为所述待回答问题并返回执行所述根据待回答问题及预设的筛选模型，从所述目标文档中筛选出与所述待回答问题相匹配的段落作为目标段落的步骤；若未接收到用户发送的所述修改指令，则判断所述待回答问题是否为预设数据库问题模板中的问题；若所述待回答问题不是预设数据库问题模板中的问题，则根据所述待回答问题更新所述预设数据库问题模板中的问题；若所述待回答问题是预设数据库问题模板中的问题，则不更新所述预设数据库问题模板中的问题。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种FAQ问答对自动构建方法，其特征在于，包括：

获取待阅读的文档；

2.根据权利要求1所述的方法，其特征在于，所述对所述待阅读的文档进行解析并对解析后的文档进行分段以得到分段后的文档作为目标文档，包括：

对所述待阅读的文档采用层叠CRF模型进行解析以得到XML文档；

通过预设分段方式对所述XML文档进行分段，以得到具有预设文档结构的文档作为目标文档。

3.根据权利要求1所述的方法，其特征在于，所述根据待回答问题及预设的筛选模型，从所述目标文档中筛选出与所述待回答问题相匹配的段落作为目标段落，包括：

根据所述待回答问题及预设的所述筛选模型对所述目标文档进行编码以得到第一段落文本向量；

根据所述待回答问题计算每个所述第一段落文本向量与所述待回答问题相匹配的概率；

将概率最大的所述第一段落文本向量所对应的段落确定为与所述待回答问题相匹配的段落，并作为目标段落。

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标段落及所述待回答问题，基于预设的阅读理解模型生成FAQ问答对，包括：

对所述目标段落及所述待回答问题分别进行编码以得到第二段落文本向量及问题文本向量；

对所述第二段落文本向量及所述问题文本向量进行编码以得到新文本向量；

根据预设的提取模型对所述新文本向量进行编码以得到目标文本向量；

对所述目标文本向量进行计算以得到所述待回答问题的答案开始及结束的位置，从而生成所述FAQ问答对。

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标段落及所述待回答问题，基于预设的阅读理解模型生成FAQ问答对之后，还包括：

获取所述FAQ问答对并将获取的所述FAQ问答对反馈给用户。

6.根据权利要求5所述的方法，其特征在于，所述获取所述FAQ问答对并将获取的所述FAQ问答对反馈给用户之后，还包括：

判断是否接收到用户发送的修改指令；

若接收到用户发送的所述修改指令，则将所述修改指令中由用户所输入的问题作为所述待回答问题；

返回执行所述根据待回答问题及预设的筛选模型，从所述目标文档中筛选出与所述待回答问题相匹配的段落作为目标段落的步骤。

7.根据权利要求6所述的方法，其特征在于，所述判断是否接收到用户发送的修改指令之后，还包括：

若未接收到用户发送的所述修改指令，则判断所述待回答问题是否为预设数据库问题模板中的问题；

若所述待回答问题不是预设数据库问题模板中的问题，则根据所述待回答问题更新所述预设数据库问题模板中的问题。

8.一种FAQ问答对自动构建装置，其特征在于，包括：

获取单元，用于获取待阅读的文档；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现如权利要求1-7中任一项所述的方法。