WO2020143314A1

WO2020143314A1 - 一种基于搜索引擎的问答方法、装置、存储介质及计算机设备

Info

Publication number: WO2020143314A1
Application number: PCT/CN2019/118080
Authority: WO
Inventors: 杨坤; 许开河; 王少军
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-01-09
Filing date: 2019-11-13
Publication date: 2020-07-16
Also published as: CN109918560B; CN109918560A

Abstract

一种基于搜索引擎的问答方法、装置、存储介质及计算机设备，该方法包括：获取用户输入的目标问题（S102）；确定目标问题的关键词（S104）；根据关键词从搜索引擎中搜索到多个搜索结果（S106）；计算多个搜索结果中每个搜索结果与关键词的匹配度（S108）；将匹配度大于或等于预设值的搜索结果作为候选答案（S110）；判断候选答案的类型是否是文献类型（S112）；如果候选答案的类型是文献类型，则根据预设算法解析候选答案，得到目标问题的答案（S114）；如果候选答案的类型不是文献类型，则确定候选答案为目标问题的答案（S116）。所述方法解决了聊天机器人应答能力差的问题。

Description

一种基于搜索引擎的问答方法、装置、存储介质及计算机设备

本申请要求于2019年01月09日提交中国专利局、申请号为201910018881.2、申请名称为“一种基于搜索引擎的问答方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

【技术领域】

本申请涉及大数据技术领域，尤其涉及一种基于搜索引擎的问答方法、装置、存储介质及计算机设备。

【背景技术】

随着技术的发展，诞生了人工智能聊天机器人，人工智能聊天机器人可以应用于教育、娱乐等领域，例如，家长可以使用人工智能聊天机器人辅导孩子学习各种知识，例如，孩子可以向人工智能聊天机器人提问：太阳系有哪些恒星？人工智能聊天机器人根据数据库存储的内容进行相应回答。

但是，由于目前人工智能聊天机器人的数据库存储的内容有限，如果提问对应的答案没有预先存储在数据库中，则聊天机器人无法应答，导致聊天机器人应答能力差。

【申请内容】

有鉴于此，本申请实施例提供了一种基于搜索引擎的问答方法、装置、存储介质及计算机设备，用以解决现有技术聊天机器人应答能力差的问题。

一方面，本申请实施例提供了一种基于搜索引擎的问答方法，所述方法包括：获取用户输入的目标问题；确定所述目标问题的关键词；根据所述关键词从搜索引擎中搜索到多个搜索结果；计算所述多个搜索结果中每个搜索结果与所述关键词的匹配度；将匹配度大于或等于预设值的搜索结果作为候选答案；判断所述候选答案的类型是否是文献类型；如果所述候选答案的类型是文献类型，则根据预设算法解析所述候选答案，得到所述目标问题的答案；如果所述候选答案的类型不是文献类型，则确定所述候选答案为所述目标问题的答案。

一方面，本申请实施例提供了一种基于搜索引擎的问答装置，所述装置包括：获取单元，用于获取用户输入的目标问题；第一确定单元，用于确定所述目标问题的关键词；搜索单元，用于根据所述关键词从搜索引擎中搜索到多个搜索结果；计算单元，用于计算所述多个搜索结果中每个搜索结果与所述关键词的匹配度；第二确定单元，用于将匹配度大于或等于预设值的搜索结果作为候选答案；第一判断单元，用于判断所述候选答案的类型是否是文献类型；解析单元，用于如果所述候选答案的类型是文献类型，则根据预设算法解析所述候选答案，得到所述目标问题的答案；第三确定单元，用于如果所述候选答案的类型不是文献类型，则确定所述候选答案为所述目标问题的答案。

一方面，本申请实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述的基于搜索引擎的问答方法。

一方面，本申请实施例提供了一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，所述程序指令被处理器加载并执行时实现上述的基于搜索引擎的问答方法的步骤。

本申请实施例中，根据目标问题的关键词从搜索引擎中搜索到多个搜索结果，将与关键词的匹配度大于或等于预设值的搜索结果作为候选答案，如果候选答案的类型是文献类型，则根据预设算法解析候选答案，得到目标问题的答案；如果候选答案的类型不是文献类型，则确定候选答案为目标问题的答案，如果提问对应的答案没有预先存储在数据库中，聊天机器人通过搜索引擎搜索问题答案，解决了现有技术中当提问对应的答案没有预先存储在数据库中，则聊天机器人无法应答导致聊天机器人应答能力差的问题，达到了提高聊天机器人应答能力的效果。

【附图说明】

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是根据本申请实施例一种可选的基于搜索引擎的问答方法的流程图；

图2是根据本申请实施例一种可选的基于搜索引擎的问答装置的示意图；

图3是本申请实施例提供的一种可选的计算机设备的示意图。

【具体实施方式】

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本申请实施例提供了一种基于搜索引擎的问答方法，如图1所示，该方法包括：

步骤S102，获取用户输入的目标问题。

步骤S104，确定目标问题的关键词。

步骤S106，根据关键词从搜索引擎中搜索到多个搜索结果。

步骤S108，计算多个搜索结果中每个搜索结果与关键词的匹配度。

计算搜索结果与关键词的匹配度的方法如下：从搜索结果中提取预设数量的出现频率超过预设频率阈值的高频词，将提取得到的高频词与关键词进行比较，根据提取得到的高频词与关键词重合的数量来确定搜索结果与关键词的匹配度。如果提取得到的高频词与关键词完全没有重合，则说明该搜索结果与关键词的匹配度较低；如果提取得到的高频词与关键词重合度高，则说明该搜索结果与关键词的匹配度较高。需要注意的是，在从搜索结果中提取高频词之前，需要先将搜索结果进行分词，然后去掉“的”、“得”等没有实际意义的词。预设频率阈值可根据实际需求进行设置。

步骤S110，将匹配度大于或等于预设值的搜索结果作为候选答案。

步骤S112，判断候选答案的类型是否是文献类型。

在本申请实施例中，文献类型指字符数超出预设字符数阈值的文本类型，例如论文、期刊文章、专利等。预设字符数阈值可根据实际需求进行设置。

步骤S114，如果候选答案的类型是文献类型，则根据预设算法解析候选答案，得到目标问题的答案。

步骤S116，如果候选答案的类型不是文献类型，则确定候选答案为目标问题的答案。

可选地，确定目标问题的关键词，包括：从目标问题中提取出关键词，将提取出的关键词作为第一关键词；获取用户输入目标问题之前输入的上一个问题；从用户输入目标问题之前输入的上一个问题中提取出关键词，将提取出的关键词作为第二关键词；将第一关键词和第二关键词作为目标问题的关键词。

在与机器人聊天时，一般后面的聊天内容与前面的聊天内容是有关联的，所以在搜索目标问题的结果之前，需要参考输入目标问题之前输入的上一个问题，比如：第一个问题是：“明天从上海到北京的高铁二等座，还有剩余票吗？”，第二个问题是“一张票多少钱”，第二个问题包含的信息是不充分的，需要结合前一个问题确定用户要搜索的具体问题，即“一张从上海到北京的高铁二等座票多少钱？”。

可选地，确定目标问题的关键词，包括：从目标问题中提取出关键词，将提取出的关键词作为第一关键词；向用户返回与第一关键词相关联的第一问题；获取用户针对第一问题的答复；从用户针对第一问题的答复中提取出关键词，将提取出的关键词作为第三关键词；将第一关键词和第三关键词作为目标问题的关键词。

例如，如果用户输入了“明天天气怎么样”，则向用户返回“明天天气怎么样”对应的问题“您要查找哪个地方的天气”。获得用户输入的具体地理位置信息，比如“成都”之后，可以确定用户的目标问题是“成都明天天气怎么样”。

如果用户的问题不完整，通过查询历史信息或者进一步向用户提问以将用户的问题补充为完整问题，准确地确定用户的问题，提高了搜索结果的准确度，提升了用户的聊天体验效果。

可选地，在根据关键词从搜索引擎中搜索到多个搜索结果之后，并且，在计算多个搜索结果中每个搜索结果与关键词的匹配度之前，方法还包括：判断多个搜索结果中是否存在广告信息；过滤掉存在广告信息的搜索结果。

在搜索引擎中输入搜索的问题，输出的结果不仅仅包括想要查找的结果，还包括广告、推广之类的无用信息，比如：在百度搜索中输入“风湿需要注意事项”，搜索到的结果排名在前的就是治疗风湿病相关的医院网页广告，将广告信息过滤后，用户体验更佳。

可选地，如果候选答案的类型是文献类型，则根据预设算法解析候选答案，得到目标问题的答案，包括：对关键词和候选答案进行分词，得到关键词的多个分词和候选答案的多个分词；获取关键词的多个分词对应的词向量和候选答案的多个分词对应的词向量；将关键词的多个分词对应的词向量进行相加得到关键词的初始向量表示，将候选答案的多个分词对应的词向量进行相加得到候选答案的初始向量表示；将关键词的初始向量表示输入第一深度学习神经网络进行处理，第一深度学习神经网络输出关键词的最终特征向量表示，将候选答案的初始向量表示输入第二深度学习神经网络进行处理，第二深度学习神经网络输出候选答案的最终特征向量表示，第一深度学习神经网络与第二深度学习神经网络层数不同；将关键词的最终特征向量表示和候选答案的最终特征向量表示做内积，得到候选答案中多个信息片段，通过注意力机制，对多个信息片段进行加权组合，得到第一向量；将第一向量输入解码器，解码器输出对应的文本；将解码器输出的文本作为目标问题的答案。

第一深度学习神经网络和第二深度学习神经网络是将CNN与LSTM与注意力机制相结合的一种神经网络模型，初始向量表示在输入神经网络之前，被存入嵌入层的嵌入矩阵中，双层的LSTM可以充分挖掘关键词和候选答案的序列化特征，将双层的LSTM提取的模型与注意力机制提取的特征进行融合，可以获得丰富的关键词和候选答案的语义特征信息，通过CNN不同卷积核尺寸提取关键词和候选答案的不同粒度的特征，并以拼接的方式融合不同粒度的特征信息，以强化特征信息的全面性，通过这种神经网络的融合，不同的维度的数据输入后，不会改变数据的维度，适合各种维度的数据进行融合拼接，可以有效的避免数据维度统一过程中的信息损失。神经网络的层数并不是越多越好，如果输入序列长度过长，则需要增加神经网络的层数，但是如果输入的序列数据长度较短，而神经网络的层数较多时，则会降低神经网络的学习效果，所以神经网络需要根据实际情况设置不同的网络层数。关键词的序列较短，而文献的序列长度较长，所以需要的网络层数不同。

将关键词的最终特征向量表示和候选答案的最终特征向量表示做内积，可以得到候选答案中多个向量表示的归一化概率表示，按照归一化概率对得到多个词向量表示进行加权组合，可得到第一向量，通过解码器解码第一向量时，解码器可以为单向的LSTM。

可选地，在文献类型的候选答案中获取答案采用的预设算法可以为R-NET算法。

具体地R-NET算法模型包括：采用表示学习，给目标问题的关键词和相关文献中的每一个词做一个表示，即深度学习里的向量，主要运用的是双向循环神经网络；通过门控卷积网络+注意力机制将目标问题的关键词中的向量和相关文献中的向量做一个比对，在相关文献中找出与目标问题比较接近的文字部分；通过门控卷积网络+注意力机制将比较接近的文字部分放在全局中进行比对，得到候选答案；针对候选答案中的每一个词汇进行预测，哪一个词是答案的开始，到哪个词是答案的结束，***会挑出可能性最高的一段文本，作为答案输出。

通过门控卷积网络+注意力机制对比目标问题中的向量和相关文献中的向量时，对相关文献中每个词，计算其关于目标问题的注意力分布，并使用该注意力分布汇总目标问题表示，将相关文献该词表示和目标问题表示输入RNN编码，得到该词的表示。不同的是，在相关文献词表示和目标问题表示输入RNN之前，R-NET使用了一个额外的门来过滤不重要的信息。

当使用搜索引擎不能直接查找到用户问题的答案时，通过R-NET算法从文献中获取答案，在扩大了答案检索范围的同时也提高了答***度，提高了聊天机器人应答能力。

本申请实施例提供了一种基于搜索引擎的问答装置，该装置用于执行上述基于搜索引擎的问答方法，如图2所示，该装置包括：获取单元10、第一确定单元20、搜索单元30、计算单元40、第二确定单元50、第一判断单元60、解析单元70、第三确定单元80。

获取单元10，用于获取用户输入的目标问题。

第一确定单元20，用于确定目标问题的关键词。

搜索单元30，用于根据关键词从搜索引擎中搜索到多个搜索结果。

计算单元40，用于计算多个搜索结果中每个搜索结果与关键词的匹配度。

第二确定单元50，用于将匹配度大于或等于预设值的搜索结果作为候选答案。

第一判断单元60，用于判断候选答案的类型是否是文献类型。

解析单元70，用于如果候选答案的类型是文献类型，则根据预设算法解析候选答案，得到目标问题的答案。

第三确定单元80，用于如果候选答案的类型不是文献类型，则确定候选答案为目标问题的答案。

可选地，第一确定单元20包括：第一提取模块、第一获取模块、第二提取模块、第一确定模块。第一提取模块，用于从目标问题中提取出关键词，将提取出的关键词作为第一关键词。第一获取模块，用于获取用户输入目标问题之前输入的上一个问题。第二提取模块，用于从用户输入目标问题之前输入的上一个问题中提取出关键词，将提取出的关键词作为第二关键词。第一确定模块，用于将第一关键词和第二关键词作为目标问题的关键词。

可选地，第一确定单元20包括：第三提取模块、返回模块、第二获取模块、第四提取模块、第二确定模块。第三提取模块，用于从目标问题中提取出关键词，将提取出的关键词作为第一关键词。返回模块，用于向用户返回与第一关键词相关联的第一问题。第二获取模块，用于获取用户针对第一问题的答复。第四提取模块，用于从用户针对第一问题的答复中提取出关键词，将提取出的关键词作为第三关键词。第二确定模块，用于将第一关键词和第三关键词作为目标问题的关键词。

可选地，装置还包括：第二判断单元、过滤单元。第二判断单元，用于在搜索单元30根据关键词从搜索引擎中搜索到多个搜索结果之后，并且，在计算单元40计算多个搜索结果中每个搜索结果与关键词的匹配度之前，判断多个搜索结果中是否存在广告信息。过滤单元，用于过滤掉存在广告信息的搜索结果。

可选地，解析单元70包括：分词模块、第三获取模块、第三确定模块、输入模块、第四确定模块、输出模块、第五确定模块。分词模块，用于对关键词和候选答案进行分词，得到关键词的多个分词和候选答案的多个分词。第三获取模块，用于获取关键词的多个分词对应的词向量和候选答案的多个分词对应的词向量。第三确定模块，用于将关键词的多个分词对应的词向量进行相加得到关键词的初始向量表示，将候选答案的多个分词对应的词向量进行相加得到候选答案的初始向量表示。输入模块，用于将关键词的初始向量表示输入第一深度学习神经网络进行处理，第一深度学习神经网络输出关键词的最终特征向量表示，将候选答案的初始向量表示输入第二深度学习神经网络进行处理，第二深度学习神经网络输出候选答案的最终特征向量表示，第一深度学习神经网络与第二深度学习神经网络层数不同。第四确定模块，用于将关键词的最终特征向量表示和候选答案的最终特征向量表示做内积，得到候选答案中多个信息片段，通过注意力机制，对多个信息片段进行加权组合，得到第一向量。输出模块，用于将第一向量输入解码器，解码器输出对应的文本。第五确定模块，用于将解码器输出的文本作为目标问题的答案。

一方面，本申请实施例提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行以下步骤：获取用户输入的目标问题；确定目标问题的关键词；根据关键词从搜索引擎中搜索到多个搜索结果；计算多个搜索结果中每个搜索结果与关键词的匹配度；将匹配度大于或等于预设值的搜索结果作为候选答案；判断候选答案的类型是否是文献类型；如果候选答案的类型是文献类型，则根据预设算法解析候选答案，得到目标问题的答案；如果候选答案的类型不是文献类型，则确定候选答案为目标问题的答案。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：从目标问题中提取出关键词，将提取出的关键词作为第一关键词；获取用户输入目标问题之前输入的上一个问题；从用户输入目标问题之前输入的上一个问题中提取出关键词，将提取出的关键词作为第二关键词；将第一关键词和第二关键词作为目标问题的关键词。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：从目标问题中提取出关键词，将提取出的关键词作为第一关键词；向用户返回与第一关键词相关联的第一问题；获取用户针对第一问题的答复；从用户针对第一问题的答复中提取出关键词，将提取出的关键词作为第三关键词；将第一关键词和第三关键词作为目标问题的关键词。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：在根据关键词从搜索引擎中搜索到多个搜索结果之后，并且，在计算多个搜索结果中每个搜索结果与关键词的匹配度之前，判断多个搜索结果中是否存在广告信息；过滤掉存在广告信息的搜索结果。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：对关键词和候选答案进行分词，得到关键词的多个分词和候选答案的多个分词；获取关键词的多个分词对应的词向量和候选答案的多个分词对应的词向量；将关键词的多个分词对应的词向量进行相加得到关键词的初始向量表示，将候选答案的多个分词对应的词向量进行相加得到候选答案的初始向量表示；将关键词的初始向量表示输入第一深度学习神经网络进行处理，第一深度学习神经网络输出关键词的最终特征向量表示，将候选答案的初始向量表示输入第二深度学习神经网络进行处理，第二深度学习神经网络输出候选答案的最终特征向量表示，第一深度学习神经网络与第二深度学习神经网络层数不同；将关键词的最终特征向量表示和候选答案的最终特征向量表示做内积，得到候选答案中多个信息片段，通过注意力机制，对多个信息片段进行加权组合，得到第一向量；将第一向量输入解码器，解码器输出对应的文本；将解码器输出的文本作为目标问题的答案。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：如果候选答案的类型是文献类型，则根据R-NET算法解析候选答案，得到目标问题的答案。

一方面，本申请实施例提供了一种计算机设备，包括存储器和处理器，存储器用于存储包括程序指令的信息，处理器用于控制程序指令的执行，程序指令被处理器加载并执行时实现以下步骤：获取用户输入的目标问题；确定目标问题的关键词；根据关键词从搜索引擎中搜索到多个搜索结果；计算多个搜索结果中每个搜索结果与关键词的匹配度；将匹配度大于或等于预设值的搜索结果作为候选答案；判断候选答案的类型是否是文献类型；如果候选答案的类型是文献类型，则根据预设算法解析候选答案，得到目标问题的答案；如果候选答案的类型不是文献类型，则确定候选答案为目标问题的答案。

可选地，程序指令被处理器加载并执行时还实现以下步骤：从目标问题中提取出关键词，将提取出的关键词作为第一关键词；获取用户输入目标问题之前输入的上一个问题；从用户输入目标问题之前输入的上一个问题中提取出关键词，将提取出的关键词作为第二关键词；将第一关键词和第二关键词作为目标问题的关键词。

可选地，程序指令被处理器加载并执行时还实现以下步骤：从目标问题中提取出关键词，将提取出的关键词作为第一关键词；向用户返回与第一关键词相关联的第一问题；获取用户针对第一问题的答复；从用户针对第一问题的答复中提取出关键词，将提取出的关键词作为第三关键词；将第一关键词和第三关键词作为目标问题的关键词。

可选地，程序指令被处理器加载并执行时还实现以下步骤：在根据关键词从搜索引擎中搜索到多个搜索结果之后，并且，在计算多个搜索结果中每个搜索结果与关键词的匹配度之前，判断多个搜索结果中是否存在广告信息；过滤掉存在广告信息的搜索结果。

可选地，程序指令被处理器加载并执行时还实现以下步骤：对关键词和候选答案进行分词，得到关键词的多个分词和候选答案的多个分词；获取关键词的多个分词对应的词向量和候选答案的多个分词对应的词向量；将关键词的多个分词对应的词向量进行相加得到关键词的初始向量表示，将候选答案的多个分词对应的词向量进行相加得到候选答案的初始向量表示；将关键词的初始向量表示输入第一深度学习神经网络进行处理，第一深度学习神经网络输出关键词的最终特征向量表示，将候选答案的初始向量表示输入第二深度学习神经网络进行处理，第二深度学习神经网络输出候选答案的最终特征向量表示，第一深度学习神经网络与第二深度学习神经网络层数不同；将关键词的最终特征向量表示和候选答案的最终特征向量表示做内积，得到候选答案中多个信息片段，通过注意力机制，对多个信息片段进行加权组合，得到第一向量；将第一向量输入解码器，解码器输出对应的文本；将解码器输出的文本作为目标问题的答案。

可选地，程序指令被处理器加载并执行时还实现以下步骤：如果候选答案的类型是文献类型，则根据R-NET算法解析候选答案，得到目标问题的答案。

图3是本申请实施例提供的一种计算机设备的示意图。如图3所示，该实施例的计算机设备50包括：处理器51、存储器52以及存储在存储器52中并可在处理器51上运行的计算机程序53，该计算机程序53被处理器51执行时实现实施例中的基于搜索引擎的问答方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器51执行时实现实施例中基于搜索引擎的问答装置中各模型/单元的功能，为避免重复，此处不一一赘述。

计算机设备50可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，处理器51、存储器52。本领域技术人员可以理解，图3仅仅是计算机设备50的示例，并不构成对计算机设备50的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器51可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器52可以是计算机设备50的内部存储单元，例如计算机设备50的硬盘或内存。存储器52也可以是计算机设备50的外部存储设备，例如计算机设备50上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器52还可以既包括计算机设备50的内部存储单元也包括外部存储设备。存储器52用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器52还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

一种基于搜索引擎的问答方法，其特征在于，所述方法包括：

获取用户输入的目标问题；

确定所述目标问题的关键词；

根据所述关键词从搜索引擎中搜索到多个搜索结果；

计算所述多个搜索结果中每个搜索结果与所述关键词的匹配度；

将匹配度大于或等于预设值的搜索结果作为候选答案；

判断所述候选答案的类型是否是文献类型；

如果所述候选答案的类型是文献类型，则根据预设算法解析所述候选答案，得到所述目标问题的答案；

如果所述候选答案的类型不是文献类型，则确定所述候选答案为所述目标问题的答案。
根据权利要求1所述的方法，其特征在于，所述确定所述目标问题的关键词，包括：

从所述目标问题中提取出关键词，将提取出的关键词作为第一关键词；

获取所述用户输入所述目标问题之前输入的上一个问题；

从所述用户输入所述目标问题之前输入的所述上一个问题中提取出关键词，将提取出的关键词作为第二关键词；

将所述第一关键词和所述第二关键词作为所述目标问题的关键词。
根据权利要求1所述的方法，其特征在于，所述确定所述目标问题的关键词，包括：

从所述目标问题中提取出关键词，将提取出的关键词作为第一关键词；

向所述用户返回与所述第一关键词相关联的第一问题；

获取所述用户针对所述第一问题的答复；

从所述用户针对所述第一问题的答复中提取出关键词，将提取出的关键词作为第三关键词；

将所述第一关键词和所述第三关键词作为所述目标问题的关键词。
根据权利要求1所述的方法，其特征在于，在所述根据所述关键词从搜索引擎中搜索到多个搜索结果之后，并且，在所述计算所述多个搜索结果中每个搜索结果与所述关键词的匹配度之前，所述方法还包括：

判断所述多个搜索结果中是否存在广告信息；

过滤掉存在广告信息的搜索结果。
根据权利要求1至4任一项所述的方法，其特征在于，所述如果所述候选答案的类型是文献类型，则根据预设算法解析所述候选答案，得到所述目标问题的答案，包括：

对所述关键词和所述候选答案进行分词，得到所述关键词的多个分词和所述候选答案的多个分词；

获取所述关键词的多个分词对应的词向量和所述候选答案的多个分词对应的词向量；

将所述关键词的多个分词对应的词向量进行相加得到所述关键词的初始向量表示，将所述候选答案的多个分词对应的词向量进行相加得到所述候选答案的初始向量表示；

将所述关键词的初始向量表示输入第一深度学习神经网络进行处理，所述第一深度学习神经网络输出所述关键词的最终特征向量表示，将所述候选答案的初始向量表示输入第二深度学习神经网络进行处理，所述第二深度学习神经网络输出所述候选答案的最终特征向量表示，所述第一深度学习神经网络与所述第二深度学习神经网络层数不同；

将所述关键词的最终特征向量表示和所述候选答案的最终特征向量表示做内积，得到所述候选答案中多个信息片段，通过注意力机制，对所述多个信息片段进行加权组合，得到第一向量；

将所述第一向量输入解码器，所述解码器输出对应的文本；

将所述解码器输出的文本作为所述目标问题的答案。
一种基于搜索引擎的问答装置，其特征在于，所述装置包括：

获取单元，用于获取用户输入的目标问题；

第一确定单元，用于确定所述目标问题的关键词；

搜索单元，用于根据所述关键词从搜索引擎中搜索到多个搜索结果；

计算单元，用于计算所述多个搜索结果中每个搜索结果与所述关键词的匹配度；

第二确定单元，用于将匹配度大于或等于预设值的搜索结果作为候选答案；

第一判断单元，用于判断所述候选答案的类型是否是文献类型；

解析单元，用于如果所述候选答案的类型是文献类型，则根据预设算法解析所述候选答案，得到所述目标问题的答案；

第三确定单元，用于如果所述候选答案的类型不是文献类型，则确定所述候选答案为所述目标问题的答案。
根据权利要求6所述的装置，其特征在于，所述第一确定单元包括：

第一提取模块，用于从所述目标问题中提取出关键词，将提取出的关键词作为第一关键词；

第一获取模块，用于获取所述用户输入所述目标问题之前输入的上一个问题；

第二提取模块，用于从所述用户输入所述目标问题之前输入的所述上一个问题中提取出关键词，将提取出的关键词作为第二关键词；

第一确定模块，用于将所述第一关键词和所述第二关键词作为所述目标问题的关键词。
根据权利要求6所述的装置，其特征在于，所述第一确定单元包括：

第三提取模块，用于从所述目标问题中提取出关键词，将提取出的关键词作为第一关键词；

返回模块，用于向所述用户返回与所述第一关键词相关联的第一问题；

第二获取模块，用于获取所述用户针对所述第一问题的答复；

第四提取模块，用于从所述用户针对所述第一问题的答复中提取出关键词，将提取出的关键词作为第三关键词；

第二确定模块，用于将所述第一关键词和所述第三关键词作为所述目标问题的关键词。
根据权利要求6所述的装置，其特征在于，所述装置还包括：

第二判断单元，用于判断所述多个搜索结果中是否存在广告信息；

过滤单元，用于过滤掉存在广告信息的搜索结果。
根据权利要求6～9任一项所述的装置，其特征在于，所述解析单元包括：

分词模块，用于对所述关键词和所述候选答案进行分词，得到所述关键词的多个分词和所述候选答案的多个分词；

第三获取模块，用于获取所述关键词的多个分词对应的词向量和所述候选答案的多个分词对应的词向量；

第三确定模块，用于将所述关键词的多个分词对应的词向量进行相加得到所述关键词的初始向量表示，将所述候选答案的多个分词对应的词向量进行相加得到所述候选答案的初始向量表示；

输入模块，用于将所述关键词的初始向量表示输入第一深度学习神经网络进行处理，所述第一深度学习神经网络输出所述关键词的最终特征向量表示，将所述候选答案的初始向量表示输入第二深度学习神经网络进行处理，所述第二深度学习神经网络输出所述候选答案的最终特征向量表示，所述第一深度学习神经网络与所述第二深度学习神经网络层数不同；

第四确定模块，用于将所述关键词的最终特征向量表示和所述候选答案的最终特征向量表示做内积，得到所述候选答案中多个信息片段，通过注意力机制，对所述多个信息片段进行加权组合，得到第一向量；

输出模块，用于将所述第一向量输入解码器，所述解码器输出对应的文本；

第五确定模块，用于将所述解码器输出的文本作为所述目标问题的答案。
一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行以下步骤：

获取用户输入的目标问题；

确定所述目标问题的关键词；

根据所述关键词从搜索引擎中搜索到多个搜索结果；

计算所述多个搜索结果中每个搜索结果与所述关键词的匹配度；

将匹配度大于或等于预设值的搜索结果作为候选答案；

判断所述候选答案的类型是否是文献类型；

如果所述候选答案的类型是文献类型，则根据预设算法解析所述候选答案，得到所述目标问题的答案；

如果所述候选答案的类型不是文献类型，则确定所述候选答案为所述目标问题的答案。
根据权利要求11所述的存储介质，其特征在于，在所述程序运行时控制所述存储介质所在设备执行所述确定所述目标问题的关键词的步骤，包括：

从所述目标问题中提取出关键词，将提取出的关键词作为第一关键词；

获取所述用户输入所述目标问题之前输入的上一个问题；

从所述用户输入所述目标问题之前输入的所述上一个问题中提取出关键词，将提取出的关键词作为第二关键词；

将所述第一关键词和所述第二关键词作为所述目标问题的关键词。
根据权利要求11所述的存储介质，其特征在于，在所述程序运行时控制所述存储介质所在设备执行所述确定所述目标问题的关键词的步骤，包括：

从所述目标问题中提取出关键词，将提取出的关键词作为第一关键词；

向所述用户返回与所述第一关键词相关联的第一问题；

获取所述用户针对所述第一问题的答复；

从所述用户针对所述第一问题的答复中提取出关键词，将提取出的关键词作为第三关键词；

将所述第一关键词和所述第三关键词作为所述目标问题的关键词。
根据权利要求11所述的存储介质，其特征在于，在所述程序运行时控制所述存储介质所在设备在执行所述根据所述关键词从搜索引擎中搜索到多个搜索结果之后，并且，在执行所述计算所述多个搜索结果中每个搜索结果与所述关键词的匹配度之前，还执行以下步骤：

判断所述多个搜索结果中是否存在广告信息；

过滤掉存在广告信息的搜索结果。
根据权利要求11～14任一项所述的存储介质，其特征在于，在所述程序运行时控制所述存储介质所在设备在执行所述如果所述候选答案的类型是文献类型，则根据预设算法解析所述候选答案，得到所述目标问题的答案的步骤，包括：

对所述关键词和所述候选答案进行分词，得到所述关键词的多个分词和所述候选答案的多个分词；

获取所述关键词的多个分词对应的词向量和所述候选答案的多个分词对应的词向量；

将所述关键词的多个分词对应的词向量进行相加得到所述关键词的初始向量表示，将所述候选答案的多个分词对应的词向量进行相加得到所述候选答案的初始向量表示；

将所述关键词的初始向量表示输入第一深度学习神经网络进行处理，所述第一深度学习神经网络输出所述关键词的最终特征向量表示，将所述候选答案的初始向量表示输入第二深度学习神经网络进行处理，所述第二深度学习神经网络输出所述候选答案的最终特征向量表示，所述第一深度学习神经网络与所述第二深度学习神经网络层数不同；

将所述关键词的最终特征向量表示和所述候选答案的最终特征向量表示做内积，得到所述候选答案中多个信息片段，通过注意力机制，对所述多个信息片段进行加权组合，得到第一向量；

将所述第一向量输入解码器，所述解码器输出对应的文本；

将所述解码器输出的文本作为所述目标问题的答案。
一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，其特征在于，所述程序指令被处理器加载并执行时实现以下步骤：

获取用户输入的目标问题；

确定所述目标问题的关键词；

根据所述关键词从搜索引擎中搜索到多个搜索结果；

计算所述多个搜索结果中每个搜索结果与所述关键词的匹配度；

将匹配度大于或等于预设值的搜索结果作为候选答案；

判断所述候选答案的类型是否是文献类型；

如果所述候选答案的类型是文献类型，则根据预设算法解析所述候选答案，得到所述目标问题的答案；

如果所述候选答案的类型不是文献类型，则确定所述候选答案为所述目标问题的答案。
根据权利要求16所述的计算机设备，其特征在于，所述程序指令被处理器加载并执行时实现所述确定所述目标问题的关键词的步骤，包括：

从所述目标问题中提取出关键词，将提取出的关键词作为第一关键词；

获取所述用户输入所述目标问题之前输入的上一个问题；

从所述用户输入所述目标问题之前输入的所述上一个问题中提取出关键词，将提取出的关键词作为第二关键词；

将所述第一关键词和所述第二关键词作为所述目标问题的关键词。
根据权利要求16所述的计算机设备，其特征在于，所述程序指令被处理器加载并执行时实现所述确定所述目标问题的关键词的步骤，包括：

从所述目标问题中提取出关键词，将提取出的关键词作为第一关键词；

向所述用户返回与所述第一关键词相关联的第一问题；

获取所述用户针对所述第一问题的答复；

从所述用户针对所述第一问题的答复中提取出关键词，将提取出的关键词作为第三关键词；

将所述第一关键词和所述第三关键词作为所述目标问题的关键词。
根据权利要求16所述的计算机设备，其特征在于，所述程序指令被处理器加载并执行时在实现所述根据所述关键词从搜索引擎中搜索到多个搜索结果之后，并且，在实现所述计算所述多个搜索结果中每个搜索结果与所述关键词的匹配度之前，还实现以下步骤：

判断所述多个搜索结果中是否存在广告信息；

过滤掉存在广告信息的搜索结果。
根据权利要求16～19任一项所述的计算机设备，其特征在于，所述程序指令被处理器加载并执行时在实现所述如果所述候选答案的类型是文献类型，则根据预设算法解析所述候选答案，得到所述目标问题的答案的步骤，包括：

对所述关键词和所述候选答案进行分词，得到所述关键词的多个分词和所述候选答案的多个分词；

获取所述关键词的多个分词对应的词向量和所述候选答案的多个分词对应的词向量；

将所述关键词的多个分词对应的词向量进行相加得到所述关键词的初始向量表示，将所述候选答案的多个分词对应的词向量进行相加得到所述候选答案的初始向量表示；

将所述关键词的初始向量表示输入第一深度学习神经网络进行处理，所述第一深度学习神经网络输出所述关键词的最终特征向量表示，将所述候选答案的初始向量表示输入第二深度学习神经网络进行处理，所述第二深度学习神经网络输出所述候选答案的最终特征向量表示，所述第一深度学习神经网络与所述第二深度学习神经网络层数不同；

将所述关键词的最终特征向量表示和所述候选答案的最终特征向量表示做内积，得到所述候选答案中多个信息片段，通过注意力机制，对所述多个信息片段进行加权组合，得到第一向量；

将所述第一向量输入解码器，所述解码器输出对应的文本；

将所述解码器输出的文本作为所述目标问题的答案。