WO2018157805A1

WO2018157805A1 - 一种自动问答处理方法及自动问答***

Info

Publication number: WO2018157805A1
Application number: PCT/CN2018/077488
Authority: WO
Inventors: 甘骏; 苏可; 饶孟良
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-03-03
Filing date: 2018-02-28
Publication date: 2018-09-07
Also published as: US11086912B2; US20190243900A1; CN108536708A

Abstract

本发明公开一种自动问答处理方法及自动问答***，所述方法包括：当接收到目标问题文本时，获取目标问题文本对应的目标关键词。确定与目标关键词候选问题文本。计算各个候选问题文本与目标问题文本的语义相似度值。根据语义相似度值，确定目标问题文本对应的答案。本发明考虑到目标问题文本与各个问题文本的语义相似度，确定出目标问题文本的答案，提高了自动问答处理的准确度。

Description

一种自动问答处理方法及自动问答***

本申请要求于2017年03月03日提交中国专利局、申请号为2017101241460、发明名称为“一种自动问答处理方法及自动问答***”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及数据处理领域，具体涉及一种自动问答处理方法及自动问答***。

背景技术

自动问答***(英文：Question-Answer system；简称：QA***)是当前的研究热点。目前的自动问答***主要是基于检索的方法实现的，具体的，***在收集到大量的问题-答案数据对后，对其中的问题文本进行分词处理，以及为经过分词处理后得到的词语建立与该问题文本之间的索引对，并存储于数据库中。当***接收到目标问题后，从数据库中的索引对中索引出与该目标问题最匹配的问题文本，并返回该问题文本对应的答案作为该目标问题的答案输出。

但是，上述基于检索的方法实现的自动问答***对于目标问题的匹配只是基于字符串相似度的匹配，并未考虑语义上是否接近，也就是说，即使是存在语义上与目标问题接近的问题文本，现有的自动问答***也不能够匹配到，所以说自动问答***的匹配准确度有待加强。

发明内容

本发明提供了一种自动问答处理方法及自动问答***，用于提高自动问答处理的准确度。

有鉴于此，本发明第一方面提供了一种自动问答处理方法，所述方法包括：

当接收到目标问题文本时，获取所述目标问题文本对应的目标关键词；

确定与所述目标关键词匹配的候选问题文本；

计算各个候选问题文本与所述目标问题文本的语义相似度值；

根据所述语义相似度值，确定所述目标问题文本对应的答案。

本发明第二方面提供了一种自动问答***，所述***包括；

第一获取单元，用于在接收到目标问题文本时，获取所述目标问题文本对应的目标关键词；

第一确定单元，用于确定与所述目标关键词匹配的候选问题文本；

第一计算单元，用于计算各个候选问题文本与所述目标问题文本的语义相似度值；

第二确定单元，用于根据所述语义相似度值，确定所述目标问题文本对应的答案。

本发明第三方面提供了一种自动问答***，所述***包括：存储器及处理器；

所述存储器用于存储程序；

所述处理器用于执行所述程序，具体包括如下步骤：

确定预先收集到的问题-答案数据对中与所述目标关键词匹配的候选问题文本；

本发明第四方面提供了一种计算机存储介质，包括指令，当其在计算机上运行时，使得计算机执行如上述第一方面所述的方法。

本发明第五方面提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如上述第一方面所述的方法。

本发明提供的自动问答处理方法中，当接收到目标问题文本时，获取所述目标问题文本对应的目标关键词，然后确定与所述目标关键词匹配的候选问题文本。接着，计算各个候选问题文本与所述目标问题文本的语义相似度值。最终，根据所述语义相似度值，确定所述目标问题文本对应的答案。本发明提供的自动问答处理方法考虑到目标问题文本与各个问题文本之间的语义相似度，最终确定出目标问题文本的答案，与现有技术相比，提高了自动问答处理的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种自动问答处理方法流程图；

图2为本发明实施例提供的一种自动问答处理方法流程图；

图3为本发明实施例提供的一种自动问答***的结构示意图；

图4为本发明实施例提供的一种自动问答***的结构示意图；

图5为本发明实施例提供的一种计算机的部分结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明提供了一种自动问答处理方法，请参阅图1，本发明实施例提供的自动问答处理方法的一个实施例包括：

S101：当接收到目标问题文本时，获取目标问题对应的目标关键词。

在加载完问题-答案数据对后，***可以用于进行自动问答。

当***接收到目标问题文本时，对所述问题文本进行分词处理得到目标问题文本对应的目标关键词，任何一种分词方法或工具均可用于本发明实施例的分词处理过程。

S102：确定预先收集到的问题-答案数据对中与目标关键词匹配的候选问题文本。

***中预先存储有问题-答案数据对中的问题文本与关键词的索引关系，该索引关系可以***加载问题-答案数据对后自己建立的，也可以是***从其他设备获取的，具体本发明实施例不作限定。***确定目标关键词后，可以根据该索引关系确定目标关键词对应的候选问题文本。

S103：计算各个候选问题文本与目标问题文本的语义相似度值。

一般来说，目标关键词对应的候选问题文本有多个，则***在确定目标问题文本对应的候选问题文本后，需要从这多个候选问题文本中找出用于确定所述目标问题文本的答案的候选问题文本。

具体地，本发明实施例可以利用各种语义相似度的计算方法，计算出各个候选问题文本与所述目标问题文本的语义相似度值，进而根据语义相似度值找出用于确定所述目标问题文本的答案的候选问题文本。

S104：根据语义相似度值确定目标问题文本对应的答案。

根据语义相似度值找出用于确定所述目标问题文本的答案的候选问题文本后，将预先加载的问题-答案数据对中，该候选问题文本对应的答案作为目标问题文本对应的答案，完成对目标问题文本的自动问答处理。本发明提供的自动问答处理方法考虑到目标问题文本与各个问题文本之间的语义相似度，最终确定出目标问题文本的答案，与现有技术相比，提高了自动问答处理的准确度。

本发明提供了一种自动问答处理方法，参考图2，为本发明实施例提供的一种自动问答处理方法流程图，所述方法具体可以包括：

S201：从预先收集到的问题-答案数据对中，获取问题文本。

实际应用中，预先收集大量的问题-答案数据对，作为自动问答处理方法的数据基础。一种实现方式中，可以利用爬虫工具全网收集问题-答案数据对。

S202：获取所述问题文本对应的关键词。

本发明实施例中，需要对预先收集到的问题-答案数据对中的问题文本进行预处理。所以，首先获取预先收集到的问题-答案数据对中的各个问题文本，并对各个问题文本分别进行分词处理，进而获取各个问题文本分别对应的关键词。

实际应用中，可以利用现有的各种分词工具对获取到的各个问题文本进行分词处理。需要说明的是，任何一种分词方法或工具均可用于本发明实施例的分词处理过程。

本发明实施例中，在对预先采集到的问题-答案数据对中的问题文本进行分词处理后，获取所述问题文本对应的关键词。一种实现方式中，可以将问题文本进行分词处理后得到的分词直接作为该问题文本对应的关键词。

另一种可选的实现方式中，将对问题文本进行分词处理后得到的分词作为该问题文本中的候选词，利用一定的方法从该问题文本的候选词中筛选出该问题文本对应的关键词。

本发明实施例提供了一种从问题文本的候选词中筛选出所述问题文本对应的关键词的方法，具体的，计算在所述问题文本中各个候选词分别对应的权重值，进而将权重值最高的前几个候选词作为所述问题文本对应的关键词。一种实现方式中，可以利用经典的tf-idf特征算法、textrank特征算法等计算在任一条问题文本中各个候选词分别对应的权重值，所述权重值可以用于表示各个候选词在所述问题文本中的重要性。

另外，为了降低***的计算量，计算在问题文本中各个候选词分别对应的权重值之前，可以先筛除所述问题文本的各个候选词中属于预设类型的词汇。其中，所述预设类型可以包括口语高频词类型，如“我”、“的”等词汇，互联网禁用词类型，停用词类型，语气助词类型及其他根据业务应用需要屏蔽的词类型。事实上，即使对上述类型的词汇进行权重值的计算，这些词汇对应的权重值也会明显低于所述问题文本中的其他候选词。

S203：建立所述关键词与所述问题文本的索引关系。

本发明实施例中，获取到各个问题文本对应的关键词后，建立各个关键词与问题文本的索引关系，以便通过关键词能够查找到与其具有索引关系的问题文本。通常，一条问题文本具有多个对应的关键词，两条不同的问题文本也可以具有同一对应的关键词。一种可选的实施方式中，由于建立的索引关系中的关键词具有权重值，用于表示其在对应的问题文本中的重要性。所以，本发明实施例中的索引关系只包括在一个问题文本中权重值较高的前N个关键词与问题文本的索引关系，只保留了在所述问题文本中的重要性相对较高的关键词，从而减少了所述问题文本对应的关键词的个数，以便在查询所述索引关系时提高***查询效率。

具体地，***可以通过如下方式建立索引关系：将关键词和问题文本以键-值对(key-value)的方式存储在数据库中，即将关键词作为值(key)，通过哈希值算法映射到数据库中，该关键词对应的问题文本的识别码(identification，ID)加入到值(value)字段中。

S204：当接收到目标问题文本时，对所述目标问题文本进行分词处理后，获取所述目标问题文本对应的目标关键词。

本发明实施例中，在完成对预先收集到的问题-答案数据对中的问题文本的预处理后，***可以用于进行自动问答。

实际应用中，当***接收到任一个目标问题文本时，首先对所述问题文本进行分词处理。具体的，不依赖于任何一种分词工具，任何一种分词方法或工具均可用于本发明实施例的分词处理过程。其次，获取所述目标问题文本对应的目标关键词。一种实现方式中，可以直接将所述目标问题文本进行分词出后得到的分词直接作为所述目标问题文本对应的目标关键词。

另一种可选的实现方式中，可以对所述目标问题文本进行分词处理后得到的分词进行筛选，例如在筛除分词中属于预设类型的词汇后，利用经典的tf-idf特征算法、textrank特征算法，计算在所述目标问题文本中各个分词的权重值，最终将权重值最高的前N个分词作为所述目标问题文本对应的目标关键词，其中N为自然数，可以根据需求具体设置。通过上述处理能够为所述目标问题文本筛选出更准确的目标关键词，减少了召回的候选问题文本的个数，同时***查询次数减少，进一步提高了自动问答处理的效率。

S205：从建立的关键词与问题文本的索引关系中，确定与所述目标关键词匹配的关键词，并获取与所述关键词具有索引关系的问题文本，作为所述目标问题文本的候选问题文本。

本发明实施例中，在获取到所述目标问题文本对应的目标关键词后，查询预先建立的关键词与问题文本的索引关系，以找出与所述目标关键词匹配的关键词(第一关键词)，进而获取与所述关键词具有索引关系的问题文本，作为所述目标问题文本的候选问题文本。一般情况下，所述目标问题文本对应的目标关键词为多个，与各个目标关键词匹配的关键词也就有多个，最终得到的所述目标问题文本的候选问题文本也是有多个。

本发明实施例可以通过计算各个问题文本的候选词的权重值的方式，在避免降低各个问题文本对应的关键词的准确性的情况下，降低建立的索引关系的量级，从而提高自动问题处理时的查询效率。

S206：计算所述候选问题文本与所述目标问题文本的语义相似度值。

本发明实施例中，在获取到所述目标问题文本的候选问题文本后，需要从所述候选问题文本中找出最终用于确定所述目标问题文本的答案的候选问题文本。

本发明实施例可以利用各种语义相似度的计算方法，计算出各个候选问题文本与所述目标问题文本的语义相似度值，进而根据语义相似度值找出最终用于确定所述目标问题文本的答案的候选问题文本。

一种实现方式中，首先利用预先训练的词嵌入模型，确定各个候选问题文本与所述目标问题文本分别对应的语义向量。具体的，将各个候选问题文本和所述目标问题文本分别进行分词处理后得到若干分词，然后利用所述词嵌入模型，确定各个分词对应的语义向量后，对属于同一条问题文本的分词对应的语义向量累加得到所述问题文本对应的语义向量。利用上述方式能够计算出各个候选问题文本与所述目标问题文本分别对应的语义向量。例如“我”的语义向量是[1,2,3,4]，“爱”的语义向量是[1,1,1,0]，“你”的语义向量是[-1,1,2,3]，经过累加后，“我爱你”的语义向量就是[1,4,6,7]。然后，通过计算各个候选问题文本对应的语义向量与所述目标问题文本对应的语义向量的向量距离，得到各个候选问题文本与所述目标问题文本的语义相似度值。

其中，word embedding模型是目前应用最广泛的自然语言处理深度学习技术，此方法通过计算一个句子中，多个词之后下一个词为某个词的概率，通过三层神经网络，将每个词映射到固定维度的向量。原理上相当于把单词数字化用向量表示，从而可以用数学运算衡量单词和句子的相似度。可以用于实现本发明实施例中的词嵌入模型。

应理解，本发明实施例中的词嵌入模型可以应用了谷歌开源的word2vec工具，用QA训练集训练得到。整个训练过程不需重复，一次训练生成的模型文件可以多次复用，不影响***效率。word2vec工具是一种利用深度学习方法将词语向量化的方法。除了word2vec工具，本发明实施例中词嵌入模型的开源工具还可以是其他工具，具体此处不作限定。

还应理解，本发明实施例中除了可以通过词嵌入模型，还可以通过其他模型计算所述候选问题文本与所述目标问题文本的语义相似度值，如循环神经网络(Recurrent Neural Networks，RNNs)模型，翻译(seq2seq)模型等。

本发明实施例中，用于计算各个候选问题文本与所述目标问题文本的语义相似度值的方式不局限于上述方法。

S207：根据所述语义相似度值，确定所述目标问题文本对应的答案。

本发明实施例中，在计算得到各个候选问题文本与所述目标问题文本的语义相似度值后，将最大的语义相似度值对应的候选问题文本作为最终用于确定所述目标问题文本的答案的候选问题文本。将预先收集到的问题-答案数据对中，所述候选问题文本对应的答案作为所述目标问题文本对应的答案，完成对所述目标问题文本的自动问答处理。

另外，为了提高自动问答处理的准确度，本发明实施例还可以计算各个候选问题文本与所述目标问题文本之间的字符串相似度，最终结合语义相似度值和字符串相似度值，确定所述目标问题文本对应的答案。

一种实现方式中，***还可以计算各个候选问题文本与所述目标问题文本的编辑距离，分别作为各个候选问题文本与所述目标问题文本的字符串相似度值。将各个候选问题文本对应的语义相似度值和字符串相似度值作为预先建立的分类模型的输入，经过所述分类模型的处理后，得到最终用于确定所述目标问题文本的答案的候选问题文本，即与所述目标问题文本最匹配的候选问题文本，该候选问题文本对应的答案就是目标问题文本对应的答案。其中，预先建立的分类模型可以是多维相似度度量模型，或其他模型，具体本发明实施例不作限定。

本发明实施例还可以计算各个候选问题文本与所述目标问题文本之间的其他相似度，如余弦相似度，基于卷积神经网络(Convolutional Neural Networks，CNN)的卷积相似度，汉明距离相似度，杰卡德系数(jacard)相似度等，从而结合各个相似度确定所述目标问题文本对应的答案，进一步的提高自动问答处理的准确度。

另外，本发明实施例还可以将各个候选问题文本与所述目标问题文本之间的关键词权重值之差作为相似度的一种计算方法，具体的，计算各个候选问题文本对应的关键词权重值之和，以及计算所述目标问题文本对应的关键词权重值之和，然后，计算各个候选问题文本对应的关键词权重值之和，分别与所述目标问题文本对应的关键词权重值之和之间的差值，用于表示各个候选问题文本的相似度。事实上，差值越小，其对应的候选问题文本与所述目标问题文本之间的相似度越高。

综上，本发明实施例提供的自动问答处理方法，首先从预先收集到的问题-答案数据对中，获取问题文本。其次，对所述问题文本进行分词处理后，获取所述问题文本对应的关键词。然后，建立所述关键词与所述问题文本的索引关系。当接收到任一目标问题文本时，对所述目标问题文本进行分词处理后，获取所述目标问题文本对应的目标关键词。然后，从建立的关键词与问题文本的索引关系中，确定与所述目标关键词匹配的关键词，并获取与所述关键词具有索引关系的问题文本，作为所述目标问题文本的候选问题文本。再次，计算所述候选问题文本与所述目标问题文本的语义相似度值。最终，根据所述语义相似度值，确定所述目标问题文本对应的答案。本发明实施例提供的自动问答处理方法考虑到目标问题文本与各个问题文本之间的语义相似度，最终确定出目标问题文本的答案，与现有技术相比，提高了自动问答处理的准确度。

另外，本发明实施例通过计算问题文本的候选词的权重值，在保证准确度的前提下，进一步减少各个问题文本对应的关键词的个数，降低建立的索引关系的量级，在自动问答处理过程中，提高查询效率。

上面介绍了本发明实施例中的自动问答处理方法，下面对本发明实施例中的自动问答***进行介绍，请参阅图3，本发明实施例中自动问答***的结构示意图，该***包括：

第一获取单元301，用于在接收到目标问题文本时，获取该目标问题文本对应的目标关键词；

第一确定单元302，用于确定与目标关键词匹配的候选问题文本；

第一计算单元303，用于计算各个候选问题文本与该目标问题文本的语义相似度值；

第二确定单元304，用于根据语义相似度值，确定目标问题文本对应的答案。

本发明提供的自动问答***考虑到目标问题文本与各个问题文本之间的语义相似度，最终确定出目标问题文本的答案，与现有技术相比，提高了自动问答处理的准确度。

本发明实施例还提供了一种自动问答***，参考图4，为本发明实施例提供的一种自动问答***的结构示意图，所述***包括；

第二获取单元401，用于从预先收集到的问题-答案数据对中，获取问题文本；

第三获取单元402，用于获取所述问题文本对应的关键词；

建立单元403，用于建立所述关键词与所述问题文本的索引关系；

第一获取单元404，用于在接收到目标问题文本时，获取所述目标问题文本对应的目标关键词；

第一确定单元405，用于从建立的关键词与问题文本的索引关系中，确定与所述目标关键词匹配的关键词，并获取与所述关键词具有索引关系的问题文本，作为所述目标问题文本的候选问题文本；

第一计算单元406，用于计算所述候选问题文本与所述目标问题文本的语义相似度值；

第二确定单元407，用于根据所述语义相似度值，确定所述目标问题文本对应的答案。

具体的，所述第三获取单元可以包括：

第二分词子单元，用于对所述问题文本进行分词处理后，得到所述问题文本的候选词；

第二计算子单元，用于计算在所述问题文本中各个候选词分别对应的权重值；

第二确定子单元，用于将权重值最高的前N个候选词，确定为所述问题文本对应的关键词，N为自然数。

另外，为了提高***的处理效率，所述第三获取单元还可以包括：

第二筛除子单元，用于筛除所述候选词中属于预设类型的词汇，所述预设类型包括口语高频词汇类型。

具体的，所述第一获取单元包括：

第一分词子单元，用于在接收到目标问题文本时，对所述目标问题文本进行分词处理后，得到所述目标问题文本中的目标候选词；

第一计算子单元，用于计算所述目标问题文本中的各个目标候选词分别对应的权重值；

第一确定子单元，用于将权重值最高的前M个候选词，确定为所述目标问题文本对应的目标关键词，M为自然数。

为了提高***的处理效率，所述第三获取单元还可以包括：

第一筛除子单元，用于筛除所述目标候选词中的预设类型的词语，所述预设类型包括口语类型、高频词汇类型。

一种实现方式中，所述第一计算单元可以包括：

第三确定子单元，用于利用预先训练的词嵌入模型，确定所述候选问题文本与所述目标问题文本分别对应的语义向量；

第三计算子单元，用于针对各个候选问题文本，计算所述候选问题文本对应的语义向量与所述目标问题文本对应的语义向量之间的向量距离，作为所述候选问题文本与所述目标问题文本的语义相似度值。

对应地，第二确定单元具体用于：将最大的语义相似度值对应的候选问题文本，在所述预先收集的问题-答案数据对中对应的答案，作为所述目标问题文本对应的答案。

为了提高自动问答***的准确度，所述***还可以包括：

第二计算单元，用于针对各个候选问题文本，计算所述候选问题文本与所述目标问题文本的编辑距离，作为所述候选问题文本与所述目标问题文本的字符串相似度值；

相应的，所述第二确定单元，具体用于：结合所述候选问题文本与所述目标问题文本的语义相似度值和字符串相似度值，确定所述目标问题文本对应的答案。

本发明实施例提供的自动问答***能够实现以下功能：从预先收集到的问题-答案数据对中，获取问题文本。对所述问题文本进行分词处理后，获取所述问题文本对应的关键词。建立所述关键词与所述问题文本的索引关系。当接收到任一目标问题文本时，对所述目标问题文本进行分词处理后，获取所述目标问题文本对应的目标关键词。从建立的关键词与问题文本的索引关系中，确定与所述目标关键词匹配的关键词，并获取与所述关键词具有索引关系的问题文本，作为所述目标问题文本的候选问题文本。计算所述候选问题文本与所述目标问题文本的语义相似度值。根据所述语义相似度值，确定所述目标问题文本对应的答案。本发明实施例提供的自动问答***考虑到目标问题文本与各个问题文本之间的语义相似度，最终确定出目标问题文本的答案，与现有技术相比，提高了自动问答处理的准确度。

本发明实施例中的自动问答***可以是任意的计算机设备，如能够实现自动问答的服务***等。

相应的，本发明实施例还提供一种计算机设备，参见图5所示，该计算机设备可以包括：

处理器501、存储器502、输入装置503和输出装置504。浏览器服务器中的处理器501的数量可以一个或多个，图3中以一个处理器为例。在本发明的一些实施例中，处理器501、存储器502、输入装置503和输出装置504可通过总线或其它方式连接，其中，图5中以通过总线连接为例。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置503可用于接收输入的数字或字符信息，以及产生与浏览器服务器的用户设置以及功能控制有关的键信号输入。

具体在本实施例中，处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能：

可选地，在一些实施例中，处理器具体用于：对所述目标问题文本进行分词处理得到所述目标问题文本中的目标候选词；

计算所述目标问题文本中的各个目标候选词分别对应的权重值；

将权重值最高的前M个候选词，确定为所述目标问题文本对应的目标关键词，M为自然数。

可选地，在一些实施例中，处理器还用于：筛除所述目标候选词中的预设类型的词语。

可选地，在一些实施例中，处理器还用于：从预先收集到的问题-答案数据对中，获取问题文本；

获取所述问题文本对应的关键词；

建立所述关键词与所述问题文本的索引关系；

从建立的所述关键词与所述问题文本的索引关系中，确定与所述目标关键词匹配的第一关键词，并获取与所述第一关键词具有索引关系的问题文本，作为所述目标问题文本的候选问题文本。

可选地，在一些实施例中，处理器具体用于：

对所述问题文本进行分词处理得到所述问题文本的候选词；

计算在所述问题文本中各个候选词分别对应的权重值；

将权重值最高的前N个候选词，确定为所述问题文本对应的关键词，N为自然数。

可选地，在一些实施例中，处理器还用于：筛除所述候选词中属于预设类型的词汇。

可选地，在一些实施例中，处理器具体用于：利用预先训练的词嵌入模型，确定各个候选问题文本与所述目标问题文本分别对应的语义向量；

针对各个候选问题文本，计算所述候选问题文本对应的语义向量与所述目标问题文本对应的语义向量之间的向量距离，作为所述候选问题文本与所述目标问题文本的语义相似度值。

可选地，在一些实施例中，处理器具体用于：将最大的语义相似度值对应的候选问题文本，在所述预先收集的问题-答案数据对中对应的答案，作为所述目标问题文本对应的答案。

可选地，在一些实施例中，处理器具体用于：针对各个候选问题文本，计算所述候选问题文本与所述目标问题文本的编辑距离，作为所述候选问题文本与所述目标问题文本的字符串相似度值；

结合所述候选问题文本与所述目标问题文本的语义相似度值和字符串相似度值，确定所述目标问题文本对应的答案。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明实施例所提供的一种自动问答处理方法及自动问答***进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种自动问答处理方法，其特征在于，所述方法包括；

当接收到目标问题文本时，获取所述目标问题文本对应的目标关键词；

确定预先收集到的问题-答案数据对中与所述目标关键词匹配的候选问题文本；

计算各个候选问题文本与所述目标问题文本的语义相似度值；

根据所述语义相似度值，确定所述目标问题文本对应的答案。
根据权利要求1所述的方法，其特征在于，所述获取所述目标问题文本对应的目标关键词，包括：

对所述目标问题文本进行分词处理得到所述目标问题文本中的目标候选词；

计算所述目标问题文本中的各个目标候选词分别对应的权重值；

将权重值最高的前M个候选词，确定为所述目标问题文本对应的目标关键词，M为自然数。
根据权利要求2所述的方法，其特征在于，所述计算所述目标问题文本中的各个目标候选词分别对应的权重值之前，还包括：

筛除所述目标候选词中的预设类型的词语。
根据权利要求1至3中任一项所述的方法，其特征在于，所述获取所述目标问题文本对应的目标关键词之前包括：从预先收集到的问题-答案数据对中，获取问题文本；

获取所述问题文本对应的关键词；

建立所述关键词与所述问题文本的索引关系；

所述确定预先收集到的问题-答案数据对中与所述目标关键词匹配的候选问题文本包括：

从建立的所述关键词与所述问题文本的索引关系中，确定与所述目标关键词匹配的第一关键词，并获取与所述第一关键词具有索引关系的问题文本，作为所述目标问题文本的候选问题文本。
根据权利要求4所述的自动问答处理方法，其特征在于，所述获取所述问题文本对应的关键词，包括：

对所述问题文本进行分词处理得到所述问题文本的候选词；

计算在所述问题文本中各个候选词分别对应的权重值；

将权重值最高的前N个候选词，确定为所述问题文本对应的关键词，N为自然数。
根据权利要求2所述的自动问答处理方法，其特征在于，所述计算在所述问题文本中各个候选词分别对应的权重值之前，还包括：

筛除所述候选词中属于预设类型的词汇。
根据权利要求1所述的自动问答处理方法，其特征在于，所述计算各个候选问题文本与所述目标问题文本的语义相似度值，包括：

利用预先训练的词嵌入模型，确定各个候选问题文本与所述目标问题文本分别对应的语义向量；

针对各个候选问题文本，计算所述候选问题文本对应的语义向量与所述目标问题文本对应的语义向量之间的向量距离，作为所述候选问题文本与所述目标问题文本的语义相似度值。
根据权利要求7所述的自动问答处理方法，其特征在于，所述根据所述语义相似度值，确定所述目标问题文本对应的***括：

将最大的语义相似度值对应的候选问题文本，在所述预先收集的问题-答案数据对中对应的答案，作为所述目标问题文本对应的答案。
根据权利要求1所述的自动问答处理方法，其特征在于，所述方法还包括：

针对各个候选问题文本，计算所述候选问题文本与所述目标问题文本的编辑距离，作为所述候选问题文本与所述目标问题文本的字符串相似度值；

所述根据所述语义相似度值，确定所述目标问题文本对应的答案，包括：

结合所述候选问题文本与所述目标问题文本的语义相似度值和字符串相似度值，确定所述目标问题文本对应的答案。
一种自动问答***，其特征在于，所述***包括；

第一获取单元，用于在接收到目标问题文本时，获取所述目标问题文本对应的目标关键词；

第一确定单元，用于确定与所述目标关键词匹配的候选问题文本；

第一计算单元，用于计算各个候选问题文本与所述目标问题文本的语义相似度值；

第二确定单元，用于根据所述语义相似度值，确定所述目标问题文本对应的答案。
根据权利要求10所述的自动问答***，其特征在于，所述第一获取单元包括：

第一分词子单元，用于在接收到目标问题文本时，对所述目标问题文本进行分词处理得到所述目标问题文本中的目标候选词；

第一计算子单元，用于计算所述目标问题文本中的各个目标候选词分别对应的权重值；

第一确定子单元，用于将权重值最高的前M个候选词，确定为所述目标问题文本对应的目标关键词，M为自然数。
根据权利要求11所述的自动问答***，其特征在于，所述第一获取单元还包括：

第一筛除子单元，用于筛除所述目标候选词中的预设类型的词语。
根据权利要求10至12任一项所述的自动问答***，其特征在于，所述***还包括：

第二获取单元，用于从预先收集到的问题-答案数据对中，获取问题文本；

第三获取单元，用于获取所述问题文本对应的关键词；

建立单元，用于建立所述关键词与所述问题文本的索引关系；

所述第一确定单元具体用于：

从建立的所述关键词与所述问题文本的索引关系中，确定与所述目标关键词匹配的第一关键词，并获取与所述第一关键词具有索引关系的问题文本，作为所述目标问题文本的候选问题文本。
根据权利要求13所述的自动问答***，其特征在于，所述第三获取单元包括：

第二分词子单元，用于对所述问题文本进行分词处理得到所述问题文本的候选词；

第二计算子单元，用于计算在所述问题文本中各个候选词分别对应的权重值；

第二确定子单元，用于将权重值最高的前N个候选词，确定为所述问题文本对应的关键词，N为自然数。
根据权利要求14所述的自动问答***，其特征在于，所述第三获取单元还包括：

第二筛除子单元，用于筛除所述候选词中属于预设类型的词汇。
根据权利要求10所述的自动问答***，其特征在于，所述第一计算单元包括：

第三确定子单元，用于利用预先训练的词嵌入模型，确定各个候选问题文本与所述目标问题文本分别对应的语义向量；

第三计算子单元，用于针对各个候选问题文本，计算所述候选问题文本对应的语义向量与所述目标问题文本对应的语义向量之间的向量距离，作为所述候选问题文本与所述目标问题文本的语义相似度值。
根据权利要求16所述的自动问答***，其特征在于，所述第二确定单元具体用于：将最大的语义相似度值对应的候选问题文本，在所述预先收集的问题-答案数据对中对应的答案，作为所述目标问题文本对应的答案。
根据权利要求10所述的自动问答***，其特征在于，所述***还包括：

第二计算单元，用于针对各个候选问题文本，计算所述候选问题文本与所述目标问题文本的编辑距离，作为所述候选问题文本与所述目标问题文本的字符串相似度值；

所述第二确定单元，具体用于：结合所述候选问题文本与所述目标问题文本的语义相似度值和字符串相似度值，确定所述目标问题文本对应的答案。
一种自动问答***，其特征在于，所述***包括：存储器及处理器；

所述存储器用于存储程序；

所述处理器用于执行所述程序，具体包括如下步骤：

当接收到目标问题文本时，获取所述目标问题文本对应的目标关键词；

确定预先收集到的问题-答案数据对中与所述目标关键词匹配的候选问题文本；

计算各个候选问题文本与所述目标问题文本的语义相似度值；

根据所述语义相似度值，确定所述目标问题文本对应的答案。
一种计算机存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至9任一项所述的方法。
一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如权利要求1至9任一项所述的方法。