CN113342958B

CN113342958B - 问答匹配方法、文本匹配模型的训练方法和相关设备

Info

Publication number: CN113342958B
Application number: CN202110753707.XA
Authority: CN
Inventors: 罗通; 吴海英; 蒋宁; 王洪斌
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2023-06-16
Anticipated expiration: 2041-07-02
Also published as: CN113342958A

Abstract

本申请实施例提供一种问答匹配方法、文本匹配模型的训练方法和相关设备，该方法包括：在问答知识库中确定与待回答问题匹配的N个候选问题，所述N为大于1的整数；分别将N组数据输入文本匹配模型，输出N个语义相似度，每组数据均包括所述待回答问题和一个所述候选问题，所述语义相似度用于表示所述待回答问题与所述候选问题之间的语义相似度；根据所述N个语义相似度，确定所述N个候选问题中的目标问题，所述目标问题与所述待回答问题的接近度大于或等于第一阈值；根据所述目标问题确定所述待回答问题的答案。采用本申请实施例提供的方法能够待回答问题的答***性。

Description

问答匹配方法、文本匹配模型的训练方法和相关设备

技术领域

本申请实施例涉及自然语言处理技术领域，尤其涉及一种问答匹配方法、文本匹配模型的训练方法和相关设备。

背景技术

随着计算机科学与人工智能技术的快速发展，越来越多的人工智能产品应用到日常生活中，为人们提供各种便利服务。其中，基于常见问题(Frequently Asked Questions，FAQ)的智能问答***就是一项典型的应用产品，且在实际生活中应用非常广泛。比如，它能够应用到智能客服、网络搜索等各种领域，当用户找客服咨询问题或使用搜索引擎搜索问题时，智能问答***能够在大量资源中找到与用户问题相匹配的答案。

相关技术中，基于FAQ的智能问答***中的常见问题和答案通常都是预先搜集整理出来的，一个问题对应一个答案，当为用户问题匹配答案时，先计算用户问题与智能问答***中每个常见问题之间的句子相似度，将句子相似度最大的常见问题对应的答案作为用户问题匹配的答案。其中，句子相似度的计算方式通常采用词嵌入方式，即对用户问题和常见问题中的每一个词计算一个静态的词向量，通过余弦相似度计算用户问题与常见问题之间的词相似度，然后通过词相似度计算得到用户问题与每个常见问题之间的句子相似度，或者，将一句话中所有词向量采用累加等方法形成一个句子向量，分别得到用户问题对应的句子向量和每个常见问题对应的句子向量，再分别计算用户问题对应的句子向量与和每个常见问题对应的句子向量之间的余弦相似度。

但是，由于同一个问题可能有多种不同的文字表达，而基于词嵌入的方式计算句子相似度无法准确理解句子之间的语义关联性，可能会使得语义相同的两句话因表达文字不同而造成文字对应的词向量完全不同，进而导致两句话之间的句子相似度非常低，最终导致为用户问题匹配的答案准确率低。

发明内容

本申请实施例提供一种问答匹配方法、文本匹配模型的训练方法和相关设备，用于提高待回答问题的答***性。

第一方面，本申请实施例提供一种问答匹配方法，包括：

在问答知识库中，确定与待回答问题匹配的N个候选问题，所述N为大于1的整数；

分别将N组数据输入文本匹配模型，输出N个语义相似度，每组数据均包括所述待回答问题和一个所述候选问题，所述语义相似度用于表示所述待回答问题与所述候选问题之间的语义相似度；

根据所述N个语义相似度，确定所述N个候选问题中的目标问题，所述目标问题与所述待回答问题的接近度大于或等于第一阈值；

根据所述目标问题确定所述待回答问题的答案。

可以看出，本申请实施例中，通过文本匹配模型能在深度语义方面更加准确的理解待回答问题和候选答案之间的语义相似度，进而提高根据N个语义相似度确定得到的目标问题的准确性，最终提高根据目标问题确定待回答问题的答***性。

第二方面，本申请实施例提供一种文本匹配模型的训练方法，包括：

在自然语言语料库中获取第一目标数据集和第二目标数据集；

根据所述第一目标数据集和第二目标数据集，确定文本匹配训练集，所述文本匹配训练集包括至少一个训练样本，所述训练样本包括两个问题以及两个问题之间的语义相似度；

将所述文本匹配训练集输入至预先建立的深度神经网络中进行训练，得到文本匹配模型。

可以看出，本申请实施例中，用于训练文本匹配模型所使用的训练集是在自然语言语料库中获取数据确定的，且训练集中的每一个训练样本均包括两个问题与两个问题之间的语义相似度，这样使得训练后的文本匹配模型能够在语义角度理解待回答问题，进而使得在实际应用中，能够在语义角度找出与待回答问题匹配的答案，提升待回答问题的答***性。

第三方面，本申请实施例提供一种问答匹配装置，包括：

提取模块，用于在问答知识库中，确定与待回答问题匹配的N个候选问题，所述N为大于1的整数；

匹配模块，用于分别将N组数据输入文本匹配模型，输出N个语义相似度，每组数据均包括所述待回答问题和一个所述候选问题，所述语义相似度用于表示所述待回答问题与所述候选问题之间的语义相似度；

第一确定模块，用于根据所述N个语义相似度，确定所述N个候选问题中的目标问题，所述目标问题与所述待回答问题的接近度大于或等于第一阈值；

所述第一确定模块还用于根据所述目标问题确定所述待回答问题的答案。

第四方面，本申请实施例提供一种文本匹配模型的训练装置，包括：

获取模块，用于在自然语言语料库中获取第一目标数据集和第二目标数据集；

第二确定模块，用于根据所述第一目标数据集和第二目标数据集，确定文本匹配训练集，所述文本匹配训练集包括至少一个训练样本，所述训练样本包括两个问题以及两个问题之间的语义相似度；

训练模块，用于将所述文本匹配训练集输入至预先建立的深度神经网络中进行训练，得到文本匹配模型。

第五方面，本申请实施例提供一种计算机设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行本申请实施例第一方面所述的问答匹配方法或第二方面所述的文本匹配模型的训练方法。

第六方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现本申请实施例第一方面所述的问答匹配方法或第二方面所述的文本匹配模型的训练方法。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一示例性实施例示出的问答匹配方法的实施环境示意图；

图2是本申请一示例性实施例示出的问答匹配方法的流程示意图；

图3是本申请一示例性实施例示出的问答匹配方法的应用场景图；

图4是本申请另一示例性实施例示出的问答匹配方法的流程示意图；

图5是本申请另一示例性实施例示出的问答匹配方法的流程示意图；

图6是本申请另一示例性实施例示出的问答匹配方法的流程示意图；

图7a是本申请一示例性实施例示出的问答匹配方法的可视化场景图；

图7b是本申请另一示例性实施例示出的问答匹配方法的可视化场景图；

图8是本申请一示例性实施例示出的文本匹配模型的结构示意图；

图9是本申请一示例性实施例示出的问答匹配装置的结构示意图；

图10是本申请一示例性实施例示出的文本匹配模型的训练装置的结构示意图；

图11是本申请一示例性实施例示出的计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在智能客服问答、网络搜索等多种领域，都需要对用户提出的问题进行解答，即针对用户提出的问题，在常见问题问答(Frequently Asked Questions，FAQ)知识库中匹配合适的答案。FAQ知识库中的常见问题和答案通常都是预先搜集整理出来的，一个问题对应一个答案或者多个相似问题对应一个答案，当为用户问题匹配答案时，通常有两种方法，第一种方法是：先计算用户问题与FAQ知识库中每个常见问题之间的句子相似度，将句子相似度最大的常见问题对应的答案作为用户问题匹配的答案。其中，句子相似度的计算方式通常采用词嵌入方式，即对用户问题和常见问题中的每一个词计算一个静态的词向量，通过余弦相似度计算用户问题与常见问题之间的词相似度，然后通过词相似度计算得到用户问题与每个常见问题之间的句子相似度，或者，将一句话中所有词向量采用累加等方法形成一个句子向量，分别得到用户问题对应的句子向量和每个常见问题对应的句子向量，再分别计算用户问题对应的句子向量与和每个常见问题对应的句子向量之间的余弦相似度。第二种方法是：针对每一个FAQ知识库中的常见问题和答案，构造相似问题训练集，通过相似问题训练集训练得到匹配模型，每个领域的FAQ知识库各自对应一个专用匹配模型，利用该匹配模型确定用户问题和FAQ知识库中的每个常见问题进行匹配，将匹配到的常见问题对应的答案作为用户问题的答案。

但是，上述第一种方法存在如下缺陷：由于同一个问题可能有多种不同的文字表达，而基于词嵌入的方式计算句子相似度无法准确理解句子之间的语义关联性，可能会使得语义相同的两句话因表达文字不同而造成文字对应的词向量完全不同，进而导致两句话之间的句子相似度非常低，最终导致为用户问题匹配的答案准确率低。第二种方法存在如下缺陷：由于针对不同应用领域的FAQ知识库中包含的常见问题是不一样的，如果只针对一个领域的FAQ知识库训练匹配模型，得到的该模型无法应用于其他领域问题答案匹配。因此，需要针对每一个领域的FAQ知识库，均需要构造相似问题训练集，并分别针对每个相似问题训练集训练得到每个领域的FAQ知识库对应的匹配模型，因此需要消耗大量的人工和资源成本，并且，对于小语料场景，即FAQ知识库中只存在一个问题对一个答案的问答对没有相似问题的场景，无法采用第二种方法构建相似问题训练集，从而使得第二种方法使用场景受限。

针对此缺陷，本申请实施例的技术构思主要在于：根据自然语言语料库中的数据集构造文本匹配训练集，从而根据该文本匹配训练集训练得到的文本匹配模型是各领域通用的模型。当获取到用户输入的待回答问题后，在相应的FAQ知识库中选取与所述待回答问题匹配的第一数量个候选问题，然后判断相应的FAQ知识库中的问题和答案是一对一的关系还是多个相似问题对应一个答案，若是一个问题对硬一个答案，则分别将每个候选问题与待回答问题输入至该通用的文本匹配模型进行语义相似度匹配，得到每个候选问题与待回答问题的语义相似度；若该FAQ知识库中是多个相似问题对应一个答案，则继续根据该FAQ知识库中的相似问题构建该FAQ知识库的专用文本匹配训练集，将专用文本匹配训练集输入至上述通用的文本匹配模型中继续训练，得到该FAQ知识库对应的专用文本匹配模型，分别将每个候选问题与待回答问题输入至该专用的文本匹配模型进行语义相似度匹配，得到每个候选问题与待回答问题的语义相似度。本申请无需针对每个FAQ知识库均构建一个文本匹配模型，大大节省了人工和资源成本，且本申请通用的文本匹配模型应用场景广泛，对问答和答案为一对一关系(即没有相似问题)的FAQ知识库，使用一个通用的文本匹配模型即可。并且，该使用该通用的文本匹配模型得到的语义相似度能在语义角度反映候选问题与待回答问题之间的相似度，因此，通过该语义相似度在候选问题中选取的目标问题与待回答问题更相似，从而根据该目标问题确定的待回答问题的答案更加准确，提高了答案匹配的准确率。更进一步的，又由于本申请能够针对包含多个相似问题对应一个答案的FAQ知识库构建并训练专用的文本匹配模型，因此进一步提高了答案匹配的准确率。

图1是本申请一示例性实施例示出的问答匹配方法的实施环境示意图，本实施例提供的应用场景主要包括：客户端101和文本处理平台102，客户端101和文本处理平台102之间以有线或无线的方式进行通信，其中，有线方式可以是客户端和服务端之间通过数据线等线路进行数据传输；无线方式可以是客户端和服务端之间通过蓝牙、无线网络等进行通信。

需要说明的是，所述客户端可以但不限于是手机、平板、显示终端、智能家电、智能穿戴设备等智能交互设备，文本处理平台可以但不限于是服务器、计算机、手机、平板电脑等具有信息处理功能的设备。

示例性的，客户端采集待回答问题，比如用户通过显示终端和手机等显示的搜索网页输入问题文本、智能家电采集用户的语音文本数据等，然后客户端将采集到的问题文本作为待回答问题发送至文本处理平台，由文本处理平台获取到待回答问题后进行相关处理，得到该待回答问题对应的答案，并向客户端发送待回答问题对应的答案。

需要说明的，本申请提供的方法可以广泛应用于各个领域的智能客服问答、网络搜索等应用场景，下面将结合具体应用场景对本申请提供的问答匹配方法的实现过程进行详细描述。

图2是本申请一示例性实施例示出的问答匹配方法的流程示意图。

如图2所示，本实施例提供的方法可以包括以下步骤。

S201，在问答知识库中，确定与待回答问题匹配的N个候选问题，所述N为大于1的整数。

本步骤中，待回答问题可以是用户通过客户端输入的一句话，可以是从客户端采集到的用户语音中提取的问题文本，然后由客户端将待回答问题发送至服务端。

示例性的，如图3所示的智能客服问答应用场景中，用户通过显示终端301在显示的网络搜索界面中输入“安卓手机质量如何”，则显示终端301将待回答问题“安卓手机质量如何”发送至服务端302，从而使服务端302获取到待回答问题。

需要说明的是，每个领域均有各自对应的FAQ知识库，FAQ知识库中包含领域内的大量常见问题以及对应的答案。比如，对于金融领域对应的FAQ知识库中存储的是与金融相关的常见问题以及答案，电商领域对应的FAQ知识库中存储的是与电商相关的常见问题以及答案，植物领域对应的FAQ知识库中存储的是与各种植物知识相关的常见问题以及答案等。

本步骤中，问题问答FAQ知识库是与该待回答问题所属领域相关的知识库，该FAQ知识库中包含大量属于该领域的常见问题以及对应的答案。

示例性的，如图3所示，服务端获取到的待回答问题为“安卓手机质量如何”，则服务端根据该待回答问题确定该问题所述的领域为手机测评知识领域，因此在手机测评知识领域对应的FAQ知识库303中获取N个候选问题。

一些实施例中，N可以但不限于是50或100，N个候选问题可以是手机测评知识领域对应的FAQ知识库中与文本“安卓手机质量如何”之间的句子相似度最高的50或100个问题文本。

S202，分别将N组数据输入文本匹配模型，输出N个语义相似度，每组数据均包括所述待回答问题和一个所述候选问题，所述语义相似度用于表示所述待回答问题与所述候选问题之间的语义相似度。

本步骤中，分别将每个候选问题与所述待回答问题作为输入量输入至文本匹配模型中进行语义相似度匹配，文本匹配模型输出的即为待回答问题与每个候选问题之间的语义相似度。

示例性的，如图3所示，服务端获取到待回答问题为“安卓手机质量如何”，在手机测评知识领域对应的FAQ知识库中获取到“安卓手机质量怎么样，能用多久”、“安卓手机有什么颜色”以及“安卓手机待机时长怎么样？”…等50个候选问题。然后，将“安卓手机质量怎么样，能用多久”和“安卓手机质量如何”、“安卓手机有什么颜色”和“安卓手机质量如何”以及“安卓手机待机时长怎么样？”和“安卓手机质量如何”等50组数据分别输入至文本匹配模型中，得到50个待回答问题与候选问题之间的语义相似度。

S203，根据所述N个语义相似度，确定所述N个候选问题中的目标问题，所述目标问题与所述待回答问题的接近度大于或等于第一阈值。

本步骤中，在N个候选问题中确定的目标问题是与待回答问题在语义上最相似的问题。

在一种可能的实施例中，可以选择候选问题中与待回答问题之间的语义相似度最大的几个候选问题作为目标问题。

示例性的，分别将“安卓手机质量怎么样，能用多久”和“安卓手机质量如何”、“安卓手机有什么颜色”和“安卓手机质量如何”以及“安卓手机待机时长怎么样？”和“安卓手机质量如何”等50个问题对分别输入至文本匹配模型之后，文本匹配模型输出的语义相似度分别为0.8、0.2、0.6…等50个值，假设未列举出来的47个语义相似度均小于0.6，则在该50个候选问题中确定的与该待回答问题“安卓手机质量如何”之间的语义相似度最大的两个目标问题为“安卓手机质量怎么样，能用多久”和“安卓手机待机时长怎么样？”。

在另一种可能的实施例中，也可以在语义相似度的基础上，再结合待回答问题与每个候选问题之间的文本相似度特征，综合确定确定待回答问题与候选问题之间的接近度，将接近度大于或等于第一阈值的候选问题作为目标问题，通过接近度确定出来的目标问题是在语义维度和文本特征维度上与待回答问题最接近的问题文本。需要说明的是，本实施例的具体实现过程将在后面实施例中进行详细描述。

S204，根据所述目标问题确定所述待回答问题的答案。

在一种可能的实施例中，可以在FAQ知识库中查找目标问题对应的答案，将目标问题对应的答案作为待回答问题对应的答案。

示例性的，假设服务端获取的待回答问题为“安卓手机质量如何”，且在手机测评知识领域对应的FAQ知识库中确定的目标问题为“安卓手机质量怎么样，能用多久”和“安卓手机待机时长怎么样？”。则服务端向该FAQ数据库请求“安卓手机质量怎么样，能用多久”和“安卓手机待机时长怎么样？”各自对应的答案，将请求得到的答案作为该待回答问题的答案，并将答案发送至客户端进行显示。

图4是本申请另一示例性实施例示出的问答匹配方法的流程示意图，本实施例在图2所示实施例的基础上进一步对问答匹配方法进行描述。

如图4所示，文本处理平台获取用户从手机、电脑、可穿戴设备等客户端输入的待回答问题，然后在相应的FAQ知识库中获取与待回答问题匹配的N个候选问题，分别将待回答问题与每个候选问题作为输入量输入至文本匹配模型中进行语义相似度匹配，得到文本匹配模型输出的待回答问题与每个候选问题之间的语义相似度。

进一步的，本实施例除了包含图2所示实施例提供的问答匹配方法外，如图4所示，在所述根据所述N个语义相似度，确定所述N个候选问题中的目标问题之前，所述方法还包括：S401，分别确定每个所述候选问题与所述待回答问题之间的文本相似度特征，得到N个文本相似度特征。

其中，文本相似度特征可以包括每个候选问题与待回答问题之间的编辑距离和字相似度。

需要说明的是，编辑距离即为由一个文本转成另一个文本所需的最少编辑操作次数，许可的编辑操作包括将一个字符替换成另一个字符、***一个字符以及删除一个字符，通常编辑距离越小，表示两个文本的相似度越大。字相似度表示一个文本与另一个文本包含相同字符的程度，通常字相似度越大表示两个文本的相似度越大。

在一种可能的实施例中，待回答问题与每个候选问题之间的编辑距离可以使用动态规划算法来计算。基于动态规划算法计算通过***、替换和删除等操作将候选问题转换成待回答问题所需要的操作次数，得到待回答问题和候选问题之间的编辑距离。

在一种可能的实施例中，字相似度的计算方式可以是，分别遍历待回答问题和每个候选问题中的每个字符，确定待回答问题和候选问题中相同字符的数量，将相同字符的数量与待回答问题中包含字符数量的比值，确定为待回答问题与候选问题之间的字相似度。

在本实施例一种或多种可能的情况下，如图4所示，所述根据所述N个语义相似度，确定所述N个候选问题中的目标问题，包括：

S402，根据N个语义相似度和N个文本相似度特征，确定N个接近度，所述接近度用于表示所述待回答问题与所述候选问题的接近程度。

本步骤中，可以采用逼近理想解排序法(即TOPSIS法)根据N个语义相似度和N个文本相似度特征确定待回答问题和每个候选问题之间的接近度，得到N个接近度。

需要说明的是，逼近理想解排序法(即TOPSIS法)是指通过检测评价对象与最优解、最劣解的距离来进行排序，若评价对象最靠近最优解同时又最远离最劣解，则认为该评价对象为最好；若评价对象最靠近最劣解同时又最远离最优解，则认为该评价对象为最劣。其中最优解的各指标值都达到各评价指标的最优值。最劣解的各指标值都达到各评价指标的最差值。因此，根据TOPSIS法对所述语义相似度和所述文本相似度特征进行处理，能够准确的得到每条候选问题与所述待回答问题之间的接近度。

一些实施例中，文本相似度特征包括编辑距离和字相似度，所述根据所述N个语义相似度和所述N个文本相似度特征，确定N个接近度，包括：

根据所述N个语义相似度、N个编辑距离和N个字相似度，确定每个所述候选问题与所述待回答问题的最大接近度和最小接近度，得到N个最大接近度和N个最小接近度；

根据所述N个最小接近度和所述N个最大接近度，确定每个所述候选问题与所述待回答问题之间的接近度，得到所述N个接近度。

本实施例中，得到的待回答问题与候选问题之间的接近度越大，则说明该候选问题与该待回答问题之间越接近。

在一种可能的实施例中，可以根据第一公式和所述N个最小接近度和N个最大接近度来确定每个候选问题与待回答问题之间的接近度，其中，第一公式为：

需要说明的是，D_jbest表示第j条候选问题与所述待回答问题之间的最大接近度，D_jworst表示第j条候选问题与所述待回答问题之间的最小接近度，D_j表示第j条候选问题与所述待回答问题之间的接近度，j的取值为1到N之间的整数。

进一步的，所述根据所述N个语义相似度、N个编辑距离和N个字相似度，确定每个所述候选问题与所述待回答问题的最大接近度和最小接近度，包括：

根据每个所述候选问题与所述待回答问题之间的语义相似度、编辑距离、字相似度，以及所述N个语义相似度中的最大语义相似度、所述N个编辑距离中的最大编辑距离、所述N个字相似度中的最大字相似度，确定每个所述候选问题与所述待回答问题的最大接近度；根据每个所述候选问题与所述待回答问题之间的语义相似度、编辑距离、字相似度，以及所述N个语义相似度中的最小语义相似度、所述N个编辑距离中的最小编辑距离、所述N个字相似度中的最小字相似度，确定每个所述候选问题与所述待回答问题的最小接近度。

在一种可能的实施例中，根据每个所述候选问题与所述待回答问题之间的语义相似度、编辑距离、字相似度以及第二公式，确定每个所述候选问题与所述待回答问题的最大接近度；根据每个所述候选问题与所述待回答问题之间的语义相似度、编辑距离、字相似度和第三公式，确定每个所述候选问题与所述待回答问题的最小接近度。

其中，所述第二公式为：

所述第三公式为：/>

需要说明的是，D_jbest表示第j条候选问题与所述待回答问题之间的最大接近度，D_jworst表示第j条候选问题与所述待回答问题之间的最小接近度，D_j表示第j条候选问题与所述待回答问题之间的接近度，j的取值为1到N之间的整数；当i取值分别为1、2和3时，X_ij、W_i、X_imax和X_imin分别表示不同的参数。具体的，X_1j表示第j条候选问题与所述待回答问题之间的语义相似度，X_2j表示第j条候选问题与所述待回答问题之间的编辑距离，X_3j表示第j条候选问题与所述待回答问题之间的字相似度；W₁表示所述语义相似度所占权重，W₂表示编辑距离所占权重，W₃表示字相似度所占权重；X_1max表示N个语义相似度中的最大语义相似度，X_2max表示N个编辑距离中的最大编辑距离，X_3max表示N个字相似度中的最大字相似度；X_1min表示N个语义相似度中的最小语义相似度，X_2min表示N个编辑距离中的最小编辑距离，X_3min表示N个字相似度中的最小字相似度。

S403，将目标候选问题确定为所述目标问题，得到M个目标问题，所述目标候选问题对应的接近度大于或等于所述第一阈值。

其中，M可以但不限于是4。

本步骤中，在得到待回答问题与每个候选问题之间的接近度后按照接近度由大到小的顺序对N个候选问题进行排序，可以将排序第四的候选问题对应的接近度设置为第一阈值，从而将对应接近度大于或等于第一阈值的4个目标候选问题作为目标问题。

示例性的，假设在FAQ知识库中获取了50条与待回答问题匹配的候选问题，经步骤S402确定得到50个候选问题与待回答问题之间的接近度，并将50个接近度按照大到小的顺序进行排序后，选取接近度最高的4个候选问题作为目标问题。

进一步的，如图4所示，本实施例提供的方法还包括：

S404，根据所述目标问题确定所述待回答问题的答案。

本实施例中，通过获取候选问题与待回答问题之间的编辑距离和字相似度这两个文本相似度特征，并在语义相似度的基础上结合文本相似度特征使用TOPSIS法对每条候选问题与所述待回答问题进行相似度打分，得到每个候选问题与待回答问题之间的接近度，因此得到的接近度能够从语义特征和文本特征这两个维度上综合反映候选问题与待回答问题之间的接近程度，从而使得根据该接近度在候选文本中选取的目标问题与待回答问题之间更相似，进一步提高了答案匹配的准确性。

在另一种可能的实施例中，如图5所示，所述根据所述目标问题确定所述待回答问题的答案，包括：

S501，确定所述M个目标问题对应的M个接近度中的最大接近度。

本步骤中，在根据每个候选问题和待回答问题之间的接近度从N个候选问题中确定出M个目标问题后，进一步确定M个目标问题与待回答问题之间的最大接近度。

示例性的，假设在50个候选问题中提取与待回答问题的接近度最高的4个目标问题分别记为TOP1、TOP2、TOP3和TOP4，且TOP1、TOP2、TOP3和TOP4对应的接近度分别为0.9、0.8、0.6和0.5，则确定4个目标问题对应的4个接近度中的最接近度为0.9。

S502，若所述M个目标问题对应的M个接近度中的最大接近度大于或等于第二阈值，则将第一目标问题对应的答案确定为所述待回答问题的答案，所述第一目标问题与所述最大接近度对应；若所述最大接近度小于所述第二阈值，则将K个第二目标问题对应的答案作为所述待回答问题的答案，所述M个目标问题包括所述K个第二目标问题，所述K小于或等于所述M。

本步骤中，将最大接近度与第二阈值进行比较，即将TOP1对应的接近度与第二阈值进行比较，若TOP1对应的接近度大于或等于预设阈值，则将TOP1对应的答案作为待回答问题的答案。

其中，第二阈值的大小可以根据实际情况进行确定，可以但不限于是0.7。

示例性的，4个目标问题TOP1、TOP2、TOP3和TOP4对应的接近度分别为0.9、0.8、0.6和0.5，其中，TOP1对应的相似度得分为0.9大于0.7，因此，将TOP1对应的答案作为待回答问题的答案。

在一种或多种可能的实施例中，若所述最大接近度小于预设阈值，则可以将M个目标问题中的K个第二目标问题对应的答案作为待回答问题的答案。其中，K个第二目标问题可以是M个目标问题中对应接近度最大的2个目标问题。比如，4个目标问题TOP1、TOP2、TOP3和TOP4对应的接近度分别为0.6、0.6、0.5和0.4，其中，TOP1对应的相似度得分为0.6小于0.7，因此，将4个目标问题中的TOP1和TOP2对应的答案作为待回答问题的答案。

在另一种或多种可能的实施例中，若所述最大接近度小于预设阈值，则可以将M个目标问题发送至客户端进行显示；用户可以在M个目标问题中选择一个目标问题，并根据用户选择的目标问题在FAQ数据库中获取用户选择的目标问题对应的答案，将用户选择的目标问题对应的答案发送至客户端显示。

示例性的，4个目标问题TOP1、TOP2、TOP3和TOP4对应的接近度分别为0.6、0.6、0.5和0.4，其中，TOP1对应的接近度为0.6小于0.7，因此，将4个目标问题TOP1、TOP2、TOP3和TOP4发送至客户端进行显示。

本实施例中，通过预先设置一个最大接近度阈值来确定待回答问题对应的答案，能够使得最终匹配到的答案更加准确。并且，在目标问题与待回答问题之间的相似度得分均小于预设阈值时将目标问题发送至客户端显示，以供用户选择自己感兴趣的问题对应的答案，提升了客户体验度。

图6是本申请另一示例性实施例示出的问答匹配方法的流程示意图，本实施例在上述方法实施例的基础上，进一步对问答匹配方法中的候选问题的匹配过程进行详细描述。

如图6所示，本实施例所述的方法可以包括以下步骤。

S601，分别计算所述问答知识库中的每一个问题与所述待回答问题之间的关键词相似度。

在一种可能的实施例中，可以将FAQ知识库存储至搜索引擎ES数据库中，ES基于关键词匹配方法计算待回答问题与FAQ知识库中的每条常见文本之间的关键词相似度。

示例性的，搜索引擎ES遍历待回答问题中的每个词语，得到待回答问题中的关键词，该关键词可以包括待回答问题中的名词和形容词，然后，搜索引擎ES分别遍历FAQ知识库中每个问题中的每个词语，将待回答问题中的关键词和FAQ知识库中每个问题中的每个词语进行匹配，确定FAQ知识库中每个问题中包含的与待回答问题中的关键词相同的词语数量，将每个问题中与关键词相同的词语数量与待回答问题中总关键词数量的比值确定为该问题与待回答问题之间的关键词相似度。

S602，将目标关键词相似度对应的问题确定为候选问题，得到所述N个候选问题，所述目标关键词相似度大于或等于第三阈值。

在一种可能的实施例中，将计算得到的FAQ知识库中每个常见问题与待回答问题之间的关键词相似度后按照由大到小的顺序对FAQ知识库中的每个问题进行排序，将排序第N名的问题对应额关键词相似度作为第三阈值，将FAQ知识库中对应关键词相似度大于或等于第三阈值的N个问题作为候选问题。

本实施例中，通过搜索引擎数据库在FAQ知识库中粗略的检索得到与待回答问题的相似问题作为候选问题，在后续使用文本匹配模型为待回答问题与候选问题进行精准的语义相似度匹配时能够在一定程度上降低了文本匹配模型处理数据的数量，提高了答案匹配效率和准确率。

图7a是本申请一示例性实施例示出的问答匹配方法的可视化场景图，本实施例在上述图2-图5所示实施例的基础上，结合可视化场景对文本匹配模型的训练过程，以及问答匹配方法的完整实现流程进行详细描述。

需要说明的是，图2-图5所示方法实施例中使用的文本匹配模型为通用的文本匹配模型或专用的文本匹配模型。

可以理解的是，由于当FAQ知识库中只包括一个问题对应一个答案的情况、不包含多个相似问题对应一个答案的情况时，无法根据该FAQ知识库中的问题和答案构造相似问训练集，因此，若所述常见问题问答知识库中的问题文本与答案之间是一对一的关系，则所述文本匹配模型为通用的文本匹配模型；若所述常见问题问答知识库中的问题文本与答案之间是多对一的关系，则所述文本匹配模型为专用的文本匹配模型，且所述专用的文本匹配模型是根据所述常见问题问答知识库中的问题文本与答案对所述通用的文本匹配模型进行训练得到的。

本实施例中，以FAQ知识库中只包括一个问题对应一个答案的问答对、不包含多个相似问题对应一个答案的情况为例，对通用的文本匹配模型的训练过程和通用的文本匹配模型应用过程进行详细描述。

如图7a所示，本实施例提供的方法可以包括如下步骤。

S701，在自然语言语料库中获取第一目标数据集和第二目标数据集。

本步骤中，所述第一目标数据集包括多组第一目标数据，每组第一目标数据包括两个问题和两个问题之间的语义相似度，所述第二目标数据集包括至少两组第二目标数据，每组第二目标数据包括多个语义相似度大于第四阈值的问题，且第一组第二目标数据中包括的问题和第二组第二目标数据中包括的问题不相似，第一组第二目标数据和第二组第二目标数据是所述至少两组第二目标数据中的任意两组。

具体的，自然语言语料库中包含各个领域现有的两问题与两个问题之间的语义相似度，因此可以在自然语言语料库中直接获取至少两个领域的第一目标数据集。并且，自然语言语料库还包括大量相似问题，因此可以在自然语言语料库中获取包含至少两组第二目标数据的第二目标数据集。

S702，根据所述第一目标数据集和第二目标数据集，确定文本匹配训练集。

其中，所述文本匹配训练集包括至少一条训练样本，所述训练样本包括两个问题以及两个问题之间的语义相似度。

一些实施例中，所述所述根据所述第一目标数据集和第二目标数据集，确定文本匹配训练集，包括：将所述第一目标数据集中的每组第一目标数据作为一个训练样本，得到第一训练样本集，以及，根据所述至少两组第二目标数据确定第二训练样本集；将所述第一训练样本集和所述第二训练样本集作为所述文本匹配训练集。

需要说明的是，由于第一目标数据集中包含的数据为自然语言语料库中现有的各个领域中的两个问题与两个问题之间的语义相似度。因此，可以将将所述第一目标数据集中的每组第一目标数据作为一个训练样本，得到第一训练样本集。而第二目标数据集中包含的第二目标数据为自然语言语料库中的相似问题，因此需要根据第二目标数据集创建第二训练样本集。将第一训练样本集和第二训练样本集作为全量的文本匹配训练样本。

示例性的，在自然语言语料库中获取的第一目标数据集中包含金融领域数据和电商领域的数据，其格式为：句子1-句子2-语义相似度标签，该语义相似度标签用于表示句子1和句子2是否相似，若语义相似度为0，则说明句子1和句子2不相似，若语义相似度为1，则说明句子1和句子2相似。比如，金融领域数据包括：***逾期一天怎么办-***逾期一天会影响个人征信吗-0、还款还清了，为什么***账单显示还要还款-***全额还清怎么显示没有还款-1……。电商领域的数据包括：网上购物如何退货-网上买的东西不满意，想要退货该如何操作-1、如何更改收获地址-我的收获地址为什么显示不出来-0……。

在本实施例一种可能的情况下，所述根据所述至少两组第二目标数据确定第二训练样本集，包括：确定负训练样本和正训练样本，所述负训练样本包括第一问题和第二问题以及所述第一问题和所述第二问题之间的语义相似度，所述第一问题为第一组第二目标数据中的一个问题，所述第二问题为第二组第二目标数据中的一个问题，所述第一组第二目标数据和所述第二组第二目标数据为所述至少两组第二目标数据中的任意两组；所述正训练样本包括第三问题和第四问题以及所述第三问题和所述第四问题之间的语义相似度，所述第三问题和所述第四问题为同一组第二目标数据中的两个问题；将第一数量个正训练样本和第二数量个负训练样本确定为第二训练样本集。

本步骤中，在根据至少两组第二目标数据构造第二训练样本集时，需要构造正训练样本和负训练样本，其中，正训练样本即两个相似的问题组成的训练样本，负训练样本即两个不相似的问题文本组成的训练样本。由于同一组的第二目标数据中包含的多个问题均为语义相似度大于第四阈值(比如0.9)的问题，因此，同一组的第二目标数据中的多个问题均相似。又由于第一组第二目标数据中包括的问题和第二组第二目标数据中包括的问题不相似(比如第一组第二目标数据中包括的问题和第二组第二目标数据中包括的问题之间的语义相似度低于一个阈值0.1)，且第一组第二目标数据和第二组第二目标数据是所述至少两组第二目标数据中的任意两组，则说明不同组的第二目标数据之间语义不相似。因此，在构造正训练样本时，直接在同一组的第二目标数据中任意选取两个问题并确定该两个问题之间的语义相似度即可；在构造负训练样本时分别在两个不同组的第二目标数据中各选取一个问题组成两个问题，再确定这两个问题之间的语义相似度即可得到一个负训练样本。

示例性的，在自然语言语料库中获取第二目标数据集为网络搜索问答场景领域的常见问题，其包含三组第二目标数据，其中，第一组第二目标数据包括四个相似问题：安卓手机质量怎么样，能用多久呢、安卓手机好吗、安卓手机怎么样、现在，买安卓手机好吗。第二组第二目标数据包括四个相似问题：沙发一般有多高、沙发一般高度是多少、沙发高度尺寸一般是多少以及客厅沙发一般多高。第三组第二目标数据包括2个相似问题：四川有多少人口和四川一共有多少人。则构造的正训练样本可以是第一组第二目标数据中的两个问题和两个问题之间的相似度：安卓手机好吗-安卓手机怎么样-1；负训练样本可以是第一组第二目标数据中的一个问题和第二组第二目标数据中的一个问题组成的两个问题和这两个问题之间的语义相似度：安卓手机好吗-沙发一般有多高-0。

需要说明的是，为了使得最终文本匹配模型的训练效果更好，正训练样本和负训练样本的数量比例可以是1：3。

进一步的，将第一训练样本集和第二训练样本集组成的全量的文本匹配训练集输入值预先建立的深度神经网络中进行训练，得到通用的文本匹配模型。然后使用通用的文本匹配模型对待回答问题与候选问题进行语义相似度匹配。

需要说明的是，深度神经网络的结构和图8所示的文本匹配模型的结构相同，深度神经网络中各个结构的功能将在下面实施例中进行详细描述。

进一步的，在通过文本匹配训练集训练得到文本匹配模型之后，当需要对用户通过手机、可穿戴设备输入的待回答问题匹配答案时，先在FAQ知识库中确定出N个候选问题，然后将待回答问题和每个候选问题分别输入至通用的文本匹配模型中，文本匹配模型在语义角度确定待回答问题和每个候选问题之间的语义相似度；同时，确定待回答问题和每个候选问题之间的文本相似度特征，根据待回答问题和每个候选问题之间的语义相似度和文本相似度特征，确定每个候选问题和待回答问题之间的接近度，最后根据接近度确定候选问题中的目标问题，根据目标问题确定待回答问题的答案。

本实施例中，通过构造全量的文本匹配训练集，并依据全量的文本匹配训练集训练得到的文本模型适用于各种应用场景，无需针对每个FAQ知识库都分别构建训练样本，节省了人力和资源成本，并且，使用通用的文本匹配模型同样能够准确的确定待回答问题与候选问题之间的语义相似度，从而提高了答案匹配的准确率。

图7b是本申请另一示例性实施例示出的问答匹配方法的可视化场景图，本实施例中，以FAQ知识库中包括多个相似问题对应一个答案为例，对专用的文本匹配模型的训练过程和专用的文本匹配模型应用过程进行详细描述。

如图7b所示，本实施例提供的方法可以包括：

其中，所述文本匹配训练集包括至少一个训练样本，所述训练样本包括两个问题以及两个问题之间的语义相似度。

需要说明的是，步骤S701和S702的具体实施过程可以参考图7a所示实施例中的描述，此处不再重复说明。

S703，在问答知识库中提取第三目标数据集，所述第三目标数据集包括至少两组第三目标数据，每组第三目标数据包括多个语义相似度大于第五阈值的问题。

S704，根据所述第三目标数据集确定专用文本匹配训练集。

需要说明的是，针对用户提问的问题通常都会有对应的问答知识库，需要在问答知识库中寻找与待回答问题相似的候选问题。有的问答知识库中是一个问题对应一个答案，有的问答知识库中是多个相似问题对应同一个答案。实际情况中，针对一个问题对应一个答案的问答知识库无法构造训练集，因此可以通过自然语言语料库中的数据构造训练集，训练得到的文本匹配模型可以通用，无论针对什么样的问题，都可以使用该通用的文本匹配模型在问答知识库中匹配待回答问题相似的候选问题。而针对多个相似问题对应一个答案的问答知识库，可以再构造一个针对该问答知识库的专用文本匹配训练集，将专用文本匹配训练集输入至通用的文本匹配模型中继续训练，便可以得到专用的文本匹配模型，使用专用的文本匹配模型能够更准确的在问答知识库中筛选出与待回答问题相似的候选问题。

需要说明的是，在问答知识库中提取第三目标数据集以及根据第三目标数据集构建专用文本匹配训练集的方法个上述在自然语言语料库中获取第二目标数据集以及根据第二目标数据集构建第二训练样本集的方法相同，此处不再重复说明。

进一步的，在通过文本匹配训练集训练得到通用的文本匹配模型之后，根据FAQ知识库构建专用文本匹配训练集继续对通用的文本匹配模型训练得到专用的文本匹配模型。当需要对用户通过手机、可穿戴设备输入的待回答问题匹配答案时，先在FAQ知识库中确定出N个候选问题，然后将待回答问题和每个候选问题分别输入至专用的文本匹配模型中，专用的文本匹配模型在语义角度确定待回答问题和每个候选问题之间的语义相似度；同时，确定待回答问题和每个候选问题之间的文本相似度特征，根据待回答问题和每个候选问题之间的语义相似度和文本相似度特征，确定每个候选问题和待回答问题之间的接近度，最后根据接近度确定候选问题中的目标问题，根据目标问题确定待回答问题的答案。

本实施例中，将所述专用文本匹配训练集输入至所述通用的文本匹配模型中进行训练，得到专用的文本匹配模型能够更加准确的预测待回答问题与候选问题之间的语义相似度特征，从而进一步提高了答案匹配的准确率。

图8是本申请一示例性实施例示出的文本匹配模型的结构示意图。

如图8所示，本实施例提供的意图识别模型主要包括：输入层801、语言表示层802、全连接层803以及分类层804；其中，

输入层，用于将用户输入的待回答问题和候选问题转换成目标文本数据，所述目标文本数据包括所述待回答问题和候选问题中每个词语对应的词语标识。

语言表示层，用于将所述输入层输出的目标文本数据转换成句子向量；

全连接层，用于将所述句子向量映射为目标向量，所述目标向量表示待回答问题和候选问题的语义特征；

分类层，用于根据所述目标向量预测所述待回答问题与候选问题之间的语义相似度。

其中，语言表示层为一种预训练语言模型(Bidirectional EncoderRepresentations from Transformers，BERT)。

本实施例中，当待回答问题输入至输入层后，输入层在每条文本数据前后各增加一个标识符，分别用于标识每条文本数据的起始位置和结束位置。然后将文本数据中每个字符转换成相应的词语标识，得到每条文本数据对应的目标文本数据。

示例性的，输入至输入层的待回答问题和候选问题分别为句子A和句子B，则在句子A前后增加标识符[CLS]，在句子A和句子B之间增加标识符[SEP]，以及，在句子B后增加标识符[SEP]。其中，[CLS]标识符放在句子首位，[SEP]标识符放在句子末尾，得到一个带标识符的句子：[CLS]+句子A+[SEP]+句子B+[SEP]。然后，将带标识符的句子A和句子B中的每个字符转换成词语标识(即词语ID)，得到两个句子分别对应的标识序列。比如，用数字1、2、3…表示句子中的每个字符对应的词语标识，最终得到的形如[CLS]+2 5 7 1 6+[SEP]+3 57+[SEP]的标识序列即为转换后的目标文本数据。

进一步的，将输入层输出的目标文本数据输入至语言表示层BERT，在BERT层中对待回答问题和候选问题中的每个字符进行深度语义理解。具体的，BERT中自带字典表，该字典表表示词语标识与词向量之间的对应关系。因此，当BERT接收到目标文本数据后，根据每个词语标识在字典表中查询相应的词向量，最终将各个词向量拼接得到待回答问题和候选问题对应的句子向量。

进一步的，BERT层输出的句子向量输入至全连接层中，全连接层(dense层)对句子向量进行特征空间转换。比如，BERT层输入至全连接层的句子向量是用于描述文本语义的N*1维特征向量，全连接层对该句子向量进行特征空间含义的转换，得到用于描述文本的语义特征的M*1维目标向量，使得该目标向量不仅可以表示文本的语义特征，并且目标向量的维度正好满足输入下一个分类层所需要的维度，其中，N和M均为正整数。

进一步的，所述分类层可以但不限于是Softmax函数层，Softmax函数用于做多分类任务，可以把输出的可能性映射到一个分布上。具体的，Softmax函数层接收到目标向量后，预测待回答问题和候选问题之间的语义相似度。

需要说明的是，本实施例中仅结合本申请提供的技术方案，示例性的说明了意图识别模型中的每个网络层的功能和联系。

图9是本申请一示例性实施例示出的问答匹配装置的结构示意图。

如图9所示，本实施例提供的装置包括：

提取模块901，用于在问答知识库中，确定与待回答问题匹配的N个候选问题，所述N为大于1的整数；

匹配模块902，用于分别将N组数据输入文本匹配模型，输出N个语义相似度，每组数据均包括所述待回答问题和一个所述候选问题，所述语义相似度用于表示所述待回答问题与所述候选问题之间的语义相似度；

第一确定模块903，用于根据所述N个语义相似度，确定所述N个候选问题中的目标问题，所述目标问题与所述待回答问题的接近度大于或等于第一阈值；

进一步的，所述第一确定模块还用于：

分别确定每个所述候选问题与所述待回答问题之间的文本相似度特征，得到N个文本相似度特征；

所述第一确定模块具体用于：

根据所述N个语义相似度和所述N个文本相似度特征，确定N个接近度，所述接近度用于表示所述待回答问题与所述候选问题的接近程度；将目标候选问题确定为所述目标问题，得到M个目标问题，所述目标候选问题对应的接近度大于或等于所述第一阈值。

进一步的，在所述问答知识库中，每个问题对应至少一个答案；所述第一确定模块具体用于：

若所述M个目标问题对应的M个接近度中的最大接近度大于或等于第二阈值，则将第一目标问题对应的答案确定为所述待回答问题的答案，所述第一目标问题与所述最大接近度对应；

若所述最大接近度小于所述第二阈值，则将K个第二目标问题对应的答案作为所述待回答问题的答案，所述M个目标问题包括所述K个第二目标问题，所述K小于或等于所述M。

进一步的，所述文本相似度特征包括编辑距离和字相似度；所述第一确定模块具体用于：

进一步的，所述第一确定模块具体用于：

进一步的，所述提取模块具体用于：

分别计算所述问答知识库中的每一个问题与所述待回答问题之间的关键词相似度；

将目标关键词相似度对应的问题确定为候选问题，得到所述N个候选问题，所述目标关键词相似度大于或等于第三阈值。

进一步的，若所述问答知识库中一个问题对应一个答案，则所述文本匹配模型为通用的文本匹配模型；若所述问答知识库中多个相似问题对应一个答案，则所述文本匹配模型为专用的文本匹配模型，且所述专用的文本匹配模型是根据所述问答知识库中的问题与答案对所述通用的文本匹配模型进行训练得到的。

图10是本申请一示例性实施例示出的文本匹配模型的训练装置的结构示意图。

如图10所示，本实施例提供的装置包括：

获取模块1001，用于在自然语言语料库中获取第一目标数据集和第二目标数据集；

第二确定模块1002，用于根据所述第一目标数据集和第二目标数据集，确定文本匹配训练集，所述文本匹配训练集包括至少一个训练样本，所述训练样本包括两个问题以及两个问题之间的语义相似度；

训练模块1003，用于将所述文本匹配训练集输入至预先建立的深度神经网络中进行训练，得到文本匹配模型。

进一步的，所述第一目标数据集包括多组第一目标数据，每组第一目标数据包括两个问题和两个问题之间的语义相似度；所述第二目标数据集包括至少两组第二目标数据，每组第二目标数据包括多个语义相似度大于第四阈值的问题；

所述第二确定模块具体用于：将所述第一目标数据集中的每组第一目标数据作为一个训练样本，得到第一训练样本集，以及，根据所述至少两组第二目标数据确定第二训练样本集；将所述第一训练样本集和所述第二训练样本集作为所述文本匹配训练集。

进一步的，所述第二确定模块具体用于：确定负训练样本和正训练样本，所述负训练样本包括第一问题和第二问题以及所述第一问题和所述第二问题之间的语义相似度，所述第一问题为第一组第二目标数据中的一个问题，所述第二问题为第二组第二目标数据中的一个问题，所述第一组第二目标数据和所述第二组第二目标数据为所述至少两组第二目标数据中的任意两组；所述正训练样本包括第三问题和第四问题以及所述第三问题和所述第四问题之间的语义相似度，所述第三问题和所述第四问题为同一组第二目标数据中的两个问题；将第一数量个正训练样本和第二数量个负训练样本确定为第二训练样本集。

进一步的，所述文本匹配模型为通用的文本匹配模型，所述获取模块还用于：在问答知识库中提取第三目标数据集，所述第三目标数据集包括至少两组第三目标数据，每组第三目标数据包括多个语义相似度大于第五阈值的问题；

所述第二确定模块还用于：根据所述第三目标数据集确定专用文本匹配训练集；

所述训练模块还用于：将所述专用文本匹配训练集输入至所述通用的文本匹配模型中进行训练，得到专用的文本匹配模型。

本实施例中提供的各个模块的具体功能实现可参考上述有关方法实施例中的详细描述。

图11为本申请实施例提供的计算机设备的硬件结构示意图。如图11所示，本实施例提供的计算机设备110包括：至少一个处理器1101和存储器1102。其中，处理器1101、存储器1102通过总线1103连接。

在具体实现过程中，至少一个处理器1101执行所述存储器1102存储的计算机执行指令，使得至少一个处理器1101执行上述方法实施例中的问答匹配方法或文本匹配模型的训练方法。

处理器1101的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图11所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component Interconnect，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请的另一实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述方法实施例中的问答匹配方法或文本匹配模型的训练方法。

本申请的另一实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请实施例第一方面所述的问答匹配方法或文本匹配模型的训练方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种问答匹配方法，其特征在于，包括：

分别将N组数据输入文本匹配模型，以使所述文本匹配模型输出N个语义相似度，每组数据均包括所述待回答问题和一个所述候选问题，所述语义相似度用于表示所述待回答问题与所述候选问题之间的语义相似度；

分别确定每个所述候选问题与所述待回答问题之间的文本相似度特征，得到N个文本相似度特征，其中，文本相似度特征包括编辑距离和字相似度，所述字相似度表示一个文本与另一个文本包含相同字符的程度；所述字相似度确定方式如下：分别遍历待回答问题和每个候选问题中的每个字符，确定待回答问题和候选问题中相同字符的数量，将相同字符的数量与待回答问题中包含字符数量的比值，确定为待回答问题与候选问题之间的字相似度；

根据所述N个语义相似度和文本相似度特征，确定所述N个候选问题中的目标问题，所述目标问题与所述待回答问题的接近度大于或等于第一阈值；

根据所述目标问题确定所述待回答问题的答案；

所述根据所述N个语义相似度和文本相似度特征，确定所述N个候选问题中的目标问题，包括：

根据所述N个语义相似度和所述N个文本相似度特征，确定N个接近度，所述接近度用于表示所述待回答问题与所述候选问题的接近程度；

将目标候选问题确定为所述目标问题，得到M个目标问题，所述目标候选问题对应的接近度大于或等于所述第一阈值；

其中，所述根据所述N个语义相似度和所述N个文本相似度特征，确定N个接近度，包括：

根据每个所述候选问题与所述待回答问题之间的语义相似度、编辑距离、字相似度以及第一公式，确定每个所述候选问题与所述待回答问题的最大接近度，所述第一公式为：

根据每个所述候选问题与所述待回答问题之间的语义相似度、编辑距离、字相似度和第二公式，确定每个所述候选问题与所述待回答问题的最小接近度，所述第二公式为：

根据所述N个最小接近度、所述N个最大接近度和第三公式，确定每个所述候选问题与所述待回答问题之间的接近度，得到所述N个接近度，第三公式为：

其中，D_jbest表示第j条候选问题与所述待回答问题之间的最大接近度，D_jworst表示第j条候选问题与所述待回答问题之间的最小接近度，D_j表示第j条候选问题与所述待回答问题之间的接近度，j的取值为1到N之间的整数；当i取值分别为1、2和3时，X_ij、W_i、X_imax和X_imin分别表示不同的参数；具体的，X_1j表示第j条候选问题与所述待回答问题之间的语义相似度，X_2j表示第j条候选问题与所述待回答问题之间的编辑距离，X_3j表示第j条候选问题与所述待回答问题之间的字相似度；W₁表示所述语义相似度所占权重，W₂表示编辑距离所占权重，W₃表示字相似度所占权重；X_1max表示N个语义相似度中的最大语义相似度，X_2max表示N个编辑距离中的最大编辑距离，X_3max表示N个字相似度中的最大字相似度；X_1min表示N个语义相似度中的最小语义相似度，X_2min表示N个编辑距离中的最小编辑距离，X_3min表示N个字相似度中的最小字相似度。

2.根据权利要求1所述的方法，其特征在于，在所述问答知识库中，每个问题对应至少一个答案；所述根据所述目标问题确定所述待回答问题的答案，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述在问答知识库中，确定与待回答问题匹配的N个候选问题，包括：

4.一种文本匹配模型的训练方法，其特征在于，所述方法包括：

在自然语言语料库中获取第一目标数据集和第二目标数据集；所述自然语言语料库中包含各个领域现有的两个问题与两个问题之间的语义相似度；

根据所述第一目标数据集中的每组第一目标数据，确定第一训练样本集，每组第一目标数据包括两个问题和两个问题之间的语义相似度；

根据所述第二目标数据集中的至少两组第二目标数据，确定第二训练样本集；每组第二目标数据包括多个语义相似度大于第四阈值的问题，且第一组第二目标数据中包括的问题和第二组第二目标数据中包括的问题不相似；

将所述第一训练样本集和所述第二训练样本集作为文本匹配训练集，所述文本匹配训练集包括至少一个训练样本，所述训练样本包括两个问题以及两个问题之间的语义相似度；

将所述文本匹配训练集输入至预先建立的深度神经网络中进行训练，得到文本匹配模型；所述文本匹配模型为通用的文本匹配模型；

若问答知识库中一个问题对应一个答案，所述文本匹配模型用于输出所述问答知识库中的候选问题与待回答问题的相似度；

若问答知识库中多个相似问题对应一个答案，所述方法还包括：

在问答知识库中提取第三目标数据集，所述第三目标数据集包括至少两组第三目标数据，每组第三目标数据包括多个语义相似度大于第五阈值的问题；

根据所述第三目标数据集确定专用文本匹配训练集；

将所述专用文本匹配训练集输入至所述通用的文本匹配模型中进行训练，得到专用的文本匹配模型；所述专用的文本匹配模型用于输出所述问答知识库中的候选问题与待回答问题的相似度；

其中，若所述问答知识库中一个问题对应一个答案，则所述文本匹配模型为通用的文本匹配模型；若所述问答知识库中多个相似问题对应一个答案，则所述文本匹配模型为专用的文本匹配模型。

5.根据权利要求4所述的方法，其特征在于，所述第一目标数据集包括多组第一目标数据，每组第一目标数据包括两个问题和两个问题之间的语义相似度；

所述根据所述第一目标数据集，确定第一训练样本集，包括：

将所述第一目标数据集中的每组第一目标数据作为一个训练样本，得到第一训练样本集。

6.根据权利要求4或5所述的方法，其特征在于，所述根据所述第二目标数据集，确定第二训练样本集，包括：

确定负训练样本和正训练样本，所述负训练样本包括第一问题和第二问题以及所述第一问题和所述第二问题之间的语义相似度，所述第一问题为第一组第二目标数据中的一个问题，所述第二问题为第二组第二目标数据中的一个问题，所述第一组第二目标数据和所述第二组第二目标数据为所述至少两组第二目标数据中的任意两组；所述正训练样本包括第三问题和第四问题以及所述第三问题和所述第四问题之间的语义相似度，所述第三问题和所述第四问题为同一组第二目标数据中的两个问题；

将第一数量个正训练样本和第二数量个负训练样本确定为第二训练样本集。

7.一种问答匹配装置，其特征在于，包括：

匹配模块，用于分别将N组数据输入文本匹配模型，以使所述文本匹配模型输出N个语义相似度，每组数据均包括所述待回答问题和一个所述候选问题，所述语义相似度用于表示所述待回答问题与所述候选问题之间的语义相似度；以及分别确定每个所述候选问题与所述待回答问题之间的文本相似度特征，得到N个文本相似度特征，其中，文本相似度特征包括编辑距离和字相似度，所述字相似度表示一个文本与另一个文本包含相同字符的程度；所述字相似度确定方式如下：分别遍历待回答问题和每个候选问题中的每个字符，确定待回答问题和候选问题中相同字符的数量，将相同字符的数量与待回答问题中包含字符数量的比值，确定为待回答问题与候选问题之间的字相似度；

第一确定模块，用于根据所述N个语义相似度和文本相似度特征，确定所述N个候选问题中的目标问题，所述目标问题与所述待回答问题的接近度大于或等于第一阈值；

所述第一确定模块还用于根据所述目标问题确定所述待回答问题的答案；

所述提取模块，具体用于：分别计算所述问答知识库中的每一个问题与所述待回答问题之间的关键词相似度；将目标关键词相似度对应的问题确定为候选问题，得到所述N个候选问题，所述目标关键词相似度大于或等于第三阈值；

第一确定模块，具体用于根据所述N个语义相似度和所述N个文本相似度特征，确定N个接近度，所述接近度用于表示所述待回答问题与所述候选问题的接近程度；

其中，D_jbest表示第j条候选问题与所述待回答问题之间的最大接近度，D_jworst表示第j条候选问题与所述待回答问题之间的最小接近度，D_j表示第j条候选问题与所述待回答问题之间的接近度，j的取值为1到N之间的整数；当i取值分别为1、2和3时，X_ij、W_i、X_imax和W_imin分别表示不同的参数；具体的，X_1j表示第j条候选问题与所述待回答问题之间的语义相似度，X_2j表示第j条候选问题与所述待回答问题之间的编辑距离，x_3j表示第j条候选问题与所述待回答问题之间的字相似度；W₁表示所述语义相似度所占权重，W₂表示编辑距离所占权重，W₃表示字相似度所占权重；X_1max表示N个语义相似度中的最大语义相似度，X_2max表示N个编辑距离中的最大编辑距离，X_3max表示N个字相似度中的最大字相似度；X_1min表示N个语义相似度中的最小语义相似度，X_2min表示N个编辑距离中的最小编辑距离，X_3min表示N个字相似度中的最小字相似度。

8.一种文本匹配模型的训练装置，其特征在于，包括：

获取模块，用于在自然语言语料库中获取第一目标数据集和第二目标数据集；所述自然语言语料库中包含各个领域现有的两问题与两个问题之间的语义相似度；

第二确定模块，用于根据所述第一目标数据集中的每组第一目标数据，确定第一训练样本集，每组第一目标数据包括两个问题和两个问题之间的语义相似度；根据所述第二目标数据集中的至少两组第二目标数据，确定第二训练样本集；所述第二目标数据集包括至少两组第二目标数据，每组第二目标数据包括多个语义相似度大于第四阈值的问题，且第一组第二目标数据中包括的问题和第二组第二目标数据中包括的问题不相似；将所述第一训练样本集和所述第二训练样本集作为文本匹配训练集，所述文本匹配训练集包括至少一个训练样本，所述训练样本包括两个问题以及两个问题之间的语义相似度；

训练模块，用于将所述文本匹配训练集输入至预先建立的深度神经网络中进行训练，得到文本匹配模型；所述文本匹配模型为通用的文本匹配模型；

第二确定模块，具体用于确定负训练样本和正训练样本，所述负训练样本包括第一问题和第二问题以及所述第一问题和所述第二问题之间的语义相似度，所述第一问题为第一组第二目标数据中的一个问题，所述第二问题为第二组第二目标数据中的一个问题，所述第一组第二目标数据和所述第二组第二目标数据为所述至少两组第二目标数据中的任意两组；所述正训练样本包括第三问题和第四问题以及所述第三问题和所述第四问题之间的语义相似度，所述第三问题和所述第四问题为同一组第二目标数据中的两个问题；将第一数量个正训练样本和第二数量个负训练样本确定为第二训练样本集；

若问答知识库中多个相似问题对应一个答案，所述获取模块还用于：在问答知识库中提取第三目标数据集，所述第三目标数据集包括至少两组第三目标数据，每组第三目标数据包括多个语义相似度大于第五阈值的问题；所述第二确定模块还用于：根据所述第三目标数据集确定专用文本匹配训练集；所述训练模块还用于：将所述专用文本匹配训练集输入至所述通用的文本匹配模型中进行训练，得到专用的文本匹配模型；所述专用的文本匹配模型用于用于输出所述问答知识库中的候选问题与待回答问题的相似度。

9.一种计算机设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-3任一项所述的问答匹配方法或权利要求4-6任一项所述的文本匹配模型的训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-3任一项所述的问答匹配方法或权利要求4-6任一项所述的文本匹配模型的训练方法。