CN113157888A

CN113157888A - 支持多知识来源的询问答复方法、装置和电子设备

Info

Publication number: CN113157888A
Application number: CN202110424743.1A
Authority: CN
Inventors: 程渤; 赵帅; 韦翔晟; ***
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-07-23

Abstract

本发明提供一种支持多知识来源的询问答复方法、装置和电子设备，包括：确定询问语句文本；将所述询问语句文本分别输入多个答复单元，得到每个答复单元输出的回复，其中，所述多个答复单元均为互不相同知识来源的询问答复单元；以预设决策规则处理所有答复单元的回复，输出答复语句。本发明提供的方法、装置和电子设备，实现了基于多知识来源对用户询问语句做出最优答复。

Description

支持多知识来源的询问答复方法、装置和电子设备

技术领域

本发明涉及自动答复技术领域，尤其涉及一种支持多知识来源的询问答复方法、装置和电子设备。

背景技术

随着近年来互联网的高速发展，网络购物在人们生活中扮演的角色也越来越重要了。用户通过网络了解产品信息的最常见形式是浏览商家的宣传页或是产品详细信息页面，这种方式有自己的局限性，用户需要对大量的信息进行浏览和比较才能获得自己想要的信息，导致用户并不能得到满意的体验。在用户需要有针对性的信息时，往往需要咨询售前客服，用自己的语言向售前客服人员咨询产品信息，然后客服人员通过自身经验或查阅相关信息页面或文档之后对用户问题进行回答。人工回答用户的问题存在一些缺点。由于人的生理限制，对于用户的问题往往需要较长的时间来进行阅读、思考和回复，很难做到“秒回”，且长时间的客服工作会导致人出错的机率增加。此外，随着用户数量的增长，一个客服人员往往需要同时与多个用户进行问答对话，客服人员不足时还需要雇佣更多的客服人员，这些情况使得的客服的成本随之增长。为了应对这些情况，问答***应运而生。问答***是一种计算机程序，它会尝试去理解用户提出的问题，并且利用近似于人类风格的自然语言来迅速地、准确地且便于人理解地进行回答。将问答***用于产品信息的问答，可以进一步地满足用户需求，实现高效准确地问答、劳动力的解放和客服成本的降低。

针对具体的行业和领域，通常会存在一些现成的知识，如非结构化或者半结构化的产品信息文档或者是结构化的产品信息数据库等，有些领域会存在一些针对用户常见问题编写的问答对。通过利用这些来源的知识，可以构建问答***来回答用户的问题。

现有的问答***，通常只利用到了常用问题答案对或是某种知识数据库之一作为知识来源，且其中的很多***是采用了基于人工编写规则或是基于规则和简单机器学习模型的技术路线，导致了能够回答的问题范围较小、回答准确率难以提升的问题。且许多行业领域通常会同时拥有多种形式的信息和知识，基于单一知识来源的问答***无法充分利用行业领域现有的知识。

因此，如何避免现有的问答***知识来源单一，无法考虑当前行业领域内的多种形式的信息和知识的情形，仍然是本领域技术人员亟待解决的问题。

发明内容

本发明提供一种支持多知识来源的询问答复方法、装置和电子设备，用以解决现有的问答***知识来源单一，无法考虑当前行业领域内的多种形式的信息和知识的问题，通过采用多种知识来源的答复单元对输入的询问语句作答输出多种回复，然后使用预设的决策规则从上述多种回复中选择或者融合得到最终的答复语句并输出，由于不再使用单一的知识来源对询问语句作答，而是至少两种知识来源的回复单元都处理询问语句并输出回复，最终按照针对选择的知识来源的回复单元特性制定的融合决策将多种回复进行筛选和/或融合，输出最优的答复语句。

本发明提供一种支持多知识来源的询问答复方法，包括：

确定询问语句文本；

将所述询问语句文本分别输入多个答复单元，得到每个答复单元输出的回复，其中，所述多个答复单元均为互不相同知识来源的询问答复单元；

以预设决策规则处理所有答复单元的回复，输出答复语句。

根据本发明提供的一种支持多知识来源的询问答复方法，所述多个答复单元包括第一答复单元、第二答复单元和第三答复单元，对应地，

所述第一答复单元采用基于文本相似度匹配的知识来源进行答复输出第一回复，所述第二答复单元采用基于知识图谱的知识来源进行答复输出第二回复，所述第三答复单元采用基于机器阅读理解的知识来源进行答复输出第三回复。

根据本发明提供的一种支持多知识来源的询问答复方法，将所述询问语句文本输入第一答复单元，输出第一回复，具体包括：

将所述询问语句文本输入文本嵌入式表示模型，输出询问语句特征矩阵；

将所述询问语句特征矩阵与预先构建的常见问答库中的任一问题对应的特征向量输入第一相似度模型，输出对应的第一相似度；

确定所述第一相似度中数值最大的所述常见问答库中的问题对应的回复语句为第一回复；

其中，所述文本嵌入式表示模型是基于样本询问语句文本采用BERT网络结构进行训练得到的，所述第一相似度模型是基于样本询问语句特征矩阵、样本所述常见问答库中问题对应的特征矩阵和相似度标签进行训练得到的。

根据本发明提供的一种支持多知识来源的询问答复方法，将所述询问语句文本输入第二答复单元，输出第二回复，具体包括：

将所述询问语句特征矩阵输入问题实体识别模型，输出询问语句关键词；

将所述询问语句关键词填入预先编写模版生成查询语句，采用所述查询语句在预先构建的知识图谱数据库中进行查询，得到查询结果；

将所述查询结果填入自然语言编写模版生成第二回复；

其中，所述文本嵌入式表示模型是基于样本询问语句文本采用BERT网络结构进行训练得到的，所述问题实体识别模型是基于样本询问语句特征矩阵和对应的询问语句关键词标签进行训练得到的。

根据本发明提供的一种支持多知识来源的询问答复方法，将所述询问语句文本输入第三答复单元，输出第三回复，具体包括：

确定所述询问语句文本和预先构建的语料库中的任一相关文本的第二相似度；

确定所述第二相似度降序排列中前预设个数的语料库中的相关文本的拼接文本为目标文本；

将所述询问语句文本输入文本和所述目标文本均输入文本嵌入式表示模型，输出询问语句特征矩阵和目标文本特征矩阵；

将所述询问语句特征矩阵和所述目标文本特征矩阵输入精选模型，输出答案文本的起始点和结束点；

基于所述起始点、所述结束点和所述目标文本确定第三回复；

其中，所述文本嵌入式表示模型是基于样本询问语句文本和样本目标文本采用BERT网络结构进行训练得到的，所述精选模型是基于样本目标文本、样本询问语句文本、对应样本目标文本上的起始点标签和结束点标签进行训练得到的。

根据本发明提供的一种支持多知识来源的询问答复方法，所述确定所述询问语句文本和预先构建的语料库中的任一相关文本的第二相似度，具体包括：

确定所述询问语句文本的询问语句TF-IDF特征，确定预先构建的语料库中的任一相关文本的相关文本TF-IDF特征；

对所述询问语句TF-IDF特征和任一所述相关文本TF-IDF特征采用余弦相似度算法进行计算，确定所述询问语句文本和预先构建的语料库中的任一相关文本的第二相似度。

根据本发明提供的一种支持多知识来源的询问答复方法，所述以预设决策规则处理所有答复单元的回复，输出答复语句，具体包括：

若所述第一相似度中数值最大的第一相似度高于预设阈值，则确定所述第一回复为答复语句并输出；

若所述第一相似度中数值最大的第一相似度不高于预设阈值且第二回复非空时，确定所述第二回复为答复语句并输出；

若所述第一相似度中数值最大的第一相似度不高于预设阈值且第二回复为空，则确定所述第三回复为答复语句并输出。

本发明还提供一种支持多知识来源的询问答复装置，包括：

确定单元，用于确定询问语句文本；

答复子单元，将所述询问语句文本分别输入多个答复单元，得到每个答复单元输出的回复，其中，所述多个答复单元均为互不相同知识来源的询问答复单元；

融合单元，用于以预设决策规则处理所有答复单元的回复，输出答复语句。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的支持多知识来源的询问答复方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的支持多知识来源的询问答复方法的步骤。

本发明提供的支持多知识来源的询问答复方法、装置和电子设备，通过确定询问语句文本；将所述询问语句文本分别输入多个答复单元，得到每个答复单元输出的回复，其中，所述多个答复单元均为互不相同知识来源的询问答复单元；以预设决策规则处理所有答复单元的回复，输出答复语句。采用多种知识来源的答复单元对输入的询问语句作答输出多种回复，然后使用预设的决策规则从上述多种回复中选择或者融合得到最终的答复语句并输出，由于不再使用单一的知识来源对询问语句作答，而是至少两种知识来源的回复单元都处理询问语句并输出回复，最终按照针对选择的知识来源的回复单元特性制定的融合决策将多种回复进行筛选和/或融合，输出最优的答复语句。因此，本发明提供的方法、装置和电子设备，实现了基于多知识来源对用户询问语句做出最优答复。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的支持多知识来源的询问答复方法的流程示意图；

图2为本发明提供的问题实体识别模型训练时的样本数据结构示例图；

图3为本发明提供的精选模型训练时使用的样本示例图；

图4为本发明提供的支持多知识来源的询问答复装置的结构示意图；

图5为本发明提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有的问答***普遍存在知识来源单一，无法考虑当前行业领域内的多种形式的信息和知识的问题。下面结合图1描述本发明的一种支持多知识来源的询问答复方法。图1为本发明提供的一种支持多知识来源的询问答复方法的流程示意图，如图1所示，该方法包括：

步骤110，确定询问语句文本。

具体地，本发明提供的支持多知识来源的询问答复方法的执行主体是支持多知识来源的询问答复装置，即接收用户输入的询问语句然后输出对应的答复语句的询问答复***。通常，该询问答复装置都是针对某一领域、行业或产品构建的，专门针对于该领域、行业或产品相关的咨询问题做出准确答复，因此，在构建该询问答复装置时，采用的数据库也是基于该领域、行业或产品的相关内容信息构建的，有可能数据库中的内容或形式不同，还有可能查询数据库找出对应问题的答复结果的方式不同，如此，形成了不同知识来源的询问答复单元。本发明提供的支持多知识来源的询问答复方法实施的第一步就是接收用户输入的询问语句文本，用户可以是语音输入或文字输入，对于用户输入的形式此处不作具体限定，该询问答复装置接收用户输入后，将用户输入转换成询问语句文本以便进行后续处理。

步骤120，将所述询问语句文本分别输入多个答复单元，得到每个答复单元输出的回复，其中，所述多个答复单元均为互不相同知识来源的询问答复单元；

具体地，如上文所述，针对同一领域、行业或产品的相关内容信息构建的数据库可以由于其中存储数据内容或结构的不同造成以该数据库构建的询问答复单元的知识来源不同，还可以由于查询上述数据库找出对应问题的答复结果的查询方式不同造成以上述查询方式查询上述数据库作为基础构建的询问答复单元的知识来源不同。因此，本实施例提供的支持多知识来源的询问答复方法的执行主体询问答复装置中，包括多个答复单元，所述多个答复单元均为互不相同知识来源的询问答复单元，即所述多个答复单元由于构建的数据库中数据内容或结构的不同和/或由于对自身构建的数据库的查询方式不同，它们之间形成了互不相同的知识来源询问答复单元的关系。而本实施例中对于确定的询问语句文本，所述询问答复装置中包括的多个答复单元均对其进行答复处理，每个答复单元都输出一个各自对应的回复结果，此处需要说明的是，每个答复单元都相当于一个完整的问答***，输入的是询问语句，输出的是答复语句，每个答复单元输出的回复都是可以直接用来当作最终回复的答复自然语言，因此，后续的从多个回复中确定最优答复语句可以从多个回复中直接选择，无需作其他变换。

步骤130，以预设决策规则处理所有答复单元的回复，输出答复语句。

具体地，由于本实施例提供的是支持多知识来源的询问答复方法，因此，在得到不同知识来源的多个答复单元输出的回复结果后，要按照预先设定的决策规则对所述多个回复结果进行处理，所述预设决策规则可以是按照不同答复单元的特性或者回复结果对应的某指标为各回复结果设定的优先级从多个回复结果中选出一个作为最终的最优答复语句，也可以是以某种融合规则将多个回复结果进行提取关键词后拼接得到最终的最优答复语句，此处不作具体限定。

本发明提供的支持多知识来源的询问答复方法，通过确定询问语句文本；将所述询问语句文本分别输入多个答复单元，得到每个答复单元输出的回复，其中，所述多个答复单元均为互不相同知识来源的询问答复单元；以预设决策规则处理所有答复单元的回复，输出答复语句。采用多种知识来源的答复单元对输入的询问语句作答输出多种回复，然后使用预设的决策规则从上述多种回复中选择或者融合得到最终的答复语句并输出，由于不再使用单一的知识来源对询问语句作答，而是至少两种知识来源的回复单元都处理询问语句并输出回复，最终按照针对选择的知识来源的回复单元特性制定的融合决策将多种回复进行筛选和/或融合，输出最优的答复语句。因此，本发明提供的方法，实现了基于多知识来源对用户询问语句做出最优答复。

基于上述实施例，该方法中，所述多个答复单元包括第一答复单元、第二答复单元和第三答复单元，对应地，

具体地，本实施例进一步限定询问答复装置中包含的多个答复单元的个数为3，分别为第一答复单元、第二答复单元和第三答复单元，上述三个答复单元的知识来源互不相同，进一步地，第一答复单元采用基于文本相似度匹配的知识来源进行答复输出第一回复，即第一答复单元中包括预先构建好的常见问答数据库，该常见问答数据库中包括了该领域常见的提问语句和准确的答复语句，该问答数据库可以是基于历史的人工答复记录构建的，也可以是针对该领域的内容编写简单的脚本文件批量生成提问语句和对应的答复语句，后者形成的语句可能结构化明显，不如人工问答语句更自然多样性更高。第一答复单元将输入的询问语句文本与常见问答数据库中的每一条询问语句进行相似度的计算，找出相似度最高的那条询问语句在常见问答数据库中对应的答复语句即为第一回复。第二答复单元采用基于知识图谱的知识来源进行答复输出第二回复，首先将输入的询问语句文本转换为特征矩阵，再从特征矩阵中提取出询问语句中的关键词，然后以关键词构建查询语句，最后以查询语句在预先构建好的知识图谱数据库中进行查询得到查询结果，将查询结果填入自然语言编写模版生成符合自然语言即通顺的语句作为第二回复，预先构建的知识图谱数据库中该领域的内容信息以特殊的形式进行存储关联，且该知识图谱数据库的查询方式对应的也不同。第三答复单元采用基于机器阅读理解的知识来源进行答复输出第三回复，第三答复单元构建的数据库即该领域的语料库，构建方式简单，无需构造问答，也无需以特殊形式存储关联得到知识图谱，只是该领域中的所有相关文本的集合。由于数据库中内容的规律性不强且关联性弱，所以查询方式上比较复杂，需要训练一个从语料库中提取最相关的目标文本的模型，还需要训练一个从目标文本中截出回复语句的模型，前后两个模型依次使用，最后一个模型用于输出第三回复。

基于上述实施例，该方法中，将所述询问语句文本输入第一答复单元，输出第一回复，具体包括：

具体地，第一答复单元将询问语句文本输入到文本嵌入式表示模型，将询问语句文本嵌入到向量空间中进行表示，并将该嵌入式表示结果即询问语句特征矩阵输出第一相似度模型，第一相似度模型对将询问语句特征矩阵与常见问答库中的所有问题文本对应的特征矩阵一一计算第一相似度，找到第一相似度最高的常见问题，将第一相似度最高的常见问题在常见问答库中所对应的答案作为第一答复单元的输出(即第一回复)。

此处对文本嵌入式表示模型进行具体说明：文本嵌入式表示模型训练时主要使用BERT模型，这是一个无监督学习的模型。对外部来说，训练的输入是海量的自然语言文本(无监督学习模型由于没有人工标注提供先验知识，因此需要的训练样本数量很大)，在训练阶段自动对这些文本进行无监督学习。使用阶段，输入有T个字的自然语言文本，输出T×D大小的嵌入式表示矩阵，其中，D是预先定义的每个字的嵌入式向量的长度。

此处还对第一相似度模型进行具体说明：第一相似度模型的训练数据集中包括样本询问语句特征矩阵、样本所述常见问答库中问题对应的特征矩阵和相似度标签，实际上，是通过人工方法标注询问语句和对应的常见问答库中的每个常见提问的相似度标签，其中，相似度标签通过数值1或0表示，1表示当前标注的询问语句与常见问答库中的常见提问一致，0表示当前标注的询问语句与常见问答库中的常见提问无关，人工标注完所有的样本询问语句、样本所述常见问答库中常见问题和对应的相似度标签三元组后，再将每一个三元组中的样本询问语句和样本常见问题通过文本嵌入式表示模型转换成各自对应的特征矩阵，再以各自对应的矩阵组成样本询问语句特征矩阵、样本所述常见问答库中问题对应的特征矩阵和相似度标签三元组作为第一相似度模型的训练数据集中单位训练数据。

基于上述实施例，该方法中，将所述询问语句文本输入第二答复单元，输出第二回复，具体包括：

将所述查询结果填入自然语言编写模版生成第二回复；

具体地，第二答复单元将询问语句文本输入到文本嵌入式表示模型，将询问语句文本嵌入到向量空间中进行表示，输出询问语句文本的特征矩阵至问题实体识别模型，输出询问语句关键词，将所述关键词填入预先编写的模板中以生成查询语句，执行查询语句以查询包含在知识图谱数据库并获取查询结果，将查询结果填入自然语言编写模板中以生成作为第二答复单元输出的第二回复。

此处需要说明的是，本实施例使用的文本嵌入式表示模型与前一实施例描述的文本嵌入式表示模型相同，训练方式和使用方法都一致，因此，文本嵌入式表示模型只用训练一次，训练完成后可以被第一答复单元和第二答复单元使用。

此处对问题实体识别模型进行具体说明：图2为本发明提供的问题实体识别模型训练时的样本数据结构示例图，如图2所示，第一列是输入的用户问题文本，第二列是每个字的标签。在使用时，输入第一列的内容，模型输出第二列的内容，然后根据第二列的内容可以提取出实体和实体类型(也就是关键字和它的类型)。

此处还对知识图谱数据库和其查询方式进行具体说明：本实施例中使用三元组的形式来表示知识，一个三元组是知识图谱中的2个点和1条边，多个三元组之间构成图谱结构。三元组使用资源描述框架(Resource Description Framework，RDF)表示，RDF是一种基于XML的机器可读的格式，通过RDF这样标准化的格式，不同的应用程序之间可以共享彼此的三元组，以达到交换知识的目的。RDF包括了三个对象类型：资源(Resource)、属性(Properties)和陈述(Statements)。资源是所有用RDF来描述的事物，它可以是任何事物，如一个人、一个机构或者一个城市等。属性用于描述资源的特征或者关系，对于特定的资源一个属性一般会有对应的属性值。RDF的资源和属性都是以统一资源标识(URI，UniformResource Identifiers)来命名的，可以做到对所有资源进行无歧义区分和保存。一个陈述包含了一个特定的资源、一个特定的属性以及其对应的属性值，其中资源是主语、属性是谓语且属性值是宾语，属性值可以是一个字符串或者一个资源。三元组的形式虽然简单，但是可以通过组合三元组来构成语义网络，以表达各种复杂的关系。

Apache Jena是一个用于开源语义网的Java框架，它包含了一系列语义网的常用功能，提供了可以用于进行知识图谱的建模、存储以及查询等操作的丰富的API和工具程序。TDB提供了一个高性能的语义网持久存储数据库，Fuseki提供了允许通过http进行SPARQL语言执行的服务器，因此，本实施例中使用预先编写模版生成查询语句，将关键词转换为SPARQL语言，对基于Apache Jena构建的知识图谱数据库进行查询。

基于上述实施例，该方法中，将所述询问语句文本输入第三答复单元，输出第三回复，具体包括：

具体地，第三答复单元根据文本相似度从语料库中粗筛出问题文本在语料库中的目标文本。粗筛中并不是只选择相似度最高的相关文本作为目标文本，而是将相似度数值降序排列得到的数列中的前m个相关文本都挑选出来并拼接得到目标文本，m为预设个数，m越大，后续计算的复杂程度越高但是第三答复单元输出的第三回复的结果准确率也高，因此，m需要选取一个合适数值来平衡计算复杂度和回复准确率。再将所述目标文本和所述询问语句文本均输入文本嵌入式表示模型，输出对应的目标文本特征矩阵和询问语句特征矩阵，最后将询问语句特征矩阵和所述目标文本特征矩阵输入精选模型，输出答案文本的起始点和结束点，此处需要说明的是，答案文本的起始点和结束点的定义为第三答复单元输出的作为第三回复的答案是在所述目标文本中的通过所述起始点和所述结束点的两头截断得到的。

此处还对精选模型进行具体说明：精选模型训练时使用的训练数据集样本比较复杂，所以用JSON的格式来进行存储。数据集包含一个键和一个值，其中键是“data”，值是一个包含多个样本的列表。图3为本发明提供的精选模型训练时使用的样本示例图，如图3所示，每个样本包含2个键和各个键对应的值，其中一个键叫“context”，它所对应的值即为上下文句子。另外一个键叫“qas”，它所对应的值是一个列表，列表中的每一项对应一个用户问题和它在上下文句子中的答案。键“question”所对应的值为一个用户问题，键“id”所对应的值为本问题的唯一编号，键“answer”所对应的值分别包含答案在上下文句子中的起始位置(键“answer_start”所对应的值)以及答案的文本(键“text”所对应的值)。综上，精选模型训练时使用的训练数据集中样本示例如图3所示。

精选模型训练时，输入是用户询问语句文本、上下文文本，标签是答案(即正确回复语句)在上下文中的起始点和结束点(以one-hot形式表示)。使用时，模型输入是用户问题文本、上下文文本，输出是答案(作为第三回复的正确回复语句)在上下文中的起始点和结束点(以one-hot形式表示)，然后将上下文中的起始点和结束点之间的文本拿出来作为第三回复。

基于上述实施例，该方法中，所述确定所述询问语句文本和预先构建的语料库中的任一相关文本的第二相似度，具体包括：

具体地，本实施例采用先提取TF-IDF的特征，然后使用余弦相似度公式计算询问语句TF-IDF特征和任一所述相关文本TF-IDF特征之间的相似度来确定上述两段文本的相似度。TF-IDF的特征在训练时，用以下公式计算每个词的TF-IDF向量。

文本库D中第i个词w_i在第j段文本d_j中的TF值通过如下公式定义：

其中，n_i,j为词w_i在文本d_j中出现的次数,∑_kn_k,j为文本d_j中词的总数。IDF值通过如下公式定义：

其中，|D|为文本库中文本段落的总数，|s_j|w_i∈s_j|为包含词w_i的文本段落s_j的总数。TF-IDF值通过如下公式定义：

TF-IDF_ij＝TF_ij*IDF_i

对于每段文本d_j，即用户问题文本和文本库中的每一个文本段落，都可以计算对应的文本向量：

v_j＝(TF-IDF_0j,TF-IDF_1j,…,TF-IDF_tj)

其中，t为文本库中词表的大小。

在使用时，将用户的问题和文本库中的每一段文本对应的特征矩阵两两之间计算相似度，取与用户问题相似度最高的k个段落作为粗筛的结果。对于一个给定的用户问题文本du和文本库中的第j个文本段落s_j，可以通过如下余弦相似度公式计算相似度r_j：

基于上述实施例，该方法中，所述以预设决策规则处理所有答复单元的回复，输出答复语句，具体包括：

具体地，最终答复语句的融合决策的设定需要分析三个知识来源的问答的输出的特点。基于知识图谱的问答：由于知识图谱未必包含用户要问问题的答案，生成的SPARQL查询语句可能会在具体的图谱中查不到结果，所以本知识来源的输出可以分为有答案输出和无答案输出两种情况。基于相似匹配的问答：由于用户问题与各个常见问题进行相似度匹配时模型会给出其对应的相似度的值，所以最终输出的相似度最高的常见问题也有其与用户问题的相似度的值，本知识来源的必然有答案输出且可以附带对应的相似度供问答融合模块参考。基于机器阅读理解的问答：由于模型预测的是答案的起始点和结束点，如果起始点与结束点重叠或者先后顺序错误那么就可以认为没有输出答案，所以本知识来源的输出可以分为有答案输出和无输出两种情况。表1为本发明提供的预设决策规则，在本发明提供基于相似匹配的回复、基于知识图谱的回复和基于机器阅读理解的回复进行融合决策的基础上，给出的决策规则如下表1所示：

表1预设决策规则

其中，相似度阈值由***管理员进行设定。由于问题相似匹配问答模块输出的答案是人工编写的、有相对比较丰富的特点，所以在答案选取的策略上***是偏向于选择这部分答案的。为了尽量在避免***回答与用户问题不相关的答案的同时提高***回答的丰富性，采用了阈值的设计，用于调节***使用问题相似匹配问答模块输出的可能性。阈值越低，***就越有可能选取问题相似匹配问答模块输出的答案。

下面对本发明提供的支持多知识来源的询问答复装置进行描述，下文描述的支持多知识来源的询问答复装置与上文描述的一种支持多知识来源的询问答复方法可相互对应参照。

图4为本发明提供的支持多知识来源的询问答复装置的结构示意图，如图4所示，该装置包括确定单元410、答复子单元420和融合单元430，其中，

所述确定单元410，用于确定询问语句文本；

所述答复子单元420，将所述询问语句文本分别输入多个答复单元，得到每个答复单元输出的回复，其中，所述多个答复单元均为互不相同知识来源的询问答复单元；

所述融合单元430，用于以预设决策规则处理所有答复单元的回复，输出答复语句。

本发明提供的支持多知识来源的询问答复装置，通过确定询问语句文本；将所述询问语句文本分别输入多个答复单元，得到每个答复单元输出的回复，其中，所述多个答复单元均为互不相同知识来源的询问答复单元；以预设决策规则处理所有答复单元的回复，输出答复语句。采用多种知识来源的答复单元对输入的询问语句作答输出多种回复，然后使用预设的决策规则从上述多种回复中选择或者融合得到最终的答复语句并输出，由于不再使用单一的知识来源对询问语句作答，而是至少两种知识来源的回复单元都处理询问语句并输出回复，最终按照针对选择的知识来源的回复单元特性制定的融合决策将多种回复进行筛选和/或融合，输出最优的答复语句。因此，本发明提供的装置，实现了基于多知识来源对用户询问语句做出最优答复。

在上述实施例的基础上，该装置中，所述多个答复单元包括第一答复单元、第二答复单元和第三答复单元，对应地，

在上述实施例的基础上，该装置中，将所述询问语句文本输入第一答复单元，输出第一回复，具体包括：

在上述实施例的基础上，该装置中，将所述询问语句文本输入第二答复单元，输出第二回复，具体包括：

将所述查询结果填入自然语言编写模版生成第二回复；

在上述实施例的基础上，该装置中，将所述询问语句文本输入第三答复单元，输出第三回复，具体包括：

在上述实施例的基础上，该装置中，所述确定所述询问语句文本和预先构建的语料库中的任一相关文本的第二相似度，具体包括：

在上述实施例的基础上，该装置中，所述融合单元，具体用于：

图5为本发明提供的一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行支持多知识来源的询问答复方法，该方法包括：确定询问语句文本；将所述询问语句文本分别输入多个答复单元，得到每个答复单元输出的回复，其中，所述多个答复单元均为互不相同知识来源的询问答复单元；以预设决策规则处理所有答复单元的回复，输出答复语句。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的支持多知识来源的询问答复方法，该方法包括：确定询问语句文本；将所述询问语句文本分别输入多个答复单元，得到每个答复单元输出的回复，其中，所述多个答复单元均为互不相同知识来源的询问答复单元；以预设决策规则处理所有答复单元的回复，输出答复语句。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的支持多知识来源的询问答复方法，该方法包括：确定询问语句文本；将所述询问语句文本分别输入多个答复单元，得到每个答复单元输出的回复，其中，所述多个答复单元均为互不相同知识来源的询问答复单元；以预设决策规则处理所有答复单元的回复，输出答复语句。

以上所描述的服务器实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种支持多知识来源的询问答复方法，其特征在于，包括：

确定询问语句文本；

以预设决策规则处理所有答复单元的回复，输出答复语句。

2.根据权利要求1所述的支持多知识来源的询问答复方法，其特征在于，所述多个答复单元包括第一答复单元、第二答复单元和第三答复单元，对应地，

3.根据权利要求2所述的支持多知识来源的询问答复方法，其特征在于，将所述询问语句文本输入第一答复单元，输出第一回复，具体包括：

4.根据权利要求3所述的支持多知识来源的询问答复方法，其特征在于，将所述询问语句文本输入第二答复单元，输出第二回复，具体包括：

将所述查询结果填入自然语言编写模版生成第二回复；

5.根据权利要求4所述的支持多知识来源的询问答复方法，其特征在于，将所述询问语句文本输入第三答复单元，输出第三回复，具体包括：

6.根据权利要求5所述的支持多知识来源的询问答复方法，其特征在于，所述确定所述询问语句文本和预先构建的语料库中的任一相关文本的第二相似度，具体包括：

7.根据权利要求3-6中的任一项所述的支持多知识来源的询问答复方法，其特征在于，所述以预设决策规则处理所有答复单元的回复，输出答复语句，具体包括：

8.一种支持多知识来源的询问答复装置，其特征在于，包括：

确定单元，用于确定询问语句文本；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的支持多知识来源的询问答复方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7中任一项所述的支持多知识来源的询问答复方法的步骤。