CN110196901A

CN110196901A - 对话***的构建方法、装置、计算机设备和存储介质

Info

Publication number: CN110196901A
Application number: CN201910578623.XA
Authority: CN
Inventors: 焦振宇; 孙叔琦; 李婷婷; 孙珂
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-09-03
Anticipated expiration: 2039-06-28
Also published as: CN110196901B

Abstract

本申请提出一种对话***的构建方法、装置、计算机设备和存储介质方法，其中，方法包括：接收开发者发送的候选文档；对候选文档进行分析以生成候选文档对应的关键词集合，其中，关键词集合包括从候选文档提取的多个关键词；接收用户的查询语句，并获取与查询语句匹配的关键词；根据与查询语句匹配的关键词从匹配的关键词对应的候选文档中提取查询结果，并将查询结果反馈给用户。该方法在构建对话***时，开发者输入候选文档即可，无需投入大量的工作，时间成本低，对话***构建方便，并且可以适用于多种场景的对话***构建，适用性强。

Description

对话***的构建方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种对话***的构建方法、装置、计算机设备和存储介质。

背景技术

对话***的构建是建立一个机器对话***，能够与人进行交互，对话***的构建是人机交互的发展趋势，是目前倍受关注的智能机器人的基础技术。

目前主要采用以下两种方式构建对话***，一种是开发者提前设计好本领域的意图和词槽，以及不同情况的下的对话逻辑(简称对话式)；另一种是由开发者整理本领域的问答对，对话时机器人选择与当前用户输入query最相似问题的答案(简称问答式)。

但是，对话式对话***需要开发者充分了解目标领域，同时又对对话***的原理有较高掌握，开发者的收集词槽的词表、整理意图及对话逻辑的工作量很大、时间成本；而问答式对话***开发者事先准备好问答对，如果用户的问题及其相似问题不在问答对中，对话***不能回答，难以支持多轮交互。

发明内容

本申请提出一种对话***的构建方法，用于解决现有的对话***构建方法，存在工作量大、时间成本高和多轮交互困难的问题。

本申请一方面实施例提出了一种对话***的构建方法，包括：

接收开发者发送的候选文档；

对所述候选文档进行分析以生成所述候选文档对应的关键词集合，其中，所述关键词集合包括从所述候选文档提取的多个关键词；

接收用户的查询语句，并获取与所述查询语句匹配的关键词；以及

根据与所述查询语句匹配的关键词从所述匹配的关键词对应的候选文档中提取查询结果，并将查询结果反馈给所述用户。

本申请实施例的对话***的构建方法，通过接收开发者发送的候选文档，对候选文档进行分析以生成候选文档对应的关键词集合，其中，关键词集合包括从候选文档提取的多个关键词，接收用户的查询语句，并获取与查询语句匹配的关键词，根据与查询语句匹配的关键词从匹配的关键词对应的候选文档中提取查询结果，并将查询结果反馈给用户。本实施例中，通过对开发者发送的候选文档进行分析得到对应的关键词集合，在用户查询时，确定与用户输入的查询语句匹配的关键词，通过匹配的关键词从其对应的候选文档中提取到查询结果，由此，在构建对话***时，开发者输入候选文档即可，无需投入大量的工作，时间成本低，对话***构建方便，并且可以适用于多种场景的对话***构建，适用性强。

本申请另一方面实施例提出了一种对话***的构建装置，包括：

接收模块，用于接收开发者发送的候选文档；

生成模块，用于对所述候选文档进行分析以生成所述候选文档对应的关键词集合，其中，所述关键词集合包括从所述候选文档提取的多个关键词；

第一获取模块，用于接收用户的查询语句，并获取与所述查询语句匹配的关键词；以及

查询模块，用于根据与所述查询语句匹配的关键词从所述匹配的关键词对应的候选文档中提取查询结果，并将查询结果反馈给所述用户。

本申请实施例的对话***的构建装置，通过接收开发者发送的候选文档，对候选文档进行分析以生成候选文档对应的关键词集合，其中，关键词集合包括从候选文档提取的多个关键词，接收用户的查询语句，并获取与查询语句匹配的关键词，根据与查询语句匹配的关键词从匹配的关键词对应的候选文档中提取查询结果，并将查询结果反馈给用户。本实施例中，通过对开发者发送的候选文档进行分析得到对应的关键词集合，在用户查询时，确定与用户输入的查询语句匹配的关键词，通过匹配的关键词从其对应的候选文档中提取到查询结果，由此，在构建对话***时，开发者输入候选文档即可，无需投入大量的工作，时间成本低，对话***构建方便，并且可以适用于多种场景的对话***构建，适用性强。

本申请另一方面实施例提出了一种计算机设备，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如上述一方面实施例所述的对话***的构建方法。

本申请另一方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述一方面实施例所述的对话***的构建方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例提供的一种对话***的构建方法的流程示意图；

图2为本申请实施例提供的另一种对话***的构建方法的流程示意图；

图3为本申请实施例提供的另一种对话***的构建方法的流程示意图；

图4为本申请实施例提供的另一种对话***的构建方法的流程示意图；

图5为本申请实施例提供的另一种对话***的构建方法的流程示意图；

图6为本申请实施例提供的一种基于语义候选答案排序的方法示意图；

图7为本申请实施例提供的一种对话***的构建方法的整体示意图；

图8为本申请实施例提供的一种对话***的构建装置的结构示意图；

图9示出了适于用来实现本申请实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的对话***的构建方法、装置、计算机设备和存储介质。

本申请实施例，针对相关技术中对话式对话***的构建方法，开发者工作量大、时间成本高，和问答式对话***难以支持多轮交互的问题，提出一种对话***的构建方法。

本申请实施例的对话***的构建方法，通过对开发者发送的候选文档进行分析得到对应的关键词集合，在用户查询时，确定与用户输入的查询语句匹配的关键词，通过匹配的关键词从其对应的候选文档中提取到查询结果，以实现在构建对话***时，开发者输入候选文档即可，无需投入大量的工作，时间成本低，对话***构建方便，并且可以适用于多种场景的对话***构建，适用性强。

图1为本申请实施例提供的一种对话***的构建方法的流程示意图。

本申请实施例的对话***的构建方法，由对话***的构建装置执行，该装置可配置于计算机设备中，以构建对话***。

如图1所示，该对话***的构建方法包括：

步骤101，接收开发者发送的候选文档。

本实施例中，在构建对话***时，开发者可以根据对话***的应用场景获取与应用场景相关的文档，将其发送至计算机设备，以使对话***构建装置接收开发者发送的候选文档。比如，构建某机场的对话***时，将该机场的相关文档，比如登机流程、托运行李流程、机场各安检口位置等文档发送至计算机设备。

具体实现时，对话***在计算界面具有文档上传按钮，开发者可以点击上传文档的按钮，由此，计算机设备可以接收到开发者上传的候选文档。

其中，开发者发送的候选文档，可以是无结构文档，FAQ类型文档。无结构文档允许开发者可以将目标领域的文档资料直接上传，FAQ类型的文档允许用户上传自己之前整理好的问答对，可以起到批量干预的作用。另外，开发者发送的文档可以是一个也可以是多个，可以是同一类型的文档，也可以是多种类型的文档。比如，要构建针对某旅游景区的对话***，那么开发者可将介绍旅游景区的word文档、PPT文档等进行上传。

在实际应用中，对话***可以是单领域的即针对某特定场景的，也可以是多领域的。本实施例中，当要构建多领域的对话***时，发送每个领域相关的文档即可。

为了提高对话***的智能化，开发者在发送候选文档的同时，还可将一些词典发送给计算机。比如，索引字典、问候字典、词法分析相关字典。

其中，索引字典实现类似“第一条”，“第二条”之类的选择的，因此索引字典是具有文本与索引号对应关系的字典；问候字典包含一些常见的问候语及回复，比如“你好”，“Hi”，"谢谢"，“再见”等；词法分析相关的字典，是对查询语句进行一定的词法分析相关的处理。

步骤102，对候选文档进行分析以生成候选文档对应的关键词集合。

具体地，可以对候选文档进行词法分析获取关键词集合。更具体地，可基于标点符号对候选文档进行切句处理，得到多个语义片段，然后对语义片段进行切词、词性标注等，获得基本的词片段。再计算每个词片段在文档中的重要性，根据重要性确定候选文档的关键词，根据这些关键词可以得到关键词集合，那么关键词集合中包括从候选文档提取的多个关键词。

本实施例中，可以利用词频逆文本频率指数(Term Frequency–Inverse DocumentFrequency，简称TF-IDF)计算每个词片段在其所在候选文档中的重要性。

步骤103，接收用户的查询语句，并获取与查询语句匹配的关键词。

本实施例中，与查询语句匹配的关键词可以理解为与查询语句中的关键词匹配的关键词。这里匹配的关键词可以是查询语句中的关键词的同义词。

用户可以通过多种方式输入查询语句，比如语音输入、文字输入等等。在获取用户输入的查询语句时，可以确定查询语句中的关键词，然后从候选文档对应的关键词集合中获取与查询语句中的关键词匹配的关键词。

比如，用户输入问题“海底世界门票多少钱？”，从该问题中提取关键词“海底世界”和“门票”，那么从候选文档的关键词集合中获取与“海底世界”和“门票”匹配的关键词。

本实施例中，接收输入查询语句后，可先利用分类器确定查询语句的类型，如果查询语句属于非特殊类型的查询语句，比如命令式查询语句、问候式查询语句等，则通过词法分析从查询语句中自动提取关键词。

具体地，可通过词性此信息进行筛选，对虚词等不具有实际表意性的词进行去除，对实词、特别是命名实体给予较高的权重，然后通过停用词表对一些统计意义上的停用词进行过滤，另外，对于在多篇文档中大量普遍出现的词给予较低的权重，这些词一般都是本领域内最常见的词，对于领域内问题的区分，意义较小。在对关键词进行筛选后，可以按照关键词的权重对关键词进行排序，选取权重较高的预设数据的关键词，作为查询语句的关键词。

本实施例中，在获取与查询语句匹配的关键词时，可以先确定查询语句的关键词，然后计算查询语句的关键词与关键词集合中每个关键词的相似度，从关键词集合中选取与查询语句的关键词相似度较高的关键词，作为匹配的关键词。比如，从候选文档对应的关键词集合中选取与查询语句的关键词相同，以及不一致但相似度超过90％的关键词，作为与查询语句匹配的关键词。

步骤104，根据与查询语句匹配的关键词从匹配的关键词对应的候选文档中提取查询结果，并将查询结果反馈给用户。

在获取与查询语句匹配的关键词后，可根据与查询语句匹配的所有关键词，确定匹配的关键词所在的候选文档，从匹配的关键词对应的候选文档中提取查询结果。具体地，当与查询语句匹配的关键词有一个时，可从匹配的关键词对应的候选文档中选择匹配的关键词所在的语句，将该语句作为查询结果反馈给用户。比如，通过人机交互界面展示查询结果。

本实施例中，当与查询语句匹配的关键词存在多个时，根据匹配的关键词与查询语句之间的匹配度对多个匹配的关键词进行排序，选择最相关的匹配的关键词从对应的候选文档提取查询结果。

或者，针对开发者发送的每个候选文档，根据查询语句的关键词和与查询词匹配的关键词，分别在查询语句中的权重和在每个候选文档中的权重进行加权求和，以获取对候选文档的评分，选取评分最高的候选文档，并从候选文档的片段中选取查询结果。

比如，查询语句中包含2个关键词A和B，从候选文档对应的关键词集合中找出A的同义词有A_1和A_2，B的同义词有B_1，然后根据关键词A和B，匹配的关键词A_1、A_2和B_1的基础分，以及在查询语句和候选文档中的权重，对所有候选文档进行打分并进行排序。

比如，A(A_1、A_2)在查询语句中的权重是0.6，B(B_1)在查询语句中的权重是0.4，假设每个关键词的基础分都是1，文档1中包含A_1、B且文档1中A_1的权重为0.1，B的权重为0.05，则文档1的得分为0.6*0.1+0.4*0.05+2*1＝2.08；文档2中包含A_2、B_1，且文档中A_2的权重为0.04，B_1的权重为0.1，则文档2的得分为0.6*0.04+0.4*0.1+2*1＝2.064；文档3中包含A、A_1，且文档中A的权重为0.1，A_1的权重为0.2，则文档3的得分为0.6*0.1+0.6*0.2+1＝1.18。文档4中包含B，且文档中B的权重为0.2，则文档3的得分为0.4*0.2+1＝1.08。

上述示例中，文档中包含两个或多个相互匹配的关键的词时，这些关键词的基础分之和仍为1，也就是说，基础分之和与文档中包含的不同的关键词数量相对应。

本实施例中，为了尽可能多的召回包含更多匹配的关键词的文档，候选文档每包含一个不同的关键词，给予其一定的基础分，这样是为了避免大量出现某个文档包含大量特定关键词的重复的问题。

进一步地，当本次用户查询与上一轮存在关联时，可以对出现在上一轮候选文档中的本轮文档给予更高的优先级，即更高的分数。具体地，可以本次用户输入的查询语句与上一轮的查询语句之间的关联程度，确定本次用户查询与上一轮是否存在关联。比如，上一轮对话***的答复是否是引导，这一轮输入是否是选择(比如“第二个”)等。

另外，为了提高对话***的智能化，在向用户反馈查询结果后，可以向用户展示对该查询结果是否满意的问题，请用户输入“是”或“否”来给予反馈。如果用户输入的“是”，则对查询结果进行记忆，如果用户输入的是“否”，则对查询结果不进行记忆。

作为一种应用场景，本申请实施例的对话***构建方法可应用于机场。现有的，虽然机场已经有各种文档供乘机人参考，以了解哪些物品可以随身携带，哪些需要申报，提前多久登机等情况，但是实际中仍然存在大量乘机人向机场的服务人员询问各种各样的事宜。为了减轻机场服务人员的负担，使用能够与乘机人进行对话交流的智能机器人成为了重要选择。那么，应用本申请实施例的对话***构建方法，可以构建机场智能服务对话***，在构建时只需开发者发送与机场相关的文档即可。

本申请实施例中，通过对开发者发送的候选文档进行分析得到对应的关键词集合，在用户查询时，确定与用户输入的查询语句匹配的关键词，通过匹配的关键词从其对应的候选文档中提取到查询结果，由此，在构建对话***时，开发者输入候选文档即可，无需投入大量的工作，时间成本低，对话***构建方便，并且可以适用于多种场景的对话***构建，适用性强。

在本申请的一个实施例中，上述关键词集合还包括多个关键词对应的关键词位置，可根据关键词位置提取查询结果。下面结合图2进行说明，图2为本申请实施例提供的另一种对话***的构建方法的流程示意图。

如图2所示，上述根据与查询语句匹配的关键词从匹配的关键词对应的候选文档中提取查询结果，包括：

步骤201，获取匹配的关键词在候选文档中的关键词位置。

本实施例中，关键词的关键词位置是指关键词在候选文档中的位置，在对候选文档进行分析时确定。关键词位置可以包含两个位置信息：关键词所在的候选文档和关键词在候选文档中的位置。

比如，开发者只发送了一个候选文档，那么关键词位置指关键词在该候选文档中的位置，若开发者发送了多个候选文档，那么关键词位置指关键词所在的候选文档和在候选文档中的位置。

其中，关键词在候选文档中的位置可以用候选文档中关键词所在的页码以及在该页码对应的页面中的位置表示。比如，关键词“登机流程”在候选文档第3页，第10-13个字符位置。

步骤202，根据匹配的关键词在候选文档中的关键词位置确定对应的候选文档，并从候选文档中提取查询结果。

具体地，可根据关键词位置确定匹配的关键词所在的候选文档以及该在候选文档中的位置，然后根据匹配的关键词在候选文档中的位置，确定匹配的关键词所在的句子，将其作为查询结果反馈给用户。

本申请实施例中，通过根据匹配的关键词的位置确定对应的候选文档，可以快速、准确地提取查询结果。

为了提高提取的查询结果的准确性，可通过提高确定的匹配的关键词的准确性实现。在本申请的一个实施例中，关键词集合还可包括多个关键词的关键词词向量，根据关键词词向量确定与查询语句匹配的关键词。下面结合图3进行解释说明，图3为本申请实施例提供的另一种对话***的构建方法的流程示意图。

如图3所述，上述获取与查询语句匹配的关键词，包括：

步骤301，获取查询语句的第一查询语句词向量。

本实施例中，在对开发者发送的候选文档进行分析，获取候选文档对应的关键词后，可获取关键词的词向量，在实现时可以通过word2vec的方式，获得关键词对应的词向量表示。词向量是对词的分布表示，其将词表示为多维特征的组合，便于衡量词之间的相似或相异关系。若查询语句是词语，那么可以通过word2vec的方式，获取查询语句的词向量表示，即第一查询语句词向量。

本实施例中，从查询语句中提取关键词，通过word2vec的方式获取查询语句中关键词的词向量表示，将查询语句的关键词的词向量作为第一查询语句词向量表示。

在实际应用中，可基于大规模语料，使用word2vec中的Skip-Gram模型，训练得到了128维的词向量表示，使得绝大多数用户问答中的词都可以用128维的词向量进行表示。为了便于使用基础的距离概念来衡量两个词之间的相似性，可将向量表示转换成单位化的向量及其模的形式，单位化后的向量可以更好的衡量一个词的语义，而向量的模可以一定程度上表示词的程度。例如，“喜欢”和“热爱”这两个词，语义上比较接近，但程度上差别较大。

步骤302，确定与第一查询语句词向量所匹配的关键词词向量。

其中，与第一查询语句词向量匹配的关键词词向量对应的关键词为与查询语句匹配的关键词。

在获取第一查询语句词向量后，可计算第一查询语句向量与候选文档对应的关键词集合中每个关键词的关键词词向量之间的匹配度，将匹配度超过预设匹配度阈值的关键词向量，作为与第一查询语句词向量所匹配的关键词词向量，那么与第一查询语句词向量所匹配的关键词词向量对应的关键词，即为与查询语句匹配的关键词。可以理解的是，当满足条件的关键词词向量有多个时，那么与查询语句匹配的关键词也有多个。

本申请实施例中，在确定与查询语句匹配的关键词时，通过根据查询语句的第一查询语句向量和关键词集合中关键词词向量，确定与查询语句匹配的关键词，可以提高确定匹配的关键词的准确性。

在实际应用中，用户与文档对同一语义的表述往往存在差别，因此仅分析出用户输入的查询语句中的关键词是远远不够的。为了召回更多的关键词，在本申请的一个实施例中，可以对查询语句进行近义词扩充，根据近义词确定匹配的关键词。下面结合图4进行说明，图4为本申请实施例提供的另一种对话***的构建方法的流程示意图。

如图4所示，该对话***的构建方法还包括：

步骤401，对查询语句中的关键词进行近义词扩充以生成查询语句中关键词的近义词。

本实施例中，可以基于词典对查询语句中的关键词进行扩充，其中，可以通过从网络中挖掘和收集的近义词表得到用于查找近义词的词典，这样对一些常见的表述变化进行覆盖。或者，基于查询语句改写技术获取查询语句的关键词的近义词，具体地，通过挖掘查询日志中的特征，实现对查询语句进行拓展，在通过词语粒度上的对齐，实现对用户查询语句中的关键词的拓展。

或者，基于词向量表示获取查询语句中关键词的近义词。比如，根据词向量训练一个k近邻分类器(k-NearestNeighbor，简称KNN)，每个词赋予其一个类别。这样后续当新输入一个词时，可以先获取词向量，然后根据词向量使用KNN分类器获得这个词在语义上最接近的词。由此，利用KNN分类器在开发者发送的全部候选文档中找到与查询语句中的关键词最相近的预设数量的关键词，作为查询语句中关键词的近义词，以查询语句的近义词来代替查询语句的原始关键词。

由此，通过近义词扩充，可以获取查询语句中的关键词的同义词或近义表述，从而可以扩大查询语句对应的关键词的数量，尽量从更多的候选文档中确定查询结果。并且，对于在候选文档中不曾出现的查询语句中的关键词，可利用上述方法得到近义词对候选文档进行评分。

步骤402，获取查询语句中关键词的近义词的第二查询语句向量。

本实施例中，可通过word2vec的方式获取查询语句中关键词的近义词的第二查询语句向量。如果查询语句中关键词的近义词有多个时，获取每个查询语句中关键词的近义词的第二查询语句词向量。

步骤403，确定与第二查询语句词向量确定所匹配的关键词词向量。

本实施例中，确定与第二查询语句词向量确定所匹配的关键词词向量的方法，与上述实施例中确定与第一查询语句词向量确定所匹配的关键词词向量的方法类似，故在此不再赘述。

本申请实施例中，通过对查询语句中的关键词进行近义词扩充生成查询语句中关键词的近义词，根据查询语句中关键词的近义词确定匹配的关键词，根据查询语句中的关键词和关键词的近义词对候选文档进行评分，可以提高查询结果的准确性。

在实际应用中，同一文档中的多个地方可能都包含关键词，为了提高查询结果的准确性，在本申请的一个实施例中，可以先确定候选文档中包含关键词的片段，然后根据片段来获取查询结果。下面结合图5进行说明，图5为本申请实施例提供的另一种对话***的构建方法的流程示意图。

如图5所示，上述根据匹配的关键词在候选文档中的关键词位置确定对应的候选文档，并从候选文档中提取查询结果，包括：

步骤501，根据匹配的关键词的关键词位置，从匹配的关键词对应的候选文档的每个片段中，确定出候选片段作为第一候选答案。

本实施例中，当匹配的关键词所在的候选文档有多个时，可以选取评分最高的第一预设数量的候选文档，比如选取分数最高的前3篇候选文档，具体方法可参见上述实施例中记载的对候选文档打分及排序的方法，在此不再赘述。

针对这些候选文档的每个片段，根据匹配的关键词在该候选文档中的位置，确定每个片段包含匹配的关键词数量以及计算这些关键词的重要性，并基于此对每个片段进行打分，选取分数最高的片段作为候选片段。这里的片段是指一句话，或者半句话。

或者，当匹配的关键词所在的候选文档有多个时，可以针对每个候选文档的每个片段，根据匹配的关键词的关键词位置确定包含关键词的片段，并根据包含的匹配的关键词的数量和重要性，对包含匹配的关键词的片段进行打分，方法上述记载的对候选文档评分的方法类似，故在此不再赘述，然后从所有片段中选取分数最高的第二预设数量的片段，作为候选片段。比如，选取分数最高的10个片段，作为候选片段，为了便于区分，这里称为第一候选答案。

步骤502，对第一候选答案进行排序和后处理，获取第二候选答案。

本实施例中，上述在基于查询语句中的关键词和查询语句中关键词的同义词，对包含关键词的候选片段进行排序选取第一候选答案后，还可基于语义对第一候选答案进行重排序。

本实施例中，可以通过问答段落排序技术对第一候选答案进行排序。其中，问答段落排序是主要功能是给定问题和可能包含的答案的候选段落，用排序学习的方法计算每个段落是正确答案的概率。

图6为本申请实施例提供的一种基于语义候选答案排序的方法示意图。如图6所示，该技术是由问题理解、语义匹配、类型特征、排序聚合等多个模型组成问题理解、语义匹配、类型特征、排序聚合等多个模型可以利用网页数据、搜索日志、知识图谱等数据资源训练得到。在使用时，可将查询语句和第一候选答案输入至这些模型中，得到第一候选答案的得分，最后根据得分对所有第一候选答案进行排序。

其中，问题理解是指对用户输入的查询语句进行结构化分析，包括了问题识别、问题分类以及答案类型识别等，该模型是通过使用搜索引擎中积累的海量查询日志训练得到的；语义匹配是指从文本语义角度计算问题和候选段落的相关性，该模型可采用中文预训练文本表示模型ERNIE，并采用迁移学习的方法，在搜索引擎中积累的海量点击日志中训练得；类型特征模块针对不同问题类别做了特征细化，针对不同类型的问题提升问答效果。

在对第一候选答案排序时，对于一个完整的句子中包含多个片段的情况，不仅仅要考虑查询语句与片段的相似性，还要考虑查询语句与标题的相似性，以及上一轮查询语句与当前片段的相似性。

由于存在同一句子包含多个片段的情况，因此为了提高查询结果的准确性，需要对多个第一候选答案进行后处理。其中，后处理主要包括两个，第一个是去除候选答案中重复度较高的答案，这类情况主要是由于用户的问题在用户的文档中能够找到多个答案，而这些答案实质内容是一致的；第二个是对同一文档中相邻的答案进行合并，这些相邻答案往往共同构成同一个问题的完整回复。

步骤503，根据第二候选答案的数量，生成查询结果。

在第一候选答案进行排序和后处理后，得到第二候选答案，可能有单一候选答案或者置信度明显高于其他候选答案的，或者有可能有多个置信度都较高的候选答案，或者没有候选答案或者所有候选答案的置信度都比较低。对于单一答案情况下，可以将第二候选答案直接反馈给用户，但是，直接从候选文档中抽取的候选答案往往比较生硬，因此为了使答案更加精确更加贴近人的答复，可以第二候选答案进行一定的处理，生成比较贴近人的答复。具体地，可以根据查询语句的类型来生成普通的答复语句，还是生成是否类型的查询结果。

如果用户输入的查询语句不是选择性问题，可利用机器阅读理解模型得到更贴近人的答复，其中，机器阅读理解模型是指让机器阅读文本，然后回答和阅读内容相关的问题，其技术可以使计算机具备从文本数据中获取知识并回答问题的能力。

作为一个示例，可以采用端到端的多文档阅读理解模型V-NET生成查询结果。其中，该模型是一个端到端的神经网络模型，是基于长短期记忆网络(Long Short-TermMemory，简称LSTM)以及双向注意力机制，并加入三个预测模型，分别从答案的边界预测模块、答案内容预测模块和多文档的答案验证模块，三个方面预测答案。

在实际应用中，对于一些问题，想要单纯的从确定的候选答案中截取片段作为回复，是不能正常回应的，例如问题是“去XXX是否需要身份证？”，找到的候选答案是“请随身携带好有效身份证件”，恰当的回复应该是“需要”，而任何从原始答案截取的片段都不是一个恰当的回复。

针对这类问题，本实施例中，可利用是否类答案生成算法，得到最终的查询结果并反馈给用户。首先，首先将问题与第二候选答案输入到基于ERNIE预训练的分类器中，得到第二候选答案对问题是“肯定”、“否定”还是“没有观点”的分类结果。对于肯定的情况，进一步通过基于词性和特征词的规则生成器来生成对应的查询结果；对于否定的情况，则需要在生成的肯定答案基础上进一步进行否定答案的生成，例如根据“需要”生成“不需要”，根据“去过”生成“没去过”。

在实际应用中，对第一候选片段排序和后处理后可能存在置信度都比较高的几个候选答案即第二候选答案有多个，对于这种多个答案的情况，本实施例中，可以通过引导话术的方式将查询结果反馈给用户，可以帮助用户了解如何回复，如何提高对话的完成度。

其中，引导话术是指当对话***找到多个与查询语句相关的答案，不知道哪个答案是用户问题想要的，这时会向用户进行引导。

比如，用户输入的查询语句是“私人行程可以向公司报销吗？”。候选答案1：驾驶私人汽车，可以向公司报销油费。候选答案2：因私出行的行程不可以报销。这时可以生成引导话术“您想问的是以下哪个？(1)：驾驶私人汽车；(2)因私出行”。

在生成引导话术时，可先从后处理得到的每个候选答案中提取引导词，从一个候选答案中提取的引导词可以是一个，也可以是多个。为了生成合适的引导词通过词重要性分析技术，从第二候选答案中生成候选引导词，再通过一定的策略进一步优化引导词的质量。

引导词优化策略具体可包括：(1)根据词法信息，对虚词、停用词进行过滤；(2)基于从大量挖掘的查询语句，对引导词粒度进行对齐，以使引导词具表意完整；(3)对出现在多个第二候选答案中的引导词进行删除，对于与查询语句紧密相关且仅有特定候选***含的关键信息进行加权，以使引导词具有区分性；(4)去除候选引导词中与查询相关度低于预设阈值的引导词，对于包含用户输入的查询语句中的关键词语义的候选引导词，予以更高权重，以使引导词具有相关性；(5)对于多个候选引导词的情况，优先考虑在搜索日志中曾经在用户搜索请求中共现的组合，达到注重引导词之间的联合表意性的目的；(6)对于特殊句法结构，适当调整句法结构中特定词的权重，比如对并列结构中的多个并列词，给予较低权重。

综合上述分析，在生成引导词时，可以采取以下四条原则：a)区分性：引导词可以区分不同的候选答复；b)重要性：引导词是候选答复中的重要词；c)相关性：引导词与查询语句中的关键词应该有一定的相关性；d)提炼性：引导词应该是凝练的，涵盖力强的，而非过分具体的。

比如，用户输入查询语句：“迪士尼有多大？”。候选答案有：(1)上海迪士尼是亚洲最大的迪士尼主题公园，面积为1234公顷；(2)香港迪士尼占地约3000亩。生成的引导话术：“您要问的是以下哪个？(1)上海迪士尼面积；(2)香港迪士尼占地”。这两个选项中的引导词上海与香港具有区分性，迪士尼是具有重要性的词，迪士尼和面积具有相关性，使用面积、占地等非具体的数字具有提炼性。

本实施例中，当第二候选答案为多个时，可以通过从第二候选答案中生成引导词，基于引导词生成引导话术，将引导话术作为查询结果反馈用户，由此，对话***可以通过多轮引导的方式与用户交互，帮助用户在初始问题表意模糊的情况下，找到目标答案。

对于后处理后得到的第二候选答案为零的情况，可以认为当前查询语句的答案不在开发者提供的候选文档中，这时可以将“我不知道该怎么回答您”、“对不起，我无法回答您”等类似的语句回复给用户。

本申请实施例中，通过根据匹配的关键词在候选文档中位置，从匹配的关键词对应的候选文档的每个片段中，确定出候选片段作为第一候选答案，然后对第一候选答案进行排序和后处理，获取第二候选答案，再根据第二候选答案的数量，生成查询结果，由此，可以根据最终选出的候选答案生成查询结果，提高了查询结果的准确性。

在实际应用中，对话***可以包括测试模式和调优模式。在测试模式下，对话***可以执行上述记载的确定查询结果方式。其中，调优模式与测试模式最大的不同是，在调优模式下，对话***每次都会以提供多个候选项供用户选择的方式来回复，每个候选项都会以完整的表述的方式出现，那么用户可以从多个候选项中选择自己认为这个问题合适的答案，并将这个调优结果生效。

为了提高构建的对话***的准确性，在本申请的一个实施例中，可通过列表记录对话***的每一轮的问答历史信息，比如每一轮的查询语句、与查询语句匹配的关键词、匹配的关键词对应的候选文档、查询结果等等。

另外，经过用户与具有对话***的机器人的对话后，实际上从用户手中获取了相当量的知识，这些知识可以被固化起来，使其他用户也可以直接使用，因此，可以保存对话过程中获取的知识。这里的知识可以理解为用户输入的查询语句及该查询语句对应的答案。

本实施例中，在测试模式和调优模式下，对话***都具有记忆性，不同的是，测试模式下的记忆性可仅对当前的用户对话生效，即是短期记忆，而调优模式下的记忆会对测试模式和调优模式下的所有用户生效，即长期记忆。这一记忆设计特性，既使开发者能够有效的干预***自身产生的结果，使这个干预对自己的所有用户生效，也使得用户本身在单次对话时，可以享受到记忆性带来的优势。

本实施例中，开发者可以通过调优模式对话***反馈的查询结果进行干预，干预结果以增量的方式对模型生效，使后续用户请求语义或表述相近的问题时，对话***将以开发者干预结果为准将查询结果反馈给用户；在用户与对话***交互时，对话***也会采用注意力机制，对该用户之前查询过的问题的同义问题直接给出答复。

下面结合图7说明，本申请实施例的对话***的构建方法。图7为本申请实施例提供的一种对话***的构建方法的整体示意图。

如图7所示，主要有训练阶段和测试阶段两个阶段。

其中，训练阶段可以理解为文档端离线处理阶段，包括基础处理、获取文档的关键词及倒排索引和构建基于词向量的KNN分类器。

其中，基础处理这部分处理工作主要包括对文档进行编码转化，去除文档中与语义无关的特殊字符，对文档进行切句(切分出完整的语义段)，对每个语义段进行词法分析等。通过基础处理过程，对话***对用户上传的文档有了基础的了解。本阶段是对开发者发送的候选文档进行分析，包括词法相关处理比如切句、切词、词性标注等等，获取候选文档中的关键词以及关键词的词向量，由此可以得到候选文档对应的关键词集合。

获取文档的关键词及倒排索引主要是基于TF-IDF等多种算法来综合衡量文档中词的重要性，主要用于对匹配的关键词对应的候选文档及答案段进行粗略定位。

构建基于词向量的KNN分类器：在实际应用中，可基于大规模语料，使用word2vec中的Skip-Gram模型，训练得到了128维的词向量表示，使得绝大多数用户问答中的词都可以用128维的词向量进行表示。为了便于使用基础的距离概念来衡量两个词之间的相似性，可将向量表示转换成单位化的向量及其模的形式，单位化后的向量可以更好的衡量一个词的语义，而向量的模可以一定程度上表示词的程度。例如，“喜欢”和“热爱”这两个词，语义上比较接近，但程度上差别较大。

在获得了候选文档中词的词向量之后，根据词向量构建KNN分类器，每个词赋予其一个类别，这样后续当新输入一个词时，我们可以先获取词向量，然后根据词向量使用KNN分类器获得这个词在语义上最接近的词。

测试阶包括：数据载入工作、字典导入、查询语句处理、知识保存、历史维护、答案展示等。

数据载入工作包括：文档数据的载入，用户之前训练的知识的载入。文档数据的载入指将文档端离线处理部分得到的词法分析结果、关键词和关键词的词向量等载入。

用户之前训练的知识的载入指用户在之前可能已经对机器人进行了一定的“调教”，这部分知识也需要被导入。这部分包含直接的问答映射关系，以及对文档和句子的关键词及其权重的调整。在对权重进行调整的时候，涉及到一个整体调权问题。其中，整体调权是指假定调权前文档中词的平均权重是x(比如0.1)，在对某个词进行加权后，这时词的平均权重就大于x了，此时需要把平均权重重新变为x(相当于每个词的权重都缩小一定的比例)，这是为了避免权重的无限扩大。

字典导入包括：导入索引表述字典、导入问候语表述字典等。

对话逻辑处理：对用户输入的查询语句进行判断，并做出相应的逻辑动作。具体地，控制流命令式查询语句判断及处理：包含一些命令式查询语句的处理，比如exit(使server端退出，并保存这次训练的成果),clear(清空历史)；词法分析和查询语句的关键词获取：对输入查询语句进行词法分析，并进行查询语句中的关键词提取，关键词提取主要是基于词的重要性，同时使用词性进一步进行调权；判断本轮问答与上一轮问答之间的相关性；特殊类型查询的处理；一般查询语句的答复流程。

其中，特殊类型查询语句的处理包括：问候式输入、索引式输入和曾经训练过的输入、发起对查询结果是否满意的问题。其中，对于索引式输入，比如当输入为“第一个”，“倒数第二个”之类的输入时，通过从上一轮答复中抽取对应编号的候选项作为答案。需要注意的是，此时对候选项又加以完善，把之前为了简洁而省略的内容在这里补足。比如，上一轮的问题是“私人行程可以向公司报销吗？”，对应的查询结果是“您想问的是以下哪个？(1)驾驶私人汽车；(2)因私出行”。本轮用户输入的是“第二个”，那么对应的查询结果则是“因私出行的行程不可以报销”。

对于问候式输入，可以通过简单的匹配，对问候式输入给予答复。而对于曾经训练过的输入，可以通过关键词作为键，以字典查询的方式，对对曾经训练过的问题，直接给出回复。

一般查询语句的答复流程是对用户输入的查询语句进行分析提取关键词，然后对关键词进行拓展，这里是指获取查询语句中关键词的同义词或近义词，从而对查询语句对应的关键词进行扩充，之后根据查询语句的关键词从与查询语句匹配的关键词对应的候选文档进行排序，并从前预设数量的候选文档中选取答案并进行排序，并对排序结果进行后处理，再根据后处理后的结果进行精准答复生成，然后对答案进行展示，也就是将查询结果展示给用户。为了提高对话***的性能，还可以进行历史维护和进行知识的保存，比如，通过列表记录对话***的每一轮的问答历史信息，以及保存对话过程中获取的知识。

在实际应用中，对话***中可预先设定查询语句各类型的模板，比如，命令式查询语句、问候式查询语句等具有对应的模板，在获取用户查询语句后，可将查询语句与对应的模板进行比对，以确定查询语句的类型，进而对查询语句进行相应的处理。

为了实现上述实施例，本申请实施例还提出一种对话***的构建装置。图8为本申请实施例提供的一种对话***的构建装置的结构示意图。

如图8所示，该对话***的构建装置包括：

接收模块610，用于接收开发者发送的候选文档；

生成模块620，用于对候选文档进行分析以生成候选文档对应的关键词集合，其中，关键词集合包括从候选文档提取的多个关键词；

第一获取模块630，用于接收用户的查询语句，并获取与查询语句匹配的关键词；以及

查询模块640，用于根据与查询语句匹配的关键词从匹配的关键词对应的候选文档中提取查询结果，并将查询结果反馈给用户。

在本申请实施例一种可能的实现方式中，上述关键词集合包括多个关键词对应的关键词位置，上述查询模块640，包括：

获取单元，用于获取匹配的关键词在候选文档中的关键词位置；以及

提取单元，用于根据匹配的关键词在候选文档中的关键词位置确定对应的候选文档，并从候选文档中提取查询结果。

在本申请实施例一种可能的实现方式中，上述关键词集合还包括多个关键词的关键词词向量，上述第一获取模块，具体用于：

获取查询语句的第一查询语句词向量；

确定与第一查询语句词向量所匹配的关键词词向量，其中，与第一查询语句词向量匹配的关键词词向量对应的关键词为与查询语句匹配的关键词。

在本申请实施例一种可能的实现方式中，该装置还包括：

扩充模块，用于对查询语句中的关键词进行近义词扩充以生成查询语句中关键词的近义词；

第二获取模块，用于获取查询语句中关键词的近义词的第二查询语句向量；

确定模块，用于确定与第二查询语句词向量所匹配的关键词词向量，其中，与第二查询语句词向量匹配的关键词词向量对应的关键词为与查询语句匹配的关键词。

在本申请实施例一种可能的实现方式中，上述扩充模块，具体用于：

根据预先训练的分类器，获取所述查询语句中关键词的近义词。

在本申请实施例一种可能的实现方式中，上述提取单元，具体用于：

根据匹配的关键词的关键词位置，从匹配的关键词对应的候选文档的每个片段中，确定出候选片段作为第一候选答案；

将候选片段扩充为完整句子作为候选答案；

对第一候选答案进行排序和筛选处理，获取第二候选答案；

根据第二候选答案的数量，生成查询结果。

在本申请实施例一种可能的实现方式中，上述提取单元，还用于：

如果所述第二候选答案的数量为一个，则根据所述查询语句的类型生成所述查询结果；

如果所述第二候选答案的数量为多个，则从每个第二候选答案中提取引导词，基于所述引导词生成所述查询结果。

在本申请实施例一种可能的实现方式中，该装置还包括：

保存模块，用于通过列表记录对话***的每一轮的问答历史信息，以及保存对话过程中获取的知识。

需要说明的是，上述对对话***的构建方法实施例的解释说明，也适用于该实施例的对话***的构建装置，故在此不再赘述。

为了实现上述实施例，本申请实施例还提出一种计算机设备，包括处理器和存储器；

其中，处理器通过读取存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如上述实施例所述的对话***的构建方法或语言模型的预测方法。

图9示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图9显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，***存储器28，连接不同***组件(包括***存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及***组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元16通过运行存储在***存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

为了实现上述实施例，本申请实施例还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所述的对话***的构建方法。

在本说明书的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种对话***的构建方法，其特征在于，包括：

接收开发者发送的候选文档；

2.如权利要求1所述的对话***的构建方法，其特征在于，其中，所述关键词集合包括所述多个关键词对应的关键词位置，其中，所述根据与所述查询语句匹配的关键词从所述匹配的关键词对应的候选文档中提取查询结果，包括：

获取所述匹配的关键词在所述候选文档中的关键词位置；以及

根据所述匹配的关键词在所述候选文档中的关键词位置确定对应的候选文档，并从所述候选文档中提取所述查询结果。

3.如权利要求2所述的对话***的构建方法，其特征在于，所述关键词集合还包括所述多个关键词的关键词词向量，其中，所述获取与所述查询语句匹配的关键词，包括：

获取所述查询语句的第一查询语句词向量；

确定与所述第一查询语句词向量所匹配的关键词词向量，其中，与所述第一查询语句词向量匹配的关键词词向量对应的关键词为与所述查询语句匹配的关键词。

4.如权利要求3所述的对话***的构建方法，其特征在于，还包括：

对所述查询语句中的关键词进行近义词扩充以生成查询语句中关键词的近义词；

获取所述查询语句中关键词的近义词的第二查询语句向量；

确定与所述第二查询语句词向量所匹配的关键词词向量，其中，与所述第二查询语句词向量匹配的关键词词向量对应的关键词为与所述查询语句匹配的关键词。

5.如权利要求4所述的对话***的构建方法，其特征在于，所述对所述查询语句中的关键词进行近义词扩充以生成查询语句中关键词的近义词，包括：

6.如权利要求2所述的对话***的构建方法，其特征在于，所述根据与所述查询语句匹配的关键词从所述匹配的关键词对应的候选文档中提取查询结果，包括：

根据所述匹配的关键词的关键词位置，从所述匹配的关键词对应的候选文档的每个片段中，确定出候选片段作为第一候选答案；

对所述第一候选答案进行排序和后处理，获取第二候选答案；

根据所述第二候选答案的数量，生成所述查询结果。

7.如权利要求6所述的对话***的构建方法，其特征在于，所述根据所述第二候选答案的数量，生成所述查询结果，包括：

8.如权利要求1-7任一所述的对话***的构建方法，其特征在于，还包括：

通过列表记录对话***的每一轮的问答历史信息，以及保存对话过程中获取的知识。

9.一种对话***的构建装置，其特征在于，包括：

接收模块，用于接收开发者发送的候选文档；

10.如权利要求9所述的对话***的构建装置，其特征在于，所述关键词集合包括所述多个关键词对应的关键词位置，所述查询模块，包括：

获取单元，用于获取所述匹配的关键词在所述候选文档中的关键词位置；以及

提取单元，用于根据所述匹配的关键词在所述候选文档中的关键词位置确定对应的候选文档，并从所述候选文档中提取所述查询结果。

11.如权利要求10所述的对话***的构建装置，其特征在于，所述关键词集合还包括所述多个关键词的关键词词向量，所述第一获取模块，具体用于：

获取所述查询语句的第一查询语句词向量；

12.如权利要求11所述的对话***的构建装置，其特征在于，还包括：

扩充模块，用于对所述查询语句中的关键词进行近义词扩充以生成查询语句中关键词近义词；

第二获取模块，用于获取所述查询语句中关键词的近义词的第二查询语句向量；

确定模块，用于确定与所述第二查询语句词向量所匹配的关键词词向量，其中，与所述第二查询语句词向量匹配的关键词词向量对应的关键词为与所述查询语句匹配的关键词。

13.如权利要求12所述的对话***的构建装置，其特征在于，所述扩充模块，具体用于：

根据预先训练的分类器，获取所述查询语句中关键词的的近义词。

14.如权利要求10所述的对话***的构建装置，其特征在于，所述提取单元，具体用于：

根据所述第二候选答案的数量，生成所述查询结果。

15.如权利要求14所述的对话***的构建装置，其特征在于，所述提取单元，还用于：

16.如权利要求9-15任一所述的对话***的构建装置，其特征在于，还包括：

17.一种计算机设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-8中任一所述的对话***的构建方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的对话***的构建方法。