CN112182176A

CN112182176A - 智能问答方法、装置、设备及可读存储介质

Info

Publication number: CN112182176A
Application number: CN202011025479.6A
Authority: CN
Inventors: 邓江东
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2021-01-05

Abstract

本公开实施例提供一种智能问答方法、装置、设备及可读存储介质，该方法包括：服务器上预先部署利用种子词和种子词的相关词训练好的分类器。当服务器接收到查询语句后，将该查询语句输入至分类器，就能够识别出用户的目标意图。之后，服务器根据目标意图确定目标话术并返回给用户，供用户查看。采用该种方案，服务器预先从大量的历史查询语句中提取出种子词和种子词的相关词，利用种子词和种子词的相关词训练出分类器，通过分类器自动识别用户的意图并返回相应的话术，极大程度上节约了企业的人力成本的同时，实现快速、准确的答复用户的疑问的目的。

Description

智能问答方法、装置、设备及可读存储介质

技术领域

本公开实施例涉及人工智能技术领域，尤其涉及一种智能问答方法、装置、设备及可读存储介质。

背景技术

随着电商业务的飞速发展，网上购物已成为人们生活中的常见行为。网上购物包括新兴的直播购物、以及常规的商家对客户((business to customer，B2C)平台购物等。

客服***是电商业务的一个重要环节，客服***用于对用户大量的咨询做出回答，客服***的质量对用户的网上购物体验的影响巨大。为建立高质量的客服***，传统的方法是招聘大量的客服人员，该些客服人员经过专业的培训后上岗。用户提出咨询问题后，由客服人员根据专业知识进行答复。该传统的客服***为企业带来大量的人力成本。因此，基于人工智能(Artificial Intelligence，AI)的智能问答***应运而生。

但是，如何利用AI技术快速、准确的答复用户提出的咨询问题，业界并没有提出合适的方法。

发明内容

本公开实施例提供一种智能问答方法、装置、设备及可读存储介质，通过自动挖掘样本的方式训练分类器，利用该分类器自动识别用户的意图并返回相应的话术，极大程度上节约了企业的人力成本的同时，实现快速、准确的答复用户的疑问的目的。

第一方面，本公开实施例提供一种智能问答方法，包括：

接收查询语句；

将所述查询语句输入至分类器，得到用户的目标意图，所述分类器是预先利用种子词和所述种子词的相关词训练出的，所述种子词为历史查询语句中重要程度高于预设阈值的词语；

根据所述目标意图确定目标话术；

发送所述目标话术。

第二方面，本公开实施例提供一种智能问答方法，包括：

接收单元，用于接收查询语句；

处理单元，用于将所述查询语句输入至分类器，得到用户的目标意图，所述分类器是预先利用种子词和所述种子词的相关词训练出的，所述种子词为历史查询语句中重要程度高于预设阈值的词语，根据所述目标意图确定目标话术；

发送单元，用于发送所述目标话术。

第三方面，根据本公开的一个或多个实施例，提供了一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的智能问答方法。

第四方面，根据本公开的一个或多个实施例，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计所述的智能问答方法。

本公开实施例提供的智能问答方法、装置、设备及可读存储介质，服务器上预先部署利用种子词和种子词的相关词训练好的分类器。当服务器接收到用户的查询语句后，将该查询语句输入至分类器，就能够识别出用户的目标意图。之后，服务器根据目标意图确定目标话术并返回给电子设备，供用户查看。采用该种方案，服务器预先从大量的历史查询语句中提取出种子词和种子词的相关词，利用种子词和种子词的相关词训练出分类器，通过分类器自动识别用户的意图并返回相应的话术，极大程度上节约了企业的人力成本的同时，实现快速、准确的答复用户的疑问的目的。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的智能问答方法所适用的网络架构示意图；

图2是本公开实施例提供的智能问答方法的流程图；

图3是本公开实施例提供的智能问答方法中训练分类器的流程图；

图4是本公开实施例提供的智能问答方法中初步的意图体系的示意图；

图5为本公开实施例提供的一种智能问答装置的结构框图；

图6为本公开实施例提供的另一种智能问答装置的结构框图；

图7为用来实现本公开实施例的电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

随着直播的普及，很多用户将网上购物习惯迁移到直播这种新的生态***中，而客服***是电商业务非常重要的一环。传统对客服人员培训上岗的方式给企业带来了大量的人力成本。而且，客服人员的上班时间是有时间约束的。若用户在客服人员非上班时间提出咨询；或者，即使在上班时间，若用户在客服人员不在岗位的时候提出咨询，则该咨询不能及时被客服人员解答，导致用户购物体验差。

随着人工智能的飞速发展，现考虑通过智能客服来削减企业客服人员的人力成本，并解决客服人员非上班时间或不在岗时无法及时响应用户的问题。但是，如何利用AI技术快速、准确的答复用户提出的咨询问题，业界并没有提出合适的方法。

图1是本公开实施例提供的智能问答方法所适用的网络架构示意图。请参照图1，该网络架构包括：电子设备1和服务器2，电子设备1和服务器2之间建立网络连接。服务器2上预先部署训练号的分类器。用户通过电子设备1向服务器发送查询语句，服务器将查询语句输入至意图分离器，确定出用户的目标意图。之后，服务器将预先为该目标意图配置的目标话术返回给电子设备，从而响应用户。

图1中，电子设备1为台式电子设备或移动电子设备，台式电子设备如电视、电脑等，移动电子设备如手机、平板电脑、笔记本电脑、智能机器人、便携式可穿戴设备等。服务器是独立设置的服务器或多个服务器组成的服务器集群等，本公开实施例并不限制。

图2是本公开实施例提供的智能问答方法的流程图。本实施例是从服务器交互的角度进行说明。本实施例包括：

101、服务器接收查询语句。

服务器接收用户通过输入输出设备，如键盘、鼠标、麦克风等输入的查询语句。或者，服务器接收来自电子设备的查询语句。例如，用户能够通过电子设备中部署的应用程序(application，APP)与服务器进行人机交互。用户可通过语音方式或文本方式向电子设备输入查询语句，一条查询语句也称为一条query。当用户以文本方式输入查询语句时，服务器能够直接识别出文字内容。当用户以语音方式输入时，电子设备或服务器能够利用自然语言处理(Natural Language Processing，NLP)等方式识别出文字内容。

102、将所述查询语句输入至分类器，得到用户的目标意图。

其中，所述分类器是预先利用种子词和所述种子词的相关词训练出的，所述种子词为历史查询语句中重要程度高于预设阈值的词语，所述相关词是与所述种子词之间的距离小于预设距离的词语。该分类器用于识别用户的目标意图，基于目标意图确定目标话术。

示例性的，服务器上预先部署分类器，该分类器为服务器等预先利用大量的样本进行深度学习得到的。例如，分类器可以为基于长短期记忆网络(Long Short-TermMemory，LSTM)的分类器，也可以为双向编码器(Bidirectional EncoderRepresentationsfrom Transformers，Bert)，也可以为基于文本卷积神经网络(textConvolutional Neural Networks，text CNN)的分类器等。预先训练分类器时，对大量的历史查询语句提取出种子词和种子词的相关词，利用种子词和所述种子词的相关词训练出分类器。其中，种子词例如为快递，该种子词的相关词例如为快递A、快递B之类的快递公司。

103、根据所述目标意图确定目标话术。

示例性的，预先为每个意图配置相关的话术，服务器确定出目标意图后，就能给确定出该目标意图对应的目标话术。例如，用户输入的查询语句为“使用什么快递”，服务器识出粗类意图为“物流”，进而确定出目标意图为该粗类意图中“快递类型”这一子意图。之后，服务器确定该子意图对应的目标话话术为“使用___快递”其中，“__”表示与用户的查询语句相关的答复，服务器根据具体的快递完善。

104、发送所述目标话术。

服务器输出完善后的目标话术。例如，服务器将目标话术显示在显示屏上；再如，服务器播放目标话术；又如，服务器将目标话术发送给电子设备，供用户查看。与用户输入查询语句类似，服务器可通过语音的方式发送目标话术，也可以通过文或图片的方式发送目标话术，本公开实施例并不限制。

本公开实施例提供的智能问答方法，服务器上预先部署利用种子词和种子词的相关词训练好的分类器。当服务器接收到查询语句后，将该查询语句输入至分类器，就能够识别出用户的目标意图。之后，服务器根据目标意图确定目标话术并返回给用户，供用户查看。采用该种方案，服务器预先从大量的历史查询语句中提取出种子词和种子词的相关词，利用种子词和种子词的相关词训练出分类器，通过分类器自动识别用户的意图并返回相应的话术，极大程度上节约了企业的人力成本的同时，实现快速、准确的答复用户的疑问的目的。

上述实施例中，服务器将所述查询语句输入至分类器，得到用户的目标意图之前，还训练分类器。下面，对服务器如何训练分类器进行详细说明。示例性的，请参照图3，图3是本公开实施例提供的智能问答方法中训练分类器的流程图。图3包括：

201、获取样本集合，所述样本集合包含的样本为历史查询语句。

示例性的，服务器收集大量的历史查询语句从而得到样本集合。

202、从多个词语中，确定出至少一个种子词。

其中，所述多个词语是对所述样本集合中的样本进行分词得到的。

示例性的，服务器对样本集合中的每个样本进行词语，得到多个词语。然后，服务器采用词频-逆文件频率(Term Frequency-Inverse Document Frequency，TF-IDF)等算法，确定多个词语中每个词语的重要程度。之后，服务器将这些词语中重要程度超过预设阈值的词语作为种子词。或者，服务器按照重要程度，对这些词语进行倒序排列，将TOP K的词语作为种子词。K≥1且为整数。

不同领域的种子词是不同的。例如，电商业务中，种子词包括物流、退货、退款等。再如，旅游业务中，种子词包括出行工具、天气状况、酒店住宿等。

203、确定所述至少一个种子词中各个种子词的相关词。

示例性的，一个种子词的相关词是指与该种子词之间的距离小于预设距离的词语。例如，种子词为物流，则该种子词的相关词即为各个物流公司等。再如，种子词为支付，该种子词的相关词包括快捷支付、银行卡支付、APP支付、刷脸支付、指纹支付等。

服务器能够灵活的确定出种子词中各个种子词的相关词。例如，服务器上存储一个种子词和相关词的映射表，该映射表中列出一个种子词的所有相关词。服务器确定出种子词后，查询该映射表就能够确定出该种子词的相关词。

再如，对于至少一个种子词中的任意一个种子词，以下称为第一种子词，服务器将该第一种子词输入至词向量(word2Vec)模型中，从而确定出第一种子词的第一词嵌入(word embedding)向量。同理，服务器利用word2Vec等确定出任意一个候选词的第二词嵌入向量。候选词是对样本集合中的样本进行分词得到的多个词语中的任意一个词语。之后，服务器确定第一词嵌入向量和第二词嵌入向量之间的距离，该举例例如为余弦(cos)距离等。

服务器确定出第一词嵌入向量和第二词嵌入向量之间的距离后，继续判断该距离是否小于第三预设阈值。若第一词嵌入向量和第二词嵌入向量之间的距离小于预设距离，则服务器确定候选词为第一种子词的相关词；若第一词嵌入向量和第二词嵌入向量之间的距离大于或等于预设距离，则服务器认为候选词不是第一种子词的相关词。

采用该种方案，服务器通过确定词嵌入向量之间的距离的方式，确定出候选词是否为第一种子词的相关词，实现准确确定出第一种子词的相关词的目的。

204、根据所述至少一个种子词和所述至少一个种子词中各个种子词的相关词，训练所述分类器。

示例性的，服务器对样本集合中的样本进行分词，确定出至少一个种子词和各个种子词的相关词后，根据该至少一个种子词和各个种子词的相关词、话术以及初始的深度学习模型等，训练出分类器。

传统的基于AI的智能问答***中，由客服人员根据经验进行意图体系的梳理。但是，实际的查询语句的意图可能和经验值不一样。采用该种方案，服务器根据样本集合包含的样本提取出种子词和种子词的相关词，自动挖掘出粗类意图和细粒度的子意图，进行训练出分类器，实现通过自动样本挖掘并训练出分类器的目的。

下面，对上述图3实施例中的步骤204进行详细说明。

服务器根据所述至少一个种子词和所述至少一个种子词中各个种子词的相关词，训练出所述分类器的过程包括如下阶段：

第一阶段、构建初步的意图体系。

本阶段中，服务器根据所述至少一个种子词和所述至少一个种子词中各个种子词的相关词，对所述样本集合中的样本归类，得到多个意图类别。之后，服务器为所述多个意图类别中的每个意图类别分别配置第一话术，所述第一话术包含多个候选意图；利用所述第一话术训练深度学习分类器，得到所述分类器。

示例性的，服务器利用种子词和种子词的相关词，对样本集合中的所有样本进行归类，得到多个意图类别。属于同一个意图类别的样本包含相同的种子词，或者，包含相同种子词的相关词。示例性的，请参见图4。

图4是本公开实施例提供的智能问答方法中初步的意图体系的示意图。请参照图4，以电商业务为例，服务器利用种子词和种子词的相关词对历史查询语句进行筛选，按照种子词对该些样本进行粗分，形成初步的意图体系。例如，一个样本集合中的样本经过归类后，大致归类为物流、退货和换货。每个类别的意图不同。属于物流这一意图类别的样本包含种子词“物流”；或者，包含“快递A”、“快递B”等相关词。

该阶段中，通过对粗类的意图类别配置第一话术并进行分类器的训练，获得一个初步的意图体系。

第二阶段、构建精细的意图体系。

本阶段中，对于所述多个意图类别中的每个意图类别，聚类所述意图类别包含的样本，以得到所述多个意图类别中的每个意图类别包含的各子意图。

示例性的，服务器对上述初步的意图体系进行聚类，以细化初步意图体系中每个粗筛类，从而得到更精细的意图体系。例如，对于物流这个粗筛类(也称为大类)进行细化，得到很多小类，如延时发货、查看物流进度、使用的快递等，从而得到一个树状的意图体系。

对于所述多个意图类别中的每个意图类别，服务器聚类所述意图类别包含的样本，以确定所述多个意图类别中的每个意图类别包含的各子意图时，服务器先确定意图类别包含的样本的向量。之后，服务器根据所述意图类别包含的各个样本的向量，对所述意图类别包含的各个样本聚类，得到多个子意图。

示例性的，粗筛后，一个意图类别下可能有多个样本，需要进一步的对该些样本聚类。由于每个样本实际上是一条条的历史查询语句。因此，服务器能够计算出每个样本的向量。计算过程中，对于任意一个样本，服务器根据该样本的分词结果，确定该样本的向量；或者，服务器根据Bert确定该样本的向量。例如，对于第一样本，服务器根据该第一样本的分词结果，确定分词结果中每个词语的词嵌入向量，对该些词嵌入向量求和，进而求取平均值，将平均值作为第一样本的第一向量。再如，对于第二样本，服务器将该第二样本输入至Bert模型，将Bert的最后一层的768的句子向量作为第二样本的第二向量。其中，第一样本和第二样本是属于同一个意图类别的样本。

服务器确定出属于同一个意图类别的样本的向量后，采用kmeans等聚类算法对该些样本进行聚类，从而对属于同一个意图类别的各个样本进行细化，得到更细化的意图体系。

采用该种方案，服务器采用聚类的算法对初步的意图体系进行细化，得到更精细的意图体系，为后续构建分类器做准备。

第三阶段、标注阶段。

本阶段中，服务器为所述多个意图类别中的每个意图类别分别配置第一话术，为所述多个意图类别中的每个意图类别包含的各子意图分别配置第二话术。

示例性的，服务器对上述更精细化的意图体系进行标注，标注的目的是为每个意图类别配置第一话术，为每个粗筛类配置第一话术，为粗筛类下的每个字意图配置第二话术。例如，对于物流这个粗筛类，配置的第一话术包括：请问你是否在成说下述意图：①物流进度、②物流慢的原因、③哪个快递公司。假设物流包含的子意图分别为：物流进度、物流慢和快递公司，则各子意图的第二话术分别为：物流进度为_______，物流慢的原因是___，使用____快递。

另外，标注过程为自动标注过程，或者，也可以由标注人员实施，即通过人工方式进行标注，本公开实施例并不限制。

第四阶段、训练阶段。

本阶段中，服务器利用上述的第一话术、第二话术训练深度学习分类器，从而得到分类器。

示例性的，服务器将上述的第一话术、第二话术输入至深度学习分类器，对深度学习分类器的参数不断的进行调整，使得深度学习分类器的参数达到最优状态，将最优状态的深度学习分类器作为分类器。其中，深度学习分类器例如为TextCNN、Bert等。

采用该种方案，通过构建种子词和种子词的相关词，来对用户历史query进行粗筛，得到最粗的意图体系，然后采用聚类的算法对得到的意图体系进行细化，得到更精细的意图体系，然后围绕该意图体系构建分类器。该过程中，自动挖掘出粗类意图和细粒度的子意图，并配置相关话术，提高构建分类器的效率。

上述第一阶段至第四阶段中，服务器根据历史的查询语句训练好一个分类器。后续用户输入查询语句后，服务器将当前的查询语句输入至分类器，从而识别出用户的目标意图。识别过程中，对于当前输入的查询语句，服务器利用分类器对该查询语句进行分词，得到多个词语，判断该些词语中是否存在种子词或相关词。若存在种子词或词，就能识别出意图类类别，服务器进一步的判断该查询语句和意图类类别中的各查询语句的距离，将距离最近的查询语句对应的意图作为目标意图，并返回相关的话术。倘若判断出意图列表之后，无法进一步的判断出近距离的查询语句，则服务器返回意图列表。该意图列表实际上就是意图类别下包含的各个子意图。

采用该种方案，当用户输入的查询语句比较模糊时，服务器通过返回候选意图列表供用户选择，实现准确确定出用户的目标意图的目的。

服务器还能利用分类器确定出目标意图的置信度。当服务器识别出的目标意图的置信度高于预设置信度时，服务器将该目标意图返回给用户。例如，用户输入的查询语句为“发货好慢”，该查询语句经过分类器后，服务器识别出目标意图为“物流进度”，置信度为90％。此时，服务器返回物流进度对应的第二话术：当前您的物流进度为：已到达您所在城市的中转站，正在派单中，预计下午6点前送达。

有时候，用户输入的查询语句后，服务器无法直接识别出目标意图，而是识别出一个意图类别。当目标意图为所述多个意图类别中的任意一个意图类别时，服务器向所述电子设备发送意图类别对应的第一话术。之后，服务器接收来自所述电子设备的指示信息，该指示信息用于指示用户从多个候选意图中选中的感兴趣意图，该感兴趣意图属于意图类别包含的子意图，多个候选意图为所述意图类别包含的多个子意图。最后，服务器确定所述感兴趣意图对应的第二话术为所述目标话术。

示例性的，当用户输入的查询语句比较模糊时，服务器确定出的目标意图实际上为一个意图类别，该意图类别对应第一话术，第一话术实际上是一个意图列表，服务器将该意图列表发送给用户，供用户选择感兴趣意图。例如，用户输入的查询语句为“发货”。该查询语句经过分类器后，服务器识别出目标意图为“物流”，“物流”对应的第一话术例如为：请问你是否在成说下述意图：①查询物流进度，置信度为0.7；②查询物流慢的原因，置信度为0.5；③哪个快递公司，置信度为0.4。之后，服务器将该第一话术包含的候选意图以列表等方式发送给电子设备。若用户选择②，则服务器确定目标话术为“物流慢的原因是___”。然后，服务器将该目标话术补充完整，并发送给电子设备。

采用该种方案，针对不同置信度的意图识别，服务器返回不同的结果，即对于高置信度的意图识别，服务器直接返回目标意图对于的第二话术；对于低置信度的意图识别，服务器返回候选意图列表，供用户选择，从而准确的猜测出用户的意图，并通过提前配置好的话术答案回复给用户，帮用户解决实际购物中遇到的问题。

对应于上文实施例的智能问答方法，图5为本公开实施例提供的一种智能问答装置的结构框图。为了便于说明，仅示出了与本公开实施例相关的部分。参照图5，所述设备包括：接收单元11、处理单元12和发送单元13。

接收单元11，用于接收查询语句；

处理单元12，用于将所述查询语句输入至分类器，得到用户的目标意图，所述分类器是预先利用种子词和所述种子词的相关词训练出的，所述种子词为历史查询语句中重要程度高于预设阈值的词语，根据所述目标意图确定目标话术；

发送单元13，用于发送所述目标话术。

图6为本公开实施例提供的另一种智能问答装置的结构框图。本实例提供的智能问答装置100在上述图5的基础上，还包括：

训练单元14，用于在所述处理单元12将所述查询语句输入至分类器，得到用户的目标意图之前，还获取样本集合，所述样本集合包含的样本为历史查询语句，从多个词语中，确定出至少一个种子词，所述多个词语是对所述样本集合中的样本进行分词得到的，确定所述至少一个种子词中各个种子词的相关词，根据所述至少一个种子词和所述至少一个种子词中各个种子词的相关词，训练所述分类器。

在本公开的一个实施例中，所述训练单元14根据所述至少一个种子词和所述至少一个种子词中各个种子词的相关词，训练所述分类器时，用于根据所述至少一个种子词和所述至少一个种子词中各个种子词的相关词，对所述样本集合中的样本归类，得到多个意图类别，为所述多个意图类别中的每个意图类别分别配置第一话术，所述第一话术包含多个候选意图；利用所述第一话术训练深度学习分类器，得到所述分类器。

在本公开的一个实施例中，所述训练单元14利用所述第一话术训练深度学习分类器，得到所述分类器时，对于所述多个意图类别中的每个意图类别，聚类所述意图类别包含的样本，以得到所述多个意图类别中的每个意图类别包含的各子意图，为所述多个意图类别中的每个意图类别分别配置第一话术，所述第一话术包含多个候选意图，为所述多个意图类别中的每个意图类别包含的各子意图分别配置第二话术，利用所述第一话术和所述第二话术训练深度学习分类器，得到所述分类器。

在本公开的一个实施例中，对于所述多个意图类别中的每个意图类别，所述训练单元14聚类所述意图类别包含的样本，以确定所述多个意图类别中的每个意图类别包含的各子意图时，用于确定所述意图类别包含的样本的向量，根据所述意图类别包含的各个样本的向量，对所述意图类别包含的各个样本聚类，得到多个子意图。

在本公开的一个实施例中，所述处理单元12根据所述目标意图确定目标话术时，用于当所述目标意图为所述多个意图类别中的任意一个意图类别时，向所述电子设备发送所述意图类别对应的第一话术；

所述接收单元11，还用于接收来自所述电子设备的指示信息，所述指示信息用于指示所述用户从多个候选意图中选中的感兴趣意图，所述感兴趣意图属于所述意图类别包含的子意图，所述多个候选意图为所述意图类别包含的多个子意图；

所述处理单元12，还用于确定所述感兴趣意图对应的第二话术为所述目标话术。

在本公开的一个实施例中，所述处理单元12在所述发送单元13向所述电子设备发送意图列表之前，还用于确定所述多个候选意图中的各候选意图的置信度小于预设置信度。

在本公开的一个实施例中，所述训练单元14确定所述至少一个种子词中各个种子词的相关词时，用于确定第一种子词的第一词嵌入向量，所述第一种子词是所述至少一个种子词中的任意一个种子词；确定候选词的第二词嵌入向量，所述候选词是所述多个词语中的任意一个词语；确定所述第一词嵌入向量和所述第二词嵌入向量之间的距离；当所述第一词嵌入向量和所述第二词嵌入向量之间的距离小于预设距离时，确定所述候选词是所述第一种子词的相关词。

本实施例提供的装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图7为用来实现本公开实施例的电子设备的结构示意图，该电子设备200可以为终端设备或服务器。其中，终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant，简称PDA)、平板电脑(PortableAndroid Device，简称PAD)、便携式多媒体播放器(Portable Media Player，简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备200可以包括处理装置(例如中央处理器、图形处理器等)201，其可以根据存储在只读存储器(Read Only Memory，简称ROM)202中的程序或者从存储装置208加载到随机访问存储器(Random Access Memory，简称RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有电子设备200操作所需的各种程序和数据。处理装置201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

通常，以下装置可以连接至I/O接口205：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置206；包括例如液晶显示器(Liquid CrystalDisplay，简称LCD)、扬声器、振动器等的输出装置207；包括例如磁带、硬盘等的存储装置208；以及通信装置209。通信装置209可以允许电子设备200与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备200，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置209从网络上被下载和安装，或者从存储装置208被安装，或者从ROM 202被安装。在该计算机程序被处理装置201执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network，简称LAN)或广域网(Wide Area Network，简称WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

第一方面，根据本公开的一个或多个实施例，提供了一种智能问答方法，包括：接收查询语句；将所述查询语句输入至分类器，得到目标意图，所述分类器是预先利用种子词和所述种子词的相关词训练出的，所述种子词为历史查询语句中重要程度高于预设阈值的词语；根据所述目标意图确定目标话术；发送所述目标话术。

根据本公开的一个或多个实施例，所述将所述查询语句输入至分类器，得到用户的目标意图之前，还包括：获取样本集合，所述样本集合包含的样本为历史查询语句。

从多个词语中，确定出至少一个种子词，所述多个词语是对所述样本集合中的样本进行分词得到的。确定所述至少一个种子词中各个种子词的相关词。根据所述至少一个种子词和所述至少一个种子词中各个种子词的相关词，训练所述分类器。

根据本公开的一个或多个实施例，所述根据所述至少一个种子词和所述至少一个种子词中各个种子词的相关词，训练所述分类器，包括：根据所述至少一个种子词和所述至少一个种子词中各个种子词的相关词，对所述样本集合中的样本归类，得到多个意图类别；为所述多个意图类别中的每个意图类别分别配置第一话术，所述第一话术包含多个候选意图；利用所述第一话术训练深度学习分类器，得到所述分类器。

根据本公开的一个或多个实施例，所述利用所述第一话术训练深度学习分类器，得到所述分类器，包括：对于所述多个意图类别中的每个意图类别，聚类所述意图类别包含的样本，以得到所述多个意图类别中的每个意图类别包含的各子意图；为所述多个意图类别中的每个意图类别包含的各子意图分别配置第二话术；利用所述第一话术和所述第二话术训练深度学习分类器，得到所述分类器。

根据本公开的一个或多个实施例，所述对于所述多个意图类别中的每个意图类别，聚类所述意图类别包含的样本，以确定所述多个意图类别中的每个意图类别包含的各子意图，包括：对于所述多个意图类别中的每个意图类别，确定所述意图类别包含的样本的向量；根据所述意图类别包含的各个样本的向量，对所述意图类别包含的各个样本聚类，得到多个子意图。

根据本公开的一个或多个实施例，所述根据所述目标意图确定目标话术，包括：当所述目标意图为所述多个意图类别中的任意一个意图类别时，向所述电子设备发送所述意图类别对应的第一话术；接收来自所述电子设备的指示信息，所述指示信息用于指示所述用户从多个候选意图中选中的感兴趣意图，所述感兴趣意图属于所述意图类别包含的子意图，所述多个候选意图为所述意图类别包含的多个子意图；确定所述感兴趣意图对应的第二话术为所述目标话术。

根据本公开的一个或多个实施例，所述向所述电子设备发送意图列表之前，还包括：确定所述多个候选意图中的各候选意图的置信度小于预设置信度。

根据本公开的一个或多个实施例，所述确定所述至少一个种子词中各个种子词的相关词，包括：确定第一种子词的第一词嵌入向量，所述第一种子词是所述至少一个种子词中的任意一个种子词；确定候选词的第二词嵌入向量，所述候选词是所述多个词语中的任意一个词语；确定所述第一词嵌入向量和所述第二词嵌入向量之间的距离；当所述第一词嵌入向量和所述第二词嵌入向量之间的距离小于预设距离时，确定所述候选词是所述第一种子词的相关词。

第二方面，根据本公开的一个或多个实施例，提供了一种智能问答装置，包括：

接收单元，用于接收查询语句。

处理单元，用于将所述查询语句输入至分类器，得到用户的目标意图，所述分类器是预先利用种子词和所述种子词的相关词训练出的，所述种子词为历史查询语句中重要程度高于预设阈值的词语，根据所述目标意图确定目标话术。

发送单元，用于发送所述目标话术。

根据本公开的一个或多个实施例，上述的装置还包括：训练单元，用于在所述处理单元将所述查询语句输入至分类器，得到用户的目标意图之前，还获取样本集合，所述样本集合包含的样本为历史查询语句，从多个词语中，确定出至少一个种子词，所述多个词语是对所述样本集合中的样本进行分词得到的，确定所述至少一个种子词中各个种子词的相关词，根据所述至少一个种子词和所述至少一个种子词中各个种子词的相关词，训练所述分类器。

根据本公开的一个或多个实施例，所述训练单元根据所述至少一个种子词和所述至少一个种子词中各个种子词的相关词，训练所述分类器时，用于根据所述至少一个种子词和所述至少一个种子词中各个种子词的相关词，对所述样本集合中的样本归类，得到多个意图类别，为所述多个意图类别中的每个意图类别分别配置第一话术，所述第一话术包含多个候选意图，利用所述第一话术训练深度学习分类器，得到所述分类器。

根据本公开的一个或多个实施例，所述训练单元利用所述第一话术训练深度学习分类器，得到所述分类器时，对于所述多个意图类别中的每个意图类别，聚类所述意图类别包含的样本，以得到所述多个意图类别中的每个意图类别包含的各子意图，为所述多个意图类别中的每个意图类别包含的各子意图分别配置第二话术，利用所述第一话术和所述第二话术训练深度学习分类器，得到所述分类器。

根据本公开的一个或多个实施例，对于所述多个意图类别中的每个意图类别，所述训练单元聚类所述意图类别包含的样本，以确定所述多个意图类别中的每个意图类别包含的各子意图时，用于确定所述意图类别包含的样本的向量，根据所述意图类别包含的各个样本的向量，对所述意图类别包含的各个样本聚类，得到多个子意图。

根据本公开的一个或多个实施例，所述处理单元根据所述目标意图确定目标话术时，用于当所述目标意图为所述多个意图类别中的任意一个意图类别时，向所述电子设备发送所述意图类别对应的第一话术；所述接收单元，还用于接收来自所述电子设备的指示信息，所述指示信息用于指示所述用户从多个候选意图中选中的感兴趣意图，所述感兴趣意图属于所述意图类别包含的子意图，所述多个候选意图为所述意图类别包含的多个子意图；所述处理单元，还用于确定所述感兴趣意图对应的第二话术为所述目标话术。

根据本公开的一个或多个实施例，所述处理单元在所述发送单元向所述电子设备发送意图列表之前，还用于确定所述多个候选意图中的各候选意图的置信度小于预设置信度。

根据本公开的一个或多个实施例，所述训练单元确定所述至少一个种子词中各个种子词的相关词时，用于确定第一种子词的第一词嵌入向量，所述第一种子词是所述至少一个种子词中的任意一个种子词；确定候选词的第二词嵌入向量，所述候选词是所述多个词语中的任意一个词语；确定所述第一词嵌入向量和所述第二词嵌入向量之间的距离；当所述第一词嵌入向量和所述第二词嵌入向量之间的距离小于预设距离时，确定所述候选词是所述第一种子词的相关词。

所述存储器存储计算机执行指令；

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种智能问答方法，其特征在于，包括：

接收查询语句；

根据所述目标意图确定目标话术；

发送所述目标话术。

2.根据权利要求1所述的方法，其特征在于，所述将所述查询语句输入至分类器，得到用户的目标意图之前，还包括：

获取样本集合，所述样本集合包含的样本为历史查询语句；

从多个词语中，确定出至少一个种子词，所述多个词语是对所述样本集合中的样本进行分词得到的；

确定所述至少一个种子词中各个种子词的相关词；

根据所述至少一个种子词和所述至少一个种子词中各个种子词的相关词，训练所述分类器。

3.根据权利要求2所述的方法，其特征在于，所述根据所述至少一个种子词和所述至少一个种子词中各个种子词的相关词，训练所述分类器，包括：

根据所述至少一个种子词和所述至少一个种子词中各个种子词的相关词，对所述样本集合中的样本归类，得到多个意图类别；

为所述多个意图类别中的每个意图类别分别配置第一话术，所述第一话术包含多个候选意图；

利用所述第一话术训练深度学习分类器，得到所述分类器。

4.根据权利要求3所述的方法，其特征在于，所述利用所述第一话术训练深度学习分类器，得到所述分类器，包括：

对于所述多个意图类别中的每个意图类别，聚类所述意图类别包含的样本，以得到所述多个意图类别中的每个意图类别包含的各子意图；

为所述多个意图类别中的每个意图类别包含的各子意图分别配置第二话术；

利用所述第一话术和所述第二话术训练深度学习分类器，得到所述分类器。

5.根据权利要求4所述的方法，其特征在于，所述对于所述多个意图类别中的每个意图类别，聚类所述意图类别包含的样本，以确定所述多个意图类别中的每个意图类别包含的各子意图，包括：

对于所述多个意图类别中的每个意图类别，确定所述意图类别包含的样本的向量；

根据所述意图类别包含的各个样本的向量，对所述意图类别包含的各个样本聚类，得到多个子意图。

6.根据权利要求4所述的方法，其特征在于，所述根据所述目标意图确定目标话术，包括：

当所述目标意图为所述多个意图类别中的任意一个意图类别时，向所述电子设备发送所述意图类别对应的第一话术；

接收来自电子设备的指示信息，所述指示信息用于指示所述用户从多个候选意图中选中的感兴趣意图，所述感兴趣意图属于所述意图类别包含的子意图，所述多个候选意图为所述意图类别包含的多个子意图；

确定所述感兴趣意图对应的第二话术为所述目标话术。

7.根据权利要求6所述的方法，其特征在于，所述向所述电子设备发送意图列表之前，还包括：

确定所述多个候选意图中的各候选意图的置信度小于预设置信度。

8.根据权利要求2-7任一项所述的方法，其特征在于，所述确定所述至少一个种子词中各个种子词的相关词，包括：

确定第一种子词的第一词嵌入向量，所述第一种子词是所述至少一个种子词中的任意一个种子词；

确定候选词的第二词嵌入向量，所述候选词是所述多个词语中的任意一个词语；

确定所述第一词嵌入向量和所述第二词嵌入向量之间的距离；

当所述第一词嵌入向量和所述第二词嵌入向量之间的距离小于预设距离时，确定所述候选词是所述第一种子词的相关词。

9.一种智能问答方法，其特征在于，包括：

接收单元，用于接收查询语句；

发送单元，用于发送所述目标话术。

10.一种电子设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至8任一项所述的智能问答方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至8任一项所述的智能问答方法。