CN116414964A

CN116414964A - 智能客服问答知识库构建方法、装置、设备及介质

Info

Publication number: CN116414964A
Application number: CN202310498847.6A
Authority: CN
Inventors: 许强
Original assignee: Guangzhou Shangyan Network Technology Co ltd
Current assignee: Guangzhou Shangyan Network Technology Co ltd
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-07-11

Abstract

本申请涉及一种智能客服问答知识库构建方法、装置、设备及介质，所述方法包括：获取电商客服***中人工客服与提问用户的全量聊天日志，所述聊天日志包括表征提问用户的问题文本以及与所述问题文本相对应的人工客服回复文本；基于聚类算法对预设百分比的所述聊天日志进行向量聚类操作，以将所述聊天日志划分为不同的问答类别；将所有问答类别的所述聊天日志输入至已训练至收敛状态的文本特征提取模型，以确定各个问答类别的所述聊天日志的所述问题文本中的标准问题以及所述标准问题的相似问题；基于所述标准问题和标准问题的相似问题以及相对应的回复文本以完成问答知识库的构建。本申请能够提高智能客服的回答准确率，降低使用智能客服的成本。

Description

智能客服问答知识库构建方法、装置、设备及介质

技术领域

本申请涉及数据处理领域，尤其涉及一种智能客服问答知识库构建方法、相应的装置、电子设备及计算机可读存储介质。

背景技术

在SaaS电商平台电商的场景上，由于消费者用户的咨询问题较多且比较复杂，各个商家一般会配置相应的智能客服机器人来辅助客服解答消费者用户的咨询问题，但是，智能客服机器人常常无法有效回答顾客的各种复杂的问题，或者消费者用户对智能客服机器人的回答不满意。

现有技术中，智能客服***主要是通过即时通信软件接收消费者用户的咨询消息，依据咨询消息以及社会关系图谱智能识别确定是否需要智能回复，确定需要对咨询消息智能回复时，启动智能聊天助手对所述咨询消息进行智能回复，但对于如何建立准确、有效的智能客服问答知识库涉及较少，对于智能客服问答知识库的建立，大多数电商平台还是通过关键字形式让商家手动配置。

综上，为了解决现有技术中无法建立准确、有效的智能客服问答知识库等问题，本申请人出于解决该问题的考虑做出相应的探索。

发明内容

本申请的目的在于解决上述问题而提供一种智能客服问答知识库构建方法、相应的装置、电子设备及计算机可读存储介质。

为满足本申请的各个目的，本申请采用如下技术方案：

适应本申请的目的之一而提出的一种智能客服问答知识库构建方法，包括如下步骤：

获取电商客服***中人工客服与提问用户的全量聊天日志，所述聊天日志包括表征所述提问用户的问题文本以及与所述问题文本相对应的人工客服回复文本；

基于聚类算法对预设百分比的所述聊天日志进行向量聚类操作，以将所述聊天日志划分为不同的问答类别，其中，所述问答类别表征电商客服***中多个不同业务环节产生的咨询解答，将不同业务环节产生的咨询解答划分为不同的问答类别，每个问答类别与所述业务环节一一对应，每个问答类别中的一个问题文本作为标准问题，其余均为所述标准问题的相似问题；

将所有问答类别的所述聊天日志输入至已训练至收敛状态的文本特征提取模型，以确定各个问答类别的所述聊天日志的所述问题文本中的标准问题以及所述标准问题的相似问题；

基于所述标准问题和所述标准问题的相似问题以及与所述标准问题和所述标准问题的相似问题相对应的回复文本完成所述问答知识库的构建。

可选的，完成所述问答知识库的构建的步骤之后，还包括如下步骤：

获取不同商家相对应的聊天日志中提问用户的问题文本，基于已训练至收敛状态的深层语义匹配模型提取所述商家相对应的所述问题文本的句向量；

基于所述深层语义匹配模型提取所述问答知识库中的标准问题以及所述标准问题的相似问题相对应的句向量；

将所述商家相对应的所述问题文本与所述问答知识库中的标准问题以及所述标准问题的相似问题相对应的句向量进行匹配，若超过预设阈值数量的所述商家相对应的所述问题文本匹配到同一个标准问题或所述标准问题的相似问题中，则将所述标准问题作为目标问题；

将所述问题文本相匹配的标准问题以及所述标准问题相对应的相似问题加入至所述商家的问答知识库中。

可选的，获取电商客服***中人工客服与提问用户的全量聊天日志的步骤之前，还包括如下步骤：

对所述聊天日志进行数据清洗；

过滤掉所述电商客服***中自动应答的聊天日志，并筛选出人工客服回复的聊天日志；

使人工客服回复的每一条聊天日志包含所述提问用户的问题文本以及与所述问题文本相对应的人工客服回复文本。

可选的，基于聚类算法对预设百分比的所述聊天日志进行向量聚类操作的步骤，还包括如下步骤：

对所述聊天日志中的提问用户的问题文本进行向量编码，将其转化为向量表示；

将每个所述提问用户的问题文本与所述向量表示进行一一对应，建立所述问题文本与所述向量表示的映射关系；

基于DBSCAN聚类算法对所述问题文本的向量表示进行聚类操作得到聚类结果；

基于所述聚类结果将所述聊天日志按照对应的映射关系划分为不同的问答类别。

可选的，所述文本特征提取模型的训练过程，包括如下步骤：

将各个问答类别的所述聊天日志的所述问题文本中的标准问题以及所述标准问题的相似问题构建为问答知识库问题集；

从所述问答知识库问题集中选取一个相似问题作为训练样本，输入所述文本特征提取模型提取句向量；

通过分类器将所述文本特征提取模型进行分类映射，获得相应的分类标签；

以所述相似问题相对应的标准问题为监督标签，计算该分类标签的损失值，若该损失值达到预设阈值而达到收敛状态，终止训练；否则，实施梯度更新，采用下一样本实施迭代训练。

可选的，确定各个问答类别的所述聊天日志的所述问题文本中的标准问题以及所述标准问题的相似问题之后，还包括如下步骤：

判断所述问答知识库中是否已经存在与所述问答类别相同或相似的问题；

若所述问答知识库不存在与所述问答类别相同或相似的问题，则将所述问答类别作为新的问答类别添加到所述问答知识库中。

可选的，完成所述问答知识库的构建之后，包括如下步骤：

将所述问答知识库接入预设的电商智能客服***；

响应所述电商智能客服***中的提问用户咨询的问题文本；

确定所述问答知识库中与所述问题文本构成语义相匹配的标准问题或所述标准问题的相似问题，以所述标准问题或所述标准问题的相似问题相对应的回复文本解答所述问题文本。

适应本申请的另一目的而提供的一种智能客服问答知识库构建装置，包括：

获取模块，设置为获取电商客服***中人工客服与提问用户的全量聊天日志，所述聊天日志包括表征所述提问用户的问题文本以及与所述问题文本相对应的人工客服回复文本；

向量聚类模块，设置为基于聚类算法对预设百分比的所述聊天日志进行向量聚类操作，以将所述聊天日志划分为不同的问答类别，其中，每个问答类别中的一个问题文本作为标准问题，其余均为所述标准问题的相似问题；

相似问题确定模块，设置为将所有问答类别的所述聊天日志输入已训练至收敛状态的文本特征提取模型，以确定各个问答类别的所述聊天日志的所述问题文本中的标准问题以及所述标准问题的相似问题；

知识库构建模块，设置为基于所述标准问题和所述标准问题的相似问题以及与所述标准问题和所述标准问题的相似问题相对应的回复文本完成所述问答知识库的构建。

适应本申请的另一目的而提供的一种电子设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述智能客服问答知识库构建方法的步骤。

适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述智能客服问答知识库构建方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。

相对于现有技术，本申请针对现有技术对于智能客服问答知识库的建立，大多数电商平台还是通过关键字形式让商家手动配置等问题，在SaaS电商平台的场景下，基于本申请的智能客服问答知识库构建方法，基于电商客服***中人工客服与消费者用户的全量聊天日志，将电商客服***中的聊天日志基于聚类算法划分为不同的问答类别，所述问答类别与SaaS电商平台的各个业务环节一一对应，使智能客服***准确、有效地针对消费者用户对不同业务环节中进行的咨询提问进行解答，同时，对与商家的相关知识进行准确推送，各个商家无需关注智能客服问答知识库中的配置逻辑，商家只需要在智能客服问答知识库配置答案即可，即可构建与其业务服务较为相关的智能客服问答知识库，提高智能客服***的回答准确率，降低了商家使用智能客服的成本，采用本申请的技术方案，无需依赖人工处理，便可实现问答知识库的有效构建，大大节省构建成本，且大幅提升构建效率。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例中智能客服问答知识库构建方法的流程示意图；

图2为本申请实施例中构建不同商家相对应的问答知识库的流程示意图；

图3为本申请实施例中获取电商客服***中人工客服与提问用户的全量聊天日志的流程示意图；

图4为本申请实施例中基于聚类算法对预设百分比的聊天日志进行向量聚类操作的流程示意图；

图5为本申请实施例中文本特征提取模型的训练过程的流程示意图；

图6为本申请实施例中判断所述问答知识库中是否已经存在与所述问答类别相同或相似的问题的流程示意图；

图7为本申请实施例中智能客服问答知识库构建方法的扩展实施例的流程示意图；

图8为本申请实施例中智能客服问答知识库构建装置的原理框图；

图9为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信***)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位***)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本申请的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本申请的技术方案所调用即可。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

本申请的一种智能客服问答知识库构建方法，可被编程为计算机程序产品，部署于客户端或服务器中运行而实现，例如在本申请的SaaS电商平台应用场景中，一般部署在服务器中实施，藉此可以通过访问所述计算机程序产品运行后开放的接口，通过图形用户界面与所述计算机程序产品的进程进行人机交互而执行该方法。

本申请示例性的一个应用场景，是基于SaaS电商平台中的应用，每个SaaS电商平台中的商家实例均可配置电商平台提供的智能客服***实现引入智能客服机器人，采用智能客服***为相关的消费者用户提供咨询解答服务，消费者用户进入所述商家实例相对应的智能客服界面，在智能客服界面中输入需要咨询的问题作为问题文本，所述电商平台的智能客服***接收所述问题文本后，利用所述问题文本与为所述SaaS电商平台预配置的问答知识库中的标准问题进行语义匹配，匹配出与所述问题文本在语义上最相近似的标准问题，然后，调用所述标准问题相映射的预先存储的一个回复文本，输出至所述智能客服界面中，解答消费者用户的提问以满足其咨询需求。

在消费者用户作为提问用户与智能客服机器人进行交流的过程中，通常会允许提问用户引入人工客服，当接入人工客服时，所述智能客服***便将建立所述提问用户与所述SaaS电商平台的人工客服之间的对话通道，由双方继续进行人工对话，于是，所述提问用户输入问题文本，人工客服对其问题文本进行解答产生回复文本而交替产生聊天日志。

基于智能客服界面聊天所产生的聊天日志，包括提问用户提出的问题文本以及人工客服人工回复或机器人自动回复的回复文本，均会被携带发言者特征信息而存档，存储于数据库中，可被用做数据挖掘之用。

除此之外，本申请的智能客服***的应用场景当然也不受限于所述SaaS电商平台，实际上，但凡需要采用进行人机对话的领域，理论上均可采用本申请的技术方案进行处理。故此，本申请关于应用场景的示例，仅为方便读者充分理解本申请技术方案的需要而给出，故本领域技术人员应当知晓，不应以本申请示例性的应用场景对本申请的创造精神所应涵盖的范围加以任何限制。

在参考以上示例性场景的基础上，请参阅图1，本申请的智能客服问答知识库构建方法在其一个实施例中，包括如下步骤：

步骤S10、获取电商客服***中人工客服与提问用户的全量聊天日志，所述聊天日志包括表征所述提问用户的问题文本以及与所述问题文本相对应的人工客服回复文本；

所述智能客服***在对消费者提问用户进行咨询解答过程中，由于所述提问用户与人工客服用户之间的对话会产生一系列的聊天日志，而这些聊天日志中，通常可被处理为一问一答的组织形式。具体而言，如果存在一问多答的情况，或者多问一答的情况，可以预先进行数据清理。

在一些实施方式中，可将连续的多个回复合并为一句，同理可将连续的多个问题合并为单句。聊天记录中的问题及回复，主要取其文本部分，故本申请主要采用其问题文本及回复文本的内容。不难理解，所述提问用户与人工客服之间进行聊天对话的聊天日志中，包含一问一答形式的问题文本及其相对应的回复文本，每个问题文本一般均有其相对应的回复文本，这些聊天日志可从智能客服***的聊天记录数据库中获取。

步骤S20、基于聚类算法对预设百分比的所述聊天日志进行向量聚类操作，以将所述聊天日志划分为不同的问答类别，其中，所述问答类别表征电商客服***中多个不同业务环节产生的咨询解答，将不同业务环节产生的咨询解答划分为不同的问答类别，每个问答类别与所述业务环节一一对应，每个问答类别中的一个问题文本作为标准问题，其余均为所述标准问题的相似问题；

为了准确、高效地构建本申请的智能客服问答知识库，需要将电商客服***中人工客服与提问用户的聊天日志对应所述SaaS电商平台中不同的业务环节进行初步分类，以将所述SaaS电商平台中不同的业务环节产生的咨询解答归类至不同的问答类别，进一步完善所述智能客服问答知识库。

在获取电商客服***中人工客服与提问用户的全量聊天日志之后，由于聚类算法实现相对简单，其收敛速度快、局部最优以及可解释度比较强，对于处理智能客服***中庞大的问答数据集，可以保持可伸缩性和高效性，因此，可以基于聚类算法对预设百分比的所述全量聊天日志中的问题文本数据进行初步的分类，以将电商客服***中人工客服与提问用户的所述聊天日志中的问题文本划分为不同的问答类别，所述聚类算法可以是DBSCN聚类算法等，所述预设百分比可以是百分之三十、百分之四十或百分之六十等，在此不做限定。由于所述SaaS电商平台中存在不同的业务环节，而所述不同的业务环节可以产生其相对应的咨询解答，不难理解，对于所述SaaS电商平台中不同的业务环节，其相对应的电商客服***中多个不同业务环节产生的咨询解答也各不相同，将不同业务环节中产生的咨询解答划分为不同的问答类别，每个问答类别与所述业务环节产生的咨询解答一一对应，例如售前的商品咨询、售中的支付问题或售后的物流问题等，而所述售前的商品咨询可以包括售前的商品价格咨询或售前的商品产地咨询等，在不作限定，将每个问答类别中的一个问题文本作为标准问题，所述问答类别中除标准问题之外均为所述标准问题的相似问题。

步骤S30、将所有问答类别的所述聊天日志输入至已训练至收敛状态的文本特征提取模型，以确定各个问答类别的所述聊天日志的所述问题文本中的标准问题以及所述标准问题的相似问题；

在将电商客服***中人工客服与提问用户的聊天日志对应所述SaaS电商平台中不同的业务环节进行初步分类之后，可以将所有问答类别相对应的所述聊天日志输入至已训练至收敛状态的文本特征提取模型，以确定各个问答类别的所述聊天日志的所述问题文本中的标准问题以及所述标准问题的相似问题。

所述智能客服问答知识库可以包括多个问答类别相对应的标准问题或所述标准问题的相似问题以及与每个问答类别相对应的回复文本。所述问答类别可以与所述SaaS电商平台中的业务环节一一对应，所述问答类别可以对应包含一个标准问题及与所述标准问题在语义上构成相似的相似问题，所述标准问题以及所述标准问题的相似问题均以问题文本的形式存储，而所述回复文本可以用于应答相对应的每个问答类别中的标准问题或所述标准问题的相似问题。为了确定各个问答类别中的所述聊天日志的所述问题文本中的标准问题以及所述标准问题的相似问题，将所述各个问答类别中所述聊天日志中的问题文本与所述问答类别中的标准问题进行语义匹配，可采用预先训练至收敛状态的文本特征提取模型对智能客服问答知识库中各个问答类别中所述标准问题以及所述聊天日志的问题文本一一进行语义提取，获得各个问答类别中所述标准问题以及所述聊天日志的问题文本表示其深层语义信息的句向量，计算各个问答类别中聊天日志的每个问题文本的句向量与各个问答类别中的标准问题的句向量之间的数据距离，将与所述标准问题的数据距离较近的所述问题文本确定为所述标准问题的相似问题，从而确定各个问答类别的所述聊天日志的所述问题文本中的标准问题以及所述标准问题的相似问题。

在一些实施例中，所述文本特征提取模型可以基于深度神经网络模型等，所述深度神经网络模型可以是基于CNN、RNN实现的卷积神经网络模型等，在此不作限定。将各个问答类别中聊天日志的每个问题文本的句向量与各个问答类别中的标准问题的句向量进行语义匹配时，本领域技术人员可以根据实际情况按需确定一种数据距离算法，可以采用余弦相似距离算法、欧氏距离算法、皮尔逊系数算法、杰卡德指数算法、切比雪夫距离算法等任意一种或多种距离算法进行计算，调用其彼此的句向量，计算各个问答类别中聊天日志的每个问题文本的句向量与各个问答类别中的标准问题的句向量之间的数据距离，为了保证所述问题文本与所述标准问题之间的语义匹配度，可以基于预设阈值对两者的数据距离或其量化而得的相似距离评分进行判断，当所述数据距离或相似距离评分满足所述预设阈值时，将所述问题文本确定为所述标准问题的相似问题。

步骤S40、基于所述标准问题和所述标准问题的相似问题以及与所述标准问题和所述标准问题的相似问题相对应的回复文本完成所述问答知识库的构建。

由于语义的模糊性，容易出现所述回复文本虽然与所述标准问题密切对应，但可能与所述标准问题的相似问题不太对应，因此，需要从各个问答类别的聊天日志中筛选出与各个问答类别所述标准问题以及所述标准问题的相似问题较为贴切的所述回复文本。

具体地，对于各个问答类别中的每个回复文本，计算各个问答类别中的每个回复文本的数据距离或其量化而得的相似距离评分之间的平均相似距离评分，使各个问答类别中每个所述回复文本获得一个平均相似距离评分，对此，可基于一个预设阈值，对各个回复文本的平均相似距离评分进行筛选，将满足所述预设阈值的所述回复文本作为目标回复文本保留在所述问答类别中，对于未能满足所述预设阈值的其他回复文本，则从所述问答类别中删除。针对每个问答类别均进行这样的操作，至此，便实现了对所有问答类别中的回复文本的优选，被保留的回复文本，在语义上更为优势，从而筛选出与各个问答类别所述标准问题以及所述标准问题的相似问题较为贴切的所述回复文本。在确定所述标准问题和所述标准问题的相似问题较为贴近的回复文本之后，基于各个问答类别相对应的所述标准问题和所述标准问题的相似问题以及与所述标准问题和所述标准问题的相似问题相对应的回复文本以完成所述问答知识库的构建。

基于上述处理过程得到的智能客服问答知识库，不仅拥有预先设定的标准问题和相似问题，而且也以语料数据库为基础数据源扩增了部分问句文本作为新增相似问题，并且，还进一步填入了与所述问句文本相对应的答案文本作为其回复文本，且被保留的回复文本是择优之后的结果，因此，问答知识库具有了体系化的知识结构，适于接入智能客服***，用于基于提问用户所提出的问句文本而为其匹配语义上相关联的回复文本，作为对该问句文本的应答结果。由上述实施例可知，基于电商客服***中人工客服与消费者用户的全量聊天日志，将电商客服***中的聊天日志基于聚类算法划分为不同的问答类别，所述问答类别与SaaS电商平台的各个业务环节一一对应，使智能客服***准确、有效地针对消费者用户对不同业务环节中进行的咨询提问进行解答，同时，对与商家相关的知识进行准确推送，各个商家无需关注智能客服问答知识库中的配置逻辑，商家只需要在智能客服问答知识库配置答案即可，即可构建与其业务服务较为相关的智能客服问答知识库，提高智能客服***的回答准确率，降低了商家使用智能客服的成本，采用本申请的技术方案，无需依赖人工处理，便可实现问答知识库的有效构建，大大节省构建成本，且大幅提升构建效率。

在本申请任意实施例的基础上，请参阅图2，完成所述问答知识库的构建的步骤之后，还包括如下步骤：

步骤S401、获取不同商家相对应的聊天日志中提问用户的问题文本，基于已训练至收敛状态的深层语义匹配模型提取所述商家相对应的所述问题文本的句向量；

由于所述智能客服问答知识库是基于所述SaaS电商平台中的全量聊天日志数据所构建完成的，而对于所述SaaS电商平台中的不同商家，不同商家的消费者提问用户所提出的问题文本与其相对应的业务息息相关，各具特色，需要对所述SaaS电商平台中的不同商家进行提示，辅助不同商家构建与其业务服务较为相关的智能客服问答知识库。获取所述SaaS电商平台中的不同商家相对应的聊天日志中消费者用户提问的问题文本，基于已训练至收敛状态的深层语义匹配模型提取所述商家相对应的消费者用户提问的所述问题文本的句向量，所述深层语义匹配模型可以基于DSSM模型等，所述句向量被关联其相应的问题文本存储于智能客服问答知识库中，以备后续调用。

步骤S403、基于所述深层语义匹配模型提取所述问答知识库中的标准问题以及所述标准问题的相似问题相对应的句向量；

同理，仍然基于所述深层语义匹配模型逐一提取出所述智能客服问答知识库中各个问答类别的标准问题以及所述标准问题的相似问题相对应的句向量，由于标准问题以及所述标准问题的相似问题本质上也是消费者用户的提问内容，与不同商家相对应的聊天日志中消费者用户提问的问题文本在性质上完全相同，虽然消费者用户提问的问题文本体现其商家对应业务的特点，但所述问题文本可能与所述标准问题以及所述标准问题的相似问题语义较为匹配，可能被添加至各个商家对应的智能客服问答知识库中，用于构建各个商家的智能客服问答知识库，因此，所述深层语义匹配模型也用于提取所述智能客服问答知识库中各个问答类别的标准问题以及所述标准问题的相似问题相对应的句向量。

步骤S405、将所述商家相对应的所述问题文本与所述问答知识库中的标准问题以及所述标准问题的相似问题相对应的句向量进行匹配，若超过预设阈值数量的所述商家相对应的所述问题文本匹配到同一个标准问题或所述标准问题的相似问题中，则将所述标准问题作为目标问题；

基于前述步骤，不同商家的消费者提问用户所提出的每个问题文本与智能客服问答知识库中的每个标准问题以及所述标准问题的相似问题，均获得其相对应的句向量，将所述商家相对应的所述问题文本与所述问答知识库中的标准问题以及所述标准问题的相似问题相对应的句向量进行匹配，对于不同商家的消费者提问用户所提出的每个问题文本的句向量，可以将其逐一与智能问答知识库中各个标准问题以及所述标准问题的相似问题的句向量计算余弦相似距离，获得相应的相似度数值作为相似距离评分，当所述相似距离评分超过预设阈值时，则所述商家相对应消费者提问用户所提出的所述问题文本匹配到同一个标准问题或所述标准问题的相似问题中，将所述标准问题作为所述商家对应的智能客服问答知识库的目标问题。

步骤S407、将所述问题文本相匹配的标准问题以及所述标准问题相对应的相似问题加入至所述商家的问答知识库中。

在确定所述商家对应的智能客服问答知识库的目标问题之后，将将所述问题文本相匹配的标准问题以及所述标准问题相对应的相似问题加入至所述商家的问答知识库中，以完成各个商家相对应的智能客服问答知识库的构建。

在本申请任意实施例的基础上，请参阅图3，获取电商客服***中人工客服与提问用户的全量聊天日志的步骤之前，还包括如下步骤：

步骤S101、对所述聊天日志进行数据清洗；

在所述SaaS电商平台的智能客服***为具体应用场景的基础上，在商家对消费者提问用户进行咨询解答的过程中，所述智能客服***会产生大量的聊天日志，所述聊天日志包括消费者提问用户与智能客服机器人对话生成的聊天日志以及消费者提问用户与人工客服用户对话生成的聊天日志。在获取电商客服***中人工客服与提问用户的全量聊天日志的步骤之前，为使人工客服回复的每一条聊天日志包含所述提问用户的问题文本以及与所述问题文本相对应的人工客服回复文本，需要对所述智能客服***中的聊天日志进行数据清洗。

步骤S103、过滤掉所述电商客服***中自动应答的聊天日志，并筛选出人工客服回复的聊天日志；

所述聊天日志一般存储于所述智能客服***的数据库中，每条聊天日志数据对应标记其发言用户，因此可以根据发言用户识别出相应的聊天日志数据是属于机器人还是人工客服用户所作出的，若所述聊天日志数据属于机器人所作出的对话内容，包括机器人解答的回复文本以及与所述回复文本相对应的问题文本，都予以删除，将机器人所作出的对话内容删除后，仅保留人工客服与消费者提问用户对话产生的聊天日志，因此，使被保留的每个聊天日志数据包含消费者提问用户提出的问题文本与人工客服对应所述问题文本而解答的回复文本。

步骤S105、使人工客服回复的每一条聊天日志包含所述提问用户的问题文本以及与所述问题文本相对应的人工客服回复文本。

经过上述步骤处理后，将上述步骤进行数据清洗后的聊天日志数据予以保留，使人工客服回复的每一条聊天日志包含所述提问用户的问题文本以及与所述问题文本相对应的人工客服回复文本，即可供后续调用。

在本申请任意实施例的基础上，请参阅图4，基于聚类算法对预设百分比的所述聊天日志进行向量聚类操作的步骤，还包括如下步骤：

步骤S201、对所述聊天日志中的提问用户的问题文本进行向量编码，将其转化为向量表示；

在获取所述电商客服***中人工客服与消费者提问用户的全量聊天日志的步骤之后，所述聊天日志包含消费者提问用户与人工客服用户对话生成的聊天日志，需要将所述聊天日志中的消费提问用户的问题文本进行向量编码，所述向量编码是自然语言处理的一种技术，可以将消费提问用户的所述问题文本表示为一个实数向量。

步骤S203、将每个所述提问用户的问题文本与所述向量表示进行一一对应，建立所述问题文本与所述向量表示的映射关系；

在对消费者提问用户的所述问题文本表示为一个实数向量之后，需要将每个所述提问用户的问题文本与所述实数向量进行一一对应起来，建立起消费者提问用户的所述问题文本与所述实数向量的映射关系。

步骤S205、基于DBSCAN聚类算法对所述问题文本的向量表示进行聚类操作得到聚类结果；

在建立起消费者提问用户的所述问题文本与所述实数向量的映射关系之后，可以基于所述DBSCAN聚类算法对消费者提问用户的所述问题文本相对应的实数向量进行聚类操作，计算任意两个所述实数向量之间的数据距离，当两个实数向量所述数据距离小于预设阈值时，将所述两个实数向量划分为同一个类别，将消费者提问用户的所述问题文本相对应的实数向量的类别确定为聚类结果。

步骤S207、基于所述聚类结果将所述聊天日志按照对应的映射关系划分为不同的问答类别。

不难理解，确定消费者提问用户的所述问题文本相对应的实数向量的类别之后，即可确定消费者提问用户的所述问题文本的问答类别，基于所述聚类结果将所述聊天日志按照对应的映射关系划分为不同的问答类别。

由上述实施例可知，基于聚类算法将所述电商客服***中人工客服与消费者提问用户的全量聊天日志划分为不同的问答类别，所述问答类别与SaaS电商平台的各个业务环节一一对应，使智能客服***准确、有效地针对消费者用户对不同业务环节中进行的咨询提问进行解答。

在本申请任意实施例的基础上，请参阅图5，所述文本特征提取模型的训练过程，包括如下步骤：

步骤S301、将各个问答类别的所述聊天日志的所述问题文本中的标准问题以及所述标准问题的相似问题构建为问答知识库问题集；

基于聚类算法对电商客服***中人工客服与提问用户的全量聊天日志进行向量聚类操作得到各个问答类别的所述聊天日志之后，将各个问答类别的所述聊天日志的所述问题文本中的标准问题以及所述标准问题的相似问题构建为问答知识库问题集。

步骤S303、从所述问答知识库问题集中选取一个相似问题作为训练样本，输入所述文本特征提取模型提取句向量；

由于上述步骤已将各个问答类别的所述聊天日志的所述问题文本中的标准问题以及所述标准问题的相似问题构建为问答知识库问题集，各个问答类别已经设置好相应的标准问题和相似问题相对应的问题文本，而且所述问题文本容易从相应的智能客服***的固有的问答知识库中取材，因此，可以采用所述问答知识库中的问题文本作为对本申请的文本特征提取模型进行训练的训练样本。

步骤S305、通过分类器将所述文本特征提取模型进行分类映射，获得相应的分类标签；

所述文本特征提取模型在实施训练时，可接入一个分类器辅助训练，因此，可为训练过程提供正样本和负样本。每次迭代训练时，将所述问答知识库内一个问答类别中的一个相似问题作为正样本，所述问答类别的标准问题则被作为分类器的监督标签使用，以便对模型训练过程实施正向监督。或者，仍使用所述问答类别的标准问题作为分类器的监督标签，便使用所述问答类别之外的其他问答类别的任意一个相似问题作为负样本亦可，以便对模型训练过程实施反向监督。

训练样本被输入至所述文本特征提取模型中，基于所述文本特征提取模型固有的模型原理进行表示学习，从而提取出表征该训练样本的深层语义信息的句向量，所述句向量被全连接后进入分类器进行分类映射，映射到分类空间，获得相应的分类标签。

步骤S307、以所述相似问题相对应的标准问题为监督标签，计算该分类标签的损失值，若该损失值达到预设阈值而达到收敛状态，终止训练；否则，实施梯度更新，采用下一样本实施迭代训练。

以所述相似问题相对应的标准问题为监督标签，所述监督标签被用于计算前一步骤获得的分类标签的交叉熵损失值，然后将该损失值与一预设阈值进行比较，如果该损失值达到所述的预设阈值，则可判断所述文本特征提取模型已经收敛，从而可以终止对所述文本特征提取模型的训练，将其投入使用，用于为本申请的问题文本及问句文本提取相应的句向量。如果该损失值未达到预设阈值，则表示模型并未收敛，此时，通过参数回传对所述文本特征提取模型的权重实施梯度更新，促使模型进一步迫近收敛，然后，继续调用下一样本，实施对所述文本特征提取模型的迭代训练，直至所述文本特征提取模型被训练至收敛状态为止。

由上述实施例可知，直接采用本申请的问答知识库用于对所述文本特征提取模型进行训练，通过模型拟合作为训练样本的相似问题与其标准问题之间的近似函数，使所述文本特征提取模型最终习得提取相似问题的句向量的能力，后续可有效用于为本申请的问答知识库有效提取问题文本的句向量。

在本申请任意实施例的基础上，请参阅图6，确定各个问答类别的所述聊天日志的所述问题文本中的标准问题以及所述标准问题的相似问题之后，还包括如下步骤：

步骤S3001、判断所述问答知识库中是否已经存在与所述问答类别相同或相似的问题；

为了有效拓展所述智能客服问答知识库，能够及时发现出现新的知识点并对所述智能客服问答知识库进行实时更新，从而自动拓展所述智能客服问答知识库的问答范围，同时，有利于提高智能问答***的回复准确率，需要判断所述问答知识库中是否已经存在与所述问答类别相同或相似的问题。

步骤S3003、若所述问答知识库不存在与所述问答类别相同或相似的问题，则将所述问答类别作为新的问答类别添加到所述问答知识库中。

如果某种问答类别中的相同或者相似的问题文本数量超过预设阈值，则说明该种问答类别的问题的提问次数较多，但所述问答知识库不存在与所述问答类别相同或相似的问题，则有必要将该种问答类别的标准问题以及所述标准问题的相似问题添加到智能问答知识库中，将所述问答类别作为新的问答类别添加到所述问答知识库中。

由上述实施例可知，基于实时判断新的知识点是否超过预设阈值，也即某种问答类别中的相同或者相似的问题文本数量超过预设阈值，对所述智能客服问答知识库进行实时更新，从而自动拓展所述智能客服问答知识库的问答范围，同时，有利于提高智能客服***的回复准确率。

在本申请任意实施例的基础上，请参阅7，完成所述问答知识库的构建之后，包括如下步骤：

步骤S4001、将所述问答知识库接入预设的电商智能客服***；

基于本申请实施例中所揭示的所述智能客服问答知识库，所述智能客服问答知识库的知识质量较高，而且所述问题文本与回复文本之间的语义关联性甚佳，因此适于为所述SaaS电商平台中的智能客服***进行服务。可以将所述问答知识库接入预设的电商智能客服***。

步骤S4003、响应所述电商智能客服***中的提问用户咨询的问题文本；

在所述智能客服问答知识库被消费者提问用户进行调用时，由消费者提问用户向其发送咨询的问题文本。

步骤S4005、确定所述问答知识库中与所述问题文本构成语义相匹配的标准问题或所述标准问题的相似问题，以所述标准问题或所述标准问题的相似问题相对应的回复文本解答所述问题文本。

由智能客服机器人基于所述文本提取模型提取所述问题文本的句向量，根据所述句向量与所述问答知识库中的各个问题文本的句向量进行相似匹配，确定具有最高相似距离评分的问题文本，将其确定为所述问答知识库中与所述问题文本构成语义相匹配的标准问题或所述标准问题的相似问题，调用所述问题文本的回复文本，解答所述消费者提问用户。

由上述实施例可知，可以实现进一步的提升智能客服***的智能程度，提高智客服***的回复准确率，让提问用户获得更准确的答案文本，改善用户提问体验。

请参阅图8，适应本申请的目的之一而提供的一种智能客服问答知识库构建装置，包括获取模块1100、向量聚类模块1200、相似问题确定模块1300、知识库构建模块1400。其中，获取模块1100，设置为获取电商客服***中人工客服与提问用户的全量聊天日志，所述聊天日志包括表征所述提问用户的问题文本以及与所述问题文本相对应的人工客服回复文本；向量聚类模块1200，设置为基于聚类算法对预设百分比的所述聊天日志进行向量聚类操作，以将所述聊天日志划分为不同的问答类别，其中，每个问答类别中的一个问题文本作为标准问题，其余均为所述标准问题的相似问题；相似问题确定模块1300，设置为将所有问答类别的所述聊天日志输入已训练至收敛状态的文本特征提取模型，以确定各个问答类别的所述聊天日志的所述问题文本中的标准问题以及所述标准问题的相似问题；知识库构建模块1400，设置为基于所述标准问题和所述标准问题的相似问题以及与所述标准问题和所述标准问题的相似问题相对应的回复文本完成所述问答知识库的构建。

在本申请任意实施例的基础上，本申请的智能客服问答知识库构建装置，还包括：

问题文本获取模块，设置为获取不同商家相对应的聊天日志中提问用户的问题文本，基于已训练至收敛状态的深层语义匹配模型提取所述商家相对应的所述问题文本的句向量；

句向量确定模块，设置为基于所述深层语义匹配模型提取所述问答知识库中的标准问题以及所述标准问题的相似问题相对应的句向量；

目标问题确定模块，设置为将所述商家相对应的所述问题文本与所述问答知识库中的标准问题以及所述标准问题的相似问题相对应的句向量进行匹配，若超过预设阈值数量的所述商家相对应的所述问题文本匹配到同一个标准问题或所述标准问题的相似问题中，则将所述标准问题作为目标问题；

添加模块，设置为将所述问题文本相匹配的标准问题以及所述标准问题相对应的相似问题加入至所述商家的问答知识库中。

数据清洗模块，设置为对所述聊天日志进行数据清洗；

筛选模块，设置为过滤掉所述电商客服***中自动应答的聊天日志，并筛选出人工客服回复的聊天日志；使人工客服回复的每一条聊天日志包含所述提问用户的问题文本以及与所述问题文本相对应的人工客服回复文本。

在本申请任意实施例的基础上，所述向量聚类模块1200，包括：

向量编码单元，设置为对所述聊天日志中的提问用户的问题文本进行向量编码，将其转化为向量表示；

映射单元，设置为将每个所述提问用户的问题文本与所述向量表示进行一一对应，建立所述问题文本与所述向量表示的映射关系；

聚类结果确定模块，设置为基于DBSCAN聚类算法对所述问题文本的向量表示进行聚类操作得到聚类结果；

问答类别确定模块，设置为基于所述聚类结果将所述聊天日志按照对应的映射关系划分为不同的问答类别。

在本申请任意实施例的基础上，所述文本特征提取模型，包括：

问题集确定单元，设置为将各个问答类别的所述聊天日志的所述问题文本中的标准问题以及所述标准问题的相似问题构建为问答知识库问题集；

句向量提取单元，设置为从所述问答知识库问题集中选取一个相似问题作为训练样本，输入所述文本特征提取模型提取句向量；

分类标签确定模块，设置为通过分类器将所述文本特征提取模型进行分类映射，获得相应的分类标签；

计算单元，设置为以所述相似问题相对应的标准问题为监督标签，计算该分类标签的损失值，若该损失值达到预设阈值而达到收敛状态，终止训练；否则，实施梯度更新，采用下一样本实施迭代训练。

在本申请任意实施例的基础上，所述相似问题确定模块1300，包括：

判断单元，设置为判断所述问答知识库中是否已经存在与所述问答类别相同或相似的问题；

添加单元，设置为若所述问答知识库不存在与所述问答类别相同或相似的问题，则将所述问答类别作为新的问答类别添加到所述问答知识库中。

在本申请任意实施例的基础上，所述智能客服问答知识库构建装置，包括：。

接入模块，设置为将所述问答知识库接入预设的电商智能客服***；

响应模块，设置为响应所述电商智能客服***中的提问用户咨询的问题文本；

解答模块，设置为确定所述问答知识库中与所述问题文本构成语义相匹配的标准问题或所述标准问题的相似问题，以所述标准问题或所述标准问题的相似问题相对应的回复文本解答所述问题文本。

在本申请任意实施例的基础上，请参阅图9，本申请的另一实施例还提供一种电子设备，所述电子设备可由计算机设备实现，如图9所示，计算机设备的内部结构示意图。该计算机设备包括通过***总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作***、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种智能客服问答知识库构建方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的智能客服问答知识库构建方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图9中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的智能客服问答知识库构建装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例所述智能客服问答知识库构建方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述智能客服问答知识库构建方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

综上所述，本申请基于语料的有效优选与基于语义的精准匹配构建出的问答知识库，能够全面提升智能客服***的智能化程度，使电商平台之类的大型客服场景能够免除大量的人力工作，而节省相应的实施成本，取得规模化经济效用。

Claims

1.一种智能客服问答知识库构建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的智能客服问答知识库构建方法，其特征在于，完成所述问答知识库的构建的步骤之后，还包括如下步骤：

3.根据权利要求1所述的智能客服问答知识库构建方法，其特征在于，获取电商客服***中人工客服与提问用户的全量聊天日志的步骤之前，还包括如下步骤：

对所述聊天日志进行数据清洗；

4.根据权利要求1所述的智能客服问答知识库构建方法，其特征在于，基于聚类算法对预设百分比的所述聊天日志进行向量聚类操作的步骤，还包括如下步骤：

5.根据权利要求1所述的智能客服问答知识库构建方法，其特征在于，所述文本特征提取模型的训练过程，包括如下步骤：

6.根据权利要求1或2任意一项所述的智能客服问答知识库构建方法，其特征在于，确定各个问答类别的所述聊天日志的所述问题文本中的标准问题以及所述标准问题的相似问题之后，还包括如下步骤：

7.根据权利要求1至5中任意一项所述的智能客服问答知识库构建方法，其特征在于，完成所述问答知识库的构建之后，包括如下步骤：

将所述问答知识库接入预设的电商智能客服***；

响应所述电商智能客服***中的提问用户咨询的问题文本；

8.一种智能客服问答知识库构建装置，其特征在于，包括:

9.一种电子设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。