CN116521893A

CN116521893A - 智能对话***的控制方法、控制装置和电子设备

Info

Publication number: CN116521893A
Application number: CN202310485470.0A
Authority: CN
Inventors: 周镇镇
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-08-01

Abstract

本申请实施例提供了一种智能对话***的控制方法、控制装置和电子设备，其中，该方法包括：获取用户的当前输入信息，并提取当前输入信息的关键词；根据关键词和历史对话信息库确定当前输入信息对应的话题，其中，历史对话信息库包含用户与智能对话***的历史对话信息；在目标领域知识数据库中查询关键词和话题对应的知识，得到目标领域知识，其中，目标领域知识数据库包括目标领域的理论知识；将提示词信息输入第一预训练语言模型，使用第一预训练语言模型对提示词信息进行分析，确定回复信息，并控制智能对话***输出回复信息。通过本申请，解决了智能聊天对话***的理解能力不够，不能输出准确的回复信息的问题。

Description

智能对话***的控制方法、控制装置和电子设备

技术领域

本申请实施例涉及人工智能领域，具体而言，涉及一种智能对话***的控制方法、控制装置、计算机可读存储介质和电子设备。

背景技术

随着自然语言处理技术的发展，多种细分场景的对话***应运而生，对话***在不同应用环境下也称为聊天机器人、对话机器人、***机器人、心理咨询机器人、沟通机器人、问答机器人、智能助理等，本申请将以上不同术语统称为“对话***”。

对话***主要可以分为任务型对话***和聊天型对话***，对于聊天型对话***来说，与用户保持对话的连续性尤为重要。现有技术中，专利名称为《用于增强对话***的插件的在线市场》，申请号为CN202011438705.3，其具体公开了：用于增强对话***的插件的在线市场。一种方法包括维护可以包括多个对话***扩展元件的在线市场。多个对话***扩展元件中的每一个可以包括以下中的至少一个：对话***插件、对话***附件、对话***更新和对话***升级。方法还可以包括从软件开发者接收对多个对话***扩展元件中的一个的选择。软件开发者可以与对话***相关联。方法可以继续使多个对话***扩展元件中的一个与软件开发者的对话***相关联。专利名称为《用于保持对话***对话连贯性的方法及***》，申请号为CN201611060135.2，其具体公开了：本发明提供一种用于保持对话***对话连贯性的方法及***，其中，方法包括，根据当前对话输入，实时地从所有历史对话中切割出与当前对话属于同一话题的相关话题集合；从相关话题集合中挖掘出当前话题关键词；根据当前对话输入和当前话题关键词，确定应答输出。本发明提供的用于保持对话***对话连贯性的方法及***，根据当前对话输入的内容，实时地从所有以往话题中切割出与当前对话属于同一话题的相关话题集合，并从切割出的相关话题集合中，挖掘出最具有代表性的当前话题关键词，由于所挖掘出的关键词包含了上下文信息，将当前对话输入内容与当前话题关键词一并作为***输入，可以保持对话***对话连贯性，从而实现人机对话达到持续深入的效果。专利名称为《基于预训练语言模型的疫情病例信息抽取框架构建方法》，申请号为CN202210010887.7，其具体公开了：提出基于预训练语言模型的疫情病例信息抽取框架构建方法，集成了命名实体识别网络和蕴含式类别预测网络的疫情病例信息抽取框架，本发明设计了一种感染病例的数据标注规则，提出一种基于预训练语言模型的信息抽取框架自动提取病例中的核心要素，其中，命名实体识别网络能准确地识别病例文本中的命名实体，定位病例传播路径的关键信息，蕴含式病例类别预测网络能够高效预测蕴含式类别，判断病例传播途径的主要形式，框架实现了病例文本的结构化表示，以进一步辅助疾病防控专家制定新型冠状病毒传播的干预措施。

由以上现有技术公开的内容可知，当前的聊天型对话***，使用的自然语言模型参数量较小，对用户输入的理解能力较低，对用户前述输入没有记忆能力，或使用传统的高频问答(frequently-asked questions，简称FAQ)的方法，只能通过关键词匹配问题并输出对应答案，因此，经常无法形成令用户满意的回复，无法解决用户的诉求。

因此，如何使聊天型对话***能够回溯长期既往对话，提升聊天型对话***的理解能力是目前需要解决的问题。

发明内容

本申请实施例提供了一种智能对话***的控制方法、控制装置、计算机可读存储介质和电子设备，以至少解决相关技术中智能聊天对话***的理解能力不够，不能输出令用户满意的答复的问题。

根据本申请的一个实施例，提供了一种智能对话***的控制方法，包括：获取用户的当前输入信息，并提取所述当前输入信息的关键词；根据所述关键词和历史对话信息库确定所述当前输入信息对应的话题，其中，所述历史对话信息库包含所述用户与智能对话***的历史对话信息；在目标领域知识数据库中查询所述关键词和所述话题对应的知识，得到目标领域知识，其中，所述目标领域知识数据库包括目标领域的理论知识；将提示词信息输入第一预训练语言模型，使用所述第一预训练语言模型对所述提示词信息进行分析，确定回复信息，并控制所述智能对话***输出所述回复信息，其中，所述提示词信息包括提示语句、所述当前输入信息、所述话题和所述目标领域知识，所述提示语句为预先设定的作为所述回复信息的导语的语句，所述第一预训练语言模型为使用多组第一数据通过机器学习训练出的，所述多组第一数据中的每组第一数据均包括：历史提示词信息和历史回复信息。

在一个示例性实施例中，所述第一预训练语言模型包括嵌入层、转换层、线性层和逻辑层，使用第一预训练语言模型对所述提示词信息进行分析，确定回复信息，包括：使用所述嵌入层获取所述提示词信息对应的词嵌入和位置编码；将所述提示词信息对应的所述词嵌入与所述位置编码输入转换层，得到所述词嵌入和所述位置编码对应的特征空间，其中，所述转换层包括多头注意力机制层、归一层和前馈神经网络层；使用所述线性层对所述特征空间进行压缩，得到压缩后的所述特征空间；使用所述逻辑层对压缩后的所述特征空间进行处理，得到多个输出语句的概率，其中，每个所述输出语句(y1,y₂,…，y_n)的概率为n表示所述提示词信息的个数，x_i表示第i个所述提示词信息，y_i表示第i个所述输出语句；将概率最大的所述输出语句作为所述回复信息。

在一个示例性实施例中，提取所述当前输入信息的关键词，包括：对所述当前输入信息中包含的所有词语进行词性筛选，得到多个预定词性的词语，将多个所述预定词性的词语生成至第一候选关键词组，其中，所述预定词性为预先设定的词性；删除所述第一候选关键词组中重复的第一候选关键词，得到第二候选关键词组；根据所述第二候选关键词组确定所述当前输入信息对应的所述关键词。

在一个示例性实施例中，根据所述第二候选关键词组确定所述当前输入信息对应的所述关键词，包括：将所述第二候选关键词组中的每个第二候选关键词构造为预定句式的关键词语句，得到多个第二候选关键词语句；使用第二预训练语言模型对所述第二候选关键词语句进行分析，得到每个所述第二候选关键词语句的概率，将概率最大的所述第二候选关键词语句对应的所述第二候选关键词确定为所述当前输入信息对应的所述关键词，其中，所述第二预训练语言模型为使用多组第二数据通过机器学习训练出的，所述多组第二数据中的每组第二数据均包括：历史关键词语句和历史关键词。

在一个示例性实施例中，在根据所述关键词和历史对话信息库确定所述当前输入信息对应的话题之前，还包括：记录所述用户与所述智能对话***的多个所述历史对话信息，将多个所述历史对话信息生成至历史对话信息库。

在一个示例性实施例中，根据所述关键词和历史对话信息库确定所述当前输入信息对应的话题，包括：利用词频-逆文档频率算法计算每个所述关键词对所述历史对话信息库中的多个所述历史对话信息的重要程度，得到每个所述关键词对应的频率值；将所述频率值按照预定顺序进行排列，确定前预定数量个关键词为所述当前输入信息对应的所述话题。

在一个示例性实施例中，在控制所述智能对话***输出所述回复信息之后，还包括：将所述当前输入信息和所述回复信息存储至所述历史对话信息库。

根据本申请的另一个实施例，提供了一种智能对话***的控制装置，包括：提取模块，用于获取用户的当前输入信息，并提取所述当前输入信息的关键词；确定模块，用于根据所述关键词和历史对话信息库确定所述当前输入信息对应的话题，其中，所述历史对话信息库包含所述用户与智能对话***的历史对话信息；查询模块，用于在目标领域知识数据库中查询所述关键词和所述话题对应的知识，得到目标领域知识，其中，所述目标领域知识数据库包括目标领域的理论知识；控制模块，用于将提示语句、所述当前输入信息、所述话题和所述目标领域知识作为提示词信息，使用第一预训练语言模型对所述提示词信息进行分析，确定回复信息，并控制所述智能对话***输出所述回复信息，其中，所述提示语句为预先设定的作为所述回复信息的导语的语句，所述第一预训练语言模型为使用多组第一数据通过机器学习训练出的，所述多组第一数据中的每组第一数据均包括：提示词信息和回复信息的标签。

根据本申请的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一种方法实施例中的步骤。

根据本申请的又一个实施例，还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一种方法实施例中的步骤。

通过本申请，首先获取用户的当前输入信息，提取当前输入信息的关键词，并根据关键词和历史对话信息库确定话题，根据关键词和话题在行业领域知识库中查询得到目标领域知识，将包括提示语句、当前输入信息、话题和目标领域知识的提示词信息输入第一预训练语言模型，第一预训练语言模型对提示词信息进行分析之后得到回复信息。与现有技术中，智能对话***的理解能力不强且不能够回溯历史对话信息，得到令用户满意的回复信息的方法相比，本申请的智能对话***能够使用第一预训练语言模型，根据历史对话信息和目标领域知识对用户的当前输入信息进行分析，并输出准确的回复信息，因此，可以解决智能聊天对话***的理解能力不够的问题，提高回复信息的准确性。

附图说明

图1是本申请实施例的一种智能对话***的控制方法的移动终端的硬件结构框图；

图2是本申请实施例的一种智能对话***的控制方法的流程图；

图3是本申请实施例的一种具体的智能对话***的控制方法的结构示意图；

图4是本申请实施例的一种具体的智能对话***的控制方法中的提示词信息的示意图；

图5是本申请实施例的一种具体的智能对话***的控制方法中的预训练语言模型的结构示意图；

图6是本申请实施例的一种具体的智能对话***的控制装置的结构框图。

其中，上述附图包括以下附图标记：

102、处理器；104、存储器；106、传输设备；108、输入输出设备。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请的实施例。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本申请实施例的一种智能对话***的控制方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的智能对话***的控制方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端的智能对话***的控制方法，图2是根据本申请实施例的一种智能对话***的控制的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取用户的当前输入信息，并提取上述当前输入信息的关键词；

具体地，本申请的智能对话***为聊天型对话***，也可以应用于聊天机器人、对话机器人、***机器人、心理咨询机器人、沟通机器人、问答机器人、智能助理等。当前输入信息至智能对话***时，智能对话***获取用户的当前输入信息，即本次的输入信息，提取当前输入信息中的关键词，用户的当前输入信息一般为一句话或者几句话，每句话一般包含多个词语，因此，提取当前输入信息的关键词即从多个词语中提取出主要的词语，关键词一般为名词，关键词的提取步骤将在下文进行展开说明。

步骤S204，根据上述关键词和历史对话信息库确定上述当前输入信息对应的话题，其中，上述历史对话信息库包含上述用户与智能对话***的历史对话信息；

具体地，假设用户在输入当前信息之前，已经跟上述智能对话***进行过多次对话，那么用户与智能对话***的多次对话信息就构成了历史对话信息库，即历史对话信息库包含上述用户与智能对话***的历史对话信息。在上述步骤提取得到用户当前输入信息的关键词之后，根据历史对话信息库和关键词确定本次会话的话题。历史对话信息例如：用户：我的集群能支持多少控制器？小源：您好！我是您的智能客服小源，请问您的集群型号是什么？

步骤S206，在目标领域知识数据库中查询上述关键词和上述话题对应的知识，得到目标领域知识，其中，上述目标领域知识数据库包括目标领域的理论知识；

具体地，目标领域知识库包含智能对话***使用终端的用户从事的领域相关的理论知识、事实数据以及由该领域专家总结的经验。确定目标领域知识库中的目标领域知识，使用了分布式的开源搜索引擎Elastic Search(简称ES)。用户每次的输入信息构成当前输入信息数据库，对应的不同话题组成话题数据库，目标领域内的不同知识组成目标领域知识数据库，对于当前输入信息数据库、话题数据库、领域知识数据库中的不同记录均含有唯一的索引号，支持以文字检索技术对关键词进行搜索。因此，构建“话题-文档”关系的倒排索引。在目标领域知识数据库中查询上述关键词和上述话题对应的知识，得到目标领域知识，即是通过话题快速获取包含该关键词的文档列表，其中，文档即当前输入信息数据库、话题数据库、领域知识数据库中的每条记录。根据关键词快速查询对应文档并输出。其中，目标领域知识数据库支持统一管理平台后台的管理员角色登录并对目标领域知识进行增删查改操作，特别是对于人工客服上传的目标领域知识进行审核，审核通过后的知识将增加或者修改到目标领域知识库。对于人工客服支持浏览、查询操作，同时允许人工客服对现有的知识库未覆盖的目标领域知识进行填补，或者对发生变化的知识进行修改，上传新增或修改的内容。特别地，针对每次查询，考虑到后期使用预训练语言模型的输入提示词信息的长度限制，行业领域知识库输出内容输出优选的s个相关知识，在一些可选的实施例中，s＝5。

在确定关键词和话题之后，在目标领域知识库中查询关键词和话题，得到与关键词和话题对应的目标领域知识。目标领域知识例如：AS5300G5&AS5500G5&AS5600G5&AS5800G5&HF5000G5&HF6000G5最大支持16个控制器。AS6800G5&HF8000G5最大支持32个控制器。AS18000G5-I&HF18000G5-I最大支持48个控制器。

步骤S208，将提示词信息输入第一预训练语言模型，使用上述第一预训练语言模型对上述提示词信息进行分析，确定回复信息，并控制上述智能对话***输出上述回复信息，其中，上述提示词信息包括提示语句、上述当前输入信息、上述话题和上述目标领域知识，上述提示语句为预先设定的作为上述回复信息的导语的语句，上述第一预训练语言模型为使用多组第一数据通过机器学习训练出的，上述多组第一数据中的每组第一数据均包括：历史提示词信息和历史回复信息。

具体地，在获取到当前输入信息、当前输入信息对应的话题和目标领域知识之后，获取提示语句，可以理解为回复信息的导语，例如：小源是一个非常热情、富有耐心的客服，同时具有优秀的专业领域知识储备，能够从倾听客户的诉请，用心服务好每一个客户，在遇到客户前，她查阅了很多相关知识。之后将提示语句、上述当前输入信息、上述话题和上述目标领域知识作为提示词信息输入第一预训练语言模型中，以使第一预训练语言模型对提示词信息进行分析，得到回复信息并输出。提示词信息一般具有长度限制，例如：限制为2048个tokens(计算机身份认证中为令牌)。

本申请的预训练语言模型可以为任一合理有效的预训练大模型，例如人工智能巨量语言模型，具有较多参数和较高的自然语言理解和自然语言生成能力。

通过上述步骤，首先获取用户的当前输入信息，提取当前输入信息的关键词，并根据关键词和历史对话信息库确定话题，根据关键词和话题在行业领域知识库中查询得到目标领域知识，将包括提示语句、当前输入信息、话题和目标领域知识的提示词信息输入第一预训练语言模型，第一预训练语言模型对提示词信息进行分析之后得到回复信息。与现有技术中，智能对话***的理解能力不强且不能够回溯历史对话信息，得到令用户满意的回复信息的方法相比，本申请的智能对话***能够使用第一预训练语言模型，根据历史对话信息和目标领域知识对用户的当前输入信息进行分析，并输出准确的回复信息，解决了智能聊天对话***的理解能力不够的问题，提高了回复信息的准确性。

其中，上述步骤的执行主体可以为服务器、终端等，但不限于此。

具体实现过程中，上述步骤S208可以通过以下步骤实现：上述第一预训练语言模型包括嵌入层、转换层、线性层和逻辑层，使用第一预训练语言模型对上述提示词信息进行分析，确定回复信息，包括：使用上述嵌入层获取上述提示词信息对应的词嵌入和位置编码；将上述提示词信息对应的上述词嵌入与上述位置编码输入转换层，得到上述词嵌入和上述位置编码对应的特征空间，其中，上述转换层包括多头注意力机制层、归一层和前馈神经网络层；使用上述线性层对上述特征空间进行压缩，得到压缩后的上述特征空间；使用上述逻辑层对压缩后的上述特征空间进行处理，得到多个输出语句的概率，其中，每个上述输出语句(y₁,y₂,…，y_n)的概率为n表示所述提示词信息的个数，x_i表示第i个所述提示词信息，y_i表示第i个所述输出语句；将概率最大的上述输出语句作为上述回复信息。该方法通过第一预训练语言模型对提示词信息进行了分析，这样可以根据提示词信息中的当前输入信息、话题和目标领域知识以及提示语句充分分析用户的需求，得到回复信息。

具体地，对提示词信息使用嵌入层(input embedding)，获取提示词信息对应token(计算机术语：标记)的词嵌入(word embedding)表示，该word embedding表示与位置编码(或称位置嵌入，positional embedding)表示组合，获得提示词信息的组合嵌入式表达，然后输入76个transformer层(转换层)，transformer层内部由多头注意力机制(multihead attention)、叠加归一层(add&norm)、前馈神经网络层(feed forward)组成。最后使用linear层(线性层)，完成特征空间维度的压缩，再使用逻辑层(logistics)获取每个输出语句的可能性，每个输出语句(y₁,y₂,…，y_n)的概率为将概率最大的上述输出语句作为上述回复信息。

为了提取用户的当前输入信息中的关键词，具体实现过程中，上述步骤S202可以通过以下步骤实现：对上述当前输入信息中包含的所有词语进行词性筛选，得到多个预定词性的词语，将多个上述预定词性的词语生成至第一候选关键词组，其中，上述预定词性为预先设定的词性；删除上述第一候选关键词组中重复的第一候选关键词，得到第二候选关键词组；根据上述第二候选关键词组确定上述当前输入信息对应的上述关键词。

具体地，关键词提取使用预训练语言模型的语言理解能力，直接提取关键词，主要步骤如下：对于用户当前输入信息，使用预训练语言模型进行词性筛选，得到第一候选关键词组[关键词1，关键词2……，关键词m]，m≥1；对第一候选关键词组进行去除重复和停用的词语等数据预处理操作，得到第二候选关键词组[关键词1，关键词2……，关键词n]，n≥1。之后根据第二候选关键词组确定最终的关键词。

具体实现过程中，上述步骤S202还可以通过以下步骤实现：根据上述第二候选关键词组确定上述当前输入信息对应的上述关键词，包括：将上述第二候选关键词组中的每个第二候选关键词构造为预定句式的关键词语句，得到多个第二候选关键词语句；使用第二预训练语言模型对上述第二候选关键词语句进行分析，得到每个上述第二候选关键词语句的概率，将概率最大的上述第二候选关键词语句对应的上述第二候选关键词确定为上述当前输入信息对应的上述关键词，其中，上述第二预训练语言模型为使用多组第二数据通过机器学习训练出的，上述多组第二数据中的每组第二数据均包括：历史关键词语句和历史关键词。该方法通过构造第二候选关键词语句，并将第二候选关键词语句输入至第二预训练语言模型进行分析，这样可以得到较为准确的关键词。

具体地，将第二候选关键词组[关键词1，关键词2……，关键词n]，n≥1中的每一个关键词构造成如下格式：请判断以下描述是否正确：“关键词1”为“用户本次输入信息”的关键词。构造n个相同句式。将该n个相同句式放入第二预训练模型中，对输入使用嵌入层(input embedding)，获取输入对应token的词嵌入(word embedding)表示，该wordembedding表示再叠加位置编码(或称位置嵌入，positional embedding)表示，获得输入的组合嵌入式表达。后续输入76个transformer层，transformer层内部由多头注意力机制(multihead attention)、叠加归一层(add&norm)、前馈神经网络层(feed forward)组成。最后使用linear层，完成特征空间维度的压缩，再使用逻辑层(logistics)获取每个第二关键词语句的可能性。此处使用逻辑层是由于，每个关键词是否成为用户本次输入信息的关键词的可能性是相互独立的。

为了能够使智能对话***能够精准分析用户的问题，输出更准确的回复信息，具体实现过程中，上述步骤S204还可以通过以下步骤实现：记录上述用户与上述智能对话***的多个上述历史对话信息，将多个上述历史对话信息生成至历史对话信息库。

具体地，用户的当前输入信息通常为多条，历史对话信息可以为本条信息之前的信息，例如：用户：我的集群能支持多少控制器？小源：您好！我是您的智能客服小源，请问您的集群型号是什么？用户：型号是AS5500G5。在这个对话中，历史对话信息可以为用户与智能对话***第一次输入的信息：我的集群能支持多少控制器？小源：您好！我是您的智能客服小源，请问您的集群型号是什么？即历史对话信息可以为用户本次输入的多条信息中在本句信息之前的对话信息，智能对话***根据上述历史对话信息与关键词得到本次输入的多条信息的主题。

具体实现过程中，上述步骤S204还可以通过以下步骤实现：利用词频-逆文档频率算法计算每个上述关键词对上述历史对话信息库中的多个上述历史对话信息的重要程度，得到每个上述关键词对应的频率值；将上述频率值按照预定顺序进行排列，确定前预定数量个关键词为上述当前输入信息对应的上述话题。该方法通过关键词确定话题，这样可以更加精确的定位用户的问题，并根据话题对用户的提问进行针对性地回复。

具体地，话题定位用于定位用户与智能对话***的多轮交互中的主要话题，在上述步骤中提取得到用户当前输入信息的关键词之后，将历史对话信息库中的每次当前输入信息视作一个文档，使用词频-逆文档频率(Term Frequency-Inverse DocumentFrequency，TF-IDF)算法计算每个关键词对该条文档的重要程度；对每次当前输入信息的关键词对应的TF-IDF值按降序排列，取排在最前面的预定数量个词，在一些可选的实施方式中，预定数量可以为p＝5，使用前5个关键词作为文档的话题，并作为文档的标签。

为了使智能对话***能够“追溯”历史对话的内容，以根据关键词和历史对话信息确定话题，具体实现过程中，上述方法还包括以下步骤：将上述当前输入信息和上述回复信息存储至上述历史对话信息库。

具体地，如上文所说，用户的当前输入信息一般为多条语句，即在当前的一条语句之前，用户与智能对话***已经存在多次对话信息，将已经存在的多条对话信息存储至历史对话信息库，即在智能对话***输出回复信息之后，将当前输入信息和回复信息存储至历史对话信息库，这样可以使智能对话***具有“记忆”功能，能够“追溯”历史对话信息，并根据关键词对历史对话信息的重要程度确定话题。

为了使得本领域技术人员能够更加清楚地了解本申请的技术方案，以下将结合具体的实施例对本申请的智能对话***的控制方法的实现过程进行详细说明。

本实施例涉及一种具体的智能对话***的控制方法，如图3至图5所示，包括如下步骤：

步骤S1：图3为一种具体的智能对话***的控制方法的结构示意图，用户通过客户使用终端的终端接口输入信息，终端接口支持用户以多种平台接入，包括IOS、Android、Web以及各种小程序、H5、快应用等。即上行：当前输入信息；

步骤S2：对话***统一管理平台(智能对话***)包括：关键词提取模块、话题定位模块、历史对话管理模块、行业领域知识库模块、预训练语言模型模块以及平台接口，智能对话***获取用户的当前输入信息，通过关键词提取模块提取当前输入信息的关键词，步骤如下：对于用户当前输入信息，使用预训练语言模型进行词性筛选，得到第一候选关键词组[关键词1，关键词2……，关键词m]，m≥1；对第一候选关键词组进行去除重复和停用的词语等数据预处理操作，得到第二候选关键词组[关键词1，关键词2……，关键词n]，n≥1。将第二候选关键词组[关键词1，关键词2……，关键词n]，n≥1中的每一个关键词构造成如下格式：请判断以下描述是否正确：“关键词1”为“用户本次输入信息”的关键词。构造n个相同句式。将该n个相同句式放入第二预训练模型中，对输入使用嵌入层(input embedding)，获取输入对应token的词嵌入(word embedding)表示，该word embedding表示再叠加位置编码(或称位置嵌入，positional embedding)表示，获得输入的组合嵌入式表达。后续输入76个transformer层，transformer层内部由多头注意力机制(multihead attention)、叠加归一层(add&norm)、前馈神经网络层(feed forward)组成。最后使用linear层，完成特征空间维度的压缩，再使用逻辑层(logistics)获取每个第二关键词语句的概率，将概率最大的上述第二候选关键词语句对应的上述第二候选关键词确定为上述当前输入信息对应的上述关键词；

步骤S3：记录用户与上述智能对话***的多个历史对话信息，将多个历史对话信息生成至历史对话信息库；

步骤S4：将历史对话信息库中的每次当前输入信息视作一个文档，使用词频-逆文档频率(Term Frequency-Inverse Document Frequency，TF-IDF)算法计算每个关键词对该条文档的重要程度；对每次当前输入信息的关键词对应的TF-IDF值按降序排列，取排在最前面的预定数量个词，在一些可选的实施方式中，预定数量可以为p＝5，使用前5个关键词作为文档的话题，并作为文档的标签；

步骤S5：使用了分布式的开源搜索引擎Elastic Search(简称ES)在目标领域知识数据库中查询上述关键词和上述话题对应的知识，得到目标领域知识，管理员和客服人员可以对目标领域知识库进行访问等操作；

步骤S6：将提示语句、上述当前输入信息、上述话题和上述目标领域知识作为提示词信息输入第一预训练语言模型，提示词信息如图4所示：提示语句表示智能对话***开始回复的第一句信息，作为智能对话***的导语。例如“小源是一个非常热情、富有耐心的客服，同时具有优秀的专业领域知识储备，能够从倾听客户的诉请，用心服务好每一个客户。在遇到客户前，她查阅了如下相关知识：”，行业相关领域信息(目标领域知识)“AS5300G5&AS5500G5&AS5600G5&AS5800G5&HF5000G5&HF6000G5最大16个控制器。AS6800G5&HF8000G5最大32个控制器。AS18000G5-I&HF18000G5-I最大48个控制器。集群***通过FC交换机连接拓扑图，以四个控制器为例，本系列存储支持多控制器集群，每个集群最大支持控制器数为48个”，用户相关历史对话信息(历史对话信息)“用户：我的集群能支持多少控制器？小源：您好！我是您的智能客服小源，请问您的集群型号是什么？”用户本次输入信息(当前输入信息)为“用户：应该是AS5500G5。”，将上述提示词信息输入第一预训练语言模型；

步骤S7：第一预训练语言模型如图5所示，对提示词信息使用嵌入层，获取提示词信息对应token(计算机术语：标记)的词嵌入表示，该词嵌入表示与位置编码(或称位置嵌入，positional embedding)表示组合，获得提示词信息的组合嵌入式表达，然后输入76个transformer层，transformer层内部由多头注意力机制、叠加归一层、前馈神经网络层组成，最后使用线性层，完成特征空间维度的压缩，再使用逻辑层获取每个输出语句的可能性，每个输出语句(y₁,y₂,…，y_n)的概率为n表示所述提示词信息的个数，x_i表示第i个所述提示词信息，yi表示第i个所述输出语句，将概率最大的上述输出语句作为回复信息。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例上述的方法。

在本实施例中还提供了一种智能对话***的控制装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是根据本申请实施例的智能对话***的控制装置的结构框图，如图6所示，该装置包括：

提取模块22，用于获取用户的当前输入信息，并提取上述当前输入信息的关键词；

具体地，本申请的智能对话***为聊天型对话***，也可以应用于聊天机器人、对话机器人、***机器人、心理咨询机器人、沟通机器人、问答机器人、智能助理等。当前输入信息至智能对话***时，智能对话***获取用户的当前输入信息，即本次的输入信息，提取当前输入信息中的关键词，用户的当前输入信息一般为一句话或者几句话，每句话一般包含多个词语，因此，提取当前输入信息的关键词即从多个词语中提取出主要的词语，关键词一般为名词，关键词的提取装置将在下文进行展开说明。

确定模块24，用于根据上述关键词和历史对话信息库确定上述当前输入信息对应的话题，其中，上述历史对话信息库包含上述用户与智能对话***的历史对话信息；

具体地，假设用户在输入当前信息之前，已经跟上述智能对话***进行过多次对话，那么用户与智能对话***的多次对话信息就构成了历史对话信息库，即历史对话信息库包含上述用户与智能对话***的历史对话信息。在上述装置提取得到用户当前输入信息的关键词之后，根据历史对话信息库和关键词确定本次会话的话题。历史对话信息例如：用户：我的集群能支持多少控制器？小源：您好！我是您的智能客服小源，请问您的集群型号是什么？

查询模块26，用于在目标领域知识数据库中查询上述关键词和上述话题对应的知识，得到目标领域知识，其中，上述目标领域知识数据库包括目标领域的理论知识；

控制模块28，用于将提示语句、上述当前输入信息、上述话题和上述目标领域知识作为提示词信息，使用第一预训练语言模型对上述提示词信息进行分析，确定回复信息，并控制上述智能对话***输出上述回复信息，其中，上述提示语句为预先设定的作为上述回复信息的导语的语句，上述第一预训练语言模型为使用多组第一数据通过机器学习训练出的，上述多组第一数据中的每组第一数据均包括：提示词信息和回复信息的标签。

本申请的预训练语言模型可以为任意合理有效的预训练大模型，例如人工智能巨量语言模型，具有较多参数和较高的自然语言理解和自然语言生成能力。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

通过上述装置，首先获取用户的当前输入信息，提取当前输入信息的关键词，并根据关键词和历史对话信息库确定话题，根据关键词和话题在行业领域知识库中查询得到目标领域知识，将包括提示语句、当前输入信息、话题和目标领域知识的提示词信息输入第一预训练语言模型，第一预训练语言模型对提示词信息进行分析之后得到回复信息。与现有技术中，智能对话***的理解能力不强且不能够回溯历史对话信息，得到令用户满意的回复信息的装置相比，本申请的智能对话***能够使用第一预训练语言模型，根据历史对话信息和目标领域知识对用户的当前输入信息进行分析，并输出准确的回复信息，解决了智能聊天对话***的理解能力不够的问题，提高了回复信息的准确性。

具体实现过程中，控制模块包括获取子模块、输入子模块、压缩子模块、处理子模块和执行子模块，其中，获取子模块用于使用上述嵌入层获取上述提示词信息对应的词嵌入和位置编码；输入子模块用于将上述提示词信息对应的上述词嵌入与上述位置编码输入转换层，得到上述词嵌入和上述位置编码对应的特征空间，其中，上述转换层包括多头注意力机制层、归一层和前馈神经网络层；压缩子模块用于使用上述线性层对上述特征空间进行压缩，得到压缩后的上述特征空间；处理子模块用于使用上述逻辑层对压缩后的上述特征空间进行处理，得到多个输出语句的概率，其中，每个上述输出语句(y1,y₂,…，y_n)的概率为执行子模块用于将概率最大的上述输出语句作为上述回复信息。该装置通过第一预训练语言模型对提示词信息进行了分析，这样可以根据提示词信息中的当前输入信息、话题和目标领域知识以及提示语句充分分析用户的需求，得到回复信息。

具体地，对提示词信息使用嵌入层(input embedding)，获取提示词信息对应token(计算机术语：标记)的词嵌入(word embedding)表示，该word embedding表示与位置编码(或称位置嵌入，positional embedding)表示组合，获得提示词信息的组合嵌入式表达，然后输入76个transformer层，transformer层内部由多头注意力机制(multiheadattention)、叠加归一层(add&norm)、前馈神经网络层(feed forward)组成。最后使用linear层(线性层)，完成特征空间维度的压缩，再使用逻辑层(logistics)获取每个输出语句的可能性，每个输出语句(y₁,y₂,…，y_n)的概率为将概率最大的上述输出语句作为上述回复信息。

为了提取用户的当前输入信息中的关键词，具体实现过程中，提取模块包括生成子模块、删除子模块和第一确定子模块，其中，生成子模块用于对上述当前输入信息中包含的所有词语进行词性筛选，得到多个预定词性的词语，将多个上述预定词性的词语生成至第一候选关键词组，其中，上述预定词性为预先设定的词性；删除子模块用于删除上述第一候选关键词组中重复的第一候选关键词，得到第二候选关键词组；第一确定子模块用于根据上述第二候选关键词组确定上述当前输入信息对应的上述关键词。

具体地，关键词提取使用预训练语言模型的语言理解能力，直接提取关键词，主要装置如下：对于用户当前输入信息，使用预训练语言模型进行词性筛选，得到第一候选关键词组[关键词1，关键词2……，关键词m]，m≥1；对第一候选关键词组进行去除重复和停用的词语等数据预处理操作，得到第二候选关键词组[关键词1，关键词2……，关键词n]，n≥1。之后根据第二候选关键词组确定最终的关键词。

具体实现过程中，第一确定子模块包括构造子模块和第二确定子模块，其中，构造子模块用于将上述第二候选关键词组中的每个第二候选关键词构造为预定句式的关键词语句，得到多个第二候选关键词语句；第二确定子模块用于使用第二预训练语言模型对上述第二候选关键词语句进行分析，得到每个上述第二候选关键词语句的概率，将概率最大的上述第二候选关键词语句对应的上述第二候选关键词确定为上述当前输入信息对应的上述关键词，其中，上述第二预训练语言模型为使用多组第二数据通过机器学习训练出的，上述多组第二数据中的每组第二数据均包括：历史关键词语句和历史关键词。该装置通过构造第二候选关键词语句，并将第二候选关键词语句输入至第二预训练语言模型进行分析，这样可以得到较为准确的关键词。

为了能够使智能对话***能够精准分析用户的问题，输出更准确的回复信息，具体实现过程中，第一确定模块还包括生成子模块，用于记录上述用户与上述智能对话***的多个上述历史对话信息，将多个上述历史对话信息生成至历史对话信息库。

具体实现过程中，第一确定模块还包括计算子模块和第三确定子模块，其中，计算子模块用于利用词频-逆文档频率算法计算每个上述关键词对上述历史对话信息库中的多个上述历史对话信息的重要程度，得到每个上述关键词对应的频率值；第三确定子模块用于将上述频率值按照预定顺序进行排列，确定前预定数量个关键词为上述当前输入信息对应的上述话题。该装置通过关键词确定话题，这样可以更加精确的定位用户的问题，并根据话题对用户的提问进行针对性地回复。

具体地，话题定位用于定位用户与智能对话***的多轮交互中的主要话题，在上述装置中提取得到用户当前输入信息的关键词之后，将历史对话信息库中的每次当前输入信息视作一个文档，使用词频-逆文档频率(Term Frequency-Inverse DocumentFrequency，TF-IDF)算法计算每个关键词对该条文档的重要程度；对每次当前输入信息的关键词对应的TF-IDF值按降序排列，取排在最前面的预定数量个词，在一些可选的实施方式中，预定数量可以为p＝5，使用前5个关键词作为文档的话题，并作为文档的标签。

为了使智能对话***能够“追溯”历史对话的内容，以根据关键词和历史对话信息确定话题，具体实现过程中，上述装置还包括存储模块，用于将上述当前输入信息和上述回复信息存储至上述历史对话信息库。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一种方法实施例中的步骤。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本申请的实施例还提供了一种电子设备，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一种方法实施例中的步骤。

在一个示例性实施例中，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种智能对话***的控制方法，其特征在于，包括：

获取用户的当前输入信息，并提取所述当前输入信息的关键词；

根据所述关键词和历史对话信息库确定所述当前输入信息对应的话题，其中，所述历史对话信息库包含所述用户与智能对话***的历史对话信息；

在目标领域知识数据库中查询所述关键词和所述话题对应的知识，得到目标领域知识，其中，所述目标领域知识数据库包括目标领域的理论知识；

将提示词信息输入第一预训练语言模型，使用所述第一预训练语言模型对所述提示词信息进行分析，确定回复信息，并控制所述智能对话***输出所述回复信息，其中，所述提示词信息包括提示语句、所述当前输入信息、所述话题和所述目标领域知识，所述提示语句为预先设定的作为所述回复信息的导语的语句，所述第一预训练语言模型为使用多组第一数据通过机器学习训练出的，所述多组第一数据中的每组第一数据均包括：历史提示词信息和历史回复信息。

2.根据权利要求1所述的方法，其特征在于，所述第一预训练语言模型包括嵌入层、转换层、线性层和逻辑层，使用第一预训练语言模型对所述提示词信息进行分析，确定回复信息，包括：

使用所述嵌入层获取所述提示词信息对应的词嵌入和位置编码；

将所述提示词信息对应的所述词嵌入与所述位置编码输入转换层，得到所述词嵌入和所述位置编码对应的特征空间，其中，所述转换层包括多头注意力机制层、归一层和前馈神经网络层；

使用所述线性层对所述特征空间进行压缩，得到压缩后的所述特征空间；

使用所述逻辑层对压缩后的所述特征空间进行处理，得到多个输出语句的概率，其中，每个所述输出语句(y1,y₂,…，y_n)的概率为n表示所述提示词信息的个数，x_i表示第i个所述提示词信息，y_i表示第i个所述输出语句；

将概率最大的所述输出语句作为所述回复信息。

3.根据权利要求1所述的方法，其特征在于，提取所述当前输入信息的关键词，包括：

对所述当前输入信息中包含的所有词语进行词性筛选，得到多个预定词性的词语，将多个所述预定词性的词语生成至第一候选关键词组，其中，所述预定词性为预先设定的词性；

删除所述第一候选关键词组中重复的第一候选关键词，得到第二候选关键词组；

根据所述第二候选关键词组确定所述当前输入信息对应的所述关键词。

4.根据权利要求3所述的方法，其特征在于，根据所述第二候选关键词组确定所述当前输入信息对应的所述关键词，包括：

将所述第二候选关键词组中的每个第二候选关键词构造为预定句式的关键词语句，得到多个第二候选关键词语句；

使用第二预训练语言模型对所述第二候选关键词语句进行分析，得到每个所述第二候选关键词语句的概率，将概率最大的所述第二候选关键词语句对应的所述第二候选关键词确定为所述当前输入信息对应的所述关键词，其中，所述第二预训练语言模型为使用多组第二数据通过机器学习训练出的，所述多组第二数据中的每组第二数据均包括：历史关键词语句和历史关键词。

5.根据权利要求1所述的方法，其特征在于，在根据所述关键词和历史对话信息库确定所述当前输入信息对应的话题之前，还包括：

记录所述用户与所述智能对话***的多个所述历史对话信息，将多个所述历史对话信息生成至历史对话信息库。

6.根据权利要求5所述的方法，其特征在于，根据所述关键词和历史对话信息库确定所述当前输入信息对应的话题，包括：

利用词频-逆文档频率算法计算每个所述关键词对所述历史对话信息库中的多个所述历史对话信息的重要程度，得到每个所述关键词对应的频率值；

将所述频率值按照预定顺序进行排列，确定前预定数量个关键词为所述当前输入信息对应的所述话题。

7.根据权利要求1所述的方法，其特征在于，在控制所述智能对话***输出所述回复信息之后，还包括：

将所述当前输入信息和所述回复信息存储至所述历史对话信息库。

8.一种智能对话***的控制装置，其特征在于，包括：

提取模块，用于获取用户的当前输入信息，并提取所述当前输入信息的关键词；

确定模块，用于根据所述关键词和历史对话信息库确定所述当前输入信息对应的话题，其中，所述历史对话信息库包含所述用户与智能对话***的历史对话信息；

查询模块，用于在目标领域知识数据库中查询所述关键词和所述话题对应的知识，得到目标领域知识，其中，所述目标领域知识数据库包括目标领域的理论知识；

控制模块，用于将提示语句、所述当前输入信息、所述话题和所述目标领域知识作为提示词信息，使用第一预训练语言模型对所述提示词信息进行分析，确定回复信息，并控制所述智能对话***输出所述回复信息，其中，所述提示语句为预先设定的作为所述回复信息的导语的语句，所述第一预训练语言模型为使用多组第一数据通过机器学习训练出的，所述多组第一数据中的每组第一数据均包括：提示词信息和回复信息的标签。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述权利要求1至7任一项中所述的方法的步骤。

10.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现所述权利要求1至7任一项中所述的方法的步骤。