CN117271745A

CN117271745A - 一种信息处理方法、装置及计算设备、存储介质

Info

Publication number: CN117271745A
Application number: CN202311380546.XA
Authority: CN
Inventors: 陈春全
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2023-12-22

Abstract

本申请提供了一种信息处理方法、装置及计算设备、存储介质，涉及人工智能中关于自然语言处理的相关技术，可实现聊天对话的功能。所述方法包括获取交互内容信息和角色属性信息；获取文本特征向量及角色特征向量，基于所述文本特征向量和所述角色特征向量，预测得到权重系数，所述权重系数用于表征需要得到的所述交互内容信息对应的对话内容信息、与所述角色属性信息的关联程度；按照预测得到的权重系数，对所述文本特征向量及所述角色特征向量进行对话预测处理，得到所述交互内容信息对应的对话内容信息。本申请能够灵活地生成个性化的聊天对话内容。

Description

一种信息处理方法、装置及计算设备、存储介质

技术领域

本申请涉及计算机应用技术领域，尤其涉及一种信息处理方法、装置及计算设备、存储介质。

背景技术

聊天机器人作为一种人机交互的工具，在许多领域中已经得到广泛应用，聊天机器人是一种能够模拟一个或者多个对话的程序或***。它使用自然语言处理和人工智能技术，能够理解用户的输入并产生相应的回应。聊天机器人可以用于各种场景，常见的如客户服务、各类设备上的虚拟助手等。随着人工智能技术的不断发展，聊天机器人的功能和性能也将不断提升。

聊天机器人的核心技术包括自然语言处理、文本生成、对话管理等，通过训练优化的对话模型来实现聊天对话功能。由于对话模型在训练时，一般采用的训练数据是角色稀疏的，即训练数据中大部分对话是与角色个性无关的，因此，在通过对话模型实现聊天对话的过程中，大多采用的是平铺直叙的方式完成文本或者语言的回复，不够灵活。

发明内容

本申请实施例提供一种信息处理方法、装置及计算设备、存储介质，可结合交互内容和角色属性来灵活地实现对话交互。

一方面，本申请实施例提供了一种信息处理方法，包括：

获取交互内容信息和角色属性信息；

获取文本特征向量及角色特征向量，文本特征向量是对交互内容信息进行编码处理得到的，角色特征向量是对交互内容信息关联的角色属性信息进行编码处理得到的；

基于文本特征向量和角色特征向量，预测得到权重系数，权重系数用于表征需要得到的交互内容信息对应的对话内容信息、与角色属性信息的关联程度；

按照预测得到的权重系数，对文本特征向量及角色特征向量进行对话预测处理，得到交互内容信息对应的对话内容信息。

另一方面，本申请实施例还提供了一种信息处理装置，包括：

接口单元，用于进行信息交互；

处理单元，用于获取交互内容信息和角色属性信息；获取文本特征向量及角色特征向量，文本特征向量是对交互内容信息进行编码处理得到的，角色特征向量是对交互内容信息关联的角色属性信息进行编码处理得到的；基于文本特征向量和角色特征向量，预测得到权重系数，权重系数用于表征需要得到的交互内容信息对应的对话内容信息、与角色属性信息的关联程度；按照预测得到的权重系数，对文本特征向量及角色特征向量进行对话预测处理，得到交互内容信息对应的对话内容信息。

相应地，本申请实施例还提供了一种计算设备，包括交互接口、存储装置以及处理器；交互接口用于进行信息交互；存储装置中存储有计算机程序，处理器执行存储装置中存储的计算机程序，实现本申请相应的信息处理方法。

相应地，本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令被处理器执行时，使得具有处理器的计算设备实现本申请相应的信息处理方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机指令，该计算机程序或计算机指令被处理器执行时，实现上述提及的信息处理方法。

本申请实施例在生成聊天对话信息的过程中，会结合交互内容信息和角色属性信息，以及一个用于表征需要得到的交互内容信息对应的对话内容信息、与角色属性信息的关联程度的权重系数，来生成交互内容信息对应的对话内容信息，可以灵活地生成不同程度的、且与角色属性等个性化因素相关的对话内容。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例的一种信息处理***架构示意图；

图2是本申请实施例的一种交互会话页面的页面示意图；

图3是本申请实施例的一种信息处理方法的流程示意图；

图4是本申请实施例的一种得到对话模型的方法的流程示意图；

图5是本申请实施例的一种模型结构示意图；

图6是本申请实施例的一种确定个性化对话训练数据的方法流程示意图；

图7是本申请实施例的另一种模型结构示意图；

图8是本申请实施例的一种信息处理装置的结构示意图；

图9是本申请实施例的一种计算设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的聊天方案可以加入针对诸如角色属性等个性化信息的感知来实现对话。聊天对话的信息输入阶段，不仅会获取对象输入的内容，例如输入的语音、文字等交互内容信息，还会获取发起该交互内容信息的账号所关联的体现角色个性的角色属性信息，例如，对象的兴趣爱好等个性化的信息。然后通过一个预测的权重系数，来确定角色属性信息对后续需要生成的针对交互内容信息的回复信息的影响程度，综合权重系数、交互内容信息、角色属性信息来生成回复信息，实现不同程度的个性化对话。

在一个可能的实现方式中，针对交互内容信息、角色属性信息作为输入以便最后生成回复信息的过程，可以通过一个对话模型来实现。在对话模型的训练过程中，首先可以使用大量开放领域对话数据(第一对话语料)预训练一个通用对话模型或者称之为中间模型，以学会基本的对话生成能力和语言结构。然后在角色稀疏的个性化对话数据(第二对话语料)上进行微调，来构建个性化对话模型即最终的对话模型，在充分利用通用对话模型连贯的对话生成能力同时，学习到角色个性相关的特点和知识。并且，在对话模型中，还布局了一种注意力路由机制，在解码器中根据对话历史的相关特征，判断是否应该生成角色个性相关的回复，从而动态地权衡和控制角色个性化信息的表达程度。这种动态的注意力路由机制允许我们在训练过程中充分地利用角色稀疏的对话数据，在解码生成回复的过程中控制表达角色个性化信息的程度。

本申请涉及人工智能，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互***、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请与自然语言处理(Nature Language processing，NLP)相关，NPL是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言，即对象日常使用的语言，与语言学研究密切；同时涉及计算机科学和数学。人工智能领域模型训练的重要技术，预训练模型，即是从NLP领域的大语言模型(Large Language Model)发展而来。经过微调，大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

对于对话模型而言，训练过程的机器学习(Machine Learning，ML)非常重要，ML是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

本申请的方案思路，是基于预训练和微调的方法来生成所需的对话模型，首先使用大量通用对话数据预训练一个通用对话模型，然后在角色稀疏的个性化对话数据上进行微调。这种方法结合了预训练模型的通用语言表示能力和角色个性化的特点。在本申请的另一实现方式中，为了实现个性化的对话内容信息，也可以通过混合模型的方式来实现，即设计两个模型，一个模型为通用对话模型，负责处理与角色个性无关的对话；另一个模型为角色个性化对话模型，用于处理与角色个性相关的对话。根据输入对话的内容，判断输入对话是否与角色个性相关，选择合适的模型生成回答。在本申请的又一实现方式中，还可以基于条件生成模型的方法来得到可以生成个性化的回复用的对话内容信息，即设计一个条件生成模型，在模型输入中添加角色描述信息，引导模型生成与角色个性相关的回答。例如在transformer模型的输入中，加入角色描述标签，使模型在生成回答时考虑角色特点。

本申请的方案有着广泛的应用场景，可以用在聊天机器人、电子游戏角色等对话场景下。可以为聊天机器人赋予特定角色和个性化信息，使其在与对象互动时表现出独特的个性特点，这可以提高对象的参与度和满意度，增强对象聊天体验。在电子游戏中，为游戏角色设计个性化的对话模型，使其在与玩家互动时表现出独特的个性，使游戏角色在与玩家互动时更具真实感，这可以增强游戏的沉浸感和趣味性。

请参见图1，是本申请实施例的一种信息处理***架构图，信息处理***包括服务器101和计算设备102，基于该信息处理***，一方面，对象可以通过在计算设备102安装的客户端来体验聊天功能，其中，这些计算设备102可以是各种智能设备，例如可以是智能手机、平板电脑、个人电脑、智能可穿戴设备、车载设备等，还可以是智能电视等家电设备，另外计算设备102也可以是具有相应功能的服务器。另一方面，计算设备102可以与服务器101连接，用来接收服务器101提供的服务，这些服务包括但不限于服务器对计算设备的聊天功能的相关支撑服务，对用于生成回复信息的对话模型进行部署、更新、优化等服务。服务器101可以是单个服务器，也可以是多个服务器构成的服务器组，还可以是基于云技术的相关服务器，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术(Cloudtechnology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台***进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的***后盾支撑，只能通过云计算来实现。

对象可以在计算设备的客户端提供的页面上发起聊天会话，该页面可以是一个网页页面，也可以是一个专用的聊天用户界面UI，有聊天需求的对象在登录了账号之后，可以在诸如图2所示的页面上输入聊天数据，该输入的聊天数据可以是文本字符，也可以是语音等数据。这些数据会统一转换成相应格式的交互内容信息，以便于从交互内容信息出发，结合为聊天机器人本身设置的角色属性信息或者与发起聊天数据的对象的账号关联的角色属性信息，生成回复内容。在图2中，在聊天机器人账号图标201对应的位置处显示聊天机器人回复的内容，即得到的对话内容信息，对象账号图标202则显示发起交互内容信息的对象已发出的相关内容。在一个可能的实现方式中，聊天机器人可以通过对话模型来生成回复内容，得到对话内容信息并显示在如图2所示的聊天机器人账号图标201对应的位置处。对于为聊天机器人配置的对话模型而言，作为原始输入的交互内容信息并不限定为只有一句话，其可以包括对象已经和聊天机器人交互的多条信息，即向对话模型输入的是包括多条信息的对话历史，具体可以包括对象发出的一条或者多条信息、以及聊天机器人产生的一条或者多条信息。聊天机器人的对话模型的生成、训练优化过程，可参考下述实施例的描述，具体可以参考图4、图5、图6、图7及这些附图所对应实施例的文字说明。

请参见图3，是本申请实施例的一种信息处理方法的流程示意图，本申请实施例的方法可以由上述提及的计算设备来执行，在一些可能的实现方式中，也可以由服务器来实现，而计算设备则负责收集和展示相应数据，在另外一些可能的实现方式中，也可以由计算设备和服务器协同执行。本申请实施例的方法包括如下步骤。

S301：获取交互内容信息和角色属性信息。交互内容信息可以是通过交互会话页面获取到的信息来得到的，可以直接将在交互会话页面上获取到的信息作为交互内容信息，具体可以将获取到的文本字符、基于音频数据转换得到的文本字符、对图像进行识别得到的文本字符中的任意一个或者多个，得到交互内容信息。需要说明的是，本申请各实施例中提及的“多个”，是指两个及两个以上。

在一个可能的实现方式中，可以先通过交互会话页面获取聊天信息，聊天信息包括：通过交互会话页面获取到的由对象输入的字符、对通过交互会话页面接收的音频数据进行转换得到的字符、对通过交互会话页面接收的图像数据进行识别得到的字符中的一个或多个；然后根据聊天信息得到交互内容信息，比如一些简单删除无意义词的处理，进行语句组合等处理。该交互内容信息可以是根据对最近获取到的聊天信息进行处理后得到的文本字符得到的，也可以是根据对最近获取到的多条聊天信息进行处理得到的文本字符得到的。

举例来说，对象张三与聊天机器人在交互会话页面上的聊天过程如下：

张三：本科会因为毕业论文答辩不过而延毕吗？

聊天机器人：这个看学校吧，有些学校会。

张三：这么严重啊。

聊天机器人：我也不太清楚，我们学校的学生好像不会。

张三：那确定一下A大学的延毕情况。

在S301中获取到的交互会话信息可以是根据最近获取到的聊天信息“那确定一下A大学的延毕情况”得到的，后续聊天机器人需要针对该最后一条聊天信息生成回复信息。在S301中获取到的交互会话信息也可以是最近获取到的多条聊天信息，通过相应的标识符连接起来得到交互会话信息，例如：“[bos]本科会因为毕业论文答辩不过而延毕吗？[sep]这个看学校吧，有些学校会。[sep]这么严重啊？[eos]”为一条交互会话信息，其中的[bos]、[sep]、[sep]为特殊的标识符，定义的这些特殊的标识符用来表明交互会话信息的开始、连接断句、结束等意义。

角色属性信息则可以是根据为聊天机器人自身设置的个性相关的信息得到，例如为问答类聊天机器人设置女性、爱好球类运动等个性相关的信息，由例如为游戏角色设置关于男性、爱好旅游等个性相关的信息。

角色属性信息也可以基于发起聊天的对象的账号来确定，主要包括：该对象的兴趣爱好，包括性别、年龄等等基本信息以及其他一些能够表现个性的信息。这些信息可以是对象手动填写的，也可以是在该对象聊天过程中根据对象的对话信息进行归纳统计得到的。

也就是说，在本申请实施例中，聊天机器人可以有自己的个性，基于自身的个性来生成对话内容信息完成与对象的聊天，也可以仅参考对象的个性来生成对话内容信息来迎合交流对象，完成与对象的聊天。对象在聊天过程中可以通过交互会话页面来设置所要获取的角色属性信息的来源，以使得聊天机器人以不同的角色个性来进行聊天会话。

需要特别说明的是，在本申请中，涉及到的信息处理过程中的相关数据，例如：各种聊天数据，角色属性信息相关的兴趣爱好、对象的身份数据(如性别、年龄、昵称、地域、脸部信息)等等，在本申请所有实施例运用到具体产品或技术中时，这些数据的获取都需获得对象许可或同意，且相关数据收集、使用和处理过程需遵守相关法律法规和标准，符合合法、正当、必要的原则，不涉及获取法律法规禁止或限制的数据类型。在一些可选的实施例中，本申请实施例中所涉及的相关数据是经过对象单独授权后获取的，例如通过弹窗等方式向对象发起关于所要获取的数据的具体内容、用途等提示，并等待对象确认，在确认之后才会认为获得了单独的授权。

可以根据发起交互内容信息的账号，在对象允许的情况下，获取与发起交互内容信息的账号关联的角色属性信息，角色属性信息是根据对通过账号提交的用于进行角色属性分析的历史交互数据、账号注册数据、交互行为数据、社交关系数据中的一种或多种进行分析处理得到的。当然，角色属性信息也可以是预先设置的信息，例如为聊天机器人设置的角色属性信息。

S302：获取文本特征向量及角色特征向量，文本特征向量是对交互内容信息进行编码处理得到的，角色特征向量是对交互内容信息关联的角色属性信息进行编码处理得到的。在本申请实施例中，是通过一个对话模型来生成作为回复信息的对话内容信息。对话模型为基于编码器-解码器的结构。通过编码器对交互内容信息进行编码处理得到文本特征向量，通过编码器对交互内容信息关联的角色属性信息进行编码处理得到角色特征向量。

S303：基于文本特征向量和角色特征向量，预测得到权重系数，权重系数用于表征需要得到的交互内容信息对应的对话内容信息、与角色属性信息的关联程度。权重系数可以是上述提及的对话模型中包括的权重预测器预测得到的，权重预测器可以将文本特征向量和角色特征向量作为输入，预测对话是否与角色个性信息相关，权重系数越大表示角色特征向量在解码过程中起的作用越大，表达角色个性化信息的程度越大，最后生成的是角色个性相关的回复；相反地，权重系数越小表示角色属性向量在解码过程中起的作用越小，最终生成的回复信息可以为一个不带个性特征、不带感情色彩的对话内容信息。

S304：按照预测得到的权重系数，对文本特征向量及角色特征向量进行对话预测处理，得到交互内容信息对应的对话内容信息。也即对话模型以权重系数、文本特征向量及角色特征向量为输入，输出相应的对话内容信息。

另外，在一些可能的实现方式中，对于聊天应用的客户端而言，可以根据实际需要来选择不同的交互信息处理方式。在S301之前，还可以包括：检测发起交互内容信息的账号的交互场景类型；若检测到交互场景类型为第一类型，则获取交互内容信息，并根据交互内容信息生成对话反馈信息；若检测到交互场景类型为第二类型，则触发执行获取交互内容信息和角色属性信息。也就是说，对象在聊天过程中，可以根据需要来选择生成回复信息的方式，可以选择是采用本申请上述S301到S304的方式生成作为聊天回复信息的对话内容信息，还是采用常见的方式来生成对话内容信息。可以在交互会话页面上设置选择控件，如果对象通过控件选择的交互场景类型为第一类型，则仅仅根据交互内容信息生成对话反馈信息，可以采用常规的处理方式来完成聊天反馈。如果对象通过控件选择的交互场景类型为第二类型，则执行本申请实施例的上述S301到S304的步骤。

在一个可能的实现方式中，对于角色属性信息的获取可以通过识别交互会话页面上设置的上报标记是否为开启状态来确定，该上报标记也可以作为选择控件来确定交互场景的类型。如果对象开启了上报标记，上报标记为开启状态，则表明对象允许上报其角色属性信息，此时的交互场景类型为第二类型，可以获取对象的角色属性信息。如果对象没有开启上报标记，上报标记为关闭状态，则表明对象不允许上报其角色属性信息，此时的交互场景类型为第二类型。另外，对象在聊天过程中，随时可以根据选择控件或者上报标记来在第一类型和第二类型之间进行切换，使得对象的整个聊天过程可以在个性化的对话信息回复和不具备个性化对话信息回复之间按需切换。

通过提及的关于交互场景类型的选择，为对象提供了更加灵活多变的聊天方式，并且，对象选择第一类型，不仅仅是因为不愿意上报角色属性信息，也可能是本轮聊天本来就是比较正式的聊天，例如在进行一些知识问答、或者在将聊天机器人作为知识检索工具进行知识检索，在这些场景下如果加入个性化的聊天回复信息则会比较不合时宜，此时的对象可以手动选择交互场景类型为第一类型或者关闭上报标记。

当然，计算设备也可以预先通过对已经输入的聊天信息进行分析来确定当前的交互场景类型，实现交互场景类型的自动化选择，而不必一定要通过选择控件或者上报标记来手动选择以检测确定当前的交互场景类型。

针对上述提及的对话模型，笼统来讲，交互内容信息所对应的对话内容信息是通过对话模型生成的，文本特征向量和角色特征向量是通过对话模型中的编码器生成的，编码器的输入包括：根据交互内容信息得到的输入向量、根据角色属性信息得到的输入向量；权重系数是通过对话模型中的权重预测器预测得到的，权重预测器的输入包括：文本特征向量和角色特征向量；对话内容信息是根据对话模型中的解码器的输出得到的，解码器的输入为权重系数、文本特征向量以及角色特征向量。以下再对本申请涉及的对话模型的生成过程进行描述。

请参见图4，是本申请实施例的得到对话模型的方法的流程示意图，得到对话模型的方法可以由服务器或者计算设备来实现。在本申请实施例中，首先使用大量通用对话数据预训练一个通用对话模型，即中间模型，然后在角色稀疏的个性化对话数据上进行微调，得到最终的对话模型，如此使得对话模型结合了预训练模型的通用语言表示能力和角色个性化的特点，本申请的对话模型采用编解码器的架构，具体可以采用transformer模型结构(一种用于自然语言处理NLP任务的深度学习模型结构)。方法包括如下步骤。

S401：获取第一对话语料，并根据各组第一对话语料生成第一对话训练数据集合。在S401中，可以以各类社交媒体平台作为数据源，使用网络爬虫等方式抓取大量开放领域的对话语料，这些语料并不强调角色个性化信息，可以不用体现诸如兴趣爱好等角色属性等内容。在一些可能的实现方式中，可以对收集到的原始对话语料数据进行预处理和数据清洗，以提高数据质量。预处理的步骤包括：去除链接、HTML(Hypertext Markup Language，超文本标记语言)标签、广告等无关信息；统一大小写；去除重复、无意义或低质量的对话等。过滤掉三个及三个以上对象之间的对话，只保留两个对象之间的对话作为训练数据。预处理的目的是使数据更加规范化，便于后续确定相应的训练数据。

在一个可能的实现方式中，第一对话训练数据集合中的第一对话训练数据包括：由从一组第一对话语料中获取的第一训练文本序列和第一监督文本序列构成的文本序列对。后续以第一对话语料中的第一目标对话语料为例对第一对话训练数据集合的获取进行说明。第一对话语料中的第一目标对话语料包括N轮对话对应的文本，N为大于或等于2的整数；根据各组第一对话语料生成第一对话训练数据集合，包括：将第一目标对话语料包括的N轮对话对应的文本中前N-1个文本通过拼接标记进行拼接得到第一拼接字符序列，在第一拼接字符序列的开头添加开始标记、在第一拼接字符序列的结尾添加结束标记，得到第一目标对话语料对应的第一输入文本序列，并对第一输入文本序列进行编码，得到第一训练文本序列；根据第一目标对话语料包括的N轮对话对应的文本中最后一个文本得到第一输出文本序列，并对第一输出文本序列进行编码，得到第一目标对话语料对应的第一监督文本序列。在一个可选的实现方式中，提及的进行编码包括词编码和位置编码。

举例来说，下面展示了说话人A和说话人B之间的多轮对话数据，可以认为是一组第一对话语料。该例中，包括N＝4轮对话，具有N＝4个文本。

①说话人A：本科会因为毕业论文答辩不过而延毕吗？

②说话人B：这个看学校吧，有些学校会。

③说话人A：这么严重啊。

④说话人B：我也不太清楚，我们学校的学生好像不会。

针对上述的一组第一对话语料，进一步预处理多轮对话数据，将对话数据转换为对话模型可以接受的形式。首先，在对话历史(即①②③三个文本)的开头添加一个特殊符号“bos”来表征句子的开始，并将对话历史的多轮对话(即①②③三个文本)用一个特殊符号“sep”拼接起来，在对话历史的结尾添加一个特殊符号“eos”来表征对话历史的结束，如此可得到第一输入文本序列。同样地，在回复(即④文本)的开头添加一个特殊符号“bos”来表征句子的开始，在回复的末尾添加一个特殊符号“eos”来表征回复的结束，如此可以得到第一输出文本序列。transformer模型的训练数据为一对包含对话历史和对应回复的句子对，如下所示，x1表示输入文本，对应于上述提及的第一输入文本序列，y1表示输出文本，对应于上述提及的第一输出文本序列。

x1＝[bos]本科会因为毕业论文答辩不过而延毕吗？[sep]这个看学校吧，有些学校会。[sep]这么严重啊？[eos]

y1＝[bos]我也不太清楚，我们学校的学生好像不会。[eos]

对于上的x1和y1，继续将对话文本进行分词、索引化处理后，作为对话模型的输入。为了让transformer模型学会词汇在句子中的位置信息，需要为输入数据添加位置编码。如下所示，根据x1得到的第一训练文本序列X1为编码器的输入，根据y1得到的第一监督文本序列Y1为解码器的输入，Y1'为解码器输出的目标序列。解码器的输入数据为输出文本除最后一个词“eos”外的前N-1个词，解码器对应的标签数据为输出文本除第一个词“bos”外的N-1个词。

在第一输入文本序列的基础上，进行词编码(图5中左侧的Word Embedding)和位置编码(图5中左侧的Position Embedding)即可得到第一训练文本序列，同样，对第一输出文本序列进行词编码(图5中右侧的Word Embedding)和位置编码(图5中右侧的PositionEmbedding)，即可得到第一监督文本序列，示意如下。

X1＝['bos','本科','会因为','毕业论文','答辩','不过','而','延','毕','吗','？','sep','这个','看','学校','吧',',','有些','学校','会','。','sep','这么','严重','啊','？'，'eos']

Y1＝['bos','我也','不太清楚',',','我们学校','的学生','好像','不会','。']

Y1'＝['我也','不太清楚',',','我们学校','的学生','好像','不会','。'，'eos']

在得到上述的第一训练文本序列X1、第一监督文本序列Y1之后，即可执行下述的S402，对初始模型进行训练。

S402：利用第一对话训练数据集合对初始模型进行训练，得到中间模型。预训练得到一个通用对话模型，后续在通用对话模型的基础上，进一步训练得到对话模型。

如上，对话模型采用的是transformer模型结构，transformer模型是一种基于自注意力机制的编码器-解码器结构。因此，初始模型也对应为基于自注意力机制的编码器-解码器结构，其中，编码器包括多个特征处理层，编码器的每个特征处理层包括多头自注意力机制子层和前馈神经网络子层，并且每个子层都接入一个残差连接和层归一化处理层；解码器包括多个特征处理层，解码器的每个特征处理层包括：多头自注意力机制子层、编码器-解码器注意力机制子层和前馈神经网络子层，并且每个子层都接入一个残差连接和层归一化处理层，其中，解码器中的多头自注意力机制子层通过掩码来进行位置屏蔽处理。

也就是说，编码器由多个相同的层堆叠而成，每层包含两个子层：多头自注意力机制(Multi-head Self-Attention)和前馈神经网络(Feed-Forward Neural Network)。此外，每个子层后面都跟随一个残差连接(Residual Connection)和层归一化(LayerNormalization)。多头自注意力机制计算输入序列中每个词汇与其他词汇之间的关联程度，从而捕捉句子中的长距离依赖关系。多头机制则允许模型同时关注不同位置的信息。前馈神经网络用于提取输入序列的局部特征，通常包含两个全连接层和一个激活函数。编码器负责将输入句子编码为连续的向量表示，捕捉输入文本中的语义和结构信息。

解码器同样由多个相同的层堆叠而成，每层包含三个子层：多头自注意力机制、编码器-解码器注意力机制(Encoder-Decoder Attention)和前馈神经网络。与编码器类似，每个子层后面都跟随一个残差连接和层归一化。解码器的多头自注意力机制与编码器中的自注意力机制类似，用于捕捉目标序列(即输出序列)中的长距离依赖关系。为防止解码器在生成第t个词汇时提前查看到后续词汇，需要使用掩码(Mask)来屏蔽后续位置的信息。编码器-解码器注意力机制计算解码器中每个词汇与编码器输入序列中词汇之间的关联程度，从而捕捉目标序列和输入序列之间的关联和对应关系。与编码器类似，前馈神经网络用于提取目标序列的局部特征。解码器负责根据编码器的输出和已生成的部分目标序列生成下一个词汇。transformer模型建模能力强，可扩展性好，可以很好地进行并行计算，在一个可能的实现方式中，初始模型的模型结构如图5所示。

需要注意的是，训练过程中的解码器的输入是Y1，解码器对应的输出是Y1'，二者之间是错开一位的。例如，输入y10对应输出y11，输入y11对应输出y12，以此类推。

训练对话模型时，可以采用交叉熵损失函数来衡量训练过程中的初始模型生成的目标序列Y1'与第一监督文本序列Y1之间的差异，通过最小化该损失函数来更新初始模型的模型参数，以得到通用对话模型即中间模型。在海量(十亿数量级规模)的开放领域对话语料上得到的包括大量的文本序列对的第一会话训练数据集合的基础上，通过第一会话训练数据集合预训练transformer模型结构的初始模型，即可得到通用对话模型也即上述提及的中间模型。得益于开放领域对话数据量庞大，预训练好的通用对话模型已经学会基本的对话生成能力和语言结构，具备较好的人机交互和对话能力，可以生成流畅的、符合上下文语境的回复。

S403：获取用于体现角色属性信息的第二对话语料，并根据各组第二对话语料生成第二对话训练数据集合。真实的对话数据是角色稀疏的，在日常的真实对话中，对话者在大多数情况下不会展示他们的个性，只有少部分的对话是与个性相关的。在真实对话中，大部分对话确实与角色个性无关，这是因为对象在日常交流中，往往更关注对话的主题和内容，而不是对话参与者的个性和特点。例如，两个人在商店里讨论购买商品的事情时，很多情况下他们的对话内容与他们的个性无关，而是关注商品的价格、品质、款式等。另一方面，与角色个性相关的对话也是存在的，通常涉及到人际关系、情感表达、个人观点等方面，具有更加深刻和个性化的特点。例如，在两个朋友之间的对话中，他们可能会讨论自己的兴趣爱好、人生理想、家庭背景等，这些内容与他们的个性和经历有关，具有更加丰富和个性化的特点。

在一个可能的实现方式中，如图6，是本申请实施例的一种确定个性化对话训练数据的方法流程示意图。可以通过抓取的方式来构建包含角色信息的个性化对话数据集。首先在S601确定数据来源，电影剧本和电视剧中通常包含丰富的角色描述信息和角色对话，小说和故事文本中通常也包含角色个性相关的信息和对话，社交媒体和在线论坛中的角色账户可能具有独特的个性和对话风格。因此可以将电影剧本和电视剧、小说和故事文本、社交媒体和在线论坛作为个性化对话训练数据的数据来源。S602在S601确定的数据来源中抓取或收集数据。可以通过爬虫或手动收集数据等方式，从上述数据来源中抓取对话数据和角色描述信息。在整理数据时，需要确保对话内容与角色描述信息是相互匹配的。对于抓取或收集的数据，在S603中会对数据进行预处理，包括文本清洗，去除无关信息，如HTML标签、广告等；统一大小写；去除重复的对话数据等。在S604中，进行数据格式化处理，并从格式化处理后的数据出发得到第二对话训练数据集。将预处理后的数据整理成适合模型训练的格式，通常包含输入和输出，输入包含了对话内容和角色描述信息，输出包含了与输入对话相对应的回复。最后在S605中通过人工标注或者关键词匹配的方法，判断回复是否与角色个性化信息有关。如果回复与角色个性相关，记为1；如果回复与角色个性无关，记为0。

总的来讲，第二对话训练数据集合中的第二对话训练数据包括：角色属性训练信息、从一组第二对话语料中获取的第二训练文本序列和第二监督文本序列、以及用于表示根据中间模型得到的预训练模型的输出是否与角色属性训练信息相关的角色相关标签。需要说明的是，该角色相关标签的值为上述在S605中进行人工标注或者关键词匹配确定的，具体为1或0。其中，关键词匹配是指预先设置多个被认为是能够体现角色个性的关键词，然后在获取到的第二对话语料中进行关键词匹配，如果第二对话语料中包含预先设置的关键词中的一个或者多个，则认为角色相关标签R＝1，否则角色相关标签R＝0。

在一个可能的实现方式中，针对第二对话语料中的第二目标对话语料，其包括M轮对话对应的文本，M为大于或等于2的整数；根据各组第二对话语料生成第二对话训练数据集合，包括：获取与第二目标对话语料所对应的账号关联的角色属性训练信息；角色属性训练信息可以通过对收集到的诸如兴趣爱好、性别等角色个性化信息进行编码后得到。将第二目标对话语料包括的M轮对话对应的文本中前M-1个文本通过拼接标记进行拼接得到第二拼接字符序列，在第二拼接字符序列的开头添加开始标记、在第二拼接字符序列的结尾添加结束标记，得到第二输入文本序列，并对第二输入文本序列进行编码得到第二训练文本序列；根据第二目标对话语料包括的M轮对话对应的文本中最后一个文本得到第二输出文本序列，并对第二输出文本序列进行编码，得到第二目标对话语料对应的第二督文本序列；设置用于表示根据中间模型得到的预训练模型的输出是否与角色属性训练信息相关的角色相关标签。

下面结合图6的内容进行举例说明，如下展示了一个包含角色信息的个性化对话数据样例。p表示回复者的角色个性化信息，可以用来得到角色属性训练信息P，x2表示对话历史也即第二输入文本序列，可以用来得到第二训练文本序列X2，y2表示对应的回复也即第二输出文本序列，可以用来得到第二监督文本序列Y2，R表示回复是否与角色个性化信息有关，即角色相关标签。

p＝[bos]我叫苏菲。[sep]我是个女孩。[sep]我是独生子。[sep]我喜欢爬山和徒步。[sep]我最喜欢的歌是稻香。[eos]。

x2＝[bos]你今天休息吗？[sep]今天闲着，没啥事。[sep]今天的天气很凉快！[eos]。

y2＝[bos]是啊，很适合出去徒步呢～[eos]。

R＝1，角色个性相关。

基于上述的p、x2、y2，同样在进行词编码(图7中的Word Embedding)和位置编码(图7中的Position Embedding)等编码处理之后，可以对应得到P、X2以及Y2，示意如下。

P＝[＇bos＇，＇我叫＇，＇苏菲＇，＇。＇，＇sep＇，＇我是个＇，＇女孩＇，＇。＇，＇sep＇，＇我是＇，＇独生子＇，＇。＇，＇sep＇，＇我喜欢＇，＇爬山＇，＇和＇，＇徒步＇，＇。＇，＇sep＇，＇我最喜欢的＇，＇歌＇，＇是＇，＇稻香＇，＇。＇，＇eos＇]。

X2＝[＇bos＇，＇你＇，＇今天＇，＇休息＇，＇吗＇，＇？＇，＇sep＇，＇今天＇，＇闲着＇，＇，＇，＇没啥事＇，＇。＇，＇sep＇，＇今天的＇，＇天气＇，＇很凉快＇，＇！＇，＇eos]。

Y2＝[＇bos＇，＇是啊＇，＇，＇，＇很适合＇，＇出去＇，＇徒步呢＇，＇～＇，＇eos]。

R＝1或0，角色相关标签用于表示是否与角色个性相关，可以理解为真实权重参数，或者权重系数的监督数据。

需要说明的是，角色属性训练信息表征的是确定的第二输入文本序列所对应的对象的相关个性信息，也即在训练时所使用的角色属性训练信息，是回复者的角色个性化信息，例如，P表征的是发起Y2的对象的个性化信息。

根据大量的第二目标对话语料对应的P、X2、Y2以及R，可以得到第二对话训练数据集合，在得到了第二对话训练数据集合，即可进行下一步的训练。

S404：利用第二对话训练数据集合对根据中间模型得到的预训练模型进行训练，得到对话模型。对于得到的中间模型，在本申请实施例中会进行调整，以便于学习到个性化的相关知识。在一个可能的实现方式中，在训练得到的中间模型中设置用于预测得到权重系数的权重预测器，并将训练得到的中间模型中编码器-解码器注意力机制子层调整为注意力路由机制子层，以此得到预训练模型，其中，注意力路由机制子层的输入包括权重预测器的输出，编码器的输出以及解码器的注意力路由机制子层的上一子层的输出。对中间模型进行调整得到的预训练模型的结构请参考图7。

在获取到的角色稀疏的对话数据得到的第二对话训练集合上，微调预训练好的通用对话模型所对应的预训练模型，以最终得到能够进行个性化感知的对话模型。第二对话训练集合的第二对话训练数据包括：角色属性训练信息P，具体是用几个句子描述角色的个性化信息；X2表示对话历史对应的第二训练文本序列；Y2表示对应的回复所对应的第二监督文本序列；R为角色相关标签表示回复是否与角色个性化信息有关。预训练模型的编码器用于将X2编码为训练文本特征向量E_X，将回复者的P编码为训练角色特征向量E_P。将E_X和E_P输入给解码器，解码器以自回归的方式来解码得到输出序列Y2'。

在一个可能的实现方式中，在得到预训练模型以及相关的第二对话训练数据之后，利用第二对话训练数据集合对根据中间模型得到的预训练模型进行训练，得到对话模型，包括：利用第二对话训练数据集合作为根据中间模型得到的预训练模型的输入，并利用第一损失函数和第二损失函数得到的损失计算结果来对预训练模型的模型参数进行修改，以训练得到对话模型；其中，第一损失函数用来确定预训练模型中的权重预测器的输出与角色相关标签之间的差异；第二损失函数用来确定第二监督文本序列、与由预训练模型的编码器输出的训练文本特征向量和训练角色特征向量进行自回归解码得到的序列之间的差异；训练文本特征向量是预训练模型的编码器对从一组第二对话语料中获取的第二训练文本序列进行处理后得到的，即上述的E_X，训练角色特征向量是预训练模型的编码器对角色属性训练信息进行处理得到的，即上述的E_P。

在一个可能的实现方式中，为了充分利用角色稀疏的个性化对话语料，由于在对初始模型进行训练时，更关注对话主题和内容的训练样例，解码过程中很少涉及或没有涉及到角色的个性化信息；所以在对预训练模型进行训练时，会建模角色相关的对话数据，使得解码过程中包含大量的角色个性化特征。本申请提出的方法设计了一种注意力路由机制，在解码器中根据由对话历史得来的E_X来判断是否应该生成角色个性相关的回复，来控制训练角色特征向量E_P在解码过程中起到的作用，从而动态地权衡和控制角色个性化信息的表达程度。

扩展原始的注意力机制，选取解码器上一层的输出E_y作为注意力机制的query，分别对E_X和E_P建模，每组注意力称为一条注意力路由，示意如下。

Ox＝MultiHead(E_y，E_X，E_X)

Op＝MultiHead(E_y，E_P，E_P)

如图7的示意，E_y为右侧解码器中第一个层归一化的输出。在Ox和Op的基础上，使用一个权重系数α∈[0,1]来合并Ox和Op，权重系数α越大表示角色向量表示在解码过程中起的作用越大，表达角色个性化信息的程度越大，生成角色个性相关的回复；相反地，权重系数α越小表示角色向量表示在解码过程中起的作用越小。

Omerge＝αOp+(1-α)Ox

这里的权重系数α的取值应该根据对话是否与角色个性信息相关来决定。本申请使用一个神经网络模块作为权重预测器，在训练过程中自动计算权重系数α。该神经网络模块可以建模为一个二元分类器P_θ(r|E_X,E_P)，以E_X和E_P作为输入，预测对话是否与角色个性信息相关，r＝1表示对话与角色信息相关；r＝0表示对话与角色信息无关。将该二元分类器预测的置信度作为权重参数α。

α＝P_θ(r＝1|E_X,E_P)

θ表示神经网络模块的可训练参数。R表示对话是否与角色个性化信息有关，为真实的权重参数。采用交叉熵损失函数来衡量二元分类器预测输出与真实权重参数之间的差距。下述L₁(θ)相关的表达式为用来确定预训练模型中的权重预测器的输出与角色相关标签之间的差异的第一损失函数，在该第一损失函数中，P_θ(r|E_X,E_P)代表了权重预测器或者说二元分类器的预测输出，R为真实权重参数。

L₁(θ)＝-R·log(P_θ(r|E_X,E_P))+(1-R)·log(1-P_θ(r|E_X,E_P))

另外，在微调过程中，根据E_X和E_P以自回归的方式来解码(或者说是预训练模型的输出)和第二监督文本序列Y2＝{y₀,y₁,y₂,...,y_n}来确定损失函数的结算结果，以便于对预训练模型进行微调。微调过程中，预测回复的损失函数为：

其中，表示对话模型的可训练模型参数，/>则表示的是预训练模型。上述/>相关的表达式为第二损失函数，i对应于第二监督文本序列中词的数量，以上述的Y2为例，Y2的词有n＝8个(bos_、是啊_、，_、很适合_、出去_、徒步呢_、～_、eos)，那么i是小于等于Y2中词的数量n＝8。

总的来讲，微调过程中的损失函数为：

其中，λ为平衡两个损失的超参数，该超参数可以指定，例如，λ可以取值0.5-2之间的数。在微调过程中，通过最小化该损失函数来更新预训练模型的模型参数，即更新上述的θ和从而最终得到所需的对话模型。

另外需要说明的是，在本申请的其他一些实施例中，第一对话训练数据集合所包括的第一对话训练数据也可以是进行上述提及的词编码和位置编码之前的数据，而词编码和位置编码的编码过程可以作为初始模型、或者预训练模型中的一数据处理部分，例如初始模型和预训练模型中，均包含相应的进行词编码和位置编码的子层，该子层的相关模型参数也可以进行训练优化。

另外，在图5和图7中的softmax层为模型的输出层，输出相应概率。

本申请能够实现个性化感知的对话生成方法。真实的对话数据是角色稀疏的，在日常的真实对话中，大部分对话是与角色个性无关的，只有少部分的对话是与人物个性相关的。直接在角色稀疏的对话数据上训练和构建个性化的对话模型，很可能使得对话模型将注意力集中在大多数与人物个性无关的对话数据上，而把少部分与人物个性相关的对话当作噪声而忽略掉。本申请先在大量开放领域对话语料上预训练一个通用对话模型，帮助模型学会基本的对话生成能力和语言结构。然后根据针对性选择的数据源获取个性化对话数据，在个性化对话数据上进一步对模型进行微调，来构建个性化的对话模型，在充分利用通用对话模型连贯的对话生成能力的同时，学习到角色个性相关的特点和知识。该方法结合了预训练模型的通用语言表示能力和角色个性化的特点，可以不用维护两个独立的模型，降低了计算和存储成本。并且，在对话模型中，本申请提出一种注意力路由机制，在解码器中根据对话历史判断是否应该生成角色个性相关的回复，从而动态地权衡和控制角色个性化信息的表达程度。这种动态的注意力路由机制允许我们在训练过程中充分地利用角色稀疏的对话数据，在解码生成回复的过程中控制表达角色个性化信息的程度。

再请参见图8，是本申请实施例的一种信息处理装置的结构示意图。本申请实施例的装置至少包括接口单元801和处理单元802。各单元的具体用途如下。

接口单元801，用于进行信息交互；处理单元802，用于获取交互内容信息和角色属性信息；获取文本特征向量及角色特征向量，文本特征向量是对交互内容信息进行编码处理得到的，角色特征向量是对交互内容信息关联的角色属性信息进行编码处理得到的；基于文本特征向量和角色特征向量，预测得到权重系数，权重系数用于表征需要得到的交互内容信息对应的对话内容信息、与角色属性信息的关联程度；按照预测得到的权重系数，对文本特征向量及角色特征向量进行对话预测处理，得到交互内容信息对应的对话内容信息。

在一个可选的实现方式中，处理单元802，还用于检测发起交互内容信息的账号的交互场景类型；若检测到交互场景类型为第一类型，则获取交互内容信息，并根据交互内容信息生成对话反馈信息；若检测到交互场景类型为第二类型，则获取交互内容信息和角色属性信息。

在一个可选的实现方式中，处理单元802，在用于获取交互内容信息和角色属性信息时，用于通过交互会话页面获取聊天信息，聊天信息包括：通过交互会话页面获取到的由对象输入的字符、对通过交互会话页面接收的音频数据进行转换得到的字符、对通过交互会话页面接收的图像数据进行识别得到的字符中的一个或多个；根据聊天信息得到交互内容信息；获取角色属性信息，其中，角色属性信息与发起交互内容信息的账号关联，角色属性信息是根据对通过账号提交的用于进行角色属性分析的历史交互数据、账号注册数据、交互行为数据、社交关系数据中的一种或多种进行分析处理得到的，或者角色属性信息是预先设置的。

在一个可选的实现方式中，交互内容信息对应的对话内容信息是通过对话模型生成的；装置还包括：训练单元803，用于获取第一对话语料，并根据各组第一对话语料生成第一对话训练数据集合；利用第一对话训练数据集合对初始模型进行训练，得到中间模型；获取用于体现角色属性信息的第二对话语料，并根据各组第二对话语料生成第二对话训练数据集合；利用第二对话训练数据集合对根据中间模型得到的预训练模型进行训练，得到对话模型。

在一个可选的实现方式中，第一对话训练数据集合中的第一对话训练数据包括：由从一组第一对话语料中获取的第一训练文本序列和第一监督文本序列构成的文本序列对；第二对话训练数据集合中的第二对话训练数据包括：角色属性训练信息、从一组第二对话语料中获取的第二训练文本序列和第二监督文本序列、以及用于表示根据中间模型得到的预训练模型的输出是否与角色属性训练信息相关的角色相关标签。

在一个可选的实现方式中，文本特征向量和角色特征向量是通过对话模型中的编码器生成的，编码器的输入包括：根据交互内容信息得到的输入向量、根据角色属性信息得到的输入向量；权重系数是通过对话模型中的权重预测器预测得到的，权重预测器的输入包括：文本特征向量和角色特征向量；对话内容信息是根据对话模型中的解码器的输出得到的，解码器的输入为权重系数、文本特征向量以及角色特征向量。

在一个可选的实现方式中，第一对话语料中的第一目标对话语料包括N轮对话对应的文本，N为大于或等于2的整数；训练单元803，在用于根据各组第一对话语料生成第一对话训练数据集合时，用于将第一目标对话语料包括的N轮对话对应的文本中前N-1个文本通过拼接标记进行拼接得到第一拼接字符序列，在第一拼接字符序列的开头添加开始标记、在第一拼接字符序列的结尾添加结束标记，得到第一目标对话语料对应的第一输入文本序列，并对第一输入文本序列进行编码，得到第一训练文本序列；根据第一目标对话语料包括的N轮对话对应的文本中最后一个文本得到第一输出文本序列，并对第一输出文本序列进行编码，得到第一目标对话语料对应的第一监督文本序列。

在一个可选的实现方式中，初始模型为基于自注意力机制的编码器-解码器结构，其中，编码器包括多个特征处理层，编码器的每个特征处理层包括多头自注意力机制子层和前馈神经网络子层，并且每个子层都接入一个残差连接和层归一化处理层；解码器包括多个特征处理层，解码器的每个特征处理层包括：多头自注意力机制子层、编码器-解码器注意力机制子层和前馈神经网络子层，并且每个子层都接入一个残差连接和层归一化处理层，其中，解码器中的多头自注意力机制子层通过掩码来进行位置屏蔽处理。

在一个可选的实现方式中，第二对话语料中的第二目标对话语料包括M轮对话对应的文本，M为大于或等于2的整数；训练单元803，在用于根据各组第二对话语料生成第二对话训练数据集合时，用于获取与第二目标对话语料所对应的账号关联的角色属性训练信息；将第二目标对话语料包括的M轮对话对应的文本中前M-1个文本通过拼接标记进行拼接得到第二拼接字符序列，在第二拼接字符序列的开头添加开始标记、在第二拼接字符序列的结尾添加结束标记，得到第二输入文本序列，并对第二输入文本序列进行编码得到第二训练文本序列；根据第二目标对话语料包括的M轮对话对应的文本中最后一个文本得到第二输出文本序列，并对第二输出文本序列进行编码，得到第二目标对话语料对应的第二督文本序列；设置用于表示根据中间模型得到的预训练模型的输出是否与角色属性训练信息相关的角色相关标签。

在一个可选的实现方式中，在训练得到的中间模型中设置用于预测得到权重系数的权重预测器，并将训练得到的中间模型中编码器-解码器注意力机制子层调整为注意力路由机制子层以得到预训练模型，其中，注意力路由机制子层的输入包括权重预测器的输出，编码器的输出以及解码器的注意力路由机制子层的上一子层的输出。

在一个可选的实现方式中，训练单元803，在用于利用第二对话训练数据集合对根据中间模型得到的预训练模型进行训练，得到对话模型时，用于利用第二对话训练数据集合作为根据中间模型得到的预训练模型的输入，并利用第一损失函数和第二损失函数得到的损失计算结果来对预训练模型的模型参数进行修改，以训练得到对话模型；其中，第一损失函数用来确定预训练模型中的权重预测器的输出与角色相关标签之间的差异；第二损失函数用来确定第二监督文本序列、与由预训练模型的编码器输出的训练文本特征向量和训练角色特征向量进行自回归解码得到的序列之间的差异；其中，训练文本特征向量是预训练模型的编码器对从一组第二对话语料中获取的第二训练文本序列进行处理后得到的，训练角色特征向量是预训练模型的编码器对角色属性训练信息进行处理得到的。

基于同一发明构思，本申请实施例中提供的信息处理装置解决问题的原理和有益效果，与本申请上述各方法实施例中各方法解决问题的原理和有益效果相似，可以参见方法实施例的原理和有益效果，为简洁描述，在这里不再赘述。

再请参见图9，是本申请实施例的一种计算设备的结构示意图。计算设备可以包括交互接口901、存储装置902以及处理器903。还包括其他的一些功能模块，比如电源单元、摄像头、网络接口、通信接口等模块。

交互接口901用于进行信息交互；具体可以为触摸屏、物理按键等部件，用于接收操作对象的各种操作，例如文本、语音输入等操作，还用于向对象呈现相应的信息，包括显示文本、播放音视频等，还可以实现其他一些功能。

存储装置902可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置902也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；存储装置902还可以包括上述种类的存储器的组合。

处理器903可以是中央处理器(central processing unit，CPU)。处理器903还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specificintegrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)等。上述PLD可以是现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)等。

可选地，存储装置902还用于存储计算机程序。处理器903可以执行这些计算机程序，实现如本申请前述实施例提到的各种方法、步骤。

在一个可选的实施方式中，处理器903，用于获取交互内容信息和角色属性信息；获取文本特征向量及角色特征向量，文本特征向量是对交互内容信息进行编码处理得到的，角色特征向量是对交互内容信息关联的角色属性信息进行编码处理得到的；基于文本特征向量和角色特征向量，预测得到权重系数，权重系数用于表征需要得到的交互内容信息对应的对话内容信息、与角色属性信息的关联程度；按照预测得到的权重系数，对文本特征向量及角色特征向量进行对话预测处理，得到交互内容信息对应的对话内容信息。

在一个可选的实现方式中，处理器903，还用于检测发起交互内容信息的账号的交互场景类型；若检测到交互场景类型为第一类型，则获取交互内容信息，并根据交互内容信息生成对话反馈信息；若检测到交互场景类型为第二类型，则获取交互内容信息和角色属性信息。

在一个可选的实现方式中，处理器903，在用于获取交互内容信息和角色属性信息时，用于通过交互会话页面获取聊天信息，聊天信息包括：通过交互会话页面获取到的由对象输入的字符、对通过交互会话页面接收的音频数据进行转换得到的字符、对通过交互会话页面接收的图像数据进行识别得到的字符中的一个或多个；根据聊天信息得到交互内容信息；获取角色属性信息，其中，角色属性信息与发起交互内容信息的账号关联，角色属性信息是根据对通过账号提交的用于进行角色属性分析的历史交互数据、账号注册数据、交互行为数据、社交关系数据中的一种或多种进行分析处理得到的，或者角色属性信息是预先设置的。

在一个可选的实现方式中，交互内容信息对应的对话内容信息是通过对话模型生成的；处理器903，用于获取第一对话语料，并根据各组第一对话语料生成第一对话训练数据集合；利用第一对话训练数据集合对初始模型进行训练，得到中间模型；获取用于体现角色属性信息的第二对话语料，并根据各组第二对话语料生成第二对话训练数据集合；利用第二对话训练数据集合对根据中间模型得到的预训练模型进行训练，得到对话模型。

在一个可选的实现方式中，第一对话语料中的第一目标对话语料包括N轮对话对应的文本，N为大于或等于2的整数；处理器903，在用于根据各组第一对话语料生成第一对话训练数据集合时，用于将第一目标对话语料包括的N轮对话对应的文本中前N-1个文本通过拼接标记进行拼接得到第一拼接字符序列，在第一拼接字符序列的开头添加开始标记、在第一拼接字符序列的结尾添加结束标记，得到第一目标对话语料对应的第一输入文本序列，并对第一输入文本序列进行编码，得到第一训练文本序列；根据第一目标对话语料包括的N轮对话对应的文本中最后一个文本得到第一输出文本序列，并对第一输出文本序列进行编码，得到第一目标对话语料对应的第一监督文本序列。

在一个可选的实现方式中，第二对话语料中的第二目标对话语料包括M轮对话对应的文本，M为大于或等于2的整数；处理器903，在用于根据各组第二对话语料生成第二对话训练数据集合时，用于获取与第二目标对话语料所对应的账号关联的角色属性训练信息；将第二目标对话语料包括的M轮对话对应的文本中前M-1个文本通过拼接标记进行拼接得到第二拼接字符序列，在第二拼接字符序列的开头添加开始标记、在第二拼接字符序列的结尾添加结束标记，得到第二输入文本序列，并对第二输入文本序列进行编码得到第二训练文本序列；根据第二目标对话语料包括的M轮对话对应的文本中最后一个文本得到第二输出文本序列，并对第二输出文本序列进行编码，得到第二目标对话语料对应的第二督文本序列；设置用于表示根据中间模型得到的预训练模型的输出是否与角色属性训练信息相关的角色相关标签。

在一个可选的实现方式中，处理器903，在用于利用第二对话训练数据集合对根据中间模型得到的预训练模型进行训练，得到对话模型时，用于利用第二对话训练数据集合作为根据中间模型得到的预训练模型的输入，并利用第一损失函数和第二损失函数得到的损失计算结果来对预训练模型的模型参数进行修改，以训练得到对话模型；其中，第一损失函数用来确定预训练模型中的权重预测器的输出与角色相关标签之间的差异；第二损失函数用来确定第二监督文本序列、与由预训练模型的编码器输出的训练文本特征向量和训练角色特征向量进行自回归解码得到的序列之间的差异；其中，训练文本特征向量是预训练模型的编码器对从一组第二对话语料中获取的第二训练文本序列进行处理后得到的，训练角色特征向量是预训练模型的编码器对角色属性训练信息进行处理得到的。

基于同一发明构思，本申请实施例中提供的计算设备例如可以是图1等实施例中提到的计算设备，其解决问题的原理和有益效果，与本申请上述各方法实施例中各方法解决问题的原理和有益效果相似，可以参见方法实施例的原理和有益效果，为简洁描述，在这里不再赘述。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机指令，该计算机程序或计算机指令存储在计算机可读存储介质中。所述计算机程序或计算机指令被处理器执行时，实现前述各方法实施例中描述的方法。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种信息处理方法，其特征在于，包括：

获取交互内容信息和角色属性信息；

获取文本特征向量及角色特征向量，所述文本特征向量是对交互内容信息进行编码处理得到的，所述角色特征向量是对交互内容信息关联的角色属性信息进行编码处理得到的；

基于所述文本特征向量和所述角色特征向量，预测得到权重系数，所述权重系数用于表征需要得到的所述交互内容信息对应的对话内容信息、与所述角色属性信息的关联程度；

按照预测得到的权重系数，对所述文本特征向量及所述角色特征向量进行对话预测处理，得到所述交互内容信息对应的对话内容信息。

2.如权利要求1所述的方法，其特征在于，所述获取交互内容信息和角色属性信息之前，还包括：

检测发起交互内容信息的账号的交互场景类型；

若检测到交互场景类型为第一类型，则获取交互内容信息，并根据所述交互内容信息生成对话反馈信息；

若检测到交互场景类型为第二类型，则触发执行获取交互内容信息和角色属性信息。

3.如权利要求1所述的方法，其特征在于，所述获取交互内容信息和角色属性信息，包括：

通过交互会话页面获取聊天信息，所述聊天信息包括：通过所述交互会话页面获取到的由对象输入的字符、对通过所述交互会话页面接收的音频数据进行转换得到的字符、对通过所述交互会话页面接收的图像数据进行识别得到的字符中的一个或多个；

根据所述聊天信息得到交互内容信息；

获取角色属性信息，其中，所述角色属性信息与发起所述交互内容信息的账号关联，所述角色属性信息是根据对通过所述账号提交的用于进行角色属性分析的历史交互数据、账号注册数据、交互行为数据、社交关系数据中的一种或多种进行分析处理得到的，或者所述角色属性信息是预先设置的。

4.如权利要求1-3任一项所述的方法，其特征在于，所述交互内容信息对应的对话内容信息是通过对话模型生成的；所述方法还包括：

获取第一对话语料，并根据各组第一对话语料生成第一对话训练数据集合；

利用第一对话训练数据集合对初始模型进行训练，得到中间模型；

获取用于体现角色属性信息的第二对话语料，并根据各组第二对话语料生成第二对话训练数据集合；

利用第二对话训练数据集合对根据所述中间模型得到的预训练模型进行训练，得到所述对话模型。

5.如权利要求4所述的方法，其特征在于，所述第一对话训练数据集合中的第一对话训练数据包括：由从一组第一对话语料中获取的第一训练文本序列和第一监督文本序列构成的文本序列对；

所述第二对话训练数据集合中的第二对话训练数据包括：角色属性训练信息、从一组第二对话语料中获取的第二训练文本序列和第二监督文本序列、以及用于表示根据所述中间模型得到的预训练模型的输出是否与角色属性训练信息相关的角色相关标签。

6.如权利要求4所述的方法，其特征在于，所述文本特征向量和角色特征向量是通过对话模型中的编码器生成的，所述编码器的输入包括：根据所述交互内容信息得到的输入向量、根据所述角色属性信息得到的输入向量；

所述权重系数是通过所述对话模型中的权重预测器预测得到的，所述权重预测器的输入包括：所述文本特征向量和所述角色特征向量；

所述对话内容信息是根据所述对话模型中的解码器的输出得到的，所述解码器的输入为所述权重系数、所述文本特征向量以及所述角色特征向量。

7.如权利要求5所述的方法，其特征在于，所述第一对话语料中的第一目标对话语料包括N轮对话对应的文本，N为大于或等于2的整数；所述根据各组第一对话语料生成第一对话训练数据集合，包括：

将第一目标对话语料包括的N轮对话对应的文本中前N-1个文本通过拼接标记进行拼接得到第一拼接字符序列，在所述第一拼接字符序列的开头添加开始标记、在所述第一拼接字符序列的结尾添加结束标记，得到所述第一目标对话语料对应的第一输入文本序列，并对所述第一输入文本序列进行编码，得到第一训练文本序列；

根据第一目标对话语料包括的N轮对话对应的文本中最后一个文本得到第一输出文本序列，并对所述第一输出文本序列进行编码，得到所述第一目标对话语料对应的第一监督文本序列。

8.如权利要求7所述的方法，其特征在于，所述初始模型为基于自注意力机制的编码器-解码器结构，其中，所述编码器包括多个特征处理层，编码器的每个特征处理层包括多头自注意力机制子层和前馈神经网络子层，并且每个子层都接入一个残差连接和层归一化处理层；

所述解码器包括多个特征处理层，解码器的每个特征处理层包括：多头自注意力机制子层、编码器-解码器注意力机制子层和前馈神经网络子层，并且每个子层都接入一个残差连接和层归一化处理层，其中，所述解码器中的多头自注意力机制子层通过掩码来进行位置屏蔽处理。

9.如权利要求5所述的方法，其特征在于，所述第二对话语料中的第二目标对话语料包括M轮对话对应的文本，M为大于或等于2的整数；所述根据各组第二对话语料生成第二对话训练数据集合，包括：

获取与所述第二目标对话语料所对应的账号关联的角色属性训练信息；

将第二目标对话语料包括的M轮对话对应的文本中前M-1个文本通过拼接标记进行拼接得到第二拼接字符序列，在所述第二拼接字符序列的开头添加开始标记、在所述第二拼接字符序列的结尾添加结束标记，得到第二输入文本序列，并对第二输入文本序列进行编码得到第二训练文本序列；

根据第二目标对话语料包括的M轮对话对应的文本中最后一个文本得到第二输出文本序列，并对第二输出文本序列进行编码，得到所述第二目标对话语料对应的第二督文本序列；

设置用于表示根据所述中间模型得到的预训练模型的输出是否与角色属性训练信息相关的角色相关标签。

10.如权利要求9所述的方法，其特征在于，在训练得到的中间模型中设置用于预测得到权重系数的权重预测器，并将训练得到的中间模型中编码器-解码器注意力机制子层调整为注意力路由机制子层以得到所述预训练模型，其中，注意力路由机制子层的输入包括权重预测器的输出，所述编码器的输出以及解码器的注意力路由机制子层的上一子层的输出。

11.如权利要求9所述的方法，其特征在于，所述利用第二对话训练数据集合对根据所述中间模型得到的预训练模型进行训练，得到所述对话模型，包括：

利用第二对话训练数据集合作为根据所述中间模型得到的预训练模型的输入，并利用第一损失函数和第二损失函数得到的损失计算结果来对所述预训练模型的模型参数进行修改，以训练得到所述对话模型；

其中，所述第一损失函数用来确定所述预训练模型中的权重预测器的输出与所述角色相关标签之间的差异；

所述第二损失函数用来确定所述第二监督文本序列、与由预训练模型的编码器输出的训练文本特征向量和训练角色特征向量进行自回归解码得到的序列之间的差异；

其中，所述训练文本特征向量是所述预训练模型的编码器对所述从一组第二对话语料中获取的第二训练文本序列进行处理后得到的，所述训练角色特征向量是所述预训练模型的编码器对所述角色属性训练信息进行处理得到的。

12.一种信息处理装置，其特征在于，包括：

接口单元，用于进行信息交互；

处理单元，用于获取交互内容信息和角色属性信息；获取文本特征向量及角色特征向量，所述文本特征向量是对交互内容信息进行编码处理得到的，所述角色特征向量是对交互内容信息关联的角色属性信息进行编码处理得到的；基于所述文本特征向量和所述角色特征向量，预测得到权重系数，所述权重系数用于表征需要得到的所述交互内容信息对应的对话内容信息、与所述角色属性信息的关联程度；按照预测得到的权重系数，对所述文本特征向量及所述角色特征向量进行对话预测处理，得到所述交互内容信息对应的对话内容信息。

13.一种计算设备，其特征在于，包括交互接口、存储装置以及处理器；

所述交互接口用于进行信息交互；

所述存储装置中存储有计算机程序，所述处理器执行所述存储装置中存储的计算机程序，实现如权利要求1-11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，使得具有所述处理器的计算设备实现如权利要求1-11中任一项所述的方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时，实现如权利要求1-11中任一项所述的方法。