CN113378583A

CN113378583A - 对话回复方法及装置、对话模型训练方法及装置、存储介质

Info

Publication number: CN113378583A
Application number: CN202110802896.5A
Authority: CN
Inventors: 张嘉益
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-09-10

Abstract

本公开涉及一种对话回复方法及装置、对话模型的训练方法及装置、存储介质。该方法包括：获取用户输入的第一对话信息；将所述第一对话信息以及目标角色信息输入预训练好的对话模型中，得到所述对话模型输出的对所述第一对话信息进行回复的目标应答信息；其中，所述目标应答信息为表征所述目标角色的对话风格的信息。采用本公开的这种方法，可针对用户输入的任意第一对话信息，均能以目标角色的对话风格回复更自然准确的目标应答信息。

Description

对话回复方法及装置、对话模型训练方法及装置、存储介质

技术领域

本公开涉及人机对话技术领域，尤其涉及一种对话回复方法及装置、对话模型的训练方法及装置、存储介质。

背景技术

随着互联网技术、信息通讯技术以及人工智能技术的发展，人机对话***(Conversational Systems)与生俱来的自然便捷性，使其成为了新一代的交互范式。人机对话技术已经被工业界应用到各种类型的产品服务中。在人机对话***的应用中，随着AI智能性逐渐提升，人们也开始逐渐对人机对话***提出更高级的需求，例如，要求对话机器人能够更像真人一样与用户进行自然交互，或者要求对话机器人像真人一样拥有性格/个性。

发明内容

为克服相关技术中存在的问题，本公开提供一种对话回复方法及装置、对话模型的训练方法及装置、存储介质，以解决相关技术中存在的问题。

根据本公开实施例的第一方面，提供一种对话回复方法，所述方法包括：

获取用户输入的第一对话信息；

将所述第一对话信息以及目标角色信息输入预训练好的对话模型中，得到所述对话模型输出的对所述第一对话信息进行回复的目标应答信息；

其中，所述目标应答信息为表征所述目标角色的对话风格的信息。

在一些实施例中，所述对话模型包括对话标记网络；

所述将所述第一对话信息以及目标角色信息输入预训练好的对话模型中，得到所述对话模型输出的对所述第一对话信息进行回复的目标应答信息，包括：

将所述第一对话信息以及所述目标角色信息输入预训练好的对话标记网络中，得到所述对话标记网络输出的包含标签信息的第一应答信息；

其中，所述标签信息用于表征对所述第一应答信息中各单位字符的标注信息，所述标签信息包括删除标签、保留标签、文本***位置标签中的至少一种。

在一些实施例中，所述对话模型包括对话***网络；

所述将所述第一对话信息以及目标角色信息输入预训练好的对话模型中，得到所述对话模型输出的对所述第一对话信息进行回复的目标应答信息，还包括：

将所述第一应答信息输入所述对话***网络，得到所述对话***网络输出的按照所述标签信息对所述第一应答信息进行调整后的所述目标应答信息。

在一些实施例中，所述对话模型是通过如下方式训练得到的：

根据虚拟角色样本、以及与所述虚拟角色样本对应的对话语料对构建样本训练集，其中，所述对话语料对包括从目标平台筛选的与所述虚拟角色样本对应的虚拟角色关联的第一语料对以及所述虚拟角色在源作品中的第二语料对；

根据所述训练样本集对所述对话模型进行训练，直至所述对话模型具有生成表征所述虚拟角色样本的对话风格的信息的能力。

在一些实施例中，所述从目标平台筛选与所述虚拟角色关联的第一语料对，包括：

从所述目标平台挖掘与所述虚拟角色关联的候选语料对，所述候选语料对包括候选对话信息及候选回复信息；

在所述候选回复信息与所述第二语料对包括的第二回复信息的相似度大于第一预设阈值的情况下，将所述候选回复信息所在的所述候选语料对确定为所述第一语料对。

将所述候选回复信息输入对话鉴别模型，得到表征所述候选回复信息是否为所述源作品包括的源回复信息的鉴别值；

将所述鉴别值大于第二预设阈值的所述候选回复信息所在的所述候选语料对确定为所述第一语料对。

根据本公开实施例的第二方面，提供一种对话模型的训练方法，所述方法包括：

根据本公开实施例的第三方面，提供一种对话回复装置，包括：

获取模块，被配置为获取用户输入的第一对话信息；

输入模块，被配置为将所述第一对话信息以及目标角色信息输入预训练好的对话模型中，得到所述对话模型输出的对所述第一对话信息进行回复的目标应答信息；

在一些实施例中，所述对话模型包括对话标记网络；所述输入模块，包括：

第一输入子模块，被配置为将所述第一对话信息以及所述目标角色信息输入预训练好的对话标记网络中，得到所述对话标记网络输出的包含标签信息的第一应答信息；

在一些实施例中，所述对话模型包括对话***网络；

所述输入模块，还包括：

第二输入子模块，被配置为将所述第一应答信息输入所述对话***网络，得到所述对话***网络输出的按照所述标签信息对所述第一应答信息进行调整后的所述目标应答信息。

在一些实施例中，所述装置还包括训练模块，被配置为通过如下方式训练得到所述对话模型：

根据虚拟角色样本、以及与所述虚拟角色样本对应的对话语料对构建样本训练集，其中，所述对话语料对包括从目标平台筛选的与所述虚拟角色样本对应的虚拟角色关联的第一语料对以及所述虚拟角色在源作品中的第二语料对；根据所述训练样本集对所述对话模型进行训练，直至所述对话模型具有生成表征所述虚拟角色样本的对话风格的信息的能力。。

在一些实施例中，所述训练模块包括：

第一挖掘子模块，被配置为从所述目标平台挖掘与所述虚拟角色关联的候选语料对，所述候选语料对包括候选对话信息及候选回复信息；

第一确定子模块，被配置为在所述候选回复信息与所述第二语料对包括的第二回复信息的相似度大于第一预设阈值的情况下，将所述候选回复信息所在的所述候选语料对确定为所述第一语料对。

在一些实施例中，所述训练模块包括：

第二挖掘子模块，被配置为从所述目标平台挖掘与所述虚拟角色关联的候选语料对，所述候选语料对包括候选对话信息及候选回复信息；

第三输入子模块，被配置为将所述候选回复信息输入对话鉴别模型，得到表征所述候选回复信息是否为所述源作品包括的源回复信息的鉴别值；

第二确定子模块，被配置为将所述鉴别值大于第二预设阈值的所述候选回复信息所在的所述候选语料对确定为所述第一语料对。

根据本公开实施例的第四方面，提供一种对话模型的训练装置，所述装置包括：

第一执行模块，被配置为根据虚拟角色样本、以及与所述虚拟角色样本对应的对话语料对构建样本训练集，其中，所述对话语料对包括从目标平台筛选的与所述虚拟角色样本对应的虚拟角色关联的第一语料对以及所述虚拟角色在源作品中的第二语料对；

第二执行模块，被配置为根据所述训练样本集对所述对话模型进行训练，直至所述对话模型具有生成表征所述虚拟角色样本的对话风格的信息的能力。

根据本公开实施例的第五方面，提供一种对话回复装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取用户输入的第一对话信息；

根据本公开实施例的第六方面，提供一种对话模型的训练装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据本公开实施例的第七方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所提供的对话回复方法的步骤或实现本公开第二方面所提供的对话模型的训练方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

通过获取用户输入的第一对话信息，并将该第一对话信息以及目标角色信息输入预训练好的对话模型，得到该对话模型输出的对第一对话信息进行回复的目标应答信息。目标应答信息为表征目标角色的对话风格的信息。采用本公开的方法，能够针对用户输入的任意第一对话信息，均能以目标角色的对话风格(对话特征)回复更自然准确的目标应答信息。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据本公开一示例性实施例示出的一种对话回复方法的流程图。

图2是根据本公开一示例性实施例示出的一种对话模型训练流程图。

图3是根据本公开一示例性实施例示出的一种对话模型的框架。

图4是根据本公开一示例性实施例示出的一种对话模型的训练方法流程图。

图5是根据本公开一示例性实施例示出的一种对话回复装置的框图。

图6是根据本公开一示例性实施例示出的一种对话模型的训练装置的框图。

图7是根据本公开一示例性实施例示出的一种装置的框图(移动终端的一般结构)。

图8是根据本公开一示例性实施例示出的另一种装置的框图。(服务器的一般结构)。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

相关技术中，虚拟角色智能对话的技术方案如微软小冰的Avatar框架。微软的Avatar Framework在对小说原著阅读和学习基础上，重建了100部小说中虚拟世界的架构和知识体系，并对其进行扩展和补充，由此建立了含有大量人物、实体及各种知识相关联的知识图谱。基于建立的知识图谱，微软小冰Avatar Framework把100部小说主人公IP带入了现实世界，并为虚拟人物带去基于他们独特性格的对话、声音、技能，以及文学、音乐、绘画等作品的创作能力，以及相应的知识体系。然而，采用这种方式得到的任一主人公IP在与用户进行自由对话时仍然存在局限性。

在对本公开的技术方案进行详细的实施例说明之前，下面先对相关技术中的微软小冰Avatar Framework进行简单介绍。

Avatar Framework主要包括四个组成部分，一是Profile工具，用于从IQ和EQ两个方面为AI beings定义人格。二是计算工具，用于为AI beings调整核心对话引擎、计算机语音、计算机视觉等能力。三是知识工具(即知识图谱)，用于让AI beings具有三观、知识、技能等，以使得AI beings更接近人类的特性。四是3D形象驱动，用于驱动一个3D模型，让一个虚拟的AI beings出现在人们面前。

在Avatar Framework的训练过程中，使用了100部小说文本。但小说中存在的角色相关的对话语料非常有限，且小说中的角色相关的对话语料不一定可以直接作为AvatarFramework的训练语料，因此采用这种方式训练得到的虚拟角色模型，在进行开放式人机对话时，总是存在对话局限性，即虚拟角色模型无法应对除小说中虚拟世界的架构和知识体系之外的其他应用场景。

而角色对话语料的局限，意味着需要通过人工撰写语料、或者收集通用对话语料的方式来进行弥补，但前者意味着不智能与高人工成本，后者则意味着令虚拟角色模型丧失人设与角色背景的一致性与沉浸感，原因在于通用对话语料会使得模型产生的回复变得通用。

有鉴于此，本公开实施例提供一种对话回复方法及装置、对话模型的训练方法及装置、存储介质，以解决上述问题。

下面对本公开的技术方案进行详细的实施例说明。

图1是根据一示例性实施例示出的一种对话回复方法的流程图，如图1所示，该对话回复方法可应用于电子设备中，例如：移动终端或服务器中，移动终端包括:手机、笔记本、平板电脑、台式计算机、POS机等。服务器包括：本地服务器及云服务器。该对话回复方法具体可以包括以下步骤。

在步骤S11中，获取用户输入的第一对话信息。

用户输入的第一对话信息可以为语音信息亦可以为文本信息。容易理解的是，语音信息和文本信息之间可以进行转换。

第一对话信息可以为问题形式的对话信息亦可以为非提问形式的对话信息。

在步骤S12中，将所述第一对话信息以及目标角色信息输入预训练好的对话模型中，得到所述对话模型输出的对所述第一对话信息进行回复的目标应答信息。

应当说明的是，将所述第一对话信息以及目标角色信息输入预训练好的对话模型中，得到所述对话模型输出的对所述第一对话信息进行回复的目标应答信息，包括：在对话模型是由一个虚拟角色对应的样本训练集训练得到的情况下，将所述第一对话信息直接输入对话模型，得到用于对所述第一对话信息进行回复的所述目标角色的目标应答信息；或者，在对话模型是由多个虚拟角色对应的多个样本训练集训练得到的情况下，将所述第一对话信息以及目标角色信息输入对话模型，得到用于对所述第一对话信息进行回复的所述目标应答信息。也就是说，目标角色信息可以是用户输入的选择目标角色进行对话的信息，也可以是对话模型中预先设置好的目标角色信息。对此，本公开不作具体限制。

其中，上述对话回复方法中的所述对话模型是通过如下方式训练得到的：

根据虚拟角色样本、以及与所述虚拟角色样本对应的对话语料对构建样本训练集，其中，所述对话语料对包括从目标平台筛选的与所述虚拟角色样本对应的虚拟角色关联的第一语料对以及所述虚拟角色在源作品中的第二语料对；根据所述训练样本集对所述对话模型进行训练，直至所述对话模型具有生成表征所述虚拟角色样本的对话风格的信息的能力。

在一些可能的实施方式中，可先确定虚拟角色样本对应的用户群体，并获取所述用户群体扮演所述虚拟角色样本对应的虚拟角色时的对话交互信息，所述用户群体所在的平台为目标平台，目标平台可以为一个或多个平台，该对话交互信息可以表征与虚拟角色关联的第一语料对。根据所述第一语料对、以及所述虚拟角色在源作品中的源对话交互信息生成所述虚拟角色样本对应的样本训练集，其中，源对话交互信息为所述虚拟角色在源作品中的第二语料对；根据所述虚拟角色样本、以及对应的所述样本训练集训练得到所述对话模型。

在本公开中，虚拟角色可以为小说作品中的人物角色、游戏作品中的人物角色、虚拟主播(vtuber)等虚拟的人，在一种可能的情况下，虚拟角色也可以认为是用于模仿真实的人物的虚拟人，对此，本公开不作具体的限制。

一种电子设备确定虚拟角色样本对应的用户群体的实施方式，电子设备基于虚拟角色知识图谱和/或***数据库等数据库搜索虚拟角色样本的关键词，根据搜索结果确定虚拟角色样本对应的源作品类型以及源作品名称，源作品类型包括小说、游戏、虚拟主播等类型。根据虚拟角色样本的源作品类型和源作品名称，确定虚拟角色样本对应的用户群体，所述用户群体可以为某小说读者、某游戏玩家、某主播关注/订阅者等。

一种电子设备确定用户群体所在的目标平台的实施方式，电子设备基于用户群体类型与平台的预设对应关系确定用户群体所在的平台，并根据虚拟角色样本对应的源作品名称，从这些平台中确定发布了该源作品的目标平台。用户群体类型与平台的预设对应关系的示例：在用户群体类型为小说读者的情况下，平台为小说阅读平台、小说贴吧、小说讨论社区等等；又例如在用户群体类型为游戏玩家的情况下，平台为游戏对应的社区、该游戏的官网或官方留言区、部落等。再例如，在用户群体类型为虚拟主播的关注者的情况下，平台可以为虚拟主播所在的直播平台。

一种确定虚拟角色样本对应的用户群体的具体实施方式，在确定目标平台之后，可在获得目标平台合法授权的情况下，从目标平台的用户数据库中筛选与虚拟角色样本的源作品发生交互(例如用户点击、观看、下载、评论、转发、订阅源作品)的用户群体。

进一步地，电子设备从目标平台的后台数据库中获取这些用户群体的历史对话数据。并基于已有的少部分虚拟角色样本的源回复信息，从历史对话数据中筛选出与源回复信息相类似的候选回复信息，将与候选回复信息关联的候选对话信息、以及候选回复信息作为从目标平台挖掘的与虚拟角色关联的候选语料对。从候选语料对中可进一步筛选满足需求的第一语料对。

示例地，在虚拟角色样本为小说作品中的人物角色的情况下，可将该小说作品的读者确定为该虚拟角色样本对应的用户群体。在虚拟角色样本为游戏作品中的人物角色的情况下，可将该游戏作品的玩家确定为该虚拟角色样本对应的用户群体。在虚拟角色样本为vtuber的情况下，可将该vtuber的关注者/观看者/消费者确定为该虚拟角色样本对应的用户群体。以游戏厂商米哈游为例，其自研的米游社app聚集了大量米哈游的游戏玩家群体，因此，可将该米游社app的用户确定为米哈游的用户群体。相应地，用户群体所在的米游社app为目标平台。此外在诸如Youtube、Twitter、微博、BiliBili、抖音等社交或视频平台，米哈游也都具备百万量粉丝的公众号或官方频道，而这些公众号或官方频道的关注者或订阅者也可作为米哈游的用户群体。相应地，Youtube、Twitter、微博、BiliBili、抖音等社交或视频平台为目标平台。

在确定虚拟角色样本对应的用户群体之后，可获取在该用户群体扮演虚拟角色样本对应的虚拟角色的情况下的对话交互信息。根据获取到的对话交互信息、结合该虚拟角色在源作品中的源对话交互信息生成对应的样本训练集，根据虚拟角色样本、以及样本训练集可以训练得到对话模型。

采用本公开的上述方法，通过获取用户输入的第一对话信息，并将该第一对话信息以及目标角色信息输入预训练好的对话模型，得到该对话模型输出的对第一对话信息进行回复的目标应答信息。目标应答信息为表征目标角色的对话风格的信息。采用本公开的这种方式，能够针对用户输入的任意第一对话信息，均能以目标角色的对话风格(人设特征)回复更自然准确的目标应答信息。

并且，由于对话模型的样本训练集可以是根据获取到的用户群体扮演虚拟角色样本对应的虚拟角色时的对话交互信息以及虚拟角色样本在源作品中的源对话交互信息生成的，因此根据该样本训练集得到的对话模型相较于仅根据源作品中的源对话交互信息训练得到的模型效果更优。采用本公开的这种方式，能够避免人机对话的局限性。针对用户输入的任意第一对话信息，均能以目标角色的人设特征回复更自然准确的目标应答信息。

在一些实施例中，所述获取所述用户群体扮演所述虚拟角色样本对应的虚拟角色时的对话交互信息，包括：

电子设备向与所述用户群体关联的账号或终端设备(或邮箱)推送征集活动信息；并获取所述用户群体响应于所述征集活动信息反馈的所述对话交互信息。在一些可能的实施方式中，所述征集活动信息可以为角色扮演活动信息，所述征集活动信息用于向所述用户群体获取候选语料对。

由于虚拟角色的声优扮演者、读者、玩家、粉丝等用户出于对虚拟角色的喜爱，可能会在自己的主页中主动模仿该虚拟角色的特征(或者引用/复述该虚拟角色的某一句话)进行相关的、适合的动态发布或评论。因此，在一些实施例中，所述获取所述用户群体扮演所述虚拟角色样本对应的虚拟角色时的对话交互信息，还包括：

从所述用户群体关联的账号发布内容中识别并获取与所述虚拟角色相关的对话交互信息。在一些可能的实施方式中，所述与用户群体关联的账号发布内容可以是该用户群体关联的社交媒体账号发布的微博、博客、微信动态等内容。

所述向所述用户群体的终端设备推送征集活动信息，包括：向所述用户群体的终端设备推送与所述征集活动信息相关的预设对话信息，所述预设对话信息用于引导用户群体以模仿虚拟角色的对话特征来回复该预设对话信息。相应地，所述获取所述用户群体响应于所述征集活动信息的所述对话交互信息，包括：获取所述用户群体响应于所述征集活动信息而回复所述预设对话信息的应答信息，所述对话交互信息包括所述预设对话信息和所述应答信息，其中所述应答信息为用户模仿所述虚拟角色的应答信息。

具体地，电子设备可向用户群体推送征集活动信息的预设对话信息，以引导用户群体在模仿虚拟角色样本的人设风格的基础上回复该预设对话信息。通过获取用户群体用于回复预设对话信息的应答信息，可得到包括预设对话信息和应答信息的对话交互信息。

在一些实施例中，所述向所述用户群体的终端推送征集活动信息，包括：向所述用户群体推送所述征集活动信息，并指示所述用户群体以携带预设标识发布信息的方式参与所述征集活动；相应地，所述获取所述用户群体响应于所述征集活动的所述对话交互信息，包括：在目标平台的后台数据库中获取所述用户群体发布的携带所述征集活动的标识的所述对话交互信息，所述对话交互信息包括用户发布的预设对话信息以及应答信息，其中所述应答信息为用户模仿所述虚拟角色的应答信息。

示例地，在不主动向用户群体的终端推送征集活动的预设对话信息的情况下，可仅向用户群体推送征集活动信息，并指示用户群体以携带预设标识的方式参与该角色扮演活动。如此，可通过识别角色扮演活动的话题标识来获取用户群体发布的携带征集活动的标识的对话交互信息。其中对话交互信息中的用户发布的预设对话信息的风格可以为任一角色(包括虚拟角色样本)的风格，但对话交互信息中的用户发布的应答信息应当为用户模仿虚拟角色样本对应的虚拟角色的应答信息。在一些可能的实施方式中，所述预设标识可以为预定符号，例如#号等，该预设标识可以用于表征预设虚拟角色相关的话题。

从所述目标平台挖掘与所述虚拟角色关联的候选语料对，所述候选语料对包括候选对话信息及候选回复信息；在所述候选回复信息与所述第二语料对包括的第二回复信息的相似度大于第一预设阈值的情况下，将所述候选回复信息所在的所述候选语料对确定为所述第一语料对。

在一种可能的实施方式中，第二语料对包括第二对话信息和第二回复信息。候选语料对包括候选对话信息及候选回复信息。从目标平台挖掘与虚拟角色关联的候选语料对后，可在候选回复信息与第二回复信息的相似度大于第一预设阈值的情况下，将该候选回复信息所在的候选语料对确定为第一语料对。

由于候选语料对中的候选应答信息是从用户群体侧收集得到的，因此该候选应答信息中可能包括不符合虚拟角色样本的人设要求(或对话风格)的信息。因此，需要从候选应答信息中筛选出符合虚拟角色样本的人设要求的第一应答信息，以提升对话模型训练的准确性。

示例地，如图2所示，对话模型训练的步骤可以包括：

在步骤S21中、从目标平台挖掘与所述虚拟角色关联的候选语料对，所述候选语料对包括候选对话信息及候选回复信息；

在步骤S22中、在所述候选回复信息与第二语料对包括的第二回复信息的相似度大于第一预设阈值的情况下，将所述候选回复信息所在的所述候选语料对确定为所述第一语料对；

在步骤S23中、获取所述虚拟角色在源作品中的第二语料对；

在步骤S24中、根据虚拟角色样本、以及与所述虚拟角色样本对应的对话语料对构建样本训练集，其中，所述对话语料对包括从目标平台筛选的与所述虚拟角色样本对应的虚拟角色关联的第一语料对以及所述虚拟角色在源作品中的第二语料对；

在步骤S25中、根据所述训练样本集对所述对话模型进行训练，直至所述对话模型具有生成表征所述虚拟角色样本的对话风格的信息的能力。

本公开不限定上述步骤S21和S23之间的先后顺序。

再一种可能的实施方式中，所述从目标平台筛选与所述虚拟角色关联的第一语料对，包括：

从所述目标平台挖掘与所述虚拟角色关联的候选语料对，所述候选语料对包括候选对话信息及候选回复信息；将所述候选回复信息输入对话鉴别模型，得到表征所述候选回复信息是否为所述源作品包括的源回复信息的鉴别值；将所述鉴别值大于第二预设阈值的所述候选回复信息所在的所述候选语料对确定为所述第一语料对。

在一种可能的实施方式中，可以先从候选回复信息中确定与虚拟角色样本的源回复信息相似度大于第一预设阈值的第一候选回复信息。然后将该第一候选回复信息输入对话鉴别模型(一种相关性对话模型)，得到表征第一候选回复信息是否为源作品包括的源回复信息的鉴别值，将鉴别值大于第二预设阈值的第一候选回复信息所在的候选语料对确定为第一语料对。

其中，值得说明的是，对话鉴别模型由虚拟角色样本的正样本语料和负样本语料进行训练得到。

在一些实施例中，所述对话模型包括对话标记网络；所述将所述第一对话信息以及目标角色信息输入预训练好的对话模型中，得到所述对话模型输出的对所述第一对话信息进行回复的目标应答信息，包括：

在一些实施例中，所述对话模型包括对话***网络；

在一种可能的实施方式中，参见图3，本公开中，所述对话模型包括编码器、角色模板匹配器以及解码器；所述将所述第一对话信息以及目标角色信息输入对话模型，包括：

将所述第一对话信息输入所述编码器，得到第一对话特征向量；将所述第一对话特征向量和所述目标角色的编号输入所述角色模板匹配器，得到所述目标角色的第二应答信息模板；将所述第二应答信息模板输入所述解码器，得到所述第二应答信息。

其中，所述解码器包括对话标记网络和对话***网络，所述解码器用于执行以下操作：

将所述第二应答信息模板输入所述对话***网络，以对所述第二应答信息模板中各单位文本进行标签标注，得到标注后的第二应答信息模板，其中所述标签包括删除标签、保留标签、文本***位置标签中的至少一种；将所述标注后的第二应答信息模板输入所述对话***网络，以根据标注的各所述标签对所述标注后的第二应答信息模板进行相应的操作得到所述目标应答信息。

示例地，将第一对话信息X＝{x1,...,xN}输入编码器，得到第一对话特征向量H＝{h1,...,hN}，该过程可表征为H＝Encoder(X)。将第一对话特征向量H＝{h1,...,hN}和目标角色的编号例如编号为A输入角色模板匹配器，角色模板匹配器基于第一对话特征向量H＝{h1,...,hN}的约束，从预先存储的与角色A相关的M个原始对话模板(台词)中匹配(实质为通过文本匹配模型为H和各对话模型进行匹配打分)出一个第二应答信息模板，该过程可表征为T＝argmax_t∈[1,M](RoleMatch(H,t))H。将第二应答信息模板输入解码器中的对话标记网络，对话标记网络对第二应答信息模板中各单位文本(如单位字符、单位词、句等)进行标签标注，标签可以为删除标签、保留标签、文本***位置标签。将标注后的第二应答信息模板输入解码器中的对话***网络，对话***网络根据标注的各标签对标注后的第二应答信息模板进行相应的操作得到第二应答信息，该过程可表征为Y＝Decoder(H,T)。

值得说明的是，在标注后的第二应答信息模板中包括文本***位置标签的情况下，该文本***位置上***的新内容由对话***网络进行预测得到。

综上所述，一个效果优越的对话模型，在于该对话模型的输出能够令用户第一时间联想到用户选择对话的目标角色。即对话模型的输出高度契合该目标角色的台词语气或人设风格。相关技术中，使用传统的seq2seq对话模型，以自回归生成的方式，从零开始一个字一个字地生成应答信息，直到得到完整的应答句子时结束。此种方式非常耗时。而采用本公开的上述对话模型，由于本公开的对话模型为非自回归模型，即本公开对话模型是从多个应答模板中选择一个模板进行删除、保留、***新词的编辑方式得到目标应答信息，所以本公开的这种对话模型能够提升对话回复的效率。本公开的这种对话模型的应答速度比相关技术中基于seq2seq对话模型快很多。

基于同一发明构思，本公开实施例还提供一种对话模型的训练方法，如图4所示，所述方法包括以下步骤：

在步骤S31中、根据虚拟角色样本、以及与所述虚拟角色样本对应的对话语料对构建样本训练集，其中，所述对话语料对包括从目标平台筛选的与所述虚拟角色样本对应的虚拟角色关联的第一语料对以及所述虚拟角色在源作品中的第二语料对；

在步骤S32中、根据所述训练样本集对所述对话模型进行训练，直至所述对话模型具有生成表征所述虚拟角色样本的对话风格的信息的能力。

采用这种训练方法，可训练得到能够针对用户输入的任意第一对话信息，均能以目标角色的对话风格(人设特征)回复更自然准确的目标应答信息的对话模型。

基于同一发明构思，本公开实施例还提供一种对话回复装置，如图5所示，该对话回复装置300包括获取模块310、输入模块320。

获取模块310，被配置为获取用户输入的第一对话信息；

输入模块320，被配置为将所述第一对话信息以及目标角色信息输入预训练好的对话模型中，得到所述对话模型输出的对所述第一对话信息进行回复的目标应答信息；其中，所述目标应答信息为表征所述目标角色的对话风格的信息。

采用本公开的对话回复装置300，通过获取用户输入的第一对话信息，并将该第一对话信息以及目标角色信息输入预训练好的对话模型，得到该对话模型输出的对第一对话信息进行回复的目标应答信息。目标应答信息为表征目标角色的对话风格的信息。采用本公开的这种方式，能够针对用户输入的任意第一对话信息，均能以目标角色的对话风格(人设特征)回复更自然准确的目标应答信息。

在一些实施例中，所述对话模型包括对话标记网络；所述输入模块320，包括：

在一些实施例中，所述对话模型包括对话***网络；

所述输入模块320，还包括：

在一些实施例中，所述装置还包括训练模块330，被配置为通过如下方式训练得到所述对话模型：

在一些实施例中，所述训练模块330包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于同一发明构思，本公开实施例还提供一种对话模型的训练装置，如图6所示，所述装置400包括：

第一执行模块410，被配置为根据虚拟角色样本、以及与所述虚拟角色样本对应的对话语料对构建样本训练集，其中，所述对话语料对包括从目标平台筛选的与所述虚拟角色样本对应的虚拟角色关联的第一语料对以及所述虚拟角色在源作品中的第二语料对；

第二执行模块420，被配置为根据所述训练样本集对所述对话模型进行训练，直至所述对话模型具有生成表征所述虚拟角色样本的对话风格的信息的能力。

采用这种训练装置，可训练得到能够针对用户输入的任意第一对话信息，均能以目标角色的对话风格(人设特征)回复更自然准确的目标应答信息的对话模型。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开提供的对话回复方法或对话模型的训练方法的步骤。

图7是根据一示例性实施例示出的一种用于对话回复或用于对话模型的训练的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的对话回复方法或对话模型的训练方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述对话回复方法或者对话模型的训练方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述对话回复方法或者对话模型的训练方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的对话回复方法或者对话模型的训练方法的代码部分。

图8是根据一示例性实施例示出的一种用于另一种对话回复的装置1900的框图。例如，装置1900可以被提供为一服务器。参照图8，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述对话回复方法。

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作***，例如Windows Server^TM，MacOS X^TM，Unix^TM，Linux^TM，FreeBSD^TM或类似。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种对话回复方法，其特征在于，所述方法包括：

获取用户输入的第一对话信息；

2.根据权利要求1所述的方法，其特征在于，所述对话模型包括对话标记网络；

3.根据权利要求2所述的方法，其特征在于，所述对话模型还包括对话***网络；

4.根据权利要求1所述的方法，其特征在于，所述对话模型是通过如下方式训练得到的：

5.根据权利要求4所述的方法，其特征在于，所述从目标平台筛选与所述虚拟角色关联的第一语料对，包括：

6.根据权利要求4所述的方法，其特征在于，所述从目标平台筛选与所述虚拟角色关联的第一语料对，包括：

7.一种对话模型的训练方法，其特征在于，所述方法包括：

8.一种对话回复装置，其特征在于，包括：

获取模块，被配置为获取用户输入的第一对话信息；

9.一种对话模型的训练装置，其特征在于，所述装置包括：

第二执行模块，被配置根据所述训练样本集对所述对话模型进行训练，直至所述对话模型具有生成表征所述虚拟角色样本的对话风格的信息的能力。

10.一种对话回复装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取用户输入的第一对话信息；

11.一种对话模型的训练装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

12.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1～7中任一项所述方法的步骤。