CN113436625A

CN113436625A - 一种人机交互方法及其相关设备

Info

Publication number: CN113436625A
Application number: CN202110713717.0A
Authority: CN
Inventors: 高群; 王晓斐; 王忍宝
Original assignee: Anhui Toycloud Technology Co Ltd
Current assignee: Anhui Toycloud Technology Co Ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-09-24

Abstract

本申请公开了一种人机交互方法及其相关设备，对于人机交互设备来说，在获取到用户语音之后，先对该用户语音进行角色识别，得到该用户角色，以使该用户角色能够准确地表示出针对该用户语音的发音者的角色识别结果；再根据该用户语音以及用户角色，确定该用户语音对应的回复语音。其中，因回复语音是参考用户角色进行确定的，使得该回复语音能够更符合该用户角色的对话交互需求，从而使得该回复语音更符合该用户语音的发音者的对话交互需求，如此能够实现依据不同用户角色进行不同回复的对话需求，如此有利于提高人机交互设备与用户之间对话交互的灵活性，从而能够提高用户的人机交互体验。

Description

一种人机交互方法及其相关设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种人机交互方法及其相关设备。

背景技术

随着人机交互技术的发展，人机交互设备(如，智能机器人等)的应用范围越来越广。其中，人机交互设备既能够按照用户的指令执行相应的控制操作(如，打开电视、打开灯、拉开窗帘等)，又能够陪用户进行对话交互。

然而，因相关人机交互交互技术存在缺陷，使得人机交互设备与用户之间对话交互缺乏灵活性，从而使得用户的人机交互体验较差。

发明内容

本申请实施例的主要目的在于提供一种人机交互方法及其相关设备，能够提高人机交互设备与用户之间对话交互的灵活性，从而能够提高用户的人机交互体验。

本申请实施例提供了一种人机交互方法，应用于人机交互设备，所述方法包括：

获取用户语音；

对所述用户语音进行角色识别，得到用户角色；其中，所述用户角色用于表示针对所述用户语音的发音者的角色识别结果；

根据所述用户语音和所述用户角色，确定所述用户语音对应的回复语音。

在一种可能的实施方式中，所述对所述用户语音进行角色识别，得到用户角色，包括：

将所述用户语音输入预先构建的角色识别模型，得到所述角色识别模型输出的所述用户语音对应的角色识别结果；其中，所述角色识别模型是根据至少一个候选设备使用者的录制语音和所述至少一个候选设备使用者的实际角色进行构建的；

根据所述用户语音对应的角色识别结果，确定所述用户角色。

在一种可能的实施方式中，所述方法还包括：

若所述用户语音对应的角色识别结果表示角色识别失败，则根据所述用户语音和通用知识库，确定所述用户语音对应的回复语音；

显示角色录制提示信息；

在获取到待录制用户的录制语音和所述待录制用户的实际角色之后，根据所述待录制用户的录制语音和所述待录制用户的实际角色，更新所述角色识别模型；其中，所述待录制用户用于表示所述用户语音的发音者。

在一种可能的实施方式中，所述方法还包括：

对所述用户语音进行话题识别，得到所述用户话题；

所述根据所述用户语音和所述用户角色，确定所述用户语音对应的回复语音，包括：

根据所述用户语音、所述用户角色和所述用户话题，确定所述用户语音对应的回复语音。

在一种可能的实施方式中，所述对所述用户语音进行话题识别，得到所述用户话题，包括：

对所述用户语音进行关键词提取，得到所述用户语音对应的关键词；

将所述用户语音对应的关键词与所述用户角色对应的话题数据库中至少一个候选话题描述数据进行匹配；

在确定所述用户语音对应的关键词与所述用户角色对应的话题数据库中待使用话题描述数据匹配成功之后，根据所述待使用话题描述数据，确定所述用户话题。

在一种可能的实施方式中，所述方法还包括：

在确定所述用户语音对应的关键词与所述用户角色对应的话题数据库中各个候选话题描述数据均匹配失败之后，从通用话题库中查找与所述关键词匹配成功的通用话题描述数据，并根据所述匹配成功的通用话题描述数据，确定所述用户话题。

在一种可能的实施方式中，所述方法还包括：

根据所述用户话题，更新所述用户角色对应的话题数据库。

在一种可能的实施方式中，所述方法还包括：

对所述用户语音进行年龄识别，得到用户年龄；

根据所述用户语音、所述用户角色和所述用户年龄，确定所述用户语音对应的回复语音。

在一种可能的实施方式中，所述根据所述用户语音、所述用户角色和所述用户年龄，确定所述用户语音对应的回复语音，包括：

根据所述用户语音、所述用户角色和所述用户年龄，确定所述用户语音对应的回复语料；

根据所述用户年龄，确定所述用户语音对应的回复声音；

根据所述用户语音对应的回复语料和所述用户语音对应的回复声音，确定所述用户语音对应的回复语音。

在一种可能的实施方式中，所述方法还包括：

对所述用户语音进行情绪识别，得到用户情绪；

根据所述用户语音、所述用户角色和所述用户情绪，确定所述用户语音对应的回复语音。

在一种可能的实施方式中，所述方法还包括：

获取所述用户角色对应的权限描述数据；

根据所述用户语音、所述用户角色和所述用户角色对应的权限描述数据，确定所述用户语音对应的回复语音。

在一种可能的实施方式中，所述根据所述用户语音和所述用户角色，确定所述用户语音对应的回复语音，包括：

对所述用户语音进行语音识别，得到所述用户语音对应的语音文本；

根据所述语音文本、所述用户角色和预先构建的回复生成模型，得到所述用户语音对应的回复语料；其中，所述回复生成模型是根据所述样本语料、所述样本语料对应的发音角色、和所述样本语料对应的回复语料构建的；

根据所述用户语音对应的回复语料，生成所述用户语音对应的回复语音。

在一种可能的实施方式中，所述方法还包括：

在所述人机交互设备处于空闲状态时，按照预设频率采集环境声音信号；

对所述环境声音信号进行角色识别，得到所述环境声音信号对应的角色识别结果；

若所述环境声音信号对应的角色识别结果表示所述环境声音信号对应的发音角色为待使用角色，则根据所述待使用角色，确定对话发起语音。

在一种可能的实施方式中，所述根据所述待使用角色，确定对话发起语音，包括：

将所述待使用角色对应的话题数据库中所有候选话题描述数据进行聚类，得到N个话题数据聚类集；其中，N为正整数；

从所述第n个话题数据聚类集中抽取一个候选话题描述数据，确定为第n个备用话题描述数据；其中，n为正整数，n≤N；

根据所述待使用角色对应的参考话题、第1个备用话题描述数据至第N个备用话题描述数据，确定所述环境声音信号对应的对话话题；

根据所述环境声音信号对应的对话话题，确定对话发起语音。

在一种可能的实施方式中，若所述第n个备用话题描述数据包括第n个备用话题的话题编号、所述第n个备用话题对应的使用频数、和所述第n个备用话题对应的最近一次使用时间，则所述根据所述待使用角色对应的参考话题、第1个备用话题描述数据至第N个备用话题描述数据，确定所述环境声音信号对应的用户话题，包括：

根据所述第n个备用话题的话题编号，确定所述第n个备用话题；其中，n为正整数，n≤N；

根据所述待使用角色对应的参考话题与所述第n个备用话题的相似度、所述第n个备用话题对应的使用频数、以及所述第n个备用话题对应的最近一次使用时间，确定所述第n个备用话题的推荐得分；其中，n为正整数，n≤N；

根据所述第1个备用话题的推荐得分至所述第N个备用话题的推荐得分，从所述第1个备用话题至所述第N个备用话题中筛选出所述环境声音信号对应的对话话题。

本申请实施例还提供了一种人机交互装置，包括：

语音获取单元，用于获取用户语音；

角色识别单元，用于对所述用户语音进行角色识别，得到用户角色；其中，所述用户角色用于表示针对所述用户语音的发音者的角色识别结果；

回复确定单元，用于根据所述用户语音和所述用户角色，确定所述用户语音对应的回复语音。

本申请实施例还提供了一种设备，所述设备包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行本申请实施例提供的人机交互方法的任一实施方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行本申请实施例提供的人机交互方法的任一实施方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行本申请实施例提供的人机交互方法的任一实施方式。

基于上述技术方案，本申请具有以下有益效果：

本申请提供的技术方案中，对于人机交互设备来说，在获取到用户语音之后，先对该用户语音进行角色识别，得到该用户角色，以使该用户角色能够准确地表示出针对该用户语音的发音者的角色识别结果；再根据该用户语音以及用户角色，确定该用户语音对应的回复语音。

其中，因回复语音是参考用户角色进行确定的，使得该回复语音能够更符合该用户角色的对话交互需求，从而使得该回复语音更符合该用户语音的发音者的对话交互需求，如此有利于提高用户与人机交互设备之间对话交互的准确性。可见，本申请实施例提供的技术方案能够实现依据不同用户角色进行不同回复的对话交互需求，如此有利于提高人机交互设备与用户之间对话交互的灵活性，从而能够提高用户的人机交互体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种人机交互方法的流程图；

图2为本申请实施例提供的一种话题数据库的结构示意图；

图3为本申请实施例提供的一种用户与人机交互设备之间的对话示意图；

图4为本申请实施例提供的一种人机交互装置的结构示意图。

具体实施方式

发明人针对人机交互过程的研究中发现：对于相关人机交互交互技术来说，这些人机交互交互技术通常不区分用户角色，使得基于这些人机交互交互技术进行对话交互的人机交互设备只需依据用户语音携带的语音信息进行对话回复即可，无需区分用户语音的发音者是谁，从而使得该人机交互设备的使用者能够明显地感觉到该人机交互设备的对话回复的程序化以及模板化，如此导致人机交互设备与用户之间对话交互缺乏灵活性。

基于上述发现，为了解决背景技术部分的技术问题，本申请实施例提供了一种人机交互方法，该方法包括：在人机交互设备获取到用户语音之后，该人机交互设备先对该用户语音进行角色识别，得到该用户角色，以使该用户角色能够准确地表示出针对该用户语音的发音者的角色识别结果；再根据该用户语音以及用户角色，确定该用户语音对应的回复语音，以使该回复语音符合该用户角色的对话交互需求。

可见，因回复语音是参考用户角色进行确定的，使得该回复语音能够更符合该用户角色的对话交互需求，从而使得该回复语音更符合该用户语音的发音者的对话交互需求，如此能够实现依据不同用户角色进行不同回复的对话交互需求，从而有利于提高人机交互设备与用户之间对话交互的灵活性，进而能够提高用户的人机交互体验。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

方法实施例一

参见图1，该图为本申请实施例提供的一种人机交互方法的流程图。

本申请实施例提供的人机交互方法，包括S1-S3：

S1：人机交互设备获取用户语音。

其中，人机交互设备是指能够与该设备的使用者进行人机交互的设备。另外，本申请实施例不限定人机交互设备，可以是现有的或者未来出现的任一种能够执行人机交互处理的设备(如，儿童陪伴机器人、家庭机器人等)。

用户语音是指由人机交互设备的使用者向该人机交互设备输入的语音数据；而且该用户语音携带有该使用者的人机交互需求(如，对话需求或者智能设备的控制需求)。

基于上述S1的相关内容可知，对于人机交互设备来说，当该人机交互设备的使用者想要与该人机交互设备进行人机交互(如，进行对话或者控制某一智能设备)时，该使用者可以向该人机交互设备输入用户语音(如，“XXX，你知道光头强吗？”)，以使该人机交互设备能够基于该用户语音进行相应反馈(如，对话回复和/或智能设备控制等)。需要说明的是，“XXX”表示该人机交互设备的唤醒词(如，该人机交互设备的代称)。

S2：人机交互设备对用户语音进行角色识别，得到该用户角色。

其中，角色识别用于识别一个语音数据的发音者的角色信息(如，爸爸、妈妈、爷爷、奶奶、儿童、弟弟、妹妹等角色)。

用户角色用于表示针对用户语音的发音者的角色识别结果，以使该用户角色携带有该用户语音的发音者的角色信息。例如，若用户角色为爸爸，则表示针对用户语音的发音者的角色识别结果是“爸爸”，也就是，人机交互设备认为该用户语音是由爸爸输入的。

另外，本申请实施例不限定S2的实施方式，例如，在一种可能的实施方式中，S2具体可以包括S21-S22：

S21：将用户语音输入预先构建的角色识别模型，得到该角色识别模型输出的该用户语音对应的角色识别结果。

其中，角色识别模型用于针对该角色识别模型的输入数据进行角色识别。

另外，角色识别模型可以预先根据至少一个候选设备使用者的录制语音和该至少一个候选设备使用者的实际角色进行构建。也就是，若候选设备使用者的个数为Q，则角色识别模型是根据第1个候选设备使用者的录制语音以及该第1个候选设备使用者的实际角色、第2个候选设备使用者的录制语音以及该第2个候选设备使用者的实际角色、……(以此类推)、第Q个候选设备使用者的录制语音以及该第Q个候选设备使用者的实际角色进行构建的。

候选设备使用者用于表示在人机交互设备中录制过角色信息的使用者，也就是，人机交互设备记录有各个候选设备使用者的角色信息。例如，对于一个家庭机器人来说，若该家庭机器人记录有爸爸、妈妈、弟弟和妹妹这四个角色，则爸爸对应的使用者、妈妈对应的使用者、弟弟对应的使用者和妹妹对应的使用者均是候选设备使用者。

候选设备使用者的录制语音是指由该候选设备使用者在进行角色录制过程中向人机交互设备输入的语音数据。

另外，因角色识别通常是借助声纹识别实现的，使得录制语音所携带的文本内容几乎不影响角色识别过程，故为了方便候选设备使用者进行角色录制，通常可以在人机交互设备上显示预先设定的角色录制语料，以使该候选设备使用者能够按照该角色录制语料录制该候选设备使用者对应的录制语音，以便后续能够从该录制语音中提取出该候选设备使用者对应的声纹特征。

候选设备使用者的实际角色是指由该候选设备使用者在进行角色录制过程中向在人机交互设备输入的角色信息(也就是，由该候选设备使用者在人机交互设备上设定好的角色信息)。

另外，本申请实施例不限定角色识别模型的训练过程，可以采用现有的或者未来出现的任一种模型训练方法进行实施。

此外，本申请实施例也不限定角色识别模型，例如，因不同人具有不同声纹特征，使得不同角色也具有不同声纹特征，故角色识别模型可以是一种声纹识别模型。

用户语音对应的角色识别结果是指由角色识别模型针对该用户语音的角色识别结果，以使该用户语音对应的角色识别结果可以用于表示该用户语音的发音者的角色信息。另外，本申请实施例不限定用户语音对应的角色识别结果，例如，若角色识别模型是一种声纹识别模型，则该用户语音对应的角色识别结果可以包括该用户语音的声纹识别结果。

S22：根据用户语音对应的角色识别结果，确定用户角色。

本申请实施例中，在获取到用户语音对应的角色识别结果之后，若该角色识别结果表示角色识别成功，则可以依据该角色识别结果确定该用户角色(例如，若用户语音对应的角色识别结果包括该用户语音的声纹识别结果，则可以将与该声纹识别结果对应的角色信息，确定为该用户角色)，以使该用户角色能够准确地表示出该用户语音的发音者的角色信息。

基于上述S21至S22的相关内容可知，对于人机交互设备来说，在获取到用户语音之后，可以借助预先构建的角色识别模型(如，声纹识别模型)识别出该该用户语音的发音者的角色信息，以使该人机交互设备能够清楚地知道其正在和谁进行人机交互，以便后续该人机交互设备能够按照该角色信息对应的人机交互需求(如，对话交互需求)与该用户语音的发音者进行人机交互(如，对话交互)。

S3：人机交互设备根据用户语音和用户角色，确定用户语音对应的回复语音。

其中，用户语音对应的回复语音用于表示人机交互设备针对该用户语音的对话回复信息。

另外，本申请实施例不限定用户语音对应的回复语音的确定方式，例如，在一种可能的实施方式下，S3具体可以包括S31-S33：

S31：人机交互设备对用户语音进行语音识别，得到该用户语音对应的语音文本。

其中，用户语音对应的语音文本用于表示该用户语音携带的语音信息。

另外，本申请实施例不限定S31中“语音识别”的实施方式，可以采用现有的或者未来出现的任一种语音识别方法进行实施。

S32：人机交互设备根据用户语音对应的语音文本、用户角色和预先构建的回复生成模型，得到该用户语音对应的回复语料。

其中，回复生成模型用于针对该回复生成模型的输入数据进行对话回复；而且该回复生成模型可以根据样本语音对应的语音文本、该样本语音对应的发音角色和该样本语音对应的回复语料进行构建。

其中，样本语音是指构建回复生成模型所使用的语音数据；而且，本申请实施例不限定样本语音，例如，样本语音可以是候选设备使用者的历史语音数据。

样本语音对应的语音文本用于表示该样本语音携带的语音信息。

样本语音对应的发音角色用于表示该样本语音的发音者的角色信息。

样本语音对应的回复语料是指针对该样本语音进行反馈的回复语料。

另外，本申请实施例不限定回复生成模型的构建过程，可以采用现有的或者未来出现的任一种模型构建方法进行实施。此外，本申请实施例也不限定回复生成模型，例如，回复生成模型可以是一种Sequence-to-sequence模型(简称，seq2seq模型)。

基于S32的相关内容可知，对于人机交互设备来说，在获取到用户语音对应的语音文本以及用户角色之后，可以将该用户语音对应的语音文本、用户角色(以及下文“用户话题”、“用户年龄”、“用户情绪”、“权限描述数据”等中的至少一个)输入预先构建的回复生成模型，以使该回复生成模型能够基于该语音文本、用户角色(以及下文“用户话题”、“用户年龄”、“用户情绪”、“权限描述数据”等中的至少一个)进行对话回复，得到并输出该用户语音对应的回复语料，以使该回复语料符合该用户角色对应的对话交互需求。

S33：人机交互设备根据用户语音对应的回复语料，生成用户语音对应的回复语音。

本申请实施例中，对于人机交互设备来说，在获取到用户语音对应的回复语料之后，可以利用该回复语料，生成该用户语音对应的回复语音，以使该回复语音携带有该回复语料，从而使得在人机交互设备输出该回复语音之后，该人机交互设备的使用者能够从该回复语音获知该回复语料。

基于上述S1至S3的相关内容可知，对于人机交互设备来说，在获取到用户语音之后，先对该用户语音进行角色识别，得到该用户角色，以使该用户角色能够准确地表示出针对该用户语音的发音者的角色识别结果；再根据该用户语音以及用户角色，确定该用户语音对应的回复语音。

其中，因回复语音是参考用户角色进行确定的，使得该回复语音能够更符合该用户角色的对话交互需求，从而使得该回复语音更符合该用户语音的发音者的对话交互需求，如此有利于提高用户与人机交互设备之间的对话交互的准确性。可见，本申请实施例提供的技术方案能够实现依据不同用户角色进行不同回复的对话交互需求，如此有利于提高人机交互设备与用户之间对话交互的灵活性，从而能够提高用户的人机交互体验。

方法实施例二

在一些情况下，可能会出现除了候选设备使用者以外的其他用户使用该人机交互设备，使得在这些情况下易发生角色识别失败的异常。此时，为了满足这些情况下的人机交互需求，本申请实施例还提供了人机交互方法的一种可能的实施方式，其具体可以包括步骤11-步骤16：

步骤11：人机交互设备获取用户语音。

步骤12：人机交互设备将用户语音输入预先构建的角色识别模型，得到该角色识别模型输出的该用户语音对应的角色识别结果。

步骤13：若用户语音对应的角色识别结果表示角色识别成功，则人机交互设备根据用户语音对应的角色识别结果，确定用户角色。

步骤14：人机交互设备根据用户语音和用户角色，确定该用户语音对应的回复语音。

需要说明的是，步骤11-步骤14的相关内容请分别参见S1、S21、S22、S3的相关内容。

步骤15：若用户语音对应的角色识别结果表示角色识别失败，则人机交互设备根据该用户语音和通用知识库，确定该用户语音对应的回复语音。

其中，通用知识库是指在确定用户语音对应的通用回复语料时所使用的数据库；而且本申请实施例不限定通用知识库，例如，通用知识库可以是现有的或者未来出现的任一种能够提供对话回复语料的数据库。

本申请实施例不限定步骤15中“回复语音”的实施方式，可以采用现有的或者未来出现的任一种能够基于通用知识库进行对话回复的方法进行实施。

基于步骤15的相关内容可知，对于人机交互设备来说，若用户语音对应的角色识别结果表示角色识别失败，则表示该人机交互设备无法利用角色识别模型准确地识别出用户语音的发音者的角色信息，从而表示该用户语音的发音者不属于该人机交互设备的候选设备使用者，如此可以确定该人机交互设备中没有预先存储该用户语音的发音者的角色信息，故可以利用现有的任一种对话回复方法来确定该用户语音对应的回复语音，以保证该用户语音的发音者能够正常地得到该人机交互设备的反馈。

步骤16：人机交互设备显示角色录制提示信息。

其中，角色录制提示信息用于引导人机交互设备的新用户进行角色设定。另外，本申请实施例不限定角色录制提示信息。

基于上述步骤16的相关内容可知，对于人机交互设备来说，若用户语音对应的角色识别结果表示角色识别失败，则表示该人机交互设备中没有预先存储该用户语音的发音者的角色信息，故可以显示角色录制提示信息，以使该用户语音的发音者能够按照该角色录制提示信息的引导进行角色设定。

步骤17：在人机交互设备获取到待录制用户的录制语音和待录制用户的实际角色之后，人机交互设备根据待录制用户的录制语音和待录制用户的实际角色，更新角色识别模型。

其中，待录制用户用于表示用户语音的发音者(也就是，人机交互设备的新用户)。

待录制用户的录制语音是指由该待录制用户在进行角色录制过程中向人机交互设备输入的语音数据。

待录制用户的实际角色是指由该待录制用户在进行角色录制过程中向在人机交互设备输入的角色信息。

另外，本申请实施例不限定角色识别模型的更新过程，例如，在一种可能的实施方式中，该角色识别模型的更新过程，具体可以包括：利用所有候选设备使用者的录制语音、所有候选设备使用者的实际角色、待录制用户的录制语音、以及待录制用户的实际角色，重新构建角色识别模型，以使构建好的角色识别模型不仅能够识别各个候选设备使用者的角色信息，也可以识别待录制用户的角色信息。

基于上述步骤11至步骤17的相关内容可知，对于人机交互设备来说，如果该人机交互设备能够成功地识别出用户语音的发音者的角色信息，则可以参考该角色信息进行对话回复；然而，如果该人机交互设备无法识别出该发音者的角色信息，则可以先借助通用知识库进行对话回复，得到该用户语音对应的回复语音，以使该用户语音的发音者能够快速得到对话回复；再利用角色录制提示信息引导该发音者进行角色设定，并利用该发音者的角色信息更新角色识别模型，以便该人机交互设备后续能够利用更新后的角色识别模型准确地识别出该发音者的角色信息，如此能够实现在保证对话回复效率的基础上完善角色识别模型，如此有利于提高用户的人机交互体验。

方法实施例三

在一些情况下，为了进一步提高对话回复的准确性，可以参考一些除了用户角色以外的其他信息(如，用户话题、用户年龄、用户情绪、权限描述数据等中的至少一个)进行对话回复。基于此，本申请实施例还提供了人机交互方法的一些可能的实施方式，下面分别进行介绍。

在一种可能的实施方式下，人机交互设备可以参考用户话题进行对话回复。基于此可知，人机交互方法除了包括上述全部或者部分步骤以外，可以还包括S4-S5：

S4：人机交互设备对用户语音进行话题识别，得到该用户话题。

其中，用户话题是指该用户语音携带的语音信息所涉及的对话话题。例如，若用户语音携带的语音信息为“XXX，你知道光头强吗？”，则可知该用户话题可以是动画片。

另外，本申请实施例不限定S4中“话题识别”的实施方式，可以采用现有的或者未来出现的任一种能够针对文本数据进行话题识别的方法(如，借助通用话题数据库进行话题识别的方法等)进行实施。其中，通用话题数据库是指普适性比较高的话题库，而且该通用话题数据库的话题覆盖面比较大。

实际上，因不同用户关注的话题不同，使得不用角色信息对应的关注话题不一致。基于此，为了进一步提高话题识别效率，可以预先分别针对各个用户角色构建其对应的个性化话题库，以便后续能够基于这些个性化话题库快速地进行话题识别。基于此，本申请实施例提供S4的一种可能的实施方式，其具体可以包括：人机交互设备利用用户角色对应的话题数据库，对该用户语音进行话题识别，得到该用户话题。

其中，用户角色对应的话题数据库用于表示预先构建的与该用户角色具有对应关系的个性化话题库；而且“用户角色对应的话题数据库”的相关内容可以参见下文。

另外，本申请实施例不限定“利用用户角色对应的话题数据库进行话题识别”的实施方式，例如，在一种可能的实施方式中，S4具体可以包括S41-S43：

S41：人机交互设备对用户语音进行关键词提取，得到该用户语音对应的关键词。

其中，用户语音对应的关键词是指从用户语音携带的语音文本中提取出的关键词。例如，若用户语音携带的语音文本为“XXX，你知道光头强吗？”，则该用户语音对应的关键词可以包括“光头强”。

另外，本申请实施例不限定S41中“关键词提取”的实施方式，可以采用现有的或者未来出现的任一种能够对语音数据进行关键词提取的方法进行实施。例如，S41具体可以包括S411-S412：

S411：人机交互设备对用户语音进行语音识别，得到该用户语音对应的语音文本。

需要说明的是，S411的相关内容可以参见上文S31的相关内容。

S412：人机交互设备对用户语音对应的语音文本进行关键词提取，得到该用户语音对应的关键词。

本申请实施例中，对于人机交互设备来说，在获取到用户语音对应的语音文本之后，可以直接将该语音文本中存在的各个关键词，均确定为该用户语音对应的关键词，以使该用户语音对应的关键词能够准确地表示出该用户语音携带的语义信息。

基于上述S41的相关内容可知，对于人机交互设备来说，在获取到用户语音之后，可以从该用户语音中抽取该用户语音对应的关键词，以使该关键词能够有效地表示出该用户语音携带的语义信息，以便后续该人机交互设备能够基于这些语义信息获知该用户语音的发音者想要讨论的对话话题。

S42：人机交互设备将用户语音对应的关键词与用户角色对应的话题数据库中至少一个候选话题描述数据进行匹配。

其中，用户角色对应的话题数据库用于记录该用户角色曾经使用过的各个话题的描述数据。

一个话题数据库可以包括至少一个候选话题描述数据。例如，如图2所示的话题数据库可以包括候选话题描述数据Subject1、候选话题描述数据Subject2、……(以此类推)。

候选话题描述数据用于描述一个候选话题的相关特征(如，通用特征以及个性化特征)；而且，本申请实施例不限定候选话题描述数据，例如，候选话题描述数据可以包括话题编号(如图2所示的id)、话题关键词(如图2所示的item)、话题使用频数(如图2所示的freq)、话题属性(如图2所示的attr)、话题最近一次使用时间(如图2所示的stamp)中的至少一个。其中，话题编号用于唯一标识一个话题，而且一个话题编号只对应于一个话题。话题关键词是指与一个话题相关联的关键词。话题使用频数用于表示一个话题已经被某个用户角色使用过的次数。话题属性用于描述一个话题的自身特点、以及其与其他话题之间的关系。

另外，本申请实施例不限定S42的实施方式，例如，在一种可能的实施方式中，若用户角色对应的话题数据库包括M个候选话题描述数据，且各个候选话题描述数据均包括话题关键词，则S42具体可以包括：将用户语音对应的关键词与第m个候选话题描述数据中话题关键词进行匹配；若用户语音对应的关键词与第m个候选话题描述数据中话题关键词匹配成功，则可以确定该用户语音对应的关键词与该第m个候选话题描述数据匹配成功；若用户语音对应的关键词与第m个候选话题描述数据中话题关键词匹配失败，则可以确定该用户语音对应的关键词与该第m个候选话题描述数据匹配失败。其中，m为正整数，m≤M，M为正整数。

基于上述S42的相关内容可知，对于人机交互设备来说，在获取到用户语音对应的关键词之后，可以将该关键词分别与用户角色对应的话题数据库中各个候选话题描述数据分别进行匹配，得到各个候选话题描述数据对应的匹配结果，以便后续能够基于这些匹配结果，确定用户话题。

S43：在确定用户语音对应的关键词与用户角色对应的话题数据库中待使用话题描述数据匹配成功之后，人机交互设备根据待使用话题描述数据，确定用户话题。

其中，待使用话题描述数据是指在用户角色对应的话题数据库中存在的与用户语音对应的关键词匹配成功的候选话题描述数据。

用户话题用于表示该用户语音携带的语音信息所涉及的话题特征(也就是，用户语音的发音者希望与人机交互设备通过对话交互进行讨论的话题)。

另外，本申请实施例不限定“用户话题”的确定方式，例如，若待使用话题描述数据包括话题编号，则“用户话题”的确定过程可以包括：人机交互设备根据待使用话题描述数据中话题编号，确定用户话题(例如，可以将待使用话题描述数据中话题编号对应的话题，确定为用户话题)。

基于上述S43的相关内容可知，在获取到用户语音对应的关键词与用户角色对应的话题数据库中各个候选话题描述数据之间的匹配结果之后，判断这些判断结果中是否存在与用户语音对应的关键词匹配成功的候选话题描述数据；若存在，则可以确定该匹配成功的候选话题描述数据能够准确地表示出该用户语音所涉及话题的描述信息，故可以直接依据该匹配成功的候选话题描述数据，确定该用户话题，以使该用户话题能够准确地表示出用户语音的发音者希望与人机交互设备通过对话交互进行讨论的话题。

基于上述S41至S43的相关内容可知，对于人机交互设备来说，在确定出用户角色之后，可以直接从该用户角色对应的话题数据库中查找该用户话题。其中，因用户角色对应的话题数据库用于记录该用户角色曾经使用过的各个话题的描述数据，使得该话题数据库能够准确地表示出该用户角色的话题使用特点，从而使得基于该话题数据库确定出的用户话题更符合该用户角色的话题使用特点，如此有利于提高用户话题的准确性。还因用户角色对应的话题数据库只用于记录该用户角色曾经使用过的各个话题的描述数据，使得该话题数据库涉及的话题量比较少，从而使得基于该话题数据库的匹配耗时较少，如此能够有效地降低确定用户话题的耗时，从而有利于提高人机交互设备的对话回复效率。

在一些情况下，用户语音的发音者可能想要与人机交互设备讨论一下其从未讨论过的一些话题。为了满足上述需求，本申请实施例还提供了S4的另一种实施方式，在该实施方式中，S4除了包括上述S41-S43以外，S4可以还包括S44：

S44：在确定用户语音对应的关键词与用户角色对应的话题数据库中各个候选话题描述数据均匹配失败之后，人机交互设备从通用话题库中查找与关键词匹配成功的通用话题描述数据，并根据该匹配成功的通用话题描述数据，确定用户话题。

其中，通用话题库用于记录各个通用话题的描述数据；而且该通用话题库可以包括至少一个通用话题描述数据。

通用话题描述数据用于描述一个话题的通用特征；而且本申请实施例不限定通用话题描述数据，例如，通用话题描述数据可以包括话题编号、话题关键词和话题属性中至少一个。

另外，本申请实施例不限定S44的实施方式，例如，在一种可能的实施方式中，若通用话题库包括K个通用话题描述数据，且各个通用话题描述数据均包括话题关键词，则S44具体可以包括：将用户语音对应的关键词与第k个通用话题描述数据中话题关键词进行匹配；若用户语音对应的关键词与第k个通用话题描述数据中话题关键词匹配成功，则可以确定该用户语音对应的关键词与该第k个通用话题描述数据匹配成功，故可以直接根据该第k个通用话题描述数据，确定用户话题(例如，可以将第k个通用话题描述数据中话题编号对应的话题，确定为用户话题)；若用户语音对应的关键词与第k个通用话题描述数据中话题关键词匹配失败，则可以确定该用户语音对应的关键词与该第k个通用话题描述数据匹配失败，故可以继续将用户语音对应的关键词与其他通用话题描述数据中话题关键词进行匹配即可。其中，k为正整数，k≤K，K为正整数。

基于上述S4的相关内容可知，对于人机交互设备来说，若该人机交互设备无法从用户角色对应的话题数据库中查找出用户话题，则可以从话题覆盖面比较大的通用话题库中查找该用户话题即可，如此能够有效地避免因无法识别用户语音涉及的话题特征而对人机交互过程造成的不良影响，如此有利于提高用户的人机交互体验。

需要说明的是，如果人机交互设备无法利用通用话题库确定出用户话题，则可以表示人机交互设备无法确定出用户语音所涉及的对话话题，故为了避免对话交互中断，人机交互设备可以利用下文S14所示的过程确定用户语音对应的回复语音，只需下文S14中“待使用角色”替换为“用户角色”，以及“对话发起语音”替换为“用户语音对应的回复语音”即可。如此该人机交互设备能够引导该用户语音的发音者进入关于另外一个话题的对话交互过程，从而能够有效地避免因人机交互设备无法识别用户话题而导致对话交互中断，从而有利于提高人机交互设备与用户之间对话交互的灵活性，进而能够提高用户的人机交互体验。

实际上，因一个角色关注的话题一直处于变化中，故为了保证每个角色对应的话题数据库能够准确地表示出该角色实时关注的话题，可以对各个角色对应的话题数据库进行实时地更新。为了满足该需求，本申请实施例提供了S4的又一种实施方式，在该实施方式中，S4除了包括上述S41-S43或上述S41-S44以外，S4可以还包括S45：

S45：人机交互设备根据用户话题，更新用户角色对应的话题数据库。

为了便于理解S45，下面结合两种情况进行说明。

情况1，若用户角色对应的话题数据库已经记录了上述“用户话题”的描述数据(也就是，在确定用户语音对应的关键词与用户角色对应的话题数据库中待使用话题描述数据匹配成功之后)，则S45具体可以包括步骤21-步骤22：

步骤21：将待使用话题描述数据中话题使用频数加一。

步骤22：将待使用话题描述数据中话题最近一次使用时间更新为用户语音对应的发生时间(如，用户语音的接收时间、用户语音的回复时间等)。

需要说明的是，上述“情况1”的相关内容是以包括S41-S43的用户话题确定过程作为基础进行实施的。

情况2，若用户角色对应的话题数据库仍未记录上述“用户话题”的描述数据(也就是，在确定用户语音对应的关键词与用户角色对应的话题数据库中各个候选话题描述数据均匹配失败之后)，则S45具体可以包括步骤31-步骤37：

步骤31：针对用户话题进行话题编号处理，得到该用户话题的话题编号。

步骤32：从用户话题对应的预设语料(如，对话语料、介绍语料等)中抽取该用户话题的关键词。

步骤33：将用户话题的话题使用频数设置为一。

步骤34：获取用户话题的话题属性。

步骤35：将用户话题的话题最近一次使用时间设置为用户语音对应的发生时间(如，用户语音的接收时间、用户语音的回复时间等)。

步骤36：根据用户话题的话题编号、用户话题的关键词、用户话题的话题使用频数、用户话题的话题属性、以及用户话题的话题最近一次使用时间，生成用户话题描述数据。

步骤37：将用户话题描述数据添加至用户角色对应的话题数据库，以使该用户角色对应的话题数据库包括该用户话题描述数据。

需要说明的是，上述“情况2”的相关内容是以包括S41-S44的用户话题确定过程作为基础进行实施的。

基于上述S45的相关内容可知，对于人机交互设备来说，在获取到用户话题之后，可以利用该用户话题更新用户角色对应的话题数据库，以使该话题数据库能够准确地表示出该用户角色实时关注的话题，从而使得该话题数据库具有较好的实时性，如此有利于提高用户话题的识别准确性，从而有利于提高对话回复的准确性。

基于上述S4的相关内容可知，对于人机交互设备来说，在获取到用户语音之后，可以对该用户语音进行话题识别(尤其是可以参考用户角色对该用户语音进行话题识别)，得到该用户话题，以使该用户话题能够准确地表示出该用户语音的发音者希望与人机交互设备通过对话交互进行讨论的话题。

S5：人机交互设备根据用户语音、用户角色和用户话题，确定该用户语音对应的回复语音。

本申请实施例不限定S5的实施方式，例如，在一种可能的实施方式中，S5具体可以包括S51-S53：

S51：人机交互设备对用户语音进行语音识别，得到该用户语音对应的语音文本。

需要说明的是，S51的相关内容请参见上文S31。

S52：人机交互设备根据用户语音对应的语音文本、用户角色、用户话题和预先构建的回复生成模型，得到该用户语音对应的回复语料。

回复生成模型可以根据样本语音对应的语音文本、该样本语音对应的发音角色、该样本语音对应的对话话题和该样本语音对应的回复语料进行构建。其中，样本语音对应的对话话题是指该样本语音携带的语音信息所涉及的对话话题。

基于S52的相关内容可知，对于人机交互设备来说，在获取到用户语音对应的语音文本、用户角色及其用户话题之后，可以将该用户语音对应的语音文本、用户角色、用户话题(以及用户年龄、用户情绪、权限描述数据等中的至少一个信息)输入预先构建的回复生成模型，以使该回复生成模型能够基于该语音文本、用户角色、用户话题(以及用户年龄、用户情绪、权限描述数据等中的至少一个信息)进行对话回复，得到并输出该用户语音对应的回复语料，以使该回复语料能够满足该用户角色以及该用户话题对应的对话交互需求。

S53：人机交互设备根据用户语音对应的回复语料，生成用户语音对应的回复语音。

需要说明的是，S53的相关内容请参见上文S33。

基于上述S4至S5的相关内容可知，对于人机交互设备来说，在获取到用户语音之后，可以参考用户角色以及用户话题对该用户语音进行对话回复，得到该用户语音对应的回复语音。其中，因回复语音是参考用户角色以及用户话题进行确定的，使得该回复语音能够同时符合该用户语音的发音者的角色特点以及话题特点，从而使得该回复语音能够更好地满足该用户语音的发音者的对话交互需求，如此有利于提高人机交互设备与用户之间的对话准确性，从而能够提高用户的人机交互体验。

在一种可能的实施方式下，人机交互设备可以参考用户年龄进行对话回复。基于此可知，人机交互方法除了包括上述全部或者部分步骤以外，可以还包括S6-S7：

S6：人机交互设备对用户语音进行年龄识别，得到用户年龄。

其中，用户年龄用于表示用户语音的发音者的年龄特征。另外，本申请实施例不限定用户年龄的表示方式，例如，用户年龄可以利用一个年龄值进行表示，也可以利用一个年龄段进行表示。

另外，本申请实施例不限定S6的实施方式，可以采用现有的任一种能够基于语音数据(尤其是声纹数据)进行年龄识别的方法(如，基于预先构建的年龄识别模型的方法)进行实施。其中，年龄识别模型是根据样本语音以及该样本语音对应的实际年龄进行构建的。

S7：人机交互设备根据用户语音、用户角色和用户年龄，确定该用户语音对应的回复语音。

本申请实施例不限定S7的实施方式，例如，在一种可能的实施方式中，S7具体可以包括S71-S73：

S71：人机交互设备对用户语音进行语音识别，得到该用户语音对应的语音文本。

需要说明的是，S71的相关内容请参见上文S31。

S72：人机交互设备根据用户语音对应的语音文本、用户角色、用户年龄和预先构建的回复生成模型，得到该用户语音对应的回复语料。

回复生成模型可以根据样本语音对应的语音文本、该样本语音对应的发音角色、该样本语音对应的年龄信息和该样本语音对应的回复语料进行构建。其中，样本语音对应的年龄信息用于表示该样本语音的发音者的年龄。

基于S72的相关内容可知，对于人机交互设备来说，在获取到用户语音对应的语音文本、用户角色及其用户年龄之后，可以将该用户语音对应的语音文本、用户角色、用户年龄(以及用户话题、用户情绪、权限描述数据等中的至少一个信息)输入预先构建的回复生成模型，以使该回复生成模型能够基于该语音文本、用户角色、用户年龄(以及用户话题、用户情绪、权限描述数据等中的至少一个信息)进行对话回复，得到并输出该用户语音对应的回复语料，以使该回复语料符合该用户角色以及该用户年龄对应的对话交互需求。

S73：人机交互设备根据用户语音对应的回复语料，生成用户语音对应的回复语音。

需要说明的是，S73的相关内容请参见上文S33。

基于上述S71至S73的相关内容可知，对于人机交互设备来说，可以由回复生成模型参考用户角色和用户年龄，对用户语音进行对话回复，得到该用户语音对应的回复语音，以使该回复语音能够更符合该用户语音的发音者的对话交互需求。

实际上，不同年龄段喜好的对话声音不同(例如，儿童更喜欢儿童类的对话声音)。基于此，本申请实施例还提供了S7的一种可能的实施方式，其具体可以包括步骤41-步骤43：

步骤41：人机交互设备根据用户语音、用户角色和用户年龄，确定该用户语音对应的回复语料。

本申请实施例不限定步骤41的实施方式，例如，步骤41可以采用上文S71-S72所示的过程进行实施。

步骤42：人机交互设备根据用户年龄，确定用户语音对应的回复声音。

其中，用户语音对应的回复声音用于表示针对该用户语音进行语音回复时所使用的声音特征。

另外，本申请实施例不限定步骤42的实施方式，例如，在一种可能的实施方式中，步骤42具体可以包括：将用户年龄与至少一个候选年龄段进行匹配，并在确定该至少一个候选年龄段中待使用年龄段与用户年龄匹配成功之后，从预设映射关系中查询该待使用年龄段对应的对话声音，作为用户语音对应的回复声音。其中，预设映射关系包括待使用年龄段与该待使用年龄段对应的对话声音之间的对应关系。

其中，待使用年龄段是指与用户年龄匹配成功的候选年龄段。

预设映射关系用于记录各个候选年龄段对应的对话声音(如，0～15岁对应于儿童类声音)。另外，本申请实施例不限定候选年龄段，例如，上述“至少一个候选年龄段”可以包括15岁以下、15～25岁、26～40岁、41～60岁、和61岁以上。

步骤43：人机交互设备根据用户语音对应的回复语料和该用户语音对应的回复声音，确定该用户语音对应的回复语音。

本申请实施例中，对于人机交互设备来说，在获取到用户语音对应的回复语料及其对应的回复声音之后，可以依据该用户语音对应的回复语料及其对应的回复声音，生成该用户语音对应的回复语音，以使在人机交互设备输出该回复语音时能够按照该回复声音播放该回复语料。

基于上述步骤41至步骤43的相关内容可知，对于人机交互设备来说，可以先参考用户年龄，确定用户语音对应的回复语料以及回复声音；再参考该用户语音对应的回复语料及其对应的回复声音，生成该用户语音对应的回复语音，以使在人机交互设备输出该回复语音时能够按照该回复声音播放该回复语料，如此能够实现针对不同年龄段按照不同对话声音进行对话回复的目的，从而有利于提高人机交互设备与用户之间对话交互的灵活性，进而能够提高用户的人机交互体验。

基于上述S6至S7的相关内容可知，对于人机交互设备来说，在获取到用户语音之后，可以参考用户角色以及用户年龄对该用户语音进行对话回复，得到该用户语音对应的回复语音。其中，因回复语音是参考用户角色以及用户年龄进行确定的，使得该回复语音能够同时符合该用户语音的发音者的角色特点以及年龄特点，从而使得该回复语音能够更好地满足该用户语音的发音者的对话交互需求，如此有利于提高人机交互设备与用户之间的对话准确性，从而能够提高用户的人机交互体验。

在一种可能的实施方式下，人机交互设备可以参考用户情绪进行对话回复。基于此可知，人机交互方法除了包括上述全部或者部分步骤以外，可以还包括S8-S9：

S8：人机交互设备对用户语音进行情绪识别，得到用户情绪。

其中，用户情绪用于表示该用户语音的发音者在输入该用户语音时所具有的情绪特征。

另外，本申请实施例不限定S8的实施方式，可以采用现有的任一种能够基于语音数据(尤其是声纹数据)进行情绪识别的方法(如，基于预先构建的情绪识别模型的方法)进行实施。其中，情绪识别模型是根据样本语音以及该样本语音对应的实际情绪进行构建的。

S9：人机交互设备根据用户语音、用户角色和用户情绪，确定该用户语音对应的回复语音。

本申请实施例不限定S9的实施方式，例如，在一种可能的实施方式中，S9具体可以包括S91-S93：

S91：人机交互设备对用户语音进行语音识别，得到该用户语音对应的语音文本。

需要说明的是，S91的相关内容请参见上文S31。

S92：人机交互设备根据用户语音对应的语音文本、用户角色、用户情绪和预先构建的回复生成模型，得到该用户语音对应的回复语料。

回复生成模型可以根据样本语音对应的语音文本、该样本语音对应的发音角色、该样本语音对应的情绪信息和该样本语音对应的回复语料进行构建。其中，样本语音对应的情绪信息是指该样本语音的发音者在录制该样本语音时所具有的情绪特征。

基于S92的相关内容可知，对于人机交互设备来说，在获取到用户语音对应的语音文本、用户角色及其用户情绪之后，可以将该语音文本、用户角色、用户情绪(以及用户话题、用户年龄、权限描述数据等至少一个信息)输入预先构建的回复生成模型，以使该回复生成模型能够基于该语音文本、用户角色、用户情绪(以及用户话题、用户年龄、权限描述数据等至少一个信息)进行对话回复，得到并输出该用户语音对应的回复语料，以使该回复语料能够符合该用户角色以及该用户情绪对应的对话交互需求。

S93：人机交互设备根据用户语音对应的回复语料，生成用户语音对应的回复语音。

需要说明的是，S93的相关内容请参见上文S33。

基于上述S8至S9的相关内容可知，对于人机交互设备来说，在获取到用户语音之后，可以参考用户角色以及用户情绪，针对该用户语音进行对话回复，得到该用户语音对应的回复语音。其中，因回复语音是参考用户角色以及用户情绪进行确定的，使得该回复语音能够同时符合该用户语音的发音者的角色特点以及情绪特点，从而使得该回复语音能够更好地满足该用户语音的发音者的对话交互需求，如此有利于提高人机交互设备与用户之间的对话准确性，从而能够提高用户的人机交互体验。

在一种可能的实施方式下，人机交互设备可以参考用户角色对应的权限描述数据进行对话回复。基于此，人机交互方法除了包括上述全部或者部分步骤以外，可以还包括S10-S11：

S10：人机交互设备获取用户角色对应的权限描述数据。

其中，用户角色对应的权限描述数据用于表示该用户角色需要遵守的权限要求(如，设备使用要求、饮食要求等)。其中，设备使用要求是指针对人机交互设备的控制权限(例如，儿童不能利用人机交互设备打开电视机等)。饮食要求是指针对饮食方面的控制权限(例如，儿童不能吃太多西瓜等)。

S11：人机交互设备根据用户语音、用户角色和该用户角色对应的权限描述数据，确定用户语音对应的回复语音。

本申请实施例不限定S11的实施方式，例如，在一种可能的实施方式中，S11具体可以包括S111-S113：

S111：人机交互设备对用户语音进行语音识别，得到该用户语音对应的语音文本。

需要说明的是，S111的相关内容请参见上文S31。

S112：人机交互设备根据用户语音对应的语音文本、用户角色、该用户角色对应的权限描述数据和预先构建的回复生成模型，得到该用户语音对应的回复语料。

回复生成模型可以根据样本语音对应的语音文本、该样本语音对应的发音角色、该发音角色对应的权限描述数据和该样本语音对应的回复语料进行构建。其中，发音角色对应的权限描述数据用于表示该发音角色需要遵守的权限要求(如，设备使用要求、饮食要求等)。

基于S112的相关内容可知，对于人机交互设备来说，在获取到用户语音对应的语音文本、用户角色及其对应的权限描述数据之后，可以将该语音文本、用户角色、该用户角色对应的权限描述数据(以及用户话题、用户年龄、用户情绪等中的至少一个信息)输入预先构建的回复生成模型，以使该回复生成模型能够基于该语音文本、用户角色、用户角色对应的权限描述数据(以及用户话题、用户年龄、用户情绪等中的至少一个信息)进行对话回复，得到并输出该用户语音对应的回复语料，以使该回复语料能够符合该用户角色及其权限描述数据对应的对话交互需求。

S113：人机交互设备根据用户语音对应的回复语料，生成用户语音对应的回复语音。

需要说明的是，S113的相关内容请参见上文S33。

基于上述S10至S11的相关内容可知，对于人机交互设备来说，在获取到用户语音之后，可以参考用户角色以及该用户角色对应的权限描述数据，针对该用户语音进行对话回复，得到该用户语音对应的回复语音(如图3所示)。其中，因回复语音是参考用户角色及其对应的权限描述数据进行确定的，使得该回复语音能够同时符合该用户语音的发音者的角色特点以及权限描述数据特点，从而使得该回复语音能够更好地满足该用户语音的发音者的对话交互需求，如此有利于提高人机交互设备与用户之间的对话准确性，从而能够提高用户的人机交互体验。

方法实施例四

在一些情况下，为了提高用户的人机交互体验，人机交互设备可以主动发起对话。为了满足该需求，本申请实施例还提供了人机交互方法的一种可能的实施方式，在该实施方式中，人机交互方法除了包括上述全部或者部分步骤以外，可以还包括S12-S15：

S12：在人机交互设备处于空闲状态时，人机交互设备按照预设频率采集环境声音信号。

其中，预设频率可以预先设定。

环境声音信号是指从人机交互设备所处环境中采集的声音信号。

S13：人机交互设备对环境声音信号进行角色识别，得到该环境声音信号对应的角色识别结果。

其中，环境声音信号对应的角色识别结果用于表示该人机交互设备所处环境中是否存在候选设备使用者正在说话。

另外，本申请实施例不限定S13的实施方式，例如，可以采用上文S2的任一实施方式进行实施，只需将上文S2的任一实施方式中“用户语音”替换为“环境声音信号”即可。

S14：若环境声音信号对应的角色识别结果表示环境声音信号对应的发音角色为待使用角色，则人机交互设备根据待使用角色，确定对话发起语音。

其中，待使用角色用于表示人机交互设备所处环境中正在说话的候选设备使用者的角色信息。

对话发起语音是指在人机交互设备处于未被唤醒状态下主动向用户发起对话交互时所使用的对话引导语音。

另外，本申请实施例不限定对话发起语音的确定过程，例如，可以将该待使用角色对应的预设引导语音，确定为对话发起语音。

此外，为了进一步提高人机交互的灵活性，本申请实施例还提供了确定对话发起语音的一种可能的实施方式，其具体可以包括步骤51-步骤54：

步骤51：将待使用角色对应的话题数据库中所有候选话题描述数据进行聚类，得到N个话题数据聚类集。其中，N为正整数。

其中，第n个话题数据聚类集表示在聚类结果中被划分成第n类的各个候选话题描述数据的集合。n为正整数，n≤N。

另外，本申请实施例不限定步骤51中“聚类”的实施方式，可以采用现有的或者未来出现的任一种聚类方法(如，k-means聚类算法)进行实施。

步骤52：从第n个话题数据聚类集中抽取一个候选话题描述数据，确定为第n个备用话题描述数据。其中，n为正整数，n≤N。

其中，第n个备用话题描述数据用于代表第n个话题数据聚类集的数据特征；而且该第n个备用话题描述数据用于描述第n个备用话题的相关特征(如，通用特征以及个性化特征)。

另外，本申请实施例不限定第n个备用话题描述数据的确定方式，例如，可以从第n个话题数据聚类集中随机抽取一个候选话题描述数据，确定为第n个备用话题描述数据。

步骤53：根据待使用角色对应的参考话题、第1个备用话题描述数据至第N个备用话题描述数据，确定环境声音信号对应的对话话题。

其中，待使用角色对应的参考话题可以预先设定。例如，可以将某一预设话题确定为待使用角色对应的参考话题。又如，可以将待使用角色对应的最近一次使用过的话题，确定为待使用角色对应的参考话题。

另外，本申请实施例不限定步骤53的实施方式，例如，在一种可能的实施方式中，若第n个备用话题描述数据包括第n个备用话题的话题编号、该第n个备用话题对应的使用频数、和该第n个备用话题对应的最近一次使用时间，步骤53具体可以包括步骤531-步骤533：

步骤531：根据第n个备用话题的话题编号，确定第n个备用话题。其中，n为正整数，n≤N。

本申请实施例中，在获取到第n个备用话题描述数据之后，可以根据该第n个备用话题描述数据中记录的第n个备用话题的话题编号，确定第n个备用话题(例如，直接将第n个备用话题的话题编号对应的话题，确定为第n个备用话题)。其中，n为正整数，n≤N。

步骤532：根据待使用角色对应的参考话题与第n个备用话题的相似度、该第n个备用话题对应的使用频数、以及该第n个备用话题对应的最近一次使用时间，确定该第n个备用话题的推荐得分。其中，n为正整数，n≤N。

其中，第n个备用话题的推荐得分用于表示该第n个备用话题的被推荐概率。

另外，本申请实施例不限定第n个备用话题的推荐得分的确定过程，例如，可以利用公式(1)计算第n个备用话题的推荐得分。

式中，score_n表示第n个备用话题的推荐得分；S_n,refer表示待使用角色对应的参考话题与第n个备用话题的相似度；w₁表示待使用角色对应的参考话题与第n个备用话题的相似度对应的加权权重，且w₁>0；F_n表示第n个备用话题对应的使用频数；w₂表示第n个备用话题对应的使用频数对应的加权权重，且w₂>0；T_now表示当前时刻(也就是，执行步骤531的时刻)；T_n表示第n个备用话题对应的最近一次使用时间；w₃表示当前时刻与第n个备用话题对应的最近一次使用时间之间时间差值的倒数所对应的加权权重，且w₃>0。

另外，本申请实施例不限定待使用角色对应的参考话题与第n个备用话题的相似度的计算方式，例如，可以利用欧氏距离(如公式(2)所示)进行计算。

S_n,refer＝Dist(L_refer,L_n) (2)

式中，S_n,refer表示待使用角色对应的参考话题与第n个备用话题的相似度；L_refer表示待使用角色对应的参考话题的文本向量；L_n表示第n个备用话题的文本向量；Dist(·)表示欧氏距离的计算函数。

步骤532：根据第1个备用话题的推荐得分至第N个备用话题的推荐得分，从第1个备用话题至第N个备用话题中筛选出环境声音信号对应的对话话题。

本申请实施例中，在获取到第1个备用话题的推荐得分至第N个备用话题的推荐得分之后，可以从第1个备用话题至第N个备用话题中筛选出环境声音信号对应的用户话题(例如，将第1个备用话题至第N个备用话题中推荐得分最高的备用话题，确定为环境声音信号对应的对话话题)。

基于上述步骤53的相关内容可知，在获取到第1个备用话题描述数据至第N个备用话题描述数据之后，可以参考该第1个备用话题描述数据至第N个备用话题描述数据、以及待使用角色对应的参考话题，确定环境声音信号对应的对话话题，以使该对话话题更符合人机交互设备所处环境中正在说话的候选设备使用者的话题需求。

步骤54：根据环境声音信号对应的对话话题，确定对话发起语音。

本申请实施例中，在获取到环境声音信号对应的对话话题，生成对话发起语音，以使该对话发起语音携带的语音信息涉及该对话话题，从而使得用户能够围绕该对话话题与人机交互设备进行对话交互。

基于上述S14的相关内容可知，对于人机交互设备来说，若环境声音信号对应的角色识别结果表示环境声音信号对应的发音角色为待使用角色，则表示针对该环境声音信号的角色识别成功，从而表示人机交互设备所处环境中存在正在说话的候选设备使用者，故可以基于该候选设备使用者的角色信息，生成对话发起语音，并将该对话发起语音进行输出，以使该候选设备使用者在听到该对话发起语音之后，该候选设备使用者能够与人机交互设备进行对话交互，如此有利于提高人机交互设备的对话主动性，从而有利于提高用户的人机交互体验。

S15：若环境声音信号对应的角色识别结果表示角色识别失败，则人机交互设备依旧处于空闲状态。

本申请实施例中，若环境声音信号对应的角色识别结果表示角色识别失败，则表示人机交互设备所处环境中不存在正在说话的候选设备使用者，故人机交互设备可以不采取任何主动行为，依旧保持空闲状态，如此能够避免人机交互设备浪费电量，从而能够有效地避免浪费资源浪费。

基于上述S12至S15的相关内容可知，对于人机交互设备来说，该人机交互设备不仅能够针对用户发起的对话进行对话回复，还能够依据用户当前关注的话题自动地发起对话与用户进行对话交互，如此能够提高用户的人机交互体验。

基于上述方法实施例提供的人机交互方法，本申请实施例还提供了一种人机交互装置，下面结合附图进行解释和说明。

装置实施例

装置实施例对人机交互装置进行介绍，相关内容请参见上述方法实施例。

参见图4，该图为本申请实施例提供的一种人机交互装置的结构示意图。

本申请实施例提供的人机交互装置400，包括：

语音获取单元401，用于获取用户语音；

角色识别单元402，用于对所述用户语音进行角色识别，得到用户角色；其中，所述用户角色用于表示针对所述用户语音的发音者的角色识别结果；

回复确定单元403，用于根据所述用户语音和所述用户角色，确定所述用户语音对应的回复语音。

在一种可能的实施方式中，所述角色识别单元402，具体用于：将所述用户语音输入预先构建的角色识别模型，得到所述角色识别模型输出的所述用户语音对应的角色识别结果；其中，所述角色识别模型是根据至少一个候选设备使用者的录制语音和所述至少一个候选设备使用者的实际角色进行构建的；根据所述用户语音对应的角色识别结果，确定所述用户角色。

在一种可能的实施方式中，所述角色识别单元402，还用于：若所述用户语音对应的角色识别结果表示角色识别失败，则根据所述用户语音和通用知识库，确定所述用户语音对应的回复语音；

所述人机交互装置400，还包括：

信息显示单元，用于显示角色录制提示信息；

模型更新单元，用于在获取到待录制用户的录制语音和所述待录制用户的实际角色之后，根据所述待录制用户的录制语音和所述待录制用户的实际角色，更新所述角色识别模型；其中，所述待录制用户用于表示所述用户语音的发音者。

在一种可能的实施方式中，所述人机交互装置400，还包括：

话题识别单元，用于对所述用户语音进行话题识别，得到所述用户话题；

所述回复确定单元403，具体用于：根据所述用户语音、所述用户角色和所述用户话题，确定所述用户语音对应的回复语音。

在一种可能的实施方式中，所述话题识别单元，具体用于：对所述用户语音进行关键词提取，得到所述用户语音对应的关键词；将所述用户语音对应的关键词与所述用户角色对应的话题数据库中至少一个候选话题描述数据进行匹配；在确定所述用户语音对应的关键词与所述用户角色对应的话题数据库中待使用话题描述数据匹配成功之后，根据所述待使用话题描述数据，确定所述用户话题。

在一种可能的实施方式中，所述话题识别单元，还用于：

在一种可能的实施方式中，所述人机交互装置400，还包括：

数据库更新单元，用于根据所述用户话题，更新所述用户角色对应的话题数据库。

在一种可能的实施方式中，所述人机交互装置400，还包括：

年龄识别单元，用于对所述用户语音进行年龄识别，得到用户年龄；

所述回复确定单元403，具体用于：根据所述用户语音、所述用户角色和所述用户年龄，确定所述用户语音对应的回复语音。

在一种可能的实施方式中，所述回复确定单元403，具体用于：根据所述用户语音、所述用户角色和所述用户年龄，确定所述用户语音对应的回复语料；根据所述用户年龄，确定所述用户语音对应的回复声音；根据所述用户语音对应的回复语料和所述用户语音对应的回复声音，确定所述用户语音对应的回复语音。

在一种可能的实施方式中，所述人机交互装置400，还包括：

情绪识别单元，用于对所述用户语音进行情绪识别，得到用户情绪；

所述回复确定单元403，具体用于：根据所述用户语音、所述用户角色和所述用户情绪，确定所述用户语音对应的回复语音。

在一种可能的实施方式中，所述人机交互装置400，还包括：

权限获取单元，用于获取所述用户角色对应的权限描述数据；

所述回复确定单元403，具体用于：根据所述用户语音、所述用户角色和所述用户角色对应的权限描述数据，确定所述用户语音对应的回复语音。

在一种可能的实施方式中，所述回复确定单元403，具体用于：对所述用户语音进行语音识别，得到所述用户语音对应的语音文本；根据所述语音文本、所述用户角色和预先构建的回复生成模型，得到所述用户语音对应的回复语料；其中，所述回复生成模型是根据样本语音对应的语音文本、所述样本语音对应的发音角色和所述样本语音对应的回复语料构建的；根据所述用户语音对应的回复语料，生成所述用户语音对应的回复语音。

在一种可能的实施方式中，所述人机交互装置400，还包括：

环境监控单元，用于在所述人机交互设备处于空闲状态时，按照预设频率采集环境声音信号；

信号识别单元，用于对所述环境声音信号进行角色识别，得到所述环境声音信号对应的角色识别结果；

对话发起单元，用于若所述环境声音信号对应的角色识别结果表示所述环境声音信号对应的发音角色为待使用角色，则根据所述待使用角色，确定对话发起语音。

在一种可能的实施方式中，所述对话发起单元，包括：

聚类子单元，用于将所述待使用角色对应的话题数据库中所有候选话题描述数据进行聚类，得到N个话题数据聚类集；其中，N为正整数；

抽取子单元，用于从所述第n个话题数据聚类集中抽取一个候选话题描述数据，确定为第n个备用话题描述数据；其中，n为正整数，n≤N；

话题确定子单元，用于根据所述待使用角色对应的参考话题、第1个备用话题描述数据至第N个备用话题描述数据，确定所述环境声音信号对应的对话话题；

语音确定子单元，用于根据所述环境声音信号对应的对话话题，确定对话发起语音。

在一种可能的实施方式中，所述话题确定子单元，具体用于：若所述第n个备用话题描述数据包括第n个备用话题的话题编号、所述第n个备用话题对应的使用频数、和所述第n个备用话题对应的最近一次使用时间，则根据所述第n个备用话题的话题编号，确定所述第n个备用话题；其中，n为正整数，n≤N；根据所述待使用角色对应的参考话题与所述第n个备用话题的相似度、所述第n个备用话题对应的使用频数、以及所述第n个备用话题对应的最近一次使用时间，确定所述第n个备用话题的推荐得分；其中，n为正整数，n≤N；根据所述第1个备用话题的推荐得分至所述第N个备用话题的推荐得分，从所述第1个备用话题至所述第N个备用话题中筛选出所述环境声音信号对应的对话话题。

进一步地，本申请实施例还提供了一种人机交互设备，包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述人机交互方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述人机交互方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述人机交互方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种人机交互方法，其特征在于，应用于人机交互设备，所述方法包括：

获取用户语音；

2.根据权利要求1所述的方法，其特征在于，所述对所述用户语音进行角色识别，得到用户角色，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

显示角色录制提示信息；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述用户语音进行话题识别，得到所述用户话题；

5.根据权利要求4所述的方法，其特征在于，所述对所述用户语音进行话题识别，得到所述用户话题，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求5或6所述的方法，其特征在于，所述方法还包括：

根据所述用户话题，更新所述用户角色对应的话题数据库。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述用户语音进行年龄识别，得到用户年龄；

9.根据权利要求8所述的方法，其特征在于，所述根据所述用户语音、所述用户角色和所述用户年龄，确定所述用户语音对应的回复语音，包括：

根据所述用户年龄，确定所述用户语音对应的回复声音；

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述用户语音进行情绪识别，得到用户情绪；

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述用户角色对应的权限描述数据；

12.根据权利要求1所述的方法，其特征在于，所述根据所述用户语音和所述用户角色，确定所述用户语音对应的回复语音，包括：

根据所述语音文本、所述用户角色和预先构建的回复生成模型，得到所述用户语音对应的回复语料；其中，所述回复生成模型是根据样本语音对应的语音文本、所述样本语音对应的发音角色和所述样本语音对应的回复语料构建的；

13.根据权利要求1所述的方法，其特征在于，所述方法还包括：

14.根据权利要求13所述的方法，其特征在于，所述根据所述待使用角色，确定对话发起语音，包括：

15.根据权利要求14所述的方法，其特征在于，若所述第n个备用话题描述数据包括第n个备用话题的话题编号、所述第n个备用话题对应的使用频数、和所述第n个备用话题对应的最近一次使用时间，则所述根据所述待使用角色对应的参考话题、第1个备用话题描述数据至第N个备用话题描述数据，确定所述环境声音信号对应的用户话题，包括：

16.一种人机交互装置，其特征在于，包括：

语音获取单元，用于获取用户语音；

17.一种设备，其特征在于，所述设备包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1至15任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1至15任一项所述的方法。

19.一种计算机程序产品，其特征在于，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行权利要求1至15任一项所述的方法。