CN117877509B

CN117877509B - 一种数字人实时交互方法及装置、电子设备、存储介质

Info

Publication number: CN117877509B
Application number: CN202410285608.7A
Authority: CN
Inventors: 徐波; 袁志勇; 李传胜; 姚云飞; 欧阳晔
Original assignee: Asiainfo Technologies China Inc
Current assignee: Asiainfo Technologies China Inc
Priority date: 2024-03-13
Filing date: 2024-03-13
Publication date: 2024-06-04
Anticipated expiration: 2044-03-13
Also published as: CN117877509A

Abstract

本申请公开了一种数字人实时交互方法及装置、电子设备、存储介质，所述方法包括：采集用户当前输入的语音；基于用户当前输入的语音生成当前回复文本；基于当前回复文本进行语音合成，得到当前回复语音；提取当前回复文本的音素，并查找出当前回复文本的音素对应的面部动画数据，以及将当前回复语音输入语音驱动服务模型中进行处理，以得到当前回复语音对应的面部动画数据；播放当前回复语音，并利用当前回复文本的音素对应的面部动画数据对数字人的面部进行同步渲染；当语音驱动服务模型输出当前回复语音对应的面部动画数据时，利用当前回复语音对应的面部动画数据替换当前回复文本的音素对应的面部动画数据，对数字人的面部进行同步渲染。

Description

一种数字人实时交互方法及装置、电子设备、存储介质

技术领域

本申请涉及人机交互技术领域，特别涉及一种数字人实时交互方法及装置、电子设备、存储介质。

背景技术

为了能提高人机交互体验，当前许多人工交互场景都通过构建的虚拟数字人与用户进行交互。并且，为更加趋近于真实的交流场景，还会根据向用户播放的语音，利用当前播放的语音对应的嘴部数据，对虚拟数字人进行渲染。

当前为了实现虚拟数字人的口型与语音一致，主要的方式是在人机交互时，获取终端回复用户的内容，并抽取该内容的音素，例如内容的声韵母或者音标。然后基于抽取的音素确定出对应的口型动画，并利用其对虚拟数字人进行渲染。或是提取该内容的特征，并基于该内容的特征，通过神经网络模型生成该内容对应的口型动画，用于对虚拟数字人进行渲染。

但是由于音素的种类本身有限，并且从音频中能抽取的音素也有限，所以基于这些比较少量的信息生成的口型动画较为单一，存在不连贯的问题，所以渲染出的效果较差，与播放的语音存在不协调的问题。而第二种方式，由于受限模型较大，所以其处理效率较慢，所以会存在明显的停顿过程，降低了实时交互的时效性体验。

发明内容

基于上述现有技术的不足，本申请提供了一种数字人实时交互方法及装置、电子设备、存储介质，以解决现有技术存在不协调以及时效性较差的问题。

为了实现上述目的，本申请提供了以下技术方案：

本申请第一方面提供了一种数字人实时交互方法，包括：

采集用户当前输入的语音；

基于所述用户当前输入的语音，生成所述用户当前输入的语音对应的当前回复文本；

基于所述当前回复文本进行语音合成，得到当前回复语音；

提取所述当前回复文本的音素，并查找出所述当前回复文本的音素对应的面部动画数据，以及将所述当前回复语音输入语音驱动服务模型中进行处理，以得到所述当前回复语音对应的面部动画数据；

播放所述当前回复语音，并利用所述当前回复文本的音素对应的面部动画数据对数字人的面部进行同步渲染；

当所述语音驱动服务模型完成对所述当前回复语音的处理，输出所述当前回复语音对应的面部动画数据时，利用所述当前回复语音对应的面部动画数据替换所述当前回复文本的音素对应的面部动画数据，对所述数字人的面部进行同步渲染。

可选地，在上述的数字人实时交互方法中，所述基于所述用户当前输入的语音，生成所述用户当前输入的语音对应的当前回复文本，包括：

对所述用户当前输入的语音进行语音识别，得到当前输入文本；

利用智能对话***对所述当前输入文本进行处理，得到当前回复语音。

可选地，在上述的数字人实时交互方法中，所述提取所述当前回复文本的音素，并查找出所述当前回复文本的音素对应的面部动画数据，包括：

提取所述当前回复文本的音素，并将所述当前回复文本的音素发送至终端；

从内置在所述终端的音素文本与面部动画的映射关系表中，查找出所述当前回复文本的音素对应的面部动画数据。

可选地，在上述的数字人实时交互方法中，所述将所述当前回复语音输入语音驱动服务模型中进行处理，以得到所述当前回复语音对应的面部动画数据，包括：

将所述当前回复语音输入部署中服务端的语音驱动服务模型中，通过所述语音驱动服务模型对所述当前回复语音进行处理，输出所述当前回复语音对应的各个面部区域数据；

基于各个所述当前回复语音对应的各个面部区域数据，生成所述当前回复语音对应的面部动画数据。

可选地，在上述的数字人实时交互方法中，所述利用所述当前回复语音对应的面部动画数据替换所述当前回复文本的音素对应的面部动画数据，对所述数字人的面部进行同步渲染，包括：

获取所述当前回复文本的当前播放时间点，并剔除所述当前回复文本的音素对应的面部动画数据；

利用所述当前回复语音对应的面部动画数据中从所述当前播放时间点起的面部动画数据，实时按照所述当前回复语音的播放进度对所述数字人的面部进行同步渲染。

可选地，在上述的数字人实时交互方法中，还包括：

对所述当前回复文本进行分词，得到所述当前回复文本对应的多个分词；

通过词性标注模型对所述当前回复文本对应的各个分词进行词性分析，得到所述当前回复文本对应的各个分词的词性；

从所述当前回复文本对应的各个分词中，确定出多个当前关键词；

分别从各个所述当前关键词的词性对应的适配动作类别的动作数据集中，随机选取出一个动作数据，作为当前动作数据；

在播放所述当前回复语音，利用所述当前动作数据对所述数字人的躯体进行同步渲染。

本申请第二方面提供了一种数字人实时交互装置，包括：

语音采集单元，用于采集用户当前输入的语音；

回复文本生成单元，用于基于所述用户当前输入的语音，生成所述用户当前输入的语音对应的当前回复文本；

语音合成单元，用于基于所述当前回复文本进行语音合成，得到当前回复语音；

音素面部驱动单元，用于提取所述当前回复文本的音素，并查找出所述当前回复文本的音素对应的面部动画数据；

语音面部驱动单元，用于将所述当前回复语音输入语音驱动服务模型中进行处理，以得到所述当前回复语音对应的面部动画数据；

第一渲染播放单元，用于播放所述当前回复语音，并利用所述当前回复文本的音素对应的面部动画数据对数字人的面部进行同步渲染；

第二渲染播放单元，用于当所述语音驱动服务模型完成对所述当前回复语音的处理，输出所述当前回复语音对应的面部动画数据时，利用所述当前回复语音对应的面部动画数据替换所述当前回复文本的音素对应的面部动画数据，对所述数字人的面部进行同步渲染。

可选地，在上述的数字人实时交互装置中，所述回复文本生成，包括：

语音识别单元，用于对所述用户当前输入的语音进行语音识别，得到当前输入文本；

智能对话***单元，用于对所述当前输入文本进行处理，得到当前回复语音。

可选地，在上述的数字人实时交互装置中，所述音素面部驱动单元，包括：

提取单元，用于提取所述当前回复文本的音素，并将所述当前回复文本的音素发送至终端；

查找单元，用于从内置在所述终端的音素文本与面部动画的映射关系表中，查找出所述当前回复文本的音素对应的面部动画数据。

可选地，在上述的数字人实时交互装置中，所述语音面部驱动单元，包括：

输出单元，用于将所述当前回复语音输入部署中服务端的语音驱动服务模型中，通过所述语音驱动服务模型对所述当前回复语音进行处理，输出所述当前回复语音对应的各个面部区域数据；

动画生成单元，用于基于各个所述当前回复语音对应的各个面部区域数据，生成所述当前回复语音对应的面部动画数据。

可选地，在上述的数字人实时交互装置中，所述第二渲染播放单元，包括：

时间获取单元，用于获取所述当前回复文本的当前播放时间点；

剔除单元，用于剔除所述当前回复文本的音素对应的面部动画数据；

渲染子单元，用于利用所述当前回复语音对应的面部动画数据中从所述当前播放时间点起的面部动画数据，实时按照所述当前回复语音的播放进度对所述数字人的面部进行同步渲染。

可选地，在上述的数字人实时交互装置中，还包括：

分词单元，用于对所述当前回复文本进行分词，得到所述当前回复文本对应的多个分词；

词性分析单元，用于通过词性标注模型对所述当前回复文本对应的各个分词进行词性分析，得到所述当前回复文本对应的各个分词的词性；

筛选单元，用于从所述当前回复文本对应的各个分词中，确定出多个当前关键词；

选取单元，用于分别从各个所述当前关键词的词性对应的适配动作类别的动作数据集中，随机选取出一个动作数据，作为当前动作数据；

动作渲染单元，用于在播放所述当前回复语音，利用所述当前动作数据对所述数字人的躯体进行同步渲染。

本申请第三方面提供了一种电子设备，包括：

存储器和处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述程序，所述程序被执行时，具体用于实现如上述任意一项所述的数字人实时交互方法。

本申请第四方面提供了一种计算机存储介质，用于存储计算机程序，所述计算机程序被执行时，用于实现如上述任意一项所述的数字人实时交互方法。

本申请实施例提供了一种数字人实时交互方法，采集用户当前输入的语音。基于用户当前输入的语音，生成用户当前输入的语音对应的当前回复文本。基于当前回复文本进行语音合成，得到当前回复语音。提取当前回复文本的音素，并查找出当前回复文本的音素对应的面部动画数据，以及将当前回复语音输入语音驱动服务模型中进行处理，以得到当前回复语音对应的面部动画数据，从而同时通过两种方式生成面部动画数据。由于基于音素生成面部动画数据较快，所以在当前回复文本的音素对应的面部动画数据生成后，则可以播放当前回复语音，并利用当前回复文本的音素对应的面部动画数据对数字人的面部进行同步渲染，从而可以有效地保证实时交互的时效性。而基于音频通过模型生成的面部动画数据的生成速度较慢，但是其渲染效果较佳，所以当语音驱动服务模型完成对当前回复语音的处理，输出当前回复语音对应的面部动画数据时，利用当前回复语音对应的面部动画数据替换当前回复文本的音素对应的面部动画数据，对数字人的面部进行同步渲染，从而可以有效保证渲染面部表情和口型与语音播放更加协调，进而即保证了实时交互的时效性，又保证了渲染效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种数字人实时交互方法的流程图；

图2为本申请实施例提供的一种生成当前回复文本的方法的流程图；

图3为本申请实施例提供的一种获取当前回复文本的音素对应的面部动画数据的方法的流程图；

图4为本申请实施例提供的一种获取当前回复语音对应的面部动画数据的方法的流程图；

图5为本申请实施例提供的一种利用当前回复语音对应的面部动画数据进行替换渲染的方法的流程图；

图6为本申请实施例提供的一种数字人的动作的同步渲染方法的流程图；

图7为本申请实施例提供的一种数字人实时交互装置的架构示意图；

图8为本申请实施例提供的一种电子设备的架构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请实施例提供了一种数字人实时交互方法，如图1所示，包括以下步骤：

S101、采集用户当前输入的语音。

具体的，实时采集用户在终端所输入的语音，然后通过后续处理，实现实时人机交互。

S102、基于用户当前输入的语音，生成用户当前输入的语音对应的当前回复文本。

需要说明的是，在本申请实施例中，人机交互是一个交流的过程，所以在得到用户当前输入的语音后，则可以基于用户当前输入的语音，生成需要进行回复的内容。而由于生成的过程中，实质是对文本数据进行处理，所以相应的生成的是回复的文本数据。因此当前回复文本为回复用户当前输入的语音的文本。

可选地，在本申请另一实施例中，步骤S102的一种具体实施方式，如图2所示，包括以下步骤：

S201、对用户当前输入的语音进行语音识别，得到当前输入文本。

由于后续是需要基于文本进行处理，才能确定出需要回复的内容，因此需要先通过语音识别，将用户当前输入的语音识别为文本。

S202、利用智能对话***对当前输入文本进行处理，得到当前回复语音。

S103、基于当前回复文本进行语音合成，得到当前回复语音。

由于后续是通过语音播放的方式回复用户，所以需要基于当前回复文本合成其对应的音频数据，得到当前回复语音。

S104、提取当前回复文本的音素，并查找出当前回复文本的音素对应的面部动画数据，以及将当前回复语音输入语音驱动服务模型中进行处理，以得到当前回复语音对应的面部动画数据。

其中，面部动画数据包括整个面部的动画数据，即不仅包括了口型动画数据，还包括表情、眼神等整个面部的动画数据，使得整个面部都与语音相协调，进一步提高人机交互的体验。

需要说明的是，在本申请实施例中，同时采用音素驱动和音频驱动的方式获取对应的面部动画数据，然后用于后续对数字人进行渲染。所以提取当前回复文本的音素，并查找出当前回复文本的音素对应的面部动画数据的同时，也将当前回复语音输入语音驱动服务模型中进行处理，以得到当前回复语音对应的面部动画数据。

具体的，确定当前回复文本的各个音素，然后从中提取出所需的音素，并从预先配置的各个音素与面部动画数据的对应关系中，查找出当前回复文本的音素对应的面部动画数据。

可选地，在本申请另一实施例中，提取当前回复文本的音素，并查找出当前回复文本的音素对应的面部动画数据的一种具体实施方式，如图3所示，包括以下步骤：

S301、提取当前回复文本的音素，并将当前回复文本的音素发送至终端。

需要说明的是，由于面部动画数据属于较大的数据，所以其从服务端传输至终端的时间较长。而音素数据较小，所以在本申请实施例中，直接将音素文本与面部动画的映射关系表内置在终端中。所以可以直接将较小的因素发送给终端，然后由终端查找当前回复文本的音素对应的面部动画数据，并用于对虚拟数字人进行渲染，从而可以进一步提高实时交互的时效性。

S302、从内置在终端的音素文本与面部动画的映射关系表中，查找出当前回复文本的音素对应的面部动画数据。

可选地，在本申请另一实施例中，将当前回复语音输入语音驱动服务模型中进行处理，以得到当前回复语音对应的面部动画数据的一种具体实施方式，如图4所示，包括以下步骤：

S401、将当前回复语音输入部署中服务端的语音驱动服务模型中，通过语音驱动服务模型对当前回复语音进行处理，输出当前回复语音对应的各个面部区域数据。

S402、基于各个当前回复语音对应的各个面部区域数据，生成当前回复语音对应的面部动画数据。

S105、播放当前回复语音，并利用当前回复文本的音素对应的面部动画数据对数字人的面部进行同步渲染。

需要说明的是，获得当前回复文本的音素对应的面部动画数据，仅是一个因素提取和匹配的过程，并且因素的量也比较有限，所以可以很快地得到当前回复文本的音素对应的面部动画数据。而受限于模型的大小，以及其处理过程中的处理量等因素，所以通过模型生成当前回复语音对应的面部动画数据的速度较慢。所以为了有效保证实时人机交互的失效性，因此在本申请实施例中，在得到当前回复文本的音素对应的面部动画数据后，则开始播放当前回复语音，并利用当前回复文本的音素对应的面部动画数据对数字人的面部进行同步渲染，即实时根据当前回复语音的播放的进度，利用当前回复文本的音素对应的面部动画数据中对应的数据，对数字人的面部进行渲染。

S106、当语音驱动服务模型完成对当前回复语音的处理，输出当前回复语音对应的面部动画数据时，利用当前回复语音对应的面部动画数据替换当前回复文本的音素对应的面部动画数据，对数字人的面部进行同步渲染。

需要说明的是，由于通常一个回复语音要播放完，通常需要一定的时间，并且该时间通常要大于语音驱动服务模对当前回复语音处理时间，所以通常在当前回复语音播放不久后，语音驱动服务模型就会完成当前回复语音的处理，输出当前回复语音对应的面部动画数据。而由于当前回复文本的音素对应的面部动画数据渲染出的效果与播放的语音的协调性，相较于语音驱动服务模型生成的当前回复语音对应的面部动画数据的渲染效果的协调性较差。所以在本申请实施例中，为了能保证用户的体验，在生成当前回复语音对应的面部动画数据后，会利用替换当前回复文本的音素对应的面部动画数据，对数字人的面部进行同步渲染，即在并不停止当前回复语音播放的情况下，不再使用当前回复文本的音素对应的面部动画数据进行渲染，而通过当前回复语音对应的面部动画数据，接着对数字人的面部进行同步渲染。

可选地，在本申请另一实施例中，步骤S106的一种具体实施方式，如图5所示，包括以下步骤：

S501、获取当前回复文本的当前播放时间点，并剔除当前回复文本的音素对应的面部动画数据。

S502、利用当前回复语音对应的面部动画数据中从当前播放时间点起的面部动画数据，实时按照当前回复语音的播放进度对数字人的面部进行同步渲染。

可选地，为了能进一步提高人机交互体验，在本申请实施例中，进一步包括对数字人的躯体的动作的同步渲染。如图6所示，本申请实施例提供的一种数字人的动作的同步渲染方法，包括以下步骤：

S601、对当前回复文本进行分词，得到当前回复文本对应的多个分词。

S602、通过词性标注模型对当前回复文本对应的各个分词进行词性分析，得到当前回复文本对应的各个分词的词性。

可选地，在本申请实施例中，词性标注模型可以按照如下表1的词性对各个分词进行词性标注。

S603、从当前回复文本对应的各个分词中，确定出多个当前关键词。

可选地，可以是针对句话中的各个分词，根据分词的词性的权重以及出现次数的占比，确定出其中的关键词。当然，也可以采用其他的策略确定出关键词。

S604、分别从各个当前关键词的词性对应的适配动作类别的动作数据集中，随机选取出一个动作数据，作为当前动作数据。

需要说明的是，在本申请实施例中，预先针对各个词性设置了其对应的适配动作类别。并且，在针对每个视频动作类别配置了多个动作数据。具体可以如下表2所示。

所以在查找出当前关键词后，可以根据当前关键词的词性匹配出其对应的适配动作类别。然后从该适配动作类别下的各个动作数据中，随机选取出一个动作，用于作为后续需要渲染的当前动作数据。

S605、在播放当前回复语音，利用当前动作数据对数字人的躯体进行同步渲染。

具体的，当前开始播放当前回复语音后，则可以根据播放当前回复语音的进度，利用当前播放进度对应的当前动作数据对数字人的躯体进行同步渲染。

本申请实施例提供了一种数字人实时交互方法，采集用户当前输入的语音。基于用户当前输入的语音，生成用户当前输入的语音对应的当前回复文本。基于当前回复文本进行语音合成，得到当前回复语音。提取当前回复文本的音素，并查找出当前回复文本的音素对应的面部动画数据，以及将当前回复语音输入语音驱动服务模型中进行处理，以得到当前回复语音对应的面部动画数据，从而同时通过两种方式生成面部动画数据。由于基于音素生成面部动画数据较快，所以在当前回复文本的音素对应的面部动画数据生成后，则可以播放当前回复语音，并利用当前回复文本的音素对应的面部动画数据对数字人的面部进行同步渲染，从而可以有效地保证实时交互的时效性。而基于音频通过模型生成的面部动画数据的生成速度较慢，但是其渲染效果较佳，所以当语音驱动服务模型完成对当前回复语音的处理，输出当前回复语音对应的面部动画数据时，利用当前回复语音对应的面部动画数据替换当前回复文本的音素对应的面部动画数据，对数字人的面部进行同步渲染，从而可以有效保证渲染面部动画与语音播放更加协调，进而即保证了实时交互的时效性，又保证了渲染效果。

本申请另一实施例提供了一种数字人实时交互装置，如图7所示，包括：

语音采集单元701，用于采集用户当前输入的语音。

回复文本生成单元702，用于基于用户当前输入的语音，生成用户当前输入的语音对应的当前回复文本。

语音合成单元703，用于基于当前回复文本进行语音合成，得到当前回复语音。

音素面部驱动单元704，用于提取当前回复文本的音素，并查找出当前回复文本的音素对应的面部动画数据。

语音面部驱动单元705，用于将当前回复语音输入语音驱动服务模型中进行处理，以得到当前回复语音对应的面部动画数据。

第一渲染播放单元706，用于播放当前回复语音，并利用当前回复文本的音素对应的面部动画数据对数字人的面部进行同步渲染。

第二渲染播放单元707，用于当语音驱动服务模型完成对当前回复语音的处理，输出当前回复语音对应的面部动画数据时，利用当前回复语音对应的面部动画数据替换当前回复文本的音素对应的面部动画数据，对数字人的面部进行同步渲染。

可选地，本申请另一实施例提供的数字人实时交互装置中，回复文本生成，包括：

语音识别单元，用于对用户当前输入的语音进行语音识别，得到当前输入文本。

智能对话***单元，用于对当前输入文本进行处理，得到当前回复语音。

可选地，在上述的数字人实时交互装置中，音素面部驱动单元，包括：

提取单元，用于提取当前回复文本的音素，并将当前回复文本的音素发送至终端。

查找单元，用于从内置在终端的音素文本与面部动画的映射关系表中，查找出当前回复文本的音素对应的面部动画数据。

可选地，本申请另一实施例提供的数字人实时交互装置中，语音面部驱动单元，包括：

输出单元，用于将当前回复语音输入部署中服务端的语音驱动服务模型中，通过语音驱动服务模型对当前回复语音进行处理，输出当前回复语音对应的各个面部区域数据。

动画生成单元，用于基于各个当前回复语音对应的各个面部区域数据，生成当前回复语音对应的面部动画数据。

可选地，本申请另一实施例提供的数字人实时交互装置中，第二渲染播放单元，包括：

时间获取单元，用于获取当前回复文本的当前播放时间点。

剔除单元，用于剔除当前回复文本的音素对应的面部动画数据。

渲染子单元，用于利用当前回复语音对应的面部动画数据中从当前播放时间点起的面部动画数据，实时按照当前回复语音的播放进度对数字人的面部进行同步渲染。

可选地，本申请另一实施例提供的数字人实时交互装置中，还包括：

分词单元，用于对当前回复文本进行分词，得到当前回复文本对应的多个分词。

词性分析单元，用于通过词性标注模型对当前回复文本对应的各个分词进行词性分析，得到当前回复文本对应的各个分词的词性。

筛选单元，用于从当前回复文本对应的各个分词中，确定出多个当前关键词。

选取单元，用于分别从各个当前关键词的词性对应的适配动作类别的动作数据集中，随机选取出一个动作数据，作为当前动作数据。

动作渲染单元，用于在播放当前回复语音，利用当前动作数据对数字人的躯体进行同步渲染。

需要说明的是，本申请上述实施例提供的各个单元的具体工作过程，可相应地参考上述方法实施例中的相应的步骤的实施过程，此处不再赘述。

本申请另一实施例提供了一种电子设备，如图8所示，包括：

存储器801和处理器802。

其中，存储器801用于存储程序。

处理器802用于执行存储器802存储的程序，该程序被执行时，具体用于实现如上述任意一个实施例提供的数字人实时交互方法。

本申请另一实施例提供了一种计算机存储介质，用于存储计算机程序，该计算机程序被执行时，用于实现如上述任意一个实施例提供的数字人实时交互方法。

计算机存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数字人实时交互方法，其特征在于，包括：

采集用户当前输入的语音；

基于所述当前回复文本进行语音合成，得到当前回复语音；

当所述语音驱动服务模型完成对所述当前回复语音的处理，输出所述当前回复语音对应的面部动画数据时，获取所述当前回复语音的当前播放时间点，并剔除所述当前回复文本的音素对应的面部动画数据；

利用所述当前回复语音对应的面部动画数据中从所述当前播放时间点起的面部动画数据，实时按照所述当前回复语音的播放进度对所述数字人的面部进行同步渲染；

其中，所述生成所述用户当前输入的语音对应的当前回复文本之后，还包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述用户当前输入的语音，生成所述用户当前输入的语音对应的当前回复文本，包括：

3.根据权利要求1所述的方法，其特征在于，所述提取所述当前回复文本的音素，并查找出所述当前回复文本的音素对应的面部动画数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述当前回复语音输入语音驱动服务模型中进行处理，以得到所述当前回复语音对应的面部动画数据，包括：

5.一种数字人实时交互装置，其特征在于，包括：

语音采集单元，用于采集用户当前输入的语音；

第二渲染播放单元，用于当所述语音驱动服务模型完成对所述当前回复语音的处理，输出所述当前回复语音对应的面部动画数据时，利用所述当前回复语音对应的面部动画数据替换所述当前回复文本的音素对应的面部动画数据，对所述数字人的面部进行同步渲染；

动作渲染单元，用于在播放所述当前回复语音，利用所述当前动作数据对所述数字人的躯体进行同步渲染；

其中，所述第二渲染播放单元，包括：

时间获取单元，用于获取所述当前回复语音的当前播放时间点；

6.根据权利要求5所述的装置，其特征在于，所述回复文本生成，包括：

7.一种电子设备，其特征在于，包括：

存储器和处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述程序，所述程序被执行时，具体用于实现如权利要求1至4任意一项所述的数字人实时交互方法。

8.一种计算机存储介质，其特征在于，用于存储计算机程序，所述计算机程序被执行时，用于实现如权利要求1至4任意一项所述的数字人实时交互方法。