CN114359450A

CN114359450A - 一种模拟虚拟人物说话的方法及装置

Info

Publication number: CN114359450A
Application number: CN202210050718.6A
Authority: CN
Inventors: 余国军; 耿俊怀
Original assignee: Xiaoduo Intelligent Technology Beijing Co ltd
Current assignee: Xiaoduo Intelligent Technology Beijing Co ltd
Priority date: 2022-01-17
Filing date: 2022-01-17
Publication date: 2022-04-15

Abstract

本发明实施例公开了一种模拟虚拟人物说话的方法及装置，方法包括以下步骤：根据多个音素分类，制作与每个音素分类对应的口型，得到多个基础口型；输入音频流，提取音频流的音频帧，识别音频帧的音素；从多个音素分类中，确定与音频帧的音素对应的音素分类，选择与之对应的基础口型；将选择的基础口型合成音频帧的对应口型。将真人口型通过音素分类，整理为14个基本口型，可以让计算机通过音素识别，驱动虚拟数字人口型同步。通过虚拟数字人口型专利，可以快速准确的实现虚拟数字人的语音口型同步。制定了口型标准化口型制作方案，极大的提高了虚拟数字人口型制作效率和口型的质量。让虚拟数字人更加接近于真人，极大的提升了用户的体验。

Description

一种模拟虚拟人物说话的方法及装置

技术领域

本发明实施例涉及语言识别处理领域，具体涉及一种模拟虚拟人物说话的方法及装置。

背景技术

虚拟数字人口型当前市场主要有以下三种解决方案：

(1)固定虚拟数字人口型动画：不管虚拟角色说啥，口型都是固定的，做不到语音口型同步；

(2)音量驱动虚拟数字人口型动画：根据虚拟角色说话的音量大小，来控制虚拟角色的口型大小，非常不准确，做不到语音口型同步；

(3)真人图片序列帧动画：科大讯飞的虚拟数字人小晴使用的方案，通过识别语音调用图片序列帧动画来实现语音口型同步，该解决方案局限性大，需要拍摄大量的真人素材，很难应用于市场。

发明内容

为此，本发明实施例提供一种模拟虚拟人物说话的方法及装置，以解决现有技术中市面上的音量识别和固定口型，只适用于卡通角色，无法实现语音口型同步的问题。

为了实现上述目的，本发明的实施方式提供如下技术方案：

在本发明的实施方式的一个方面中，提供了一种模拟虚拟人物说话的方法，所述方法包括：

根据多个音素分类，制作与每个所述音素分类对应的口型，得到多个基础口型；

输入音频流，提取所述音频流的音频帧，识别所述音频帧的音素；

从所述多个音素分类中，确定与所述音频帧的音素对应的所述音素分类，选择与之对应的所述基础口型；

将选择的所述基础口型合成所述音频帧的对应口型。

进一步地，所述多个音素分类包括：

(p，b，m)、(f，v)、(th)、(t，d)、(k，g)、(tS，dZ，S)、(s，z)、(n，l)、(r)、(A)、(e)、(ih)、(oh)、(ou)。

进一步地，在所述音频流中，提取2.5ms至60ms为单位的数据量为一帧音频。

进一步地，所述方法还包括：

制作虚拟人物模型，根据所述音频帧的对应口型，生成所述虚拟人物的口型。

进一步地，所述多个基础口型还包括：嘴闭合口型和通用口型。

进一步地，当从所述音频帧中识别的音素不在所述多个音素分类中时，选择所述通用口型作为基础口型；

当从所述音频帧中未识别出音素时，选择所述嘴闭合口型作为基础口型。

在本发明的实施方式的一个方面中，还提供了一种模拟虚拟人物说话的装置，所述装置包括：

基础口型生成单元，用于根据多个音素分类，制作与每个所述音素分类对应的口型，得到多个基础口型；

音素提取单元，用于输入音频流，提取所述音频流的音频帧，识别所述音频帧的音素；

基础口型确定单元，用于从所述多个音素分类中，确定与所述音频帧的音素对应的所述音素分类，选择与之对应的所述基础口型；

口型合成单元，用于将选择的所述基础口型合成所述音频帧的对应口型。

在本发明的实施方式的另一个方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述方法。

在本发明的实施方式的另一个方面中，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述方法。

本发明的实施方式具有如下优点：

本发明实施例公开了一种模拟虚拟人物说话的方法及装置，将真人口型通过音素分类，整理为14个基本口型，可以让计算机通过音素识别，驱动虚拟数字人口型同步。通过虚拟数字人口型专利，可以快速准确的实现虚拟数字人的语音口型同步。通过音素的融合分类，实现了虚拟数字人语音口型同步，使虚拟数字人说话时的口型容错率达到99.9％。制定了口型标准化口型制作方案，极大的提高了虚拟数字人口型制作效率和口型的质量。让虚拟数字人更加接近于真人，极大的提升了用户的体验。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引申获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明的实施例提供的一种模拟虚拟人物说话的方法的流程示意图；

图2为本发明的实施例提供的模拟虚拟人物说话的装置的结构示意图。

图中：102-基础口型生成单元、104-音素提取单元、106-基础口型确定单元、108-口型合成单元。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

实施例

参考图1、2所示，本发明的实施例提供了一种模拟虚拟人物说话的方法，方法包括以下步骤：

S1：根据多个音素分类，制作与每个音素分类对应的口型，得到多个基础口型。具体地，音素：音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。如〔ma〕包含〔m〕〔a〕两个发音动作，是两个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。如〔ma-mi〕中，两个〔m〕发音动作相同，是相同音素，〔a〕〔i〕发音动作不同，是不同音素。对音素的分析，一般是根据发音动作来描写的。如〔m〕的发音动作是：上唇和下唇闭拢，声带振动，气流从鼻腔流出发音。用语音学术语来说，就是双唇鼻音。例如在本发明中，经过大量测试，将普通话的音素整理为14个对应发音口型，多个音素分类包括以下14个分类：

(p，b，m)、(f，v)、(th)、(t，d)、(k，g)、(tS，dZ，S)、(s，z)、(n，l)、(r)、(A)、(e)、(ih)、(oh)、(ou)。以上每个分类的集合中都包括至少一个音素，制作14个与上述14个音素分类集合相对应的基础口型。以下为音素分类表，表中包括14个音素分类及对应的发音例子，例子中，拼音发音为加粗，英文发音为斜体。

音素/音位	例子(拼音+单词)
		p，b，m	pu，ban，man
f，v	fan，vat
		th	xing，zan
t，d	te，da
		k，g	call，gan
tS，dZ，S	chair，zha，she
		S，Z	Se，zeal
n，1	la，na
		r	rui
A	ka
		e	bed
ih	tip
		oh	tou
ou	bu

S2：输入音频流，提取音频流的音频帧，识别音频帧的音素。音频数据是流式的，本身没有明确的一帧帧的概念，在实际的应用中，为了音频算法处理/传输的方便，一般约定俗成取2.5ms～60ms为单位的数据量为一帧音频。这个时间被称之为“采样时间”，其长度没有特别的标准，它是根据编解码器和具体应用的需求来决定的。具体地，在提取一段音频帧后，通过神经网络识别模型将识别该音频帧中的音素。

S3：从多个音素分类中，确定与音频帧的音素对应的音素分类，选择与之对应的基础口型。具体地，将该音频帧中的音素与上述14的音素分类进行比对，确定与该音频帧的音素对应的音素分类。其中，音素分类可能是1个，也可能是多个，例如识别一个音频帧后得到多个音素，需分别确认与多个音素对应的多个音素分类，并选择与多个音素分类对应的多个基础口型。

S4：将选择的基础口型合成音频帧的对应口型。进一步地，制作虚拟人物模型，根据音频帧的对应口型，生成虚拟人物的口型。本发明的技术方案可通过实时调用识别音频帧中的音素，并合成与所述音频帧对应的图像帧，将图像帧实时合成动画或视频，可以快速准确的实现超写实/写实虚拟数字人的语音口型同步。

进一步地，多个基础口型中还包括：嘴闭合口型和通用口型。当从音频帧中识别的音素不在多个音素分类中时，选择通用口型作为基础口型。当从音频帧中未识别出音素时，选择嘴闭合口型作为基础口型。

如图2所示，本发明的实施例还提供了一种模拟虚拟人物说话的装置，该装置包括：基础口型生成单元102、音素提取单元104、基础口型确定单元106及口型合成单元108。

其中，基础口型生成单元102用于根据多个音素分类，制作与每个音素分类对应的口型，得到多个基础口型。音素提取单元104用于输入音频流，提取音频流的音频帧，识别音频帧的音素。基础口型确定单元106用于从多个音素分类中，确定与音频帧的音素对应的音素分类，选择与之对应的基础口型。口型合成单元108用于将选择的基础口型合成音频帧的对应口型。

本发明的技术方案通过音素的融合分类，实现了虚拟数字人语音口型同步，使虚拟数字人说话时的口型容错率达到99.9％。制定了口型标准化口型制作方案，极大的提高了虚拟数字人口型制作效率和口型的质量。同时让虚拟数字人更加接近于真人，极大的提升了用户的体验。

本说明书上述实施例装置的各功能模块的功能，可以通过上述方法实施例的各步骤来实现，因此，本说明书一个实施例提供的装置的具体工作过程，在此不复赘述。

根据另一方面的实施例，还提供了一种计算机可读存储介质，其上存储有计算机程序，当计算机程序在计算机中执行时，令计算机执行结合图1所描述的方法。

根据再一方面的实施例，还提供了一种计算设备，包括存储器和处理器，存储器中存储有可执行代码，处理器执行可执行代码时，实现结合图1的方法。

结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于服务器中。当然，处理器和存储介质也可以作为分立组件存在于服务器中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

虽然，上文中已经用一般性说明及具体实施例对本发明做了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种模拟虚拟人物说话的方法，其特征在于，所述方法包括：

将选择的所述基础口型合成所述音频帧的对应口型。

2.根据权利要求1所述的方法，其特征在于，所述多个音素分类包括：

3.根据权利要求1所述的方法，其特征在于，

在所述音频流中，提取2.5ms至60ms为单位的数据量为一帧音频。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，

所述多个基础口型还包括：嘴闭合口型和通用口型。

6.根据权利要求5所述的方法，其特征在于，

当从所述音频帧中识别的音素不在所述多个音素分类中时，选择所述通用口型作为基础口型；

7.一种模拟虚拟人物说话的装置，其特征在于，所述装置包括：

基础口型生成单元(102)，用于根据多个音素分类，制作与每个所述音素分类对应的口型，得到多个基础口型；

音素提取单元(104)，用于输入音频流，提取所述音频流的音频帧，识别所述音频帧的音素；

基础口型确定单元(106)，用于从所述多个音素分类中，确定与所述音频帧的音素对应的所述音素分类，选择与之对应的所述基础口型；

口型合成单元(108)，用于将选择的所述基础口型合成所述音频帧的对应口型。

8.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-6中任一项所述的方法。

9.一种计算设备，其特征在于，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-6中任一项所述的方法。