CN111081270B

CN111081270B - 一种实时音频驱动的虚拟人物口型同步控制方法

Info

Publication number: CN111081270B
Application number: CN201911314031.3A
Authority: CN
Inventors: 朱风云; 陈博
Original assignee: Dalian Real Time Intelligent Technology Co ltd
Current assignee: Dalian Real Time Intelligent Technology Co ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2021-06-01
Anticipated expiration: 2039-12-19
Also published as: CN111081270A

Abstract

本发明公开了一种实时音频驱动的虚拟人物口型同步控制方法。该方法包括如下步骤：从实时语音流中识别出视素概率的步骤；对所述视素概率进行滤波的步骤；将所述视素概率的采样率转换为和虚拟人物渲染帧率相同的采样率的步骤；将所述视素概率转换为标准口型配置并进行口型渲染的步骤。该方法可以避免要求在传递音频流时同步传递音素序列或口型序列信息，可以显著降低***复杂性、耦合度和实现难度，适用于各种在显示设备上渲染虚拟人物的应用场景。

Description

一种实时音频驱动的虚拟人物口型同步控制方法

技术领域

本发明属于虚拟人物姿态控制领域，具体涉及一种实时音频驱动的虚拟人物口型同步控制方法。

背景技术

虚拟人物建模与渲染技术在动画、游戏和电影等行业得到广泛应用。使虚拟人物讲话时能够具有自然流畅并与声音同步的口型动作是提升用户体验的关键。在实时***中，需要同步播放以流的形式实时获取的音频，和同步渲染的虚拟人物形象，这个过程中需要保证音频和人物口型之间的同步。

其应用场景包括：

1、实时音频为语音合成器所产生的语音；

1.1、可以以同步流的形式获取语音对应的音素序列；

1.2、无法以同步流的形式获取语音对应的音素序列；

2、实时音频为某个人所发出的语音。

在场景1.1中可以同步获得语音对应的音素序列。因此可以将音素序列转换为口型动作序列用于驱动虚拟人物口型变化。但是同步获取语音对应的音素序列在应用中需要额外的通信协议支持，用来保证语音和音素序列之间的时间同步，使得***复杂性提升，耦合性增加，实现难度较大。

在场景1.2和场景2中，无法同步获得语音对应的音素序列。因此需要一种能够基于实时音频数据驱动虚拟人物口型的控制方法。

因此，为了解决上述无法同步获得语音对应的音素序列的情况，亟需一种能够从音频中识别出口型序列，并利用该口型序列同步驱动虚拟人物口型变化的方法。

发明内容

本发明提供了一种实时音频驱动的虚拟人物口型同步控制方法，目的是要解决：在实时音频流传输的场景下，需要在设备端展示一个虚拟人物，该人物所说的语音从实时音频流获取，人物的口型需要和语音内容同步。

一种实时音频驱动的虚拟人物口型同步控制方法，包括如下步骤：

从实时语音流中识别出视素概率的步骤；其中，视素概率是基于预设的音素到视素的映射关系，将属于同一类视素的音素概率合并后得到的；

对所述视素概率进行滤波的步骤；

将所述视素概率的采样率转换为和虚拟人物渲染帧率相同的采样率的步骤；

将所述视素概率转换为标准口型配置并进行口型渲染的步骤。

如上所述的一种实时音频驱动的虚拟人物口型同步控制方法，其中：所述视素概率利用视素识别方法得到；或利用音素识别从实时语音流中识别出音素概率，再将所述音素概率转换为视素概率。

如上所述的一种实时音频驱动的虚拟人物口型同步控制方法，其中：采用有限或无限冲击响应滤波器，分别对各视素概率进行平滑滤波。

如上所述的一种实时音频驱动的虚拟人物口型同步控制方法，其中：将所述视素概率转换为标准口型配置时；首先，为每一种视素定义标准口型配置，所述标准口型配置为关键帧或描述口型的参数；其次，通过映射函数将视素概率转换为标准口型配置的混合比例；其中，在关键帧场景下，所述混合比例是不同关键帧之间的插值比例；在关键点参数、骨骼参数或blenshape参数的场景下，所述混合比例是各描述口型的参数的混合比例。

如上所述的一种实时音频驱动的虚拟人物口型同步控制方法，其中：在音视频播放时，为保持同步，在播放音频流时通过补偿延迟使音频流和视频流的内容同步。

如上所述的一种实时音频驱动的虚拟人物口型同步控制方法，其中：所述补偿延迟的缓冲区的长度由口型视素识别、滤波和视频渲染的处理延迟共同决定。

如上所述的一种实时音频驱动的虚拟人物口型同步控制方法，其中：所述音素识别包括：将语音流分帧，进行特征提取的步骤；以及利用所述特征进行音素估计的步骤。

如上所述的一种实时音频驱动的虚拟人物口型同步控制方法，其中：所述音素是IPA定义的音素，或自定义音素。

如上所述的一种实时音频驱动的虚拟人物口型同步控制方法，其中：所述补偿延迟的方法为：音频延迟补偿量＝分帧延迟+特征拼接延迟+音素识别延迟+滤波延迟-视频渲染延迟。

本发明针对无法同步获得语音对应的音素序列的情况，提出从音频中识别出口型序列，并利用该口型序列同步驱动虚拟人物口型变化的方法。可以避免要求在传递音频流时同步传递音素序列或口型序列信息，可以显著降低***复杂性、耦合度和实现难度，适用于各种在显示设备上渲染虚拟人物的应用场景。

与现有技术相比，本发明具有以下优点：

通过在设备端本地渲染虚拟人物，避免在服务器端渲染后通过网络传输视频信号，可以节省大量通信带宽，降低运营成本。

通过在设备端本地识别口型，避免在传输音频的同时传输口型信息，避免进行音频和口型的通信层同步，降低通信协议复杂度，降低实现难度。

通过基于音素或视素识别模型输出的概率作为标准口型参数的混合比，可以避免使用Viterbi解码算法将概率转化为音素或视素类别的标签，降低实现难度。

本发明从音频信号直接推理出口型参数的混合比，不使用Viterbi解码，可以避免解码带来的***性延迟，相比基于解码的方法可缩短***响应时间约1秒，在实时交互的场景下大幅度降低交互延迟，提升用户体验。

附图说明

图1为本发明提供的一种实时音频驱动的虚拟人物口型同步控制方法的第一实施例的流程图；

图2为本发明提供的一种实时音频驱动的虚拟人物口型同步控制方法的第二实施例的流程图；

图3为本发明提供的一种实时音频驱动的虚拟人物口型同步控制方法的第三实施例的流程图。

具体实施方式

下面将结合附图介绍本发明的实施方式，但是应当意识到本发明并不局限于所介绍的实施方式，并且在不脱离基本思想的情况下本发明的各种变型都是可行的。因此本发明的范围仅由所附的权利要求确定。

如图1所示，本发明提供的一种实时音频驱动的虚拟人物口型同步控制方法，包括如下步骤：

从实时语音流中识别出视素概率的步骤；

对所述视素概率进行滤波的步骤；

如图2所示，本发明提供的另一实施例的一种实时音频驱动的虚拟人物口型同步控制方法，包括如下步骤：

步骤1、音素识别

步骤1.1、特征提取

将语音流分帧，进行特征提取。

分帧过程为，在连续语音流上每隔H个样点，取帧长为L的一帧数据，帧和帧之间的重叠样点数为L-H。

特征提取过程为，将一帧数据进行信号处理，将其转化为某种形式，如频谱、相位谱、分带能量、倒谱系数、线性预测系数等等。

特征提取过程也可以不对语音数据进行处理，以原始音频样本作为特征提取的结果。

得到每一帧数据对应的特征后，也可以利用时间上相邻的帧的特征，进一步提取出差分特征，并将差分特征附加到原始特征上作为特征提取的结果。

得到每一帧数据对应的特征后，也可以将时间上临近的帧的特征进行拼接，将拼接的结果作为特征提取的结果。

差分和拼接操作可以同时使用。

步骤1.2、音素概率估计

音素概率估计利用统计机器学习模型，从输入特征，估计出该特征是某个音素的概率。

音素可以是IPA(International Phonetic Alphabet)定义的音素，也可以是以其他标准定义的音素。

以汉语为例，可以采用的自定义音素集合为：

b

p

m

f

d

t

n

l

g

h

j

q

x

z

c

s

zh

ch

sh

ng

a

o

e

i

ii

iii

u

v

er

sil

其中，ng表示neng的韵尾，i表示yi的韵母，ii表示zi的韵母，iii表示zhi的韵母。sil表示静音。

步骤2、音素到视素概率转换

其中，视素概率是基于预设的音素到视素的映射关系，将属于同一类视素的音素概率合并后得到的。

所述预设的映射关系可以遵循不同的设计准则，不限于本发明给定的具体实施例。

以汉语为例，该映射关系可以是：

视素	音素
		b	b/p/m
d	d/t/n
		z	z/c/s
zh	zh/ch/sh
		j	j/q/x
k	k/h/l/g/ng
		a	a
o	o
		e	e/er
i	i/ii/iii
		u	u/v
sil	sil

步骤3、对得到的视素概率进行平滑滤波

由于统计机器学***滑变化的概率。

平滑滤波过程可以采用有限冲击响应滤波器，分别对各视素概率进行滤波，滤波器的阶数和滤波器参数，可以根据对***响应时间的要求进行调节。

以最简单的情况为例，可以采用阶数为10的滑动平均有限冲击响应滤波器实现。实际实施过程中，可以采用不同的滤波器设计。

步骤4、根据视频的采样率对语音流进行重采样

由于步骤1中特征提取过程对语音流进行分帧，其数据帧的采样率为(H/音频采样率)赫兹。

渲染视频的采样率一般以显示设备的刷新率为准。

因此需要利用重采样，使数据帧的采样率和视频采样率一致。

步骤5、视素概率到标准口型混合比例转换

虚拟人物渲染***一般会对每种视素定义标准口型配置，可能的形式为关键帧，或描述口型的参数。

可以将视素概率通过线性或非线性映射函数，转换为标准口型配置的混合比例。

在关键帧场景下，该混合比例可以是不同关键帧之间的插值比例。

在关键点参数、骨骼参数或blenshape参数的场景下，该混合比例可以是参数的混合比例。

以一帧数据为例，如果视素概率为：

视素	视素概率
		b	0.0
d	0.0
		z	0.0
zh	0.0
		j	0.0
k	0.0
		a	0.6
o	0.4
		e	0.0
i	0.0
		u	0.0
sil	0.0

且假设从视素概率到混合比例的映射函数为线性映射。以关键点参数场景为例，将二维关键点参数定义为：

a(0.2 0.8)

e(0.7 0.3)

则上述视素概率对应的关键点参数混合比为a*0.6+e*0.4，因而得到当前帧的关键点参数为(0.4,0.6)。

步骤6、利用视素概率进行口型渲染

虚拟人物渲染***根据所述混合后的口型配置，渲染虚拟人物形象，得到视频流。

步骤7、音视频同步播放

由于语音流经过分帧、拼接、音素识别、平滑滤波等环节的处理，每个环节存在一定的***延迟，因此在播放音频流时需要通过补偿延迟使得音频流和视频流的内容同步。

所述延迟可以通过累加各处理环节的延迟计算得出。

由于视频渲染也存在一定延迟，在计算音频延迟时需要减去视频渲染***的延迟。

以常见场景为例：

音频延迟补偿量＝分帧延迟+特征拼接延迟+音素识别延迟+平滑滤波延迟-视频渲染延迟。

图3为本发明提供的第三实施例。该实施例与图2提供的第二实施例的区别在于：本实施例直接从语音流进行视素识别，不再经过音素识别和音素到视素概率的转换。

该方法的视素概率估计准确率相比图2所述方法略低，但基本不影响用户的主观感受，其优点在于实现难度和计算复杂度较低。

任何本领域技术人员在不脱离本发明的精神和范围内，都可以做出可能的变动和修改，因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

Claims

1.一种实时音频驱动的虚拟人物口型同步控制方法，包括如下步骤：

从实时语音流中识别出视素概率的步骤；其中，视素概率是基于预设的音素到视素的映射关系，将属于同一类视素的音素概率合并后得到的；所述视素概率利用视素识别方法得到；或利用音素识别从实时语音流中识别出音素概率，再将所述音素概率转换为视素概率；

对所述视素概率进行滤波的步骤；

将所述视素概率转换为标准口型配置并进行口型渲染的步骤；将所述视素概率转换为标准口型配置时：首先，为每一种视素定义标准口型配置，所述标准口型配置为关键帧或描述口型的参数；其次，通过映射函数将视素概率转换为标准口型配置的混合比例；其中，在关键帧场景下，所述混合比例是不同关键帧之间的插值比例；在关键点参数、骨骼参数或blenshape参数的场景下，所述混合比例是关键点参数、骨骼参数或blenshape参数的混合比例。

2.如权利要求1所述的一种实时音频驱动的虚拟人物口型同步控制方法，其特征在于：采用有限或无限冲击响应滤波器，分别对各视素概率进行平滑滤波。

3.如权利要求1所述的一种实时音频驱动的虚拟人物口型同步控制方法，其特征在于：在音视频播放时，为保持同步，在播放音频流时通过补偿延迟使音频流和视频流的内容同步。

4.如权利要求3所述的一种实时音频驱动的虚拟人物口型同步控制方法，其特征在于：所述补偿延迟的缓冲区的长度由口型视素识别、滤波和视频渲染的处理延迟共同决定。

5.如权利要求1所述的一种实时音频驱动的虚拟人物口型同步控制方法，其特征在于：所述音素识别包括：将语音流分帧，进行特征提取的步骤；以及利用所述特征进行音素估计的步骤。

6.如权利要求5所述的一种实时音频驱动的虚拟人物口型同步控制方法，其特征在于：所述音素是IPA定义的音素，或自定义音素。

7.如权利要求6所述的一种实时音频驱动的虚拟人物口型同步控制方法，其特征在于：所述音素为：

其中，ng表示neng的韵尾，i表示yi的韵母，ii表示zi的韵母，iii表示zhi的韵母，sil表示静音；所述音素与视素转换关系为：

视素音素 b b/p/m d d/t/n z z/c/s zh zh/ch/sh j j/q/x k k/h/l/g/ng a a o o e e/er i i/ii/iii u u/v sil sil

。

8.如权利要求3所述的一种实时音频驱动的虚拟人物口型同步控制方法，其特征在于：所述补偿延迟的方法为：音频延迟补偿量＝分帧延迟+特征拼接延迟+音素识别延迟+滤波延迟-视频渲染延迟。