CN104361620A

CN104361620A - 一种基于综合加权算法的口型动画合成方法

Info

Publication number: CN104361620A
Application number: CN201410712164.7A
Authority: CN
Inventors: 韩慧健; 梁秀霞; 贾可亮; 张锐; 刘峥; 其他发明人请求不公开姓名
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-11-27
Filing date: 2014-11-27
Publication date: 2015-02-18
Anticipated expiration: 2034-11-27
Also published as: CN104361620B

Abstract

一种基于综合加权算法的口型动画合成方法，包括如下步骤：针对输入的汉语文本进行分析，将汉字拆分为不同的汉语可视化音素，并将这些因素发送到语音合成***合成为基本的可视化音素流，基于MPEG-4标准建立具有真实感的参数人脸模型，使用可视化音素动画帧参数驱动模型的形变，添加背景图像和对噪声的分层次处理和添加，实现了生动、真实，效果好的口型动画合成。

Description

一种基于综合加权算法的口型动画合成方法

技术领域

本发明涉及人脸表情动画研究领域，更具体地说涉及到口型与语音匹配的口型动画合成研究领域。

背景技术

随着计算机动画技术的不断进步，人们对人机交互中口型动画的要求越来越高。但是，汉语口型动画的发展相对比较落后。一方面由于口型动画是一个多学科交叉的研究方向，包括了人机交互、计算机图形学、语音语言学等，而相关学科的发展不均衡，使得构建一个逼真的、高自动化程度口型动画***仍是一个极富挑战性的研究课题。另一方面，世界上有四分之一的人说汉语，汉语口型动画***具有极其广阔的应用市场，但是由于汉语本身所具有的复杂性，使得目前针对汉语的语音口型动画***的研究相对较少，发展也相对滞后，尤其是国内学者的研究工作仍处于刚起步阶段，缺乏理论积累与技术积淀，导致了能够实现汉语口型动画设计的软件很少，而比较著名的口型动画设计软件如Poser口型大师Mimic、3ds max插件Voice-O-Matic等，都主要针对英文语言，对汉语支持性较差。

针对英语口型动画研究，先后出现了协同发音模型，文本驱动、语音驱动以及混合驱动的方法，Guiard-Marigny等人提出了一种基于语音和图像共同作用驱动合成口型动画的方法，Bregler等人提出了videoRewrite方法，该方法利用计算机视觉跟踪说话人嘴唇的特征点，并利用变形技术将这些嘴唇姿态组合成最终的口型动画序列，Kang Liu与Jorn.Osterman提出英文中口型与字母音位的对应关系，并在MPEG-4动画标准的基础上建立脸部、口型动画合成的算法。针对汉语口型动画方面的研究较少。汉语口型动画合成的真实感效果在短时间内难以达到并超越国际先进水平。这就对汉语口型动画的研究提出了迫切的要求。此外，现有技术中缺少对背景噪声以及背景图像的考虑，使得动画不够生动、真实，并且不能根据实际需要来模拟场景，以及根据需要来调整噪声以提高动画的效果。

本发明从构建语音驱动口型动画合成的研究角度出发，对三维唇区模型设计、唇动序列设计、汉语语音同步算法及个性化口型建模进行深入研究，实现在输入汉语文本信息的条件下，利用信息技术合成，输出视觉上具有高度真实感与唇音完美协调同步的虚拟人口型动画，并且通过添加背景图像，使得动画可以根据需要来模拟各种场景，通过对噪声的分层次处理和添加，从而使得动画生动、真实，提高了动画的效果。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于综合加权算法的口型动画合成方法，该方法能够输出视觉上具有高度真实感与唇音完美协调同步的虚拟人口型动画，并且动画生动、真实、效果好，依次包括以下步骤：

步骤1：输入汉语文本，针对输入的汉语文本进行分析，将汉字拆分为不同的汉语可视化音素，并将这些因素发送到语音合成***合成为基本的可视化音素流；

步骤2：基于MPEG-4标准建立具有真实感的参数人脸模型，使用可视化音素动画帧参数驱动模型的形变，实现人脸口型动画；

步骤3：从输入汉语文本中获得与输入汉语文本同步的输入背景噪声，对输入背景噪声进行分析，进行输入背景噪声平滑处理，得到初始输入背景噪声；

步骤4：从汉字拆分为不同的汉语可视化音素中分别提取音素拆分后的音素输入背景噪声，对音素输入背景噪声进行分析，进行音素输入背景噪声平滑处理，得到初始音素输入背景噪声；

步骤5：利用得到的初始音素输入背景噪声，对得到的初始输入背景噪声进行校正，得到校正后的输入背景噪声；

步骤6：基于综合加权算法，获得声韵时间控制比例，添加声韵权重值因子，重新计算单音素口型动画的时间，控制口型动画的合成，将合成的汉语语音与人脸口型动画同步；

步骤7：根据动画场景添加背景图像，与合成的汉语语音与人脸口型动画同步；

步骤8：基于综合加权算法，获得噪声时间控制比例，添加噪声权重值因子，计算校正后的输入背景噪声的噪声同步时间；

步骤9：根据动画合成的需求，选择控制添加校正后的输入背景噪声，与合成汉语语音、人脸口型动画和背景图像的合成动画进行同步，实现逼真的人脸口型动画。

针对输入的汉语文本进行分析，将汉字拆分为不同的汉语可视化音素是将汉字按照标准汉语拼音中声母和韵母的划分，完成口型拼音声部和口型拼音韵部的定义，将汉字的标准拼音转换成口型声部和口型韵部符号组成的口型拼音。

本发明的综合加权算法的口型动画合成方法实现了：

(1)基于有限特征点控制方法的三维口型建模，按照MPEG-4定义的人脸特征点参数，选取或定义唇区特征点，追踪特征点的状态数据并进行综合分析，规范唇区状态数据进行三维口型建模；

(2)基于韵母加权控制方法的唇动序列设计，对声部和韵部所占时间比例采用加权重来控制其在动画合成中所起的作用；

(3)创新性地将汉语文本中标点符号对文本朗读中语音停顿的影响应用到语音口型协同动画中，对各种标点符号在文本朗读中停顿时长进行统计分析，按照停顿时长对汉语标点符号进行分类，并建立其停顿时长与文本朗读整体速度之间的关系模型，同时，对唇动序列模型中的相邻唇形之间的时长比例参数进行分析，综合运用标点停顿及唇形参数模型进行加权处理，实现语音口型协调同步的汉语语音口型动画***；

(4)将汉语可视化的音素归类划分并与基本发音口型建立映射关系，根据汉语音素发音口型的特征，重新划分汉语拼音的声部和韵部，对标准声母表的分类简化为基本的六类，韵部可分为四类口型，采用一种余弦函数处理由“声部”关键帧变形为“韵部”关键帧两种口型的过渡处理，让动画更加的平滑流畅

(5)可以添加背景图像，使得动画可以根据需求来选择不同的背景图像，从而将动画呈现在不同的场景下，动画更加生动，真实。

(6)对噪声的分层次处理和添加，使得根据不同的场景需要，可以调整噪声的级别，例如在会议时，可以选择不添加噪声或者降低噪声的级别，使得会议可以在比较安静，观众可以清晰听见语音的环境下进行；当需要呈现出背景噪声时，可以将背景噪声呈现或者以需要的噪声级别呈现，例如需要伴随有背景环境中的水声、鸟叫声等，使得动画更加生动，真实，效果更好；

(7)同样利用综合加权算法对噪声进行分层处理，使得动画合成和同步更灵活，合成和同步后更贴近合成的需求，动画生动，真实，效果好。

附图说明

图1汉语语音同步口型处理流程图

图2人脸动画参数单元图(FAPU)

图3口部区域模型

图4发音实际时域波形和声韵加权控制的动画合成控制对比图

具体实施方式

下面详细说明本发明的具体实施，有必要在此指出的是，以下实施只是用于本发明的进一步说明，不能理解为对本发明保护范围的限制，该领域技术熟练人员根据上述本发明内容对本发明做出的一些非本质的改进和调整，仍然属于本发明的保护范围。

汉语拼音发音口型特征的分析

语音的基本单位从音色的角度划分为：音素、音节、声调和音位。音素是构成音节的最小单位或最小的语音片段。一个音节，如果按音色的不同去进一步划分，就会得到一个个最小的各有特色的单位，这就是音素。普通话语音共有32个音素，可以分成元音和辅音两大类，元音音素有10个，辅音音素有22个。根据《汉语拼音方案》中提到的因素发音时的特征，结合标准汉语拼音中声母和韵母的划分，将基本口型划分为三级，如表1。

一般说来，一个汉字表示一个音节，例外的情况只出现在儿化音节里，这是普通话语音里的一种特殊现象，也叫“儿化韵”音节，如“玩儿”写下来是两个方块字，但读起来却是一个音节“wanr”。本发明中只考虑一般情况下的汉语拼音发音规律，对于上面涉及的儿话音的特殊情况，将其分为两个音节处理，如“玩儿”在***处理中将分析为“wan”和“er”两个音节。

表1 汉语发音基本口型分类表

口型动画拼音重定义方案

在普通话里，声母由辅音构成，包括b、p、m、f等共23个，韵母共38个，可以由一个元音构成(如a、o、e)，也可以是双元音(如ai、ie)或者三元音(如iao)的组合。与标准汉语拼音划分声母和韵母类似，将每个汉字的拼音都定义为两部分：声部(s)和韵部(y)。声部和韵部分别对应一种口型状态，在制作口型动画时，人物每说一个汉字时，口型就由“声部”关键帧过渡变形为“韵部”关键帧。在控制这两部分关键帧的时间时，应用声韵加权的处理方法，以合理的控制两部的动画时间使动画更加逼真。

如果要制作逼真、自然的口型动画，就必须将声母与韵母的所有组合综合考虑。若是将每一个声母或者韵母都建立一个口型，并考虑其组合情况，这样不仅增加了***的时间开支，而且增加了重复性的工作。根据上述口型(表1)的特征分类，可以发现很多音素的发音口型是相同或者是类似的，因此为了达到快速、易操作的目的，本发明采用折中的方案，对标准汉语拼音进行重新定义。根据表1口型的特征，重新划分汉语拼音的声部和韵部。对标准声母表的分类简化为基本的六类如表2，韵部可分为四类口型如表3

表2 标准汉语拼音声母转换表

表3 标准汉语拼音韵母转换表

声部的定义主要是将发音口型特点相同或者类似的声母归类：s-b双唇紧闭，阻塞气流；s-f上齿触下唇形成窄逢；s-d嘴型微开，嘴唇放松，嘴型变化细微；s-g嘴型为下巴张开到最大角度的四分之一，嘴唇放松；s-r嘴唇前伸，绷紧；s-y嘴唇向两侧拉伸。同样根据口型特征，韵部可分为：y-a口型，主要是用于发音时嘴唇开度较大的不圆唇的韵母发音，例如a、an等；y-o口型，主要是用于发音时嘴唇略圆，嘴向前撮的韵母，例如o、ou等；y-e口型，主要是用于发音时嘴唇半张、口型不圆的韵母例如e、i等；y-o主要是用于发音时嘴唇向前突出成圆形只留较小缝的韵母，例如u等。根据表2和表3，本发明将所有的汉字拼音转换成口型声部和口型韵部两个部分，例如“动画”两字就可以分别表示成s-d→y-o和s-d→y-a。如果把s-b、s-d、s-f、s-r、s-y、y-a、y-o、s-g和y-e、y-i做成9个口型模型，那么每两个模型关键帧之间的变化过程将构成一个汉字的发音口型动画。

把汉字按照声、韵母分成声部和韵部口型的方法基本适用全部汉字，只有个别汉字拼音例外，即单音素汉字如a(啊)、0(哦)、e(饿)、ai(爱)、ei(诶)、ao(袄)、en(恩)、er(儿)等，它们只有汉语拼音划分中的韵母。如果按照上面的分类，都只有一个口型韵部，那么在动画合成中就只存在单个韵部口型，为了统一把它们都加上一个固定的声部口型符号称为自然状态模型，记为“&”。以上拼音转换的最终结果如表4所示：

完成口型拼音声部与韵部定义后接下来就是转换工作，就是将汉字的标准拼音转换成由声部与韵部符号组成的口型拼音。为了程序实现方便，本研究中把声部与韵部的口型记号简化，去掉前面的“s-”和“y-”只写成一个字母简化后符号字母共有10个：a、o、e、i、b、d、f、r、y、g。表5给出了一些汉字拼音转换的例子：

表4 单音节拼音转换表

表5 部分汉字转换举例表

图2描述了在自然状态下的人脸模型定义，凝视是在Z轴方向，所有的面部肌肉放松；眼皮与虹膜相切；瞳孔的虹膜直径(IRISD0)为三分之一；上下嘴唇自然接触；嘴唇线是水平的，与上唇在同一高度上；口封闭，尖舌抵上下牙齿之间的边界保持水平。

图3描述了口部区域模型，在模型中记录数据点代表自由空间的372个点，124顶点是自由空间中的三维数据，因为只有145训练观察点被用，因此协方差矩阵∑只有144个等级，最多有144个独立自由度，经过矩阵PCA分析发现，大部分的不同点被前10个分组数据或者“特征点”所表示，即协方差矩阵∑中值最高的10个特征值λ，以此选取口型动画特征点。

声韵加时间权重控制口型合成动画的算法，依据的基本原理是在同一类音素内，口型动画的基本口型变化具有很大的相似性，而在不同音素内口型动画的基本口型变化具有很大的差异性。同样在口型动画的合成中，表示不同音素的声部和韵部的口型之间的口型特征变化很明显，这里运用了声韵时间加权重参数的方法来区分动画口型特征的差异性。

语音段a、b内各时间帧的特征矢量分别为X_i，Y_i(1≤i≤N_a，1≤j≤N_b)。设X_i与Y_i的欧氏距离为dij，那么有a、b段的段间距离为：

D_{a, b} = \frac{1}{N_{a} N_{b}} Σ_{i = 1}^{N_{a}} Σ_{j = 1}^{N_{b}} d_{ij} - - - (1)

式中，D_a,b为a、b间所有特征矢量距离的平均值，综合地反映了a、b之间的总体差异。设待分割的口型动画被划分为T帧,分别标记为1，……，T。假设以第t帧为分界，前后各取m帧构成两个子语音段，即i∈[t-m+1,……,t]与j∈[t+1,……,t+m]，依照公式(1)，可以得到这两个子语音段的段间距离为

D_{t} = \frac{1}{m^{2}} Σ_{i = t - m + 1}^{t} Σ_{j = t + 1}^{t + m} d_{ij} - - - (2)

由上述公式(1)、(2)计算获得的声韵时间控制比例，添加声韵权重值w_s、w_y因子，重新计算单音素口型动画的时间，控制口型动画的合成。

t_{s} = w_{s} {\overset{&OverBar;}{t}}_{p}; t_{y} = w_{y} {\overset{&OverBar;}{t}}_{p}; - - - (3)

其中w_s+w_y＝1。

为了获得较为准确的单汉字发音时间的平均时间将对单汉字发音时间进行采样，采样过程中朗读语速相同。本发明采取M组数据每组数据N个样点，并对其进行平均化处理，经过特征***的评估，取方差最小时时间数据的平均时间作为进行口型动画合成的单汉字口型动画的标准时间。

考虑汉语标点符号对连续口型变化的影响，在合成连续动画时考虑在句内或句末出现的停顿时间较长的7种点号，如句号、叹号、问号、顿号、逗号、分号、冒号等，并根据这7种标号在句中或者句末停顿时间的长短赋以不同的权值w_bi，公式(4)。

t_{s}^{'} = w_{s} {\overset{&OverBar;}{t}}_{p} w_{bi}; t_{y}^{'} = w_{y} {\overset{&OverBar;}{t}}_{p} w_{bi}; - - - (4)

w_bi代表标号中第i个标号的权重值。通过改变一定限度内的w_bi标号权重值可以生成类似的训练集的基本口型，用到连续动画合成通道上。

图4发音实际时域波形和声韵加权控制的动画合成控制对比图说明声韵加权后的动画合成效果较好,其中上图为汉语音节的时域波形图，下图为单音节声韵加权控制动画生成时间控制图。

连续口型动画合成平滑控制，为了解决两个连续口型动作之间的衔接过度问题，本发明通过对标准汉语拼音的声母和韵母采用声韵加权控制算法控制发音声母口型和韵母口型的时间，并在两个口型动画过渡时采用余弦函数的插值方法，对一个动作的结束点位置到另一个动作的开始点位置进行偏移量插值，使得口型动画之间有很好的连贯性。具体余弦函数插值算法如下：

一旦t(现在的时间和t₀相关)被音频设备确定，唇部节点位移就可以被计算出来了。每一个唇部节点的视位可以用x_i(t)＝[x(t),y(t),z(t)]'来定义，在这里，i＝1,2,……,n是定义了嘴部几何和拓扑结构的控制节点的序列。为了做到完整口部形状的控制节点位置的内插值，拓扑结构必须保持固定，而且在每一个唇部形状雏形里的控制节点必须保持一致。中间的内插口型各个节点的位置X(s)可以通过初始和结束视位节点X⁰和X¹的位置计算出来，公式如下：

\begin{matrix} X (s) = [u X_{0}^{0} + s X_{0}^{1}, u X_{1}^{0} + s X_{1}^{1}, . . ., u X_{n}^{0} + s X_{n}^{1}] \\ u = 1 - s \end{matrix} - - - (5)

变量s通常被描述成t的线性或非线性变换，且0≤s≤1，然而，基于线性内插值的动作并没有展现出加速和减速的初始动作特征。一个加速和减速的相近的内插近似值使用了一个余弦函数来完善这个动作：

s'＝s*(1-cos(π*(s₀-s)))/2 (6)

使用余弦内插式是一个很有效的解决方法，而且***也看到了满意的结果。

背景噪声的提取采用本领域常规的语音和噪声分离技术，噪声分析处理和动画噪声同步采用与汉语文本类似的方式，同样基于综合加权算法，获得噪声时间控制比例，添加噪声权重值因子，计算校正后的输入背景噪声的噪声同步时间，从而根据实际的需要来合成动画。

图1汉语语音同步口型处理流程图，具体步骤如下：

Step1.输入汉语文本；

Step2.将文本转换为汉语语音学的拼音；

Step3.从文本产生合成语音的样本；

Step4.询问音频处理器，且从语音播放处理器中决定当前的音素；

Step5.从当前音节的轨迹中计算出目前的口型；

Step6.合成语音同步的口型并且同步图形展示，返回Step4直至没有可读因素为止。

尽管为了说明的目的，已描述了本发明的示例性实施方式，但是本领域的技术人员将理解，不脱离所附权利要求中公开的发明的范围和精神的情况下，可以在形式和细节上进行各种修改、添加和替换等的改变，而所有这些改变都应属于本发明所附权利要求的保护范围，并且本发明要求保护的产品各个部门和方法中的各个步骤，可以以任意组合的形式组合在一起。因此，对本发明中所公开的实施方式的描述并非为了限制本发明的范围，而是用于描述本发明。相应地，本发明的范围不受以上实施方式的限制，而是由权利要求或其等同物进行限定。

Claims

1.一种基于综合加权算法的口型动画合成方法，其特征在于，依次包括以下步骤：

2.如权利要求1所述的一种基于综合加权算法的口型动画合成方法，其特征在于：所述针对输入的汉语文本进行分析，将汉字拆分为不同的汉语可视化音素是将汉字按照标准汉语拼音中声母和韵母的划分，完成口型拼音声部和口型拼音韵部的定义，将汉字的标准拼音转换成口型声部和口型韵部符号组成的口型拼音。

3.如权利要求1所述的一种基于综合加权算法的口型动画合成方法，其特征在于：所述基于综合加权算法，获得的声韵时间控制比例，添加声韵权重值因子，重新计算单音素口型动画的时间，控制口型动画的合成包括以下步骤：

语音段a、b内各时间帧的特征矢量分别为X_i，Y_i，其中1≤i≤N_a，1≤j≤N_b，X_i与Y_i的欧氏距离为dij，那么a、b段的段间距离为：

D_{a, b} = \frac{1}{N_{a} N_{b}} Σ_{i = 1}^{N_{a}} Σ_{j = 1}^{N_{b}} d_{ij}

D_a,b为a、b间所有特征矢量距离的平均值，反映了a、b之间的总体差异，待分割的口型动画被划分为T帧,分别标记为1，……，T，以第t帧为分界，前后各取m帧构成两个子语音段，即i∈[t-m+1,……,t]与j∈[t+1,……,t+m]，得到这两个子语音段的段间距离为

D_{t} = \frac{1}{m^{2}} Σ_{i = t - m + 1}^{t} Σ_{j = t + 1}^{t + m} d_{ij}

计算获得的声韵时间控制比例，添加声韵权重值w_s、w_y因子，重新计算单音素口型动画的时间，控制口型动画的合成：

t_{s} = w_{s} {\overset{&OverBar;}{t}}_{p}; t_{y} = w_{y} {\overset{&OverBar;}{t}}_{p};

其中w_s+w_y＝1；

采取M组数据每组数据N个样点，并对其进行平均化处理，经过特征***的评估，将取方差最小时时间数据的平均时间作为进行口型动画合成的单汉字口型动画的标准时间。

4.如权利要求3所述的一种基于综合加权算法的口型动画合成方法，其特征在于：所述基于综合加权算法，获得的声韵时间控制比例，添加声韵权重值因子，重新计算单音素口型动画的时间，控制口型动画的合成还包括以下步骤：考虑汉语标点符号对连续口型变化的影响，在合成连续动画时考虑在句内或句末出现的停顿时间较长的7种点号，即句号、叹号、问号、顿号、逗号、分号、冒号，根据这7种标号在句中或者句末停顿时间的长短赋以不同的权值w_bi，

t_{s}^{'} = w_{s} {\overset{&OverBar;}{t}}_{p} w_{bi}; t_{y}^{'} = w_{y} {\overset{&OverBar;}{t}}_{p} w_{bi};

w_bi代表标号中第i个标号的权重值，通过改变一定限度内的w_bi标号权重值生成类似的训练集的基本口型，用到连续动画合成通道上。