CN104732590A

CN104732590A - 一种手语动画的合成方法

Info

Publication number: CN104732590A
Application number: CN201510102530.1A
Authority: CN
Inventors: 尹宝才; 高明; 王立春; 孔德慧
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-03-09
Filing date: 2015-03-09
Publication date: 2015-06-24
Anticipated expiration: 2035-03-09
Also published as: CN104732590B

Abstract

本发明公开了一种手语动画的合成方法，其能够更直观准确的方式获取手语表达中的表情信息，合成更具真实感的手语动画。这种手语动画的合成方法，包括步骤：(1)生成视频驱动的三维人脸表情；(2)生成文本驱动的三维手势，得到手势动作序列；(3)对面部表情序列和手势动作序列进行协同。

Description

一种手语动画的合成方法

技术领域

本发明属于人机交互的技术领域，具体地涉及一种手语动画的合成方法。

背景技术

手语是由手势辅之以表情姿势为符号构成的比较稳定的表达***，是一种靠动作/视觉交际的多模式协同的语言，它在听力语言障碍者交流、智能人机交互、手语电视等领域有着广泛的应用，因此，手语合成方法的研究具有重要的研究意义和社会意义。手语合成技术涉及到自然语言处理、计算机动画、模式识别等众多学科，目前主要侧重以下三个方面的研究：从文本到手语的分析处理，计算机合成手语的实现方法和合成手语的表示方式。

按照输入类型的不同，可以将手语合成方法分为基于文本驱动的手语合成，语音驱动的手语合成，语音文本驱动的手语合成等形式，国内对手语合成方法的研究起步较晚，大多基于文本驱动手语合成，对于给定的自然语言文本句子，经过文本分析，应用自然语言处理的方法将其转换为没有歧义的规范文本，分成一个个手语词，再结合预先建立的手语运动数据库找到对应的手势，通过视频或者虚拟人动画的形式显示出来；基于语音驱动的方法，首先利用语音识别技术识别将语音转换为文本，再进行前述操作；或者从语音中提取韵律信息，辅助文本提供的基本语义，增强手语表达的真实感。

在手语动画的表示方法上，主要分为基于三维虚拟人的技术和基于视频的技术：基于三维虚拟人的手语动画合成方法首先建立三维虚拟人模型，通过控制虚拟人运动展现手语；基于视频表示时，若干手语词视频片段按照文本语法规则重新组合成新的手语视频。随着虚拟人运动合成技术愈趋成熟，利用虚拟人来模拟真实人的行为在动画、娱乐、医学等领域的应用越来越广泛。基于三维虚拟人的手语动画合成方法被应用在手语应用中，目的是将自然语言表达转换为手语表达，并由虚拟人显示出来，以便于听力语言障碍者更方便地接受和理解信息。

但是，由于文本或语音仅能提供有限的基本信息，目前的自然语言处理技术还无法实现从文本中提取韵律、表情等能够增强手语表达可懂度的因素，因此文本驱动的手语动画合成往往真实感不强，因此，越来越多的研究者为实现更具真实感的手语动画合成尝试新的方法。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种手语动画的合成方法，其能够更直观准确的方式获取手语表达中的表情信息，合成更具真实感的手语动画。

本发明的技术解决方案是：这种手语动画的合成方法，包括以下步骤：

(1)生成视频驱动的三维人脸表情；

(2)生成文本驱动的三维手势，得到手势动作序列；

(3)对面部表情序列和手势动作序列进行协同。

本发明通过生成视频驱动的三维人脸表情,生成文本驱动的三维手势，得到手势动作序列,对面部表情序列和手势动作序列进行协同，从而能够更直观准确的方式获取手语表达中的表情信息，合成更具真实感的手语动画。

附图说明

图1示出了根据本发明的一种手语动画的合成方法的一个优选实施例的流程图。

具体实施方式

这种手语动画的合成方法，其能够更直观准确的方式获取手语表达中的表情信息，合成更具真实感的手语动画。

(1)生成视频驱动的三维人脸表情；

(2)生成文本驱动的三维手势，得到手势动作序列；

(3)对面部表情序列和手势动作序列进行协同。

优选地，所述步骤(1)包括以下分步骤：

(1.1)校正人脸特征点坐标：对头部的整体旋转和平移做校正操作，校正操作以中性参考人脸为目标，将其他人脸图像坐标调整到与中性参考人脸一致，选取m张人脸，根据公式(1)取其平均值作为中性参考人脸，

x_{Neutral} = \frac{Σ_{i = 1}^{m} x_{i}}{m} y_{Neutral} = \frac{Σ_{i = 1}^{m} y_{i}}{m} - - - (1)

其中(x_Neutral,y_Neutral)表示中性参考人脸的特征点坐标，(x_i,y_i)表示选取的第i幅人脸的特征点坐标；根据已提取的特征点信息建立参考坐标系，选取两眼外眼角连线为X轴，取其中心为原点，原点关于X轴的垂线为Y轴，以中性参考人脸坐标系为基准，对其余坐标系进行校正，根据公式

(2)计算各人脸坐标系相对中性参考人脸的旋转角α和平移量Δ，

Δx＝x-x₀

Δy＝y-y₀ (2)

其中(x₀,y₀)表示中性人脸时左右眼角中点坐标，(x,y)表示任意图像中左右眼角中点位置的坐标，平移之后原点位置对齐，然后计算旋转角度α，根据公式(3)得到旋转矩阵

|\begin{matrix} \cos α & - \sin α \\ \sin α & \cos α \end{matrix}| - - - (3)

经过平移和旋转矩阵变换，各人脸特征点坐标系具有相对不变性，在校正每一帧的人脸特征点以后，计算其每个特征点相对中性表情时相对位置的变化来确定特征点的运动；

(1.2)基于人脸特征点坐标计算FAP参数：对每一帧选取66个次级FAP中的部分作为驱动人脸表情的参数，以便驱动三维虚拟人生成动画。

优选地，所述步骤(1)包括步骤(1.3)对眨眼动作的优化：

对眼睛周围的特征点的运动轨迹进行跟踪分析，以帧数为X轴，特征点纵坐标的值为Y轴，描述第28号特征点的纵坐标随帧数变化的曲线，当视频中人脸表现眨眼动作时，根据公式(4)曲线在某一帧处的斜率会超过一个阈值α

y_t+1-y_t>α (4)

其中y_t，y_t+1分别表示特征点在第t帧和第t+1帧时的纵坐标值，当满足公式(4)时判定在该帧出现眨眼行为；对于检测到眨眼的帧，对FAP19～FAP22进行单独赋值，更新FAP参数；经过步骤(1.1)-(1.3)，得到一个表示表情变化的FAP序列FAPS＝(FAP₁,FAP₂...FAP_n)，其中FAP_i表示第i帧对应的一组FAP参数，n表示总帧数。

优选地，所述步骤(2)为：对于输入的自然语言文本句子，经过文本分析，应用自然语言处理的方法将其转换为无歧义的规范文本，分成一个个手语词，再结合预先建立的手语运动数据库找到对应的手势，实现将文本句子转换成表示手语的符号序列，每个手语符号对应相应的手势运动，得到手势动作序列JMS＝(JM₁，JM₂...JM_m)，其中JM_i表示第i个手语词对应的一个记录关键帧信息和时间信息的JM文件，m为得到的手语词的总个数。

优选地，所述步骤(3)包括以下分步骤：

(3.1)确定面部表情序列的长度：通过HTK工具包对语音信息进行处理，使用HCopy提取原文件的语音特征参数，转换为参数文件；定义HMM原型，在模型参数初始化后对训练集进行嵌入式训练；利用识别工具HVite将语音信号和文本强制对齐，以此得到文本中每个字对应的时间信息，从而得到每一个词在视频序列中对应的帧数，从而得到每一个词对应的FAP片段；根据公式(5)-(7)得到面部表情序列ANIS

ANI_i＝(FAP_start,FAP_start+1...FAP_end) (5)

start = \frac{t_{s}}{T} * end = \frac{t_{e}}{T} * n - - - (6)

ANIS＝(ANI₁,ANI₂...ANI_m) (7)

其中ANI_i表示第i个词对应的FAP片段，从FAP_start到FAP_end，t_s表示这个词对应的起始时间，t_e表示结束时间，T为总时间，m为得到的手语词的总个数；

(3.2)对面部表情序列插值到长度等同于手势动作序列。

优选地，所述步骤(3.2)为：根据手势动作的时间信息，按绘制速率计算手势动作序列插值，插值依据为手势动作文件中记录的时间信息和关键帧，在手势动作文件中记录了每一帧的持续时间信息以及64个自由度的运动变化，根据公式(8)计算插值系数

times = \frac{t_{i} * (t * 25 - N)}{t} - - - (8)

其中N为手势动作序列的关键帧的个数，t为完整动作时长，t_i为每一帧的持续时间，i的范围是1-N；以插值后的手势动作序列为基准对面部表情序列进行插值，以实现两个独立序列在时间上的一致。

优选地，所述绘制速率为25帧/秒。

下面更详细地说明本方法。

本发明通过对输入视频分析处理，获取视频中人脸特征点的位置以及运动信息，根据特征点运动信息计算得到用以驱动三维虚拟人表情运动的FAP参数序列；对于语音信息，利用HTK工具包建立隐马模型，通过对齐语音信号与文本得到各字的时间节点信息，确定字一级面部表情序列的长度；实现手势运动序列和面部表情序列协同显示，最终生成更具真实感的手语动画(整体流程如图1所示)。主要分为以下两大部分：三维人脸表情的生成，手势动作和面部表情的协同表示。

1.视频驱动的三维人脸表情生成

人脸特征点提取和FAP参数的获取是生成三维人脸表情的关键步骤，通过得到的FAP参数，基于MPEG-4人脸动画机制驱动三维虚拟人脸表情动画生成。

采用AAM人脸特征点定位方法来进行特征点的提取，对视频序列进行处理得到视频里每一帧的图像，对每一帧分别进行特征点提取。结合MPEG-4标准对人脸的定义，检测跟踪嘴角，鼻尖，眉毛、眼角、眼珠等部位的特征点，包括MPEG-4中定义的标号为2.1～2.9，2.11～2.14，3.1～3.6，4.1～4.6，8.1～8.8，9.1～9.5，9.15，11.1～11.3的特征点。

FAP是一组动态的人脸表情参数，MPEG-4为人脸定义了68个FAP参数，他们代表了一组完整的基本脸部动作，通过FAP可以再现人脸动作。根据人脸特征点信息计算得到FAP参数的步骤如下：

1)人脸特征点坐标校正

在进行FAP参数计算之前，需要先对已获得的人脸特征点所在的坐标系进行校正，由于拍摄过程过人物头部不可避免地会发生平移和旋转等情况，为了使得获取的特征点坐标具有相对一致性，需要对头部的整体旋转和平移做校正操作。校正操作以中性人脸为目标，将其他人脸图像坐标调整到与中性人脸一致。由于视频中人脸基本正对屏幕，旋转和移动幅度不大，选取m张人脸，取其平均值作为中性参考人脸，

x_{Neutral} = \frac{Σ_{i = 1}^{m} x_{i}}{m} y_{Neutral} = \frac{Σ_{i = 1}^{m} y_{i}}{m}

其中，(x_Neutral,y_Neutral)表示中性参考人脸的特征点坐标，(x_i,y_i)表示选取的第i幅人脸的特征点坐标。

在得到中性参考人脸后，根据已提取的特征点信息建立参考坐标系，我们选取两眼外眼角连线为X轴，取其中心为原点，原点关于X轴的垂线为Y轴，以中性人脸坐标系为基准，对其余坐标系进行校正。计算各人脸坐标系相对中性人脸的旋转角α和平移量Δ，

Δx＝x-x₀

Δy＝y-y₀

其中(x₀,y₀)表示中性人脸时左右眼角中点坐标，(x,y)表示任意图像中左右眼角中点位置的坐标。平移之后原点位置对齐，然后计算旋转角度α，得到旋转矩阵

|\begin{matrix} \cos α & - \sin α \\ \sin α & \cos α \end{matrix}|

经过平移和旋转矩阵变换，各人脸特征点坐标系具有相对不变性。在校正每一帧的人脸特征点位置以后，计算其每个特征点相对中性表情时相对位置的变化来确定特征点的运动。

2)基于人脸特征点坐标计算FAP参数

除了两个高级FAP参数，其他所有FAP参数的值都是通过人脸动画参数单元(FAPU)表达的，这些人脸动画参数单元的存在，使FAP参数可以在不同的人脸模型上以一致的方式被解析出来，FAPU按照MPEG-4脸部特征点之间的距离定义。每一个FAP都是基于其所影响的特征点进行定义的，包括特征点运动的方向、移动的距离以及作为衡量其运动的尺度的某一个FAPU。IRISD0、ES0、ENS0、MNS0、MW0、AU分别表示上下眼睑之间的距离，两眼瞳孔之间的距离，眼睛与鼻子的垂直距离，嘴巴和鼻子的垂直距离，嘴巴宽度，以及固定角度单位1E-5，IRISD、ES、ENS、MNS、MW、AU分别表示六个FAPU的值。以FAP3为例，取正值时，下巴底部向下运动，以MNS(嘴巴和鼻子的垂直距离)为单位，MNS定义为嘴巴和鼻子的垂直距离除以1024的结果，这样，当FAP3的值为512时，表示下巴底部向下移动鼻子和嘴巴距离的一半。

MNS＝MNS0/1024

FAP3＝ΔY/MNS＝ΔY*1024/MNS0

本发明对每一帧选取66个次级FAP中的部分作为驱动人脸表情的参数(见表1)。

表1

对每一幅人脸图像通过上述方法得到FAP参数后，便可以驱动三维虚拟人生成动画。

3)眨眼动作的优化

由于分辨率、饰物遮挡和计算误差等影响，导致基于直接获取FAP参数驱动的眨眼动作不能很好地与视频同步。因此需要对眨眼的动作进行单独处理。

眼睛周围受FAP影响的特征点包括上下眼睑以及瞳孔，影响眼睛表情运动的FAP包括FAP19～FAP22四个FAP参数，当双眼上眼睑向下移动虹膜直径距离(即IRISD)的一半，双眼下眼睑向上移动虹膜直径距离一半时，虚拟人会显示闭眼效果，此时FAP19～FAP22的值均为512。

通常眨眼的动作非常迅速，表现为由睁眼到闭眼再到睁眼的过程，这个过程中闭眼的时间非常短，体现在帧率为25帧每秒的视频中一般为1帧到3帧。为了检测视频中人脸眨眼的动作，对眼睛周围包括双眼的左右眼角，上下眼睑以及瞳孔等特征点的运动轨迹进行跟踪分析，以帧数为X轴，特征点纵坐标的值为Y轴，描述第28号特征点的纵坐标随帧数变化的曲线，当视频中人脸表现眨眼动作时，曲线在某一帧处的斜率会超过一个阈值α。

y_t+1-y_t>α

y_t，y_t+1分别表示特征点在第t帧和第t+1帧时的纵坐标值。当满足上式时判定在该帧出现眨眼行为。对于检测到眨眼的帧，对FAP19～FAP22进行单独赋值，更新FAP参数。

经过以上三个步骤，我们可以得到一个表示表情变化的FAP序列：

FAPS＝(FAP₁,FAP₂...FAP_n)

其中FAP_i表示第i帧对应的一组FAP参数，n表示总帧数。

2.文本驱动的三维手势生成

对于输入的自然语言文本句子，经过文本分析，应用自然语言处理的方法将其转换为没有歧义的规范文本，分成一个个手语词，再结合预先建立的手语运动数据库找到对应的手势，实现将文本句子转换成表示手语的符号序列，每个手语符号对应相应的手势运动。这样，文本就与一系列手语词对应起来，每个手语词的运动数据由若干个关键帧数据组成，记录每个关键帧的64个自由度的值以及持续时间长度，数据保存在JM文件中。于是，得到一个表示手势运动的序列

JMS＝(JM₁，JM₂...JM_m)

其中JM_i表示第i个手语词对应的一个记录关键帧信息和时间信息的JM文件，m为得到的手语词的总个数。

3.语音驱动的手势动作与面部表情协同

通过以上步骤1和步骤2，我们分别得到了手势动作序列和面部表情序列，此时两个序列相互独立，并且运动信息都以帧为单位。

1)面部表情序列长度

面部表情序列长度是通过语音信息确定的。对语音信息的处理，需要用到HTK工具包。HTK语音识别过程包括数据准备，训练和测试，使用HCopy提取原文件的语音特征参数，转换为参数文件；定义HMM原型，在模型参数初始化后对训练集进行嵌入式训练；HTK提供了一个识别工具HVite，利用HVite可以将语音信号和文本强制对齐，以此得到文本中每个字对应的时间信息，以语音信号“如果你的”为例，通过HTK的HVite工具进行ForceAlignment之后得到结果为：

7300000 8600000 ru2 -899.448547

8600000 10200000 guo3 -1140.626831

10200000 11200000 ni3 -618.655090

11200000 12200000 de5 -596.281250

对于表情序列FAPS，在得到文本对应的时间信息以后，就可以得到每一个词在视频序列中对应的帧数，FAP参数序列是从视频中提取的，与视频序列一致，于是得到每一个词对应的FAP片段，

ANI_i＝(FAP_start,FAP_start+1...FAP_end)，

start = \frac{t_{s}}{T} * end = \frac{t_{e}}{T} * n

截取原FAP保存在各自ani文件中。面部表情序列可以表示为：

ANIS＝(ANI₁,ANI₂...ANI_m)

ANI_i表示第i个词对应的FAP片段，从FAP_start到FAP_end，t_s表示这个词对应的起始时间，t_e表示结束时间，T为总时间，m为得到的手语词的总个数。

2)手势序列与面部表情序列的协同

以手语词为单位用JMS和ANIS分别表示手势序列和表情序列，实现手势和表情协同表示的问题便转化为每一个词对应的JM数据和ani数据对齐的问题。根据JM文件记录的时间信息，同一手语词的手势时长大于表情时长，为使手势和表情同步，需要对表情序列插值到长度等同于手势序列。

JM记录的手势序列是关键帧数据，首先根据JM的时间信息，按绘制速率(实验设定为25帧每秒)计算手势序列插值，插值依据为JM文件中记录的时间信息和关键帧帧，在JM文件中记录了每一帧的持续时间信息以及64个自由度的运动变化。假设某手势动作序列有N个关键帧，完整动作时长为t，则将该动作序列扩展到t*25帧时，对每一个关键帧插值数以每帧的持续时间为准，每一帧的持续时间为t_i,(i:1～N)，计算其插值系数为

times = \frac{t_{i} * (t * 25 - N)}{t} .

以插值后的手势序列为基准对表情序列进行插值，以实现两个独立序列在时间上的一致，从而达到表情和手势协同显示手语动画的目的。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种手语动画的合成方法，其特征在于：包括以下步骤：

(1)生成视频驱动的三维人脸表情；

(2)生成文本驱动的三维手势，得到手势动作序列；

(3)对面部表情序列和手势动作序列进行协同。

2.根据权利要求1所述的手语动画的合成方法，其特征在于：所述步骤

(1)包括以下分步骤：

x_{Neutral} = \frac{Σ_{i = 1}^{m} x_{i}}{m}, y_{Neutral} = \frac{Σ_{i = 1}^{m} y_{i}}{m} - - - (1)

其中(x_Neutral,y_Neutral)表示中性参考人脸的特征点坐标，(x_i,y_i)表示选取的第i幅人脸的特征点坐标；根据已提取的特征点信息建立参考坐标系，选取两眼外眼角连线为X轴，取其中心为原点，原点关于X轴的垂线为Y轴，以中性参考人脸坐标系为基准，对其余坐标系进行校正，根据公式(2)计算各人脸坐标系相对中性参考人脸的旋转角α和平移量Δ，

Δx＝x-x₀

Δy＝y-y₀ (2)

| \begin{matrix} \cos α & - \sin α \\ \sin α & \cos α \end{matrix} | - - - (3)

3.根据权利要求2所述的手语动画的合成方法，其特征在于：所述步骤(1)包括步骤(1.3)对眨眼动作的优化：

y_t+1-y_t>α (4)

4.根据权利要求3所述的手语动画的合成方法，其特征在于：所述步骤(2)为：对于输入的自然语言文本句子，经过文本分析，应用自然语言处理的方法将其转换为无歧义的规范文本，分成一个个手语词，再结合预先建立的手语运动数据库找到对应的手势，实现将文本句子转换成表示手语的符号序列，每个手语符号对应相应的手势运动，得到手势动作序列JMS＝(JM₁，JM₂...JM_m)，其中JM_i表示第i个手语词对应的一个记录关键帧信息和时间信息的JM文件，m为得到的手语词的总个数。

5.根据权利要求4所述的手语动画的合成方法，其特征在于：所述步骤(3)包括以下分步骤：

ANI_i＝(FAP_start,FAP_start+1...FAP_end) (5)

start = \frac{t_{s}}{T} * n end = \frac{t_{e}}{T} * n - - - (6)

ANIS＝(ANI₁,ANI₂...ANI_m) (7)

(3.2)对面部表情序列插值到长度等同于手势动作序列。

6.根据权利要求5所述的手语动画的合成方法，其特征在于：所述步骤(3.2)为：根据手势动作的时间信息，按绘制速率计算手势动作序列插值，插值依据为手势动作文件中记录的时间信息和关键帧，在手势动作文件中记录了每一帧的持续时间信息以及64个自由度的运动变化，根据公式(8)计算插值系数

times = \frac{t_{i} * (t * 25 - N)}{t} - - - (8)

7.根据权利要求6所述的手语动画的合成方法，其特征在于：所述绘制速率为25帧/秒。