CN1991982A

CN1991982A - 一种使用语音数据激励图像的方法

Info

Publication number: CN1991982A
Application number: CNA2005101357483A
Authority: CN
Inventors: 陈桂林; 黄建成; 杨端端
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 2005-12-29
Filing date: 2005-12-29
Publication date: 2007-07-04
Also published as: EP1974337A4; US20080259085A1; WO2007076278A3; EP1974337A2; WO2007076278A2

Abstract

本发明涉及一种使用语音数据激励图像的方法。该方法有利于使用实时语音数据激励化身。根据一个方面，本方法包括识别图像的上脸部和下脸部(步骤705)；基于根据简化的元音集合而分类的语音数据激励下脸部(步骤710)；使用坐标变换模型来摇动上脸部和下脸部(步骤715)；以及使用图像卷绕模型来旋转上脸部和下脸部(步骤720)。

Description

一种使用语音数据激励图像的方法

技术领域

本发明主要涉及使用语音数据激励(animate)图像的计算有效的方法。更具体而言，虽然不是唯一的，本发明涉及使用基于语音数据的过程和通常独立于语音数据的过程来激励化身(avatar)的多个身体部位。

背景技术

语音识别是将例如在麦克风处接收到的声信号转换成诸如音素、单词和句子之类的语言成分的过程。语音识别可用于许多功能，包括其中口语被翻译成书面文字的口述，和使用口头命令控制软件应用程序的计算机控制。

语音识别技术的另一个出现的应用是控制计算机产生的化身。根据印度神话，化身是神的化身具体化，其行使着人类仲裁者的功能。在电子通信的虚拟世界中，化身是人或各种类型动物的、类似卡通的、“2维”或“3维”图形表示。作为“演讲者头部”特写，通过提供表示通信的可视图像到接收者，化身可以使诸如语音呼叫或email之类的电子通信变得生动。例如，email的文字可以通过使用语音合成技术的化身“讲”给接收者。此外，仅仅从呼叫者传送声数据到被呼叫者的传统电话呼叫，可以使用能说话的化身被转换成准视频会议呼叫。这样的准视频会议呼叫对于与会者来说可以比传统的仅仅音频的会议呼叫更有趣并且信息更丰富，但比实际的视频数据传输需要少的多的带宽。

使用化身的准视频会议利用语音识别技术来识别接收到的音频数据中的语言成分。例如，移动电话的屏幕上显示的化身可以实时激励呼叫者的语音。由于呼叫者的话音是通过电话的扬声器发出的，因此电话中的语音识别软件识别呼叫者话音中的语言成分，并将该语言成分映射到化身的嘴巴的图形表示的变化上。从而该化身使用实时的呼叫者的语音对电话用户表现出正在讲话。

除了激励嘴巴的图形表示，激励化身的现有技术的方法包括复杂算法以便同时将多个身体运动和语音同步。这样的多个身体运动可以包括眼睛运动、嘴巴和嘴唇运动、旋转和摇动头部运动，和躯干和肢体的运动。然而，所需运算的复杂性使该方法通常不能使用实时语音数据激励，该语音数据诸如在电话中实时接收的来自呼叫者的语音数据。

发明内容

根据一个方面，本发明是一种激励图像的方法，包括识别图像的上脸部和下脸部；基于根据简化的元音集合而分类的语音数据激励下脸部；使用坐标变换模型来摇动上脸部和下脸部；以及使用图像卷绕模型来旋转上脸部和下脸部。

根据另一个方面，本发明是一种激励图像的方法，包括识别图像的上脸部和下脸部；基于根据简化的元音集合而分类的语音数据激励下脸部；以及独立于激励下脸部而激励上脸部。

因此，使用本发明，改进的化身的动画可以使用实时语音数据。本发明的方法比大多数传统语音识别和激励方法具有更少的计算强度，这能够使本发明更快的执行同时使用更少的处理器资源。

附图说明

为了使本发明更容易理解和产生实际的效果，现在将为典型实施例作出参考，正如附图的参考所示，其中相似的参考数字表示各个图中相等的或功能相似的元件。根据本发明，附图以及以下详细的描述，被结合进并且成为了说明书的一部分，并且用来进一步阐述实施例并解释各种原理和优点，其中：

图1是显示了以无线电电话的形式的移动设备的示意图，该移动设备执行本发明方法；

图2是显示了根据本发明实施例的化身的卡通图，该化身包括上脸部、下脸部、肢体部位；

图3是显示了根据本发明实施例的、包括用来激励化身下脸部的下脸部发音嘴形的动画系列的示意图；

图4是显示了根据本发明实施例的、包括化身的上脸部和下脸部的摇动头部的示意图；

图5是显示了根据本发明实施例的、包括化身的上脸部和下脸部的旋转头部的示意图；

图6是显示了根据本发明实施例的、用于激励图像的方法的功能框图；

图7是显示了根据本发明实施例的、用于激励诸如化身的卡通图像之类的图像的方法的总体流程图；

本领域技术人员将理解图上的元件是为了简单清楚的目的而表示的，并不需要按比例画出。例如，图中一些元件的尺寸相对于其他元件来说被放大了，以便有助于提高理解本发明的实施例。

具体实施方式

在描述根据本发明的具体实施例之前，应当注意，该实施例基本在于方法步骤的组合以及与方法相关的装置组件，用于使用语音数据来激励图像。因此，装置组件和方法步骤已经在适当的地方通过图中传统的符号来表示，显示仅仅那些与理解本发明实施例相关的特殊细节，这样不会使得公开的细节含糊不清，这对于那些从本说明书中获得利益的本领域普通技术人员来说是清楚的。

在本文档中，相关的术语，诸如左和右、第一和第二、等等仅仅用来区分一个实体或动作和另一个实体或动作，而不必需要或暗示在该实体或动作之间的任何实际这样的关系或顺序。术语“包括(comprises或comprising)”或任何其他的变形，目的是覆盖非排他的包括，因此包括一列元件的过程、方法、物品或装置不仅仅包括那些元件，还可以包括其他没有清楚地列出的或在这样的过程、方法、物品或装置所固有的元件。“包括一个…”后面跟着元件(不带有更多的限制)，不排除包含该元件的过程、方法、物品或装置中存在另外相同的元件。

参考图1，是显示了以无线电电话100的形式的移动设备的示意图，该移动设备执行本发明的方法。电话100包括射频通信单元102，被耦合来与处理器103通信。电话100还具有键盘106和显示屏105，被耦合来与处理器103通信。正如对本领域的技术人员来说显而易见，屏幕105可以是触摸屏，这样使键盘106变得可选。

处理器103包括编码器/解码器111，其具有相关联的码只读存储器(ROM)112，存储用于编码和解码语音或其他可以由无线电电话100传送和接收的信号的数据。处理器103还包括微处理器113，通过公共数据和地址总线117的数据耦合到编码器/解码器111、字符只读存储器(ROM)114、随机存取存储器(RAM)104、静态可编程存储器116和SIM接口118。该静态可编程存储器116和可操作地耦合到SIM接口118的SIM的每一个能够存储，被选择的输入文本消息和电话号码数据库TND(电话本)等等，该TND包括用于电话号码的号码字段和用于与姓名字段中一个号码相关联的标识符的姓名字段。例如，在电话号码数据库TND中的一个条目可以是91999111111(输入到号码字段中)，其与姓名字段中的标识符“Steven C！at work”相关联。

麦克风113具有用于耦合到键盘106和屏幕105和告警115的端口，该告警115通常包括告警扬声器、振动器马达和相关的驱动器。此外，微处理器113具有用于耦合到麦克风135和通信扬声器140的端口。字符只读存储器114存储用于对可以被通信单元102接收的文字消息解码或编码的码。在该实施例中，字符只读存储器114还存储用于微处理器113的操作码(OC)和用于执行与无线电电话100相关联的功能的码。

射频通信单元102是具有公共天线107的组合的接收器和传送器。该通信单元102具有通过射频放大器109耦合到天线107的收发器108。该收发器108还耦合到组合的调制器/解调器110，其将通信单元102耦合到处理器103。

传统的语音识别过程解决识别音素的复杂技术问题，该音素是指用来构造单词的最小发音单元。语音识别通常是统计过程，其需要大计算量语音数据的分析。该分析包括声变异性的识别，如背景噪声和变换器引入的噪声，还包括音素变异性的识别，如各个音素中的声差。现有技术中用于激励化身的方法将这样的大计算量语音识别过程和大计算量身体部位激励过程相组合，其中身体部位激励过程与语音数据同步。该方法对于在诸如无线电电话100之类的移动设备上使用通常需要很大的计算量，尤其是当语音数据需要实时处理的时候。

根据一个实施例，本发明是一种方法，其比传统激励方法需要显著地小的计算量，用于激励图像以便创造一个可信的和真实的化身。例如，化身可以显示在电话100的屏幕105上，并且显示为实时说出收发器108接收的呼叫者的话语，并由通信扬声器140放大。此外，化身能够在其“说话”时展现其身体部位自然的外形运动，该身体部位例如包括，它的头、眼睛、嘴、躯干和肢体。现在详细的描述该方法。

首先，语音数据通过识别语音数据的有声(voiced)片断而被滤波。识别有声片断可以使用各种本领域中已知的技术来执行，诸如能量分析和过零率分析。语音数据的高能量成分通常和有声声音相关联，而低到中间能量语音数据通常与无声(unvoiced)声音相关联。语音数据的非常低的能量成分通常和静音或背景噪声相关联。

过零率是语音数据的频率内容的简单测量。语音数据的低频成分通常和有声语音相关联，语音数据的高频率通常和无声语音相关联。

在识别到有声片段之后，为每个片断确定高振幅谱。因此，对于每个片断，通过根据振幅来归一化每个有声片断的高振幅成分的FFT来确定归一化快速傅立叶变换(FFT)数据。该归一化FFT数据然后被过滤，以便强调数据中的峰值。例如，具有0.1的阈值设置的高通滤波器可以被应用，其将FFT中所有低于阈值的值设置为0。

被归一化和滤波的FFT数据然后被一个或多个峰检测器处理。该峰检测器检测峰的各种属性，诸如峰的数量、峰的分布和峰的能量。使用来自峰检测器的数据，该被归一化和过滤的FFT数据，(其很可能表示主要元音声音的高振幅谱)，然后被分割为子带。例如，根据本发明的一个实施例，使用4个子带，其被索引为0到3。如果高振幅谱的能量集中在子带1或2，那么该谱被归类为最可能对应于主要元音音素/a/。如果高振幅谱的能量集中在子带0或2，那么该谱被归类为最可能对应于主要元音音素/i/。最后，如果高振幅谱的能量集中在子带0，那么该谱被归类为最可能对应于主要元音音素/u/。

根据本发明的一个实施例，被分类的谱被用于激励化身的特征以便创建化身在真正“说”出语音数据的印象。该激励通过将分类的谱映射到离散的嘴部运动来执行。正如本领域所公知的，离散的嘴部运动可以由化身使用一系列发音嘴形(viseme)来复制，该发音嘴形是映射到可视域的基本语音单元。每个发音嘴形表示一个静态的、可视的对比的嘴部形状，其通常对应于当人发出特定音素时使用的嘴形。

通过使用这样的事实：语言中音素的数量比相应的发音嘴形的数量大的多，本发明能够有效地执行这样的音素-发音嘴形映射。此外，主要元音音素/a/，/i/和/u/每个都能被映射到3个非常明显的发音嘴形中的一个。通过仅仅使用这三个独特的发音嘴形，与嘴巴从闭合到张开然后再一次到闭合位置的运动的图像帧相耦合，与卡通类似，可以创造可信的嘴巴运动。因为在语音数据中只有3个主要元音音素被识别，因此本发明实施例的语音识别比现有技术具有显著更少的处理器密集性。例如，根据本发明实施例，使用3个主要元音音素/a/，/i/和/u/，在英语中各种元音都被分类为简化的元音集合如表1所示。

表1英语中简化的元音集合

/a/	ax，aa，ae，ao，aw，er，ay，eh，ey
/a/	ax，aa，ae，ao，aw，er，ay，eh，ey	/i/	ih，iy
/u/	ow，oy，uh，uw	/i/	ih，iy

参考图2，卡通图像200显示了根据本发明实施例的包括上脸部205、下脸部210和肢体部位215的化身。该卡通图像200还包括背景部分220。为了激励该化身，使其显示出正在以类似于人类的自然的讲话，下面方法是有用的：激励所有上脸部205，例如包括：眼镜、头发、眉毛；下脸部210，例如包括：嘴巴和嘴唇；肢体部位215，例如包括：腿、胳膊和手。如上所述，使用根据简化的元音集合而分类的语音数据，下脸部210能够有效地并高效地被激励。然而，同步所有身体部位205、210、215的运动和实时语音数据会在激励过程中创造出非常高的复杂性。

因此，根据本发明的实施例，只有下脸部210是基于语音数据被激励，该语音数据根据简化的元音集合被分类。上脸部205、肢体部位215和化身的头部的总的运动-其包括下脸部210和上脸部205摇动或旋转-根据通常独立于语音数据的模型被激励。这使得本发明以这种方式激励化身：该方式比传统激励方法具有明显小的计算量。因此本发明能够使用实时语音数据在诸如无线电电话100之类的具有有限处理器和存储器资源的设备上执行。

参考图3，该示意图显示了根据本发明的实施例的激励序列300，包括下脸部发音嘴形305-i，其用来激励化身的下脸部210。使用诸如根据语音能量的嘴巴宽度映射、根据语音数据的谱结构的嘴形映射的技术，根据本发明的教导分类的语音数据能够被用来控制化身的嘴巴和嘴唇图形的运动。例如，嘴巴宽度映射涉及在从语音数据获得的峰波形包络310期间嘴巴的张开和闭合。考虑到i个下脸部发音嘴形305-n，标号为从0到i-1，被用来描述峰波形包络310。嘴巴宽度映射首先设置峰波形包络310的开始的无声片段为0，这由下脸部发音嘴形305-0中所示的闭合嘴巴来表示。然后，根据每个相应帧的语音能量，峰波形包络310中剩余的数据帧被映射到发音嘴形305-1到305-(i-1)，结果产生了在下脸部发音嘴形305-9中所示的完全张开的嘴巴。最后，为了使化身上的嘴巴和嘴唇所感觉到的运动更加自然，执行下脸部发音嘴形305-n的后处理以便提供在发音嘴形305-n之间的平滑的过渡。

参考图4，示意图显示了根据本发明的实施例的、包括化身的上脸部205和下脸部210的头部的摇动。化身的头部的初始图像如图4的左侧所示。根据本发明，Hotelling变换被应用在图像中并产生了头部的摇动图像，如图4的右侧所示。根据Hotelling变换，首先定义右侧的中心点。然后仅仅使用一个参数θ来指定旋转变换。旋转变换的推导使用基本的矢量cos(θ)和sin(θ)。然后以下的等式1根据x-y坐标轴的旋转来定义旋转变换，其中S和D分别表示源和目的坐标。

S_x＝D_x cos(θ)+D_y sin(θ)

S_y＝-D_x sin(θ)+D_y cos(θ)

等式1

因为S_x和S_y通常不是整数值，因此应用双线性插值以保持动画图像之间平滑的转换。该双线性插值可以使用2*2块的输入像素，其环绕每个计算的浮点像素值S_x和S_y以便确定输出像素的亮度值。

参考图5，示意图显示了根据本发明实施例的，包括化身的上脸部205和下脸部210的旋转头部。可以使用图像卷绕(wraping)技术来执行化身的头部的旋转，该技术产生了图像旋转的感觉-而不需要任何3维模型的再现。如本领域技术人员所知，薄盘样条(TPS)变形分析能够将表面上固定点的运动插值。TPS变形分析使用对于约束在各个点处的薄金属盘的物理弯曲能量U的依赖性的精致的代数表达式。这可以可视化为在每个给定点从下面被抬升的2维可变形的盘。因为盘的高度在给定位置是固定的，所以盘将变形。弯曲盘所需的能量可以用下面的等式2定义，该等式即为双谐波等式。

Δ^{2} U = {(\frac{{&PartialD;}^{2}}{&PartialD; x^{2}} + \frac{{&PartialD;}^{2}}{&PartialD; y^{2}})}^{2} U = 0

等式2

对双谐波等式的基本解法由下面的等式3给出：

z(x，y)＝-U(r)＝-r²logr² 等式3

其中r是点(x，y)与Cartesian原点的距离。因此该双谐波等式描述了被抬升到位于(x，y)平面的盘以上作为函数z(x，y)的薄钢盘的形状。因此等式3是二维的函数|x|³的自然结果。如果位移z(x，y)被看作是坐标位移，那么等式2和3的TPS函数可以理解为插值函数，因此适合于2维图像卷绕。

根据本发明的实施例，TPS算法用来围绕着z轴505卷绕化身的头部图像，包括上脸部205和下脸部210。首先，一组控制节点510被标记在上脸部205和下脸部210的轮廓周围，并沿着z轴505。控制节点510的坐标值被表示为(x_i，y_i)，其中i＝1，2，...p，其中p是控制节点510的号码。然后目标坐标值被表示为(x’_i，y’_i)，并根据以下规则定义：首先控制节点510沿着z轴505的目标坐标值保持和原始的坐标值相同，根据等式4：

x_i′＝x_i，y_i′＝y_i 等式4

其次，其余的控制节点510的目标坐标值是根据等式5的原始坐标值和水平偏移(offset)值的和，

x_i′＝x_i+offset，y_i′＝y_i 等式5

其中水平偏移值属于集合[-3，-2，-1，1，2，3]。因此在图5中，图的右侧的4个图像520，530，540和550的集合表示了关于z轴的感觉到的旋转，其中图像510是旋转之前的图像，并且在最右边图像550中化身显示出正在朝他的左边看。该四个图像520，530，540和550对应于水平偏移值0(即，关于z轴505无旋转)、1、2、3。

化身的上脸部205的运动也可以使用随机模型来建模，该随机模型通常独立于语音数据。例如，眼睛的图像可以制作成以大约平均为10秒的随机间隔“眨眼”。最后，激励化身的躯干或肢体部位215可以根据本发明使用通常独立于语音数据的随机模型来进行。

参考图6，功能框图显示了根据本发明实施例的激励图像的方法。在块605中，语音数据，包括峰波形包络310，被分类到简化的元音集合中。块610、615、620和625分别表示存储了诸如下脸部发音嘴形、上脸部图像模板、身体图像模板和背景图像模板的图像的图像清单。块630、635和640分别表示下脸部210、上脸部205和肢体部位215的独立动画。注意到，只有涉及下脸部210的动画的块630从块605直接接收分类的语音数据；因此块635和640是基于模型的，并且通常独立于语音数据操作的。块645涉及归一化脸部动画的，块650涉及修改的脸动画，诸如摇动和旋转涉及下脸部210和上脸部205的整个头部运动。最后，在块655中，执行动画合成从而产生合成动画图像200。

参考图7，是显示了根据本发明实施例的、用于激励诸如化身的卡通图像200之类的图像的方法700的总体流程图；首先，在步骤705中，化身的身体部位，诸如上脸部205、下脸部210和肢体部位215，被在图像中识别。在步骤710，基于根据简化的元音集合分类的语音数据而激励下脸部205。在步骤715中，坐标变换模型，诸如Hotelling变换模型，被用来引起总的头部摇动运动，包括下脸部210和上脸部205一起运动。在步骤720中，图像卷绕模型，诸如TPS模型，被用来引起总的头部旋转运动，包括下脸部210和上脸部205一起运动。在步骤725中，肢体部位215使用随机模型激励。最后，在步骤730中，上脸部205独立于下脸部210的激励而被激励。

因此本发明的优点在于包括使用实时语音数据的改进的化身的激励。本发明的方法比大多数传统语音识别和激励方法具有更小的计算量，这使得本发明的方法能够更快的执行同时使用更少的处理器资源。本发明的实施例因此特别适合于具有有限处理器和存储资源的移动通信设备。

上面详细的描述仅仅提供了典型实施例，而不是为了限制本发明的范围、适用性或配置。相反，典型实施例的详细描述为本领域的技术人员提供了执行本发明典型实施例的使能说明。应当理解，可以在不背离附加的权利要求所陈述的本发明的精神和范围的条件下作出对于元件的功能和排列和步骤中的各种变化。应当理解这里描述的本发明实施例包括一个或多个传统处理器和唯一的存储的程序指令，该程序指令控制一个或多个处理器与某个非处理器协力来使用这里描述的语音数据执行激励图像的一些、大多数或者全部的功能。该非处理器电路可以包括，但不限制为，无线电接收器、无线电发射器、信号驱动器、时钟电路、电源电路和用手输入设备。因此，这些功能可以理解为使用语音数据激励图像方法的步骤。可替换地，一些或所有功能可以由没有存储程序指令的状态机执行，或者在一个或多个专用集成电路(ASIC)中执行，在该集成电路中，每一个功能或者某些功能的组合被实现为定制逻辑电路。当然，可以使用两种方法的组合。因此，对于这些功能的方法和装置已经在这里描述。此外，期望本领域的技术人员，尽管可能非常努力并且由例如可用的时间、当前技术和经济的考虑而激发的许多设计选择，当由这里公开的概念和原理知道的，将理解可以使用最小的实验产生这样的软件指令和程序和IC。

在上述说明中，已经描述了本发明的典型实施例。然而，本领域的普通技术人员理解在不背离以下权利要求所阐述的本发明的范围的条件下可以作出各种修改和变化。因此，说明书和附图被看作是示例性的而不具有限制的含义，所有这些修改被理解为包括在本发明的范围之内。利益、优点、解决问题的方法，和许多能够带来利益、优点或解决正在发生的方法或将更显著的元素不是被解释为任何一个或所有权利要求的决定性的、需要的、或者关键的特征或元素。本发明仅仅由附加的权利要求定义，该权利要求包括了任何在申请未决期间作出的更正以及这些权利要求的等价物。

Claims

1.一种激励图像的方法，包括

识别图像的上脸部和下脸部；

基于根据简化的元音集合而分类的语音数据激励下脸部；

使用坐标变换模型来摇动上脸部和下脸部；以及

使用图像卷绕模型来旋转上脸部和下脸部。

2.如权利要求1所述的方法，还包括：

识别图像的肢体部位；和

使用随机模型激励肢体部位。

3.如权利要求1所述的方法，其中摇动和旋转上脸部和下脸部是独立于激励下脸部而执行的。

4.如权利要求1所述的方法，还包括独立于激励下脸部而激励上脸部。

5.如权利要求4所述的方法，其中激励上脸部的步骤包括产生眨眼图像。

6.如权利要求1所述的方法，其中下脸部包括嘴巴和嘴唇。

7.如权利要求1所述的方法，其中所述坐标变换模型基于根据以下公式的Hotelling变换：

S_x＝D_xcos(θ)+D_ysin(θ)

S_y＝-D_xsin(θ)+D_ycos(θ)

其中S和D表示源和目的坐标。

8.如权利要求1所述的方法，其中所述图像卷绕模型是基于以下双谐波等式的薄盘样条模型：

Δ^{2} U = {(\frac{{&PartialD;}^{2}}{&PartialD; x^{2}} + \frac{{&PartialD;}^{2}}{&PartialD; y^{2}})}^{2} U = 0 .

9.如权利要求1所述的方法，其中所述图像包括化身。

10.如权利要求1所述的方法，其中激励下脸部的步骤包括显示一系列发音嘴形。

11.如权利要求10所述的方法，其中在所述一系列发音嘴形中的每个发音嘴形与从语音数据得到的音素相关联。

12.如权利要求1所述的方法，其中激励下脸部的步骤包括在闭着的嘴巴的图像和张开嘴巴图像之间的图像变形。

13.一种激励图像的方法，包括

识别图像的上脸部和下脸部；

基于根据简化的元音集合而分类的语音数据激励下脸部；以及

独立于激励下脸部而激励上脸部。

14.如权利要求13所述的方法，其中激励上脸部基于不同于语音数据的数据。