CN1991982A - 一种使用语音数据激励图像的方法 - Google Patents
一种使用语音数据激励图像的方法 Download PDFInfo
- Publication number
- CN1991982A CN1991982A CNA2005101357483A CN200510135748A CN1991982A CN 1991982 A CN1991982 A CN 1991982A CN A2005101357483 A CNA2005101357483 A CN A2005101357483A CN 200510135748 A CN200510135748 A CN 200510135748A CN 1991982 A CN1991982 A CN 1991982A
- Authority
- CN
- China
- Prior art keywords
- face
- image
- excitation
- following
- speech data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000003213 activating effect Effects 0.000 title claims description 12
- 230000009466 transformation Effects 0.000 claims abstract description 6
- 230000005284 excitation Effects 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004804 winding Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 abstract 1
- 238000004220 aggregation Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 13
- 210000003128 head Anatomy 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 230000033001 locomotion Effects 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000010606 normalization Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008450 motivation Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 206010038743 Restlessness Diseases 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000004886 head movement Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000272470 Circus Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000003637 basic solution Substances 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及一种使用语音数据激励图像的方法。该方法有利于使用实时语音数据激励化身。根据一个方面,本方法包括识别图像的上脸部和下脸部(步骤705);基于根据简化的元音集合而分类的语音数据激励下脸部(步骤710);使用坐标变换模型来摇动上脸部和下脸部(步骤715);以及使用图像卷绕模型来旋转上脸部和下脸部(步骤720)。
Description
技术领域
本发明主要涉及使用语音数据激励(animate)图像的计算有效的方法。更具体而言,虽然不是唯一的,本发明涉及使用基于语音数据的过程和通常独立于语音数据的过程来激励化身(avatar)的多个身体部位。
背景技术
语音识别是将例如在麦克风处接收到的声信号转换成诸如音素、单词和句子之类的语言成分的过程。语音识别可用于许多功能,包括其中口语被翻译成书面文字的口述,和使用口头命令控制软件应用程序的计算机控制。
语音识别技术的另一个出现的应用是控制计算机产生的化身。根据印度神话,化身是神的化身具体化,其行使着人类仲裁者的功能。在电子通信的虚拟世界中,化身是人或各种类型动物的、类似卡通的、“2维”或“3维”图形表示。作为“演讲者头部”特写,通过提供表示通信的可视图像到接收者,化身可以使诸如语音呼叫或email之类的电子通信变得生动。例如,email的文字可以通过使用语音合成技术的化身“讲”给接收者。此外,仅仅从呼叫者传送声数据到被呼叫者的传统电话呼叫,可以使用能说话的化身被转换成准视频会议呼叫。这样的准视频会议呼叫对于与会者来说可以比传统的仅仅音频的会议呼叫更有趣并且信息更丰富,但比实际的视频数据传输需要少的多的带宽。
使用化身的准视频会议利用语音识别技术来识别接收到的音频数据中的语言成分。例如,移动电话的屏幕上显示的化身可以实时激励呼叫者的语音。由于呼叫者的话音是通过电话的扬声器发出的,因此电话中的语音识别软件识别呼叫者话音中的语言成分,并将该语言成分映射到化身的嘴巴的图形表示的变化上。从而该化身使用实时的呼叫者的语音对电话用户表现出正在讲话。
除了激励嘴巴的图形表示,激励化身的现有技术的方法包括复杂算法以便同时将多个身体运动和语音同步。这样的多个身体运动可以包括眼睛运动、嘴巴和嘴唇运动、旋转和摇动头部运动,和躯干和肢体的运动。然而,所需运算的复杂性使该方法通常不能使用实时语音数据激励,该语音数据诸如在电话中实时接收的来自呼叫者的语音数据。
发明内容
根据一个方面,本发明是一种激励图像的方法,包括识别图像的上脸部和下脸部;基于根据简化的元音集合而分类的语音数据激励下脸部;使用坐标变换模型来摇动上脸部和下脸部;以及使用图像卷绕模型来旋转上脸部和下脸部。
根据另一个方面,本发明是一种激励图像的方法,包括识别图像的上脸部和下脸部;基于根据简化的元音集合而分类的语音数据激励下脸部;以及独立于激励下脸部而激励上脸部。
因此,使用本发明,改进的化身的动画可以使用实时语音数据。本发明的方法比大多数传统语音识别和激励方法具有更少的计算强度,这能够使本发明更快的执行同时使用更少的处理器资源。
附图说明
为了使本发明更容易理解和产生实际的效果,现在将为典型实施例作出参考,正如附图的参考所示,其中相似的参考数字表示各个图中相等的或功能相似的元件。根据本发明,附图以及以下详细的描述,被结合进并且成为了说明书的一部分,并且用来进一步阐述实施例并解释各种原理和优点,其中:
图1是显示了以无线电电话的形式的移动设备的示意图,该移动设备执行本发明方法;
图2是显示了根据本发明实施例的化身的卡通图,该化身包括上脸部、下脸部、肢体部位;
图3是显示了根据本发明实施例的、包括用来激励化身下脸部的下脸部发音嘴形的动画系列的示意图;
图4是显示了根据本发明实施例的、包括化身的上脸部和下脸部的摇动头部的示意图;
图5是显示了根据本发明实施例的、包括化身的上脸部和下脸部的旋转头部的示意图;
图6是显示了根据本发明实施例的、用于激励图像的方法的功能框图;
图7是显示了根据本发明实施例的、用于激励诸如化身的卡通图像之类的图像的方法的总体流程图;
本领域技术人员将理解图上的元件是为了简单清楚的目的而表示的,并不需要按比例画出。例如,图中一些元件的尺寸相对于其他元件来说被放大了,以便有助于提高理解本发明的实施例。
具体实施方式
在描述根据本发明的具体实施例之前,应当注意,该实施例基本在于方法步骤的组合以及与方法相关的装置组件,用于使用语音数据来激励图像。因此,装置组件和方法步骤已经在适当的地方通过图中传统的符号来表示,显示仅仅那些与理解本发明实施例相关的特殊细节,这样不会使得公开的细节含糊不清,这对于那些从本说明书中获得利益的本领域普通技术人员来说是清楚的。
在本文档中,相关的术语,诸如左和右、第一和第二、等等仅仅用来区分一个实体或动作和另一个实体或动作,而不必需要或暗示在该实体或动作之间的任何实际这样的关系或顺序。术语“包括(comprises或comprising)”或任何其他的变形,目的是覆盖非排他的包括,因此包括一列元件的过程、方法、物品或装置不仅仅包括那些元件,还可以包括其他没有清楚地列出的或在这样的过程、方法、物品或装置所固有的元件。“包括一个…”后面跟着元件(不带有更多的限制),不排除包含该元件的过程、方法、物品或装置中存在另外相同的元件。
参考图1,是显示了以无线电电话100的形式的移动设备的示意图,该移动设备执行本发明的方法。电话100包括射频通信单元102,被耦合来与处理器103通信。电话100还具有键盘106和显示屏105,被耦合来与处理器103通信。正如对本领域的技术人员来说显而易见,屏幕105可以是触摸屏,这样使键盘106变得可选。
处理器103包括编码器/解码器111,其具有相关联的码只读存储器(ROM)112,存储用于编码和解码语音或其他可以由无线电电话100传送和接收的信号的数据。处理器103还包括微处理器113,通过公共数据和地址总线117的数据耦合到编码器/解码器111、字符只读存储器(ROM)114、随机存取存储器(RAM)104、静态可编程存储器116和SIM接口118。该静态可编程存储器116和可操作地耦合到SIM接口118的SIM的每一个能够存储,被选择的输入文本消息和电话号码数据库TND(电话本)等等,该TND包括用于电话号码的号码字段和用于与姓名字段中一个号码相关联的标识符的姓名字段。例如,在电话号码数据库TND中的一个条目可以是91999111111(输入到号码字段中),其与姓名字段中的标识符“Steven C!at work”相关联。
麦克风113具有用于耦合到键盘106和屏幕105和告警115的端口,该告警115通常包括告警扬声器、振动器马达和相关的驱动器。此外,微处理器113具有用于耦合到麦克风135和通信扬声器140的端口。字符只读存储器114存储用于对可以被通信单元102接收的文字消息解码或编码的码。在该实施例中,字符只读存储器114还存储用于微处理器113的操作码(OC)和用于执行与无线电电话100相关联的功能的码。
射频通信单元102是具有公共天线107的组合的接收器和传送器。该通信单元102具有通过射频放大器109耦合到天线107的收发器108。该收发器108还耦合到组合的调制器/解调器110,其将通信单元102耦合到处理器103。
传统的语音识别过程解决识别音素的复杂技术问题,该音素是指用来构造单词的最小发音单元。语音识别通常是统计过程,其需要大计算量语音数据的分析。该分析包括声变异性的识别,如背景噪声和变换器引入的噪声,还包括音素变异性的识别,如各个音素中的声差。现有技术中用于激励化身的方法将这样的大计算量语音识别过程和大计算量身体部位激励过程相组合,其中身体部位激励过程与语音数据同步。该方法对于在诸如无线电电话100之类的移动设备上使用通常需要很大的计算量,尤其是当语音数据需要实时处理的时候。
根据一个实施例,本发明是一种方法,其比传统激励方法需要显著地小的计算量,用于激励图像以便创造一个可信的和真实的化身。例如,化身可以显示在电话100的屏幕105上,并且显示为实时说出收发器108接收的呼叫者的话语,并由通信扬声器140放大。此外,化身能够在其“说话”时展现其身体部位自然的外形运动,该身体部位例如包括,它的头、眼睛、嘴、躯干和肢体。现在详细的描述该方法。
首先,语音数据通过识别语音数据的有声(voiced)片断而被滤波。识别有声片断可以使用各种本领域中已知的技术来执行,诸如能量分析和过零率分析。语音数据的高能量成分通常和有声声音相关联,而低到中间能量语音数据通常与无声(unvoiced)声音相关联。语音数据的非常低的能量成分通常和静音或背景噪声相关联。
过零率是语音数据的频率内容的简单测量。语音数据的低频成分通常和有声语音相关联,语音数据的高频率通常和无声语音相关联。
在识别到有声片段之后,为每个片断确定高振幅谱。因此,对于每个片断,通过根据振幅来归一化每个有声片断的高振幅成分的FFT来确定归一化快速傅立叶变换(FFT)数据。该归一化FFT数据然后被过滤,以便强调数据中的峰值。例如,具有0.1的阈值设置的高通滤波器可以被应用,其将FFT中所有低于阈值的值设置为0。
被归一化和滤波的FFT数据然后被一个或多个峰检测器处理。该峰检测器检测峰的各种属性,诸如峰的数量、峰的分布和峰的能量。使用来自峰检测器的数据,该被归一化和过滤的FFT数据,(其很可能表示主要元音声音的高振幅谱),然后被分割为子带。例如,根据本发明的一个实施例,使用4个子带,其被索引为0到3。如果高振幅谱的能量集中在子带1或2,那么该谱被归类为最可能对应于主要元音音素/a/。如果高振幅谱的能量集中在子带0或2,那么该谱被归类为最可能对应于主要元音音素/i/。最后,如果高振幅谱的能量集中在子带0,那么该谱被归类为最可能对应于主要元音音素/u/。
根据本发明的一个实施例,被分类的谱被用于激励化身的特征以便创建化身在真正“说”出语音数据的印象。该激励通过将分类的谱映射到离散的嘴部运动来执行。正如本领域所公知的,离散的嘴部运动可以由化身使用一系列发音嘴形(viseme)来复制,该发音嘴形是映射到可视域的基本语音单元。每个发音嘴形表示一个静态的、可视的对比的嘴部形状,其通常对应于当人发出特定音素时使用的嘴形。
通过使用这样的事实:语言中音素的数量比相应的发音嘴形的数量大的多,本发明能够有效地执行这样的音素-发音嘴形映射。此外,主要元音音素/a/,/i/和/u/每个都能被映射到3个非常明显的发音嘴形中的一个。通过仅仅使用这三个独特的发音嘴形,与嘴巴从闭合到张开然后再一次到闭合位置的运动的图像帧相耦合,与卡通类似,可以创造可信的嘴巴运动。因为在语音数据中只有3个主要元音音素被识别,因此本发明实施例的语音识别比现有技术具有显著更少的处理器密集性。例如,根据本发明实施例,使用3个主要元音音素/a/,/i/和/u/,在英语中各种元音都被分类为简化的元音集合如表1所示。
表1英语中简化的元音集合
/a/ | ax,aa,ae,ao,aw,er,ay,eh,ey |
/i/ | ih,iy |
/u/ | ow,oy,uh,uw |
参考图2,卡通图像200显示了根据本发明实施例的包括上脸部205、下脸部210和肢体部位215的化身。该卡通图像200还包括背景部分220。为了激励该化身,使其显示出正在以类似于人类的自然的讲话,下面方法是有用的:激励所有上脸部205,例如包括:眼镜、头发、眉毛;下脸部210,例如包括:嘴巴和嘴唇;肢体部位215,例如包括:腿、胳膊和手。如上所述,使用根据简化的元音集合而分类的语音数据,下脸部210能够有效地并高效地被激励。然而,同步所有身体部位205、210、215的运动和实时语音数据会在激励过程中创造出非常高的复杂性。
因此,根据本发明的实施例,只有下脸部210是基于语音数据被激励,该语音数据根据简化的元音集合被分类。上脸部205、肢体部位215和化身的头部的总的运动-其包括下脸部210和上脸部205摇动或旋转-根据通常独立于语音数据的模型被激励。这使得本发明以这种方式激励化身:该方式比传统激励方法具有明显小的计算量。因此本发明能够使用实时语音数据在诸如无线电电话100之类的具有有限处理器和存储器资源的设备上执行。
参考图3,该示意图显示了根据本发明的实施例的激励序列300,包括下脸部发音嘴形305-i,其用来激励化身的下脸部210。使用诸如根据语音能量的嘴巴宽度映射、根据语音数据的谱结构的嘴形映射的技术,根据本发明的教导分类的语音数据能够被用来控制化身的嘴巴和嘴唇图形的运动。例如,嘴巴宽度映射涉及在从语音数据获得的峰波形包络310期间嘴巴的张开和闭合。考虑到i个下脸部发音嘴形305-n,标号为从0到i-1,被用来描述峰波形包络310。嘴巴宽度映射首先设置峰波形包络310的开始的无声片段为0,这由下脸部发音嘴形305-0中所示的闭合嘴巴来表示。然后,根据每个相应帧的语音能量,峰波形包络310中剩余的数据帧被映射到发音嘴形305-1到305-(i-1),结果产生了在下脸部发音嘴形305-9中所示的完全张开的嘴巴。最后,为了使化身上的嘴巴和嘴唇所感觉到的运动更加自然,执行下脸部发音嘴形305-n的后处理以便提供在发音嘴形305-n之间的平滑的过渡。
参考图4,示意图显示了根据本发明的实施例的、包括化身的上脸部205和下脸部210的头部的摇动。化身的头部的初始图像如图4的左侧所示。根据本发明,Hotelling变换被应用在图像中并产生了头部的摇动图像,如图4的右侧所示。根据Hotelling变换,首先定义右侧的中心点。然后仅仅使用一个参数θ来指定旋转变换。旋转变换的推导使用基本的矢量cos(θ)和sin(θ)。然后以下的等式1根据x-y坐标轴的旋转来定义旋转变换,其中S和D分别表示源和目的坐标。
Sx=Dx cos(θ)+Dy sin(θ)
Sy=-Dx sin(θ)+Dy cos(θ)
等式1
因为Sx和Sy通常不是整数值,因此应用双线性插值以保持动画图像之间平滑的转换。该双线性插值可以使用2*2块的输入像素,其环绕每个计算的浮点像素值Sx和Sy以便确定输出像素的亮度值。
参考图5,示意图显示了根据本发明实施例的,包括化身的上脸部205和下脸部210的旋转头部。可以使用图像卷绕(wraping)技术来执行化身的头部的旋转,该技术产生了图像旋转的感觉-而不需要任何3维模型的再现。如本领域技术人员所知,薄盘样条(TPS)变形分析能够将表面上固定点的运动插值。TPS变形分析使用对于约束在各个点处的薄金属盘的物理弯曲能量U的依赖性的精致的代数表达式。这可以可视化为在每个给定点从下面被抬升的2维可变形的盘。因为盘的高度在给定位置是固定的,所以盘将变形。弯曲盘所需的能量可以用下面的等式2定义,该等式即为双谐波等式。
等式2
对双谐波等式的基本解法由下面的等式3给出:
z(x,y)=-U(r)=-r2logr2 等式3
其中r是点(x,y)与Cartesian原点的距离。因此该双谐波等式描述了被抬升到位于(x,y)平面的盘以上作为函数z(x,y)的薄钢盘的形状。因此等式3是二维的函数|x|3的自然结果。如果位移z(x,y)被看作是坐标位移,那么等式2和3的TPS函数可以理解为插值函数,因此适合于2维图像卷绕。
根据本发明的实施例,TPS算法用来围绕着z轴505卷绕化身的头部图像,包括上脸部205和下脸部210。首先,一组控制节点510被标记在上脸部205和下脸部210的轮廓周围,并沿着z轴505。控制节点510的坐标值被表示为(xi,yi),其中i=1,2,...p,其中p是控制节点510的号码。然后目标坐标值被表示为(x’i,y’i),并根据以下规则定义:首先控制节点510沿着z轴505的目标坐标值保持和原始的坐标值相同,根据等式4:
xi′=xi,yi′=yi 等式4
其次,其余的控制节点510的目标坐标值是根据等式5的原始坐标值和水平偏移(offset)值的和,
xi′=xi+offset,yi′=yi 等式5
其中水平偏移值属于集合[-3,-2,-1,1,2,3]。因此在图5中,图的右侧的4个图像520,530,540和550的集合表示了关于z轴的感觉到的旋转,其中图像510是旋转之前的图像,并且在最右边图像550中化身显示出正在朝他的左边看。该四个图像520,530,540和550对应于水平偏移值0(即,关于z轴505无旋转)、1、2、3。
化身的上脸部205的运动也可以使用随机模型来建模,该随机模型通常独立于语音数据。例如,眼睛的图像可以制作成以大约平均为10秒的随机间隔“眨眼”。最后,激励化身的躯干或肢体部位215可以根据本发明使用通常独立于语音数据的随机模型来进行。
参考图6,功能框图显示了根据本发明实施例的激励图像的方法。在块605中,语音数据,包括峰波形包络310,被分类到简化的元音集合中。块610、615、620和625分别表示存储了诸如下脸部发音嘴形、上脸部图像模板、身体图像模板和背景图像模板的图像的图像清单。块630、635和640分别表示下脸部210、上脸部205和肢体部位215的独立动画。注意到,只有涉及下脸部210的动画的块630从块605直接接收分类的语音数据;因此块635和640是基于模型的,并且通常独立于语音数据操作的。块645涉及归一化脸部动画的,块650涉及修改的脸动画,诸如摇动和旋转涉及下脸部210和上脸部205的整个头部运动。最后,在块655中,执行动画合成从而产生合成动画图像200。
参考图7,是显示了根据本发明实施例的、用于激励诸如化身的卡通图像200之类的图像的方法700的总体流程图;首先,在步骤705中,化身的身体部位,诸如上脸部205、下脸部210和肢体部位215,被在图像中识别。在步骤710,基于根据简化的元音集合分类的语音数据而激励下脸部205。在步骤715中,坐标变换模型,诸如Hotelling变换模型,被用来引起总的头部摇动运动,包括下脸部210和上脸部205一起运动。在步骤720中,图像卷绕模型,诸如TPS模型,被用来引起总的头部旋转运动,包括下脸部210和上脸部205一起运动。在步骤725中,肢体部位215使用随机模型激励。最后,在步骤730中,上脸部205独立于下脸部210的激励而被激励。
因此本发明的优点在于包括使用实时语音数据的改进的化身的激励。本发明的方法比大多数传统语音识别和激励方法具有更小的计算量,这使得本发明的方法能够更快的执行同时使用更少的处理器资源。本发明的实施例因此特别适合于具有有限处理器和存储资源的移动通信设备。
上面详细的描述仅仅提供了典型实施例,而不是为了限制本发明的范围、适用性或配置。相反,典型实施例的详细描述为本领域的技术人员提供了执行本发明典型实施例的使能说明。应当理解,可以在不背离附加的权利要求所陈述的本发明的精神和范围的条件下作出对于元件的功能和排列和步骤中的各种变化。应当理解这里描述的本发明实施例包括一个或多个传统处理器和唯一的存储的程序指令,该程序指令控制一个或多个处理器与某个非处理器协力来使用这里描述的语音数据执行激励图像的一些、大多数或者全部的功能。该非处理器电路可以包括,但不限制为,无线电接收器、无线电发射器、信号驱动器、时钟电路、电源电路和用手输入设备。因此,这些功能可以理解为使用语音数据激励图像方法的步骤。可替换地,一些或所有功能可以由没有存储程序指令的状态机执行,或者在一个或多个专用集成电路(ASIC)中执行,在该集成电路中,每一个功能或者某些功能的组合被实现为定制逻辑电路。当然,可以使用两种方法的组合。因此,对于这些功能的方法和装置已经在这里描述。此外,期望本领域的技术人员,尽管可能非常努力并且由例如可用的时间、当前技术和经济的考虑而激发的许多设计选择,当由这里公开的概念和原理知道的,将理解可以使用最小的实验产生这样的软件指令和程序和IC。
在上述说明中,已经描述了本发明的典型实施例。然而,本领域的普通技术人员理解在不背离以下权利要求所阐述的本发明的范围的条件下可以作出各种修改和变化。因此,说明书和附图被看作是示例性的而不具有限制的含义,所有这些修改被理解为包括在本发明的范围之内。利益、优点、解决问题的方法,和许多能够带来利益、优点或解决正在发生的方法或将更显著的元素不是被解释为任何一个或所有权利要求的决定性的、需要的、或者关键的特征或元素。本发明仅仅由附加的权利要求定义,该权利要求包括了任何在申请未决期间作出的更正以及这些权利要求的等价物。
Claims (14)
1.一种激励图像的方法,包括
识别图像的上脸部和下脸部;
基于根据简化的元音集合而分类的语音数据激励下脸部;
使用坐标变换模型来摇动上脸部和下脸部;以及
使用图像卷绕模型来旋转上脸部和下脸部。
2.如权利要求1所述的方法,还包括:
识别图像的肢体部位;和
使用随机模型激励肢体部位。
3.如权利要求1所述的方法,其中摇动和旋转上脸部和下脸部是独立于激励下脸部而执行的。
4.如权利要求1所述的方法,还包括独立于激励下脸部而激励上脸部。
5.如权利要求4所述的方法,其中激励上脸部的步骤包括产生眨眼图像。
6.如权利要求1所述的方法,其中下脸部包括嘴巴和嘴唇。
7.如权利要求1所述的方法,其中所述坐标变换模型基于根据以下公式的Hotelling变换:
Sx=Dxcos(θ)+Dysin(θ)
Sy=-Dxsin(θ)+Dycos(θ)
其中S和D表示源和目的坐标。
8.如权利要求1所述的方法,其中所述图像卷绕模型是基于以下双谐波等式的薄盘样条模型:
9.如权利要求1所述的方法,其中所述图像包括化身。
10.如权利要求1所述的方法,其中激励下脸部的步骤包括显示一系列发音嘴形。
11.如权利要求10所述的方法,其中在所述一系列发音嘴形中的每个发音嘴形与从语音数据得到的音素相关联。
12.如权利要求1所述的方法,其中激励下脸部的步骤包括在闭着的嘴巴的图像和张开嘴巴图像之间的图像变形。
13.一种激励图像的方法,包括
识别图像的上脸部和下脸部;
基于根据简化的元音集合而分类的语音数据激励下脸部;以及
独立于激励下脸部而激励上脸部。
14.如权利要求13所述的方法,其中激励上脸部基于不同于语音数据的数据。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2005101357483A CN1991982A (zh) | 2005-12-29 | 2005-12-29 | 一种使用语音数据激励图像的方法 |
EP06846601A EP1974337A4 (en) | 2005-12-29 | 2006-12-13 | METHOD FOR ENABLING AN IMAGE USING SPEECH DATA |
PCT/US2006/062029 WO2007076278A2 (en) | 2005-12-29 | 2006-12-13 | Method for animating a facial image using speech data |
US12/147,840 US20080259085A1 (en) | 2005-12-29 | 2008-06-27 | Method for Animating an Image Using Speech Data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2005101357483A CN1991982A (zh) | 2005-12-29 | 2005-12-29 | 一种使用语音数据激励图像的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1991982A true CN1991982A (zh) | 2007-07-04 |
Family
ID=38214194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2005101357483A Pending CN1991982A (zh) | 2005-12-29 | 2005-12-29 | 一种使用语音数据激励图像的方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20080259085A1 (zh) |
EP (1) | EP1974337A4 (zh) |
CN (1) | CN1991982A (zh) |
WO (1) | WO2007076278A2 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101809651B (zh) * | 2007-07-31 | 2012-11-07 | 寇平公司 | 提供语音到语音翻译和模拟人类属性的化身的移动无线显示器 |
CN103839548A (zh) * | 2012-11-26 | 2014-06-04 | 腾讯科技(北京)有限公司 | 一种语音交互方法、装置、***和移动终端 |
WO2014146258A1 (en) * | 2013-03-20 | 2014-09-25 | Intel Corporation | Avatar-based transfer protocols, icon generation and doll animation |
CN104641413A (zh) * | 2012-09-18 | 2015-05-20 | 高通股份有限公司 | 利用头戴式显示器来实现人际交互 |
WO2016154800A1 (en) * | 2015-03-27 | 2016-10-06 | Intel Corporation | Avatar facial expression and/or speech driven animations |
CN107004287A (zh) * | 2014-11-05 | 2017-08-01 | 英特尔公司 | 化身视频装置和方法 |
CN110012257A (zh) * | 2019-02-21 | 2019-07-12 | 百度在线网络技术(北京)有限公司 | 通话方法、装置及终端 |
CN111953922A (zh) * | 2019-05-16 | 2020-11-17 | 南宁富桂精密工业有限公司 | 视频会议的人脸辨识方法、服务器及计算机可读存储介质 |
CN114581567A (zh) * | 2022-05-06 | 2022-06-03 | 成都市谛视无限科技有限公司 | 一种声音驱动虚拟形象口型方法、装置及介质 |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090251484A1 (en) * | 2008-04-03 | 2009-10-08 | Motorola, Inc. | Avatar for a portable device |
US20100201693A1 (en) * | 2009-02-11 | 2010-08-12 | Disney Enterprises, Inc. | System and method for audience participation event with digital avatars |
CA2760289A1 (en) * | 2009-04-27 | 2010-11-11 | Sonoma Data Solutions Llc | A method and apparatus for character animation |
BRPI0904540B1 (pt) * | 2009-11-27 | 2021-01-26 | Samsung Eletrônica Da Amazônia Ltda | método para animar rostos/cabeças/personagens virtuais via processamento de voz |
US20110311144A1 (en) * | 2010-06-17 | 2011-12-22 | Microsoft Corporation | Rgb/depth camera for improving speech recognition |
US9262941B2 (en) * | 2010-07-14 | 2016-02-16 | Educational Testing Services | Systems and methods for assessment of non-native speech using vowel space characteristics |
US20120058747A1 (en) * | 2010-09-08 | 2012-03-08 | James Yiannios | Method For Communicating and Displaying Interactive Avatar |
JP2012181704A (ja) * | 2011-03-01 | 2012-09-20 | Sony Computer Entertainment Inc | 情報処理装置および情報処理方法 |
US9786030B1 (en) * | 2014-06-16 | 2017-10-10 | Google Inc. | Providing focal length adjustments |
IL296031A (en) | 2016-11-11 | 2022-10-01 | Magic Leap Inc | Peripheral assembly and audio of a full facial image |
JP6768597B2 (ja) * | 2017-06-08 | 2020-10-14 | 株式会社日立製作所 | 対話システム、対話システムの制御方法、及び装置 |
US20190172240A1 (en) * | 2017-12-06 | 2019-06-06 | Sony Interactive Entertainment Inc. | Facial animation for social virtual reality (vr) |
US10910001B2 (en) * | 2017-12-25 | 2021-02-02 | Casio Computer Co., Ltd. | Voice recognition device, robot, voice recognition method, and storage medium |
US10586369B1 (en) * | 2018-01-31 | 2020-03-10 | Amazon Technologies, Inc. | Using dialog and contextual data of a virtual reality environment to create metadata to drive avatar animation |
EP3752957A4 (en) * | 2018-02-15 | 2021-11-17 | DMAI, Inc. | SYSTEM AND PROCEDURE FOR SPEECH UNDERSTANDING VIA INTEGRATED AUDIO AND VIDEO-BASED VOICE RECOGNITION |
US11468885B2 (en) | 2018-02-15 | 2022-10-11 | DMAI, Inc. | System and method for conversational agent via adaptive caching of dialogue tree |
WO2019161229A1 (en) | 2018-02-15 | 2019-08-22 | DMAI, Inc. | System and method for reconstructing unoccupied 3d space |
EP3766004A4 (en) | 2018-03-16 | 2021-12-15 | Magic Leap, Inc. | FACIAL EXPRESSIONS OBTAINED FROM EYE-TRACKING CAMERAS |
US10699705B2 (en) * | 2018-06-22 | 2020-06-30 | Adobe Inc. | Using machine-learning models to determine movements of a mouth corresponding to live speech |
JP7500582B2 (ja) * | 2019-01-25 | 2024-06-17 | ソウル マシーンズ リミティド | 発話アニメーションのリアルタイム生成 |
CN117671093A (zh) * | 2023-11-29 | 2024-03-08 | 上海积图科技有限公司 | 数字人视频制作方法、装置、设备及存储介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5983251A (en) * | 1993-09-08 | 1999-11-09 | Idt, Inc. | Method and apparatus for data analysis |
US6232965B1 (en) * | 1994-11-30 | 2001-05-15 | California Institute Of Technology | Method and apparatus for synthesizing realistic animations of a human speaking using a computer |
DE69715175T2 (de) * | 1996-03-26 | 2003-05-15 | British Telecomm | Bildsynthetisierung |
US5995119A (en) * | 1997-06-06 | 1999-11-30 | At&T Corp. | Method for generating photo-realistic animated characters |
US6112177A (en) * | 1997-11-07 | 2000-08-29 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
US6839672B1 (en) * | 1998-01-30 | 2005-01-04 | At&T Corp. | Integration of talking heads and text-to-speech synthesizers for visual TTS |
US6250928B1 (en) * | 1998-06-22 | 2001-06-26 | Massachusetts Institute Of Technology | Talking facial display method and apparatus |
US6661418B1 (en) * | 2001-01-22 | 2003-12-09 | Digital Animations Limited | Character animation system |
US6654018B1 (en) * | 2001-03-29 | 2003-11-25 | At&T Corp. | Audio-visual selection process for the synthesis of photo-realistic talking-head animations |
US8555164B2 (en) * | 2001-11-27 | 2013-10-08 | Ding Huang | Method for customizing avatars and heightening online safety |
US7663628B2 (en) * | 2002-01-22 | 2010-02-16 | Gizmoz Israel 2002 Ltd. | Apparatus and method for efficient animation of believable speaking 3D characters in real time |
EP1345179A3 (en) * | 2002-03-13 | 2004-01-21 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for computer graphics animation |
US7529674B2 (en) * | 2003-08-18 | 2009-05-05 | Sap Aktiengesellschaft | Speech animation |
US20050207674A1 (en) * | 2004-03-16 | 2005-09-22 | Applied Research Associates New Zealand Limited | Method, system and software for the registration of data sets |
-
2005
- 2005-12-29 CN CNA2005101357483A patent/CN1991982A/zh active Pending
-
2006
- 2006-12-13 EP EP06846601A patent/EP1974337A4/en not_active Withdrawn
- 2006-12-13 WO PCT/US2006/062029 patent/WO2007076278A2/en active Application Filing
-
2008
- 2008-06-27 US US12/147,840 patent/US20080259085A1/en not_active Abandoned
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101809651B (zh) * | 2007-07-31 | 2012-11-07 | 寇平公司 | 提供语音到语音翻译和模拟人类属性的化身的移动无线显示器 |
US10347254B2 (en) | 2012-09-18 | 2019-07-09 | Qualcomm Incorporated | Leveraging head mounted displays to enable person-to-person interactions |
CN104641413A (zh) * | 2012-09-18 | 2015-05-20 | 高通股份有限公司 | 利用头戴式显示器来实现人际交互 |
US9966075B2 (en) | 2012-09-18 | 2018-05-08 | Qualcomm Incorporated | Leveraging head mounted displays to enable person-to-person interactions |
CN104641413B (zh) * | 2012-09-18 | 2018-07-17 | 高通股份有限公司 | 利用头戴式显示器来实现人际交互 |
CN103839548A (zh) * | 2012-11-26 | 2014-06-04 | 腾讯科技(北京)有限公司 | 一种语音交互方法、装置、***和移动终端 |
US9728192B2 (en) | 2012-11-26 | 2017-08-08 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for voice interaction control of movement base on material movement |
CN103839548B (zh) * | 2012-11-26 | 2018-06-01 | 腾讯科技(北京)有限公司 | 一种语音交互方法、装置、***和移动终端 |
WO2014146258A1 (en) * | 2013-03-20 | 2014-09-25 | Intel Corporation | Avatar-based transfer protocols, icon generation and doll animation |
US9792714B2 (en) | 2013-03-20 | 2017-10-17 | Intel Corporation | Avatar-based transfer protocols, icon generation and doll animation |
CN107004287A (zh) * | 2014-11-05 | 2017-08-01 | 英特尔公司 | 化身视频装置和方法 |
CN107004287B (zh) * | 2014-11-05 | 2020-10-23 | 英特尔公司 | 化身视频装置和方法 |
WO2016154800A1 (en) * | 2015-03-27 | 2016-10-06 | Intel Corporation | Avatar facial expression and/or speech driven animations |
CN107431635A (zh) * | 2015-03-27 | 2017-12-01 | 英特尔公司 | 化身面部表情和/或语音驱动的动画化 |
CN107431635B (zh) * | 2015-03-27 | 2021-10-08 | 英特尔公司 | 化身面部表情和/或语音驱动的动画化 |
CN110012257A (zh) * | 2019-02-21 | 2019-07-12 | 百度在线网络技术(北京)有限公司 | 通话方法、装置及终端 |
CN111953922A (zh) * | 2019-05-16 | 2020-11-17 | 南宁富桂精密工业有限公司 | 视频会议的人脸辨识方法、服务器及计算机可读存储介质 |
CN111953922B (zh) * | 2019-05-16 | 2022-05-27 | 南宁富联富桂精密工业有限公司 | 视频会议的人脸辨识方法、服务器及计算机可读存储介质 |
CN114581567A (zh) * | 2022-05-06 | 2022-06-03 | 成都市谛视无限科技有限公司 | 一种声音驱动虚拟形象口型方法、装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
EP1974337A4 (en) | 2010-12-08 |
US20080259085A1 (en) | 2008-10-23 |
WO2007076278A3 (en) | 2008-10-23 |
EP1974337A2 (en) | 2008-10-01 |
WO2007076278A2 (en) | 2007-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1991982A (zh) | 一种使用语音数据激励图像的方法 | |
CN112099628A (zh) | 基于人工智能的vr互动方法、装置、计算机设备及介质 | |
US20110131041A1 (en) | Systems And Methods For Synthesis Of Motion For Animation Of Virtual Heads/Characters Via Voice Processing In Portable Devices | |
CA2228901A1 (en) | Automated speech alignment for image synthesis | |
CN110808034A (zh) | 语音转换方法、装置、存储介质及电子设备 | |
JP2023501074A (ja) | ユーザ用の音声モデルを生成すること | |
CN1692403A (zh) | 具有个人化语音段的语音合成设备 | |
CN1427626A (zh) | 虚拟电视通话装置 | |
CN112786004B (zh) | 语音合成方法以及电子设备、存储装置 | |
CN110097890A (zh) | 一种语音处理方法、装置和用于语音处理的装置 | |
CN112669417A (zh) | 虚拟形象的生成方法、装置、存储介质及电子设备 | |
CN112652041B (zh) | 虚拟形象的生成方法、装置、存储介质及电子设备 | |
CN112185363B (zh) | 音频处理方法及装置 | |
CN113724683B (zh) | 音频生成方法、计算机设备及计算机可读存储介质 | |
CN112668407A (zh) | 人脸关键点生成方法、装置、存储介质及电子设备 | |
CN110648672A (zh) | 人物图像生成方法、交互方法、装置及终端设备 | |
CN1991981A (zh) | 对语音数据进行分类的方法 | |
CN109754816A (zh) | 一种语音数据处理的方法及装置 | |
CN116597858A (zh) | 语音口型匹配方法、装置、存储介质及电子设备 | |
CN1366295A (zh) | 基于事先知识的说话者检验及说话者识别***和方法 | |
CN111128120A (zh) | 文本转语音方法和装置 | |
JPH10293860A (ja) | 音声駆動を用いた人物画像表示方法およびその装置 | |
CN113870838A (zh) | 一种语音合成方法、装置、设备及介质 | |
CN105989832A (zh) | 一种用于在计算机设备中生成个性化语音的方法和装置 | |
CN111276118A (zh) | 一种实现音频电子书的方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |