CN102609969A - 基于汉语文本驱动的人脸语音同步动画的处理方法 - Google Patents

基于汉语文本驱动的人脸语音同步动画的处理方法 Download PDF

Info

Publication number
CN102609969A
CN102609969A CN2012100375287A CN201210037528A CN102609969A CN 102609969 A CN102609969 A CN 102609969A CN 2012100375287 A CN2012100375287 A CN 2012100375287A CN 201210037528 A CN201210037528 A CN 201210037528A CN 102609969 A CN102609969 A CN 102609969A
Authority
CN
China
Prior art keywords
chinese
face
animation
people
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100375287A
Other languages
English (en)
Other versions
CN102609969B (zh
Inventor
赵群飞
杜鹏
樊延峰
邓杰
唐品
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN 201210037528 priority Critical patent/CN102609969B/zh
Publication of CN102609969A publication Critical patent/CN102609969A/zh
Application granted granted Critical
Publication of CN102609969B publication Critical patent/CN102609969B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于汉语文本驱动的人脸语音同步动画的处理方法,首先按照汉语拼音发音时嘴唇动作的大小特征将所有中文音素归为16组中文可视音素并用输入的人脸图像合成对应的关键帧;其次分析输入文本得到其对应的中文可视音素序列和动画的关键帧序列;然后在每两个相邻关键帧之间***过渡帧;再将关键帧序列与语音流对齐;最后同时播放语音流和动画流以实现人脸语音同步动画。本发明在输入任意的人脸头像和任意的文本内容后,可以全自动地完成人脸动画的生成和输出,操作简单、效果流畅,适用于可视化人机界面、计算机游戏、对外汉语教学等多种场合。

Description

基于汉语文本驱动的人脸语音同步动画的处理方法
技术领域
本发明涉及人脸语音同步动画技术领域,具体是涉及一种基于汉语文本驱动的人脸语音同步动画的处理方法。
背景技术
文字信息、声音信息和视觉信息是当今人类信息和知识的主要表现形式,同时它们也是人类进行学习和交流的重要工具。时至今日,多种信息之间的交互作用越来越受到人们的关注,把文字、声音和图像集成在一起,形成直接由文本到可视语音的转换,即语音同步的人脸动画***,让人们在听计算机发出声音的同时能看到一个同步说话的人脸,使人机交互界面更为友好、和谐。人脸语音同步动画技术在近几十年中,从最初的存储静态图片顺序播放到如今的三维人脸实时合成动画的实现,技术的创新和产品的推出可谓是一日千里。中国科学技术大学的研究团队实现了一个与MPEG-4标准相兼容的语音同步动画***,该***利用一个中性的三维人头模型和正面侧面两张真人照片实现了一个三维的“说话头”(talking head),但其所实现的动画效果较为卡通化,与真实人物说话还有比较大的差距。上海交通大学的研究团队用一个中性的三维人头模型和一张正面人脸照片实现了一个人脸动画***,但其过渡帧的***和动画流与语音流在时间轴上的同步对齐问题处理得非常简陋和粗糙,生成的动画时常有闪烁和不自然的情况发生。
经过对现有技术文献的检索发现,中国专利申请号:201010263097.7,发明专利名称:基于协同过滤算法的实时语音驱动人脸唇动同步动画***,其特点是通过实时录入语音,使得人物头部模型做出与输入语音同步的唇部动画。该***可以利用数字录音设备,实时地接收输入的语音信号,并实时地输出与语音同步的人脸唇部动画,在生成多模态同步库时不需要手工标注,可任意输入男女语音进行语音驱动的唇部动画。可是该***需要专门的多模态数据采集设备同步地采集录制说话人在说话中语音和人脸三维特征点运动信息,必然增加了***实现的难度进而限制了该***的使用范围,而且该***基于语音驱动,需要事先在动画生成之前录下朗读的声音信息,不能对于任意的需要朗读的文本生成相应的动画。中国专利申请号:200910263558.8,发明专利名称:语音驱动唇形动画的方法,该方法的实现需要采集若干个人的原始音频数据和视频数据:每个人读声母和韵母单词,同时使用DV或者摄像机拍摄,以获取音频流和视频流数据,需要采集的内容较多,也不是完全的自动化。
发明内容
本发明的目的在于克服上述现有技术中的不足,提供一种基于汉语文本驱动的人脸语音同步动画***的方法,该***完全自动化,只需要一台带摄像头的计算机,输入想要朗读的文本内容,就可以得到任意人脸朗读任意汉语文本的语音同步动画效果,输出效果真实流畅。
本发明是通过以下技术方案实现的:
一种基于汉语文本驱动的人脸语音同步动画的处理方法,其特征在于该方法包括下列步骤:
①采集人脸图像:由光源将光线照在欲采集的人脸上产生表示人脸特征的反射光或透射光,再由CCD探测器将光信号转换成相应的电信号;或从存储设备中读取人脸图像;
②人脸检测:对步骤①所得的人脸图像进行预处理,然后利用AdaBoost算法检测人脸区域;
③人脸特征提取:在步骤②所检测到的人脸区域内,利用ASM算法提取人脸的特征点,其中嘴部提取32个特征点,眼睛部提取20个特征点,鼻部和脸部***轮廓提取30个特征点;
④关键帧合成:根据步骤③嘴部所提取的32个特征点将嘴部图像划分为49个互不重叠的三角形区块,根据对中文可视音素的分类和定义,运用自由格式变形算法控制步骤③中提取到的特征点和所述三角形区块在人脸平面内移动和格式变形,合成出相应的人脸动画关键帧;
⑤过渡帧合成:首先,根据步骤④每相邻两关键帧的特征点,以时间为参数对其进行线性插值计算出过渡帧的特征点,再根据该嘴部32个过渡帧的特征点将嘴部划分为49个互不重叠的三角形区块,对这些三角形区块运用自由格式变形算法合成出相应的人脸动画过渡帧;
然后,根据16组中文可视音素和中文可视音素的定义和分类,在每相邻两帧关键帧之间***不同数目的过渡帧;
⑥中文文本输入:输入中文文本或从存储设备中读取中文文本;
⑦文本分析:对步骤⑥所得到的文本内容进行分析,得到该文本对应的中文可视音素流;
⑧文本语音转换:将步骤⑥所得到的文本内容转换为声音信号的语音流;
⑨动画流与语音流同步:将步骤④所合成的关键帧对齐到步骤⑧所转换的语音流上;
⑩人脸语音与动画的同步输出,显示合成的人脸语音同步动画效果。
所述的步骤①到步骤⑤与所述的步骤⑥到步骤⑧同时进行。
所述的中文可视音素的定义和分类是指按汉语发音时的嘴唇动作特征,将所有的汉语拼音归类为16种中文可视音素类。
所述的预处理是指对输入的人脸图像进行平滑滤波和角度校正处理。
所述过渡帧的特征点计算公式如下:
P ( k , t ) = t e - t t e - t s × P ( k , t s ) + t - t s t e - t s × P ( k , t e ) , k = 1,2 , . . . , 32 andt ∈ [ t s , t e ) 式中P(k,t)为嘴部第k个特征点在t时刻时的坐标,ts为某个中文可视音素发音开始的时刻,te为该中文可视音素发音结束的时刻。
所述在每相邻两关键帧之间需要***的过渡帧数目的计算公式如下:
N i = W i W sum × T w × F v , i = 1,2 , . . . , n
式中:Ni为某个汉字对应的第i个中文可视音素到第i+1个中文可视音素之间***的过渡帧的数目,n为该汉字对应的所有中文可视音素的数目,n≤3,Wi为该汉字对应的第i个中文可视音素的权值,Wsum为该汉字对应的所有中文可视音素的权值的总和,Tw为该汉字发音持续的时间,Fv为动画播放速度,单位是“帧每秒”。汉字中的每个中文可视音素都对应着动画流中的一个关键帧,汉字中第i和i+1个中文可视音素就对应着动画流中两个相邻的关键帧。
整个过程实现简单,操作方便,计算量小,生成的人脸语音同步动画效果真实流畅。
附图说明
图1为本发明基于汉语文本驱动的人脸语音同步动画的处理方法流程图。
图2为关键帧对齐示意图,图中Fa,Fb,Fc,Fd为中文可视音素关键帧。
具体实施方式
下面结合附图和实施例对本发明的技术方案做详细描述,但不应以此限制本发明的保护范围。
将汉语拼音字母表按照发音时嘴唇动作特征分为16组中文可视音素组,见表1,并定义中文可视音素的权值,表征其发音时候的嘴唇动作大小,如表2所示。表1为中文可视音素分组,表2为中文可视音素权值表。
表1
Figure BDA0000136497440000041
表2
Figure BDA0000136497440000042
首先采集人脸图像,然后通过人脸检测步骤检测到该图像中的人脸区域,再通过人脸特征点提取步骤提取该区域中的人脸特征点,通过这些特征点,按照对中文可视音素的定义和分类合成人脸动画的中文可视音素关键帧,然后在每两个相邻关键帧之间***过渡帧。
输入或读取需要朗读的中文文本,再对其进行分析得到对应的中文可视音素序列,通过文本语音转换步骤将中文文本转换为语音流;最后,将中文可视音素关键帧对齐到语音流上,以便同步输出动画流和语音流,实现人脸语音同步动画效果。
图1为基于汉语文本驱动的人脸语音同步动画的处理方法的流程图,如图所示,一种基于汉语文本驱动的人脸语音同步动画的处理方法,包括下列步骤:
①采集人脸图像:由光源将光线照在欲采集的人脸上产生表示人脸特征的反射光或透射光,再由CCD探测器将光信号转换成相应的电信号;或从存储设备中读取人脸图像;
②人脸检测:对步骤①所得的人脸图像进行平滑滤波、角度校正等预处理,然后利用AdaBoost算法检测人脸的大致区域;
③人脸特征提取:在步骤②所检测到的人脸的大致区域内,利用ASM算法提取人脸的特征点,其中嘴部提取32个特征点,眼睛部提取20个特征点,鼻部和脸部***轮廓提取30个特征点;
④关键帧合成:本实施例中首先根据步骤③所提取出的嘴部提取32个特征点,将嘴部图像划分为49个互不重叠的三角形区块,然后根据表1中对中文可视音素的分类和定义,运用自由格式变形算法控制步骤③中提取到的特征点和上述三角形区块在人脸平面内移动和格式变形,从而合成出相应的人脸动画关键帧;
⑤过渡帧合成:首先,根据步骤④每相邻两关键帧的特征点,以时间为参数对其进行线性插值计算出过渡帧的特征点,再根据该嘴部32个过渡帧的特征点将嘴部划分为49个互不重叠的三角形区块,对这些三角形区块运用自由格式变形算法合成出相应的人脸动画过渡帧;
任意一个过渡帧的特征点计算公式如下:
P ( k , t ) = t e - t t e - t s × P ( k , t s ) + t - t s t e - t s × P ( k , t e ) , k = 1,2 , . . . , 32 andt ∈ [ t s , t e )
式中P(k,t)为嘴部第k个特征点在t时刻时的坐标,ts为某个中文可视音素发音开始的时刻,te为该中文可视音素发音结束的时刻。
然后,根据16组中文可视音素和中文可视音素的定义和分类,在每相邻两帧关键帧之间***不同数目的过渡帧;
过渡帧***的数目根据其对应的中文可视音素在表2中的权值决定,任意两个相邻关键帧之间需要***的过渡帧数目的计算公式如下:
N i = W i W sum × T w × F v , i = 1,2 , . . . , n
式中:Ni为某个汉字对应的第i个中文可视音素到第i+1个中文可视音素之间应该***的过渡帧的数目,n为该汉字对应的所有中文可视音素的数目(由表1可知n≤3),Wi为该汉字对应的第i个中文可视音素在表2中的权值,Wsum为该汉字对应的所有中文可视音素的权值的总和,Tw为该汉字发音持续的时间,Fv为动画播放速度,单位是“帧每秒”。
⑥中文文本输入:输入中文文本或从存储设备中读取中文文本;
⑦文本分析:对步骤⑥所得到的文本内容进行分析,得到该文本对应的中文可视音素流,即中文可视音素的序列;
⑧文本语音转换:将步骤⑥所得到的文本内容转换为声音信号的语音流;
⑨动画流与语音流同步:将步骤④所合成的关键帧对齐到步骤⑧所转换的语音流上。具体方法如下:
首先,文本语音转换引擎在每个汉字的开始会抛出信息,表示其开始“读”一个汉字,在两个相继发生的信息之间的时间差就是一个汉字发音的持续时间。然后,通过步骤⑦中得到的该汉字对应的可视音素流(序列),得到该汉字发音时候的人脸动画的关键帧流(序列),将这些关键帧流按表2所示的权值比例安排在该汉字发音所持续的时间跨度上。
⑩人脸语音与动画的同步输出,实现人脸语音同步动画效果。

Claims (6)

1.一种基于汉语文本驱动的人脸语音同步动画的处理方法,其特征在于该方法包括下列步骤:
①采集人脸图像:由光源将光线照在欲采集的人脸上产生表示人脸特征的反射光或透射光,再由CCD探测器将光信号转换成相应的电信号;或从存储设备中读取人脸图像;
②人脸检测:对步骤①所得的人脸图像进行预处理,然后利用AdaBoost算法检测人脸区域;
③人脸特征提取:在步骤②所检测到的人脸区域内,利用ASM算法提取人脸的特征点,其中嘴部提取32个特征点,眼睛部提取20个特征点,鼻部和脸部***轮廓提取30个特征点;
④关键帧合成:根据步骤③嘴部所提取的32个特征点将嘴部图像划分为49个互不重叠的三角形区块,根据对中文可视音素的分类和定义,运用自由格式变形算法控制步骤③中提取到的特征点和所述三角形区块在人脸平面内移动和格式变形,合成出相应的人脸动画关键帧;
⑤过渡帧合成:首先,根据步骤④每相邻两关键帧的特征点,以时间为参数对其进行线性插值计算出过渡帧的特征点,再根据该嘴部32个过渡帧的特征点将嘴部划分为49个互不重叠的三角形区块,对这些三角形区块运用自由格式变形算法合成出相应的人脸动画过渡帧;
然后,根据16组中文可视音素和中文可视音素的定义和分类,在每相邻两帧关键帧之间***不同数目的过渡帧;
⑥中文文本输入:输入中文文本或从存储设备中读取中文文本;
⑦文本分析:对步骤⑥所得到的文本内容进行分析,得到该文本对应的中文可视音素流;
⑧文本语音转换:将步骤⑥所得到的文本内容转换为声音信号的语音流;
⑨动画流与语音流同步:将步骤④所合成的关键帧对齐到步骤⑧所转换的语音流上;
⑩人脸语音与动画的同步输出。
2.根据权利要求1所述的人脸语音同步动画的处理方法,特征在于,所述的步骤①到步骤⑤与所述的步骤⑥到步骤⑧同时进行。
3.根据权利要求1或2所述的人脸语音同步动画的处理方法,特征在于,所述的中文可视音素的定义和分类是指按汉语发音时的嘴唇动作特征,将所有的汉语拼音归类为16种中文可视音素类。
4.根据权利要求1或2所述的人脸语音同步动画的处理方法,特征在于,所述的预处理是指对输入的人脸图像进行平滑滤波和角度校正处理。
5.根据权利要求1或2所述的人脸语音同步动画的处理方法,特征在于,所述过渡帧的特征点计算公式如下:
P ( k , t ) = t e - t t e - t s × P ( k , t s ) + t - t s t e - t s × P ( k , t e ) , k = 1,2 , . . . , 32 andt ∈ [ t s , t e )
式中P(k,t)为嘴部第k个特征点在t时刻时的坐标,ts为某个中文可视音素发音开始的时刻,te为该中文可视音素发音结束的时刻。
6.根据权利要求1或2所述的人脸语音同步动画的处理方法,特征在于,所述在每相邻两关键帧之间需要***的过渡帧数目的计算公式如下:
N i = W i W sum × T w × F v , i = 1,2 , . . . , n
式中:Ni为某个汉字对应的第i个中文可视音素到第i+1个中文可视音素之间***的过渡帧的数目,n为该汉字对应的所有中文可视音素的数目,n≤3,Wi为该汉字对应的第i个中文可视音素的权值,Wsum为该汉字对应的所有中文可视音素的权值的总和,Tw为该汉字发音持续的时间,Fv为动画播放速度,单位是“帧每秒”。
CN 201210037528 2012-02-17 2012-02-17 基于汉语文本驱动的人脸语音同步动画的处理方法 Expired - Fee Related CN102609969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201210037528 CN102609969B (zh) 2012-02-17 2012-02-17 基于汉语文本驱动的人脸语音同步动画的处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201210037528 CN102609969B (zh) 2012-02-17 2012-02-17 基于汉语文本驱动的人脸语音同步动画的处理方法

Publications (2)

Publication Number Publication Date
CN102609969A true CN102609969A (zh) 2012-07-25
CN102609969B CN102609969B (zh) 2013-08-07

Family

ID=46527312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201210037528 Expired - Fee Related CN102609969B (zh) 2012-02-17 2012-02-17 基于汉语文本驱动的人脸语音同步动画的处理方法

Country Status (1)

Country Link
CN (1) CN102609969B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500461A (zh) * 2013-09-18 2014-01-08 珠海金山网络游戏科技有限公司 一种减少实时插值计算量的动画生成方法
CN104268526A (zh) * 2014-09-25 2015-01-07 北京航空航天大学 一种汉字图片匹配与变形方法
CN104616338A (zh) * 2015-01-26 2015-05-13 江苏如意通动漫产业有限公司 基于二维动画的时空一致的变速内插方法
CN104834750A (zh) * 2015-05-28 2015-08-12 瞬联软件科技(北京)有限公司 一种文字曲线生成方法
CN105390133A (zh) * 2015-10-09 2016-03-09 西北师范大学 藏语ttvs***的实现方法
CN105786798A (zh) * 2016-02-25 2016-07-20 上海交通大学 一种人机交互中自然语言意图理解方法
CN106328163A (zh) * 2016-08-16 2017-01-11 新疆大学 维吾尔语音位‑视位参数的转换方法和***
CN107203773A (zh) * 2016-03-17 2017-09-26 掌赢信息科技(上海)有限公司 一种嘴部表情迁移的方法及电子设备
CN108765528A (zh) * 2018-04-10 2018-11-06 南京江大搏达信息科技有限公司 基于数据驱动的游戏人物人脸3d动画合成方法
CN109949390A (zh) * 2017-12-21 2019-06-28 腾讯科技(深圳)有限公司 图像生成方法、动态表情图像生成方法及装置
CN110580336A (zh) * 2018-06-08 2019-12-17 北京得意音通技术有限责任公司 唇语的分词方法、装置、存储介质和电子设备
CN110730389A (zh) * 2019-12-19 2020-01-24 恒信东方文化股份有限公司 一种视频节目自动生成互动问答的方法及装置
CN110853614A (zh) * 2018-08-03 2020-02-28 Tcl集团股份有限公司 虚拟对象口型驱动方法、装置及终端设备
CN110867177A (zh) * 2018-08-16 2020-03-06 林其禹 音色可选的人声播放***、其播放方法及可读记录介质
CN111460785A (zh) * 2020-03-31 2020-07-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111459452A (zh) * 2020-03-31 2020-07-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN112328076A (zh) * 2020-11-06 2021-02-05 北京中科深智科技有限公司 一种语音驱动人物手势的方法和***
CN113379875A (zh) * 2021-03-22 2021-09-10 平安科技(深圳)有限公司 卡通角色动画的生成方法、装置、设备及存储介质
CN113672194A (zh) * 2020-03-31 2021-11-19 北京市商汤科技开发有限公司 声学特征样本的获取方法、装置、设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030163315A1 (en) * 2002-02-25 2003-08-28 Koninklijke Philips Electronics N.V. Method and system for generating caricaturized talking heads
US6665643B1 (en) * 1998-10-07 2003-12-16 Telecom Italia Lab S.P.A. Method of and apparatus for animation, driven by an audio signal, of a synthesized model of a human face
CN1971621A (zh) * 2006-11-10 2007-05-30 中国科学院计算技术研究所 语音和文本联合驱动的卡通人脸动画生成方法
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别***
CN101751692A (zh) * 2009-12-24 2010-06-23 四川大学 语音驱动唇形动画的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6665643B1 (en) * 1998-10-07 2003-12-16 Telecom Italia Lab S.P.A. Method of and apparatus for animation, driven by an audio signal, of a synthesized model of a human face
US20030163315A1 (en) * 2002-02-25 2003-08-28 Koninklijke Philips Electronics N.V. Method and system for generating caricaturized talking heads
CN1971621A (zh) * 2006-11-10 2007-05-30 中国科学院计算技术研究所 语音和文本联合驱动的卡通人脸动画生成方法
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别***
CN101751692A (zh) * 2009-12-24 2010-06-23 四川大学 语音驱动唇形动画的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《小型微型计算机***》 20071231 涂欢、周经野等 "一种语音和文本联合驱动的卡通人脸动画方法" 第2238-2241页 1-6 第28卷, 第12期 *
涂欢、周经野等: ""一种语音和文本联合驱动的卡通人脸动画方法"", 《小型微型计算机***》, vol. 28, no. 12, 31 December 2007 (2007-12-31), pages 2238 - 2241 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500461A (zh) * 2013-09-18 2014-01-08 珠海金山网络游戏科技有限公司 一种减少实时插值计算量的动画生成方法
CN104268526A (zh) * 2014-09-25 2015-01-07 北京航空航天大学 一种汉字图片匹配与变形方法
CN104268526B (zh) * 2014-09-25 2017-09-01 北京航空航天大学 一种汉字图片匹配与变形方法
CN104616338B (zh) * 2015-01-26 2018-02-27 江苏如意通动漫产业有限公司 基于二维动画的时空一致的变速内插方法
CN104616338A (zh) * 2015-01-26 2015-05-13 江苏如意通动漫产业有限公司 基于二维动画的时空一致的变速内插方法
CN104834750A (zh) * 2015-05-28 2015-08-12 瞬联软件科技(北京)有限公司 一种文字曲线生成方法
US10311133B2 (en) 2015-05-28 2019-06-04 Cienet Technologies (Beijing) Co., Ltd. Character curve generating method and device thereof
WO2016188493A1 (zh) * 2015-05-28 2016-12-01 瞬联软件科技(北京)有限公司 文字曲线生成方法及其装置
CN104834750B (zh) * 2015-05-28 2018-03-02 瞬联软件科技(北京)有限公司 一种文字曲线生成方法
CN105390133A (zh) * 2015-10-09 2016-03-09 西北师范大学 藏语ttvs***的实现方法
CN105786798B (zh) * 2016-02-25 2018-11-02 上海交通大学 一种人机交互中自然语言意图理解方法
CN105786798A (zh) * 2016-02-25 2016-07-20 上海交通大学 一种人机交互中自然语言意图理解方法
CN107203773A (zh) * 2016-03-17 2017-09-26 掌赢信息科技(上海)有限公司 一种嘴部表情迁移的方法及电子设备
CN106328163A (zh) * 2016-08-16 2017-01-11 新疆大学 维吾尔语音位‑视位参数的转换方法和***
CN106328163B (zh) * 2016-08-16 2019-07-02 新疆大学 维吾尔语音位-视位参数的转换方法和***
CN109949390A (zh) * 2017-12-21 2019-06-28 腾讯科技(深圳)有限公司 图像生成方法、动态表情图像生成方法及装置
CN108765528A (zh) * 2018-04-10 2018-11-06 南京江大搏达信息科技有限公司 基于数据驱动的游戏人物人脸3d动画合成方法
CN110580336A (zh) * 2018-06-08 2019-12-17 北京得意音通技术有限责任公司 唇语的分词方法、装置、存储介质和电子设备
CN110853614A (zh) * 2018-08-03 2020-02-28 Tcl集团股份有限公司 虚拟对象口型驱动方法、装置及终端设备
CN110867177A (zh) * 2018-08-16 2020-03-06 林其禹 音色可选的人声播放***、其播放方法及可读记录介质
CN110730389A (zh) * 2019-12-19 2020-01-24 恒信东方文化股份有限公司 一种视频节目自动生成互动问答的方法及装置
CN111460785A (zh) * 2020-03-31 2020-07-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111459452A (zh) * 2020-03-31 2020-07-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN113672194A (zh) * 2020-03-31 2021-11-19 北京市商汤科技开发有限公司 声学特征样本的获取方法、装置、设备以及存储介质
CN112328076A (zh) * 2020-11-06 2021-02-05 北京中科深智科技有限公司 一种语音驱动人物手势的方法和***
CN113379875A (zh) * 2021-03-22 2021-09-10 平安科技(深圳)有限公司 卡通角色动画的生成方法、装置、设备及存储介质
CN113379875B (zh) * 2021-03-22 2023-09-29 平安科技(深圳)有限公司 卡通角色动画的生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN102609969B (zh) 2013-08-07

Similar Documents

Publication Publication Date Title
CN102609969B (zh) 基于汉语文本驱动的人脸语音同步动画的处理方法
CN108447474B (zh) 一种虚拟人物语音与口型同步的建模与控制方法
CN103218842B (zh) 一种语音同步驱动三维人脸口型与面部姿势动画的方法
CN109308731B (zh) 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
US10460732B2 (en) System and method to insert visual subtitles in videos
US20060012601A1 (en) Method of animating a synthesised model of a human face driven by an acoustic signal
Yargıç et al. A lip reading application on MS Kinect camera
CN100596186C (zh) 一种基于视频和音频的交互式数字多媒体制作方法
CN110096966A (zh) 一种融合深度信息汉语多模态语料库的语音识别方法
JP6095381B2 (ja) データ処理装置、データ処理方法及びプログラム
CN101930619A (zh) 基于协同过滤算法的实时语音驱动人脸唇部同步动画***
CN114419702A (zh) 数字人生成模型、模型的训练方法以及数字人生成方法
CN104144280A (zh) 电子贺卡的语音动作动画同步控制及装置
WO2018113649A1 (zh) 一种虚拟现实语言交互***与方法
Hong et al. iFACE: a 3D synthetic talking face
Vignoli et al. A text-speech synchronization technique with applications to talking heads
WO2024113701A1 (zh) 语音生成视频的方法、装置、服务器及介质
CN117315102A (zh) 虚拟主播处理方法、装置、计算设备及存储介质
Sui et al. A 3D audio-visual corpus for speech recognition
Karpov et al. A framework for recording audio-visual speech corpora with a microphone and a high-speed camera
Wolfe et al. Exploring localization for mouthings in sign language avatars
Zahedi et al. Robust sign language recognition system using ToF depth cameras
CN101968894A (zh) 根据汉字自动实现音唇同步的方法
KR100849027B1 (ko) 음성 신호에 대한 립싱크 동기화 방법 및 장치
Kunka et al. Multimodal English corpus for automatic speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130807

Termination date: 20160217

CF01 Termination of patent right due to non-payment of annual fee