CN111081270B - 一种实时音频驱动的虚拟人物口型同步控制方法 - Google Patents

一种实时音频驱动的虚拟人物口型同步控制方法 Download PDF

Info

Publication number
CN111081270B
CN111081270B CN201911314031.3A CN201911314031A CN111081270B CN 111081270 B CN111081270 B CN 111081270B CN 201911314031 A CN201911314031 A CN 201911314031A CN 111081270 B CN111081270 B CN 111081270B
Authority
CN
China
Prior art keywords
mouth shape
real
probability
phoneme
virtual character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911314031.3A
Other languages
English (en)
Other versions
CN111081270A (zh
Inventor
朱风云
陈博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Real Time Intelligent Technology Co ltd
Original Assignee
Dalian Real Time Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Real Time Intelligent Technology Co ltd filed Critical Dalian Real Time Intelligent Technology Co ltd
Priority to CN201911314031.3A priority Critical patent/CN111081270B/zh
Publication of CN111081270A publication Critical patent/CN111081270A/zh
Application granted granted Critical
Publication of CN111081270B publication Critical patent/CN111081270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/18Details of the transformation process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种实时音频驱动的虚拟人物口型同步控制方法。该方法包括如下步骤:从实时语音流中识别出视素概率的步骤;对所述视素概率进行滤波的步骤;将所述视素概率的采样率转换为和虚拟人物渲染帧率相同的采样率的步骤;将所述视素概率转换为标准口型配置并进行口型渲染的步骤。该方法可以避免要求在传递音频流时同步传递音素序列或口型序列信息,可以显著降低***复杂性、耦合度和实现难度,适用于各种在显示设备上渲染虚拟人物的应用场景。

Description

一种实时音频驱动的虚拟人物口型同步控制方法
技术领域
本发明属于虚拟人物姿态控制领域,具体涉及一种实时音频驱动的虚拟人物口型同步控制方法。
背景技术
虚拟人物建模与渲染技术在动画、游戏和电影等行业得到广泛应用。使虚拟人物讲话时能够具有自然流畅并与声音同步的口型动作是提升用户体验的关键。在实时***中,需要同步播放以流的形式实时获取的音频,和同步渲染的虚拟人物形象,这个过程中需要保证音频和人物口型之间的同步。
其应用场景包括:
1、实时音频为语音合成器所产生的语音;
1.1、可以以同步流的形式获取语音对应的音素序列;
1.2、无法以同步流的形式获取语音对应的音素序列;
2、实时音频为某个人所发出的语音。
在场景1.1中可以同步获得语音对应的音素序列。因此可以将音素序列转换为口型动作序列用于驱动虚拟人物口型变化。但是同步获取语音对应的音素序列在应用中需要额外的通信协议支持,用来保证语音和音素序列之间的时间同步,使得***复杂性提升,耦合性增加,实现难度较大。
在场景1.2和场景2中,无法同步获得语音对应的音素序列。因此需要一种能够基于实时音频数据驱动虚拟人物口型的控制方法。
因此,为了解决上述无法同步获得语音对应的音素序列的情况,亟需一种能够从音频中识别出口型序列,并利用该口型序列同步驱动虚拟人物口型变化的方法。
发明内容
本发明提供了一种实时音频驱动的虚拟人物口型同步控制方法,目的是要解决:在实时音频流传输的场景下,需要在设备端展示一个虚拟人物,该人物所说的语音从实时音频流获取,人物的口型需要和语音内容同步。
一种实时音频驱动的虚拟人物口型同步控制方法,包括如下步骤:
从实时语音流中识别出视素概率的步骤;其中,视素概率是基于预设的音素到视素的映射关系,将属于同一类视素的音素概率合并后得到的;
对所述视素概率进行滤波的步骤;
将所述视素概率的采样率转换为和虚拟人物渲染帧率相同的采样率的步骤;
将所述视素概率转换为标准口型配置并进行口型渲染的步骤。
如上所述的一种实时音频驱动的虚拟人物口型同步控制方法,其中:所述视素概率利用视素识别方法得到;或利用音素识别从实时语音流中识别出音素概率,再将所述音素概率转换为视素概率。
如上所述的一种实时音频驱动的虚拟人物口型同步控制方法,其中:采用有限或无限冲击响应滤波器,分别对各视素概率进行平滑滤波。
如上所述的一种实时音频驱动的虚拟人物口型同步控制方法,其中:将所述视素概率转换为标准口型配置时;首先,为每一种视素定义标准口型配置,所述标准口型配置为关键帧或描述口型的参数;其次,通过映射函数将视素概率转换为标准口型配置的混合比例;其中,在关键帧场景下,所述混合比例是不同关键帧之间的插值比例;在关键点参数、骨骼参数或blenshape参数的场景下,所述混合比例是各描述口型的参数的混合比例。
如上所述的一种实时音频驱动的虚拟人物口型同步控制方法,其中:在音视频播放时,为保持同步,在播放音频流时通过补偿延迟使音频流和视频流的内容同步。
如上所述的一种实时音频驱动的虚拟人物口型同步控制方法,其中:所述补偿延迟的缓冲区的长度由口型视素识别、滤波和视频渲染的处理延迟共同决定。
如上所述的一种实时音频驱动的虚拟人物口型同步控制方法,其中:所述音素识别包括:将语音流分帧,进行特征提取的步骤;以及利用所述特征进行音素估计的步骤。
如上所述的一种实时音频驱动的虚拟人物口型同步控制方法,其中:所述音素是IPA定义的音素,或自定义音素。
如上所述的一种实时音频驱动的虚拟人物口型同步控制方法,其中:所述补偿延迟的方法为:音频延迟补偿量=分帧延迟+特征拼接延迟+音素识别延迟+滤波延迟-视频渲染延迟。
本发明针对无法同步获得语音对应的音素序列的情况,提出从音频中识别出口型序列,并利用该口型序列同步驱动虚拟人物口型变化的方法。可以避免要求在传递音频流时同步传递音素序列或口型序列信息,可以显著降低***复杂性、耦合度和实现难度,适用于各种在显示设备上渲染虚拟人物的应用场景。
与现有技术相比,本发明具有以下优点:
通过在设备端本地渲染虚拟人物,避免在服务器端渲染后通过网络传输视频信号,可以节省大量通信带宽,降低运营成本。
通过在设备端本地识别口型,避免在传输音频的同时传输口型信息,避免进行音频和口型的通信层同步,降低通信协议复杂度,降低实现难度。
通过基于音素或视素识别模型输出的概率作为标准口型参数的混合比,可以避免使用Viterbi解码算法将概率转化为音素或视素类别的标签,降低实现难度。
本发明从音频信号直接推理出口型参数的混合比,不使用Viterbi解码,可以避免解码带来的***性延迟,相比基于解码的方法可缩短***响应时间约1秒,在实时交互的场景下大幅度降低交互延迟,提升用户体验。
附图说明
图1为本发明提供的一种实时音频驱动的虚拟人物口型同步控制方法的第一实施例的流程图;
图2为本发明提供的一种实时音频驱动的虚拟人物口型同步控制方法的第二实施例的流程图;
图3为本发明提供的一种实时音频驱动的虚拟人物口型同步控制方法的第三实施例的流程图。
具体实施方式
下面将结合附图介绍本发明的实施方式,但是应当意识到本发明并不局限于所介绍的实施方式,并且在不脱离基本思想的情况下本发明的各种变型都是可行的。因此本发明的范围仅由所附的权利要求确定。
如图1所示,本发明提供的一种实时音频驱动的虚拟人物口型同步控制方法,包括如下步骤:
从实时语音流中识别出视素概率的步骤;
对所述视素概率进行滤波的步骤;
将所述视素概率的采样率转换为和虚拟人物渲染帧率相同的采样率的步骤;
将所述视素概率转换为标准口型配置并进行口型渲染的步骤。
如图2所示,本发明提供的另一实施例的一种实时音频驱动的虚拟人物口型同步控制方法,包括如下步骤:
步骤1、音素识别
步骤1.1、特征提取
将语音流分帧,进行特征提取。
分帧过程为,在连续语音流上每隔H个样点,取帧长为L的一帧数据,帧和帧之间的重叠样点数为L-H。
特征提取过程为,将一帧数据进行信号处理,将其转化为某种形式,如频谱、相位谱、分带能量、倒谱系数、线性预测系数等等。
特征提取过程也可以不对语音数据进行处理,以原始音频样本作为特征提取的结果。
得到每一帧数据对应的特征后,也可以利用时间上相邻的帧的特征,进一步提取出差分特征,并将差分特征附加到原始特征上作为特征提取的结果。
得到每一帧数据对应的特征后,也可以将时间上临近的帧的特征进行拼接,将拼接的结果作为特征提取的结果。
差分和拼接操作可以同时使用。
步骤1.2、音素概率估计
音素概率估计利用统计机器学习模型,从输入特征,估计出该特征是某个音素的概率。
音素可以是IPA(International Phonetic Alphabet)定义的音素,也可以是以其他标准定义的音素。
以汉语为例,可以采用的自定义音素集合为:
b p m f d t n l
g h j q x z c s
zh ch sh ng a o e i
ii iii u v er sil
其中,ng表示neng的韵尾,i表示yi的韵母,ii表示zi的韵母,iii表示zhi的韵母。sil表示静音。
步骤2、音素到视素概率转换
其中,视素概率是基于预设的音素到视素的映射关系,将属于同一类视素的音素概率合并后得到的。
所述预设的映射关系可以遵循不同的设计准则,不限于本发明给定的具体实施例。
以汉语为例,该映射关系可以是:
视素 音素
b b/p/m
d d/t/n
z z/c/s
zh zh/ch/sh
j j/q/x
k k/h/l/g/ng
a a
o o
e e/er
i i/ii/iii
u u/v
sil sil
步骤3、对得到的视素概率进行平滑滤波
由于统计机器学***滑变化的概率。
平滑滤波过程可以采用有限冲击响应滤波器,分别对各视素概率进行滤波,滤波器的阶数和滤波器参数,可以根据对***响应时间的要求进行调节。
以最简单的情况为例,可以采用阶数为10的滑动平均有限冲击响应滤波器实现。实际实施过程中,可以采用不同的滤波器设计。
步骤4、根据视频的采样率对语音流进行重采样
由于步骤1中特征提取过程对语音流进行分帧,其数据帧的采样率为(H/音频采样率)赫兹。
渲染视频的采样率一般以显示设备的刷新率为准。
因此需要利用重采样,使数据帧的采样率和视频采样率一致。
步骤5、视素概率到标准口型混合比例转换
虚拟人物渲染***一般会对每种视素定义标准口型配置,可能的形式为关键帧,或描述口型的参数。
可以将视素概率通过线性或非线性映射函数,转换为标准口型配置的混合比例。
在关键帧场景下,该混合比例可以是不同关键帧之间的插值比例。
在关键点参数、骨骼参数或blenshape参数的场景下,该混合比例可以是参数的混合比例。
以一帧数据为例,如果视素概率为:
视素 视素概率
b 0.0
d 0.0
z 0.0
zh 0.0
j 0.0
k 0.0
a 0.6
o 0.4
e 0.0
i 0.0
u 0.0
sil 0.0
且假设从视素概率到混合比例的映射函数为线性映射。以关键点参数场景为例,将二维关键点参数定义为:
a(0.2 0.8)
e(0.7 0.3)
则上述视素概率对应的关键点参数混合比为a*0.6+e*0.4,因而得到当前帧的关键点参数为(0.4,0.6)。
步骤6、利用视素概率进行口型渲染
虚拟人物渲染***根据所述混合后的口型配置,渲染虚拟人物形象,得到视频流。
步骤7、音视频同步播放
由于语音流经过分帧、拼接、音素识别、平滑滤波等环节的处理,每个环节存在一定的***延迟,因此在播放音频流时需要通过补偿延迟使得音频流和视频流的内容同步。
所述延迟可以通过累加各处理环节的延迟计算得出。
由于视频渲染也存在一定延迟,在计算音频延迟时需要减去视频渲染***的延迟。
以常见场景为例:
音频延迟补偿量=分帧延迟+特征拼接延迟+音素识别延迟+平滑滤波延迟-视频渲染延迟。
图3为本发明提供的第三实施例。该实施例与图2提供的第二实施例的区别在于:本实施例直接从语音流进行视素识别,不再经过音素识别和音素到视素概率的转换。
该方法的视素概率估计准确率相比图2所述方法略低,但基本不影响用户的主观感受,其优点在于实现难度和计算复杂度较低。
任何本领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修改,因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

Claims (8)

1.一种实时音频驱动的虚拟人物口型同步控制方法,包括如下步骤:
从实时语音流中识别出视素概率的步骤;其中,视素概率是基于预设的音素到视素的映射关系,将属于同一类视素的音素概率合并后得到的;所述视素概率利用视素识别方法得到;或利用音素识别从实时语音流中识别出音素概率,再将所述音素概率转换为视素概率;
对所述视素概率进行滤波的步骤;
将所述视素概率的采样率转换为和虚拟人物渲染帧率相同的采样率的步骤;
将所述视素概率转换为标准口型配置并进行口型渲染的步骤;将所述视素概率转换为标准口型配置时:首先,为每一种视素定义标准口型配置,所述标准口型配置为关键帧或描述口型的参数;其次,通过映射函数将视素概率转换为标准口型配置的混合比例;其中,在关键帧场景下,所述混合比例是不同关键帧之间的插值比例;在关键点参数、骨骼参数或blenshape参数的场景下,所述混合比例是关键点参数、骨骼参数或blenshape参数的混合比例。
2.如权利要求1所述的一种实时音频驱动的虚拟人物口型同步控制方法,其特征在于:采用有限或无限冲击响应滤波器,分别对各视素概率进行平滑滤波。
3.如权利要求1所述的一种实时音频驱动的虚拟人物口型同步控制方法,其特征在于:在音视频播放时,为保持同步,在播放音频流时通过补偿延迟使音频流和视频流的内容同步。
4.如权利要求3所述的一种实时音频驱动的虚拟人物口型同步控制方法,其特征在于:所述补偿延迟的缓冲区的长度由口型视素识别、滤波和视频渲染的处理延迟共同决定。
5.如权利要求1所述的一种实时音频驱动的虚拟人物口型同步控制方法,其特征在于:所述音素识别包括:将语音流分帧,进行特征提取的步骤;以及利用所述特征进行音素估计的步骤。
6.如权利要求5所述的一种实时音频驱动的虚拟人物口型同步控制方法,其特征在于:所述音素是IPA定义的音素,或自定义音素。
7.如权利要求6所述的一种实时音频驱动的虚拟人物口型同步控制方法,其特征在于:所述音素为:
Figure FDA0003005027780000011
Figure FDA0003005027780000021
其中,ng表示neng的韵尾,i表示yi的韵母,ii表示zi的韵母,iii表示zhi的韵母,sil表示静音;所述音素与视素转换关系为:
视素 音素 b b/p/m d d/t/n z z/c/s zh zh/ch/sh j j/q/x k k/h/l/g/ng a a o o e e/er i i/ii/iii u u/v sil sil
8.如权利要求3所述的一种实时音频驱动的虚拟人物口型同步控制方法,其特征在于:所述补偿延迟的方法为:音频延迟补偿量=分帧延迟+特征拼接延迟+音素识别延迟+滤波延迟-视频渲染延迟。
CN201911314031.3A 2019-12-19 2019-12-19 一种实时音频驱动的虚拟人物口型同步控制方法 Active CN111081270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911314031.3A CN111081270B (zh) 2019-12-19 2019-12-19 一种实时音频驱动的虚拟人物口型同步控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911314031.3A CN111081270B (zh) 2019-12-19 2019-12-19 一种实时音频驱动的虚拟人物口型同步控制方法

Publications (2)

Publication Number Publication Date
CN111081270A CN111081270A (zh) 2020-04-28
CN111081270B true CN111081270B (zh) 2021-06-01

Family

ID=70315527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911314031.3A Active CN111081270B (zh) 2019-12-19 2019-12-19 一种实时音频驱动的虚拟人物口型同步控制方法

Country Status (1)

Country Link
CN (1) CN111081270B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111627096A (zh) * 2020-05-07 2020-09-04 江苏原力数字科技股份有限公司 一种基于blendshape的数字人驱动***
CN111698552A (zh) * 2020-05-15 2020-09-22 完美世界(北京)软件科技发展有限公司 一种视频资源的生成方法和装置
CN115426553A (zh) * 2021-05-12 2022-12-02 海信集团控股股份有限公司 一种智能音箱及其显示方法
CN117557692A (zh) * 2022-08-04 2024-02-13 深圳市腾讯网域计算机网络有限公司 口型动画生成方法、装置、设备和介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2438691A (en) * 2005-04-13 2007-12-05 Pixel Instr Corp Method, system, and program product for measuring audio video synchronization independent of speaker characteristics
CN101482975A (zh) * 2008-01-07 2009-07-15 丰达软件(苏州)有限公司 一种文字转换动画的方法和装置
CN102342100A (zh) * 2009-03-09 2012-02-01 思科技术公司 用于在网络环境中提供三维成像的***和方法
CN103218842A (zh) * 2013-03-12 2013-07-24 西南交通大学 一种语音同步驱动三维人脸口型与面部姿势动画的方法
CN103329147A (zh) * 2010-11-04 2013-09-25 数字标记公司 基于智能手机的方法和***
CN107369440A (zh) * 2017-08-02 2017-11-21 北京灵伴未来科技有限公司 一种针对短语音的说话人识别模型的训练方法及装置
CN109599113A (zh) * 2019-01-22 2019-04-09 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN109712627A (zh) * 2019-03-07 2019-05-03 深圳欧博思智能科技有限公司 一种使用语音触发虚拟人物表情及口型动画的语音***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8694318B2 (en) * 2006-09-19 2014-04-08 At&T Intellectual Property I, L. P. Methods, systems, and products for indexing content
US10657972B2 (en) * 2018-02-02 2020-05-19 Max T. Hall Method of translating and synthesizing a foreign language

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2438691A (en) * 2005-04-13 2007-12-05 Pixel Instr Corp Method, system, and program product for measuring audio video synchronization independent of speaker characteristics
CN101482975A (zh) * 2008-01-07 2009-07-15 丰达软件(苏州)有限公司 一种文字转换动画的方法和装置
CN102342100A (zh) * 2009-03-09 2012-02-01 思科技术公司 用于在网络环境中提供三维成像的***和方法
CN103329147A (zh) * 2010-11-04 2013-09-25 数字标记公司 基于智能手机的方法和***
CN103218842A (zh) * 2013-03-12 2013-07-24 西南交通大学 一种语音同步驱动三维人脸口型与面部姿势动画的方法
CN107369440A (zh) * 2017-08-02 2017-11-21 北京灵伴未来科技有限公司 一种针对短语音的说话人识别模型的训练方法及装置
CN109599113A (zh) * 2019-01-22 2019-04-09 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN109712627A (zh) * 2019-03-07 2019-05-03 深圳欧博思智能科技有限公司 一种使用语音触发虚拟人物表情及口型动画的语音***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于BTSM和DBN模型的唇读和视素切分研究;吕国云 等;《计算机工程与应用》;20070731;第43卷(第14期);第21-24页 *
面向人机接口的多种输入驱动的三维虚拟人头;於俊 等;《计算机学报》;20131231;第36卷(第12期);第2525-2536页 *

Also Published As

Publication number Publication date
CN111081270A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN111081270B (zh) 一种实时音频驱动的虚拟人物口型同步控制方法
US6766299B1 (en) Speech-controlled animation system
CN110446000B (zh) 一种生成对话人物形象的方法和装置
EP0689362A2 (en) Sound-synchronised video system
US20080259085A1 (en) Method for Animating an Image Using Speech Data
CN103650002B (zh) 基于文本的视频生成
WO1998053438A1 (en) Segmentation and sign language synthesis
EP0993197B1 (en) A method and an apparatus for the animation, driven by an audio signal, of a synthesised model of human face
US5926575A (en) Model-based coding/decoding method and system
US6943794B2 (en) Communication system and communication method using animation and server as well as terminal device used therefor
US20060079325A1 (en) Avatar database for mobile video communications
JP2003529861A (ja) 音響信号により駆動される人間の顔の合成モデルのアニメ化方法
EP4195668A1 (en) Virtual video livestreaming processing method and apparatus, storage medium, and electronic device
CN112001992A (zh) 基于深度学习的语音驱动3d虚拟人表情音画同步方法及***
JP2008500573A (ja) メッセージを変更するための方法及びシステム
CN113592985B (zh) 混合变形值的输出方法及装置、存储介质、电子装置
JPH089372A (ja) 受信ビデオ信号のフレーム伝送速度を高める装置
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
US20050204286A1 (en) Speech receiving device and viseme extraction method and apparatus
CN113706669A (zh) 动画合成方法、装置、电子设备及存储介质
CA2162199A1 (en) Acoustic-assisted image processing
CN116597857A (zh) 一种语音驱动图像的方法、***、装置及存储介质
CN114760425A (zh) 数字人生成方法、装置、计算机设备和存储介质
CN114339069A (zh) 视频处理方法、装置、电子设备及计算机存储介质
CN114793300A (zh) 一种基于生成对抗网络的虚拟视频客服机器人合成方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant