CN116363268A - 一种口型动画的生成方法、装置、电子设备和存储介质 - Google Patents

一种口型动画的生成方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN116363268A
CN116363268A CN202310139936.1A CN202310139936A CN116363268A CN 116363268 A CN116363268 A CN 116363268A CN 202310139936 A CN202310139936 A CN 202310139936A CN 116363268 A CN116363268 A CN 116363268A
Authority
CN
China
Prior art keywords
sequence
preset
animation
visual
mouth shape
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310139936.1A
Other languages
English (en)
Inventor
杨建顺
陈军宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Black Mirror Technology Co ltd
Original Assignee
Xiamen Black Mirror Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Black Mirror Technology Co ltd filed Critical Xiamen Black Mirror Technology Co ltd
Priority to CN202310139936.1A priority Critical patent/CN116363268A/zh
Publication of CN116363268A publication Critical patent/CN116363268A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种口型动画的生成方法、装置、电子设备和存储介质,该方法包括:获取目标语音,基于预设语音识别算法对所述目标语音进行处理,得到带有时间戳信息的目标文本;根据所述目标文本的拼音信息和所述时间戳信息生成音素序列;按第一预设转换规则将所述音素序列转换为视素序列,其中,所述视素序列包括多个视素,所述视素表征了发音时的口型视觉特征;基于所述视素序列渲染出与所述目标语音对应的口型动画,以此将口型动画的发音动作与目标语音准确的匹配,实现了更加准确的生成口型动画。

Description

一种口型动画的生成方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,更具体地,涉及一种口型动画的生成方法、装置、电子设备和存储介质。
背景技术
语音作为一种自然交流形式,在人机交互领域表现出了突出的影响力。然而在人机交互过程中,产生逼真的口型动画是极为复杂的。
现有技术中,一般仅依靠有限、单一的关键帧动画产生符合高斯分布的口型动画帧数据。该方案很难表现出正常人在说话时口型及面部肌肉的运动,导致最终生成的口型动画效果不符合正常的说话规律。
因此,如何更加准确的生成口型动画,是目前有待解决的技术问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请实施例公开了一种口型动画的生成方法、装置、电子设备和存储介质,用以更加准确的生成口型动画。
第一方面,提供一种口型动画的生成方法,所述方法包括:获取目标语音,基于预设语音识别算法对所述目标语音进行处理,得到带有时间戳信息的目标文本;根据所述目标文本的拼音信息和所述时间戳信息生成音素序列;按第一预设转换规则将所述音素序列转换为视素序列,其中,所述视素序列包括多个视素,所述视素表征了发音时的口型视觉特征;基于所述视素序列渲染出与所述目标语音对应的口型动画。
第二方面,提供一种口型动画的生成装置,所述装置包括:语音识别模块,用于获取目标语音,基于预设语音识别算法对所述目标语音进行处理,得到带有时间戳信息的目标文本;生成模块,用于根据所述目标文本的拼音信息和所述时间戳信息生成音素序列;转换模块,用于按第一预设转换规则将所述音素序列转换为视素序列,其中,所述视素序列包括多个视素,所述视素表征了发音时的口型视觉特征;渲染模块,用于基于所述视素序列渲染出与所述目标语音对应的口型动画。
第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面所述的口型动画的生成方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的口型动画的生成方法。
通过应用以上数据方案,获取目标语音,基于预设语音识别算法对所述目标语音进行处理,得到带有时间戳信息的目标文本;根据所述目标文本的拼音信息和所述时间戳信息生成音素序列;按第一预设转换规则将所述音素序列转换为视素序列,其中,所述视素序列包括多个视素,所述视素表征了发音时的口型视觉特征;基于所述视素序列渲染出与所述目标语音对应的口型动画,以此将口型动画的发音动作与目标语音准确的匹配,实现了更加准确的生成口型动画。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提出的一种口型动画的生成方法的流程示意图;
图2示出了本发明另一实施例提出的一种口型动画的生成方法的流程示意图;
图3示出了本发明又一实施例提出的一种口型动画的生成方法的流程示意图;
图4示出了本发明实施例提出的一种口型动画的生成装置的结构示意图;
图5示出了本发明实施例提出的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求部分指出。
应当理解的是,本申请并不局限于下面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
下面结合图1-图3来描述根据本申请示例性实施方式的数字人视频的生成方法。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
本申请实施例提供一种口型动画的生成方法,如图1所示,该方法包括以下步骤:
步骤S101,获取目标语音,基于预设语音识别算法对所述目标语音进行处理,得到带有时间戳信息的目标文本。
本实施例中,目标语音可以是用户通过配置有麦克风等声卡设备的电子设备输入的实时语音音频,也可以是预先录制或存储的语音音频,还可以是根据预设语音合成算法将输入的文本信息进行语音合成后得到的语音音频。其中,该电子设备可以为移动设备,如手机、平板电脑、个人数字助理、穿戴设备(如眼镜、手表等)等等,也可以为固定设备,如个人电脑、智能电视、智能家居/家电(如空调、电饭煲)等等,本发明实施例对此不加以限制。电子设备可以基于预设语音识别算法在本地进行语音识别,得到带有时间戳信息的目标文本,电子设备也可以将目标语音发送至服务器,由服务器基于预设语音识别算法进行语音识别,得到带有时间戳信息的目标文本。
可选的,预设语音识别算法可以为包括基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等算法的任一种。
可选的,可在获取目标语音后,使目标语音通过预设滤波器,以去除目标语音中的噪音,从而进一步提高了目标语音的准确性。
步骤S102,根据所述目标文本的拼音信息和所述时间戳信息生成音素序列。
本实施例中,音素是构成音节的最小语音单位,任意一段音频都是有限种音素组合而成。目标文本带有拼音信息和时间戳信息,基于拼音信息和时间戳信息可生成多个音素,各音素构成音素序列。
步骤S103,按第一预设转换规则将所述音素序列转换为视素序列。
本实施例中,视素序列包括多个视素,视素表征了发音时的口型视觉特征,音素序列中各音素的变化会产生口型的变化,按第一预设转换规则将音素序列中各音素转换为多个视素,各视素组成视素序列。
在本申请具体的应用场景中,第一预设转换规则如表1所示。
表1
视素类别 音素 视素类别 音素 视素类别 音素
类1 none 类7 j,q,x 类13 i,y
类2 b,p,m 类8 z,c,s 类14 u,w
类3 f 类9 zh,ch,sh,r 类15 ü
类4 d,t,n 类10 a 类16 er
类5 l 类11 o 类17 -n,-ng
类6 g,k,h 类12 e
在本申请一些实施例中,为了提高口型动画的生成效率,在按第一预设转换规则将所述音素序列转换为视素序列之后,所述方法包括:
按预设合并规则对所述视素序列进行合并处理,包括:
1)将d,t,n和l对应的视素合并;
2)将z,c,s接-i和z,c,s接i对应的视素合并;
3)使单元音e和复合元音e^共用一个视素;
4)使j,q,x和z,c,s共用一个视素;
5)使u和v共用一个视素。
通过对视素序列进行合并处理,使口型相近的音素进行视素共用,降低了视素的复杂度,提高了口型动画的生成效率。
在本申请一些实施例中,在按预设合并规则对所述视素序列进行合并处理之后,所述方法还包括:
在与d,t,n,l对应的视素中加入舌部顶舌动作特征;
在与zh,ch,sh,r对应的视素中加入卷舌动作特征;
在与er对应的视素中加入以e发音为基础的卷舌动作特征。
通过在视素序列中加入舌部处理,使各视素更加符合正常的发音规律。
可选的,视素的形式可以为文本信息、或图像帧、或除文本信息和图像帧以外的其他数据形式。例如,若视素为文本信息,视素可包括嘴巴闭合且嘴巴无倾斜、嘴巴张大幅度为50%(即嘴巴半张开)、嘴巴聚拢且呈“O”形、嘴巴张大幅度为100%(即嘴巴张大)等;若视素为图像帧,不同视素对应的图像帧中显示不同的口型。
步骤S104,基于所述视素序列渲染出与所述目标语音对应的口型动画。
本实施例中,视素序列表征了与目标语音对应各音素的口型视觉特征,基于该视素序列可渲染出与目标语音对应的口型动画。
在本申请一些实施例中,所述基于所述视素序列渲染出与所述目标语音对应的口型动画,包括:
将所述视素序列输入预设渲染引擎,根据所述预设渲染引擎的输出得到动画帧序列;
基于所述动画帧序列生成所述口型动画。
本实施例中,预设渲染引擎可以为虚幻引擎或Unity等,将视素序列输入预设渲染引擎,预设渲染引擎基于该视素序列渲染出多个动画帧,得到动画帧序列,基于动画帧序列可生成口型动画,从而更加高效的生成口型动画。
在本申请一些实施例中,所述基于所述动画帧序列生成所述口型动画,包括:
基于预设插值算法在所述动画帧序列中每两个动画帧之间生成过渡帧;
将各所述过渡帧***所述动画帧序列,得到所述口型动画。
本实施例中,基于预设插值算法对动画帧序列中每两个动画帧进行插值计算,具体的,可以对每两个动画帧的融合变形参数(即blendshape参数)、或关键点参数、或骨骼参数进行插值计算,根据计算结果得到过渡帧,然后将各过渡帧***动画帧序列,得到口型动画,从而进一步提高了口型动画的流畅性。
可选的,预设插值算法可以为贝塞尔曲线插值算法或线性插值算法。
可选的,还可按预设权重参数对动画帧序列中每两个动画帧进行加权,根据每两个动画帧的加权平均结果生成过渡帧。
通过应用以上数据方案,获取目标语音,基于预设语音识别算法对所述目标语音进行处理,得到带有时间戳信息的目标文本;根据所述目标文本的拼音信息和所述时间戳信息生成音素序列;按第一预设转换规则将所述音素序列转换为视素序列,其中,所述视素序列包括多个视素,所述视素表征了发音时的口型视觉特征;基于所述视素序列渲染出与所述目标语音对应的口型动画,以此将口型动画的发音动作与目标语音准确的匹配,实现了更加准确的生成口型动画。
本申请实施例还提出了一种口型动画的生成方法,如图2所示,包括以下步骤:
步骤S201,获取目标语音,基于预设语音识别算法对所述目标语音进行处理,得到带有时间戳信息的目标文本。
本实施例中,目标语音可以是用户通过配置有麦克风等声卡设备的电子设备输入的实时语音音频,也可以是预先录制或存储的语音音频,还可以是根据预设语音合成算法将输入的文本信息进行语音合成后得到的语音音频。基于预设语音识别算法对目标语音进行处理,可得到带有时间戳信息的目标文本。本领域技术人员可根据需要采用不同的预设语音识别算法进行语音识别,这并不影响本申请的保护范围。
步骤S202,根据所述目标文本的拼音信息获取多个音节。
本实施例中,目标文本中带有拼音信息,拼音由音节组成,基于拼音信息可获取多个音节。
步骤S203,按第二预设转换规则将各所述音节转换为多个音子。
本实施例中,各音节由音子组成,基于第二预设转换规则可将各音节转换为多个音子。
在本申请一些实施例中,所述第二预设转换规则包括:
从各所述音节中分别分离出属于声母的第一音子集合、属于整体认读音节的第二音子集合和属于韵母的第三音子集合;
若所述第一音子集合、或所述第二音子集合、或所述第三音子集合中存在需要变形的预设音子,按预设变形规则将所述预设音子转换为与自身对应的目标音子。
本实施例中,音节可分为声母和韵母,需要按声母和韵母分别进行处理,处理后得到第一音子集合和第三音子集合,音节中也包括一些整体认读音节,也需要单独进行处理,处理后得到第二音子集合。另外,若第一音子集合、或第二音子集合、或第三音子集合中存在需要变形的预设音子,还需要按预设变形规则将预设音子转换为与自身对应的目标音子,从而更加准确的得到各音子。
可选的,分离属于声母的第一音子集合时,先分离出zh、ch、sh,再分离出b,p,m,f,d,t,n,l,g,k,h,j,q,x,z,c,s,r,y,w,并将yw:,yu变为v,将yi/y变为i,将wu/w变为u;分离属于整体认读音节的第二音子集合时,先分离zhi、chi、shi、ri、zi、ci、si,并对其中的i转-i;分离属于韵母的第三音子集合时,分离单韵母、前响韵母、后响韵母、中响韵母,并分别处理不同类韵母的韵头、韵腹、韵尾,并将j,q,x后接的u转为v,将iu变为iou,ui变为uei,un变为uen,对为n或ng的韵尾进行单独判断。
步骤S204,按所述时间戳信息排列各所述音子,得到音素序列。
本实施例中,各音子对应不同的时间戳,按时间戳信息排列各音子后,得到音素序列。
在本申请一些实施例中,在按所述时间戳信息排列各所述音子,得到所述音素序列之后,所述方法还包括:
确定各所述音节之间的空白位置;
在所述音素序列中与所述空白位置对应的位置添加预设时长的静音帧;
根据所述音素的发音类型和与所述发音类型对应的预设时长分配比例调整各所述音素的持续时长;
其中,所述发音类型包括声母、韵头、韵腹和韵尾。
本实施例中,各音节之间可能存在空白位置,将预设时长的静音帧添加在空白位置,可以使相应的音节具备了发音准备音或结束延长音,从而使发音更加自然流畅,可选的,预设时长为0.2s。
音素的发音类型包括声母、韵头、韵腹和韵尾,每种发音类型对应不同的预设时长分配比例,基于该发音类型和相应的预设时长分配比例调整各音素的持续时长,使各音素的发音更加符合正常的说话规律。
可选的,依次用I0、F1、F2、F3分别表示声母、韵头、韵腹和韵尾,I0的预设时长分配比例为0.3,F1+F2+F3的预设时长分配比例为0.7,其中,F1在F1+F2+F3中的预设时长分配比例为0.2,F2在F1+F2+F3中的预设时长分配比例为0.8,F3在F2内部;其中,若F3为元音,F3在F2中的预设时长分配比例为0.4;若F3为鼻辅音,F3在F2中的预设时长分配比例为0.2。
步骤S205,按第一预设转换规则将所述音素序列转换为视素序列。
本实施例中,视素序列包括多个视素,视素表征了发音时的口型视觉特征,音素序列中各音素的变化会产生口型的变化,按第一预设转换规则将音素序列中各音素转换为多个视素,各视素组成视素序列。在本申请具体的应用场景中,第一预设转换规则如上述表1所示。
步骤S206,基于所述视素序列渲染出与所述目标语音对应的口型动画。
本实施例中,视素序列表征了与目标语音对应各音素的口型视觉特征,基于该视素序列可渲染出与目标语音对应的口型动画。
在本申请一些实施例中,所述基于所述视素序列渲染出与所述目标语音对应的口型动画,包括:
将所述视素序列输入预设渲染引擎,根据所述预设渲染引擎的输出得到动画帧序列;
基于所述动画帧序列生成所述口型动画。
本实施例中,预设渲染引擎可以为虚幻引擎或Unity等,将视素序列输入预设渲染引擎,预设渲染引擎基于该视素序列渲染出多个动画帧,得到动画帧序列,基于动画帧序列可生成口型动画,从而更加高效的生成口型动画。
在本申请一些实施例中,所述基于所述动画帧序列生成所述口型动画,包括:
基于预设插值算法在所述动画帧序列中每两个动画帧之间生成过渡帧;
将各所述过渡帧***所述动画帧序列,得到所述口型动画。
本实施例中,基于预设插值算法对动画帧序列中每两个动画帧进行插值计算,具体的,可以对每两个动画帧的融合变形参数、或关键点参数、或骨骼参数进行插值计算,根据计算结果得到过渡帧,然后将各过渡帧***动画帧序列,得到口型动画,从而进一步提高了口型动画的流畅性。
可选的,预设插值算法可以为贝塞尔曲线插值算法或线性插值算法。
可选的,还可按预设权重参数对动画帧序列中每两个动画帧进行加权,根据每两个动画帧的加权平均结果生成过渡帧。
通过应用以上技术方案,获取目标语音,基于预设语音识别算法对所述目标语音进行处理,得到带有时间戳信息的目标文本;根据所述目标文本的拼音信息获取多个音节;按第二预设转换规则将各所述音节转换为多个音子;按所述时间戳信息排列各所述音子,得到音素序列;按第一预设转换规则将所述音素序列转换为视素序列;基于所述视素序列渲染出与所述目标语音对应的口型动画,从而更加准确的得到音素序列,以此将口型动画的发音动作与目标语音准确的匹配,实现了更加准确的生成口型动画。
本申请实施例还提出了一种口型动画的生成方法,如图3所示,包括以下步骤:
步骤S301,获取目标语音,基于预设语音识别算法对所述目标语音进行处理,得到带有时间戳信息的目标文本。
本实施例中,目标语音可以是用户通过配置有麦克风等声卡设备的电子设备输入的实时语音音频,也可以是预先录制或存储的语音音频,还可以是根据预设语音合成算法将输入的文本信息进行语音合成后得到的语音音频。基于预设语音识别算法对目标语音进行处理,可得到带有时间戳信息的目标文本。本领域技术人员可根据需要采用不同的预设语音识别算法进行语音识别,这并不影响本申请的保护范围。
步骤S302,根据所述目标文本的拼音信息和所述时间戳信息生成音素序列。
步骤S303,按第一预设转换规则将所述音素序列转换为视素序列。
本实施例中,音素是构成音节的最小语音单位,任意一段音频都是有限种音素组合而成。目标文本带有拼音信息和时间戳信息,基于拼音信息和时间戳信息可生成多个音素,各音素构成音素序列。
步骤S304,基于预设权重分配列表分别对所述视素序列中的各视素分配权重。
本实施例中,由于每个汉字中音子的发音均会不同程度地受到相邻音子的影响,说话时,当前音子所对应的口型与其相邻的前后音子密切相关,需要符合协同发音规则。为了使视素序列中各视素符合协同发音规则,预先第一口型和第二口型之间的关联关系生成预设权重分配列表,其中,第一口型为当前音子的口型,第二口型为与当前音子相邻的前后音子的口型。在得到视素序列后基于该预设权重分配列表分别对各视素分配权重。
在本申请一些实施例中,预设权重分配列表由以下公式确定:
Figure BDA0004087182800000101
Figure BDA0004087182800000102
时,
Figure BDA0004087182800000103
Figure BDA0004087182800000104
时,
Figure BDA0004087182800000105
其中,WC为辅音音子发音的视觉权重;WV是元音音子发音的视觉权重;RC和RV分别是辅音音子的受影响等级和元音音子的受影响等级,都被量化为0~1之间;V1为V2之前的一个元音音子,二者之间可以相隔一个辅音音子;α、β都为控制权重的系数,当V1和V2之间相隔一个辅音音子时,β为1。通过上述公式可准确得到不同音子的视觉权重,从而生成更加符合协同发音规则的预设权重分配列表。
步骤S305,根据各所述权重调整所述视素序列中各所述视素的持续时长。
本实施例中,根据各权重调整各视素的持续时长,从而使视素序列更加符合协同发音规则,进而提高了口型动画的准确性。
步骤S306,基于所述视素序列渲染出与所述目标语音对应的口型动画。
本实施例中,视素序列表征了与目标语音对应各音素的口型视觉特征,基于该视素序列可渲染出与目标语音对应的口型动画。
在本申请一些实施例中,所述基于所述视素序列渲染出与所述目标语音对应的口型动画,包括:
将所述视素序列输入预设渲染引擎,根据所述预设渲染引擎的输出得到动画帧序列;
基于所述动画帧序列生成所述口型动画。
本实施例中,预设渲染引擎可以为虚幻引擎或Unity等,将视素序列输入预设渲染引擎,预设渲染引擎基于该视素序列渲染出多个动画帧,得到动画帧序列,基于动画帧序列可生成口型动画,从而更加高效的生成口型动画。
在本申请一些实施例中,所述基于所述动画帧序列生成所述口型动画,包括:
基于预设插值算法在所述动画帧序列中每两个动画帧之间生成过渡帧;
将各所述过渡帧***所述动画帧序列,得到所述口型动画。
本实施例中,基于预设插值算法对动画帧序列中每两个动画帧进行插值计算,具体的,可以对每两个动画帧的融合变形参数、或关键点参数、或骨骼参数进行插值计算,根据计算结果得到过渡帧,然后将各过渡帧***动画帧序列,得到口型动画,从而进一步提高了口型动画的流畅性。
可选的,预设插值算法可以为贝塞尔曲线插值算法或线性插值算法。
可选的,还可按预设权重参数对动画帧序列中每两个动画帧进行加权,根据每两个动画帧的加权平均结果生成过渡帧。
通过应用以上技术方案,获取目标语音,基于预设语音识别算法对所述目标语音进行处理,得到带有时间戳信息的目标文本;根据所述目标文本的拼音信息和所述时间戳信息生成音素序列;按第一预设转换规则将所述音素序列转换为视素序列;基于预设权重分配列表分别对所述视素序列中的各视素分配权重;根据各所述权重调整所述视素序列中各所述视素的持续时长;基于所述视素序列渲染出与所述目标语音对应的口型动画,基于为各视素分别相应的权重,使视素序列更加符合协同发音规则,从而将口型动画的发音动作与目标语音准确的匹配,实现了更加准确的生成口型动画。
本申请实施例还提出了一种口型动画的生成装置,如图4所示,所述装置包括:
语音识别模块401,用于获取目标语音,基于预设语音识别算法对所述目标语音进行处理,得到带有时间戳信息的目标文本;
生成模块402,用于根据所述目标文本的拼音信息和所述时间戳信息生成音素序列;
转换模块403,用于按第一预设转换规则将所述音素序列转换为视素序列,其中,所述视素序列包括多个视素,所述视素表征了发音时的口型视觉特征;
渲染模块404,用于基于所述视素序列渲染出与所述目标语音对应的口型动画。
在具体的应用场景中,生成模块402,具体用于:
根据所述拼音信息获取多个音节;
按第二预设转换规则将各所述音节转换为多个音子;
按所述时间戳信息排列各所述音子,得到所述音素序列。
在具体的应用场景中,所述第二预设转换规则包括:
从各所述音节中分别分离出属于声母的第一音子集合、属于整体认读音节的第二音子集合和属于韵母的第三音子集合;
若所述第一音子集合、或所述第二音子集合、或所述第三音子集合中存在需要变形的预设音子,按预设变形规则将所述预设音子转换为与自身对应的目标音子。
在具体的应用场景中,所述装置还包括第一调整模块,用于:
确定各所述音节之间的空白位置;
在所述音素序列中与所述空白位置对应的位置添加预设时长的静音帧;
根据所述音素的发音类型和与所述发音类型对应的预设时长分配比例调整各所述音素的持续时长;
其中,所述发音类型包括声母、韵头、韵腹和韵尾。
在具体的应用场景中,所述装置还包括第二调整模块,用于:
基于预设权重分配列表分别对所述视素序列中的各视素分配权重;
根据各所述权重调整所述视素序列中各所述视素的持续时长;
其中,所述预设权重分配列表是根据第一口型和第二口型之间的关联关系生成的,所述第一口型为当前音子的口型,所述第二口型为与所述当前音子相邻的前后音子的口型。
在具体的应用场景中,渲染模块404,具体用于:
将所述视素序列输入预设渲染引擎,根据所述预设渲染引擎的输出得到动画帧序列;
基于所述动画帧序列生成所述口型动画。
在具体的应用场景中,渲染模块404,还具体用于:
基于预设插值算法在所述动画帧序列中每两个动画帧之间生成过渡帧;
将各所述过渡帧***所述动画帧序列,得到所述口型动画。
通过应用以上技术方案,口型动画的生成装置包括:语音识别模块,用于获取目标语音,基于预设语音识别算法对所述目标语音进行处理,得到带有时间戳信息的目标文本;生成模块,用于根据所述目标文本的拼音信息和所述时间戳信息生成音素序列;转换模块,用于按第一预设转换规则将所述音素序列转换为视素序列,其中,所述视素序列包括多个视素,所述视素表征了发音时的口型视觉特征;渲染模块,用于基于所述视素序列渲染出与所述目标语音对应的口型动画,以此将口型动画的发音动作与目标语音准确的匹配,实现了更加准确的生成口型动画。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存储处理器的可执行指令;
处理器501,被配置为经由执行所述可执行指令来执行:
获取目标语音,基于预设语音识别算法对所述目标语音进行处理,得到带有时间戳信息的目标文本;
根据所述目标文本的拼音信息和所述时间戳信息生成音素序列;
按第一预设转换规则将所述音素序列转换为视素序列,其中,所述视素序列包括多个视素,所述视素表征了发音时的口型视觉特征;
基于所述视素序列渲染出与所述目标语音对应的口型动画。
上述通信总线可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括非易失性存储器,例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的口型动画的生成方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如上所述的口型动画的生成方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种口型动画的生成方法,其特征在于,所述方法包括:
获取目标语音,基于预设语音识别算法对所述目标语音进行处理,得到带有时间戳信息的目标文本;
根据所述目标文本的拼音信息和所述时间戳信息生成音素序列;
按第一预设转换规则将所述音素序列转换为视素序列,其中,所述视素序列包括多个视素,所述视素表征了发音时的口型视觉特征;
基于所述视素序列渲染出与所述目标语音对应的口型动画。
2.如权利要求1所述的方法,其特征在于,所述根据所述目标文本的拼音信息和所述时间戳信息生成音素序列,包括:
根据所述拼音信息获取多个音节;
按第二预设转换规则将各所述音节转换为多个音子;
按所述时间戳信息排列各所述音子,得到所述音素序列。
3.如权利要求2所述的方法,其特征在于,所述第二预设转换规则包括:
从各所述音节中分别分离出属于声母的第一音子集合、属于整体认读音节的第二音子集合和属于韵母的第三音子集合;
若所述第一音子集合、或所述第二音子集合、或所述第三音子集合中存在需要变形的预设音子,按预设变形规则将所述预设音子转换为与自身对应的目标音子。
4.如权利要求2所述的方法,其特征在于,在按所述时间戳信息排列各所述音子,得到所述音素序列之后,所述方法还包括:
确定各所述音节之间的空白位置;
在所述音素序列中与所述空白位置对应的位置添加预设时长的静音帧;
根据所述音素的发音类型和与所述发音类型对应的预设时长分配比例调整各所述音素的持续时长;
其中,所述发音类型包括声母、韵头、韵腹和韵尾。
5.如权利要求1所述的方法,其特征在于,在按第一预设转换规则将所述音素序列转换为视素序列之后,所述方法还包括:
基于预设权重分配列表分别对所述视素序列中的各视素分配权重;
根据各所述权重调整所述视素序列中各所述视素的持续时长;
其中,所述预设权重分配列表是根据第一口型和第二口型之间的关联关系生成的,所述第一口型为当前音子的口型,所述第二口型为与所述当前音子相邻的前后音子的口型。
6.如权利要求1所述的方法,其特征在于,所述基于所述视素序列渲染出与所述目标语音对应的口型动画,包括:
将所述视素序列输入预设渲染引擎,根据所述预设渲染引擎的输出得到动画帧序列;
基于所述动画帧序列生成所述口型动画。
7.如权利要求6所述的方法,其特征在于,所述基于所述动画帧序列生成所述口型动画,包括:
基于预设插值算法在所述动画帧序列中每两个动画帧之间生成过渡帧;
将各所述过渡帧***所述动画帧序列,得到所述口型动画。
8.一种口型动画的生成装置,其特征在于,所述装置包括:
语音识别模块,用于获取目标语音,基于预设语音识别算法对所述目标语音进行处理,得到带有时间戳信息的目标文本;
生成模块,用于根据所述目标文本的拼音信息和所述时间戳信息生成音素序列;
转换模块,用于按第一预设转换规则将所述音素序列转换为视素序列,其中,所述视素序列包括多个视素,所述视素表征了发音时的口型视觉特征;
渲染模块,用于基于所述视素序列渲染出与所述目标语音对应的口型动画。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~7中任意一项所述的口型动画的生成方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任意一项所述的口型动画的生成方法。
CN202310139936.1A 2023-02-20 2023-02-20 一种口型动画的生成方法、装置、电子设备和存储介质 Pending CN116363268A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310139936.1A CN116363268A (zh) 2023-02-20 2023-02-20 一种口型动画的生成方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310139936.1A CN116363268A (zh) 2023-02-20 2023-02-20 一种口型动画的生成方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN116363268A true CN116363268A (zh) 2023-06-30

Family

ID=86931185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310139936.1A Pending CN116363268A (zh) 2023-02-20 2023-02-20 一种口型动画的生成方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN116363268A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115318A (zh) * 2023-08-18 2023-11-24 蚂蚁区块链科技(上海)有限公司 口型动画合成方法及装置和电子设备
CN117275485A (zh) * 2023-11-22 2023-12-22 翌东寰球(深圳)数字科技有限公司 一种音视频的生成方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115318A (zh) * 2023-08-18 2023-11-24 蚂蚁区块链科技(上海)有限公司 口型动画合成方法及装置和电子设备
CN117115318B (zh) * 2023-08-18 2024-05-28 蚂蚁区块链科技(上海)有限公司 口型动画合成方法及装置和电子设备
CN117275485A (zh) * 2023-11-22 2023-12-22 翌东寰球(深圳)数字科技有限公司 一种音视频的生成方法、装置、设备及存储介质
CN117275485B (zh) * 2023-11-22 2024-03-12 翌东寰球(深圳)数字科技有限公司 一种音视频的生成方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN106653052B (zh) 虚拟人脸动画的生成方法及装置
CN108447474B (zh) 一种虚拟人物语音与口型同步的建模与控制方法
CN112184858B (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
CN116363268A (zh) 一种口型动画的生成方法、装置、电子设备和存储介质
RU2487411C2 (ru) Способ и устройство для изменения формы губ и получения анимации губ в управляемой голосом анимации
Vougioukas et al. Video-driven speech reconstruction using generative adversarial networks
CN110910479B (zh) 视频处理方法、装置、电子设备及可读存储介质
Arias et al. Realistic transformation of facial and vocal smiles in real-time audiovisual streams
RU2720359C1 (ru) Способ и оборудование распознавания эмоций в речи
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
US20210375260A1 (en) Device and method for generating speech animation
Eskimez et al. Noise-resilient training method for face landmark generation from speech
CN110992926B (zh) 语音合成方法、装置、***和存储介质
US20230099732A1 (en) Computing system for domain expressive text to speech
KR102489498B1 (ko) 음성 합성 및 영상 합성 기술을 통해 고인을 모사하는 가상 인물과 커뮤니케이션을 수행하는 방법 및 시스템
Mattos et al. Improving CNN-based viseme recognition using synthetic data
Charalambous et al. Audio‐driven emotional speech animation for interactive virtual characters
CN114255737B (zh) 语音生成方法、装置、电子设备
CN116597857A (zh) 一种语音驱动图像的方法、***、装置及存储介质
CN117642814A (zh) 稳健的直接语音到语音翻译
CN112785667A (zh) 视频生成方法、装置、介质及电子设备
CN116385629A (zh) 数字人视频的生成方法、装置、电子设备和存储介质
CN113299270B (zh) 语音合成***的生成方法、装置、设备及存储介质
CN115529500A (zh) 动态影像的生成方法和装置
CN115171645A (zh) 一种配音方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination