CN114359450A - 一种模拟虚拟人物说话的方法及装置 - Google Patents
一种模拟虚拟人物说话的方法及装置 Download PDFInfo
- Publication number
- CN114359450A CN114359450A CN202210050718.6A CN202210050718A CN114359450A CN 114359450 A CN114359450 A CN 114359450A CN 202210050718 A CN202210050718 A CN 202210050718A CN 114359450 A CN114359450 A CN 114359450A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- mouth shape
- mouth
- audio frame
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 10
- 238000004590 computer program Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 claims 1
- 238000003786 synthesis reaction Methods 0.000 claims 1
- 238000004519 manufacturing process Methods 0.000 abstract description 6
- 230000009471 action Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000004763 bicuspid Anatomy 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明实施例公开了一种模拟虚拟人物说话的方法及装置,方法包括以下步骤:根据多个音素分类,制作与每个音素分类对应的口型,得到多个基础口型;输入音频流,提取音频流的音频帧,识别音频帧的音素;从多个音素分类中,确定与音频帧的音素对应的音素分类,选择与之对应的基础口型;将选择的基础口型合成音频帧的对应口型。将真人口型通过音素分类,整理为14个基本口型,可以让计算机通过音素识别,驱动虚拟数字人口型同步。通过虚拟数字人口型专利,可以快速准确的实现虚拟数字人的语音口型同步。制定了口型标准化口型制作方案,极大的提高了虚拟数字人口型制作效率和口型的质量。让虚拟数字人更加接近于真人,极大的提升了用户的体验。
Description
技术领域
本发明实施例涉及语言识别处理领域,具体涉及一种模拟虚拟人物说话的方法及装置。
背景技术
虚拟数字人口型当前市场主要有以下三种解决方案:
(1)固定虚拟数字人口型动画:不管虚拟角色说啥,口型都是固定的,做不到语音口型同步;
(2)音量驱动虚拟数字人口型动画:根据虚拟角色说话的音量大小,来控制虚拟角色的口型大小,非常不准确,做不到语音口型同步;
(3)真人图片序列帧动画:科大讯飞的虚拟数字人小晴使用的方案,通过识别语音调用图片序列帧动画来实现语音口型同步,该解决方案局限性大,需要拍摄大量的真人素材,很难应用于市场。
发明内容
为此,本发明实施例提供一种模拟虚拟人物说话的方法及装置,以解决现有技术中市面上的音量识别和固定口型,只适用于卡通角色,无法实现语音口型同步的问题。
为了实现上述目的,本发明的实施方式提供如下技术方案:
在本发明的实施方式的一个方面中,提供了一种模拟虚拟人物说话的方法,所述方法包括:
根据多个音素分类,制作与每个所述音素分类对应的口型,得到多个基础口型;
输入音频流,提取所述音频流的音频帧,识别所述音频帧的音素;
从所述多个音素分类中,确定与所述音频帧的音素对应的所述音素分类,选择与之对应的所述基础口型;
将选择的所述基础口型合成所述音频帧的对应口型。
进一步地,所述多个音素分类包括:
(p,b,m)、(f,v)、(th)、(t,d)、(k,g)、(tS,dZ,S)、(s,z)、(n,l)、(r)、(A)、(e)、(ih)、(oh)、(ou)。
进一步地,在所述音频流中,提取2.5ms至60ms为单位的数据量为一帧音频。
进一步地,所述方法还包括:
制作虚拟人物模型,根据所述音频帧的对应口型,生成所述虚拟人物的口型。
进一步地,所述多个基础口型还包括:嘴闭合口型和通用口型。
进一步地,当从所述音频帧中识别的音素不在所述多个音素分类中时,选择所述通用口型作为基础口型;
当从所述音频帧中未识别出音素时,选择所述嘴闭合口型作为基础口型。
在本发明的实施方式的一个方面中,还提供了一种模拟虚拟人物说话的装置,所述装置包括:
基础口型生成单元,用于根据多个音素分类,制作与每个所述音素分类对应的口型,得到多个基础口型;
音素提取单元,用于输入音频流,提取所述音频流的音频帧,识别所述音频帧的音素;
基础口型确定单元,用于从所述多个音素分类中,确定与所述音频帧的音素对应的所述音素分类,选择与之对应的所述基础口型;
口型合成单元,用于将选择的所述基础口型合成所述音频帧的对应口型。
在本发明的实施方式的另一个方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述方法。
在本发明的实施方式的另一个方面中,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述方法。
本发明的实施方式具有如下优点:
本发明实施例公开了一种模拟虚拟人物说话的方法及装置,将真人口型通过音素分类,整理为14个基本口型,可以让计算机通过音素识别,驱动虚拟数字人口型同步。通过虚拟数字人口型专利,可以快速准确的实现虚拟数字人的语音口型同步。通过音素的融合分类,实现了虚拟数字人语音口型同步,使虚拟数字人说话时的口型容错率达到99.9%。制定了口型标准化口型制作方案,极大的提高了虚拟数字人口型制作效率和口型的质量。让虚拟数字人更加接近于真人,极大的提升了用户的体验。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明的实施例提供的一种模拟虚拟人物说话的方法的流程示意图;
图2为本发明的实施例提供的模拟虚拟人物说话的装置的结构示意图。
图中:102-基础口型生成单元、104-音素提取单元、106-基础口型确定单元、108-口型合成单元。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
实施例
参考图1、2所示,本发明的实施例提供了一种模拟虚拟人物说话的方法,方法包括以下步骤:
S1:根据多个音素分类,制作与每个音素分类对应的口型,得到多个基础口型。具体地,音素:音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看,音素是从音质角度划分出来的最小语音单位。从生理性质来看,一个发音动作形成一个音素。如〔ma〕包含〔m〕〔a〕两个发音动作,是两个音素。相同发音动作发出的音就是同一音素,不同发音动作发出的音就是不同音素。如〔ma-mi〕中,两个〔m〕发音动作相同,是相同音素,〔a〕〔i〕发音动作不同,是不同音素。对音素的分析,一般是根据发音动作来描写的。如〔m〕的发音动作是:上唇和下唇闭拢,声带振动,气流从鼻腔流出发音。用语音学术语来说,就是双唇鼻音。例如在本发明中,经过大量测试,将普通话的音素整理为14个对应发音口型,多个音素分类包括以下14个分类:
(p,b,m)、(f,v)、(th)、(t,d)、(k,g)、(tS,dZ,S)、(s,z)、(n,l)、(r)、(A)、(e)、(ih)、(oh)、(ou)。以上每个分类的集合中都包括至少一个音素,制作14个与上述14个音素分类集合相对应的基础口型。以下为音素分类表,表中包括14个音素分类及对应的发音例子,例子中,拼音发音为加粗,英文发音为斜体。
音素/音位 | 例子(拼音+单词) |
p,b,m | pu,ban,man |
f,v | fan,vat |
th | xing,zan |
t,d | te,da |
k,g | call,gan |
tS,dZ,S | chair,zha,she |
S,Z | Se,zeal |
n,1 | la,na |
r | rui |
A | ka |
e | bed |
ih | tip |
oh | tou |
ou | bu |
S2:输入音频流,提取音频流的音频帧,识别音频帧的音素。音频数据是流式的,本身没有明确的一帧帧的概念,在实际的应用中,为了音频算法处理/传输的方便,一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频。这个时间被称之为“采样时间”,其长度没有特别的标准,它是根据编解码器和具体应用的需求来决定的。具体地,在提取一段音频帧后,通过神经网络识别模型将识别该音频帧中的音素。
S3:从多个音素分类中,确定与音频帧的音素对应的音素分类,选择与之对应的基础口型。具体地,将该音频帧中的音素与上述14的音素分类进行比对,确定与该音频帧的音素对应的音素分类。其中,音素分类可能是1个,也可能是多个,例如识别一个音频帧后得到多个音素,需分别确认与多个音素对应的多个音素分类,并选择与多个音素分类对应的多个基础口型。
S4:将选择的基础口型合成音频帧的对应口型。进一步地,制作虚拟人物模型,根据音频帧的对应口型,生成虚拟人物的口型。本发明的技术方案可通过实时调用识别音频帧中的音素,并合成与所述音频帧对应的图像帧,将图像帧实时合成动画或视频,可以快速准确的实现超写实/写实虚拟数字人的语音口型同步。
进一步地,多个基础口型中还包括:嘴闭合口型和通用口型。当从音频帧中识别的音素不在多个音素分类中时,选择通用口型作为基础口型。当从音频帧中未识别出音素时,选择嘴闭合口型作为基础口型。
如图2所示,本发明的实施例还提供了一种模拟虚拟人物说话的装置,该装置包括:基础口型生成单元102、音素提取单元104、基础口型确定单元106及口型合成单元108。
其中,基础口型生成单元102用于根据多个音素分类,制作与每个音素分类对应的口型,得到多个基础口型。音素提取单元104用于输入音频流,提取音频流的音频帧,识别音频帧的音素。基础口型确定单元106用于从多个音素分类中,确定与音频帧的音素对应的音素分类,选择与之对应的基础口型。口型合成单元108用于将选择的基础口型合成音频帧的对应口型。
本发明的技术方案通过音素的融合分类,实现了虚拟数字人语音口型同步,使虚拟数字人说话时的口型容错率达到99.9%。制定了口型标准化口型制作方案,极大的提高了虚拟数字人口型制作效率和口型的质量。同时让虚拟数字人更加接近于真人,极大的提升了用户的体验。
本说明书上述实施例装置的各功能模块的功能,可以通过上述方法实施例的各步骤来实现,因此,本说明书一个实施例提供的装置的具体工作过程,在此不复赘述。
根据另一方面的实施例,还提供了一种计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机中执行时,令计算机执行结合图1所描述的方法。
根据再一方面的实施例,还提供了一种计算设备,包括存储器和处理器,存储器中存储有可执行代码,处理器执行可执行代码时,实现结合图1的方法。
结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于服务器中。当然,处理器和存储介质也可以作为分立组件存在于服务器中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
虽然,上文中已经用一般性说明及具体实施例对本发明做了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (9)
1.一种模拟虚拟人物说话的方法,其特征在于,所述方法包括:
根据多个音素分类,制作与每个所述音素分类对应的口型,得到多个基础口型;
输入音频流,提取所述音频流的音频帧,识别所述音频帧的音素;
从所述多个音素分类中,确定与所述音频帧的音素对应的所述音素分类,选择与之对应的所述基础口型;
将选择的所述基础口型合成所述音频帧的对应口型。
2.根据权利要求1所述的方法,其特征在于,所述多个音素分类包括:
(p,b,m)、(f,v)、(th)、(t,d)、(k,g)、(tS,dZ,S)、(s,z)、(n,l)、(r)、(A)、(e)、(ih)、(oh)、(ou)。
3.根据权利要求1所述的方法,其特征在于,
在所述音频流中,提取2.5ms至60ms为单位的数据量为一帧音频。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
制作虚拟人物模型,根据所述音频帧的对应口型,生成所述虚拟人物的口型。
5.根据权利要求1所述的方法,其特征在于,
所述多个基础口型还包括:嘴闭合口型和通用口型。
6.根据权利要求5所述的方法,其特征在于,
当从所述音频帧中识别的音素不在所述多个音素分类中时,选择所述通用口型作为基础口型;
当从所述音频帧中未识别出音素时,选择所述嘴闭合口型作为基础口型。
7.一种模拟虚拟人物说话的装置,其特征在于,所述装置包括:
基础口型生成单元(102),用于根据多个音素分类,制作与每个所述音素分类对应的口型,得到多个基础口型;
音素提取单元(104),用于输入音频流,提取所述音频流的音频帧,识别所述音频帧的音素;
基础口型确定单元(106),用于从所述多个音素分类中,确定与所述音频帧的音素对应的所述音素分类,选择与之对应的所述基础口型;
口型合成单元(108),用于将选择的所述基础口型合成所述音频帧的对应口型。
8.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-6中任一项所述的方法。
9.一种计算设备,其特征在于,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210050718.6A CN114359450A (zh) | 2022-01-17 | 2022-01-17 | 一种模拟虚拟人物说话的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210050718.6A CN114359450A (zh) | 2022-01-17 | 2022-01-17 | 一种模拟虚拟人物说话的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114359450A true CN114359450A (zh) | 2022-04-15 |
Family
ID=81092194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210050718.6A Pending CN114359450A (zh) | 2022-01-17 | 2022-01-17 | 一种模拟虚拟人物说话的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114359450A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115050083A (zh) * | 2022-08-15 | 2022-09-13 | 南京硅基智能科技有限公司 | 矫正口型模型、模型的训练及其应用方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108447474A (zh) * | 2018-03-12 | 2018-08-24 | 北京灵伴未来科技有限公司 | 一种虚拟人物语音与口型同步的建模与控制方法 |
CN109215631A (zh) * | 2017-07-05 | 2019-01-15 | 松下知识产权经营株式会社 | 语音识别方法、程序、语音识别装置和机器人 |
CN109377540A (zh) * | 2018-09-30 | 2019-02-22 | 网易(杭州)网络有限公司 | 面部动画的合成方法、装置、存储介质、处理器及终端 |
CN111260761A (zh) * | 2020-01-15 | 2020-06-09 | 北京猿力未来科技有限公司 | 一种生成动画人物口型的方法及装置 |
CN111698552A (zh) * | 2020-05-15 | 2020-09-22 | 完美世界(北京)软件科技发展有限公司 | 一种视频资源的生成方法和装置 |
CN112734889A (zh) * | 2021-02-19 | 2021-04-30 | 北京中科深智科技有限公司 | 一种2d角色的口型动画实时驱动方法和*** |
CN113763518A (zh) * | 2021-09-09 | 2021-12-07 | 北京顺天立安科技有限公司 | 基于虚拟数字人的多模态无限表情合成方法及装置 |
CN113781610A (zh) * | 2021-06-28 | 2021-12-10 | 武汉大学 | 一种虚拟人脸的生成方法 |
-
2022
- 2022-01-17 CN CN202210050718.6A patent/CN114359450A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109215631A (zh) * | 2017-07-05 | 2019-01-15 | 松下知识产权经营株式会社 | 语音识别方法、程序、语音识别装置和机器人 |
CN108447474A (zh) * | 2018-03-12 | 2018-08-24 | 北京灵伴未来科技有限公司 | 一种虚拟人物语音与口型同步的建模与控制方法 |
CN109377540A (zh) * | 2018-09-30 | 2019-02-22 | 网易(杭州)网络有限公司 | 面部动画的合成方法、装置、存储介质、处理器及终端 |
CN111260761A (zh) * | 2020-01-15 | 2020-06-09 | 北京猿力未来科技有限公司 | 一种生成动画人物口型的方法及装置 |
CN111698552A (zh) * | 2020-05-15 | 2020-09-22 | 完美世界(北京)软件科技发展有限公司 | 一种视频资源的生成方法和装置 |
CN112734889A (zh) * | 2021-02-19 | 2021-04-30 | 北京中科深智科技有限公司 | 一种2d角色的口型动画实时驱动方法和*** |
CN113781610A (zh) * | 2021-06-28 | 2021-12-10 | 武汉大学 | 一种虚拟人脸的生成方法 |
CN113763518A (zh) * | 2021-09-09 | 2021-12-07 | 北京顺天立安科技有限公司 | 基于虚拟数字人的多模态无限表情合成方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115050083A (zh) * | 2022-08-15 | 2022-09-13 | 南京硅基智能科技有限公司 | 矫正口型模型、模型的训练及其应用方法 |
US11887403B1 (en) | 2022-08-15 | 2024-01-30 | Nanjing Silicon Intelligence Technology Co., Ltd. | Mouth shape correction model, and model training and application method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
Czyzewski et al. | An audio-visual corpus for multimodal automatic speech recognition | |
Vougioukas et al. | Video-driven speech reconstruction using generative adversarial networks | |
CN111048064B (zh) | 基于单说话人语音合成数据集的声音克隆方法及装置 | |
CN110136687B (zh) | 一种基于语音训练克隆口音及声韵方法 | |
CN111489424A (zh) | 虚拟角色表情生成方法、控制方法、装置和终端设备 | |
JP2008500573A (ja) | メッセージを変更するための方法及びシステム | |
WO2022048404A1 (zh) | 端到端的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN112185363B (zh) | 音频处理方法及装置 | |
JP2020034883A (ja) | 音声合成装置及びプログラム | |
CN114121006A (zh) | 虚拟角色的形象输出方法、装置、设备以及存储介质 | |
US20230298564A1 (en) | Speech synthesis method and apparatus, device, and storage medium | |
Salvi et al. | SynFace—speech-driven facial animation for virtual speech-reading support | |
CN115938352A (zh) | 模型的获得方法、口型系数生成方法、装置、设备及介质 | |
CN114359450A (zh) | 一种模拟虚拟人物说话的方法及装置 | |
AU2022203531B1 (en) | Real-time speech-to-speech generation (rssg) apparatus, method and a system therefore | |
CN117275485B (zh) | 一种音视频的生成方法、装置、设备及存储介质 | |
WO2021169825A1 (zh) | 语音合成方法、装置、设备和存储介质 | |
CN116110370A (zh) | 基于人机语音交互的语音合成***及相关设备 | |
CN112700520B (zh) | 基于共振峰的口型表情动画生成方法、装置及存储介质 | |
JP2002229590A (ja) | 音声認識システム | |
CN114359443A (zh) | 一种用于模拟虚拟人物说话的方法及装置 | |
Verma et al. | Animating expressive faces across languages | |
Wang et al. | A large-scale depth-based multimodal audio-visual corpus in mandarin | |
CN113192484A (zh) | 基于文本生成音频的方法、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |