CN114999441A - 虚拟形象生成方法、装置、设备、存储介质以及程序产品 - Google Patents

虚拟形象生成方法、装置、设备、存储介质以及程序产品 Download PDF

Info

Publication number
CN114999441A
CN114999441A CN202210572336.XA CN202210572336A CN114999441A CN 114999441 A CN114999441 A CN 114999441A CN 202210572336 A CN202210572336 A CN 202210572336A CN 114999441 A CN114999441 A CN 114999441A
Authority
CN
China
Prior art keywords
target
parameters
initial
voice data
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210572336.XA
Other languages
English (en)
Inventor
郭紫垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210572336.XA priority Critical patent/CN114999441A/zh
Publication of CN114999441A publication Critical patent/CN114999441A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开提供了一种虚拟形象生成方法、装置、设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为:获取目标语音数据;基于目标语音数据和目标音色参数,获得目标音色语音数据,其中,目标音色参数具有对应的音色标识;将音色标识与目标音色语音数据的语音特征进行融合,得到目标特征;根据目标特征,确定针对虚拟形象的形象参数;以及根据形象参数,生成虚拟形象。

Description

虚拟形象生成方法、装置、设备、存储介质以及程序产品
技术领域
本公开涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,具体涉及一种虚拟形象生成方法、装置、设备、存储介质以及程序产品。
背景技术
随着计算机技术和互联网技术的发展,可以通过虚拟形象提供生活、娱乐等方面的各项功能服务。例如,一些虚拟形象可以结合视觉显示和语音输出提供语音播报等视听功能服务。
发明内容
本公开提供了一种虚拟形象生成方法、装置、设备、存储介质以及程序产品。
根据本公开的一方面,提供了一种虚拟形象生成方法,包括:获取目标语音数据;基于目标语音数据和目标音色参数,获得目标音色语音数据,其中,目标音色参数具有对应的音色标识;将音色标识与目标音色语音数据的语音特征进行融合,得到目标特征;根据目标特征,确定针对虚拟形象的形象参数;以及根据形象参数,生成虚拟形象。
根据本公开的另一方面,提供了一种虚拟形象生成装置,包括:目标语音数据确定模块、目标音色语音数据确定模块、目标特征确定模块、形象参数确定模块以及虚拟形象生成模块。目标语音数据确定模块,用于获取目标语音数据;目标音色语音数据确定模块,用于基于目标语音数据和目标音色参数,获得目标音色语音数据,其中,目标音色参数具有对应的音色标识;目标特征确定模块,用于将音色标识与目标音色语音数据的语音特征进行融合,得到目标特征;形象参数确定模块,用于根据目标特征,确定针对虚拟形象的形象参数;虚拟形象生成模块,用于根据形象参数,生成虚拟形象。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器和与至少一个处理器通信连接的存储器。其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开实施例的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本公开实施例的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本公开实施例的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的虚拟形象生成方法和装置的***架构图;
图2示意性示出了根据本公开实施例的虚拟形象生成方法的流程图;
图3示意性示出了根据本公开一实施例的获得目标音色语音数据的示意图;
图4示意性示出了根据本公开一实施例的确定针对虚拟形象的形象参数的示意图;
图5示意性示出了根据本公开一实施例的获得面部姿态特征的示意图;
图6示意性示出了根据本公开又一实施例的虚拟形象生成方法的示意图;
图7示意性示出了根据本公开一实施例的生成虚拟形象的示意图;
图8示意性示出了根据本公开一实施例的获取目标语音数据的示意图;
图9示意性示出了根据本公开实施例的虚拟形象生成装置的框图;以及
图10示意性示出了可以实现本公开实施例的虚拟形象生成方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。
随着计算机技术和互联网技术的发展,通过虚拟形象可以提供生活、娱乐等方面的各项功能服务。一些虚拟形象可以结合视觉显示和语音输出提供语音播报等视听功能服务。
对于视听功能服务,一些实施方式中,虚拟形象还可以输出特定音色的语音。根据不同音色,如何确保虚拟形象作出的面部表情与输出的语音保持同步是一个亟需解决的问题。虚拟形象的唇形与语音能否同步一致是影响虚拟形象仿真效果的一个原因。
一些实施方式中,基于语音驱动虚拟形象作出相应表情时,唇形变化与语音输出并不一致。例如,一些实施方式可以将语音数据输入训练好的语音-面部唇形模型中,输出可以驱动面部唇形变化的数据。
一些语音-面部唇形模型的语音数据比较单一,例如语音数据仅包括一个单一的音色。在实际应用语音-面部唇形模型时,当输入的语音数据包括多个音色时语音-面部唇形模型输出的驱动面部唇形变化的数据并不准确。
一些语音-面部唇形模型可以针对包括噪声音频的语音数据,可以将语音数据中的噪声音频过滤,但是实际应用时并不能完全将噪声音频过滤,得到纯净的语音数据,语音-面部唇形模型输出的驱动面部唇形变化的数据并不准确。准确性不够例如体现在***音闭嘴唇形异常以及连续帧的唇形序列不稳定。
图1示意性示出了根据本公开一实施例的虚拟形象生成方法和装置的***架构。需要注意的是,图1所示仅为可以应用本公开实施例的***架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。
如图1所示,根据该实施例的***架构100可以包括客户端101、102、103,网络104和服务器105。网络104用以在客户端101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用客户端101、102、103通过网络104与服务器105交互,以接收或发送消息等。客户端101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
客户端101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。本公开实施例的客户端101、102、103例如可以运行应用程序。
服务器105可以是提供各种服务的服务器,例如对用户利用客户端101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给客户端。另外,服务器105还可以是云服务器,即服务器105具有云计算功能。
需要说明的是,本公开实施例所提供的虚拟形象生成方法可以由服务器105执行。相应地,本公开实施例所提供的虚拟形象生成装置可以设置于服务器105中。本公开实施例所提供的虚拟形象生成方法也可以由不同于服务器105且能够与客户端101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的虚拟形象生成装置也可以设置于不同于服务器105且能够与客户端101、102、103和/或服务器105通信的服务器或服务器集群中。
在一种示例中,服务器105可以通过网络104获取来自客户端101、102、103的初始文本数据。
应该理解,图1中的客户端、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的客户端、网络和服务器。
应注意,本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
本公开实施例提供了一种虚拟形象生成方法,下面结合图1的***架构,参考图2~图8来描述根据本公开示例性实施方式的虚拟形象生成方法。本公开实施例的虚拟形象生成方法例如可以由图1所示的服务器105来执行。
图2示意性示出了根据本公开一实施例的虚拟形象生成方法的流程图。
如图2所示,本公开实施例的虚拟形象生成方法200例如可以包括操作S210~操作S250。
在操作S210,获取目标语音数据。
语音数据可以理解为语言的音频形式。
在操作S220,基于目标语音数据和目标音色参数,获得目标音色语音数据。
目标音色参数具有对应的音色标识。
需要说明的是,音色是指不同声音表现在波形方面的独特的特性,音色是由发音体的特点决定的。
以人员唱歌为例,由于各个人员的例如口腔、咽喉等身体结构的特性,各个人员具有独特的音色,由于音色的独特性,各个人员对于同一首歌的演绎也不同。本公开实施例的虚拟形象生成方法通过目标音色参数模拟特定的音色。
示例性地,目标音色参数可以包括音高。
可以理解,目标音色语音数据在目标语音数据的基础上,还具有相应的音色特点。
在操作S230,将音色标识与目标音色语音数据的语音特征进行融合,得到目标特征。
示例性地,可以通过将音色标识与目标音色语音数据的语音特征在同一维度拼接的方式进行融合,得到目标特征。
目标特征可以理解例如可以利用特征向量的形式表征,特征向量可支持计算机处理。
在操作S240,根据目标特征,确定针对虚拟形象的形象参数。
在操作S250,根据形象参数,生成虚拟形象。
可以理解,针对某一目标语音数据,基于特定的目标音色参数,得到的目标音色语音数据具有特定音色,虚拟形象在视觉表现也会随之具有特定特点。例如,针对目标语音数据A,基于不同的两个目标音色参数B和目标音色参数C,可以分别得到对应的目标音色语音数据Ab和目标音色语音数据Ac,虚拟形象基于目标音色语音数据Ab和目标音色语音数据Ac,分别具有对应不同的唇形变化Lb和唇形变化Lc。
本公开实施例的虚拟形象生成方法,引入目标音色参数,通过基于目标语音数据和目标音色参数获得的目标音色语音数据具有相应的音色特点,通过将音色标识与目标音色语音数据的语音特征进行融合,得到的目标特征例如可以体现目标音色语音数据与对应的目标音色参数之间的关联,可以适应多种音色的应用场景。目标特征例如还可以体现目标音色语音数据的特定音色的特征,根据目标特征确定的形象参数与特定音色相关。由此,根据形象参数生成的虚拟形象是与特定音色相关的视觉表现,在基于相同的目标语音数据、不同的目标音色参数的情况下,这种虚拟形象的视觉表现会产生差异,具有更好的仿真效果。
图3示意性示出了根据本公开另一实施例的虚拟形象生成方法中获得目标音色语音数据的示意图。
如图3所示,可以利用以下实施例实现基于目标语音数据和目标音色参数,获得目标音色语音数据的具体示例。
目标语音数据301包括至少一个语音单元,目标音色参数302包括针对各个语音单元的音色参数。
在操作S331,将音色参数匹配至对应的语音单元,以获得目标音色语音数据303。
在图3的示例中,目标语音数据301包括语音单元u1至语音单元ux的共计x个语音单元,目标音色参数302包括音色参数p1至音色参数px的共计x个音色参数。
根据本公开实施例的虚拟形象生成方法,通过逐个语音单元进行相应的音色参数的匹配,可以获得更加准确的目标音色语音数据。
图4示意性示出了根据本公开又一实施例的虚拟形象生成方法中确定针对虚拟形象的形象参数的示意图。
根据本公开又一实施例的虚拟形象生成方法,可以通过以下实施例来实现根据目标特征,确定针对虚拟形象的形象参数的具体示例。
在操作S441,根据目标特征401,得到面部姿态特征402。
面部姿态特征可以理解为表征面部姿态的特征,面部姿态特征例如可以映射虚拟形象的面部表情。
在操作S442,对面部姿态特征402进行特征拆分,得到拆分后的多个姿态拆分特征403。
示例性地,可以通过由相关人员设置的拆分逻辑进行特征拆分。例如,可以按照等量拆分或者按照特征部位的拆分逻辑进行特征拆分。
拆分后的特征例如还可以通过随机算法进行打乱,得到随机的姿态拆分特征。
在操作S443,基于多个姿态拆分特征403,确定拆分特征相关性参数404。
拆分特征相关性参数用于表征多个姿态拆分特征之间的相关性。
在操作S444,根据拆分特征相关性参数404和面部姿态特征402,确定面部参数405。
形象参数包括面部参数。
姿态拆分特征是相对于面部姿态特征更加细粒度的特征,通过细粒度的姿态拆分特征,确定的面部参数更加准确,由此,针对本公开实施例的虚拟形象生成的应用场景,后续根据面部参数,生成的虚拟形象的面部表情更加准确和真实,虚拟形象具有更好的仿真效果。
可以理解,发音会引起面部产生相应变化。例如,在姿态拆分特征以面部部位拆分时,例如,在发“A”的音时,会引起唇形变化,还会引起面部的两腮扩张,唇形与面部的两腮之间具有相对更高的相关性;而发“B”的音时会引起唇形变化,但是不会引起面部的两腮扩张,唇形与面部的两腮之间具有相对较低的相关性。
根据拆分特征相关性参数,本公开实施例的虚拟形象生成方法可以学习到针对某一个发音,姿态拆分特征之间的关联程度,对确定面部参数的过程进行自监督。由此,根据拆分特征相关性参数和面部姿态特征确定的面部参数的准确性更高。
根据本公开又一实施例的虚拟形象生成方法,可以通过以下实施例来实现根据目标语音数据的语音特征,获得面部姿态特征的具体示例。
在操作S511,获取目标语音数据501的梅尔倒谱系数502。
梅尔频率倒谱系数即Mel-scale Frequency Cepstral Coefficients,简称MFCC。基于梅尔频率倒谱系数确定的参数具有更好的鲁邦性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
示例性地,可以通过:预加重→分帧→加窗→快速傅里叶变换→三角带通滤波器→梅尔频率滤波器组→计算每个滤波器组输出的对数能量→经离散余弦变换得到MFCC。可以通过将目标语音数据通过高通滤波器的方式实现预加重。通过预加重可以提升高频部分,使得信号的频谱变得平坦,信号保持在低频到高频的整个频带中。通过预加重还可以消除发声过程中声带和嘴唇的效应,来补偿语音信号被发声***抑制的高频部分,突出高频的共振峰。
目标语音数据的语音特征可以包括目标语音数据的梅尔倒谱系数。
在操作S512,根据梅尔倒谱系数502,获得音素特征503。
音素特征用于表征发音动作单元。音素特征可以理解为利用特征向量表征的音素。音素可以理解为根据语音的自然属性划分出来的最小语音单位,音节里的每一个发音动作可以构成一个音素。因此,音素是构成音节的最小单位或最小的语音片段,是从音质的角度划分出来的最小的线性的语音单位。
在操作S513,根据音素特征503,获得面部姿态特征504。
由于梅尔倒谱系数与音素强相关,音素与唇形强相关,根据本公开实施例的虚拟形象生成方法,根据目标语音数据的梅尔倒谱系数,可以得到与唇形强相关的音素特征,由音素特征得到的面部姿态特征可以映射准确的唇形。
图6示意性示出了根据本公开又一实施例的虚拟形象生成方法的示意图。在本公开实施例中,通过卷积神经网络Net实现根据目标语音数据,生成虚拟形象的具体示例。
图6中还示出了音色标识推理模块A-ID-Inf,由于目标音色参数具有对应的音色标识,根据音色标识,可以利用音色标识推理模块A-ID-Inf确定对应的目标音色参数。
示例性地,针对某一音色标识A-ID,可以利用音色标识推理模块A-ID-Inf确定对应的目标音色参数A-pa,可以将目标音色参数A-pa的音色参数匹配至对应的目标语音数据Aui的语音单元,获得目标音色语音数据Aut。
示例性地,可以通过添加语音窗口的方式对目标音色语音数据Aut进行初步划分,每一个语音窗口可以进一步划分为m个语音片段,可以提取每一个语音片段的n个梅尔倒谱系数分量,从而得到目标音色语音数据Aut的语音特征向量MFCC,语音特征向量MFCC是m*n维的。
示例性地,m可以取值为64,n可以取值为32。
在此基础上,将音色标识A-ID与目标音色语音数据Aut的语音特征MFCC进行融合,得到目标特征,将目标特征作为卷积神经网络的模型输入Input。
示例性地,音色标识A-ID与目标音色语音数据Aut的语音特征MFCC融合后的目标特征可以是(m+1)*n维或者m*(n+1)维的。
示例性地,音色标识A-ID可以是独热编码,独热编码即One Hot编码。
由于语音在短时间内具有连续性,因此,本公开实施例的虚拟形象生成方法可以对目标音色语音数据添加能够覆盖多个音帧的语音窗口,提取连续多个音帧的特征,可以更好地学习到连续多个音帧的特征,符合短时间内的语音特点,从而可以更好地拟合面部参数。
示例性地,语音窗口可以设置为385ms。
可以将模型输入Input输入至卷积神经网络Net中,卷积神经网络Net可以包括语音分析网络N1、面部姿态分析网络N2、自监督网络N3、全连接层CF和输出层OL。
语音分析网络N1可以用于对模型输入Input的n维特征或者n+1维特征进行语音特征提取,得到音素特征。
面部姿态分析网络N2可以对模型输入Input的m维特征或者m+1维特征进行特征提取,分析特征的时间演化,输出面部姿态特征。
自监督网络N3可以用于对面部姿态特征进行特征拆分,得到拆分后的多个姿态拆分特征,并基于多个姿态拆分特征,确定拆分特征相关性参数;全连接层CF可以用于根据面部姿态特征和拆分特征相关性参数拟合面部参数,其中,全连接层设置为至少两层。可以理解,仅通过一个全连接层可以得到一个二分类的数值结果,而一个数值并不能表征面部参数,至少两个全连接层可以拟合多维向量,因此可以利用至少两个全连接层拟合得到的多维向量表征面部参数。
输出层OL可以用于输出面部参数。可以根据面部参数生成虚拟形象Vi,具体地,生成虚拟形象的面部模型。
示例性地,面部参数可以包括混合形状系数权重(混合形状系数即BlendShape)。混合形状系数可以用于表征参数化的初始面部模型,混合形状系数权重表征混合形状系数的权重取值,混合形状系数权重在0-1之间,通过调整混合形状系数权重的数值,可以对初始面部模型进行调整,得到具有相应表情的面部模型。
卷积神经网络Net的模型参数包括网络权重,卷积神经网络模型在回归例如混合形状系数权重等数值较小的面部参数的数值时,网络权重对面部参数的影响较大,在一些情况下,会直接导致回归面部参数的数值异常。以混合形状系数权重为面部参数为例,拆分特征相关性参数例如可以表征多个姿态拆分特征之间的混合形状系数权重相关性,对根据面部姿态特征确定面部参数的过程进行自监督,可以理解为通过拆分特征相关性参数对面部姿态特征进行无标签监督信号的特征学习,根据面部姿态特征和拆分特征相关性参数确定的面部参数更加准确和稳定,根据面部参数生成的虚拟形象也更加生动,仿真效果更好。
示例性地,在对卷积神经网络Net的训练阶段,可以对网络输出的面部参数中与唇形变化不相关的部分进行降低权重的处理。例如,训练样本Ts经卷积神经网络Net输出面部参数Fd,可以由该训练样本Ts的标签La与面部参数Fd计算损失数值,在计算损失数值时,可以降低与唇形变化不相关的部分的权重。与唇形变化不相关的部分例如可以包括眉毛、眼睛等部分。
图7示意性示出了根据本公开又一实施例的虚拟形象生成方法的生成虚拟形象的示意图。
根据本公开又一实施例的虚拟形象生成方法,可以通过以下实施例来实现根据形象参数,生成虚拟形象的具体示例。
在操作S751,获取初始面部模型702。
初始面部模型702根据初始面部参数701生成。
在操作S752,根据面部参数703对初始面部模型702的初始面部参数701进行更新,生成目标面部模型704。
在操作S753,根据目标面部模型704,获得虚拟形象705。
本公开实施例的虚拟形象生成方法,通过面部参数对初始面部参数进行更新的方式可以基于初始面部模型快速、高效地生成虚拟形象。
图8示意性示出了根据本公开又一实施例的虚拟形象生成方法中获取目标语音数据的示意图。图8示意性示出了基于目标语音单元时长,调整各初始语音单元的初始语音单元时长的示意图。
如图8所示,可以通过以下实施例来实现获取目标语音数据的具体示例:将初始文本数据进行语音转换,得到初始语音数据,其中,初始语音数据包括各初始语音单元,初始语音数据的各初始语音单元具有初始语音单元时长和初始节奏参数;以及基于目标语音单元时长和目标节奏参数,调整各初始语音单元的初始语音单元时长和初始节奏参数,得到目标语音数据。
初始语音数据是初始文本数据的音频形式。初始语音单元可以理解为初始语音数据的语音单元,初始语音单元时长可以理解为初始语音数据的语音单元时长。语音单元时长可以理解为语音单元的发音时长。语音单元例如可以是字、词等。
初始节奏参数可以理解为初始语音数据的节奏参数。
示例性地,节奏参数可以包括旋律、频率和音调中的至少一个。
示例性地,可以通过文本-语音转换模型实现将初始文本数据进行语音转换,得到初始语音数据,其中,文本-语音转换模型即TTS模型(Text To Speech,简称为TTS)。
示例性地,可以利用语音风格转换模型调整各初始语音单元的初始节奏参数。
可以理解,目标语音数据具有目标语音单元时长和目标节奏参数。
本公开实施例的虚拟形象生成方法,支持由初始文本数据驱动生成虚拟形象,拓展了虚拟形象的应用场景。通过将初始文本数据进行语音转换,得到的初始语音数据不受干扰噪声的影响,是一种“纯净”的语音数据。通过基于目标语音单元时长和目标节奏参数,调整各初始语音单元的初始语音单元时长和初始节奏参数,得到的目标语音数据具有“纯净”、与目标语音单元时长和目标节奏参数匹配的特点。
根据“纯净”的目标语音数据生成的虚拟形象的唇形更加准确,至少可以减少虚拟形象的***音唇形闭嘴异常情况的发生。
由于语音单元时长与唇形变化序列相关,因此,根据与目标语音单元时长匹配的目标语音数据生成的虚拟形象至少可以提高唇形序列稳定性。
根据与目标节奏参数匹配的目标语音数据生成的虚拟形象例如可以提供输出具有目标节奏参数的目标语音数据的功能,改善虚拟形象机械地输出机器音的情况,可以提高虚拟形象的仿真效果,提升用户的沉浸式体验。
本公开实施例的虚拟形象生成方法例如可以应用于虚拟形象面部口型捕捉、虚拟形象唱歌、影视动画、互动游戏娱乐等应用场景下。由于本公开实施例的虚拟形象生成方法生成的虚拟形象的唇形更加准确、唇形序列稳定性更高,因此本公开实施例的虚拟形象生成方法具有更好的虚拟形象仿真效果,可以提高用户的沉浸式体验。还可以替换例如直播场景下复杂昂贵的面部口型捕捉设备,降低设备投入成本和后期修改虚拟形象异常唇形的人力成本。
图8示意性示出了调整各初始语音单元的初始语音单元时长的示意图,其中,示出了A、B、C、D和E共计五个语音单元、还示出了t1’、t2’、t3’、t4’和t5’共计五个目标语音单元时长以及初始语音数据Ai的t1、t2、t3、t4和t5共计五个初始语音单元的初始语音单元时长。可以理解,针对每一个初始语音单元,基于目标语音单元时长,调整初始语音单元的初始语音单元时长,直至初始语音单元时长与目标语音单元时长保持一致,可以得到目标语音数据At。
根据本公开实施例的虚拟形象生成方法,可以应用于歌曲等乐曲音频的场景下。通过基于乐曲音频的目标语音单元时长和目标节奏参数,调整各初始语音单元的初始语音单元时长和初始节奏参数,可以得到与乐曲音频具有语音单元时长匹配关系和节奏参数匹配关系的目标语音数据,根据具有节奏的目标语音数据,生成的虚拟形象的唇形序列更加稳定和准确,具有更好的虚拟形象仿真效果。例如,还可以利用生成的虚拟形象提供唱歌等视听功能服务。
图9示意性示出了根据本公开一实施例的虚拟形象生成装置的框图。
如图9所示,本公开实施例的虚拟形象生成装置900例如包括目标语音数据确定模块910、目标音色语音数据确定模块920、目标特征确定模块930、形象参数确定模块940以及虚拟形象生成模块950。
目标语音数据确定模块910,用于获取目标语音数据。
目标音色语音数据确定模块920,用于基于目标语音数据和目标音色参数,获得目标音色语音数据。其中,目标音色参数具有对应的音色标识。
目标特征确定模块930,用于将音色标识与目标音色语音数据的语音特征进行融合,得到目标特征。
形象参数确定模块940,用于根据目标特征,确定针对虚拟形象的形象参数。
虚拟形象生成模块950,用于根据形象参数,生成虚拟形象。
根据本公开实施例,音色标识用于标识指定的发音风格和/或指定的发音对象。
根据本公开实施例,目标语音数据包括至少一个语音单元,目标音色参数包括针对各个语音单元的音色参数,目标音色语音数据确定模块包括:目标音色语音数据确定子模块。
目标音色语音数据确定子模块,用于将音色参数匹配至对应的语音单元,以获得目标音色语音数据。
根据本公开实施例,其中,形象参数包括面部参数,形象参数确定模块包括:面部姿态特征确定子模块、姿态拆分特征确定子模块、拆分特征相关性参数确定子模块以及面部参数确定子模块。
面部姿态特征确定子模块,用于根据目标特征,得到面部姿态特征。
姿态拆分特征确定子模块,用于对面部姿态特征进行特征拆分,得到拆分后的多个姿态拆分特征。
拆分特征相关性参数确定子模块,用于基于多个姿态拆分特征,确定拆分特征相关性参数。其中,拆分特征相关性参数用于表征多个姿态拆分特征之间的相关性。
面部参数确定子模块,用于根据拆分特征相关性参数和面部姿态特征,确定面部参数。
根据本公开实施例,其中,面部姿态特征确定子模块包括:梅尔倒谱系数确定单元、音素特征确定单元以及面部姿态特征确定单元。
梅尔倒谱系数确定单元,用于获取目标特征的梅尔倒谱系数。
音素特征确定单元,用于根据梅尔倒谱系数,获得音素特征,其中,音素特征表征发音动作单元。
面部姿态特征确定单元,用于根据音素特征,获得面部姿态特征。
根据本公开实施例,其中,虚拟形象生成模块包括:初始面部模型确定子模块、目标面部模型确定子模块以及虚拟形象生成子模块
初始面部模型确定子模块,用于获取初始面部模型,其中,初始面部模型根据初始面部参数生成。
目标面部模型确定子模块,用于根据面部参数对初始面部模型的初始面部参数进行更新,生成目标面部模型。
虚拟形象生成子模块,用于根据目标面部模型,获得虚拟形象。
根据本公开实施例,其中,目标语音数据确定模块包括:初始语音数据确定子模块以及目标语音数据确定子模块。
初始语音数据确定子模块,用于将初始文本数据进行语音转换,得到初始语音数据,其中,初始语音数据包括各初始语音单元,初始语音数据的各初始语音单元具有初始语音单元时长和初始节奏参数;以及
目标语音数据确定子模块,用于基于目标语音单元时长和目标节奏参数,调整各初始语音单元的初始语音单元时长和初始节奏参数,得到目标语音数据。
应该理解,本公开装置部分的实施例与本公开方法部分的实施例对应相同或类似,所解决的技术问题和所达到的技术效果也对应相同或类似,本公开在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如虚拟形象生成方法。例如,在一些实施例中,虚拟形象生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的虚拟形象生成方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行虚拟形象生成方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (17)

1.一种虚拟形象生成方法,包括:
获取目标语音数据;
基于所述目标语音数据和目标音色参数,获得目标音色语音数据,其中,所述目标音色参数具有对应的音色标识;
将所述音色标识与所述目标音色语音数据的语音特征进行融合,得到目标特征;
根据所述目标特征,确定针对虚拟形象的形象参数;以及
根据所述形象参数,生成所述虚拟形象。
2.根据权利要求1所述的方法,所述音色标识用于标识指定的发音风格和/或指定的发音对象。
3.根据权利要求1所述的方法,所述目标语音数据包括至少一个语音单元,所述目标音色参数包括针对各个语音单元的音色参数,所述基于所述目标语音数据和目标音色参数,获得目标音色语音数据,包括:
将所述音色参数匹配至对应的语音单元,以获得所述目标音色语音数据。
4.根据权利要求1所述的方法,其中,所述形象参数包括面部参数,所述根据所述目标特征,确定针对虚拟形象的形象参数包括:
根据所述目标特征,得到面部姿态特征;
对所述面部姿态特征进行特征拆分,得到拆分后的多个姿态拆分特征;
基于所述多个姿态拆分特征,确定拆分特征相关性参数,其中,所述拆分特征相关性参数用于表征所述多个姿态拆分特征之间的相关性;以及
根据所述拆分特征相关性参数和所述面部姿态特征,确定所述面部参数。
5.根据权利要求4所述的方法,其中,所述根据所述目标特征,得到面部姿态特征包括:
获取所述目标特征的梅尔倒谱系数;
根据所述梅尔倒谱系数,获得音素特征;以及
根据所述音素特征,获得所述面部姿态特征。
6.根据权利要求4所述的方法,其中,所述根据所述形象参数,生成所述虚拟形象包括:
获取初始面部模型,其中,所述初始面部模型根据初始面部参数生成;
根据所述面部参数对所述初始面部模型的初始面部参数进行更新,生成目标面部模型;以及
根据所述目标面部模型,获得所述虚拟形象。
7.根据权利要求1-6中任一项所述的方法,其中,所述获取目标语音数据包括:
将初始文本数据进行语音转换,得到初始语音数据,其中,所述初始语音数据包括各初始语音单元,所述初始语音数据的所述各初始语音单元具有初始语音单元时长和初始节奏参数;以及
基于目标语音单元时长和目标节奏参数,调整各初始语音单元的所述初始语音单元时长和所述初始节奏参数,得到所述目标语音数据。
8.一种虚拟形象生成装置,包括:
目标语音数据确定模块,用于获取目标语音数据;
目标音色语音数据确定模块,用于基于所述目标语音数据和目标音色参数,获得目标音色语音数据,其中,所述目标音色参数具有对应的音色标识;
目标特征确定模块,用于将所述音色标识与所述目标音色语音数据的语音特征进行融合,得到目标特征;
形象参数确定模块,用于根据所述目标特征,确定针对虚拟形象的形象参数;以及
虚拟形象生成模块,用于根据所述形象参数,生成所述虚拟形象。
9.根据权利要求8所述的装置,所述音色标识用于标识指定的发音风格和/或指定的发音对象。
10.根据权利要求8所述的装置,所述目标语音数据包括至少一个语音单元,所述目标音色参数包括针对各个语音单元的音色参数,所述目标音色语音数据确定模块包括:
目标音色语音数据确定子模块,用于将所述音色参数匹配至对应的语音单元,以获得所述目标音色语音数据。
11.根据权利要求8所述的装置,其中,所述形象参数包括面部参数,所述形象参数确定模块包括:
面部姿态特征确定子模块,用于根据所述目标特征,得到面部姿态特征;
姿态拆分特征确定子模块,用于对所述面部姿态特征进行特征拆分,得到拆分后的多个姿态拆分特征;
拆分特征相关性参数确定子模块,用于基于所述多个姿态拆分特征,确定拆分特征相关性参数,其中,所述拆分特征相关性参数用于表征所述多个姿态拆分特征之间的相关性;以及
面部参数确定子模块,用于根据所述拆分特征相关性参数和所述面部姿态特征,确定所述面部参数。
12.根据权利要求11所述的装置,其中,所述面部姿态特征确定子模块包括:
梅尔倒谱系数确定单元,用于获取所述目标特征的梅尔倒谱系数;
音素特征确定单元,用于根据所述梅尔倒谱系数,获得音素特征;以及
面部姿态特征确定单元,用于根据所述音素特征,获得所述面部姿态特征。
13.根据权利要求11所述的装置,其中,所述虚拟形象生成模块包括:
初始面部模型确定子模块,用于获取初始面部模型,其中,所述初始面部模型根据初始面部参数生成;
目标面部模型确定子模块,用于根据所述面部参数对所述初始面部模型的初始面部参数进行更新,生成目标面部模型;以及
虚拟形象生成子模块,用于根据所述目标面部模型,获得所述虚拟形象。
14.根据权利要求8-13中任一项所述的装置,其中,所述目标语音数据确定模块包括:
初始语音数据确定子模块,用于将初始文本数据进行语音转换,得到初始语音数据,其中,所述初始语音数据包括各初始语音单元,所述初始语音数据的所述各初始语音单元具有初始语音单元时长和初始节奏参数;以及
目标语音数据确定子模块,用于基于目标语音单元时长和目标节奏参数,调整各初始语音单元的所述初始语音单元时长和所述初始节奏参数,得到所述目标语音数据。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。
CN202210572336.XA 2022-05-24 2022-05-24 虚拟形象生成方法、装置、设备、存储介质以及程序产品 Pending CN114999441A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210572336.XA CN114999441A (zh) 2022-05-24 2022-05-24 虚拟形象生成方法、装置、设备、存储介质以及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210572336.XA CN114999441A (zh) 2022-05-24 2022-05-24 虚拟形象生成方法、装置、设备、存储介质以及程序产品

Publications (1)

Publication Number Publication Date
CN114999441A true CN114999441A (zh) 2022-09-02

Family

ID=83029737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210572336.XA Pending CN114999441A (zh) 2022-05-24 2022-05-24 虚拟形象生成方法、装置、设备、存储介质以及程序产品

Country Status (1)

Country Link
CN (1) CN114999441A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115345968A (zh) * 2022-10-19 2022-11-15 北京百度网讯科技有限公司 虚拟对象驱动方法、深度学习网络的训练方法及装置
CN117275763A (zh) * 2023-09-21 2023-12-22 北京百度网讯科技有限公司 数据处理方法、装置、设备、介质及产品

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115345968A (zh) * 2022-10-19 2022-11-15 北京百度网讯科技有限公司 虚拟对象驱动方法、深度学习网络的训练方法及装置
CN117275763A (zh) * 2023-09-21 2023-12-22 北京百度网讯科技有限公司 数据处理方法、装置、设备、介质及产品

Similar Documents

Publication Publication Date Title
US10997764B2 (en) Method and apparatus for generating animation
CN107945786B (zh) 语音合成方法和装置
JP6876752B2 (ja) 応答方法及び装置
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
CN110364140B (zh) 歌声合成模型的训练方法、装置、计算机设备以及存储介质
CN109545192A (zh) 用于生成模型的方法和装置
JP2021168139A (ja) マンマシンインタラクションのための方法、装置、機器および媒体
CN112309365B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
CN114999441A (zh) 虚拟形象生成方法、装置、设备、存储介质以及程序产品
CN109754783A (zh) 用于确定音频语句的边界的方法和装置
CN111081280A (zh) 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
CN114663556A (zh) 数据交互方法、装置、设备、存储介质以及程序产品
US20230099732A1 (en) Computing system for domain expressive text to speech
CN112750187A (zh) 一种动画生成方法、装置、设备及计算机可读存储介质
Charalambous et al. Audio‐driven emotional speech animation for interactive virtual characters
CN112712783B (zh) 生成音乐的方法和装置、计算机设备和介质
CN114399995A (zh) 语音模型的训练方法、装置、设备及计算机可读存储介质
CN113963679A (zh) 一种语音风格迁移方法、装置、电子设备及存储介质
CN113744713A (zh) 一种语音合成方法及语音合成模型的训练方法
CN114999440A (zh) 虚拟形象生成方法、装置、设备、存储介质以及程序产品
CN114446268B (zh) 一种音频数据处理方法、装置、电子设备、介质和程序产品
JP2022133447A (ja) 音声処理方法、装置、電子機器及び記憶媒体
CN114783409A (zh) 语音合成模型的训练方法、语音合成方法及装置
US12027165B2 (en) Computer program, server, terminal, and speech signal processing method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination