CN110880315A - 一种基于音素后验概率的个性化语音和视频生成*** - Google Patents
一种基于音素后验概率的个性化语音和视频生成*** Download PDFInfo
- Publication number
- CN110880315A CN110880315A CN201910991186.4A CN201910991186A CN110880315A CN 110880315 A CN110880315 A CN 110880315A CN 201910991186 A CN201910991186 A CN 201910991186A CN 110880315 A CN110880315 A CN 110880315A
- Authority
- CN
- China
- Prior art keywords
- lip
- video
- speaker
- phoneme posterior
- posterior probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 238000005516 engineering process Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000000306 recurrent effect Effects 0.000 claims abstract description 13
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 8
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 230000003287 optical effect Effects 0.000 claims abstract description 7
- 238000006243 chemical reaction Methods 0.000 claims abstract description 6
- 238000013507 mapping Methods 0.000 claims abstract description 6
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 4
- 230000009471 action Effects 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于音素后验概率的个性化语音和视频生成***,主要包括以下步骤:S1、通过自动语音识别***提取音素后验概率;S2、训练递归神经网络学习音素后验概率与唇型特征之间的映射关系,通过这一网络,输入任一目标说话者的音频即可输出其对应的唇形特征;S3、通过人脸对齐、图像融合和光流法等技术将唇形特征合成对应的人脸图像;S4、通过动态规划等技术从生成的人脸序列生成最终的说话人演讲视频。本发明涉及语音合成和语音转换技术领域。本发明提出基于音素后验概率来生成唇形,大大降低了对目标说话者视频数据量的要求,同时可直接从文本内容生成目标说话者的视频,而不需再另外录制该说话者的音频。
Description
技术领域
本发明涉及语音和视频技术领域,具体为一种基于音素后验概率的个性化语音和视频生成***。
背景技术
随着计算能力的提高,大量互联网数据的收集,核心算法的突破,人工智能已经进入新的发展阶段,正在逐步变革人机交互方式。人机交互过程中一个重要部分是模拟真人形象跟用户互动,其中的关键技术是虚拟形象生成技术,结合语音合成和语音转换技术,可实现个性化语音和视频合成。
语音合成是一种将文本转化成语音的技术,语音转换可以用作为合成的语音定制音色。随着深度学习的应用,合成语音和转换语音的自然度和流畅度都有很大的提升。
目前主流的虚拟形象生成技术为根据面部识别来实时改变虚拟形象的表情,这种方式则更适用于二次元形象却难以生成一个类似真人的虚拟形象。近几年,基于真人建模的虚拟形象生成技术学术界和工业界都在进行研发,目前生成效果仍有待进一步提高,有嘴唇怪异、声音生硬、面部动作和声音不合、面部尤其是嘴唇像素较低等问题。另外,技术对目标说话者视频数据量有一定的要求,数据量不足难以保证使用者的生成效果,降低了使用者的使用体验,整体实用性不强,不便于使用者进行操作。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于音素后验概率的个性化语音和视频生成***,大大降低了对目标说话者视频数据量的要求,同时可直接从文本内容生成目标说话者的视频,而不需再另外录制该说话者的音频。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种基于音素后验概率的个性化语音和视频生成***,主要包括以下步骤:
S1、首先,从源说话者的语音中,使用与说话者无关的自动语音识别(SI-ASR)***来提取音素后验概率(PPG);
S2、其次,训练递归神经网络(RNN)学习音素后验概率与唇型特征之间的映射关系;通过这一网络,输入任一目标说话者的音频即可输出其对应的唇形特征;若输入为文本,先通过语音合成和语音转换输出该目标说话者的音频,再通过网络输出唇形特征;
S3、通过人脸对齐、图像融合和光流法等技术将递归神经网络生成的唇形特征合成对应的人脸图像,该人脸的嘴唇形状与音频保持同步;
S4、通过动态规划等技术从生成的人脸序列生成最终的说话人演讲视频。
优选的,所述说话者无关的自动语音识别简称SI-ASR,训练递归神经网络简称RNN,音素后验概率简称PPG。
优选的,所述S2中,在RNN模型中移动了两个步长,为了生成平滑和自然的嘴唇运动,使用了长短期记忆网络(LSTM)作为神经网络的基本单元,LSTM单元的门控机制可以控制必要的信息存储和状态转换,使其可同时保留音频和先前的唇形与头部姿态的长期依赖性,因此,在该RNN模型训练好之后,即可生成与输入音频一致的有着自然的嘴唇和头部运动的说话人视频。
优选的,所述S3中合成人脸图像使用了多种图像处理算法,如通过人脸对齐技术将视频中的脸部进行正面化,通过图像融合技术将合成的唇部纹理与人脸无缝衔接,使用光流法完成下巴矫正,使用动态规划来重新调整视频的时间轴,使其配合音频头部动作更加自然。
优选的,所述S4中,生成后的视频支持重新进行编辑和修改。
(三)有益效果
本发明提供了一种基于音素后验概率的个性化语音和视频生成***。具备以下有益效果:
(1)、该基于音素后验概率的个性化语音和视频生成***,通过具体包括以下步骤:S1、首先,从源说话者的语音中,使用与说话者无关的自动语音识别(SI-ASR)***来提取音素后验概率(PPG);大大降低了对目标说话者视频数据量的要求。
(2)、该基于音素后验概率的个性化语音和视频生成***,通过具体包括以下步骤:S2、其次,训练递归神经网络学习音素后验概率与唇型特征之间的映射关系;通过这一网络,输入任一目标说话者的音频即可输出其对应的唇形特征;若输入为文本,先通过语音合成和语音转换输出该目标说话者的音频,再通过网络输出唇形特征;可直接从文本内容生成目标说话者的视频,而不需再另外录制该说话者的音频。
附图说明
图1为本发明实施的主要步骤图;
图2为本发明RNN模型示意图;
图3为本发明实施的详细流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,本发明实施例提供一种技术方案:一种基于音素后验概率的个性化语音和视频生成***,主要包括以下步骤:
S1、首先,从源说话者的语音中,使用与说话者无关的自动语音识别(SI-ASR)***来提取音素后验概率(PPG),基于后验概率的方法部分地基于以下假设:从与说话人无关的语音识别***获得的后验概率与说话人无关而只与说话内容有关,基于音素后验概率的方法划分三个阶段:第一训练阶段(标记为“训练阶段1”)、第二训练阶段(标记为“训练阶段2”)和视频生成阶段,SI-ASR模型的作用是获得输入语音的PPG表示,第二训练阶段对用于语音参数生成的目标说话者的PPG特征和唇形特征之间的映射关系通过训练递归神经网络(RNN)模型进行建模,视频生成阶段对输入的文本或者语音通过SI-ASR和RNN模型生成对应的唇形特征,进而合成相应的人脸和视频。
S2、其次,通过提取视频中每一帧的嘴唇形状并对其进行平移、旋转、缩放等将其标准化,作为嘴唇形状的特征向量,之后在时间生成相应的唇形特征向量序列{y0,y1,…,yt},并使用递归神经网络(RNN)模型进行训练,RNN模型示意图展示了在时间t时,音频特征x0是如何输入到LSTM单元中的,值得注意的是,由于通常嘴唇运动是先于我们的发声的,例如当我们在说“orange”时,我们的嘴在发“o”的音之前已经打开了,所以在模型中移动了两个步长;通过这一递归神经网络学习音频特征音素后验概率与唇型特征之间的映射关系,从而输入任一目标说话者的音频即可输出其对应的唇形特征;若输入为文本,先通过语音合成和语音转换输出该目标说话者的音频,再通过网络输出唇形特征;
S3、通过人脸对齐、图像融合和光流法等技术将基于训练递归神经网络生成的唇形特征合成对应的人脸图像,该人脸的嘴唇形状与音频保持同步;
S4、通过动态规划等技术从生成的人脸序列生成最终的说话人演讲视频。
本发明中,所述说话者无关的自动语音识别简称SI-ASR,训练递归神经网络简称RNN,音素后验概率简称PPG。
本发明中,所述S2中,在RNN模型中移动了两个步长,为了生成平滑和自然的嘴唇运动,使用了长短期记忆网络(LSTM)作为神经网络的基本单元,LSTM单元的门控机制可以控制必要的信息存储和状态转换,使其可同时保留音频和先前的唇形与头部姿态的长期依赖性,因此,在该RNN模型训练好之后,即可生成与输入音频一致的有着自然的嘴唇和头部运动的说话人视频。
本发明中,所述S3中合成人脸图像使用了多种图像处理算法,如通过人脸对齐技术将视频中的脸部进行正面化,通过图像融合技术将合成的唇部纹理与人脸无缝衔接,使用光流法完成下巴矫正,使用动态规划来重新调整视频的时间轴,使其配合音频头部动作更加自然。
本发明中,所述S4中,生成后的视频支持重新进行编辑和修改。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (5)
1.一种基于音素后验概率的个性化语音和视频生成***,其特征在于:主要包括以下步骤:
S1、首先,从源说话者的语音中,使用与说话者无关的自动语音识别(SI-ASR)***来提取音素后验概率(PPG);
S2、其次,训练递归神经网络(RNN)学习音素后验概率与唇型特征之间的映射关系;通过这一网络,输入任一目标说话者的音频即可输出其对应的唇形特征;若输入为文本,先通过语音合成和语音转换输出该目标说话者的音频,再通过网络输出唇形特征;
S3、通过人脸对齐、图像融合和光流法等技术将基于训练递归神经网络生成的唇形特征合成对应的人脸图像,该人脸的嘴唇形状与音频保持同步;
S4、通过动态规划等技术从生成的人脸序列生成最终的说话人演讲视频。
2.根据权利要求1所述的一种基于音素后验概率的个性化语音和视频生成***,其特征在于:所述说话者无关的自动语音识别简称SI-ASR,训练递归神经网络简称RNN,音素后验概率简称PPG。
3.根据权利要求1所述的一种基于音素后验概率的个性化语音和视频生成***,其特征在于:所述S2中,在RNN模型中移动了两个步长,为了生成平滑和自然的嘴唇运动,使用了长短期记忆网络(LSTM)作为神经网络的基本单元,LSTM单元的门控机制可以控制必要的信息存储和状态转换,使其可同时保留音频和先前的唇形与头部姿态的长期依赖性,因此,在该RNN模型训练好之后,即可生成与输入音频一致的有着自然的嘴唇和头部运动的说话人视频。
4.根据权利要求1所述的一种基于音素后验概率的个性化语音和视频生成***,其特征在于:所述S3中合成人脸图像使用了多种图像处理算法,如通过人脸对齐技术将视频中的脸部进行正面化,通过图像融合技术将合成的唇部纹理与人脸无缝衔接,使用光流法完成下巴矫正,使用动态规划来重新调整视频的时间轴,使其配合音频头部动作更加自然。
5.根据权利要求1所述的一种基于音素后验概率的个性化语音和视频生成***,其特征在于:所述S4中,生成后的视频支持重新进行编辑和修改。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910991186.4A CN110880315A (zh) | 2019-10-17 | 2019-10-17 | 一种基于音素后验概率的个性化语音和视频生成*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910991186.4A CN110880315A (zh) | 2019-10-17 | 2019-10-17 | 一种基于音素后验概率的个性化语音和视频生成*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110880315A true CN110880315A (zh) | 2020-03-13 |
Family
ID=69728108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910991186.4A Pending CN110880315A (zh) | 2019-10-17 | 2019-10-17 | 一种基于音素后验概率的个性化语音和视频生成*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110880315A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111432233A (zh) * | 2020-03-20 | 2020-07-17 | 北京字节跳动网络技术有限公司 | 用于生成视频的方法、装置、设备和介质 |
CN111666831A (zh) * | 2020-05-18 | 2020-09-15 | 武汉理工大学 | 一种基于解耦表示学习的说话人脸视频生成方法 |
CN111933110A (zh) * | 2020-08-12 | 2020-11-13 | 北京字节跳动网络技术有限公司 | 视频生成方法、生成模型训练方法、装置、介质及设备 |
CN112541956A (zh) * | 2020-11-05 | 2021-03-23 | 北京百度网讯科技有限公司 | 动画合成方法、装置、移动终端和电子设备 |
CN112634918A (zh) * | 2020-09-29 | 2021-04-09 | 江苏清微智能科技有限公司 | 一种基于声学后验概率的任意说话人语音转换***及方法 |
CN112735371A (zh) * | 2020-12-28 | 2021-04-30 | 出门问问(苏州)信息科技有限公司 | 一种基于文本信息生成说话人视频的方法及装置 |
CN112766166A (zh) * | 2021-01-20 | 2021-05-07 | 中国科学技术大学 | 一种基于多音素选择的唇型伪造视频检测方法及*** |
CN113035235A (zh) * | 2021-03-19 | 2021-06-25 | 北京有竹居网络技术有限公司 | 发音评价方法和装置,存储介质和电子设备 |
CN113079327A (zh) * | 2021-03-19 | 2021-07-06 | 北京有竹居网络技术有限公司 | 视频生成方法和装置、存储介质和电子设备 |
CN113077819A (zh) * | 2021-03-19 | 2021-07-06 | 北京有竹居网络技术有限公司 | 发音评价方法和装置、存储介质和电子设备 |
CN113314094A (zh) * | 2021-05-28 | 2021-08-27 | 北京达佳互联信息技术有限公司 | 唇形模型的训练方法和装置及语音动画合成方法和装置 |
CN113760100A (zh) * | 2021-09-22 | 2021-12-07 | 入微智能科技(南京)有限公司 | 一种带有虚拟形象生成、显示和控制功能的人机交互设备 |
CN113838174A (zh) * | 2021-11-25 | 2021-12-24 | 之江实验室 | 一种音频驱动人脸动画生成方法、装置、设备与介质 |
CN114338959A (zh) * | 2021-04-15 | 2022-04-12 | 西安汉易汉网络科技股份有限公司 | 端到端即文本到视频的视频合成方法、***介质及应用 |
CN114578969A (zh) * | 2020-12-30 | 2022-06-03 | 北京百度网讯科技有限公司 | 用于人机交互的方法、装置、设备和介质 |
WO2022252890A1 (zh) * | 2021-05-31 | 2022-12-08 | 上海商汤智能科技有限公司 | 交互对象驱动和音素处理方法、装置、设备以及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101165679A (zh) * | 2006-10-20 | 2008-04-23 | 东芝泰格有限公司 | 模式匹配装置以及方法 |
CN103021440A (zh) * | 2012-11-22 | 2013-04-03 | 腾讯科技(深圳)有限公司 | 一种音频流媒体的跟踪方法及*** |
CN103035236A (zh) * | 2012-11-27 | 2013-04-10 | 河海大学常州校区 | 基于信号时序特征建模的高质量语音转换方法 |
CN106599198A (zh) * | 2016-12-14 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
CN106653052A (zh) * | 2016-12-29 | 2017-05-10 | Tcl集团股份有限公司 | 虚拟人脸动画的生成方法及装置 |
US20180012613A1 (en) * | 2016-07-11 | 2018-01-11 | The Chinese University Of Hong Kong | Phonetic posteriorgrams for many-to-one voice conversion |
CN109308731A (zh) * | 2018-08-24 | 2019-02-05 | 浙江大学 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
-
2019
- 2019-10-17 CN CN201910991186.4A patent/CN110880315A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101165679A (zh) * | 2006-10-20 | 2008-04-23 | 东芝泰格有限公司 | 模式匹配装置以及方法 |
CN103021440A (zh) * | 2012-11-22 | 2013-04-03 | 腾讯科技(深圳)有限公司 | 一种音频流媒体的跟踪方法及*** |
CN103035236A (zh) * | 2012-11-27 | 2013-04-10 | 河海大学常州校区 | 基于信号时序特征建模的高质量语音转换方法 |
US20180012613A1 (en) * | 2016-07-11 | 2018-01-11 | The Chinese University Of Hong Kong | Phonetic posteriorgrams for many-to-one voice conversion |
CN107610717A (zh) * | 2016-07-11 | 2018-01-19 | 香港中文大学 | 基于语音后验概率的多对一语音转换方法 |
CN106599198A (zh) * | 2016-12-14 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
CN106653052A (zh) * | 2016-12-29 | 2017-05-10 | Tcl集团股份有限公司 | 虚拟人脸动画的生成方法及装置 |
CN109308731A (zh) * | 2018-08-24 | 2019-02-05 | 浙江大学 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
Non-Patent Citations (6)
Title |
---|
RICK PARENT 著: "《计算机动画算法与技术》", 31 January 2018, 清华大学出版社 * |
SAMER AL MOUBAYED: "EXPIREMENT FOR LIPS SYNCHRONIZATION USING PHONE LATTICE TO FACE PARAMETERS", 《LEUVEN UNIVERSITY》 * |
XINJIAN ZHANG等: "A New Language Independent, Photo-realistic Talking Head Driven by Voice Only", 《INTERSPEECH 2013》 * |
YILONG LIU等: "Video-audio driven real-time facial animatio", 《ACM TRANSACTIONS ON GRAPHICS》 * |
张普等: "《数字化汉语教学的研究与应用》", 30 June 2006, 语文出版社 * |
徐涵 著: "《大数据、人工智能和网络舆情治理》", 31 October 2018, 武汉大学出版社 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111432233A (zh) * | 2020-03-20 | 2020-07-17 | 北京字节跳动网络技术有限公司 | 用于生成视频的方法、装置、设备和介质 |
CN111666831B (zh) * | 2020-05-18 | 2023-06-20 | 武汉理工大学 | 一种基于解耦表示学习的说话人脸视频生成方法 |
CN111666831A (zh) * | 2020-05-18 | 2020-09-15 | 武汉理工大学 | 一种基于解耦表示学习的说话人脸视频生成方法 |
CN111933110A (zh) * | 2020-08-12 | 2020-11-13 | 北京字节跳动网络技术有限公司 | 视频生成方法、生成模型训练方法、装置、介质及设备 |
WO2022033327A1 (zh) * | 2020-08-12 | 2022-02-17 | 北京字节跳动网络技术有限公司 | 视频生成方法、生成模型训练方法、装置、介质及设备 |
CN112634918A (zh) * | 2020-09-29 | 2021-04-09 | 江苏清微智能科技有限公司 | 一种基于声学后验概率的任意说话人语音转换***及方法 |
CN112634918B (zh) * | 2020-09-29 | 2024-04-16 | 江苏清微智能科技有限公司 | 一种基于声学后验概率的任意说话人语音转换***及方法 |
CN112541956A (zh) * | 2020-11-05 | 2021-03-23 | 北京百度网讯科技有限公司 | 动画合成方法、装置、移动终端和电子设备 |
CN112735371B (zh) * | 2020-12-28 | 2023-08-04 | 北京羽扇智信息科技有限公司 | 一种基于文本信息生成说话人视频的方法及装置 |
CN112735371A (zh) * | 2020-12-28 | 2021-04-30 | 出门问问(苏州)信息科技有限公司 | 一种基于文本信息生成说话人视频的方法及装置 |
CN114578969A (zh) * | 2020-12-30 | 2022-06-03 | 北京百度网讯科技有限公司 | 用于人机交互的方法、装置、设备和介质 |
CN114578969B (zh) * | 2020-12-30 | 2023-10-20 | 北京百度网讯科技有限公司 | 用于人机交互的方法、装置、设备和介质 |
CN112766166A (zh) * | 2021-01-20 | 2021-05-07 | 中国科学技术大学 | 一种基于多音素选择的唇型伪造视频检测方法及*** |
CN112766166B (zh) * | 2021-01-20 | 2022-09-06 | 中国科学技术大学 | 一种基于多音素选择的唇型伪造视频检测方法及*** |
WO2022194044A1 (zh) * | 2021-03-19 | 2022-09-22 | 北京有竹居网络技术有限公司 | 发音评价方法和装置、存储介质和电子设备 |
CN113077819A (zh) * | 2021-03-19 | 2021-07-06 | 北京有竹居网络技术有限公司 | 发音评价方法和装置、存储介质和电子设备 |
CN113079327A (zh) * | 2021-03-19 | 2021-07-06 | 北京有竹居网络技术有限公司 | 视频生成方法和装置、存储介质和电子设备 |
CN113035235A (zh) * | 2021-03-19 | 2021-06-25 | 北京有竹居网络技术有限公司 | 发音评价方法和装置,存储介质和电子设备 |
CN114338959A (zh) * | 2021-04-15 | 2022-04-12 | 西安汉易汉网络科技股份有限公司 | 端到端即文本到视频的视频合成方法、***介质及应用 |
CN113314094A (zh) * | 2021-05-28 | 2021-08-27 | 北京达佳互联信息技术有限公司 | 唇形模型的训练方法和装置及语音动画合成方法和装置 |
CN113314094B (zh) * | 2021-05-28 | 2024-05-07 | 北京达佳互联信息技术有限公司 | 唇形模型的训练方法和装置及语音动画合成方法和装置 |
WO2022252890A1 (zh) * | 2021-05-31 | 2022-12-08 | 上海商汤智能科技有限公司 | 交互对象驱动和音素处理方法、装置、设备以及存储介质 |
CN113760100A (zh) * | 2021-09-22 | 2021-12-07 | 入微智能科技(南京)有限公司 | 一种带有虚拟形象生成、显示和控制功能的人机交互设备 |
CN113760100B (zh) * | 2021-09-22 | 2024-02-02 | 入微智能科技(南京)有限公司 | 一种带有虚拟形象生成、显示和控制功能的人机交互设备 |
CN113838174B (zh) * | 2021-11-25 | 2022-06-10 | 之江实验室 | 一种音频驱动人脸动画生成方法、装置、设备与介质 |
CN113838174A (zh) * | 2021-11-25 | 2021-12-24 | 之江实验室 | 一种音频驱动人脸动画生成方法、装置、设备与介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110880315A (zh) | 一种基于音素后验概率的个性化语音和视频生成*** | |
JP3664474B2 (ja) | 視覚的スピーチの言語透過的合成 | |
Cao et al. | Expressive speech-driven facial animation | |
CN110751708B (zh) | 一种实时的语音驱动人脸动画的方法和*** | |
US8224652B2 (en) | Speech and text driven HMM-based body animation synthesis | |
US20220108510A1 (en) | Real-time generation of speech animation | |
GB2516965A (en) | Synthetic audiovisual storyteller | |
CN113077537A (zh) | 一种视频生成方法、存储介质及设备 | |
CN112002301A (zh) | 一种基于文本的自动化视频生成方法 | |
CN113838174A (zh) | 一种音频驱动人脸动画生成方法、装置、设备与介质 | |
CN115761075A (zh) | 脸部图像生成方法及其装置、设备、介质、产品 | |
CN110728971B (zh) | 一种音视频合成方法 | |
CN116051692A (zh) | 一种基于语音驱动的三维数字人脸部动画生成方法 | |
WO2024113701A1 (zh) | 语音生成视频的方法、装置、服务器及介质 | |
WO2024124680A1 (zh) | 一种语音信号驱动的个性化三维人脸动画生成方法及其应用 | |
CN117219050A (zh) | 一种基于深度生成对抗网络的文本生成视频*** | |
CN115311731B (zh) | 一种手语数字人的表情生成方法和装置 | |
CN117115310A (zh) | 一种基于音频和图像的数字人脸生成方法及*** | |
Liu et al. | Real-time speech-driven animation of expressive talking faces | |
Chu et al. | CorrTalk: Correlation Between Hierarchical Speech and Facial Activity Variances for 3D Animation | |
Barve et al. | Synchronized Speech and Video Synthesis | |
d’Alessandro et al. | Reactive statistical mapping: Towards the sketching of performative control with data | |
Kalliris et al. | Phoneme recognition for 3d modeled digital character talking emulation | |
Wei et al. | Speech animation based on Chinese mandarin triphone model | |
Anitha et al. | NextGen Dynamic Video Generator using AI |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200313 |