CN110880315A

CN110880315A - 一种基于音素后验概率的个性化语音和视频生成***

Info

Publication number: CN110880315A
Application number: CN201910991186.4A
Authority: CN
Inventors: 孙立发; 周艺超; 钟静华; 李坤; 胡景强; 刘鹏飞
Original assignee: Shenzhen City Of Hope Technology Co Ltd
Current assignee: Shenzhen City Of Hope Technology Co Ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-03-13

Abstract

本发明公开了一种基于音素后验概率的个性化语音和视频生成***，主要包括以下步骤：S1、通过自动语音识别***提取音素后验概率；S2、训练递归神经网络学习音素后验概率与唇型特征之间的映射关系,通过这一网络，输入任一目标说话者的音频即可输出其对应的唇形特征；S3、通过人脸对齐、图像融合和光流法等技术将唇形特征合成对应的人脸图像；S4、通过动态规划等技术从生成的人脸序列生成最终的说话人演讲视频。本发明涉及语音合成和语音转换技术领域。本发明提出基于音素后验概率来生成唇形，大大降低了对目标说话者视频数据量的要求，同时可直接从文本内容生成目标说话者的视频，而不需再另外录制该说话者的音频。

Description

一种基于音素后验概率的个性化语音和视频生成***

技术领域

本发明涉及语音和视频技术领域，具体为一种基于音素后验概率的个性化语音和视频生成***。

背景技术

随着计算能力的提高，大量互联网数据的收集，核心算法的突破，人工智能已经进入新的发展阶段，正在逐步变革人机交互方式。人机交互过程中一个重要部分是模拟真人形象跟用户互动，其中的关键技术是虚拟形象生成技术，结合语音合成和语音转换技术，可实现个性化语音和视频合成。

语音合成是一种将文本转化成语音的技术，语音转换可以用作为合成的语音定制音色。随着深度学习的应用，合成语音和转换语音的自然度和流畅度都有很大的提升。

目前主流的虚拟形象生成技术为根据面部识别来实时改变虚拟形象的表情，这种方式则更适用于二次元形象却难以生成一个类似真人的虚拟形象。近几年，基于真人建模的虚拟形象生成技术学术界和工业界都在进行研发，目前生成效果仍有待进一步提高，有嘴唇怪异、声音生硬、面部动作和声音不合、面部尤其是嘴唇像素较低等问题。另外，技术对目标说话者视频数据量有一定的要求，数据量不足难以保证使用者的生成效果，降低了使用者的使用体验，整体实用性不强，不便于使用者进行操作。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于音素后验概率的个性化语音和视频生成***，大大降低了对目标说话者视频数据量的要求，同时可直接从文本内容生成目标说话者的视频，而不需再另外录制该说话者的音频。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种基于音素后验概率的个性化语音和视频生成***，主要包括以下步骤：

S1、首先，从源说话者的语音中，使用与说话者无关的自动语音识别(SI-ASR)***来提取音素后验概率(PPG)；

S2、其次，训练递归神经网络(RNN)学习音素后验概率与唇型特征之间的映射关系；通过这一网络，输入任一目标说话者的音频即可输出其对应的唇形特征；若输入为文本，先通过语音合成和语音转换输出该目标说话者的音频，再通过网络输出唇形特征；

S3、通过人脸对齐、图像融合和光流法等技术将递归神经网络生成的唇形特征合成对应的人脸图像，该人脸的嘴唇形状与音频保持同步；

S4、通过动态规划等技术从生成的人脸序列生成最终的说话人演讲视频。

优选的，所述说话者无关的自动语音识别简称SI-ASR，训练递归神经网络简称RNN，音素后验概率简称PPG。

优选的，所述S2中，在RNN模型中移动了两个步长，为了生成平滑和自然的嘴唇运动，使用了长短期记忆网络(LSTM)作为神经网络的基本单元，LSTM单元的门控机制可以控制必要的信息存储和状态转换，使其可同时保留音频和先前的唇形与头部姿态的长期依赖性，因此，在该RNN模型训练好之后，即可生成与输入音频一致的有着自然的嘴唇和头部运动的说话人视频。

优选的，所述S3中合成人脸图像使用了多种图像处理算法，如通过人脸对齐技术将视频中的脸部进行正面化，通过图像融合技术将合成的唇部纹理与人脸无缝衔接，使用光流法完成下巴矫正，使用动态规划来重新调整视频的时间轴，使其配合音频头部动作更加自然。

优选的，所述S4中，生成后的视频支持重新进行编辑和修改。

(三)有益效果

本发明提供了一种基于音素后验概率的个性化语音和视频生成***。具备以下有益效果：

(1)、该基于音素后验概率的个性化语音和视频生成***，通过具体包括以下步骤：S1、首先，从源说话者的语音中，使用与说话者无关的自动语音识别(SI-ASR)***来提取音素后验概率(PPG)；大大降低了对目标说话者视频数据量的要求。

(2)、该基于音素后验概率的个性化语音和视频生成***，通过具体包括以下步骤：S2、其次，训练递归神经网络学习音素后验概率与唇型特征之间的映射关系；通过这一网络，输入任一目标说话者的音频即可输出其对应的唇形特征；若输入为文本，先通过语音合成和语音转换输出该目标说话者的音频，再通过网络输出唇形特征；可直接从文本内容生成目标说话者的视频，而不需再另外录制该说话者的音频。

附图说明

图1为本发明实施的主要步骤图；

图2为本发明RNN模型示意图；

图3为本发明实施的详细流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-3，本发明实施例提供一种技术方案：一种基于音素后验概率的个性化语音和视频生成***，主要包括以下步骤：

S1、首先，从源说话者的语音中，使用与说话者无关的自动语音识别(SI-ASR)***来提取音素后验概率(PPG),基于后验概率的方法部分地基于以下假设：从与说话人无关的语音识别***获得的后验概率与说话人无关而只与说话内容有关，基于音素后验概率的方法划分三个阶段：第一训练阶段(标记为“训练阶段1”)、第二训练阶段(标记为“训练阶段2”)和视频生成阶段，SI-ASR模型的作用是获得输入语音的PPG表示，第二训练阶段对用于语音参数生成的目标说话者的PPG特征和唇形特征之间的映射关系通过训练递归神经网络(RNN)模型进行建模，视频生成阶段对输入的文本或者语音通过SI-ASR和RNN模型生成对应的唇形特征，进而合成相应的人脸和视频。

S2、其次，通过提取视频中每一帧的嘴唇形状并对其进行平移、旋转、缩放等将其标准化，作为嘴唇形状的特征向量，之后在时间生成相应的唇形特征向量序列{y₀,y₁,…,y_t}，并使用递归神经网络(RNN)模型进行训练，RNN模型示意图展示了在时间t时，音频特征x₀是如何输入到LSTM单元中的，值得注意的是，由于通常嘴唇运动是先于我们的发声的，例如当我们在说“orange”时，我们的嘴在发“o”的音之前已经打开了，所以在模型中移动了两个步长；通过这一递归神经网络学习音频特征音素后验概率与唇型特征之间的映射关系,从而输入任一目标说话者的音频即可输出其对应的唇形特征；若输入为文本，先通过语音合成和语音转换输出该目标说话者的音频，再通过网络输出唇形特征；

S3、通过人脸对齐、图像融合和光流法等技术将基于训练递归神经网络生成的唇形特征合成对应的人脸图像，该人脸的嘴唇形状与音频保持同步；

本发明中，所述说话者无关的自动语音识别简称SI-ASR，训练递归神经网络简称RNN，音素后验概率简称PPG。

本发明中，所述S2中，在RNN模型中移动了两个步长，为了生成平滑和自然的嘴唇运动，使用了长短期记忆网络(LSTM)作为神经网络的基本单元，LSTM单元的门控机制可以控制必要的信息存储和状态转换，使其可同时保留音频和先前的唇形与头部姿态的长期依赖性，因此，在该RNN模型训练好之后，即可生成与输入音频一致的有着自然的嘴唇和头部运动的说话人视频。

本发明中，所述S3中合成人脸图像使用了多种图像处理算法，如通过人脸对齐技术将视频中的脸部进行正面化，通过图像融合技术将合成的唇部纹理与人脸无缝衔接，使用光流法完成下巴矫正，使用动态规划来重新调整视频的时间轴，使其配合音频头部动作更加自然。

本发明中，所述S4中，生成后的视频支持重新进行编辑和修改。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于音素后验概率的个性化语音和视频生成***，其特征在于：主要包括以下步骤：

2.根据权利要求1所述的一种基于音素后验概率的个性化语音和视频生成***，其特征在于：所述说话者无关的自动语音识别简称SI-ASR，训练递归神经网络简称RNN，音素后验概率简称PPG。

3.根据权利要求1所述的一种基于音素后验概率的个性化语音和视频生成***，其特征在于：所述S2中，在RNN模型中移动了两个步长，为了生成平滑和自然的嘴唇运动，使用了长短期记忆网络(LSTM)作为神经网络的基本单元，LSTM单元的门控机制可以控制必要的信息存储和状态转换，使其可同时保留音频和先前的唇形与头部姿态的长期依赖性，因此，在该RNN模型训练好之后，即可生成与输入音频一致的有着自然的嘴唇和头部运动的说话人视频。

4.根据权利要求1所述的一种基于音素后验概率的个性化语音和视频生成***，其特征在于：所述S3中合成人脸图像使用了多种图像处理算法，如通过人脸对齐技术将视频中的脸部进行正面化，通过图像融合技术将合成的唇部纹理与人脸无缝衔接，使用光流法完成下巴矫正，使用动态规划来重新调整视频的时间轴，使其配合音频头部动作更加自然。

5.根据权利要求1所述的一种基于音素后验概率的个性化语音和视频生成***，其特征在于：所述S4中，生成后的视频支持重新进行编辑和修改。