CN113096223A

CN113096223A - 图像生成方法、存储介质和电子设备

Info

Publication number: CN113096223A
Application number: CN202110448734.6A
Authority: CN
Inventors: 冯富森; 闫嵩
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-07-09

Abstract

本发明实施例公开了一种图像生成方法、存储介质和电子设备。本发明实施例在确定目标音频中各音频片段对应的音素标签后，根据各音素标签确定各音频片段的对应的唇部宽度和唇部高度，并根据各音频片段对应的唇部宽度和唇部高度生成目标形象对应的唇部图像序列。本发明实施例基于音素标签确定发音时应呈现出的唇部宽度和唇部高度，根据目标音频中各音频片段对应的唇部宽度和唇部高度自动生成目标音频对应的唇部图像序列，有效降低了通过可视化方式进行词语发音学习的图像获取成本。

Description

图像生成方法、存储介质和电子设备

技术领域

本发明涉及数据处理技术领域，具体涉及一种图像生成方法、存储介质和电子设备。

背景技术

随着互联网和计算机技术的不断普及，线上教学活动，特别是语言类线上教学活动因此变得越来越频繁。语言的学习对于学习者是至关重要的，而词语发音则是语言学习中的基础，因此词语发音的学习是语言类线上教学活动中必不可少的一个环节。词语发音的线上教学方式通过需要通过可视化方式向学习者展示词语发音过程中的唇形变化，但不同的语言具有不同的发音方式，且词语数量十分庞大，因此通过录制真人的唇形变化的方式显然是不现实的。

发明内容

有鉴于此,本发明实施例的目的在于提供一种图像生成方法、存储介质和电子设备，用于根据目标音频中各音频片段对应的音素标签自动生成音频对应的唇部图像序列，有效降低了通过可视化方式进行词语发音学习的图像获取成本。

根据本发明实施例的第一方面，提供一种图像生成方法，所述方法包括：

获取目标音频；

确定所述目标音频中各音频片段对应的音素标签；

根据各所述音素标签确定各所述音频片段对应的人脸特征参数，所述人脸特征参数包括唇部宽度和唇部高度；

根据各所述唇部宽度和对应的所述唇部高度确定目标形象的唇部图像序列。

优选地，所述方法还包括：

根据各所述唇部宽度和对应的所述唇部高度确定所述目标形象的面部图像序列。

优选地，所述确定所述目标音频中各音频片段对应的音素标签包括：

基于预定的语音识别模型对所述目标音频进行语音识别，确定各所述音频片段对应的所述音素标签。

优选地，所述根据各所述音素标签确定各所述音频片段对应的人脸特征参数包括：

根据各所述音素标签确定各所述音频片段对应的特征向量；

根据各所述特征向量，基于预定的特征识别模型确定各所述音频片段对应的所述唇部宽度以及所述唇部高度。

优选地，所述特征向量为所述音频片段的独热向量；

所述根据各所述音素标签确定各所述音频片段对应的特征向量包括：

基于预先确定的音素表确定各所述音素标签在所述音素表中的排序位置；

对于各所述音频片段，根据对应的所述排序位置确定对应的所述独热向量。

优选地，所述语音识别模型基于第一样本集合训练获得，所述第一样本集合包括多个第一样本，各所述第一样本包括第一音频片段和所述第一音频片段对应的音素标识。

优选地，所述特征识别模型基于第二样本集合训练获得，所述第二样本集合包括多个第二样本，各所述第二样本包括第二音频片段以及各所述第二音频片段对应的唇部宽度和唇部高度。

优选地，所述根据各所述唇部宽度和对应的所述唇部高度确定目标形象的唇部图像序列包括：

获取所述目标形象对应的目标图像；

确定所述目标图像中所述目标形象的原始唇部关键点位置；

根据各所述唇部宽度、对应的所述唇部高度以及所述原始唇部关键点位置，基于预先训练的关键点预测模型，确定所述目标形象的实际唇部关键点位置；

根据各所述实际唇部关键点位置确定所述唇部图像序列。

优选地，所述关键点预测模型基于第三样本集合训练获得，所述第三样本集合包括多个第三样本，各所述第三样本包括预定形象的初始唇部关键点位置、第三音频片段的唇部高度、唇部宽度和所述预定形象目标唇部关键点位置。

根据本发明实施例的第二方面，提供一种计算机可读存储介质，其上存储计算机程序指令，其中，所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。

根据本法实施例的第三方面，提供一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。

本发明实施例在确定目标音频中各音频片段对应的音素标签后，根据各音素标签确定各音频片段的对应的唇部宽度和唇部高度，并根据各音频片段对应的唇部宽度和唇部高度生成目标形象对应的唇部图像序列。本发明实施例基于音素标签确定发音时应呈现出的唇部宽度和唇部高度，根据目标音频中各音频片段对应的唇部宽度和唇部高度自动生成目标音频对应的唇部图像序列，有效降低了通过可视化方式进行词语发音学习的图像获取成本。本发明实施例使用音频片段对应的音素标签生成发音唇部图像的方法，极大的提升了从音频片段生成对应发音唇部图像的泛化能力。本发明实施例采用先基于对应音素标签生成唇部宽度和唇部高度序列，再根据唇部宽度和唇部高度序列生成对应发音唇部图像序列的方式，使得两部分模型可以分别使用相同或不同的数据进行训练，增加了从音素标签生成唇部图像方法的灵活性与实际应用能力。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明第一实施例的图像生成方法的流程图；

图2是本发明第一实施例的一种可选的实现方式中确定人脸特征参数的流程图；

图3是本发明实施例的唇部关键点的示意图；

图4是本发明第一实施例的一种可选的实现方式中确定唇部图像序列的流程图；

图5是本发明第二实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在传统的词语发音的学习过程中，学习者通常需要通过模仿教学者的唇形变化和模仿教学者的发音变化这两种方式完成较为标准的词语发音学习，因此词语发音的线上教学方式作为一种词语发音的学习方式同样需要通过可视化的方式进行词语的发音教学。但不同的语言具有不同的发音方式，且词语数量十分庞大，因此通过录制真人的唇形变化的方式所需要耗费的人力成本和时间成本都是巨大的，因此这种方式显然不现实。

图1是本发明第一实施例的图像生成方法的流程图。如图1所示，本实施例的方法包括如下步骤：

步骤S100，获取目标音频。

在本实施例中，目标音频为预定词语的发音音频。目标音频可以通过录制得到的真人朗读预定词语的音频，也可以为通过各种现有的方式，例如基于文本转语音(Text ToSpeech)技术将预定词语的文本信息转化得到的音频，本实施例不做具体限定。

目标音频对应的预定词语可以为任一语言中的词语，例如中文词语、英文词语、德文词语、日文词语、法文词语等，本实施例不做具体限定，在本实施例中，以预定词语为英文词语为例进行说明。

步骤S200，确定目标音频中各音频片段对应的音素标签。

音素是根据语音的自然属性划分出来的最小语音单位，一句发音动作来分析，每个发音动作都可以构成一个音素。以英语音素为例，英语国际音标共48个音素，其中包括20个元音音素和28个辅音音素，以辅音音素为例，辅音音素包括/p/、/b/、/ts/等。

在一种可选的实现方式中，若目标音频为由预定词语的文本信息转化得到的音频，则目标音频中各音频片段对应的音素标签均为已知，服务器可以借助音素强制对齐(force-alignment)模型等方式，根据预定词语的文本信息直接确定各音频片段对应的音素标签。

在另一种可选的实现方式中，若目标音频为通过录制得到的真人朗读预定词语的音频，服务器可以基于预定的语音识别模型对目标音频进行语音识别，确定各音频片段对应的音素标签。具体地，服务器可以基于预定长度的窗口对目标音频进行滑动截取，得到目标音频对应的多个音频片段，并各个音频片段输入语音识别模型，从而确定各音频片段对应的音素标签。

其中，窗口长度通常大于窗口的滑动长度。例如，目标音频为长度为1秒的音频，在窗口长度为20毫秒且滑动长度为10毫秒时，服务器可以将目标音频截取为0-20毫秒，10-30毫秒，…，990-1000毫秒共99个音频片段。采用滑动截取的方式可以提升音频片段中语音变化的连续性，从而在后续提升语音识别的准确性。

在本实施例中，语音识别模型可以基于第一样本集合训练获得。第一样本集合包括多个第一样本，且各第一样本包括第一音频片段和第一音频片段对应的音素标识。与目标音频中的各音频片段相似，第一音频片段也可以为基于预定长度的窗口对原始音频进行滑动截取得到的音频片段。音素标识为通过人工方式预先标定的第一音频片段的音素标签。在语音识别模型的训练过程中，服务器可以以各第一音频片段为输入，并以对应的音素标识为训练目标，直至语音识别模型的损失函数收敛。

语音识别模型可以为各种现有的模型，例如循环神经网络(Recurrent NeuralNetwork，RNN)、卷积神经网络(Convolutional Neural Networks，CNN)、线性回归等。以RNN为例，RNN是一类以序列数据为输入，在序列的演进方向进行递归，且所有节点(也即，神经元)按照链式连接的递归神经网络，具有记忆性、节点之间参数共享且图灵完备(在可计算性理论里，如果一系列操作数据的规则可以用来模拟单带图灵机，则该规则是图灵完备的)，因此在对序列的非线性特征进行学习时具有一定优势。现有的RNN主要包括双向循环神经网络(Bidirectional RNN，Bi-RNN)和长短期记忆网络(Long Short-Term Memorynetworks，LSTM)。目标音频为序列的一种，因此与RNN具有较高的适配性，能够对音素标签进行较为准确的识别。

步骤S300，根据各音素标签确定各音频片段对应的人脸特征参数。

在本实施例中，人脸特征参数为唇部宽度和唇部高度。现有技术中通常基于音素标签与口型的对应关系直接确定各音频片段对应的典型口型，而人在发声时形成的口型在时间维度上是有变化的，因此在连续多个音素标签对应于相同的口型时，会造成唇部图像与实际发音口型不符的情况，降低了唇部图像的真实性。因此在本实施例中，通过构建神经网络模型，对音素标签和唇部宽度和唇部高度进行建模，进而使用训练后的模型确定各音频片段对应的唇部宽度和唇部高度，可以提高生成唇部图像与音素发音的同步性和真实性。

图2是本发明第一实施例的一种可选的实现方式中确定人脸特征参数的流程图。如图2所示，在一种可选的实现方式中，步骤S300可以包括如下步骤：

步骤S310，根据各音素标签确定各音频片段对应的特征向量。

在本实施例中，音频片段的特征向量为音频片段的独热(one-hot)向量。One-hot向量可以根据预先设置的音素表确定，其中音素表包括多个音素以及各音素的排序位置。One-hot向量中只有一个元素的值为1，其余元素均为0，且值为1的元素在one-hot向量中的位置与该元素对应的音素标签在音素表中的排序位置相同。例如，音素表中包括48个音素，且音素/e/在音素表中的排序位置为第3位，则音素标签为/e/的音频片段所对应的one-hot向量中，第3位元素的值为1，其余元素均为0，也就是说，该one-hot向量为(0,0,1,0,…,0)，其中1后的0的数量为45个。

步骤S320，根据各特征向量，基于预定的特征识别模型确定各音频片段对应的唇部宽度以及唇部高度。

在确定各音频片段对应的特征向量后，服务器可以将各音频片段对应的特征向量输入预先训练的特征识别模型中，得到各音频片段对应的唇部宽度和唇部高度。

某一时刻的唇部高度和唇部宽度不仅受到当前时刻对应音素的影响，还可能受到与当前时刻对应音素相邻的前一音素和后一音素的影响，因此在本实施例中，服务器可以将各音频片段对应的特征向量所构成的矩阵输入特征识别模型中，得到各音频片段对应的唇部高度和唇部宽度构成的序列。可选地，也可以将各音频片段对应的特征向量分别输入特征识别模型中，得到各音频片段对应的唇部高度和唇部宽度。

与语音识别模型相似，本实施例的特征识别模型可以为各种现有的模型，例如RNN、CNN等。特征识别模型基于第二样本集合训练获得，其中第二样本集合包括多个第二样本，且各第二样本包括第二音频片段以及各第二音频片段对应的唇部宽度和唇部高度。在特征识别模型的训练过程中，服务器可以以各第二音频片段为输入，并以对应的唇部高度和唇部宽度同时为训练目标，直至特征识别模型中唇部高度对应的损失函数和唇部宽度的损失函数均收敛。

在本实施例中，第一音频片段与第二音频片段可以为相同的音频片段，也可以为不同的音频片段，本实施例不做具体限定。

各第二样本中的唇部高度和唇部宽度可以通过对真实的人脸图像进行关键点检测的方式确定，由此在生成唇部图像时，可以有效提升唇部图像的真实性。具体地，服务器可以对各第二音频片段对应的图像进行人脸检测并确定图像中的多个唇部关键点以及各唇部关键点的坐标，然后根据多个唇部关键点的坐标确定唇部宽度和唇部高度。在一种可选的实现方式中，服务器可以利用Dlib来进行上述人脸检测和唇部关键点信息获取。Dlib是一个包含机器学习算法的C++开源工具包。在Dlib中，将人脸的五官和轮廓通过68个关键点来进行标识。其中，唇部的轮廓可以用多个关键点来限定。

图3是本发明实施例的唇部关键点的示意图。图3所示的多个唇部关键点为基于Dlib进行关键点检测得到的关键点，关键点49-关键点68为Dlib中的唇部关键点。服务器在确定关键点49-关键点68的坐标后，可以根据关键点62、关键点63、关键点64、关键点66、关键点67和关键点68确定唇部高度，并根据关键点49、关键点55、关键点61和关键点65确定唇部宽度。

服务器可以通过各种现有的距离计算方式确定各第二音频片段对应的唇部高度以及唇部宽度，例如L1距离(也即，曼哈顿距离)、L2距离(也即，欧几里得距离)等。

在距离计算方式为L1距离时，服务器可以分别计算关键点62与关键点68的L1距离、关键点63与关键点67的L1距离以及关键点64与关键点66的L1距离，并计算上述L1距离的平均值作为唇部高度；并且，服务器可以分别计算关键点55与关键点49的L1距离以及关键点65与关键点61的L1距离，并计算上述L1距离的平均值作为唇部宽度。关键点62与关键点68的L1距离可以通过如下公式计算：

L1＝|x₆₂-x₆₈|+|y₆₂-y₆₈|；

其中，x₆₂为关键点62的横坐标，y₆₂为关键点62的纵坐标，x₆₈为关键点68的横坐标，y₆₈为关键点68的纵坐标。

在距离计算方式为L2距离时，服务器可以分别计算关键点62与关键点68的L2距离、关键点63与关键点67的L2距离以及关键点64与关键点66的L2距离，并计算上述L2距离的平均值作为唇部高度；并且，服务器可以分别计算关键点55与关键点49的L2距离以及关键点65与关键点61的L2距离，并计算上述L2距离的平均值作为唇部宽度。关键点62与关键点68的L2距离可以通过如下公式计算：

步骤S400，根据各唇部宽度和对应的唇部高度确定目标形象的唇部图像序列。

在确定各音频片段对应的唇部宽度以及唇部高度后，服务器可以确定各音频片段对应的唇部图像，并根据音频片段的排序确定目标音频对应的唇部图像序列。

图4是本发明第一实施例的一种可选的实现方式中确定唇部图像序列的流程图。如图4所示，在一种可选的实现方式中，步骤S400可以包括如下步骤：

步骤S410，获取目标形象对应的目标图像。

在本实施例中，目标形象可以为真实的人物形象，也可以为虚拟的人物、动物等的形象。服务器可以通过各种现有的方式，例如Dlib对预定图像进行面部识别，并在预定图像中检测到目标形象的面部时将预定图像确定为目标图像对应的目标图像，或者也可以根据预设的形象与图像的对应关系获取目标图像对应的目标图像。

步骤S420，确定目标图像中目标形象的原始唇部关键点位置。

在本步骤中，服务器可以通过各种现有的方式，例如Dlib对目标图像进行关键点检测，确定目标图像中目标形象的原始唇部关键点位置。其中，原始唇部关键点位置可以为目标形象的唇部在闭合状态下的关键点位置。

步骤S430，根据各唇部宽度、对应的唇部高度以及原始唇部关键点位置，基于预先训练的关键点预测模型，确定目标形象的实际唇部关键点位置。

在本步骤中，服务器可以将同一音频片段对应的唇部宽度、唇部高度以及目标图像的原始唇部关键点位置同时输入关键点预测模型，从而得到目标形象的实际唇部关键点位置。实际唇部关键点位置也即目标形象在朗读对应音频片段时应呈现出的唇部关键点位置。

各音频片段对应的实际唇部关键点位置不仅受到该音频片段对应的唇部高度和唇部宽度的影响，还可能受到与该音频片段相邻的前一音频片段和后一音频片段的影响，因此在本实施例中，服务器可以将各音频片段对应的唇部宽度和唇部高度以及目标形象的原始唇部关键点位置所构成的矩阵输入关键点预测模型中，得到各音频片段对应的实际唇部关键点位置所构成的序列。可选地，也可以将各音频片段对应的唇部宽度、唇部高度以及目标形象的原始唇部关键点位置分别输入关键点预测模型中，得到各音频片段对应的实际唇部关键点位置。

与语音识别模型相似，本实施例的关键点预测模型可以为各种现有的模型，例如RNN、CNN等。关键点预测模型基于第三样本集合训练获得，其中第三样本集合包括多个第三样本，且各第三样本包括预定形象的初始唇部关键点位置、第三音频片段的唇部高度、唇部宽度以及预定形象的目标唇部关键点位置。在关键点预测模型的训练过程中，服务器可以以各第三音频片段的唇部宽度、唇部高度以及预定形象的初始唇部关键点位置为输入，并以对应的目标唇部关键点位置为训练目标，直至关键点预测模型的损失函数均收敛。在本实施例中，第一音频片段与第三音频片段可以为相同的音频片段，也可以为不同的音频片段，本实施例不做具体限定。

步骤S440，根据各实际唇部关键点位置确定唇部图像序列。

在确定各音频片段对应的实际唇部关键点位置后，服务器可以按照各音频片段的排序确定目标音频对应的、由实际唇部关键点位置所构成的关键点位置序列，并根据关键点位置序列确定唇部图像序列。由此，可以通过可视化的方式对发音过程中的唇部变化较为真实地进行展示。

在本实施例中，服务器可以通过各种现有的方式，例如通过《Few-shot Video-to-Video Synthesis，Ting-Chun Wang,NVIDIA Corporation》中记载的方式将关键点位置序列转化为唇部图像序列。

通过上述方式，服务器可以准确确定目标音频对应的音素标签序列，并基于音素标签序列确定目标音频对应的唇部宽度和唇部高度序列，进而确定唇部的关键点位置序列，从而生成唇部图像序列，通过滑动截取的方式提升了音频片段之间的连续性，并通过确定唇部宽度和唇部高度提升了唇部图像变化的连续性，从而有效提升了唇部图像序列的真实性。

可选地，本实施例的方法还可以包括如下步骤：

步骤S500，根据各唇部宽度和对应的唇部高度确定目标形象的面部图像序列。

与步骤S440相似，在本步骤中，服务器也可以通过各种现有的方式将由各音频片段对应的实际唇部关键点位置构成的关键点位置序列转化为目标形象的面部图像序列。

本实施例采用先基于对应音素标签生成唇部宽度和唇部高度序列，再根据唇部宽度和唇部高度序列生成对应发音唇部图像序列的方式，使得两部分模型可以分别使用相同或不同的数据进行训练，增加了从音素标签生成唇部图像方法的灵活性与实际应用能力。

本实施例在确定目标音频中各音频片段对应的音素标签后，根据各音素标签确定各音频片段的对应的唇部宽度和唇部高度，并根据各音频片段对应的唇部宽度和唇部高度生成目标形象对应的唇部图像序列。本实施例基于音素标签确定发音时应呈现出的唇部宽度和唇部高度，根据目标音频中各音频片段对应的唇部宽度和唇部高度自动生成目标音频对应的唇部图像序列，有效降低了通过可视化方式进行词语发音学习的图像获取成本。

图5是本发明第二实施例的电子设备的示意图。图5所示的电子设备为通用数据处理装置，具体可以为本发明实施例的第一终端、第二终端或服务器，其包括通用的计算机硬件结构，其至少包括处理器51和存储器52。处理器51和存储器52通过总线53连接。存储器52适于存储处理器51可执行的指令或程序。处理器51可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器51通过执行存储器52所存储的命令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线53将上述多个组件连接在一起，同时将上述组件连接到显示控制器54和显示装置以及输入/输出(I/O)装置55。输入/输出(I/O)装置55可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出(I/O)装置55通过输入/输出(I/O)控制器56与***相连。

其中，存储器52可以存储软件组件，例如操作***、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。

上述根据本发明实施例的方法、设备(***)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应理解，流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

同时，如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为***、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“***”的将软件方面与硬件方面相结合的实施方式。此外，本发明的方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体***、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行***、设备或装置使用的程序或结合指令执行***、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行***、设备或装置使用的或结合指令执行***、设备或装置使用的程序进行通信、传播或传输。

用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像生成方法，其特征在于，所述方法包括：

获取目标音频；

确定所述目标音频中各音频片段对应的音素标签；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述确定所述目标音频中各音频片段对应的音素标签包括：

4.根据权利要求1所述的方法，其特征在于，所述根据各所述音素标签确定各所述音频片段对应的人脸特征参数包括：

根据各所述音素标签确定各所述音频片段对应的特征向量；

5.根据权利要求4所述的方法，其特征在于，所述特征向量为所述音频片段的独热向量；

6.根据权利要求3所述的方法，其特征在于，所述语音识别模型基于第一样本集合训练获得，所述第一样本集合包括多个第一样本，各所述第一样本包括第一音频片段和所述第一音频片段对应的音素标识。

7.根据权利要求4所述的方法，其特征在于，所述特征识别模型基于第二样本集合训练获得，所述第二样本集合包括多个第二样本，各所述第二样本包括第二音频片段以及各所述第二音频片段对应的唇部宽度和唇部高度。

8.根据权利要求1所述的方法，其特征在于，所述根据各所述唇部宽度和对应的所述唇部高度确定目标形象的唇部图像序列包括：

获取所述目标形象对应的目标图像；

确定所述目标图像中所述目标形象的原始唇部关键点位置；

根据各所述实际唇部关键点位置确定所述唇部图像序列。

9.根据权利要求8所述的方法，其特征在于，所述关键点预测模型基于第三样本集合训练获得，所述第三样本集合包括多个第三样本，各所述第三样本包括预定形象的初始唇部关键点位置、第三音频片段的唇部高度、唇部宽度和所述预定形象目标唇部关键点位置。

10.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-9中任一项所述的方法。

11.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-9中任一项所述的方法。