WO2024078293A1

WO2024078293A1 - 图像处理方法、装置、电子设备及存储介质

Info

Publication number: WO2024078293A1
Application number: PCT/CN2023/120412
Authority: WO
Inventors: 王胜男; 彭威
Original assignee: 北京字跳网络技术有限公司
Priority date: 2022-10-14
Filing date: 2023-09-21
Publication date: 2024-04-18
Also published as: CN115619897A

Abstract

本公开实施例提供一种图像处理方法、装置、电子设备、计算机可读存储介质、计算机程序产品及计算机程序，在播放音频数据的过程中，生成目标音频帧对应的目标面部贴图，目标面部贴图用于表征目标嘴部形状，目标嘴部形状与目标音频帧的音频内容对应；在目标图像的第一面部区域显示目标面部贴图，第一面部区域用于展示嘴部形状随音频数据的播放而发生的变化。利用目标面部贴图来模拟展示当前播放的目标音频内容对应的目标嘴部形状，使目标图像的面部区域所展示的嘴部形状，能够随音频内容的变化而发生变化，实现对真人演唱音频数据对应的音频过程的模仿，使音频作品能够呈现出视频作品的展示效果，提高音频作品的展示内容丰富性和多样性。

Description

图像处理方法、装置、电子设备及存储介质

相关申请的交叉引用

本申请要求于2022年10月14日提交中国专利局、申请号为202211262215.1、申请名称为“图像处理方法、装置、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开实施例涉及互联网技术领域，尤其涉及一种图像处理方法、装置、电子设备、计算机可读存储介质、计算机程序产品及计算机程序。

背景技术

当前，以短视频应用(Application)为例的内容创作平台，凭借其丰富和多样化的内容，深受用户的喜爱。例如，内容创造用户通过录制音频，生成音频作品并上传至应用平台后，其他用户即通过对应的应用客户端，收听到该音频作品。

然而，现有技术中，对于音频作品的展示过程，通常是在播放音频作品的同时，仅在客户端的播放界面内展示静态的图片，存在展示方式单一，展示效果差的问题。

发明内容

本公开实施例提供一种图像处理方法、装置、电子设备、计算机可读存储介质、计算机程序产品及计算机程序，以克服在播放音频作品时，展示内容的展示方式单一、展示效果差的问题。

第一方面，本公开实施例提供一种图像处理方法，包括：

在播放音频数据的过程中，生成目标音频帧对应的目标面部贴图，所述目标面部贴图用于表征目标嘴部形状，所述目标嘴部形状与所述目标音频帧的音频内容对应；在目标图像的第一面部区域显示所述目标面部贴图，所述第一面部区域用于展示嘴部形状随所述音频数据的播放而发生的变化。

第二方面，本公开实施例提供一种图像处理装置，包括：

处理模块，用于在播放音频数据的过程中，生成目标音频帧对应的目标面部贴图，所述目标面部贴图用于表征目标嘴部形状，所述目标嘴部形状与所述目标音频帧的音频内容对应；

显示模块，用于在目标图像的第一面部区域显示所述目标面部贴图，所述第一面部区域用于展示嘴部形状随所述音频数据的播放而发生的变化。

第三方面，本公开实施例提供一种电子设备，包括：

处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如上第一方面以及第一方面各种可能的设计所述的图像处理方法。

第四方面，本公开实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计所述的图像处理方法。

第五方面，本公开实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能的设计所述的图像处理方法。

第六方面，本公开实施例提供一种计算机程序，所述计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能的设计所述的图像处理方法。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的图像处理方法的一种应用场景图。

图2为本公开实施例提供的图像处理方法的流程示意图一。

图3为本公开实施例提供的一种音频帧与音频内容的对应关系示意图。

图4为本公开实施例提供的一种目标面部贴图的示意图。

图5为图2所示实施例中步骤S101的一种可能的具体实现步骤流程图。

图6为本公开实施例提供的一种显示目标面部贴图的过程示意图。

图7为本公开实施例提供的一种对目标图像进行交替放大显示的过程示意图。

图8为本公开实施例提供的图像处理方法的流程示意图二。

图9为本公开实施例提供的一种发音阶段与第一口型数据的对应关系示意图。

图10为本公开实施例提供的一种轮廓关键点的示意图。

图11为图8所示实施例中步骤S205的一种可能的具体实现步骤流程图。

图12为本公开实施例提供的图像处理装置的结构框图。

图13为本公开实施例提供的一种电子设备的结构示意图。

图14为本公开实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

下面对本公开实施例的应用场景进行解释：

图1为本公开实施例提供的图像处理方法的一种应用场景图，本公开实施例提供的图像处理方法，可以应用于音频/视频制作和音频/视频播放的场景下。更具体地，例如在短视频平台内播放音频/视频过程中，通过触发平台道具(即功能控件)来实现“对口型演唱”的视觉特效的应用场景。如图1所示，本公开实施例提供的方法，可以应用于终端设备，终端设备内运行有用于播放视频或音频的应用客户端，终端设备通过与服务器通信，获得相应的媒体数据并进行播放，其中，示例性地，媒体数据例如为音频数据，或者包括音频数据的视频数据。终端设备内运行的客户端在播放音频数据的同时，在客户端的播放界面内，展示静态的目标图像，其中，音频数据例如为歌曲对应的数据，终端设备在播放音频数据的同时，在播放界面内展示歌曲的演唱者的照片。

现有技术中，客户端在播放音频作品的过程中，通常是仅在客户端的播放界面内展示静态的封面图片(目标图像)，例如歌手照片等。由于缺乏视频数据，因此，相比如视频作品的展示，存在展示方式单一，展示效果差的问题。本公开实施例提供一种图像处理方法，在播放音频数据的过程中，通过生成动态的面部贴图，来模拟对歌手对音频的演唱/讲说过程，从而实现视频展示的效果，以解决上述问题。

参考图2，图2为本公开实施例提供的图像处理方法的流程示意图一。本实施例的方法可以应用在终端设备中，该图像处理方法包括：

步骤S101：在播放音频数据的过程中，生成目标音频帧对应的目标面部贴图，目标面部贴图用于表征目标嘴部形状，目标嘴部形状与目标音频帧的音频内容对应。

示例性地，本实施例提供的方法的执行主体可以为终端设备，其中，终端设备内运行有用于播放视频、音频的应用客户端，具体地，例如短视频客户端或音乐客户端，终端设备内的客户端通过与服务端通信，而获得待播放的媒体数据，其中，一种可能的实现方式中，媒体数据中包括视频数据和音频数据，终端设备基于视频通道和音频通道对媒体数据进行解析后，得到视频通道对应的数据和音频通道对应的数据，也即视频数据和对应的音频数据。另一种可能的实现方式中，媒体数据为音频数据，终端设备通过访问服务端，直接获取到该音频数据。进一步地，音频数据例如为歌曲音乐、语音等内容对应的数据。

示例性地，终端设备在获得音频数据后，对该音频数据进行播放，其中，音频数据由至少一个音频段构成，每一音频段中包括多个音频帧，在音频数据的播放时长固定的情况下，音频帧的数量(和时长)由音频数据的帧率决定，具体对应关系为现有技术，此处不再赘述。进一步地，音频数据例如对应一段歌曲、一段演讲，则音频数据中的每一音频帧，均对应上述歌曲、演讲中的一个发音片段，多个音频帧构成的音频段，可以实现一个文字、数字、字母、单词或一个节拍的完整发音，上述文字、数字、字母、单词和节拍即音频内容。图3为本公开实施例提供的一种音频帧与音频内容的对应关系示意图，如图3所示，音频数据对应一段语音，音频内容(即语音内容)为“一、二、开始”其中，每一个文字对应一个音频段，示例性地，文字“一”对应音频段D1；文字“二”对应音频段D2；文字“开”对应音频段D3；文字“始”对应音频段D4；进一步地，每一音频段又包括数量不同的音频帧，例如，音频段D1包括n1个音频帧、音频段D2包括n2个音频帧、音频段D3包括n3个音频帧、音频段D4包括n4个音频帧。也即，音频段D1中的各音频帧，对应的音频内容为“一”、音频段D2中的各音频帧，对应的音频内容为“二”、音频段D3中的各音频帧，对应的音频内容为“开”、音频段D4中的各音频帧，对应的音频内容为“始”。

另一种可能的情况下，音频内容还可以为单词，以及构成单词的字母等，此种情况下，每一单词，或者构成单词的字母分别对应一个音频段，每一音频段由多个音频帧构成，具体实现情况与上述实施例类似，具体实现方式可根据需要设置，不再赘述。

进一步地，对于每一音频段，包含至少一个目标音频帧，更具体地，例如各音频段的首帧为目标音频帧，在播放音频数据的过程中，当播放至目标音频帧时，生成与该目标音频帧对应的贴图，即目标面部贴图，该目标面部贴图能够表现真人在发出该目标音频帧对应的音频内容时的嘴部形状。图4为本公开实施例提供的一种目标面部贴图的示意图，如图4所示，音频数据对应一段语音，音频内容(语音内容)为“一、二、开始！”，其中，目标音频帧Frame_1对应的音频内容为文字“一”、目标音频帧Frame_2对应的音频内容为文字“二”、目标音频帧Frame_3对应的音频内容为文字“开”、目标音频帧Frame_4对应的音频内容为文字“始”。针对每一目标音频帧，生成对应的目标面部贴图，即目标音频帧Frame_1对应目标面部贴图P1，该目标面部贴图P1是真人发出文字“一”时的嘴部形状，同样的，目标音频帧Frame_2对应目标面部贴图P2，目标面部贴图P2是真人发出文字“二”时的嘴部形状，目标音频帧Frame_3对应目标面部贴图P3，目标面部贴图P3是真人发出文字“开”时的嘴部形状，目标音频帧Frame_4对应目标面部贴图P4，目标面部贴图P4是真人发出文字“始”时的嘴部形状。其中，在一种可能的实现方式中，不同的目标音频帧对应的目标面部贴图可以相同，例如，目标面部贴图P1和目标面部贴图P2相同。

进一步地，在一种可能的实现方式中，如图5所示，步骤S101的具体实现步骤包括：

步骤S1011：获取目标音频帧对应的第一口型数据，第一口型数据用于表征嘴部形状。

步骤S1012：检测目标图像，获得第二口型数据，第二口型数据表征目标嘴部形状的尺寸参数。

步骤S1013：基于第一口型参数和第二口型参数，生成目标面部贴图。

示例性地，在终端设备或支持服务端运行的云服务器内，预设有第一口型数据或用于生成第一口型数据的网络模型，第一口型数据用于表征嘴部形状，更具体地，第一口型数据可以为图像、标识或其他能够描述嘴部形状的描述信息，例如，第一口型数据可以为表征文字“一”发音的嘴部形状的图像、第一口型数据可以表征字母“A”发音的嘴部形状的标识、第一口型数据可以表征单词“Apple”发音的嘴部形状的描述信息。

在确定目标音频帧后，一种可能的实现方式中，可以基于预设的口型时序映射信息，来确定对应的第一口型数据。其中，示例性地，口型时序映射信息表征音频数据中各音频帧对应的第一口型数据。每一音频数据，对应唯一的口型时序映射信息，该口型时序映射信息可以是基于音频数据的具体音频内容预先生成的，此处不再具体介绍。

进一步地，由于生成目标面部贴图的目的，是为了模拟真实用户发音时的嘴部动作，因此，需要对目标面部贴图的尺寸进行设置，从而使目标嘴部形状的尺寸与目标图像中的人像尺寸相匹配。具体地，通过检测目标图像，确定目标图像中的人像尺寸，进而基于该人像尺寸得到对应的表征目标嘴部形状的尺寸参数的第二口型数据。例如，目标嘴部形状包括长度参数和宽度参数，通过检测目标图像中人像的面部尺寸f1和f2，其中f1表示面部高度、f2表示面部宽度，之后，按照预设的(面部-嘴部)比例系数，基于上述f1和f2，得到与面部尺寸匹配的长度参数为c1和宽度参数为c2。

进一步地，基于尺寸参数(第二口型数据)和表征目标嘴部形状的数据(第一口型数据)进行渲染、处理后，即可得到与目标图像相匹配的目标面部贴图。

步骤S102：在目标图像的第一面部区域显示目标面部贴图，第一面部区域用于展示嘴部形状随音频数据的播放而发生的变化。

示例性地，在得到目标面部贴图后，将目标面部贴图显示在目标图像的第一面部区域，其中，示例性地，目标图像中包括人像部分，第一面部区域可以是人像面部的嘴部区域，或者包括嘴部区域的面部区域。图6为本公开实施例提供的一种显示目标面部贴图的过程示意图，参考图6所示，在播放至目标音频帧时，将对应的目标面部贴图显示在第一面部区域后，覆盖目标图像中原有的原始嘴部形状，而呈现目标面部贴图所表征目标嘴部形状，从而实现模拟真实用户发音时的嘴部动作的目的。

在一种可能的实现方式中，目标音频帧包括第一音频帧和第二音频帧，第一音频帧和第二音频帧交错播放，步骤S102的具体实现步骤包括：

步骤S1021：若目标音频帧为第一音频帧，则基于第一放大系数，对目标图像和位于第一面部区域的目标面部贴图进行显示。

步骤S1022：若目标音频帧为第二音频帧，则基于第二放大系数，对目标图像和位于第一面部区域的目标面部贴图进行显示，其中，第一放大系数与第二放大系数不同。

示例性地，每一目标音频帧对应一个嘴部动作，当依次播放至不同的目标音频帧时，嘴部动作切换显示。在此基础上，本实施例中，将目标音频帧分为第一音频帧和第二音频帧，当播放至第一音频帧和第二音频帧时，分别采用不同的放大系数对目标图像和位于第一面部区域的目标面部贴图进行交替放大显示，使播放界面内所展示的目标图像，可以按节奏呈现出镜头推远与拉进效果，从而提高目标图像的视觉表现力。其中，一种实现方式中，第一音频帧为音频数据的所有目标音频帧中的奇数音频帧，而第二音频帧为音频数据的所有目标音频帧中的偶数音频帧。第一放大系数、第二放大系数，可以是基于目标图像的对角线长度进行放大的比例系数，或者，基于目标图像的面积进行放大的比例系数，第一放大系数、第二放大系数为大于0的实数，当其大于1时，表示尺寸放大；当其小于1时，表示尺寸缩小。

图7为本公开实施例提供的一种对目标图像进行交替放大显示的过程示意图，如图7所示，当目标音频帧为Frame_1时，为第一音频帧，此时，以1倍放大系数(第一放大系数)对目标图像和位于第一面部区域的目标面部贴图，进行1倍显示，也即，以原始大小显示目标图像和目标面部贴图。当目标音频帧为Frame_2时，为第二音频帧，此时，以1.2倍放大系数(第二放大系数)对目标图像和位于第一面部区域的目标面部贴图，进行1.2倍显示，当目标音频帧为Frame_3时，为第一音频帧，与Frame_1的实现方式相同，不再赘述。本实施例中，通过对第一音频帧和第二音频帧以不同的放大系数进行显示，使目标图像以及目标面部贴图，按节奏呈现出镜头推远与拉进效果，提高目标图像的视觉表现力。

在本实施例中，通过在播放音频数据的过程中，生成目标音频帧对应的目标面部贴图，目标面部贴图用于表征目标嘴部形状，目标嘴部形状与目标音频帧的音频内容对应；在目标图像的第一面部区域显示目标面部贴图，第一面部区域用于展示嘴部形状随音频数据的播放而发生的变化。利用目标面部贴图来模拟展示当前播放的目标音频内容对应的目标嘴部形状，使目标图像的面部区域所展示的嘴部形状，能够随音频内容的变化而发生变化，实现对真人演唱音频数据对应的音频过程的模仿，使音频作品能够呈现出视频作品的展示效果，提高音频作品的展示内容丰富性和多样性。

参考图8，图8为本公开实施例提供的图像处理方法的流程示意图二。本实施例在图2所示实施例的基础上，进一步对步骤S101进行细化，并增加了确定目标音频帧的步骤，本实施例提供的图像处理方法，可以应用于音频数据对应的内容为歌曲的场景下，该图像处理方法包括：

步骤S201：获取音频数据的节拍信息，节拍信息表征音频数据播放过程中，至少两个音频段之间的时间间隔，其中，音频段包括多个音频帧，音频段用于实现至少一个音频内容的完整发音。

步骤S202：根据节拍信息，确定目标音频帧。

示例性地，节拍信息是音频数据所对应的歌曲的旋律的节奏特征的信息，更具体地，节拍信息可以用于表征歌曲的旋律的节奏快慢，示例性地，当旋律节奏快时，音频段间隔短，即音频内容之间的时间间隔短；反之，当旋律节奏快时，音频段间隔长，即音频内容之间的时间间隔长；其中，音频内容例如为歌曲中的歌词。一种可能的实现方式中，节拍信息可以是一个具体地标识或数字，表示固定的时间间隔的长度，例如节拍信息为300ms(毫秒)，表征两个音频段之间间隔300ms，则根据该节拍信息，在音频数据中每间隔300ms确定一个目标音频帧，该确定目标音频帧的过程，可以是在播放音频数据之前完成的，也可以是在播放音频数据的同时完成的，可以按需设置。之后，基于该均匀分布的目标音频帧，生成并展示对应的目标面部贴图，从而实现目标图像中第一面部区域展示的嘴部形状，可以按照固定周期(300ms)动态变化。其中，节拍信息可以是与音频数据对应的预设信息，获取方式不再赘述。

一种可能的实现步骤中，步骤S202的具体实现步骤包括：

步骤S2021：根据节拍信息，获取音频数据的节拍数，节拍数表征音频数据对应的旋律在每分钟内的拍子数量。

步骤S2022：基于音频数据中的音频帧的时间戳和音频数据的节拍数，确定目标音频帧。

示例性地，节拍数(Beat Per Minute，简称BPM)是指在一分钟的时间内，所发出的声音节拍的数量，音频数据对应的旋律具有固定的节拍数，例如，节拍数为166，表示音频数据对应的旋律在一分钟内的拍子数量为166，则对应的拍长为60/166＝361ms，在一种可能的实现方式中，在播放音频数据之前，基于音频帧的时间戳，以首个拍子对应的音频帧的时间戳为起点，以该拍长为固定周期进行累加，即可确定音频数据中的所有目标音频帧的时间戳。之后基于目标音频帧的时间戳进行记录，即可获得所有目标音频帧。在另一种可能的实现方式中，在播放音频数据的过程中，获取当前音频帧的时间戳，若当前音频帧的时间戳为首个拍子的音频帧的时间戳加拍长的整数倍，则将当前音频帧确定为目标音频帧，并同步进行后续步骤，生成目标面部贴图。其中，首个拍子可以基于用户需要设置。

在另一种可能的实现方式中，针对节奏变化的音频数据，节拍信息包括节拍序列，节拍序列中包括多个节拍节点，每一节拍节点指示一个目标音频帧的时间戳，也即，节拍序列是各目标音频帧的时间戳集合。其中，节拍序列可以是用户基于音频数据的内容而预设的。基于节拍序列，目标音频帧可以非均匀分布，例如，音频数据的前半部分的旋律节奏慢，包括50个目标音频帧，而音频数据的后半部分的旋律节奏块，包括100个目标音频帧，即当旋律节奏变块时，目标音频帧的出现密度也变高，从而目标图像内嘴部形状的更新速度也加快；而当旋律节奏变慢时，目标音频帧的出现密度也变低，从而目标图像内嘴部形状的更新速度也变慢，使目标音频帧的密度随旋律节奏的变化而变化，进而使目标图像展示的目标面部贴图的变化速度随旋律节奏的变化而变化，更加贴近真人用户的发音过程，提高目标图像的视觉表现力。

本实施例中，通过获取与音频数据对应的节拍信息，并基于节拍信息来确定目标音频帧，使目标音频帧与音频数据的旋律节奏相匹配，进而使后续生成的目标面部贴图的变化与旋律节奏想匹配，提高目标面部贴图的视觉表现效果。

步骤S203：获取目标音频帧对应的目标语义信息，目标语义信息表征目标音频帧的音频内容。

步骤S204：基于预训练的对抗神经网络(Generative Adversative Nets，简称GAN)，处理目标语义信息，得到第一口型数据。

示例性地，在确定目标音频帧后，获取该目标音频帧对应的目标语义信息，目标语音信息可以是预设信息，存储在音频数据内，用于表征音频帧所对应的音频内容的类型，例如，目标语义信息为#001，表征汉字“开”、目标语义信息为#002，表征汉字“始”。

之后，将目标语义信息输入预训练的对抗神经网络，利用预训练的对抗神经网络的生成能力，生成对应的发音口型图片、标识、描述信息等，例如汉字“开”的发音口型图片。其中，对抗神经网络可以以利用语义信息进行标注的发音口型图片作为训练样本进行训练后得到，具体训练过程不再赘述。

一种可能的实现方式中，目标语义信息包括文本信息和对应的发音阶段标识，其中，文本信息表征目标音频帧的音频内容对应的目标文字，发音阶段标识表征目标音频帧对应目标文字的目标发音阶段。进一步地，步骤S204的具体实现步骤包括：将文本信息和对应的发音阶段标识输入对抗神经网络，得到第一口型数据。

示例性地，真人用户的实际发音过程是一个持续过程，其嘴部形状会在该持续过程中连续变化，因此，若需要更加准确的表现该过程，需要多帧面部贴图进行表现。具体地，目标语义信息包括文本信息和对应的发音阶段标识，例如，目标语义信息为数组，其中包括表征文本信息的第一字段和表征发音阶段标识的第二字段，其中，第一字段的内容为“GB2312”，表征汉字“开”；第二字段的内容为“stage_1”，表征汉字“开”的第一发音阶段的嘴部形状。之后，将文本信息和对应的发音阶段标识输入对抗神经网络，即可得到同时与汉字“开”(文本信息)和“第一发音阶段的嘴部形状”(发音阶段标识)匹配的第一口型数据。

其中，目标文字对应多个发音阶段。图9为本公开实施例提供的一种发音阶段与第一口型数据的对应关系示意图，本实施例中，第一口型数据为表征嘴部形状的图片，参考图9所示，对于同一个文本信息(text_001)，例如表示汉字“开”，当目标音频帧对应的发音阶段标识为stage_1时，对应汉字“开”的第一发音阶段，通过对抗神经网络生成的对应的第一口型数据为P1；当目标音频帧对应的发音阶段标识为stage_2时，对应汉字“开”的第二发音阶段，通过对抗神经网络生成的对应的第一口型数据为P2；类似的，当目标音频帧对应的发音阶段标识为stage_3、stage_4时，通过对抗神经网络生成的对应的第一口型数据为P3、P4。

本实施例中，通过获取目标音频帧对应的文本信息和对应的发音阶段标识，基于文本信息和对应的发音阶段标识生成对应的第一口型信息，进一步地细化了发音过程中嘴部形状在不同发音阶段的差别，提高了目标图像的第一面部区域展示嘴部形状变化的精细度，提高视觉表现力。

步骤S205：检测目标图像，获得第二口型数据，第二口型数据表征目标嘴部形状的尺寸参数。

示例性地，步骤S205的具体实现步骤包括：

步骤S2051：基于目标图像，进行嘴部特征识别，获得轮廓关键点，轮廓关键点用于表征目标图像内的嘴部轮廓的长度和宽度。

步骤S2052：基于轮廓关键点的坐标，获得第二口型数据。

图10为本公开实施例提供的一种轮廓关键点的示意图，下面结合图10对上述步骤进行说明，示例性地，在获得目标图像后，对其中的人像部分进行嘴部特征识别，即可得到其中的轮廓关键点，其中，如图所示，示例性地，轮廓关键点可以包括嘴部轮廓最左侧的端点D1、嘴部轮廓最右侧的端点D2，以及嘴部轮廓最上侧的端点D3、嘴部轮廓最下侧的端点D4。之后，基于上述轮廓关键点的坐标，得到第二口型数据，其中，示例性地，第二口型数据表征嘴部形状长度数值和宽度数值，或者，嘴部形状的宽长比。

图11为步骤S205的一种可能的实现方式，如图11所示，可选地，在步骤S2051之后，还包括：

步骤S2051A：获取目标图像中人像的头部转向角度。

相应的，在执行步骤S2051A后，步骤S2052的具体实现方式为：基于轮廓关键点的坐标和头部转向角度，获得第二口型数据。

示例性地，头部转向角度即目标图像中人物的面部所在平面相对屏幕平面的夹角，头部转向角度也可以通过对目标图像进行视图检测而获得，具体实现方式为现有技术，不再赘述。在获得头部转向角度后，基于轮廓关键点的坐标和头部转向角度，计算第二口型数据，具体实现方式如式(1)所示：

其中，mouthDis为第二口型数据，表征嘴部形状的宽长比，D3.y为轮廓关键点D3的纵坐标，D4.y为轮廓关键点D4的纵坐标，D1.x为轮廓关键点D1的横坐标，D2.x为轮廓关键点D2的横坐标，yaw为头部转向角度。

步骤S206：基于第一口型参数和第二口型参数，生成目标面部贴图。

步骤S207：若目标音频帧为第一音频帧，则基于第一放大系数，对目标图像和位于第一面部区域的目标面部贴图进行显示；若目标音频帧为第二音频帧，则基于第二放大系数，对目标图像和位于第一面部区域的目标面部贴图进行显示，其中，第一放大系数与第二放大系数不同。

示例性地，获得第一口型参数和第二口型参数后，将第一口型参数和第二口型参数作为输入量，进行处理或渲染，即可生成对应的目标面部贴图。之后，确定基于对目标图像进行图像检测的结果，确定目标图像中的第一面部区域(例如嘴部区域)的位置，将目标面部贴图中的目标嘴部形状与目标图像中的嘴部区域对齐，并进行渲染，使目标面部贴图能够覆盖显示在该目标图像中，实现真人发音的嘴部形状模仿。

进一步地，基于目标音频帧的类型，对于第一音频帧和第二音频帧，使用不同的放大系数再进行二次放大，使目标图像以及目标面部贴图，按节奏呈现出镜头推远与拉进效果，提高目标图像的视觉表现力，具体实现过程可参见图7对应实施例中相关说明，此处不再赘述。

需要说明的是，本实施例中，目标音频帧(包括第一音频帧和第二音频帧)是基于节拍信息确定的，因此，使目标音频帧的密度可以随旋律节奏的变化而变化，该方案在实现使目标面部贴图(嘴部形状)随旋律节奏变化的同时，还可以在基于第一音频帧和第二音频帧进行交替放大显示，以呈现镜头推远与拉进效果的过程中，使现镜头推远与拉进效果(即镜头推远与拉进的频率)也随旋律节奏变化，提高目标图像的视觉表现力。

对应于上文实施例的图像处理方法，图12为本公开实施例提供的图像处理装置的结构框图。为了便于说明，仅示出了与本公开实施例相关的部分。参照图8，所述图像处理装置3包括：

处理模块31，用于在播放音频数据的过程中，生成目标音频帧对应的目标面部贴图，所述目标面部贴图用于表征目标嘴部形状，所述目标嘴部形状与所述目标音频帧的音频内容对应。

显示模块32，用于在目标图像的第一面部区域显示所述目标面部贴图，所述第一面部区域用于展示嘴部形状随所述音频数据的播放而发生的变化。

在本公开的一个实施例中，所述目标音频帧包括第一音频帧和第二音频帧，所述第一音频帧和所述第二音频帧交错播放；所述显示模块32，具体用于：若所述目标音频帧为所述第一音频帧，则基于第一放大系数，对所述目标图像和位于所述第一面部区域的目标面部贴图进行显示；若所述目标音频帧为所述第二音频帧，则基于第二放大系数，对所述目标图像和位于所述第一面部区域的目标面部贴图进行显示；其中，所述第一放大系数与所述第二放大系数不同。

在本公开的一个实施例中，所述处理模块31在生成目标音频帧对应的目标面部贴图时，具体用于：获取所述目标音频帧对应的第一口型数据，所述第一口型数据用于表征嘴部形状；检测所述目标图像，获得第二口型数据，所述第二口型数据表征所述目标嘴部形状的尺寸参数；基于所述第一口型参数和所述第二口型参数，生成所述目标面部贴图。

在本公开的一个实施例中，所述处理模块31在获取所述目标音频帧对应的第一口型数据时，具体用于：获取所述目标音频帧对应的目标语义信息，所述目标语义信息表征所述目标音频帧的音频内容；基于预训练的对抗神经网络，处理所述目标语义信息，得到所述第一口型数据。

在本公开的一个实施例中，所述目标语义信息包括文本信息和对应的发音阶段标识，其中，所述文本信息表征所述目标音频帧的音频内容对应的目标文字，所述发音阶段标识表征所述目标音频帧对应所述目标文字的目标发音阶段；处理模块31在基于预训练的对抗神经网络，处理所述目标语义信息，得到所述第一口型数据时，具体用于：将所述文本信息和对应的发音阶段标识输入所述对抗神经网络，得到所述第一口型数据。

在本公开的一个实施例中，所述处理模块31在检测所述目标图像，获得第二口型数据时，具体用于：基于所述目标图像，进行嘴部特征识别，获得轮廓关键点，所述轮廓关键点用于表征所述目标图像内的嘴部轮廓的长度和宽度；基于所述轮廓关键点的坐标，获得所述第二口型数据。

在本公开的一个实施例中，所述处理模块31，还用于：获取所述目标图像中人像的头部转向角度；所述处理模块31在基于所述轮廓关键点的坐标，获得所述第二口型数据时，具体用于：基于所述轮廓关键点的坐标和所述头部转向角度，获得所述第二口型数据。

在本公开的一个实施例中，在所述生成目标音频帧对应的目标面部贴图之前，所述处理模块31，还用于：获取所述音频数据的节拍信息，所述节拍信息表征所述音频数据播放过程中，至少两个音频段之间的时间间隔，其中，所述音频段包括多个音频帧，所述音频段用于实现至少一个音频内容的完整发音；根据所述节拍信息，确定所述目标音频帧。

在本公开的一个实施例中，所述处理模块31在根据所述节拍信息，确定所述目标音频帧时，具体用于：根据所述节拍信息，获取所述音频数据的节拍数，所述节拍数表征所述音频数据对应的旋律在每分钟内的拍子数量；基于所述音频数据中的音频帧的时间戳和所述音频数据的节拍数，确定所述目标音频帧。

其中，处理模块31和显示模块32连接。本实施例提供的图像处理装置3可以执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图13为本公开实施例提供的一种电子设备的结构示意图，如图13所示，该电子设备4包括：

处理器41，以及与所述处理器41通信连接的存储器42；

所述存储器42存储计算机执行指令；

所述处理器41执行所述存储器42存储的计算机执行指令，以实现如图2-图11所示实施例中的图像处理方法。

其中，可选地，处理器41和存储器42通过总线43连接。

相关说明可以对应参见图2-图11所对应的实施例中的步骤所对应的相关描述和效果进行理解，此处不做过多赘述。

参考图14，其示出了适于用来实现本公开实施例的电子设备900的结构示意图，该电子设备900可以为终端设备或服务器。其中，终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant，简称PDA)、平板电脑(Portable Android Device，简称PAD)、便携式多媒体播放器(Portable Media Player，简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图14示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图14所示，电子设备900可以包括处理装置(例如中央处理器、图形处理器等)901，其可以根据存储在只读存储器(Read Only Memory，简称ROM)902中的程序或者从存储装置908加载到随机访问存储器(Random Access Memory，简称RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有电子设备900操作所需的各种程序和数据。处理装置901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(Input/Output，简称I/O)接口905也连接至总线904。

通常，以下装置可以连接至I/O接口905：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置906；包括例如液晶显示器(Liquid Crystal Display，简称LCD)、扬声器、振动器等的输出装置907；包括例如磁带、硬盘等的存储装置908；以及通信装置909。通信装置909可以允许电子设备900与其他设备进行无线或有线通信以交换数据。虽然图14示出了具有各种装置的电子设备900，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置909从网络上被下载和安装，或者从存储装置908被安装，或者从ROM 902被安装。在该计算机程序被处理装置901执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，简称EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disk Read Only Memory，简称CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、射频(Radio Frequency，简称RF)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(Local Area Network，简称LAN)或广域网(Wide Area Network，简称WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、专用标准产品(Application Specific Standard Parts，简称ASSP)、片上***(System on Chip，简称SOC)、复杂可编程逻辑设备(Complex Programmable Logic Device，简称CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM或快闪存储器、光纤、CD-ROM、光学储存设备、磁储存设备、或上述内容的任何合适组合。

第一方面，根据本公开的一个或多个实施例，提供了一种图像处理方法，包括：

根据本公开的一个或多个实施例，所述目标音频帧包括第一音频帧和第二音频帧，所述第一音频帧和所述第二音频帧交错播放；所述在目标图像的第一面部区域显示所述目标面部贴图，包括：若所述目标音频帧为所述第一音频帧，则基于第一放大系数，对所述目标图像和位于所述第一面部区域的目标面部贴图进行显示；若所述目标音频帧为所述第二音频帧，则基于第二放大系数，对所述目标图像和位于所述第一面部区域的目标面部贴图进行显示；其中，所述第一放大系数与所述第二放大系数不同。

根据本公开的一个或多个实施例，所述生成目标音频帧对应的目标面部贴图，包括：获取所述目标音频帧对应的第一口型数据，所述第一口型数据用于表征嘴部形状；检测所述目标图像，获得第二口型数据，所述第二口型数据表征所述目标嘴部形状的尺寸参数；基于所述第一口型参数和所述第二口型参数，生成所述目标面部贴图。

根据本公开的一个或多个实施例，所述获取所述目标音频帧对应的第一口型数据，包括：获取所述目标音频帧对应的目标语义信息，所述目标语义信息表征所述目标音频帧的音频内容；基于预训练的对抗神经网络，处理所述目标语义信息，得到所述第一口型数据。

根据本公开的一个或多个实施例，所述目标语义信息包括文本信息和对应的发音阶段标识，其中，所述文本信息表征所述目标音频帧的音频内容对应的目标文字，所述发音阶段标识表征所述目标音频帧对应所述目标文字的目标发音阶段；所述基于预训练的对抗神经网络，处理所述目标语义信息，得到所述第一口型数据，包括：将所述文本信息和对应的发音阶段标识输入所述对抗神经网络，得到所述第一口型数据。

根据本公开的一个或多个实施例，所述检测所述目标图像，获得第二口型数据，包括：基于所述目标图像，进行嘴部特征识别，获得轮廓关键点，所述轮廓关键点用于表征所述目标图像内的嘴部轮廓的长度和宽度；基于所述轮廓关键点的坐标，获得所述第二口型数据。

根据本公开的一个或多个实施例，所述方法还包括：获取所述目标图像中人像的头部转向角度；所述基于所述轮廓关键点的坐标，获得所述第二口型数据，包括：基于所述轮廓关键点的坐标和所述头部转向角度，获得所述第二口型数据。

根据本公开的一个或多个实施例，在所述生成目标音频帧对应的目标面部贴图之前，所述方法还包括：获取所述音频数据的节拍信息，所述节拍信息表征所述音频数据播放过程中，至少两个音频段之间的时间间隔，其中，所述音频段包括多个音频帧，所述音频段用于实现至少一个音频内容的完整发音；根据所述节拍信息，确定所述目标音频帧。

根据本公开的一个或多个实施例，所述根据所述节拍信息，确定所述目标音频帧，包括：根据所述节拍信息，获取所述音频数据的节拍数，所述节拍数表征所述音频数据对应的旋律在每分钟内的拍子数量；基于所述音频数据中的音频帧的时间戳和所述音频数据的节拍数，确定所述目标音频帧。

第二方面，根据本公开的一个或多个实施例，提供了一种图像处理装置，包括：

处理模块，用于在播放音频数据的过程中，生成目标音频帧对应的目标面部贴图，所述目标面部贴图用于表征目标嘴部形状，所述目标嘴部形状与所述目标音频帧的音频内容对应。

根据本公开的一个或多个实施例，所述目标音频帧包括第一音频帧和第二音频帧，所述第一音频帧和所述第二音频帧交错播放；所述显示模块，具体用于：若所述目标音频帧为所述第一音频帧，则基于第一放大系数，对所述目标图像和位于所述第一面部区域的目标面部贴图进行显示；若所述目标音频帧为所述第二音频帧，则基于第二放大系数，对所述目标图像和位于所述第一面部区域的目标面部贴图进行显示；其中，所述第一放大系数与所述第二放大系数不同。

根据本公开的一个或多个实施例，所述处理模块在生成目标音频帧对应的目标面部贴图时，具体用于：获取所述目标音频帧对应的第一口型数据，所述第一口型数据用于表征嘴部形状；检测所述目标图像，获得第二口型数据，所述第二口型数据表征所述目标嘴部形状的尺寸参数；基于所述第一口型参数和所述第二口型参数，生成所述目标面部贴图。

根据本公开的一个或多个实施例，所述处理模块在获取所述目标音频帧对应的第一口型数据时，具体用于：获取所述目标音频帧对应的目标语义信息，所述目标语义信息表征所述目标音频帧的音频内容；基于预训练的对抗神经网络，处理所述目标语义信息，得到所述第一口型数据。

根据本公开的一个或多个实施例，所述目标语义信息包括文本信息和对应的发音阶段标识，其中，所述文本信息表征所述目标音频帧的音频内容对应的目标文字，所述发音阶段标识表征所述目标音频帧对应所述目标文字的目标发音阶段；处理模块在基于预训练的对抗神经网络，处理所述目标语义信息，得到所述第一口型数据时，具体用于：将所述文本信息和对应的发音阶段标识输入所述对抗神经网络，得到所述第一口型数据。

根据本公开的一个或多个实施例，所述处理模块在检测所述目标图像，获得第二口型数据时，具体用于：基于所述目标图像，进行嘴部特征识别，获得轮廓关键点，所述轮廓关键点用于表征所述目标图像内的嘴部轮廓的长度和宽度；基于所述轮廓关键点的坐标，获得所述第二口型数据。

根据本公开的一个或多个实施例，所述处理模块，还用于：获取所述目标图像中人像的头部转向角度；所述处理模块在基于所述轮廓关键点的坐标，获得所述第二口型数据时，具体用于：基于所述轮廓关键点的坐标和所述头部转向角度，获得所述第二口型数据。

根据本公开的一个或多个实施例，在所述生成目标音频帧对应的目标面部贴图之前，所述处理模块，还用于：获取所述音频数据的节拍信息，所述节拍信息表征所述音频数据播放过程中，至少两个音频段之间的时间间隔，其中，所述音频段包括多个音频帧，所述音频段用于实现至少一个音频内容的完整发音；根据所述节拍信息，确定所述目标音频帧。

根据本公开的一个或多个实施例，所述处理模块在根据所述节拍信息，确定所述目标音频帧时，具体用于：根据所述节拍信息，获取所述音频数据的节拍数，所述节拍数表征所述音频数据对应的旋律在每分钟内的拍子数量；基于所述音频数据中的音频帧的时间戳和所述音频数据的节拍数，确定所述目标音频帧。

第三方面，根据本公开的一个或多个实施例，提供了一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

第四方面，根据本公开的一个或多个实施例，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计所述的图像处理方法。

本实施例提供的图像处理方法、装置、电子设备、计算机可读存储介质、计算机程序产品及计算机程序，在播放音频数据的过程中，生成目标音频帧对应的目标面部贴图，所述目标面部贴图用于表征目标嘴部形状，所述目标嘴部形状与所述目标音频帧的音频内容对应；在目标图像的第一面部区域显示所述目标面部贴图，所述第一面部区域用于展示嘴部形状随所述音频数据的播放而发生的变化。利用目标面部贴图来模拟展示当前播放的目标音频内容对应的目标嘴部形状，使目标图像的面部区域所展示的嘴部形状，能够随音频内容的变化而发生变化，实现对真人演唱音频数据对应的音频过程的模仿，使音频作品能够呈现出视频作品的展示效果，提高音频作品的展示内容丰富性和多样性。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

一种图像处理方法，包括：

在播放音频数据的过程中，生成目标音频帧对应的目标面部贴图，所述目标面部贴图用于表征目标嘴部形状，所述目标嘴部形状与所述目标音频帧的音频内容对应；

在目标图像的第一面部区域显示所述目标面部贴图，所述第一面部区域用于展示嘴部形状随所述音频数据的播放而发生的变化。
根据权利要求1所述的方法，其中，所述目标音频帧包括第一音频帧和第二音频帧，所述第一音频帧和所述第二音频帧交错播放；

所述在目标图像的第一面部区域显示所述目标面部贴图，包括：

若所述目标音频帧为所述第一音频帧，则基于第一放大系数，对所述目标图像和位于所述第一面部区域的目标面部贴图进行显示；

若所述目标音频帧为所述第二音频帧，则基于第二放大系数，对所述目标图像和位于所述第一面部区域的目标面部贴图进行显示；

其中，所述第一放大系数与所述第二放大系数不同。
根据权利要求1或2所述的方法，其中，所述生成目标音频帧对应的目标面部贴图，包括：

获取所述目标音频帧对应的第一口型数据，所述第一口型数据用于表征嘴部形状；

检测所述目标图像，获得第二口型数据，所述第二口型数据表征所述目标嘴部形状的尺寸参数；

基于所述第一口型参数和所述第二口型参数，生成所述目标面部贴图。
根据权利要求3所述的方法，其中，所述获取所述目标音频帧对应的第一口型数据，包括：

获取所述目标音频帧对应的目标语义信息，所述目标语义信息表征所述目标音频帧的音频内容；

基于预训练的对抗神经网络，处理所述目标语义信息，得到所述第一口型数据。
根据权利要求4所述的方法，其中，所述目标语义信息包括文本信息和对应的发音阶段标识，其中，所述文本信息表征所述目标音频帧的音频内容对应的目标文字，所述发音阶段标识表征所述目标音频帧对应所述目标文字的目标发音阶段；

所述基于预训练的对抗神经网络，处理所述目标语义信息，得到所述第一口型数据，包括：

将所述文本信息和对应的发音阶段标识输入所述对抗神经网络，得到所述第一口型数据。
根据权利要求3至5中任一项所述的方法，其中，所述检测所述目标图像，获得第二口型数据，包括：

基于所述目标图像，进行嘴部特征识别，获得轮廓关键点，所述轮廓关键点用于表征所述目标图像内的嘴部轮廓的长度和宽度；

基于所述轮廓关键点的坐标，获得所述第二口型数据。
根据权利要求6所述的方法，其中，所述方法还包括：

获取所述目标图像中人像的头部转向角度；

所述基于所述轮廓关键点的坐标，获得所述第二口型数据，包括：

基于所述轮廓关键点的坐标和所述头部转向角度，获得所述第二口型数据。
根据权利要求1至7中任一项所述的方法，其中，在所述生成目标音频帧对应的目标面部贴图之前，所述方法还包括：

获取所述音频数据的节拍信息，所述节拍信息表征所述音频数据播放过程中，至少两个音频段之间的时间间隔，其中，所述音频段包括多个音频帧，所述音频段用于实现至少一个音频内容的完整发音；

根据所述节拍信息，确定所述目标音频帧。
根据权利要求8所述的方法，其中，所述根据所述节拍信息，确定所述目标音频帧，包括：

根据所述节拍信息，获取所述音频数据的节拍数，所述节拍数表征所述音频数据对应的旋律在每分钟内的拍子数量；

基于所述音频数据中的音频帧的时间戳和所述音频数据的节拍数，确定所述目标音频帧。
一种图像处理装置，包括：

处理模块，用于在播放音频数据的过程中，生成目标音频帧对应的目标面部贴图，所述目标面部贴图用于表征目标嘴部形状，所述目标嘴部形状与所述目标音频帧的音频内容对应；

显示模块，用于在目标图像的第一面部区域显示所述目标面部贴图，所述第一面部区域用于展示嘴部形状随所述音频数据的播放而发生的变化。
一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1至9中任一项所述的图像处理方法。
一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至9中任一项所述的图像处理方法。
一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的图像处理方法。
一种计算机程序，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的图像处理方法。