CN115567667A

CN115567667A - 一种多媒体数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN115567667A
Application number: CN202211080872.4A
Authority: CN
Inventors: 耿炳钰; 李秀勇
Original assignee: Hisense Mobile Communications Technology Co Ltd
Current assignee: Hisense Mobile Communications Technology Co Ltd
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2023-01-03

Abstract

本申请提供一种多媒体数据处理方法、装置、电子设备及存储介质，涉及计算机技术领域。在获取到视频图像数据后，对视频图像数据进行三维空间重建，获得视频图像数据对应的三维空间信息，并基于从视频图像数据中识别出的目标人脸在三维空间中的位置，以及视频图像数据对应的三维空间信息和场景信息对音频数据中目标人脸对应的第一音频数据进行声场重建得到重建后的第一音频数据，进而将重建后的第一音频数据加载到视频图像数据中得到目标视频数据。由于结合三维空间信息、场景信息以及目标人脸在三维空间中的位置对音频数据进行声场重建，从而可以生成具有空间效果的音频数据，使得重建后的音频数据的声音效果与视频图像数据的画面场景一致。

Description

一种多媒体数据处理方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种多媒体数据处理方法、装置、电子设备及存储介质。

背景技术

目前的录音技术是基于麦克风的声音录制，在录像或者拍摄视频时，麦克风始终是作为固定的声音采集源进行采集的。在对非实时录制的场景，如已经录制好的录像或者拍摄得到的视频进行后期配音时，一般都是通过固定位置的麦克风录制音频数据。

由于在不同的录制场景下，录制音频数据的麦克风位置固定，且当前录制音频数据的录制场景，与之前拍摄视频的拍摄场景不一致，也无法还原当时的拍摄场景，因而，录制得到的音频数据的声音效果始终是固定的，声音效果较差，且与视频的画面场景不一致。

发明内容

为解决现有存在的技术问题，本申请实施例提供了一种多媒体数据处理方法、装置、电子设备及存储介质，可以提高音频数据的声音效果，使得音频数据的声音效果与视频的画面场景一致。

为达到上述目的，本申请实施例的技术方案是这样实现的：

第一方面，本申请提供一种多媒体数据处理方法，包括：

获取视频图像数据和音频数据；

对所述视频图像数据进行三维空间重建，获得所述视频图像数据对应的三维空间信息；

识别出所述视频图像数据中的目标人脸，并根据所述三维空间信息，确定所述目标人脸在所述三维空间中的位置；

根据所述目标人脸在所述三维空间中的位置以及所述三维空间信息对所述音频数据中所述目标人脸对应的第一音频数据进行声场重建得到重建后的第一音频数据；

将所述重建后的第一音频数据加载到所述视频图像数据中得到目标视频数据。

本申请实施例提供的多媒体数据处理方法，在获取到视频图像数据和音频数据后，可以对视频图像数据进行三维空间重建，获得视频图像数据对应的三维空间信息，并识别出视频图像数据中的目标人脸，进而根据三维空间信息，确定出目标人脸在三维空间中的位置，再根据目标人脸在三维空间中的位置以及三维空间信息对音频数据中目标人脸对应的第一音频数据进行声场重建得到重建后的第一音频数据，最后将重建后的第一音频数据加载到视频图像数据中得到目标视频数据。由于可以结合视频图像数据的三维空间信息，以及视频图像数据中的人脸在三维空间中的位置，对音频数据进行声场重建，从而可以生成具有空间效果的音频数据，提高音频数据的声音效果，使得声场重建后的音频数据的声音效果与视频图像数据的画面场景一致。

在一种可选的实施例中，所述识别出所述视频图像数据中的目标人脸，并根据所述三维空间信息，确定所述目标人脸在所述三维空间中的位置，包括：

对所述视频图像数据进行人脸检测，确定所述视频图像数据中的待选取人脸；

若确定所述待选取人脸的数量为一个，则将待选取人脸作为目标人脸，并根据所述三维空间信息确定所述目标人脸在所述三维空间中的位置；或者，

若确定所述待选取人脸的数量为至少两个，则根据所述三维空间信息分别确定至少两个所述待选取人脸中每个待选取人脸在所述三维空间的位置，并响应于用户从至少两个待选取人脸中选取目标人脸的操作，获得所述目标人脸在所述三维空间中的位置。

在该实施例中，可以对视频图像数据进行人脸检测，确定出视频图像数据中的待选取人脸，若确定出视频图像数据中的待选取人脸只有一个，则可以将待选取人脸作为目标人脸，并根据三维空间信息确定目标人脸在三维空间中的位置，若确定出视频图像数据中的待选取人脸有至少两个，则可以根据三维空间信息分别确定至少两个待选取人脸中每个待选取人脸在三维空间的位置，并响应于用户从至少两个待选取人脸中选取目标人脸的操作，获得目标人脸在三维空间中的位置。从而可以将确定出的目标人脸作为音频数据对应的发声位置处，来对音频数据进行声场重建，实现虚拟声场的效果，提高音频数据的声音效果。

在一种可选的实施例中，所述响应于用户从至少两个待选取人脸中选取目标人脸的操作，获得所述目标人脸在所述三维空间中的位置，包括：

响应于用户在所述视频图像数据对应的图像中执行选择操作的目标位置点，确定所述目标位置点在所述三维空间中的位置；

根据所述目标位置点在所述三维空间中的位置，和每个待选取人脸在所述三维空间的位置，确定所述目标位置点在所述三维空间中的位置位于所述至少两个所述待选取人脸中所述目标人脸在所述三维空间的位置处，并获得所述目标人脸在所述三维空间中的位置。

在该实施例中，响应于用户在视频图像数据对应的图像中执行选择操作的目标位置点，可以确定目标位置点在三维空间中的位置，根据目标位置点在三维空间中的位置，和每个待选取人脸在三维空间的位置，确定出目标位置点在三维空间中的位置位于至少两个待选取人脸中目标人脸在三维空间的位置处，并获得目标人脸在三维空间中的位置。由于可以基于用户选择的对象，将该对象作为音频数据的发声位置处，来对音频数据进行声场重建，从而可以模拟生成空间效果，使听众可以感受到从所选取的发声位置处发出声音的空间效果，提高了音频数据的声音效果。

在一种可选的实施例中，将所述重建后的第一音频数据加载到所述视频图像数据中得到目标视频数据之前，所述方法还包括：

对所述视频图像数据进行场景识别，确定所述视频图像数据对应的场景信息；

根据所述目标人脸在所述三维空间中的位置以及所述三维空间信息对所述音频数据中所述目标人脸对应的第一音频数据进行声场重建得到重建后的第一音频数据，包括：

获取所述音频数据中所述目标人脸对应的第一音频数据的左声道数据和右声道数据；

根据所述目标人脸在所述三维空间中的位置、所述场景信息以及所述三维空间信息对所述左声道数据和所述右声道数据分别进行声场重建，得到重建后的左声道数据和重建后的右声道数据；

将所述重建后的左声道数据和所述重建后的右声道数据合成得到重建后的第一音频数据。

在该实施例中，可以对视频图像数据进行场景识别，确定出视频图像数据对应的场景信息，并获取音频数据中目标人脸对应的第一音频数据的左声道数据和右声道数据，根据目标人脸在三维空间中的位置、场景信息以及三维空间信息对左声道数据和右声道数据分别进行声场重建，得到重建后的左声道数据和重建后的右声道数据，进而可以将重建后的左声道数据和重建后的右声道数据合成得到重建后的第一音频数据。由于可以结合视频图像数据的三维空间信息、视频图像数据的场景信息，以及视频图像数据中的人脸在三维空间中的位置，对音频数据进行声场重建，从而可以生成具有空间效果的音频数据，使得声场重建后的音频数据的声音效果能够与视频图像数据的画面场景一致。

在一种可选的实施例中，所述根据所述目标人脸在所述三维空间中的位置、所述场景信息以及所述三维空间信息对所述左声道数据和所述右声道数据分别进行声场重建，得到重建后的左声道数据和重建后的右声道数据，包括：

根据所述目标人脸在所述三维空间中的位置，分别对所述左声道数据的音量和所述右声道数据的音量进行调整，获得初始左声道数据和初始右声道数据；

根据所述目标人脸在所述三维空间中的位置以及所述三维空间信息，分别确定所述初始左声道数据的回音频次和所述初始右声道数据的回音频次；所述初始左声道数据的回音频次为所述初始左声道数据在所述三维空间中产生的回音次数，所述初始右声道数据的回音频次为所述初始右声道数据在所述三维空间中产生的回音次数；

根据所述场景信息，分别确定所述初始左声道数据的回音叠加强度和频响强度，以及所述初始右声道数据的回音叠加强度和频响强度；所述初始左声道数据的回音叠加强度为所述初始左声道数据在所述三维空间中多次产生的回音的回音强度和；所述初始右声道数据的回音叠加强度为所述初始右声道数据在所述三维空间中多次产生的回音的回音强度和；所述初始左声道数据的频响强度包括初始左声道数据的高频强度和低频强度；所述初始右声道数据的频响强度包括初始右声道数据的高频强度和低频强度；

根据所述初始左声道数据的所述回音频次、所述回音叠加强度和所述频响强度，对所述初始左声道数据进行重建，获得重建后的左声道数据，并根据所述初始右声道数据的所述回音频次、所述回音叠加强度和所述频响强度，对所述初始右声道数据进行重建，获得重建后的右声道数据。

在该实施例中，由于可以基于目标人脸在三维空间中的位置，对左右声道的音量进行调整，并基于目标人脸在三维空间中的位置、视频图像数据对应的场景信息和三维空间信息，获得的回音频次、回音叠加强度和频响强度，对调整音量后的左右声道分别进行处理，获得重建后的左右声道，从而可以生成具有空间效果的左右声道数据，实现虚拟声场的效果。

在一种可选的实施例中，所述根据所述目标人脸在所述三维空间中的位置，分别对所述左声道数据的音量和所述右声道数据的音量进行调整，获得初始左声道数据和初始右声道数据，包括：

若所述目标人脸位于所述三维空间中的前方，则分别增加所述左声道数据的音量和所述右声道数据的音量，获得初始左声道数据和初始右声道数据；

若所述目标人脸位于所述三维空间中的后方，则分别减少所述左声道数据的音量和所述右声道数据的音量，获得初始左声道数据和初始右声道数据；

若所述目标人脸位于所述三维空间中的左边，则增加所述左声道数据的音量，获得初始左声道数据，并减少所述右声道数据的音量，获得初始右声道数据；

若所述目标人脸位于所述三维空间中的右边，则减少所述左声道数据的音量，获得初始左声道数据，并增加所述右声道数据的音量，获得初始右声道数据。

在该实施例中，由于可以基于目标人脸在三维空间中的位置，对左右声道的音量进行相应调整，从而可以模拟生成空间效果，使得听众可以感受到声音从视频图像数据中的人脸位置处发出。

第二方面，本申请提供一种多媒体数据处理装置，包括：

多媒体数据获取单元，用于获取视频图像数据和音频数据；

三维空间重建单元，用于对所述视频图像数据进行三维空间重建，获得所述视频图像数据对应的三维空间信息；

人脸位置确定单元，用于识别出所述视频图像数据中的目标人脸，并根据所述三维空间信息，确定所述目标人脸在所述三维空间中的位置；

声场重建单元，用于根据所述目标人脸在所述三维空间中的位置以及所述三维空间信息对所述音频数据中所述目标人脸对应的第一音频数据进行声场重建得到重建后的第一音频数据；

目标视频获得单元，用于将所述重建后的第一音频数据加载到所述视频图像数据中得到目标视频数据。

在一种可选的实施例中，所述人脸位置确定单元，具体用于：

在一种可选的实施例中，所述人脸位置确定单元，还用于：

在一种可选的实施例中，所述装置还包括场景识别单元，用于：

所述声场重建单元，具体用于：

在一种可选的实施例中，所述声场重建单元，还用于：

第三方面，本申请提供一种电子设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行第一方面中任一项所述的方法包括的步骤。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时，使所述计算机执行第一方面中任一项所述的方法。

第二方面至第四方面中任意一种实现方式所带来的技术效果可参见第一方面中对应的实现方式所带来的技术效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种电子设备的结构示意图；

图2为本申请实施例提供的一种终端设备的结构示意图；

图3为本申请实施例提供的一种多媒体数据处理方法的流程示意图；

图4为本申请实施例提供的一种三维空间重建过程的流程示意图；

图5为本申请实施例提供的一种不同拍摄角度的相机镜头拍摄同一物体的示意图；

图6为本申请实施例提供的一种视频图像的深度信息的示意图；

图7为本申请实施例提供的一种确定目标人脸在三维空间中的位置的流程示意图；

图8为本申请实施例提供的一种视频图像的示意图；

图9为本申请实施例提供的一种视频图像中包含待选取人脸的示意图；

图10为本申请实施例提供的一种待选取人脸在三维空间中的位置的示意图；

图11为本申请实施例提供的一种视频图像中选取的目标位置点的示意图；

图12为本申请实施例提供的一种目标位置点在三维空间中的位置的示意图；

图13为本申请实施例提供的一种场景识别过程的流程示意图；

图14为本申请实施例提供的一种声场重建过程的流程示意图；

图15为本申请实施例提供的一种左右声道的音量调整过程的流程示意图；

图16为本申请实施例提供的另一种多媒体数据处理方法的流程示意图；

图17为本申请实施例提供的一种多媒体数据处理装置的结构示意图；

图18为本申请实施例提供的另一种多媒体数据处理装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

需要说明的是，本申请的文件中涉及的术语“包括”和“具有”以及它们的变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面将结合附图，对本申请实施例提供的技术方案进行详细说明。

下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

图1中示例性示出了本申请实施例提供的多媒体数据处理方法所适用于的一种电子设备的结构示意图。如图1所示，该电子设备包括处理器103、存储器102和数据获取单元101。

其中，数据获取单元101，用于获取视频图像数据和音频数据。

存储器102，用于存储处理器103执行的计算机程序。存储器102可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

存储器102可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器102也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器102是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器102可以是上述存储器的组合。

处理器103，可以包括一个或多个中央处理单元(central processing unit，CPU)，或者数字处理单元等等。处理器103，用于调用存储器102中存储的程序代码以实现本申请实施例提供的多媒体数据处理方法。

本申请实施例中不限定上述数据获取单元101、存储器102和处理器103之间的具体连接介质。本申请实施例在图1中，数据获取单元101、存储器102和处理器103之间通过总线104连接，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线104可以分为地址总线、数据总线、控制总线等。为便于表示，图1中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在一种实施例中，该电子设备可以是服务器。

在另一种实施例中，该电子设备也可以是终端设备，终端设备可以是智能设备，如手机、平板电脑、笔记本电脑等。如图2所示，该终端设备包括：射频(Radio Frequency，RF)电路210、存储器220、输入单元230、显示单元240、传感器250、音频电路260、无线保真(wireless fidelity，WiFi)模块270、处理器280等部件。本领域技术人员可以理解，图2中示出的终端设备结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图2对终端设备的各个构成部件进行具体的介绍：

RF电路210可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器280处理；另外，将设计上行的数据发送给基站。

存储器220可用于存储软件程序以及模块，如本申请实施例中的多媒体数据处理方法对应的程序指令，处理器280通过运行存储在存储器220的软件程序，从而执行终端设备的各种功能应用以及数据处理，如本申请实施例提供的多媒体数据处理方法。存储器220可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个应用的应用程序等；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器220可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元230可用于接收用户输入的数字或字符信息，以及产生与终端的用户设置以及功能控制有关的键信号输入。

可选的，输入单元230可包括触控面板231以及其它输入设备232。

其中，触控面板231，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板231上或在触控面板231附近的操作)，并根据预先设定的程式实现相应的操作，如用户点击功能模块的快捷标识的操作等。可选的，触控面板231可以包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器280，并能接收处理器280发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板231。

可选的，其它输入设备232可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元240可用于显示由用户输入的信息或展示给用户的界面信息以及终端设备的各种菜单。显示单元240即为终端设备的显示***，用于呈现界面，如显示桌面、应用的操作界面或直播应用的操作界面等。

显示单元240可以包括显示面板241。可选的，显示面板241可以采用液晶显示屏(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置。

进一步的，触控面板231可覆盖显示面板241，当触控面板231检测到在其上或附近的触摸操作后，传送给处理器280以确定触摸事件的类型，随后处理器280根据触摸事件的类型在显示面板241上提供相应的界面输出。

虽然在图2中，触控面板231与显示面板241是作为两个独立的部件来实现终端设备的输入和输入功能，但是在某些实施例中，可以将触控面板231与显示面板241集成而实现终端的输入和输出功能。

终端设备还可包括至少一种传感器250，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板241的亮度，接近传感器可在终端设备移动到耳边时，关闭显示面板241的背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路260、扬声器261，传声器262可提供用户与终端设备之间的音频接口。音频电路260可将接收到的音频数据转换后的电信号，传输到扬声器261，由扬声器261转换为声音信号输出；另一方面，传声器262将收集的声音信号转换为电信号，由音频电路260接收后转换为音频数据，再将音频数据输出处理器280处理后，经RF电路210以发送给比如另一终端设备，或者将音频数据输出至存储器220以便进一步处理。

WiFi属于短距离无线传输技术，终端设备通过WiFi模块270可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图2示出了WiFi模块270，但是可以理解的是，其并不属于终端设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器280是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器220内的软件程序和/或模块，以及调用存储在存储器220内的数据，执行终端设备的各种功能和处理数据，从而对终端设备进行整体监控。可选的，处理器280可包括一个或多个处理单元；可选的，处理器280可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、应用及应用内部的功能模块等软件程序，如本申请实施例提供的多媒体数据处理方法等。调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器280中。

可以理解，图2所示的结构仅为示意，终端设备还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。

在一些实施例中，本申请实施例提供的一种多媒体数据处理方法可以如图3所示，包括如下步骤：

步骤S301，获取视频图像数据和音频数据。

其中，视频图像数据可以是基于已经录制好的录像或拍摄得到的视频获取到的，音频数据为用户在后期配音或其他场景下录制得到的音频数据。

可选的，在获得已经录制好的录像或拍摄的视频后，可以将录像或视频中的音频数据与视频图像数据分离，只获取其中的视频图像数据。

在一种实施例中，在获得视频数据后，可以对该视频数据进行解封装，获得解封装后的视频数据，再对解封装后的视频数据进行解码，转换成可以处理的视频图像数据。

步骤S302，对视频图像数据进行三维空间重建，获得视频图像数据对应的三维空间信息。

在获取到视频图像数据后，可以通过相机模型算法，对视频图像数据进行三维空间场景，生成视频图像数据上各点的三维数据，获得视频图像数据对应的三维空间信息。

步骤S303，识别出视频图像数据中的目标人脸，并根据三维空间信息，确定目标人脸在三维空间中的位置。

对视频图像数据进行人脸检测，确定出视频图像数据中包括的待选取人脸，当识别出的待选取人脸的数量只有一个时，可以将待选取人脸作为目标人脸，并根据视频图像数据对应的三维空间信息，确定出目标人脸在三维空间中的位置。当识别出的待选取人脸的数量不止一个，即待选取人脸的数量为至少两个时，可以根据用户从待选取人脸中选择出的目标人脸，确定出目标人脸在三维空间中的位置。

步骤S304，根据目标人脸在三维空间中的位置以及三维空间信息对音频数据中目标人脸对应的第一音频数据进行声场重建得到重建后的第一音频数据。

在对音频数据中目标人脸对应的第一音频数据进行声场重建之前，还可以对视频图像数据进行场景识别，确定出视频图像数据对应的场景信息。

在识别出视频图像数据对应的场景信息后，可以根据目标人脸在三维空间中的位置以及视频图像数据对应的三维空间信息和场景信息，确定出音频数据中目标人脸对应的第一音频数据的音量增益、回音频次、回音叠加强度和频响强度，并基于获得的音量增益、回音频次、回音叠加强度和频响强度，对第一音频数据进行重建，得到重建后的第一音频数据。

根据目标人脸在三维空间中的位置以及视频图像数据对应的三维空间信息和场景信息，对第一音频数据进行声场重建的具体过程可以参见下图14所示，在此不再赘述。

步骤S305，将重建后的第一音频数据加载到视频图像数据中得到目标视频数据。

可选的，上述步骤S302中对视频图像数据进行三维空间重建的具体过程可以如图4所示，包括以下步骤：

步骤S401，获取视频图像数据中的多个视频图像帧。

可以每隔设定时间间隔就从视频图像数据中获取一个视频图像帧，也可以在每个设定时间间隔中获取几个视频图像帧。

例如，视频图像数据的时间为5s，可以每隔500ms就从视频图像数据中获取一个视频图像帧，也可以在每个1s内获取2个视频图像帧。

步骤S402，通过相机模型对多个视频图像帧中的各个像素点进行建模，获得各个像素点在三维空间中的位置信息。

其中，通过相机模型对多个视频图像帧中的各个像素点进行建模，是通过相机模型将多个视频图像帧中的近似视频图像帧，即包含有相同物体的视频图像帧的各个像素点从图像对应的二维空间，转换到三维空间。

例如，如图5所示，对于处于某个位置的同一物体，当相机镜头在位于相机镜头1位置处对该物体进行拍摄时，会获得图5中左边阴影部分的投影；而当相机镜头在位于相机镜头2位置处对该物体进行拍摄时，会获得图5中右边阴影部分的投影。

也就是说，多个近似视频图像帧中包含的同一物体，是采用相机镜头从不同拍摄角度拍摄得到的，则在对视频图像数据进行三维空间重建时，通过对多个近似的视频图像帧的识别点进行建模，就可以获得物体在三维空间中的深度信息，即距离信息。

相机模型的公式为：x＝kPX，其中，x，X分别表示视频图像帧和三维空间中的二维三维齐次坐标，k为相机内参矩阵，P＝[R|t]为空间坐标系到相机坐标系的位姿，由旋转矩阵R和平移向量t来描述。

步骤S403，通过各个像素点在三维空间中的位置信息，获得视频图像数据对应的三维空间信息。

通过各个像素点在三维空间中的位置信息，可以获得距离差以及同一物体在多个视频图像帧之间的差异，并基于距离差以及同一物体在多个视频图像帧之间的差异，可以对多个视频图像帧进行三维空间重建，得到多个视频图像帧对应的三维距离信息。

其中，距离差可以是同一个视频图像帧中的各个像素点与相机镜头的距离。如图6所示为一个图像的深度信息，根据图6可以获得该图像中的每个物体与相机镜头的距离信息。

在获得多个视频图像帧对应的三维距离信息后，可以基于像素对视频图像帧进行分块处理，建立距离矩阵M_scene＝(X,Y,Z,D)，获得视频图像数据对应的三维空间信息。

其中，基于像素对视频图像帧进行分块处理是指将一个视频图像帧中的多个像素作为一个坐标点来进行处理。例如，在对一个1920×1080的图像建立距离矩阵时，可以每隔50个像素点获得一个坐标，即每50个像素点作为一个目标点获取一个坐标。

在一种实施例中，上述步骤S303中根据三维空间信息，确定目标人脸在三维空间中的位置的具体过程可以如图7所示，包括以下步骤：

步骤S701，对视频图像数据进行人脸检测，确定出视频图像数据中的待选取人脸。

例如，如图8所示为视频图像数据中的一帧视频图像，对该帧视频图像进行人脸检测，可以确定出该帧视频图像中所包含的待选取人脸，且该帧视频图像中的待选取人脸可以如图9所示。由图9可知，对图8中的视频图像进行人脸检测，可以确定出所包含的待选取人脸有13个。

步骤S702，确定待选取人脸的数量是否大于一个；如果否，执行步骤S703；如果是，执行步骤S704。

步骤S703，确定待选取人脸的数量为一个，并将待选取人脸作为目标人脸，根据三维空间信息确定目标人脸在三维空间中的位置。

当对视频图像数据进行人脸检测，只在视频图像数据中检测出一个待选取人脸时，可以将待选取人脸作为目标人脸，并根据视频图像数据对应的三维空间信息M_scene，确定出目标人脸在三维空间中的位置M_face。

步骤S704，确定待选取人脸的数量为至少两个，并根据三维空间信息分别确定至少两个待选取人脸中的每个待选取人脸在三维空间中的位置。

当对视频图像数据进行人脸检测，在视频图像数据中检测出至少两个待选取人脸时，可以根据视频图像数据对应的三维空间信息M_scene，确定出至少两个待选取人脸中的每个待选取人脸在三维空间中的位置M_face。

例如，当对图8中的视频图像进行人脸检测，确定出图9中的13个待选取人脸后，可以根据图8中的视频图像对应的三维空间信息，确定13个待选取人脸中每个待选取人脸在三维空间的位置，且每个待选取人脸在三维空间的位置可以如图10所示。

步骤S705，响应于用户在视频图像数据对应的图像中执行选择操作的目标位置点，确定目标位置点在三维空间中的位置。

例如，如图11所示，响应于用户在图8中的视频图像中选取的目标位置点，可以根据视频图像对应的三维空间信息，确定出目标位置点在三维空间中的位置，且该目标位置点在三维空间中的位置可以如图12所示。

步骤S706，根据目标位置点在三维空间中的位置，和每个待选取人脸在三维空间的位置，确定目标位置点在三维空间中的位置位于至少两个待选取人脸中目标人脸在三维空间的位置处，并获得目标人脸在三维空间中的位置。

例如，目标位置点在三维空间中的位置可以如图12所示，每个待选取人脸在三维空间的位置可以如图10所示，根据图10和图12，可以确定目标位置点在三维空间中的位置位于图10中的第二个人脸框位置处，则可以确定用户选择的目标位置点位于第二个人脸中，并将第二个人脸作为目标人脸，以及将第二个人脸在三维空间中的位置，作为目标人脸在三维空间中的位置。

可选的，当用户点选发声位置，即目标位置点时，可以通过射线拾取算法，将用户选择的目标位置点转换为三维空间坐标，并通过射线拾取算法，计算出用户选择的目标位置点与三维空间中M_face的交点，定位目标发声位置Positionface，即目标人脸在三维空间中的位置。

在另一种实施例中，在对视频图像数据进行人脸检测，确定出视频图像数据中的待选取人脸的数量为至少两个后，也可以响应于用户从至少两个待选取人脸中选取目标人脸的操作，根据视频图像数据对应的三维空间信息，直接确定出目标人脸在三维空间中的位置。

例如，当对图8中的视频图像进行人脸检测，确定出图9中的13个待选取人脸后，若用户在图8中的视频图像中选择第二个人脸作为目标人脸，则可以根据图6中的视频图像的三维空间信息，确定目标人脸在三维空间中的位置。

可选的，上述步骤S304中对视频图像数据进行场景识别的具体过程可以如图13所示，包括以下步骤：

步骤S1301，获取视频图像数据中的多个视频图像帧。

例如，视频图像数据的时间为5s，可以每隔200ms就从视频图像数据中获取一个视频图像帧，也可以在每个1s内获取5个视频图像帧。

步骤S1302，对多个视频图像帧分别进行预处理，得到目标视频图像帧。

对于每个视频图像帧，可以对该视频图像帧进行如压缩、滤波和图像增强等诸如此类的预处理，以减少视频图像帧的数据量和增强视频图像帧中的图像特征，获得图像预处理后的目标视频图像帧

步骤S1303，对获得的多个目标视频图像帧进行场景识别，确定视频图像数据对应的场景信息。

通过对获得的多个目标视频帧分别进行场景识别，得到每个目标视频图像帧中的画面场景，从而可以确定视频图像数据对应的场景信息。且识别出的视频图像数据对应的场景信息可以为野外，广场，普通户外，大厅，客厅，卧室，用户独白等场景

在一种实施例中，上述步骤S304中对第一音频数据进行声场重建的过程可以如图14所示，包括以下步骤：

步骤S1401，获取音频数据中目标人脸对应的第一音频数据的左声道数据和右声道数据。

在获取到用户录制的音频数据后，可以将音频数据进行左右声道分离，获得左声道数据和右声道数据。

步骤S1402，根据目标人脸在三维空间中的位置，分别对左声道数据的音量和右声道数据的音量进行调整，获得初始左声道数据和初始右声道数据。

其中，对左右声道数据的音量进行调整的具体过程可以参见下图15所示，在此不再赘述。

步骤S1403，根据目标人脸在三维空间中的位置以及三维空间信息，分别确定初始左声道数据的回音频次和初始右声道数据的回音频次。

其中，初始左声道数据的回音频次为初始左声道数据在三维空间中产生的回音次数，初始右声道数据的回音频次为初始右声道数据在三维空间中产生的回音次数。

在三维空间中发出的声音在遇到三维空间中存在的墙壁等物体时会发生反射，产生回音，且所产生的回音次数与三维空间的大小有关，当三维空间越小，所产生的回音次数就越多，当三维空间越大，所产生的回音次数就越少。

在该实施例中，可以根据目标人脸在三维空间中的位置和三维空间的大小，分别确定初始左声道数据的回音频次和初始右声道数据的回音频次。

示例性地，位于如图6所示的三维空间中的目标人脸发出的声音，会向该三维空间中的周围墙壁进行反射，产生回音，若目标人脸位于三维空间的左边，则目标人脸发出的声音向三维空间的左边墙壁反射次数较多，向三维空间的右边墙壁反射次数较少，即目标人脸发出的声音向三维空间的左边墙壁反射所产生的回音次数较多，向三维空间的右边墙壁反射所产生的回音次数较少。

步骤S1404，根据场景信息，分别确定初始左声道数据的回音叠加强度和频响强度，以及初始右声道数据的回音叠加强度和频响强度。

其中，初始左声道数据的回音叠加强度为初始左声道数据在三维空间中多次产生的回音的回音强度和，初始右声道数据的回音叠加强度为初始右声道数据在三维空间中多次产生的回音的回音强度和，初始左声道数据的频响强度包括初始左声道数据的高频强度和低频强度，初始右声道数据的频响强度包括初始右声道数据的高频强度和低频强度。

发出的声音一般都会产生回音，并且产生的回音强度会逐次衰减。例如，在如图8所示的场景中某个人发出的声音所产生的回音的第一次回音强度为0.5，第二次回音强度衰减为0.1，第三次回音强度衰减为0.05…

发出的声音遇到场景中的周围墙壁等物体时会产生反射，声音中的高音部分，即高频部分的强度会被相应地增强或减弱，声音中的低音部分，即低频部分的强度也会被相应地增强或减弱。

步骤S1405，根据初始左声道数据的回音频次、回音叠加强度和频响强度，对初始左声道数据进行重建，获得重建后的左声道数据，并根据初始右声道数据的回音频次、回音叠加强度和频响强度，对初始右声道数据进行重建，获得重建后的右声道数据。

在获得初始左声道数据的回音频次、回音叠加强度和频响强度，以及初始右声道数据的回音频次、回音叠加强度和频响强度后，可以将回音频次、回音叠加强度和频响强度分别加入到初始左声道数据和初始右声道数据中，达到对初始左声道数据和初始右声道数据进行声场重建的目的，以获得重建后的左声道数据和重建后的右声道数据。

例如，视频图像数据中的一帧视频图像如图11所示，且在该视频图像中由位于目标位置点处的目标人脸发出声音，获得相应的音频后，可以从该音频中分离出左声道和右声道，由于目标人脸位于该视频图像对应的三维空间中的前方，则可以分别对左声道的音量和右声道的音量进行增强，并由于目标人脸位于三维空间中的左边，则可以继续对增强音量后的左声道的音量进行增强，以及对增强音量后的右声道的音量进行减弱，得到初始左声道和初始右声道。

根据该视频图像对应的三维空间的大小，可以分别确定初始左声道和初始右声道的回音频次，并根据该视频图像对应的场景为客厅来确定初始左声道和初始右声道的回音叠加强度，以及根据该视频图像对应的场景为客厅，对初始左声道的高频强度和初始右声道的高频强度进行增强，对初始左声道的低频强度和初始右声道的低频强度进行减弱。

在确定出初始左声道的回音频次、回音叠加强度和频响强度，以及初始右声道的回音频次、回音叠加强度和频响强度后，可以将确定出的回音频次、回音叠加强度和频响强度按照声音的传播特性，分别加入到初始左声道和初始右声道中，获得重建后的左声道数据和右声道数据。

步骤S1406，将重建后的左声道数据和重建后的右声道数据合成得到重建后的第一音频数据。

上述步骤S1402中对左右声道的音量进行调整的具体过程可以如图15所示，包括以下步骤：

步骤S1501，若目标人脸位于三维空间中的前方，则分别增加左声道数据的音量和右声道数据的音量，获得初始左声道数据和初始右声道数据。

步骤S1502，若目标人脸位于三维空间中的后方，则分别减少左声道数据的音量和右声道数据的音量，获得初始左声道数据和初始右声道数据。

步骤S1503，若目标人脸位于三维空间中的左边，则增加左声道数据的音量，获得初始左声道数据，并减少右声道数据的音量，获得初始右声道数据。

步骤S1504，若目标人脸位于三维空间中的右边，则减少左声道数据的音量，获得初始左声道数据，并增加右声道数据的音量，获得初始右声道数据。

在一些实施例中，本申请实施例中提供的多媒体数据处理方法，还可以按照如图16所示的过程进行实现，如图16所示，包括如下步骤：

步骤S1601，获取视频图像数据。

在导入视频后，可以对视频进行解封装处理，获得待处理的视频图像数据。

步骤S1602，对视频图像数据进行场景识别，确定视频图像数据对应的场景信息。

对视频图像数据进行预处理后，将获得的视频图像数据提交给场景识别引擎，识别出视频图像数据对应的场景信息，且识别出的场景信息可以是野外，广场，普通户外，大厅，客厅，卧室，用户独白等。

步骤S1603，对视频图像数据进行三维空间重建，获得视频图像数据对应的三维空间信息。

对视频图像数据进行三维空间重建，将二维的视频图像数据转换到三维空间，获得视频图像数据对应的三维空间信息。

步骤S1604，对视频图像数据进行人脸检测，确定视频图像数据中的至少一个待选取人脸，并根据视频图像数据对应的三维空间信息，确定至少一个待选取人脸中的每个待选取人脸在三维空间中的位置。

步骤S1605，响应于用户从至少一个待选取人脸中选取目标人脸的操作，获得目标人脸在三维空间中的位置。

当待选取人脸的数量只有一个时，可以直接将待选取人脸作为目标人脸，获得目标人脸在三维空间中的位置。

当待选取人脸的数量为至少两个时，在用户从待选取人脸中选取出目标人脸后，可以获得目标人脸在三维空间中的位置。

步骤S1606，获取录制的音频数据，并对音频数据进行左右声道分离，获得左声道数据和右声道数据。

在获取到录制的音频数据后，可以对音频数据进行左右声道分离，获得左声道数据Sound_left和右声道数据Sound_right。

在获得左右声道数据后，可以对左右声道数据进行声场处理，根据用户选取的目标人脸在三维空间中的位置进行声场模拟，通过计算发声者，即目标人脸在三维空间中的位置Sound(left,right)＝Func(Sound_left,Sound_right,M_face,M_scene)，模拟发声源位于三维空间中的指定位置，对左右声道数据进行空间增强，增益控制，以及场景频响处理等，重新生成新的左右声道数据。具体过程可以参见下述步骤S1607～步骤S1609。

步骤S1607，根据目标人脸在三维空间中的位置，分别对左声道数据的音量和右声道数据的音量进行调整，获得初始左声道数据和初始右声道数据。

步骤S1608，根据目标人脸在三维空间中的位置以及视频图像数据对应的三维空间信息，确定初始左声道数据的回音频次和初始右声道数据的回音频次，并根据视频图像数据对应的场景信息，分别确定初始左声道数据的回音叠加强度和频响强度，以及初始右声道数据的回音叠加强度和频响强度。

步骤S1609，将初始左声道数据的回音频次、回音叠加强度和频响强度加入到初始左声道数据中，获得重建后的左声道数据，并将初始右声道数据的回音频次、回音叠加强度和频响强度加入到初始右声道数据中，获得重建后的右声道数据。

根据发声者距离镜头的距离，以及场景识别结果，场景混响参数，即目标人脸在三维空间中的位置、场景信息以及三维空间信息，对左右声道数据进行增益计算(如发声位置在左边，则适当增强左声道增益，减少右声道增益)，回音频次(不同发声位置计算左右声道周图场景生成的回音时间)，回音叠加强度(根据场景不同，叠加回音强度)，从而生成左右声道有差异的音频数据，以模拟现实的声音效果。

SoundResult_left＝Echo(Gain(Space(Sound_left,Sound_right,M_scene)))，

SoundResult_right＝Echo(Gain(Space(Sound_left,Sound_right,M_scene)))。

步骤S1610，将重建后的左声道数据和重建后的右声道数据合成得到重建后的音频数据。

步骤S1611，将重建后的音频数据加载到视频图像数据中得到目标视频数据。

本申请提供的一种多媒体数据处理方法，在获取到视频图像数据后，可以对视频图像数据进行三维空间重建，获得视频图像数据对应的三维空间信息，并基于从视频图像数据中识别出的目标人脸在三维空间中的位置，以及视频图像数据对应的三维空间信息和场景信息对音频数据进行声场重建得到重建后的音频数据，进而将重建后的音频数据加载到视频图像数据中得到目标视频数据。由于可以结合三维空间信息、场景信息以及目标人脸在三维空间中的位置对音频数据进行声场重建，从而可以生成具有空间效果的音频数据，提高音频数据的声音效果，使得重建后的音频数据的声音效果与视频图像数据的画面场景一致。

本申请针对于已经录制好的录像或视频进行处理时，可以由用户指定发声位置，采用场景识别技术，结合视频的场景景深识别出发声位置与相机镜头的距离，重建三维空间，动态地标记出发声位置在三维空间中的位置，并基于识别出的场景、三维空间和发声位置在三维空间中的位置，对录制的声音的左右声道进行声场处理，生成带有空间效果的音频数据左右声道，实现虚拟声场的效果，使得听众可以感受到发声者在画面中的位置。

与图3所示的多媒体数据处理方法基于同一发明构思，本申请实施例中还提供了一种多媒体数据处理装置。由于该装置是本申请多媒体数据处理方法对应的装置，并且该装置解决问题的原理与该方法相似，因此该装置的实施可以参见上述方法的实施，重复之处不再赘述。

图17示出了本申请实施例提供的一种多媒体数据处理装置的结构示意图，如图17所示，该多媒体数据处理装置包括多媒体数据获取单元1701、三维空间重建单元1702、人脸位置确定单元1703、声场重建单元1704和目标视频获得单元1705。

其中，多媒体数据获取单元1701，用于获取视频图像数据和音频数据；

三维空间重建单元1702，用于对视频图像数据进行三维空间重建，获得视频图像数据对应的三维空间信息；

人脸位置确定单元1703，用于识别出视频图像数据中的目标人脸，并根据三维空间信息，确定目标人脸在三维空间中的位置；

声场重建单元1704，用于根据目标人脸在三维空间中的位置以及三维空间信息对音频数据中目标人脸对应的第一音频数据进行声场重建得到重建后的第一音频数据；

目标视频获得单元1705，用于将重建后的第一音频数据加载到视频图像数据中得到目标视频数据。

在一种可选的实施例中，人脸位置确定单元1703，具体用于：

对视频图像数据进行人脸检测，确定视频图像数据中的待选取人脸；

若确定待选取人脸的数量为一个，则将待选取人脸作为目标人脸，并根据三维空间信息确定目标人脸在三维空间中的位置；或者，

若确定待选取人脸的数量为至少两个，则根据三维空间信息分别确定至少两个待选取人脸中每个待选取人脸在三维空间的位置，并响应于用户从至少两个待选取人脸中选取目标人脸的操作，获得目标人脸在三维空间中的位置。

在一种可选的实施例中，人脸位置确定单元1703，还用于：

响应于用户在视频图像数据对应的图像中执行选择操作的目标位置点，确定目标位置点在三维空间中的位置；

根据目标位置点在三维空间中的位置，和每个待选取人脸在三维空间的位置，确定目标位置点在三维空间中的位置位于至少两个待选取人脸中目标人脸在三维空间的位置处，并获得目标人脸在三维空间中的位置。

在一种可选的实施例中，如图18所示，上述装置还可以包括场景识别单元1801，用于：

对视频图像数据进行场景识别，确定视频图像数据对应的场景信息；

声场重建单元1704，具体用于：

获取音频数据中目标人脸对应的第一音频数据的左声道数据和右声道数据；

根据目标人脸在三维空间中的位置、场景信息以及三维空间信息对左声道数据和右声道数据分别进行声场重建，得到重建后的左声道数据和重建后的右声道数据；

将重建后的左声道数据和重建后的右声道数据合成得到重建后的第一音频数据。

在一种可选的实施例中，声场重建单元1704，还用于：

根据目标人脸在三维空间中的位置，分别对左声道数据的音量和右声道数据的音量进行调整，获得初始左声道数据和初始右声道数据；

根据目标人脸在三维空间中的位置以及三维空间信息，分别确定初始左声道数据的回音频次和初始右声道数据的回音频次；初始左声道数据的回音频次为初始左声道数据在三维空间中产生的回音次数，初始右声道数据的回音频次为初始右声道数据在三维空间中产生的回音次数；

根据场景信息，分别确定初始左声道数据的回音叠加强度和频响强度，以及初始右声道数据的回音叠加强度和频响强度；初始左声道数据的回音叠加强度为初始左声道数据在三维空间中多次产生的回音的回音强度和；初始右声道数据的回音叠加强度为初始右声道数据在三维空间中多次产生的回音的回音强度和；初始左声道数据的频响强度包括初始左声道数据的高频强度和低频强度；初始右声道数据的频响强度包括初始右声道数据的高频强度和低频强度；

根据初始左声道数据的回音频次、回音叠加强度和频响强度，对初始左声道数据进行重建，获得重建后的左声道数据，并根据初始右声道数据的回音频次、回音叠加强度和频响强度，对初始右声道数据进行重建，获得重建后的右声道数据。

在一种可选的实施例中，声场重建单元1704，还用于：

若目标人脸位于三维空间中的前方，则分别增加左声道数据的音量和右声道数据的音量，获得初始左声道数据和初始右声道数据；

若目标人脸位于三维空间中的后方，则分别减少左声道数据的音量和右声道数据的音量，获得初始左声道数据和初始右声道数据；

若目标人脸位于三维空间中的左边，则增加左声道数据的音量，获得初始左声道数据，并减少右声道数据的音量，获得初始右声道数据；

若目标人脸位于三维空间中的右边，则减少左声道数据的音量，获得初始左声道数据，并增加右声道数据的音量，获得初始右声道数据。

基于同一发明构思，本申请实施例提供一种计算机可读存储介质，计算机程序产品包括：计算机程序代码，当计算机程序代码在计算机上运行时，使得计算机执行如前文论述任一的多媒体数据处理方法。由于上述计算机可读存储介质解决问题的原理与多媒体数据处理方法相似，因此上述计算机可读存储介质的实施可以参见方法的实施，重复之处不再赘述。

基于同一发明构思，本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码在计算机上运行时，使得计算机执行如前文论述任一的多媒体数据处理方法。由于上述计算机程序产品解决问题的原理与多媒体数据处理方法相似，因此上述计算机程序产品的实施可以参见方法的实施，重复之处不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列用户操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种多媒体数据处理方法，其特征在于，包括：

获取视频图像数据和音频数据；

2.如权利要求1所述的方法，其特征在于，所述识别出所述视频图像数据中的目标人脸，并根据所述三维空间信息，确定所述目标人脸在所述三维空间中的位置，包括：

3.如权利要求2所述的方法，其特征在于，所述响应于用户从至少两个待选取人脸中选取目标人脸的操作，获得所述目标人脸在所述三维空间中的位置，包括：

4.如权利要求1所述的方法，其特征在于，将所述重建后的第一音频数据加载到所述视频图像数据中得到目标视频数据之前，所述方法还包括：

5.如权利要求4所述的方法，其特征在于，所述根据所述目标人脸在所述三维空间中的位置、所述场景信息以及所述三维空间信息对所述左声道数据和所述右声道数据分别进行声场重建，得到重建后的左声道数据和重建后的右声道数据，包括：

6.如权利要求5所述的方法，其特征在于，所述根据所述目标人脸在所述三维空间中的位置，分别对所述左声道数据的音量和所述右声道数据的音量进行调整，获得初始左声道数据和初始右声道数据，包括：

7.一种多媒体数据处理装置，其特征在于，包括：

多媒体数据获取单元，用于获取视频图像数据和音频数据；

8.如权利要求7所述的装置，其特征在于，所述人脸位置确定单元具体用于：

9.一种电子设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行权利要求1-6中任一项所述的方法包括的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时，使所述计算机执行如权利要求1-6中任一项所述的方法。