CN113411621A

CN113411621A - 音频数据处理方法、装置、存储介质及电子设备

Info

Publication number: CN113411621A
Application number: CN202110574133.XA
Authority: CN
Inventors: 庄宇轩; 孙静
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-09-17
Anticipated expiration: 2041-05-25
Also published as: CN113411621B

Abstract

本公开关于一种音频数据处理方法、装置、存储介质及电子设备。其中，该方法包括：接收多个音频采集组件采集现实场景的音频数据，其中，上述音频数据包括用于描述现实场景的声音强度；基于上述音频数据构建与虚拟三维空间对应的音场，得到音场数据；通过客户端接收画面切换指令，控制虚拟摄像机根据上述音频数据确定对应的导播画面或直播画面。本公开解决了现有技术在赛事直转播过程中，无法同时关注赛场内的多个不同机位，导致捕捉的赛事画面不够理想，影响观赛氛围的技术问题。

Description

音频数据处理方法、装置、存储介质及电子设备

技术领域

本公开涉及数据处理领域，具体而言，涉及一种音频数据处理方法、装置、存储介质及电子设备。

背景技术

目前，在赛事的虚拟直转播过程中，导播需要根据直转播需求、场上(/场下)的选手(/观众)等的变化，通过主控台设置的预设参数调节按钮来切换不同运镜，以实现呈现出直转播过程中的赛事画面。

然而，在现有的赛事直转播过程中，导播需要同时关注多个不同机位的情况，提前进行机位布置的指导，并在直转播过程中，通过操控主控台上的切换按钮，完成机位的切换。可见，上述现有的实现流程繁琐且无法实时的捕捉场下的观众氛围变化，进而导致捕捉的赛事画面不够理想，影响观赛氛围。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本公开实施例提供了一种音频数据处理方法、装置、存储介质及电子设备，以至少解决现有技术在赛事直转播过程中，无法同时关注赛场内的多个不同机位，导致捕捉的赛事画面不够理想，影响观赛氛围的技术问题。

根据本公开实施例的一个方面，提供了一种音频数据处理方法，包括：接收多个音频采集组件采集现实场景的音频数据，其中，上述音频数据包括用于描述现实场景的声音强度；基于上述音频数据构建与虚拟三维空间对应的音场，得到音场数据；通过客户端接收画面切换指令，控制虚拟摄像机根据上述音频数据确定对应的导播画面或直播画面。

根据本公开实施例的另一方面，还提供了一种音频数据处理装置，包括：接收模块，用于接收多个音频采集组件采集现实场景的音频数据，其中，上述音频数据包括用于描述现实场景的声音强度；构建模块，用于基于上述音频数据构建与虚拟三维空间对应的音场，得到音场数据；下发模块，用于通过客户端接收画面切换指令，控制虚拟摄像机根据上述音频数据确定对应的导播画面或直播画面。

根据本公开实施例的另一方面，还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化任意一项上述的音频数据处理方法。

根据本公开实施例的另一方面，还提供了一种计算机可读存储介质，上述计算机可读存储介质包括存储的程序，其中，在上述程序运行时控制上述计算机可读存储介质所在设备执行任意一项上述的音频数据处理方法。

根据本公开实施例的另一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为运行上述计算机程序以执行任意一项上述的音频数据处理方法。

在本公开实施例中，通过接收多个音频采集组件采集现实场景的音频数据，其中，上述音频数据包括用于描述现实场景的声音强度；基于上述音频数据构建与虚拟三维空间对应的音场，得到音场数据；通过客户端接收画面切换指令，控制虚拟摄像机根据上述音频数据确定对应的导播画面或直播画面，达到了通过控制虚拟摄像机实现同时关注赛场内的多个不同机位，实时对现场机位进行切换的目的，从而实现了提升导播画面的捕捉效率与时效质量，增强用户观赛体验的技术效果，进而解决了现有技术在赛事直转播过程中，无法同时关注赛场内的多个不同机位，导致捕捉的赛事画面不够理想，影响观赛氛围的技术问题。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本公开的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是根据本公开实施例的一种音频数据处理方法的流程图；

图2是根据本公开实施例的一种可选的三个声音传感器通过三点定位法来收集三轴的声音强度的场景示意图；

图3是根据本公开实施例的一种可选的多个虚拟摄像机对准目标定位点的场景示意图；

图4是根据本公开实施例的一种可选的音频数据的处理方法的流程示意图；

图5是根据本公开实施例的一种音频数据处理装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本公开实施例，提供了一种音频数据处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

该方法实施例的技术方案可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，该移动终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，简称为MID)、PAD等终端设备。移动终端可以包括一个或多个处理器(处理器可以包括但不限于中央处理器(CPU)、图形处理器(GPU)、数字信号处理(DSP)芯片、微处理器(MCU)、可编程逻辑器件(FPGA)、神经网络处理器(NPU)、张量处理器(TPU)、人工智能(AI)类型处理器等的处理装置)和用于存储数据的存储器。可选地，上述移动终端还可以包括用于通信功能的传输设备、输入输出设备以及显示设备。本领域普通技术人员可以理解，上述结构描述仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比上述结构描述更多或者更少的组件，或者具有与上述结构描述不同的配置。

存储器可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本公开实施例中的音频数据处理方法对应的计算机程序，处理器通过运行存储在存储器内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的音频数据处理方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输设备包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。该方法实施例的技术方案可以应用于各种通信***，例如：全球移动通讯(Global System of Mobile communication，简称为GSM)***、码分多址(Code Division Multiple Access，简称为CDMA)***、宽带码分多址(Wideband Code Division Multiple Access，简称为WCDMA)***、通用分组无线业务(General Packet Radio Service，简称为GPRS)、长期演进(Long Term Evolution，简称为LTE)***、LTE频分双工(Frequency Division Duplex，简称为FDD)***、LTE时分双工(Time Division Duplex，简称为TDD)、通用移动通信***(Universal MobileTelecommunication System，简称为UMTS)、全球互联微波接入(WorldwideInteroperability for Microwave Access，简称为WiMAX)通信***或5G***等。可选地，多个移动终端之间可以进行设备到设备(Device to Device，简称为D2D)通信。可选地，5G***或5G网络又被称为新无线(New Radio，简称为NR)***或NR网络。

显示设备可以例如触摸屏式的液晶显示器(LCD)和触摸显示器(也被称为“触摸屏”或“触摸显示屏”)。该液晶显示器可使得用户能够与移动终端的用户界面进行交互。在一些实施例中，上述移动终端具有图形用户界面(GUI)，用户可以通过触摸触敏表面上的手指接触和/或手势来与GUI进行人机交互，此处的人机交互功能可选的包括如下交互：创建网页、绘图、文字处理、制作电子文档、游戏、视频会议、即时通信、收发电子邮件、通话界面、播放数字视频、播放数字音乐和/或网络浏览等、用于执行上述人机交互功能的可执行指令被配置/存储在一个或多个处理器可执行的计算机程序产品或可读计算机可读存储介质中。

图1是根据本公开实施例的一种音频数据处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，接收多个音频采集组件采集现实场景的音频数据，其中，上述音频数据包括用于描述现实场景的声音强度；

步骤S104，基于上述音频数据构建与虚拟三维空间对应的音场，得到音场数据；

步骤S106，通过客户端接收画面切换指令，控制虚拟摄像机根据上述音频数据确定对应的导播画面或直播画面。

需要说明的是，上述音频数据处理方法可以但不限于应用在体育赛事、直播带货、新闻直播、联欢晚会、综艺直播节目等的直转播场景中，本公开实施例提供的上述音频数据处理方法的执行主体为播控平台后台服务器，用于构建得到音场数据，并将音场数据下发至播控平台客户端，以使播控平台客户端利用上述音场数据控制多个虚拟摄像机的导播画面。

可选的，上述多个音频采集组件可以为赛场的三维空间(例如，直播绿幕棚)中架设的多个声音传感器，例如，上述多个声音传感器可以设置在赛场的不同位置，对定位到的赛场中的环境音频进行采集得到音频数据。

可选的，上述音频数据可以为赛场中的环境音频数据，该环境音频数据可以描述虚拟三维空间的声音强度。

仍需要说明的是，上述音场(即声音场)是在三维虚拟时间-三维虚拟空间内，按照现实场景(即赛场)内的声音强度，对应将音场内的每个坐标点的声音强度标量组合得到音场数据。在一种可选的实施例中，上述音场数据包括：上述虚拟三维空间对应的时间信息、上述虚拟三维空间内每个坐标点的坐标信息以及上述虚拟三维空间内每个坐标点的声音强度信息。

在本公开实施例中，通过在赛场的不同位置设置多个声音传感器用于收集赛场中的环境音频，基于环境音频构建实时的三维空间-环境音强的音场，得到音场数据，并将预设的虚拟摄像机对准赛场内的音场强度较高的若干坐标，在导播需要场下氛围画面时，通过一键操作即可完成直播画面的切换，从而提升导播与氛围捕捉的效率与时效质量，增强用户观赛体验。

作为一种可选的实施例，通过预设在任意适用场景中的直转播场地内的声音传感器，实时的收集线下场地内的声音强度信息得到音频数据，并将采集到的音频数据发送给播控平台后台服务器；由于上述声音强度信息是通过多个声音传感器对场地内的声音定位得到，播控平台后台服务器在接收到实时的音频数据后，可以构建三维空间–环境音强的音场，得到音场数据，其中，该音场数据包含三维空间对应的时间–三维空间内的坐标点–每个坐标点对应的声音强度)，并将该音场数据发送至播控平台客户端，进而播控平台客户端根据音场数据确定对应的虚拟摄像机(也称为：虚拟氛围相机、氛围摄像机等)，并根据预设控制规则(例如，预设的距离和角度规则)实时调整多个虚拟摄像机的坐标参数，对准场内氛围最强的位置，进而导播在播控平台上切换场下氛围画面时，播控平台客户端可以根据接收到的控制指令将导播画面切换至对应的虚拟摄像机，从而完成当前直转播画面的切换。

在上述可选的实施例中，上述氛围通常指观众的观赛情绪，例如，指观众发出声音最大的地方(如鼓掌、呐喊、加油等发出的呐喊声)。

仍需要说明的是，上述预设的距离和角度规则主要是根据相机的焦段、光圈等参数，使其能够正确的给场内氛围点进行成像，例如可选的规则可以包括：相机的光圈越大，距离越近；相机的焦段越长，距离越远，等等。基于上述预设的距离和角度规则根据音场数据，得到一个拟对准的坐标原点，再根据相机属性对应的调整规则进行坐标的偏移调整，从而得到最终的虚拟相机位置。

作为另一种可选的实施例，以上述音频数据的处理方法应用于赛事虚拟直播场景中为例，在赛事虚拟直播的线下场地中，预先架设若干个用于收集声音强度信息的多个声音传感器(例如，如图2所示，至少需要三个声音传感器X，Y，Z，通过三点定位法来收集三轴的声音强度)，当赛事虚拟直播开始后，多个声音传感器开始工作，将收集到的声音强度信息和坐标信息，实时通过音频数据发送给播控平台后台服务器；播控平台后台服务器接收到上述音频数据之后，对当前接收到的音频数据中的声音强度信息和坐标信息进行处理，构建三维空间–环境音强的音场，得到音场数据，上述音场数据即通过余弦定理计算出三维空间内，每个坐标点的声音强度标量；播控平台后台服务器将构建的音场数据(当前时间，坐标，声音强度)，发送给播控平台客户端，以供后续流程使用；播控平台客户端的显示界面中展示有一系列预设的运镜控制按钮，例如，包含“黑场(关闭相机)、亮场(开启相机)、播放特效等功能”等，每个运镜控制按钮分别关联至对应的氛围虚拟摄像机；导播人员通过点击任意一个镜头控制按钮，可以实现切换虚拟摄像机、调整相机参数等操作。

在一种可选的实施例中，基于上述音频数据构建与上述虚拟三维空间对应的音场，得到上述音场数据包括：

步骤S202，计算上述虚拟三维空间内每个坐标点的声音强度标量；

步骤S204，利用每个坐标点的声音强度标量构建与上述虚拟三维空间对应的音场，得到上述音场数据。

可选的，播控平台后台服务器接收到上述音频数据后，对音频数据中携带的参数进行处理，构建三维空间–环境音强的音场，通过采用余弦定理等计算方式，例如，如图2所示的三点定位法，计算出三维空间内的每个坐标点的声音强度标量，利用每个坐标点的声音强度标量构建与上述虚拟三维空间对应的音场，得到上述音场数据。

通过本公开方案，采用预设在场地内的声音传感器，将收集到的声音强度参数和定位信息，通过音频数据的形式实时的发送给播控平台后台服务器；后台服务器通过返回的上述参数构建实时的音场，得到音场数据并将其发送至播控平台客户端；播控平台客户端根据后台服务器实时发送的音场数据，将预设的虚拟摄像机对准场内音场强度较高的若干坐标；当导播在播控台客户端点击切换至场下氛围画面的操作按钮时，导播画面随即切换至该氛围虚拟摄像机，从而完成当前直转播画面的切换。

作为一种可选的实施例，可以在虚拟场景内添加多个虚拟摄像机，其中，上述多个虚拟摄像机与现实场景内的多个现实摄像机一一对应设置，多个上述虚拟摄像机用于控制对应的上述现实摄像机从多个不同角度拍摄上述现实场景以形成不同的导播画面或直播画面。

在一种可选的实施例中，控制虚拟摄像机根据上述音频数据确定对应的导播画面或直播画面包括：

步骤S302，利用上述音场数据确定上述虚拟三维空间内待对准的目标定位点；

步骤S304，按照预设控制规则调整上述多个虚拟摄像机的位置和朝向，以使上述多个虚拟摄像机对准上述目标定位点；

步骤S306，响应接收到的控制指令，从上述多个虚拟摄像机中确定目标虚拟摄像机；

步骤S308，将直转播镜头切换至上述目标虚拟摄像机，并播放上述目标虚拟摄像机对应的现实摄像机拍摄到的导播画面或直播画面。

在上述可选的实施例中，在播控平台客户端接收到音场数据之后，如图3所示，可以根据音场数据确定对应的虚拟摄像机，并根据预设控制规则(例如，预设的距离和角度规则)实时调整多个虚拟摄像机的坐标参数，即调整上述多个虚拟摄像机的位置和朝向，以实现对准赛场内氛围最强的位置，即目标定位点；进而导播在播控平台上切换场下氛围画面时，播控平台客户端可以根据接收到的控制指令从上述多个虚拟摄像机中确定目标虚拟摄像机；将当前的直转播镜头的导播画面切换至目标虚拟摄像机并播放上述目标虚拟摄像机的导播画面，从而完成当前直转播画面的切换。

可选的，上述利用上述音场数据确定上述虚拟三维空间内待对准的目标定位点；例如，在t1时刻，音场强度最高的地方为A\B\C\D四个坐标点，根据预设控制规则进一步计算判定，以选择4个中的某一个目标定位点，例如，如该区域为A队粉丝坐席，此时为A队精彩时刻，则选择A点。

在一种可选的实施例中，上述音频数据处理方法还包括：

步骤S402，当确定上述音场数据发生变化时，利用变化后的音场数据重新确定上述虚拟三维空间内待对准的目标定位点；

步骤S404，移动上述多个虚拟摄像机，以使上述多个虚拟摄像机重新对准上述目标定位点。

在上述可选的实施例中，当音场强度信息发生变化时即确定上述音场数据发生变化，则利用变化后的音场数据重新确定上述虚拟三维空间内待对准的目标定位点；根据接收到重新确定的目标定位点并控制多个虚拟摄像机移动，从当前坐标点平滑移动至重新确定的目标定位点，完成运镜。

如图4所示，声音传感器与播控平台(例如，UE4播控平台)关联，采用多个声音传感器进行线下氛围追踪，并将追踪到的音频数据发送至播控平台的后台服务器，再通过后台服务器对音频数据构建三维音场，得到音场数据，播控平台的客户端控制氛围虚拟相机进行镜头摇移以及根据直播画面变化的反馈控制镜头移动，实现控制镜头平滑过渡。

作为另一种可选的实施例，以上述音频数据的处理方法应用于赛事虚拟直播场景中为例，本公开方案可以但不限于划分为三维空间–环境音强的声音场构建流程、虚拟氛围相机控制流程、一键智能导播流程，以下分流程对上述三个流程进行举例说明如下：

1)三维空间–环境音强的声音场构建流程：在赛事虚拟直播的线下场地中，预先架设若干个用于收集声音强度信息的多个声音传感器(例如，如图2所示，至少需要三个声音传感器X，Y，Z，通过三点定位法来收集三轴的声音强度)，当赛事虚拟直播开始后，多个声音传感器开始工作，将收集到的声音强度信息和坐标信息，实时通过音频数据发送给播控平台后台服务器；播控平台后台服务器接收到上述音频数据之后，对当前接收到的音频数据中的声音强度信息和坐标信息进行处理，构建三维空间–环境音强的音场，得到音场数据，上述音场数据即通过余弦定理计算出三维空间内，每个坐标点的声音强度标量；播控平台后台服务器将构建的音场数据(当前时间，坐标，声音强度)，发送给播控平台客户端，以供后续流程使用；播控平台客户端的显示界面中展示有一系列预设的运镜控制按钮，例如，包含“黑场(关闭相机)、亮场(开启相机)、播放特效等功能”等，每个运镜控制按钮分别关联至对应的氛围虚拟摄像机；导播人员通过点击任意一个镜头控制按钮，可以实现切换虚拟摄像机、调整相机参数等操作。

通过本公开实施例所提供的上述虚拟三维空间–环境音强的声音场构建流程，播控平台后台服务器可以通过线下设置的声音传感器返回数据，构建赛场内实时的音场，供后续流程使用。

2)虚拟氛围相机控制流程：播控平台客户端在接收到上述音场数据后，在虚拟场景内添加若干个氛围虚拟摄像机；虚拟摄像机根据上述音场数据，按照预设的距离和角度规则调整坐标位置，使其对准场内音场强度较高的若干坐标区域，以供后续流程使用。基于上述预设控制规则，根据音场数据得到一个拟对准的坐标原点，再根据相机属性对应的调整规则进行坐标点的偏移调整，从而得到最终的虚拟相机位置

通过本公开实施例所提供的上述虚拟氛围相机控制流程，播控平台客户端能够根据实时接收到的音场数据，将预设的虚拟摄像机按照预设控制规则对准场内音场强度较高的若干坐标，供后续流程使用。

3)一键智能导播流程：当导播在播控平台客户端的显示界面中点击切换至场下氛围画面操作按钮时，播控画面接收当前的控制指令，将直转播镜头切换至预设的氛围虚拟摄像机，从而完成导播画面的快速切换。

通过本公开方案可以实现在赛事的虚拟直播过程中，智能的捕捉场下的氛围画面，导播通过一键操作，即可完成镜头的切换，从而提升导播与氛围捕捉的效率与时效质量，增强用户观赛体验。

通过本公开实施例所提供的上述一键智能导播流程，播控平台客户端可以在接收到导播的切换氛围画面指令后，将直转播画面切换至该氛围虚拟摄像机，从而完成当前直转播画面的切换。

仍需要说明的是，虽然现有技术中导播人员还可以通过通讯软件调整现场机位，通过同时观察多个监控画面观察回传的机位画面信息，在合适的时机通过播控台完成直转播画面的切换。但是，相较于上述的现有方式，本公开方案的优势如下：可以通过传感器，智能的捕捉场下音场强度最高的位置，并控制虚拟氛围摄像机，实时的调整坐标位置，以供后续流程使用；导播可以通过一键操作，在播控台上完成对氛围画面的镜头切换，提升导播效率与质量；声音传感器可以实时的收集线下赛场内的声音强度信息，发送给播控后台服务器；播控后台服务器可以通过接收到的音强参数，构建三维空间–环境音强的声音场，供后续流程使用；播控平台客户端与后台服务器根据建立的音场信息，生成对应的虚拟氛围相机，并根据预设控制规则实时对准场内氛围最强的位置；播控平台客户端可以在接收到导播指令后可以自动的将直转播画面切换至虚拟氛围相机画面，并跟随相机的运镜传输实时画面。

根据本公开实施例，还提供了一种用于实施上述音频数据处理方法的装置实施例，图5是根据本公开实施例的一种音频数据处理装置的结构示意图，如图5所示，上述音频数据处理装置6包括：接收模块50、构建模块52和下发模块54，其中：

接收模块50，用于接收多个音频采集组件采集现实场景的音频数据，其中，上述音频数据包括用于描述现实场景的声音强度；构建模块52，用于基于上述音频数据构建与虚拟三维空间对应的音场，得到音场数据；下发模块54，用于通过客户端接收画面切换指令，控制虚拟摄像机根据上述音频数据确定对应的导播画面或直播画面。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，例如，对于后者，可以通过以下方式实现：上述各个模块可以位于同一处理器中；或者，上述各个模块以任意组合的方式位于不同的处理器中。

此处需要说明的是，上述接收模块50、构建模块52和下发模块54对应于方法实施例中的步骤S102至步骤S106，上述模块与对应的步骤所实现的实例和应用场景相同，但不限于上述方法实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在计算机终端中。

需要说明的是，本装置实施例的可选或优选实施方式可以参见方法实施例中的相关描述，此处不再赘述。

上述的音频数据处理装置还可以包括处理器和存储器，上述接收模块50、构建模块52和下发模块54等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元，上述内核可以设置一个或以上。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

根据本公开实施例，还提供了一种非易失性存储介质实施例。可选地，在本实施例中，上述非易失性存储介质包括存储的程序，其中，在上述程序运行时控制上述非易失性存储介质所在设备执行上述任意一种音频数据处理方法。

可选地，在本实施例中，上述非易失性存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中，上述非易失性存储介质包括存储的程序。

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：接收多个音频采集组件采集现实场景的音频数据，其中，上述音频数据包括用于描述现实场景的声音强度；基于上述音频数据构建与虚拟三维空间对应的音场，得到音场数据；通过客户端接收画面切换指令，控制虚拟摄像机根据上述音频数据确定对应的导播画面或直播画面。

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：计算上述虚拟三维空间内每个坐标点的声音强度标量；利用每个坐标点的声音强度标量构建与上述虚拟三维空间对应的音场，得到上述音场数据。

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：在虚拟场景内添加多个虚拟摄像机，其中，上述多个虚拟摄像机与现实场景内的多个现实摄像机一一对应设置，多个上述虚拟摄像机用于控制对应的上述现实摄像机从多个不同角度拍摄上述现实场景以形成不同的导播画面或直播画面。

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：利用上述音场数据确定上述虚拟三维空间内待对准的目标定位点；按照预设控制规则调整上述多个虚拟摄像机的位置和朝向，以使上述多个虚拟摄像机对准上述目标定位点；响应接收到的控制指令，从上述多个虚拟摄像机中确定目标虚拟摄像机；将直转播镜头切换至上述目标虚拟摄像机，并播放上述目标虚拟摄像机对应的现实摄像机拍摄到的导播画面或直播画面。

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：当确定上述音场数据发生变化时，利用变化后的音场数据重新确定上述虚拟三维空间内待对准的目标定位点；移动上述多个虚拟摄像机，以使上述多个虚拟摄像机重新对准上述目标定位点。

根据本公开实施例，还提供了一种处理器实施例。可选地，在本实施例中，上述处理器用于运行程序，其中，上述程序运行时执行上述任意一种音频数据处理方法。

本公开实施例提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为运行上述计算机程序以执行任意一项上述的音频数据处理方法。

本公开还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有音频数据处理方法步骤的程序。

上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

在本公开的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本公开所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本公开的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本公开原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本公开的保护范围。

Claims

1.一种音频数据处理方法，其特征在于，包括：

接收多个音频采集组件采集现实场景的音频数据，其中，所述音频数据包括用于描述现实场景的声音强度；

基于所述音频数据构建与虚拟三维空间对应的音场，得到音场数据；

通过客户端接收画面切换指令，控制虚拟摄像机根据所述音频数据确定对应的导播画面或直播画面。

2.根据权利要求1所述的音频数据处理方法，其特征在于，基于所述音频数据构建与所述虚拟三维空间对应的音场，得到所述音场数据包括：

计算所述虚拟三维空间内每个坐标点的声音强度标量；

利用每个坐标点的声音强度标量构建与所述虚拟三维空间对应的音场，得到所述音场数据。

3.根据权利要求1所述的音频数据处理方法，其特征在于，所述音场数据包括：所述虚拟三维空间对应的时间信息、所述虚拟三维空间内每个坐标点的坐标信息以及所述虚拟三维空间内每个坐标点的声音强度信息。

4.根据权利要求1所述的音频数据处理方法，其特征在于，所述音频数据处理方法还包括：

在虚拟场景内添加多个虚拟摄像机，其中，所述多个虚拟摄像机与现实场景内的多个现实摄像机对应设置，多个所述虚拟摄像机用于控制对应的所述现实摄像机从多个不同角度拍摄所述现实场景以形成不同的导播画面或直播画面。

5.根据权利要求4所述的音频数据处理方法，其特征在于，控制虚拟摄像机根据所述音频数据确定对应的导播画面或直播画面包括：

利用所述音场数据确定所述虚拟三维空间内待对准的目标定位点；

按照预设控制规则调整所述多个虚拟摄像机的位置和朝向，以使所述多个虚拟摄像机对准所述目标定位点；

响应接收到的控制指令，从所述多个虚拟摄像机中确定目标虚拟摄像机；

将直转播镜头切换至所述目标虚拟摄像机，并播放所述目标虚拟摄像机对应的现实摄像机拍摄到的导播画面或直播画面。

6.根据权利要求4所述的音频数据处理方法，其特征在于，所述音频数据处理方法还包括：

当确定所述音场数据发生变化时，利用变化后的音场数据重新确定所述虚拟三维空间内待对准的目标定位点；

移动所述多个虚拟摄像机，以使所述多个虚拟摄像机重新对准所述目标定位点。

7.一种音频数据处理装置，其特征在于，包括：

接收模块，用于接收多个音频采集组件采集现实场景的音频数据，其中，所述音频数据包括用于描述现实场景的声音强度；

构建模块，用于基于所述音频数据构建与虚拟三维空间对应的音场，得到音场数据；

下发模块，用于通过客户端接收画面切换指令，控制虚拟摄像机根据所述音频数据确定对应的导播画面或直播画面。

8.一种计算机程序产品，其特征在于，当在数据处理设备上执行时，适于执行初始化权利要求1至6中任意一项所述的音频数据处理方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至6中任意一项所述的音频数据处理方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至6中任意一项所述的音频数据处理方法。