CN114422935B

CN114422935B - 音频处理方法、终端及计算机可读存储介质

Info

Publication number: CN114422935B
Application number: CN202210258905.3A
Authority: CN
Inventors: 吴黄伟
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-09-23
Anticipated expiration: 2042-03-16
Also published as: CN114422935A

Abstract

本申请公开了一种音频处理方法、终端及计算机可读存储介质，属于空间音频技术领域。所述方法包括：接收对目标应用的应用操作；根据应用操作，呈现目标应用的应用界面；根据应用界面的界面呈现形式或界面内容，确定待输出空间音频的虚拟音源的位置；根据虚拟音源的位置，确定佩戴耳机的用户的头部相对于虚拟音源的相对方位；根据该相对方位，调整输出到耳机的空间音频，以使输出到耳机的空间音频被用户感知为源自虚拟音源。如此，输出至耳机的空间音频的虚拟音源的位置可以随着应用界面的界面呈现形式或界面内容进行调整，扩展了空间音频的虚拟音源的设置方式，提高了空间音频的空间感和用户的听觉体验。

Description

音频处理方法、终端及计算机可读存储介质

技术领域

本申请涉及空间音频技术领域，特别涉及一种音频处理方法、终端及计算机可读存储介质。

背景技术

大多数耳机输出的音频只能被用户感知为从用户的正前方传来，无法还原声音的真实方向。比如当用户佩戴耳机时，无论与耳机连接的用户设备是在哪个方向，用户始终都会觉得声音是从正前方传来的。目前，为了提高用户收听声音的真实感和临场感，提出了空间音频技术，空间音频技术能够模拟声音的特定方向和位置，使得耳机输出的空间音频被用户感知为源自特定方位，这种模拟的特定方位（声音来源）被称为虚拟音源。

相关技术中，在用户佩戴耳机聆听音乐或观看视频时，一般将用户设备的屏幕中心设置为虚拟音源，当用户的头部位置或头部朝向发生变化时，可以通过耳机配置的陀螺仪等运动传感器检测用户的头部相对于虚拟音源的位置变化，根据用户的头部相对于虚拟音源的位置变化来调整输出到耳机的空间音频，以使耳机输出的空间音频被用户感知为一直源自用户设备的屏幕中心。比如，当用户正对用户设备的屏幕时，耳机输出的空间音频被用户感知为源自前方；当用户的头部向左转动后，耳机输出的空间音频被用户感知为源自右方。

但是，将用户设备的屏幕中心固定为空间音频的虚拟音源具有一定的局限性，灵活性较低，可能无法满足用户的听觉需求。

发明内容

本申请提供了一种音频处理方法、终端及计算机可读存储介质，可以解决将用户设备的屏幕中心固定为空间音频的虚拟音源具有一定的局限性，灵活性较低的问题。所述技术方案如下：

第一方面，提供了一种音频处理方法，应用于终端中，所述方法包括：

接收用户对目标应用的应用操作，根据该应用操作对目标应用的应用界面进行呈现。根据应用界面的界面呈现形式或界面内容，确定待输出空间音频的虚拟音源的位置。根据确定的虚拟音源的位置，确定佩戴耳机的用户的头部相对于该虚拟音源的相对方位。根据用户的头部相对于该虚拟音源的相对方位，调整输出到耳机的空间音频，以使输出到耳机的空间音频被用户感知为源自该虚拟音源。

其中，应用界面的界面呈现形式是指应用界面呈现给用户的形式。应用界面的界面呈现形式包括多种界面呈现形式，这多种界面呈现形式可以根据应用界面的界面显示区域在屏幕的占比，应用界面是否最小化为图标形式，应用界面在前台显示还在后台显示等情况进行分类。应理解，也可以根据其他情况进行分类。

比如，应用界面的界面呈现形式可以包括：应用界面的界面显示区域在屏幕的占比大于比例阈值，应用界面的界面显示区域在屏幕的占比小于或等于比例阈值，应用界面被最小化为图标形式，应用界面被切换至后台，应用界面被切换至前台等形式。

其中，该比例阈值可以根据需要预先设置，比如可以设置为25%或50%等，本申请实施例对此不做限定。

本申请实施例中，通过根据应用界面的界面呈现形式或界面内容确定空间音频的虚拟音源位置，然后根据佩戴耳机的用户的头部相对于虚拟音源的相对方位，调整输出到耳机的空间音频，可以使得输出至耳机的空间音频的虚拟音源的位置随着应用界面的界面呈现形式或界面内容进行调整，从而扩展了空间音频的虚拟音源的设置方式，提高了空间音频的空间感以及用户的听觉体验。

作为一个示例，在根据应用界面的界面呈现形式，确定待输出空间音频的虚拟音源的位置的情况下，应用界面的不同界面呈现形式对应的虚拟音源的位置不同。比如，第一种界面呈现形式对应于第一虚拟音源，第二种界面呈现形式对应于第二虚拟音源，第一虚拟音源和第二虚拟音源的位置不同。

作为一个示例，根据应用界面的界面呈现形式，确定待输出空间音频的虚拟音源的位置，包括以下方式中的一种或多种：

1）若应用界面的界面显示区域在屏幕的占比大于比值阈值，则将预设位置确定为待输出空间音频的虚拟音源的位置。

其中，该预设位置可以预先设置，比如该预设位置可以为用户头部的前方位置、屏幕中心位置或应用界面的界面中心位置等。或者，该预设位置也可以根据应用界面的界面内容确定，本申请实施例对此不做限定。

2）若应用界面的界面显示区域在屏幕的占比小于或等于比值阈值，则将应用界面的窗口位置确定为待输出空间音频的虚拟音源的位置。

其中，该窗口位置可以为窗口中心位置或窗口的其他位置。

3）若应用界面被最小化为图标形式，则将应用界面的最小化图标的位置确定为待输出空间音频的虚拟音源的位置。

其中，应用界面的最小化图标可以为显示在主界面的应用图标，也可以为显示在任务栏中的应用图标，本申请实施例对应用界面的最小化图标的图标形式和显示位置不做限定。

另外，最小化图标的位置可以为最小化图标的图标中心位置，也可以为最小化图标的其他位置，本申请实施例对此也不做限。

4）若应用界面被切换至后台，则将应用界面切换前对应的虚拟音源的位置朝屏幕发光方向的反方向移动指定距离后的位置确定为待输出空间音频的虚拟音源的位置。

也即是，如果应用界面被切换至后台，则将虚拟音源向屏幕的背部方向移动指定距离。

其中，指定距离可以预先设置，比如设置为10cm、20cm或30等，本申请实施例对此不做限定。

5）若应用界面被切换至前台，则将应用界面切换前对应的虚拟音源的位置朝屏幕发光方向移动指定距离后的位置确定为待输出空间音频的虚拟音源的位置。

也即是，如果应用界面被重新切换至前台，则将虚拟音源向屏幕前方移动指定距离。

应理解，不同界面呈现形式对应的虚拟音源的位置还可以设置为其他对应关系，本申请实施例对此不做限定。另外，还可以设置应用界面中的特定窗口的不同窗口呈现形式对应于不同的虚拟音源的位置。比如，设置视频应用中的视频播放窗口的不同窗口呈现形式对应于不同的虚拟音源的位置。

示例地，应用界面中的特定窗口的不同窗口呈现形式对应的虚拟音源的位置可以包括：

若特定窗口在屏幕的占比大于比值阈值，则将预设位置确定为待输出空间音频的虚拟音源的位置。若特定窗口的界面显示区域在屏幕的占比小于或等于比值阈值，则将特定窗口的窗口位置确定为待输出空间音频的虚拟音源的位置。若特定窗口被最小化为图标形式，则将特定窗口的最小化图标的位置确定为待输出空间音频的虚拟音源的位置。若特定窗口被切换至后台，则将特定窗口切换前对应的虚拟音源的位置朝屏幕发光方向的反方向移动指定距离后的位置确定为待输出空间音频的虚拟音源的位置。若特定窗口被切换至前台，则将特定窗口切换前对应的虚拟音源的位置朝屏幕发光方向移动指定距离后的位置确定为待输出空间音频的虚拟音源的位置。

作为一个示例，在根据应用界面的界面内容，确定待输出空间音频的虚拟音源的位置的情况下，可以确定应用界面中的发声位置，将应用界面中的发声位置确定为待输出空间音频的虚拟音源的位置。

其中，应用界面的界面内容可以包括应用界面中的发声位置，应用界面中的发声位置是指应用界面的显示画面中的声源位置。比如，应用界面中的正在发言的发言人的位置、比如正在发声的乐器或器械的位置等。其中，正在发声的乐器可以为正在击打的鼓、正在弹奏的钢琴等。

通过将应用界面中的发声位置设置为空间音频的虚拟音源的位置，可以使得用户感知的空间音频来自应用界面中的发声位置，随着发声位置的改变，用户感知的空间音频的虚拟声源也会随之改变，从而进一步提高了空间音频的空间感和用户的听觉体验。

比如，可以确定应用界面中发言人的指定部位的位置，将发言人的指定部位的位置确定为发声位置。其中，指定部位可以为口部或头部等。也即是，可以将应用界面中的发言人的口部位置或头部位置确定为待输出空间音频的虚拟音源的位置。

作为一个示例，确定应用界面中正在发言的发言人可以包括以下几种实现方式：

第一种实现方式：通过图像识别的方式来确定应用界面中正在发言的发言人。

比如，对应用界面进行人像识别，以确定应用界面中的人像。对应用界面中的人像进行说话动作识别，将应用界面中执行说话动作的人像确定为正在发言的发言人。

第二种实现方式：在应用界面为视频通话界面或视频会议界面的情况下，可以根据据正在视频通话或视频会议的各个用户的音频信号的强度，确定应用界面中正在发言的发言人。

比如，可以根据正在视频通话或视频会议的多个用户的音频信号的强度，从多个用户中确定正在发言的目标用户。将应用界面中所述目标用户的用户图像确定为正在发言的发言人。

比如，对于正在视频通话或视频会议的每个用户，判断该用户的音频信号的强度是否大于强度阈值。若大于，则将该用户确定为正在发言的用户。若不大于，则将该用户确定为未发言的用户。

其中，应用界面中的发声位置可能包括多个。当发声位置包括多个时，还可以将应用界面中的多个发声位置作为待输出空间音频的多个虚拟音源的位置，使得输出到耳机的空间音频被用户感知为源自多个虚拟音源。

其中，用户的头部相对于虚拟音源的相对方位可以包括用户的头部位置相对于虚拟音源的相对位置，以及用户的头部朝向相对于特定方向的相对方向。其中，特定方向可以预先设置，比如特定方向为用户的头部朝向虚拟音源的方向。应理解，特定方向也可以设置为其他方向，本申请实施例对此不做限定。

作为一个示例，可以通过摄像头采集佩戴耳机的用户的用户图像，根据该用户图像用户的头部相对于虚拟音源的相对方位。比如，可以通过摄像头采集用户的用户图像，根据采集的用户图像，确定用户的头部位置相对于虚拟音源的相对位置，以及头部朝向相对于头部朝向虚拟音源时的方向的相对方向。

应理解，还可以通过其他方式确定用户的头部相对于虚拟音源的相对方位。比如，耳机配置有陀螺仪和/或加速度传感器等运动传感器，耳机可以通过运动传感器测用户头部的运动信息，将检测的用户头部的运动信息发送给终端，由终端结合用户头部的运动信息和摄像头采集的用户图像，综合分析用户的头部相对于虚拟音源的相对方位。如此，可以进一步提高用户头部位置和朝向的检测准确性。

另外，终端还可以通过face ID技术识别用户的头部相对于虚拟音源的相对方位。比如，终端配置有传感器集合和点阵投影仪，通过传感器集合和点阵投影仪投射的点阵构建用户的3D脸部模型来识别用户的面部信息，根据识别的面部信息分析用户的头部相对于虚拟音源的相对位置和相对方向。其中，传感器集合可以包括环境光传感器、距离传感器、红外镜头和泛光感应元件等。

第二方面，提供了一种音频处理装置，所述音频处理装置具有实现上述第一方面中音频处理方法行为的功能。所述音频处理装置包括至少一个模块，所述至少一个模块用于实现上述第一方面所提供的音频处理方法。

第三方面，提供了一种音频处理装置，所述音频处理装置的结构中包括处理器和存储器，所述存储器用于存储支持音频处理装置执行上述第一方面所提供的音频处理方法的程序，以及存储用于实现上述第一方面所述的音频处理方法所涉及的数据。所述处理器被配置为用于执行所述存储器中存储的程序。所述音频处理装置还可以包括通信总线，所述通信总线用于在所述处理器与所述存储器之间建立连接。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的音频处理方法。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的音频处理方法。

上述第二方面、第三方面、第四方面和第五方面所获得的技术效果与上述第一方面中对应的技术手段获得的技术效果近似，在这里不再赘述。

附图说明

图1是本申请实施例提供的一种空间音频的空间方位示意图；

图2是本申请实施例提供的一种用户佩戴耳机观看视频的场景示意图；

图3是本申请实施例提供的又一种用户佩戴耳机观看视频的场景示意图；

图4是本申请实施例提供的一种视频应用的应用界面的变化和对应的虚拟音源的位置变化示意图；

图5是本申请实施例提供的又一种视频应用的应用界面的变化和对应的虚拟音源的位置变化示意图；

图6是本申请实施例提供的一种多人视频通话的场景示意图；

图7是本申请实施例提供的又一种多人视频通话的场景示意图；

图8是本申请实施例提供的一种终端的软件***的框图；

图9是本申请实施例提供的一种音频处理方法的流程图；

图10是本申请实施例提供的又一种音频处理方法的流程图；

图11是本申请实施例提供的另一种音频处理方法的流程图；

图12是本申请实施例提供的另一种音频处理方法的流程图；

图13是本申请实施例提供的另一种音频处理方法的流程图；

图14是本申请实施例提供的另一种音频处理方法的流程图；

图15是本申请实施例提供的另一种音频处理方法的流程图；

图16是本申请实施例提供的另一种视频处理方法的流程图；

图17是本申请实施例提供的一种终端的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请的实施方式作进一步地详细描述。

应当理解的是，本申请提及的“多个”是指两个或两个以上。在本申请的描述中，除非另有说明，“/”表示或的意思，比如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，比如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，为了便于清楚描述本申请的技术方案，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

首先，为了便于理解，先对本申请实施例涉及的名词进行解释。

空间音频技术

空间音频技术是指将声音模拟为从特定方向和位置发出。从某种程度上说，空间音频技术更像是对声音进行“定位”，使得用户设备输出的空间音频被用户感知为源自模拟的特定方位。这种模拟的特定方位（即模拟的声音来源）通常称为虚拟音源。

空间音频技术就是将环绕声道精准置于合适的方位，使用户转动头部或者移动设备就能感受到身临其境的环绕声体验。这种模拟不仅仅只是传统环绕声效果，而是将用户设备模拟为空间中固定位置的音响设备，即模拟为虚拟音源。

空间音频也就是通过空间音频技术生成的能够被用户感知为源自虚拟音源的音频，即在用户听感上源自虚拟音源的音频。

空间音频技术可以通过定向音频滤波，以及对用户双耳接收到的声音频率进行调整，来模拟声音的空间感，实现对特定方位的声音的模拟，生成空间音频。

请参考图1，图1是本申请实施例提供的一种空间音频的空间方位示意图。如图1所示，可以将原始音频通过空间音频技术处理为在用户听感上源自前、后、左、右、上、下等维度的空间音频，使得空间音频播放后可以被用户感知为来自前、后、左、右、上、下等特定方位。这些特定方位并不是原始音频的实际音源，而是通过空间音频技术模拟的虚拟音源。

需要说明的是，本申请涉及的音频处理方法适用于任何具有显示功能和音频处理功能的终端，例如手机、平板电脑、计算机、智能电视、VR设备或智能可穿戴设备等，本申请对此不做限定。终端与支持空间音频播放功能的音频播放设备连接，音频播放设备用于接收终端输出的空间音频，并对接收的空间音频进行播放。音频播放器可以为支持空间音频的耳机等，耳机与终端通过蓝牙等连接方式连接。当然，该终端也可以集成音频播放设备，在生成空间音频后由自身集成的音频播放设备播放空间音频。下文为了便于描述，将以终端是平板电脑、音频播放设备是与平板电脑连接的耳机为例进行举例说明。

请参考图2，图2是本申请实施例提供的一种用户佩戴耳机观看视频的场景示意图，如图2所示，用户前方放置有平板电脑10，用户头部佩戴耳机20，耳机20与平板电脑10通过蓝牙连接。平板电脑10中安装有视频应用，用户可以打开视频应用，观看视频应用播放的视频，并通过佩戴的耳机20收听视频应用输出的音频。应理解，图2仅是以通过视频应用输出音频为例进行说明，当然视频应用还可以为视频通话应用、视频会议应用或音乐应用等能够输出音频的其他应用。

相关技术中，空间音频技术的应用一般是将平板电脑10的屏幕设置为固定的虚拟音源，比如将平板电脑的屏幕中心设置为虚拟音源。也即是，在用户对视频应用的应用界面进行操作的过程中，无论应用界面的界面内容或界面呈现形式发生何种变化，视频应用采用空间音频技术输出到耳机20的空间音频的虚拟音源不变，一直是平板电脑的屏幕中心，使得耳机20播放的空间音频一直被用户感知为来自平板电脑10的屏幕中心。

另外，在虚拟音源的位置固定不变的情况下，在用户通过佩戴的耳机20收听音频的过程中，若用户的头部位置或头部朝向发生变化，也会导致耳朵与虚拟音源的位置发生改变。为了使用户能够感知这种位置变化，耳机20配置有加速度传感器、陀螺仪等运动传感器，通过运动传感器来追踪用户的头部动作，根据用户的头部动作确定用户的头部相对于平板电脑10的屏幕中心的相对位置变化以及头部朝向变化，并将用户头部的相对位置变化和头部朝向变化发送给视频应用，由视频应用根据用户头部的相对位置变化和头部朝向变化来调整输出到耳机20的空间音频，以使输出到耳机20的空间音频在播放后被用户感知为源自虚拟音源。也即是，当用户头部相对于虚拟音源的相对位置和头部朝向发生变化时，可以对空间音频进行调整，来模拟声音的空间感的变化，比如模拟声音强弱的变化，使得用户能够感知头部相对于虚拟音源的方位变化。

如图2所示，用户正对平板电脑10时，耳机20可以通过配置的运动传感器追踪到用户的头部动作，根据头部动作信息分析头部位置相对于平板电脑10的屏幕中心的相对位置1以及头部朝向屏幕中心的头部朝向1，根据相对位置1和头部朝向1对视频应用的音频参数进行处理，生成被用户感知为源自前方的空间音频1，将空间音频1输出到耳机20进行播放。

如图3所示，用户的头部向左扭转后，耳机20可以通过配置的运动传感器追踪到用户头部向左扭转的头部动作，通过头部动作信息分析头部位置相对于平板电脑10的屏幕中心的相对位置2以及头部朝向左侧的头部朝向2，根据相对位置2和头部朝向2对视频应用的音频参数进行处理，生成被用户感知为源自右侧的空间音频2，将空间音频2输出到耳机20进行播放。

但是，上述将平板电脑10的屏幕位置作为空间音频的固定虚拟音源的音频处理方式具有一定的局限性，可能无法满足用户的听感需求，灵活性较低。比如，如果将输出的空间音频的虚拟音源固定为屏幕中心位置，输出的空间音频并不能体现应用界面的界面变化，灵活性较低。本申请实施例中为了提高空间音频的空间感和灵活性，满足用户的听感需求，提出了一种可以根据应用界面的界面内容或界面呈现形式的变化，来对应调整空间音频的虚拟音源的位置的音频处理方法，使得用户设备输出的空间音频的虚拟音源随着应用界面的界面内容或界面呈现形式的变化对应发生改变，即用户感知的空间音频可以随着应用界面的变化源自不同的位置，进而使得用户感知的空间音频可以体现应用界面的界面变化，提高空间音频的空间感和用户的听觉体验。

接下来，以视频应用为例，对根据应用界面的界面呈现形式的变化调整输出的空间音频的虚拟音源的位置进行举例说明。应理解，根据应用界面的界面呈现形式的变化调整对应输出的空间音频的虚拟音源的位置也可以应用在其他应用中，比如应用于音乐播放应用、视频通话应用、视频会议应用等，本申请实施例对此不做限定。

请参考图4-图5，图4-图5是本申请实施例提供的视频应用的应用界面的变化和对应的虚拟音源的位置变化示意图。基于图2所示的应用场景，用户打开平板电脑10的视频应用，并佩戴支持空间音频播放功能的耳机20，耳机20与平板电脑10通过蓝牙连接。用户在视频应用的应用界面中执行视频播放操作，响应于用户的操作，平板电脑20显示如图4中的（a）图所示的用户界面401，用户界面401为视频应用的应用界面1，即应用界面1以全屏幕形式显示（应用界面1的界面显示区域占据屏幕的全部区域），且应用界面1包括在界面中最大化显示的视频播放窗口，即视频播放窗口占据应用界面1的全部区域。在应用界面1全屏幕显示的情况下，视频应用可以将应用界面1的位置作为待输出的空间音频的虚拟音源（虚拟音源1），根据视频的音频参数生成虚拟音源为虚拟音源1的空间音频，将生成的空间音频输出至耳机20进行播放，使得耳机20播放的空间音频被用户感知为源自虚拟音源1。

应理解，图4中的（a）图仅是以应用界面1的位置为应用界面1的界面中心为例，应用界面1的位置还可以为应用界面1的其他位置，本申请实施例对此不做限定等。另外，视频应用还可以在应用界面1的界面显示区域在屏幕的占比大于一定比例阈值时，将虚拟音源1作为待输出的空间音频的虚拟音源。比例阈值可以预先设置，比如可以设置为25%等。

若用户在应用界面1执行窗口缩小操作，响应于用户的操作，平板电脑10显示如图4中的（b）图所示的用户界面402，用户界面402包括窗口缩小后的视频应用的应用界面2以及被应用界面2遮挡的主界面，主界面显示有备忘录、音乐、视频、图库等应用的应用图标，应用界面2的界面显示区域在屏幕的占比小于或等于比例阈值。在视频应用的应用界面的窗口被缩小至在屏幕的占比小于或等于比例阈值的情况下，比如缩小至屏幕的50%时，视频应用可以将窗口缩小后的应用界面2的位置作为虚拟音源（虚拟音源2），根据视频的音频参数生成虚拟音源为虚拟音源2的空间音频，将生成的空间音频输出至耳机20进行播放，使得耳机20播放的空间音频被用户感知为源自虚拟音源2。应理解，图4中的（b）图仅是以应用界面2的位置为应用界面2的界面中心为例，应用界面2的位置还可以为应用界面2的其他位置，本申请实施例对此不做限定等。

若用户对应用界面2执行窗口最小化操作，比如点击应用界面2右上角的最小化按钮，响应于用户的操作，平板电脑10将视频应用最小化，并显示如图4中的（c）图所示的用户界面403，用户界面403显示有视频应用的最小化图标，该最小化图标为在主界面显示的视频应用的应用图标。在视频应用最小化的情况下，视频应用可以将视频应用的最小化图标的位置作为虚拟音源（虚拟音源3），根据视频的音频参数生成虚拟音源为虚拟音源3的空间音频，将生成的空间音频输出至耳机20进行播放，使得耳机20播放的空间音频被用户感知为源自虚拟音源3。其中，最小化图标的位置可以为最小化图标的图标中心等。

请参考图5中的（a）图，若用户在应用界面2执行将视频应用切换至后台的操作，比如点击用备忘录应用的应用图标，打开备忘录应用以将备忘录应用切换至前台运行，响应于用户的操作，平板电脑10将备忘录应用切换至前台运行、视频应用切换至后台运行，并显示如图5中的（b）图所示的用户界面404，用户界面404包括备忘录应用的应用界面3以及被应用界面3遮挡的视频应用的应用界面2。在视频应用被切换至后台的情况下，视频应用可以将视频应用被切换至后台前的虚拟音源（虚拟音源2）的位置朝屏幕的发光方向的反方向（背向屏幕的方向）移动指定距离的位置作为虚拟音源（虚拟音源4），根据视频的音频参数生成虚拟音源为虚拟音源4的空间音频，将生成的空间音频输出至耳机20进行播放，使得耳机20播放的空间音频被用户感知为源自虚拟音源4。如此，用户可以感知耳机输出的空间音频的在听觉上向屏幕后方发生了移动，通过将用户感知的空间音频的虚拟音源向屏幕背后移动模拟了视频应用从前台切换至后台的效果。

若用户在应用界面2执行将视频应用切换至前台的操作，比如点击备忘录应用的应用界面3右上角的关闭按钮，响应于用户的操作，平板电脑10关闭备忘录应用，并将视频应用重新切换至前台运行，显示如图5中的（c）图所示的用户界面405，用户界面405包括重新显示在前台的视频应用的应用界面2。在视频应用从后台重新切换至前台的情况下，视频应用可以将视频应用被切换至前台前的虚拟音源（虚拟音源4）的位置朝屏幕的发光方向（屏幕前方）移动指定距离的位置作为虚拟音源（虚拟音源5），根据视频的音频参数生成虚拟音源为虚拟音源5的空间音频，将生成的空间音频输出至耳机20进行播放，使得播放的空间音频被用户感知为源自虚拟音源5。如此，用户可以感知耳机输出的空间音频的在听觉上向屏幕前方发生了移动，通过将用户感知的空间音频的虚拟音源向屏幕发光方向移动模拟了视频应用从后台切换至前台的效果。

另外，在确定虚拟音源的位置之后，视频应用可以根据虚拟音源的位置和视频的音频参数生成空间音频。在根据虚拟音源的位置和视频的音频参数生成空间音频的过程中，视频应用可以调用平板电脑10的摄像头，通过摄像头采集用户图像，根据采集的用户图像分析用户的头部位置和头部朝向，进而确定用户的头部位置相对于虚拟音源的位置的相对位置，然后根据相对位置和头部朝向，对视频的音频参数进行处理，生成虚拟音源为确定的虚拟音源的空间音频。比如，在确定虚拟音源1之后，视频应用可以根据用户的头部位置相对于虚拟音源1的位置的相对位置和头部朝向，对视频的音频参数进行处理，生成虚拟音源为虚拟音源1的空间音频。

另外，在根据采集的用户图像分析用户的头部位置和头部朝向之后，还可以确定用户头部朝向相对于头部朝向虚拟音源的方向的相对方向，根据用户头部的相对位置和相对方向，对视频的音频参数进行处理，生成虚拟音源为虚拟音源1的空间音频。比如，在确定虚拟音源1之后，视频应用可以根据用户的头部位置相对于虚拟音源1的位置的相对位置，以及用户头部朝向相对于虚拟音源1的相对方向，对视频的音频参数进行处理，生成虚拟音源为虚拟音源1的空间音频。

应理解，本申请实施例仅是以图4和图5所示的几种界面呈现形式分别对应的虚拟音源的位置为例进行说明，在其他实施例中，不同界面呈现形式以及对应的虚拟音源的位置还可以设置为其他对应关系，本申请实施例对此不做限定。

另外，图4和图5仅是以应用界面的不同界面呈现形式对应于不同的虚拟音源的位置为例进行说明，而在其他实施例中，还可以设置应用界面中的特定窗口的不同窗口呈现形式对应于不同的虚拟音源的位置。比如，以视频应用的应用界面中的视频播放窗口为例，视频播放窗口的不同窗口呈现形式与空间音频的虚拟音源的位置的对应关系可以如表1所示：

应理解，视频播放窗口的不同窗口呈现形式与空间音频的虚拟音源的位置的对应关系还可以设置为其他对应关系，本申请实施例对此不做限定。

接下来，以视频通话应用为例，对根据应用界面的界面内容的变化调整输出的空间音频的虚拟音源的位置进行举例说明。应理解，根据应用界面的界面内容的变化调整对应输出的空间音频的虚拟音源的位置也可以应用在其他应用中，比如应用于视频会议应用或视频应用等，本申请实施例对此不做限定。

请参考图6，图6是本申请实施例提供的一种多人视频通话的场景示意图。如图6所示，A、B、C三人使用各自的终端进行视频通话。其中，C使用平板电脑10与A、B进行视频通话，并佩戴支持空间音频的耳机20收听平板电脑10输出的音频。

平板电脑10安装有视频通话应用，C通过视频通话应用与A、B进行多人视频通话。在多人视频通话的过程中，平板电脑10显示视频通话界面601，视频通话界面601包括A、B、C的用户图像。在检测到A发言时，视频通话应用可以将视频通话界面601中A的口部位置作为虚拟音源1，同时视频通话应用根据C的用户图像分析C的头部位置和头部朝向，确定C的头部相对于虚拟音源1的相对方位，根据该相对方位，对视频通话应用的音频参数进行处理，生成虚拟音源为虚拟音源1的空间音频，将生成的空间音频输出到耳机20进行播放，使得耳机20播放的空间音频被用户感知为源自视频通话界面601中A的口部位置。其中，该相对方位可以包括用户的头部位置相对于虚拟音源1的相对位置，以及用户的头部朝向相对于头部朝向虚拟音源1时的方向的相对方向。

请参考图7，视频通话切换至B发言后，平板电脑10显示如图7所示的视频通话界面701，视频通话界面701包括A、B、C的用户图像。视频通话应用检测到切换至B发言时，将视频通话界面701中B的口部位置作为虚拟音源2，同时根据C的用户图像分析用户的头部位置和头部朝向，确定用户的头部相对于虚拟音源2的相对方位，根据该相对方位，对视频通话应用的音频参数进行处理，生成虚拟音源为虚拟音源2的空间音频，将生成的空间音频输出到耳机20进行播放，使得耳机20播放的空间音频被用户感知为源自视频通话界面701中B的口部位置。

另外，若检测到A和B同时发言，视频通话应用还可以将视频通话界面中A的口部位置和B的口部位置分别作为虚拟音源3和虚拟音源4，同时视频通话应用根据C的用户图像分析用户的头部位置和头部朝向，确定用户的头部分别相对于虚拟音源3和虚拟音源4的相对方位，根据用户的头部分别相对于虚拟音源3和虚拟音源4的相对方位，对视频通话应用的音频参数进行处理，生成虚拟音源为虚拟音源3和虚拟音源4的空间音频，将生成的空间音频输出到耳机20进行播放，使得耳机20播放的空间音频被用户感知为源自视频通话界面中A的口部位置和B的口部位置，即来自两个虚拟音源。

应理解，本申请实施例仅是以将视频通话界面中发言人的口部位置设置为待输出的空间音频的虚拟音源为例进行说明，而在其他实施例中，还可以将视频通话界面中发言人的头部位置等其他位置设置为虚拟音源，本申请实施例对此不做限定。

另外，本申请实施例仅是以视频通话应用的视频通话界面的界面内容的不同对应设置不同的虚拟音源，而在其他实施例中，还可以根据其他应用的应用界面的界面内容的不同对应设置不同的虚拟音源，比如其他应用可以为视频应用的视频播放界面、视频会议应用的视频会议界面、游戏应用的游戏界面等，本申请实施例对此不做限定。

另外，除了将应用界面中发言人的位置设置为虚拟音源之外，还可以将应用界面中正在发声的其他目标对象的位置设置为虚拟音源，比如正在发声的乐器或器械等。示例地，正在发声的乐器可以为正在击打的鼓、正在弹奏的钢琴等。通过将应用界面中的发声位置设置为空间音频的虚拟音源，可以使得用户感知的空间音频来自应用界面中的发声位置，随着发声位置的改变，用户感知的空间音频的虚拟声源也会随之改变，从而进一步提高了空间音频的空间感和用户的听觉体验。

接下来，对本申请实施例涉及的终端的软件***予以说明。

终端的软件***可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的安卓（Android）***为例，对终端的软件***进行示例性说明。

图8是本申请实施例提供的一种终端的软件***的框图。参见图8，分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android***分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时（Android runtime）和***层，以及内核层。

应用程序层可以包括一系列应用程序包。如图8所示，应用程序包可以包括目标应用，蓝牙等应用程序。目标应用可以为视频，视频通话，视频会议，音乐，通话等需要输出音频的应用程序。目标应用可以将待输出的音频参数处理为空间音频进行输出。如图8所示，视频应用程序（application，APP）等目标应用可以包括应用界面识别模块、用户头部识别模块和空间音频处理模块。

应用界面识别模块用于识别目标应用的界面内容或界面呈现形式。比如，应用界面识别模块包括界面内容识别模块和界面呈现形式识别模块。界面内容识别模块用于识别应用界面中与目标应用的音频参数对应的发声位置，比如识别发言人的口部或头部的位置。界面呈现形式识别模块用于识别应用界面的界面呈现形式，比如应用界面在屏幕的占比、应用界面是否被最小化为图标、应用界面是否被切换至后台、应用界面是否被切换至前台等。

用户头部识别模块用于识别佩戴耳机的用户的头部位置和头部朝向。比如，用户头部识别模块可以通过摄像头采集的佩戴耳机的用户的用户图像，来识别用户的头部位置和头部朝向。或者，根据通过摄像头采集的佩戴耳机的用户的用户图像，以及耳机发送的耳机通过加速度传感器和/或陀螺仪等加速度传感器检测的传感器信息，综合确定用户的头部位置和头部朝向。当然，用户识别模块也可以通过其他技术识别佩戴耳机的用户的头部位置和头部朝向，比如通过面容身份识别（face identity document，face ID）技术，识别用户的头部位置和头部朝向，本申请实施例对此不做限定。

空间音频处理模块用于根据应用界面识别模块识别出的目标应用的界面内容或界面呈现形式，确定待输出的空间音频的虚拟音源的位置。再根据用户头部识别模块识别出的用户的头部位置和头部朝向，确定用户的头部位置相对于虚拟音源的相对位置以及头部朝向相对于头部朝向虚拟音源方向的相对方向。根据该相对位置和相对方向对目标应用的音频参数进行处理，生成被用户感知为源自确定的虚拟音源的空间音频。

应用程序框架层为应用程序层的应用程序提供应用编程接口（applicationprogramming interface，API）和编程框架。应用程序框架层包括一些预先定义的函数。如图8所示，应用程序框架层可以包括窗口管理器，摄像头API，视图***等。窗口管理器用于管理窗口程序。比如，窗口管理器可以获取窗口信息，比如获取显示屏大小和应用界面的窗口大小，判断应用界面是否被最小化为图标，是否在前台显示，是否在后台显示等。视图***包括可视控件，比如显示文字的控件，显示图片的控件等。摄像头API为摄像头的调用接口，用于调用摄像头拍摄图像。视图***可用于构建应用程序的显示界面，显示界面可以由一个或多个视图组成，比如包括显示图片或视频的视图。

比如，界面识别模块可以获取窗口管理器检测的窗口信息，根据窗口信息确定目标应用的界面呈现形式。或者，由窗口管理器检测窗口信息，根据检测的窗口信息确定目标应用的界面呈现形式，将目标应用的界面呈现形式发送给界面识别模块。

比如，用户识别模块可以调用摄像头API，通过摄像头API启动摄像头，获取摄像头采集佩戴耳机的用户的用户图像，然后对获取的用户图像进行图像识别，以确定用户的头部位置和头部朝向。

应理解，图8仅是以视频APP等目标应用中集成应用界面识别模块、用户头部识别模块和空间音频处理模块为例进行说明，而在其他实现方式中，应用程序框架层也可以包括空间音频处理模块，以及应用界面识别模块或用户头部识别模块等相关识别模块。视频APP可以调用应用程序框架层的相关模块实现相关功能。比如，调用应用程序框架层中的应用界面识别模块识别目标应用的应用界面的界面内容或界面呈现形式，或者调用应用程序框架层中的用户头部识别模块识别用户的头部位置和头部朝向，或者调用空间音频处理模块生成空间音频等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓***的调度和管理。核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

***库可以包括多个功能模块，比如：表面管理器（surface manager），媒体库（Media Libraries），三维图形处理库（比如：OpenGL ES），2D图形引擎（比如：SGL）等。表面管理器用于对显示子***进行管理，并且为多个应用程序提供了2D和3D图层的融合。媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，比如：MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动。显示驱动用于驱动显示器。摄像头驱动用于驱动摄像头。音频驱动用于驱动音频模块。

接下来，结合图8所示的软件***，以视频APP为例对申请实施例提出的音频处理方法进行详细说明。图9是本申请实施例提供的一种音频处理方法的流程图，如图9所示，该方法包括如下步骤：

步骤901：用户打开视频APP播放视频，同时佩戴支持空间音频的耳机来收听音频。

比如，用户点击终端100的屏幕显示的视频APP的图标，来打开视频APP。响应于用户的操作，终端100启动视频APP，显示视频APP的应用界面。用户可以在视频APP的应用界面执行视频播放操作来播放视频。

步骤902：视频APP根据用户的视频播放操作显示视频播放窗口1。

比如，视频APP的应用界面包括多个视频的视频封面。用户点击视频1的视频封面，响应于用户的操作，视频APP播放视频1，并在应用界面显示视频1的视频播放窗口。

其中，视频播放窗口1以全屏幕形式显示。

步骤903：视频APP调用摄像头API，通过摄像头API启动摄像头。

步骤904：摄像头采集佩戴耳机的用户的用户图像。

其中，用户图像包括用户头部或用户脸部，以根据用户图标识别用户头部的位置和朝向。

步骤905：摄像头将采集的用户图像发送给视频APP。

其中，摄像头可以为单目摄像头或双目摄像头。对于双目摄像头，双目摄像头可以将每个摄像头采集的用户图像发送给视频APP。

步骤906：窗口管理器检测视频播放窗口1在屏幕的占比为100%。

窗口管理器在检测到视频播放窗口1时，可以检测视频播放窗口1的窗口大小以及屏幕大小，然后根据视频播放窗口1的窗口大小和屏幕大小，确定视频播放窗口1在屏幕的占比。

应理解，本申请实施例仅是以视频播放窗口1以全屏幕形式显示，视频播放窗口1在屏幕的占比为100%为例进行说明，视频播放窗口1在屏幕的占比还可以为其他占比，比如80%等，本申请实施例对此不做限定。

步骤907：窗口管理器将视频播放窗口1在屏幕的占比作为检测结果1发送给视频APP。

步骤908：视频APP接收窗口管理器发送的检测结果1，根据检测结果1确定视频播放窗口1在屏幕的占比大于25%，则将屏幕的中心位置作为虚拟音源1。

本申请实施例中，视频播放窗口的不同窗口呈现形式对应于不同的虚拟音源的位置，不同窗口呈现形式可以包括窗口在屏幕的占比大于25%，窗口在屏幕的占比小于或等于25%，窗口被最小化为图标，窗口被切换至后台，窗口被切换至前台等。其中，窗口呈现形式和虚拟音源的位置的对应关系可以预先设置。该对应关系可以默认设置，也可以由用户自定义设置，本申请实施例对此不做限定。

视频APP接收到窗口管理器发送的检测结果1，可以根据检测结果1判断视频播放窗口1在屏幕的占比是否大于25%，若确定视频播放窗口1在屏幕的占比大于25%，则从预先设置的对应关系中确定视频播放窗口1在屏幕的占比大于25%这种窗口呈现形式对应的虚拟音源的位置作为虚拟音源1。比如，视频播放窗口1在屏幕的占比大于25%的窗口呈现形式对应的虚拟音源的位置为屏幕的中心位置。应理解，这种窗口呈现形式对应的虚拟音源的位置也可以为其他位置，比如视频播放窗口1的窗口中心位置等。

应理解，本申请实施例仅是以25%作为视频播放窗口1在屏幕的占比的比例阈值为为例进行说明，而在其他实施例中，该比例阈值还可以为50%、75%等其他比例，本申请实施例对此不做限定。

另外，本申请实施例仅是以由窗口管理器检测视频播放窗口1在屏幕的占比，将视频播放窗口1在屏幕的占比发送给视频APP为例进行说明，而在其他实施例，窗口管理器在检测到视频播放窗口1在屏幕的占比之后，还可以判断视频播放窗口1在屏幕的占比是否大于比例阈值，将判断结果发送给视频APP。或者，窗口管理器还可以可以检测视频播放窗口1的窗口大小以及屏幕大小，将视频播放窗口1的窗口大小以及屏幕大小发送给视频APP，由视频APP根据视频播放窗口1的窗口大小和屏幕大小，确定视频播放窗口1在屏幕的占比，进而判断视频播放窗口1在屏幕的占比是否大于比例阈值。

步骤909：视频APP接收摄像头发送的用户图像，根据用户图像和虚拟音源1的位置，确定用户的头部位置相对于虚拟音源1的相对位置，以及头部朝向相对于头部朝向虚拟音源1的方向的相对方向。

视频APP可以根据用户摄像头发送的用户图像，确定用户的头部位置和头部朝向，然后根据用户的头部位置和头部朝向，以及虚拟音源1的位置，确定用户的头部位置相对于虚拟音源1的相对位置，以及用户的头部朝向相对于头部朝向虚拟音源的方向的相对方向。

作为一个示例，若摄像头为双目摄像头，则视频APP可以根据双目摄像头采集的用户图像，确定用户的头部位置相对于虚拟音源的相对位置，以及头部朝向相对于头部朝向虚拟音源的方向的相对方向。若摄像头为单目摄像头，则视频APP可以根据单目摄像头采集的多帧用户图像，确定用户的头部位置相对于虚拟音源的相对位置，以及头部朝向相对于头部朝向虚拟音源的方向的相对方向。

应理解，本申请实施例仅是以通过对摄像头采集的图像来确定用户的头部相对于虚拟音源的相对位置和相对方向为例进行说明，而在其他实施例中，还可以采用其他方式来确定用户的头部相对于虚拟音源的相对位置和相对方向。

比如，耳机配置有加速度传感器和/或陀螺仪等运动传感器，耳机可以通过运动传感器检测用户头部的运动信息，将检测的用户头部的运动信息发送给视频APP，由视频APP结合用户头部的运动信息和摄像头采集的用户图像，综合分析用户的头部相对于虚拟音源的相对位置和相对方向。如此，可以进一步提高用户头部位置和朝向的检测准确性。

另外，视频APP还可以通过face ID技术分析用户的头部相对于虚拟音源的位置和方向。比如，终端100配置有传感器集合和点阵投影仪，通过传感器集合和点阵投影仪投射的点阵构建用户的3D脸部模型来识别用户的面部信息，根据识别的面部信息分析用户的头部相对于虚拟音源的相对位置和相对方向。其中，传感器集合可以包括环境光传感器、距离传感器、红外镜头和泛光感应元件等。

作为一个示例，可以在终端100未配置摄像头，或者摄像头无法使用的情况下，采用face ID技术分析用户的头部相对于虚拟音源的位置和方向。或者，在采用face ID技术基础上，结合耳机可以通过运动传感器检测到的用户头部的运动信息，综合分析用户的头部相对于虚拟音源的相对位置和相对方向。本申请实施例对此不做限定。

步骤910：视频APP根据确定的相对位置和相对方向，对视频APP的音频参数进行处理，生成以虚拟音源1为虚拟音源的空间音频1。

也即是，视频APP根据确定的相对位置和相对方向，对视频APP的音频参数进行处理，生成携带方位信息的空间音频1，该方位信息用于指示空间音频1的虚拟音源1的位置和方向，以使空间音频1被用户感知为源自虚拟音源1。

比如，视频APP可以根据确定的相对位置和相对方向，对音频参数进行定向音频滤波，以及对用户双耳接收到的声音频率进行调整，生成以虚拟音源1为虚拟音源的空间音频1。

步骤911：视频APP将空间音频1发送给耳机。

比如，视频APP可以将空间音频1以音频信号的形式发送给耳机。

步骤912：耳机播放空间音频1。

播放的空间音频1被用户收听后可以被感知为源自虚拟音源1，即用户在听觉上感知所听到的声音是从屏幕中心发出的，如此实现了将视频APP的音频参数模拟为源自屏幕中心的空间音频。

之后，若用户的头部位置或朝向发生变化时，还可以继续确定用户的头部位置相对于虚拟音源1的相对位置，以及头部朝向相对于头部朝向虚拟音源1的方向的相对方向，根据该相对位置和相对方向的变化，调整待输出到耳机的空间音频，以使输出到耳机的空间音频被用户感知为源自虚拟音源1。

另外，若视频播放窗口1的窗口呈现形式发生改变，则输出至耳机的空间音频的虚拟音源的位置也将随之发生改变。接下来，请参考图10，将对视频播放窗口1切换至窗口在屏幕的占比小于25%的窗口呈现形式时，对应调整输出到耳机的空间音频的过程进行说明。

步骤913：用户执行对视频播放窗口1的窗口缩小操作。

步骤914：视频APP将视频播放窗口1的窗口进行缩小，在应用界面上显示窗口缩小后的视频播放窗口2。

其中，视频播放窗口2小于视频播放窗口1的窗口大小。

步骤915：窗口管理器检测视频播放窗口2在屏幕的占比为25%。

步骤916：窗口管理器将视频播放窗口2在屏幕的占比作为检测结果2发送给视频APP。

步骤917：视频APP接收窗口管理器发送的检测结果2，根据检测结果2确定视频播放窗口2在屏幕的占比等于25%，将视频播放窗口2的窗口中心位置作为虚拟音源2。

应理解，频播放窗口2在屏幕的占比小于或等于25%时的窗口呈现形式对应的虚拟音源的位置还可以设置为其他位置，本申请实施例对此不做限定。

步骤918：摄像头将采集的用户图像发送给视频APP。

步骤919：视频APP接收摄像头发送的用户图像，根据用户图像和虚拟音源2的位置，确定用户的头部位置相对于虚拟音源2的相对位置，以及头部朝向相对于头部朝向虚拟音源2的方向的相对方向。

步骤920：视频APP根据确定的相对位置和相对方向，对视频APP的音频参数进行处理，生成以虚拟音源2为虚拟音源的空间音频2。

步骤921：视频APP将空间音频2发送给耳机。

比如，视频APP可以将空间音频2以音频信号的形式发送给耳机。

步骤922：耳机播放空间音频2。

播放的空间音频2被用户收听后可以被感知为源自虚拟音源2，即用户在听觉上感知听到的声音是从视频播放窗口2的窗口中心发出的，如此实现了将视频APP的音频参数模拟为源自视频播放窗口的窗口中心的空间音频。

另外，若视频播放窗口2发生改变，则虚拟音源2的位置也将随之发生改变，或者用户的头部位置或朝向发生变化，这些情况下，用户的头部位置相对于虚拟音源2的相对位置，以及头部朝向相对于头部朝向虚拟音源2的方向的相对方向也将发生变化。因此，在视频APP输出空间音频2之后，视频APP将继续确定用户的头部位置相对于虚拟音源2的相对位置，以及头部朝向相对于头部朝向虚拟音源2的方向的相对方向，根据该相对位置和相对方向的变化，继续调整待输出到耳机的空间音频，以使输出到耳机的空间音频被用户感知为源自视频播放窗口2的窗口中心。

若将视频APP的视频播放窗口最小化为图标形式，还可以将空间音频的虚拟音源的位置切换为视频播放窗口的最小化图标的位置。接下来，请参考图11，将对视频播放窗口2被最小化为图标时，对应调整输出到耳机的空间音频的过程进行说明。

步骤923：用户执行对视频播放窗口2的最小化操作。

比如，最小化操作可以为点击视频播放窗口2的右上角的最小化按钮的操作，当然也可以为其他最小化操作。

步骤924：视频APP将视频播放窗口2进行最小化，在屏幕显示视频播放窗口2的最小化图标。

其中，最小化图标可以为视频APP的应用图标。当然，最小化图标也可以为其他形式，如显示在任务栏中的最小化图标等。

步骤925：窗口管理器检测到视频播放窗口2以最小化图标显示。

步骤926：窗口管理器将视频播放窗口2以最小化图标显示作为检测结果3发送给视频APP。

步骤927：视频APP接收窗口管理器发送的检测结果3，根据窗口检测结果3，将视频播放窗口2的最小化图标的位置作为虚拟音源3。

比如，将最小化图标的图标中心位置作为虚拟音源3。

步骤928：摄像头将采集的用户图像发送给视频APP。

步骤929：视频APP接收摄像头发送的用户图像，根据用户图像和虚拟音源3的位置，确定用户的头部位置相对于虚拟音源3的相对位置，以及头部朝向相对于头部朝向虚拟音源3的方向的相对方向。

步骤930：视频APP根据确定的相对位置和相对方向，对视频APP的音频参数进行处理，生成以虚拟音源3为虚拟音源的空间音频3。

步骤931：视频APP将空间音频3发送给耳机。

步骤932：耳机播放空间音频3。

播放的空间音频3被用户收听后可以被感知为源自虚拟音源3，即用户在听觉上感知所听到的声音是从视频播放窗口2的最小化图标发出的，如此实现了将视频APP的音频参数模拟为源自视频播放窗口的最小化图标的空间音频。

接下来，请参考图11，将对视频播放窗口2被最小化为图标时，对应调整输出到耳机的空间音频的过程进行说明。

若将视频APP的视频播放窗口切换至后台，还可以将空间音频的虚拟音源的位置切换为朝背向屏幕的方向移动指定距离后的位置。接下来，请参考图12，将对视频播放窗口2被切换至后台时，对应调整输出到耳机的空间音频的过程进行说明。

步骤933：用户执行将视频播放窗口2从前台切换至后台的操作。

步骤934：视频APP将视频播放窗口2切换至后台显示。

比如，若用户打开其他应用的应用界面，以将视频播放窗口2切换至后台，则终端100在屏幕显示其他应用的应用界面以及被其他应用的应用界面遮挡的视频播放窗口2。

步骤935：窗口管理器检测到视频播放窗口2被切换至后台显示。

步骤936：窗口管理器将视频播放窗口2被切换至后台显示作为检测结果4发送给视频APP。

步骤937：视频APP接收窗口管理器发送的检测结果4，根据检测结果4，将切换前的虚拟音源2的位置朝屏幕发光方向的反方向移动20cm后的位置作为虚拟音源4。

比如，建立以屏幕的水平方向为X轴、在屏幕平面与X轴垂直的方向为Y轴、与X轴和Y轴相交的方向为Z轴的空间坐标系。根据检测结果4，可以将切换前的虚拟音源在X轴和Y轴的位置不变，在Z轴方向向屏幕背部移动20cm。

应理解，本申请实施例仅是以虚拟音源的位置移动20cm为例进行说明，虚拟音源的移动距离还可以为其他距离，比如10cm或30cm等，本申请实施例对此不做限定。

步骤938：摄像头将采集的用户图像发送给视频APP。

步骤939：视频APP接收摄像头发送的用户图像，根据用户图像和虚拟音源4的位置，确定用户的头部位置相对于虚拟音源4的相对位置，以及头部朝向相对于头部朝向虚拟音源4的方向的相对方向。

步骤940：视频APP根据确定的相对位置和相对方向，对视频APP的音频参数进行处理，生成以虚拟音源4为虚拟音源的空间音频4。

步骤941：视频APP将空间音频4发送给耳机。

比如，视频APP可以将空间音频4以音频信号的形式发送给耳机。

步骤942：耳机播放空间音频4。

播放的空间音频4被用户收听后可以被感知为源自虚拟音源4，使得用户在听觉上感知所听到的声音的音源向屏幕背后发生了移动，如此实现了在窗口被切换至后台时，将视频APP的音频参数模拟为虚拟音源向屏幕背后移动的空间音频。

若将视频APP的视频播放窗口重新切换至前台，还可以将空间音频的虚拟音源的位置切换为朝屏幕前方移动指定距离后的位置。接下来，请参考图13，将对视频播放窗口2被重新切换至前台时，对应调整输出到耳机的空间音频的过程进行说明。

步骤943：用户执行将视频播放窗口2从后台切换至前台的操作。

步骤944：视频APP将视频播放窗口2重新切换至前台显示。

步骤945：窗口管理器检测到视频播放窗口2被切换至前台显示。

步骤946：窗口管理器将视频播放窗口2被切换至前台显示作为检测结果5发送给视频APP。

步骤947：视频APP接收窗口管理器发送的检测结果5，根据检测结果5，将切换前的虚拟音源4的位置朝屏幕发光方向移动20cm后的位置作为虚拟音源5。

比如，在上述空间坐标系中，根据检测结果4，将切换前的虚拟音源在X轴和Y轴的位置不变，在Z轴方向向屏幕前方移动20cm。

其中，虚拟音源5的位置与虚拟音源2的位置相同。

步骤948：摄像头将采集的用户图像发送给视频APP。

步骤949：视频APP接收摄像头发送的用户图像，根据用户图像确定用户的头部位置相对于虚拟音源5的相对位置，以及头部朝向相对于头部朝向虚拟音源5的方向的相对方向。

步骤950：视频APP根据确定的相对位置和相对方向，对视频APP的音频参数进行处理，生成以虚拟音源5为虚拟音源的空间音频5。

步骤951：视频APP将空间音频5发送给耳机。

比如，视频APP可以将空间音频5以音频信号的形式发送给耳机。

步骤952：耳机播放空间音频5。

播放的空间音频5被用户收听后可以被感知为源自虚拟音源5，使得用户在听觉上感知所听到的声音的音源向屏幕前方发生了移动，如此实现了在将窗口重新切换至前台时，将视频APP的音频参数模拟为虚拟音源向屏幕前方移动的空间音频。

图14是本申请实施例提供的另一种音频处理方法的流程图，该方法的执行主体为终端100中安装的视频APP，终端100与耳机连接，如图14所示，该方法包括如下步骤：

步骤1401：视频APP根据用户的视频播放操作播放视频，向耳机输出空间音频。

其中，视频APP在播放视频的过程中，可以显示视频播放窗口。视频APP可以根据视频播放窗口的窗口呈现形式，确定待输出的空间音频的虚拟音源的位置，根据虚拟音源的位置对视频的音频参数进行处理，生成能够被用户感知为源自该虚拟音源的空间音频，向耳机输出生成的空间音频。

在向耳机输出空间音频的过程中，若视频播放窗口的窗口呈现方式发生变化，还可以根据视频播放窗口的窗口呈现方式，对空间音频的虚拟音源的位置进行切换，然后根据切换后的虚拟音源的位置，调整向耳机输出的空间音频，以使向耳机输出的空间音频被用户感知为源自切换后的虚拟音源。

接下来，通过以下步骤1402-步骤1414对根据视频播放窗口的窗口呈现方式的变化，对空间音频的虚拟音源的位置进行切换的过程进行举例说明。

步骤1402：在播放视频的过程中，接收用户对视频APP的视频播放窗口的窗口操作。

步骤1403：响应于用户的操作，视频APP对视频播放窗口的窗口呈现方式进行调整。

步骤1404：视频APP检测调整后的视频播放窗口在屏幕的占比是否大于比例阈值，若是，则执行步骤1405，若否，则执行步骤1407。

步骤1405：将空间音频的虚拟音源的位置切换为屏幕的中心位置。

步骤1406：视频APP基于切换后的虚拟音源的位置调整向耳机输出的空间音频，以使向耳机输出的空间音频被用户感知为源自切换后的虚拟音源。

步骤1407：视频APP检测调整后的视频播放窗口在屏幕的占比是否小于或等于比例阈值，若是，则执行步骤1408，若否，则执行步骤1409。

步骤1408：视频APP将空间音频的虚拟音源的位置切换为调整后的视频播放窗口的窗口中心位置，再执行步骤1406。

步骤1409：视频APP检测调整后的视频播放窗口是否被最小化为最小化图标，若是，则执行步骤1410，若否，则执行步骤1411。

步骤1410：视频APP将虚拟音源的位置切换为最小化图标的位置，再执行步骤1406。

步骤1411：视频APP检测调整后的视频播放窗口是否被切换至后台，若是，则执行步骤1412，若否，则执行步骤1413。

步骤1412：视频APP将虚拟音源的位置切换为朝屏幕的发光方向的反方向移动指定距离后的位置，再执行步骤1406。

步骤1413：视频APP检测调整后的视频播放窗口是否被切换至前台，若是，则执行步骤1414，若否，则不对虚拟音源的位置进行切换，并返回至步骤1402，继续接收用户对视频播放窗口的操作，以根据视频播放窗口的窗口呈现方式的变化，判断是否需要对虚拟音源的位置进行切换。

步骤1414：视频APP将虚拟音源的位置切换为朝屏幕的发光方向移动指定距离后的位置，再执行步骤1406。

应理解，本申请实施例仅是以在视频播放窗口的窗口呈现形式发生变化时，按照上述检测顺序对变化后的窗口呈现形式进行检测为例进行说明，这种检测顺序并不构成对窗口呈现形式的检测顺序的限定，在其他实施例中，还可以按照其他检测顺序进行检测，本申请实施例对此不做限定。另外，本申请实施例仅是视频播放窗口为例进行说明，而在其他实施例中，该视频播放窗口还可以为应用界面的其他窗口或者应用界面，本申请实施例对此不做限定。

接下来，结合图8所示的软件***，以视频通话APP为例对申请实施例提出的音频处理方法进行详细说明。图15是本申请实施例提供的另一种音频处理方法的流程图，如图15所示，该方法包括如下步骤：

步骤1501：C打开视频通话APP，通过视频通话APP与A、B进行三方视频通话，同时佩戴支持空间音频的耳机收听音频。

步骤1502：视频通话APP显示视频通话界面，视频通话界面包括A、B、C三人的用户图像。

应理解，视频通话界面也可以不包括B的用户图像，本申请实施例对此不做限定。

步骤1503：视频通话APP调用摄像头API，通过摄像头API调用摄像头。

步骤1504：摄像头采集佩戴耳机的C的用户图像。

其中，用户图像一般是包括用户头部的图像。

步骤1505：摄像头将采集的C的用户图像发送给视频通话APP。

需要说明的是，本申请实施例仅是以从摄像头获取摄像头采集的C的用户图像为例进行说明，而在其他实施例中，若视频通话界面包括C的用户图像，视频通话APP还可以直接从视频通话界面获取C的用户图像，本申请实施例对此不做限定。

步骤1506：视频通话APP若检测到A正在发言，则确定视频通话界面中的A的口部位置，将A的口部位置作为虚拟音源1。

在一个实施例中，视频通话APP可以对各个用户的用户图像进行图像识别，来检测正在发言的用户。比如，视频通话APP可以根据C的用户图像，识别C的面部动作或口部动作，根据C的面部动作或口部动作，来判断A是否正在发言。

在另一个实施例中，视频通话APP也可以根据接收到的来自各个用户的音频信号的强弱，来检测正在发言的用户。比如，判断接收到的来自C的音频信号的强度是否大于强度阈值，若大于强度阈值，则确定C正在发言。

应理解，视频通话APP也可以采用其他方式来检测正在发言的用户，本申请实施例对此不做限定。

步骤1507：视频APP接收摄像头发送的C的用户图像，根据C的用户图像和虚拟音源1的位置，确定当前C的头部位置相对于虚拟音源1的相对位置，以及头部朝向相对于头部朝向虚拟音源1的方向的相对方向。

步骤1508：视频APP根据确定的相对位置和相对方向，对视频APP的音频参数进行处理，生成以虚拟音源1为虚拟音源的空间音频1。

步骤1509：视频通话APP将空间音频1发送给耳机。

步骤1510：耳机播放空间音频1。

耳机播放的空间音频1被用户收听后，可以被用户感知为源自视频通话界面中正在发言的A的口部位置。

步骤1511：视频通话APP若检测到从A切换至B发言，则确定视频通话界面中B的口部位置，将B的口部位置作为虚拟音源2。

步骤1512：摄像头将采集的C的用户图像发送给视频通话APP。

步骤1513：视频APP接收摄像头发送的C的用户图像，根据C的用户图像确定当前C的头部位置相对于虚拟音源2的相对位置，以及头部朝向相对于头部朝向虚拟音源2的方向的相对方向。

步骤1514：视频APP根据确定的相对位置和相对方向，对视频APP的音频参数进行处理，生成以虚拟音源2为虚拟音源的空间音频2。

步骤1515：视频通话APP将空间音频2发送给耳机。

步骤1516：耳机播放空间音频2。

耳机播放的空间音频2被用户收听后，可以被用户感知为源自视频通话界面中正在发言的B的口部位置。

如此，可以根据视频通话界面中发言人的口部位置，改变虚拟音源的位置，并基于调整后的虚拟音源的位置来调整空间音频的输出，使得用户感知视频通话的音频源自发言人的口部，从而提高了空间音频的音频效果和用户的听觉体验。

图16是本申请实施例提供的另一种视频处理方法的流程图，该方法的执行主体为终端100中安装的视频通过APP，终端100与耳机连接，如图16所示，该方法包括如下步骤：

步骤1601：A、B、C三人进行视频通话，C佩戴支持空间音频的耳机收听音频。

步骤1602：视频通话APP显示视频通话界面，该视频通话界面包括A、B、C三人的用户图像。

其中，该视频通话APP为C使用的终端100上安装的视频通话APP。当然，该视频通话APP也可以为视频通话过程中的其他用户使用的终端安装的视频通话APP，本申请实施例对此不做限定。

步骤1603：视频通话APP若检测到视频通话过程中A正在发言，则确定视频通话界面中A的口部位置，将A的口部位置作为虚拟音源1。

步骤1604：视频通话APP通过摄像头采集C的用户图像，根据摄像头采集的C的用户画面和虚拟音源1的位置，确定C的头部位置相对于虚拟音源1的相对位置，以及头部朝向相对于头部朝向虚拟音源1的方向的相对方向，根据确定的相对位置和相对方向，调整向耳机输出的空间音频。

另外，在将A的口部位置作为虚拟音源1向耳机输出的空间音频之后，还可以检测视频通话界面中A的位置是否改变。若是，则返回至步骤1603，以继续确定视频通话界面中A的口部位置，根据将A的口部位置作为虚拟音源1。若否，则根据摄像头采集的C的用户图像，判断C的头部位置或头部朝向是否发生变化。若C的头部位置或头部朝向是否发生变化，则返回至步骤1604，以以继续根据摄像头采集的C的用户画面和虚拟音源1的位置，确定C的头部位置相对于虚拟音源1的相对位置，以及头部朝向相对于头部朝向虚拟音源1的方向的相对方向。若C的头部位置或头部朝向未发生变化，则继续向耳机输出空间音频。

步骤1605：视频通话APP若检测到视频通话过程中至B发言，则确定视频通话界面中的B的口部位置，将B的口部位置作为虚拟音源2。

步骤1606：视频通话APP通过摄像头采集C的用户图像，根据摄像头采集的C的用户画面和虚拟音源2的位置，确定C的头部位置相对于虚拟音源2的相对位置，以及头部朝向相对于头部朝向虚拟音源1的方向的相对方向，根据确定的相对位置和相对方向，调整向耳机输出的空间音频。

步骤1607：视频通话APP检测视频通话界面中B的位置是否改变。若是，则返回至步骤1605，以继续确定视频通话界面中B的口部位置，将重新确定的B的口部位置作为虚拟音源2，若否，则执行步骤1608。

步骤1608：视频通话APP根据摄像头采集的C的用户图像，检测C的头部位置或头部朝向是否发生变化。若是，则返回至步骤1606，以继续根据摄像头采集的C的用户画面和虚拟音源2的位置，确定C的头部位置相对于虚拟音源2的相对位置，以及头部朝向相对于头部朝向虚拟音源2的方向的相对方向，以根据重新确定的相对位置和方向调整输出至耳机的空间音频。若否，则继续向耳机输出的空间音频。

另外，若检测到视频通话过程中A和B同时发言，视频通话APP还可以分别确定视频通话界面中A的口部位置和B的口部位置，将A的口部位置和B的口部位置分别作为虚拟音源1和虚拟音源2。然后，通过摄像头采集的C的用户图像，分别确定C的头部位置相对于虚拟音源1的相对位置和头部朝向相对于头部朝向虚拟音源1的方向的相对方向，以及C的头部位置相对于虚拟音源2的相对位置和头部朝向相对于头部朝向虚拟音源2的方向的相对方向，根据确定的相对位置和相对方向，调整向耳机输出的空间音频，使得耳机播放的空间音频被用户感知为分别来自虚拟音源1和虚拟音源2这两个虚拟音源，也即是，用户可以感知A的声音从屏幕上的A的口部位置传来，B的声音从屏幕上B的口部位置传来。

图17是本申请实施例提供的一种终端的结构示意图。参见图17，终端100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线（universal serial bus，USB）接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块（subscriber identification module，SIM）卡接口195等。其中，传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对终端100的具体限定。在本申请另一些实施例中，终端100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，比如：处理器110可以包括应用处理器（application processor，AP），调制解调处理器，图形处理器（graphics processingunit，GPU），图像信号处理器（image signal processor，ISP），控制器，存储器，视频编解码器，数字信号处理器（digital signal processor，DSP），基带处理器，和/或神经网络处理器（neural-network processing unit，NPU）等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是终端100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从该存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了***的效率。

充电管理模块140用于从充电器接收充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为终端100供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193和无线通信模块160等供电。

终端100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。比如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在终端100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器（lownoise amplifier，LNA）等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备（不限于扬声器170A，受话器170B等）输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在终端100上的包括无线局域网（wireless localarea networks，WLAN）（如无线保真（wireless fidelity，Wi-Fi）网络），蓝牙（bluetooth，BT），全球导航卫星***（global navigation satellite system，GNSS），调频（frequencymodulation，FM），近距离无线通信技术（near field communication，NFC），红外技术（infrared，IR）等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。比如，终端100可以通过无线通信模块160与支持空间音频的耳机连接，通过无线通信模块160向耳机发送空间音频，由耳机进行播放。

在一些实施例中，终端100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得终端100可以通过无线通信技术与网络以及其他设备通信。

终端100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏（liquid crystal display，LCD），有机发光二极管（organic light-emittingdiode，OLED），有源矩阵有机发光二极体或主动矩阵有机发光二极体（active-matrixorganic light emitting diode，AMOLED），柔性发光二极管（flex light-emittingdiode，FLED），Miniled，MicroLed，Micro-oLed，量子点发光二极管（quantum dot lightemitting diodes，QLED）等。在一些实施例中，终端100可以包括1个或N个显示屏194，N为大于1的整数。

终端100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP 用于处理摄像头193反馈的数据。比如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件（charge coupled device，CCD）或互补金属氧化物半导体（complementary metal-oxide-semiconductor，CMOS）光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，终端100可以包括1个或N个摄像头193，N为大于1的整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。比如，当终端100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端100可以支持一种或多种视频编解码器。这样，终端100可以播放或录制多种编码格式的视频，比如：动态图像专家组（moving picture experts group，MPEG）1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络（neural-network，NN）计算处理器，通过借鉴生物神经网络结构，比如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端100的智能认知等应用，比如：图像识别，人脸识别，语音识别，文本理解等。比如，可以通过NPU识别应用界面的界面内容，比如，识别应用界面中正在发言的发言人等发声位置，或者识别用户图像中用户的头部动作等。

外部存储器接口120可以用于连接外部存储卡，比如Micro SD卡，实现扩展终端100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。比如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，计算机可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，来执行终端100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作***，至少一个功能所需的应用程序（比如声音播放功能，图像播放功能等）等。存储数据区可存储终端100在使用过程中所创建的数据（比如音频数据，电话本等）等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，比如至少一个磁盘存储器件，闪存器件，通用闪存存储器（universal flash storage，UFS）等。

终端100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D以及应用处理器等实现音频功能，比如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。比如，音频模块170可以将应用的空间音频信息转换成模拟音频信号输出至耳机。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。终端100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当终端100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。终端100可以设置至少一个麦克风170C。在另一些实施例中，终端100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动终端平台（open mobile terminal platform，OMTP）标准接口，美国蜂窝电信工业协会（cellular telecommunications industry association of the USA，CTIA）标准接口。比如，耳机接口170D用于连接支持空间音频的有线耳机，通过耳机接口170D向耳机输出空间音频。

按键190包括开机键，音量键等。按键190可以是机械按键，也可以是触摸式按键。终端100可以接收按键输入，产生与终端100的用户设置以及功能控制有关的键信号输入。马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。SIM卡接口195用于连接SIM卡。

在一个实施例中，终端100与耳机连接，该耳机支持播放空间音频。该耳机可以为覆耳式耳机、贴耳式耳机或入耳式耳机等，本申请实施例对该耳机的类型不做限定。

作为一个示例，该耳机配置有陀螺仪传感器和加速度传感器等运动传感器。耳机可以通过运动传感器检测佩戴耳机的用户的头部动作信息，将检测的头部动作信息发送给终端100。

其中，陀螺仪传感器可以用于确定用户头部的运动姿态。在一些实施例中，可以通过陀螺仪传感器确定用户头部围绕三个轴（即，x，y和z轴）的角速度。加速度传感器可以检测用户头部在各个方向上（一般为三轴）加速度的大小。当头部静止时可检测出重力的大小及方向。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，比如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（比如：同轴电缆、光纤、数据用户线（Digital Subscriber Line，DSL））或无线（比如：红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质，或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质（比如：软盘、硬盘、磁带）、光介质（比如：数字通用光盘（Digital Versatile Disc，DVD））或半导体介质（比如：固态硬盘（Solid State Disk，SSD））等。

以上所述为本申请提供的可选实施例，并不用以限制本申请，凡在本申请的揭露的技术范围之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频处理方法，其特征在于，应用于终端中，所述方法包括：

接收对目标应用的应用操作；

根据所述应用操作，呈现所述目标应用的应用界面；

确定所述应用界面的界面呈现形式，根据所述应用界面的界面呈现形式，确定待输出空间音频的虚拟音源的位置；

根据所述虚拟音源的位置，确定佩戴耳机的用户的头部相对于所述虚拟音源的相对方位，所述耳机与所述终端连接；

根据所述相对方位，调整输出到所述耳机的空间音频，以使输出到所述耳机的空间音频被所述用户感知为源自所述虚拟音源；

其中，所述根据所述应用界面的界面呈现形式，确定待输出空间音频的虚拟音源的位置，包括以下方式中的至少两种：

若所述应用界面的界面显示区域在屏幕的占比大于比值阈值，则将预设位置确定为待输出空间音频的虚拟音源的位置；

若所述应用界面的界面显示区域在屏幕的占比小于或等于比值阈值，则将所述应用界面的窗口位置确定为待输出空间音频的虚拟音源的位置；

若所述应用界面被最小化为图标形式，则将所述应用界面的最小化图标的位置确定为待输出空间音频的虚拟音源的位置；

若所述应用界面被切换至后台，则将所述应用界面切换前对应的虚拟音源的位置朝屏幕发光方向的反方向移动指定距离后的位置确定为待输出空间音频的虚拟音源的位置；

若所述应用界面被切换至前台，则将所述应用界面切换前对应的虚拟音源的位置朝屏幕发光方向移动指定距离后的位置确定为待输出空间音频的虚拟音源的位置。

2.如权利要求1所述的方法，其特征在于，在将预设位置确定为待输出空间音频的虚拟音源的位置的情况下，所述预设位置为所述屏幕的中心位置、所述应用界面的中心位置或者所述应用界面中的发声位置。

3.如权利要求1所述的方法，其特征在于，所述应用界面的界面呈现形式包括所述应用界面中指定窗口的窗口呈现形式。

4.如权利要求3所述的方法，其特征在于，所述目标应用为视频应用，所述指定窗口为视频播放窗口。

5.如权利要求1-4任一所述的方法，其特征在于，所述根据所述虚拟音源的位置，确定佩戴耳机的用户的头部相对于所述虚拟音源的相对方位，包括：

通过摄像头采集所述用户的用户图像；

根据采集的用户图像，确定所述用户的头部位置相对于所述虚拟音源的相对位置，以及头部朝向相对于头部朝向所述虚拟音源时的方向的相对方向。

6.如权利要求1-4任一所述的方法，其特征在于，所述根据所述相对方位，调整输出到所述耳机的空间音频，包括：

根据所述相对方位，对所述目标应用的音频参数进行处理，生成被感知为源自所述虚拟音源的空间音频；

向所述耳机发送生成的空间音频。

7.一种终端，其特征在于，所述终端包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的音频处理方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如权利要求1-6中任一项所述的音频处理方法。