CN114727212B

CN114727212B - 音频的处理方法及电子设备

Info

Publication number: CN114727212B
Application number: CN202210231526.5A
Authority: CN
Inventors: 杨昭; 韩欣宇
Original assignee: Beijing Honor Device Co Ltd
Current assignee: Beijing Honor Device Co Ltd
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-10-25
Anticipated expiration: 2042-03-10
Also published as: CN114727212A

Abstract

一种音频的处理方法及电子设备。在透传模式下，该方法可以通过左耳机和右耳机对环境音进行采集，并基于两个耳机采集到的两个音频信号得到该环境音的方位信息，在左右两个耳机对各自采集的环境音进行透传后，再基于上述方位信息获取该方位信息对应的空间线索，并将该空间线索叠加给左右耳机对环境音透传后得到的音频信号。这样，能保留透传后的音频的空间方位感，使用户在佩戴耳机的情况下也能够辨别环境中声音的具体方位。

Description

音频的处理方法及电子设备

技术领域

本申请涉及终端技术领域，尤其涉及音频的处理方法及电子设备。

背景技术

如今无线蓝牙耳机已经成为我们日常生活常见的电子设备。在佩戴蓝牙耳机时，由于耳机的隔绝作用，我们对外界的声音也会不那么敏感。但是，有时候我们在即使佩戴蓝牙耳机时，还是希望能够清楚的听到外界的声音。例如我们过马路要关注汽车鸣笛，公交上要关注站台广播，蓝牙耳机对外界声音的隔绝效果无疑给我们造成了不便。这时透传功能就起到了作用。为了让如耳机的佩戴者在佩戴耳机时可以同时听见现实生活中的环境声，某些耳机已经具备了透传功能。在透传功能开启后，用户即使佩戴着蓝牙耳机也能听见外部声音。

但是，现在的蓝牙耳机对环境中的音频信号进行透传后，所播放给佩戴者的声音会让佩戴者对空间环境的感知造成一定的混淆感，对用户的安全造成了威胁，同时也影响了用户体验感。

因此，在对环境音进行透传时，如何保持声音的空间信息，是本领域人员研究的重点。

发明内容

本申请的目的在于提供一种音频的处理方法、图形用户界面（graphic userinterface，GUI）及电子设备。电子设备包含左耳机和右耳机，其可通过左耳机和右耳机对环境音进行采集，并基于两个耳机采集到的两个音频信号得到该环境音的方位信息，并将该方位信息叠加给对环境音透传后得到的音频信号。这样，能使透传后的环境音保留空间方位感，使用户在佩戴耳机的情况下也能够辨别环境中声音的具体方位，提供更好的用户体验感。

上述目标和其他目标将通过独立权利要求中的特征来达成。进一步的实现方式在从属权利要求、说明书和附图中体现。

第一方面，提供一种音频的处理方法，所述方法包括：采集第一信号和第二信号，所述第一信号为通过第一耳机对外部环境的声音进行采集所得的音频信号，所述第二信号为通过第二耳机对所述外部环境的声音进行采集所得的音频信号；分别对所述第一信号和所述第二信号进行透传处理，得到第一音频信号和第二音频信号；根据所述第一信号和所述第二信号确定所述外部环境的声音的方位信息；根据所述方位信息分别对所述第一音频信号和所述第二音频信号进行调整，得到第一目标信号和第二目标信号。

在本方法中，在将音频信号透传之后，第一音频信号和第二音频信号的方位感将被消除。因此，在本方法中，通过在透传之前确定音频信号的空间方位信息，再在将该音频透传之后，为已经丢失了空间方位感的音频还原空间方位感，所得到的所述第一目标信号和所述第二目标信号就保留了原始音频（即所述第一信号和第二信号）的空间方位感。

实施第一方面提供的方法，可以在耳机对音频透传之后中，使用户在佩戴耳机的情况下也能够辨别环境中声音的具体方位，提供更好的用户体验感。

结合第一方面，在一种可能的实现方式中，所述第一目标信号通过所述第一耳机播放，所述第二目标信号通过所述第二耳机播放，所述第一目标信号的播放时刻和所述第二目标信号的播放时刻不同，所述第一目标信号响度和所述第二目标信号的响度不同。

人类能够感受声音的三维特性并定位声源。是因为人的双耳能够感受到声音的时间、音量差别。因此，在本实施方式中，通过还原环境音在人的开耳状态下给人耳带来的时间和响度上的差别，可以使上述第一目标信号和上述第二目标信号给用户营造出环境音原本的方位感。

结合第一方面，在一种可能的实现方式中，所述第一耳机与环境音源的距离小于所述第二耳机与所述环境音源的距离，所述环境音源为所述外部环境的声音的音源，所述第一目标信号的播放时刻在所述第二目标信号的播放时刻之前，所述第一目标信号的响度大于所述第二目标信号的响度。

由于声源到左耳与右耳的距离不同，因此声音信号传播到两只耳朵的时间也会有细微的差距，这样的时间差可以帮助我们了解声源的水平位置。另外实际上声波常常会受到阻挡而无法继续传递、扩散，进而产生声音的阴影区（acoustic shadow）的区块，例如声波遇到建筑物、人的头部都会有这种现象，这会影响到左右耳听到不同的声音大小并接收到不同的频率分布。源自不同位置的信号到达每只耳朵的时间有所不同，响度也会不同。因此，在本试试方式中，当上述第一耳机离声源更近时，第一耳机采集到的环境音的时间将早于第二耳机采集到环境音的时间，第一耳机采集到的环境音的响度也必定会大于第一耳机采集到的环境音的响度。

结合第一方面，在一种可能的实现方式中，所述第一耳机为左耳机，所述第二耳机为右耳机，所述方位信息包括双耳方位信息和单耳方位信息，所述单耳方位信息包括左耳信息和右耳信息，所述根据所述方位信息分别对所述第一音频信号和所述第二音频信号进行调整，得到第一目标信号和第二目标信号，包括：通过所述双耳方位信息调整所述第一音频信号和所述第二音频信号的响度和相对时延，得到第三音频信号和第四音频信号；通过所述左耳信息对所述第三音频信号进行滤波，得到所述第一目标信号；通过所述右耳信息对所述第四音频信号进行滤波，得到所述第二目标信号。

需理解，人可以定位声音在垂直方向上和水平方向上的位置，这即得益于所述单耳信息和双耳信息。由于声音传递到人的两个耳朵时对应的幅度和时间差异，通常我们将双耳对同一音源的感受上的这种差异性称为“双耳信息”，在本申请的一些实施例中，“双耳信息”也可以被称为“双耳线索”，这是人类能够判断声音在水平方向上的方位的关键所在。此外，人类的耳朵还可以辨别声音在垂直方向上的具***置，这是由于耳廓的形状会改变声波不同频率区的强度，从上方和下方发出的声音被耳廓反射到耳道时声音频谱因为耳廓的形状不同而有区别。实际上，人耳朵的外耳耳廓上对外界声波的反射及衍射的这一过程可以视为用一个滤波***对外界声波进行滤波，外界声波经滤波器处理得到的就是两耳鼓膜前的声音信号。这个滤波器即可以被称为“单耳信息”，在本申请的一些实施例中，“单耳信息”也可以被称为“单耳线索”。

因此，实施本实施方式提供的方法，可以在将环境音透传之后，为透传后的环境音还原其原有的水平方位感和垂直方位感，使用户能够辨别环境中声音的在水平方向和垂直方向上的具体方位，提供更好的用户体验感。

结合第一方面，在一种可能的实现方式中，所述根据所述第一信号和所述第二信号确定所述外部环境的声音的方位信息，包括：对所述第一信号和所述第二信号分别进行频谱分析，得到所述第一信号和所述第二信号的N个子带；确定所述第一信号的N个子带和所述第二信号的N个子带中处于相同频段中的子带的双耳互相关系数；在目标子带对的数量大于第一阈值的情况下，根据所述第一信号和所述第二信号确定所述外部环境的声音的方位信息，所述目标子带对为所述第一信号的N个子带和所述第二信号的N个子带中双耳互相关系数小于第二阈值的两个子带。

需理解，当离人的左耳和右耳的距离（或者相对位置）的差别很小时，声源所产生的声音给人的双耳造成的时间、音量上的差别往往也很小，当这种差别小到一定程度之后，尤其是声源处于人的正前方以及正后方时，人往往并不能够感受到这种差别了，这时候的声音对人而言也不存在“方位感”一说了。此外，在实际的环境中，环境音的产生往往并不是由一个单独的音源完成，而是由位于不同方向的多个音源共同产生。但是对于耳机而言，在采集环境音的音频时，其并不能分辨出环境中存在多个音源，也无法得知所采集到的音频信号实际是由环境中的多个音源共同产生的。但是，在声学和生物学中，当两个音调的频率位于一个子带内时，人就会把两个音调听成一个。更一般的情况是，如果一个复杂信号的频率分布位于一个子带内时，人耳的感觉是该信号等价于一个频率位于该子带中心频率处的简单信号，这是子带的核心内涵。简单说，子带是指一个频率范围，频谱位于这个范围内的信号可以用一个单一频率的分量来代替。因此，当环境中的多个音源共同产生的音频信号被耳机采集到时，这个音频信号在耳机看来其实就是一个可以等同于上述多个音源的单一音源所产生的音频信号。只需要对左右耳机采集到的音频信号进行综合分析，就能得到这多个音源的发出的混合的音频信号在双耳处产生的IACC。

在本实施方式中，通过所述第一信号和第二信号分析，以此确定听者是否能够感受到环境中音源所产生声音的方向性，只有在听者能够感受到音源所产生声音的方向性的时候，才会在将声音透传之后为该声音叠加空间线索；在听者不能够感受到音源所产生声音的方向性的时候，则无需为该声音叠加空间线索，能进一步节约设备能耗。

结合第一方面，在一种可能的实现方式中，所述根据所述第一信号和所述第二信号确定所述外部环境的声音的方位信息，包括：根据所述第一信号和所述第二信号确定所述第一信号和所述第二信号之间的抵达双耳的时间差；根据所述抵达双耳的时间差确定所述外部环境的声音的方位信息。

结合第一方面，在一种可能的实现方式中，所述根据所述第一信号和所述第二信号确定所述外部环境的声音的方位信息，包括：根据所述第一信号和所述第二信号确定所述第一信号和所述第二信号之间的抵达双耳强度差；根据所述抵达双耳的强度差确定所述外部环境的声音的方位信息。

结合第一方面，在一种可能的实现方式中，所述分别对所述第一信号和所述第二信号进行透传处理，得到第一音频信号和第二音频信号，包括：所述第一耳机分别对所述第一信号和所述第二信号进行透传处理，得到所述第一音频信号和所述第二音频信号；所述根据所述第一信号和所述第二信号确定所述外部环境的声音的方位信息，包括：所述第一耳机根据所述第一信号和所述第二信号确定所述外部环境的声音的方位信息；所述根据所述方位信息分别对所述第一音频信号和所述第二音频信号进行调整，得到所述第一目标信号和所述第二目标信号包括：所述第一耳机根据所述方位信息分别对所述第一音频信号和所述第二音频信号进行调整，得到所述第一目标信号和所述第二目标信号。

需理解，所述第一耳机和所述第二耳机中的性能可能是有区别的，且其性能将决定音频的透传、空间线索叠加等步骤是由耳机中所述第一耳机执行或者由所述第二耳机执行。

在实施方式中，耳机中的第一耳机和第二耳机中只有第一耳机部署了本申请提供的保留空间方位信息的透传模型，第二耳机并未部署，因此音频的透传、空间线索叠加等步骤是由耳机中所述第一耳机执行。这样，两个耳机只需要有一个需要配置高性能的处理器和存储器即可，节约了成本。

结合第一方面，在一种可能的实现方式中，所述分别对所述第一信号和所述第二信号进行透传处理，得到第一音频信号和第二音频信号，包括：所述第一耳机对所述第一信号进行透传处理，得到所述第一音频信号，所述第二耳机对所述第二信号进行透传处理，得到所述第二音频信号；所述根据所述第一信号和所述第二信号确定所述外部环境的声音的方位信息，包括：所述第一耳机和所述第二耳机根据所述第一信号和所述第二信号确定所述外部环境的声音的方位信息；所述根据所述方位信息分别对所述第一音频信号和所述第二音频信号进行调整，得到所述第一目标信号和所述第二目标信号包括：所述第一耳机根据所述方位信息对所述第一音频信号进行调整，得到所述第一目标信号；所述第二耳机根据所述方位信息对所述第二音频信号进行调整，得到所述第二目标信号。

在实施方式中，耳机中的第一耳机和第二耳机中均部署了本申请提供的保留空间方位信息的透传模型，因此所述第一耳机和所述第二耳机均可独立完成音频的透传、空间线索叠加等步骤执行。这样，可以减少两个耳机之间的通信开销，使音频处理更为及时，用户能更快速地从耳机中听到环境音，得到更好的体验感。

第二方面，本申请实施例提供了一种电子设备，所述电子设备包括：一个或多个处理器、存储器；所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行第一方面或第一方面的任一可能的实现方式中的方法。

第三方面，提供一种芯片***，所述芯片***应用于电子设备，所述芯片***包括一个或多个处理器，所述处理器用于调用计算机指令以使得所述电子设备执行如第一方面中任一可能的实现方式，或如第二方面中任一可能的实现方式。

第四方面，一种包含指令的计算机程序产品，当上述计算机程序产品在电子设备上运行时，使得上述电子设备执行如第一方面中任一可能的实现方式，或如第二方面中任一可能的实现方式。

第五方面，提供一种计算机可读存储介质，包括指令，当上述指令在电子设备上运行时，使得上述电子设备执行如第一方面中任一可能的实现方式，或如第二方面中任一可能的实现方式。

本申请第二至第五方面所提供的技术方案，其有益效果可以参考第一方面所提供的技术方案的有益效果，此处不再赘述。

附图说明

图1A为本申请实施例提供的一种人类双耳对音频信号接收时长差异的示意图；

图1B为本申请实施例提供的一种人类双耳对音频信号声压感受的示意图；

图2为本申请实施例提供的一种音频播放***的示意图；

图3为本申请实施例提供的一种透传模型的示意图；

图4为本申请实施例提供的一种参考点分布位置的示意图；

图5为本申请实施例提供的一种耳机使用场景的示意图；

图6为本申请实施例提供的一种音频变化过程的示意图；

图7为本申请实施例提供的一种透传模型的示意图；

图8为本申请实施例提供的一种空间线索库集成示意图；

图9为本申请实施例提供的一种空间线索库的功能示意图；

图10为本申请实施例提供的一些用户界面的示意图；

图11为本申请实施例提供的一种音频的处理方法的流程图；

图12为本申请实施例提供的一种声波在空间中传递的场景示意图；

图13为本申请实施例提供的一种第一信号和第二信号的变化过程的示意图；

图14为本申请实施例提供的一种第一耳机和第二耳机的工作流程的示意图；

图15为本申请实施例提供的一种第一耳机和第二耳机的工作流程的示意图；

图16为本申请实施例提供的一种第一耳机、第二耳机以及终端设备的工作流程的示意图；

图17为本申请实施例提供的一种空间方位角划分情况的示意图；

图18为本申请实施例提供的一种音频的处理方法的流程图；

图19为本申请实施例提供的一些频谱图；

图20为本申请实施例提供的终端设备100的结构示意图；

图21为本申请实施例提供的耳机200的结构示意图。

具体实施方式

在本申请实施例的描述中，当提及“第一”、“第二”等序数词时，除非根据上下文其确实表达顺序之意，否则应当理解为仅仅是起区分之用。“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

除非另有说明，本文中“/”一般表示前后关联对象是一种“或”的关系，例如，A/B可以表示A或B。术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请的描述中，“多个”是指两个或两个以上。本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。

如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本申请中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。

为了便于理解，下面先对本申请实施例涉及的相关术语进行介绍。

（1）透传功能

在生活中，我们在佩戴蓝牙耳机的时候对于外界的声音也会不那么敏感。但是，我们在即使佩戴蓝牙耳机时，可能并不希望外界的声音被隔绝掉。例如，在超市购物时，如果我们带着无线耳机，超市促销员解读的时候或者收银员说话的时候，我们需要摘掉一个耳机才能听到。再比如，我们过马路要关注汽车鸣笛，公交上要关注站台广播，这时蓝牙耳机对外界声音的隔绝效果无疑给我们造成了不便。

这时透传功能就起到了作用。随着真无线立体声（True Wireless Stereo，TWS）耳机以及增强现实（Augmented Reality，AR）、虚拟现实（Virtual Reality，VR）相关音频技术的蓬勃发展，为了让如耳机之类电子设备的佩戴者同时可以听见现实生活中的环境声，产生了一种透传（Hear-through）算法。透传功能即基于这种算法来实现的。在透传模式开启后，用户即使佩戴着蓝牙耳机也能听见外部声音。这样，在需要关注外部声音的场合下，就能自然应对，也不必来回摘戴耳机。

需理解，“透传功能”只是本申请实施例所使用的一些名称，其代表的含义在本申请实施例中已经记载，其名称并不能对本实施例构成任何限制。

（2）抵达双耳的时间差（interaural time differences，ITD）、抵达双耳强度差（interaural level difference，ILD）

就像通过双眼定焦创造视觉立体感知，定位物品位置那样，人类能够运用双耳接收到声音的时间、音量差别，和耳廓效应来感受声音的三维特性并定位声源。时间和音量，就是定位声音的坐标值。

图1A为本申请实施例提供的一种人类双耳对音频信号接收时长差异的示意图。如图1A所示，测试者101和声源102处于同一环境中。此时，从测试者101的头顶上方向下看，声源102位于测试者的左方。在图2中，带箭头的直线和曲线大致反映了声源102所产生的音频信号到达测试者101的左耳和右耳的传播路径。从图1A中可以看出，由于声源102更靠近测试者101的左耳，其产生的音频信号到达测试者101左耳的传播路径要短于达到测试者101右耳的传播路径。可以理解的，由于声音在空气中的传播速度是恒定的，因此，声源102所产生的声音会先通过空气抵达测试者101的左耳，再到右耳，而声音抵达两耳的时间差异就称为抵达双耳时间差ITD，是我们用来判断声音左右方位的线索之一。

由于声源到左耳与右耳的距离不同（当然也可以相同），因此声音信号传播到两只耳朵的时间也会有细微的差距，这样的时间差可以帮助我们了解声源的水平(horizontal)位置，特别是在低频声源的情况下，大脑定位会更准确一些。这个时间差取决于声源相对于听者的水平位置，一个声源离听者的左右耳差距越大，时差就越大。若声音直接从左侧传来，抵达左耳的时间比右耳大概早了0.6到0.8毫秒，相当于0.0006到0.0008秒。虽然超乎想象的短暂，但也足够让人类的大脑分辨声音的水平方向。

另外实际上声波常常会受到阻挡而无法继续传递、扩散，进而产生声音的阴影区（acoustic shadow）的区块，例如声波遇到建筑物、人的头部都会有这种现象，这会影响到左右耳听到不同的声音大小并接收到不同的频率分布。源自不同位置的信号到达每只耳朵的时间有所不同，并且由于经过头部阻挡的衰减，幅度也会不同，通常称为“头影（headshadow)”。图1B为本申请实施例提供的一种人类双耳对音频信号声压感受的示意图。如图1B所示，测试者101和声源103处于同一环境中。此时，从测试者101的头顶上方向下看，声源103位于测试者的左方。因为左右耳之间相隔了一颗头，所以比较靠近声源103的左耳所接受到的声音强度（音量）会比右耳来的大。这种头部阻隔声音的现象被称为头影效应（headshadow effect）。同一声源所产生声音对人的双耳造成的声压上（或声级上）的差异称为抵达双耳强度差ILD。

研究表明，越是高频声音较容易受到头影效应的影响，因为当声音越高频时，代表能量在空气里每秒钟振动的次数越多，波长越短，因此受到头影效应的影响也越明显。相反的，因为低频声音的波形较长，甚至超过头的宽度，所以双耳强度差通常会偏小。研究显示，我们通常会依赖双耳强度差来判断2000Hz以上声音的方位，而双耳接收到的高频声音量差最高可达8~10dB。

对于1.5～4.0kHz的频率范围来说，声级差和时间差是声源定位的共同因素，而当f>5.0kHz时，双耳声级差是定位的主要因素，与时间差形成互补。总的来说，双耳时间差和声级差涵盖了整个声音频率范围。因此，人类能够通过时间差和声级差来辨别声音的方向。

（3）双耳互相关系数（inter-aural correlation coefficient，IACC）

IACC是对某一瞬间到达两耳的声压相似性的量度。研究表明，在自由场的情况，单声源在双耳处产生高的IACC(接近1)。而在扩散场的情况下，双耳处产生IACC则很低。IACC越低，听者主观上的“空间感”和“包围感”越强。

（4）人头和躯干模拟器（Head and Torso Simulator，HATS）、人工头测试***（artificial Head Measurement System，HMS）、人工头数据（Knowles ElectronicsManikin for Acoustic Research、KEMAR）

HATS是Brüel & Kjær公司提供的带有内置口腔模拟器和校准耳朵模拟器的人体模型，可提供逼真的再现平均成年人头部和躯干的声学特性。它们非常适合对电话、耳机、音频会议设备、麦克风、耳机、助听器和听力保护器等进行原位电声测试。

HMS是由HEAD Acoustics公司提供的一种人工头部测量***，具有符合IEC60318-4标准的耳模拟器和全频段人工嘴。其非常适合测量手机、耳机、耳机、听力保护器和助听器中的贴耳式传感器。通过真实地复制人体解剖结构的所有声学相关结构，HMS还允许测量远耳传感器，例如免提设备。HMS II.3 配备了右耳阻抗模拟器和人工嘴，均满足ITU-TP.57和P.58建议书的要求。嘴巴再现了人声的完整频谱，允许在发送方向进行超宽带和全频带测量。

KEMAR头部和躯干模拟器由Knowles于1972年推出，并迅速成为助听器制造商和研究听力学家的行业标准。GRAS公司推出的KEMAR与1972年的原始KEMAR具有相同的尺寸和声学特性，并且 100%向后兼容。当配备耳廓模拟器、耳道延长装置和 IEC 60318-4耳模拟器时，KEMAR 可以密切模仿人耳的声学特性。KEMAR 建立在对普通人体的大型统计研究之上——这意味着 KEMAR 具有与普通人相同的声学特性，包括不同的面部特征。因此，它在近场和远场都提供类似于人头和躯干中部周围遇到的声学衍射。由于其人体测量形状，它比任何其他人体模型都更逼真。

上述所提及的人工头的标准，是经过对大量真人数据统计优化形成的，因此对上述三家人工头测出来的数据取一个平均值，这个平均值可以覆盖大部分人实际的头部情况。

（5）快速傅立叶变换算法（fast fourier transformation，FFT）、快速傅里叶逆变换算法（inverse fast fourier transform，IFFT）

FFT是离散傅立叶变换的快速算法，可以将一个信号由时域变换到频域。IFFT是与FFT对应的快速傅立叶反变换的算法，可以将一个信号频域由变换到时域。

随着TWS耳机以及AR/VR相关音频技术的蓬勃发展，这些电子设备大多都已经实现了透传功能，能使佩戴者在听到与耳机通信连接的设备中播放的音频的同时，还能听见所处环境中的其他音源所产生的环境声。如图2所示，耳机201为支持透传功能和无线通信功能的蓝牙耳机，此时正与终端202通过蓝牙进行通信连接。在用户所处的环境中还存在包括声源203-声源205在内的多个声源，这多个声源都可发出声音，这些声音可以以音频信号的形式被耳机201上的麦克风采集到，经过透传之后在由耳机上的喇叭播放出来。假设此时包括声源203-声源205在内的多个声源正在持续的发出声音，且用户正在通过终端202播放音乐，则当用户将耳机201佩戴在自己的耳朵上时候，用户既可以听见终端202通过蓝牙发送过来的音乐声，也可以听见耳机所采集到的环境音频信号转化来的环境声。

图3为本申请实施例提供的一种透传模型的示意图，目前类似TWS这样的耳机均基于该透传***来实现透传功能。如图3所示，该透传模型303可以由开耳传递函数模型301、被动传递函数模型302确定。此外，由于用户对耳机有不同的佩戴习惯，而耳机的佩戴松紧程度又会造成用户对耳机播放声音的听感的差异。因此，在一些实施例中，上述透传模型还可以结合与用户佩戴松紧程度相关的泄漏模型304来确定。

为对上述透传模型303中所涉及的多个模型进行进一步的说明，本申请实施例还提供了一种参考点分布位置的示意图。如图4所示，图4中的深色部分为人类耳朵的横切面示意图，人耳中的鼓膜403可以把耳道分隔为外耳道404以及内（中）耳道两部分。在外耳道404靠近耳郭的区域，我们可以确定一个耳参考点4041；此外，在外耳道404靠近鼓膜403的附近，我们还可以确定一个鼓膜参考点4031。

在本领域中，通常可以在耳参考点4041上放置一个标麦来采集来音频信号（以下将该音频信号表示为u_open(t)），音频信号u_open(t)即可以反应在未佩戴耳机的情况下，真实的人耳初始采集到的环境音。可以理解的，声音在从耳参考点4041处被采集后传输到鼓膜参考点4031的过程中，声音也会发生变化。因此，我们可以在鼓膜参考点4031上放置一个标麦来采集来音频信号（以下将该音频信号表示为y_open(t)），该音频信号可以反应在未佩戴耳机的情况下，真实的人耳初始采集到的环境音在外耳道404中传输至鼓膜参考点4031后的状态。基于上述两个音频信号，我们可以建立一个函数模型，该模型可以描述在未佩戴耳机的情况下，真实的人耳初始采集到的环境音从耳参考点4041传递至鼓膜参考点4031的过程中音频的变化情况，这个函数模型即为上述开耳传递函数模型301。具体的，开耳传递函数模型301可以表示为：

其中，Y_open(S)表示y_open(t)经FFT变换后得到的频域信号，U_open(S)表示u_open(t)经FFT变换后得到的频域信号。

当人佩戴耳机时，耳机上靠近耳参考点4041的前馈麦克风可以采集环境中的环境音，耳机可以对该环境音进行降噪、透传等一系列处理后，将所得的音频信号播放；在播放后，在鼓膜参考点4031处同样可以采集到音频信号。这里将前馈麦克风采集到的环境中的环境音表示为u_passive(t)，将鼓膜参考点4031处采集到的耳机播放的音频信号表示为y_passive(t)，基于上述两个音频信号，我们可以建立一个函数模型，该模型可以描述在佩戴耳机的情况下，耳机初始采集到的环境音从耳参考点4041传递至鼓膜参考点4031的过程中音频的变化情况，这个函数模型即为上述被动传递函数模型302。具体的，开耳传递函数模型301可以表示为：

其中，Y_passive(s)表示y_passive(t)经FFT变换后得到的频域信号，U_passive(s)表示U_passive(t)经FFT变换后得到的频域信号。

需理解，在一些实施例中，有些耳机上还存在一个反馈麦克风，在人佩戴耳机时，该反馈麦克风靠近鼓膜参考点4031。因此，在一些实施例中，Y_passive(s)可以由反馈麦克风处采集到的信号来替代。同理，由于前述说明中的音频信号U_open(s)参考麦克风在耳参考点4041处采集的信号，因此，在一些实施例中，U_passive(s)也可以用U_open(s)近似替代。

开耳传递函数模型301和被动传递函数模型302之间的差异表征着人耳由于佩戴耳机而造成的听感影响，因此上述透传模型303的主要以开耳传递函数模型301和被动传递函数模型302为基础，设计一个补偿模型G_optimize(s)（图3中未示出），使得：

其中，G_optimize(s)表征对耳机造成的听感影响的补偿量，这里的L（s）即为泄漏模型304，用于补偿由于因为耳机佩戴状态不同而引起的效果变化。G_passive(s)表征进行补偿之前的音频信号，G_open(s)表征进行补偿之后的音频信号。“series”表示级联操作。

应理解，对于传统的透传算法而言，在对前述两个传递函数模型进行建模的过程中，在各个参考点采集到的音频信号都是从单一的声源或者几个声源获取的。也就是说，在采集建模数据的过程中，通常只会在某个单一的反向上或者某几个方向上放置音源，再对这些音源产生的音频信号进行采集。因此，对于透传模型303以及传统的具备透传功能的耳机而言，在将采集到的环境音频进行透传后，透传后的环境音频的空间信息会被消除或者聚焦到某个特定方位，这会让耳机的佩戴者对时间环境的感知造成一定的混淆感，在影响用户体验感的同时也可能给用户的安全造成威胁。

例如，在图5所示出的场景中，行人501正佩戴着具备透传功能的耳机（包括右耳机502和左耳机503，此时耳机正在播放手机音乐）行走在狭窄的公路上。此时，行人501的右后方有一辆汽车504正朝着行人501所在的方向驶来。为了给行人501预警信息，汽车504的车主骄傲按动喇叭。此时，汽车的喇叭作为该场景中的噪声源，产生了鸣笛声505（即图5中的曲线部分）。可以理解的，如果此时行人501并未佩戴耳机，则行人501的双耳接收到鸣笛声505之后，由于鸣笛声在行人左右耳产生的声压的差异以及到达左右耳的时差，行人501可以及时的辨别出鸣笛声来自自己的右后方，行人501则可以及时做出规避（例如向左行驶进行避让）。

但是，结合上述说明可知，透传后的环境音频的空间信息会被消除或者聚焦到某个特定方位。因此，图5中的左耳机503和右耳机502所采集到的音频信号的变化过程具体可以参考图6。如图6所示，坐标轴的横轴表示时间，在横坐标轴上，越往右的点对应的时刻越晚。坐标系内的每个曲线簇均表示一个音频信号，曲线簇下方对应的横坐标的值表示该曲线簇被采集或者生成的时间，每个曲线簇中曲线的条数的多少反映了该音频信号对应幅度（或者声压）的大小。应理解，在本申请实施例以及后续实施例中，曲线簇所构成的音频信号的形状仅用于对音频信号进行区分，并不代表音频信号在空间中传播时实际的波形。图6中所示的左耳机即为图5中的左耳机503，右耳机即为图5中的右耳机502。从图6中可以看出，左耳机和右耳机对图5中的鸣笛声505均先后进行了采集、透传、播放等操作，在这个过程中，两个耳机采集的音频的幅度和相对的时延均发生了变化：

①采集阶段

由前述说明可知，由于右耳机相对于左耳机而言更靠近汽车，因此在采集阶段，右耳机将比左耳机更早采集到上述鸣笛声505，且该右耳机所采集到的音频的幅度（声压）要大于左耳机采集的到音频的幅度。从图6可以看出，右耳机在t1时刻对鸣笛声505进行采集，得到音频信号601R，左耳机在t2时刻对鸣笛声505进行采集，得到音频信号601L；其中，t2时刻在t1时刻之后，且音频信号601R的音频的幅度（声压）要大于音频信号601L的幅度（声压）。

②透传阶段

对于传统的具备透传功能的耳机而言，在将采集到的环境音频进行透传后，透传后的环境音频的空间信息会被消除或者聚焦到某个特定方位。因此在透传阶段，耳机对音频信号601R进行透传得到音频信号602R、耳机对音频信号601L进行透传得到音频信号602L，两个音频信号（602L和602R）之间将不再具备幅度（声压）和时间上的差距。也就是说，这两个音频信号通过左右耳机播放时将在相同的时刻以相同的幅度（声压）播放，行人501则无法分辨出鸣笛声的方向。

③播放阶段

在播放阶段，左耳机所播放的音频信号603L可以是透传阶段得到的音频信号602L，右耳机所播放的音频信号603R可以是透传阶段得到的音频信号602R。当然，左耳机所播放的音频信号603L也可以是耳机对透传阶段得到的音频信号602L进行其他处理（例如降噪、时频转化）后所得到的新的音频信号，右耳机所播放的音频信号603R也可以是透传阶段得到的音频信号602R进行其他处理后所得到的新的音频信号。但是，左右耳机对环境中的声音（例如鸣笛声505）进行透传后，最终播放给用户的声音在时间和幅度（声压）上都是无差别的。

需理解，当用户在用耳机听音乐时，环境音可能包含中包含了很多类似鸣笛声505这样短促而重要的警报音，如果用户不能第一时间确认声源的方向，对于用户的安全性将是一种威胁。其次，在自己视线范围内看到环境中某个目标声源的移动轨迹，而自己听到的该声源发出的声音却没有方向感，这种体验也会让人觉得不适，严重时会让人们对目标的距离感造成影响。

基于上述问题，本申请实施例提供一种音频处理方法和电子设备，基于该方法，耳机在透传模式下，可以能使环境音中有空间信息的声音的方位信息得以保留。如此，用户即使在佩戴具有透传方案的电子终端时，也能感受到透传声原本的空间方位信息，确保了使用耳机时候的安全性和用户体验感。

需理解，人之所以够能定位来自三维空间的声音，是因为人耳对声音信号有着独特的分析***。因为声音信号从音源到达人耳（鼓膜前）的过程中可能会有反射、叠加等过程，因此，从空间任意一点传到人耳的信号的传输过程都可以视为一个滤波***，音源经滤波器处理得到的就是两耳鼓膜前的声音信号。这个传输***是一个黑盒子，我们不必关心声音是如何传递到双耳的，而只需关心音源和双耳信号的差别。因此，虽然传统的透传模型在将音频信号透传之后，会将音频信号的方位信息消除，那么如果我们能在左右耳得到的音频信号进行透传之前确定音频信号的空间方位信息，并且能够得到这组描述空间方位信息的滤波器，就能还原来自空间这个方位的声音信号。同理，如果有空间所有方位到双耳的滤波器组，那么无论声音的方位如何，我们都能在将该音频透传之后，为已经丢失了空间方位感的音频还原空间方位感，这也是本申请实施例的主要工作。

结合前述说明，接下来先介绍本申请实施例提供的一种透传模型的示意图。本申请实施例所提供的能保留声音空间方位信息的透传方法能基于该透传模型来实现。值得说明的是，该透传***所适用的耳机可以是任何形态的TWS耳机、颈戴式耳机或者线控耳机等类型的耳机。如图7所示，保留空间方位信息的透传模型706可以由开耳传递函数模型701、被动传递函数模型702、透传模型703、空间线索库705确定。此外，由于用户对耳机有不同的佩戴习惯，而耳机的佩戴松紧程度又会造成用户对耳机播放声音的听感的差异。因此，在一些实施例中，保留空间方位信息的透传模型706还可以结合与用户佩戴松紧程度相关的泄漏模型704确定。

其中，开耳传递函数模型701、被动传递函数模型702、透传模型703以及泄漏模型704的具体意义和作用可以参阅前述对图3和图4的相关说明，此处不再赘述。接下来结合图8和图9对空间线索库705和保留空间方位信息的透传模型706进行详细说明。

图8为本申请实施例提供的一种空间线索库集成示意图。可以理解的，为了能够真实的还原人耳对三维空间中各个方位的音源的切实感受，那么在叠加空间方位线索时，空间方位线索需要依据真实的人工头数据得出。如图8所示，该空间线索库可以线通过Brüel&Kjær公司的HATS、HEAD Acoustics公司的HMS和GRAS公司的KEMAR人工头数据济学宁测试获得。上述人工头数据所使用的人工头的标准，是经过对大量真人数据统计优化形成的。以Brüel&Kjær公司的HATS为例，HATS是一种配有内置仿真耳和嘴模拟器，并能真实复制一般成年人声学特征的客观测量仪器，且HATS所提供的新版本已经实现了利用核磁共振扫描仪技术，收集了人耳几何构造方面的大量信息，并采集了完整的耳道几何构造信息，包括连接耳膜的耳管骨部，其仿真耳的人造耳道具有正确的解剖学构造，该人造耳道配有一个成一定角度的耳膜模拟器，该模拟器精确置于耳膜处，使得更贴近于真实的人耳构造。在本申请实施例中，通过对三家人工头测出来的数据取一个平均值，这个平均值可以覆盖大部分人实际情况。

考虑到上述三家人头的标准可能并考虑到不同人种之间头部特征的差异性，因此，在一些实施例，在集成空间线索库705之前，还可以针对不同地区的人的统计生物特征差异对平均后的数据进行个性化补偿。

基于上述三家人头的测试数据，可以得到图8中所示出的单耳线索模型和双耳线索模型。这两个模型的具体功能和意义可以参考后续说明，这里先不赘述。将对单耳线索模型和双耳线索模集成处理，即把测量得到的方位与线索的关系建立为一个数据库，就可以得到前述说明中的空间线索库705。

对于空间线索库705而言，只要获取到准确的相对方位信息（即前述说明中的空间方位信息或图7中所示的环境音源方位参数，这个相对方位信息可以是一个确定的角度值）作为空间线索库705输入，空间线索库705即可查询到该相对方位信息对应的实时双耳线索和单耳线索。

而本申请中，保留空间方位信息的透传模型706之所以能够区别与传统的透传模型（例如透传模型703和前述说明中的透传模型303），在将透传后的音频播放给用户的时候为用户营造出原始音频（透传之前的音频）的方位感，正是因为本申请实施例提供的透传模型可以计算出原始音频的环境音源方位参数，并可以根据该环境音源方位参数和空间线索库705确定该方位参数对应的空间线索，且可以将这种空间方位线索叠加给因透传而失去方位感的音频上，还原音频所具备的原始方位感。

一方面，上述空间线索可用于得到该方位角度的音源所发出的声音传递到人的两个耳朵时对应的幅度和时间差异，通常我们将双耳对同一音源的感受上的这种差异性称为“双耳线索”，这是人类能够判断声音在水平方向上的方位的关键所在。此外，人类的耳朵还可以辨别声音在垂直方向上的具***置，这是由于耳廓的形状会改变声波不同频率区的强度，从上方和下方发出的声音被耳廓反射到耳道时声音频谱因为耳廓的形状不同而有区别。比如，当声音来自于而到上方时，声波会历经一系列的耳廓软骨的反射和衍射再到达耳道。当提高或降低声源的位置，那么声波经历的耳廓上的路线立马就会改变，到达耳道的声音组合也就不同。实际上，人耳朵的外耳耳廓上对外界声波的反射及衍射的这一过程可以视为用一个滤波***对外界声波进行滤波，外界声波经滤波器处理得到的就是两耳鼓膜前的声音信号。这个滤波器即可以被称为“单耳线索”。

图8中所示的双耳线索模型和单耳线索模型即为了在确定空间方位信息后得到相应的双耳线索和单耳线索，将这两个线索叠加给因透传而失去方位感的音频上，就可以还原音频所具备的原始方位感。据此，本申请实施例提供的一种为音频叠加空间线索的过程的示意图。如图9所示，空间线索库901可以是前述说明中的空间线索库705，其输入的参数为方位信息，在本申请的一些实施例中，方位信息也可以称为空间方位信息和环境音源方位参数，方位信息可以根据用户左右耳机对同一环境音源所采集到的两个音频信号进行分析得出，具体可以参考后续实施例，这里先不作赘述。

应理解，图9中所示的无空间方位感的左耳信号904L是用户的左耳机对环境音进行采集并透传后得到的，无空间方位感的右耳信号904R是用户的右边耳机对环境音进行采集并透传后得到的，这两个音频信号分别在左耳机和右耳机播放时，由于其空间方位感已经被抹除了，但是在将方位信息输入空间线索库901之后，空间线索库901则可以输出与该方位信息对应的双耳线索902以及单耳线索（即图9中所示的左耳线索903L以及右耳线索903R），其中：

双耳线索902，可以是空间线索库901中的双耳线索模型（图9中未示出）基于上述方位信息计算得到的，这里的双耳线索模型可以是图7中的双耳线索模型。结合前述说明可知，双耳线索主要用于调整左右两个耳机将环境音透传后所得音频的幅度和延时，让左右耳机最后播放的音频在响度和播放时间上都有区别，为用户营造出声音的方位感觉，用户能及时辨别上述环境音的音源在水平方向上的具体方位。

单耳线索中的左耳线索903L和右耳线索903R，可以是空间线索库901中的单耳线索模型（图9中未示出）基于上述方位信息计算得到的，这里的单耳线索模型可以是图7中的单耳线索模型。单耳线索中的左耳线索903L，可以用于得到一个滤波器，这个滤波器可以描述上述方位信息对应的环境音传输至用户左耳中所经空间的信息，利用该滤波器对左耳机透传后的音频进行滤波，就能还原上述环境音给人的左耳带来的实际听感；同理，单耳线索中的右耳线索903R，也可以用于得到一个滤波器，利用该滤波器对右耳机透传后的音频进行滤波，就能还原上述环境音给人的右耳带来的实际听感。这样，最后左右耳机播放的音频就能为用户营造出声音在垂直方位上的方向感，用户即能够辨别上述环境音的音源在垂直方向上的具体方位。

需理解，图9中的带有空间方位感的左耳信号905L以及带有空间方位感的右耳信号905R可以是最后用于播放的音频信号。在一些实施例中，用户的耳机还可以对带有空间方位感的左耳信号905L以及带有空间方位感的右耳信号905R进行其他处理（例如降噪、时频转化），将所得到的新的音频信号作为最后用于播放的音频信号。此外，在用户的左右耳机对透传后的音频进行空间线索叠加的过程中，可如图9所示出的，先叠加双耳线索，再叠加单耳线索；也可以先叠加单耳线索，再叠加双耳线索，本申请对此不作限定。

值得说明的是，本申请实施例所提供的保留空间方位信息的透传模型适用的耳机可以是任何形态的TWS耳机、颈戴式耳机或者线控耳机等类型的耳机。对此，本申请不做限定需理解，在用户使用耳机时，耳机需要与某个终端进行连接，在忽略传输时延的情况下，耳机即可同步播放该终端中播放的音频。透传功能的主要作用即能使用户佩戴耳机的情况下，听到耳机所接收到的上述终端传输过来的音频的同时，也可以清楚的听见环境中的环境音，例如别人的说话声或者鸣笛声。

接下来结合用户界面以及前述说明介绍本申请实施例提供的音频处理方法。

首先，介绍开启耳机透传模式所涉及的用户界面。图10中的（A）示例性示出了终端设备100上的用于应用程序菜单的示例性用户界面10A。当耳机200与终端设备100建立连接之后，用户界面10A的状态栏中可以显示表示耳机200已经和终端设备100连接成功的图标10A1、图标10A1还可以反映耳机200当前剩余电量。应用程序图标10A2可以包含例如微信®（Wechat）的图标、推特®（Twitter）的图标、脸书®（Facebook）的图标、微博®（SinaWeibo）的图标、QQ®（Tencent QQ）的图标、优兔®（YouTube）的图标、图库（Gallery）的图标和相机（camera）的图标和耳机图标10A3等，还可以包含其他应用的图标，本申请实施例对此不作限定。任一个应用的图标可用于响应用户的操作，例如触摸操作，使得终端设备100启动图标对应的应用。

在一个可能的实施方式中，用户可以通过点击耳机图标10A3启动耳机APP，终端设备100可以响应于该用户操作，显示耳机控制界面，比如图10中的（B）所示的用户界面10B。

在一个可能的实施方式中，在耳机200与终端设备100建立连接之后，终端设备100可以由当前页用户界面自动跳转到耳机控制界面。例如，终端设备100此时显示的界面为用户界面10A，当终端设备100识别到耳机200与终端设备建立连接，可以由用户界面10A跳转到用户界面10B。

又一种可能的实施方式中，耳机200与终端设备100建立连接后，终端设备100触发耳机播放音频时，可以触发启动耳机APP，即显示包括选择控件的用户界面10B。比如，终端设备100触发耳机播放音频时，可以是终端设备与耳机建立连接后，播放歌曲，可以显示包括选择控件的用户界面10B。再比如，终端设备与耳机建立连接后，播放视频，可以显示包括选择控件的用户界面10B。

如图10中的（B）所示，图10中的（B）示例性示出了智能手机等电子设备上的“耳机”应用程序的一个用户界面10B。用户界面10B可以包含信息栏1001、状态栏10B1、模式选择栏10B2，快捷操作栏10B3，耳塞检测控件10B4，佩戴检测控件10B5，查找耳机控件10B6，高清录音控件10B7。其中：其中：

信息栏1001，用于显示耳机200的名称，如图中的“FlyPods3”。

状态栏10B1，用于供用户查看耳机200和终端设备100的连接状态，以及耳机200的左右耳机的电量和耳机200充电仓的电量。

模式选择栏10B2，包括降噪模式控件、关闭模式控件以及透传模式控件1002，这些控件均可用于响应于用户的操作，使得终端设备100向耳机200控制信令。控制信令用于对耳机200采用的处理模式进行控制。

快捷操作栏10B3包括快捷操作控件，快捷操作控件可以相应于用户操作，显示相应的快捷操作界面，用于在耳机200播放音频时候快捷切换歌曲、唤醒语音助手等。

耳塞检测控件10B4，用于检测耳机200与用户双耳的贴合程度。

佩戴检测控件10B5，用于根据用户是否佩戴耳机200来控制手机中音频的播放状态。

查找耳机控件10B6，用于在用户丢失耳机200的状态下通过云端服务器与耳机200建立通信连接，以便用户对耳机进行定位。

高清录音控件10B7，用于在用户通话时录制高清通话音频。

如图10中（B）所示，透传模式控件1002，响应于用户操作，即作用在透传模式控件1002上的触摸操作，终端设备100向耳机200发送控制信令，控制耳机200开启透传模式。具体地，在耳机200以透传模式工作时，耳机200可以通过如下流程实现在对透传之后保留音频的空间方位信息，参见图11所示。

图11为本申请实施例提供的一种音频的处理方法的流程图。该方法适用于配有本申请实施例提供的保留空间信息的透传模型的耳机，例如上述耳机200。该方法通过左耳机和右耳机对环境音进行采集，并基于两个耳机采集到的两个音频信号得到该环境音的方位信息，在左右两个耳机对各自采集的环境音进行透传后，再基于上述方位信息获取该方位信息对应的空间线索，并将该空间线索叠加给左右耳机对环境音透传后得到的音频信号。这样，在播放音频信号时，用户即能够辨别上述环境音的音源在三维空间中的具体方位。如图11所示，本申请实施例提供的方法可以包括：

S1101、采集第一信号和第二信号。

耳机中的第一耳机采集第一信号，第二耳机采集第二信号。在本申请的一些实施例中，上述第一耳机也可以称为左耳机，上述第二耳机也可以被称为右耳机。需注意，这里的第一信号和第二信号为左右耳机对同一环境音源采集得到的，这里的环境音源可以是单个声源，也可以是由环境中多个音源的混合音源；例如，在用户的前方可能存在汽车的鸣笛声，在用户的后方可能存在站台的播报声，则上述环境音源则可以由鸣笛声和播报声共同组成。

需理解，上述本申请实施例中的耳机可以为头戴式耳机、耳挂式耳机、颈挂式耳机或者耳塞式耳机等。耳塞式耳机还包括入耳式耳机（或者称为耳道式耳机）或者半入耳式耳机。此外，上述耳机具备透传功能，且该耳机中已经部署了本申请实施例提供的保留空间方位信息的透传模型。

S1102、根据上述第一信号和上述第二信号确定外部环境的声音的方位信息。

由前述说明可知，同一声音在三维空间传递时候，其传递到人的两个耳朵中的时间和幅度是不一样的。同理，耳机中的第一耳机采集到第一信号、第二耳机采集到的第二信号的过程中，第一耳机采集到第一信号的时间和第二耳机采集到第二信号的时间是不同的，且第一信号对应幅度和第二信号对应的幅度也是不一样的。

外部环境的声音的方位信息，即外部环境的声音相对于用户所在位置的方位角，在本申请实施例中，该方位信息即为保留空间方位信息的透传模型中空间线索库的输入。这个方位信息虽然不能直接被耳机200测出，但是可以通过上述第一信号和上述第二信号之间的ITD以及ILD推算出。

接下来结合图12进行说明上述第一信号和上述第二信号之间的ITD、ILD与上述方位信息的关系。图12为本申请实施例提供的一种声波在空间中传递的场景示意图。如图12所示，从人的头顶上方向下看，人的人脑在二维的平面上可视为一个半径为a的圆，其圆心为点O。假设图12中的人的左前方有一个音源（图12中未示出），线L1，L2以及L3为该音源产生的音频信号，在空间中从音源处传输值人的左耳以及右耳中。

现以点O为原点，建立平面直角坐标系，横轴为X轴，纵轴为Y轴。这里忽略左右耳朵的形状和大小，将左耳视为点L，右耳视为点R，则点L和点R均落在X轴上。线L4为过点L且垂直于线L1，L2以及L3的直线，线L5为过点O且垂直于线L1，L2以及L3的直线，线L6为过点R且垂直于线L1，L2以及L3的直线。则从图12中可以看出，在上述音源产生的音频信号传输至人的左耳以及右耳的过程中，由于音频信号更靠近于左耳，因此，该音频信号从上述音源传输至右耳所经过的距离要长于是从上述音源传输至左耳所经过的距离，且传输至右耳所经过的距离和上述音源传输至左耳所经过的距离差即为图12中所示出的d1与d2之和。

假设L4、L5、L6和X轴之间的夹角为图12中所示的θ，这里的θ即为前述说明中的方位信息。通过几何知识可以推出：

d1 =a*sinθ；

d2 =a*θ；

其中，符号“*”表示乘法运算。

则该音频信号传输至人的左耳和右耳时，其ITD可以表示为：

其中，a一般为常数0.0875m，c为声速，当θ为0°，ITD也为0。

可以理解的，由上述公式可以得知，当知道左、右耳信号的延时信息时，就可以推导出θ的值。

若计算出ITD(θ)=τ则该音频信号的左、右通道信号为：

这里f_m为调制频率，f_c为信号频率，m为调制指数，pL(t)和pR(t)即分别为上述音频信号在人的左耳和右耳造成的声压。

在声学中，双耳幅度差ILD与图12中角θ存在确定的函数关系，该函数关系可以表示为：

因此，推算出ILD(θ)时，我们计算左右声道的幅度差，也可以反推出θ的值。

可理解的，在本申请实施例中，和人的双耳采集音频信号一样，上述第一耳机采集到第一信号的时间和第二耳机采集到第二信号的时间是不同的，且第一信号对应幅度和第二信号对应的幅度也是不一样的。因此，在本申请实施例中，耳机虽然不能直接测出方位信息，但是耳机可以通过对上述第一信号和上述第二信号进行分析（例如频谱分析）得到上述第一信号和上述第二信号之间的ILD或ITD的值，再结合上述公式1或者公式2反推出上述方位信息（即上述θ）的值。需注意，在个可选的实施方式中，上述耳机可以只通过上述第一信号和上述第二信号之间的ITD，再结合公式1即可推算出上述方位信息；在另一可选的实施方式中，上述耳机可以只通过上述第一信号和上述第二信号之间的ILD，再结合公式2即可推算出上述方位信息；在实际场景中，可以根据耳机的设备性能和算力选用ILD或是ITD进行方位信息的推算，本申请对此不作限定。

S1103、对上述第一信号和上述第二信号分别进行透传处理，得到第一音频信号和得到第二音频信号。

结合前述说明可知，当耳机对上述第一信号和上述第二信号分别进行透传处理之后，第一音频信号和第二音频信号的响度是相同的，在透传之后，上述第一信号和上述第二信号之间原本存在的时延也不会体现于第一音频信号和第二音频信号之间，即使用喇叭播放这两个音频信号对应的声音时，播放时间是一样的。

S1104、确定上述方位信息对应的空间方位线索。

可理解的，上述耳机为配有本申请实施例提供的保留空间信息的透传模型的耳机，且由前述说明可知，在得到上述方位信息之后，将该方位信息作为保留空间信息的透传模型中空间线索库的输入，即可得到该方位信息对应的上述空间方位线索。

S1105、根据上述空间方位线索分别对上述第一音频信号和上述第二音频信号进行调整，得到第一目标信号和第二目标信号。

结合前述说明，该空间方位线索包括双耳线索以及单耳线索。双耳线索主要用于调整上述第一音频信号和上述第二音频信号的幅度和延时，让左右耳机最后播放的音频在响度和播放时间上都有区别，为用户营造出声音的方位感觉，用户就能及时辨别上述环境音的音源在水平方向上的具体方位。单耳线索可以用于得到左右耳各自的滤波器，利用左右耳各自的滤波器分别对上述第一音频信号和上述第二音频信号进行滤波，就能还原上述环境音给人的左耳以及右耳带来的实际听感；最后左右耳机播放的音频就能为用户营造出声音在垂直方位上的方向感，用户即能够辨别上述环境音的音源在垂直方向上的具体方位。

在对上述第一音频信号和上述第二音频信号进行调整，得到上述第一目标信号和上述第二目标信号的过程中，耳机可以，先为上述第一音频信号和上述第二音频信号叠加双耳线索，再叠加单耳线索；也可以先为上述第一音频信号和上述第二音频信号叠加单耳线索，再叠加双耳线索，本申请对此不作限定。

此外，需理解，上述第一目标信号和上述第二目标信号可以是耳机最后用于播放的音频信号。在一些实施例中，耳机还可以对上述第一目标信号和上述第二目标信号进行其他处理（例如降噪、时频转化），将所得到的新的音频信号作为最后用于播放的音频信号。

图13示例性的展示了本方法流程进行的过程中，第一信号和第二信号的变化过程。如图13所示，坐标轴的横轴表示时间，在横坐标轴上，越往右的点对应的时刻越晚。坐标系内的每个曲线簇均表示一个音频信号，曲线簇下方对应的横坐标的值表示该曲线簇被采集或者生成的时间，每个曲线簇中曲线的条数的多少反映了该音频信号对应幅度（或者声压）的大小。图13所示的第一耳机即为图11中的第一耳机，第二耳机即为图11中的第二耳机。这里结社环境音源位于从用户的右测，且第一耳机即为右耳机（具体可参考图5中所示的场景）。从图13中可以看出，第一耳机和第二耳机环境音均先后进行了采集、获取方位信息、透传、方位线索叠加、播放（图13中未示出）等操作，在这个过程中，两个耳机采集的音频的幅度和相对的时延均发生了变化：

①采集阶段

由前述说明可知，由于第一耳机相对于第二耳机而言更靠近环境音源，因此在采集阶段，第一耳机将比第二耳机更早采集到环境音，且第一耳机所采集到的音频的幅度（声压）要大于第二耳机采集的到音频的幅度。从图13可以看出，第一耳机在t4时刻对环境音进行采集，得到音频信号1301R，第二耳机在t5时刻对环境音进行采集，得到音频信号1301L；其中，t5时刻在t4时刻之后，且音频信号1301R的音频的幅度（声压）要大于音频信号1301L的幅度（声压）。

②获取方位信息阶段

第一耳机或者第二耳机对同一环境音源所采集到的两个音频信号的ITD或者ILD进行分析，得到环境音的方位信息，即θ。

③透传阶段

在将采集到的环境音频进行透传后，透传后的环境音频的空间信息会被消除或者聚焦到某个特定方位。因此，在透传阶段，耳机对音频信号1301R进行透传得到音频信号1302R、耳机对音频信号1301L进行透传得到音频信号1302L，两个音频信号（1302L和1302R）之间将不再具备幅度（声压）和时间上的差距。也就是说，假设这两个音频信号通过第一耳机和第二耳机播放，则这两个音频信号对应的声音将在相同的时刻以相同的幅度（声压）播放，行人并无法分辨出环境音的方向。

④方位线索叠加阶段

在方位线索叠加阶段，用户耳机通过方位线索分别对音频信号1302R和音频信号1302L进行处理，得到音频信号1303R和音频信号1303L。具体的，用户耳机可以将通过双耳线索调整音频信号1302R和音频信号1302L的幅度和延时，让左右耳机最后播放的音频在响度和播放时间上都有区别（播放时间的区别可参考图13中所示的t7时刻和t8时刻的时间差），为用户营造出声音在水平方位上的方向感；同时，用户耳机可以利用单耳线索分别对1302R和音频信号1302L进行滤波，还原上述环境音给人的左耳以及右耳带来的实际听感，为用户营造出声音在垂直方位上的方向感。

⑤播放阶段（图13中未示出）

在播放阶段，第二耳机所播放的音频信号1304L（图13中未示出）可以是音频信号1303L，第一耳机所播放的音频信号1304R（图13中未示出）可以是音频信号1303R。当然，第二耳机所播放的音频信号1304L也可以是耳机对音频信号1303L进行其他处理（例如降噪、时频转化）后所得到的新的音频信号，右耳机所播放的音频信号1304R也可以是对音频信号1303R进行其他处理后所得到的新的音频信号。但是，左右耳机对环境中的声音进行透传后，最终播放给用户的声音在时间和幅度（声压）上是有差别的，用户可以通过这种差别辨别环境音的方位。

在本申请实施例提供的音频处理方法中，上述第一耳机和上述第二耳机中的性能可能是有区别的，且其性能将决定音频的透传、空间线索叠加等步骤是由耳机中上述第一耳机执行或者由上述第二耳机执行、或是上述第一耳机和上述第二耳机均执行。根据上述第一耳机和上述第二耳机中的处理器的性能的多种可能性，上述第一耳机和第二耳机所执行的步骤可以分为下列两种情况：

①在一种可选的实施方式中，耳机中的第一耳机和第二耳机中只有一个耳机部署了本申请提供的保留空间方位信息的透传模型。

假设第一耳机部署了本申请提供的保留空间方位信息的透传模型，第二耳机并未部署。则在本实施方式中，第一耳机可以被称为主耳机，第二耳机可以被称为从耳机。则第一耳机和第二耳机具体的工作方式可以参考图14。如图14所示，第一耳机和第二耳机的可以按照如下方式实现如图11所示的音频处理方法：

S101：第一耳机采集第一信号。

S102：第二耳机采集第二信号。

S103：第二耳机将第二信号发送给第一耳机。

在第一耳机和第二耳机对环境音进行采集之后，分别得到上述第一信号和第二信号。这里的第一信号和第二信号即为图11中所示的第一信号和第二信号。由于在本实施方式中，只有第一耳机部署了本申请提供的保留空间方位信息的透传模型，因此，第一耳机将承担大部分的音频处理工作。则第一耳机将接收第二耳机采集到的上述第二信号。

S104：第一耳机根据第一信号和第二信号确定外部环境声音的方位信息。

S105：第一耳机对上述第一信号和上述第二信号进行透传处理，得到第一音频信号和第二音频信号。

S106：第一耳机确定上述方位信息对应的空间方位线索。

S107：第一耳机根据空间方位线索对第一音频信号和第二音频信号进行调整，得到第一目标信号和第二目标信号。

第一耳机在接收到上述第二信号后，可以对上述第一信号和上述第二信号进行分析，得到上述方位信息。之后，第一耳机可以通过自身部署的保留空间方位信息的透传模型，对上述第一信号、上述第二信号进行透传以及空间线索叠加，得到上述第一目标信号和第二目标信号。这里的第一目标信号和第二目标信号即为图11中所示的第一目标信号和第二目标信号。

S108：第一耳机将上述第二目标信号发送给第二耳机。

②在一种可选的实施方式中，耳机中的第一耳机和第二耳机中存储器和处理器均部署了本申请提供的保留空间方位信息的透传模型。

在本实施方式中，第一耳机和第二耳机具体的工作方式可以参考图15。如图15所示，第一耳机和第二耳机的可以按照如下方式实现如图11所示的音频处理方法：

S201：第一耳机采集第一信号。

S202：第二耳机采集第二信号。

S203：第二耳机将第二信号发送给第一耳机。

S204：第一耳机将第一信号发送给第二耳机。

在第一耳机和第二耳机对环境音进行采集之后，分别得到上述第一信号和第二信号。这里的第一信号和第二信号即为图11中所示的第一信号和第二信号。由于在本实施方式中，第一耳机和第二耳机的均部署了本申请提供的保留空间方位信息的透传模型，因此，第一耳机和第二耳机在获取到两个信号之后均可以独立完成音频的处理工作。因此，在本实施方式中，第一耳机将接收第二耳机采集到的上述第二信号，第二耳机也会接收第一耳机采集的上述第一音频信号。

S205：第一耳机根据第一信号和第二信号确定外部环境声音的第一方位信息。

S206：第一耳机对上述第一信号进行透传处理，得到第一音频信号。

S207：第一耳机确定上述第一方位信息对应的第一空间方位线索。

S208：第二耳机根据空间方位线索对第一音频信号进行调整，得到第一目标信号。

S209：第二耳机根据第一信号和第二信号确定外部环境声音的第二方位信息。

S210：第二耳机对上述第二信号进行透传处理，得到第二音频信号。

S211：第二耳机确定上述第二方位信息对应的第二空间方位线索。

S212：根据空间方位线索对第二音频信号进行调整，得到第二目标信号。

在两个耳机均获得了上述第一信号和上述第二信号之后，第一耳机可以单独对上述第一信号和上述第二信号进行分析，得到上述第一方位信息，并确定上述第一方位信息对应的第一空间方位线索。第二耳机可以单独对上述第二信号和上述第二信号进行分析，得到上述第二方位信息，并确定上述第二方位信息对应的第二空间方位线索。需理解，这里的第一空间方位线索和第二空间方位线索均可以是图11中所示的空间方位线索，“第一”和“第二”仅表示这两个空间方位线索是由不同的耳机获得的。同理，上述第一方位信息和上述第二方位信息也均可以是图11中所示的空间方位线索。

之后，第一耳机通过自身部署的保留空间方位信息的透传模型，对上述第一信号进行透传以及空间线索叠加，得到上述第一目标信号；第二耳机通过自身部署的保留空间方位信息的透传模型，对上述第二信号进行透传以及空间线索叠加，得到上述第二目标信号。

可以理解的，不同厂商的耳机具有不一样的性能，用户也可能会使用不同厂商生产的不同款式的耳机。但并不是所有的耳机都具备足够好的性能来部署本申请提供的保留空间方位信息的透传模型，以及完成本申请提供的音频处理方法。因此，在一种可能的实施方式中，本申请提供的保留空间方位信息的透传模型还可以部署在用户的终端设备中。在用户的耳机与该终端设备连接后，该终端设备可以将获取左右两个耳机采集到的环境音的音频信号，并对这两个音频信号，并通过保留空间方位信息的透传模型对两个音频信号进行处理，为透传后的音频叠加空间方位线索，并将叠加空间方位线索后的音频分别发送给对应的耳机进行播放。这样，在保留透传后的环境音的空间方位感的同时，也减轻了耳机的处理负担，用户使用不同款式的耳机也能听到具有空间方位敢的环境音。

在本实施方式中，两个耳机（这里同样将其分别称为第一耳机和第二耳机）以及上述终端设备具体的工作方式可以参考图16。如图16所示，第一耳机、第二耳机以及终端设备可以如下方式处理音频：

S301：第一耳机采集第一信号。

S302：第二耳机采集第二信号。

S303：第一耳机将第一信号发送给终端设备。

S304：第二耳机将第二信号发送给终端设备。

在第一耳机和第二耳机对环境音进行采集之后，分别得到上述第一信号和第二信号。

在本实施方式中，终端设备可以是手机（mobile phone）、车辆、车载设备（例如车载单元（On Board Unit，OBU））、平板电脑（pad）、带数据收发功能的电脑（如笔记本电脑、掌上电脑等）、移动互联网设备（mobile internet device，MID）、工业控制（industrialcontrol）中的终端、无人驾驶（self driving）中的无线终端、运输安全（transportationsafety）中的终端、智慧城市（smart city）中的终端、智慧家庭（smart home）中的终端、5G网络中的终端设备或者未来演进的公用陆地移动通信网络（public land mobilenetwork，PLMN）中的终端设备等。可理解，对于终端设备100的具体形态，本申请不作限定。

由于在本实施方式中，终端设备中部署了本申请实施例提供的保留空间方位信息的透传模型，则终端设备需要获取两个耳机分别采集的信号，即上述第一信号和上述第二信号。因此，在本实施方式中，第一耳机将上述第一信号发送给上述终端设备，第二耳机同样将上述第二信号发送给终端设备。

S305：终端设备根据第一信号和第二信号确定外部环境声音的方位信息。

S306：终端设备对上述第一信号和上述第二信号进行透传处理，得到第一音频信号和第二音频信号。

S307：终端设备确定上述方位信息对应的空间方位线索。

S308：终端设备根据上述空间方位线索对上述第一音频信号和上述第二音频信号进行调整，得到第一目标信号和第二目标信号。

在终端设备获得了上述第一信号和上述第二信号之后，终端设备可以对上述第一信号和上述第二信号进行分析，得到上述方位信息，并确定上述方位信息对应的空间方位线索。之后，终端设备可以保留空间方位信息的透传模型对两个音频信号进行处理，为透传后的音频叠加空间方位线索，得到上述第一目标信号和上述第二目标信号。

S309：终端设备将上述第一目标信号发送给第一耳机。

S310：终端设备将上述第二目标信号发送给第二耳机。

在终端设备得到上述第一目标信号和上述第二目标信号之后，终端设备可以将上述第一目标信号发送给上述第一耳机进行播放，将上述第二目标信号发送给上述第二耳机进行播放。

可选的。上述第一目标信号和上述第二目标信号可以是最后用于播放的音频信号；此外，在耳机接收到上述第一目标信号和上述第二目标信号，耳机也可以对上述第一目标信号和上述第二目标信号进行其他处理（例如降噪、时频转化），将所得的新的音频信号作为最后播放的音频信号。但是，最终播放给用户的声音在时间和幅度（声压）上是有差别的，用户可以通过这种差别辨别环境音的方位。

图17为本申请实施例提供的一种空间方位角划分情况的示意图。如图17所示，从人头顶上方向下俯视，将人所在的位置简化为一个点P，假设人的正前方向的方位角为0°，则整个空间在水平上可以视作以点P为中心的包括0°-360°的一个圆形区域。且由于P0位于人的正前方，可理解的，在P0处，方位角0°和方位角360度重合。可以看出，点P0’所在位对应的方位角为180°，点P1所在位对应的方位角为15°，点P2所在位对应的方位角为165°，点P3所在位对应的方位角为195°，点P4所在位对应的方位角为345°。

结合前述说明可知，人类能够感受声音的三维特性并定位声源，是因为人的双耳能够感受到声音的时间、音量差别。而这种差别主要是由于声源离人的左耳和右耳的距离不一样所导致的。当离人的左耳和右耳的距离（或者相对位置）的差别很小时，声源所产生的声音给人的双耳造成的时间、音量上的差别往往也很小，当这种差别小到一定程度之后，尤其是声源处于人的正前方以及正后方时，人往往并不能够感受到这种差别了，这时候的声音对人而言也不存在“方位感”一说了。例如，在图17中点P4、点P以及点P1所形成的深色区域中，存在一个音源时，由于该音源离人的左右耳的距离大致相同，对于两个耳朵来说并没有明显的“偏向左方”或者“偏向右方”，于是人往往并不能通过双耳判别由该音源所发出声音的方向性，也无法定位该音源的具体方向。同理，当图17中点P2、点P以及点P3所形成的深色区域中存在一个音源时，人也不能判别由该音源所发出声音和该音源的方向。且对于人耳接收到的来自同一音源的两个音频信号而言，我们可以通过分析在双耳处产生的IACC来分别听者是否能够感受到对于该音源所产生声音的方向性。

此外，在实际的环境中，环境音的产生往往并不是由一个单独的音源完成，而是由位于不同方向的多个音源共同产生。但是对于耳机而言，在采集环境音的音频时，其并不能分辨出环境中存在多个音源，也无法得知所采集到的音频信号实际是由环境中的多个音源共同产生的。但是，在声学和生物学中，当两个音调的频率位于一个子带内时，人就会把两个音调听成一个。更一般的情况是，如果一个复杂信号的频率分布位于一个子带内时，人耳的感觉是该信号等价于一个频率位于该子带中心频率处的简单信号，这是子带的核心内涵。简单说，子带是指一个频率范围，频谱位于这个范围内的信号可以用一个单一频率的分量来代替。

因此，当环境中的多个音源共同产生的音频信号被耳机采集到时，这个音频信号在耳机看来其实就是一个可以等同于上述多个音源的单一音源所产生的音频信号。只需要对左右耳机采集到的音频信号进行综合分析，就能得到这多个音源的发出的混合的音频信号在双耳处产生的IACC。

基于上述说明以及前述音频处理的方法，本申请实施例还提供了一种音频处理的方法的流程图。该方法能够确定听者是否能够感受到环境中音源所产生声音的方向性。只有在听者能够感受到音源所产生声音的方向性的时候，才会在将声音透传之后为该声音叠加空间线索；在听者不能够感受到音源所产生声音的方向性的时候，则无需为该声音叠加空间线索，进一步节约设备能耗。如图18所示，该方法可以包括：

S1801、采集第一信号和第二信号。

步骤S1081的详细内容可以参考前述对图11中步骤S1101的相关说明，此处不再赘述。

S1802、将上述第一信号和上述第二信号分别进行频谱分析，得到第上述第一信号和上述第二信号的N个子带。

可以理解的，第一耳机采集到的上述第一信号和第二耳机采集到的第二信号实际上时域信号，但是“子带”是与频域相关的概念。因此，当上述耳机在采集到第一信号和第二信号之后，在进行分析时，可以通过FFT等操作将上述第一信号和第二信号转化为频域信号后，再进行子带的划分和相关的分析工作。

图19示例性地展示了上述第一信号和上述第二信号的频谱图。如图19所示，在图19中，上方的频谱图为上述第一信号的频谱图（以下称其为第一频谱），下方的频谱图为上述第二信号的频谱图（以下称其为第二频谱）。这两个频谱图对应于同一个环境音，这个环境音可以由单个音源产生，也可以由多个音源产生。第一频谱和第二频谱均按照频率的大小被划分为四个子带频段，分别为频段f1、频段f2、频段f3以及频段f4。在第一频谱中，频段f1、频段f2、频段f3以及频段f4对应的子带分别为子带ab，子带bc，子带cd以及子带de；在第二频谱中，频段f1、频段f2、频段f3以及频段f4对应的子带分别为子带a’b’，子带b’c’，子带c’d’以及子带d’e’。可理解的，图19展示的第一频谱和第二频谱只是为了方便读者理解，其并不代表在第一信号和上述第二信号的频谱图实际的场景中的形状和样式。

S1803、确定上述第一信号的N个子带和上述第二信号的N个子带中处于相同频段中的子带的双耳互相关系数。

以图19中的第一频谱和第二频谱为例，此时N值为4。此时，子带ab和子带a’b’为位于同一频段中的子带、子带bc和子带b’c’为位于同一频段中的子带，子带cd和子带c’d’为位于同一频段中的子带，子带de和子带d’e’为位于同一频段中的子带。因此，可以分别这四队处于同一频段中的子带进行分析，得到这四对子带个各自的双耳互相关系数IACC。

S1804、判断目标子带对的数量是否大于第一阈值。

上述目标子带对表示上述第一信号的N个子带和上述第二信号的N个子带中双耳互相关系数小于第二阈值的子带对。本申请对上述第一阈值可以是和上述第二阈值的具体数值不做限定。应理解，这里的子带对表示上述第一信号的N个子带和上述第二信号的N个子带处于同一频段中的子带，例如图19中的子带ab和子带a’b’。

当处于同一频段中的子带对的IACC小于上述第二阈值时，可以认为这两个子带对应的声音能为用户的双耳带来可被用户感知的差异。而当第一频谱和第二频谱中N个子带对中的超多一定数量的子带对的IACC小于上述第二阈值的时候，上述第一信号和上述第二信号对应的声音在整体上为用户的双耳带来的差异才可被用户感知。

同样以图19中的第一频谱和第二频谱为例进行说明，假设上述第一阈值的具体数值为2，上述第二阈值的具体数值为0.5，且子带ab和子带a’b’、子带bc和子带b’c’，子带cd和子带c’d’，子带de和子带d’e’的IACC分别为0.3、0.6、0.2、0.2。则分析可知，则子带bc和子带b’c’的ICCA大于上述第二阈值，但子带ab和子带a’b’、子带cd和子带c’d’，子带de和子带d’e’的ICCA小于上述第二阈值’，此时目标子带对的数量为3（大于2），则在这中情况下，上述第一信号和上述第二信号对应的声音在整体上为用户的双耳带来的差异是可以被用户感知的。

在上述目标子带对的数量大于上述第一阈值的情况下，则接下来将执行步骤S1805-步骤S1808，流程结束；在上述目标子带对的数量不大于上述第一阈值的情况下，则接下来将执行步骤S1809，流程结束。

S1805、根据上述第一信号和上述第二信号确定外部环境的声音的方位信息。

S1806、对上述第一信号和上述第二信号分别进行透传处理，得到第一音频信号和得到第二音频信号。

S1807、确定上述方位信息对应的空间方位线索。

S1808、根据上述空间方位线索分别对上述第一音频信号和上述第二音频信号进行调整，得到第一目标信号和第二目标信号。

S1809、对上述第一信号和上述第二信号分别进行透传处理，得到第一音频信号和得到第二音频信号。

步骤S1085-步骤S1808的详细内容可以参考前述对图11中步骤S1102-步骤S1105的相关说明；步骤S1809详细内容可以参考前述对图11中步骤S1102-步骤S1105的相关说明。此处不再赘述。需理解，在本实施例中，步骤S1809和步骤S1086实际上是相同的操作，步骤S1809中的“第一音频信号”与步骤S1806中的“第一音频信号”、步骤S1809中的“第二音频信号”和步骤S1806中的“第二音频信号”可以是相同的音频信号。

此外，结合前述说明可知，第一耳机和第二耳机的性能优劣将决定大多数音频的处理工作由谁承担。同理，在本申请实施例中，步骤S1802-步骤S1809的执行者可以为上述第一耳机或第二耳机，具体以第一耳机和第二耳机的性能为准。举例说明，假设在本实施例中，只有上述第一耳机部署了本申请实施例提供的保留空间方位信息的透传模型，则步骤S1802-步骤S1809将全部由上述第一耳机完成。

接下来介绍本申请实施例提供一种***。***包括终端设备100和耳机200。终端设备100与耳机连接200，连接可以是无线连接，也可以为有线连接（具体可以参考图2中示出的***架构图）。对于无线连接，比如可以是终端设备通过蓝牙技术、无线高保真（wireless fidelity，Wi-Fi）技术、红外IR技术、超宽带技术与所述耳机连接。

本申请实施例中，终端设备100可以是手机（mobile phone）、车辆、车载设备（例如车载单元（On Board Unit，OBU））、平板电脑（pad）、带数据收发功能的电脑（如笔记本电脑、掌上电脑等）、移动互联网设备（mobile internet device，MID）、工业控制（industrialcontrol）中的终端、无人驾驶（self driving）中的无线终端、运输安全（transportationsafety）中的终端、智慧城市（smart city）中的终端、智慧家庭（smart home）中的终端、5G网络中的终端设备或者未来演进的公用陆地移动通信网络（public land mobilenetwork，PLMN）中的终端设备等。

可理解，对于终端设备100的具体形态，本申请不作限定。

具体的，终端设备100可以是前述说明中的终端设备。

耳机200包括挂在耳朵边上的两个发音单元。适配于左耳朵的可以称为左耳机，适配于右耳朵的可以称为右耳机。在本申请的一些实施例中，作为左耳机和右耳机也可以被称为第一耳机和第二耳机；具体的，当左耳机为第一耳机时，右耳机即为第二耳机，同理，当左耳机为第二耳机时，右耳机即为第一耳机。从佩戴角度来说，本申请实施例中耳机200可以是头戴式耳机、耳挂式耳机、颈挂式耳机或者耳塞式耳机等。耳塞式耳机还包括入耳式耳机（或者称为耳道式耳机）或者半入耳式耳机。耳机200具备透传（hearthrough，HT）功能。

具体的，终端设备100可以是前述说明中的耳机。

作为一种示例，以入耳式耳机为例。左耳机和右耳机采用的结构类似。左耳机或者右耳机均可以采用如下所描述的耳机结构。耳机结构（左耳机或右耳机）包括可以塞入耳道内的胶套、贴近耳朵的耳包、悬挂在耳包上的耳机杆。胶套将声音导向耳道，耳包内包括电池、扬声器、传感器等器件，耳机杆上可布置麦克风、物理按键等。耳机杆可以是圆柱、长方体、椭圆体等形状。布置在耳朵内部的麦克风可以称为反馈麦克风，布置在耳机外部的麦克风称为前馈麦克风。前馈麦克风用于采集外部环境的声音。在用户佩戴该耳机时，反馈麦克风可用于采集佩戴耳机的用户耳道内部环境的声音。两个麦克风即可以是模拟麦克风、也可以是数字麦克风。在用户佩戴耳机后，两个麦克风与扬声器摆放位置关系是：反馈麦克风在耳朵内部，靠近耳机胶套。扬声器位于反馈麦克风与前馈麦克风之间。前馈麦克风靠近耳朵外部结构，可以布置在耳机杆上部。反馈麦克风的管道可面向扬声器、也可以面向耳道内部。前馈麦克风附近有耳机开孔，用于透传外部环境声音进入参考麦克风。

本申请实施例中，终端设备100，用于向耳机200发送下行音频信号和/或控制信令。比如，控制信令用于对耳机200采用的处理模式进行控制，处理模式可以包括普通模式和透传模式，还可以包括例如降噪模式、听觉增强模式等其他模式。示例性的，在耳机200和终端设备100连接的情况下，用户可以通过终端设备的触控屏对耳机的处理模式进行选择。当耳机200采用透传模式工作时，可以强化用户对当前外部环境的声音的感知；具体的，外部环境中的声音包括火车站中的报站声音、者鸣笛声音、火车站中的报站声音饭店的叫号的声音等等。在透传模式下，耳机200能够采集到外部环境的声音，并将透传给用户。需注意，耳机200经过左右耳机透传给用户的环境音是不一样的两个声音，这两个声音在播放时间上和幅度（声压）上都有区别；具体的，这两个声音在播放时间上的时延和幅度上可以设定为用户在开耳状态（即用户未佩戴耳机的状态）时左右耳朵所收听到环境音所感觉到的时延和幅度，也可以按照用户在开耳状态时左右耳朵所收听到环境音所感觉到的时延和幅度进行一定的比例调整，只要用户能够根据这两个声音准确地定位环境音的方位即可，本申请对此不作限制。

需要说明的是，耳机200的透传功能可以在耳机200与终端100连接时默认开启；或者由终端设备100提供用户界面，供用户根据需求选择是否开启耳机200的透传功能。终端设备100在用户的操作下，向耳机200发送控制信令，控制信令用来指示耳机200开启透传处理功能。

图20示例性示出了该终端设备100的结构。

如图20所示，终端设备100还可包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。

其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对终端设备100的具体限定。在本申请另一些实施例中，终端设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

在一些实施例中，控制器或GPU等处理器110，可以在终端设备100与耳机200通信连接的情况下，向耳机200发送下行音频信号和/或控制信令，控制信令可以用于对耳机200采用的处理模式进行控制，处理模式可以包括普通模式和透传模式，还可以包括例如降噪模式、听觉增强模式等其他模式。

在另一些实施例中，控制器或GPU等处理器110，还可以用于在终端设备100与耳机200通信连接，且耳机工作模式为透传模式的情况下，接收耳机200中左耳机和右耳机发送来的音频信号，这两个音频信号为左耳机和右耳机对环境中的同一个或者相同的多个音源进行采集得到。在终端设备100接收到这两个音频信号后，控制器或GPU等处理器110可以基于两个音频信号确定出这两个音频信号对应的环境音的方位信息，并将该方位信息发送给耳机200；或者为上述两个音频信号叠加上述方位信息后将所得的新的音频信号发送给耳机200。

其中，控制器可以是终端设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了***的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integratedcircuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线（serial data line，SDA）和一根串行时钟线（derail clock line，SCL）。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现终端设备100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等***器件。MIPI接口包括摄像头串行接口（camera serial interface，CSI），显示屏串行接口（displayserial interface，DSI）等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现终端设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现终端设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为终端设备100充电，也可以用于终端设备100与***设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他终端设备，例如AR设备等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端设备100的结构限定。在本申请另一些实施例中，终端设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过终端设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为终端设备100供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

终端设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在终端设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。

无线通信模块160可以提供应用在终端设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星***(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，终端设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得终端设备100可以通过无线通信技术与网络以及其他设备通信。无线通信技术可以包括全球移动通讯***(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code divisionmultipleaccess，WCDMA)，时分码分多址(time-division code division multipleaccess，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。GNSS可以包括全球卫星定位***(global positioning system，GPS)，全球导航卫星***(global navigation satellite system，GLONASS)，北斗卫星导航***(beidounavigation satellite system，BDS)，准天顶卫星***(quasi-zenithsatellitesystem，QZSS)和/或星基增强***(satellite based augmentation systems，SBAS)。

终端设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏（liquid crystal display，LCD），有机发光二极管（organic light-emittingdiode，OLED），有源矩阵有机发光二极体或主动矩阵有机发光二极体（active-matrixorganic light emitting diode的，AMOLED），柔性发光二极管（flex light-emittingdiode，FLED），Miniled，MicroLed，Micro-oLed，量子点发光二极管（quantum dot lightemitting diodes，QLED）等。在一些实施例中，终端设备100可以包括1个或N个显示屏194，N为大于1的正整数。

终端设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件（charge coupled device，CCD）或互补金属氧化物半导体（complementary metal-oxide-semiconductor，CMOS）光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，终端设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端设备100可以支持一种或多种视频编解码器。这样，终端设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组（moving picture experts group，MPEG）1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络（neural-network，NN）计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。通过NPU还可以实现本申请实施例提供的决策模型。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行终端设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作***，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储终端设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

终端设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

在一些实施例中，音频模块170可以在，还可以在终端设备100接收耳机200中左耳机和右耳机发送来的音频信号，经控制器或GPU等处理器110确定这两个音频信号对应的环境音的方位信息后，控制器或GPU等处理器110的控制下对这两个信号的播放时间和幅度进行调整，得到两个新的音频信号。这两个新的音频信号在播放给用户时候，给用户的听觉上的感受和上述环境音给用户的听觉上的感受是一样或者十分相似的，用户可以基于这两个音频信号确定上述环境音在环境中大致方向。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。终端设备100可以通过扬声器170A收听音乐，收听视频中的声音或收听免提通话。本申请实施例中，扬声器170A的数量可以为一个，也可以为两个或者超过两个。在本申请实施例提供的音频处理方法中，当终端设备100的扬声器170A的数量超过两个时，可以支持播放双声道的音频。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当终端设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。终端设备100可以设置至少一个麦克风170C。在另一些实施例中，终端设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动终端设备平台（open mobile terminal platform，OMTP）标准接口，美国蜂窝电信工业协会（cellular telecommunications industry association of the USA，CTIA）标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。终端设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，终端设备100根据压力传感器180A检测触摸操作强度。终端设备100也可以根据压力传感器180A的检测信号计算触摸的位置。

陀螺仪传感器180B可以用于确定终端设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定终端设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测终端设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消终端设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，终端设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。终端设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当终端设备100是翻盖机时，终端设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测终端设备100在各个方向上(一般为三轴)加速度的大小。当终端设备100静止时可检测出重力的大小及方向。还可以用于识别终端设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。终端设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，终端设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。终端设备100通过发光二极管向外发射红外光。终端设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定终端设备100附近有物体。当检测到不充分的反射光时，终端设备100可以确定终端设备100附近没有物体。终端设备100可以利用接近光传感器180G检测用户手持终端设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。终端设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测终端设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。终端设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，终端设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，终端设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，终端设备100对电池142加热，以避免低温导致终端设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，终端设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于终端设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机200中，结合成骨传导耳机。音频模块170可以基于骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。终端设备100可以接收按键输入，产生与终端设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过***SIM卡接口195，或从SIM卡接口195拔出，实现和终端设备100的接触和分离。终端设备100可以支持一个或多个SIM卡接口。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时***多张卡。多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。终端设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，终端设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在终端设备100中，不能和终端设备100分离。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。不限于集成于处理器110中，ISP也可以设置在摄像头193中。

在本申请实施例中，摄像头193的数量可以为M个，M≥2，M为正整数。终端设备100在双景录像中开启的摄像头的数量可以为N，N≤M，N为正整数。

摄像头193包括镜头和感光元件（又可称为图像传感器），用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(chargecoupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号，如标准的RGB，YUV等格式的图像信号。

摄像头193的硬件配置以及物理位置可以不同，因此，不同摄像头采集到的图像的大小、范围、内容或清晰度等可能不同。

摄像头193的出图尺寸可以不同，也可以相同。摄像头的出图尺寸是指该摄像头采集到的图像的长度与宽度。该图像的长度和宽度均可以用像素数来衡量。摄像头的出图尺寸也可以被叫做图像大小、图像尺寸、像素尺寸或图像分辨率。常见的摄像头的出图比例可包括：4:3、16:9或3:2等等。出图比例是指摄像头所采集图像在长度上和宽度上的像素数的大致比例。

摄像头193可以对应同一焦段，也可以对应不同的焦段。该焦段可以包括但不限于：焦长小于预设值1(例如20mm)的第一焦段；焦长大于或者等于第一预设值，且小于或者等于第二预设值(例如50mm)的第二焦段；焦长大于第二预设值的第三焦段。对应于第一焦段的摄像头可以被称为超广角摄像头，对应第二焦段的摄像头可以被称为广角摄像头，对应于第三焦段的摄像头可以被称为长焦摄像头。摄像头对应的焦段越大，该摄像头的视场角（field of view，FOV）越小。视场角是指光学***所能够成像的角度范围。

摄像头193可以设置于终端设备的两面。和终端设备的显示屏194位于同一平面的摄像头可以被称为前置摄像头，位于终端设备的后盖所在平面的摄像头可以被称为后置摄像头。前置摄像头可用于采集面对显示屏194的拍摄者自己的图像，后置摄像头可用于采集拍摄者所面对的拍摄对象（如人物、风景等）的图像。

在一些实施例中，摄像头193可以用于采集深度数据。例如，摄像头193可以具有（time of flight，TOF）3D感测模块或结构光（structured light）3D感测模块，用于获取深度信息。用于采集深度数据的摄像头可以为前置摄像头，也可为后置摄像头。

视频编解码器用于对数字图像压缩或解压缩。终端设备100可以支持一种或多种图像编解码器。这样，终端设备100可以打开或保存多种编码格式的图片或视频。

终端设备100可以通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-OLEd，量子点发光二极管(quantum dotlightemitting diodes，QLED)等。在一些实施例中，终端设备100可以包括一个或多个显示屏194。

在一些实施例中，在终端设备100和耳机200建立通信连接后，显示屏194可以显示相应的控制界面，该控制界面可以显示耳机200的连接状态、耳机200的电量以及耳机200的充电仓的电量。此外，该控制界面还可以显示多个模式选择控件，这些模式选择控件可以用于用户为耳机200选择相应的工作模式，例如透传模式。

图21示例性示出了上述耳机200的结构。

如图21所示，耳机200包括：处理器2601、存储器2602、无线通信模块2603、输入模块2604。

麦克风2605、扬声器2606、传感器模块2607等部件。可以理解的，图21中示出的耳机结构并不构成对耳机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

可以理解的是，若耳机的类型是TWS耳机，那么左耳机和右耳机可以分别具备上述处理器2601、存储器2602、无线通信模块2603、输入模块2604、麦克风2605、扬声器2606和传感器模块2607中的一个或多个部件。

若耳机的类型是线控耳机或者颈戴式耳机，那么耳机的左耳机和右耳机上可以分别具备传感器模块2607、扬声器2606、麦克风2605和输入模块2604中的一个或多个部件。控制模块上可以具有处理器2601、存储器2602、无线通信模块2603、输入模块2604、麦克风2605等模块。

其中，处理器2601可以包括如下至少一种类型：中央处理单元(CentralProcessing Unit ，CPU)，该处理器2601还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)、或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

处理器2601中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器2601中的存储器为高速缓冲存储器。该存储器可以保存处理器2601刚用过或循环使用的指令或数据。如果处理器2601需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器2601的等待时间，因而提高了***的效率。

存储器2602可用于存储软件程序以及模块，处理器2601通过运行存储在存储器2602的软件程序以及模块，从而执行耳机的各种功能应用以及数据处理。存储器2602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据耳机的使用所创建的数据等。此外，存储器2602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。其中，通信模块2603用于在处理器2601的控制下实现信号的接收和发送，例如接收终端设备发送的通话对方的语音信号、向终端设备发送语音信号等。该通信模块2603可以包括射频(Radio Frequency ，RF)电路。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、顆合器＞LNA (low noise amplifier，低噪声放大器)、双工器等。此外，近场RF电路还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于短距离通信技术，例如无线保真(wirelessfidelity，WiFi)通信、蓝牙通信、近场射频通信等。

输入模块2604可用于接收输入的按键信息、开关信息，以及产生与耳机的用户设置以及功能控制有关的键信号输入和语音信号输入。具体地，输入模块2604可以包括触控键和/或物理按键。触控键，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控键上或在触控键附近的操作)，并根据预先设定的程式驱动相应的连接装置。在一种实现方式中，触控键可包括触摸检测装置和触摸控制器两个部分。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控键。物理按键可以包括音量控制按键、开关按键等的一种或多种。

麦克风2605，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风2605发声，将声音信号输入到麦克风2605。耳机上可以设置多个麦克风2605。

扬声器2606，也称“喇叭”，用于将音频电信号转换为声音信号。

传感器模块2607可以包括压力传感器2607a、温度传感器2607b、距离传感器2607c、光线传感器2607d、加速度传感器2607e、入耳检测传感器2607f、正面光线距离传感器2607g、背面光线距离传感器2607h等。其中，压力传感器2607a用于感受压力信号，可以将压力信号转换成电信号。压力传感器2607a的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器2607a，电极之间的电容改变。耳机根据电容的变化确定压力的强度。在一些实施例中，可以通过压力传感器2607a检测开关操作，也可以检测耳机是否处于非佩戴状态。

加速度传感器2607e可检测耳机在各个方向上(一般为三轴)加速度的大小。当耳机静止时可检测出重力的大小及方向。还可以用于识别耳机的状态，应用于佩戴检测。

距离传感器2607c，用于测量距离。耳机可以通过红外或激光测量距离。在一些实施例中，耳机可以利用距离传感器2607c测距以实现佩戴检测。

光线传感器2607d，用于测量光线强度。在一些实施例中，耳机可以利用光线传感器2607d测光强以实现佩戴检测。

温度传感器2607b用于检测温度。在一些实施例中，耳机利用温度传感器2607b检测的温度，以实现佩戴检测。

正面光线距离传感器2607g和背面光线距离传感2607h，用于检测耳机上前后两个方向的光线距离。在一些实施例中，耳机可以利用正面光线距离传感器2607g和背面光线距离传感器2607h测距以实现佩戴检测。

另外，尽管未示出，耳机还可以包括电源模块等，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质。上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。如果在软件中实现，则功能可以作为一个或多个指令或代码存储在计算机可读介质上或者在计算机可读介质上传输。计算机可读介质可以包括计算机存储介质和通信介质，还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何可用介质。

作为一种实现的设计，计算机可读介质可以包括只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(randomaccess memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically erasable programmabler-only memory，EEPROM)或其它光盘存储器，磁盘存储器或其它磁存储设备，或可用于承载的任何其它介质或以指令或数据结构的形式存储所需的程序代码，并且可由计算机访问。而且，任何连接被适当地称为计算机可读介质。例如，如果使用同轴电缆，光纤电缆，双绞线，数字用户线(DSL)或无线技术(如红外，无线电和微波)从网站，服务器或其它远程源传输软件，则同轴电缆，光纤电缆，双绞线，DSL或诸如红外，无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘(CD)，激光盘，光盘，数字通用光盘(DVD)，软盘和蓝光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光光学地再现数据。上述的组合也应包括在计算机可读介质的范围内。

本申请实施例还提供了一种电子设备，该电子设备包括：一个或多个处理器和存储器；

其中，存储器与所述一个或多个处理器耦合，该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令，该一个或多个处理器调用该计算机指令以使得所述电子设备执行前述实施例中所示的方法。

上述实施例中所用，根据上下文，术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地，根据上下文，短语“在确定…时”或“如果检测到（所陈述的条件或事件）”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到（所陈述的条件或事件）时”或“响应于检测到（所陈述的条件或事件）”。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线）或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质（例如固态硬盘）等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种音频的处理方法，其特征在于，所述方法包括：

采集第一信号和第二信号，所述第一信号为通过第一耳机对外部环境的声音进行采集所得的音频信号，所述第二信号为通过第二耳机对所述外部环境的声音进行采集所得的音频信号；

分别对所述第一信号和所述第二信号进行透传处理，得到第一音频信号和第二音频信号；

对所述第一信号和所述第二信号分别进行频谱分析，得到所述第一信号和所述第二信号的N个子带；

确定所述第一信号的N个子带和所述第二信号的N个子带中处于相同频段中的子带的双耳互相关系数；

在目标子带对的数量大于第一阈值的情况下，根据所述第一信号和所述第二信号确定所述外部环境的声音的方位信息，所述目标子带对为所述第一信号的N个子带和所述第二信号的N个子带中双耳互相关系数小于第二阈值的两个子带；

根据所述方位信息分别对所述第一音频信号和所述第二音频信号进行调整，得到第一目标信号和第二目标信号。

2.根据权利要求1所述的方法，其特征在于，所述第一目标信号通过所述第一耳机播放，所述第二目标信号通过所述第二耳机播放，所述第一目标信号的播放时刻和所述第二目标信号的播放时刻不同，所述第一目标信号的响度和所述第二目标信号的响度不同。

3.根据权利要求2所述的方法，其特征在于，所述第一耳机与环境音源的距离小于所述第二耳机与所述环境音源的距离，所述环境音源为所述外部环境的声音的音源，所述第一目标信号的播放时刻在所述第二目标信号的播放时刻之前，所述第一目标信号的响度大于所述第二目标信号的响度。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述第一耳机为左耳机，所述第二耳机为右耳机，所述方位信息包括双耳方位信息和单耳方位信息，所述单耳方位信息包括左耳信息和右耳信息，所述根据所述方位信息分别对所述第一音频信号和所述第二音频信号进行调整，得到第一目标信号和第二目标信号，包括：

通过所述双耳方位信息调整所述第一音频信号和所述第二音频信号的响度和相对时延，得到第三音频信号和第四音频信号；

通过所述左耳信息对所述第三音频信号进行滤波，得到所述第一目标信号；

通过所述右耳信息对所述第四音频信号进行滤波，得到所述第二目标信号。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述第一信号和所述第二信号确定所述外部环境的声音的方位信息，包括：

根据所述第一信号和所述第二信号确定所述第一信号和所述第二信号之间的抵达双耳的时间差；

根据所述抵达双耳的时间差确定所述外部环境的声音的方位信息。

6.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述第一信号和所述第二信号确定所述外部环境的声音的方位信息，包括：

根据所述第一信号和所述第二信号确定所述第一信号和所述第二信号之间的抵达双耳的强度差；

根据所述抵达双耳的强度差确定所述外部环境的声音的方位信息。

7.根据权利要求1至3任一项所述的方法，其特征在于，

所述分别对所述第一信号和所述第二信号进行透传处理，得到第一音频信号和第二音频信号，包括：

所述第一耳机分别对所述第一信号和所述第二信号进行透传处理，得到所述第一音频信号和所述第二音频信号；

所述根据所述第一信号和所述第二信号确定所述外部环境的声音的方位信息，包括：

所述第一耳机根据所述第一信号和所述第二信号确定所述外部环境的声音的方位信息；

所述根据所述方位信息分别对所述第一音频信号和所述第二音频信号进行调整，得到所述第一目标信号和所述第二目标信号包括：

所述第一耳机根据所述方位信息分别对所述第一音频信号和所述第二音频信号进行调整，得到所述第一目标信号和所述第二目标信号。

8.根据权利要求1至3任一项所述的方法，其特征在于，

所述第一耳机对所述第一信号进行透传处理，得到所述第一音频信号，

所述第二耳机对所述第二信号进行透传处理，得到所述第二音频信号；

所述第一耳机和所述第二耳机根据所述第一信号和所述第二信号确定所述外部环境的声音的方位信息；

所述根据所述方位信息分别对所述第一音频信号和所述第二音频信号进行调整，得到所述第一目标信号和所述第二目标信号，包括：

所述第一耳机根据所述方位信息对所述第一音频信号进行调整，得到所述第一目标信号；

所述第二耳机根据所述方位信息对所述第二音频信号进行调整，得到所述第二目标信号。

9.一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器、存储器；

所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行如权利要求1-8中任一项所述的方法。

10.一种芯片***，其特征在于，所述芯片***应用于电子设备，所述芯片***包括一个或多个处理器，所述处理器用于调用计算机指令以使得所述电子设备执行如权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在电子设备上运行时，使得所述电子设备执行如权利要求1-8中任一项所述的方法。