CN116781817A

CN116781817A - 双耳拾音方法和装置

Info

Publication number: CN116781817A
Application number: CN202210204580.0A
Authority: CN
Inventors: 曹国智; 刘镇亿; 玄建永
Original assignee: Beijing Honor Device Co Ltd
Current assignee: Beijing Honor Device Co Ltd
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2023-09-19

Abstract

本申请实施例提供一种双耳拾音方法和装置，涉及终端技术领域，应用于终端设备，方法包括：终端设备利用麦克风获取音频信号；终端设备对音频信号进行盲源分离，得到N路音频信号；终端设备在N路音频信号中确定目标信号；终端设备利用第一权重对目标信号进行调整、以及利用第二权重对非目标信号进行调整，得到调整后的目标信号以及调整后的非目标信号；终端设备将调整后的目标信号以及调整后的非目标信号融合为双耳拾音结果。这样，使得终端设备可以分别提取场景中的目标人声与非目标人声，并通过对该目标人声以及非目标人声的能量调整、以及融合，得到声音听感更为自然的双耳拾音结果。

Description

双耳拾音方法和装置

技术领域

本申请涉及终端技术领域，尤其涉及一种双耳拾音方法和装置。

背景技术

随着终端设备的普及和发展，真无线(true wireless stereo，TWS)耳机已经成为越来越普遍的音频录制、或视频录制的设备。在利用TWS耳机进行音频录制时，基于TWS 耳机的双耳拾音技术可以模拟人耳听音的方式，使得基于TWS耳机记录下的声音具有较好的空间感和临场感。

然而，当利用TWS耳机对录制人说话的声音进行录制时，由于录制人距离TWS耳机中的麦克风(microphone，MIC)过近，且环境中的其他声源距离TWS耳机中的麦克风距离较远，使得拾取到的录音呈现出录制人的声音偏大而环境声音较小的情况，影响录音效果。

发明内容

本申请实施例提供一种双耳拾音方法和装置，使得终端设备可以分别提取场景中的目标人声与非目标人声，并通过对该目标人声以及非目标人声的能量调整、以及融合，得到声音听感更为自然的双耳拾音结果。

第一方面，本申请实施例提供一种双耳拾音方法，应用于终端设备，方法包括：终端设备利用麦克风获取音频信号；终端设备对音频信号进行盲源分离，得到N路音频信号；N为大于或等于2的整数；终端设备在N路音频信号中确定目标信号；终端设备利用第一权重对目标信号进行调整、以及利用第二权重对非目标信号进行调整，得到调整后的目标信号以及调整后的非目标信号；非目标信号为N路音频信号中的除目标信号以外的信号；终端设备将调整后的目标信号以及调整后的非目标信号融合为双耳拾音结果。这样，使得终端设备可以分别提取场景中的目标人声与非目标人声，并通过对该目标人声以及非目标人声的能量调整、以及融合，得到声音听感更为自然的双耳拾音结果。

其中，该目标信号可以为本申请实施例中的包含目标人声的信号；该非目标信号可以为本申请实施例中音频信号中的除目标信号以外的信号。

在一种可能的实现方式中，终端设备在N路音频信号中确定目标信号，包括：终端设备在N路音频信号中选择满足第一预设方向以及包含目标人声的一路信号为目标信号。这样，使得终端设备可以基于第一预设方向以及目标人声确定出使用终端设备进行录音时的说话人声音信号。

其中，该第一预设方向可以为终端设备的麦克风的正前方。

在一种可能的实现方式中，目标人声为满足预设频率和/或满足预设谐波的声音。其中，该预设频率可以为频率范围，例如可以为50-4000赫兹(Hz)。

在一种可能的实现方式中，麦克风包括：与终端设备连接的耳机中的两个麦克风，信号所在方向为终端设备对N路音频信号中的其中一路信号对应的重构信号的波达方向DOA估计得到的；其中，重构信号是对N路音频信号中的其中一路信号的重构处理得到的，重构处理用于将N路音频信号中的其中一路信号映射到耳机中的两个麦克风中。这样，使得终端设备可以基于对重构信号的DOA估计更准确的判断信号的方向。

在一种可能的实现方式中，方法还包括：终端设备计算目标信号的能量与非目标信号的能量的差值；终端设备利用第一权重对目标信号进行调整、以及利用第二权重对非目标信号进行调整，得到调整后的目标信号以及调整后的非目标信号，包括：当终端设备确定差值大于第一阈值时，终端设备利用第一权重对目标信号进行调整、以及利用第二权重对非目标信号进行调整，得到调整后的目标信号以及调整后的非目标信号。这样，当终端设备中出现多个既满足第一预设方向又满足目标人声的目标信号时，终端设备可以通过目标信号与非目标信号的能量差值，更准确的识别出目标信号。

在一种可能的实现方式中，麦克风包括：与终端设备连接的耳机中的两个麦克风，终端设备利用麦克风获取音频信号，包括：终端设备显示第一界面，第一界面中包括：用于利用耳机中的两个麦克风进行录音的第一选项；当终端设备接收到选中第一选项的操作时，终端设备利用耳机中的两个麦克风获取音频信号。这样，使得用户可以根据录音需求选择不同的麦克风进行音频录制，进而提高使用录音功能的用户体验。

其中，该第一界面可以为用于开启录音的界面，该第一选项可以为本申请实施例中的标准录音(AI录音)对应的选项。

在一种可能的实现方式中，方法还包括：当终端设备接收到用于设置录音模式的操作时，终端设备显示第二界面；第二界面中包括：用于设置在录音中利用耳机中的两个麦克风获取音频信号的第一控件；当终端设备接收到选中第一选项的操作时，终端设备利用耳机中的两个麦克风获取音频信号，包括：在第一控件为开启状态下，当终端设备接收到选中第一选项的操作时，终端设备利用耳机中的两个麦克风获取音频信号。这样，使得用户可以根据录音需求选择合适的录音模式，实现利用该录音模式对应的不同的麦克风进行音频录制，进而提高使用录音功能的用户体验。

其中，该第二界面可以为用于设置录音权限的界面，该第一控件可以为录音模式中的AI录音对应的控件，该AI录音可以理解为在识别到用户佩戴耳机时，利用耳机中的麦克风获取音频信号。

在一种可能的实现方式中，方法还包括：在第一控件为关闭状态下，当终端设备接收到选中第一选项的操作时，终端设备利用终端设备中的麦克风获取音频信号。这样，使得用户可以根据录音需求选择合适的录音模式，实现利用该录音模式对应的不同的麦克风进行音频录制，进而提高使用录音功能的用户体验。

在一种可能的实现方式中，麦克风包括：终端设备中的至少一个麦克风，以及与终端设备连接的耳机中的两个麦克风，方法还包括：终端设备计算音频信号对应的前向波束；前向波束用于对位于麦克风的非正前方的音频信号进行抑制，以及用于对位于麦克风的正前方的音频信号进行保留；终端设备计算前向波束分别与N路音频信号之间的相关性数值；终端设备在N路音频信号中确定目标信号，包括：终端设备在N 路音频信号中选择相关性数值大于第二阈值的一路信号为目标信号。这样，使得终端设备可以通过前向波束与分别与N路音频信号之间的相关性，更准备的识别出目标信号。

在一种可能的实现方式中，音频信号中包括：第一音频信号、第二音频信号以及第三音频信号，终端设备计算音频信号对应的前向波束，包括：终端设备获取第二方向对应的滤波器系数；第二方向为麦克风的正前方对应的方向；终端设备利用第二方向对应的滤波器系数，结合第一音频信号、第二音频信号以及第三音频信号，得到音频信号对应的前向波束。这样，使得终端设备可以通过三个麦克风分别对应的音频信号准确的计算出前向波束。

在一种可能的实现方式中，方法还包括：终端设备显示第一界面，第一界面中包括：用于利用耳机中的两个麦克风以及终端设备中的至少一个麦克风进行录音的第二选项；当终端设备接收到选中第二选项的操作时，终端设备利用耳机中的两个麦克风以及终端设备中的至少一个麦克风获取音频信号。这样，使得用户可以根据录音需求选择不同的麦克风进行音频录制，进而提高使用录音功能的用户体验。

在一种可能的实现方式中，方法还包括：当终端设备接收到用于结束录音的操作时，终端设备将双耳拾音结果编码为第一语音，并存储第一语音；当终端设备接收到用于开启录音应用的操作时，终端设备显示第三界面；其中，第三界面中包括第一语音，以及第一语音对应的第一标识；第一标识用于指示第一语音是基于耳机中的两个麦克风、或者基于耳机中的两个麦克风以及终端设备中的至少一个麦克风录制得到的。这样，使得用户可以根语音对应的第一标识准确的判断出该语音是基于哪种麦克风录制得到的。

在一种可能的实现方式中，方法还包括：终端设备对音频信号进行傅里叶变换，得到傅里叶变换后的音频信号；终端设备对音频信号进行盲源分离，得到N路音频信号，包括：终端设备对傅里叶变换后的音频信号进行盲源分离，得到N路音频信号。这样，使得终端设备可以通过傅里叶变换对将时域的音频信号转化为频域的音频信号，便于进行后续信号处理。

在一种可能的实现方式中，终端设备将调整后的目标信号以及调整后的非目标信号融合为双耳拾音结果，包括：终端设备将调整后的目标信号以及调整后的非目标信号融合为第四音频信号；终端设备对第四音频信号进行逆傅里叶变换，得到双耳拾音结果。这样，使得终端设备可以通过逆傅里叶变换对将频域的音频信号转化为时域的音频信号，便于进行后续信号处理。

第二方面，本申请实施例提供一种双耳拾音装置，处理单元，用于利用麦克风获取音频信号；处理单元，还用于对音频信号进行盲源分离，得到N路音频信号；N为大于或等于2的整数；处理单元，还用于在N路音频信号中确定目标信号；处理单元，还用于利用第一权重对目标信号进行调整、以及利用第二权重对非目标信号进行调整，得到调整后的目标信号以及调整后的非目标信号；非目标信号为N路音频信号中的除目标信号以外的信号；处理单元，还用于将调整后的目标信号以及调整后的非目标信号融合为双耳拾音结果。

在一种可能的实现方式中，处理单元，具体用于终端设备在N路音频信号中选择满足第一预设方向以及包含目标人声的一路信号为目标信号。

在一种可能的实现方式中，目标人声为满足预设频率和/或满足预设谐波的声音。

在一种可能的实现方式中，麦克风包括：与终端设备连接的耳机中的两个麦克风，信号所在方向为终端设备对N路音频信号中的其中一路信号对应的重构信号的波达方向DOA估计得到的；其中，重构信号是对N路音频信号中的其中一路信号的重构处理得到的，重构处理用于将N路音频信号中的其中一路信号映射到耳机中的两个麦克风中。

在一种可能的实现方式中，处理单元，还用于终端设备计算目标信号的能量与非目标信号的能量的差值；当终端设备确定差值大于第一阈值时，处理单元，还用于利用第一权重对目标信号进行调整、以及利用第二权重对非目标信号进行调整，得到调整后的目标信号以及调整后的非目标信号。

在一种可能的实现方式中，麦克风包括：与终端设备连接的耳机中的两个麦克风，显示单元，用于显示第一界面，第一界面中包括：用于利用耳机中的两个麦克风进行录音的第一选项；当终端设备接收到选中第一选项的操作时，处理单元，用于利用耳机中的两个麦克风获取音频信号。

在一种可能的实现方式中，当终端设备接收到用于设置录音模式的操作时，显示单元，还用于显示第二界面；第二界面中包括：用于设置在录音中利用耳机中的两个麦克风获取音频信号的第一控件；在第一控件为开启状态下，当终端设备接收到选中第一选项的操作时，处理单元，还用于利用耳机中的两个麦克风获取音频信号。

在一种可能的实现方式中，在第一控件为关闭状态下，当终端设备接收到选中第一选项的操作时，处理单元，还用于利用终端设备中的麦克风获取音频信号。

在一种可能的实现方式中，麦克风包括：终端设备中的至少一个麦克风，以及与终端设备连接的耳机中的两个麦克风，处理单元，还用于计算音频信号对应的前向波束；前向波束用于对位于麦克风的非正前方的音频信号进行抑制，以及用于对位于麦克风的正前方的音频信号进行保留；处理单元，还用于计算前向波束分别与N路音频信号之间的相关性数值；处理单元，还用于在N路音频信号中选择相关性数值大于第二阈值的一路信号为目标信号。

在一种可能的实现方式中，音频信号中包括：第一音频信号、第二音频信号以及第三音频信号，处理单元，具体用于获取第二方向对应的滤波器系数；第二方向为麦克风的正前方对应的方向；处理单元，具体用于利用第二方向对应的滤波器系数，结合第一音频信号、第二音频信号以及第三音频信号，得到音频信号对应的前向波束。

在一种可能的实现方式中，显示单元，还用于显示第一界面，第一界面中包括：用于利用耳机中的两个麦克风以及终端设备中的至少一个麦克风进行录音的第二选项；当终端设备接收到选中第二选项的操作时，处理单元，还用于利用耳机中的两个麦克风以及终端设备中的至少一个麦克风获取音频信号。

在一种可能的实现方式中，当终端设备接收到用于结束录音的操作时，处理单元，还用于将双耳拾音结果编码为第一语音，并存储第一语音；当终端设备接收到用于开启录音应用的操作时，显示单元，还用于显示第三界面；其中，第三界面中包括第一语音，以及第一语音对应的第一标识；第一标识用于指示第一语音是基于耳机中的两个麦克风、或者基于耳机中的两个麦克风以及终端设备中的至少一个麦克风录制得到的。

在一种可能的实现方式中，处理单元，还用于对音频信号进行傅里叶变换，得到傅里叶变换后的音频信号；处理单元，还用于对傅里叶变换后的音频信号进行盲源分离，得到N路音频信号。

在一种可能的实现方式中，处理单元，具体用于将调整后的目标信号以及调整后的非目标信号融合为第四音频信号；处理单元，还具体用于对第四音频信号进行逆傅里叶变换，得到双耳拾音结果。

第三方面，本申请实施例提供一种双耳拾音装置，包括处理器和存储器，存储器用于存储代码指令；处理器用于运行代码指令，使得电子设备以执行如第一方面或第一方面的任一种实现方式中描述的双耳拾音方法。

第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有指令，当指令被执行时，使得计算机执行如第一方面或第一方面的任一种实现方式中描述的双耳拾音方法。

第五方面，一种计算机程序产品，包括计算机程序，当计算机程序被运行时，使得计算机执行如第一方面或第一方面的任一种实现方式中描述的双耳拾音方法。

应当理解的是，本申请的第二方面至第五方面与本申请的第一方面的技术方案相对应，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

附图说明

图1为本申请实施例提供的一种场景示意图；

图2为本申请实施例提供的一种终端设备的结构示意图；

图3为本申请实施例提供的一种双耳拾音方法的流程示意图；

图4为本申请实施例提供的一种开始录音的界面示意图；

图5为本申请实施例提供的一种DOA估计的原理示意图；

图6为本申请实施例提供的另一种双耳拾音方法的流程示意图；

图7为本申请实施例提供的另一种开始录音的界面示意图；

图8为本申请实施例提供的一种生成前向波束的流程示意图；

图9为本申请实施例提供的一种方向示意图；

图10为本申请实施例提供的一种波束形成图；

图11为本申请实施例提供的一种开启AI录音的界面示意图；

图12为本申请实施例提供的一种显示录音标识的界面示意图；

图13为本申请实施例提供的一种双耳拾音装置的结构示意图；

图14为本申请实施例提供的另一种终端设备的硬件结构示意图；

图15为本申请实施例提供的一种芯片的结构示意图。

具体实施方式

下面对本申请实施例中所描述的词汇进行说明。可以理解，该说明是为更加清楚的解释本申请实施例，并不必然构成对本申请实施例的限定。

(1)盲源分离(blind source separation，BSS)

本申请实施例中，盲源分离也可以称为盲信号分离，可以为在不知道源信号以及信号混合参数的情况下，从接收到的混合信号中分离出源信号的方法。

其中，该盲源分离的方法可以包括：独立向量分析(Independent vectoranalysis， IVA)方法、独立分量分析(Independent Component Analysis，ICA)方法、或非负矩阵分析(non-negative matrix factorization，NMF)方法等。

(2)基波与谐波

本申请实施例中，基波可以为在复杂的周期性振荡中与振荡最长周期相等的正弦波分量，响应于上述周期的频率称为基频；谐波可以为与该基频成整数倍关系的正弦波分量。

(3)波达方向(direction of arrival，DOA)估计

本申请实施例中，DOA估计可以为通过对接收到的目标的回波信号的处理，得到目标的距离信息以及方位信息的方法。其中，该回波信号可以为声源的音频信号。

(4)抑制

本申请实施例中，抑制是指将音频信号的能量减小使得该音频信号听起来变小甚至听不见。可以通过将音频信号的幅值减小实现对该音频信号的抑制。

其中，幅值用于表示该音频信号对应的电压大小；也可以表示该音频信号的能量大小；或者分贝大小。

(5)波束形成与增益系数

本申请实施例中，波束形成可以用于描述终端设备的MIC采集的音频与该音频传输到扬声器播放时的对应关系。该对应关系为一组增益系数，用于表示对MIC采集的各个方向上的音频信号进行抑制的抑制程度。

其中，抑制是指将音频信号的能量减小使得该音频信号听起来变小甚至听不见。抑制程度用于描述对音频信号进行减小的程度。抑制程度越大，则音频信号的能量减小越多。例如，增益系数为0.0表示完全除去该音频信号，增益系数为1.0表示不进行抑制。越接近于0.0则抑制程度越大，越接近与1.0则抑制程度越小。

为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如，第一值和第二值仅仅是为了区分不同的值，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、 “第二”等字样也并不限定一定不同。

需要说明的是，本申请中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者 “例如”等词旨在以具体方式呈现相关概念。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符 “/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a， b，或c中的至少一项(个)，可以表示：a，b，c，a和b，a和c，b和c，或a、b和c，其中a，b，c可以是单个，也可以是多个。

可以理解的是，拾音可以为收集声音的过程，而双耳拾音可以为利用两个MIC模拟人耳听音的方式，收集声音的过程。由于声源发出的声波可以经过环境、人体躯干、以及耳廓等的反射最终到达人耳，使得人耳可以听到具有立体感的声音，因此双耳拾音方法，可以最大程度的保留声源和环境的空间位置信息。

示例性的，图1为本申请实施例提供的一种场景示意图。如图1所示，该场景中可以包括：用户101、用户101所佩戴的TWS耳机102、以及声源103等。其中，该TWS 耳机102中可以包括左耳耳机以及右耳耳机，该左耳耳机中至少包含一个MIC，该右耳耳机中包含一个MIC。该声源103中可以包括其他用户的声音、以及环境声音等。

在用户101利用TWS耳机102进行音频录制(或视频录制)的过程中，该TWS耳机102中不仅可以录到用户101自己的声音，也可以录制到声源103中的其他用户的声音、以及环境声音等。

然而，由于用户101靠近TWS耳机102较近，而声源103靠近TWS耳机102较远，使得录制结果中呈现出用户101的声音较大，与当前环境中的其他声音，如声源103之间的声音不协调的情况，影响音频录制效果。

有鉴于此，本申请实施例提供一种双耳拾音方法，使得终端设备可以分别提取目标人声与非目标人声，并通过对该目标人声以及非目标人声的能量调整、以及融合，得到声音听感更为自然的录音。其中，该目标人声可以为录制人的声音，该非目标人声可以为除录制人之外的其他人的声音或者环境声音。

可以理解的是，本申请实施例提供的双耳拾音方法，不仅可以应用于如图1所示的录音场景，还可以用于录像场景、或直播场景等涉及拾音的场景，本申请实施例中对此不做具体限定。

可以理解的是，上述终端设备也可以称为终端，(terminal)、用户设备(userequipment，UE)、移动台(mobile station，MS)、移动终端(mobile terminal，MT)等。终端设备可以为拥有MIC的手机(mobile phone)、智能电视、穿戴式设备、平板电脑 (Pad)、带无线收发功能的电脑、虚拟现实(virtual reality，VR)终端设备、增强现实 (augmentedreality，AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self-driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等等。本申请的实施例对终端设备所采用的具体技术和具体设备形态不做限定。

因此，为了能够更好地理解本申请实施例，下面对本申请实施例的终端设备的结构进行介绍。示例性的，图2为本申请实施例提供的一种终端设备的结构示意图。

终端设备可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器 170B，麦克风170C，耳机接口170D，传感器模块180，按键190，指示器192，摄像头 193，以及显示屏194等。

可以理解的是，本申请实施例示意的结构并不构成对终端设备的具体限定。在本申请另一些实施例中，终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。处理器110中还可以设置存储器，用于存储指令和数据。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB 接口，USB Type C接口等。USB接口130可以用于连接充电器为终端设备充电，也可以用于终端设备与***设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他终端设备，例如AR设备等。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。电源管理模块141用于连接充电管理模块140与处理器110。

终端设备的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端设备中的天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。

移动通信模块150可以提供应用在终端设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。

无线通信模块160可以提供应用在终端设备上的包括无线局域网(wirelesslocalarea networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星***(global navigation satellite system，GNSS)，调频(frequencymodulation，FM)等无线通信的解决方案。

终端设备通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。在一些实施例中，终端设备可以包括1个或N个显示屏194，N为大于1的正整数。

终端设备可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

摄像头193用于捕获静态图像或视频。在一些实施例中，终端设备可以包括1个或N个摄像头193，N为大于1的正整数。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。

终端设备可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。终端设备可以通过扬声器170A收听音乐，或收听免提通话。受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当终端设备接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。耳机接口170D用于连接有线耳机。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。本申请实施例中，终端设备可以基于麦克风170C接收声音信号，并将声音信号转换为可以进行后续处理的电信号，该终端设备可以拥有至少一个麦克风170C。

传感器模块180可以包括下述一种或多种传感器，例如：压力传感器，陀螺仪传感器，气压传感器，磁传感器，加速度传感器，距离传感器，接近光传感器，指纹传感器，温度传感器，触摸传感器，环境光传感器，或骨传导传感器等(图2中未示出)。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。终端设备可以接收按键输入，产生与终端设备的用户设置以及功能控制有关的键信号输入。指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

终端设备的软件***可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构等，在此不再赘述。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以独立实现，也可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

可以理解的是，终端设备可以利用TWS耳机中的MIC进行音频录制(如图3对应的实施例)，或者，终端设备也可以利用TWS耳机中的MIC以及终端设备中的MIC进行音频录制(如图6对应的实施例)，本申请实施例中对采用录制的具体方式不做限定。

可能的实现方式中，终端设备也可以采用下述图3或图6对应的实施例中的双耳拾音方法，在视频录制或直播等过程中对MIC接收到声音进行处理，本申请实施例中对此不做限定。

示例性的，图3为本申请实施例提供的一种双耳拾音方法的流程示意图。在图3对应的实施例中，以终端设备可以利用TWS耳机中的MIC进行音频录制，且终端设备为手机为例进行示例说明，该示例并不构成对本申请实施例的限定。

如图3所示，该双耳拾音方法可以包括如下步骤：

S301、当终端设备接收到用户开启录音的操作时，终端设备利用TWS耳机获取音频信号。

本申请实施例中，该开启录音的操作可以为针对录音功能的触发操作、语音操作、或其他手势操作等，本申请实施例中对此不做限定。

该TWS耳机可以事先与终端设备建立通信连接，使得终端设备在开始录音时可以利用TWS耳机中的MIC获取音频信号。

示例性的，图4为本申请实施例提供的一种开始录音的界面示意图。当终端设备接收到用户打开录音应用的操作时，终端设备可以显示如图4中的a所示的界面，该界面中可以包括：用于开启更多功能的更多控件，扬声器控件、搜索录音文件对应的输入框、多个录音文件、以及用于开启录音的控件401等。其中，该多个录音文件包括：录音1、录音2、录音3和录音4等，各录音文件的周围显示该录音文件对应的录音时间、录音时长以及播放录音控件等。

如图4中的a所示的界面中，当终端设备接收到用户针对该用于开启录音的控件401 的操作，且终端设备检测到TWS耳机满足佩戴状态时，终端设备可以利用TWS耳机中的MIC获取音频信号，并显示如图4中的b所示的界面。如图4中的b所示的界面，该界面中可以包括：录制声音的波形、录音时间，用于停止录音的控件402、标记控件、以及暂停控件等。

可能的实现方式中，终端设备也可以基于图7以及图11对应的实施例开启录音，具体参见图7以及图11对应的描述。

本申请实施例中，该TWS耳机中可以包括至少两个MIC，因此该音频信号中至少可以包括：左耳耳机中的MIC获取的音频信号以及右耳耳机中的MIC获取的音频信号。

示例性的，若当前环境中包括录制人的声音(或称为目标人声、目标用户的声音、目标信号)、以及非录制人的声音(或称为非目标人声、或非目标信号)时，且录制人佩戴TWS耳机进行录音时，该TWS耳机可以利用两个耳机分别对应的MIC获取音频信号，例如该左耳耳机的MIC可以获取左耳耳机接收到录制人的声音、以及非录制人的声音；该右耳耳机的MIC可以获取右耳耳机接收到的录制人的声音、以及非录制人的声音。其中，该非录制声音中可以包括其他用户的声音以及环境声音等。

S302、终端设备对音频信号进行傅里叶变换，得到傅里叶变换后的音频信号。

可以理解的是，该傅里叶变换用于将时域(或称时间域)的音频信号转化为频域(或称频率域)的音频信号。

示例性的，若当前环境中声源的个数为N，声源的时域序列可以表示为： s_1(t)，s_2(t)，...，s_N(t)；s表示源信号(source)，t表示时间的采样序列；假设有M个 MIC在采集音频信号，则终端设备录音得到声源所对应的音频信号可以分别表示为 x_1(t)，x_2(t)，...，x_M(t)。

可以理解的是，声波从声源到MIC需要经过一个传输路径(比如时间延迟、反射、以及不同声源进入到同一MIC产生的混合等)，因此MIC采集的音频信号x_m(t)与源信号s_n(t)的关系在时域的表述如下：

其中，τ为时间延迟，L为最大时间延迟，h可以理解为源信号s_n(t)与MIC采集的信号x_m(t)之间的传输路径。

进一步的，终端设备可以对上述时域的音频信号进行傅里叶变换，则可以得到源信号s和MIC采集的信号x的频域关系：

x(ω，t)＝A(ω，t)s(ω，t) 公式(2)

其中，若N为声源个数，M为MIC的数量，则x为长度为M的向量，s为长度为 N的向量，ω为频率，t为帧数，A为一个M行N列的矩阵，或可以理解为源信号s与MIC采集的信号x之间的传输路径。

S303、终端设备对傅里叶变换后的音频信号进行盲源分离，得到第一路分离信号以及第二路分离信号。

本申请实施例中，该盲源分离可以用于从接收到的混合信号中分离出原始信号，该盲源分离方法分离出的原始信号的数量可以不限于上述两路，本申请实施例中对此不做限定。

示例性的，若当前环境中包括目标人声，如用户A的声音，以及非目标人声，如用户B的声音、以及环境声音等时，则终端设备可以采用盲源分离的方法，从获取的音频信号中分离出多路音频信号。一种实现中，终端设备可以分离出两路音频信号，如分离出用户A的音频信号、以及其他音频信号，其中，该其他音频信号中可以包括用户B的音频信号以及环境音频信号。另一种实现中，终端设备可以分离出三路音频信号，如分离出用户A的音频信号、用户B的音频信号、以及环境音频信号。

示例性的，若当前环境中包括非目标人声如用户B的声音、以及环境声音时，则终端设备可以采用盲源分离的方法，从获取的音频信号中分离出用户B的音频信号、以及环境音频信号。

S304、终端设备对第一路分离信号以及第二路分离信号分别进行人声搜索。

本申请实施例中，终端设备可以基于预设频率、和/或预设谐波确定音频信号中是否搜到人声。

示例性的，当终端设备在第一分离信号(或第二路分离信号)中，搜索到满足预设频率和/或满足谐波规律的音频信号时，则可以理解为该第一分离信号(或第二路分离信号)中包含人声。其中，预设频率可以为人声对应的频率范围，例如50-4000赫兹 (Hz)；该谐波可以为与基频成整数倍关系的正弦波分量。

S305、终端设备对第一路分离信息以及第二路分离信号分别进行重构，得到第一路重构信号以及第二路重构信号。

本申请实施例中，该重构可以用于将音频信号映射到TWS耳机的左右两个MIC中；该第一路重构信号中包括：第一路分离信号中对应于TWS耳机中的左MIC的信号，以及第一路分离信号中对应于TWS耳机中的右MIC的信号；该第二路重构信号中包括：第二路分离信号中对应于TWS耳机中的左MIC的信号，以及第二路分离信号中对应于 TWS耳机中的右MIC的信号。

示例性的，公式(2)也可以为：

W(ω，t)x(ω，t)＝s(ω，t) 公式(3)

其中，W可以为一个N行M列的矩阵，该公式(3)中的其他参数可以参见公式 (2)中的描述，在此不再赘述。

可以理解的是，终端设备可以利用公式(3)中的各源信号s之间的独立性，求解W，通过W得到各个源信号s，该源信号s可以为单一声道的信号，或理解为声源发出的原始声波信号。进一步的，如公式(3)得到各个源信号s之后，可以通过保留其中一个声源，将其他声源设置为0，并乘以公式(2)中的矩阵A的方式，得到重构后得包含特定声源的重构信号。

S306、终端设备对第一路重构信号以及第二路重构信号分别进行DOA估计。

示例性的，图5为本申请实施例提供的一种DOA估计的原理示意图。

如图5中的a所示，该场景中可以包括TWS耳机，TWS耳机中包括左耳机中的左 MIC以及右耳机中的右MIC。声源发出的声波，经由环境到达左MIC以及右MIC，由于声源靠近右MIC侧较近，则声源到达右MIC的时间小于声源到达左MIC的时间，当声源到达右MIC的同时，该声源可以到达右MIC附近的Q点处。声源相对TWS耳机的到达角度为θ，θ的范围可以为0度(°)-180°。如图5中的a所示，当左MIC与右 MIC之间的距离为d，则声源到达左MIC以及右MIC的延迟可以为dcosθ。

可以理解的是，终端设备可以采用DOA估计中的广义互相关-相位变换法(generalized cross correlation phase transformation，GCC-PHAT)方法，确定声源(例如第一路重构信号、以及第二路重构信号)的角度。

具体的，左MIC以及右MIC之间的互相关函数为：

其中，IDFT可以为表示为傅里叶变换，X_a可以为经过傅里叶变换后第一路重构信号 (该第一路重构信号可以为频域信号)，X_b可以为经过傅里叶变换后的第二路重构信号(该第二路重构信号可以为频域信号)，t可以为时间，在这里可以标识为帧数，f可以为频点，*可以表示为共轭。

声源到达左MIC以及右MIC之间的延迟可以为：

则声源到达左MIC以及右MIC的到达角度θ可以为：

可以理解的是，如图5中的b所示，由于用户佩戴TWS耳机进行音频录制时，用户自己的声音通常是从正前方发出的，因此当θ满足60°-120°的范围时，则可以理解为声源位于TWS耳机的正前方。其中，声源位于TWS耳机的正前方时，该θ角度的范围取值可以不限于上述60°-120°，并且在不同的坐标系中该θ角度的取值也可以有做不同，本申请实施例中对此不做限定。

可以理解的是，相比于终端设备利用S301所示的步骤中通过TWS耳机获取的音频信号直接进行DOA估计，利用重构信号进行DOA估计可以避免环境中的复杂声源对于 DOA估计的精度影响，进而得到更为准确的方位。

S307、终端设备判断声源是否来自目标人声。

本申请实施例中，当终端设备确定声源中可以搜索到人声(如S304所示的步骤中的基于预设频率、和/或预设谐波搜索到人声)，且声源位于TWS耳机的正前方(如S306 所示的步骤中的声源的到达角度θ角度满足60°-120°)，则终端设备可以确定声源来自目标人声。其中，该目标人声可以理解为佩戴TWS耳机进行音频录制时的录制人的声音。

示例性的，若当前场景中的第一路分离信号(或第一路重构信号)中包括佩戴TWS耳机进行音频录制的录制人的音频信号；并且，第二路分离信号(或第二路重构信号) 中包括其他用户的音频信号以及环境中的汽车鸣笛时对应的音频信号时，则终端设备在判断声源是否来自目标人声的过程中，存在三种场景。

一种实现中，当第一路分离信号中包括录制人的音频信号，第二路分离信号(或第二路重构信号)所处环境中的汽车鸣笛的音频信号的能量，大于该环境中的其他用户的音频信号的能量时，则终端设备确定可以在第一路分离信号中搜到人声，未能从第二路分离信号中搜到人声，并且终端设备确定第一路重构信号位于TWS耳机的正前方，第二路重构信号中的汽车位于TWS耳机的正前方。因此，终端设备可以确定第一路分离信号 (或第一路重构信号)中的声源来自目标人声，而第二路分离信号(或第二路重构信号) 中的声源不属于目标人声。

另一种实现中，当第一路分离信号中包括录制人的音频信号，第二路分离信号(或第二路重构信号)所处环境中的汽车鸣笛的音频信号的能量，小于该环境中的其他用户的音频信号的能量时，则终端设备确定可以在第一路分离信号中搜到人声，也可以在第二路分离信号中搜到人声，并且终端设备确定第一路重构信号位于TWS耳机的正前方，第二路重构信号中的其他用户位于TWS耳机的其他方向。因此，终端设备可以确定第一路分离信号(或第一路重构信号)中的声源来自目标人声，而第二路分离信号(或第二路重构信号)中的声源不属于目标人声。

再一种实现中，当进行人声搜索时，第一路分离信号中包括录制人的音频信号，第二路分离信号(或第二路重构信号)所处环境中的汽车鸣笛的音频信号的能量小于该环境中的其他用户的音频信号的能量；并且，当进行DOA方位估计时，第二路分离信号 (或第二路重构信号)的环境中的汽车鸣笛的音频信号的能量大于该环境中的其他用户的音频信号的能量。则在此场景中，终端设备可以确定在第一路分离信号中搜到人声，也可以在第二路分离信号中搜到其他用户对应的人声；并且，终端设备可以确定第一路重构信号位于TWS耳机的正前方，第二路重构信号位于TWS耳机的正前方。因此，终端设备可以确定第一路分离信号(或第一路重构信号)中的声源来自目标人声，而第二路分离信号(或第二路重构信号)中的声源属于目标人声。

此时，终端设备可以对第一路分离信号(或第一路重构信号)以及第二路分离信号(或第二路重构信号)进行再次判别，确定声源是否属于目标人声。例如，终端设备可以分别计算第一路重构信号以及第二重构信号的能量，并确定能量较大的那一路重构信号中的声源是属于目标人声的。

可以理解的是，由于声波具有随着距离的增加而显著衰弱的特点，而距离终端设备越近的信号，该信号的能量也就越高，该信号中的声源属于目标人声的概率就越高。因此终端设备可以通过对两路重构信号中的能量大小的判别，进一步确定能量较大的那一路重构信号中的声源是属于目标人声的。

本申请实施例中，当终端设备确定检测到声源来自目标人声的场景(或理解为当前场景中存在目标人声)时，终端设备可以执行S308所示的步骤；或者，当终端设备确定没有检测声源来自目标人声的场景(或理解为当前场景中不存在目标人声)时，终端设备可以执行S310所示的步骤。

S308、终端设备基于重构信号判断能量差值是否大于阈值。

示例性的，终端设备可以分别计算第一路重构信号的能量、第二路重构信号的能量、以及第一路重构信号与第二路重构信号之间的能量差值。进一步的，当终端设备确定能量差值大于(或大于等于)能量阈值时，则终端设备可以执行S309所示的步骤，或者当终端设备确定能量差值小于等于(或小于)能量阈值时，则终端设备可以执行S310所示的步骤。

S309、终端设备基于预设权重对目标人声对应的信号以及非目标人声对应的信号进行能量调整。

本申请实施例中，该目标人声对应的信号的预设权重范围可以为0.4-0.7；该非目标人声对应的信号的预设阈值范围可以为0.8-1.2，本申请实施例中对此不做具体限定。

具体的，当第一路重构信号中包含目标人声，且第二路重构信号中包含非目标人声时，则终端设备可以将第一路重构信号中的左MIC对应的音频信号以及右MIC对应的音频信号分别乘以目标人声对应的预设权重，将第二路重构信号中的左MIC对应的音频信号以及右MIC对应的音频信号分别乘以非目标人声对应的预设权重，得到第一路重构信号对应的第一路调整信号，以及第二路重构信号对应的第二路调整信号。

S310、终端设备进行声源混合。

本申请实施例中，终端设备可以对S307(或S308)所示的步骤中的未进行能量调整的音频信号，如第一路重构信号以及第二路重构信号进行声源混合；或者，终端设备也可以对S309所示的步骤中的进行能量调整的音频信号，如第一路调整信号以及第二路调整信号进行声源混合。

可能的实现方式中，终端设备可以基于输出音频时的MIC的数量，对声源进行叠加。

一种实现中，当输出音频的MIC数量为2时，终端设备可以将第一路重构信号(或第一路调整信号)中的左MIC对应的音频信号，以及第二路重构信号(或第二路调整信号)中的左MIC对应的音频信号进行叠加作为左MIC的音频信号，将第一路重构信号 (或第一路调整信号)中的右MIC对应的音频信号，以及第二路重构信号(或第二路调整信号)中的右MIC对应的音频信号进行叠加作为右MIC的音频信号，得到左MIC以及右MIC分别对应的输出音频。

又一种实现中，当输出音频的MIC数量为1时，终端设备可以将上述叠加后的左MIC的输出音频以及右MIC的输出音频进行再次叠加并除2，得到混合后的音频信号，进而作为单一MIC的输出音频。

S311、终端设备对混合后的音频信号进行逆傅里叶变换，得到双耳拾音结果。

其中，该逆傅里叶变换与S302所示的步骤中的傅里叶变换的过程相反，该逆傅里叶变换用于将频域的音频信号转化为时域的音频信号。

可能的实现方式中，在音频录制场景中，终端设备可以在录制音频的过程中对MIC获取的音频信号进行实时处理得到双耳拾音结果，对双耳拾音结果进行实时存储，并在接收到用户结束录制的操作时，将存储的双耳拾音结果编码为录音结果；或者，终端设备也可以对S301所示的步骤中获取的音频信号进行实时存储，并在接收到用户结束录制的操作时，将存储的音频信号进行如S302-S311所示的音频处理步骤，得到双耳拾音结果，并编码为录音结果，本申请实施例中对此不做限定。

可以理解的是，终端设备对音频信号或双耳拾音结果进行实时存储的方法，可以实现用户对于终端设备的音频录制需求。

可能的实现方式中，在直播场景、或视频通话等场景中，终端设备可以实现将得到的双耳拾音结果，以及经过摄像头获取的视频内容按照时间顺序进行编码，并存储为视频录制结果。

可以理解的是，终端设备将双耳拾音结果以及视频内容按照时间进行编码，使得终端设备可以实现在直播场景(或视频通话场景)等场景中的音频录制需求或者视频录制需求。

可以理解的是，本申请实施例中对该双耳拾音结果的后续处理流程不做具体限定。

基于此，终端设备可以分别提取目标人声与非目标人声，并通过对该目标人声以及非目标人声的能量调整、融合，得到声音听感更为自然的录音。

可能的实现方式中，在图3对应的实施例的基础上，终端设备也可以利用TWS耳机中的MIC以及终端设备中的MIC进行双耳拾音。

示例性的，图6为本申请实施例提供的另一种双耳拾音方法的流程示意图。在图6对应的实施例中，以终端设备可以利用TWS耳机中的MIC以及终端设备中的MIC进行双耳拾音，且终端设备为手机为例进行示例说明，该示例并不构成对本申请实施例的限定。

如图6所示，该双耳拾音方法可以包括如下步骤：

S601、当终端设备接收到用户触发高级录音的操作时，终端设备利用TWS耳机以及终端设备获取音频信号。

本申请实施例中，该高级录音可以为录音应用中的一种录音模式，该高级录音可以理解为采用TWS耳机中的两个MIC以及终端设备中的1个MIC同时获取音频信号。

可以理解的是，终端设备中可以包括1个MIC、2个MIC、或3个MIC等，因此在录音时终端设备可以利用本设备中的1个(或2个、或3个)MIC获取音频信号，本申请实施例中对此不做限定。

示例性的，图7为本申请实施例提供的另一种开始录音的界面示意图。如图7中的a所示的界面，当终端设备接收到用户触发该用于开启录制的控件701的操作时，终端设备可以显示如图7中的b所示的界面。如图7中的b所示的界面，该界面中可以包括提示框702，该提示框702中可以包括标准录音或人工智能(artificial intelligence，AI)录制的文字标识、以及标准录音对应的开启控件703、高级录音的文字标识、以及高级录音对应的开启控件704。其中，该标准录音可以为采用手机或耳机录音；该高级录音可以为采用手机+耳机录音；该图7中的a(或图7中的b)所示的界面中显示的其他内容与图4中的a所示的界面类似，在此不再赘述。

如图7中的b所示的界面中，当终端设备接收到用户触发该高级录音对应的开启控件704的操作时，终端设备可以利用TWS耳机中的MIC以及终端设备中的MIC获取音频信号，并显示如图7中的c所示的界面。如图7中的c所示的界面，该界面中可以包括：用于指示录制模式的标识705，例如该标识705可以为高级录音。其中，该图7中的c所示的界面中显示的其他内容与图4中的b所示的界面类似，在此不再赘述。

可能的实现方式中，在如图7中的b所示的界面中，当终端设备接收到用户触发该标准录音对应的开启控件703的操作，且终端设备检测到TWS耳机满足佩戴状态时，终端设备可以利用TWS耳机中的MIC获取音频信号。

可能的实现方式中，在如图7中的b所示的界面中，当终端设备接收到用户触发该标准录音对应的开启控件703的操作，且终端设备检测到TWS耳机不满足佩戴状态时，终端设备可以利用终端设备中的MIC获取音频信号。

S602、终端设备对音频信号进行傅里叶变换，得到傅里叶变换后的音频信号。

S603、终端设备对傅里叶变换后的音频信号进行盲源分离，得到三路分离信号。

其中，该盲源分离的作用以及方法可以参见S303所示的步骤，在此不再赘述。

S604、终端设备获取该三路分离信号对应的三路重构信号。

可以理解的是，终端设备获取该三路分离信号分别对应的重构信号的过程可以参见 S304所示的步骤，在此不再赘述。

本申请实施例中，终端设备可以对该三路分离信号分别进行重构，得到三路重构信号；进一步的，终端设备可以分别计算该三路重构信号的能量，并获取能量最大的两路信号作为S606所示的步骤中进行相关性计算的重构信号。其中，该能量最大的两路重构信号可以包括第一路重构信号以及第二路重构信号；该能量较小的重构信号可以为第三路重构信号。

S605、终端设备计算傅里叶变换后的音频信号对应的前向波束。

示例性的，终端设备可以采用固定波束的方法，获取前向波束。可以理解的是，当音频录制时的MIC数量为3时，则终端设备可以获取三个输入音频，则该傅里叶变换后的音频信号中可以包括：第一MIC获取的第一音频信号、第二MIC获取的第二音频信号以及第三MIC获取的第三音频信号。

可以理解的是，终端设备可以通过计算音频信号的前向波束，对第一音频信号、第二音频信号以及第三音频信号中的非前向的信号进行抑制，同时保持前向信号不变。

示例性的，图8为本申请实施例提供的一种生成前向波束的流程示意图。在图8对应的实施例中，该前向可以为图8中描述的第二方向。

如图8所示，该生成前向波束的方法可以包括如下步骤：

S801、终端设备获取第二方向对应的滤波器系数。

本申请实施例中，该第二方向的详细描述可以参见图9对应的描述。该第二方向对应的滤波器系数是在终端设备出厂前预先配置在终端设备中的。或者该第二方向对应的滤波器系数也可以为终端设备生成的，本申请实施例中对此不做限定。

示例性的，图9为本申请实施例提供的一种方向示意图。如图9所示，3个MIC中可以包括终端设备中的1个MIC，以及TWS耳机的2个MIC，终端设备以及TWS耳机的前向可以为0°-180°的范围。

如图9所示，第一方向可以为135°方向(或者第一方向也可以为正前方顺时针方向10°到电子设备的正前方顺时针方向70°的范围内的任一方向)，第二方向可以为90°方向(或者第二方向也可以为正前方逆时针10°到正前方顺时针10°的范围内的任一方向)，第三方向可以为45°方向(或者第三方向也可以为正前方逆时针方向10°到正前方逆时针方向70°的范围内的任一方向)。

可以理解的，上述涉及的角度仅为示例，且可以根据需要调节为其他角度，本申请对此不进行限定。

进一步的，该第二方向对应的滤波器系数中包括：第一MIC在第二方向对应的滤波器系数、第二MIC在第二方向对应的滤波器系数、以及第三MIC在第二方向对应的滤波器系数。其中，该第一MIC在第二方向对应的滤波器系数可以用于对第一音频信号中相对于终端设备正前方采集的音频信号进行保留，偏左及偏右方向采集的音频信号进行抑制。该第二MIC在第二方向对应的滤波器系数可以用于对第二音频信号中相对于终端设备正前方采集的音频信号进行保留，偏左及偏右方向采集的音频信号进行抑制。该第一 MIC在第三方向对应的第三滤波器系数可以用于对第三音频信号中相对于终端设备正前方采集的音频信号进行保留，偏左及偏右方向采集的音频信号进行抑制。

终端设备生成该第二方向对应的滤波器系数的公式为下述公式(7)：

其中，w₂(ω)为滤波器系数，其包括3个元素，其中第i个元素可以表示为w_2i(ω)，w_2i(ω)为第i个MIC在第二方向对应的滤波器系数，H₁(ω)表示第一测试音频信号、 H₂(ω)表示第二测试音频信号以及H₃(ω)表示第三测试音频信号，G(H₁(ω)，H₂(ω)，H₃(ω)) 表示通过设备相关传递函数来处理第一测试音频信号、第二测试音频信号以及第三测试音频信号，其可以用于描述该第一测试音频信号、第二测试音频信号以及第三测试音频信号间的相关性，H₂表示第二方向对应的前向波束，w₂表示第二方向上可以求得的滤波器系数，argmin表示使用最小二乘频率不变固定波束形成的方法求取的w₂作为第二方向对应的滤波器系数。

其中，该第一测试音频信号为终端设备的第一MIC在多个方向上分别采集的不同距离上的输入音频信号的集合。该第二测试音频信号为电子设备的第二MIC在多个方向上分别采集的不同距离上的输入音频信号的集合。该第三测试音频信号为电子设备的第三MIC在多个方向上分别采集的不同距离上的输入音频信号的集合。

其中，该前向波束用于终端设备生成第二方向对应的第二滤波器，其描述了终端设备在多个方向上的滤波程度。

在一些实施例中，当该多个方向为36个方向时，则该前向波束中有36个增益系数。第i个增益系数表示第i个方向上的滤波程度，任一方向都对应一个增益系数。其中，第二方向上对应的增益系数为1，然后，每与第二方向相差10°的方向，则增益系数依次减去1/36。则，越接近第二方向的方向对应的元素越接近1，越远离第二方向的方向对应的元素越接近0。

S802、终端设备利用第二方向对应的滤波器系数，结合第一音频信号、第二音频信号以及第三音频信号，生成第二方向对应的前向波束。

其中，第二方向对应的前向波束为终端设备对第一音频信号、第二音频信号以及第三音频信号进行合成之后的音频信号。在合成的过程中，终端设备可以对第一音频信号、第二音频信号以及第三音频信号中相对于终端设备正前方采集的音频信号进行保留，偏左以及偏右方向采集的音频信号进行抑制。

具体的，终端设备利用该第二方向对应的滤波器系数，结合第一输入音频信号、第二输入音频信号以及第三音频输入信号，生成第二方向对应的前向波束涉及的公式如下述公式(8)-公式(10)。

其中，y₂表示第二方向对应的前向波束，其包括N个元素。任一元素用于表示一个频点。该前向波束对应的频点数目与第一音频信号、第二音频信号以及第三音频信号对应的频点相同。

式中w_2i(ω)为第i个MIC在第二方向对应的滤波器系数，w_2i(ω)中第j个元素表示对音频信号中第j个频点对应的音频信号进行抑制的程度。x_i(ω)为第i个MIC对应的音频信号，x_i(ω)中的第j个元素表示第j个频点的复数域，其表示该频点对应的声音信号的幅值与相位信息。

例如，第i个MIC在第二方向对应的滤波器系数中第j个元素记为c_ji，第i个麦克风对应的音频信号中第j个元素记为b_ij。则上述公式(8)可以表示为下述公式(9)：

则第二方向对应的前向波束可以具体表示为下述公式(10)：

根据上述公式(10)可以看出终端设备对第一音频信号、第二音频信号以及第三音频信号进行合成的过程，对第一音频信号、第二音频信号以及第三音频信号中相对于终端设备正前方采集的音频信号进行保留，偏左方向以及偏右方向采集的音频信号进行抑制。

应该理解的是，当该M个MIC在第二方向对应的滤波器系数中的第j个元素等于1或接近1时，则终端设备对与该第j个元素相乘的频点对应的音频信号不进行抑制，即为保留，则认为该第j个频点对应的音频信号的方向接近第二方向。其他情况则是对与该第 j个元素相乘的频点对应的音频信号进行抑制，例如，当该第j个元素等于0或接近0时，则终端设备对该第j个频点对应的音频信号进行抑制的程度越大，则认为该第j个频点对应的音频信号的方向远离第二方向。

为更清楚说明前向波束对不同音频信号的抑制情况，本申请实施例中结合图10对应的实施例进行解释说明。示例性的，图10为本申请实施例提供的一种波束形成图。

如图10所示，声音信号为实线，拍摄场景中包括用户1001、用户1002以及汽车1003，用户1001位于终端设备以及TWS耳机的90°方向，用户1002位于终端设备以及 TWS耳机的60°方向，汽车1003位于终端设备以及TWS耳机的150°方向。其中，由于用户1001的声音为目标人声，因此其声音不需要被抑制；而用户1002的声音以及汽车1003的声音均属于非目标人声，因此其两者的声音属于被抑制的声音，且两者的声音的抑制程度可以有所不同。

如图10所示，在终端设备进行音频处理时，可以利用如图10所示的单声道的波束形成图，生成前向波束。该波束形成图的对称线在90°方向上，终端设备可以利用该单声道的波束形成图生成单声道音频，从该波束形成图中可以看出，用户1001所在方向上对应的增益系数为1(或接近于1)，故终端设备不会对该用户1001的声音进行抑制。但是，用户1002所在方向上对应的增益系数均为0.4(或接近于0.4)，故终端设备可以对该用户1002的声音进行抑制，汽车1003所在方向上对应的增益系数均为0(或接近于 0)，故终端设备可以对该汽车1003的声音进行抑制。则终端设备采集的音频信号中包括该用户1001、用户1002以及汽车1003的声音，但是基于前向波束播放的音频中，该用户1002以及汽车1003的声音均是被抑制的，从听觉上，该用户1002以及汽车1003 的声音听不见或者该用户1002以及汽车1003的声音听起来变小。

可以理解的是，图10对应的波束形成图仅作为一种示例，本申请实施例中对此不做限定。

S606、终端设备计算重构信号分别与前向波束之间的相关性。

本申请实施例中，该重构信号可以为S604所示的步骤中的第一路重构信号以及第二路重构信号；该第一路重构信号以及第二路重构信号，分别与前向波束之间的相关性可以用于表征任一路重构信号与前向波束之间的相似程度。例如，当相关性数值为0时，则可以理解为重构信号与前向波束完全无关，当相关性数值为1时，则可以理解为重构信号与前向波束之间完全相关。

可以理解的是，终端设备可以通过相关性的计算，确定重构信号中的目标人声，例如与前向波束进行相关性计算时，相关性数值较高的那一路重构信号可以为目标人声对应的信号。

具体的，相关性计算公式可以为：

其中，γ表示相关性，a表示前向波束，b表示任一路重构信号；t表示傅里叶变换的帧数，相当于时间，f表示频率。

其中，*表示共轭计算，E表示数学期望。

S607、终端设备判断相关性数值是否均大于相关性阈值。

本申请实施例中，该相关性数值可以包括：第一路重构信号与前向波束计算得到的相关性数值α₁，以及第二路重构信号与前向波束计算得到的相关性数值α₂。

一种实现中，当终端设备确定α₁以及α₂均大于(或大于等于)相关性阈值，且α₁大于α₂时，则终端设备可以确定α₁对应的第一路重构信号中包含目标人声，该α₂对应的第二路重构信号中包含非目标人声；进一步的，终端设备可以执行S608所示的步骤，基于目标人声对应的权重以及非目标人声对应的权重进行能量调整。

另一种实现中，当终端设备确定α₁大于(或大于等于)相关性阈值，且α₂小于等于(或小于)相关性阈值时，则终端设备可以确定α₁对应的第一路重构信号中包含目标人声，该α₂对应的第二路重构信号中包含非目标人声；进一步的，终端设备可以执行 S608所示的步骤，基于目标人声对应的权重以及非目标人声对应的权重进行能量调整。

再一种实现中，当终端设备确定α₁以及α₂均小于等于(或小于)相关性阈值时，则终端设备可以确定当前没有目标人声；进一步的，终端设备可以执行S609所示的步骤，对第一路重构信号以及第二路重构信号进行声源融合。

可以理解的是，该相关性阈值的取值可以为0.8或其他数值，本申请实施例中对此不做具体限定。

S608、终端设备基于预设权重对三路重构信号进行能量调整。

示例性的，该三路重构信号中包括第一路重构信号、第二路重构信号以及第三路重构信号，该第一路重构信号可以对应于如S607所示的步骤中描述的目标人声，该第二路重构信号以及第三路重构信号可以对应于S607所示的步骤中描述的非目标人声；进一步的，终端设备可以基于目标人声对应的预设权重以及非目标人声对应的预设权重对上述三路重构信号分别进行能量调整。

可以理解的是，由于该第三路重构信号的能量较小，因此该第三路重构信号可以默认为非目标人声。该目标人声对应的预设权重、非目标人声对应的预设权重、以及能量调整方法可以参见S309所示的步骤，在此不再赘述。

S609、终端设备进行声源混合。

其中，在对S607所示的步骤中的终端设备未检测到目标人声的重构信号进行声源融合的场景中，终端设备可以对第一路重构信号、第二路重构信号以及第三路重构信号直接进行声源融合，具体融合方法参见S310所示的步骤。

S610、终端设备对混合后的音频信号进行逆傅里叶变换，得到双耳拾音结果。

可以理解的是，该S609-S610所示的步骤可以参见S310-S311所示的步骤，在此不再赘述。

基于此，终端设备可以利用终端设备以及TWS耳机获取目标人声与非目标人声，并通过对该目标人声以及非目标人声的能量调整、融合，得到声音听感更为自然的录音。

可能的实现方式中，在图3(或图6)对应的实施例的基础上，终端设备可以在本设备中执行S301-S311(或S601-S610)所示的步骤；或者，可以在TWS耳机中执行双耳拾音方法，例如TWS耳机在获取音频信号后可以直接执行S301-S311(或S601-S610) 所示的步骤得到双耳拾音结果，并将得到的双耳拾音结果发送至终端设备；或者，终端设备可以在服务器中执行双耳拾音方法，例如终端设备在S301(或S601)中获取音频信号后，可以将音频信号发送至服务器，使得服务器可以执行S302-S311(或S602-S610) 所示的步骤得到双耳拾音结果，服务器可以将双耳拾音结果发送至终端设备。

可以理解的是，本申请实施例中对双耳拾音方法的处理设备，不做具体限定。

可能的实现方式中，在图3或图6对应的实施例的基础上，终端设备也可以支持在录音(或录像、直播)等场景中，采用不同的录音模式获取音频信号。

示例性的，图11为本申请实施例提供的一种开启AI录音的界面示意图。以设置录音应用中的录音模式为例进行示例说明，该示例并不构成对本申请实施例的限定。

当终端设备接收到用户打开录音机权限的操作时，终端设备可以显示如图11中的a 所示的界面，该界面中可以显示存储功能对应的功能控件：如用于从您的媒体收藏中读取位置信息的控件、用于读取存储卡中的内容的控件、以及用于修改或删除安全数码卡(secure digital memory card，SD)中的内容的控件等；该界面中还可以显示MIC功能对应的功能控件：如用于设置录音音频的控件、以及用于设置录音模式的控件1101等。

当终端设备接收到用户在图11中的a所示的界面中，针对该用于设置录音模式的控件1101的操作时，终端设备可以显示如图11中的b所示的界面。如图11中的b所示的界面，该界面中可以显示录音模式对应的功能控件，如AI录音功能控件1102。其中， AI录音可以理解为，在识别用户佩戴耳机时，利用耳机中的MIC获取音频信号。

可以理解的是，在该AI录音功能控件1102为开启状态下，当终端设备接收到用户在如图7中的b所示的界面针对该标准录音对应的开启控件703的操作时，终端设备可以采用耳机中的MIC获取音频数据；或者，在该AI录音功能控件1102为关闭状态下，当终端设备接收到用户在如图7中的b所示的界面针对该标准录音对应的开启控件703 的操作时，终端设备可以采用本设备中的MIC获取音频数据。

基于此，终端设备可以根据自身需求灵活设置录制模式，增强用户使用录音功能的使用体验。

可能的实现方式中，在图11对应的实施例的基础上，当终端设备采用AI录音(或高级录音)进行录制时，终端设备还可以显示该AI录音(或高级录音)对应的标识。示例性的，图12为本申请实施例提供的一种显示录音标识的界面示意图。

当终端设备接收到用户采用AI录音，并接收到用户结束录制的操作时，终端设备可以显示如图12所示的界面。相比于图7中的a所示的界面，该图12所示的界面中可以显示，利用如图4对应的实施例中的AI录音模式得到的录音5，且该录音5的周围可以显示AI录制的标识1201。

或者，当终端设备接收到用户采用高级录音，并接收到用户录制结束的操作时，终端设备可以显示如图12所示的界面。相比于图7中的a所示的界面，该图12所示的界面中可以显示，利用如图6对应的实施例中的高级录音模式得到的录音6，且该录音6的周围可以显示高级录音的标识1202。

基于此，终端设备可以根据标识直观的看到是采取何种模式进行录音的，进而增强用户使用录音功能的使用体验。

可以理解的是，本申请实施例提供的界面仅作为一种示例，并不能构成对本申请实施例的限定。

上面结合图3-图12，对本申请实施例提供的方法进行了说明，下面对本申请实施例提供的执行上述方法的装置进行描述。如图13所示，图13为本申请实施例提供的一种双耳拾音装置的结构示意图，该双耳拾音装置可以是本申请实施例中的终端设备，也可以是终端设备内的芯片或芯片***。

如图13所示，双耳拾音装置130可以用于通信设备、电路、硬件组件或者芯片中，该双耳拾音装置包括：显示单元1301、以及处理单元1302。其中，显示单元1301用于支持双耳拾音装置130执行的显示的步骤；处理单元1302用于支持双耳拾音装置130执行信息处理的步骤。

本申请实施例提供一种双耳拾音装置130，处理单元1302，用于利用麦克风获取音频信号；处理单元1302，还用于对音频信号进行盲源分离，得到N路音频信号；N 为大于或等于2的整数；处理单元1302，还用于在N路音频信号中确定目标信号；处理单元1302，还用于利用第一权重对目标信号进行调整、以及利用第二权重对非目标信号进行调整，得到调整后的目标信号以及调整后的非目标信号；非目标信号为N路音频信号中的除目标信号以外的信号；处理单元1302，还用于将调整后的目标信号以及调整后的非目标信号融合为双耳拾音结果。

在一种可能的实现方式中，处理单元1302，具体用于终端设备在N路音频信号中选择满足第一预设方向以及包含目标人声的一路信号为目标信号。

在一种可能的实现方式中，处理单元1302，还用于终端设备计算目标信号的能量与非目标信号的能量的差值；当终端设备确定差值大于第一阈值时，处理单元1302，还用于利用第一权重对目标信号进行调整、以及利用第二权重对非目标信号进行调整，得到调整后的目标信号以及调整后的非目标信号。

在一种可能的实现方式中，麦克风包括：与终端设备连接的耳机中的两个麦克风，显示单元1301，用于显示第一界面，第一界面中包括：用于利用耳机中的两个麦克风进行录音的第一选项；当终端设备接收到选中第一选项的操作时，处理单元1302，用于利用耳机中的两个麦克风获取音频信号。

在一种可能的实现方式中，当终端设备接收到用于设置录音模式的操作时，显示单元1301，还用于显示第二界面；第二界面中包括：用于设置在录音中利用耳机中的两个麦克风获取音频信号的第一控件；在第一控件为开启状态下，当终端设备接收到选中第一选项的操作时，处理单元1302，还用于利用耳机中的两个麦克风获取音频信号。

在一种可能的实现方式中，在第一控件为关闭状态下，当终端设备接收到选中第一选项的操作时，处理单元1302，还用于利用终端设备中的麦克风获取音频信号。

在一种可能的实现方式中，麦克风包括：终端设备中的至少一个麦克风，以及与终端设备连接的耳机中的两个麦克风，处理单元1302，还用于计算音频信号对应的前向波束；前向波束用于对位于麦克风的非正前方的音频信号进行抑制，以及用于对位于麦克风的正前方的音频信号进行保留；处理单元1302，还用于计算前向波束分别与 N路音频信号之间的相关性数值；处理单元1302，还用于在N路音频信号中选择相关性数值大于第二阈值的一路信号为目标信号。

在一种可能的实现方式中，音频信号中包括：第一音频信号、第二音频信号以及第三音频信号，处理单元1302，具体用于获取第二方向对应的滤波器系数；第二方向为麦克风的正前方对应的方向；处理单元1302，具体用于利用第二方向对应的滤波器系数，结合第一音频信号、第二音频信号以及第三音频信号，得到音频信号对应的前向波束。

在一种可能的实现方式中，显示单元1301，还用于显示第一界面，第一界面中包括：用于利用耳机中的两个麦克风以及终端设备中的至少一个麦克风进行录音的第二选项；当终端设备接收到选中第二选项的操作时，处理单元1302，还用于利用耳机中的两个麦克风以及终端设备中的至少一个麦克风获取音频信号。

在一种可能的实现方式中，当终端设备接收到用于结束录音的操作时，处理单元1302，还用于将双耳拾音结果编码为第一语音，并存储第一语音；当终端设备接收到用于开启录音应用的操作时，显示单元1301，还用于显示第三界面；其中，第三界面中包括第一语音，以及第一语音对应的第一标识；第一标识用于指示第一语音是基于耳机中的两个麦克风、或者基于耳机中的两个麦克风以及终端设备中的至少一个麦克风录制得到的。

在一种可能的实现方式中，处理单元1302，还用于对音频信号进行傅里叶变换，得到傅里叶变换后的音频信号；处理单元1302，还用于对傅里叶变换后的音频信号进行盲源分离，得到N路音频信号。

在一种可能的实现方式中，处理单元1302，具体用于将调整后的目标信号以及调整后的非目标信号融合为第四音频信号；处理单元1302，还具体用于对第四音频信号进行逆傅里叶变换，得到双耳拾音结果。

可能的实现方式中，该双耳拾音装置130中也可以包括通信单元1303。具体的，通信单元用于支持双耳拾音装置130执行数据的发送以及数据的接收的步骤。其中，该通信单元1303可以是输入或者输出接口、管脚或者电路等。

可能的实施例中，双耳拾音装置还可以包括：存储单元1304。处理单元1302、存储单元1304通过线路相连。存储单元1304可以包括一个或者多个存储器，存储器可以是一个或者多个设备、电路中用于存储程序或者数据的器件。存储单元1304可以独立存在，通过通信线路与双耳拾音装置具有的处理单元1302相连。存储单元1304也可以和处理单元1302集成在一起。

存储单元1304可以存储终端设备中的方法的计算机执行指令，以使处理单元1302执行上述实施例中的方法。存储单元1304可以是寄存器、缓存或者RAM等，存储单元 1304可以和处理单元1302集成在一起。存储单元1304可以是只读存储器(read-only memory，ROM)或者可存储静态信息和指令的其他类型的静态存储设备，存储单元 1304可以与处理单元1302相独立。

图14为本申请实施例提供的另一种终端设备的硬件结构示意图，如图14所示，该终端设备包括处理器1401，通信线路1404以及至少一个通信接口(图14中示例性的以通信接口1403为例进行说明)。

处理器1401可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路1404可包括在上述组件之间传送信息的电路。

通信接口1403，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线局域网(wireless local area networks，WLAN)等。

可能的，该终端设备还可以包括存储器1402。

存储器1402可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信线路1404与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器1402用于存储执行本申请方案的计算机执行指令，并由处理器1401来控制执行。处理器1401用于执行存储器1402中存储的计算机执行指令，从而实现本申请实施例所提供的双耳拾音方法。

可能的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，处理器1401可以包括一个或多个CPU，例如图 14中的CPU0和CPU1。

在具体实现中，作为一种实施例，终端设备可以包括多个处理器，例如图14中的处理器1401和处理器1405。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

示例性的，图15为本申请实施例提供的一种芯片的结构示意图。芯片150包括一个或两个以上(包括两个)处理器1520和通信接口1530。

在一些实施方式中，存储器1540存储了如下的元素：可执行模块或者数据结构，或者他们的子集，或者他们的扩展集。

本申请实施例中，存储器1540可以包括只读存储器和随机存取存储器，并向处理器 1520提供指令和数据。存储器1540的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory，NVRAM)。

本申请实施例中，存储器1540、通信接口1530以及存储器1540通过总线***1510耦合在一起。其中，总线***1510除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。为了便于描述，在图15中将各种总线都标为总线***1510。

上述本申请实施例描述的方法可以应用于处理器1520中，或者由处理器1520实现。处理器1520可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1520中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1520可以是通用处理器(例如，微处理器或常规处理器)、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integratedcircuit， ASIC)、现成可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门、晶体管逻辑器件或分立硬件组件，处理器1520可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。

结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。其中，软件模块可以位于随机存储器、只读存储器、可编程只读存储器或带电可擦写可编程存储器(electricallyerasable programmable read only memory，EEPROM)等本领域成熟的存储介质中。该存储介质位于存储器1540，处理器1520读取存储器1540中的信息，结合其硬件完成上述方法的步骤。

在上述实施例中，存储器存储的供处理器执行的指令可以以计算机程序产品的形式实现。其中，计算机程序产品可以是事先写入在存储器中，也可以是以软件形式下载并安装在存储器中。

计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。例如，可用介质可以包括磁性介质(例如，软盘、硬盘或磁带)、光介质(例如，数字通用光盘(digital versatile disc，DVD))、或者半导体介质(例如，固态硬盘(solidstate disk，SSD))等。

本申请实施例还提供了一种计算机可读存储介质。上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。计算机可读介质可以包括计算机存储介质和通信介质，还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何目标介质。

作为一种可能的设计，计算机可读介质可以包括紧凑型光盘只读储存器(compactdisc read-only memory，CD-ROM)、RAM、ROM、EEPROM或其它光盘存储器；计算机可读介质可以包括磁盘存储器或其它磁盘存储设备。而且，任何连接线也可以被适当地称为计算机可读介质。例如，如果使用同轴电缆，光纤电缆，双绞线，DSL或无线技术(如红外，无线电和微波)从网站，服务器或其它远程源传输软件，则同轴电缆，光纤电缆，双绞线，DSL或诸如红外，无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘(CD)，激光盘，光盘，数字通用光盘(digital versatile disc，DVD)，软盘和蓝光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光光学地再现数据。

上述的组合也应包括在计算机可读介质的范围内。以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种双耳拾音方法，其特征在于，应用于终端设备，所述方法包括：

所述终端设备利用麦克风获取音频信号；

所述终端设备对所述音频信号进行盲源分离，得到N路音频信号；N为大于或等于2的整数；

所述终端设备在所述N路音频信号中确定目标信号；

所述终端设备利用第一权重对所述目标信号进行调整、以及利用第二权重对非目标信号进行调整，得到调整后的目标信号以及调整后的非目标信号；所述非目标信号为所述N路音频信号中的除所述目标信号以外的信号；

所述终端设备将所述调整后的目标信号以及所述调整后的非目标信号融合为双耳拾音结果。

2.根据权利要求1所述的方法，其特征在于，所述终端设备在所述N路音频信号中确定目标信号，包括：

所述终端设备在所述N路音频信号中选择满足第一预设方向以及包含目标人声的一路信号为目标信号。

3.根据权利要求2所述的方法，其特征在于，所述目标人声为满足预设频率和/或满足预设谐波的声音。

4.根据权利要求2所述的方法，其特征在于，所述麦克风包括：与所述终端设备连接的耳机中的两个麦克风，所述信号所在方向为所述终端设备对所述N路音频信号中的其中一路信号对应的重构信号的波达方向DOA估计得到的；其中，所述重构信号是对所述N路音频信号中的其中一路信号的重构处理得到的，所述重构处理用于将所述N路音频信号中的其中一路信号映射到所述耳机中的两个麦克风中。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

所述终端设备计算所述目标信号的能量与所述非目标信号的能量的差值；

所述终端设备利用第一权重对所述目标信号进行调整、以及利用第二权重对非目标信号进行调整，得到调整后的目标信号以及调整后的非目标信号，包括：当所述终端设备确定所述差值大于第一阈值时，所述终端设备利用第一权重对所述目标信号进行调整、以及利用第二权重对所述非目标信号进行调整，得到所述调整后的目标信号以及所述调整后的非目标信号。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述麦克风包括：与所述终端设备连接的耳机中的两个麦克风，所述终端设备利用麦克风获取音频信号，包括：

所述终端设备显示第一界面，所述第一界面中包括：用于利用所述耳机中的两个麦克风进行录音的第一选项；

当所述终端设备接收到选中所述第一选项的操作时，所述终端设备利用所述耳机中的两个麦克风获取音频信号。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

当所述终端设备接收到用于设置录音模式的操作时，所述终端设备显示第二界面；所述第二界面中包括：用于设置在录音中利用所述耳机中的两个麦克风获取音频信号的第一控件；

当所述终端设备接收到选中所述第一选项的操作时，所述终端设备利用所述耳机中的两个麦克风获取音频信号，包括：在所述第一控件为开启状态下，当所述终端设备接收到选中所述第一选项的操作时，所述终端设备利用所述耳机中的两个麦克风获取音频信号。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

在所述第一控件为关闭状态下，当所述终端设备接收到选中所述第一选项的操作时，所述终端设备利用所述终端设备中的麦克风获取音频信号。

9.根据权利要求1所述的方法，其特征在于，所述麦克风包括：所述终端设备中的至少一个麦克风，以及与所述终端设备连接的耳机中的两个麦克风，所述方法还包括：

所述终端设备计算所述音频信号对应的前向波束；所述前向波束用于对位于所述麦克风的非正前方的音频信号进行抑制，以及用于对位于所述麦克风的正前方的音频信号进行保留；

所述终端设备计算所述前向波束分别与所述N路音频信号之间的相关性数值；

所述终端设备在所述N路音频信号中确定目标信号，包括：所述终端设备在所述N路音频信号中选择所述相关性数值大于第二阈值的一路信号为所述目标信号。

10.根据权利要求9所述的方法，其特征在于，所述音频信号中包括：第一音频信号、第二音频信号以及第三音频信号，所述终端设备计算所述音频信号对应的前向波束，包括：

所述终端设备获取第二方向对应的滤波器系数；所述第二方向为所述麦克风的正前方对应的方向；

所述终端设备利用所述第二方向对应的滤波器系数，结合所述第一音频信号、所述第二音频信号以及所述第三音频信号，得到所述音频信号对应的前向波束。

11.根据权利要求9或10所述的方法，其特征在于，所述方法还包括：

所述终端设备显示第一界面，所述第一界面中包括：用于利用所述耳机中的两个麦克风以及所述终端设备中的至少一个麦克风进行录音的第二选项；

当所述终端设备接收到选中所述第二选项的操作时，所述终端设备利用所述耳机中的两个麦克风以及所述终端设备中的至少一个麦克风获取音频信号。

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

当所述终端设备接收到用于结束录音的操作时，所述终端设备将所述双耳拾音结果编码为第一语音，并存储所述第一语音；

当所述终端设备接收到用于开启录音应用的操作时，所述终端设备显示第三界面；其中，所述第三界面中包括所述第一语音，以及所述第一语音对应的第一标识；所述第一标识用于指示所述第一语音是基于所述耳机中的两个麦克风、或者基于所述耳机中的两个麦克风以及所述终端设备中的至少一个麦克风录制得到的。

13.根据权利要求1-12任一项所述的方法，其特征在于，所述方法还包括：

所述终端设备对所述音频信号进行傅里叶变换，得到傅里叶变换后的音频信号；

所述终端设备对所述音频信号进行盲源分离，得到N路音频信号，包括：所述终端设备对所述傅里叶变换后的音频信号进行盲源分离，得到所述N路音频信号。

14.根据权利要求13所述的方法，其特征在于，所述终端设备将所述调整后的目标信号以及所述调整后的非目标信号融合为双耳拾音结果，包括：

所述终端设备将所述调整后的目标信号以及所述调整后的非目标信号融合为第四音频信号；

所述终端设备对所述第四音频信号进行逆傅里叶变换，得到所述双耳拾音结果。

15.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使得所述终端设备执行如权利要求1至14任一项所述的方法。

16.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，使得计算机执行如权利要求1至14任一项所述的方法。

17.一种计算机程序产品，其特征在于，包括计算机程序，当所述计算机程序被运行时，使得计算机执行如权利要求1至14任一项所述的方法。