CN112799016B

CN112799016B - 声源定位方法、装置、计算机可读存储介质和电子设备

Info

Publication number: CN112799016B
Application number: CN202011552864.6A
Authority: CN
Inventors: 胡玉祥
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2024-04-26
Anticipated expiration: 2040-12-24
Also published as: CN112799016A

Abstract

本公开实施例提供了一种声源定位方法、声源定位装置、计算机可读存储介质和电子设备。该声源定位方法包括：对传声器阵列所采集声源的原始混合音频信号进行语音分离，以获取多通道分离音频信号；从多通道分离音频信号中确定唤醒词所在的时间段；从原始混合音频信号中确定唤醒词所在的时间段对应的混合多通道音频信号；从多通道分离音频信号中确定唤醒词所在的单通道音频信号；基于混合多通道音频信号以及唤醒词所在的单通道音频信号，定位声源。本方案能够大大提高声源定位的准确性。

Description

声源定位方法、装置、计算机可读存储介质和电子设备

技术领域

本公开涉及声源定位领域，具体涉及一种声源定位方法、声源定位装置、计算机可读存储介质和电子设备。

背景技术

随着智能语音交互技术的不断发展，越来越多的智能交互设备应运而生。例如，智能电视、智能音箱、智能家居、智能机器人、车载智能交互设备等等。通过唤醒词唤醒智能交互设备，人们可以与智能交互设备进行语音交互，指示智能交互设备完成诸如音乐播放、天气播报等操作。

智能交互设备被唤醒后，可以根据麦克风拾取到的语音信号确定唤醒词的方位信息，并根据唤醒词方位对语音进行定向拾取，以减少噪声干扰。但是，当外界干扰声源的音量大于用户发出唤醒词的音量时，智能交互设备的定位结果通常为干扰声源的方位，大大地降低了声源定位的准确性，影响人机交互体验。

发明内容

有鉴于此，本公开的实施例提供了一种声源定位方法、声源定位装置、计算机可读存储介质和电子设备，能够大大地提高声源定位的准确性。

根据本公开实施例的第一方面，提供了一种声源定位方法，包括：对传声器阵列所采集声源的原始混合音频信号进行语音分离，以获取多通道分离音频信号；从多通道分离音频信号中确定唤醒词所在的时间段；从原始混合音频信号中确定唤醒词所在的时间段对应的混合多通道音频信号；从多通道分离音频信号中确定唤醒词所在的单通道音频信号；基于混合多通道音频信号以及唤醒词所在的单通道音频信号，定位声源。

根据本公开实施例的第二方面，提供了一种声源定位装置，包括：语音分离模块，用于对传声器阵列所采集声源的原始混合音频信号进行语音分离，以获取多通道分离音频信号；第一确定模块，用于从多通道分离音频信号中确定唤醒词所在的时间段；第二确定模块，用于从原始混合音频信号中确定唤醒词所在的时间段对应的混合多通道音频信号；第三确定模块，用于从多通道分离音频信号中确定唤醒词所在的单通道音频信号；定位模块，用于基于混合多通道音频信号以及唤醒词所在的单通道音频信号，定位声源。

根据本公开实施例的第三方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行如上述任一所述的声源定位方法。

根据本公开实施例的第四方面，提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行上述任一所述的声源定位方法。

本公开实施例提供的一种声源定位方法、声源定位装置、计算机可读存储介质和电子设备，通过确定唤醒词所在的时间段，结合与唤醒词所在的时间段对应的混合多通道音频信号进行声源定位，能够排除其他时间段的音频信号的干扰，同时可以提高后续处理的效率，减少处理量；另外，通过从语音分离后的多通道分离音频信号中确定唤醒词所在的单通道音频信号，得到仅仅包括或主要包括唤醒词的单通道信号，可以有针对性地对该唤醒词进行定位，从而提高声源定位的准确性。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1a所示为本公开一实施例所适用的智能家居场景示意图。

图1b所示为本公开一实施例所适用的车辆场景示意图。

图2所示为本公开一示例性实施例提供的声源定位方法的流程示意图。

图3所示为本公开一示例性实施例提供的声源定位装置的结构示意图。

图4所示为本公开一示例性实施例提供的声源定位方法中从多通道分离音频信号中确定唤醒词所在的单通道音频信号的流程示意图。

图5所示为本公开另一示例性实施例提供的声源定位方法的流程示意图。

图6所述为本公开一示例性实施例提供的声源定位装置的结构示意图。

图7所示为本公开一实施例提供的一种声源定位装置的框图。

图8所示为本公开一示例性实施例提供的声源定位装置的第三确定模块的框图。

图9所示为本公开一示例性实施例提供的声源定位装置的定位模块的框图。

图10所示为本公开一示例性实施例提供的声源定位装置的定位单元的框图。

图11所示为本公开一示例性实施例提供的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

申请概述

在现有的声源定位方式中，当外界干扰声源的音量大于用户发出唤醒词的音量时，智能交互设备的定位结果通常为干扰声源的方位，这通常是因为智能交互设备无法有针对性地对唤醒词信号进行定位，导致定位准确性降低，影响人机交互体验。

针对上述技术问题，本公开的基本构思是提出一种声源定位方法、声源定位装置、计算机可读存储介质和电子设备，通过确定唤醒词所在的时间段，结合与唤醒词所在的时间段对应的混合多通道音频信号进行声源定位，能够排除其他时间段的音频信号的干扰，同时可以提高后续处理的效率，减少处理量；另外，通过从语音分离后的多通道分离音频信号中确定唤醒词所在的单通道音频信号，得到仅仅包括或主要包括唤醒词的单通道信号，可以有针对性地对该唤醒词进行定位，从而提高声源定位的准确性。

需要说明的是，该声源定位方法可以应用于智能家居、智能汽车、智能机器人等需要唤醒词唤醒智能交互设备的场景，本公开对此不作具体限定。

智能交互设备的具体实现形态可以根据实际的应用场景而调整，例如，智能交互设备可以为智能交互机器人、智能车辆等，本公开对智能交互设备的具体实现形态不作具体限定。

示例性***

图1a所示为本公开一实施例所适用的智能家居场景示意图。如图1a所示，本公开实施例所适用的智能家居场景中包括智能交互机器人10、唤醒词声源20和至少一个干扰声源30。智能交互机器人10包括用于采集音频信号的传声器阵列。例如，包括在同一条直线上呈预设距离间隔分布的多个传声器单元(例如图1a中的传声器单元11，12，13，14)的线性传声器阵列。唤醒词声源20可以为发出唤醒词信号的用户，当智能交互机器人10内部的传声器阵列采集到用户发出唤醒词信号后，可以唤醒智能交互机器人10，使得智能交互机器人10响应于特定的唤醒词而执行相应操作。干扰声源30可以为发出干扰信号的设备(如电视机、游戏机)或人等。

智能交互机器人10通过采用本公开实施例提供的声源定位方法，即使干扰声源30(例如，电视机)的音量大于唤醒词声源20(例如，发出唤醒词信号的用户)的音量，智能交互设备10也可以实现唤醒词声源20的准确定位，并不会将音量较大的干扰声源30的方位定位为唤醒词声源20的方位。

图1b所示为本公开一实施例所适用的车辆场景示意图。如图1b所示，本公开实施例所适用的车辆场景中包括智能车辆40、唤醒词声源20和至少一个干扰声源30。智能车辆40包括用于采集车辆内部人员发出的唤醒词信号的分布式传声器阵列。例如，分布式传声器阵列包含4个传声器单元(例如图1b中的传声器单元41，42，43，44)，可以分别设置在四个车门上或设置在四个座椅处，应当理解，本发明对传声器阵列的设置位置、设置方式不作具体限定。唤醒词声源20可以为车辆内部发出唤醒词信号的人员，干扰声源30可以为车辆内部发出干扰信号的人员，也可以为风声等，本公开对此不作具体限定。

智能车辆40通过采用本公开实施例提供的声源定位方法，即使干扰声源30的音量大于唤醒词声源20的音量，智能车辆40也可以实现唤醒词声源20的准确定位，并不会将音量较大的干扰声源30的方位定位为唤醒词声源20的方位。

示例性方法

图2所示为本公开一示例性实施例提供的声源定位方法的流程示意图。本实施例可应用在智能交互设备上，如图2所示，该声源定位方法包括如下步骤。

步骤201，对传声器阵列所采集声源的原始混合音频信号进行语音分离，以获取多通道分离音频信号。

参见图1a和图1b，传声器阵列由按照一定规则排列的多个传声器单元构成，传声器单元的数量为两个或两个以上，例如，可以是2个、4个、6个等，本公开对传声器阵列中传声器单元的数量不作具体限定。另外，传声器阵列可以为线性传声器阵列，也可以为分布式传声器阵列等，本公开对传声器阵列的具体排布形式不作限定。应当理解，分布式传声器阵列还可以呈环形、球形等规则排列，本公开对传声器单元的排列规则不作具体限定。

传声器阵列可以采集一定范围内的音频信号，而在采集唤醒词信号的过程中，也会采集到除唤醒词信号之外的干扰信号(例如，电视机声音、音乐的声音、周围人员闲聊的声音等)。因此，传声器阵列采集到的原始混合音频信号中可能包含混合在一起的唤醒词信号与干扰信号。

原始混合音频信号的通道数量由传声器阵列中的传声器单元的数量决定。具体地，传声器阵列中传声器单元的数量为N，则采集到的原始混合音频信号对应N个通道，其中，每个传声器单元对应一个通道的原始混合音频信号，每个通道的原始混合音频信号中的唤醒词信号与干扰信号为混合在一起的。

为了将唤醒词信号与干扰信号区分开，以便于后续有针对性的对唤醒词信号进行定位，因此，需要对原始混合音频信号进行语音分离。在本公开一实施例中，可以采用语音分离算法实现唤醒词信号与干扰信号的分离，例如，语音分离算法流程可以包括去混响处理、波束形成/盲源分离处理、噪声抑制处理等，本公开对此不作具体限定。

对原始混合音频信号进行语音分离可以得到多通道分离音频信号，多通道分离音频信号包括多个单通道分离音频信号，其中，唤醒词信号和干扰信号分别处于不同的单通道分离音频信号中。

多通道分离音频信号的通道数量也是由传声器阵列中的传声器的数量决定的。例如，传声器阵列中传声器单元的数量为N，采集到的原始混合音频信号对应N个通道，则对N个通道的原始混合音频信号进行语音分离，得到的多通道分离音频信号也对应N个通道，即，包含N个通道的单通道分离音频信号。换句话说，语音分离前后，通道数是不变的，均与传声器阵列中传声器单元的数量N相同。

通过语音分离处理，可以将唤醒词信号和干扰信号分离开，使唤醒词信号和干扰信号分别处于多通道分离音频信号对应的N个通道中的不同通道中。例如，唤醒词信号在多通道分离音频信号对应的N个通道中的其中一个通道中，干扰信号在多通道分离音频信号对应的N个通道中的另一个通道中。

步骤202，从多通道分离音频信号中确定唤醒词所在的时间段。

具体地，可以将多通道分离音频信号中的每个单通道分离音频信号分别输入唤醒词解码器进行唤醒词识别，获得唤醒词所在的时间段。

例如，可以将多通道分离音频信号对应的N个通道中的其中一个通道对应的单通道分离音频信号输入第一唤醒词解码器进行唤醒词识别，将多通道分离音频信号对应的N个通道中的另一个通道对应的单通道分离音频信号输入第二唤醒词解码器进行唤醒词识别等。也就是说，多通道分离音频信号可以与多个唤醒词解码器呈一一对应关系。当多个唤醒词解码器中的任意一个唤醒词解码器识别到唤醒词时，可停止其他唤醒词解码器对唤醒词的继续识别。

具体地，唤醒词解码器可以通过神经网路模型对唤醒词进行识别，以获得唤醒词的时间段，时间段可以包括唤醒词起始时间点与结束时间点，本公开对时间段的表现形式不作具体限定。

具体地，可以将上述每个单通道分离音频信号分别输入用于唤醒词识别的神经网络模型，当神经网络模型识别到唤醒词时，可以输出唤醒词信号的时间段。应当理解，本公开对用于唤醒词识别的神经网络模型的训练过程、模型类型、模型结构不作具体限定。

步骤203，从原始混合音频信号中确定唤醒词所在的时间段对应的混合多通道音频信号。

具体地，可以根据唤醒词解码器输出的时间段，从原始混合音频信号中提取出与唤醒词所在的时间段对应的部分，即混合多通道音频信号。由于原始混合音频信号中的唤醒词信号和干扰信号是混合的，因此，原始混合音频信号中，与唤醒词所在的时间段对应的混合多通道音频信号中的唤醒词信号和干扰信号也是混合的。

步骤204，从多通道分离音频信号中确定唤醒词所在的单通道音频信号。

如上所述，对原始混合音频信号进行语音分离，可以获取多通道分离音频信号，多通道分离音频信号包括多个单通道分离音频信号，其中，唤醒词信号和干扰信号分别在多通道分离音频信号中不同的单通道分离音频信号中。因此，可以从多通道分离音频信号中提取出唤醒词所在的单通道音频信号，其中，唤醒词所在的单通道音频信号为仅仅包括或主要包括唤醒词的信号，以便后续根据唤醒词所在的单通道音频信号进行唤醒词声源定位。

步骤205，基于混合多通道音频信号以及唤醒词所在的单通道音频信号，定位声源。

例如，可以直接将混合多通道音频信号以及唤醒词所在的单通道音频信号输入训练好的神经网络模型，获得神经网络模型输出的声源的方位；也可以先对混合多通道音频信号以及唤醒词所在的单通道音频信号进行时频变换、提取频域特征等预处理，再将预处理后的数据输入训练好的神经网络模型，获得神经网络模型输出的声源的方位等，例如，神经网络模型可以输出声源相对于线性传声器阵列的方向，或者声源位于分布式传声器阵列所在空间中的位置区域等，本公开对声源方位的输出结果的形式不作具体限定。应当理解，本公开对基于混合多通道音频信号以及唤醒词所在的单通道音频信号定位声源的具体方式不作具体限定。

根据本公开实施例提供的一种声源定位方法，通过确定唤醒词所在的时间段，结合与唤醒词所在的时间段对应的混合多通道音频信号进行声源定位，能够排除其他时间段的音频信号的干扰，同时可以提高后续处理的效率，减少处理量；另外通过从语音分离后的多通道分离音频信号中确定唤醒词所在的单通道音频信号，得到仅仅包括或主要包括唤醒词的单通道信号，可以有针对性地对该唤醒词进行定位，从而提高声源定位的准确性。

下面结合图3和图4详细描述步骤204。图3所示为本公开一示例性实施例提供的声源定位装置的结构示意图。声源定位装置包括语音分离模块310、唤醒词解码器320、数据提取模块330、数据提取模块340和声源定位模块350。语音分离模块310可以对原始混合音频信号X进行语音分离，得到多通道分离音频信号Y；将多通道分离音频信号Y输入唤醒词解码器320进行唤醒词识别，可以得到唤醒词所在的音频信号通道ch_wkp和唤醒词的时间戳t_stamp；数据提取模块330可以根据唤醒词的时间戳t_stamp从原始混合音频信号X中提取出唤醒词所在的时间段对应的混合多通道音频信号X_t；数据提取模块340可以根据唤醒词的时间戳t_stamp和唤醒词所在的音频信号通道ch_wkp从多通道分离音频信号Y中提取出唤醒词所在的单通道音频信号y_wkp；将混合多通道音频信号X_t和唤醒词所在的单通道音频信号y_wkp输入声源定位模块350，可以得到声源定位模块350输出的声源相对于传声器阵列的方位。

如图4所示，上述步骤204可以包括步骤2041至步骤2043。

步骤2041，从多通道分离音频信号中识别唤醒词。

具体地，如图3所示，可以采用唤醒词解码器320依次识别多通道分离音频信号Y中的唤醒词，例如，可以将多通道分离音频信号Y中的每个单通道分离音频信号分别输入唤醒词解码器320进行唤醒词识别。以传声器单元数目为2的传声器阵列为例，原始2通道混合音频信号X，经过语音分离算法处理后可以获得2通道分离音频信号Y，将2通道分离音频信号Y中的第一单通道分离音频信号输入第一唤醒词解码器进行唤醒词识别，将第二单通道分离音频信号输入第二唤醒词解码器进行唤醒词识别，即2通道分离音频信号与2个唤醒词解码器呈一一对应关系。当2个唤醒词解码器中的任意一个唤醒词解码器识别到唤醒词时，可停止另一唤醒词解码器对唤醒词的继续识别。同理，当传声器单元数目为N时，原始N通道混合音频信号经过语音分离算法可以获得N通道分离音频信号，将N通道分离音频信号分别输入N个唤醒词解码器进行唤醒词识别，当其中一路唤醒词解码器识别到唤醒词时，即可停止其它路唤醒词解码器对唤醒词的继续识别。

步骤2042，确定唤醒词所在时间段以及唤醒词所在的音频信号通道。

如图3所示，唤醒词解码器320可以通过神经网路模型对唤醒词进行识别，以获得唤醒词所在的音频信号通道ch_wkp和唤醒词的时间戳t_stamp。时间戳t_stamp可以包括唤醒词起始时间点与结束时间点，从而可以根据时间戳t_stamp确定唤醒词所在的时间段；唤醒词所在的音频信号通道ch_wkp为唤醒词在多通道分离音频信号Y中对应的通道。

以传声器单元数目为2的传声器阵列为例，上述第一单通道分离音频信号包含唤醒词信号，第二单通道分离音频信号包含干扰信号，唤醒词解码器可以在第一单通道分离音频信号中识别到唤醒词。因此唤醒词解码器320输出的唤醒词所在的音频信号通道ch_wkp即为1。

步骤2043，根据唤醒词信号所在时间段，从唤醒词所在的音频信号通道中确定单通道音频信号。

具体地，如图3所示，可以采用数据提取模块340从多通道分离音频信号Y中的第一单通道分离音频信号中提取与唤醒词时间戳t_stamp对应的部分,即单通道音频信号y_wkp。

通过将多通道分离音频信号Y分别输入多个唤醒词解码器得到唤醒词所在的音频信号通道以及唤醒词对应的时间戳，从而能够更准确地提取时间戳对应的单通道音频信号。

在本公开的一实施例中，上述唤醒词解码器320可以为训练后的唤醒词识别神经网络模型，基于唤醒词解码器320可以从多通道分离音频信号Y中获得唤醒词所在的音频信号通道ch_wkp以及唤醒词的时间戳t_stamp。应当理解，本公开对唤醒词识别神经网络模型的训练过程、模型类型、模型结构不作具体限定。

通过唤醒词识别神经网络模型，对多通道分离音频信号Y进行唤醒词识别，进而获得唤醒词所在的音频信号通道以及对应的时间戳，能够进一步提高提取唤醒词所在单通道音频信号的准确度。

在本公开的一实施例中，上述步骤205包括：从混合多通道音频信号中提取第一频域特征，第一频域特征用于表征传声器阵列中，不同传声器单元对应的频域信号之间的相对传递函数；从唤醒词所在的单通道音频信号中提取第二频域特征，第二频域特征用于表征单通道音频信号的频域能量值；基于第一频域特征和第二频域特征，定位所述声源。

具体地，可以将混合多通道音频信号和唤醒词所在的单通道音频信号通过时频转换过程从时域信号变换为频域信号，从而使得后续的神经网络模型能够基于混合多通道音频信号和唤醒词所在的单通道音频信号中部分频带进行计算。例如，采用16kHz采样频率对时域信号进行采样，得到的频域信号的有效频带为0～8kHz。由于低频鲁棒性较弱，而且，当传声器单元间距较大时，高频不满足Nyquist空间采样定理，因此，在本公开一实施例中，后续的神经网络模型可以基于混合多通道音频信号和唤醒词所在的单通道音频信号的频域信号中的100～4kHz频带进行声源定位，从而有效降低运算量。

另外，由于不同传声器单元对应的频域信号之间的相对传递函数能够反映声源的空间信息，而唤醒词所在的单通道音频信号的频域能量值，能够更准确地表征唤醒词的内容，因此，通过上述频域特征提取过程，能够在降低后续神经网络模型运算量的情况下，更准确地实现声源的定位。

在本公开的一个实施例中，在传声器阵列为线性传声器阵列的情况下，多个预设方位类别中的每个预设方位类别对应声源相对线性传声器阵列的一个角度范围。

例如，对于全空间180°方向，假设空间分辨率为5°(即每5°对应一个预设方位类别)，则预设方位类别为36个。神经网络模型可以输出这36个类别的概率，概率最大的类别对应的角度范围即为声源的定位结果，智能交互设备可以定向拾取该角度范围的音频信号，并做出相应响应。

根据本公开实施例提供的技术方案，通过将声源所在的空间划分为相对线性传声器阵列的多个预设方位类别，并利用神经网络模型基于混合多通道音频信号和唤醒词所在的单通道音频信号输出预设方位类别的概率，从而将复杂的声源定位问题转化为分类问题，降低了神经网络模型的复杂度。

在本公开的另一个实施例中，在传声器阵列为分布式传声器阵列的情况下，多个预设方位类别中的每个预设方位类别对应分布式传声器阵列所在空间中的一个位置区域。

例如，应用在车辆中的分布式传声器阵列包括4个传声器单元，分别设置在4个车门的上侧。车辆内部可以划分为4个位置区域(例如，主驾驶位置区域、副驾驶位置区域、二排左位置区域和二排右位置区域)，4个位置区域与4个预设方位类别一一对应。

训练后的神经网络模型可以基于第一频域特征和第二频域特征输出声源分别位于这4个位置区域的概率(即属于4个预设方位类别的概率)，其中，概率最大的预设方位类别对应的位置区域即为声源的位置。例如，神经网络模型输出的结果为(0.6，0.2，0.2，0)，其中，声源位于主驾驶位置区域的概率为0.6，概率最大，因此，判断主驾驶位置区域即为声源的位置。

根据本公开实施例提供的技术方案，通过将分布式传声器阵列分布的空间划分为多个预设位置区域，并利用神经网络模型基于混合多通道音频信号和唤醒词所在的单通道音频信号输出多个预设位置区域的概率，从而将复杂的声源定位问题转化为分类问题，降低了神经网络模型的复杂度。

在对上述用于声源定位的神经网络模型进行训练时，针对位于每个预设方位的声源发出的唤醒词信号，采用传声器阵列采集混合多通道音频信号，利用与上述唤醒词识别类似的方法，对混合多通道音频信号进行唤醒词识别，得到对应的唤醒词所在的单通道音频信号，和与唤醒词所在时间段对应的混合多通道音频信号，将其作为样本数据输入神经网络模型，并以该预设方位作为标注信息对神经网络模型训练进行训练。

下面结合图5和图6详细描述上述步骤205。图5所示为本公开另一示例性实施例提供的声源定位方法的流程示意图。图6所述为本公开一示例性实施例提供的声源定位装置的结构示意图。如图6所示，该声源定位装置包括时频变换模块610、时频变换模块620、特征提取模块630、归一化模块640和神经网络模型650。

如图5所示，在本公开实施例提供的声源定位方法中，上述步骤205可以包括步骤2051至步骤2053。

步骤2051，从混合多通道音频信号中提取第一频域特征，第一频域特征用于表征传声器阵列中不同传声器单元对应的频域信号之间的相对传递函数。

具体地，可以采用时频变换模块610对混合多通道音频信号X_t进行时频变换处理，得到多个频点的第一频域信号，并采用特征提取模块630针对多个频点中的每个频点，对第一频域信号进行特征提取，得到传声器阵列的不同传声器对应的频域信号之间的相对传递函数值的实部和虚部，作为第一频域特征。

由于混合多通道音频信号X_t中的信息是按照特定的时间序列方式出现的，属于时域信号。为了获得信号的频率、幅度、相位等信息，需要对混合多通道音频信号X_t进行时频变换处理，将其转换为第一频域信号。具体地，时频变换模块610可以通过傅里叶变换处理将混合多通道音频信号X_t从时域信号转换为频域信号，例如，短时傅里叶变换处理(STFT)，应当理解，还可以采用其他时频变换处理，本公开对此不作具体限定。

如图6所示，混合多通道音频信号X_t包括M(M为传声器阵列中的传声器单元的数量)个通道的时域音频信号，分别为x₁(t)、x₂(t)、x₃(t)、…、x_M(t),将M个时域音频信号进行短时傅里叶变换处理(STFT)，可以得到多个频点的第一频域信号，即，X(k)＝[x₁(k)x₂(k)…x_M(k)],其中，k为频点编号，k＝1,2,3…K，K为最大频率索引，即共有K个频点。

进一步地，采用特征提取模块630针对多个频点中的每个频点，对第一频域信号进行特征提取，得到第一频域特征。

在本公开一实施例中，可以采用传声器阵列的不同传声器单元对应的频域信号之间的相对传递函数值的实部和虚部作为特征。其中，第m个传声器单元和第n个传声器单元对应的频域信号之间的相对传递函数公式可以表示为：

其中，X_m(k)为第m个传声器单元对应的第k个频点的频域信号，X_n(k)为第n个传声器单元对应的第k个频点的频域信号，k为频点编号，k＝1,2,3…K,K为最大频率索引，()^*表示复共轭。

对于M个传声器单元，每个频点对应个相对传递函数值，则K个频点对应个相对传递函数值。由于RTF_mn(k)为复数，将每个相对传递函数值的实部和虚部分开输入，因此，可以得到维度为/>的第一频域特征X_in(k)。

步骤2052，从唤醒词所在的单通道音频信号中提取第二频域特征，第二频域特征用于表征单通道音频信号的频域能量值。

具体地，可以采用时频变换模块620对唤醒词所在的单通道音频信号进行时频变换处理，得到多个频点的第二频域信号，并采用归一化模块640针对多个频点中的每个频点，对第二频域信号进行归一化处理，得到第二频域特征。

由于从多通道分离音频信号Y中提取的唤醒词所在的单通道音频信号y_wkp属于时域信号。为了获得该单通道音频信号y_wkp的频率、幅度、相位等信息，需要对该单通道音频信号y_wkp进行时频变换处理，将其转换为第二频域信号Y_wkp(k)，k代表频点编号。具体地，时频变换模块620可以通过傅里叶变换处理将单通道音频信号y_wkp从时域信号转换为频域信号，例如，短时傅里叶变换处理(STFT)，应当理解，还可以采用其他时频变换处理，本公开对此不作具体限定。

具体地，上述采用归一化模块640对第二频域信号进行归一化处理,可以包括：对第二频域信号进行幅度归一化处理或能量归一化处理等，本公开对此不作具体限定。

具体地，归一化公式可以如下所示：

其中，k代表频点编号；K为最大频率索引；p的取值不同，表示不同的归一化方式，p＝1表示按照幅度归一化，p＝2表示按照能量归一化；Y_wkp(k)代表第k个频点的复数频域信号。

通过对不同频点的第二频域信号进行归一化处理，可以消除不同频点的频域信号之间的量级不同导致的影响，从而加快了后续神经网络训练过程的收敛速度。

应当理解，上述公式仅为示例性描述，本公开对归一化公式不作具体限定。

由于w(k)为实数，因此，K个频点对应的第二频域特征y_in(k)的维度为K×1。

步骤2053，基于第一频域特征和第二频域特征，定位声源。

具体地，可以将上述第一频域特征X_in(k)和第二频域特征y_in(k)输入训练后的神经网络模型650，获得神经网络模型650输出的声源的方位。该神经网络模型可以为DNN、CNN、RNN等分类模型，本公开对神经网络模型650的结构、类型不作具体限定。

如上所述，X_in(k)的维度为y_in(k)的维度为K×1，因此，神经网络模型650的输入特征维度为/>神经网络模型650的输出可以为声源的多个预设方位类别的概率；其中，多个预设方位类别的概率中的概率最大的预设方位类别对应的方位即为声源的方位。

应当理解，本公开对神经网络模型650的结构不作具体限定。例如，在本公开一实施例中，神经网络模型650包括输入层、隐藏层1、隐藏层2和输出层，神经网络参数可以如表1所示。输入层参数为第一频域特征X_in(k)和第二频域特征y_in(k)，维度为输出层的输出可以为36个(0到180度，以5度为间隔)的类别的概率。

表1

示例性装置

本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图7所示为本公开一实施例提供的一种声源定位装置的结构示意图。该声源定位装置具有实现上述方式实施例图2中的功能，功能可以由硬件实现，也可以由硬件执行相应的软件实现。如图7所示，该声源定位装置700可以包括：语音分离模块710、第一确定模块720、第二确定模块730、第三确定模块740和定位模块750。

语音分离模块710，用于对传声器阵列所采集声源的原始混合音频信号进行语音分离，以获取多通道分离音频信号。

第一确定模块720，用于从多通道分离音频信号中确定唤醒词所在的时间段。

第二确定模块730，用于从原始混合音频信号中确定唤醒词所在的时间段对应的混合多通道音频信号。

第三确定模块740，用于从多通道分离音频信号中确定唤醒词所在的单通道音频信号。

定位模块750，用于基于混合多通道音频信号以及唤醒词所在的单通道音频信号，定位声源。

本公开实施例提供的一种声源定位装置，通过确定唤醒词所在的时间段，结合与唤醒词所在的时间段对应的混合多通道音频信号进行声源定位，能够排除其他时间段的音频信号的干扰，同时可以提高后续处理的效率，减少处理量；另外，通过从语音分离后的多通道分离音频信号中，确定唤醒词所在的单通道音频信号，得到仅仅包括或主要包括唤醒词的单通道信号，可以有针对性地对该唤醒词进行定位，从而提高声源定位的准确性。

图8所示为本公开一示例性实施例提供的声源定位装置的第三确定模块的框图。在本公开图7所示实施例的基础上延伸出本公开图8所示实施例，下面着重叙述图8所示实施例与图7所示实施例的不同之处，相同之处不再赘述。

如图8所示，在本公开实施例提供的声源定位装置中，第三确定模块730可以包括：识别单元7310、第一确定单元7320和第二确定单元7330。

识别单元7310，用于从多通道分离音频信号中识别唤醒词。

第一确定单元7320，用于确定唤醒词所在时间段以及唤醒词所在的音频信号通道。

第二确定单元7330，用于根据唤醒词信号所在时间段，从唤醒词所在的音频信号通道中确定单通道音频信号。

在本公开的另一个实施例中，识别单元7310，用于利用神经网络模型从多通道分离音频信号中识别唤醒词。

图9所示为本公开一示例性实施例提供的声源定位装置的定位模块的框图。在本公开图7所示实施例的基础上延伸出本公开图9所示实施例，下面着重叙述图9所示实施例与图7所示实施例的不同之处，相同之处不再赘述。

如图9所示，在本公开实施例提供的声源定位装置中，定位模块750可以包括：第一提取单元7510、第二提取单元7520和定位单元7530。

第一提取单元7510，用于从混合多通道音频信号中提取第一频域特征，第一频域特征用于表征传声器阵列中不同传声器单元对应的频域信号之间的相对传递函数。

第二提取单元7520，用于从唤醒词所在的单通道音频信号中提取第二频域特征，第二频域特征用于表征单通道音频信号的频域能量值。

定位单元7530，用于基于第一频域特征和第二频域特征，定位声源。

图10所示为本公开一示例性实施例提供的声源定位装置的定位单元的框图。在本公开图9所示实施例的基础上延伸出本公开图10所示实施例，下面着重叙述图10所示实施例与图9所示实施例的不同之处，相同之处不再赘述。

如图10所示，在本公开实施例提供的声源定位装置中，定位单元7530可以包括：获取子单元7531和定位子单元7532。

获取子单元7531，用于基于第一频域特征和第二频域特征，获取声源的多个预设方位类别的概率。

定位子单元7532，用于根据多个预设方位类别的概率中的最大概率对应的预设方位类别，定位声源。

在本公开的一个实施例中，在传声器阵列为分布式传声器阵列的情况下，多个预设方位类别中的每个预设方位类别对应分布式传声器阵列所在空间中的一个位置区域。

在本公开的一个实施例中，上述第一提取单元7510，用于对混合多通道音频信号进行时频变换处理，得到多个频点的第一频域信号，并针对多个频点中的每个频点，对第一频域信号进行特征提取，得到传声器阵列的不同传声器单元对应的频域信号之间的相对传递函数值的实部和虚部，作为第一频域特征；第二提取单元7520，用于对唤醒词所在的单通道音频信号进行时频变换处理，得到多个频点的第二频域信号，并针对多个频点中的每个频点，对第二频域信号进行归一化处理，得到第二频域特征。

需要说明的是，上述第一确定模块920、第二确定模块930和第三确定模块实际上可以为同一个软件或硬件模块，也可以为不同的软件或硬件模块；上述第一确定单元7320和第二确定单元7330实际上可以为同一个软件或硬件模块，也可以为不同的软件或硬件模块；上述第一提取单元7510和第二提取单元7520实际上可以为同一个软件或硬件模块，也可以为不同的软件或硬件模块；本公开实施例对此不作限定。

示例性电子设备

下面，参考图11来描述根据本公开实施例的电子设备。图11所示为本公开一示例性实施例提供的电子设备的框图。如图11所示，电子设备1100包括一个或多个处理器1110和存储器1120。

处理器1110可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备1100中的其他组件以执行期望的功能。

存储器1120可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1110可以运行所述程序指令，以实现上文所述的本公开的各个实施例的声源定位方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备1100还可以包括：输入装置1130和输出装置1140，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是智能家居设备时，该输入装置1130可以是麦克风或麦克风阵列，用于采集用户的声音。在该电子设备是单机设备时，该输入装置1130可以是通信网络连接器，用于从外部的可移动设备接收所采集的输入信号。此外，该输入装置1130还可以包括例如键盘、鼠标等等。

该输出装置1140可以向外部输出各种信息，包括确定出的位置信息、方向信息等。该输出装置1140可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图11中仅示出了该电子设备1100中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备1100还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的声源定位方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的声源定位方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种声源定位方法，包括：

对传声器阵列所采集声源的原始混合音频信号进行语音分离，以获取多通道分离音频信号；

从所述多通道分离音频信号中确定唤醒词所在的时间段；

从所述原始混合音频信号中确定所述唤醒词所在的时间段对应的混合多通道音频信号；

从所述多通道分离音频信号中确定所述唤醒词所在的单通道音频信号；

基于所述混合多通道音频信号以及所述唤醒词所在的单通道音频信号，定位所述声源，包括：

从所述混合多通道音频信号中提取第一频域特征，所述第一频域特征用于表征所述传声器阵列中不同传声器单元对应的频域信号之间的相对传递函数；

从所述唤醒词所在的单通道音频信号中提取第二频域特征，所述第二频域特征用于表征所述单通道音频信号的频域能量值；

基于所述第一频域特征和所述第二频域特征，定位所述声源。

2.根据权利要求1所述的方法，其中，所述从所述多通道分离音频信号中确定所述唤醒词所在的单通道音频信号，包括：

从所述多通道分离音频信号中识别唤醒词；

确定所述唤醒词所在时间段以及所述唤醒词所在的音频信号通道；

根据所述唤醒词信号所在时间段，从所述唤醒词所在的音频信号通道中确定所述单通道音频信号。

3.根据权利要求2所述的方法，其中，所述从所述多通道分离音频信号中识别唤醒词，包括：

利用神经网络模型从所述多通道分离音频信号中识别唤醒词。

4.根据权利要求1所述的方法，其中，所述基于所述第一频域特征和所述第二频域特征，定位所述声源，包括：

基于所述第一频域特征和所述第二频域特征，获取所述声源的多个预设方位类别的概率；

根据所述多个预设方位类别的概率中的最大概率对应的预设方位类别，定位所述声源。

5.根据权利要求4所述的方法，其中，在所述传声器阵列为线性传声器阵列的情况下，所述多个预设方位类别中的每个预设方位类别对应所述声源相对所述线性传声器阵列的一个角度范围，或者，在所述传声器阵列为分布式传声器阵列的情况下，所述多个预设方位类别中的每个预设方位类别对应所述分布式传声器阵列所在空间中的一个位置区域。

6.根据权利要求1所述的方法，其中，所述从所述混合多通道音频信号中提取第一频域特征，包括：

对所述混合多通道音频信号进行时频变换处理，得到多个频点的第一频域信号，并针对所述多个频点中的每个频点，对所述第一频域信号进行特征提取，得到所述传声器阵列的不同传声器单元对应的频域信号之间的相对传递函数值的实部和虚部，作为所述第一频域特征；

其中，所述从所述唤醒词所在的单通道音频信号中提取第二频域特征，包括：

对所述唤醒词所在的单通道音频信号进行时频变换处理，得到多个频点的第二频域信号，并针对所述多个频点中的每个频点，对所述第二频域信号进行归一化处理，得到所述第二频域特征。

7.一种声源定位装置，包括：

语音分离模块，用于对传声器阵列所采集声源的原始混合音频信号进行语音分离，以获取多通道分离音频信号；

第一确定模块，用于从所述多通道分离音频信号中确定唤醒词所在的时间段；

第二确定模块，用于从所述原始混合音频信号中确定所述唤醒词所在的时间段对应的混合多通道音频信号；

第三确定模块，用于从所述多通道分离音频信号中确定所述唤醒词所在的单通道音频信号；

定位模块，用于基于所述混合多通道音频信号以及所述唤醒词所在的单通道音频信号，定位所述声源，具体用于：

从所述混合多通道音频信号中提取第一频域特征，所述第一频域特征用于表征所述传声器阵列中不同传声器单元对应的频域信号之间的相对传递函数；从所述唤醒词所在的单通道音频信号中提取第二频域特征，所述第二频域特征用于表征所述单通道音频信号的频域能量值；基于所述第一频域特征和所述第二频域特征，定位所述声源。

8.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6任一所述的方法。

9.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述权利要求1-6任一所述的方法。