CN117711436B

CN117711436B - 一种基于多传感器融合的远场声音分类方法和装置

Info

Publication number: CN117711436B
Application number: CN202410159987.5A
Authority: CN
Inventors: 钟金作; 李国伟; 武阳; 朱威风; 周宇
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2024-02-05
Filing date: 2024-02-05
Publication date: 2024-04-09
Anticipated expiration: 2044-02-05
Also published as: CN117711436A

Abstract

本申请涉及一种基于多传感器融合的远场声音分类方法和装置。该方法包括：构建具有多个音频传感器的传感器阵列，所述音频传感器具有置信度，所述置信度用于表征所述音频传感器的可靠性；响应于接收的音频信号，由多个音频传感器对音频信号进行预处理，提取音频特征；将所述音频特征输入至预先训练的声音分类模型，获得初步声音分类结果；将多个传感器的初步声音分类结果输入至融合处理模型，获得最终声音分类结果；依据所述最终声音分类结果，调整所述音频传感器的置信度。本申请融合多个传感器的初步分类结果，获得最终分类结果，同时使用最终分类结果反向计算调整传感器置信度，使传感器置信度判断依据更加丰富和客观，增加远场声音分类准确度。

Description

一种基于多传感器融合的远场声音分类方法和装置

技术领域

本申请涉及声音分类技术领域，尤其涉及一种基于多传感器融合的远场声音分类方法、装置、电子设备和存储介质。

背景技术

音频识别是目前模式识别领域的研究热点之一，其中环境声音分类（ESC）引起了专家学者的广泛关注。与语音和音乐不同，环境声音具有更多样性和广泛的频率范围，其分类识别变得越来越重要，对环境声音的特征提取和分类准确率对***性能至关重要，这将直接影响***在实际应用中是否能够满足人类需求。传统的环境声音分类方法包括基于机器学习和浅层卷积神经网络结构的训练预测分类。

因此，如何克服现有环境声音分类方法准确率较低，特别是在远场声音分类中，目标声音常常受到背景噪声和混响的干扰，导致声音分类任务的准确率下降的问题，是需要解决的技术问题。

发明内容

本申请意在提供一种基于多传感器融合的远场声音分类方法、装置、电子设备和存储介质，以解决现有技术中存在的不足，本申请要解决的技术问题通过以下技术方案来实现。

本实施例第一方面提出了一种基于多传感器融合的远场声音分类方法，构建具有多个音频传感器的传感器阵列，所述音频传感器具有置信度，所述置信度用于表征所述音频传感器的可靠性；所述方法包括：

响应于接收的音频信号，由多个音频传感器对音频信号进行预处理，提取音频特征；

将所述音频特征输入至预先训练的声音分类模型，获得初步声音分类结果；

将多个传感器的初步声音分类结果输入至融合处理模型，获得最终声音分类结果；其中，所述融合处理模型基于预先训练的深度学习模型构建，能够融合初步声音分类结果、音频传感器置信度、声源距离和音频信号特征进行处理；

依据所述最终声音分类结果，调整所述音频传感器的置信度。

进一步地，由多个音频传感器对音频信号进行预处理，包括：

对每个音频传感器采集的音频信号进行物理降噪；

基于音频信号的振幅，对音频信号进行处理，包括音频信号分帧和短时傅里叶变换。

进一步地，所述音频信号分帧包括：对分帧后的每个短时分析窗进行加窗操作，以使音频信号由时域转为频域并得到相应的频谱；所述加窗包括汉明窗，并且在窗口计算时逐次移动窗口大小的1/3或1/2。

进一步地，所述声音分类模型基于神经网络进行构建，所述神经网络包括单层卷积神经网络。

进一步地，将所述音频特征输入至预先训练的声音分类模型，获得初步声音分类结果，包括：所述音频特征经过所述声音分类模型进行卷积计算，获得单个音频传感器的初步声音分类结果。

进一步地，将多个传感器的初步声音分类结果输入至融合处理模型，获得最终声音分类结果；所述最终声音分类结果包括音频信号分类标签和/或声源距离。

进一步地，依据所述最终声音分类结果，调整所述音频传感器的置信度，包括：

输入所述最终声音分类结果至增强学习模型，获得正确分类结果；

计算正确分类结果与所述最终声音分类结果之间的差异，对模型参数进行训练，以调整所述音频传感器的置信度。

本实施例第二方面提出了一种基于多传感器融合的远场声音分类装置，构建具有多个音频传感器的传感器阵列，所述音频传感器被配置为接收并处理音频信号；所述装置包括：

音频特征提取模块，被配置为响应于接收的音频信号，由每个音频传感器对音频信号进行预处理，提取音频特征；

初步分类结果获取模块，被配置为将所述音频特征输入至预先训练的声音分类模型，获得初步声音分类结果；

最终分类结果获取模块，被配置为将多个传感器的初步声音分类结果输入至融合处理模型，获得最终声音分类结果；其中，所述融合处理模型基于预先训练的深度学习模型构建，能够融合初步声音分类结果、音频传感器置信度、声源距离和音频信号特征进行处理；

置信度调整模块，被配置为依据所述最终声音分类结果，调整所述音频传感器的置信度。

本实施例第三方面提出了一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，所述处理器在执行所述计算机程序时，实现如第一方面所述方法的步骤。

本实施例第四方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述方法的步骤。

本申请实施例包括以下优点：

本申请实施例提供的基于多传感器融合的远场声音分类方法，构建具有多个音频传感器的传感器阵列，所述音频传感器具有置信度，所述置信度用于表征所述音频传感器的可靠性；响应于接收的音频信号，由多个音频传感器对音频信号进行预处理，提取音频特征；将所述音频特征输入至预先训练的声音分类模型，获得初步声音分类结果；将多个传感器的初步声音分类结果输入至融合处理模型，获得最终声音分类结果；其中，所述融合处理模型基于预先训练的深度学习模型构建，能够融合初步声音分类结果、音频传感器置信度、声源距离和音频信号特征进行处理；依据所述最终声音分类结果，调整所述音频传感器的置信度。本申请通过将多个传感器的识别结果作为深度学习模型的输入，融合多个传感器的初步分类结果，获得最终分类结果，同时使用最终分类结果反向计算调整传感器置信度，使传感器置信度判断依据更加丰富和客观，增加远场场景下声音识别的准确度。

附图说明

图1是本申请实施例的一种基于多传感器融合的远场声音分类方法流程示意图之一；

图2是本申请实施例的一种基于多传感器融合的远场声音分类方法流程示意图之二；

图3是本申请实施例的一种基于多传感器融合的远场声音分类方法流程示意图之三；

图4是本申请实施例的一种基于多传感器融合的远场声音分类装置结构示意图；

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如背景技术所述，随着互联网和信息技术的迅速进步，人们对生活质量和工作要求的提高日益明显。音频作为一种媒介，在日常生活和商业活动中扮演着重要角色。音频识别是目前模式识别领域的研究热点之一，其中环境声音分类（ESC）引起了专家学者的广泛关注。ESC是机器识别环境声音的重要技术，广泛应用于监视、智能家居、场景分析和机器视听等领域。例如，监管***需要检测异常声音以及时触发应急方案，机器人需要对周围环境声音进行分类和识别来做出决策。与语音和音乐不同，环境声音具有更多样性和广泛的频率范围。近年来，随着医疗保健、安全监控、预测生态环境变化等应用的增加，环境声音的分类识别变得越来越重要。环境声音的特征提取和分类准确率对***性能至关重要，这将直接影响***在实际应用中是否能够满足人类需求。

传统的环境声音分类方法包括基于机器学习和浅层卷积神经网络结构的训练预测分类。这些方法通过提取声音文件的属性作为输入数据进行训练，并使用分类预测模型进行预测。然而，传统的基于机器学习的方法在处理该问题时往往效果不佳，无法准确进行分类预测。而基于浅层卷积神经网络的模型结构虽然有一定效果，但仍有待改进。该模型结构单一且鲁棒性不足，多次训练得到的结果差异较大。总之，传统的环境声音分类方法准确率较低。在远场声音分类中，目标声音常常受到背景噪声和混响的干扰，导致声音分类任务的准确率下降，性能急剧降低。

中国专利申请“一种远场声音分类方法和装置”（公开号CN111540346A）提供了一种基于数据增广的训练方法。首先，利用人工智能模型的自学能力建立远场声音分类关系。其中的人工智能模型的自学能力建立的远场声音分类关系是基于数据增广和多尺度信息进行训练的。其次，获取目标区域内的音频信号。然后，基于音频信号的振幅信息对音频信号进行特征提取，并得到语谱图。接着，将语谱图输入到利用人工智能模型的自学能力建立的远场声音分类关系中，得到分类结果。最后，将声音分类的音频数据和真实环境下的麦克风接受到的信号分布匹配，去除噪声和混响等干扰因素，使用数据增广的方式来进行声音分类，使得模型在训练数据能够更贴合真实环境的数据分布，从而能够得到更好的鲁棒性，提高声音分类任务的准确率。但是，在实际情况下，此种训练数据过于理想化，缺少泛用性，在真实场景下可能受到传感器本身状况、环境状况等因素的影响，导致最终结果有误差。

中国专利申请“婴儿啼哭检测方法及装置”（公开号CN112185364A）提供了一种婴儿啼哭检测方法及装置，旨在解决远场婴儿啼哭声音识别的问题。该方法通过接收音频信号，并利用深度学习模型对婴儿啼哭声音进行分类和置信度判断，从而实现对婴儿啼哭的检测。具体而言，装置包括第一输出模块、判断模块和第二输出模块。第一输出模块用于接收音频信号，并通过深度学习模型输出声音的置信度。判断模块则用于判断声音的置信度是否小于预设的阈值。在声音的置信度不小于阈值时，第二输出模块将输出婴儿啼哭检测成功信号。同时为了增加远场声音的准确率，该装置采用了传感器阵列增强远场声音信号，从而提高识别模型的性能。该方法仅仅考虑了通过物理方式，采用多个声音传感器组成传感器阵列对声音特征进行增强，但相对的，噪音部分的声音特征也会被同步增强，导致传感器的识别率有所下降。

综上所述，针对这些问题，本申请提出了一种既能从算法方面提升远场场景下声音分类的准确性，又能从硬件方面用多传感器的决策维度进行融合，通过调整每个传感器的置信度，动态管理每个传感器所能提供的信息量，精准减少噪音或传感器状态对最终结果的影响。

实施例一：

如图1所示，为本申请实施例的一种基于多传感器融合的远场声音分类方法流程示意图。首先，构建具有多个音频传感器的传感器阵列，所述音频传感器具有置信度，所述置信度用于表征所述音频传感器的可靠性；所述方法包括：

S101：响应于接收的音频信号，由多个音频传感器对音频信号进行预处理，提取音频特征。

S102：将所述音频特征输入至预先训练的声音分类模型，获得初步声音分类结果。

S103：将多个传感器的初步声音分类结果输入至融合处理模型，获得最终声音分类结果；其中，所述融合处理模型基于预先训练的深度学习模型构建，能够融合初步声音分类结果、音频传感器置信度、声源距离和音频信号特征进行处理。

S104：依据所述最终声音分类结果，调整所述音频传感器的置信度。

在一些实施例中，由多个音频传感器对音频信号进行预处理，如图2所示，包括：

S211：对每个音频传感器采集的音频信号进行物理降噪。

S212：基于音频信号的振幅，对音频信号进行处理，包括音频信号分帧和短时傅里叶变换。

在一些实施例中，所述音频信号分帧包括：对分帧后的每个短时分析窗进行加窗操作，以使音频信号由时域转为频域并得到相应的频谱；所述加窗包括汉明窗，并且在窗口计算时逐次移动窗口大小的1/3或1/2。

具体地，通过每个传感器阵列中的传感器对声音信号进行采集，并进行物理降噪，声音信号处理是基于音频信号的振幅信息进行的。具体为首先将音频信号分帧，并对每个短时分析窗进行加窗操作，以使信号由时域转换为频域并得到相应的频谱。分帧是为了处理音频信号的短时平稳性，将信号划分为短段进行处理，每段称为一帧。加窗操作是为了在进行傅里叶变换，使音频信号的频谱在全局上更连续。但是加窗操作会削弱一帧信号两端的部分信息，因此需要在帧与帧之间有重叠。加窗操作可以使用汉明窗，以有效保留对音频信号的中间数据。在移动窗口时，移动窗口的1/3或1/2，以重新获得前一帧或两帧丢失的数据。

此外，由于计算机无法对无限长的信号进行处理，实际处理时会选择有限的时间片段进行分析。

在一些实施例中，所述声音分类模型基于神经网络进行构建，所述神经网络包括单层卷积神经网络。

在一些实施例中，将所述音频特征输入至预先训练的声音分类模型，获得初步声音分类结果，包括：所述音频特征经过所述声音分类模型进行卷积计算，获得单个音频传感器的初步声音分类结果。

在一些实施例中，将多个传感器的初步声音分类结果输入至融合处理模型，获得最终声音分类结果；所述最终声音分类结果包括音频信号分类标签和/或声源距离。

在一些实施例中，依据所述最终声音分类结果，调整所述音频传感器的置信度，如图3所示，包括：

S311：输入所述最终声音分类结果至增强学习模型，获得正确分类结果。

S312：计算正确分类结果与所述最终声音分类结果之间的差异，对模型参数进行训练，以调整所述音频传感器的置信度。

下面对本申请实施例的基于多传感器融合的远场声音分类方法的具体实现方式进行详细说明。

首先，接收音频信号。每个传感器各自处理自身接收到的音频信号：首先，音频信号每个传感器都会基于所接收到的音频信号的振幅信息进行特征提取。采用短时傅里叶变换进行预处理，从音频信号中提取出具有代表性的特征。随后，经过特征提取的信号将被输入到预先训练的远场声音分类模型中，以得到初步的分类结果。通过特征提取和分类模型的处理，传感器可以对音频信号进行初步的分类处理。

其次，对每个传感器的分类结果进行融合处理。在这一步骤中，将结合各传感器提供的分类结果、置信度、声源距离以及声信号特征进行进一步的处理。这个处理过程可能涉及到预先训练的深度学习模型，通过结合多方面的信息和经过深度学习模型的二次处理，最终得出准确可靠的分类结果。

再次，最终的分类结果将会被输出，供后续应用程序或***使用。这个输出的结果包括对音频信号的分类标签、声源距离等相关信息，以便进行进一步的处理或决策。

最终，可以通过深度增强学习的方式对传感器的置信度进行控制。增强学习模型将会接收声源距离、声信号特征以及传感器的分类结果作为输入，并输出正确的分类结果。通过反向计算正确分类结果与输入之间的差异，可以控制神经网络的权重，从而调整每个传感器对应的置信度。这种方式能够使得传感器在工作过程中不断地根据实际情况进行优化和调整，提高***的准确性和稳定性。

实施例二：

图4是本申请实施例提供的一种基于多传感器融合的远场声音分类装置的示意图。如图4所示，首先构建具有多个音频传感器的传感器阵列，所述音频传感器被配置为接收并处理音频信号；该基于多传感器融合的远场声音分类装置包括：

音频特征提取模块401，被配置为响应于接收的音频信号，由每个音频传感器对音频信号进行预处理，提取音频特征；

初步分类结果获取模块402，被配置为将所述音频特征输入至预先训练的声音分类模型，获得初步声音分类结果；

最终分类结果获取模块403，被配置为将多个传感器的初步声音分类结果输入至融合处理模型，获得最终声音分类结果；其中，所述融合处理模型基于预先训练的深度学习模型构建，能够融合初步声音分类结果、音频传感器置信度、声源距离和音频信号特征进行处理；

置信度调整模块404，被配置为依据所述最终声音分类结果，调整所述音频传感器的置信度。

应理解，本说明书实施例的一种基于多传感器融合的远场声音分类装置还可执行图1至图3中基于多传感器融合的远场声音分类装置执行的方法，并实现基于多传感器融合的远场声音分类装置在图1至图3所示实例的功能，在此不再赘述。同时，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

实施例三：

图5是本申请实施例提供的电子设备5的示意图。如图5所示，该实施例的电子设备5包括：处理器501、存储器502以及存储在该存储器502中并且可在处理器501上运行的计算机程序503。处理器501执行计算机程序503时实现上述各个方法实施例中的步骤。或者，处理器501执行计算机程序503时实现上述各装置实施例中各模块/单元的功能。

电子设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备5可以包括但不仅限于处理器501和存储器502。本领域技术人员可以理解，图5仅仅是电子设备5的示例，并不构成对电子设备5的限定，可以包括比图示更多或更少的部件，或者不同的部件。

存储器502可以是电子设备5的内部存储单元，例如，电子设备5的硬盘或内存。存储器502也可以是电子设备5的外部存储设备，例如，电子设备5上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。存储器502还可以既包括电子设备5的内部存储单元也包括外部存储设备。存储器502用于存储计算机程序以及电子设备所需的其它程序和数据。

处理器501可以是中央处理单元（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（ApplicationSpecific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器501从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成共享资源访问控制装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

构建具有多个音频传感器的传感器阵列，所述音频传感器具有置信度，所述置信度用于表征所述音频传感器的可靠性；所述方法包括：

上述如本说明书图1至图3所示实施例揭示的基于多传感器融合的远场声音分类方法可以应用于处理器501中，或者由处理器501实现。处理器501可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以实现或者执行本说明书实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

当然，除了软件实现方式之外，本说明书实施例的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

实施例四：

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1至图3所示实施例的基于多传感器融合的远场声音分类方法，并具体用于执行以下方法：

总之，以上该仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书的保护范围之内。

应该指出，上述详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语均具有与本申请所属技术领域的普通技术人员的通常理解所相同的含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式。此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位，如旋转90度或处于其他方位，并且对这里所使用的空间相对描述作出相应解释。

在上面详细的说明中，参考了附图，附图形成本文的一部分。在附图中，类似的符号典型地确定类似的部件，除非上下文以其他方式指明。在详细的说明书、附图及权利要求书中所描述的图示说明的实施方案不意味是限制性的。在不脱离本文所呈现的主题的精神或范围下，其他实施方案可以被使用，并且可以作其他改变。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于多传感器融合的远场声音分类方法，其特征在于，构建具有多个音频传感器的传感器阵列，所述音频传感器具有置信度，所述置信度用于表征所述音频传感器的可靠性；所述方法包括：

2.根据权利要求1所述的基于多传感器融合的远场声音分类方法，其特征在于，由多个音频传感器对音频信号进行预处理，包括：

对每个音频传感器采集的音频信号进行物理降噪；

3.根据权利要求2所述的基于多传感器融合的远场声音分类方法，其特征在于，所述音频信号分帧包括：对分帧后的每个短时分析窗进行加窗操作，以使音频信号由时域转为频域并得到相应的频谱；所述加窗包括汉明窗，并且在窗口计算时逐次移动窗口大小的1/3或1/2。

4.根据权利要求1至3任一项所述的基于多传感器融合的远场声音分类方法，其特征在于，所述声音分类模型基于神经网络进行构建，所述神经网络包括单层卷积神经网络。

5.根据权利要求4所述的基于多传感器融合的远场声音分类方法，其特征在于，将所述音频特征输入至预先训练的声音分类模型，获得初步声音分类结果，包括：所述音频特征经过所述声音分类模型进行卷积计算，获得单个音频传感器的初步声音分类结果。

6.根据权利要求1所述的基于多传感器融合的远场声音分类方法，其特征在于，将多个传感器的初步声音分类结果输入至融合处理模型，获得最终声音分类结果；所述最终声音分类结果包括音频信号分类标签和/或声源距离。

7.根据权利要求6所述的基于多传感器融合的远场声音分类方法，其特征在于，依据所述最终声音分类结果，调整所述音频传感器的置信度，包括：

8.一种基于多传感器融合的远场声音分类装置，其特征在于，构建具有多个音频传感器的传感器阵列，所述音频传感器被配置为接收并处理音频信号；所述装置包括：

9.一种电子服务器，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器在执行所述计算机程序时，实现如权利要求1至7任一项所述的基于多传感器融合的远场声音分类方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于多传感器融合的远场声音分类方法的步骤。