CN118101812B

CN118101812B - 防爆工业电话机的通讯降噪方法及相关设备

Info

Publication number: CN118101812B
Application number: CN202410529956.4A
Authority: CN
Inventors: 谭克新; 谭淳柏; 龚晓辉
Original assignee: Shenzhen Goult Technology Co ltd
Current assignee: Shenzhen Goult Technology Co ltd
Priority date: 2024-04-29
Filing date: 2024-04-29
Publication date: 2024-06-25
Anticipated expiration: 2044-04-29
Also published as: CN118101812A

Abstract

本发明提供了一种防爆工业电话机的通讯降噪方法及相关设备，其中，该方法包括：基于电话机本体及其外设麦克风阵列和话筒设备，通过获取环境音频数据与通讯音频数据，并将这些数据转化为音频图像。接着，利用一个预设的音频检测模型来识别非定向噪声，并对其进行有效降噪处理。该过程包括将环境和通讯音频数据转换为第一和第二音频图像，通过音频检测模型识别出非定向噪声图像，进而对通讯音频数据进行先非定向后定向的降噪处理，最终通过反向音频处理技术生成标准降噪音频数据，并发送至目标通讯设备。本发明的方法通过音频处理和音频图像转换技术，实现了对非定向噪声和定向噪声的识别和降噪，提升了防爆工业电话机在噪声环境下的通讯清晰度。

Description

防爆工业电话机的通讯降噪方法及相关设备

技术领域

本发明涉及人工智能领域，尤其涉及一种防爆工业电话机的通讯降噪方法及相关设备。

背景技术

随着信息技术和通讯行业的飞速发展，工业领域对通讯设备的要求也越来越高，尤其是在噪音较大的环境中，如何保证通讯清晰，成为了研发的重点。传统的工业电话机在防爆性能上虽然已经有所保证，但在噪声环境下的通讯清晰度方面仍然存在不少问题。特别是在一些特殊行业，如石油化工、矿井等领域，工作环境噪声大，且存在***危险，这就对工业通讯设备提出了更高的要求。

目前，大部分防爆工业电话机主要通过物理隔离和简单的音频处理技术来减少噪声影响，如增加物理防护罩、使用特殊的声学材料等。然而，这些方法虽然在一定程度上减少了外部噪声的干扰，但在高噪声环境下仍然难以达到理想的通讯效果。

发明内容

本发明的主要目的在于解决现有的防爆工业电话机降噪在高噪声环境下仍然难以达到理想的通讯效果的技术问题。

本发明第一方面提供了一种防爆工业电话机的通讯降噪方法，所述防爆工业电话机包括电话机本体和话筒设备，所述电话机本体外设有麦克风阵列，所述通讯降噪方法包括：

获取所述防爆工业电话机中所述麦克风阵列采集的环境音频数据以及所述话筒设备采集的通讯音频数据；

分别将所述环境音频数据和所述通讯音频数据进行音频处理，得到第一音频图像和第二音频图像；

将所述第一音频图像输入预设的音频检测模型中，通过所述音频检测模型识别所述第一音频图像中的非定向噪声部分，得到非定向噪声图像；

根据所述非定向噪声图像对所述第二音频图像进行非定向降噪处理，得到非定向降噪图像；

将所述非定向降噪图像进行定向降噪处理和反向音频处理，得到标准降噪音频数据，并将所述标准降噪音频数据发送至目标通讯设备。

可选的，在本发明第一方面的第一种实现方式中，所述分别将所述环境音频数据和所述通讯音频数据进行音频处理，得到第一音频图像和第二音频图像包括：

对所述环境音频数据和所述通讯音频数据进行滤波处理和增益调整处理，分别得到对应的预处理音频数据；

使用短时傅里叶变换对所述预处理音频数据进行时频域转换，得到对应的时间-频率分布信息；

根据所述环境音频数据和所述通讯音频数据对应的时间-频率分布信息构建对应的频谱图；

将所述频谱图中的幅值数据转换为灰度值数据，根据所述灰度值数据生成对应的第一音频图像和第二音频图像。

可选的，在本发明第一方面的第二种实现方式中，所述音频检测模型包括编码器、金字塔空间池化层和解码器；所述将所述第一音频图像输入预设的音频检测模型中，通过所述音频检测模型识别所述第一音频图像中的非定向噪声部分，得到非定向噪声图像包括：

对所述第一音频图像进行图像预处理，并将图像预处理后的第一音频图像进行图像分割，得到多个图像块；

通过编码器将各图像块映射至高维特征空间，并嵌入添加位置编码；

通过所述金字塔空间池化层中的自注意力机制和多头注意力机制根据嵌入添加位置编码的图像块捕获所述第一音频图像多个尺度的特征信息；

通过所述解码器将所述第一音频图像多个尺度的特征信息进行特征融合，得到融合特征，并对所述融合特征进行上采样操作，得到非定向噪声图像。

可选的，在本发明第一方面的第三种实现方式中，所述根据所述非定向噪声图像对所述第二音频图像进行非定向降噪处理，得到非定向降噪图像包括：

对所述非定向噪声图像和第二音频图像进行对齐操作，并根据预设阈值和所述非定向噪声图像中识别的非定向噪声部分，生成对应的噪声掩码图；

将所述噪声掩码图应用于第二音频图像，通过逐像素比较，对第二音频图像中与噪声掩码图对应的区域执行像素值替换操作，得到像素值替换后的第二音频图像；

对像素值替换后的第二音频图像进行滤波处理，得到非定向降噪图像。

可选的，在本发明第一方面的第四种实现方式中，所述定向降噪模型为SwinTransformer模型；

所述将所述非定向降噪图像进行定向降噪处理和反向音频处理，得到标准降噪音频数据，并将所述标准降噪音频数据发送至目标通讯设备包括：

对所述非定向降噪图像进行尺度变换，调整图像分辨率以适配Swin Transformer模型的输入要求，得到调整后的非定向降噪图像；

将调整后的非定向降噪图像输入Swin Transformer模型，通过Swin Transformer模型的自注意力机制和层次化处理，对输入的非定向降噪图像中的定向噪声成分进行识别和过滤，得到标准降噪图像；

对所述标准降噪图像进行反向音频处理，得到标准降噪音频数据，并将所述标准降噪音频数据发送至目标通讯设备。

可选的，在本发明第一方面的第五种实现方式中，所述将所述非定向降噪图像进行定向降噪处理和反向音频处理，得到标准降噪音频数据，并将所述标准降噪音频数据发送至目标通讯设备还包括：

将所述非定向降噪图像进行反向音频处理，得到非定向降噪音频数据，并根据所述非定向降噪音频数据和所述环境音频数据，构造虚拟麦克风信号模型，得到虚拟麦克风音频数据；

根据所述虚拟麦克风音频数据和所述虚拟麦克风信号模型的虚拟麦克风位置，计算差分信号以及所述标准降噪音频数据的幅度谱；

根据所述差分信号识别非定向降噪音频数据中的语音和非语音帧，并根据非定向降噪音频数据中的语音和非语音帧更新补偿系数；

根据补偿系数补偿所述差分信号中的噪声分量，并根据补偿后的差分信号更新标准降噪音频数据的幅度谱；

根据更新后的标准降噪音频数据的幅度谱和预设的相位谱补偿函数，对非定向降噪音频数据的相位谱进行优化，得到补偿后的相位谱；

根据更新后的标准降噪音频数据的幅度谱和补偿后的相位谱，构建标准降噪音频数据，并将所述标准降噪音频数据发送至目标通讯设备。

可选的，在本发明第一方面的第六种实现方式中，所述根据所述差分信号识别非定向降噪音频数据中的语音和非语音帧，并根据非定向降噪音频数据中的语音和非语音帧更新补偿系数包括：

根据所述差分信号构建的所述虚拟麦克风音频数据、非定向降噪音频数据和环境音频数据的相关矩阵；

对所述相关矩阵进行行列式值计算处理，得到行列式值，并将所述行列式值与预设阈值进行比较处理，得到比较结果；

根据比较结果对对应帧的非定向降噪音频数据进行语音与非语音判断，得到语音存在决策结果，并根据所述语音存在决策结果更新补偿系数。

本发明第二方面提供了一种防爆工业电话机的通讯降噪装置，所述防爆工业电话机的通讯降噪装置包括：

数据获取模块，用于获取所述防爆工业电话机中所述麦克风阵列采集的环境音频数据以及所述话筒设备采集的通讯音频数据；

音频处理模块，用于分别将所述环境音频数据和所述通讯音频数据进行音频处理，得到第一音频图像和第二音频图像；

模型输入模块，用于将所述第一音频图像输入预设的音频检测模型中，通过所述音频检测模型识别所述第一音频图像中的非定向噪声部分，得到非定向噪声图像；

非定向降噪模块，用于根据所述非定向噪声图像对所述第二音频图像进行非定向降噪处理，得到非定向降噪图像；

定向降噪模块，用于高将所述非定向降噪图像进行定向降噪处理和反向音频处理，得到标准降噪音频数据，并将所述标准降噪音频数据发送至目标通讯设备。

本发明第三方面提供了一种防爆工业电话机的通讯降噪装置，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述防爆工业电话机的通讯降噪设备执行上述的防爆工业电话机的通讯降噪方法的步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的防爆工业电话机的通讯降噪方法的步骤。

上述防爆工业电话机的通讯降噪方法及相关设备，通过基于电话机本体及其外设麦克风阵列和话筒设备，通过获取环境音频数据与通讯音频数据，并将这些数据转化为音频图像。接着，利用一个预设的音频检测模型来识别非定向噪声，并对其进行有效降噪处理。该过程包括将环境和通讯音频数据转换为第一和第二音频图像，通过音频检测模型识别出非定向噪声图像，进而对通讯音频数据进行先非定向后定向的降噪处理，最终通过反向音频处理技术生成标准降噪音频数据，并发送至目标通讯设备。本发明的方法通过音频处理和音频图像转换技术，实现了对非定向噪声和定向噪声的识别和降噪，提升了防爆工业电话机在噪声环境下的通讯清晰度。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

图1为本发明实施例中防爆工业电话机的通讯降噪方法的一个实施例示意图；

图2为本发明实施例中防爆工业电话机的通讯降噪装置的一个实施例示意图；

图3为本发明实施例中防爆工业电话机的通讯降噪设备的一个实施例示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备端没有限定于已列出的步骤或单元，而是可选地还包括其他没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备端固有的其它步骤或单元。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种防爆工业电话机的通讯降噪方法进行详细介绍，所述防爆工业电话机包括电话机本体和话筒设备，所述电话机本体外设有麦克风阵列。如图1所示，本方法包括如下步骤：

101、获取防爆工业电话机中麦克风阵列采集的环境音频数据以及话筒设备采集的通讯音频数据；

在本发明的一个实施例中，首先，防爆工业电话机的设计必须考虑到噪音环境下的特殊需求。电话机本体外设的麦克风阵列负责收集环境中的声音信号，包括背景噪音和目标声音，而话筒设备则专注于用户的语音信号。为了有效区分和处理这两类信号，采用了高级的声学模型和信号处理算法。在收集环境音频数据方面，麦克风阵列通过协同工作，不仅捕捉到来自各个方向的声音信号，还能通过声学波束形成技术（Beamforming）增强来自特定方向的声音。这一过程可以通过以下公式表示：

；

其中，代表在频率/>和方向/>下的输出信号，/>是第/>个麦克风在频率/>下的输入信号，/>是麦克风的总数，/>是声源到第/>个麦克风的时间延迟，/>是虚数单位。该公式的用途在于根据不同方向的声源位置，调整麦克风阵列的接收强度，从而达到降噪的效果。举个例子，如果在一个典型的工业环境中，背景噪声主要由机器运转声构成，这种声音通常具有一定的频率特征。通过对麦克风阵列采集的环境音频数据进行频率分析，可以确定噪声的主要频率成分，并使用波束形成技术有选择地降低这些频率成分的影响。

102、分别将环境音频数据和通讯音频数据进行音频处理，得到第一音频图像和第二音频图像；

在本发明的一个实施例中，所述分别将所述环境音频数据和所述通讯音频数据进行音频处理，得到第一音频图像和第二音频图像包括：对所述环境音频数据和所述通讯音频数据进行滤波处理和增益调整处理，分别得到对应的预处理音频数据；使用短时傅里叶变换对所述预处理音频数据进行时频域转换，得到对应的时间-频率分布信息；根据所述环境音频数据和所述通讯音频数据对应的时间-频率分布信息构建对应的频谱图；将所述频谱图中的幅值数据转换为灰度值数据，根据所述灰度值数据生成对应的第一音频图像和第二音频图像。

具体的，对于环境音频数据和通讯音频数据的滤波处理和增益调整，目的是为了减少噪声干扰和调整信号强度，使其适合后续处理。滤波处理通常采用带通滤波器，以允许特定频段的信号通过，从而剔除非目标频率的噪声。滤波器的设计可以采用Butterworth滤波器设计，因为它在通带内相对平坦，适合音频信号处理。滤波器的传递函数为：

；

其中，是滤波器的传递函数，/>是复频率变量，/>是截止频率，/>是滤波器的阶数。通过选择适当的截止频率和滤波器阶数，可以有效地从环境和通讯音频数据中剔除不需要的频率成分，保留有价值的信号。

增益调整处理是通过对滤波后的信号进行放大或缩小，以达到预定的信号强度水平。这一步骤是为了保证音频信号在后续处理中的质量和效果。增益调整可以简单表示为：其中，/>是增益调整后的信号，/>是滤波后的信号，/>是增益系数。通过调整/>的值，可以确保音频信号在不同处理阶段保持适当的强度，“避免信号过弱或过饱和。

接下来，对预处理后的音频数据进行短时傅里叶变换 (STFT),这是将音频信号从时域转换到频域的关键步骤。STFT的表达式为：

；

其中，是信号，/>是窗函数，/>是时间变量，/>是频率变量。STFT允许获取音频信号随时间变化的频率内容，这对于分析和处理音频信号非常有用。通过STFT处理，得到了音频信号的时间-频率分布信息，进一步根据这些信息构建频谱图。频谱图是音频信号频率成分的图形表示，它显示了不同频率在信号中的强度。构建频谱图的过程涉及将STFT的结果转换为幅值，并对幅值进行归一化处理。

最后，将频谱图中的幅值数据转换为灰度值数据，这是为了将音频信号的频谱信息转换为可视化的图像形式。幅值到灰度值的转换可以表示为：

；

其中，是灰度值，/>是频谱图中的幅值，/>和/>分别是幅值的最小值和最大值。这种转换使得频谱信息可以通过图像形式进行表示和分析，为音频检测模型提供了输入数据。

举例来说，假设有一段通讯音频数据，在经过带通滤波器处理和增益调整后，使用窗长为256的汉宁窗进行STFT处理，得到了时间-频率分布信息。通过进一步分析，发现信号中有明显的频率成分集中在300Hz到3400Hz之间，这是人声通讯的主要频率范围。然后，根据这些频率成分构建频谱图」并将其转换为灰度图像，得到了对应的第一音频图像和第二音频图像。

103、将第一音频图像输入预设的音频检测模型中，通过音频检测模型识别第一音频图像中的非定向噪声部分，得到非定向噪声图像；

在本发明的一个实施例中，所述音频检测模型包括编码器、金字塔空间池化层和解码器；所述将所述第一音频图像输入预设的音频检测模型中，通过所述音频检测模型识别所述第一音频图像中的非定向噪声部分，得到非定向噪声图像包括：对所述第一音频图像进行图像预处理，并将图像预处理后的第一音频图像进行图像分割，得到多个图像块；通过编码器将各图像块映射至高维特征空间，并嵌入添加位置编码；通过所述金字塔空间池化层中的自注意力机制和多头注意力机制根据嵌入添加位置编码的图像块捕获所述第一音频图像多个尺度的特征信息；通过所述解码器将所述第一音频图像多个尺度的特征信息进行特征融合，得到融合特征，并对所述融合特征进行上采样操作，得到非定向噪声图像。

具体的，在对第一音频图像进行预处理的阶段，目的是为了改善图像质量，提高后续处理的准确性和效率。预处理步骤通常包括去噪、对比度增强等操作，以提升图像中的重要特征，如边缘和纹理等。经过预处理的图像将更适合进行复杂的特征提取和分析。紧接着，预处理后的图像被分割成多个图像块。这一步骤是为了将大的图像分解成小的片段，每个片段都可以单独进行深度分析。图像分割可以基于简单的网格划分，也可以采用更复杂的基于内容的分割方法，根据图像的内在特征进行分割。随后，每个图像块被送入编码器，编码器的作用是将图像块映射到高维特征空间，以便捕获更加深层次的信息。这一过程可以通过卷积神经网络（CNN）实现，卷积层能够提取图像块中的局部特征。每个图像块的位置编码则是通过向特征向量中添加额外的信息来实现的，这一步骤保证了模型能够考虑到图像块在原图中的相对位置，从而提高了特征的表达能力。

；

其中，代表编码后的特征，/>是卷积神经网络函数，/>是输入的图像块，/>是位置编码。

金字塔空间池化层的引入是为了捕获不同尺度的特征信息，并通过自注意力机制和多头注意力机制进一步提炼这些信息。自注意力机制允许模型在处理某个图像块的特征时，考虑到其他所有图像块的特征，从而捕捉到更广泛的上下文信息。

；

在这个公式中，、/>和/>分别代表查询(Query)、键(Key)和值(Value)矩阵，/>是键向量的维度，该公式计算了一个加权和，其中权重是通过查询和键之间的相似度计算的，这种机制允许模型动态地聚焦于与当前处理图像块最相关的其他图像块。

最后，通过解码器将提取的多尺度特征信息进行融合，并通过上采样操作恢复到接近原始尺寸的特征图，这个过程生成了非定向噪声图像，非定向噪声指的是来自环境的无特定方向的杂音或噪声，例如背景噪声、风声、机械设备的噪音等。这种噪声不具有特定的来源方向或频率特征，而定向噪声则是指来自特定方向或位置的噪声，具有明确的声源指向性。例如，一台机器运转时产生的噪声、某个方向上的交通噪声或者设备本身所产生的运作声音都属于定向噪声。解码器通常采用逆卷积

(Deconvolution)或像素级卷积(Pixel-shuffle)等技术来实现特征图的上采样。

；

其中，代表解码后的特征，/>是逆卷积函数，/>是编码器和金字塔空间池化层处理后的多尺度特征。

104、根据非定向噪声图像对第二音频图像进行非定向降噪处理，得到非定向降噪图像；

在本发明的一个实施例中，所述根据所述非定向噪声图像对所述第二音频图像进行非定向降噪处理，得到非定向降噪图像包括：对所述非定向噪声图像和第二音频图像进行对齐操作，并根据预设阈值和所述非定向噪声图像中识别的非定向噪声部分，生成对应的噪声掩码图；将所述噪声掩码图应用于第二音频图像，通过逐像素比较，对第二音频图像中与噪声掩码图对应的区域执行像素值替换操作，得到像素值替换后的第二音频图像；对像素值替换后的第二音频图像进行滤波处理，得到非定向降噪图像。

具体的，进行非定向噪声图像与第二音频图像的对齐操作是为了确保在进行噪声识别和处理时，两种图像中相同位置的像素点能够对应起来。图像对齐通常采用特征匹配和变换模型估计的方法，可以通过寻找两幅图像之间的几何变换来实现。一种常见的方法是采用基于特征的对齐算法，如SIFT（尺度不变特征变换）算法，来检测并匹配两幅图像中的关键点，并使用RANSAC（随机抽样一致性）算法估计变换矩阵。

；

在此公式中，代表从非定向噪声图像到第二音频图像的变换矩阵，分别代表非定向噪声图像和第二音频图像中检测到的SIFT特征。通过应用变换矩阵T,可以实现两幅图像的精确对齐。

接下来，通过计算非定向噪声图像中每个像素的强度，并与预设的阈值比较，可以生成噪声掩码图。这一过程可以形式化为：

；

其中，是在坐标/>处的噪声掩码值，/>是非定向噪声图像在该坐标处的像素强度，/>是预设的阈值。

将噪声掩码图应用于第二音频图像涉及到逐像素的比较和替换操作。对于第二音频图像中的每个像素，如果相应的噪声掩码值为1，表明该位置被识别为噪声，需要替换该像素值；否则，保持原像素值不变。

；

其中，Replace()表示对识别为噪声的像素执行的替换操作，可能是设置为周围像索的平均值或其他滤波操作的结果。最后，对经过像素替换的第二音频图像进行滤波处理，以平滑处理替换操作可能引入的边缘效应。这可以通过应用一个高斯滤波器或中值滤波器来实现，目的是减少图像中的噪声，同时尽量保留图像细节。

；

在这个过程中，是最终得到的非定向降噪图像，GaussianFilter()是应用的高斯滤波函数。

105、将非定向降噪图像进行定向降噪处理和反向音频处理，得到标准降噪音频数据，并将标准降噪音频数据发送至目标通讯设备。

在本发明的一个实施例中，所述定向降噪模型为Swin Transformer模型；所述将所述非定向降噪图像进行定向降噪处理和反向音频处理，得到标准降噪音频数据，并将所述标准降噪音频数据发送至目标通讯设备包括：对所述非定向降噪图像进行尺度变换，调整图像分辨率以适配Swin Transformer模型的输入要求，得到调整后的非定向降噪图像；将调整后的非定向降噪图像输入Swin Transformer模型，通过Swin Transformer模型的自注意力机制和层次化处理，对输入的非定向降噪图像中的定向噪声成分进行识别和过滤，得到标准降噪图像；对所述标准降噪图像进行反向音频处理，得到标准降噪音频数据，并将所述标准降噪音频数据发送至目标通讯设备。

具体的，首先，进行尺度变换的目的是调整非定向降噪图像的分辨率，使之与SwinTransformer模型的输入尺寸相匹配。尺度变换可以通过插值方法实现，常见的插值方法包括最近邻插值、双线性插值和三次样条插值等。双线性插值因其平衡了计算效率和图像质量的优势，常被用于图像尺寸调整。双线性插值的基本思想是对图像中的每个目标像素点，根据其四个最近邻源像素点的值，通过线性插值计算得到其像素值：

；

其中，是调整后图像在位置/>的像素值，/>是原图像中四个最近邻源像素点的值，/>分别表示这些源像素点在原图像中的坐标。通过这种方式，可以实现对非定向降噪图像的平滑缩放，保证了图像质量的同时，满足了Swin Transformer模型的输入要求。

接着，将调整后的非定向降噪图像输入Swin Transformer模型。SwinTransformer 模型是一个基于Transformer的视觉模型，它通过自注意力机制和层次化处理来识别和过滤图像中的噪声成分。Swin Transformer模型的核心优势在于其能够处理变化的图像尺寸，并且能够通过自注意力机制，捕捉到图像中的长距离依赖关系。在自注意力机制中，计算的是输入图像的不同部分之间的关联强度，以识别出图像中的定向噪声成分。自注意力的计算可以表示为：

；

在这个公式中，、/>和/>分别代表查询 (Query)、键 (Key) 和值 (Value)，

是键的维度，/>函数用于归一化计算得到的权重。通过这种方式，模型能够识别并过滤掉非定向降噪图像中的定向噪声成分，得到更加清晰的标准降噪图像。

最后，需要对得到的标准降噪图像进行反向音频处理，将图像数据转换回音频数据。这一步骤涉及到将图像的灰度值重新映射到音频信号的幅度值，并通过逆傅里叶变换将频率域的数据转换回时域，从而恢复音频信号。反向音频处理的最终目的是生成清晰、无噪声的标准降噪音频数据，并将这些数据发送至目标通讯设备，以实现高质量的通讯效果。

进一步的，所述将所述非定向降噪图像进行定向降噪处理和反向音频处理，得到标准降噪音频数据，并将所述标准降噪音频数据发送至目标通讯设备还包括：

将所述非定向降噪图像进行反向音频处理，得到非定向降噪音频数据，并根据所述非定向降噪音频数据和所述环境音频数据，构造虚拟麦克风信号模型，得到虚拟麦克风音频数据；根据所述虚拟麦克风音频数据和所述虚拟麦克风信号模型的虚拟麦克风位置，计算差分信号以及所述标准降噪音频数据的幅度谱；根据所述差分信号识别非定向降噪音频数据中的语音和非语音帧，并根据非定向降噪音频数据中的语音和非语音帧更新补偿系数；根据补偿系数补偿所述差分信号中的噪声分量，并根据补偿后的差分信号更新标准降噪音频数据的幅度谱；根据更新后的标准降噪音频数据的幅度谱和预设的相位谱补偿函数，对非定向降噪音频数据的相位谱进行优化，得到补偿后的相位谱；根据更新后的标准降噪音频数据的幅度谱和补偿后的相位谱，构建标准降噪音频数据，并将所述标准降噪音频数据发送至目标通讯设备。

具体的，首先，将非定向降噪图像转换回音频格式，这一步骤通常涉及到逆傅里叶变换（Inverse Fourier Transform, IFT）。逆傅里叶变换能够将图像中的频率信息转换回时域信号，即音频信号。在处理非定向降噪音频数据和构造虚拟麦克风信号模型的整个过程中，首先需要将非定向降噪图像转换回音频格式，这通常通过逆傅里叶变换（IFT）来实现。逆傅里叶变换的基本原理是将频域的信息转换回时域，接下来，基于还原后的非定向降噪音频数据和原始环境音频数据，构造虚拟麦克风信号模型，这涉及到复杂的声学模型和信号处理算法。虚拟麦克风信号模型的构建基于声源定位理论和信号的空间滤波技术，目的是通过模拟虚拟麦克风在不同位置接收到的信号，从而有效区分期望信号和噪声信号。基于虚拟麦克风音频数据和模型，可以进一步计算差分信号和进行信号的幅度谱分析。这里的关键是通过差分信号来识别非定向降噪音频数据中的语音和非语音帧，这通常涉及到短时能量和零交叉率等特征的计算。一旦确定了语音和非语音帧，就可以通过适应性算法更新补偿系数，以此来动态调整信号处理策略，以达到最佳的降噪效果。补偿系数的更新是一个迭代过程，它依赖于差分信号中的噪声分量的精确估计。这通常可以通过最小均方误差（LMS）算法来实现，通过这些补偿系数，可以对差分信号中的噪声分量进行有效的补偿，并根据补偿后的差分信号更新标准降噪音频数据的幅度谱。这一步不仅涉及到幅度谱的调整，还包括相位谱的优化，以确保音频信号的整体质量得到提升。相位谱的优化可以采用基于预设函数的方法，其目的是减少由于噪声导致的相位失真，从而恢复信号的自然属性。最终，通过结合更新后的幅度谱和优化后的相位谱，可以构建出清晰、无噪声的标准降噪音频数据，并将其发送至目标通讯设备。

进一步的，所述根据所述差分信号识别非定向降噪音频数据中的语音和非语音帧，并根据非定向降噪音频数据中的语音和非语音帧更新补偿系数包括：根据所述差分信号构建的所述虚拟麦克风音频数据、非定向降噪音频数据和环境音频数据的相关矩阵；对所述相关矩阵进行行列式值计算处理，得到行列式值，并将所述行列式值与预设阈值进行比较处理，得到比较结果；根据比较结果对对应帧的非定向降噪音频数据进行语音与非语音判断，得到语音存在决策结果，并根据所述语音存在决策结果更新补偿系数。

具体的，基于非定向降噪音频数据和环境音频数据构建虚拟麦克风音频数据。虚拟麦克风技术模拟了实际麦克风在不同位置的接收信号，从而可以获取更多的空间信息，帮助区分语音信号和噪声。这一步可以通过处理差分信号来实现，差分信号是通过计算来自不同方向的音频信号的差异得到的。通过这种方式，可以有效地分离出来自特定方向的语音信号和其他方向的噪声。接下来，将虚拟麦克风音频数据、非定向降噪音频数据和环境音频数据组合起来，构建相关矩阵。相关矩阵是一种表征信号之间相互关系的矩阵，可以通过计算信号间的互相关函数来得到。

；

其中，表示相关矩阵，/>和/>分别表示信号/>和信号/>自相关函数的值，而和/>表示信号之间的互相关函数值。这种矩阵帮助理解不同信号之间的相互关系和相似度。

对相关矩阵进行行列式值计算处理，这一步骤的目的是通过计算行列式的值来评估信号间的独立性。行列式值越接近零，表明矩阵中的信号越接近线性相关，这在一定程度上反映了信号之间的相似性或差异性。行列式的计算公式为：

；

通过将行列式值与预设阈值进行比较，可以对当前帧的音频数据进行语音与非语音判断。如果行列式值大于阈值，这表明当前帧更可能包含语音信号；反之，则更可能是非语音或噪声。根据语音存在的决策结果，需要更新补偿系数，以便更好地抑制噪声或增强语音信号。补偿系数的更新是一个动态过程，通常依赖于先前步骤的分析结果。更新补偿系数可以使用多种算法，例如最小均方误差 (LMS) 算法，这取决于特定的应用场景和目标。

在本实施例中，通过基于电话机本体及其外设麦克风阵列和话筒设备，通过获取环境音频数据与通讯音频数据，并将这些数据转化为音频图像。接着，利用一个预设的音频检测模型来识别非定向噪声，并对其进行有效降噪处理。该过程包括将环境和通讯音频数据转换为第一和第二音频图像，通过音频检测模型识别出非定向噪声图像，进而对通讯音频数据进行先非定向后定向的降噪处理，最终通过反向音频处理技术生成标准降噪音频数据，并发送至目标通讯设备。本发明的方法通过音频处理和音频图像转换技术，实现了对非定向噪声和定向噪声的识别和降噪，提升了防爆工业电话机在噪声环境下的通讯清晰度。

上面对本发明实施例中防爆工业电话机的通讯降噪方法进行了描述，下面对本发明实施例中防爆工业电话机的通讯降噪装置进行描述，所述防爆工业电话机包括电话机本体和话筒设备，所述电话机本体外设有麦克风阵列，请参阅图2，本发明实施例中防爆工业电话机的通讯降噪装置一个实施例包括：

数据获取模块201，用于获取所述防爆工业电话机中所述麦克风阵列采集的环境音频数据以及所述话筒设备采集的通讯音频数据；

音频处理模块202，用于分别将所述环境音频数据和所述通讯音频数据进行音频处理，得到第一音频图像和第二音频图像；

模型输入模块203，用于将所述第一音频图像输入预设的音频检测模型中，通过所述音频检测模型识别所述第一音频图像中的非定向噪声部分，得到非定向噪声图像；

非定向降噪模块204，用于根据所述非定向噪声图像对所述第二音频图像进行非定向降噪处理，得到非定向降噪图像；

定向降噪模块205，用于高将所述非定向降噪图像进行定向降噪处理和反向音频处理，得到标准降噪音频数据，并将所述标准降噪音频数据发送至目标通讯设备。

本发明实施例中，所述防爆工业电话机的通讯降噪装置运行上述防爆工业电话机的通讯降噪方法，所述防爆工业电话机的通讯降噪装置通过基于电话机本体及其外设麦克风阵列和话筒设备，通过获取环境音频数据与通讯音频数据，并将这些数据转化为音频图像。接着，利用一个预设的音频检测模型来识别非定向噪声，并对其进行有效降噪处理。该过程包括将环境和通讯音频数据转换为第一和第二音频图像，通过音频检测模型识别出非定向噪声图像，进而对通讯音频数据进行先非定向后定向的降噪处理，最终通过反向音频处理技术生成标准降噪音频数据，并发送至目标通讯设备。本发明的方法通过音频处理和音频图像转换技术，实现了对非定向噪声和定向噪声的识别和降噪，提升了防爆工业电话机在噪声环境下的通讯清晰度。

上面图2从模块化功能实体的角度对本发明实施例中的中防爆工业电话机的通讯降噪装置进行详细描述，下面从硬件处理的角度对本发明实施例中防爆工业电话机的通讯降噪设备进行详细描述。

图3是本发明实施例提供的一种防爆工业电话机的通讯降噪设备的结构示意图，该防爆工业电话机的通讯降噪设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）310（例如，一个或一个以上处理器）和存储器320，一个或一个以上存储应用程序333或数据332的存储介质330（例如一个或一个以上海量存储设备端）。其中，存储器320和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对防爆工业电话机的通讯降噪设备300中的一系列指令操作。更进一步地，处理器310可以设置为与存储介质330通信，在防爆工业电话机的通讯降噪设备300上执行存储介质330中的一系列指令操作，以实现上述防爆工业电话机的通讯降噪方法的步骤。

防爆工业电话机的通讯降噪设备300还可以包括一个或一个以上电源340，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口360，和/或，一个或一个以上操作***331，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图3示出的防爆工业电话机的通讯降噪设备结构并不构成对本发明提供的防爆工业电话机的通讯降噪设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述防爆工业电话机的通讯降噪方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种防爆工业电话机的通讯降噪方法，其特征在于，所述防爆工业电话机包括电话机本体和话筒设备，所述电话机本体外设有麦克风阵列，所述通讯降噪方法包括：

将所述第一音频图像输入预设的音频检测模型中，通过所述音频检测模型识别所述第一音频图像中的非定向噪声部分，得到非定向噪声图像，其中，非定向噪声是指环境的无特定方向的杂音或噪声，所述音频检测模型包括编码器、金字塔空间池化层和解码器；所述将所述第一音频图像输入预设的音频检测模型中，通过所述音频检测模型识别所述第一音频图像中的非定向噪声部分，得到非定向噪声图像包括：对所述第一音频图像进行图像预处理，并将图像预处理后的第一音频图像进行图像分割，得到多个图像块；通过编码器将各图像块映射至高维特征空间，并嵌入添加位置编码；通过所述金字塔空间池化层中的自注意力机制和多头注意力机制根据嵌入添加位置编码的图像块捕获所述第一音频图像多个尺度的特征信息；通过所述解码器将所述第一音频图像多个尺度的特征信息进行特征融合，得到融合特征，并对所述融合特征进行上采样操作，得到非定向噪声图像；

根据所述非定向噪声图像对所述第二音频图像进行非定向降噪处理，得到非定向降噪图像；具体包括：对所述非定向噪声图像和第二音频图像进行对齐操作，并根据预设阈值和所述非定向噪声图像中识别的非定向噪声部分，生成对应的噪声掩码图；将所述噪声掩码图应用于第二音频图像，通过逐像素比较，对第二音频图像中与噪声掩码图对应的区域执行像素值替换操作，得到像素值替换后的第二音频图像；对像素值替换后的第二音频图像进行滤波处理，得到非定向降噪图像；

2.根据权利要求1所述的通讯降噪方法，其特征在于，所述分别将所述环境音频数据和所述通讯音频数据进行音频处理，得到第一音频图像和第二音频图像包括：

3.根据权利要求1所述的通讯降噪方法，其特征在于，所述定向降噪模型为SwinTransformer模型；

4.根据权利要求1所述的通讯降噪方法，其特征在于，所述将所述非定向降噪图像进行定向降噪处理和反向音频处理，得到标准降噪音频数据，并将所述标准降噪音频数据发送至目标通讯设备还包括：

5.根据权利要求4所述的通讯降噪方法，其特征在于，所述根据所述差分信号识别非定向降噪音频数据中的语音和非语音帧，并根据非定向降噪音频数据中的语音和非语音帧更新补偿系数包括：

6.一种防爆工业电话机的通讯降噪装置，其特征在于，所述防爆工业电话机包括电话机本体和话筒设备，所述电话机本体外设有麦克风阵列，所述防爆工业电话机的通讯降噪装置包括：

模型输入模块，用于将所述第一音频图像输入预设的音频检测模型中，通过所述音频检测模型识别所述第一音频图像中的非定向噪声部分，得到非定向噪声图像，所述音频检测模型包括编码器、金字塔空间池化层和解码器；所述将所述第一音频图像输入预设的音频检测模型中，通过所述音频检测模型识别所述第一音频图像中的非定向噪声部分，得到非定向噪声图像包括：对所述第一音频图像进行图像预处理，并将图像预处理后的第一音频图像进行图像分割，得到多个图像块；通过编码器将各图像块映射至高维特征空间，并嵌入添加位置编码；通过所述金字塔空间池化层中的自注意力机制和多头注意力机制根据嵌入添加位置编码的图像块捕获所述第一音频图像多个尺度的特征信息；通过所述解码器将所述第一音频图像多个尺度的特征信息进行特征融合，得到融合特征，并对所述融合特征进行上采样操作，得到非定向噪声图像；

非定向降噪模块，用于根据所述非定向噪声图像对所述第二音频图像进行非定向降噪处理，得到非定向降噪图像；具体包括：对所述非定向噪声图像和第二音频图像进行对齐操作，并根据预设阈值和所述非定向噪声图像中识别的非定向噪声部分，生成对应的噪声掩码图；将所述噪声掩码图应用于第二音频图像，通过逐像素比较，对第二音频图像中与噪声掩码图对应的区域执行像素值替换操作，得到像素值替换后的第二音频图像；对像素值替换后的第二音频图像进行滤波处理，得到非定向降噪图像；

定向降噪模块，用于将所述非定向降噪图像进行定向降噪处理和反向音频处理，得到标准降噪音频数据，并将所述标准降噪音频数据发送至目标通讯设备。

7.一种防爆工业电话机的通讯降噪设备，其特征在于，所述防爆工业电话机的通讯降噪设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述防爆工业电话机的通讯降噪设备执行如权利要求1-5中任意一项所述的防爆工业电话机的通讯降噪方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-5中任意一项所述防爆工业电话机的通讯降噪方法的步骤。