CN117037847B

CN117037847B - 一种端到端社区噪音监测方法、装置及相关组件

Info

Publication number: CN117037847B
Application number: CN202310950511.9A
Authority: CN
Inventors: 钟桂生
Original assignee: Shenzhen Wanwuyun Technology Co ltd
Current assignee: Shenzhen Wanwuyun Technology Co ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2024-05-03
Anticipated expiration: 2043-07-31
Also published as: CN117037847A

Abstract

本发明公开了一种端到端社区噪音监测方法、装置及相关组件，方法包括：收集音频数据集，并对所述音频数据集进行预处理，得到训练数据集和标签集；对所述训练数据集进行频域特征提取和格式转换，得到模型训练图像集；根据所述模型训练图像集和所述标签集生成三元组训练集和三元组标签集；通过深度学习模型对所述三元组训练集和所述三元组标签集进行特征提取，并通过多层感知机进行分类，得到噪音类别；对所述噪音类别进行分析，得到最终的监测结果。本发明通过该方法实现了自动采集、分析和识别社区噪声，提高了物业管理的智能化程度，减轻物业管理人员的工作量和管理成本，并通过深度学习模型和多层感知机的结合提升了噪声的识别效率。

Description

一种端到端社区噪音监测方法、装置及相关组件

技术领域

本发明涉及计算机技术领域，特别涉及一种端到端社区噪音监测方法、装置及相关组件。

背景技术

近年来，越来越多的城市提出了智慧城市和智慧社区的理念，以提升城市管理和服务的智能化水平。智慧社区旨在提高居民居住环境的舒适度和满意度，而社区噪音扰民事件的频率是评价社区智慧程度的重要指标之一。作为城市环境监测和管理中的一种重要污染源，社区噪声问题日益复杂化和严重化，给人们的生活质量和健康状况带来了严重影响。因此，如何有效地解决社区噪声问题已成为城市管理部门和居民普遍关注的热点问题。

传统的社区噪声监测方法主要依靠物业人工定时巡检和单一噪声源的检测等方法，但这些方法存在成本高昂、效率低下和道德风险等弊端。在城市化进程不断加速的现代社会，传统的噪音监测方法已经无法满足人们对居住环境质量的要求，因此急需一种更加高效和智能化的社区噪音监测技术，为城市环境污染治理提供更为科学和可行的解决方案。

发明内容

本发明的目的是提供一种端到端社区噪音监测方法、装置及相关组件，旨在解决现有社区噪声监测方法成本高、效率低下等问题。

第一方面，本发明实施例提供一种端到端社区噪音监测方法，包括：

收集音频数据集，并对所述音频数据集进行预处理，得到训练数据集和标签集；

对所述训练数据集进行频域特征提取和格式转换，得到模型训练图像集；

根据所述模型训练图像集和所述标签集生成三元组训练集和三元组标签集；

通过深度学习模型对所述三元组训练集和所述三元组标签集进行特征提取，并通过多层感知机进行分类，得到噪音类别；

对所述噪音类别进行分析，得到最终的监测结果。

第二方面，本发明实施例提供一种端到端社区噪音监测装置，包括：

收集单元，用于收集音频数据集，并对所述音频数据集进行预处理，得到训练数据集和标签集；

提取单元，用于对所述训练数据集进行频域特征提取和格式转换，得到模型训练图像集；

生成单元，用于根据所述模型训练图像集和所述标签集生成三元组训练集和三元组标签集；

分类单元，用于通过深度学习模型对所述三元组训练集和所述三元组标签集进行特征提取，并通过多层感知机进行分类，得到噪音类别；

分析单元，用于对所述噪音类别进行分析，得到最终的监测结果。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的端到端社区噪音监测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时实现上述第一方面所述的端到端社区噪音监测方法。

本发明公开了一种端到端社区噪音监测方法、装置及相关组件，方法包括：收集音频数据集，并对所述音频数据集进行预处理，得到训练数据集和标签集；对所述训练数据集进行频域特征提取和格式转换，得到模型训练图像集；根据所述模型训练图像集和所述标签集生成三元组训练集和三元组标签集；通过深度学习模型对所述三元组训练集和所述三元组标签集进行特征提取，并通过多层感知机进行分类，得到噪音类别；对所述噪音类别进行分析，得到最终的监测结果。本发明通过该方法实现了自动采集、分析和识别社区噪声，提高了物业管理的智能化程度，减轻物业管理人员的工作量和管理成本，并通过深度学习模型和多层感知机的结合提升了提高噪音识别的精度和性能，进一步提升了噪声的识别效率。本发明实施例同时还提供了一种端到端社区噪音监测装置、一种计算机可读存储介质和一种计算机设备，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例的端到端社区噪音监测方法的流程图；

图2为本实施例的频域特征提取的流程图；

图3为本实施例的Swin-Transformer模型下采样的流程图；

图4为本实施例的三元组函数优化的流程图；

图5为本实施例的额外的网络结构的结构示意图；

图6为狗叫示例的分析图；

图7为本实施例的端到端社区噪音监测装置的示意性框图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，本发明提供了一种端到端社区噪音监测方法，包括：

S101：收集音频数据集，并对所述音频数据集进行预处理，得到训练数据集和标签集；

本实施例中，音频数据集的收集方法为：在相应的场所中安装听诊装置，通过听诊装置实时收集环境音频数据，并将音频数据做成数据集传输给模型，供模型训练或推理。

本实施例还设置有噪音分贝诊断方法，用于判断当前的音频数据是否触发模型的识别和推理；具体步骤为：计算环境音频的实际分贝值大小，并与设定的环境噪音分贝阈值进行比较，以及判断环境噪声持续时间是否超过预定时长/>若环境噪音分贝超过阈值/>且环境噪音持续时间超过预定时长/>则触发模型的识别和推理等后续工作；若环境噪音分贝未超过阈值/>或环境噪音持续时间未超过预定时长/>则不进行任何操作。

其中，为满足模型的训练要求，本实施例需要对采集的音频数据集进行预处理，例如补齐，切片等操作，具体的：

以指定音频采样率sr读取音频数据集X_ori内的原始音频样本其中，i为音频数据集X_ori的样本索引；

接着基于样本时长d和样本重叠率r将原始音频样本切分成若干个子音频样本，分别用/>表示，其中j为该音频样本的最大可切分索引；

再分别判断若干个子音频样本是否为一个完整的模型训练样本；若不是，则对子音频样本/>进行补齐处理，其中，补齐数据服从均值为0，标准差为0.01的高斯分布，即若是，则不进行任何处理；

然后对每个子音频样本按照噪音类别索引I进行打标处理，其中，社区噪音源有多种类型，例如街道音乐噪声，装修钻孔声，汽车警报声等等，本实施例中默认无噪音的标签为“0”；且若一个子音频样本里包含了多个噪音类别，则以持续时间和噪音强度为基准进行打标，通过考虑持续时间和噪音强度的因素，可以更准确地标注噪音类别；同时可以更好地反映不同噪音类别之间的差异，从而提高后续模型训练的准确性和鲁棒性；

再然后将打标后的子音频样本及与子音频样本对应的标签分别存放到训练数据集X和标签集Y，其中，训练数据集和标签集主要用于模型的训练和预测。

S102：对所述训练数据集进行频域特征提取和格式转换，得到模型训练图像集；

本实施例以Swin-Transformer网络结构为基础，同时选择三元损失函数(TripletLoss Function)用于训练模型，以获取更具代表性的特征表示，进而提高深度学习算法的准确性和鲁棒性；由于计算机无法直接处理音频数据，所以需要对训练数据集进行前置处理，转换成满足深度学习算法的输入要求。

其中，前置处理包括：频域特征提取和构建三元组训练集，即步骤S102和步骤S103；

本实施例通过频谱分析法提取训练数据集的频域特征，可以得到音频信号在时间维度和频谱维度上的能量分布情况，进而捕捉噪声信号的特殊性，以及不同信号之间的差异性。

具体的，请参阅图2，遍历训练数据集并以指定音频采样率读取训练数据集内的音频样本；基于帧长和帧移对音频样本进行分帧和加窗，并且对每帧信号进行短期傅里叶变换，得到音频样本的频谱信息；基于梅尔滤波器数量构建梅尔滤波器组；将梅尔滤波器组与频谱信息进行卷积运算和对数运算，得到梅尔频谱特征；对梅尔频谱特征进行归一化操作；按图像尺寸将归一化的梅尔频谱特征转换为梅尔频谱特征图像；将梅尔频谱特征图像存放于模型训练图像集内。

在一个实施例中，遍历模型训练数据集X，并以指定音频采样率sr读取训练数据集X内的音频样本x_i；接着基于帧长n和帧移h对音频样本x_i进行分帧和加窗，并且对每帧信号进行短期傅里叶变换(STFT)，获得该音频样本x_i的频谱信息

短期傅里叶变换的公式如下：

其中，x(n)为原始信号，表示输入的时域信号，n表示时间索引；为定义在时域m和频域k上的二维函数，表示STFT的频谱系数；w(n)为窗函数；e表示自然常数；N表示窗口长度；m表示时间帧索引；k表示频率索引；j表示虚数单位；

再接着基于梅尔滤波器数量M构建梅尔滤波器组，第m个梅尔滤波器的响应函数如下：

其中，f(m)表示第m个梅尔滤波器的中心频率(0≤m<M)，计算公式如下：

其中，f_max表示信号的最高频率，通常为采样率的一半，即sr/2；f_mel定义为将线性频率(单位Hz)转换为非线性频率(即梅尔刻度)的函数，计算公式如下：

然后将梅尔滤波器组与该音频样本x_i的频谱信息进行卷积运算和对数运算，即可得到对应的梅尔频谱特征；第m个梅尔滤波器与第t帧的频谱信息的计算公式如下：

其中，K表示频率的最大值，其值等于f_max；表示第t帧音频信号在频率k的幅度谱；/>表示第t帧音频信号经第m个梅尔滤波器作用后的梅尔频谱特征；

再然后对梅尔频谱特征进行归一化操作；随后按图像尺寸C×H×W将归一化后的梅尔频谱特征转换为梅尔频谱特征图像，一般情况下图像为RGB三通道，即C取值为3；再接着将梅尔频谱特征图像存放于模型训练图像集X_img内，在将梅尔频谱特征图像存放于模型训练图像集X_img之后，执行步骤S103。

S103：根据所述模型训练图像集和所述标签集生成三元组训练集和三元组标签集；

由于本实施例选用三元损失函数(TripletLoss Function)进行训练模型，因此需要构建具备模型训练的三元组训练数据集。

具体的，对模型训练图像集X_img和标签集Y按照标签类别进分组；接着对于每一组数据，随机选择一个样本作为锚点(Anchor)，再随机选择一个与锚点相似的样本(同类)作为正样本(Positive)，以及一个与锚点不相似的样本(异类)作为负样本(Negative)；再接着将锚点、正样本以及负样本总共三个样本组合成一个三元组训练样本并且记录与其对应的标签然后将三元组训练样本/>和其对应的标签/>分别存放于三元组训练集X_tri和三元组标签集Y_tri；再重复上述步骤，直至生成足够数量的三元组训练集。

S104：通过深度学习模型对所述三元组训练集和所述三元组标签集进行特征提取，并通过多层感知机进行分类，得到噪音类别；

具体的，将三元组训练集的频谱图输入到深度学***为序列，得到序列特征；接着在通道维度上对序列特征进行线性映射，生成高维度特征；再接着对高维度特征分别进行8倍、16倍以及32倍的下采样，并进行特征融合，获得不同尺度的特征信息和全局范围内的特征信息；然后将不同尺度的特征信息和全局范围内的特征信息压缩为一维向量，作为特征向量。

在一个实施例中，考虑到实际落地场景的复杂性，设备传感器的差异性，以及噪声的多样性等原因，本实施例使用基于Swin-Transformer模型为基础的三元组网络对三元组数据集进行编码，通过三元组损失函数对编码结果进行相似度度量并根据度量结果进行相应优化；经训练后的Swin-Transformer模型具备更好地提取不同噪音类型的特征，进而能够提高噪声识别的精度和性能，因此该实施例提取特征的步骤为：将三元组训练集的频谱图输入到Swin-Transformer模型内；接着将输入的频谱图分割成互不重叠的小块，并在通道维度上进行拼接，最后将所有的小块展平为序列，得到序列特征；再接着在通道维度上对序列特征进行线性映射，生成高维度特征；然后对高维度特征分别进行8倍、16倍以及32倍的下采样(如图3所示，图中的左侧为输入的频谱图，右侧为对其进行多个倍数的下采样)，并进行特征融合，获得不同尺度的特征信息和全局范围内的特征信息；再将不同尺度的特征信息和全局范围内的特征信息压缩为一维向量，作为特征向量。

其中，基于Swin-Transformer模型为基础的三元组网络整体由三元组训练数据集，参数共享的Swin-Transformer模型，以及用于计算样本相似度的三元组损失函数所构成；Swin-Transformer模型内的Swin Transformer Block由带窗口的多头自注意力机制(W-MSA)模块和移动窗口的多头自注意力机制(SW-MSA)模块所构成，前者实现窗口内部的信息交流，即局部特征提取；后者通过窗口移动实现了更大范围的信息捕捉，即长距离依赖关系建模。

需要说明的是，Swin-Transformer模型是一种基于Transformer结构的新型深度神经网络架构，能够处理大规模图像分类等任务；相较于传统的卷积神经网络结构(CNN)，Swin Transformer使用一种全新的延展式Transformer架构处理视觉场景中的长距离依赖关系等问题，并通过窗口化的方式实现多尺度特征融合和计算上的高效性。

由于噪音信号带有时序和频率两重属性，本实施例选用了Swin-Transformer模型，理由如下：

窗口化的特征提取方式：Swin-Transformer将输入的频谱图分成若干个相等的块(Patch)，在每个窗口内进行自注意力(Self-Attention)计算块之间的相关性，实现窗口内部信息交流，有利于提取不同尺度和位置的信息，还可以灵活地平衡不同尺度特征之间的权重关系。

长距离依赖关系建模：Swin-Transformer使用可移动的窗口结构，在每个移动窗口内对频谱图上的像素之间建立长距离联系，充分考虑不同局部之间的关系和全局特征提取。

空间和时间信息的交互：Swin-Transformer运用级联式的局部窗***流机制对图像进行维度扩充和信息融合，有助于实现在空间和时间两个维度上的高级交互。

在通过Swin-Transformer模型进行特征提取后，接着需通过损失函数对Swin-Transformer模型进行优化以及根据Swin-Transformer模型提取的特征向量进行分类；

下面对Swin-Transformer模型的优化进行具体说明：

本实施例采用三元组损失函数对Swin-Transformer模型进行优化，三元组损失函数是深度学习中常见的损失函数，主要应用于孪生网络和三元组网络等类似的深度网络结构，其训练策略是基于同类别间的距离和异类别间的距离进行优化，进而学习样本的特征表示；三元组损失函数的计算公式如下：

其中，代表三元组训练样本的Swin-Transformer模型输出，均为一维向量；margin为超参数，代表同类样本与异类样本两者相似度的阈值，其值通常取正值；表示Anchor样本与Positive样本的欧式距离，同理，/>表示Anchor样本与Negative样本的欧式距离，计算公式如下所示：

一般情况下，三元组损失函数的数值有如下三种情况：

轻松三元组(Easy triplets)：即/>同类样本(Anchor和Positive)距离很近，而异类样本(Anchor和Negative)距离很远，这种情况下无需优化；

困难三元组(Hard triplets)：即/>该情况与轻松三元组相反，同类样本距离远，而异类样本距离近，因此损失值最大，需要优化；

一般三元组(Semi-hard triplets)：即/> 同类样本的距离比异类样本的距离近，接近满足约束条件，但存在可以继续优化的空间。

本实施例采用反向传播算法(BackpropagationAlgorithm)来更新神经网络的参数，缩短同类别样本间的距离，同时扩大异类别样本间的距离，从而将困难三元组优化为轻松三元组以实现对Swin-Transformer模型的优化(如图4所示)；

具体的，通过三元组损失函数对特征向量进行计算，得到损失结果；接着根据损失结果并通过反向传播算法计算相应的梯度；然后根据梯度使用优化器来更新深度学习模型的参数。

在一个实施例中，通过三元组损失函数对特征向量进行计算，得到损失结果；接着根据损失结果并通过反向传播算法计算相应的梯度；再接着根据梯度使用Adam优化器来更新Swin-Transformer模型的参数；然后重复上述步骤，直到达到预设的训练轮数或者满足收敛条件，其中，梯度反向传播从损失函数开始，逐层计算并更新每个参数的梯度；每个训练周期中使用的是不同批次的数据集。

下面对分类进行具体说明：

基于Swin-Transformer模型完成特征提取后，需要在特定任务上进行微调(Fine-Tuning)，以提高噪声类型的识别精度；具体操作是在预训练模型的基础上，对其网络结构进行微调，新增额外的网络结构(如图5所示)，该网络结构主要由多层感知机(MLP，Multi-Layer Perceptron)所组成，并在若干的激活函数和正则化层等结构下完成模型的训练；其中，SoftMax层作为网络的输出层，直接输出噪音信号的预测标签。

具体的，将特征向量输入多层感知机；接着将特征向量连续两次且依次经过全连接层、正则化层以及激活函数层进行相应处理；再将处理后的特征向量输入全连接层，并通过SoftMax层映射到类别概率；然后将类别概率的最大值作为预测标签，得到噪音类别。

在一个实施例中，将特征向量输入多层感知机；接着将特征向量连续两次且依次经过Linear层、Dropout层和Batch-Norm层以及GELU层进行相应处理；再将处理后的特征向量输入Linear层，并通过SoftMax层映射到类别概率；然后将类别概率的最大值作为预测标签，得到噪音类别，其中，Linear层为全连接层；Dropout层和Batch-Norm层为正则化层；GELU层为激活函数层；需要说明的是，类别概率一般为实数。

本实施例中，预测标签的计算公式如下：

其中，表示样本属于概率最大的类别；p_c为全连接层的输出(x_c)经SoftMax函数计算后的属于类别c的概率，计算公式如下：

S105：对所述噪音类别进行分析，得到最终的监测结果。

具体的，将噪音类别按时间维度对齐，设置一定时长的窗口长度并对窗口内的噪音类别做统计分析，获得最终的监测结果，本实施例通过将噪音类别按时间维度对齐，并设置一定时长的窗口长度，可以确保每个窗口内的数据量相对稳定，避免了因数据波动引起的分析误差，同时通过调整窗口长度，可以灵活地应对不同的数据分析和监测需求；例如，在需要更精细的分析时，可以选择较短的窗口长度，而在需要宏观把握噪声环境变化时，可以选择较长的窗口长度。

请参阅图6，以长时间“狗叫扰民”为例，针对听诊装置实时采集的环境音频，首先进行噪音分贝诊断，判断环境音频的分贝值是否高于预定的阈值(图中Threshold线)，t₀时刻之前均未超出阈值/>t₀时刻之后，环境音频的分贝值超过阈值/>并且持续时间达到预定时长/>自动触发噪音识别模型工作，模型推理输出每个音频切片的识别结果为“狗叫”(即图中小框)，进一步基于窗口(即图中大框，此处窗口长度/>设置为5倍的音频切片，也就是图中大框的窗口长度为图中小框的5倍)完成统计分析，分析方法为：用窗口纯度P_wind代表窗口/>内模型识别出噪音的比例，当P_wind值高于噪音比例P_wind，则通过相关装置通知物业管理人员，物业管理人员前往事发现场处理；本示例中将噪音比例R_wind设定为80％，结合图5可知，图中识别为“狗叫”的小框占比高于80％，故最终分析结果为“狗叫”扰民事件，进而通知物业采取相应的措施，可以理解的是，上述的阈值(R_wind)的设置可通过噪音监测场景的实际状况而确定。

请参阅图7，本实施例提供了一种端到端社区噪音监测装置700，包括：

收集单元701，用于收集音频数据集，并对所述音频数据集进行预处理，得到训练数据集和标签集；

提取单元702，用于对所述训练数据集进行频域特征提取和格式转换，得到模型训练图像集；

生成单元703，用于根据所述模型训练图像集和所述标签集生成三元组训练集和三元组标签集；

分类单元704，用于通过深度学习模型对所述三元组训练集和所述三元组标签集进行特征提取，并通过多层感知机进行分类，得到噪音类别；

分析单元705，用于对所述噪音类别进行分析，得到最终的监测结果。

进一步的，所述收集单元701包括：

读取子单元，用于以指定音频采样率读取所述音频数据集内的原始音频样本；

切分子单元，用于基于样本时长和样本重叠率将所述原始音频样本切分成若干个子音频样本；

判断子单元，用于分别判断若干个所述子音频样本是否为一个完整的模型训练样本；

补齐子单元，用于若不是，则对所述子音频样本进行补齐处理；若是，则不进行任何处理；

达标子单元，用于对每个子音频样本按照噪音类别索引进行打标处理；

存放子单元，用于将打标后的子音频样本及与所述子音频样本对应的标签分别存放到所述训练数据集和所述标签集。

进一步的，所述提取单元702包括：

遍历子单元，用于遍历所述训练数据集并以指定音频采样率读取所述训练数据集内的音频样本；

分帧子单元，用于基于帧长和帧移对所述音频样本进行分帧和加窗，并且对每帧信号进行短期傅里叶变换，得到所述音频样本的频谱信息；

构建子单元，用于基于梅尔滤波器数量构建梅尔滤波器组；

计算子单元，用于将所述梅尔滤波器组与所述频谱信息进行卷积运算和对数运算，得到梅尔频谱特征；

归一化子单元，用于对所述梅尔频谱特征进行归一化操作；

图像转换子单元，用于按图像尺寸将归一化的梅尔频谱特征转换为梅尔频谱特征图像；

图像存放子单元，用于将所述梅尔频谱特征图像存放于所述模型训练图像集内。

进一步的，所述分类单元704包括：

输入子单元，用于将所述三元组训练集的频谱图输入到所述深度学习模型内；

拼接子单元，用于将输入的频谱图分割成互不重叠的小块，并在通道维度上进行拼接，最后将所有的小块展平为序列，得到序列特征；

映射子单元，用于在通道维度上对所述序列特征进行线性映射，生成高维度特征；

特征融合子单元，用于对所述高维度特征分别进行8倍、16倍以及32倍的下采样，并进行特征融合，获得不同尺度的特征信息和全局范围内的特征信息；

压缩子单元，用于将所述不同尺度的特征信息和所述全局范围内的特征信息压缩为一维向量，作为特征向量。

进一步的，所述分类单元704还包括：

向量输入子单元，用于将所述特征向量输入所述多层感知机；

处理子单元，用于将所述特征向量连续两次且依次经过全连接层、正则化层以及激活函数层进行相应处理；

类别概率映射子单元，用于将处理后的特征向量输入所述全连接层，并通过SoftMax层映射到类别概率；

噪音类别获取子单元，用于将所述类别概率的最大值作为预测标签，得到噪音类别。

进一步的，所述压缩子单元还包括：

向量计算子单元，用于通过三元组损失函数对所述特征向量进行计算，得到损失结果；

梯度计算子单元，用于根据所述损失结果并通过反向传播算法计算相应的梯度；

更新子单元，用于根据所述梯度使用优化器来更新深度学习模型的参数。

进一步的，所述分析单元705包括：

对齐子单元，用于将所述噪音类别按时间维度对齐，设置一定时长的窗口长度，并对窗口内的所述噪音类别做统计分析，获得最终的监测结果。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的方法。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明还提供了一种计算机设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的方法。当然所述计算机设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的。

包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种端到端社区噪音监测方法，其特征在于，包括：

对所述噪音类别进行分析，得到最终的监测结果；

所述对所述训练数据集进行频域特征提取和格式转换，得到模型训练图像集包括：

遍历所述训练数据集并以指定音频采样率读取所述训练数据集内的音频样本；

基于帧长和帧移对所述音频样本进行分帧和加窗，并且对每帧信号进行短期傅里叶变换，得到所述音频样本的频谱信息；

基于梅尔滤波器数量构建梅尔滤波器组；

将所述梅尔滤波器组与所述频谱信息进行卷积运算和对数运算，得到梅尔频谱特征；

对所述梅尔频谱特征进行归一化操作；

按图像尺寸将归一化的梅尔频谱特征转换为梅尔频谱特征图像；

将所述梅尔频谱特征图像存放于所述模型训练图像集内；

所述通过深度学习模型对所述三元组训练集和所述三元组标签集进行特征提取包括：

将所述三元组训练集的频谱图输入到所述深度学习模型内；

将输入的频谱图分割成互不重叠的小块，并在通道维度上进行拼接，最后将所有的小块展平为序列，得到序列特征；

在通道维度上对所述序列特征进行线性映射，生成高维度特征；

对所述高维度特征分别进行8倍、16倍以及32倍的下采样，并进行特征融合，获得不同尺度的特征信息和全局范围内的特征信息；

将所述不同尺度的特征信息和所述全局范围内的特征信息压缩为一维向量，作为特征向量。

2.根据权利要求1所述的端到端社区噪音监测方法，其特征在于，所述收集音频数据集，并对所述音频数据集进行预处理，得到训练数据集和标签集包括：

以指定音频采样率读取所述音频数据集内的原始音频样本；

基于样本时长和样本重叠率将所述原始音频样本切分成若干个子音频样本；

分别判断若干个所述子音频样本是否为一个完整的模型训练样本；

若不是，则对所述子音频样本进行补齐处理；若是，则不进行任何处理；

对每个子音频样本按照噪音类别索引进行打标处理；

将打标后的子音频样本及与所述子音频样本对应的标签分别存放到所述训练数据集和所述标签集。

3.根据权利要求1所述的端到端社区噪音监测方法，其特征在于，所述通过多层感知机进行分类包括：

将所述特征向量输入所述多层感知机；

将所述特征向量连续两次且依次经过全连接层、正则化层以及激活函数层进行相应处理；

将处理后的特征向量输入所述全连接层，并通过SoftMax层映射到类别概率；

将所述类别概率的最大值作为预测标签，得到噪音类别。

4.根据权利要求1所述的端到端社区噪音监测方法，其特征在于，将所述不同尺度的特征信息和所述全局范围内的特征信息压缩为一维向量，作为特征向量之后还包括：

通过三元组损失函数对所述特征向量进行计算，得到损失结果；

根据所述损失结果并通过反向传播算法计算相应的梯度；

根据所述梯度使用优化器来更新深度学习模型的参数。

5.根据权利要求1所述的端到端社区噪音监测方法，其特征在于，所述对所述噪音类别进行分析，得到最终的监测结果包括：将所述噪音类别按时间维度对齐，设置一定时长的窗口长度，对窗口内的所述噪音类别做统计分析，并获得最终的监测结果。

6.一种端到端社区噪音监测装置，其特征在于，包括：

分析单元，用于对所述噪音类别进行分析，得到最终的监测结果；

所述提取单元包括：

构建子单元，用于基于梅尔滤波器数量构建梅尔滤波器组；

归一化子单元，用于对所述梅尔频谱特征进行归一化操作；

图像存放子单元，用于将所述梅尔频谱特征图像存放于所述模型训练图像集内；

所述分类单元包括：

7.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的端到端社区噪音监测方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的端到端社区噪音监测方法。