CN115512688A

CN115512688A - 异音检测方法及装置

Info

Publication number: CN115512688A
Application number: CN202211073899.0A
Authority: CN
Inventors: 马金垲
Original assignee: Guangdong Meiyun Zhishu Technology Co ltd
Current assignee: Guangdong Meiyun Zhishu Technology Co ltd
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2022-12-23

Abstract

本发明涉及计算机应用技术领域，提供一种异音检测方法及装置。方法包括：获取待测声音信号；对所述待测声音信号进行特征提取，得到所述待测声音信号的特征向量；将所述待测声音信号的音频特征输入异音检测模型，得到所述异音检测模型输出的所述待测声音信号的声音类别；其中，所述待测声音信号的特征向量包括所述待测声音信号的频谱特征集和音频特征集，述异音检测模型是基于样本声音信号、所述样本声音信号的特征向量以及所述样本声音信号对应的声音类别标签训练得到的。本发明通过异音检测模型进行待测声音信号的异音识别，形成在相同环境下新的产品运行声音状态的品质判断能力。有效降低对生产线上人员的依赖，避免岗位轮换带来的品质不稳定。

Description

异音检测方法及装置

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种异音检测方法及装置。

背景技术

异音质检是总装质检线的关键一环，可以识别机器运转时的异常响动，从而对产品内部质量做出诊断。现行异音质检办法为在噪音房内通过检测员人工去听产品运行的声音是否有异常，从而判断是否出现品质问题。

在噪音房里，安排检测员对产品进行人工异音识别存在着很多痛点：首先，异音需要有相当丰富的经验才能准确识别。其次，长期的在噪音房里听产品运转声音，对人的听觉会造成损伤，容易造成听力下降。同时，人工异音识别还可能会由于听觉疲劳而造成误判。

发明内容

本发明旨在至少解决相关技术中存在的技术问题之一。为此，本发明提出一种异音检测方法，颠覆了以往产品异音只能靠人听、靠人判断的方式，通过异音检测模型对采集到的产品声音信号进行分类，自动化识别声音是否属于异常。

本发明还提出一种异音检测装置。

本发明还提出一种电子设备。

本发明还提出一种非暂态计算机可读存储介质。

本发明还提出一种计算机程序产品。

根据本发明第一方面实施例的异音检测方法，包括：

获取待测声音信号；

对所述待测声音信号进行特征提取，得到所述待测声音信号的特征向量；

将所述待测声音信号的特征向量输入异音检测模型，得到所述异音检测模型输出的所述待测声音信号的声音类别；

其中，所述待测声音信号的特征向量包括所述待测声音信号的频谱特征集和音频特征集，所述异音检测模型是基于样本声音信号、所述样本声音信号的特征向量以及所述样本声音信号对应的声音类别标签训练得到的。

根据本发明实施例的异音检测方法，能够通过对待测声音信号进行频谱特征和音频特征两方面的特征提取，获取具有丰富信息的特征向量后，利用经过大量特征向量训练后的异音检测模型进行识别，获得待测声音信号的声音类别。本发明实施例的方法可以避免生产线上人员长期听异音导致的听觉疲劳引发的漏听漏判现象，避免经验少的人员发生误听误判现象。有效降低对生产线上人员的依赖，避免岗位轮换带来的品质不稳定。

根据本发明的一个实施例，所述对所述待测声音信号进行特征提取，得到所述待测声音信号的特征向量，包括：

对所述待测声音信号进行切分，得到多个待测子音频；

对每个所述待测子音频提取进行特征提取，得到所述每个待测子音频的频谱特征集和音频特征集；

基于所述多个待测子音频的频谱特征集和音频特征集，得到所述待测声音信号的特征向量。

根据本发明的一个实施例，所述基于所述多个待测子音频的频谱特征集和音频特征集，得到所述待测声音信号的特征向量，包括：

确定每个待测子音频的频谱特征和音频特征的统计学指标；

基于所述多个待测子音频的频谱特征和音频特征的统计学指标，确定所述待测声音信号的特征向量。

根据本发明的一个实施例，所述异音检测模型的训练过程包括：

获取所述样本声音信号和所述样本声音信号的声音类别，所述声音类别包括正常和异常；

对所述样本声音信号进行特征提取，得到所述样本声音信号的特征向量；

将所述样本声音信号的特征向量作为样本，将所述样本声音信号对应的声音类别作为标签对分类网络进行训练，将训练好的分类网络确定为所述异音检测模型。

根据本发明的一个实施例，所述频谱特征集包括以下任一种特征或特征组合：

过零率、语音短时能量、能量熵、频谱质心、频谱延展度、频谱熵、频谱通量和频谱滚降点。

根据本发明的一个实施例，所述获取待测声音信号，包括：

获取设备条码；

采集获取到所述设备条码的时刻起固定时间间隔内的声音信号作为所述待测声音信号。

根据本发明的一个实施例，所述得到所述异音检测模型输出的所述待测声音信号的声音类别，之后还包括：

基于所述待测声音信号的声音类别，生成所述待测声音信号对应设备的质检结果；

基于所述待测声音信号对应设备的质检结果，确定异常设备以及所述异常设备的维修结果；

基于所述待测声音信号对应设备的质检结果和所述异常设备的维修结果，更新所述异音检测模型。

根据本发明的一个实施例，所述基于所述待测声音信号对应设备的质检结果和所述异常设备的维修结果，更新所述异音检测模型，包括：

基于所述待测声音信号对应设备的质检结果和所述异常设备的维修结果进行质检分析，确定所述异音检测模型的置信度；

基于所述异音检测模型的置信度对所述异音检测模型的模型参数进行修正，更新所述检测模块。

根据本发明的一个实施例，所述生成所述待测声音信号的质检结果，之后还包括：

生成可视化表达结果和提醒信息；

其中，所述可视化表达结果用于通过可视化方式展示所述待测声音信号的声音类别和所述待测声音信号对应设备的质检结果，所述提醒信息用于在确定所述待测声音信号对应的设备为异常设备时进行语音提醒和/或可视化提醒。

根据本发明的一个实施例，所述音频特征集包括以下任一种特征或特征组合：

梅尔倒谱系数、色度向量和色度系数的标准差。

根据本发明第二方面实施例的异音检测装置，包括：

采集模块，用于获取待测声音信号；

特征提取模块，用于对所述待测声音信号进行特征提取，得到所述待测声音信号的特征向量；

检测模块，用于将所述待测声音信号的特征向量输入异音检测模型，得到所述异音检测模型输出的所述待测声音信号的类别；

其中，所述待测声音信号的特征向量包括所述待测声音信号的频谱特征集和音频特征集，所述异音检测模型是基于样本声音信号的特征向量和声音类别经过训练得到的。

根据本发明实施例的异音检测装置，能够通过采集模块获取待测声音信号，通过特征提取模块对待测声音信号进行频谱特征和音频特征两方面的特征提取，获取具有丰富信息的特征向量后，利用检测模块的异音检测模型进行识别，获得待测声音信号的声音类别。本发明实施例的装置可以避免生产线上人员长期听异音导致的听觉疲劳引发的漏听漏判现象，避免经验少的人员发生误听误判现象。有效降低对生产线上人员的依赖，避免岗位轮换带来的品质不稳定。

根据本发明第三方面实施例的电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述异音检测方法的步骤。

根据本发明第四方面实施例的非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述异音检测方法的步骤。

根据本发明第五方面实施例的计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述异音检测方法的步骤。

本发明实施例中的上述一个或多个技术方案，至少具有如下技术效果之一：基于大量采集真实环境下的正常、异常产品运行声音的采集，建立对不同类型的声音识别的异音检测模型，从而形成在相同环境下新的产品运行声音状态的品质判断能力。

进一步的，通过提取特征集，在音频特征的基础上还选择了其他频谱特征表达出声音信号的丰富信息从而实现更精准的识别和分类。

更进一步的，通过信号切分可以避免声音信号太长影响处理速度的问题。

再进一步的，通过子音频信号计算得到统计学指标组成特征向量，可以将不同长度，不同采样率的音频文件统一转换成长度相同的特征向量，便于异音检测模型做音频类别的区分。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的异音检测方法的流程示意图；

图2是本发明实施例提供的噪音房内异音检测方法的流程示意图；

图3是本发明实施例提供的异音检测装置的结构示意图之一；

图4是本发明实施例提供的异音检测装置的结构示意图之二；

图5是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明，但不能用来限制本发明的范围。

在本发明实施例的描述中，需要说明的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明实施例的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明实施例的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明实施例中的具体含义。

在本发明实施例中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

下面结合附图和实施例对本发明请的实施方式作进一步详细描述。以下实施例用于说明本发明，但不能用来限制本发明的范围。

人工识别异音已经不能满足实际需求，原因包括如下几个方面：

(1)异音需要有相当丰富的经验才能准确识别。生产线工作人员存在一定的岗位流动性。新人的对异音的把握不准，从而可能造成误判现象。

(2)长期的在噪音房里听产品运转声音，对人的听觉势必造成一定的损伤，容易造成听力下降。

(3)反复的听异音，可能造成听觉疲劳。对产品的异音判断，可能由于流水线前后产品的运行声音区别而造成误判。

(4)对产品运行声音的判断，取决于人当时的工作状态。情绪、其他事情的干扰，可能造成判定结果的不稳定。

基于以上原因，需要某种方式将成熟、稳定的异音判断经验固化下来。本发明实施例的异音检测方法应运而生。如图1所示，方法至少包括如下步骤：

步骤101、获取待测声音信号；

步骤102、对待测声音信号进行特征提取，得到待测声音信号的特征向量；

步骤103、将待测声音信号的音频特征输入异音检测模型，得到异音检测模型输出的待测声音信号的声音类别；

其中，待测声音信号的特征向量包括待测声音信号的频谱特征集和音频特征集，异音检测模型是基于样本声音信号、样本声音信号的特征向量以及样本声音信号对应的声音类别标签训练得到的。

针对步骤101，需要说明的是，待测声音信号是通过噪音房采集，噪音房设置在生产车间的流水线上。采集待测声音信号时，将设备通过流水线的传送带运送进噪音房后，采集设备运行时的音频数据作为待测声音信号。设备可以是空调、洗衣机、压缩机等设备。在产品运行中，组装不良、零件松动、部件损坏等结构性问题所发出的声音和正常产品运行声音是不一致的。设备运行过程中会产生均匀的“嗡嗡”声，如设备运行出现异常，例如出现磨响震动声音或抖动产生的声音则视为异常。这些设备异常仅凭外观无法发掘。因此采集待测声音信号并进行声音分析可以识别机器运转时的异常响动，从而对产品内部质量做出诊断，弥补外观检测的不足。

针对步骤102，需要说明的是，由于待测声音信号中对待测声音信号进行特征提取时，需要提取两方面的特征，首先需要获取频谱特征集，频谱特征集能够反应待测声音信号的频域的基本信息，其次还需要提取音频特征集，音频特征集能够反应待测声音信号中基于人类听觉机理考虑的与音频相关的特征。这两种特征的结合能够使得本发明提取的特征能够对待测声音信号进行丰富的表达。

针对步骤103，需要说明的是，本发明实施例的异音检测模型利用机器学习算法，通过分析声音信号，对设备进行声纹质检，得到正常或异常的分析结果。其中异音检测模型可以选择任一个具有分类功能的神经网络模型。

本发明实施例的异音检测方法通过对待测声音信号进行频谱特征和音频特征两方面的特征提取，获取具有丰富信息的特征向量后，利用经过大量特征向量训练后的异音检测模型进行识别，获得待测声音信号的声音类别。本发明实施例的方法可以避免生产线上人员长期听异音导致的听觉疲劳引发的漏听漏判现象，避免经验少的人员发生误听误判现象。有效降低对生产线上人员的依赖，避免岗位轮换带来的品质不稳定。

可以理解的是，对待测声音信号进行特征提取，得到待测声音信号的特征向量，包括：

对待测声音信号进行切分，得到多个待测子音频；

对每个待测子音频提取进行特征提取，得到每个待测子音频的频谱特征集和音频特征集；

基于多个待测子音频的频谱特征集和音频特征集，得到待测声音信号的特征向量。

需要说明的是，对于音频信号进行采样时，由于采样率的限制，直接对采出的声音信号提取特征会导致处理速度大大降低。因此，音频特征提取的时候会先对整个音频进行切分以提高特征提取以及后续模型分类的处理速度。例如，可以将一段10s的声音信号切分成10个子音频，每个子音频为1s的片段，然后再对每个子音频提取特征。

可以理解的是，基于多个待测子音频的频谱特征集和音频特征集，得到待测声音信号的特征向量，包括：

确定每个待测子音频的频谱特征和音频特征的统计学指标；

基于多个待测子音频的频谱特征和音频特征的统计学指标，确定待测声音信号的特征向量。

需要说明的是，在本发明实施例中统计学指标选用均值和方差。因此，基于多个待测子音频的频谱特征和音频特征的统计学指标，即基于所有的待测子音频的每一种频谱特征，计算每种频谱特征的均值和方差，在基于所有的待测子音频的每一种音频特征，计算每种音频特征的均值和方差，最终获得包括所有子音频的均值和方差的数组。这种数据处理模式可以将不同长度，不同采样率的音频文件统一转换成长度相同的特征向量，在这个基础上可以再输入分类模型做音频类别的分类。

例如，对于待测声音信号，划分成10个待测子音频，再分别对每个待测子音频提取8个频谱特征和26个音频特征共34种特征后，分别针对每种频谱特征和每种音频特征计算均值和方差，最终得到68维的数列作为待测声音信号的特征向量。

可以理解的是，异音检测模型的训练过程包括：

获取样本声音信号和样本声音信号的声音类别，声音类别包括正常和异常；

对样本声音信号进行特征提取，得到样本声音信号的特征向量；

将样本声音信号的特征向量作为样本，将样本声音信号对应的声音类别作为标签对分类网络进行训练，将训练好的分类网络确定为异音检测模型。

需要说明的是，声音类别包括正常和异常，其中，异常还可以继续向下分类，例如由于装配问题引起的异常和由于零部件质量问题引起的异常。异音检测模型实质是一种声纹AI质检***，其基于大量采集真实环境下的正常、异常产品运行声音的采集，建立对不同类型的声音识别模型，从而形成在相同环境下新的产品运行声音状态的品质判断能力。

另外，需要说明的是，本发明实施例中分类网络选用的三层全连接层的DNN模型。模型神经元个数分别为64，32，16，激活函数使用线性激活函数relu，优化器使用参数为学习率0.001的Adam优化器，batch_size设置为32，训练50个epochs。在声音类别为识别压缩机划片音和正常音的二分类任务中，经过本方法训练得到的异音检测模型的检测准确率达到100％。

可以理解的是，频谱特征集包括以下任一种特征或特征组合：

需要说明的是，频谱特征集一般包括上述8种特征，由于本发明实施例是通过人工提取的特征，因此，特征的种类越多越能对信号进行全面表达。声音信号在采集的过程中，容易出现衰减和丢失，通过采集上述特征，可以提取到待测声音信号或者样本声音信号中丰富的信息，从而提高特征后续识别的精确性。具体的，各个频谱特征的含义为：

1、过零率(zero-crossing rate，ZCR)是指一个信号的符号变化的比率，例如信号从正数变成负数，或反过来。这个特征已在语音识别和音乐信息检索领域得到广泛使用，是分类敲击声的关键特征。在一些应用场景下，只统计“正向”或“负向”的变化，而不是所有的方向。

对于单声道的音调信号，过零率可以作为一个原始的基音检测算法。

2、语音短时能量(energy)是指计算较短时间内的语音能量。较短时间，通常指的是一帧。通常而言，短时能量用途有以下几个方面：区分清音和浊音；判定有声段和无声段；对声母和韵母分界；可以作为辅助的特征参数用于语音识别中，经常是声纹检测***中的一维特征。端点检测可以利用语音短时能量的前两个用途——将语音文件中的语音分离出来。由于短时能量是语音的时域特征，因此，语音短时能量就相当于每一帧中所有语音信号的平方和。

3、能量熵(Entropy of Energy)可以很好地对“信息量”进行定量描述，其基本思想是：发生概率低的事件，包含的信息量更高。信息熵越大，代表不确定性越大，信号中包含的信息量越少。能量熵的求法分为三步：

a.使用某种方法将原始信号进行分解，目前使用的分解方法是每10帧分解为一个子信号，如果整个音频信号的帧数不能被10整除，对末尾进行截断。

b.分别计算每个分解出来的分量的能量值(即平方和)。

c.计算每个分量的能量占总能量的比例，得到概率密度函数，将概率密度函数带入能量熵的公式中。

4、频谱质心(Spectral Centroid)，频谱质心是用于度量频谱中心的特征，该值越大，表示信号的高频成分越多。

5、频谱延展度(Spectral Spread)，又称为频谱二阶中心矩，它描述了信号在频谱中心周围的分布状况。

6、频谱熵(Spectral Entropy)，根据熵的特性可以知道，分布越均匀，熵越大，能量熵反应了每一帧信号的均匀程度，如说话人频谱由于共振峰存在显得不均匀，而白噪声的频谱就更加均匀。

7、频谱通量(Spectral Flux)，是指相邻帧频谱的变化情况。计算了频谱归一化之后，两帧频谱差的平方的总和

8、频谱滚降点(Spectral Rolloff)，由于频谱的能量在一定频率范围内是集中的。当频谱能量达到一确切百分比(通常为90％左右)，相应的DFT坐标即为滚降点的坐标。然后将滚降点坐标除以FFT长度归一化。

可以理解的是，音频特征集包括以下任一种特征或特征组合：

梅尔倒谱系数、色度向量和色度系数的标准差。

需要说明的是，有关于声音信号的特征提取在分析过程中，提取普遍性的频谱特征由于能适应多种场景，可能得到相对比较低的正确率，如果要进一步提高在某一音频场景下的预测正确率，要提取音频特征。梅尔倒谱系数是基于梅尔频谱提取得到的特征，通过梅尔频谱的非线性映射功能，可以使得不同类别声音信号的差异更加均衡，从而使得后续的异音检测模型获得更好的分类效果。而色度向量和色度系数的标准差能够突出声音信号中最具辨别力和影响力的特征，从而提高识别精度。具体的，各个音频特征的含义为：

9、梅尔倒谱系数(MFCCs)，基于人类听觉机理，在梅尔标度频率域提取出来的信号的倒谱参数，其主要通过人的听觉实验结果对音频信号进行分析。梅尔刻度是一种基于人耳对等距的音高pitch变化的感官判断而定的非线性频率刻度，提取MFCC特征的过程包括：分帧加窗预加重，快速傅里叶变换，取对数离散余弦变换，即可得到MFCC参数。由于语音和音乐的频谱大都分布在几赫兹到几千赫兹之间，高阶的MFCC参数包含的音频信息几乎可以忽略，因此可以提取前12阶的梅尔倒谱系数作为音频信号的特征参数。

10、色度向量(Chroma Vector)是一个含有12个元素的向量，这些元素分别代表一段时间(如1帧)内12个音级中的能量，不同八度的同一音级能量累加。

11、色度系数的标准差(Chroma Deviation)是12个色度系数的标准差。

可以理解的是，获取待测声音信号，包括：

获取设备条码；

采集获取到设备条码的时刻起固定时间间隔内的声音信号作为待测声音信号。

需要说明的是，设备条码通常通过固定在流水线噪音房的条码扫描装置获取，获取到设备条码的时刻起固定时间间隔内的，是指对应设备在流水线流转到该处时，设备上的条码被扫描装置捕捉后，会扫描该条码并触发麦克风开始采集声音。例如，在流水线上的设备经过条码采集装置时，自动采集1秒的音频并绑定该条码的信息并进行下一步分析。通过该采集方式，避免了人工采集声音信号的麻烦，同时也避免了直接以固定间隔采集声音信号对于***资源的浪费。

可以理解的是，得到异音检测模型输出的待测声音信号的声音类别，之后还包括：

基于待测声音信号的声音类别，生成待测声音信号对应设备的质检结果；

基于待测声音信号对应设备的质检结果，确定异常设备以及异常设备的维修结果；

基于待测声音信号对应设备的质检结果和异常设备的维修结果，更新异音检测模型。

需要说明的是，声音信号的类别一般为正常或异常，若某一音频信号被识别为异常，可以通过其声音异常的种类直接获取设备的质检结果，例如，待测声音信号被识别为异常的划片音，此时可以获得该空调压缩机的质检结果可以为装配距离过小。从而根据质检结果，可以将对应的异常设备进行维修，并通过维修确定判断出的异常是否为真实的异常情况。从而可以依据预测单异常情况和真实的异常情况，来衡量异音检测模型的准确度。并对其进行优化和更新，以获得更好的识别效果。

另外，需要说明的是，在获知异常设备后，可以有工控机通过控制程序控制分拣，将异常设备分拣至返修线进行维修，实现了自动化分拣和返修。

可以理解的是，基于待测声音信号对应设备的质检结果和异常设备的维修结果，更新异音检测模型，包括：

基于待测声音信号对应设备的质检结果和异常设备的维修结果进行质检分析，确定异音检测模型的置信度；

基于异音检测模型的置信度对异音检测模型的模型参数进行修正，更新异音检测模型。

需要说明的是，基于待测声音信号对应设备的质检结果和异常设备的维修结果进行质检分析是指依据云端存储的某一产品的工单号、机型、产品编号、检测时间、预测质检结果和缺陷类型，结合实际维修时的情况进行复验和对比，检查是否出现误判的情况。若出现误判则将降低异音检测模型的置信度，异音检测模型的置信度即就是它的误判率，误判率越高置信度越低，表明该模型的分类效果越差，因此质检分析可以避免训练集太少导致模型精度不足的缺陷，根据置信度的高低对模型参数进行相应修正可以提高异音检测模型的分类精度。

可以理解的是，生成待测声音信号的质检结果，之后还包括：

生成可视化表达结果和提醒信息；

其中，可视化表达结果用于通过可视化方式展示待测声音信号的声音类别和待测声音信号对应设备的质检结果，提醒信息用于在确定待测声音信号对应的设备为异常设备时进行语音提醒和/或可视化提醒。

需要说明的是，可视化表达结果可以通过可视化方式，例如电子显示屏，看板，手持PDA等，展示待测声音信号的声音类别和待测声音信号对应设备的质检结果，如声音类别为异常，质检结果为加热管螺钉未拧紧。提醒信息中，语音提醒为通过喇叭对异常情况进行实时播报，辅助巡查人员质检判断。可视化提醒可以为三色警示灯方式告知现场人员异音结果，这两种方式都能实现对于现场工作人员的即时提醒，保证工作效率和安全。方便班长、品质、巡检等人员，及时了解流水线各产品设备的品质现状，提供决策辅助。

可以理解的是，如图2所示，本发明实施例提供了一种在噪音房内对洗衣机进行异音检测方法的流程，包括：

①在噪音房内，通过固定在流水线的装置扫描条码后触发麦克风拾音，采集待测声音信号，基于待测声音信号生成音频文件发给声纹质检工控机；

②声纹质检工控机根据音频文件生成质检结果；

③声纹质检工控机将质检结果反馈给生产信息化管理***(MES)；通过MES***的过程质量控制(Process Quality Control，PQC)单元实现对异常洗衣机的分拣；

④将异常的洗衣机(NG)送入返修线进行维修，正常洗衣机(OK)继续在产线上流动，维修后记录维修结果，形成品质闭环；

⑤声纹质检工控机将存有的音频文件、质检结果和维修结果汇总并上传到云端存储，云端将进行质检分析和误判分析，并不断优化模型的识别能力；

⑥声纹质检工控机将质检结果即时反馈给产线人员，辅助其质检判断；

⑦声纹质检工控机将质检结果以看板形式也在线同步反馈给班长、品质、巡检等人员，供其了解品质现状，提供决策辅助。

下面对本发明提供的异音检测装置进行描述，下文描述的异音检测装置与上文描述的外包装建模方法可相互对应参照。如图3所示，异音检测装置，包括：

采集模块301，用于获取待测声音信号；

特征提取模块302，用于对待测声音信号进行特征提取，得到待测声音信号的特征向量；

检测模块303，用于将待测声音信号的特征向量输入异音检测模型，得到异音检测模型输出的待测声音信号的类别；

可以理解的是，特征提取模块302包括：

对待测声音信号进行切分，得到多个待测子音频；

确定每个待测子音频的频谱特征和音频特征的统计学指标；

可以理解的是，异音检测模型的训练过程包括：

基于样本声音信号的特征向量和样本声音信号的声音类别对分类网络进行训练，确定异音检测模型。

梅尔倒谱系数、色度向量和色度系数的标准差。

可以理解的是，采集模块包括：扫描子模块和拾音子模块；

扫描子模块用于通过扫描设备条码并触发拾音子模块；

拾音子模块用于通过麦克风拾音，获取待测声音信号。

需要说明的是，本发明实施例设置扫描子模块，扫描子模块是固定在流水线噪音房的条码扫描装置，对应产品在流水线流转到该处时，产品上的条码被扫描装置捕捉后，会扫描该条码并触发拾音子模块开始采集声音。拾音子模块是一个声纹采集装置，例如麦克风，声纹采集装置的采样率由产品类型决定，在前期由检测员设置。产品经过声纹采集装置时，自动采集1秒的音频并绑定条码，发送到总控模块进行分析。具体的，产品经过采集模块时，自动采集1秒的音频并绑定条码，发送到现场工控机进行分析。获取质检结果，一方面反馈到产线看板，另一方面将质检结果告知现场人员，并控制产线将该条码产品自动输送到返修线。

本发明实施例的装置，通过扫描子模块和拾音子模块的设置，使得装置采集模块，具备自动触发功能，降低了人员的参与度。

具体的，拾音子模块外设置有隔音帘，可以有效减少采集模块采集到无关噪音。

可以理解的是，如图4所示，装置还包括：

总控模块，用于根据检测模块输出的待测声音信号的类别，生成待测声音信号的质检结果；

分拣模块，用于根据总控模块生成的待测声音信号的质检结果，将异常设备分拣至返修线进行维修，记录异常设备的维修结果；

存储分析模块，用于存储总控模块生成的待测声音信号的质检结果和分拣模块记录的异常设备的维修结果；

显示模块，用于将总控模块生成的质检结果进行可视化展示。

需要说明的是，总控模块可以是一种声纹质检工控机，其具备信息接收、存储、显示和发送的功能。分拣模块对应MES***的PQC单元，实际为一种控制产品分拣的路由。总控模块可以控制分拣模块将生产线上出现异常的产品自动输送到返修线。存储分析模块一般设置在云端，显示模块可以是一种显示器或看板，质检结果可以通过该方式反馈给班长、品质、巡检等人员，供其了解品质现状，提供决策辅助。

本发明实施例的异音检测装置，基于大量采集真实环境下的正常、异常产品运行声音的采集，建立对不同类型的声音识别模型，从而形成在相同环境下新的产品运行声音状态的品质判断能力。全程不需要人员操作即能实现产品质检、反馈提示、产品分拣、数据分析与统计功能。

可以理解的是，存储分析模块还用于：

基于待测声音信号的质检结果和异常设备的维修结果进行质检分析，确定异音检测模型的置信度；

基于异音检测模型的置信度对异音检测模型的模型参数进行修正，更新检测模块。

需要说明的是，基于待测声音信号的质检结果和异常设备的维修结果进行质检分析是指依据云端存储的某一产品的工单号、机型、产品编号、检测时间、质检结果和缺陷类型，进行复验和对比，检查是否出现误判的情况。若出现误判则将降低异音检测模型的置信度，异音检测模型的置信度即就是它的误判率，误判率越高置信度越低，表明该模型的分类效果越差，因此质检分析可以避免训练集太少导致模型精度不足的缺陷，根据置信度的高低对模型参数进行相应修正可以提高检测模块的分类精度。显示模块除了上述功能外，还可以依托工控机将质检分析结果以三色警示灯方式告知现场人员异音结果，实现即时提醒。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行如下方法：

获取待测声音信号；

对待测声音信号进行特征提取，得到待测声音信号的特征向量；

将待测声音信号的音频特征输入异音检测模型，得到异音检测模型输出的待测声音信号的声音类别；

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例公开一种计算机程序产品，计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：

获取待测声音信号；

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：

获取待测声音信号；

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是，以上实施方式仅用于说明本发明，而非对本发明的限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行各种组合、修改或者等同替换，都不脱离本发明技术方案的精神和范围，均应涵盖在本发明的范围中。

Claims

1.一种异音检测方法，其特征在于，包括：

获取待测声音信号；

将所述待测声音信号的音频特征输入异音检测模型，得到所述异音检测模型输出的所述待测声音信号的声音类别；

2.根据权利要求1所述的异音检测方法，其特征在于，所述对所述待测声音信号进行特征提取，得到所述待测声音信号的特征向量，包括：

对所述待测声音信号进行切分，得到多个待测子音频；

3.根据权利要求2所述的异音检测方法，其特征在于，所述基于所述多个待测子音频的频谱特征集和音频特征集，得到所述待测声音信号的特征向量，包括：

确定每个待测子音频的频谱特征和音频特征的统计学指标；

4.根据权利要求1至3任一所述的异音检测方法，其特征在于，所述异音检测模型的训练过程包括：

5.根据权利要求1至3任一所述的异音检测方法，其特征在于，所述频谱特征集包括以下任一种特征或特征组合：

6.根据权利要求1至3任一所述的异音检测方法，其特征在于，所述音频特征集包括以下任一种特征或特征组合：

梅尔倒谱系数、色度向量和色度系数的标准差。

7.根据权利要求1至3任一所述的异音检测方法，其特征在于，所述获取待测声音信号，包括：

获取设备条码；

8.根据权利要求1至3任一所述的异音检测方法，其特征在于，所述得到所述异音检测模型输出的所述待测声音信号的声音类别，之后还包括：

9.根据权利要求8所述的异音检测方法，其特征在于，所述基于所述待测声音信号对应设备的质检结果和所述异常设备的维修结果，更新所述异音检测模型，包括：

10.根据权利要求8所述的异音检测方法，其特征在于，所述生成所述待测声音信号的质检结果，之后还包括：

生成可视化表达结果和提醒信息；

11.一种异音检测装置，其特征在于，包括：

采集模块，用于获取待测声音信号；

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至10任一项所述异音检测方法。

13.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至10任一项所述异音检测方法。

14.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述异音检测方法。