CN113766405A - 扬声器的杂音检测方法、装置、电子设备和存储介质 - Google Patents

扬声器的杂音检测方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113766405A
CN113766405A CN202110833182.0A CN202110833182A CN113766405A CN 113766405 A CN113766405 A CN 113766405A CN 202110833182 A CN202110833182 A CN 202110833182A CN 113766405 A CN113766405 A CN 113766405A
Authority
CN
China
Prior art keywords
noise
audio signal
scales
scale
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110833182.0A
Other languages
English (en)
Inventor
宋广伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Wingtech Information Technology Co Ltd
Shanghai Wentai Information Technology Co Ltd
Original Assignee
Shanghai Wingtech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Wingtech Information Technology Co Ltd filed Critical Shanghai Wingtech Information Technology Co Ltd
Priority to CN202110833182.0A priority Critical patent/CN113766405A/zh
Priority to PCT/CN2021/115791 priority patent/WO2023000444A1/zh
Publication of CN113766405A publication Critical patent/CN113766405A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请涉及人工智能技术领域,提供了一种扬声器的杂音检测方法、装置、电子设备和存储介质。所述方法包括:采集扬声器中的音频信号;将所述音频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个特征;根据所述多个特征生成融合特征,并根据预训练的分类模型确定所述融合特征的概率;若所述概率大于等于阈值,则确定所述音频信号包含杂音;若所述概率小于所述阈值,则确定所述音频信号不包含杂音。采用本方法能够提高杂音检测准确率和处理效率。

Description

扬声器的杂音检测方法、装置、电子设备和存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种扬声器的杂音检测方法、装置、电子设备和存储介质。
背景技术
微型扬声器作为电子设备中的音频输出关键器件,随着智能音箱、平板电脑、手机等智能硬件的应用得到广泛使用。在微型扬声器生产过程中,杂音检测技术成为决定生产质量的关键因素,杂音检测方法的准确性及高效性要求也越来越严格。
相关技术中,通过硬件检测***进行杂音检测,具体运用音频信号发生器激励微型扬声器,通过仿真耳获取声压信号,声压信号经过A/D转换、数据采集卡传至计算机,进而计算各个频率点上的Rub值、提取特征并通过经验阈值裁决进行检测识别。该方案中,由测试人员根据测试多个信号人为选取各个频率点上杂音存在判决阈值,对于精度要求较高的杂音检测场景,该判决阈值难以设定,检测准确度有待提高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高杂音检测准确率和处理效率的扬声器的杂音检测方法、装置、电子设备和存储介质。
本申请实施例提供了一种扬声器的杂音检测方法,所述方法包括:
采集扬声器中的音频信号;
将所述音频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个特征;
根据所述多个特征生成融合特征,并根据预训练的分类模型确定所述融合特征的概率;
若所述概率大于等于阈值,则确定所述音频信号包含杂音;
若所述概率小于所述阈值,则确定所述音频信号不包含杂音。
在一个实施例中,所述方法还包括:
获取包含杂音的扫频信号和不包含杂音的扫频信号;
将扫频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个样本特征;
将所述多个样本特征融合生成样本融合特征,并确定所述样本融合特征的预测概率;
根据所述预测概率和扫频信号的标注值训练分类模型。
在一个实施例中,所述多个尺度包括第一尺度、第二尺度和第三尺度,且所述第一尺度小于所述第二尺度,所述第二尺度小于所述第三尺度,所述将所述音频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个特征包括:
将所述音频信号分别在所述第一尺度、所述第二尺度和所述第三尺度上进行卷积,以提取所述音频信号在时域上与所述第一尺度、所述第二尺度和所述第三尺度对应的第一特征、第二特征和第三特征。
在一个实施例中,所述方法还包括:
对所述扬声器中的音频信号进行归一化处理;
确定音频信号采样率的原始值和目标值,并将归一化处理后的音频信号的采样率由所述原始值降低至所述目标值。
在一个实施例中,所述融合特征的概率通过如下方式计算得到:
Figure BDA0003176282450000021
其中,zk表示全连接层的第k个值,
Figure BDA0003176282450000022
表示含有杂音的音频样本向量,
Figure BDA0003176282450000023
表示不含杂音的音频样本向量。
在一个实施例中,卷积层的计算公式如下:
Figure BDA0003176282450000031
其中,i表示第i层卷积层,δ为激活函数,X表示音频信号,w表示卷积层权重,b表示卷积层偏置。
在一个实施例中,所述方法还包括:
采用最邻近算法,对每一包含杂音的扫频信号计算得到多个近邻;
对所述多个近邻中的任意两个进行随机线性插值,以生成包含杂音的仿真扫频信号;
重复上述步骤,直至所述包含杂音的扫频信号的数量与所述包含杂音的仿真扫频信号的数量之和,与所述不包含杂音的扫频信号的数量相等。
本申请实施例提供了一种扬声器的杂音检测装置,所述装置包括:
采集模块,用于采集扬声器中的音频信号;
提取模块,用于将所述音频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个特征;
生成模块,用于根据所述多个特征生成融合特征,并根据预训练的分类模型确定所述融合特征的概率;
第一确定模块,用于若所述概率大于等于阈值,则确定所述音频信号包含杂音;
第二确定模块,用于若所述概率小于所述阈值,则确定所述音频信号不包含杂音。
本申请实施例提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请任意实施例所提供的扬声器的杂音检测方法的步骤。
本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请任意实施例所提供的扬声器的杂音检测方法的步骤。
本申请实施例提供的技术方案与现有技术相比具有如下优点:
通过将扬声器中的音频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个特征,进而,根据多个特征生成融合特征,并根据预训练的分类模型确定融合特征的概率,根据概率确定音频信号是否包含杂音,由此,能够挖掘音频信号在时域上不同尺度上的融合特征信息,并通过计算概率判断是否含有杂音,提升特征信息检测准确率,在测试端减小了计算的复杂度,提高了杂音检测处理效率和检测准确率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种扬声器的杂音检测方法的流程示意图;
图2为本申请实施例所提供的一种模型训练的流程示意图;
图3为本申请实施例所提供的一种杂音检测流程图;
图4为本申请实施例所提供的一种扬声器的杂音检测装置的结构示意图;
图5为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种扬声器的杂音检测方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的***,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤102,采集扬声器中的音频信号。
本申请实施例的方法,可以用于检测扬声器中的音频信号是否包含杂音。具体的,可以用于微型扬声器的杂音检测。微型扬声器例如是智能音箱、平板电脑、手机等智能硬件的音频输出器件,微型扬声器由盆架、磁钢、极片、音膜、音圈、前盖、接线板、阻尼布等构成。
其中,音频信号可以是20-20KHz标准扫频信号,也可以是语音、音乐等。
在本身申请的一个实施例中,在采集扬声器中的音频信号后,可以对音频信号进行预处理,具体的,可以对扬声器中的音频信号进行归一化处理,通过归一化处理将音频信号映射到(0,1),使得测试集均在同一量纲下,减小计算量的同时避免了量纲不一致而导致的测试结果异常。进而,确定音频信号采样率的原始值和目标值,并将归一化处理后的音频信号的采样率由原始值降低至目标值。其中,原始值大于目标值,举例而言,音频信号的采样率原始值为采样率为48KHz,通过降采样将音频信号由原始的采样率降低为5KHz,由于微型扬声器的杂音通常为中低频杂音,且人耳的正常听力频率范围为20Hz~2000Hz,通过降采样,使得音频信号采样率一致采样率在人耳听力范围内的同时,减小了数据量,提升了检测效率。
步骤104,将音频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个特征。
本申请实施例中,可以设置不同大小的多个尺度,将音频信号分别在多个尺度上进行卷积,生成多个特征,以实现提取音频信号在时域上的不同尺度特征信息。
其中,尺度是指卷积核尺度。
作为一种示例,多个尺度包括第一尺度、第二尺度和第三尺度,且第一尺度小于第二尺度,第二尺度小于第三尺度。本示例中,将音频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个特征包括:将音频信号分别在第一尺度、第二尺度和第三尺度上进行卷积,以提取音频信号在时域上与第一尺度、第二尺度和第三尺度分别对应的第一特征、第二特征和第三特征。
可选的,上述卷积操作通过卷积层实现,卷积层的计算公式如下:
Figure BDA0003176282450000061
其中,i表示第i层卷积层,δ为激活函数,X表示音频信号,w表示卷积层权重,b表示卷积层偏置。
步骤106,根据多个特征生成融合特征,并根据预训练的分类模型确定融合特征的概率。
本实施例中,将与多个尺度分别对应的多个特征进行融合处理,以生成融合特征。
作为一种示例,以多个尺度包括第一尺度、第二尺度和第三尺度为例,将第一特征、第二特征和第三特征进行融合,合并为一维特征,将该一维特征作为融合特征。
其中,分类模型是根据包含杂音的音频信号和不包含杂音的音频信号作为训练样本进行训练得到的,该预训练的分类模型输入为融合特征,输出为融合特征的概率,融合特征的概率用于指示音频信号包含杂音的概率。
在本申请的一个实施例中,分类模型包括全连接层和杂音检测函数,杂音检测函数可以是softmax函数。可选的,融合特征的概率通过如下方式计算得到:
Figure BDA0003176282450000062
其中,zk表示全连接层的第k个值,
Figure BDA0003176282450000063
表示含有杂音的音频样本向量,
Figure BDA0003176282450000064
表示不含杂音的音频样本向量。
步骤108,若概率大于等于阈值,则确定音频信号包含杂音;若概率小于阈值,则确定音频信号不包含杂音。
本实施例中,可以根据融合特征的概率确定音频信号是否包含杂音。作为一种示例,阈值为0.5,若分类模型输出的概率大于等于0.5,则确定音频信号包含杂音,否则确定音频信号不包含杂音。
需要说明的是,上述在概率大于等于阈值时确定音频信号包含杂音的实现方式仅为一种示例,具体判断逻辑可根据训练端确定,此处不作限制。
根据本申请实施例的扬声器的杂音检测方法,通过将扬声器中的音频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个特征,进而,根据多个特征生成融合特征,并根据预训练的分类模型确定融合特征的概率,根据概率确定音频信号是否包含杂音,由此,能够挖掘音频信号在时域上不同尺度上的融合特征信息,并通过计算概率判断是否含有杂音,提升特征信息检测准确率,在测试端减小了计算的复杂度,相关技术中的硬件检测方案对于音频信号发生器的设备精度要求较高,且判决阈值难以设定、检测耗时长,本申请相比于相关技术中的方案减少了因人为选取阈值不当而导致的判断错误的情况,提高了杂音检测处理效率和检测准确率。
基于上述实施例,下面对训练端进行说明。
图2为本申请实施例所提供的一种模型训练的流程示意图,如图2所示,包括以下步骤:
步骤202,获取包含杂音的扫频信号和不包含杂音的扫频信号。
本实施例中,可以采集微型扬声器播放的含有杂音的扫频信号及不含有杂音的扫频信号,以将采集的扫频信号作为训练集,输入到构建的含有不同尺度和步长的卷积核的卷积神经网络中并行训练。
在本申请的一个实施例中,在获取包含杂音的扫频信号和不包含杂音的扫频信号后,可以对包含杂音的扫频信号和不包含杂音的扫频信号进行预处理,具体的,可以对扫频信号进行归一化处理,通过归一化处理将扫频信号映射到(0,1)。进而,确定扫频信号采样率的原始值和目标值,并将归一化处理后的扫频信号的采样率由原始值降低至目标值,其中,原始值大于目标值。
步骤204,将扫频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个样本特征。
本申请实施例中,可以设置不同大小的多个尺度,将扫频信号(包括含有杂音的扫频信号和不含有杂音的扫频信号)分别在多个尺度上进行卷积,生成多个特征,以实现提取音频信号在时域上的不同尺度特征信息。
其中,尺度是指卷积核尺度。
作为一种示例,多个尺度包括第一尺度K1、第二尺度K2和第三尺度K3,且第一尺度K1小于第二尺度K2,第二尺度K2小于第三尺度K3。将扫频信号分别在第一尺度K1、第二尺度K2和第三尺度K3上进行三次卷积,以提取扫频信号在时域上与第一尺度K1、第二尺度K2和第三尺度K3分别对应的第一样本特征、第二样本特征和第三样本特征。
其中,对于卷积核还可以设置多个步长。举例而言,多个步长包括第一步长S1、第二步长S2和第三步长S3,且第一步长S1小于第二步长S2,第二步长S2小于第三步长S3。由此,能够提取扫频信号在时域上长度由小到大的特征信息。
可选的,上述卷积操作通过卷积层实现,卷积层的计算公式如下:
Figure BDA0003176282450000081
其中,i表示第i层卷积层,δ为激活函数,X表示音频信号,w表示卷积层权重,b表示卷积层偏置。
步骤206,将多个样本特征融合生成样本融合特征,并确定样本融合特征的预测概率。
本实施例中,将多个样本特征进行融合处理,并合并为一维特征,以生成样本融合特征。
作为一种示例,以多个尺度包括第一尺度、第二尺度和第三尺度为例,将第一样本特征、第二样本特征和第三样本特征进行融合,合并为一维特征,将该一维特征作为样本融合特征。
在本申请的一个实施例中,分类模型包括全连接层和杂音检测函数,杂音检测函数可以是softmax函数。可选的,样本融合特征的预测概率通过如下方式计算得到:
Figure BDA0003176282450000091
其中,zk表示全连接层的第k个值,
Figure BDA0003176282450000092
表示含有杂音的音频样本向量,
Figure BDA0003176282450000093
表示不含杂音的音频样本向量。
步骤208,根据预测概率和扫频信号的标注值训练分类模型。
本实施例中,每一扫频信号对应一个标注值,例如包含杂音的扫频信号对应标注值为1,不包含杂音的扫频信号对应标注值为0。根据预设的损失函数、预测概率和标注值计算损失值,并通过反向传播的方式更新模型的处理参数,直至模型收敛及准确率大于预设值,以使分类模型能够准确预测出音频信号是否包含杂音。
可选的,可以构建多尺度端到端的卷积神经网络,其中,该卷积神经网络包括卷积层、全连接层和杂音检测函数,并通过训练集对该卷积神经网络进行训练,在模型收敛及准确率大于预设值的情况下,保存训练好的卷积神经网络模型。该卷积神经网络模型用于确定输入的音频信号是否包含杂音。
需要说明的是,模型的输入也可以是微型扬声器播放的音频信号的其他声学特征,如频谱、对数梅尔谱等。
本申请实施例中,通过包含杂音的扫频信号和不包含杂音的扫频信号提取在时域上不同尺度上的融合特征信息,并通过样本融合特征的预测概率和扫频信号的标注值训练模型,使模型能够准确判断音频信号是否含有杂音。进一步,将预训练的模型应用于扬声器中的音频信号杂音检测,提高了杂音检测处理效率和检测准确率。
在本申请的一个实施例中,由于采集的微型扬声器播放的含有杂音的扫频信号及不含有杂音的扫频信号通常数量严重不均衡,因此,可以通过如下方式构建训练集:采用最邻近算法,对每一包含杂音的扫频信号计算得到多个近邻,对多个近邻中的任意两个进行随机线性插值,以生成包含杂音的仿真扫频信号;重复上述步骤,直至包含杂音的扫频信号的数量与包含杂音的仿真扫频信号的数量之和,与不包含杂音的扫频信号的数量相等。
作为一种示例,其中,采集的微型扬声器播放的含有杂音的扫频信号及不含有杂音的扫频信号(即产线测试中的非良品和良品),数量分别为90和3600个,由于比例严重不均衡,因此本申请对90个非良品进行处理,生成与良品数量对等的仿真非良品,其步骤如下:采样最邻近算法,计算出每个非良品样本的5个近邻,从5个近邻中随机挑选2个非良品样本进行随机线性插值;构造新的仿真非良品样本,将新样本与原数据合成,产生新的训练集。
其中,新的数据集样本数为7200(含3600个良品和3600个非良品),按照4:1对数据集进行划分,得到测试集和验证集,采用one-hot编码,将良品和非良品分别标记为“1”和“0”,并利用训练集对上述的多尺度端到端卷积神经网络进行训练,经过反复迭代更新模型参数,使得达到收敛后,输出训练好的模型,并利用验证集进行评估,输出检测结果。作为一种示例,图3为本申请实施例所提供的一种杂音检测场景的流程图。
应该理解的是,虽然图1-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种扬声器的杂音检测装置,包括:采集模块41,提取模块42,生成模块43,第一确定模块44,第二确定模块45。
其中,采集模块41,用于采集扬声器中的音频信号。
提取模块42,用于将音频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个特征。
生成模块43,用于根据多个特征生成融合特征,并根据预训练的分类模型确定融合特征的概率。
第一确定模块44,用于若概率大于等于阈值,则确定音频信号包含杂音。
第二确定模块45,用于若概率小于所述阈值,则确定音频信号不包含杂音。
在一个实施例中,该装置还包括:训练模块,用于获取包含杂音的扫频信号和不包含杂音的扫频信号;将扫频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个样本特征;将多个样本特征融合生成样本融合特征,并确定样本融合特征的预测概率;根据预测概率和扫频信号的标注值训练分类模型。
在一个实施例中,多个尺度包括第一尺度、第二尺度和第三尺度,且第一尺度小于第二尺度,第二尺度小于第三尺度,提取模块42具体用于:将音频信号分别在第一尺度、第二尺度和第三尺度上进行卷积,以提取音频信号在时域上与第一尺度、第二尺度和第三尺度对应的第一特征、第二特征和第三特征。
在一个实施例中,该装置还包括:预处理模块,用于对扬声器中的音频信号进行归一化处理;确定音频信号采样率的原始值和目标值,并将归一化处理后的音频信号的采样率由原始值降低至目标值。
在一个实施例中,融合特征的概率通过如下方式计算得到:
Figure BDA0003176282450000111
其中,zk表示全连接层的第k个值,
Figure BDA0003176282450000112
表示含有杂音的音频样本向量,
Figure BDA0003176282450000121
表示不含杂音的音频样本向量。
在一个实施例中,卷积层的计算公式如下:
Figure BDA0003176282450000122
其中,i表示第i层卷积层,δ为激活函数,X表示音频信号,w表示卷积层权重,b表示卷积层偏置。
在一个实施例中,该装置还包括:获取模块,用于采用最邻近算法,对每一包含杂音的扫频信号计算得到多个近邻;对多个近邻中的任意两个进行随机线性插值,以生成包含杂音的仿真扫频信号;重复上述步骤,直至包含杂音的扫频信号的数量与包含杂音的仿真扫频信号的数量之和,与不包含杂音的扫频信号的数量相等。
关于扬声器的杂音检测装置的具体限定可以参见上文中对于扬声器的杂音检测方法的限定,具备执行方法相应的功能模块和有益效果,在此不再赘述。上述扬声器的杂音检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种电子设备,该电子设备可以是终端,其内部结构图可以如图5所示。该电子设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该计算机程序被处理器执行时以实现一种扬声器的杂音检测方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的扬声器的杂音检测装置可以实现为一种计算机程序的形式,计算机程序可在如图5所示的电子设备上运行。电子设备的存储器中可存储组成该扬声器的杂音检测装置的各个程序模块,比如,图4所示的采集模块41,提取模块42,生成模块43,第一确定模块44,第二确定模块45。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的扬声器的杂音检测方法中的步骤。
例如,图5所示的电子设备可以通过如图4所示的扬声器的杂音检测装置中的采集模块41执行采集扬声器中的音频信号。电子设备可以通过提取模块42执行将音频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个特征。电子设备可以通过生成模块43执行根据多个特征生成融合特征,并根据预训练的分类模型确定融合特征的概率。电子设备可以通过第一确定模块44执行若概率大于等于阈值,则确定音频信号包含杂音。电子设备可以通过第二确定模块45执行若概率小于阈值,则确定音频信号不包含杂音
在一个实施例中,提供了一种电子设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:采集扬声器中的音频信号;将音频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个特征;根据多个特征生成融合特征,并根据预训练的分类模型确定融合特征的概率;若概率大于等于阈值,则确定音频信号包含杂音;若概率小于阈值,则确定音频信号不包含杂音。
在一个实施例中,该处理器执行计算机程序时还可以实现以下步骤:获取包含杂音的扫频信号和不包含杂音的扫频信号;将扫频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个样本特征;将多个样本特征融合生成样本融合特征,并确定样本融合特征的预测概率;根据预测概率和扫频信号的标注值训练分类模型。
在一个实施例中,该处理器执行计算机程序时还可以实现以下步骤:将音频信号分别在第一尺度、第二尺度和第三尺度上进行卷积,以提取音频信号在时域上与第一尺度、第二尺度和第三尺度对应的第一特征、第二特征和第三特征。
在一个实施例中,该处理器执行计算机程序时还可以实现以下步骤:对扬声器中的音频信号进行归一化处理;确定音频信号采样率的原始值和目标值,并将归一化处理后的音频信号的采样率由原始值降低至目标值。
在一个实施例中,该处理器执行计算机程序时还可以实现以下步骤:采用最邻近算法,对每一包含杂音的扫频信号计算得到多个近邻;对多个近邻中的任意两个进行随机线性插值,以生成包含杂音的仿真扫频信号;重复上述步骤,直至包含杂音的扫频信号的数量与包含杂音的仿真扫频信号的数量之和,与不包含杂音的扫频信号的数量相等。
根据本申请实施例的电子设备,通过处理器执行计算机程序时实现以下步骤,将扬声器中的音频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个特征,进而,根据多个特征生成融合特征,并根据预训练的分类模型确定融合特征的概率,根据概率确定音频信号是否包含杂音,由此,能够挖掘音频信号在时域上不同尺度上的融合特征信息,并通过计算概率判断是否含有杂音,提升特征信息检测准确率,在测试端减小了计算的复杂度,提高了杂音检测处理效率和检测准确率。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:采集扬声器中的音频信号;将音频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个特征;根据多个特征生成融合特征,并根据预训练的分类模型确定融合特征的概率;若概率大于等于阈值,则确定音频信号包含杂音;若概率小于阈值,则确定音频信号不包含杂音。
在一个实施例中,计算机程序被处理器执行时还可以实现以下步骤:获取包含杂音的扫频信号和不包含杂音的扫频信号;将扫频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个样本特征;将多个样本特征融合生成样本融合特征,并确定样本融合特征的预测概率;根据预测概率和扫频信号的标注值训练分类模型。
在一个实施例中,计算机程序被处理器执行时还可以实现以下步骤:将音频信号分别在第一尺度、第二尺度和第三尺度上进行卷积,以提取音频信号在时域上与第一尺度、第二尺度和第三尺度对应的第一特征、第二特征和第三特征。
在一个实施例中,计算机程序被处理器执行时还可以实现以下步骤:对扬声器中的音频信号进行归一化处理;确定音频信号采样率的原始值和目标值,并将归一化处理后的音频信号的采样率由原始值降低至目标值。
在一个实施例中,计算机程序被处理器执行时还可以实现以下步骤:采用最邻近算法,对每一包含杂音的扫频信号计算得到多个近邻;对多个近邻中的任意两个进行随机线性插值,以生成包含杂音的仿真扫频信号;重复上述步骤,直至包含杂音的扫频信号的数量与包含杂音的仿真扫频信号的数量之和,与不包含杂音的扫频信号的数量相等。
根据本申请实施例的计算机可读存储介质,通过其上存储的计算机程序被处理器执行时实现以下步骤,将扬声器中的音频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个特征,进而,根据多个特征生成融合特征,并根据预训练的分类模型确定融合特征的概率,根据概率确定音频信号是否包含杂音,由此,能够挖掘音频信号在时域上不同尺度上的融合特征信息,并通过计算概率判断是否含有杂音,提升特征信息检测准确率,在测试端减小了计算的复杂度,提高了杂音检测处理效率和检测准确率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,比如静态随机存取存储器(Static Random Access Memory,SRAM)和动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种扬声器的杂音检测方法,其特征在于,包括:
采集扬声器中的音频信号;
将所述音频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个特征;
根据所述多个特征生成融合特征,并根据预训练的分类模型确定所述融合特征的概率;
若所述概率大于等于阈值,则确定所述音频信号包含杂音;
若所述概率小于所述阈值,则确定所述音频信号不包含杂音。
2.如权利要求1所述的方法,其特征在于,还包括:
获取包含杂音的扫频信号和不包含杂音的扫频信号;
将扫频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个样本特征;
将所述多个样本特征融合生成样本融合特征,并确定所述样本融合特征的预测概率;
根据所述预测概率和扫频信号的标注值训练分类模型。
3.如权利要求1或2所述的方法,其特征在于,所述多个尺度包括第一尺度、第二尺度和第三尺度,且所述第一尺度小于所述第二尺度,所述第二尺度小于所述第三尺度,所述将所述音频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个特征包括:
将所述音频信号分别在所述第一尺度、所述第二尺度和所述第三尺度上进行卷积,以提取所述音频信号在时域上与所述第一尺度、所述第二尺度和所述第三尺度对应的第一特征、第二特征和第三特征。
4.如权利要求1或2所述的方法,其特征在于,还包括:
对所述扬声器中的音频信号进行归一化处理;
确定音频信号采样率的原始值和目标值,并将归一化处理后的音频信号的采样率由所述原始值降低至所述目标值。
5.如权利要求1或2所述的方法,其特征在于,所述融合特征的概率通过如下方式计算得到:
Figure FDA0003176282440000021
其中,zk表示全连接层的第k个值,
Figure FDA0003176282440000022
表示含有杂音的音频样本向量,
Figure FDA0003176282440000023
表示不含杂音的音频样本向量。
6.如权利要求3所述的方法,其特征在于,卷积层的计算公式如下:
Figure FDA0003176282440000024
其中,i表示第i层卷积层,δ为激活函数,X表示音频信号,w表示卷积层权重,b表示卷积层偏置。
7.如权利要求2所述的方法,其特征在于,还包括:
采用最邻近算法,对每一包含杂音的扫频信号计算得到多个近邻;
对所述多个近邻中的任意两个进行随机线性插值,以生成包含杂音的仿真扫频信号;
重复上述步骤,直至所述包含杂音的扫频信号的数量与所述包含杂音的仿真扫频信号的数量之和,与所述不包含杂音的扫频信号的数量相等。
8.一种扬声器的杂音检测装置,其特征在于,包括:
采集模块,用于采集扬声器中的音频信号;
提取模块,用于将所述音频信号分别在多个尺度上进行卷积,生成与多个尺度对应的多个特征;
生成模块,用于根据所述多个特征生成融合特征,并根据预训练的分类模型确定所述融合特征的概率;
第一确定模块,用于若所述概率大于等于阈值,则确定所述音频信号包含杂音;
第二确定模块,用于若所述概率小于所述阈值,则确定所述音频信号不包含杂音。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202110833182.0A 2021-07-22 2021-07-22 扬声器的杂音检测方法、装置、电子设备和存储介质 Pending CN113766405A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110833182.0A CN113766405A (zh) 2021-07-22 2021-07-22 扬声器的杂音检测方法、装置、电子设备和存储介质
PCT/CN2021/115791 WO2023000444A1 (zh) 2021-07-22 2021-08-31 扬声器的杂音检测方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110833182.0A CN113766405A (zh) 2021-07-22 2021-07-22 扬声器的杂音检测方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113766405A true CN113766405A (zh) 2021-12-07

Family

ID=78787853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110833182.0A Pending CN113766405A (zh) 2021-07-22 2021-07-22 扬声器的杂音检测方法、装置、电子设备和存储介质

Country Status (2)

Country Link
CN (1) CN113766405A (zh)
WO (1) WO2023000444A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627891A (zh) * 2022-05-16 2022-06-14 山东捷瑞信息技术产业研究院有限公司 一种动圈扬声器质量检测方法和装置
CN115334438A (zh) * 2022-08-01 2022-11-11 厦门东声电子有限公司 一种电声器件发声质量检测方法、***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109346102A (zh) * 2018-09-18 2019-02-15 腾讯音乐娱乐科技(深圳)有限公司 音频开头爆音的检测方法、装置及存储介质
CN110222218A (zh) * 2019-04-18 2019-09-10 杭州电子科技大学 基于多尺度NetVLAD和深度哈希的图像检索方法
WO2020248376A1 (zh) * 2019-06-14 2020-12-17 平安科技(深圳)有限公司 情绪检测方法、装置、电子设备及存储介质
CN112232258A (zh) * 2020-10-27 2021-01-15 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN112966778A (zh) * 2021-03-29 2021-06-15 上海冰鉴信息科技有限公司 针对不平衡样本数据的数据处理方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711281B (zh) * 2018-12-10 2023-05-02 复旦大学 一种基于深度学习的行人重识别与特征识别融合方法
KR102650138B1 (ko) * 2018-12-14 2024-03-22 삼성전자주식회사 디스플레이장치, 그 제어방법 및 기록매체
CN112199548B (zh) * 2020-09-28 2024-07-19 华南理工大学 一种基于卷积循环神经网络的音乐音频分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109346102A (zh) * 2018-09-18 2019-02-15 腾讯音乐娱乐科技(深圳)有限公司 音频开头爆音的检测方法、装置及存储介质
CN110222218A (zh) * 2019-04-18 2019-09-10 杭州电子科技大学 基于多尺度NetVLAD和深度哈希的图像检索方法
WO2020248376A1 (zh) * 2019-06-14 2020-12-17 平安科技(深圳)有限公司 情绪检测方法、装置、电子设备及存储介质
CN112232258A (zh) * 2020-10-27 2021-01-15 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN112966778A (zh) * 2021-03-29 2021-06-15 上海冰鉴信息科技有限公司 针对不平衡样本数据的数据处理方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627891A (zh) * 2022-05-16 2022-06-14 山东捷瑞信息技术产业研究院有限公司 一种动圈扬声器质量检测方法和装置
CN115334438A (zh) * 2022-08-01 2022-11-11 厦门东声电子有限公司 一种电声器件发声质量检测方法、***

Also Published As

Publication number Publication date
WO2023000444A1 (zh) 2023-01-26

Similar Documents

Publication Publication Date Title
CN112435684B (zh) 语音分离方法、装置、计算机设备和存储介质
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
CN111312273A (zh) 混响消除方法、装置、计算机设备和存储介质
CN113766405A (zh) 扬声器的杂音检测方法、装置、电子设备和存储介质
CN111868823B (zh) 一种声源分离方法、装置及设备
CN113470688B (zh) 语音数据的分离方法、装置、设备及存储介质
CN113205820B (zh) 一种用于声音事件检测的声音编码器的生成方法
CN111800720B (zh) 基于大数据和云空间的数字助听器参数调整方法和装置
CN113823301A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
CN117542373A (zh) 一种非空气传导语音的恢复***及方法
CN115223584B (zh) 音频数据处理方法、装置、设备及存储介质
WO2022204612A1 (en) Harmonics based target speech extraction network
CN112735381A (zh) 一种模型更新方法及装置
CN114267363B (zh) 语音对抗样本生成方法及装置、电子设备及存储介质
Llombart et al. Speech enhancement with wide residual networks in reverberant environments
CN110895929B (zh) 语音识别方法及装置
CN117409799B (zh) 音频信号处理***及方法
CN114912539B (zh) 一种基于强化学习的环境声音分类方法及***
CN113140222B (zh) 一种声纹向量提取方法、装置、设备及存储介质
EP4350695A1 (en) Apparatus, methods and computer programs for audio signal enhancement using a dataset
CN114220448A (zh) 语音信号生成方法、装置、计算机设备和存储介质
Nandi et al. Acoustic Scene Classification Using Kervolution-Based SubSpectralNet.
CN114333889A (zh) 降噪参数优化方法、装置、终端设备及介质
CN115294997A (zh) 语音处理方法、装置、电子设备及存储介质
CN114664327A (zh) 语音判别方法、装置、计算机设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211207

RJ01 Rejection of invention patent application after publication