CN113593598A - 音频放大器在待机状态下的降噪方法、装置和电子设备 - Google Patents
音频放大器在待机状态下的降噪方法、装置和电子设备 Download PDFInfo
- Publication number
- CN113593598A CN113593598A CN202110906333.0A CN202110906333A CN113593598A CN 113593598 A CN113593598 A CN 113593598A CN 202110906333 A CN202110906333 A CN 202110906333A CN 113593598 A CN113593598 A CN 113593598A
- Authority
- CN
- China
- Prior art keywords
- training
- feature map
- audio signal
- classification
- frequency domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000005236 sound signal Effects 0.000 claims abstract description 277
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 95
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims description 282
- 230000006870 function Effects 0.000 claims description 94
- 238000012545 processing Methods 0.000 claims description 44
- 238000010586 diagram Methods 0.000 claims description 40
- 230000004927 fusion Effects 0.000 claims description 39
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 238000010183 spectrum analysis Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 102100033620 Calponin-1 Human genes 0.000 description 1
- 102100033591 Calponin-2 Human genes 0.000 description 1
- 101000945318 Homo sapiens Calponin-1 Proteins 0.000 description 1
- 101000945403 Homo sapiens Calponin-2 Proteins 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种音频放大器在待机状态下的降噪方法、装置和电子设备,其通过使用第一卷积神经网络提取时域特征和第二卷积神经网络提取频域特征并融合,实现了充分利用音频信号在时域和频域上的高维统计信息来对音频信号进行分类,保证了音频信号的分类的准确性。另外,通过分类损失函数值+余弦损失函数值+最大似然估计项的损失函数值训练第一卷积神经网络和第二卷积神经网络,保证了在同时以第一卷积神经网络和第二卷积神经网络提取时域特征和频域特征的情况下,所提取出的特征在高维特征空间中的分布的一致性,从而使得融合后的分类特征图能够以彼此相符合的方式准确地表达时域信息和频域信息,进一步提高了分类的准确性。
Description
技术领域
本申请涉及音频放大器降噪的领域,且更为具体地,涉及一种音频放大器在待机状态下的降噪方法、装置和电子设备。
背景技术
音频放大器是多媒体产品的重要组件之一,其广泛应用于消费类电子领域。线性音频功放因失真小、音质好,在传统的音频放大器市场上一直占主导地位。音频放大器是一种在产生声音的输出元件上重建输入的音频信号的设备,其重建的信号音量和功率级都要理想,因此,在其使用的过程中,降噪是必须要考虑的问题。
现有的音频放大器由于不具有降噪识别功能,前级在没有音频信号输入时,音响端会接收到来自前级设备的噪声。同样地,在前级有音频信号输入的情况下,噪音会在音频放大器中放大而影响最终的音效。
现有一些用于降噪的方案,例如,通过诸如傅里叶变换之类的频谱分析手段来进行降噪。但这种降噪手段无法准确地识别噪声和有效的信号,导致最终的降噪效果不佳,尤其是在噪声分布和有效信号分布相似的时候。
因此,需要一种在前级没有音频信号的情况下,自动识别前级噪声,并运用算法进行降噪,使音响端不具有底噪声的解决方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种音频放大器在待机状态下的降噪方法、音频放大器在待机状态下的降噪装置和电子设备,其通过使用第一卷积神经网络提取时域特征和第二卷积神经网络提取频域特征并融合,实现了充分利用音频信号在时域和频域上的高维统计信息来对音频信号进行分类,保证了音频信号的分类的准确性。另外,通过分类损失函数值+余弦损失函数值+最大似然估计项的损失函数值训练第一卷积神经网络和第二卷积神经网络,保证了在同时以第一卷积神经网络和第二卷积神经网络提取时域特征和频域特征的情况下,所提取出的特征在高维特征空间中的分布的一致性,从而使得融合后的分类特征图能够以彼此相符合的方式准确地表达时域信息和频域信息,进一步提高了分类的准确性。
根据本申请的一个方面,提供了一种音频放大器在待机状态下的降噪方法,其包括:
训练阶段,包括:
获取到达音频放大器的音频信号作为训练数据;
使用第一卷积神经网络对所述音频信号的波形图像进行空间卷积处理以提取出所述音频信号的波形图像的高维时域关联特征,以获得训练时域特征图;
对所述音频信号进行傅里叶变换后以获得所述音频信号的频域分量;
使用第二卷积神经网络对所述音频信号的频域分量进行空间卷积处理以提取出所述音频信号的频域分量之间的高维频域关联特征,以获得训练频域特征图;
将所述训练频域特征图映射到所述训练时域特征图的特征空间中,以获得训练融合特征图;
计算所述训练融合特征图与所述训练时域特征图之间的加权和以获得训练分类特征图;
将所述训练分类特征图通过分类器以获得分类损失函数值;以及计算所述训练融合特征图与所述训练频域特征图之间的余弦距离以获得余弦距离损失函数值;
构造所述训练分类特征图与所述训练时域特征图之间的最大似然估计项,所述最大似然估计项为用于表示所述训练分类特征图与所述训练时域特征图之间的角度的余弦距离的二范数;以及
以所述分类损失函数值、所述余弦距离损失函数值和所述最大似然估计项的加权和作为损失函数值,来对所述第一卷积神经网络和所述第二卷积神经网络进行训练;以及
预测阶段,包括:
获取待处理的音频信号;
使用经训练阶段训练而成的所述第一卷积神经网络对所述待处理的音频信号的波形图像进行处理,以获得时域特征图;
对所述待处理的音频信号进行傅里叶变换后,使用经训练阶段训练而成的所述第二卷积神经网络从所述待处理的音频信号获得频域特征图;
融合所述时域特征图和所述频域特征图,以获得分类特征图;以及
将所述分类特征图通过分类器以获得分类结果,所述分类结果用于表示待处理的音频信号是底噪声或者是包含底噪声和待播放音频信号的音频信号。
根据本申请的另一方面,提供了一种音频放大器在待机状态下的降噪装置,其包括:
训练模块,包括:
训练数据获取单元,用于获取到达音频放大器的音频信号作为训练数据;
关联特征提取单元,用于使用第一卷积神经网络对所述训练数据获取单元获得的所述音频信号的波形图像进行空间卷积处理以提取出所述音频信号的波形图像的高维时域关联特征,以获得训练时域特征图;
傅里叶变换单元,用于对所述训练数据获取单元获得的所述音频信号进行傅里叶变换后以获得所述音频信号的频域分量;
空间卷积单元,用于使用第二卷积神经网络对所述傅里叶变换单元获得的所述音频信号的频域分量进行空间卷积处理以提取出所述音频信号的频域分量之间的高维频域关联特征,以获得训练频域特征图;
训练融合特征图生成单元,用于将所述空间卷积单元获得的所述训练频域特征图映射到所述关联特征提取单元获得的所述训练时域特征图的特征空间中,以获得训练融合特征图;
训练分类特征图生成单元,用于计算所述训练融合特征图生成单元获得的所述训练融合特征图与所述关联特征提取单元获得的所述训练时域特征图之间的加权和以获得训练分类特征图;
分类损失函数值生成单元,用于将所述训练分类特征图生成单元获得的所述训练分类特征图通过分类器以获得分类损失函数值;
余弦距离损失函数值生成单元,用于计算所述训练融合特征图生成单元获得的所述训练融合特征图与所述空间卷积单元获得的所述训练频域特征图之间的余弦距离以获得余弦距离损失函数值;
最大似然估计项构造单元,用于构造所述训练分类特征图生成单元获得的所述训练分类特征图与所述关联特征提取单元获得的所述训练时域特征图之间的最大似然估计项,所述最大似然估计项为用于表示所述训练分类特征图与所述训练时域特征图之间的角度的余弦距离的二范数;以及
训练单元,用于以所述分类损失函数值生成单元获得的所述分类损失函数值、所述余弦距离损失函数值生成单元获得的所述余弦距离损失函数值和所述最大似然估计项构造单元获得的所述最大似然估计项的加权和作为损失函数值,来对所述第一卷积神经网络和所述第二卷积神经网络进行训练;以及
预测模块,包括:
信号获取单元,用于获取待处理的音频信号;
第一卷积神经网络处理单元,用于使用经训练阶段训练而成的所述第一卷积神经网络对所述信号获取单元获得的所述待处理的音频信号的波形图像进行处理,以获得时域特征图;
第二卷积神经网络处理单元,用于对所述信号获取单元获得的所述待处理的音频信号进行傅里叶变换后,使用经训练阶段训练而成的所述第二卷积神经网络从所述待处理的音频信号获得频域特征图;
融合单元,用于融合所述第一卷积神经网络处理单元获得的所述时域特征图和所述第二卷积神经网络处理单元获得的所述频域特征图,以获得分类特征图;以及
分类结果生成单元,用于将所述融合单元获得的所述分类特征图通过分类器以获得分类结果,所述分类结果用于表示待处理的音频信号是底噪声或者是包含底噪声和待播放音频信号的音频信号。
根据本申请的又一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的音频放大器在待机状态下的降噪方法。
根据本申请的再又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的音频放大器在待机状态下的降噪方法。
根据本申请提供的音频放大器在待机状态下的降噪方法、音频放大器在待机状态下的降噪装置和电子设备,其通过使用第一卷积神经网络提取时域特征和第二卷积神经网络提取频域特征并融合,实现了充分利用音频信号在时域和频域上的高维统计信息来对音频信号进行分类,保证了音频信号的分类的准确性。另外,通过分类损失函数值+余弦损失函数值+最大似然估计项的损失函数值训练第一卷积神经网络和第二卷积神经网络,保证了在同时以第一卷积神经网络和第二卷积神经网络提取时域特征和频域特征的情况下,所提取出的特征在高维特征空间中的分布的一致性,从而使得融合后的分类特征图能够以彼此相符合的方式准确地表达时域信息和频域信息,进一步提高了分类的准确性。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的音频放大器在待机状态下的降噪方法的场景示意图。
图2为根据本申请实施例的音频放大器在待机状态下的降噪方法中训练阶段的流程图。
图3为根据本申请实施例的音频放大器在待机状态下的降噪方法中预测阶段的流程图。
图4为根据本申请实施例的音频放大器在待机状态下的降噪方法中训练阶段的架构示意图。
图5为根据本申请实施例的音频放大器在待机状态下的降噪方法中预测阶段的架构示意图。
图6为根据本申请实施例的音频放大器在待机状态下的降噪装置的框图。
图7为根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
场景概述
如前所述,现有的音频放大器由于不具有降噪识别功能,前级在没有音频信号输入时,音响端会接收到来自前级设备的噪声。同样地,在前级有音频信号输入的情况下,噪音会在音频放大器中放大而影响最终的音效。现有一些用于降噪的方案,例如,通过诸如傅里叶变换之类的频谱分析手段来进行降噪。但这种降噪手段无法准确地识别噪声和有效的信号,导致最终的降噪效果不佳,尤其是在噪声分布和有效信号分布相似的时候。
因此,需要一种在前级没有音频信号的情况下,自动识别前级噪声,并运用算法进行降噪,使音响端不具有底噪声的解决方案。
具体地,也就是由于前级设备到达音响端的既可能包括待播放的音频信号,也包括底噪声,因此首先需要区分前级到达音响端的音频信号是仅包括底噪声,还是既包括待播放的音频信号又包括底噪声,因此这是这个基于音频信号的分类问题,进一步地,在确定仅包括底噪声的情况下,还需要针对底噪声进行降噪处理。
虽然傅里叶变换之类的频谱分析能够通过分析音频信号的频谱特征来对音频信号进行分类,但这种分类由于仅利用了音频信号的频谱信息,因此在音频信号比较接近的情况下,分类精度不高。另外,这种音频信号的频率分析因为没有利用音频信号的时域特征,因此在后续生成降噪信号以对音频信号进行降噪时,会产生困难。
考虑到现有技术的缺陷,本申请的技术方案利用深度神经网络模型,也就是,一方面,第一卷积神经网络直接处理接收到的音频信号的波形图像以提取出时域波形图像中的高维时域关联特征,从而获得时域特征图,另一方面,将音频信号进行傅里叶变换后,以第二卷积神经网络从音频信号的频域分量(所述音频信号在各个谐波频率下的数值)中提取出频域分量之间的高维频域关联特征,从而获得频域特征图。
另外,由于在本申请的技术方案中,是通过音频信号的时域特征来生成降噪信号,因此,也同样期望使用音频信号的时域特征,也就是,时域特征图来进行音频信号的分类。因此,一方面需要将频域特征并入时域特征中以获得分类特征,另一方面又期望通过卷积神经网络的训练保证分类特征分别与时域特征和频域特征在特征分布方面的一致性。
因此,首先将时域特征图乘以频域特征图,以将频域特征映射到时域特征的特征空间中以获得融合特征图,再计算时域特征图和融合特征图的加权和以获得分类特征图。并且,在第一卷积神经网络和第二卷积神经网络的训练过程当中,除了从分类特征图获得分类损失函数值之后,还计算融合特征图与频域特征图之间的余弦距离以获得余弦损失函数值,从而保证融合特征图与频域特征图在高维特征空间中的分布形态类似,最后,需要添加最大似然估计项,以保证分类特征图没有与时域特征图产生显著偏离。这里,最大似然估计项使用用于表示分类特征图与时域特征图之间的角度的余弦距离的二范数。
基于此,本申请提出了一种音频放大器在待机状态下的降噪方法,其包括:训练阶段和预测阶段。其中,训练阶段包括步骤:获取到达音频放大器的音频信号作为训练数据;使用第一卷积神经网络对所述音频信号的波形图像进行空间卷积处理以提取出所述音频信号的波形图像的高维时域关联特征,以获得训练时域特征图;对所述音频信号进行傅里叶变换后以获得所述音频信号的频域分量;使用第二卷积神经网络对所述音频信号的频域分量进行空间卷积处理以提取出所述音频信号的频域分量之间的高维频域关联特征,以获得训练频域特征图;将所述训练频域特征图映射到所述训练时域特征图的特征空间中,以获得训练融合特征图;计算所述训练融合特征图与所述训练时域特征图之间的加权和以获得训练分类特征图;将所述训练分类特征图通过分类器以获得分类损失函数值;计算所述训练融合特征图与所述训练频域特征图之间的余弦距离以获得余弦距离损失函数值;构造所述训练分类特征图与所述训练时域特征图之间的最大似然估计项,所述最大似然估计项为用于表示所述训练分类特征图与所述训练时域特征图之间的角度的余弦距离的二范数;以及,以所述分类损失函数值、所述余弦距离损失函数值和所述最大似然估计项的加权和作为损失函数值,来对所述第一卷积神经网络和所述第二卷积神经网络进行训练。其中,预测阶段包括步骤:获取待处理的音频信号;使用经训练阶段训练而成的所述第一卷积神经网络对所述待处理的音频信号的波形图像进行处理,以获得时域特征图;对所述待处理的音频信号进行傅里叶变换后,使用经训练阶段训练而成的所述第二卷积神经网络从所述待处理的音频信号获得频域特征图;融合所述时域特征图和所述频域特征图,以获得分类特征图;以及,将所述分类特征图通过分类器以获得分类结果,所述分类结果用于表示待处理的音频信号是底噪声或者是包含底噪声和待播放音频信号的音频信号。
图1图示了根据本申请实施例的音频放大器在待机状态下的降噪方法的场景示意图。如图1所示,在该应用场景的训练阶段中,首先,通过音频放大器(例如,如图1中所示意的T)获取到达的音频信号;然后,将所述音频信号输入至部署有音频放大器在待机状态下的降噪算法的服务器(例如,如图1中所示意的S)中,其中,所述服务器能够基于音频放大器在待机状态下的降噪算法以所述音频信号对音频放大器在待机状态下的降噪的卷积神经网络进行训练。
在训练完成后,在预测阶段中,首先,从音频放大器(例如,如图1中所示意的T)中获取待处理的音频信号;然后,将所述待处理的音频信号输入至部署有音频放大器在待机状态下的降噪算法的服务器(例如,如图1中所示意的S)中,其中,所述服务器能够以音频放大器在待机状态下的降噪算法对所述待处理的音频信号进行处理,以生成用于表示待处理的音频信号是底噪声或者是包含底噪声和待播放音频信号的音频信号的分类结果。
在该应用场景中,所述音频信号可能仅包括待播放的音频信号和底噪声中的一种,也可能既包括待播放的音频信号又包括底噪声。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图2图示了根据本申请实施例的音频放大器在待机状态下的降噪方法中训练阶段的流程图。如图2所示,根据本申请实施例的音频放大器在待机状态下的降噪方法,包括:训练阶段,包括步骤:S110,获取到达音频放大器的音频信号作为训练数据;S120,使用第一卷积神经网络对所述音频信号的波形图像进行空间卷积处理以提取出所述音频信号的波形图像的高维时域关联特征,以获得训练时域特征图;S130,对所述音频信号进行傅里叶变换后以获得所述音频信号的频域分量;S140,使用第二卷积神经网络对所述音频信号的频域分量进行空间卷积处理以提取出所述音频信号的频域分量之间的高维频域关联特征,以获得训练频域特征图;S150,将所述训练频域特征图映射到所述训练时域特征图的特征空间中,以获得训练融合特征图;S160,计算所述训练融合特征图与所述训练时域特征图之间的加权和以获得训练分类特征图;S170,将所述训练分类特征图通过分类器以获得分类损失函数值;S180,计算所述训练融合特征图与所述训练频域特征图之间的余弦距离以获得余弦距离损失函数值;S190,构造所述训练分类特征图与所述训练时域特征图之间的最大似然估计项,所述最大似然估计项为用于表示所述训练分类特征图与所述训练时域特征图之间的角度的余弦距离的二范数;以及,S200,以所述分类损失函数值、所述余弦距离损失函数值和所述最大似然估计项的加权和作为损失函数值,来对所述第一卷积神经网络和所述第二卷积神经网络进行训练
图3图示了根据本申请实施例的音频放大器在待机状态下的降噪方法中预测阶段的流程图。如图3所示,根据本申请实施例的音频放大器在待机状态下的降噪方法,还包括:预测阶段,包括步骤:S210,获取待处理的音频信号;S220,使用经训练阶段训练而成的所述第一卷积神经网络对所述待处理的音频信号的波形图像进行处理,以获得时域特征图;S230,对所述待处理的音频信号进行傅里叶变换后,使用经训练阶段训练而成的所述第二卷积神经网络从所述待处理的音频信号获得频域特征图;S240,融合所述时域特征图和所述频域特征图,以获得分类特征图;以及,
S250,将所述分类特征图通过分类器以获得分类结果,所述分类结果用于表示待处理的音频信号是底噪声或者是包含底噪声和待播放音频信号的音频信号。
图4图示了根据本申请实施例的音频放大器在待机状态下的降噪方法中训练阶段的架构示意图。如图4所示,在训练阶段中,在该网络架构中,首先,使用第一卷积神经网络(例如,如图4中所示意的cnn1)获取到达音频放大器的音频信号(例如,如图4中所示意的IN1)的波形图像(例如,如图4中所示意的IN2)进行空间卷积处理以提取出所述音频信号的波形图像的高维时域关联特征,以获得训练时域特征图(例如,如图4中所示意的Ft);接着,对所述音频信号进行傅里叶变换后以获得所述音频信号的频域分量(例如,如图4中所示意的f);然后,使用第二卷积神经网络(例如,如图4中所示意的cnn2)对所述音频信号的频域分量进行空间卷积处理以提取出所述音频信号的频域分量之间的高维频域关联特征,以获得训练频域特征图(例如,如图4中所示意的Ff);接着,将所述训练频域特征图映射到所述训练时域特征图的特征空间中,以获得训练融合特征图(例如,如图4中所示意的F1);然后,计算所述训练融合特征图与所述训练时域特征图之间的加权和以获得训练分类特征图(例如,如图4中所示意的F2);接着,将所述训练分类特征图通过分类器(例如,如图4中所示意的分类器)以获得分类损失函数值;然后,计算所述训练融合特征图与所述训练频域特征图之间的余弦距离以获得余弦距离损失函数值;接着,构造所述训练分类特征图与所述训练时域特征图之间的最大似然估计项;以及,最后,以所述分类损失函数值、所述余弦距离损失函数值和所述最大似然估计项的加权和作为损失函数值,来对所述第一卷积神经网络和所述第二卷积神经网络进行训练。
图5图示了根据本申请实施例的音频放大器在待机状态下的降噪方法中预测阶段的架构示意图。如图5所示,在预测阶段中,在该网络结构中,首先,使用经训练阶段训练而成的所述第一卷积神经网络(例如,如图5中所示意的CNN1)对获取的待处理的音频信号(例如,如图5中所示意的IN3)的波形图像(例如,如图5中所示意的IN4)进行处理,以获得时域特征图(例如,如图5中所示意的FT);接着,对所述待处理的音频信号进行傅里叶变换后,使用经训练阶段训练而成的所述第二卷积神经网络(例如,如图5中所示意的CNN2)从所述待处理的音频信号获得频域特征图(例如,如图5中所示意的FF);然后,融合所述时域特征图和所述频域特征图,以获得分类特征图(例如,如图5中所示意的FC);以及,最后,将所述分类特征图通过分类器(例如,如图5中所示意的分类器)以获得分类结果,所述分类结果用于表示待处理的音频信号是底噪声或者是包含底噪声和待播放音频信号的音频信号。
更具体地,在训练阶段中,在步骤S110和步骤S120中,获取到达音频放大器的音频信号作为训练数据,并使用第一卷积神经网络对所述音频信号的波形图像进行空间卷积处理以提取出所述音频信号的波形图像的高维时域关联特征,以获得训练时域特征图。如前所述,由于前级设备到达音响端的信号既可能包括待播放的音频信号,也包括底噪声,因此首先需要区分前级到达音响端的音频信号是仅包括底噪声,还是既包括待播放的音频信号又包括底噪声,因此这是这个基于音频信号的分类问题,进一步地,在确定仅包括底噪声的情况下,还需要针对底噪声进行降噪处理。因此,在本申请的技术方案中,首先获取到达音频放大器的音频信号,然后利用第一卷积深度神经网络模型对所述音频信号进行处理,也就是,用第一卷积神经网络直接处理接收到的音频信号的波形图像以提取出时域波形图像中的高维时域关联特征,以获得训练时域特征图。
值得一提的是,这里,所述音频信号可能仅包括待播放的音频信号和底噪声中的一种,也可能既包括待播放的音频信号又包括底噪声。
更具体地,在训练阶段中,在步骤S130和步骤S140中,对所述音频信号进行傅里叶变换后以获得所述音频信号的频域分量,并使用第二卷积神经网络对所述音频信号的频域分量进行空间卷积处理以提取出所述音频信号的频域分量之间的高维频域关联特征,以获得训练频域特征图。应可以理解,为了后续将通过所述第一卷积神经网络提取的时域特征和所述第二卷积神经网络提取的频域特征进行融合,以充分利用音频信号在时域和频域上的高维统计信息来对音频信号进行分类,从而保证音频信号的分类的准确性。因此,就需要获取所述音频信号进行傅里叶变换后的频域分量,再将频域分量通过所述第二卷积神经网络进行处理,以从音频信号的频域分量中提取出频域分量之间的高维频域关联特征,从而获得频域特征图。这里,所述频域分量表示所述音频信号在各个谐波频率下的数值。
具体地,在本申请实施例中,对所述音频信号进行傅里叶变换后以获得所述音频信号的频域分量的过程,包括:首先,对所述音频信号进行傅里叶变换后以获得所述音频信号在各个谐波频率下的数值,应可以理解,也就是将所述音频信号经过傅里叶变换处理,以将所述音频信号从时域转换到频域中。然后,将所述音频信号在各个谐波频率下的数值排列为所述所述音频信号的频域分量。
更具体地,在本申请实施例中,使用第二卷积神经网络对所述音频信号的频域分量进行空间卷积处理以提取出所述音频信号的频域分量之间的高维频域关联特征,以获得训练频域特征图的过程,包括:首先,将各个所述音频信号的频率分量按照样本维度排列为频率矩阵;然后,使用所述第二卷积神经网络对所述频率矩阵进行空间卷积处理,以获得所述训练频域特征图。
更具体地,在训练阶段中,在步骤S150中,将所述训练频域特征图映射到所述训练时域特征图的特征空间中,以获得训练融合特征图。如前所述,应可以理解,虽然傅里叶变换之类的频谱分析能够通过分析音频信号的频谱特征来对音频信号进行分类,但这种分类由于仅利用了音频信号的频谱信息,因此在音频信号比较接近的情况下,分类精度不高。另外,这种音频信号的频率分析因为没有利用音频信号的时域特征,因此在后续生成降噪信号以对音频信号进行降噪时,会产生困难。因此,在本申请的技术方案中,通过第一卷积神经网络来提取时域特征和第二卷积神经网络来提取频域特征并将其融合,实现了充分利用音频信号在时域和频域上的高维统计信息来对音频信号进行分类,保证了音频信号的分类的准确性。
具体地,在本申请实施例中,将所述训练频域特征图映射到所述训练时域特征图的特征空间中,以获得训练融合特征图的过程,包括:将所述训练时域特征图与所述训练频域特征图进行矩阵相乘以将所述训练频域特征图映射到所述训练时域特征图的特征空间中,以获得所述训练融合特征图。这里,所述训练融合特征图表示融合了所述音频信号在时域和频域上的高维关联特征。
更具体地,在训练阶段中,在步骤S160中,计算所述训练融合特征图与所述训练时域特征图之间的加权和以获得训练分类特征图。也就是,计算将频域特征并入时域特征中以获得的融合特征图与所述训练时域特征图的加权和,以通过加权处理后的所述音频信号的时域特征来进行音频信号的分类,从而使得分类的准确性更高。应可以理解,在本申请的技术方案中,是通过音频信号的时域特征来生成降噪信号,因此,也同样期望使用音频信号的时域特征,也就是,时域特征图来进行音频信号的分类。因此,一方面需要将频域特征并入时域特征中以获得分类特征,另一方面又期望通过卷积神经网络的训练保证分类特征分别与时域特征和频域特征在特征分布方面的一致性。
更具体地,在训练阶段中,在步骤S170中,将所述训练分类特征图通过分类器以获得分类损失函数值。
具体地,在本申请实施例中,将所述训练分类特征图通过分类器以获得分类损失函数值的过程,包括:首先,将所述训练分类特征图通过所述分类器的一个或多个全连接层以通过所述一个或多个全连接层将所述训练分类特征图编码为训练分类特征向量。
接着,将所述训练分类特征向量输入所述分类器的Softmax分类函数以获得所述训练分类特征向量属于音频信号为底噪声的第一概率和所述训练分类特征向量属于音频信号为包含底噪声和待播放音频信号的音频信号的第二概率。
然后,基于所述第一概率和所述第二概率的比较,确定分类结果,具体地,当所述第一概率大于所述第二概率时,所述分类结果为音频信号为底噪声,此时,响应于所述分类结果为音频信号为底噪声,将所述分类特征图输入作为生成器模型的第三卷积神经网络以生成降噪信号波形,应可以理解,分类特征图包含了准确地表达的音频信号的时域信息和频域信息,因此生成的降噪信号也具有良好的降噪表现;当所述第一概率小于所述第二概率时,所述分类结果为音频信号为包含底噪声和待播放音频信号的音频信号。
最后,计算所述分类结果为真实值的交叉熵损失函数值作为所述分类损失函数值。
更具体地,在训练阶段中,在步骤S180和步骤S190中,计算所述训练融合特征图与所述训练频域特征图之间的余弦距离以获得余弦距离损失函数值,并构造所述训练分类特征图与所述训练时域特征图之间的最大似然估计项。也就是,在对所述第一卷积神经网络和所述第二卷积神经网络的训练过程当中,除了从所述分类特征图获得所述分类损失函数值之后,还计算所述融合特征图与所述频域特征图之间的余弦距离以获得余弦损失函数值,从而保证所述融合特征图与所述频域特征图在高维特征空间中的分布形态类似,并且,还需要添加最大似然估计项,以保证所述分类特征图没有与所述时域特征图产生显著偏离。值得一提的是,这里,所述最大似然估计项使用用于表示所述分类特征图与所述时域特征图之间的角度的余弦距离的二范数。
更具体地,在训练阶段中,在步骤S200中,以所述分类损失函数值、所述余弦距离损失函数值和所述最大似然估计项的加权和作为损失函数值,来对所述第一卷积神经网络和所述第二卷积神经网络进行训练。应可以理解,在本申请的技术方案中,通过分类损失函数值+余弦损失函数值+最大似然估计项的损失函数值训练第一卷积神经网络和第二卷积神经网络,保证了在同时以第一卷积神经网络和第二卷积神经网络提取时域特征和频域特征的情况下,所提取出的特征在高维特征空间中的分布的一致性,从而使得融合后的分类特征图能够以彼此相符合的方式准确地表达时域信息和频域信息,进一步提高了分类的准确性。
在训练完成后,进入预测阶段。也就是,在使用音频放大器在待机状态下的降噪算法来训练卷积神经网络后,将训练完成的卷积神经网络用于实际的音频信号降噪中。
更具体地,在预测阶段中,在步骤S210和步骤S220中,获取待处理的音频信号,并使用经训练阶段训练而成的所述第一卷积神经网络对所述待处理的音频信号的波形图像进行处理,以获得时域特征图。也就是,首先通过音频放大器获取待处理的音频信号,然后利用经训练阶段训练而成的第一卷积神经网络对所述音频信号的波形图像进行处理,以提取出时域波形图像中的高维时域关联特征,以获得时域特征图。
更具体地,在预测阶段中,在步骤S230和步骤S240中,对所述待处理的音频信号进行傅里叶变换后,使用经训练阶段训练而成的所述第二卷积神经网络从所述待处理的音频信号获得频域特征图,并融合所述时域特征图和所述频域特征图,以获得分类特征图。也就是,首先,将所述待处理的音频信号经过傅里叶变换,以把时域中的所述音频信号转换到频域中。然后,再通过训练阶段训练而成的所述第二卷积神经网络对所述频域中的所述音频信号进行处理,以提取出所述频域分量之间的高维频域关联特征,从而获得频域特征图。最后,将所述时域特征图和所述频域特征图进行矩阵相乘,以生成用于表示融合了所述音频信号在时域和频域上的高维关联特征的分类特征图。
更具体地,在预测阶段中,在步骤S250中,将所述分类特征图通过分类器以获得分类结果,所述分类结果用于表示待处理的音频信号是底噪声或者是包含底噪声和待播放音频信号的音频信号。也就是,首先,将所述训练分类特征图通过所述分类器的一个或多个全连接层以通过所述一个或多个全连接层将所述训练分类特征图编码为训练分类特征向量。
然后,将所述训练分类特征向量输入所述分类器的Softmax分类函数以获得所述训练分类特征向量属于音频信号为底噪声的第一概率和所述训练分类特征向量属于音频信号为包含底噪声和待播放音频信号的音频信号的第二概率。
最后,基于所述第一概率和所述第二概率的比较,确定分类结果。当所述第一概率大于所述第二概率时,所述分类结果为待处理的音频信号是底噪声;当所述第一概率小于所述第二概率时,所述分类结果为待处理的音频信号是包含底噪声和待播放音频信号的音频信号。值得一提的是,当响应于所述分类结果为包含底噪声和待播放音频信号的音频信号时,滤除所述待处理的音频信号中的降噪信号波形。
综上,基于本申请实施例的音频放大器在待机状态下的降噪方法被阐明,其通过使用第一卷积神经网络提取时域特征和第二卷积神经网络提取频域特征并融合,实现了充分利用音频信号在时域和频域上的高维统计信息来对音频信号进行分类,保证了音频信号的分类的准确性。另外,通过分类损失函数值+余弦损失函数值+最大似然估计项的损失函数值训练第一卷积神经网络和第二卷积神经网络,保证了在同时以第一卷积神经网络和第二卷积神经网络提取时域特征和频域特征的情况下,所提取出的特征在高维特征空间中的分布的一致性,从而使得融合后的分类特征图能够以彼此相符合的方式准确地表达时域信息和频域信息,进一步提高了分类的准确性。
示例性装置
图6图示了根据本申请实施例的音频放大器在待机状态下的降噪装置的框图。如图6所示,根据本申请实施例的音频放大器在待机状态下的降噪装置600,包括:训练模块610和预测模块620。
如图6所示,所述训练模块610,包括:训练数据获取单元6101,用于获取到达音频放大器的音频信号作为训练数据;关联特征提取单元6102,用于使用第一卷积神经网络对所述训练数据获取单元6101获得的所述音频信号的波形图像进行空间卷积处理以提取出所述音频信号的波形图像的高维时域关联特征,以获得训练时域特征图;傅里叶变换单元6103,用于对所述训练数据获取单元6101获得的所述音频信号进行傅里叶变换后以获得所述音频信号的频域分量;空间卷积单元6104,用于使用第二卷积神经网络对所述傅里叶变换单元6103获得的所述音频信号的频域分量进行空间卷积处理以提取出所述音频信号的频域分量之间的高维频域关联特征,以获得训练频域特征图;训练融合特征图生成单元6105,用于将所述空间卷积单元6104获得的所述训练频域特征图映射到所述关联特征提取单元6102获得的所述训练时域特征图的特征空间中,以获得训练融合特征图;训练分类特征图生成单元6106,用于计算所述训练融合特征图生成单元6105获得的所述训练融合特征图与所述关联特征提取单元6102获得的所述训练时域特征图之间的加权和以获得训练分类特征图;分类损失函数值生成单元6107,用于将所述训练分类特征图生成单元6106获得的所述训练分类特征图通过分类器以获得分类损失函数值;余弦距离损失函数值生成单元6108,用于计算所述训练融合特征图生成单元6105获得的所述训练融合特征图与所述空间卷积单元6104获得的所述训练频域特征图之间的余弦距离以获得余弦距离损失函数值;最大似然估计项构造单元6109,用于构造所述训练分类特征图生成单元6106获得的所述训练分类特征图与所述关联特征提取单元6102获得的所述训练时域特征图之间的最大似然估计项,所述最大似然估计项为用于表示所述训练分类特征图与所述训练时域特征图之间的角度的余弦距离的二范数;以及,训练单元6110,用于以所述分类损失函数值生成单元6107获得的所述分类损失函数值、所述余弦距离损失函数值生成单元6108获得的所述余弦距离损失函数值和所述最大似然估计项构造单元6109获得的所述最大似然估计项的加权和作为损失函数值,来对所述第一卷积神经网络和所述第二卷积神经网络进行训练。
如图6所示,所述预测模块620,包括:信号获取单元621,用于获取待处理的音频信号;第一卷积神经网络处理单元622,用于使用经训练阶段训练而成的所述第一卷积神经网络对所述信号获取单元621获得的所述待处理的音频信号的波形图像进行处理,以获得时域特征图;第二卷积神经网络处理单元623,用于对所述信号获取单元621获得的所述待处理的音频信号进行傅里叶变换后,使用经训练阶段训练而成的所述第二卷积神经网络从所述待处理的音频信号获得频域特征图;融合单元624,用于融合所述第一卷积神经网络处理单元622获得的所述时域特征图和所述第二卷积神经网络处理单元623获得的所述频域特征图,以获得分类特征图;以及,分类结果生成单元625,用于将所述融合单元获得的所述分类特征图通过分类器以获得分类结果,所述分类结果用于表示待处理的音频信号是底噪声或者是包含底噪声和待播放音频信号的音频信号。
在一个示例中,在上述音频放大器在待机状态下的降噪装置600中,所述傅里叶变换单元6103,包括:变换子单元,用于对所述音频信号进行傅里叶变换后以所述音频信号在各个谐波频率下的数值;以及,排列子单元,用于将所述变换子单元获得的所述音频信号在各个谐波频率下的数值排列为所述所述音频信号的频域分量。
在一个示例中,在上述音频放大器在待机状态下的降噪装置600中,所述空间卷积单元6104,包括:频率矩阵排列子单元,用于将各个所述音频信号的频率分量按照样本维度排列为频率矩阵;以及,频率矩阵处理子单元,用于使用所述第二卷积神经网络对所述频率矩阵排列子单元获得的所述频率矩阵进行空间卷积处理,以获得所述训练频域特征图。
在一个示例中,在上述音频放大器在待机状态下的降噪装置600中,所述训练融合特征图生成单元6105,进一步用于:将所述训练时域特征图与所述训练频域特征图进行矩阵相乘以将所述训练频域特征图映射到所述训练时域特征图的特征空间中,以获得所述训练融合特征图。
在一个示例中,在上述音频放大器在待机状态下的降噪装置600中,所述分类损失函数值生成单元6107,包括:分类特征向量生成子单元,用于将所述训练分类特征图通过所述分类器的一个或多个全连接层以通过所述一个或多个全连接层将所述训练分类特征图编码为训练分类特征向量;概率生成子单元,用于将所述分类特征向量生成子单元获得的所述训练分类特征向量输入所述分类器的Softmax分类函数以获得所述训练分类特征向量属于音频信号为底噪声的第一概率和所述训练分类特征向量属于音频信号为包含底噪声和待播放音频信号的音频信号的第二概率;概率比较子单元,用于基于所述概率生成子单元获得的所述第一概率和所述概率生成子单元获得的所述第二概率的比较,确定分类结果;以及,交叉熵损失函数值计算子单元,用于计算所述概率比较子单元获得的所述分类结果为真实值的交叉熵损失函数值作为所述分类损失函数值。
在一个示例中,在上述音频放大器在待机状态下的降噪装置600中,所述训练模块610,进一步包括:响应于所述分类结果为音频信号为底噪声,将所述分类特征图输入作为生成器模型的第三卷积神经网络以生成降噪信号波形。
在一个示例中,在上述音频放大器在待机状态下的降噪装置600中,所述预测模块620,进一步包括:响应于所述分类结果为包含底噪声和待播放音频信号的音频信号,滤除所述待处理的音频信号中的降噪信号波形。
这里,本领域技术人员可以理解,上述音频放大器在待机状态下的降噪装置600中的各个单元和模块的具体功能和操作已经在上面参考图1到图5的音频放大器在待机状态下的降噪方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的音频放大器在待机状态下的降噪装置600可以实现在各种终端设备中,例如音频放大器在待机状态下的降噪算法的服务器等。在一个示例中,根据本申请实施例的音频放大器在待机状态下的降噪装置600可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该音频放大器在待机状态下的降噪装置600可以是该终端设备的操作装置中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该音频放大器在待机状态下的降噪装置600同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该音频放大器在待机状态下的降噪装置600与该终端设备也可以是分立的设备,并且该音频放大器在待机状态下的降噪装置600可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图7来描述根据本申请实施例的电子设备。如图7所示,电子设备包括10包括一个或多个处理器11和存储器12。所述处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的音频放大器在待机状态下的降噪方法的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如训练融合特征图、训练分类特征图等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线装置和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括分类结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图7中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的音频放大器在待机状态下的降噪方法中的功能中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的音频放大器在待机状态下的降噪方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的装置、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种音频放大器在待机状态下的降噪方法,其特征在于,包括:
训练阶段,包括:
获取到达音频放大器的音频信号作为训练数据;
使用第一卷积神经网络对所述音频信号的波形图像进行空间卷积处理以提取出所述音频信号的波形图像的高维时域关联特征,以获得训练时域特征图;
对所述音频信号进行傅里叶变换后以获得所述音频信号的频域分量;
使用第二卷积神经网络对所述音频信号的频域分量进行空间卷积处理以提取出所述音频信号的频域分量之间的高维频域关联特征,以获得训练频域特征图;
将所述训练频域特征图映射到所述训练时域特征图的特征空间中,以获得训练融合特征图;
计算所述训练融合特征图与所述训练时域特征图之间的加权和以获得训练分类特征图;
将所述训练分类特征图通过分类器以获得分类损失函数值;以及
计算所述训练融合特征图与所述训练频域特征图之间的余弦距离以获得余弦距离损失函数值;
构造所述训练分类特征图与所述训练时域特征图之间的最大似然估计项,所述最大似然估计项为用于表示所述训练分类特征图与所述训练时域特征图之间的角度的余弦距离的二范数;以及
以所述分类损失函数值、所述余弦距离损失函数值和所述最大似然估计项的加权和作为损失函数值,来对所述第一卷积神经网络和所述第二卷积神经网络进行训练;以及
预测阶段,包括:
获取待处理的音频信号;
使用经训练阶段训练而成的所述第一卷积神经网络对所述待处理的音频信号的波形图像进行处理,以获得时域特征图;
对所述待处理的音频信号进行傅里叶变换后,使用经训练阶段训练而成的所述第二卷积神经网络从所述待处理的音频信号获得频域特征图;
融合所述时域特征图和所述频域特征图,以获得分类特征图;以及
将所述分类特征图通过分类器以获得分类结果,所述分类结果用于表示待处理的音频信号是底噪声或者是包含底噪声和待播放音频信号的音频信号。
2.根据权利要求1所述的音频放大器在待机状态下的降噪方法,其中,对所述音频信号进行傅里叶变换后以获得所述音频信号的频域分量,包括:
对所述音频信号进行傅里叶变换后以所述音频信号在各个谐波频率下的数值;以及
将所述音频信号在各个谐波频率下的数值排列为所述所述音频信号的频域分量。
3.根据权利要求2所述的音频放大器在待机状态下的降噪方法,其中,使用第二卷积神经网络对所述音频信号的频域分量进行空间卷积处理以提取出所述音频信号的频域分量之间的高维频域关联特征,以获得训练频域特征图,包括:
将各个所述音频信号的频率分量按照样本维度排列为频率矩阵;以及
使用所述第二卷积神经网络对所述频率矩阵进行空间卷积处理,以获得所述训练频域特征图。
4.根据权利要求1所述的音频放大器在待机状态下的降噪方法,其中,将所述训练频域特征图映射到所述训练时域特征图的特征空间中,以获得训练融合特征图,包括:
将所述训练时域特征图与所述训练频域特征图进行矩阵相乘以将所述训练频域特征图映射到所述训练时域特征图的特征空间中,以获得所述训练融合特征图。
5.根据权利要求4所述的音频放大器在待机状态下的降噪方法,其中,将所述训练分类特征图通过分类器以获得分类损失函数值,包括:
将所述训练分类特征图通过所述分类器的一个或多个全连接层以通过所述一个或多个全连接层将所述训练分类特征图编码为训练分类特征向量;
将所述训练分类特征向量输入所述分类器的Softmax分类函数以获得所述训练分类特征向量属于音频信号为底噪声的第一概率和所述训练分类特征向量属于音频信号为包含底噪声和待播放音频信号的音频信号的第二概率;
基于所述第一概率和所述第二概率的比较,确定分类结果;以及
计算所述分类结果为真实值的交叉熵损失函数值作为所述分类损失函数值。
6.根据权利要求5所述的音频放大器在待机状态下的降噪方法,其中,所述训练阶段,进一步包括:
响应于所述分类结果为音频信号为底噪声,将所述分类特征图输入作为生成器模型的第三卷积神经网络以生成降噪信号波形。
7.根据权利要求6所述的音频放大器在待机状态下的降噪方法,所述预测阶段,进一步包括:
响应于所述分类结果为包含底噪声和待播放音频信号的音频信号,滤除所述待处理的音频信号中的降噪信号波形。
8.一种音频放大器在待机状态下的降噪装置,其特征在于,包括:
训练模块,包括:
训练数据获取单元,用于获取到达音频放大器的音频信号作为训练数据;
关联特征提取单元,用于使用第一卷积神经网络对所述训练数据获取单元获得的所述音频信号的波形图像进行空间卷积处理以提取出所述音频信号的波形图像的高维时域关联特征,以获得训练时域特征图;
傅里叶变换单元,用于对所述训练数据获取单元获得的所述音频信号进行傅里叶变换后以获得所述音频信号的频域分量;
空间卷积单元,用于使用第二卷积神经网络对所述傅里叶变换单元获得的所述音频信号的频域分量进行空间卷积处理以提取出所述音频信号的频域分量之间的高维频域关联特征,以获得训练频域特征图;
训练融合特征图生成单元,用于将所述空间卷积单元获得的所述训练频域特征图映射到所述关联特征提取单元获得的所述训练时域特征图的特征空间中,以获得训练融合特征图;
训练分类特征图生成单元,用于计算所述训练融合特征图生成单元获得的所述训练融合特征图与所述关联特征提取单元获得的所述训练时域特征图之间的加权和以获得训练分类特征图;
分类损失函数值生成单元,用于将所述训练分类特征图生成单元获得的所述训练分类特征图通过分类器以获得分类损失函数值;
余弦距离损失函数值生成单元,用于计算所述训练融合特征图生成单元获得的所述训练融合特征图与所述空间卷积单元获得的所述训练频域特征图之间的余弦距离以获得余弦距离损失函数值;
最大似然估计项构造单元,用于构造所述训练分类特征图生成单元获得的所述训练分类特征图与所述关联特征提取单元获得的所述训练时域特征图之间的最大似然估计项,所述最大似然估计项为用于表示所述训练分类特征图与所述训练时域特征图之间的角度的余弦距离的二范数;以及
训练单元,用于以所述分类损失函数值生成单元获得的所述分类损失函数值、所述余弦距离损失函数值生成单元获得的所述余弦距离损失函数值和所述最大似然估计项构造单元获得的所述最大似然估计项的加权和作为损失函数值,来对所述第一卷积神经网络和所述第二卷积神经网络进行训练;以及
预测模块,包括:
信号获取单元,用于获取待处理的音频信号;
第一卷积神经网络处理单元,用于使用经训练阶段训练而成的所述第一卷积神经网络对所述信号获取单元获得的所述待处理的音频信号的波形图像进行处理,以获得时域特征图;
第二卷积神经网络处理单元,用于对所述信号获取单元获得的所述待处理的音频信号进行傅里叶变换后,使用经训练阶段训练而成的所述第二卷积神经网络从所述待处理的音频信号获得频域特征图;
融合单元,用于融合所述第一卷积神经网络处理单元获得的所述时域特征图和所述第二卷积神经网络处理单元获得的所述频域特征图,以获得分类特征图;以及
分类结果生成单元,用于将所述融合单元获得的所述分类特征图通过分类器以获得分类结果,所述分类结果用于表示待处理的音频信号是底噪声或者是包含底噪声和待播放音频信号的音频信号。
9.根据权利要求8所述的音频放大器在待机状态下的降噪装置,其中,所述傅里叶变换单元,包括:
变换子单元,用于对所述音频信号进行傅里叶变换后以所述音频信号在各个谐波频率下的数值;以及
排列子单元,用于将所述变换子单元获得的所述音频信号在各个谐波频率下的数值排列为所述所述音频信号的频域分量。
10.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-7中任一项所述的音频放大器在待机状态下的降噪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110906333.0A CN113593598B (zh) | 2021-08-09 | 2021-08-09 | 音频放大器在待机状态下的降噪方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110906333.0A CN113593598B (zh) | 2021-08-09 | 2021-08-09 | 音频放大器在待机状态下的降噪方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113593598A true CN113593598A (zh) | 2021-11-02 |
CN113593598B CN113593598B (zh) | 2024-04-12 |
Family
ID=78256204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110906333.0A Active CN113593598B (zh) | 2021-08-09 | 2021-08-09 | 音频放大器在待机状态下的降噪方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113593598B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114615610A (zh) * | 2022-03-23 | 2022-06-10 | 东莞市晨新电子科技有限公司 | 音频补偿式耳机的音频补偿方法、***和电子设备 |
CN114900779A (zh) * | 2022-04-12 | 2022-08-12 | 东莞市晨新电子科技有限公司 | 音频补偿方法、***和电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110491407A (zh) * | 2019-08-15 | 2019-11-22 | 广州华多网络科技有限公司 | 语音降噪的方法、装置、电子设备及存储介质 |
US10511908B1 (en) * | 2019-03-11 | 2019-12-17 | Adobe Inc. | Audio denoising and normalization using image transforming neural network |
CN111863008A (zh) * | 2020-07-07 | 2020-10-30 | 北京达佳互联信息技术有限公司 | 一种音频降噪方法、装置及存储介质 |
CN111883091A (zh) * | 2020-07-09 | 2020-11-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频降噪方法和音频降噪模型的训练方法 |
WO2021042870A1 (zh) * | 2019-09-05 | 2021-03-11 | 腾讯科技(深圳)有限公司 | 语音处理的方法、装置、电子设备及计算机可读存储介质 |
CN112633175A (zh) * | 2020-12-24 | 2021-04-09 | 哈尔滨理工大学 | 复杂环境下基于多尺度卷积神经网络单音符实时识别算法 |
CN113205803A (zh) * | 2021-04-22 | 2021-08-03 | 上海顺久电子科技有限公司 | 一种具有自适应降噪能力的语音识别方法及装置 |
KR20210096542A (ko) * | 2020-01-28 | 2021-08-05 | 한국전자통신연구원 | 오디오 신호의 처리 방법 및 장치 |
CN113223545A (zh) * | 2020-02-05 | 2021-08-06 | 字节跳动有限公司 | 一种语音降噪方法、装置、终端及存储介质 |
-
2021
- 2021-08-09 CN CN202110906333.0A patent/CN113593598B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10511908B1 (en) * | 2019-03-11 | 2019-12-17 | Adobe Inc. | Audio denoising and normalization using image transforming neural network |
CN110491407A (zh) * | 2019-08-15 | 2019-11-22 | 广州华多网络科技有限公司 | 语音降噪的方法、装置、电子设备及存储介质 |
WO2021042870A1 (zh) * | 2019-09-05 | 2021-03-11 | 腾讯科技(深圳)有限公司 | 语音处理的方法、装置、电子设备及计算机可读存储介质 |
KR20210096542A (ko) * | 2020-01-28 | 2021-08-05 | 한국전자통신연구원 | 오디오 신호의 처리 방법 및 장치 |
CN113223545A (zh) * | 2020-02-05 | 2021-08-06 | 字节跳动有限公司 | 一种语音降噪方法、装置、终端及存储介质 |
CN111863008A (zh) * | 2020-07-07 | 2020-10-30 | 北京达佳互联信息技术有限公司 | 一种音频降噪方法、装置及存储介质 |
CN111883091A (zh) * | 2020-07-09 | 2020-11-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频降噪方法和音频降噪模型的训练方法 |
CN112633175A (zh) * | 2020-12-24 | 2021-04-09 | 哈尔滨理工大学 | 复杂环境下基于多尺度卷积神经网络单音符实时识别算法 |
CN113205803A (zh) * | 2021-04-22 | 2021-08-03 | 上海顺久电子科技有限公司 | 一种具有自适应降噪能力的语音识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
张行;赵馨;: "基于神经网络噪声分类的语音增强算法", 中国电子科学研究院学报, no. 09, 20 September 2020 (2020-09-20) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114615610A (zh) * | 2022-03-23 | 2022-06-10 | 东莞市晨新电子科技有限公司 | 音频补偿式耳机的音频补偿方法、***和电子设备 |
CN114615610B (zh) * | 2022-03-23 | 2023-05-16 | 东莞市晨新电子科技有限公司 | 音频补偿式耳机的音频补偿方法、***和电子设备 |
CN114900779A (zh) * | 2022-04-12 | 2022-08-12 | 东莞市晨新电子科技有限公司 | 音频补偿方法、***和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113593598B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7025569B2 (ja) | 保険の録音による品質検査方法、装置、機器及びコンピュータ記憶媒体 | |
JP7177167B2 (ja) | 混合音声の特定方法、装置及びコンピュータプログラム | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
CN113593598B (zh) | 音频放大器在待机状态下的降噪方法、装置和电子设备 | |
CN109087670A (zh) | 情绪分析方法、***、服务器及存储介质 | |
CN112927707A (zh) | 语音增强模型的训练方法和装置及语音增强方法和装置 | |
US9947323B2 (en) | Synthetic oversampling to enhance speaker identification or verification | |
US20190156846A1 (en) | Creating device, creating method, and non-transitory computer readable storage medium | |
CN113377909B (zh) | 释义分析模型训练方法、装置、终端设备及存储介质 | |
CN115471216B (zh) | 智慧实验室管理平台的数据管理方法 | |
CN110890098B (zh) | 盲信号分离方法、装置和电子设备 | |
Zhang et al. | Temporal Transformer Networks for Acoustic Scene Classification. | |
CN115273904A (zh) | 一种基于多特征融合的愤怒情绪识别方法及装置 | |
Srinivasarao et al. | Speech enhancement-an enhanced principal component analysis (EPCA) filter approach | |
Jannu et al. | Multi-stage progressive learning-based speech enhancement using time–frequency attentive squeezed temporal convolutional networks | |
CN113252323A (zh) | 一种基于人耳听觉特性的断路器机械故障识别方法及*** | |
CN107894837A (zh) | 动态情感分析模型样本处理方法及装置 | |
CN112346012A (zh) | 声源位置确定方法和装置、可读存储介质、电子设备 | |
Lu et al. | Post-nonlinear blind source separation with kurtosis constraints using augmented Lagrangian particle swarm optimization and its application to mechanical systems | |
CN113555031B (zh) | 语音增强模型的训练方法及装置、语音增强方法及装置 | |
CN114818814A (zh) | 情感识别的处理方法、装置、电子设备和存储介质 | |
CN114998698A (zh) | 动态时域卷积网络驱动的多模态情感识别方法 | |
CN114495935A (zh) | 智能设备的语音控制方法、***和电子设备 | |
CN114913156A (zh) | 变压器故障诊断***及其诊断方法 | |
CN112489678A (zh) | 一种基于信道特征的场景识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |