CN116741191A - 音频信号处理方法、装置、电子设备及存储介质 - Google Patents
音频信号处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116741191A CN116741191A CN202310825895.1A CN202310825895A CN116741191A CN 116741191 A CN116741191 A CN 116741191A CN 202310825895 A CN202310825895 A CN 202310825895A CN 116741191 A CN116741191 A CN 116741191A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- sample
- audio
- noise reduction
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 739
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 230000009467 reduction Effects 0.000 claims abstract description 193
- 238000012545 processing Methods 0.000 claims abstract description 167
- 230000008439 repair process Effects 0.000 claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000006243 chemical reaction Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 22
- 230000002452 interceptive effect Effects 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 16
- 230000008030 elimination Effects 0.000 claims description 14
- 238000003379 elimination reaction Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000010276 construction Methods 0.000 description 8
- 238000013136 deep learning model Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本公开关于一种音频信号处理方法、装置、电子设备及存储介质,该方法包括:获取待修复音频信号;待修复音频信号为包含干扰信号的失真音频信号;根据预先训练的降噪处理模型对待修复音频信号进行处理,得到降噪音频信号;降噪处理模型基于包含干扰信号的第一音频样本训练得到;将待修复音频信号和降噪音频信号输入至预先训练的音频修复模型中,得到修复后的目标音频信号;音频修复模型基于样本失真音频信号和样本失真音频信号对应的样本降噪音频信号构建的第二音频样本训练得到。采用本方法,提高了音频修复的准确度和质量。
Description
技术领域
本公开涉及音频技术领域,尤其涉及一种音频信号处理方法、装置、电子设备及存储介质。
背景技术
随着音频技术的发展,出现了音频恢复技术,该音频恢复技术可以实现对问题音频的降噪和修复。
目前的音频恢复方法,针对可能存在的带噪声、带混响或者截幅等问题的问题音频,选取该问题音频,以该问题音频以及该问题音频对应的正常音频,对深度学习模型进行音频恢复训练,得到训练完成的深度学习模型。并基于该训练完成的深度学习模型,对任意问题音频进行音频恢复处理,得到恢复后的修复音频。
然而,目前的音频恢复方法中,由于问题音频通常存在不止一种问题,根据通过深度学习模型对问题音频中各种问题进行集中学习,输出的修复音频仍然存在音频吐字不清,部分发音仍缺失,音频修复质量较差。
发明内容
本公开提供一种音频信号处理方法、装置、电子设备及存储介质,以至少解决相关技术中音频修复准确度较低、质量较差的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种音频信号处理方法,包括:
获取待修复音频信号;所述待修复音频信号为包含干扰信号的失真音频信号;
根据预先训练的降噪处理模型对所述待修复音频信号进行处理,得到降噪音频信号;所述降噪处理模型基于包含干扰信号的第一音频样本训练得到;所述降噪音频信号为消除所述干扰信号的失真音频信号;
将所述待修复音频信号和所述降噪音频信号输入至预先训练的音频修复模型中,得到修复后的目标音频信号;所述音频修复模型基于样本失真音频信号和所述样本失真音频信号对应的样本降噪音频信号构建的第二音频样本训练得到。
在一示例性实施例中,所述获取待修复音频信号,包括:
获取待修复的第一音频信号;所述第一音频信号为包含干扰信号的失真音频信号;
对所述第一音频信号进行短时傅里叶变换,得到时频域上的第一转换音频信号;
对所述第一转换音频信号进行梅尔频率倒谱的转换处理,得到待修复音频信号。
在一示例性实施例中,所述根据预先训练的降噪处理模型对所述待修复音频信号进行处理,得到降噪音频信号,包括:
将包含干扰信号的待修复音频信号输入至预先训练的降噪处理模型;所述干扰信号中包含噪声信号和混响信号;
通过预先训练的降噪处理模型对所述待修复音频信号中的所述噪声信号和混响信号进行处理,得到消除所述噪声信号和所述混响信号的降噪音频信号。
在一示例性实施例中,所述将所述待修复音频信号和所述降噪音频信号输入至预先训练的音频修复模型中,得到修复后的目标音频信号之后,所述方法包括:
将所述目标音频信号输入至音频编码器,通过所述音频编码器对梅尔频率倒谱上的所述目标音频信号进行转换,得到修复音频信号;所述修复音频信号为所述待修复音频信号修复后的时域上的音频信号。
在一示例性实施例中,所述降噪处理模型的训练过程包括:
获取第一音频样本,所述第一音频样本包含第一样本音频信号和所述第一样本音频信号对应的原始音频信号;所述第一样本音频信号中包含干扰信号;
将所述第一样本音频信号输入至降噪处理模型中,通过所述降噪处理模型对所述第一样本音频信号进行处理,得到第一处理音频信号;
根据所述第一处理音频信号和所述原始音频信号进行损失计算,得到所述第一处理音频信号对应的损失结果;
判断所述损失结果是否满足预设的损失条件,直至所述损失结果满足所述预设的损失条件时,确定所述降噪处理模型训练完成;所述训练完成的降噪处理模型输出的第一处理音频信号为降噪音频信号。
在一示例性实施例中,所述音频修复模型的训练过程包括:
获取第二音频样本,所述第二音频样本中包含第二样本音频信号、所述第二样本音频信号对应的样本降噪音频信号以及所述第二样本音频信号对应的原始音频信号;所述第二样本音频信号为包含干扰信号的样本失真音频信号;
将所述第二样本音频信号以及所述样本降噪音频信号输入至音频修复模型中,通过所述音频修复模型对所述第二样本音频信号和所述样本降噪音频信号进行处理,得到第二处理音频信号;
根据所述第二处理音频信号和所述第二样本音频信号对应的原始音频信号进行损失计算,得到所述第二处理音频信号对应的损失结果;
判断所述损失结果是否满足预设的损失条件,直至所述损失结果满足所述预设的损失条件时,确定所述音频修复模型训练完成。
在一示例性实施例中,所述获取第二音频样本,包括:
获取第二音频信号以及所述第二音频信号对应的原始音频信号;所述第二音频信号为包含干扰信号的样本失真音频信号;
分别对所述第二音频信号以及所述第二音频信号对应的原始音频信号进行短时傅里叶变换,得到时频域上的第二样本音频信号以及时频域上的原始音频信号;
根据预先训练的所述降噪处理模型对时频域上的所述第二样本音频信号进行处理,得到所述第二样本音频信号对应的样本降噪音频信号;
根据时频域上的所述第二样本音频信号、时频域上的所述原始音频信号以及时频域上的所述样本降噪音频信号,构建得到第二音频样本。
在一示例性实施例中,所述构建得到第二音频样本之前,所述方法还包括:
分别对所述时频域上的所述第二样本音频信号、所述时频域上的所述原始音频信号以及所述样本降噪音频信号进行频谱转换,得到梅尔频率倒谱上的第二样本音频信号、梅尔频率倒谱上的原始音频信号,以及时频域上的样本降噪音频信号;
所述构建得到第二音频样本,包括:
根据所述梅尔频率倒谱上的第二样本音频信号、所述梅尔频率倒谱上的原始音频信号以及所述梅尔频率倒谱上的样本降噪音频信号,构建得到第二音频样本。
根据本公开实施例的第二方面,提供一种音频信号处理装置,包括:
获取单元,被配置为执行获取待修复音频信号;所述待修复音频信号为包含干扰信号的失真音频信号;
消除干扰单元,被配置为执行根据预先训练的降噪处理模型对所述待修复音频信号进行处理,得到降噪音频信号;所述降噪处理模型基于包含干扰信号的第一音频样本训练得到;所述降噪音频信号为消除所述干扰信号的失真音频信号;
修复单元,被配置为执行将所述待修复音频信号和所述降噪音频信号输入至预先训练的音频修复模型中,得到修复后的目标音频信号;所述音频修复模型基于样本失真音频信号和所述样本失真音频信号对应的样本降噪音频信号构建的第二音频样本训练得到。
在一示例性实施例中,所述获取单元,包括:
获取子单元,被配置为执行获取待修复的第一音频信号;所述第一音频信号为包含干扰信号的失真音频信号;
第一转换子单元,被配置为执行对所述第一音频信号进行短时傅里叶变换,得到时频域上的第一转换音频信号;
第二转换子单元,被配置为执行对所述第一转换音频信号进行梅尔频率倒谱的转换处理,得到待修复音频信号。
在一示例性实施例中,所述消除干扰单元,包括:
输入子单元,被配置为执行将包含干扰信号的待修复音频信号输入至预先训练的降噪处理模型;所述干扰信号中包含噪声信号和混响信号;
消除干扰子单元,被配置为执行通过预先训练的降噪处理模型对所述待修复音频信号中的所述噪声信号和混响信号进行处理,得到消除所述噪声信号和所述混响信号的降噪音频信号。
在一示例性实施例中,所述装置还包括:
还原单元,被配置为执行将所述目标音频信号输入至音频编码器,通过所述音频编码器对梅尔频率倒谱上的所述目标音频信号进行转换,得到修复音频信号;所述修复音频信号为所述待修复音频信号修复后的时域上的音频信号。
在一示例性实施例中,所述装置还包括:
第一样本获取单元,被配置为执行获取第一音频样本,所述第一音频样本包含第一样本音频信号和所述第一样本音频信号对应的原始音频信号;所述第一样本音频信号中包含干扰信号;
第一样本处理单元,被配置为执行将所述第一样本音频信号输入至降噪处理模型中,通过所述降噪处理模型对所述第一样本音频信号进行处理,得到第一处理音频信号;
第一损失计算单元,被配置为执行根据所述第一处理音频信号和所述原始音频信号进行损失计算,得到所述第一处理音频信号对应的损失结果;
第一判别单元,被配置为执行判断所述损失结果是否满足预设的损失条件,直至所述损失结果满足所述预设的损失条件时,确定所述降噪处理模型训练完成;所述训练完成的降噪处理模型输出的第一处理音频信号为降噪音频信号。
在一示例性实施例中,所述装置还包括:
第二样本获取单元,被配置为执行获取第二音频样本,所述第二音频样本中包含第二样本音频信号、所述第二样本音频信号对应的样本降噪音频信号以及所述第二样本音频信号对应的原始音频信号;所述第二样本音频信号为包含干扰信号的样本失真音频信号;
第二样本处理单元,被配置为执行将所述第二样本音频信号以及所述样本降噪音频信号输入至音频修复模型中,通过所述音频修复模型对所述第二样本音频信号和所述样本降噪音频信号进行处理,得到第二处理音频信号;
第二损失计算单元,被配置为执行根据所述第二处理音频信号和所述第二样本音频信号对应的原始音频信号进行损失计算,得到所述第二处理音频信号对应的损失结果;
第二判别单元,被配置为执行判断所述损失结果是否满足预设的损失条件,直至所述损失结果满足所述预设的损失条件时,确定所述音频修复模型训练完成。
在一示例性实施例中,所述第二样本获取单元,包括:
第二获取子单元,被配置为执行获取第二音频信号以及所述第二音频信号对应的原始音频信号;所述第二音频信号为包含干扰信号的样本失真音频信号;
第三转换子单元,被配置为执行分别对所述第二音频信号以及所述第二音频信号对应的原始音频信号进行短时傅里叶变换,得到时频域上的第二样本音频信号以及时频域上的原始音频信号;
处理子单元,被配置为执行根据预先训练的所述降噪处理模型对时频域上的所述第二样本音频信号进行处理,得到所述第二样本音频信号对应的样本降噪音频信号;
构建子单元,被配置为执行根据时频域上的所述第二样本音频信号、时频域上的所述原始音频信号以及时频域上的所述样本降噪音频信号,构建得到第二音频样本。
在一示例性实施例中,所述装置还包括:
第四转换子单元,,被配置为执行分别对所述时频域上的所述第二样本音频信号、所述时频域上的所述原始音频信号以及所述样本降噪音频信号进行频谱转换,得到梅尔频率倒谱上的第二样本音频信号、梅尔频率倒谱上的原始音频信号,以及时频域上的样本降噪音频信号;
所述构建子单元,被配置为执行根据所述梅尔频率倒谱上的第二样本音频信号、所述梅尔频率倒谱上的原始音频信号以及所述梅尔频率倒谱上的样本降噪音频信号,构建得到第二音频样本。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上述第一方面中任一项所述的音频信号处理方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如上述第一方面中任一项所述的音频信号处理方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,所述指令被电子设备的处理器执行时,使得所述电子设备能够执行上述第一方面中任一项所述的音频信号处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
采用本方法,通过预先训练的降噪处理模型对待修复音频信号进行处理,在此基础上,针对处理后得到的降噪音频信号以及待修复音频信号,通过预先训练的音频修复模型进行处理,得到音频修复后无干扰信号且无音频失真的目标音频信号,实现了对待修复音频信号中存在干扰信号的问题以及音频信号失真问题的修复,提高了音频修复的准确度和质量。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种音频信号处理方法的流程图。
图2是根据一示例性实施例示出的一种获取待修复音频信号的方法的流程图。
图3是根据一示例性实施例示出的一种降噪处理模型的训练方法的流程图。
图4是根据一示例性实施例示出的一种降噪处理模型训练流程示意图。
图5是根据一示例性实施例示出的一种音频修复模型的训练方法的流程图。
图6是根据一示例性实施例示出的一种构建第二音频样本的方法的流程图。
图7是根据一示例性实施例示出的一种音频修复模型训练流程示意图。
图8是根据一示例性实施例示出的另一种构建第二音频样本的方法的流程图。
图9是根据一示例性实施例示出的一种音频信号处理装置的框图。
图10是根据一示例性实施例示出的一种电子设备的框图。
图11是根据一示例性实施例示出的另一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
还需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
图1是根据一示例性实施例示出的一种音频信号处理方法的流程图,如图1所示,本公开实施例以该音频信号处理方法应用于终端进行举例,可选的,该方法也可以应用于服务器,还可以应用于终端和服务端交互的***,本公开实施例不做限定,具体的该方法包括以下步骤:
在步骤S110中,获取待修复音频信号。
其中,待修复音频信号为包含干扰信号的失真音频信号。其中,该失真音频信号即为存在音频信号丢包、空洞或者截幅等问题的音频信号。
在实施中,针对目前的待修复音频信号,由于待修复音频信号往往存在不止一种类型的音频信号损失问题,例如,待修复音频信号中包含噪声信号、混响信号等干扰信号,且待修复音频信号还存在空洞、截幅等音频损失问题。那么,针对待修复音频信号的多种类型的音频信号损失问题,需要对待修复音频信号进行修复。因此,计算机设备获取待修复音频信号,以对待修复音频信号进行音频修复处理。
在步骤S120中,根据预先训练的降噪处理模型对待修复音频信号进行处理,得到降噪音频信号。
其中,降噪处理模型基于包含干扰信号的第一音频样本训练得到。降噪音频信号为消除干扰信号的失真音频信号。
在实施中,终端中预先存储有降噪处理模型,该降噪处理模型已经基于包含干扰信号的第一音频样本训练完成。从而,当需要对待修复音频信号进行音频修复时,先将待修复音频信号输入至该降噪处理模型中,仅针对该待修复音频信号进行干扰消除处理,得到降噪音频信号。该降噪音频信号为消除干扰信号,但仍然存在音频缺失(例如,音频丢包、空洞、截幅等)等音频损失问题的音频信号。
可选的,降噪处理模型可以但不限于为深度神经网络模型(DNN,Deep NeuralNetworks),本公开实施例对此不再赘述。
在步骤S130中,将待修复音频信号和降噪音频信号输入至预先训练的音频修复模型中,得到修复后的目标音频信号。
其中,音频修复模型基于包含样本失真音频信号和该样本失真音频信号对应的样本降噪音频信号两种信号构建的第二音频样本训练得到。
在实施中,终端将待修复音频信号和降噪音频信号一并输入至预先训练的音频修复模型中,音频修复模型对待修复音频信号和降噪音频信号进行处理,得到修复后的目标音频信号。具体地,待修复音频信号和降噪音频信号一并输入至预先训练的音频修复模型中,两个音频信号起到相互参照的作用,防止音频修复模型在同时进行消除干扰处理和音频修复处理的过程中,损失掉音频信号本身的音频特征,造成音频信号修复后依旧存在吐字不清、清辅音消除等的问题。其中,该目标音频信号即为待修复音频信号消除噪音以及修复音频缺失等问题后得到的最终的音频信号。
可选的,音频修复模型可以但不限于为深度神经网络模型(DNN,Deep NeuralNetworks),本公开实施例对此不再赘述。
上述音频信号处理方法中,通过预先训练的降噪处理模型对待修复音频信号进行处理,在此基础上,针对降噪处理后得到的降噪音频信号以及待修复音频信号,通过预先训练的音频修复模型进行处理,得到音频修复后无干扰信号且无音频失真的目标音频信号,实现了对待修复音频信号中存在干扰信号的问题以及音频信号失真问题的修复,提高了音频修复的准确度和质量。
在一示例性实施例中,在对待修复音频信号进行处理时,针对直接获取到的时域上的音频信号,可以进行频域转换,转换至时频域甚至梅尔频率倒谱上,再进行基于深度学习模型的音频处理,从而提高音频信号处理的准确性,具体的,如图2所示,在步骤S110中,具体可以通过以下步骤实现:
在步骤S211中,获取待修复的第一音频信号。
其中,第一音频信号为包含干扰信号的失真音频信号。
在实施中,针对待修复的第一音频信号,由于该第一音频信号中存在不止一种音频问题,因此,终端获取该待修复的第一音频信号。
可选的,该第一音频信号中包含干扰信号,该干扰信号中可以分为噪声信号、混响信号等多种类型,本公开实施例中对于待修复的第一音频信号中存在的干扰信号的种类和数目不做限定。
可选的,第一音频信号还是一种失真音频信号,该失真音频信号可以但不限于存在音频丢包、空洞、截幅等问题,本公开实施例对音频失真的种类和数目不做限定。
在步骤S212中,对第一音频信号进行短时傅里叶变换,得到时频域上的第一转换音频信号。
在实施中,针对时域上的第一音频信号,终端对第一音频信号进行短时傅里叶变换(STFT,Short-Time Fourier Transform),将原本时域上的待修复的第一音频信号转换至时频域上,得到时频域上的第一转换音频信号。该第一转换音频信号依旧包含干扰信号以及存在音频失真问题。
在步骤S213中,对第一转换音频信号进行梅尔频率倒谱的转换处理,得到待修复音频信号。
在实施中,终端对第一转换音频信号进行梅尔频率倒谱的转换处理,将时频域谱上的第一转换音频信号转换至梅尔频率倒谱上,得到梅尔频率倒谱上的待修复音频信号。该待修复音频信号即为可以输入至深度学习模型(即降噪处理模型和音频修复模型)进行处理的音频信号。
本实施例中,通过对待修复的第一音频信号进行处理,将第一音频信号从时域转换至时频域,进而转换至梅尔频率倒谱上,以得到梅尔频率倒谱上的待修复音频信号,以使后续针对梅尔频率倒谱上的待修复音频信号进行处理,通过音频信号的转换,转换后的梅尔频率倒谱上的待修复音频信号,增加了深度学习模型的判别度,提高模型的判别准确性。
在一个实施例中,步骤S120中根据预先训练的降噪处理模型对待修复音频信号进行处理,得到降噪音频信号包括:
步骤S120A,将包含干扰信号的待修复音频信号输入至预先训练的降噪处理模型。
其中,干扰信号中包含噪声信号和混响信号。
在实施中,在原始音频信号收录过程中,容易受到周围环境以及收录设备等的影响,造成收录到的原始音频信号中存在干扰信号,其中该干扰信号可能是来自于收录环境的噪声信号,也可能是收录设备漏音等造成的对原始音频信号的混响干扰,即原始音频信号中包含混响信号,因此,在对待修复音频信号进行修复时,要消除待修复音频信号中的干扰信号。终端中存储有预先训练的降噪处理模型,在针对待修复音频信号进行修复时,终端将包含干扰信号的待修复音频信号输入至预先训练的降噪处理模型,以对待修复音频信号进行处理。
步骤S120B,通过预先训练的降噪处理模型对待修复音频信号中的噪声信号和混响信号进行处理,得到待修复音频信号对应的降噪音频信号。
在实施中,终端通过预先训练的降噪处理模型对待修复音频信号中的噪声信号和混响信号进行处理,消除了待修复音频信号中包含的噪声信号和混响信号,得到降噪音频信号。
本实施例中,通过对待修复音频信号进行预处理,得到消除了干扰信号的降噪音频信号,以得到的降噪音频信号与待修复音频信号进行相互参照,以使实现对待修复音频信号消除干扰和失真修复的双重修复。
在一示例性实施例中,在步骤130中:将待修复音频信号和降噪音频信号输入至预先训练的音频修复模型中,得到修复后的目标音频信号之后,该方法还包括:
在步骤S131中,将目标音频信号输入至音频编码器,通过音频编码器对梅尔频率倒谱上的目标音频信号进行转换,得到修复音频信号。
其中,修复音频信号为待修复音频信号修复后的时域上的音频信号。
在实施中,针对音频修复模型输出的目标音频信号,该音频信号为梅尔频率倒谱上的音频信号,且经过音频修复模型的修复处理,即该目标音频信号已经消除干扰信号且也已经修复音频失真问题。然后,基于该修复后的目标音频信号,终端将目标音频信号输入至音频编码器中,通过该音频编码器对梅尔频率到谱上的音频信号进行转换处理,直接将梅尔频率倒谱上的目标音频信号转换至时域上,得到时域上的修复音频信号。该时域上的修复音频信号即为可以播放的音频信号。
具体地,梅尔频率倒谱上的目标音频信号用MelS48k(n,m)表示,对梅尔频率倒谱上的目标音频信号进行转换处理的公式如下所示:
s(t)=Vocoder(MelS48k(n,m))
其中,s(t)表示转换后的时域上的修复音频信号。Vocoder表示进行音频编码器转换处理。
可选的,转换还原后的修复音频信号为时域上的可播放的音频信号,因此,对修复音频信号进行播放处理,可以验证当前待修复音频信号的修复准确度和质量。
本实施例中,通过音频编码器对修复后得到梅尔频域谱上的目标音频信号进行转换处理,得到转换后时域上的修复音频信号,实现对消除干扰处理和音频修复处理后得到的目标音频信号的还原。
在一示例性实施例中,针对音频信号处理过程中应用到的降噪处理模型,需要对降噪处理模型进行预先训练,如图3所示,该降噪处理模型的训练过程包括:
在步骤S302中,获取第一音频样本。
其中,第一音频样本包含第一样本音频信号和第一样本音频信号对应的原始音频信号;第一样本音频信号中仅存在干扰信号这一种类型的的音频损失问题,即第一样本音频信号包含例如,噪声信号、混响信号等干扰信号的问题,但是该第一样本音频信号不是失真音频信号。
在实施中,在对降噪处理模型进行训练时,终端先获取第一音频样本。具体地,终端获取第一音频样本的过程包括:终端先获取长度为T的第一样本音频信号以及该第一样本音频信号对应的原始音频信号。其中,原始音频信号x1和包含干扰信号的第一样本音频信号y1在时域上分别为x1(t)和y1(t)。其中,t表示时间,0<t≤T。然后,终端分别对时域上的第一样本音频信号以及该第一样本音频信号对应的原始音频信号进行短时傅里叶变换,得到时频域上的第一样本音频信号(用STFT(y148k(t)表示)以及时频域上的原始音频信号(用STFT(x148k(t)表示)。具体的可以通过如下公式表示:
X148k(n,k)=STFT(x148k(t)) (1)
Y148k(n,k)=STFT(y148k(t)) (2)
其中,n为帧序列,0<n≤N(N为总帧数),k为中心频率序列0<k≤K48(K48为总频带数)。
然后,针对时频域上的第一样本音频信号(STFT(y148k(t))以及时频域上的原始音频信号(STFT(x148k(t)),分别取得每帧音频信号的幅度信息,具体地,计算音频信号幅度的公式如下:
MagX148k(n,k)=abs(X148k(n,k)) (3)
MagY148k(n,k)=abs(Y148k(n,k)) (4)
其中,MagX148k(n,k)表示时频域上的原始音频信号的幅度信息(或称为幅度特征),abs(X148k(n,k))表示对原始音频信号取绝对值。MagY148k(n,k)表示时频域上的第一样本音频信号的幅度信息,abs(Y148k(n,k))表示对第一样本音频信号取绝对值。
最后,终端根据该第一样本音频信号的幅度信息和第一样本音频信号对应的原始音频信号的幅度信息,构建得到第一音频样本。
在步骤S304中,将第一样本音频信号输入至降噪处理模型中,通过降噪处理模型对第一样本音频信号进行处理,得到第一处理音频信号。
在实施中,终端将第一音频样本中的第一样本音频信号输入至降噪处理模型中,通过降噪处理模型对第一样本音频信号进行消除干扰处理,得到第一处理音频信号。具体地,图4为一种降噪处理模型的训练流程示意图,如图4所示,y148(t)表示经过短时傅里叶处理得到时域上的48k的包含干扰信号的第一样本音频信号,经过短时傅里叶变换,得到时频域上的第一样本音频信号,用y148(n,k)表示。提取该时频域上的48k的第一样本音频信号的幅度信息MagY148k(n,k),将第一样本音频信号的幅度信息输入至降噪处理模型(DNN1模型)中,通过降噪处理模型对第一样本音频信号的幅度信息进行消除干扰处理,得到模型输出的音频信号,并以原始音频信号的幅度信息MagX148(n,k)作为深度学习的目标,进而,对模型输出的音频信号进行损失计算,以基于损失计算的结果进行模型迭代,以完成降噪处理模型的训练。
在步骤S306中,根据第一处理音频信号和原始音频信号进行损失计算,得到第一处理音频信号对应的损失结果。
在实施中,终端根据第一处理音频信号和原始音频信号进行损失计算,得到第一处理音频信号对应的损失结果。具体地,损失计算可以是幅度谱距离计算,即终端可以对降噪处理模型输出的第一处理音频信号与原始音频信号进行幅度谱距离的计算,将计算出的幅度谱距离作为第一处理音频信号对应的损失结果。
在步骤S308中,判断损失结果是否满足预设的损失条件,直至损失结果满足预设的损失条件时,确定降噪处理模型训练完成。
其中,训练完成的降噪处理模型输出的第一处理音频信号为降噪音频信号。
在实施中,终端判断当前的第一处理音频信号对应的损失结果是否满足预设的损失条件。具体地,若该损失结果满足预设的损失条件,则终端确定该降噪处理模型训练完成。若该损失结果不满足预设的损失条件,则终端执行上述步骤S302至步骤S304的过程,直至损失结果满足预设的损失条件。步骤骤S302至步骤S304的过程在此不再赘述。
可选的,预设的损失条件可以为小于或者等于预设的第一损失阈值,因此,若计算出的第一处理音频信号对应的损失结果小于或者等于预设的第一损失阈值时,表征该损失结果满足预设的损失条件,反之,若第一处理音频信号对应的损失结果大于预设的第一损失阈值时,表征该损失结果不满足预设的损失条件。
本实施例中,通过第一音频样本实现对降噪处理模型的训练,进而,得到训练完成的降噪处理模型,以根据训练完成的降噪处理模型实现对待修复音频信号包含干扰信号的问题进行处理。
在一示例性实施例中,针对音频信号处理过程中应用到的音频修复模型,需要对音频修复模型进行预先训练,如图5所示,该音频修复模型的训练过程包括:
在步骤S502中,获取第二音频样本。
其中,第二音频样本中包含第二样本音频信号、第二样本音频信号对应的样本降噪音频信号以及第二样本音频信号对应的原始音频信号。
其中,第二样本音频信号为包含干扰信号的样本失真音频信号
在实施中,终端获取第二音频样本。具体地,终端可以获取重采样率48k、长度为T的包含干扰信号的第二样本音频信号、该第二样本音频信号对应的样本降噪音频信号以及第二样本音频信号对应的原始音频信号。其中,样本降噪音频信号即为第二样本音频信号消除干扰处理后的到的降噪音频信号,原始音频信号为第二样本音频信号对应的不包含任何音频损失问题的音频信号。然后,终端将第二样本音频信号、样本降噪音频信号以及原始音频信号进行预处理,并基于预处理后的各音频信号构建得到第二音频样本。
在步骤S504中,将第二样本音频信号以及样本降噪音频信号输入至音频修复模型中,通过音频修复模型对第二样本音频信号和样本降噪音频信号进行处理,得到第二处理音频信号。
在实施中,终端将第二音频样本中第二样本音频信号以及样本降噪音频信号输入至音频修复模型(DNN2模型)中,通过音频修复模型对第二样本音频信号和样本降噪音频信号进行处理,输出第二处理音频信号。其中,该第二处理音频信号为梅尔频率倒谱上的经过修复处理的音频信号。
在步骤S506中,根据第二处理音频信号和第二样本音频信号对应的原始音频信号进行损失计算,得到第二处理音频信号对应的损失结果。
其中,该第二处理音频信号用于与作为训练目标的原始音频信号进行损失计算,确定模型本次训练的损失结果。
在实施中,终端根据第二处理音频信号和第二样本音频信号对应的原始音频信号进行损失计算,得到第二处理音频信号对应的损失结果。可选的,终端可以计算第二处理音频信号和原始音频信号间的幅度谱距离,并以该幅度谱距离作为第二处理音频信号对应的损失结果。
在步骤S508中,判断损失结果是否满足预设的损失条件,直至损失结果满足预设的损失条件时,确定音频修复模型训练完成。
在实施中,终端中存储有预设的损失条件,然后,终端针对每次音频修复模型输出的第二处理音频信号对应的损失结果,判断该损失结果是否满足预设的损失条件,直至损失结果满足预设的损失条件时,确定音频修复模型训练完成。具体地,预设的损失条件为小于或者等于预设的第二损失阈值。若第二处理音频信号对应的损失结果小于或者等于预设的第二损失阈值,则确定该损失结果满足预设的损失条件。然后,终端确定音频修复模型训练完成。若第二处理音频信号对应的损失结果大于预设的第二损失阈值,则确定该损失结果不满足预设的损失条件。进而,终端继续执行上述步骤S502至步骤S506,直至损失结果满足预设的损失条件,确定音频修复模型训练完成。
本实施例中,通过第二音频样本对音频修复模型进行训练,得到训练完成的音频修复模型,以根据训练完成的音频修复模型实现对待修复音频信号包含干扰信号以及存在音频信号失真的问题的处理。
在一示例性实施例中,在获取第二音频样本的过程中,终端针对直接获取到的时域上的第二音频信号,第二音频信号对应的降噪音频信号,以及第二音频信号对应的原始音频信号进行预处理,得到预处理后的各音频信号,然后,基于预处理后的各音频信号构建第二音频样本,具体的预处理过程,如图6所示,在步骤S502中获取第二音频样本,具体包括以下步骤:
在步骤S602中,获取第二音频信号以及第二音频信号对应的原始音频信号。
其中,第二音频信号为包含干扰信号的样本失真音频信号。
在实施中,终端获取时域上的第二音频信号以及第二音频信号对应的原始音频信号。其中,时频域上的第二音频信号用y248k(t)表示。该第二音频信号对应的原始音频信号即为第二音频信号对应的不包含任何音频损失问题的音频信号。
在步骤S604中,分别对第二音频信号以及第二音频信号对应的原始音频信号进行短时傅里叶变换,得到时频域上的第二样本音频信号以及时频域上的原始音频信号。
在实施中,终端分别对时域上的第二音频信号以及该第二音频信号对应的原始音频信号进行短时傅里叶变换,得到时频域上的第二样本音频信号以及时频域上的原始音频信号。具体地,如图7所示,通过STFT处理,将y248k(t)转换为时频域上的第二样本音频信号y248k(n,k)。将时域上的原始音频信号x248k(t)转换为时频域上的原始音频信号x248k(n,k)。具体地,针对时频域上的原始音频信号,确定时频域上的原始音频信号幅度谱信息,该原始音频信号的幅度谱信息用MagX248(n,k),
在步骤S606中,根据预先训练的降噪处理模型对时频域上的第二样本音频信号进行处理,得到第二样本音频信号对应的样本降噪音频信号。
在实施中,终端根据预先训练的降噪处理模型对时域上的第二样本音频信号进行消除干扰处理,得到第二样本音频信号对应的样本降噪音频信号。如图7所示,将第二样本音频信号进行备份,然后,将其中一份第二样本音频信号输入至已经预先训练的降噪处理模型(DNN1模型)中,经过降噪处理模型(DNN1模型)的处理,得到第二样本音频信号对应的样本降噪音频信号,该样本降噪音频信号为时频域上的幅度谱信息,用MagY248k(n,k)表示。
在步骤S608中,根据时频域上的第二样本音频信号、时频域上的原始音频信号,以及时频域上的样本降噪音频信号,构建得到第二音频样本。
在实施中,终端根据时频域上的第二样本音频信号、时频域上的原始音频信号,以及时频域上的样本降噪音频信号,构建得到第二音频样本。
本实施例中,通过对直接获取到的时域上的第二音频信号,第二音频信号对应的降噪音频信号,以及第二音频信号对应的原始音频信号进行预处理,得到预处理后的各音频信号,根据预处理后的时频域上的第二样本音频信号、时频域上的原始音频信号,以及时频域上的样本降噪音频信号,构建得到第二音频样本,以根据第二音频样本,对音频修复模型进行训练。
在一示例性实施例中,如图8所示,在步骤S608中,构建得到第二音频样本之前,该方法还包括:
步骤S802中,分别对时频域上的第二样本音频信号、时频域上的原始音频信号以及样本降噪音频信号进行频谱转换,得到梅尔频率倒谱上的第二样本音频信号、梅尔频率倒谱上的原始音频信号,以及时频域上的样本降噪音频信号。
在实施中,终端分别对时频域上的第二样本音频信号、原始音频信号以及样本降噪音频信号进行频谱转换,将各音频信号转换至梅尔频率倒谱上,得到梅尔频率倒谱上的第二样本音频信号、梅尔频率倒谱上的原始音频信号,以及时频域上的样本降噪音频信号。
然后,步骤S608处理过程更新为如下步骤:
步骤S804中,根据梅尔频率倒谱上的第二样本音频信号、梅尔频率倒谱上的原始音频信号以及梅尔频率倒谱上的样本降噪音频信号,构建得到第二音频样本。
在实施中,终端根据梅尔频率倒谱上的第二样本音频信号、梅尔频率倒谱上的原始音频信号以及梅尔频率倒谱上的样本降噪音频信号,构建得到第二音频样本,从而,使得根据该第二音频样本,对音频修复模型进行训练。
本实施例中,通过对时频域上的第二样本音频信号、原始音频信号和样本降噪音频信号进行转换处理,得到由梅尔频率倒谱上的第二样本音频信号、原始音频信号以及样本降噪音频信号构建的第二音频样本,以使通过该梅尔频率倒谱上的第二音频样本进行模型训练,保留了第二音频样本中包含的语音信息,提高音频修复模型的准确度。
应该理解的是,虽然图1-图3、图5至图6、图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-图3、图5至图6、图8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
可以理解的是,本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见,每个实施例重点说明的是与其他实施例的不同之处,相关之处参见其他方法实施例的说明即可。
图9是根据一示例性实施例示出的一种音频信号处理装置框图。参照图9,该装置包括获取单元902,消除干扰单元904和修复单元906。
获取单元902,被配置为执行获取待修复音频信号;待修复音频信号为包含干扰信号的失真音频信号;
消除干扰单元904,被配置为执行根据预先训练的降噪处理模型对待修复音频信号进行处理,得到降噪音频信号;降噪处理模型基于包含干扰信号的第一音频样本训练得到;
修复单元906,被配置为执行将待修复音频信号和降噪音频信号输入至预先训练的音频修复模型中,得到修复后的目标音频信号;音频修复模型基于样本失真音频信号和样本失真音频信号对应的样本降噪音频信号构建的第二音频样本训练得到。
在一示例性实施例中,获取单元902,包括:
获取子单元,被配置为执行获取待修复的第一音频信号;第一音频信号为包含干扰信号的失真音频信号;
第一转换子单元,被配置为执行对第一音频信号进行短时傅里叶变换,得到时频域上的第一转换音频信号;
第二转换子单元,被配置为执行对第一转换音频信号进行梅尔频率倒谱的转换处理,得到待修复音频信号。
在一示例性实施例中,消除干扰单元904,包括:
输入子单元,被配置为执行将包含干扰信号的待修复音频信号输入至预先训练的降噪处理模型;所述干扰信号中包含噪声信号和混响信号;
消除干扰子单元,被配置为执行通过预先训练的降噪处理模型对所述待修复音频信号中的所述噪声信号和混响信号进行处理,得到消除所述噪声信号和所述混响信号的降噪音频信号。
在一示例性实施例中,该装置还包括:
还原单元,被配置为执行将目标音频信号输入至音频编码器,通过音频编码器对梅尔频率倒谱上的目标音频信号进行转换,得到修复音频信号;修复音频信号为待修复音频信号修复后的时域上的音频信号。
在一示例性实施例中,该装置还包括:
第一样本获取单元,被配置为执行获取第一音频样本,第一音频样本包含第一样本音频信号和第一样本音频信号对应的原始音频信号;第一样本音频信号中包含干扰信号;
第一样本处理单元,被配置为执行将第一样本音频信号输入至降噪处理模型中,通过降噪处理模型对第一样本音频信号进行处理,得到第一处理音频信号;
第一损失计算单元,被配置为执行根据第一处理音频信号和原始音频信号进行损失计算,得到第一处理音频信号对应的损失结果;
第一判别单元,被配置为执行判断损失结果是否满足预设的损失条件,直至损失结果满足预设的损失条件时,确定降噪处理模型训练完成;训练完成的降噪处理模型输出的第一处理音频信号为降噪音频信号。
在一示例性实施例中,该装置还包括:
第二样本获取单元,被配置为执行获取第二音频样本,第二音频样本中包含第二样本音频信号、第二样本音频信号对应的样本降噪音频信号以及第二样本音频信号对应的原始音频信号;第二样本音频信号为包含干扰信号的样本失真音频信号;
第二样本处理单元,被配置为执行将第二样本音频信号以及样本降噪音频信号输入至音频修复模型中,通过音频修复模型对第二样本音频信号和样本降噪音频信号进行处理,得到第二处理音频信号;
第二损失计算单元,被配置为执行根据第二处理音频信号和第二样本音频信号对应的原始音频信号进行损失计算,得到第二处理音频信号对应的损失结果;
第二判别单元,被配置为执行判断损失结果是否满足预设的损失条件,直至损失结果满足预设的损失条件时,确定音频修复模型训练完成。
在一示例性实施例中,该第二样本获取单元,包括:
第二获取子单元,被配置为执行获取第二音频信号以及第二音频信号对应的原始音频信号;第二音频信号为包含干扰信号的样本失真音频信号;
第三转换子单元,被配置为执行分别对第二音频信号以及第二音频信号对应的原始音频信号进行短时傅里叶变换,得到时频域上的第二样本音频信号以及时频域上的原始音频信号;
处理子单元,被配置为执行根据预先训练的降噪处理模型对时频域上的第二样本音频信号进行处理,得到第二样本音频信号对应的样本降噪音频信号;
构建子单元,被配置为执行根据时频域上的第二样本音频信号、时频域上的原始音频信号以及时频域上的样本降噪音频信号,构建得到第二音频样本。
在一示例性实施例中,该装置还包括:
第四转换子单元,,被配置为执行分别对时频域上的第二样本音频信号、时频域上的原始音频信号以及样本降噪音频信号进行频谱转换,得到梅尔频率倒谱上的第二样本音频信号、梅尔频率倒谱上的原始音频信号,以及时频域上的样本降噪音频信号;
构建子单元,被配置为执行根据梅尔频率倒谱上的第二样本音频信号、梅尔频率倒谱上的原始音频信号以及梅尔频率倒谱上的样本降噪音频信号,构建得到第二音频样本。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图10是根据一示例性实施例示出的一种用于音频信号处理方法的电子设备1000的框图。例如,电子设备1000可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。
参照图10,电子设备1000可以包括以下一个或多个组件:处理组件1002、存储器1004、电源组件1006、多媒体组件1008、音频组件1010、输入/输出(I/O)的接口1012、传感器组件1014以及通信组件1016。
处理组件1002通常控制电子设备1000的整体操作,诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件1002可以包括一个或多个处理器1020来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1002可以包括一个或多个模块,便于处理组件1002和其他组件之间的交互。例如,处理组件1002可以包括多媒体模块,以方便多媒体组件1008和处理组件1002之间的交互。
存储器1004被配置为存储各种类型的数据以支持在电子设备1000的操作。这些数据的示例包括用于在电子设备1000上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器1004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。
电源组件1006为电子设备1000的各种组件提供电力。电源组件1006可以包括电源管理***,一个或多个电源,及其他与为电子设备1000生成、管理和分配电力相关联的组件。
多媒体组件1008包括在所述电子设备1000和用户之间的提供输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1008包括前置摄像头和/或后置摄像头。当电子设备1000处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是固定的光学透镜***或具有焦距和光学变焦能力。
音频组件1010被配置为输出和/或输入音频信号。例如,音频组件1010包括麦克风(MIC),当电子设备1000处于操作模式,如呼叫模式、记录模式和音频识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1004或经由通信组件1016发送。在一些实施例中,音频组件1010还包括扬声器,用于输出音频信号。
I/O接口1012为处理组件1002和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1014包括一个或多个传感器,用于为电子设备1000提供各个方面的状态评估。例如,传感器组件1014可以检测到电子设备1000的打开/关闭状态,组件的相对定位,例如所述组件为电子设备1000的显示器和小键盘,传感器组件1014还可以检测电子设备1000或电子设备1000组件的位置改变,用户与电子设备1000接触的存在或不存在,设备1000方位或加速/减速和电子设备1000的温度变化。传感器组件1014可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1014还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。
通信组件1016被配置为便于电子设备1000和其他设备之间有线或无线方式的通信。电子设备1000可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件1016经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1016还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备1000可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器1004,上述指令可由电子设备1000的处理器1020执行以完成上述方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,所述计算机程序产品中包括指令,上述指令可由电子设备1000的处理器1020执行以完成上述方法。
图11是根据一示例性实施例示出的一种用于音频信号处理的电子设备1100的框图。例如,电子设备1100可以为服务器。参照图11,电子设备1100包括处理组件1120,其进一步包括一个或多个处理器,以及由存储器1122所代表的存储器资源,用于存储可由处理组件1120的执行的指令,例如应用程序。存储器1122中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1120被配置为执行指令,以执行上述方法。
电子设备1100还可以包括:电源组件1124被配置为执行电子设备1100的电源管理,有线或无线网络接口1126被配置为将电子设备1100连接到网络,和输入输出(I/O)接口1128。电子设备1100可以操作基于存储在存储器1122的操作***,例如Windows Server,Mac OS X,Unix,Linux,FreeBSD或类似。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器S22,上述指令可由电子设备S00的处理器执行以完成上述方法。存储介质可以是计算机可读存储介质,例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,所述计算机程序产品中包括指令,上述指令可由电子设备1100的处理器执行以完成上述方法。
需要说明的,上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (11)
1.一种音频信号处理方法,其特征在于,包括:
获取待修复音频信号;所述待修复音频信号为包含干扰信号的失真音频信号;
根据预先训练的降噪处理模型对所述待修复音频信号进行处理,得到降噪音频信号;所述降噪处理模型基于包含干扰信号的第一音频样本训练得到;所述降噪音频信号为消除所述干扰信号的失真音频信号;
将所述待修复音频信号和所述降噪音频信号输入至预先训练的音频修复模型中,得到修复后的目标音频信号;所述音频修复模型基于样本失真音频信号和所述样本失真音频信号对应的样本降噪音频信号构建的第二音频样本训练得到。
2.根据权利要求1所述的音频信号处理方法,其特征在于,所述获取待修复音频信号,包括:
获取待修复的第一音频信号;所述第一音频信号为包含干扰信号的失真音频信号;
对所述第一音频信号进行短时傅里叶变换,得到时频域上的第一转换音频信号;
对所述第一转换音频信号进行梅尔频率倒谱的转换处理,得到待修复音频信号。
3.根据权利要求1所述的音频信号处理方法,其特征在于,所述根据预先训练的降噪处理模型对所述待修复音频信号进行处理,得到降噪音频信号,包括:
将包含干扰信号的待修复音频信号输入至预先训练的降噪处理模型;所述干扰信号中包含噪声信号和混响信号;
通过预先训练的降噪处理模型对所述待修复音频信号中的所述噪声信号和混响信号进行处理,得到消除所述噪声信号和所述混响信号的降噪音频信号。
4.根据权利要求1所述的音频信号处理方法,其特征在于,所述将所述待修复音频信号和所述降噪音频信号输入至预先训练的音频修复模型中,得到修复后的目标音频信号之后,所述方法还包括:
将所述目标音频信号输入至音频编码器,通过所述音频编码器对梅尔频率倒谱上的所述目标音频信号进行转换,得到修复音频信号;所述修复音频信号为所述待修复音频信号修复后的时域上的音频信号。
5.根据权利要求1所述的音频信号处理方法,其特征在于,所述降噪处理模型的训练过程包括:
获取第一音频样本,所述第一音频样本包含第一样本音频信号和所述第一样本音频信号对应的原始音频信号;所述第一样本音频信号中包含干扰信号;
将所述第一样本音频信号输入至降噪处理模型中,通过所述降噪处理模型对所述第一样本音频信号进行处理,得到第一处理音频信号;
根据所述第一处理音频信号和所述原始音频信号进行损失计算,得到所述第一处理音频信号对应的损失结果;
判断所述损失结果是否满足预设的损失条件,直至所述损失结果满足所述预设的损失条件时,确定所述降噪处理模型训练完成;所述训练完成的降噪处理模型输出的第一处理音频信号为降噪音频信号。
6.根据权利要求1或2所述的音频信号处理方法,其特征在于,所述音频修复模型的训练过程包括:
获取第二音频样本,所述第二音频样本中包含第二样本音频信号、所述第二样本音频信号对应的样本降噪音频信号以及所述第二样本音频信号对应的原始音频信号;所述第二样本音频信号为包含干扰信号的样本失真音频信号;
将所述第二样本音频信号以及所述样本降噪音频信号输入至音频修复模型中,通过所述音频修复模型对所述第二样本音频信号和所述样本降噪音频信号进行处理,得到第二处理音频信号;
根据所述第二处理音频信号和所述第二样本音频信号对应的原始音频信号进行损失计算,得到所述第二处理音频信号对应的损失结果;
判断所述损失结果是否满足预设的损失条件,直至所述损失结果满足所述预设的损失条件时,确定所述音频修复模型训练完成。
7.根据权利要求6所述的音频信号处理方法,其特征在于,所述获取第二音频样本,包括:
获取第二音频信号以及所述第二音频信号对应的原始音频信号;所述第二音频信号为包含干扰信号的样本失真音频信号;
分别对所述第二音频信号以及所述第二音频信号对应的原始音频信号进行短时傅里叶变换,得到时频域上的第二样本音频信号以及时频域上的原始音频信号;
根据预先训练的所述降噪处理模型对时频域上的所述第二样本音频信号进行处理,得到所述第二样本音频信号对应的样本降噪音频信号;
根据时频域上的所述第二样本音频信号、时频域上的所述原始音频信号以及时频域上的所述样本降噪音频信号,构建得到第二音频样本。
8.根据权利要求7所述的音频信号处理方法,其特征在于,所述构建得到第二音频样本之前,所述方法还包括:
分别对所述时频域上的所述第二样本音频信号、所述时频域上的所述原始音频信号以及所述样本降噪音频信号进行频谱转换,得到梅尔频率倒谱上的第二样本音频信号、梅尔频率倒谱上的原始音频信号,以及时频域上的样本降噪音频信号;
所述构建得到第二音频样本,包括:
根据所述梅尔频率倒谱上的第二样本音频信号、所述梅尔频率倒谱上的原始音频信号以及所述梅尔频率倒谱上的样本降噪音频信号,构建得到第二音频样本。
9.一种音频信号处理装置,其特征在于,包括:
获取单元,被配置为执行获取待修复音频信号;所述待修复音频信号为包含干扰信号的失真音频信号;
消除干扰单元,被配置为执行根据预先训练的降噪处理模型对所述待修复音频信号进行处理,得到降噪音频信号;所述降噪处理模型基于包含干扰信号的第一音频样本训练得到;所述降噪音频信号为消除所述干扰信号的失真音频信号;
修复单元,被配置为执行将所述待修复音频信号和所述降噪音频信号输入至预先训练的音频修复模型中,得到修复后的目标音频信号;所述音频修复模型基于样本失真音频信号和所述样本失真音频信号对应的样本降噪音频信号构建的第二音频样本训练得到。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的音频信号处理方法。
11.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至7中任一项所述的音频信号处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310825895.1A CN116741191A (zh) | 2023-07-06 | 2023-07-06 | 音频信号处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310825895.1A CN116741191A (zh) | 2023-07-06 | 2023-07-06 | 音频信号处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116741191A true CN116741191A (zh) | 2023-09-12 |
Family
ID=87902709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310825895.1A Pending CN116741191A (zh) | 2023-07-06 | 2023-07-06 | 音频信号处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116741191A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117357104A (zh) * | 2023-12-07 | 2024-01-09 | 深圳市好兄弟电子有限公司 | 一种基于用户特征的音频分析方法 |
CN117395181A (zh) * | 2023-12-12 | 2024-01-12 | 方图智能(深圳)科技集团股份有限公司 | 基于物联网的低延时多媒体音频传输检测方法及*** |
-
2023
- 2023-07-06 CN CN202310825895.1A patent/CN116741191A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117357104A (zh) * | 2023-12-07 | 2024-01-09 | 深圳市好兄弟电子有限公司 | 一种基于用户特征的音频分析方法 |
CN117357104B (zh) * | 2023-12-07 | 2024-04-26 | 深圳市好兄弟电子有限公司 | 一种基于用户特征的音频分析方法 |
CN117395181A (zh) * | 2023-12-12 | 2024-01-12 | 方图智能(深圳)科技集团股份有限公司 | 基于物联网的低延时多媒体音频传输检测方法及*** |
CN117395181B (zh) * | 2023-12-12 | 2024-02-13 | 方图智能(深圳)科技集团股份有限公司 | 基于物联网的低延时多媒体音频传输检测方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210312902A1 (en) | Method and electronic device for separating mixed sound signal | |
CN116741191A (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
CN108198569B (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
CN109887515B (zh) | 音频处理方法及装置、电子设备和存储介质 | |
CN110503968B (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
CN110931028B (zh) | 一种语音处理方法、装置和电子设备 | |
CN107945806B (zh) | 基于声音特征的用户识别方法及装置 | |
CN108364635B (zh) | 一种语音识别的方法和装置 | |
CN112185388B (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
CN116129931B (zh) | 一种视听结合的语音分离模型搭建方法及语音分离方法 | |
CN109036404A (zh) | 语音交互方法及装置 | |
CN107437412B (zh) | 一种声学模型处理方法、语音合成方法、装置及相关设备 | |
CN111583142A (zh) | 图像降噪方法及装置、电子设备和存储介质 | |
CN110970015B (zh) | 一种语音处理方法、装置和电子设备 | |
CN112820300B (zh) | 音频处理方法及装置、终端、存储介质 | |
CN112185421B (zh) | 音质检测方法、装置、电子设备及存储介质 | |
CN109754816B (zh) | 一种语音数据处理的方法及装置 | |
CN112201267A (zh) | 一种音频处理方法、装置、电子设备及存储介质 | |
CN110580910B (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
CN111696550A (zh) | 语音处理方法和装置、用于语音处理的装置 | |
CN111046780A (zh) | 神经网络训练及图像识别方法、装置、设备和存储介质 | |
CN111667842B (zh) | 音频信号处理方法及装置 | |
CN112951202B (zh) | 语音合成方法、装置、电子设备以及程序产品 | |
CN113115104A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN118038889A (zh) | 音频数据处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |