CN113921022B - 音频信号分离方法、装置、存储介质和电子设备 - Google Patents

音频信号分离方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN113921022B
CN113921022B CN202111517138.5A CN202111517138A CN113921022B CN 113921022 B CN113921022 B CN 113921022B CN 202111517138 A CN202111517138 A CN 202111517138A CN 113921022 B CN113921022 B CN 113921022B
Authority
CN
China
Prior art keywords
audio signal
target
frequency spectrum
spectrum
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111517138.5A
Other languages
English (en)
Other versions
CN113921022A (zh
Inventor
智鹏鹏
陈昌滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202111517138.5A priority Critical patent/CN113921022B/zh
Publication of CN113921022A publication Critical patent/CN113921022A/zh
Application granted granted Critical
Publication of CN113921022B publication Critical patent/CN113921022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Stereophonic System (AREA)

Abstract

本公开涉及一种音频信号分离方法、装置、存储介质和电子设备,其中方法包括:获取原始音频信号,其包括目标音频信号和背景音频信号;对原始音频信号进行短时傅里叶变换处理得到原始音频信号的频谱;将原始音频信号输入预设分离模型以得到目标音频信号对应的第一掩膜,基于第一掩膜和原始音频信号的频谱中的幅值谱生成目标音频信号对应的幅值谱;基于目标音频信号对应的幅值谱、原始音频信号的频谱中的相位谱得到目标音频信号对应的第一目标频谱;将第一目标频谱输入语音增强模型以得到目标音频信号对应的第二掩膜,基于第二掩膜和第一目标频谱,确定目标音频信号对应的第二目标频谱;对第二目标频谱进行短时傅里叶逆变换处理得到目标音频信号。

Description

音频信号分离方法、装置、存储介质和电子设备
技术领域
本公开实施例涉及音频信号处理技术领域,尤其涉及一种音频信号分离方法、音频信号分离装置,以及实现音频信号分离方法的计算机可读存储介质和电子设备。
背景技术
音乐课堂教学在教育领域发挥很大的作用,但是课堂上的音乐信号常常伴随着人声以及背景音乐如伴奏和噪声等,而音乐课堂常常需要提取出例如人声以更方便的教学,因此如何将人声从音乐信号中分离出来成为一个需要解决的问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种音频信号分离方法、音频信号分离装置,以及实现音频信号分离方法的计算机可读存储介质和电子设备。
第一方面,本公开实施例提供了一种音频信号分离方法,包括:
获取待分离的原始音频信号,所述原始音频信号包括目标音频信号和背景音频信号;
对所述原始音频信号进行短时傅里叶变换处理,得到所述原始音频信号的频谱,所述频谱包括相位谱和幅值谱;
将所述原始音频信号输入预设分离模型,以得到所述目标音频信号对应的第一掩膜,基于所述第一掩膜和所述原始音频信号的频谱中的幅值谱,生成所述目标音频信号对应的幅值谱;
基于所述目标音频信号对应的幅值谱、所述原始音频信号的频谱中的相位谱,得到所述目标音频信号对应的第一目标频谱;
将所述第一目标频谱输入语音增强模型,以得到所述目标音频信号对应的第二掩膜,基于所述第二掩膜和所述第一目标频谱,确定所述目标音频信号对应的第二目标频谱;
对所述第二目标频谱进行短时傅里叶逆变换处理,得到目标音频信号。
在一个实施例中,所述语音增强模型是带有注意力机制的语音增强模型;
所述将所述第一目标频谱输入语音增强模型,以得到所述目标音频信号对应的第二掩膜,包括:
提取所述第一目标频谱的特征信息;
基于所述注意力机制提取所述特征信息中的目标特征信息;
基于所述特征信息和所述目标特征信息确定第二掩膜。
在一个实施例中,所述对所述原始音频信号进行短时傅里叶变换处理之前,所述方法包括:
对所述原始音频信号添加具有不同预设信噪比的噪音信号,得到混和音频信号;
将所述混和音频信号作为新的原始音频信号,返回所述对所述原始音频信号进行短时傅里叶变换处理的步骤。
在一个实施例中,所述对所述原始音频信号进行短时傅里叶变换处理,包括:
对所述原始音频信号进行预处理,得到预处理音频信号;其中,所述预处理包括分帧处理和加窗函数处理;
对所述预处理音频信号进行短时傅里叶变换处理。
在一个实施例中,所述基于所述第一掩膜和所述原始音频信号的频谱中的幅值谱,生成所述目标音频信号对应的幅值谱,包括:
对所述第一掩膜和所述原始音频信号的频谱中的幅值谱做哈达玛积处理,得到所述目标音频信号对应的幅值谱。
在一个实施例中,所述基于所述第二掩膜和所述第一目标频谱,确定所述目标音频信号对应的第二目标频谱,包括:
对所述第二掩膜和所述第一目标频谱进行点乘处理,得到所述目标音频信号对应的第二目标频谱。
在一个实施例中,所述预设分离模型包括GRU(Gated Recurrent Unit)神经网络模型。
第二方面,本公开实施例提供了一种音频信号分离装置,包括:
获取模块,用于获取待分离的原始音频信号,所述原始音频信号包括目标音频信号和背景音频信号;
变换模块,用于对所述原始音频信号进行短时傅里叶变换处理,得到所述原始音频信号的频谱,所述频谱包括相位谱和幅值谱;
第一处理模块,用于将所述原始音频信号输入预设分离模型,以得到所述目标音频信号对应的第一掩膜,基于所述第一掩膜和所述原始音频信号的频谱中的幅值谱,生成所述目标音频信号对应的幅值谱;
第二处理模块,用于基于所述目标音频信号对应的幅值谱、所述原始音频信号的频谱中的相位谱,得到所述目标音频信号对应的第一目标频谱;
增强处理模块,用于将所述第一目标频谱输入语音增强模型,以得到所述目标音频信号对应的第二掩膜,基于所述第二掩膜和所述第一目标频谱,确定所述目标音频信号对应的第二目标频谱;
反变换模块,用于对所述第二目标频谱进行短时傅里叶逆变换处理,得到目标音频信号。
第三方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述音频信号分离方法的步骤。
第四方面,本公开实施例提供一种电子设备,包括:
处理器;以及
存储器,用于存储计算机程序;
其中,所述处理器配置为经由执行所述计算机程序来执行上述任一实施例所述音频信号分离方法的步骤。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例中,获取待分离的原始音频信号,所述原始音频信号包括目标音频信号和背景音频信号;对所述原始音频信号进行短时傅里叶变换处理,得到所述原始音频信号的频谱,所述频谱包括相位谱和幅值谱;将所述原始音频信号输入预设分离模型,以得到所述目标音频信号对应的第一掩膜,基于所述第一掩膜和所述原始音频信号的频谱中的幅值谱,生成所述目标音频信号对应的幅值谱;基于所述目标音频信号对应的幅值谱、所述原始音频信号的频谱中的相位谱,得到所述目标音频信号对应的第一目标频谱;将所述第一目标频谱输入语音增强模型,以得到所述目标音频信号对应的第二掩膜,基于所述第二掩膜和所述第一目标频谱,确定所述目标音频信号对应的第二目标频谱;对所述第二目标频谱进行短时傅里叶逆变换处理,得到目标音频信号。这样,通过短时傅里叶变换处理得到原始音频信号的频谱即相位谱和幅值谱,通过预设分离模型得到目标音频信号对应的第一掩膜,然后基于该第一掩膜和原始音频信号的频谱中的幅值谱生成目标音频信号对应的幅值谱,再基于目标音频信号对应的幅值谱、原始音频信号的频谱中的相位谱得到目标音频信号对应的第一目标频谱,即通过上述处理使得在语音增强模型处理时,输入语音增强模型的信号包括了目标音频信号对应的第一目标频谱即幅值谱和相位谱,使得语音增强阶段考虑了相位信息,从而使得对原始音频信号如音乐信号的分离准确性提高,音频信号分离的效果较好。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例音频信号分离方法流程图;
图2为本公开另一实施例音频信号分离方法流程图;
图3为本公开实施例音频信号分离装置示意图;
图4为本公开实施例实现音频信号分离方法的电子设备示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
应当理解,在下文中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
音乐信号中的背景音乐如伴奏是由多种音调类乐器组成的伴奏,各种乐器种类繁多相互交杂,通常由多个乐器声源的声音信号混合而成,因此背景音乐是区别一般语音信号的一种复杂音频信号。相关技术中,针对音乐信号的人声分离研究是基于信号处理实现,如鲁棒主成分分析方法等,虽然分离性能有所提升但是依然不理想。随着深度学习神经网络的发展,利用神经网络技术处理音乐信号的非线性关系表现出了良好的非线性能力,分离性能有所提高。
但是考虑背景音乐如伴奏通常是不平稳结构,并且具有谐波结构,这给分离造成了困难,为了改善这些问题,目前分离阶段选择用GRU(Gated Recurrent Unit)网络,之后在语音增强阶段当前普遍是在频域上进行的,会丢弃相位信息,使得音乐信号的分离准确性降低。
鉴于此,本公开提供一种音频信号分离方法,图1为本公开实施例的一种音频信号分离方法流程图,该音频信号分离方法可以由电子设备如计算机、智能移动设备等执行,具体可以包括以下步骤:
步骤S101:获取待分离的原始音频信号,所述原始音频信号包括目标音频信号和背景音频信号。
示例性的,原始音频信号X可以包括课堂的音乐信号,具体可以包括目标音频信号X1如人声信号和背景音频信号X2如背景音乐(如伴奏)信号。该原始音频信号X可以通过音频录制设备如智能手机的录音应用程序录制得到,但也不限于此。
步骤S102:对所述原始音频信号进行短时傅里叶变换处理,得到所述原始音频信号的频谱,所述频谱包括相位谱和幅值谱。
具体的,短时傅里叶变换(STFT,Short-Time Fourier Transform)是和傅里叶变换相关的一种数学变换,用以确定时变信号其局部区域正弦波的频率与相位,具体可以参考现有技术理解。本实施例中利用短时傅里叶变换处理原始音频信号X以得到其频谱如相位谱和幅值谱,短时傅里叶变换得到的频谱通常是复数谱,包含相位和幅值两方面的信息,具体以例如相位谱矩阵P和幅值谱矩阵A体现。
步骤S103:将所述原始音频信号输入预设分离模型,以得到所述目标音频信号对应的第一掩膜,基于所述第一掩膜和所述原始音频信号的频谱中的幅值谱,生成所述目标音频信号对应的幅值谱。
示例性的,预设分离模型可以包括但不限于是GRU(Gated Recurrent Unit)神经网络模型。在一个具体示例中,例如采用五层的GRU神经网络,其中每层网络的隐藏层可以设置例如512个神经元,最后一层可以是全连接层如设置2层的全连接层,但并不限于此。
在一个示例中,原始音频信号X输入预设分离模型如GRU神经网络模型以分离得到目标音频信号X1对应的第一掩膜Y1以及背景音频信号X2对应的掩膜,背景音频信号X2对应的掩膜忽略不作处理。基于第一掩膜Y1和原始音频信号X的频谱中的幅值谱如幅值谱矩阵A生成目标音频信号X1对应的幅值谱如幅值谱矩阵A1。第一掩膜Y1可以是理想比率掩模(Ideal Ratio Mask),但也并不限于此。
步骤S104:基于所述目标音频信号对应的幅值谱、所述原始音频信号的频谱中的相位谱,得到所述目标音频信号对应的第一目标频谱。
示例性的,再基于目标音频信号X1对应的幅值谱如幅值谱矩阵A1和原始音频信号X的频谱中的相位谱如相位谱矩阵P,确定目标音频信号X1对应的第一目标频谱如第一目标频谱矩阵M1。此时目标音频信号X1对应的第一目标频谱如第一目标频谱矩阵M1包含了相应的相位信息和频谱信息。
步骤S105:将所述第一目标频谱输入语音增强模型,以得到所述目标音频信号对应的第二掩膜,基于所述第二掩膜和所述第一目标频谱,确定所述目标音频信号对应的第二目标频谱。
示例性的,将第一目标频谱如第一目标频谱矩阵M1输入语音增强模型以进行语音增强处理,得到目标音频信号X1对应的第二掩膜Y2,再基于第二掩膜Y2和第一目标频谱如第一目标频谱矩阵M1确定目标音频信号X1对应的第二目标频谱如第二目标频谱矩阵M2
可以理解的是,此处得到的目标音频信号对应的第二目标频谱如第二目标频谱矩阵M2是包含幅度和相位信息,这时已经在频域上做完了目标音频信号X1的分离和增强处理。
步骤S106:对所述第二目标频谱进行短时傅里叶逆变换处理,得到目标音频信号。
示例性的,对第二目标频谱如第二目标频谱矩阵M2再进行短时傅里叶逆变换(ISTFT,Inverse Short-Time Fourier Transform)处理,即变换回时域得到目标音频信号X1
本公开实施例的音频信号分离方法,通过短时傅里叶变换处理得到原始音频信号的频谱即相位谱和幅值谱,通过预设分离模型得到目标音频信号对应的第一掩膜,然后基于该第一掩膜和原始音频信号的频谱中的幅值谱生成目标音频信号对应的幅值谱,再基于目标音频信号对应的幅值谱、原始音频信号的频谱中的相位谱得到目标音频信号对应的第一目标频谱,即通过上述处理使得在语音增强模型处理时,输入语音增强模型的信号包括了目标音频信号对应的第一目标频谱即幅值谱和相位谱,使得语音增强阶段考虑了相位信息,从而使得对原始音频信号如音乐信号的分离准确性提高,音频信号分离的效果较好。
在上述实施的基础上,在一个实施例中,所述语音增强模型是带有注意力(attention)机制的语音增强模型。示例性的,例如语音增强模型可以选择用注意力机制的复数网络,此复数网络可在卷积递归神经网络CRN的基础上加入注意力(attention)层得到。注意力层加入在跳跃连接的部分,可以将模型中的编码器部分提取的细节特征提取到解码器中,这样可以保留对语音增强的有作用的信息如与目标音频信号对应的特征信息。在一个实施例中,将所述第一目标频谱输入语音增强模型,以得到所述目标音频信号对应的第二掩膜,具体可以包括以下步骤:
步骤S201:提取所述第一目标频谱的特征信息。
示例性的,将第一目标频谱如第一目标频谱矩阵M1输入语音增强模型以进行语音增强处理,语音增强模型中的编码器基于第一目标频谱矩阵M1进行特征提取得到特征信息也即目标音频信号X1对应的特征信息X’,此时的特征信息X’可能包含噪声特征信息。
步骤S202:基于所述注意力机制提取所述特征信息中的目标特征信息。
示例性的,语音增强模型中的注意力(attention)层再从编码器提取的目标音频信号X1对应的特征信息X’中提取目标特征信息X’’,如特征信息X’中噪声特征信息之外的其余特征信息。
步骤S203:基于所述特征信息和所述目标特征信息确定第二掩膜。
示例性的,可以基于特征信息X’和目标特征信息X’’融合得到目标音频信号X1对应的第二掩膜Y2。第二掩膜Y2也可以是理想比率掩模。
本公开实施例的音频信号分离方法使得在语音增强模型处理时,输入语音增强模型的信号包括了目标音频信号对应的第一目标频谱即幅值谱和相位谱,使得语音增强阶段考虑了相位信息,同时采用带有注意力机制的语音增强模型进行处理,使得对原始音频信号如音乐信号的分离准确性进一步提高,音频信号分离的效果相对更好。
在一个实施例中,所述对所述原始音频信号进行短时傅里叶变换处理之前,所述方法包括:
步骤i):对所述原始音频信号添加具有不同预设信噪比的噪音信号,得到混和音频信号。
示例性的,在原始音频信号中加入具有不同预设信噪比的噪音信号,如信噪比为-5db、-3db、-4db等,但也并不限于此。这样做可使得得到的混和音频信号更好的模拟音乐教学场景中的噪声成分。
步骤ii):将所述混和音频信号作为新的原始音频信号,返回所述对所述原始音频信号进行短时傅里叶变换处理的步骤。
也即对添加了噪音信号的新的原始音频信号进行步骤S102中的短时傅里叶变换处理,之后执行步骤S103~S106的处理过程。
在一个实施例中,所述对所述原始音频信号进行短时傅里叶变换处理,包括以下步骤:
步骤a):对所述原始音频信号进行预处理,得到预处理音频信号;其中,所述预处理包括分帧处理和加窗函数处理。
示例性的,分帧处理例如将原始音频信号X分帧成帧长为25ms,帧移为6.25ms,加汉明窗如2048点的汉明窗,此处仅为举例说明,并不限于此。
步骤b):对所述预处理音频信号进行短时傅里叶变换处理。
示例性的,分帧处理和加窗函数处理之后,进行短时傅里叶变换处理,具体的短时傅里叶变换处理过程可以参考现有技术理解,此处不再赘述。
可选的,在一个实施例中,基于第一掩膜和原始音频信号的频谱中的幅值谱,生成目标音频信号对应的幅值谱,具体可以包括:对第一掩膜和原始音频信号的频谱中的幅值谱做哈达玛积处理,得到目标音频信号对应的幅值谱。
示例性的,对第一掩膜Y1和原始音频信号X的频谱中的幅值谱如幅值谱矩阵A做哈达玛积(Hadamard product)处理,从而生成目标音频信号X1对应的幅值谱如幅值谱矩阵A1。关于哈达玛积处理的具体过程可以参考现有技术理解,此处不再赘述。
可选的,在一个实施例中,所述基于所述第二掩膜和所述第一目标频谱,确定所述目标音频信号对应的第二目标频谱,具体可以包括:对所述第二掩膜和所述第一目标频谱进行点乘处理,得到所述目标音频信号对应的第二目标频谱。
示例性的,对第二掩膜Y2和第一目标频谱如第一目标频谱矩阵M1进行点乘处理以确定目标音频信号X1对应的第二目标频谱如第二目标频谱矩阵M2
需要说明的是,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。另外,也易于理解的是,这些步骤可以是例如在多个模块/进程/线程中同步或异步执行。
本公开实施例提供了一种音频信号分离装置,如图3所示音频信号分离装置可包括:
获取模块301,用于获取待分离的原始音频信号,所述原始音频信号包括目标音频信号和背景音频信号;
变换模块302,用于对所述原始音频信号进行短时傅里叶变换处理,得到所述原始音频信号的频谱,所述频谱包括相位谱和幅值谱;
第一处理模块303,用于将所述原始音频信号输入预设分离模型,以得到所述目标音频信号对应的第一掩膜,基于所述第一掩膜和所述原始音频信号的频谱中的幅值谱,生成所述目标音频信号对应的幅值谱;
第二处理模块304,用于基于所述目标音频信号对应的幅值谱、所述原始音频信号的频谱中的相位谱,得到所述目标音频信号对应的第一目标频谱;
增强处理模块305,用于将所述第一目标频谱输入语音增强模型,以得到所述目标音频信号对应的第二掩膜,基于所述第二掩膜和所述第一目标频谱,确定所述目标音频信号对应的第二目标频谱;
反变换模块306,用于对所述第二目标频谱进行短时傅里叶逆变换处理,得到目标音频信号。
本公开实施例的音频信号分离装置,通过短时傅里叶变换处理得到原始音频信号的频谱即相位谱和幅值谱,通过预设分离模型得到目标音频信号对应的第一掩膜,然后基于该第一掩膜和原始音频信号的频谱中的幅值谱生成目标音频信号对应的幅值谱,再基于目标音频信号对应的幅值谱、原始音频信号的频谱中的相位谱得到目标音频信号对应的第一目标频谱,即通过上述处理使得在语音增强模型处理时,输入语音增强模型的信号包括了目标音频信号对应的第一目标频谱即幅值谱和相位谱,使得语音增强阶段考虑了相位信息,从而使得对原始音频信号如音乐信号的分离准确性提高,音频信号分离的效果较好。
在一个实施例中,所述语音增强模型是带有注意力机制的语音增强模型。所述增强处理模块305还用于:提取所述第一目标频谱的特征信息;基于所述注意力机制提取所述特征信息中的目标特征信息;基于所述特征信息和所述目标特征信息确定第二掩膜。
在一个实施例中,所述装置还包括预处理模块,用于:对所述原始音频信号添加具有不同预设信噪比的噪音信号,得到混和音频信号,将所述混和音频信号作为新的原始音频信号,触发变换模块302对原始音频信号进行短时傅里叶变换处理。
在一个实施例中,所述变换模块302还用于:对所述原始音频信号进行预处理,得到预处理音频信号;其中,所述预处理包括分帧处理和加窗函数处理;对所述预处理音频信号进行短时傅里叶变换处理。
在一个实施例中,所述第一处理模块303还用于:对所述第一掩膜和所述原始音频信号的频谱中的幅值谱做哈达玛积处理,得到所述目标音频信号对应的幅值谱。
在一个实施例中,所述增强处理模块305还用于:对所述第二掩膜和所述第一目标频谱进行点乘处理,得到所述目标音频信号对应的第二目标频谱。
在一个实施例中,所述预设分离模型包括但不限于GRU(Gated Recurrent Unit)神经网络模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式以及带来的相应技术效果已经在有关该方法的实施例中进行了对应的详细描述,此处将不做详细阐述说明。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现木公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开以上各实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
参考图4,现将描述可以作为本公开的服务器或客户端的电子设备800的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图4所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
电子设备800中的多个部件连接至I/O接口805,包括:输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型的设备,输入单元806可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元804可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。例如,在一些实施例中,上述实施例的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。在一些实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述实施例的方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种音频信号分离方法,其特征在于,包括:
获取待分离的原始音频信号,所述原始音频信号包括目标音频信号和背景音频信号;
对所述原始音频信号进行短时傅里叶变换处理,得到所述原始音频信号的频谱,所述频谱包括相位谱和幅值谱;
将所述原始音频信号输入预设分离模型,以得到所述目标音频信号对应的第一掩膜,基于所述第一掩膜和所述原始音频信号的频谱中的幅值谱,生成所述目标音频信号对应的幅值谱;
基于所述目标音频信号对应的幅值谱、所述原始音频信号的频谱中的相位谱,得到所述目标音频信号对应的第一目标频谱;
将所述第一目标频谱输入语音增强模型,以得到所述目标音频信号对应的第二掩膜,基于所述第二掩膜和所述第一目标频谱,确定所述目标音频信号对应的第二目标频谱;
对所述第二目标频谱进行短时傅里叶逆变换处理,得到目标音频信号。
2.根据权利要求1所述的音频信号分离方法,其特征在于,所述语音增强模型是带有注意力机制的语音增强模型;
所述将所述第一目标频谱输入语音增强模型,以得到所述目标音频信号对应的第二掩膜,包括:
提取所述第一目标频谱的特征信息;
基于所述注意力机制提取所述特征信息中的目标特征信息;
基于所述特征信息和所述目标特征信息确定第二掩膜。
3.根据权利要求1或2所述的音频信号分离方法,其特征在于,所述对所述原始音频信号进行短时傅里叶变换处理之前,所述方法包括:
对所述原始音频信号添加具有不同预设信噪比的噪音信号,得到混和音频信号;
将所述混和音频信号作为新的原始音频信号,返回所述对所述原始音频信号进行短时傅里叶变换处理的步骤。
4.根据权利要求3所述的音频信号分离方法,其特征在于,所述对所述原始音频信号进行短时傅里叶变换处理,包括:
对所述原始音频信号进行预处理,得到预处理音频信号;其中,所述预处理包括分帧处理和加窗函数处理;
对所述预处理音频信号进行短时傅里叶变换处理。
5.根据权利要求1或2所述的音频信号分离方法,其特征在于,所述基于所述第一掩膜和所述原始音频信号的频谱中的幅值谱,生成所述目标音频信号对应的幅值谱,包括:
对所述第一掩膜和所述原始音频信号的频谱中的幅值谱做哈达玛积处理,得到所述目标音频信号对应的幅值谱。
6.根据权利要求1或2所述的音频信号分离方法,其特征在于,所述基于所述第二掩膜和所述第一目标频谱,确定所述目标音频信号对应的第二目标频谱,包括:
对所述第二掩膜和所述第一目标频谱进行点乘处理,得到所述目标音频信号对应的第二目标频谱。
7.根据权利要求1或2所述的音频信号分离方法,其特征在于,所述预设分离模型包括GRU(Gated Recurrent Unit)神经网络模型。
8.一种音频信号分离装置,其特征在于,包括:
获取模块,用于获取待分离的原始音频信号,所述原始音频信号包括目标音频信号和背景音频信号;
变换模块,用于对所述原始音频信号进行短时傅里叶变换处理,得到所述原始音频信号的频谱,所述频谱包括相位谱和幅值谱;
第一处理模块,用于将所述原始音频信号输入预设分离模型,以得到所述目标音频信号对应的第一掩膜,基于所述第一掩膜和所述原始音频信号的频谱中的幅值谱,生成所述目标音频信号对应的幅值谱;
第二处理模块,用于基于所述目标音频信号对应的幅值谱、所述原始音频信号的频谱中的相位谱,得到所述目标音频信号对应的第一目标频谱;
增强处理模块,用于将所述第一目标频谱输入语音增强模型,以得到所述目标音频信号对应的第二掩膜,基于所述第二掩膜和所述第一目标频谱,确定所述目标音频信号对应的第二目标频谱;
反变换模块,用于对所述第二目标频谱进行短时傅里叶逆变换处理,得到目标音频信号。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1~7任一项所述音频信号分离方法的步骤。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储计算机程序;
其中,所述处理器配置为经由执行所述计算机程序来执行权利要求1~7任一项所述音频信号分离方法的步骤。
CN202111517138.5A 2021-12-13 2021-12-13 音频信号分离方法、装置、存储介质和电子设备 Active CN113921022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111517138.5A CN113921022B (zh) 2021-12-13 2021-12-13 音频信号分离方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111517138.5A CN113921022B (zh) 2021-12-13 2021-12-13 音频信号分离方法、装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN113921022A CN113921022A (zh) 2022-01-11
CN113921022B true CN113921022B (zh) 2022-02-25

Family

ID=79248737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111517138.5A Active CN113921022B (zh) 2021-12-13 2021-12-13 音频信号分离方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN113921022B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114678037B (zh) * 2022-04-13 2022-10-25 北京远鉴信息技术有限公司 一种重叠语音的检测方法、装置、电子设备及存储介质
CN115277935A (zh) * 2022-07-29 2022-11-01 上海喜马拉雅科技有限公司 背景音乐音量调节方法、装置、电子设备及存储介质
CN114999508B (zh) * 2022-07-29 2022-11-08 之江实验室 一种利用多源辅助信息的通用语音增强方法和装置
CN116030821A (zh) * 2023-03-27 2023-04-28 北京探境科技有限公司 音频处理方法、装置、电子设备及可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9601124B2 (en) * 2015-01-07 2017-03-21 Adobe Systems Incorporated Acoustic matching and splicing of sound tracks
CN110491407B (zh) * 2019-08-15 2021-09-21 广州方硅信息技术有限公司 语音降噪的方法、装置、电子设备及存储介质
CN111105809B (zh) * 2019-12-31 2022-03-22 云知声智能科技股份有限公司 一种降噪方法及装置
CN111899756B (zh) * 2020-09-29 2021-04-09 北京清微智能科技有限公司 一种单通道语音分离方法和装置
CN113035221B (zh) * 2021-02-26 2023-12-19 北京达佳互联信息技术有限公司 语音处理模型的训练方法和装置以及语音处理方法和装置
CN113470684B (zh) * 2021-07-23 2024-01-12 平安科技(深圳)有限公司 音频降噪方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113921022A (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN113921022B (zh) 音频信号分离方法、装置、存储介质和电子设备
CN110085251B (zh) 人声提取方法、人声提取装置及相关产品
US10014002B2 (en) Real-time audio source separation using deep neural networks
CN111370019B (zh) 声源分离方法及装置、神经网络的模型训练方法及装置
CN109785820A (zh) 一种处理方法、装置及设备
CN110808034A (zh) 语音转换方法、装置、存储介质及电子设备
CN112820315B (zh) 音频信号处理方法、装置、计算机设备及存储介质
CN104538011A (zh) 一种音调调节方法、装置及终端设备
CN108831437A (zh) 一种歌声生成方法、装置、终端和存储介质
CN114203163A (zh) 音频信号处理方法及装置
CN113345460B (zh) 音频信号处理方法、装置、设备及存储介质
US20210158816A1 (en) Method and apparatus for voice interaction, device and computer readable storate medium
CN113327594B (zh) 语音识别模型训练方法、装置、设备及存储介质
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
CN113421584A (zh) 音频降噪方法、装置、计算机设备及存储介质
Agrawal et al. Unsupervised modulation filter learning for noise-robust speech recognition
US9445210B1 (en) Waveform display control of visual characteristics
CN113450811B (zh) 对音乐进行通透处理的方法及设备
US20230015112A1 (en) Method and apparatus for processing speech, electronic device and storage medium
Tachibana et al. A real-time audio-to-audio karaoke generation system for monaural recordings based on singing voice suppression and key conversion techniques
CN113393857B (zh) 一种音乐信号的人声消除方法、设备及介质
CN111477248B (zh) 一种音频噪声检测方法及装置
CN114999440A (zh) 虚拟形象生成方法、装置、设备、存储介质以及程序产品
Hu et al. Learnable spectral dimension compression mapping for full-band speech enhancement
Zouhir et al. Power Normalized Gammachirp Cepstral (PNGC) coefficients-based approach for robust speaker recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant