CN110139206B - 一种立体声音频的处理方法及*** - Google Patents
一种立体声音频的处理方法及*** Download PDFInfo
- Publication number
- CN110139206B CN110139206B CN201910349362.4A CN201910349362A CN110139206B CN 110139206 B CN110139206 B CN 110139206B CN 201910349362 A CN201910349362 A CN 201910349362A CN 110139206 B CN110139206 B CN 110139206B
- Authority
- CN
- China
- Prior art keywords
- domain signal
- frequency domain
- right channel
- left channel
- time domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 56
- 238000000034 method Methods 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 14
- 239000000126 substance Substances 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 10
- 238000012805 post-processing Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 9
- 230000008030 elimination Effects 0.000 description 11
- 238000003379 elimination reaction Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- SNDPXSYFESPGGJ-UHFFFAOYSA-N L-norVal-OH Natural products CCCC(N)C(O)=O SNDPXSYFESPGGJ-UHFFFAOYSA-N 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/005—Musical accompaniment, i.e. complete instrumental rhythm synthesis added to a performed melody, e.g. as output by drum machines
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Stereophonic System (AREA)
Abstract
本发明实施例提供一种立体声音频的处理方法及***,包括:S1.将每个频点在第一左声道频域信号中的相位和第一右声道频域信号中的相位的相位差,与根据预设参数计算得到的相位判定曲线在所述频点的曲线值进行比较;S2.根据比较结果调整所述第一左声道频域信号和所述第一右声道频域信号,得到第二左声道频域信号和第二右声道频域信号;S3.将所述第二左声道频域信号和所述第二右声道频域信号变换为脉冲编码调制数据,并输出。本发明相比较现有伴奏音乐提取方法,可将计算复杂度和算法延时减少一半,同时很好保留低频区域的音乐成分,并解决高频区域人声残留过多等问题。
Description
技术领域
本发明涉及音频处理领域,尤其涉及一种立体声音频的处理方法和装置。
背景技术
较新的歌曲如网络歌曲、原创歌曲等往往发布到网络上时不会同时发布伴奏音乐;较老歌曲通常伴奏缺失,这就造成人们想演唱这些歌曲时找不到伴奏,演唱体验降低。对歌曲的人声进行消除,获取伴奏音乐,不依赖特定的伴奏曲库服务器的伴奏提取方法是具有较大的市场需求的。
现有伴奏提取方法有如下几种:
1.人工提取,使用该方法提取伴奏音乐时需要靠人工去消除歌曲中人声,主要依靠人工调整均衡器降低人声部分频点对应的增益,由于人声谐波分布广泛,人工调整在时间成本和效果上都不尽人意;
2.对立体声歌曲在时域的左右声道相减消除人声的方法,使用该方法时对左右声道同步要求较高,且处理后的伴奏音乐的人声还是较明显;
3.采用频域互相关人声消除方法,使用该方法时对歌曲左右声道数据分别分帧做频域互相关计算,通过对互相关值较高的频点乘以较小系数再变换为时域来消除人声,该方法计算复杂度较高,人声消除效果较上一方法提高,但处理后的伴奏音乐的人声依然较明显;
4.采用频域相位差、幅度比消除人声方法,使用该方法时,分别对歌曲左右声道分帧变换到频域,计算左右声道对应频点的相位差和幅度比,设置一定阈值,在相位差小于一定相位阈值且或幅度比小于一定的幅度比阈值时将对应频点值清0,再变换为频域。该方法使用幅度比消除人声计算效果较差,使用相位差消除人声时虽比前几种方法效果提升,但计算复杂度高,且低频成分削弱过多导致伴奏音乐中的鼓声等低频成份大部分被消除,在高频部分人声残留又较多,这样使伴奏听起来低频分量明显不足且残留人声比较刺耳。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供一种立体声音频的处理方法及***,以实现对相位差消除人声方法的改进和提升。
一方面,本发明实施例提供了一种立体声音频的处理方法,包括:
S1.将每个频点在第一左声道频域信号中的相位和第一右声道频域信号中的相位的相位差,与根据预设参数计算得到的相位判定曲线在所述频点的曲线值进行比较;
S2.根据比较结果调整所述第一左声道频域信号和所述第一右声道频域信号,得到第二左声道频域信号和第二右声道频域信号;
S3.将所述第二左声道频域信号和所述第二右声道频域信号变换为脉冲编码调制数据,并输出。
更进一步的,所述步骤S1中,
所述预设参数包括:信号处理强度、信号处理精度、音频数据采样率和信号处理频率范围;
所述相位判定曲线为:
其中,
FIndex为所述频点;
Round()为取整函数;
FS为音频数据采样率;
FFTSIZE为FFT变换点数,由公式FFTSIZE=1024×2ELIMINATE_PRECISION计算得到;其中,ELIMINATE_PRECISION为所述信号处理精度;
其中,
PH=ELIMINATE_STRENGTH×0.1
PL=ELIMINATE_STRENGTH×0.3
其中,ELIMINATE_STRENGTH为所述信号处理强度。
更进一步的,所述步骤S1之前包括:
S01.对立体声音频的第一左声道时域信号和第一右声道时域信号进行归一化处理,得到第二左声道时域信号和第二右声道时域信号;
S02.将所述第二左声道时域信号和所述第二右声道时域信号按照预设的间隔分离成多个左声道帧和右声道帧;
S03.将每个所述左声道帧和所述右声道帧的时域信号分别进行傅里叶变换,得到所述第一左声道频域信号和所述第一右声道频域信号;
S04.计算每个所述频点在所述第一左声道频域信号中的相位与所述第一右声道频域信号中的相位的所述相位差。
更进一步的,所述步骤S2包括:
S21.若所述相位差小于所述曲线值,且大于所述曲线值绝对值的相反数,即-|P(FIndex)|<所述相位差<|P(FIndex)|,则将所述频点在所述第一左声道频域信号和所述第一右声道频域信号中对应的数据清零,得到所述第二左声道频域信号和所述第二右声道频域信号。
更进一步的,所述步骤S3包括:
S31.将所述第二左声道频域信号和所述第二右声道频域信号通过逆傅里叶变换,得到第三左声道时域信号和第三右声道时域信号;
S32.将每个所述第三左声道时域信号和所述第三右声道时域信号分别进行合并,得到第四左声道时域信号和第四右声道时域信号;
S33.将所述第四左声道时域信号和所述第四右声道时域信号转换为脉冲编码调制数据,并输出。
另一方面,本发明实施例提供了一种立体声音频的处理***,包括:
比较模块,用于将每个频点在第一左声道频域信号中的相位和第一右声道频域信号中的相位的相位差,与根据预设参数计算得到的相位判定曲线在所述频点的曲线值进行比较;
信号处理模块,用于根据比较结果调整所述第一左声道频域信号和所述第一右声道频域信号,得到第二左声道频域信号和第二右声道频域信号;
信号后处理模块,用于将所述第二左声道频域信号和所述第二右声道频域信号变换为脉冲编码调制数据,并输出。
更进一步的,所述比较模块中包括:
相位判定曲线计算单元,用于根据所述预设参数计算得到所述相位判定曲线;
所述预设参数包括:信号处理强度、信号处理精度、音频数据采样率和信号处理频率范围;
所述相位判定曲线为:
其中,
FIndex为所述频点;
Round()为取整函数;
FS为音频数据采样率;
FFTSIZE为FFT变换点数,由公式FFTSIZE=1024×2ELIMINATE_PRECISION计算得到;其中,ELIMINATE_PRECISION为所述信号处理精度;
其中,
PH=ELIMINATE_STRENGTH×0.1
PL=ELIMINATE_STRENGTH×0.3
其中,ELIMINATE_STRENGTH为所述信号处理强度。
更进一步的,还包括:信号预处理模块,包括:
归一化单元,用于对立体声音频的第一左声道时域信号和第一右声道时域信号进行归一化处理,得到第二左声道时域信号和第二右声道时域信号;
分帧单元,用于将所述第二左声道时域信号和所述第二右声道时域信号按照预设的间隔分离成多个左声道帧和右声道帧;
傅里叶变换单元,用于将每个所述左声道帧和所述右声道帧的时域信号分别进行傅里叶变换,得到所述第一左声道频域信号和所述第一右声道频域信号;
相位差计算单元,计算每个所述频点在第一左声道频域信号中的相位与第一右声道频域信号中的相位的所述相位差。
更进一步的,所述信号处理模块,还包括:
处理单元,用于当所述相位差小于所述曲线值,且大于所述曲线值的绝对值相反数时,即-|P(FIndex)|<所述相位差<|P(FIndex)|,将所述频点在所述第一左声道频域信号和所述第一右声道频域信号中对应的数据清零,得到所述第二左声道频域信号和所述第二右声道频域信号。
更进一步的,所述信号后处理模块,还包括:
逆傅里叶变换单元,用于将所述第二左声道频域信号和所述第二右声道频域信号通过逆傅里叶变换,得到第三左声道时域信号和第三右声道时域信号;
合并单元,用于将每个所述第三左声道时域信号和所述第三右声道时域信号分别进行合并,得到第四左声道时域信号和第四右声道时域信号;
转换单元,将所述第四左声道时域信号和所述第四右声道时域信号转换为脉冲编码调制数据,并输出。
上述技术方案具有如下有益效果:
本发明可以不依赖特定的伴奏曲库服务器,为用户提供音乐音频的伴奏音乐。同时,可对实时播放的歌曲进行处理,消除人声,以达到同步输出伴奏。此外,相比较现有伴奏音乐提取方法,本发明可将计算复杂度和算法延时减少一半,同时很好保留低频区域的音乐成分,并解决高频区域人声残留过多等问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种立体声音频处理方法流程图;
图2是根据本发明实施例的预处理步骤的流程图;
图3是根据本发明实施例的数据处理步骤的流程图;
图4是根据本发明实施例的后处理步骤的流程图;
图5是根据本发明实施例的一种立体声音频处理***的结构框图;
图6是根据本发明实施例的信号预处理模块的结构框图;
图7是根据本发明实施例的信号处理模块的结构框图;
图8是根据本发明实施例的信号后处理模块的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1至图4所示,一种立体声音频的处理方法,包括:
S1.将每个频点在第一左声道频域信号中的相位和第一右声道频域信号中的相位的相位差,与根据预设参数计算得到的相位判定曲线在所述频点的曲线值进行比较;
其中,在其中一种实施方式中,所述预设参数包括:信号处理强度、信号处理精度、音频数据采样率和信号处理频率范围;
所述相位判定曲线为:
其中,
FIndex为所述频点;
round()为取整函数;
FS为音频数据采样率;
FFTSIZE为FFT变换点数,由公式FFTSIZE=1024×2ELIMINATE_PRECISION计算得到;其中,ELIMINATE_PRECISION为所述信号处理精度;
其中,
PH=ELIMINATE_STRENGTH×0.1
PL=ELIMINATE_STRENGTH×0.3
其中,ELIMINATE_STRENGTH为所述信号处理强度。
在其中一种实施方式中,所述频点的相位可以由下述方法计算:设所述频点FIndex在频域信号中的复数值为x+yi,计算后得到的相位为r,则:
1.分别取x和y的绝对值,得到a、b;
a=|x|,b=|y|
2.若a和b同时为0,则相位r=0;
3.若a和b不同时为0,则:
s=c×c
相位r=((-0.0464964749*s+0.15931422)*s-0.327622764)*s*c+c;
4.将计算得到的相位值转换到-π~π范围:
4.2若x<0,则相位r=π-r;
4.3若y<0,则相位r=-r;
即可得到所述频点在频域信号中的相位。
故所述相位差divP(FIndex)可由下列公式计算得到:
divP(FIndex)=PL(FIndex)-PR(FIndex),
其中PL(FIndex)表示所述频点在所述第一左声道频域信号中的相位,PR(FIndex)表示所述频点在所述第一右声道频域信号中的相位。
得到所述频点的所述相位差divP(FIndex)和所述曲线值P(FIndex)后,对所述相位差divP(FIndex)和所述曲线值P(FIndex)进行比较。
在其中一种实施方式中,所述步骤S1之前还包括:
S01.对立体声音频的第一左声道时域信号和第一右声道时域信号进行归一化处理,得到第二左声道时域信号和第二右声道时域信号;
归一化处理是将不同位宽的脉冲编码调制音频数据值归一化到-1~+1范围,使不同位宽的音频数据所表示的幅度在同一量级,方便后续运算。
归一化公式如下所示:
其中,
val表示脉冲编码调制音频的数据值,以定点数形式表示;
nval表示归一化后的音频数据值,以浮点数形式表示;
bitnum表示val数据的位宽。
S02.将所述第二左声道时域信号和所述第二右声道时域信号按照预设的间隔分离成多个左声道帧和右声道帧;
分别将归一化后的所述第二左声道时域信号和所述第二右声道时域信号划分为多个所述左声道帧和所述右声道帧,并对每个所述左声道帧和所述右声道帧进行加窗函数处理,窗长度表示每个所述左声道帧和所述右声道帧的长度。窗长度值由人声消除精度决定。窗函数采用周期汉明窗,相邻帧之间交叠75%有重合的采样点,使得帧与帧之间具有平滑过渡的效果。
S03.将每个所述左声道帧和所述右声道帧的时域信号分别进行傅里叶变换,得到所述第一左声道频域信号和所述第一右声道频域信号;
分别对每个所述左声道帧和所述右声道帧的时域信号做傅里叶变换,得到左声道的频域数据FFTDATA_L(FIndex)和右声道的频域数据FFTDATA_R(FIndex)。当窗长度WLEN小于FFT变换点数FFTSIZE时,即音频帧数据不足FFT变换点数时,在频域数据末尾补0凑齐FFT变换点数。因为FFT变换数据共轭对称,故只取(FFTSIZE/2+1)长度数据用于计算,则FIndex的取值范围为0~FFTSIZE/2。
S04.计算每个所述频点在所述第一左声道频域信号中的相位与所述第一右声道频域信号中的相位的所述相位差。
考虑到在低频断人声基频与鼓声等低频乐器重叠,伴奏叠加该频段的人声人耳几乎无法听到人声,不影响人声消除效果,为更多的保留低频能量,故在100~200Hz以下的频率范围内频点不考虑人声消除,在本实施例中,低音频率下限选为140Hz;而在高于13000Hz频段,基本不存在人声成分,故也不考虑人声消除。
综上所述,只计算如下范围内的频点的相位及对应的左声道频域数据和右声道频域数据:
使用上述方法,左右声道分别可减少一半的相位计算量。同时全部的保留了音乐的低频及高频分量。
S2.根据比较结果调整所述第一左声道频域信号和所述第一右声道频域信号,得到第二左声道频域信号和第二右声道频域信号;
在本实施例中,所述步骤S2包括:
S21.若所述相位差小于所述曲线值,且大于所述曲线值绝对值的相反数,即-|P(FIndex)|<所述相位差<|P(FIndex)|,则将所述频点在所述第一左声道频域信号和所述第一右声道频域信号中对应的数据清零,得到所述第二左声道频域信号和所述第二右声道频域信号。
当所述相位差满足-|P(FIndex)|<所述相位差<|P(FIndex)|时,将所述频点在所述第一左声道频域信号和所述第一右声道频域信号中对应的数据清零,即所述左声道的频域数据FFTDATA_L(FIndex)=0,所述右声道的频域数据FFTDATA_R(FIndex)=0。
S3.将所述第二左声道频域信号和所述第二右声道频域信号变换为脉冲编码调制数据,并输出。
在本实施例中,所述步骤S3包括:
S31.将所述第二左声道频域信号和所述第二右声道频域信号通过逆傅里叶变换,得到第三左声道时域信号和第三右声道时域信号;
S32.将每个所述第三左声道时域信号和所述第三右声道时域信号分别进行合并,得到第四左声道时域信号和第四右声道时域信号;
S33.将所述第四左声道时域信号和所述第四右声道时域信号转换为脉冲编码调制数据,并输出。
本发明实施例,可以不依赖特定的伴奏曲库服务器,为用户提供音乐音频的伴奏音乐。同时,可对实时播放的歌曲进行处理,消除人声,以达到同步输出伴奏。此外,由于不考虑低频区与高频区的人声消除,相比较现有伴奏音乐提取方法,本发明可将计算复杂度和算法延时减少一半,同时很好保留低频区域的音乐成分,并解决高频区域人声残留过多的问题。
实施例2:
如图5至图8所示,一种立体声音频的处理***,包括:
比较模块1,用于将每个频点在第一左声道频域信号中的相位和第一右声道频域信号中的相位的相位差,与根据预设参数计算得到的相位判定曲线在所述频点的曲线值进行比较;
其中,在其中一种实施方式中,所述比较模块1中包括:
相位判定曲线计算单元11,用于根据所述预设参数计算得到所述相位判定曲线;
所述预设参数包括:信号处理强度、信号处理精度、音频数据采样率和信号处理频率范围;
所述相位判定曲线为:
其中,
FIndex为所述频点;
Round()为取整函数;
FS为音频数据采样率;
FFTSIZE为FFT变换点数,由公式FFTSIZE=1024×2ELIMINATE_PRECISION计算得到;其中,ELIMINATE_PRECISION为所述信号处理精度;
其中,
PH=ELIMINATE_STRENGTH×0.1
PL=ELIMINATE_STRENGTH×0.3
其中,ELIMINATE_STRENGTH为所述信号处理强度。
在其中一种实施方式中,所述频点的相位可以由下述方法计算:设所述频点FIndex在频域信号中的复数值为x+yi,计算后得到的相位为r,则:
1.分别取x和y的绝对值,得到a、b;
a=|x|,b=|y|
2.若a和b同时为0,则相位r=0;
3.若a和b不同时为0,则:
s=c×c
相位r=((-0.0464964749*s+0.15931422)*s-0.327622764)*s*c+c;
4.将计算得到的相位值转换到-π~π范围:
4.2若x<0,则相位r=π-r;
4.3若y<0,则相位r=-r;
即可得到所述频点在频域信号中的相位。
故所述相位差divP(FIndex)可由下列公式计算得到:
divP(FIndex)=PL(FIndex)-PR(FIndex),
其中PL(FIndex)表示所述频点在所述第一左声道频域信号中的相位,PR(FIndex)表示所述频点在所述第一右声道频域信号中的相位。
得到所述频点的所述相位差divP(FIndex)和所述曲线值P(FIndex)后,对所述相位差divP(FIndex)和所述曲线值P(FIndex)进行比较。
在其中一种实施方式中,还包括:信号预处理模块0,包括:
归一化单元01,用于对立体声音频的第一左声道时域信号和第一右声道时域信号进行归一化处理,得到第二左声道时域信号和第二右声道时域信号;
归一化处理是将不同位宽的脉冲编码调制音频数据值归一化到-1~+1范围,使不同位宽的音频数据所表示的幅度在同一量级,方便后续运算。
归一化公式如下所示:
其中,
val表示脉冲编码调制音频的数据值,以定点数形式表示;
nval表示归一化后的音频数据值,以浮点数形式表示;
bitnum表示val数据的位宽。
分帧单元02,用于将所述第二左声道时域信号和所述第二右声道时域信号按照预设的间隔分离成多个左声道帧和右声道帧;
所述分帧单元02分别将归一化后的所述第二左声道时域信号和所述第二右声道时域信号划分为多个所述左声道帧和所述右声道帧,并对每个所述左声道帧和所述右声道帧进行加窗函数处理,窗长度表示每个所述左声道帧和所述右声道帧的长度。窗长度值由人声消除精度决定。窗函数采用周期汉明窗,相邻帧之间交叠75%有重合的采样点,使得帧与帧之间具有平滑过渡的效果。
傅里叶变换单元03,用于将每个所述左声道帧和所述右声道帧的时域信号分别进行傅里叶变换,得到所述第一左声道频域信号和所述第一右声道频域信号;
所述傅里叶变换单元03分别对每个所述左声道帧和所述右声道帧的时域信号做傅里叶变换,得到左声道的频域数据FFTDATA_L(FIndex)和右声道的频域数据FFTDATA_R(FIndex)。当窗长度WLEN小于FFT变换点数FFTSIZE时,即音频帧数据不足FFT变换点数时,在频域数据末尾补0凑齐FFT变换点数。因为FFT变换数据共轭对称,故只取(FFTSIZE/2+1)长度数据用于计算,则FIndex的取值范围为0~FFTSIZE/2。
相位差计算单元04,计算每个所述频点在第一左声道频域信号中的相位与第一右声道频域信号中的相位的所述相位差。
考虑到在低频断人声基频与鼓声等低频乐器重叠,伴奏叠加该频段的人声人耳几乎无法听到人声,不影响人声消除效果,为更多的保留低频能量,故在100~200Hz以下的频率范围内频点不考虑人声消除,在本实施例中,低音频率下限选为140Hz;而在高于13000Hz频段,基本不存在人声成分,故也不考虑人声消除。
综上所述,所述相位差计算单元04只计算如下范围内的频点的相位及对应的左声道频域数据和右声道频域数据:
使用上述方法,左右声道分别可减少一半的相位计算量。同时全部的保留了音乐的低频及高频分量。
信号处理模块2,用于根据比较结果调整所述第一左声道频域信号和所述第一右声道频域信号,得到第二左声道频域信号和第二右声道频域信号;
在本实施例中,所述信号处理模块2,还包括:
处理单元21,用于当所述相位差小于所述曲线值,且大于所述曲线值的绝对值相反数时,即-|P(FIndex)|<所述相位差<|P(FIndex)|,将所述频点在所述第一左声道频域信号和所述第一右声道频域信号中对应的数据清零,得到所述第二左声道频域信号和所述第二右声道频域信号。
当所述相位差满足-|P(FIndex)|<所述相位差<|P(FIndex)|时,所述处理单元21将所述频点在所述第一左声道频域信号和所述第一右声道频域信号中对应的数据清零,即所述左声道的频域数据FFTDATA_L(FIndex)=0,所述右声道的频域数据FFTDATA_R(FIndex)=0。
信号后处理模块3,用于将所述第二左声道频域信号和所述第二右声道频域信号变换为脉冲编码调制数据,并输出。
在本实施例中,所述信号后处理模块3,还包括:
逆傅里叶变换单元31,用于将所述第二左声道频域信号和所述第二右声道频域信号通过逆傅里叶变换,得到第三左声道时域信号和第三右声道时域信号;
合并单元32,用于将每个所述第三左声道时域信号和所述第三右声道时域信号分别进行合并,得到第四左声道时域信号和第四右声道时域信号;
转换单元33,将所述第四左声道时域信号和所述第四右声道时域信号转换为脉冲编码调制数据,并输出。
本发明实施例,可以不依赖特定的伴奏曲库服务器,为用户提供音乐音频的伴奏音乐。同时,可对实时播放的歌曲进行处理,消除人声,以达到同步输出伴奏。此外,由于不考虑低频区与高频区的人声消除,相比较现有伴奏音乐提取方法,本发明可将计算复杂度和算法延时减少一半,同时很好保留低频区域的音乐成分,并解决高频区域人声残留过多的问题。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种立体声音频的处理方法,其特征在于,包括:
S1.将每个频点在第一左声道频域信号中的相位和第一右声道频域信号中的相位的相位差,与根据预设参数计算得到的相位判定曲线在所述频点的曲线值进行比较;
S2.根据比较结果调整所述第一左声道频域信号和所述第一右声道频域信号,得到第二左声道频域信号和第二右声道频域信号;
S3.将所述第二左声道频域信号和所述第二右声道频域信号变换为脉冲编码调制数据,并输出;
其中,所述预设参数包括:信号处理强度、信号处理精度、音频数据采样率和信号处理频率范围;
所述相位判定曲线为:
其中,
FIndex为所述频点;
Round()为取整函数;
FS为音频数据采样率;
FFTSIZE为FFT变换点数,由公式FFTSIZE=1024×2ELIMINATE_PRECISION计算得到;其中,ELIMINATE_PRECISION为所述信号处理精度;
其中,
PH=ELIMINATE_STRENGTH×0.1
PL=ELIMINATE_STRENGTH×0.3
其中,ELIMINATE_STRENGTH为所述信号处理强度。
2.如权利要求1所述的一种立体声音频的处理方法,其特征在于,所述步骤S1之前包括:
S01.对立体声音频的第一左声道时域信号和第一右声道时域信号进行归一化处理,得到第二左声道时域信号和第二右声道时域信号;
S02.将所述第二左声道时域信号和所述第二右声道时域信号按照预设的间隔分离成多个左声道帧和右声道帧;
S03.将每个所述左声道帧和所述右声道帧的时域信号分别进行傅里叶变换,得到所述第一左声道频域信号和所述第一右声道频域信号;
S04.计算每个所述频点在所述第一左声道频域信号中的相位与所述第一右声道频域信号中的相位的所述相位差。
3.如权利要求1所述的一种立体声音频的处理方法,其特征在于,所述步骤S2包括:
S21.若所述相位差小于所述曲线值,且大于所述曲线值绝对值的相反数,即-|P(FIndex)|<所述相位差<|P(FIndex)|,则将所述频点在所述第一左声道频域信号和所述第一右声道频域信号中对应的数据清零,得到所述第二左声道频域信号和所述第二右声道频域信号。
4.如权利要求1所述的一种立体声音频的处理方法,其特征在于,所述步骤S3包括:
S31.将所述第二左声道频域信号和所述第二右声道频域信号通过逆傅里叶变换,得到第三左声道时域信号和第三右声道时域信号;
S32.将每个所述第三左声道时域信号和所述第三右声道时域信号分别进行合并,得到第四左声道时域信号和第四右声道时域信号;
S33.将所述第四左声道时域信号和所述第四右声道时域信号转换为脉冲编码调制数据,并输出。
5.一种立体声音频的处理***,其特征在于,包括:
比较模块,用于将每个频点在第一左声道频域信号中的相位和第一右声道频域信号中的相位的相位差,与根据预设参数计算得到的相位判定曲线在所述频点的曲线值进行比较;
信号处理模块,用于根据比较结果调整所述第一左声道频域信号和所述第一右声道频域信号,得到第二左声道频域信号和第二右声道频域信号;
信号后处理模块,用于将所述第二左声道频域信号和所述第二右声道频域信号变换为脉冲编码调制数据,并输出;
其中,所述比较模块中包括:相位判定曲线计算单元,用于根据所述预设参数计算得到所述相位判定曲线;
所述预设参数包括:信号处理强度、信号处理精度、音频数据采样率和信号处理频率范围;
所述相位判定曲线为:
其中,
FIndex为所述频点;
Round()为取整函数;
FS为音频数据采样率;
FFTSIZE为FFT变换点数,由公式FFTSIZE=1024×2ELIMINATE_PRECISION计算得到;其中,ELIMINATE_PRECISION为所述信号处理精度;
其中,
PH=ELIMINATE_STRENGTH×0.1
PL=ELIMINATE_STRENGTH×0.3
其中,ELIMINATE_STRENGTH为所述信号处理强度。
6.如权利要求5所述的一种立体声音频的处理***,其特征在于,还包括:信号预处理模块,包括:
归一化单元,用于对立体声音频的第一左声道时域信号和第一右声道时域信号进行归一化处理,得到第二左声道时域信号和第二右声道时域信号;
分帧单元,用于将所述第二左声道时域信号和所述第二右声道时域信号按照预设的间隔分离成多个左声道帧和右声道帧;
傅里叶变换单元,用于将每个所述左声道帧和所述右声道帧的时域信号分别进行傅里叶变换,得到所述第一左声道频域信号和所述第一右声道频域信号;
相位差计算单元,计算每个所述频点在第一左声道频域信号中的相位与第一右声道频域信号中的相位的所述相位差。
7.如权利要求5所述的一种立体声音频的处理***,其特征在于,所述信号处理模块,还包括:
处理单元,用于当所述相位差小于所述曲线值,且大于所述曲线值的绝对值相反数时,即-|P(FIndex)|<所述相位差<|P(FIndex)|,将所述频点在所述第一左声道频域信号和所述第一右声道频域信号中对应的数据清零,得到所述第二左声道频域信号和所述第二右声道频域信号。
8.如权利要求5所述的一种立体声音频的处理***,其特征在于,所述信号后处理模块,还包括:
逆傅里叶变换单元,用于将所述第二左声道频域信号和所述第二右声道频域信号通过逆傅里叶变换,得到第三左声道时域信号和第三右声道时域信号;
合并单元,用于将每个所述第三左声道时域信号和所述第三右声道时域信号分别进行合并,得到第四左声道时域信号和第四右声道时域信号;
转换单元,将所述第四左声道时域信号和所述第四右声道时域信号转换为脉冲编码调制数据,并输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910349362.4A CN110139206B (zh) | 2019-04-28 | 2019-04-28 | 一种立体声音频的处理方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910349362.4A CN110139206B (zh) | 2019-04-28 | 2019-04-28 | 一种立体声音频的处理方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110139206A CN110139206A (zh) | 2019-08-16 |
CN110139206B true CN110139206B (zh) | 2020-11-27 |
Family
ID=67575403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910349362.4A Active CN110139206B (zh) | 2019-04-28 | 2019-04-28 | 一种立体声音频的处理方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110139206B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111615045B (zh) * | 2020-06-23 | 2021-06-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置、设备及存储介质 |
CN112053669B (zh) * | 2020-08-27 | 2023-10-27 | 海信视像科技股份有限公司 | 一种人声消除方法、装置、设备及介质 |
CN113473352B (zh) * | 2021-07-06 | 2023-06-20 | 北京达佳互联信息技术有限公司 | 双声道音频后处理的方法和装置 |
CN114093377B (zh) * | 2022-01-18 | 2022-05-03 | 成都时识科技有限公司 | ***归一化方法、装置、音频特征提取器、芯片 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101609667A (zh) * | 2009-07-22 | 2009-12-23 | 福州瑞芯微电子有限公司 | Pmp播放器中实现卡拉ok功能的方法 |
CN101894559A (zh) * | 2010-08-05 | 2010-11-24 | 展讯通信(上海)有限公司 | 音频处理方法及其装置 |
CN104053120A (zh) * | 2014-06-13 | 2014-09-17 | 福建星网视易信息***有限公司 | 一种立体声音频的处理方法和装置 |
US8964993B2 (en) * | 2010-04-27 | 2015-02-24 | Yobe, Inc. | Systems and methods for enhancing audio content |
EP2088589B1 (en) * | 2006-11-27 | 2016-05-18 | Sony Computer Entertainment Inc. | Audio processing device and audio processing method |
-
2019
- 2019-04-28 CN CN201910349362.4A patent/CN110139206B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2088589B1 (en) * | 2006-11-27 | 2016-05-18 | Sony Computer Entertainment Inc. | Audio processing device and audio processing method |
CN101609667A (zh) * | 2009-07-22 | 2009-12-23 | 福州瑞芯微电子有限公司 | Pmp播放器中实现卡拉ok功能的方法 |
US8964993B2 (en) * | 2010-04-27 | 2015-02-24 | Yobe, Inc. | Systems and methods for enhancing audio content |
CN101894559A (zh) * | 2010-08-05 | 2010-11-24 | 展讯通信(上海)有限公司 | 音频处理方法及其装置 |
CN104053120A (zh) * | 2014-06-13 | 2014-09-17 | 福建星网视易信息***有限公司 | 一种立体声音频的处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110139206A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110139206B (zh) | 一种立体声音频的处理方法及*** | |
US7974838B1 (en) | System and method for pitch adjusting vocals | |
US8891778B2 (en) | Speech enhancement | |
RU2598326C2 (ru) | Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал | |
US8160732B2 (en) | Noise suppressing method and noise suppressing apparatus | |
CN103440872B (zh) | 瞬态噪声的去噪方法 | |
US8428756B2 (en) | Data embedding device, data embedding method, data extraction device, and data extraction method | |
US8489404B2 (en) | Method for detecting audio signal transient and time-scale modification based on same | |
JPS63259696A (ja) | 音声予処理方法および装置 | |
JPH07248794A (ja) | 音声信号処理方法 | |
CN104183245A (zh) | 一种演唱者音色相似的歌星推荐方法与装置 | |
KR101840015B1 (ko) | 스테레오 음악신호를 위한 반주신호 추출방법 및 장치 | |
CN108281150B (zh) | 一种基于微分声门波模型的语音变调变嗓音方法 | |
CN105957538A (zh) | 基于显著性的复调音乐主旋律提取方法 | |
US20050197832A1 (en) | Modulation depth enhancement for tone perception | |
WO1999050825A1 (fr) | Dispositif et procede de reduction de bruits | |
Ravelli et al. | Fast implementation for non-linear time-scaling of stereo signals | |
Roberts et al. | Time-scale modification using fuzzy epoch-synchronous overlap-add (FESOLA) | |
JP2003510665A (ja) | 適応フィルタリングアルゴリズムを用いるデエッサーのための装置および方法 | |
JP4604864B2 (ja) | 帯域拡張装置及び不足帯域信号生成器 | |
US20130322644A1 (en) | Sound Processing Apparatus | |
JP2002175099A (ja) | 雑音抑制方法および雑音抑制装置 | |
JP2001249676A (ja) | 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法 | |
Lin et al. | An effective hybrid low delay packet loss concealment algorithm for MDCT-based audio codec | |
van Schijndel et al. | Towards a better balance in sinusoidal plus stochastic representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |