CN110139206B

CN110139206B - 一种立体声音频的处理方法及***

Info

Publication number: CN110139206B
Application number: CN201910349362.4A
Authority: CN
Inventors: 宋冬梅; 武剑; 王宏
Original assignee: Beijing Thunderstone Technology Co ltd
Current assignee: Beijing Thunderstone Technology Co ltd
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2020-11-27
Anticipated expiration: 2039-04-28
Also published as: CN110139206A

Abstract

本发明实施例提供一种立体声音频的处理方法及***，包括：S1.将每个频点在第一左声道频域信号中的相位和第一右声道频域信号中的相位的相位差，与根据预设参数计算得到的相位判定曲线在所述频点的曲线值进行比较；S2.根据比较结果调整所述第一左声道频域信号和所述第一右声道频域信号，得到第二左声道频域信号和第二右声道频域信号；S3.将所述第二左声道频域信号和所述第二右声道频域信号变换为脉冲编码调制数据，并输出。本发明相比较现有伴奏音乐提取方法，可将计算复杂度和算法延时减少一半，同时很好保留低频区域的音乐成分，并解决高频区域人声残留过多等问题。

Description

一种立体声音频的处理方法及***

技术领域

本发明涉及音频处理领域，尤其涉及一种立体声音频的处理方法和装置。

背景技术

较新的歌曲如网络歌曲、原创歌曲等往往发布到网络上时不会同时发布伴奏音乐；较老歌曲通常伴奏缺失，这就造成人们想演唱这些歌曲时找不到伴奏，演唱体验降低。对歌曲的人声进行消除，获取伴奏音乐，不依赖特定的伴奏曲库服务器的伴奏提取方法是具有较大的市场需求的。

现有伴奏提取方法有如下几种：

1.人工提取，使用该方法提取伴奏音乐时需要靠人工去消除歌曲中人声，主要依靠人工调整均衡器降低人声部分频点对应的增益，由于人声谐波分布广泛，人工调整在时间成本和效果上都不尽人意；

2.对立体声歌曲在时域的左右声道相减消除人声的方法，使用该方法时对左右声道同步要求较高，且处理后的伴奏音乐的人声还是较明显；

3.采用频域互相关人声消除方法，使用该方法时对歌曲左右声道数据分别分帧做频域互相关计算，通过对互相关值较高的频点乘以较小系数再变换为时域来消除人声，该方法计算复杂度较高，人声消除效果较上一方法提高，但处理后的伴奏音乐的人声依然较明显；

4.采用频域相位差、幅度比消除人声方法，使用该方法时，分别对歌曲左右声道分帧变换到频域，计算左右声道对应频点的相位差和幅度比，设置一定阈值，在相位差小于一定相位阈值且或幅度比小于一定的幅度比阈值时将对应频点值清0，再变换为频域。该方法使用幅度比消除人声计算效果较差，使用相位差消除人声时虽比前几种方法效果提升，但计算复杂度高，且低频成分削弱过多导致伴奏音乐中的鼓声等低频成份大部分被消除，在高频部分人声残留又较多，这样使伴奏听起来低频分量明显不足且残留人声比较刺耳。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供一种立体声音频的处理方法及***，以实现对相位差消除人声方法的改进和提升。

一方面，本发明实施例提供了一种立体声音频的处理方法，包括：

S1.将每个频点在第一左声道频域信号中的相位和第一右声道频域信号中的相位的相位差，与根据预设参数计算得到的相位判定曲线在所述频点的曲线值进行比较；

S2.根据比较结果调整所述第一左声道频域信号和所述第一右声道频域信号，得到第二左声道频域信号和第二右声道频域信号；

S3.将所述第二左声道频域信号和所述第二右声道频域信号变换为脉冲编码调制数据，并输出。

更进一步的，所述步骤S1中，

所述预设参数包括：信号处理强度、信号处理精度、音频数据采样率和信号处理频率范围；

所述相位判定曲线为：

其中，

FIndex为所述频点；

Round()为取整函数；

FS为音频数据采样率；

FFTSIZE为FFT变换点数，由公式FFTSIZE＝1024×2^{ELIMINATE_PRECISION}计算得到；其中，ELIMINATE_PRECISION为所述信号处理精度；

其中，

P_H＝ELIMINATE_STRENGTH×0.1

P_L＝ELIMINATE_STRENGTH×0.3

其中，ELIMINATE_STRENGTH为所述信号处理强度。

更进一步的，所述步骤S1之前包括：

S01.对立体声音频的第一左声道时域信号和第一右声道时域信号进行归一化处理，得到第二左声道时域信号和第二右声道时域信号；

S02.将所述第二左声道时域信号和所述第二右声道时域信号按照预设的间隔分离成多个左声道帧和右声道帧；

S03.将每个所述左声道帧和所述右声道帧的时域信号分别进行傅里叶变换，得到所述第一左声道频域信号和所述第一右声道频域信号；

S04.计算每个所述频点在所述第一左声道频域信号中的相位与所述第一右声道频域信号中的相位的所述相位差。

更进一步的，所述步骤S2包括：

S21.若所述相位差小于所述曲线值，且大于所述曲线值绝对值的相反数，即-|P(FIndex)|＜所述相位差＜|P(FIndex)|，则将所述频点在所述第一左声道频域信号和所述第一右声道频域信号中对应的数据清零，得到所述第二左声道频域信号和所述第二右声道频域信号。

更进一步的，所述步骤S3包括：

S31.将所述第二左声道频域信号和所述第二右声道频域信号通过逆傅里叶变换，得到第三左声道时域信号和第三右声道时域信号；

S32.将每个所述第三左声道时域信号和所述第三右声道时域信号分别进行合并，得到第四左声道时域信号和第四右声道时域信号；

S33.将所述第四左声道时域信号和所述第四右声道时域信号转换为脉冲编码调制数据，并输出。

另一方面，本发明实施例提供了一种立体声音频的处理***，包括：

比较模块，用于将每个频点在第一左声道频域信号中的相位和第一右声道频域信号中的相位的相位差，与根据预设参数计算得到的相位判定曲线在所述频点的曲线值进行比较；

信号处理模块，用于根据比较结果调整所述第一左声道频域信号和所述第一右声道频域信号，得到第二左声道频域信号和第二右声道频域信号；

信号后处理模块，用于将所述第二左声道频域信号和所述第二右声道频域信号变换为脉冲编码调制数据，并输出。

更进一步的，所述比较模块中包括：

相位判定曲线计算单元，用于根据所述预设参数计算得到所述相位判定曲线；

所述相位判定曲线为：

其中，

FIndex为所述频点；

Round()为取整函数；

FS为音频数据采样率；

其中，

P_H＝ELIMINATE_STRENGTH×0.1

P_L＝ELIMINATE_STRENGTH×0.3

其中，ELIMINATE_STRENGTH为所述信号处理强度。

更进一步的，还包括：信号预处理模块，包括：

归一化单元，用于对立体声音频的第一左声道时域信号和第一右声道时域信号进行归一化处理，得到第二左声道时域信号和第二右声道时域信号；

分帧单元，用于将所述第二左声道时域信号和所述第二右声道时域信号按照预设的间隔分离成多个左声道帧和右声道帧；

傅里叶变换单元，用于将每个所述左声道帧和所述右声道帧的时域信号分别进行傅里叶变换，得到所述第一左声道频域信号和所述第一右声道频域信号；

相位差计算单元，计算每个所述频点在第一左声道频域信号中的相位与第一右声道频域信号中的相位的所述相位差。

更进一步的，所述信号处理模块，还包括：

处理单元，用于当所述相位差小于所述曲线值，且大于所述曲线值的绝对值相反数时，即-|P(FIndex)|＜所述相位差＜|P(FIndex)|，将所述频点在所述第一左声道频域信号和所述第一右声道频域信号中对应的数据清零，得到所述第二左声道频域信号和所述第二右声道频域信号。

更进一步的，所述信号后处理模块，还包括：

逆傅里叶变换单元，用于将所述第二左声道频域信号和所述第二右声道频域信号通过逆傅里叶变换，得到第三左声道时域信号和第三右声道时域信号；

合并单元，用于将每个所述第三左声道时域信号和所述第三右声道时域信号分别进行合并，得到第四左声道时域信号和第四右声道时域信号；

转换单元，将所述第四左声道时域信号和所述第四右声道时域信号转换为脉冲编码调制数据，并输出。

上述技术方案具有如下有益效果：

本发明可以不依赖特定的伴奏曲库服务器，为用户提供音乐音频的伴奏音乐。同时，可对实时播放的歌曲进行处理，消除人声，以达到同步输出伴奏。此外，相比较现有伴奏音乐提取方法，本发明可将计算复杂度和算法延时减少一半，同时很好保留低频区域的音乐成分，并解决高频区域人声残留过多等问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种立体声音频处理方法流程图；

图2是根据本发明实施例的预处理步骤的流程图；

图3是根据本发明实施例的数据处理步骤的流程图；

图4是根据本发明实施例的后处理步骤的流程图；

图5是根据本发明实施例的一种立体声音频处理***的结构框图；

图6是根据本发明实施例的信号预处理模块的结构框图；

图7是根据本发明实施例的信号处理模块的结构框图；

图8是根据本发明实施例的信号后处理模块的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1至图4所示，一种立体声音频的处理方法，包括：

其中，在其中一种实施方式中，所述预设参数包括：信号处理强度、信号处理精度、音频数据采样率和信号处理频率范围；

所述相位判定曲线为：

其中，

FIndex为所述频点；

round()为取整函数；

FS为音频数据采样率；

其中，

P_H＝ELIMINATE_STRENGTH×0.1

P_L＝ELIMINATE_STRENGTH×0.3

其中，ELIMINATE_STRENGTH为所述信号处理强度。

在其中一种实施方式中，所述频点的相位可以由下述方法计算：设所述频点FIndex在频域信号中的复数值为x+yi，计算后得到的相位为r，则：

1.分别取x和y的绝对值，得到a、b；

a＝|x|，b＝|y|

2.若a和b同时为0，则相位r＝0；

3.若a和b不同时为0，则：

s＝c×c

相位r＝((-0.0464964749*s+0.15931422)*s-0.327622764)*s*c+c；

4.将计算得到的相位值转换到-π～π范围：

4.1若b＞a则相位

4.2若x＜0，则相位r＝π-r；

4.3若y＜0，则相位r＝-r；

即可得到所述频点在频域信号中的相位。

故所述相位差divP(FIndex)可由下列公式计算得到：

divP(FIndex)＝PL(FIndex)-PR(FIndex)，

其中PL(FIndex)表示所述频点在所述第一左声道频域信号中的相位，PR(FIndex)表示所述频点在所述第一右声道频域信号中的相位。

得到所述频点的所述相位差divP(FIndex)和所述曲线值P(FIndex)后，对所述相位差divP(FIndex)和所述曲线值P(FIndex)进行比较。

在其中一种实施方式中，所述步骤S1之前还包括：

归一化处理是将不同位宽的脉冲编码调制音频数据值归一化到-1～+1范围，使不同位宽的音频数据所表示的幅度在同一量级，方便后续运算。

归一化公式如下所示：

其中，

val表示脉冲编码调制音频的数据值，以定点数形式表示；

nval表示归一化后的音频数据值，以浮点数形式表示；

bitnum表示val数据的位宽。

分别将归一化后的所述第二左声道时域信号和所述第二右声道时域信号划分为多个所述左声道帧和所述右声道帧，并对每个所述左声道帧和所述右声道帧进行加窗函数处理，窗长度表示每个所述左声道帧和所述右声道帧的长度。窗长度值由人声消除精度决定。窗函数采用周期汉明窗，相邻帧之间交叠75％有重合的采样点，使得帧与帧之间具有平滑过渡的效果。

分别对每个所述左声道帧和所述右声道帧的时域信号做傅里叶变换，得到左声道的频域数据FFTDATA_L(FIndex)和右声道的频域数据FFTDATA_R(FIndex)。当窗长度WLEN小于FFT变换点数FFTSIZE时，即音频帧数据不足FFT变换点数时，在频域数据末尾补0凑齐FFT变换点数。因为FFT变换数据共轭对称，故只取(FFTSIZE/2+1)长度数据用于计算，则FIndex的取值范围为0～FFTSIZE/2。

考虑到在低频断人声基频与鼓声等低频乐器重叠，伴奏叠加该频段的人声人耳几乎无法听到人声，不影响人声消除效果，为更多的保留低频能量，故在100～200Hz以下的频率范围内频点不考虑人声消除，在本实施例中，低音频率下限选为140Hz；而在高于13000Hz频段，基本不存在人声成分，故也不考虑人声消除。

综上所述，只计算如下范围内的频点的相位及对应的左声道频域数据和右声道频域数据：

使用上述方法，左右声道分别可减少一半的相位计算量。同时全部的保留了音乐的低频及高频分量。

在本实施例中，所述步骤S2包括：

当所述相位差满足-|P(FIndex)|＜所述相位差＜|P(FIndex)|时，将所述频点在所述第一左声道频域信号和所述第一右声道频域信号中对应的数据清零，即所述左声道的频域数据FFTDATA_L(FIndex)＝0，所述右声道的频域数据FFTDATA_R(FIndex)＝0。

在本实施例中，所述步骤S3包括：

本发明实施例，可以不依赖特定的伴奏曲库服务器，为用户提供音乐音频的伴奏音乐。同时，可对实时播放的歌曲进行处理，消除人声，以达到同步输出伴奏。此外，由于不考虑低频区与高频区的人声消除，相比较现有伴奏音乐提取方法，本发明可将计算复杂度和算法延时减少一半，同时很好保留低频区域的音乐成分，并解决高频区域人声残留过多的问题。

实施例2：

如图5至图8所示，一种立体声音频的处理***，包括：

比较模块1，用于将每个频点在第一左声道频域信号中的相位和第一右声道频域信号中的相位的相位差，与根据预设参数计算得到的相位判定曲线在所述频点的曲线值进行比较；

其中，在其中一种实施方式中，所述比较模块1中包括：

相位判定曲线计算单元11，用于根据所述预设参数计算得到所述相位判定曲线；

所述相位判定曲线为：

其中，

FIndex为所述频点；

Round()为取整函数；

FS为音频数据采样率；

其中，

P_H＝ELIMINATE_STRENGTH×0.1

P_L＝ELIMINATE_STRENGTH×0.3

其中，ELIMINATE_STRENGTH为所述信号处理强度。

1.分别取x和y的绝对值，得到a、b；

a＝|x|，b＝|y|

2.若a和b同时为0，则相位r＝0；

3.若a和b不同时为0，则：

s＝c×c

相位r＝((-0.0464964749*s+0.15931422)*s-0.327622764)*s*c+c；

4.将计算得到的相位值转换到-π～π范围：

4.1若b＞a则相位

4.2若x＜0，则相位r＝π-r；

4.3若y＜0，则相位r＝-r；

即可得到所述频点在频域信号中的相位。

故所述相位差divP(FIndex)可由下列公式计算得到：

divP(FIndex)＝PL(FIndex)-PR(FIndex)，

在其中一种实施方式中，还包括：信号预处理模块0，包括：

归一化单元01，用于对立体声音频的第一左声道时域信号和第一右声道时域信号进行归一化处理，得到第二左声道时域信号和第二右声道时域信号；

归一化公式如下所示：

其中，

val表示脉冲编码调制音频的数据值，以定点数形式表示；

nval表示归一化后的音频数据值，以浮点数形式表示；

bitnum表示val数据的位宽。

分帧单元02，用于将所述第二左声道时域信号和所述第二右声道时域信号按照预设的间隔分离成多个左声道帧和右声道帧；

所述分帧单元02分别将归一化后的所述第二左声道时域信号和所述第二右声道时域信号划分为多个所述左声道帧和所述右声道帧，并对每个所述左声道帧和所述右声道帧进行加窗函数处理，窗长度表示每个所述左声道帧和所述右声道帧的长度。窗长度值由人声消除精度决定。窗函数采用周期汉明窗，相邻帧之间交叠75％有重合的采样点，使得帧与帧之间具有平滑过渡的效果。

傅里叶变换单元03，用于将每个所述左声道帧和所述右声道帧的时域信号分别进行傅里叶变换，得到所述第一左声道频域信号和所述第一右声道频域信号；

所述傅里叶变换单元03分别对每个所述左声道帧和所述右声道帧的时域信号做傅里叶变换，得到左声道的频域数据FFTDATA_L(FIndex)和右声道的频域数据FFTDATA_R(FIndex)。当窗长度WLEN小于FFT变换点数FFTSIZE时，即音频帧数据不足FFT变换点数时，在频域数据末尾补0凑齐FFT变换点数。因为FFT变换数据共轭对称，故只取(FFTSIZE/2+1)长度数据用于计算，则FIndex的取值范围为0～FFTSIZE/2。

相位差计算单元04，计算每个所述频点在第一左声道频域信号中的相位与第一右声道频域信号中的相位的所述相位差。

综上所述，所述相位差计算单元04只计算如下范围内的频点的相位及对应的左声道频域数据和右声道频域数据：

信号处理模块2，用于根据比较结果调整所述第一左声道频域信号和所述第一右声道频域信号，得到第二左声道频域信号和第二右声道频域信号；

在本实施例中，所述信号处理模块2，还包括：

处理单元21，用于当所述相位差小于所述曲线值，且大于所述曲线值的绝对值相反数时，即-|P(FIndex)|＜所述相位差＜|P(FIndex)|，将所述频点在所述第一左声道频域信号和所述第一右声道频域信号中对应的数据清零，得到所述第二左声道频域信号和所述第二右声道频域信号。

当所述相位差满足-|P(FIndex)|＜所述相位差＜|P(FIndex)|时，所述处理单元21将所述频点在所述第一左声道频域信号和所述第一右声道频域信号中对应的数据清零，即所述左声道的频域数据FFTDATA_L(FIndex)＝0，所述右声道的频域数据FFTDATA_R(FIndex)＝0。

信号后处理模块3，用于将所述第二左声道频域信号和所述第二右声道频域信号变换为脉冲编码调制数据，并输出。

在本实施例中，所述信号后处理模块3，还包括：

逆傅里叶变换单元31，用于将所述第二左声道频域信号和所述第二右声道频域信号通过逆傅里叶变换，得到第三左声道时域信号和第三右声道时域信号；

合并单元32，用于将每个所述第三左声道时域信号和所述第三右声道时域信号分别进行合并，得到第四左声道时域信号和第四右声道时域信号；

转换单元33，将所述第四左声道时域信号和所述第四右声道时域信号转换为脉冲编码调制数据，并输出。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。