CN104064191B - 混音方法及装置 - Google Patents

混音方法及装置 Download PDF

Info

Publication number
CN104064191B
CN104064191B CN201410256380.5A CN201410256380A CN104064191B CN 104064191 B CN104064191 B CN 104064191B CN 201410256380 A CN201410256380 A CN 201410256380A CN 104064191 B CN104064191 B CN 104064191B
Authority
CN
China
Prior art keywords
sound
channels
audio data
source
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410256380.5A
Other languages
English (en)
Other versions
CN104064191A (zh
Inventor
田彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Taile Culture Technology Co ltd
Original Assignee
Beijing Yinzhibang Culture Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yinzhibang Culture Technology Co ltd filed Critical Beijing Yinzhibang Culture Technology Co ltd
Priority to CN201410256380.5A priority Critical patent/CN104064191B/zh
Publication of CN104064191A publication Critical patent/CN104064191A/zh
Application granted granted Critical
Publication of CN104064191B publication Critical patent/CN104064191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Stereophonic System (AREA)

Abstract

本发明提供一种混音方法及装置。本发明实施例通过对所获取的至少两个音源的原始音频数据中每个音源的原始音频数据进行频域变换处理,以获得每个音源的原始音频数据所对应的频域数据,进而利用预先设置的至少两个方位信息,分别对每个音源的原始音频数据所对应的频域数据进行滤波处理,以获得每个音源的原始音频数据所对应的滤波数据,使得能够对每个音源的原始音频数据所对应的滤波数据,进行混音处理,由于利用指定的方位信息,对待混音音源的音频信号进行滤波处理,使得每个音源的声像能够位于不同的位置,而不是都在一个位置,因此,混音后的每个音源在听觉上会感到非常清晰,从而提高了混音后的音频质量。

Description

混音方法及装置
【技术领域】
本发明涉及音频处理技术,尤其涉及一种混音方法及装置。
【背景技术】
随着通信技术的发展,逐渐出现了多方交流的应用平台,例如,视频会议或直播电台等,因此,在音频的处理上,需要对多路音频信号进行混音,以使得多路音频信号听起来类似于一个声音,其效果就像同时听到多个人的发言一样。现有技术中,一般采用线性叠加的方式,即对多路的音频信号先进行数据的量化,然后把全部的数据相加。这样,混音后的音频质量不高。
【发明内容】
本发明的多个方面提供一种混音方法及装置,用以提高混音后的音频质量。
本发明的一方面,提供一种混音方法,包括:
获取至少两个音源的原始音频数据;
对所述至少两个音源的原始音频数据中每个音源的原始音频数据进行频域变换处理,以获得每个音源的原始音频数据所对应的频域数据;
利用预先设置的至少两个方位信息,分别对每个音源的原始音频数据所对应的频域数据进行滤波处理,以获得每个音源的原始音频数据所对应的滤波数据,对每个音源的原始音频数据所对应的滤波数据,进行混音处理。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取至少两个音源的原始音频数据,包括:
对目标音频文件的帧头进行解析,以确定所述目标音频文件的目标声道数目;对所述目标音频文件的数据块进行解码,以获得音源的原始音频数据;以及根据所述目标声道数目和所述音源的原始音频数据,获得每个目标声道所对应的声道音频数据;和/或
对至少一个目标声道的音频信号进行抽样、量化和编码处理,以获得所述至少一个目标声道中每个目标声道所对应的声道音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对所述至少两个音源的原始音频数据中每个音源的原始音频数据进行频域变换处理,以获得每个音源的原始音频数据所对应的频域数据,包括:
确定待混音的至少两个目标声道,以作为混音声道;
对每个混音声道所对应的声道音频数据进行分帧处理,以获得每个混音声道的至少一帧音频数据;
对每个混音声道的至少一帧音频数据,进行频域变换处理,以获得每个混音声道所对应的频域数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用预先设置的至少两个方位信息,分别对每个音源的原始音频数据所对应的频域数据进行滤波处理,以获得每个音源的原始音频数据所对应的滤波数据,对每个音源的原始音频数据所对应的滤波数据,进行混音处理,包括:
根据每个混音声道的方位信息,获得每个混音声道的频率响应参数;
根据每个混音声道的频率响应参数和每个混音声道所对应的频域数据,获得每个混音声道的滤波数据;
对每个混音声道的滤波数据,进行混音处理。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述频域变换处理为快速傅里叶变换方法;所述根据每个混音声道的方位信息,获得每个混音声道的频率响应参数,包括:
根据每个混音声道的方位信息,并利用公式t(k,m)=round(N×fk×τ(θm)+0.5),获得每个混音声道的频率响应参数;其中,fk=k×fs/N;τ(θm)=0.2×sin(θm)/v;其中,
k为频点,取值范围[0,N-1];
t(k,m)为第k个频点的频率响应参数值;
fs为采样率;
fk为第k个频点的频率;
N为快速傅里叶变换方法的点数;
θm为每个混音声道的方位信息,m=1,2,…,M为,M为混音声道的数目;
v为声速,340米/秒;
round(x)表示取最接近x的整数。
本发明的另一方面,提供一种混音装置,包括:
获取单元,用于获取至少两个音源的原始音频数据;
变换单元,用于对所述至少两个音源的原始音频数据中每个音源的原始音频数据进行频域变换处理,以获得每个音源的原始音频数据所对应的频域数据;
混音单元,用于利用预先设置的至少两个方位信息,分别对每个音源的原始音频数据所对应的频域数据进行滤波处理,以获得每个音源的原始音频数据所对应的滤波数据,对每个音源的原始音频数据所对应的滤波数据,进行混音处理。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取单元,具体用于
对目标音频文件的帧头进行解析,以确定所述目标音频文件的目标声道数目;对所述目标音频文件的数据块进行解码,以获得音源的原始音频数据;以及根据所述目标声道数目和所述音源的原始音频数据,获得每个目标声道所对应的声道音频数据;和/或
对至少一个目标声道的音频信号进行抽样、量化和编码处理,以获得所述至少一个目标声道中每个目标声道所对应的声道音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述变换单元,用于
确定待混音的至少两个目标声道,以作为混音声道;
对每个混音声道所对应的声道音频数据进行分帧处理,以获得每个混音声道的至少一帧音频数据;以及
对每个混音声道的至少一帧音频数据,进行频域变换处理,以获得每个混音声道所对应的频域数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述混音单元,具体用于音源的原始音频数据所对应的频域数据
根据每个混音声道的方位信息,获得每个混音声道的频率响应参数;
根据每个混音声道的频率响应参数和每个混音声道所对应的频域数据,获得每个混音声道的滤波数据;以及
对每个混音声道的滤波数据,进行混音处理。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述频域变换处理为快速傅里叶变换方法;所述混音单元,具体用于
根据每个混音声道的方位信息,并利用公式t(k,m)=round(N×fk×τ(θm)+0.5),获得每个混音声道的频率响应参数;其中,fk=k×fs/N;τ(θm)=0.2×sin(θm)/v;其中,
k为频点,取值范围[0,N-1];
t(k,m)为第k个频点的频率响应参数值;
fs为采样率;
fk为第k个频点的频率;
N为快速傅里叶变换方法的点数;
θm为每个混音声道的方位信息,m=1,2,…,M为,M为混音声道的数目;
v为声速,340米/秒;
round(x)表示取最接近x的整数。
由上述技术方案可知,本发明实施例通过对所获取的至少两个音源的原始音频数据中每个音源的原始音频数据进行频域变换处理,以获得每个音源的原始音频数据所对应的频域数据,进而利用预先设置的至少两个方位信息,分别对每个音源的原始音频数据所对应的频域数据进行滤波处理,以获得每个音源的原始音频数据所对应的滤波数据,使得能够对每个音源的原始音频数据所对应的滤波数据,进行混音处理,由于利用指定的方位信息,对待混音音源的音频信号进行滤波处理,使得每个音源的声像能够位于不同的位置,而不是都在一个位置,因此,混音后的每个音源在听觉上会感到非常清晰,从而提高了混音后的音频质量。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的混音方法的流程示意图;
图2为本发明另一实施例提供的混音装置的结构示意图。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持装置、无线上网本、便携电脑、个人电脑(Personal Computer,PC)、MP3播放器、MP4播放器等。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明一实施例提供的一种混音方法的流程示意图,如图1所示。
101、获取至少两个音源的原始音频数据。
102、对所述至少两个音源的原始音频数据中每个音源的原始音频数据进行频域变换处理,以获得每个音源的原始音频数据所对应的频域数据。
103、利用预先设置的至少两个方位信息,分别对每个音源的原始音频数据所对应的频域数据进行滤波处理,以获得每个音源的原始音频数据所对应的滤波数据,对每个音源的原始音频数据所对应的滤波数据,进行混音处理。
其中,所述方位信息,用于指示音源的声像位置。可以采用任何参照物,例如,人的任意一个耳朵、人的两个耳朵中间的位置等。
需要说明的是,101~103的执行主体可以为处理装置,可以位于本地的应用(Application,App)例如,百度乐播中,或者还可以位于网络侧的服务器中,或者还可以一部分位于本地的应用中,另一部分位于网络侧的服务器。
可以理解的是,所述应用可以是安装在终端上的应用程序(nativeAPP),或者还可以是终端上的浏览器的一个网页(webAPP),只要能够实现音频数据的处理的客观存在形式都可以,本实施例对此不进行限定。
所谓音源,就是音频信号的源头。音频信号,是一种连续变化的模拟信号。音频处理设备可以对所采集的音频信号进行抽样、量化和编码处理,以获得脉冲编码调制(PulseCode Modulation,PCM)数据,进而再采用压缩算法,对PCM数据进行压缩,以获得不同压缩格式的音频文件。
其中,所述音频文件可以包括现有技术中各种压缩格式的音频文件,例如,动态图像专家组(Moving Picture Experts Group,MPEG)层3(MPEGLayer-3,MP3)格式音频文件、WMA(Windows Media Audio)格式音频文件、高级音频编码(Advanced Audio Coding,AAC)格式音频文件、无损音频压缩编码(Free Lossless Audio Codec,FLAC)或APE格式音频文件等,本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,在101中,处理装置具体可以对目标音频文件的帧头进行解析,以确定所述目标音频文件的目标声道数目;对所述目标音频文件的数据块进行解码,以获得音源的原始音频数据,即PCM数据;以及根据所述目标声道数目和所述音源的原始音频数据,获得每个目标声道所对应的声道音频数据。
可选地,在本实施例的一个可能的实现方式中,在101中,处理装置具体可以对至少一个目标声道的音频信号(即声音模拟信号)进行抽样、量化和编码处理,以获得所述至少一个目标声道中每个目标声道所对应的声道音频数据,即PCM数据。
可选地,在本实施例的一个可能的实现方式中,在102中,处理装置具体可以确定待混音的至少两个目标声道,以作为混音声道。然后,所述处理装置对每个混音声道所对应的声道音频数据进行分帧处理,以获得每个混音声道的至少一帧音频数据,进而对每个混音声道的至少一帧音频数据,进行频域变换处理,以获得每个混音声道所对应的频域数据。
具体地,由于混音操作是按照声道对应执行,因此,所述处理装置具体可以根据每个音源所对应的声道数目,确定待混音的至少两个目标声道,以作为混音声道。
例如,音源1的声道数目是1,可以记为L11,音源2的声道数目也是1,可以记为L21,那么,所述处理装置则可以确定L11和L21为混音声道。
或者,再例如,音源1的声道数目是2,可以记为L12和L13,音源2的声道数目也是2,可以记为L22和L23,那么,所述处理装置则可以确定L12和L22为一组混音声道,确定L13和L23为另一组混音声道。
例如,音源1的声道数目是1,可以记为L14,音源2的声道数目是2,可以记为L24和L25。那么,所述处理装置则可以采用两种方式,进行混音声道的确定。
一种方式为,所述处理装置可以对音源2的两个声道的原始音频数据进行处理,以获得1个声道即L26的原始音频数据。处理装置具体可以采用现有技术中的处理方法,将2个声道的原始音频数据转换成1个声道的原始音频数据,详细描述可以参见现有技术中的相关内容,此处不再赘述。这样,则可以确定L14和L26为混音声道。
另一种方式为,所述处理装置可以对音源1的1个声道的原始音频数据进行处理,以获得2个声道即L15和L16的原始音频数据。处理装置具体可以采用现有技术中的处理方法,将1个声道的原始音频数据转换成2个声道的原始音频数据,详细描述可以参见现有技术中的相关内容,此处不再赘述。这样,则可以确定L15和L24为一组混音声道,确定L16和L25为另一组混音声道。
具体地,所述频域变换处理可以包括但不限于快速傅里叶变换(Fast FourierTransform,FFT)。
例如,所述处理装置可以对每个混音声道所对应的声道音频数据按照预设时间间隔,例如,20ms,进行分帧处理,且相邻帧之间有部分的数据重叠,例如50%的数据重叠,这样,能够获得每个混音声道的至少一帧音频数据。然后,所述处理装置则可以对每个混音声道的至少一帧音频数据,进行FFT处理,以获得每个混音声道所对应的频域数据,记为Ai,j;其中,i表示频点的编号,j表示帧的编号,Ai,j表示第j个帧在第i个频点处的频域数据。
可选地,在本实施例的一个可能的实现方式中,在103中,处理装置具体可以根据每个混音声道的方位信息,获得每个混音声道的频率响应参数,进而根据每个混音声道的频率响应参数和每个混音声道所对应的频域数据,获得每个混音声道的滤波数据。然后,所述处理装置则可以对每个混音声道的滤波数据,进行混音处理。
例如,所述频域变换处理为FFT处理,所述处理装置具体可以根据每个混音声道的方位信息,并利用公式t(k,m)=round(N×fk×τ(θm)+0.5),获得每个混音声道的频率响应参数;其中,fk=k×fs/N;τ(θm)=0.2×sin(θm)/v;其中,
k为频点,取值范围[0,N-1];
t(k,m)为第k个频点的频率响应参数值;
fs为采样率;
fk为第k个频点的频率;
N为快速傅里叶变换方法的点数;
θm为每个混音声道的方位信息,m=1,2,…,M为,M为混音声道的数目;
v为声速,340米/秒;
round(x)表示取最接近x的整数。
具体地,θm为设置具体可以根据混音声道的数目M,进行灵活设置,尽量使得每个音源的声像能够位于不同的位置。
例如,假设音源1的声道数目是1,记为L11,音源2的声道数目也是1,记为L21,所述处理装置确定L11和L21为混音声道。L11所对应的频域数据,记为H11,L21所对应的频域数据,记为H21。
那么,L11的滤波数据则可以为H11×t(k,1);L21的滤波数据则可以为H11×t(k,2);其中,θ1≠θ2
然后,所述处理装置则可以分别对L11的滤波数据和L21的滤波数据进行反FFT处理,以获得L11的虚拟音频数据和L21的虚拟音频数据。最后,所述处理装置具体可以采用现有技术中的混音方法,对L11的虚拟音频数据和L21的虚拟音频数据进行混音处理,详细描述可以参见现有技术中的相关内容,此处不再赘述。
或者,再例如,音源1的声道数目是2,记为L12和L13,音源2的声道数目也是2,记为L22和L23,所述处理装置确定L12和L22为一组混音声道,确定L13和L23为另一组混音声道。L12和L13所对应的频域数据,记为H12和H13,L22和L23所对应的频域数据,记为H22和H23。
那么,L12的滤波数据则可以为H12×t(k,1)+H13×t(k,1),L13的滤波数据则可以为H12×t(k,1′)+H13×t(k,1′),θ1′≠360°-θ1;L22的滤波数据则可以为H22×t(k,2)+H23×t(k,2),L23的滤波数据则可以为H22×t(k,2′)+H23×t(k,2′),θ2′≠360°-θ2;其中,θ1≠θ2
然后,所述处理装置则可以分别对L12的滤波数据和L22的滤波数据进行反FFT处理,以获得L12的虚拟音频数据和L22的虚拟音频数据,以及分别对L13的滤波数据和L23的滤波数据进行反FFT处理,以获得L13的虚拟音频数据和L23的虚拟音频数据。
最后,所述处理装置具体可以采用现有技术中的混音方法,对L12的虚拟音频数据和L22的虚拟音频数据进行混音处理,以及对L13的虚拟音频数据和L23的虚拟音频数据进行混音处理,进而将经过混音处理的两部分音频数据重新组合成声道数目是2的音频数据。其中,混音处理的详细描述可以参见现有技术中的相关内容,此处不再赘述。
本实施例中,通过对所获取的至少两个音源的原始音频数据中每个音源的原始音频数据进行频域变换处理,以获得每个音源的原始音频数据所对应的频域数据,进而利用预先设置的至少两个方位信息,分别对每个音源的原始音频数据所对应的频域数据进行滤波处理,以获得每个音源的原始音频数据所对应的滤波数据,使得能够对每个音源的原始音频数据所对应的滤波数据,进行混音处理,由于利用指定的方位信息,对待混音音源的音频信号进行滤波处理,使得每个音源的声像能够位于不同的位置,而不是都在一个位置,因此,混音后的每个音源在听觉上会感到非常清晰,从而提高了混音后的音频质量。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图2为本发明另一实施例提供的混音装置的结构示意图,如图2所示。本实施例的混音装置可以包括获取单元21、变换单元22和混音单元23。其中,获取单元21,用于获取至少两个音源的原始音频数据;变换单元22,用于对所述至少两个音源的原始音频数据中每个音源的原始音频数据进行频域变换处理,以获得每个音源的原始音频数据所对应的频域数据;混音单元23,用于利用预先设置的至少两个方位信息,分别对每个音源的原始音频数据所对应的频域数据进行滤波处理,以获得每个音源的原始音频数据所对应的滤波数据,对每个音源的原始音频数据所对应的滤波数据,进行混音处理。
其中,所述方位信息,用于指示音源的声像位置。可以采用任何参照物,例如,人的任意一个耳朵、人的两个耳朵中间的位置等。
需要说明的是,本实施例所提供的混音装置可以为一处理装置,可以位于本地的应用(Application,App)例如,百度乐播中,或者还可以位于网络侧的服务器中,或者还可以一部分功能单元位于本地的应用中,另一部分功能单元位于网络侧的服务器。
可以理解的是,所述应用可以是安装在终端上的应用程序(nativeAPP),或者还可以是终端上的浏览器的一个网页(webAPP),只要能够实现音频数据的处理的客观存在形式都可以,本实施例对此不进行限定。
图1对应的实施例中的方法,均可以由本实施例提供的混音装置实现,详细描述可以参见图1对应的实施例中的相关内容。
可选地,在本实施例的一个可能的实现方式中,所述获取单元21,具体可以用于对目标音频文件的帧头进行解析,以确定所述目标音频文件的目标声道数目;对所述目标音频文件的数据块进行解码,以获得音源的原始音频数据;以及根据所述目标声道数目和所述音源的原始音频数据,获得每个目标声道所对应的声道音频数据。
可选地,在本实施例的一个可能的实现方式中,所述获取单元21,具体可以用于对至少一个目标声道的音频信号进行抽样、量化和编码处理,以获得所述至少一个目标声道中每个目标声道所对应的声道音频数据。
可选地,在本实施例的一个可能的实现方式中,所述变换单元22,具体可以用于确定待混音的至少两个目标声道,以作为混音声道;对每个混音声道所对应的声道音频数据进行分帧处理,以获得每个混音声道的至少一帧音频数据;以及对每个混音声道的至少一帧音频数据,进行频域变换处理,以获得每个混音声道所对应的频域数据。
可选地,在本实施例的一个可能的实现方式中,所述混音单元23,具体可以根据每个混音声道的方位信息,获得每个混音声道的频率响应参数;根据每个混音声道的频率响应参数和每个混音声道所对应的频域数据,获得每个混音声道的滤波数据;以及对每个混音声道的滤波数据,进行混音处理。
例如,所述频域变换处理为FFT处理,所述混音单元23,具体可以用于根据每个混音声道的方位信息,并利用公式t(k,m)=round(N×fk×τ(θm)+0.5),获得每个混音声道的频率响应参数;其中,fk=k×fs/N;τ(θm)=0.2×sin(θm)/v;其中,
k为频点,取值范围[0,N-1];
t(k,m)为第k个频点的频率响应参数值;
fs为采样率;
fk为第k个频点的频率;
N为快速傅里叶变换方法的点数;
θm为每个混音声道的方位信息,m=1,2,…,M为,M为混音声道的数目;
v为声速,340米/秒;
round(x)表示取最接近x的整数。
具体地,θm为设置具体可以根据混音声道的数目M,进行灵活设置,尽量使得每个音源的声像能够位于不同的位置。
本实施例中,通过变换单元对获取单元所获取的至少两个音源的原始音频数据中每个音源的原始音频数据进行频域变换处理,以获得每个音源的原始音频数据所对应的频域数据,进而由混音单元利用预先设置的至少两个方位信息,分别对每个音源的原始音频数据所对应的频域数据进行滤波处理,以获得每个音源的原始音频数据所对应的滤波数据,使得能够对每个音源的原始音频数据所对应的滤波数据,进行混音处理,由于利用指定的方位信息,对待混音音源的音频信号进行滤波处理,使得每个音源的声像能够位于不同的位置,而不是都在一个位置,因此,混音后的每个音源在听觉上会感到非常清晰,从而提高了混音后的音频质量。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,音频处理引擎,或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种混音方法,其特征在于,包括:
获取至少两个音源的原始音频数据;
对所述至少两个音源的原始音频数据中每个音源的原始音频数据进行频域变换处理,以获得每个音源的原始音频数据所对应的频域数据;
利用预先设置的至少两个方位信息,分别对每个音源的原始音频数据所对应的频域数据进行滤波处理,以获得每个音源的原始音频数据所对应的滤波数据,对每个音源的原始音频数据所对应的滤波数据,进行混音处理;其中,所述至少两个方位信息中每个方位信息,用于指示音源的声像位置。
2.根据权利要求1所述的方法,其特征在于,所述获取至少两个音源的原始音频数据,包括:
对目标音频文件的帧头进行解析,以确定所述目标音频文件的目标声道数目;对所述目标音频文件的数据块进行解码,以获得音源的原始音频数据;以及根据所述目标声道数目和所述音源的原始音频数据,获得每个目标声道所对应的声道音频数据;和/或
对至少一个目标声道的音频信号进行抽样、量化和编码处理,以获得所述至少一个目标声道中每个目标声道所对应的声道音频数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述至少两个音源的原始音频数据中每个音源的原始音频数据进行频域变换处理,以获得每个音源的原始音频数据所对应的频域数据,包括:
确定待混音的至少两个目标声道,以作为混音声道;
对每个混音声道所对应的声道音频数据进行分帧处理,以获得每个混音声道的至少一帧音频数据;
对每个混音声道的至少一帧音频数据,进行频域变换处理,以获得每个混音声道所对应的频域数据。
4.根据权利要求2或3所述的方法,其特征在于,所述利用预先设置的至少两个方位信息,分别对每个音源的原始音频数据所对应的频域数据进行滤波处理,以获得每个音源的原始音频数据所对应的滤波数据,对每个音源的原始音频数据所对应的滤波数据,进行混音处理,包括:
根据每个混音声道的方位信息,获得每个混音声道的频率响应参数;
根据每个混音声道的频率响应参数和每个混音声道所对应的频域数据,获得每个混音声道的滤波数据;
对每个混音声道的滤波数据,进行混音处理。
5.根据权利要求4所述的方法,其特征在于,所述频域变换处理为快速傅里叶变换方法;所述根据每个混音声道的方位信息,获得每个混音声道的频率响应参数,包括:
根据每个混音声道的方位信息,并利用公式t(k,m)=round(N×fk×τ(θm)+0.5),获得每个混音声道的频率响应参数;其中,fk=k×fs/N;τ(θm)=0.2×sin(θm)/v;其中,
k为频点,取值范围[0,N-1];
t(k,m)为第k个频点的频率响应参数值;
fs为采样率;
fk为第k个频点的频率;
N为快速傅里叶变换方法的点数;
θm为每个混音声道的方位信息,m=1,2,...,M为,M为混音声道的数目;
v为声速,340米/秒;
round(x)表示取最接近x的整数。
6.一种混音装置,其特征在于,包括:
获取单元,用于获取至少两个音源的原始音频数据;
变换单元,用于对所述至少两个音源的原始音频数据中每个音源的原始音频数据进行频域变换处理,以获得每个音源的原始音频数据所对应的频域数据;
混音单元,用于利用预先设置的至少两个方位信息,分别对每个音源的原始音频数据所对应的频域数据进行滤波处理,以获得每个音源的原始音频数据所对应的滤波数据,对每个音源的原始音频数据所对应的滤波数据,进行混音处理;其中,所述至少两个方位信息中每个方位信息,用于指示音源的声像位置。
7.根据权利要求6所述的装置,其特征在于,所述获取单元,具体用于
对目标音频文件的帧头进行解析,以确定所述目标音频文件的目标声道数目;对所述目标音频文件的数据块进行解码,以获得音源的原始音频数据;以及根据所述目标声道数目和所述音源的原始音频数据,获得每个目标声道所对应的声道音频数据;和/或
对至少一个目标声道的音频信号进行抽样、量化和编码处理,以获得所述至少一个目标声道中每个目标声道所对应的声道音频数据。
8.根据权利要求7所述的装置,其特征在于,所述变换单元,用于
确定待混音的至少两个目标声道,以作为混音声道;
对每个混音声道所对应的声道音频数据进行分帧处理,以获得每个混音声道的至少一帧音频数据;以及
对每个混音声道的至少一帧音频数据,进行频域变换处理,以获得每个混音声道所对应的频域数据。
9.根据权利要求7或8所述的装置,其特征在于,所述混音单元,具体用于
根据每个混音声道的方位信息,获得每个混音声道的频率响应参数;
根据每个混音声道的频率响应参数和每个混音声道所对应的频域数据,获得每个混音声道的滤波数据;以及
对每个混音声道的滤波数据,进行混音处理。
10.根据权利要求9所述的装置,其特征在于,所述频域变换处理为快速傅里叶变换方法;所述混音单元,具体用于
根据每个混音声道的方位信息,并利用公式t(k,m)=round(N×fk×τ(θm)+0.5),获得每个混音声道的频率响应参数;其中,fk=k×fs/N;τ(θm)=0.2×sin(θm)/v;其中,
k为频点,取值范围[0,N-1];
t(k,m)为第k个频点的频率响应参数值;
fs为采样率;
fk为第k个频点的频率;
N为快速傅里叶变换方法的点数;
θm为每个混音声道的方位信息,m=1,2,...,M为,M为混音声道的数目;
v为声速,340米/秒;
round(x)表示取最接近x的整数。
CN201410256380.5A 2014-06-10 2014-06-10 混音方法及装置 Active CN104064191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410256380.5A CN104064191B (zh) 2014-06-10 2014-06-10 混音方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410256380.5A CN104064191B (zh) 2014-06-10 2014-06-10 混音方法及装置

Publications (2)

Publication Number Publication Date
CN104064191A CN104064191A (zh) 2014-09-24
CN104064191B true CN104064191B (zh) 2017-12-15

Family

ID=51551869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410256380.5A Active CN104064191B (zh) 2014-06-10 2014-06-10 混音方法及装置

Country Status (1)

Country Link
CN (1) CN104064191B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106878230A (zh) * 2015-12-10 2017-06-20 中国电信股份有限公司 网络电话会议中的音频处理方法、服务器以及***
CN106231489A (zh) * 2016-07-25 2016-12-14 深圳市米尔声学科技发展有限公司 音频的处理方法和装置
CN108111474B (zh) * 2016-11-25 2019-05-17 视联动力信息技术股份有限公司 一种混音方法和装置
CN109309845A (zh) * 2017-07-28 2019-02-05 北京陌陌信息技术有限公司 视频的显示方法和装置、计算机可读存储介质
CN107506409B (zh) * 2017-08-09 2021-01-08 浪潮金融信息技术有限公司 一种多音频数据的处理方法
CN107818790B (zh) * 2017-11-16 2020-08-11 苏州麦迪斯顿医疗科技股份有限公司 一种多路音频混音方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1770256A (zh) * 2004-11-02 2006-05-10 北京中科信利技术有限公司 一种基于变换域的数字音频混合方法
CN1778143A (zh) * 2003-09-08 2006-05-24 松下电器产业株式会社 声像控制装置的设计工具及声像控制装置
CN101065990A (zh) * 2004-09-16 2007-10-31 松下电器产业株式会社 声像定位装置
CN101459797A (zh) * 2007-12-14 2009-06-17 深圳Tcl新技术有限公司 一种声音定位的方法及***
CN102056053A (zh) * 2010-12-17 2011-05-11 中兴通讯股份有限公司 一种多话筒混音方法及装置
EP2421182A1 (en) * 2010-08-20 2012-02-22 Mediaproducción, S.L. Method and device for automatically controlling audio digital mixers
CN102986254A (zh) * 2010-07-12 2013-03-20 华为技术有限公司 音频信号产生装置
CN103037300A (zh) * 2011-10-07 2013-04-10 索尼公司 音频信号处理设备,音频信号处理方法,程序和记录介质
CN103069481A (zh) * 2010-07-20 2013-04-24 华为技术有限公司 音频信号合成器
CN103379424A (zh) * 2012-04-24 2013-10-30 华为技术有限公司 一种混音方法及多点控制服务器
CN103686544A (zh) * 2013-09-04 2014-03-26 张家港保税区润桐电子技术研发有限公司 一种音频信号的合成方法
CN105556990A (zh) * 2013-08-30 2016-05-04 共荣工程株式会社 音响处理装置、音响处理方法、及音响处理程序

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4426159B2 (ja) * 2002-08-28 2010-03-03 ヤマハ株式会社 ミキシング装置
CN102222503B (zh) * 2010-04-14 2013-08-28 华为终端有限公司 一种音频信号的混音处理方法、装置及***

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1778143A (zh) * 2003-09-08 2006-05-24 松下电器产业株式会社 声像控制装置的设计工具及声像控制装置
CN101065990A (zh) * 2004-09-16 2007-10-31 松下电器产业株式会社 声像定位装置
CN1770256A (zh) * 2004-11-02 2006-05-10 北京中科信利技术有限公司 一种基于变换域的数字音频混合方法
CN101459797A (zh) * 2007-12-14 2009-06-17 深圳Tcl新技术有限公司 一种声音定位的方法及***
CN102986254A (zh) * 2010-07-12 2013-03-20 华为技术有限公司 音频信号产生装置
CN103069481A (zh) * 2010-07-20 2013-04-24 华为技术有限公司 音频信号合成器
EP2421182A1 (en) * 2010-08-20 2012-02-22 Mediaproducción, S.L. Method and device for automatically controlling audio digital mixers
WO2012079459A1 (zh) * 2010-12-17 2012-06-21 中兴通讯股份有限公司 一种多话筒混音方法及装置
CN102056053A (zh) * 2010-12-17 2011-05-11 中兴通讯股份有限公司 一种多话筒混音方法及装置
CN103037300A (zh) * 2011-10-07 2013-04-10 索尼公司 音频信号处理设备,音频信号处理方法,程序和记录介质
CN103379424A (zh) * 2012-04-24 2013-10-30 华为技术有限公司 一种混音方法及多点控制服务器
CN105556990A (zh) * 2013-08-30 2016-05-04 共荣工程株式会社 音响处理装置、音响处理方法、及音响处理程序
CN103686544A (zh) * 2013-09-04 2014-03-26 张家港保税区润桐电子技术研发有限公司 一种音频信号的合成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"论立体声节目制作中的声像定位";王智;《音响技术》;20071231;全文 *
"音乐混音中重塑空间纵深感的技术手段";刘志晟;《演艺科技》;20131112(第12期);全文 *

Also Published As

Publication number Publication date
CN104064191A (zh) 2014-09-24

Similar Documents

Publication Publication Date Title
CN104064191B (zh) 混音方法及装置
CN111954904B (zh) 用于转换输入音频信号的音频信号处理***及方法
CN103348703B (zh) 用以利用预先算出的参考曲线来分解输入信号的装置和方法
EP4011099A1 (de) System und verfahren zur unterstützung von selektivem hören
CN107731238B (zh) 多声道信号的编码方法和编码器
CN104718572B (zh) 音频编码方法和装置、音频解码方法和装置及采用该方法和装置的多媒体装置
CN104934036B (zh) 音频编码装置、方法以及音频解码装置、方法
Tan et al. SAGRNN: Self-attentive gated RNN for binaural speaker separation with interaural cue preservation
CN105900455A (zh) 用于处理音频信号的方法和设备
CN103403800A (zh) 确定多声道音频信号的声道间时间差
CN106797526B (zh) 音频处理装置、方法和计算机可读记录介质
CN104036788B (zh) 音频文件的音质识别方法及装置
WO2018201112A1 (en) Audio coder window sizes and time-frequency transformations
CN110176241A (zh) 信号编码方法和设备以及信号解码方法和设备
CN106033671B (zh) 确定声道间时间差参数的方法和装置
Quan et al. Multichannel speech separation with narrow-band conformer
EP2489036B1 (en) Method, apparatus and computer program for processing multi-channel audio signals
CN113314132A (zh) 一种应用于交互式音频***中的音频对象编码方法、解码方法及装置
Lin et al. Focus on the sound around you: Monaural target speaker extraction via distance and speaker information
CN107464569A (zh) 声码器
CN111009259B (zh) 一种音频处理方法和装置
CN111103568A (zh) 一种声源定位方法、装置、介质和设备
US11942097B2 (en) Multichannel audio encode and decode using directional metadata
CN107358959B (zh) 多声道信号的编码方法和编码器
Barinov et al. Channel compensation for forensic speaker identification using inverse processing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160316

Address after: 100027 Haidian District, Qinghe Qinghe East Road, No. 23, building two, floor 2108, No., No. 18

Applicant after: BEIJING YINZHIBANG CULTURE TECHNOLOGY Co.,Ltd.

Address before: 100085 Beijing, Haidian District, No. ten on the street Baidu building, No. 10

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220520

Address after: 518057 3305, floor 3, building 1, aerospace building, No. 51, Gaoxin South ninth Road, high tech Zone community, Yuehai street, Nanshan District, Shenzhen, Guangdong

Patentee after: Shenzhen Taile Culture Technology Co.,Ltd.

Address before: 2108, floor 2, building 23, No. 18, anningzhuang East Road, Qinghe, Haidian District, Beijing 100027

Patentee before: BEIJING YINZHIBANG CULTURE TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right