CN107358961B - 多声道信号的编码方法和编码器 - Google Patents

多声道信号的编码方法和编码器 Download PDF

Info

Publication number
CN107358961B
CN107358961B CN201610305243.5A CN201610305243A CN107358961B CN 107358961 B CN107358961 B CN 107358961B CN 201610305243 A CN201610305243 A CN 201610305243A CN 107358961 B CN107358961 B CN 107358961B
Authority
CN
China
Prior art keywords
signal
frequency domain
channel
domain signal
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610305243.5A
Other languages
English (en)
Other versions
CN107358961A (zh
Inventor
张兴涛
刘泽新
苗磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201610305243.5A priority Critical patent/CN107358961B/zh
Priority to PCT/CN2016/103584 priority patent/WO2017193549A1/zh
Publication of CN107358961A publication Critical patent/CN107358961A/zh
Application granted granted Critical
Publication of CN107358961B publication Critical patent/CN107358961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

本发明实施例提供一种多声道信号的编码方法和编码器,该方法包括:根据多声道信号构建目标频域信号,使得该目标频域信号的相位与第一声道和第二声道的IPD线性相关,再将目标频域信号变换为目标时域信号,并基于目标时域信号提取ITD参数。

Description

多声道信号的编码方法和编码器
技术领域
本发明实施例涉及音频编码领域,并且更为具体地,涉及一种多声道信号的编码方法和编码器。
背景技术
随着生活质量的提高,人们对高质量音频的需求不断增大。相对于单声道音频,立体声音频具有各声源的方位感和分布感,能够提高声音的清晰度、可懂度及临场感,因而备受人们青睐。
立体声处理技术主要有和差(Mid/Sid,MS)编码、强度立体声(Intensity Stereo,IS)编码以及参数立体声(Parametric Stereo,PS)编码。
MS编码基于声道间相关性将两路信号作和、差变换,各声道能量主要集中在和声道,使声道间冗余得以去除。在MS编码技术中,码率的节省依赖于输入信号的相关性,当左右声道信号的相关性差时,需分别传输左声道信号和右声道信号。IS编码基于人耳听觉***对声道的高频成分(例如,大于2kHz的成分)的相位差异精细结果不敏感的特性,将左右两路信号的高频分量进行简化处理。但该IS编码技术仅对高频成分有效,如将IS编码处理扩展到低频,将会引起严重的人为噪声。PS编码基于双耳听觉模型,在编码端将立体声转换成单声道信号和少量描述空间声场的空间参数(或空间感知参数),如图1所示(图1中的xL为左声道时域信号,xR为右声道时域信号)。解码端得到单声道信号后进一步结合空间参数恢复立体声,如图2所示。相对于MS编码,PS编码压缩比高,在保持较好音质的前提下,能够获得更高的编码增益,且可以工作在全音频带宽中,能够很好地还原立体声的空间感知效果。
PS编码中,空间参数包括声道间相关性(Inter-channel Coherent,IC)、声道间电平差(Inter-channel Level Difference,ILD)、声道间时间差(Inter-channel TimeDifference,ITD)以及声道间相位差(Inter-channel Phase Difference,IPD)。IC描述了声道间的互相关或相干性,该参数决定了声场范围的感知,可以提高音频信号空间感和声响稳定性。ILD用于分辨立体声源的水平方向角度,描述了声道间的强度差别,该参数将影响整个频谱的频率成分。ITD和IPD为表示声源水平方位的空间参数,描述了声道间的时间和相位的差别,该参数主要影响2kHz以下的频率成分。ILD、ITD和IPD能够决定人耳对声源位置的感知,可以有效确定声场位置,对立体声信号的恢复具有重要作用。
ITD参数的编码流程如图3所示。从图3可以看出,在现有技术中,ITD参数的提取是基于频域信号实现的。ITD参数的编码的主要步骤包括:
步骤1、对左右声道时域信号分别进行时频变换,得到左右声道的频域信号。
具体地,可以采用如下公式进行时频变换:
Figure BDA0000985621290000021
Figure BDA0000985621290000022
其中,xL(n)和xR(n)分别为左右声道的时域信号,Length为帧长或子帧长,L为时频变换的长度。
步骤2、基于左右声道的频域信号提取ITD参数。
具体地,可以将步骤2细分为如下步骤:
步骤2.1、基于公式(3),在预设的范围[k1,k2]内逐频点计算IPD参数:
IPD(k)=∠L(k)*R*(k),k1≤k≤k2 (3)
其中,k表示频点,L(k)和R(k)分别为左右声道频域信号第k个频点值,该频点值包含实部和虚部,R*(k)表示右声道频域信号第k个频点的共轭,L(k)和R(k)的实部和虚部可以基于XL(k)和XR(k)构建,具体参见现有技术。
步骤2.2、基于公式(4)计算各频点的声道间时间差:
Figure BDA0000985621290000031
其中,L是将所述左右声道的时域信号变换成左右声道的频域信号时采用的时频变换长度,π为圆周率。
步骤2.3、对ITD(k)进行统计处理,得到ITD参数。
具体地,可以在得到[k1,k2]范围内的ITD(k)后,统计ITD(k)为正数的个数Npos以及ITD(k)为负数的个数Nneg,并进一步分别计算ITD(k)为正数的均值Mpos、方差Vpos以及ITD(k)为负数的均值Mneg、方差Vneg;最后根据Npos、Nneg、Mpos、Mneg、Vpos、Vneg得到当前帧/子帧的ITD参数,例如,当Npos>Nneg时,如果Vpos<Vneg,则ITD参数为Mpos向上取整值。
步骤3、对提取的ITD参数进行量化处理。
解码端可以结合单声道信号和解码得到的ITD参数,恢复立体声相位信息。
从公式(4)可以看出,现有技术基于IPD计算ITD。但是,对于时延较大的信号,会导致IPD超出2π的范围,如果仍采用现有技术的方式提取ITD参数,会导致计算出的ITD参数不准确,进而导致解码音频质量下降。
发明内容
本申请提供一种多声道信号的编码方法和编码器,以准确提取多声道信号的ITD参数。
第一方面,提供一种多声道信号的编码方法,包括:获取多声道信号;根据所述多声道信号,生成目标频域信号,所述目标频域信号的相位与所述多声道信号的IPD线性相关;对所述目标频域信号进行频时变换,得到目标时域信号;根据所述目标时域信号,确定所述多声道信号的ITD参数;对所述ITD参数进行编码。
由于构建出的目标频域信号的相位与所述多声道信号的IPD线性相关,对该目标频域信号进行频时变换得到的目标时域信号的最大值会位于ITD处,利用目标时域信号得到的ITD参数不会受到多声道信号的IPD是否超出2π范围的影响,比较准确。
在某些实现方式中,目标频域信号的相位为多声道信号的IPD。应理解,频域信号可以通过复数表示,而复数可以通过幅值和相位表示,目标频域信号的相位可以指表示组成该目标频域信号的复数的相位。
结合第一方面,在第一方面的第一种实现方式中,所述根据所述多声道信号,生成目标频域信号,包括:根据所述多声道信号,确定所述目标频域信号的幅值;根据所述多声道信号,确定所述多声道信号的IPD参数;根据所述目标频域信号的幅值,以及所述多声道信号的IPD参数,生成所述目标频域信号。
结合第一方面的第一种实现方式,在第一方面的第二种实现方式中,所述根据所述多声道信号,确定所述目标频域信号的幅值,包括:根据
Figure BDA0000985621290000041
确定所述目标频域信号的幅值,其中,AM(k)表示所述目标频域信号的幅值,A1(k)表示所述多声道信号中的第一声道的频域信号的幅值,A2(k)表示所述多声道信号中的第二声道的频域信号的幅值,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换的长度。
结合第一方面的第一种或第二种实现方式,在第一方面的第三种实现方式中,所述根据所述目标频域信号的幅值,以及所述多声道信号的IPD参数,生成所述目标频域信号,包括:根据
Figure BDA0000985621290000042
生成所述目标频域信号,其中,AM(k)表示所述目标频域信号的幅值,XM_real(k)表示所述目标频域信号的实部,XM_iamge(k)表示所述目标频域信号的虚部,IPD(k)表示所述IPD参数,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
结合第一方面的第一种至第三种实现方式中的任一种,在第一方面的第四种实现方式中,所述根据所述多声道信号,生成目标频域信号,包括:根据XM(k)=X1(k)*X* 2(k),生成所述目标频域信号,其中,XM(k)表示所述目标频域信号,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
通过第一声道的频域信号与第二声道的频域信号的共轭直接相乘的方式构建目标频域信号,能够提高编码效率。
结合第一方面或第一方面的第一种至第三种实现方式中的任一种,在第一方面的第五种实现方式中,所述根据所述多声道信号,生成目标频域信号,包括:根据XM(k)=X1(k)*X* 2(k),确定频域信号XM(k),其中,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度;对所述频域信号XM(k)的幅值进行归一化处理,得到所述目标频域信号。
结合第一方面或第一方面的第一种至第五种实现方式中的任一种,在第一方面的第六种实现方式中,所述根据所述目标时域信号,确定所述多声道信号的ITD参数,包括:从所述目标时域信号的N个采样点中选取目标采样点,所述目标采样点为所述N个采样点中的采样值最大的采样点,N表示所述目标时域信号的采样点的数目;根据所述目标采样点对应的索引值,确定所述多声道信号的ITD参数,其中,所述索引值用于指示所述目标采样点在所述N个采样点中的排序。可替换地,所述索引值用于指示所述目标采样点为所述N个采样点中的第几个采样点。例如,N个采样点的索引值的取值范围可以为(-N/2,N/2],假设目标采样点为N个采样点中的最后一个采样点,则目标采样点对应的索引值为N/2。
结合第一方面的第六种实现方式,在第一方面的第七种实现方式中,所述根据所述目标采样点对应的索引值,确定所述ITD参数,包括:将所述目标采样点对应的索引值确定为所述多声道信号的ITD参数。
结合第一方面或者第一方面的第一种至第七种实现方式中的任一种,在第一方面的第八种实现方式中,在所述根据所述目标时域信号,确定所述多声道信号的ITD参数之前,所述方法还包括:对所述目标时域信号的采样值进行平滑处理。
通过平滑处理目标时域信号的采样值,可以有效避免噪声干扰而导致的计算误差。
结合第一方面或第一方面的第一种至第八种实现方式中的任一种,在第一方面的第九种实现方式中,所述对所述目标频域信号进行频时变换,得到目标时域信号,包括:对所述目标频域信号中的部分频域信号进行频时变换,得到所述目标时域信号。
选取目标频域信号中的部分频域信号进行频时变换,可以有效降低编码复杂度。
第二方面,提供一种编码器,包括能够执行第一方面中的编码方法的各个步骤的单元。
第三方面,提供一种编码器,包括存储器和处理器,所述存储器用于存储程序,所述处理器用于执行程序,当所述程序被执行时,所述处理器执行第一方面或第一方面中的任意一种实现方式中的方法。
在某些实现方式中,目标频域信号可以为多声道的频域信号的互相关信号。
在某些实现方式中,目标频域信号的相位可以为多声道信号的IPD。应理解,频域信号可以通过复数表示,而复数可以通过幅值和相位表示,目标频域信号的相位可以指表示组成该目标频域信号的复数的相位。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中的PS编码的流程图。
图2是现有技术中的PS解码的流程图。
图3是现有技术中的ITD参数编码的流程图。
图4是本发明实施例的多声道信号的编码方法的示意性流程图。
图5是本发明实施例的多声道信号的编码方法的示意性流程图。
图6是本发明实施例的多声道信号的编码方法的示意性流程图。
图7是本发明实施例的编码器的示意性结构图。
图8是本发明实施例的编码器的示意性结构图。
具体实施方式
为了便于理解,先简单介绍多声道的ILD、ITD、IPD的含义。以第一个麦克拾取到的信号为第一声道信号,第二个麦克拾取到的信号为第二声道信号为例:
ILD描述了第一声道信号和第二声道信号之间的强度差别;如果ILD大于0,表示第一声道信号的能量高于第二声道信号的能量;如果ILD等于0,表示第一声道信号的能量等于第二声道信号的能量;如果ILD小于0,表示第一声道信号的能量小于第二声道信号的能量;
ITD描述的第一声道信号和第二声道信号之间的时间差别,即声源到达第一个麦克和第二个麦克的时间差异,如果ITD大于0,表示声源到达第一个麦克的时间早于声源到达第二个麦克的时间;如果ITD等于0,表示声源到达同时到达第一个麦克和第二个麦克;如果ITD小于0,表示声源达到第一个麦克的时间晚于声源到达第二个麦克的时间;
IPD描述了第一声道信号和第二声道信号的相位差别,该参数通常和ITD参数结合在一起,以便解码端恢复多声道信号的相位信息。
下面结合图4至图6,详细描述本发明实施例的编码方法。
图4是本发明实施例的编码方法的示意性流程图。图4的方法包括:
410、获取多声道信号。
应理解,多声道信号可以是多声道的时域信号,也可以是多声道的频域信号。
420、根据多声道信号,生成目标频域信号。
在一些实施例中,目标频域信号的相位可以与多声道信号的IPD线性相关。在一个例子中,该目标频域信号的相位可以为IPD,即线性相关系数为1。
步骤420的实现方式可以有多种,下文会结合具体的例子进行详细描述,此处不再详述。
430、对目标频域信号进行频时变换,得到目标时域信号。
在一些实施例中,可以将目标频域信号中的全部频域信号进行频时变换,得到目标时域信号。在一些实施例中,可以将目标频域信号中的部分频域信号进行频时变换,得到目标时域信号,这样可以降低编码复杂度。
需要说明的是,本发明实施例对目标频域信号中的部分频域信号的选取方式不作具体限定。在一些实施例中,假设目标频域信号的频谱范围是[0,F],选取的部分频域信号可以是目标频域信号的低频部分,例如目标频域信号的[0,F/2],[3,F/4]或者[F/4,F/2]部分,这种选取方式的依据的是:对于稳定信号而言,基于该信号的低频部分得到的结果(即多声道的ITD参数)与基于该信号的整个频谱得到的结果差异不大。
440、根据目标时域信号,确定多声道信号的ITD参数。
在一些实施例中,可以根据目标时域信号,确定多声道信号的ITD参数。
作为一种可选的实现方式,可以从目标时域信号的N个采样点中选取目标采样点,目标采样点为N个采样点中的采样值最大的采样点,N表示目标时域信号的采样点的数目;根据目标采样点对应的索引值,确定多声道信号的ITD参数,其中,索引值用于指示目标采样点在N个采样点中的排序。
例如,可以将目标采样点对应的索引值确定为多声道信号的ITD参数。又如,可以将目标采样点对应的索引值按照预设的规则进行变换,并将变换结果确定为多声道信号的ITD参数。
在一些实施例中,在根据目标时域信号确定ITD参数之前,可以先对目标时域信号的采样值进行平滑处理。
450、对多声道信号的ITD参数进行编码。
具体地,可以对多声道信号的ITD参数进行量化。
在一些实施例中,图4的方法还可以包括:向解码端发送编码后的多声道信号的ITD参数。
由于构建出的目标频域信号的相位与所述多声道信号的IPD线性相关,对该目标频域信号进行频时变换得到的目标时域信号的最大值会位于ITD处,利用目标时域信号得到的ITD参数不会受到多声道信号的IPD是否超出2π范围的影响,比较准确。
此外,图4的编码方法还可包括:对多声道的时域信号进行下混合得到单声道信号;对单声道信号进行编码,得到单声道信号对应的比特流;将单声道信号对应的比特流和空间参数对应的比特流进行比特流复用;向解码端传输复用后的比特流。
解码端可以采用类似现有技术的方式,结合解码后的单声道信号和ITD参数,恢复立体声。
下文以多声道信号为左右声道信号为例进行详细说明,但本发明实施例不限于此。实际中,本申请中的方案可应用于处理两声道或多声道信号中的任意两个声道,在多声道场景下,下文中的左右声道可以是该多声道中的任意两个声道。
图5是本发明实施例的多声道信号的编码方法的示意性流程图。在图5对应的实施例中,目标频域信号主要是通过逐频点(Frequency Bin)计算单声道频域信号的幅值和左右声道信号的IPD而构建出的频域信号。应理解,图5示出的处理步骤或操作仅是示例,本发明实施例还可以执行其它操作或者图5中的各种操作的变形。此外,图5中的各个步骤可以按照与图5呈现的不同的顺序来执行,并且有可能并非要执行图5中的全部操作。
510、对左右声道的时域信号分别进行时频变换,得到左右声道的频域信号。
具体地,可以采用公式(5)和(6)对左右声道的时域信号进行快速傅里叶变换(Fast Fourier Transformation,FFT):
Figure BDA0000985621290000101
Figure BDA0000985621290000102
其中,xL(n)和xR(n)分别为左右声道的时域信号,Length为帧长或子帧长,k为频域信号的频点的索引值,L为时频变换长度。
FFT变换后得到的频域信号是复数信号,包含了实部和虚部,对于左声道的频域信号,其实部为XL_real(k),虚部为XL_image(k);对于右声道的频域信号,其实部为XR_real(k),虚部为XR_image(k),其中,
Figure BDA0000985621290000103
具体地,以左声道的频域信号为例,其实部和虚部的取值可以采用如下计算方式:
XL_real(0)=XL(0),XL_image(0)=0 (7)
Figure BDA0000985621290000104
Figure BDA0000985621290000105
或者,
XL_real(0)=XL(0),XL_image(0)=0 (10)
Figure BDA0000985621290000111
Figure BDA0000985621290000112
需要注意的是,时频变换以后,对于宽带信号(WB信号),如果时频变换长度为512,则得到的频域信号包括256个频点,其中第256个频点对应的是8kHz的频谱,第128个频点对应的是4kHz的频谱,其它依次类推。
520、对左右声道的频域信号进行频域系数处理,得到目标频域信号。
在一些实施例中,可以逐频点计算目标频域信号的幅值AM(k)以及声道间相位差IPD(k),其中,k为频点,0≤k≤L/2,L为将左右声道的时域信号变换成左右声道的频域信号时采用的时频变换长度。
具体地,可以先计算目标频域信号的幅值AM(k):
Figure BDA0000985621290000113
其中,左声道的频域信号的幅值可以为:
Figure BDA0000985621290000114
右声道的频域信号的幅值可以为:
Figure BDA0000985621290000115
然后,可以计算左右声道信号的IPD(k):
IPD(k)=∠L(k)*R*(k),k1≤k≤k2 (16)
L(k)和R(k)分别为左右声道频域信号第k个频点值,该频点值包含实部和虚部,R*(k)表示右声道频域信号第k个频点值的共轭,L(k)和R(k)的实部和虚部可以基于XL(k)和XR(k)构建。
该公式(16)可以进一步整理为:
Figure BDA0000985621290000121
其中:
A′(k)=XL_real(k)*XR_real(k)+XL_image(k)*XR_image(k) (18)
A″(k)=XL_image(k)*XR_real(k)-XL_real(k)*XR_image(k) (19)
接着,在得到目标频域信号的幅值,以及左右声道信号的相位差之后,进一步处理得到目标频域信号:
XM_real(k)=AM(k)*cos(IPD(k)) (20)
XM_iamge(k)=AM(k)*sin(IPD(k)) (21)
在一些实施例中,在得到目标频域信号的幅值以及左右声道信号的IPD后,可以采用查表法得到目标频域信号,例如,设置sin函数和cos函数表格,利用查表法得到目标频域信号,这样可以有效降低算法的计算复杂度。
530、对目标频域信号进行频时变换,得到目标时域信号。
在一些实施例中,可以对目标频域信号加窗并进行逆离散傅里叶变换(InverseDiscrete Fourier Transform,IDFT)。
具体地,可以先对目标频域信号进行加窗处理:
Figure BDA0000985621290000122
Figure BDA0000985621290000123
其中,k为频点,0≤k≤L/2,L为将左右声道的时域信号变换成左右声道的频域信号时采用的时频变换长度。
然后,对加窗后的信号进行IDFT变换,得到目标时域信号:
Figure BDA0000985621290000124
Figure BDA0000985621290000125
其中,n为时域信号的采样点的索引值,0≤n<L/2。
在一些实施例中,步骤530可以采用IDFT进行频时变换,也可以采用逆快速傅里叶变换(Inverse Fast Fourier Transform,IFFT)进行频时变换。
在一些实施例中,可以无需对所有频点进行频时变换,仅在特定频域范围内进行频时变换,这样可以有效降低算法的计算复杂度。例如,可以在频点范围[k3,k4]内进行频时变换,其中,k3>0,k4<L/2。
540、对目标时域信号的幅值进行平滑处理。
具体地,目标时域信号的幅值可以通过下式表示:
Figure BDA0000985621290000131
对目标时域信号的幅值进行平滑处理,得到幅度平滑值Asm(n):
Figure BDA0000985621290000132
其中,
Figure BDA0000985621290000133
为当前帧的前一帧/子帧第n点的幅度平滑值;w1、w2为平滑因子,可以设置为常数,也可以随
Figure BDA0000985621290000134
和A(n)的大小关系的变化而变化,同时满足w1+w2=1。例如,可以设置w1=0.75,w2=0.25,或者w1=0.8,w2=0.2,或者w1=0.9,w2=0.1,或者
Figure BDA0000985621290000135
550、搜索平滑后的时域信号的采样值最大的采样点对应的索引值,得到ITD参数。
具体地,搜索平滑后的时域信号的采样值最大的采样点对应的索引值index=argmax(Asm(n)),ITD参数=index。
从公式(20)和(21)可以看出,频域系数处理以后得到的目标频域信号的相位为第一声道信号和第二声道信号的IPD。进一步地,由于IPD与ITD之间存在线性关系,可以将目标频域信号近似改写成下式:
Figure BDA0000985621290000136
Figure BDA0000985621290000137
对目标频域信号进行频时变换之后,目标时域信号的最大值会在ITD处。
图6是本发明实施例的多声道信号的编码方法的示意性流程图。在图6对应的实施例中,目标频域信号主要是基于左右声道中的一个声道的频域信号和另一个声道的频域信号的共轭构建出的。应理解,图6示出的处理步骤或操作仅是示例,本发明实施例还可以执行其它操作或者图6中的各种操作的变形。此外,图6中的各个步骤可以按照与图6呈现的不同的顺序来执行,并且有可能并非要执行图6中的全部操作。此外,图6中的各个步骤与图5中的各个步骤对应,不同之处在于步骤620的处理方式不同于步骤520的处理方式,其他步骤可以参照图5,此处不再详述。
610、对左右声道的时域信号分别进行时频变换,得到左右声道的频域信号。
620、通过左右声道信号中一个声道的频域信号和另一声道的频域信号的共轭相乘,得到目标频域信号。
应理解,一个声道的频域信号和另一个声道的频域信号的共轭相乘,得到的频域信号的相位为这两个声道信号之间的IPD。
具体地,目标频域信号XM(k)可以通过下式计算得到:
XM(k)=L(k)*R*(k) (30)
其中,L(k)和R(k)分别为左右声道频域信号第k个频点值,该频点值包含实部和虚部,R*(k)表示右声道频域信号第k个频点值的共轭,L(k)和R(k)的实部和虚部可以基于XL(k)和XR(k)构建。
或者XM(k)=R(k)*L*(k) (31)
其中,R(k)为右声道的频域信号第k个频点值,L*(k)为左声道的频域信号第k个频点值的共轭,0≤k≤L/2。
在一些实施例中,在得到XM(k)之后,可以进一步对XM(k)进行归一化处理,得到目标频域信号。
具体地,可以先计算XM(k)的最大值:
Figure BDA0000985621290000151
然后对XM(k)的幅值进行归一化处理:
Figure BDA0000985621290000152
Figure BDA0000985621290000153
630、对目标频域信号进行频时变换,得到目标时域信号。
640、对目标时域信号的幅值进行平滑处理。
650、搜索平滑后的时域信号的采样值最大的采样点对应的索引值,得到ITD参数。
上文结合图4至图6,详细描述了根据本发明实施例的多声道信号的编码方法,下文结合图7至图8,详细描述根据本发明实施例的编码器。应理解,图7或图8中的编码器能够执行图4至图6中的各个步骤,为避免重复,不再详述描述。
图7是本发明实施例的编码器的示意性结构图。图7的编码器700包括:
获取单元710,用于获取多声道信号;
生成单元720,用于根据所述多声道信号,生成目标频域信号,所述目标频域信号的相位与所述多声道信号的IPD线性相关;
频时变换单元730,用于对所述目标频域信号进行频时变换,得到目标时域信号;
确定单元740,用于根据所述目标时域信号,确定所述多声道信号的ITD参数;
编码单元750,用于对所述多声道信号的ITD参数进行编码。
可选地,作为一个实施例,所述生成单元720具体用于根据所述多声道信号,确定所述目标频域信号的幅值;根据所述多声道信号,确定所述多声道信号的IPD参数;根据所述目标频域信号的幅值,以及所述多声道信号的IPD参数,生成所述目标频域信号。
可选地,作为一个实施例,所述生成单元720具体用于根据
Figure BDA0000985621290000161
确定所述目标频域信号的幅值,其中,AM(k)表示所述目标频域信号的幅值,A1(k)表示所述多声道信号中的第一声道的频域信号的幅值,A2(k)表示所述多声道信号中的第二声道的频域信号的幅值,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换的长度。
可选地,作为一个实施例,所述生成单元720具体用于根据
Figure BDA0000985621290000162
生成所述目标频域信号,其中,AM(k)表示所述目标频域信号的幅值,XM_real(k)表示所述目标频域信号的实部,XM_iamge(k)表示所述目标频域信号的虚部,IPD(k)表示所述IPD参数,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换的长度。
可选地,作为一个实施例,所述生成单元720具体用于根据XM(k)=X1(k)*X* 2(k),生成所述目标频域信号,其中,XM(k)表示所述目标频域信号,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换的长度。
可选地,作为一个实施例,所述生成单元720具体用于根据XM(k)=X1(k)*X* 2(k),确定频域信号XM(k),其中,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换的长度;对所述频域信号XM(k)的幅值进行归一化处理,得到所述目标频域信号。
可选地,作为一个实施例,所述确定单元740具体用于从所述目标时域信号的N个采样点中选取目标采样点,所述目标采样点为所述N个采样点中的采样值最大的采样点,N表示所述目标时域信号的采样点的数目;根据所述目标采样点对应的索引值,确定所述多声道信号的ITD参数,其中,所述索引值用于指示所述目标采样点在所述N个采样点中的排序。
可选地,作为一个实施例,所述确定单元740具体用于将所述目标采样点对应的索引值确定为所述多声道信号的ITD参数。
可选地,作为一个实施例,所述编码器700还包括:平滑处理单元,用于对所述目标时域信号的样点值进行平滑处理。
可选地,作为一个实施例,所述频时变换单元730具体用于对所述目标频域信号中的部分频域信号进行频时变换,得到所述目标时域信号。
图8是本发明实施例的编码器的示意性结构图。图8的编码器800包括:
存储器810,用于存储程序;
处理器820,用于执行存储器810中的程序,当所述程序被执行时,所述处理器820获取多声道信号;根据所述多声道信号,生成目标频域信号,所述目标频域信号的相位与所述多声道信号的IPD线性相关;对所述目标频域信号进行频时变换,得到目标时域信号;根据所述目标时域信号,确定所述多声道信号的ITD参数;对所述多声道信号的ITD参数进行编码。
可选地,作为一个实施例,所述处理器820具体用于根据所述多声道信号,确定所述目标频域信号的幅值;根据所述多声道信号,确定所述多声道信号的IPD参数;根据所述目标频域信号的幅值,以及所述多声道信号的IPD参数,生成所述目标频域信号。
可选地,作为一个实施例,所述处理器820具体用于根据
Figure BDA0000985621290000171
确定所述目标频域信号的幅值,其中,AM(k)表示所述目标频域信号的幅值,A1(k)表示所述多声道信号中的第一声道的频域信号的幅值,A2(k)表示所述多声道信号中的第二声道的频域信号的幅值,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换的长度。
可选地,作为一个实施例,所述处理器820具体用于根据
Figure BDA0000985621290000181
生成所述目标频域信号,其中,AM(k)表示所述目标频域信号的幅值,XM_real(k)表示所述目标频域信号的实部,XM_iamge(k)表示所述目标频域信号的虚部,IPD(k)表示所述IPD参数,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换的长度。
可选地,作为一个实施例,所述处理器820具体用于根据XM(k)=X1(k)*X* 2(k),生成所述目标频域信号,其中,XM(k)表示所述目标频域信号,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
可选地,作为一个实施例,所述处理器820具体用于根据XM(k)=X1(k)*X* 2(k),确定频域信号XM(k),其中,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度;对所述频域信号XM(k)的幅值进行归一化处理,得到所述目标频域信号。
可选地,作为一个实施例,所述处理器820具体用于从所述目标时域信号的N个采样点中选取目标采样点,所述目标采样点为所述N个采样点中的采样值最大的采样点,N表示所述目标时域信号的采样点的数目;根据所述目标采样点对应的索引值,确定所述多声道信号的ITD参数,其中,所述索引值用于指示所述目标采样点在所述N个采样点中的排序。
可选地,作为一个实施例,所述处理器820具体用于将所述目标采样点对应的索引值确定为所述多声道信号的ITD参数。
可选地,作为一个实施例,所述处理器820还用于对所述目标时域信号的采样值进行平滑处理。
可选地,作为一个实施例,所述处理器820具体用于对所述目标频域信号中的部分频域信号进行频时变换,得到所述目标时域信号。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (20)

1.一种多声道信号的编码方法,其特征在于,包括:
获取多声道信号;
根据所述多声道信号,生成目标频域信号,所述目标频域信号的相位与所述多声道信号的声道间相位差IPD线性相关;
对所述目标频域信号进行频时变换,得到目标时域信号;
根据所述目标时域信号,确定所述多声道信号的声道间时间差ITD参数;
对所述ITD参数进行编码。
2.如权利要求1所述的方法,其特征在于,所述根据所述多声道信号,生成目标频域信号,包括:
根据所述多声道信号,确定所述目标频域信号的幅值;
根据所述多声道信号,确定所述多声道信号的IPD参数;
根据所述目标频域信号的幅值,以及所述多声道信号的IPD参数,生成所述目标频域信号。
3.如权利要求2所述的方法,其特征在于,所述根据所述多声道信号,确定所述目标频域信号的幅值,包括:
根据
Figure FDA0003125590850000011
确定所述目标频域信号的幅值,其中,AM(k)表示所述目标频域信号的幅值,A1(k)表示所述多声道信号中的第一声道的频域信号的幅值,A2(k)表示所述多声道信号中的第二声道的频域信号的幅值,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
4.如权利要求2或3所述的方法,其特征在于,所述根据所述目标频域信号的幅值,以及所述多声道信号的IPD参数,生成所述目标频域信号,包括:
根据
Figure FDA0003125590850000021
生成所述目标频域信号,其中,AM(k)表示所述目标频域信号的幅值,XM_real(k)表示所述目标频域信号的实部,XM_iamge(k)表示所述目标频域信号的虚部,IPD(k)表示所述IPD参数,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
5.如权利要求1-3中任一项所述的方法,其特征在于,所述根据所述多声道信号,生成目标频域信号,包括:
根据XM(k)=X1(k)*X* 2(k),生成所述目标频域信号,其中,XM(k)表示所述目标频域信号,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
6.如权利要求1-3中任一项所述的方法,其特征在于,所述根据所述多声道信号,生成目标频域信号,包括:
根据XM(k)=X1(k)*X* 2(k),确定频域信号XM(k),其中,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度;
对所述频域信号XM(k)的幅值进行归一化处理,得到所述目标频域信号。
7.如权利要求1-3中任一项所述的方法,其特征在于,所述根据所述目标时域信号,确定所述多声道信号的ITD参数,包括:
根据目标时域信号的采样值最大的采样点对应的索引值,确定所述多声道信号的ITD参数。
8.如权利要求7所述的方法,其特征在于,所述根据目标时域信号的采样值最大的采样点对应的索引值,确定所述多声道信号的ITD参数,包括:
将所述索引值确定为所述ITD参数。
9.如权利要求1-3中任一项所述的方法,其特征在于,在所述根据所述目标时域信号,确定所述多声道信号的ITD参数之前,所述方法还包括:
对所述目标时域信号的采样值进行平滑处理。
10.如权利要求1-3中任一项所述的方法,其特征在于,所述对所述目标频域信号进行频时变换,得到目标时域信号,包括:
对所述目标频域信号中的部分频域信号进行频时变换,得到所述目标时域信号。
11.一种编码器,其特征在于,包括:
获取单元,用于获取多声道信号;
生成单元,用于根据所述多声道信号,生成目标频域信号,所述目标频域信号的相位与所述多声道信号的声道间相位差IPD线性相关;
频时变换单元,用于对所述目标频域信号进行频时变换,得到目标时域信号;
确定单元,用于根据所述目标时域信号,确定所述多声道信号的声道间时间差ITD参数;
编码单元,用于对所述ITD参数进行编码。
12.如权利要求11所述的编码器,其特征在于,所述生成单元具体用于根据所述多声道信号,确定所述目标频域信号的幅值;根据所述多声道信号,确定所述多声道信号的IPD参数;根据所述目标频域信号的幅值,以及所述多声道信号的IPD参数,生成所述目标频域信号。
13.如权利要求12所述的编码器,其特征在于,所述生成单元具体用于根据
Figure FDA0003125590850000031
确定所述目标频域信号的幅值,其中,AM(k)表示所述目标频域信号的幅值,A1(k)表示所述多声道信号中的第一声道的频域信号的幅值,A2(k)表示所述多声道信号中的第二声道的频域信号的幅值,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
14.如权利要求12或13所述的编码器,其特征在于,所述生成单元具体用于根据
Figure FDA0003125590850000041
生成所述目标频域信号,其中,AM(k)表示所述目标频域信号的幅值,XM_real(k)表示所述目标频域信号的实部,XM_iamge(k)表示所述目标频域信号的虚部,IPD(k)表示所述IPD参数,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
15.如权利要求11-13中任一项所述的编码器,其特征在于,所述生成单元具体用于根据XM(k)=X1(k)*X* 2(k),生成所述目标频域信号,其中,XM(k)表示所述目标频域信号,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
16.如权利要求11-13中任一项所述的编码器,其特征在于,所述生成单元具体用于根据XM(k)=X1(k)*X* 2(k),确定频域信号XM(k),其中,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度;对所述频域信号XM(k)的幅值进行归一化处理,得到所述目标频域信号。
17.如权利要求11-13中任一项所述的编码器,其特征在于,所述确定单元具体用于根据目标时域信号的采样值最大的采样点对应的索引值,确定所述多声道信号的ITD参数。
18.如权利要求17所述的编码器,其特征在于,所述确定单元具体用于将所述索引值确定为所述ITD参数。
19.如权利要求11-13中任一项所述的编码器,其特征在于,所述编码器还包括:
平滑处理单元,用于对所述目标时域信号的采样值进行平滑处理。
20.如权利要求11-13中任一项所述的编码器,其特征在于,所述频时变换单元具体用于对所述目标频域信号中的部分频域信号进行频时变换,得到所述目标时域信号。
CN201610305243.5A 2016-05-10 2016-05-10 多声道信号的编码方法和编码器 Active CN107358961B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610305243.5A CN107358961B (zh) 2016-05-10 2016-05-10 多声道信号的编码方法和编码器
PCT/CN2016/103584 WO2017193549A1 (zh) 2016-05-10 2016-10-27 多声道信号的编码方法和编码器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610305243.5A CN107358961B (zh) 2016-05-10 2016-05-10 多声道信号的编码方法和编码器

Publications (2)

Publication Number Publication Date
CN107358961A CN107358961A (zh) 2017-11-17
CN107358961B true CN107358961B (zh) 2021-09-17

Family

ID=60266126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610305243.5A Active CN107358961B (zh) 2016-05-10 2016-05-10 多声道信号的编码方法和编码器

Country Status (2)

Country Link
CN (1) CN107358961B (zh)
WO (1) WO2017193549A1 (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6952482B2 (en) * 2001-10-02 2005-10-04 Siemens Corporation Research, Inc. Method and apparatus for noise filtering
CN1647156B (zh) * 2002-04-22 2010-05-26 皇家飞利浦电子股份有限公司 参数编码方法、参数编码器、用于提供音频信号的设备、解码方法、解码器、用于提供解码后的多声道音频信号的设备
DE602004002390T2 (de) * 2003-02-11 2007-09-06 Koninklijke Philips Electronics N.V. Audiocodierung
CN101556799B (zh) * 2009-05-14 2013-08-28 华为技术有限公司 一种音频解码方法和音频解码器
CN102157149B (zh) * 2010-02-12 2012-08-08 华为技术有限公司 立体声信号下混方法、编解码装置和编解码***
CN102314882B (zh) * 2010-06-30 2012-10-17 华为技术有限公司 声音信号通道间延时估计的方法及装置
ES2555136T3 (es) * 2012-02-17 2015-12-29 Huawei Technologies Co., Ltd. Codificador paramétrico para codificar una señal de audio multicanal
CN104681029B (zh) * 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置

Also Published As

Publication number Publication date
CN107358961A (zh) 2017-11-17
WO2017193549A1 (zh) 2017-11-16

Similar Documents

Publication Publication Date Title
JP7443423B2 (ja) マルチチャネル信号の符号化方法およびエンコーダ
JP7161564B2 (ja) チャネル間時間差を推定する装置及び方法
EP3605847B1 (en) Multichannel signal encoding method and apparatus
KR101798559B1 (ko) 스테레오 위상 파라미터 인코딩 방법 및 장치
JP2023055951A (ja) マルチチャネル信号を符号化する方法及びエンコーダ
JP2015517121A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
CN110462733B (zh) 多声道信号的编解码方法和编解码器
JP6487569B2 (ja) チャネル間時間差パラメータを決定するための方法および装置
CN108475509B (zh) 一种声道间相位差参数的提取方法及装置
EP2489036B1 (en) Method, apparatus and computer program for processing multi-channel audio signals
CN107358961B (zh) 多声道信号的编码方法和编码器
CN107358959B (zh) 多声道信号的编码方法和编码器
CN107358960B (zh) 多声道信号的编码方法和编码器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant