CN107358960B - 多声道信号的编码方法和编码器 - Google Patents

多声道信号的编码方法和编码器 Download PDF

Info

Publication number
CN107358960B
CN107358960B CN201610304389.8A CN201610304389A CN107358960B CN 107358960 B CN107358960 B CN 107358960B CN 201610304389 A CN201610304389 A CN 201610304389A CN 107358960 B CN107358960 B CN 107358960B
Authority
CN
China
Prior art keywords
signal
domain signal
frequency domain
target
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610304389.8A
Other languages
English (en)
Other versions
CN107358960A (zh
Inventor
刘泽新
张兴涛
苗磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201610304389.8A priority Critical patent/CN107358960B/zh
Priority to PCT/CN2016/103594 priority patent/WO2017193550A1/zh
Publication of CN107358960A publication Critical patent/CN107358960A/zh
Application granted granted Critical
Publication of CN107358960B publication Critical patent/CN107358960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

本发明实施例提供一种多声道信号的编码方法和编码器,该方法包括:获取多声道信号;根据多声道信号,生成第一目标频域信号,第一目标频域信号的相位与多声道信号的IPD线性相关;对第一目标频域信号进行频时变换,得到第一目标时域信号;根据第一目标时域信号,以及预设的时域信号的峰值条件,确定多声道信号的ITD参数;对多声道信号的ITD参数进行编码。本发明实施例能够提高多声道信号的编码的准确性。

Description

多声道信号的编码方法和编码器
技术领域
本发明实施例涉及音频编码领域,并且更为具体地,涉及一种多声道信号的编码方法和编码器。
背景技术
随着生活质量的提高,人们对高质量音频的需求不断增大。相对于单声道音频,立体声音频具有各声源的方位感和分布感,能够提高声音的清晰度、可懂度及临场感,因而备受人们青睐。
立体声处理技术主要有和差(Mid/Sid,MS)编码、强度立体声(Intensity Stereo,IS)编码以及参数立体声(Parametric Stereo,PS)编码。
MS编码基于声道间相关性将两路信号作和、差变换,各声道能量主要集中在和声道,使声道间冗余得以去除。在MS编码技术中,码率的节省依赖于输入信号的相关性,当左右声道信号的相关性差时,需分别传输左声道信号和右声道信号。IS编码基于人耳听觉***对声道的高频成分(例如,大于2kHz的成分)的相位差异精细结果不敏感的特性,将左右两路信号的高频分量进行简化处理。但该IS编码技术仅对高频成分有效,如将IS编码处理扩展到低频,将会引起严重的人为噪声。PS编码基于双耳听觉模型,在编码端将立体声转换成单声道信号和少量描述空间声场的空间参数(或空间感知参数),如图1所示(图1中的xL为左声道时域信号,xR为右声道时域信号)。解码端得到单声道信号后进一步结合空间参数恢复立体声,如图2所示。相对于MS编码,PS编码压缩比高,在保持较好音质的前提下,能够获得更高的编码增益,且可以工作在全音频带宽中,能够很好地还原立体声的空间感知效果。
PS编码中,空间参数包括声道间相关性(Inter-channel Coherent,IC)、声道间电平差(Inter-channel Level Difference,ILD)、声道间时间差(Inter-channel TimeDifference,ITD)以及声道间相位差(Inter-channel Phase Difference,IPD)。IC描述了声道间的互相关或相干性,该参数决定了声场范围的感知,可以提高音频信号空间感和声响稳定性。ILD用于分辨立体声源的水平方向角度,描述了声道间的强度差别,该参数将影响整个频谱的频率成分。ITD和IPD为表示声源水平方位的空间参数,描述了声道间的时间和相位差别,该参数主要影响2kHz以下的频率成分。ILD、ITD和IPD能够决定人耳对声源位置的感知,可以有效确定声场位置,对立体声信号的恢复具有重要作用。
立体声的相位参数包括ITD参数及IPD参数。对于两声道信号,ITD参数可以表示立体声的左右声道信号之间的时间延时,IPD参数可以表示立体声的左右声道信号在时间对齐后的波形相似性。
图3是现有技术中的立体声的相位参数的编码流程图。从图3可以看出,在现有技术中,ITD参数和IPD参数的提取是基于频域信号实现的,主要包括如下步骤:
步骤1、对左右声道输入时域信号分别进行时频变换,得到左右声道的频域信号。
具体地,可以采用如下公式进行时频变换:
Figure BDA0000985633450000021
Figure BDA0000985633450000022
其中,xL(n)和xR(n)分别为左右声道的时域信号,Length为帧长或子帧长,L为时频变换的长度。
步骤2、基于左右声道的频域信号提取相位参数。
具体地,可以将步骤2细分为如下步骤:
步骤2.1、基于公式(3),在预设的范围[k1,k2]内逐频点(Frequency Bin)计算IPD参数:
IPD(k)=∠L(k)*R*(k),k1≤k≤k2(3)
其中,k表示频点,L(k)和R(k)分别为左右声道频域信号第k个频点值,该频点值包含实部和虚部,R*(k)表示右声道频域信号第k个频点值的共轭,L(k)和R(k)的实部和虚部可以基于XL(k)和XR(k)构建,具体参见现有技术。
步骤2.2、基于公式(4)计算各频点的声道间时间差:
Figure BDA0000985633450000031
其中,L是将左右声道的时域信号变换成左右声道的频域信号时采用的时频变换长度,π为圆周率。
步骤2.3、对ITD(k)进行统计处理,得到ITD参数。
具体地,可以在得到[k1,k2]范围内的ITD(k)后,统计ITD(k)为正数的个数Npos以及ITD(k)为负数的个数Nneg,并进一步分别计算ITD(k)为正数的均值Mpos、方差Vpos以及ITD(k)为负数的均值Mneg、方差Vneg;最后根据Npos、Nneg、Mpos、Mneg、Vpos、Vneg得到当前帧/子帧的ITD参数,例如,当Npos>Nneg时,如果Vpos<Vneg,则ITD参数为Mpos向上取整值。
步骤2.4、对IPD(k)进行统计处理,得到IPD参数。
首先,可以采用如下公式计算IPD(k)在k1和k2范围内的均值:
Figure BDA0000985633450000032
然后,可以进一步计算包含当前帧在内的连续6帧IPD参数的均值,作为当前帧的IPD参数:
Figure BDA0000985633450000033
其中,
Figure BDA0000985633450000034
为与当前帧紧邻的前一帧的IPD参数的均值,
Figure BDA0000985633450000035
为当前帧的前一帧的前一帧的IPD参数的均值,其它依次类推。
步骤3、对提取的相位参数进行量化处理。
现有算法中,为了降低比特率,当ITD参数不为0时,量化ITD参数;当ITD参数为0时,量化IPD参数。
解码端可以结合单声道信号和解码得到的相位参数,恢复立体声相位信息。
从公式(4)可以看出,现有技术基于IPD计算ITD。但是,对于时延较大的信号,会导致IPD超出2π的范围,如果仍采用现有技术的方式提取ITD参数,会导致计算出的相位参数不准确,进而导致解码音频质量下降。
发明内容
本申请提供一种多声道信号的编码方法和编码器,以准确提取多声道信号的相位参数,提高多声道信号的编码质量。
第一方面,提供一种多声道信号的编码方法,包括:获取多声道信号;根据所述多声道信号,生成第一目标频域信号,所述第一目标频域信号的相位与多声道信号的IPD线性相关;对所述第一目标频域信号进行频时变换,得到第一目标时域信号;根据所述第一目标时域信号,以及预设的时域信号的峰值条件,确定所述多声道信号的ITD参数;对所述多声道信号的ITD参数进行编码。
由于构建出的第一目标频域信号的相位与所述多声道信号的IPD线性相关,第一目标时域信号的最大值会位于ITD处,利用第一目标时域信号得到的ITD参数不会受到多声道信号的IPD是否超出2π范围的影响,比较准确。
结合第一方面,在第一方面的第一种实现方式中,所述根据所述多声道信号,生成第一目标频域信号,包括:从所述多声道信号中获取第一频域信号,其中,所述第一频域信号为所述多声道信号中的位于第一频域范围内的信号;根据所述第一频域信号,生成所述第一目标时域信号;所述根据所述第一目标时域信号,以及预设的时域信号的峰值条件,确定所述多声道信号的ITD参数,包括:在所述第一目标时域信号满足所述峰值条件的情况下,根据第一目标时域信号,确定所述多声道信号的ITD参数;在所述第一目标时域信号不满足所述峰值条件的情况下,从所述多声道信号中获取第二频域信号,其中,所述第二频域信号为所述多声道信号中的位于第二频域范围内的信号,所述第二频域范围与所述第一频域范围不同;根据所述第二频域信号,确定所述多声道信号的ITD参数。
本方案根据第一目标时域信号的峰值特性,灵活地选择多声道信号的ITD参数确定方式。
结合第一方面的第一种实现方式,在第一方面的第二种实现方式中,所述根据所述第二频域信号,确定所述多声道信号的ITD参数,包括:根据所述第二频域信号,生成第二目标频域信号,所述第二目标频域信号的相位与所述多声道信号的IPD线性相关;对所述第二目标频域信号进行频时变换,得到第二目标时域信号;根据所述第二目标时域信号,确定所述多声道信号的ITD参数。
结合第一方面的第一种或第二种实现方式,在第一方面的第三种实现方式中,所述对所述第二目标频域信号进行频时变换,得到第二目标时域信号,包括:对所述第二目标频域信号中的除所述第一频域范围的频域信号进行频时变换,得到第三目标时域信号,其中,所述第二频域范围包括所述第一频域范围;将所述第一目标时域信号和所述第三目标时域信号叠加,得到所述第二目标时域信号。
利用已计算出的第一目标时域信号计算第三目标时域信号,可以节省计算量,提高编码效率。
结合第一方面的第一种至第三种实现方式中的任一种,在第一方面的第四种实现方式中,所述根据所述第一目标时域信号,确定所述多声道信号的ITD参数,包括:从所述第一目标时域信号的N个采样点中选取目标采样点,所述目标采样点为所述N个采样点中的采样值最大的采样点,N表示所述第一目标时域信号的采样点的数目;根据所述目标采样点对应的索引值,确定所述多声道信号的ITD参数,其中,所述索引值用于指示所述目标采样点在所述N个采样点中的排序。
结合第一方面的第四种实现方式,在第一方面的第五种实现方式中,所述根据所述目标采样点对应的索引值,确定所述多声道信号的ITD参数,包括:将所述目标采样点对应的索引值确定为所述多声道信号的ITD参数。
第二方面,提供一种多声道信号的编码方法,包括:获取多声道信号;根据所述多声道信号,生成第一目标频域信号,所述第一目标频域信号位于第一频域范围内,且所述第一目标频域信号的相位与多声道信号的IPD线性相关;对所述第一目标频域信号进行频时变换,得到第一目标时域信号;根据所述第一目标时域信号,确定所述多声道信号是否包括反相信号;在所述多声道信号不包括反相信号的情况下,根据所述多声道信号,生成第二目标频域信号,所述第二目标频域信号位于第二频域范围内,所述第二频域范围与所述第一频域范围不同,所述第二目标频域信号的相位与所述多声道信号的IPD线性相关;对所述第二目标频域信号进行频时变换,得到第二目标时域信号;根据所述第二目标时域信号,确定所述多声道信号的ITD参数;对所述多声道信号的ITD参数进行编码;在所述多声道信号包括反向信号的情况下,提取所述多声道信号的IPD参数;对所述多声道信号的IPD参数进行编码。
由于构建出的第一目标频域信号的相位与所述多声道信号的IPD线性相关,第一目标时域信号的最大值会位于ITD处,利用第一目标时域信号得到的ITD参数不会受到多声道信号的IPD是否超出2π范围的影响,比较准确。
结合第二方面,在第二方面的第一种实现方式中,所述对所述第二目标频域信号进行频时变换,得到第二目标时域信号,包括:对所述第二目标频域信号中的除所述第一频域范围的频域信号进行频时变换,得到第三目标时域信号,其中,所述第二频域范围包括所述第一频域范围;将所述第一目标时域信号和所述第三目标时域信号叠加,得到所述第二目标时域信号。
结合第二方面或第二方面的第一种实现方式,在第二方面的第二种实现方式中,所述方法还包括:在所述多声道信号包括反相信号的情况下,确定所述多声道信号的IPD参数;对所述IPD参数进行编码。
第三方面,提供一种编码器,包括能够执行第一方面中的多声道信号的编码方法的各个步骤的单元。
第四方面,提供一种编码器,包括能够执行第二方面中的多声道信号的编码方法的各个步骤的单元。
第五方面,提供一种编码器,包括存储器和处理器,所述存储器用于存储程序,所述处理器用于执行程序,当所述程序被执行时,所述处理器执行第一方面中的方法。
第六方面,提供一种编码器,包括存储器和处理器,所述存储器用于存储程序,所述处理器用于执行程序,当所述程序被执行时,所述处理器执行第二方面中的方法。
在某些实现方式中,所述根据所述多声道信号,生成第一或第二目标频域信号,包括:根据所述多声道信号,确定所述第一或第二目标频域信号的幅值;根据所述多声道信号,确定所述多声道的IPD参数;根据所述第一或第二目标频域信号的幅值,以及所述多声道信号的IPD参数,生成所述第一或第二目标频域信号。
在某些实现方式中,所述根据所述多声道信号,确定所述第一或第二目标频域信号的幅值,包括:根据
Figure BDA0000985633450000071
确定所述第一或第二目标频域信号的幅值,其中,AM(k)表示所述第一或第二目标频域信号的幅值,A1(k)和A2(k)分别表示所述多声道信号中的任意两个声道的频域信号的幅值,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
在某些实现方式中,所述根据所述第一或第二目标频域信号的幅值,以及所述多声道信号的IPD参数,生成所述第一或第二目标频域信号,包括:根据
Figure BDA0000985633450000081
确定所述第一或第二目标频域信号,其中,AM(k)表示所述第一或第二目标频域信号的幅值,XM_real(k)表示所述第一或第二目标频域信号的实部,XM_iamge(k)表示所述第一或第二目标频域信号的虚部,IPD(k)表示所述多声道信号的IPD参数,k表示频点,0≤k≤L/2,L表示将所述多声道信号从时域变换至频域时采用的时频变换长度。
在某些实现方式中,所述根据所述多声道信号,生成第一或第二目标频域信号,包括:根据XM(k)=X1(k)*X* 2(k),生成频域信号XM(k),其中,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点;对所述频域信号XM(k)的幅值进行归一化处理,得到所述第一或第二目标频域信号。
在某些实现方式中,所述根据所述第一或第二目标频域信号的幅值,以及所述多声道信号的IPD参数,生成所述第一或第二目标频域信号,包括:根据XM(k)=X1(k)*X* 2(k),生成所述第一或第二目标频域信号,其中,XM(k)表示所述第一或第二目标频域信号,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道中的第二声道的频域信号的共轭,k表示频点。
在某些实现方式中,在所述根据所述第一或第二目标时域信号,确定所述多声道信号的ITD参数之前,所述方法还包括:对所述第一或第二目标时域信号的幅值进行平滑处理。
在某些实现方式中,第一或第二目标频域信号可以为多声道信号的互相关信号。
在某些实现方式中,第一或第二目标频域信号的相位为多声道信号的IPD。应理解,频域信号可以通过复数表示,而复数可以通过幅值和相位表示,目标频域信号的相位可以指表示组成该目标频域信号的复数的相位。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中的PS编码的流程图。
图2是现有技术中的PS解码的流程图。
图3是现有技术中的立体声的相位参数的编码的流程图。
图4是本发明实施例的多声道信号的编码方法的示意性流程图。
图5是本发明实施例的多声道信号的编码方法的示意性流程图。
图6是本发明实施例的多声道信号的编码方法的示意性流程图。
图7是时域信号合成的示意图。
图8是本发明实施例的多声道信号的编码方法的示意性流程图。
图9是本发明实施例的编码器的示意性结构图。
图10是本发明实施例的编码器的示意性结构图。
图11是本发明实施例的编码器的示意性结构图。
图12是本发明实施例的编码器的示意性结构图。
具体实施方式
为了便于理解,先简单介绍多声道的ILD、ITD、IPD的含义。以第一个麦克拾取到的信号为第一声道信号,第二个麦克拾取到的信号为第二声道信号为例:
ILD描述了第一声道信号和第二声道信号之间的强度差别;如果ILD大于0,表示第一声道信号的能量高于第二声道信号的能量;如果ILD等于0,表示第一声道信号的能量等于第二声道信号的能量;如果ILD小于0,表示第一声道信号的能量小于第二声道信号的能量;
ITD描述的第一声道信号和第二声道信号之间的时间差别,即声源到达第一个麦克和第二个麦克的时间差异,如果ITD大于0,表示声源到达第一个麦克的时间早于声源到达第二个麦克的时间;如果ITD等于0,表示声源到达同时到达第一个麦克和第二个麦克;如果ITD小于0,表示声源达到第一个麦克的时间晚于声源到达第二个麦克的时间;
IPD描述了第一声道信号和第二声道信号的相位差别,该参数通常和ITD参数结合在一起,以便解码端恢复多声道信号的相位信息。
应理解,本发明实施例中的ITD参数和IPD参数可以是群声道间时间差(GroupInter-channel Time Difference,G_ITD)及群声道间相位差(Group Inter-channelPhase Difference,G_IPD),其中,G_ITD也可称为群时延(group delay),G_IPD也可称为群相位(group phase)。
图4是本发明实施例的多声道信号的编码方法的示意性流程图。图4的方法包括:
410、获取多声道信号。
在一些实施例中,多声道信号可以包括第一声道的信号和第二声道的信号;在一些实施例中,第一声道的信号可以为左声道的信号,第二声道的信号可以为右声道的信号。多声道信号可以为多声道的时域信号,也可以为多声道的频域信号。
420、根据所述多声道信号,生成第一目标频域信号。
在一些实现方式中,第一目标频域信号可以为多声道的频域信号的互相关信号。在一些实施例中,所述第一目标频域信号的相位与所述多声道信号的IPD线性相关;在一些实施例中,所述第一目标频域信号的相位为所述多声道信号的IPD,即线性比例系数为1。此外,本发明实施例对步骤420的实现方式不作限定,后文会结合具体的实施例进行详细描述。
430、对所述第一目标频域信号进行频时变换,得到第一目标时域信号。
在一些实施例中,可以将第一目标频域信号作为一个整体进行频时变换,得到第一目标时域信号;在一些实施例中,可以对第一目标频域信号中的部分频域信号进行频时变换,得到第一目标频域信号,这样可以减少计算量,提高编码效率。
需要说明的是,本发明实施例对目标频域信号中的部分频域信号的选取方式不作具体限定。在一些实施例中,假设目标频域信号的频谱范围可以是[0,F],选取的部分频域信号可以是目标频域信号的低频部分,例如目标频域信号的[0,F/2],[3,F/4]或者[F/4,F/2]部分,这是由于对于稳定信号而言,基于该信号的低频部分得到的结果与基于该信号的整个频谱得到的结果(即多声道的ITD参数)差异不大。
440、根据所述第一目标时域信号,以及预设的时域信号的峰值条件,确定所述多声道信号的ITD参数。
在一些实施例中,步骤440可以包括:在第一目标时域信号满足峰值条件的情况下,根据第一目标时域信号,确定多声道信号的ITD参数;在第一目标时域信号不满足峰值条件的情况下,从多声道信号中获取第二频域信号,其中,第二频域信号为多声道信号中的位于第二频域范围内的信号,第二频域范围与第一频域范围不同(比如第二频域范围可以包括第一频域范围);根据第二频域信号,确定多声道信号的ITD参数。
本发明实施例对第一频域范围和第二频域范围的取值范围不作具体限定,例如,假设多声道信号的整个频段为[0,F],第一频域范围可以为[0,F/2],即第一频域范围包含多声道信号的低频段部分;第二频域范围可以为[0,F],即第二频域范围包含多声道信号的整个频段。
应理解,本发明实施例对峰值条件的具体形式不作限定。在一些实施例中,峰值条件可以是第一目标时域信号的最高峰值大于某个预设阈值。在一些实施例中,峰值条件可以是第一目标时域信号的最高峰值和次高峰值之间的差值大于某个预设阈值。总之,通过设定峰值条件可以判断出基于第一目标时域信号确定多声道信号的ITD参数是否准确,如果准确,可以根据第一目标时域信号确定多声道信号的ITD参数;如果不准确,可以在第二频域范围内,利用第二目标时域信号确定多声道信号的ITD参数。
450、对所述多声道信号的ITD参数进行编码。
例如,可以对多声道信号的ITD参数进行量化。此外,图4的方法还可包括:向解码端发送编码后的多声道信号的ITD参数。
由于构建出的第一目标频域信号的相位与所述多声道信号的IPD线性相关,第一目标时域信号的最大值会位于ITD处,利用第一目标时域信号得到的ITD参数不会受到多声道信号的IPD是否超出2π范围的影响,比较准确。
图5是本发明实施例的多声道信号的编码方法的示意性流程图。图5的方法包括:
510、获取多声道信号。
520、根据多声道信号,生成第一目标频域信号。
第一目标频域信号可以位于第一频域范围内。在一些实施例中,第一目标时域信号可以为多声道信号在第一频域范围内的信号的互相关信号。在一些实施例中,第一目标频域信号的相位可以与多声道信号的IPD线性相关。在一些实施例中,第一目标频域信号的相位可以为多声道信号的IPD。
530、对第一目标频域信号进行频时变换,得到第一目标时域信号。
具体地,可以对第一目标频域信号整体进行频时变换;也可以将第一目标频域信号中的部分频域信号进行频时变换,这样可以节省计算量,提高编码效率。
540、根据第一目标时域信号,确定多声道信号是否包括反相信号。
应理解,如果两个信号之间的相位相差180度,那么这两个信号可以称为反向信号。步骤540中的多声道信号是否包括反向信号可以指多声道信号中是否存在相位相差180度的两个信号。
应理解,反相信号的确定方式可以有多种,本发明实施例对此不作具体限定。例如,步骤540可以包括:根据第一目标时域信号的目标采样点对应的索引值,确定多声道信号的初始ITD参数,目标采样点为第一目标时域信号的采样点中的采样值最大的采样点;在所述初始ITD参数小于预设阈值的情况下,确定多声道信号包括反相信号;在所述初始ITD参数大于预设阈值的情况下,确定所述多声道信号不包括反相信号。
此外,在一些实施例中,上述根据第一目标时域信号的目标采样点对应的索引值,确定多声道信号的初始ITD参数可以包括:将第一目标时域信号的目标采样点对应的索引值确定为多声道信号的初始ITD参数。
550、在多声道信号不包括反相信号的情况下,根据多声道信号,生成第二目标频域信号,第二目标频域信号位于第二频域范围内,第二频域范围与第一频域范围不同(比如,第二频域范围可以包含第二频域范围)。
例如,步骤550可以包括:从多声道信号中提取第二频域范围内的频域信号;根据多声道在第二频域范围内的频域信号,生成第二目标频域信号(例如,求多声道信号在第二频域范围内的信号的互相关信号,得到第二频域信号)。
560、对第二目标频域信号进行频时变换,得到第二目标时域信号。
具体地,可以对第二目标频域信号整体进行频时变换,得到第二目标时域信号;也可以对第二目标频域信号中的部分频域信号进行频时变换,得到第二目标时域信号,这样可以降低计算复杂度,提高编码效率。
在一些实施例中,在执行步骤570之前,可以对第二目标时域信号的幅值进行平滑处理。
570、根据第二目标时域信号,确定多声道信号的ITD参数。
在一些实施例中,可以根据第二目标时域信号的目标采样点对应的索引值,确定多声道信号的ITD参数,第二目标时域信号的目标采样点为第二目标时域信号中的采样值最大的采样点。例如,可以将第二目标时域信号的目标采样点对应的索引值确定为多声道信号的ITD参数。
580、对多声道信号的ITD参数进行编码。
590、在多声道信号包括反相信号的情况下,确定多声道信号的IPD参数。
本发明实施例对确定多声道信号的IPD参数的具体方式不作限定,例如,可以按照公式(3)描述的方式确定。
595、对多声道信号的IPD参数进行编码。
为了便于理解,下文以多声道信号为左声道信号和右声道信号为例进行详细说明,但本发明实施例不限于此。实际中,本发明实施例可用于处理任意两声道或多声道信号,下文中的左声道和右声道可以是两声道或多声道中的任意两个声道。此外,下文均以基于第一目标时域信号得到的初始ITD参数T1与预设阈值TH1比较的方式确定多声道信号是否包含反相信号(预设阈值的取值范围可以是[1,4],例如可以是3。),但本发明实施例不限于此,实际中,可以采用现有技术中的任意反相信号确定方式确定多声道信号是否包含反相信号。
图6是本发明实施例的多声道信号的编码方法的示意性流程图。在图6的实施例中,基于混合域在第一频域范围内提取多声道信号的初始ITD参数T1,当T1≥TH1时,进一步地,基于混合域在第二频域范围内计算多声道信号的ITD参数。本发明实施例对第二频域范围与第一频域范围之间的关系不作具体限定,例如,二者可以相互分离,也可以重叠,也可以相互包含,图6是以第二频域范围包含第一频域范围为例进行举例说明。应理解,图6示出的处理步骤或操作仅是示例,本发明实施例还可以执行其它操作或者图6中的各种操作的变形。此外,图6中的各个步骤可以按照与图6呈现的不同的顺序来执行,并且有可能并非要执行图6中的全部操作。图6主要包括如下步骤:
610、对左右声道的时域信号进行时频变换。
具体地,可以采用如下公式进行FFT变换:
Figure BDA0000985633450000151
Figure BDA0000985633450000152
其中,xL(n)和xR(n)分别为左右声道的时域信号,k表示频点,Length表示帧长或子帧长,L表示时频变换的长度。
FFT变换后得到的频域信号是复数信号,包含了实部和虚部,对于左声道的频域信号,其实部为XL_real(k),虚部为XL_image(k);对于右声道的频域信号,其实部为XR_real(k),虚部为XR_image(k),其中,
Figure BDA0000985633450000153
具体地,以左声道的频域信号为例,其实部和虚部的取值可以采用如下计算方式:
XL_real(0)=XL(0),XL_image(0)=0 (9)
Figure BDA0000985633450000154
Figure BDA0000985633450000155
或者,
XL_real(0)=XL(0),XL_image(0)=0 (12)
Figure BDA0000985633450000156
Figure BDA0000985633450000157
需要注意的是,时频变换以后,对于宽带(WideBand,WB)信号,如果时频变换长度为512,则得到的频域信号包括256个频点,其中第256个频点对应的是8kHz的频谱,第128个频点对应的是4kHz的频谱,其它依次类推。
620、在第一频域范围内构建第一目标频域信号。
在一些实施例中,可以先计算第一目标频域信号的幅值以及左右声道信号的IPD,然后基于第一目标频域信号的幅值以及左右声道信号的IPD,构建第一目标频域信号。
具体地,可以采用如下公式,在第一频域范围[k3,k4]内计算第一目标频域信号AM(k)的幅值,其中,k3和k4可以位于0和L/2之间:
Figure BDA0000985633450000161
其中,左声道频域信号的幅值可以采用如下公式计算获得:
Figure BDA0000985633450000162
右声道频域信号的幅值可以采用如下公式计算获得:
Figure BDA0000985633450000163
可以采用如下公式计算左右声道信号的IPD:
Figure BDA0000985633450000164
在计算出第一目标频域信号的幅值和左右声道信号的IPD之后,可以采用如下公式构建第一目标频域信号:
Figure BDA0000985633450000165
在另一些实施例中,可以直接将左右声道的频域信号中的一个频域信号与另一个频域信号的共轭相乘,得到第一目标频域信号。进一步地,在该实施例中,还可以对第一目标频域信号的幅值进行平滑处理。这种计算方式分别构建第一目标频域信号的幅值和相位,比较简单。
630、对第一目标频域信号进行频时变换,得到第一目标时域信号。
步骤630可以采用逆离散傅里叶变换(Inverse Discrete Fourier Transform,IDFT)进行频时变换,也可以采用逆快速傅里叶变换(Inverse Fast Fourier Transform,IFFT)进行频时变换,本发明实施例对此不作具体限定。
具体地,可以先对第一目标频域信号进行加窗处理:
Figure BDA0000985633450000171
Figure BDA0000985633450000172
其中,k为频点,0≤k≤L/2,L为将左右声道的时域信号变换成左右声道的频域信号时采用的时频变换长度。
然后,对加窗后的信号进行IDFT变换,得到第一目标时域信号:
Figure BDA0000985633450000173
Figure BDA0000985633450000174
其中,n为采样点的索引值,0≤n<L/2。
此外,还可以对得到的第一目标时域信号的幅值进行平滑处理。
具体地,第一目标时域信号的幅值可以通过下式表示:
Figure BDA0000985633450000175
对第一目标时域信号的幅值进行平滑处理,得到幅度平滑值Asm(n):
Figure BDA0000985633450000176
其中,
Figure BDA0000985633450000177
为当前帧的前一帧/子帧第n点的幅度平滑值;w1、w2为平滑因子,可以设置为常数,也可以随
Figure BDA0000985633450000178
和A(n)的大小关系的变化而变化。w1、w2满足w1+w2=1,例如,可以设置w1=0.75,w2=0.25,或者w1=0.8,w2=0.2,或者w1=0.9,w2=0.1,或者
Figure BDA0000985633450000179
640、根据第一目标时域信号,确定多声道信号的初始ITD参数T1
具体地,搜索第一目标时域信号的采样值最大的采样点对应的索引值index=argmax(Asm(n))得到初始ITD参数T1,例如T1=index。
650、将初始ITD参数与预设阈值TH1进行比较。
具体地,如果T1>TH1,可以执行步骤660。需要说明的是,本发明实施例对T1<TH1的实现方式不作具体限定,例如,可以如步骤690所示,提取IPD参数,或者可以按照现有技术的方式提取ITD参数,或者不作处理。
660、在第二频域范围内构建第二目标频域信号。
670、对第二目标频域信号进行频时变换,得到第二目标时域信号。
步骤660至步骤670与步骤620至步骤630的处理方式类似,可以参见步骤620至步骤630的处理方式,不同之处在于步骤660至步骤670是在第二频域范围内提取多声道信号的ITD参数,而步骤620至步骤630是在第一频域范围内提取多声道信号的ITD参数。
在一个例子中,第一频域范围可以位于第二频域范围之内,比如第一频域范围为[k3,k4],第二频域范围为[k5,k6],其中,k5<k3,k6>k4。例如,假设多声道信号的整个频段为[0,F],第一频域范围可以为[0,F/2],[0,F/4]或者[F/4,F/2],即第一频域范围包含多声道信号的低频段部分;第二频域范围可以为[0,F],即第二频域范围包含多声道信号的整个频段。参见图7,第一频域范围[k3,k4]包含n个频点,第二频域范围包含n+m+p个频点,其中,m为第一频域范围之前的m个频点,p为第一频域范围之后的p个频点。此时,如图7所示,第一频域范围的计算结果(第一目标时域信号的波形)可用于第二频域范围的计算(即用于计算第二目标时域信号的波形),也就是说,在计算第二频域范围对应的第二目标时域信号时,可以无需计算第一频域范围对应的时域波形,仅需计算除第一频域范围之外的其他频域范围对应的时域波形(即,第三目标时域信号的波形),然后将得到的时域波形与第一目标时域信号叠加(可以将时域信号的幅度叠加),即可得到第二目标时域信号,这样可以节省计算量,提高编码效率。
680、根据第二目标时域信号,确定多声道信号的ITD参数。
步骤680具体可以包括:将第二目标时域信号的采样值最大的采样点对应的索引值确定为多声道信号的ITD参数。
690、提取多声道信号的IPD参数。
例如,可以采用图3中描述的IPD参数提取方式提取该多声道的IPD参数。
695、对得到的相位参数(多声道信号的ITD参数或IPD参数)进行量化。
图8是本发明实施例的多声道信号的编码方法的示意性流程图。应理解,图8示出的处理步骤或操作仅是示例,本发明实施例还可以执行其它操作或者图8中的各种操作的变形。此外,图8中的各个步骤可以按照与图8呈现的不同的顺序来执行,并且有可能并非要执行图8的全部操作。
步骤810~850与步骤610~650类似,为避免重复,不再详细描述。应理解,本发明实施例中,步骤820可以在左右声道频域信号的全部或部分频域范围内构建第一目标频域信号,而不限于步骤620描述的第一频域范围。此外,在步骤850中,当T1<TH1时,可以直接将初始ITD参数T1确定为多声道信号的ITD参数。
步骤860和步骤870分别与图6中的步骤690和步骤695类似,为避免重复,此处不再详述。
上文结合图4至图8,详细描述了根据本发明实施例的多声道信号的编码方法,下文结合图9至图12,详细描述根据本发明实施例的编码器。
图9是本发明实施例的编码器的示意性结构图。图9的编码器900能够执行图4中的各个步骤,为避免重复,此处不再详述。编码器900包括:
获取单元910,用于获取多声道信号;
生成单元920,用于根据所述多声道信号,生成第一目标频域信号,所述第一目标频域信号的相位与所述多声道信号的声道间相位差IPD线性相关;
频时变换单元930,用于对所述第一目标频域信号进行频时变换,得到第一目标时域信号;
确定单元940,用于根据所述第一目标时域信号,以及预设的时域信号的峰值条件,确定所述多声道信号的声道间时间差ITD参数;
编码单元950,用于对所述多声道信号的ITD参数进行编码。
可选地,作为一个实施例,所述生成单元920具体用于从所述多声道信号中获取第一频域信号,其中,所述第一频域信号为所述多声道信号中的位于第一频域范围内的信号;根据所述第一频域信号,生成所述第一目标频域信号;所述确定单元940具体用于在所述第一目标时域信号满足所述峰值条件的情况下,根据第一目标时域信号,确定所述多声道信号的ITD参数;在所述第一目标时域信号的峰值不满足所述峰值条件的情况下,从所述多声道的频域信号中获取第二频域信号,其中,所述第二频域信号为所述多声道信号中的位于第二频域范围内的信号,所述第二频域范围与所述第一频域范围不同;根据所述第二频域信号,确定所述多声道信号的ITD参数。
可选地,作为一个实施例,所述确定单元940具体用于根据所述第二频域信号,生成第二目标频域信号,所述第二目标频域信号的相位与所述多声道信号的IPD线性相关;对所述第二目标频域信号进行频时变换,得到第二目标时域信号;根据所述第二目标时域信号,确定所述多声道信号的ITD参数。
可选地,作为一个实施例,所述确定单元940具体用于对所述第二目标频域信号中的除所述第一频域范围的频域信号进行频时变换,得到第三目标时域信号,其中,所述第二频域范围包括所述第一频域范围;将所述第一目标时域信号和所述第三目标时域信号叠加,得到所述第二目标时域信号。
可选地,作为一个实施例,所述确定单元940具体用于从所述第一目标时域信号的N个采样点中选取目标采样点,所述目标采样点为所述N个采样点中的采样值最大的采样点,N表示所述第一目标时域信号的采样点的数目;根据所述目标采样点对应的索引值,确定所述多声道信号的ITD参数,其中,所述索引值用于指示所述目标采样点在所述N个采样点中的排序。
可选地,作为一个实施例,所述确定单元940具体用于将所述目标采样点对应的索引值确定为所述多声道信号的ITD参数。
可选地,作为一个实施例,所述生成单元920具体用于根据所述多声道信号,确定所述第一目标频域信号的幅值;根据所述多声道信号,确定所述多声道的IPD参数;根据所述第一目标频域信号的幅值,以及所述多声道信号的IPD参数,生成所述第一目标频域信号。
可选地,作为一个实施例,所述生成单元920具体用于根据
Figure BDA0000985633450000211
确定所述第一目标频域信号的幅值,其中,AM(k)表示所述第一目标频域信号的幅值,A1(k)和A2(k)分别表示所述多声道信号中的任意两个声道的频域信号的幅值,k表示频点。
可选地,作为一个实施例,所述生成单元920具体用于根据
Figure BDA0000985633450000212
生成所述第一目标频域信号,其中,AM(k)表示所述第一目标频域信号的幅值,XM_real(k)表示所述第一目标频域信号的实部,XM_iamge(k)表示所述第一目标频域信号的虚部,IPD(k)表示所述多声道信号的IPD参数,k表示频点。
可选地,作为一个实施例,所述生成单元920具体用于根据XM(k)=X1(k)*X* 2(k),生成频域信号XM(k),其中,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点;对所述频域信号XM(k)的幅值进行归一化处理,得到所述第一目标频域信号。对频域信号的幅值进行归一化处理可以包括:从频域信号的频点的幅值中选取最大幅值;然后用频域信号的各频点的幅值除以该最大幅值,得到各频点归一化之后的幅值。
图10是本发明实施例的编码器的示意性结构图。图10的编码器1000能够执行图4中的各个步骤,为避免重复,此处不再详述。编码器1000包括:
存储器1010,用于存储程序;
处理器1020,用于执行存储器1010中的程序,当所述程序被执行时,所述处理器1020获取多声道信号;根据所述多声道信号,生成第一目标频域信号,所述第一目标频域信号的相位与所述多声道信号的声道间相位差IPD线性相关;对所述第一目标频域信号进行频时变换,得到第一目标时域信号;根据所述第一目标时域信号,以及预设的时域信号的峰值条件,确定所述多声道信号的声道间时间差ITD参数;对所述多声道信号的ITD参数进行编码。
可选地,作为一个实施例,所述处理器1020具体用于从所述多声道信号中获取第一频域信号,其中,所述第一频域信号为所述多声道信号中的位于第一频域范围内的信号;根据所述第一频域信号,生成所述第一目标频域信号;在所述第一目标时域信号满足所述峰值条件的情况下,根据第一目标时域信号,确定所述多声道信号的ITD参数;在所述第一目标时域信号不满足所述峰值条件的情况下,从所述多声道信号中获取第二频域信号,其中,所述第二频域信号位于第二频域范围内,所述第二频域范围与所述第一频域范围不同;根据所述第二频域信号,确定所述多声道信号的ITD参数。
可选地,作为一个实施例,所述处理器1020具体用于根据所述第二频域信号,生成第二目标频域信号,所述第二目标频域信号的相位与所述多声道信号的IPD线性相关;对所述第二目标频域信号进行频时变换,得到第二目标时域信号;根据所述第二目标时域信号,确定所述多声道信号的ITD参数。
可选地,作为一个实施例,所述处理器1020具体用于对所述第二目标频域信号中的除所述第一频域范围的频域信号进行频时变换,得到第三目标时域信号,其中,所述第二频域范围包括所述第一频域范围;将所述第一目标时域信号和所述第三目标时域信号叠加,得到所述第二目标时域信号。
可选地,作为一个实施例,所述处理器1020具体用于从所述第一目标时域信号的N个采样点中选取目标采样点,所述目标采样点为所述N个采样点中的采样值最大的采样点,N表示所述第一目标时域信号的采样点的数目;根据所述目标采样点对应的索引值,确定所述多声道信号的ITD参数,其中,所述索引值用于指示所述目标采样点在所述N个采样点中的排序。
可选地,作为一个实施例,所述处理器1020具体用于将所述目标采样点对应的索引值确定为所述多声道信号的ITD参数。
可选地,作为一个实施例,所述处理器1020具体用于根据所述多声道信号,确定所述第一目标频域信号的幅值;根据所述多声道信号,确定所述多声道信号的IPD参数;根据所述第一目标频域信号的幅值,以及所述多声道信号的IPD参数,生成所述第一目标频域信号。
可选地,作为一个实施例,所述处理器1020具体用于根据
Figure BDA0000985633450000231
确定所述第一目标频域信号的幅值,其中,AM(k)表示所述第一目标频域信号的幅值,A1(k)和A2(k)分别表示所述多声道信号中的任意两个声道的频域信号的幅值,k表示频点。
可选地,作为一个实施例,所述处理器1020具体用于根据
Figure BDA0000985633450000232
生成所述第一目标频域信号,其中,AM(k)表示所述第一目标频域信号的幅值,XM_real(k)表示所述第一目标频域信号的实部,XM_iamge(k)表示所述第一目标频域信号的虚部,IPD(k)表示所述多声道信号的IPD参数,k表示频点。
可选地,作为一个实施例,所述处理器1020具体用于根据XM(k)=X1(k)*X* 2(k),生成频域信号XM(k),其中,X1(k)表示所述多声道信号中的第一声道的频域信号,X* 2(k)表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点;对所述频域信号XM(k)的幅值进行归一化处理,得到所述第一目标频域信号。
图11是本发明实施例的编码器的示意性结构图。图11的编码器1100能够实现图5至图8中的各个步骤,为避免重复,此处不再详述。编码器1100包括:
获取单元1110,用于获取多声道信号;
第一生成单元1120,用于根据所述多声道信号,生成第一目标频域信号,所述第一目标频域信号位于第一频域范围内,且所述第一目标频域信号的相位与所述多声道信号的声道间相位差IPD线性相关;
第一频时变换单元1130,用于对所述第一目标频域信号进行频时变换,得到第一目标时域信号;
第一确定单元1140,用于根据所述第一目标时域信号,确定所述多声道信号是否包括反相信号;
第二生成单元1150,用于在所述多声道信号不包括反相信号的情况下,根据所述多声道信号,生成第二目标频域信号,所述第二目标频域信号位于第二频域范围内,所述第二频域范围与所述第一频域范围不同,所述第二目标频域信号的相位与所述多声道信号的IPD线性相关;
第二频时变换单元1160,用于对所述第二目标频域信号进行频时变换,得到第二目标时域信号;
第二确定单元1170,用于根据所述第二目标时域信号,确定所述多声道信号的声道间时间差ITD参数;
第一编码单元1180,用于对所述多声道信号的ITD参数进行编码。
第三确定单元1190,用于在所述多声道信号包括反向信号的情况下,确定所述多声道信号的IPD参数;
第二编码单元1195,用于对所述多声道信号的IPD参数进行编码。
可选地,作为一个实施例,所述第二频时变换单元1160具体用于对所述第二目标频域信号中的除所述第一频域范围的频域信号进行频时变换,得到第三目标时域信号,其中,所述第二频域范围包括所述第一频域范围;将所述第一目标时域信号和所述第三目标时域信号叠加,得到所述第二目标时域信号。
图12是本发明实施例的编码器的示意性结构图。图12的编码器1200能够实现图5至图8中的各个步骤,为避免重复,此处不再详述。编码器1200包括:
存储器1210,用于存储程序;
处理器1220,用于执行存储器1210中的程序,当所述程序被执行时,所述处理器1220获取多声道信号;根据所述多声道信号,生成第一目标频域信号,所述第一目标频域信号位于第一频域范围内,且所述第一目标频域信号的相位与所述多声道信号的声道间相位差IPD线性相关;对所述第一目标频域信号进行频时变换,得到第一目标时域信号;根据所述第一目标时域信号,确定所述多声道信号是否包括反相信号;在所述多声道信号不包括反相信号的情况下,根据所述多声道信号,生成第二目标频域信号,所述第二目标频域信号位于第二频域范围内,所述第二频域范围与所述第一频域范围不同,所述第二目标频域信号的相位与所述多声道信号的IPD线性相关;对所述第二目标频域信号进行频时变换,得到第二目标时域信号;根据所述第二目标时域信号,确定所述多声道信号的声道间时间差ITD参数;对所述多声道信号的ITD参数进行编码。
可选地,作为一个实施例,所述第二频时变换单元1160具体用于对所述第二目标频域信号中的除所述第一频域范围的频域信号进行频时变换,得到第三目标时域信号,其中,所述第二频域范围包括所述第一频域范围;将所述第一目标时域信号和所述第三目标时域信号叠加,得到所述第二目标时域信号。
可选地,作为一个实施例,所述编码器1100还包括:第三确定单元,用于在所述多声道信号包括反相信号的情况下,确定所述多声道信号的IPD参数;第二编码单元,用于对所述IPD参数进行编码。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (24)

1.一种多声道信号的编码方法,其特征在于,包括:
获取多声道信号;
根据所述多声道信号,生成第一目标频域信号,所述第一目标频域信号的相位与所述多声道信号的声道间相位差IPD线性相关;
对所述第一目标频域信号进行频时变换,得到第一目标时域信号;
根据所述第一目标时域信号,以及预设的时域信号的峰值条件,确定所述多声道信号的声道间时间差ITD参数;
对所述多声道信号的ITD参数进行编码。
2.如权利要求1所述的方法,其特征在于,所述根据所述多声道信号,生成第一目标频域信号,包括:
从所述多声道信号中获取第一频域信号,其中,所述第一频域信号为所述多声道信号中的位于第一频域范围内的信号;
根据所述第一频域信号,生成所述第一目标频域信号;
所述根据所述第一目标时域信号,以及预设的时域信号的峰值条件,确定所述多声道信号的ITD参数,包括:
在所述第一目标时域信号满足所述峰值条件的情况下,根据所述第一目标时域信号,确定所述多声道信号的ITD参数;
在所述第一目标时域信号不满足所述峰值条件的情况下,从所述多声道信号中获取第二频域信号,其中,所述第二频域信号为所述多声道信号中的位于第二频域范围内的信号,所述第二频域范围与所述第一频域范围不同;
根据所述第二频域信号,确定所述多声道信号的ITD参数。
3.如权利要求2所述的方法,其特征在于,所述根据所述第二频域信号,确定所述多声道信号的ITD参数,包括:
根据所述第二频域信号,生成第二目标频域信号,所述第二目标频域信号的相位与所述多声道信号的IPD线性相关;
对所述第二目标频域信号进行频时变换,得到第二目标时域信号;
根据所述第二目标时域信号,确定所述多声道信号的ITD参数。
4.如权利要求3所述的方法,其特征在于,所述对所述第二目标频域信号进行频时变换,得到第二目标时域信号,包括:
对所述第二目标频域信号中的除所述第一频域范围的频域信号进行频时变换,得到第三目标时域信号,其中,所述第二频域范围包括所述第一频域范围;
将所述第一目标时域信号和所述第三目标时域信号叠加,得到所述第二目标时域信号。
5.如权利要求2-4中任一项所述的方法,其特征在于,所述根据所述第一目标时域信号,确定所述多声道信号的ITD参数,包括:
根据所述第一目标时域信号的采样值最大的采样点对应的索引值,确定所述多声道信号的ITD参数。
6.如权利要求5所述的方法,其特征在于,所述根据所述第一目标时域信号的采样值最大的采样点对应的索引值,确定所述多声道信号的ITD参数,包括:
将所述索引值确定为所述多声道信号的ITD参数。
7.如权利要求1-4中任一项所述的方法,其特征在于,所述根据所述多声道信号,生成第一目标频域信号,包括:
根据所述多声道信号,确定所述第一目标频域信号的幅值;
根据所述多声道信号,确定所述多声道信号的IPD参数;
根据所述第一目标频域信号的幅值,以及所述多声道信号的IPD参数,生成所述第一目标频域信号。
8.如权利要求7所述的方法,其特征在于,所述根据所述多声道信号,确定所述第一目标频域信号的幅值,包括:
根据
Figure 498226DEST_PATH_IMAGE001
,确定所述第一目标频域信号的幅值,其中,
Figure 869163DEST_PATH_IMAGE002
表示所述第一目标频域信号的幅值,
Figure 648900DEST_PATH_IMAGE003
Figure 44110DEST_PATH_IMAGE004
分别表示所述多声道信号中的任意两个声道的频域信号的幅值,k表示频点。
9.如权利要求8所述的方法,其特征在于,所述根据所述第一目标频域信号的幅值,以及所述多声道信号的IPD参数,生成所述第一目标频域信号,包括:
根据
Figure 858482DEST_PATH_IMAGE005
,生成所述第一目标频域信号,其中,
Figure 680944DEST_PATH_IMAGE002
表示所述第一目标频域信号的幅值,
Figure 885661DEST_PATH_IMAGE006
表示所述第一目标频域信号的实部,
Figure 84561DEST_PATH_IMAGE007
表示所述第一目标频域信号的虚部,
Figure 753440DEST_PATH_IMAGE008
表示所述多声道信号的IPD参数,k表示频点。
10.如权利要求1-4中任一项所述的方法,其特征在于,所述根据所述多声道信号,生成第一目标频域信号,包括:
根据
Figure 746803DEST_PATH_IMAGE009
,生成频域信号
Figure 438816DEST_PATH_IMAGE010
,其中,
Figure 175828DEST_PATH_IMAGE011
表示所述多声道信号中的第一声道的频域信号,
Figure 699213DEST_PATH_IMAGE012
表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点;
对所述频域信号
Figure 129057DEST_PATH_IMAGE010
的幅值进行归一化处理,得到所述第一目标频域信号。
11.一种多声道信号的编码方法,其特征在于,包括:
获取多声道信号;
根据所述多声道信号,生成第一目标频域信号,所述第一目标频域信号位于第一频域范围内,且所述第一目标频域信号的相位与所述多声道信号的声道间相位差IPD线性相关;
对所述第一目标频域信号进行频时变换,得到第一目标时域信号;
根据所述第一目标时域信号,确定所述多声道信号是否包括反相信号;
在所述多声道信号不包括反相信号的情况下,根据所述多声道信号,生成第二目标频域信号,所述第二目标频域信号位于第二频域范围内,所述第二频域范围与所述第一频域范围不同,所述第二目标频域信号的相位与所述多声道信号的IPD线性相关;
对所述第二目标频域信号进行频时变换,得到第二目标时域信号;
根据所述第二目标时域信号,确定所述多声道信号的声道间时间差ITD参数;
对所述多声道信号的ITD参数进行编码;
在所述多声道信号包括反相信号的情况下,确定所述多声道信号的IPD参数;
对所述多声道信号的IPD参数进行编码。
12.如权利要求11所述的方法,其特征在于,所述对所述第二目标频域信号进行频时变换,得到第二目标时域信号,包括:
对所述第二目标频域信号中的除所述第一频域范围的频域信号进行频时变换,得到第三目标时域信号,其中,所述第二频域范围包括所述第一频域范围;
将所述第一目标时域信号和所述第三目标时域信号叠加,得到所述第二目标时域信号。
13.一种编码器,其特征在于,包括:
获取单元,用于获取多声道信号;
生成单元,用于根据所述多声道信号,生成第一目标频域信号,所述第一目标频域信号的相位与多声道信号的声道间相位差IPD线性相关;
频时变换单元,用于对所述第一目标频域信号进行频时变换,得到第一目标时域信号;
确定单元,用于根据所述第一目标时域信号,以及预设的时域信号的峰值条件,确定所述多声道信号的声道间时间差ITD参数;
编码单元,用于对所述多声道信号的ITD参数进行编码。
14.如权利要求13所述的编码器,其特征在于,所述生成单元具体用于从所述多声道信号中获取第一频域信号,其中,所述第一频域信号为所述多声道信号中的位于第一频域范围内的信号;根据所述第一频域信号,生成所述第一目标频域信号;
所述确定单元具体用于在所述第一目标时域信号满足所述峰值条件的情况下,根据第一目标时域信号,确定所述多声道信号的ITD参数;在所述第一目标时域信号不满足所述峰值条件的情况下,从所述多声道信号中获取第二频域信号,其中,所述第二频域信号为所述多声道信号中的位于第二频域范围内的信号,所述第二频域范围与所述第一频域范围不同;根据所述第二频域信号,确定所述多声道信号的ITD参数。
15.如权利要求14所述的编码器,其特征在于,所述确定单元具体用于根据所述第二频域信号,生成第二目标频域信号,所述第二目标频域信号的相位与所述多声道信号的IPD线性相关;对所述第二目标频域信号进行频时变换,得到第二目标时域信号;根据所述第二目标时域信号,确定所述多声道信号的ITD参数。
16.如权利要求15所述的编码器,其特征在于,所述确定单元具体用于对所述第二目标频域信号中的除所述第一频域范围的频域信号进行频时变换,得到第三目标时域信号,其中,所述第二频域范围包括所述第一频域范围;将所述第一目标时域信号和所述第三目标时域信号叠加,得到所述第二目标时域信号。
17.如权利要求14或15所述的编码器,其特征在于,所述确定单元具体用于根据所述第一目标时域信号的采样值最大的采样点对应的索引值,确定所述多声道信号的ITD参数。
18.如权利要求17所述的编码器,其特征在于,所述确定单元具体用于将所述索引值确定为所述多声道信号的ITD参数。
19.如权利要求13-15中任一项所述的编码器,其特征在于,所述生成单元具体用于根据所述多声道信号,确定所述第一目标频域信号的幅值;根据所述多声道信号,确定所述多声道信号的IPD参数;根据所述第一目标频域信号的幅值,以及所述多声道信号的IPD参数,生成所述第一目标频域信号。
20.如权利要求19所述的编码器,其特征在于,所述生成单元具体用于根据
Figure 370683DEST_PATH_IMAGE013
,确定所述第一目标频域信号的幅值,其中,
Figure 583489DEST_PATH_IMAGE014
表示所述第一目标频域信号的幅值,
Figure 226960DEST_PATH_IMAGE003
Figure 562127DEST_PATH_IMAGE004
分别表示所述多声道信号中的任意两个声道的频域信号的幅值,k表示频点。
21.如权利要求20所述的编码器,其特征在于,所述生成单元具体用于根据
Figure 291048DEST_PATH_IMAGE005
,生成所述第一目标频域信号,其中,
Figure 806081DEST_PATH_IMAGE002
表示所述第一目标频域信号的幅值,
Figure 304058DEST_PATH_IMAGE006
表示所述第一目标频域信号的实部,
Figure 75705DEST_PATH_IMAGE007
表示所述第一目标频域信号的虚部,
Figure 26344DEST_PATH_IMAGE008
表示所述多声道信号的IPD参数,k表示频点。
22.如权利要求13-15中任一项所述的编码器,其特征在于,所述生成单元具体用于根据
Figure 908849DEST_PATH_IMAGE015
,生成频域信号
Figure 199016DEST_PATH_IMAGE010
,其中,
Figure 141564DEST_PATH_IMAGE016
表示所述多声道信号中的第一声道的频域信号,
Figure 579499DEST_PATH_IMAGE012
表示所述多声道信号中的第二声道的频域信号的共轭,k表示频点;对所述频域信号
Figure 116DEST_PATH_IMAGE010
的幅值进行归一化处理,得到所述第一目标频域信号。
23.一种编码器,其特征在于,包括:
获取单元,用于获取多声道信号;
第一生成单元,用于根据所述多声道信号,生成第一目标频域信号,所述第一目标频域信号位于第一频域范围内,且所述第一目标频域信号的相位与所述多声道信号的声道间相位差IPD线性相关;
第一频时变换单元,用于对所述第一目标频域信号进行频时变换,得到第一目标时域信号;
第一确定单元,用于根据所述第一目标时域信号,确定所述多声道信号是否包括反相信号;
第二生成单元,用于在所述多声道信号不包括反相信号的情况下,根据所述多声道信号,生成第二目标频域信号,所述第二目标频域信号位于第二频域范围内,所述第二频域范围与所述第一频域范围不同,所述第二目标频域信号的相位与所述多声道信号的IPD线性相关;
第二频时变换单元,用于对所述第二目标频域信号进行频时变换,得到第二目标时域信号;
第二确定单元,用于根据所述第二目标时域信号,确定所述多声道信号的声道间时间差ITD参数;
第一编码单元,用于对所述多声道信号的ITD参数进行编码;
第三确定单元,用于在所述多声道信号包括反向信号的情况下,确定所述多声道信号的IPD参数;
第二编码单元,用于对所述多声道信号的IPD参数进行编码。
24.如权利要求23所述的编码器,其特征在于,所述第二频时变换单元具体用于对所述第二目标频域信号中的除所述第一频域范围的频域信号进行频时变换,得到第三目标时域信号,其中,所述第二频域范围包括所述第一频域范围;将所述第一目标时域信号和所述第三目标时域信号叠加,得到所述第二目标时域信号。
CN201610304389.8A 2016-05-10 2016-05-10 多声道信号的编码方法和编码器 Active CN107358960B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610304389.8A CN107358960B (zh) 2016-05-10 2016-05-10 多声道信号的编码方法和编码器
PCT/CN2016/103594 WO2017193550A1 (zh) 2016-05-10 2016-10-27 多声道信号的编码方法和编码器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610304389.8A CN107358960B (zh) 2016-05-10 2016-05-10 多声道信号的编码方法和编码器

Publications (2)

Publication Number Publication Date
CN107358960A CN107358960A (zh) 2017-11-17
CN107358960B true CN107358960B (zh) 2021-10-26

Family

ID=60266133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610304389.8A Active CN107358960B (zh) 2016-05-10 2016-05-10 多声道信号的编码方法和编码器

Country Status (2)

Country Link
CN (1) CN107358960B (zh)
WO (1) WO2017193550A1 (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1669358A (zh) * 2002-07-16 2005-09-14 皇家飞利浦电子股份有限公司 音频编码
CN1748247A (zh) * 2003-02-11 2006-03-15 皇家飞利浦电子股份有限公司 音频编码
CN1860526A (zh) * 2003-09-29 2006-11-08 皇家飞利浦电子股份有限公司 音频信号编码
CN101884065A (zh) * 2007-10-03 2010-11-10 创新科技有限公司 用于双耳再现和格式转换的空间音频分析和合成
CN104205211A (zh) * 2012-04-05 2014-12-10 华为技术有限公司 多声道音频编码器以及用于对多声道音频信号进行编码的方法
CN104246873A (zh) * 2012-02-17 2014-12-24 华为技术有限公司 用于编码多声道音频信号的参数编码器

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
CN1647156B (zh) * 2002-04-22 2010-05-26 皇家飞利浦电子股份有限公司 参数编码方法、参数编码器、用于提供音频信号的设备、解码方法、解码器、用于提供解码后的多声道音频信号的设备
CN101556799B (zh) * 2009-05-14 2013-08-28 华为技术有限公司 一种音频解码方法和音频解码器
US9424852B2 (en) * 2011-02-02 2016-08-23 Telefonaktiebolaget Lm Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
CN104681029B (zh) * 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1669358A (zh) * 2002-07-16 2005-09-14 皇家飞利浦电子股份有限公司 音频编码
CN1748247A (zh) * 2003-02-11 2006-03-15 皇家飞利浦电子股份有限公司 音频编码
CN1860526A (zh) * 2003-09-29 2006-11-08 皇家飞利浦电子股份有限公司 音频信号编码
CN101884065A (zh) * 2007-10-03 2010-11-10 创新科技有限公司 用于双耳再现和格式转换的空间音频分析和合成
CN104246873A (zh) * 2012-02-17 2014-12-24 华为技术有限公司 用于编码多声道音频信号的参数编码器
CN104205211A (zh) * 2012-04-05 2014-12-10 华为技术有限公司 多声道音频编码器以及用于对多声道音频信号进行编码的方法

Also Published As

Publication number Publication date
CN107358960A (zh) 2017-11-17
WO2017193550A1 (zh) 2017-11-16

Similar Documents

Publication Publication Date Title
US11935548B2 (en) Multi-channel signal encoding method and encoder
WO2018188424A1 (zh) 多声道信号的编解码方法和编解码器
WO2018028171A1 (zh) 多声道信号的编码方法和编码器
KR20160077201A (ko) 스테레오 위상 파라미터 인코딩 방법 및 장치
US11915709B2 (en) Inter-channel phase difference parameter extraction method and apparatus
JP6487569B2 (ja) チャネル間時間差パラメータを決定するための方法および装置
WO2018177066A1 (zh) 多声道信号的编解码方法和编解码器
CN107358960B (zh) 多声道信号的编码方法和编码器
CN107358961B (zh) 多声道信号的编码方法和编码器
CN107358959B (zh) 多声道信号的编码方法和编码器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant