CN108369810B - 用于对多声道音频信号进行编码的自适应声道缩减处理 - Google Patents

用于对多声道音频信号进行编码的自适应声道缩减处理 Download PDF

Info

Publication number
CN108369810B
CN108369810B CN201680072547.XA CN201680072547A CN108369810B CN 108369810 B CN108369810 B CN 108369810B CN 201680072547 A CN201680072547 A CN 201680072547A CN 108369810 B CN108369810 B CN 108369810B
Authority
CN
China
Prior art keywords
channel
signal
downmix
channels
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680072547.XA
Other languages
English (en)
Other versions
CN108369810A (zh
Inventor
B.法蒂
S.拉戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ao Lanzhi
Original Assignee
Ao Lanzhi
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ao Lanzhi filed Critical Ao Lanzhi
Publication of CN108369810A publication Critical patent/CN108369810A/zh
Application granted granted Critical
Publication of CN108369810B publication Critical patent/CN108369810B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及一种用于多声道数字音频信号的参数编码的方法,所述方法包括对来自应用于所述多声道信号的声道缩减处理(307)的单声道信号(M)进行编码(312)的步骤、以及对所述多声道信号的空间化信息(315,316)进行编码的步骤。所述方法的特征在于,所述声道缩减处理包括针对所述多声道信号的每个频谱单元实施的以下步骤:提取(307a)对所述多声道数字音频信号的声道进行表征的至少一个指标;根据对所述多声道音频信号的声道进行表征的所述至少一个指标的值从一组声道缩减处理模式中选择(307b)声道缩减处理模式。本发明也涉及一种对应的编码设备并且涉及一种包括如所描述的声道缩减处理的处理方法。

Description

用于对多声道音频信号进行编码的自适应声道缩减处理
技术领域
本发明涉及数字信号编码/解码领域。
根据本发明的编码和解码尤其适用于传输和/或存储数字信号,诸如音频频率信号(语音、音乐等)。
更具体地,本发明涉及参数编码,或者涉及多声道音频信号处理,例如对立体声学信号(stereophonic signal)(下文称为立体声信号(stereo signal))的多声道音频信号处理。
背景技术
这种类型的编码基于对空间信息参数的提取,从而使得,在解码时,可为收听者重构这些空间特征,以便重新创建与初始信号中一样的空间结像。
这种参数编码/解码技术例如在J.Breebaart、S.van de Par、A.Kohlrausch、E.Schuijers的标题为“Parametric Coding of Stereo Audio”(立体声音频的参数编码)的文档中进行了描述(《EURASIP Journal on Applied Signal Processing》2005:9,第1305-1322页)。参考图1和图2来开始本示例,这两个图分别描述了参数立体声编码器和解码器。
因此,图1描述了接收两个音频声道——左声道(表示为L)以及右声道(表示为R)——的立体声编码器。
时间信号L(n)和R(n)(其中n是样本的整数索引)由框101、102、103和104处理,这些框执行短时傅立叶分析。由此得到变换的信号L[k]和R[k],其中k为频率系数的整数索引。
框105执行缩混处理,以在来自左信号和右信号的频域中获取单声道信号(monophonic signal),下文称为单声道信号(mono signal)。
对空间信息参数的提取也在框105中执行。提取出的参数如下。
ICLD(“声道间电平差(InterChannel Level Difference)”的简称)参数(也称为声道间强度差(interchannel intensity difference))表征左声道与右声道之间每频率子带的能量比。这些参数使得可以通过“平移”来将声源定位在立体声水平平面中。它们通过下式以dB定义:
其中,L[k]和R[k]对应于L声道和R声道的(复合)频谱系数,索引b的每个频带包括间隔为[kb,kb+1-1]的频率线,并且*符号指示复共轭。
ICPD(“声道间相位差(InterChannel Phase Difference)”)参数(也称为相位差)根据以下关系定义:
其中,∠指示复操作数的自变量(相位)。
还可以以与ICPD相当的方式定义声道间时差(称为ICTD),并且其定义对于本领域的技术人员是已知的,不再于此处复述。
与属于定位参数的ICLD、ICPD和ICTD参数不同,ICC(“声道间一致性”)参数代表声道间相关性(或一致性),并且与声源的空间宽度相关联;其定义不再于此处复述,但是在Breebart等人的文章中指出ICC参数在缩减为单频系数的子带中并非必需——实际上,振幅和相位差全面地描述了这种“退化”情况中的空间化。
这些ICLD、ICPD和ICC参数可通过由框105对立体声信号进行分析来提取。如果还编码了ICTD或ITD参数,则后者可以从频谱L[k]和R[k]中针对每个子带而被提取;然而,对ITD参数的提取一般通过假设每个子带的完全相同的声道间时差来简化,并且在这种情况下可通过互相关性从时间声道L(n)和R(n)中提取参数。
在短时傅立叶合成(逆FET、开窗和加法重叠(称为重叠相加或OLA))之后单声道信号M[k]变换为时域(框106至框108),然后执行单声道编码(框109)。并行地,在框110中对立体声参数进行量化和编码。
通常,信号(L[k]、R[k])的频谱根据ERB(等效矩形带宽)的非线性频率标度或Bark类型划分,其中对于根据Bark标度的16至48kHz的采样信号,子带的数量通常在从20至34的范围内。此标度定义每个子带b的kb和kb+1的值。参数(ICLD,ICPD,ICC,ITD)通过标量量化而被编码,并且可能后接熵编码和/或差分编码。例如,在上述文章中,ICLD使用差分熵编码通过非均匀量化器(范围从-50到+50dB)进行编码。非均匀量化步骤利用了一个事实,即随着ICLD值增大,对于此参数变化的听觉灵敏度变得越来越弱。
对于单声道信号的编码(框109),可使用具有或不具有记忆的若干种量化技术,例如“脉冲编码调制”(PCM)编码、其具有称为“自适应差分脉码调制”(ADPCM)的自适应预测的版本、或更先进的技术,诸如通过变换进行感知编码或“代码激励线性预测”(CELP)编码或多模编码。
本文感兴趣的是更具体地专注于使用多模编码的3GPP EVS(“增强语音服务”)建议。在3GPP规范TS 26.441至26.451中提供了EVS编解码器的算法详情,因此这里不再复述。在下文,将通过参考EVS来参考这些规范。
以频率8、16、32或48kHz对EVS编解码器的输入信号进行采样,并且编解码器可以代表电话音频带(窄带,NB)、宽带(WB)、超宽带(SWB)或全带(FB)。EVS编解码器的比特率分为两种模式:
о“EVS主模式”:
о设置比特率:7.2、8、9.6、13.2、16.4、24.4、32、48、64、96、128
о可变比特率模式(VBR),对于活动语音具有接近5.9千比特/秒的平均比特率
о“声道感知”模式,仅在WB和SWB中的13.2处
о“EVS AMR-WB IO”,其比特率与3GPP AMR-WB编解码器(9种模式)完全相同。
为此添加了非连续发射模式(DTX),其中被检测为非活动的帧将由间歇发射(大约每隔8帧发射一次)的SID(SID主模式或SID AMR-WB IO)帧替代。
在解码器200上,参考图2,对单声道信号进行解码(框201),使用解联器(框202)来生成两个版本和/>的已解码单声道信号。这种仅在使用了ICC参数时有必要的解联使得能够增大单声道源/>的空间宽度。这两种信号/>和/>切换到频域(框203至框206)中,并且已解码立体声参数(框207)由立体声合成(或格式化)(框208)使用,以在频域中重构左声道和右声道。这些声道最终在时域(框209至214)中进行重构。
因此,如针对编码器所提及的,框105通过以下方式来执行缩混或缩混处理:组合立体声声道(左、右)来获取单声道信号,然后通过单声道编码器将所述单声道信号进行编码。空间参数(ICLD、ICPD、ICC等)提取自立体声声道,并且除了比特流之外也被从单声道编码器传输。
已经针对立体声到单声道缩混处理开发了若干种技术。这种缩混可以在时域或频域中执行。一般区分两个类型的缩混:
-被动缩混,其对应于立体声声道的直接矩阵化,以将这些立体声声道组合为单一信号——缩混矩阵的系数通常为实数并且具有预先确定(设定)的值;
-主动(自适应)缩混,其除了对这两个立体声声道的组合之外还包括对能量和/或相位的控制。
被动缩混的最简单示例通过以下时间矩阵化来给出:
然而,这种类型的缩混确实具有一定缺点,当L和R声道不同相时,在立体声到单声道转换之后,不能很好保存信号能量:在L(n)=-R(n)的极端情况下,单声道信号为无声,这是不期望的。
通过以下公式给出改善所述情况的主动缩混机制:
其中,γ(n)是补偿任何能量损失的因子。
然而,时域中的信号L(n)与R(n)的组合并未使得能够精细地(以充分的频率分辨率)控制L声道与R声道之间的任何相位差;当L声道和R声道具有相当的振幅以及几乎相反的相位时,可以通过与立体声声道相关的频率子带在单声道信号上观察到“擦除(erasure)”或“衰减”(“能量”损失)的现象。
因此,这是为什么在质量方面通常更有利的是在频域中执行缩混的原因,即使与时间缩混相比这涉及计算时间/频率变换并且引起另外的延迟和复杂度。
因此,可通过左声道和右声道的频谱来如下变换前述主动缩混:
其中,k对应于频率系数(例如代表频率子带的傅立叶系数)的索引。可以如下设置补偿参数:
从而保证缩混的总体能量为左声道和右声道的能量的总和。此处的因子γ[k]在6dB的放大率处达到饱和。
在频域中执行了前述Breebaart等人文档中的立体声到单声道缩混技术。根据以下公式,通过L声道和R声道的线性组合来获取单声道信号M[k]:
M[k]=w1L[k]+w2R[k] (7)
其中,w1、w2为复值增益。如果w1=w2=0.5,则单声道信号被视为L声道和R声道二者的平均值。一般根据短时信号来调适增益w1、w2,尤其是为了对齐相位。
在标题为“A stereo to mono downmixing scheme for MPEG-4 parametricstereo encoder”(用于MPEG-4参数立体声编码器的立体声到单声道缩混方案)的文档(Proc.ICASSP,2006)中由Samsudin、E.Kurniawati、N.Boon Poh、F.Sattar、S.George提出了这种频率缩混技术的具体情况。在此文档中,在执行缩混处理之前,对L声道和R声道进行相位对齐。
更具体地,选择了每个频率子带的L声道的相位作为参考相位,通过下式针对每个子带根据L声道的相位来对R声道进行对齐:
R'[k]=ej.ICPD[b]R[k] (8)
其中,R’[k]是对齐的R声道,k是第b个频率子带中系数的索引,ICPD[b]是由公式(1)给出的第b个频率子带中的声道间相位差。
注意,当索引b的子带被减小至频率系数时,下式适用:
R'[k]=|R[k]|.ej∠L[k] (9)
最终,通过根据以下公式对L声道以及对齐的R’声道求平均来计算通过之前引用的Samsudin等人的文档中的缩混所获取的单声道信号:
因此,通过消除相位的影响,相位对齐使得能够保存能量并且避免衰减的问题。这种缩混对应于Breebart等人文档中所述的缩混,其中:
M[k]=w1L[k]+w2R[k] (11)
在索引b的子带仅包括索引k的一个频率值的情况下,w1=0.5并且
理想的立体声信号到单声道信号的转换应当避免信号的所有频率分量的衰减问题。
此缩混操作对于参数立体声编码而言很重要,因为已解码立体声信号仅为已解码单声道信号的空间格式化。
之前所述的频域中的缩混技术通过在执行处理之前对齐R声道和L声道确实很好地在单声道信号中保护了立体声信号的能量电平。这种相位对齐使得能够避免声道处于反相的情况。
然而,上述Samsudin的文档中所述的方法取决于缩混处理对被选择用于设置参考相位的声道(L或R)的缩混处理的完全依赖性。
在极端情况下,如果参考声道为无声(nil)(“完全”静音)并且另一个声道为非无声,则缩混之后单声道信号的相位变得恒定,并且所得的单声道信号一般将具有较差质量;类似地,如果参考声道为随机信号(环境噪声等),则单声道信号的相位可变得随机或状况不佳,同样,单声道信号一般将具有较差质量。
在T.M.N Hoang、S.Ragot、B.P.Scalart的标题为“Parametric stereoextension of ITU-T G.722based on a new downmixing scheme”(基于新的缩混方案的ITU-T G.722的参数立体声扩展)的文档(Proc.IEEE MMSP,2010年10月4-6日)中提出了一种替代性的频率缩混技术。此文档提出了解决Samsudin等人提出的缩混的缺点的缩混。根据此文档,根据立体声声道L[k]和R[k]通过极分解M[k]=|M[k]|.ej∠M[k]计算单声道信号M[k],其中每个子带的振幅|M[k]|和相位∠M[k]由下式定义:
M[k]的振幅为L声道和R声道的振幅的平均值。M[k]的相位通过将这两个立体声声道求和(L+R)的信号的相位来给出。
Hoang等人的方法与Samsudin等人的方法一样保留了单声道信号的能量,并且前者避免了相位计算∠M[k]对立体声声道(L或R)之一的完全依赖的问题。然而,前者方法当L声道和R声道在某些子带处于虚拟反相时(其中,如极端情况L=-R)存在缺点。在这些情况下,所得单声道信号将具有较差质量。
在ITU-T G.722附录D编解码以及W.Wu、L.Miao、Y.Lang、D.Virette的文章“Parametric stereo coding scheme with a new downmix method and whole bandinter channel time/phase differences”(采用新缩混方法以及全带声道间时差/相位差的参数立体声编码方案)(Proc.ICASSP,2013)中,描述了另一种使得能够管理立体声信号的反相的方法。所述方法尤其依赖于对全带相位参数的估算。可以实验性地验证:对于立体声信号或者对于具有AB类型拾音器(使用两个间隔开的全向麦克风)的立体声语音信号而言,这种方法的质量是不令人满意的,其中声道之间的相位关系复杂。实际上,这种方法包括:根据L信号和R信号的相位来计算缩混信号的相位,并且这种计算可能对某些信号导致音频伪影,因为由短时FFT分析定义的相位是难以解译和操控的参数。
此外,这种方法并不直接考虑可以按连续帧发生的相位变化,这可能导致相位跳跃。
因此需要一种具有有限复杂度的编码/解码方法,使得能够将声道与“稳健的”质量结合,也就是说,良好的质量与多声道信号的类型无关,同时管理处于反相下的信号——相位状况不佳的信号(例如:无声声道或仅包含噪声的声道),或声道展现出其最好不要进行“操控”的复杂相位关系的信号——以避免这些信号可能造成的质量问题。
发明内容
为此,本发明提出了一种用于对多声道数字音频信号进行参数编码的方法,所述方法包括对源自应用于所述多声道信号的缩混处理的单声道信号进行编码的步骤、以及对多声道信号空间化信息进行编码的步骤。所述方法值得注意是所述缩混处理包括针对所述多声道信号的每个频谱单元实施的以下步骤:
-提取对所述多声道数字音频信号的声道进行表征的至少一个指标;
-根据对所述多声道音频信号的声道进行表征的所述至少一个指标的值从一组缩混处理模式中选择缩混处理模式。
因此,所述方法使得能够获取适于待编码的所述多声道信号的缩混处理,尤其是当此信号的声道处于反相时。此外,由于针对每个频率单元执行了对缩混的调适,也就是说,对于每个频率子带或对于每个频率线,使其能够适应多声道信号从一个帧到另一个帧的波动。
根据具体的实施例,所述方法还包括确定表示所述多声道信号的声道之间反相程度的度量的相位指标,并且所述一组缩混处理模式中的一种缩混处理模式取决于所述相位指标的值。
因此针对声道处于反相的信号执行了具体的缩混处理。这种处理被以使得其适应随时间推移的信号波动的方式来实施。
在示例性实施例中,一组缩混处理模式包括来自以下列表的多种处理:
-被动型缩混处理,具有或不具有增益补偿;
-自适应型缩混处理,具有对参考的相位对齐和/或能量控制;
-混合型缩混处理,取决于表示所述多声道信号的声道之间反相程度的度量的相位指标;
-对至少两种被动处理模式、自适应处理模式或混合处理模式的组合。
因此可以进行若干种类型的缩混处理以更好地适应所述多声道信号。
在具体实施例中,对所述多声道音频信号的声道进行表征的所述指标是所述多声道音频信号的声道之间相关性的度量的指标。
此指标使得能够让缩混处理适应所述多声道音频信号的声道的相关性特征。此指标的确定易于实施,并且因此提高了缩混质量。
在另一个实施例中,对所述多声道音频信号的声道进行表征的所述指标是表示所述多声道信号的声道之间反相程度的度量的相位指标。
此指标使得能够让缩混处理适应多声道音频信号的声道的相位特征,并且尤其适应声道处于反相的信号。
本发明涉及一种用于对多声道数字音频信号进行参数编码的设备,所述设备包括:编码器,所述编码器能够对源自应用于所述多声道信号的缩混处理模块的单声道信号进行编码;以及量化模块,所述量化模块用于对多声道信号空间化信息进行编码。所述设备值得注意的是所述缩混处理模块包括:
-提取模块,所述提取模块能够针对所述多声道信号的每个频谱单元获取对多声道数字音频信号的声道进行表征的至少一个指标;
-选择模块,所述模块能够根据对所述多声道音频信号的声道进行表征的所述至少一个指标的值针对所述多声道信号的每个频谱单元从一组缩混处理模式中选择缩混处理模式。
这种设备提供了与其所实现的方法相同的优点。
本发明还适用于一种用于处理已解码多声道音频信号的方法,所述方法包括用于获取待重现的单声道信号的缩混处理。所述方法值得注意是所述缩混处理包括针对所述多声道信号的每个频谱单元实施的以下步骤:
-提取对所述多声道数字音频信号的声道进行表征的至少一个指标;
-根据对所述多声道音频信号的声道进行表征的所述至少一个指标的值从一组缩混处理模式中选择缩混处理模式。
因此,可从已解码的多声道音频信号中获取具有良好听觉质量的单声道信号。所述方法使得能够以简单的方式执行适应于所接收信号的缩混处理。
根据具体的实施例,所述处理方法还包括确定表示所述多声道信号的声道之间反相程度的度量的相位指标,并且所述一组缩混处理模式中的一种缩混处理模式取决于所述相位指标的值。
因此针对声道处于反相的已解码信号执行了具体的缩混处理。这种处理被以使得其适应随时间推移的信号波动的方式来实施。
在示例性实施例中,一组缩混处理模式包括来自以下列表的多种处理:
-被动型缩混处理,具有或不具有增益补偿;
-自适应型缩混处理,具有对参考的相位对齐和/或能量控制;
-混合型缩混处理,取决于表示所述多声道信号的声道之间反相程度的度量的相位指标;
-对至少两种被动处理模式、自适应处理模式或混合处理模式的组合。
因此可以进行若干种类型的缩混处理以更好地适应所述多声道信号。
在具体实施例中,对所述多声道音频信号的声道进行表征的所述指标是所述多声道音频信号的声道之间相关性的度量的指标。
此指标使得能够让所述缩混处理适应所述已解码多声道音频信号的声道的相关性特征。此指标的确定易于实施,并且因此提高了缩混质量。
在另一个实施例中,对所述多声道音频信号的声道进行表征的所述指标是表示所述多声道信号的声道之间反相程度的度量的相位指标。
此指标使得能够让缩混处理适应多声道音频信号的声道的相位特征,并且尤其适应声道处于反相的信号。
本发明还涉及一种用于处理已解码多声道音频信号的设备,所述设备包括用于获取待重现的单声道信号的缩混处理模块,值得注意的是所述缩混处理模块包括:
-提取模块,所述提取模块能够针对所述多声道信号的每个频谱单元获取对多声道数字音频信号的声道进行表征的至少一个指标;
-选择模块,所述模块能够根据对所述多声道音频信号的声道进行表征的所述至少一个指标的值针对所述多声道信号的每个频谱单元从一组缩混处理模式中选择缩混处理模式。
这种设备提供了与其所实现的上述方法相同的优点。
最后,本发明涉及一种包括代码指令的计算机程序,当这些指令由处理器执行时,所述计算机程序用于实施根据本发明的编码方法的各个步骤。
本发明最后涉及一种处理器可读取的存储介质,在其上存储有包括代码指令的计算机程序,所述代码指令用于执行如所述的方法的步骤。
附图说明
在阅读仅作为非限制性示例给出的以下描述并且参照所附附图时,本发明的其他特征和优点将变得更清晰明显,在附图中:
-图1展示了编码器,所述编码器实施从现有技术已知的和之前所述的参数编码;
-图2展示了解码器,所述解码器实施从现有技术已知的和之前所述的参数解码;
-图3展示了根据本发明的实施例的立体声参数编码器;
-图4a、图4b、图4c、图4d、图4e和图4f以流程图的形式展示了根据本发明不同实施例的缩混处理的步骤;
-图5展示了给定信号的指标的趋势的示例,所述指标表征根据本发明的实施例使用的给定多声道信号的声道;
-图6展示了根据本发明的实施例作为表征信号声道的指标的值的函数的可能权重的示例;
-图7展示了立体声参数解码器,所述立体声参数解码器实施适于根据本发明的编码方法编码的信号的解码;
-图8展示了用于处理已解码音频信号的设备,在所述设备中执行根据本发明的缩混处理;以及
-图9展示了装备项目的硬件示例,所述装备项目包括编码器,所述编码器能够实施根据本发明的实施例的编码方法。
具体实施方式
参考图3,现在描述了根据本发明的实施例的立体声信号参数编码器,所述编码器传送单声道信号和立体声信号空间信息参数两者。
本图呈现了这两个实体,由编码设备的处理器驱动的硬件或软件模块,并且呈现了通过根据本发明的实施例的编码方法实施的步骤。
此处描述了立体声信号的情况。本发明还适用于具有大于二的多个声道的多声道信号的情况。
此参数立体声编码器如所示的那样使用标准化EVS类型的单声道编码,其用立体声信号工作,所述立体声信号是利用20ms帧以8kHz、16kHz、32kHz和48kHz的采样频率Fs采样的。在下文中,不失一般性地,主要对Fs=16kHz的情况进行了描述。
应当注意,在本发明中20ms帧长度的选择并非限制性的,本发明同样适用于实施例的各种变型,在这些变型中帧长度不同,例如5ms或10ms,采用的代码并非EVS。
此外,本发明同样适用于以完全相同的或不同的采样频率工作的其他类型的单声道编码(例如:IETF OPUS、ITU-T G.722)。
以16kHz采样的每个时间声道(L(n)和R(n))首先通过高通滤波器(HPF)预滤波,通常消除了低于50Hz的分量(框301和框302)。这种预滤波是可选的,但是其可用于避免由于在如ICTD或ICC的参数的估算中的DC分量所造成的偏置。
通过离散傅里叶变换以具有40ms长度的50%重叠的正弦开窗(即640个样本)对源自预滤波框的L’(n)和R’(n)声道进行频率分析(框303至框306)。对于每个帧,信号(L’(n)、R’(n))因此通过覆盖2个20ms帧(即40ms)的对称分析窗口加权(即对于Fs=16kHz而言640个样本)。40ms分析窗口涵盖当前帧和未来帧。对应于“未来”信号段的未来帧通常称为20ms的“前瞻”。在本发明的各种变型中,将能够使用其他窗口,例如EVS编解码器中具有低延迟的非对称窗口(称为“ALDO”)。此外,在各种变型中,将能够使分析开窗自适应作为当前帧的函数,以便对固定段使用具有长窗口的分析,并且在瞬态/非固定段使用具有短窗口的分析,可能在长窗口与短窗口之间具有过渡窗口。
对于320个样本的当前帧(在FS=16kHz时为20ms),获取的频谱L[k]和R[k](k=0…320)包括321个复系数,对于每个频率系数具有25Hz的分辨率。索引k=0的系数对应于DC分量(0Hz),其为实数。索引k=320的系数对应于Nyquist频率(对于Fs=16kHz为8000Hz),所述系数也为实数。索引0<k<160的系数为复数并且对应于在k的频率上居中的25Hz的子带。
在稍后描述的框307中对频谱L[k]和R[k]进行组合,以获取频域最终的单声道信号(缩混)M[k]。随时间推移通过逆FFT以及具有前一帧的“前瞻”部分的窗口重叠对此信号进行转换(框308至310)。
在FS=8kHz时,EVS编解码器的算法延迟为30.9375ms,并且对于其他频率Fs=16kHz、32kHz或48kHz为32ms。此延迟包括当前20ms帧,因此相对于所述帧长度的另外的延迟在Fs=8kHz时为10.9375ms,并且对于其他频率为12ms(即Fs=16kHz时192个样本),单声道信号被延迟T=320-192=128个样本(框311),使得通过EVS解码的单声道信号与初始立体声声道之间的合计延迟成为帧长度的倍数(320个样本)。因此,为了使对立体声参数的提取(框314)与在解码器上执行的从单声道信号进行的空间合成同步,单声道信号计算的前瞻(20ms)以及向其添加了延迟T以对齐单声道合成(20ms)的单声道编码/解码延迟,对应于相对于当前帧的2帧(40ms)的另外的延迟。此2帧的延迟特定于此处详述的实施方式,并且特别是其与20ms正弦对称窗口关联。此延迟可以不同。在变型实施例中,可以获取一帧的延迟,所述帧具有最优窗口,相邻窗口之间的重叠更小,框311不引入延迟(T=0)。
然后通过单声道EVS编码器对偏置单声道信号进行编码(框312),例如以13.2、16.4或24.4千比特/秒的比特率。在各种变型中,将能够直接在非偏置信号上执行编码;在这种情况下,将能够在解码之后执行偏置。
在此处在图3中示出的本发明具体实施例中,认为框313在频谱L[k]、R[k]和M[k]上引入了两帧的延迟,以获取频谱Lbuf[k]、Rbuf[k]和Mbuf[k]。
在有待存储的数据数量方面更有利的是能够使参数提取框314的输出或甚至是量化框315、316和317的输出偏置。还能够在接收到立体声增强层时在解码器上引入此偏置。
与单声道编码相并行,在框314至317中实施对立体声空间信息的编码。
从频谱L[k]、R[k]和M[k]中提取(框314)并编码(框315至317)的立体声参数偏置两帧:Lbuf[k]、Rbuf[k]和Mbuf[k]。
现在更为详细地描述缩混处理框307。
根据本发明的一个实施例,此框在频域中执行缩混以获取单声道信号M[k]。
此处理框307包括用于获取对所述多声道信号——这里为立体声信号——的声道进行表征的至少一个指标的模块307a。所述指标可以是例如声道间相关性类型的指标、或声道之间反相程度的度量的指标。这些指标的获取将在后面描述。
基于此指标的值,选择框307b从一组缩混处理模式中选择在307c中应用于输入处的信号(此处为应用于立体声信号L[k]、R[k])以提供单声道信号M[k]的缩混处理模式。
图4a至图4f展示了通过处理框307实施的不同的实施例。
为了呈现这些图并简化其描述,先定义了若干个参数:
·参数ICPD[k]
根据以下公式为每个频率线k在当前帧中计算了参数ICPD[k]:
ICPD[k]=∠(L[k].R*[k]) (13)
此参数对应于L声道与R声道之间的相位差。它在此处用于定义参数ICCr。
·参数ICCr[m]
针对当前帧计算相关性参数如下:
其中,NFFT是FFT的长度(此处对于FS=16kHz,NFFT=640)。在各种变型中,将能够不应用复取模|.|,但在这种情况下,参数ICCp(或者其导数)的使用将必须考虑此参数的带符号的值。
应当注意到,可以避免参数ICCp的计算中的除法,因为之后会将ICCp(根据下文的公式(16)进行了平滑)与阈值进行比较;常见的做法是向分母添加非零低值ε以避免除以零,这种预防措施实际上是没有意义的,并且如果分子和分母是单独计算的,则在实践中可设置ε=0。在本发明的实施例中,这种除法并不是必需的,因为会将参数ICCp(或下文定义的其可能平滑的版本ICCr)与阈值进行比较;就复杂度而言,在实施方式中避免除法是有利的。然而,为了简化以下描述,保留了涉及除法的符号。
可任选地对此参数进行平滑以减弱时间变化。如果当前帧具有索引m,则可以利用2阶MA(移动平均值)滤波器来计算此平滑:
ICCr[m]=0.5.ICCp[m]+0.25.ICCp[m-1]+0.25.ICCp[m-2] (15)
在实践中,因为尚未明确计算ICCr[m]的定义中的除法,此MA滤波器将有利地被单独应用至分子的值和分母的值。
然后,参数ICCr将用于指定ICCr[m](而不提及当前帧的索引);如果尚未应用平滑,则参数ICCr将直接对应于ICCp。在各种变型中,将能够通过对信号进行平滑来实施其他平滑方法,例如通过使用AR(自回归)滤波器。
当不考虑这些声道之间的相位差时,参数ICCr使得能够量化L声道与R声道之间的相关性水平。
在各种变型中,将能够通过如下简单更改总和的边界来为每个子带定义参数ICCp:
其中,kb…kb+1-1表示索引b的子带中的频率线的索引。在此同样地,将能够对参数ICCp[b]进行平滑,并且在此情况下本发明将如下实施:替代与ICCr[m]的单一比较,将与ICCp[b]进行与索引b的子带数一样多的比较。
·参数SGN[m]
还标识了主声道以将其用作相位参考。例如,可经由针对当前帧所计算的符号参数SGN来确定此主声道,此符号参数作为L声道和R声道电平差值的符号:
其中,如果函数sign(.)的操作数相应地为≥0或<0,则其值为1或-1。
值得注意的是,L或R的相位上的单声道信号(源自缩混)的对齐的参考(L或R)的更改仅在某些情况下完成。这使得能够在相位参考随意地从L切换到R时(反之亦然)避免逆变换后的重叠相加运算中的相位问题。
在优选的实施例中,定义仅当信号弱相关并且此相位未用于当前帧中时才授权切换,因为,在这种情况下,缩混属于被动类型(所使用的不同缩混的详情请参见下文)。因此,如果没有满足此条件,将无视当前帧中SGNd的值;仅当在当前帧中ICCr的值小于预先确定的阈值(例如ICCr<0.4)时,才授权切换相位参考。
因此将做出以下假设:
If=1,SGN[m]=1(在L声道上随意设置的初始选择)
在各种变型中,将能够修改值0.4,但是在此它对应于稍后使用的阈值th1=0.4。
在各种变型中,将能够使初始选择SGN[1]被修改为SGN[1]=SGNd,以确保相位参考对应于第一帧中的主信号,即使所述主信号在定义上仅包括所用40ms中的20ms信号(优先针对此处使用的帧大小)。
在各种变型中,将能够针对每个频率线来定义授权进行相位参考切换的条件,并且所述条件取决于在当前帧(具有索引m)上使用的缩混类型,以及在前一帧(具有索引m-1)上使用的缩混类型);实际上,如果帧m-1中具有索引k的线的缩混属于被动类型(具有增益补偿)并且如果在帧m上选择的缩混为具有在自适应相位参考的对齐的缩混,在这种情况下将可以授权进行相位参考切换。换句话讲,只要缩混明确使用对应于参数SGN的相位参考,则针对具有索引k的线禁止相位参考切换。
因此符号参数SGN[m]仅在ICCr低于阈值时更改值(在优选的实施例中)。这种预防措施避免在声道非常相关并且可能处于反相的区域中更改相位参考。在各种变型中,将能够使用另一个标准来定义相位参考切换条件。
在本发明的各种变型中,与SGNd计算相关的二元判定将能够稳定下来,以避免潜在的快速波动。因此可以在L声道和R声道的电平的值上定义公差,例如+/-3dB,以便实施滞后,从而在未超出公差时防止相位参考更改。还可以将帧间平滑应用于信号的电平值。
在其他变型中,将能够利用对声道电平的另一定义来计算参数SGNd,例如:
或者甚至通过以下形式的ICLD参数:
其中B为子带数量,或者采样非等同形式
在其他变型中,可以计算时域中不同声道的电平。
在本发明的各种变型中,将不执行显式计算SGNd,并且将单独计算表示每个声道(L或R)的电平的参数。在使用SGNd时,将在这些相应电平之间执行简单比较。实际上实施方式完全相同,但是避免了对符号进行显式计算。
·参数ISD[k]
还计算了针对当前帧的每个行所定义的、并且可以检测反相的参数ISD[k]:
当L声道和R声道反相时,值ISD变为任意大。
应当注意到,可以避免参数ISD的计算中的除法,因为之后会将ISD与阈值进行比较;通常的做法是向分母添加非零低值,避免除以零,这种预防措施在此是没有意义的,因为在本发明的实施例中,没有实施这种除法。实际上,ISD[k]>th0的比较等同于比较|L[k]-R[k]|>th0.|L[k]+R[k]|,其在复杂度方面使缩混模式选择流程具有吸引力。
在第一实施例中,图4a展示了针对框307的缩混处理实施的步骤。
在步骤E400中,获取了对多声道音频信号的声道进行表征的指标。在此处示出的示例中,其为如上所定义、根据参数ICPD所计算的参数ICCr。指标ICCr对应于多声道信号的声道之间的相关性的度量,在此处具体的情况下为立体声信号的声道之间的相关性的度量。
如本图4a中所示,缩混的选择主要取决于如之前所述根据当前帧的L声道和R声道以及可能的平滑所计算的指标ICCr[m]。
根据指标ICCr[m]的值作出缩混处理模式之间的选择。
提供了若干种缩混处理模式,并形成一组缩混处理模式的一部分。
通过使用下面所列的三个可行缩混,缩混信号的计算如下逐行完成:
1.被动类型的缩混(具有增益补偿)。
这种缩混M1[k]被定义为总和符号,具有采用以下形式的能量均衡:
其中γ[k]被定义为使得M1[k]等同于:
定义了以下方面:
这种缩混对于声道不是很相关并且没有复杂相位关系的立体声信号(及其按行或子带的频率分解)来说是有效的。因为它没有用于有问题的信号,在所述有问题的信号中,增益γ[k]可采用任意较大的值,这里没有使用对增益的任何限制,但是在各种变型中,可以实施对放大的限制。
在各种变型中,通过增益γ[k]进行的这种均衡将可以是不同的。例如可以采用之前引用的值:
此处增益γ[k]的优势在于确保使用与其他缩混的振幅电平相同的缩混M1[k]的振幅。因此,优选的是调整增益γ[k]以确保不同缩混之间的均匀振幅或能量电平。
2.具有在自适应相位参考上对齐的缩混
这种缩混M3[k]定义如下:
其中,SGN的值应当被理解为当前帧中的值SGN[m],但为了简化记录,此处没有提及帧的索引。
如之前所述,这种缩混的相位也可以与下面相当的方式表达:
这种缩混与上述Samsudin方法提出的缩混相类似,但此处参考相位不是由L声道给出的,并且相位是以逐行方式并且不是在频带级别上确定的。
这里根据由参数SGN标识的主声道来设置相位。
这种缩混对于高度相关的信号而言是有利的,例如对于具有通过AB或双耳类型麦克风拾取的声音的信号。独立的声道还可能具有相当强的相关性,即使它不考虑在L声道和R声道中记录的相同信号;为了避免对相位参考的不适时切换,优选的是:在使用这种缩混时,仅当这些信号不存在生成音频伪影的任何风险时才授权这种切换。这解释了当相位参考切换条件使用此标准时参数SGN[m]的计算中的约束ICCr[m]<0.4。
3.具有被动缩混(具有增益补偿)和在自适应相位参考上对齐的缩混的混合缩混,取决于声道之间反相程度的度量的指标(如上所定义为ISD[k])。
这种缩混M2[k]定义如下:
这里,在信号适度相关并且其可能处于反相的情况下应用这种缩混。这里使用参数ISD[k]来检测接近反相的相位关系,并且在这种情况下,优选的是选择在自适应相位参考上对齐的缩混M3[k];否则,具有增益补偿的被动缩混M1[k]不足以满足要求。
在各种变型中,应用于ISD[k]的阈值th0=1.3将能够采用其他值。
将注意到,缩混M2[k]对应于M1[k]或对应于M3[k],取决于参数ISD[k]的值。应当理解,在本发明的各种变型中,因此将不可能明确地定义这种缩混M2[k],但是可以组合对缩混选择的判决与ISD[k]的标准。在图4c中给出了这样一个示例,但是显然本示例当然适用于此处呈现的所有实施例。
因此,根据图4a,如果在步骤E401中指标小于第一阈值th1,则在步骤E402中实施第一缩混处理模式M1。
如果ICCr[m]≤0.4(步骤E401,其中,th1=0.4)
M[k]=M1[k]
如果在步骤E403中指标小于第二阈值th2,则在步骤E404中实施取决于M1和M2的第二缩混处理模式。
如果0.4<ICCr[m]≤0.5(步骤E403,其中,th2=0.5)
M[k]=f1(M1[k],M2[k])
如果在步骤E405中指标小于第三阈值th3,则在步骤E406中实施作为M2和M3的函数的第三缩混处理模式。
如果0.5<ICCr[m]≤0.6(步骤E405,其中,th3=0.6)
M[k]=f2(M2[k],M3[k])
最后,如果在步骤E405中指标大于第三阈值th3,则在步骤E407中实施第四缩混处理模式M3。
如果ICCr[m]>0.6(步骤E405,N)
M[k]=M3[k]
在本发明的各种变型中,阈值th1、th2、th3的值将能够设置为其他值;此处给出的值通常对应于20ms的帧长度。
在图6中展示了组合函数f1(…)和f2(…)的加权函数。这些组合函数在不同的缩混之间生成“交叉衰减”以避免阈值效应,也就是说,针对给定线从一帧到另一帧的相应缩混之间的过渡过于突然。具有介于0与1之间的互补值的任何加权函数适用于所定义的间隔,但是在实施例中,这些函数源自以下函数:
其中,
f1(M1[k],M2[k])=(1-ρ)·M1[k]+ρ·M2[k]
以及
f2(M2[k],M3[k])=(1-ρ)·M3[k]+ρ·M2[k]
应当注意,此处参数ICCr[m]是在当前帧级上定义的;在各种变型中,将能够针对每个频带估算此参数(例如根据ERB或Bark标度)。
在第二实施例中,图4b展示了针对框307的缩混处理实施的步骤。这种变型实施例的目标是通过不在两种缩混方法之间实施交叉衰减来简化对要使用的缩混的判决并减小复杂度。
步骤E400、E401、E402、E405和E407与参考图4a所述的那些完全相同。
因此,根据图4b,如果在步骤E401中指标小于第一阈值th1,则在步骤E402中实施第一缩混处理模式M1。
如果ICCr[m]≤0.4(步骤E401,其中,th1=0.4)
M[k]=M1[k]
如果在步骤E405中指标小于阈值th3,则在步骤E410中实施第二缩混处理模式M2。
如果0.4<ICCr[m]≤0.6(步骤E405,其中,th3=0.6)
M[k]=M2[k]
最后,如果在步骤E405中指标大于阈值th3,则在步骤E407中实施第三缩混处理模式M3。
如果ICCr[m]>0.6(步骤E405,N)
M[k]=M3[k]
缩混方法M1、M2和M3为例如之前所述的那些。
注意,缩混M2是缩混M1与M3之间的混合缩混,其涉及如之前定义的另一指标ISD的另一判决标准。
在图4c中示出了在结果上和图4b完全相同的实施例。在这种变型中,选择参数的评估(框E450)以及缩混选择判决(框E451)组合在一起。
在第三实施例中,图4d展示了针对框307的缩混处理实施的步骤。这种变型实施例的目标是简化对于要使用的缩混方法的判决,此次通过不使用被动缩混M1[k]。事实上,这种被动缩混实际已包括在混合缩混M2[k]中;此外,可以认为混合缩混是比缩混M1[k]更为稳健的变型,因为所述混合缩混可以避免反相的问题。
如下计算图4d中的缩混:
如果在步骤E403中指标小于阈值th2,则在步骤E410中实施缩混处理M2。
如果ICCr[m]≤0.5(步骤E403,其中,th2=0.5)
M[k]=M2[k]
如果在步骤E405中指标小于阈值th3,则在步骤E406中实施作为M2和M3的函数的缩混处理模式。
如果0.5<ICCr[m]≤0.6(步骤E405,其中,th3=0.6)
M[k]=f2(M2[k],M3[k])
最后,如果在步骤E405中指标大于阈值th3,则在步骤E407中实施缩混处理模式M3。
如果ICCr[m]>0.6(步骤E405,N)
M[k]=M3[k]
在此处未示出的变型中,可以不使用交叉衰减,并且因此消除图4d中的E405判决。
应当注意到,图4d的实施例通过将th1设置为值≤0,完全等同于图4d的实施例。
在第四实施例中,图4e展示了针对框307的缩混处理实施的步骤。在本实施例中,表征多声道数字音频信号的声道的指标是表示多声道信号的声道的反相程度的度量的相位指标ISD。
它是在步骤E420中确定的。对于立体声信号,此参数如公式(18)中所定义,用于每个频谱线的计算。
因此,根据图4e,如果在步骤E421中指标ISD[k]大于阈值th0,则在步骤E422中实施第一缩混处理模式。
如果ISD[k]>1.3(由步骤E421得到Y,其中,th0=1.3)
则缩混处理定义如下:
∠M[k]=∠L[k]
如果在步骤E421中指标ISD[k]小于阈值th0,则在步骤E423中实施第二缩混处理模式。
如果ISD[k]<1.3(由步骤E421得到N,其中,th0=1.3)
则应用缩混处理M1[k]。其定义如下:
最后,在图4f中呈现了图4e的缩混的确定的变型。在这种变型中,主缩混模式选择标准被定义为如图4e中所示的参数ISD,但是此参数在此时是针对步骤E430中的每个子带所定义的ISD[b],其中b为频率子带的索引(通常为ERB或Bark)。在这种变型中,当L声道与R声道之间的相位关系接近反相时(阈值ISD[b]>1.3),在步骤E431中,此时所选的缩混模式类似于在G.722的附录D中定义的方法,但是采用更加直接的方式,不使用全带IPD。
因此,根据图4f,如果在步骤E431中指标ISD[b]大于阈值th0,则在步骤E432中实施第一缩混处理模式。
如果ISD[k]>1.3(由步骤E431得到Y,其中,th0=1.3)
则缩混处理定义如下(在自适应相位参考上对齐的缩混M3):
对于k=kb…kb+1-1
如果在步骤E431中指标ISD[b]小于阈值th0,则在步骤E433中实施第二缩混处理模式。
如果ISD[b]<1.3(由步骤E431得到N,其中,th0=1.3)
则缩混处理定义如下(具有增益补偿的被动缩混,M1):
对于k=kb…kb+1-1
在另外的变型中,将可以添加另外的判决/分类标准,以便更接近地细化缩混的选择,但是根据对多声道信号的声道进行表征的至少一个指标(如例如参数ICCr或参数ISD)的值来保持在至少两种缩混模式之间的至少一项判决(在帧上、针对每个子带、或针对每个行)。
图4a至图4f中所示的缩混选择示例为非限制性的。可设想标准的其他组合或应用。
例如,在标准为指标ISD的实施例中可应用交叉衰减。
还可以选择这样一种缩混:所述缩混以M[k]=p1.M1[k]+p2.M2[k]+p3.M3[k]类型的自适应权重来组合3种类型的缩混。
然后根据选择标准来调适权重p1、p2和p3。
图5给出了给定信号的参数ICCr的趋势的示例,所述信号具有判决阈值th3,并且th1设置为0.4和0.6,如图4b中的示例性实施例所述。应当注意到,这些上述预先确定的值对于20ms帧而言都是有效的,并且如果帧长度不同,将能够改动这些上述预先确定的值。
本图示出了此指标ICCr和指标SGN的波动。因此,真正的实践是最好根据此指标的趋势来调适缩混处理。实际上,从帧100至300的信号的明显相关性可允许在相位参考上对齐的自适应缩混。当指标ICCr位于阈值th1与th3之间时,这意味着信号的声道是适度相关的,并且它们可能处于反相。在这种情况下,要应用的缩混取决于揭示声道之间反相的指标。如果所述指标揭示了反相,则优选的是选择在上文通过M3[k]定义的、在自适应相位参考上对齐的缩混。否则,在上文通过M1[k]定义的、具有增益补偿的被动缩混足以满足要求。
同样在图5中表示的参数SGN的值用于在相关性指标低于阈值(例如0.4)的情况下选择正确的相位参考。在图5的示例中,相位参考因此在帧500附近从L切换到R。
现在返回至图3。为了针对如通过上述缩混处理所获取的单声道信号来调适空间化参数,现在描述了通过框314进行的参数的特定提取。
为了针对如通过上述缩混处理所获取的单声道信号来调适空间化参数,现在参考图3描述了通过框314进行的参数的特定提取。
对于参数ICLD的提取(框314),频谱Lbuf[k]和Rbuf[k]细分为35个频率子带。这些子带通过以下边界定义:
Kb=0.35=[1 2 3 4 6 7 9 11 13 15 18 21 24 28 32 36 41 47 53 59 67 75 8494 105 118 131 146 163 182 202 225 250 278 308 321]
以上数组界定(在傅立叶系数的数量方面)具有索引b=0至34的频率子带。例如,第一子带(b=0)从系数kb=0开始到kb+1-1=0;因此它被减少到表示25Hz的单个系数。同样,最后一个子带(k=34)从系数kb=308开始到kb+1-1=320,其包括12个系数(300Hz)。在此不考虑具有与Nyquist频率相对应的索引k=321的频率线。
对于每个帧,根据以下公式计算子带b=0…34的ICLD:
其中和/>分别表示左声道(Lbuf[k])和右声道(Rbuf[k])的能量:
根据具体实施例,通过差分非均匀标量量化来对参数ICLD进行编码(框315)。在此将不详述这种量化,因为其超出了本发明的范围。
类似地,参数ICPD和ICC通过本领域技术人员已知的方法编码,例如通过适当间隔上进行的均匀标量量化。
参考图7,现在描述了根据本发明的实施例的解码器。
在本示例中,这种解码器包括解复用器501,在所述解复用器中提取了已编码单声道信号以供在502中通过单声道EVS解码器进行解码。根据编码器上使用的比特流,对比特流中与单声道EVS编码器相对应的部分进行解码。在此假设比特流上没有帧丢失也没有二进制错误以便简化描述,但是在解码器中可明显地实施已知的帧丢失修正技术。
在没有声道错误的情况下,已解码单声道信号对应于对/>执行了通过具有与编码器中相同开窗的短时离散傅里叶变换(框503和504)以获取频谱/>在此认为还应用了频域中的解联(框520)。
还对与立体声扩展相关的比特流部分进行了解复用。参数ICLD、ICPD、ICC被解码以获取ICLDq[b]、ICPDq[b]和ICC2[b](框505至507)。此外,已解码单声道信号将能够例如在频域中被解联(框520)。在此处没有呈现框508的实施方式的详情,因为这超出了本发明的范围,但是可使用本领域技术人员已知的常规技术。
因此计算频谱和/>然后通过逆FFT、开窗、相加和重叠(框509至514)将这些频谱转换到时域以获取合成的声道/>和/>
在具体立体声编码和解码应用情况下,已经描述了参考图3呈现的编码器以及参考图7呈现的解码器。根据通过离散傅里叶变换对立体声声道进行的分解描述了本发明。本发明还适用于其他复数表示,如例如,MCLT(调制复数交叠变换)分解,这种分解组合了改进的离散余弦变换(MDCT)与改进的离散正弦变换(MDST),并且本发明还适用于伪正交滤波器(PQMF)类型的滤波器排的情况。因此,具体实施方式中使用的术语“频率系数”可扩展至“子带(sub-band)”或“频带(frequency band)”的概念,而不会改变本发明的性质。
最后,作为本发明的主题的缩混将能够不仅用于编码中,还可用于解码中,以便在立体声解码器或接收器的输出处生成单声道信号,以确保与纯单声道装备的兼容性。例如,当从耳机上的声音重现切换至扬声器重现时,情况可能如此。
图8展示了本实施例。例如,立体声信号是以已解码形式接收的(L(n)、R(n))。通过相应的框601、602和603、604对所述立体声信号进行变换以获取左频谱和右频谱(L[k]和R[k])。
然后采用与图3的处理框307相同的方式在处理框605中实施参考图4a至图4f描述的那些方法中的一种。
此处理框605包括用于获取对所接收的多声道立体声信号(此处为立体声信号)的声道进行表征的至少一个指标的模块605a。所述指标可为例如声道间相关性类型的指标、或声道之间反相程度的度量的指标。
根据此指标的值,选择框605b从一组缩混处理模式中选择在605c中应用于输入信号(此处为应用于立体声信号L[k]、R[k])以提供单声道信号M[k]的缩混处理模式。
参考图3、图7和图8描述的编码器和解码器可并入房间解码器、机顶盒、音频或视频内容读取器类型的多媒体装备。它们也可并入手机或通信网关类型的通信装备。
在各种变型中,考虑了从5.1声道至立体声信号的缩混情况。替代缩混输入处的2声道,考虑定义为一组6声道的5.1类型的环绕声信号的情况:L(左前)、C(中心)、R(右前)、Ls(左环绕声或左后)、Rs(右环绕声或右后)、LFE(低频效果或低音炮)。在这种情况下,可根据本发明应用来自5.1立体声的缩混的两种变型:
·可通过被动缩混来组合C声道和LFE声道,并且结果可以通过应用从两个声道(立体声)到一个声道(单声道)的缩混的实施例来分别获取L’和R’声道而单独地与L声道或R声道相组合。然后L’和R’声道也可以通过应用从两个声道(立体声)到一个声道(单声道)的缩混的实施例来分别获取构成缩混结果的L”和R”声道而分别与Ls和Rs组合。
因此,本实施方式“以分层方式”(通过连续步骤)涉及之前根据不同变型所述的2到1类型的基本缩混。
·在更加一般的变型中,将能够使本发明一般化为同时在一侧L、Ls、C+LFE和另一侧R、Rs、C+LFE上组合3个声道以直接获取两个声道L”和R”,其中C+LFE是简单被动缩混的结果。
在这种情况下,可以如在立体声情况下那样定义若干种缩混:对这3个信号进行的具有增益补偿的被动缩混M1[k]、对这3个信号进行的具有自适应参考(这3个信号的主信号)上的自适应相位对齐缩混M3[k]。在这种情况下,根据一般化来获取缩混:
M[k]=p1(ICCr12,ICCr13,ICCr23).M1[k]
+p3(ICCr12,ICCr13,ICCr23).M3[k]
其中权重p1和p3是具有若干个变量的函数,例如每对相应声道i和j之间的关联ICCrij(例如L、Ls、C+LFE),以两两形式采用。
在本发明的其他变型中,缩混的输入和输出处的声道数量将能够与此处所示的立体声到单声道或5.1到立体声的情况不同。
图9表示这种装备项目的示例性实施例,其中并入了根据本发明所述的如参考图3所述的编码器和如参考图8所述的处理设备。这种设备包括与存储器块BM协同操作的处理器PROC,所述存储器块包括存储设备和/或工作存储器MEM。
所述存储器块可以有利地包括计算机程序,所述计算机程序包括代码指令,所述代码指令用于实施在本发明的意义内的所述编码方法的步骤;或当这些指令由处理器PROC执行时用于实施所述处理方法的步骤,并且尤其是提取表征所述多声道数字音频信号的声道的至少一个指标的步骤、以及根据对所述多声道音频信号的声道进行表征的所述至少一个指标的值从一组缩混处理模式中选择缩混处理模式的步骤。
在多声道信号进行编码或对已解码多声道信号进行处理期间,针对缩混执行这些指令。
所述程序可包括对适合这种处理的信息进行编码的步骤。
存储器MEM可以存储根据本发明的方法选择的不同的缩混处理模式。
通常,图3、图4a至图4f的描述表示了这种计算机程序的算法的各个步骤。所述计算机程序还可以被存储在存储介质上,所述存储介质可以由设备或装备项的读取器进行读取或者可以被下载到其存储空间中。
此装备项目或编码器包括输入模块,所述输入模块能够经由通信网络或通过读取存储在存储介质上的内容来接收多声道信号,例如包括右侧和左侧的声道R和声道L的立体声信号。这种多媒体装备项目还可以包括用于捕获这种立体声信号的装置。
所述设备包括输出模块,所述输出模块能够发射源自根据本发明选择的缩混处理的单声道信号M,并且在编码设备的情况下发射已编码空间信息参数Pc

Claims (6)

1.一种用于对多声道数字音频信号进行参数编码的方法,所述方法包括对源自应用于所述多声道信号的缩混处理(307)的单声道信号(M)进行编码(312)的步骤、以及对多声道信号空间化信息进行编码(315,316,317)的步骤,
其特征在于,所述缩混处理包括针对所述多声道信号的每个频谱单元实施的以下步骤:
-提取(307a)对所述多声道数字音频信号的声道之间的声道之间相关性进行表征的平滑指标ICCr或声道之间反相程度进行表征的指标ISD中的至少一个;
-根据所述至少一个指标的值与阈值的比较,在帧上、针对每个频谱单元从一组缩混处理模式中选择(307b)缩混处理模式。
2.如权利要求1所述的方法,其特征在于,所述一组缩混处理模式包括来自以下列表的多种处理模式:
-被动型缩混处理,具有或不具有增益补偿;
-自适应型缩混处理,具有对参考的相位对齐和/或能量控制;
-混合型缩混处理,取决于表示所述多声道信号的声道之间反相程度的度量的相位指标;
-对至少两种被动处理模式、自适应处理模式或混合处理模式的组合。
3.一种用于对多声道数字音频信号进行参数编码的设备,所述设备包括:编码器(312),所述编码器能够对源自应用于所述多声道信号的缩混处理模块(307)的单声道信号(M)进行编码;以及量化模块(315,316,317),所述量化模块用于对多声道信号空间化信息进行编码,
其特征在于,所述缩混处理模块包括:
-提取模块(307a),所述提取模块能够针对所述多声道信号的每个频谱单元获取对所述多声道数字音频信号的声道之间的声道之间相关性进行表征的平滑指标ICCr或声道之间反相程度进行表征的指标ISD中的至少一个;
-选择模块(307b),所述模块能够根据所述至少一个指标的值与阈值的比较,针对所述多声道信号的每个频谱单元在帧上、针对每个频谱单元从一组缩混处理模式中选择缩混处理模式。
4.一种用于处理已解码多声道音频信号的方法,所述方法包括用于获取待重现的单声道信号的缩混处理,其特征在于,所述缩混处理包括针对所述多声道信号的每个频谱单元实施的以下步骤:
-提取(605a)对所述多声道数字音频信号的声道之间的声道之间相关性进行表征的平滑指标ICCr或声道之间反相程度进行表征的指标ISD中的至少一个;
-根据所述至少一个指标的值与阈值的比较,在帧上、针对每个频谱单元从一组缩混处理模式中选择(605b)缩混处理模式。
5.一种用于处理已解码多声道音频信号的设备,所述设备包括用于获取待重现的单声道信号的缩混处理模块,其特征在于,所述缩混处理模块包括:
-提取模块(605a),所述提取模块能够针对所述多声道信号的每个频谱单元获取对所述多声道数字音频信号的声道之间的声道之间相关性进行表征的平滑指标ICCr或声道之间反相程度进行表征的指标ISD中的至少一个;
-选择模块(605b),所述模块能够根据所述至少一个指标的值与阈值的比较,针对所述多声道信号的每个频谱单元在帧上、针对每个频谱单元从一组缩混处理模式中选择缩混处理模式。
6.一种处理器可读存储介质,其上存储有包括代码指令的计算机程序,所述代码指令用于执行如权利要求1至2和4之一所述的方法的步骤。
CN201680072547.XA 2015-12-16 2016-12-13 用于对多声道音频信号进行编码的自适应声道缩减处理 Active CN108369810B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1562485A FR3045915A1 (fr) 2015-12-16 2015-12-16 Traitement de reduction de canaux adaptatif pour le codage d'un signal audio multicanal
FR1562485 2015-12-16
PCT/FR2016/053353 WO2017103418A1 (fr) 2015-12-16 2016-12-13 Traitement de réduction de canaux adaptatif pour le codage d'un signal audio multicanal

Publications (2)

Publication Number Publication Date
CN108369810A CN108369810A (zh) 2018-08-03
CN108369810B true CN108369810B (zh) 2024-04-02

Family

ID=55646738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680072547.XA Active CN108369810B (zh) 2015-12-16 2016-12-13 用于对多声道音频信号进行编码的自适应声道缩减处理

Country Status (5)

Country Link
US (1) US10553223B2 (zh)
EP (1) EP3391370A1 (zh)
CN (1) CN108369810B (zh)
FR (1) FR3045915A1 (zh)
WO (1) WO2017103418A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107742521B (zh) * 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器
CN108269577B (zh) * 2016-12-30 2019-10-22 华为技术有限公司 立体声编码方法及立体声编码器
CN109427337B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号编码时重建信号的方法和装置
GB201718341D0 (en) 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB2572650A (en) 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
WO2020094263A1 (en) * 2018-11-05 2020-05-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs
CN115280411A (zh) * 2020-03-09 2022-11-01 日本电信电话株式会社 声音信号缩混方法、声音信号编码方法、声音信号缩混装置、声音信号编码装置、程序及记录介质
CN111332197B (zh) * 2020-03-09 2021-08-03 湖北亿咖通科技有限公司 一种车载娱乐***的灯光控制方法、装置及车载娱乐***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101044550A (zh) * 2004-09-03 2007-09-26 弗劳恩霍夫应用研究促进协会 产生编码多通道信号的设备和方法、对编码多通道信号进行解码的设备和方法
CN103262160A (zh) * 2010-10-13 2013-08-21 三星电子株式会社 用于对多通道音频信号进行缩混的方法和设备
CN103329197A (zh) * 2010-10-22 2013-09-25 法国电信公司 用于反相声道的改进的立体声参数编码/解码
CN104205211A (zh) * 2012-04-05 2014-12-10 华为技术有限公司 多声道音频编码器以及用于对多声道音频信号进行编码的方法
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105225667B (zh) * 2009-03-17 2019-04-05 杜比国际公司 编码器***、解码器***、编码方法和解码方法
CN102446507B (zh) * 2011-09-27 2013-04-17 华为技术有限公司 一种下混信号生成、还原的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101044550A (zh) * 2004-09-03 2007-09-26 弗劳恩霍夫应用研究促进协会 产生编码多通道信号的设备和方法、对编码多通道信号进行解码的设备和方法
CN103262160A (zh) * 2010-10-13 2013-08-21 三星电子株式会社 用于对多通道音频信号进行缩混的方法和设备
CN103329197A (zh) * 2010-10-22 2013-09-25 法国电信公司 用于反相声道的改进的立体声参数编码/解码
CN104205211A (zh) * 2012-04-05 2014-12-10 华为技术有限公司 多声道音频编码器以及用于对多声道音频信号进行编码的方法
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Enhanced stereo coding with phase parameters for MPEG unified speech and audio coding;JungHoo Kim etc;《Audio Engineeting Society》;20091012;第1-7页 *

Also Published As

Publication number Publication date
FR3045915A1 (fr) 2017-06-23
CN108369810A (zh) 2018-08-03
US20190156841A1 (en) 2019-05-23
WO2017103418A1 (fr) 2017-06-22
EP3391370A1 (fr) 2018-10-24
US10553223B2 (en) 2020-02-04

Similar Documents

Publication Publication Date Title
CN108369810B (zh) 用于对多声道音频信号进行编码的自适应声道缩减处理
JP6626581B2 (ja) 1つの広帯域アライメント・パラメータと複数の狭帯域アライメント・パラメータとを使用して、多チャネル信号を符号化又は復号化する装置及び方法
JP6196249B2 (ja) 複数のチャネルを有するオーディオ信号を符号化する装置と方法
CA2985019C (en) Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
JP5189979B2 (ja) 聴覚事象の関数としての空間的オーディオコーディングパラメータの制御
CN108885876B (zh) 用于对多声道音频信号的参数编码和解码的空间化信息进行的优化编码和解码
JP5719372B2 (ja) アップミックス信号表現を生成する装置及び方法、ビットストリームを生成する装置及び方法、並びにコンピュータプログラム
TWI566237B (zh) 使用物件特定之時間/頻率解析度以自混合信號分離音訊物件之技術
EP3776541B1 (en) Apparatus, method or computer program for estimating an inter-channel time difference
JP2016525716A (ja) 適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制
RU2628195C2 (ru) Декодер и способ параметрической концепции обобщенного пространственного кодирования аудиообъектов для случаев многоканального понижающего микширования/повышающего микширования
CA2865651C (en) Phase coherence control for harmonic signals in perceptual audio codecs
WO2006003813A1 (ja) オーディオ符号化及び復号化装置
JP2015517121A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
US20050160126A1 (en) Constrained filter encoding of polyphonic signals
KR102168054B1 (ko) 멀티 채널 코딩
JP2017058696A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
RU2778832C2 (ru) Многоканальное кодирование аудио
EP2456236A1 (en) Constrained filter encoding of polyphonic signals

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant