CN102239520A - 用于处理音频信号的方法和装置 - Google Patents

用于处理音频信号的方法和装置 Download PDF

Info

Publication number
CN102239520A
CN102239520A CN2009801490217A CN200980149021A CN102239520A CN 102239520 A CN102239520 A CN 102239520A CN 2009801490217 A CN2009801490217 A CN 2009801490217A CN 200980149021 A CN200980149021 A CN 200980149021A CN 102239520 A CN102239520 A CN 102239520A
Authority
CN
China
Prior art keywords
signal
information
background object
mixed
object signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009801490217A
Other languages
English (en)
Inventor
吴贤午
郑亮源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Priority claimed from PCT/KR2009/007265 external-priority patent/WO2010064877A2/en
Publication of CN102239520A publication Critical patent/CN102239520A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/09Electronic reduction of distortion of stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

公开了一种处理音频信号的方法,包括:接收下混频信号、残余信号和对象信息;使用残余信号从下混频信号提取背景对象信号和前景对象信号中的至少一个;接收包括用于背景对象信号的增益控制信息的混合信息;基于对象信息和混合信息来生成下混频处理信息;以及,通过将下混频处理信息应用到背景对象信号和前景对象信号中的至少一个来生成包括已修改的背景对象信号的已处理的下混频信号,其中,将与增益控制信息相对应的已调整的增益应用到该修改的背景对象信号。

Description

用于处理音频信号的方法和装置
技术领域
本发明涉及一种用于处理音频信号的装置及其方法。尽管本发明适合广泛应用,但其特别适用于编码或解码音频信号。
背景技术
一般而言,在用于将多个对象下混频为单声或者立体声信号的处理中,分别从对象信号中提取参数。这些参数可用于解码器。并且,每个对象的平移(panning)和增益通过用户做出的选择是可控制的。
发明内容
技术问题
然而,为了控制每个对象信号,应当适当地定位或平移在下混频中包含的每个源。
而且,为了根据信道定向解码方案来提供下行兼容性,对象参数应当转换为用于上混频的多信道参数。
技术方案
因此,本发明针对一种用于处理音频信号的装置及其方法,该装置和方法基本上避免了由于相关技术的限制和缺点导致的一个或多个问题。
本发明的一个目的是提供一种用于处理音频信号的装置及其方法,通过该装置和方法,可以通过控制对象的增益与平移来输出单声信号、立体声信号和立体声信号。
本发明的另一个目的是提供一种用于处理音频信号的装置及其方法,通过该装置和方法,可以在调整具有相当大带宽的声乐或背景音乐的增益的情况下防止声音品质的失真。
本发明的又一个目的是提供一种用于处理音频信号的装置及其方法,通过该装置和方法,可以在没有使用多信道解码器输出单声信号或者立体声信号的情况下调整背景音乐的增益。
有益效果
因此,本发明提供了下列效果或优点。
第一,本发明能够无限制地控制对象的增益和平移。
第二,本发明能够基于由用户做出的选择来控制对象的增益和平移。
第三,在完全地抑制声乐或背景音乐的情况下,本发明能够根据增益调整来防止声音品质失真。
第四,在输出单声信号或立体声信号的情况下,本发明能够调整背景音乐的增益,由此自由地实现卡拉OK模式。
附图说明
附图被包括以提供对本发明的进一步理解,并且合并在本说明书中和构成本说明书的一部分,附图图示了本发明的实施例并且与描述一起用来解释本发明的原理。
在附图中:
图1是根据本发明实施例的音频信号处理装置的编码器的框图;
图2是在对象编码器120A/120B中包括的NTT/NTO模块的框图;
图3是根据本发明实施例的音频信号处理装置的解码器的框图;
图4是根据本发明实施例的音频信号处理方法的流程图;
图5是在提取单元220中包括的OTN/TTN模块的框图;
图6和图7分别是用于在卡拉OK模式的情况下提取多信道背景对象(MBO)信号的解码器的第一示例和第二示例的框图;
图8是用于在卡拉OK模式的情况下提取单声/立体声背景对象(BGO)信号的解码器的示例的框图;
图9是用于解释基于5-1-51树形结构来输出单声背景对象(BGO)信号的概念的视图;
图10是用于解释基于5-1-52树形结构来输出单声背景对象(BGO)信号的概念的视图;
图11是用于解释基于5-2-5树形结构来输出立体声背景对象(BGO)信号的概念的视图;
图12是用于在独奏模式的情况下提取前景对象(FGO)信号的解码器的示例的框图;
图13是用于在独奏模式的情况下提取至少两个前景对象(FGO)信号的解码器的示例的框图;
图14是其中实现了本发明的一个实施例的音频信号处理装置的产品的示意框图;以及
图15是用于解释其中实现了根据本发明的一个实施例的音频信号处理装置的产品之间的关系的视图。
具体实施方式
在下面的说明书中将阐述本发明的附加特征和优点,并且部分地从该描述将是显而易见的,或可以通过本发明的实施来获知。通过书面描述中特别指出的结构及其权利要求书以及附图将实现和获得本发明的目的和其他优点。
为了实现这些或其他优点并且按照本发明的目的,如具体体现和广义描述的,
为了实现这些或其他优点并且按照本发明的目的,如具体体现和广义描述的,提供了一种用于处理音频信号的方法,包括:接收下混频信号、残余信号和对象信息;使用残余信号从下混频信号提取背景对象信号和前景对象信号中的至少一个;接收包括用于背景对象信号的增益控制信息的混合信息;基于对象信息和混合信息来生成下混频处理信息;以及,通过将下混频处理信息应用到背景对象信号和前景对象信号中所述至少一个来生成包括已修改的背景对象信号的已处理的下混频信号,其中,将与增益控制信息相对应的已调整的增益应用到该已修改的背景对象信号。
根据本发明,进一步使用对象信息来提取背景对象信号和前景对象信号中的所述至少一个。
根据本发明,背景对象信号对应于单声和立体声信号中一个。
根据本发明,已处理的下混频信号对应于时域信号。
根据本发明,该方法进一步包括:使用对象信息和混合信息来生成多信道信息;以及,使用多信道信息和已处理的下混频信号来生成多信道信号。
为了进一步实现这些或其他优点并且按照本发明的目的,提供了一种用于处理音频信号的装置,包括:复用器,该复用器接收下混频信号、残余信号和对象信息;提取单元,该提取单元使用残余信号从下混频信号提取背景对象信号和前景对象信号中的至少一个;信息生成单元,该信息生成单元接收包括用于背景对象信号的增益控制信息的混合信息,以及基于对象信息和混合信息来生成下混频处理信息;以及,渲染单元,该渲染单元通过将下混频处理信息应用到背景对象信号和前景对象信号中的至少一个来生成包括已修改的背景对象信号的已处理的下混频信号,其中,将与增益控制信息相对应的已调整的增益应用到已修改的背景对象信号,其中,当混合信息包括用于背景对象信号的增益控制信息时,已处理的下混频信号包括已修改的背景对象信号,其中,将与增益控制信息相对应的已调整的增益应用到已修改的背景对象信号。
根据本发明,进一步使用对象信息来提取背景对象信号和前景对象信号中的至少一个。
根据本发明,背景对象信号对应于单声信号和立体声信号中的一个。
根据本发明,已处理的下混频信号对应于时域信号。
根据本发明,该装置进一步包括多信道解码器,该多信道解码器使用多信道信息和已处理的下混频信号来生成多信道信号,其中,信息生成单元使用对象信息和混合信息来生成多信道信息。
为进一步实现这些和其他优点并且按照根据本发明的目的,提供了一种在其上储存了指令的计算机可读介质,当由处理器执行所述指令时,使得处理器执行操作,包括:接收下混频信号、残余信号和对象信息;使用残余信号从下混频信号提取背景对象信号和前景对象信号中的至少一个;基于对象信息和混合信息来生成下混频处理信息;以及,通过将下混频处理信息应用到背景对象信号和前景对象信号中的至少一个来生成已处理的下混频信号,其中,当混合信息包括用于背景对象信号的增益控制信息时,已处理的下混频信号包括已修改的背景对象信号,其中,将与增益控制信息相对应的已调整的增益应用到该已修改的背景对象信号。
应当理解,前述概要说明和下列详细说明都是示例性和解释性的,并且旨在提供对所请求保护的本发明的进一步解释。
发明模式
现在将详细参考本发明的优选实施例,在附图中图示了其示例。首先,在本说明书和权利要求书中使用的术语或词语不应当被解释为一般或词典意义,并且应当被解释为基于发明人能够适当地定义用于以最佳方式描述发明人的发明的术语的概念的原理来匹配本发明的技术思想的意义和概念。在本公开中公开的实施例和附图中示出的配置仅是一个优选实施例,并不代表本发明的所有技术思想。因此,应当理解,本发明覆盖该发明的修改和变化,只要它们在提交本申请的时间点的所附的权利要求及其等同物的范围之内。
根据本发明,没有在本说明书中公开的术语可以被解释为与本发明的技术思想相匹配的意义和概念。具体地,本公开中的“信息”是通常包括值、参数、系数、元素等的术语,并且其意义可以被解释为偶尔不同,由此本发明是非限制性的。
图1是根据本发明实施例的音频处理装置的编码器的框图。图1(A)示出了背景对象(BGO)是单声道信号或立体声信号的情况。并且,图1(B)示出了背景对象(BGO)是多信道信号的情况。
参考图1(A),解码器100A包括对象编码器120A。对象编码器120A通过基于对象方案在单声或者立体声信道上将背景对象(BGO)和至少一个前景对象下混频来生成下混频信号DMX。并且,在下混频过程中,对象编码器120A生成对象信息和残余。
在这种情况下,背景对象(BGO)是包含复数个源信号(例如,音乐器械信号)等的背景音乐。并且,在尝试同时控制几个器械声音而不是单独控制每个器械信号的情况下,背景对象BGO可以配置有几个器械信号。同时,在背景对象BGO是单声信号的情况下,相应的单声信号变成一个对象。如果背景对象BGO是立体声信号,则左信道信号和右信道信号分别变成对象。因此,共有两个对象信号。
相反,例如,前景对象FGO对应于一个源信号,并且可以对应于至少一个声乐信号。前景对象FGO对应于由基于对象的编码器/解码器控制的一般对象信号。
在前景对象FGO的级别被调整为“0”的情况下,由于仅回放背景对象BGO,所以能够实现卡拉OK模式。相反,如果背景对象BGO的级别低于“0”,则由于仅回放前景对象FGO,所以能够实现独奏模式。在存在至少两个前景对象的情况下,能够实现无伴奏模式。
如前述说明中提到的,对象编码器120A通过下混频包括背景对象BGO和前景对象FGO的对象来生成下混频DMX,并且还在下混频过程中生成对象信息。在这种情况下,对象信息(OI)是关于在下混频信号中包括的对象的信息,并且是从下混频信号DMX生成多个对象信号所需要的信息。对象信息可以包括对象级别信息、对象相关性信息等,由此本发明是非限制性的。
同时,在下混频处理中,对象编码器120A能够生成与关于背景对象BGO和前景对象FGO之间的差的信息相对应的残余信号。特别是,对象编码器120A可以包括NTO模块1220-1或NTT模块122-2,之后将参考图2对其进行说明。
参考图1(B),如果背景对象BGO是多信道信号,则编码器100B进一步包括空间编码器110B。空间编码器110B通过基于信道方案下混频多信道背景对象MBO来生成单声或立体声下混频。空间编码器110B在该下混频处理中提取空间信息。在这种情况下,空间信息是用于将下混频DMX上混频为多信道信号的信息,并且包括信道级别信息、信道相关性信息等。
因此,空间编码器110B生成单声或立体声信道下混频和空间信息。通过在比特流上运载而将该空间信息递送到解码器。并且,该单声或立体声下混频作为一个或者两个对象被输入到对象编码器120B。对象编码器120B可以具有与图1(A)所示的上述对象编码器120A相同的配置,并且在下列说明中省略了其细节。
图2示出了NTO模块122-1和NTT模块122-2的示例。
参考图2(A),NTO(N到1)模块122-1通过在单声信道上下混频BGO(BGOm)和两个FGO(FGO1,FGO2)来生成单声下混频DMXm,并且还生成两个残余信号——redidual1和redidual2。例如,在单声信道背景音乐中可能存在两个声乐。由于背景对象是单声信号,所以下混频信号也可对应于单声信号。同时,第一残余redidual1可包括当根据将第一FGO FGO1和单声背景对象BGOm组合而生成第一临时下混频时确定的信号,本发明不限于此。并且,第二残余redidual2可包括当根据下混频第二FGO FGO2和第一临时而生成最后一个下混频DMXm时提取的信号,本发明不限于此。
参考图2(B),NTO(N到1)模块122-2通过下混频BGO(BGOL和BGOR)和立体声信号的三个FGO来生成立体声下混频DMXL和DMXR,并且在该下混频处理中还提取第一至第三残余——redidual1至redidual3。在这种情况下,由于BGO对应于立体声信道,所以下混频信号也可对应于立体声信道。就像NTO模块122-1的情况,第一残余redidual1可包括当根据将第一FGO FGO1与立体声背景对象BGOL和BGOR组合而生成第一临时下混频时确定的信号,本发明不限于此。并且,第二残余redidual2可包括当将第二FGO FGO2和第一临时下混频组合而生成第二临时下混频时确定的信号,本发明不限于此。而且,第三残余redidual3可包括当将第三FGO FGO3和第二临时下混频组合而生成最后下混频BGOL和BGOR时确定的信号,本发明不限于此。
图3是根据本发明实施例的音频信号处理装置的解码器的框图,并且图4是根据本发明实施例的音频信号处理方法的流程图。
参考图3,解码器包括下混频处理单元220和信息生成单元240,并且可以进一步包括复用器(图中未示出)和多信道解码器260。此外,下混频处理单元220能够包括提取单元222和渲染单元224。
参考图3和图4,复用器(图中未示出)经由比特流接收下混频信号、残余信号和对象信息[S110]。在这种情况下,下混频信号可以对应于通过参考图1和图2描述的方法根据下混频背景对象(BGO)和至少一个前景对象(FGO)而生成的信号。残余信号可以对应于参考图1和图2描述的上述残余信号。由于对象信息可以与参考图1描述的对象信息一样,所以在下列说明中省略了其细节。
提取单元220从下降信号DMX提取背景对象BGO和至少一个前景对象FGO[S120]。如在前述说明中提到的,下混频信号DMX可以对应于单声或者立体声信道,并且背景对象BGO可以对应于该单声或者立体声信号。提取单元220可以包括OTN(1到N)模块和TTN(2到N)模块,参考图5如下解释了其配置。
图5是在提取单元220中包括的OTN/TTN模块的框图。
参考图5,OTN模块222-1从单声下混频DMXm提取至少一个FGO。并且,TTN模块222-2从立体声下混频DMXL和DMXR提取至少一个FGO。OTN模块222-1可以执行与参考图2中描述的上述NTO模块122-1的处理相反的处理。并且,TTN模块222-2可以执行与参考图2描述的上述NTT模块122-2的处理相反的处理。因此,在下列说明中省略了该OTN和TOTT模块的细节。
现在参考图3和图4,提取单元22能够进一步使用对象信息从单声或立体声下混频DMX提取背景对象和至少一个前景对象。该对象信息可通过直接由提取单元222解析或从信息生成单元240递送的方式来获得,本发明不限于此。
同时,信息生成单元240接收混合信息MXI[S130]。在这种情况下,混合信息MXI可以包括关于BGO的增益控制信息。混合信息(MXI)是基于对象位置信息、对象增益信息、回放配置信息等生成的信息。对象位置信息和对象增益信息是用于控制在下混频中包括的对象的信息。在这种情况下,对象包括上述背景对象BGO和上述前景对象FGO的概念。
特别是,对象位置信息是由用户输入以控制每个对象的位置或平移的信息。对象增益信息是由用户输入以控制每个对象的增益的信息。因此,对象增益信息可以包括关于BGO的增益控制信息以及关于FGO的增益控制信息。
同时,对象位置信息或对象增益信息可以是从预设模式选择的一个。在这种情况下,预设模式是用于预设对象的特定增益或位置的值。预设模式信息可以是从另一个设备接收到的值,或在设备中储存的值。同时,通过用户输入可以确定从至少一个或者多个预设模式选择一个(例如,预设模式未使用、预设模式1、预设模式2等)。
回放配置信息是包含扬声器数目、扬声器位置、环境信息(扬声器的虚拟位置)等的信息。回放配置信息可以由用户输入,可以事先储存,或可以从另一个设备接收到。
而且,信息生成单元220能够接收输出模式信息(OM)以及混合信息(MXI)。输出模式信息(OM)是关于输出模式的信息。例如,输出模式信息(OM)可以包括指示使用了多少信号用于输出的信息。指示使用了多少用于信号用于输出的信息可以对应于从由单声输出模式、立体声输出模式和多信道输出模式组成的组中选择的一个信息。同时,输出模式信息(OM)可与混合信息(MXI)的扬声器的数目一致。如果事先存储了输出模式信息(OM),则其基于设备信息。如果由用户输入了输出模式信息(OM),则其基于用户输入信息。在这种情况下,用户输入信息可以包括在混合信息(MXI)中。
信息生成单元24基于在步骤S110中接收到的对象信息和在步骤S130中接收到的混合信息来生成下混频处理信息[S140]。混合信息可以包括关于BGO的增益控制信息以及关于FGO的增益和/或位置信息。例如,在卡拉OK模式的情况下,FGO的增益被调整为0,并且BGO的增益控制可以被调整到预定范围内。相反,在独奏或无伴奏模式中,BGO的增益被调整为0,并且可以控制至少一个FGO的增益和/或位置。
渲染单元224通过将在步骤S140中生成的下混频处理信息应用到至少一个背景对象BGO以及至少一个前景对象FGO来生成已处理的下混频信号[S150]。
随后,如果输出模式(OM)是单声或者立体声输出模式,则渲染单元224生成并输出时域信号的已处理的下混频信号[S160]。如果输出模式(OM)是多信道输出模式,则信息生成单元240基于对象信息和混合信息(MXI)来生成多信道信息(MI)。在这种情况下,多信道信息(MI)是用于将下混频(DMX)上混频为多信道信号的信息,并且能够包括信道级别信息、信道相关性信息等。
如果生成了多信道信息(MI),则多信道解码器使用下混频(DMX)和多信道输出信号(MI)来生成多信道输出信号[S160]。
图6和图7分别是卡拉OK模式的情况下用于提取多信道背景对象(MBO)信号的解码器的第一示例和第二示例。
参考图6,解码器200A.1包括与参考图3描述的上述解码器200的元件具有相同名称的元件,并且执行与图3所示的上述解码器200的功能类似的功能。在下面的描述中,将解释执行与图3所示的上述解码器200的功能不同的功能的元件。
首先,像参考图3中描述的上述提取单元222,提取单元222A从下混频提取背景对象和至少一个前景对象。在这种情况下,如果背景对象对应于多信道背景对象(MBO),则复用器(图中未示出)接收空间信息。在这种情况下,空间信息是用于将下混频背景对象上混频为多信道信号的信息,并且可以与通过图1所示的空间编码器1210B生成的上述空间信息相同。
如果背景对象BGO对应于从多信道背景对象MBO下混频的信号,并且根据混合信息(MXI)来选择卡拉OK模式(即,如果FGO的增益被调整为0),则多信道解码器240A实际上能够使用所接收到的空间信息,而不是信息生成单元230A.1生成多信道信息(MI)。这是因为该空间信息是当从MBO生成单声/立体声背景对象BGO时生成的信息。
如此,在将由多信道解码器260A提取的BGO输入到多信道解码器260A之前,能够执行对升高或降低BGO的增益的完全控制。关于该控制的信息被包括在混合信息(MXI)中。然后,该混合信息(MXI)在反映在下混频处理信息(DPI)上。因此,在BGO上混频为多信道信号之前,可以调整相应的增益。
像图6中所示的情况,图7示出了从MBO下混频BGO的情况,以及在将BGO上混频为MBO之前调整BGO的增益的情况。图6所示的上述解码器220A.1将该控制反映在下混频处理信息上。相反,图7中所示的解码器220A.2将该控制转换为任意下混频增益(ADG),并且然后使其能够被包括在输入到多信道解码器260A.1的空间信息中。在这种情况下,任意下混频增益是用于在多信道解码器中调整用于下混频信号的因素。并且,任意下混频增益是在上混频为多信道信号前应用到下混频信号的增益,即,仅单声或立体声BGO。因此,能够使用任意下混频增益来调整单声或立体声BGO的增益。
图8是用于在卡拉OK模式的情况下提取单声/立体声背景对象(BGO)信号的解码器的示例的框图。
参考图8,像在图6和图7所示的那样,解码器200B包括与参考图3说明的上述解码器200的元件具有相同名称的元件,并且大多数执行与图3所示的上述解码器200的功能类似的功能。在下列说明中,仅解释其间的差别。
首先,不像图6和图7中所示的那样,由于背景对象BGO不是多信道背景对象MBO,所以解码器200B不具有从编码器接收到的空间信息。因此,单声/立体声背景对象BGO没有被输入到多信道解码器260B,而是可以作为时域信号从下混频处理单元220B输出。由于用户具有多信道扬声器(例如,5.1信道等),所以如果BGO被输入到多信道解码器260B,则可能需要通过5.1信道的中心信道或左和右信道等进行映射。而且,可能发生用户尝试通过左或右信道同样级别来映射单声BGO。如下详细描述了根据输出模式的自动BGO渲染和根据用户的意愿的BGO渲染。
1.根据输出模式的自动BGO渲染
首先,在单声或立体声BGO的数目匹配于输出模式的信道的数目的情况下,解码器200B不需要附加处理。例如,如果BGO是单声信号并且解码器的输出模式(OM)是单声,则渲染单元224B输出时域单声信号。如果BGO是立体声信号并且解码器的输出模式(OM)是立体声,则渲染单元224B同样输出时域单声信号。
但是,如果BGO的信道的数目对应于单声或者立体声,并且输出模式是具有诸如5.1信道等的至少3个信道的信号,则应当激活多信道解码器260B。特别是,为了通过多信道适当地映射单声或者立体声BGO,信息生成单元240B生成多信道信息(MI)。例如,在单声BGO的情况下,通过多信道的中心信道(C)来映射单声BGO。在立体声BGO的情况下,立体声BGO可以分别被渲染为多信道的左信道L和右信道R。为了执行此渲染,应当从多信道信息(MI)生成与各种树形结构相对应的空间参数。并且,将参考图9、图10和图11如下解释相应的细节。
图9是用于解释基于5-1-51树形结构来输出单声背景对象(BGO)信号的概念的视图,并且图10是用于解释基于5-1-52树形结构来输出单声背景对象(BGO)信号的概念的视图。
参考图9,提供了用于信道解码器260B将单声输入上混频到5.1信道中的5-1-51树形结构(第一树形结构)。为了以该5-1-51配置通过中心信道(C)来映射单声BGO M0,能够设置每个信道划分模块OTT和与信道划分模块OTT相对应的信道间级别差(CLD)。例如,通过将与OTT0相对应的信道间级别差CLD0设置为最大值(+150dB),使得通过OTT0的两个输出信号的上信号来映射输入信道的所有级别(例如,输入到OTT1的信道)。通过类似的原理,CLD1被设置为-150dB以便由较低输出进行映射。如果CLD4被设置为+150dB,则可以通过5-1-51树形结构中的中心信道来自动映射所有单声BGO。其余的CLD(CLD3、CLD2)均可以分别被设置为任意值。
图10示出了用于将单声输入上混频到5.1信道到中的5-1-52树形结构(第二树形结构)。通过5-1-51树形结构的相同方案,能够设置信道级别差值。特别是,为了将单声BGO输出到中心信道C,CLD0被设置为-150dB,CLD1被设置为-150dB,并且CLD2被设置为150dB。其余的CLD(CLD3、CLD2)可以分别被设置为任意值。
图11是用于解释基于5-2-5树形结构来输出立体声背景对象(BGO)信号的概念的视图。
参考图11,提供了一种5-3-5配置,其是用于将立体声上混频到5.1信道中的树形结构。TTT0模块的TTT参数可以被确定为具有[L,R,0]输出。通过分别将CLD2和CLD1设置为+150dB,可以分别通过左信道L和右信道R来映射CLD2和CLD1。由于仅将以微小级别的信号输入到OTT0,所以CLD0可以被设置为任意值。
2.根据用户的意图的BGO渲染
首先,在根据输出模式的自动BGO渲染的情况下,单声BGO被设置成通过中心信道自动进行映射,或立体声BGO被设置成通过左信道和右信道自动进行映射。然而,能够根据用户意图来渲染单声/立体声BGO。如此,用户对BGO渲染的控制可以作为混合信息(MXI)而输入。
例如,在用户的控制下,可以以左信道和右信道的同样级别渲染单声BGO,为此,在使用图9所示的5-1-51树形结构的情况下,CLD0被设置为+150dB,CLD1被设置为+150dB,并且CLD3被设置为0。如果单声BGO在用户的控制下以同样级别被输出到5.1信道,则CLD0到CLD4可以分别被设置为范围在-2~2dB之间的值。
一般而言,根据上述方案,可以根据用户意图,通过下列公式来设置任意CLD值。
〔公式1〕
CLD k l , m = 20 log { m k , upper l , m m k , lower l , m }
在公式1中,l指示时隙,m指示混合子带指数,并且k指示OTT框的指数,
Figure BPA00001387422400161
指示上路径期望分布量,并且
Figure BPA00001387422400162
指示下路径期望分布量。
图12是用于在独奏模式的情况下提取前景对象(FGO)信号的解码器的示例的框图。
参考图12,解码器200C包括与图3所示的上述解码器300的元件具有相同名称的元件。图6/7/8中所示的上述解码器200A.1/200A.2/200B处于卡拉OK模式下,用于输出BGO。相反,解码器200C对应于独奏模式(或无伴奏模式),用于输出至少一个FGO。特别是,根据下混频处理信息(DPI),渲染单元224C抑制所有的背景对象BGO,并且仅输出FGO。如果输出模式具有至少三个信道,则激活多信道解码器260C,并且信息生成单元240C生成用于FGO的上混频的多信道信息(MI)。
在这种情况下,可以使用诸如在多信道信息(MI)中的空间参数CLD来设置如何通过多信道映射至少一个FGO。如果一个FGO被输入到多信道解码器260C中,则可以通过下列公式根据预设信息或者用户的意图来确定CLD值。
〔公式2〕
CLD k l , m = 20 log { m k , upper l , m m k , lower l , m }
在公式2中,1指示时隙,m指示混合子带指数,并且k指示OTT框的指数,
Figure BPA00001387422400164
指示上路径期望分布量,并且
Figure BPA00001387422400165
指示下路径期望分布量。
在多FGO而不是单FGO的情况下,可以通过下列公式来确定CLD。
〔公式3〕
CLD k l , m = 10 log { Σ i ( m i , k , upper l , m OLD i l , m ) 2 Σ i ( m i , k , lower l , m OLD i l , m ) 2 }
在公式3中,1指示时隙,m指示混合子带指数,并且k指示OTT框的指数,
Figure BPA00001387422400172
指示用于第i FGO的上路径期望分布量,
Figure BPA00001387422400173
指示用于第i FGO的下路径期望分布量,并且OLDi指示用于第i FGO的的对象级别差。
图13是用于在独奏模式情况下提取至少两个前景对象(FGO)的解码器的示例的框图。
参考图13,解码器200D包括与图3中所示的上述解码器200的元件具有相同名称的元件,并且执行与图3所示的上述解码器200的功能类似的功能。然而,提取单元222D从下混频提取至少两个FGO。在这种情况下,可以完全重构第一FGO FGO1和第二FGO FGO2。随后,渲染单元224D执行独奏模式,其中,完全抑制BGO,并且输出至少两个FGO。
能够假定第一FGO FGO1和第二FGO FGO2分别是单声和立体声的情况。在用户将单声FGO FGO1渲染到5.1信道的中心信道中,并且还将立体声FGO FGO2渲染到5.1信道的左信道和右信道中的情况下,渲染单元224D不直接输出FGO,而是激活多信道解码器260D。
渲染单元224D通过将至少两个FGO(FGO1和FGO2)在一起来已组合的FGO(FGOC)。在这种情况下,可通过下列公式来生成已组合的FGO(FGOC)。
〔公式4〕
L=sum(mi*FGOi)
R=sum(ni*FGOi)|
其中,mi和ni是分别要混合到左信道和右信道中的第i FGO的混合增益。
可以在时域或子带域中执行用于生成已组合的FGO的处理。
在用于通过OTT-1或者TTT-1模块来生成已组合的FGO的处理中,残余(residualC)被提取并且然后被递送到多信道解码器260D。该残余(residualC)可单独递送到多信道解码器260D。替代地,根据多信道信息(MI)比特流的方案,通过信号生成单元240D对残余(residualC)进行编码,并且然后可以递送到多信道解码器。
随后,多信道解码器260D能够使用残余(residualC)从已组合的FGO(FGOC)完全重构至少两个FGO(FGO1和FGO2)。由于相关技术的多信道解码器的TTT(2至3)模块是不完整的,所以FGO(FGO1和FGO2)可能彼此不完全分离。然而,本发明防止了由于使用残余的不完整分离引起的劣化。
根据本发明的音频信号处理装置可用于各种产品的使用。这些产品主要被分为独立组和便携式组。TV、监视器、机顶盒等可以被包括在独立组中。并且,PMP、移动电话、导航***等可以被包括在便携式组中。
图14是其中实现了根据本发明的一个实施例的音频信号处理装置的产品的示意框图。
参考图14,有线/无线通信单元510经由有线/无线通信***来接收比特流。特别是,有线/无线通信单元310可以包括有线通信单元310A、红外单元310B、蓝牙单元310C和无线LAN单元310D中的至少一个。
用户认证单元320接收用户信息的输入,并且然后执行用户认证。用户认证单元320可以包括指纹识别单元320A、虹膜识别单元320B、面部识别单元320C和语音识别单元320D中的至少一个。指纹识别单元320A、虹膜识别单元320B、面部识别单元320C和语音识别单元320D分别接收指纹信息、虹膜信息、面部信息和语音信息,并且然后将它们转换成用户信息。确定用户信息中的每个是否与预先注册的用户数据相匹配,以执行用户认证。
输入单元330是使得用户能够输入各种各样的命令的输入设备,并且可以包括键盘单元330A、触摸板单元330B和远程控制器单元330C中的至少一个,本发明不限于此。
信号编译单元340对音频信号和/或视频信号执行编码或解码,经由有线/无线通信单元310来接收音频信号和/或视频信号,并且然后在时域中输出音频信号。信号编译单元340包括音频信号处理装置345。如前述说明中提到的,音频信号处理装置345对应于本发明的上述实施例(即,编码器阶段100和/或解码器阶段200)。因此,可以通过至少一个或者多个处理器来实现音频信号处理装置345和包括音频信号处理装置345的信号编译单元。
控制单元350从输入设备接收输入信号,并且控制信号解码单元340和输出单元360的所有处理。特别是,输出单元360是被配置成输出由信号解码单元340生成的输出信号等的元件,并且可以包括扬声器单元360A和显示单元360B。如果输出信号是音频信号,则该输出信号被输出到扬声器。如果输出信号是视频信号,则该输出信号经由显示器被输出。
图15是用于解释其中实现了根据本发明的一个实施例的音频信号处理装置的产品之间的关系的视图。特别是,图15示出了图14所示的与产品相对应的终端和服务器之间的关系。
参考图15(A),可以观察到,第一终端300.1和第二终端300.2可以经由有线/无线通信单元双向地彼此交换数据或比特流。参考图15(B),可以观察到,服务器400和第一终端300.1可以执行与彼此的有线/无线通信。
根据本发明的音频信号处理方法可被实现为计算机可执行程序,并且可以存储在计算机可读记录介质中。并且,具有本发明的数据结构的多媒体数据可以存储在计算机可读记录介质中。计算机可读介质包括各种各样的记录设备,其中存储了计算机***可读取的数据。计算机可读介质包括例如ROM、RAM、CD-ROM、磁带、软盘、光数据存储设备等,并且还包括载波型实现(例如,经由因特网的传输)。并且,通过上述编码方法生成的比特流可以存储在计算机可读记录介质中或可以经由有线/无线通信网络进行传送。
工业实用性
因此,本发明可应用于处理和输出音频信号。
尽管在此已经通过参考本发明的优选实施例描述和说明了本发明,但是对于本领域技术人员将显而易见的是,在没有偏离本发明的精神和范围的情况下,可做出各种修改和变化。因此,本发明意在覆盖落入所附权利要求及其等同物的范围之内的本发明的修改和变化。

Claims (11)

1.一种用于处理音频信号的方法,包括:
接收下混频信号、残余信号和对象信息;
使用所述残余信号从所述下混频信号提取背景对象信号和前景对象信号中的至少一个;
接收包括用于所述背景对象信号的增益控制信息的混合信息;
基于所述对象信息和所述混合信息来生成下混频处理信息;以及
通过将所述下混频处理信息应用到所述背景对象信号和所述前景对象信号中的所述至少一个来生成包括已修改的背景对象信号的已处理的下混频信号,其中,将与所述增益控制信息相对应的已调整的增益应用到所述已修改的背景对象信号。
2.根据权利要求1所述的方法,其中,进一步使用所述对象信息来提取所述背景对象信号和所述前景对象信号中的所述至少一个。
3.根据权利要求1所述的方法,其中,所述背景对象信号对应于单声信号和立体声信号中的一个。
4.根据权利要求1所述的方法,其中,所述已处理的下混频信号对应于时域信号。
5.根据权利要求1所述的方法,进一步包括:
使用所述对象信息和所述混合信息来生成多信道信息;以及
使用所述多信道信息和所述已处理的下混频信号来生成多信道信号。
6.一种用于处理音频信号的装置,包括:
复用器,所述复用器接收下混频信号、残余信号和对象信息;
提取单元,所述提取单元使用所述残余信号从所述下混频信号提取背景对象信号和前景对象信号中的至少一个;
信息生成单元,所述信息生成单元接收包括用于所述背景对象信号的增益控制信息的混合信息,并且基于所述对象信息和混合信息来生成下混频处理信息;以及
渲染单元,所述渲染单元通过将所述下混频处理信息应用到所述背景对象信号和所述前景对象信号中的所述至少一个来生成包括已修改的背景对象信号的已处理的下混频信号,其中,将与所述增益控制信息相对应的已调整的增益应用到所述已修改的背景对象信号,
其中,当所述混合信息包括用于所述背景对象信号的增益控制信息时,所述已处理的下混频信号包括已修改的背景对象信号,其中,将与所述增益控制信息相对应的已调整的增益应用到所述已修改的背景对象信号。
7.根据权利要求6所述的装置,其中,进一步使用所述对象信息来提取所述背景对象信号和所述前景对象信号中的所述至少一个。
8.根据权利要求6所述的装置,其中,所述背景对象信号对应于单声信号和立体声信号中的一个。
9.根据权利要求6所述的装置,其中,所述已处理的下混频信号对应于时域信号。
10.根据权利要求6所述的装置,进一步包括:
多信道解码器,所述多信道解码器使用多信道信息和所述已处理的下混频信号来生成多信道信号,
其中,所述信息生成单元使用所述对象信息和所述混合信息来生成所述多信道信息。
11.一种具有其上存储了指令的计算机可读介质,当由处理器执行所述指令时,使得所述处理器执行操作,包括:
接收下混频信号、残余信号和对象信息;
使用所述残余信号从所述下混频信号提取背景对象信号和前景对象信号中的至少一个;
基于所述对象信息和混合信息来生成下混频处理信息;以及
通过将所述下混频处理信息应用到所述背景对象信号和所述前景对象信号中的所述至少一个来生成已处理的下混频信号,
其中,当所述混合信息包括用于所述背景对象信号的增益控制信息时,所述已处理的下混频信号包括已修改的背景对象信号,其中,将与所述增益控制信息相对应的已调整的增益应用到所述已修改的背景对象信号。
CN2009801490217A 2008-12-05 2009-12-07 用于处理音频信号的方法和装置 Pending CN102239520A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US12005708P 2008-12-05 2008-12-05
US61/120,057 2008-12-05
KR1020090119980A KR20100065121A (ko) 2008-12-05 2009-12-04 오디오 신호 처리 방법 및 장치
KR10-2009-0119980 2009-12-04
PCT/KR2009/007265 WO2010064877A2 (en) 2008-12-05 2009-12-07 A method and an apparatus for processing an audio signal

Publications (1)

Publication Number Publication Date
CN102239520A true CN102239520A (zh) 2011-11-09

Family

ID=42364598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801490217A Pending CN102239520A (zh) 2008-12-05 2009-12-07 用于处理音频信号的方法和装置

Country Status (2)

Country Link
KR (1) KR20100065121A (zh)
CN (1) CN102239520A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104969576A (zh) * 2012-12-04 2015-10-07 三星电子株式会社 音频提供设备和方法
CN105593930A (zh) * 2013-07-22 2016-05-18 弗朗霍夫应用科学研究促进协会 用于增强的空间音频对象编码的装置及方法
US10249311B2 (en) 2013-07-22 2019-04-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for audio encoding and decoding for audio channels and audio objects
US10277998B2 (en) 2013-07-22 2019-04-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for low delay object metadata coding

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015152661A1 (ko) * 2014-04-02 2015-10-08 삼성전자 주식회사 오디오 오브젝트를 렌더링하는 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008046531A1 (en) * 2006-10-16 2008-04-24 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
WO2008063035A1 (en) * 2006-11-24 2008-05-29 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
US20080205670A1 (en) * 2006-12-07 2008-08-28 Lg Electronics, Inc. Method and an Apparatus for Decoding an Audio Signal

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008046531A1 (en) * 2006-10-16 2008-04-24 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
WO2008063035A1 (en) * 2006-11-24 2008-05-29 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
US20080205670A1 (en) * 2006-12-07 2008-08-28 Lg Electronics, Inc. Method and an Apparatus for Decoding an Audio Signal

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ISO/IEC: "Call for Proposals on Spatial Audio Object Coding", 《ISO/IEC JTC1/SC29/WG11 MPEG2007/N8853》 *
JONAS ENGDEGARD ET AL: "Spatial Audio Object Coding (SAOC) – Upcoming MPEG Standard", 《124TH CONVENTION OF AUDIO ENGINEERING SOCIETY》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10341800B2 (en) 2012-12-04 2019-07-02 Samsung Electronics Co., Ltd. Audio providing apparatus and audio providing method
CN104969576A (zh) * 2012-12-04 2015-10-07 三星电子株式会社 音频提供设备和方法
US9774973B2 (en) 2012-12-04 2017-09-26 Samsung Electronics Co., Ltd. Audio providing apparatus and audio providing method
US10149084B2 (en) 2012-12-04 2018-12-04 Samsung Electronics Co., Ltd. Audio providing apparatus and audio providing method
US10659900B2 (en) 2013-07-22 2020-05-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for low delay object metadata coding
US10277998B2 (en) 2013-07-22 2019-04-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for low delay object metadata coding
US10249311B2 (en) 2013-07-22 2019-04-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for audio encoding and decoding for audio channels and audio objects
CN105593930B (zh) * 2013-07-22 2019-11-08 弗朗霍夫应用科学研究促进协会 用于增强的空间音频对象编码的装置及方法
CN105593930A (zh) * 2013-07-22 2016-05-18 弗朗霍夫应用科学研究促进协会 用于增强的空间音频对象编码的装置及方法
US10701504B2 (en) 2013-07-22 2020-06-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
US10715943B2 (en) 2013-07-22 2020-07-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for efficient object metadata coding
US11227616B2 (en) 2013-07-22 2022-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for audio encoding and decoding for audio channels and audio objects
US11330386B2 (en) 2013-07-22 2022-05-10 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
US11337019B2 (en) 2013-07-22 2022-05-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for low delay object metadata coding
US11463831B2 (en) 2013-07-22 2022-10-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for efficient object metadata coding
US11910176B2 (en) 2013-07-22 2024-02-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for low delay object metadata coding
US11984131B2 (en) 2013-07-22 2024-05-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for audio encoding and decoding for audio channels and audio objects

Also Published As

Publication number Publication date
KR20100065121A (ko) 2010-06-15

Similar Documents

Publication Publication Date Title
US9311919B2 (en) Apparatus and method for coding and decoding multi-object audio signal with various channel
EP2209328B1 (en) An apparatus for processing an audio signal and method thereof
CN101553867B (zh) 用于处理音频信号的方法和装置
CN102099854B (zh) 处理音频信号的方法和装置
CN102100009B (zh) 处理音频信号的方法和装置
CN101248483A (zh) 多声道音频信号的生成
CN102165520B (zh) 处理信号的方法和装置
US9502043B2 (en) Method and an apparatus for processing an audio signal
CN102334158A (zh) 用于把下混音频信号向上混合的向上混合器、方法与计算机程序
CN102239520A (zh) 用于处理音频信号的方法和装置
CN102007532A (zh) 用于处理音频信号的方法和装置
CN102696070A (zh) 处理音频信号的设备及其方法
CN104756186A (zh) 用于使用多声道下混合/上混合情况的参数化概念的多实例空间音频对象编码的解码器及方法
CN102007533B (zh) 用于处理音频信号的方法和装置
CN102292768B (zh) 用于处理音频信号的装置及其方法
Jing et al. A novel multichannel audio signal compression method based on tensor representation and decomposition
CN101361114A (zh) 用于处理媒体信号的装置及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20111109