CN101213592B - 用于参量多声道解码的设备和方法 - Google Patents

用于参量多声道解码的设备和方法 Download PDF

Info

Publication number
CN101213592B
CN101213592B CN2006800243543A CN200680024354A CN101213592B CN 101213592 B CN101213592 B CN 101213592B CN 2006800243543 A CN2006800243543 A CN 2006800243543A CN 200680024354 A CN200680024354 A CN 200680024354A CN 101213592 B CN101213592 B CN 101213592B
Authority
CN
China
Prior art keywords
parameter
additional components
output channels
sound
produce
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2006800243543A
Other languages
English (en)
Other versions
CN101213592A (zh
Inventor
M·什切尔巴
A·J·赫里茨
M·克莱因·米德林克
D·E·M·泰尔桑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN101213592A publication Critical patent/CN101213592A/zh
Application granted granted Critical
Publication of CN101213592B publication Critical patent/CN101213592B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/08Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform
    • G10H7/10Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform using coefficients or parameters stored in a memory, e.g. Fourier coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/08Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by combining tones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/295Spatial effects, musical uses of multiple audio channels, e.g. stereo
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

声音解码设备(1)对声音进行解码,声音用多组参数来表示,每组参数包括正弦参数(SP)和其它参数(NP,TP),正弦参数(SP)表示声音的正弦分量,其它参数(NP,TP)表示声音的其它分量,如噪声和/或瞬态量。该设备包括分别对应于各输出声道(L,R)的正弦产生器单元(17,18),而其它分量产生器(20;21)则由这些声道共享。

Description

用于参量多声道解码的设备和方法
发明领域
本发明涉及参量多声道解码器,比如立体声解码器。更具体的说,本发明涉及用于合成声音的一种设备和方法,该声音由多组参数表示,每组参数包括正弦参数和其它参数,其中,正弦参数表示声音的正弦分量,而其它参数表示声音的其它分量。
背景技术
用多组参数表示声音是众所周知的方法。所谓的参量编码(Parametric Coding)技术用于对声音进行高效的编码,用一系列参数来表示声音。适当的解码器能够利用这些参数大致地重新构造出原始声音。可以将这一系列参数划分成多组,每组对应于一个单独的声源(声道),如一个(人)扬声器或一件乐器。
最常见的MIDI(乐器数字接口)协议允许由乐器的多组指令来表示音乐。将每个指令分配给一个特定的乐器。每个乐器可以使用一个或多个声道(在MIDI中称作“声音”)。可以同时使用的声道数量称作复调数量或者复调。MIDI指令可以高效地传输和/或存储。
合成器通常包含声音定义数据,例如声音带或音色数据。在声音带中,将乐器的声音抽样作为声音数据存储,而音色数据则定义了声音产生器的控制参数。
MIDI指令使得合成器能够从声音带得到声音数据,并且合成出该数据所表示的声音。这些声音数据可以是实际的声音抽样,也就是数字化的声音(波形),如在通常的波表合成的情况下。但是,声音抽样通常需要大量的存储空间,这在相对较小的设备,尤其是手持用户设备(如移动蜂窝电话)中是不可行的。
作为替代,可以用参数表示声音抽样,该参数可以包括幅度、频率、相位和/或包络形状参数,并且可以使该声音抽样得以重新构造。 与存储实际的声音抽样相比,存储声音抽样的这些参数通常需要少得多的存储空间。但是,声音的合成可能会是相当繁重的任务。尤其是在表示不同声道(在MIDI中是“声音”)的多组参数需要同时合成(复调等级较高)的情况下。该繁重的负担通常随着需要合成的声道(“声音”)的数量(也就是复调的等级)的增长而呈线性增长。这使得很难在手持设备中采用这种技术。
2004年5月在柏林(德国)出版的6073号Audio EngineeringSociety Convention Paper中,由E.Schuijers、J.Breebaart、H.Pumhagen和J.Engdegard发表的论文“Low Complexity Parametric Stereo Coding”中提出了一种参量音频解码器(图8)。将音频信号分解为由参数分别表示的瞬态量、正弦分量和噪声分量。该音频信号的参数表示可以存储在声音带中。参量解码器(或合成器)利用这一参数表示来重新构造原始的音频输入。
在现有技术的参量编码器中,对正弦量、瞬态量和噪声进行定向处理:立体声参数用于从一个单独的声道构造两条输出声道(立体声***中的左声道和右声道)。这一定向处理是在变换域中执行的,如频域或QMF(正交镜像滤波器)域,这样就可以大大提高定向处理的效率。但是,为了在变换域执行正弦量、瞬态量和噪声的定向处理,需要在变换域中合成这些声音分量。已经发现这会严重增大声音合成的复杂度。
本发明的发明者已经意识到:在频域或QMF域合成声音所付出的计算成本是由于在变换域中合成瞬态量和噪声效率很低造成的,并且这会严重增大声音合成的复杂度。
发明内容
本发明的一个目的就是克服当前技术的这些及其它问题,并且提供一种设备用于产生由多组参数表示的声音,使得声音的合成大大简化。
因此,本发明提供一种设备用于产生由多组参数表示的声音,每 组参数包括正弦参数和附加参数,其中,正弦参数表示声音的正弦分量,其它参数表示声音的其它分量,该设备包括:
第一正弦分量产生单元,响应于所述正弦参数,仅产生第一输出声道的正弦分量,
第二正弦分量产生单元,响应于所述正弦参数,仅产生第二输出声道的正弦分量,
至少一个附加分量产生单元,响应于所述附加参数,产生所述第一输出声道和第二输出声道的公共附加分量,以及
第一组合单元和第二组合单元,它们分别响应于把该公共附加分量与第一输出声道和第二输出声道的正弦分量组合起来,而产生所述第一输出声道和所述第二输出声道,
其中,所述公共附加分量是瞬态分量和噪声分量中的至少之一。
通过向每个输出声道提供不同的正弦分量产生单元,但提供一个共享的附加分量产生单元,可以减少产生单元的数量,因此就可以降低设备的复杂度。在本发明的设备中,针对每个声道分别产生正弦分量,但是该附加分量,如噪声分量和/或瞬态量,由这些输出声道共用的一个产生单元产生。因此,相比于当前技术中的设备,本发明的设备至少可以减少一个产生单元。
本发明所依据的洞察点是:正弦声音分量包含最多的方向信息,或者至少是最详细的方向信息,而在特定的噪声分量中包含非常少的方向信息,或者说是非常粗糙的方向信息。这使得同一噪声分量可以用于两条(或所有)声道。在适当的组合单元中将这些共享噪声分量(通常而言:附加分量)与信道特定的正弦分量组合起来,以产生的输出声道既包含指示特定声道的正弦分量,还包含一般的噪声分量。
在优选实施例中,本发明的设备还包括:
两个附加分量产生单元,分别产生第一类型附加分量和第二类型附加分量,其中,第一类型不同于第二类型,以及,
至少一个其它组合单元,将该两个附加分量产生单元所产生的附加分量组合起来。
通过向附加分量提供两个产生单元,可以向输出声道共同提供噪 声和瞬态量(和/或其它附加分量)。这样,就可以避免双份的(或多份的)噪声产生单元和瞬态量产生单元。因此,在这个实施例中,最好是让第一附加分量产生单元产生瞬态量,让第二附加分量产生单元产生噪声分量。
优选情况下,该设备还包括第一和第二加权单元分别用于对所述第一输出声道和所述第二输出声道的公共附加分量进行加权。这使得共同附加分量的等级在每个输出声道都是可变的,因此产生更真实的声音。
在特别有利的实施例中,该正弦分量产生单元是变换域产生单元,而该附加分量产生单元是时域产生单元。因此,在这个实施例中,在变换域(如,频域)只合成正弦分量,可以非常高效地进行该合成。附加分量,如噪声分量和瞬态量分量,在时域合成,因此可以避免在变换域低地合成这些分量。这样就能大大降低复杂度。
优选情况下,这一特别有利的实施例还包括:变换单元,用于将正弦参数变换到变换域;方向控制单元,用于将方向信息添加到变换后的正弦参数,以产生所述第一输出声道和第二输出声道。这一优选实施例特别适合用作参量解码器。
在另一个有利的实施例中,该产生单元用于接收多组参数,这多组参数与不同的输入声道相关联。这一实施例特别适合用作合成器,比如MIDI合成器。
虽然上面只是参照两个输出声道的情况对本发明进行了讨论,但本发明并不仅限于此。更具体的说,本发明的设备可以用于产生至少三个输出声道,优选为产生六个输出声道。需要理解的是,六个输出声道可以用于所谓的5.1声音***中,该***包括五个常规声音输出声道(左前、左后、右前、右后和中间),再加上一个子低音扩音器用于产生低音。当本发明的设备用于三个或更多个输出声道时,它有至少三个正弦分量产生单元,以及少于三个的附加分量产生单元。更优选的是,该设备还针对每个附加分量类型,有一个共享附加分量产生单元,所述的附加分量类型是,比如噪声或瞬态量。
如上所述,本发明的设备可以最好是MIDI合成器或参量声音解 码器,比如参量立体声或多声道解码器。
声音***最好包括如上所定义的设备。该声音***可以是包括扩音器和喇叭或类似的转换器的用户声音***。其它声音***可以包括乐器、电话设备(如移动蜂窝电话)、便携式音频播放器(如MP3和AAC播放器)、计算机声音***等等。
本发明还提供一种方法用于产生由多组参数所表示的声音,每组参数包括正弦参数和附加参数,其中正弦参数表示声音的正弦分量,附加参数表示声音的附加分量,该方法包括的步骤有:
响应于所述正弦参数,只产生第一输出声道的正弦分量,
响应于所述正弦参数,只产生第二输出声道的正弦分量,
响应于所述附加参数,产生该第一输出声道和第二输出声道的公共附加分量,以及
响应于分别将该公共附加分量与该第一输出声道的正弦分量和第二输出声道的正弦分量组合起来,而产生所述第一输出声道(L)和所述第二输出声道(R),其中,所述公共附加分量是瞬态分量和噪声分量中的至少之一。
这种方法具有与如上所定义的设备相同的优点,其中,第一声道的正弦声音分量、第二声道的正弦声音分量和这两个声道的附加声音分量是在不同的步骤中处理的。
本发明的方法最好还可以包括附加步骤:
产生第一类型附加分量和第二类型附加分量,其中第一类型不同于第二类型,以及
将这两种类型的附加分量组合起来。
在一个典型的实施例中,该第一类型附加分量包括瞬态量,而该第二类型附加分量包括噪声。
该方法还可以包括一个步骤:分别对所述第一输出声道(L)和所述第二输出声道(R)的公共附加分量进行加权,最好是在将这些附加分量与各(输出)声道进行组合之前进行。
在依照本发明的方法的特别有利的实施例中,正弦分量在变换域产生,而附加分量在时域产生。这大大降低了本发明方法的复杂度和
本发明的方法还可以包括步骤:将正弦参数变换到变换域,以及将方向信息添加到变换后的正弦参数,以产生第一输出声道和第二输出声道。通过添加方向信息,如立体声信息,可以从正弦参数的一个声源构造出两条或更多条输出声道。通过添加方向信息以及在变换域处理该方向信息,可以高效地生成各个输出声道。
此外,本发明还提供一种计算机程序产品用于执行上述定义的方法。该计算机程序产品可以包括一组存储在数据载体(如CD或DVD)上的计算机可执行指令。该组计算机可执行指令使得可编程计算机能够执行上面所定义的方法,也可以从远程服务器下载,比如通过互联网。
附图说明
以下将参照附图中所解释的示例实施例对本发明作进一步解释,其中:
图1示出了依照当前技术的参量立体声解码器;
图2示出了依照本发明的参量立体声解码器;
图3示出了依照当前技术的参量立体声合成器;
图4示出了依照本发明的参量立体声合成器。
具体实施方式
图1以举例形式所示出的依照当前技术的立体声参量解码器1’,包括正弦量信源11、瞬态量信源12和噪声源13、组合单元14、QMF分析(QMFA)单元15、参量立体声(PS)单元16、第一QMF合成(QMFS)单元17和第二QMF合成(QMFS)单元18。
该正弦量信源11、瞬态量信源12和噪声源13分别产生正弦参数(SP)、瞬态参数(TP)和噪声参数(NP),并且将这些参数馈入组合单元(加法器)14。这些参数可以是已经存储在信源11、12和13中的,或者通过这些信源来提供的,比如来自多路信号分离器。
组合单元14将组合后的参数馈入QMF分析(QMFA)单元15。 这一QMF分析单元15将参数从时域变换到QMF(正交镜像过滤器)域,也就是等同于频域。该QMF分析单元15可以包括一个或多个QMF滤波器,但是也可以由一个滤波器组和一个或多个FFT(快速傅立叶变换)单元组成。然后由参量立体声(PS)单元16来处理刚得到的QMF域(或频域)参数,该参量立体声(PS)单元16还接收包含有立体声信息的参量立体声信号PSS。利用该立体声信息,参量立体声单元产生一组左(QMF域)参数和一组右(QMF域)参数,将它们馈入左QMF合成(QMFS)单元17和右QMF合成(QMFS)单元18。该QMF合成单元17和18将这些组QMF域参数变换到时域,这样就分别产生左信号L和右信号R。
虽然图1的方案1’可以很好地工作,但它牵涉很大的计算量。尤其是在QMF(频)域的合成非常复杂,因此效率很低。因此,这一合成所需要的电路非常昂贵,但处理速度还是相对较慢。
本发明的发明者已经意识到,在频域或QMF域合成声音所牵涉的计算量,是由于瞬态量和噪声非常难以高效合成所造成的。相比而言,在频域或QMF域合成正弦分量可以高效进行。由于在参量解码器中,正弦参数以及瞬态参数和噪声参数中的至少一个是可用的,所以可以根据参数类型进行分别合成。因此,在本发明的解码器中,正弦分量是在频域或其等同体(如,QMF)中合成的,而其它分量是在其它域合成的,最好是在时域。图2举例说明了依照本发明的解码器的一个优选实施例。
仅仅通过图2中非限制性的例子举例说明的依照本发明的参量立体声解码器1,也包括正弦量信源11、瞬态量信源12和噪声源13。解码器1还包括参量立体声(PS)单元16、第一QMF合成(QMFS)单元17和第二QMF合成(QMFS)单元18、QMF分析(QMFA)单元19、第一时域合成(TDS)单元20、第二时域合成(TDS)单元21、增益计算(GC)单元22、第一乘法单元23、第一组合单元24、第二乘法单元25、第二组合单元26和第三组合单元27。
正弦量信源11、瞬态量信源12和噪声源13分别产生正弦参数(SP)、瞬态参数(TP)和噪声参数(NP)。这些参数可以是已经存 储在信源11、12和13中的,或者通过这些信源来提供,比如从多路信号分离器。
依照本发明,只将正弦参数(SP)馈入QMF分析(QMFA)单元19。该QMF分析单元19,与图1中的QMFA单元15基本上相对应,将这些参数从时域变换到QMF(正交镜像过滤器)域,该QMF域基本等价于频域。该QMF分析单元19可以包括一个或多个已知的QMF滤波器,但是也可以由已知的一个滤波器组和一个或多个FFT(快速傅立叶变换)单元来组成。然后,由参量立体声(PS)单元16处理刚得到的QMF域(或频域)参数,该参量立体声(PS)单元16还接收包含立体声信息的参量立体声信号PSS。利用该立体声信息,参量立体声单元16产生一组左(QMF域)参数和一组右(QMF域)参数,分别将这两组参数馈入左QMF合成(QMFS)单元17和右QMF合成(QMFS)单元18。QMF合成单元17和18将这些组QMF域参数变换到时域,然后将这些变换后的参数分别馈入第一组合单元24和第二组合单元26。在所示的实施例中,组合单元24和26由加法器组成,但是本发明并不仅限于此,也可以预料到其它组合单元,包括加权单元。
在本发明的解码器中,只将正弦参数(SP)馈入QMF分析单元(图2中的19)。依照本发明,瞬态参数(TP)和/或噪声参数(NP)不馈入QMF分析单元,而是分别馈入时域合成单元20和21。这样,瞬态量和噪声就是在时域而不是在QMF域(通常而言:变换域)进行合成,这大大简化了合成处理。时域合成(TDS)单元20和21的技术结构可以是已知的,并且比如在,2003年3月阿姆斯特丹(荷兰)出版的5852号Audio Engineering Society Convention Paper中,由W.Oomen、E.Schuijers、B.den Brinker和J.Breebaart发表的论文“Advances in Parametric Coding for High-Quality Audio”中描述的,该论文的全部内容已合并进本申请中。
在第三组合单元27中对合成后的噪声和瞬态量进行组合,该实施例中所示的该第三组合单元27也是由加法器组成的。然后,将组合后的噪声和瞬态量信号馈入第一乘法器23和第二乘法器25,以便 与增益控制单元22产生的依赖于声道的增益信号相乘。该增益控制(GC)单元22接收参量立体声信号PSS,并且从该信号中得到适当的增益控制信号。然后,由组合单元24和26将该增益调整的瞬态量和噪声信号与QMF合成单元17和18输出的信号进行组合,以分别产生左输出信号L和右输出信号R。
如上所述,在频域或QMF域分析及合成噪声和/或瞬态量通常效率很低并且很复杂。在本发明的解码器中,通过只在QMF域(或频域)合成正弦分量,而在时域合成瞬态量和噪声,来解决这个问题。为了进一步简化该解码器,并不是针对每个声道单独进行瞬态量和噪声的合成,而是由所有声道所共享的合成单元(图2中的20和21)来进行。通过增益计算单元22和乘法器23和25(它们决定基于声道的增益)将依赖于声道的信息附加到公共瞬态量和噪声上。
在图2的实施例中需要注意到的是,瞬态量和噪声是在它们的依赖于声道的增益调整之前进行组合的(在加法器27中)。这样,就可以把瞬态量和噪声的增益一起控制,因此其独立于信号类型(瞬态量或噪声)。可以假设这样的实施例,其中,合成后的瞬态量和噪声直到它们各自的增益已经调整之后才组合起来。在这样的实施例中,与增益控制(GC)单元22相连的乘法器可以设置在时域合成单元20和组合单元27之间以及时域合成单元21和组合单元27之间。
需要注意到,瞬态量信源12或者噪声源13可以省略掉,在这种情况下,第三组合单元27也可以省略掉。在一个典型的实施例中,至少要有正弦量信源11和噪声源13,瞬态量信源12是可选的。虽然已经在图2中示出了立体声(两个声道)解码器,但本发明并不仅限于此,并且可以依照本发明提供有三个或更多个声道的多声道解码器,对于本领域的技术人员来说,任何必要的改变都是显而易见的。因此,本发明还提供比如5.1解码器。
本发明的解码器1通常在每个时隙都工作,每个时间分段(时隙或帧)都进行分析及合成操作,其中所述帧可以部分地重叠。
除了解码器之外,本发明还提供合成器用于合成声音,比如利用来自MIDI流或MIDI文件的控制数据。图3示出了依照当前技术的 一种声音合成器。
依照当前技术的声音合成器2’用于再现两个“声音”或声音输入声道V1和V2,每个声音由一个参数信源组成。这种类型的合成器,比如在2004年5月在柏林(德国)出版的6063号Audio EngineeringSociety Convention Paper中,由M.Szczerba、W.Oomen和M.KleinMiddelink发表的论文“Parametric Audio Coding Based WavetableSynthesis”中有所描述。
第一参数源81(声音V1)包括瞬态量信源31、正弦量信源32和噪声源33,用于分别产生瞬态参数(TP)、正弦参数(SP)和噪声参数(NP),以及一个可选的声相(Panning)信源34用于产生声相参数(PP)。类似的,第二参数信源82(声音V2)包括瞬态量信源35、正弦量信源36和噪声源37用于分别产生瞬态参数(TP)、正弦参数(SP)和噪声参数(PP),以及一个(可选的)声相信源38用于产生声相参数(PP)。
声音合成器2’还包括第一生成器模块47和第二生成器模块48,其中,第一生成器模块47包括第一瞬态量生成器(TG)51、第一正弦量生成器(SG)52和第一噪声生成器(TG)53,第二生成器模块48包括第二瞬态量生成器(TG)54、第二正弦量生成器(SG)55和第二噪声生成器(NG)56。该第一生成器模块47产生的声音信号由第一组合单元61组合到第一(左)声音输出声道L中,而第二生成器块48产生的声音信号由第二组合单元62组合到第二(右)声音输出声道R中。
需要注意到的是,每个声音输出声道L和R包含来自两个声音输入声道(或者“声音”)V1和V2。还需要注意到的是,图3中所示的声音输入声道和声音输出声道的数量只是示例性的,并且可以有多于两个声音输入声道和/或多于两个声音输出声道。
由一系列加权单元39-44将这些声音参数分配给生成器。第一加权单元39,举个例子,与第一瞬态参数源31相连接,并且与第一和第二瞬态量生成器51和54相连接,以便将第一声音V1的这些瞬态参数分配到两个声道L和R。该第一加权单元39可以采用预定的加 权因数,比如0.5和0.5,或者0.4和0.6,但是也可以由声相参数(PP)来控制,该参数由第一声音V1的(可选的)声相单元34产生。这样,所有参数都得以分配到所有生成器。
应当理解的是,图3中的合成器2’相对比较复杂,并且当添加更多声音输入声道和/或声音输出声道时,它的复杂度会大大增加。对于所谓的5.1声音***来说,需要六个生成器模块,共计18个生成器。显然这并不是理想的。
图4中通过非限制性的示例的形式,示出了依照本发明的合成器。本发明的合成器2也包括第一参数信源81和第二参数信源82。该第一参数信源81(声音V1)包括瞬态量信源31、正弦量信源32和噪声源33用于分别产生瞬态参数(TP)、正弦参数(SP)和噪声参数(PP),以及一个可选的声相信源34用于产生声相参数(PP)。类似的,第二参数信源82(声音V2)包括瞬态量信源35、正弦量信源36和噪声源37分别用于产生瞬态参数(TP)、正弦参数(SP)和噪声参数(NP),以及一个(可选的)声相信源38用于产生声相参数(PP)。
但是,与当前技术中的合成器2’相比,图4中所示的本发明的合成器2没有多个生成器模块(图3中的47和48)。取而代之的,合成器2有两个正弦生成器(SG)52和55,每个对应于一个输出声音声道,如图3中,但是只有一个单独的噪声生成器(NG)58和单独的瞬态量生成器(TG)59。将来自瞬态量信源31和35的瞬态参数(TP)馈入该单独的瞬态量生成器(TG)59,该生成器产生针对两条声道的瞬态量信号。类似地,将来自噪声源33和37的噪声参数馈入单独的噪声生成器(NG)58,该生成器产生针对两条声道的噪声信号。对于每个声道,另外的组合单元63和65分别用于组合该声道的噪声信号和瞬态量信号。然后,由等级调整单元64和66分别调整每个信道的声音等级,所述调整单元64和66分别连接在组合单元63和61之间以及组合单元65和62之间。该等级调整单元64和66可以从声相控制(PC)单元57接收加权信号,或者用于施加固定的、预定的加权因数。
该(单独的、可选的)声相控制(PC)单元57从声相单元34和38接收声音V1和V2的声相参数(PP)。该单元57将这些声相参数转换成适当的声相控制信号,而这些信号馈入等级调整(或加权)单元64和66,并馈入正弦生成器52和55以便控制输出声音等级,从而确定输出声音的方向。
比较图3和图4时,图4中的合成器2明显比图3中当前技术的合成器2’要简单。此外,本发明的合成器2可以简便地进行改变以包括更多的输入声音声道和/或输出声音声道,而不会增加该合成器的复杂度。由于噪声生成器(NG)和瞬态量生成器(TG)是在输出声道之间共享的,因此它们的数量不会增加。只有正弦生成器的数量必需增加,再加上每个输出声道相关联的组合和加权单元。
应该注意到的是,该声相参数(PP)单元34和38、声相控制单元57和等级调整单元64和66是可选的,并且本发明也可以在没有这些单元的情况下实现。但是,本发明的优选实施例中将有这些单元。
还应该注意到的是,参数信源31-38可以是合成器2外部的。换句话说,可以预料到,依照本发明的实施例的合成器有输入端子用于接收瞬态参数、正弦参数、噪声参数和/或声相参数,然后,这些输入端子组成信源31-38。在一些实施例中,可以省略瞬态参数及合成器的相关联的分量,该合成器只用于产生噪声和正弦量。在其它实施例中,可以提供多个瞬态量生成器,而只在输出声道之间共享一个噪声生成器。
为了改进声音定位同时在输出声道之间共享生成器,可以采用后处理单元,比如滤波器和延迟线。这样,可以实现改进的定向处理(声相)。这在产生3D(三维)声音时尤其有优势,其中,定位是通过滤波(通常采用HRTF-头相关传输函数-本领域众所周知的)和映射到有限数量的声道上完成的。
也可以实行其它后处理操作,比如,增加混响和合声效果。通过向合成的声音信号的正弦分量只应用混响,可以大大降低合成器的复杂度,但是几乎不会感觉到混响效果的降低。
如上所述,本发明的合成器并不仅限于立体声应用,而是还可以 用于具有三个或更多个声道的多声道应用,比如5.1声音***。这些参数的处理更适宜每个时间段执行一次,其中,每个参数定义一个特定时间段(如,帧)的信号类型(噪声、瞬态量或正弦量)。
本发明基于的洞察点是,只有正弦分量可以在谱域中高效地合成。本发明还基于的洞察点是,人耳对于瞬态量和噪声信号分量的方向的敏感度要小于对正弦信号分量的方向的敏感度。应该注意到的是,本申请中所用到的任何术语都不应解释成限制本发明的保护范围。具体而言,术语“包括”并不是指排除掉任何没有具体说明的单元。专用(电路)单元可以由通用(电路)单元或者其它等同物来取代。
对于本领域的技术人员,应该理解的是,本发明并不限于本申请给出和描述的说明性实施例,在不偏离所附权利要求的保护范围的前提下,可以做出各种修改。

Claims (17)

1.一种用于产生声音的设备(1,2),所述声音用多组参数来表示,每组参数包括正弦参数(SP)和附加参数(NP,TP),所述正弦参数(SP)表示所述声音的正弦分量,所述附加参数(NP,TP)表示所述声音的附加分量,所述设备包括:
第一正弦分量产生单元(17;52),响应于所述正弦参数,仅产生第一输出声道(L)的正弦分量;
第二正弦分量产生单元(18;55),响应于所述正弦参数,仅产生第二输出声道(R)的正弦分量;
至少一个附加分量产生单元(20,21;58,59),响应于所述附加参数,产生所述第一输出声道(L)和所述第二输出声道(R)的公共附加分量;
第一组合单元(24;62)和第二组合单元(26;62),它们分别响应于把所述公共附加分量同所述第一输出声道(L)和所述第二输出声道(R)的正弦分量组合起来,而产生所述第一输出声道和所述第二输出声道,
其中,所述公共附加分量是瞬态分量和噪声分量中的至少之一。
2.权利要求1的设备,包括:
两个附加分量产生单元(20,21;58,59),分别产生第一类型的附加分量和第二类型的附加分量,所述第一类型不同于所述第二类型;
至少一个其它组合单元(27;63,65),把这两个附加分量产生单元所产生的附加分量组合起来。
3.权利要求2的设备,其中,第一附加分量产生单元(20;59)产生瞬态量,第二附加分量产生单元(21;58)产生噪声。
4.权利要求1的设备,还包括:
第一和第二加权单元(23,25;64,66),分别对所述第一输出声道(L)和所述第二输出声道(R)的所述公共附加分量进行加权。
5.权利要求1的设备,
其中,所述第一正弦分量产生单元和所述第二正弦分量产生单元(17,18;52,55)是变换域产生单元,
其中,所述附加分量产生单元(20,21)是时域产生单元。
6.权利要求5的设备,还包括:
变换单元(19),把正弦参数(SP)变换到变换域;
方向控制单元(16),向变换后的正弦参数中添加方向信息(PSS),从而产生所述第一输出声道(L)和所述第二输出声道(R)。
7.权利要求1的设备,其中,所述第一正弦分量产生单元、所述第二正弦分量产生单元和所述附加分量产生单元(52,55,58,59)接收多组参数,所述多组参数与不同的输入声道(V1,V2)相关联。
8.权利要求1的设备,产生至少三个输出声道。
9.权利要求1的设备,它是MIDI合成器。
10.权利要求1的设备,它是参量声音解码器。
11.一种声音***,包括权利要求1的设备(1,2)。
12.一种用于产生声音的方法,所述声音用多组参数来表示,每组参数包括正弦参数(SP)和附加参数(NP,TP),所述正弦参数(SP)表示所述声音的正弦分量,所述附加参数(NP,TP)表示所述声音的附加分量,所述方法包括下列步骤:
响应于所述正弦参数,仅产生第一输出声道(L)的正弦分量;
响应于所述正弦参数,仅产生第二输出声道(R)的正弦分量;
响应于所述附加参数,产生所述第一输出声道(L)和所述第二输出声道(R)的公共附加分量;
分别响应于把所述公共附加分量同所述第一输出声道(L)和所述第二输出声道(R)的正弦分量组合起来,而产生所述第一输出声道(L)和所述第二输出声道(R),
其中,所述公共附加分量是瞬态分量和噪声分量中的至少之一。
13.权利要求12的方法,包括下列附加步骤:
分别产生第一类型的附加分量和第二类型的附加分量,所述第一类型不同于所述第二类型;
把这两种类型的附加分量组合起来。
14.权利要求13的方法,其中,所述第一类型的附加分量包括瞬态量,所述第二类型的附加分量包括噪声。
15.权利要求12的方法,还包括下列步骤:
分别对所述第一输出声道(L)和所述第二输出声道(R)的所述公共附加分量进行加权。
16.权利要求12的方法,
其中,所述正弦分量是在变换域中产生的,
其中,所述附加分量是在时域中产生的。
17.权利要求16的方法,还包括下列步骤:
把正弦参数(SP)变换到变换域;
向变换后的正弦参数中添加方向信息(PSS),从而产生所述第一输出声道(L)和所述第二输出声道(R)。
CN2006800243543A 2005-07-06 2006-07-03 用于参量多声道解码的设备和方法 Expired - Fee Related CN101213592B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP05106138.0 2005-07-06
EP05106138 2005-07-06
PCT/IB2006/052221 WO2007004186A2 (en) 2005-07-06 2006-07-03 Parametric multi-channel decoding

Publications (2)

Publication Number Publication Date
CN101213592A CN101213592A (zh) 2008-07-02
CN101213592B true CN101213592B (zh) 2011-10-19

Family

ID=37491814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800243543A Expired - Fee Related CN101213592B (zh) 2005-07-06 2006-07-03 用于参量多声道解码的设备和方法

Country Status (6)

Country Link
US (1) US20080212784A1 (zh)
EP (1) EP1905008A2 (zh)
JP (1) JP2009500669A (zh)
CN (1) CN101213592B (zh)
RU (1) RU2433489C2 (zh)
WO (1) WO2007004186A2 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2118887A1 (en) * 2007-02-06 2009-11-18 Koninklijke Philips Electronics N.V. Low complexity parametric stereo decoder
KR20080073925A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치
US9111525B1 (en) * 2008-02-14 2015-08-18 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Apparatuses, methods and systems for audio processing and transmission
TWI516138B (zh) 2010-08-24 2016-01-01 杜比國際公司 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0563929A2 (en) * 1992-04-03 1993-10-06 Yamaha Corporation Sound-image position control apparatus
CN1320257A (zh) * 1999-06-18 2001-10-31 皇家菲利浦电子有限公司 带有改进的编码器的音频传输***
EP1385150A1 (en) * 2002-07-24 2004-01-28 STMicroelectronics Asia Pacific Pte Ltd. Method and system for parametric characterization of transient audio signals

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2945724B2 (ja) * 1990-07-19 1999-09-06 松下電器産業株式会社 音場補正装置
JP3395809B2 (ja) * 1994-10-18 2003-04-14 日本電信電話株式会社 音像定位処理装置
KR20040080003A (ko) * 2002-02-18 2004-09-16 코닌클리케 필립스 일렉트로닉스 엔.브이. 파라메트릭 오디오 코딩
ES2323294T3 (es) * 2002-04-22 2009-07-10 Koninklijke Philips Electronics N.V. Dispositivo de decodificacion con una unidad de decorrelacion.
CN1748247B (zh) * 2003-02-11 2011-06-15 皇家飞利浦电子股份有限公司 音频编码
BRPI0409327B1 (pt) * 2003-04-17 2018-02-14 Koninklijke Philips N.V. Dispositivo para gerar um sinal de áudio de saída com base em um sinal de aúdio de entrada, método para prover um sinal de áudio de saída com base em um sinal de áudio de entrada e aparelho para fornecer um sinal de áudio de saída
CN1886783A (zh) * 2003-12-01 2006-12-27 皇家飞利浦电子股份有限公司 音频编码
US20080260048A1 (en) * 2004-02-16 2008-10-23 Koninklijke Philips Electronics, N.V. Transcoder and Method of Transcoding Therefore
ATE378676T1 (de) * 2004-06-08 2007-11-15 Koninkl Philips Electronics Nv Audiokodierung

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0563929A2 (en) * 1992-04-03 1993-10-06 Yamaha Corporation Sound-image position control apparatus
CN1320257A (zh) * 1999-06-18 2001-10-31 皇家菲利浦电子有限公司 带有改进的编码器的音频传输***
EP1385150A1 (en) * 2002-07-24 2004-01-28 STMicroelectronics Asia Pacific Pte Ltd. Method and system for parametric characterization of transient audio signals

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HERRE J ET AL.THE REFERENCE MODEL ARCHITECTURE FOR MPEG SPATIAL AUDIO CODING.《AUDIO ENGINEERING SOCIETY CONVENTION PAPER》.2005,全文. *
SCHUIJERS E ET AL.ADVANCES IN PARAMETRIC CODING FOR HIGH-QUALITY AUDIO.《PREPRINTS OF PAPERS PRESENTED AT THE AES CONVENTION》.2003,全文. *
SCHUIJERS E ET AL.LOW COMPLEXITY PARAMETRIC STEREO CODING.《PREPRINTS OF PAPERS PRESENTED AT THE AES CONVENTION》.2004,第6073卷全文. *

Also Published As

Publication number Publication date
EP1905008A2 (en) 2008-04-02
WO2007004186A2 (en) 2007-01-11
JP2009500669A (ja) 2009-01-08
WO2007004186A3 (en) 2007-05-03
CN101213592A (zh) 2008-07-02
RU2008104402A (ru) 2009-08-20
RU2433489C2 (ru) 2011-11-10
US20080212784A1 (en) 2008-09-04

Similar Documents

Publication Publication Date Title
CN105519139B (zh) 音频信号处理方法、信号处理单元、双耳渲染器、音频编码器和音频解码器
CN101263741B (zh) 产生和处理表示hrtf的参数的方法和设备
CN101253806B (zh) 用于编码和解码音频信号的装置及其方法
CN105766002B (zh) 用于对区域的声场数据进行压缩和解压缩的方法和装置
CN101529501B (zh) 音频对象编码器和音频对象编码方法
CN101542597B (zh) 用于编码和解码基于对象的音频信号的方法和装置
CN1747608B (zh) 音频信号处理装置和方法
CN102667918B (zh) 用于使音频信号混响的混响器和方法
CN101116136B (zh) 声音合成的装置和方法
CN108600935A (zh) 音频信号处理方法和设备
CN101390443A (zh) 音频编码和解码
CN105190747A (zh) 用于空间音频对象编码中时间/频率分辨率的反向兼容动态适应的编码器、解码器及方法
CN101116135B (zh) 声音合成
CN101213592B (zh) 用于参量多声道解码的设备和方法
CN111724757A (zh) 一种音频数据处理方法及相关产品
CN105051811A (zh) 声音处理装置
Schnell et al. X-Micks–Interactive Content Based Real-Time Audio Processing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111019

Termination date: 20120703