TWI443647B - 用以將以物件為主之音訊信號編碼與解碼之方法與裝置 - Google Patents

用以將以物件為主之音訊信號編碼與解碼之方法與裝置 Download PDF

Info

Publication number
TWI443647B
TWI443647B TW097105208A TW97105208A TWI443647B TW I443647 B TWI443647 B TW I443647B TW 097105208 A TW097105208 A TW 097105208A TW 97105208 A TW97105208 A TW 97105208A TW I443647 B TWI443647 B TW I443647B
Authority
TW
Taiwan
Prior art keywords
information
signal
channel
signals
energy
Prior art date
Application number
TW097105208A
Other languages
English (en)
Other versions
TW200847136A (en
Inventor
Dong Soo Kim
Hee Suk Pang
Jae Hyun Lim
Sung Yong Yoon
Hyun Kook Lee
Original Assignee
Lg Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lg Electronics Inc filed Critical Lg Electronics Inc
Publication of TW200847136A publication Critical patent/TW200847136A/zh
Application granted granted Critical
Publication of TWI443647B publication Critical patent/TWI443647B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

用於將以物件為主之音訊信號編碼及解碼之方法與裝置
本發明是有關於一種音訊編碼的方法與裝置,及一種音訊解碼的方法與裝置,其中以物件為主的音訊信號可以藉由執行編碼及解碼的操作而有效地被處理。
通常,在多聲道音訊編碼和解碼技術中,會將一多聲道信號的許多聲道信號降混成較少聲道信號,將與原始聲道信號有關的輔助資訊傳送出去,以及將具有與該原始聲道信號相同聲道數目的一多聲道信號還原回來。
依據將數個音源降混成為較少音源信號並將與該些原始音源有關的輔助資訊傳送出去,以物件為主的音訊編碼及解碼技術,基本上是與多聲道音訊編碼及解碼技術相類似。然而,在以物件為主的音訊編碼及解碼技術中,物件信號是一聲道信號的基本元素(例如樂器聲音或人聲),被視為如同在多聲道音訊編碼及解碼技術中的聲道信號,因而可以被編碼。
換言之,在以物件為主的音訊編碼及解碼技術中,物件信號被視為編碼的實體。在這點上,以物件為主的音訊編碼及解碼技術與多聲道音訊編碼及解碼技術並不相同,在多聲道的音訊編碼及解碼技術中,僅根據聲道間資訊來進行多聲道音訊編碼操作,而不顧要進行編碼的聲道信號的元素數目。
本發明提供一種音訊編碼的方法與裝置,及一種音訊解碼的方法與裝置,其中音訊信號可被編碼或解碼,使得音訊信號可應用到不同的環境。
依據本發明的特點,提供一種音訊解碼的方法,該方法包含:接收已被物件編碼的第一及第二音訊信號;根據包含在該第一音訊信號中的第一物件能量資訊以及包含在該第二音訊信號中的第二物件能量資訊,產生一第三物件能量資訊;以及藉結合該第一與第二物件信號以及該第三物件能量資訊,產生一第三音訊信號。
依據本發明的另一特點,提供一種音訊解碼裝置,該裝置包含:一多工解訊器(demultiplexer),被配置來從第一音訊信號中取得第一降混信號與第一以物件為主的輔助資訊,以及從第二音訊信號中取得第二降混信號與第二以物件為主的輔助資訊;以及一多指標控制器(multi-pointer controller),被配置來藉結合包含在該第一以物件為主的輔助資訊內的第一物件能量資訊以及包含在該第二以物件為主的輔助資訊內的第二物件能量資訊,以產生第三物件能量資訊,藉結合該第一以物件為主的輔助資訊和該第二以物件為主的輔助資訊,以產生第三以物件為主的輔助資訊,以及藉結合該第一降混信號及該第二降混信號,以產生一第三降混信號,該第三以物件為主的輔助資訊包含第三物件能量資訊。
依據本發明的另一特點,提供有一種電腦可讀取的記錄媒體,在該記錄媒體上記錄有用以執行音訊解碼方法的電腦程式,該音訊解碼方法包含:接收已被物件編碼的第一及第二音訊信號;根據包含在該第一音訊信號中的第一物件能量資訊以及包含在該第二音訊信號中的第二物件能量資訊以產生第三物件能量資訊;以及藉結合該第一與第二物件信號以及該第三物件能量資訊,以產生一第三音訊信號。
以下將參考顯示出本發明示範性實施例的相關圖式對本發明進行詳細說明。
依據本發明的音訊編碼的方法與裝置以及音訊解碼的方法與裝置,可被應用於以物件為主的音訊處理操作,但本發明並不受 限於此。換言之,除了以物件為主的音訊處理操作外,該音訊編碼的方法與裝置以及該音訊解碼的方法與裝置,還可被應用於不同的信號處理操作。
圖1顯示出傳統以物件為主之編碼/解碼系統的方塊圖。一般來說,輸入到以物件為主的音訊編碼裝置的音訊信號,並非對應到一多聲道信號的數個聲道上,而是獨立的物件信號。在這點上,以物件為主的音訊解碼裝置是不同於輸入一多聲道信號的數個聲道信號的多聲道音訊解碼裝置。
舉例來說,如5.1聲道信號的左前聲道(front left channel)信號及右前聲道(front right channel)信號的數個聲道信號,可輸入到多聲道音訊信號中,但如人聲或樂器聲音(例如小提琴或鋼琴的聲音)的物件信號,對於聲道信號來說是較小的實體,可輸入到以物件為主的音訊編碼裝置。
參考圖1,以物件為主的音訊編碼/解碼系統包含一以物件為主的音訊編碼裝置以及一以物件為主的音訊解碼裝置。以物件為主的音訊編碼裝置包含一物件編碼器100,而以物件為主的音訊解碼裝置包含一物件解碼器111以及一混合器/渲染器(renderer)113。
該物件編碼器100接收N個物件信號,並產生一具有一個或更多聲道的以物件為主的降混信號,以及包含從該N個物件信號取得的一些資訊的輔助資訊,如能量差異資訊(energy difference information)、相位差異資訊(phase difference information)以及關聯資訊(correlation information)。該輔助資訊及以物件為主的降混信號被合併到一單一位元串流中,且該位元串流被傳送到該以物件為主的解碼裝置。
輔助資訊可包含一標旗(flag),指出是否執行以聲道為主的音訊編碼或以物件為主的音訊編碼,也因此,可根據輔助資訊的標旗,決定是否執行以聲道為主的音訊編碼或以物件為主的音訊編碼。輔助資訊亦可包含關於物件信號的能量資訊、分組資訊(grouping information)、靜音期資訊(silent period information)、降 混增益資訊(downmix gain information)以及延遲資訊(delay information)。
輔助資訊及以物件為主的降混信號可被合併到一單一位元串流中,且該單一位元串流可被傳送到以物件為主的音訊解碼裝置。
物件解碼器111接收來自該以物件為主的音訊編碼裝置的以物件為主的降混信號以及輔助資訊,並且根據該以物件為主的降混信號以及輔助資訊,將具有類似N個物件信號屬性的數個物件信號還原回來。物件解碼器111所產生的數個物件信號還未分配到一多聲道空間中的任何位置。因此,混合器/渲染器113會將物件解碼器111所產生的每一物件信號分配到多聲道空間中的某一預設位置,並決定該些物件信號的位階(levels),使得物件信號能藉混合器/渲染器113所決定的相對應位階,從混合器/渲染器113所指定的相對應位置被再生出來。
與物件解碼器111所產生的每一物件信號有關的控制資訊會隨時間而改變,也因此,物件解碼器111所產生的物件信號的空間位置與位階會依據該控制資訊而改變。
圖2顯示出依據本發明第一實施例之音訊解碼裝置120的方塊圖。參考圖2,該音訊解碼裝置120可藉分析控制資訊以執行自適應解碼。
參考圖2,該音訊解碼裝置120包含一物件解碼器121、一混合器/渲染器123以及一參數轉換器(parameter converter)125。該音訊解碼裝置120也可包含一多工解訊器(未顯示),該多工解訊器由位元串流輸入取得降混信號及輔助資訊,而且依據本發明之其他實施例,這將可應用於所有的音訊解碼裝置。
該物件解碼器121根據降混信號以及由參數轉換器125所提供的已修改輔助資訊產生一些物件信號。混合器/渲染器123將物件解碼器121所產生的每個物件信號,分配到多聲道空間中的某一預設位置,並依據控制資訊,決定物件解碼器121所產生的物件信號的位階。該參數轉換器125藉結合輔助資訊與控制資訊, 產生已修改輔助資訊。然後,參數轉換器125將已修改輔助資訊傳送到物件解碼器121。
該物件解碼器121可藉分析已修改輔助資訊中的控制資訊以執行自適應解碼。
例如,若該控制資訊指出一第一物件信號及一第二物件信號被分配到多聲道空間中的相同位置,並具有相同位階,則傳統音訊解碼裝置可分別對該第一及第二物件信號進行解碼,然後透過混合/渲染操作,在多聲道空間中對它們進行整理。
另一方面,該音訊解碼裝置120的物件解碼器121從已修改輔助資訊中的控制資訊得知,該第一物件信號及第二物件信號是被分配到多聲道空間中的相同位置,並具有相同位階,猶如它們是單一音源。於是,該物件解碼器121藉視它們為單一音源而對該第一及第二物件信號進行解碼,不用對它們分別進行解碼。因此,解碼的複雜性降低。此外,由於需要處理的音源數目減少,所以混合/渲染的複雜性亦降低。
當物件信號數目大於輸出聲道數目時,可有效地使用該音訊解碼裝置120,因為複數個物件信號很可能被分配到相同的空間位置。
另一方式是,當該第一物件信號及該第二物件信號被分配到多聲道空間中的相同位置但具有不同位階時,可以使用該音訊解碼裝置120。在這個情況中,音訊解碼裝置120藉將該第一及第二物件信號視為單一信號而對第一及第二物件信號進行解碼,而非分別解碼第一及第二物件信號,並傳送已解碼的第一及第二物件信號到混合器/渲染器123。更具體地,該物件解碼器121可在已修改輔助資訊中獲得與第一及第二物件信號位階之間差異有關的資訊,並根據該所獲得的資訊來解碼該第一及第二物件信號。結果,即使第一及第二物件信號具有不同的位階,第一及第二物件信號還是可以像它們是單一音源來進行解碼。
再另一方式是,物件解碼器121依據控制資訊可調整物件解 碼器121所產生的物件信號的位階。然後,該物件解碼器121可對被調整過位階的物件信號進行解碼。於是,混合器/渲染器123不需要調整物件解碼器121所提供的已解碼物件信號的位階,只要在多聲道空間中調整物件解碼器121所提供的已解碼物件信號。簡言之,由於該物件解碼器121依據該控制資訊來調整物件解碼器121所產生的物件信號的位階,混合器/渲染器123可在多聲道空間中立即調整物件解碼器121所產生的物件信號,而不需要額外的調整物件解碼器121所產生的物件信號的位階。因此,減少混合/渲染的複雜性是可能的。
依據圖2的實施例,音訊解碼裝置120的該物件解碼器透過分析控制資訊,可自適應地執行解碼操作,藉此減少解碼的複雜性以及混合/渲染的複雜性。可使用結合音訊解碼裝置120所執行的上述方法。
圖3顯示出依據本發明第二實施例之音訊解碼裝置130的方塊圖。參考圖3,該音訊解碼裝置130包含一物件解碼器131及一混合器/渲染器133。該音訊解碼裝置130的特徵是,提供輔助資訊給不只是物件解碼器131而且還給混合器/渲染器133。
該音訊解碼裝置130可有效地執行解碼操作,甚至是有一物件信號對應到靜音期。例如,第二至第四物件信號可對應於彈奏某一樂器的音樂放音期(music play period),而且一第一物件信號可對應於只播放背景音樂的啞音期(rnute period),以及一第一物件信號可對應於播放伴奏的靜音期。在這個情況中,指出複數個物件信號中那個物件信號對應於靜音期的資訊可包含於輔助資訊中,而且該輔助資訊可提供給混合器/渲染器133以及物件解碼器131。
該物件解碼器131可藉不解碼對應於靜音期的物件信號而將解碼的複雜性降至最低。該物件解碼器131設定對應於數值為0的物件信號,並傳送該物件信號的位階至混合器/渲染器133。一般而言,具有數值為0的物件信號是被當作與具有非0數值的物件信號一樣,因此受制於混合/渲染操作。
另一方面,該音訊解碼裝置130將包含指出複數個物件信號中那一物件信號是對應於靜音期之資訊的輔助資訊傳送至混合器/渲染器133,並因此可防止對應於靜音期的物件信號受制於由混合器/渲染器133所執行的混合/渲染的操作。因此,該音訊解碼裝置130可防止混合/渲染的複雜性有不必要的增加。
圖4顯示出依據本發明第三實施例的音訊解碼裝置140的方塊圖。參考圖4,該音訊解碼裝置140使用一多聲道解碼器141,而非一物件解碼器與一混合器/渲染器,並且在多聲道空間中將一些物件信號適當整理過後,才來解碼該等物件信號。
更具體地,該音訊解碼裝置140包含該多聲道解碼器141及一參數轉換器145。該多聲道解碼器141產生一多聲道信號,該多聲道信號的物件信號已根據一降混信號及空間參數資訊而已經在多聲道空間中被整理,而該空間參數資訊係由參數轉換器145所提供的以聲道為主的參數資訊。參數轉換器145分析由一音訊編碼裝置(未顯示)所傳送的輔助資訊及控制資訊,並根據分析結果以產生空間參數資訊。更具體地,該參數轉換器145藉結合輔助資訊以及包含播放設定(playback setup)資訊與混合資訊的控制資訊,來產生該空間參數資訊。亦即,參數轉換器145對輔助資訊及控制資訊的結合進行轉換,成為(spatial data)對應於一至二匣(One-To-Two box,OTT box)或二至三匣(Two-To-Three box,TTT box)的空間數據。
該音訊解碼裝置140可執行合併以物件為主的解碼操作以及混合/渲染操作的多聲道解碼操作,並可因此省略每個物件信號的解碼。因此,降低解碼及/或混合/渲染的複雜性是可能的。
例如,當有十個物件信號而且根據該十個物件信號所獲得的一多聲道信號,要被一5.1聲道揚聲系統(5.1 channel speaker system)所再生時,傳統的以物件為主的音訊解碼裝置,根據降混信號及輔助資訊,產生各自對應於該十個物件信號之已解碼信號,然後藉在多聲道空間中適當整理該十個物件信號,產生5.1聲道信號,
使得該等物件信號可變成適合於5.1聲道揚聲器的環境。然而,要在產生5.1聲道信號的期間產生十個物件信號是沒有效率的,而且當物件信號的數目與多聲道信號的聲道數目之間的差異增加時,這個問題會變得更嚴重。
另一方面,在圖4的實施例中,音訊解碼裝置140根據輔助資訊及控制資訊,產生適合於5.1聲道信號的空間參數資訊,並提供該空間參數資訊及降混信號給多聲道解碼器141。然後,該多聲道解碼器141根據該空間參數資訊及降混信號,產生5.1聲道信號。換言之,當要輸出的聲道的數目為5.1聲道時,該音訊解碼裝置140可根據降混信號,立即產生5.1聲道信號,而不需產生十個物件信號,因此由複雜性的角度看來,是比傳統的音訊解碼裝置更有效率。
當透過分析音訊編碼裝置所傳送的輔助資訊與控制資訊來計算出對應於每個OTT匣及TTT匣的空間參數資訊所需的運算量是少於需要在每個物件信號被解碼後進行混合/渲染操作的運算量時,該音訊解碼裝置140被認為是有效率的。
只要將透過輔助資訊與控制資訊的分析用以產生空間參數資訊的模組,加到傳統的多聲道音訊解碼裝置中,便可以獲得該音訊解碼裝置140,而且因此可維持與該傳統多聲道音訊解碼裝置的相容性。而且,該音訊解碼裝置140可使用傳統多聲道音訊解碼裝置的現存工具,如一包絡整形器(envelope shaper)、一子頻帶時序處理(sub-band temporal processing,STP)工具以及一解聯器(decorrelator),來改善聲音的品質。已知如此,結論是傳統多聲道音訊解碼方法的所有優點,可立即應用到以物件為主的音訊解碼方法。
由參數轉換器145傳送到多聲道解碼器141的空間參數資訊,可能已經被壓縮以便適合傳送。另一方式是,該空間參數資訊可具有與傳統多聲道編碼裝置所傳送的資料相同的格式。亦即,該空間參數資訊可受控於霍夫曼解碼操作(Huffman decoding operation)或引導解碼操作(pilot decoding operation),且可因此傳送到每個模組,當作未壓縮的空間提示資料(spatial cue data)。前者適合用以傳送空間參數資訊到遠端的多聲道音訊解碼裝置,而且後者很方便,因為多聲道音訊解碼裝置不需要將已壓縮的空間提示資料轉換成可立即在解碼操作中使用的未壓縮空間提示資料。
根據分析輔助資訊及控制資訊的空間參數資訊的配置會造成延遲。為了補償這樣的延遲,可提供一額外的緩衝器給降混信號,使得降混信號與位元串流之間的延遲可被補償。另一方式是,可提供一額外的緩衝器給從控制資訊獲得的空間參數資訊,使得空間參數資訊與位元串流之間的延遲可被補償。然而,這些方法並不方便,因為需要提供一額外的緩衝器。另一方式是,考慮到降混信號與空間參數資訊之間發生延遲的可能性,可在一降混信號之前先傳送輔助資訊。在這個情況中,藉結合輔助資訊及控制資訊所獲得的空間參數資訊,不需要調整而可立即使用。
若降混信號的複數個物件信號具有不同的位階,則能直接補償降混信號的任意降混增益(arbitrary downmix gain,ADG)模組,可決定該等物件信號的相對位階,而且使用空間提示資料,如聲道位階差異(channel level difference,CLD)資訊、聲道間關聯(inteRchannel correlation,ICC)資訊以及聲道預測係數(channel prediction coefficient,CPC)資訊,可讓每個該等物件信號分配至多聲道空間中的某一預設位置。
例如,若控制資訊指出,某一預設物件信號要被分配至多聲道空間中的某一預設位置而且具有比其它物件信號還高的位階,則傳統的多聲道解碼器可計算出降混信號的聲道能量之間的差異,並根據計算結果,將降混信號分割成一些輸出聲道。然而,傳統的多聲道解碼器無法增加或減少降混信號中某個聲音的音量。換言之,傳統的多聲道解碼器僅將降混信號分配到數個輸出聲道,而無法增加或減少降混信號中某個聲音的音量。
依據控制資訊,將物件編碼器所產生的降混信號的每個物件 信號分配到多聲道空間中某一預設位置是相對地容易的。然而,需要特別技術,以增加或減小預設物件信號的振幅。換言之,若物件編碼器所產生的降混信號被如此使用,則要減小降混信號的每個物件信號的振幅是很困難的。
因此,依據本發明的實施例,可藉使用圖5所示的ADG模組147,依據控制資訊改變物件信號的相對振幅。該ADG模組147可安裝於多聲道解碼器141中,或與多聲道解碼器141分開。
若使用該ADG模組147適當的調整降混信號的物件信號的相對振幅,則使用傳統的多聲道解碼器來執行物件解碼是可能的。若物件編碼器所產生的降混信號是單音(mono)或立體聲(stereo)信號,或是具有三個或更多聲道的多聲道信號,則ADG模組147可處理降混信號。若物件編碼器所產生的降混信號具有兩個或更多聲道,而且需要ADG模組147進行調整的預設物件信號只存在於降混信號的數個聲道的其中之一時,則ADG模組147只可應用於包含該預設物件信號的聲道,而非應用於降混信號的所有聲道。在上述方法中,ADG模組147所處理的降混信號,可使用傳統的多聲道解碼器立即進行處理,而不需要修改多聲道解碼器的結構。
甚至當最終輸出信號不是多聲道揚聲器可再生的多聲道信號而是雙耳(binaural)信號時,可使用ADG模組147來調整該最終輸出信號的物件信號的相對振幅。
對於使用ADG模組147來說,另一方式是,明確指定應用於每個物件信號的增益值的增益資訊,在產生數個物件信號的過程中,可包含在控制資訊中。為此,可修改傳統的多聲道解碼器結構。即使需要對現存多聲道解碼器的結構做修改,但是在解碼操作的過程中,將某一增益值應用到每個物件信號,而不需計算ADG及補償每個個物件信號,以減少解碼的複雜性來看,此方法是很方便的。
該ADG模組147不僅可使用於調整物件信號的位階,也可使用於修改某一物件信號的頻譜資訊。更具體地,該ADG模組147 不僅可使用於增加或降低某一物件信號的位階,也可修改該物件信號的頻譜資訊,比如放大該物件信號的高或低音調的部份。不使用ADG模組147而改變頻譜資訊是不可能的。
圖6顯示出依據本發明第四實施例之音訊解碼裝置150的方塊圖。參考圖6,該音訊解碼裝置150包含一多聲道雙耳解碼器151、一第一參數轉換器157以及一第二參數轉換器159。
該第二參數轉換器159分析由音訊編碼裝置所提供之輔助資訊及控制資訊,並且根據分析結果,配置空間參數資訊。該第一參數轉換器157配置虛擬三度空間(3D)參數資訊,該虛擬三度空間參數資訊可被多聲道雙耳的解碼器151使用,將如頭部相關轉移函數(head-related transfer function,HRTF)參數的三度空間資訊加至該空間參數資訊。該多聲道雙耳的解碼器151,藉應用該雙耳參數資訊於降混信號,產生一雙耳信號。
該第一參數轉換器157以及第二參數轉換器159可被一單一模組所取代,亦即一參數轉換模組155,該參數轉換模組155接收輔助資訊、控制資訊以及3D資訊,並根據該輔助資訊、控制資訊以及頭部相關轉移函數參數,配置該雙耳參數資訊。
傳統上,為了產生用耳機播放包含十個物件信號之降混信號的雙耳信號,一物件信號必須根據降混信號及輔助資訊,產生十個分別對應於該十個物件信號的解碼信號。此後,混合器/渲染器參考控制資訊,將該十個物件信號的每個物件信號分配到多聲道空間中某一預設位置,以適合五聲道揚聲器的環境。接著,該混合器/渲染器產生可被五聲道揚聲器再生的五聲道信號。然後,該混合器/渲染器將3D資訊應用於該五聲道信號,藉以產生二聲道信號。簡言之,上述的傳統音訊解碼方法包含再生十個物件信號、轉換該十個物件信號為五聲道信號,並根據該五聲道信號,產生二聲道信號,因而是沒有效率的。
另一方面,該音訊解碼裝置150可立即產生雙耳信號,該雙耳信號可根據物件信號使用耳機而再生。另外,該音訊解碼裝置 150透過分析輔助資訊及控制資訊,配置空間參數資訊,而且可因此使用傳統多聲道雙耳解碼器產生雙耳信號。此外,該音訊解碼裝置150還可使用傳統的多聲道雙耳解碼器,甚至是當配備有整合參數轉換器(incorporated parameter converter)時,該整合參數轉換器接收輔助資訊、控制資訊以及HRTF參數,並根據該輔助資訊、該控制資訊以及該HRTF參數,配置雙耳參數資訊。
圖7顯示出依據本發明第五實施例之音訊解碼裝置160的方塊圖。參考圖7,該音訊解碼裝置160包含一前處理器(preprocessor)161、一多聲道解碼器163以及一個參數轉換器165。
該參數轉換器165產生可被多聲道解碼器163使用的空間參數資訊,以及可被前處理器161使用的參數資訊。該前處理器161對降混信號執行前處理操作,並將該前處理操作所產生的降混信號傳送至多聲道解碼器163。該多聲道解碼器163對前處理器161所傳送的降混信號執行解碼操作,由此輸出一立體聲信號、一雙耳立體聲信號或一多聲道信號。前處理器161所執行的前處理操作實例包含在時域或頻域內使用濾波處理以修改或轉換降混信號。
若輸入至音訊解碼裝置160的降混信號為立體聲信號,則該降混信號在輸入到多聲道解碼器163之前,可受制於前處理器161所執行的降混前處理,因為多聲道解碼器163不能透過解碼而將對應於立體聲降混信號之左聲道的物件信號映射到多聲道信號的右聲道。因此,為了將屬於立體聲降混信號之左聲道的物件信號轉移至右聲道,該立體聲降混信號需要前處理器161進行前處理,而且前處理降混信號可輸入至該多聲道解碼器163。
可根據輔助資訊及控制資訊所獲得的前處理資訊,執行立體聲降混信號的前處理。
圖8顯示出依據本發明第六實施例之音訊解碼裝置170的方塊圖。參考圖8,該音訊解碼裝置170包含一多聲道解碼器171、一後處理器173以及一參數轉換器175。
該參數轉換器175產生可被多聲道解碼器171使用的空間參數資訊,以及可被後處理器173使用的參數資訊。該後處理器173對多聲道解碼器171所輸出的信號進行後處理操作。多聲道解碼器171輸出的信號的實例包含一立體聲信號、一雙耳的立體聲信號以及一多聲道信號。
由該後處理器173所執行的後處理操作的實例包含對輸出信號的每個聲道或所有聲道進行修改與轉換。例如,若輔助資訊包含與預設物件信號有關的基本頻率資訊(fundamental frequency information),則後處理器173可參考基本頻率資訊從物件信號中移除諧波成份(harmonic components)。多聲道音訊解碼方法還不夠有效率的能在卡拉OK系統中使用。然而,若與人聲物件信號有關的基本頻率資訊是包含在輔助資訊內,而且人聲物件信號之諧波成份在後處理操作的過程中被移除掉,則使用圖8實施例以實現高性能卡拉OK系統是可能的。除了人聲物件信號以外,圖8的實施例還可應用於物件信號。例如,藉使用圖8實施例,以移除預設樂器的聲音是可能的。而且,藉使用圖8實施例,使用與物件信號有關的基本頻率資訊,以放大預設諧波成份是可行的。簡言之,後處理參數可啟動不同效果的應用,比如***回響(reverberation)效果、外加噪音以及多聲道解碼器171無法執行的放大低音調部位。
該後處理器173可直接將附加效果應用於降混信號,或將降混信號加到已應用某一的效果的多聲道解碼器171輸出。該後處理器173可改變物件之該頻譜(spectrum),或於任何需要的時候修改降混信號。若不適合立即執行效果處理操作,如對降混信號進行回響,並且將效果處理操作所互得的信號傳送到多聲道解碼器171時,則後處理器173可只將效果處理操作作所獲得的信號加到多聲道解碼器171的輸出,而不是直接對降混信號進行效果處理並將效果處理的結果傳送到多聲道解碼器171。
圖9顯示出依據本發明第七實施例之音訊解碼裝置180的方 塊圖。參考圖9,該音訊解碼裝置180包含一前處理器181、一多聲道解碼器183、一後處理器185以及一參數轉換器187。
前處理器161的描述可直接應用於前處理器181。後處理器185可用來添加上前處理器181的輸出以及後處理器185的輸出,並且因此提供一最終信號。在這個情況中,後處理器185僅當作用以加成信號的加法器。可提供效果參數給執行該效果應用的前處理器181或後處理器185。另外,可同時執行將效果應用到降混信號所獲得之信號加成到多聲道解碼器183的輸出,以及將效果應用到多聲道解碼器183的輸出。
圖7及圖9的前處理器161及181,可依據使用者所提供的控制資訊,對降混信號執行渲染。另外,圖7及圖9之前處理器161及181可增加或減少物件信號的位階,並改變物件信號的頻譜。在這個情況中,圖7及圖9的前處理器161及181可執行ADG模組的功能。
依據物件信號之方向資訊(direction information)的物件信號渲染,可同時執行物件信號位階的調整以及物件信號頻譜的改變。另外,依據該物件信號的方向資訊,可藉使用前處理器161或181以執行物件信號位階的調整以及物件信號頻譜的改變,而且不論依據該物件信號之方向資訊的物件信號渲染、物件信號位階的調整以及物件信號頻譜的改變中的那一項未被前處理器161或181執行,都可藉使用ADG模組來執行。例如,使用ADG模組來改變物件信號頻譜是沒有效率的,該ADG模組使用量子化位階區間及參數頻帶區間。在這個情況中,可在頻率對頻率的基礎上使用前處理器161或181,持續地改變物件信號頻譜,而且可使用ADG模組以調整物件信號位階。
圖10顯示出依據本發明第八實施例之音訊解碼裝置的方塊圖。參考圖10,該音訊解碼裝置200包含一渲染矩陣產生器(rendering matrix generator)201、一轉碼器(transcoder)203、一多聲道解碼器205、一前處理器207、一效果處理器208以及一加法器 209。
該渲染矩陣產生器201產生一渲染矩陣,該渲染矩陣代表與物件信號位置有關的物件位置資訊,以及與物件信號位階有關的播放配置資訊(playback configuration information),並提供該渲染矩陣給轉碼器203。渲染矩陣產生器201產生3D資訊,比如根據物件位置資訊的HRTF係數。HRTF是一轉換函數,該轉換函數描述任意位置之音源以及耳膜之間的聲波傳送,並且將依據音源方向與高度而改變的數值傳回來。如果使用HRTF來對不具有方向性的信號進行濾波,則該信號會聽起來像是從某一方向再生出來一樣。
渲染矩陣產生器(rendering matrix generator)201所接收到的物件位置資訊及播放配置資訊,可隨時間變化並由最終使用者提供。
該轉碼器203根據以物件為主的輔助資訊、渲染矩陣以及3D資訊,產生以聲道為主的輔助資訊,並將多聲道解碼器205所必需的以聲道為主的輔助資訊及3D資訊提供給多聲道解碼器205。亦即,該轉碼器203會將從與N個物件信號有關之以物件為主的參數資訊所獲得而與M聲道有關的以聲道為主的輔助資訊以及N個物件信號的每個物件信號之3D資訊傳送給多聲道解碼器205。
該多聲道解碼器205根據降混信號及由轉碼器203提供之以聲道為主的輔助資訊,產生多聲道音訊信號,並依據3D資訊,對該多聲道音訊信號執行3D渲染,藉以產生3D多聲道信號。該渲染矩陣產生器201可包含一3D資訊資料庫(database)(未顯示)。
如果有需要在降混信號輸入到多聲道解碼器205之前便先前處理降混信號,則轉碼器203將與前處理有關的資訊傳送給前處理器207。該以物件為主的輔助資訊包含與所有物件信號有關的資訊,且該渲染矩陣包含物件位置資訊及播放配置資訊。轉碼器203可根據以物件為主的輔助資訊及渲染矩陣,產生以聲道為主的輔助資訊,然後產生對於依據聲道資訊以混合及再生物件信號是必要的以聲道為主的輔助資訊。此後,轉碼器203傳送以聲道為主 的輔助資訊給多聲道解碼器205。
由轉碼器203所提供的以聲道為主的輔助資訊及3D資訊,可包含數個框架索引(frame indexes)。因此,多聲道解碼器205可藉使用該等框架索引,讓以聲道為主的輔助資訊及3D資訊同步,且因此可將3D資訊只應用到位元串流的某些框架。另外,即使該3D資訊被更新,還是可能藉由使用該等框架索引而輕易地讓以聲道為主的輔助資訊及已更新之3D資訊同步。亦即,該等框架索引可分別包含於以聲道為主的輔助資訊及3D資訊中,使得多聲道解碼器205讓以聲道為主的輔助資訊及3D資訊同步。
若有需要,在輸入降混信號被輸入到多聲道解碼器205之前,該前處理器207可對輸入降混信號執行前處理。如上面所述,若該輸入降混信號係立體聲信號,而且有需要由右聲道重放屬於左聲道的物件信號,則該降混信號可在輸入至多聲道解碼器205之前,先被受制於前處理器207所執行的前處理,因為多聲道解碼器205無法將物件信號從某一聲道轉移至另一聲道。為了前處理該輸入降混信號所必需的資訊,可由轉碼器203提供給前處理器207。前處理器207執行前處理所獲得的降混信號,可被傳送到多聲道解碼器205。
效果處理器208及加法器209可直接將附加效果應用到降混信號,或將降混信號加成到某一效果已被應用到多聲道解碼器205的輸出。該效果處理器208可在任何需要時改變物件信號的頻譜或修改降混信號。若不適合直接執行效果處理操作,比如在對降混信號的回響,以及將效果處理操作所獲得的信號傳送至多聲道解碼器205,則該效果處理器208只能將效果處理操作所獲得的信號加到多聲道解碼器205的輸出,而不直接對降混信號執行效果處理並將效果處理之結果傳送到多聲道解碼器205。
以下將詳細說明由渲染矩陣產生器201所產生的渲染矩陣。
渲染矩陣係表示物件信號位置及播放配置的矩陣。亦即,若有N個物件信號及M個聲道,則渲染矩陣可以多種方式指出N 個物件信號是如何被映射到M個聲道。
更具體地,當N個物件信號被映射至M個聲道時,可產生N*M渲染矩陣。在這個情況中,該渲染矩陣包含分別表示該N個物件信號的N列(rows)以及分別表示M個聲道的M行(columns)。
每個N列中的每個M係數可為一實數或整數,指出分配到對應聲道的部份物件信號與整個物件信號的比例。
更具體地,N*M渲染矩陣的每個N列中的M個係數可為實數。然後,若N*M渲染矩陣某一列中的M個係數總和等於預設參考值時,比如1,則可決定物件信號的位階未改變。若M個係數的總和小於1,則可決定物件信號的位階減少。若M個係數的總和大於1,則可決定物件信號的位階增加。預設參考值可為非1的數值。物件信號位階的改變大小可被限制在12分貝(dB)的範圍內。例如,若預設參考值為1而且M個係數的總和為1.5,則可決定物件信號的位階已經增加12分貝。若預設參考值為1而且M個係數的總和為0.5,則可決定物件信號的位階已經降低12分貝。若該預設參考值為1而且M個係數的總和為0.5至1.5,則可決定物件信號位階被介於-12分貝及+12分貝的預設量改變,而且該預設量可依據M個係數的總和被線性的決定出來。
N*M渲染矩陣的每個N列中的M個係數在可為整數。然後,若N*M渲染矩陣的某一行中的M個係數總和等於預設參考值時,比如10,20,30或100,則可決定物件信號的位階未改變。若M個係數的總和小於預設參考值,則可決定物件信號的位階未減少。若M個係數的總和大於預設參考值,則可決定物件信號的位階未增加。物件信號位階的變化大小可被限制在比如12分貝(dB)的範圍內。M個係數的總和與預設參考值相差的數額可表示物件信號位階的變化量(單位:分貝)。例如,若M個係數的總和比預設參考值大1,則可決定物件信號位階被增加2分貝。因此,若該預設參考值為20而且M個係數的總和為23,則可決定物件信號位階被增加6分貝。若該預設參考值為20而且M個係數的總和 為15,則可決定物件信號位階被減少10分貝。
例如,若有六個物件信號及五個聲道(即是左前(FL),右前(FR),中(C),左後(RL)及右後(RR)聲道),則可建立具有分別對應於六個物件信號之六列以及分別對應於五個聲道之五行的6*5渲染矩陣。6*5渲染矩陣的係數可為整數,指出六個物件信號被分配到五個聲道的比例。6*5渲染矩陣可具有一參考值10。因此,若6*5渲染矩陣的六列中任一列的五個係數總和等於10,則可決定相對應物件信號的位階未改變。6*5渲染矩陣的六列中任一列的五個係數總和與參考值相差的數額,表示相對應物件信號位階的變化量。例如,若6*5渲染矩陣的六列中任一列的五個係數總和與參考值相差的數額是1,則可決定相對應物件信號位階被改變2分貝。該6*5渲染矩陣可被表示為方程式(1):
參考方程式(1)的6*5渲染矩陣,第一列對應於第一物件信號,並表示第一物件信號被分配於FL,FR,C,RL,RR聲道的比例。由於第一列的第一係數具有最大整數數值3,且第一列的係數總和為10,可以決定第一物件信號主要被分配於FL聲道而且第一物件信號的位階未被改變。由於對應於第二物件信號的第二列的第二係數具有最大整數數值4,且第二列的係數總和為12,可以決定第二物件信號主要被分配於FR聲道,且第二物件信號的位階被增加4分貝。由於對應於第三物件信號的第三列的第三係數具有最大整數數值12,且第三列係數的總和為12,可以決定第三物件信號只分配到C聲道,且第三物件信號的位階被增加4分 貝。由於對應於第五物件信號的第五列的所有係數皆具有整數數值2,且第五列的係數總和為10,可以決定第五物件信號是平均分配到FL,FR,C,RL,RR聲道,且第五物件信號的位階未被改變。
另外,當N個物件信號被映射於M個聲道時,可建立N*(M+1)渲染矩陣。N*(M+1)渲染矩陣係非常類似於N*M渲染矩陣。更具體地,在N*(M+1)渲染矩陣中,就如同在N*M渲染矩陣中,每個N列中第一至第M個係數是表示相對應物件信號被分配於FL,FR,C,RL,RR聲道的比例。然而,N*(M+1)渲染矩陣並不像N*M渲染矩陣,而是具有一額外行(亦即,第(M+1)行),以表示物件信號的位階。
N*(M+1)渲染矩陣並不像N*M渲染矩陣,而是指出物件信號如何被分配至M個聲道及物件信號的位階是否被個別地改變。因此,藉使用N*(M+1)渲染矩陣,不需要額外的計算而可輕易獲得關於物件信號位階中改變的資訊,如果有的話。由於N*(M+1)渲染矩陣幾乎與N*M渲染矩陣相同,N*(M+1)渲染矩陣可被輕易地轉換為N*M渲染矩陣,或反之亦然,而不需要額外的資訊。
另外,當N個物件信號被映射於M個聲道時,可產生N*2渲染矩陣。N*2渲染矩陣具有指出物件信號之角位置(angular positions)的第一行,及指出每個些物件信號之位階改變的第二行,如果有的話。N*2渲染矩陣可在0到360度的該範圍內以1或3度的角度間隔表示物件信號的角位置。平均分配到所有方向的物件信號可由一預設值來表示,而非一角度。
N*2渲染矩陣可被轉換成N*3渲染矩陣,不僅可指出物件信號的2D方向,亦可指出些物件信號的3D方向。更具體地,N*3渲染矩陣的第二行可用來指出物件信號的3D方向。N*3渲染矩陣的第三行使用與N*M渲染矩陣相同的方法,指出每個物件信號的位階改變,如果有的話。若物件解碼器的最終播放模式為雙耳立體聲,則渲染矩陣產生器201可傳送指出每個物件信號位置的3D 資訊,或對應於3D資訊的索引。在後者的情況中,轉碼器203可需要具有對應於渲染矩陣產生器201所傳送之索引的3D資訊。另外,若指出每個物件信號位置的3D資訊是由渲染矩陣產生器201接收,則轉碼器203可計算3D資訊,該3D資訊可被多聲道解碼器205根據所接收的3D資訊、渲染矩陣及以物件為主的輔助資訊來使用。
渲染矩陣及3D資訊可依據最終使用者對物件位置資訊及播放配置資訊所做的修改,做適當地即時改變。因此,渲染矩陣或3D資訊被更新或更新的有關資訊,如果有的話,可以固定的時間間隔,例如0.5秒間隔,被傳送到該轉碼器203。然後,若刪除渲染矩陣及3D資訊中的更新,則轉碼器203可對接收到的更新、現存的渲染矩陣及現存的3D資訊執行線性轉換,假設渲染矩陣及3D資訊是隨時間線性改變。
若物件位置資訊及播放配置資訊自從渲染矩陣及3D資訊被傳送到轉碼器203便未被最終使用者修改過,則指出渲染矩陣及3D資訊未被改變的資訊可被傳送至轉碼器203。另一方面,若物件位置資訊及該播放配置資訊在渲染矩陣及3D資訊被傳送至轉碼器203後被最終使用者修改過,則指出渲染矩陣及3D資訊已被改變的資訊以及渲染矩陣及3D資訊中的更新,可被傳送到轉碼器203。更具體地,在渲染矩陣中的更新以及在3D資訊中的更新可被分別傳送到轉碼器203。另一方式是,可由一預設代表值共同表示在渲染矩陣中的更新及/或在3D資訊中的更新。然後,預設代表值可與指出預設代表值對應於渲染矩陣中的更新或3D資訊中的更新的資訊一起被傳送到轉碼器203。以這種方式,可輕易告知轉碼器203是否渲染矩陣及3D資訊已被更新。
N*M渲染矩陣,如同方程式(1)所指出的,也可包含一用以表示物件信號之3D方向資訊的額外行。在這個情況中,該額外行可將物件信號的3D方向資訊表示成在-90到+90度範圍內的角度。 該額外行不僅可提供給N*M矩陣,而且還有N*(M+1)渲染矩陣及 N*2矩陣。對於在多聲道解碼器的一般解碼模式中之使用,物件信號的3D方向資訊不是必要的。而是,物件信號的3D方向資訊對於在多聲道解碼器的雙耳模式中之使用是必要的。物件信號的3D方向資訊可與渲染矩陣一起傳送。另一方式是,物件信號的3D方向資訊可與3D資訊一起傳送。物件信號的3D方向資訊不影響以聲道為主的輔助資訊,但會在雙耳模式的解碼操作過程中影響3D資訊。
關於空間位置與物件信號位階的資訊可被提供為渲染矩陣。 另一方式是,關於空間位置與物件信號位階的資訊可被表示為物件信號頻譜的修改,如增強物件信號的低音部份或高音部份。在這個情況中,關於物件信號位階修改的資訊可在每個參數頻帶中被傳送成位階改變,而可被使用於多聲道編解碼器中。若最終使用者控制物件信號頻譜的修改,則關於物件信號頻譜修改的資訊可由渲染矩陣分別以頻譜矩陣傳送。頻譜矩陣可具有與物件信號一樣多的列,並具有與參數一樣多的行。頻譜矩陣的每個係數指出與每個參數頻帶的位階之調整有關的資訊。
此後,該轉碼器203的操作將在以下被詳細描述。轉碼器203根據以物件為主的輔助資訊、渲染矩陣資訊以及3D資訊,產生給多聲道解碼器205的以聲道為主的輔助資訊,並將以聲道為主的輔助資訊傳送至多聲道解碼器205。另外,轉碼器203產生給多聲道解碼器205的3D資訊,並將3D資訊傳送至多聲道解碼器205。若輸入降混信號需要在輸入至多聲道解碼器205前被前處理,轉碼器203可傳送與輸入降混信號有關的資訊。
轉碼器203可接收指出複數個物件信號如何被包含於輸入降混信號內的以物件為主的輔助資訊。以物件為主的輔助資訊可指出複數個物件信號如何藉由使用OTT匣及TTT匣並使用CLD、ICC及CPC資訊,而被包含於輸入降混信號內。以物件為主的輔助資訊可提供對各種方法的說明,這些方法是被物件編碼器執行用以指出與複數個物件信號的每個物件信號有關的資訊,並且因 此可指出物件信號是如何被包含於輔助資訊中。
如果是多聲道編解碼器的TTT匣,則L、C及R信號可被降混或升混至L及R信號中。在這個情況中,C信號可分享一點L及R信號。然而,這在降混或升混的物件信號中很少發生。因此,OTT匣被廣泛地使用以執行升混或降混給物件編碼用。即使C信號包含獨立的信號成份,而非L及R信號的部份,TTT匣可被用來執行升混或降混給物件編碼用。
例如,若有六個物件信號,則六個物件信號可藉OTT匣轉換為降混信號,且關於每個物件信號的資訊可藉由使用OTT匣而獲得,如圖11所示。
參考圖11,可藉降混信號以及由總共五個OTT匣211、213、215、217及219所提供的資訊(如CLD及ICC資訊)來表示六個物件信號。圖11中所示的結構可用不同方式改變。亦即,參考圖11,第一OTT匣211可接收六個物件信號中的二個物件信號。另外,層級性連接OTT匣211、213、215、217及219的路徑可被自由地改變。因此,輔助資訊可包含指出OTT匣211、213、215、217及219如何層級性連接的層級性結構資訊,以及指出每個物件信號被輸入到那個OTT匣的位置資訊。若OTT匣211、213、215、217及219形成任意樹狀結構,則使用多聲道編解碼器以表示任意樹狀結構的方法,可被用以指出這種層級性結構資訊。另外,可以不同的方式顯示這種輸入位置資訊。
輔助資訊亦可包含關於每個物件信號經過的啞音期的資訊。在這個情況中,OTT匣211、213、215、217及219的樹狀結構可隨時間適當地改變。例如,參考圖11,當第一物件信號物件1為啞音時,關於第一OTT匣211的資訊是不必要的,且只有第二物件信號物件2可輸入到第四OTT匣217。然後,OTT匣211、213、215、217及219的樹狀結構可相對應地改變。因此,與OTT匣211、213、215、217及219的樹狀結構中改變有關的資訊,如果有的話,可包含在輔助資訊內。
若預設物件信號為啞音時,指出對應於預設物件信號的OTT匣的資訊是不在使用中,而且可提供指出OTT匣沒有可用訊號的資訊。以這種方式,藉不包含輔助資訊中不在使用中之OTT匣或TTT匣的有關資訊,以減少輔助資訊的大小是可能的。即使複數個OTT或TTT匣的樹狀結構被修改過,也可根據指出哪些個物件信號為啞音的資訊,輕易決定那些OTT或TTT匣個是被打開或關掉。因此,不需要頻繁的將關於修改的資訊,如果有的話,傳送到OTT或TTT匣的樹狀結構。而是,可將指出那個物件信號為啞音的資訊傳送出去。然後,解碼器可輕易地決定那些OTT或TTT匣的樹狀結構的那個部位需要修改。因此,將需要傳送到解碼器的資訊之大小減到最小是可能的。另外,將關於物件信號的訊號輕易傳送到解碼器是可能的。
圖12顯示出用以解釋複數個物件信號如何包含於降混信號的圖形。在圖11的實施例中,多聲道編碼的OTT匣結構被依原狀所採納。然而,在圖12的實施例中,使用不同的多聲道編碼的OTT匣結構。亦即,參考圖12,複數個物件信號輸入每個匣,且最終只產生一降混信號。參考圖12,關於複數個物件信號的每個物件信號的資訊,可由每個物件信號的能階對物件信號的總能階的比例來表示。然而,隨著物件信號的數目增加,每個物件信號的能階對物件信號的總能階的比例會減少。為了印證所述,尋找出複數個物件信號中在預設參數頻帶中具有最高能階的物件信號(此後表示為最高能量物件信號),而且可提供其他物件信號(此後表示為非最高能量物件信號)的能階對最高能量物件信號的能階的比例,當成與每個物件信號有關的資訊。在這個情況中,一旦給定指出最高能量物件信號以及最高能量物件信號能階之絕對數值的資訊,可輕易決定其它非最高能量物件信號的能階。
最高能量物件信號的能階,對合併複數個位元串流到單一位元串流是必要的,如同在多點控制單元(multipoint control unit,MCU)所執行的。然而,在多數情況中,最高能量物件信號的能階 是不必要的,因為可由其它非最高能量物件信號之能階對最高能量物件信號之能階的比例,而輕易獲得最高能量物件信號的能階的絕對數值。
例如,假設有四個物件信號A、B、C和D屬於預設參數頻帶,且物件信號A為最高能量物件信號。然後,該預設參數頻帶的能量EP 以及物件信號A之能階的絕對數值EA 滿足方程式(2): 其中a、b及c分別指出物件信號B、C及D之能階對物件信號之能階的比例。參考方程式(2),根據比例a、b及c,以及該預設參數頻帶的能量EP ,計算物件信號A之能階的絕對數值EA 是可行的。因此,除非有需要藉由使用MCU將複數個位元串流合併成單一位元串流,否則物件信號A之能階的絕對數值EA 可不需要包含在位元串流中。指出物件信號A之能階的絕對數值EA 包含在位元串流中的資訊,可包含在位元串流的標頭(header)中,藉以減少位元串流的大小。
另一方面,若有需要藉由使用MCU將複數個位元串流合併成單一位元串流,則最高能量物件信號的能階是必要的。在這個情況中,根據非最高能量物件信號之能階對最高能量物件信號之能階的比例所計算出的能階總和,可與藉由降混所有物件信號而獲得之降混信號的能階不相同。例如,當降混信號之能階為100時,由於比如在量子化(quantization)及去量子化(dequantization)的操作過程中所導致的錯誤,計算能階的總和可為98或103。為了印證所述,降混信號之能階與計算能階之總和的差異,可藉由將每個計算能階乘上預設係數而被適當地補償。若降混信號之能階是X,而計算能階之總和為Y,則每個計算能階可乘上X/Y。若降混信號之能階與計算能階之總和的差異未被補償,這樣的量子化差 異會包含在參數頻帶與框架中,因而導致信號失真(distortions)。
因此,指出複數個物件信號中那個物件信號在預設參數頻帶中具有最大絕對數值能量的資訊是必要的。如此的資訊可由一些位元表示。指出複數個物件信號中那個物件信號在預設參數頻帶中具有最大絕對數值能量所必需的位元數目,會依據物件信號數目而改變。隨著物件信號的數目增加,指出複數個物件信號中那個物件信號在預設參數頻帶中具有最大絕對數值能量所必需的位元數目也會增加。在另一方面,隨著物件信號的數目減少,指出複數個物件信號中那個物件信號在預設參數頻帶中具有能量最大絕對數值所必需的位元數目也會減少。可先分配預設位元數目,用以指出預設參數頻帶中那個物件信號具有最大絕對數能量值會增加。另一方式是,用以指出預設參數頻帶中那個物件信號具有最大絕對數值能量的位元數目,可根據某個資訊而決定。
指出在每個參數頻帶中複數個物件信號中那個物件信號具有最大絕對數值能量的資訊大小,可藉在多聲道編解碼器的OTT及/或TTT匣中使用以減少CLD、ICC、CPC資訊大小的相同方法而減少,例如藉由使用時間差方法、頻率差方法或引導編碼方法。
為了指出在每個參數頻帶中複數個物件信號中那個物件信號具有最大絕對數值能量,可使用最佳化的霍夫曼碼表(optimized Huffman table)。在這個情況中,指出物件信號之能階是以何種次序來與具有最大絕對數值能量的任何物件信號之能階做比較的資訊是有需要的。例如,若有五個物件信號(亦即第一到第五物件信號)而且第三物件信號是最高能量的物件信號,則可提供關於第三物件信號的資訊。然後,第一、第二、第四及第五物件信號之能階對第三物件信號之能階的比例,可以不同方式提供,而且將在以下做進一步詳細描述。
可依序提供第一、第二、第四及第五物件信號之能階對第三物件信號之能階的比例。另一方式是,第四、第五、第一及第二物件信號之能階對第三物件信號之能階的比例,可由循環方法依 序提供出來。然後,顯示出第一、第二、第四及第五物件信號之能階對第三物件信號之能階的比例被提供出來之次序的資訊,可包含於檔案表頭(file header)中,或可在數個框架的區間內傳送。多聲道編解碼器可根據OTT匣的序號來決定CLD及ICC資訊。同樣地,指出每個物件信號如何被映射到位元串流的資訊是必要的。
在多聲道編解碼器的情況中,關於對應於每個聲道的信號之資訊,可由OTT或TTT匣的序號來做辨識。依據以物件為主的音訊編碼方法,若有N個物件信號,則N個物件信號有需要進行適當地編號。然而,對於最終使用者,使用物件解碼器以控制N個物件信號有時是必要的。在這個情況中,最終使用者可不僅需要N個物件信號的序號,而且還需要N個物件信號的描述,比如指出對應於女聲之第一物件信號以及對應於鋼琴聲之第二物件信號的描述。N個物件信號的描述可包含於位元串流的標頭中做為詮釋資料(metadata),然後與位元串流一同傳送。更具體地,N個物件信號的描述可為文字或可使用編碼表或代號來提供。
有關物件信號間關聯性的關聯資訊有時是必要的。為此,最高能量物件信號與其它非最高能量物件信號之間的關聯性可計算出來。在這個情況中,單一關聯性數值可指定給所有物件信號,比得上在所有OTT匣中使用單一ICC數值。
若物件信號為立體聲信號,物件信號之左聲道能量與右聲道能量的比例以及ICC資訊是必要的。可使用與用來計算複數個物件信號之能階的相同方法來計算出物件信號之左聲道能量與右聲道能量的比例,根據數個物件信號中最高能量物件信號之能階的絕對數值,以及其它非最高能量物件信號之能階對最高能量物件信號之能階的比例。例如,若最高能量物件信號之左及右聲道能階的絕對數值分別為A和B,而且非最高能量物件信號的左聲道能階與A的比例以及非最高能量物件信號的右聲道能階與B的比例分別為x和y,則非最高能量物件信號的左及右聲道能階可被計 算為A*x和B*y。以這種方式,立體聲物件信號之左聲道能量與右聲道能量的比例可被計算出來。
當物件信號為單音信號、單音物件信號所獲得的降混信號為立體聲信號以及單音物件信號包含於立體聲降混信號的兩聲道中時,也可以使用最高能量物件信號之能階的絕對數值,以及其它非最高能量物件信號之能階對最高能量物件信號之能階的比例。在這個情況中,包含於立體聲降混信號之左聲道中每個單音物件信號之部份能量對包含於立體聲降混信號之右聲道中相對應單音物件信號的部份能量的比例,以及關聯資訊是必要的,而且這會直接應用到立體聲物件信號。若單音物件信號包含於立體聲降混信號的L及R聲道中,則單音物件信號的L及R聲道成份可僅具有一位階差異,且單一物件信號在所有參數頻帶上可具有關聯數值1。在這個情況中,為了減少資料量,可額外提供指出單音物件信號在所有參數頻帶上具有關聯數值1的資訊。然後,不需要指出每個參數頻帶的關聯數值1。而是,可指出關聯數值1給所有參數頻帶。
在降混信號的產生過程中,透過複數個物件信號的加成,可發生削波(clipping)。為了印證所述,降混信號可乘上預設增益,使得降混信號的最大能階可超出削波臨界值。預設增益可隨時間改變。因此,關於預設增益的資訊是必要的。若降混信號為立體聲信號,不同增益數值可提供給降混信號的L及R聲道,以防止削波。為了減少資料傳送量,可不用分別傳送不同增益數值。而是,可傳送不同增益數值的總和以及不同增益數值的比例。然後,與分別傳送不同增益數值比較起來,減少動態範圍以及減少資料傳送量是可行的。
為了進一步減少資料傳送量,可提供一位元,指出透過一多數物件信號之該累加,在一降混信號之該產生過程中,削波是否發生。然後,只有當削波發生是被確定的,才可傳送增益數值。在為了合併複數個位元串流而將複數個降混信號做加成處理的過 程中,,這種削波資訊對防止削波可以是必要的。為了防止削波,複數個降混信號的總和可乘上用以防止削波之預設增益數值的倒數。
圖13至16顯示出用以解釋配置以物件為主的輔助資訊之不同方法的圖形。圖13至16的實施例可不只應用於單音或立體聲物件信號,而且還可應用於多聲道物件信號。
參考圖13,多聲道物件信號(物件A(CH1)至物件A(CHn))輸入到物件編碼器221。然後,物件編碼器221根據多聲道物件信號(物件A(CH1)至物件A(CHn)),產生降混信號及輔助資訊。物件編碼器223接收複數個物件信號物件1至物件n以及物件編碼器221所產生的降混信號,並根據物件信號物件1至物件N以及接收的降混信號,產生另一降混信號及另一輔助資訊。多工器225將物件編碼器221所產生的輔助資訊及物件編碼器223所產生的輔助資訊合併。
參考圖14,物件編碼器223根據多聲道物件信號(物件A(CH1)至物件A(CHn)),產生第一位元串流。然後,物件編碼器231根據複數個非多聲道物件信號物件1至物件n,產生第二位元串流。然後,與藉MCU幫助將複數個位元串流合併成單一位元串流幾乎相同的方法,物件編碼器235將第一及第二位元串流合併成單一位元串流。
參考圖15,多聲道編碼器241根據多聲道物件信號(物件A(CH1)至物件A(CHn)),產生降混信號及以聲道為主的輔助資訊。物件編碼器243接收多聲道編碼器241所產生的降混信號以及複數個非多聲道物件信號物件1至物件n,並根據接收的降混信號及物件信號物件1至物件n,產生物件位元串流及輔助資訊。多工器245結合多聲道編碼器241所產生的以聲道為主的輔助資訊以及物件編碼器243所產生的輔助資訊,並輸出結合的結果。
參考圖16,多聲道編碼器253根據多聲道物件信號(物件A(CH1)至物件A(CHn)),產生降混信號及以聲道為主的輔助資 訊。物件編碼器251根據一複數個非多聲道物件信號物件1至物件n,產生降混信號及輔助資訊。物件編碼器255接收多聲道編碼器253所產生的降混信號以及物件編碼器251所產生的該降混信號,並結合接收的降混信號。多工器257結合物件編碼器251所產生的輔助資訊以及多聲道編碼器253所產生的以聲道為主的輔助資訊,並輸出結合的結果。
在電話會議(teleconferencing)中使用以物件為主的音訊編碼的情況中,將複數個物件位元串流合併成單一物件位元串流,有時是必要的。以下將詳細描述複數個物件位元串流合併成單一物件位元串流。
圖17顯示出用以解釋合併二物件位元串流的圖形。參考圖17,當二物件位元串流合併成個單一物件位元串流時,分別出現在該二物件位元串流中的輔助資訊,如CLD及ICC資訊,需要做修改。可只使用額外OTT匣,亦即第十一OTT匣,以及使用如十一OTT匣所提供的CLD及ICC資訊的輔助資訊,即可合併該二物件位元串流成單一物件位元串流。
每個該二物件位元串流的樹狀配置資訊(tree configuration information)必須合併成整合樹狀配置資訊,以便合併該二物件位元串流成個單一物件位元串流。為此,可修改合併該二物件位元串流所產生的額外配置資訊,如果有的話,可修改用來產生該二物件位元串流的數個OTT匣的索引,而且只有一些額外處理,比如第十一OTT匣所執行的計算處理以及將該二物件位元串流的二降混信號的降混處理,可被執行。以這種方式,該二物件位元串流可輕易合併成單一位元串流,而不需修改與生出該二物件信號之複數個物件信號有關的資訊。
參考圖17,該第十一OTT匣可為選擇性的選項。在此情況中,該二物件位元串流的二降混信號可被當作雙聲道降混信號來使用。因此,該二物件位元串流可合併成單一物件位元串流,而不需要額外的計算。
圖18顯示出用以解釋將二個或更多獨立物件位元串流合併成具有立體聲降混信號之單一物件位元串流的圖形。參考圖18,若二個或更多獨立物件位元串流具有不同數目的參數頻帶,則可對物件位元串流執行參數頻帶映射,使得具較少參數頻帶的其中一物件位元串流的參數頻帶數目,可增加到與其它物件位元串流的參數頻帶數目相同。
更具體地,可使用預設映射表(mapping table)執行參數頻帶映射。在這個情況中,可使用簡單線性公式執行參數頻帶映射。
若有重疊參數頻帶,則可考慮到重疊參數頻帶彼此的重疊量,適當混合參數數值。在低複雜性為優先的情況中,可對二物件位元串流執行參數頻帶映射,使得該二物件位元串流中具較多參數頻帶的物件位元串流的參數頻帶數目,可被減少到與其它物件位元串流之參數頻帶數目相同。
在圖17及18的實施例中,兩個或更多獨立物件位元串流可合併成一整合物件位元串流,而不需要計算獨立物件位元串流的現存參數。然而,如果是合併複數個降混信號,需要透過QMF(Quadrature Mirror Filter,正交鏡像對稱濾波器)/混成分析(hybrid analysis),再次計算與降混信號有關的參數。然而,該計算需要大量的計算,因而與圖17及18實施例的優勢取得妥協。因此,有必要提出取得參數的方法,不需QMF/混成分析或合成,甚至當降混信號被降混時。為此,關於每個降混信號的每個參數頻帶能量之能量資訊,可包含於物件位元串流中。然後,當降混信號被降混時,可根據這種能量資訊而輕易計算出如CLD資訊的資訊,而不需要QMF/混成分析或合成。這種能量資訊可代表對每個參數頻帶的最高能階,或對每個參數頻帶的最高能量物件信號能階的絕對數值。對整個參數頻帶,可使用時域所獲得的ICC數值,進一步減少計算量。
複數個降混信號的降混過程中會發生削波。為了印證所述,可減少降混信號的位階。若降混信號的位階減少,與降混信號的 已減少位階有關的位階資訊需要包含於物件位元串流中。為防止削波,位階資訊可應用於物件位元串流的每個框架,或可僅被應用於發生削波的某些框架。藉由反向應用位階資訊可計算出原始降混信號的位階,以防止解碼操作過程中的削波。為防止削波的位階資訊在時域中可計算出來,而且因此不需要受制於QMF/混成分析或合成。使用圖12所示的結構,可執行將複數個物件信號合併成個單一物件位元串流,且這將在以下參考圖19做詳細描述。
圖19顯示出用以解釋合併二獨立物件位元串流成單一物件位元串流的圖形。參考圖19,第一匣261產生第一物件位元串流,而第二匣263產生第二物件位元串流。然後,第三匣265藉結合第一及第二位元串流,產生第三物件位元串流。在這個情況中,若第一及第二物件位元串流包含對每個參數頻帶的最高能量物件信號之能階的絕對數值,以及其它非最高能量物件信號之能階對最高能量物件信號之能階的比例,以及與增益數值有關而被第一及第二匣261及263乘上降混信號的增益資訊時,則只合併第一及第二物位元串流而不需額外的參數計算或取得,便可產生第三物件位元串流。
第三匣265接收複數個降混信號降混A及降混B。第三匣265將降混信號降混A及降混B轉換成PCM(Phase Change Merrrory,相變記憶體)信號,並將PCM信號相加,因此產生單一降混信號。然而在此過程中,會發生削波。為了印證所述,降混信號降混A及降混B可乘上預設增益數值。關於該預設增益數值的資訊,可包含於第三物件位元串流中,並與第三物件位元串流一起傳送。
以下將進一步詳細描述合併複數個物件位元串流成單一物件位元串流。參考圖19,paramA可包含關於複數個物件信號物件1至物件n的任一最高能量物件信號的資訊,以及其它非最高能量物件信號之能階對最高能量物件信號之能階的比例的資訊。同樣地,輔助資訊A可包含關於複數個物件信號物件1至物件n的任一最高能量物件信號的資訊,以及其它非最高能量物件信號之能 階對最高能量物件信號之能階的比例的資訊。
輔助資訊A及輔助資訊B可以並行方式包含在位元串流中,如圖20所示。在這個情況中,可額外提供一位元,指出是否有多於一位元串流並行存在。
參考圖20,為了指出預設位元串流是否為包含一個以上位元串流的整合位元串流,所以可在預設位元串流的檔頭(head)上提供指出預設位元串流是否為整合位元串流的資訊、與包含在預設位元串流內位元串流數目有關的資訊(如果有的話)以及與包含在預設位元串流內位元串流原始位置有關的資訊(如果有的話),並且跟隨著在預設位元串流內一個以上的位元串流,如果有的話。在這個情況中,解碼器藉分析預設位元串流的檔頭可決定預設位元串流是否為包含一個以上位元串流的整合位元串流。除了對位元串流的一些額外標識符(identifiers)外,這種位元串流合併方法不需要額外的處理。然而,需要在一些框架的區間中提供這樣的標識符。另外,這種位元串流合併方法需要解碼器以確定解碼器所接收的每個位元串流是否為整合位元串流。
上述位元串流合併方法的另一個選擇是,以某一種方式將複數個位元串流合併成單一位元串流,使得解碼器無法辨識出單一位元串流是否為整合位元串流。這項將在以下參考圖21詳細描述。
參考圖21,比較由SIDE_INFO_A所代表的最高能量物件信號之能階以及由SIDE_INFO_B所代表的最高能量物件信號之能階。然後,該二物件信號中任一具有較高能階的物件信號會被決定成整合位元串流的最高能量物件信號。例如,若由SIDE_INFO_A所代表的最高能量物件信號之能階是高於由SIDE_INFO_B所代表的最高能量物件信號之能階時,由SIDE_INFO_A所代表的最高能量物件信號變成整合位元串流的最高能量物件信號。然後,SIDE_INFO_A或SIDE_INFO_B中任一包含與整合位元串流的最高能量物件信號有關之資訊的能量比例資訊,以及由ParamA所代表之最高能量物件信號與由 SIDE_INFO_B所代表之最高能量物件信號的能量比例資訊,可在整合位元串流中使用。該方法涉及SIDE_INFO_B的能量比例資訊的再計算。然而,SIDE_INFO_B的能量比例資訊的再計算相對地不複雜。在此方法中,解碼器可不能決定接收的位元串流是否為包含一個以上位元串流的整合位元串流,且因此可使用傳統的解碼方法。
包含立體聲降混信號的二物件位元串流,可藉使用與合併包含單音降混信號之位元串流幾乎相同的方法,輕易合併成單一物件位元串流,而不需關於物件信號之資訊的再計算。在物件位元串流中,關於降混物件信號的樹狀結構之資訊,緊跟著由樹狀結構的每個分支(亦即每一匣)所獲得的物件信號資訊。
上述已說明物件位元串流,假設某物件只分配於立體聲降混信號的左聲道或右聲道。然而,物件信號通常分配於立體聲降混信號的二聲道。因此,以下將詳細描述如何根據分配於立體聲降混信號之二聲道的物件位元串流,以產生物件位元串流。
圖22顯示出用以解釋藉混合複數個物件信號以產生立體聲降混信號之方法的圖形,更具體地,降混四物件信號物件OBJECT1至OBJECT4成L及R立體聲信號中的方法。參考圖22,某些四物件信號OBJECT1至OBJECT4是屬於降混信號的L及R聲道。例如,第一物件信號物件1以a:b的比例分配到L及R聲道之間,如方程式(3)所指出:
若物件信號分配於立體聲降混信號的L及R聲道,則會額外需要與物件信號分配於L及R聲道之間的比例(a:b)有關的聲道分配比例資訊(channel distribution ratio information)。然後,藉為了立 體聲降混信號的L及R聲道而使用OTT匣執行降混,可計算出如CLD及ICC資訊與物件信號有關的資訊,而且這將在以下參考圖23做進一步詳細描述。
參考圖23,一旦提供在降混操作期間由複數個OTT匣所獲得的CLD及ICC資訊,以及複數個物件信號的每個物件信號的聲道分配比例資訊時,可以計算出針對使用者對物件位置資訊與播放配置資訊所做任何修改的適當改變的多聲道位元串流。另外,若立體聲降混信號需要透過降混前處理來處理,則可以獲得關於立體聲降混信號如何透過降混前處理的資訊,以及將所獲得的資訊傳送至前處理器。亦即,若沒有提供複數個物件信號的每個物件信號的聲道分配比例資訊,就無法計算多聲道位元串流,以及獲得前處理器之操作所必需的資訊。物件信號的聲道分配比例資訊可被表示為二整數的比例,或一純量(單位:分貝)。
如上所述,若物件信號被分配至立體聲降混信號的二聲道之間,則需要物件信號的聲道分配比例資訊。聲道分配比例資訊可具有一固定數值,用以指出物件信號被分配至立體聲降混信號的二聲道之間的比例。另一方式是,物件信號的聲道分配比例資訊,可由物件信號的某一頻帶改變至另一頻帶,特別是當聲道分配比例資訊被當做ICC資訊來使用時。若立體聲降混信號是由複雜的降混操作所獲得,亦即,若物件信號屬於立體聲降混信號的二聲道而且是藉改變ICC資訊由物件信號的某一頻帶改變至另一頻帶而被降混,則可額外需要詳細說明物件信號的降混,以便對最終渲染的物件信號進行解碼。該實施例可應用到所有可能已被描述過的物件信號。
此後,以下將參考圖24至27詳細描述前處理。若輸入到物件解碼器的降混信號為立體聲信號,則在輸入到物件解碼器的多聲道解碼器之前,需要前處理輸入降混信號,因為多聲道解碼器無法將屬於輸入降混信號之左聲道的信號映射至右聲道。因此,為了使最終使用者得以將屬於輸入降混信號之左聲道的物件信號 之位置轉移到右聲道,輸入降混信號需要前處理,而且前處理過的降混信號可輸入至多聲道解碼器。
可藉由從物件位元串流或從渲染矩陣所獲得的前處理資訊來執行立體聲降混信號的前處理,並依據前處理資訊,適當處理立體聲降混信號,這將在以下詳細描述。
圖24顯示出用以解釋如何根據四物件信號物件OBJECT1至OBJECT4來配置立體聲降混信號的圖形。參考圖24,第一物件信號OBJECT1以a:b的比例被分配到L及R聲道間,第二物件信號OBJECT2以c:d的比例被分配到L及R聲道間,第三物件信號OBJECT3僅被分配到L聲道,而第四物件信號OBJECT4僅被分配到R聲道。可藉由每個第一至第四物件信號OBJECT1至OBJECT4通過一些OTT而產生如CLD及ICC的資訊,且降混信號可根據所產生的資訊而產生。
假設最終使用者藉由適當設置第一至第四物件信號OBJECT1至OBJECT4的位置及位階而獲得渲染矩陣,而且有五聲道。渲染矩陣可表示為方程式(4):
參考方程式(4),當四列中每一列的五係數總和與預設參考值相等,亦即100,則可以決定相對應物件信號的位階未被改變。四列中每一列的五係數總和與預設參考值的差異量可為相對應物件信號之位階已被改變的量(單位:分貝)。方程式(4)之渲染矩陣的第一、第二、第三、第四及第五行,分別表示FL、FR、C、RL及RR聲道。
方程式(4)的該渲染矩陣之該第一列,對應於該第一物件信號 物件1,且具有所有五個的係數,即是30,10,20,30及10。由於該第一列的五個係數之總和為100,可以決定第一物件信號OBJECT1之位階並未改變,而且只有第一物件信號OBJECT1的空間位置有改變。雖然該第一列的五個係數表示不同聲道方向,它們可被主要地分類為兩聲道:L及R聲道。然後,第一物件信號OBJECT1被分配到L及R聲道間的比例,可被計算為70%(=(30+30+30)*0.5):30%(=(10+10+20)*0.5)。因此,方程式(4)之渲染矩陣指出第一物件信號OBJECT1之位階並未被改變,而第一物件信號OBJECT1之位階以70%:30%的比例分配到L及R聲道間。若方程式(4)之渲染矩陣的任一列的五個係數總和小於或大於100,則可以決定相對應物件信號之位階已改變,然後,相對應物件信號可透過前處理而處理,或可轉換為ADG並以ADG傳送。
為了前處理降混信號,從該等降混信號執行QMF/混成轉換而獲得的信號所取得的參數,可計算出該等降混信號分配到參數頻帶間的比例,而且可依據渲染矩陣的設定,將降混信號重新分配於該等參數頻帶之間。許多將降混信號重新分配到參數頻帶間的方法,將在以下做詳細描述。
在第一重新分配的方法中,L及R聲道降混信號是藉由使用它們各自的輔助資訊(如CLD及ICC資訊),以及及使用幾乎與用於多聲道編解碼器相同方法,而被分別解碼。然後,分配於L及R聲道降混信號之間的物件信號被還原回來。為了減少計算量,L及R聲道降混信號可僅使用CLD資訊而被解碼。每個還原的物件信號被分配於L及R聲道降混信號間的比例,可根據輔助資訊而被確定。
每個還原物件信號可依據渲染矩陣而分配於L及R聲道降混信號間。然後,該等重新分配之物件信號,藉由OTT匣以聲道間原理而降混,藉以完成前處理。簡言之,第一重新分配方法採取多聲道編解碼器所使用的相同方法。然而,第一重新分配方法需要的解碼處理數目是相同於每一聲道中的物件信號數目,並且需 要重新分配處理以及以聲道為主的降混處理。
在第二重新分配的方法中,不像在第一重新分配的方法,物件信號並不由L及R降混信號而還原。而是,每個L及R降混信號被分為兩個部份:一部份L_L或R_R應留在相對應聲道中,以及另一部份L_R或R_L應重新分配,如圖25所示。參考圖25,L_L指出應留在L聲道中的一部份L聲道降混信號,而L_R指出應加在R聲道的一部份L聲道降混信號。同樣地,R_R指出應留在R聲道中的一部份R聲道降混信號,而R_L指出應加在L聲道的一部份R聲道降混信號。可依據每個物件信號分配於L及R降混信號間的比例,如方程式(2)所定義,以及每個物件信號應分配於前處理的L及R聲道L’及R’的比例,如方程式(3)所定義,而將每個L及R聲道降混信號分為兩部份(L_L及L_R或R_R及R_L)。因此,藉比較物件信號被分配於L及R降混信號間的比例以及物件信號應被分配於前處理L及R聲道的L’及R’之間的比例,可決定L及R聲道降混信號應如何重新分配於前處理L及R的聲道L’及R’之間。
依據預設能量比例將左聲道信號分割為L_L及L_R信號,已在上面被解釋。一旦左聲道信號被分割為L_L及L_R信號,則需要決定L_L及L_R信號之間的ICC。根據關於物件信號之ICC資訊,可輕易決定L_L及L_R信號之間的ICC。亦即,根據每個物件信號被分配在L_L及L_R信號之間的比例,可決定L_L及L_R信號之間的ICC。
第二降混重新分配的方法將在以下進一步做詳細描述。假設L及R聲道降混信號L及R是由圖24所示的方法獲得,而且第一、第二、第三及第四物件信號OBJECT1、OBJECT2、OBJECT3及OBJECT4分別以1:2、2:3、1:0及0:1的比例被分配在L及R聲道降混信號L及R之間。可藉一些OTT匣將複數個物件信號降混,並且可從對該等物件信號的降混以獲得如CLD及ICC資訊的資訊。
產生第一至第四物件信號OBJECT1至OBJECT4的渲染矩陣的實例如方程式(4)所示。渲染矩陣包含第一至第四物件信號OBJECT1至OBJECT4的位置資訊。因此,可藉使用渲染矩陣執行前處理而獲得前處理L及R聲道降混信號L’及R’。如何建立及詮釋渲染矩陣已在上面參考方程式(3)描述過。
每個第一至第四物件信號OBJECT1至OBJECT4被分配到前處理L及R聲道降混信號L及R之間的比例,可如方程式(5)所是而計算出來:
每個第一至第四物件信號OBJECT1至OBJECT4被分配到該L及R聲道降混信號L及R之間的比例,可如方程式(6)所示而計算出來:
參考方程式(5),分配到前處理L聲道降混信號L’的一部份第三物件信號OBJECT3以及分配到前處理R聲道降混信號R’的一部份第三物件信號OBJECT3的總和為110,因此可決定,第三物 件信號OBJECT3之位階已增加10。另一方面,分配到前處理L聲道降混信號L的一部份第四物件信號OBJECT4以及分配到該前處理的R聲道降混信號R的一部份第四物件信號物件4的總和為95,因此可決定,第四物件信號OBJECT4之位階已減少5。若第一至第四物件信號OBJECT1至OBJECT4的渲染矩陣具有參考值100,而且渲染矩陣的每列參數總和與參考值100所表示的數值(單位:分貝)的差異量是代表相對應物件信號位階被改變的量,則可決定,第三物件信號OBJECT3之位階已增加10分貝,而且第四物件信號OBJECT4之位階已減少5分貝。
方程式(5)及(6)可被重新整理為方程式(7):
方程式(7)比較前處理前每個第一至第四物件信號OBJECT1至OBJECT4被分配到L及R聲道降混信號之間的比例,以及前處理後每個第一至第四物件信號OBJECT1至OBJECT4被分配到L及R聲道降混信號之間的比例。因此,藉由使用方程式(7),可輕易決定,每個第一至第四物件信號OBJECT1至OBJECT4有多少應該透過前處理而被重新分配。例如,參考方程式(7),第二物件信號OBJECT2被分配到L及R聲道降混信號之間的比例,由40:60改變為30:70,也因此可決定,之前被分配到L聲道降混信號的第二物件信號OBJECT2的四分之一部份(25%),需要轉移為R聲道降混信號。藉由參考方程式(8),這會變得更加明顯: [方程式8] OBJECT1:最初在R上分配的55%的OBJECT1需移位至L OBJECT2:最初在L上分配的25%的OBJECT1需移位至R OBJECT3:最初在L上分配的50%的OBJECT1需移位至R OBJECT4:最初在R上分配的50%的OBJECT1需移位至L
藉由使用方程式(8),圖25的L_L、L_L、R_L及R_R信號,可重新表示為如方程式(9)所示:
方程式(9)的每個物件信號之數值,可藉使用OTT匣所提供的去量子化CLD資訊而表示成相對應物件信號被分配到L及R聲道的比例,如方程式(10)所示:
可決定使用於圖25的每個分析封包(parsing block)的CLD資訊,如方程式(11)所示: [方程式11]
以這種方式,可決定根據L聲道降混信號,使用於分析封包以產生L_L及L_R信號的CLD及ICC資訊,而且也可決定根據R聲道降混信號,使用於分析封包以產生R_L及R_R信號的CLD及ICC資訊。一旦獲得L_L、L_R、R_L及R_R信號,如圖25所示,則可加上L_R及R_R信號,因而獲得前處理立體聲降混信號。若最終聲道為立體聲聲道,可輸出由前處理所獲得的L及R聲道降混信號。在這個情況中,每個物件信號的位階的個改變,如果有的話,也會被調整。為此,可額外提供執行ADG模組之功能的預設模組。藉由使用計算ADG資訊所使用的相同方法,可計算用以調整每個物件信號之位階的資訊,而且這隨後將更詳細描述。另一方式是,每個物件信號之位階在前處理操作的過程中可被調整。在這個情況中,藉由使用處理ADG的相同方法,可執行每個物件信號之位階的調整。圖25實施例的另一方式是,藉由解聯器及混合器,可執行解聯(decorreoation)操作,而非藉由分析模組PARSING1 301及PARSING2 303,如圖26所示,以便調整藉由混合所獲得的L及R信號之間的關聯性。參考圖26,PRE_L及PRE_R指出藉由位階調整所獲得的L及R聲道信號。該些PRE_L及PRE_R信號可被輸入到解聯器307,然後受制於混音器309所執行的混合操作,因此獲得關聯調整的信號。
前處理的立體聲降混信號可輸入到多聲道解碼器。為了提供與物件位置資訊相容的多聲道輸出,及由最終使用者所設定的播放配置資訊,不只是前處理的降混信號,而且還有以聲道為主的輔助資訊,都是必要的。以下將詳細描述如何藉由再次使用以上所提的例子,獲得以聲道為主的輔助資訊。可根據方程式(5),定義輸入至多聲道解碼器的前處理降混信號L及R,如方程式(12) 所示: [方程式12]Eng LEng L _L Eng R _L =0.7Eng Obj 1 +0.3Eng Obj 2 +0.5Eng Obj 3 +0.5Eng obj 4Eng REng L _R Eng R _R =0.3Eng Obj 1 +0.7Eng Obj 2 +0.5Eng Obj 3 +0.5Eng Obj 4
可決定每個第一至第四物件信號OBJECT1至OBJECT4被分配於FL、RL、C、FR、RR聲道上的比例,如方程式(13)所示: [方程式13]Eng FL =0.3Eng Obj 1 +0.1Eng Obj 2 +0.2Eng Obj 3 +0.21.100/95.Eng Obj 4 Eng RL =0.3Eng Obj 1 +0.1Eng Obj 2 +0.2Eng Obj 3 +011.100/95.Eng Obj 4 Eng c =0.2Eng Obj 1 +0.2Eng Obj 2 +0.2Eng Obj 3 +0.31.100/95.Eng Obj 4 Eng FR =0.1Eng Obj 1 +0.3Eng Obj 2 +0.2Eng Obj 3 +0.21.100/95.Eng Obj 4 Eng RR =0.1Eng Obj 1 +0.3Eng Obj 2 +0.2Eng Obj 3 +0.11.100/95.Eng Obj 4
前處理降混信號L及R透過MPS可被擴展為5.1聲道,如圖27所示。參考圖27,TTT匣TTT0及OTT匣OTTA、OTTB及OTTC之參數可需要以參數頻帶為單位來計算,雖然參數頻帶因便利性的緣故未顯示。
TTT匣TTT0可用於兩不同模式中:以能量為主的模式及預測模式。當使用於以能量為主的模式中時,TTT匣TTT0需要二件CLD資訊。當使用於預測模式中時,TTT匣TTT0需要二件CPC資訊及一件ICC資訊。
為了在以能量為主的模式中計算CLD資訊,藉由使用方程式(6)、(10)及(13)可計算出圖27中信號L”、R”及C的能量比例。可計算信號L”之能階,如方程式(14)所示: [方程式14]
方程式(14)亦可使用於計算R”或C的能階。此後,根據信號L”、R”及C的能階,可計算用於TTT匣TTT0中的CLD資訊,如方程式(15)所示:
方程式(14)可根據方程式(10)而建立。雖然方程式(10)僅定義如何於L聲道計算能量數值,但是於R聲道之能量數值可藉由使用方程式(10)而計算出來。以這種方式,根據第一及第二OTT匣之CLD及ICC數值,可計算第三及第四OTT匣之CLD及ICC數值。然而,這可不一定要應用到所有樹狀結構,而只應到某些用以解碼物件信號的樹狀結構。包含於物件位元串流中之資訊,可傳送到每個OTT匣。另一方式是,包含於物件位元串流中之資訊,可僅傳送到某些OTT匣,而且指出尚未接收到資訊的OTT匣的資訊,可透過計算而獲得。
藉由使用上述所提的方法,可計算如CLD及ICC資訊的參數,給OTT匣OTTA、OTTB及OTTC。這種多聲道參數可輸入 到多聲道解碼器,然後被受制於多聲道解碼,藉以獲得依據最終使用者所要求的物件位置資訊及播放設置資訊,而被適當的渲染處理過的多聲道信號。
若物件信號之位階尚未藉由前處理而被調整,則多聲道參數可包含ADG參數。將在以下藉由再次使用以上提及的例子來詳細描述ADG參數的計算。
當渲染矩陣被產生使得第三物件信號之位階可增加10分貝,第四物件信號之位階可減少5分貝,L中第三物件信號成份的位階可增加10分貝,以及L中第四物件信號成份的位階可減少5分貝時,則在第三及第四物件信號之位階的調整前與調整後的能階比例RatioADG,L’,可藉由使用方程式(16)而計算出來:
比例Ratio ADG,L’ 可藉由方程式(10)代替方程式(16)而決定。給R聲道的比例Ratio ADG,R’ 藉由使用方程式(16)亦可計算出來。每個比例Ratio ADG,L’ Ratio ADG,R’ 表示因物件信號之位階的調整,相對應參數頻帶能量的改變。因此,ADG數值ADG(L’)及ADG(R’)藉由使用比例Ratio ADG,L’ Ratio ADG,R’ 可計算出來,如方程式(17)所: [方程式17]ADG (L ’)=10log10 (Ratio ADG,L’ )ADG (R ’)=10log10 (Ratio ADG,R’ )
一旦決定ADG參數ADG(L’)及ADG(R’),則ADG參數ADG(L’)及ADG(R’)藉由使用ADG量子化表(quantization table)而被量子化,而且量子化的ADG數值被傳送出去。若有需要進一步精確地調整ADG數值ADG(L’)及ADG(R’),則ADG數值ADG(L’)及ADG(R’)的調整可由前處理器執行,而非由MPS解碼器。
用以代表物件位元串流中物件信號的參數頻帶的數目及區間,可以不同於多聲道解碼器中參數頻帶的數目及區間。在這個情況中,物件位元串流之參數頻帶可被線性映射至多聲道解碼器之參數頻帶。更具體地,若物件位元串流之某一參數頻帶涉及多聲道解碼器之二參數頻帶,則可執行線性映射,使得物件位元串流之參數頻帶,依據相對應參數頻帶被分配到多聲道解碼器之該二參數頻帶之間的比例,被分割開。另一方面,若有一個以上的物件位元串流之參數頻帶包含於多聲道解碼器之某一參數頻帶中,則物件位元串流之參數數值可被平均。另一方式是,藉由使用多聲道標準的已知參數頻帶映射表(parameter band mapping table),可執行參數頻帶映射。
當物件編碼被使用於電話會議時,許多人聲對應於物件信號。物件解碼器分別在揚聲器中輸出對應於物件信號的該等聲音。然而,當一個以上的人同時說話時,物件解碼器要藉由解碼,適當分配該等人聲到不同的揚聲器,是很困難的,且該等人聲之映射,可造成聲音失真及聲音品質下降。為了印證所述,指出是否一個以上的人同時說話的資訊,可包含於位元串流中。然後,若根據一個以上的人同時說話的資訊是已決定的,則以聲道為主的位元串流可被改變,使得僅被解碼(barely-decoded)信號幾乎如同降混信號一般,可被輸出到每一揚聲器。
例如,假設有三人a、b及c,而且三人的人聲a、b及c需要被解碼,也因此分別被輸出到揚聲器A、B及C。當三人a、b及c同時說話,則三人的人聲a、b及c可被包含於降混信號中,該降混信號是藉由降混分別表示三人的人聲a、b及c之物件信號所獲得。在這個情況中,關於降混信號分別對應於三人的人聲a、b及c的部份之資訊,可被設置為多聲道位元串流。然後,該降混信號藉由使用傳統的物件解碼方法可被解碼,使得三人的聲音a、b及c可分別被輸出到揚聲器A、B及C。然而,每一揚聲器A、B及C之輸出會失真,且可因此具有較該原始降混信號為低的辨 識率。另外,三人的人聲a、b及c不可被適當地各自分離。為了印證所述,指出三人說話同時發生的言辭a、b及c之資訊,可被包含於位元串流中。然後,轉碼器可產生多聲道位元串流,使得藉由降混分別對應於三人之聲音a、b及c的物件信號所獲得的降混信號,可照樣輸出到每一揚聲器A、B及C。在這個方法中,防止信號失真是可行的。
實際上,若多於一人在同時間說話,很難分離出每一個人的人聲。因此,當降混信號的輸出如同降混信號被渲染而使得不同人的人聲可被各自分離開並輸出到不同的揚聲器時,聲音的品質可較高。為此,轉碼器可產生多聲道位元串流,使得由多於一人之該些同時發生的言辭所獲得的降混信號,可被輸出到所有的揚聲器,或者該降混信號可被放大,然後輸出到該些揚聲器。
為了指出物件位元串流的降混信號是否由一個或更多人同時發生的言辭而來,物件編碼器可適當修改物件位元串流,而非提供額外的資訊,如上面所描述。在這個情況中,物件解碼器可對該物件位元串流執行傳統的解碼操作,使得降混信號可照樣輸出到揚聲器,或降混信號可被放大,但不是放大到發生信號失真的程度,然後輸出到揚聲器。
提供給多聲道解碼器的3D資訊,如HTRF的,將在以下做詳細描述。
當物件解碼器在雙耳模式中操作,在物件解碼器中的多聲道解碼器亦在雙耳模式中操作。最終使用者可將3D資訊,如根據物件信號之空間位置而最佳化的HRTF,傳送到該多聲道解碼器。
更具體地,當有二物件信號,亦即OBJECT1及OBJECT2,而且該二物件信號OBJECT1及OBJECT2被分別配置於位置1及2,渲染矩陣產生器或轉碼器可具有指出物件信號OBJECT1及OBJECT2之位置的3D資訊。若渲染矩陣產生器具有指出物件信號OBJECT1及OBJECT2之位置的3D資訊,渲染矩陣產生器可傳送指出物件信號OBJECT1及OBJECT2之位置的3D資訊到轉 碼器。另一方面,若轉碼器具有指出物件信號OBJECT1及OBJECT2之些位置的3D資訊,渲染矩陣產生器可僅傳送對應於3D資訊之索引資訊到轉碼器。
在這個情況中,根據3D資訊所具體指定的位置1及2,可產生雙耳信號,如方程式(18)所示: [方程式18]LObj 1*HRTF L,Pos 1Obj 2*HRTF L,Pos 2 RObj 1*HRTF R,Pos 1Obj 2*HRTF R,Pos 2
假設5.1聲道揚聲器系統可用來再生出聲音,則藉由執行解碼,多聲道雙耳解碼器獲得雙耳聲音,而雙耳聲音可以方程式(19)表示: [方程式19]LFL *HRTF L,FL +C*HRTF L,C FR *HRTF L,FR RL *HRTF L,RL RR *HRTF L,RR R =FL*HRTF R,FL +C*HRTF R,C FR *HRTF R,FR RL *HRTF R,RL RR *HRTF R,RR
物件信號OBJECT1之L聲道成份可表示為方程式(20): [方程式20]L Obj 1Obj 1*HRTF L,Pos 1 L obj 1FL bOj 1 *HRTF L,FL C Obj 1 *HRTF L,C FR Obj 1 *HRTF L,FR RL Obj 1 *HRTF L,RL RR Obj 1 *HRTF L,RR
該物件信號OBJECT1之R聲道成份,以及該物件信號OBJECT2之L及R聲道成份,皆可藉由使用方程式(20)來定義。
例如,若物件信號OBJECT1及OBJECT2之能階對總能階之 比例分別為a及b,被分配到FL聲道的部份物件信號OBJECT1對整個物件信號OBJECT1之比例為c,被分配到FL聲道的部份物件信號OBJECT2對整個的物件信號OBJECT2之比例為d,則物件信號OBJECT1及OBJECT2被分配到該FL聲道之比例為ac:bd。在這個情況中,可決定FL聲道的HRTF,如方程式(21)所示:
以這種方式,可獲得多聲道雙耳解碼器中使用的3D資訊。由於多聲道雙耳解碼器中使用的3D資訊比較好表示物件信號之實際位置,所以藉由使用多聲道雙耳解碼器中使用的3D資訊,是比使用對應於五揚聲器位置之3D資訊以執行多聲道解碼,更能透過雙耳解碼逼真地再生雙耳信號。
如上所述,根據3D資訊所表示的物件信號之空間位置以及能量比例資訊,可計算多聲道雙耳解碼器中使用的3D資訊。另外,根據物件信號之ICC資訊,當3D資訊所表示的物件信號之空間位置相加時,藉由適當地執行解聯,可產生多聲道雙耳解碼器中使用的3D資訊。
效果處理可當作部份前處理來執行。另一方式是,效果處理的結果可輕易加到多聲道解碼器的輸出。在前者的情況中,為了對物件信號執行效果處理,除了L聲道信號分割為L_L及L_R,以及R聲道信號分割為R_R及R_L外,還需要執行物件信號之取得。
更具體地,物件信號首先可由L及R聲道信號取得。然後,L聲道信號可被分割為L_L及L_R,而R聲道信號可被分割為R_R 及R_L。可對物件信號執行效果處理。然後,依據渲染矩陣,已效果處理的物件信號可被分割為L及R聲道成份。此後,已效果處理的物件信號之L聲道成份可被加至L_L及R_L,而已效果處理的物件信號之R聲道成份可被加至R_R及L_R。
另一方式是,可先產生前處理的L及R聲道信號L及R。此後,物件信號可由前處理的L及R聲道信號L及R取得。此後,可對物件信號執行效果處理,而效果處理的結果可加回到前處理的L及R聲道信號。
物件信號之頻譜可透過效果處理而被修改。例如,高音調部份之位階,或物件信號之低音調部份,可選擇性地增加。為此,只有對應於物件信號之高音調部份或物件信號之低音調部份的頻譜部份可被修改。在這個情況中,與物件相關的資訊包含於物件位元串流中,因此需要改變。例如,若某一物件信號之低音調部份之位階增加,則物件信號之低音調部份之能量亦可增加。因此,包含於物件位元串流中的能量資訊,不再適當表示物件信號之能量。為了印證所述,包含於該物件位元串流中的能量資訊,依據物件信號之能量中的變化,可被直接地修改。另一方式是,由轉碼器所提供之頻譜變化資訊,可應用於多聲道位元串流構成,使得在物件信號之能量中的變化,可反應到多聲道位元串流中。
圖28至33顯示出用以解釋將複數件以物件為主的輔助資訊以及複數個降混信號合併為一件輔助資訊及一降混信號的圖式。在電話會議的情況中,有時將複數件以物件為主的輔助資訊以及複數個降混信號合併為一件輔助資訊及一降混信號是必要的。在這個情況中,需要考慮一些因素。
圖28顯示出物件編碼的位元串流之圖式。參考圖28,物件編碼的位元串流包含降混信號及輔助資訊。該降混信號與該輔助資訊同步。因此,物件編碼的位元串流可被立即解碼,而不需考慮額外的因素。然而,在合併複數個位元串流成為單一位元串流的情況中,有必要確認單一位元串流之降混信號是與單一位元串流 之輔助資訊同步。
圖29顯示出用以解釋合併複數個物件解碼之位元串流BS1及BS2的圖式。參考圖29,參考號數1、2及3指出框架號數。為了合併複數個降混信號成單一降混信號,降混信號可轉換為脈衝編碼調變(PCM)信號,PCM信號可在時域上降混,且降混的PCM信號可轉換為壓縮編解碼格式。在這些步驟過程中,延遲d會產生,如圖29(b)所示。因此,當需要解碼的位元串流藉由合併複數個位元串流而獲得時,有必要確認需要解碼之位元串流之降混信號是適當地同步於需要解碼之位元串流之輔助資訊。
若降混信號及位元串流的輔助資訊間的延遲為已知,則對應於該延遲之預設量可補償位元串流。降混信號及位元串流的輔助資訊間的延遲,可依據用以產生降混信號之壓縮編解碼的類型而改變。因此,指出降混信號及位元串流的輔助資訊間之延遲的位元,如果有的話,可包含於輔助資訊中。
圖30顯示出當位元串流BS1及BS2的降混信號被不同類型的編解碼器產生時,或位元串流BS1之輔助資訊的配置與位元串流BS2之輔助資訊的配置不同時,將位元串流BS1及BS2合併成單一位元串流。參考圖30,當位元串流BS1及BS2的降混信號被不同類型的編解碼器產生時,或位元串流BS1之輔助資訊的配置與位元串流BS2之輔助資訊的配置不同時,可決定由於降混信號轉換成時域信號,以及使用單一壓縮編解碼器轉換時域信號,讓位元串流BS1及BS2具有不同的信號延遲d1及d2。在此情況中,若只將位元串流BS1及BS2相加,而不考慮不同的信號延遲,則位元串流BS1之降混信號會與位元串流BS2之降混信號不匹配,而且位元串流BS1之輔助資訊會與位元串流BS2之輔助資訊不匹配。為了印證所述,被延遲d1的位元串流BS1之降混信號可進一步延遲,以便與被延遲d2的位元串流BS2之降混信號同步。然後,藉由使用圖30實施例的相同方法,可結合位元串流BS1及BS2。若有一個以上位元串流合併,則任何具有最大延遲的位元串流都 當作參考位元串流來使用,然後,位元串流可進一步延遲,以便與參考位元串流同步。指出降混信號及輔助資訊間之延遲的位元,可包含於物件位元串流中。
可提供指出位元串流中是否有信號延遲的位元。只有當位元資訊指出位元串流中有信號延遲,才可額外提供指定信號延遲的資訊。以這種方式,將用以指出位元串流中信號延遲所需的資訊量減到最少是可行的,如果有的話。
圖32顯示出用以解釋如何藉不同信號延遲之間的差異以補償具有不同信號延遲之該二位元串流BS1及BS2其中之一的圖式,尤其是如何補償具有比位元串流BS1還長之信號延遲的位元串流BS2。參考圖32,位元串流BS1之輔助資訊的第一至第三框架皆可照樣使用。另一方面,位元串流BS2之輔助資訊的第一至第三框架不可照原樣使用,因為位元串流BS2之輔助資訊的第一至第三框架並未各自與位元串流BS1之輔助資訊的第一至第三框架同步。例如,位元串流BS1之輔助資訊的第二框架,不僅對應於位元串流BS2之輔助資訊的第一框架部份,而且也對應於位元串流BS2之輔助資訊的第二框架部份。位元串流BS2之輔助資訊的第二框架對應於位元串流BS1之輔助資訊的第二框架的部份,對位元串流BS2之輔助資訊的整個第二框架的比例,以及第二位元串流BS2之輔助資訊的第一框架對應於位元串流BS1之輔助資訊的第二框架的部份,對位元串流BS2之輔助資訊的整個第一框架的比例,可計算出來,而且位元串流BS2之輔助資訊的第一及第二框架可根據計算結果而平均或補插。以這種方式,位元串流BS2之輔助資訊的第一至第三框架,可被各自與位元串流BS1之輔助資訊的第一至第三框架同步,如圖32(b)中所示。然後,位元串流BS1之輔助資訊與位元串流BS2之輔助資訊,可藉使用圖29之實施例的方法而合併。位元串流BS1及BS2之降混信號可合併成單一降混信號,而不需延遲補償。在這個情況中,對應於信號延遲d1之延遲資訊可儲存於藉由合併位元串流BS1及BS2所獲得的合 併位元串流中。
圖33顯示出用以解釋如何補償具不同信號延遲之二位元串流中具有較短信號延遲之位元串流的圖式。參考圖33,位元串流BS2之輔助資訊之第一至第三框架皆可照原樣使用。另一方面,位元串流BS1之輔助資訊的第一至第三框架不可照原樣使用,因為位元串流BS1之輔助資訊的第一至第三框架並未各自與位元串流BS2之輔助資訊的第一至至第三框架同步。例如,位元串流BS2之輔助資訊的第一框架,不僅對應於位元串流BS1的輔助資訊的第一框架部份,而且也對應於位元串流BS1之輔助資訊的第二框架部份。位元串流BS1之輔助資訊的第一框架中對應於位元串流BS2之輔助資訊的第一框架的部份,對位元串流BS1之輔助資訊的整個第一框架的比例,以及位元串流BS1之輔助資訊的第二框架中對應於位元串流BS2之輔助資訊的第一框架的部份,對位元串流BS1之輔助資訊的整個第二框架的比例,可計算出來,而且位元串流BS1之輔助資訊的第一及第二框架,可根據計算結果而平均或補插。以這種方式,位元串流BS1之輔助資訊的第一至第三框架,可各自位元串流BS2之輔助資訊的第一到至三框架同步,如圖35(b)中所示。然後,位元串流BS1之輔助資訊以及位元串流BS2之輔助資訊,可藉使用圖29之實施例的方法而合併。位元串流BS1及BS2之降混信號可合併成單一降混信號,而不需延遲補償,即使降混信號具有不同信號延遲。在這個情況中,對應於信號延遲d2之延遲資訊可儲存於藉由合併位元串流BS1及BS2所獲得的合併位元串流中。
若複數個物件編碼之位元串流合併成單一位元串流,則物件編碼之位元串流的降混信號需要合併成單一降混信號。為了將對應於不同壓縮編解碼器的複數個降混信號合併成單一降混信號,可將降混信號轉換成PCM信號或頻域信號,而且PCM信號或頻域信號可在一對應域中相加。此後,藉由使用預設壓縮編解碼器,可轉換相加結果。依據混信號在PCM操作的過程中是否被相加, 或在頻域中是否被相加,以及依據壓縮編解碼器的類型,會發生不同的信號延遲。由於解碼器不能從解碼的位元串流立即辨識不同的信號延遲,所以指定不同信號延遲的延遲資訊需要包含於位元串流中。這種延遲資訊可代表PCM信號中延遲樣本的數目,或在頻域中延遲樣本的數目。
本發明可被實現成寫入電腦可讀記錄媒體上的電腦可讀碼。電腦可讀記錄媒體可為任何類型的記錄裝置,其中資料是以電腦可讀方式儲存起來。電腦可讀記錄媒體之例子包含一ROM(唯讀記憶體)、一RAM(隨機存取記憶體)、一CD-ROM(唯讀光碟)、一磁帶、一軟磁碟、一光資料儲存以及一載波(例如,透過網路的資料傳送)。電腦可讀記錄媒體可分配於連接到網絡的複數個電腦系統,使得電腦可讀碼是以分散化的方式寫入到電腦可讀記錄媒體內並從電腦可讀記錄媒體來執行。熟知該技術領之人士能很容易了解實現本發明所需的功能性程式、程式碼以及指令段。
如上所述,依據本發明,藉由從以物件為主的音訊編碼及解碼方法之優點所得到的益處,對於每個物件信號,聲音像(sound images)被局部化。因此,在播放物件信號的過程中提供更逼真的聲音是可行的。此外,本發明可應用於互動遊戲,且可因此提供使用者更逼真的虛擬實境體驗。
本發明已經參考示範實施例而特別顯示以及描述過,熟知該技術領域的人士將了解,可以在不偏離如以下申請專利範圍所定義的本發明精神與範圍下,在此做形式以及細節上的不同改變。
100‧‧‧物件編碼器
111‧‧‧物件解碼器
113‧‧‧混合器/渲染器
120‧‧‧音訊解碼裝置
121‧‧‧物件解碼器
123‧‧‧混合器/渲染器
125‧‧‧參數轉換器
130‧‧‧音訊解碼裝置
131‧‧‧物件解碼器
133‧‧‧混合器/渲染器
140‧‧‧音訊解碼裝置
141‧‧‧多聲道解碼器
145‧‧‧參數轉換器
147‧‧‧ADG模組
150‧‧‧音訊解碼裝置
151‧‧‧多聲道雙耳解碼器
155‧‧‧參數轉換模組
157‧‧‧第一參數轉換器
159‧‧‧第二參數轉換器
160‧‧‧音訊解碼裝置
161‧‧‧前處理器
163‧‧‧多聲道解碼器
165‧‧‧參數轉換器
170‧‧‧音訊解碼裝置
171‧‧‧多聲道解碼器
173‧‧‧後處理器
175‧‧‧參數轉換器
180‧‧‧音訊解碼裝置
181‧‧‧前處理器
183‧‧‧多聲道解碼器
185‧‧‧後處理器
187‧‧‧參數轉換器
200‧‧‧音訊解碼裝置
201‧‧‧渲染矩陣產生器
203‧‧‧轉碼器
205‧‧‧多聲道解碼器
207‧‧‧前處理器
208‧‧‧效果處理器
209‧‧‧加法器
211‧‧‧OTT匣
213‧‧‧OTT匣
215‧‧‧OTT匣
217‧‧‧OTT匣
219‧‧‧OTT匣
221‧‧‧物件編碼器
223‧‧‧物件編碼器
225‧‧‧多工器
231‧‧‧物件編碼器
233‧‧‧物件編碼器
235‧‧‧物件編碼器
241‧‧‧多聲道編碼器
243‧‧‧物件編碼器
245‧‧‧多工器
251‧‧‧物件編碼器
253‧‧‧多聲道編碼器
255‧‧‧物件編碼器
257‧‧‧多工器
261‧‧‧第一匣
263‧‧‧第二匣
265‧‧‧第三匣
301‧‧‧分析模組1
303‧‧‧分析模組2
307‧‧‧解聯器
309‧‧‧混音器
圖1顯示出傳統以物件為主之編碼/解碼系統的方塊圖;圖2顯示出依據本發明第一實施例之音訊解碼裝置的方塊圖;圖3顯示出依據本發明第二實施例之音訊解碼裝置的方塊圖;圖4顯示出依據本發明第三實施例之音訊解碼裝置的方塊圖;圖5顯示出可用於圖4所示音訊解碼裝置中的任意降混增益模組 的方塊圖;圖6顯示出依據本發明第四實施例之音訊解碼裝置的方塊圖;圖7顯示出依據本發明第五實施例之音訊解碼裝置的方塊圖;圖8顯示出依據本發明第六實施例之音訊解碼裝置的方塊圖;圖9顯示出依據本發明第七實施例之音訊解碼裝置的方塊圖;;圖10顯示出依據本發明第八實施例之音訊解碼裝置的方塊圖;圖11及圖12顯示出用以解釋轉碼器操作的圖形;圖13至圖16顯示出用以解釋以物件為主的輔助資訊的配置;圖17至圖22顯示出用以解釋將複數件以物件為主的輔助資訊整合成單一件輔助資訊的圖形;圖23至圖27顯示出用以解釋前處理操作的圖形;以及圖28至圖33為用以解釋將複數個經解碼過的位元串流與以物件為主的信號結合成一位元串流的圖形。
120‧‧‧音訊解碼裝置
121‧‧‧物件解碼器
123‧‧‧混合器/渲染器
125‧‧‧參數轉換器

Claims (11)

  1. 一種音訊信號解碼方法,包括:取得至少兩個物件資訊,每一個中包含物件能量比例資訊與絕對物件能量資訊;決定在該至少兩個物件資訊之該絕對物件能量資訊中的被合併之絕對物件能量資訊;藉由使用該至少兩個物件資訊之該物件能量比例資訊與該被合併之絕對物件能量資訊來計算被合併之物件能量比例資訊;以及產生包含該被合併之絕對物件能量資訊與該被合併之物件能量比例資訊的被合併之物件資訊。
  2. 依據申請專利範圍第1項所述之方法,其中該絕對物件能量資訊表示最高物件能階。
  3. 依據申請專利範圍第1項所述之方法,其中該物件能量比例資訊表示每一物件能階對該絕對物件能量資訊的比例。
  4. 依據申請專利範圍第1項所述之方法,其中該被合併之絕對物件能量資訊表示該至少兩個物件資訊之該絕對物件能量資訊中的最高能階。
  5. 依據申請專利範圍第1項所述之方法,其中該被合併之物件能量比例資訊表示每一物件能階對該被合併之絕對物件能量資訊的比例。
  6. 一種音訊解碼裝置,包括:一多工解訊器,被配置以取得至少兩個物件資訊,每一個中包含物件能量比例資訊與絕對物件能量資訊;以及 一多指標控制器,被配置以決定在該至少兩個物件資訊之該絕對物件能量資訊中的被合併之絕對物件能量資訊,並藉由使用該至少兩個物件資訊之該物件能量比例資訊與該被合併之絕對物件能量資訊來計算被合併之物件能量比例資訊,以及產生包含該被合併之絕對物件能量資訊與該被合併之物件能量比例資訊的被合併之物件資訊。
  7. 依據申請專利範圍第6項所述之音訊解碼裝置,其中該絕對物件能量資訊表示最高物件能階。
  8. 依據申請專利範圍第6項所述之音訊解碼裝置,其中該物件能量比例資訊表示每一物件能階對該絕對物件能量資訊的比例。
  9. 依據申請專利範圍第6項所述之音訊解碼裝置,其中該被合併之絕對物件能量資訊表示該至少兩個物件資訊之該絕對物件能量資訊中的最高能階。
  10. 一種處理器可讀記錄媒體,在該處理器可讀記錄媒體上記錄一用以執行一處理器中依據申請專利範圍第1項所述之方法的程式。
  11. 依據申請專利範圍第6項所述之音訊解碼裝置,其中該被合併之物件能量比例資訊表示每一物件能階對該被合併之絕對物件能量資訊的比例。
TW097105208A 2007-02-14 2008-02-14 用以將以物件為主之音訊信號編碼與解碼之方法與裝置 TWI443647B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US90108907P 2007-02-14 2007-02-14
US90164207P 2007-02-16 2007-02-16
US90381807P 2007-02-28 2007-02-28
US90768907P 2007-04-13 2007-04-13
US92402707P 2007-04-27 2007-04-27
US94762007P 2007-07-02 2007-07-02
US94837307P 2007-07-06 2007-07-06

Publications (2)

Publication Number Publication Date
TW200847136A TW200847136A (en) 2008-12-01
TWI443647B true TWI443647B (zh) 2014-07-01

Family

ID=39690272

Family Applications (3)

Application Number Title Priority Date Filing Date
TW097105208A TWI443647B (zh) 2007-02-14 2008-02-14 用以將以物件為主之音訊信號編碼與解碼之方法與裝置
TW097105206A TWI396187B (zh) 2007-02-14 2008-02-14 用於將以物件為主之音訊信號編碼與解碼之方法與裝置
TW097105210A TWI431610B (zh) 2007-02-14 2008-02-14 用以將以物件為主之音訊信號編碼與解碼之方法與裝置

Family Applications After (2)

Application Number Title Priority Date Filing Date
TW097105206A TWI396187B (zh) 2007-02-14 2008-02-14 用於將以物件為主之音訊信號編碼與解碼之方法與裝置
TW097105210A TWI431610B (zh) 2007-02-14 2008-02-14 用以將以物件為主之音訊信號編碼與解碼之方法與裝置

Country Status (11)

Country Link
US (7) US8271289B2 (zh)
EP (3) EP2111617B1 (zh)
JP (4) JP5232795B2 (zh)
KR (3) KR101041825B1 (zh)
AT (1) ATE526659T1 (zh)
AU (3) AU2008215230B2 (zh)
BR (2) BRPI0802614A2 (zh)
CA (3) CA2645913C (zh)
MX (3) MX2008013073A (zh)
TW (3) TWI443647B (zh)
WO (3) WO2008100098A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI744293B (zh) * 2016-05-04 2021-11-01 香港商阿里巴巴集團服務有限公司 物件分配方法和裝置

Families Citing this family (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007089131A1 (en) * 2006-02-03 2007-08-09 Electronics And Telecommunications Research Institute Method and apparatus for control of randering multiobject or multichannel audio signal using spatial cue
US8370164B2 (en) 2006-12-27 2013-02-05 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel including information bitstream conversion
EP3712888B1 (en) 2007-03-30 2024-05-08 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
US8321211B2 (en) * 2008-02-28 2012-11-27 University Of Kansas-Ku Medical Center Research Institute System and method for multi-channel pitch detection
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
US8670440B2 (en) 2008-05-13 2014-03-11 Electronics And Telecommunications Research Institute Data transceiving apparatus and method in centralized MAC-based wireless communication system
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
RU2468451C1 (ru) * 2008-10-29 2012-11-27 Долби Интернэшнл Аб Защита от ограничения сигнала с использованием заранее существующих метаданных коэффициента усиления аудиосигнала
KR101600352B1 (ko) * 2008-10-30 2016-03-07 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 장치 및 방법
US8139773B2 (en) * 2009-01-28 2012-03-20 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
US8255821B2 (en) * 2009-01-28 2012-08-28 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
JP5377505B2 (ja) 2009-02-04 2013-12-25 パナソニック株式会社 結合装置、遠隔通信システム及び結合方法
WO2010091555A1 (zh) * 2009-02-13 2010-08-19 华为技术有限公司 一种立体声编码方法和装置
US8666752B2 (en) * 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
WO2010138309A1 (en) * 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Audio signal dynamic equalization processing control
WO2010138311A1 (en) * 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Equalization profiles for dynamic equalization of audio data
KR101387902B1 (ko) * 2009-06-10 2014-04-22 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
EP2465259A4 (en) * 2009-08-14 2015-10-28 Dts Llc OBJECT-ORIENTED AUDIOSTREAMING SYSTEM
TWI484473B (zh) 2009-10-30 2015-05-11 Dolby Int Ab 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統
CA2781310C (en) * 2009-11-20 2015-12-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
WO2011083981A2 (en) * 2010-01-06 2011-07-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US9112591B2 (en) 2010-04-16 2015-08-18 Samsung Electronics Co., Ltd. Apparatus for encoding/decoding multichannel signal and method thereof
US8948403B2 (en) * 2010-08-06 2015-02-03 Samsung Electronics Co., Ltd. Method of processing signal, encoding apparatus thereof, decoding apparatus thereof, and signal processing system
CN103003877B (zh) * 2010-08-23 2014-12-31 松下电器产业株式会社 声音信号处理装置及声音信号处理方法
JP5533502B2 (ja) * 2010-09-28 2014-06-25 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
JP6088444B2 (ja) * 2011-03-16 2017-03-01 ディーティーエス・インコーポレイテッドDTS,Inc. 3次元オーディオサウンドトラックの符号化及び復号
JP5719966B2 (ja) 2011-04-08 2015-05-20 ドルビー ラボラトリーズ ライセンシング コーポレイション 2つのエンコードされたビットストリームからのオーディオストリームの混合において使用するためのメタデータの自動設定
JP5463385B2 (ja) * 2011-06-03 2014-04-09 アップル インコーポレイテッド テキストデータとオーディオデータとの間のマッピングの自動作成
KR101783962B1 (ko) * 2011-06-09 2017-10-10 삼성전자주식회사 3차원 오디오 신호를 부호화 및 복호화하는 방법 및 장치
US9754595B2 (en) 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
US20130065213A1 (en) * 2011-09-13 2013-03-14 Harman International Industries, Incorporated System and method for adapting audio content for karaoke presentations
BR112014010062B1 (pt) * 2011-11-01 2021-12-14 Koninklijke Philips N.V. Codificador de objeto de áudio, decodificador de objeto de áudio, método para a codificação de objeto de áudio, e método para a decodificação de objeto de áudio
EP2795846A1 (en) * 2011-12-22 2014-10-29 Koninklijke Philips N.V. Wireless network configuration system and method
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
EP2850612B1 (en) 2012-05-18 2019-04-10 Dolby Laboratories Licensing Corporation System for maintaining reversible dynamic range control information associated with parametric audio coders
WO2013192111A1 (en) * 2012-06-19 2013-12-27 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
TWI453441B (zh) * 2012-06-29 2014-09-21 Zeroplus Technology Co Ltd Signal decoding method
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9479886B2 (en) * 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
CN104541524B (zh) * 2012-07-31 2017-03-08 英迪股份有限公司 一种用于处理音频信号的方法和设备
US9489954B2 (en) 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
WO2014023477A1 (en) * 2012-08-10 2014-02-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and methods for adapting audio information in spatial audio object coding
SG11201501876VA (en) * 2012-09-12 2015-04-29 Fraunhofer Ges Forschung Apparatus and method for providing enhanced guided downmix capabilities for 3d audio
EP2898506B1 (en) * 2012-09-21 2018-01-17 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
KR20140046980A (ko) * 2012-10-11 2014-04-21 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
KR20140047509A (ko) 2012-10-12 2014-04-22 한국전자통신연구원 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
AU2013355504C1 (en) 2012-12-04 2016-12-15 Samsung Electronics Co., Ltd. Audio providing apparatus and audio providing method
EP2757558A1 (en) * 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
TWI530941B (zh) * 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
CN105393304B (zh) 2013-05-24 2019-05-28 杜比国际公司 音频编码和解码方法、介质以及音频编码器和解码器
EP3270375B1 (en) 2013-05-24 2020-01-15 Dolby International AB Reconstruction of audio scenes from a downmix
CN109887516B (zh) 2013-05-24 2023-10-20 杜比国际公司 对音频场景进行解码的方法、音频解码器以及介质
US9420393B2 (en) * 2013-05-29 2016-08-16 Qualcomm Incorporated Binaural rendering of spherical harmonic coefficients
WO2014204911A1 (en) * 2013-06-18 2014-12-24 Dolby Laboratories Licensing Corporation Bass management for audio rendering
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
US9883311B2 (en) 2013-06-28 2018-01-30 Dolby Laboratories Licensing Corporation Rendering of audio objects using discontinuous rendering-matrix updates
EP2830049A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830332A3 (en) 2013-07-22 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration
EP2830046A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal to obtain modified output signals
EP2830048A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
KR102243395B1 (ko) * 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
JP6476192B2 (ja) 2013-09-12 2019-02-27 ドルビー ラボラトリーズ ライセンシング コーポレイション 多様な再生環境のためのダイナミックレンジ制御
WO2015038522A1 (en) * 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
EP3059732B1 (en) 2013-10-17 2018-10-10 Socionext Inc. Audio decoding device
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
JP6588899B2 (ja) * 2013-10-22 2019-10-09 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ装置のための組合せダイナミックレンジ圧縮および誘導クリッピング防止のための概念
CN113630711B (zh) 2013-10-31 2023-12-01 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
US10492014B2 (en) 2014-01-09 2019-11-26 Dolby Laboratories Licensing Corporation Spatial error metrics of audio content
KR101567665B1 (ko) * 2014-01-23 2015-11-10 재단법인 다차원 스마트 아이티 융합시스템 연구단 퍼스널 오디오 스튜디오 시스템
US9779739B2 (en) 2014-03-20 2017-10-03 Dts, Inc. Residual encoding in an object-based audio system
CN114242082A (zh) * 2014-05-30 2022-03-25 索尼公司 信息处理装置和信息处理方法
US10754925B2 (en) 2014-06-04 2020-08-25 Nuance Communications, Inc. NLU training with user corrections to engine annotations
US10373711B2 (en) 2014-06-04 2019-08-06 Nuance Communications, Inc. Medical coding system with CDI clarification request notification
JP6520937B2 (ja) * 2014-06-06 2019-05-29 ソニー株式会社 オーディオ信号処理装置および方法、符号化装置および方法、並びにプログラム
CN110992964B (zh) * 2014-07-01 2023-10-13 韩国电子通信研究院 处理多信道音频信号的方法和装置
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
US10163446B2 (en) * 2014-10-01 2018-12-25 Dolby International Ab Audio encoder and decoder
EP3786955B1 (en) 2014-10-03 2023-04-12 Dolby International AB Smart access to personalized audio
CA2982017A1 (en) * 2015-04-10 2016-10-13 Thomson Licensing Method and device for encoding multiple audio signals, and method and device for decoding a mixture of multiple audio signals with improved separation
EP3286929B1 (en) 2015-04-20 2019-07-31 Dolby Laboratories Licensing Corporation Processing audio data to compensate for partial hearing loss or an adverse hearing environment
CN106303897A (zh) 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
WO2017035281A2 (en) 2015-08-25 2017-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters
US10366687B2 (en) * 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
US10863297B2 (en) 2016-06-01 2020-12-08 Dolby International Ab Method converting multichannel audio content into object-based audio content and a method for processing audio content having a spatial position
US10949602B2 (en) 2016-09-20 2021-03-16 Nuance Communications, Inc. Sequencing medical codes methods and apparatus
US9896031B1 (en) 2017-01-03 2018-02-20 Ford Global Technologies, Llc Spatial auditory alerts for a vehicle
US11133091B2 (en) 2017-07-21 2021-09-28 Nuance Communications, Inc. Automated analysis system and method
US11024424B2 (en) 2017-10-27 2021-06-01 Nuance Communications, Inc. Computer assisted coding systems and methods
GB201718341D0 (en) * 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
US10650834B2 (en) * 2018-01-10 2020-05-12 Savitech Corp. Audio processing method and non-transitory computer readable medium
GB2572650A (en) 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
GB2578625A (en) * 2018-11-01 2020-05-20 Nokia Technologies Oy Apparatus, methods and computer programs for encoding spatial metadata
BR112021009667A2 (pt) 2018-12-13 2021-08-17 Dolby Laboratories Licensing Corporation inteligência de mídia de dupla extremidade
JP7092047B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 符号化復号方法、復号方法、これらの装置及びプログラム
EP3761672B1 (en) 2019-07-02 2023-04-05 Dolby International AB Using metadata to aggregate signal processing operations
US11582572B2 (en) * 2020-01-30 2023-02-14 Bose Corporation Surround sound location virtualization
WO2022076404A1 (en) 2020-10-05 2022-04-14 The Trustees Of Columbia University In The City Of New York Systems and methods for brain-informed speech separation
CN112309419B (zh) * 2020-10-30 2023-05-02 浙江蓝鸽科技有限公司 多路音频的降噪、输出方法及其***
CN115552518B (zh) * 2021-11-02 2024-06-25 北京小米移动软件有限公司 一种信号编解码方法、装置、用户设备、网络侧设备及存储介质

Family Cites Families (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3882280A (en) * 1973-12-19 1975-05-06 Magnavox Co Method and apparatus for combining digitized information
US6289308B1 (en) 1990-06-01 2001-09-11 U.S. Philips Corporation Encoded wideband digital transmission signal and record carrier recorded with such a signal
EP0562211A1 (en) * 1992-03-25 1993-09-29 International Business Machines Corporation Self-aligning fiber couplers
TW272341B (zh) 1993-07-16 1996-03-11 Sony Co Ltd
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
US6505160B1 (en) * 1995-07-27 2003-01-07 Digimarc Corporation Connected audio and other media objects
IT1281001B1 (it) 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
TW429700B (en) 1997-02-26 2001-04-11 Sony Corp Information encoding method and apparatus, information decoding method and apparatus and information recording medium
US7110662B1 (en) * 1997-03-25 2006-09-19 Samsung Electronics Co., Ltd. Apparatus and method for recording data on a DVD-audio disk
US6449227B1 (en) * 1997-03-25 2002-09-10 Samsung Electronics Co., Ltd. DVD-audio disk, and apparatus and method for playing the same
US6741796B1 (en) * 1997-03-25 2004-05-25 Samsung Electronics, Co., Ltd. DVD-Audio disk, and apparatus and method for playing the same
KR100261254B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
JP4132154B2 (ja) * 1997-10-23 2008-08-13 ソニー株式会社 音声合成方法及び装置、並びに帯域幅拡張方法及び装置
KR100335609B1 (ko) 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
US20050120870A1 (en) 1998-05-15 2005-06-09 Ludwig Lester F. Envelope-controlled dynamic layering of audio signal processing and synthesis for music applications
US7478042B2 (en) * 2000-11-30 2009-01-13 Panasonic Corporation Speech decoder that detects stationary noise signal regions
TW501376B (en) 2001-02-09 2002-09-01 Elan Microelectronics Corp Decoding device and method of digital audio
US6849794B1 (en) 2001-05-14 2005-02-01 Ronnie C. Lau Multiple channel system
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
EP1374230B1 (en) * 2001-11-14 2006-06-21 Matsushita Electric Industrial Co., Ltd. Audio coding and decoding
US7149412B2 (en) 2002-03-01 2006-12-12 Thomson Licensing Trick mode audio playback
CN100508026C (zh) 2002-04-10 2009-07-01 皇家飞利浦电子股份有限公司 立体声信号编码
ES2300567T3 (es) 2002-04-22 2008-06-16 Koninklijke Philips Electronics N.V. Representacion parametrica de audio espacial.
US7542896B2 (en) 2002-07-16 2009-06-02 Koninklijke Philips Electronics N.V. Audio coding/decoding with spatial parameters and non-uniform segmentation for transients
CA2453814C (en) 2002-07-19 2010-03-09 Nec Corporation Audio decoding apparatus and decoding method and program
JP2004064363A (ja) 2002-07-29 2004-02-26 Sony Corp デジタルオーディオ処理方法、デジタルオーディオ処理装置およびデジタルオーディオ記録媒体
US7058571B2 (en) * 2002-08-01 2006-06-06 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method for band expansion with aliasing suppression
EP1543307B1 (en) 2002-09-19 2006-02-22 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method
EP1568251B1 (en) * 2002-12-02 2007-01-24 Thomson Licensing Method for describing the composition of audio signals
EP1576602A4 (en) * 2002-12-28 2008-05-28 Samsung Electronics Co Ltd METHOD AND DEVICE FOR MIXING AUDIO SEQUENCE AND INFORMATION RECORDING MEDIUM
AU2003219430A1 (en) 2003-03-04 2004-09-28 Nokia Corporation Support of a multichannel audio extension
JP2004361731A (ja) 2003-06-05 2004-12-24 Nec Corp オーディオ復号装置及びオーディオ復号方法
US8140164B2 (en) * 2003-10-15 2012-03-20 Rmx, Llc Therapeutic diaphragm stimulation device and method
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7391870B2 (en) 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
KR100658222B1 (ko) 2004-08-09 2006-12-15 한국전자통신연구원 3차원 디지털 멀티미디어 방송 시스템
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
TWI237806B (en) * 2004-11-03 2005-08-11 Sunplus Technology Co Ltd Audio decoding system with ring buffer and method thereof
WO2006060279A1 (en) 2004-11-30 2006-06-08 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
DE102005008366A1 (de) * 2005-02-23 2006-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ansteuern einer Wellenfeldsynthese-Renderer-Einrichtung mit Audioobjekten
TWI279712B (en) 2005-04-13 2007-04-21 Realtek Semiconductor Corp Voice message encoding/decoding apparatus and its method
WO2007004828A2 (en) 2005-06-30 2007-01-11 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
KR20070011100A (ko) 2005-07-18 2007-01-24 엘지전자 주식회사 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법 및그 보정을 위한 부호화된 오디오 신호 생성방법
US8359341B2 (en) 2005-12-10 2013-01-22 International Business Machines Corporation Importing content into a content management system using an e-mail application
WO2007089131A1 (en) 2006-02-03 2007-08-09 Electronics And Telecommunications Research Institute Method and apparatus for control of randering multiobject or multichannel audio signal using spatial cue
EP1984916A4 (en) * 2006-02-09 2010-09-29 Lg Electronics Inc AUDIO SIGNAL-BASED ENCODING AND DECODING METHOD AND CORRESPONDING APPARATUS
EP1853092B1 (en) * 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
DE102006029752A1 (de) 2006-06-28 2008-01-10 Basf Construction Polymers Gmbh Verwendung von Methacrylat-Derivaten zur Verdickung salzhaltiger Medien
WO2008003362A1 (en) 2006-07-07 2008-01-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for combining multiple parametrically coded audio sources
MY151722A (en) 2006-07-07 2014-06-30 Fraunhofer Ges Forschung Concept for combining multiple parametrically coded audio sources
EP2575129A1 (en) * 2006-09-29 2013-04-03 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
EP2437257B1 (en) * 2006-10-16 2018-01-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Saoc to mpeg surround transcoding
UA94117C2 (ru) * 2006-10-16 2011-04-11 Долби Свиден Ав Усовершенстованное кодирование и отображение параметров многоканального кодирования микшированных объектов
MX2009005159A (es) 2006-11-15 2009-05-25 Lg Electronics Inc Un metodo y un aparato para descodificar una señal de audio.
JP5133401B2 (ja) * 2007-04-26 2013-01-30 ドルビー・インターナショナル・アクチボラゲット 出力信号の合成装置及び合成方法
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
CN101821799B (zh) * 2007-10-17 2012-11-07 弗劳恩霍夫应用研究促进协会 使用上混合的音频编码

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI744293B (zh) * 2016-05-04 2021-11-01 香港商阿里巴巴集團服務有限公司 物件分配方法和裝置

Also Published As

Publication number Publication date
US20110200197A1 (en) 2011-08-18
BRPI0802613A2 (pt) 2011-08-30
EP2111617A4 (en) 2010-01-20
JP5254983B2 (ja) 2013-08-07
US8271289B2 (en) 2012-09-18
US20110202357A1 (en) 2011-08-18
EP2111616A4 (en) 2010-05-26
US8756066B2 (en) 2014-06-17
KR20090082340A (ko) 2009-07-30
CA2645915C (en) 2012-10-23
AU2008215232A1 (en) 2008-08-21
AU2008215231B2 (en) 2010-02-18
TW200847136A (en) 2008-12-01
AU2008215230A1 (en) 2008-08-21
MX2008013073A (es) 2008-10-27
TW200907932A (en) 2009-02-16
US9449601B2 (en) 2016-09-20
CA2645913A1 (en) 2008-08-21
EP2111616A1 (en) 2009-10-28
JP5291227B2 (ja) 2013-09-18
EP2111616B1 (en) 2011-09-28
TWI431610B (zh) 2014-03-21
JP2012198556A (ja) 2012-10-18
MX2008012986A (es) 2008-11-28
US20110202356A1 (en) 2011-08-18
WO2008100099A1 (en) 2008-08-21
US8417531B2 (en) 2013-04-09
WO2008100098A1 (en) 2008-08-21
US20100076772A1 (en) 2010-03-25
TWI396187B (zh) 2013-05-11
KR101041825B1 (ko) 2011-06-17
CA2645915A1 (en) 2008-08-21
KR20090082339A (ko) 2009-07-30
MX2008013078A (es) 2008-11-28
US8204756B2 (en) 2012-06-19
JP2010506231A (ja) 2010-02-25
CA2645912C (en) 2014-04-08
US8234122B2 (en) 2012-07-31
US20090210238A1 (en) 2009-08-20
EP2111617A1 (en) 2009-10-28
US20090326958A1 (en) 2009-12-31
JP5232795B2 (ja) 2013-07-10
AU2008215231A1 (en) 2008-08-21
EP2111617B1 (en) 2013-09-04
AU2008215232B2 (en) 2010-02-25
CA2645912A1 (en) 2008-08-21
BRPI0802614A2 (pt) 2011-08-30
KR101049143B1 (ko) 2011-07-15
EP2115739A4 (en) 2010-01-20
JP2010506232A (ja) 2010-02-25
EP2115739A1 (en) 2009-11-11
KR20090030323A (ko) 2009-03-24
JP2010508545A (ja) 2010-03-18
WO2008100100A1 (en) 2008-08-21
KR101069268B1 (ko) 2011-10-04
AU2008215230B2 (en) 2010-03-04
US8296158B2 (en) 2012-10-23
ATE526659T1 (de) 2011-10-15
CA2645913C (en) 2012-09-18
TW200921642A (en) 2009-05-16
US20140297294A1 (en) 2014-10-02

Similar Documents

Publication Publication Date Title
TWI443647B (zh) 用以將以物件為主之音訊信號編碼與解碼之方法與裝置
RU2449388C2 (ru) Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов
JP5646699B2 (ja) マルチチャネル・パラメータ変換のための装置および方法