TWI396187B - 用於將以物件為主之音訊信號編碼與解碼之方法與裝置 - Google Patents

用於將以物件為主之音訊信號編碼與解碼之方法與裝置 Download PDF

Info

Publication number
TWI396187B
TWI396187B TW097105206A TW97105206A TWI396187B TW I396187 B TWI396187 B TW I396187B TW 097105206 A TW097105206 A TW 097105206A TW 97105206 A TW97105206 A TW 97105206A TW I396187 B TWI396187 B TW I396187B
Authority
TW
Taiwan
Prior art keywords
signal
information
channel
downmix
signals
Prior art date
Application number
TW097105206A
Other languages
English (en)
Other versions
TW200907932A (en
Inventor
Dong Soo Kim
Hee Suk Pang
Jae Hyun Lim
Sung Yong Yoon
Hyun Kook Lee
Original Assignee
Lg Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lg Electronics Inc filed Critical Lg Electronics Inc
Publication of TW200907932A publication Critical patent/TW200907932A/zh
Application granted granted Critical
Publication of TWI396187B publication Critical patent/TWI396187B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

用於將以物件為主之音訊信號編碼與解碼之方法與裝置
本發明關於一種音訊編碼的方法與裝置,以及一種音訊解碼的方法與裝置,其中以物件為主的音訊信號可以經執行編碼與解碼的操作而有效地被處理。
一般來說,在多聲道(multi-channel)音訊編碼與解碼技術中,多聲道信號中的一些聲道信號被降混(downmixed)成較少聲道的信號,與原聲道訊號有關的輔助資訊(side information)被傳送,且一具有與原多聲道信號一樣多聲道的多聲道信號被還原。
以物件為主的音訊編碼與解碼技術,基本上是與多聲道音訊編碼和解碼技術相似的,其降混數個聲源到更少的聲源信號並傳送與原聲源相關的輔助資訊。然而,在以物件為主的音訊編碼與解碼技術中,聲道信號裡基本元素的物件信號(例如:樂器聲或人聲)被當作多聲道音訊編碼與解碼技術中的聲道信號一樣處理,且能被編碼。
換言之,在以物件為主的音訊編碼與解碼技術中,物件信號是被視為要被編碼的實體。在這一點上,以物件為主的音訊編碼與解碼技術是與多聲道音訊編碼與解碼技術不同的,其中一多聲道音訊編碼操作僅依聲道間資訊執行,而不顧一聲道信號需被編碼的元素數量。
本發明提供了一種音訊編碼與解碼的方法與裝置,其中音訊信號可以被編碼或解碼,使得音訊信號可被應用在不同的環境中。
根據本發明的特點,提供一音訊解碼方法,包含接收一降混信號和以物件為主的輔助資訊,該降混信號藉降混複數個物件信號來取得;從以物件為主的輔助資訊擷取詮釋資料(metadata);以 及依據詮釋資料顯示關於物件信號的物件相關資訊。根據本發明的另一個方面,提供一音訊編碼方法,包含藉由降混複數個物件信號產生一降混信號;藉由從物件信號擷取物件相關資訊來產生以物件為主的輔助資訊;以及***詮釋資料以編譯物件相關資訊成以物件為主的輔助資訊。
根據本發明的另一特點,提供一音訊解碼裝置,包含一設定用以從一輸入音訊信號擷取一降混信號與以物件為主的輔助資訊之多工解訊器,該降混信號藉由降混複數個物件信號取得;一用以從以物件為主的輔助資訊擷取詮釋資料之轉碼器;以及一渲染器(renderer)依據詮釋資料顯示關於物件信號的物件相關資訊。
根據本發明的另一特點,提供一電腦可讀的記錄媒體,具有紀錄用以執行一音訊解碼方法的一電腦程式,該音訊解碼方法包含:接受一降混信號與以物件為主的輔助資訊,該降混訊號藉由降混複數個物件信號取得;從以物件為主的輔助資訊擷取詮釋資料;以及依據詮釋資料顯示關於物件信號的物件相關資訊。
根據本發明的另一特點,提供一電腦可讀的記錄媒體,具有紀錄執行一音訊編碼方法的一電腦程式,該音訊編碼方法包含;藉由降混複數個物件信號產生一降混信號;藉由從物件信號擷取物件相關資訊來產生以物件為主的輔助資訊;以及***詮釋資料至以物件為主的輔助資訊,該詮釋資料代表了物件相關資訊。
本發明在以下文中將會以圖式輔助的實施例詳細描述。
根據本發明,一音訊編碼方法與裝置及一音訊解碼方法與裝置,可應用在以物件為主之音訊處理操作,但本發明並不受限於此。換言之,該音訊編碼方法與裝置及該音訊解碼方法與裝置可應用至多樣的訊號處理操作,非僅於以物件為主之音訊處理操作。
圖1係說明一典型以物件為主之音訊編碼/解碼系統的方塊圖。一般來說,音訊信號輸入至一以物件為主之音訊編碼裝置, 不會符合多聲道信號的聲道,但卻是獨立的物件信號。在這一點上,以物件為主之一音訊編碼裝置便與一多聲道信號的聲道信號輸入的一多聲道音訊編碼裝置產生差異。
舉例來說,一聲道信號,如5.1聲道信號中一左前與一右前的聲道信號,可被輸入至一多聲道音訊信號,而比聲道信號實體更小的物件信號,如人聲或樂器聲(例:小提琴或鋼琴聲),可被輸入至一以物件為主之音訊編碼裝置。
請參閱圖1,該以物件為主之音訊編碼/解碼系統,包含了一以物件為主之音訊編碼裝置、與一以物件為主之音訊解碼裝置。該以物件為主之音訊編碼裝置包含了一物件編碼器100,以及該以物件為主之音訊解碼裝置包含了一物件解碼器111與混合器/渲染器113。
物件編碼器100接收了N個物件信號,並產生一以物件為主的降混信號,其具有一個或複數個聲道、及包含數個從N個物件信號擷取之片段資訊的輔助資訊,其中輔助資訊可能為能量差資訊(energy difference information)、相位差資訊(phase difference information)與相關資訊(correlation information)。該輔助資訊與該以物件為主的降混信號合而成為一單一位元串流(single bitstream),並且該位元串流被傳送至以物件為主之解碼裝置。
輔助資訊可包含了旗標,用以指示表現聲道為主或以物件為主的音訊編碼,因此輔助資訊的旗標可決定表現聲道為主或以物件為主的音訊編碼。該輔助資訊也可包含了有關物件信號的能量資訊(energy information)、分組資訊(grouping information)、靜音期資訊(silent period information)、降混增益資訊(downmix gain information)及延遲資訊(delay information)。
輔助資訊與物件為主之降混信號可合而為一單一位元串流,且該單一位元串流可被傳送至以物件為主之音訊解碼裝置。
物件解碼器111從以物件為主之音訊編碼裝置接受了以物件為主之降混信號與輔助資訊,並依據以物件為主之降混信號與輔 助資訊,還原與那些N個物件信號有相似性質的物件信號。
由物件解碼器111產生的物件信號尚未在多聲道空間裡被定位於任何位置。故,混合器/渲染器113定位每一個由物件解碼器111產生的物件信號至在多聲道空間中預定的位置,並決定物件信號的位階,以致該物件信號可以從分別對應位置被複製,此分別對應位置由具分別對應位階的混合器/渲染器113所設計,此分別對應位階由該混合器/渲染器113所決定。
關係到每個由物件解碼器111產生的物件信號之控制資訊可隨著時間變化,故由物件解碼器111產生的物件信號的空間位置與位階可依據該控制資訊變化。
圖2表示一根據本發明的第一實施例的音訊解碼裝置120的方塊圖。請參閱圖2,該音訊解碼裝置120能藉由分析控制資訊來執行自適性解碼。
根據圖2,音訊解碼裝置120包含了一物件解碼器121、一混合器/渲染器123、以及一參數轉換器125。該音訊解碼裝置120也可包含一多工解訊器(未標示),該多工解訊器由一輸入至此的位元串流擷取一降混信號與輔助資訊,並且此可應用在依據本發明的其他實施例所有的音訊解碼裝置。
物件解碼器121依照由參數轉換器125提供的一降混信號與修正過的輔助資訊產生一數量之物件信號。混合器/渲染器123定位每個由物件解碼器121產生的物件信號,以預先決定一多聲道空間中的位置,及決定物件解碼器121依控制訊號產生的物件信號的位階。該參數轉換器125藉由結合輔助資訊與控制資訊來產生修正過的輔助資訊。接著,該參數轉換器125傳送修正過的輔助資訊到物件解碼器121。
物件解碼器121能藉由分析修正過的輔助資訊中的控制資訊執行自適性解碼。
舉例來說,如果控制資訊指出一第一物件信號與一第二物件信號被定位在多聲道空間中一樣的位置並有一樣的位階,則一典 型的音訊解碼裝置可分開解碼第一與第二物件信號,然後經由一混合器/渲染器的操作,將它們排列在一多聲道空間。
另一方面,音訊解碼裝置120的物件解碼器121從修正過的輔助資訊中的控制資訊,獲得第一與第二物件信號在多聲道空間中被定位在一樣的位置,亦擁有同樣的位階,好似它們為一單一音源。因此,該物件解碼器121視第一與第二物件信號為一單一音源進行解碼,而非分開進行之,是故解碼的複雜度降低了。更進一步地,由於需要被處理的音源數量減少了,混合器/渲染器的複雜度亦會降低。
因為複數個物件信號很可能被定位在同樣的空間位置,故當物件信號數大於輸出聲道數時,音訊解碼裝置120可被有效率地使用。
另一方式是,當第一物件信號與第二物件信號在多聲道空間中被定位在同一位置但擁有不同位階時,音訊解碼裝置120可被使用。在此例下,該音訊解碼裝置120藉由視第一與第二物件信號為一單一信號對其進行解碼,而非分開解碼並傳送解碼後的第一與第二信號至混合器/渲染器123。更精確地說,該物件解碼器121從修正過的輔助資訊中的控制資訊,可獲得關於第一與第二物件信號的位階差異的資訊,然後根據得到的資訊解碼第一與第二物件信號。是故,即使該第一與第二物件信號有不同的位階,也可以像當作是單一音源一樣地被解碼。
再另一方式是,物件解碼器121根據控制資訊可調整物件解碼器121產生的物件信號的位階。接著,該物件解碼器121可解碼位階已被調整的物件信號。因此,混合器/渲染器123不需去調整由該物件解碼器121提供被解碼過的物件信號的位階,只要在一多聲道空間中,排列物件解碼器121提供的被解碼過的物件信號。簡言之,既然物件解碼器121根據控制資訊調整了其產生的物件信號的位階,混合器/渲染器123能在一多聲道空間中迅速地排列該物件解碼器121產生的物件信號,而不需附加調整該物件 解碼器121產生的物件信號的位階。所以是可降低混合器/渲染器的複雜度的。
根據圖2的實施例,音訊解碼裝置120的物件解碼器可以經由對控制系統的分析,適性地執行一解碼操作從而降低解碼的複雜度和混合器/渲染器的複雜度。由該音訊解碼裝置120執行結合以上描述之方法,是可被使用的。
圖3表示了根據本發明的第二實施例一音訊解碼裝置130的方塊圖。請參閱圖3,音訊解碼裝置130包含了一物件解碼器131與一混合器/渲染器133。該音訊解碼裝置130特徵為提供輔助資訊不單單給該物件解碼器131,亦給該混合器/渲染器133。
甚至當有一符合靜音期的物件信號時,音訊解碼裝置130可有效率地執行一解碼操作。舉例來說,第二到第四物件信號可在樂器演奏期間對應一放音期(music play period),而一第一物件信號可在只有背景音樂演奏期間對應一啞音期(mute period),一第一物件信號可在伴奏播放期間對應一靜音期(silent period)。在這種情況下,輔助資訊可包含指示哪一個複數物件信號符合靜音期的資訊,且如被提供至物件解碼器131一般,該輔助資訊亦可被提供至混合器/渲染器133。
物件解碼器131可藉由不去解碼一符合靜音期的物件信號,來減少解碼的複雜度。該物件解碼器131設置一符合值為0的物件信號,並將其位階傳送至混合器/渲染器133。一般來說,值為0與非為0的物件信號是被同等處理的,並因此進入一混音/渲染的操作。
在另一方面,音訊解碼裝置130傳送輔助資訊至混合器/渲染器133,該輔助資訊包含指示哪一個複數物件信號符合靜音期的資訊,如此便可防止一符合靜音期的物件信號被混合器/渲染器133進行混音/渲染操作。所以,該音訊解碼裝置130可以防止混音/渲染的複雜度不必要的增加。
圖4係說明一依據本發明的第三實施例的音訊解碼裝置140 的方塊圖。請參閱圖4,該音訊解碼裝置140使用一多聲道解碼器141,而非一物件解碼器與一混合器/渲染器,且在一數量之物件信號在多聲道空間中被適當地排列後,解碼該物件信號。
更精確地說,該音訊解碼裝置140包含了一多聲道解碼器141與一參數轉換器145。該多聲道解碼器141產生一多聲道信號,其物件信號根據一降混信號與空間參數資訊(spatial parameter information)在一多聲道空間中已被排列好,該空間參數資訊是由該參數轉換器145提供以聲道為主的參數資訊。該參數轉換器145分析被音訊編碼裝置(未表示)傳送的輔助資訊與控制資訊,並根據分析結果產生了該空間參數資訊。更精確地說。該參數轉換器145藉由結合包含了播放設定資訊與混音資訊的輔助資訊與控制資訊,產生了空間參數資訊。即,該參數轉換器145執行了輔助資訊與控制資訊的結合的轉換,至符合一一至二匣(One-To-Two box,OTT匣)或一二至三匣(Two-to-Three box,TTT匣)的空間數據。
音訊解碼裝置140可執行一多聲道解碼操作,其中一以物件為主的解碼操作與一混音/渲染操作被合併其內,並因此略過了每個物件信號的解碼。所以,減少解碼和/或混音/渲染的複雜乃為可行。
舉例來說,當有10個物件信號且根據該10個物件信號得到的一多聲道信號被一5.1聲道揚聲器複製,一典型以物件為主的音訊解碼裝置產生被解碼的信號,依據一降混信號與輔助資訊,分別符合該10個物件信號,接著,藉由適當地在一多聲道空間中排列該10個物件信號,致使該物件信號可適合於一5.1聲道揚聲器環境,進而產生一5.1聲道信號。然而,在一5.1聲道信號的產生期間,產生10個物件信號是很沒有效率的,且當物件信號的數量與一被產生的多聲道信號的聲道數量差異增大時,這個問題會更加嚴重。
在另一方面,圖4中的實施例,音訊解碼裝置140根據輔助資訊與控制資訊產生適合一5.1聲道信號的空間參數資訊,並提供 該空間參數資訊與一降混信號給多聲道解碼器141。然後,該多聲道解碼器141根據該空間參數資訊與該降混信號產生一5.1聲道信號。換句話說,當要被輸出的聲道數量是5.1時,該音訊解碼裝置140可以很快地根據一降混信號產生一5.1聲道信號,而不需產生10個物件信號。因此在複雜度上這比傳統的音訊解碼裝置更加有效率。
在每個物件信號被解碼後,當用來計算空間參數資訊的計量比執行一混音/渲染操作的計量還少時,音訊解碼裝置140會被當作有效率的。該空間參數資訊經由輔助資訊與被一音訊編碼裝置傳送之控制資訊的分析,符合每個OTT匣與TTT匣。
只要藉加入一用來經輔助資訊與控制資訊的分析產生的空間參數資訊的模組,至一典型的多聲道音訊解碼裝置,音訊解碼裝置140可被取得。因此亦可保持與典型多聲道音訊解碼裝置的相容性。且,該音訊解碼裝置140亦能改善音質,該音質使用典型多聲道音訊解碼裝置的現存工具如一包絡整形器(envelope shaper)、一子頻帶時序處理(sub-band temporal processing, STP)工具與一解聯器(decorrelator)。在這樣的情況下可以結論出,所有傳統多聲道音訊解碼方法的優點,都能完好地應用在物件-音訊的解碼方法。
被參數轉換器145傳送到該多聲道解碼器141的空間參數資訊,能先被壓縮以便適於傳送。另一種方式為,該空間參數資訊可與傳統多聲道編碼裝置傳送的資料有一樣的格式。即該空間參數資訊可被送入一赫夫曼解碼(Huffman decoding)操作或一引導解碼(pilot decoding)操作,且因此以未被壓縮的空間提示資料(spatial cue data)被傳送至每個模組。前者適合用於在遠處傳送該空間參數資訊至一多聲道音訊解碼裝置,而後者方便於對一多聲道音訊解碼裝置不需轉換壓縮的空間提示資料成被解壓縮的空間提示資料,而被解壓縮空間提示資料可容易地被用於一解碼操作。
依據輔助資訊與控制資訊的分析,空間參數資訊所做的設定 可能會造成一延遲。為了補償這樣的延遲,可為一降混信號提供一附加的緩衝區,使得該降混信號與一位元串流之間的延遲可被補償。另一方法為,可提供從控制資訊得到的空間參數資訊一附加的緩衝區,使致該空間參數資訊與一位元串流之間的延遲可被補償。然而,因為需要提供附加的緩衝區,這些方法並不方便。換另一種,考量到在一降混訊號與空間參數資訊間的延遲的可能,輔助資訊可比降混信號被傳送在先。在這情況下,結合該輔助資訊與控制資訊而得到的空間參數資訊並不需要被調整就可輕易地被使用。
如果一降混信號的複數個物件信號擁有不同的位階,能直接補償該降混信號的一任意降混增益(arbitrary downmix gain, ADG)模組可決定該物件信號的相對位階,且每一個物件信號可以被定位至一多聲道空間中預訂好的位置,該多聲道空間使用空間提示資料如聲道級位差(channel level difference, CLD)資訊、聲道關聯(inter-channel correlation, ICC)資訊以及聲道預測係數(channel prediction coefficient, CPC)資訊。
舉例來說,如果控制資訊指出說,一預先決定的物件信號要被在一多聲道空間中被定位至預先決定的位置,且擁有比其他物件信號更高的位階,則一典型多聲道解碼器會計算在一降混訊號的聲道的能量差,並依據該計算結果分解該降混訊號至一數量之輸出聲道。然而,一典型多聲道解碼器並不能增加或減少降混信號中某特定聲音的音量。換句話說,一典型多聲道解碼器僅分配一降混信號至數個輸出聲道,並不增加或減少在降混信號中聲音的音量。
根據控制資訊,去定位由一物件編碼器產生的一降混信號的每一數量之物件信號至一多聲道空間中一預先決定的位置,是相對簡單地。然而,需要特別的技術去增加或減少一預先決定的物件信號的振幅。換句話說,如果一物件編碼器產生的一降混信號被如此使用,那降低該降混信號的每個物件信號振幅變十分困難。
因此,根據本發明的一實施例,可藉由使用圖5中的一ADG模組147,根據控制資訊來變化物件信號的相對振幅。該ADG模組147可安裝在該多聲道解碼器141內,或與多聲道解碼器141分離。
如果用該ADG模組147來適當地調整一降混信號的物件信號相對振幅,利用一典型多聲道解碼器進行物件解碼便為可行。如果一物件編碼器產生的一降混信號是一單聲或立體聲信號、或三個聲道以上的多聲道信號,該降混信號便可由ADG模組147處理。如果一物件編碼器產生的一降混信號擁有兩個或兩個以上的聲道、且一需要被調整的預先決定之物件信號只存在於該降混信號的其中一聲道,則該ADG模組147僅能應用在該預先決定之物件信號所在的聲道,而不會應用於該降混信號全部的聲道。以上所述之被該ADG模組147處理的降混信號方式,可用一典型多聲道解碼器輕易地處理,勿須去修改該多聲道解碼器的結構。
甚至當最終輸出信號並非一可被多聲道揚聲器複製的多聲道信號,而是一雙耳信號,該ADG模組147還是可以調整該最終輸出信號的物件信號振幅。
除了使用ADG模組147外的另一法為,指明被用在每個物件信號的增益值的增益資訊可在一數量之物件信號產生期間被包含於控制資訊。為此,典型多聲道解碼器的結構必須被修改。儘管在一解碼操作期間藉由應用一增益值到每個物件信號,而不用計算ADG與補償每個信號,便能減低解碼複雜度,即使現存的多聲道解碼器結構需要被修改,這個方法仍是頗方便的。
ADG模組147不僅可被用在調整物件信號的位階,還可用於修改特定一物件信號的頻譜資訊。更精確地說,該ADG模組147可不只被用在增加或降低一特定物件信號的位階,還可修改一特定物件信號的頻譜資訊,如放大該特定物件信號的一高或低音調部份。沒有ADG模組147是無法修改頻譜資訊的。
圖6係說明根據本發明第四個實施例之一音訊解碼裝置150 的方塊圖。請參閱圖6,該音訊解碼裝置150包含了一多聲道雙耳解碼器151、一第一參數轉換器157及一第二參數轉換器159。
第二參數轉換器159分析由一音訊編碼裝置提供的輔助資訊與控制資訊,並依據分析結果設定空間參數資訊。第一參數轉換器157設定虛擬三維(three-dimensional, 3D)參數資訊,此資訊可藉由加入3D資訊如頭部相關轉移函數(head-related transfer function, HRTF)參數至該空間參數資訊,而被多聲道雙耳解碼器151使用。多聲道雙耳解碼器151藉由應用一雙耳參數資訊至一降混信號產生該雙耳信號。
第一參數轉換器157與第二參數轉換器159可被單一模組取代,例如,一參數轉換模組155,該模組可接收輔助資訊、控制資訊和3D資訊,並依據該輔助資訊、控制資訊和HRTF參數來設定雙耳參數資訊。
傳統上,為了耳機播放一包含10個物件信號的降混信號而產生的雙耳信號,一物件信號必須依據該降混信號與輔助資訊來產生10個分別對應該10個物件信號的解碼信號。其後,一混合器/渲染器參考控制資訊,定位10個物件信號中的每個信號至多聲道空間中一預先決定的位置,以便於符合一5聲道揚聲器的環境。接著,該混合器/渲染器產生一可被5聲道揚聲器複製的5聲道信號。然後,該混合器/渲染器應用3D資訊至該5聲道信號,進而產生一2聲道信號。簡言之,以上所提的傳統音訊解碼方法包括了複製10個物件信號、轉換該10個物件信號為一5聲道信號、及依據該5聲道信號產生一2聲道信號,因而十分地沒有效率。
在另一方面,音訊解碼裝置150能輕易地產生一能以依據物件信號耳機複製的雙耳信號。此外,該音訊解碼裝置150經由分析輔助資訊與控制資訊來設定空間參數資訊,並能因此用典型多聲道雙耳解碼器產生雙耳信號。更進一步地,甚至當接受輔助資訊、控制資訊和HRTF參數的參數轉換器併入為該音訊解碼裝置150裝備時,其仍能使用一典型的多聲道雙耳解碼器,並依據該輔 助資訊、控制資訊和HRTF參數來設定雙耳參數資訊。
圖7係說明根據本發明第五個實施例之一音訊解碼裝置160的方塊圖。請參閱圖7,該音訊解碼裝置160包含了一前處理器161、一多聲道解碼器163以及一參數轉換器165。
參數轉換器165產生可被多聲道解碼器163利用之空間參數資訊,亦產生可被前處理器161利用的參數資訊,該前處理器161在一降混信號執行一前處理(preprocessing)操作,並因為一該前處理操作傳送一降混信號結果至多聲道解碼器163。該多聲道解碼器163在該前處理器161傳送的降混信號上執行一解碼操作,從而輸出一立體聲信號、雙耳的立體聲信號或一多聲道信號。由該前處理器161執行的前處理操作範例,包含了利用過濾而在一時域(time domain)或頻域(frequency domain)對一降混信號的修改或轉換。
假設一輸入至音訊解碼裝置160的降混信號是一立體聲信號,該降混信號在被輸入至多聲道解碼器163前可被送入前處理器161執行的降混前處理,因為該多聲道解碼器163不能經由解碼描繪對應一立體聲降混信號的左聲道的一物件信號至一多聲道信號的右聲道。因此,為了轉移屬於一立體聲降混信號的左聲道的一物件信號至一右聲道,該立體聲降混信號需要被前處理器161前處理,且前處理後的降混信號可被輸入至多聲道解碼器163。
一立體聲降混信號的前處理,可依據由輔助資訊與控制資訊得來的前處理資訊來執行。
圖8係說明根據本發明第六個實施例之一音訊解碼裝置170的方塊圖。請參閱圖8,該音訊解碼裝置170包含了一後處理器173、一多聲道解碼器171以及一參數轉換器175。
參數轉換器175產生可被多聲道解碼器171利用之空間參數資訊,亦產生可被後處理器173利用的參數資訊,該後處理器173在一多聲道解碼器171輸出的信號執行一後處理(post-processing)操作。該多聲道解碼器171輸出的信號例子包含了一立體聲信號、 一雙耳的立體聲信號或一多聲道信號。
後處理器173執行的後處理操作例子包含了一輸出信號的每個或全部聲道的修改與轉換。舉例來說,若輔助資訊包含了關於一預先決定的物件信號的基礎頻率(fundamental frequency)資訊,後處理器173可參考該基礎頻率資訊,從預先決定的物件信號移除諧波成分(harmonic components)。一多聲道音訊解碼方法被用在伴唱系統(karaoke system)可能不夠有效率。然而,如果包含有關人聲物件信號(vocal object signal)的基礎頻率資訊的人聲物件信號的輔助資訊與諧波成分,在一後處理操作期間被移除的話,那便能理解使用圖8中的實施例之可行了。不只人聲物件信號,圖8中的實施例也可被應用在物件信號。例如,利用圖8中的實施例可以移除一預先決定的樂器聲。又,利用圖8中的實施例,用關於物件信號的基礎頻率資訊也可以放大增強預先決定的諧波成分。簡言之,後處理參數可以讓不同效果的應用可行,例如多聲道解碼器171無法呈現的***一回響效果、加入雜音、與放大低音部分。
後處理器173可直接應用一附加效果至一降混信號,或加入一降混信號至已被應用至多聲道解碼器171的輸出的效果。當必要時,該後處理器173可改變一物件的頻譜,或修改一降混信號。假若直接執行一效果處理操作,例如降混信號的回響、或傳送由效果處理操作得到的信號至該多聲道解碼器171,並不適當時,該後處理器173只會將由效果處理操作得到的信號加入該多聲道解碼器171的輸出,而非直接在降混信號執行效果處理、及傳送效果處理的結果至該多聲道解碼器171。
圖9係說明根據本發明第七個實施例之一音訊解碼裝置180的方塊圖。請參閱圖9,該音訊解碼裝置180包含了一前處理器181、一多聲道解碼器183、後處理器185以及一參數轉換器187。
前處理器161的描述直接套用到前處理器181。後處理器185可用來添加前處理器181的輸出與多聲道解碼器185的輸出並進 而提供一最終信號。在這例子,該後處理器185只扮演一添加信號的加法器(adder)。一效果參數可被提供至任何前處理器181與後處理器185執行一效果的應用。另外,應用一效果至一降混信號得到的信號加入至多聲道解碼器183的輸出,與應用一效果至多聲道解碼器183的輸出,皆可在同一時間進行。
圖7與圖9中的前處理器161與181可根據使用者提供的控制資訊執行渲染一降混信號。另外,圖7與圖9中的前處理器161與181可增加或減少物件信號的位階並切換物件信號的頻譜。在此例中,圖7與圖9中的前處理器161與181可執行ADG模組的功能。
根據物件信號的方向資訊(direction information)對一物件信號的渲染、對物件信號的位階調整、及物件信號頻譜的切換,皆可在同一時間進行。此外,根據物進信號的方向資訊對一物件信號的一些渲染、對物件信號的位階調整、及物件信號頻譜的切換,可使用前處理器161或181來執行,且不管是根據物進信號的方向資訊對一物件信號的一些渲染、對物件信號的位階調整、還是物件信號頻譜的切換,皆不會被ADG模組執行。舉例來說,以使用一量化位階時段與一參數時段ADG模組來轉換一物件信號的頻譜並沒有效率。在此例中,該前處理器161或181可用來在逐頻(frequency-by-frequency)的基礎上持續地切換一物件信號的頻譜,而一ADG模組可用來調整該物件信號的位階。
圖10係說明根據本發明第八個實施例之一音訊解碼裝置200的方塊圖。請參閱圖10,該音訊解碼裝置200包含了一渲染矩陣產生器201(rendering matrix generator)、一轉碼器203(transcoder)、一多聲道解碼器205、一前處理器207、一效果處理器208、及一加法器209。
渲染矩陣產生器201產生一渲染矩陣,此可代表一關於物件的位置與關係物件信號的位階的播放設定資訊之物件位置資訊,並提供該渲染矩陣至轉碼器203。該渲染矩陣產生器201產生3D 資訊,例如一依據物件位置資訊的HRTF係數。一HRTF是一種描述介於任一位置音源與人耳鼓膜間的音波傳輸之傳送函數,此函數並回傳一個根據音源方向與高度而變化的值。如果用HRTF過濾一沒有方向性的信號,該信號聽起來會好像是從某特定方向被複製出來的。
物件位置資訊與由渲染矩陣產生器201接受的播放設定資訊可隨時間變化並被一終端用戶提供。
轉碼器203產生一依據以物件為主的輔助資訊之聲道為主的輔助資訊、渲染矩陣、與3D資訊,並且提供多聲道解碼器205其所需要之該聲道為主的輔助資訊與3D資訊。即,該轉碼器203傳送關於從N個物件信號以物件為主的參數資訊所獲得的M個聲道之以聲道為主的輔助資訊和N個信號中每個信號的3D資訊至該多聲道解碼器205。
多聲道解碼器205產生一依據一降混信號之多聲道音訊信號與由轉碼器203提供之聲道為主的輔助資訊,並根據3D資訊在該多聲道音訊信號上進行3D渲染,從而產生一3D多聲道信號。渲染矩陣產生器201可包含一3D資訊資料庫(未標示)。
如果在一降混信號輸入至多聲道解碼器205之前,有前處理該降混信號的需要,轉碼器203會傳送關於前處理的資訊到前處理器207。以物件為主的輔助資訊包含了關於所有物件信號的資訊,而渲染矩陣包含了物件位置資訊與播放設定資訊。轉碼器203可產生依據以物件為主的輔助資訊之以聲道為主的輔助資訊與渲染矩陣,然後產生以聲道為主的輔助資訊,此為混音與複製物件信號根據聲道資訊所需要。因此,該轉碼器203傳送聲道為主的輔助資訊至多聲道解碼器205。
由轉碼器203提供之以聲道為主的輔助資訊與3D資訊可包含框架索引(frame indexes)。如此,多聲道解碼器205可藉由使用框架索引來同步以聲道為主的輔助資訊與3D資訊,並因此能夠應用該3D資訊僅至一位元串流中特定的畫面。此外,即使該3D資訊 被更新,藉由使用框架索引來同步以聲道為主的輔助資訊與更新過的3D資訊亦為可行。即,框架索引可被分別包含在可藉由使用框架索引來同步以聲道為主的輔助資訊與3D資訊中,以讓多聲道解碼器205同步以聲道為主的輔助資訊與3D資訊。
前處理器207若需要時,在一輸入的降混信號被輸入至多聲道解碼器205之前,可對該輸入的降混信號執行前處理。如上所述,若該輸入的降混信號為一立體聲信號,且有播放一屬於左聲道至右聲道的物件信號的需要時,該降混信號可在被輸入至多聲道解碼器205之前先行送由前處理器207進行前處理,因為該多聲道解碼器205無法將物件信號從一聲道偏移到另一聲道。轉碼器203可提供需要用於前處理輸入的降混信號的資訊給前處理器207。由該前處理器207執行前處理得到的一降混信號可被傳送至該多聲道解碼器205。
效果處理器208與加法器209可直接地在一降混信號應用一附加效果,或增加一降混訊號至已應用在多聲道解碼器205的一效果。需要時,該效果處理器可變更一物件的頻譜或修改一降混信號。如果直接在一降混訊號執行如回響的一效果處理操作、或傳送由該效果處理操作得到的訊號至多聲道解碼器205皆不適當時,該效果處理器208只會添加由效果處理操作得到的信號至多聲道解碼器205的輸出,而不直接在該降混信號執行效果處理並傳送該執行效果的結果至該多聲道解碼器205。
由渲染矩陣產生器201產生的一渲染矩陣將在下文中詳細說明。
渲染矩陣是代表物件信號的位置與播放設定的矩陣。即,如果有N個物件信號與M個聲道,一渲染矩陣可指示出該N個物件信號在各種行為上如何地映射到M個聲道。
更精確地說,當N個物件信號映射到M個聲道時,便可產生一N*M的渲染矩陣。在此情況下,該渲染矩陣包含了分別代表N個物件信號的N個列,與分別代表M個聲道的M個行。每個N 列的每一M係數可為實數或一整數,表示在整個物件信號中一分配至對應聲道的物件信號的部分比例。
更精確地說,在N*M渲染矩陣的N個列中,該M係數可為實數。接著,若N*M渲染矩陣中一列的M係數總和與預定的參考值(reference value)一樣的話,例如,1,便可確定一物件信號的位階並沒改變。如果M係數總和小於1的話,可確定一物件信號的位階被降低了。如M係數總和大於1的話,可確定一物件信號的位階已被增加。事先定義的參考值可為1以外的數值。物件信號的位階變化量可被限制在12分貝。舉例來說,如果預定的參考值是1且M係數總和為1.5,便可確定該物件的位階被增加了12分貝。如果預定的參考值是1且M係數總和為0.5,便可確定該物件的位階被降低了12分貝。如果預定的參考值是1且M係數總和為0.5至1.5,便可確定該物件依一預定的-12至12分貝量改變,且該預定量線性對應於M係數的總和。
N*M渲染矩陣每個N列中的M個係數可為整數。然後,若N*M渲染矩陣之一行中M個係數的總和與一預定的參考數值相等,例如10、20、30或100,便可確定一物件信號之位階未被改變。如M個係數的總和小於預定的參考數值,便可確定該物件信號之位階被減少。若M個係數的總和大於預定的參考數值,便可確定該物件信號之位階被增加。物件信號之位階變化量可限制在一個範圍內,例如12分貝。M個係數的總和與預定的參考數值之差異量(單位:分貝),可表示該物件信號之位階變化的量。例如,若M個係數之該總和大於預定的參考數值1,可確定物件信號之位階增加了2分貝。因此,若預定的參考數值為20,而M個係數之總和為23,可確定該物件信號之位階增加了6分貝。若預定的參考數值為20,而M個係數之總和為15,可確定該物件信號之位階減少了10分貝。
舉例來說,如果有6個物件信號與5個聲道(例如左前(FL)、右前(FR)、中央(C)、左後(RL)、右後(RR)聲道),便可建立一分別 對應6個物件信號的6個列、對應5個聲道的5個行的6*5渲染矩陣。該6*5渲染矩陣的係數可為整數,指示了分配在5個聲道中的6個物件信號的比例。此矩陣的參考數值可為10。如此,該6*5渲染矩陣的6個列中任一列的5個係數和等於10的話,可確定一對應物件信號的位階並未改變。該6*5渲染矩陣的6個列中任一列的5個係數和與參考數值的差異量,代表了一對應物件信號的位階的改變量。例如,該6*5渲染矩陣的6個列中任一列的5個係數和與參考數值相差了1,便可確定一對應物件信號的位階改變了2分貝。此6*5渲染矩陣可以方程式(1)表示為:
請參考方程式1,第1列對應了第一物件信號,並表示第一物件信號分配在FL、FR、C、RL與RR聲道之間的比例。蓋第一列的第一個係數為最大的整數3,而該列係數總和為10,便可確定第一物件信號主要分配在FL聲道,且第一物件信號的位階沒有被改變。而對應第二物件信號的第二列,其第二係數為最大的整數4,且第二列的係數總和為12,則可確定第二物件信號主要分配在FR聲道,而第二物件信號的位階增加了4分貝。對應第三物件信號的第三列,其第三係數為最大的整數12,且第三列的係數總和為12,則可確定第三物件信號只分配在C聲道,而第三物件信號的位階增加了4分貝。蓋對應第五物件信號的第五列,其所有係數皆為一樣的整數2,且第五列的係數總和為,則可確定第二物件信號0平均分配在FL、FR、C、RL、RR聲道,且第五物件信號 的位階並未改變。
另一種情況為,當N個物件信號映射到M個聲道時,可產生一N*(M+1)渲染矩陣。一N*(M+1)渲染矩陣十分相近於一N*M渲染矩陣。更精確地說,如N*M渲染矩陣一樣,在一N*(M+1)渲染矩陣,每一N列中的第1到第M個係數代表一對應物件信號在FL、FR、C、RL、RR分配的比例。然而,與N*M渲染矩陣不同的是,一N*(M+1)渲染矩陣有一附加的行(例如第M+1個行)來表示物件信號的位階。
不像N*M渲染矩陣,一N*(M+1)渲染矩陣指示了一物件信號如何地分配在M個聲道中,且該物件信號的位階分別有無變化。如此,用N*(M+1)渲染矩陣,可以容易地得到一物件信號變化的資訊而不需附加的計算。既N*(M+1)渲染矩陣與N*M渲染矩陣幾乎一樣,一N*(M+1)渲染矩陣可以容易地轉換成N*M渲染矩陣而不需要附加的資訊,反之亦然。
又另一方法為,當N個物件信號映射到M個聲道時,可產生一N*2渲染矩陣。該N*2渲染矩陣第一行表示了物件信號的角位置,第二行表示了物件信號的位階變化。N*2渲染矩陣可在0-360度以1或3度為間隔代表物件信號的角位置。一平均分配在所有方向的物件信號可被事先預定值代表,而非一個角。
一N*2渲染矩陣可轉換至一N*3渲染矩陣,N*3渲染矩陣不只可指示物件信號的2D方向、還有其3D方向。更精確地說,N*3渲染矩陣的第二行可被用作指示物件信號的3D方向。N*3渲染矩陣的第三行用與N*M一樣的方法來指示每個物件信號的位階變化。如果一物件解碼器的最終播放模式是雙耳立體聲的話,渲染矩陣產生器201可傳送指示每個物件信號位置或一對應至3D資訊的指數。在後面的例子中,轉碼器203可能需要有對應到由渲染矩陣產生器201傳送的指數之3D資訊。此外,如果指示每個物件信號位置的3D資訊從渲染矩陣產生器201接受,轉碼器203能計算3D資訊,根據接受的3D資訊、一渲染矩陣、以物件為主的輔 助資訊、多聲道解碼器205可利用該計算後的3D資訊。
渲染矩陣與3D資訊可依據用戶端做的物件位置資訊的修改及播放設定資訊適性地即時變化。因此,渲染矩陣與3D資訊是否被更新、或有任何更新的資訊,可以規律的間隔例如0.5秒被傳送至轉碼器203。接著,如果在渲染矩陣與3D資訊中偵測到了更新,在假設渲染矩陣與3D資訊隨時間線性變化下,轉碼器203可在接收到的更新、存在的渲染矩陣與存在的3D資訊上執行線性轉換。
若物件位置資訊及播放配置資訊自渲染矩陣及3D資訊被傳送到轉碼器203便未被最終使用者修改過,則指出渲染矩陣及3D資訊未被改變的資訊可被傳送至轉碼器203。另一方面,若物件位置資訊及該播放配置資訊自渲染矩陣及3D資訊被傳送至轉碼器203後被最終使用者修改過,則指出渲染矩陣及3D資訊已被改變的資訊以及渲染矩陣及3D資訊中的更新可被傳送到轉碼器203。更具體地,在渲染矩陣中的更新以及在3D資訊中的更新可被分別傳送到轉碼器203。另一方式,可由一預設代表值共同表示在渲染矩陣中的更新及/或在3D資訊中的更新。然後,預設代表值可與指出預設代表值對應於渲染矩陣中的更新或3D資訊中的更新的資訊一起被傳送到轉碼器203。以這種方式,可輕易告知轉碼器203是否渲染矩陣及3D資訊已被更新。
如方程式(1)所示,一N*M渲染矩陣也可包含一附加行來代表物件信號的3D方向資訊。在這種情況下,附加行可以-90到90度的角度形式來代表物件信號的3D資訊。附加行不僅可被提供在N*M矩陣,亦可在N*(M+1)與N*2矩陣中。多聲道解碼器的一般解碼模式並非必用到物件信號的3D方向資訊。相反地,多聲道解碼器的雙耳模式則必須用到物件信號的3D方向資訊。物件信號的3D方向資訊可隨著渲染矩陣傳送。物件信號的3D方向資訊並不影響以聲道為主的輔助訊號,但會在雙耳模式解碼操作當中影響3D資訊。
關於空間位置與物件信號位階的資訊可以一渲染矩陣形式提 供。或者,關於空間位置與物件信號位階的資訊,可以物件信號的頻譜修改形式來表示,如,增強該物件信號的低音部分或高音部分。在此例中,關於物件信號的頻譜修改資訊,可以每個參數帶中的位階變化的形式傳送,而參數帶則被用於多聲道編解碼器(codec)。假如一個終端用戶控制修改至物件信號的頻譜,關於物件信號頻譜的修改的資訊,可以由渲染矩陣分離出來的頻譜矩陣的形式來傳送。在頻譜矩陣裡,有多少物件信號就有多少列、有多少參數就有多少行。頻譜矩陣的每個係數指示了關於每個參數帶位階調整的資訊。
在此之後,轉碼器203的操作會在以下文中詳細描述。轉碼器203依據以物件為主的輔助資訊、渲染矩陣資訊與3D資訊產生以聲道為主的輔助資訊給多聲道解碼器205,並傳送該聲道為主的輔助資訊至該多聲道解碼器205。另外,轉碼器203產生3D資訊給多聲道解碼器205並傳送該3D資訊至該多聲道解碼器205。如果一輸入降混信號在被輸入至多聲道解碼器205前需要被前處理的話,轉碼器203可傳送關於該輸入降混信號的資訊。
轉碼器203可接受指示一輸入降混信號如何包含了複數物件信號之以物件為主的輔助資訊。以物件為主的輔助資訊可指示出一輸入降混信號藉由使用一OTT匣與一TTT匣及CLD、ICC與CPC資訊如何地包含了複數個物件信號。以物件為主的輔助資訊可提供多種方法的描述,這些多種方法可被一物件編碼器執行來指示出關於每個複數的物件信號的資訊,以及因而能指示出輔助資訊如何地包含了該物件信號。
在一多聲道編解碼器的一TTT匣的例子中,L、C與R信號可被降混或升混成L與R信號。在這種情況下,該C信號可分擔一點L與R信號。然而,在物件信號的降混與升混中這例子很少發生。因此,一OTT匣廣泛地被使用來執行對物件編碼的升混或降混。即使一C信號包含非L或R信號部分的一獨立信號組成,一TTT匣可被用於對物件編碼的執行升混或降混。
例如,若有六個物件信號,該六個物件信號可被一OTT匣轉換成一降混信號,且關於每個物件信號的資訊可使用一OTT匣取得,如圖11所示。
請參考圖11,六個物件信號可以全部的五個OTT匣211、213、215、217和219提供的資訊(如CLD與ICC資訊)、以及一降混信號表示。圖11所示之結構可被多種形式所替換。即,參考圖11,第一OTT匣211可接受該六個物件信號中的其中兩個。另外,OTT匣211、213、215、217和219有階級地連接方式可被自由地改變。因此,輔助資訊可包含了階級性結構資訊與輸入位置資訊,階級性結構資訊指示出該OTT匣211、213、215、217和219是如何階級地連接,輸入位置資訊指示出物件信號輸入到了哪一個OTT匣。如果該OTT匣211、213、215、217和219形成一任意樹狀結構,那為了代表一任意樹狀結構而用在一多聲道編解碼器的方法,便可被使用於指示這樣的階級性結構資訊。此外,可以不同的形式來指示出這樣的輸入位置資訊。
輔助資訊也可包含了關於每個物件信號過程中的一啞音期。在此情況下,OTT匣211、213、215、217和219的樹狀結構可適性地隨時間變化。舉例來說,請參考圖11,當第一物件信號OBJECT1啞音時,關於第一OTT匣211的資訊便不需要,且只有第二物件信號OBJECT2可被輸入至第四OTT匣217。然後,OTT匣211、213、215、217和219的樹狀結構可據此變化。如此,若有任何關於變化的資訊,OTT匣211、213、215、217和219的樹狀結構可被包含在輔助資訊中。
如果一預定的物件信號為啞音,指示出對應該預定的物件信號的一OTT匣之資訊,並不會拿來使用,並可取得指示出該OTT匣沒有特徵之資訊。在這種情形下,便可能藉由不包含關於不用在輔助資訊的OTT匣或TTT匣之資訊,來減少輔助資訊的大小。依據指示出什麼物件信號為啞音的資訊,即使複數個OTT或TTT匣的一樹狀結構被修改了,還是可能很輕易地決定哪一個OTT或 TTT匣被打開或關閉。因此,不需要去頻繁地傳送關於修改的資訊到OTT或TTT匣的樹狀結構。相反地,指示出什麼物件信號為啞音的資訊會被傳送。然後,一解碼器可輕易地決定OTT或TTT匣的樹狀結構的什麼部分需要被修改。因此,需要被傳送至一解碼器的資訊大小之最小化,便即為可行。另外,亦可輕易地傳送關於物件信號的特徵至一解碼器。
圖12係說明用來解釋一複數物件信號如何地被包含在一降混信號之方塊圖。在圖11的實施例中,一多聲道編碼的一OTT匣結構便如此引用。然而,在圖12中的實施例,多聲道編碼的OTT匣結構的一種變化便被使用。即,請參考圖12,一複數物件信號被輸入至每個匣,且只有一降混信號被產生至終。參考圖12,關於每個複數物件信號的資訊,可以每個物件信號的能階對全物件信號的能階的比例來代表。然而,當物件信號數目增加時,每個物件信號的能階比上全物件信號的能階的比例便減少。為了解決這個,搜尋複數物件信號中在一預定的參數帶有最大能階的一個信號(以下稱為最高能物件信號),並提供其他物件信號(以下稱為非最高能物件信號)的能階比上最高能物件信號的能階的比例,且以關於每個物件信號的資訊提供。在此情況下,一旦有了指示出一最高能物件信號的資訊以及最高能物件信號的能階絕對值,非最高能物件信號的能階可被輕易地確定。
最高能物件信號的能階是被需要用來將一複數位元串流併入一單一位元串流,如在一多點控制單元(MCU)所表現者。然而,在大部分情況下,最高能物件信號的能階並不會被需要,因為從非最高能物件信號的能階比上最高能物件信號的能階的比例,可以輕易地得到最高能物件信號的能階絕對值。
舉例來說,假設有四個物件信號A、B、C和D,皆屬於一預定的參數帶,且物件信號A是一最高能物件信號。然後,預定的參數帶的能量EP 與物件信號A的能階絕對直EA 滿足了方程式(2):
其中a,b及c分別指出物件信號B,C及D的能階比上物件信號的能階之比例。參考方程式(2),依據比例a、b和c,以及該預定的參數帶之能量EP ,便可能計算物件信號A之能階的絕對數值EA 。因此,除非有需要用一MCU以將一複數位元串流併成一單一位元串流,物件信號A之能階絕對值EA 可不需要被包含在一位元串流中。指出該物件信號A之能階的絕對數值EA 被包含在一位元串流中的資訊,可被包含在該位元串流之一個標頭(header),從而減少該位元串流的大小。
另一方面,如果需要通過利用一MCU將一複數位元串流併入一單一位元串流,則必需要最高能量物件信號的能階。在這個情況下,根據非最高能物件信號的能階與最高能物件信號的能階的比例計算得到的能階的總和,可能與通過降混全部物件信號得到的一降混信號的能階相同。舉例來說,當降混信號的能階是100的時候,計算得能階的總和可以為98或者103,這是由於,例如,在量化和逆量化操作過程中導致的誤差。為了解決這個問題,降混信號的能階和計算得到的能階總和之間的差異可以適當地通過將每個計算的能階乘上預定係數進而補償。如果降混信號的能階為X,計算得能階的總和為Y,則每個計算的能階可以乘以X/Y。如果降混信號的能階和計算得能階的總和之間的差異沒有補償,此種量化誤差可能包含在參數帶和框架內,從而導致信號失真。
因此,在一預定參數帶內複數個物件信號中哪一個物件信號具有能量的最大絕對值的資訊是必要的。這類資訊可以通過若干位元表示。指示出一預定參數帶內複數個物件信號中哪一個物件 信號具有能量的一最大絕對值的所需的位元數,是根據物件信號的數量改變。隨著物件信號數量的增加,指示一預定參數帶內哪個複數個物件信號具有能量的最大絕對值的所需位元數增加。反過來說,當物件信號數量減少,指示一預定參數帶內哪個複數個物件信號具有能量的最大絕對值的所需位元數便會減少。位元的一預定數量可以提前分配,用於指示出一預定參數帶內複數個物件信號中具有能量的最大絕對值之物件信號增加。或另一途,位元的數量用於指示在一預定參數帶內具有最大能量絕對值的複數物件信號,可以根據特定的資訊來確定。
指示出在每個參數帶內哪個複數個物件信號具有能量的最大絕對值之資訊的大小,能夠用一方法減少,其與用於減少一多聲道編解碼器的OTT和/或TTT匣內所用的CLD、ICC和CPC的大小的方法相同,例如,利用一時間微分法、一頻率微分法、或者一導頻編碼方法。
為了說明在每個參數帶內複數個物件信號中哪一個物件信號具有能量的最大絕對值,可以使用一最佳化Huffman表。在這個情況下,指示出物件信號的能階順序與任意具最高絕對能量的物件信號的能階比較之資訊,便為需要。舉例來說,如果有五個物件信號(例如第一至第五物件信號),且第三物件信號為一最高能量物件信號,可以提供關於第三物件信號的資訊。然後,第一、第二、第四和第五物件信號的能階與第三物件信號的能階的比例可以各種形式提供,並在以下文中進一步詳細說明。
第一、第二、第四和第五物件信號的能階與第三物件信號的能階的比例可以依次提供。或另一途,第四、第五、第一和第二物件信號的能階與第三物件信號的能階的比例可以一循環方式依次提供。然後,指示第一、第二、第四和第五物件信號的能階與第三物件信號的能階的比例順序的資訊可以提供包含在一檔標頭中或者可以在以一定數量的框架間隔傳輸。一多聲道編解碼器可以根據OTT匣的序列號確定CLD和ICC資訊。同樣地,說明每 個物件信號如何映射至一位元串流的資訊是必要的。
對於一多聲道編解碼器的情況,關於與每個通道對應信號的資訊可以利用OTT或者TTT匣的序列號識別。根據一以物件為主的音訊編碼方法,如果有N個物件信號,則需要N個物件信號適當地編號。然而,一終端用戶有必要不時地利用一物件解碼器控制N個物件信號。在這個情況下,終端用戶可能不僅僅需要N個物件信號的序列號而且需要N個物件信號的描述,例如指示出第一物件信號與一女聲對應的描述以及說明第二物件信號與鋼琴的聲音對應的描述。N個物件信號的描述可以包含在如詮釋資料的一位元串流的標頭內,並因此隨該位元串流傳輸。更精確地說,N個物件信號的描述可以提供為文字或者可以利用一代碼表或者字碼提供出來。
關於物件信號間相關性的關聯資訊有時是必要的。為此,可以計算出一最高能量物件信號和其他非最高能量物件信號之間的相關性。在這個情況下,與全部OTT匣內使用的一單一ICC作比較之後,可以為全部物件信號指定一單一相關值。
如果物件信號是立體聲信號,則物件信號的左聲道能量與右聲道的能量的比例以及ICC資訊是必要的。物件信號的左聲道能量與右聲道的能量的比例可以利用一方法計算得到,其與用於計算複數個物件信號的能階的方法相同,計算過程是在任何一個最高能量物件信號的能階的絕對值以及其他非最高能量物件信號的能階與最高能量物件信號的能階的比例的基礎上完成的。舉例來說,如果一最高能量物件信號的左和右聲道的能階的絕對值分別為A和B,則一非最高能量的物件信號的能階與A的比例以及非最高能量物件信號的右聲道的能階與B的比例分別為x和y,非最高能量物件信號的左和右聲道的能階可以計算為A*x和B*y。在這個方式中,可以計算出一立體聲物件信號的左聲道能量與右聲道能量的比例。
一最高能量物件信號的能階絕對值,以及其他非最高能量物 件信號的能階與最高能量物件信號的能階的比例,也可以用在當物件信號是單聲信號的時候,通過單聲物件信號獲得的一降混信號是一立體聲信號,並且單聲物件信號包含在立體聲降混信號的雙聲道內。在這個情況下,包含在一立體聲降混信號的左聲道內的一部分單聲物件信號的能量比例、包含在立體聲降混信號的右聲道內的部分對應單聲物件信號的能量比例、以及關聯資訊是必要的,並且直接應用於立體聲物件信號。如果一單聲物件信號同時包含在一立體聲降混信號的L和R聲道內,則該單聲物件信號的L和R聲道成分可以僅僅具有一等級差,而且該單聲物件信號可以具有貫穿全部參數帶的一相關值(correlation value)1。在這個情況下,為了減少資料的量,指示出單聲物件信號具有貫穿全部參數帶的一相關值1的資訊可以附加提供。然後,並不需要指出用於每個參數帶的該相關值1。相反地,相關值1可以對全部參數帶被指示出來。
在通過總和複數物件信號產生一降混信號的過程中,可能發生削波。為了解決這個問題,一降混信號可以乘上一預定增益,以致於該降混信號的最大等級可以超過一削波臨界值。該預定增益可以隨著時間變化。因此,關於該預定增益的資訊是必要的。如果該降混信號是一立體聲信號,則可以為降混信號的L和R聲道提供不同的增益值,以防止削波。為了減少資料傳輸量,不可以分開傳輸不同的增益值。相反,不同增益值的總和以及不同增益值的比例可被傳輸。然後,與分開傳輸不同的增益值的情況相較,此可減少資料傳輸量及一動態範圍。
為了進一步減少資料傳輸的數量,可提供用於指示出在通過總和複數物件信號而產生出一降混信號的過程中是否已經發生削波的一位元。然後,僅有確定若已經發生削波,方可傳輸增益值。為了合併複數個位元串流,這樣的削波資訊對於防止總和複數個降混信號的過程中發生削波是有必要的。為了防止削波,複數個降混信號的總和可以乘上為用於防止削波的一預定增益值。
圖13至圖16說明了用於解釋以物件為主的輔助資訊設定的圖表。圖13至圖16中的實施例不僅僅應用於單聲或者立體聲物件信號,且亦應用於多聲道物件信號。
請參考圖13,一多聲道物件信號(OBJECT A(CH1)至OBJECT A(CHn))輸入至一物件編碼器221。然後,該物件編碼器221根據多聲道物件信號(OBJECT A(CH1)至OBJECT A(CHn))產生出一降混信號和輔助資訊。一物件編碼器223接收複數物件信號OBJECT A(CH1)至OBJECT A(CHn)以及物件編碼器221產生的降混信號,並且根據物件信號OBJECT 1至OBJECT N和所接收的降混信號產生出另一個降混信號和另一個輔助資訊。一多工器225合併物件編碼器221產生出的輔助資訊和物件編碼器223產生出的輔助資訊。
請參考圖14,一物件編碼器223根據一多聲道物件信號OBJECT A(CH1)至OBJECT A(CHn)產生出一第一位元串流。然後,一物件編碼器231根據複數個非多聲道物件信號OBJECT1至OBJECTn產生出一第二位元串流。然後,一物件編碼器235將第一位元串流和第二位元串流通過利用一方法合併為一單一位元串流,此方法與在MCU輔助下,將複數個位元串流合併為的單一位元串流所用的方法一樣。
請參考圖15,一多聲道編碼器241根據一多聲道物件信號OBJECT A(CH1)至OBJECT A(CHn)產生出一降混信號和以聲道為主的輔助資訊。一物件編碼器243接收多聲道編碼器241產生出來的降混信號和通過複數個非多聲道物件信號OBJECT1至OBJECTn,並且根據接收的降混信號和物件信號OBJECT1至OBJECTn產生出一物件位元串流和輔助資訊。一多工器245將多聲道編碼器241產生出的以聲道為主的資訊和物件編碼器243產生出的輔助資訊合併,並輸出合併的結果。
請參考圖16,一多聲道編碼器253根據一聲道物件信號OBJECT A(CH1)至OBJECT A(CHn)產生出一降混信號和以聲道 為主的輔助資訊。一物件編碼器251根據複數個非多聲道物件信號OBJECT1至OBJECTn產生出一降混信號和輔助資訊。一物件編碼器255接收多聲道編碼器253產生出的降混信號和物件編碼器251產生出的降混信號,並將接收的降混信號合併。一多工器257將物件編碼器251產生的輔助資訊和多聲道編碼器253產生出的以聲道為主的輔助資訊合併,並將合併的結果輸出。
在遠端會議使用以物件為主的音訊編碼的情況中,有必要有時將複數個物件位元串流合併為一單一位元串流。複數個物件位元串流合併為一單一位元串流將在下文中詳細描述。
圖17係解釋將兩個以物件位元串流合併的圖表。請參考圖17,當兩個物件位元串流合併為一單一物件位元串流的時候,分別存在於兩個物件位元串流內如CLD和ICC資訊的輔助資訊需要被修正。只消藉由如一第十一OTT匣的一附加OTT匣,以及利用該第十一OTT匣提供的如CLD和ICC資訊的輔助資訊,將兩個物件位元串流合併為一單一物件位元串流。
為了將兩個物件位元串流合併為一單一物件位元串流,兩個物件位元串流中的每一個位元串流的樹狀設定資訊(tree configuration information)必須合併至整合樹狀設定資訊(integrated tree configuration information)。為此,兩個物件位元串流的合併產生的附加設定資訊可以修正,用於產生兩個物件位元串流的一定數量的OTT匣的索引可以修正,並且僅一些如第十一OTT匣執行的計算處理之附加處理以及兩個物件位元串流的兩個降混信號的降混可以執行。在這個方式中,該兩個物件位元串流能夠輕易地合併為一單一物件位元串流,而不需要對產生出該兩個物件信號來源的複數物件信號相關之資訊進行修正。
請參考圖17,該第十一OTT匣為可選擇存在的。在這個情況下,兩個物件位元串流的兩個降混信號可以用作兩聲道降混信號。因此,兩個物件位元串流能夠合併為一單一物件位元串流而不需附加計算。
圖18係說明將兩個以上的獨立物件位元串流合併為具有一立體聲降混信號的一單一物件位元串流的方塊圖。請參考圖18,如果兩個以上的獨立物件位元串流具有不同數量的參數帶,則參數帶映射可以在物件位元串流上執行,以致於具有少數參數帶的一個物件位元串流的參數帶的數量能夠增加至與其他物件位元串流的參數帶的數量一樣。
更精確地說,可以利用一預定映射表完成參數帶映射。在這個情況下,參數帶映射可以利用一簡單線性公式完成。
如有交疊參數帶的話,考慮到彼此交疊的參數帶的數量,參數值可以適當地混合。優先考慮低複雜度的情況下,參數帶映射可以在兩個物件位元串流上執行,以致於在兩個物件位元串流中,具有更多參數帶的其中一個的參數帶的數量能夠減少至與另一個物件位元串流的參數帶的數量一樣。
在圖17和圖18所示的實施例中,兩個以上的獨立物件位元串流能夠合併為一整合物件位元串流,而不需要對獨立物件位元串流的現有參數進行計算。然而,在合併複數個降混信號的情況下,關於降混信號的參數可能需要通過QMF/hybrid分析再一次計算。然而,此需要大量的計算,從而折衷了圖17和圖18中的實施例的優勢。因此,有必要提出擷取參數的方法,而不需要QMF/hybrid分析或者整合,甚至當降混信號進行降混的時候。為此,關於每個降混信號的每個參數帶的能量之能量資訊可以包含在一物件位元串流內。然後,當降混信號進行降混的時候,如CLD資訊的資訊可以根據該能量資訊輕易地計算,而不需要QMF/hybrid分析或者整合。該能量資訊可以代表用於每個參數帶的一最高能階或者每個參數帶的一最高能量物件信號的能階的絕對值。可以進一步藉利用從一整體參數帶的一時域中獲得的ICC值,來減少計算量。
在對複數個降混信號進行降混的過程中可能會發生削波。為了解決這個問題,可以減少降混信號的位階。如果降混信號的位 階減少,則關於減少位階的降混信號的位階資訊可能需要包含在一物件位元串流內。用於防止削波的位階資訊可以應用於一物件位元串流的每一個框架上或者可以僅僅應用於削波發生的一些框架上。原始降混信號的位階可以通過反向地應用位階資訊進行計算,用於防止一解碼操作中的削波。用於防止削波的位階資訊可以在一時域內計算並從而不需要進行QMF/hybrid分析或者整合。複數物件信號合併為一單一物件位元串流的操作可以利用如圖12所示的結構執行,並且請參考圖19在下文中進行詳細地描述。
圖19係說明將兩個物件位元串流合併為一單一物件位元串流的方塊圖。請參考圖19,一第一匣261產生出一第一物件位元串流,並且一第二匣263產生出一第二物件位元串流。然後,一第三匣265通過合併第一和第二位元串流產生出一第三位元串流。在這個情況下,如果第一和第二物件位元串流包括每個參數帶的一最高能量物件信號的能階的絕對值資訊和非最高能量物件信號的能階與最高能量物件信號的能階的比例和關於增益值的增益資訊,該增益值通過第一和第二匣261和263成倍於降混信號,則該第三匣265可以通過合併第一和第二位元串流只要產生出第三物件位元串流而不需要附加參數計算或者擷取。
該第三匣265接收複數降混信號DOWNMIX_A和DOWNMIX_B。該第三匣265將降混信號DOWNMIX_A和DOWNMIX_B轉換為脈碼調變(pulse code modulation, PCM)信號,並加總PCM信號,從而產生出一單一降混信號。然而,在這個過程中,削波可能會發生。為了解決此,該降混信號DOWNMIX_A和DOWNMIX_B可以乘上一預定增益值。關於該預定增益值的資訊可以包括在第三物件位元串流內並隨著第三物件位元串流傳輸。
複數個物件位元串流合併為一單一位元串流的過程將在下文中進一步詳細描述。請參考圖19,A可以包括複數物件信號OBJECT1至OBJECTn中任意一個是一最高能量物件信號的資訊 以及其他非最高能量物件信號的能階與最高能量物件信號的能階的比例。同樣地,SIDE INFO可以包括複數物件信號OBJECT1至OBJECTn中任意一個是一最高能量物件信號的資訊以及其他非最高能量物件信號的能階與最高能量物件信號的能階的比例。
SIDE_INFO_A和SIDE_INFO_B可以平行地包含在一個位元串流內,如圖20所示。在這個情況下,可以附加提供指示出一個以上的位元串流是否平行存在之一位元。
請參考圖20,為了指示出一預定位元串流是否為在其內包含有一個以上的位元串流的整合位元串流,以及即便是包含在預定位元串流內的關於位元串流原始位置的資訊都可以在預定位元串流的標題處提供出來並隨後具有即便是在預定位元串流內的一個以上的位元串流。在這個情況下,一解碼器可以通過分析預定位元串流的標頭資訊,確定該預定位元串流是否為包含有一個以上位元串流的一整合位元串流。這類位元串流合併方法不需要附加的處理,除了需要對一位元串流進行一些附加的識別。然而,此識別需要在一定數量框架間隔處提供出來。另外,這類位元串流合併方法需要一解碼器,用於確定解碼器接收的全部位元串流是否為一整合位元串流。
作為上述位元串流合併方法的可替換方法,複數位元串流可以利用一方法合併為一單一位元串流,在此方式中,一解碼器不能識別單一位元串流是否為一整合位元串流。這個內容將在下文中請參考圖21之詳細描述。
請參考圖21,SIDE_INFO_A代表的一最高能量物件信號的能階與SIDE_INFO_B代表的一最高能量物件信號的能階進行比較。然後,兩個物件信號中任意一個具有一較高能階的物件信號確定為一整合位元串流的一最高能量物件信號。舉例來說,如果SIDE_INFO_A代表的最高能量物件信號的能階高於SIDE_INFO_B代表的最高能量物件信號的能階,則SIDE_INFO_A代表的最高能量信號可以成為一整合位元串流的一最高能量物件 信號。然後,SIDE_INFO_A的能量比例資訊可以在整合位元串流內使用,而SIDE_INFO_B的能量比例資訊可以為能階比例的倍數。然後,SIDE_INFO_A和SIDE_INFO_B中任意一個的能量比例資訊包括關於可以在整合位元串流內使用的整合位元串流的最高能量物件信號的資訊,以及包括A代表的最高能量物件信號的能量比例資訊和SIDE_INFO_B代表的最高能量物件信號的能量比例資訊。這個方法包括SIDE_INFO_B的能量比例資訊的重算。然而,SIDE_INFO_B的能量比例的重算相對簡單。在這個方法中,一解碼器不能確定一位元串流是否接收包含一個以上位元串流的整合位元串流,並因此可以使用一典型解碼方法。
包含立體聲降混信號的兩個物件位元串流可以簡單地合併為一單一物件位元串流,而不需要關於物件信號資訊的重算,該合併的方法幾乎與合併包含單聲降混信號的位元串流所用的方法一樣。在一物件位元串流內,關於一降混物件信號的樹狀狀結構的資訊係先於樹狀結構的每個分支(例如,每個box)獲得的物件信號資訊。
物件位元串流已經在上文中指示出,假設某些物件僅分配至一立體聲降混信號的一左聲道或者一右聲道。然而,物件信號通常在一立體聲降混信號的雙聲道間分配。因此,下文將詳細描述如何根據在一立體聲降混信號的雙聲道間分配的物件位元串流,產生出一物件位元串流。
圖22係解釋藉由混合複數物件信號產生一立體聲降混的方法的方塊圖,更精確地,顯示了將四個物件信號OBJECT1至OBJECT4降混為L和R立體聲信號的一方法。請參考圖22,四個物件信號OBJECT1至OBJECT4中的一些信號既屬於一降混信號的L聲道、又屬於R聲道。舉例來說,該第一物件信號OBJECT1以a:b的比例在L和R聲道之間分配,如方程式(3): [方程式3]
如果一物件信號在一立體聲降混信號的L和R聲道間分配,則另外需要關於物件信號在L和R聲道間分配比例(a:b)的聲道分配比例資訊。然後,如CLD和ICC資訊,關於的物件信號的資訊可以通過在一立體聲降混信號的L和R聲道中利用OTT匣執行降混獲得,這個過程將進一步請參考圖23詳細描述。
請參考圖23,在一降混操作過程中,一旦從複數個OTT匣獲得CLD和ICC資訊以及提供每個物件信號的聲道分配比例資訊,可以計算出一多聲道位元串流,該位元串流依終端用戶在物件位置資訊和播放設定資訊中做出的任何修正而適性變化。此外,如果一立體聲降混信號需要經降混前處理來進行處理,則可獲得關於立體聲降混信號如何經降混前處理的資訊,並且可以將獲得的資訊傳輸至前處理器。即,如果提供的每個物件信號不存在聲道分配比例資訊,就沒有方法計算一多聲道位元串流並且獲得前處理操作所必需的資訊。一物件信號的聲道分配資訊可以代表為兩個整數的一比例或者一數量級(單位:dB)。
如上所述,若一物件信號在一立體聲的降混信號的兩個聲道間分配,則可能需要物件信號的聲道分配比例資訊。聲道分配比例資訊可能具有一固定值指示出在一立體聲降混信號的兩個聲道間一物件信號的分配比例。或另一途,當聲道分配比例資訊被用作ICC資訊的時候,一物件信號的聲道分配比例資訊可由物件信號的一個頻帶至另一個頻帶變化。如果一立體聲降混信號通過一複雜降混操作獲得,例如,如果一物件信號屬於一立體聲降混信號的兩個聲道並且從物件信號的一個頻率帶至另一個頻率帶通過改變ICC資訊對該物件信號進行降混,則還需要對物件信號的降 混的詳細描述,從而解碼一最終渲染物件信號。這個實施例可以應用於已經描述的全部可能的物件信號。
下文中,進一步請參考圖24至圖27對前處理的詳細描述。如果輸入至一物件解碼器的一降混信號是一立體聲信號,則輸入的降混信號可能需要在輸入至物件解碼器的一多聲道解碼器之前進行前處理,此因為多聲道解碼器不能將屬於輸入的降混信號的左聲道的一信號映射至一右聲道。因此,為了讓一終端用戶將屬於輸入降混信號的左聲道的一物件信號移位至一右聲道,該輸入的降混信號可能需要進行前處理,從而前處理後的降混信號可以輸入至多聲道解碼器。
一立體聲降混信號的前處理的執行包括:從一物件位元串流及一渲染矩陣中獲得獲得與處理資訊並且根據前處理資訊適當地處理立體聲降混信號,此將在下文進一步詳細描述。
圖24係用於解釋根據四個物件信號OBJECT1至OBJECT4如何設定一立體聲降混信號的說明性方塊圖。請參考圖24,該第一物件信號OBJECT1在L和R聲道間以比例a:b分配,該第二物件信號OBJECT2在L和R聲道間以比例c:d分配,該第三物件信號OBJECT3僅在L聲道中分配,並且第四物件信號OBJECT4僅在R聲道中分配。通過將第一至第四物件信號OBJECT1至OBJECT4穿過一定數量的OTT,可以產生如CLD和ICC的資訊,並且根據產生的資訊可以產生出一降混信號。
假設一終端用戶通過適當地設定第一至第四物件信號OBJECT1至OBJECT4的位置和位階,獲得一渲染矩陣,並且假設存在五個聲道。該渲染矩陣可以方程式(4)表示:
請參考方程式(4),當四行內每行的五個係數的總和等於一預定值時,如100,可以確定一對應物件信號的位階仍沒有變化。四行內每一行的五個係數的總和與預定參考值的差異量,可以是已經變化的一對應物件信號的位階的量(單位:dB)。方程式(4)的渲染矩陣的第一、第二、第三、第四和第五列分別代表FL、FR、C、RL和RR聲道。
方程式(4)的渲染矩陣的第一行於第一物件信號OBJECT1對應並具有總共五個係數,如,30、10、20、30和10。由於第一行的五個係數的總和是100,則可以確定第一物件信號OBJECT1的位階並未變化,並且只有第一物件信號OBJECT1的空間位置已經改變。即使第一行的五個係數代表不同的聲道方向,但可以大致分為兩個聲道:L和R聲道。然後,第一物件信號OBJECT1在L和R聲道之間分配的比例可以計算為70%(=(30+30+20)*0.5):30%(=(10+10+20)*0.5)。因此,方程式(4)的渲染矩陣指示出第一物件信號OBJECT1的位階仍沒有變化,並且第一物件信號在L和R聲道間分配的比例為70%:30%。如果方程式(4)的渲染矩陣的任意一行的五個係數的總和小於或者大於100,可以確定一對應物件信號的位階已經變化,並且因此,該對應物件信號可以通過前處理進行處理或者可以轉換為ADG並以此形式傳輸。
為了前處理降混信號,可以計算降混信號在參數帶間分配的比例,參數帶中的參數可以從降混信號上執行的QMF/hybrid轉換獲得的信號中擷取,而且該降混信號可以根據設定的一渲染矩陣在參數帶間重新分配。在參數帶間重新分配降混信號的各種方法將在下文中詳細描述。
在一第一重新分配方法中,利用各自的輔助資訊(如CLD和ICC資訊)以及利用與一多聲道編解碼器所用的方法相同的方法,對L和R聲道降混信號進行獨立地解碼。然後,在L和R聲道降 混信號間分配的物件信號進行還原。為了減少計算量,L和R聲道降混信號可以僅僅利用CLD資訊進行解碼。每個還原物件信號在L和R聲道降混信號間分配的比例可以依根據輔助資訊確定。
每個還原的物件信號可以根據一渲染矩陣在L和R聲道降混信號間重新分配。然後,重新分配的物件信號藉著OTT匣根據逐聲道的基礎進行降混,從而完成前處理。簡言之,該第一重新分配方法採用的方法與一多聲道編解碼器所用的方法相同。然而,該第一重新分配方法需要與每個聲道的物件信號一樣多的解碼處理,並需要一重新分配處理以及一以聲道為主的降混處理。
在一第二重新分配方法中,不同於第一重新分配的方法,物件信號沒有從L和R降混信號中還原。相反,每個L和R降混信號分為兩部分:留在一對應聲道的一部分L_L或者R_R,以及將重新分配的另一部分L_R或者R_L,如圖25所示。請參考圖25,L_L代表留在一L聲道內的一部分L聲道降混信號,並且L_R代表加入一R聲道的一部分L聲道降混信號。同樣地,R_R代表留在R聲道的一部分R聲道降混信號,而R_L代表加入一L聲道的一部分R聲道降混信號。每個L和R聲道降混信號可以根據每個物件信號在L和R聲道降混信號間分配的比例,以及每個物件信號將在前處理的L和R聲道L'和R'間分配的比例,如方程式(3)定義,分為兩部分(L_L和L_R或者R_R和R_L),如方程式(2)定義地。因此,通過將每個物件信號在L和R降混信號間分配的比例與每個物件信號將在前處理的L和R聲道L'和R'間分配的比例進行對比,可以確定L和R聲道降混信號將如何在前處理的L和R聲道L'和R'間分配。
上面已經描述根據一預定能量比例將一L聲道信號劃分為信號L_L和L_R。一旦L聲道信號分為信號L_L和L_R,信號L_L和L_R間的一ICC可能需要進行確定。信號L_L和L_R間的ICC可以容易地地根據關於物件信號的ICC資訊進行確定。即,信號L_L和L_R間的ICC可以根據每個物件信號在信號L_L和L_R 間的分配比例進行確定。
該第二降混重新分配方法將進一步在下面進行詳細描述。假設該L和R聲道降混信號L和R通過如圖24所示的方法取得,第一、第二、第三和第四物件信號OBJECT1、OBJECT2、OBJECT3和OBJECT4分別在L和R聲道降混信號L和R間分別以1:2、2:3、1:0和0:1的比例分配。複數物件信號可以利用一定數量的OTT匣進行降混處理,並且如CLD和ICC資訊的資訊可以從物件信號的降混處理中獲得。
用於第一至第四物件信號OBJECT1至OBJECT4的一渲染矩陣的實例用方程式(4)表示。該渲染矩陣包括第一至第四物件信號OBJECT1至OBJECT4的位置資訊。因此,前處理後的L和R聲道降混信號L'和R'可以通過利用渲染矩陣執行前處理而獲得。如何建立和指示出渲染矩陣,已經在上面參考方程式(3)做出描述。
第一至第四物件信號OBJECT1至OBJECT4中每個物件信號在前處理後的L和R聲道降混信號L和R間分配的比例可以方程式(5)計算:
第一至第四物件信號OBJECT1至OBJECT4中每個物件信號在L和R聲道降混信號間分配的比例可以方程式(6)計算: [方程式6]
參考方程式(5),在前處理L聲道降混信號L中分配的第三物件信號OBJECT3的部分以及在R聲道降混信號R中分配的部分第三物件信號OBJECT3的總和為110,並因此,可以確定第三物件信號OBJECT3的位階已經增加了10。另一方面,在前處理L聲道降混信號L中分配的部分第四物件信號OBJECT4以及在R聲道降混信號R中分配的部分第四物件信號OBJECT4的總和是95,並因此,可以確定第四物件信號OBJECT4的位階已經減少了5。如果用於第一至第四物件信號OBJECT1至OBJECT4的渲染矩陣具有一參考值100,而且渲染矩陣的每行內係數的總和與參考值100之間的差異量代表了一對應物件信號的位階已經變化的量(單位:dB),可以確定物件信號OBJECT3的位階已經增加了10dB,並且第四物件信號OBJECT4的位階已經減少了5dB。
方程式(5)和(6)可以重新整理為方程式7:
在方程式(7)中,將第一至第四物件信號OBJECT1至OBJECT4 在前處理之前的L和R聲道降混信號間分配的比例與第一至第四物件信號OBJECT1至OBJECT4在前處理之後的L和R聲道降混信號間分配的比例進行比較。因此,藉由使用方程式(7),可以容易地確定第一至第四物件信號OBJECT1至OBJECT4中有多少物件信號將通過前處理重新分配。舉例來說,請參考方程式(7),第二物件信號OBJECT2在L和R聲道降混信號間分配的比例從40:60變為30:70,並因此可以確定最初分配至L聲道降混信號的第二物件信號OBJECT2的四分之一(25%)需要移位至R聲道降混信號。這個過程可以參考方程式(8)指示出: [方程式8]OBJECT1:最初在R上分配的55%的OBJECT1需移位至LOBJECT2:最初在L上分配的25%的OBJECT1需移位至ROBJECT3:最初在L上分配的50%的OBJECT1需移位至ROBJECT4:最初在R上分配的50%的OBJECT1需移位至L
藉由使用方程式(8),圖25的信號L_L、L_R以及R_R可以用方程式(9)表示出來:
方程式(9)內每個物件信號的值可以藉由使用一OTT匣提供的量化CLD資訊表示為一對應物件信號在L和R聲道間的分配比例,如用方程式(10)表示:
決定用於圖25中的每個分解框內的CLD資訊,如用方程式(11)表示:
在這個方式中,在一分解框內可以確定用於根據一L聲道降混信號產生信號L L和L_R的CLD和ICC資訊,並且在一分解框內可以確定用於根據一R聲道降混信號產生信號R_L和R_R的CLD和ICC資訊。一旦獲得了L_L、L_R、R_L和R_R信號,如圖25所示,信號L_R和R_R可以相加,從而獲得一前處理的立體聲降混信號。如果一最終聲道是一立體聲聲道,可以輸出通過前處理獲得的L和R聲道降混信號。在這個情況下,即便是在每個物件信號位階內的變化仍然沒有進行調節。為此,可以附加 地提供執行一ADG模組功能的一預定模組。用於調節每個物件信號位階的資訊可以利用一方法計算,該方法與用於計算ADG資訊的方法一樣,這個過程將進一步詳細描述。或另一途,每個物件信號的位階可以在一前處理過程內調節。在這個情況下,每個物件信號的位階的調節可以利用一同於處理ADG一樣的方法執行。作為圖25所示的實施例的可替途徑,可以通過一解聯器和一混合器執行一解聯操作,勝於通過分析模組PARSING 1 301和PARSING 2 303完成操作,如圖26所示,為了調節通過混合器獲得的信號L'和R'之間的相關性。請參考圖26,Pre_L'and Pre_R'指示出位階調節獲得的L和R聲道信號。信號Pre-L'and Pre_R'的其中之一可以輸入至解聯器307,並因此通過混音器309進行一混合操作,進而獲得一相關調節信號。
一前處理的立體聲降混信號可以輸入至一多聲道解碼器。為了提供與一終端用戶設定的物件位置資訊和播放資訊相容的多聲道輸出,不單是一前處理降混信號,以聲道為主的輔助資訊對於執行多聲道解碼也是有必要的。下文將詳細描述如何再一次通過上述實例獲得以聲道為主的輔助資訊。輸入至一多聲道解碼器內的前處理的降混信號L'和R'可以在方程式(5)的基礎上,以方程式(12)表示: [方程式12]Eng L' =Eng L_L +Eng R_L =0.7Eng Obj 1 +0.3Eng Obj 2 +0.5Eng Obj 3 +0.5En g Obj 4 Eng R ' =Eng L_R +Eng R _R =0.3Eng Obj 1 +0.7Eng Obj 2 +0.5Eng Obj 3 +0.5Eng Obj 4
第一至第四物件信號OBJECT1至OBJECT4中的每一個信號在FL、RL、C、FR和RR聲道中分配的比例可以方程式(13)表示: [方程式13]Eng FL =0.3Eng Obj 1 +0.1Eng Obj 2 +0.2Eng Obj 3 +0.21.100/95.Eng Obj 4 Eng RL =0.3Eng Obj 1 +0.1Eng Obj 2 +0.2Eng Obj 3 +0.11.100/95.Eng Obj 4 Eng C =0.2Eng Obj 1 +0.2Eng Obj 2 +0.2Eng Obj 3 +0.31.100/95.Eng Obj 4 Eng FR =0.1Eng Obj 1 +0.3Eng Obj 2 +0.2Eng Obj 3 +0.21.100/ 95.Eng Obj 4 Eng RR =0.1Eng Obj 1 +0.3Eng Obj 2 +0.2Eng Obj 3 +0.11.100/95.Eng Obj 4
該前處理的降混信號L'和R'可以通過MPS擴大為5.1聲道,如圖27所示。請參考圖27,一TTT匣TTT0和OTT匣OTTA、OTTB與OTTC的參數可能需要在參數帶單位內計算,而為了簡便,參數帶便未於此詳述。
該TTT匣TTT0可以用在兩個不同的模式中:一以能量為主的模式和一預報模式。當在以能量為主的模式中使用的時候,該TTT匣TTT0需要兩條CLD資訊。當在預報模式下使用的時候,TTT匣TTT0需要兩條CPC資訊和一條ICC資訊。
為了在以能量為主的模式下計算CLD資訊,圖27所示的信號L”、R”和C可以利用方程式(6)、(10)和(13)計算。信號L”的能階可以方程式(14)計算: [方程式14]
方程式(14)也可以用於計算R”或者C的能階。之後,在TTT匣TTT0內使用的CLD資訊可以根據信號L”、R”和C的能階計算,如方程式(15)表示:
方程式(14)可以依據方程式(10)來建立。即使方程式(10)只定義了如何計算一L聲道的能量值,但一R聲道的能量值也可利用方程式(10)來計算。在這個方式中,第三和第四OTT匣的CLD和ICC值可以根據第一和第二OTT匣的CLD和ICC值計算。然而,此並不需要應用於全部樹狀結構中,而僅需應用於特定用於解碼物件信號的樹狀結構。包含在一物件位元串流內的資訊可以傳輸至每個OTT匣。或另一途,包含在一物件位元串流內的資訊可以僅僅傳輸至一些OTT匣,並且指示出還沒有接收資訊的OTT匣的資訊可以通過計算獲得。
如CLD和ICC資訊的參數可以利用上述方法進行計算而用於OTT匣OTTA、OTTB和OTTC。此多聲道參數可以輸入至一多聲道解碼器並進而進行多聲道解碼,從而獲得一多聲道信號,該信號根據一終端用戶所需的物件位置資訊和播放設定資訊適當地渲染。
如果物件信號的位階仍然沒有通過前處理調節,則該多聲道參數可能包括ADG參數。一ADG參數的計算將再一次通過上述例子進行詳細地描述。
當產生一渲染矩陣的時候,從而一第三物件信號的位階能夠增加10dB,一第四物件信號的位階能夠減少5dB,在L內的一第三物件信號成分的位階能夠增加10dB,並且在L內的一第四物件信號的位階能夠減少5dB,第一和第四物件信號的位階調節之前和之後的能階的一比例RatioADG,L'可以利用方程式(16)計算:
比例Ratio ADG ,L ' 可以通過將方程式(10)取代方程式(16)而確定。用於一R聲道的一比例Ratio ADG ,R ' 也可以利用方程式(16)計算。比例Ratio ADG , L ' 和Ratio ADG ,R ' 代表物件信號的位階調節導致的一對應參數帶的能量變化。因此,ADG值ADG(L')and ADG(R')能夠利用比例Ratio ADG ,L ' 和Ratio ADG ,R ' 計算,如方程式(17)表示: [方程式17]ADG (L ')=10log10 (Ratio ADG ,L ' )ADG (R ')=101og10 (Ratio ADG ,R ' )
一旦確定ADG參數ADG(L')和ADG(R'),ADG參數ADG(L')和ADG(R')通過利用一ADG量化表格進行量化,並且傳輸量化後的ADG值。如果存在需要進一步精確調節的ADG值ADG(L')和ADG(R'),則ADG值ADG(L')和ADG(R')的調節可藉一前處理器執行,而非一MPS解碼器。
在一物件位元串流內,用於代表物件信號的參數帶的數量和間隔可以不同於一多聲道解碼器內使用的參數帶的數量和間隔。在這個情況下,物件位元串流的參數帶可以線性地映射至多聲道解碼器的參數帶上。更精確地說,如果一物件位元串流的一特定參數帶範圍及於一多聲道解碼器的兩個參數帶,則線性映射可以執行,從而物件位元串流的特定參數帶能夠劃分,該劃分是根據在多聲道解碼器的兩個參數帶間分配的對應參數帶的比例。另一方面,如果一物件位元串流的一個以上的參數帶包含在一多聲道解碼器的一特定參數帶內,則物件位元串流的參數值可以均分。或另一途,參數帶映射能夠利用多聲道標準的一當前參數帶映射表執行。
當物件解碼用於遠端會議的時候,不同人聲會對應物件信號。一物件解碼器將對應物件信號的語音分別輸出至特定揚聲器。然而,當一個以上的人同時說話的時候,很難使一物件解碼器將人的語音通過解碼適當地分配至不同的揚聲器,並且人聲的渲染操作可能導致聲音失真並惡化聲音的品質。為了解決這個問題,指示出是否同時有一個以上的人在說話的資訊可以包含在一位元串流內。然後,如果根據資訊確定存在一個以上的人同時說話,則一以聲道為主的位元串流可以修正,以致於與降混信號幾乎相似的僅僅解碼信號可以輸出至每個揚聲器。
舉例來說,假設存在三個人a、b和c,並且a、b和c三人的聲音需要解碼,從而分別輸出至揚聲器A、B和C。當a、b和c三人同時說話的時候,a、b和c三人的語音可以全部包含在一降混信號內,該降混信號通過對分別代表a、b和c三人的語音進行 降混處理而獲得。在這個情況下,關於分別對應a、b和c三人語音的部分降混信號的資訊可以設定為一多聲道位元串流。然後。該降混信號可以利用一典型物件解碼方法進行解碼,致a、b和c三人的語音能夠分別輸出至揚聲器A、B和C。揚聲器A、B和C中每一個的輸出可以還原並且具有比原始降混信號低的辨識率。另外,a、b和c三人的語音不能適當地彼此獨立。為了解決這個問題,關於a、b和c三人同時說話的資訊可以包含在一位元串流內。然後,一轉解碼器可以產生出一多聲道位元串流,以致於藉由對a、b和c三人語音對應的物件信號進行分別降混,進而獲得的降混信號能夠輸出至每個揚聲器A、B和C。在這個方式中,可以防止信號失真。
實際上,當一個以上的人同時說話的時候,很難區分出每個人聲。因此,當一降混信號輸出的時候地聲音品質比降混信號渲染的時候地聲音品質要高,以致不同人的語音能夠彼此區分並輸出至不同的揚聲器。對於這個問題,一轉碼器可以產生出一多聲道位元串流,以致於當一個以上人同時說話時獲得的一降混信號可以輸出至所有揚聲器,或者該降混信號能夠放大並輸出至揚聲器。
為了指示出一物件位元串流的一降混信號是否源於一個以上人的同時說話,一物件編碼器可以適當地修正物件位元串流,而非如上所述之提供的附加資訊。在這個情況下,一物件解碼器可以在物件位元串流上執行一典型的解碼操作,致使該降混信號能夠輸出至揚聲器,或者該降混信號能夠放大但不致讓信號失真發生,然後,輸出至揚聲器。
提供至一多聲道解碼器,如一HTRF的3D資訊,將在下文中詳細描述。
當一物件解碼器在一雙耳聲模式下運行的時候,物件解碼器內的一多聲道解碼器也在雙耳模式下運行。一終端用戶可以將如一HRTF的3D資訊傳輸至多聲道解碼器,該資訊根據物件信號的 空間位置進行最佳化。
更精確地說,當有兩個物件信號的時候,如OBJECT1和OBJECT2,而且該兩個物件信號OBJECT1和OBJECT2分別設置在位置1和位置2,一渲染矩陣產生器或者轉碼器可以具有指示出物件信號OBJECT1和OBJECT2的位置的3D資訊。如果該渲染矩陣產生器具有指示出物件信號OBJECT1和OBJECT2位置的3D資訊,則渲染矩陣產生器可以將指示出信號OBJECT1和OBJECT2位置的3D資訊傳輸至轉碼器。另一方面,如果轉碼器具有指示出信號OBJECT1和OBJECT2位置的3D資訊,則渲染矩陣產生器僅僅可以將與3D資訊對應的索引資訊傳輸至轉碼器。
在這個情況下,可以根據指出位置1和2的3D資訊,產生一雙耳信號,如方程式(18)表示: [方程式18]L =Obj 1*HRTF L .Pos 1 +Obj 2*HRTF L .Pos 2 R =Obj 1*HRTF R .Pos 1 +Obj 2*HRTF R .Pos 2
假設一5.1聲道揚聲器系統將用於複製聲音,一多聲道雙耳解碼器藉由執行解碼獲得雙耳聲音,並且該雙耳聲音可以用方程式(19)表示: [方程式19]L =FL *HRTF L ,FL +C *HRTF L ,C +FR *HRTF L ,FR +RL *HRTF L ,RL +RR *HRTF L ,RR R =FL *HRTF R ,FL +C *HRTF R ,C +FR *HRTF R ,FR +RL *HRTF R ,RL +RR *HRTF R ,RR
物件信號OBJECT1的一L聲道成分可以方程式(20)表 示: [方程式20]L Obj 1 =O bj 1*HRTF L ,Pos 1 L Obj 1 =FL Obj 1 *HRTF L ,FL +C Obj 1 *HRTF L ,C +FR Obj 1 *HRTF L ,FR +RL Obj 1 *HRTF L ,RL +RR Obj 1 *HRTF L ,RR
物件信號OBJECT1的一R聲道成分和物件信號OBJECT2的L和R聲道元件都可用方程式(20)定義。
舉例來說,如果物件信號OBJECT1和OBJECT2的能階與總能階的比例分別為a和b,則分配在一FL聲道的部分物件信號OBJECT1與總物件信號OBJECT1的比例為c,並且分配在FL聲道的部分物件信號OBJECT2與總物件信號OBJECT2的比例為d,在FL聲道分配的物件信號OBJECT1和OBJECT2的比例為ac:bd。在這個情況下,FL聲道的一HRTF可以用方程式(21)決定:
在此方式中,可以獲得用在一多聲道雙耳解碼器的3D資訊。因為在一多聲道雙耳解碼器使用的3D資訊更能代表物件信號的實際位置,比起利用與五個揚聲器位置對應的3D資訊執行多聲道解碼,可以更生動地利用在一多聲道雙耳解碼器使用的3D資訊, 通過雙耳解碼還原雙耳信號。
如上所述,在一多聲道雙耳解碼器使用的3D資訊可以根據代表物件信號空間位置的3D資訊以及能量比例資訊進行計算。或另一途,當根據物件信號的ICC資訊,增加代表物件信號空間位置的3D資訊的時候,在一多聲道雙耳解碼器使用的3D資訊可以通過適當地執行解聯操作來產生。
效果處理可以作為部分前處理來執行。或另一途,效果處理的結果可以簡單地加入一多聲道解碼器的輸出中。在前一個情況下,為了在一物件信號上執行效果處理,除了一L聲道分為L_L和L_R並且一R聲道分為R_R和R_L之外,可能需要執行物件信號的擷取。
更精確地說,一物件信號可以先從L和R聲道信號擷取。然後,該L聲道信號可以分為L_L和L_R,R聲道可以分為R_R和R_L。效果處理可以在物件信號上執行。然後,效果處理後的物件信號可以根據一渲染矩陣分為L和R聲道元件。其後,效果處理後的物件信號的L聲道成分可以加入L_L和R_L,並且效果處理後的物件信號的R聲道元件可以加入R_R和L_R。
或另一途,前處理後的L和R聲道信號L'和R'可以首先產生。其後,一物件信號可以從前處理後的L和R聲道信號L'和R'中擷取。其後,效果處理可以在物件信號上執行前處理,且其的結果可以反加回前處理後的L和R聲道信號。
一物件信號的頻譜可以通過效果處理進行修正。例如,一物件信號的一高音部分的位階或者一低音部分的位階可以有選擇地提高。為此,只能與物件信號的高音部分或者低音部分對應的一頻譜部份可以被修正。在這個情況下,包含在一物件位元串流內的與物件有關的資訊可能因此需要修正。舉例來說,如果一特定物件信號的一低音部分的位階提高,則該特定物件信號的低音部分的能量也可以提高。如此,包含在一物件位元串流內的能量資訊不能再完全代表特定物件信號的能量。為了解決這個問題,包 含在物件位元串流內的能量資訊可以根據特定物件信號的能量內的變化直接修正。或另一途,由一轉碼器提供的頻譜變化資訊可以應用於一多聲道位元串流的結構中,以致於該特定物件信號的能量變化能夠在多聲道位元串流內反映出來。
圖28至圖33係將複數條以物件為主輔助資訊和複數個降混信號合併為一條輔助資訊和一降混信號的說明性方塊圖。當遠端會議的例子下,有時需要將複數條以物件為主的輔助資訊和複數個降混信號合併為輔助資訊和一降混。在這個情況下,需要考慮一些因素。
圖28係說明一物件編碼位元串流方塊圖。請參考圖28,該物件編碼位元串流包括一降混信號和輔助資訊。該降混信號與輔助資訊同步。因此,該物件編碼位元串流可以輕易地進行編碼而不用考慮額外的因素。然而,將複數個位元串流合併為一單一位元串流的情況下,必須確定單一位元串流的一降混信號與單一位元串流的輔助資訊同步。
圖29係說明解釋複數個物件編碼位元串流BS1和BS2的合併處理的方塊圖。請參考圖29,參考數字1,2和3代表框架數。為了將複數個降混信號合併為一單一降混信號,該降混信號可以轉換為PCM信號,該PCM信號可以在一時域上進行降混,並且降混後的PCM信號可以修正為一壓縮編解碼器格式。在這些過程中,可能產生一延遲,如圖29(b)所示。因此,當藉由合併複數個位元串流獲得需要解碼的一位元串流的時候,必須確定需要被解碼的一位元串流的一降混信號與需要被解碼的位元串流的輔助資訊完全同步。
如果一降混信號和一位元串流的輔助資訊之間有一延遲,則該位元串流可以通過與延遲對應的一預定量進行補償。在一降混信號和一位元串流的輔助資訊之間的一延遲可以根據用於產生降混信號的壓縮編解碼器的類型改變,因此,在一降混信號和一位元串流的輔助資訊之間的一位元延遲都可以包含在輔助資訊內。
當位元串流BS1和BS2的降混信號通過不同類型的編解碼器產生或者位元串流BS1的輔助資訊的結構與位元串流BS2的輔助資訊的結構不同的時候,圖30顯示了兩個位元串流BS1和BS2合併為一單一位元串流的情況。請參考圖30,當位元串流BS1和BS2的降混信號通過不同類型編解碼器產生,或者位元串流BS1的輔助資訊的結構與位元串流BS2的輔助資訊的結構不同的時候,可以確定位元串流BS1和BS2具有不同的信號延遲d1和d2,其因將降混信號轉換為時域信號,並且時域信號的轉換操作通過使用一單一壓縮編解碼器完成。在這個情況下,如果不考慮不同信號延遲而只增加位元串流BS1和BS2,位元串流BS1的降混信號可能與位元串流BS2的降混信號不重合,且位元串流BS1的輔助資訊可能與位元串流BS2的輔助資訊不重合。為了解決這個問題,延遲d1的位元串流BS1的降混信號可進一步延遲,來與延遲d2的位元串流BS2的降混信號同步。然後,位元串流BS1和BS2可以利用與圖30的實施例中所用的同樣方法來合併,如果有一個以上的位元串流需要進行合併,具有一最大延遲的者可以用作一參考位元串流,且,另一個位元串流可以進一步延遲,以與參考位元串流同步。一降混信號和輔助資訊之間的一位元延遲可以包含在一物件位元串流。
指示出在一位元串流內是否有一訊號延遲的位元可被提供。只有位元資訊指出在一位元串流記憶體在一訊號延遲,才會額外提供指出信號延遲的資訊。在這個方式中,可以減少用於指示出即便是在一單一位元串流內的一單一延遲所需資訊量。
圖32係解釋利用不同信號延遲如何補償具有不同信號延遲的兩個位元串流BS1和BS2中的一個位元串流之說明性方塊圖,尤其是如何補償位元串流BS2,其所具有的信號延遲比位元串流BS2的信號延遲要長。請參考圖32,位元串流BS1的輔助資訊的第一至第三框架可以依樣全部使用。另一方面,因為位元串流BS2的輔助資訊的第一至第三框架不能分別與位元串流BS1的第一至第 三框架同步,所以位元串流BS2的輔助資訊的第一至第三框架不能使用。舉例來說,位元串流BS1的輔助資訊的第二框架不僅與位元串流BS2的輔助資訊的部分第一框架對應,且又與位元串流BS2的輔助資訊的部分第二框架對應。可以計算出與位元串流BS1的輔助資訊的第二框架對應的位元串流BS2的輔助資訊的部分第二框架與位元串流BS2的全部第二框架所成的比例,以及與位元串流BS1的輔助資訊的第二框架對應的位元串流BS2的輔助資訊的部分第一框架與位元串流BS2的輔助資訊的全部第一框架所成的比例,而且,位元串流BS2的輔助資訊的第一框架和第二框架可以或者根據計算的結果進行均分或者內插。在這個方式中,位元串流BS2的輔助資訊的第一至第三框架能夠分別與位元串流BS1的輔助資訊的第一至第三框架同步,如圖32(b)所示。然後,位元串流BS1的輔助資訊和位元串流BS2的輔助資訊可以利用圖29所示的實施例中的方法進行合併。位元串流BS1和BS2的降混信號可以合併為一單一降混信號,而不需延遲補償。在這個情況下,與信號延遲d1對應的延遲資訊可以儲存在通過合併位元串流BS1和位元串流BS2獲得的一合併位元串流內。
圖33係說明在具有不同信號延遲的兩個位元串流內如何補償任何一個具有一較短信號延遲的位元串流的情況之方塊圖。請參考圖33,位元串流BS2的輔助資訊的第一至第三框架可以全部依樣使用。另一方面,位元串流BS1的輔助資訊的第一至第三框架不能使用,原因是位元串流BS1的輔助資訊的第一至第三框架不能分別與位元串流BS2的輔助資訊的第一和第三框架同步。舉例來說,位元串流BS2的輔助資訊的第一框架不只與位元串流BS1的輔助資訊的部分第一框架對應,且又與位元串流BS1的輔助資訊的部分第二框架對應。可以計算出與位元串流BS2的輔助資訊的第一框架對應的位元串流BS1的輔助資訊的部分第一框架與位元串流BS1的全部第一框架所成的比例,及與位元串流BS2的輔助資訊的第一框架對應的位元串流BS1的輔助資訊的部分第二框 架與位元串流BS1的輔助資訊的全部第二框架所成的比例,而且位元串流BS1的輔助資訊的第一框架和第二框架可以或者根據計算的結果進行均分或者內插。在這個方式中,位元串流BS1的輔助資訊的第一至第三框架能夠分別與位元串流BS2的輔助資訊的第一至第三框架同步,如圖33(b)所示。然後,位元串流BS1的輔助資訊和位元串流BS2的輔助資訊可以利用圖29所示的實施例中的方法進行合併。位元串流BS1和BS2的降混信號可以合併為一單一降混信號,而不需要延遲補償,即使該降混具有不同的信號延遲。在這個情況下,與信號延遲d2對應的延遲資訊可以儲存在通過合併位元串流BS1和位元串流BS2獲得的一合併位元串流內。
如果複數個物件編碼位元串流合併為一單一位元串流,則物件編碼位元串流的降混信號可能需要合併為一單一降混信號。為了將對應不同壓縮編解碼器的複數個降混信號合併為一單一降混信號,該降混信號可以轉換為PCM信號或者頻域信號,並且PCM信號或者頻域信號可以在一對應域內增加。其後,增加的結果可以利用一預定壓縮編解碼器轉換。不論在一PCM操作過程中還是在一頻域內增加降混信號,並且根據壓縮編解碼器的類型,都可能發生各種信號延遲。因為一解碼器不容易從需要解碼的一位元串流內識別各種信號,則指示出各種信號延遲的延遲資訊可能需要包含在位元串流內。此延遲資訊可以代表一PCM信號內延遲採樣的數量或者一頻域內延遲採樣的數量。
本發明可以實現為一電腦可讀記錄媒介上編寫的電腦可讀碼。該電腦可讀記錄媒體可以為各種記錄裝置,用於將資料以一電腦可讀的方式存儲。電腦可讀記錄媒體的實例包括ROM、RAM、CD-ROM、磁帶、軟碟、光學資料記憶體,以及一載波(例如,通過網際網路的資料傳輸)。該電腦可讀記錄媒體可以在複數個與一網路連接的電腦系統上分佈,以致於以一分散的方式寫入和執行電腦可讀碼。需要用於實現本發明的功能程式、碼、以及 碼片段可以由本領域的技術人員輕易地瞭解本發明的內容。
如上所述,根據本發明,以物件為主的音訊編碼和解碼方法的優點益於為每一個物件信號定位聲音圖像。因此,可以在播放物件信號時提供更加真實的聲音。另外,本發明可以應用於互動遊戲,並可以因此提供給用戶體驗更加真實的虛擬實境(virtual reality)。
上述僅為用以解釋本發明之較佳實施例,並非企圖據以對本發明作任何形式上之限制,是以,凡有在相同之發明精神下所作有關本發明之任何修飾或變更,皆應仍包括在本發明意圖保護之範疇。
100‧‧‧物件編碼器
111‧‧‧物件解碼器
113‧‧‧混合器/渲染器
120‧‧‧音訊解碼裝置
121‧‧‧物件解碼器
123‧‧‧混合器/渲染器
125‧‧‧參數轉換器
130‧‧‧音訊解碼裝置
131‧‧‧物件解碼器
133‧‧‧混合器/渲染器
140‧‧‧音訊解碼裝置
141‧‧‧多聲道解碼器
145‧‧‧參數轉換器
147‧‧‧ADG模組
150‧‧‧音訊解碼裝置
151‧‧‧多聲道雙耳解碼器
155‧‧‧參數轉換模組
157‧‧‧第一參數轉換器
159‧‧‧第二參數轉換器
160‧‧‧音訊解碼裝置
161‧‧‧前處理器
163‧‧‧多聲道解碼器
165‧‧‧參數轉換器
170‧‧‧音訊解碼裝置
171‧‧‧多聲道解碼器
173‧‧‧後處理器
175‧‧‧參數轉換器
180‧‧‧音訊解碼裝置
181‧‧‧前處理器
183‧‧‧多聲道解碼器
185‧‧‧後處理器
187‧‧‧參數轉換器
200‧‧‧音訊解碼裝置
201‧‧‧渲染矩陣產生器
203‧‧‧轉碼器
205‧‧‧多聲道解碼器
207‧‧‧前處理器
208‧‧‧音效處理器
209‧‧‧加法器
211‧‧‧OTT匣
213‧‧‧OTT匣
215‧‧‧OTT匣
217‧‧‧OTT匣
219‧‧‧OTT匣
221‧‧‧物件編碼器
223‧‧‧物件編碼器
225‧‧‧多工器
235‧‧‧物件編碼器
241‧‧‧多聲道編碼器
243‧‧‧物件編碼器
245‧‧‧多工器
251‧‧‧物件編碼器
253‧‧‧多聲道編碼器
255‧‧‧物件編碼器
257‧‧‧多工器
261‧‧‧第一匣
263‧‧‧第二匣
265‧‧‧第三匣
301‧‧‧分析模組1
303‧‧‧分析模組2
307‧‧‧解聯器
309‧‧‧混音器
圖1係說明一典型的物件為主之音訊編碼/解碼系統的方塊圖;圖2係說明一根據本發明的第一實施例之音訊解碼裝置的方塊圖;圖3係說明一根據本發明的第二實施例之音訊解碼裝置的方塊圖;圖4係說明一根據本發明的第三實施例之音訊解碼裝置的方塊圖;圖5係說明圖4中用在音訊解碼裝置的任意降混增益(ADG)模組的方塊圖;圖6係說明一根據本發明的第四實施例之音訊解碼裝置的方塊圖;圖7係說明一根據本發明的第五實施例之音訊解碼裝置的方塊圖;圖8係說明一根據本發明的第六實施例之音訊解碼裝置的方塊圖;圖9係說明一根據本發明的第七實施例之音訊解碼裝置的方塊圖;圖10係說明一根據本發明的第八實施例之音訊解碼裝置的方塊圖;圖11及12係解釋一轉碼器操作之說明圖;圖13至16係解釋以物件為主的輔助資訊的設定之說明圖;圖17至22係解釋將以物件為主的輔助資訊的複數個片段併入輔助資訊的單一片段的說明圖;圖23至27係解釋處理操作的說明圖;以及 圖28至33係結合複數個位元串流與以物件為主的信號,合而成為一個位元串流的案例的說明圖。
120‧‧‧音訊解碼裝置
121‧‧‧物件解碼器
123‧‧‧混合器/渲染器
125‧‧‧參數轉換器

Claims (8)

  1. 一種音訊解碼方法,包含:接收一降混信號、以物件為主的輔助資訊和控制資訊,該降混訊號由降混至少一物件信號和該控制資訊取得,該控制資訊是用以控制該至少一物件信號的一位置或位階;從該以物件為主的輔助資訊擷取指示該至少一物件信號之描述的詮釋資料;以及產生一藉由使用該降混信號的多聲道音訊信號、該以物件為主的輔助資訊以及該控制資訊,其中該詮釋資料使用文字格式並包括至少一對應到該物件信號的數字以及一該物件信號的描述。
  2. 依據申請專利範圍第1項所述之音訊解碼方法,其中該詮釋資料包含在該以物件為主的輔助資訊的一標頭(header)內。
  3. 依據申請專利範圍第1項所述之音訊解碼方法,進一步包含:藉由使用該控制資訊和該以物件為主的輔助資訊,產生參數資訊和空間參數資訊,該參數資訊用以前處理該降混信號以及該空間參數資訊用以產生多聲道音訊信號;以及藉由應用該參數資訊至該降混信號,前處理該至少一物件信號的該位置或位階。
  4. 依據申請專利範圍第3項所述之音訊解碼方法,進一步包含:依據該空間參數資訊,藉由升混前處理過的降混信號,產生一多聲道音訊信號。
  5. 一種音訊解碼裝置,包含:一多工解訊器,配置成從一輸入音訊信號擷取一降混信號、以物件為主的輔助資訊和控制資訊,該降混信號由降混至 少一物件信號和該控制資訊取得,該控制資訊是用以控制該至少一物件信號的一位置或位階;一參數轉換器,配置成從該以物件為主的輔助資訊擷取指示該至少一物件信號之描述的詮釋資料;以及一多聲道解碼器,配置成藉由使用該降混信號、該以物件為主的輔助資訊以及該控制資訊,產生一多聲道音訊信號,其中該詮釋資料使用文字格式並包括至少一對應到該物件信號的數字以及一該物件信號的描述。
  6. 依據申請專利範圍第5項所述之音訊解碼裝置,其中該詮釋資料包含在該以物件為主的輔助資訊的一標頭內。
  7. 依據申請專利範圍第5項所述之音訊解碼裝置,其中該音訊解碼裝置進一步包含一前處理器,其中藉由使用該控制資訊和該以物件為主的輔助資訊,該參數轉換器進一步產生參數資訊和空間參數資訊,該參數轉換器被用來前處理該降混信號和該空間參數資訊以及該空間參數資訊被用來產生多聲道音訊信號,以及該前處理器配置成藉由應用該參數資訊至該降混信號,前處理該至少一物件信號的該位置或位階。
  8. 依據申請專利範圍第7項所述之音訊解碼裝置,其中依據該空間參數資訊,藉由升混前處理過的降混信號,該多聲道解碼器進一步產生一多聲道音訊信號。
TW097105206A 2007-02-14 2008-02-14 用於將以物件為主之音訊信號編碼與解碼之方法與裝置 TWI396187B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US90108907P 2007-02-14 2007-02-14
US90164207P 2007-02-16 2007-02-16
US90381807P 2007-02-28 2007-02-28
US90768907P 2007-04-13 2007-04-13
US92402707P 2007-04-27 2007-04-27
US94762007P 2007-07-02 2007-07-02
US94837307P 2007-07-06 2007-07-06

Publications (2)

Publication Number Publication Date
TW200907932A TW200907932A (en) 2009-02-16
TWI396187B true TWI396187B (zh) 2013-05-11

Family

ID=39690272

Family Applications (3)

Application Number Title Priority Date Filing Date
TW097105210A TWI431610B (zh) 2007-02-14 2008-02-14 用以將以物件為主之音訊信號編碼與解碼之方法與裝置
TW097105206A TWI396187B (zh) 2007-02-14 2008-02-14 用於將以物件為主之音訊信號編碼與解碼之方法與裝置
TW097105208A TWI443647B (zh) 2007-02-14 2008-02-14 用以將以物件為主之音訊信號編碼與解碼之方法與裝置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
TW097105210A TWI431610B (zh) 2007-02-14 2008-02-14 用以將以物件為主之音訊信號編碼與解碼之方法與裝置

Family Applications After (1)

Application Number Title Priority Date Filing Date
TW097105208A TWI443647B (zh) 2007-02-14 2008-02-14 用以將以物件為主之音訊信號編碼與解碼之方法與裝置

Country Status (11)

Country Link
US (7) US8296158B2 (zh)
EP (3) EP2111617B1 (zh)
JP (4) JP5232795B2 (zh)
KR (3) KR101041825B1 (zh)
AT (1) ATE526659T1 (zh)
AU (3) AU2008215231B2 (zh)
BR (2) BRPI0802614A2 (zh)
CA (3) CA2645912C (zh)
MX (3) MX2008012986A (zh)
TW (3) TWI431610B (zh)
WO (3) WO2008100098A1 (zh)

Families Citing this family (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693727B (zh) * 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
JP5941610B2 (ja) 2006-12-27 2016-06-29 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートElectronics And Telecommunications Research Institute トランスコーディング装置
EP3712888B1 (en) 2007-03-30 2024-05-08 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
US8321211B2 (en) * 2008-02-28 2012-11-27 University Of Kansas-Ku Medical Center Research Institute System and method for multi-channel pitch detection
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
US8670440B2 (en) 2008-05-13 2014-03-11 Electronics And Telecommunications Research Institute Data transceiving apparatus and method in centralized MAC-based wireless communication system
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
EP2353161B1 (en) 2008-10-29 2017-05-24 Dolby International AB Signal clipping protection using pre-existing audio gain metadata
KR101600352B1 (ko) * 2008-10-30 2016-03-07 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 장치 및 방법
US8139773B2 (en) * 2009-01-28 2012-03-20 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
WO2010087631A2 (en) * 2009-01-28 2010-08-05 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
US8504184B2 (en) 2009-02-04 2013-08-06 Panasonic Corporation Combination device, telecommunication system, and combining method
WO2010091555A1 (zh) * 2009-02-13 2010-08-19 华为技术有限公司 一种立体声编码方法和装置
US8666752B2 (en) * 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
WO2010138309A1 (en) * 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Audio signal dynamic equalization processing control
WO2010138311A1 (en) * 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Equalization profiles for dynamic equalization of audio data
KR101387902B1 (ko) * 2009-06-10 2014-04-22 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
KR101805212B1 (ko) * 2009-08-14 2017-12-05 디티에스 엘엘씨 객체-지향 오디오 스트리밍 시스템
TWI484473B (zh) 2009-10-30 2015-05-11 Dolby Int Ab 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統
EP2489038B1 (en) * 2009-11-20 2016-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
KR101341536B1 (ko) * 2010-01-06 2013-12-16 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US9112591B2 (en) 2010-04-16 2015-08-18 Samsung Electronics Co., Ltd. Apparatus for encoding/decoding multichannel signal and method thereof
US8948403B2 (en) * 2010-08-06 2015-02-03 Samsung Electronics Co., Ltd. Method of processing signal, encoding apparatus thereof, decoding apparatus thereof, and signal processing system
WO2012026092A1 (ja) * 2010-08-23 2012-03-01 パナソニック株式会社 音声信号処理装置及び音声信号処理方法
JP5533502B2 (ja) * 2010-09-28 2014-06-25 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
TWI573131B (zh) * 2011-03-16 2017-03-01 Dts股份有限公司 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器
JP5719966B2 (ja) 2011-04-08 2015-05-20 ドルビー ラボラトリーズ ライセンシング コーポレイション 2つのエンコードされたビットストリームからのオーディオストリームの混合において使用するためのメタデータの自動設定
TWI488174B (zh) * 2011-06-03 2015-06-11 Apple Inc 自動地建立文字資料與音訊資料間之映射
US9754595B2 (en) 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
KR101783962B1 (ko) * 2011-06-09 2017-10-10 삼성전자주식회사 3차원 오디오 신호를 부호화 및 복호화하는 방법 및 장치
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
US20130065213A1 (en) * 2011-09-13 2013-03-14 Harman International Industries, Incorporated System and method for adapting audio content for karaoke presentations
CN103890841B (zh) * 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
EP2795846A1 (en) * 2011-12-22 2014-10-29 Koninklijke Philips N.V. Wireless network configuration system and method
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
CN107403624B (zh) 2012-05-18 2021-02-12 杜比实验室特许公司 用于音频信号的动态范围调整及控制的方法和设备
EP2862370B1 (en) * 2012-06-19 2017-08-30 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
TWI453441B (zh) * 2012-06-29 2014-09-21 Zeroplus Technology Co Ltd Signal decoding method
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
CN104541524B (zh) 2012-07-31 2017-03-08 英迪股份有限公司 一种用于处理音频信号的方法和设备
US9489954B2 (en) * 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
AU2013301864B2 (en) * 2012-08-10 2016-04-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and methods for adapting audio information in spatial audio object coding
RU2635884C2 (ru) * 2012-09-12 2017-11-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для предоставления улучшенных характеристик направленного понижающего микширования для трехмерного аудио
US9460729B2 (en) * 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
KR20140046980A (ko) * 2012-10-11 2014-04-21 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
KR20140047509A (ko) 2012-10-12 2014-04-22 한국전자통신연구원 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
RU2613731C2 (ru) 2012-12-04 2017-03-21 Самсунг Электроникс Ко., Лтд. Устройство предоставления аудио и способ предоставления аудио
EP2757558A1 (en) * 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
TWI530941B (zh) * 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
CN105393304B (zh) 2013-05-24 2019-05-28 杜比国际公司 音频编码和解码方法、介质以及音频编码器和解码器
WO2014187989A2 (en) 2013-05-24 2014-11-27 Dolby International Ab Reconstruction of audio scenes from a downmix
CN109887516B (zh) 2013-05-24 2023-10-20 杜比国际公司 对音频场景进行解码的方法、音频解码器以及介质
US9674632B2 (en) * 2013-05-29 2017-06-06 Qualcomm Incorporated Filtering with binaural room impulse responses
US9723425B2 (en) * 2013-06-18 2017-08-01 Dolby Laboratories Licensing Corporation Bass management for audio rendering
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
EP3014901B1 (en) 2013-06-28 2017-08-23 Dolby Laboratories Licensing Corporation Improved rendering of audio objects using discontinuous rendering-matrix updates
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830046A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal to obtain modified output signals
EP2830332A3 (en) * 2013-07-22 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
KR102243395B1 (ko) * 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
WO2015038522A1 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
WO2015038475A1 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
EP3059732B1 (en) 2013-10-17 2018-10-10 Socionext Inc. Audio decoding device
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
JP6588899B2 (ja) 2013-10-22 2019-10-09 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ装置のための組合せダイナミックレンジ圧縮および誘導クリッピング防止のための概念
CN117376809A (zh) * 2013-10-31 2024-01-09 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
CN105900169B (zh) 2014-01-09 2020-01-03 杜比实验室特许公司 音频内容的空间误差度量
KR101567665B1 (ko) * 2014-01-23 2015-11-10 재단법인 다차원 스마트 아이티 융합시스템 연구단 퍼스널 오디오 스튜디오 시스템
US9779739B2 (en) 2014-03-20 2017-10-03 Dts, Inc. Residual encoding in an object-based audio system
JPWO2015182491A1 (ja) * 2014-05-30 2017-04-20 ソニー株式会社 情報処理装置および情報処理方法
US10754925B2 (en) 2014-06-04 2020-08-25 Nuance Communications, Inc. NLU training with user corrections to engine annotations
US10373711B2 (en) 2014-06-04 2019-08-06 Nuance Communications, Inc. Medical coding system with CDI clarification request notification
WO2015186535A1 (ja) * 2014-06-06 2015-12-10 ソニー株式会社 オーディオ信号処理装置および方法、符号化装置および方法、並びにプログラム
KR102144332B1 (ko) * 2014-07-01 2020-08-13 한국전자통신연구원 다채널 오디오 신호 처리 방법 및 장치
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
RU2696952C2 (ru) * 2014-10-01 2019-08-07 Долби Интернешнл Аб Аудиокодировщик и декодер
CN110364190B (zh) 2014-10-03 2021-03-12 杜比国际公司 个性化音频的智能访问
MX2017012957A (es) * 2015-04-10 2018-02-01 Thomson Licensing Metodo y dispositivo para codificar multiples señales de audio, y metodo y dispositivo para decodificar una mezcla de multiples señales de audio con separacion mejorada.
WO2016172111A1 (en) 2015-04-20 2016-10-27 Dolby Laboratories Licensing Corporation Processing audio data to compensate for partial hearing loss or an adverse hearing environment
CN106303897A (zh) 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
CN112492501B (zh) 2015-08-25 2022-10-14 杜比国际公司 使用呈现变换参数的音频编码和解码
US10366687B2 (en) * 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
CN107346493B (zh) * 2016-05-04 2021-03-23 阿里巴巴集团控股有限公司 对象分配方法和装置
US10863297B2 (en) 2016-06-01 2020-12-08 Dolby International Ab Method converting multichannel audio content into object-based audio content and a method for processing audio content having a spatial position
US10949602B2 (en) 2016-09-20 2021-03-16 Nuance Communications, Inc. Sequencing medical codes methods and apparatus
US9896031B1 (en) 2017-01-03 2018-02-20 Ford Global Technologies, Llc Spatial auditory alerts for a vehicle
US11133091B2 (en) 2017-07-21 2021-09-28 Nuance Communications, Inc. Automated analysis system and method
US11024424B2 (en) 2017-10-27 2021-06-01 Nuance Communications, Inc. Computer assisted coding systems and methods
GB201718341D0 (en) * 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
US10650834B2 (en) * 2018-01-10 2020-05-12 Savitech Corp. Audio processing method and non-transitory computer readable medium
GB2572650A (en) 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
GB2578625A (en) * 2018-11-01 2020-05-20 Nokia Technologies Oy Apparatus, methods and computer programs for encoding spatial metadata
US20220059102A1 (en) 2018-12-13 2022-02-24 Dolby Laboratories Licensing Corporation Methods, Apparatus and Systems for Dual-Ended Media Intelligence
JP7092047B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 符号化復号方法、復号方法、これらの装置及びプログラム
US11545166B2 (en) 2019-07-02 2023-01-03 Dolby International Ab Using metadata to aggregate signal processing operations
US11582572B2 (en) * 2020-01-30 2023-02-14 Bose Corporation Surround sound location virtualization
WO2022076404A1 (en) 2020-10-05 2022-04-14 The Trustees Of Columbia University In The City Of New York Systems and methods for brain-informed speech separation
CN112309419B (zh) * 2020-10-30 2023-05-02 浙江蓝鸽科技有限公司 多路音频的降噪、输出方法及其***
WO2023077284A1 (zh) * 2021-11-02 2023-05-11 北京小米移动软件有限公司 一种信号编解码方法、装置、用户设备、网络侧设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW384467B (en) * 1997-10-23 2000-03-11 Sony Corp Sound synthesizing method and apparatus, and sound band expanding method and apparatus
TW412719B (en) * 1995-06-20 2000-11-21 Sony Corp Method and apparatus for reproducing speech signals and method for transmitting same
US20020041557A1 (en) * 1997-03-25 2002-04-11 Samsung Electronics Co., Ltd DVD-Audio disk, and apparatus and method for recording data on and/or reproducing data from the same
US20020061188A1 (en) * 1997-03-25 2002-05-23 Samsung Electronics Co., Ltd. Apparatus and method for recording and reproducing data on and from a DVD-Audio disk
TW591606B (en) * 2001-11-14 2004-06-11 Matsushita Electric Ind Co Ltd Encoding device, decoding device, and system thereof
US20040170393A1 (en) * 1997-03-25 2004-09-02 Samsung Electronics Co., Ltd. DVD-audio disk, and apparatus and method for playing the same
TWI231471B (en) * 2002-12-28 2005-04-21 Samsung Electronics Co Ltd A method of reproducing an audio stream
TWI237806B (en) * 2004-11-03 2005-08-11 Sunplus Technology Co Ltd Audio decoding system with ring buffer and method thereof

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3882280A (en) * 1973-12-19 1975-05-06 Magnavox Co Method and apparatus for combining digitized information
US6289308B1 (en) * 1990-06-01 2001-09-11 U.S. Philips Corporation Encoded wideband digital transmission signal and record carrier recorded with such a signal
EP0562211A1 (en) 1992-03-25 1993-09-29 International Business Machines Corporation Self-aligning fiber couplers
TW272341B (zh) 1993-07-16 1996-03-11 Sony Co Ltd
US6505160B1 (en) * 1995-07-27 2003-01-07 Digimarc Corporation Connected audio and other media objects
IT1281001B1 (it) 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
TW429700B (en) 1997-02-26 2001-04-11 Sony Corp Information encoding method and apparatus, information decoding method and apparatus and information recording medium
KR100261254B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100335609B1 (ko) 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
US20050120870A1 (en) * 1998-05-15 2005-06-09 Ludwig Lester F. Envelope-controlled dynamic layering of audio signal processing and synthesis for music applications
CN1210690C (zh) 2000-11-30 2005-07-13 松下电器产业株式会社 音频解码器和音频解码方法
TW501376B (en) 2001-02-09 2002-09-01 Elan Microelectronics Corp Decoding device and method of digital audio
US6849794B1 (en) * 2001-05-14 2005-02-01 Ronnie C. Lau Multiple channel system
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US7149412B2 (en) 2002-03-01 2006-12-12 Thomson Licensing Trick mode audio playback
RU2316154C2 (ru) 2002-04-10 2008-01-27 Конинклейке Филипс Электроникс Н.В. Кодирование стереофонических сигналов
ES2323294T3 (es) 2002-04-22 2009-07-10 Koninklijke Philips Electronics N.V. Dispositivo de decodificacion con una unidad de decorrelacion.
WO2004008806A1 (en) 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
US7555434B2 (en) 2002-07-19 2009-06-30 Nec Corporation Audio decoding device, decoding method, and program
JP2004064363A (ja) 2002-07-29 2004-02-26 Sony Corp デジタルオーディオ処理方法、デジタルオーディオ処理装置およびデジタルオーディオ記録媒体
EP1527442B1 (en) * 2002-08-01 2006-04-05 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and audio decoding method based on spectral band replication
BRPI0306434B1 (pt) 2002-09-19 2018-06-12 Nec Corporation Aparelho e método de decodificação de áudio
EP1568251B1 (en) * 2002-12-02 2007-01-24 Thomson Licensing Method for describing the composition of audio signals
EP2665294A2 (en) 2003-03-04 2013-11-20 Core Wireless Licensing S.a.r.l. Support of a multichannel audio extension
JP2004361731A (ja) 2003-06-05 2004-12-24 Nec Corp オーディオ復号装置及びオーディオ復号方法
US8140164B2 (en) * 2003-10-15 2012-03-20 Rmx, Llc Therapeutic diaphragm stimulation device and method
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7391870B2 (en) 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
KR100658222B1 (ko) 2004-08-09 2006-12-15 한국전자통신연구원 3차원 디지털 멀티미디어 방송 시스템
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
WO2006060279A1 (en) 2004-11-30 2006-06-08 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
DE102005008366A1 (de) * 2005-02-23 2006-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ansteuern einer Wellenfeldsynthese-Renderer-Einrichtung mit Audioobjekten
TWI279712B (en) 2005-04-13 2007-04-21 Realtek Semiconductor Corp Voice message encoding/decoding apparatus and its method
AU2006266655B2 (en) * 2005-06-30 2009-08-20 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
KR20070011100A (ko) 2005-07-18 2007-01-24 엘지전자 주식회사 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법 및그 보정을 위한 부호화된 오디오 신호 생성방법
US8359341B2 (en) 2005-12-10 2013-01-22 International Business Machines Corporation Importing content into a content management system using an e-mail application
CN102693727B (zh) 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
JP2009526467A (ja) 2006-02-09 2009-07-16 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の符号化及び復号化方法とその装置
EP1853092B1 (en) * 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
DE102006029752A1 (de) 2006-06-28 2008-01-10 Basf Construction Polymers Gmbh Verwendung von Methacrylat-Derivaten zur Verdickung salzhaltiger Medien
MY151722A (en) 2006-07-07 2014-06-30 Fraunhofer Ges Forschung Concept for combining multiple parametrically coded audio sources
EP2112652B1 (en) * 2006-07-07 2012-11-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for combining multiple parametrically coded audio sources
KR100917843B1 (ko) * 2006-09-29 2009-09-18 한국전자통신연구원 다양한 채널로 구성된 다객체 오디오 신호의 부호화 및복호화 장치 및 방법
EP2054875B1 (en) * 2006-10-16 2011-03-23 Dolby Sweden AB Enhanced coding and parameter representation of multichannel downmixed object coding
WO2008046530A2 (en) 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
JP4838361B2 (ja) * 2006-11-15 2011-12-14 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及びその装置
KR101312470B1 (ko) * 2007-04-26 2013-09-27 돌비 인터네셔널 에이비 출력 신호 합성 장치 및 방법
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
MX2010004138A (es) * 2007-10-17 2010-04-30 Ten Forschung Ev Fraunhofer Codificacion de audio usando conversion de estereo a multicanal.

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW412719B (en) * 1995-06-20 2000-11-21 Sony Corp Method and apparatus for reproducing speech signals and method for transmitting same
US20020041557A1 (en) * 1997-03-25 2002-04-11 Samsung Electronics Co., Ltd DVD-Audio disk, and apparatus and method for recording data on and/or reproducing data from the same
US20020061188A1 (en) * 1997-03-25 2002-05-23 Samsung Electronics Co., Ltd. Apparatus and method for recording and reproducing data on and from a DVD-Audio disk
US20020064373A1 (en) * 1997-03-25 2002-05-30 Samsung Electronics Co., Ltd. Apparatus and method for reproducing data from a DVD-audio disk
US20040170393A1 (en) * 1997-03-25 2004-09-02 Samsung Electronics Co., Ltd. DVD-audio disk, and apparatus and method for playing the same
TW384467B (en) * 1997-10-23 2000-03-11 Sony Corp Sound synthesizing method and apparatus, and sound band expanding method and apparatus
TW591606B (en) * 2001-11-14 2004-06-11 Matsushita Electric Ind Co Ltd Encoding device, decoding device, and system thereof
TWI231471B (en) * 2002-12-28 2005-04-21 Samsung Electronics Co Ltd A method of reproducing an audio stream
TWI237806B (en) * 2004-11-03 2005-08-11 Sunplus Technology Co Ltd Audio decoding system with ring buffer and method thereof

Also Published As

Publication number Publication date
CA2645912A1 (en) 2008-08-21
MX2008012986A (es) 2008-11-28
KR101049143B1 (ko) 2011-07-15
BRPI0802614A2 (pt) 2011-08-30
EP2111617B1 (en) 2013-09-04
KR20090082340A (ko) 2009-07-30
US20110202356A1 (en) 2011-08-18
JP2010506231A (ja) 2010-02-25
AU2008215232B2 (en) 2010-02-25
WO2008100098A1 (en) 2008-08-21
US8417531B2 (en) 2013-04-09
AU2008215231B2 (en) 2010-02-18
AU2008215230A1 (en) 2008-08-21
JP2010506232A (ja) 2010-02-25
ATE526659T1 (de) 2011-10-15
EP2111617A1 (en) 2009-10-28
JP5232795B2 (ja) 2013-07-10
US20140297294A1 (en) 2014-10-02
EP2111616A1 (en) 2009-10-28
US20110202357A1 (en) 2011-08-18
CA2645915C (en) 2012-10-23
WO2008100100A1 (en) 2008-08-21
KR101069268B1 (ko) 2011-10-04
US20110200197A1 (en) 2011-08-18
TW200907932A (en) 2009-02-16
WO2008100099A1 (en) 2008-08-21
US8271289B2 (en) 2012-09-18
BRPI0802613A2 (pt) 2011-08-30
US9449601B2 (en) 2016-09-20
US20090210238A1 (en) 2009-08-20
EP2111616A4 (en) 2010-05-26
US8756066B2 (en) 2014-06-17
TW200921642A (en) 2009-05-16
EP2111616B1 (en) 2011-09-28
JP5254983B2 (ja) 2013-08-07
US8296158B2 (en) 2012-10-23
MX2008013073A (es) 2008-10-27
AU2008215231A1 (en) 2008-08-21
KR20090030323A (ko) 2009-03-24
US8204756B2 (en) 2012-06-19
US8234122B2 (en) 2012-07-31
CA2645912C (en) 2014-04-08
AU2008215230B2 (en) 2010-03-04
EP2115739A4 (en) 2010-01-20
TW200847136A (en) 2008-12-01
CA2645915A1 (en) 2008-08-21
KR101041825B1 (ko) 2011-06-17
CA2645913A1 (en) 2008-08-21
KR20090082339A (ko) 2009-07-30
MX2008013078A (es) 2008-11-28
JP2010508545A (ja) 2010-03-18
US20100076772A1 (en) 2010-03-25
CA2645913C (en) 2012-09-18
EP2115739A1 (en) 2009-11-11
JP2012198556A (ja) 2012-10-18
TWI431610B (zh) 2014-03-21
JP5291227B2 (ja) 2013-09-18
AU2008215232A1 (en) 2008-08-21
EP2111617A4 (en) 2010-01-20
US20090326958A1 (en) 2009-12-31
TWI443647B (zh) 2014-07-01

Similar Documents

Publication Publication Date Title
TWI396187B (zh) 用於將以物件為主之音訊信號編碼與解碼之方法與裝置
RU2449388C2 (ru) Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов