TWI559294B - 支援轉換長度切換的頻率域音源編碼器、解碼器、編碼方法、解碼方法及電腦程式 - Google Patents

支援轉換長度切換的頻率域音源編碼器、解碼器、編碼方法、解碼方法及電腦程式 Download PDF

Info

Publication number
TWI559294B
TWI559294B TW103124632A TW103124632A TWI559294B TW I559294 B TWI559294 B TW I559294B TW 103124632 A TW103124632 A TW 103124632A TW 103124632 A TW103124632 A TW 103124632A TW I559294 B TWI559294 B TW I559294B
Authority
TW
Taiwan
Prior art keywords
frequency domain
conversion
coefficients
signal
domain coefficients
Prior art date
Application number
TW103124632A
Other languages
English (en)
Other versions
TW201519219A (zh
Inventor
薩斯洽 迪克
克利斯汀 漢姆瑞奇
安卓斯 荷瑟
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201519219A publication Critical patent/TW201519219A/zh
Application granted granted Critical
Publication of TWI559294B publication Critical patent/TWI559294B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Mathematical Physics (AREA)

Description

支援轉換長度切換的頻率域音源編碼器、解碼器、編碼方法、解碼方法及電腦程式
本發明係有關於支援轉換長度切換的頻率域音源編碼。
現代頻率域語音/音源編碼系統,例如IETF[1]之Opus/Celt編解碼器及MPEG-4 HE-AAC[2]或者,特別是MPEG-D xHE-AAC(USAC)[3],其係用以編碼音訊訊框,所述之音訊框不是使用一長轉換及一長區塊,就是使用八個連續短轉換及短區塊,其取決於訊號之時間穩定性。
針對特定的音源訊號,例如雨聲或是觀眾喝彩,長區塊編碼或短區塊編碼都無法在低位元率下產生令人滿意的品質。其可由錄音中的突出瞬態訊號之密度來說明。僅以長區塊編碼可能會造成編碼錯誤的頻繁且可聽見的時間模糊,其係為已知的預先回音;然而僅以短區塊編碼係通常無法有效提升數據管理成本,導致頻譜空洞。
因此,使用支援轉換長度的頻率域音源編碼是有利的,其亦適合音源訊號。所述種類的自然地,建立新的可支援複數個轉換長度組(包含適合特定種類之音源訊號的特定欲得的轉換長度)之間的切換的音源編解碼器是可行的。然而,取得市場上所採用新的頻率域音源編解碼器並非一容易的任務。熟知的轉碼器係已可取得且頻繁地使用。因此,能將現有的頻率域音源轉碼器以此方式延伸藉此另外支援欲得且新的轉換長度,但是又能維持與現有的轉碼器以及解碼器向後兼容,是一件有利的事。
因此,本發明之目的係提供此概念使得現有的頻率域音源轉碼器以向後兼容的方式延伸支援額外的轉換長度,藉此在包含此新的轉換長度的複數個轉換長度之間切換。
本發明目的可由獨立權利項之標的來實現。
本發明係根據所發現的當個別訊框之頻率域係數係以交錯方式且不考慮針對實際使用轉換長度之訊框訊號作用訊號化來傳送,以及當獨立於訊號作用當額外操作頻率域係數擷取以及倍率因子擷取,則頻率域音源編解碼器可具有向後兼容並額外支援特定轉換長度。藉由此測量,老式且對訊號作用不敏感的頻率域音源轉碼器/解碼器仍可無錯誤操作並重現合理的品質。同時,頻率域音源轉碼器/解碼器係回應額外支撐轉換長度之切換,以達到均勻性較佳品質且向後兼容。考慮到針對較舊的解碼器由於頻率域係數之編碼造成的編碼效率損失,由於使用交錯方式會較為輕微。
本申請案之較佳實現方式係為申請專利範圍之附屬項所涵蓋。
10‧‧‧參考符號、輸出編碼器、解碼器
12‧‧‧頻率域係數擷取器、擷取器、頻率域係數、操作模式、FD係數擷取器
14‧‧‧比例因子擷取器、倍率因子擷取器、操作模式
16‧‧‧逆轉換器
18‧‧‧組合器
20‧‧‧數據流、強化數據流/位元流
22‧‧‧輸出端、輸出訊號
24‧‧‧頻率域係數、頻譜共置頻率域係數、交錯的頻率域係數、編碼/解碼頻率域係數、係數
26‧‧‧訊框
26a、26b:26c‧‧‧訊框
28‧‧‧頻譜圖、訊號頻譜圖
30‧‧‧比例因子帶、倍率因子頻帶
32‧‧‧倍率因子
34‧‧‧訊號作用
36‧‧‧反量化器
38‧‧‧反交錯器
40‧‧‧逆轉換級、雜訊填充器
42‧‧‧預測、複數立體聲預測
44‧‧‧複數預測參數、參數
46‧‧‧MS解碼
48‧‧‧MS參數、參數
50‧‧‧領先轉換、轉換
52‧‧‧落後轉換、轉換
54‧‧‧轉換
56‧‧‧時間域部分、分離轉換類型、半長度視窗
58‧‧‧時間域部分、半長度視窗
59‧‧‧分離轉換類型
60‧‧‧時間域部分、長轉換類型
62‧‧‧TNS濾波器、逆TNS濾波
64‧‧‧TNS係數、TNS
66‧‧‧預先解交錯
68‧‧‧逆TNS濾波
70‧‧‧反交錯反轉
100‧‧‧參考符號、編碼器
102‧‧‧音源訊號
104‧‧‧轉換器
106‧‧‧比例裁減器、逆比例裁減器
108‧‧‧頻率域係數輸入器、輸入器
110‧‧‧倍率因子輸入器、輸入器
S0、S1...SM‧‧‧倍率因子、第一倍率因子
S1‧‧‧第一倍率因子
第1圖係繪示根據實施例之頻率域音源解碼器之示意方塊圖。
第2圖繪示第1圖逆轉換器之功能的示意圖。
第3圖顯示根據實施例之第2圖之逆TNS濾波過程之可能位移向上游方向的示意圖。
第4圖顯示根據實施例當針對在USAC中長停止開始窗使用轉換分離時選擇視窗之可能性。
第5圖顯示根據實施例之頻率域音源編碼器之方塊圖。
第1圖係顯示根據本申請案之實施例之支援轉換長度切換的頻率域音源解碼器。第1圖之頻率域音源解碼器係通常使用參考符號10標示,包含頻率域係數擷取器12、比例因子擷取器14、逆轉換器16以及組合器18。在其輸入端,頻率域係數擷取器12以及比例因子擷取器14係 存取入站數據流20。頻率域係數擷取器12以及比例因子擷取器14之輸出端係連接至逆轉換器16之個別輸入端。逆轉換器16的輸出端係連接至組合器18之輸入端。後者係輸出編碼器10之輸出端22上的再建音源訊號。
頻率域係數擷取器12係用以從數據流20擷取出音源訊號之訊框26的頻率域係數24。頻率域係數24可為MDCT係數或是可屬於其他轉換,例如另一重疊轉換。在以下描述的方式中,頻率域係數24係屬於一特定訊框26,其以變化的時頻域解析度來描述此音源訊號的頻譜內個別訊框26。訊框26係代表時序部分,其中音源訊號係依序地以時間細分。所有訊框的所有頻率域係數24係放在一起,以代表音源訊號之頻譜圖28。例如,訊框26可為相等的長度。由於音源訊號之音源內容種類隨時間而改變,其係不利於使用,例如具有固定轉換長度(其跨越每一個訊框26之時間長度,即包含音源訊號之訊框26內的取樣值以及先前與隨後個別訊框的時間域取樣值)的轉換,針對每一具有連續時頻域解析度的訊框26來描述頻譜。例如,預先回音假造物可導致以頻率域係數24之形式傳送個別訊框之頻譜的損害。因此,在以下概述的方式中,個別訊框26之頻率域係數24係以可切換時頻域解析度且在不同轉換長度之間切換下來描述訊框26內的音源訊號之頻譜。然而,就考慮頻率域係數擷取器12,後者環境係相同透明。頻率域係數擷取器12係在針對訊框26在不同時頻域解析度之間切換的任何訊號化之外單獨運作。
為了從數據流20擷取出頻率域係數24,頻率域係數擷取器12可使用熵編碼。例如,頻率域係數擷取器可使用依鄰近關係熵解碼,例如變數鄰近關係演算解碼,以從指派給每一頻率域係數24數據流20擷取出頻率域係數24,不管上述訊號化個別頻率域係數所屬的訊框26之時頻域解析度的相同鄰近關係。或者,在第二範例中,擷取器12可使用Huffman解碼以及不考慮詳細說明此訊框26之解析度的訊號化下定義一組Huffman碼字。
針對頻率域係數24描述頻譜圖28的方式係存在不同可能性。例如,頻率域係數24可僅代表一些預測殘留。例如,頻率域係數可至少部分地代表預測之剩餘,此預測已經由從代表對應的音源聲道或是訊號 頻譜圖28所屬之多頻道音源訊號之降混外的另一音源訊號立體聲預測來取得。或者,對於預測殘留,根據M/S立體聲範例[5],頻率域係數24可代表總和(中間)訊號或是差值(側)訊號。進一步,頻率域係數24可受到限於時域雜訊塑形。
此頻率域係數12係量化且為了將量化錯誤維持低於心理聽覺偵測(或是遮蔽)門檻值,例如,量化步驟尺寸係由與頻率域係數24相關聯的個別比例因子所控制的方式在頻譜上變化。比例因子擷取器14係負責從數據流20中擷取比例因子。
以下係簡略地詳細說明在不同時頻域解析度之間從訊框切換到訊框。如以下詳細描述,不同時頻域解析度之間的切換係指在特定此訊框26內,所有的頻率域係數24係屬於單一轉換,或是個別訊框26之頻率域係數24實際上屬於不同轉換,例如一個是一半轉換長度的轉換,而另一個是完整轉換長度的轉換。下文中描述關於圖式的實施例係假設單一轉換以及兩個轉換之間的切換,但實際上,原則是進行單一轉換以及兩個以上的轉換是較為可行的,且能輕易地轉移至另一實施例。
如第1圖所示,斜線係例示性表示目前訊框為兩個短轉換的類型,其中一個係使用目前訊框26之後一半所衍生,而另一個係由音源訊號之目前訊框26之前一半所轉換取得。在此例中,由於在使用兩個短轉換之情形中,描述此訊框26之頻譜的頻率域係數24的頻譜解析度的縮短轉換長度係減少,即只有一半,而時序解析度係提升,即雙倍。例如,在第1圖中,以陰影顯示的頻率域係數24係屬於領先轉換,而非陰影顯示的屬於落後轉換。如此,頻譜共置頻率域係數24係描述此訊框26內音源訊號的相同但在略不同時點的頻譜構件,即在轉換分離訊框之兩個連續的轉換視窗。
在數據流20中,頻率域係數24係以交錯方式傳送,使得兩個不同轉換之頻譜上對應的頻率域係數彼此立即接續。換句話說,傳送分離轉換訊框之頻率域係數24,即針對在數據流20中轉換分離的訊框26被訊號化,使得如果從頻率域係數擷取器12所接收的頻率域係數24係依序地排序,如同其為長轉換之頻率域係數,然後其係設置成交錯之順序使得 頻譜共置頻率域係數24立即彼此鄰接,而且成對的頻譜共置頻率域係數24係根據頻譜/頻率順序而排序。有趣的是,以此方式排序下,交錯的頻率域係數24之順序看起來相似於由長轉換取得的一串頻率域係數24。再次,就考慮頻率域係數擷取器12,不同轉換長度或是訊框26之單元中的時頻域解析度之間的切換係同樣地清楚,因此,針對熵編碼的鄰近關係選擇,在鄰近關係適應性的頻率域係數24係導致相同鄰近關係,其係不考慮目前訊框實際上為長轉換訊框或是目前訊框為分離轉換類型而沒有使用擷取器12。例如,頻率域係數擷取器12可根據時頻域中(其鄰近於第1圖繪示的交錯狀態所定義的鄰近時頻域)已經編碼/解碼頻率域係數,針對特定的頻率域係數選擇所應用的鄰近關係。此具有下列的結果。虛部,在第1圖中,目前編碼/解碼頻率域係數24是使用斜線標示的領先轉換。然後,頻譜上立即鄰近頻率域係數係為相同領先轉換之頻率域係數24(即第1圖中陰影區域)。然而,頻率域係數擷取器12係針對鄰近關係選擇使用一屬於落後轉換,即此係頻譜上相鄰(根據縮短轉換之減少頻譜解析度),其假設後者目前頻率域係數24是立即頻譜上鄰接目前頻率域係數24之長轉換。同樣地,選擇針對落後轉換之頻率域係數24的鄰近關係時,頻率域係數擷取器12係使用作為屬於領先轉換之頻率域係數24的立即頻譜鄰接,而實際上係與係數頻譜上共置。特別的是,在目前訊框26之係數24之中定義的解碼順序係從,例如,最低頻率到最高頻率。當排序係解交錯,在頻率域係數擷取器12用以熵解碼立即連續的頻率域係數24群組中目前訊框26之頻率域係數24之情形中,相似觀察係有確實根據的。代替使用僅屬於相同短轉換頻譜上相鄰頻率域係數24之組合,此頻率域係數擷取器12係將選擇針對屬於不同短轉換的頻率域係數24之混合之特定組合,其係基於屬於不同轉換之頻率域係數24之混合之頻譜上相鄰組合。
如上述之現象,在交錯狀態中,兩個短轉換取得的頻譜結果看起來非常相似於由長轉換取得的頻譜,此導致無關於轉換長度切換之頻率域係數擷取器12的操作的熵編碼損失係低的。
再次描述解碼器10以及比例因子擷取器14,如上所述,其係負責從數據流20擷取頻率域係數24之比例因子。在倍率因子指定頻率 域係數24的頻譜解析度係比長轉換所支援的較細微的頻譜解析度更為粗糙。如大括號30所繪示,頻率域係數24可分群成多個倍率因子頻帶。可根據心理聽覺思維來選擇倍率因子頻帶的細分割,例如,與所謂的Bark(或是臨界)頻帶相一致。當比例因子擷取器14以及頻率域係數擷取器12係無關轉換長度切換,則比例因子擷取器14係假設每一個訊框26細分成數量相等的複數個倍率因子頻帶30(在不考慮轉換長度切換訊號化),而針對每一比例因子帶30擷取一倍率因子32。在編碼器側,倍率因子頻帶30的頻率域係數24之屬性係在非解交錯狀態下完成,如第1圖所示。結果,就關於對應於分離轉換的訊框26,每一個倍率因子32係屬於領先轉換之頻率域係數24以及落後轉換之頻率域係數24所組成的群組。
逆轉換器16係用以接收每一個訊框26對應的頻率域係數24以及對應的倍率因子32,並將訊框26之頻率域係數24(其根據倍率因子32縮放)進行逆轉換以獲得音源訊號之時間域部分。逆轉換器16可用重疊轉換,例如修改型離散餘弦轉換(MDCT)。組合器18係組合時間域部分以取得音源訊號,例如使用合適的疊加過程導致逆轉換器16所輸出的時間域部分之重疊部分內進行時間域混疊消除。
自然地,逆轉換器16係針對訊框26回應數據流20內的上述轉換長度切換訊號化。逆轉換器16之操作係根據第2圖做更詳細描述。
第2圖係更詳細顯示逆轉換器16之可能的內部結構。如第2圖所標示,逆轉換器16係針對目前訊框接收與訊框相關聯的頻率域係數24以及相對應的倍率因子32以反量化頻率域係數24。進一步,每一訊框的數據流20中出現的訊號作用34係控制逆轉換器16。逆轉換器16可進一步由數據流20之其他成分(選擇性包含的)控制。在下列描述中,係描述有關於這些額外參數的細節。
如第2圖所示,第2圖之逆轉換器16包含一反量化器36、可啟動的反交錯器38以及逆轉換級40。為使下列描述容易理解,針對目前訊框從頻率域係數擷取器12所衍生的回傳頻率域係數24係從0到N-1編號顯示。再次,當頻率域係數擷取器12係無關於訊號作用34(即單獨運作)時,頻率域係數擷取器12係以相同方式提供頻率域係數24給逆轉換器16, 而不考慮目前訊框係分離轉換類型或是1轉換類型,即在目前說明情況下頻率域係數24之數量為N,索引0至N-1與N個頻率域係數24的關聯性亦不考慮訊號作用34而維持相同。在目前訊框係一轉換類型或是長轉換類型之情形中,索引0至N-1係對應於從低頻率到最高頻率之順序的頻率域係數24,以及在目前訊框係分離轉換類型之情形中,當根據其頻譜序而頻譜上設置此些索引係對應於頻率域係數之順序,但是以交錯方式使得每第二個頻率域係數24係屬於落後轉換,然而其他係屬於領先轉換。
相似事實亦適用於倍率因子32。當此倍率因子擷取器14以無關於訊號作用34的方式運作,從此倍率因子擷取器14取得的倍率因子32之數量、順序以及數值係與訊號作用34無關,而第2圖中的例示性地標示為S0至SM倍率因子32以及對應於具有倍率因子之倍率因子頻帶的順序係相關聯的。
在與頻率域係數擷取器12以及此倍率因子擷取器14相似的方式,反量化器36可與訊號作用34無關或是獨立地操作。反量化器36係使用與比例因子帶相關聯的倍率因子,來反量化或是縮放回傳頻率域係數24,個別頻率域係數係屬於此比例因子帶。再次,回傳頻率域係數24與個別倍率因子頻帶之從屬關係,回傳頻率域係數24與倍率因子32的相關聯性,係獨立於訊號作用34。如此,逆轉換器16係根據頻譜解析度的倍率因子32(其與訊號作用相獨立)對頻率域係數24進行縮放比例。例如,反量化器36,其獨立於訊號作用34,係將索引0至3的頻率域係數指定至第一比例因子帶以及第一倍率因子S0,索引4至9的頻率域係數係指定至第二比例因子帶以及倍率因子S1。倍率因子邊界係僅說明性的。例如,為了反量化頻率域係數24,反量化器36係使用相關聯的倍率因子以執行相乘,即計算頻率域係數x0乘上s0,…x3乘上s0、x4乘上s1、…x9乘上s1、等等。或者,反量化器36可執行倍率因子之內插,此倍率因子係實際上用於從倍率因子頻帶定義的粗糙頻譜解析度進行頻率域係數24之反量化。內插可獨立於訊號作用34。或者,然而為了依照目前訊框係分離轉換類型或是一/長轉換類型來佔頻率域係數24之不同時頻域取樣位置,內插可與訊號作用相關。
第2圖係繪示可啟動的反交錯器38之輸入側,頻率域係數24之間的順序係維持相同,而至少實質上整體操作可超過此點。第2圖係顯示可啟動的反交錯器38之上游,逆轉換器16可執行進一步操作。例如,逆轉換器16可將雜音填充至頻率域係數24。例如,在頻率域係數24(即索引0至N-1之順序下的多組回傳頻率域係數)之順序中,可識別出倍率因子頻帶,其中個別倍率因子頻帶之所有的頻率域係數24係量化成零。可使用偽隨機數字產生器產生人造雜訊以填充頻率域係數。因為頻譜係數內全為零,所以填充至零量化比例因子帶的雜音之強度/位準可使用個別比例因子帶之倍率因子來調整,而不須縮放。雜音填充係繪示於第2圖中的方塊40,而專利EP2304719A1[6]之實施例中有更詳細描述。
第2圖係進一步顯示逆轉換器16可用於支援聯合立體聲編碼及/或通道間立體聲預測。在通道間立體聲預測之框架下,例如,逆轉換器16係依音源訊號之另一聲道索引0至N-1之順序,在非解交錯配置表現進行預測42頻譜。亦即,頻率域係數24係描述立體聲音源訊號之聲道之頻譜圖,逆轉換器16係用以處理頻率域係數24作為從立體聲音源訊號之其他聲道所衍生的預測訊號之預測殘留。例如,獨立於訊號作用在一些頻譜間隔下執行通道間立體聲預測。例如,控制複數立體聲預測42的複數預測參數44係啟動針對上述倍率因子頻帶其中特定的一個的複數立體聲預測42。針對每一個比例因子帶,其複數預測係由複數預測參數44之方式來啟動,縮放頻率域係數24係以0至N-1之順序設置位於個別比例因子帶內,係與從立體聲音源訊號之其他聲道取得的通道間預測訊號加總。包含在個別比例因子帶之複數預測參數44內的複數參數係控制預測訊號。
進一步,在聯合立體聲編碼框架內,逆轉換器16係用以執行MS解碼46。亦即,第1圖之解碼器10係執行目前所述的操作兩次,在立體聲音源訊號之第一聲道的一時點以及第二聲道的另一時點,且由數據流20內MS參數來控制,逆轉換器16係MS解碼兩個聲道或是將其分開,即立體聲音源訊號之左聲道以及右聲道。MS參數48係在訊框位準上MS編碼或是在一些細微位準(例如在倍率因子頻帶單元或是其群組)之間切換。例如,在啟動MS解碼之情形中,逆轉換器16係形成在係數順序0至 N-1中對應的頻率域係數24、以及立體聲音源訊號之其他聲道之對應的頻率域係數、或是其差值之總和。
接著,在目前訊框由訊號作用34而訊號化成分離轉換訊框之情形中,第2圖係顯示為了反交錯此回傳頻率域係數,可啟動的反交錯器38係針對目前訊框回應訊號作用34,藉此取得兩個轉換,即領先轉換50以及落後轉換52,以及讓頻率域係數交錯藉此導致在訊號作用34指示目前訊框之情形下的轉換54變成長轉換訊框。在反交錯之情形中,反交錯器38係在50以及52之外形成一轉換,在具有偶數索引之頻率域係數之外形成第一短轉換,以及在非偶數索引之位置的頻率域係數之外形成其他短轉換。例如,偶數索引之頻率域係數係形成領先轉換(當在索引0開始),而其他形成落後轉換。轉換50以及52係進行更短轉換長度之逆轉換,以分別導致時間域部分56以及58。第1圖之組合器18係正確地時間定位時間域部分56以及58,即在導致落後轉換52之時間域部分58之前的導致領先轉換50的時間域部分56,並執行該音源訊號之先前與後續訊框所衍生的複數個時間域部分之間的疊加處理。在非反交錯之情形中,抵達交錯器38的複數個頻率域係數係構成長轉換54,而逆轉換級40在其上執行一反轉換,以產生在目前訊框26的全部時間間隔上延伸的一時間域部分60。組合器18係組合時間域部分60以及個別時間域部分,以產生音源訊號之先前訊框以及後續訊框。
目前為止所述之頻率域音源解碼器係使用能相容於頻率域音源解碼器的方式使得轉換長度切換。此頻率域音源解碼器係不回應訊號作用34。特別的是,此“老式”解碼器係錯誤地假定由訊號作用34實際上訊號化的訊框係成為分離轉換類型,而成為長轉換類型。亦即,其係錯誤地留下交錯的分離類型頻率域係數,以及執行長轉換長度之逆轉換。然而,再建音源訊號之受影響的訊框之結果品質仍然是非常的合理。
編碼效率損失,其按順序,也仍然非常合理。編碼效率損失係產生被忽視的訊號作用34,而複數個頻率域係數以及複數個倍率因子係不考慮變化的係數意義以及利用變化型而進行編碼,藉此增加編碼效率。然而,相比於向後兼容之優點,後者損失係比較小。關於啟動以及停用僅 在第2圖中的索引0至N-1定義的解交錯狀態中的連續頻譜部分(倍率因子頻帶)的雜訊填充器40、複數立體聲預測42以及MS解碼46之限制,後者的描述亦是真的。針對訊框類型(例如具有兩個雜音位準)特定渲染控制這些編碼工具的機會係可能會提供優點,但是向後兼容之優點係過補償此些優點。
第2圖係顯示第1圖之解碼器配置以支援TNS編碼,且向後兼容與訊號作用34不敏感的解碼器。特別的是,第2圖係繪示在任何複數立體聲預測42以及MS解碼46之後執行逆TNS濾波之任何可能性。為了維持向後兼容,逆轉換器16係用以在N個係數上執行逆TNS濾波,而不考慮使用個別TNS係數64的訊號作用34。藉由此測量,數據流20係同樣地編碼複數個TNS係數64,而不考慮訊號作用34。亦即,TNS係數之數量以及相同編碼之方式係相同的。然而,逆轉換器16係用以不同地應用TNS係數64。在目前訊框為長轉換訊框之情形中,逆TNS濾波係到長轉換54上執行,即頻率域係數係在交錯狀態下排序,以及在目前訊框由訊號作用34訊號化成分離轉換訊框之情形中,逆轉換器16係將TNS濾波器62反轉成連續的領先轉換50以及落後轉換52,即索引0、2、…N-2、1、3、5…N-1之頻率域係數順序。例如,逆TNS濾波62係涉及使用濾波器的逆轉換器16,其傳輸功能(傳遞函數,transfer function)係根據係數之解交錯順序或是交錯順序的TNS係數64上而設定,此些係數係以處理上游反交錯器38之順序。
如此,意外地處理分離轉換類型(如長轉換訊框)之訊框的“老式”解碼器係施加TNS係數64,TNS係數64係由編碼器藉由分析兩個連續的短轉換,即50以及52產生,以及用轉換54以應用到轉換54上的反轉換之方式產生不正確的時間域部分60。然而,在限制使用分離轉換訊框於訊號表示雨或是喝彩或其他相似氣氛的場合之情形中,聽者對於解碼器上的均勻性品質衰減係可忍受的。
為了完整起見,第3圖係顯示逆轉換器16之逆TNS濾波62亦可***第2圖所示的處理順序中。例如,逆TNS濾波62可位於複數立體聲預測42之上游。為了維持逆TNS濾波62下游與上游的解交錯領域, 第3圖係顯示頻率域係數24僅預先解交錯66。為了在解交錯連續狀態內執行逆TNS濾波68,頻率域係數24係以索引0、2、4…N-2、1、3…N-3、N-1之順序進行處理,使反交錯反轉70,藉此取得交錯順序0、1、2…、N-1下的反TNS濾波版本的頻率域係數。第2圖所示的處理步驟之順序內,逆TNS濾波62之位置可為固定或是可經由數據流20訊號化,例如數據流20係在訊框基礎之訊框上或是在一些其他間隔上。
應注意的是,為了簡化本說明,上述實施例係僅專注在長轉換訊框以及分離轉換訊框之並排。然而,本申請案之實施例可藉由引入其他轉換類型之訊框(例如八個短轉換之訊框)而延伸。在這方面,應注意的是前述僅有關於以進一步訊號作用方式與任何第三轉換類型之其他訊框作區別的訊框,使得藉由檢查所有訊框包含的訊號作用而“老式”解碼器意外地將分離轉換訊框當長轉換訊框作處理,而僅與其他訊框(所有的分離轉換訊框以及長轉換訊框以外的訊框)區別的訊框將包含訊號作用34。就考慮其他訊框(除了分離轉換訊框以及長轉換訊框之外的訊框),應該注意到的是擷取器的操作模式12以及14(例如鄰近關係選擇等等)係取決於進一步訊號作用,操作模式可不同於應用於分離轉換訊框以及長轉換訊框的操作模式。
在說明配合上述解碼器實施例的合適編碼器之前,上述實施例之實現方式係描述適合升級xHE-AAC為基礎的音源轉碼器/解碼器,讓向後兼容方式中支援轉換分離。
亦即,在下列內容係描述如何執行在音源編解碼器轉換長度分離的可能性,此音源編解碼器係根據MPEG-DxHE-AAC(USAC)以達到特定的音源訊號在低位元速率下之編碼品質改進之目的。轉換分離工具係訊號化而部分向後兼容,使得傳統的xHE-AAC解碼器可根據上述實施例分析以及解碼位元流,而没有明顯音源錯誤或掉音。下文中將顯示,部分向後兼容訊號作用係利用訊框句法元件之不用的可能數值,以有條件地編碼方式來控制雜音填充之使用。而傳統的xHE-AAC解碼器對個別雜音填充句法元件之可能數值係不敏感的,但強化的音源解碼器係敏感的。
特別的是,以下描述的實現方式致使針對編碼訊號提供相似 於雨或是喝彩的中間轉換長度,其較佳的是一分離長區塊,即兩個依序的轉換,長區塊之每一半頻譜長度或四分之一頻譜長度。這些轉換之間的最高的時間重疊係低於連續的長區塊之間的最高的時序重疊。為了讓編碼位元流做轉換分離,即訊號作用34,其係由傳統的xHE-AAC解碼器讀取以及分析,而此分離應以部分向後兼容方式使用:此轉換分離工具之存在不應造成傳統的解碼器停止解碼或是非從偶數開始解碼。XHE-AAC基礎架構下位元流之可讀性亦可利於市場採用。為了達到部分向後兼容之目的以在xHE-AAC之鄰近關係或是其可能性衍生物使用轉換分離,轉換分離係經由xHE-AAC之雜音填充訊號作用進行訊號化。與上述實施例相容,為了建立轉換分離成xHE-AAC轉碼器/解碼器,以代替頻率域(FD)停止開始窗順序,可使用兩個分離、半長度轉換組成的分離轉換。針對解碼器,時序上依序的半長度轉換係以係數對係數的方式交錯成單一停止開始方塊。解碼器係不支援轉換分離,即傳統的xHE-AAC解碼器。以下將描述經由雜音填充訊號作用進行的訊號化的執行。特別的是,8位元雜音填充輔助資訊可用以傳輸轉換分離。此係可行的因為即使待使用的雜音位準係為零,MPEG-D標準[4]描述傳送所有的8位元。在此狀況中,一些雜音填充位元可針對轉換分離而再使用,即針對訊號作用34。
關於傳統xHE-AAC解碼器的位元流語法分析以及播放的部分向後兼容可如下確認。轉換分離係經由零之雜音位準而訊號化,即第一個三雜音填充位元皆為零值,接續有包含關於轉換分離以及消失雜音位準的輔助資訊的五個非零位元(其傳統上代表雜音偏移)。如果3位元雜音位準係零,因為傳統的xHE-AAC解碼器忽視5位元偏移值,轉換分離訊號作用34之存在僅在傳統解碼器上有雜音填充效果:因為第一個三位元皆為零所以關閉雜音填充,而解碼操作之剩餘部分係有意執行。特別的是,分離轉換的處理係與全長反轉換之傳統停止開始方塊相似(由於上述係數係交錯),而沒有執行反交錯。因此,因為依照到達轉換分離類型之訊框不需要消音輸出訊號22或是在偶數中止解碼,所以傳統的解碼器仍然提供強化數據流/位元流20之“優美”解碼。自然地,比起根據第1圖之用適當解碼器解碼,傳統的解碼器不能提供分離轉換訊框之正確再建,導致受影響的訊 框的品質惡化。儘管如此,假設轉換分離係有意使用,即僅在低位元率下轉瞬或是噪音輸入,由於xHE-AAC解碼器的品質應該比受影響之訊框由於消音或是其他明顯播放錯誤而掉音,會更好。
具體上,xHE-AAC編碼器/解碼器之延伸朝向轉換分離,如下所述。
根據以上所述,用於xHE-AAC的新工具可被稱為轉換分離(TS)。其將是在xHE-AAC或是根據USAC[4]的MPEG-H 3D-Audio之頻率域(FD)編碼器中的新工具。然後,轉換分離係在特定轉瞬訊號通過使用,以代替正常的長轉換(其導致低位元率下的時間模糊,尤其預先回音)或是八個短轉換(其導致低位元率下的頻譜空洞以及泡沫假造物)。然後,TS可能FD係數交錯的成長轉換,而訊號化部分向後兼容。長轉換可藉由傳統的MPEG-D USAC解碼器正確地分析。
工具之描述係與上述內容相似。當TS活躍於長轉換,兩個半長度MDCT係應用代替一個全長MDCT,而兩個MDCT,即50以及52之係數以逐線交錯方式傳送。例如,在FD(停止)開始轉換之情形中,交錯傳送已經使用,例如,在FD(停止)開始轉換之情形中,交錯傳送已經使用,第一即時MDCT之係數係設置在偶數索引而第二即時MDCT之係數係放置在奇數索引(索引從0開始),但是不能處理停止開始轉換的解碼器已經不能正確地分析數據流。亦即,由於用於熵編碼頻率域係數的不同鄰近關係係服務此停止開始轉換,一變化句法串流到半轉換上,不能支援停止開始視窗的任何解碼器將忽略個別停止開始窗訊框。
請復參閱上述實施例,其代表第1圖之解碼器可進一步支援轉換長度,即使用延伸訊號作用34的訊號作用將特定訊框26之細分割成大於兩個轉換的偶數。然而,關於訊框26之轉換細分割之並排,與使用訊號作用34啟動分離轉換不同,FD係數擷取器12以及比例因子擷取器14係敏感於訊號作用,而其操作模式係依照除了訊號作用34之外的額外訊號作用進行改變。進一步,TNS係數、MS參數以及複數預測參數之串流傳送,其適合不同於根據56以及59的分離轉換類型的訊號化轉換類型,係需要每一個解碼器必須能回應(即了解)在這些“已知轉換類型”之間的訊號作 用選擇、或是根據60包含長轉換類型的複數個訊框,以及其他轉換類型(例如,AAC中將一個訊框細分割成八個短轉換)在此情況,“已知訊號作用”係識別針對訊號化分離轉換類型的訊號作用34之訊框以作為長轉換類型之訊框,使得解碼器不能了解訊號作用34,將這些訊框當長轉換訊框處理成而不是其他類型訊框,例如8個短轉換類型訊框。
請復回到xHE-AAC之可能延伸的描述,為了將TS工具建立至編碼框架,可提供特定的操作限制。例如,TS可僅在FD長開始窗或停止開始窗中使用。亦即,在下面的句法元件window_sequence可請求等於1。此外,由於部分向後兼容訊號化,其可要求TS僅應用當句法元件noiseFilling在句法容器UsacCoreConfig()中係為1。當TS訊號化為活躍,除了針對TNS以及逆MDCT之外的所有FD工具係操作在TS係數之交錯(長)組上。此允許比例因子帶偏移以及長轉換演算編碼表之再使用,如同窗塑形以及重疊長度。
以下所呈現用語以及定義係為了說明[4]所描述的USAC標準如何延伸提供向後兼容TS功能。針對有興趣的讀者,有時參考係基於標準內的段落。
新的數據元件可為:split_transform 二元旗標,其指示目前訊框以及聲道中是否利用TS新的協助元件可為:window_sequence 針對目前訊框以及聲道的FD窗順序類型(章節6.2.9)
noise_offset 用於修改零量化頻帶之倍率因子的雜音填充偏移(章節7.2)
noise_level 雜音填充位準,其代表增加頻譜雜音之振幅(章節7.2)
half_transform_length coreCoderFrameLength(ccfl)的一半,其為轉換長度(章節6.1.1)
half_lowpass_line 針對目前頻道所傳送的MDCT線之數量的一半
在USAC框架中使用轉換分離(TS)做FD(停止)開始 轉換之解碼可單純如下所示的依序步驟執行:首先,可執行split_transform以及half_lowpass_line的解碼。
Split_transform實際上不代表單獨位元流元件,但是係從雜音填充元件noise_offset以及noise_level,以及在UsacChannelPairElement( ),StereoCoreToolInfo( )中的common-window旗標之情形中所衍生。如果noiseFilling==0,split_transform為0。否則,
換句話說,如果noise_level等於0,noise_offset contains split_transform旗標,其後接著4位元的雜音填充數據,然後重新配置。因為此操作改變noise_level以及noise_offset之數值,其必須在章節7.2之雜音填充過程之前執行。此外,如果在UsacChannelPairElement()中common_window等於1,則split_transform僅在左(第一)聲道決定;右聲道的split_transform係設定等於左聲道的split_transform(即複製),而上述偽編碼沒有在右聲道執行。
Half_lowpass_line係從目前頻道之“長”比例因子帶偏移表格、swb_offset_long_window以及max_sfb中決定,或是在立體聲以及common_window等於1之情形中,
然後,在第二步驟,執行針對時域雜訊塑形的半長度頻譜之反交錯。
在頻譜反量化、雜音填充以及倍率因子應用之後以及在時域雜訊塑形(TNS)應用之前,spec[]中的TS係數係使用helper buffer[]解交錯:
適當的反交錯係在彼此頂部上有效地放置兩個半長度TS頻譜,以及現在TNS工具係通常在全長偽頻譜上運作。
請參閱第3圖中已經描述的程序。
然後,在第三步驟中,係隨著兩個依序的逆MDCT使用臨時再交錯。
如果目前訊框中common_window等於1或是TNS解碼(章節7.8中tns_on_lr等於0)之後執行立體聲解碼,spec[ ]必須暫時地再交錯成一全長頻譜:for(i=0;i<half_lowpass_line;i+=1){
產生的偽頻譜係用於立體聲解碼(章節7.7)以及更新dmx_re_prev[ ](章節7.7.2以及A.1.4)。在tns_on_lr等於0之情形中,立體聲解碼全長頻譜係再次解交錯,重複章節A.1.3.2之處理。最後,2個逆MDCT係與ccfl以及目前聲道以及最後訊框的window_shape計算。參見章節7.9以及第1圖。
XHE-AAC之複數預測立體聲解碼係作一些修改。
為了建立TS成xHE-AAC,可選擇使用隱式部分向後兼容訊號化方法。
上述方法係使用位元流中的一位元至本發明的轉換分離之訊號使用,其包含在split_transform,至本發明的解碼器。特別的是,此訊號化(稱其為明確部分向後兼容訊號化)係讓下列傳統位元流數據(在此為雜音填充輔助資訊,其係獨立於本發明之訊號使用):在本實施例中,雜音填充數據不取決於轉換分離數據,反之亦然。例如,可傳送由零組成的雜音填充數據(noise_level等於noise_offset等於0),而split_transform可維持成任何可能數值(二元旗標,0或是1)。
在傳統的位元流數據以及本發明的位元流數據之間並不需要嚴格獨立,而本發明的訊號係為二元決定,可避免訊號化位元之明示傳送,而二元決定可由暗示的部分向後兼容訊號化之有無以訊號化。再次以上述實施例作為一舉例,轉換分離使用可藉由簡單使用本發明的訊號化來傳送:如果noise_level為零而同時noise_offset為非零,則split_transform設定等於1。如果noise_level以及noise_offset不為零,則split_transform係設定等於0。當noise_level以及noise_offset為零,在傳統的雜音填充訊號上對本發明的暗示訊號之依賴增加。在此情形中,其係不清楚是否使用傳 統的或是本發明的暗示訊號化。為了避免此不明確,split_transform的值必須預先定義。在目前範例中,如果雜音填充數據全部由零組成,則split_transform適合定義為0,因為當雜音填充並非使用於訊框中,沒有轉換分離的傳統編碼器將訊號化。
在暗示部分向後兼容訊號化之情形中待解決的爭議在於如何將split_transform等於1訊號化同時沒有雜音填充。如說明,雜音填充數據必須不是全部為零,以及如果請求零之雜音振幅,noise_level((noise_offset & 14)/2as above)必須等於0。此僅留下noise_offset((noise_offset & 1)*16 as above)大於0作為解答。幸運地,如果在解碼器沒有根據USAC[4]執行雜音填充,則可忽略noise_offset之值,如此此方法在本實施例係為可行的。因此,在上述偽編碼中split_transform之訊號化可如下修改,fornoise_offset使用儲存的TS訊號化位元來傳送2個位元(4個數值),藉此代替1個位元:
因此,使用此替換實施方式,本描述之USAC可使用下列描述而延伸。
此工具描述係很大程度上相同。
亦即,當轉換分離(TS)在一長轉換中啟動,兩個半長度MDCTs係應用代替一全長MDCT。兩個MDCTs之係數係以逐線交錯的方 式傳送作為一傳統頻率域(FD)轉換,且第一即時MDCT之係數係放置在偶數索引而第二即時MDCT之係數係放置在奇數索引。
操作上的限制係必須的,TS僅使用於一FD長開始或是停止開始窗(window_sequence等於1),以及僅當noiseFilling在UsacCoreConfig( )內為1時才使用TS。當TS被訊號化,除了針對TNS以及逆MDCT之外的所FD工具係操作在TS係數之交錯(長)組上。此允許比例因子帶偏移以及長轉換演算編碼表之再使用,如同窗塑形以及重疊長度。
下文中涉及協助元件所使用之用語以及定義
common_window 係指如果CPE之聲道0以及聲道1使用相同的窗參數(參見ISO/IEC23003-3:2012章節6.2.5.1.1)。
window_sequence 針對目前訊框以及聲道的FD窗順序類型(參見ISO/IEC 23003-3:2012章節6.2.9)。
tns_on_lr 係指針對TNS濾波操作之操作模式(參見ISO/IEC23003-3:2012章節7.8.2)。
noiseFilling 此旗標係訊號化在FD核心編碼器中的頻譜空洞之雜音填充之使用(參見ISO/IEC23003-3:2012章節6.1.1.1)。
noise_offset 雜音填充偏移以修改零量化頻帶之倍率因子(參見ISO/IEC 23003-3:2012章節7.2)
noise_level 雜音填充位準,其代表增加頻譜雜音之振幅(參見ISO/IEC 23003-3:2012章節7.2)。
split_transform 二元旗標,其指示目前訊框以及聲道中是否利用TS。
half_transform_length CoreCoderFrameLength(ccfl,轉換長度)之一半(參見ISO/IEC 23003-3:2012章節6.1.1)。
half_lowpass_line 針對目前頻道所傳送的MDCT線之數量的一半
如下所示係描述涉及TS的解碼處理。特別的是,FD(停止)開始轉換與TS的解碼係在如下所示的三個依序步驟執行。
首先,可執行split_transform以及half_lowpass_line的解碼。協助元件Split_transform不代表單獨位元流元件,但是係從雜音填充元件noise_offset以及noise_level,以及在UsacChannelPairElement( ),StereoCoreToolInfo( )中的common_window旗標之情形中所衍生。如果noiseFilling等於0,split_transform為0。否則:
換句話說,如果noise_level等於0,noise_offset包含split_transform旗標,其後接著4位元的雜音填充數據,然後重新配置。因為此操作改變noise_level以及noise_offset之數值,其必須在ISO/IEC 23003-3:2012章節7.2之雜音填充過程之前執行。
此外,如果在UsacChannelPairElement()中common_window等於1,則split_transform僅在左(第一)聲道決定;右聲道的split_transform係設定等於左聲道的split_transform(即複製),而上述偽編碼沒有在右聲道執行。
協助元件Halt_lowpass_line係從目前頻道之“長”比例因子帶偏移表格、swb_offset_long_window以及max_sfb中決定,或是在立體聲以及common_window等於1之情形中, 根據igFilling旗標,係衍生half_lowpass_line:
然後,執行針對時域雜訊塑形的半長度頻譜之反交錯。
頻譜反量化、雜音填充以及倍率因子應用之後以及在時域雜訊塑形(TNS)應用之前,spec[]中的TS係數係使用helper buffer[]解交錯:
適當的反交錯係在彼此頂部上有效地放置兩個半長度TS頻譜,而且現在TNS工具係如常運作在產生的全長偽頻譜上。
最後,可使用臨時再交錯以及兩個依序的逆MDCT:如果目前訊框中common_window等於1或是TNS解碼(章節7.8中tns_on_lr等於0)之後執行立體聲解碼,spec[ ]必須暫時地再交錯成一全長頻譜:
產生的偽頻譜係用於立體聲解碼(ISO/IEC 23003-3:2012章節7.7)以及更新dmx_re_prev[](ISO/IEC 23003-3:2012章節7.7.2)以及在tns_on_lr等於0之情形中,立體聲解碼全長頻譜係藉由重複章節流程而再次解交錯。最後,2個逆MDCT係與ccfl以及目前聲道以及最後訊框的window_shape計算。
針對TS的處理係給定在ISO/IEC 23003-3:2012章節"7.9 Filterbank and block switching"的描述。應考慮下列補充。
在spec[ ]中的TS係數係使用N大小的helper buffer[ ]進行解交錯,根據window_sequence值的窗長度為:
然後,針對半長度TS頻譜的IMDCT定義為:
後續的設窗以及方塊切換步驟為定義在下一個子章節。
具有STOP_START_SEQUENCE的轉換分離係與下列描述 相似:第2圖中所示的係STOP_START_SEQUENCE結合轉換分離。其包含兩個相重疊以及相加的半長度視窗56與58,其長度N_l/2為1024(960,768)。N_s係分別設定為256(240,192)。
針對兩個半長度IMDCT的視窗(0,1)係給定如下所示: 針對第一IMDCT視窗採用 針對第二IMDCT視窗採用
以下係描述兩個半長度視窗之間的重疊以及相加係產生窗時間域數值zi,n。在此,N_l係設定為2048(1920,1536),N_s設定為256(240,192):
具有LONG_START_SEQUENCE的轉換分離係與下列描述相似:第4圖中所示的係LONG_START_SEQUENCE結合轉換分離。其包含三個視窗如下所定義,N_l/係設定為1024(960,768),N_s設定為256(240,192)。
左/右半窗係給定為: 第三窗等於LONG_START_WINDOW之左半邊:
以下係描述兩個半長度視窗之間的重疊以及相加產生中間窗時間域數值。在此,N_l係設定為2048(1920,1536),N_s設定為256(240,192)。
最後的窗時間域數值Zi,n係使用W2取得:
不管是否使用明示或是暗示部分向後兼容訊號化,在此兩者中,為了達到交錯頻譜上有意義的操作,對xHE-AAC之複數預測立體聲解碼的一些修改係必要的。
對複數預測立體聲解碼的修改可如下所示實現。
當TS活躍在通道對上,因為FD立體聲工具操作在交錯的偽頻譜上,所以沒必要改變下方M/S或是複數預測處理。然而,如果TS係用於最後或是目前訊框中的任一聲道,則在ISO/IEC23003-3:2012章節7.7.2中的先前訊框的降混dmx_re_prev[]以及降混MDSTdmx_im[ ]係需要採用。
‧use_prev_frame必須是0,如果TS的活動在最後到目前訊框中的任一聲道有改變。換句話說,由於轉換長度切換,在此情況必須不使用dmx_re_prev[]。
‧如果TS以前或現在是活躍的,則dmx_re_prev[ ]以及dmx_re[ ]係指明交錯偽頻譜而且針對正確MDST計算必須解交錯成對應 的兩個半長度TS頻譜。
‧依照TS活動,2個半長度MDST降混係使用適應性濾波器係數(表1以及表2)計算而且交錯成全長頻譜dmx_im[ ](與dmx_re[ ]相似)。
‧window_sequence:降混MDST估算係針對每一個群組窗對計算。僅針對兩個半窗對中的第一個做評價。針對剩餘窗對,在前的的窗對係都在MDST估計在使用,其代表use_prev_frame等於1。
.窗型:針對目前窗的MDST估算參數,其為取決於窗左部以及右半部之形狀的濾波器係數。對於第一窗,其代表濾波器參數為目前以及先前訊框window_shape旗標之功能。剩餘窗僅被目前window_shape所影響。
最後,為了完整起見,第5圖係配合上述實施例而顯示可能的支援轉換長度切換之頻率域音源編碼器。亦即,在第5圖中用參考符號100標示的編碼器能夠將音源訊號102編碼成數據流20,使得第1圖之解碼器以及上述對應的變化型對於一些訊框能有轉換分離模式的優點,然而“老式”解碼器仍然能處理TS訊框而沒有語法分析錯誤或其他相似錯誤。
第5圖之編碼器100包含一轉換器104、一比例裁減器106、頻率域係數輸入器108以及一倍率因子輸入器110。轉換器104係接收待編碼的音源訊號102以及對音源訊號之時間域部分進行轉換以取得用於音源訊號之訊框的頻率域係數。特別的是,從上述描述可清楚知道,轉換器104係以逐訊框為基礎決定使用訊框26細分割成轉換或是轉換窗。如上所述,訊框26可有相等的長度,而此轉換可為使用不同長度之重疊轉換的堆疊轉換。例如,如第5圖所示,訊框26a係進行一長轉換,而訊框26b係進行轉換分離,即分離成兩個一半長度的轉換,以及進一步訊框26c係顯示進行兩個以上,例如2n>2,或甚至更短的長轉換長度2-n。如上所述,編碼器100能夠適應重疊轉換所表現的頻譜圖之時頻域解析度,而重疊轉換係由轉換器104執行而轉換成時變音源內容或是音源訊號102之音源內容種類。
亦即,轉換器104之輸出端產生的頻率域係數代表音源訊號102之頻譜圖。逆比例裁減器106係連接至轉換器104之輸出端,並用以進行逆比例裁減且同時根據倍率因子量化頻率域係數。顯著地,逆比例裁減器係以轉換器104取得的頻率係數運作。亦即,逆比例裁減器106必須知道針對訊框26的轉換長度分配或是轉換模式分配。亦應注意的是逆比例裁減器106必須判斷倍率因子。在此端,例如,逆比例裁減器106係為回授迴路之該部分,其針對音源訊號102估算心理聽覺遮蔽門檻值,藉此在有或沒有位元率限制下盡可能地維持量化引進以及根據倍率因子逐漸設定的 量化雜音,低於所偵測的心理聽覺門檻值。
在逆比例裁減器106之輸出端,係輸出倍率因子以及逆縮放以及量化頻率域係數,而且倍率因子輸入器110係用以將倍率因子***數據流20,然而頻率域係數輸入器108係用以將音源訊號該訊框之頻率域係數,其根據倍率因子逆縮放而且量化,***數據流20。在對應於解碼器的方式中,就考慮長轉換模式之訊框26a之並排且轉換分離模式之訊框26b,兩個輸入器108與110係不考慮與訊框26相關聯的轉換模式而操作。
換句話說,輸入器110與108係獨立於上述訊號作用34而操作,在訊號作用34中,轉換器104係用以訊號化,或針對訊框26a與26b分別***數據流20。
換句話說,在上述實施例,轉換器104係適當地配置長轉換以及分離轉換訊框之轉換係數,即平面串列配置或是交錯的,而輸入器係真正獨立於109運作。但是在更一般的感測中如果獨立於訊號作用的頻率域係數輸入器係受限於每一個長轉換之一串頻率域係數以及音源訊號之分離轉換訊框,其根據倍率因子而逆縮放,***數據流中,依照訊號作用,在訊框為長轉換訊框之情形中,頻率域係數之順序係以非交錯方式依序地配置個別訊框之單一轉換之頻率域係數而形成;在個別訊框為分離轉換訊框之情形中,藉由交錯個別訊框之複數轉換之頻率域係數來形成。
就頻率域係數輸入器108考慮,其獨立於區別在一方面的訊框26a以及另一方面的訊框26b之間的訊號作用34而相同運作,係指輸入器108將音源訊號之訊框之頻率域係數,其根據倍率因子作逆縮放,在針對個別訊框執行單一轉換之情形下以非交錯依序方式的***數據流20;以及在針對執行複數轉換(即第5圖之範例中的兩個轉換)之情形中以交錯方式將個別訊框之頻率域係數***數據流20。然而,如以上所標示,轉換分離模式亦可不同地實現藉此將單一轉換分離成兩個以上的轉換。
最後,應該注意的是亦可採用第5圖之編碼器以執行如第2圖所述的其他額外的編碼測量,例如MS編碼,複數立體聲預測42以及判斷個別參數44、48以及64的TNS。
雖然一些態樣已經在裝置之內容中描述,清楚的是這些態樣 亦代表相對應的方法之描述,而方塊或是裝置係對應方法步驟或是方法步驟之特徵。同樣地,在方法步驟之內容中描述的態樣亦代表相對應的方塊或是項目或是相對應裝置之特徵的描述。一些或所有的本方法步驟可藉由(或是使用)硬體裝置執行,例如像是微處理器、可程式化電腦或是電子電路。在一些實施例中,一些最重要的方法步驟可藉由此種裝置執行。
取決於特定的執行需求,本發明的實施例可在硬體或是在軟體上實現。此實現可使用性,數位儲存媒體,例如儲存有電子可讀取控制訊號的軟碟、DVD、藍光、CD、ROM、PROM一EPROM、EEPROM或是FLASH記憶體其能與一可程式化電腦系統合作(或是能夠配合)以執行上述方法。因此,此數位儲存媒體係電腦可讀取。
根據本發明之一些實施例包含具有電子可讀取控制訊號的數據載體,其能夠與可程式化電腦系統配合,以執行上述方法中的其中一個。
通常,本發明之實施例可實現為一具有程式碼的電腦程式產品,當此電腦程式產品在一電腦上執行時此程式碼係操作以執行上述方法中的其中一個。例如此程式碼可儲存在機器可讀取載體上。
其他實施例包含用以執行上述方法中的其中一個的電腦程式,其儲存在機器可讀取載體上。
換句話說,因此發明的方法之實施例係為具有當此電腦程式在電腦上執行時,能執行上述方法中的其中一個的程式碼的電腦程式。
因此,本發明的方法之另一實施例數據載體(或是數位儲存媒體或是電腦可讀取媒體)包含紀錄用以執行上述方法中的其中一個的電腦程式。數據載體,此數位儲存媒體或是紀錄媒體係有形實體及/或非暫時性的。
因此,本發明之方法之另一實施例係為一數據流或是一串訊號,其代表用於執行上述方法中的其中一個的電腦程式。例如數據流或是此串訊號可配置經由數據通訊連接傳輸,例如透過網際網路。
另一實施例包含一處理裝置例如電腦,或是可程式化邏輯裝置,用以或是採用執行上述方法中的其中一個。
另一實施例包含一安裝有用於執行上述方法中的其中一個之電腦程式的電腦。
根據本發明之另一實施例包含用以傳輸(例如電性或光學)用於執行上述方法中的其中一個的電腦程式到接收器的裝置或是系統。例如,此接收器可為一電腦、移動式裝置、記憶體裝置或其他相似裝置。例如,此裝置或是系統可包含用於傳輸電腦程式至接收器的檔案伺服器。
在一些實施例中,可程式化邏輯裝置(例如場效可程式化閘極陣列)可用以執行上述方法之一些或是全部功能。在一些實施例中,為了執行上述方法中的其中一個,場效可程式化閘極陣列可配合微處理器。通常,此方法可藉由任何硬體裝置較佳執行。
上述實施例係僅為本發明原理之說明。在較佳實施例之詳細說明中所提出之具體實施例僅用以方便說明本發明之技術內容,而非將本發明狹義地限制於上述實施例,在不超出本發明之精神及以下申請專利範圍之情況,所做之種種變化實施,皆屬於本發明之範圍。
參考文獻
[1] Internet Engineering Task Force (IETF), RFC 6716, “Definition of the Opus Audio Codec,” Proposed Standard, Sep. 2012. Available online at http://tools.ietf.org/html/rfc6716.
[2] International Organization for Standardization, ISO/IEC 14496-3:2009, “Information Technology - Coding of audio-visual objects - Part 3: Audio,” Geneva, Switzerland, Aug. 2009.
[3] M. Neuendorf et al., “MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types,” in Proc. 132nd Convention of the AES, Budapest, Hungary, Apr. 2012. Also to appear in the Journal of the AES, 2013.
[4] International Organization for Standardization, ISO/IEC 23003-3:2012, “Information Technology - MPEG audio - Part 3: Unified speech and audio coding,” Geneva, Jan. 2012.
[5] J.D.Johnston and A.J.Ferreira, "Sum-Difference Stereo Transform Coding", in Proc. IEEE ICASSP-92, Vol. 2, March 1992.
[6] N.Rettelbach, et al., European Patent EP2304719A1, "Audio Encoder, Audio Decoder, Methods for Encoding and Decoding an Audio Signal, Audio Stream and Computer Program", April 2011.
10‧‧‧參考符號、輸出編碼器、解碼器
12‧‧‧頻率域係數擷取器、擷取器、頻率域係數、操作模式、FD係數擷取器
14‧‧‧比例因子擷取器、倍率因子擷取器、操作模式
16‧‧‧逆轉換器
18‧‧‧組合器
20‧‧‧數據流、強化數據流/位元流
22‧‧‧輸出端、輸出訊號
24‧‧‧頻率域係數、頻譜共置頻率域係數、交錯的頻率域係數、編碼/解碼頻率域係數、係數
26‧‧‧訊框
28‧‧‧頻譜圖、訊號頻譜圖
30‧‧‧比例因子帶、倍率因子頻帶
32‧‧‧倍率因子

Claims (15)

  1. 一種支援轉換長度切換的頻率域音源解碼器,包含:一頻率域係數擷取器(12),用以從一數據流中擷取一音源訊號之複數個訊框之複數個頻率域係數(24);一此倍率因子擷取器(14),用以從該數據流擷取複數個倍率因子;一逆轉換器(16),用以根據該複數個倍率因子縮放的該複數個訊框之該複數個頻率域係數進行逆轉換,以取得該音源訊號之複數個時間域部分;一組合器(18),用以結合該複數個時間域部分以取得該音源訊號,其中依照該訊號作用,該逆轉換器係回應該音源訊號之該複數個訊框內的一訊號作用,藉此以一非解交錯方式、依序地配置一個別訊框之該複數個頻率域係數並根據該複數個倍率因子縮放,以形成單一轉換,並對該單一轉換進行一第一轉換長度之一逆轉換;或是藉由反交錯該個別訊框之該複數個頻率域係數以及根據該複數個倍率因子縮放,以形成複數轉換,以及對每一該複數轉換進行一第二轉換長度之一逆轉換,該第二轉換長度係短於該第一轉換長度,其中該頻率域係數擷取器以及該此倍率因子擷取器係獨立於該訊號作用而進行操作,其中該逆轉換器係在該單一轉換之形式下在該複數個頻率域係數進行逆時域雜訊塑形濾波,而該複數個頻率域係數係非解交錯方式依序地設置,以及在該複數轉換之形式下,在該複數個頻率域係數上進行施加逆時域雜訊塑形濾波,該複數個頻率域係數係以一解交錯方式設置,且該複數轉換係頻譜上連續。
  2. 如申請專利範圍第1項所述之頻率域音源解碼器,其中該此倍率因子擷取器(14)係在一時頻域解析度下從該數據流擷取該複數個倍率因子,該時頻域解析度係獨立於該訊號作用。
  3. 如申請專利範圍第1項所述之頻率域音源解碼器,其中該逆轉換器係藉由將一濾波器,其一傳遞函數係依據時域雜訊塑形係數而設定,應用 在N個係數上而在N個係數上執行逆時域雜訊塑形濾波而不考慮該訊號作用,其中在該單一轉換之形式下,藉由使用該複數個頻率域係數而進行逆時域雜訊塑形濾波,該複數個頻率域係數係非解交錯方式依序地設置,如同該N個係數,以及在該複數轉換之形式下,藉由使用該複數個頻率域係數而在該複數個頻率域係數上進行逆時域雜訊塑形濾波,該複數個頻率域係數係以一解交錯方式設置,且該複數轉換係依據該解交錯方式而在頻譜上連續如同該N個係數。
  4. 如申請專利範圍第1項所述之頻率域音源解碼器,其中該逆轉換器係根據在一頻譜解析度下的該複數個倍率因子對該複數個頻率域係數進行縮放,且獨立於該訊號作用。
  5. 如申請專利範圍第1項所述之頻率域音源解碼器,其中該逆轉換器係對該頻率域係數進行雜音填充,其中該複數個頻率域係數係在一頻譜解析度下以非解交錯方式依序地設置,該頻譜解析度係獨立於該訊號作用。
  6. 如申請專利範圍第1項所述之頻率域音源解碼器,其中該逆轉換器係用以支援聯合立體聲編碼在有或没有通道間立體聲預測以及不考慮該訊號作用的情況下,並使用該複數個頻率域係數作為一總和或是差值頻譜或該通道間立體聲預測之預測殘留,其中該複數個頻率域係數係以非解交錯方式設置。
  7. 如申請專利範圍第1項所述之頻率域音源解碼器,其中該複數轉換之數量等於2,以及該第一轉換長度係兩倍於該第二轉換長度。
  8. 如申請專利範圍第1項所述之頻率域音源解碼器,其中該逆轉換係一逆修改型離散餘弦轉換(MDCT)。
  9. 一種支援轉換長度切換的頻率域音源解碼器,包含:一頻率域係數擷取器(12),用以從一數據流中擷取一音源訊號之複數個訊框之複數個頻率域係數(24);一此倍率因子擷取器(14),用以從該數據流擷取複數個倍率因子;一逆轉換器(16),用以根據該複數個倍率因子縮放的該複數個訊框之該 複數個頻率域係數進行逆轉換,以取得該音源訊號之複數個時間域部分;一組合器(18),用以結合該複數個時間域部分以取得該音源訊號,其中依照該訊號作用,該逆轉換器係回應該音源訊號之該複數個訊框內的一訊號作用,藉此以一非解交錯方式、依序地配置一個別訊框之該複數個頻率域係數並根據該複數個倍率因子縮放,以形成單一轉換,並對該單一轉換進行一第一轉換長度之一逆轉換;或是藉由反交錯該個別訊框之該複數個頻率域係數以及根據該複數個倍率因子縮放,以形成複數轉換,以及對每一該複數轉換進行一第二轉換長度之一逆轉換,該第二轉換長度係短於該第一轉換長度,其中該頻率域係數擷取器以及該此倍率因子擷取器係獨立於該訊號作用而進行操作,其中該逆轉換器係用以支援聯合立體聲編碼在有或没有通道間立體聲預測以及不考慮該訊號作用的情況下,並使用該複數個頻率域係數作為一總和或是差值頻譜或該通道間立體聲預測之預測殘留,其中該複數個頻率域係數係以非解交錯方式設置。
  10. 一種支援轉換長度切換的頻率域音源解碼器,包含:一頻率域係數擷取器(12),用以從一數據流中擷取一音源訊號之複數個訊框之複數個頻率域係數(24);一此倍率因子擷取器(14),用以從該數據流擷取複數個倍率因子;一逆轉換器(16),用以根據該複數個倍率因子縮放的該複數個訊框之該複數個頻率域係數進行逆轉換,以取得該音源訊號之複數個時間域部分;一組合器(18),用以結合該複數個時間域部分以取得該音源訊號,其中依照該訊號作用,該逆轉換器係回應該音源訊號之該複數個訊框內的一訊號作用,藉此以一非解交錯方式、依序地配置一個別訊框之該複數個頻率域係數並根據該複數個倍率因子縮放,以形成單一轉換,並對該單一轉換進行一第一轉換長度之一逆轉換;或是藉由反交錯該個別訊框之該複數個頻率域係數以及根據該複數個倍率 因子縮放,以形成複數轉換,以及對每一該複數轉換進行一第二轉換長度之一逆轉換,該第二轉換長度係短於該第一轉換長度,其中該頻率域係數擷取器以及該此倍率因子擷取器係獨立於該訊號作用而進行操作,其中該頻率域係數擷取器(12)係使用鄰近關係或是編碼簿為基礎的熵解碼,以從該數據流擷取該複數個頻率域係數,並不考慮該訊號作用之下針對每一個頻率域係數指派相同鄰近關係或是編碼簿給該個別頻率域係數。
  11. 一種支援轉換長度切換的頻率域音源編碼器,包含:一轉換器(104),係用以對一音源訊號之複數個時間域部分進行轉換以取得用於該音源訊號之訊框的複數個頻率域係數;一逆比例裁減器(106),係用以根據複數個倍率因子對該複數個頻率域係數進行逆比例裁減;一頻率域係數輸入器(108),係用以將該音源訊號之該訊框之該複數個頻率域係數***該數據流,且該複數個頻率域係數係根據複數個倍率因子做逆縮放;以及一倍率因子輸入器(110),係用以將該複數個倍率因子***該數據流,其中該轉換器係用以針對該音源訊號之該訊框切換執行至少個別訊框之一第一轉換長度之單一轉換,以及針對該個別訊框執行一第二轉換長度之複數轉換,該第二轉換長度係短於該第一轉換長度,其中該轉換器係進一步藉由該數據流之該訊框內的一訊號作用將該切換訊號化;其中該頻率域係數輸入器係用以依照該訊號作用而形成一串該頻率域係數,這是藉由以非交錯方式依序地配置之一個別訊框該單一轉換之該頻率域係數,若該單一轉換係針對各別訊框執行,以及交錯該個別訊框之該複數轉換之該複數個頻率域係數,若該複數轉換係針對個別訊框執行, 並以獨立於該訊號作用的方式,針對一個別訊框,將該音源訊號之該個別訊框之一串該頻率域係數***該數據流中,該頻率域係數根據該複數個倍率因子進行逆縮放,其中該頻率域係數輸入器係獨立於該訊號作用而進行操作,其中該編碼器係用以在該單一轉換之執行中,對該複數個頻率域係數進行逆時域雜訊塑形濾波,而該複數個頻率域係數係非解交錯方式依序地設置,以及在該複數轉換之執行中,對該複數個頻率域係數上進行逆時域雜訊塑形濾波,該複數個頻率域係數係以一解交錯方式設置,且該複數轉換係依據該解交錯方式而在頻譜上連續。
  12. 如申請專利範圍第11項所述之編碼器,其係用以在不考慮該訊號作用下,在一串N個係數上執行時域雜訊塑形以決定時域雜訊塑形係數(64),其中在該單一轉換之執行下,以非解交錯方式依序設置之該複數個頻率域係數係被使用為該串N個係數,以及在該複數轉換之執行下,以一解交錯方式依序設置之該複數個頻率域係數,且該複數轉換係依據該解交錯方式而在頻譜上連續。
  13. 一種支援轉換長度切換之頻率域音源解碼的方法,包含:從一數據流擷取一音源訊號之複數個訊框之複數個頻率域係數;從該數據流擷取複數個倍率因子;對根據該複數個倍率因子縮放的該複數個訊框之複數個頻率域係數進行逆轉換,以取得該音源訊號之複數個時間域部分;結合該時間域部分以取得該音源訊號,其中逆轉換係回應該音源訊號之該複數個訊框內的一訊號作用,而依照該訊號作用,係包含以一非解交錯方式依序地配置一個別訊框之該複數個頻率域係數以形成單一轉換,並對該單一轉換進行一第一轉換長度之一逆轉換,或是藉由反交錯該個別訊框之該複數個頻率域係數以形成複數轉換,以 及對每一該複數轉換進行一第二轉換長度之一逆轉換,該第二轉換長度係短於該第一轉換長度,其中擷取該頻率域係數以及擷取該倍率因子係獨立於該訊號作用,其中該逆轉換之進行係包含:在該單一轉換之形式下,對該複數個頻率域係數進行逆時域雜訊塑形濾波,而該複數個頻率域係數係非解交錯方式依序地設置,以及在該複數轉換之形式下,對該複數個頻率域係數上進行逆時域雜訊塑形濾波,該複數個頻率域係數係以一解交錯方式依序設置,且該複數轉換係依據該解交錯方式而在頻譜上連續。
  14. 一種支援轉換長度切換之頻率域音源編碼的方法,包含:對一音源訊號之複數個時間域部分進行轉換以取得該音源訊號之該複數個訊框的複數個頻率域係數;根據複數個倍率因子對該複數個頻率域係數進行逆縮放比例;將該音源訊號之該複數個訊框之該複數個頻率域係數***該數據流,且該複數個頻率域係數係根據複數個倍率因子做逆縮放;以及將複數個倍率因子***該數據流,其中針對該音源訊號之該複數個針對的轉換切換係至少執行針對一個別訊框之一第一轉換長度之單一轉換以及執行針對該個別訊框的一第二轉換長度之複數轉換,該第二轉換長度係短於該第一轉換長度,其中該方法包含藉由該數據流之該訊框內的一訊號作用將該切換訊號化;其中針對一個別訊框,該複數個頻率域係數之***係藉由將該音源訊號之該個別訊框之一串該頻率域係數以獨立該訊號作用的方式***該數據流中,該頻率域係數係根據該複數個倍率因子進行逆縮放,其中在針對該個別訊框執行該單一轉換之情形中,依照該訊號作用以非交錯方式依序地配置之一個別訊框該單一轉換之該頻率域係數,以及在針對該個別訊框執行複數個轉換之情形中係交錯該個別訊框之該複 數個轉換之該複數個頻率域係數,其中該複數個倍率因子之***係獨立於該訊號作用而執行,其中該方法包含在該單一轉換之執行下,對該複數個頻率域係數進行時域雜訊塑形濾波,而該複數個頻率域係數係非解交錯方式依序地設置,以及在該複數轉換之執行下,對該複數個頻率域係數進行時域雜訊塑形濾波,該複數個頻率域係數係以一解交錯方式依序設置,且該複數轉換係依據該解交錯方式而在頻譜上連續。
  15. 一種具有程式碼的電腦程式,當在一電腦上執行時係執行如申請專利範圍第13項或第14項所述之方法。
TW103124632A 2013-07-22 2014-07-17 支援轉換長度切換的頻率域音源編碼器、解碼器、編碼方法、解碼方法及電腦程式 TWI559294B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13177373 2013-07-22
EP13189334.9A EP2830058A1 (en) 2013-07-22 2013-10-18 Frequency-domain audio coding supporting transform length switching
PCT/EP2014/065169 WO2015010965A1 (en) 2013-07-22 2014-07-15 Frequency-domain audio coding supporting transform length switching

Publications (2)

Publication Number Publication Date
TW201519219A TW201519219A (zh) 2015-05-16
TWI559294B true TWI559294B (zh) 2016-11-21

Family

ID=48808222

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103124632A TWI559294B (zh) 2013-07-22 2014-07-17 支援轉換長度切換的頻率域音源編碼器、解碼器、編碼方法、解碼方法及電腦程式

Country Status (20)

Country Link
US (4) US10242682B2 (zh)
EP (6) EP2830058A1 (zh)
JP (5) JP6247759B2 (zh)
KR (1) KR101819401B1 (zh)
CN (2) CN110739001B (zh)
AR (1) AR097005A1 (zh)
AU (1) AU2014295313B2 (zh)
CA (1) CA2918849C (zh)
ES (3) ES2940897T3 (zh)
FI (1) FI3961621T3 (zh)
HK (1) HK1254315A1 (zh)
MX (1) MX357694B (zh)
MY (1) MY184665A (zh)
PL (3) PL3961621T3 (zh)
PT (3) PT3961621T (zh)
RU (1) RU2654139C2 (zh)
SG (1) SG11201600369UA (zh)
TW (1) TWI559294B (zh)
WO (1) WO2015010965A1 (zh)
ZA (1) ZA201601115B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9313359B1 (en) 2011-04-26 2016-04-12 Gracenote, Inc. Media content identification on mobile devices
US20190373312A1 (en) 2012-02-21 2019-12-05 Gracenote, Inc. Media Content Identification on Mobile Devices
WO2017199086A2 (en) 2016-05-16 2017-11-23 Glide Talk Ltd. System and method for interleaved media communication and conversion
CN112400203A (zh) * 2018-06-21 2021-02-23 索尼公司 编码设备、编码方法、解码设备、解码方法、以及程序

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201011739A (en) * 2008-07-11 2010-03-16 Fraunhofer Ges Forschung Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
WO2012126891A1 (en) * 2011-03-18 2012-09-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frame element positioning in frames of a bitstream representing audio content

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US5848391A (en) * 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6353807B1 (en) * 1998-05-15 2002-03-05 Sony Corporation Information coding method and apparatus, code transform method and apparatus, code transform control method and apparatus, information recording method and apparatus, and program providing medium
EP0966109B1 (en) 1998-06-15 2005-04-27 Matsushita Electric Industrial Co., Ltd. Audio coding method and audio coding apparatus
JP2000134105A (ja) * 1998-10-29 2000-05-12 Matsushita Electric Ind Co Ltd オーディオ変換符号化に用いられるブロックサイズを決定し適応させる方法
US6223162B1 (en) * 1998-12-14 2001-04-24 Microsoft Corporation Multi-level run length coding for frequency-domain audio coding
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
CN2482427Y (zh) 2001-05-24 2002-03-20 张沛远 甘露醇药液静滴自动加压装置
US6950794B1 (en) * 2001-11-20 2005-09-27 Cirrus Logic, Inc. Feedforward prediction of scalefactors based on allowable distortion for noise shaping in psychoacoustic-based compression
DE10217297A1 (de) * 2002-04-18 2003-11-06 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten
US7272566B2 (en) * 2003-01-02 2007-09-18 Dolby Laboratories Licensing Corporation Reducing scale factor transmission cost for MPEG-2 advanced audio coding (AAC) using a lattice based post processing technique
US6965859B2 (en) * 2003-02-28 2005-11-15 Xvd Corporation Method and apparatus for audio compression
WO2004082288A1 (en) * 2003-03-11 2004-09-23 Nokia Corporation Switching between coding schemes
US7283968B2 (en) * 2003-09-29 2007-10-16 Sony Corporation Method for grouping short windows in audio encoding
US7325023B2 (en) 2003-09-29 2008-01-29 Sony Corporation Method of making a window type decision based on MDCT data in audio encoding
US7516064B2 (en) * 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
CN1677493A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
BRPI0418838A (pt) * 2004-05-17 2007-11-13 Nokia Corp método para suportar uma codificação de um sinal de áudio, módulo para suportar uma codificação de um sinal de áudio, dispositivo eletrÈnico, sistema de codificação de áudio, e, produto de programa de software
JP4168976B2 (ja) * 2004-05-28 2008-10-22 ソニー株式会社 オーディオ信号符号化装置及び方法
CA2572622A1 (en) * 2004-07-02 2006-02-09 Nielsen Media Research, Inc. Methods and apparatus for mixing compressed digital bit streams
US8744862B2 (en) * 2006-08-18 2014-06-03 Digital Rise Technology Co., Ltd. Window selection based on transient detection and location to provide variable time resolution in processing frame-based data
US7937271B2 (en) * 2004-09-17 2011-05-03 Digital Rise Technology Co., Ltd. Audio decoding using variable-length codebook application ranges
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
ATE537536T1 (de) 2004-10-26 2011-12-15 Panasonic Corp Sprachkodierungsvorrichtung und sprachkodierungsverfahren
KR100668319B1 (ko) * 2004-12-07 2007-01-12 삼성전자주식회사 오디오 신호의 변환방법 및 장치와 오디오 신호에적응적인 부호화방법 및 장치, 오디오 신호의 역변환 방법및 장치와 오디오 신호에 적응적인 복호화 방법 및 장치
US7830921B2 (en) 2005-07-11 2010-11-09 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signal
WO2008021247A2 (en) 2006-08-15 2008-02-21 Dolby Laboratories Licensing Corporation Arbitrary shaping of temporal noise envelope without side-information
US7953595B2 (en) * 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
DE102006051673A1 (de) * 2006-11-02 2008-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
JP2008129250A (ja) 2006-11-20 2008-06-05 National Chiao Tung Univ Aacのためのウィンドウ切り替え方法およびm/s符号化の帯域決定方法
KR20080053739A (ko) * 2006-12-11 2008-06-16 삼성전자주식회사 적응적으로 윈도우 크기를 적용하는 부호화 장치 및 방법
FR2911228A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
US8428957B2 (en) * 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
DE602008005250D1 (de) * 2008-01-04 2011-04-14 Dolby Sweden Ab Audiokodierer und -dekodierer
CN101965612B (zh) * 2008-03-03 2012-08-29 Lg电子株式会社 用于处理音频信号的方法和装置
US9037454B2 (en) * 2008-06-20 2015-05-19 Microsoft Technology Licensing, Llc Efficient coding of overcomplete representations of audio using the modulated complex lapped transform (MCLT)
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
CA2871268C (en) 2008-07-11 2015-11-03 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
BR122021003752B1 (pt) 2008-07-11 2021-11-09 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador de áudio, decodificador de áudio, métodos para codificar e decodificar um sinal de áudio.
EP2224433B1 (en) * 2008-09-25 2020-05-27 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
KR20130069833A (ko) * 2008-10-08 2013-06-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 다중 분해능 스위치드 오디오 부호화/복호화 방법
CN104378075B (zh) * 2008-12-24 2017-05-31 杜比实验室特许公司 频域中的音频信号响度确定和修改
CN101494054B (zh) * 2009-02-09 2012-02-15 华为终端有限公司 一种音频码率控制方法及***
US8311843B2 (en) * 2009-08-24 2012-11-13 Sling Media Pvt. Ltd. Frequency band scale factor determination in audio encoding based upon frequency band signal energy
EP2362376A3 (en) * 2010-02-26 2011-11-02 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using envelope shaping
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
WO2011147950A1 (en) * 2010-05-28 2011-12-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low-delay unified speech and audio codec
EP2710589A1 (en) * 2011-05-20 2014-03-26 Google, Inc. Redundant coding unit for audio codec
EP2721610A1 (en) * 2011-11-25 2014-04-23 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
EP2786377B1 (en) 2011-11-30 2016-03-02 Dolby International AB Chroma extraction from an audio codec
CN105378835B (zh) * 2013-02-20 2019-10-01 弗劳恩霍夫应用研究促进协会 使用依赖瞬态位置的重叠对音频信号编码或译码的设备及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201011739A (en) * 2008-07-11 2010-03-16 Fraunhofer Ges Forschung Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
WO2012126891A1 (en) * 2011-03-18 2012-09-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frame element positioning in frames of a bitstream representing audio content
TW201243827A (en) * 2011-03-18 2012-11-01 Fraunhofer Ges Forschung Frame element length transmission in audio coding

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"ITU-T G.719, Low-complexity, full-band audio coding for high-quality, conversational applications", Transmissions Systems and Media, Digital Systems and Networks Digital Terminal Equipments- Coding of Analogue Signals, 3 June 2008, pp. 1~58, Geneva, Switzerland. *

Also Published As

Publication number Publication date
PL3312836T3 (pl) 2022-03-28
US10984809B2 (en) 2021-04-20
JP6911080B2 (ja) 2021-07-28
JP6560320B2 (ja) 2019-08-14
EP3025339A1 (en) 2016-06-01
EP4369337A2 (en) 2024-05-15
US20210233545A1 (en) 2021-07-29
JP6247759B2 (ja) 2017-12-13
CA2918849C (en) 2019-05-21
EP4369337A3 (en) 2024-06-26
CN110739001B (zh) 2024-02-27
US20160140972A1 (en) 2016-05-19
HK1254315A1 (zh) 2019-07-19
EP4191581C0 (en) 2024-03-27
TW201519219A (zh) 2015-05-16
EP3025339B1 (en) 2017-09-13
US10242682B2 (en) 2019-03-26
EP2830058A1 (en) 2015-01-28
EP3961621B1 (en) 2023-01-04
KR101819401B1 (ko) 2018-01-16
MX2016000913A (es) 2016-06-21
MY184665A (en) 2021-04-15
CN105593934B (zh) 2019-11-12
AR097005A1 (es) 2016-02-10
EP3312836B1 (en) 2021-10-27
PL3025339T3 (pl) 2018-02-28
AU2014295313B2 (en) 2017-08-03
PL3961621T3 (pl) 2023-05-02
JP2021170127A (ja) 2021-10-28
PT3961621T (pt) 2023-03-31
AU2014295313A1 (en) 2016-03-10
JP2019207419A (ja) 2019-12-05
EP4191581A1 (en) 2023-06-07
PT3312836T (pt) 2021-12-30
MX357694B (es) 2018-07-19
KR20160033755A (ko) 2016-03-28
US11862182B2 (en) 2024-01-02
JP2023126886A (ja) 2023-09-12
ES2650747T3 (es) 2018-01-22
EP3961621A1 (en) 2022-03-02
SG11201600369UA (en) 2016-02-26
JP2016532894A (ja) 2016-10-20
US20240127836A1 (en) 2024-04-18
ZA201601115B (en) 2017-11-29
PT3025339T (pt) 2017-12-20
EP3312836A1 (en) 2018-04-25
CN110739001A (zh) 2020-01-31
ES2902949T3 (es) 2022-03-30
EP4191581B1 (en) 2024-03-27
CN105593934A (zh) 2016-05-18
FI3961621T3 (fi) 2023-03-31
RU2016105704A (ru) 2017-08-23
CA2918849A1 (en) 2015-01-29
JP2018055117A (ja) 2018-04-05
WO2015010965A1 (en) 2015-01-29
JP7311940B2 (ja) 2023-07-20
RU2654139C2 (ru) 2018-05-16
ES2940897T3 (es) 2023-05-12
US20190189138A1 (en) 2019-06-20

Similar Documents

Publication Publication Date Title
CN105706165B (zh) 使用噪声填充的音频编码器、解码器、编码及解码方法
JP7311940B2 (ja) 変換長切替えをサポートする周波数ドメインオーディオ符号化
KR20120128136A (ko) 일반 오디오 및 음성 프레임을 포함하는 오디오 신호용 디코더