TWI478149B - 用以利用平均值而基於下混信號表示型態和與下混信號表示型態相關聯之參數側邊資訊來提供用於提供上混信號表示型態之一或多個經調整參數的裝置、方法與電腦程式 - Google Patents

用以利用平均值而基於下混信號表示型態和與下混信號表示型態相關聯之參數側邊資訊來提供用於提供上混信號表示型態之一或多個經調整參數的裝置、方法與電腦程式 Download PDF

Info

Publication number
TWI478149B
TWI478149B TW099135229A TW99135229A TWI478149B TW I478149 B TWI478149 B TW I478149B TW 099135229 A TW099135229 A TW 099135229A TW 99135229 A TW99135229 A TW 99135229A TW I478149 B TWI478149 B TW I478149B
Authority
TW
Taiwan
Prior art keywords
parameters
parameter
adjusted
coefficients
average
Prior art date
Application number
TW099135229A
Other languages
English (en)
Other versions
TW201131551A (en
Inventor
Cornelia Falch
Juergen Herre
Leonid Terentiev
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of TW201131551A publication Critical patent/TW201131551A/zh
Application granted granted Critical
Publication of TWI478149B publication Critical patent/TWI478149B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Amplifiers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Stored Programmes (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

用以利用平均值而基於下混信號表示型態和與下混信號表示型態相關聯之參數側邊資訊來提供用於提供上混信號表示型態之一或多個經調整參數的裝置、方法與電腦程式 發明領域
依據本發明之實施例係有關一種用以基於一下混信號表示型態及與該下混信號表示型態相關聯之一參數側邊資訊來提供用於提供一上混信號表示型態之一或多個經調整參數的裝置。
依據本發明之另一實施例係有關一種用以基於該下混信號表示型態及該參數側邊資訊來提供一上混信號表示型態之裝置。
依據本發明之另一實施例係有關一種用以基於一下混信號表示型態及與該下混信號表示型態相關聯之一參數側邊資訊來提供用於提供一上混信號表示型態之一或多個經調整參數的方法。
依據本發明之另一實施例係有關一種用以執行該方法之電腦程式。
依據本發明之若干實施例係有關一種用於MPEG SAOC的失真控制參數限制方案。
發明背景
於音訊處理、音訊傳輸及音訊儲存業界,逐漸需要處理多聲道內容來改良聽覺感受。多聲道音訊內容的使用給使用者帶來顯著改進。舉例言之,可獲得三度空間聽覺感受而為使用者帶來娛樂效果的滿足與改善。但多聲道音訊內容也可用於職業環境,例如用於電話會議應用,原因在於藉由使用多聲道音訊回放可改良發話者的可懂性(易於為人所瞭解)。
但也期望在音訊品質與位元率需求間獲得良好折衷,來避免因多聲道應用造成額外過度資源負荷。
晚近,已經提示用於含有多音訊物件的音訊場景(audio scene)進行位元率有效的傳輸及/或儲存之參數技術,例如雙耳線索編碼(類別I)(例如參考參考文獻[1])、聯合來源編碼(例如參考參考文獻[2])、及MPEG空間音訊物件編碼(例如參考參考文獻[3]、[4]、[5])。
若執行極端物件的呈現(rendering),則組合在接收端的使用者互動,此等技術可導致輸出信號之低音訊品質(例如參考參考文獻[6])。
此等技術係針對聽覺上重建期望的輸出音訊場景而非藉波形匹配。
第8圖顯示此種系統(此處:MPEG SAOC)之系統綜論。第8圖所示MPEG SAOC系統800包含一SAOC編碼器810及一SAOC解碼器820。SAOC編碼器810接收多數物件信號x1 至xN ,其例如可表示為時域信號或時頻域信號(例如呈傅利葉型變換之一變換係數集合形式,或呈QMF子頻帶信號形式)。SAOC編碼器810典型地也接收下混係數d1 至dN ,其係與物件信號x1 至xN 相關聯。下混係數之分開集合可供下混信號之各聲道利用。SAOC編碼器810典型地係組配來經由依據相關聯的下混係數d1 至dN 而組合物件信號x1 至xN 來獲得一下混信號聲道。典型地,下混聲道比物件信號x1 至xN 少。為了允許(至少近似)於SAOC解碼器820端的物件信號之分離(或分開處理),SAOC編碼器810提供該一或多個下混信號(標示為下混聲道)812及一側邊資訊814二者。側邊資訊814描述之物件信號x1 至xN 特性來允許解碼器端的物件專一性處理。
SAOC解碼器820係組配來接收該一或多個下混信號812及側邊資訊814。又,SAOC解碼器820典型地係組配來接收一使用者互動資訊及/或一使用者控制資訊822,其描述期望的呈現設定值。舉例言之,使用者互動資訊/使用者控制資訊822可描述一揚聲器設定值及提供物件信號x1 至xN 的該等物件之期望空間配置。
SAOC解碼器820係組配來提供例如多數已解碼上混聲道信號。上混聲道信號例如可與多揚聲器呈現配置之個別揚聲器相關聯。SAOC解碼器820可例如包含一物件分離器820a,其係組配來基於該一或多個下混信號812及側邊資訊814,重建(至少近似)物件信號x1 至xN ,藉此獲得已重建物件信號820b。但已重建物件信號820b可能略為偏離原先物件信號x1 至xN ,例如原因在於由於位元率限制,側邊資訊814並非相當足夠用於完好重建。SAOC解碼器820可進一步包含一混合器820c,其可經組配來接收已重建物件信號820b及使用者互動資訊/使用者控制資訊822,及基於此而提供上混聲道信號。混合器820c可經組配來使用該使用者互動資訊/使用者控制資訊822而判定個別已重建物件信號820b對上混聲道信號的貢獻。使用者互動資訊/使用者控制資訊822例如可包含呈現參數(也標示為呈現係數)其判定個別已重建物件信號822對上混聲道信號的貢獻。
但須注意於多個實施例中,物件的分離於第8圖以物件分離器820a指示,及混合於第8圖係以混合器820c指示係以單一步驟執行。為了達成此項目的,總參數可經運算,其描述該一或多個下混信號812對映至上混聲道信號的直接對映關係。此等參數可基於側邊資訊及使用者互動資訊/使用者控制資訊820運算。
現在參考第9a、9b及9c圖,將敘述用以基於一下混信號表示型態及物件相關側邊資訊來提供一上混信號表示型態之不同的裝置。須注意該物件相關側邊資訊為與該下混信號相關聯之側邊資訊之實例。第9a圖顯示一種包含SAOC解碼器920之MPEG SAOC系統900之方塊示意圖。SAOC解碼器920包含一物件解碼器922及一混合器/呈現器926作為分開功能方塊。物件解碼器922依據該下混信號表示型態(例如呈以時域或時頻域表示的一或多個下混信號形式)及該物件相關側邊資訊(例如呈物件元資料(meta data)形式)而提供多數已重建之物件信號924。混合器/呈現器926接收與多數N個物件相關聯之已重建之物件信號924,及基於此且係基於該呈現資訊而提供一或多個上混聲道信號928。於該SAOC解碼器920,物件信號924之擷取係與混合/呈現分開進行,其允許物件解碼功能與混合/呈現功能的分離,但帶來相當高的運算複雜度。
現在參考第9b圖,將簡短討論另一種MPEG SAOC系統930,其包含一SAOC解碼器950。SAOC解碼器950依據該下混信號表示型態(例如呈一或多個下混信號形式)及該物件相關側邊資訊(例如呈物件元資料(meta data)形式)而提供多數上混聲道信號958。SAOC解碼器950包含物件解碼器與混合器/呈現器的組合,其係組配來於聯合混合程序獲得上混聲道信號958,而未分開物件解碼與混合/呈現,其中用於該聯合上混處理之參數係取決於該物件相關側邊資訊及該呈現資訊。該聯合上混處理也係依據下混資訊,該下混資訊被視為該物件相關側邊資訊之一部分。
綜上所述,上混聲道信號928、958的提供可於一步驟式處理或二步驟式處理執行。
現在參考第9c圖,將敘述一種MPEG SAOC系統960。SAOC系統960包含SAOC至MPEG環繞轉碼器980,而非SAOC解碼器。
SAOC至MPEG環繞轉碼器包含一側邊資訊轉碼器982,其係組配來接收該物件相關側邊資訊(例如呈物件元資料形式)及選擇性地,接收一或多個下混信號之資訊及呈現資訊。該側邊資訊轉碼器也係組配來基於所接收的資料而提供MPEG環繞側邊資訊(例如呈MPEG環繞位元串流形式)。據此,側邊資訊轉碼器982係組配來考慮呈現資訊及選擇性地,考慮該一或多個下混信號內容之相關資訊,而將接收自該物件編碼器之一物件相關(參數)側邊資訊變換成一聲道相關(參數)側邊資訊。
選擇性地,SAOC至MPEG環繞轉碼器980可經組配來操控例如由下混信號表示型態所描述之該一或多個下混信號而獲得經操控之下混信號表示型態988。但可刪除下混信號操控器986,使得SAOC至MPEG環繞轉碼器980之輸出下混信號表示型態988係與SAOC至MPEG環繞轉碼器之輸入下混信號表示型態相同。若聲道相關的MPEG環繞側邊資訊984不允許基於SAOC至MPEG環繞轉碼器980的輸入下混信號型提供期望的聽覺印象(於某些呈現群(rendering constellations)可能為此種情況),則可使用下混信號操控器986。
據此,SAOC至MPEG環繞轉碼器980提供下混信號表示型態988及MPEG環繞位元串流984,使得使用接收MPEG環繞位元串流984及下混信號表示型態988的MPEG環繞解碼器,可產生多數上混聲道信號,其表示依據輸入該SAOC至MPEG環繞轉碼器980的呈現資訊之該等音訊物件。
綜上所述,可使用用以解碼SAOC編碼之音訊信號之不同構想。於某些情況下,使用SAOC解碼器,其依據該下混信號表示型態及物件相關參數側邊資訊而提供上混聲道信號(例如上混聲道信號928、958)。此種構想之實例可參考第9a及9b圖。另外,SAOC編碼之音訊資訊可經轉碼來獲得一下混信號表示型態(例如下混信號表示型態988)及一聲道相關側邊資訊(例如聲道相關MPEG環繞位元串流984),其可由MPEG環繞解碼器用來提供期望的上混聲道信號。
於MPEG SAOC系統800,系統綜論顯示於第8圖,一般處理係以頻率選擇方式進行,且於各頻帶內可描述如下:
● N個輸入音訊物件信號x1 至xN 經下混作為SAOC編碼器處理的一部分。用於單聲道下混,下混係數係標示以d1 至dN 。此外,SAOC編碼器810擷取描述該輸入音訊物件之側邊資訊814。用於MPEG SAOC,物件功率相對於彼此之關係乃此種側邊資訊之最基本形式。
● 下混信號(或多個信號)812及側邊資訊814係經傳輸及/或儲存。為了達成此項目的,下混音訊信號可使用眾所周知的聽覺音訊編碼器壓縮,諸如MPEG-1層II或III(也稱作為「.mp3」)、MPEG進階音訊編碼(AAC)、或其它音訊編碼器。
● 於接收端,SAOC解碼器820於構想上嘗試使用所傳輸的側邊資訊814(及當然,一或多個下混信號812)來重新儲存該原先物件信號(「物件分離」)。然後,此等近似的物件信號(也標示為重建的物件信號820b)使用一呈現矩陣而混合入藉M個音訊輸出聲道表示之目標場景(例如可藉上混聲道信號表示)。用於單聲道輸出,呈現矩陣係數係以r1 至rN 表示。
● 實際上,罕見執行(或甚至未曾執行)物件信號的分離,原因在於分離步驟(以物件分離器820a指示)及混合步驟(以混合器820c指示)二者係組合成單一轉碼步驟,其經常導致運算複雜度的劇減。
業已發現此種方案就傳輸位元率(只需傳輸數個下混聲道加若干側邊資訊,而無需傳輸N個分開物件音訊信號或分開系統)及運算複雜度(處理複雜度主要係有關輸出聲道之數目而非音訊物件數目)而言極其有效。對於接收端的使用者之額外優點包括選擇一呈現設定值的自由度(單聲、立體聲、環繞、虛擬耳機回放等)及使用者互動之特徵結構:呈現矩陣,如此,輸出場景可由使用者依據意願、個人偏好或其它標準而設定且互動改變。舉例言之,可以定位共同在一個空間區的談話者來最大化與其餘談話者間之區別。此種互動性可藉設置解碼器使用者介面而達成。
對各個所傳輸的聲音物件,可調整其相對位準及(用於非單聲道呈現)呈現之空間位置。當使用者改變相關聯之圖形使用者介面(GUI)滑動器位置時可即時發生(例如:物件位準=+5分貝,物件位置=-30度)。
但發現於某些情況下,用以提供上混信號表示型態(例如上混聲道信號)之參數的解碼器端選擇造成聽覺的降級。
有鑑於此種情況,本發明之目的係提供一種構想其允許當提供上混信號表示型態(例如上混聲道信號)時減少或甚至避免聽覺失真。
發明概要
此一問題可藉下述裝置獲得解決,該種用以基於一下混信號表示型態及與該下混信號表示型態相關聯之一參數側邊資訊來提供用於提供一上混信號表示型態之一或多個經調整參數的裝置。該裝置包含一參數調整器,其係組配來接收一或多個參數(於若干實施例可為輸入參數),及基於此而提供一或多個經調整參數。該參數調整器係組配來依據多個參數值(於若干實施例可為輸入參數值)之平均值而提供一或多個經調整參數,使得經由使用非最佳參數用以提供該上混信號表示型態所造成的該上混信號表示型態之失真,對偏離最佳參數之參數(或輸入參數)係至少減少大於一預定偏差。
依據本發明之此一實施例係植基於下述構想,多數輸入參數值的平均值組成有意義數量,其允許用於參數的調整,該等參數係用來基於一下混信號表示型態及與該下混信號表示型態相關聯之一參數側邊資訊而提供一上混信號表示型態,原因在於失真經常係因過度偏離此一平均值所造成。平均值的使用允許調整一或多個參數來避免如此過度偏離平均值(偶爾也標示為均值),結果帶來避免過度降級音訊品質的可能。
前文討論之實施例提供一種保護所呈現的SAOC場景之存在聲音品質之構想,對該所呈現的SAOC場景,全部處理皆可完全於SAOC解碼器/轉碼器內進行,原因在於SAOC解碼器/轉碼器包含用以調整參數所需的完整資訊。又,前述實施例並未涉及該呈現場景之聽覺音訊品質之複雜測量值的外顯計算,原因在於發現限制參數值與平均值間之偏差典型地導致良好聽覺印象,而參數值與平均值間之重大偏差典型地導致聽覺失真。如此,前文討論之實施例提供一種特別有效之機制,亦即平均值用來適當調整參數,該等參數被考慮用以提供上混信號表示型態。
於較佳實施例,該裝置之參數調整器係組配來依據屬於多數參數值之加權平均之一平均值而提供一或多個經調整之參數。使用加權平均提供高度自由度,原因在於可對不同參數值配置不同的權值。但配置相同的權值予該等參數值亦屬可能。
於較佳實施例,該裝置之參數調整器係組配來提供一或多個經調整之參數,使得該等提供一或多個經調整之參數偏離該平均值係小於對應的接收之參數。藉由將經調整之參數調整至接***均值,或甚至經由設定經調整之參數等於平均值,可達成顯著失真減少。
於較佳實施例,該裝置係組配來接收描述音訊物件對該上混信號表示型態之一或多個聲道之貢獻的一或多個呈現係數(也標示為呈現參數)。此種情況下,裝置較佳係組配來提供一或多個經調整之呈現係數作為經調整之參數。業已發現依據多數呈現參數之平均值(其作為輸入參數值)而調整呈現參數,帶來獲得良好適合的經調整之呈現參數的可能,避免過度聽覺失真。
於較佳實施例,參數調整器係組配來接收多數呈現係數作為輸入參數。此種情況下,參數調整器係組配來對多數音訊物件相關聯之呈現係數運算平均。又,參數調整器係組配來提供經調整之呈現係數,使得限縮一經調整之呈現係數與對多數音訊物件相關聯之呈現係數平均間之偏差。依據本發明之此一實施例係基於發現若一經調整之呈現係數與對多數音訊物件相關聯之呈現係數平均間之偏差經限縮,則至少對偏離最適呈現參數達大於一預定偏壓的呈現參數而言,經由使用非最適呈現參數所造成的上混信號表示型態失真典型地減少。如此,一個簡單機制亦即調整呈現係數使得該經調整之呈現係數與對多數音訊物件相關聯之呈現係數平均間之偏差經限縮,則允許避免過度聽覺失真。
於較佳實施例,參數調整器係組配來保持一呈現係數不變,該呈現係數係在依據對呈現係數的平均所測定之一容許區間以內;以及將大於該容許區間的上邊界值之一呈現係數選擇性地設定為小於或等於該上邊界值之一值;及將小於該容許區間的下邊界值之一呈現係數選擇性地設定為大於或等於該下邊界值之一值。據此,建立調整呈現係數的一種極為簡單的機制,其中此種簡單機制仍然允許獲得經調整之呈現係數,其避免因使用與平均值有強力差異的非最適呈現參數所造成的上混信號表示型態之過度失真。
於較佳實施例,該參數調整器係組配來迭代重複地選擇該等呈現係數中之一個別者,其包含於個別迭代重複中與該呈現係數平均值之最大偏離;及使得該等呈現係數中之該選定者更接近該呈現係數平均值。據此,落在依據該呈現係數平均值所測定的容許區間外側的呈現參數被迭代重複地調整至該容許區間內部。如此,呈現參數係依據平均值而調整,使得使用非最適呈現參數所造成的上混信號表示型態之失真典型地減低(至少對偏離最適呈現參數執大於預定偏離的輸入呈現參數而言係為如此)。
於較佳實施例,該參數調整器係組配來重複該等呈現係數中之一個別者之迭代重複選擇,及重複該等呈現係數中之該選定者之迭代重複修正,直至全部呈現係數皆係調整至落入適用的容許區間內部為止。如此,確保於該上混信號表示型態之聽覺失真維持夠小。
於較佳實施例,該裝置係組配來接收一或多個轉碼係數,其係描述該下混信號表示型態之一或多個聲道對映至該上混信號表示型態之一或多個聲道之對映關係。此種情況下,該裝置係組配來提供一或多個已調整之轉碼係數作為經調整之參數。依據本發明之此一實施例係基於發現轉碼參數為極為適合用於依據平均值之調整,原因在於轉碼係數大為偏離平均值,典型地造成聽覺失真。據此,藉由依據平均值調整或限制轉碼參數,可減少因使用非最適轉碼參數(至少對偏離最適轉碼參數達大於預定偏差的輸入轉碼參數)所引起的上混信號表示型態之失真。
於較佳實施例,該參數調整器係組配來接收轉碼係數(也標示為轉碼參數)之一時間序列作為輸入參數。此種情況下,該參數調整器係組配來依據多個轉碼係數算出一時間均值(也標示為時間平均)。又,該參數調整器係組配來提供該等經調整之轉碼係數,使得該等經調整之轉碼係數與該時間均值之偏差限縮。再度,提供一種用以避免經由使用非最適轉碼參數而造成上混信號表示型態之過度聽覺失真的簡單機轉。
於較佳實施例,該參數調整器係組配來允許落在依據該時間均值(其構成平均值)所測定的一容許區間內部之一轉碼係數維持不變。又,該參數調整器係組配來將大於該容許區間的上邊界值之一轉碼係數選擇性地設定為小於或等於該上邊界值之一值,及將小於該容許區間的下邊界值之一轉碼係數選擇性地設定為大於或等於該下邊界值之一值。據此,可將轉碼係數調整至明確界定的容許區間內,其允許減少因使用非最適轉碼參數所引起的上混信號表示型態之失真,至少對偏離最適轉碼參數達大於預定偏差的輸入轉碼參數尤為如此。當使用時間均值時,容許區間係以適應性方式選擇。此一構想係基於發現轉碼係數的強時間變化典型地帶來聽覺失真,因此須限於某種程度。
於較佳實施例,該參數調整器係組配來使用該轉碼係數序列之遞歸低通濾波而算出該時間均值。此種構想顯示獲致一極為明確界定的時間均值,其將轉碼係數的長期演化列入考慮。又,發現此種轉碼係數序列之遞歸低通濾波可使用低運算努力及記憶努力執行,其協助減少記憶體需求。特別,可獲得有意義的時間均值而未長時間儲存轉碼係數史。
於較佳實施例,該參數調整器係組配來提供一或多個經調整參數中之一給定者,使得該等經調整參數中之該給定者係落在容許區間內部,該容許區間之邊界係依據多個輸入參數值之平均值及一或多個容許參數界定,以及使得一輸入參數與一相對應經調整參數間之偏差為最小化或係維持在預定最大容許範圍以內。業已發現藉由限制經調整之參數於容許區間,同時考慮避免輸入參數與對應經調整之參數間有過大差異之目的,可獲得帶來良好聽覺印象的經調整之參數。據此,可減少經由使用非最適轉碼參數而造成上混信號表示型態之失真而不必損及由該等輸入參數所界定期望的聽覺設定值。
於較佳實施例,該參數調整器係組配來,其邊界係依據多個輸入參數值之平均值界定的該容許區間,將發現落在該容許區間外部之一輸入參數選擇性地設定至該容許區間之一上邊界值或一下邊界值來獲得該輸入參數之經調整版本。
於另一較佳實施例,該參數調整器係組配來迭代重複地選擇該等輸入參數中之一個別者,其包含於個別迭代重複中與該平均值之最大偏離;以及將該等輸入參數中之該選定者調整至更接近該平均值,來迭代重複地將判定為落在其邊界係依據平均值界定之一容許區間(其邊界係依據平均值而界定)外部的輸入參數調整至該容許區間內部。
於較佳實施例,該參數調整器係組配來選擇一階大小,該階係用來將該等輸入參數中較為接近該平均值之選定者調整至該等輸入參數中之該選定者與該平均值間之差的預定分量。
依據本發明之另一實施例提供一種用以基於一下混信號表示型態及一參數側邊資訊來提供一上混信號表示型態的裝置。該裝置包含如前文討論之用以基於一或多個所接收的參數而提供一或多個經調整參數之一裝置。該用以提供一上混信號表示型態的裝置也包含一信號處理器,其係組配來基於該下混信號表示型態及該參數側邊資訊而獲得該上混信號表示型態。該用以提供一或多個經調整參數之裝置係組配來提供例如輸入至該信號處理器之呈現參數的、或於該信號處理器運算的且藉該信號處理器施加的轉碼參數等該信號處理器之一或多個處理參數之經調整版本來獲得該上混信號表示型態。
此一實施例係基於發現大量參數,該等參數其係藉信號處理器施加,及輸入信號處理器或甚至於信號處理器計算,及其可基於該平均值而自前文討論的參數調整獲益。業已發現若一參數集合(例如與不同音訊物件相關聯之一呈現係數集合,或與時間上不同情況相關聯之一轉碼參數值集合)係良好平衡,使得此種數值集合之個別值並未包含與平均值的過度大量偏差,則信號處理器典型地提供良好品質的上混信號表示型態,小有失真。如此,經由採用用以提供一或多個經調整之參數的裝置組合用以提供上混信號表示型態之裝置,可實現本發明構想之效益。
於較佳實施例,該信號處理器係組配來依據經調整的呈現係數,其係描述音訊物件對該上混信號表示型態之一或多個聲道的貢獻而提供該上混信號表示型態。該用以提供一或多個經調整參數之裝置係組配來接收多個使用者指定的呈現參數作為輸入參數,及基於此而提供由該信號處理器(較佳至信號處理器)使用的一或多個經調整之呈現參數。業已發現使用該用以提供一或多個經調整參數之裝置所能獲得的良好平衡之呈現參數,典型地導致良好聽覺印象。
於另一實施例,該用以提供一或多個經調整參數之裝置係組配來接收一混合矩陣之一或多個混合矩陣元作為該一或多個輸入參數,及基於此而提供由該信號處理器使用的一或多個經調整之該混合矩陣之混合矩陣元。此種情況下,該信號處理器係組配來依據經調整之該混合矩陣之混合矩陣元而提供該上混信號表示型態,其中該混合矩陣係描述該下混信號表示型態(例如表示呈時域表示型態或時頻域表示型態形式)之一或多個音訊聲道信號對映至該上混信號表示型態之一或多個音訊聲道信號之對映關係。業已發現混合矩陣元應也良好適應於平均值,例如混合矩陣元之時間變化受限制。
依據本發明之另一實施例,該音訊處理器係組配來獲得MPEG環繞任意下混增益值。此種情況下,該用以提供一或多個經調整參數之裝置係組配來接收多個任意下混增益值作為輸入參數,及提供多個經調整之任意下混增益值。業已發現施加用以提供經調整之參數的裝置至任意下混增益值,也導致良好聽覺印象且允許限制聽覺失真。
依據本發明之其它實施例提供一種用以提供一或多個經調整之參數的方法及電腦程式。該方法係基於前文討論之裝置的相同發現且可藉此處就本發明裝置討論的結構特徵及功能中之任一者而擴展延伸。
圖式簡單說明
第1圖顯示依據本發明之實施例一種用以提供一或多個經調整之參數的裝置之方塊示意圖;第2圖顯示依據本發明之實施例一種用以提供上混信號表示型態的裝置之方塊示意圖;第3圖顯示依據本發明之另一實施例一種用以提供上混信號表示型態的裝置之方塊示意圖;第4圖顯示使用間接控制及直接控制之參數限制方案之方塊示意圖;第5a圖顯示表示收聽測試條件之一表;第5b圖顯示表示收聽測試之音訊項目之一表;第6圖顯示表示所測試的極端呈現條件之一表;第7圖顯示對不同參數限制方案(PLS),MUSHRA收聽測試結果之一線圖表示型態;第8圖顯示參考MPEG SAOC系統之方塊示意圖;第9a圖顯示使用分開的解碼器及混合器之一參考SAOC系統之方塊示意圖;第9b圖顯示使用整合型解碼器及混合器之一參考SAOC系統之方塊示意圖;第9c圖顯示使用SAOC至MPEG轉碼器之一參考SAOC系統之方塊示意圖;及第10圖顯示一表描述哪些轉碼係數可藉所提示之參數限制方案而修正。
較佳實施例之詳細說明 1.依據第1圖,用以提供一或多個經調整之參數之裝置
後文中,將敘述一種用以基於下混信號表示型態及與下混信號表示型態相關聯之參數側邊資訊來提供用於提供上混信號表示型態之一或多個經調整參數的裝置。第1圖顯示此種裝置100之方塊示意圖。
該裝置100係組配來接收一或多個輸入參數110,及基於此而提供一或多個經調整之參數120。裝置100包含一參數調整器130,其係組配來接收一或多個輸入參數110,及基於此而提供一或多個經調整之參數120。該參數調整器130其係組配來依據多數輸入參數值之平均值132而提供該一或多個經調整之參數120,使得至少對偏離最佳參數達大於預定偏差的輸入參數(例如輸入參數110),經由使用非最佳參數(例如一或多個輸入參數110)所造成的上混信號表示型態之失真減少。舉例言之,參數調整器130可具有比較該一或多個輸入參數110,該一或多個經調整之參數120係「更接近」(表示造成較少失真)最佳參數(其將導致無失真上混信號表示型態)的效果。
為了達成此項目的,參數調整器130實施平均值運算來獲得一相關輸入參數110(例如與一共用時間區間相關聯之輸入參數,或與不同時間相關聯之相同參數類型之輸入參數)集合之平均值132(例如呈時間平均或物件間平均)。有關裝置100之操作,須注意基於一或多個輸入參數110提供一或多個經調整之參數120係依據平均值132達成,原因在於發現平均值132為用以調整參數之有意義數量。更明確言之,發現(相對於平均值)中等參數典型地導致中等失真。
進一步細節容後詳述。
2.依據第2圖,用以提供一種上混信號表示型態的裝置
後文中,將敘述依據第2圖之用以提供一種上混信號表示型態的裝置。第2圖顯示可視為音訊信號解碼器之此種裝置200之方塊示意圖。舉例言之,裝置200可包含SAOC解碼器或SAOC轉碼器之功能。
裝置200係組配來接收一下混信號表示型態210及一參數側邊資訊212。又,裝置200係組配來接收使用者指定呈現參數214。裝置係組配來提供一上混信號表示型態220。
下混信號表示型態210例如可為一聲道音訊信號或二聲道音訊信號之表示型態。下混信號表示型態210例如可為時域表示型態或編碼表示型態。於若干實施例中,下混信號表示型態210可為時頻域表示型態,其中該下混信號表示型態210之一或多個聲道係藉隨後平均值集合表示。
上混信號表示型態220例如可為呈時域表示型態或時頻域表示型態形式之個別音訊聲道的表示型態。另外,上混信號表示型態220可為編碼表示型態,包含一下混信號表示型態及一聲道相關側邊資訊二者,例如MPEG環繞側邊資訊。
使用者指定呈現參數214可呈呈現矩陣分錄形式提供,該呈現矩陣分錄描述多數音訊物件對該上混信號表示型態220之一或多個聲道的期望貢獻。另外,使用者指定呈現參數214可呈任何其它適當形式提供,例如載明音訊物件之期望的呈現位置及呈現體積。
裝置200包含一信號處理器230,其係組配來基於下混信號表示型態210及參數側邊資訊212而提供上混信號表示型態220。該信號處理器230包含一重新混合功能232,來基於該下混信號表示型態210而提供上混信號表示型態220。舉例言之,重新混合功能232可經組配來線性組合下混信號表示型態212之多數聲道而獲得一上混信號表示型態220之聲道。於此重新混合中,下混信號表示型態210之聲道對上混信號表示型態220之聲道的貢獻可經由混合一混合矩陣G 之矩陣元測定,其中混合矩陣G 之第一維(例如列數)可藉上混信號表示型態220之聲道數目測定,及其中混合矩陣G 之第二維(例如行數)可藉下混信號表示型態210之聲道數目測定。
舉例言之,重新混合處理232可用來經以將包含下混信號表示型態210之一或多個聲道之頻譜值的一或多個向量乘以混合矩陣G ,可提供包含與上混信號表示型態220之一或多個聲道相關聯之頻譜值的一或多個向量。
信號處理器230也包含一混合參數運算236,其提供混合矩陣G (或相當地,其矩陣元)。混合矩陣元係藉混合參數運算230依據參數側邊資訊212及已修正的呈現參數252測定。混合矩陣G 的混合矩陣元例如係經提供使得上混信號表示型態220之一或多個聲道描述音訊物件,依據已修正的呈現參數252係藉下混信號表示型態210之一或多個聲道表示。為了達成此項目的,參數側邊資訊212係藉混合參數運算236評估,其中該參數側邊資訊212例如包含,一物件位準差資訊OLD、一物件間相關性資訊IOC、一下混增益資訊DMG、及(選擇性地)一下混聲道位準差資訊DCLD。該物件位準差資訊例如可以逐頻帶方式,描述多數音訊物件間之位準差。同理,該物件間相關性資訊例如可以逐頻帶方式,描述多數音訊物件間之相關性。該下混增益資訊及該(選擇性地)下混聲道位準差資訊可描述該下混,該下混係執行來將來自多數音訊物件的音訊物件信號組合成該下混信號表示型態之一或多個聲道,其中典型地具有比下混信號表示型態210之聲道更多個音訊物件。
據此,混合參數運算236可評估基於參數側邊資訊212及已修正的呈現參數252,如何選擇混合矩陣元來獲得包含預期的統計性質之一上混信號表示型態220。
信號處理器230可選擇性地包含側邊資訊修正或側邊資訊變換240,其係組配來接收參數側邊資訊212,及提供已修正之側邊資訊(例如MPEG環繞側邊資訊),使得已修正之側邊資訊及藉重新混合處理232所提供之相關聯之重新混合下混信號表示型態描述一期望的音訊場景。
要言之,信號處理器230例如可滿足SAOC解碼器820之功能,其中該下混信號表示型態210扮演該一或多個下混信號812之角色,其中該參數側邊資訊212扮演側邊資訊814之角色,及其中該上混信號表示型態220係相當於輸出聲道信號
另外,信號處理器230可包含分開解碼器及混合器920之功能,其中該下混信號表示型態210可扮演一或多個下混信號之角色,其中該參數側邊資訊212可扮演物件元資料之角色,及其中該上混信號表示型態220可扮演一或多個輸出聲道信號928之角色。
另外,信號處理器230可包含整合式解碼器及混合器950之功能,其中該下混信號表示型態210可扮演一或多個下混信號之角色,其中該參數側邊資訊212可扮演物件元資料之角色,及其中該上混信號表示型態220可扮演一或多個輸出聲道信號958之角色。
另外,信號處理器230可包含MPEG環繞轉碼器980之功能,其中該下混信號表示型態210可扮演一或多個下混信號之角色,其中該參數側邊資訊212可扮演物件元資料之角色,及其中該上混信號表示型態當與MPEG環繞側邊資訊984組合時可相當於該一或多個下混信號988。
總而言之,已修正呈現參數252可扮演使用者互動/控制資訊822或呈現資訊之角色。
裝置200也包含用以提供經調整之呈現參數之裝置250。用以提供經調整之呈現參數之裝置250接收使用者指定的呈現參數214,及基於此而提供已修正呈現參數252。裝置250典型地係組配來計算與不同音訊物件相關聯之多數使用者指定的呈現參數之平均值而獲得平均值。又,裝置250係組配來依據該平均值執行呈現參數限制,來經由限制該使用者指定的呈現參數214而獲得已修正呈現參數252。已修正呈現參數252所受限的容許區間典型地係依據該平均值測定,因而避免已修正呈現參數252與平均值間有強烈偏差,即使使用者指定的呈現參數214中之一者或多者包含此種與平均值的強烈偏差亦如此。藉此方式,典型地避免上混信號表示型態220內部之過度失真,原因在於包含有限的物件間偏差之已修正呈現參數252將導致具有低失真的上混信號表示型態,同時與不同音訊物件相關聯之呈現參數間之重大差異典型地將導致聽覺假影(audible artifacts)。
此處須注意用以提供經調整之呈現參數之裝置250可包含與用以提供一或多個經調整參數之裝置100相同的總體功能,其中該使用者指定的呈現參數214可扮演一或多個輸入參數110之角色,及其中該已修正呈現參數252可扮演一或多個經調整參數120之角色。
有關提供已修正呈現參數252之細節將參考第4圖討論如下。
3.依據第3圖,用以提供上混信號表示型態之裝置
後文中,依據本發明之另一實施例之用以提供上混信號表示型態之裝置將參考第3圖作說明,該圖顯示此種裝置300之方塊示意圖。
裝置300典型地接收與裝置200同類型輸入信號,及提供相同類型輸出信號,因此相同元件符號用於此處來描述相同的或相當的信號。要言之,裝置300接收一下混信號表示型態210、參數側邊資訊212及使用者指定的呈現參數214;及裝置300基於此而提供一上混信號表示型態220。
裝置300包含一信號處理器330,其功能可實質上相當於信號處理器230。信號處理器330包含一重新混合功能332,其係與信號處理器230的重新混合功能232相同,在於其係基於下混信號表示型態提供重新混合的音訊聲道信號。但重新混合332使用經調整之混合矩陣,而非直接得自混合參數運算之一混合矩陣。
信號處理器330也包含一混合參數運算336,其功能上可與信號處理器230之混合參數運算236之功能相同。據此,混合參數運算336接收參數側邊資訊212及使用者指定的呈現參數214,及基於此而提供一混合矩陣G (或相當地,混合矩陣G 之混合矩陣元,也標示以337)。
信號處理器330選擇性地也包含一側邊資訊修正338,其功能係與側邊資訊修正240相同。
此外,裝置300包含用以提供經調整之混合矩陣元之裝置350。裝置350可為或可非為信號處理器330之一部分。裝置350係組配來接收由混合參數運算336所提供的混合矩陣337,G (或相當地,其混合矩陣元),及基於此而提供經調整之混合矩陣352G’ (或相當地,其經調整之混合矩陣元)。舉例言之,每一頻帶及每個音訊框可提供一個混合矩陣元集合及一個經調整之混合矩陣元集合。換言之,若選用逐框處理,則對下混信號表示型態210的每個音訊框,混合矩陣G 及經調整之混合矩陣G’ 可更新一次。又並非必要並不同頻帶有多個混合矩陣G 及經調整之混合矩陣G’
但裝置350係組配來基於由混合參數運算336所提供的混合矩陣337之混合矩陣元而提供經調整之混合矩陣352之經調整之混合矩陣元。舉例言之,處理可以對混合矩陣(或經調整之混合矩陣)的每個位置個別進行,使得一給定混合矩陣位置之經調整之混合矩陣元序列可取決於位在相同混合矩陣位置的混合矩陣337之混合矩陣元序列,但與位在不同混合矩陣位置的混合矩陣元不相干。
用以提供經調整之混合矩陣元之裝置350係組配來依據基於混合矩陣337而運算的一或多個平均值(例如一或多個矩陣位置個別平均值)而提供該經調整之混合矩陣352之一或多個經調整之混合矩陣元。用以提供經調整之混合矩陣352之經調整之混合矩陣元之裝置350較佳係組配來計算在一給定混合矩陣位置隨時間之經過,混合矩陣元之平均值。如此,對一給定混合矩陣位置,平均值(較佳地,但非必要地,時間平均值,例如浮動平均或準無限脈衝響應平均值,或經由眾所周知用於時間平均的遞歸低通濾波或類似數算運算所得之平均值)可基於該給定混合矩陣位置之混合矩陣元序列運算。舉例言之,描述下混信號表示型態210之一給定聲道對上混信號表示型態220之一給定聲道的貢獻之混合矩陣元序列(該等混合矩陣元係與多數音訊框相關聯)可用來獲得此種平均值(也標示為均值),該平均值可為有限脈衝響應平均值或(準)無限脈衝響應平均值(例如使用眾所周知用於時間平均的遞歸低通濾波或類似數算運算所得)。該給定混合矩陣位置之一目前經調整之混合矩陣元(描述下混信號表示型態210之一給定聲道對上混信號表示型態220之一給定聲道的貢獻)可被裝置350限制一容許區間,該容許區間係依據與該給定混合矩陣位置相關聯之平均值界定。
據此,避免混合矩陣元之過度時間起伏波動,原因在於經調整之混合矩陣元係受限於例如藉在相同混合矩陣位置的先前混合矩陣元之平均(有限脈衝響應平均或(準)無限脈衝響應平均)所測定的容許區間。業已發現此種該經調整之混合矩陣352之經調整之混合矩陣元的限制典型地獲致藉使用非最佳參數(例如非最佳使用者指定的呈現參數)所導致上混信號220之失真限制,至少若該非最佳使用者指定的呈現參數係偏離最佳使用者指定的呈現參數達多於一個預定偏離時為如此。
此處須注意用以提供經調整之混合矩陣元之裝置350可包含與用以提供一或多個經調整之參數之裝置100相同的整個功能,其中該混合矩陣337之混合矩陣元呈扮演一或多個輸入參數110之角色,及其中該經調整之混合矩陣352之經調整之混合矩陣元可扮演一或多個經調整之參數120之角色。
4.依據第4圖之參數限制方案
後文中,依據本發明之參數限制方案將參考第4圖作說明,該圖顯示此種參數限制方案之示意表示型態。
第4圖顯示參數限制方案組合SAOC解碼器410之應用。但參數限制方案可組合不同類型音訊解碼器或音訊轉碼器,例如SAOC轉碼器施用。
SAOC解碼器410接收下混420及SAOC位元串流422。又,SAOC解碼器提供一或多個輸出聲道430a至430M。
於第一實施例,標示為(a),參數限制方案實施間接控制。參數限制方案440接收一輸入呈現矩陣R,例如使用者指定的呈現矩陣,及基於此而提供一經調整之呈現矩陣予SAOC解碼器。此種情況下,SAOC解碼器如前述使用經調整之呈現矩陣用於混合矩陣G 的導算。參數限制方案440也接收參數Λ R - 、Λ R + ,其可決定容許區間邊界。
另外或此外,可施加第二參數限制方案450。第二參數限制方案接收轉碼參數T,及基於此而提供經調整之轉碼參數。轉碼參數T可於SAOC解碼器410運算,而經調整之轉碼參數可藉SAOC解碼器410施用。舉例言之,轉碼參數T可相當於如前文討論之混合矩陣G 之混合矩陣元,而經調整之轉碼參數可相當於經調整之混合矩陣G’ 之經調整之混合矩陣元。
參數限制方案450也接收一或多個參數Λ T - 、Λ T + ,其可決定容許區間邊界。
4.1.綜論
後文中,將綜論用於失真控制之參數限制方案。
一般性SAOC處理係以時/頻選擇方式進行,容後詳述。
SAOC編碼器擷取若干輸入音訊物件信號之心理聲學特性(例如物件功率關係及相關性),及然後,下混之成為一單聲道或立體聲道組合(例如可標示為下混信號表示型態)。此種下混信號及所擷取的側邊資訊係使用眾所周知之聽覺音訊編碼器,以壓縮格式傳輸(或儲存)。在接收端,SAOC解碼器於構想上嘗試使用所傳輸的側邊資訊(例如物件位準差資訊OLD、物件間相關性資訊IOC下混增益資訊DMG、及下混聲道位準差資訊DCLD)來回復原先物件信號(亦即分開的下混物件)。此等近似物件信號然後使用呈現矩陣(其中該呈現矩陣典型地述不同音訊物件對上混信號表示型態之不同聲道的貢獻)混合入一目標場景。呈現矩陣係由對各個所傳輸之音訊物件及上混設定揚聲器載明的相對呈現係數RC(或物件增益)組成。此等物件增益判定全部分開的/呈現的物件之空間位置。實際上,罕見執行(或甚至未曾執行)物件信號的分離,原因在於分離及混合二者係組合成單一組合處理步驟,其經常導致運算複雜度的劇減。單一組合處理步驟例如可使用轉碼係數執行,其描述分開物件的物件分離與混合的組合。
業已發現就傳輸位元率(只要求傳輸一或二下混聲道加若干側邊資訊而非個別物件音訊信號數目)及運算複雜度(處理複雜度主要係有關輸出聲道數目而非音訊物件數目)兩方面而言,此一方案極為有效。
SAOC解碼器(於參數位準)將物件增益及其它側邊資訊直接變換成轉碼係數(TC),其係施加至該下混信號來形成已呈現之輸出音訊場景之對應信號(或進一步解碼操作之前處理下混信號,亦即典型地多聲道MPEG環繞呈現)。
業已發現經由施加失真控制措施或DCM可改良所呈現之輸出音訊場景之主觀聽覺音訊品質,如非預公開的US 61/173,456所述。此項改良可藉接受目標呈現場景之溫和動態修正而達成。呈現資訊的修正具有時間及頻率變異本質,在特定情況下可能導致不自然的音色及時間波動假影。
參考文獻[6]所述失真控制措施(DCM)的替代之道中,依據本發明之實施例使用多項參數限制方案,其係聚焦在音訊假影(音色、時間波動等)的減少及同時保有天然聲音品質。
此處所提示的參數限制方案構想並未使用心理聲學演繹法則,基於心理聲學模型調整基於計算得之失真測量值的呈現係數(RC)。反而所提示的參數限制方案構想顯示低度運算及結構複雜度,因此具有整合入SAOC技術之吸引力。雖言如此,其也可優異地組合參考文獻[6]所述方案來藉彼此互補而達成更佳的總體輸出品質。
在總SAOC系統中,參數限制方案可以兩種方式整合入SAOC解碼器處理連鎖。舉例言之,參數限制方案可放在前端藉由控制呈現係數(RC)R 而用於SAOC輸出信號的間接(外部)修正,於第4圖顯示為替代之道(a)。另外,在特性轉碼係數(TC)T 施加至下混信號前,係數T 係直接(內部)於SAOC解碼器後端修正,於第4圖顯示為替代之道(b)。
4.2.間接控制
後文中,將討論間接控制構想之進一步細節。
間接控制方法的基本假說考慮失真位準與RC偏離其物件平均值之偏差間之關係。此點係基於觀察到相較於其它物件,藉RC施加更特定衰減/增強至一個特定物件,藉SAOC解碼器/轉碼器執行所傳輸之下混信號之更積極修正。換言之:「物件增益」值相對於彼此的偏差愈高,則發生無法接受的失真機率愈高(假設相同下混係數)。發現可藉由檢驗RC與跨全部物件之RC平均值(例如平均呈現值)的偏差測試。
未喪失通則性,後文敘述係基於考慮對全部物件具有統一下混增益之單聲道下混之組態。對非凡的下混情況(帶有不同的及/或動態的物件增益),演繹法則可經適當修正。此外,RC假設為頻率不變來簡化記法(notation)。
基於帶有物件指標i 之係數R(i) 表示之使用者指定的呈現狀況,PLS藉由產生實際上由SAOC呈現引擎所使用的修正RC值(i )而避免極端呈現值。其可呈如下函數導算
此處為PLS控制參數(亦即臨界值)。PLS控制參數可視為容許參數。
呈現係數R(i) 與平均呈現值(例如算術平均)之偏差R d (i) 可獲得為
此處
據此,R d (i) 為呈現係數R(i) 與平均呈現值間之比。平均呈現值為對具有音訊物件指標i 之音訊物件求取平均所得呈現係數R(i) 之平均值。
有限偏差(i )係限於某個容許Λ範圍為
(i )=Λ對R d (i )>Λ,
注意如此對應於相對於參考值例如進行的RC限制運算,其係自輸入RC動態運算而非特定預定值。
對所述PLS辦法,最佳解可以最小限問題公式化,對此給定RCR(i) 與經修正(經限制的)(i )值間之差為最小化
後文中,將敘述用來提供經調整之呈現係數(i )之若干演繹法則解,其中該經調整之呈現係數(i )可視為經調整之參數。
以下二演繹法則解係基於位在容許範圍以外之該等呈現值之偏差,亦即
R d , out (i )=R d (i )對R d (i )>Λ,或
4.2.1.一步驟式解
可採用簡單而快速的一步驟式解來藉下述限制容許範圍以外的全部呈現值
(i )=ΛR d (i )>Λ,
相反地,在容許範圍以內的呈現值可維持不受影響,使得對此等呈現值(i ),
4.2.2.迭代重複解
另一項可採用的直捷方法其中該等具有相關聯之偏差之超出範圍的呈現值R d , out (i) 逐漸受限制。此項演繹法則之迭代重複中,最大呈現偏差R d , max 定義為
R d , max =max{R d , out (i )}對R d >Λ,
R d , max =min{R d , out (i )}對
對應的呈現係數限縮使得
此項處理可執行直至全部值皆在容許區以內或具有預定迭代重複次數。
據此,於各次迭代重複,選定一呈現係數R(i max ) ,其導數R d , out ( i max ) (例如得自平均值)具有最大值R d , max 。換言之,選定呈現係數R(i max ) ,其包含於個別迭代重複得自呈現係數平均的一最大導數(導數值R d , out 表示)。此外,使用前述R(i)之線性組合,該選定的呈現係數R(i max ) 調整至更接近呈現係數之平均。於迭代重複程序之各步驟,可進行自平均值具有最大導數的呈現係數之新穎選擇,使得於迭代重複演繹法則的不同步驟可修正不同呈現係數。換言之,i max 典型地於每次迭代重複時更新。又,平均值可選擇性地對迭代重複演繹法則的每個步驟,考慮前一個已修正之呈現係數重新運算。
4.3.直接控制
直接控制方法的潛在假說考慮失真位準與TC偏離其時間均值的偏差間之關係。此點係基於觀察到比較其它物件,更特定的衰減/增強施加至一特定物件,藉SAOC解碼器/轉碼器執行藉TC對所傳輸的下混信號的更積極修正。換言之:若TC值異常地大,則獲得結論SAOC演繹法則試圖藉由施加強力增強而將具有小功率的一物件信號修正成由其它具大功率的物件信號主控的一輸出信號。相反地,若TC值異常地小,則獲得結論SAOC演繹法則試圖藉由施加強力衰減而將具有大功率的一物件信號修正成由其它具小功率的物件信號主控的一輸出信號。兩種情況下,在SAOC的輸出端有產生無法接受地低信號品質的高風險。如此,中心思想係防止TC大為偏離平均值。
此種PLS可視為時間及頻率變異,原因在於其包含與SAOC信號參數(例如OLD、IOC)及轉碼/解碼處理的試探性元素的全部相依性。
並未喪失一般性,後文說係基於考慮單聲道上混的組態。
基於SAOC輸出信號TCT(k) 具有頻率指標k ,PLS藉由以修正的TC值置換TC極值(例如在容許區間以外的轉碼係數),及然後藉實際SAOC呈現方法使用之來防止TC的極值。已修正TC值(k )可以如下函數導算
此處Λ為PLS控制參數(亦即臨界值)。PLS控制參數可視為容許參數。
因TC為時間變異,故應用遞歸低通濾波器來計算均值
均值被視為平均值,其中個別轉碼值之加權係藉施加遞歸低通濾波而導入。
此處,n表示TC之時間指標,而μ(0,1]為平均參數。已修正TC值(k )之容許範圍定義為
注意如此係與TC限制運算相對應,其係相對於參考值進行運算,其係自TC而非特定預定值藉動態運算。
對所述PLS辦法,最佳解可調配為最小限解,對該最小限解,給定TCT(k) 與已修正(已限制)TC(k )值間之差為最小化
後文中,將敘述此一問題之可能的解演繹法則。
4.3.1.解演繹法則
已修正TC值(k )可獲得為
(k )=Λ(k )對T (k )>Λ,
4.3.2.轉碼係數實例
前文討論之用於轉碼係數之參數限制方案可應用至不同轉碼係數,其例如係用於前文討論的SAOC解碼器及SAOC轉碼器。
舉例言之,用於轉碼係數之參數限制方案可應用至混合矩陣G 的限制參數,其係用於裝置300之信號處理器330。此種情況下,在混合矩陣G 之一給定矩陣位置的混合矩陣元可取代轉碼係數T(k) ,其中k為頻率指標。混合矩陣G ’的對應混合矩陣元可與經調整之轉碼係數(k )相對應。轉碼參數限制方案例如可個別施加至混合矩陣的不同矩陣位置。舉例言之,若混合矩陣G 包含混合矩陣元g11 、g12 、g21 及g22 ,及經調整之混合矩陣G’ 包含混合矩陣元g11 ’、g12 ’、g21 ’及g22 ’,經調整的混合矩陣元g11 ’(n0 )可自一序列g11 (1)至g11 (n0 )導算出。相當導算可用於經調整之混合矩陣G’ 之其它混合矩陣元g12 ’、g21 ’及g22 ’。
第10圖之表提供對全部SAOC運算模式,藉所提示的參數限制方案可修正,例如可限制的一轉碼係數表單。第10圖之表顯示不同SAOC模式於第一欄1010。第10圖之表進一步顯示可藉所提示之參數限制方案修正(例如限制)的參數於第二欄1020。第三欄1030顯示參考文獻[8]之MPEG SAOC FCD文件之相對應子類別的參考文獻。要言之,第10圖之表顯示使用參考文獻[8]之MPEG SAOC FCD文件之相對應子類別的參考文獻,對全部SAOC運算模式,藉所提示的參數限制方案可修正(例如可限制)的一轉碼係數表單。
4.4.參數限制方案用於限制相對導算之通式
存在有前文討論之PLS之一通式。此式可以如下最小化問題形式對通用參數變數表示為
此處,初步給定X i 值,「參考」值可估算為已修正之變數之函數為=F ()。
前文中,參數變數X i 例如可與R(i)T(i) 相同。同理,經調整之參數變數可與經調整之呈現係數(i )或經調整之轉碼係數(i )相同。變數Xi例如可相於混合矩陣元gmn (i)及gmn ’(i)。
後文將討論兩種解演繹法則。
大致上,用以對此種最小限問題獲得正確解的分析辦法係需要運算。但雖言如此,仍有簡單快速的替代之道可提供次最佳結果,而仍然之用於PLS目的。其中兩種簡單辦法說明於此處。
4.4.1.一步驟式解
一步驟式解係基於假設限制全部在容許範圍以外的全部數值係在其外側,
X i >Λ,
容許範圍以內之數值(可視為容許區間)例如可維持不變。
4.4.2.重複迭代解
於各步驟,重複迭代解修正一個所選超出範圍之值
具λ(0,1).
例如,處理指標i 可使用下列條件選擇:
重複迭代次數可設定為某一值或自該演繹法則內隱地導算出。
須注意全部此等方法皆可應用於如前述限制RC及TC。
4.5.通用線性公式
對前文討論之PLS存在有通用線性公式。前一章節中,通用參數X i 之偏差描述為比。相反地,也可定義為∥X i - ∥,結果導致對通用參數變數如下之最小化問題
此處,初步給定X i 值,及「參考」值可估算為已修正之變數之函數為=F ()。
後文中,將描述此一問題的兩個解演繹法則。
一般而言,獲得此種最小化問題的正確解之分析辦法通常具有運算需求。雖言如此,仍有簡單且快速的替代之道來提供非最佳解而仍然適用於PLS目的。其中兩種簡單辦法描述於此處:
4.5.1.一步驟式解
一步驟式解係基於假設: F (X i )限制在容許範圍以外的全部值皆係落入其內定義為
4.5.2.重複迭代解
於各步驟,若係在容許範圍以外,則重複迭代解修正一個所選之值
舉例言之,處理指數i 可使用如下條件選定:及修正階大小值為S =λ∥,具有λ(0,1)。迭代重複次數可設定為某個值或暗示地自該演繹法則導算出。
此一演繹法則提供使用容許範圍之彈性方式,亦即其動態地改變(取決於)。
須注意全部此等方法皆可應用於如前述限制RC及TC。
另外,可使用如下演繹法則:
此一演繹法則版本使用固定(靜態)容許範圍Λ X - X +
4.6.額外備註
須注意全部此等方法皆可應用於限制呈現係數及轉碼係數,說明如前。
5.參數限制方案應用至多聲道下混/上混情況
考慮下混/上混聲道之任一種組合,單聲道下混/單聲道上混情況之單一TC PLS(例如直接控制)擴充至TC矩陣。結果,直接控制可個別地應用至各個TC。多聲道上混情況用於RC PLS(例如間接控制)例如可於單多重單聲道辦法實現,此處全部個別呈現係數皆係獨立處理。
6.收聽測試結果 6.1.測試設計及項目
業已進行主觀收聽測試來評估所提示之失真控制測量(DCM)構想之聽覺效能,且與常規SAOC參考模型(SAO CRM)解碼處理比較。
測試設計包括所提示之參數限制方案及其組合之直接及間接控制辦法。常規(未藉參數限制方案PLS處理的)SAOC解碼器之輸出信號係含括於該測試來驗證SAOC之基準線效能。此外,與下混信號相對應之微不足道的呈現情況係用於收聽測試作為比較目的。
第5a圖之表描述收聽測試條件。
已經自提案(CfP)收聽測試材料中選出四項代表極端呈現狀況的典型及最關鍵性假影類型用於目前收聽測試。
第5b圖之表描述收聽測試之音訊項目。
依據第6圖之表的呈現物件增益已經應用於所考慮的上混情況。
因所提示之PLS係使用常規SAOC位元串流及下混信號運算(無需SAOC編碼器端的任何PLS相關活性)且未轉接殘餘資訊,故無核心編碼器應用至相對應SAOC下混信號。
對全部測試項目及所考慮之呈現條件,PLS之通用設定值取作為
Λ{ R -, R +}{ T -, T +} =6.
6.2.測試方法
本收聽測試係於設計來允許高品質收聽的隔音收聽室內進行。使用耳機(STAX SR λ專業附有湖人(Lake-People)D/A-變換器及STAX SRM監視器)進行回放。
測試方法係遵照空間音訊驗證測試所用程序,基於「隱藏參考及基準的多重刺激」(MUSHRA)法用於中間品質音訊之主觀評估[7]。測試方法據此修正來評估所提示之DCM構想的聽覺效能。依據所採用之測試方法,指示收聽者依據下列收聽測試指示而比較全部測試條件:
對各項音訊請您:
● 首先研讀期望的混音說明,您作個系統使用者,您想要達成:
項目「BlackCoffee」:混音中有輕柔喇叭小節
項目「Fanta4」:混音中有強鼓聲
項目「LovePop」:混音中有輕柔弦樂小節
項目「試唱」:輕音樂及強嗓音
● 然使用一個共通等級描述二者來分級信號
-達成期望的混音目標
-全場景音質(考慮失真、假影、不自然...)
共有九位收聽者參考各項測試。全部個體皆視為經驗老練的收聽者。
測試條件係對各個測試項目及各個收聽者自動隨機分配。以自0至100範圍之分數藉基於電腦之MUSHRA程式記錄主觀反應。允許接受測試各項目間的瞬間切換。
6.3.收聽測試結果
以圖解驗證所得收聽測試結果之簡短綜論可參考附錄。此等作圖顯示對全部收聽者對每個項目之平均MUSHRA分級及對全部評估項目之統計均值連同相關95%信賴區間。
基於所進行收聽測試結果可做出下列觀察:對全部所進行收聽測試結果,所得MUSHRA分數證實就總統計均值而言,所提示之PLS功能提供比較常規SAOC RM系統更佳的效能。須注意藉常規SAOC解碼器(對所考慮的極端呈現條件,顯示強音訊假影)所產生的全部項目品質分級,比較絲毫也未滿足期望的呈現情況之下混相同呈現設定值的品質僅略高。因此,可獲得結論:所提示之PLS結果導致對全部所考慮的收聽測試情況,主觀信號品質皆有顯著改良。也可獲得結論:最具展望之限制系統係由RC及TC PLS之組合所組成。
有關收聽測試結果之細節可參考第7圖之圖解表示型態。
7.替代實施例
雖然於裝置上下文已經說明若干構面,但顯然此等構面也表示相對應方法之描述,此處一方塊或一裝置係與一方法步驟或一方法步驟之一特徵相對應。同理,於一方法步驟上下文所描述之構面也表示相對應方塊或項目或相對應裝置之特徵的描述。部分或全部方法步驟可藉(或使用)硬體裝置,例如微處理器、可程式電腦或電子電路執行。若干實施例中,最重要方法步驟中之某一者或多者可藉此種裝置執行。
本發明之編碼音訊信號可儲存於數位儲存媒體或可透過傳輸媒體諸如無線傳輸媒體或有線傳輸媒體諸如網際網路傳輸。
依據某些實施要求,本發明之實施例可於硬體或於軟體實施。實施之執行可使用有可電子式讀取的控制信號儲存其上的數位儲存媒體例如軟碟、DVD、藍光碟、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體,該等媒體與可程式規劃電腦系統協力合作(或可協力合作)因而執行個別方法。因此,數位儲存媒體可為電腦可讀取式。
依據本發明之若干實施例包含具有可電子式讀取的控制信號於其上的資料載體,其與可程式規劃電腦系統可協力合作因而執行此處所述方法中之一者。
一般而言,本發明之實施例可實施為帶有程式碼的電腦程式產品,該程式碼可操作當該電腦程式產品於電腦上跑時用於執行該等方法中之一者。程式碼例如可儲存於機器可讀取載體上。
其它實施例包含用以執行此處所述方法中之一者之儲存在機器可讀取載體上的電腦程式。
換言之,因而本發明方法之實施例為一種具有程式碼之電腦程式,當該電腦程式產品於電腦上跑時用以執行此處所述方法中之一者。
因而本發明方法之又一實施例為一種資料載體(或數位儲存媒體,或電腦可讀取媒體)包含用以執行該等方法中之一者的電腦程式記錄於其上。該資料載體或數位儲存媒體或記錄媒體典型地為有實體及/或非暫態。
因此,本發明方法之又一實施例為一種資料串流或一序列信號表示用以執行此處所述方法中之一者之電腦程式。該資料串流或該序列信號例如可組配來透過資料通訊連結,例如透過網際網路傳輸。
又一實施例包含一種處理裝置,例如電腦或可程式邏輯裝置其係組配來或調整適應用於執行此處所述方法中之一者。
又一實施例包含一種電腦,其上安裝用以執行此處所述方法中之一者之電腦程式。
依據本發明之又一實施例包括一種裝置或一種系統,其係組配來傳輸(例如電子式或光學式)用以執行此處所述方法中之一者之電腦程式至接收器。接收器例如為電腦、行動元件、記憶體元件等。該裝置或系統例如可包含一種用以將該電腦程式傳輸至接收器之檔案伺服器。
於若干實施例,可程式邏輯裝置(例如場可程式閘極陣列)可用來執行此處所述方法之部分或全部函數。於若干實施例,場可程式閘極陣列可與微處理器協力合作來執行此處所述方法中之一者。大致上,該等方法較佳係藉硬體裝置執行。
前述實施例僅供舉例說明本發明之原理。須瞭解熟諳技藝人士顯然易知此處所述配置及細節之修正及變化。因此意圖本發明只受隨附之申請專利範圍之範圍所限,而非受藉由此處實施例之描述及解說所呈現的特定細節所限。
8.結論
依據本發明之實施例提供用於音訊解碼器之失真控制的參數限制方案。依據本發明之若干實施例係聚焦在空間音訊物件編碼(SAOC),其提供用以選擇期望的回放設定值(例如單聲道、立體聲、5.1等)之使用者介面手段以及經由依據個人偏好或其它標準而控制呈現矩陣之期望輸出呈現場景的互動式即時修正。但一般而言調整所提示之方法用於參數技術為直捷任務。
由於基於下混/分離/混合參數辦法,所呈現的音訊輸出信號之主觀品質係取決於呈現參數設定值。選用由使用者選擇呈現設定值有使用者選擇不當物件呈現選項的風險,諸如總體聲音場景內部的物件之極端增益操控。
對商業產品而言,絕對無法接受在使用者介面上產生任何設定質的不佳音質及/或音訊假影。為了控制所產生的SAOC音訊輸出信號的過度降級,業已描述若干運算措施,其係基於運算所呈現的場景之聽覺品質測量值,及依據此測量值(及其它資訊),修正實際施加呈現係數(例如請見參考文獻[6])。
本發明提供替代構想用來保護所呈現的SAOC場景之主觀音質
● 全部處理係全然在SAOC解碼器/轉碼器內部進行,及
● 未涉及所呈現的音訊場景之聽覺音質的複雜測量值之外顯(explicit)計算
如此此等構想可以結構簡單而又極端有效方式在SAOC解碼器/轉碼器內部實施。因所提示之失真控制機制(DCM)係針對SAOC解碼器特有的限制參數,亦即呈現係數(RC)及轉碼係數(TC),故於全文說明中稱作為參數限制方案(PLS)。
但參數限制方案也可應用於任一種不同的音訊解碼器。
9.參考文獻
[1] C. Faller and F. Baumgarte,"Binaural Cue Coding-Part II: Schemes and applications" ,IEEE Trans. on Speech and Audio Proc.,vol. 11,no. 6,Nov. 2003.
[2] C. Faller,"Parametric Joint-Coding of Audio Sources" ,120th AES Convention,Paris,2006,Preprint 6752.
[3] J. Herre,S. Disch,J. Hilpert,O. Hellmuth:"From SAC To SAOC-Recent Developments in Parametric Coding of Spatial Audio" ,22nd Regional UK AES Conference,Cambridge,UK,April 2007.
[4] J. Engdegrd,B. Resch,C. Falch,O. Hellmuth,J. Hilpert,A. Hlzer,L. Terentiev,J. Breebaart,J. Koppens,E. Schuijers and W. Oomen:"Spatial Audio Object Coding(SAOC)-The Upcoming MPEG Standard on Parametric Object Based Audio Coding" ,124th AES Convention,Amsterdam 2008,Preprint 7377.
[5] ISO/IEC,"MPEG audio technologies-Part 2: Spatial Audio Object Coding(SAOC),"ISO/IEC JTC1/SC29/WG11(MPEG) FCD 23003-2.
[6] US patent application 61/173,456,METHODS,APPARATUS,AND COMPUTER PROGRAMS FOR DISTORTION AVOIDING AUDIO SIGNAL PROCESSING
[7] EBU Technical recommendation: "MUSHRA-EBU Method for Subjective Listening Tests of Intermediate Audio Quality" ,Doc. B/AIM022,October 1999.
[8] ISO/IEC JTC1/SC29/WG11(MPEG),Document N10843,“Study on ISO/IEC 23003-2:200x Spatial Audio Object Coding(SAOC)” ,89th MPEG Meeting,London,UK,July 2009
100,200,250...裝置
110...輸入參數
120...已調整之參數
130...參數調整器
132...平均值
210...下混信號表示型態
212...參數側邊資訊
214...使用者指定呈現參數
220...上混信號表示型態
230,330...信號處理器
232,332...重新混合
236,336...混合參數運算
240,338...側邊資訊修正、側邊資訊變換
252...已修正之呈現參數
300,350...裝置
337...混合矩陣
352...經調整之混合矩陣元
410...SAOC解碼器
420...下混
422...SAOC位元串流
430a,430M...輸出聲道
440,450...控制器
800,900,930,960...MPEG SAOC系統
810...SAOC編碼器
812...下混信號、下混聲道
814...側邊資訊
820,920,950...SAOC解碼器
820a...物件分離器
820b,924...已重建之物件信號
820c...混合器
822...使用者互動資訊/使用者控制資訊
922...物件解碼器
926...混合器/呈現器
928,958...上混聲道信號
980...SAOC至MPEG環繞轉碼器
982...側邊資訊轉碼器
984...MPEG環繞位元串流
986...下混信號操控器
988...下混信號表示型態
1010...SAOC模式
1020...修正係數
1030...參考章節
第1圖顯示依據本發明之實施例一種用以提供一或多個經調整之參數的裝置之方塊示意圖;
第2圖顯示依據本發明之實施例一種用以提供上混信號表示型態的裝置之方塊示意圖;
第3圖顯示依據本發明之另一實施例一種用以提供上混信號表示型態的裝置之方塊示意圖;
第4圖顯示使用間接控制及直接控制之參數限制方案之方塊示意圖;
第5a圖顯示表示收聽測試條件之一表;
第5b圖顯示表示收聽測試之音訊項目之一表;
第6圖顯示表示所測試的極端呈現條件之一表;
第7圖顯示對不同參數限制方案(PLS),MUSHRA收聽測試結果之一線圖表示型態;
第8圖顯示參考MPEG SAOC系統之方塊示意圖;
第9a圖顯示使用分開的解碼器及混合器之一參考SAOC系統之方塊示意圖;
第9b圖顯示使用整合型解碼器及混合器之一參考SAOC系統之方塊示意圖;
第9c圖顯示使用SAOC至MPEG轉碼器之一參考SAOC系統之方塊示意圖;及
第10圖顯示一表描述哪些轉碼係數可藉所提示之參數限制方案而修正。
100...裝置
110...輸入參數
120...經調整之參數
130...參數調整器
132...平均值

Claims (22)

  1. 一種用以提供一或多個經調整參數的裝置,該一或多個經調整參數用以基於一下混信號表示型態及與該下混信號表示型態相關聯之一參數側邊資訊來提供一上混信號表示型態,該裝置包含:一參數調整器,其係組配來接收一或多個參數,及基於此而提供一或多個經調整參數,其中該參數調整器係組配來依據多個參數值之平均值而提供該一或多個經調整參數,使得由用以提供該上混信號表示型態之非最佳參數之使用所造成的該上混信號表示型態之失真至少對於偏離最佳參數大於一預定偏差之一或多個參數而言是減少的。
  2. 如申請專利範圍第1項之裝置,其中該參數調整器係組配來依據多個參數值之加權平均的平均值來提供該一或多個經調整參數。
  3. 如申請專利範圍第1項之裝置,其中該參數調整器係組配來提供該一或多個經調整參數,使得該一或多個經調整參數偏離小於相對應所接收之參數之平均值。
  4. 如申請專利範圍第1項之裝置,其中該裝置係組配來接收描述音訊物件對該上混信號表示型態之一或多個聲道的期望貢獻之一或多個呈現(rendering)係數,及其中該裝置係組配來提供一或多個經調整之呈現係數作為經調整參數。
  5. 如申請專利範圍第4項之裝置,其中該參數調整器係組 配來接收多個呈現係數作為輸入參數;及其中該參數調整器係組配來運算出與多個音訊物件相關聯之呈現係數之平均值;及其中該參數調整器係組配來提供經調整之呈現係數,使得經調整之呈現係數偏離與多個音訊物件相關聯之呈現係數之平均值的偏差被限制。
  6. 如申請專利範圍第5項之裝置,其中該參數調整器係組配來使得於依據該呈現係數之平均值所測定的容許區間內之一呈現係數維持不變,及將大於該容許區間的上邊界值之一呈現係數選擇性地設定為小於或等於該上邊界值之一值,及將小於該容許區間的下邊界值之一呈現係數選擇性地設定為大於或等於該下邊界值之一值。
  7. 如申請專利範圍第5項之裝置,其中該參數調整器係組配來迭代地選擇該等呈現係數中之一個別者,其包含於個別迭代中與該等呈現係數之平均值之最大偏離;及使得該等呈現係數中之被選定者更接近該等呈現係數之平均值,以使得落在依據該等呈現係數之平均值所測定的容許區間外側的呈現係數迭代地落入該容許區間內部。
  8. 如申請專利範圍第7項之裝置,其中該參數調整器係組配來重複該等呈現係數中之一個別者之迭代選擇、及該等呈現係數中之被選定者之迭代修正,直至全部呈現係數皆被調整至落入適用的容許區間內部為止。
  9. 如申請專利範圍第1項之裝置,其中該裝置係組配來接收一或多個轉碼係數,其係描述該下混信號表示型態之一或多個聲道對映至該上混信號表示型態之一或多個聲道之對映關係,及其中該裝置係組配來提供一或多個經調整之轉碼係數作為經調整參數。
  10. 如申請專利範圍第9項之裝置,其中該參數調整器係組配來接收轉碼係數之一時間序列作為輸入參數;及其中該參數調整器係組配來依據多個轉碼係數算出一時間均值;及其中該參數調整器係組配來提供該等經調整之轉碼係數,使得該等經調整之轉碼係數與該時間均值之偏差被限制。
  11. 如申請專利範圍第10項之裝置,其中該參數調整器係組配來使落在依據該時間均值所測定的一容許區間內部之一轉碼係數維持不變,及將大於該容許區間的上邊界值之一轉碼係數選擇性地設定為小於或等於該容許區間的上邊界值之一值,及將小於該容許區間的下邊界值之一轉碼係數選擇性地設定為大於或等於該下邊界值之一值。
  12. 如申請專利範圍第10項之裝置,其中該參數調整器係組配來使用該轉碼係數之序列之遞歸低通濾波而求出該時間均值。
  13. 如申請專利範圍第1或12項中任一項之裝置,其中該參數調整器係組配來提供該一或多個經調整參數中之一給定者,使得該等經調整參數中之該給定者係落在容許區間內部,該容許區間之邊界係依據多個輸入參數值之平均值及一或多個容許參數界定,以及使得一輸入參數與一相對應經調整參數間之偏差為最小化或係維持在預定最大容許範圍以內。
  14. 如申請專利範圍第13項之裝置,其中該參數調整器係組配來將發現落在該容許區間外部之一輸入參數選擇性地設定至該容許區間之一上邊界值或一下邊界值來獲得該輸入參數之經調整版本,其中該容許區間之邊界係依據多個輸入參數值之平均值界定。
  15. 如申請專利範圍第13項之裝置,其中該參數調整器係組配來迭代地選擇該等輸入參數中之一個別者,其包含於一個別迭代動作中與該平均值之最大偏離;以及使該等輸入參數中之被選定者更接近該平均值,來迭代地將判定為落在容許區間外部的輸入參數帶至該容許區間內部,而該容許區間之邊界係依據該平均值而界定。
  16. 如申請專利範圍第15項之裝置,其中該參數調整器係組配來選擇一修正階大小成為該等輸入參數中之該被選定者與該平均值間之差的一預定分量,而該修正階大小係用來將該等輸入參數中之該被選定者帶至較為接近該平均值。
  17. 一種用以基於一下混信號表示型態及一參數側邊資訊 來提供一上混信號表示型態的裝置,該裝置包含:如申請專利範圍第1至16項中任一項之用以提供一或多個經調整參數之裝置,其係基於一或多個所接收的參數而提供該一或多個經調整參數;一信號處理器,其係組配來基於該下混信號表示型態及該參數側邊資訊而獲得該上混信號表示型態,其中該用以提供一或多個經調整參數之裝置係組配來調整該信號處理器之一或多個處理參數。
  18. 如申請專利範圍第17項之裝置,其中該信號處理器係組配來依據描述音訊物件對該上混信號表示型態之一或多個聲道的貢獻之經調整的呈現係數,而提供該上混信號表示型態;及其中該用以提供一或多個經調整參數之裝置係組配來接收多個使用者指定的呈現參數作為輸入參數,及基於此而提供供該信號處理器使用的一或多個經調整之呈現參數。
  19. 如申請專利範圍第17項之裝置,其中該用以提供一或多個經調整參數之裝置係組配來接收一混合矩陣之一或多個混合矩陣元作為一或多個輸入參數,及基於此而提供供該信號處理器使用的該混合矩陣之一或多個經調整之混合矩陣元;及其中該信號處理器係組配來依據該混合矩陣之經調整之混合矩陣元而提供該上混信號表示型態,其中該混合矩陣係描述該下混信號表示型態之一或多個音訊 聲道信號對映至該上混信號表示型態之一或多個音訊聲道信號之對映關係。
  20. 如申請專利範圍第17項之裝置,其中該信號處理器係組配來獲得MPEG環繞任意下混增益值,及其中該用以提供一或多個經調整參數之裝置係組配來接收多個任意下混增益值作為輸入參數,及提供多個經調整之任意下混增益值。
  21. 一種用以提供一或多個經調整參數之方法,該一或多個經調整參數用以基於一下混信號表示型態及與該下混信號表示型態相關聯之一參數側邊資訊來提供一上混信號表示型態,該方法包含:接收一或多個參數;及基於此而提供一或多個經調整參數,其中該一或多個經調整參數係依據多個參數值之平均值而提供,使得經由使用非最佳參數造成的該上混信號表示型態之失真至少對於偏離最佳參數大於一預定偏差之一或多個參數而言是減少的。
  22. 一種電腦程式,其係用於當該電腦程式於電腦上運行時,執行如申請專利範圍第21項之方法。
TW099135229A 2009-10-16 2010-10-15 用以利用平均值而基於下混信號表示型態和與下混信號表示型態相關聯之參數側邊資訊來提供用於提供上混信號表示型態之一或多個經調整參數的裝置、方法與電腦程式 TWI478149B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US25229809P 2009-10-16 2009-10-16
EP10171459 2010-07-30

Publications (2)

Publication Number Publication Date
TW201131551A TW201131551A (en) 2011-09-16
TWI478149B true TWI478149B (zh) 2015-03-21

Family

ID=43645868

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099135229A TWI478149B (zh) 2009-10-16 2010-10-15 用以利用平均值而基於下混信號表示型態和與下混信號表示型態相關聯之參數側邊資訊來提供用於提供上混信號表示型態之一或多個經調整參數的裝置、方法與電腦程式

Country Status (18)

Country Link
US (1) US9245530B2 (zh)
EP (2) EP2489037B1 (zh)
JP (1) JP5758902B2 (zh)
KR (1) KR101426625B1 (zh)
CN (1) CN102714035B (zh)
AR (1) AR078668A1 (zh)
AU (1) AU2010305717B2 (zh)
BR (2) BR122021008670B1 (zh)
CA (3) CA2777665C (zh)
ES (1) ES2900516T3 (zh)
MX (1) MX2012004261A (zh)
MY (1) MY165327A (zh)
PL (1) PL2489037T3 (zh)
PT (1) PT2489037T (zh)
RU (1) RU2607266C2 (zh)
TW (1) TWI478149B (zh)
WO (1) WO2011045409A1 (zh)
ZA (1) ZA201203484B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120071072A (ko) * 2010-12-22 2012-07-02 한국전자통신연구원 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법
EP2702776B1 (en) 2012-02-17 2015-09-23 Huawei Technologies Co., Ltd. Parametric encoder for encoding a multi-channel audio signal
CA2880412C (en) * 2012-08-10 2019-12-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and methods for adapting audio information in spatial audio object coding
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
ES2924427T3 (es) 2013-01-29 2022-10-06 Fraunhofer Ges Forschung Decodificador para generar una señal de audio mejorada en frecuencia, procedimiento de decodificación, codificador para generar una señal codificada y procedimiento de codificación que utiliza información lateral de selección compacta
EP3005355B1 (en) 2013-05-24 2017-07-19 Dolby International AB Coding of audio scenes
EP3270375B1 (en) 2013-05-24 2020-01-15 Dolby International AB Reconstruction of audio scenes from a downmix
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
KR102244379B1 (ko) * 2013-10-21 2021-04-26 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성
CN106303897A (zh) 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
TWI607655B (zh) * 2015-06-19 2017-12-01 Sony Corp Coding apparatus and method, decoding apparatus and method, and program
KR20170031392A (ko) * 2015-09-11 2017-03-21 삼성전자주식회사 전자 장치, 음향 시스템 및 오디오 출력 방법
EP3570566B1 (en) * 2018-05-14 2022-12-28 Nokia Technologies Oy Previewing spatial audio scenes comprising multiple sound sources
AU2019298232B2 (en) * 2018-07-02 2024-03-14 Dolby International Ab Methods and devices for generating or decoding a bitstream comprising immersive audio signals
WO2020216459A1 (en) * 2019-04-23 2020-10-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating an output downmix representation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060115100A1 (en) * 2004-11-30 2006-06-01 Christof Faller Parametric coding of spatial audio with cues based on transmitted channels
TW200713201A (en) * 2005-08-02 2007-04-01 Dolby Lab Licensing Corp Controlling spatial audio coding parameters as a function of auditory events
US20080199026A1 (en) * 2006-12-07 2008-08-21 Lg Electronics, Inc. Method and an Apparatus for Decoding an Audio Signal
TW200910328A (en) * 2007-04-26 2009-03-01 Coding Tech Ab Apparatus and method for synthesizing an output signal

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE538604T1 (de) 2006-03-28 2012-01-15 Ericsson Telefon Ab L M Verfahren und anordnung für einen decoder für mehrkanal-surroundton
WO2008046530A2 (en) * 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
BRPI0715559B1 (pt) * 2006-10-16 2021-12-07 Dolby International Ab Codificação aprimorada e representação de parâmetros de codificação de objeto de downmix multicanal
MX2009007412A (es) * 2007-01-10 2009-07-17 Koninkl Philips Electronics Nv Decodificador de audio.
WO2008100068A1 (en) * 2007-02-13 2008-08-21 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US7923948B2 (en) * 2008-01-09 2011-04-12 Somfy Sas Method for adjusting the residual light gap between slats of a motorized venetian blind

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060115100A1 (en) * 2004-11-30 2006-06-01 Christof Faller Parametric coding of spatial audio with cues based on transmitted channels
TW200713201A (en) * 2005-08-02 2007-04-01 Dolby Lab Licensing Corp Controlling spatial audio coding parameters as a function of auditory events
US20080199026A1 (en) * 2006-12-07 2008-08-21 Lg Electronics, Inc. Method and an Apparatus for Decoding an Audio Signal
TW200910328A (en) * 2007-04-26 2009-03-01 Coding Tech Ab Apparatus and method for synthesizing an output signal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Spatial Audio Object Coding (SAOC) – The Upcoming MPEG Standard on Parametric Object Based Audio Coding, 2008/05/17 *

Also Published As

Publication number Publication date
EP3996089A1 (en) 2022-05-11
KR101426625B1 (ko) 2014-08-05
PL2489037T3 (pl) 2022-03-07
EP2489037B1 (en) 2021-11-10
US9245530B2 (en) 2016-01-26
ZA201203484B (en) 2013-03-27
RU2012119292A (ru) 2013-11-10
WO2011045409A1 (en) 2011-04-21
TW201131551A (en) 2011-09-16
CA2938535C (en) 2017-12-19
JP5758902B2 (ja) 2015-08-05
EP2489037A1 (en) 2012-08-22
CA2938537C (en) 2017-11-28
KR20120068033A (ko) 2012-06-26
BR122021008670B1 (pt) 2022-01-18
PT2489037T (pt) 2022-01-07
CN102714035A (zh) 2012-10-03
CN102714035B (zh) 2015-12-16
AU2010305717A1 (en) 2012-05-17
CA2938537A1 (en) 2011-04-21
CA2777665A1 (en) 2011-04-21
JP2013507664A (ja) 2013-03-04
AU2010305717B2 (en) 2014-06-26
CA2777665C (en) 2017-08-29
US20120263308A1 (en) 2012-10-18
RU2607266C2 (ru) 2017-01-10
MY165327A (en) 2018-03-21
CA2938535A1 (en) 2011-04-21
MX2012004261A (es) 2012-05-29
BR122021008665B1 (pt) 2022-01-18
AR078668A1 (es) 2011-11-23
ES2900516T3 (es) 2022-03-17

Similar Documents

Publication Publication Date Title
TWI478149B (zh) 用以利用平均值而基於下混信號表示型態和與下混信號表示型態相關聯之參數側邊資訊來提供用於提供上混信號表示型態之一或多個經調整參數的裝置、方法與電腦程式
TWI431611B (zh) 用以基於下混信號表示型態提供上混信號表示型態之裝置、用以提供表示多聲道音訊信號的位元串流之裝置、使用失真控制發訊之方法、電腦程式與位元串流
JP5645951B2 (ja) ダウンミックス信号表現に基づくアップミックス信号を提供する装置、マルチチャネルオーディオ信号を表しているビットストリームを提供する装置、方法、コンピュータプログラム、および線形結合パラメータを使用してマルチチャネルオーディオ信号を表しているビットストリーム
TWI569260B (zh) 用於在基於物件之音訊編碼系統中利用旁通音訊物件信號的通知響度估計之解碼器、編碼器及方法
JP5554830B2 (ja) ダウンミックス信号表現に基づいたアップミックス信号表現の供給のための一つ以上の調整されたパラメータを供給するための装置、オブジェクト関連のパラメトリック情報を用いたオーディオ信号デコーダ、オーディオ信号トランスコーダ、オーディオ信号エンコーダ、オーディオビットストリーム、方法およびコンピュータ・プログラム
JP2008511044A (ja) 空間オーディオコーディングにおける複数チャンネルデコリレーション
BR112012008921B1 (pt) Mecanismo e método para fornecer um ou mais parâmetros ajustados para a provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada com a representação de sinal downmix, usando um valor médio