TW201444383A - 用於音訊信號處理之多聲道直接-周圍分解之裝置及方法 - Google Patents

用於音訊信號處理之多聲道直接-周圍分解之裝置及方法 Download PDF

Info

Publication number
TW201444383A
TW201444383A TW103104240A TW103104240A TW201444383A TW 201444383 A TW201444383 A TW 201444383A TW 103104240 A TW103104240 A TW 103104240A TW 103104240 A TW103104240 A TW 103104240A TW 201444383 A TW201444383 A TW 201444383A
Authority
TW
Taiwan
Prior art keywords
channel signals
audio input
spectral density
input channel
power spectral
Prior art date
Application number
TW103104240A
Other languages
English (en)
Other versions
TWI639347B (zh
Inventor
Christian Uhle
Emanuel Habets
Patrick Gampp
Michael Kratz
Original Assignee
Fraunhofer Ges Forschung
Univ Friedrich Alexander Er
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung, Univ Friedrich Alexander Er filed Critical Fraunhofer Ges Forschung
Publication of TW201444383A publication Critical patent/TW201444383A/zh
Application granted granted Critical
Publication of TWI639347B publication Critical patent/TWI639347B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

提出一種用以取決於二或多個音訊輸入聲道信號生成一或多個音訊輸出聲道信號之裝置。該等二或多個音訊輸入聲道信號各自係包含直接信號部分及周圍信號部分。該裝置包含用以藉估計第一功率頻譜密度資訊及藉估計第二功率頻譜密度資訊而決定一濾波器的一濾波器決定單元。此外,該裝置包含用以藉施用該濾波器於該等二或多個音訊輸入聲道信號上而生成該等一或多個音訊輸出聲道信號之一信號處理器。該第一功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號上的功率頻譜密度資訊,及該第二功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等周圍信號部分上的功率頻譜密度資訊。或該第一功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號上的功率頻譜密度資訊,及該第二功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等直接信號部分上的功率頻譜密度資訊。或該第一功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等直接信號部分上的功率頻譜密度資訊,及該第二功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等周圍信號部分上的功率頻譜密度資訊。

Description

用於音訊信號處理之多聲道直接-周圍分解之裝置及方法
本發明係有關於用於音訊信號處理之多聲道直接-周圍分解之裝置及方法。
音訊信號處理變成愈來愈重要。在此領域中,將聲音信號分離成直接聲音信號及周圍聲音信號扮演要角。
一般而言,聲音係由直接聲與周圍(或漫射)聲的混合物組成。直接聲係由音源發出,例如樂器、歌手或揚聲器,及以最短可能路徑到達接收器,例如收聽者的耳道口或麥克風。
當收聽一直接聲時覺察為來自音源方向。用於定位及用於其它空間聲音性質的相關聽覺線索為雙耳間位準差、雙耳間時差及雙耳間同調。造成相同的雙耳間位準差及雙耳間時差之直接聲波被知覺為來自相同方向。於無漫射聲存在下,到達左耳及右耳或任何其它多種感測器的信號為同調。
相反地,周圍聲係由許多間隔音源或聲音反射邊 界取出促成相同周圍聲。當一聲波到達室內壁面時,部分反射,及在一室內的全部反射的疊置又稱混疊乃周圍聲的傑作。其它實施例為聽眾聲(例如掌聲)、環境聲(例如雨聲)、及其它背景聲(例如嘈雜人聲)。周圍聲知覺為漫射性,無法定位,及由收聽者造成包封印象(「浸沒於聲音內」)。當使用多個間隔感測器紀錄一周圍聲場時,紀錄的信號至少部分為非同調。
聲音後製及重製的各項應用可從音訊信號分解成直接信號成分及周圍信號成分獲益。此種信號處理的主要挑戰係針對任意數的輸入聲道信號及針對全部可能的輸入信號特性,達成高度分離同時維持高音質。直接-周圍分解(DAD)亦即音訊信號分解成直接信號成分及周圍信號成分許可信號成分的分開重製或修正,例如乃音訊信號的上混所期望者。
上混一詞係指給定具有N聲道的一輸入信號,產生具有P聲道之一信號的過程,於該處P>N。其主要應用在使用具有比較輸入信號中可用的聲道更多聲道的環繞聲設置以重製音訊信號。藉運用進階信號處理演算法重製內容,許可收聽者使用該多聲道聲音重製設置的全部可用聲道。此種處理可將輸入信號分解成有意義的信號成分(例如基於在立體影像中覺察的位置、直接聲相較於周圍聲、單一樂器)或分解成此等信號成分衰減或加強的信號。
兩個上混構思廣為人已知。
1.經引導上混:具有額外資訊引導上混過程的 上混。額外資訊可以特定方式「編碼」於該輸入信號或可另行儲存。
2.未經引導上混:沒有任何額外資訊,輸出信號係排它地得自音訊輸入信號。
就直接信號及周圍信號之定位而言,進階上混法可進一步分類。可區分為「直接/周圍法」及「頻帶內」辦法。以直接/周圍為基礎的技術之核心成分係擷取一周圍信號饋至例如多聲道環繞聲設置的後方聲道或高度聲道。利用後方聲道或高度聲道重製周圍信號引起收聽者的包封印象(「浸沒於聲音內」)。此外,根據直接音源在立體全景中的覺察位置,直接音源可分散在前方聲道。相反地,「頻帶內」辦法針對將全部聲音(直接聲及周圍聲)使用全部可用的揚聲器環繞該收聽者定位。
將一音訊信號分解成直接信號及周圍信號也許可例如藉縮放或藉濾波而分開修正周圍聲或直接聲。一項使用情況係已經使用過高量周圍聲紀錄的音樂表演紀錄處理。另一項使用情況係製造音訊(例如用於電影聲音或音樂),於該處在不同位置紀錄的及因而具有不同周圍聲特性的音訊信號經組合。
總而言之,此種信號處理的要求係針對任意數目的輸入聲道信號及針對全部可能的輸入信號特性達成高度分離同時維持高音質。
先前技術針對DAD或衰減或增強直接信號成分或周圍信號成分曾經提出多個辦法,簡短綜述如後。
已知之構思係有關於語音信號的處理,目標針對從麥克風紀錄中去除非期望的背景雜訊。
衰減來自具有兩個輸入聲道之語音紀錄的混響之方法係描述於[1]。藉衰減輸入信號中的不相關(或漫射)信號成分可減少混響信號成分。處理係在時頻域中實現,使得子帶信號係利用頻譜加權法處理。真實數值加權因數係使用功率頻譜密度(PSD)計算 於該處X(m,k)及Y(m,k)表示時域輸入信號xt[n]及yt[n]的時頻域表示型態,E{.}為預期運算,及X*為X的複共軛。
原作者指出當與(m,k)成正比時,例如當使用權值等於標準化交叉相關函式(或同調函式)時,不同的頻譜加權函式為可行。
根據相似的理論基礎,[2]描述之方法頻譜加權而擷取一周圍信號,具有權值係使用於頻帶計算的標準化交叉相關函式推衍之權值,參考式(4)(或原作者用詞「聲道間短時間同調函式」)。比較[1]之差異為替代衰減漫射件號成分,直接信號成分係使用(1-ρ(m,k))的單調穩定函式的該等頻譜權值衰減。
使用多聲道Wiener濾波,分解應用於具有二聲道 之輸入信號之上混應用已經描述於[3]。處理係在時頻域完成。輸入信號係經模型化為周圍信號與一個活性直接音源(每個頻帶)之混合物,於該處一個聲道的直接信號限於為第二聲道中之直接信號成分的一縮放拷貝,亦即幅值汰選。汰選係數及直接信號及周圍信號的功率係使用標準化交叉相關及二聲道的輸入信號功率估計。直接輸出信號及周圍輸出信號係從輸入信號與真實數值加權係數的組合推衍。施加額外後縮放使得輸出信號的功率等於估計量。
[4]中描述的方法根據周圍功率估值而使用頻譜加權擷取一周圍信號。周圍功率為估值,根據的假設包括二聲道的直接信號成分為全然相關,周圍聲道信號彼此及與直接信號不相關,及二聲道的周圍功率為相等。
用以根據指向性音訊編碼(DirAC)的立體聲信號之上混方法描述於[5]。DirAC針對到達方向、漫射性及一聲場頻譜的分析及重製。為了立體聲輸入信號的上混,模擬輸入信號之無回聲B-格式紀錄。
使用適應性濾波演算法從立體聲音擷取不相關混疊之方法,針對利用最小均方(LMS)演算法,使用其它聲道信號預測一個聲道信號中之直接信號成分係描述於[6]。接著從輸入信號中扣除估計得的直接信號而推衍周圍信號。本辦法之理論基礎為預測只針對相關信號有用,預測誤差類似不相關信號。既有多個根據LMS原理之適應性濾波演算法及可行,例如LMS或標準化LMS(NLMS)演算法。
針對具有多於兩個聲道之輸入信號的分解,一種 方法描述於[7],於該處多聲道信號首先下混以獲得2-聲道立體聲信號,及隨後施用[3]中呈示的用以處理立體聲輸入信號之方法。
針對單聲道信號的處理,[8]描述的方法使用頻譜加權擷取一周圍信號,於該處頻譜權值係使用特徵擷取及監督學習計算。
另一種針對上混應用從單聲道紀錄擷取一周圍信號之方法從該輸入信號的時頻域表示型態與其壓縮版本間之差獲得時頻域表示型態,較佳使用非負矩陣因式分解計算[9]。
已經產生混疊信號的混疊系統之幅值轉移函式的估計,擷取與改變一音訊信號中之混疊信號成分之方法係描述於[10]。該等信號成分之頻域表示型態之幅值估值係利用遞歸過濾推衍且可經修正。
本發明之目的係提出用於音訊信號處理之多聲道直接-周圍分解之改良構思。本發明之目的係藉如請求項1之裝置、藉請求項14之方法、及藉請求項15之電腦程式加以解決。
提出一種用以取決於二或多個音訊輸入聲道信號生成一或多個音訊輸出聲道信號之裝置。該等二或多個音訊輸入聲道信號各自係包含直接信號部分及周圍信號部分。該裝置包含用以藉估計第一功率頻譜密度資訊及藉估計第二功率頻譜密度資訊而決定一濾波器的一濾波器決定 單元。此外,該裝置包含用以藉施用該濾波器於該等二或多個音訊輸入聲道信號上而生成該等一或多個音訊輸出聲道信號之一信號處理器。該第一功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號上的功率頻譜密度資訊,及該第二功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等周圍信號部分上的功率頻譜密度資訊。或該第一功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號上的功率頻譜密度資訊,及該第二功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等直接信號部分上的功率頻譜密度資訊。或該第一功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等直接信號部分上的功率頻譜密度資訊,及該第二功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等周圍信號部分上的功率頻譜密度資訊。
實施例提出用以將音訊輸入信號分解成直接信號成分及周圍信號成分的構思,其可應用於聲音後製及重製。此種聲音處理的主要挑戰係針對任意數目的輸入聲道信號及針對全部可能的輸入信號特性達成高度分離同時維持高音質。所提出的構思係根據時頻域的多聲道信號處理,結果導致就均方差意義上的一限制最佳解,及例如遭遇估計期望信號失真的限制,或殘差干涉減少的限制。
提出用以將音訊輸入信號分解成直接信號成分及周圍信號成分的實施例。此外,將提出計算周圍信號成分之濾波器的導算,及此外,描述濾波器之應用實施例。
若干實施例係有關於遵照直接/周圍辦法的未經引導的上混,輸入信號具有多於一個聲道。
至於所描述分解之一涵蓋實施例,關注於計算具有與輸入信號等數聲道的輸出信號。針對此項應用,實施例就分離及音質而言提供極佳結果,原因在於其能夠因應直接信號在輸入聲道間有時間延遲的直接信號。與其它構思相反,例如[3]提出的構思,實施例並不假設輸入信號中的直接聲係只藉縮放汰選(幅值汰選),同時也在各聲道的直接信號間導入差異。
此外,與先前技術只能處理有一或二個聲道的輸入信號的全部其它構思相反(參見上文)於該處能夠在具有任意數聲道的輸入信號上操作。
實施例之其它優點係控制參數的使用、周圍PSD矩陣的估計、及濾波器的進一步修正,容後詳述。
有些實施例針對全部輸入聲音物體提供一致的周圍聲。當輸入信號分解成直接及周圍聲時,有些實施例運用適當音訊信號處理調適周圍聲特性,其它實施例利用人工混響及其它人工周圍聲來替代周圍信號成分。
依據一實施例,該裝置可進一步包含一分析濾波器組經組配以將該等二或多個音訊輸入聲道信號從一時域變換成一時頻域。該濾波器決定單元係經組配以取決於以該時頻域表示的該等音訊輸入聲道信號,藉估計該第一功率頻譜密度資訊及該第二功率頻譜密度資訊而決定該濾波器。該信號處理器係經組配以藉施用該濾波器於以該時頻 域表示的該等二或多個音訊輸入聲道信號上而生成以該時頻域表示的該等一或多個音訊輸出聲道信號。此外,該裝置可進一步包含一合成濾波器組經組配以將以該時頻域表示的該等一或多個音訊輸出聲道信號從該時頻域變換成該時域。
再者,提出一種取決於二或多個音訊輸入聲道信號生成一或多個音訊輸出聲道信號之方法。該等二或多個音訊輸入聲道信號各自係包含直接信號部分及周圍信號部分。該方法包含:-藉估計第一功率頻譜密度資訊及藉估計第二功率頻譜密度資訊而決定一濾波器。及-藉施用該濾波器於該等二或多個音訊輸入聲道信號上而生成該等一或多個音訊輸出聲道信號。
該第一功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號上的功率頻譜密度資訊,及該第二功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等周圍信號部分上的功率頻譜密度資訊。或該第一功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號上的功率頻譜密度資訊,及該第二功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等直接信號部分上的功率頻譜密度資訊。或該第一功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等直接信號部分上的功率頻譜密度資訊,及該第二功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等周圍信號部分上的功率頻譜 密度資訊。
再者,提出當在一電腦或信號處理器上執行時用以實現前述方法的一種電腦程式。
110‧‧‧濾波器決定單元
120‧‧‧信號處理器
121-12K‧‧‧信號子處理器
605‧‧‧分析濾波器組
625‧‧‧合成濾波器組
1111-11K1‧‧‧β決定單元
1112-11K2‧‧‧子濾波器決定單元
下文中,將參考附圖以進一步細節描述本發明之實施例,附圖中:圖1例示依據一實施例,取決於二或多個音訊輸入聲道信號,用以生成一或多個音訊輸出聲道信號之裝置,圖2例示依據一實施例古典音樂的5-聲道紀錄之分解的輸入及輸出信號,具有輸入信號(左欄)、周圍輸出信號(中欄)、及直接輸出信號(右欄),圖3描繪依據一實施例,使用周圍信號估計及直接信號估計的分解之基本綜論,圖4描繪依據一實施例使用直接信號估計的分解之基本綜論,圖5描繪依據一實施例使用周圍信號估計的分解之基本綜論,圖6a例示依據另一實施例之裝置,其中該裝置進一步包含一分析濾波器組及一合成濾波器組,及圖6b描繪依據又一實施例之裝置,例示直接信號成分之擷取,其中方塊AFB為N個分析濾波器組(每個聲道各一個)之一集合,及其中方塊SFB為合成濾波器組之一集合。
圖1例示依據一實施例,取決於二或多個音訊輸 入聲道信號,用以生成一或多個音訊輸出聲道信號之裝置。該等二或多個音訊輸入聲道信號中之各者包含直接信號部分及周圍信號部分。
該裝置包含藉估計第一功率頻譜密度資訊及藉估計第二功率頻譜密度資訊而決定一濾波器的一濾波器決定單元110。
此外,該裝置包含藉施用該濾波器至該等二或多個音訊輸入聲道信號上而生成該等一或多個音訊輸出聲道信號的一信號處理器120。
該第一功率頻譜密度資訊指示該等二或多個音訊輸入聲道信號上的功率頻譜密度資訊,及該第二功率頻譜密度資訊指示該等二或多個音訊輸入聲道信號的該等周圍信號部分上的功率頻譜密度資訊。
或者,該第一功率頻譜密度資訊指示該等二或多個音訊輸入聲道信號上的功率頻譜密度資訊,及該第二功率頻譜密度資訊指示該等二或多個音訊輸入聲道信號的該等直接信號部分上的功率頻譜密度資訊。
或者,該第一功率頻譜密度資訊指示該等二或多個音訊輸入聲道信號的該等直接信號部分上的功率頻譜密度資訊,及該第二功率頻譜密度資訊指示該等二或多個音訊輸入聲道信號的該等周圍信號部分上的功率頻譜密度資訊。
描述實施例提供將音訊輸入信號分解成直接信號成分及周圍信號成分的構思可應用聲音後製及重製。此 種信號處理的主要挑戰為針對任意數目的輸入聲道信號及針對全部可能的輸入信號特性達成高度分離,同時維持高音質。所提供的實施例係植基於在時頻域內的多聲道信號處理,及提供於均方差方面的最佳解,表示估計期望信號的失真有限或殘差干涉的減少。
首先,描述本發明之實施例植基於其上的發明構思。
假設接收N個輸入聲道信號y t [n]: y t [n]=[y 1[n]...y N [n]] T .(5)
舉例言之,N2。所提供的構思之目的係將輸入聲道信號y 1[n]...y N [n](=[y i [n]] T )分解成N個直接信號成分標示為d t [n]=[d 1[n]...d N [n]] T 及/或N個周圍信號成分標示為a t [n]=[a 1[n]...a N [n]] T 。處理可施用於全部輸入聲道,或該等輸入信號聲道被劃分成分開地處理的聲道子集。
依據實施例,直接信號成分d 1[n],...,d N [n]中之一或多者及/或周圍信號成分a 1[n],...,a N [n]中之一或多者將從該等二或多個輸入聲道信號y 1[n],...,y N [n]估計以獲得該等直接信號成分d 1[n],...,d N [n]及/或周圍信號成分a 1[n],...,a N [n]中之一或多個估計作為該等一或多個輸出聲道信號。
針對N=5,所提供的若干實施例之輸出之一實施例係描繪於圖2。該等一或多個音訊輸出聲道信號係藉獨立地估計直接信號成分及周圍信號成分獲得,如圖3描繪。另 外,針對兩個信號(dt[n]或at[n])中之一者的估值([n]或[n])經求出,而另一信號係從該輸入信號扣掉第一結果獲得。圖4例示首先估計直接信號成分dt[n],及藉從該輸入信號扣掉直接信號推導出周圍信號成分at[n]的處理。同理,首先推導周圍信號成分之估計係如圖5之方塊圖之例示。
依據實施例,處理例如可於時頻域進行。輸入音訊信號的時頻域表示型態例如可利用一濾波器組(分析濾波器組)獲得,例如短時間富利葉變換(STFT)。
依據圖6a例示的一實施例,一分析濾波器組605將該等音訊輸入聲道信號yt[n]從時域變換成時頻域。此外,於圖6a中,一合成濾波器組625將該等直接信號成分的估計從時頻域變換成時域以獲得音訊輸出聲道 信號
於圖6a之實施例中,分析濾波器組605係經組配以將該等二或多個音訊輸入聲道信號從時域變換成時頻域。濾波器決定單元110係經組配以根據以時頻域表示的音訊輸入聲道信號,藉估計該第一功率頻譜密度資訊及第二功率頻譜密度資訊而決定該濾波器。信號處理器120係經組配以藉將該濾波器施用於以時頻域表示的該等二或多個音訊輸入聲道信號上而生成以時頻域表示的該等一或多個音訊輸出聲道信號。合成濾波器組625係經組配以將以時頻域表示的該等一或多個音訊輸出聲道信號從時頻域變換成時域。
時頻域表示型態包括某個數目的子帶信號,其隨著時間演進。相鄰的子帶選擇性地可線性組合成較寬的子帶信號以減低計算複雜度。該等輸入信號的各個子帶係分開處理,容後詳述。時域輸出信號係藉施用該濾波器組的反處理亦即合成濾波器組獲得。全部信號皆假設具有零平均值,時頻域信號可模型化為複隨機變數。
後文中將提供定義及假設。
下列定義係用於修訂方法的全文說明中:具有N個聲道的一多聲道輸入信號之時頻域表示型態係給定為y(m,k)=[Y 1(m,k)Y 2(m,k)...Y N (m,k)] T , (6)具有時間指數m及子帶指數k,k=1...K,且假設為直接信號成分d(m,k)與周圍信號成分a(m,k)的加法混合物,亦即y(m,k)=d(m,k)+a(m,k), (7)具有d(m,k)=[D 1(m,k)D 2(m,k)...D N (m,k)] T (8)
a(m,k)=[A 1(m,k)A 2(m,k)...A N (m,k)] T , (9)於該處Di(m,k)表示第i聲道的直接成分而Ai(m,k)表示周圍成分。
直接-周圍分解的目的係估計d(m,k)及a(m,k)。輸出信號係使用濾波器矩陣HD(m,k)或HA(m,k)或二者計算。濾波器矩陣具有NxN之大小且為複數值,或於若干實施例中,例如可為真實數值。直接信號成分及周圍信號成分的N聲道信號之估值係得自
另外,可使用只有一個濾波器矩陣,及圖4例示的減法分別地可表示為 於該處I為大小NxN的身分矩陣,或如圖5所示 。此處,上標H表示一矩陣或一向量的共軛轉置。濾波器矩陣HD(m,k)係用以計算直接信號(m,k)的估值。濾波器矩陣HA(m,k)係用以計算直接信號(m,k)的估值。
於前文中,式(10)至(15),y(m,k)指示該等二或多個音訊輸入聲道信號,(m,k)指示音訊輸入聲道信號的周圍信號部分之估計,及(m,k)指示直接信號部分之估計。(m,k)及/或(m,k)或(m,k)及/或(m,k)中之一或多個向量成分可為該等一或多個音訊輸出聲道信號。
式(10)、(11)、(12)、(13)、(14)及(15)中之一者、部分或全部可由圖1及圖6a的信號處理器120用於施加圖1及圖6a的濾波器於音訊輸入聲道信號上。圖1及圖6a的濾波器例如可為HD(m,k)、HA(m,k)、(m,k)、(m,k)、[I-HD(m,k)] 或[I-HA(m,k)]。但於其它實施例中,由濾波器決定單元110所決定的且由信號處理器120所採用的濾波器可能非一矩陣而為另一種濾波器。舉例言之,於其它實施例中,該濾波器可包含界定該濾波器的一或多個向量。於又一實施例中,該濾波器可包含界定該濾波器的多個係數。
濾波器矩陣係從後述信號統計的估值計算。
更明確言之,濾波器決定單元110係經組配以藉估計功率頻譜密度(PSD)資訊及第二PSD資訊決定該濾波器。
定義:
於該處E{.}為預期運算元及X*表示X的共軛複數。對i=j獲得PSD,及對i≠j獲得交叉PSD。
y(m,k)、d(m,k)及a(m,k)的協方差矩陣為Φ y (m,k)=E{y(m,k)y H (m,k)} (17)
Φ d (m,k)=E{d(m,k)d H (m,k)} (18)
Φ a (m,k)=E{a(m,k)a H (m,k)}. (19)
協方差矩陣Φy(m,k)、Φd(m,k)及Φa(m,k)包含針對在主對角線上的全部聲道的PSD之估值,而非在對角線上元體為個別聲道信號的交叉PSD估值。因此,矩陣Φy(m,k)、Φd(m,k)及Φa(m,k)各自表示功率頻譜密度資訊的一估計。
於式(17)至(19)中,Φy(m,k)指示於該等二或多個音訊輸入聲道信號上的功率頻譜密度資訊。Φd(m,k)指示於 該等二或多個音訊輸入聲道信號之直接信號成分上的功率頻譜密度資訊。Φa(m,k)指示於該等二或多個音訊輸入聲道信號之周圍信號成分上的功率頻譜密度資訊。
式(17)、(18)及(19)之矩陣Φy(m,k)、Φd(m,k)及Φa(m,k)各自可視為功率頻譜密度資訊。但須注意於其它實施例中,第一及第二功率頻譜密度資訊並非矩陣,反而可以任何其它合宜形式表示。舉例言之,依據實施例,第一及第二功率頻譜密度資訊可表示為一或多個向量。於又一實施例中,第一及第二功率頻譜密度資訊可表示為多個係數。
假設●Di(m,k)與Ai(m,k)彼此為不相關: ●Ai(m,k)與Aj(m,k)彼此為不相關: ●全部聲道中的周圍功率為相等: 結果保有Φ y (m,k)=Φ d (m,k)+Φ a (m,k), (20)
由於式(20)的結果,接著當決定矩陣Φy(m,k)、Φd(m,k)及Φa(m,k)中之兩個矩陣時,則該等矩陣中之第三者即刻可得。至於又一結果,接著只決定下述即足:-該等二或多個音訊輸入聲道信號上之功率頻譜密度資 訊,及該等二或多個音訊輸入聲道信號之周圍信號部分上之功率頻譜密度資訊,或-該等二或多個音訊輸入聲道信號上之功率頻譜密度資訊,及該等二或多個音訊輸入聲道信號之直接信號部分上之功率頻譜密度資訊,或-該等二或多個音訊輸入聲道信號之直接信號部分上之功率頻譜密度資訊,及該等二或多個音訊輸入聲道信號之周圍信號部分上之功率頻譜密度資訊,原因在於第三功率頻譜密度資訊(尚未經估計)從三種功率頻譜密度資訊的關係變得即刻顯然易知,例如藉式(20)或藉該等三種功率頻譜密度資訊(完整輸入信號之PSD、周圍成分之PSD、及直接成分之PSD)的關係之任何其它改寫,此時該等三種PSD資訊並非表示為矩陣,反而係以另一種合宜表示型態獲得,例如呈一或多個向量,或例如呈多個係數等。
為了評比所修訂方法的效能,定義下列信號:●直接信號失真:q d (m,k)=[I-H D (m,k)] H d(m,k),●殘差周圍信號: ●周圍信號失真:q a (m,k)=[I-H A (m,k)] H a(m,k),●殘差直接信號:
後文中,根據圖4及根據圖5描述濾波器矩陣的偏差如下。為了獲得更佳可讀性,捨棄子帶指數及時間指數。
首先,描述直接信號成分估計實施例。
所修訂方法的理論基礎為計算濾波器使得殘差周圍信號ra為最小化,同時限制直接信號失真qd。如此導致限制最佳化問題
限制條件為, 於該處為最大容許直接信號失真。該解係藉下式求出H D (β i )=[Φ d +β i Φ a ]-1 Φ d . (23)
用以計算第i聲道之直接輸出信號的濾波器等於h D,i (β i )=[Φ d +β i Φ a ]-1 Φ d u i . (24) 於該處ui為具有1於第i位置的長度N之一零向量。參數βi許可殘差周圍信號減低與周圍信號失真間的折衷。針對圖4描繪的系統,直接輸出信號中較低的殘差周圍位準結果導致周圍輸出信號中較高的周圍位準。較小直接信號失真結果導致周圍輸出信號中直接信號成分較佳的衰減。時間及頻率相依性參數βi可針對各個聲道分開設定,且可藉輸入信號或因而推衍的信號控制;容後詳述。
須注意藉將限制最佳問題公式化為如下可獲得類似解
限制條件為, 當Φd為序數一時,針對第i聲道信號的與βi間之關係推衍為 於該處為第i聲道中直接信號的PSD,及λ為多聲道直接對周圍比(DAR) 於該處方陣A的軌跡等於主對角線上元體的和,
須注意Φd為序數一的陳述只是假設。無論實際上此假設是否為真,本發明之實施例採用上式(26)、(27)及(28),即便實際上Φd的確切結果為Φd非為序數一的情況亦復如此。於此等情況下,即使Φd為序數一的假設於實際上非為真,本發明之實施例也可獲得良好結果。
後文中,描述周圍信號成分的一估計。
所修訂方法的理論基礎為計算濾波器使得殘差直接信號rd為最小化,同時限制周圍信號失真qa。如此導致限制最佳化問題
限制條件為, 於該處為最大容許直接信號失真。該解係藉下式求出H A (β i )=[β i Φ d +Φ a ]-1 Φ a . (30)用以計算第i聲道之周圍輸出信號的濾波器等於h A,i (β i )=[β i Φ d +Φ a ]-1 Φ a u i . (31)
後文中,實施例係以實現本發明之構思的細節提出。
為了決定功率頻譜密度資訊,例如音訊輸入聲道信號之PSD矩陣Φy可使用短時間移動平均或遞歸平均直接估計。周圍PSD矩陣Φa例如可如下述估計。直接PSD矩陣Φd然後可使用式(20)求出。
後文中,再度假設各個子帶中(單一直接音源)一次不多於一個直接音源為作用態,及結果Φd為序數一。
須注意不多於一個直接音源為作用態及Φd為序數一的陳述只是假設。無論實際上此等假設是否為真,本發明之實施例採用下式,更明確言之式(32)及(33),即便於該處實際上不多於一個直接音源為作用態及即便於實際上,Φd的確切結果使得Φd非為序數一之情況下亦復如此。於此等情況下,本發明之實施例也可提供良好結果,即使實際上不多於一個直接音源為作用態及Φd為序數一的假設非為真亦復如此。
如此,假設不多於一個直接音源為作用態,及Φd為序數一,式(23)可被寫成
式(33)提出式(22)之該限制最佳化問題的一解。
於上式(32)及(33)中,Φa -1為Φa的反矩陣。顯然Φa -1也指示於該等二或多個音訊輸入聲道信號之周圍信號部分上的功率頻譜密度資訊。
為了決定HDi),必須決定Φa -1及Φa。當得知Φa時,能夠即刻決定Φa -1。λ係根據式(27)及(28)定義,當得知Φa -1及Φa時可得知λ值。除了決定Φa -1、Φa及λ之外,必須選定βi之適合值。
再者,式(33)可改寫(參考式(20)),使得: 及因此使得只須決定音訊輸入聲道信號上的PSD資訊Φy及音訊輸入聲道信號之直接信號部分上的PSD資訊Φd
此外,式(33)可改寫(參考式(20)),使得: 及因此使得只須決定音訊輸入聲道信號之周圍信號部分上的PSD資訊Φa -1及音訊輸入聲道信號之直接信號部分上的PSD資訊Φd
此外,式(33)可經改寫使得: 及因此使得決定HAi)。
式(33c)給式(29)的限制最佳化問題提供一解。
同理,式(33a)及(33b)可改寫為: 或改寫為:
須注意藉決定HDi),濾波器HAi)即刻可得知為:H A (β i )=I N×N -H D (β i )。
又復,須注意藉決定HAi),濾波器HDi)即刻可得知為:H D (β i )=I N×N -H A (β i )。
如前文陳述,為了決定HDi),例如根據式(33),可決定Φy及Φd:音訊信號之PSD矩陣Φy(m,k)例如可藉使用遞歸平均直接估計Φ y (m,k)=(1-α)y(m,k)y H (m,k)+α Φ y (m-1,k), (34a)於該處α為決定積分時間的一濾波係數,或例如藉使用短時間移動加權平均Φ y (m,k)=b 0y (m,k) y H (m,k)+b 1y (m-1,k) y H (m-1,k)+b 2y (m-2,k) y H (m-2,k)+...+b L y (m-L,k) y H (m-L,k) (34b) 於該處L為例如用於PSD的計算的過去值的數目,及b0...bL為例如於[0 1]之範圍(例如0濾波係數1)的濾波係數,或例如,根據式(34b)藉使用短時間移動平均,但對全部i=0...L 具有
現在描述依據實施例估計周圍PSD矩陣Φa
該周圍PSD矩陣Φa係由下式給定 於該處INxN為大小NxN的身分矩陣。為例如一數字。
依據一實施例的一解為例如藉使用一常數值,藉使用式(21)及設定為一實數正常數ε求得。此種辦法的優點為計算複雜度為可忽略。
於實施例中,濾波器決定單元110係經組配以依據該等二或多個音訊輸入聲道信號而決定
依據一實施例,具有極低計算複雜度的一個選項係使用輸入功率之一分量及設定為該輸入PSD的平均值或最小值或其分量,例如 於該處參數g控制周圍功率量,及0<g<1。
依據又一實施例,根據幾何平均進行估算。給定結果導致式(20)及式(21)之假設,可顯示PSD 可使用下式計算 雖然tr{Φy}可使用例如式(34a)之遞歸積分,或使用例如式(34b)之短時間移動加權平均直接計算,但tr{Φd}係估計為
另外,藉選擇兩個輸入聲道信號及只針對一對信號聲道估計(m,k)可對N>2計算PSD (m,k)。當施用本程序至多於一對輸入聲道信號及組合其結果,例如藉求估值的總平均時可獲得更準確結果。藉先驗地利用有關具有類似周圍功率的聲道,例如藉分開地估計5.1紀錄的全部前聲道及全部後聲道中之周圍功率,可選定該等子集。
此外,須注意從式(20)及(35),接著
依據若干實施例,Φd係藉決定(例如根據式(35),或式(36)或根據式(37)至(40))及藉採用式(35a)以獲得音訊輸入聲道信號之周圍信號部分上的功率頻譜密度資訊而予決定。然後,例如藉採用式(33a)可決定HDi)。
後文中,考慮參數βi的選擇。
βi乃一折衷參數。折衷參數βi為一數字。
於若干實施例中,只決定一個折衷參數βi其針對全部音訊輸入聲道信號為有效,及此折衷參數然後被考慮 為該等音訊輸入聲道信號的折衷資訊。
於其它實施例中,針對該等二或多個音訊輸入聲道信號各自決定一個折衷參數βi,及然後,音訊輸入聲道信號的此等二或多個折衷參數一起形成折衷資訊。
於進一步實施例中,折衷資訊可不表示為一參數,反而以不同種適當形式表示。
如前記,參數βi允許周圍信號減低與直接信號失真間之折衷。如圖6b所示,其可選擇為常數或信號相依性。
圖6b例示依據又一實施例的裝置。該裝置包含一分析濾波器組605用以將該等音訊輸入聲道信號yt[n]從時域變換成時頻域。此外,該裝置包含一合成濾波器組625用以將該等一或多個音訊輸出聲道信號(例如該等音訊輸入聲道信號的估計直接信號成分d 1[n],...,d N [n])從時頻域變換成時域。
多個K個β決定單元1111、...、11K1(「計算β」)決定參數βi。此外,多個K個子濾波器決定單元1112、...、11K2決定子濾波器。依據一特定實施例,多個β決定單元1111、...、11K1及多個子濾波器決定單元1112、...、11K2一起形成圖1及圖6a的濾波器決定單元110。依據一特定實施例,多個子濾波器一起形成圖1及圖6a的濾波器。
此外,圖6b例示多個信號子處理器121、...、12K,其中各個信號子處理器121、...、12K係經組配以施用子濾波器中之一者至音訊輸入聲道信號上 以獲得音訊輸出聲道信號中之一者。依據特定實施例,多個信號子處理器121、...、12K一起形成圖1及圖6a的信號處理器。
後文中,描述利用信號分析以控制參數βi的不同使用情況。
首先,考慮過渡信號。
依據一實施例,濾波器決定單元110係經組配以取決於一過渡是否存在於該等二或多個音訊輸入聲道信號中之至少一者而決定折衷資訊(βij)。
輸入PSD矩陣的估計對靜態信號的效果最佳。另一方面,過渡輸入信號的分解可能導致過渡信號成分洩漏入周圍輸出信號中。就非靜態或過渡存在機率之程度而言,利用信號分析控制βi,使得當信號包含過渡時βi為較小,而當施用濾波器HDi)時持久部分為較大:結果導致更為一致的輸出信號。就非靜態或過渡存在機率之程度而言,利用信號分析控制βi,使得當信號包含過渡時βi為較大,而當施用濾波器HAi)時持久部分為較小:結果導致更為一致的輸出信號。
現在考慮非期望周圍信號。
於一個實施例中,濾波器決定單元110係經組配以取決於在該等二或多個音訊輸入聲道信號中之一者通過其中傳輸的至少一個信號聲道中加成雜訊的存在而決定折衷資訊(βij)。
所提示之方法分解輸入信號而與周圍信號成分 的本質無關。當輸入信號已經透過噪雜信號聲道傳輸時,優異地係估計非期望的加成雜訊存在之機率,及控制βi使得輸出直接對周圍比(DAR)增加。
現在描述控制輸出信號之位準。
為了控制輸出信號之位準,可針對第i聲道分開設定βi。計算第i聲道的周圍輸出信號之濾波器係藉式(31)給定。
針對任二聲道,給定βi可計算βi使得在第i及第j輸出聲道的殘差周圍信號ra,i及ra,j的PSD為相等,亦即 或(u i -h D,i (β i )) H Φ a (u i -h D,i (β i ))=(u j -h D,j (β j )) H Φ a (u j -h D,j (β j )). (42)另外,可計算βi使得針對全部成對i及j的輸出周圍信號的PSD為相等。
現在考慮使用汰選資訊。
對二輸入聲道的情況,汰選資訊定量每個子帶兩個聲道間之位準差。可應用汰選資訊以控制βi來控制察知的輸出信號寬度。
後文中,考慮等化輸出周圍聲道信號。
所描述的處理並不確保全部輸出周圍聲道信號具有相等子帶功率。為了確保全部輸出周圍聲道信號具有相等子帶功率,針對使用前述濾波器HD的實施例,濾波器係如後文描述修正。周圍輸出信號的協方差矩陣(包含在主 對角線上各個聲道的自動-PSD)可獲得為Φ â =(I-H D ) H Φ y (I-H D ). (43)為了確保全部輸出周圍聲道的PSD為相等,濾波器HD置換: 於該處G為對角矩陣其在主對角線上的元體為
針對使用前述濾波器HA的實施例,周圍輸出信號的協方差矩陣(包含在主對角線上各個聲道的自動-PSD)可獲得為 為了確保全部輸出周圍聲道的PSD為相等,濾波器HA置換:
雖然若干面向已經以裝置脈絡描述,但顯然此等面向也表示相對應方法的描述,於該處一方塊或一裝置係相對應於一方法步驟或一方法步驟的特徵。同理,於一方法步驟之脈絡中描述的面向也表示相對應裝置的一相對應方塊或項目或特徵的描述。
本發明之已分解信號可儲存於一數位儲存媒體上,或可於傳輸媒體諸如無線傳輸媒體或有線傳輸媒體諸如網際網路上傳輸。
取決於某些實現要求,本發明之實施例可於硬體或軟體實現。該實現可使用數位儲存媒體執行,例如軟碟、 DVD、CD、ROM、PROM、EPROM、EEPROM、或快閃記憶體具有可電子讀取控制信號儲存於其上,其與可規劃電腦系統協力(或能夠協力)以進行個別方法。
依據本發明之若干實施例包含一種具有可電子讀取控制信號之非過渡資料載體,其能夠與可規劃電腦系統協力使得進行此處描述的方法中之一者。
概略言之,本發明之實施例可實現為具有程式碼的電腦程式產品,當該電腦程式產品在電腦上跑時該程式碼係操作以執行該等方法中之一者。該程式碼例如可儲存於機器可讀取載體上。
其它實施例包含儲存於機器可讀取載體上的用以執行該等方法中之一者的電腦程式。
因此,換言之,本發明方法之一實施例為一電腦程式具有一程式碼用以當該電腦程式在電腦上跑時該程式碼用以執行該等方法中之一者。
本發明方法之又一實施例因而為一資料載體(或數位儲存媒體,或電腦可讀取媒體)包含用以執行此處描述的該等方法中之一者之電腦程式。
本發明方法之又一實施例因而為一種表示用以執行此處描述的該等方法中之一者之電腦程式的一資料串流或一信號序列。該資料串流或信號序列例如可經組配以透過資料通訊連結,例如透過網際網路傳送。
又一實施例包含經組配以或適用以執行此處描述的該等方法中之一者的處理構件例如電腦或可規劃邏輯 裝置。
又一實施例包含一電腦具有用以執行此處描述的該等方法中之一者之電腦程式安裝於其上。
於若干實施例中,可規劃邏輯裝置(例如可現場程式規劃閘陣列)可用以執行此處描述的該等方法的部分或全部功能。於若干實施例中,於若干實施例中,可現場程式規劃閘陣列可與一微處理器協力以執行此處描述的該等方法中之一者。大致上,該等方法較佳係藉任何硬體裝置進行。
前述實施例係僅供例示本發明之原理。須瞭解熟諳技藝人士顯然易知配置及此處描述的細節之修改及變化。因此,意圖本發明之範圍僅受尚待審查中之申請專利範圍各項之範圍所限而非由呈示用以描述及解釋此處實施例之特定細節所限。
參考文獻
[1] J.B. Allen, D.A. Berkeley, and J. Blauert, "Multimicrophone signal-processing technique to remove room reverberation from speech signals", J.Acoust.Soc. Am.,vol.62, 1977.
[2] C. Avendano and J.-M. Jot, "A frequency-domain approach to multi-channel upmix”, J. Audio Eng. Soc., vol. 52, 2004.
[3] C. Faller, "Multiple-loudspeaker playback of stereo signals", J. Audio Eng. Soc., vol. 54, 2006.
[4] J. Merimaa, M. Goodwin, and J.-M. Jot, "Correlation-based ambience extraction from stereo recordings”, in Proc. of the AES 123rd Conv., 2007.
[5] Ville Pulkki, "Directional audio coding in spatial sound reproduction and stereo upmixing", in Proc. of the AES 28th Int. Conf., 2006.
[6] J. Usher and J. Benesty, "Enhancement of spatial sound quality: A new reverberation-extraction audio upmixer", IEEE Tram. on Audio, Speech. and Language Processing, vol.15, pp. 2141-2150, 2007.
[7] A. Walther and C. Faller, "Direct-ambient decomposition and upmix of surround sound signals", in Proc. of IEEE WASPAA,2011.
[8] C. Uhle, J. Herre, S. Geyersberger, F. Ridderbusch, A. Walter; and O. Moser, "Apparatus and method for extracting an ambient signal in an: apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program", US Patent Application 2009/0080666, 2009.
[9] C. Uhle, J. Herre, A. Walther, O. Hellmuth, and C. Janssen, "Apparatus and method for generating an ambient signal from an audio signal, apparatus and method for deriving a multi-channel audio signal from an audio signal and computer program", US Patent Application 2010/0030563, 2010.
[10] G. Soulodre, "System for extracting and changing the reverberant content of an audio input signal", US Patent 8,036,767, Date of Patent: October 11, 2011.
110‧‧‧濾波器決定單元
120‧‧‧信號處理器

Claims (15)

  1. 一種用以取決於二或多個音訊輸入聲道信號生成一或多個音訊輸出聲道信號之裝置,其中該等二或多個音訊輸入聲道信號各自係包含直接信號部分及周圍信號部分,其中該裝置包含:用以藉估計第一功率頻譜密度資訊及藉估計第二功率頻譜密度資訊而決定一濾波器的一濾波器決定單元,及用以藉施用該濾波器於該等二或多個音訊輸入聲道信號上而生成該等一或多個音訊輸出聲道信號之一信號處理器,其中該第一功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號上的功率頻譜密度資訊,及該第二功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等周圍信號部分上的功率頻譜密度資訊,或其中該第一功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號上的功率頻譜密度資訊,及該第二功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等直接信號部分上的功率頻譜密度資訊,或其中該第一功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等直接信號部分上的功率頻譜密度資訊,及該第二功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等周圍信號部分上的功 率頻譜密度資訊。
  2. 如請求項1之裝置,其中該裝置係進一步包含用以將該等二或多個音訊輸入聲道信號從一時域變換成一時頻域的一分析濾波器組,其中該濾波器決定單元係經組配以取決於以該時頻域表示的該等音訊輸入聲道信號,藉估計該第一功率頻譜密度資訊及該第二功率頻譜密度資訊而決定該濾波器,其中該信號處理器係經組配以藉施用該濾波器於以該時頻域表示的該等二或多個音訊輸入聲道信號上而生成以該時頻域表示的該等一或多個音訊輸出聲道信號,及其中該裝置係進一步包含用以將以該時頻域表示的該等一或多個音訊輸出聲道信號從該時頻域變換成該時域的一合成濾波器組。
  3. 如請求項1或2之裝置,其中該濾波器決定單元係經組配以取決於該等二或多個音訊輸入聲道信號中之至少一者藉估計該第一功率頻譜密度資訊,藉估計該第二功率頻譜密度資訊,及藉決定折衷資訊(βij)而決定該濾波器。
  4. 如請求項3之裝置,其中該濾波器決定單元係經組配以取決於一過渡是否存在於該等二或多個音訊輸入聲道信號中之至少一者而決定該折衷資訊(βij)。
  5. 如請求項3或4之裝置,其中該濾波器決定單元係經組配以取決於加成雜訊是否存在於該等二或多個音訊輸入聲道信號中之一者透過其傳輸的至少一個信號聲道中而決定該折衷資訊(βij)。
  6. 如請求項3至5中任一項之裝置,其中該濾波器決定單元係經組配以取決於一第一矩陣(Φy)以決定在該等二或多個音訊輸入聲道信號上的該功率頻譜密度資訊,該第一矩陣(Φy)包含針對該第一矩陣(Φy)之該主對角線上該等二或多個音訊輸入聲道信號之各個聲道信號的該功率頻譜密度之一估計,及係經組配以取決於該第二矩陣(Φa)或取決於該第二矩陣(Φa)之一反矩陣(Φa -1)以決定在該等二或多個音訊輸入聲道信號之該周圍信號部分上的該功率頻譜密度資訊,該第二矩陣(Φa)包含針對該第二矩陣(Φa)之該主對角線上該等二或多個音訊輸入聲道信號之各個聲道信號的該等周圍信號部分之該功率頻譜密度之一估計,或其中該濾波器決定單元係經組配以取決於一第一矩陣(Φy)以決定在該等二或多個音訊輸入聲道信號上的該功率頻譜密度資訊,該第一矩陣(Φy)包含針對該第一矩陣(Φy)之該主對角線上該等二或多個音訊輸入聲道信號之各個聲道信號的該功率頻譜密度之一估計,及係經組配以取決於該第三矩陣(Φd)或取決於該第三矩陣(Φd)之一反矩陣(Φd -1)以決定在該等二或多個音訊輸入聲道信號之該直接信號部分上的該功率頻譜密度資訊,該第 三矩陣(Φd)包含針對該第三矩陣(Φd)之該主對角線上該等二或多個音訊輸入聲道信號之各個聲道信號的該等直接信號部分之該功率頻譜密度之一估計,或其中該濾波器決定單元係經組配以取決於該第二矩陣(Φa)或取決於該第二矩陣(Φa)之一反矩陣(Φa -1)以決定在該等二或多個音訊輸入聲道信號之該周圍信號部分上的該功率頻譜密度資訊,及係經組配以取決於該第三矩陣(Φd)或取決於該第三矩陣(Φd)之一反矩陣(Φd -1)以決定在該等二或多個音訊輸入聲道信號之該直接信號部分上的該功率頻譜密度資訊。
  7. 如請求項6之裝置,其中該濾波器決定單元係經組配以決定該第一矩陣(Φy)以決定在該等二或多個音訊輸入聲道信號上的該功率頻譜密度資訊,及係經組配以決定該第二矩陣(Φa)或該第二矩陣(Φa)之一反矩陣(Φa -1)以決定在該等二或多個音訊輸入聲道信號之該周圍信號部分上的該功率頻譜密度資訊,或其中該濾波器決定單元係經組配以決定該第一矩陣(Φy)以決定在該等二或多個音訊輸入聲道信號上的該功率頻譜密度資訊,及係經組配以決定該第三矩陣(Φd)或該第三矩陣(Φd)之一反矩陣(Φd -1)以決定在該等二或多個音訊輸入聲道信號之該直接信號部分上的該功率頻譜密度資訊,或其中該濾波器決定單元係經組配以決定該第二矩 陣(Φa)或該第二矩陣(Φa)之一反矩陣(Φa -1)以決定在該等二或多個音訊輸入聲道信號之該周圍信號部分上的該功率頻譜密度資訊,及係經組配以決定該第三矩陣(Φd)或該第三矩陣(Φd)之一反矩陣(Φd -1)以決定在該等二或多個音訊輸入聲道信號之該直接信號部分上的該功率頻譜密度資訊。
  8. 如請求項6或7之裝置,其中該濾波器決定單元係經組配以根據下式 或根據下式 或根據下式決定HDi) 其中該濾波器決定單元係經組配以根據下式 或根據下式 或根據下式決定HAi) 其中Φy為該第一矩陣,其中Φa為該第二矩陣,其中Φa -1為第二矩陣之該反矩陣, 其中Φd為該第三矩陣,其中INxN為大小NxN的一單元矩陣,其中N指示該等音訊輸入聲道信號之該數目,其中βi為該折衷資訊係為一數字,及 其中, 其中tr為該軌跡運算元。
  9. 如請求項3至8中任一項之裝置,其中該濾波器決定單元係經組配以針對二或多個音訊輸入聲道信號各自決定一折衷參數(βij)作為該折衷資訊(βij),其中該等音訊輸入聲道信號各自的該折衷參數(βij)係取決於該音訊輸入聲道信號。
  10. 如請求項8之裝置,其中該濾波器決定單元係經組配以針對二或多個音訊輸入聲道信號各自決定一折衷參數(βij)作為該折衷資訊(βij),使得針對各對該等音訊輸入聲道信號之一第一音訊輸入聲道信號及該等音訊輸入聲道信號之另一第二音訊輸入聲道信號 係為真,其中βi為該第一音訊輸入聲道信號之該折衷參數,其中βj為該第二音訊輸入聲道信號之該折衷參數,其中h A,i (β i )=[β i Φ d +Φ a ]-1 Φ a u i ,其中(β i )為h A,i (β i )的共軛轉置矩陣,及 其中ui為具有1於該第i位置的長度N之一零向量。
  11. 如請求項8或10之裝置,其中該濾波器決定單元係經組配以根據下式決定該第二矩陣Φa 其中該濾波器決定單元係經組配以根據下式決定該第三矩陣Φd 其中為一數字。
  12. 如請求項11之裝置,其中該濾波器決定單元係經組配以取決於該等二或多個音訊輸入聲道信號而決定
  13. 如請求項1至7中任一項之裝置,其中該濾波器決定單元係經組配以藉估計第一功率頻譜密度資訊及藉估計第二功率頻譜密度資訊而決定一中間濾波器矩陣HD,及其中該濾波器決定單元係經組配以根據下式,取決於該中間濾波器矩陣HD決定該濾波器 其中I為一單元矩陣,及其中G為一對角矩陣,其中該信號處理器係經組配以藉施用該濾波器於該等二或多個音訊輸入聲道信號上而生成該等一或多個音訊輸出聲道信號。
  14. 一種用以取決於二或多個音訊輸入聲道信號生成一或 多個音訊輸出聲道信號之裝置,其中該等二或多個音訊輸入聲道信號各自係包含直接信號部分及周圍信號部分,其中該方法包含:藉估計第一功率頻譜密度資訊及藉估計第二功率頻譜密度資訊而決定一濾波器,及藉施用該濾波器於該等二或多個音訊輸入聲道信號上而生成該等一或多個音訊輸出聲道信號,其中該第一功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號上的功率頻譜密度資訊,及該第二功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等周圍信號部分上的功率頻譜密度資訊,或其中該第一功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號上的功率頻譜密度資訊,及該第二功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等直接信號部分上的功率頻譜密度資訊,或其中該第一功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等直接信號部分上的功率頻譜密度資訊,及該第二功率頻譜密度資訊指示於該等二或多個音訊輸入聲道信號之該等周圍信號部分上的功率頻譜密度資訊。
  15. 一種當在一電腦或處理器上執行時用以實現如請求項14之方法之電腦程式。
TW103104240A 2013-03-05 2014-02-10 用於音訊信號處理之多聲道直接-周圍分解之裝置及方法 TWI639347B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201361772708P 2013-03-05 2013-03-05
US61/772,708 2013-03-05
PCT/EP2013/072170 WO2014135235A1 (en) 2013-03-05 2013-10-23 Apparatus and method for multichannel direct-ambient decomposition for audio signal processing
??PCT/EP2013/072170 2013-10-23

Publications (2)

Publication Number Publication Date
TW201444383A true TW201444383A (zh) 2014-11-16
TWI639347B TWI639347B (zh) 2018-10-21

Family

ID=49552336

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103104240A TWI639347B (zh) 2013-03-05 2014-02-10 用於音訊信號處理之多聲道直接-周圍分解之裝置及方法

Country Status (18)

Country Link
US (1) US10395660B2 (zh)
EP (1) EP2965540B1 (zh)
JP (2) JP6385376B2 (zh)
KR (1) KR101984115B1 (zh)
CN (1) CN105409247B (zh)
AR (1) AR095026A1 (zh)
AU (1) AU2013380608B2 (zh)
BR (1) BR112015021520B1 (zh)
CA (1) CA2903900C (zh)
ES (1) ES2742853T3 (zh)
HK (1) HK1219378A1 (zh)
MX (1) MX354633B (zh)
MY (1) MY179136A (zh)
PL (1) PL2965540T3 (zh)
RU (1) RU2650026C2 (zh)
SG (1) SG11201507066PA (zh)
TW (1) TWI639347B (zh)
WO (1) WO2014135235A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI584274B (zh) * 2016-02-02 2017-05-21 美律實業股份有限公司 具逆相位衰減特性之共腔體式背箱設計揚聲器系統的音源訊號處理方法及其裝置
TWI584271B (zh) * 2015-03-09 2017-05-21 弗勞恩霍夫爾協會 編碼裝置及其編碼方法、解碼裝置及其解碼方法、電腦程式

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX354633B (es) 2013-03-05 2018-03-14 Fraunhofer Ges Forschung Aparato y metodo para la descomposicion directa-ambiental de multicanal para el procesamiento de señales de audio.
US9769586B2 (en) 2013-05-29 2017-09-19 Qualcomm Incorporated Performing order reduction with respect to higher order ambisonic coefficients
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
CN105992120B (zh) 2015-02-09 2019-12-31 杜比实验室特许公司 音频信号的上混音
EP3257270B1 (en) 2015-03-27 2019-02-06 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for processing stereo signals for reproduction in cars to achieve individual three-dimensional sound by frontal loudspeakers
CN106297813A (zh) 2015-05-28 2017-01-04 杜比实验室特许公司 分离的音频分析和处理
EP3357259B1 (en) 2015-09-30 2020-09-23 Dolby International AB Method and apparatus for generating 3d audio content from two-channel stereo content
US9930466B2 (en) * 2015-12-21 2018-03-27 Thomson Licensing Method and apparatus for processing audio content
CN106412792B (zh) * 2016-09-05 2018-10-30 上海艺瓣文化传播有限公司 对原立体声文件重新进行空间化处理并合成的***及方法
GB201716522D0 (en) * 2017-10-09 2017-11-22 Nokia Technologies Oy Audio signal rendering
SG11202004430YA (en) 2017-11-17 2020-06-29 Fraunhofer Ges Forschung Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions
EP3518562A1 (en) 2018-01-29 2019-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal processor, system and methods distributing an ambient signal to a plurality of ambient signal channels
EP3573058B1 (en) * 2018-05-23 2021-02-24 Harman Becker Automotive Systems GmbH Dry sound and ambient sound separation
US11205435B2 (en) 2018-08-17 2021-12-21 Dts, Inc. Spatial audio signal encoder
US10796704B2 (en) 2018-08-17 2020-10-06 Dts, Inc. Spatial audio signal decoder
CN109036455B (zh) * 2018-09-17 2020-11-06 中科上声(苏州)电子有限公司 直达声与背景声提取方法、扬声器***及其声重放方法
EP3671739A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Apparatus and method for source separation using an estimation and control of sound quality
WO2020247033A1 (en) * 2019-06-06 2020-12-10 Dts, Inc. Hybrid spatial audio decoder
DE102020108958A1 (de) 2020-03-31 2021-09-30 Harman Becker Automotive Systems Gmbh Verfahren zum Darbieten eines ersten Audiosignals während der Darbietung eines zweiten Audiosignals
WO2023170756A1 (ja) * 2022-03-07 2023-09-14 ヤマハ株式会社 音響処理方法、音響処理システムおよびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8036767B2 (en) 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
DE102006050068B4 (de) * 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
US8478587B2 (en) 2007-03-16 2013-07-02 Panasonic Corporation Voice analysis device, voice analysis method, voice analysis program, and system integration circuit
US8588427B2 (en) * 2007-09-26 2013-11-19 Frauhnhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
CA2790956C (en) * 2010-02-24 2017-01-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
MX354633B (es) 2013-03-05 2018-03-14 Fraunhofer Ges Forschung Aparato y metodo para la descomposicion directa-ambiental de multicanal para el procesamiento de señales de audio.

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI584271B (zh) * 2015-03-09 2017-05-21 弗勞恩霍夫爾協會 編碼裝置及其編碼方法、解碼裝置及其解碼方法、電腦程式
US10388289B2 (en) 2015-03-09 2019-08-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multi-channel signal
US10762909B2 (en) 2015-03-09 2020-09-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multi-channel signal
US11508384B2 (en) 2015-03-09 2022-11-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multi-channel signal
US11955131B2 (en) 2015-03-09 2024-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multi-channel signal
TWI584274B (zh) * 2016-02-02 2017-05-21 美律實業股份有限公司 具逆相位衰減特性之共腔體式背箱設計揚聲器系統的音源訊號處理方法及其裝置

Also Published As

Publication number Publication date
US10395660B2 (en) 2019-08-27
JP2016513814A (ja) 2016-05-16
AR095026A1 (es) 2015-09-16
SG11201507066PA (en) 2015-10-29
JP6385376B2 (ja) 2018-09-05
US20150380002A1 (en) 2015-12-31
KR20150132223A (ko) 2015-11-25
BR112015021520A2 (pt) 2017-08-22
TWI639347B (zh) 2018-10-21
CA2903900A1 (en) 2014-09-12
MY179136A (en) 2020-10-28
WO2014135235A1 (en) 2014-09-12
AU2013380608A1 (en) 2015-10-29
JP2018036666A (ja) 2018-03-08
RU2015141871A (ru) 2017-04-07
PL2965540T3 (pl) 2019-11-29
CN105409247B (zh) 2020-12-29
CA2903900C (en) 2018-06-05
AU2013380608B2 (en) 2017-04-20
EP2965540A1 (en) 2016-01-13
JP6637014B2 (ja) 2020-01-29
CN105409247A (zh) 2016-03-16
MX2015011570A (es) 2015-12-09
HK1219378A1 (zh) 2017-03-31
BR112015021520B1 (pt) 2021-07-13
KR101984115B1 (ko) 2019-05-31
EP2965540B1 (en) 2019-05-22
RU2650026C2 (ru) 2018-04-06
ES2742853T3 (es) 2020-02-17
MX354633B (es) 2018-03-14

Similar Documents

Publication Publication Date Title
TWI639347B (zh) 用於音訊信號處理之多聲道直接-周圍分解之裝置及方法
US10573328B2 (en) Determining the inter-channel time difference of a multi-channel audio signal
JP6374502B2 (ja) オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ
AU2011340890B2 (en) Apparatus and method for decomposing an input signal using a pre-calculated reference curve
JP5906312B2 (ja) スペクトル重みジェネレータを使用する周波数領域処理を用いてステレオ録音を分解するための方法および装置