TWI646847B - 屬於第1階保真立體音響訊號且具有第0階和第1階係數的輸入訊號指向性之增進方法及裝置 - Google Patents

屬於第1階保真立體音響訊號且具有第0階和第1階係數的輸入訊號指向性之增進方法及裝置 Download PDF

Info

Publication number
TWI646847B
TWI646847B TW103110577A TW103110577A TWI646847B TW I646847 B TWI646847 B TW I646847B TW 103110577 A TW103110577 A TW 103110577A TW 103110577 A TW103110577 A TW 103110577A TW I646847 B TWI646847 B TW I646847B
Authority
TW
Taiwan
Prior art keywords
order
signal
fidelity stereo
format
fidelity
Prior art date
Application number
TW103110577A
Other languages
English (en)
Other versions
TW201442522A (zh
Inventor
約哈拿斯 波漢
Original Assignee
瑞典商杜比國際公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 瑞典商杜比國際公司 filed Critical 瑞典商杜比國際公司
Publication of TW201442522A publication Critical patent/TW201442522A/zh
Application granted granted Critical
Publication of TWI646847B publication Critical patent/TWI646847B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • G06F17/156Correlation function computation including computation of convolution operations using a domain transform, e.g. Fourier transform, polynomial transform, number theoretic transform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Stereophonic Arrangements (AREA)

Abstract

從提供第1階保真立體音響(Ambisonics)訊號(所謂B格式訊號)之微音器記錄,可供有限度辨認聲音指向性。感受到的聲源比實際為廣,尤其是離開中心的傾聽位置,而聲源往往位在來自最近的揚聲器位置。在增進第1階保真立體音響(Ambisonics)訊號之方法和裝置中,從較低階保真立體音響(Ambisonics)輸入訊號(10),獲取(SFA)額外指向性資訊(22,23)。額外指向性資訊用來估計較高階保真立體音響(Higher Order Ambisonics)係數,再與輸入訊號係數合併(CS)。因此,增進保真立體音響(Ambisonics)訊號之指向性,以致保真立體音響(Ambisonics)訊號解碼成揚聲器訊號時,提高空間源局部化之準確性。所得輸出訊號具有比輸入訊號更大能量。

Description

屬於第1階保真立體音響訊號且具有第0階和第1階係數的輸入訊號指向性之增進方法及裝置
本發明係關於保真立體音響(Ambisonics)聲訊訊號處理和音響學之領域。
保真立體音響(Ambisonics)是依據聲音壓力記載聲訊場景的技術、處理記錄、製作、傳輸、回放複合聲訊場景,具有優異空間解像度,2D和3D兼用。在保真立體音響(Ambisonics)中,空間聲訊場景是以Fourier-Bessel系列的係數說明。已知微音器陣列,提供第1階保真立體音響(Ambisonics)訊號,即所謂B格式訊號。然而,把第1階保真立體音響(Ambisonics)訊號解碼、描繪於2D周圍或3D之揚聲器配置,只能提供有限度辨識聲音指向性。聲源的感受往往比實際寬廣。尤其是離中心的傾聽位置,聲源常被定位為來自最近的揚聲器位置,而非在揚聲器間之所欲虛擬位置。第1階保真立體音響(Ambisonics) (B格式)訊號,是由Fourier-Bessel系列說明聲壓的四個係數(形成3D聲場表示法)所構成。即W通道(單混合,或第0階)和X,Y,Z通道(第1階)。較高階訊號使用較多係數,當係數解碼成揚聲器訊號時,可提高空間源局部化之準確性。然而,此等較高階訊號並未包含在微音器陣列提供之B格式訊號內。
指向性聲訊寫碼(DirAC)為已知技術[註5,註9],以表示或複製聲訊訊號。使用B格式解碼器,把直達聲從擴散聲分開,再使用向量基礎的振幅泛移(VBAP,vector-Based Amplitude Panning),供選擇性放大頻率域內之直達聲,而在合成過濾後,最後在其輸出提供揚聲器訊號。
第1a圖表示DirAC基礎的B格式解碼之結構。B格式訊號10是時間域訊號,在分析過濾器庫AFB(analysis filter bank)D內過濾成K頻帶11。聲場分析區塊SFAD估計擴散估計值Ψ(f k )和到達方向(DoA)12。DoA是在頻帶k特別中間頻率時,方向對聲源之方向角和傾角θ(f k )。第1階保真立體音響(Ambisonics)解碼器AmbD,把保真立體音響(Ambisonics)訊號描繪到L揚聲器訊號14。直達擴散分離區塊DDS,使用從擴散性估計13所決定之過濾器,把第1階保真立體音響(Ambisonics)訊號,分開成L直達聲訊號15和L擴散聲訊號16。L擴散聲訊號16是由解碼 器AmbD的輸出14乘以由擴散性估計13所得導出。 指向性訊號是乘以導出。直達聲訊號15使用稱為 向量基礎振幅泛移(VBAP,Vector-Based Amplitude Panning)之技術,進一步處理[註8]。在VBAP(Vector-Based Amplitude Panning)單位VP內,按照DoA 12和揚聲器位置,乘以各揚聲器訊號(在各頻帶內)之增益值,以泛移直達聲至所需方向。擴散訊號16利用解相關過濾DF解相關,而解相關擴散訊號17,添加到從VPAB單位VP所得直達聲訊號18。合成過濾器庫SFBD把頻帶組合到時間域訊號19,後者可利用L揚聲器重製。應用時間整合用的平滑過濾器(第1圖內未示),來計算擴散性估計Ψ(f)13,並平滑VBAP(Vector-Based Amplitude Panning)導出之增益值。
第1b圖表示聲場分析區塊SFAD之細部。B格式訊號表示在原點(觀察點,r=0)的頻率域內之聲場。聲音強度說明聲場內動態和潛能之輸送。在聲場內,並非聲能的所有局部運動,都相當於淨輸送。活性強度Ia(時間平均化音響強度,DoA~Ia),是指向性淨能輸送對三個笛卡幾(Cartesian)方向每單位時間之比率。B格式訊號11之活性強度11a,是在活性強度分析區塊AIA(active intensity analysis)D內獲得,並提供給擴散性分析區塊DABD和DoA分析區塊DOAAB(directions-of-arrival analysis block)D,分別輸出DoA 12和擴散性估計13。關於DirAC詳見[註9],基本理論載於[註5]。
亟需增進第1階保真立體音響(Ambisonics)訊號之指向性,諸如B格式微音器記錄。此等指向性增進為更具現實性重播所需,或是供真實記錄聲與其他較高階內容混合,例如供電影配音,旨在為不同的揚聲器設置重播。本發明要解決的一個問題是,增進第1階保真立體音響(Ambisonics)訊號或B格式訊號之指向性,即使此等訊號不可能用較高階係數。
按照本發明,此問題及其他問題可解決,藉選擇性放大直達聲成份,同時擴散聲成份不變。選擇性放大直達聲時,有利於獲得提高位階之保真立體音響(Ambisonics)格式化訊號,因為容易與其他保真立體音響(Ambisonics)格式化訊號混合。藉本發明即可提高第1階保真立體音響(Ambisonics)訊號之位階,因而只考慮指向性聲音成份。如此又造成保真立體音響(Ambisonics)格式化訊號,但較高階(即至少第2階)。原則上,所揭示增進第1階保真立體音響(Ambisonics)訊號指向性之方法,是從第1階係數資訊衍生較高階係數,並把此衍生之較高階係數加到保真立體音響(Ambisonics)訊號。因此,有益於維持(除非在一具體例中之再格式化)第1階保真立體音響(Ambisonics)訊號之第1階係數資訊(即第0階和第1階係數)。
換言之,從較低階保真立體音響(Ambisonics)訊號獲取額外指向性資訊,而額外指向性資訊用來估計較高階係數。以此方式,即可增進保真立體音響 (Ambisonics)訊號之指向性,當保真立體音響(Ambisonics)訊號解碼至揚聲器訊號時,導致提高空間聲源局部化之準確性。本發明之一效果是,所得輸出訊號較輸入訊號更大能量。
本發明如申請專利範圍第1項所界定,係關於第1階保真立體音響(Ambisonics)訊號且具有第0階或第1階係數的輸入訊號指向性之增進方法。
本發明又如申請專利範圍第9項所界定,係關於具有第0階和第1階係數的第1階保真立體音響(Ambisonics)訊號指向性之增進裝置。
再者,本發明關係電腦可讀式儲存媒體,其上儲存有電腦可讀式指令,在電腦上執行時,造成電腦執行如申請專利範圍第1項所界定具有第0階和第1階係數的第1階保真立體音響(Ambisonics)訊號指向性之增進方法。
須知任何指定位階的保真立體音響(Ambisonics),所包含不但是指定位階之係數,還有全部較低位階之係數,即使未明指。例如,第2階HOA(Higher Order Ambisonics)訊號不但含有第2階,而且包含第0階和第1階。
本發明有益之具體例,揭示於所附申請專利範圍、以下說明和附圖。
10‧‧‧時間域第1階保真立體音響(Ambisonics)輸入訊號
11‧‧‧B格式訊號
11a‧‧‧B格式訊號11之活性強度
12‧‧‧到達方向(DoA)
13‧‧‧擴散性估計
14‧‧‧L揚聲器訊號
15‧‧‧直達聲訊號
16‧‧‧L擴散聲訊號
17‧‧‧解相關擴散訊號
18‧‧‧直達聲訊號
19‧‧‧時間域訊號
20‧‧‧直達聲
21,21’‧‧‧四個頻率域通道
22‧‧‧聲源方向
23‧‧‧擴散性估計
24‧‧‧選擇性放大直達聲
25‧‧‧HOA(Higher Order Ambisonics)訊號
25a‧‧‧選定部份
26‧‧‧合成時間域訊號
28‧‧‧時間域保真立體音響(Ambisonics)訊號
29‧‧‧時間域輸出訊號
30‧‧‧保真立體音響(Ambisonics)輸入訊號
31‧‧‧保真立體音響(Ambisonics)訊號
37‧‧‧訊號
AmbD‧‧‧保真立體音響(Ambisonics)解碼器
DDS‧‧‧直達擴散分離區塊
AFB、AFB’、AFBD‧‧‧分析過濾器庫
DC‧‧‧延時補償單位
VP‧‧‧VBAP(Vector-Based Amplitude Panning)單位
SFA、SFAD‧‧‧聲場分析區塊
DF‧‧‧解相關過濾
AIA‧‧‧活性強度分析區塊
DAB‧‧‧擴散性分析區塊
DOAAB‧‧‧DoA分析區塊
DSS‧‧‧直達聲分離器單位
F‧‧‧過濾器
HOAe‧‧‧HOA(Higher Order Ambisonics)編碼器
HFAt、HFAf‧‧‧HOA(Higher Order Ambisonics)格式適配器單位
SEL‧‧‧選擇器
SFB、SFB’、SFBD‧‧‧合成過濾器庫
CS‧‧‧組合器和合成單位
CBt‧‧‧時間域組合器單位
CBf‧‧‧頻率域組合器單位
N0‧‧‧預定位階
MX‧‧‧混合器單位
60‧‧‧指向性之增進方向
s1‧‧‧過濾步驟
s2‧‧‧進行步驟
s3‧‧‧選擇和過濾步驟
s4‧‧‧編碼步驟
s5‧‧‧選定步驟
s6‧‧‧組合步驟
s61、s62、s64、s65‧‧‧步驟
第1a圖為已知DirAC基礎的B格式解碼器之結構;第1b圖為已知聲場分析區塊之一般結構;第2圖為本發明一般具體例裝置之結構;第3圖為使用在時間域內組合的具體例裝置之結構;第4圖為使用在頻率域內組合的第一具體例裝置之結構;第5圖為使用在頻率域內組合的第二具體例裝置之結構;第6圖為本發明方法之流程圖;第7圖為組合步驟之細部流程圖。
第2圖表示本發明概括具體例之裝置結構。時間域第1階保真立體音響(Ambisonics)輸入訊號10(諸如B格式訊號),在分析過濾器庫AFB(analysis filter bank)內過濾,其中獲得四個頻率域通道21。輸入訊號10有頻率域表示法:頻率域通道之一表示第0階係數(即W通道),而另三個頻率域通道表示第1階係數(X,Y,Z通道)。
直達聲分離器單位DSS從擴散聲分離出四個頻率域通道21內之直達聲(即指向性聲音)20。在一具體例中,直達聲分離器單位DSS單純選擇W通道,用做直達聲20。再者,聲場分析單位SFA進行四個頻率域通道之聲場分析,為頻率通道之每一頻帶,得聲源方向θ,ψ 22和擴散性估計Ψ 23。在一具體例中,聲場分析單位SFA包含到 達方向(DoA)分析單位,以獲得方向資訊22。
直達聲分離器DSS所得直達聲20,再於過濾器F內過濾,於是擴散成份被阻尼,因此,指向性聲音受到選擇性(相對性)放大。過濾器F使用擴散性估計Ψ 23, 供選擇性放大;原則上,把直達聲20乘以,而 得選擇性放大之直達聲24。選擇性放大之直達聲24再於HOA(Higher Order Ambisonics)編碼器HOAe(Higher Order Ambisonics encoder)內,以保真立體音響(Ambisonics)編碼,其中得預定位階N0之HOA(Higher Order Ambisonics)訊號25(N0>1,即至少第2階)。HOA(Higher Order Ambisonics)編碼器HOAe(Higher Order Ambisonics encoder)使用聲源方向θ,ψ 22供編碼。可以使用保真立體音響(Ambisonics)格式,按照B格式,具有第0階和第1階係數。亦可改用不同的保真立體音響(Ambisonics)格式。不同的保真立體音響(Ambisonics)通常具有與B格式之順序不同之界定係數順序,或與B格式之係數標度不同之係數標度。
選擇器SEL選擇HOA(Higher Order Ambisonics)訊號25界定部份,而選定部份25a再於組合器和合成單位CS內,與原有B格式訊號組合。選定部份25a是HOA(Higher Order Ambisonics)訊號25之較高階部份,即至少第2階之部份(在一具體例內為係數)。組合器和合成單位CS,在其輸出提供時間域訊號29(呈HOA(Higher Order Ambisonics)格式),可用來描繪揚聲 器訊號。組合器和合成單位CS含有合成過濾器SF,以過濾保真立體音響(Ambisonics)格式化訊號,而得時間域訊號。
第2圖也表示視情形附加之混合器單位MX,所得HOA(Higher Order Ambisonics)輸出訊號在其中可與較高階之另一HOA(Higher Order Ambisonics)輸入訊號30混合。其他HOA(Higher Order Ambisonics)輸入訊號30亦可具有與輸入訊號10不同之保真立體音響(Ambisonics)格式,因下述HOA(Higher Order Ambisonics)格式適配器HFA(HOA format adapter)之故。混合器MX產生HOA(Higher Order Ambisonics)訊號31,包含所得HOA(Higher Order Ambisonics)輸出訊號29(即增進B格式輸入訊號)和HOA(Higher Order Ambisonics)輸入訊號30之混合物。
以下說明組合器和合成單位CS之二基本型具體例:在其一型具體例中,組合器和合成單位CS在時間域內組合選定部份25a與原先B格式訊號10。所以,只有選定部份25a進行合成於時間域內。在另一型具體例中,組合器和合成單位CS在頻率域內組合選定部份25a和原先B格式訊號10,往後進行合成於時間域內。
第3圖表示第一型具體例。在此具體例中,組合器和合成單位CS只把HOA(Higher Order Ambisonics)訊號25的選定較高階係數,在合成過濾器庫SFB內合成,得合成時間域訊號26。時間域組合器單位CBt把合成時間域 訊號26與時間域內之輸入訊號組合,得時間域輸出訊號29。在一具體例中,時間域HOA(Higher Order Ambisonics)格式適配器單位HFA(HOA format adapter),按照HOA(Higher Order Ambisonics)編碼器與HOAe(Higher Order Ambisonics encoder)使用格式,適配時間域輸入訊號之格式。此舉把所得時間域HOA(Higher Order Ambisonics)訊號28與合成時間域訊號26,在時間域組合器單位CBt內之組合簡化。在某些具體例內,例如HOA(Higher Order Ambisonics)編碼器HOAe(Higher Order Ambisonics encoder)使用與HOA(Higher Order Ambisonics)輸入訊號相容之格式,即不需HOA(Higher Order Ambisonics)格式適配器單位HFA(HOA format adapter)t。HOA(Higher Order Ambisonics)格式適配器單位HFA(HOA format adapter)t可重新配置和/或重新標度HOA(Higher Order Ambisonics)訊號之係數。
分析過濾器庫AFB(analysis filter bank)例如藉進行FFT(快速傅立葉轉換),得不同的頻帶。此舉產生延時。在一具體例中,時間域輸入訊號之延時補償單位DC,會補償過濾器庫延時,例如分析過濾器庫AFB(analysis filter bank)、選擇性放大過濾器F等。雖然在圖示具體例中,延時補償是在HOA(Higher Order Ambisonics)格式適配HFA(HOA format adapter)之前處理,但在另一具體例中,亦可安排在HOA(Higher Order Ambisonics)格式適配之後。在又一具體例中,延時補償 分二步驟進行,一延時補償單位在格式適配之前,另一在之後。
第4和5圖所示具體例使用第二型組合器和合成單位CS。在此具體例中,組合器和合成單位CS接收輸入訊號頻率域第0階和第1階保真立體音響(Ambisonics)係數,一如分析過濾器庫所得。此可為分開之分析過濾器庫AFB(analysis filter bank)’,如第4圖所示具體例,亦可為前述分析過濾器庫AFB(analysis filter bank),如第5圖所示具體例。在後一情況中,分析過濾器庫AFB(analysis filter bank)提供之四個頻率域通道21,直接輸入於組合器和合成單位CS。頻率域組合器單位CBf,把HOA(Higher Order Ambisonics)訊號25之選定較高階係數與頻率域內輸入訊號之第0階和第1階保真立體音響(Ambisonics)係數加以組合。合成過濾器庫SFB’合成組合之保真立體音響(Ambisonics)係數,其中獲得時間域輸出訊號29。在一具體例中,對輸入訊號的第0階和第1階保真立體音響(Ambisonics)係數,進行視情況之頻率域HOA(Higher Order Ambisonics)格式適配HFA(HOA format adapter)f,然後再與HOA(Higher Order Ambisonics)訊號25的選定較高階係數組合。HOA(Higher Order Ambisonics)格式適配器單位HFA(HOA format adapter)f可重新配置和/或重新標度HOA(Higher Order Ambisonics)訊號之係數。如上所述,在某些具體例中可不需HOA(Higher Order Ambisonics)格式適配器單位HFA(HOA format adapter)f。 又,也是如上所述,在處理鏈(例如選擇性放大過濾器F、HOA(Higher Order Ambisonics)編碼器HOAe(Higher Order Ambisonics encoder))內可能***任何延時之一具體例內,可用延時補償(圖上未示)。惟通常是不需要,因為由分析過濾器庫AFB(analysis filter bank),AFB(analysis filter bank)’***之延時,不需補償。
時間域組合器CBt是在時間域內操作之組合器,而頻率域組合器CBf是在頻率域內操作之組合器。二型組合器把選定部份25a之所得係數,加到輸入訊號10(可能重定格式)之係數。
一般而言,具有第0階和第1階係數的第1階保真立體音響(Ambisonics)時間域訊號指向性之增進裝置,包含分析過濾器庫AFB(analysis filter bank),可供過濾第1階保真立體音響(Ambisonics)訊號,其中得四個頻率通道21,係第1階保真立體音響(Ambisonics)訊號之頻率域表示,且其中頻率域通道之一個頻率域通道表示第0階係數,而另三個頻率域通道表示第1階係數;聲場分析單位SFA,供進行四個頻率域通道之聲場分析,因而獲得聲源方向θ,ψ 22和擴散性估計Ψ 23;選擇性放大過濾器F,供過濾具有第0階係數之頻率域通道,其中使用擴散性估計Ψ 23,且其中獲得直達聲成份24;高階保真立體音響(Higher Order Ambisonics)編碼器 HOAe(Higher Order Ambisonics encoder),以至少二預定位階,編碼直達聲成份24,呈保真立體音響(Ambisonics)格式,其中使用該聲源方向θ,ψ 22,且其中使用預定位階的保真立體音響(Ambisonics)格式之編碼直達聲,呈保真立體音響(Ambisonics)格式之編碼直達聲,具有至少第0階、第1階和第2階之保真立體音響(Ambisonics)係數;選擇器SEL,從預定位階的保真立體音響(Ambisonics)格式內所得編碼直達聲,選擇至少第2階之保真立體音響(Ambisonics)係數;組合器和合成單位CS,把編碼直達聲的至少第2階所選擇保真立體音響(Ambisonics)係數,與第1階保真立體音響(Ambisonics)輸入訊號10之保真立體音響(Ambisonics)係數加以組合,其中獲得至少第2階保真立體音響(Ambisonics)訊號29之時間域表示。須知所選擇至少第2階之保真立體音響(Ambisonics)係數,不含第0階或第1階係數。亦即選擇器SEL省略較低階係數。
在一具體例中,本發明係關於第1階保真立體音響(Ambisonics)訊號10(即僅具有第0階和第1階係數之保真立體音響(Ambisonics)訊號)指向性之增進方法。一般而言,此方法包括步驟為,在聲場分析單位SFA內,從第1階保真立體音響(Ambisonics)訊號發生擴散性估計Ψ 23和方向資訊θ,ψ 22;從第1階保真立體音響(Ambisonics)訊號分離和選擇性放大直達聲24,其中選擇性放大用之過濾器F使用擴散性估計Ψ 23;在HOA(Higher Order Ambisonics)編碼器HOAe(Higher Order Ambisonics encoder)內,編碼選擇性放大之直達聲24,其中使用方向資訊θ,ψ 22,而得至少第2階之HOA(Higher Order Ambisonics)訊號25;選擇HOA(Higher Order Ambisonics)訊號25之較高階部份,其中所選擇較高階部份只包含比第1階更高階之係數(即不包含第0階係數,也不包含第1階係數);並將HOA(Higher Order Ambisonics)訊號25所選擇較高階係數,在組合器和合成單位CS內,與輸入第1階保真立體音響(Ambisonics)訊號組合,其中獲得較高階保真立體音響(Higher Order Ambisonics)訊號(即至少第2階之保真立體音響(Ambisonics)訊號)之時間域表示29。
在一具體例中,HOA(Higher Order Ambisonics)訊號25所選定較高階係數與輸入第1階保真立體音響(Ambisonics)訊號10之組合步驟,包含從分析過濾器庫AFB(analysis filter bank),接收輸入訊號之頻率域第0階和第1階保真立體音響(Ambisonics)係數;把HOA(Higher Order Ambisonics)訊號25所選定較高階(即第2階或以上)係數,與頻率域內輸入訊號的第0階和第1階保真立體音響(Ambisonics)係數組合;在合成過濾器庫SFB內合成組合保真立體音響(Ambisonics)係數,而得時間域輸出訊號29。
在一具體例中,此方法又包含步驟為,對輸入訊號的第0階和第1階保真立體音響(Ambisonics)係數,進行頻率域HOA(Higher Order Ambisonics)格式適應 HFA(HOA format adapter)f,再與HOA(Higher Order Ambisonics)訊號25所選定較高階係數組合。
在另一具體例中,HOA(Higher Order Ambisonics)訊號25所選定較高階係數,與輸入第1階保真立體音響(Ambisonics)訊號10之組合步驟,包含在合成過濾器庫SFB內,只合成HOA(Higher Order Ambisonics)訊號25所選定較高階係數,獲得合成之時間域訊號26;把所得合成時間域訊號與時間域內之輸入訊號組合,得時間域輸出訊號29。在一具體例中,是在組合之前,進行時間域輸入訊號的時間域HOA(Higher Order Ambisonics)格式適應HFA(HOA format adapter)t。在又一具體例中,是在組合步驟之前,進行時間域輸入訊號之延時補償DC,以補償過濾器庫延時。
獲得較高階係數的方法是,在分析過濾器庫AFB(analysis filter bank)內,過濾第1階保真立體音響(Ambisonics)輸入訊號10,進行所過濾訊號之到達方向(DoA)分析,因而獲得擴散性估計Ψ 23和方向ψ,θ 22;使用擴散性估計Ψ 23,過濾W通道(第0階係數),因而把直達聲S(f)20分離;在較高階保真立體音響(Higher Order Ambisonics)編碼器HOAe(Higher Order Ambisonics encoder)內,編碼保真立體音響(Ambisonics)格式內之直達聲S(f)20。由所得HOA(Higher Order Ambisonics)訊號25,只用到較高階係數,與輸入訊號之較低階係數組合,並且從結果,合成保真立體音響(Ambisonics)輸出訊號 29。
一般而言,HOA(Higher Order Ambisonics)訊號25所選定較高階係數與輸入第1階保真立體音響(Ambisonics)訊號10之組合步驟,包含添加其個別係數,即輸出訊號29包含輸入訊號10之全部係數,和附加係數,即選定部份25a之較高階係數。
第6圖表示本發明一具體例之方法流程圖。輸入訊號10(具有第0階和第1階係數之第1階保真立體音響(Ambisonics)訊號)指向性之增進方向60,包含步驟為:過濾s1輸入訊號,其中獲得四個頻率域通道21,其中之一係保真立體音響(Ambisonics)W通道;進行s2四個頻率域通道21之聲場分析SFA,因而獲得聲源方向22和擴散性估計23;選擇和過濾s3頻率域保真立體音響(Ambisonics)W通道,其中使用擴散性估計23,且其中得輸入訊號10之直達聲成份24;在較高階保真立體音響(Higher Order Ambisonics)編碼器HOAe(Higher Order Ambisonics encoder)內,以預定位階No以保真立體音響(Ambisonics)格式編碼s4直達聲成份24,其中使用該聲源方向22,且其中獲得預定位階No保真立體音響(Ambisonics)格式之編碼直達聲;從所得保真立體音響(Ambisonics)格式之編碼直達聲,選定s5界定部份,含至少第2階(即第2階或更高階,不計較低階)之保真立體音響(Ambisonics)係數; 把表示編碼直達聲選定部份至少第2階保真立體音響(Ambisonics)係數之訊號,與表示輸入訊號10之訊號加以組合s6,其中獲得至少第2階保真立體音響(Ambisonics)訊號29。
在過濾步驟s1中所獲得四個頻率域通道21,是第1階保真立體音響(Ambisonics)訊號之頻率域表示,其中頻率域通道21之第一個頻率域通道(W通道)表示第0階係數,而其餘三個頻率域通道21(X,Y,Z通道)表示第1階係數。
在編碼步驟s4中,較高階保真立體音響(Higher Order Ambisonics)編碼器HOAe(Higher Order Ambisonics encoder),使用該聲源方向ψ,θ 22,以預定位階No之保真立體音響(Ambisonics)格式,編碼直達聲成份24,其中預定位階No至少二,而預定位階保真立體音響(Ambisonics)格式之編碼直達聲,具有至少第2階之保真立體音響(Ambisonics)係數。
第7a圖表示之具體例中,組合步驟s6使用四個頻率域通道21,做為輸入訊號10之表示(相當於第4和5圖所示裝置)。包含步驟為,在頻率域組合器單位CBf內,把利用頻率域通道21,21’,28表示的第1階保真立體音響(Ambisonics)訊號10之保真立體音響(Ambisonics)係數,與至少第2階的增進較高階保真立體音響(Higher Order Ambisonics)訊號之選定頻率係數,加以組合s61,其中獲得訊號37,係至少第2階保真立體音響(Ambisonics)訊號之 頻率域表示,而具有比第1階保真立體音響(Ambisonics)輸入訊號10增進指向性,並在合成過濾器庫SFB’內過濾s64所得訊號37,其中獲得增進較高階保真立體音響(Higher Order Ambisonics)訊號之時間域表示,具有至少第2階係數。
第7b圖表示之具體例中,組合步驟s6使用輸入訊號10之時間域係數(相當於第3圖所示裝置)。包含步驟為,在合成過濾器庫SFB內,從編碼之直達聲,提供s62至少第2階之選定保真立體音響(Ambisonics)係數,其中獲得增進較高階保真立體音響(Higher Order Ambisonics)訊號26之時間域表示;以及在時間域組合器CBt內,把第1階保真立體音響(Ambisonics)訊號10之保真立體音響(Ambisonics)係數(或寧願是表示第1階保真立體音響(Ambisonics)訊號10的保真立體音響(Ambisonics)係數之係數,因為可適配實際HOA(Higher Order Ambisonics)格式),與至少第2階的該增進較高階保真立體音響(Higher Order Ambisonics)訊號26之時間域表示,加以組合s65,其中獲得至少第2階保真立體音響(Ambisonics)訊號29之時間域表示,具有比第1階保真立體音響(Ambisonics)訊號10增進之指向性。
下述提供關於保真立體音響(Ambisonics)之更詳細說明。在保真立體音響(Ambisonics)理論中,空間聲訊場景是由Fourier-Bessel系列的係數說明。就無聲源之容量言,在觀察位置 (γ,θ,ψ)之聲壓,是以其空間座標(半徑γ,傾角θ,方位 角ψ)及空間頻率為函數說明,如下式:
其中為保真立體音響(Ambisonics)係數;j n (kr)為說明徑向依賴性之第一種Spherical-Bessel函數;為球諧函數(SH),實際上具有真值。此係角位依賴性之肇因,n為保真立體音響(Ambisonics)位階指數,m為度數。由於Bessel函數的性質,只有小kr的有效值,加法系列可以充分準確性在某些位階n=N平截;對於理論上完美重建N→∞。進一步資料和細節可參閱註[11],[6],[7],[3],[13]。保真立體音響(Ambisonics)係數形成保真立體音響(Ambisonics)訊號;具有聲壓之物理單位(1Pa),隨時間變異。訊號可視保真立體音響(Ambisonics)記錄之單版本。保真立體音響(Ambisonics)係數之實值,可由SH定義決定,更正確說是其常態化計劃。式(1)內係數之數,對2D表示法指定O=2N+1,而3D表示法是O=(N+1)2
實務上,保真立體音響(Ambisonics)使用真值球諧函數(SH)。定義如下述,因為對SH有不同的表述和常態化計劃種類,影響編碼和解碼操作,即保真立體音響(Ambisonics)係數之數值。真值SH可使用無符號述式表述如下:
其中為常態化因數(見表1),相當於間之正交關係,即
其Kronecker δ a,a'在a=a'時,等於1,其餘為0。以下使用正交常態化計劃。P n,m是關聯Legendre函數,說明傾角cos(θ)的依賴性。Pn,|m|:[-1,1]→,n|m|0,P n,m可用式(3)之Rodrigues方程式表達(即此處所提全部定義不用Condon-Shortley相位,其為真值變數之補償,會產生含混),但為實施之計算,有更具成效的方法存在。
對方位角部份Φ之依賴性如下:
表1表示保真立體音響(Ambisonics)δ 0,m 內所用普通常態化計劃為m=0時取值為1,其餘為0。即習用SN3D,N3D取自[註3]。
由SoundFieldTM所記錄訊號,像微音器,是使用B格式表示。技術載於[註2]。有四個B格式訊號:W訊號帶有與全向微音器所記錄聲壓呈比例之訊號,但以1/因數標度。X,Y,Z訊號攜帶訊號,與三個笛卡幾(Cartesian)方向內之壓力梯度呈比例。四個B格式係數W,X,Y,Z與第1階HOA(Higher Order Ambisonics)係數相 關,使用N3D常態化計劃[註3][註4],係, ,,,而關於 HOA(Higher Order Ambisonics)係數,使用SN3D常態化, 係,,,。再者,B格 式假設平面波編碼模式,在係數表示內省略因數in
HOA(Higher Order Ambisonics)訊號亦可利用平面波表示。平面波的聲壓由[註11]賦予如下:
對球諧函數使用N3D常態化計劃,嚴格言,會變 成:
其中是座標系統原點在頻率f之聲壓。θ(f) s ,是至聲源(DoA)的方向(傾角,方位角),而*表示共軛複數。許多保真立體音響(Ambisonics)格式和系統,包含B格式和SoundFieldTM微音器系統,呈平面波編碼和解碼模 式,而因數in則省略。則變成:
如前所述,第1b圖表示聲場分析區塊SFAD之構成區塊。原則上像本發明聲場分析區塊SFA,惟在此使用概括化時間/頻率考慮,得以使用隨意時窗,即聲場分析簡化成不同的時間常態化。此項概括化容許使用隨意複合過濾器庫。在此採取之另一概括化是,從平面波之疊置,組裝成活性聲場。所有聲場參數都是頻率的函數,可就過濾器庫頻帶k之各中心頻率計算。fk靠k之依賴性在以下說明中從略。
其次說明活性強度。
活性強度Ia(f)按照下式界定(見[註5]):Ia=Re{P(f)*U(f)} (8)活性強度之單位是W/m2=N/(ms)。P(f)*是共軛複合聲壓(以帕斯卡Pascal為單位=1N/m2),而U(f)是質點速度,以m/s計,三個笛卡幾維度之一向量。Re{.}指真實部份。活性強度之其他表述使用1/2之附加因數,一如[註11],則導至方程式(13)之附加因數。B格式訊號W與聲壓訊號P(f)成比例,而訊號X(f)=[X(f),Y(f),Z(f)]T與聲速U成比例: 其中ei是笛卡幾座標軸之單位向量,而eu是傳播平面波之單位向量方向。Z0是特性阻抗(聲速和空氣密度之乘積,Z00c)。然則,活性強度Ia即可用B格式訊號表示(見[註5]): 其中因數表示B格式內W係數之標度;*指共軛複數。 Ia(f),X(f)是笛卡幾座標內頻率之向量函數。
其次說明到達方向。
活性強度之單位向量e I (f)=[e Ix (f),e Iy (f),e Iz (f)] T 如下賦予:e I (f)= I a (f)/∥ I a (f)∥。DoA之方位角以弧度計如下: 其中Ia i(f)是Ia(f)之笛卡幾成份,而atan2是四象限逆正切。立面角度θ(f)可由下式計算。
其次說明擴散性。
聲場的能量密度,即每單位容量之聲能(物理單位為N/m2=kg m/s2 1/m2),如[註5]所述: 其中∥U∥說明矩陣模方2,向量之歐幾里德長度。
就保真立體音響(Ambisonics)訊號言,第1階/B格式變成:
以下在記號內之頻率依賴性不變,以便利閱讀。
擴散性估計Ψ按[註5]界定: E是期待值算符,可使用時間平均法實施,利用加窗平均實現,或是利用IIR過濾器之第一階。Ψ表示聲場的非活性能量部份之貢獻。數值1說明完全擴散之聲場(無動能貢獻),而數值0是全活性聲場。使用B格式訊號,擴散性可表示為:
擴散性估計[註1]之另類實現,如下式:
其次說明平均過濾。
擴散性估計和DoA方向需要時間平均化。為求預期之近似值,平流過濾器輸出由[註12]界定:y(n,k)=(1-g)x(n,k)+g y(n-1,k) (18)其中x(n,k)是輸入,y(n-1,k)是過濾器庫k內樣本(轉換區 塊)延時輸出。過濾器參數g為,其中fc是次抽 樣過濾器庫之樣本率。就50%疊合窗之區塊基本的過濾器 庫言,fc變成,而躍程規模Nhop為此50%疊合情況的 窗規模之半。時間常數τ決定平均值之特性。當需要遵循輸入訊號快速變化時,適用小數值,對長期平均則適宜大數值。
有另類實現方式存在,例如(見[註10]):y(k,n)=a x(k,n)+(1-a)y(k,n-1) (19) 其中。於此可見τ與fs呈絕對關係。
適應性過濾器連同區塊依賴性變換參數cc和二時間常數τmaxmin,可用於時間常數:
在大多數情況下,任何第一階保真立體音響(Ambisonics)記錄,會是B格式訊號。本發明方法為現有第1階保真立體音響(Ambisonics)記錄,導出較高階保真立體音響(Higher Order Ambisonics),同時維持第一階係數資訊。進行到達方向(DoA)分析,導出全頻率最強方向。W通道表示全部這些訊號之單混合。W通道經過濾,全頻率除去擴散部份。因此,過濾後的W通道成為全頻率直達聲之值計。DoA方向用於所過濾W通道訊號之保真立體音響(Ambisonics)編碼,形成預指派保真立體音響(Ambisonics)位階之新HOA(Higher Order Ambisonics)訊號N_order>1,對3D而言O=(Norder+1)2,對2D實現言O=(2Norder+1)。B格式記錄(即第1階訊號)之四個係數,必要時把格式轉變成和新保真立體音響(Ambisonics)訊號同樣的格式,並與新係數組合,形成輸出訊號。所得輸出HOA(Higher Order Ambisonics)訊號係數是由0和1階成份的轉換後B格式係數,以及從較高階成份的新HOA(Higher Order Ambisonics)係數編成。
處理或部份處理,應用於分析過濾器庫之過濾器庫頻率域。
一具體例使用FFT基礎之分析過濾器庫。對960個樣本,或另外對例如640個或512個樣本,應用50% 疊合正弦窗。使用至左和右之零充墊,得1024樣本FFT長度。逆過濾器庫(合成過濾器庫)使用成窗和覆蓋添加,以恢復480(320,256)樣本之區塊。ISO/IEC 23003/2007/2010(MPEG Surround,SAOC)載有另類可用之過濾器庫,所用帶寬更佳匹配人員感受。使用FFT過濾器庫時,可將二或以上之過濾器庫組合,更佳適應人員感受,尤其是對高頻。在一具體例中,使用大約四分之一庫,具有一FFT過濾器頻帶之粒度,並使用活性強度和全組合頻帶的能量之平均值。在各種具體例中,使用聲場參數「活性強度」和/或「能量密度」,導出DoA角度和擴散性估計。
在一具體例中,對DoA方向和擴散性估計,使用方程式(18)之特殊平流過濾器,則擴散性估計之平流實施如下(頻帶依賴性省略以求簡要): 式(15)之擴散性估計為,列舉符 之平流過濾器是使用三個成份的 同樣時間常數,利用第一階IIR過濾器實現。又,過濾器具有以小τ min和大τ max時間常數為特徵之雙係數。時間常數間進行更換,視∥Ia∥和另一狀態計數cc而定,其中Ia(n)是過濾器輸入,而(n-1)是前次作業的過濾器輸出。
若cc==0且∥ I a (n)∥(n-1)+ε 1∥,使用大時間常數之係數τ max
若∥ I a (n)∥>∥(n-1)+ε1∥,使用小時間常數為特徵之係數τ min,而cc設定於ccmax,大於1(例如 ccmax=10)。
若cc>0且∥ I a (n)∥(n-1)+ε 1∥,則使用時間常 數,而cc隨後遞降(區塊處 理),只要不等於零。
ε 1是正的常數。能量E之平流是以類似方式進行,使用分開的過濾器,但同樣的適應性過濾器結構。其特徵為τ max,τ min和本身之cc狀態計數,使用|E(n)|,在大、小和間插的時間常數間變換。
Φ(f),θ(f)導衍自活性強度e I (f)=I a (f)/∥ I a (f)∥,利用產生二複合訊號:a 1=e Ix +i e Iy (21)
其中e Ix, e Iy, e Iz 是活性強度的單位向量之笛卡幾成 份。訊號使用a1,a2每次頻帶一適應性IIR第一階過濾器加以過濾,按照方程式(18):b 1(n)=(1-g(Ψ))a 1(n)+g(Ψ)b 1(n-1) (23)對b2(n)情況類似,使用a2(n)和同樣過濾器參數g(Ψ),後者視擴散性Ψ而定。依賴性可為線性:g(Ψ)=(g max -g min)Ψ+g min ,其g min 接近零,而g max 1。
指向性訊號Φ,θ可從過濾器輸出計算如下:
上述參見第2-5圖所示具體例,以B格式情況言,為標記W,X,Y,Z的第1階係數,使用三個分析過濾器。在中心頻率為fk的K頻帶內,使用上述適應性平流過濾器,進行擴散性估計分析。以B格式情況時,W係數訊號 乘以,而其他常態化第一階訊號,在各頻帶內 則乘以,以實現訊號S。DoA方向用於頻帶內之 保真立體音響(Ambisonics)編碼訊號S,形成預指派保真立體音響(Ambisonics)位階之新HOA(Higher Order Ambisonics)訊號N_order>1,就3D實現而言O=(Norder+1)2,而就2D實現言O=(2Norder+1)。O新保真立體音響(Ambisonics)訊號標記。在一具體例中,HOA(Higher Order Ambisonics)編碼器使用N3d或正交常態化球諧函數,省略因數in。使用平面波編碼計劃: B (f k )=Ξ(f k )S(f k ) (26)其中B(fk)是各頻帶k之向量,中心fk持有O保真立體音響 (Ambisonics)係數,而Ξ 是Ox1大小的模態向量,持有指向性球諧函數:
B格式輸入訊號之四個係數,例如記錄,以格式轉換成HOA(Higher Order Ambisonics)編碼器HOAe(Higher Order Ambisonics encoder)所產生新保真立體音響(Ambisonics)訊號同樣之格式。此可暗示適應球諧函數之不同常態化,以及因數in之光學考量,有時包含在保真立體音響(Ambisonics)係數內,而3D至2D轉換,適應 至2D球諧函數,或反向為之。轉換和依賴之B格式係數,標記為與關係[W,Y,Z,X]→,而對於2D則為:[W,Y,X]→
所得HOA(Higher Order Ambisonics)訊號由轉 換之B格式訊號和新HOA(Higher Order Ambisonics)係數編 成,零階和第一階成份省略:。 所得HOA(Higher Order Ambisonics)訊號對3D實現具有 O=(Norder+1)2成份,或者對2D,為O=(2Norder+1)成份,其中 。此程序可視為保真立體音響 (Ambisonics)訊號之位階上混(upmix)。
上面就第3圖所述具體例,在時間域內把原有係數和新係數組合,並使用O-4合成過濾器(附註,“O”並非意味零),並附加延時,以補償過濾器排延時。第4至5圖所示具體例,在過濾器庫域內組合,並使用O(不是零)合成過濾器。
按照本發明位階上混後,新訊號可用於若 干目的,例如與N_order之其他保真立體音響(Ambisonics) 內容混合,以形成訊號,解碼,供使用N_order 保真立體音響(Ambisonics)解碼器,在L揚聲器內重播;傳 送和/或儲存於資料庫等。在某些情況下,例如 傳送和/或儲存,可用元資料來指示原點,並進行處理保真立體音響(Ambisonics)訊號。
雖然本發明適於把任何低階保真立體音響(Ambisonics)訊號,增進到個別高階保真立體音響(Higher Order Ambisonics)訊號,於此所述具體例只使用第1階(B格式)訊號,供增進到例如第2階訊號。然而,可應用同樣原理把指定位階的保真立體音響(Ambisonics)訊號,增進到任何更高位階,例如第2階訊號增進至第3階訊號,第1階訊號增進至第4階訊號等。一般而言,產生比第4階更高位階之係數,並無意義。
本發明之一優點是,容許B格式訊號(諸如第1階微音器記錄),與較高位階內容混合,在混合物解碼時,增進空間重建準確性。
凡技術專家就上述裝置和方法可進行各種省略,取代和更換所揭示機件之形式和細節,及其操作,表明旨在此等元件之所有組合,以實質上同樣方式進行實質上同樣功能,達到同樣結果,凡此均在本發明範圍內。須知本發明已就實施例加以說明,而在說明書以及(適宜情況)申請專利範圍和附圖所揭示各特點,可獨立或以任何適當組合方式提供,特點可視適當情況以硬體、軟體,或二者組合方式實施。申請專利範圍內標示之參照數字,僅供提示之用,對申請專利範圍無限制效應。
附註:
[1] Jukka Ahonen and Ville Pulkki. Diffuseness estimation using temporal variation of intensity vectors. 2009 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, October 18-21, 2009, New Paltz, NY.
[2] Peter G. Craven and Michael A. Gerzon. Coincident microphone simulation covering three dimensional space and yielding various directional outputs, 1975.
[3] Jérôme Daniel. Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia. PhD thesis, Universite Paris 6, 2001.
[4] Dave Malham. Space in Music - Music in Space. PhD thesis, University of York, April 2003.
[5] Juha Merimaa. Analysis, Synthesis, and Perception of Spatial Sound - Binaural Localization Modeling and Multichannel Loudspeaker Reproduction. PhD thesis, Helsinki University of Technology, 2006.
[6] M. A. Poletti. Three-dimensional surround sound systems based on spherical harmonics. J. Audio Eng. Soc., 53(11):1004-1025, November 2005.
[7] Mark Poletti. Unified description of ambisonics using real and complex spherical harmonics. In Proceedings of the Ambisonics Symposium 2009, Graz. Austria, June 2009.
[8] Ville Pulkki. Virtual sound source positioning using vector base amplitude panning. J. Audio Eng. Soc., 45(6):456-466, June 1997.
[9] Ville Pulkki. Spatial Sound Reproduction with Directional Audio Coding. J. Audio Eng. Soc., 55(6):503-516, June 2007.
[10] Oliver Thiergart, Giovanni Del Galdo, Magdalena Prus, and Fabian Kuech. Three-dimensional sound field analysis with directional audio coding based on signal adaptive parameter estimators. In AES 40 TH INTERNATIONAL CONFERENCE, Tokyo, Japan, October 8–10, 2010.
[11] Earl G. Williams. Fourier Acoustics. Academic Press, 1999.
[12] Udo Zölzer, editor. DAFX - Digital Audio Effects. John Wiley & Sons, 2002.
[13] Franz Zotter. Analysis and Synthesis of Sound Radiation with Spherical Arrays. PhD thesis, Institute of Electronic Music and Acoustics (IEM), 2009.

Claims (15)

  1. 一種屬於第1階保真立體音響訊號且具有第0階和第1階係數的輸入訊號(10)指向性之增進方法,包含步驟為:在分析過濾器庫(AFB)內過濾(s1)輸入訊號(10),其中獲得四個頻率域通道(21),係第1階保真立體音響訊號之頻率域表示,又其中頻率域通道(21)之一個第一頻率域通道表示第0階係數,而三個其餘頻率域通道(21)表示第1階係數;進行(s2)四個頻率域通道(21)之聲場分析(SFA),因而獲得聲源方向(22)和擴散性估計(23);在過濾器(F)內過濾(s3)具有第0階係數之第一頻率域通道,其中使用擴散性估計(23),且其中獲得直達聲成份(24);在高階保真立體音響編碼器(HOAe)內,以預定位階(N0)之保真立體音響格式,編碼(s4)直達聲成份(24),其中使用該聲源方向(22),且其中獲得所編碼直達聲,呈預定位階(N0)之保真立體音響格式,預定位階(N0)係至少二位階,而呈預定位階(N0)的保真立體音響格式之編碼直達聲,包含比第1階更高位階之保真立體音響係數;從預定位階(N0)的保真立體音響格式之所得編碼直達聲,選擇(s5)第2階或更高位階之保真立體音響係數,其中略去第1階和第0階係數;在組合和合成單位(CS)內,把來自編碼直達聲的第2 階或更高位階之選定保真立體音響係數,與輸入訊號(10)組合,其中獲得業已增進指向性的至少第2階之增進保真立體音響訊號(29)者。
  2. 如申請專利範圍第1項之方法,其中來自編碼直達聲的第2階或更高位階之選應保真立體音響係數與輸入訊號(10)組合步驟(s6),包含步驟為:在頻率域組合器單位(CBf)內,把四個頻率域通道(21,21’,28)之保真立體音響係數,與來自編碼直達聲的第2階或更高階選定保真立體音響係數之選定頻率係數,加以組合(s61),其中獲得訊號(37),係至少第2階保真立體音響訊號之頻率域表示;在合成過濾器庫(SFB’)內,過濾(s64)所得訊號(37),其中獲得增進較高階保真立體音響訊號(29)之時間域表示,具有至少第2階之係數者。
  3. 如申請專利範圍第1項之方法,其中來自編碼直達聲的第2階或更高階之選定保真立體音響係數與輸入訊號(10)組合步驟(s6),包含步驟為:在合成過濾器庫(SFB)內,過濾(s62)來自編碼直達聲的第2階或更高階之選定保真立體音響係數,其中獲得增進較高位階保真立體音響訊號(26)之時間域表示,包含第2階或更高階之係數;在時間域組合器(CBt)內,把代表輸入訊號(10)之保真立體音響係數,與第2階或更高位階(26)的該增進較高階保真立體音響訊號之時間域表示,加以組合(s65),其中獲 得至少第2階的保真立體音響訊號(29)之時間域表示,具有比輸入訊號(10)增進之指向性者。
  4. 如申請專利範圍第1至3項中任一項之方法,其中呈預定位階(N0)的保真立體音響格式之直達聲(24)編碼步驟(s4)中,高階保真立體音響編碼器(HOAe)使用B格式者。
  5. 如申請專利範圍第1項之方法,其中呈預定位階(N0)的保真立體音響格式之直達聲(24)編碼步驟(s4)中,高階保真立體音響編碼器(HOAe)使用B格式以外之保真立體音響格式,又包含步驟為:在HOA格式適配單位(HFA)內,於該組合步驟(s6)之前,按照B格式以外之該保真立體音響格式,再格式化(s63)輸入訊號(10);其中獲得輸入訊號(10)之再格式化保真立體音響係數,又其中在該組合步驟(s64)中,組合器(CB)把輸入訊號(10)的再格式化保真立體音響係數,與第2階或更高階(28)之該增進更高階保真立體音響訊號之時間域表示,加以組合者。
  6. 如申請專利範圍第1項之方法,其中進行四個頻率域通道(21)的聲場分析(SFA)之步驟(s2),包含步驟為:進行(s21)四個頻率域通道(21)的活性強度分析(AIA),其中獲得表示活性強度(11a)之數值;進行(s22)四個頻率域通道(21)的一擴散性分析(DA),其中獲得該擴散性估計(23); 進行(s23)表示活性強度(11a)的數值之到達方向(DoA)分析,其中獲得該聲源方向(22)者。
  7. 如申請專利範圍第1項之方法,又包含混合步驟(MX),把至少第2階的增進保真立體音響訊號(29),與較高位階或不同保真立體音響格式之又一HOA輸入訊號(30),加以混合,其中獲得HOA訊號(31),包含輸入訊號(10)和該又一HOA輸入訊號(30)之混合物者。
  8. 如申請專利範圍第1項之方法,其中該至少第2階的保真立體音響訊號(29)之時間域表示,對3D實現具有O=(Norder+1)2成份,而對2D實現具有O=(2 Norder+1)成份,其中Norder為HOA編碼器(HOAe)之位階(N0),而該至少第2階的保真立體音響訊號(29)之時間域表示具有係數,按照,其中係輸入訊號(10)之係數,而是來自編碼直達生所選定HOA係數者。
  9. 一種屬於第1階保真立體音響訊號且具有第0階和第1階係數的輸入訊號(10)指向性之增進裝置,包含:分析過濾器(AFB),供過濾輸入訊號(10),其中獲得四個頻率域通道(21),係第1階保真立體音響訊號(10)之頻率域表示,又其中頻率域通道(21)之一個第一頻率域通道表示第0階係數,而三個其餘頻率域通道(21)表示第1階係數;聲場分析(SFA)單位,供進行四個頻率域通道(21)之聲場分析,因為獲得聲源方向(22)和擴散性估計(23); 過濾器(F),供過濾具有第0階係數之頻率域通道,其中使用擴散性估計(23),又其中獲得直達聲成份(24);高階保真立體音響編碼器(HOAe),供按預定位階(N0)之保真立體音響格式,編碼直達聲成份(24),其中使用該聲源方向(22),且其中獲得所編碼直達聲,呈預定位階(N0)之保真立體音響格式,預定位階(N0)係至少二位階,而呈預定位階(N0)的保真立體音響格式之編碼直達聲,具有至少第0階、第1階和第2階之保真立體音響係數;選擇器(SEL),從預定位階(N0)的保真立體音響格式之所得編碼直達聲,選擇至少第2階的保真立體音響係數;組合和合成單位(CS),把按照來自編碼直達聲的至少第2階選定保真立體音響係數之時間域訊號(26),與第1階保真立體音響訊號(10)之保真立體音響係數組合,其中獲得至少第2階的保真立體音響訊號(29)之時間域表示者。
  10. 如申請專利範圍第9項之裝置,其中組合和合成單位(CS)包含:頻率域組合器單位(CBf)內,將四個頻率域通道(21,21’,28)的保真立體音響係數,與來自編碼直達聲的第2階或更高位階所選定保真立體音響係數之選定頻率係數,加以組合,其中獲得訊號(37)係至少第2階保真立體音響訊號之頻率域表示;合成過濾器庫(SFB’)內,供過濾所得訊號(37),其中 獲得增進較高階保真立體音響訊號(29)之時間域表示,具有至少第2階係數者。
  11. 如申請專利範圍第9項之裝置,其中組合和合成單位(CS),包含:合成過濾器庫(SFB)內,供過濾來自編碼直達聲的第2階或更高階所選定保真立體音響係數,其中獲得增進較高位階保真立體音響訊號(26)之時間域表示,包含第2階或更高階係數;時間域組合器單位(CBt)內,把代表輸入訊號(10)之保真立體音響係數,與第2階或更高階(26)增進較高階保真立體音響訊號之時間域表示,加以組合,其中獲得至少第2階之保真立體音響訊號(29)之時間域表示,具有比輸入訊號(10)增進之指向性者。
  12. 如申請專利範圍第9至11項中任一項之裝置,其中該高階保真立體音響編碼器(HOAe)使用B格式,以預定位階(N0)之保真立體音響格式,編碼直達聲成份(24)者。
  13. 如申請專利範圍第9項之裝置,其中高階保真立體音響編碼器(HOAe)以預定位階(N0)之保真立體音響格式,編碼直達聲成份(24)時,使用B格式以外之保真立體音響格式,又包含:HOA格式適配單位(HFA)內,按照B格式以外之該保真立體音響格式,把輸入訊號(10)再格式化;其中獲得輸入訊號(10)之再格式化保真立體音響係 數,又其中組合器單位(CB)把輸入訊號(10)之再格式化保真立體音響係數(28),與第2階或更高階(28)的該增進更高階保真立體音響訊號之時間域表示,加以組合者。
  14. 如申請專利範圍第9項之裝置,其中聲場分析單位(SFA)包含:活性強度分析區塊(AIA),供進行四個頻率域通道(21)之活性強度分析,其中獲得表示活性強度(11a)之數值;擴散性分析區塊(DA),供進行四個頻率域通道(21)之擴散性分析,其中獲得該擴散性估計(23);到達方向分析區塊(DOAAB),進行表示活性強度(11a)的到達方向分析,其中獲得該聲源方向(22)者。
  15. 如申請專利範圍第9項之裝置,又包含混合器單位(MX),供至少第2階增進保真立體音響訊號(29),與更高階或保真立體音響格式之另一HOA輸入訊號(30)混合,其中獲得HOA訊號(31),包含輸入訊號(10)和該另一HOA輸入訊號(30)之混合物者。
TW103110577A 2013-03-22 2014-03-21 屬於第1階保真立體音響訊號且具有第0階和第1階係數的輸入訊號指向性之增進方法及裝置 TWI646847B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
??13305352.0 2013-03-22
EP20130305352 EP2782094A1 (en) 2013-03-22 2013-03-22 Method and apparatus for enhancing directivity of a 1st order Ambisonics signal

Publications (2)

Publication Number Publication Date
TW201442522A TW201442522A (zh) 2014-11-01
TWI646847B true TWI646847B (zh) 2019-01-01

Family

ID=48095764

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103110577A TWI646847B (zh) 2013-03-22 2014-03-21 屬於第1階保真立體音響訊號且具有第0階和第1階係數的輸入訊號指向性之增進方法及裝置

Country Status (9)

Country Link
US (1) US9838822B2 (zh)
EP (2) EP2782094A1 (zh)
JP (1) JP6342986B2 (zh)
KR (1) KR102208258B1 (zh)
CN (1) CN105051813B (zh)
AU (1) AU2014234480B2 (zh)
BR (1) BR112015019526B1 (zh)
TW (1) TWI646847B (zh)
WO (1) WO2014147029A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
US10134403B2 (en) * 2014-05-16 2018-11-20 Qualcomm Incorporated Crossfading between higher order ambisonic signals
US9712936B2 (en) 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
GB2554446A (en) * 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
CN106960672B (zh) * 2017-03-30 2020-08-21 国家计算机网络与信息安全管理中心 一种立体声音频的带宽扩展方法与装置
US10390166B2 (en) * 2017-05-31 2019-08-20 Qualcomm Incorporated System and method for mixing and adjusting multi-input ambisonics
US10015618B1 (en) * 2017-08-01 2018-07-03 Google Llc Incoherent idempotent ambisonics rendering
US11322164B2 (en) 2018-01-18 2022-05-03 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals
CN108845292B (zh) * 2018-06-15 2020-11-27 北京时代拓灵科技有限公司 一种声源定位的方法及装置
CN110719564B (zh) * 2018-07-13 2021-06-08 海信视像科技股份有限公司 音效处理方法和装置
CN112567769B (zh) * 2018-08-21 2022-11-04 索尼公司 音频再现装置、音频再现方法和存储介质
CA3122170C (en) * 2018-12-07 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators
CN113673317B (zh) * 2021-07-12 2023-04-07 电子科技大学 基于原子范数最小化可降维的二维离格doa估计方法
JP2024026010A (ja) * 2022-08-15 2024-02-28 パナソニックIpマネジメント株式会社 音場再現装置、音場再現方法及び音場再現システム
US20240098439A1 (en) * 2022-09-15 2024-03-21 Sony Interactive Entertainment Inc. Multi-order optimized ambisonics encoding
JP2024048967A (ja) * 2022-09-28 2024-04-09 パナソニックIpマネジメント株式会社 音場再現装置、音場再現方法及び音場再現システム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080298597A1 (en) * 2007-05-30 2008-12-04 Nokia Corporation Spatial Sound Zooming
WO2012059385A1 (en) * 2010-11-05 2012-05-10 Thomson Licensing Data structure for higher order ambisonics audio data

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1512514A (en) 1974-07-12 1978-06-01 Nat Res Dev Microphone assemblies
GB9204485D0 (en) 1992-03-02 1992-04-15 Trifield Productions Ltd Surround sound apparatus
US6356639B1 (en) * 1997-04-11 2002-03-12 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus, signal processing device, sound image localization device, sound image control method, audio signal processing device, and audio signal high-rate reproduction method used for audio visual equipment
AUPP272598A0 (en) * 1998-03-31 1998-04-23 Lake Dsp Pty Limited Wavelet conversion of 3-d audio signals
AUPR647501A0 (en) * 2001-07-19 2001-08-09 Vast Audio Pty Ltd Recording a three dimensional auditory scene and reproducing it for the individual listener
CA2354858A1 (en) 2001-08-08 2003-02-08 Dspfactory Ltd. Subband directional audio signal processing using an oversampled filterbank
FR2844894B1 (fr) 2002-09-23 2004-12-17 Remy Henri Denis Bruno Procede et systeme de traitement d'une representation d'un champ acoustique
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
DE602007011955D1 (de) * 2006-09-25 2011-02-24 Dolby Lab Licensing Corp Ür mehrkanal-tonwiedergabesysteme mittels ableitung von signalen mit winkelgrössen hoher ordnung
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
EP2285139B1 (en) 2009-06-25 2018-08-08 Harpex Ltd. Device and method for converting spatial audio signal
EP2486561B1 (en) * 2009-10-07 2016-03-30 The University Of Sydney Reconstruction of a recorded sound field
WO2011107951A1 (en) * 2010-03-02 2011-09-09 Nokia Corporation Method and apparatus for upmixing a two-channel audio signal
NZ587483A (en) * 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
WO2012025580A1 (en) * 2010-08-27 2012-03-01 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
CN101977349A (zh) 2010-09-29 2011-02-16 华南理工大学 Ambisonic声重发***解码的优化改进方法
EP2469741A1 (en) 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
US9124966B2 (en) * 2012-11-28 2015-09-01 Qualcomm Incorporated Image generation for collaborative sound systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080298597A1 (en) * 2007-05-30 2008-12-04 Nokia Corporation Spatial Sound Zooming
WO2012059385A1 (en) * 2010-11-05 2012-05-10 Thomson Licensing Data structure for higher order ambisonics audio data

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
F. Hollerweger, "An Introduction to Higher Order Ambisonic, Oct. 2008, pp.1-1 *
J. Trevino et al, "High order Ambisonic decoding method for irregular loudspeaker arrays," Proceedings of 20th International Congress on Acoustics, Aug. 2010, pp.1-8 *
Paul Hodegs, "Channel Formats," https://ambisonic.info/ambisonics/channels.html, 2011/06/03 *

Also Published As

Publication number Publication date
JP6342986B2 (ja) 2018-06-13
US20160057556A1 (en) 2016-02-25
US9838822B2 (en) 2017-12-05
BR112015019526A2 (pt) 2017-07-18
EP2782094A1 (en) 2014-09-24
JP2016517033A (ja) 2016-06-09
TW201442522A (zh) 2014-11-01
CN105051813A (zh) 2015-11-11
KR20150134336A (ko) 2015-12-01
KR102208258B1 (ko) 2021-01-27
CN105051813B (zh) 2019-03-22
BR112015019526B1 (pt) 2021-12-07
AU2014234480A1 (en) 2015-08-13
WO2014147029A1 (en) 2014-09-25
BR112015019526A8 (pt) 2017-12-05
EP2976769A1 (en) 2016-01-27
EP2976769B1 (en) 2017-02-22
AU2014234480B2 (en) 2019-11-21

Similar Documents

Publication Publication Date Title
TWI646847B (zh) 屬於第1階保真立體音響訊號且具有第0階和第1階係數的輸入訊號指向性之增進方法及裝置
US20200335115A1 (en) Audio encoding and decoding
US20220189492A1 (en) Method and device for decoding an audio soundfield representation
US11750996B2 (en) Method for and apparatus for decoding/rendering an Ambisonics audio soundfield representation for audio playback using 2D setups
EP3444815B1 (en) Multiplet-based matrix mixing for high-channel count multichannel audio
US11832080B2 (en) Spatial audio parameters and associated spatial audio playback
TWI443647B (zh) 用以將以物件為主之音訊信號編碼與解碼之方法與裝置
US8332229B2 (en) Low complexity MPEG encoding for surround sound recordings
TW201923744A (zh) 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式
US20210250717A1 (en) Spatial audio Capture, Transmission and Reproduction
US20240119949A1 (en) Encoding/decoding apparatus for processing channel signal and method therefor
US11956615B2 (en) Spatial audio representation and rendering