TW202337236A - 用以使用基本空間扇區合成空間擴展音源之裝置、方法及電腦程式 - Google Patents

用以使用基本空間扇區合成空間擴展音源之裝置、方法及電腦程式 Download PDF

Info

Publication number
TW202337236A
TW202337236A TW111142634A TW111142634A TW202337236A TW 202337236 A TW202337236 A TW 202337236A TW 111142634 A TW111142634 A TW 111142634A TW 111142634 A TW111142634 A TW 111142634A TW 202337236 A TW202337236 A TW 202337236A
Authority
TW
Taiwan
Prior art keywords
data
sector
sectors
basic
listener
Prior art date
Application number
TW111142634A
Other languages
English (en)
Inventor
吳允瀚
喬根 希瑞
米哈伊爾 科羅蒂耶夫
馬蒂亞斯 吉依爾
西蒙 施瓦爾
亞歷山大 艾達米
卡洛塔 阿內米勒
Original Assignee
弗勞恩霍夫爾協會
紐倫堡大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會, 紐倫堡大學 filed Critical 弗勞恩霍夫爾協會
Publication of TW202337236A publication Critical patent/TW202337236A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

一種用於合成一空間擴展音源(SESS) (7000)之裝置包含:一儲存器(200,2000),其用於儲存用於覆蓋用於一聽者之一呈現範圍之不同的基本空間扇區之呈現資料項目;一扇區識別處理器(4000),其用於基於聽者資料及空間擴展音源資料自該等不同的基本空間扇區識別屬於該空間擴展音源之一組基本空間扇區;一目標資料計算器(5000),其用於自用於該組基本空間扇區之該等呈現資料項目來計算目標呈現資料;及一音訊處理器(300,3000),其用於使用該目標呈現資料來處理表示該空間擴展音源之一音訊信號。

Description

用以使用基本空間扇區合成空間擴展音源之裝置、方法及電腦程式
發明領域
本發明係關於音訊信號處理,且尤其係關於空間擴展音源(SESS)之合成。
發明背景
已長期研究經由若干揚聲器或頭戴式耳機再現音源。在此類設定上再現音源之最簡單方式為將其呈現為點源,亦即極其(理想情況下:無限)小的音源。然而,此理論概念很難以逼真的方式模型化現有的實體音源。舉例而言,一架三角鋼琴具有一個大的振動木蓋,內部有許多空間地分佈的琴弦,因此在聽覺上看起來比點聲源大得多(尤其當聽者(及麥克風)靠近三角鋼琴時)。許多現實世界音源具有相當大的尺寸(「空間範圍」),如樂器、機器、管弦樂隊或合唱團或環境聲音(瀑布聲)。
此類音源的正確/逼真的再現已成為許多聲音再現方法的目標,無論是雙耳(亦即,使用所謂的頭部相關轉移函數HRTF或雙耳房間脈衝回應BRIR)使用頭戴式耳機抑或習知地使用揚聲器設定,該等設定之範圍介於2個揚聲器(「立體聲」)至配置在水平面上的許多揚聲器(「環繞聲」)以及在所有三個維度上環繞聽者之許多揚聲器(「3D音訊」)。
作為一實例,若自噴泉的一部分被灌木遮擋的地方聆聽SESS (例如噴泉),則噴泉之經遮擋部分經受頻率阻尼程序,亦即,因藉由灌木之透射特性判定之特定頻率回應而衰減。呈現此類(部分)遮擋的SESS部分之能力在最初描述的SESS呈現演算法中不可用。類似地,SESS的較遠部分可使用本發明以較低水平逼真地呈現。 2D源寬度
本節描述了涉及在自聽者之視角面向的2D表面上(例如,在零仰角的特定方位角範圍(就像習知立體聲/環繞聲中的狀況一樣)或特定的方位角及仰角範圍(就像在3D音訊或虛擬實境中的狀況一樣,該3D音訊或虛擬實境具有使用者移動之3個自由度[「3DoF」],亦即頭部在俯仰/橫擺/橫搖軸上旋轉)中)呈現擴展音源的方法。
增加在二個或多於二個揚聲器之間平移的音訊物件的表觀寬度(產生所謂的幻像或幻像源)可藉由降低參與的通道信號之相關性來實現(Blauert, 2001, S. 241-257)。隨著相關性的降低,幻象源的傳播增加,直至對於接近於零之相關值(以及不太寬的張角),其覆蓋了揚聲器之間的整個範圍。
藉由推導且應用合適的去相關濾波器而獲得源信號的去相關版本。Lauridsen (Lauridsen, 1954)建議將源信號之時間延遲及縮放版本加/減到自身,以便獲得該信號的二個去相關版本。例如,Kendall (Kendall, 1995)提出了更複雜的方法。他基於隨機數序列的組合反覆地推導出成對的去相關全通濾波器。Faller等人在(Baumgarte & Faller, 2003) (Faller & Baumgarte, 2003)中提出合適的去相關濾波器(「擴散器」)。此外,Zotter等人推導出濾波器對,其中使用頻率相關的相位或振幅差異來實現幻像源的加寬(Zotter & Frank, 2013)。此外,(Alary, Politis, & Välimäki, 2017)提出了基於天鵝絨雜訊的去相關濾波器,其藉由(Schlecht, Alary, Välimäki, & Habets, 2018)進一步最佳化。
除了降低幻象源的對應通道信號之相關性外,亦可藉由增加歸因於音訊物件的幻象源之數目來增加源寬度。在(Pulkki, 1999)中,藉由將相同的源信號平移至(稍微)不同的方向來控制源寬度。最初提出該方法係為了在VBAP平移的(Pulkki, 1997)源信號在聲音場景中移動時穩定化其經感知幻象源擴散。此係有利的,因為取決於源的方向,經呈現源藉由二個或多於二個揚聲器再現,此可能導致經感知源寬度的不期望的改變。
虛擬世界DirAC (Pulkki, Laitinen, & Erkut, 2009)為傳統定向音訊寫碼(DirAC) (Pulkki, 2007)方法的擴展,以用於虛擬世界中的聲音合成。為了呈現空間範圍,源的定向聲音分量在源的原始方向周圍的一定範圍內隨機平移,其中平移方向隨時間及頻率而變化。
(Pihlajamäki, Santala, & Pulkki, 2014)採用了類似的方法,其中藉由將源信號的頻帶隨機分佈至不同的空間方向來實現空間範圍。此為旨在產生同樣來自所有方向之空間地分佈及包絡聲音而非控制確切範圍的方法。
Verron等人藉由以下方式實現源之空間範圍:不使用平移之相關信號,但合成源信號之多個非相干版本,將其均勻地分佈在圍繞聽者之圓上,且在其間混合 (Verron, Aramaki, Kronland-Martinet, & Pallone, 2010)。同時主動源之數目及增益判定加寬效應之強度。此方法實施為環境聲音合成器的空間擴展。 3D源寬度
本節描述了涉及在3D空間中呈現擴展音源的方法,亦即以體積方式,因為虛擬實境需要具有6個自由度(「6DoF」)。此意謂使用者移動之6個自由度,亦即頭部在俯仰/橫擺/橫搖軸上的旋轉加上3個平移移動方向x/y/z。
Potard等人藉由研究源形狀的感知將源範圍的概念擴展為源的一維參數(亦即,其在二個揚聲器之間的寬度) (Potard, 2003)。其藉由將(時變)去相關技術應用於原始源信號且接著將非相干源置放至不同空間位置中且由此賦予其三維範圍而產生多個非相干點源(Potard & Burnett, 2004)。
在MPEG-4進階AudioBIFS (Schmidt & Schröder, 2004)中,體積物件/形狀(外殼、盒子、橢圓體及圓柱體)可填充若干同等地分佈且去相關的音源,以引起三維源範圍。
為了使用立體混響增加且控制源範圍,Schmele等人(Schmele & Sayin, 2018)提出了以下各者之混合:降低輸入信號的立體混響階數,其本質上會增加表觀源寬度,及在聆聽空間周圍分佈源信號的去相關複本。
Zotter等人介紹了另一種方法,其中他們採用了(Zotter & Frank, 2013)中提出的原理(亦即,推導引入頻率相關相位及量值差異的濾波器對,以在立體聲再現設定中實現源範圍)以用於立體混響(Zotter F. , Frank, Kronlachner, & Choi, 2014)。
基於平移之方法(例如,(Pulkki, 1997) (Pulkki, 1999) (Pulkki, 2007) (Pulkki, Laitinen, & Erkut, 2009))的一個共同缺點為其對聽者位置的依賴。即使與最有效點的微小偏差亦會導致空間影像坍塌至離聽者最近的揚聲器中。此極大地限制了其在具有6個自由度(6DoF)的虛擬實境及擴增實境之環境中的應用,在該環境中聽者應該可自由移動。另外,在基於DirAC之方法(例如, (Pulkki, 2007) (Pulkki, Laitinen, & Erkut, 2009))中分佈時頻區間並不總能保證恰當呈現幻像源的空間範圍。此外,其通常會顯著降低源信號的音色。
源信號之去相關通常藉由以下方法中之一者來實現:i)推導具有互補量值的濾波器對(例如(Lauridsen, 1954)),ii)使用具有恆定量值但(隨機)加擾相位的全通濾波器(例如, (Kendall, 1995) (Potard & Burnett, 2004)),或iii)空間隨機分佈源信號的時頻區間(例如,(Pihlajamäki, Santala, & Pulkki, 2014))。
所有方法均具有其自身的含義:根據 i)對源信號進行互補濾波通常會導致去相關信號的感知音色發生改變。雖然ii)中的全通濾波保留了源信號的音色,但加擾相位破壞了原始相位關係,且特別對於暫態信號,會導致嚴重的時間色散及拖尾偽影。事實證明,空間分佈時頻區間對一些信號有效,但亦會改變信號的感知音色。此外,其展示出高度的信號相關性,並為脈衝信號引入了嚴重的假影。
進階AudioBIFS ((Schmidt & Schröder, 2004) (Potard, 2003) (Potard & Burnett, 2004))中提出的運用源信號的多個去相關版本填充體積形狀假設大量濾波器的可用性,該等濾波器產生相互去相關的輸出信號(通常,每個體積形狀使用超過十個點源)。然而,找到此類濾波器並非一項微不足道的任務,而且需要的此類濾波器越多,就變得越困難。此外,若源信號沒有完全去相關並且聽者圍繞此形狀(例如在(虛擬實境)情境中)移動,則至聽者的個別源距離對應於源信號的不同延遲,且其在聽者耳朵處的疊加會導致位置相關的梳狀濾波,從而可能會引入令人討厭的源信號不穩定著色。
在(Schmele & Sayin, 2018)中運用基於立體混響的技術藉由降低立體混響階數來控制源寬度展示僅對自2階至1階或至0階的轉變具有聽覺效應。此外,此等轉變不僅被視為源加寬,且亦經常被視為幻象源的移動。雖然添加源信號之去相關版本可幫助穩定化表觀源寬度的感知,但其亦引入了梳狀濾波器效應,其改變了幻象源的音色。
WO2021/180935中公開了用於雙耳呈現空間擴展音源(SESS)之有效方法,其使用輸入波形信號之二個去相關版本(此可藉由使用原始單聲道信號及去相關器以產生此單聲道信號之去相關版本而產生)、提示計算階段,該提示計算階段取決於空間擴展音源之大小計算該源之目標雙耳(及音色)提示(例如,取決於空間擴展音源及聽者之位置及定向作為方位角-仰角範圍給出)。在較佳實施例中,此提示計算階段取決於待由SESS覆蓋的空間區預先計算目標提示並將其儲存至查找表中,且使用目標提示自輸入信號及其去相關版本產生雙耳呈現輸出信號之雙耳提示調整階段形成提示計算階段(查找表)。雙耳調整階段將輸入信號之雙耳提示(通道間相干性ICC、通道間相位差ICPD、通道間位準差ICLD)分幾步調整至其所需的目標值,如藉由提示計算階段/查找表來計算。
發明概要
本發明之一目標為提供一種用於空間擴展音源之經改良概念。
此目標係藉由如獨立請求項中所界定之主題來實現,且較佳實施例在附屬請求項中界定。
常規的空間擴展音源(SESS)快速合成演算法在特定的指定目標空間區中模擬擴散場的聲音印象。此係藉由許多緊密間隔的音源之(虛擬)總和來實現,該等音源由音訊信號的不相關版本驅動。有時,SESS之一部分被部分透射材料(例如灌木)遮擋,導致SESS在經遮擋空間區中出現頻率選擇性衰減。藉由在表查找操作與所需雙耳提示之進一步計算之間的計算中引入加權步驟,可將此效應優雅有效地併入至有效的SESS演算法中。查找表儲存聽者周圍各空間扇區的預先計算的部分項和。該擴展實際上無額外計算成本。實施例係關於一種用於運用選擇性空間加權再現或合成空間擴展音源(SESS)之裝置及方法或電腦程式。
本發明之優點為本發明允許處理具有可能複雜的幾何形狀之空間擴展音源。
本發明之另一優點為實施例允許再現空間擴展音源之經改良概念且使得能夠對SESS呈現進行空間選擇性修改。
第一態樣係關於基本空間扇區之使用。此第一態樣係關於將用於基本空間扇區之資料儲存在查找表中,其中基本空間扇區分佈於球體上。用於基本空間扇區之資料較佳地與形成以使用者為中心的音訊場景之使用者頭部相關聯,且對於相同位置處之頭部的各傾斜且亦對於聽者頭部之各位置(亦即,對於6-DOF之各自由度)為相同的。然而,頭部之各移動或傾斜都會導致來自SESS的聲音在另一或多個基本空間扇區處「進入」使用者頭部之情形。該呈現器判定由SESS覆蓋之基本空間扇區,擷取用於此等特定扇區之經儲存資料,任擇地由於遮擋物件或特定距離對經儲存資料執行加權,且接著組合經儲存資料(或在對經加權之經儲存資料進行加權之狀況下),且接著使用組合操作之結果以用於呈現(例如呈現提示係自經組合(共)變異數資料計算),但此處亦可使用其他步驟及參數。因此,此態樣可或可不使用對遮擋物件之引用且可或可不使用對特定經儲存變異數資料之引用,此係由於亦可當儲存其他資料(諸如(平均) HRTF (用於基本空間扇區或用於全部空間範圍)或甚至頻率相依性提示自身)時進行組合(且任擇地,還有加權)。
第二態樣係關於修改可為遮擋物件或其他物件之物件,從而導致在自SESS位置至具有特定位置及/或傾斜之使用者的途中修改SESS之聲音。此第二態樣係關於例如遮擋物件之處理。遮擋物件之影響為具有低通特性之頻率相依性衰減。頻率相依性加權亦可應用於先前技術程序,其中不具有任何基本空間扇區。基於描述遮擋物件之經傳輸資料,將必須決定SESS是否被遮擋且接著將遮擋函數應用於例如頻率相依性經儲存提示,該等提示在先前技術中已經針對不同頻率給出。因此,此為在不使用基本空間扇區或不使用經儲存變異數資料的情況下先前技術中遮擋效應的有用應用。
第三態樣係關於儲存用於不同空間延伸部或基本空間扇區之例如HRTF的變異數資料及共變異數資料。此第三態樣係關於例如在查找表中將用於例如HRTF之變異數資料及共變異數資料儲存在儲存位置中。無論像先前技術一樣儲存用於特定空間範圍之此資料抑或針對基本空間扇區儲存此資料均為不相關的。該呈現器接著在運行中自經儲存變異數資料計算所有呈現提示。相比於其中至少儲存IACC且可能儲存其他提示或HRFT資料之先前技術應用,在此方面未完成。儲存共變異數資料且在運行中計算提示。因此,此態樣可或可不使用基本空間扇區,且可或可不使用任何修改或遮擋物件。
所有態樣可單獨使用或組合使用,或亦可僅組合任意選擇的二個態樣。
較佳實施例之詳細說明
圖1繪示用於合成空間擴展音源之裝置。該裝置包含儲存器2000,其用於儲存覆蓋用於聽者之呈現範圍之不同的基本空間扇區之呈現資料項目。該裝置此外包含扇區識別處理器4000,其用於自不同的基本空間扇區識別屬於特定空間擴展音源之一組基本空間扇區。該識別係基於聽者資料及與空間擴展音源(SESS)相關的資料來執行。此外,該裝置包含目標資料計算器5000,其用於自用於該組基本空間扇區之呈現資料項目來計算目標呈現資料。另外,該裝置包含音訊處理器3000,其用於使用如由目標資料計算器5000產生之目標呈現資料來處理表示空間擴展音源之音訊信號。
圖2a繪示用於合成空間擴展音源(SESS)之裝置,其包含用於接收音訊場景之描述的輸入介面4020,音訊場景之描述包含關於空間擴展音源之空間擴展音源資料及關於潛在修改物件之修改資料。此外,輸入介面4020經組配以用於接收聽者資料。
通常可實施為圖1之扇區識別處理器4000之扇區識別處理器4000經組配以用於識別在用於聽者之呈現範圍內的空間擴展音源之有限的經修改空間扇區,其中用於聽者之呈現範圍大於有限的經修改空間扇區。該識別係基於空間擴展音源資料及聽者資料以及修改資料來執行。此外,該裝置包含目標資料計算器5000,其通常可與圖1之目標資料計算器5000相同地實施或類似地實施。此裝置經組配以用於自屬於經修改之有限空間扇區的一或多個呈現資料項目計算目標呈現資料,如由圖2a之區塊4000所判定。此外,圖2a中所繪示的根據第二態樣之用於合成空間擴展音源的裝置包含音訊處理器,其用於使用由修改資料(亦即,關於諸如遮擋物件之修改物件之資料)影響之目標呈現資料來處理表示空間擴展音源之音訊信號。
圖2b再次根據第二態樣繪示音訊場景產生器,其包含空間擴展音源資料產生器6010、修改資料產生器6020及輸出介面6030。空間擴展音源資料產生器6010經組配以用於產生空間擴展音源之資料且用於將此資料提供至輸出介面。此資料較佳地包含用於空間擴展音源之位置資訊及定向資訊以及幾何形狀資料中之至少一者作為用於空間擴展音源之元資料,且另外可包含用於SESS之波形資料,諸如用於SESS之立體聲信號(在例如諸如三角鋼琴之較大SESS之狀況下),或可僅包含用於SESS資料之單聲道信號,其由例如圖10中元件310處或圖13中元件3100處繪示之去相關器來處理。
修改資料產生器6020經組配以用於產生修改資料,且此修改資料可包含低通函數之描述或關於潛在修改物件之幾何形狀資料之描述。在一實施例中,低通函數包含用於較高頻率之衰減值,用於較高頻率之衰減值表示相較於用於低頻率之衰減值較強的衰減值,且此資料經轉發至輸出介面6030以用於***至經產生音訊場景描述中。
因此,圖2b中所說明的音訊場景描述相較於SESS描述得以增強,此係因為不僅包括SESS資料,且亦包括關於修改物件之資料,該等修改物件自身並非音源而為修改由音源產生的音場之元件。
圖3繪示根據第三態樣之用於合成空間擴展音源之裝置的較佳實施例。
此元件包含用於儲存用於不同的有限空間扇區之一或多個呈現資料項目之儲存器,其中該等不同的有限空間扇區定位於用於聽者之呈現範圍中,且其中用於有限空間扇區之一或多個呈現資料項目包含左側變異數資料項目、滑動變異數資料項目及左側-右側共變異數資料項目中之至少一者。
此外,該裝置包含扇區識別處理器4000,其用於基於空間擴展音源資料且較佳地基於聽者位置或定向來識別用於在用於聽者之呈現範圍內之空間擴展音源的一或多個有限空間扇區。
左側變異數資料、右側變異數資料及共變異數資料經輸入至目標資料計算器5000中,以用於自經儲存左側變異數資料、經儲存右側變異數資料或經儲存共變異數資料計算目標呈現資料,其對應於如由扇區識別處理器4000所判定之一或多個有限空間扇區。目標呈現資料經轉發至音訊處理器3000以用於使用目標呈現資料來處理表示空間擴展音源之音訊信號。通常,音訊處理器3000可以與圖1及圖2b或圖4、圖5及圖6相同的方式實施,或音訊處理器3000可以不同方式實施。
較佳地,左側變異數資料項目、右側變異數資料項目及/或左側-右側共變異數資料項目為與頭部相關轉移函數資料相關或與雙耳室脈衝回應資料相關或與雙耳室轉移函數資料相關或與頭部相關脈衝回應資料相關的資料項目。此外,呈現資料項目包含用於不同頻率之變異數或共變異數資料項目值,使得實現頻率選擇性/頻率相依性處理。
特定言之,儲存器2000經組配以用於針對各有限空間扇區儲存左側變異數資料項目之頻率相依性表示、右側變異數資料項目之頻率相依性表示,及共變異數資料項目之頻率相依性表示。
經儲存變異數/共變異數資料項目之上游處理係在隨後經指示為圖4、圖5及圖6之來自WO2021/180935的若干圖式中例示。
圖4展示SESS合成之方塊圖。圖5展示SESS合成之另一方塊圖,其根據選項1簡化,且圖6展示SESS合成之方塊圖,其根據選項2簡化。
圖4繪示用於合成空間擴展音源之裝置之實施。該裝置包含空間資訊介面,該空間資訊介面接收空間範圍指示資訊輸入,其指示用於最大空間範圍內之空間擴展音源的有限空間範圍。有限空間範圍經輸入至提示資訊提供器200中,該提示資訊提供器經組配以用於回應於由空間資訊介面給定之有限空間範圍而提供一或多個提示資訊項目。提示資訊項目或若干提示資訊項目經提供至音訊處理器300,該音訊處理器經組配以用於使用由提示資訊提供器200提供之一或多個提示資訊項目而處理表示空間擴展音源之音訊信號。用於空間擴展音源(SESS)之音訊信號可為單個通道或可為第一音訊通道及第二音訊通道,或可為多於二個音訊通道。然而,出於具有低處理負載的目的,用於空間擴展音源或用於表示空間擴展音源之音訊信號之少數通道係較佳的。
音訊信號經輸入至音訊處理器300中,且音訊處理器300處理輸入音訊信號,或當輸入音訊通道之數目小於所需要的,諸如僅一個時,音訊處理器包含圖10中所繪示之第二通道處理器310,該第二通道處理器包含例如用於產生第二音訊通道S 2之去相關器,該第二音訊通道與亦在圖10中經繪示為S 1之第一音訊通道S去相關。提示資訊項目可為實際提示項目,諸如通道間相關性項目、通道間相位差項目、通道間位準差及增益項目、增益因數項目G 1、G 2,其在一起表示例如通道間位準差及/或絕對振幅或功率或能量位準,或提示資訊項目亦可為實際濾波函數,諸如頭部相關轉移函數,其具有由合成信號中之待合成的輸出通道之實際數目需要之數目。因此,當合成信號將具有諸如二個雙耳通道或二個揚聲器通道之二個通道時,需要用於各通道之一個頭部相關轉移函數。代替頭部相關轉移函數,頭部相關脈衝回應函數(HRIR)或雙耳或非雙耳室脈衝回應函數(B)RIR為必要的。各通道均需要一個此類轉移函數,且圖4繪示具有二個通道之實施。
在一實施例中,提示資訊提供器200經組配以提供通道間相關性值作為提示資訊項目。音訊處理器300經組配以實際上經由音訊信號介面305接收第一音訊通道及第二音訊通道。然而,當音訊信號介面305僅接收單個通道時,任擇地提供的第二通道處理器例如藉助於圖9中之程序產生第二音訊通道。音訊處理器執行相關性處理,以使用通道間相關性值施加第一音訊通道與第二音訊通道之間的相關性。
另外,或替代地,可提供另一提示資訊項目,諸如通道間相位差項目、通道間時差項目、通道間位準差及增益項目或第一增益因數及第二增益因數資訊項目。該等項目亦可為耳間(IACC)相關性值,亦即,更特定通道間相關性值,或耳間相位差項目(IAPD),亦即,更特定通道間相位差值。
在一較佳實施例中,回應於相關性提示資訊項目而藉由音訊處理器300施加320相關性,之後執行ICPD (330)、ICTD或ICLD (340)調整或之後執行HRTF或其他轉移濾波函數處理(350)。然而,視具體情況而定,可以不同方式設定次序。
在一較佳實施例中,該裝置包含一記憶體,其用於儲存關於與不同空間範圍指示有關之不同提示資訊項目的資訊。在此情形下,提示資訊提供器另外包含輸出介面,其用於自記憶體擷取與經輸入至對應的記憶體中之空間範圍指示相關聯的一或多個提示資訊項目。此查找表210例如在圖4、圖5或圖6中繪示,其中查找表包含記憶體及用於輸出對應的提示資訊項目之輸出介面。特定言之,記憶體可不僅儲存如圖1b中所繪示之IACC、IAPD或G l及G r值,且查找表內之記憶體亦可儲存如圖5及圖6之區塊220中所繪示之經指示為「選擇HRTF」的濾波函數。在此實施例中,儘管在圖5及圖6中單獨地繪示,但區塊210、220可包含相同記憶體,其中與經指示為方位角及仰角之對應的空間範圍指示相關聯,儲存諸如IACC之對應的提示資訊項目,且任擇地,儲存IAPD及用於濾波器之轉移函數,諸如用於左側輸出通道之HRTF l及用於右側輸出通道之HRTF r,其中左右輸出通道在圖4或圖5或圖6中經指示為S l及S r
由查找表210或選擇功能區塊220使用之記憶體亦可使用儲存裝置,其中基於特定扇區碼或扇區角或扇區角範圍,可獲得對應的參數。替代地,記憶體可視具體情況而定儲存向量碼簿,或多維函數擬合常式,或高斯混合模型(GMM)或支援向量機(SVM)。
如下文中所描述,計算目標提示。在圖4中,展示概念之一般方塊圖。 描述就方位角範圍而言之所要源範圍。 為就仰角範圍而言之所要源範圍。 指代二個去相關輸入信號,其中 描述頻率指數。對於 ,因此,以下等式成立: 。              (1)
另外,需要二個輸入信號具有相同的功率頻譜密度。作為替代方案,有可能僅給出一個輸入信號 。使用如圖10中所描繪之去相關器在內部產生第二輸入信號。給定 ,藉由連續地調整通道間相干性(ICC)、通道間相位差(ICPD)及通道間位準差(ICLD)以匹配對應的耳間提示來合成擴展音源。此等處理步驟所需之數量係自經預計算查找表讀取。所得左右通道信號 可經由頭戴式耳機播放且類似於SESS。應注意,首先必須執行ICC調整,然而,可互換ICPD及ICLD調整區塊。代替IAPD,亦可再現對應的耳間時差(IATD)。然而,在下文中,僅進一步考慮IAPD。
在ICC調整區塊中,二個輸入信號之間的交叉相關使用以下公式[21]經調整為所要值|IACC( ω)|: (2) (3) ,          (4) 。                  (5)
應用此等公式產生所要交叉相關,只要輸入信號 完全去相關即可。另外,其功率頻譜密度需要為相同的。圖9中展示對應的方塊圖。四個濾波器321至324及二個加法器325、326處理輸入以獲得區塊320之輸出。
ICPD調整區塊330藉由以下公式描述: ,             (6) (7)
最終,ICLD調整340如下執行: (8) (9) 其中 描述左耳增益,且 描述右耳增益。此產生所要ICLD,只要 確實具有相同功率頻譜密度即可。由於直接使用左耳及右耳增益,因此除了IALD之外,亦再現了單耳頻譜提示。
為了進一步簡化先前論述之方法,描述用於簡化之二個選項。如先前所提及,影響經感知空間範圍(在水平面中)之主要耳間提示為IACC。因此可設想不使用經預計算IAPD及/或IALD值,而經由HRTF直接調整以上各者。出於此目的,使用對應於表示所要源範圍之位置的HRTF。作為此位置,此處選擇所要方位角/仰角範圍之平均值而不丟失一般性。在下文中,給定二個選項之描述。
第一選項涉及使用經預計算IACC及IAPD值。然而,使用對應於源範圍之中心的HRTF來調整ICLD。
圖5中展示第一選項之方塊圖。現在使用以下公式計算 (10) (11) 其中 描述表示所要方位角/仰角範圍之平均值之HRTF的位置。第一選項心主要優點包括: ● 當與源範圍之中心中的點源相比,源範圍增加時,無頻譜塑形/著色。 ● 與完整版本相比,記憶體要求更低,因為 不必儲存於查找表中。
與完整的方法相比,運行時間期間HRTF資料集之改變更靈活,因為僅所得ICC及ICPD而非ICLD取決於預計算期間使用的HRTF資料集。
此簡化版本之主要缺點為,與未擴展源相比,每當IALD發生劇烈改變,此簡化版本就會失敗。在此狀況下,將不會以足夠的準確性再現IALD。例如,當源未以0°方位角為中心並且同時源在水平方向上的範圍變得太大時即為此狀況。
第二選項涉及僅使用經預計算IACC值。使用對應於源範圍之中心之HRTF來調整ICPD及ICLD。
圖6中展示第二選項之方塊圖。現在使用以下公式計算 (12) (13)
相比於第一選項,現在使用HRTF之相位及量值,而非僅使用量值。此允許不僅調整ICLD且亦調整ICPD。
首先,如下在左通道與右通道之間計算(共)變異數項: 推導出 ,     (20) ,                                  (21) 。                (22)
在第二步驟中,如下自變異數項計算目標提示IACC、IALD及IAPD: ,    (23) ,                            (24) 。          (25) 以及左右耳增益: (26) (27)
自此等目標提示,可藉由設計將輸入聲音變換成經呈現雙耳輸出之4個濾波器來執行雙耳信號之最終有效合成,如WO2021/180935中所解釋。
第一態樣係關於基本空間扇區之使用。此第一態樣係關於將用於基本空間扇區之資料儲存在查找表中,其中基本空間扇區分佈於球體上。用於基本空間扇區之資料較佳地與形成以使用者為中心的音訊場景之使用者頭部相關聯,且對於相同位置處之頭部的各傾斜且亦對於聽者頭部之各位置(亦即,對於6-DOF之各自由度)為相同的。然而,頭部之各移動或傾斜都會導致來自SESS的聲音在另一或多個基本空間扇區處「進入」使用者頭部之情形。該呈現器判定由SESS覆蓋之基本空間扇區,擷取用於此等特定扇區之經儲存資料,任擇地由於遮擋物件或特定距離對經儲存資料執行加權,且接著組合經儲存資料(或在對經加權之經儲存資料進行加權之狀況下),且接著使用組合操作之結果以用於呈現(例如呈現提示係自經組合(共)變異數資料計算),但此處亦可使用其他步驟及參數。因此,此態樣可或可不使用對遮擋物件之引用且可或可不使用對特定經儲存變異數資料之引用,此係由於亦可當儲存其他資料(諸如(平均) HRTF (用於基本空間扇區或用於全部空間範圍)或甚至頻率相依性提示自身)時進行組合(且任擇地,還有加權)。
第二態樣係關於修改可為遮擋物件或其他物件之物件,從而導致在自SESS位置至具有特定位置及/或傾斜之使用者的途中修改SESS之聲音。此第二態樣係關於例如遮擋物件之處理。遮擋物件之影響為具有低通特性之頻率相依性衰減。頻率相依性加權亦可應用於先前技術程序,其中不具有任何基本空間扇區。基於描述遮擋物件之經傳輸資料,將必須決定SESS是否被遮擋且接著將遮擋函數應用於例如頻率相依性經儲存提示,該等提示在先前技術中已經針對不同頻率給出。因此,此為在不使用基本空間扇區或不使用經儲存變異數資料的情況下先前技術中遮擋效應的有用應用。
第三態樣係關於儲存用於不同空間延伸部或基本空間扇區之例如HRTF的變異數資料及共變異數資料。此第三態樣係關於例如在查找表中將用於例如HRTF之變異數資料及共變異數資料儲存在儲存位置中。無論像先前技術一樣儲存用於特定空間範圍之此資料抑或針對基本空間扇區儲存此資料均為不相關的。該呈現器接著在運行中自經儲存變異數資料計算所有呈現提示。相比於其中至少儲存IACC且可能儲存其他提示或HRFT資料之先前技術應用,在此方面未完成。儲存共變異數資料且在運行中計算提示。因此,此態樣可或可不使用基本空間扇區,且可或可不使用任何修改或遮擋物件。
所有態樣可單獨使用或組合使用,或亦可僅組合任意選擇的二個態樣。
本發明之優點在於藉由例如以下各者提供與WO2021/180935相比用於空間擴展音源之增強型有效且逼真的雙耳呈現 ● 以特定方式(基於扇區,使用(共)變異數項,頻率相依性)組織用於目標提示計算之查找表;或 ● 根據所要目標頻率回應執行(共)變異數項之(頻率選擇性)加權,如SESS之(部分或完全)經遮擋部分之合成或確切地模型化距離衰減所需要。
本發明之實施例擴展來自WO2021/180935之先前所描述之概念,以用於以若干方式有效呈現SESS,以增強儲存效率且啟用亦呈現SESS之部分地遮擋的部分之能力:
揭示組織查找表及基於查找表之目標提示計算之尤其有效的方式,其允許將用於SESS之所有可能的空間目標區涵蓋至具有較小大小之查找表中。此係藉由將查找表組織為表來實現,該表將圍繞聽者之頭部之整個球體劃分成較小方位角/仰角扇區。較佳地根據人類方位角/仰角感知之解析度來選擇此等扇區之大小(亦即,其方位角及仰角大小)。舉例而言,用於方位角之人類聽覺解析度在前方最好(大約1度)且朝向側面減小。又,仰角感知之解析度比方位角之解析度粗糙得多,因為聽者之耳朵位於頭部的左右二側。對於此等空間扇區中之各者,特定的部分求和項儲存於查找表中。在一較佳實施例中,當許多點源(藉由其各別頭部相關脈衝回應HRIR描述且藉由經去相關信號版本=擴散場驅動)經求和時,該等特定的部分求和項為雙耳信號之(共)變異數項(E{ Yl•Yr*},E{ |Yl| 2},E{ |Yr| 2})。此外,在一較佳實施例中,此等表條目以頻率選擇性方式儲存(E{ Yl•Yr*},E{ |Yl| 2},E{ |Yr| 2})。
此亦單獨或除上述之外實現的,此係由於提示計算程序利用來自針對各空間扇區儲存之HRIR貢獻的此等經求和項( E{ Y l Y r *} E{ |Y l| 2} E{ |Y r| 2} ),使得—當應涵蓋若干扇區時—可簡單地添加用於此等扇區之(共)變異數資料以產生用於整個目標區(包括所有扇區)之(共)變異數資料。
此外,特定空間扇區之空間加權(例如,用以模型化SESS之此部分之遮擋)可藉由在後續提示計算程序中使用針對此等空間扇區儲存之(共)變異數資料之前藉由對其進行加權來實現。特定言之,可藉由將所有(共)變異數項乘以對應的能量縮放因數g 2(f)來施加所要目標頻率回應g(f)。作為一實例,當聲音傳播通過遮擋灌木時,遮擋灌木將施加衰減及低通頻率回應。因此,(共)變異數項將被衰減,且高頻項比低頻項衰減得更多。用於不同遮擋/加權之若干區域係可能的。以類似方式,物件距離之模型化亦係可能的:對於如河流之較大物件,物件之部分可實質上比其他地方離聽者更遠,因此比附近的部分產生更小的響度。此可藉由不同空間扇區之距離加權而經模型化且呈現。空間扇區中之項係運用對應於此空間扇區中之物件之(例如平均)距離的距離能量衰減因數來經加權。
在下文提供本發明方法或裝置或電腦程式之實施例之概述。
在呈現器之初始化/起動階段中,藉由界定稍後可在上面對HRIR貢獻進行求和之空間扇區(例如方位角及仰角範圍)來劃分圍繞聽者之頭部的球體。接著,基於此等空間扇區,可使用(共)變異數項將對應的HRIR貢獻儲存於查找表中。
圖11繪示實施第一態樣及第二態樣之協作之本發明(方法或裝置或電腦程式)的進一步概述。特定言之,區塊「用於SESS呈現之選擇空間扇區」對應於圖1至圖3中所繪示之扇區識別處理器4000。空間扇區之選擇之結果為空間扇區之群組,其中可存在不具有4010處所繪示之任何修改之一些扇區。此外,具有4020處所繪示之根據第一特性之遮擋修改的扇區可在經判定扇區當中。此外,亦可存在具有經繪示為「編號N」之另一遮擋修改之扇區。此在4030處繪示。在存在多於一個此類扇區之狀況下,由目標資料計算器5000尤其針對第二態樣說明之特定目標資料計算執行用於左側之變異數項、用於右側之變異數項及用於所有未經遮擋扇區之共變異數項的求和。另外,執行根據加權函數1之求和,亦即,若存在多於1個具有根據遮擋/修改編號1之遮擋之扇區,則對該等扇區進行求和且接著應用對應的權重或可交換加權運算與求和運算。此外,在存在具有4030處所繪示之遮擋修改編號N之其他扇區之狀況下,此類扇區可與對應的權重進行求和以用於此等扇區之特定加權/修改函數。
自然地,該狀況可為SESS僅存在未經遮擋扇區或僅存在根據單個修改函數之經遮擋扇區,或該狀況可為此等可能性之間的任何混合,亦即,一個扇區未經遮擋且一個扇區具有遮擋/修改編號1,但無用於遮擋/修改編號N之扇區。自然地,編號「N」亦可等於1,使得僅存在行4010及4020,但具有除修改編號1外之另一修改之任何修改均不由區塊4000判定。
一旦已經在區塊5020中執行用於個別遮擋/修改之個別加權,則進行區塊5040中之整體上提示求和,且接著執行用於最終目標提示計算5060之輸入資料。此目標提示資料接著經輸入至圖11之雙耳提示合成或音訊處理器區塊3000中。若SESS具有立體聲波形信號,則至區塊3000中之輸入為SESS輸入信號編號1及SESS輸入信號編號2。在SESS僅具有單聲道波形信號之狀況下,仍產生二個信號,但運用圖13中之3100處所繪示或圖10中之3010處所繪示之去相關器。
圖12繪示由IACC調整3200、IAPD調整3300及IALD調整3400組成之雙耳提示合成3000之較佳實施。所有此等區塊具備來自經指示為區塊2000中之「查找表」的儲存器之資料。然而,取決於該實施,亦根據目標資料計算步驟5020、5040、5060在區塊2000中產生用於判定IACC、IAPD及IALD之最終值的對應的處理。因此,圖12中之名為「查找表」之區塊具備參考編號2000及參考編號5000。然而,至此區塊中之輸入係由圖1、圖2a、圖3、圖11中之任一者之扇區識別處理器4000提供。
圖13在左側處繪示去相關器3100,其用於自單個SESS波形信號在去相關器之輸出處產生二個SESS輸入信號編號1及編號2。此資料接著經受四個濾波操作3210、3220、3230及3240,其中用於左通道之對應的貢獻經由加法器3250相加且其中右通道之對應的貢獻經由加法器3260相加以獲得左通道及右通道最終輸出信號。個別濾波函數3210、3220、3230及3240針對如WO 2021/180935中所描述之對應地判定之有限空間範圍經由目標資料計算器5000來計算或根據如關於圖7所描述之多個基本空間扇區來計算,其中空間擴展音源係由二個或多於二個基本空間扇區表示。
圖11中描繪用於各音訊區塊之處理,圖11繪示在一起實施第一態樣、第二態樣及第三態樣之一較佳實施例之整體流程圖。對於各音訊信號區塊,用於屬於SESS之目標空間區之(時變)目標提示經判定且應用於雙耳提示合成階段中之二個輸入信號以產生L及R雙耳輸出信號。
如下計算目標雙耳提示:
(例如,使用投影演算法或射線追蹤分析)計算考慮聽者及SESS位置及定向以及SESS幾何形狀之屬於SESS之空間扇區。
特定言之,發現屬於SESS之部分之空間扇區,其應經加權以模型化如遮擋及/或距離衰減等之效應。可存在需要不同衰減/頻率回應特性之若干空間區;對應的扇區在各區中單獨地處理,該等扇區屬於不同的所謂的「扇區類別」(例如「未經遮擋」、「遮擋/修改#1」……「遮擋/修改#n」)。
用於各扇區類別內之扇區之經儲存(共)變異數項經求和。接著,不同扇區類別之經求和扇區(共)變異數資料根據用於各扇區類別之所要傳輸函數經加權。特定言之,彼扇區類別之(共)變異數資料乘以屬於此類別之(頻率相依性)能量傳輸函數(振幅縮放因數/振幅頻率回應之平方)。
用於SESS之所有扇區類別之經加權變異數項經求和為整體(經加權) (共)變異數項。
使用經修改/經加權整體(共)變異數項之目標提示係使用等式(23)至(27)來計算。當然,各扇區之(共)變異數資料亦可個別地經加權,且接著經求和,而非首先執行扇區類別內之部分求和,針對各扇區類別加權一次且最終求和。然而,先前所描述之方法為歸因於其較高效率之一較佳實施例。
相比於現有技術水平之本發明之實施例的優點提供經設定大小之源(SESS)的極有效且較逼真的呈現、較小查找表大小及/或包括在大小源(SESS)之選定空間部分中改變頻率回應之呈現效應(如部分遮擋或距離衰減)的能力。
較佳實例係關於使用一或多個信號通道、空間擴展音源(SESS)之幾何形狀、大小及定向以及HRTF集合作為輸入之呈現器,且經配備以用於空間擴展音源之雙耳呈現(亦即,提供二個輸出信號)。
除了以上各者之外或代替以上各者,用於合成SPESS之其他較佳呈現器或裝置及方法亦包含目標提示計算階段(例如,用於計算所要耳間目標提示)及提示合成階段(例如,用於運用所要目標提示將輸入信號變換成雙耳呈現的信號)。
除了以上各者之外或代替以上各者,用於合成SPESS之其他較佳呈現器或裝置及方法亦包含查找表之使用,該查找表含有用於SESS之雙耳呈現之經預計算資料且取決於HRTF集合針對不同頻帶提供/預計算。
除以上各者之外或代替以上各者,用於合成SPESS之其他較佳呈現器或裝置及方法亦包含查找表,其經組織以儲存用於各空間扇區之(共)變異數項(諸如,l (左側)變異數、r (右側)變異數、lr共變異數)。
在其他較佳實施例中:空間扇區經界定為方位角/仰角範圍。
在其他較佳實施例中,空間扇區大小之選擇係與人類聽覺空間定位能力之解析度有關(例如,該等空間扇區大小在仰角方向上比在方位角方向上更寬)。
在其他較佳實施例中,目標雙耳呈現提示之計算係基於屬於SESS之空間扇區的經求和變異數項來執行。
在其他較佳實施例中,(例如用於遮擋或距離模型化)之SESS之不同空間區的呈現之修改係藉由使用來自查找表之經修改變異數項而非最初儲存的變異數項來實現。
在其他較佳實施例中,該修改係藉由將變異數項乘以屬於空間扇區之能量衰減因數來進行。
在其他較佳實施例中,此衰減因數係頻率相依的(例如,以模型化歸因於部分遮擋之低通效應)。
另一實施例係關於位元串流,其包括以下資訊:物件及波形之大小、位置及定向,以及遮擋物件之幾何形狀。
隨後,描述如當前針對MPEG I ISO 23090-4開發之另一較佳實施例:
此實施例合成一或多個空間擴展音源(SESS)以用於物件源之頭戴式耳機再現,該等物件源具有經設定為1之相關聯的旗標objectSourceHasExtent。用於物件源之各別參數係藉由objectSourceExtentId識別。
該合成係基於藉由分佈於整個源範圍空間範圍上之(理想地)無窮大數目個去相關點源對SESS之描述。藉由在朝向當前聽者位置之方向上連續地投射SESS幾何形狀,可每圖框識別且即時地更新由該幾何形狀覆蓋之範圍。換言之,每圖框將該幾何形狀投射至表示使用者之虛擬傾聽空間的球體上。且由該球體上之經投射幾何形狀佔據之空間區段為包括在SESS之可聽化中的空間區段。
SESS係由使用者以編碼器輸入格式(EIF)界定。給定所要源範圍,使用二個去相關輸入信號合成SESS。以使得合成感知上重要的聽覺提示之方式來處理此等輸入信號。此包括以下耳間提示:耳間交叉相關(IACC)、耳間相位差(IAPD)及耳間位準差(IALD)。除此之外,再現單耳頻譜提示。此在圖12中繪示。
資料元素及變數 itemStore                   至RenderItemStore物件之本端指針 B                                區塊大小 Fs                               取樣率 extentProcessor           自項目id至其extentProcessor例項之映射 extentDownmixItem  用以儲存所有範圍之雙耳信號之最終輸出的RI。 階段描述
為了節約即時計算成本,個別HRTF點經指派至預定義的網格表中,該等網格表將收聽者之虛擬傾聽球體分隔成均勻地分佈的區。在初始化期間,執行N點DFT以針對各HRIR得到N/2+1頻率分量,其中N係其長度。接著,用於各網格之三個中間值係藉由對所有HRTF點之資料進行積分而獲得,左右通道之增益(未經正規化之IACC)係在所有HRTF點內。另外,亦儲存經包括在各網格中之HRTF資料點之數目。該等HRTF資料點用於即時地計算最終提示。
用於各網格之二個通道之增益係運用等式28及29來計算,其中 分別為左右HRTF之量值,N為在此網格內之HRTF點之數目:
(28)
(29)
用於各網格之未經正規化之IACC係運用等式30來計算,其中ϕ, l及ϕ, r分別為左右HRTF之相位:
(30)
等式28至30中之程序係在實際處理之前提前執行,且對應於圖8之步驟800、810,且此等處理之結果為較佳地儲存於對應的圖式中之儲存器2000或200中之資料。
在即時處理期間,藉由範圍處理器產生且管理各唯一擴展音源。對於每一圖框,各主動處理器接收音訊樣本之緩衝區及指示如何合成擴展音源之元資料。存在二個單獨的處理鏈:更新執行緒中之元資料處置及音訊執行緒中之音訊處理。該等處理鏈分別在以下章節中描述,且其結果在第二鏈之末尾組合以產生雙耳音訊輸出。
在更新執行緒中執行之計算:
對於各唯一擴展音源,呈呈現項目(RI)之形式之一或多個元資料載體係由遮擋階段(例如對應於區塊4000)產生。
此階段4000循環遍歷所有傳入的RI,且將相關範圍元資料指派至對應的處理器。若來自預定義表格之空間區段中之一者經涵蓋且應經包括以用於在此圖框中對範圍進行聽覺化,則傳入的元資料將含有增益因數(圖11之項目4010、4020、4030)及對應於用於其之一些預定義頻率區間的增益清單。藉由對具有增益及EQ之經儲存中間資料進行選擇(例如4000)、加權(例如5020)且最終累加(例如5040),實現具有任何形式及遮擋程度之擴展音源之任意形狀(大小/材料)的產生。
最終濾波器係藉由以下步驟獲得:在對呈現項目(RI)中指示之所有網格點進行積分(或累加)之後,運用總經加權數目個HRTF資料點對左右通道之增益及IACC (例如變異數及共變異數資料)進行正規化:
(31)
  (32)
(33)
等式31至33中之程序對應於區塊5040。
頻率相依性的 係使用經正規化IACC來計算:
(34)
  (35)
在一實施例中,區塊5060中之計算對應於等式34及35之處理。
最終立體聲濾波器3210、3220、3230、3240係使用 、左右通道之增益( )獲得,且自HRTF點提取之相位對應於範圍之中心。( ):
(36)
(37)
(38)
(39)
區塊36至39之計算較佳地亦在區塊5060中執行。
在音訊執行緒中執行之計算:
輸入單聲道信號首先經饋送至去相關器3100中以獲得二個去相關版本。可使用MPEG-I去相關器或任何其他去相關器,諸如圖10中所繪示之去相關器。
接著,將二個去相關信號中之各者與在更新執行緒中計算之對應的立體聲濾波器3210、3220、3230、3240進行卷積,從而產生輸出之四個通道。接著,將執行交叉混合3250、3260以產生最終雙耳輸出。
等式(40)及(41)定義(濾波及)混合程序,其中 表示二個去相關信號,且 係在元資料處理部分中計算之(分別用於左右)之二個立體聲濾波器。圖13為用於程序之信號流程圖。圖13中所繪示之濾波器類似於圖9的濾波器。
(40)
(41)
根據等式40及41之處理較佳地在圖11之音訊處理器或雙耳提示合成區塊3000或圖4、圖5、圖6之300中執行。
圖7繪示用於聽者之呈現範圍之示意性表示。呈現範圍例示性地為以使用者為中心之球體。因此,使用者或聽者(圖7中未繪示)位於球體之中心處,且對應於圍繞聽者之此球體之呈現範圍可被視為與使用者之手部「相關聯」。因此,當使用者改變她或他在水平、豎直或深度方向(x, y, z)中之一者上的位置時,該球體根據使用者相對於空間擴展音源之移動而四處移動,該空間擴展音源可被視為相對於使用者固定。此外,當該使用者藉由向上觀看、向下觀看或向側面觀看來移動他的手部時,表示用於聽者之呈現範圍之該球體亦向上、向下或向側面移動,亦即,亦執行使用者應用於她或他的頭部之「移動」,而不在水平、豎直或深度方向上移動。因此,用於聽者之球體呈現範圍可被視為一種「頭盔」,其始終遵循使用者或聽者之頭部在所有6個自由度中之移動。
此球體分隔成可間隔開的個別的基本空間扇區,且因此關於方位角及仰角以不同方式經設定尺寸以便反映心理聲學發現。特定言之,呈現範圍包含該球體或圍繞聽者之球體之一部分,且圖7中所繪示之各基本空間扇區例如具有方位角大小及仰角大小。特定言之,基本空間扇區之方位角大小及仰角大小彼此不同,使得相較於更靠近聽者之側面的基本空間扇區之方位角大小,在聽者正前方之基本空間扇區之方位角大小更精細,及/或方位角大小朝向聽者之一側減小,及/或基本空間扇區之仰角大小小於此扇區之方位角大小。
因此,本發明之態樣依賴於以使用者為中心的表示,其相對於空間擴展音源隨使用者移動,且使用者之頭部處於該空間之中心且該球體或該球體之一部分為呈現範圍。
扇區識別處理器4000現在判定哪些不同的基本空間扇區表示在圖7中之7000處所繪示之空間擴展音源。在此實例中,例如,經由自此球體之中心開始且指向SESS 7000之射線追蹤演算法判定在圖7中經指示為「1」、「2」、「3」及「4」之四個基本空間扇區ESS在使用者相對於SESS 7000之特定定向及位置處「屬於」SESS 7000。因此,假設,實際上到達使用者之耳朵的由SESS 7000發射之音場經過此等四個ESS。此外,圖7中亦繪示遮擋物件7010,且出於實例的目的,假設,該遮擋物件完全遮擋基本空間扇區(ESS1),部分地遮擋基本空間扇區2 (ESS2),且不遮擋ESS3、ESS4。
因此,轉向圖11,基本空間扇區1、2對應於項目4010,基本空間扇區1對應於項目4020且基本空間扇區2對應於圖11之項目4030。替代地,可判定,經部分遮擋扇區亦屬於與經完全遮擋扇區相同的類別,或若僅遮擋該扇區之極小部分,則亦可判定,具有低於特定臨限值之遮擋之扇區亦經判定為未被完全遮擋。
儘管在圖7中繪示基本空間扇區及該等扇區之遮擋之任擇的遮擋程度或修改特性對於雙耳(亦即左右)均相同,但狀況亦可為基本空間扇區之編號及/或識別對於左側耳朵且對於右側耳朵係不同的。當SESS相當接近使用者並且SESS位於雙耳之間的中間而非一側或另一側時,會容易出現此狀況。
此外,可執行除射線追蹤演算法之外的其他程序以便判定SESS至用於聽者(亦即用於例示性球體)之呈現範圍上的投影。另外,SESS 7000無需必然為固定的。SESS亦可為動態的,亦即可隨時間推移移動。接著,必須預先判定SESS相對於使用者之位置,且接著,針對特定時間點/針對SESS波形信號之特定圖框,判定用於聽者頭部之實際位置的聽者之左側及右側的對應的基本空間扇區,且接著,計算提示,如關於圖11中之記錄5020至5060所繪示。
另外,此處應注意,該呈現範圍不一定必須為完整球體。其可僅包含球體之一部分。另外,該呈現範圍不一定必須為球形。其亦可為圓柱形或其亦可具有多邊形形狀,只要其覆蓋圍繞聽者之空間之特定三維部分即可。
關於基本空間扇區之大小,應強調,基本空間扇區可為相當小的,使得為了判定經儲存呈現資料項目,用振幅及相位而非特定數字之求和指示之僅單個HRTF (如例如等式20、等式21及等式22或等式28至30中所說明)係足夠的。然而,當使用具有特定維度之基本空間扇區使得縮減儲存用於各基本空間扇區之呈現資料項目的儲存器之大小時,可根據等式20至22或28至30執行經儲存於用於各基本空間扇區之儲存器中的呈現資料項目之判定,其中僅屬於特定基本空間扇區之HRTF經求和以便獲得用於特定頻率且用於此基本空間扇區之實際(共)變異數資料。
應注意,此程序之特定優點係不必在運行時間執行所有此等計算。替代地,一旦判定了將呈現範圍特定劃分為基本空間扇區或網格點之特定網格,則可計算且儲存用於各個別或基本空間扇區之經儲存資料,且對於運用特定網格之特定初始化,在運行時間期間進行之唯一程序將會將用於此網格之對應的經預計算資料加載至儲存器或查找表中。
有必要在運行時間期間執行之唯一程序係屬於特定使用者定向/位置之空間擴展音源的基本空間扇區之識別及歸因於遮擋物件的可能必要的加權,以及接著對應於圖11中之區塊5040的最終整體求和,此接著為區塊5060中之最終目標提示計算給出了自由方式。因此,相較於判定用於基本空間扇區(亦即用於特定網格)之渲染資料項目所需的計算操作,運行時間期間之必要計算操作係極其有限的且係極小的。
此外,應注意,用於特定網格之儲存器不取決於使用者位置/定向,此係由於在位置之改變或SESS之特性之狀況下或在使用者之定向/位置之改變之狀況下,僅經識別基本空間扇區改變,但針對表示網格之基本空間扇區儲存之資料不會改變。換言之,僅用於基本空間扇區之ID編號改變,但用於具有特定ID編號之基本空間扇區的資料不改變。
隨後,描述圖8以便說明用於本發明之一個或若干態樣的較佳程序。
在步驟800中,判定或初始化諸如球體之呈現範圍。該結果為例如具有特定網格點或基本空間扇區之球體。在區塊810中,諸如(共)變異數資料之呈現資料項目針對呈現範圍中之所有基本空間扇區被儲存於諸如查找表之儲存器中。
接著,在步驟820中,執行如藉由區塊4000進行之扇區識別。因此,屬於空間擴展音源之一或多個基本空間扇區係基於經輸入至區塊820中之聽者的SESS資料及位置/定向資料而判定。區塊820之結果為一或多個基本空間扇區。
在區塊830中,如區塊5040所繪示,諸如運用或不運用加權對用於多個基本空間扇區之呈現資料項目執行求和。
在區塊840中,計算諸如IACC、IALD、IAPD、GL、GR之目標呈現資料,此係由區塊5060執行。
在區塊850中,如所說明,將目標呈現資料應用於空間擴展音源音訊信號,例如,亦藉助於圖11之音訊處理器區塊3000或雙耳提示合成區塊3000。
根據本發明之第一態樣,如圖7中所繪示來實施呈現球體,亦即,覆蓋用於聽者之呈現範圍之基本空間扇區經判定,且扇區識別處理器界定用於空間擴展音源之一組基本空間扇區,諸如二個或多於二個基本空間扇區。然而,經儲存呈現資料項目為變異數或共變異數資料僅為一較佳實施例。替代地,呈現所必需的其他資料項目亦可藉由目標資料計算器來儲存且組合。此外,此程序亦確實不一定需要修改處理,但較佳地執行修改處理。
根據本發明之第二態樣,需要判定潛在修改物件且基於潛在修改物件識別來判定有限的修改空間扇區。然而,對於此程序,呈現範圍不一定必須如圖7中所繪示來設定尺寸,亦即,其中個別基本空間扇區具有個別經儲存資料項目。替代地,呈現範圍亦可如其他實施(諸如WO 2021/180935中所說明之實施)中所繪示來實施。此外,為了判定且為了考慮修改物件,經儲存呈現資料項目不一定為變異數/共變異數資料。替代地,亦可使用其他呈現資料,諸如經說明為WO 2021/180935中之經儲存資料。
關於第三態樣,不一定需要判定如圖7中所繪示之呈現範圍。替代地,其他判定,諸如如WO 2021/180935中所說明之呈現範圍的定義,可用於一或多個有限空間扇區。然而,有限的空間扇區較佳地實施為圖7中所展示之基本空間扇區。此外,出於將變異數/共變異數資料用作經儲存資料之目的,運用修改/遮擋物件之特定處理亦並非所需特徵,但係較佳的,如先前關於例如圖8中之區塊830所論述。
隨後概述與第一態樣相關的其他實施例。
實施例係關於一種用於合成空間擴展音源(SESS)之裝置,其包含:儲存器,其用於儲存用於覆蓋用於聽者之呈現範圍之不同的基本空間扇區之呈現資料項目;扇區識別處理器,其用於基於聽者資料及空間擴展音源資料自不同的基本空間扇區識別屬於該空間擴展音源之一組基本空間扇區;目標資料計算器,其用於自用於該組基本空間扇區之呈現資料項目來計算目標呈現資料;及音訊處理器,其用於使用該目標呈現資料來處理表示該空間擴展音源之音訊信號。
在其他實施例中,該儲存器經組配以針對各基本空間扇區儲存與左側頭部相關轉移函數資料相關的左側變異數資料項目、與右側頭部相關轉移函數(HRTF)資料相關的右側變異數資料項目及與左側HRTF資料及右側HRTF資料相關的共變異數資料項目中之至少一者作為呈現資料項目,其中該目標計算器經組配以分別對用於該組基本空間扇區之左側變異數資料項目或用於該組基本空間扇區之右側變異數資料項目或用於該組基本空間扇區之共變異數資料項目進行求和以獲得至少一個經求和項目,其中該目標計算器經組配以自至少一個經求和項目計算至少一個呈現提示作為目標呈現資料,且其中該音訊處理器經組配以使用至少一個呈現提示來處理音訊信號。
在其他實施例中,該扇區識別處理器經組配以應用投影演算法或射線追蹤分析以判定該組基本空間扇區或將聽者位置或聽者定向用作聽者資料或將空間擴展音源(SESS)定向、SESS位置或關於SESS之幾何形狀之資訊用作SESS資料。
在其他實施例中,該扇區識別處理器經組配以自音訊場景之描述接收關於潛在遮擋物件之遮擋資訊且基於該遮擋資訊將該組基本空間扇區中之特定空間扇區判定為遮擋扇區,且其中該目標資料計算器經組配以將遮擋函數應用於針對遮擋扇區儲存的呈現資料項目以獲得經修改資料且使用該經修改資料以用於計算目標呈現資料。
在其他實施例中,該遮擋函數為具有用於不同頻率之不同衰減值的低通函數,且其中該等呈現資料項目為用於不同頻率之資料項目,且其中該目標資料計算器經組配以針對若干頻率運用用於特定頻率之衰減值對用於特定頻率之資料項目進行加權以獲得經修改呈現資料。
在其他實施例中,該扇區識別處理器經組配以判定針對遮擋物件判定之該組基本空間扇區中之另一基本空間扇區不由可能遮擋物件遮擋,且其中該目標資料計算器經組配以組合來自該遮擋扇區之經修改資料與另一扇區之呈現資料項目,而無需使用該遮擋函數之修改或無需藉由不同修改函數進行修改,以獲得目標呈現資料。
在其他實施例中,該扇區識別處理器經組配以判定該組基本空間扇區中之第一基本空間扇區具有第一特性且判定該組基本空間扇區中之第二基本空間扇區具有第二不同特性,且其中該目標資料計算器經組配以不將任何修改函數應用於第一基本空間扇區且將修改函數應用於第二基本空間扇區或將第一修改函數應用於第一基本空間扇區且將第二修改函數應用於第二基本空間扇區,該第二修改函數不同於該第一修改函數。
在其他實施例中,第一修改函數為頻率選擇性的且第二修改函數為隨頻率恆定的,或其中第一修改函數具有第一頻率選擇性特性,且其中第二修改函數具有不同於第一頻率選擇性特性之第二頻率選擇性特性,或其中第一修改函數具有第一衰減特性且第二修改函數具有第二不同衰減特性,且其中該目標資料計算器經組配以基於第一基本空間扇區或第二基本空間扇區至聽者之間的距離或基於置放於聽者與對應的基本空間扇區之間的物件之特性來自第一修改函數及第二修改函數選擇或調整修改函數。
在其他實施例中,該扇區識別處理器經組配以基於與基本空間扇區相關聯之特性將該組基本空間扇區分類成不同扇區類別,其中該目標資料計算器經組配以在多於一個基本空間扇區處於一類別中之情況下組合各類別中之基本空間扇區之呈現資料項目以獲得用於各類別之經組合結果,且將與至少一個類別相關聯之特定修改函數應用於此類別之經組合結果以獲得用於此類別之經修改組合結果,或將與至少一個類別相關聯之特定修改函數應用於各類別之一或多個基本空間扇區之一或多個資料項目以獲得經修改資料項目,且組合各類別中之基本空間扇區之經修改資料項目以獲得用於此類別之經修改組合結果,組合該組合結果或用於各類別之經修改組合結果(若可獲得)以獲得整體組合結果,且使用整體組合結果作為目標呈現資料或自整體組合結果計算目標呈現資料。
在其他實施例中,用於基本空間扇區之該特性經判定為係包含涉及第一遮擋特性之經遮擋基本空間扇區、涉及不同於第一遮擋特性之第二遮擋特性之經遮擋基本空間扇區、與聽者具有第一距離之未經遮擋之基本空間扇區及與聽者具有第二距離之未經遮擋之基本空間扇區的一群組中之一者,其中該第二距離不同於該第一距離。
在其他實施例中,該目標資料計算器經組配以將頻率相依性變異數或共變異數參數修改或組合為呈現資料項目以獲得整體經組合變異數或整體經組合共變異數參數作為整體組合結果,且計算耳間相干性提示、耳間位準差提示、耳間相位差提示、第一側增益或第二側增益中之至少一者作為目標呈現資料。
在其他實施例中,該音訊處理器經組配以使用對應的提示作為目標呈現資料來執行通道間相干性調整、通道間相位差調整、通道間位準差調整中之至少一者。
在其他實施例中,該呈現範圍包含圍繞聽者之球體或球體之一部分,其中該呈現範圍係與聽者位置或聽者定向相關聯,且其中各基本空間扇區具有方位角大小及仰角大小。
在其他實施例中,該等基本空間扇區之方位角大小及仰角大小彼此不同,使得相較於更靠近聽者之側面的基本空間扇區之方位角大小,在聽者正前方之基本空間扇區之方位角大小更精細,或其中方位角大小朝向聽者之一側減小,或其中基本空間扇區之仰角大小小於此扇區之方位角大小。
隨後概述與第二態樣相關的其他實施例。
一種用於合成空間擴展音源之裝置之實施例包含:輸入介面,其用於接收音訊場景之描述且用於接收聽者資料,該音訊場景之描述包含關於空間擴展音源之空間擴展音源資料及關於潛在修改物件之修改資料;扇區識別處理器,其用於基於空間擴展音源資料及聽者資料以及修改資料針對用於聽者之呈現範圍內之空間擴展音源識別有限的經修改空間扇區,用於聽者之呈現範圍大於有限的經修改空間扇區;目標資料計算器,其用於自屬於經修改之有限的空間扇區之一或多個呈現資料項目來計算目標呈現資料;及音訊處理器,其用於使用目標呈現資料來處理表示空間擴展音源之音訊信號。
在其他實施例中,該修改資料為遮擋資料,且其中該潛在修改物件為潛在遮擋物件。
在其他實施例中,該潛在修改物件具有相關聯的修改函數,其中該一或多個呈現資料項目係頻率相依的,其中該修改函數係頻率選擇性的,且其中該目標資料計算器經組配以將頻率選擇性修改函數應用於一或多個頻率相依性呈現資料項目。
在其他實施例中,頻率選擇性修改函數具有用於不同頻率之不同值,且其中該頻率相依性一或多個呈現資料項目具有用於不同頻率之不同值,且其中該目標資料計算器經組配以將用於特定頻率之頻率選擇性修改函數之值應用於用於特定頻率之一或多個呈現資料項目之值或將二者相乘或組合。
在其他實施例中,提供一種用於儲存用於多個不同有限空間扇區之一或多個呈現資料項目之儲存器,其中該多個不同有限空間扇區在一起形成用於聽者之呈現範圍。
在其他實施例中,該修改函數為頻率選擇性低通函數,且其中該目標資料計算器經組配以應用該低通函數,使得一或多個呈現資料項目之在較高頻率下之值相比於一或多個呈現資料項目之在較低頻率下之值衰減得更強。
在其他實施例中,該扇區識別處理器經組配以基於聽者資料及空間擴展音源資料來判定用於空間擴展音源之有限空間扇區,判定有限空間扇區之至少一部分是否經受修改物件之修改,且當該部分大於臨限值時或當全部有限空間扇區經受修改物件之修改時將有限空間扇區判定為經修改空間扇區。
在其他實施例中,該扇區識別處理器經組配以應用投影演算法或射線追蹤分析以判定有限空間扇區或將聽者位置或聽者定向用作聽者資料或將空間擴展音源(SESS)定向、SESS位置或關於SESS之幾何形狀之資訊用作SESS資料。
在其他實施例中,該呈現範圍包含圍繞聽者之球體或球體之一部分,其中該呈現範圍係與聽者位置或聽者定向相關聯,且其中經修改有限空間扇區具有方位角大小及仰角大小。
在其他實施例中,經修改有限空間扇區之方位角大小及仰角大小彼此不同,使得相較於更靠近聽者之側面的經修改有限空間扇區之方位角大小,在聽者正前方之經修改有限空間扇區之方位角大小更精細,或其中方位角大小朝向聽者之一側減小,或其中經修改有限空間扇區之仰角大小小於經修改有限空間扇區之方位角大小。
在其他實施例中,使用與左側頭部相關轉移函數資料相關的左側變異數資料項目、與右側頭部相關轉移函數(HRTF)資料相關的右側變異數資料項目及與左側HRTF資料及右側HRTF資料相關的共變異數資料項目中之至少一者作為用於經修改有限空間扇區之一或多個呈現資料項目。
在其他實施例中,該扇區識別處理器經組配以判定屬於空間擴展音源之一組基本空間扇區且在該組基本空間扇區當中將一或多個基本空間扇區判定為有限的經修改空間扇區,且其中該目標資料計算器經組配以使用修改資料來修改與有限的經修改空間扇區相關聯之一或多個呈現資料項目以獲得經組合資料且將經組合資料與該組基本空間扇區中之一或多個基本空間扇區之呈現資料項目組合,該一或多個基本空間扇區不同於有限的經修改空間扇區且未經修改或相較於針對有限的經修改空間扇區之修改以不同方式經修改。
在其他實施例中,該扇區識別處理器經組配以基於與基本空間扇區相關聯之特性將該組基本空間扇區分類成不同扇區類別,其中該目標資料計算器經組配以在多於一個基本空間扇區處於一類別中之情況下組合各類別中之基本空間扇區之呈現資料項目以獲得用於各類別之經組合結果,且將與至少一個類別相關聯之特定修改函數應用於此類別之經組合結果以獲得用於此類別之經修改組合結果,或將與至少一個類別相關聯之特定修改函數應用於各類別之一或多個基本空間扇區之一或多個資料項目以獲得經修改資料項目,且組合各類別中之基本空間扇區之經修改資料項目以獲得用於此類別之經修改組合結果,組合該組合結果或用於各類別之經修改組合結果(若可獲得)以獲得整體組合結果,且使用整體組合結果作為目標呈現資料或自整體組合結果計算目標呈現資料。
在其他實施例中,用於基本空間扇區之該特性經判定為係包含涉及第一遮擋特性之經遮擋基本空間扇區、涉及不同於第一遮擋特性之第二遮擋特性之經遮擋基本空間扇區、與聽者具有第一距離之未經遮擋之基本空間扇區及與聽者具有第二距離之未經遮擋之基本空間扇區的一群組中之一者,其中該第二距離不同於該第一距離。
在其他實施例中,該目標資料計算器經組配以將頻率相依性變異數或共變異數參數修改或組合為呈現資料項目以獲得整體經組合變異數或整體經組合共變異數參數作為整體組合結果,且計算耳間或通道間相干性提示、耳間或通道間位準差提示、耳間或通道間相位差提示、第一側增益或第二側增益中之至少一者作為目標呈現資料,且其中該音訊處理器經組配以用於使用耳間或通道間相干性提示、耳間或通道間位準差提示、耳間或通道間相位差提示、第一側增益或第二側增益中之至少一者作為目標呈現資料來處理音訊信號。
其他實施例包含用於產生音訊場景描述之音訊場景產生器,其包含:空間擴展音源(SESS)資料產生器,其用於產生空間擴展音源之SESS資料;修改資料產生器,其用於產生關於潛在修改物件之修改資料;及輸出介面,其用於產生包含SESS資料及修改資料之音訊場景描述。
在其他實施例中,該修改資料包含低通函數或關於潛在修改物件之幾何形狀資料之描述,其中該低通函數包含用於較高頻率之衰減值,用於較高頻率之衰減值表示相較於用於較低頻率之衰減值較強的衰減值,且其中該輸出介面經組配以將作為修改資料之衰減函數或關於潛在修改物件之幾何形狀資料之描述引入至音訊場景描述中。
在其他實施例中,SESS資料產生器經組配以產生SESS之位置及關於SESS之幾何形狀之資訊作為SESS資料,且其中輸出介面經組配以引入關於SESS之位置之資訊及關於SESS之幾何形狀之資訊作為SESS資料。
在其他實施例中,該SESS資料產生器經組配以產生關於空間擴展音源之大小、位置或定向之資訊或用於與空間擴展音源相關聯之一或多個音訊信號之波形資料作為SESS資料,或其中該修改資料計算器經組配以計算諸如潛在遮擋物件之潛在修改物件之幾何形狀作為修改資料。
其他實施例包含音訊場景描述,其包含:空間擴展音源資料,及關於一或多個潛在修改物件之修改資料。
在其他實施例中,音訊場景描述經實施為經傳輸或儲存位元串流,其中該空間擴展音源資料表示第一位元串流元素,且其中該修改資料表示第二位元串流元素。
隨後概述與第三態樣相關的其他實施例。
實施例包含一種用於合成空間擴展音源(SESS)之裝置,其包含:儲存器,其用於儲存用於不同有限空間扇區之一或多個呈現資料項目,其中該等不同有限空間扇區定位於用於聽者之呈現範圍中,其中用於有限空間扇區之一或多個呈現資料項目包含與左側頭部相關函數資料相關的左側變異數資料項目、與右側頭部相關函數資料相關的右側變異數資料項目及與左側頭部相關函數資料及右側頭部相關函數資料相關的共變異數資料項目中之至少一者;扇區識別處理器,其用於基於空間擴展音源資料識別用於聽者之呈現範圍內之空間擴展音源之一或多個有限空間扇區;目標資料計算器,其用於自經儲存左側變異數資料、經儲存右側變異數資料或經儲存共變異數資料計算目標呈現資料;及音訊處理器,其用於使用目標呈現資料來處理表示空間擴展音源之音訊信號。
在其他實施例中,該儲存器經組配以儲存與頭部相關轉移函數資料或雙耳室脈衝回應資料或雙耳室轉移函數資料或頭部相關脈衝回應資料相關的變異數資料項目或共變異數資料項目。
在其他實施例中,一或多個呈現資料項目包含用於不同頻率之變異數或共變異數資料項目值。
在其他實施例中,該儲存器經組配以針對各有限空間扇區儲存左側變異數資料項目之頻率相依性表示、右側變異數資料項目之頻率相依性表示及共變異數資料項目之頻率相依性表示。
在其他實施例中,該目標資料計算器經組配以用於計算耳間或通道間相干性提示、耳間或通道間位準差提示、耳間或通道間相位差提示、第一側增益及作為目標呈現資料之第二側增益中之至少一者作為目標呈現資料,且其中該音訊處理器經組配以使用對應的提示作為目標呈現資料來執行通道間或耳間相干性調整、耳間或通道間相位差調整或耳間或通道間位準差調整中之至少一者。
在其他實施例中,該目標資料計算器經組配以基於左側變異數資料項目、右側變異數資料項目及共變異數資料項目計算耳間或通道間相干性提示,或基於左側變異數資料項目及右側變異數資料項目計算通道間或耳間相位差提示,或基於共變異數資料項目計算通道間或耳間相位差提示,或使用左側或右側變異數資料項目及與音訊信號之信號功率相關的資訊來計算左側或右側增益。
在其他實施例中,該目標資料計算器經組配以計算耳間或通道間相干性提示,使得耳間或通道間相干性提示之值係在藉由本說明書中所描述之耳間或通道間相干性提示之等式獲得之一值的+/-20%之範圍內,或其中該目標資料計算器經組配以計算耳間或通道間位準差提示,使得耳間或通道間位準差提示之值係在藉由本說明書中所描述之耳間或通道間位準差提示之等式獲得之一值的+/-20%之範圍內,或其中該目標資料計算器經組配以計算耳間或通道間相位差提示,使得耳間或通道間相位差提示之值係在藉由本說明書中所描述之耳間或通道間相位差提示之等式獲得之值的+/-20%之範圍內,或其中該目標資料計算器經組配以計算第一或第二側增益,使得第一或第二側增益之值係在藉由本說明書中所描述之左側或右側增益之等式獲得之值的+/-20%之範圍內。
在其他實施例中,該扇區識別處理器經組配以應用投影演算法或射線追蹤分析以將一或多個有限空間扇區判定為一組基本空間扇區,或將聽者位置或聽者定向用作聽者資料,或將空間擴展音源(SESS)定向、SESS位置或關於SESS之幾何形狀之資訊用作SESS資料。
在其他實施例中,該呈現範圍包含圍繞聽者之球體或球體之一部分,其中該呈現範圍係與聽者位置或聽者定向相關聯,且其中一或多個有限空間扇區具有方位角大小及仰角大小。
在其他實施例中,不同有限空間扇區之方位角大小及仰角大小彼此不同,使得相較於更靠近聽者之側面的有限空間扇區之方位角大小,在聽者正前方之有限空間扇區之方位角大小更精細,或其中方位角大小朝向聽者之一側減小,或其中有限空間扇區之仰角大小小於此扇區之方位角大小。
在其他實施例中,該扇區識別處理器經組配以將一組基本空間扇區判定為一或多個有限空間扇區,其中針對各基本空間扇區,儲存左側變異數資料項目、右側變異數資料項目及共變異數資料項目中之至少一者。
在其他實施例中,該扇區識別處理器經組配以自音訊場景之描述接收關於潛在遮擋物件之遮擋資訊且基於該遮擋資訊將該組基本空間扇區中之特定空間扇區判定為遮擋扇區,且其中該目標資料計算器經組配以將遮擋函數應用於針對遮擋扇區儲存的呈現資料項目以獲得經修改資料且使用該經修改資料以用於計算目標呈現資料。
在其他實施例中,該遮擋函數為具有用於不同頻率之不同衰減值的低通函數,且其中該等呈現資料項目為用於不同頻率之資料項目,且其中該目標資料計算器經組配以針對若干頻率運用用於特定頻率之衰減值對用於特定頻率之資料項目進行加權以獲得經修改呈現資料。
在其他實施例中,該扇區識別處理器經組配以判定針對遮擋物件判定之該組基本空間扇區中之另一基本空間扇區不由可能遮擋物件遮擋,且其中該目標資料計算器經組配以組合來自該遮擋扇區之經修改資料與另一扇區之呈現資料項目,而無需使用該遮擋函數之修改或無需藉由不同修改函數進行修改,以獲得目標呈現資料。
在其他實施例中,該扇區識別處理器經組配以判定該組基本空間扇區中之第一基本空間扇區具有第一特性且判定該組基本空間扇區中之第二基本空間扇區具有第二不同特性,且其中該目標資料計算器經組配以不將任何修改函數應用於第一基本空間扇區且將修改函數應用於第二基本空間扇區或將第一修改函數應用於第一基本空間扇區且將第二修改函數應用於第二基本空間扇區,該第二修改函數不同於該第一修改函數。
在其他實施例中,第一修改函數為頻率選擇性的且第二修改函數為隨頻率恆定的,或其中第一修改函數具有第一頻率選擇性特性,且其中第二修改函數具有不同於第一頻率選擇性特性之第二頻率選擇性特性,或其中第一修改函數具有第一衰減特性且第二修改函數具有第二不同衰減特性,且其中該目標資料計算器經組配以基於第一基本空間扇區或第二基本空間扇區至聽者之間的距離或基於置放於聽者與對應的基本空間扇區之間的物件之特性來自第一修改函數及第二修改函數選擇或調整修改函數。
在其他實施例中,該扇區識別處理器經組配以基於與基本空間扇區相關聯之特性將該組基本空間扇區分類成不同扇區類別,其中該目標資料計算器經組配以在多於一個基本空間扇區處於一類別中之情況下組合各類別中之基本空間扇區之呈現資料項目以獲得用於各類別之經組合結果,且將與至少一個類別相關聯之特定修改函數應用於此類別之經組合結果以獲得用於此類別之經修改組合結果,或將與至少一個類別相關聯之特定修改函數應用於各類別之一或多個基本空間扇區之一或多個資料項目以獲得經修改資料項目,且組合各類別中之基本空間扇區之經修改資料項目以獲得用於此類別之經修改組合結果,組合該組合結果或用於各類別之經修改組合結果(若可獲得)以獲得整體組合結果,且使用整體組合結果作為目標呈現資料或自整體組合結果計算目標呈現資料。
在其他實施例中,用於基本空間扇區之該特性經判定為係包含涉及第一遮擋特性之經遮擋基本空間扇區、涉及不同於第一遮擋特性之第二遮擋特性之經遮擋基本空間扇區、與聽者具有第一距離之未經遮擋之基本空間扇區及與聽者具有第二距離之未經遮擋之基本空間扇區的一群組中之一者,其中該第二距離不同於該第一距離。
在其他實施例中,該目標資料計算器經組配以將頻率相依性變異數或共變異數參數修改或組合為呈現資料項目以獲得整體經組合變異數或整體經組合共變異數參數作為整體組合結果,且計算耳間或通道間相干性提示、耳間或通道間位準差提示、耳間或通道間相位差提示、第一側增益或第二側增益中之至少一者作為目標呈現資料。
在其他實施例中,提供初始化器以自預儲存頭部相關函數資料來判定左側變異數資料項目、右側變異數資料項目及共變異數資料項目中之至少一者,其中該初始化器經組配以自用於有限空間扇區之多個頭部相關函數資料來計算左側變異數資料項目、右側變異數資料項目或共變異數資料項目,且其中該有限空間扇區以一定方式經設定大小以使得有限空間範圍存在至少二個左側頭部相關函數資料、至少二個右側頭部相關函數資料。
參考資料 Alary, B., Politis, A., & Välimäki, V. (2017). Velvet Noise Decorrelator. Baumgarte, F., & Faller, C. (2003). Binaural Cue Coding-Part I: Psychoacoustic Fundamentals and Design Principles. Speech and Audio Processing, IEEE Transactions on, 11(6), S. 509-519. Blauert, J. (2001). Spatial hearing (3 Ausg.). Cambridge; Mass: MIT Press. Faller, C., & Baumgarte, F. (2003). Binaural Cue Coding-Part II: Schemes and Applications. Speech and Audio Processing, IEEE Transactions on, 11(6), S. 520-531. Kendall, G. S. (1995). The Decorrelation of Audio Signals and Its Impact on Spatial Imagery. Computer Music Journal, 19(4), S. p 71-87. Lauridsen, H. (1954). Experiments Concerning Different Kinds of Room-Acoustics Recording. Ingenioren, 47. Pihlajamäki, T., Santala, O., & Pulkki, V. (2014). Synthesis of Spatially Extended Virtual Source with Time-Frequency Decomposition of Mono Signals. Journal of the Audio Engineering Society, 62(7/8), S. 467-484. Potard, G. (2003). A study on sound source apparent shape and wideness. Potard, G., & Burnett, I. (2004). Decorrelation Techniques for the Rendering of Apparent Sound Source Width in 3D Audio Displays. Pulkki, V. (1997). Virtual Sound Source Positioning Using Vector Base Amplitude Panning. Journal of the Audio Engineering Society, 45(6), S. 456-466. Pulkki, V. (1999). Uniform spreading of amplitude panned virtual sources . Pulkki, V. (2007). Spatial Sound Reproduction with Directional Audio Coding. J. Audio Eng. Soc, 55(6), S. 503-516. Pulkki, V., Laitinen, M.-V., & Erkut, C. (2009). Efficient Spatial Sound Synthesis for Virtual Worlds. Schlecht, S. J., Alary, B., Välimäki, V., & Habets, E. A. (2018). Optimized Velvet-Noise Decorrelator. Schmele, T., & Sayin, U. (2018). Controlling the Apparent Source Size in Ambisonics Unisng Decorrelation Filters. Schmidt, J., & Schröder, E. F. (2004). New and Advanced Features for Audio Presentation in the MPEG-4 Standard. Verron, C., Aramaki, M., Kronland-Martinet, R., & Pallone, G. (2010). A 3-D Immersive Synthesizer for Environmental Sounds. Audio, Speech, and Language Processing, IEEE Transactions on, title=A Backward-Compatible Multichannel Audio Codec, 18(6), S. 1550-1561. Zotter, F., & Frank, M. (2013). Efficient Phantom Source Widening. Archives of Acoustics, 38(1), S. 27-37. Zotter, F., Frank, M., Kronlachner, M., & Choi, J.-W. (2014). Efficient Phantom Source Widening and Diffuseness in Ambisonics.
200:提示資訊提供器 210:查找表 220:選擇功能區塊 300:音訊處理器 310:第二通道處理器 320,830,840,850,5020,5040,5060:區塊 321,322,323,324:濾波器 325,326,3250,3260:加法器 330:ICPD調整區塊 340:ICLD調整 350:HRTF或其他轉移濾波函數處理 800,810,820:步驟 2000:儲存器 3000:音訊處理器/雙耳提示合成 3100:去相關器 3200:IACC調整 3210,3220,3230,3240:濾波操作 3300:IAPD調整 3400:IALD調整 4000:扇區識別處理器/區塊 4010,4020,4030:項目 5000:目標資料計算器 6010:空間擴展音源資料產生器 6020:修改資料產生器 6030:輸出介面 7000:空間擴展音源(SESS) 7010:遮擋物件
隨後關於隨附圖式描述本發明之較佳實施例,在隨附圖式中: 圖1繪示根據本發明之第一態樣的用於合成空間擴展音源之裝置; 圖2a繪示根據本發明之第二態樣的用於合成空間擴展音源之裝置; 圖2b繪示根據本發明之第二態樣的音訊場景產生器; 圖3繪示本發明之第三態樣的一較佳實施例; 圖4繪示用於說明本發明態樣之特定部分的方塊圖; 圖5繪示用於說明本發明態樣之若干部分之另一方塊圖; 圖6繪示用於說明本發明態樣之部分之另一方塊圖; 圖7繪示基本空間扇區中之呈現範圍之例示性分離; 圖8繪示用於組合三個本發明態樣以用於合成空間擴展音源之程序; 圖9繪示圖4、圖5及圖6之區塊320之較佳實施; 圖10繪示第二通道處理器之實施; 圖11繪示具體地展示本發明之第一態樣及第二態樣之特徵的示意圖; 圖12繪示用於解釋本發明之第一、第二及第三態樣的說明;且 圖13繪示根據另一實施例之與音訊處理器合成連接的圖10之去相關器。
2000:儲存器
3000:音訊處理器/雙耳提示合成
4000:扇區識別處理器/區塊
5000:目標資料計算器

Claims (16)

  1. 一種用於合成一空間擴展音源(SESS) (7000)之裝置,其包含: 一儲存器(200,2000),其用於儲存數個呈現資料項目,該等呈現資料項目用於不同基本空間扇區,該等不同基本空間扇區覆蓋一聽者之一呈現範圍; 一扇區識別處理器(4000),其用於基於聽者資料及空間擴展音源資料自該等不同基本空間扇區來識別屬於該空間擴展音源之一組基本空間扇區; 一目標資料計算器(5000),其用於自用於該組基本空間扇區之該等呈現資料項目來計算目標呈現資料;以及 一音訊處理器(300,3000),其用於使用該目標呈現資料來處理表示該空間擴展音源之一音訊信號。
  2. 如請求項1之裝置,其中該儲存器(200,2000)經組配以儲存(810)以下各者中之至少一者作為用於各基本空間扇區之該等呈現資料項目:與左側頭部相關轉移函數資料相關的一左側變異數資料項目、與右側頭部相關轉移函數(HRTF)資料相關的一右側變異數資料項目,及與該左側HRTF資料及該右側HRTF資料相關的一共變異數資料項目, 其中該目標計算器(5000)經組配以分別對用於該組基本空間扇區之該等左側變異數資料項目或用於該組基本空間扇區之該等右側變異數資料項目或用於該組基本空間扇區之該等共變異數資料項目進行求和(830),以獲得至少一個求和項目, 其中該目標計算器(5000)經組配以自該至少一個求和項目計算(840)至少一個呈現提示作為該目標呈現資料,且() 其中該音訊處理器(300,3000)經組配以使用該至少一個呈現提示來處理(850)該音訊信號。
  3. 如請求項1或2之裝置,其中該扇區識別處理器(4000)經組配以應用一投影演算法或一射線追蹤分析以判定該組基本空間扇區,或 將一聽者位置或一聽者定向用作該聽者資料,或將一空間擴展音源(SESS)定向、一SESS位置或關於該SESS之一幾何形狀之資訊用作該SESS資料。
  4. 如前述請求項中任一項之裝置,其中該扇區識別處理器(4000)經組配以 自一音訊場景之一描述接收關於一潛在遮擋物件(7010)之遮擋資訊,及 基於該遮擋資訊將該組基本空間扇區中之一特定空間扇區判定為一遮擋扇區,且 其中該目標資料計算器(5000)經組配以將一遮擋函數應用於(5020)針對該遮擋扇區儲存之該等呈現資料項目以獲得經修改資料且使用該經修改資料以用於計算(5060)該目標呈現資料。
  5. 如請求項4之裝置,其中該遮擋函數為具有用於不同頻率之不同衰減值的一低通函數,且其中該等呈現資料項目為用於不同頻率之資料項目,且 其中該目標資料計算器(5000)經組配以針對若干頻率運用用於一特定頻率之該衰減值對用於該特定頻率之一資料項目進行加權(5020),以獲得經修改呈現資料。
  6. 如請求項4或5之裝置,其中該扇區識別處理器(4000)經組配以判定(4010)針對該遮擋物件判定之該組基本空間扇區中之另一基本空間扇區不由該潛在遮擋物件遮擋,且 其中該目標資料計算器(5000)經組配以組合(5040)來自該遮擋扇區之該經修改資料與另一扇區之該等呈現資料項目,而無需使用該遮擋函數之一修改或無需藉由一不同修改函數進行修改,以獲得該目標呈現資料。
  7. 如前述請求項中任一項之裝置,其中該扇區識別處理器(4000)經組配以判定該組基本空間扇區中之一第一基本空間扇區具有一第一特性且判定該組基本空間扇區中之一第二基本空間扇區具有一第二不同特性,且 其中該目標資料計算器(5000)經組配以不將任何修改函數應用於(4010)該第一基本空間扇區且將一修改函數應用於(4020)該第二基本空間扇區,或將一第一修改函數應用於(4020)該第一基本空間扇區且將一第二修改函數應用於(4030)該第二基本空間扇區,該第二修改函數不同於該第一修改函數。
  8. 如請求項7之裝置, 其中該第一修改函數為頻率選擇性的且該第二修改函數為隨頻率恆定的,或其中該第一修改函數具有一第一頻率選擇性特性,且其中該第二修改函數具有不同於該第一頻率選擇性特性之一第二頻率選擇性特性,或其中該第一修改函數具有一第一衰減特性且該第二修改函數具有一第二不同衰減特性,且 其中該目標資料計算器(5000)經組配以基於該第一基本空間扇區或該第二基本空間扇區至該聽者之間的一距離或基於置放於該聽者與對應的基本空間扇區之間的一物件之一特性來自該第一修改函數及該第二修改函數選擇或調整該修改函數。
  9. 如前述請求項中任一項之裝置,其中該扇區識別處理器(4000)經組配以基於與該等基本空間扇區相關聯之特性來將該組基本空間扇區分類成不同扇區類別, 其中該目標資料計算器(5000)經組配以在多於一個基本空間扇區處於一類別中之情況下,組合(5020)各類別中之該等基本空間扇區之該等呈現資料項目以獲得用於各類別之一經組合結果,且將與至少一個類別相關聯之一特定修改函數應用於此類別之該經組合結果以獲得用於此類別之一經修改組合結果,或 將與至少一個類別相關聯之該特定修改函數應用於各類別之一或多個基本空間扇區之一或多個資料項目以獲得經修改資料項目且組合各類別中之該等基本空間扇區之該等經修改資料項目以獲得用於此類別之一經修改組合結果, 組合(5040)該組合結果或,如果有的話,用於各類別之該經修改組合結果以獲得一整體組合結果,及 使用該整體組合結果作為該目標呈現資料或自該整體組合結果計算(5060)該目標呈現資料。
  10. 如請求項9之裝置, 其中用於一基本空間扇區之該特性經判定為係包含涉及一第一遮擋特性之一經遮擋基本空間扇區、涉及不同於該第一遮擋特性之一第二遮擋特性之一經遮擋基本空間扇區、與該聽者具有一第一距離之一未經遮擋之基本空間扇區及與該聽者具有一第二距離之一未經遮擋之基本空間扇區的一群組中之一者,其中該第二距離不同於該第一距離。
  11. 如請求項9或10之裝置,其中該目標資料計算器(5000)經組配以將頻率相依性變異數或共變異數參數修改或組合(5020,5040)為該等呈現資料項目以獲得一整體經組合變異數或一整體經組合共變異數參數作為該整體組合結果,及 計算(5060)一耳間相干性提示、一耳間位準差提示、一耳間相位差提示、一第一側增益或一第二側增益中之至少一者作為該目標呈現資料。
  12. 如前述請求項中任一項之裝置,其中該音訊處理器(300,3000)經組配以將對應的提示用作該目標呈現資料來執行一通道間相干性調整(320,3200)、一通道間相位差調整(330,3300)、一通道間位準差調整(340,3400)中之至少一者。
  13. 如前述請求項中任一項之裝置, 其中該呈現範圍包含圍繞該聽者之一球體或一球體之一部分,其中該呈現範圍係與該聽者位置或聽者定向相關聯,且其中各基本空間扇區具有一方位角大小及一仰角大小。
  14. 如請求項13之裝置,其中該等基本空間扇區之該方位角大小及該仰角大小彼此不同,使得相較於更靠近該聽者之側面的一基本空間扇區之一方位角大小,直接在該聽者前方之一基本空間扇區之一方位角大小更精細,或其中該方位角大小朝向該聽者之一側減小,或其中一基本空間扇區之一仰角大小小於此扇區之一方位角大小。
  15. 一種合成一空間擴展音源(SESS)之方法,其包含: 儲存數個呈現資料項目,該等呈現資料項目用於不同基本空間扇區,該等不同基本空間扇區覆蓋一聽者之一呈現範圍; 基於聽者資料及空間擴展音源資料自該等不同基本空間扇區識別屬於該空間擴展音源之一組基本空間扇區; 自用於該組基本空間扇區之該等呈現資料項目計算目標呈現資料;以及 使用該目標呈現資料來處理表示該空間擴展音源之一音訊信號。
  16. 一種電腦程式,其用於當在一電腦或一處理器上運行時執行如請求項15之用於合成之方法。
TW111142634A 2021-11-09 2022-11-08 用以使用基本空間扇區合成空間擴展音源之裝置、方法及電腦程式 TW202337236A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP21207288.8 2021-11-09
EP21207288 2021-11-09
WOPCT/EP2022/080996 2022-11-07
PCT/EP2022/080996 WO2023083752A1 (en) 2021-11-09 2022-11-07 Apparatus, method and computer program for synthesizing a spatially extended sound source using elementary spatial sectors

Publications (1)

Publication Number Publication Date
TW202337236A true TW202337236A (zh) 2023-09-16

Family

ID=78709219

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111142634A TW202337236A (zh) 2021-11-09 2022-11-08 用以使用基本空間扇區合成空間擴展音源之裝置、方法及電腦程式

Country Status (5)

Country Link
KR (1) KR20240091274A (zh)
CN (1) CN118251907A (zh)
CA (1) CA3236469A1 (zh)
TW (1) TW202337236A (zh)
WO (1) WO2023083752A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103472909B (zh) * 2012-04-10 2017-04-12 微软技术许可有限责任公司 用于头戴式、增强现实显示器的逼真遮挡
IL307545A (en) * 2018-02-15 2023-12-01 Magic Leap Inc Dual listening positions for mixed reality
KR20220156809A (ko) * 2020-01-14 2022-11-28 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 앵커링 정보를 이용하여 공간적으로 확장된 음원을 재생하는 장치 및 방법 또는 공간적으로 확장된 음원에 대한 디스크립션을 생성하기 위한 장치 및 방법
EP3879856A1 (en) 2020-03-13 2021-09-15 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Apparatus and method for synthesizing a spatially extended sound source using cue information items

Also Published As

Publication number Publication date
WO2023083752A1 (en) 2023-05-19
CN118251907A (zh) 2024-06-25
CA3236469A1 (en) 2023-05-19
KR20240091274A (ko) 2024-06-21

Similar Documents

Publication Publication Date Title
JP7119060B2 (ja) マルチポイント音場記述を使用して拡張音場記述または修正音場記述を生成するためのコンセプト
CN113316943B (zh) 再现空间扩展声源的设备与方法、或从空间扩展声源生成比特流的设备与方法
TWI818244B (zh) 使用提示資訊項目來合成空間擴展聲源的設備及方法
CA3069403C (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
KR20220156809A (ko) 앵커링 정보를 이용하여 공간적으로 확장된 음원을 재생하는 장치 및 방법 또는 공간적으로 확장된 음원에 대한 디스크립션을 생성하기 위한 장치 및 방법
TW202337236A (zh) 用以使用基本空間扇區合成空間擴展音源之裝置、方法及電腦程式
TW202327379A (zh) 用以使用關於潛在修改物件之修改資料來合成空間擴展聲源之設備、方法及電腦程式
TW202325047A (zh) 用以使用變異數或共變異數資料合成空間擴展音源之裝置、方法或電腦程式
RU2780536C1 (ru) Оборудование и способ для воспроизведения пространственно протяженного источника звука или оборудование и способ для формирования потока битов из пространственно протяженного источника звука
RU2808102C1 (ru) Оборудование и способ для синтезирования пространственно протяженного источника звука с использованием информационных элементов сигнальных меток