TWI843757B

TWI843757B - 用於針對耳機上空間音訊渲染修改場所特性之系統和方法

Info

Publication number: TWI843757B
Application number: TW108137662A
Authority: TW
Inventors: 迪篪李; 克里斯多夫杭墨頌; 馬克安東尼戴威斯; 道恩許
Original assignee: 新加坡商創新科技有限公司
Priority date: 2018-10-25
Filing date: 2019-10-18
Publication date: 2024-06-01

Abstract

本發明提供一種音訊渲染系統，其包括一處理器，該處理器組合音訊輸入信號與具有場所響應之個人化空間音訊轉換函數。該些個人化空間音訊轉換函數係選自一資料庫，該資料庫具有自針對複數個個人之耳內麥克風量測導出之複數個候選轉換函數。或者，該些個人化轉換函數係自聆聽者之實際耳內量測導出。一場所修改模組允許使用者修改該些個人化空間音訊轉換函數，以代入一不同場所或修改所選場所之特性而不需要額外耳內量測。該模組將所選轉換函數分段為包括以下中之一或多者的若干區：直接區、頭部及軀幹影響區、早期反射區，及後期殘響區。對該些區中之一或多者執行擷取及修改操作以更改所感知的聲音。

Description

用於針對耳機上空間音訊渲染修改場所特性之系統和方法

本發明係關於用於耳機上渲染音訊之方法及系統。更特定言之，本發明係關於使用具有場所脈衝響應資訊的個人化空間音訊轉換函數之資料庫而產生較逼真的音訊渲染。

相關申請案之交叉參考

本申請案主張2018年10月25日申請且標題為「SYSTEMS AND METHODS FOR MODIFYING ROOM CHARACTERISTICS FOR SPATIAL AUDIO RENDERING OVER HEADPHONES」之美國臨時專利申請案62/750,719之優先權的利益，該美國臨時專利申請案以引用之方式併有2018年1月7日申請且標題為「METHOD FOR GENERATING CUSTOMIZED SPATIAL AUDIO WITH HEAD TRACKING」之美國臨時專利申請案62/614,482，該些美國臨時專利申請案中之每一者之全文出於所有目的以引用之方式併入。本申請案亦以引用之方式併有2018年9月19日申請、2019年8月20日授權且標題為「METHOD FOR GENERATING CUSTOMIZED SPATIAL AUDIO WITH HEAD TRACKING」的美國專利第10,390,171號，該美國專利之全文出於所有目的以引用之方式併入。

雙耳場所脈衝響應(Binaural Room Impulse Response；BRIR)處理之實踐係熟知的。根據已知方法，真實或虛設頭部及雙耳麥克風係被使用，以便記錄針對真實室內中之多個揚聲器位置之各者的立體聲脈衝響應(impulse response；IR)。即，產生脈衝響應對(針對各耳朵產生脈衝響應對)。可隨後使用這些IR卷積化(濾波)音樂播放軌，將結果混合在一起在耳機上播放。若施加正確的均衡，則音樂聲道聽上去如同在記錄IR之室內的揚聲器位置中播放那樣。

BRIR及其相關的雙耳場所轉換函數(Binaural Room Transfer Function；BRTF)模擬來自揚聲器之聲波與聆聽者耳朵、頭部及軀幹、以及場所中的牆壁及其他物件之相互作用。場所大小由於場所中牆壁之聲音反射及吸收品質而影響聲音。揚聲器通常圍封在殼體中，殼體之設計及組成物影響聲音之品質。在BRTF套用於輸入音訊信號且饋送至耳機之單獨通道中時，利用方向及空間印象線索以及揚聲器之聲音品質屬性來再現自然聲音，該些線索模擬原本會自與真實場所中的揚聲器相同的位置中的真實來源聽到的聲音。

實際BRIR量測通常藉由令個人坐在場所中，且用耳內麥克風量測來自揚聲器之脈衝響應來進行。量測過程極其耗時，需要聆聽者之耐心合作，因為需要對相對於聆聽者之頭部位置的不同揚聲器位置進行大量量測。這些量測通常在圍繞聆聽者之水平平面中至少每3或6度的方位角進行，但在數目上可較少或較多，且亦可涵蓋相對於聆聽者之仰角位置以及相對於不同頭部傾角之量測。一旦完成所有這些量測，則產生針對該個人之BRIR資料集，且可使該BRIR資料集套用於通常呈對應頻域形式(corresponding frequency domain form；BRTF)之音訊信號，以提供前述方向及空間印象線索。

在許多應用中，典型BRIR資料集對於聆聽者之需要係不足的。通常，BRIR量測係用距聆聽者之頭部約1.5m處的揚聲器進行。但聆聽者可能常常偏好感知定位於較大或較小距離處之揚聲器。舉例而言，在音樂播放中，聆聽者可能偏好使立體聲信號看起來位於距聆聽者3公尺或更遠處。在視訊遊戲情境中，音訊物件可能可以使用BRTF以恰當方向性定位，但物件之距離不被與單一可用BRTF資料集相關聯的距離所準確地表示。充其量，即使在套用衰減於信號以便傳達由所量測的聆聽者頭部至揚聲器距離之距離增大的感覺的情況下，距離之感知亦不確定。具有針對不同的聆聽者頭部至揚聲器距離而客製化之可用BRIR將為有用的。另外，由於量測約束，在BRIR量測過程中使用的揚聲器可能在大小及/或品質上受到限制，而聆聽者可能偏好使用較高品質揚聲器記錄BRIR資料集。在一些情況下，可藉由在改變之情形下重新量測該個人來處置這些情境，但其將為成本高且耗時之方法。可修改針對個人之BRIR之所選部分以便表示改變的揚聲器-場所-聆聽者距離或其他屬性而不訴諸重新量測BRIR將為合乎需要的。

為達成前述目的，在各種實施例中，本發明提供一種處理器，其經組態以將雙耳信號提供至耳機，以包括場所脈衝響應，從而為音訊音軌提供真實性。對BRIR之修改係藉由將一或多種技術套用於BRIR之一或多個分段區而提供。結果，揚聲器-場所-聆聽者特性中之一或多者得以修改，而不需要個人之重新量測。

100:BRIR

102:直接區

104:頭部及軀幹影響區

106:早期反射區

108:後期殘響區

200:系統

201:處理器

202:輸入BRIR

203:區塊

206:區塊

208:區塊

210:區塊

211:輸入

300:場所

302:揚聲器

304:聆聽者

306:揚聲器距場所牆壁之距離

308:距離

310:場所寬度

312:場所牆壁構造

314:場所陳設

316:RT60

502:步驟

504:步驟

506:步驟

508:步驟

510:步驟

702:擷取裝置

704:影像感測器

706:處理器

710:遠端伺服器

712:選擇處理器

714:記憶體

715:行

716:行

717:行

718:行

730:音訊渲染裝置

735:耳機

圖1為以圖形方式說明根據本發明之一個具體實例的經受處理之BRIR之不同區的圖。

圖2為說明根據本發明之具體實例之用於修改BRIR而不需要額外耳內量測的模組之方塊圖。

圖3為根據本發明之一些具體實例說明揚聲器及場所特性的場所之圖，其可作為藉由處理BRIR之一或多個區而修改BRIR的目標。

圖4為根據本發明之具體實例之用於為了客製化而產生BRIR、為了客製化而獲取聆聽者性質、針對聆聽者選擇客製化BRIR、以及渲染經BRIR修改之音訊的系統之圖。

圖5為說明根據本發明之具體實例之不需要額外耳內量測而修改BRIR以代入不同場所、或修改所選場所之特性之步驟的圖。

現在將詳細提及本發明之較佳具體實例。在隨附圖式中說明較佳具體實例之實例。雖然本發明將結合這些較佳具體實例進行描述，但將理解，其並不意欲將本發明限制於此類較佳具體實例。相反地，以下描述意欲涵蓋如可包括於如由隨附申請專利範圍定義的本發明之精神及範圍內的替代物、修改及等效物。在以下描述中，闡述眾多具體細節以便提供對本發明之透徹理解。可在無這些特定細節之一些或所有的情況下實踐本發明。在其他情況下，尚未詳細描述熟知機制以免不必要地混淆本發明。

應注意遍及各種圖式，相同編號指代相同部件。本文說明及描述之各種圖式係用於說明本發明之各種特徵。當特定特徵中一個圖中說明而在另一圖中未說明之情況下，除非另外指示或結構本身禁止結合特徵，否則應理解那些特徵可適於包括在其他圖中表示之具體實例中，如同其在那些圖中被完全說明一樣。除非另外指示，否則圖式不一定按照比例。圖式中提供之任何尺寸並不意欲限制本發明之範圍，僅係說明性的。

場所具有許多特性，其對於音訊再現，即聆聽者聽到的內容，具有極大影響。這些特性尤其包括牆壁紋理、牆壁組成物、聲音吸收及物件之存在。此外，場所與揚聲器之間的關係、以及場所之維度及組態、及其他環境特性亦影響場所或其他環境中由聆聽者聽到的聲音。因此，若場所改變或場所/揚聲器特性改變，則這些改變的特性將必然在由聆聽者經由耳機感知的空間音訊中重現。一個方法將包含在改變的條件下，即在新場所中，為了一新BRIR資料集而重新量測聆聽者。但若某人希望向聆聽者提供處於具有指定改變特性之新場所中的感知，且此類「新」場所不可用時，則即使耗時的BRIR資料集耳內量測技術亦將不可用。被授予藉由針對提供個人化BRIR資料集而進行耳內BRIR量測所存在的限制，藉由模擬該些修改而提供替代及有效的方法以便縮短該程序，該些修改彷彿發生該些量測在一調整大小的場所、一個場所的一或多個場所特性已被修改的場所、一完全不同的場所中進行。修改所判定BRIR之若干不同部分(區)中之任一者會向聆聽者呈現不同的空間音訊體驗。

為達成前述目的，在各種實施例中，本發明提供一種處理器，其經組態以將雙耳信號提供至耳機，以包括場所脈衝響應，從而為音訊音軌提供真實性。修改BRIR以允許聆聽者用不同方式感知音訊以模仿改變的場所/揚聲器特徵改變，其通常需要：(1)將BRIR分段為若干區；(2)對該些區中之所選一或多者執行數位信號處理(digital signal processing；DSP)操作(技術)；以及(3)在修改之後重新組合該些區，在一些實施例中包括自其他場所/揚聲器剔除之BRIR或BRIR區。在重新組合時必須謹慎，以確保在修改之後BRIR之區與區之間的平滑轉變，從而避免產生不合需要之聲音偽聲(artifact)。

空間音訊定位改變係藉由將一或多種處理技術套用於BRIR之一或多個分段區而產生。所選技術之組合依待修改的所需場所特性而變。結果，與揚聲器-場所-聆聽者特性之間的互相作用相關的BRIR區中之一或多者得以修改，而不需要個人之重新量測。

圖1為以圖形方式說明根據本發明之一些具體實例的經受處理之BRIR之不同區(時間區段)的圖。圖1中以圖形方式展示BRIR 100，其中說明4個不同區。直接區102、頭部及軀幹影響區104、及先於後期殘響區108之早期反射區106。聆聽者在時間T₀之後首先接收直接路徑信號。在此時間點，無反射到達聆聽者之耳朵。接下來，聆聽者感知受聆聽者之頭部及軀幹影響的信號，大體而言在識別為頭部及軀幹影響區104的位置處描繪。接下來，在早期反射區106中在殘響響應之初始週期期間接收一系列早期反射。最終，在聆聽者之耳朵處接收後期殘響，由後期殘響區108描繪。自初始直接路徑信號的延遲量值，以及和早期及後期殘響之到達的延遲量值，通常取決於場所之大小以及來源及聆聽者在場所中之位置。殘響可藉由可量測準則被特性化，其中一可量測準則為RT60。此為針對殘響時間-60dB之縮寫。RT60提供客觀的殘響時間量測。其界定為聲壓級減小60dB所花費的時間，其為殘響變得實際上不可感知所花費的時間之度量。通常，後期殘響區108將在起始脈衝響應之後約50ms處開始，但此數字可能取決於場所特性而在場所間不同。在較佳具體實例中，識別此區(及其他隔離區)之開始及結束的時間係結合分段操作執行，該些分段操作經設計以僅識別及修改對於修改所選之一或多個參數有必要的那些BRIR部分。

圖2為說明根據本發明之具體實例之用於根據場所特性改變修改BRIR而不需要額外耳內量測之模組的方塊圖。對於所選的每一所需BRIR區修改，系統200進一步涉及包括以下的操作之組合：選擇BRIR區段、選擇適當DSP技術，及當適當時組合來自其他來源之BRIR資料。下文概述根據本發明之一些具體實例之可在處理器201之區塊208中執行的BRIR區修改之實施例。場所及揚聲器維度至場所物件及其他聲音之非限制性試樣影響特性，該些特性可藉由直接修改BRIR區而被改變，其包括改變揚聲器、改變揚聲器相對於場所牆壁之位置，及改變揚聲器相對於聆聽者之距離。另外，在不限制本發明之範圍的情況下，根據本發明之一些具體實例，可藉由BRIR區修改來仿效對RT60殘響時間、場所大小/維度、場所構造特徵及場所陳設(藉由添加或減除)及位置之改變。

本發明之一些具體實例，其涵蓋任何合適的DSP技術、自針對個人之客製化BRIR導出的區段中之任一者、連同用於BRIR的經修改參數(其可自來自另一BRIR資料庫之已經修改的BRIR參數之庫或集合獲得)之組合。舉例而言，BRIR可能已針對高品質揚聲器產生並儲存，在此情況下，至少在直接區102中可能具有較高頻率範圍內容。該BRIR之區可隔離以與即將針對個人之客製化(個人化)BRIR之區組合。

在一些情況下，這些修改技術可能僅需對脈衝響應之4個所識別區中的一者執行(見圖1)，且在其他情況下，有必要對該些區中之2者或更多者執行。在DSP技術套用於脈衝響應之複數個(4個)相異區中的至少一者的情況下，在區塊203中發生所接收輸入BRIR 202之分段。可藉由任何合適的方法執行脈衝響應之至相異區的分段。舉例而言，針對後期殘響區之開始時間的時間估計可能在50ms處，且脈衝響應隔離至50ms處的區及之後的區。50ms值僅為殘響開始的大致/典型時間。實際值將取決於場所之維度及其他實體因素。用於識別及隔離脈衝響應區之其他技術，包括回音密度估計或耳間相干性之度量。

對於待修改BRIR參數之選擇以及實際修改，通常需要額外輸入資料。舉例而言，若需要自用於原始BRIR判定之揚聲器改變揚聲器，則在區塊210中來自其他來源的BRIR資料涉及對於「新」揚聲器之揚聲器脈衝響應量測。在一個試樣具體實例中，處理器201涉及分析BRIR或HRIR，以估計BRIR中直接聲音之開始及偏移兩者，從而用較佳在先前獲得之不同揚聲器之脈衝響應替換該直接部分。在一些具體實例中，處理器201涉及藉由在區塊203中自BRIR/HRIR之直接部分擷取(去卷積化)所量測的揚聲器響應，且結合藉由對該去卷積化結果與目標揚聲器之脈衝響應進行卷積化來合成所得BRIR。

或者，經由區塊206將額外或其他輸入資料提供至處理器201。根據一或多個具體實例，可能需要改變聆聽者(受試者)與揚聲器之間的距離。此類改變所需的輸入資料206包括用於原始BRIR之距離及用於合成BRIR之距離。另外，經由區塊210提供BRIR資料，此處為在1或多個不同距離處量測的脈衝響應之BRIR資料庫(在需要內插時，需要複數個資料庫)。在此實施中，至少涉及直接區、早期反射區及後期殘響區。在此實施中，處理器201藉由首先識別所涉及的3個區來執行分段操作。處理器較佳例如藉由回音密度估計或其他合適技術來估計後期殘響時間。亦估計早期反射時間。最終，執行直接聲音(見直接區102)之開始及偏移。另外，處理器201中之處理器模組208基於原始與合成BRIR之間的相對距離，藉由將衰減套用於直接聲音來合成新BRIR。另外，藉由若干技術中的一者修改早期反射。舉例而言，原始BRIR可在兩個不同BRIR之間進行時間拉伸或內插。濾波或射線追蹤(在一個非限制性具體實例中，包括簡化射線追蹤)之使用，可替代地用於判定反射之定時(timing)。射線追蹤通常涉及判定自聲源發射的每一新射線的可能路徑；考慮射線為在每次反射時改變其方向的向量，其能量由於傳播路徑所涉及的空氣及牆壁之聲音吸收而減小。

在其他較佳實施中，修改揚聲器與場所特性之間的互相作用。這些在下文在描述音樂、電影及遊戲應用之部分中更詳細地論述。但大體而言，這些包括：(1)揚聲器位置；(2)場所大小、維度及形狀；(3)場所陳述；以及(4)場所構造。針對改變的揚聲器位置之輸入資料包括原始揚聲器位置、新揚聲器位置及場所維度。處理器201經由處理區塊203及208執行場所幾何形狀估計。此為信號處理領域，其試圖自脈衝響應識別場所邊界之位置及吸收。在一些具體實例中，其可用於識別聲學顯著物件。在一些其他具體實例中，場所幾何形狀係已知，且可自射線追蹤或其他手段計算其音訊特性。可能仍執行場所幾何形狀估計以指導計算，或若存在足夠資料則可跳過場所幾何形狀估計。

處理器201進一步涉及藉由根據與牆壁之接近性修改早期反射區來合成新BRIR，及藉由使用平方反比定律來驗證舊位置及新位置處的能量。可藉由用可用於微調結果的內插，改變方位角及仰角來改變揚聲器旋轉。可藉由參考BRIR資料集找出對應於新距離的距離，修改揚聲器至聆聽者之距離。距離主要影響聲音之直接部分之衰減。然而，早期反射亦將改變。改變距離不可避免地意謂改變揚聲器之位置，其將亦改變至牆壁及其他物件之距離。這些改變將影響脈衝響應之早期反射部分。

以類似方式，對於場所陳設及場所構造估計，處理器201藉由執行如上文所論述的場所幾何形狀估計而分析脈衝響應。在這些情況下，額外輸入資料需要包括目標陳設(對於場所陳設實施)及目標場所構造(對於場所構造修改)。

應注意，圖2中所說明的系統可與任何BRIR一起使用而無限制。即，諸如由圖2之系統說明的本發明之BRIR參數修改技術，可套用於所有類型之BRIR，而不管其如何獲得。舉例而言，其將對於以下中之任一者適用：(1)針對個人之客製化耳內量測(BRIR)；(2)藉由基於個人之性質及/或其他量測擷取影像，及藉由自具有相關性質(對於另一非限制性實施例，如藉由使用人工智慧方法(AI)或其他基於影像之性質匹配方法所判定)之BRIR之候選資料庫判定合適BRIR，導出半客製化BRIR；以及(3)BRIR之市售資料集，諸如包括基於定位於人體模型(mannequin)之耳朵中的耳內麥克風、或群體之「平均」個人或基於其他研究結果之資料集。

圖3為根據本發明之一些具體實例說明揚聲器及場所特性的場所之圖，其可作為藉由處理BRIR之一或多個區而修改BRIR的目標。場所300展示為具有定位於距聆聽者304距離308處的揚聲器302。諸如場所寬度310之場所維度對場所音訊具有顯著影響，(諸如由揚聲器距場所牆壁之距離306所表示)揚聲器置放亦有顯著影響。場所牆壁構造312，諸如牆壁構造中使用的材料，對場所聲學具有較大影響。舉例而言，自硬牆壁、地板及天花板之反射，與由諸如石膏乾壁之吸收性較強的材料製成的那些表面，將以不同方式影響場所聲學。場所陳設314之添加或減除及其位置同樣影響場所聲學。如上所指出，RT60(由附圖標記316表示)提供客觀的殘響時間量測。此量度為場所對於不同類型音樂、對於最佳化場所以進行影院播放、及對於遊戲之適合性之重要度量。

為了合成或修改BRIR之一或多個區，以識別改良或最佳化之改變，請牢記本申請案對於本發明之方法及系統的理解。三個重要應用包括：(1)音樂，(2)影院及(3)遊戲/虛擬實境。

對於音樂應用，對收聽體驗具有最大影響之場所/揚聲器特性包括：揚聲器之選擇；揚聲器相對於場所牆壁之位置；場所RT60；以及場所大小、維度及形狀。其中，改變揚聲器將具有最大影響。音樂狂熱愛好者可能具有使不同揚聲器匹配特定音樂類型之播放的偏好。現實世界場所將需要場所佈滿可替代選擇的揚聲器和切換網路。替代地且根據本發明的一些具體實例，此可藉由修改針對個人的BRIR之揚聲器相關區來容易地達成。此係藉由首先估計HRIR中的直接聲音之開始及偏移，以便用將由替代揚聲器產生的脈衝響應替換脈衝響應來進行。一旦獲得所俘獲揚聲器之直接區，則自HRIR之直接區去卷積化(decon volve)所量測的揚聲器脈衝響應。根據一個具體實例，自BRIR之直接區去卷積化原始揚聲器。在另一具體實例中，自整個BRIR去卷積化原始揚聲器。在第一實例具體實例中，藉由卷積化新揚聲器與響應之直接區來反向該操作。在第二具體實例中，藉由卷積化新揚聲器與整個響應來執行反向操作。儘管全去卷積化為更準確的方法，但僅提交直接區之去回旋提供令人滿意的結果，此係因為揚聲器對場所反射之影響可能係小的。在其他具體實例中，吾人用來自其他BRIR之對應直接區替換該直接區。

自高階觀之，移除針對個人化脈衝響應的所量測揚聲器之最重要影響，並且將來自目標揚聲器之那些重要區代入至個人之所量測脈衝響應中。

揚聲器聲音在移動至新場所時不同係常見的。發生此情況係由於場所之早期反射及後期殘響效果。為了代入新揚聲器之特性，目標揚聲器脈衝響應不為場所響應。即，較佳在無響(anechoic)條件下量測目標揚聲器，藉此經由輸入資料模組210將脈衝響應資料提供至處理器201。或者，可自所儲存或以其他方式可用的BRIR及輸入擷取目標揚聲器直接區。在後一情況性，諸如經由輸入211提供的完整BRIR將需要分段，以自完整BRIR產生直接區。

如前面所指出，RT60場所參數為用於評估場所殘響衰減特性及用於音樂背景之量度。特定音樂類型在匹配至具有匹配的RT60值的場所時會感覺到被最佳地鑒賞。舉例而言，爵士音樂在具有約400ms的RT60值的場所中會感覺到被最佳地鑒賞。為了感知至新RT60值(即新目標殘響時間)的改變，在一些具體實例中，使用反向積分進行脈衝之能量衰減曲線之估計。接著，套用線性回歸技術來估計衰減曲線之斜率且因此估計殘響時間。為匹配目標值，在時域或扭曲(warped)頻域中套用振幅包絡。

另外，可改變揚聲器位置。這些改變需要諸如經由區塊206提供的關於原始揚聲器位置、新揚聲器位置及場所維度之輸入資訊。在一些具體實例中，在處理器201中執行的分析階段包括場所幾何形狀估計。場所幾何形狀估計為信號處理領域，旨在自脈衝響應識別場所邊界之位置及吸收。其亦可用於識別聲學顯著物件。在音樂設定中，人們通常偏好不將揚聲器置放得過於接近於牆壁以避免支配性低音(dominating base)存在。在一些具體實例中，由處理器201藉由改變方位角及/或仰角而實施揚聲器旋轉。進一步詳細地，套用濾波來旋轉方位角及仰角，且套用內插來微調結果。可藉由套用在修改聆聽者至揚聲器距離時之可套用的相同技術來修改揚聲器距離。更特定言之，在一些具體實例中，基於對於原始及合成BRIR之距離設定之間的相對距離，吾人將衰減套用於直接聲音。吾人接著根據至牆壁之接近性修改早期反射。此處可套用若干不同技術。舉例而言，在一些具體實例中，在以下之間進行選擇：在兩個不同BRIR之間內插、對原始BRIR進行時間拉伸、濾波，或使用射線追蹤來判定反射之定時。在一個具體實例中，使用簡化射線追蹤。為了內插目的，輸入資料可包含在不同距離處量測的脈衝響應之BRIR資料庫。

其他場所特性可作為在音樂領域中對於BRIR修改的目標，該些場所特性包括場所大小、維度及形狀。這些可藉由專注於早期反射區及後期殘響區而最容易地修改。在分析BRIR時，在一個具體實例中，吾人估計第一反射以便移除殘響。所需輸入可包括目標場所維度，或替代地，場所脈衝響應(經由輸入211提供，用於經由輸入210進行分段或預先分段)。在對於選定的新場所合成新殘響時，吾人可經由若干方法產生用於BRIR後期殘響區之殘響，包括但不限於：(1)回饋延遲網路；(2)全通濾波器、延遲線及雜訊產生器之組合；(3)射線追蹤，或(4)實際BRIR量測。根據一些具體實例，吾人接著可根據頭部相關脈衝響應(Head Related Impulse Response；HRIR)對場所殘響進行濾波。由於場所反射將藉由受試者之HRTF/HRIR進行修改，因此需要執行殘響之類似(analogous)處理以對於新受試者調適殘響。此可藉由時變濾波器或經由STFT來套用。

在本發明之具體實例中識別的方法及系統可適當地套用於電影應用。被授予音訊格式及廣泛分佈的就座配置所強加的約束，電影院/影院具有的聲音系統通常經組態以最大化空間品質。用於遞送均勻平衡聲音之一個方式為使用跨越電影院中的多個位置分佈的多個揚聲器。對於此應用，用於重點修改之最有用場所/揚聲器特性包括：(1)揚聲器至聆聽者距離；(2)揚聲器位置；(3)場所RT60；(4)場所大小、維度及形狀；以及(5)場所陳設。用於修改前四個特性之分析及合成中所涉及的特定數位信號處理步驟已在上文在音樂應用中加以描述，且此處將僅以概括形式描述。修改場所陳設將對電影院(諸如包括家庭影院)具有顯著影響。輸入資料206包括目標陳設。執行場所幾何形狀估計，以自脈衝響應識別場所邊界之位置及相關吸收，且亦識別聲學顯著物件。由於場所中的場所反射伴隨著改變的吸收/反射率(由於陳設改變)將迫使按照聆聽者之HRTF加以修改，因此對於殘響區發生類似處理，以使基於新陳設之殘響適於聆聽者。此較佳藉由時變濾波器或經由STFT加以套用。

儘管對於影院應用不特別顯著，但亦可改變場所構造。這些將包括但不限於用於牆壁/包層之任何材料、任何額外聲音吸收、天花板材料及結構。用於分析場所構造之特定方法，類似於可套用於改變場所陳設之方法。即，首先執行場所幾何形狀估計，以自脈衝響應識別場所邊界之位置及吸收。一旦輸入目標場所構造，即基於場所幾何形狀估計產生場所殘響。接著在STFT域(頻域)中對合成場所殘響進行濾波，以使殘響適於聆聽者之HRTF。此可藉由時變濾波器或經由STFT加以套用。場所構造修改對於修改用於遊戲及虛擬實境(VR)應用之聲學環境係有用的。

上文所論述之大多數分析及合成技術可套用於遊戲/VR實施。此一般論斷之例外狀況包括調換揚聲器。由於參與者可能正快速地改變場所或環境，動態改變指示該些修改。舉例而言，聆聽者可能正自洞穴移動至森林空間。模型化環境係重要的，其中之一常常在3D設計空間中合成。射線追蹤為用於識別場所或環境之性質的尤其重要的技術。概言之，遊戲/VR領域中對場所/揚聲器之最重要修改包括：(1)揚聲器至聆聽者之距離；(2)場所RT60；(3)場所大小、維度及形狀；(4)場所陳設；(5)非內部場所環境；(6)流體性質變化；(7)聆聽者之體型大小；以及(8)聲學變形。上文已相對於音樂及電影應用描述前4個分析合成技術。

為了產生非場所環境，在一些具體實例中，對現有BRIR進行分段，以識別及移除後期殘響及早期反射區。此可藉由估計第一反射來進行。輸入關於目標環境之資訊，且藉由射線追蹤產生對應殘響。接著將合成殘響加入(join)原始BRIR。這些技術對於室外或大體而言任何非內部場所環境可為重要的。上文所描述的技術亦可套用於改變流體性質。這些性質可包括溫度、濕度及密度。可藉由時間及/或間距(pitch)移位/拉伸來改變該些性質。當然，將藉由關於目標環境之所取回資訊來指定所進行的步驟。

遊戲/VR應用可能需要改變體型大小且亦產生聲學改變。為準確地合成耳機上新環境，進行當前體型大小之估計且執行濾波，以產生針對目標體型大小之聲學。

在遊戲領域中聲學變形創造對於BRIR修改之另一需要。這些產生於移動來源、諸如移動牆壁之動態場所性質，或不同聲學空間之間的轉變。在本發明之具體實例中，這些藉由當存在來源或環境改變時接受輸入資訊來處置。這些可套用於上文在音樂、電影或遊戲應用中所描述的性質或其他特性中之任一者。適應這些動態改變涉及根據背景(context)將脈衝響應中之一或多者混合在一起。在上文所描述的BRIR修改中之許多者中，改變專注於仍有聆聽者的情況下的場所響應之一或多個區上。存在許多情況，其中個別聆聽者需要自場所移除，以供在其他處使用，或引領到對於新個人量測(俘獲)的HRTF中，以將其置於當前場所中。最初，此藉由估計直接聲音區(諸如圖1中的區102)之開始及偏移來執行。擷取個人之直接區，及在另一具體實例中，經由頻率扭曲(warp)而額外地發生於頭部及軀幹區。在另一具體實例中，使用簡單截斷(truncation)。在另一受試者將代入當前場所中時，該新受試者的直接區脈衝響應，及在另一具體實例中直接區和頭部及軀幹影響區，被用來替換當前受試者的BRIR之對應區中的一或多個對應區。由於新受試者的HRTF將修改殘響之場所反射處理，因此有必要使其適於新受試者之殘響。此在較佳具體實例中藉由時變濾波器或經由STFT來進行。

為更加清晰，下文提供對BRIR區進行分段及執行DSP操作的額外實施例。圖5為說明根據本發明之具體實例之修改個人化空間音訊轉換函數以代入不同場所或修改所選場所之特性而不需要額外耳內量測之步驟的圖。最初，過程在步驟502處開始，其中接收具有直接HRTF功能性及場所響應功能性兩者之BRIR或個人化空間音訊轉換函數。參考BRIR且根據本發明之具體實例，來自BRIR資料集之BRIR可與3維空間中的單一點相關聯。更佳地，修改針對個人選擇或判定的整組轉換函數。這些可為諸如用於5.1多聲道設定的複數個BRIR，或可包括脈衝響應之整個球面柵格，以完全表示圍繞聆聽者頭部之方向空間。接下來，在步驟504中，將BRIR分段為單獨區。如相對於圖1所說明，這些區較佳將包括：(1)直接區；(2)頭部及軀幹影響區；(3)早期反射；以及(4)後期殘響。所需的場所修改或調換類型將判定所選區及所執行操作之類型兩者。對於非限制性實施例，用於修正場所大小之開始點為修改早期反射之定時(其在較大場所中將到達較晚)。後期殘響之定時及持續時間為場所大小與其邊界之吸收率之乘積。

接下來，在步驟506中，第一操作專注於第一區。可用的修改操作包括但不限於截斷、更改衰減速率之斜率、視窗化、平滑化、斜變及全場所調換。舉例而言，若吾人需要修改場所之殘響，則吾人可專注於脈衝響應之後期殘響且改變衰減速率。此可藉由使用殘響區之相同初始位置但縮短結束位置來進行。較佳地，能量或振幅在原始結束點處量測，隨後殘響信號衰減至新的所選結束點(在時間上較短)，從而導致更快速地衰變成小值(稱為場所雜訊)之新斜率。此向聆聽者提供較小場所之感覺。在又一具體實例中，較簡單操作可包括截斷。此用以向聆聽者提供較小場所之不同感覺，且亦傾向於留下原始場所之跡象仍存在的印象。為確保中間點中的平滑度，較佳執行內插。在一個具體實例中，為在場所調整大小操作中較準確地模仿場所響應，處理第二區。此較佳包括早期反射區。

這些步驟亦可套用於隔離脈衝響應之另一區段。在上述實施例中，此可包括集中於早期反射區。早期反射理想情況下自後期殘響分離。早期殘響存在於早期反射區中，但通常由早期反射掩蔽(mask)。通常，早期反射將以不同於殘響之方式衰減。即，與早期反射斜率相比，殘響衰減將具有更平緩(較低)的斜率。存在多種方法，包括「回音密度估計」，來分離出早期反射。早期反射出現於回音密度低時的區中。一旦此第二區被隔離，即對脈衝響應之此隔離區段執行DSP操作。此較佳將包括會提供至一估計最佳匹配的那些操作，該估計在在此實施例中係關於該調整大小的場所將在脈衝響應之此區中將如何響應。

儘管此實施例已描述為對第二(且不同)區執行第二操作，但本發明不限於此。本發明之範圍意欲涵蓋對相同區執行多個操作，以及對不同區依序執行操作(相同或不同)。

在又一試樣具體實例中，頻率扭曲套用於自組合HRTF/場所脈衝響應(BRIR)擷取HRTF。由於FFT解析度依時間而變，為避免在低頻區(例如，低於500Hz)中損失解析度，因此較佳最初執行頻率扭曲。結果，吾人產生俘獲所有相關頻率區間(bin)之頻率響應，且保留語音之音調。本質上，吾人套用頻率扭曲來自BRIR擷取HRTF。

一旦產生所擷取的HRTF(藉由若干不同可能步驟中之任一者)，藉由組合所擷取的HRTF與針對新場所的場所脈衝響應之模板，即可在組合步驟508中將新擷取的HRTF置於不同場所中。或者，可將所擷取的HRTF置於相同場所中，且套用在本說明書中較早描述的場所操作。該過程在步驟510處結束。

擷取HRTF可在視訊遊戲之清晰度方面提供重要改良。在此類遊戲中，場所殘響提供衝突或模糊之方向資訊，且可能覆蓋他的經由音訊中被提供的線索之方向性感覺。一個解決方案為移除場所(將場所減小至零)，接著擷取HRTF。吾人接著使用所導出的HRTF來處理遊戲，從而提供較佳方向性而不存在由過多殘響造成的模糊的方向資訊。

藉由直接耳內麥克風量測或替代地藉由個人化BRIR資料集(其中不使用耳內麥克風量測)，當BRIR是針對個人而被個人化時，上文所論述的用於修改BRIR區之系統及方法係最佳聆聽者起作用。根據本發明之較佳具體實例，使用「半客製化」方法用於產生BRIR，其涉及自使用者擷取基於影像之性質，且涉及自BRIR之候選池判定合適BRIR，如大體而言藉由圖4所描繪。更詳細地，圖4係根據本發明之具體實例的之系統的圖解，該系統用於產生針對客製化用途之HRTF、獲取用於客製化之聆聽者特性、為聆聽者選擇客製化HRTF、提供適於對相對使用者頭部移動及呈現BRIR修改之音訊起作用的旋轉濾波器。擷取裝置702係經組態以識別及擷取聆聽者之音訊相關實體特性的裝置。儘管區塊702可經配置以直接量測那些特性(例如耳朵高度)，但在較佳具體實例中相干量測值係自拍攝之使用者影像擷取，以至少包括使用者之一或兩個耳朵。擷取那些特性必需之處理，較佳在擷取裝置702中發生，但亦可位於其他處。對於非限制性實施例，可在自影像感測器704接收影像之後，藉由遠端伺服器710中之處理器可擷取特性。應注意，在一些具體實例中，吾人利用頭部及上身之影像，以便擷取關於頭部大小及軀幹大小之額外特徵，以及其他頭部或軀幹相關特徵。

在一較佳具體實例中，影像感測器704獲取使用者耳朵之影像，且處理器706經配置以擷取使用者之若干特性，且將其傳送至遠端伺服器710。舉例而言，在一個具體實例中，活躍形狀模型(active Spape Model)可用於識別耳殼影像之標誌，且使用那些標誌、及其幾何關係、及線性距離來識別關於使用者之性質，這些性質係相關於從BRIR資料集之採集(collection)(此即是自BRIR資料集之候選池)選擇一BRIR。在其他具體實例中，RGT模型(回歸樹模型)被用於擷取特性。在其他具體實例中，諸如神經網路及其他形式的人工智慧(AI)之機器學習被用來擷取性質。神經網路之一個實例係迴旋神經網路。用於識別新聆聽者之特有實體性質的若干方法之完整論述描述於以下WIPO申請案中：PCT/SG2016/050621，2016年12月28日申請且標題為「AMETHOD FOR GENERATING A CUSTOMIZED/PERSONALIZED HEAD RELATED TRANSFER FUNCTION」，其揭示內容以全文引用之方式併入本文中。

遠端伺服器710較佳可經由如網際網路之網路存取。遠端伺服器較佳包括選擇處理器712以存取記憶體714，從而使用在擷取裝置702中擷取的實體性質或其他影像相關性質以判定最佳匹配的BRIR資料集。選擇處理器712較佳存取具有複數個BRIR資料集之記憶體714。即，每一資料集將較佳對於在方位角及仰角(以及可能頭部傾角)中的適當角度處的每一點具有一BRIR對。舉例而言，可在方位角及仰角中每3度進行量測，以對於所試樣個人產生BRIR資料集，構成BRIR之候選池。

如先前所論述，這些較佳藉由對適度大小之群體(即，大於100個人)用耳內麥克風量測而導出，但可用於較小群組之個人，且連同與每一BRIR集合相關聯之類似影像相關性質一起儲存。這些可部分地藉由直接量測且部分地藉由內插產生，以形成BRIR對之球面柵格。即使利用部分量測/部分內插之柵格，一旦適當方位角及仰角值用來自BRIR資料集識別針對一點的適當BRIR對，亦可內插不落在柵格線上的其他點。舉例而言，可使用任何適合之內插方法，包括但不限於鄰近線性內插、雙線性內插及球面三角形內插，較佳在頻域中。

在一個具體實例中，儲存於記憶體714中之各BRIR資料集至少包括針對一聆聽者之整個球面柵格。在此情況下，可選擇任何角度之方位角(在圍繞聆聽者之水平面，即在耳朵水平面處)或仰角放置聲源。在其他具體實例中，BRIR資料集更受到限制，在一個實例中，限制一BRIR對必需產生符合常規立體聲設置之揚聲器放置(即，相對於筆直前向零位置在+30度及-30度處，或在完整球面柵格之另一子集中，針對多聲道設置之揚聲器放置不限制於諸如5.1系統或7.1系統)。

HRIR為頭部相關脈衝響應。其完整描述聲音在無響條件下在時域中自來源至接收器之傳播。其所含有的大部分資訊係關於所量測的人員之生理及人體測量。HRTF為頭部相關轉換函數。其與HRIR相同，除了其係在頻域中描述。BRIR為雙耳場所脈衝響應。其與HRIR相同，除了其係在場所中量測，且因此額外併有針對BRIR被俘獲的特定組態之場所響應。BRTF為BRIR之頻域版本。應理解，在本說明書中，由於BRIR可容易地與BRTF轉用，且同樣，HRIR可容易地與HRTF轉用，因此本發明具體實例意欲涵蓋那些可容易轉用的步驟，即使其並未在此處具體描述亦如此。因此，舉例而言，在描述涉及存取另一BRIR資料集時，應理解，涵蓋存取另一BRTF。

圖4進一步描繪儲存於記憶體中之資料的試樣邏輯關係。展示的記憶體於行716中包括針對若干個人之HRTF資料集(例如，HRTF DS1A、HRTF DS2A等)。這些按照與每一BRIR資料集相關聯之性質(較佳影像相關性質)編索引且存取。行715中展示之關聯特性，允許將新聆聽者特性與量測且儲存於行716、717及718中之BRIR關聯之特性進行匹配。即，關聯特性充當那些行中展示之BRIR資料集的候選池之索引。行717係指在參考位置零處儲存的BRIR，且與BRIR資料集之其餘部分相關聯，且可與旋轉濾波器組合，以在監視到且適應聆聽者頭部旋轉時實現有效儲存及處理。此選項之進一步描述詳細描述於2018年1月7日申請且標題為「METHOD FOR GENERATING CUSTOMIZED SPATIAF AUDIO WITH HEAD TRACKING」之美國臨時申請案62/614,482中。

在本發明之一些具體實例中，儲存2個或更多個距離球面。此係指對於自聆聽者之2個不同距離產生的球面柵格。在一個具體實例中，一個參考位置BRIR係被儲存，且與2個或更多個不同球面柵格間距球面關聯。在其他具體實例中，各球面柵格將具有其自身參考BRIR，以和可套用的旋轉濾波器使用。選擇處理器712被用於將記憶體714中之特性與自新聆聽者之擷取裝置702接收到之經擷取特性進行匹配。各種方法用來匹配相關聯性質，以使得可選擇正確的BRIR資料集。這些包括藉由以下策略比較生物辨識資料：基於多重匹配之處理策略；多重辨識器處理策略；基於集群之處理策略及其它，如同描述於2018年5月2日申請之美國專利申請案編號15/969,767，標題為「SYSTEM AND A PROCESSING METHOD FOR CUSTOMIZING AUDIO EXPERIENCE」中，其揭示內容以引用之方式全部併入本文中。行718係指針對在第二距離處量測之個人的BRIR資料集之集合。即，此行在對於經量測個人記錄之第二距離處發佈BRIR資料集。作為另一實施例，行716中的第一BRIR資料集可在1.0m至1.5m處獲得，而行718中之BRIR資料集可指在距聆聽者5m處量測之那些資料集。理想地，BRIR資料集形成完全球面柵格，但本發明具體實例可套用於完全球面柵格之任何及全部子集，包括但不限於含有常規立體聲集之BRIR對的子集；5.1多聲道設置；7.1多聲道設置，及球面柵格之全部其他變體及子集，包括方位角及仰角每3度或更小之BRIR對，以及密度不規律之球面柵格。舉例而言，此可包括球面柵格，其中柵格點之密度在前部位置相較於聆聽者後部位置之密度大得多。此外，行716及718中之內容之配置不僅可套用於如自量測及內插導出的所儲存BRIR對，且亦可套用於藉由創造BRIR資料集(其反映前者至含有旋轉濾波器之BRIR的轉化)而進一步改進的BRIR對。

在選擇一或多個匹配BRIR資料集之後，資料集被傳輸至音訊渲染裝置730，以儲存藉由如上文對於新聆聽者所述的匹配或其他技術判定的整個BRIR資料集，或在一些具體實例中，儲存對應於經選擇空間化音訊位置之子集。接著在一個具體實例中，音訊渲染裝置選擇針對期望之方位角或仰角位置之BRIR對，且將其套用於輸入音訊信號以向耳機735提供空間化音訊。在其他具體實例中，所選BRIR資料集儲存於耦接至音訊渲染裝置730及/或耳機735之獨立模組中。在其中僅有限儲存可用於渲染裝置中的的其他具體實例中，渲染裝置僅儲存最佳地匹配聆聽者之相關聯性質資料之識別或最佳匹配BRIR資料集之識別，且在需要時自遠端伺服器710即時下載所需BRIR對(對於所選方位角及仰角)。如先前所論述，這些BRIR對較佳藉由對適度大小之群體(即，大於100個人)用耳內麥克風量測而導出，且連同與每一BRIR資料集相關聯之類似影像相關性質一起儲存。在水平平面上在每3度方位角且進一步擴展為包括在上部半球的3度的對應仰角點處進行量測的情況下，將需要大致7200個量測點。並非取得所有7200點，這些可部分地藉由直接量測且部分地藉由內插產生，以形成BRIR對之球面柵格。即使用部分量測/部分內插之柵格，一旦適當方位角及仰角值用來自BRIR資料集識別一點的適當BRIR對，亦可內插不落在柵格線上的其他點。

上文已在通常修改BRIR參數中的至少一些的情況下描述本發明之各種具體實例，包括諸如場所大小、牆壁材料等等之場所態樣。應注意，本發明不限於涉及室內場所參數之修改參數。本發明之範圍意欲進一步涵蓋「場所」將視為室外環境之環境，諸如城市建築物之間的常見空間、室外露天劇場或甚至開放空間。