TWI459828B - 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 - Google Patents

在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 Download PDF

Info

Publication number
TWI459828B
TWI459828B TW100105440A TW100105440A TWI459828B TW I459828 B TWI459828 B TW I459828B TW 100105440 A TW100105440 A TW 100105440A TW 100105440 A TW100105440 A TW 100105440A TW I459828 B TWI459828 B TW I459828B
Authority
TW
Taiwan
Prior art keywords
speech
channel
voice
attenuation
signal
Prior art date
Application number
TW100105440A
Other languages
English (en)
Other versions
TW201215177A (en
Inventor
Hannes Muesch
Original Assignee
Dolby Lab Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Lab Licensing Corp filed Critical Dolby Lab Licensing Corp
Publication of TW201215177A publication Critical patent/TW201215177A/zh
Application granted granted Critical
Publication of TWI459828B publication Critical patent/TWI459828B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/09Electronic reduction of distortion of stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
本發明係相關於用以提高多頻道音訊訊號所決定之人類語音(如、對話)的可理解性之系統及方法。在一些實施例中,本發明為藉由決定指示由語音頻道所決定之語音相關內容和由非語音頻道所決定之語音相關內容之間的類似性測量之至少一衰減控制值,以及衰減非語音頻道以回應衰減控制值,而過濾具有語音頻道和非語音頻道的音訊訊號來提高訊號所決定之語音的可理解性之方法及系統。
包括申請專利範圍的此全部揭示,廣義使用"語音"一詞以表示人類語音。如此,由音訊訊號所決定的"語音"為當由揚聲器(或其他發聲轉換器)再生訊號時被感知作人類語音之訊號的音訊內容(如、對話、獨白、歌聲、或其他人類語音)。根據本發明的典型實施例,由音訊訊號所決定之語音的可聞度相對於由訊號所決定之其他音訊內容(如、樂器音樂或非語音聲音效果)已提高,藉以提高語音的可理解性(如、清楚或容易明白)。
包括申請專利範圍的此全部揭示,多頻道音訊訊號的頻道之"語音增強內容"為(由頻道所決定)增強由訊號的另一頻道(如、語音頻道)所決定之語音內容的可理解性或其他感知品質之內容。
本發明的典型實施例假設由多頻道輸入音訊訊號所決定之多數語音係由訊號的中心頻道所決定。此假設與環繞聲音製造的協定一致,根據此,多數語音通常只放入一頻道(中心頻道),及大部分音樂、周遭聲音、及音效通常混合到所有頻道內(如、左、右、左環繞、及右環繞頻道與中心頻道)。
如此,此處有時將多頻道音訊訊號的中心頻道稱作"語音"頻道,及此處有時將訊號的所有其他頻道(如、左、右、左環繞、及右環繞頻道)稱作"非語音"頻道。同樣地,此處有時將藉由總計語音被集中搖攝之立體訊號的左和右頻道所產生之"中心"頻道稱作"語音"頻道,及此處有時將藉由從立體訊號的左(或右)頻道減掉此種中心頻道所產生之"旁邊"頻道稱作"非語音"頻道。
包括申請專利範圍的此全部揭示,廣義使用在訊號或資料"上"執行操作的詞句(如、過濾、決定比例、或變換訊號或資料),以表示直接在訊號或資料上,或者在訊號或資料的已處理版本上(如、在其上執行操作之前,已經過預備過濾之訊號的版本上)執行操作。
包括申請專利範圍的此全部揭示,廣義使用"系統"詞句,以表示裝置、系統、或子系統。例如,實施解碼器之子系統可被稱作解碼器系統,及包括此種子系統之系統(如、產生X出輸出訊號以回應多輸入之系統,在其中子系統產生輸入的M,及從外部來源接收另一X-M輸入)亦可被稱作解碼器系統。
包括申請專利範圍的此全部揭示,廣義使用第一值("A")對第二值("B")的"比率",以表示A/B、或B/A、或A及B的其中之一的已定比或偏移版對A及B的其中之另一個的已縮放或補償版之比率(如、(A+x)/(B+y),其中x及y為偏移值)。
包括申請專利範圍的此全部揭示,由發聲轉換器(如、揚聲器)"再生"訊號之詞句表示使轉換器能夠產生聲音以回應訊號,包括藉由執行任何需要的訊號之放大及/或其他處理。
當在存在競爭的聲音時聽語音時(諸如在餐廳的人群噪音中聽朋友說話),發出語音的音位內容訊號(語音線索)之聽覺特徵的一部分被競爭的聲音掩蓋,及收聽者不再可取得來解碼訊息。隨著競爭聲音位準相對語音位準而增加時,所正確接收之語音線索的數目減少,及語音感知變得越來越麻煩,直到在某些競爭聲音的位準中,語音感知處理失敗為止。儘管此關係適用於所有收聽者,但是可忍受任何語音位準之競爭聲音的位準並非所有收聽者都相同。如、由於年紀所以喪失聽力(長者)者或者聽著***之後他們才取得的語言等一些收聽者比具有好聽力的收聽者或以他們母語操作之收聽者較無法忍受競爭聲音。
收聽者在存在競爭聲音時瞭解語音的能力上不同意味著,周遭聲音和新聞的背景音樂或娛樂音訊與語音混合在一起之位準。具有聽力喪失的收聽者和以外國語操作之收聽者通常喜歡非語音音訊的較低相對位準勝過內容產生者所提供的。
為了能照顧到這些特別需求,已知應用衰減(音量降低)到多頻道音訊訊號的非語音頻道,但是較低(或沒有)衰減到訊號的語音頻道,以提高由訊號所決定之語音的可理解性。
例如,指名Hannes Muesch為發明人且讓渡給Dolby實驗室許可公司(2010、1、28出版)之PCT國際申請案號WO 2010/011377揭示多頻道音訊訊號的非語音頻道(如、左及右頻道)掩蓋訊號的語音頻道(如、中心頻道)中的語音至語音可理解性的理想位準不再符合之點。WO 2010/011377說明如何決定欲待由音量降低電路試圖應用到非語音頻道之衰減函數,以在盡可能維持內容創作者的原意同時又不掩蓋語音頻道的語音。WO 2010/011377所說明的技術係依據非語音頻道中的內容從未增強由語音頻道所決定之語音內容的可理解性(或其他知覺品質)之假設。
本發明係部分依據儘管此假設對大部分的多頻道音訊內容是正確的但是並非總是有效之認知。本發明人已清楚當多頻道音訊訊號的至少一非語音頻道未包括增強由訊號的語音頻道所決定之語音內容的可理解性(或其他知覺品質)時,根據WO 2010/011377的方法過濾訊號會負面影響收聽再生的已過濾訊號者之娛樂經歷。根據本發明的典型實施例,在當內容未遵循構成WO 2010/011377的方法之假設時間期間中止或修改應用WO 2010/011377所說明的方法。
在音訊訊號的至少一非語音頻道包括增強音訊訊號的語音頻道中之語音內容的可理解性之內容的常識下,需要用以過濾多頻道音訊訊號以提高語音可理解性之方法及系統。
在實施例的第一類別中,本發明為用以過濾具有語音頻道和至少一非語音頻道的多頻道音訊訊號之方法,以提高由訊號所決定之語音的可理解性。方法包括以下步驟:(a)決定至少一衰減控制值,其指示由語音頻道所決定之語音相關內容和由多頻道音訊訊號的至少一非語音頻道所決定之語音相關內容之間的類似性測量;以及(b)衰減多頻道音訊訊號的至少一非語音頻道,以回應至少一衰減控制值。典型上,衰減步驟包含決定用於非語音頻道的原始衰減控制訊號比例(如、音量降低增益控制訊號),以回應至少一衰減控制值。較佳的是,非語音頻道被衰減,以便提高由語音頻道所決定之語音的可理解性,卻不會不當地衰減由非語音頻道所決定之語音增強內容。在一些實施例中,步驟(a)所決定之各衰減控制值係指示由語音頻道所決定的語音相關內容和由音訊訊號之一非語音頻道所決定之語音相關內容之間的類似性測量,及步驟(b)包括衰減此非語音頻道以回應該各衰減控制值之步驟。在一些其他實施例中,步驟(a)包括從音訊訊號的至少一非語音頻道衍生出衍生的非語音頻道之步驟,及至少一衰減控制值係指示由語音頻道所決定之語音相關內容和由衍生的非語音頻道所決定之語音相關內容之間的類似性測量。例如,衍生的非語音頻道係可藉由加總或不然混合或組合聲頻訊號的至少兩非語音頻道所產生。相對於從不同的非語音頻道來決定一組衰減值的不同子組之成本及複雜性,從單一衍生的非語音頻道來決定各衰減控制值可減少成本和實施本發明的一些實施例之複雜性。在輸入音訊訊號具有至少兩非語音頻道之實施例中,步驟(b)可包括衰減一子組非語音頻道(如、已衍生衍生的非語音頻道之各非語音頻道)或所有非語音頻道,以回應於至少一衰減控制值(如、回應於衰減控制值的單一序列)。
在第一類別的一些實施例中,步驟(a)包括以下步驟:產生指示衰減控制值的序列之衰減控制訊號,衰減控制值的每一個指示在不同時間(如、以不同時間間隔)由語音頻道所決定之語音相關內容和由至少一非語音頻道所決定之語音相關內容之間的類似性測量,及步驟(b)包括以下步驟:決定音量降低增益控制訊號比例,以回應衰減控制訊號,而產生定比的增益控制訊號;以及應用定比的增益控制訊號,以衰減至少一非語音頻道(如、確立到音量降低電路的定比增益控制訊號,以由音量降低電路來控制至少一非語音頻道的衰減)。例如,在一些此種實施例中,步驟(a)包括比較第一語音相關特徵序列(指示由語音頻道所決定之語音相關內容)與第二語音相關特徵序列(指示由至少一非語音頻道所決定之語音相關內容),以產生衰減控制訊號之步驟,及由衰減控制訊號所指示之衰減控制值的每一個係指示第一語音相關特徵序列和第二語音相關特徵序列之間在不同時間(如、以不同的時間間隔)的類似性測量。在一些實施例中,各衰減控制值為增益控制值。
在第一類別的一些實施例中,各衰減控制值係單調相關於多頻道音訊訊號的至少一非語音頻道係指示增強由語音頻道所決定之語音內容的可理解性(或另一知覺品質)之語音增強內容的可能性。在第一類別的一些其他實施例中,各衰減控制值係單調相關於非語音頻道的預期語音增強值(如、非語音頻道係指示乘以非語音頻道中語音增強內容的知覺品質增強之測量的語音增強內容之可能性測量提供給多頻道訊號所決定之語音內容)。例如,其中步驟(a)包括以下步驟:比較指示由語音頻道所決定之語音相關內容的第一語音相關特徵序列與指示由至少一非語音頻道所決定之語音相關內容的第二語音相關特徵序列,第一語音相關特徵序列可以是語音可能性值的序列,其每一個表示語音頻道係指示語音之不同時間的可能性(如、以不同時間間隔),及第二語音相關特徵序列亦可以是語音可能性值的序列,其每一個表示至少一非語音頻道係指示語音之不同時間的可能性(如、以不同時間間隔)。已知從音訊訊號自動產生語音可能性值的此種序列之各種方法。例如,由Robinson及Vinton在"自動語音/用於響度監視的其他區別"中說明一此種方法(音訊工程協會,會議118的預列印號碼6437,2005年5月)。另一選擇是,考慮人工產生語音可能性值的序列(如、藉由內容創作者),及沿著多頻道音訊訊號旁邊傳送到終端使用者。
在實施例的第二類別中,在其中,多頻道音訊訊號具有語音頻道和包括第一非語音頻道和第二非語音頻道之至少兩非語音頻道,本發明方法包括以下步驟:(a)決定至少一第一衰減控制值,其指示由語音頻道所決定之語音相關內容和由第一非語音頻道所決定之第二語音相關內容之間的類似性測量(如、包括藉由比較指示由語音頻道所決定之語音相關內容的第一語音相關特徵序列與指示第二語音相關內容之第二語音相關特徵序列);以及(b)決定至少一第二衰減控制值,其指示由語音頻道所決定之語音相關內容和由第二非語音頻道所決定之第三語音相關內容之間的類似性測量(如、包括藉由比較指示由語音頻道所決定之語音相關內容的第三語音相關特徵序列與指示第三語音相關內容之第四語音相關特徵序列,其中第三語音相關特徵序列可和步驟(a)之第一語音相關特徵序列完全相同)。典型上,方法包括以下步驟:衰減第一非語音頻道(如、決定第一非語音頻道的衰減比例),以回應至少一第一衰減控制值;和衰減第二非語音頻道(如、決定第二非語音頻道的衰減比例),以回應至少一第二衰減控制值。較佳的是,各非語音頻道被衰減,以便提高由語音頻道所決定之語音的可理解性,卻不會不當衰減由任一非語音頻道所決定之語音增強內容。
在第二類別的一些實施例中:步驟(a)所決定之至少一第一衰減控制值為衰減控制值的序列,及衰減控制值的每一個為增益控制值,用以藉由音量降低電路來決定應用到第一非語音頻道之增益量比例,以便提高由語音頻道所決定之語音的可理解性,卻不會不當衰減由第一非語音頻道所決定之語音增強內容;以及步驟(b)所決定之至少一第二衰減控制值為第二衰減控制值的序列,及第二衰減控制值的每一個為增益控制值,用以藉由音量降低電路來決定應用到第二非語音頻道的音量降低增益量比例,以便提高由語音頻道所決定之語音的可理解性,卻不會不當衰減由第二非語音頻道所決定之語音增強內容。
在實施例的第三類別中,本發明為用以過濾具有語音頻道和至少一非語音頻道的多頻道音訊訊號之方法,以提高由訊號所決定之語音的可理解性。方法包括以下步驟:(a)比較語音頻道的特性與非語音頻道的特性,而產生至少一衰減值,以控制與語音頻道相關之非語音頻道的衰減;以及(b)調整至少一衰減值,以回應至少一語音增強可能性值,而產生至少一已調整的衰減值,來控制與語音頻道相關之非語音頻道的衰減。典型上,調整步驟為(或包括)決定各該衰減值的比例,以回應一該語音增強可能性值,而產生一該已調整的衰減值。典型上,各語音增強可能性值係指示(如、單調相關於)非語音頻道(或從非語音頻道或從輸入音訊訊號的一組非語音頻道所衍生之非語音頻道)係指示語音增強內容(增強由語音頻道所決定之語音內容的可理解性或其他知覺品質之內容)的可能性。在一些實施例中,語音增強可能性值係指示非語音頻道的預期語音增強值(如、非語音頻道係指示乘以非語音頻道中語音增強內容的知覺品質增強之測量的語音增強內容之可能性測量提供給多頻道訊號所決定之語音內容)。在第三類別的一些實施例中,至少一語音增強可能性值為比較由方法所決定之值(如、不同值)的序列,方法包括以下步驟:比較指示由語音頻道所決定之語音相關內容的第一語音相關特徵序列與指示由非語音頻道所決定之語音相關內容的第二語音相關特徵序列,及比較值的每一個為第一語音相關特徵序列和第二語音相關特徵序列之間在不同時間的類似性測量(如、以不同時間間隔)。在第三類別的典型實施例中,方法亦包括以下步驟:衰減非語音頻道,以回應至少一已調整的衰減值。步驟(b)可包含決定至少一衰減值比例(其典型上為或者由音量減低增益控制訊號或其他原始衰減控制訊號所決定,以回應一語音增強可能性值。
在第三類別的一些實施例中,步驟(a)所產生的各衰減值為第一因子,其指示限制非語音頻道中之訊號功率對語音頻道中的訊號功率的比率不超過預定臨界所需之非語音頻道的衰減量,第一因子係由單調相關於指示語音之語音頻道的可能性之第二因子來決定比例。典型上,這些實施例中的調整步驟為(或包括)藉由一該語音增強可能性值來決定各該衰減值比例,以產生一該已調整的衰減值,其中語音增強可能性值係單調相關於以下的其中之一:非語音頻道係指示語音增強內容(增強由語音頻道所決定之語音內容的可理解性或其他知覺品質)之可能性;以及非語音頻道的預期語音增強值(如、非語音頻道係指示乘以非語音頻道中語音增強內容的知覺品質增強之測量的語音增強內容之可能性測量提供給多頻道訊號所決定之語音內容)。
在第三類別的一些實施例中,步驟(a)所產生的各衰減值為第一因子,其指示足夠使存在於由非語音頻道所決定之內容中的語音頻道所決定之語音的預知可理解性能夠超過預定臨界值之非語音頻道的衰減量(如、最小量),第一因子係由單調相關於指示語音之語音頻道的可能性之第二因子來決定比例。較佳的是,存在於由非語音頻道所決定之內容中的語音頻道所決定之語音的預知可理解性係根據心理聽覺為基的可理解性預知模型所決定。典型上,這些實施例中的調整步驟(或包括)藉由一該語音增強可能性值來決定各該衰減值比例,以產生一該已調整的衰減值,其中語音增強可能性值係單調相關於以下的其中之一:非語音頻道係指示語音增強內容之可能性;以及非語音頻道的預期語音增強值。
在第三類別的一些實施例中,步驟(a)包括產生各該衰減值之步驟,包括:藉由決定語音頻道和非語音頻道的每一個之功率譜(指示功率為頻率的函數),以及執行衰減值的頻域決定以回應各該功率譜。較佳的是,以此方式所產生的衰減值決定衰減作為欲待應用到非語音頻道的頻率成分之頻率的函數。
在實施例的類別中,本發明為用以增強由多頻道音訊輸入訊號所決定的語音之方法及系統。在一些實施例中,本發明系統包括分析模組(子系統),其被組構,以分析輸入的多頻道訊號而產生衰減控制值;以及衰減子系統。衰減子系統被組構以應用由衰減控制值的至少一些所操控之音量衰減到輸入訊號的各非語音頻道,而產生已過濾的音訊輸出訊號。在一些實施例中,衰減子系統包括音量降低電路(由衰減控制值的至少一些操控),其被耦合及被組構,以應用衰減(音量降低)到輸入訊號的各非語音頻道,而產生已過濾的音訊輸出訊號。音量降低電路係在應用到非語音頻道的衰減係由控制值的目前值來決定之觀念下由控制值來操控。
在典型實施例中,本發明系統為或包括萬用型或特別用途處理器,以軟體(或韌體)加以程式化及/或另被組構以執行本發明方法的實施例。在一些實施例中,本發明系統為萬用型處理器,其被耦合以接收指示音訊輸入訊號之輸入資料,及被程式化(以適當軟體)以藉由執行本發明方法的實施例來產生指示音訊輸出訊號之輸出資料以回應輸入資料。在其他實施例中,本發明系統係藉由適當組構(如、藉由適當程式化)可組構的音訊數位訊號處理器(DSP)來實施。音訊DSP可以是習知音訊DSP,其可被組構(如、可由適當軟體或韌體加以程式化,或另可組構以回應控制資料),以在輸入音訊上執行各種操作的任一者。在操作中,已被組構以根據本發明來執行主動語音增強之音訊DSP被耦合,以接收音訊輸入訊號,及DSP典型上在輸入音訊上執行(和)除了語音增強之外的各種操作。根據本發明的各種實施例,音訊DSP可操作以在被組構(或被程式化)之後執行本發明方法的實施例,而藉由在輸入音訊訊號上執行方法來產生輸出音訊訊號以回應輸入音訊訊號。
本發明的觀點包括系統,其被組構(如、被程式化)以執行本發明方法的實施例;以及電腦可讀取媒體(如、碟),其儲存用以實施本發明方法的任一實施例之碼。
本發明的許多實施例在技術上是可能的。精於本技藝之人士從本揭示應明白如何實施它們。將參考圖1A、1B、2A、2B、及3-5說明本發明系統、方法、和媒體的實施例。
本發明人已觀察一些多頻道音訊內容在語音頻道和至少一非語音頻道中具有不同、然而相關的語音內容。例如,一些舞台表演的多頻道音訊記錄被混合,使得"乾"語音(即、沒有顯著回響之語音)被置放到語音頻道內(典型上,訊號的中心頻道C),及相同語音但具有明顯的回響成分("濕"語音)被置放在訊號的非語音頻道中。在典型方案中,乾語音為來自舞台表演者支托接近其嘴巴之麥克風的訊號,及濕語音為來自置放在觀眾中的麥克風之訊號。濕語音係相關於乾語音,因為其由集合點中的觀眾所聽到的表演。然而其不同於乾語音。典型上,濕語音相對於乾語音而延遲,及具有不同的頻譜和不同的附加成分(如、觀眾噪音和回響)。
依據乾和濕語音的相對位準,濕語音成分可能掩蓋乾語音成分到音量降低中之非語音頻道的衰減(如、像在上述WO 2010/011377所說明的方法中一般)不當衰減濕語音訊號之程度。雖然乾和濕語音成分可被說明成分開實體,但是,收聽者感知上混合兩者並且將它們聽成單一語音流。衰減濕語音成分(如、在音量降低電路中)具有降低混合語音流之感知音量以及使其影像寬度倒塌的效果。發明人已清楚知道,就具有著名類型的濕和乾語音成分之多頻道音訊訊號而言,若在訊號的語音增強處理期間濕語音成分的位準未改變,則通常感知上較令人愉悅,並且更有助於語音可理解性。
本發明係部分依據當多頻道音訊訊號的至少一非語音頻道未包括增強由訊號的語音頻道所決定之語音內容的可理解性(或其他知覺品質)時,使用音量降低來過濾訊號的非語音頻道(如、根據WO 2010/011377的方法)會負面影響收聽再生的已過濾訊號者之娛樂經歷的認知。根據本發明的典型實施例,在當非語音頻道包括語音增強內容時間期間(增強由訊號的語音頻道所決定之語音內容的可理解性或其他知覺品質之內容),中止或修改多頻道音訊訊號的至少一非語音頻道之衰減(在音量降低電路中)。當非語音頻道未包括語音增強內容(或未包括符合預定基準之語音增強內容)時,正常衰減非語音頻道(衰減未被中止或修改)。
音量降低電路中的習知過濾不適當之典型多頻道訊號(具有語音頻道)為包括帶有與語音頻道中的語音線索實質上完全相同之語音線索的至少一非語音頻道者。根據本發明的典型實施例,比較語音頻道中之語音相關特徵的序列與非語音頻道中之非語音相關特徵的序列。兩特徵序列的實質類似性指示非語音頻道(即、非語音頻道中的訊號)提供對瞭解語音頻道中的語音有用之資訊;以及應避免非語音頻道的衰減。
為了意識到檢驗除了訊號本身以外的此種語音相關特徵序列之間的類似性之意義,重要的是認清"乾"及"濕"語音內容(由語音及非語音頻道所決定)不相同;指示兩種類型的語音內容之訊號典型上在時間上被抵銷,及已經過不同的過濾處理及已具有不同的外來成分添加進來。因此,兩訊號之間的直接比較將產生低的類似性,不管非語音頻道是提供與語音頻道相同之語音線索(如同在乾及濕語音的例子中一般)、無相關語音線索(如同在語音及非語音頻道中兩無相關聲音之例子中一般[如、語音頻道中的目標對話和非語音頻道中的吵雜聲])、還是一點都沒有語音線索(如、非語音頻道帶有音樂和音效)。藉由依據語音特徵的比較(如同在本發明的較佳實施例一般),達成減少無相關訊號方面的影響之抽象位準,諸如少量延遲、光譜差異、及外來添加訊號等。如此,本發明的較佳實施例典型上產生至少兩語音特徵流:一表示語音頻道中的訊號;以及至少其中之一表示非語音頻道中的訊號。
將參考圖1A說明本發明系統的第一實施例(125)。回應包含語音頻道101(中心頻道C)和兩非語音頻道102及103(左及右頻道L及R)之多頻道音訊訊號,圖1系統過濾非語音頻道,以產生包含語音頻道101和已過濾的非語音頻道118及119(已過濾的左及右頻道L’及R’)之已過濾的多頻道輸出音訊訊號。另一選擇是,非語音頻道102及103的一或二者可以是多頻道音訊訊號的另一類型非語音頻道(如、5.1頻道音訊訊號的左後及/右後頻道),或者可以是從多頻道音訊訊號之許多不同子組的非語音頻道之任一者所衍生(如、組合)的衍生非語音頻道。另一選擇是,本發明系統的實施例可被實施,以只過濾多頻道音訊訊號之一非語音頻道或兩個以上的非語音頻道。
再次參考圖1,非語音頻道102及103分別確立到音量降低放大器117及116。在操作中,由輸出自乘法元件114之控制訊號S3(其係指示控制值的序列,及如此亦被稱作控制值序列S3)操控語音降低放大器116,及由輸出自乘法元件115之控制訊號S4(其係指示控制值的序列,及如此亦被稱作控制值序列S4)操控語音降低放大器117。
以一堆功率估算器(104、105、及106)測量多頻道輸入訊號的各頻道之功率,以及表示在對數刻度上[dB]。這些功率估算器可實施平滑機制,諸如漏洩積分器等,使得所測量的功率位準反映平均句子或整段文字的持續期間之功率位準。從非語音頻道的每一個中之功率位準減掉語音頻道中之訊號的功率位準(藉由減法元件107及108),以測量兩訊號類型之間的功率之比率。元件107的輸出為非語音頻道103中的功率對語音頻道101中的功率之比率的測量。元件108的輸出為非語音頻道102中的功率對語音頻道101中的功率之比率的測量。
比較電路109為各非語音頻道決定分貝(dB)的數目,藉此非語音頻道必須被衰減,以便其功率位準能夠保持至少dB,在語音頻道中的訊號之功率位準以下(其中符號"",是書寫體的θ,表示預定臨界值)。在電路109的一實施中,加法元件120將臨界值(儲存在元件110中,其可以是暫存器)加到非語音頻道103和語音頻道101之間的功率位準差(或"差數"),及加法元件121將臨界值加到非語音頻道102和語音頻道101之間的功率位準差。元件111-1及112-1分別改變加法元件120及121的輸出之正負號。此正負號變化操作將衰減值改變成增益值。元件111及112限制限制各結果,以等於或小於零(確定元件111-1的輸出到限制器111,而確定元件112-1的輸出到限制器112)。輸出自限制器111的電流值C1決定必須應用到非語音頻道103之dB中的增益(否定的衰減),以保持其功率位準9 在語音頻道101的位準之下(在多頻道輸入訊號的相關時間中,或者在相關時間視窗中)。輸出自限制器112的電流值C1決定必須應用到非語音頻道102之dB中的增益(否定的衰減),以保持其功率位準9 在語音頻道101的位準之下(在多頻道輸入訊號的相關時間中,或者在相關時間視窗中)。9 的典型適當值為15 dB。
因為表示在對數刻度(dB)上的測量和表示在線性刻度上的測量之間具有獨特關係,所以可建立等同圖1A的元件104、105、106、107、108、及109之電路(或被程式化或另被組構的處理器),在其中,功率、增益、及臨界全都表示在線性刻度上。在此種實施中,以線性測量的比率來取代所有位準差。另一實施可以諸如訊號的絕對值等相關於訊號、強度之測量來取代功率測量。
輸出自限制器111之訊號C1為用於非語音頻道103之原始衰減控制訊號(用於音量降低放大器116之增益控制訊號),其可被確立直接到放大器116,以控制非語音頻道103的音量降低衰減。出自限制器112之訊號C2為用於非語音頻道102之原始衰減控制訊號(用於音量降低放大器1176之增益控制訊號),其可被確立直接到放大器117,以控制非語音頻道102的音量降低衰減。
然而根據本發明,在乘法元件114及115中決定原始衰減控制訊號C1及C2比例,以由放大器116及117產生用以控制非語音頻道的音量降低衰減之增益控制訊號S3及S4。決定訊號C1比例,以回應衰減控制值S1的序列,及決定訊號C2比例,以回應衰減控制值s2的序列。確立各控制值S1從處理元件134的輸出(稍後說明)到乘法元件114的輸入,及訊號C1(如此藉此所決定的各"原始"增益控制值C1)被確立從限制器111到元件114的另一輸入。藉由將這些值乘在一起,元件114決定目前值C1比例,以回應目前值S1,而產生確立到放大器116之目前值S3。各控制值S2被確立從處理元件135的輸出(稍後說明)到乘法元件115的輸入,及訊號C2(如此藉此所決定的各"原始"增益控制值C2)被確立從限制器112到元件115的另一輸入。藉由將這些值乘在一起,元件115決定目前值C2比例,以回應目前值S2,而產生確立到放大器117之目前值S4。
根據本發明產生控制值S1及S2如下。在語音可能性處理元件130、131、及132中,為多頻道輸入訊號的各頻道產生語音可能性訊號(圖1之訊號P、Q、及T的每一個)。語音可能性訊號P係指示用於非語音頻道102的語音可能性值之序列;語音可能性訊號Q係指示用於語音頻道101的語音可能性值之序列;及語音可能性訊號T係指示用於非語音頻道103的語音可能性值之序列。
語音可能訊號Q為單調相關於語音頻道中的訊號事實上係指示語音之可能性的值。語音可能訊號P為單調相關於非語音頻道102中的訊號為語音之可能性的值,及語音可能訊號T為單調相關於非語音頻道103中的訊號為語音之可能性的值。處理器130、131、及132(其典型上彼此完全相同,但是在某些實施例中彼此並未完全相同)可實施用以自動決定確立至此的輸入訊號係指示語音之可能性的各種方法之任一者。在一實施例中,語音可能性處理器130、131、及132彼此完全相同,處理器130產生訊號P(從非語音頻道102的資訊),使得訊號P係指示語音可能性值的序列,其各個單調相關於在不同時間(或時間視窗)的頻道102中之訊號為語音的可能性,處理器131產生訊號Q(從頻道101的資訊),使得訊號Q係指示語音可能性值的序列,其各個單調相關於在不同時間(或時間視窗)的頻道101中之訊號為語音的可能性,處理器132產生訊號T(從非語音頻道103的資訊),使得訊號T係指示語音可能性值的序列,其各個單調相關於在不同時間(或時間視窗)的頻道103中之訊號為語音的可能性,及處理器130、131、及132的每一個藉由實施(在頻道102、101、及103的相關者上)由Robinson及Vinton在"自動語音/用於響度監視的其他區別"所說明說明機制(音訊工程協會,會議118的預列印號碼6437,2005年5月)來進行。另一選擇是,訊號P可由人工產生,例如藉由內容創造者,及沿著頻道102中的音訊訊號旁邊傳送到終端使用者,及處理器130可僅僅從頻道102擷取此種先前產生的訊號P(或者可排除處理器130及先前產生的訊號P被直接確立到處理器134)。同樣地,訊號Q可由人工產生,及沿著頻道101中的音訊訊號旁邊傳送,及處理器131可僅僅從頻道101擷取此種先前產生的訊號Q(或者可排除處理器131及先前產生的訊號Q被直接確立到處理器134或135),訊號T可由人工產生,及沿著頻道103中的音訊訊號旁邊傳送,及處理器132可僅僅從頻道103擷取此種先前產生的訊號T(或者可排除處理器132及先前產生的訊號T被直接確立到處理器135)。
在處理器134的典型實施中,由訊號P及Q所決定之語音可能性值成對比較,以為訊號P的目前值之序列的每一個決定訊號P及Q的目前值之間的差。在處理器135的典型實施中,由訊號T及Q所決定之語音可能性值成對比較,以為訊號Q的目前值之序列的每一個決定訊號T及Q的目前值之間的差。結果,處理器134及135的每一個為一對語音可能性訊號產生不同值的序列。
處理器134及135被實施較佳,以藉由時間平均來平滑各個此種差值序列,及選用地決定各個最後平均差值序列比例。決定平均差值序列比例是必要的,使得輸出自處理器134及135之定比的平均值在乘法元件114及115的輸出對操控音量降低放大器116及117是有用之此種範圍中。
在典型實施中,輸出自處理器134之訊號S1為定比的平均差值之序列(這些定比的平均差值為在不同時間視窗中之訊號P及Q差值的目前值之間的差之定比的平均)。訊號S1為用於非語音頻道102之音量降低增益控制訊號,及被用來決定用於非語音頻道102之獨立產生的原始音量降低增益控制訊號C1比例。同樣地,在典型實施中,輸出自處理器135之訊號S2為定比的平均差值之序列(這些定比的平均差值為在不同時間視窗中之訊號T及Q差值的目前值之間的差之定比的平均)。訊號S2為用於非語音頻道103之音量降低增益控制訊號,及被用來決定用於非語音頻道103之獨立產生的原始音量降低增益控制訊號C2比例。
藉由(在元件114中)將訊號C1的各個原始增益控制值乘以訊號S1之定比的平均差值之對應者,可執行根據本發明之決定原始音量降低增益控制訊號C1比例,以回應音量降低增益控制訊號S1,以產生訊號S3。藉由(在元件115中)將訊號C2的各個原始增益控制值乘以訊號S2之定比的平均差值之對應者,可執行根據本發明之決定原始音量降低增益控制訊號C2比例,以回應音量降低增益控制訊號S2,以產生訊號S4。
將參考圖1B說明本發明系統之另一實施例(125’)。回應包含語音頻道101(中心頻道C)和兩非語音頻道102及103(左及右頻道L及R)之多頻道音訊訊號,圖1B的系統過濾非語音頻道,以產生包含語音頻道101和已過濾的非語音頻道118及119(已過濾的左及右頻道L’及R’)之已過濾的多頻道輸出音訊訊號。
在圖1B的系統中(如在圖1A系統中一般),非語音頻道102及103分別確立到音量降低放大器117及116。在操作中,由輸出自乘法元件115之控制訊號S4(其係指示控制值的序列,及如此亦被稱作控制值序列S4)操控語音降低放大器117,及由輸出自乘法元件114之控制訊號S3(其係指示控制值的序列,及如此亦被稱作控制值序列S3)操控語音降低放大器116。圖1A之元件104、105、106、107、108、109(包括元件110、120、121、111-1、112-1、111、及112)、114、115、130、131、132、134、及135與圖1之同一編號的元件完全相同(功能上也完全相同),及將不在重複上面它們的說明。
圖1B系統不同於圖1A的系統在於,控制訊號V1(確立在乘法器214的輸出中)被用來決定除了控制訊號S1(確立在處理器134的輸出中)以外的控制訊號C1比例(確立在限制器元件111的輸出中),及控制訊號V2(確立在放大器215的輸出中)被用來決定除了控制訊號S2(確立在處理器135的輸出中)以外的控制訊號C2比例(確立在限制器元件112的輸出中)。在圖1B中,藉由(在元件114中)將訊號C1的各個原始增益控制值乘以衰減控制值V1的對應者,執行根據本發明之決定原始音量降低增益控制訊號C1比例,以回應於衰減控制值V1的序列,以產生訊號S3;以及藉由(在元件115中)將訊號C2的各個原始增益控制值乘以衰減控制值V2的對應者,執行根據本發明之決定原始音量降低增益控制訊號C2比例,以回應於衰減控制值V2的序列,以產生訊號S4。
為了產生衰減控制值V1的序列,訊號Q(確立在處理器131的輸出中)被確立到乘法器214的輸入,及控制訊號S1(確立在處理器134的輸出中)被確立到乘法器214的另一輸入。乘法器214的輸出為衰減控制值V1的序列。衰減控制值V1的每一個為由訊號Q所決定之語音可能性值的其中之一,係由衰減控制值S1的對應者決定比例。
同樣地,為了產生衰減控制值V2的序列,訊號Q(確立在處理器131的輸出中)被確立到乘法器215的輸入,及控制訊號S2(確立在處理器135的輸出中)被確立到乘法器215的另一輸入。乘法器215的輸出為衰減控制值V2的序列。衰減控制值V2的每一個為由訊號Q所決定之語音可能性值的其中之一,係由衰減控制值S2的對應者決定比例。
可藉由已被程式化來實施圖1A(或1B)系統之所說明的操作之處理器(如、圖5之處理器501),以軟體實施圖1A系統(或圖1B的系統)。另一選擇是,可以如圖1A(或1B)所示一般連接之電路元件,在硬體中實施。
在圖1A實施例(或圖1B的實施例)之變形中,可以非線性方式實施根據本發明之決定原始音量降低增益控制訊號C1比例,以回應音量降低增益控制訊號S1(或V1)(以產生用以操控放大器116之音量降低增益控制訊號)。例如,當訊號S1(或V1)的目前值在臨界以下時,此種非線性決定比例可藉由放大器116產生不產生音量降低之音量降低增益控制訊號(取代訊號S3)(即、由放大器116應用一增益,如此未衰減頻道103),及當訊號S1的目前值超過臨界時,使音量降低增益控制訊號(取代訊號S3)的目前值等於訊號C1的目前值(使得訊號S1(或V1)不修改C1的目前值)。另一選擇是,其他線性或非線性決定訊號C1比例(以回應本發明音量降低增益控制訊號S1或V1)可被執行,以產生用以操控放大器116之音量降低增益控制訊號。例如,當訊號S1(或V1)的目前值在臨界以下時,此種決定訊號C1比例可藉由放大器116產生不產生音量降低之音量降低增益控制訊號(取代訊號S3)(即、由放大器116應用一增益),及當訊號S1(或V1)的目前值超過臨界時,使音量降低增益控制訊號(取代訊號S3)的目前值能夠等於乘以訊號S1或V1的目前值之訊號C1的目前值(或者從此乘積所決定之一些其他值)。
同樣地,在圖1A實施例(或圖1B的實施例)之變形中,可以非線性方式實施根據本發明之決定原始音量降低增益控制訊號C2比例,以回應音量降低增益控制訊號S2(或V2)(以產生用以操控放大器117之音量降低增益控制訊號)。例如,當訊號S2(或V2)的目前值在臨界以下時,此種非線性決定比例可藉由放大器117產生不產生音量降低之音量降低增益控制訊號(取代訊號S4)(即、由放大器117應用一增益,如此未衰減頻道102),及當訊號S2的目前值超過臨界時,使音量降低增益控制訊號(取代訊號S4)的目前值等於訊號C2的目前值(使得訊號S2(或V2)不修改C2的目前值)。另一選擇是,其他線性或非線性決定訊號C2比例(以回應本發明音量降低增益控制訊號S2或V2)可被執行,以產生用以操控放大器117之音量降低增益控制訊號。例如,當訊號S2(或V2)的目前值在臨界以下時,此種決定訊號C2比例可藉由放大器117產生不產生音量降低之音量降低增益控制訊號(取代訊號S4)(即、由放大器117應用一增益),及當訊號S2(或V2)的目前值超過臨界時,使音量降低增益控制訊號(取代訊號S4)的目前值能夠等於乘以訊號S2或V2的目前值之訊號C2的目前值(或者從此乘積所決定之一些其他值)。
將參考圖2A說明本發明系統之另一實施例(225)。回應包含語音頻道101(中心頻道C)和兩非語音頻道102及103(左及右頻道L及R)之多頻道音訊訊號,圖1B的系統過濾非語音頻道,以產生包含語音頻道101和已過濾的非語音頻道118及119(已過濾的左及右頻道L’及R’)之已過濾的多頻道輸出音訊訊號。
在圖2A的系統中(如在圖1A系統中一般),非語音頻道102及103分別確立到音量降低放大器117及116。在操作中,由輸出自乘法元件115之控制訊號S6(其係指示控制值的序列,及如此亦被稱作控制值序列S6)操控語音降低放大器117,及由輸出自乘法元件114之控制訊號S5(其係指示控制值的序列,及如此亦被稱作控制值序列S5)操控語音降低放大器116。圖2之元件114、115、130、131、132、134、及135與圖1之同一編號的元件完全相同(功能上也完全相同),及將不在重複上面它們的說明。
圖2A系統以一堆功率估算器201、202、及203來測量頻道101、102、及103的每一個中之訊號的功率。不像它們在圖1A中的配對物,功率估算器201、202、及203的每一個測量在頻率各處之訊號功率的分佈(即、相關頻道的一組頻帶之各個不同者中的功率),結果是除了用於個頻道的單一樹木以外的功率譜。各功率譜的譜解析度理想上與由元件205及206(下面討論)所實施之可理解性預測模型的譜解析度匹配。
功率譜被饋入到比較電路204內。電路204的目的在於決定欲待應用到各非語音頻道之衰減,以保證非語音頻道中的訊號不減少語音頻道中之訊號的可理解性到低於預定基準。此功能係藉由利用從語音頻道訊號(201)和非語音頻道訊號(202及203)的功率譜預測語音可理解性之可理解性預測電路(205及206)來達成。可理解性預測電路205及206可根據設計選擇和權衡來實施適當的可理解性預測模型。例子為如ANSI S3.5-1997所規定的語音可理解性指數("用以計算語音可理解性指數之方法"),及Muesch及Buus的語音辨識靈敏度模型("將統計決定理論用於預測語音可理解性。I.模型結構",美國聽覺協會期刊,2001、第109冊,第2896-2909頁)。清楚的是,當語音頻道中的訊號有時非語音時,可理解性預測模型的輸出沒有意義。除此之外,遵循可理解性預測模型的輸出者將被稱作預測的語音可理解性。藉由以參數S1及S2來決定輸出自比較電路204的增益值比例,在隨後處理中說明感知的錯誤,參數S1及S2的每一個係相關於語音頻道中的訊號係指示語音之可能性。
可理解性預測模型共同具有,它們預測由於降低非語音訊號的位準所導致之增加或未改變的語音可理解性。在圖2A的流程圖中繼續,比較電路207及208比較預測的可理解性與預定基準值。若元件205決定非語音頻道103的位準如此低,以致於預測的可理解性超過基準,則從電路209檢索被初始化至0 dB之增益參數及供應到電路211,作為比較電路204的輸出C3。若元件206決定非語音頻道102的位準如此低,以致於預測的可理解性超過基準,則從電路210檢索被初始化至0 dB之增益參數及供應到電路212,作為比較電路204的輸出C4。若元件205或206決定不符合基準,則藉由固定量減少增益參數(在元件209及210的相關者),及重複可理解性預測。用以減少增益之適當步階尺寸為1 dB。如上述般的重複被繼續著,直到預測的可理解性符合或超過基準值。
當然可能語音頻道中的訊號是如此基準,以致於甚至沒有非語音頻道中的訊號仍無法達成可理解性。此種情況的例子為非常低位準的語音訊號,或者具有極嚴格限制的頻寬。在任何進一步減少應用到非語音頻道的增益都無法影響預測的語音可理解性及從不符合基準處將可能發生。在此種條件中,由元件205、207、及209(或者元件206、208、及210)所形成的廻路無限期地繼續著,及可施加額外邏輯(未圖示)以破壞廻路。此種邏輯的一尤其簡化例子即技術重複次數及一旦已超過預定重複次數則廻路存在。
藉由(在元件114中)將訊號C3的各個原始增益控制值乘以訊號S1之定比的平均差值之對應者,可執行根據本發明之決定原始音量降低增益控制訊號C3比例,以回應音量降低增益控制訊號S1,以產生訊號S5。藉由(在元件115中)將訊號C2的各個原始增益控制值乘以訊號S2之定比的平均差值之對應者,可執行根據本發明之決定原始音量降低增益控制訊號C4比例,以回應音量降低增益控制訊號,以產生訊號S6。
可藉由已被程式化來實施圖2A系統之所說明的操作之處理器(如、圖5之處理器501),以軟體實施圖2A系統。另一選擇是,可以如圖2A所示一般連接之電路元件,在硬體中實施。
在圖2A實施例之變形中,可以非線性方式實施根據本發明之決定原始音量降低增益控制訊號C3比例,以回應音量降低增益控制訊號S1(以產生用以操控放大器116之音量降低增益控制訊號)。例如,當訊號S1的目前值在臨界以下時,此種非線性決定比例可藉由放大器116產生不產生音量降低之音量降低增益控制訊號(取代訊號S5)(即、由放大器116應用一增益,如此未衰減頻道103),及當訊號S1的目前值超過臨界時,使音量降低增益控制訊號(取代訊號S5)的目前值等於訊號C3的目前值(使得訊號S1不修改C3的目前值)。另一選擇是,其他線性或非線性決定訊號C3比例(以回應本發明音量降低增益控制訊號S1)可被執行,以產生用以操控放大器116之音量降低增益控制訊號。例如,當訊號S1的目前值在臨界以下時,此種決定訊號C3比例可藉由放大器116產生不產生音量降低之音量降低增益控制訊號(取代訊號S5)(即、由放大器116應用一增益),及當訊號S1的目前值超過臨界時,使音量降低增益控制訊號(取代訊號S5)的目前值能夠等於乘以訊號S1的目前值之訊號C3的目前值(或者從此乘積所決定之一些其他值)。
同樣地,在圖2A實施例之變形中,可以非線性方式實施根據本發明之決定原始音量降低增益控制訊號C4比例,以回應音量降低增益控制訊號S2(以產生用以操控放大器117之音量降低增益控制訊號)。例如,當訊號S2的目前值在臨界以下時,此種非線性決定比例可藉由放大器117產生不產生音量降低之音量降低增益控制訊號(取代訊號S6)(即、由放大器117應用一增益,如此未衰減頻道102),及當訊號S2的目前值超過臨界時,使音量降低增益控制訊號(取代訊號S6)的目前值等於訊號C4的目前值(使得訊號S2不修改C4的目前值)。另一選擇是,其他線性或非線性決定訊號C4比例(以回應本發明音量降低增益控制訊號S2)可被執行,以產生用以操控放大器117之音量降低增益控制訊號。例如,當訊號S2的目前值在臨界以下時,此種決定訊號C4比例可藉由放大器117產生不產生音量降低之音量降低增益控制訊號(取代訊號S6)(即、由放大器117應用一增益),及當訊號S2的目前值超過臨界時,使音量降低增益控制訊號(取代訊號S6)的目前值能夠等於乘以訊號S2或V2的目前值之訊號C4的目前值(或者從此乘積所決定之一些其他值)。
將參考圖2B說明本發明系統之另一實施例(225’)。回應包含語音頻道101(中心頻道C)和兩非語音頻道102及103(左及右頻道L及R)之多頻道音訊訊號,圖2B的系統過濾非語音頻道,以產生包含語音頻道101和已過濾的非語音頻道118及119(已過濾的左及右頻道L’及R’)之已過濾的多頻道輸出音訊訊號。
在圖2A的系統中(如在圖2A系統中一般),非語音頻道102及103分別確立到音量降低放大器117及116。在操作中,由輸出自乘法元件115之控制訊號S6(其係指示控制值的序列,及如此亦被稱作控制值序列S6)操控語音降低放大器117,及由輸出自乘法元件114之控制訊號S5(其係指示控制值的序列,及如此亦被稱作控制值序列S5)操控語音降低放大器116。圖2B之元件201、202、203、204、114、115、130、及134與圖2B之同一編號的元件完全相同(功能上也完全相同),及將不在重複上面它們的說明。
圖2B系統不同於圖2A的系統在兩主要方面。首先,系統被組構,以從輸入音訊訊號之兩個別非語音頻道(102及103)產生(即、驅動)"衍生的"非語音頻道(L+R);以及決定衰減控制值(V3),以回應此衍生的非語音頻道。反之,圖2A系統決定衰減控制值S1,以回應輸入音訊訊號的一非語音頻道(頻道102),及決定衰減控制值S2,以回應輸入音訊訊號的另一非語音頻道(頻道103)。在操作中,圖2B的系統衰減輸入音訊訊號的各非語音頻道(頻道102及103的每一個),以回應一組相同衰減控制值V3。在操作中,圖2A的系統衰減輸入音訊訊號的非語音頻道102,以回應衰減控制值S2,及衰減輸入音訊訊號的非語音頻道103,以回應一組不同的衰減控制值(值S1)。
圖2B的系統包括加法元件129,其輸入被耦合以接收輸入音訊訊號的非語音頻道102及103。在元件129的輸出中確立衍生的非語音頻道(L+R)。語音可能性處理元件130確立語音可能性訊號P,以回應來自元件129之衍生的非語音頻道L+R。在圖2B中,訊號P係指示用於衍生的非語音頻道之語音可能性值的序列。典型上,圖2B的語音可能性訊號P為單調相關於衍生的非語音頻道中的訊號為語音之可能性的值。圖2B之語音可能性訊號Q(由處理器131產生)與圖2A之上述語音可能性訊號Q完全相同。
圖2B系統不同於圖2A的系統之第二主要方面如下。在圖2B中,控制訊號V3(在乘法器214的輸出中確立)被用於(除了處理器134的輸出中所確立之控制訊號S1以外)決定原始音量降低增益控制訊號C3比例(在元件211的輸出中確立),及控制訊號V3亦被用於(除了圖2A之處理器135的輸出中所確立之控制訊號S2以外)決定原始音量降低增益控制訊號C4比例(在元件212的輸出中確立)。在圖2B中,藉由(在元件114中)將訊號C3的各個原始增益控制值乘以衰減控制值V3的對應者,執行根據本發明之決定原始音量降低增益控制訊號C3比例,以回應於訊號V3所指示之衰減控制值的序列(欲待稱作衰減控制值V3),以產生訊號S5;以及藉由(在元件115中)將訊號C4的各個原始增益控制值乘以衰減控制值V3的對應者,執行根據本發明之決定原始音量降低增益控制訊號C4比例,以回應於衰減控制值V3的序列,以產生訊號S6。
在操作中,圖2B系統產生衰減控制值V3的序列如下。語音可能性訊號Q(在圖2B之處理器131的輸出中確立)被確立到乘法器214的輸入,及衰減控制訊號S1(在處理器134的輸出中確立)被確立到乘法器214的另一輸入。乘法器214的輸出為衰減控制值V3的序列。衰減控制值V3的每一個為由訊號Q所決定之語音可能性值的其中之一,係由衰減控制值S1的對應者決定比例。
將參考圖3說明本發明系統之另一實施例(325)。回應包含語音頻道101(中心頻道C)和兩非語音頻道102及103(左及右頻道L及R)之多頻道音訊訊號,圖3系統過濾非語音頻道,以產生包含語音頻道101和已過濾的非語音頻道118及119(已過濾的左及右頻道L’及R’)之已過濾的多頻道輸出音訊訊號。
在圖3系統中,藉由過濾器組301(用於頻道101)、過濾器組302(用於頻道102)、及過濾器組303(用於頻道103),將三個輸入頻道中之訊號的每一個分成其光譜成分。可以時域N頻道過濾器組來達成光譜分析。根據一實施例,各過濾器組將頻率範圍劃分成1/3倍頻帶,或類似假設發生在人類內耳中的過濾。藉由使用粗線來圖解輸出自各過濾器組的訊號係由N子訊號所組成之事實。
在圖3系統中,非語音頻道102及103中之訊號的頻率成分被分別確立到放大器117及116。在操作中,音量降低放大器117係由輸出自乘法元件115’之控制訊號S8所操控(其係指示控制值的序列,如此亦被稱作控制值序列S8),及音量降低放大器116係由輸出自乘法元件114’之控制訊號S7所操控(其係指示控制值的序列,如此亦被稱作控制值序列S7)。圖3之元件130、131、132、134、及135與圖1之同一編號的元件完全相同(功能上也完全相同),及將不在重複上面它們的說明。
圖3之處理可被視作分支處理。遵循圖3所示之訊號路徑,用於非語音頻道102之組302所產生的N子訊號各藉由音量降低放大器117係由一組N增益值的一構件來決定比例,及用於非語音頻道103之組303所產生的N子訊號各藉由音量降低放大器116係由一組N增益值的一構件來決定比例。稍後將說明這些增益值的衍生。接著,定比的子訊號被重組成單一音訊訊號。可透過簡單加總來進行(藉由用於頻道102的加總電路313以及藉由用於頻道103的加總電路314)。另一選擇是,可使用與分析過濾器組匹配之綜合過濾器組。此處理的結果是,修改的非語音訊號R’(118)和修改的非語音訊號L’(119)。
現在說明圖3之處理的分支路徑,使各過濾器組輸出可用於對應的一組N功率估算器(304、305、及306)。用於頻道101及103的最後功率譜充作到具有N尺寸增益向量C6作為輸出之最佳化電路307的輸入。用於頻道101及102的最後功率譜充作到具有N尺寸增益向量C5作為輸出之最佳化電路308的輸入。最佳化利用可理解性預測電路(309及310)二者及響度計算電路(311及312)來找出最大化增益向量,其在維持頻道101中的語音訊號之預測可理解性的預定位準同時又最大化各非語音頻道的響度。已參考圖2討論預測可理解性的適當模型。響度計算電路311及312可根據設計選擇和權衡來實施適當的響度預測模型。適當模型的例子為美國國家標準ANSI S3.4-2007"用於計算平穩聲音的響度之程序"及德國標準DIN 45631"Berechnung des lautstrkepegels und der lautheit aus dem Geruschspektrum"。
依據可取得的計算資源和所加諸的限制,最佳化電路(307、308)的形式和複雜性變化非常大。根據一實施例,使用N個自由參數的反覆相、多尺寸受限最佳化。各參數表示施加到非語音頻道之頻帶的其中之一的增益。諸如下面N尺寸搜尋空間中的最陡峭梯度等標準技術可被應用來找出最大值。在另一實施例中,計算的最小需求途徑限制增益vs頻率函數成為小組可能增益的構件vs頻率函數,諸如一組不同的光譜梯度或擱置過濾器等。利用此額外的限制,最佳化問題可被降至少量的一尺寸最佳化。在另一實施例中,在一組非常小的可能增益函數上進行徹底搜尋。此後一途徑在希望立即計算負載及搜尋速度之即時應用中特別理想。
精於本技藝之人士將容易知道,根據本發明的其他實施例可加諸在最佳化上之其他限制。一例子為限制修改的非語音頻道之響度到不大於修改前的響度。另一例子為將限制加諸在鄰接頻帶之間的增益差上,以便限制在重建過濾器組(313、314)中的時間混疊之可能,或者減少用於討厭的音色修改之可能。理想的限制依據過濾器組的技術實施和可理解性提高和音色修改之間的選擇權衡二者。為了圖解清楚,從圖3省略這些限制。
藉由(在元件115’中)將將向量C6的各原始增益控制值乘以訊號s2之定比的平均差值之對應者,可執行根據本發明之決定N尺寸原始音量降低增益控制向量C6比例,以回應音量降低增益控制訊號S2,以產生N尺寸音量降低增益控制向量S8。藉由(在元件114’中)將向量C5的各個原始增益控制值乘以訊號S1之定比的平均差值之對應者,可執行根據本發明之決定N尺寸原始音量降低增益控制向量C5比例,以回應音量降低增益控制訊號S1,以產生N尺寸原始音量降低增益控制向量S7。
可藉由已被程式化來實施圖3系統之所說明的操作之處理器(如、圖5之處理器501),以軟體實施圖3系統。另一選擇是,可以如圖3所示一般連接之電路元件,在硬體中實施。
在圖3實施例之變形中,可以非線性方式執行根據本發明之決定原始音量降低增益向量C5比例,以回應音量降低增益控制訊號S1(以產生用以操控放大器116之音量降低增益控制向量)。例如,當訊號S1的目前值在臨界以下時,此種非線性決定比例可藉由放大器116產生不產生音量降低之音量降低增益控制向量(取代向量S7)(即、由放大器116應用一增益,如此未衰減頻道103),及當訊號S1的目前值超過臨界時,使音量降低增益控制向量(取代訊向量S7)的目前值等於向量C5的目前值(使得訊號S1不修改C5的目前值)。另一選擇是,其他線性或非線性決定向量C5比例(以回應本發明音量降低增益控制訊號S1)可被執行,以產生用以操控放大器116之音量降低增益控制向量。例如,當訊號S1的目前值在臨界以下時,此種決定向量C5比例可藉由放大器116產生不產生音量降低之音量降低增益控制向量(取代向量S7)(即、由放大器116應用一增益),及當訊號S1的目前值超過臨界時,使音量降低增益控制訊號(取代向量s7)的目前值能夠等於乘以訊號S1的目前值之向量C5的目前值(或者從此乘積所決定之一些其他值)。
同樣地,在圖3實施例之變形中,可以非線性方式執行根據本發明之決定原始音量降低增益控制向量C6比例,以回應音量降低增益控制訊號S2(以產生用以操控放大器117之音量降低增益控制向量)。例如,當訊號S2的目前值在臨界以下時,此種非線性決定比例可藉由放大器117產生不產生音量降低之音量降低增益控制向量(取代向量S8)(即、由放大器117應用一增益,如此未衰減頻道102),及當訊號S2的目前值超過臨界時,使音量降低增益控制向量(取代向量S8)的目前值等於向量C6的目前值(使得訊號S2不修改C4的目前值)。另一選擇是,其他線性或非線性決定向量C6比例(以回應本發明音量降低增益控制訊號S2)可被執行,以產生用以操控放大器117之音量降低增益控制向量。例如,當訊號S2的目前值在臨界以下時,此種決定向量C6比例可藉由放大器117產生不產生音量降低之音量降低增益控制向量(取代向量S8)(即、由放大器117應用一增益),及當訊號S2的目前值超過臨界時,使音量降低增益控制向量(取代向量S8)的目前值能夠等於乘以訊號S2的目前值之向量C6的目前值(或者從此乘積所決定之一些其他值)。
精於本技藝之人士從此揭示應明白,圖1、1A、2、2A、或3系統(及他們的任一者之變形)如何被修改,以過濾具有語音頻道和非語音頻道的任一數目之多頻道音訊輸入訊號。音量降低放大器(或等同其之軟體)將被設置給各非語音頻道,及將產生音量降低增益控制訊號(如、藉由決定原始音量降低增益控制訊號比例),用以操控各音量降低放大器(或等同其之軟體)。
如上述,圖1、1A、2、2A、或3系統(及其上的許多變形之任一個)可操作,以執行本發明方法的實施例,用以過濾具有語音頻道和至少一非語音頻道的多頻道音訊訊號,以提高由訊號所決定之語音的可理解性。在此種實施例的第一類別中,方法包括以下步驟:
(a)決定至少一衰減控制值(如、圖1、2、或3的訊號S1或S2,或者圖1A或2A的訊號V1、V2、或V3),其指示由語音頻道所決定之語音相關內容和由多頻道音訊訊號的至少一非語音頻道所決定之語音相關內容之間的類似性測量;以及
(b)衰減音訊訊號的至少一非語音頻道,以回應至少一衰減控制值(如、在圖1、1A、2、2A、或3的元件114和放大器116,或者元件115和放大器117中)。
典型上,衰減步驟包含決定用於非語音頻道的原始衰減控制訊號比例(如、圖1或1A的音量降低增益控制訊號C1或C2,或者圖2或2A的訊號C3或C4),以回應至少一衰減控制值。較佳的是,非語音頻道被衰減,以便提高由語音頻道所決定之語音的可理解性,卻不會不當衰減由非語音頻道所決定之語音增強內容。在第一類別的一些實施例中,步驟(a)包括以下步驟:產生指示衰減控制值的序列之衰減控制訊號(如、圖1、2、或3的訊號S1或S2,或者圖1A或2A的訊號V1、V2、或V3),衰減控制值的每一個指示由語音頻道所決定之語音相關內容和由多頻道音訊訊號的至少一非語音頻道所決定之語音相關內容之間在不同時間(如、以不同時間間隔)的類似性測量,及步驟(b)包括以下步驟:決定音量降低增益控制訊號比例(如、圖1或1A的訊號C1或C2,或者圖2或2A的訊號C3或C4),以回應衰減控制訊號,而產生定比的增益控制訊號;以及應用定比的增益控制訊號,以衰減非語音頻道(如、圖1、1A、2、或2A之確立定比的增益控制訊號到音量電路116或117,以由音量降低電路來控制至少一非語音頻道的衰減)。例如,在一些此種實施例中,步驟(a)包括以下步驟:比較指示由語音頻道所決定之語音相關內容的第一語音相關特徵序列(如、圖1或2的訊號Q)與指示由非語音頻道所決定之語音相關內容的第二語音相關特徵序列(如、圖1或2的訊號P),以產生衰減控制訊號,及由衰減控制訊號所指示之衰減控制值的每一個係指示第一語音相關特徵序列和第二語音相關特徵序列之間在不同時間(如、以不同時間間隔)的類似性測量。在一些實施例中,各衰減控制值為增益控制值。
在第一類別的一些實施例中,各衰減控制值係單調相關於非語音頻道係指示增強由語音頻道所決定之語音內容的可理解性(或知覺品質)之語音增強內容的可能性。在第一類別的一些實施例中,各衰減控制值係單調相關於非語音頻道的預期語音增強值(如、非語音頻道係指示乘以非語音頻道中語音增強內容的知覺品質增強之測量的語音增強內容之可能性測量提供給多頻道訊號所決定之語音內容)。例如,其中步驟(a)包括以下步驟:比較(如、在圖1或圖2元件134或135中),指示由語音頻道所決定之語音相關內容的第一語音相關特徵序列與指示由非語音頻道所決定之語音相關內容的第二語音相關特徵序列,第一語音相關特徵序列可以是語音可能性值的序列,其每一個表示語音頻道係指示語音之不同時間的可能性(如、以不同時間間隔),及第二語音相關特徵序列亦可以是語音可能性值的序列,其每一個表示至少一非語音頻道係指示語音之不同時間的可能性(如、以不同時間間隔)。
如上述,圖1、1A、2、2A、或3系統(及其上的許多變形之任一個)亦可操作,以執行本發明方法的實施例之第二類別,用以過濾具有語音頻道和至少一非語音頻道的多頻道音訊訊號,以提高由訊號所決定之語音的可理解性。在實施例的第二類別中,方法包括以下步驟:
(a)比較語音頻道的特性與非語音頻道的特性,以產生至少一衰減值(如、由圖1的訊號C1或C2,或者藉由圖2的訊號C3或C4,或者藉由圖3的訊號C5或C6所決定之值),用以控制與語音頻道相關之非語音頻道的衰減;以及
(b)調整至少一衰減值,以回應至少一語音增強可能性值(如、圖1、2、或3的訊號S1或S2),以產生至少一已調整的衰減值(如、由圖1的訊號S3或S4,或者藉由圖2的訊號S5或S6,或者藉由圖3的訊號S7或S8所決定之值),來控制與語音頻道相關之非語音頻道的衰減。典型上,調整步驟為(或包括)決定各該衰減值的比例(如、在圖1、2、或3的元件114或115中),以回應一該語音增強可能性值,而產生一該已調整的衰減值。典型上,各語音增強可能性值係指示(如、單調相關於)非語音頻道係指示語音增強內容(增強由語音頻道所決定之語音內容的可理解性或其他知覺品質之內容)的可能性。在一些實施例中,語音增強可能性值係指示非語音頻道的預期語音增強值(如、非語音頻道係指示乘以非語音頻道中語音增強內容的知覺品質增強之測量的語音增強內容之可能性測量提供給多頻道訊號所決定之語音內容)。在第二類別的一些實施例中,語音增強可能性值為比較由方法所決定之值(如、不同值)的序列,方法包括以下步驟:比較指示由語音頻道所決定之語音相關內容的第一語音相關特徵序列與指示由非語音頻道所決定之語音相關內容的第二語音相關特徵序列,及比較值的每一個為第一語音相關特徵序列和第二語音相關特徵序列之間在不同時間的類似性測量(如、以不同時間間隔)。在第二類別的典型實施例中,方法亦包括以下步驟:衰減非語音頻道(如、在圖1、2、或3的放大器116或117中),以回應至少一已調整的衰減值。步驟(b)可包含決定至少一衰減值比例(如、由圖1的訊號C1或C2所決定之各衰減值,或者由音量增益控制訊號或其他原始衰減控制訊號所決定之另一衰減值),以回應至少一語音增強可能性值(如、由圖1的訊號S1或S2所決定之對應值)。
在圖1系統執行第二類別的實施例之操作中,由訊號C1或C2所決定之各衰減值為第一因子,其指示限制非語音頻道中之訊號功率對語音頻道中的訊號功率的比率不超過預定臨界所需之非語音頻道的衰減量,第一因子係由單調相關於指示語音之語音頻道的可能性之第二因子來決定比例。典型上,這些實施例中的調整步驟為(或包括)藉由一語音增強可能性值(由訊號S1或S2所決定)來決定各該衰減值C1或C2比例,以產生一已調整的衰減值(由訊號S3或S4所決定),其中語音增強可能性值係單調相關於以下的其中之一:非語音頻道係指示語音增強內容(增強由語音頻道所決定之語音內容的可理解性或其他知覺品質)之可能性;以及非語音頻道的預期語音增強值(如、非語音頻道係指示乘以非語音頻道中語音增強內容的知覺品質增強之測量的語音增強內容之可能性測量提供給多頻道訊號所決定之語音內容)。
在圖2系統執行第二類別的實施例之操作中,由訊號C3或C4所決定之各衰減值為第一因子,其指示足夠使存在於由非語音頻道所決定之內容中的語音頻道所決定之語音的預知可理解性能夠超過預定臨界值之非語音頻道的衰減量(如、最小量),第一因子係由單調相關於指示語音之語音頻道的可能性之第二因子來決定比例。較佳的是,存在於由非語音頻道所決定之內容中的語音頻道所決定之語音的預知可理解性係根據心理聽覺為基的可理解性預知模型所決定。典型上,這些實施例中的調整步驟(或包括)藉由一該語音增強可能性值(由訊號S1或S2所決定)來決定各該衰減值比例,以產生一該已調整的衰減值(由訊號S5或S6所決定),其中語音增強可能性值係單調相關於以下的其中之一:非語音頻道係指示語音增強內容之可能性;以及非語音頻道的預期語音增強值。
在圖3系統執行第二類別的實施例之操作中,由訊號C1或C2所決定之各衰減值係由以下步驟所決定,包括決定(在元件301、302、或303中)語音頻道101和非語音頻道102及103的每一個之功率譜(指示功率為頻率的函數);以及執行衰減值的頻域決定,藉以決定欲待應用到非語音頻道的頻率成分之頻率的函數。
在實施例的類別中,本發明為用以增強由多頻道音訊輸入訊號所決定之語音的方法及系統。在一些此種實施例中,本發明系統包括分析模組或子系統(如、圖1的元件130-135、104-109、114、及115,或者圖2的元件130-135、201-204、114、及115)可被組構,以分析輸入多頻道訊號而產生衰減控制值;以及衰減子系統(如、圖1或圖2的放大器116及117)。衰減子系統包括音量降低電路(由衰減控制值的至少一些所操控),其被耦合及被組構,以應用衰減(音量降低)到輸入訊號的各非語音頻道,而產生已過濾的音訊輸出訊號。音量降低電路係在應用到非語音頻道的衰減係由控制值的目前值來決定之觀念下由控制值來操控。
在一些實施例中,語音頻道(如、中心頻道)功率對非語音頻道(如、側頻道及/或後頻道)功率之比率被用來決定應施加多少音量降低(衰減)到各非語音頻道。例如,在圖1實施例中,假設非語音頻道包括增強由語音頻道所決定之語音內容的語音增強內容之可能性(如在分析模組中所決定一般)沒有變化,則由音量降低放大器116及117的每一個所應用之增益被減少,以回應增益控制值的降低(輸出自元件114或元件115),增益控制值係指示相對於在分析模組中所決定之非語音頻道(左頻道102或右頻道103)的功率之語音頻道101的降低功率(在限制內)(即、當語音頻道功率相對於非語音頻道的功率而降低(在限制內)時,音量放大器相對於語音頻道,更加衰減非語音頻道)。
在一些其他實施例中,圖1或圖2的分析模組之修改版本個別處理輸入訊號的各頻道之一或多個頻率子頻帶的每一個。尤其是,可經由帶通過濾器組傳遞各頻道中的訊號,產生三組n子頻帶:{L1 、L2 、...、Ln }、{C1 、C2 、...、Cn }、及{R1 、R2 、...、Rn }。匹配的子頻帶被傳遞到圖1(或圖2)的分析模組之n實例,及由加總電路重組已過濾的子訊號(用於非語音頻道的音量降低放大器之輸出,及未過濾語音頻道子訊號),以產生已過濾的多頻道音訊輸出訊號。為了在各子頻帶上執行由圖1的元件109所執行之操作,可為各子頻帶選擇分開的臨界值(對應於元件109的臨界值)。好的選擇是一集合,其中與對應的頻率區所帶有之語音線索的平均數成比例;即、在頻譜盡頭中之頻帶被分配比對應於占優勢的語音頻率之頻帶低的臨界。本發明的此實施可在計算複雜性和性能之間提供非常好的權衡。
圖4為被組構以執行本發明方法的實施例之系統420(可組構的音訊DSP)的方塊圖。系統420包括可程式化DSP電路422(系統420的主動語音增強模組),其被耦合以接收多頻道音訊輸入訊號。例如,訊號的非語音頻道Lin及Rin可對應於參考圖1、1A、2、2A、及3所說明之輸入訊號的頻道102及103,設計亦可包括額外的非語音頻道(如、左後和右後頻道),及訊號的語音頻道Cin可對應於參考圖1、1A、2、2A、及3所說明之輸入訊號的頻道101。電路422被組構,以回應來自控制介面421的控制資料,以執行本發明方法的實施例,而產生語音增強的多頻道輸出音訊訊號以回應音訊輸入訊號。為了程式化系統420,從外部處理器到控制介面421確立適當軟體,及介面421確立回應到電路422的適當控制資料,以組構電路422來執行本發明方法。
在操作中,已被組構以根據本發明來執行語音增強之音訊DSP(如、圖4的系統420)被耦合以接收N頻道音訊輸入訊號,及DSP典型上在輸入音訊上(或其已處理的板本)執行(和)除了語音增強之外的各種操作。例如,圖4的系統420可被實施,以在處理子系統423中執行其他操作(在電路422的輸出上)。根據本發明的各種實施例,音訊DSP可操作,以在被組構(如、程式化)之後執行本發明方法的實施例,而藉由在輸入音訊訊號上執行方法來產生輸出音訊訊號,以回應輸入音訊訊號。
在一些實施例中,本發明系統為或包括萬用型處理器,其被耦合以接收或產生指示多頻道音訊訊號之輸入資料。處理器係以軟體(或韌體)加以程式化及/或另被組構(如、回應於控制資料),以在輸入資料上執行各種操作的任一者,包括本發明方法的實施例。圖5的電腦系統為此種系統的例子。圖5系統包括萬用型處理器501,其被程式化,以在輸入資料上執行各種操作的任一者,包括本發明方法的實施例。
圖5的電腦系統亦包括耦合至處理器501之輸入裝置503(如、滑鼠及/或鍵盤)、耦合至處理器501之儲存媒體504、及耦合至處理器501之顯示裝置505。處理器501被程式化,以實施本發明方法,來回應由輸入裝置503的使用者操縱所輸入之指令和資料。電腦可讀取儲存媒體504(如、光碟或其他有實體的物體)具有儲存在其上之電腦碼,其適用於程式化處理器501以執行本發明方法的實施例。在操作中,處理器501執行電腦碼,以根據本發明來處理指示多頻道音訊輸入訊號之資料,而產生指示多頻道音訊輸出訊號之輸出資料。
上述圖1、1A、2、2A、或3的系統可被實施在萬用型處理器501中,具有輸入訊號頻道101、102、及103為指示中心(語音)及左和右(非語音)音訊輸入頻道之資料(如、環繞聲音訊號的),以及輸出訊號頻道118及119為指示語音強化左和右音訊輸出頻道的輸出資料(如、語音增強的環繞聲音訊號的)。習知數位對類比轉換器(DAC)可在輸出資料上操作,以由實體揚聲器產生用於再生之輸出音訊頻道訊號的類比版本。
本發明的觀點為電腦系統,其被程式化以執行本發明方法的任一實施例,及電腦可讀取媒體,其儲存電腦可讀取碼,用以實施本發明方法的任一實施例。
儘管此處已說明本發明的特有實施例和本發明的應用,但是精於本技藝之人士應明白,在不違背此處所說明和所申請的範圍之下,在此處所說明的實施例和應用上可有許多變化。應明白的是,儘管已圖示和說明本發明的某些形式,但是本發明並不侷限於所說明和所圖示之特有實施例或所說明之特有方法。
101...語音頻道
102...非語音頻道
103...非語音頻道
104...功率估算器
105...功率估算器
106...功率估算器
107...減法元件
108...減法元件
109...比較電路
110...元件
111...限制器
111-1...元件
112...限制器
112-1...元件
114...乘法元件
114’...乘法元件
115...乘法元件
115’...乘法元件
116...音量降低放大器
117...音量降低放大器
118...已過濾的非語音頻道
119...已過濾的非語音頻道
120...加法元件
121...加法元件
129...加法元件
130...語音可能性處理元件
131...語音可能性處理元件
132...語音可能性處理元件
134...處理元件
135...處理元件
204...比較電路
205...可理解性預測電路
206...可理解性預測電路
207...比較電路
208...比較電路
209...電路
210...電路
211...電路
212...電路
214...乘法器
215...乘法器
301...過濾器組
302...過濾器組
303...過濾器組
304...功率估算器
305...功率估算器
306...功率估算器
307...最佳化電路
308...最佳化電路
309...可理解性預測電路
310...可理解性預測電路
311...響度計算電路
312...響度計算電路
313...加總電路
314...加總電路
420...系統
421...控制介面
422...電路
423...處理子系統
501...處理器
503...輸入裝置
504...儲存媒體
505...顯示裝置
S1...衰減控制值
S2...衰減控制值
S3...增益控制訊號
S4...增益控制訊號
S5...增益控制訊號
S6...增益控制訊號
S7...控制訊號
S8...控制訊號
C1...原始衰減控制訊號
C2...原始衰減控制訊號
C3...輸出
C4...輸出
C5...N尺寸增益向量
C6...N尺寸增益向量
V1...控制訊號
V2...控制訊號
V3...控制值
圖1A為本發明系統的實施例之方塊圖。
圖1B為本發明系統的另一實施例之方塊圖。
圖2A為本發明系統的另一實施例之方塊圖。
圖2B為本發明系統的另一實施例之方塊圖。
圖3為本發明系統的另一實施例之方塊圖。
圖4為本發明系統的實施例之音訊數位訊號處理器(DSP)的方塊圖。
圖5為包括儲存用以程式化系統以能夠執行本發明方法的實施例之電腦碼的電腦可讀取儲存媒體504之電腦系統的方塊圖。
101...語音頻道
102...非語音頻道
103...非語音頻道
104...功率估算器
105...功率估算器
106...功率估算器
107...減法元件
108...減法元件
109...比較電路
110...元件
111...限制器
111-1...元件
112...限制器
112-1...元件
114...乘法元件
115...乘法元件
116...音量降低放大器
117...音量降低放大器
118...已過濾的非語音頻道
119...已過濾的非語音頻道
120...加法元件
121...加法元件
125...第一實施例
130...語音可能性處理元件
131...語音可能性處理元件
132...語音可能性處理元件
134...處理元件
135...處理元件
214...乘法器
215...放大器
S1...衰減控制值
S2...衰減控制值
S3...增益控制訊號
S4...增益控制訊號

Claims (61)

  1. 一種過濾具有語音頻道和至少一非語音頻道的多頻道音訊訊號之方法,以提高由該訊號所決定之語音的可理解性,該方法包括以下步驟:(a)決定至少一衰減控制值,其指示由該語音頻道所決定之語音相關內容和由該多頻道音訊訊號的至少一非語音頻道所決定之語音相關內容之間的類似性測量;以及(b)衰減該多頻道音訊訊號的至少一非語音頻道,以回應該至少一衰減控制值。
  2. 根據申請專利範圍第1項之方法,其中,步驟(a)所決定之各衰減控制值係指示由該語音頻道所決定之語音相關內容和由該音訊訊號的一非語音頻道所決定之語音相關內容之間的類似性測量,及步驟(b)包括衰減該非語音頻道以回應該各衰減控制值之步驟。
  3. 根據申請專利範圍第1項之方法,其中,步驟(a)包括從該音訊訊號的至少一非語音頻道衍生出衍生的非語音頻道之步驟,及該至少一衰減控制值係指示由該語音頻道所決定之語音相關內容和由該衍生的非語音頻道所決定之語音相關內容之間的類似性測量。
  4. 根據申請專利範圍第3項之方法,其中,該衍生的非語音頻道係藉由組合該多頻道音訊訊號的第一非語音頻道和該多頻道音訊訊號的第二非語音頻道所衍生。
  5. 根據申請專利範圍第3項之方法,其中,該多頻道音訊訊號具有至少兩非語音頻道,及步驟(b)包括衰減 該非語音頻道的一些但非全部以回應該至少一衰減控制值之該步驟。
  6. 根據申請專利範圍第3項之方法,其中,該多頻道音訊訊號具有至少兩非語音頻道,及步驟(b)包括衰減該非語音頻道的全部以回應該至少一衰減控制值之該步驟。
  7. 根據申請專利範圍第1項之方法,其中,步驟(b)包含決定用於該非語音頻道的原始衰減控制訊號比例,以回應該至少一衰減控制值。
  8. 根據申請專利範圍第1項之方法,其中,步驟(a)包括產生指示衰減控制值的序列之衰減控制訊號的該步驟,該等衰減控制值的每一個指示由該語音頻道所決定之語音相關內容和由該多頻道音訊訊號的該至少一非語音頻道所決定之語音相關內容之間在不同時間的類似性測量,及步驟(b)包括以下步驟:決定音量降低(ducking)增益控制訊號比例,以回應該衰減控制訊號,而產生定比的增益控制訊號;以及應用該定比的增益控制訊號,以衰減該多頻道音訊訊號的至少一非語音頻道。
  9. 根據申請專利範圍第8項之方法,其中,步驟(a)包括比較指示由該語音頻道所決定之該語音相關內容的第一語音相關特徵序列與指示由該多頻道音訊訊號的該至少一非語音頻道所決定之該語音相關內容的第二語音相關特徵序列,以產生該衰減控制訊號之步驟,及由該衰 減控制訊號所指示之該等衰減控制值的每一個係指示該第一語音相關特徵序列和該第二語音相關特徵序列之間在不同時間的類似性測量。
  10. 根據申請專利範圍第1項之方法,其中,各該衰減控制值係單調相關於該多頻道音訊訊號的該至少一非語音頻道係指示由該語音頻道所決定之增強語音內容的知覺品質之語音增強內容的可能性。
  11. 根據申請專利範圍第9項之方法,其中,該第一語音相關特徵序列為語音可能性值的序列,該等語音可能性值的每一個指示該語音頻道係指示語音之不同時間的可能性,及該第二語音相關特徵序列為語音可能性值的另一序列,該等語音可能性值的每一個指示該非語音頻道係指示語音之不同時間的可能性。
  12. 根據申請專利範圍第8項之方法,其中,該等衰減控制值的每一個為增益控制值。
  13. 一種過濾具有語音頻道和至少兩非語音頻道的多頻道音訊訊號之方法,該方法包括以下步驟:(a)決定至少一第一衰減控制值,其指示由該語音頻道所決定之語音相關內容和由第一非語音頻道所決定之第二語音相關內容之間的類似性測量;以及(b)決定至少一第二衰減控制值,其指示由該語音頻道所決定之語音相關內容和由第二非語音頻道所決定之第三語音相關內容之間的類似性測量。
  14. 根據申請專利範圍第13項之方法,其中,步驟 (a)包括比較指示由該語音頻道所決定之語音相關內容的第一語音相關特徵序列與指示該第二語音相關內容之第二語音相關特徵序列的步驟,及步驟(b)包括比較該第一語音相關特徵序列與指示該第三語音相關內容的第三語音相關特徵序列之步驟。
  15. 根據申請專利範圍第13項之方法,亦包括以下步驟:(c)衰減該第一非語音頻道,以回應該至少一第一衰減控制值;以及(d)衰減該第二非語音頻道,以回應該至少一第二衰減控制值。
  16. 根據申請專利範圍第15項之方法,其中,步驟(c)包括決定該第一非語音頻道的衰減比例,以回應該第一衰減控制值之步驟,及步驟(d)包括決定該第二非語音頻道的衰減比例,以回應該第二衰減控制值之步驟。
  17. 根據申請專利範圍第13項之方法,其中,步驟(a)所決定之該至少一第一衰減控制值為衰減控制值的序列,及該等衰減控制值的每一個為用以決定應用到該第一非語音頻道的音量降低增益量比例之增益控制值,以便提高由該語音頻道所決定之語音的可理解性,卻不會不當衰減由該第一非語音頻道所決定之增強語音內容的知覺品質之語音增強內容,以及步驟(b)所決定之該至少一第二衰減控制值為第二衰減控制值的序列,及該等第二衰減控制值的每一個為用 以決定應用到該第二非語音頻道的音量降低增益量比例之增益控制值,以便提高由該語音頻道所決定之語音的可理解性,卻不會不當衰減由該第二非語音頻道所決定之增強語音內容的知覺品質之語音增強內容。
  18. 一種過濾具有語音頻道和至少一非語音頻道的多頻道音訊訊號之方法,以提高由該訊號所決定之語音的可理解性,該方法包括以下步驟:(a)比較該語音頻道的特性與該非語音頻道的特性,而產生至少一衰減值,以控制與該語音頻道相關之該非語音頻道的衰減;以及(b)調整該至少一衰減值,以回應至少一語音增強可能性值,而產生至少一已調整的衰減值,來控制與該語音頻道相關之該非語音頻道的衰減。
  19. 根據申請專利範圍第18項之方法,其中,步驟(b)包括決定各該衰減值比例,以回應一該語音增強可能性值,而產生一該已調整的衰減值。
  20. 根據申請專利範圍第18項之方法,其中,各該語音增強可能性值係單調相關於該非語音頻道係指示由該語音頻道所決定之增強語音內容的知覺品質之語音增強內容的可能性。
  21. 根據申請專利範圍第18項之方法,其中,該至少一語音增強可能性值為比較值的序列,及該方法包括以下步驟:藉由比較指示由該語音頻道所決定之語音相關內容的 第一語音相關特徵序列與指示由該非語音頻道所決定之語音相關內容的第二語音相關特徵序列,而決定該比較值的序列,其中,該等比較值的每一個為該第一語音相關特徵序列和該第二語音相關特徵序列之間在不同時間的類似性測量。
  22. 根據申請專利範圍第18項之方法,亦包括以下步驟:(c)衰減該非語音頻道,以回應該至少一已調整的衰減值。
  23. 根據申請專利範圍第18項之方法,其中,步驟(b)包括決定各該衰減值比例,以回應一該語音增強可能性值,而產生一該已調整的衰減值。
  24. 根據申請專利範圍第18項之方法,其中,步驟(a)所產生之各該衰減值為第一因子,其指示限制該非語音頻道中之訊號功率對該語音頻道中之訊號功率的比率不超過預定臨界所需之該非語音頻道的衰減量,該第一因子係由單調相關於指示語音之該語音頻道的該可能性之第二因子來決定比例。
  25. 根據申請專利範圍第18項之方法,其中,步驟(a)所產生之各該衰減值為第一因子,其指示足夠使存在於由該非語音頻道所決定之內容中的該語音頻道所決定之語音的預測之可理解性超過預定臨界值之該非語音頻道的衰減量,該第一因子係由單調相關於指示語音之該語音頻道的該可能性之第二因子來決定比例。
  26. 根據申請專利範圍第18項之方法,其中,步驟(a)中產生各該衰減值包括以下步驟:決定功率譜和第二功率譜,該功率譜指示功率作為該語音頻道的頻率之函數,而該第二功率譜指示功率作為該非語音頻道的頻率之函數,以及執行該衰減值的頻域決定,以回應該功率譜和該第二功率譜。
  27. 一種增強語音之系統,該語音係藉由語音頻道和至少一非語音頻道之多頻道音訊輸入訊號所決定,該系統包括:分析子系統,被組構以分析該多頻道音訊輸入訊號,而產生衰減控制值,其中該等衰減控制值的每一個係指示由該語音頻道所決定之語音相關內容和由該輸入訊號的至少一非語音頻道所決定之語音相關內容之間的類似性測量;以及衰減子系統,被組構以應用由該等衰減控制值的至少一些所操控之音量降低衰減到各該非語音頻道,而產生過濾的音訊輸出訊號。
  28. 根據申請專利範圍第27項之系統,其中,該衰減子系統被組構,以決定用於至少一該非語音頻道的原始衰減控制訊號比例,來回應該等衰減控制值的至少一子集。
  29. 根據申請專利範圍第27項之系統,其中,該分析子系統被組構以產生衰減控制訊號,其指示用於至少一該非語音頻道之該等衰減控制值的序列,該序列中之該等衰 減控制值的每一個係指示由該語音頻道所決定之語音相關內容和由該非語音頻道所決定之語音相關內容之間在不同時間的類似性測量,及該衰減子系統被組構:以決定音量降低增益控制訊號比例,以回應該衰減控制訊號,而產生定比的增益控制訊號;以及以應用該定比的增益控制訊號,以衰減該非語音頻道。
  30. 根據申請專利範圍第29項之系統,其中,該分析子系統被組構,以比較指示由該語音頻道所決定之該語音相關內容的第一語音相關特徵序列與指示由該非語音頻道所決定之該語音相關內容的第二語音相關特徵序列,以產生該衰減控制訊號,及由該衰減控制訊號所指示之該等衰減控制值的每一個係指示該第一語音相關特徵序列和該第二語音相關特徵序列之間在不同時間的類似性測量。
  31. 根據申請專利範圍第30項之系統,其中,該第一語音相關特徵序列為語音可能性值的序列,該等語音可能性值的每一個指示該語音頻道係指示語音之不同時間的可能性,及該第二語音相關特徵序列為語音可能性值的另一序列,該等語音可能性值的每一個指示該非語音頻道係指示語音之不同時間的可能性。
  32. 根據申請專利範圍第27項之系統,其中,該系統包括處理器,其以分析軟體加以程式化,以分析該多頻道音訊輸入訊號,而產生該等衰減控制值。
  33. 根據申請專利範圍第32項之系統,其中,該處理 器係以衰減軟體加以程式化,以應用該音量降低衰減到各該非語音頻道,而產生該過濾的音訊輸出訊號。
  34. 根據申請專利範圍第27項之系統,其中,該系統包括處理器,其被組構以分析該多頻道音訊輸入訊號,而產生該等衰減控制值,和應用該音量降低衰減到各該非語音頻道,而產生該過濾的音訊輸出訊號。
  35. 根據申請專利範圍第27項之系統,其中,該系統為音訊數位訊號處理器,其已被組構以分析該多頻道音訊輸入訊號,而產生該等衰減控制值,和應用該音量降低衰減到各該非語音頻道,而產生該過濾的音訊輸出訊號。
  36. 根據申請專利範圍第27項之系統,其中,該系統包括第一電路,其被組構以實施該分析子系統;及另一電路,其被耦合至該第一電路和被組構以實施該衰減子系統。
  37. 根據申請專利範圍第27項之系統,其中,該系統為音訊數位訊號處理器,該音訊數位訊號處理器包括第一電路,其被組構以實施該分析子系統;及另一電路,其被耦合至該第一電路和被組構以實施該衰減子系統。
  38. 根據申請專利範圍第27項之系統,其中,該系統為資料處理系統,其被組構以實施該分析子系統和該衰減子系統。
  39. 一種增強語音之系統,該語音係藉由語音頻道和至少一非語音頻道之多頻道音訊輸入訊號所決定,該系統包括: 分析子系統,被組構以分析該多頻道音頻輸入訊號,而產生衰減控制值,其中該等衰減控制值的每一個係指示由該語音頻道所決定之語音相關內容和由該輸入訊號的至少一非語音頻道所決定之語音相關內容之間的類似性測量;以及衰減子系統,被組構以應用由該等衰減控制值的至少一些所操控之音量降低衰減到該輸入訊號的至少一非語音頻道,而產生過濾的音訊輸出訊號。
  40. 根據申請專利範圍第39項之系統,其中,該分析子系統被組構,以產生該等衰減控制值的每一個,用以指示由該語音頻道所決定之語音相關內容和由該音訊訊號的一非語音頻道所決定之語音相關內容之間的類似性測量;以及該衰減子系統被組構以應用該音量降低衰減到該一非語音頻道,來回應該等衰減控制值。
  41. 根據申請專利範圍第39項之系統,其中,該分析子系統被組構以從該音訊訊號的至少一非語音頻道衍生出衍生的非語音頻道,以及產生該等衰減控制值的至少一些的每一個,用以指示由該語音頻道所決定之語音相關內容和由該音訊訊號的該衍生的非語音頻道所決定之語音相關內容之間的類似性測量。
  42. 一種電腦可讀取媒體,其包括用以程式化處理器之碼,以處理指示具有語音頻道和至少一非語音頻道之多頻道音訊訊號的資料,以提高由該訊號所決定之語音的可理解性,包括: (a)決定至少一衰減控制值,其指示由該語音頻道所決定之語音相關內容和由該非語音頻道所決定之語音相關內容之間的類似性測量;以及(b)衰減該非語音頻道,以回應該至少一衰減控制值。
  43. 根據申請專利範圍第42項之電腦可讀取媒體,包括用以程式化該處理器之碼,以決定指示用於該非語音頻道的原始衰減控制訊號之資料比例,來回應該至少一衰減控制值。
  44. 根據申請專利範圍第42項之電腦可讀取媒體,包括用以程式化該處理器之碼:以產生指示衰減控制值的序列之資料,該等衰減控制值的每一個指示由該語音頻道所決定之語音相關內容和由該非語音頻道所決定之語音相關內容之間在不同時間的類似性測量;以及以決定指示音量降低增益控制訊號的資料比例,來回應該等序列衰減控制值,而產生指示定比的增益控制訊號之資料。
  45. 根據申請專利範圍第44項之電腦可讀取媒體,包括用以程式化該處理器之碼,以比較指示由該語音頻道所決定之該語音相關內容的第一語音相關特徵序列與指示由該非語音頻道所決定之該語音相關內容的第二語音相關特徵序列,而產生衰減控制值的序列,使得該等衰減控制值的每一個係指示該第一語音相關特徵序列和該第二語音相 關特徵序列之間在不同時間的類似性測量。
  46. 根據申請專利範圍第44項之電腦可讀取媒體,其中,該第一語音相關特徵序列為第一語音可能性值的序列,該第一語音可能性值的每一個指示該語音頻道係指示語音之不同時間的可能性,及該第二語音相關特徵序列為第二語音可能性值的序列,該第二語音可能性值的每一個指示該非語音頻道係指示語音之不同時間的可能性。
  47. 根據申請專利範圍第42項之電腦可讀取媒體,其中,各該衰減控制值係單調相關於該非語音頻道係指示由該語音頻道所決定之增強語音內容的知覺品質之語音增強內容的可能性。
  48. 一種電腦可讀取媒體,其包括用以程式化處理器之碼,以處理指示具有語音頻道和至少兩非語音頻道之多頻道音訊訊號的資料,包括:(a)決定至少一第一衰減控制值,其指示由該語音頻道所決定之語音相關內容和由第一非語音頻道所決定之第二語音相關內容之間的類似性測量;以及(b)決定至少一第二衰減控制值,其指示由該語音頻道所決定之語音相關內容和由第二非語音頻道所決定之第三語音相關內容之間的類似性測量。
  49. 根據申請專利範圍第48項之電腦可讀取媒體,包括用以程式化該處理器之碼,以比較指示由該語音頻道所決定之語音相關內容的第一語音相關特徵序列與指示該第二語音相關內容之第二語音相關特徵序列,以及比較該第 一語音相關特徵序列與指示該第三語音相關內容的第三語音相關特徵序列。
  50. 根據申請專利範圍第48項之電腦可讀取媒體,包括用以程式化該處理器之碼,以衰減該至少一第一非語音頻道,來回應該第一衰減控制值,以及衰減該第二非語音頻道,來回應該至少一第二衰減控制值。
  51. 根據申請專利範圍第48項之電腦可讀取媒體,其中,該至少一第一衰減控制值為衰減控制值的序列,及該媒體包括用以程式化該處理器之碼,以回應該衰減控制值的序列而決定應用到該第一非語音頻道的音量降低增益量比例,以便提高由該語音頻道所決定之語音的可理解性,卻不會不當衰減由該第一非語音頻道所決定之語音增強內容。
  52. 一種電腦可讀取媒體,其包括用以程式化處理器之碼,以處理指示具有語音頻道和至少一非語音頻道之多頻道音訊訊號的資料,包括:(a)比較該語音頻道的特性與該非語音頻道的特性,而產生至少一衰減值,以控制與該語音頻道相關之該非語音頻道的衰減;以及(b)調整該至少一衰減值,以回應至少一語音增強可能性值,而產生至少一已調整的衰減值,來控制與該語音頻道相關之該非語音頻道的衰減。
  53. 根據申請專利範圍第52項之電腦可讀取媒體,包括用以程式化該處理器之碼,以決定各該衰減值比例,來 回應一該語音增強可能性值,而產生一該已調整的衰減值。
  54. 根據申請專利範圍第52項之電腦可讀取媒體,其中,各該語音可能性值係單調相關於該非語音頻道係指示由該語音頻道所決定之增強語音內容的知覺品質之語音增強內容的可能性。
  55. 根據申請專利範圍第52項之電腦可讀取媒體,其中,至少一語音增強可能性值為比較值的序列,及該媒體包括用以程式化該處理器之碼,以藉由比較指示由該語音頻道所決定之語音相關內容的第一語音相關特徵序列與指示由該非語音頻道所決定之語音相關內容的第二語音相關特徵序列,而決定該比較值的序列,其中,該等比較值的每一個為該第一語音相關特徵序列和該第二語音相關特徵序列之間在不同時間的類似性測量。
  56. 根據申請專利範圍第52項之電腦可讀取媒體,其中,各該衰減值為第一因子,其指示限制該非語音頻道中之訊號功率對該語音頻道中的訊號功率的比率不超過預定臨界所需之該非語音頻道的衰減量,該第一因子係由單調相關於指示語音之該語音頻道的該可能性之第二因子來決定比例。
  57. 根據申請專利範圍第52項之電腦可讀取媒體,其中,各該衰減值為第一因子,其指示足夠使存在於由該非語音頻道所決定之內容中的該語音頻道所決定之語音的預測之可理解性超過預定臨界值之該非語音頻道的衰減量, 該第一因子係由單調相關於指示語音之該語音頻道的該可能性之第二因子來決定比例。
  58. 根據申請專利範圍第52項之電腦可讀取媒體,包括用以程式化該處理器之碼,以決定功率譜和第二功率譜,該功率譜指示功率作為該語音頻道的頻率之函數,而該第二功率譜指示功率作為該非語音頻道的頻率之函數,以及決定頻域中的各該衰減值,以回應該功率譜和該第二功率譜。
  59. 一種電腦可讀取媒體,其包括用以程式化處理器之碼,以處理指示具有語音頻道和至少一非語音頻道之多頻道音訊訊號的資料,包括:決定至少一衰減控制值,其指示由該語音頻道所決定之語音相關內容和由該多頻道音訊的至少一非語音頻道所決定之語音相關內容之間的類似性測量;以及產生指示該多頻道音訊訊號的至少一已衰減非語音頻道之資料,以回應該至少一衰減控制值,其中各該已衰減非語音頻道已經過衰減,以回應該至少一衰減控制值。
  60. 根據申請專利範圍第59項之電腦可讀取媒體,其中,各該衰減控制值係指示由該語音頻道所決定之語音相關內容和由該音訊訊號的一非語音頻道所決定之語音相關內容之間的類似性測量。
  61. 根據申請專利範圍第59項之電腦可讀取媒體,包括用以程式化該處理器之碼,以處理指示該多頻道音訊訊號之該資料,包括: 產生指示來自該音訊訊號的至少一非語音頻道之衍生的非語音頻道之資料,以及決定該至少一衰減控制值,用以指示由該語音頻道所決定之語音相關內容和由該衍生的非語音頻道所決定之語音相關內容之間的類似性測量。
TW100105440A 2010-03-08 2011-02-18 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 TWI459828B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US31143710P 2010-03-08 2010-03-08

Publications (2)

Publication Number Publication Date
TW201215177A TW201215177A (en) 2012-04-01
TWI459828B true TWI459828B (zh) 2014-11-01

Family

ID=43919902

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100105440A TWI459828B (zh) 2010-03-08 2011-02-18 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統

Country Status (9)

Country Link
US (2) US9219973B2 (zh)
EP (1) EP2545552B1 (zh)
JP (1) JP5674827B2 (zh)
CN (2) CN102792374B (zh)
BR (2) BR122019024041B1 (zh)
ES (1) ES2709523T3 (zh)
RU (1) RU2520420C2 (zh)
TW (1) TWI459828B (zh)
WO (1) WO2011112382A1 (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2012351565B2 (en) * 2011-12-15 2015-09-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer programm for avoiding clipping artefacts
US9781529B2 (en) 2012-03-27 2017-10-03 Htc Corporation Electronic apparatus and method for activating specified function thereof
US9633667B2 (en) * 2012-04-05 2017-04-25 Nokia Technologies Oy Adaptive audio signal filtering
US9230556B2 (en) 2012-06-05 2016-01-05 Apple Inc. Voice instructions during navigation
US9886794B2 (en) 2012-06-05 2018-02-06 Apple Inc. Problem reporting in maps
US9516418B2 (en) 2013-01-29 2016-12-06 2236008 Ontario Inc. Sound field spatial stabilizer
EP2760021B1 (en) * 2013-01-29 2018-01-17 2236008 Ontario Inc. Sound field spatial stabilizer
CA2903900C (en) * 2013-03-05 2018-06-05 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for multichannel direct-ambient decomposition for audio signal processing
AU2014248232B2 (en) * 2013-04-05 2015-09-24 Dolby International Ab Companding apparatus and method to reduce quantization noise using advanced spectral extension
US9106196B2 (en) 2013-06-20 2015-08-11 2236008 Ontario Inc. Sound field spatial stabilizer with echo spectral coherence compensation
US9271100B2 (en) 2013-06-20 2016-02-23 2236008 Ontario Inc. Sound field spatial stabilizer with spectral coherence compensation
US9099973B2 (en) 2013-06-20 2015-08-04 2236008 Ontario Inc. Sound field spatial stabilizer with structured noise compensation
BR112016004299B1 (pt) 2013-08-28 2022-05-17 Dolby Laboratories Licensing Corporation Método, aparelho e meio de armazenamento legível por computador para melhora de fala codificada paramétrica e codificada com forma de onda híbrida
US20160345857A1 (en) * 2014-01-28 2016-12-01 St. Jude Medical, Cardiology Division, Inc. Elongate medical devices incorporating a flexible substrate, a sensor, and electrically-conductive traces
US9654076B2 (en) * 2014-03-25 2017-05-16 Apple Inc. Metadata for ducking control
US8874448B1 (en) * 2014-04-01 2014-10-28 Google Inc. Attention-based dynamic audio level adjustment
US9615170B2 (en) 2014-06-09 2017-04-04 Harman International Industries, Inc. Approach for partially preserving music in the presence of intelligible speech
AU2015326856B2 (en) * 2014-10-02 2021-04-08 Dolby International Ab Decoding method and decoder for dialog enhancement
BR112017003218B1 (pt) * 2014-12-12 2021-12-28 Huawei Technologies Co., Ltd. Aparelho de processamento de sinal para aprimorar um componente de voz dentro de um sinal de áudio multicanal
EP3251376B1 (en) 2015-01-22 2022-03-16 Eers Global Technologies Inc. Active hearing protection device and method therefore
US9747923B2 (en) * 2015-04-17 2017-08-29 Zvox Audio, LLC Voice audio rendering augmentation
US9947364B2 (en) 2015-09-16 2018-04-17 Google Llc Enhancing audio using multiple recording devices
JP6567479B2 (ja) * 2016-08-31 2019-08-28 株式会社東芝 信号処理装置、信号処理方法およびプログラム
EP3566229B1 (en) * 2017-01-23 2020-11-25 Huawei Technologies Co., Ltd. An apparatus and method for enhancing a wanted component in a signal
US10013995B1 (en) * 2017-05-10 2018-07-03 Cirrus Logic, Inc. Combined reference signal for acoustic echo cancellation
US11335357B2 (en) * 2018-08-14 2022-05-17 Bose Corporation Playback enhancement in audio systems
CN111354356B (zh) * 2018-12-24 2024-04-30 北京搜狗科技发展有限公司 一种语音数据处理方法及装置
US11335361B2 (en) * 2020-04-24 2022-05-17 Universal Electronics Inc. Method and apparatus for providing noise suppression to an intelligent personal assistant
JP2023530225A (ja) 2020-05-29 2023-07-14 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 初期オーディオ信号を処理するための方法および装置
CN115881146A (zh) * 2021-08-05 2023-03-31 哈曼国际工业有限公司 用于动态语音增强的方法及***
WO2023208342A1 (en) * 2022-04-27 2023-11-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for scaling of ducking gains for spatial, immersive, single- or multi-channel reproduction layouts

Family Cites Families (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5657422A (en) 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
US5666429A (en) * 1994-07-18 1997-09-09 Motorola, Inc. Energy estimator and method therefor
JPH08222979A (ja) 1995-02-13 1996-08-30 Sony Corp オーディオ信号処理装置、およびオーディオ信号処理方法、並びにテレビジョン受像機
US5920834A (en) * 1997-01-31 1999-07-06 Qualcomm Incorporated Echo canceller with talk state determination to control speech processor functional elements in a digital telephone system
US5983183A (en) * 1997-07-07 1999-11-09 General Data Comm, Inc. Audio automatic gain control system
US20020002455A1 (en) * 1998-01-09 2002-01-03 At&T Corporation Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system
US6226321B1 (en) * 1998-05-08 2001-05-01 The United States Of America As Represented By The Secretary Of The Air Force Multichannel parametric adaptive matched filter receiver
WO2000041169A1 (en) * 1999-01-07 2000-07-13 Tellabs Operations, Inc. Method and apparatus for adaptively suppressing noise
US6442278B1 (en) * 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
DE60028907T2 (de) * 1999-11-24 2007-02-15 Donnelly Corp., Holland Rückspiegel mit Nutzfunktion
WO2001041427A1 (en) * 1999-12-06 2001-06-07 Dmi Biosciences, Inc. Noise reducing/resolution enhancing signal processing method and system
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
JP2001268700A (ja) * 2000-03-17 2001-09-28 Fujitsu Ten Ltd 音響装置
US6766292B1 (en) * 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
US6523003B1 (en) * 2000-03-28 2003-02-18 Tellabs Operations, Inc. Spectrally interdependent gain adjustment techniques
US20040096065A1 (en) * 2000-05-26 2004-05-20 Vaudrey Michael A. Voice-to-remaining audio (VRA) interactive center channel downmix
US20070233479A1 (en) * 2002-05-30 2007-10-04 Burnett Gregory C Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
US20020159434A1 (en) * 2001-02-12 2002-10-31 Eleven Engineering Inc. Multipoint short range radio frequency system
US7013269B1 (en) * 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US20040148166A1 (en) * 2001-06-22 2004-07-29 Huimin Zheng Noise-stripping device
EP1430749A2 (en) * 2001-09-06 2004-06-23 Koninklijke Philips Electronics N.V. Audio reproducing device
JP2003084790A (ja) * 2001-09-17 2003-03-19 Matsushita Electric Ind Co Ltd 台詞成分強調装置
US8942387B2 (en) * 2002-02-05 2015-01-27 Mh Acoustics Llc Noise-reducing directional microphone array
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
JP3810004B2 (ja) 2002-03-15 2006-08-16 日本電信電話株式会社 ステレオ音響信号処理方法、ステレオ音響信号処理装置、ステレオ音響信号処理プログラム
DE60325595D1 (de) * 2002-07-01 2009-02-12 Koninkl Philips Electronics Nv Von der stationären spektralleistung abhängiges audioverbesserungssystem
EP1557827B8 (en) * 2002-10-31 2015-01-07 Fujitsu Limited Voice intensifier
US7305097B2 (en) * 2003-02-14 2007-12-04 Bose Corporation Controlling fading and surround signal level
US8271279B2 (en) * 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7127076B2 (en) * 2003-03-03 2006-10-24 Phonak Ag Method for manufacturing acoustical devices and for reducing especially wind disturbances
US8724822B2 (en) * 2003-05-09 2014-05-13 Nuance Communications, Inc. Noisy environment communication enhancement system
EP1509065B1 (en) * 2003-08-21 2006-04-26 Bernafon Ag Method for processing audio-signals
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
US8170879B2 (en) * 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US8306821B2 (en) * 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US7610196B2 (en) * 2004-10-26 2009-10-27 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US8543390B2 (en) * 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
KR100679044B1 (ko) * 2005-03-07 2007-02-06 삼성전자주식회사 사용자 적응형 음성 인식 방법 및 장치
US8280730B2 (en) * 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
JP4670483B2 (ja) * 2005-05-31 2011-04-13 日本電気株式会社 雑音抑圧の方法及び装置
US8233636B2 (en) * 2005-09-02 2012-07-31 Nec Corporation Method, apparatus, and computer program for suppressing noise
US20070053522A1 (en) * 2005-09-08 2007-03-08 Murray Daniel J Method and apparatus for directional enhancement of speech elements in noisy environments
JP4356670B2 (ja) * 2005-09-12 2009-11-04 ソニー株式会社 雑音低減装置及び雑音低減方法並びに雑音低減プログラムとその電子機器用収音装置
US7366658B2 (en) * 2005-12-09 2008-04-29 Texas Instruments Incorporated Noise pre-processor for enhanced variable rate speech codec
WO2007098258A1 (en) * 2006-02-24 2007-08-30 Neural Audio Corporation Audio codec conditioning system and method
JP4738213B2 (ja) * 2006-03-09 2011-08-03 富士通株式会社 利得調整方法及び利得調整装置
US7555075B2 (en) * 2006-04-07 2009-06-30 Freescale Semiconductor, Inc. Adjustable noise suppression system
US8238560B2 (en) * 2006-09-14 2012-08-07 Lg Electronics Inc. Dialogue enhancements techniques
US20080082320A1 (en) * 2006-09-29 2008-04-03 Nokia Corporation Apparatus, method and computer program product for advanced voice conversion
EP1918910B1 (en) * 2006-10-31 2009-03-11 Harman Becker Automotive Systems GmbH Model-based enhancement of speech signals
US8615393B2 (en) * 2006-11-15 2013-12-24 Microsoft Corporation Noise suppressor for speech recognition
WO2008073487A2 (en) * 2006-12-12 2008-06-19 Thx, Ltd. Dynamic surround channel volume control
JP2008148179A (ja) * 2006-12-13 2008-06-26 Fujitsu Ltd 音声信号処理装置および自動利得制御装置における雑音抑圧処理方法
JP5140684B2 (ja) * 2007-02-12 2013-02-06 ドルビー ラボラトリーズ ライセンシング コーポレイション 高齢又は聴覚障害聴取者のための非スピーチオーディオに対するスピーチオーディオの改善された比率
BRPI0807703B1 (pt) * 2007-02-26 2020-09-24 Dolby Laboratories Licensing Corporation Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador
JP2008216720A (ja) * 2007-03-06 2008-09-18 Nec Corp 信号処理の方法、装置、及びプログラム
US20090010453A1 (en) * 2007-07-02 2009-01-08 Motorola, Inc. Intelligent gradient noise reduction system
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
US8600516B2 (en) * 2007-07-17 2013-12-03 Advanced Bionics Ag Spectral contrast enhancement in a cochlear implant speech processor
DE102007048973B4 (de) 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US8326617B2 (en) * 2007-10-24 2012-12-04 Qnx Software Systems Limited Speech enhancement with minimum gating
US8296136B2 (en) * 2007-11-15 2012-10-23 Qnx Software Systems Limited Dynamic controller for improving speech intelligibility
KR101444100B1 (ko) * 2007-11-15 2014-09-26 삼성전자주식회사 혼합 사운드로부터 잡음을 제거하는 방법 및 장치
US8315398B2 (en) * 2007-12-21 2012-11-20 Dts Llc System for adjusting perceived loudness of audio signals
WO2009084916A1 (en) * 2008-01-01 2009-07-09 Lg Electronics Inc. A method and an apparatus for processing an audio signal
EP2232486B1 (en) * 2008-01-01 2013-07-17 LG Electronics Inc. A method and an apparatus for processing an audio signal
CN101971251B (zh) * 2008-03-14 2012-08-08 杜比实验室特许公司 像言语的信号和不像言语的信号的多模式编解码方法及装置
KR101238731B1 (ko) * 2008-04-18 2013-03-06 돌비 레버러토리즈 라이쎈싱 코오포레이션 서라운드 경험에 최소한의 영향을 미치는 멀티-채널 오디오에서 음성 가청도를 유지하는 방법과 장치
US9373339B2 (en) * 2008-05-12 2016-06-21 Broadcom Corporation Speech intelligibility enhancement system and method
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
US8983832B2 (en) 2008-07-03 2015-03-17 The Board Of Trustees Of The University Of Illinois Systems and methods for identifying speech sound features
US20100008520A1 (en) * 2008-07-09 2010-01-14 Yamaha Corporation Noise Suppression Estimation Device and Noise Suppression Device
EP2194526A1 (en) * 2008-12-05 2010-06-09 Lg Electronics Inc. A method and apparatus for processing an audio signal
US8185389B2 (en) * 2008-12-16 2012-05-22 Microsoft Corporation Noise suppressor for robust speech recognition
WO2010068997A1 (en) * 2008-12-19 2010-06-24 Cochlear Limited Music pre-processing for hearing prostheses
US8175888B2 (en) * 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8620008B2 (en) * 2009-01-20 2013-12-31 Lg Electronics Inc. Method and an apparatus for processing an audio signal
WO2010083879A1 (en) * 2009-01-20 2010-07-29 Widex A/S Hearing aid and a method of detecting and attenuating transients
US8428758B2 (en) * 2009-02-16 2013-04-23 Apple Inc. Dynamic audio ducking
US8538043B2 (en) * 2009-03-08 2013-09-17 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
FR2948484B1 (fr) * 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8644517B2 (en) * 2009-08-17 2014-02-04 Broadcom Corporation System and method for automatic disabling and enabling of an acoustic beamformer
WO2011032024A1 (en) * 2009-09-11 2011-03-17 Advanced Bionics, Llc Dynamic noise reduction in auditory prosthesis systems
US8204742B2 (en) * 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
US9552845B2 (en) * 2009-10-09 2017-01-24 Dolby Laboratories Licensing Corporation Automatic generation of metadata for audio dominance effects
US20110099596A1 (en) * 2009-10-26 2011-04-28 Ure Michael J System and method for interactive communication with a media device user such as a television viewer
US9117458B2 (en) * 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
US20110125494A1 (en) * 2009-11-23 2011-05-26 Cambridge Silicon Radio Limited Speech Intelligibility
US8553892B2 (en) * 2010-01-06 2013-10-08 Apple Inc. Processing a multi-channel signal for output to a mono speaker
WO2011083979A2 (en) * 2010-01-06 2011-07-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System

Also Published As

Publication number Publication date
ES2709523T3 (es) 2019-04-16
EP2545552A1 (en) 2013-01-16
JP5674827B2 (ja) 2015-02-25
US20160071527A1 (en) 2016-03-10
CN104811891B (zh) 2017-06-27
CN102792374B (zh) 2015-05-27
US9219973B2 (en) 2015-12-22
US20130006619A1 (en) 2013-01-03
WO2011112382A1 (en) 2011-09-15
RU2520420C2 (ru) 2014-06-27
CN104811891A (zh) 2015-07-29
JP2013521541A (ja) 2013-06-10
EP2545552B1 (en) 2018-12-12
US9881635B2 (en) 2018-01-30
BR112012022571A2 (pt) 2016-08-30
BR122019024041B1 (pt) 2020-08-11
RU2012141463A (ru) 2014-04-20
TW201215177A (en) 2012-04-01
BR112012022571B1 (pt) 2020-11-17
CN102792374A (zh) 2012-11-21

Similar Documents

Publication Publication Date Title
TWI459828B (zh) 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
CN110473567B (zh) 基于深度神经网络的音频处理方法、装置及存储介质
JP6637014B2 (ja) 音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法
US20190139530A1 (en) Audio scene apparatus
RU2467406C2 (ru) Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания
JP5149968B2 (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
CN101048935B (zh) 控制音频信号的单位响度或部分单位响度的方法和设备
JP6377249B2 (ja) オーディオ信号の強化のための装置と方法及び音響強化システム
Kumar Comparative performance evaluation of MMSE-based speech enhancement techniques through simulation and real-time implementation
CN105284133A (zh) 基于信号下混比进行中心信号缩放和立体声增强的设备和方法
Rämö et al. Perceptual headphone equalization for mitigation of ambient noise
Krishnamoorthy An overview of subjective and objective quality measures for noisy speech enhancement algorithms
Rämö et al. Perceptual frequency response simulator for music in noisy environments
JP2006333396A (ja) 音声信号拡声装置
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
JP2011141540A (ja) 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体
JP2012100117A (ja) 音響処理装置及び方法
Zheng et al. Evaluation of deep marginal feedback cancellation for hearing aids using speech and music
Patil Perceptually meaningful time and frequency resolution in applying dialogue enhancement in noisy environments: Dialogue Enhancement research
Mars et al. On the Use of Absolute Threshold of Hearing-based Loss for Full-band Speech Enhancement
Uhle et al. Subband center signal scaling using power ratios
WO2023174951A1 (en) Apparatus and method for an automated control of a reverberation level using a perceptional model
Lundahl Reducing Listening Effort of Audio Podcasts by Applying Equalization and Dynamic Processing at Playback