JP5551254B2 - 適応音声了解度処理のためのシステム - Google Patents
適応音声了解度処理のためのシステム Download PDFInfo
- Publication number
- JP5551254B2 JP5551254B2 JP2012529722A JP2012529722A JP5551254B2 JP 5551254 B2 JP5551254 B2 JP 5551254B2 JP 2012529722 A JP2012529722 A JP 2012529722A JP 2012529722 A JP2012529722 A JP 2012529722A JP 5551254 B2 JP5551254 B2 JP 5551254B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- enhancement
- audio signal
- signal
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title description 17
- 230000003044 adaptive effect Effects 0.000 title description 6
- 230000035945 sensitivity Effects 0.000 claims description 157
- 230000005236 sound signal Effects 0.000 claims description 139
- 238000000034 method Methods 0.000 claims description 80
- 230000007613 environmental effect Effects 0.000 claims description 78
- 238000013507 mapping Methods 0.000 claims description 42
- 230000004044 response Effects 0.000 claims description 9
- 229920006395 saturated elastomer Polymers 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 33
- 230000006870 function Effects 0.000 description 23
- 230000000737 periodic effect Effects 0.000 description 21
- 239000006185 dispersion Substances 0.000 description 20
- 239000000523 sample Substances 0.000 description 17
- 238000009499 grossing Methods 0.000 description 14
- 230000007423 decrease Effects 0.000 description 12
- 238000003860 storage Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000007619 statistical method Methods 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 206010011224 Cough Diseases 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/32—Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Description
移動体電話機は、高いバックグラウンドノイズを含むエリア中で使用されることが多い。このノイズは、移動体電話機スピーカーからの口頭での通信の了解度が大幅に低下するようなレベルであることが多い。多くのケースでは、高い周囲ノイズレベルが発呼者の音声をマスクするか、または、歪ませるので、リスナーが発呼者の音声を聞くときには、何らかの通信が、失われているか、または、少なくとも部分的に失われている。
遠隔デバイスから受信デバイスにより受信した入力音声信号を、受信デバイスにより受信し、入力音声信号にオーディオエンハンスメントを適用して、入力音声信号中のフォルマントのうちの1つ以上を強調することができる音声エンハンスメントモジュールを含んでいる。システムは、入力音声信号中に存在する環境ノイズの量に少なくとも部分的に基づいて、音声エンハンスメントモジュールにより適用されるオーディオエンハンスメントの量を調節することができるエンハンスメント制御装置をさらに含むことができる。システムは、受信デバイスのマイクロフォンから取得したマイクロフォン入力信号と、音声エンハンスメントモジュールの出力信号として提供されたスピーカー入力信号とのうちの少なくとも1つまたは双方の統計的解析に少なくとも部分的に基づいて、環境ノイズに対するエンハンスメント制御装置の感度を調節することができ、1つ以上のプロセッサを有するノイズ感度制御装置をさらに含むことができる。
移動体電話機および他の類似したサイズのデバイスは、生成させるサウンドのボリュームが制限されている小型のスピーカーを有する傾向がある。それゆえ、環境ノイズが存在するときには、移動体電話機上で会話を聞くのが難しいことがある。
図1は、音声エンハンスメントシステム100を実現するための移動体電話環境100の実施形態を示している。例示的な移動体電話機環境100では、発呼者電話機104と受信者電話機108とが示されている。発呼者電話機104および受信者電話機108は、移動体電話機や、ヴォイスオーバーインターネットプロトコル(VoIP)電話機や、スマートフォンや、地上線電話機や、または、これらに類するものとすることができる。発呼者電話機104は、移動体電話環境100の遠端にあると考えることができ、受信者電話機は、移動体電話機環境100の近端にあると考えることができる。受信者電話機108のユーザが話しているときには、近端と遠端は逆であることもある。
図3は、音声エンハンスメント制御プロセス300の実施形態を示している。音声エンハンスメント制御プロセス300は、音声エンハンスメントシステム110または210により実現することができる。特に、音声エンハンスメント制御プロセス300は、音声エンハンスメント制御装置222により実現することができる。有利なことに、ある実施形態では、音声エンハンスメント制御プロセス300は、環境ノイズエネルギーのレベルに少なくとも部分的に基づいて、音声エンハンスメント処理を適応させる。
ノイズしきい値=1−(α*ノイズ感度制御) 式(1)
ここで、αは定数であり、ノイズ感度制御は、図2のノイズ感度制御装置224により発生された値とすることができる。ノイズ感度制御は、環境ノイズ入力302に対する音声エンハンスメント制御装置222の感度に影響を及ぼすことがある。ノイズ感度制御は、さまざまなファクターに基づいて変化することがあり、ノイズしきい値を変化させる(図5および図6参照)。ある実施形態では、αとノイズ感度制御の双方が[0,1]の間の範囲にあるか、または、それらは、この例示的な範囲外の他の値を有することがある。
図4は、出力利得制御プロセス400の実施形態を示している。出力利得制御プロセス400は、音声エンハンスメントシステム110または210により実現することができる。特に、出力利得制御プロセス400は、出力利得制御装置230により実現することができる。有利なことに、ある実施形態では、出力利得制御プロセス400は、環境ノイズエネルギーのレベルと音声入力レベルとに少なくとも部分的に基づいて、出力利得を適応させる。
受信利得しきい値=0.5+(γ*適応利得制御) 式(2)
ここで、γは、[0,1]の間の範囲にある定数であり、適応利得制御は、図2の適応利得制御232に対応する値である。同様に、マイクロフォン利得しきい値は次のように算出することができる:
マイクロフォン利得しきい値=1−(η*ノイズ感度制御) 式(3)
ここで、ηは、[0,1]の間の範囲にある定数であり、ノイズ感度制御は、上記で説明したノイズ感度制御装置224により発生された値である。ノイズ感度制御は、値が変化することがあり(図5および図6も参照)、何らかの実施形態では、マイクロフォン利得しきい値も変化させる。
上記で説明したように、ノイズ感度制御装置224により発生されたノイズ感度制御は自動的に変化することがあり、または、ユーザ制御下に置かれることがある。ある実施形態では、ノイズ感度制御を変化させることは、ノイズに対する音声エンハンスメント制御装置222および/または出力利得制御装置230の感度に影響を及ぼす。1つの実施形態では、ノイズ感度制御を増加させることは、音声了解度をよりアグレッシブに向上させることにより、環境ノイズに対して音声エンハンスメント制御装置222をよりアグレッシブに応答させ、逆もまた同じである。同様に、ノイズ感度制御を増加させることは、出力利得制御装置230に、向上されたオーディオ信号に適用される出力利得をよりアグレッシブに増加させることがあり、逆もまた同じである。
音声エンハンスメント制御装置222および/または出力利得制御装置230は、音声信号に適用される1つ以上の利得を増加させることができる。いくつかのケースでは、あるポイントを超えて利得を増加させることは、結果として、信号の飽和になることがあり、信号の飽和は、歪みを生成させることがある。有利なことに、ある実施形態では、上記で説明した歪み制御モジュール240は、制御された歪みを、したがってより大きなラウドネスを提供することができる。
実施形態に依存して、ここで説明したアルゴリズムのうちの任意の、あるアクト、イベント、または機能を、異なるシーケンス中で実行することができ、ひとまとめにして追加したり、マージしたり、または、除外することができる(例えば、説明したアクトまたはイベントのすべてが、アルゴリズムの実施のために必要なわけではない)。さらに、ある実施形態では、例えば、マルチスレッド処理、割り込み処理、あるいは、複数のプロセッサまたはプロセッサコアを通して、シーケンシャルにではなく、並行してアクトまたはイベントを実行することができる。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]オーディオ信号に適用される音声了解度エンハンスメントを自動的に調節するためのシステムにおいて、
前記システムは、
フォルマントを含む入力音声信号を受信するようにと、前記入力音声信号にオーディオエンハンスメントを適用して、向上された音声信号を提供するように構成されているエンハンスメントモジュールと、
検出した環境ノイズの量に少なくとも部分的に基づいて、前記エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するように構成され、1つ以上のプロセッサを備えているエンハンスメント制御装置と、
前記環境ノイズの量と前記入力音声信号とに少なくとも部分的に基づいて、前記向上された音声信号の全体的な利得を調節するようにと、
前記全体的な利得を前記向上された音声信号に適用して、増幅された音声信号を生成させるように構成されている出力利得制御装置と、
より低い次数のサイン高調波の和から発生されたサインの和のテーブル中に記憶されている1つ以上の値に、前記増幅された音声オーディオ信号の1つ以上のサンプルを少なくともマッピングすることによって、前記増幅された音声信号におけるクリッピングを減少させるように構成されている歪み制御モジュールとを具備し、
前記オーディオエンハンスメントは、前記入力音声信号中のフォルマントのうちの1つ以上を強調するように構成されているシステム。
[2]前記エンハンスメントモジュールは、前記入力音声信号の周波数サブバンドに利得を適用することにより、前記1つ以上のフォルマントを強調するようにさらに動作可能である[1]に記載のシステム。
[3]音声了解度エンハンスメントを調節する方法において、
前記方法は、
音声信号と、近端環境コンテンツを含む入力信号とを受信することと、
前記入力信号中の前記近端環境コンテンツを前記1つ以上のプロセッサにより算出することと、
前記近端環境コンテンツに少なくとも部分的に基づいて、音声エンハンスメントのレベルを前記1つ以上のプロセッサにより調節することと、
前記音声エンハンスメントを前記音声信号に適用して、向上された音声信号を生成させ、前記音声エンハンスメントは、前記音声信号の1つ以上のフォルマントを強調するように構成されている方法。
[4]前記算出することは、前記近端環境コンテンツの大きさを取得することと、前記近端環境コンテンツの前記大きさをスムーズにすることとを含む[3]に記載の方法。
[5]前記音声エンハンスメントのレベルを前記1つ以上のプロセッサにより調節することは、前記近端環境コンテンツがしきい値を上回っているときに、前記近端環境コンテンツを追跡することを含む[3]に記載の方法。
[6]ユーザ調節可能なノイズ感度レベルに少なくとも部分的に基づいて、前記しきい値が決定される[5]に記載の方法。
[7]前記近端環境コンテンツと、前記音声信号中のエネルギーの量とに少なくとも部分的に基づいて、前記向上された音声信号の全体的な利得を調節することをさらに含む[3]に記載の方法。
[8]前記全体的な利得を調節することは、前記近端環境コンテンツに比例する利得レベルを計算することを含む[7]に記載の方法。
[9]前記向上された音声信号の1つ以上のサンプルをサインの和のテーブル中に記憶されている1つ以上の値にマッピングして、前記向上された音声信号におけるクリッピングを減少させることをさらに含む[3]に記載の方法。
[10]オーディオ信号に適用される音声了解度エンハンスメントを自動的に調節するためのシステムにおいて、
前記システムは、
フォルマントを含む入力音声信号を受信するようにと、前記入力音声信号にオーディオエンハンスメントを適用して、向上された音声信号を提供するように構成されているエンハンスメントモジュールと、
検出した環境ノイズの量に少なくとも部分的に基づいて、前記エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するように構成され、1つ以上のプロセッサを備えているエンハンスメント制御装置と、
前記環境ノイズの量と前記入力音声信号とに少なくとも部分的に基づいて、前記向上された音声信号の全体的な利得を調節するようにと、
前記全体的な利得を前記向上された音声信号に適用して、増幅された音声信号を生成させるように構成されている出力利得制御装置とを具備し、
前記オーディオエンハンスメントは、前記入力音声信号中のフォルマントのうちの1つ以上を強調するように構成されているシステム。
[11]前記エンハンスメント制御装置は、しきい値レベルに対する環境ノイズの量の比に少なくとも部分的に基づいて、前記適用されるオーディオエンハンスエントの量を調節するようにさらに構成されている[10]に記載のシステム。
[12]前記エンハンスメントモジュールは、前記入力音声信号の周波数サブバンドに利得を適用することにより、前記1つ以上のフォルマントを強調するようにさらに動作可能である[10]に記載のシステム。
[13]前記エンハンスメント制御装置は、前記入力音声信号の前記周波数サブバンドに追加の利得を少なくとも適用することによって、前記適用されるオーディオエンハンスメントの量を調節するようにさらに構成されている[12]に記載のシステム。
[14]前記出力利得制御装置は、前記環境ノイズの量に比例する利得レベルを提供することにより、前記全体的な利得を調節するようにさらに構成されている[10]に記載のシステム。
[15]前記出力利得制御装置は、しきい値を下回る前記音声信号のエネルギーに応答して、前記全体的な利得を調節するようにさらに構成されている[10]に記載のシステム。
[16]前記増幅された音声信号におけるクリッピングを減少させるように動作可能である歪み制御モジュールをさらに具備する[10]に記載のシステム。
[17]音声了解度エンハンスメントを調節する方法を1つ以上のプロセッサに実行させる命令をその上に記憶しているプロセッサ読取可能記憶媒体において、
前記方法は、
遠隔の電話機からの音声信号と、マイクロフォンからのノイズ信号とを受信することと、
前記ノイズ信号の値を算出することと、
前記ノイズ信号の値に少なくとも部分的に基づいて、前記音声信号のフォルマントに適用される利得を調節することと、
前記音声信号のフォルマントに前記利得を適用することとを含むプロセッサ読取可能記憶媒体。
[18]前記音声信号のエネルギーの量に少なくとも部分的に基づいて、前記音声信号の全体的な利得を調節することをさらに含む[17]に記載のプロセッサ読取可能記憶媒体。
[19]しきい値を下回る前記音声信号のエネルギーに応答して、前記全体的な利得を調節する[18]に記載のプロセッサ読取可能記憶媒体。
[20]音声了解度エンハンスメントのノイズしきい値を調節するためのシステムにおいて、
前記システムは、
遠隔デバイスからの入力音声信号を受信デバイスにより受信するようにと、前記入力音声信号にオーディオエンハンスメントを適用して、前記入力音声信号中のフォルマントのうちの1つ以上を強調するように構成されている音声エンハンスメントモジュールと、
第1のノイズしきい値を上回る検出した環境ノイズの量に少なくとも部分的に基づいて、前記エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するように構成され、1つ以上のプロセッサを備えている音声エンハンスメント制御装置と、
前記第1のノイズしきい値を調節するように構成されているノイズ感度制御装置とを具備し、
前記ノイズ感度制御装置は、
前記受信デバイスのマイクロフォンから受信したマイクロフォン入力信号から第1の自己相関値を計算するように構成されている第1の相関器と、
前記第1の自己相関値の第1の分散を計算するように動作可能である第1の分散モジュールと、
前記音声エンハンスメントモジュールの出力信号を含むスピーカー入力信号から第2の自己相関値を計算するように構成されている第2の相関器と、
前記第2の自己相関値の第2の分散を計算するように動作可能である第2の分散モジュールと、
前記第1および前記第2の自己相関値と前記第1および前記第2の分散値とのうちの1つ以上を使用して、前記第1のノイズしきい値を調節して、第2のノイズしきい値を生成させるように構成されているノイズ感度調節器とを備え、
前記音声エンハンスメント制御装置は、前記第2のノイズしきい値を上回る検出した環境ノイズの第2の量に少なくとも部分的に基づいて、第2の入力オーディオ信号に適用されるオーディオエンハンスメントの量を調節するように構成されているシステム。
[21]前記ノイズ感度調節器は、前記第1の分散が予め定められた量を上回ることに応答して、前記第1のノイズしきい値よりも低い第2のノイズしきい値を生成させるようにさらに構成されている[20]に記載のシステム。
[22]前記ノイズ感度調節器は、前記第1の自己相関値のうちの1つ以上に少なくとも部分的に基づいて、前記第2のノイズしきい値を低くするようにさらに構成されている[21]に記載のシステム。
[23]前記ノイズ感度調節器は、より高い第1の自己相関値に対して前記第2のノイズしきい値におけるより多くの減少を提供するようにさらに構成されている[21]に記載のシステム。
[24]前記ノイズ感度調節器は、前記第2の自己相関値のうちの1つ以上に少なくとも部分的に基づいて、前記第2のノイズしきい値を低くするようにさらに構成されている[23]に記載のシステム。
[25]前記ノイズ感度調節器は、より低い第2の自己相関値に対して前記第2のノイズしきい値におけるより多くの減少を提供するようにさらに構成されている[21]に記載のシステム。
[26]前記ノイズ感度調節器は、前記第2の分散が予め定められた量よりも少ないことに応答して、前記第1のノイズしきい値よりも低い第2のノイズしきい値を生成させるようにさらに構成されている[20]に記載のシステム。
[27]音声了解度エンハンスメントの感度を調節するためのシステムにおいて、
前記システムは、
遠隔デバイスから受信デバイスにより受信した入力音声信号を、前記受信デバイスにより受信するようにと、前記入力音声信号にオーディオエンハンスメントを適用して、前記入力音声信号中のフォルマントのうちの1つ以上を強調するように構成されている音声エンハンスメントモジュールと、
前記入力音声信号中に存在する環境ノイズの量に少なくとも部分的に基づいて、前記音声エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するように構成されているエンハンスメント制御装置と、
前記受信デバイスのマイクロフォンから取得したマイクロフォン入力信号と、前記音声エンハンスメントモジュールの出力信号として提供されたスピーカー入力信号とのうちの少なくとも1つまたは双方の統計的解析に少なくとも部分的に基づいて、前記環境ノイズに対する前記エンハンスメント制御装置の感度を調節するように構成され、1つ以上のプロセッサを備えているノイズ感度制御装置とを具備するシステム。
[28]前記ノイズ感度制御装置は、前記マイクロフォン入力信号と前記スピーカー入力信号とのうちの1つまたは双方の自己相関を計算するように構成されている相関器を備える[27]に記載のシステム。
[29]前記ノイズ感度制御装置は、前記自己相関の分散を推定するように構成されている分散モジュールをさらに備える[28]に記載のシステム。
[30]前記ノイズ感度制御装置は、前記計算した自己相関に少なくとも部分的に基づいて、前記環境ノイズに対する前記エンハンスメント制御装置の感度を調節するように構成されている感度調節器をさらに備える[28]に記載のシステム。
[31]前記ノイズ感度制御装置は、推定した分散に少なくとも部分的に基づいて、前記環境ノイズに対する前記エンハンスメント制御装置の感度を調節するように構成されている感度調節器をさらに備える[28]に記載のシステム。
[32]音声エンハンスメントの感度を調節するための方法において、
前記方法は、
入力オーディオ信号を受信することと、
前記入力オーディオ信号中の相関しているコンテンツを検出することと、
前記検出することに応答して、前記入力オーディオ信号に適用されるエンハンスメントのレベルを調節することとを含み、
前記検出することは、1つ以上のプロセッサを使用して、前記入力オーディオ信号の統計的解析を計算することを含む方法。
[33]前記入力オーディオ信号の統計的解析を計算することは、前記入力オーディオ信号の自己相関を計算することを含む[32]に記載の方法。
[34]前記検出することは、前記自己相関の分散を計算することをさらに含む[33]に記載の方法。
[35]前記調節することは、前記入力オーディオ信号に適用されるエンハンスメントのレベルを増加させることを含む[32]に記載の方法。
[36]前記エンハンスメントは、ダイアログエンハンスメントを含む[32]に記載の方法。
[37]前記統計的解析は、音響エコー消去を含む[32]に記載の方法。
[38]オーディオ信号処理方法において、
前記方法は、
マイクロフォン入力信号を受信することと、
前記マイクロフォン入力信号中の実質的に周期的なコンテンツを検出することと、
前記マイクロフォン入力信号中で検出した前記実質的に周期的なコンテンツに少なくとも部分的に基づいて、1つ以上のプロセッサによりオーディオエンハンスメントを調節し、前記オーディオエンハンスメントは、前記マイクロフォン入力信号のレベルに少なくとも部分的に基づいて、オーディオ出力信号を選択的に向上させるように構成されていることと、
前記オーディオ出力信号をスピーカーに提供することとを含む方法。
[39]前記実質的に周期的なコンテンツは、前記スピーカーからのエコーを含む[38]に記載の方法。
[40]前記実質的に周期的なコンテンツは、前記オーディオ信号処理方法を実現するように構成されている通信デバイスのリスナーからの音声を含む[38]に記載の方法。
[41]前記マイクロフォン入力信号は、近端環境コンテンツを含む[38]に記載の方法。
[42]前記実質的に周期的なコンテンツを検出することは、1つ以上の統計的な技術を使用して、前記実質的に周期的なコンテンツを検出することを含む[38]に記載の方法。
[43]前記調節することは、前記マイクロフォン入力信号のレベルに対する前記オーディオエンハンスメントの感度を調節することを含む[38]に記載の方法。
[44]前記調節することは、前記オーディオエンハンスメントをオフにすることを含む[38]に記載の方法。
[45]前記オーディオエンハンスメントは、音声了解度エンハンスメントを含む[38]に記載の方法。
[46]前記オーディオ信号処理方法を通信デバイス中で実現する[38]に記載の方法。
Claims (15)
- オーディオ信号に適用される音声了解度エンハンスメントを自動的に調節するためのシステムにおいて、
前記システムは、
フォルマントを含む入力音声信号を受信し、前記入力音声信号にオーディオエンハンスメントを適用して、向上された音声信号を提供するように構成されているエンハンスメントモジュールと、
検出した環境ノイズの量に少なくとも部分的に基づいて、前記エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するように構成され、1つ以上のプロセッサを備えているエンハンスメント制御装置と、
前記環境ノイズの量と前記入力音声信号とに少なくとも部分的に基づいて、前記向上された音声信号の全体的な利得を調節し、前記全体的な利得を前記向上された音声信号に適用して、増幅された音声信号を生成させるように構成されている出力利得制御装置と、
低次のサイン高調波の和から発生されたサインの和のテーブル中に記憶されている1つ以上の値に、前記増幅された音声信号の1つ以上のサンプルを少なくともマッピングすることによって、前記増幅された音声信号におけるクリッピングを減少させるように構成されている歪み制御モジュールとを具備し、
前記オーディオエンハンスメントは、前記入力音声信号中のフォルマントのうちの1つ以上を強調するように構成されているシステム。 - 前記エンハンスメントモジュールは、前記入力音声信号の周波数サブバンドに利得を適用することにより、前記1つ以上のフォルマントを強調するようにさらに動作可能である請求項1記載のシステム。
- 前記エンハンスメント制御装置は、第1のノイズしきい値を上回る検出した環境ノイズの量に少なくとも部分的に基づいて、前記エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するようにさらに構成されている請求項1記載のシステム。
- 前記第1のノイズしきい値を調節するように構成されているノイズ感度制御装置をさらに具備する請求項3記載のシステム。
- 前記ノイズ感度制御装置は、前記第1のノイズしきい値に影響を及ぼすように構成されているノイズ感度制御をユーザが調節することが可能になるように構成されているユーザインターフェースを提供する請求項4記載のシステム。
- 前記ノイズ感度制御装置は、
受信デバイスのマイクロフォンから受信したマイクロフォン入力信号から第1の自己相関値を計算するように構成されている第1の相関器と、
前記第1の自己相関値の第1の分散を計算するように動作可能である第1の分散モジュールと、
前記エンハンスメントモジュールの出力信号を含むスピーカー入力信号から第2の自己相関値を計算するように構成されている第2の相関器と、
前記第2の自己相関値の第2の分散を計算するように動作可能である第2の分散モジュールと、
前記第1および前記第2の自己相関値と前記第1および前記第2の分散とのうちの1つ以上を使用して、前記第1のノイズしきい値を調節して、第2のノイズしきい値を生成させるように構成されているノイズ感度調節器とを備え、
前記エンハンスメント制御装置は、前記第2のノイズしきい値を上回る検出した環境ノイズの第2の量に少なくとも部分的に基づいて、第2の入力オーディオ信号に適用されるオーディオエンハンスメントの量を調節するように構成されている請求項4記載のシステム。 - 前記ノイズ感度調節器は、前記第2の分散が予め定められた量よりも少ないことに応答して、前記第1のノイズしきい値よりも低い第2のノイズしきい値を生成させるようにさらに構成されている請求項6記載のシステム。
- 前記ノイズ感度調節器は、前記第1の分散が予め定められた量を上回ることに応答して、前記第1のノイズしきい値よりも低い第2のノイズしきい値を生成させるようにさらに構成され、前記ノイズ感度調節器は、前記第1の自己相関値のうちの1つ以上に少なくとも部分的に基づいて、前記第2のノイズしきい値を低くするようにさらに構成されている請求項6記載のシステム。
- 前記ノイズ感度調節器は、より高い第1の自己相関値に対して前記第2のノイズしきい値におけるより多くの減少を提供するようにさらに構成され、前記ノイズ感度調節器は、前記第2の自己相関値のうちの1つ以上に少なくとも部分的に基づいて、前記第2のノイズしきい値を低くするようにさらに構成されている請求項8記載のシステム。
- 前記ノイズ感度調節器は、より低い第2の自己相関値に対して前記第2のノイズしきい値におけるより多くの減少を提供するようにさらに構成されている請求項8記載のシステム。
- 前記歪み制御モジュールにより実行されるマッピングは、前記増幅された音声信号を、完全に飽和している信号よりも少ない高調波を有する出力信号にマッピングするように構成されている請求項1記載のシステム。
- 前記エンハンスメント制御装置は、しきい値レベルに対する検出した環境ノイズの量の比に少なくとも部分的に基づいて、前記適用されるオーディオエンハンスエントの量を調節するようにさらに構成されている請求項1記載のシステム。
- オーディオ信号に適用される音声了解度エンハンスメントを自動的に調節する方法において、
前記方法は、
フォルマントを含む入力音声信号を受信することと、
前記入力音声信号にオーディオエンハンスメントを適用して、向上された音声信号を提供することと、
検出した環境ノイズの量に少なくとも部分的に基づいて、前記適用されるオーディオエンハンスメントの量を調節することと、
前記環境ノイズの量と前記入力音声信号とに少なくとも部分的に基づいて、前記向上された音声信号の全体的な利得を調節することと、
前記全体的な利得を前記向上された音声信号に適用して、増幅された音声信号を生成させることと、
低次のサイン高調波の和から発生されたサインの和のテーブル中に記憶されている1つ以上の値に、前記増幅された音声信号の1つ以上のサンプルを少なくともマッピングすることによって、前記増幅された音声信号におけるクリッピングを減少させることとを含み、
前記オーディオエンハンスメントは、前記入力音声信号中のフォルマントのうちの1つ以上を強調するように構成されている方法。 - 前記入力音声信号の周波数サブバンドに利得を適用することにより、前記1つ以上のフォルマントを強調することをさらに含む請求項13記載の方法。
- 前記マッピングは、前記増幅された音声信号を、完全に飽和している信号よりも少ない高調波を有する出力信号にマッピングすることをさらに含む請求項13記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2009/056850 WO2011031273A1 (en) | 2009-09-14 | 2009-09-14 | System for adaptive voice intelligibility processing |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013504791A JP2013504791A (ja) | 2013-02-07 |
JP5551254B2 true JP5551254B2 (ja) | 2014-07-16 |
Family
ID=43732720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012529722A Active JP5551254B2 (ja) | 2009-09-14 | 2009-09-14 | 適応音声了解度処理のためのシステム |
Country Status (7)
Country | Link |
---|---|
EP (1) | EP2478444B1 (ja) |
JP (1) | JP5551254B2 (ja) |
KR (1) | KR101598654B1 (ja) |
CN (1) | CN102498482B (ja) |
HK (1) | HK1171273A1 (ja) |
PL (1) | PL2478444T3 (ja) |
WO (1) | WO2011031273A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104078050A (zh) | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | 用于音频分类和音频处理的设备和方法 |
CN103888107B (zh) * | 2014-03-21 | 2017-04-19 | 天地融科技股份有限公司 | 一种数据解码方法 |
WO2016050899A1 (en) | 2014-10-01 | 2016-04-07 | Dolby International Ab | Audio encoder and decoder |
CN104464764B (zh) * | 2014-11-12 | 2017-08-15 | 小米科技有限责任公司 | 音频数据播放方法和装置 |
CN106710604A (zh) * | 2016-12-07 | 2017-05-24 | 天津大学 | 提高语音可懂度的共振峰增强装置和方法 |
CN106409287B (zh) * | 2016-12-12 | 2019-12-13 | 天津大学 | 提高肌肉萎缩或神经退行性病人语音可懂度装置和方法 |
CN109413258B (zh) * | 2017-08-18 | 2021-03-26 | 成都鼎桥通信技术有限公司 | 一种集群终端的省电方法 |
KR20210072384A (ko) * | 2019-12-09 | 2021-06-17 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN111863004A (zh) * | 2020-07-29 | 2020-10-30 | 芯讯通无线科技(上海)有限公司 | 声音信号的处理方法、***、电子设备及存储介质 |
CN112767908B (zh) * | 2020-12-29 | 2024-05-21 | 安克创新科技股份有限公司 | 基于关键声音识别的主动降噪方法、电子设备及存储介质 |
CN112802489A (zh) * | 2021-04-09 | 2021-05-14 | 广州健抿科技有限公司 | 一种通话语音自动调节***及方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2056110C (en) | 1991-03-27 | 1997-02-04 | Arnold I. Klayman | Public address intelligibility system |
JPH0968997A (ja) * | 1995-08-30 | 1997-03-11 | Sony Corp | 音声処理方法及び装置 |
ATE367011T1 (de) * | 1999-03-30 | 2007-08-15 | Qualcomm Inc | Verfahren und vorrichtung zum automatischen einstellen der verstärkungen des mikrophon- und sprecherverstärkers in einem tragbaren telefon |
US7023868B2 (en) * | 1999-04-13 | 2006-04-04 | Broadcom Corporation | Voice gateway with downstream voice synchronization |
US7423983B1 (en) | 1999-09-20 | 2008-09-09 | Broadcom Corporation | Voice and data exchange over a packet based network |
US7277767B2 (en) * | 1999-12-10 | 2007-10-02 | Srs Labs, Inc. | System and method for enhanced streaming audio |
EP1312162B1 (en) * | 2000-08-14 | 2005-01-12 | Clear Audio Ltd. | Voice enhancement system |
CA2399159A1 (en) * | 2002-08-16 | 2004-02-16 | Dspfactory Ltd. | Convergence improvement for oversampled subband adaptive filters |
WO2007015203A1 (en) * | 2005-08-02 | 2007-02-08 | Koninklijke Philips Electronics N.V. | Enhancement of speech intelligibility in a mobile communication device by controlling the operation of a vibrator in dξpendance of the background noise |
JP4685735B2 (ja) * | 2006-09-04 | 2011-05-18 | 日本電信電話株式会社 | 音響信号区間検出方法、装置、プログラム及びその記録媒体 |
JP2009147702A (ja) * | 2007-12-14 | 2009-07-02 | Panasonic Corp | 騒音レベル推定装置、受話音量制御装置、携帯電話装置、および騒音レベル推定方法 |
JP4940158B2 (ja) * | 2008-01-24 | 2012-05-30 | 株式会社東芝 | 音補正装置 |
-
2009
- 2009-09-14 EP EP09849335.6A patent/EP2478444B1/en active Active
- 2009-09-14 KR KR1020127008874A patent/KR101598654B1/ko active IP Right Grant
- 2009-09-14 PL PL09849335T patent/PL2478444T3/pl unknown
- 2009-09-14 WO PCT/US2009/056850 patent/WO2011031273A1/en active Application Filing
- 2009-09-14 CN CN200980161425.8A patent/CN102498482B/zh active Active
- 2009-09-14 JP JP2012529722A patent/JP5551254B2/ja active Active
-
2012
- 2012-11-15 HK HK12111607.8A patent/HK1171273A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
JP2013504791A (ja) | 2013-02-07 |
CN102498482A (zh) | 2012-06-13 |
KR20120064105A (ko) | 2012-06-18 |
PL2478444T3 (pl) | 2019-05-31 |
WO2011031273A1 (en) | 2011-03-17 |
KR101598654B1 (ko) | 2016-02-29 |
HK1171273A1 (en) | 2013-03-22 |
EP2478444A4 (en) | 2016-01-06 |
CN102498482B (zh) | 2014-10-15 |
EP2478444B1 (en) | 2018-12-12 |
EP2478444A1 (en) | 2012-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5551254B2 (ja) | 適応音声了解度処理のためのシステム | |
US8386247B2 (en) | System for processing an audio signal to enhance speech intelligibility | |
US10299040B2 (en) | System for increasing perceived loudness of speakers | |
US9117455B2 (en) | Adaptive voice intelligibility processor | |
JP5694324B2 (ja) | スピーカーの知覚されるラウドネスを増加させるためのシステム | |
AU771444B2 (en) | Noise reduction apparatus and method | |
US8180064B1 (en) | System and method for providing voice equalization | |
KR101068227B1 (ko) | 명료도 향상장치와 이를 이용한 음성출력장치 | |
WO2012142270A1 (en) | Systems, methods, apparatus, and computer readable media for equalization | |
US10616676B2 (en) | Dynamically adjustable sidetone generation | |
GB2527126A (en) | Noise cancellation with dynamic range compression | |
EP1687812A1 (en) | System and method for audio signal processing | |
Premananda et al. | Speech enhancement algorithm to reduce the effect of background noise in mobile phones | |
US8639294B2 (en) | System and method for performing automatic gain control in mobile phone environments | |
RU2589298C1 (ru) | Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке | |
JP5644278B2 (ja) | マスカ音生成装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20121113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130604 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130904 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131008 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20131225 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20140108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140328 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140422 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140521 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5551254 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |