JP5551254B2

JP5551254B2 - 適応音声了解度処理のためのシステム

Info

Publication number: JP5551254B2
Application number: JP2012529722A
Authority: JP
Inventors: ヤング、ジュン; オリバー、リチャード・ジェイ．; トレイシー、ジェームズ; ヘ、シン
Original assignee: DTS LLC
Current assignee: DTS LLC
Priority date: 2009-09-14
Filing date: 2009-09-14
Publication date: 2014-07-16
Anticipated expiration: 2029-09-14
Also published as: JP2013504791A; CN102498482A; KR20120064105A; PL2478444T3; WO2011031273A1; KR101598654B1; HK1171273A1; EP2478444A4; CN102498482B; EP2478444B1; EP2478444A1

Description

背景

関連技術の説明
移動体電話機は、高いバックグラウンドノイズを含むエリア中で使用されることが多い。このノイズは、移動体電話機スピーカーからの口頭での通信の了解度が大幅に低下するようなレベルであることが多い。多くのケースでは、高い周囲ノイズレベルが発呼者の音声をマスクするか、または、歪ませるので、リスナーが発呼者の音声を聞くときには、何らかの通信が、失われているか、または、少なくとも部分的に失われている。

高いバックグラウンドノイズが存在するときに了解度の損失を最小化しようとする試みは、等化器の使用や、クリッピング回路の使用や、または、単に、移動体電話機のボリュームを増加させることを伴っている。等化器およびクリッピング回路は、それら自身がバックグラウンドノイズを増加させることがあり、したがって、問題を解決し損ねる。移動体電話機のサウンドまたはスピーカーのボリュームの全体的なレベルを増加させることにより、了解度がかなり改善されることはめったになく、フィードバックとリスナーの不快感とのような他の問題を生じさせることがある。

開示の概要

ある実施形態では、オーディオ信号に適用される音声了解度エンハンスメントを自動的に調節するためのシステムは、フォルマントを含む入力音声信号を受信し、入力音声信号にオーディオエンハンスメントを適用して、向上された音声信号を提供することができるエンハンスメントモジュールを含んでいる。オーディオエンハンスメントは、入力音声信号中のフォルマントのうちの１つ以上を強調することができる。システムは、１つ以上のプロセッサを有するエンハンスメント制御装置をさらに含むことができる。エンハンスメント制御装置は、検出した環境ノイズの量に少なくとも部分的に基づいて、エンハンスメントモジュールにより適用されるオーディオエンハンスメントの量を調節することができる。システムは、環境ノイズの量と入力音声信号とに少なくとも部分的に基づいて、向上された音声信号の全体的な利得を調節し、全体的な利得を向上された音声信号に適用して、増幅された音声信号を生成させることができる出力利得制御装置をさらに含むことができる。システムは、サインの和のテーブル中に記憶されている１つ以上の値に、増幅された音声オーディオ信号の１つ以上のサンプルを少なくともマッピングすることによって、増幅された音声信号におけるクリッピングを減少させることができる歪み制御モジュールをさらに含むことができる。サインの和のテーブルは、より低い次数のサイン高調波の和から発生させることができる。

さまざまな実施形態において、音声了解度エンハンスメントを調節する方法は、音声信号と、近端環境コンテンツを有する入力信号とを受信することと、入力信号中の近端環境コンテンツを１つ以上のプロセッサにより算出することと、近端環境コンテンツに少なくとも部分的に基づいて、音声エンハンスメントのレベルを１つ以上のプロセッサにより調節することと、音声エンハンスメントを音声信号に適用して、向上された音声信号を生成させることとを含むことができる。音声エンハンスメントは、音声信号の１つ以上のフォルマントを強調することができる。

さらに、ある実施形態では、オーディオ信号に適用される音声了解度エンハンスメントを自動的に調節するためのシステムは、フォルマントを有する入力音声信号を受信し、入力音声信号にオーディオエンハンスメントを適用して、向上された音声信号を提供することができるエンハンスメントモジュールを含むことができる。オーディオエンハンスメントは、入力音声信号中のフォルマントのうちの１つ以上を強調することができる。システムは、１つ以上のプロセッサを備えているエンハンスメント制御装置をさらに含むことができる。エンハンスメント制御装置は、検出した環境ノイズの量に少なくとも部分的に基づいて、エンハンスメントモジュールにより適用されるオーディオエンハンスメントの量を調節することができる。システムは、環境ノイズの量と入力音声信号とに少なくとも部分的に基づいて、向上された音声信号の全体的な利得を調節し、全体的な利得を向上された音声信号に適用して、増幅された音声信号を生成させることができる出力利得制御装置をさらに含むことができる。

音声了解度エンハンスメントを調節する方法を１つ以上のプロセッサに実行させる命令をその上に記憶しているプロセッサ読取可能記憶媒体は、遠隔の電話機からの音声信号と、マイクロフォンからのノイズ信号とを受信することと、ノイズ信号の値を算出することと、ノイズ信号の値に少なくとも部分的に基づいて、音声信号のフォルマントに適用される利得を調節することと、音声信号のフォルマントに利得を適用することとを含むことができる。

いくつかのインプリメンテーションでは、音声了解度エンハンスメントのノイズしきい値を調節するためのシステムは、遠隔デバイスからの入力音声信号を受信デバイスにより受信し、入力音声信号にオーディオエンハンスメントを適用して、入力音声信号中のフォルマントのうちの１つ以上を強調することができる音声エンハンスメントモジュールを含むことができる。システムは、１つ以上のプロセッサを有する音声エンハンスメント制御装置をさらに含むことができる。音声エンハンスメント制御装置は、第１のノイズしきい値を上回る検出した環境ノイズの量に少なくとも部分的に基づいて、エンハンスメントモジュールにより適用されるオーディオエンハンスメントの量を調節することができる。システムは、第１のノイズしきい値を調節することができるノイズ感度制御装置をさらに含むことができる。ノイズ感度制御装置は、受信デバイスのマイクロフォンから受信したマイクロフォン入力信号から第１の自己相関値を計算することができる第１の相関器と、第１の自己相関値の第１の分散を計算することができる第１の分散モジュールと、音声エンハンスメントモジュールの出力信号を含むスピーカー入力信号から第２の自己相関値を計算することができる第２の相関器と、第２の自己相関値の第２の分散を計算することができる第２の分散モジュールと、第１および第２の自己相関値と第１および第２の分散値とのうちの１つ以上を使用して、第１のノイズしきい値を調節して、第２のノイズしきい値を生成させることができるノイズ感度調節器とを備えることができる。したがって、ある実施形態では、音声エンハンスメント制御装置は、第２のノイズしきい値を上回る検出した環境ノイズの第２の量に少なくとも部分的に基づいて、第２の入力オーディオ信号に適用されるオーディオエンハンスメントの量を調節することができる。

ある実施形態では、音声了解度エンハンスメントの感度を調節するためのシステムは、
遠隔デバイスから受信デバイスにより受信した入力音声信号を、受信デバイスにより受信し、入力音声信号にオーディオエンハンスメントを適用して、入力音声信号中のフォルマントのうちの１つ以上を強調することができる音声エンハンスメントモジュールを含んでいる。システムは、入力音声信号中に存在する環境ノイズの量に少なくとも部分的に基づいて、音声エンハンスメントモジュールにより適用されるオーディオエンハンスメントの量を調節することができるエンハンスメント制御装置をさらに含むことができる。システムは、受信デバイスのマイクロフォンから取得したマイクロフォン入力信号と、音声エンハンスメントモジュールの出力信号として提供されたスピーカー入力信号とのうちの少なくとも１つまたは双方の統計的解析に少なくとも部分的に基づいて、環境ノイズに対するエンハンスメント制御装置の感度を調節することができ、１つ以上のプロセッサを有するノイズ感度制御装置をさらに含むことができる。

ある実施形態では、音声エンハンスメントの感度を調節するための方法は、入力オーディオ信号を受信することと、入力オーディオ信号中の相関しているコンテンツを検出することと、検出の実行に応答して、入力オーディオ信号に適用されるエンハンスメントのレベルを調節することとを含み、検出することは、１つ以上のプロセッサを使用して、入力オーディオ信号の統計的解析を計算することを含む。

さらに、さまざまな実施形態では、オーディオ信号処理方法は、マイクロフォン入力信号を受信することと、マイクロフォン入力信号中の実質的に周期的なコンテンツを検出することと、マイクロフォン入力信号中で検出した実質的に周期的なコンテンツに少なくとも部分的に基づいて、１つ以上のプロセッサによりオーディオエンハンスメントを調節することとを含んでいる。オーディオエンハンスメントは、マイクロフォン入力信号のレベルに少なくとも部分的に基づいて、オーディオ出力信号を選択的に向上させることができる。方法は、さらに、オーディオ出力信号をスピーカーに提供することとを含むことができる。

本開示を要約する目的のために、本発明のある態様、利点、および、新規の特徴をここで説明する。ここで開示する本発明の何らかの特定の実施形態にしたがって、このようなすべての利点を必ずしも達成できるわけではないことを理解すべきである。したがって、ここで教示または示唆することがあるような他の利点を必ずしも達成することなく、ここで教示されているような１つの利点または利点のグループを達成するあるいは最適化する方法で、ここで開示する発明を具現化または実行することができる。

図面全体を通して、参照するエレメント間の対応を示すために、参照番号を再使用することができる。図面は、ここで説明する発明の実施形態を示すが、それらの範囲を限定しないように提供されている。
図１は、音声エンハンスメントシステムを実現するための移動体電話機環境の実施形態を示している。図２は、図１の音声エンハンスメントシステムの実施形態を示している。図３は、音声エンハンスメントシステムにより使用される音声エンハンスメント制御プロセスの実施形態を示している。図４は、音声エンハンスメントシステムにより使用される出力ボリューム制御プロセスの実施形態を示している。図５Ａは、音声エンハンスメントシステムにより使用されるノイズ感度制御プロセスの実施形態を示している。図５Ｂは、音声エンハンスメントシステムにより使用されるノイズ感度制御プロセスの実施形態を示している。図５Ｃは、音声エンハンスメントシステムにより使用されるノイズ感度制御プロセスの実施形態を示している。図６は、音声エンハンスメントシステムにより使用されるノイズ感度制御プロセスの実施形態を示している。図７は、図１のシステムの例示的な歪み制御モジュールを示している。図８は、サイン波の例示的な時間ドメイン表現を示している。図９は、図８のサイン波の例示的な周波数スペクトルを示している。図１０は、クリップしたサイン波の例示的な時間ドメイン表現を示している。図１１は、図１０のクリップしたサイン波の例示的な周波数スペクトルを示している。図１２は、図１１のクリップしたサイン波スペクトルと比較した、減少した数の高調波を有する、例示的な周波数スペクトルを示している。図１３は、図１２のスペクトルに対応している、部分的に飽和している波の例示的な時間ドメイン表現を示している。図１４は、サインの和のマッピング関数の実施形態を示している。図１５は、オーディオ信号と、その信号の歪み制御されたバージョンとの例示的な時間ドメイン表現を示している。

詳細な説明

Ｉ．イントロダクション
移動体電話機および他の類似したサイズのデバイスは、生成させるサウンドのボリュームが制限されている小型のスピーカーを有する傾向がある。それゆえ、環境ノイズが存在するときには、移動体電話機上で会話を聞くのが難しいことがある。

本開示は、環境ノイズと、スピーチレベルと、これらの組み合わせと、これらに類するものとに基づいて、音声了解度処理を適応させるためのシステムおよび方法を説明している。音声了解度処理は、スピーチ中のフォルマントを強調する技術を含むことができる。音声了解度処理を使用して、例えば、移動体電話機上またはこれに類するものの上での会話におけるスピーチをはっきりさせることができる。環境ノイズに少なくとも部分的に基づいて、音声フォルマントの強調および他のボーカル特性の強調を増加させる、あるいは、減少させるように、音声了解度処理を適応させることができる。音声了解度処理を増加させることにより、リスナーによりさらに明確に知覚されるようにスピーカーのスピーチ中のフォルマントを強調することができる。しかしながら、かなりの環境ノイズがないときには、スピーチ中のフォルマントを強調することにより、スピーチのサウンドが耳障りに聞こえることがある。したがって、環境ノイズが減少した場合には、スピーチにおける耳障りさを避けるために、音声了解度処理の量を減少させることができる。

加えて、ノイズレベルおよび／または音声レベルに少なくとも部分的に基づいて、オーディオ信号の全体的な利得を適応的に増加させることもできる。しかしながら、オーディオ信号の利得が、あるレベルを超えて増加した場合に、オーディオ信号の飽和が生じ、高調波歪みを引き起こすことがある。飽和の歪み効果を減少させるために、ある実施形態では、歪み制御プロセスを使用することがある。歪み制御プロセスは、高い利得のシチュエーションの間に生じる歪みを減少させることができる一方で、何らかの歪みが、ラウドネスを保つまたは増加させるように生じることを可能にする。ある実施形態では、オーディオ信号を、完全に飽和した信号よりも少ない高調波を有する出力信号にマッピングすることにより、歪み制御を実行することができる。

ＩＩ．システム概要
図１は、音声エンハンスメントシステム１００を実現するための移動体電話環境１００の実施形態を示している。例示的な移動体電話機環境１００では、発呼者電話機１０４と受信者電話機１０８とが示されている。発呼者電話機１０４および受信者電話機１０８は、移動体電話機や、ヴォイスオーバーインターネットプロトコル（ＶｏＩＰ）電話機や、スマートフォンや、地上線電話機や、または、これらに類するものとすることができる。発呼者電話機１０４は、移動体電話環境１００の遠端にあると考えることができ、受信者電話機は、移動体電話機環境１００の近端にあると考えることができる。受信者電話機１０８のユーザが話しているときには、近端と遠端は逆であることもある。

表されている実施形態では、発呼者により、音声入力１０２が発呼者電話機１０４に提供されている。発呼者電話機１０４中の送信機１０６は、受信者電話機１０８に音声入力信号１０２を送信する。送信機１０６は、発呼者電話機１０４のタイプに依存して、ワイヤレスに、または、地上線を通して、音声入力信号１０２を送信することができる。受信者電話機１０８の音声エンハンスメントシステム１１０は、音声入力信号１０２を受信することができる。音声エンハンスメントシステム１１０は、音声入力信号１０２の了解度を増加させるためのハードウェアおよび／またはソフトウェアを含むことができる。音声エンハンスメントシステム１１０は、例えば、ボーカルサウンドの特徴的な特性を強調する音声エンハンスメントにより、音声入力信号１０２を処理することができる。

音声エンハンスメントシステム１１０は、受信者電話機１０８のマイクロフォンを使用して、環境ノイズ１１２を検出することもできる。環境ノイズまたは環境コンテンツ１１２は、バックグラウンドノイズまたは周囲ノイズを含むことがある。その普通の意味に加えて、環境ノイズまたは環境コンテンツは、何らかのまたはすべての近端サウンドを含むこともある。例えば、受信者電話機１０８のマイクロフォンにより受け取られるバックグラウンドノイズに加えて、環境ノイズまたは環境コンテンツは、スピーカー出力１１４からのエコーを含むことがある。いくつのインスタンスでは、環境ノイズは、咳と、咳払いと、ダブルトーク（下記の“ノイズ感度制御”セクションを参照）とを含む、受信者電話機１０８のユーザからの音声入力も含むことがある。

有利なことに、ある実施形態では、音声エンハンスメントシステム１１０は、環境ノイズ１１２の量に少なくとも部分的に基づいて、音声入力信号１０２に音声エンハンスメントを適用する程度を適応させる。例えば、環境ノイズ１１２が増加した場合には、音声エンハンスメントシステム１１０は、適用される音声エンハンスメントの量を増加させることができ、逆もまた同じである。それゆえ、音声エンハンスメントは、検出した環境ノイズ１１２の量を少なくとも部分的に追跡することがある。

加えて、音声エンハンスメントシステム１１０は、環境ノイズ１１２の量に少なくとも部分的に基づいて、音声入力信号１０２に適用される全体的な利得を増加させることができる。しかしながら、より少ない環境ノイズ１１２が存在するときには、音声エンハンスメントシステム１１０は、適用される音声エンハンスメントおよび／または利得の増加の量を減少させることができる。低いレベルのバックグラウンドノイズ１１２があるときには、音声エンハンスメントおよび／またはボリュームの増加により、サウンドが耳障りにまたは不快に聞こえることがあるので、この減少はリスナーにとって有益であることがある。

したがって、ある実施形態では、音声エンハンスメントシステム１１０は、変化するレベルの環境ノイズが存在するときに、音声入力信号を、リスナーに対してより高い了解度であることがある向上された出力信号１１４に変換する。いくつかの実施形態では、音声エンハンスメントシステム１１０は、発呼者電話機１０４中にも含まれることがある。音声エンハンスメントシステム１１０は、発呼者電話機１０４により検出された環境ノイズの量に少なくとも部分的に基づいて、音声入力信号１０２にエンハンスメントを適用するかもしれない。それゆえ、発呼者電話機１０４において、受信者電話機１０８において、または、その双方において、音声エンハンスメントシステム１１０を使用することができる。

音声エンハンスメントシステム１１０は、電話機１０８の一部であるように示されているが、音声エンハンスメントシステム１１０は、その代わりに、何らかの通信デバイス中で、または、電話機と通信する何らかのデバイス中で、実現することができる。例えば、音声エンハンスメントシステム１１０は、コンピュータ中で、ルータ中で、アナログ電話機適応器中で、あるいは、ＶｏＩＰイネーブルな電話機と通信するか、または、ＶｏＩＰイネーブルな電話機に結合されているこれらに類するものの中で実現することができる。音声エンハンスメントシステム１１０はまた、（パブリックアドレス（“ＰＡ”）オーバーインターネットプロトコルを含む）パブリックアドレス（“ＰＡ”）機器中で、無線トランシーバ中で、支援ヒアリングデバイス（例えば、補聴器）中で、スピーカー電話機中で、および、他のオーディオシステム中で、使用することができる。さらに、音声エンハンスメントシステム１１０は、１つ以上のスピーカーにオーディオ出力を提供する何らかのプロセッサベースのシステム中で実現することができる。

図２は、音声エンハンスメントシステム２１０のさらに詳細な実施形態を示している。音声エンハンスメントシステム２１０は、音声エンハンスメントシステム１１０のすべての特徴を有することができる。音声エンハンスメントシステム２１０は、移動体電話機中で、セル電話機中で、スマートフォン中で、または、上記で述べたデバイスのうちの何らかのものを含む他のコンピューティングデバイス中で、実現することができる。有利なことに、ある実施形態では、音声エンハンスメントシステム２１０は、環境ノイズの検出量におよび／または音声信号のレベルに少なくとも部分的に基づいて、音声了解度処理とボリューム処理を適応させる。

音声エンハンスメントシステム２１０は、音声エンハンスメントモジュール２２０を含む。音声エンハンスメントモジュール２２０は、音声入力信号２０２に音声エンハンスメントを適用するためのハードウェアおよび／またはソフトウェアを含むことができる。音声エンハンスメントは、音声入力信号２０２中のボーカルサウンドの特徴的な特性を強調することができる。ある実施形態では、これらの特徴的な特性は、人（例えば、電話機を使用している発呼者）の声道において生成されるフォルマントを含んでいる。人間の音声の了解度は、フォルマントの周波数分布のパターンに大きく依存することがある。それゆえ、音声エンハンスメントモジュール２２０は、バックグラウンドノイズが存在するときに、より理解しやすいスピーチを提供するフォルマントを選択的に向上させることができる。

ある実施形態では、音声エンハンスメントモジュール２２０は、“パブリックアドレス了解度システム”と題する、１９９５年１０月１７日発行のＵＳ特許第５，４５９，８１３号（“‘８１３特許”）中で説明されている特徴のうちのいくつかまたはすべてを使用して、音声エンハンスメントを適用する。この特許の開示は、参照によりここにそのすべてが組み込まれている。‘８１３特許は、回路の文脈でこれらの特徴を説明しているが、音声エンハンスメントモジュール２２０は、デジタル信号プロセッサ（ＤＳＰ）のような、プロセッサ中で実行される命令を使用して、これらの特徴のうちのいくつかまたはすべてを実現することができる。付加的に、音声エンハンスメントモジュール２２０は、‘８１３特許中で開示されていない音声エンハンスメント技術も使用することができる。

音声エンハンスメントモジュール２２０は、音声入力信号２０２を周波数サブバンドに分割することにより、フォルマントを処理することができる。音声エンハンスメントモジュール２２０は、音声入力信号２０２を、２つ以上のサブバンドに、または、これらに類するものに分割することができる。音声エンハンスメントモジュール２２０は、フォルマントが生じる傾向があるところの中央周波数を、または、フォルマントが生じる傾向があるところの近くの中央周波数を有するバンドパスフィルタを適用することにより、この周波数分割を実行することができる。ある実施形態では、例えば、コラム４の５０行目〜コラム５の２４行目と、コラム７の１０〜３２行目とに説明されている、‘８１３特許のスペクトル解析器４２または１２４により（または、そのデジタルインプリメンテーションにより）、この周波数分割を達成することができる。‘８１３特許のこれらの部分は、ここでの参照により特にここに組み込まれている。

音声エンハンスメントモジュール２２０は、サブバンド中のフォルマントを個別に増幅することにより、および、サブバンド中のフォルマントを選択的に重み付けすることにより、音声エンハンスメントを適用することができる。フォルマントの重み付けは、あるフォルマントを強調させることができ、それにより、了解度を増加させる。音声エンハンスメントモジュール２２０は、重み付けされたフォルマントと、ベースバンド音声成分とを組み合わせて、（以下で説明する）出力利得制御装置２３０に出力音声信号を提供することができる。音声エンハンスメントモジュール２２０は、破裂音および摩擦音のような、他のボーカルの特徴的な特性を向上させることもできる。

音声エンハンスメントモジュール２２０は、‘８１３特許中の、例えば、コラム５の１〜７行目と、コラム５の４６行目〜コラム６の１９行目と、コラム９の８〜３９行目とにおいて説明されているのと同じ方法でまたは類似した方法で（または、そのデジタルインプリメンテーションで）、これらの増幅、重み付け、組み合わせの機能を実行することができる。‘８１３特許のこれらの部分は、ここでの参照により、特にここに組み込まれている。これらの機能のうちのあるものをデジタル的にどのように実現するかという例を示すために、‘８１３特許は、さまざまなレジスタを使用して、あるサブバンド中の信号を重み付けすることを説明している（例えば、コラム５の６６行目〜コラム６の１９行目参照）。音声エンハンスメントモジュール２２０は、メモリ中に利得値を記憶させて、プロセッサを使用してこの利得値を信号に適用することにより、これらの重みをデジタル的に実現することができる。

有利なことに、ある実施形態では、音声エンハンスメント制御装置２２２が提供されており、音声エンハンスメント制御装置２２２は、音声エンハンスメントモジュール２２０により提供される音声エンハンスメントのレベルを制御することができる。音声エンハンスメント制御装置２２２は、ハードウェアおよび／またはソフトウェアを含むことができる。音声エンハンスメント制御装置２２２は、エンハンスメントレベル制御信号またはエンハンスメントレベル制御値を、音声エンハンスメントモジュール２２０に提供することができ、音声エンハンスメントモジュール２２０は、適用される音声エンハンスメントのレベルを増加させるまたは減少させる。１つの実施形態では、エンハンスメントレベル制御信号は、サブバンドの重み付けを調節することができる。例えば、制御信号は、サブバンドのうちのいくつかまたはすべての出力（または、入力）を乗算する１つ以上の利得値を含むことがある。同様に、制御信号を使用して、サブバンドのうちのいくつかまたはすべての入力あるいは出力を加算したり、または、サブバンドのうちのいくつかまたはすべての入力あるいは出力から減算することができる。環境ノイズ２０４が増加および減少するときに、制御信号は、サンプルごとに適応させることができる。

ある実施形態では、音声エンハンスメント制御装置２２２は、しきい値量の環境ノイズ２０４のエネルギーが検出された後に、音声エンハンスメントのレベルを適応させる。しきい値を上回ると、音声エンハンスメント制御装置２２２は、音声エンハンスメントのレベルに、環境ノイズ２０４の量を追跡させるか、または、実質的に追跡させることができる。例えば、１つの実施形態では、ノイズしきい値を上回って提供される音声エンハンスメントのレベルは、しきい値に対するノイズのエネルギー（または、電力）の比率に比例する。代替的な実施形態では、存在する環境ノイズの量にかかわらず、例えば、しきい値を使用することなく、音声エンハンスメントのレベルを適応させる。

音声エンハンスメントシステム２１０の表されている実施形態は、音声エンハンスメント制御装置２２２により提供される制御の量をさらに調節するための、ノイズ感度制御装置２２４と追加のエンハンスメント制御２２６とを含んでいる。ノイズ感度制御装置２２４は、存在するノイズ２０４の量に対して音声エンハンスメント制御装置２２２がどれほど感度が高いかを調節するためのノイズ感度制御値を、音声エンハンスメント制御装置２２２に提供することができる。下記でさらに詳細に説明するように、ノイズ感度制御装置２２４は、ノイズしきい値に影響を及ぼすことがあり、音声エンハンスメント制御装置２２２は、ノイズしきい値を下回る音声エンハンスメントのレベルを調節することはできない。

ある実施形態では、ノイズ感度制御装置２２４は、マイクロフォンから取得したオーディオサンプルにおよび／またはスピーカー入力に少なくとも部分的に基づいて、ノイズ感度制御を自動的に発生させる。有利なことに、ある実施形態では、ノイズ感度制御装置２２４は、マイクロフォンにより拾われたスピーカーエコーと、他のノイズアーティファクトとに対処するために、ノイズ感度を自動的に調節することができる。これらの特徴は、図５および図６に関して、下記でさらに詳細に説明する。加えて、いくつかの実施形態では、ノイズ感度制御装置２２４は、ユーザがノイズ感度制御を調節することを可能にするユーザインターフェースを提供する。したがって、ノイズ感度制御装置２２４は、音声エンハンスメント制御装置２２２の自動制御および／または手動制御を提供することができる。

追加のエンハンスメント制御２２６は、追加のエンハンスメント制御信号を音声エンハンスメント制御装置２２２に提供することができ、追加のエンハンスメント制御信号は、エンハンスメントレベルがその値を下回らない値として使用することができる。ユーザインターフェースを通して、追加のエンハンスメント制御２２６をユーザに見せることができる。この制御２２６は、音声エンハンスメント制御装置２２２により決定されたものを超えて、ユーザがエンハンスメントレベルを増加させることも可能にするかもしれない。１つの実施形態では、音声エンハンスメント制御装置２２２は、追加のエンハンスメント制御２２６からの追加のエンハンスメントを、音声エンハンスメント制御装置２２２により決定されたエンハンスメントレベルに追加することができる。追加のエンハンスメント制御２２６は、さらなる音声エンハンスメント処理を望んでいるか、または、音声エンハンスメント処理が頻繁に適用されることを望んでいる難聴者に対して特に有用であるかもしれない。

ある実施形態では、出力利得制御装置２３０は、音声エンハンスメントモジュール２２０の出力信号に適用される全体的な利得の量を制御することができる。ハードウェア中および／またはソフトウェア中で、出力利得制御装置２３０を実現することができる。出力利得制御装置２３０は、ノイズ入力２０４のレベルと音声入力２０２のレベルとに少なくとも部分的に基づいて、出力信号に適用される利得を調節することができる。電話機のボリューム制御のような、何らかのユーザ設定の利得に加えて、この利得を適用することができる。有利なことに、環境ノイズ２０４および／または音声入力２０２のレベルに基づいてオーディオ信号の利得を適応させることは、リスナーが音声入力信号２０２をさらに知覚するのを助けることができる。

表されている実施形態では、出力利得制御装置２３０により提供される利得の量をさらに調節することができる適応レベル制御２３２も示されている。ユーザインターフェースは、適応レベル制御２３２をユーザに見せることもできる。この制御２３２の増加は、到来音声入力２０２レベルが減少するように、または、ノイズ入力２０４が増加するように、制御装置２３０の利得をより多く増加させることができる。この制御２３２の減少は、到来音声入力信号２０２レベルが減少するように、または、ノイズ入力２０４が減少するように、制御装置２３０の利得をより少なく増加させることができる。

いくつかのケースでは、音声エンハンスメントモジュール２２０により、音声エンハンスメント制御装置２２２により、および／または、出力利得制御装置２３０により適用される利得は、音声信号をクリップさせるか、または、飽和させることがある。飽和は、結果として、リスナーにとって不快な高調波歪みになることがある。したがって、ある実施形態では、歪み制御モジュール１４０も提供されている。歪み制御モジュール１４０は、出力利得制御装置２３０の利得調節された音声信号を受け取ることができる。歪み制御モジュール１４０は、歪みを制御する一方で、音声エンハンスメントモジュール２２０により、音声エンハンスメント制御装置２２２により、および／または、出力利得制御装置２３０により提供される信号エネルギーを少なくとも部分的に保つか、または、増加させさえする、ハードウェアおよび／またはソフトウェアを含むことができる。

ある実施形態では、歪み制御モジュール１４０は、音声信号の１つ以上のサンプルを、完全に飽和している信号よりも少ない高調波を有する出力信号にマッピングすることにより、音声信号中の歪みを制御する。このマッピングは、飽和していないサンプルに対しては、線形にまたはおおよそ線形に音声信号を追跡することができる。飽和しているサンプルに対しては、このマッピングは、制御された歪みを適用する非線形変換とすることができる。結果として、ある実施形態では、歪み制御モジュール１４０は、完全に飽和している信号よりも少ない歪みにより、音声信号がさらに大きくサウンドを出すことを可能にする。したがって、ある実施形態では、歪み制御モジュール１４０は、物理的な音声信号を表すデータを、制御された歪みを持つ別の物理的な音声信号を表すデータに変換する。

ＩＩＩ．音声エンハンスメント制御
図３は、音声エンハンスメント制御プロセス３００の実施形態を示している。音声エンハンスメント制御プロセス３００は、音声エンハンスメントシステム１１０または２１０により実現することができる。特に、音声エンハンスメント制御プロセス３００は、音声エンハンスメント制御装置２２２により実現することができる。有利なことに、ある実施形態では、音声エンハンスメント制御プロセス３００は、環境ノイズエネルギーのレベルに少なくとも部分的に基づいて、音声エンハンスメント処理を適応させる。

ブロック３０２において、電話機のような通信デバイスにより、環境ノイズ入力信号を受信する。通信デバイスのマイクロフォンにより、環境ノイズ入力信号を検出することができる。決定ブロック３０４において、環境制御をイネーブルするか否かを決定する。イネーブルしない場合には、ブロック３０６にゼロの値を提供することができる。１つの実施形態では、通信デバイスのユーザインターフェースから、ユーザにより環境制御をイネーブルするか、または、ディセーブルすることができる。環境制御をディセーブルすることは、上記で説明した追加の制御レベルのような、ノイズレベル以外のファクターに基づいて、音声エンハンスメント制御プロセスに、音声エンハンスメント処理を調節させることができる。

ブロック３０６において、ノイズ信号の絶対値をとることにより、および、ブロック３０８において、ノイズ信号にノイズスムージングフィルタを適用することにより、環境ノイズ信号中のエネルギーを計算することができる。ノイズスムージングフィルタは、第１の次数のフィルタまたはより高い次数のフィルタとすることができる。例えば、スムージングフィルタは、ローパスフィルタまたはこれに類するものとすることができる。いくつかの実施形態では、スムージングフィルタは、サンプルベースごとに、平均（例えば、移動平均）ノイズエネルギーレベルを提供することができる。代替的な実施形態では、エネルギーの代わりにノイズ信号の電力が算出される。

ブロック３１０において、環境ノイズ信号のエネルギーを出力利得制御プロセスに提供することができる。例示的な出力利得制御プロセスは、図４に関して下記で説明する。環境ノイズエネルギーは決定ブロック３１２にも提供することができ、決定ブロック３１２は、エネルギーがノイズしきい値に達しているか否か（例えば、ノイズしきい値よりも大きいか、または、ノイズしきい値に等しいか）を決定することができる。１つの実施形態では、ノイズしきい値は次のように算出される：
ノイズしきい値＝１−（α＊ノイズ感度制御）式（１）
ここで、αは定数であり、ノイズ感度制御は、図２のノイズ感度制御装置２２４により発生された値とすることができる。ノイズ感度制御は、環境ノイズ入力３０２に対する音声エンハンスメント制御装置２２２の感度に影響を及ぼすことがある。ノイズ感度制御は、さまざまなファクターに基づいて変化することがあり、ノイズしきい値を変化させる（図５および図６参照）。ある実施形態では、αとノイズ感度制御の双方が［０，１］の間の範囲にあるか、または、それらは、この例示的な範囲外の他の値を有することがある。

表されている実施形態では、ノイズエネルギーがしきい値よりも大きいか、または、しきい値に等しい場合に、ノイズエネルギーは乗算ブロック３１４に渡される。そうでないならば、ゼロの制御レベルが乗算ブロック３１４に提供される。制御レベルは、図２に関して上記で説明した音声信号サブバンドに乗算することができるので、ゼロの制御レベルは、場合によっては、音声エンハンスメント処理が音声信号に何ら適用されないという結果になることがある（例えば、追加の処理が下記のブロック３１６に提供されない場合）。

乗算ブロック３１４において、決定ブロック３１２の出力に、ノイズしきい値の乗法的逆元を乗算する。代替的に、決定ブロック３１２の出力をノイズしきい値で除算する。乗算ブロック３１４の出力は、事前のエンハンスメントレベルとすることができる。したがって、ある実施形態では、このエンハンスメントレベルは、ノイズしきい値に対するノイズエネルギーの比とすることができる。

ブロック３１６において、図２に関して上記で説明した追加のエンハンスメント制御を事前のエンハンスメント制御レベルに加えることができる。追加のエンハンスメント制御は、［０，１］の範囲にあることがあるか、または、他の何らかの値を有することがある。決定ブロック３１８において、高い制御レベルに達しているか否かが決定される。高い制御レベルは、予め定められたピークまたは最大制御レベルとすることができる。高い制御レベルに達している場合に、決定ブロック３１８において、エンハンスメント制御レベルを高い制御レベルに制限することができる。そうでないならば、決定ブロック３１８は、エンハンスメント制御レベルを決定ブロック３２０に渡す。

決定ブロック３２０において、音声エンハンスメント制御をイネーブルするか否かを決定することができる。イネーブルしない場合には、ユーザ入力を使用して、音声エンハンスメント処理レベルを調節することができる。ユーザインターフェースまたはこれに類するものを通して、ユーザ入力をユーザに見せることができる。制御をイネーブルする場合には、ブロック３０２ないし３１８において算出したエンハンスメント制御レベルを、ブロック３２２において、出力制御レベルとして提供することができる。

現在の例ではノイズしきい値が使われていないが、すべての実施形態においてノイズしきい値を使用する必要はない。ある実施形態では、何らかのレベルのノイズに基づいて、音声エンハンスメント処理を適応させることがある。しかしながら、しきい値を使用することは、いくつかのシチュエーションでは有益であることがある。例えば、音声エンハンスメント処理は、低い環境ノイズのシチュエーションでは、耳障りであるか、または、不快なことがある。したがって、いつ音声エンハンスメント制御をオンにするかを決定するためにしきい値を使用することは、さらにかなりのノイズレベルが存在するときに、音声エンハンスメント処理を使用させることがある。

ＩＶ．出力利得制御
図４は、出力利得制御プロセス４００の実施形態を示している。出力利得制御プロセス４００は、音声エンハンスメントシステム１１０または２１０により実現することができる。特に、出力利得制御プロセス４００は、出力利得制御装置２３０により実現することができる。有利なことに、ある実施形態では、出力利得制御プロセス４００は、環境ノイズエネルギーのレベルと音声入力レベルとに少なくとも部分的に基づいて、出力利得を適応させる。

ブロック４０２において、電話機のような通信デバイスにより遠隔発呼者から音声入力信号を受信する。ブロック４０４において音声入力の絶対値をとることにより、ならびに、ブロック４０６において音声スムージングフィルタを適用することにより、ブロック４０４および４０６において、音声入力信号中のエネルギーが決定される。音声スムージングフィルタは、サンプルベースごとに、サンプルにおける平均（例えば、移動平均）音声レベルを提供する、ローパスフィルタまたはこれに類するものとすることができる。

ブロック４０８において、環境ノイズエネルギーを受信する。この環境ノイズエネルギーは、上記で説明したボリューム制御プロセス３００において算出されたものである。決定ブロック４１０において、音声スムージングフィルタの出力は、受信利得しきい値と比較され、環境ノイズエネルギーは、マイクロフォン利得しきい値と比較される。受信利得しきい値は、図２に関して上記で説明した適応利得制御に少なくとも部分的に依存することがある。マイクロフォン利得しきい値は、図２に関して上記で説明したノイズ感度制御に少なくとも部分的に依存することがある。

１つの実施形態では、受信利得しきい値は次のように算出される：
受信利得しきい値＝０．５＋（γ＊適応利得制御）式（２）
ここで、γは、［０，１］の間の範囲にある定数であり、適応利得制御は、図２の適応利得制御２３２に対応する値である。同様に、マイクロフォン利得しきい値は次のように算出することができる：
マイクロフォン利得しきい値＝１−（η＊ノイズ感度制御）式（３）
ここで、ηは、［０，１］の間の範囲にある定数であり、ノイズ感度制御は、上記で説明したノイズ感度制御装置２２４により発生された値である。ノイズ感度制御は、値が変化することがあり（図５および図６も参照）、何らかの実施形態では、マイクロフォン利得しきい値も変化させる。

決定ブロック４１０において条件が満たされた場合に、環境ノイズエネルギーが乗算ブロック４１２に提供される。そうでないならば、低い利得レベルを乗算ブロック４１２に提供することができる。低い利得レベルは、最小利得レベルまたはこれに類するものとすることができる。例えば、環境ノイズエネルギーが比較的低く、かつ、音声入力が比較的高いシチュエーションでは、低い利得レベルを使用することがある。これらのシチュエーションでは、音声信号は既に比較的了解度が高いことがあるので、利得調節はほとんど望まれないかもしれない。

乗算ブロック４１２において、決定ブロック４１０の出力にマイクロフォン利得しきい値の乗法的逆元を乗算し、利得レベルを生成させる。代替的に、決定ブロック４１０の出力をマイクロフォン利得しきい値で除算することができる。したがって、利得レベルは、マイクロフォン利得しきい値に対する環境ノイズエネルギーの比とすることができる。ブロック４１４において、高い利得レベルに達しているか否かが決定される。達していない場合には、乗算ブロック４１２の出力が出力利得スムージングフィルタ４１６に渡される。そうでないならば、高い利得レベルが出力利得スムージングフィルタに提供される。高い利得レベルは、最大利得レベルまたはこれに類するものとすることができる。

ブロック４１６において、決定ブロック４１４の出力に出力利得スムージングフィルタが適用される。出力利得スムージングフィルタは、乗算ブロック４１２および／または決定ブロック４１４において算出した利得レベルを平均する、ローパスフィルタまたはこれに類するものとすることができる。このスムージングフィルタは、利得レベルにおける突然の変化を減少させることができる。ブロック４１８において、利得スムージングフィルタの出力に出力利得制御を乗算し、出力利得制御は、ユーザ設定値とすることができる。例えば、ユーザインターフェースを通して、出力利得制御をユーザに見せることができる。ブロック４２０において、乗算ブロック４１８の出力が、出力利得レベルとして提供される。

Ｖ．ノイズ感度制御
上記で説明したように、ノイズ感度制御装置２２４により発生されたノイズ感度制御は自動的に変化することがあり、または、ユーザ制御下に置かれることがある。ある実施形態では、ノイズ感度制御を変化させることは、ノイズに対する音声エンハンスメント制御装置２２２および／または出力利得制御装置２３０の感度に影響を及ぼす。１つの実施形態では、ノイズ感度制御を増加させることは、音声了解度をよりアグレッシブに向上させることにより、環境ノイズに対して音声エンハンスメント制御装置２２２をよりアグレッシブに応答させ、逆もまた同じである。同様に、ノイズ感度制御を増加させることは、出力利得制御装置２３０に、向上されたオーディオ信号に適用される出力利得をよりアグレッシブに増加させることがあり、逆もまた同じである。

音声エンハンスメント制御装置２２２および／または出力利得制御装置２３０の感度を自動的に減少させることが、いくつかのシチュエーションでは有益であることがある。例えば、図１の受信電話機１０８が、（例えば、会話中の合間のせいで）発呼者電話機１０４からの音声信号の代わりに単にノイズを受信している場合に、音声エンハンスメントを適用することは、ノイズのラウドネスを増加させるかもしれない。加えて、受信電話機１０８のマイクロフォンが、電話機１０８のスピーカー出力１１４からの音声信号を拾っているときに、不快な効果が生じることがある。このスピーカーフィードバックは、音声エンハンスメント制御装置２２２により、環境ノイズとして解釈されることがあり、音声エンハンスメント制御装置２２２は、音声エンハンスメントに、スピーカーフィードバックを調整させることがある。結果の調整された出力信号１１４は、リスナーにとって不快であることがある。受信者電話機１０８が発呼者電話機１０４から受信した音声信号を出力しているのと同時に、リスナーが受信者電話機１０８に向かって話すときに、類似する問題が生じることがある。受信電話機１０８のマイクロフォンは、このダブルトークを検出することがあり、音声エンハンスメント制御装置２２２は、音声エンハンスメントに、ダブルトークを調整させることがあり、結果として、不快なサウンドになる。

ある実施形態では、ノイズ感度制御装置２２４は、ノイズに対する音声エンハンスメント制御装置２２２および／または出力利得制御装置２３０の感度を自動的に調節することにより、これらの問題および他の問題に取り組むことができる。代替的に、ノイズ感度制御装置２２４は、音声エンハンスメント制御装置２２２および／または出力利得制御装置２３０をトグルする（例えば、オンにする、または、オフにする）ことができる。図５Ａ、図５Ｂ、および、図５Ｃを参照すると、ノイズ感度制御装置５２４ａ、５２４ｂ、および５２４ｃのより詳細な実施形態が示されている。図５Ａのノイズ感度制御装置５２４ａは、受信電話機１０８が遠端からの（例えば、発呼者電話機１０４からの）音声信号の代わりに、単にノイズを受信するシチュエーションに対処するために、制御装置２２２、２３０のノイズ感度を調節するか、または、制御装置２２２、２３０をトグルすることができる。図５Ｂのノイズ感度制御装置５２４ａは、スピーカーフィードバックおよび／またはダブルトークのシチュエーションに対処するために、制御装置２２２、２３０のノイズ感度を調節するか、あるいは、制御装置２２２、２３０をトグルすることができる。図５Ｃのノイズ感度制御装置５２４ｃは、図５Ａ中および図５Ｂ中で示されている制御装置５２４ａ、５２４ｂの特徴を組み合わせる。

図５Ａにおいて、ノイズ感度制御装置５２４ａが、スピーカー入力５０２ａを受け取る。スピーカー入力５０２ａは、バッファ中またはこれに類するものの中に記憶されている１つ以上の出力サンプルを含むことがあり、これは、電話機１０８のような通信デバイスのスピーカーにも提供される。スピーカー入力５０２ａは、上記で説明した音声エンハンスメントシステム２１０の出力信号２５０とすることができる。スピーカー入力５０２ａは、スピーカー入力５０２ａの自己相関を算出または推定することができる相関器５３０ａに提供される。ある実施形態では、相関器５３０ａは、スピーカー入力５０２ａ中のサンプルのブロックの自己相関を算出する。

音声信号は、周期的または実質的に周期的である傾向がある。したがって、スピーカー入力５０２ａが音声信号を含む場合に、自己相関の性質により、スピーカー入力５０２ａの自己相関関数もまた、周期的または実質的に周期的であることがある。一方、ノイズ信号は、相関していないか、または、周期的でないことが多い（いくつかの例外を下記で説明する）。周期的な信号または実質的に周期的な信号の自己相関の評価は、結果として、多くのノイズ信号の自己相関よりも大きな値になることがある。

相関器５３０ａにより算出された自己相関値は、感度調節器５５０ａに提供される。１つの実施形態では、自己相関が低いか、または、自己相関がしきい値を下回っている場合に、スピーカー入力５０２ａは、ノイズである可能性が最も高い。したがって、感度調節器５５０ａは、上記の式（１）および（３）のノイズ感度制御に対応するノイズ感度制御５０４ａを減少させることができる。ノイズ感度制御５０４ａを調節することは、それゆえ、音声エンハンスメント制御装置２２２により使用されるノイズしきい値をおよび／または出力利得制御装置２３０により使用されるマイク利得しきい値を調節することができる。結果として、音声エンハンスメント制御装置２２２および／または出力利得制御装置２３０は、環境ノイズに対してよりアグレッシブでなく応答することがある。自己相関が高いか、または、自己相関がしきい値を上回っている（音声を含む可能性があるスピーカー入力５０２ａを表している）場合に、感度調節器５５０ａは、ノイズ感度制御５０４ａを増加させることができる。結果として、音声エンハンスメント制御装置２２２および／または出力利得制御装置２３０は、環境ノイズに対してよりアグレッシブに応答することがある。

ある実施形態では、感度調節器５５０ａにより提供される感度調節の量は、自己相関レベルに対応することがある。例えば、自己相関が低くなればなるほど、感度調節器５５０ａは、ノイズ感度制御５０４ａをより低くさせるかもしれず、逆もまた同じである。

表されている実施形態では、相関器５３０ａは、オプション的な分散モジュール５４０ａにも自己相関値を提供する。分散モジュール５４０ａは、自己相関値のブロックの分散を算出または推定することができる。分散モジュール５４０ａは、結果の分散値を感度調節器５５０ａに提供することができ、感度調節器５５０ａは、この分散値を使用して、ノイズ感度制御５０４ａの調節をより良くすることができる。より高い分散値が、音声信号の存在を反映することがあるのに対し、より低い分散値は、主として、ノイズの存在を反映することがある。したがって、感度調節器５５０ａは、自己相関と分散値の双方が高いときに、ノイズ感度制御５０４ａを増加させ、１つまたは双方の値が低いときには、ノイズ感度制御５０４ｂを減少させる論理を含むことがある。

示されている例示的なノイズ感度制御装置５２４ａに対する多くの代替的なコンフィギュレーションを提供してもよい。例えば、分散モジュール５４０ａを省略してもよい。代替的に、相関器５３０ａは、分散モジュール５４０ａにのみ値を提供することがあり、感度調節器５５０ａは、この分散値にのみ基づいて、ノイズ感度制御５０４ａを調節することがある。加えて、相関器５３０ａは、他の統計的な手段を使用して、スピーカー入力５０２ａを解析することができる。例えば、相関器５３０ａは、何らかの正規化された不偏推定量を使用することができる。１つの実施形態では、相関器５３０ａは、サンプルのブロック中の総電力またはエネルギーにより相関を正規化する。電力により相関を正規化することは、入力信号５０２ａの電力における変動に基づいてではなく、入力信号５０２ａの特性に基づいて、感度調節器５５０ａに、ノイズ感度制御５０４ａを調節させることができる。

図５Ｂを参照すると、例示的なノイズ感度制御装置５２４ｂは、図５Ａの特徴のうちの多くのものを含んでいる。しかしながら、スピーカー入力５０２ａを受け取る代わりに、ノイズ感度制御装置５２４ｂは、マイクロフォン（“マイク”）入力５０２ｂを受け取り、マイクロフォン（“マイク”）入力５０２ｂは、マイクロフォンにより受信したサンプルのブロックを含むことがある。上記で説明した相関および／または分散の技術をマイク入力５０２ｂに適用することにより、スピーカーフィードバックおよび／またはダブルトークが存在するときに、ノイズ感度制御装置５２４ｂが、音声了解度処理を改善することが可能になることがある。

マイク入力５０２ｂは相関器５３０ｂに提供され、相関器５３０ｂは、上記で説明した同じ自己相関の特徴を提供することができる。スピーカーフィードバックまたはダブルトークのケースでは、マイク入力５０２ｂは、周期的な情報または実質的に周期的な情報を含んでいるかもしれない。結果として、自己相関関数は、周期的または実質的に周期的であることがあり、相関器５３０ｂにより計算される自己相関値は、多くの形態のノイズの自己相関よりも高いことがある。

前のように、相関器５３０ｂは、感度調節器５５０ｂに自己相関値を提供することができる。自己相関値が高いか、または、自己相関値がしきい値を上回っている場合に、感度調節器５５０ｂは、ノイズ感度制御５０４ｂを減少させて、スピーカーフィードバックおよび／またはダブルトークにより生じる音声エンハンスメント調整を減少させることができる。同様に、自己相関値が低いか、または、自己相関がしきい値を下回っている場合に、感度調節器５５０ｂは、ノイズ感度制御５０４ｂを増加させることができる。上記のように、感度調節器５５０ｂは、自己相関レベルに少なくとも部分的に基づいて、ノイズ感度制御５０４ｂの量を調節することができる。

相関器５３０ｂは、オブション的な分散モジュール５４０ｂにも自己相関値を提供する。分散モジュール５４０ｂは、分散を、または、自己相関値のブロックの分散の近似を算出することができる。分散モジュール５４０ｂは、感度調節器５５０ｂに結果の分散値を提供することができ、感度調節器５５０ｂは、この分散値を使用して、ノイズ感度制御５０４ｂの調節をより良くすることができる。より高い分散値が、スピーチフィードバックおよび／またはダブルトークの存在を反映することがあるのに対し、より低い分散値は、主として、ノイズの存在を反映することがある。したがって、感度調節器５５０ｂは、分散が高いときには、ノイズ感度制御５０４ａを減少させることもでき、逆もまた同じである。

分散モジュール５４０ｂは、高調波コンテンツを有するあるノイズ信号に有益に対処することができる。自動車および飛行機により発生されるもののような、何らかのノイズ信号は、より低い周波数高調波コンテンツを有しており、より低い周波数高調波コンテンツは、結果としてより高い相関値になることがある。しかしながら、これらのノイズ信号の自己相関は、音声信号に対するものよりもさらに低い分散値を有していてもよい。したがって、感度調節器５５０ｂは、自己相関値と分散値の双方が高いときには、ノイズ感度制御５０４ｂを減少させ、１つまたは双方の値が低いときには、ノイズ感度制御５０４ｂを増加させる論理を含んでいるかもしれない。

さまざまな実施形態では、ノイズ感度制御装置５２４ｂに関して上記で説明した代替的なコンフィギュレーションは、ノイズ感度制御装置５２４ｂを修正するためにも適用することができる。さらに、代替的な実施形態では、相関器５３０ｂ、分散モジュール５４０ｂ、および／または、感度調節器５５０ｂの代わりに（または、相関器５３０ｂ、分散モジュール５４０ｂ、および／または、感度調節器５５０ｂに加えて）、音響エコーキャンセラを使用することができる。音響エコーキャンセラは、マイク入力５０２ｂにおいて、スピーカーから受け取ったエコーを減少させるか、または、消去することができる。何らかの適切な音響エコーキャンセラを使用することができる。例えば、１９９３年３月のＩＴＵ−ＴリコメンデーションＧ．１６７中で説明されている特徴を実現する音響エコーキャンセラを用いることができ、これは、参照によりそのすべてがここに組み込まれている。しかしながら、ある実施形態では、音響エコーキャンセラよりも少ない処理リソースにより、ここで説明する相関および／または分散の特徴を有利に実現することができる。

図５Ｃを参照すると、ノイズ感度制御装置５２４ｃは、ノイズ感度制御装置５２４ａの特徴とノイズ感度制御装置５２４ｂの特徴を組み合わせる。特に、ノイズ感度制御装置５２４ｃは、マイク入力５０２ｂとスピーカー入力５０４ａの双方を受け取る。スピーカー入力５０２ａは、相関器５３０ａと、分散モジュール５４０ａとに提供され、相関器５３０ａは、感度調節器５５０ｃに自己相関値を提供し、分散モジュール５４０ａは、感度調節器５５０ｃに分散値を提供する。マイク入力５０２ｂは、相関器５３０ｂと、分散モジュール５４０ｂとに提供され、相関器５３０ｂは、感度調節器５５０ｃに自己相関値を提供し、分散モジュール５４０ｂは、感度調節器５５０ｃに分散値を提供する。

感度調節器５５０ｃは、コンポーネント５３０ａ、５３０ｂ、５４０ａ、および、５４０ｂのうちのいずれかから受け取った情報に少なくとも部分的に基づいて、ノイズ感度制御５０４ｃを調節する論理を備えることができる。ある実施形態では、感度調節器５５０ｃは、軟判定を実行して、ノイズ感度制御５０４ｃを調節する。感度調節器５５０ｃにより実行することができるプロセス６００の１つの例が、図６により表されている。プロセス６００の決定ブロック６０２において、マイク分散値がしきい値よりも大きいか否かが決定される。分散モジュール５４０ｂにより、マイク分散値を算出することができる。マイク入力５０２ｂの自己相関における分散が、しきい値よりも大きい場合に、スピーチフィードバックまたはダブルトークによって存在する、周期的なあるいは実質的に周期的な信号があるかもしれない。したがって、ブロック６０４において、感度調節器５５０ｃは、相関器５３０ｂからの相関値に少なくとも部分的に基づいて、ノイズ感度制御を減少させ、より高い相関値は、潜在的に、結果としてより大きな減少になる。

マイク分散がしきい値よりも小さい場合に、スピーカー分散がしきい値よりも小さいか否かが決定ブロック６０６において決定される。スピーカー分散値は、分散モジュール５４０ａにより、スピーカー入力５０２ａの自己相関から算出することができる。スピーカー分散がしきい値を上回っている場合に、スピーカー入力５０２ａ中にスピーチ信号が存在する可能性が高い。したがって、ブロック６０８において、感度調節器５５０ｃは、ノイズ感度制御をデフォルトレベルに設定する。

スピーカー分散がしきい値を下回っている場合に、スピーカー入力５０２ａ中にノイズが存在する可能性が高い。したがって、感度調節器５５０ｃは、相関器５３０ａからの相関値に少なくとも部分的に基づいて、ノイズ感度制御を減少させ、より低い相関値は、潜在的に、結果としてより大きな減少になる。

プロセス６００は、感度調節器５５０ｃの１つの例示的なインプリメンテーションを示している。他の実施形態では、プロセス６６０において説明しているしきい値のうちの１つまたは双方にヒステリシスを提供してもよい。さらに他の実施形態では、ブロック６０４において、相関値に直接依存しないある低い値にノイズ感度制御を設定する。同様に、ブロック６１０におけるノイズ感度制御は、相関値に依存しない値に設定することができる。加えて、標準偏差、高次モーメント、音響エコー消去、および、これらに類するものを含む、自己相関および分散以外の他の統計的な手段を使用して、ノイズ感度を調節してもよい。他の多くのコンフィギュレーションもまた可能である。

さらに一般的に、上記で説明したノイズ感度制御装置のうちの何らかのものは、入力オーディオ信号の１つ以上の音声、ダイアログ、または、スピーチの成分を検出ならびに／あるいは分類する、音声、ダイアログ、もしくは、スピーチの分類器であると考えることができる。ノイズ感度制御装置は、音声検出器または一般信号分類器であると考えることもできる。ノイズ感度制御装置は、１つ以上のプロセッサを使用して、入力オーディオ信号の１つ以上の統計を解析することに少なくとも部分的によって、音声または信号の分類あるいは検出を実行することができる。自己相関および分散、音響エコー消去、ならびに、推定量は、ノイズ感度制御装置により用いることができる技術の単なる例である。他の統計的技術を含む他の技術を使用して、入力信号の音声または他の成分を検出することができる。

加えて、スピーチフィードバックおよびダブルトークも、検出することができる音声成分の単なる例である。図５および図６に関して上記で説明したノイズ感度制御装置の特徴を使用して、テレビと、ラジオと、音楽と、他のコンテンツとのような、何らかのメディアコンテンツ中の音声成分を含む、オーディオ信号中の他の音声成分を検出することができる。例えば、制御装置は、メディアコンテンツ中のオーディオの自己相関を使用して、メディアコンテンツ中の音声成分を検出することができる。１つの実施形態では、制御装置は、検出した音声成分をダイアログエンハンスメントに提供することができ、適用されるダイアログエンハンスメントの量を増加または減少させ、それにより、ダイアログエンハンスメントがダイアログをより効率的に向上させることを可能にする。

ＶＩ．歪み制御
音声エンハンスメント制御装置２２２および／または出力利得制御装置２３０は、音声信号に適用される１つ以上の利得を増加させることができる。いくつかのケースでは、あるポイントを超えて利得を増加させることは、結果として、信号の飽和になることがあり、信号の飽和は、歪みを生成させることがある。有利なことに、ある実施形態では、上記で説明した歪み制御モジュール２４０は、制御された歪みを、したがってより大きなラウドネスを提供することができる。

図７は、歪み制御モジュール７４０のさらに詳細な実施形態を示しており、歪み制御モジュール７４０は、上記で説明した歪み制御モジュール１４０の特徴のすべてを有していることがある。ハードウェア中および／またはソフトウェア中で、歪み制御モジュール７４０を実現することができる。ある実施形態では、歪み制御モジュール７４０は、選択された歪みをオーディオ信号中で引き起こして、信号エネルギーを、したがってラウドネスを増加させることができる。この選択された歪みは、完全に飽和している信号中に存在するよりも少ない高調波を追加する、制御された歪みとすることができる。

上記で説明したように、歪み制御モジュール７４０は、入力サンプルを出力サンプルにマッピングすることに少なくとも部分的によって、選択された歪みを引き起こすことができる。歪み制御モジュール７４０は、入力信号７０２のサンプルをインデックスとして使用することにより、サインの和のテーブル７１４中にこのマッピングを実行することができる。サインの和のテーブル７１４は、高調波的に関連するサイン波の和をとることにより発生される値を含むことができる。

例示するために、入力信号７０２が、値ｍを持つサンプルを有している場合に、歪み制御モジュール７４０は、サインの和のテーブル７１４中で、インデックスｍにおいて、入力サンプルを出力サンプルにマッピングすることができる。入力信号７０２のサンプルが、テーブル７１４のインデックス値の間にある場合には、歪み制御モジュール７４０は、インデックス値を補間することができる。メモリを節約するために、補間の使用により、サインの和のテーブル７１４のサイズを減少させることができるようになる。しかしながら、ある実施形態では、補間の使用を避けるために、十分な大きさがあるようにサインの和のテーブル７１４を設計することがある。歪み制御モジュール７４０は、出力信号７２２に対する出力サンプルとして、サインの和のテーブル７１４のマッピングされた出力値を使用することができる。

アレイ、行列、または、これらに類するもののような、何らかのデータ構造として、サインの和のテーブル７１４を実現することができる。奇数次高調波や、偶数次高調波や、または、その双方の組み合わせを含む、任意の数の高調サイン波を含むように、テーブル７１４を発生させることができる。ある実施形態では、奇数次高調波は、音声オーディオ信号に、良好な歪み制御を提供する。他のインプリメンテーションでは、偶数次高調波を使用することがあり、偶数次高調波は、音楽の信号におけるクリッピングを減少させるのに有用であることがある。混合された音声および音楽の信号に対しては、奇数次高調波または偶数次高調波のいずれかを使用することができる。しかしながら、これらは単に例示的な例に過ぎず、あらゆる適用に対して、奇数次高調波または偶数次高調波のいずれかを、あるいは、その双方を使用することができる。

より多くのサイン波を使用して、テーブル７１４を発生させるときに、信号エネルギーと歪みとにおける潜在的な増加が大きくなり、逆もまた同じである。非常に多数のサイン波を使用すると、結果として、かなりの高調波歪みになることがあるので、ある実施形態では、比較的小さい数のより低い周波数のサイン波を有益に使用して、サインの和のテーブル７１４を構築する。

例えば、２つまたは３つの高調波的に関連するサイン波や、４つのサイン波や、５つのサイン波や、または、より多くのサイン波の和から、テーブル７１４を構築することができる。複数のサインの和のテーブル７１４をメモリ中に記憶することができ、異なる目的のために、歪み制御モジュール７４０により複数のサインの和のテーブル７１４を使用することができる。例えば、音声信号に対しては、より多くの高調波を持つサインの和のテーブル７１４を使用するかもしれない一方で、音楽に対しては、より少ない高調波を持つテーブル７１４を使用して、より小さい歪みを生成させるかもしれない。

歪み制御モジュール７４０はまた、信号エネルギーの増加の量および／または歪みの量を調節するために、ユーザに対して歪み制御を提供するユーザインターフェースを提供することがある。例えば、グラフィカルスライダー、ノブ、または、これらに類するものを提供することができ、あるいは、ユーザは、エネルギー増加の量または適用される歪みの量を調節するために、物理的なボタンまたはソフトのボタンを押すことができる。歪み制御を増加させると、より多くの高調波を持つテーブルを使用させることができ、逆もまた同じである。

３つの奇数次高調波的に関連するサイン波を使用して、サインの和のテーブル７１４を発生させるための例示的なプロセスをここで説明する。この例では、選択されたサイズの第１のテーブルに、（例えば、０ラジアンから２πまでの）サイン波の１つの周期の値を格納することにより、サインの和のテーブル７１４を発生させることができる。サイズＮ（Ｎは整数である）のテーブルを格納することは、サイン波の１つの周期をＮ個の値に分割することと、Ｎ個の値をテーブル中のＮスロットに割り当てることとを含むことがある。この第１のサイン波テーブルは、基本高調波または１次高調波を表すことができる。

３つのサイン周期をＮ個の値に分割することにより、類似する方法で、第１のテーブルと同じサイズの第２のテーブルに、サイン波の３つの周期を格納することができる。第２のテーブル中の値は、第１のサイン波の３次高調波を表すことができる。同様に、最初の２つと同じサイズの第３のテーブルに、５次高調波を表す、サイン波の５つの周期を格納することができる。第１、第２、および、第３のテーブル中の値を所望のようにスケーリングすることができる。例えば、第２のテーブル中の値を、第１のテーブル中の値よりも大きさが小さくなるように、より小さくスケーリングすることができ、第３のテーブル中の値を、第２のテーブルよりも小さな値を含むようにスケーリングすることができる。

ある実施形態では、３つのテーブルは同じサイズなので（同じ数のＮ個のエントリーを有しているので）、３つのテーブルの対応するインデックスにおける値を一緒に足して、１次高調波、３次高調波、および５次高調波の和を含む新しいサインの和のテーブル７１４を作ることができる。したがって、ある実施形態では、サインの和のテーブル７１４中の値をプロットした場合に、和をとった波の１つの周期の近似が示されるだろう。ある実施形態では、使用されるサイン波が多ければ多いほど、このプロットされた波は、ますます方形波のように見えるようになるだろう。さまざまな実施形態において、３つの奇数次高調波に対して説明したものに類似した方法で、異なる高調波による他のサインの和のテーブルを構築することができる。代替的に、完全な周期ではなく、サイン波の周期の一部を使用して、サインの和のテーブル７１４を構築することができる。

歪み制御モジュール７４０は、入力７０２信号からのサンプルをサインの和のテーブル７１４中にマッピングするので、テーブル７１４中の高調波の周波数は、テーブルルックアップレートに依存することがあり、テーブルルックアップレートは、今度は、入力信号の周波数に依存することがある。ある実施形態では、この周波数依存は、入力信号７０２の周波数と同じレートにおいて、または、入力信号７０２の周波数とほぼ同じレートにおいて、歪み制御モジュール７４０により実行されるテーブルルックアップ動作に起因する。

例示するために、所定の周波数を有するシンプルなサイン波入力信号７０２に対して、歪み制御モジュール７４０は、同じ周波数においてマッピング動作を実行することができる。結果の高調波は、サイン波の周波数に依存する特定の周波数を有するだろう。それゆえ、サイン波の周波数が倍になると、高調波の周波数が倍になる。重畳した複数の周波数を含む入力信号７０２に対しては、歪み制御モジュール７４０によるマッピングは、結果として、高調波の重ね合わせになることがある。

図８ないし図１５は、歪みとサイン波の和との例を示している。参照のために、図８は、サイン波８０２の例示的な時間ドメインプロット８００を示している。クリッピングなしのサイン波８０２のピークレベル８０４が示されている。サイン波８０２のピークレベル８０４は、０ｄｂにあり、これは、いくつかの実施形態では、ピークの可能性あるデジタルレベルとすることができる。図９は、図８のサイン波８０２の周波数スペクトル９０２を示す例示的なプロット９００を示している。これはシヌソイドなので、１つの周波数を表している。

ある実施形態では、サイン波８０２の振幅がピークレベルを超えて増加すると、結果としてハードクリッピングになることがある。シヌソイド１００２のハードクリッピングが、図１０のプロット１０００において示されている。クリップしたシヌソイド１００２は、ピークレベルにおいて飽和している、クリップした部分１００４を含んでいる。図１１において示されている周波数ドメイン表現１１０２中で、クリップしたサイン波１００２の高調波１１０４の例を見ることができる。示されているように、高調波１１０４は、サンプリング周波数と同じくらい高く伸びることがある（示されている例示的な図では、およそ２２ｋＨＺ）。高調波１１０６のうちのあるものもまたエイリアジングされており、さらなる歪みを生じさせている。

ハードクリッピングの完全な歪みを避けながら、それでもなおボリュームにおける増加を可能にするために、上記で説明したように、歪み制御モジュール７４０は、より低い周波数の高調波の複合波を使用することができる。このような波の例示的な組の高調波が、図１２において示されており、これは、４００Ｈｚの入力サイン波に応答して発生させることができる複合波の例示的な周波数応答プロット１２００を含む。プロット１２００中のスペクトルは、図１１の完全なクリッピングのシナリオにおけるものよりも少ない高調波１２０２を含んでいる。表されている実施形態では、５つの高調波１２０２が発生された。最も高い高調波１２０２は、図１１の高い周波数の高調波１１０４よりも低い周波数にある。エイリアジングされた高調波１１０６もまた、この実施形態には存在しない。

示されている例示的な実施形態は、およそ４００Ｈｚ、１２００Ｈｚ、２０００Ｈｚ、２８００Ｈｚ、および、３６００Ｈｚにおける高調波１２０２を含んでいる。これらの高調波１２０２は、１次高調波１２０４、３次高調波１２０６、５次高調波１２０８、７次高調波１２１０、および、９次高調波１２１２を含む、奇数次高調波１２０２である。１次高調波１２０４は、およそ０ｄＢの振幅を有しており、これは、ある実施形態では、最も高い可能性あるデジタル振幅である。連続した高調波１２０２は、周波数が増加するにつれて、より低い振幅を有している。ある実施形態では、高調波１２０２の振幅は、単調に減少する。これらの振幅は、他の実施形態では変化することがある。

より低い周波数の高調波により提供される、制御された歪みの結果は、より高い信号エネルギーまたはより高い平均信号エネルギーを持つ、丸く、より自然なサウンディング波形となり得る。図１２の高調波１２０４にマッピングされたサイン波を示す波１３０２の例示的な時間ドメインプロット１３００が、図１３において示されている。示されている例示的な波１３０２は、部分的にクリップした部分１３０６と、丸い部分１３０８とを有している。波１３０２と、ハードクリップした波１１０２との間の比較が示しているのは、波１３０２は、ハードクリップした波１１０２よりもさらに丸みを帯びているということである。加えて、波１３０２の一部１３０４は、線形、または、おおよそ線形である。カーブしている部分１３０８は、クリップした部分１３０６からおよそ−３ｄＢのところにおいてカーブし始めている。

図１４は、サインの和のマッピング関数１４１０のある実施形態を表す例示的なプロット１４００を示している。上記で説明したテーブル７１４のような、サインの和のテーブル中の値をプロットすることにより、示されているサインの和のマッピング関数１４１０をプロットすることができる。サインの和のマッピング関数１４１０は、サインの和の波の周期のうちの４分の１を含んでいる。最適化のために、全波の代わりに、４分の１のサインの和の波を使用することができる。これは、以下で説明する。

入力信号値はｘ軸上で表しており、これは、０から１までの範囲の正の振幅値を含んでいる。同様に、出力信号値はｙ軸上で表しており、０から１までの範囲の振幅値も含んでいる。負の振幅値は、下記で説明する。歪み制御モジュール１４０または７４０が、入力サンプルを出力サンプルにマッピングするときに、ある実施形態では、入力サンプルは、マッピング関数１４１０上の点にマッピングされる。マッピングされた出力サンプルは、入力サンプルがマッピングされたところに依存して、入力サンプルよりも大きな値または小さな値を有することがある。

明確さのために、サインの和のマッピング関数１４１０を連続関数として示している。しかしながら、デジタルシステムにおいて実現するときには、マッピング関数１４１０は離散的であることがある。加えて、上記で説明したように、すべての入力信号値に対してマッピング関数１４１０を規定しないことがある。したがって、歪み制御モジュール１４０または７４０は、例えば、マッピング関数１４１０上の最も近い２つの点の間の出力信号値を補間することがある。

参照のために、ｙ＝ｘの線に対応する想像線１４２０を示している。入力サンプルが、想像線１４２０にしたがってマッピングされている場合には、出力サンプルは入力サンプルと同じであるだろう。マッピング関数１４１０は、線形のまたはおおよそ線形のマッピング領域１４１２と、非線形のまたはおおよそ非線形のマッピング領域１４１４とを含んでいる。線形のマッピング領域１４１２中の入力サンプル値の値が増加するにつれて、線形のマッピング領域１４１２中の対応する出力サンプルは、線形にまたは実質的に線形に増加する。非線形の領域１４１４中のある入力サンプル値は、非線形にまたは実質的に非線形に増加し、変化するレベルの増加１４１４を有している。

大半の入力サンプルを、より大きな値にマッピングすることができるように、マッピング関数１４１０の大半の値は、想像線１４２０よりも大きい。しかしながら、非線形のマッピング領域１４１４の領域１４１６において、マッピング関数１４１０の値は、想像線１４２０よりも小さいか、または、想像線１４２０に等しい。この領域１４１６では、入力サンプルは、より低い値にマッピングされている。したがって、例えば、（例えば、１．０の値または１．０に近い値を有する）ハードクリップしたサンプルは、値が減少することがある。

上記で述べたように、マッピング関数１４１０は、全波の代わりに、４分の１のサインの和の波を含んでいる。４分の１波を（または、半波でさえも）使用すると、サインの和のテーブル７１４のサイズを減少させることができ、それにより、メモリを節約する。（例えば、［１−，０）の、または、これらに類するもののスケール上にある）負の入力信号値に対して、歪み制御モジュール１４０、７４０は、ｘ軸にわたってマッピング関数１４１０を逆にすることがあり、ｙ軸にわたってマッピング関数１４１０を反転させることがある。その後、歪み制御モジュール１４０、７４０は、入力サンプルにマッピング関数１４１０を適用することができる。代替的に、負の値を反転させて、［０，１］の範囲に正規化することができる。それから、マッピング関数１４１０を適用することができ、結果の出力サンプルを負にして、負の値を復元することができる。

代替的な実施形態において、示されているマッピング関数１４１０は、例えば、サインの和のテーブル７１４を発生させるのに使用する高調波の数に依存して、異なって見えることがある。例えば、線形のマッピング領域１４１２は、よりきつい傾きまたはより緩い傾きを有することがある。非線形のマッピング領域１４１４は、異なるように形作られていることがある。例えば、非線形のマッピング領域１４１４は、より少ない山を有することがある。同様に、領域１４１６は、振幅がより小さいことがあり、または、より大きいことがある。

ある実施形態では、ｘ軸および／またはｙ軸の範囲は、上記で説明したように、［０，１］の範囲とは異なっていることがある。ａが１よりも小さい場合に、ｘ軸の範囲が［０，ａ］に減少すると、入力信号の少なくとも一部分の振幅が増加することがある。逆に、ｂが１よりも大きい場合に、ｘ軸の範囲が［０，ｂ］から増加すると、入力信号の少なくとも一部分の振幅が減少することがある。いくつかの実施形態では、１よりも大きいｂの値を使用することにより、クリッピングを有益に減少させることができる。同様に、ｙ軸は、［０，ｃ］に変更することができ、ここで、ｃは、１よりも小さいか、または、１よりも大きい。

図１５は、歪み制御が適用される前の、オーディオ信号１５１２の例示的な時間ドメイン表現のプロット１５００を示している。加えて、図１５は、歪み制御が適用された後の、同じオーディオ信号１５１４の例示的な時間ドメイン表現を示している。歪み制御の例示的なインプリメンテーションを使用することにより、おおよそ６ｄＢの追加の利得が、この波形に導入されている。

他の適用に対して歪み制御を使用することができる。例えば、歪み制御を使用して、減少した歪みで、バスボリュームを増加させることができる。周波数拡散の適用においても、歪み制御を使用することができる。さらに、歪み制御を使用して、例えば、さまざまな高調波を選択することにより、楽器のサウンドまたは他のサウンドを合成して、楽器の所望の音色を作ることができる。

ＶＩＩ．結論
実施形態に依存して、ここで説明したアルゴリズムのうちの任意の、あるアクト、イベント、または機能を、異なるシーケンス中で実行することができ、ひとまとめにして追加したり、マージしたり、または、除外することができる（例えば、説明したアクトまたはイベントのすべてが、アルゴリズムの実施のために必要なわけではない）。さらに、ある実施形態では、例えば、マルチスレッド処理、割り込み処理、あるいは、複数のプロセッサまたはプロセッサコアを通して、シーケンシャルにではなく、並行してアクトまたはイベントを実行することができる。

ここで開示した実施形態に関連して説明した、さまざまな例示的な論理ブロック、モジュール、およびアルゴリズムステップが、電子ハードウェア、コンピュータソフトウェア、あるいは双方の組み合わせたものとして実現することができる。ハードウェアおよびソフトウェアの交換可能性を明確に示すために、さまざまな例示的なコンポーネント、ブロック、モジュール、およびステップを一般的にこれらの機能性に関して上記で説明した。このような機能性がハードウェアあるいはソフトウェアとして実現されるか否かは、特定の応用およびシステム全体に課せられた設計の制約に依存する。それぞれの特定の応用に対して方法を変化させて、説明した機能性を実現することができるが、このようなインプリメンテーション決定は、本開示の範囲からの逸脱を生じさせるものとして解釈すべきではない。

ここで開示した実施形態に関連して説明した、さまざまな例示的な論理的ブロックおよびモジュールは、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）または他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェアコンポーネント、あるいは、ここで説明した機能を実行するために設計されたこれらの組み合わせのような、機械により、実現することができ、あるいは、実行することができる。汎用プロセッサはマイクロプロセッサとすることができるが、代替実施形態では、プロセッサは、プロセッサ、制御装置、マイクロ制御装置、状態機械、または、これらの組み合わせ、あるいは、これらに類するものとすることができる。プロセッサはまた、コンピューティングデバイスの組み合わせとして、例えば、ＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアを備えた１つ以上のマイクロプロセッサ、あるいは、このようなコンフィギュレーションの他の何らかのものとして実現することができる。

ここで開示した実施形態と関連して説明した方法またはアルゴリズムのステップは、直接、ハードウェアで、プロセッサにより実行されるソフトウェアモジュールで、あるいは、２つの組み合わせで具現化することができる。ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、リムーブバルディスク、ＣＤ−ＲＯＭ、あるいは、技術的に知られている他の何らかの形態のプロセッサ読取可能記憶媒体またはコンピュータ読取可能記憶媒体に存在することがある。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるようにプロセッサに結合することができる。代替実施形態では、記憶媒体はプロセッサと一体化することができる。プロセッサおよび記憶媒体は、ＡＳＩＣに存在することがある。ＡＳＩＣはユーザ端末に存在することがある。代替実施形態では、プロセッサおよび記憶媒体は、ユーザ端末中のディスクリートコンポーネントとして存在することがある。

数ある中で、“できる”、“できた”、“かもしれない”、“してもよい”、“例えば”、および、これらに類するもののような、ここで使用されている条件付きの言葉は、そうではないと特に述べられていない限り、または、そうでなければ、使用されているような文脈内で理解されない限り、一般的に、ある実施形態は、ある特徴、エレメントおよび／または状態を含む一方で、他の実施形態は、ある特徴、エレメントおよび／または状態を含まないことを伝えることを意図している。したがって、特徴、エレメント、および／または、状態が、どんな方法であれ、１つ以上の実施形態に対して必要とされていることを、あるいは、作者のインプットまたはプロンプティングの有無にかかわらず、これらの特徴、エレメント、および／または、状態が、何らかの特定の実施形態中に含まれているか否かを、もしくは、これらの特徴、エレメント、および／または、状態が、何らかの特定の実施形態中で実行されることになるか否かを決めるための論理を１つ以上の実施形態が必ず含んでいることを意味するように、このような条件付きの言葉は、一般的に意図していない。

上記の詳細な説明は、さまざまな実施形態に適用されるような新規の特徴を示し、説明し、指摘したが、示されているデバイスまたはアルゴリズムの形態ならびに詳細において、本開示の精神から逸脱することなく、さまざまな省略、置換、および、変更を行うことができることが理解されるだろう。認識されるように、いくつかの特徴は、他のものとは別々に使用または実施することができるので、ここで説明されている本発明のある実施形態は、ここで述べた特徴および利益のすべてを提供しない形態内で具現化することができる。ここで開示したある発明の範囲は、先の説明によってではなく、添付の特許請求の範囲によって示されている。特許請求の範囲の均等物の意味および範囲内に入るすべての変更は、それらの範囲内に含まれるべきである。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［１］オーディオ信号に適用される音声了解度エンハンスメントを自動的に調節するためのシステムにおいて、
前記システムは、
フォルマントを含む入力音声信号を受信するようにと、前記入力音声信号にオーディオエンハンスメントを適用して、向上された音声信号を提供するように構成されているエンハンスメントモジュールと、
検出した環境ノイズの量に少なくとも部分的に基づいて、前記エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するように構成され、１つ以上のプロセッサを備えているエンハンスメント制御装置と、
前記環境ノイズの量と前記入力音声信号とに少なくとも部分的に基づいて、前記向上された音声信号の全体的な利得を調節するようにと、
前記全体的な利得を前記向上された音声信号に適用して、増幅された音声信号を生成させるように構成されている出力利得制御装置と、
より低い次数のサイン高調波の和から発生されたサインの和のテーブル中に記憶されている１つ以上の値に、前記増幅された音声オーディオ信号の１つ以上のサンプルを少なくともマッピングすることによって、前記増幅された音声信号におけるクリッピングを減少させるように構成されている歪み制御モジュールとを具備し、
前記オーディオエンハンスメントは、前記入力音声信号中のフォルマントのうちの１つ以上を強調するように構成されているシステム。
［２］前記エンハンスメントモジュールは、前記入力音声信号の周波数サブバンドに利得を適用することにより、前記１つ以上のフォルマントを強調するようにさらに動作可能である［１］に記載のシステム。
［３］音声了解度エンハンスメントを調節する方法において、
前記方法は、
音声信号と、近端環境コンテンツを含む入力信号とを受信することと、
前記入力信号中の前記近端環境コンテンツを前記１つ以上のプロセッサにより算出することと、
前記近端環境コンテンツに少なくとも部分的に基づいて、音声エンハンスメントのレベルを前記１つ以上のプロセッサにより調節することと、
前記音声エンハンスメントを前記音声信号に適用して、向上された音声信号を生成させ、前記音声エンハンスメントは、前記音声信号の１つ以上のフォルマントを強調するように構成されている方法。
［４］前記算出することは、前記近端環境コンテンツの大きさを取得することと、前記近端環境コンテンツの前記大きさをスムーズにすることとを含む［３］に記載の方法。
［５］前記音声エンハンスメントのレベルを前記１つ以上のプロセッサにより調節することは、前記近端環境コンテンツがしきい値を上回っているときに、前記近端環境コンテンツを追跡することを含む［３］に記載の方法。
［６］ユーザ調節可能なノイズ感度レベルに少なくとも部分的に基づいて、前記しきい値が決定される［５］に記載の方法。
［７］前記近端環境コンテンツと、前記音声信号中のエネルギーの量とに少なくとも部分的に基づいて、前記向上された音声信号の全体的な利得を調節することをさらに含む［３］に記載の方法。
［８］前記全体的な利得を調節することは、前記近端環境コンテンツに比例する利得レベルを計算することを含む［７］に記載の方法。
［９］前記向上された音声信号の１つ以上のサンプルをサインの和のテーブル中に記憶されている１つ以上の値にマッピングして、前記向上された音声信号におけるクリッピングを減少させることをさらに含む［３］に記載の方法。
［１０］オーディオ信号に適用される音声了解度エンハンスメントを自動的に調節するためのシステムにおいて、
前記システムは、
フォルマントを含む入力音声信号を受信するようにと、前記入力音声信号にオーディオエンハンスメントを適用して、向上された音声信号を提供するように構成されているエンハンスメントモジュールと、
検出した環境ノイズの量に少なくとも部分的に基づいて、前記エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するように構成され、１つ以上のプロセッサを備えているエンハンスメント制御装置と、
前記環境ノイズの量と前記入力音声信号とに少なくとも部分的に基づいて、前記向上された音声信号の全体的な利得を調節するようにと、
前記全体的な利得を前記向上された音声信号に適用して、増幅された音声信号を生成させるように構成されている出力利得制御装置とを具備し、
前記オーディオエンハンスメントは、前記入力音声信号中のフォルマントのうちの１つ以上を強調するように構成されているシステム。
［１１］前記エンハンスメント制御装置は、しきい値レベルに対する環境ノイズの量の比に少なくとも部分的に基づいて、前記適用されるオーディオエンハンスエントの量を調節するようにさらに構成されている［１０］に記載のシステム。
［１２］前記エンハンスメントモジュールは、前記入力音声信号の周波数サブバンドに利得を適用することにより、前記１つ以上のフォルマントを強調するようにさらに動作可能である［１０］に記載のシステム。
［１３］前記エンハンスメント制御装置は、前記入力音声信号の前記周波数サブバンドに追加の利得を少なくとも適用することによって、前記適用されるオーディオエンハンスメントの量を調節するようにさらに構成されている［１２］に記載のシステム。
［１４］前記出力利得制御装置は、前記環境ノイズの量に比例する利得レベルを提供することにより、前記全体的な利得を調節するようにさらに構成されている［１０］に記載のシステム。
［１５］前記出力利得制御装置は、しきい値を下回る前記音声信号のエネルギーに応答して、前記全体的な利得を調節するようにさらに構成されている［１０］に記載のシステム。
［１６］前記増幅された音声信号におけるクリッピングを減少させるように動作可能である歪み制御モジュールをさらに具備する［１０］に記載のシステム。
［１７］音声了解度エンハンスメントを調節する方法を１つ以上のプロセッサに実行させる命令をその上に記憶しているプロセッサ読取可能記憶媒体において、
前記方法は、
遠隔の電話機からの音声信号と、マイクロフォンからのノイズ信号とを受信することと、
前記ノイズ信号の値を算出することと、
前記ノイズ信号の値に少なくとも部分的に基づいて、前記音声信号のフォルマントに適用される利得を調節することと、
前記音声信号のフォルマントに前記利得を適用することとを含むプロセッサ読取可能記憶媒体。
［１８］前記音声信号のエネルギーの量に少なくとも部分的に基づいて、前記音声信号の全体的な利得を調節することをさらに含む［１７］に記載のプロセッサ読取可能記憶媒体。
［１９］しきい値を下回る前記音声信号のエネルギーに応答して、前記全体的な利得を調節する［１８］に記載のプロセッサ読取可能記憶媒体。
［２０］音声了解度エンハンスメントのノイズしきい値を調節するためのシステムにおいて、
前記システムは、
遠隔デバイスからの入力音声信号を受信デバイスにより受信するようにと、前記入力音声信号にオーディオエンハンスメントを適用して、前記入力音声信号中のフォルマントのうちの１つ以上を強調するように構成されている音声エンハンスメントモジュールと、
第１のノイズしきい値を上回る検出した環境ノイズの量に少なくとも部分的に基づいて、前記エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するように構成され、１つ以上のプロセッサを備えている音声エンハンスメント制御装置と、
前記第１のノイズしきい値を調節するように構成されているノイズ感度制御装置とを具備し、
前記ノイズ感度制御装置は、
前記受信デバイスのマイクロフォンから受信したマイクロフォン入力信号から第１の自己相関値を計算するように構成されている第１の相関器と、
前記第１の自己相関値の第１の分散を計算するように動作可能である第１の分散モジュールと、
前記音声エンハンスメントモジュールの出力信号を含むスピーカー入力信号から第２の自己相関値を計算するように構成されている第２の相関器と、
前記第２の自己相関値の第２の分散を計算するように動作可能である第２の分散モジュールと、
前記第１および前記第２の自己相関値と前記第１および前記第２の分散値とのうちの１つ以上を使用して、前記第１のノイズしきい値を調節して、第２のノイズしきい値を生成させるように構成されているノイズ感度調節器とを備え、
前記音声エンハンスメント制御装置は、前記第２のノイズしきい値を上回る検出した環境ノイズの第２の量に少なくとも部分的に基づいて、第２の入力オーディオ信号に適用されるオーディオエンハンスメントの量を調節するように構成されているシステム。
［２１］前記ノイズ感度調節器は、前記第１の分散が予め定められた量を上回ることに応答して、前記第１のノイズしきい値よりも低い第２のノイズしきい値を生成させるようにさらに構成されている［２０］に記載のシステム。
［２２］前記ノイズ感度調節器は、前記第１の自己相関値のうちの１つ以上に少なくとも部分的に基づいて、前記第２のノイズしきい値を低くするようにさらに構成されている［２１］に記載のシステム。
［２３］前記ノイズ感度調節器は、より高い第１の自己相関値に対して前記第２のノイズしきい値におけるより多くの減少を提供するようにさらに構成されている［２１］に記載のシステム。
［２４］前記ノイズ感度調節器は、前記第２の自己相関値のうちの１つ以上に少なくとも部分的に基づいて、前記第２のノイズしきい値を低くするようにさらに構成されている［２３］に記載のシステム。
［２５］前記ノイズ感度調節器は、より低い第２の自己相関値に対して前記第２のノイズしきい値におけるより多くの減少を提供するようにさらに構成されている［２１］に記載のシステム。
［２６］前記ノイズ感度調節器は、前記第２の分散が予め定められた量よりも少ないことに応答して、前記第１のノイズしきい値よりも低い第２のノイズしきい値を生成させるようにさらに構成されている［２０］に記載のシステム。
［２７］音声了解度エンハンスメントの感度を調節するためのシステムにおいて、
前記システムは、
遠隔デバイスから受信デバイスにより受信した入力音声信号を、前記受信デバイスにより受信するようにと、前記入力音声信号にオーディオエンハンスメントを適用して、前記入力音声信号中のフォルマントのうちの１つ以上を強調するように構成されている音声エンハンスメントモジュールと、
前記入力音声信号中に存在する環境ノイズの量に少なくとも部分的に基づいて、前記音声エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するように構成されているエンハンスメント制御装置と、
前記受信デバイスのマイクロフォンから取得したマイクロフォン入力信号と、前記音声エンハンスメントモジュールの出力信号として提供されたスピーカー入力信号とのうちの少なくとも１つまたは双方の統計的解析に少なくとも部分的に基づいて、前記環境ノイズに対する前記エンハンスメント制御装置の感度を調節するように構成され、１つ以上のプロセッサを備えているノイズ感度制御装置とを具備するシステム。
［２８］前記ノイズ感度制御装置は、前記マイクロフォン入力信号と前記スピーカー入力信号とのうちの１つまたは双方の自己相関を計算するように構成されている相関器を備える［２７］に記載のシステム。
［２９］前記ノイズ感度制御装置は、前記自己相関の分散を推定するように構成されている分散モジュールをさらに備える［２８］に記載のシステム。
［３０］前記ノイズ感度制御装置は、前記計算した自己相関に少なくとも部分的に基づいて、前記環境ノイズに対する前記エンハンスメント制御装置の感度を調節するように構成されている感度調節器をさらに備える［２８］に記載のシステム。
［３１］前記ノイズ感度制御装置は、推定した分散に少なくとも部分的に基づいて、前記環境ノイズに対する前記エンハンスメント制御装置の感度を調節するように構成されている感度調節器をさらに備える［２８］に記載のシステム。
［３２］音声エンハンスメントの感度を調節するための方法において、
前記方法は、
入力オーディオ信号を受信することと、
前記入力オーディオ信号中の相関しているコンテンツを検出することと、
前記検出することに応答して、前記入力オーディオ信号に適用されるエンハンスメントのレベルを調節することとを含み、
前記検出することは、１つ以上のプロセッサを使用して、前記入力オーディオ信号の統計的解析を計算することを含む方法。
［３３］前記入力オーディオ信号の統計的解析を計算することは、前記入力オーディオ信号の自己相関を計算することを含む［３２］に記載の方法。
［３４］前記検出することは、前記自己相関の分散を計算することをさらに含む［３３］に記載の方法。
［３５］前記調節することは、前記入力オーディオ信号に適用されるエンハンスメントのレベルを増加させることを含む［３２］に記載の方法。
［３６］前記エンハンスメントは、ダイアログエンハンスメントを含む［３２］に記載の方法。
［３７］前記統計的解析は、音響エコー消去を含む［３２］に記載の方法。
［３８］オーディオ信号処理方法において、
前記方法は、
マイクロフォン入力信号を受信することと、
前記マイクロフォン入力信号中の実質的に周期的なコンテンツを検出することと、
前記マイクロフォン入力信号中で検出した前記実質的に周期的なコンテンツに少なくとも部分的に基づいて、１つ以上のプロセッサによりオーディオエンハンスメントを調節し、前記オーディオエンハンスメントは、前記マイクロフォン入力信号のレベルに少なくとも部分的に基づいて、オーディオ出力信号を選択的に向上させるように構成されていることと、
前記オーディオ出力信号をスピーカーに提供することとを含む方法。
［３９］前記実質的に周期的なコンテンツは、前記スピーカーからのエコーを含む［３８］に記載の方法。
［４０］前記実質的に周期的なコンテンツは、前記オーディオ信号処理方法を実現するように構成されている通信デバイスのリスナーからの音声を含む［３８］に記載の方法。
［４１］前記マイクロフォン入力信号は、近端環境コンテンツを含む［３８］に記載の方法。
［４２］前記実質的に周期的なコンテンツを検出することは、１つ以上の統計的な技術を使用して、前記実質的に周期的なコンテンツを検出することを含む［３８］に記載の方法。
［４３］前記調節することは、前記マイクロフォン入力信号のレベルに対する前記オーディオエンハンスメントの感度を調節することを含む［３８］に記載の方法。
［４４］前記調節することは、前記オーディオエンハンスメントをオフにすることを含む［３８］に記載の方法。
［４５］前記オーディオエンハンスメントは、音声了解度エンハンスメントを含む［３８］に記載の方法。
［４６］前記オーディオ信号処理方法を通信デバイス中で実現する［３８］に記載の方法。

Claims

オーディオ信号に適用される音声了解度エンハンスメントを自動的に調節するためのシステムにおいて、
前記システムは、
フォルマントを含む入力音声信号を受信し、前記入力音声信号にオーディオエンハンスメントを適用して、向上された音声信号を提供するように構成されているエンハンスメントモジュールと、
検出した環境ノイズの量に少なくとも部分的に基づいて、前記エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するように構成され、１つ以上のプロセッサを備えているエンハンスメント制御装置と、
前記環境ノイズの量と前記入力音声信号とに少なくとも部分的に基づいて、前記向上された音声信号の全体的な利得を調節し、前記全体的な利得を前記向上された音声信号に適用して、増幅された音声信号を生成させるように構成されている出力利得制御装置と、
低次のサイン高調波の和から発生されたサインの和のテーブル中に記憶されている１つ以上の値に、前記増幅された音声信号の１つ以上のサンプルを少なくともマッピングすることによって、前記増幅された音声信号におけるクリッピングを減少させるように構成されている歪み制御モジュールとを具備し、
前記オーディオエンハンスメントは、前記入力音声信号中のフォルマントのうちの１つ以上を強調するように構成されているシステム。
前記エンハンスメントモジュールは、前記入力音声信号の周波数サブバンドに利得を適用することにより、前記１つ以上のフォルマントを強調するようにさらに動作可能である請求項１記載のシステム。
前記エンハンスメント制御装置は、第１のノイズしきい値を上回る検出した環境ノイズの量に少なくとも部分的に基づいて、前記エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するようにさらに構成されている請求項１記載のシステム。
前記第１のノイズしきい値を調節するように構成されているノイズ感度制御装置をさらに具備する請求項３記載のシステム。
前記ノイズ感度制御装置は、前記第１のノイズしきい値に影響を及ぼすように構成されているノイズ感度制御をユーザが調節することが可能になるように構成されているユーザインターフェースを提供する請求項４記載のシステム。
前記ノイズ感度制御装置は、
受信デバイスのマイクロフォンから受信したマイクロフォン入力信号から第１の自己相関値を計算するように構成されている第１の相関器と、
前記第１の自己相関値の第１の分散を計算するように動作可能である第１の分散モジュールと、
前記エンハンスメントモジュールの出力信号を含むスピーカー入力信号から第２の自己相関値を計算するように構成されている第２の相関器と、
前記第２の自己相関値の第２の分散を計算するように動作可能である第２の分散モジュールと、
前記第１および前記第２の自己相関値と前記第１および前記第２の分散とのうちの１つ以上を使用して、前記第１のノイズしきい値を調節して、第２のノイズしきい値を生成させるように構成されているノイズ感度調節器とを備え、
前記エンハンスメント制御装置は、前記第２のノイズしきい値を上回る検出した環境ノイズの第２の量に少なくとも部分的に基づいて、第２の入力オーディオ信号に適用されるオーディオエンハンスメントの量を調節するように構成されている請求項４記載のシステム。
前記ノイズ感度調節器は、前記第２の分散が予め定められた量よりも少ないことに応答して、前記第１のノイズしきい値よりも低い第２のノイズしきい値を生成させるようにさらに構成されている請求項６記載のシステム。
前記ノイズ感度調節器は、前記第１の分散が予め定められた量を上回ることに応答して、前記第１のノイズしきい値よりも低い第２のノイズしきい値を生成させるようにさらに構成され、前記ノイズ感度調節器は、前記第１の自己相関値のうちの１つ以上に少なくとも部分的に基づいて、前記第２のノイズしきい値を低くするようにさらに構成されている請求項６記載のシステム。
前記ノイズ感度調節器は、より高い第１の自己相関値に対して前記第２のノイズしきい値におけるより多くの減少を提供するようにさらに構成され、前記ノイズ感度調節器は、前記第２の自己相関値のうちの１つ以上に少なくとも部分的に基づいて、前記第２のノイズしきい値を低くするようにさらに構成されている請求項８記載のシステム。
前記ノイズ感度調節器は、より低い第２の自己相関値に対して前記第２のノイズしきい値におけるより多くの減少を提供するようにさらに構成されている請求項８記載のシステム。
前記歪み制御モジュールにより実行されるマッピングは、前記増幅された音声信号を、完全に飽和している信号よりも少ない高調波を有する出力信号にマッピングするように構成されている請求項１記載のシステム。
前記エンハンスメント制御装置は、しきい値レベルに対する検出した環境ノイズの量の比に少なくとも部分的に基づいて、前記適用されるオーディオエンハンスエントの量を調節するようにさらに構成されている請求項１記載のシステム。
オーディオ信号に適用される音声了解度エンハンスメントを自動的に調節する方法において、
前記方法は、
フォルマントを含む入力音声信号を受信することと、
前記入力音声信号にオーディオエンハンスメントを適用して、向上された音声信号を提供することと、
検出した環境ノイズの量に少なくとも部分的に基づいて、前記適用されるオーディオエンハンスメントの量を調節することと、
前記環境ノイズの量と前記入力音声信号とに少なくとも部分的に基づいて、前記向上された音声信号の全体的な利得を調節することと、
前記全体的な利得を前記向上された音声信号に適用して、増幅された音声信号を生成させることと、
低次のサイン高調波の和から発生されたサインの和のテーブル中に記憶されている１つ以上の値に、前記増幅された音声信号の１つ以上のサンプルを少なくともマッピングすることによって、前記増幅された音声信号におけるクリッピングを減少させることとを含み、
前記オーディオエンハンスメントは、前記入力音声信号中のフォルマントのうちの１つ以上を強調するように構成されている方法。
前記入力音声信号の周波数サブバンドに利得を適用することにより、前記１つ以上のフォルマントを強調することをさらに含む請求項１３記載の方法。
前記マッピングは、前記増幅された音声信号を、完全に飽和している信号よりも少ない高調波を有する出力信号にマッピングすることをさらに含む請求項１３記載の方法。