JP6361271B2

JP6361271B2 - 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム

Info

Publication number: JP6361271B2
Application number: JP2014098021A
Authority: JP
Inventors: 松尾　直司; 直司松尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-05-09
Filing date: 2014-05-09
Publication date: 2018-07-25
Anticipated expiration: 2034-05-09
Also published as: GB2529016A; JP2015215463A; GB2529016B; US20150325253A1; GB201507405D0; US9779754B2

Description

本発明は、例えば、音声信号を強調する音声強調装置、音声強調方法及び音声強調用コンピュータプログラムに関する。

マイクロホンが音声を集音することで生成された音声信号には、雑音成分が含まれたり、音声信号中で話者の声に対応する信号成分が小さいことがある。音声信号に雑音成分が含まれたり、あるいは、信号成分が小さいと、音声信号中で話者の音声が不明りょうとなることがある。また、音声信号中の話者の音声を認識して、その音声に応じた処理を行う装置において、話者の音声が不明りょうになると、音声認識の精度が低下してしまい、所望の処理が行われないことがある。そこで、音声信号のレベルを自動的に調節するAuto Gain Control(AGC)と呼ばれる技術が利用されている（例えば、特許文献１を参照）。

特開昭５６−８４０１３号公報

しかしながら、過度に音声信号のレベルを調節すると、音声信号の歪みが大きくなったり、あるいは、雑音成分まで強調されてしまい、話者の音声が必ずしも明りょうにならないことがある。特に、語彙が長いと、語尾に近づくにつれて話者の音声が小さくなり、その結果として、音声信号中でその語彙が明りょうに識別できなくなることがある。このような場合、従来のAGCを音声信号に適用しても、その音声信号に含まれる、話者の音声が不明りょうなままとなることがあった。

そこで本明細書は、一つの側面として、話者の発声音量が発声開始からの時間に応じて変化しても、音声信号に含まれる、話者の音声を明りょう化できる音声強調装置を提供することを目的とする。

一つの実施形態によれば、音声強調装置が提供される。この音声強調装置は、音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出する発声区間検出部と、発声区間の開始時点からの経過時間を計時する計時部と、経過時間に応じて音声信号の強調度合いを表すゲインを決定するゲイン決定部と、ゲインに応じて発声区間内の音声信号を強調する強調部とを有する。

本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。

本明細書に開示された音声強調装置は、話者の発声音量が発声開始からの時間に応じて変化しても、音声信号に含まれる、話者の音声を明りょう化できる。

第１の実施形態による音声強調装置の概略構成図である。第１の実施形態による音声強調装置の処理部の概略構成図である。発声区間の開始時点からの経過時間とゲインの関係の一例を示す図である。発声区間の開始時点からの経過時間とゲインの関係の他の一例を示す図である。（ａ）は、オリジナルの音声信号の信号波形の一例を示す図である。（ｂ）は、本実施形態による音声強調装置により得られた補正音声信号の信号波形の一例を示す図である。第１の実施形態による音声強調処理の動作フローチャートである。第２の実施形態による音声強調装置の処理部の概略構成図である。パワー積算値と音声度合いの関係の一例を示す図である。第２の実施形態による音声強調処理の動作フローチャートである。第３の実施形態による音声強調装置の概略構成図である。第３の実施形態による音声強調装置の処理部の概略構成図である。音源方向θと推定される話者の方向の範囲の関係を示す図である。音源方向θと音声度合いτの関係の一例を示す図である。第３の実施形態による音声強調処理の動作フローチャートである。第４の実施形態による音声強調装置の概略構成図である。発声区間の開始時点からの経過時間とゲインの関係の他の一例を示す図である。第４の実施形態による音声強調処理の動作フローチャートである。第５の実施形態による音声強調装置の概略構成図である。第５の実施形態による音声強調装置の処理部の概略構成図である。発声区間内の音声信号のパワーの時間変化と減衰判定閾値との関係の一例を示す図である。第５の実施形態による音声強調処理の動作フローチャートである。上記の何れかの実施形態またはその変形例による音声強調装置の処理部の機能を実現するコンピュータプログラムが動作することにより、音声強調装置として動作するコンピュータの構成図である。

以下、図を参照しつつ、実施形態による音声強調装置について説明する。
話者が長時間連続して発声していると、語尾にかけて話者の発声音量が低下することがある。そのために、音声信号中で話者が発声している区間である発声区間全体に対して同じゲインを用いて音声信号のレベルを調節しても、話者の音声は必ずしも明りょうにはならない。
また、発声区間よりも短い区間単位で音声信号を区切り、区間ごとに独立して音声信号のレベルを調節しても、隣接する区間でゲインが不連続に変化することがある。そのため、音声に歪みが生じたり、連続する二つの発声区間の間、または発声区間内で一時的に話者の発声音量が低下した部分の雑音が強調されてしまい、話者の音声は明りょうにならないことがある。

そこで、この音声強調装置は、音声信号中に含まれる、話者の発声区間の開始時からの経過時間に応じて音声信号の強調度合いを表すゲインを調節することで、話者の発声音量がその経過時間に応じて変化しても、音声信号中の話者の音声を明りょう化する。その際、この音声強調装置は、経過時間が所定以上となった時点から音声信号を強調することで、語尾の発声音量が低下しても音声信号中の話者の音声を明りょう化できる。

図１は、第１の実施形態による音声強調装置の概略構成図である。音声強調装置１は、マイクロホン２と、増幅器３と、アナログ／デジタル変換器４と、処理部５とを有する。音声強調装置１は、例えば、車両に搭載され、車室内にいる話者（例えば、ドライバー）の音声を強調する。

マイクロホン２は、音声入力部の一例であり、音声強調装置１の周囲の音を集音し、その音の強度に応じたアナログ音声信号を生成し、そのアナログ音声信号を増幅器３へ出力する。増幅器３は、そのアナログ音声信号を増幅した後、増幅されたアナログ音声信号をアナログ／デジタル変換器４へ出力する。アナログ／デジタル変換器４は、増幅されたアナログ音声信号を所定のサンプリング周期でサンプリングすることによりデジタル化された音声信号を生成する。そしてアナログ／デジタル変換器４は、デジタル化された音声信号を処理部５へ出力する。なお、以下では、デジタル化された音声信号を、単に音声信号と呼ぶ。

処理部５は、例えば、一つまたは複数のプロセッサと、読み書き可能なメモリ回路と、その周辺回路とを有する。そして処理部５は、音声信号に対して音声強調処理を実行することで、補正音声信号を得る。そして処理部５は、補正音声信号に対して音声認識処理を行って、話者の音声に応じた処理を実行する。あるいは、処理部５は、補正音声信号を通信インターフェース（図示せず）を介して他の機器へ出力してもよい。

図２は、処理部５の概略構成図である。処理部５は、パワー算出部１１と、発声区間検出部１２と、計時部１３と、ゲイン決定部１４と、強調部１５とを有する。処理部５が有するこれらの各部は、例えば、デジタル信号プロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部５が有するこれらの各部は、これらの各部の機能を実現する一つまたは複数のファームウェアであってもよい。

パワー算出部１１は、音声信号を所定長を持つフレームごとに分割し、フレームごとの音声のパワーを算出する。フレーム長は、例えば、32msecに設定される。なお、パワー算出部１１は、連続する二つのフレームの一部を重複させてもよい。この場合、パワー算出部１１は、現在のフレームから次のフレームへ移動する際に、新たにフレームに取り入れられるフレームシフト量を、例えば、10msec〜16msecに設定してもよい。

パワー算出部１１は、フレームごとに、音声信号を、時間周波数変換を用いて時間領域から周波数領域のスペクトル信号に変換する。パワー算出部１１は、時間周波数変換として、例えば、高速フーリエ変換(Fast Fourier Transform, FFT)または修正離散コサイン変換（Modified Discrete Cosign Transform, MDCT）を用いることができる。なお、パワー算出部１１は、各フレームに、ハミング窓またはハニング窓といった窓関数を乗じたのちに時間周波数変換を行ってもよい。
例えば、フレーム長が32msecであり、アナログ／デジタル変換器４のサンプリングレートが8kHzであれば、1フレームあたり256個のサンプル点が含まれるので、パワー算出部１１は、256点のFFTを実行する。

パワー算出部１１は、フレームごとに、そのフレームのスペクトル信号から、人の声の特徴を表す特徴量として、人の声が含まれる周波数帯域のパワーの積算値を算出する。

パワー算出部１１は、フレームごとに、例えば、次式に従って、人の声が含まれる周波数帯域のパワーの積算値を算出する。

ここでS(f)は、周波数fにおけるスペクトル信号であり、|S(f)|²は、周波数fにおけるパワースペクトルである。またfmin、fmaxは、それぞれ、人の声が含まれる周波数帯域の下限及び上限を表す。そしてPはパワーの積算値である。
なお、パワー算出部１１は、フレームの時間周波数変換を実行せずにフレームごとのサンプル点の二乗和からパワーの積算値を直接求めてもよい。

パワー算出部１１は、フレームごとのパワーの積算値を発声区間検出部１２へ通知する。またパワー算出部１１は、フレームごとの各周波数のスペクトル信号を発声区間検出部１２及び強調部１５へ出力する。

発声区間検出部１２は、フレームごとのパワーの積算値に基づいて、音声信号から発声区間を検出する。本実施形態では、発声区間検出部１２は、フレームのパワー積算値に基づいて、フレームごとに発声区間に含まれるか否かを判定することで、発声区間を検出する。

発声区間検出部１２は、着目するフレームのパワーの積算値が雑音判定閾値Thnよりも大きい場合、そのフレームは発声区間に含まれると判定する。なお、雑音判定閾値Thnは、音声信号に含まれる背景雑音レベルに応じて適応的に設定されることが好ましい。そこで発声区間検出部１２は、例えば、フレームの周波数帯域全体のパワースペクトルの積算値が所定のパワー閾値未満であれば、そのフレームを背景雑音以外の音が含まれない無音フレームと判定する。そして発声区間検出部１２は、無音フレームのパワーの積算値に基づいて背景雑音レベルを推定する。例えば、発声区間検出部１２は、次式に従って背景雑音レベルを推定する。

ここで、Psは、最新の無音フレームのパワーの積算値であり、noisePは、更新前の背景雑音レベルである。そしてnoiseP'は、更新後の背景雑音レベルである。この場合、雑音判定閾値Thnは、例えば、次式に従って設定される。

ここで、γは、あらかじめ設定される定数であり、例えば、2〜3[dB]に設定される。

発声区間検出部１２は、フレームごとに、発声区間に含まれるか否かの判定結果を計時部１３に通知する。

計時部１３は、例えば、タイマを有し、発声区間が開始されてからの経過時間を計時する。本実施形態では、計時部１３は、直前のフレームが発声区間に含まれず、現フレームが発声区間に含まれる場合に計時を開始する。そして計時部１３は、フレームが発声区間に含まれるとの判定結果を発声区間検出部１２から受けている間、経過時間の計時を継続する。そして計時部１３は、フレームが発声区間に含まれないとの判定結果を発声区間検出部１２から受けると、計時を終了し、経過時間を０にリセットする。また計時部１３は、発声区間に含まれないフレームについては、経過時間を０とする。
計時部１３は、フレームごとに、発声区間が開始されてからの経過時間をゲイン決定部１４に通知する。

ゲイン決定部１４は、発声区間が開始されてからの経過時間に応じて音声信号を強調する度合いを表すゲインを調節する。本実施形態では、ゲイン決定部１４は、発声区間が開始されてからの経過時間が調整開始時間を過ぎるまではゲインを一定に保ち、経過時間がその調整開始時間を過ぎると、経過時間が長くなるほどゲインを高くする。これにより、音声強調装置１は、話者の発声音量が語尾にかけて小さくなっても、その語尾の部分の音声を選択的に強調することができ、一方、音量が十分な発声区間の先頭部分を過度に強調することを防止して、補正音声信号の歪みを抑制できる。

図３は、発声区間の開始時点からの経過時間とゲインの関係の一例を示す図である。図３において、横軸は経過時間を表し、縦軸はゲインを表す。そしてグラフ３００は、経過時間とゲインの関係を表す。グラフ３００に示されるように、発声区間の開始時点からの経過時間が調整開始時間βを過ぎるまでは、ゲインGは、1.0に保たれる。すなわち、発声区間の開始時点から調整開始時間βを経過するまでは、音声信号は元のままである。そして経過時間が調整開始時間βを過ぎると、ゲインGは、経過時間が長くなるにつれて線形に単調増加し、経過時間が調整完了時間β'となる時点で上限値αで一定となる。そして経過時間が調整完了時間β'を経過した後は、ゲインGは、音声信号のレベルが不連続となって音声信号の歪みが大きくなり過ぎないよう、αのまま一定に保たれる。そして発声区間が終了すると、ゲインGは、1.0にリセットされる。なお、調整開始時間βは、例えば、母音一つまたは二つ分の長さ、例えば、100msecに設定される。また調整完了時間β'は、例えば、βに6000msecを加算した時間とすることができる。そしてゲインGの上限値αは、フレーム間でのゲインの変化により生じる補正音声信号の不連続性が許容範囲に収まるゲイン値、例えば、1.2に設定される。

図４は、発声区間の開始時点からの経過時間とゲインの関係の他の一例を示す図である。図４でも、横軸は経過時間を表し、縦軸はゲインを表す。そしてグラフ４００は、経過時間とゲインの関係を表す。図３に示されたグラフ３００と異なり、この例では、グラフ４００に示されるように、発声区間の開始時点からの経過時間が長くなるほど、ゲインGの単位時間当たりの増加量が大きくなる。ただし、この例においても、経過時間が調整開始時間βを過ぎるまでは、ゲインGは、1.0に保たれ、経過時間が調整完了時間β’を過ぎると、αで一定となる。この例では、経過時間が調整開始時間βを過ぎて調整完了時間β’になるまでの間、ゲインGは、例えば、次式で算出される。

ここでtは、発声区間の開始時点からの経過時間を表す。またρは、正の定数である。

話者によっては、語尾に近づくにつれて、急激に音量が低下することがある。このような場合でも、上記の例によれば、音声強調装置１は、発声区間の終端に近いほど急激にゲインGを高くするので、話者の発話において音量が低下した部分を適切に強調できる。

なお、調整開始時間βは、0に設定されてもよい。すなわち、発声区間の開始時点からゲインGが調節されてもよい。この場合、話者の発声音量が十分な発声区間の先頭部分において過度に音声信号が強調されることがないように、（４）式に従ってゲインGが算出されることが好ましい。

ゲイン決定部１４は、フレームごとに、発声区間の開始時点からの経過時間に応じて、上記の図３または図４のグラフに従ってゲインGを決定する。そしてゲイン決定部１４は、フレームごとに、ゲインGを強調部１５へ通知する。

強調部１５は、フレームごとに、ゲイン決定部１４から受け取ったゲインGに応じて音声信号を強調する。本実施形態では、強調部１５は、次式に従って、各周波数のスペクトル信号を強調する。

ここでS'(f)²は、周波数fの強調後のパワースペクトルを表す。そしてS'(f)は、周波数fの強調後のスペクトル信号を表す。なお、強調部１５は、強調されたパワースペクトルS'(f)²から、雑音成分を減じてもよい。

強調部１５は、補正されたスペクトル信号を周波数時間変換して時間領域の信号に変換することにより、フレームごとの補正音声信号を得る。なお、この周波数時間変換は、パワー算出部１１により行われる時間周波数変換の逆変換である。最後に、強調部１５は、連続するフレームごとの補正音声信号を結合することにより、補正音声信号を得る。

図５（ａ）は、オリジナルの音声信号の信号波形の一例を示す図である。図５（ｂ）は、本実施形態による音声強調装置により得られた補正音声信号の信号波形の一例を示す図である。
図５（ａ）及び図５（ｂ）において、横軸は時間を表し、縦軸は音声信号の振幅の強度を表す。信号波形５００は、オリジナルの音声信号の信号波形である。また信号波形５１０は、本実施形態による音声強調装置１による、補正音声信号の信号波形である。この例では、発声区間が開始された時刻t₁よりも後の、音量が低下し始めた時刻t₂から発声区間が終了する時刻t₃の間において、音声信号が強調されている。

図６は、第１の実施形態による音声強調処理の動作フローチャートである。音声強調装置１は、以下の動作フローチャートに従って、フレームごとに音声強調処理を実行する。
パワー算出部１１は、音声信号をフレームごとに分割し、現フレームのパワーの積算値を算出する（ステップＳ１０１）。そしてパワー算出部１１は、パワーの積算値を発声区間検出部１２へ出力し、各周波数のスペクトル信号を発声区間検出部１２及び強調部１５へ出力する。

発声区間検出部１２は、パワーの積算値に基づいて、現フレームが発声区間に含まれるか否か判定する（ステップＳ１０２）。現フレームが発声区間に含まれない場合（ステップＳ１０２−Ｎｏ）、処理部５は、音声信号を強調しない。そして処理部５は、音声強調処理を終了する。一方、現フレームが発声区間に含まれる場合（ステップＳ１０２−Ｙｅｓ）、発声区間検出部１２は、その判定結果を計時部１３へ通知する。

計時部１３は、発声区間検出部１２から受け取った判定結果に応じて、発声区間の開始時点から現フレームまでの経過時間tを計時する（ステップＳ１０３）。そして計時部１３は、その経過時間tをゲイン決定部１４へ通知する。

ゲイン決定部１４は、発声区間の開始からの経過時間tが調整開始時間β以上かつ調整完了時間β’未満か否か判定する（ステップＳ１０４）。経過時間tが調整開始時間β未満である場合（ステップＳ１０４−Ｎｏ）、ゲイン決定部１４は、ゲインGを1.0に設定する（ステップＳ１０５）。また、経過時間tが調整完了時間β’以上である場合（ステップＳ１０４−Ｎｏ）ゲイン決定部１４は、ゲインGをαに設定する（ステップＳ１０６）。一方、経過時間tが調整開始時間β以上かつ調整完了時間β’未満である場合（ステップＳ１０４−Ｙｅｓ）、ゲイン決定部１４は、ゲインGを経過時間tが長いほど高くなる値に設定する（ステップＳ１０７）。ステップＳ１０５、Ｓ１０６またはＳ１０７の後、ゲイン決定部１４は、ゲインGを強調部１５へ通知する。

強調部１５は、ゲインGに応じて現フレームの音声信号を強調して補正音声信号を得る（ステップＳ１０８）。
その後、音声強調装置１は、音声強調処理を終了する。

以上に説明してきたように、この音声強調装置は、発声区間の開始時点からの経過時間に応じてゲインを調節するので、発声区間中での話者の発声音量の変化に応じて適切に音声信号を補正できる。例えば、長い語彙の発声などで語尾にかけて発声音量が低下する場合でも、この音声強調装置は、話者の音声が明りょうとなるように音声信号を補正できる。そしてこの音声強調装置は、発声区間の開始からの経過時間でゲインを決定するため、短期間ごとにゲインを決定する場合と異なり、ゲインが連続的に変化するので、補正音声信号において不連続な部分を生じ難い。そのため、この音声強調装置は、音声認識の精度向上に寄与できる補正音声信号を得ることができる。

次に、第２の実施形態による音声強調装置について説明する。第２の実施形態による音声強調装置は、発声区間中において人の声らしさの度合いを求め、人の声らしさの度合いが高いほど、ゲインを高くする。

図７は、第２の実施形態による音声強調装置の処理部の概略構成図である。処理部５１は、パワー算出部１１と、発声区間検出部１２と、計時部１３と、ゲイン決定部１４と、強調部１５と、音声度合い測定部１６とを有する。
図７において、処理部５１の各構成要素には、図２に示した処理部５の対応する構成要素の参照番号と同じ参照番号を付した。

第２の実施形態による音声強調装置の処理部５１は、第１の実施形態による音声強調装置の処理部５と比較して、音声度合い測定部１６を有する点、及び、ゲイン決定部１４の処理が異なる。そこで以下では、音声度合い測定部１６及びゲイン決定部１４について説明する。音声強調装置の他の構成要素については、第１の実施形態の対応する構成要素の説明を参照されたい。

音声度合い測定部１６は、発声区間に含まれる音声信号のフレームごとに、人の声らしさを表す度合いである音声度合いを求める。本実施形態では、話者の声の集音を目的としてマイクロホン２が設置されているので、音声信号のパワーが大きい場合には、話者が発声していると考えられる。そこで、音声度合い測定部１６は、発声区間中の音声信号のパワー積算値Pに基づいて音声度合いτを求める。また、本実施形態では、音声度合いτは、0〜1の間の値を取り、値が大きいほど、音声信号が人の声らしいことを表す。

図８は、パワー積算値と音声度合いの関係の一例を示す図である。図８において、横軸はパワー積算値Pを表し、縦軸は音声度合いτを表す。そしてグラフ８００は、パワー積算値Pと音声度合いτの関係を表す。グラフ８００に示されるように、パワー積算値Pが下限閾値γ以下のとき、音声度合い測定部１６は、音声度合いτを0.0に設定する。

一方、パワー積算値Pが下限閾値γを超え、かつ、上限閾値γ'以下である場合、音声度合い測定部１６は、パワー積算値Pが大きくなるにつれて、音声度合いτを線形に単調増加させる。そしてパワー積算値Pが上限閾値γ'を超えると、音声度合い測定部１６は、音声度合いτを1.0とする。すなわち、音声度合い測定部１６は、音声度合いτを、次式に従って算出する。

なお、下限閾値γは、例えば、直近の所定期間に含まれる各フレームのパワー積算値Pの平均値に設定される。その所定期間は、例えば、一つ以上の発声区間が含まれるよう、数秒〜数十秒に設定される。あるいは、下限閾値γは、（２）式で算出される背景雑音推定値noiseP'、あるいは背景雑音推定値noiseP'に所定のオフセット値（例えば、1〜3dB）を加えた値であってもよい。あるいはまた、下限閾値γは、事前に設定される固定の値であってもよい。また、上限閾値γ'は、下限閾値γに所定の値を加算した値に設定される。なお、所定の値は、例えば、音声信号が人の声であることが確実と推定されるパワー積算値となるように、実験的に定められ、例えば、+12dBに設定される。

音声度合い測定部１６は、求めた音声度合いτをゲイン決定部１４へ出力する。

ゲイン決定部１４は、第１の実施形態によるゲイン決定部１４と同様に、発声区間の開始時点からの経過時間に応じてゲインGを求める。そしてゲイン決定部１４は、発声区間の開始時点からの経過時間に応じて決定したゲインGを、音声度合いτが高いほど高くなるように補正する。本実施形態では、ゲイン決定部１４は、次式に従ってゲインGを補正する。

（７）式において、G'は、補正されたゲインである。（７）式から明らかなように、補正前のゲインGが1.0であるか、音声度合いτが0.0である場合、補正されたゲインG'も1.0となる。すなわち、補正されたゲインG'を用いても音声信号は元のままとなる。一方、補正前のゲインGが1.0より大きく、かつ、音声度合いτも0.0より大きいと、そのゲインGが高いほど、かつ、音声度合いτが高いほど、補正されたゲインG'も高くなる。したがって、発声区間の後端に近づくほど、かつ、音声信号が人の声らしいほど、その発声区間中の音声信号は強調される。

ゲイン決定部１４は、フレームごとに、補正されたゲインG'を強調部１５へ出力する。
強調部１５は、上記の実施形態におけるゲインGの代わりに、補正されたゲインG'を用いて発声区間中の音声信号を強調する。すなわち、強調部１５は、（５）式において、ゲインGの代わりに補正されたゲインG'を用いて補正された周波数スペクトルを算出する。

図９は、第２の実施形態による音声強調処理の動作フローチャートである。第２の実施形態による音声強調処理の動作フローチャートでは、第１の実施形態による音声強調処理の動作フローチャートと比較して、ステップＳ１０７の処理が異なる。そこで図９では、ステップＳ１０７の処理の代わりに行われる処理について説明する。

ステップＳ１０４にて経過時間tが調整開始時間β以上かつ調整完了時間β’未満であると判定された場合、音声度合い測定部１６は、現フレームのパワーに基づいて現フレームの音声信号の音声度合いτを求める（ステップＳ２０１）。そして音声度合い測定部１６は、音声度合いτをゲイン決定部１４に通知する。

ゲイン決定部１４は、経過時間tが長いほど、かつ、音声度合いτが高いほどゲインGが高くなるように、ゲインGを設定する（ステップＳ２０２）。そしてゲイン決定部１４は、ゲインGを強調部１５へ出力する。その後、処理部５１は、ステップＳ１０８以降の処理を実行する。

第２の実施形態によれば、音声強調装置は、発声区間に含まれる音声信号が人の声らしいほどその音声信号を強調するので、音声信号に含まれる人の声をその他の音声よりも強調できる。そのため、音声信号に含まれる人の声がより明りょうとなるので、この音声強調装置は、補正音声信号を利用する音声認識処理の認識精度をより向上させることができる。

また、音声強調装置は、複数のマイクロホンを有してもよい。この場合、音声強調装置は、各マイクロホンにより集音される音声信号のスペクトルの位相差から、音の到来方向である音源方向を検出できる。そこで、第３の実施形態による音声強調装置は、複数のマイクロホンを利用して音源方向を検出し、音源方向に応じて発声区間中の音声信号の音声度合いを求める。そしてこの音声強調装置は、音源方向から推定された音声信号の音声度合いに応じて、発声区間の開始時点からの経過時点に応じて設定されたゲインを補正する。

図１０は、第３の実施形態による音声強調装置の概略構成図である。音声強調装置１０は、二つのマイクロホン２−１及び２−２と、増幅器３と、アナログ／デジタル変換器４と、処理部５２とを有する。

第３の実施形態による音声強調装置１０は、第２の実施形態による音声強調装置と比較して、マイクロホンを二つ有する点、及び、処理部５２により実行される処理の一部が異なる。そこで以下では、マイクロホン２−１及び２−２と処理部５２について説明する。

マイクロホン２−１及び２−２は、音源方向を検出できるように一定の間隔を空けて配置される。例えば、音声強調装置１０が、車室内にいるドライバーの声を含む音声信号を選択的に強調したい場合、マイクロホン２−１とマイクロホン２−２は、例えば、運転席の前方に、運転席と助手席とを結ぶ線と略平行な方向に並べて、運転席の方を向けて配置される。そしてマイクロホン２−１とマイクロホン２−２の間隔dが、音速Vをアナログ／デジタル変換器４のサンプリング周波数Fsで除した値(V/Fs)となるように、マイクロホン２−１とマイクロホン２−２は配置される。

なお、以下では、マイクロホン２−１の方がマイクロホン２−２よりも左側に配置されているとして、マイクロホン２−１により集音された音声信号を左音声信号と呼び、マイクロホン２−２により集音された音声信号を右音声信号と呼ぶ。

マイクロホン２−１により集音された音声及びマイクロホン２−２により集音された音声は、それぞれ、増幅器３により増幅された後、アナログ／デジタル変換器４でデジタル化されて処理部５２に入力される。

図１１は、第３の実施形態による音声強調装置の処理部の概略構成図である。処理部５２は、パワー算出部１１と、発声区間検出部１２と、計時部１３と、ゲイン決定部１４と、強調部１５と、音声度合い測定部１６と、音源方向検出部１７とを有する。
図１１において、処理部５２の各構成要素には、図７に示した第２の実施形態による処理部５１の対応する構成要素の参照番号と同じ参照番号を付した。
処理部５２は、第２の実施形態による処理部５１と比較して、音源方向検出部１７を有する点と、音声度合い測定部１６による音声度合いの求め方が異なる。そこで以下では、音源方向検出部１７及び音声度合い測定部１６と、その関連部分について説明する。

本実施形態では、発声区間検出部１２は、左音声信号と右音声信号の何れに基づいて発声区間を検出してもよい。例えば、発声区間検出部１２は、左音声信号と右音声信号のうち、パワー積算値が大きい方に基づいて発声区間を検出できる。
また強調部１５は、ゲイン決定部１４により算出された、補正ゲインG'を用いて、第２の実施形態による強調部１５と同様に、左音声信号と右音声信号の何れか一方、あるいは両方を強調する。

音源方向検出部１７は、フレームごとに、左音声信号と右音声信号とに基づいて音源の方向を検出する。例えば、左音声信号の到来時間と右音声信号の到来時間の差をδとすると、音源方向検出部１７は、音源方向θを次式で算出する。なお、マイクロホン２−１とマイクロホン２−２の並び方向に対して直交する方向を0度とする。

また、音源方向検出部１７は、例えば、左音声信号と右音声信号の相互相関値を計算し、その相互相関値が最大となるときの時間差を、左音声信号の到来時間と右音声信号の到来時間の差δとすることができる。あるいは、音源方向検出部１７は、左音声信号のスペクトル信号の位相と右音声信号のスペクトルの位相との差から、到来時間の差δを算出してもよい。
音源方向検出部１７は、フレームごとに求めた音源方向θを音声度合い測定部１６へ出力する。

音声度合い測定部１６は、発声区間中のフレームごとに、音源方向θに基づいて音声度合いを算出する。
マイクロホンが車室内のドライバーの声を集音対象としている場合のように、特定の話者が発した声の方向は、予め推定される。そこで、音声度合い測定部１６は、音源方向θが、推定される話者の方向の範囲に含まれる場合、音声度合いを相対的に高くし、逆に、音源方向θが、推定される話者の方向の範囲から外れる場合、音声度合いを相対的に低くする。

図１２は、音源方向θに対応する値θ’（θ=-π/2のとき、θ’=-π/(Fs/2)。よって、θ’=θ/Fs）と推定される話者の方向の範囲の関係を示す図である。図１２において、横軸は周波数を表し、縦軸は、左音声信号と右音声信号のスペクトルの位相差を表す。例えば、想定される話者が、マイクロホン２−１とマイクロホン２−２を結ぶ線の中点を通る法線よりも左側、すなわち、マイクロホン２−１側にいる場合、推定される話者の方向の範囲１２００は、左音声信号の位相を基準とすると、位相差０よりもマイナス側に設定される。そのため、線１２０１で示されるように、音源方向θに対応する値θ’が、範囲１２００内に含まれていれば、左音声信号及び右音声信号は、想定される話者の声を含む可能性が高い。

図１３は、音源方向θと音声度合いτの関係の一例を示す図である。図１３において、横軸は音源方向θを表し、縦軸は音声度合いτを表す。そしてグラフ１３００は、音源方向θと音声度合いτの関係を表す。図１３に示される例では、図１２のように、推定される話者の方向の範囲が、音源方向θが負の値を持つ範囲であるとする。そこで、音源方向θが負の値となるとき、想定される音源の方向の範囲に音源方向θが含まれるので、音声度合い測定部１６は、音声度合いτを1.0に設定する。

一方、音源方向θが0以上となり、かつ、上限閾値μ以下である場合、音声度合い測定部１６は、音源方向θが大きくなるにつれて、音声度合いτを線形に単調減少させる。なお、上限閾値μは、例えば、0.1ラジアンに設定される。そして音源方向θが上限閾値μを超えると、音声度合い測定部１６は、音声度合いτを0.0とする。

音声度合い測定部１６は、発声区間内のフレームごとに音声度合いτをゲイン決定部１４へ出力する。ゲイン決定部１４は、第２の実施形態と同様に、（７）式に従って補正ゲインG'を算出する。そしてゲイン決定部１４は、補正ゲインG'を強調部１５へ出力する。そして強調部１５は、補正ゲインG'を用いて、左音声信号及び右音声信号の少なくとも一方を強調する。

図１４は、第３の実施形態による音声強調処理の動作フローチャートである。第３の実施形態による音声強調処理の動作フローチャートでは、第１の実施形態による音声強調処理の動作フローチャートと比較して、ステップＳ１０７の処理が異なる。そこで図１４では、ステップＳ１０７の処理の代わりに行われる処理について説明する。

ステップＳ１０４にて経過時間tが調整開始時間β以上かつ調整完了期間β’未満であると判定された場合、音源方向検出部１７は、左音声信号の到来時間と右音声信号の到来時間の差から音源方向θを検出する（ステップＳ３０１）。そして音源方向検出部１７は、音源方向θを音声度合い測定部１６へ通知する。音声度合い測定部１６は、音源方向θに基づいて現フレームの音声信号の音声度合いτを求める（ステップＳ３０２）。そして音声度合い測定部１６は、音声度合いτをゲイン決定部１４に通知する。

ゲイン決定部１４は、経過時間tが長いほど、かつ、音声度合いτが高いほどゲインGが高くなるように、ゲインGを設定する（ステップＳ３０３）。そしてゲイン決定部１４は、ゲインGを強調部１５へ出力する。その後、処理部５２は、ステップＳ１０８以降の処理を実行する。

第３の実施形態によれば、音声強調装置は、複数のマイクロホンで集音した音声信号から求めた音源方向により、発声区間の音声信号の音声度合いを求めるので、適切に音声度合いを評価できる。そのため、この音声強調装置は、適切なゲインを設定できる。

次に、第４の実施形態による音声強調装置について説明する。第４の実施形態による音声強調装置は、発声区間の前半の音声信号のパワーと後半の音声信号のパワーの比較結果に応じてゲインを調節する。

図１５は、第４の実施形態による音声強調装置の概略構成図である。音声強調装置２０は、マイクロホン２と、増幅器３と、アナログ／デジタル変換器４と、処理部５３と、記憶部６とを有する。

第４の実施形態による音声強調装置２０は、第１の実施形態による音声強調装置１と比較して、記憶部６を有する点、及び、処理部５３により実行される処理の一部が異なる。そこで以下では、記憶部６と処理部５３について説明する。

記憶部６は、読み書き可能な揮発性のメモリ回路を有する。そして記憶部６は、音声強調処理が終了するまでの間、アナログ／デジタル変換器４から出力された音声信号を記憶する。また記憶部６は、発声区間ごとに、その発声区間中の各フレームのパワー積算値を記憶する。

処理部５３は、第１の実施形態による音声強調装置１の処理部５と同様に、パワー算出部１１と、発声区間検出部１２と、計時部１３と、ゲイン決定部１４と、強調部１５とを有する。

発声区間検出部１２は、フレームごとに、発声区間に含まれるか否か判定し、発声区間に含まれると判定したフレームのパワー積算値Pを記憶部６に記憶する。

また発声区間検出部１２は、発声区間が終了したと判定すると、すなわち、直前のフレームが発声区間に含まれ、現フレームが発声区間に含まれない場合、発声区間が終了したことをゲイン決定部１４へ通知する。

ゲイン決定部１４は、記憶部６から、発声区間内の各フレームのパワー積算値を読み込む。そしてゲイン決定部１４は、発声区間の前半に含まれる各フレームのパワー積算値の平均値P_favと、発声区間の後半に含まれる各フレームのパワー積算値の平均値P_savとを算出する。

ゲイン決定部１４は、ゲインGの上限値αを、次式に従って、発声区間の前半のパワー積算値の平均値P_favと、発声区間の後半のパワー積算値の平均値P_savとの比較結果に応じて決定する。

（９）式に示されるように、ゲイン決定部１４は、発声区間の前半のパワー積算値の平均値P_favよりも発声区間の後半のパワー積算値の平均値P_savが低下している場合に、ゲインGの上限値αを、1.0よりも大きくする。一方、ゲイン決定部１４は、発声区間の後半のパワー積算値の平均値P_savが、発声区間の前半のパワー積算値の平均値P_favに対して低下していない場合には、ゲインGの上限値αを1.0とする。したがって、この実施形態では、発声区間の後半において話者の発声音量が低下している場合には、音声信号は強調されるが、発声区間の後半において話者の発声音量が低下していない場合には、音声信号は強調されない。そのため、この実施形態では、音声信号の過度な強調が防止され、その結果として、音声信号の歪みが抑制される。

図１６は、発声区間の開始時点からの経過時間とゲインの関係の他の一例を示す図である。図１６において、横軸は経過時間を表し、縦軸はゲインを表す。そしてグラフ１６００は、経過時間とゲインの関係を表す。グラフ１６００に示されるように、発声区間の開始時点からの経過時間が発声区間の前半内に設定された調整開始時間βを過ぎるまでは、ゲインGは、1.0に保たれる。そして経過時間が調整開始時間βを過ぎると、ゲインGは、経過時間が長くなるにつれて線形に単調増加し、経過時間が発声区間の後半内に設定された調整完了時間β'となる時点で一定値αとなる。そして経過時間が調整完了時間β'を経過した後は、ゲインGは、音声信号のレベルが不連続となって音声信号の歪みが大きくなり過ぎないよう、αのまま一定に保たれる。そして発声区間が終了すると、ゲインGは、1.0にリセットされる。

なお、調整開始時間βは、発声区間の前半内の何れかの時点、例えば、発声区間の前半の中点に設定されてもよい。また、調整完了時間β'は、発声区間の後半内の何れかの時点、例えば、発声区間の後半の中点に設定されてもよい。あるいは、調整開始時間β及び調整完了時間β'は、上記の各実施形態と同様に設定されてもよい。

ゲイン決定部１４は、発声区間内の各フレームに対するゲインGを、図１６に示されたグラフに従って、発声区間の開始時点からの経過時間に応じて設定する。なお、ゲイン決定部１４は、発声区間に含まれないフレームに対するゲインGを1.0とする。そしてゲイン決定部１４は、発声区間内の各フレームに対するゲインGを、強調部１５へ出力する。

強調部１５は、記憶部６から音声信号を読み出し、その音声信号を、フレームごとに決定されたゲインGを用いて強調する。

図１７は、第４の実施形態による音声強調処理の動作フローチャートである。音声強調装置２０は、以下の動作フローチャートに従って、フレームごとに音声強調処理を実行する。
パワー算出部１１は、音声信号をフレームごとに分割し、現フレームのパワーの積算値を算出する（ステップＳ４０１）。そしてパワー算出部１１は、パワーの積算値を発声区間検出部１２へ出力し、各周波数のスペクトル信号を発声区間検出部１２及び強調部１５へ出力する。

発声区間検出部１２は、パワーの積算値に基づいて、発声区間が終了したか否か判定する（ステップＳ４０２）。発声区間が終了していない場合（ステップＳ４０２−Ｎｏ）、発声区間検出部１２は、パワーの積算値を記憶部６に記憶する。そして処理部５３は、音声強調処理を終了する。一方、発声区間が終了した場合（ステップＳ４０２−Ｙｅｓ）、発声区間検出部１２は、その判定結果をゲイン決定部１４へ通知する。

ゲイン決定部１４は、記憶部６から発声区間内の各フレームのパワー積算値を読み込み、発声区間の前半のパワー平均値P_favと後半のパワー平均値P_savを算出する（ステップＳ４０３）。そしてゲイン決定部１４は、P_fav/P_savに応じてゲインGの上限値αを決定する（ステップＳ４０４）。

ゲイン決定部１４は、上限値α及び発声区間の開始時点からの経過時間tに応じてゲインGを決定する（ステップＳ４０５）。そしてゲイン決定部１４は、ゲインGを強調部１５へ通知する。

強調部１５は、記憶部６から音声信号を読み込み、発声区間内の音声信号をゲインGに応じて強調して補正音声信号を得る（ステップＳ４０６）。
その後、音声強調装置２０は、音声強調処理を終了する。

第４の実施形態によれば、音声強調装置は、発声区間の前半のパワーと後半のパワーの比較結果に応じてゲインを調節できるので、発声区間の後半におけるパワーの低下度合いに応じたゲインを設定できる。またこの実施形態によれば、音声強調装置は、発声区間の長さに応じて、ゲインが高くなり始めるタイミングを調節できるので、話速などの個人差に応じてゲイン調節のタイミングを適切に設定できる。

次に、第５の実施形態による音声強調装置について説明する。第５の実施形態による音声強調装置は、発声区間内での時間経過に応じた音声信号のパワーの減衰を検出することで、ゲインGの調節開始時間βを適応的に決定する。

図１８は、第５の実施形態による音声強調装置の概略構成図である。音声強調装置３０は、マイクロホン２と、増幅器３と、アナログ／デジタル変換器４と、処理部５４と、遅延用バッファ７とを有する。
第５の実施形態による音声強調装置３０は、第１の実施形態による音声強調装置１と比較して、遅延用バッファ７を有する点で異なる。さらに、第５の実施形態による音声強調装置３０は、第１の実施形態による音声強調装置１と比較して、処理部５４の処理の一部が異なる。そこで以下では、遅延用バッファ７と、処理部５４と、その関連部分について説明する。

遅延用バッファ７は、例えば、入力された音声信号を所定の遅延時間だけ遅延させてから出力する遅延回路を有する。本実施形態では、遅延時間は、処理部５４が音声信号の減衰を検出するのに要する時間、例えば、200msecに設定される。そして遅延用バッファ７から出力された、遅延された音声信号は、処理部５４に入力される。

図１９は、第５の実施形態による音声強調装置の処理部の概略構成図である。処理部５４は、パワー算出部１１と、発声区間検出部１２と、計時部１３と、ゲイン決定部１４と、強調部１５と、減衰判定部１８とを有する。処理部５４は、第４の実施形態による音声強調装置の処理部と比較して、減衰判定部１８を有する点、及び、強調部１５の処理が異なる。そこで以下では、減衰判定部１８及び強調部１５について説明する。

減衰判定部１８は、発声区間内の各フレームについて、発声区間の先頭部分の音声信号に対して減衰したか否かを判定する。そのために、減衰判定部１８は、発声区間の開始時点から閾値決定期間内の各フレームのパワー積算値のうちの最大値Pmaxを、パワーの減衰を検出するための減衰判定閾値Thを求めるための基準値として検出する。なお、閾値決定期間は、例えば、話者の発声音量が減衰しない期間、例えば、一つ〜二つの母音に相当する100msecに設定される。

減衰判定部１８は、パワー積算値の最大値Pmaxから所定のオフセット値（例えば、1.0dB）を減じた値を減衰判定閾値Thとして設定する。そして減衰判定部１８は、発声区間の開始時点から閾値決定期間経過後の各フレームについて、パワー積算値Pを減衰判定閾値Thと比較する。そして減衰判定部１８は、所定期間Tにわたって連続してパワー積算値が減衰判定閾値Th未満となると、音声信号が減衰したと判定する。なお、所定期間Tは、遅延用バッファ７による遅延時間、あるいはその遅延時間に1未満の安全係数（例えば、0.9〜0.95）を乗じた時間、例えば、200msecに設定される。

減衰判定部１８は、音声信号が減衰したと判定した時刻から所定期間Tだけ前の時刻を減衰開始時刻としてゲイン決定部１４に通知する。

図２０は、発声区間内の音声信号のパワーの時間変化と減衰判定閾値Thとの関係の一例を示す図である。図２０において、横軸は経過時間を表し、縦軸はパワーを表す。グラフ２０００は、発声区間内の音声信号のパワーの時間変化を表す。図２０に示されるように、発声区間の開始時点から閾値決定期間(100msec)内でのパワー積算値の最大値Pmaxからオフセット値Poffを減じた値に減衰判定閾値Thが設定される。そしてこの例では、時刻t₁において、所定期間Tにわたって連続してパワー積算値が減衰判定閾値Th未満となっている。そのため、時刻t₁よりも期間Tだけ前の時刻t₀が、減衰開始時刻となる。

ゲイン決定部１４は、減衰開始時刻を調整開始時間βとして、ゲインGを決定する。そしてゲイン決定部１４は、ゲインGを強調部１５へ出力する。
強調部１５は、遅延用バッファ７から入力された音声信号に対して、減衰開始時刻からゲインGを用いて音声強調処理を実行する。

図２１は、第５の実施形態による音声強調処理の動作フローチャートである。音声強調装置３０は、以下の動作フローチャートに従って、フレームごとに音声強調処理を実行する。
パワー算出部１１は、音声信号をフレームごとに分割し、現フレームのパワーの積算値を算出する（ステップＳ５０１）。そしてパワー算出部１１は、パワーの積算値を発声区間検出部１２及び減衰判定部１８へ出力し、各周波数のスペクトル信号を発声区間検出部１２及び強調部１５へ出力する。

発声区間検出部１２は、パワーの積算値に基づいて、現フレームが発声区間内か否か判定する（ステップＳ５０２）。現フレームが発声区間から外れている場合（ステップＳ５０２−Ｎｏ）、処理部５４は、音声強調処理を終了する。一方、現フレームが発声区間に含まれる場合（ステップＳ５０２−Ｙｅｓ）、発声区間検出部１２は、その判定結果を減衰判定部１８及びゲイン決定部１４へ通知する。

減衰判定部１８は、現フレームにおいて、発声区間開始からの閾値決定期間が終了したか否か判定する（ステップＳ５０３）。閾値決定期間が終了していない場合（ステップＳ５０３−Ｎｏ）、処理部５４は、音声強調処理を終了する。一方、閾値決定期間が終了した場合（ステップＳ５０３−Ｙｅｓ）、減衰判定部１８は、閾値決定期間内のパワー積算値の最大値Pmaxに基づいて減衰判定閾値Thを決定する（ステップＳ５０４）。

また、減衰判定部１８は、パワーの積算値Pが減衰判定閾値Th未満となる継続期間が所定期間Tに達したか否か判定する（ステップＳ５０５）。継続期間が所定期間Tに達していなければ（ステップＳ５０５−Ｎｏ）、処理部５４は、音声強調処理を終了する。一方、継続期間が所定期間Tに達していれば（ステップＳ５０５−Ｙｅｓ）、減衰判定部１８は、現フレームから所定期間Tだけ遡った時刻を減衰開始時刻とする。そして減衰判定部１８は、減衰開始時刻をゲイン決定部１４に通知する。

ゲイン決定部１４は、減衰開始時刻を調整開始時間βに設定する（ステップＳ５０６）。そしてゲイン決定部１４は、調整開始時間β以降かつ調整完了期間β’未満の各フレームについて、発声期間の開始時点からの経過時間tが長いほど高くなるようにゲインGを設定する（ステップＳ５０７）。そしてゲイン決定部１４は、ゲインGを強調部１５へ通知する。

強調部１５は、遅延用バッファ７から入力された、遅延された音声信号をゲインGに応じて強調して補正音声信号を得る（ステップＳ５０８）。
その後、音声強調装置３０は、音声強調処理を終了する。

第５の実施形態によれば、音声強調装置は、発声区間内で音声信号が減衰し始めたときから音声信号の強調処理を開始できる。そのため、この音声強調装置は、発声区間内の音声信号を適切に強調できる。

なお、上記の各実施形態のうちの複数を組み合わせることも可能である。例えば、第２または第３の実施形態と第４または第５の実施形態を組み合わせてもよい。あるいは、第４の実施形態と第５の実施形態を組み合わせてもよい。

また、音声強調装置が複数のマイクロホンを有する場合、発声区間検出部１２は、フレームごとに、音源方向θが想定される話者の方向の範囲に含まれるか否かを判定してもよい。そして発声区間検出部１２は、音源方向θが想定される話者の方向の範囲に含まれる場合、そのフレームが発声区間に含まれると判定してもよい。

さらに、上記の各実施形態または変形例による音声強調装置は、例えば、携帯電話機に実装され、他の装置により生成された音声信号を補正してもよい。この場合には、音声強調装置によって補正された音声信号は、音声強調装置が実装された装置が有するスピーカから再生される。

さらに、上記の各実施形態または変形例による音声強調装置の処理部が有する機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体あるいは光記録媒体といった、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。なお、この記録媒体には、搬送波は含まれない。

図２２は、上記の何れかの実施形態またはその変形例による音声強調装置の処理部の機能を実現するコンピュータプログラムが動作することにより、音声強調装置として動作するコンピュータの構成図である。

コンピュータ１００は、ユーザインターフェース部１０１と、オーディオインターフェース部１０２と、通信インターフェース部１０３と、記憶部１０４と、記憶媒体アクセス装置１０５と、プロセッサ１０６とを有する。プロセッサ１０６は、ユーザインターフェース部１０１、オーディオインターフェース部１０２、通信インターフェース部１０３、記憶部１０４及び記憶媒体アクセス装置１０５と、例えば、バスを介して接続される。

ユーザインターフェース部１０１は、例えば、キーボードとマウスなどの入力装置と、液晶ディスプレイといった表示装置とを有する。または、ユーザインターフェース部１０１は、タッチパネルディスプレイといった、入力装置と表示装置とが一体化された装置を有してもよい。そしてユーザインターフェース部１０１は、例えば、ユーザの操作に応じて、オーディオインターフェース部１０２を介して入力される音声信号に対する音声強調処理を開始する操作信号をプロセッサ１０６へ出力する。

オーディオインターフェース部１０２は、コンピュータ１００に、マイクロホンなどの音声信号を生成する音声入力装置と接続するためのインターフェース回路を有する。そしてオーディオインターフェース部１０２は、音声入力装置から音声信号を取得して、その音声信号をプロセッサ１０６へ渡す。

通信インターフェース部１０３は、コンピュータ１００を、イーサネット（登録商標）などの通信規格に従った通信ネットワークに接続するための通信インターフェース及びその制御回路を有する。そして、通信インターフェース部１０３は、プロセッサ１０６から受け取った、補正音声信号を含むデータストリームを通信ネットワークを介して他の機器へ出力する。また通信インターフェース部１０３は、通信ネットワークに接続された他の機器から、音声信号を含むデータストリームを取得し、そのデータストリームをプロセッサ１０６へ渡してもよい。

記憶部１０４は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部１０４は、プロセッサ１０６上で実行される、音声強調処理を実行するためのコンピュータプログラム、及びこれらの処理の途中または結果として生成されるデータを記憶する。

記憶媒体アクセス装置１０５は、例えば、磁気ディスク、半導体メモリカード及び光記憶媒体といった記憶媒体１０７にアクセスする装置である。記憶媒体アクセス装置１０５は、例えば、記憶媒体１０７に記憶されたプロセッサ１０６上で実行される、音声強調処理用のコンピュータプログラムを読み込み、プロセッサ１０６に渡す。

プロセッサ１０６は、上記の各実施形態の何れかまたは変形例による音声強調処理用コンピュータプログラムを実行することにより、オーディオインターフェース部１０２または通信インターフェース部１０３を介して受け取った音声信号を補正する。そしてプロセッサ１０６は、補正した音声信号を記憶部１０４に保存し、または通信インターフェース部１０３を介して他の機器へ出力する。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
（付記１）
音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出する発声区間検出部と、
前記発声区間の開始時点からの経過時間を計時する計時部と、
前記経過時間に応じて前記音声信号の強調度合いを表すゲインを決定するゲイン決定部と、
前記ゲインに応じて前記発声区間内の前記音声信号を強調する強調部と、
を有する音声強調装置。
（付記２）
前記ゲイン決定部は、前記経過時間が所定時間に達するまでは前記ゲインを第１の値に設定し、前記経過時間が前記所定時間を過ぎると前記ゲインを前記第１の値よりも高くする、付記１に記載の音声強調装置。
（付記３）
前記ゲイン決定部は、前記経過時間が長くなるほど、前記ゲインの単位時間当たりの増加量を大きくする、付記１または２に記載の音声強調装置。
（付記４）
前記発声区間内の前記音声信号の人の声らしさを表す音声度合いを求める音声度合い測定部をさらに有し、
前記ゲイン決定部は、前記音声度合いが高いほど前記ゲインを高くする、付記１〜３の何れか一項に記載の音声強調装置。
（付記５）
前記音声度合い測定部は、前記発声区間内の前記音声信号のパワーが高いほど、前記音声度合いを高くする、付記４に記載の音声強調装置。
（付記６）
前記音声信号に基づいて前記音声信号の音源の方向を検出する音源方向検出部をさらに有し、
前記音声度合い測定部は、前記音源の方向が予め設定された方向範囲内に含まれる場合における前記音声度合いを、前記音源の方向が前記方向範囲から外れる場合における前記音声度合いよりも高くする、付記４に記載の音声強調装置。
（付記７）
前記音声信号を記憶する記憶部をさらに有し、
前記発声区間検出部は、前記発声区間が終了したことを検知して前記ゲイン決定部に通知し、
前記ゲイン決定部は、前記発声区間が終了したことを通知されると、前記記憶部から前記発声区間内の前記音声信号を読み出して、前記発声区間の前半の前記音声信号のパワーの平均値と前記発声区間の後半の前記音声信号のパワーの平均値を算出し、前記後半の前記音声信号のパワーの平均値に対する前記前半の前記音声信号のパワーの平均値の比に応じて、前記ゲインを決定する、付記１に記載の音声強調装置。
（付記８）
前記ゲイン決定部は、前記後半の前記音声信号のパワーの平均値が前記前半の前記音声信号のパワーの平均値以上である場合、前記ゲインを前記音声信号が強調されない値に設定し、一方、前記後半の前記音声信号のパワーの平均値が前記前半の前記音声信号のパワーの平均値よりも小さい場合、前記比が大きくなるほど前記ゲインを高くする、付記７に記載の音声強調装置。
（付記９）
前記発声区間内で前記音声信号が減衰を開始した時刻を判定する減衰判定部をさらに有し、
前記ゲイン決定部は、前記減衰を開始した時刻を前記所定時間に設定する、付記２に記載の音声強調装置。
（付記１０）
音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出し、
前記発声区間の開始時点からの経過時間を計時し、
前記経過時間に応じて前記音声信号の強調度合いを表すゲインを決定し、
前記ゲインに応じて前記発声区間内の前記音声信号を強調する、
ことを含む音声強調方法。
（付記１１）
音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出し、
前記発声区間の開始時点からの経過時間を計時し、
前記経過時間に応じて前記音声信号の強調度合いを表すゲインを決定し、
前記ゲインに応じて前記発声区間内の前記音声信号を強調する、
ことをコンピュータに実行させるための音声強調用コンピュータプログラム。

１、１０、２０、３０音声強調装置
２、２−１、２−２マイクロホン
３増幅器
４アナログ／デジタル変換器
５、５１、５２、５３、５４処理部
６記憶部
７遅延用バッファ
１１パワー算出部
１２発声区間検出部
１３計時部
１４ゲイン決定部
１５強調部
１６音声度合い測定部
１７音源方向検出部
１８減衰判定部
１００コンピュータ
１０１ユーザインターフェース部
１０２オーディオインターフェース部
１０３通信インターフェース部
１０４記憶部
１０５記憶媒体アクセス装置
１０６プロセッサ
１０７記憶媒体

Claims

音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出する発声区間検出部と、
前記発声区間の開始時点からの経過時間を計時する計時部と、
前記経過時間が所定時間に達するまでは前記音声信号の強調度合いを表すゲインを第１の値に設定し、前記経過時間が前記所定時間を過ぎると前記ゲインを前記第１の値よりも高くするよう、前記ゲインを決定するゲイン決定部と、
前記ゲインに応じて前記発声区間内の前記音声信号を強調する強調部と、
を有する音声強調装置。
音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出する発声区間検出部と、
前記発声区間の開始時点からの経過時間を計時する計時部と、
前記経過時間に応じて前記音声信号の強調度合いを表すゲインを決定するゲイン決定部と、
前記ゲインに応じて前記発声区間内の前記音声信号を強調する強調部と、
前記発声区間内の前記音声信号の人の声らしさを表す音声度合いを求める音声度合い測定部とを有し、
前記ゲイン決定部は、前記音声度合いが高いほど前記ゲインを高くする音声強調装置。
前記音声信号に基づいて前記音声信号の音源の方向を検出する音源方向検出部をさらに有し、
前記音声度合い測定部は、前記音源の方向が予め設定された方向範囲内に含まれる場合における前記音声度合いを、前記音源の方向が前記方向範囲から外れる場合における前記音声度合いよりも高くする、請求項２に記載の音声強調装置。
前記音声信号を記憶する記憶部をさらに有し、
前記発声区間検出部は、前記発声区間が終了したことを検知して前記ゲイン決定部に通知し、
前記ゲイン決定部は、前記発声区間が終了したことを通知されると、前記記憶部から前記発声区間内の前記音声信号を読み出して、前記発声区間の前半の前記音声信号のパワーの平均値と前記発声区間の後半の前記音声信号のパワーの平均値を算出し、前記後半の前記音声信号のパワーの平均値に対する前記前半の前記音声信号のパワーの平均値の比に応じて、前記所定時間経過後の前記ゲインを決定する、請求項１に記載の音声強調装置。
前記発声区間内で前記音声信号が減衰を開始した時刻を判定する減衰判定部をさらに有し、
前記ゲイン決定部は、前記減衰を開始した時刻を前記所定時間に設定する、請求項１に記載の音声強調装置。
音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出し、
前記発声区間の開始時点からの経過時間を計時し、
前記経過時間が所定時間に達するまでは前記音声信号の強調度合いを表すゲインを第１の値に設定し、前記経過時間が前記所定時間を過ぎると前記ゲインを前記第１の値よりも高くするよう、前記ゲインを決定し、
前記ゲインに応じて前記発声区間内の前記音声信号を強調する、
ことを含む音声強調方法。
音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出し、
前記発声区間の開始時点からの経過時間を計時し、
前記経過時間に応じて前記音声信号の強調度合いを表すゲインを決定し、
前記ゲインに応じて前記発声区間内の前記音声信号を強調し、
前記発声区間内の前記音声信号の人の声らしさを表す音声度合いを求める
ことを含み、
前記ゲインを決定することは、前記音声度合いが高いほど前記ゲインを高くする音声強調方法。
音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出し、
前記発声区間の開始時点からの経過時間を計時し、
前記経過時間が所定時間に達するまでは前記音声信号の強調度合いを表すゲインを第１の値に設定し、前記経過時間が前記所定時間を過ぎると前記ゲインを前記第１の値よりも高くするよう、前記ゲインを決定し、
前記ゲインに応じて前記発声区間内の前記音声信号を強調する、
ことをコンピュータに実行させるための音声強調用コンピュータプログラム。
音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出し、
前記発声区間の開始時点からの経過時間を計時し、
前記経過時間に応じて前記音声信号の強調度合いを表すゲインを決定し、
前記ゲインに応じて前記発声区間内の前記音声信号を強調し、
前記発声区間内の前記音声信号の人の声らしさを表す音声度合いを求める
ことをコンピュータに実行させ、
前記ゲインを決定することは、前記音声度合いが高いほど前記ゲインを高くする音声強調用コンピュータプログラム。