JP6361271B2 - 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム - Google Patents

音声強調装置、音声強調方法及び音声強調用コンピュータプログラム Download PDF

Info

Publication number
JP6361271B2
JP6361271B2 JP2014098021A JP2014098021A JP6361271B2 JP 6361271 B2 JP6361271 B2 JP 6361271B2 JP 2014098021 A JP2014098021 A JP 2014098021A JP 2014098021 A JP2014098021 A JP 2014098021A JP 6361271 B2 JP6361271 B2 JP 6361271B2
Authority
JP
Japan
Prior art keywords
gain
audio signal
unit
voice
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014098021A
Other languages
English (en)
Other versions
JP2015215463A (ja
Inventor
松尾 直司
直司 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014098021A priority Critical patent/JP6361271B2/ja
Priority to US14/691,851 priority patent/US9779754B2/en
Priority to GB1507405.7A priority patent/GB2529016B/en
Publication of JP2015215463A publication Critical patent/JP2015215463A/ja
Application granted granted Critical
Publication of JP6361271B2 publication Critical patent/JP6361271B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Description

本発明は、例えば、音声信号を強調する音声強調装置、音声強調方法及び音声強調用コンピュータプログラムに関する。
マイクロホンが音声を集音することで生成された音声信号には、雑音成分が含まれたり、音声信号中で話者の声に対応する信号成分が小さいことがある。音声信号に雑音成分が含まれたり、あるいは、信号成分が小さいと、音声信号中で話者の音声が不明りょうとなることがある。また、音声信号中の話者の音声を認識して、その音声に応じた処理を行う装置において、話者の音声が不明りょうになると、音声認識の精度が低下してしまい、所望の処理が行われないことがある。そこで、音声信号のレベルを自動的に調節するAuto Gain Control(AGC)と呼ばれる技術が利用されている(例えば、特許文献1を参照)。
特開昭56−84013号公報
しかしながら、過度に音声信号のレベルを調節すると、音声信号の歪みが大きくなったり、あるいは、雑音成分まで強調されてしまい、話者の音声が必ずしも明りょうにならないことがある。特に、語彙が長いと、語尾に近づくにつれて話者の音声が小さくなり、その結果として、音声信号中でその語彙が明りょうに識別できなくなることがある。このような場合、従来のAGCを音声信号に適用しても、その音声信号に含まれる、話者の音声が不明りょうなままとなることがあった。
そこで本明細書は、一つの側面として、話者の発声音量が発声開始からの時間に応じて変化しても、音声信号に含まれる、話者の音声を明りょう化できる音声強調装置を提供することを目的とする。
一つの実施形態によれば、音声強調装置が提供される。この音声強調装置は、音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出する発声区間検出部と、発声区間の開始時点からの経過時間を計時する計時部と、経過時間に応じて音声信号の強調度合いを表すゲインを決定するゲイン決定部と、ゲインに応じて発声区間内の音声信号を強調する強調部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された音声強調装置は、話者の発声音量が発声開始からの時間に応じて変化しても、音声信号に含まれる、話者の音声を明りょう化できる。
第1の実施形態による音声強調装置の概略構成図である。 第1の実施形態による音声強調装置の処理部の概略構成図である。 発声区間の開始時点からの経過時間とゲインの関係の一例を示す図である。 発声区間の開始時点からの経過時間とゲインの関係の他の一例を示す図である。 (a)は、オリジナルの音声信号の信号波形の一例を示す図である。(b)は、本実施形態による音声強調装置により得られた補正音声信号の信号波形の一例を示す図である。 第1の実施形態による音声強調処理の動作フローチャートである。 第2の実施形態による音声強調装置の処理部の概略構成図である。 パワー積算値と音声度合いの関係の一例を示す図である。 第2の実施形態による音声強調処理の動作フローチャートである。 第3の実施形態による音声強調装置の概略構成図である。 第3の実施形態による音声強調装置の処理部の概略構成図である。 音源方向θと推定される話者の方向の範囲の関係を示す図である。 音源方向θと音声度合いτの関係の一例を示す図である。 第3の実施形態による音声強調処理の動作フローチャートである。 第4の実施形態による音声強調装置の概略構成図である。 発声区間の開始時点からの経過時間とゲインの関係の他の一例を示す図である。 第4の実施形態による音声強調処理の動作フローチャートである。 第5の実施形態による音声強調装置の概略構成図である。 第5の実施形態による音声強調装置の処理部の概略構成図である。 発声区間内の音声信号のパワーの時間変化と減衰判定閾値との関係の一例を示す図である。 第5の実施形態による音声強調処理の動作フローチャートである。 上記の何れかの実施形態またはその変形例による音声強調装置の処理部の機能を実現するコンピュータプログラムが動作することにより、音声強調装置として動作するコンピュータの構成図である。
以下、図を参照しつつ、実施形態による音声強調装置について説明する。
話者が長時間連続して発声していると、語尾にかけて話者の発声音量が低下することがある。そのために、音声信号中で話者が発声している区間である発声区間全体に対して同じゲインを用いて音声信号のレベルを調節しても、話者の音声は必ずしも明りょうにはならない。
また、発声区間よりも短い区間単位で音声信号を区切り、区間ごとに独立して音声信号のレベルを調節しても、隣接する区間でゲインが不連続に変化することがある。そのため、音声に歪みが生じたり、連続する二つの発声区間の間、または発声区間内で一時的に話者の発声音量が低下した部分の雑音が強調されてしまい、話者の音声は明りょうにならないことがある。
そこで、この音声強調装置は、音声信号中に含まれる、話者の発声区間の開始時からの経過時間に応じて音声信号の強調度合いを表すゲインを調節することで、話者の発声音量がその経過時間に応じて変化しても、音声信号中の話者の音声を明りょう化する。その際、この音声強調装置は、経過時間が所定以上となった時点から音声信号を強調することで、語尾の発声音量が低下しても音声信号中の話者の音声を明りょう化できる。
図1は、第1の実施形態による音声強調装置の概略構成図である。音声強調装置1は、マイクロホン2と、増幅器3と、アナログ/デジタル変換器4と、処理部5とを有する。音声強調装置1は、例えば、車両に搭載され、車室内にいる話者(例えば、ドライバー)の音声を強調する。
マイクロホン2は、音声入力部の一例であり、音声強調装置1の周囲の音を集音し、その音の強度に応じたアナログ音声信号を生成し、そのアナログ音声信号を増幅器3へ出力する。増幅器3は、そのアナログ音声信号を増幅した後、増幅されたアナログ音声信号をアナログ/デジタル変換器4へ出力する。アナログ/デジタル変換器4は、増幅されたアナログ音声信号を所定のサンプリング周期でサンプリングすることによりデジタル化された音声信号を生成する。そしてアナログ/デジタル変換器4は、デジタル化された音声信号を処理部5へ出力する。なお、以下では、デジタル化された音声信号を、単に音声信号と呼ぶ。
処理部5は、例えば、一つまたは複数のプロセッサと、読み書き可能なメモリ回路と、その周辺回路とを有する。そして処理部5は、音声信号に対して音声強調処理を実行することで、補正音声信号を得る。そして処理部5は、補正音声信号に対して音声認識処理を行って、話者の音声に応じた処理を実行する。あるいは、処理部5は、補正音声信号を通信インターフェース(図示せず)を介して他の機器へ出力してもよい。
図2は、処理部5の概略構成図である。処理部5は、パワー算出部11と、発声区間検出部12と、計時部13と、ゲイン決定部14と、強調部15とを有する。処理部5が有するこれらの各部は、例えば、デジタル信号プロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部5が有するこれらの各部は、これらの各部の機能を実現する一つまたは複数のファームウェアであってもよい。
パワー算出部11は、音声信号を所定長を持つフレームごとに分割し、フレームごとの音声のパワーを算出する。フレーム長は、例えば、32msecに設定される。なお、パワー算出部11は、連続する二つのフレームの一部を重複させてもよい。この場合、パワー算出部11は、現在のフレームから次のフレームへ移動する際に、新たにフレームに取り入れられるフレームシフト量を、例えば、10msec〜16msecに設定してもよい。
パワー算出部11は、フレームごとに、音声信号を、時間周波数変換を用いて時間領域から周波数領域のスペクトル信号に変換する。パワー算出部11は、時間周波数変換として、例えば、高速フーリエ変換(Fast Fourier Transform, FFT)または修正離散コサイン変換(Modified Discrete Cosign Transform, MDCT)を用いることができる。なお、パワー算出部11は、各フレームに、ハミング窓またはハニング窓といった窓関数を乗じたのちに時間周波数変換を行ってもよい。
例えば、フレーム長が32msecであり、アナログ/デジタル変換器4のサンプリングレートが8kHzであれば、1フレームあたり256個のサンプル点が含まれるので、パワー算出部11は、256点のFFTを実行する。
パワー算出部11は、フレームごとに、そのフレームのスペクトル信号から、人の声の特徴を表す特徴量として、人の声が含まれる周波数帯域のパワーの積算値を算出する。
パワー算出部11は、フレームごとに、例えば、次式に従って、人の声が含まれる周波数帯域のパワーの積算値を算出する。
Figure 0006361271
ここでS(f)は、周波数fにおけるスペクトル信号であり、|S(f)|2は、周波数fにおけるパワースペクトルである。またfmin、fmaxは、それぞれ、人の声が含まれる周波数帯域の下限及び上限を表す。そしてPはパワーの積算値である。
なお、パワー算出部11は、フレームの時間周波数変換を実行せずにフレームごとのサンプル点の二乗和からパワーの積算値を直接求めてもよい。
パワー算出部11は、フレームごとのパワーの積算値を発声区間検出部12へ通知する。またパワー算出部11は、フレームごとの各周波数のスペクトル信号を発声区間検出部12及び強調部15へ出力する。
発声区間検出部12は、フレームごとのパワーの積算値に基づいて、音声信号から発声区間を検出する。本実施形態では、発声区間検出部12は、フレームのパワー積算値に基づいて、フレームごとに発声区間に含まれるか否かを判定することで、発声区間を検出する。
発声区間検出部12は、着目するフレームのパワーの積算値が雑音判定閾値Thnよりも大きい場合、そのフレームは発声区間に含まれると判定する。なお、雑音判定閾値Thnは、音声信号に含まれる背景雑音レベルに応じて適応的に設定されることが好ましい。そこで発声区間検出部12は、例えば、フレームの周波数帯域全体のパワースペクトルの積算値が所定のパワー閾値未満であれば、そのフレームを背景雑音以外の音が含まれない無音フレームと判定する。そして発声区間検出部12は、無音フレームのパワーの積算値に基づいて背景雑音レベルを推定する。例えば、発声区間検出部12は、次式に従って背景雑音レベルを推定する。
Figure 0006361271
ここで、Psは、最新の無音フレームのパワーの積算値であり、noisePは、更新前の背景雑音レベルである。そしてnoiseP'は、更新後の背景雑音レベルである。この場合、雑音判定閾値Thnは、例えば、次式に従って設定される。
Figure 0006361271
ここで、γは、あらかじめ設定される定数であり、例えば、2〜3[dB]に設定される。
発声区間検出部12は、フレームごとに、発声区間に含まれるか否かの判定結果を計時部13に通知する。
計時部13は、例えば、タイマを有し、発声区間が開始されてからの経過時間を計時する。本実施形態では、計時部13は、直前のフレームが発声区間に含まれず、現フレームが発声区間に含まれる場合に計時を開始する。そして計時部13は、フレームが発声区間に含まれるとの判定結果を発声区間検出部12から受けている間、経過時間の計時を継続する。そして計時部13は、フレームが発声区間に含まれないとの判定結果を発声区間検出部12から受けると、計時を終了し、経過時間を0にリセットする。また計時部13は、発声区間に含まれないフレームについては、経過時間を0とする。
計時部13は、フレームごとに、発声区間が開始されてからの経過時間をゲイン決定部14に通知する。
ゲイン決定部14は、発声区間が開始されてからの経過時間に応じて音声信号を強調する度合いを表すゲインを調節する。本実施形態では、ゲイン決定部14は、発声区間が開始されてからの経過時間が調整開始時間を過ぎるまではゲインを一定に保ち、経過時間がその調整開始時間を過ぎると、経過時間が長くなるほどゲインを高くする。これにより、音声強調装置1は、話者の発声音量が語尾にかけて小さくなっても、その語尾の部分の音声を選択的に強調することができ、一方、音量が十分な発声区間の先頭部分を過度に強調することを防止して、補正音声信号の歪みを抑制できる。
図3は、発声区間の開始時点からの経過時間とゲインの関係の一例を示す図である。図3において、横軸は経過時間を表し、縦軸はゲインを表す。そしてグラフ300は、経過時間とゲインの関係を表す。グラフ300に示されるように、発声区間の開始時点からの経過時間が調整開始時間βを過ぎるまでは、ゲインGは、1.0に保たれる。すなわち、発声区間の開始時点から調整開始時間βを経過するまでは、音声信号は元のままである。そして経過時間が調整開始時間βを過ぎると、ゲインGは、経過時間が長くなるにつれて線形に単調増加し、経過時間が調整完了時間β'となる時点で上限値αで一定となる。そして経過時間が調整完了時間β'を経過した後は、ゲインGは、音声信号のレベルが不連続となって音声信号の歪みが大きくなり過ぎないよう、αのまま一定に保たれる。そして発声区間が終了すると、ゲインGは、1.0にリセットされる。なお、調整開始時間βは、例えば、母音一つまたは二つ分の長さ、例えば、100msecに設定される。また調整完了時間β'は、例えば、βに6000msecを加算した時間とすることができる。そしてゲインGの上限値αは、フレーム間でのゲインの変化により生じる補正音声信号の不連続性が許容範囲に収まるゲイン値、例えば、1.2に設定される。
図4は、発声区間の開始時点からの経過時間とゲインの関係の他の一例を示す図である。図4でも、横軸は経過時間を表し、縦軸はゲインを表す。そしてグラフ400は、経過時間とゲインの関係を表す。図3に示されたグラフ300と異なり、この例では、グラフ400に示されるように、発声区間の開始時点からの経過時間が長くなるほど、ゲインGの単位時間当たりの増加量が大きくなる。ただし、この例においても、経過時間が調整開始時間βを過ぎるまでは、ゲインGは、1.0に保たれ、経過時間が調整完了時間β’を過ぎると、αで一定となる。この例では、経過時間が調整開始時間βを過ぎて調整完了時間β’になるまでの間、ゲインGは、例えば、次式で算出される。
Figure 0006361271
ここでtは、発声区間の開始時点からの経過時間を表す。またρは、正の定数である。
話者によっては、語尾に近づくにつれて、急激に音量が低下することがある。このような場合でも、上記の例によれば、音声強調装置1は、発声区間の終端に近いほど急激にゲインGを高くするので、話者の発話において音量が低下した部分を適切に強調できる。
なお、調整開始時間βは、0に設定されてもよい。すなわち、発声区間の開始時点からゲインGが調節されてもよい。この場合、話者の発声音量が十分な発声区間の先頭部分において過度に音声信号が強調されることがないように、(4)式に従ってゲインGが算出されることが好ましい。
ゲイン決定部14は、フレームごとに、発声区間の開始時点からの経過時間に応じて、上記の図3または図4のグラフに従ってゲインGを決定する。そしてゲイン決定部14は、フレームごとに、ゲインGを強調部15へ通知する。
強調部15は、フレームごとに、ゲイン決定部14から受け取ったゲインGに応じて音声信号を強調する。本実施形態では、強調部15は、次式に従って、各周波数のスペクトル信号を強調する。
Figure 0006361271
ここでS'(f)2は、周波数fの強調後のパワースペクトルを表す。そしてS'(f)は、周波数fの強調後のスペクトル信号を表す。なお、強調部15は、強調されたパワースペクトルS'(f)2から、雑音成分を減じてもよい。
強調部15は、補正されたスペクトル信号を周波数時間変換して時間領域の信号に変換することにより、フレームごとの補正音声信号を得る。なお、この周波数時間変換は、パワー算出部11により行われる時間周波数変換の逆変換である。最後に、強調部15は、連続するフレームごとの補正音声信号を結合することにより、補正音声信号を得る。
図5(a)は、オリジナルの音声信号の信号波形の一例を示す図である。図5(b)は、本実施形態による音声強調装置により得られた補正音声信号の信号波形の一例を示す図である。
図5(a)及び図5(b)において、横軸は時間を表し、縦軸は音声信号の振幅の強度を表す。信号波形500は、オリジナルの音声信号の信号波形である。また信号波形510は、本実施形態による音声強調装置1による、補正音声信号の信号波形である。この例では、発声区間が開始された時刻t1よりも後の、音量が低下し始めた時刻t2から発声区間が終了する時刻t3の間において、音声信号が強調されている。
図6は、第1の実施形態による音声強調処理の動作フローチャートである。音声強調装置1は、以下の動作フローチャートに従って、フレームごとに音声強調処理を実行する。
パワー算出部11は、音声信号をフレームごとに分割し、現フレームのパワーの積算値を算出する(ステップS101)。そしてパワー算出部11は、パワーの積算値を発声区間検出部12へ出力し、各周波数のスペクトル信号を発声区間検出部12及び強調部15へ出力する。
発声区間検出部12は、パワーの積算値に基づいて、現フレームが発声区間に含まれるか否か判定する(ステップS102)。現フレームが発声区間に含まれない場合(ステップS102−No)、処理部5は、音声信号を強調しない。そして処理部5は、音声強調処理を終了する。一方、現フレームが発声区間に含まれる場合(ステップS102−Yes)、発声区間検出部12は、その判定結果を計時部13へ通知する。
計時部13は、発声区間検出部12から受け取った判定結果に応じて、発声区間の開始時点から現フレームまでの経過時間tを計時する(ステップS103)。そして計時部13は、その経過時間tをゲイン決定部14へ通知する。
ゲイン決定部14は、発声区間の開始からの経過時間tが調整開始時間β以上かつ調整完了時間β’未満か否か判定する(ステップS104)。経過時間tが調整開始時間β未満である場合(ステップS104−No)、ゲイン決定部14は、ゲインGを1.0に設定する(ステップS105)。また、経過時間tが調整完了時間β’以上である場合(ステップS104−No)ゲイン決定部14は、ゲインGをαに設定する(ステップS106)。一方、経過時間tが調整開始時間β以上かつ調整完了時間β’未満である場合(ステップS104−Yes)、ゲイン決定部14は、ゲインGを経過時間tが長いほど高くなる値に設定する(ステップS107)。ステップS105、S106またはS107の後、ゲイン決定部14は、ゲインGを強調部15へ通知する。
強調部15は、ゲインGに応じて現フレームの音声信号を強調して補正音声信号を得る(ステップS108)。
その後、音声強調装置1は、音声強調処理を終了する。
以上に説明してきたように、この音声強調装置は、発声区間の開始時点からの経過時間に応じてゲインを調節するので、発声区間中での話者の発声音量の変化に応じて適切に音声信号を補正できる。例えば、長い語彙の発声などで語尾にかけて発声音量が低下する場合でも、この音声強調装置は、話者の音声が明りょうとなるように音声信号を補正できる。そしてこの音声強調装置は、発声区間の開始からの経過時間でゲインを決定するため、短期間ごとにゲインを決定する場合と異なり、ゲインが連続的に変化するので、補正音声信号において不連続な部分を生じ難い。そのため、この音声強調装置は、音声認識の精度向上に寄与できる補正音声信号を得ることができる。
次に、第2の実施形態による音声強調装置について説明する。第2の実施形態による音声強調装置は、発声区間中において人の声らしさの度合いを求め、人の声らしさの度合いが高いほど、ゲインを高くする。
図7は、第2の実施形態による音声強調装置の処理部の概略構成図である。処理部51は、パワー算出部11と、発声区間検出部12と、計時部13と、ゲイン決定部14と、強調部15と、音声度合い測定部16とを有する。
図7において、処理部51の各構成要素には、図2に示した処理部5の対応する構成要素の参照番号と同じ参照番号を付した。
第2の実施形態による音声強調装置の処理部51は、第1の実施形態による音声強調装置の処理部5と比較して、音声度合い測定部16を有する点、及び、ゲイン決定部14の処理が異なる。そこで以下では、音声度合い測定部16及びゲイン決定部14について説明する。音声強調装置の他の構成要素については、第1の実施形態の対応する構成要素の説明を参照されたい。
音声度合い測定部16は、発声区間に含まれる音声信号のフレームごとに、人の声らしさを表す度合いである音声度合いを求める。本実施形態では、話者の声の集音を目的としてマイクロホン2が設置されているので、音声信号のパワーが大きい場合には、話者が発声していると考えられる。そこで、音声度合い測定部16は、発声区間中の音声信号のパワー積算値Pに基づいて音声度合いτを求める。また、本実施形態では、音声度合いτは、0〜1の間の値を取り、値が大きいほど、音声信号が人の声らしいことを表す。
図8は、パワー積算値と音声度合いの関係の一例を示す図である。図8において、横軸はパワー積算値Pを表し、縦軸は音声度合いτを表す。そしてグラフ800は、パワー積算値Pと音声度合いτの関係を表す。グラフ800に示されるように、パワー積算値Pが下限閾値γ以下のとき、音声度合い測定部16は、音声度合いτを0.0に設定する。
一方、パワー積算値Pが下限閾値γを超え、かつ、上限閾値γ'以下である場合、音声度合い測定部16は、パワー積算値Pが大きくなるにつれて、音声度合いτを線形に単調増加させる。そしてパワー積算値Pが上限閾値γ'を超えると、音声度合い測定部16は、音声度合いτを1.0とする。すなわち、音声度合い測定部16は、音声度合いτを、次式に従って算出する。
Figure 0006361271
なお、下限閾値γは、例えば、直近の所定期間に含まれる各フレームのパワー積算値Pの平均値に設定される。その所定期間は、例えば、一つ以上の発声区間が含まれるよう、数秒〜数十秒に設定される。あるいは、下限閾値γは、(2)式で算出される背景雑音推定値noiseP'、あるいは背景雑音推定値noiseP'に所定のオフセット値(例えば、1〜3dB)を加えた値であってもよい。あるいはまた、下限閾値γは、事前に設定される固定の値であってもよい。また、上限閾値γ'は、下限閾値γに所定の値を加算した値に設定される。なお、所定の値は、例えば、音声信号が人の声であることが確実と推定されるパワー積算値となるように、実験的に定められ、例えば、+12dBに設定される。
音声度合い測定部16は、求めた音声度合いτをゲイン決定部14へ出力する。
ゲイン決定部14は、第1の実施形態によるゲイン決定部14と同様に、発声区間の開始時点からの経過時間に応じてゲインGを求める。そしてゲイン決定部14は、発声区間の開始時点からの経過時間に応じて決定したゲインGを、音声度合いτが高いほど高くなるように補正する。本実施形態では、ゲイン決定部14は、次式に従ってゲインGを補正する。
Figure 0006361271
(7)式において、G'は、補正されたゲインである。(7)式から明らかなように、補正前のゲインGが1.0であるか、音声度合いτが0.0である場合、補正されたゲインG'も1.0となる。すなわち、補正されたゲインG'を用いても音声信号は元のままとなる。一方、補正前のゲインGが1.0より大きく、かつ、音声度合いτも0.0より大きいと、そのゲインGが高いほど、かつ、音声度合いτが高いほど、補正されたゲインG'も高くなる。したがって、発声区間の後端に近づくほど、かつ、音声信号が人の声らしいほど、その発声区間中の音声信号は強調される。
ゲイン決定部14は、フレームごとに、補正されたゲインG'を強調部15へ出力する。
強調部15は、上記の実施形態におけるゲインGの代わりに、補正されたゲインG'を用いて発声区間中の音声信号を強調する。すなわち、強調部15は、(5)式において、ゲインGの代わりに補正されたゲインG'を用いて補正された周波数スペクトルを算出する。
図9は、第2の実施形態による音声強調処理の動作フローチャートである。第2の実施形態による音声強調処理の動作フローチャートでは、第1の実施形態による音声強調処理の動作フローチャートと比較して、ステップS107の処理が異なる。そこで図9では、ステップS107の処理の代わりに行われる処理について説明する。
ステップS104にて経過時間tが調整開始時間β以上かつ調整完了時間β’未満であると判定された場合、音声度合い測定部16は、現フレームのパワーに基づいて現フレームの音声信号の音声度合いτを求める(ステップS201)。そして音声度合い測定部16は、音声度合いτをゲイン決定部14に通知する。
ゲイン決定部14は、経過時間tが長いほど、かつ、音声度合いτが高いほどゲインGが高くなるように、ゲインGを設定する(ステップS202)。そしてゲイン決定部14は、ゲインGを強調部15へ出力する。その後、処理部51は、ステップS108以降の処理を実行する。
第2の実施形態によれば、音声強調装置は、発声区間に含まれる音声信号が人の声らしいほどその音声信号を強調するので、音声信号に含まれる人の声をその他の音声よりも強調できる。そのため、音声信号に含まれる人の声がより明りょうとなるので、この音声強調装置は、補正音声信号を利用する音声認識処理の認識精度をより向上させることができる。
また、音声強調装置は、複数のマイクロホンを有してもよい。この場合、音声強調装置は、各マイクロホンにより集音される音声信号のスペクトルの位相差から、音の到来方向である音源方向を検出できる。そこで、第3の実施形態による音声強調装置は、複数のマイクロホンを利用して音源方向を検出し、音源方向に応じて発声区間中の音声信号の音声度合いを求める。そしてこの音声強調装置は、音源方向から推定された音声信号の音声度合いに応じて、発声区間の開始時点からの経過時点に応じて設定されたゲインを補正する。
図10は、第3の実施形態による音声強調装置の概略構成図である。音声強調装置10は、二つのマイクロホン2−1及び2−2と、増幅器3と、アナログ/デジタル変換器4と、処理部52とを有する。
第3の実施形態による音声強調装置10は、第2の実施形態による音声強調装置と比較して、マイクロホンを二つ有する点、及び、処理部52により実行される処理の一部が異なる。そこで以下では、マイクロホン2−1及び2−2と処理部52について説明する。
マイクロホン2−1及び2−2は、音源方向を検出できるように一定の間隔を空けて配置される。例えば、音声強調装置10が、車室内にいるドライバーの声を含む音声信号を選択的に強調したい場合、マイクロホン2−1とマイクロホン2−2は、例えば、運転席の前方に、運転席と助手席とを結ぶ線と略平行な方向に並べて、運転席の方を向けて配置される。そしてマイクロホン2−1とマイクロホン2−2の間隔dが、音速Vをアナログ/デジタル変換器4のサンプリング周波数Fsで除した値(V/Fs)となるように、マイクロホン2−1とマイクロホン2−2は配置される。
なお、以下では、マイクロホン2−1の方がマイクロホン2−2よりも左側に配置されているとして、マイクロホン2−1により集音された音声信号を左音声信号と呼び、マイクロホン2−2により集音された音声信号を右音声信号と呼ぶ。
マイクロホン2−1により集音された音声及びマイクロホン2−2により集音された音声は、それぞれ、増幅器3により増幅された後、アナログ/デジタル変換器4でデジタル化されて処理部52に入力される。
図11は、第3の実施形態による音声強調装置の処理部の概略構成図である。処理部52は、パワー算出部11と、発声区間検出部12と、計時部13と、ゲイン決定部14と、強調部15と、音声度合い測定部16と、音源方向検出部17とを有する。
図11において、処理部52の各構成要素には、図7に示した第2の実施形態による処理部51の対応する構成要素の参照番号と同じ参照番号を付した。
処理部52は、第2の実施形態による処理部51と比較して、音源方向検出部17を有する点と、音声度合い測定部16による音声度合いの求め方が異なる。そこで以下では、音源方向検出部17及び音声度合い測定部16と、その関連部分について説明する。
本実施形態では、発声区間検出部12は、左音声信号と右音声信号の何れに基づいて発声区間を検出してもよい。例えば、発声区間検出部12は、左音声信号と右音声信号のうち、パワー積算値が大きい方に基づいて発声区間を検出できる。
また強調部15は、ゲイン決定部14により算出された、補正ゲインG'を用いて、第2の実施形態による強調部15と同様に、左音声信号と右音声信号の何れか一方、あるいは両方を強調する。
音源方向検出部17は、フレームごとに、左音声信号と右音声信号とに基づいて音源の方向を検出する。例えば、左音声信号の到来時間と右音声信号の到来時間の差をδとすると、音源方向検出部17は、音源方向θを次式で算出する。なお、マイクロホン2−1とマイクロホン2−2の並び方向に対して直交する方向を0度とする。
Figure 0006361271
また、音源方向検出部17は、例えば、左音声信号と右音声信号の相互相関値を計算し、その相互相関値が最大となるときの時間差を、左音声信号の到来時間と右音声信号の到来時間の差δとすることができる。あるいは、音源方向検出部17は、左音声信号のスペクトル信号の位相と右音声信号のスペクトルの位相との差から、到来時間の差δを算出してもよい。
音源方向検出部17は、フレームごとに求めた音源方向θを音声度合い測定部16へ出力する。
音声度合い測定部16は、発声区間中のフレームごとに、音源方向θに基づいて音声度合いを算出する。
マイクロホンが車室内のドライバーの声を集音対象としている場合のように、特定の話者が発した声の方向は、予め推定される。そこで、音声度合い測定部16は、音源方向θが、推定される話者の方向の範囲に含まれる場合、音声度合いを相対的に高くし、逆に、音源方向θが、推定される話者の方向の範囲から外れる場合、音声度合いを相対的に低くする。
図12は、音源方向θに対応する値θ’(θ=-π/2のとき、θ’=-π/(Fs/2)。よって、θ’=θ/Fs)と推定される話者の方向の範囲の関係を示す図である。図12において、横軸は周波数を表し、縦軸は、左音声信号と右音声信号のスペクトルの位相差を表す。例えば、想定される話者が、マイクロホン2−1とマイクロホン2−2を結ぶ線の中点を通る法線よりも左側、すなわち、マイクロホン2−1側にいる場合、推定される話者の方向の範囲1200は、左音声信号の位相を基準とすると、位相差0よりもマイナス側に設定される。そのため、線1201で示されるように、音源方向θに対応する値θ’が、範囲1200内に含まれていれば、左音声信号及び右音声信号は、想定される話者の声を含む可能性が高い。
図13は、音源方向θと音声度合いτの関係の一例を示す図である。図13において、横軸は音源方向θを表し、縦軸は音声度合いτを表す。そしてグラフ1300は、音源方向θと音声度合いτの関係を表す。図13に示される例では、図12のように、推定される話者の方向の範囲が、音源方向θが負の値を持つ範囲であるとする。そこで、音源方向θが負の値となるとき、想定される音源の方向の範囲に音源方向θが含まれるので、音声度合い測定部16は、音声度合いτを1.0に設定する。
一方、音源方向θが0以上となり、かつ、上限閾値μ以下である場合、音声度合い測定部16は、音源方向θが大きくなるにつれて、音声度合いτを線形に単調減少させる。なお、上限閾値μは、例えば、0.1ラジアンに設定される。そして音源方向θが上限閾値μを超えると、音声度合い測定部16は、音声度合いτを0.0とする。
音声度合い測定部16は、発声区間内のフレームごとに音声度合いτをゲイン決定部14へ出力する。ゲイン決定部14は、第2の実施形態と同様に、(7)式に従って補正ゲインG'を算出する。そしてゲイン決定部14は、補正ゲインG'を強調部15へ出力する。そして強調部15は、補正ゲインG'を用いて、左音声信号及び右音声信号の少なくとも一方を強調する。
図14は、第3の実施形態による音声強調処理の動作フローチャートである。第3の実施形態による音声強調処理の動作フローチャートでは、第1の実施形態による音声強調処理の動作フローチャートと比較して、ステップS107の処理が異なる。そこで図14では、ステップS107の処理の代わりに行われる処理について説明する。
ステップS104にて経過時間tが調整開始時間β以上かつ調整完了期間β’未満であると判定された場合、音源方向検出部17は、左音声信号の到来時間と右音声信号の到来時間の差から音源方向θを検出する(ステップS301)。そして音源方向検出部17は、音源方向θを音声度合い測定部16へ通知する。音声度合い測定部16は、音源方向θに基づいて現フレームの音声信号の音声度合いτを求める(ステップS302)。そして音声度合い測定部16は、音声度合いτをゲイン決定部14に通知する。
ゲイン決定部14は、経過時間tが長いほど、かつ、音声度合いτが高いほどゲインGが高くなるように、ゲインGを設定する(ステップS303)。そしてゲイン決定部14は、ゲインGを強調部15へ出力する。その後、処理部52は、ステップS108以降の処理を実行する。
第3の実施形態によれば、音声強調装置は、複数のマイクロホンで集音した音声信号から求めた音源方向により、発声区間の音声信号の音声度合いを求めるので、適切に音声度合いを評価できる。そのため、この音声強調装置は、適切なゲインを設定できる。
次に、第4の実施形態による音声強調装置について説明する。第4の実施形態による音声強調装置は、発声区間の前半の音声信号のパワーと後半の音声信号のパワーの比較結果に応じてゲインを調節する。
図15は、第4の実施形態による音声強調装置の概略構成図である。音声強調装置20は、マイクロホン2と、増幅器3と、アナログ/デジタル変換器4と、処理部53と、記憶部6とを有する。
第4の実施形態による音声強調装置20は、第1の実施形態による音声強調装置1と比較して、記憶部6を有する点、及び、処理部53により実行される処理の一部が異なる。そこで以下では、記憶部6と処理部53について説明する。
記憶部6は、読み書き可能な揮発性のメモリ回路を有する。そして記憶部6は、音声強調処理が終了するまでの間、アナログ/デジタル変換器4から出力された音声信号を記憶する。また記憶部6は、発声区間ごとに、その発声区間中の各フレームのパワー積算値を記憶する。
処理部53は、第1の実施形態による音声強調装置1の処理部5と同様に、パワー算出部11と、発声区間検出部12と、計時部13と、ゲイン決定部14と、強調部15とを有する。
発声区間検出部12は、フレームごとに、発声区間に含まれるか否か判定し、発声区間に含まれると判定したフレームのパワー積算値Pを記憶部6に記憶する。
また発声区間検出部12は、発声区間が終了したと判定すると、すなわち、直前のフレームが発声区間に含まれ、現フレームが発声区間に含まれない場合、発声区間が終了したことをゲイン決定部14へ通知する。
ゲイン決定部14は、記憶部6から、発声区間内の各フレームのパワー積算値を読み込む。そしてゲイン決定部14は、発声区間の前半に含まれる各フレームのパワー積算値の平均値Pfavと、発声区間の後半に含まれる各フレームのパワー積算値の平均値Psavとを算出する。
ゲイン決定部14は、ゲインGの上限値αを、次式に従って、発声区間の前半のパワー積算値の平均値Pfavと、発声区間の後半のパワー積算値の平均値Psavとの比較結果に応じて決定する。
Figure 0006361271
(9)式に示されるように、ゲイン決定部14は、発声区間の前半のパワー積算値の平均値Pfavよりも発声区間の後半のパワー積算値の平均値Psavが低下している場合に、ゲインGの上限値αを、1.0よりも大きくする。一方、ゲイン決定部14は、発声区間の後半のパワー積算値の平均値Psavが、発声区間の前半のパワー積算値の平均値Pfavに対して低下していない場合には、ゲインGの上限値αを1.0とする。したがって、この実施形態では、発声区間の後半において話者の発声音量が低下している場合には、音声信号は強調されるが、発声区間の後半において話者の発声音量が低下していない場合には、音声信号は強調されない。そのため、この実施形態では、音声信号の過度な強調が防止され、その結果として、音声信号の歪みが抑制される。
図16は、発声区間の開始時点からの経過時間とゲインの関係の他の一例を示す図である。図16において、横軸は経過時間を表し、縦軸はゲインを表す。そしてグラフ1600は、経過時間とゲインの関係を表す。グラフ1600に示されるように、発声区間の開始時点からの経過時間が発声区間の前半内に設定された調整開始時間βを過ぎるまでは、ゲインGは、1.0に保たれる。そして経過時間が調整開始時間βを過ぎると、ゲインGは、経過時間が長くなるにつれて線形に単調増加し、経過時間が発声区間の後半内に設定された調整完了時間β'となる時点で一定値αとなる。そして経過時間が調整完了時間β'を経過した後は、ゲインGは、音声信号のレベルが不連続となって音声信号の歪みが大きくなり過ぎないよう、αのまま一定に保たれる。そして発声区間が終了すると、ゲインGは、1.0にリセットされる。
なお、調整開始時間βは、発声区間の前半内の何れかの時点、例えば、発声区間の前半の中点に設定されてもよい。また、調整完了時間β'は、発声区間の後半内の何れかの時点、例えば、発声区間の後半の中点に設定されてもよい。あるいは、調整開始時間β及び調整完了時間β'は、上記の各実施形態と同様に設定されてもよい。
ゲイン決定部14は、発声区間内の各フレームに対するゲインGを、図16に示されたグラフに従って、発声区間の開始時点からの経過時間に応じて設定する。なお、ゲイン決定部14は、発声区間に含まれないフレームに対するゲインGを1.0とする。そしてゲイン決定部14は、発声区間内の各フレームに対するゲインGを、強調部15へ出力する。
強調部15は、記憶部6から音声信号を読み出し、その音声信号を、フレームごとに決定されたゲインGを用いて強調する。
図17は、第4の実施形態による音声強調処理の動作フローチャートである。音声強調装置20は、以下の動作フローチャートに従って、フレームごとに音声強調処理を実行する。
パワー算出部11は、音声信号をフレームごとに分割し、現フレームのパワーの積算値を算出する(ステップS401)。そしてパワー算出部11は、パワーの積算値を発声区間検出部12へ出力し、各周波数のスペクトル信号を発声区間検出部12及び強調部15へ出力する。
発声区間検出部12は、パワーの積算値に基づいて、発声区間が終了したか否か判定する(ステップS402)。発声区間が終了していない場合(ステップS402−No)、発声区間検出部12は、パワーの積算値を記憶部6に記憶する。そして処理部53は、音声強調処理を終了する。一方、発声区間が終了した場合(ステップS402−Yes)、発声区間検出部12は、その判定結果をゲイン決定部14へ通知する。
ゲイン決定部14は、記憶部6から発声区間内の各フレームのパワー積算値を読み込み、発声区間の前半のパワー平均値Pfavと後半のパワー平均値Psavを算出する(ステップS403)。そしてゲイン決定部14は、Pfav/Psavに応じてゲインGの上限値αを決定する(ステップS404)。
ゲイン決定部14は、上限値α及び発声区間の開始時点からの経過時間tに応じてゲインGを決定する(ステップS405)。そしてゲイン決定部14は、ゲインGを強調部15へ通知する。
強調部15は、記憶部6から音声信号を読み込み、発声区間内の音声信号をゲインGに応じて強調して補正音声信号を得る(ステップS406)。
その後、音声強調装置20は、音声強調処理を終了する。
第4の実施形態によれば、音声強調装置は、発声区間の前半のパワーと後半のパワーの比較結果に応じてゲインを調節できるので、発声区間の後半におけるパワーの低下度合いに応じたゲインを設定できる。またこの実施形態によれば、音声強調装置は、発声区間の長さに応じて、ゲインが高くなり始めるタイミングを調節できるので、話速などの個人差に応じてゲイン調節のタイミングを適切に設定できる。
次に、第5の実施形態による音声強調装置について説明する。第5の実施形態による音声強調装置は、発声区間内での時間経過に応じた音声信号のパワーの減衰を検出することで、ゲインGの調節開始時間βを適応的に決定する。
図18は、第5の実施形態による音声強調装置の概略構成図である。音声強調装置30は、マイクロホン2と、増幅器3と、アナログ/デジタル変換器4と、処理部54と、遅延用バッファ7とを有する。
第5の実施形態による音声強調装置30は、第1の実施形態による音声強調装置1と比較して、遅延用バッファ7を有する点で異なる。さらに、第5の実施形態による音声強調装置30は、第1の実施形態による音声強調装置1と比較して、処理部54の処理の一部が異なる。そこで以下では、遅延用バッファ7と、処理部54と、その関連部分について説明する。
遅延用バッファ7は、例えば、入力された音声信号を所定の遅延時間だけ遅延させてから出力する遅延回路を有する。本実施形態では、遅延時間は、処理部54が音声信号の減衰を検出するのに要する時間、例えば、200msecに設定される。そして遅延用バッファ7から出力された、遅延された音声信号は、処理部54に入力される。
図19は、第5の実施形態による音声強調装置の処理部の概略構成図である。処理部54は、パワー算出部11と、発声区間検出部12と、計時部13と、ゲイン決定部14と、強調部15と、減衰判定部18とを有する。処理部54は、第4の実施形態による音声強調装置の処理部と比較して、減衰判定部18を有する点、及び、強調部15の処理が異なる。そこで以下では、減衰判定部18及び強調部15について説明する。
減衰判定部18は、発声区間内の各フレームについて、発声区間の先頭部分の音声信号に対して減衰したか否かを判定する。そのために、減衰判定部18は、発声区間の開始時点から閾値決定期間内の各フレームのパワー積算値のうちの最大値Pmaxを、パワーの減衰を検出するための減衰判定閾値Thを求めるための基準値として検出する。なお、閾値決定期間は、例えば、話者の発声音量が減衰しない期間、例えば、一つ〜二つの母音に相当する100msecに設定される。
減衰判定部18は、パワー積算値の最大値Pmaxから所定のオフセット値(例えば、1.0dB)を減じた値を減衰判定閾値Thとして設定する。そして減衰判定部18は、発声区間の開始時点から閾値決定期間経過後の各フレームについて、パワー積算値Pを減衰判定閾値Thと比較する。そして減衰判定部18は、所定期間Tにわたって連続してパワー積算値が減衰判定閾値Th未満となると、音声信号が減衰したと判定する。なお、所定期間Tは、遅延用バッファ7による遅延時間、あるいはその遅延時間に1未満の安全係数(例えば、0.9〜0.95)を乗じた時間、例えば、200msecに設定される。
減衰判定部18は、音声信号が減衰したと判定した時刻から所定期間Tだけ前の時刻を減衰開始時刻としてゲイン決定部14に通知する。
図20は、発声区間内の音声信号のパワーの時間変化と減衰判定閾値Thとの関係の一例を示す図である。図20において、横軸は経過時間を表し、縦軸はパワーを表す。グラフ2000は、発声区間内の音声信号のパワーの時間変化を表す。図20に示されるように、発声区間の開始時点から閾値決定期間(100msec)内でのパワー積算値の最大値Pmaxからオフセット値Poffを減じた値に減衰判定閾値Thが設定される。そしてこの例では、時刻t1において、所定期間Tにわたって連続してパワー積算値が減衰判定閾値Th未満となっている。そのため、時刻t1よりも期間Tだけ前の時刻t0が、減衰開始時刻となる。
ゲイン決定部14は、減衰開始時刻を調整開始時間βとして、ゲインGを決定する。そしてゲイン決定部14は、ゲインGを強調部15へ出力する。
強調部15は、遅延用バッファ7から入力された音声信号に対して、減衰開始時刻からゲインGを用いて音声強調処理を実行する。
図21は、第5の実施形態による音声強調処理の動作フローチャートである。音声強調装置30は、以下の動作フローチャートに従って、フレームごとに音声強調処理を実行する。
パワー算出部11は、音声信号をフレームごとに分割し、現フレームのパワーの積算値を算出する(ステップS501)。そしてパワー算出部11は、パワーの積算値を発声区間検出部12及び減衰判定部18へ出力し、各周波数のスペクトル信号を発声区間検出部12及び強調部15へ出力する。
発声区間検出部12は、パワーの積算値に基づいて、現フレームが発声区間内か否か判定する(ステップS502)。現フレームが発声区間から外れている場合(ステップS502−No)、処理部54は、音声強調処理を終了する。一方、現フレームが発声区間に含まれる場合(ステップS502−Yes)、発声区間検出部12は、その判定結果を減衰判定部18及びゲイン決定部14へ通知する。
減衰判定部18は、現フレームにおいて、発声区間開始からの閾値決定期間が終了したか否か判定する(ステップS503)。閾値決定期間が終了していない場合(ステップS503−No)、処理部54は、音声強調処理を終了する。一方、閾値決定期間が終了した場合(ステップS503−Yes)、減衰判定部18は、閾値決定期間内のパワー積算値の最大値Pmaxに基づいて減衰判定閾値Thを決定する(ステップS504)。
また、減衰判定部18は、パワーの積算値Pが減衰判定閾値Th未満となる継続期間が所定期間Tに達したか否か判定する(ステップS505)。継続期間が所定期間Tに達していなければ(ステップS505−No)、処理部54は、音声強調処理を終了する。一方、継続期間が所定期間Tに達していれば(ステップS505−Yes)、減衰判定部18は、現フレームから所定期間Tだけ遡った時刻を減衰開始時刻とする。そして減衰判定部18は、減衰開始時刻をゲイン決定部14に通知する。
ゲイン決定部14は、減衰開始時刻を調整開始時間βに設定する(ステップS506)。そしてゲイン決定部14は、調整開始時間β以降かつ調整完了期間β’未満の各フレームについて、発声期間の開始時点からの経過時間tが長いほど高くなるようにゲインGを設定する(ステップS507)。そしてゲイン決定部14は、ゲインGを強調部15へ通知する。
強調部15は、遅延用バッファ7から入力された、遅延された音声信号をゲインGに応じて強調して補正音声信号を得る(ステップS508)。
その後、音声強調装置30は、音声強調処理を終了する。
第5の実施形態によれば、音声強調装置は、発声区間内で音声信号が減衰し始めたときから音声信号の強調処理を開始できる。そのため、この音声強調装置は、発声区間内の音声信号を適切に強調できる。
なお、上記の各実施形態のうちの複数を組み合わせることも可能である。例えば、第2または第3の実施形態と第4または第5の実施形態を組み合わせてもよい。あるいは、第4の実施形態と第5の実施形態を組み合わせてもよい。
また、音声強調装置が複数のマイクロホンを有する場合、発声区間検出部12は、フレームごとに、音源方向θが想定される話者の方向の範囲に含まれるか否かを判定してもよい。そして発声区間検出部12は、音源方向θが想定される話者の方向の範囲に含まれる場合、そのフレームが発声区間に含まれると判定してもよい。
さらに、上記の各実施形態または変形例による音声強調装置は、例えば、携帯電話機に実装され、他の装置により生成された音声信号を補正してもよい。この場合には、音声強調装置によって補正された音声信号は、音声強調装置が実装された装置が有するスピーカから再生される。
さらに、上記の各実施形態または変形例による音声強調装置の処理部が有する機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体あるいは光記録媒体といった、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。なお、この記録媒体には、搬送波は含まれない。
図22は、上記の何れかの実施形態またはその変形例による音声強調装置の処理部の機能を実現するコンピュータプログラムが動作することにより、音声強調装置として動作するコンピュータの構成図である。
コンピュータ100は、ユーザインターフェース部101と、オーディオインターフェース部102と、通信インターフェース部103と、記憶部104と、記憶媒体アクセス装置105と、プロセッサ106とを有する。プロセッサ106は、ユーザインターフェース部101、オーディオインターフェース部102、通信インターフェース部103、記憶部104及び記憶媒体アクセス装置105と、例えば、バスを介して接続される。
ユーザインターフェース部101は、例えば、キーボードとマウスなどの入力装置と、液晶ディスプレイといった表示装置とを有する。または、ユーザインターフェース部101は、タッチパネルディスプレイといった、入力装置と表示装置とが一体化された装置を有してもよい。そしてユーザインターフェース部101は、例えば、ユーザの操作に応じて、オーディオインターフェース部102を介して入力される音声信号に対する音声強調処理を開始する操作信号をプロセッサ106へ出力する。
オーディオインターフェース部102は、コンピュータ100に、マイクロホンなどの音声信号を生成する音声入力装置と接続するためのインターフェース回路を有する。そしてオーディオインターフェース部102は、音声入力装置から音声信号を取得して、その音声信号をプロセッサ106へ渡す。
通信インターフェース部103は、コンピュータ100を、イーサネット(登録商標)などの通信規格に従った通信ネットワークに接続するための通信インターフェース及びその制御回路を有する。そして、通信インターフェース部103は、プロセッサ106から受け取った、補正音声信号を含むデータストリームを通信ネットワークを介して他の機器へ出力する。また通信インターフェース部103は、通信ネットワークに接続された他の機器から、音声信号を含むデータストリームを取得し、そのデータストリームをプロセッサ106へ渡してもよい。
記憶部104は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部104は、プロセッサ106上で実行される、音声強調処理を実行するためのコンピュータプログラム、及びこれらの処理の途中または結果として生成されるデータを記憶する。
記憶媒体アクセス装置105は、例えば、磁気ディスク、半導体メモリカード及び光記憶媒体といった記憶媒体107にアクセスする装置である。記憶媒体アクセス装置105は、例えば、記憶媒体107に記憶されたプロセッサ106上で実行される、音声強調処理用のコンピュータプログラムを読み込み、プロセッサ106に渡す。
プロセッサ106は、上記の各実施形態の何れかまたは変形例による音声強調処理用コンピュータプログラムを実行することにより、オーディオインターフェース部102または通信インターフェース部103を介して受け取った音声信号を補正する。そしてプロセッサ106は、補正した音声信号を記憶部104に保存し、または通信インターフェース部103を介して他の機器へ出力する。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出する発声区間検出部と、
前記発声区間の開始時点からの経過時間を計時する計時部と、
前記経過時間に応じて前記音声信号の強調度合いを表すゲインを決定するゲイン決定部と、
前記ゲインに応じて前記発声区間内の前記音声信号を強調する強調部と、
を有する音声強調装置。
(付記2)
前記ゲイン決定部は、前記経過時間が所定時間に達するまでは前記ゲインを第1の値に設定し、前記経過時間が前記所定時間を過ぎると前記ゲインを前記第1の値よりも高くする、付記1に記載の音声強調装置。
(付記3)
前記ゲイン決定部は、前記経過時間が長くなるほど、前記ゲインの単位時間当たりの増加量を大きくする、付記1または2に記載の音声強調装置。
(付記4)
前記発声区間内の前記音声信号の人の声らしさを表す音声度合いを求める音声度合い測定部をさらに有し、
前記ゲイン決定部は、前記音声度合いが高いほど前記ゲインを高くする、付記1〜3の何れか一項に記載の音声強調装置。
(付記5)
前記音声度合い測定部は、前記発声区間内の前記音声信号のパワーが高いほど、前記音声度合いを高くする、付記4に記載の音声強調装置。
(付記6)
前記音声信号に基づいて前記音声信号の音源の方向を検出する音源方向検出部をさらに有し、
前記音声度合い測定部は、前記音源の方向が予め設定された方向範囲内に含まれる場合における前記音声度合いを、前記音源の方向が前記方向範囲から外れる場合における前記音声度合いよりも高くする、付記4に記載の音声強調装置。
(付記7)
前記音声信号を記憶する記憶部をさらに有し、
前記発声区間検出部は、前記発声区間が終了したことを検知して前記ゲイン決定部に通知し、
前記ゲイン決定部は、前記発声区間が終了したことを通知されると、前記記憶部から前記発声区間内の前記音声信号を読み出して、前記発声区間の前半の前記音声信号のパワーの平均値と前記発声区間の後半の前記音声信号のパワーの平均値を算出し、前記後半の前記音声信号のパワーの平均値に対する前記前半の前記音声信号のパワーの平均値の比に応じて、前記ゲインを決定する、付記1に記載の音声強調装置。
(付記8)
前記ゲイン決定部は、前記後半の前記音声信号のパワーの平均値が前記前半の前記音声信号のパワーの平均値以上である場合、前記ゲインを前記音声信号が強調されない値に設定し、一方、前記後半の前記音声信号のパワーの平均値が前記前半の前記音声信号のパワーの平均値よりも小さい場合、前記比が大きくなるほど前記ゲインを高くする、付記7に記載の音声強調装置。
(付記9)
前記発声区間内で前記音声信号が減衰を開始した時刻を判定する減衰判定部をさらに有し、
前記ゲイン決定部は、前記減衰を開始した時刻を前記所定時間に設定する、付記2に記載の音声強調装置。
(付記10)
音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出し、
前記発声区間の開始時点からの経過時間を計時し、
前記経過時間に応じて前記音声信号の強調度合いを表すゲインを決定し、
前記ゲインに応じて前記発声区間内の前記音声信号を強調する、
ことを含む音声強調方法。
(付記11)
音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出し、
前記発声区間の開始時点からの経過時間を計時し、
前記経過時間に応じて前記音声信号の強調度合いを表すゲインを決定し、
前記ゲインに応じて前記発声区間内の前記音声信号を強調する、
ことをコンピュータに実行させるための音声強調用コンピュータプログラム。
1、10、20、30 音声強調装置
2、2−1、2−2 マイクロホン
3 増幅器
4 アナログ/デジタル変換器
5、51、52、53、54 処理部
6 記憶部
7 遅延用バッファ
11 パワー算出部
12 発声区間検出部
13 計時部
14 ゲイン決定部
15 強調部
16 音声度合い測定部
17 音源方向検出部
18 減衰判定部
100 コンピュータ
101 ユーザインターフェース部
102 オーディオインターフェース部
103 通信インターフェース部
104 記憶部
105 記憶媒体アクセス装置
106 プロセッサ
107 記憶媒体

Claims (9)

  1. 音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出する発声区間検出部と、
    前記発声区間の開始時点からの経過時間を計時する計時部と、
    前記経過時間が所定時間に達するまでは前記音声信号の強調度合いを表すゲインを第1の値に設定し、前記経過時間が前記所定時間を過ぎると前記ゲインを前記第1の値よりも高くするよう、前記ゲインを決定するゲイン決定部と、
    前記ゲインに応じて前記発声区間内の前記音声信号を強調する強調部と、
    を有する音声強調装置。
  2. 音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出する発声区間検出部と、
    前記発声区間の開始時点からの経過時間を計時する計時部と、
    前記経過時間に応じて前記音声信号の強調度合いを表すゲインを決定するゲイン決定部と、
    前記ゲインに応じて前記発声区間内の前記音声信号を強調する強調部と、
    前記発声区間内の前記音声信号の人の声らしさを表す音声度合いを求める音声度合い測定部とを有し、
    前記ゲイン決定部は、前記音声度合いが高いほど前記ゲインを高くする音声強調装置。
  3. 前記音声信号に基づいて前記音声信号の音源の方向を検出する音源方向検出部をさらに有し、
    前記音声度合い測定部は、前記音源の方向が予め設定された方向範囲内に含まれる場合における前記音声度合いを、前記音源の方向が前記方向範囲から外れる場合における前記音声度合いよりも高くする、請求項2に記載の音声強調装置。
  4. 前記音声信号を記憶する記憶部をさらに有し、
    前記発声区間検出部は、前記発声区間が終了したことを検知して前記ゲイン決定部に通知し、
    前記ゲイン決定部は、前記発声区間が終了したことを通知されると、前記記憶部から前記発声区間内の前記音声信号を読み出して、前記発声区間の前半の前記音声信号のパワーの平均値と前記発声区間の後半の前記音声信号のパワーの平均値を算出し、前記後半の前記音声信号のパワーの平均値に対する前記前半の前記音声信号のパワーの平均値の比に応じて、前記所定時間経過後の前記ゲインを決定する、請求項1に記載の音声強調装置。
  5. 前記発声区間内で前記音声信号が減衰を開始した時刻を判定する減衰判定部をさらに有し、
    前記ゲイン決定部は、前記減衰を開始した時刻を前記所定時間に設定する、請求項1に記載の音声強調装置。
  6. 音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出し、
    前記発声区間の開始時点からの経過時間を計時し、
    前記経過時間が所定時間に達するまでは前記音声信号の強調度合いを表すゲインを第1の値に設定し、前記経過時間が前記所定時間を過ぎると前記ゲインを前記第1の値よりも高くするよう、前記ゲインを決定し、
    前記ゲインに応じて前記発声区間内の前記音声信号を強調する、
    ことを含む音声強調方法。
  7. 音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出し、
    前記発声区間の開始時点からの経過時間を計時し、
    前記経過時間に応じて前記音声信号の強調度合いを表すゲインを決定し、
    前記ゲインに応じて前記発声区間内の前記音声信号を強調し、
    前記発声区間内の前記音声信号の人の声らしさを表す音声度合いを求める
    ことを含み、
    前記ゲインを決定することは、前記音声度合いが高いほど前記ゲインを高くする音声強調方法。
  8. 音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出し、
    前記発声区間の開始時点からの経過時間を計時し、
    前記経過時間が所定時間に達するまでは前記音声信号の強調度合いを表すゲインを第1の値に設定し、前記経過時間が前記所定時間を過ぎると前記ゲインを前記第1の値よりも高くするよう、前記ゲインを決定し、
    前記ゲインに応じて前記発声区間内の前記音声信号を強調する、
    ことをコンピュータに実行させるための音声強調用コンピュータプログラム。
  9. 音声入力部により生成された音声信号から、話者が発声している区間である発声区間を検出し、
    前記発声区間の開始時点からの経過時間を計時し、
    前記経過時間に応じて前記音声信号の強調度合いを表すゲインを決定し、
    前記ゲインに応じて前記発声区間内の前記音声信号を強調し、
    前記発声区間内の前記音声信号の人の声らしさを表す音声度合いを求める
    ことをコンピュータに実行させ、
    前記ゲインを決定することは、前記音声度合いが高いほど前記ゲインを高くする音声強調用コンピュータプログラム。
JP2014098021A 2014-05-09 2014-05-09 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム Active JP6361271B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014098021A JP6361271B2 (ja) 2014-05-09 2014-05-09 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
US14/691,851 US9779754B2 (en) 2014-05-09 2015-04-21 Speech enhancement device and speech enhancement method
GB1507405.7A GB2529016B (en) 2014-05-09 2015-04-30 Speech enhancement device and speech enhancement method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014098021A JP6361271B2 (ja) 2014-05-09 2014-05-09 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2015215463A JP2015215463A (ja) 2015-12-03
JP6361271B2 true JP6361271B2 (ja) 2018-07-25

Family

ID=53488938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014098021A Active JP6361271B2 (ja) 2014-05-09 2014-05-09 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム

Country Status (3)

Country Link
US (1) US9779754B2 (ja)
JP (1) JP6361271B2 (ja)
GB (1) GB2529016B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9813833B1 (en) 2016-10-14 2017-11-07 Nokia Technologies Oy Method and apparatus for output signal equalization between microphones
US11528556B2 (en) 2016-10-14 2022-12-13 Nokia Technologies Oy Method and apparatus for output signal equalization between microphones
US11176960B2 (en) * 2018-06-18 2021-11-16 University Of Florida Research Foundation, Incorporated Method and apparatus for differentiating between human and electronic speaker for voice interface security
JP7404664B2 (ja) * 2019-06-07 2023-12-26 ヤマハ株式会社 音声処理装置及び音声処理方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5684013A (en) 1979-12-12 1981-07-09 Matsushita Electric Ind Co Ltd Automatic level regulator for sound signal
US4811404A (en) 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
JPH10133678A (ja) * 1996-10-30 1998-05-22 Matsushita Electric Ind Co Ltd 音声再生装置
KR20040044217A (ko) * 2002-11-19 2004-05-28 주식회사 인티스 디지털 통신의 음성 품질 향상 장치 및 방법
JP4552533B2 (ja) * 2004-06-30 2010-09-29 ソニー株式会社 音響信号処理装置及び音声度合算出方法
US8195454B2 (en) * 2007-02-26 2012-06-05 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
US20080312916A1 (en) * 2007-06-15 2008-12-18 Mr. Alon Konchitsky Receiver Intelligibility Enhancement System
ATE501506T1 (de) * 2007-09-12 2011-03-15 Dolby Lab Licensing Corp Spracherweiterung mit anpassung von geräuschpegelschätzungen
JP5054477B2 (ja) * 2007-09-26 2012-10-24 日本放送協会 補聴装置
JP4814861B2 (ja) * 2007-11-12 2011-11-16 日本電信電話株式会社 音量調整装置、方法及びプログラム
JP5071346B2 (ja) * 2008-10-24 2012-11-14 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法
JP5272920B2 (ja) * 2009-06-23 2013-08-28 富士通株式会社 信号処理装置、信号処理方法、および信号処理プログラム
KR101624652B1 (ko) * 2009-11-24 2016-05-26 삼성전자주식회사 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치, 잡음 환경에서 음성 신호를 강화하는 방법 및 그 장치
US9270244B2 (en) 2013-03-13 2016-02-23 Personics Holdings, Llc System and method to detect close voice sources and automatically enhance situation awareness

Also Published As

Publication number Publication date
GB2529016A (en) 2016-02-10
JP2015215463A (ja) 2015-12-03
GB2529016B (en) 2020-12-09
US20150325253A1 (en) 2015-11-12
GB201507405D0 (en) 2015-06-17
US9779754B2 (en) 2017-10-03

Similar Documents

Publication Publication Date Title
JP4279357B2 (ja) 特に補聴器における雑音を低減する装置および方法
EP2773137B1 (en) Microphone sensitivity difference correction device
JP5870476B2 (ja) 雑音推定装置、雑音推定方法および雑音推定プログラム
JP5197458B2 (ja) 受音信号処理装置、方法およびプログラム
WO2010131470A1 (ja) ゲイン制御装置及びゲイン制御方法、音声出力装置
US9959886B2 (en) Spectral comb voice activity detection
JP6156012B2 (ja) 音声処理装置及び音声処理用コンピュータプログラム
CN106373587A (zh) 一种实时通信***中的自动声反馈检测与消除方法
EP3276621B1 (en) Noise suppression device and noise suppressing method
JP6361271B2 (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
US20080095384A1 (en) Apparatus and method for detecting voice end point
JP6135106B2 (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
US9330683B2 (en) Apparatus and method for discriminating speech of acoustic signal with exclusion of disturbance sound, and non-transitory computer readable medium
JP5982900B2 (ja) 雑音抑制装置、マイクロホンアレイ装置、雑音抑制方法、及びプログラム
JP6794887B2 (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
JP2017216525A (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP7013789B2 (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
JP4746498B2 (ja) 単一指向性マイクロホン
JP2005157086A (ja) 音声認識装置
JP5234788B2 (ja) 暗騒音推定装置
JP2019032400A (ja) 発話判定プログラム、発話判定方法、及び発話判定装置
Graf et al. 13 Voice Activity Detection for In-Car Communication Systems
Hamid et al. Noise estimation for Speech Enhancement by the Estimated Degree of Noise without Voice Activity Detection
JP2010250152A (ja) 発声検出装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180123

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180508

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180529

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180611

R150 Certificate of patent or registration of utility model

Ref document number: 6361271

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150