JP2017067862A

JP2017067862A - 音声信号処理装置、音声信号処理方法及びプログラム

Info

Publication number: JP2017067862A
Application number: JP2015190254A
Authority: JP
Inventors: 松尾　直司; Naoji Matsuo; 直司松尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-09-28
Filing date: 2015-09-28
Publication date: 2017-04-06
Anticipated expiration: 2035-09-28
Also published as: US9847097B2; EP3147901A1; US20170092299A1; JP6536320B2; EP3147901B1

Abstract

【課題】音声の認識率を向上させるために、音声の発話区間の終端を適切に判定することができるように音声の雑音を抑制することを可能とする。
【解決手段】発話区間検出部（１１）は音声信号の発話区間を検出する。抑制部（１２）は音声信号の雑音を抑制する。補正部（１３）は、発話区間検出部で検出された発話区間の終端から次の発話区間の先端までの期間より短い期間であって、発話区間の終端を基準とした位置から所定期間の間、抑制部による抑制量が他の区間より大きくなるように補正する。
【選択図】図１

Description

本発明は、音声信号処理装置、音声信号処理方法及びプログラムに関する。

電子機器のユーザインターフェイスとして音声の利用が増加しきている。電子機器のユーザインターフェイスとして利用される場合、音声は、一般的に、音声を認識するアプリケーションで認識される。音声を認識するアプリケーションにおける音声の認識率を向上させるために、アプリケーションに入力される音声に対して雑音の抑制が行われる。例えば、周波数軸上で帯域毎に音源方向の検出を行い、音源方向が雑音抑制範囲である場合に雑音を抑制する技術が存在する。

特開２００７−３１８５２８号公報

しかしながら、雑音を過度に抑制すると音声に歪みが生じ、後段の音声認識で認識率が低下し、雑音の抑制が不十分であると、ユーザが発話している区間である発話区間が適切に検出されず、後段の音声認識で認識率が低下する。

本発明は、１つの側面として、音声の発話区間の終端を適切に判定することができるように音声の雑音を抑制することを目的とする。

１つの実施形態では、発話区間検出部は、音声信号の発話区間を検出する。抑制部は、音声信号に混じる雑音を抑制する。補正部は、発話区間検出部で検出された発話区間の終端から次の発話区間の先端までの期間より短い期間であって、発話区間の終端を基準とした位置から所定期間の間、抑制部による抑制量が他の区間より大きくなるように補正する。

１つの側面として、音声の発話区間の終端を適切に判定することができるように音声の雑音を抑制することを可能とする。

第１〜第４実施形態に係る音声信号処理装置の要部機能の一例を示すブロック図である。第１〜第３実施形態に係る音声信号処理装置の電気系の構成の一例を示すブロック図である。第１〜第３実施形態に係る音声信号処理の一例を説明するためのイメージ図である。第１〜第４実施形態に係る音声信号処理の抑制増大区間及び抑制用ゲインを説明するためのイメージ図である。第１及び第４実施形態に係る音声信号処理の流れの一例を示すフローチャートである。第２実施形態に係る音声信号処理の流れの一例を示すフローチャートである。第３実施形態に係る音声信号処理の流れの一例を示すフローチャートである。第３実施形態に係る抑制用ゲインの取得方法の一例を説明するためのイメージ図である。第４実施形態に係る音声信号処理装置の電気系の構成の一例を示すブロック図である。第４実施形態に係る音声信号処理の一例を説明するためのイメージ図である。

［第１実施形態］
以下、図面を参照して実施形態の一例である第１実施形態を詳細に説明する。

図１に示す音声信号処理装置１０は、発話区間検出部１１、抑制部１２及び補正部１３を含む。発話区間検出部１１は、音声信号の発話区間を検出する。抑制部１２は、音声信号の雑音を抑制する。補正部１３は、発話区間検出部１１で検出された発話区間の終端から次の発話区間の先端までの期間より短い期間であって、発話区間の終端を基準とした位置から所定期間の間、抑制部１２による抑制量が他の区間より大きくなるように補正する。

音声信号処理装置１０は、一例として、図２に示すように、プロセッサの一例であるＣＰＵ（Central Processing Unit）３１、一次記憶部３２、二次記憶部３３及びマイク３５を含む。ＣＰＵ３１、一次記憶部３２、二次記憶部３３及びマイク３５は、バス３６を介して相互に接続されている。なお、マイク３５は、マイク端子などを介して音声信号処理装置１０に接続される外部マイクであってよい。

一次記憶部３２は、例えば、ＲＡＭ（Random Access Memory）などの揮発性のメモリである。二次記憶部３３は、例えば、ＨＤＤ（Hard Disk Drive）、又はＳＳＤ（Solid State Drive）などの不揮発性のメモリである。

二次記憶部３３は、一例として、音声信号処理プログラム３４を記憶している。ＣＰＵ３１は、二次記憶部３３から音声信号処理プログラム３４を読み出して一次記憶部３２に展開する。ＣＰＵ３１は、音声信号処理プログラム３４を実行することで、図１の発話区間検出部１１、抑制部１２、及び補正部１３として動作する。なお、音声信号処理プログラム３４は、外部サーバに記憶され、ネットワークを介して、一次記憶部３２に展開されてもよいし、ＤＶＤなどの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部３２に展開されてもよい。

マイク３５は、音声を受け取り、当該音声を音声信号に変換する。なお、音声信号処理装置１０は、例えば、パーソナルコンピュータ、タブレット、スマートデバイス、携帯電話、音声信号処理専用装置、又は、車載電子機器用音声信号処理装置などであってよい。

次に、音声信号処理装置１０の作用の概略について説明する。本実施形態では、図３に例示するように、ＣＰＵ３１は、ブロック４３で、マイク３５が受け取った音声に対応する音声信号ｘの雑音を抑制する。雑音の抑制には、例えば、フィルタリングによる雑音抑制又はスペクトル復元による雑音抑制など、既存の雑音抑制技術を用いることができる。

一方、ＣＰＵ３１は、ブロック４１で、マイク３５が受け取った音声信号の発話区間を検出する。発話区間の検出には、既存の音声区間検出技術を用いることができる。図４のグラフ（ａ）の実線はユーザが発話している発話区間５１を例示し、破線は発話区間５１と発話区間５１との間の非発話区間５２を例示する。非発話区間５２は、背景雑音を含む区間である。図４の横軸（ｃ）は時間Ｔの推移を表す。

ＣＰＵ３１は、ブロック４２で、発話区間５１の終端を基準とした位置から所定期間Ｔｓの間、ブロック４３で行われる音声信号の雑音の抑制の抑制量が、所定期間Ｔｓ以外の区間の抑制量よりも大きくなるように制御する。以下、所定期間Ｔｓを抑制量増大区間Ｔｓとも呼ぶ。抑制量増大区間Ｔｓは、発話区間５１の終端から次の発話区間５１の先端までの期間より短い期間である。

ＣＰＵ３１は、雑音を抑制した音声信号に対して音声認識処理を行うために、ブロック４４（以下、音声認識ブロック４４とも呼ぶ。）に、雑音を抑制した音声信号を送信する。

詳細には、図５に例示するように、ＣＰＵ３１は、ステップ６１で、マイク３５が受け取った音声に対応する音声信号ｘを、例えば、１フレーム分受け取る。ＣＰＵ３１は、ステップ６２で、受け取った音声信号ｘが発話区間５１の音声信号であるか否か判定する。

この例では、音声信号ｘのパワーＰを式（１）を用いて計算し、音声信号ｘのパワーが所定値以上である場合には、発話区間であると判定する。
Ｐ＝Σｘ（ｔ）^２ …（１）
式（１）において、ｘ（ｔ）は、時間ｔ（ｔ＝Ｔｆｉ（ｉ＝１，…，ｎ：ｎは１フレームの分割数を表す））の音声信号を表す。

ステップ６２の判定が肯定された場合、ＣＰＵ３１は、ステップ６５で、音声信号ｘの雑音を抑制する。（なお、後述する通り、ステップ６２の判定が否定された場合であっても、ＣＰＵ３１は、他のステップを実行した後、ステップ６５で、音声信号ｘの雑音を抑制する。）

例えば、加法性雑音では、雑音を含む音声信号ｘ（ｔ）、雑音を含まない音声信号ｓ（ｔ）、及び雑音信号ｎ（ｔ）は、式（２）の関係を有する。
ｘ（ｔ）＝ｓ（ｔ）＋ｎ（ｔ） …（２）
式（２）を周波数領域で考えると、雑音を含む音声信号スペクトルＸ（ω）、雑音を含まない音声信号スペクトルＳ（ω）、及び雑音信号スペクトルＮ（ω）の関係は、式（３）で表される。
Ｘ（ω）＝Ｓ（ω）＋Ｎ（ω） …（３）
ωは周波数を表す。

例えば、フィルタリングによる雑音抑制では、式（４）に例示するように、雑音を含む音声信号スペクトルＸ（ω）にフィルタであるゲインＧ（ω）を乗じることにより、雑音が抑制された音声信号スペクトルＳ’（ω）（以下、雑音抑制信号スペクトルＳ’（ω）とも呼ぶ。）を取得することができる。
Ｓ’（ω）＝Ｇ（ω）Ｘ（ω） …（４）

一方、ステップ６２の判定が否定された場合、ＣＰＵ３１は、ステップ６３で、受け取った音声信号ｘが抑制量増大区間Ｔｓの音声信号ｘであるか否か判定する。詳細には、発話区間５１の終端を基準とした位置から所定期間Ｔｓの間の音声信号ｘであるか否か判定する。発話区間５１の終端を基準とした位置は、例えば、発話区間５１の終端から０秒〜数１００ｍ秒までの範囲に含まれる位置であってよい。また、抑制量増大区間Ｔｓは、例えば、数百ｍ秒の期間であってよい。

ステップ６３の判定が否定されると、即ち、抑制量増大区間Ｔｓの音声信号ｘではないと判定されると、ステップ６５で、音声信号ｘの雑音を抑制する。

ステップ６３の判定が肯定されると、即ち、抑制量増大区間Ｔｓの音声信号ｘであると判定されると、ＣＰＵ３１は、ステップ６４で、ステップ６５で行われる雑音抑制の抑制量を増大させる。

式（４）において、ゲインＧ（ω）が１に近付く程、雑音抑制信号スペクトルＳ’（ω）と雑音を含む音声信号スペクトルＸ（ω）との差である抑制量（Ｘ（ω）−Ｇ（ω）Ｘ（ω））は小さくなる。一方、ゲインＧ（ω）の値が０に近付く程、雑音抑制信号スペクトルＳ’（ω）と音声信号スペクトルＸ（ω）との差である抑制量（Ｘ（ω）−Ｇ（ω）Ｘ（ω））は大きくなる。従って、ここでは、例えば、図４のグラフ（ｂ）の実線５４で示すように、抑制量増大区間Ｔｓの間、ゲインＧ（ω）に抑制用ゲインα（０＜α＜１）を乗算することにより、抑制量を増大させる。

ＣＰＵ３１は、ステップ６５で、ステップ６４で増大させた抑制量で、音声信号ｘの雑音を抑制する。即ち、抑制量増大区間Ｔｓの間、音声信号ｘの雑音は、他の区間と比較して強く抑制される。

ＣＰＵ３１は、ステップ６６で、全ての音声信号ｘの処理が完了したか否かを判定する。ステップ６６の判定が否定された場合、ＣＰＵ３１は、ステップ６１に戻る。ステップ６６の判定が肯定された場合、ＣＰＵ３１は、音声信号処理を終了する。

なお、上記では、フィルタリングによる雑音抑制を用いて説明したが、本実施形態はこれに限定されない。例えば、スペクトル復元による雑音抑制又は音声モデルベースによる雑音抑制など、既存の雑音抑制技術を利用することができる。以下で説明する他の実施形態についても、同様である。

本実施形態では、音声信号ｘの発話区間５１を検出し、音声信号ｘの雑音を抑制する。本実施形態では、発話区間５１の終端から次の発話区間５１の先端までの期間より短い期間であって、発話区間５１の終端を基準とした位置から所定期間Ｔｓの間、抑制量が他の区間より大きくなるように補正する。

上記のように、本実施形態では、音声信号ｘ全体の雑音を抑制するが、音声信号ｘ全体ではなく、抑制量増大区間Ｔｓの抑制量を増大させている。これにより、本実施形態では、抑制量を過度に増大させることによって音声信号ｘに歪みが発生することを防止する。即ち、音声信号ｘに歪みが発生することで、後段の音声認識ブロック４４での認識率が低下すること防止する。

また、本実施形態では、音声信号ｘ全体の雑音を抑制する抑制量が強くないことで、後段の音声認識ブロック４４での認識率が低下することを防止する。一般に、ユーザの発話のパワーは発話の終端に近付く程小さくなる。また、非発話区間５２であっても背景雑音が存在するため、発話区間５１と非発話区間５２との境界である発話の終端を認識することが困難となる。

ここで、音声信号ｘの雑音を抑制する抑制量が強くない、即ち不十分であると、残留する雑音のために発話区間５１の音声信号ｘと非発話区間５２の背景雑音である音声信号ｘとの差異が不明瞭となる。これにより、音声認識ブロック４４で発話の終端を認識することはさらに困難となり、音声認識ブロック４４での音声の認識率が低下する。本実施形態によれば、抑制量増大区間Ｔｓの抑制量を増大させることにより、音声認識ブロック４４で発話の終端を認識することが容易となるため、音声認識ブロック４４での認識率が低下することを防止する。

［第２実施形態］
次に、実施形態の一例である第２実施形態を説明する。第１実施形態と同様の構成及び作用については説明を省略する。

本実施形態では、図６に例示するように、ステップ６２で発話区間を検出する前に、ＣＰＵ３１は、ステップ６５Ａで、ステップ６１で受け取った音声信号ｘの雑音を抑制する。また、ステップ６３の判定が肯定されると、即ち、抑制量増大区間Ｔｓであると判定されると、ＣＰＵ３１は、ステップ６５Ｂで、ステップ６５Ａで雑音を抑制された音声信号ｓ”（以下、雑音抑制信号ｓ”とも呼ぶ。）に抑制用ゲインαを乗算することにより、音声信号ｘの雑音をさらに抑制する。

即ち、第１実施形態では、抑制量増大区間Ｔｓ以外では、ゲインＧで音声信号ｘの雑音の抑制を行い、抑制量増大区間Ｔｓでは、ゲインＧに抑制用ゲインαを乗算して雑音の抑制を行う。これに対し、第２実施形態では、まず、音声信号ｘ全体にわたって、まず、ゲインＧで雑音の抑制を行い、抑制増大区間Ｔｓで、雑音抑制信号ｓ”に抑制用ゲインαを乗算する。雑音抑制信号ｓ”に抑制用ゲインαを乗算することにより、抑制量増大区間Ｔｓでは、雑音の抑制の抑制量が大きくなる。

本実施形態では、音声信号ｘの雑音を抑制する。本実施形態では、発話区間５１の終端から次の発話区間５１の先端までの期間より短い期間であって、発話区間５１の終端を基準とした位置から所定期間Ｔｓの間、抑制量が他の区間より大きくなるように補正する。

また、本実施形態では、雑音抑制信号ｓ”の雑音を、抑制量増大区間Ｔｓの間、さらに抑制することによって、抑制量増大区間Ｔｓの間、雑音の抑制の抑制量が他の区間より大きくなるように補正する。

また、本実施形態では、音声信号ｘの雑音を抑制する抑制量が強くないことで、後段の音声認識ブロック４４での認識率が低下することを防止する。一般に、ユーザの発話のパワーは発話の終端に近付く程小さくなる。また、非発話区間５２であっても背景雑音が存在するため、発話区間５１と非発話区間５２との境界である発話の終端を認識することが困難となる。

［第３実施形態］
次に、実施形態の一例である第３実施形態を説明する。第１実施形態と同様の構成及び作用については説明を省略する。図７に例示するように、第３実施形態では、ステップ７１で非発話区間５２の音声信号ｘのパワーを蓄積し、ステップ７２で、ステップ７１で蓄積した音声信号ｘのパワーの平均値に基づいて抑制用ゲインαを取得している点で、第１実施形態と異なる。

詳細には、ステップ６２で、発話区間５１ではないと判定された場合、即ち、非発話区間５２であると判定された場合、ＣＰＵ３１は、ステップ７１で、１フレーム分の音声信号ｘのパワーΣｘ（ｔ）^２及び時間を蓄積する。非発話区間５２で、音声信号ｘは背景雑音信号である。

ステップ６３の判定が肯定されると、即ち、抑制量増大区間Ｔｓであると判定されると、ＣＰＵ３１は、ステップ７２で、抑制用ゲインαを取得する。例えば、ステップ７１で、蓄積した非発話区間の音声信号ｘのパワーの合計を時間の合計で除算することで、音声信号ｘのパワーの平均値γを求め、図８に例示するグラフにおいて、平均値γに対応する値αを抑制用ゲインαとして取得する。

図８に例示するグラフにおいて、縦軸は抑制用ゲインの値を表し、横軸は非発話区間５２の音声信号ｘのパワーの平均値を表す。なお、図８のグラフは一例であり、本実施形態はこれに限定されない。

なお、ステップ７１で蓄積される音声信号ｘのパワーの合計及び時間の合計は、例えば、定期的にリセットされてもよい。また、以前に行われた音声信号処理で蓄積された音声信号ｘのパワーの合計及び時間の合計が、今回行う音声信号処理で、音声信号ｘのパワー及び時間の蓄積の初期値として利用されてもよい。

また、上記では、第１実施形態の処理にステップ７１及びステップ７２の処理を追加する例について説明したが、本実施形態は、第２実施形態にも適用することができる。第２実施形態に本実施形態を適用する場合、例えば、ステップ７１をステップ６２の下に含め、ステップ７２をステップ６３の下に含めればよい。

上記のように、本実施形態では、音声信号ｘ全体の雑音を抑制するが、音声信号ｘ全体ではなく、抑制量増大区間Ｔｓの抑制量を増大させている。これにより、本実施形態では、抑制量を過度に増大させることによって音声信号ｘに歪みが発生することを防止する。即ち、音声信号ｘに歪みが発生することで、後段の音声認識ブロック４４での音声の認識率が低下すること防止する。

また、本実施形態では、抑制量増大区間Ｔｓの間、抑制量が、非発話区間５２の音声信号ｘに基づいて取得された量に応じて大きくなるように補正する。また、本実施形態では、雑音抑制信号ｓ”の雑音を、抑制量増大区間Ｔｓの間、非発話区間５２の音声信号ｘに基づいて取得された量に応じてさらに抑制することによって、抑制量増大区間Ｔｓの間、抑制量が他の区間より大きくなるように補正してもよい。これにより、本実施形態では、抑制量増大区間Ｔｓの間の抑制量を適切に調整することができる。

［第４実施形態］
次に、実施形態の一例である第４実施形態を説明する。第１実施形態と同様の構成及び作用については、説明を省略する。図９に例示するように、第４実施形態では、マイク３５に代えて、第１マイク３５Ａ及び第２マイク３５Ｂを含む点で、第１実施形態とは異なる。なお、第１マイク３５Ａ及び第２マイク３５Ｂは、マイク端子などを介して音声信号処理装置１０に接続される外部マイクであってよい。

次に、音声信号処理装置１０の作用の概略について説明する。本実施形態では、図１０に例示するように、ＣＰＵ３１は、ブロック４３で、第１マイク３５Ａが受け取った音声に対応する音声信号ｘ１及び第２マイク３５Ｂが受け取った音声に対応する音声信号ｘ２の雑音を抑制する。雑音の抑制には、例えば、単一マイクのためのフィルタリングによる雑音抑制又はスペクトル復元による雑音抑制などを複数マイクに応用した技術など、既存の雑音抑制技術を用いることができる。

一方、ＣＰＵ３１は、ブロック４１で、音声信号ｘ１及び音声信号ｘ２の相関値に基づいて発話区間５１を検出する。また、ＣＰＵ３１は、抑制量増大区間Ｔｓの間、ブロック４３で行われる音声信号の雑音の抑制の抑制量が、抑制量増大区間Ｔｓ以外の区間の抑制量よりも大きくなるように制御する。

詳細には、図５のステップ６１で、ＣＰＵ３１は、第１マイク３５Ａで受け取った音声に対応する音声信号ｘ１及び第２マイク３５Ｂで受け取った音声に対応する音声信号ｘ２を、例えば、１フレーム分受け取る。ＣＰＵ３１は、ステップ６２で、受け取った音声信号ｘ１及びｘ２が発話区間５１の音声信号であるか否か判定する。

ＣＰＵ３１は、例えば、式（５）を用いて、音声信号ｘ１と音声信号ｘ２との相関値Ｒを計算する。
Ｒ＝Σｘ１（ｔ）ｘ２（ｔ−ｄ）／（Σｘ１（ｔ）^２Σｘ２（ｔ−ｄ）^２）^１／２ …（５）例えば、第１マイク３５Ａと音源（例えば、自動車内における運転者）との距離が第２マイク３５Ｂと音源との距離よりも長いと仮定した場合、ｄは音源の方向に適合する遅延時間である。ＣＰＵ３１は、相関値Ｒが所定値よりも大きい場合、発話区間５１であると判定する。

なお、上記では、マイクが２つである例について説明したが、本実施形態はこれに限定されない。例えば、マイクは３つ以上であってもよい。

また、上記では、第１実施形態で、マイク３５を第１マイク３５Ａ及び第２マイク３５Ｂと置き換える例について説明したが、本実施形態は、第２実施形態及び第３実施形態にも適用することができる。

本実施形態では、音声信号ｘ１及び音声信号ｘ２の雑音を抑制する。本実施形態では、発話区間５１の終端から次の発話区間５１の先端までの期間より短い期間であって、発話区間５１の終端を基準とした位置から所定期間Ｔｓの間、抑制量が他の区間より大きくなるように補正する。

上記のように、本実施形態では、音声信号ｘ１及び音声信号ｘ２全体の雑音を抑制するが、音声信号ｘ１及び音声信号ｘ２全体ではなく、抑制量増大区間Ｔｓの抑制量を増大させている。これにより、本実施形態では、抑制量を過度に増大させることによって、雑音を抑制した音声信号に歪みが発生することを防止する。即ち、雑音を抑制した音声信号に歪みが発生することで、後段の音声認識ブロック４４での音声の認識率が低下すること防止する。

また、本実施形態では、音声信号ｘ１及び音声信号ｘ２の雑音を抑制する抑制量が強くないことで、後段の音声認識ブロック４４での音声の認識率が低下することを防止する。一般に、ユーザの発話のパワーは発話の終端に近付く程小さくなる。また、非発話区間５２であっても背景雑音が存在するため、発話区間５１と非発話区間５２との境界である発話の終端を認識することが困難となる。

ここで、音声信号ｘ１及び音声信号ｘ２の雑音を抑制する抑制量が強くない、即ち不十分であると、雑音が残留するため、音声信号ｘ１及び音声信号ｘ２と非発話区間５２の背景雑音である音声信号ｘ１及び音声信号ｘ２との差異が不明瞭となる。従って、音声認識ブロック４４で発話の終端を認識することはさらに困難となる。これにより、音声認識ブロック４４での音声の認識率が低下する。本実施形態によれば、抑制量増大区間Ｔｓの抑制量を増大させることにより、音声認識ブロック４４で発話の終端を認識することが容易となるため、音声認識ブロック４４で音声の認識率が低下することを防止する。

［比較結果例］
走行中の自動車室内で収録した６４０個の音声データを用いて、上記実施形態を適用した音声信号と適用しない音声信号の発話区間の検出率を比較した。上記実施形態を適用した音声信号では、走行中の自動車室内で収録した６４０個の音声データの内、６４０個全ての音声データで音声信号の発話区間を適切に検出することができた。一方、上記実施形態を適用しない音声信号では、上記６４０個の音声データの内、１１個の音声データで音声信号の発話区間を適切に検出することに失敗した。

以上の各実施形態に関し、更に以下の付記を開示する。

（付記１）
音声信号の発話区間を検出する発話区間検出部と、
前記音声信号の雑音を抑制する抑制部と、
前記発話区間検出部で検出された発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、前記抑制部による雑音の抑制の抑制量が他の区間より大きくなるように補正する補正部と、
を含む音声信号処理装置。
（付記２）
前記補正部は、前記所定期間の間、前記抑制部による抑制量が、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて大きくなるように補正する、
付記１の音声信号処理装置。
（付記３）
前記補正部は、前記抑制部によって雑音が抑制された前記音声信号の雑音を、前記所定期間の間、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて、さらに抑制するように前記抑制部を制御することによって、前記所定期間の間、前記抑制部による抑制量が他の区間より大きくなるように補正し、
前記抑制部は、前記所定期間の間、前記雑音が抑制された音声信号の雑音をさらに抑制する、
付記１の音声信号処理装置。
（付記４）
前記音声信号を入力する複数の音声入力部を含み、
前記発話区間検出部は、前記複数の音声入力部で受け取った音声に対応する音声信号の間の相関値に基づいて、前記発話区間を検出する、
付記１〜付記３の何れかの音声信号処理装置。
（付記５）
プロセッサが、
音声信号の発話区間を検出し、
前記音声信号の雑音を抑制し、
検出された前記発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、雑音を抑制する抑制量が他の区間より大きくなるように補正する、
音声信号処理方法。
（付記６）
前記所定期間の間、前記抑制量が、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて大きくなるように補正する、
付記５の音声信号処理方法。
（付記７）
雑音が抑制された前記音声信号の雑音を、前記所定期間の間、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて、さらに抑制するように制御することによって、前記所定期間の間、前記抑制量が他の区間より大きくなるように補正し、
前記所定期間の間、前記雑音が抑制された音声信号の雑音をさらに抑制する、
付記５の音声信号処理方法。
（付記８）
複数の音声入力部で受け取った音声に対応する音声信号の間の相関値に基づいて、前記発話区間を検出する、
付記５〜付記７の何れかの音声入力方法。
（付記９）
音声信号の発話区間を検出し、
前記音声信号の雑音を抑制し、
検出された前記発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、雑音を抑制する抑制量が他の区間より大きくなるように補正する、
音声信号処理をプロセッサに実行させるためのプログラム。
（付記１０）
前記音声信号処理は、
前記所定期間の間、前記抑制量が、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて大きくなるように補正する、
付記９のプログラム。
（付記１１）
前記音声信号処理は、
雑音が抑制された前記音声信号の雑音を、前記所定期間の間、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて、さらに抑制するように制御することによって、前記所定期間の間、前記抑制量が他の区間より大きくなるように補正し、
前記所定期間の間、前記雑音が抑制された音声信号の雑音をさらに抑制する、
付記９のプログラム。
（付記１２）
前記音声信号処理は、
複数の音声入力部で受け取った音声に対応する音声信号の間の相関値に基づいて、前記発話区間を検出する、
付記９〜付記１１の何れかのプログラム。

１０音声信号処理装置
１１発話区間検出部
１２抑制部
１３補正部
３１ＣＰＵ

Claims

音声信号の発話区間を検出する発話区間検出部と、
前記音声信号の雑音を抑制する抑制部と、
前記発話区間検出部で検出された発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、前記抑制部による雑音の抑制の抑制量が他の区間より大きくなるように補正する補正部と、
を含む音声信号処理装置。
前記補正部は、前記所定期間の間、前記抑制部による抑制量が、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて大きくなるように補正する、
請求項１に記載の音声信号処理装置。
前記補正部は、前記抑制部によって雑音が抑制された前記音声信号の雑音を、前記所定期間の間、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて、さらに抑制するように前記抑制部を制御することによって、前記所定期間の間、前記抑制部による抑制量が他の区間より大きくなるように補正し、
前記抑制部は、前記所定期間の間、前記雑音が抑制された音声信号の雑音をさらに抑制する、
請求項１に記載の音声信号処理装置。
前記音声信号を入力する複数の音声入力部を含み、
前記発話区間検出部は、前記複数の音声入力部で受け取った音声に対応する音声信号の間の相関値に基づいて、前記発話区間を検出する、
請求項１〜請求項３の何れか１項に記載の音声信号処理装置。
プロセッサが、
音声信号の発話区間を検出し、
前記音声信号の雑音を抑制し、
検出された前記発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、雑音を抑制する抑制量が他の区間より大きくなるように補正する、
音声信号処理方法。
音声信号の発話区間を検出し、
前記音声信号の雑音を抑制し、
検出された前記発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、雑音を抑制する抑制量が他の区間より大きくなるように補正する、
音声信号処理をプロセッサに実行させるためのプログラム。