JP6004792B2

JP6004792B2 - 音響処理装置、音響処理方法、及び音響処理プログラム

Info

Publication number: JP6004792B2
Application number: JP2012150534A
Authority: JP
Inventors: 一博中臺; インジュ・ギョカン
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2011-07-06
Filing date: 2012-07-04
Publication date: 2016-10-12
Anticipated expiration: 2032-07-04
Also published as: US8995671B2; JP2013020252A; US20130010974A1

Description

本発明は、音響処理装置、音響処理方法、及び音響処理プログラムに関する。

モータ等の動力源を備える機器、例えばロボット等は、動作に伴って動作音を発生させる。かかる機器に内蔵、または近傍に設置されるマイクロホンは、人間が発した音声等の目的音とともに機器の動作音を受信する。このような動作音を、自己雑音（ｅｇｏ−ｎｏｉｓｅ）という。このマイクロホンを用いて受信した目的音を利用するためには、機器の自己雑音を低減又は消去する必要がある。例えば、目的音に対して音声認識を行う際、自己雑音を低減しなければ所定の認識率を確保することができない。そこで、自己雑音を低減する技術が従来から提案されている。

例えば、特許文献１に記載の音データ処理装置では、機械装置の動作状態を取得し、取得された動作状態に対応する音データを取得し、単位時間における機器の種々の動作状態及び対応する音データをテンプレートとして記憶するデータベースから、取得された動作状態に最も近い動作状態のテンプレートの音データを検索し、取得された音データから取得された動作状態に最も近い動作状態のテンプレートの音データを減算して機械装置が発生するノイズを低減した出力を求める。

特開２０１０−２７１７１２号公報

しかしながら、特許文献１に記載の音データ処理装置では、事前に準備したテンプレートを用いる。周囲の雑音等、都度変化する様々な状況で雑音除去性能を確保するためには、多くのテンプレートが必要であった。他方、あらゆる状況に対応できるように数多くのテンプレートを準備することは現実的ではない。また、テンプレートが増加するほど処理時間が増大する。従って、限られた数のテンプレートを用いただけでは、雑音抑圧性能が確保できないという課題を生じていた。

本発明は上記の点に鑑みてなされたものであり、雑音抑圧性能を向上させる音響処理装置、音響処理方法、及び音響処理プログラムを提供する。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、自装置を組み込むロボットの駆動部の動作を検出する動作検出部と、入力された音響信号の音響特徴量に基づいて定常雑音成分の音響特徴量を推定する定常雑音推定部と、前記音響信号の音響特徴量から、前記定常雑音推定部が推定した前記定常雑音成分の音響特徴量に基づいて前記定常雑音成分を除去した非定常成分の音響特徴量を算出する音響特徴量処理部と、前記音響信号が音声であるか音声以外の非音声であるかを判定する音声判定部と、前記音声判定部が非音声であると判定するとき、前記動作を表す動作データと前記非定常成分の音響特徴量とを記憶部に対応付けて記憶する更新部と、前記音声判定部が音声であると判定するとき、前記記憶部から前記動作データに対応する非定常成分の音響特徴量を取得する推定部と、前記定常雑音成分の音響特徴量と前記非定常成分の音響特徴量とを加算した雑音成分の音響特徴量を、前記音響信号の音響特徴量から減算して目標音響信号の音響特徴量を算出する減算部と、を備えることを特徴とする音響処理装置である。

（２）本発明の他の態様は、上述の音響処理装置であって、前記更新部は、前記動作検出部が検出した動作を示す動作データに対応する非定常成分の音響特徴量を前記記憶部から選択し、前記選択した非定常成分の音響特徴量を、前記推定部が取得した非定常成分の音響特徴量と重み付け加算した値に更新することを特徴とする。

（３）本発明の他の態様は、上述の音響処理装置であって、前記更新部は、前記動作検出部が検出した動作を示す動作データとの類似度が、前記記憶部に記憶された動作データのいずれに対しても、予め定めた類似度よりも類似していないことを示す場合、前記動作検出部が検出した動作を示す動作データと前記推定部が推定した非定常成分の音響特徴量を対応付けて前記記憶部に記憶することを特徴とする。

（４）本発明の他の態様は、上述の音響処理装置であって、前記動作データは、前記駆動部の動作状態を示すパラメータを複数個含む特徴ベクトルを示すことを特徴とし、前記記憶部に記憶される複数の動作データが示す特徴ベクトル間の関係としてＫＤ木を表す構造情報を構成する構成部を備え、前記推定部は、前記構造情報を参照して前記動作データが表す特徴ベクトルとの距離に基づいて二分探索を行って前記記憶部から所定の個数の特徴ベクトルを選択することを特徴とする。

（５）本発明の他の態様は、音響処理装置における音響処理方法であって、自装置を組み込むロボットの駆動部の動作を検出する動作検出過程と、入力された音響信号の音響特徴量に基づいて定常雑音成分の音響特徴量を推定する定常雑音推定過程と、前記音響信号の音響特徴量から、前記定常雑音推定過程において推定された前記定常雑音成分の音響特徴量に基づいて前記定常雑音成分を除去した非定常成分の音響特徴量を算出する音響特徴量処理過程と、前記音響信号が音声であるか音声以外の非音声であるかを判定する音声判定過程と、前記音声判定過程において非音声であると判定されるとき、前記動作を表す動作データと前記非定常成分の音響特徴量とを記憶部に対応付けて記憶する更新過程と、前記音声判定過程において音声であると判定されるとき、前記記憶部から前記動作データに対応する非定常成分の音響特徴量を取得する推定過程と、前記定常雑音成分の音響特徴量と前記非定常成分の音響特徴量とを加算した雑音成分の音響特徴量を、前記音響信号の音響特徴量から減算して目標音響信号の音響特徴量を算出する減算過程と、を有することを特徴とする音響処理方法である。

（６）本発明の他の態様は、音響処理装置のコンピュータに、自装置を組み込むロボットの駆動部の動作を検出する動作検出手順、入力された音響信号の音響特徴量に基づいて定常雑音成分の音響特徴量を推定する定常雑音推定手順、前記音響信号の音響特徴量から、前記定常雑音推定手順において推定された前記定常雑音成分の音響特徴量に基づいて前記定常雑音成分を除去した非定常成分の音響特徴量を算出する音響特徴量処理手順、前記音響信号が音声であるか音声以外の非音声であるかを判定する音声判定過程と、前記音声判定過程において非音声であると判定されるとき、前記動作を表す動作データと前記非定常成分の音響特徴量とを記憶部に対応付けて記憶する更新手順、前記音声判定過程において音声であると判定されるとき、前記記憶部から前記動作データに対応する非定常成分の音響特徴量を取得する推定手順、前記定常雑音成分の音響特徴量と前記非定常成分の音響特徴量とを加算した雑音成分の音響特徴量を、前記音響信号の音響特徴量から減算して目標音響信号の音響特徴量を算出する減算手順、を実行させるための音響処理プログラムである。

上述の態様によれば、更新された雑音成分の音響特徴量が雑音の除去に用いられるので、雑音除去性能が向上することができる。
上述の態様によれば、雑音の特性の変化に対する適応性と動作の安定性を両立させることができる。
上述の態様によれば、雑音の特性における急激な変動に対する適応性が向上する。
上述の態様によれば、非定常雑音の特性の変化に対する適応性が向上する。
上述の態様によれば、制御対象の機器に対する指示に基づいて、当該機器の動作によって生ずる自己雑音に対する適応性が向上する。

本発明の第１の実施形態に係る音響処理装置の構成を示す概略図である。ＨＲＬＥ法を用いた定常雑音レベルの算出に係る処理を表すフローチャートである。本実施形態に係る特徴ベクトルの探索処理を示すフローチャートである。本実施形態に係るテンプレート更新処理を示すフローチャートである。本実施形態に係る目標音響信号生成処理を示すフローチャートである。本発明の第２の実施形態に係る音響処理装置の構成を示す概略図である。本実施形態に係るテンプレート更新処理を示すフローチャートである。推定誤差の一例を示す図である。テンプレートの数の一例を示す図である。原信号のスペクトログラムを示す図である。定常雑音のスペクトログラムの一例を示す図である。推定した雑音のスペクトログラムの一例を示す図である。推定した雑音のスペクトログラムの他の例を示す図である。実験結果の一例を示す表である。実験結果の他の例を示す表である。

（第１の実施形態）
以下、図面を参照しながら本発明の第１の実施形態について詳しく説明する。
図１は、本実施形態に係る音響処理装置１の構成を示す概略図である。
音響処理装置１は、収音部１１、動作検出部１２、周波数領域変換部１３１、パワー算出部１３２、雑音推定部１３３、テンプレート記憶部１３４、減算部１３５、時間領域変換部１３６、テンプレート生成部１３８、テンプレート再構成部１３９及び出力部１４を含んで構成される。

音響処理装置１は、テンプレート記憶部１３４において機器の動作を表す動作データとその動作におけるスペクトルとを対応付けて記憶し、雑音推定部１３３において入力された音響信号と入力された動作データに基づいて雑音のスペクトルを推定する。音響処理装置１は、減算部１３５において、入力された音響信号のスペクトルから推定した雑音のスペクトルを減算して推定目標スペクトルを算出する。そして、音響処理装置１は、算出した推定目標スペクトルに基づいて時間領域の目標音響信号を生成する。他方、音響処理装置１は、入力された音響信号が音声であるか音声以外の非音声であるかを判定し、入力された音響信号が非音声であると判定した場合、入力された音響信号のスペクトルに基づいて非定常雑音成分のスペクトルを算出する。音響処理装置１は、入力された動作データと非定常雑音成分の音響特徴量に基づいて、テンプレート記憶部１３４に記憶された音響特徴量を更新する。

収音部１１は、受信した音波に基づいて電気信号である音響信号ｙ（ｔ）を生成し、生成した音響信号ｙ（ｔ）を周波数領域変換部１３１及びテンプレート生成部１３８に出力する。ｔは、時刻である。収音部１１は、例えば、可聴帯域（２０−２０ｋＨｚ）の音響信号を収録するマイクロホンである。

動作検出部１２は、機器の動作を示す動作信号（動作データ）を生成し、生成した動作信号を雑音推定部１３３及びテンプレート生成部１３８に出力する。動作検出部１２は、例えば、音響処理装置１を組み込んでいる機器、例えばロボットの動作信号を生成する。ここで、動作検出部１２は、例えば、Ｊ個の（Ｊは、０よりも大きい整数、例えば、３０）エンコーダ（位置センサ）を備え、各エンコーダは、機器が備える各モータ（駆動部）に取り付けられ、各関節の角度位置（ａｎｇｕｌａｒｐｏｓｉｔｉｏｎ）θ_ｊ（ｌ）を計測する。ｊは、エンコーダのインデックスであって、０より大きくＪと等しいかＪより小さい整数である。ｌは、フレーム時刻を表すインデックスである。動作検出部１２は、計測した角度位置（ａｎｇｕｌａｒｐｏｓｉｔｉｏｎ）θ_ｊ（ｌ）の時間微分である角速度θ’_ｊ（ｌ）と、その時間微分である角加速度θ’’_ｊ（ｌ）を算出する。動作検出部１２は、算出したエンコーダ毎の角度位置θ_ｊ（ｌ）、角速度θ’_ｊ（ｌ）、及び角加速度θ’’_ｊ（ｌ）をエンコーダ間で統合して、特徴ベクトルＦ（ｌ）を構成する。特徴ベクトルＦ（ｌ）は、［θ_１（ｌ），θ’_１（ｌ）， θ’_１（ｌ），θ_２（ｌ），θ’_２（ｌ），θ’_２（ｌ），…，θ_Ｊ（ｌ），θ’_Ｊ（ｌ）， θ’_Ｊ（ｌ））］と動作の状態を示す３Ｊ次元のベクトルである。動作検出部１２は、構成した特徴ベクトルＦ（ｌ）を示す動作信号を生成する。

周波数領域変換部１３１は、収音部１１から入力され、時間領域で表された音響信号ｙ（ｔ）を、周波数領域で表された複素入力スペクトル（ｃｏｍｐｌｅｘｉｎｐｕｔｓｐｅｃｔｒｕｍ）Ｙ（ｋ，ｌ）に変換する。ｋは、周波数を表すインデックス（ｆｒｅｑｕｅｎｃｙｂｉｎ）である。ここで、周波数領域変換部１３１は、音響信号に対して、例えば、式（１）を用いてフレームｌ毎に離散フーリエ変換（ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ、ＤＦＴ）を行う。

ｗ（ｔ）は、窓関数（ｗｉｎｄｏｗｆｕｎｃｔｉｏｎ）、例えばハミング窓（ｈａｍｍｉｎｇｗｉｎｄｏｗ）である。Ｗは、窓長（ｗｉｎｄｏｗｌｅｎｇｔｈ）を示す整数である。Ｍは、シフト長（ｓｈｉｆｔｌｅｎｇｔｈ）、即ち、処理対象となるフレームを一度に移動させるサンプル数である。
周波数領域変換部１３１は、変換した複素入力スペクトルＹ（ｋ，ｌ）をパワー算出部１３２及び減算部１３５に出力する。

パワー算出部１３２は、周波数領域変換部１３１から入力された複素入力スペクトルＹ（ｋ，ｌ）のパワースペクトル｜Ｙ（ｋ，ｌ）｜^２を算出する。ここで、｜…｜は、複素数…の絶対値を示す。パワー算出部１３２は、算出したパワースペクトル｜Ｙ（ｋ，ｌ）｜^２を減算部１３５及び雑音推定部１３３に出力する。

雑音推定部１３３は、定常雑音推定部１３３１、テンプレート推定部１３３２及び加算部１３３３を含んで構成される。
定常雑音推定部１３３１は、パワー算出部１３２から入力されたパワースペクトル｜Ｙ（ｋ，ｌ）｜^２を再帰的に（ｒｅｃｕｒｓｉｖｅｌｙ）平均する。これにより、定常雑音推定部１３３１は、雑音の定常成分（ｓｔａｔｉｏｎａｒｙｐｏｒｔｉｏｎ）のパワースペクトルλ_ＳＮＥ（ｋ，ｌ）を算出する。

以下の説明では、このパワースペクトルλ_ＳＮＥ（ｋ，ｌ）を定常成分のパワースペクトルλ_ＳＮＥ（ｋ，ｌ）又は定常雑音レベルλ_ＳＮＥ（ｋ，ｌ）と呼ぶことがある。ここで、定常雑音推定部１３３１は、例えば、ＨＲＬＥ（Ｈｉｓｔｏｇｒａｍ−ｂａｓｅｄＲｅｃｕｒｓｉｖｅＬｅｖｅｌＥｓｔｉｍａｔｉｏｎ）法を用いて定常雑音レベルλ_ＳＮＥ（ｋ，ｌ）を算出する。ＨＲＬＥ法では、対数領域におけるパワースペクトル｜Ｙ（ｋ，ｌ）｜^２のヒストグラム（頻度分布）を算出し、その累積分布と予め定めた累積頻度（百分位数、ｐｅｒｃｅｎｔｉｌｅ）ｘ（例えば、５０％）に基づいて定常雑音レベルλ_ＳＮＥ（ｋ，ｌ）を算出する。ＨＲＬＥ法を用いて定常雑音レベルλ_ＳＮＥ（ｋ，ｌ）を算出する処理については後述する。

定常雑音推定部１３３１は、ＨＲＬＥ法に限らず、ＭＣＲＡ（Ｍｉｎｉｍａ−ＣｏｎｔｒｏｌｌｅｄＲｅｃｕｒｓｉｖｅＡｖｅｒａｇｅ）法等、他の方法を用いて定常雑音レベルλ_ＳＮＥ（ｋ，ｌ）を算出してもよい。定常雑音推定部１３３１は、算出した定常雑音レベルλ_ＳＮＥ（ｋ，ｌ）を加算部１３３３に出力する。

テンプレート推定部１３３２は、動作検出部１２から入力された動作信号に基づいて非定常成分（ｎｏｎ−ｓｔａｔｉｏｎａｒｙｐｏｒｔｉｏｎ、非定常雑音成分）のパワースペクトルλ_ＴＥ（ｋ，ｌ）を推定し、推定した非定常成分のパワースペクトルλ_ＴＥ（ｋ，ｌ）を加算部１３３３へ出力する。
以下の説明では、非定常成分のパワースペクトルλ_ＴＥ（ｋ，ｌ）を非定常雑音レベルと呼ぶことがある。ここで、テンプレート推定部１３３２は、入力された動作信号が表す特徴ベクトルＦ（ｌ）に基づいて、テンプレート記憶部１３４に記憶されている特徴ベクトルＦ’（ｌ）を選択する。テンプレート記憶部１３４には、後述するように、特徴ベクトルＦ’（ｌ）と雑音スペクトルベクトル｜Ｎ’_ｎ（ｋ，ｌ）｜^２とが対応付けて記憶されている。以下の説明では、特徴ベクトルＦ’（ｌ）と、これに対応付けられた雑音スペクトルベクトル｜Ｎ’_ｎ（ｋ，ｌ）｜^２との組をテンプレート（ｔｅｍｐｌａｔｅ）と呼ぶ。テンプレート推定部１３３２が特徴ベクトルＦ’（ｌ）を選択する処理について後述する。

なお、テンプレート推定部１３３２は、テンプレート記憶部１３４に記憶された特徴ベクトルＦ’（ｌ）を総当りで探索（ｅｘｈａｕｓｔｉｖｅｋｅｙｓｅａｒｃｈ）してもよいが、二分探索（ｂｉｎａｒｙｓｅａｒｃｈ）を用いてもよい。二分探索を用いる場合には、特徴ベクトルＦ’（ｌ）間において、ＫＤ木（ＫＤｔｒｅｅ、Ｋ−Ｄｉｍｅｎｓｉｏｎａｌｔｒｅｅ）が構成されるようにしておく。テンプレート推定部１３３２は、二分探索を用いることで、総当りでの探索よりも格段に処理量を低減することができる。ＫＤ木及び二分探索については、後述する。

なお、距離がｎ（ｎは１よりも大きい整数）番目に小さい特徴ベクトルＦ’（ｌ）を選択するためには、テンプレート推定部１３３２は、１〜ｎ−１番目にユークリッド距離が小さい特徴ベクトルＦ’（ｌ）を選択対象から除外して、上述の探索を行えばよい。

加算部１３３３には、テンプレート生成部１３８から音声判定信号が入力される。音声判定信号は、入力された音響信号が音声であるか（ｓｐｅｅｃｈ）、非音声であるか（ｎｏｎ−ｓｐｅｅｃｈ）を示す信号である。音声判定信号が音声であることを示す場合、加算部１３３３は、定常雑音推定部１３３１から入力された定常雑音レベルλ_ＳＮＥ（ｋ，ｌ）とテンプレート推定部１３３２から入力された非定常成分のパワースペクトルλ_ＴＥ（ｋ，ｌ）を加算する。加算部１３３３は、加算して生成した雑音パワースペクトルλ_ｔｏｔ（ｋ，ｌ）を減算部１３５に出力する。
音声判定信号が非音声であることを示す場合、加算部１３３３は、定常雑音推定部１３３１から入力された定常雑音レベルλ_ＳＮＥ（ｋ，ｌ）を雑音パワースペクトルλ_ｔｏｔ（ｋ，ｌ）として減算部１３５に出力する。

減算部（音声特徴量処理部）１３５は、利得算出部１３５１及びフィルタ部１３５２を含んで構成される。減算部１３５では、以下に説明するようにパワースペクトル｜Ｙ（ｋ，ｌ）｜^２から雑音パワースペクトルλ_ｔｏｔ（ｋ，ｌ）を減算することによって、雑音成分を除去した音声のスペクトル（推定目標スペクトル）を推定する。
利得算出部１３５１は、パワー算出部１３２から入力されたパワースペクトル｜Ｙ（ｋ，ｌ）｜^２と加算部１３３３から入力された雑音パワースペクトルλ_ｔｏｔ（ｋ，ｌ）とに基づいて、利得Ｇ_ＳＳ（ｋ，ｌ）を、例えば式（２）を用いて算出する。

式（２）において、ｍａｘ（α，β）は、実数αとβのうち大きいほうの数を与える関数を示す。βは、予め定めた最小値を示す床係数（ｆｌｏｏｒｉｎｇｐａｒａｍｅｔｅｒ）である。ここで、関数ｍａｘの左辺は、フレームｌにおける周波数ｋに係る、雑音が除去されたパワースペクトルの、雑音が除去されていないパワースペクトルの割合に対する平方根を示す。利得算出部１３５１は、算出した利得Ｇ_ＳＳ（ｋ，ｌ）をフィルタ部１３５２に出力する。

フィルタ部１３５２は、周波数領域変換部１３１から入力された複素入力スペクトルＹ（ｋ，ｌ）に利得算出部１３５１から入力された利得Ｇ_ＳＳ（ｋ，ｌ）を乗算して推定目標スペクトル（ｅｓｔｉｍａｔｅｄｔａｒｇｅｔｓｐｅｃｔｒｕｍ）Ｘ’（ｋ，ｌ）を算出する。つまり、推定目標スペクトルＸ’（ｋ，ｌ）は、入力された複素入力スペクトルＹ（ｋ，ｌ）から雑音スペクトルが減算された複素スペクトルを示す。フィルタ部１３５２は、算出した推定目標スペクトルＸ’（ｋ，ｌ）を時間領域変換部１３６及びテンプレート生成部１３８に出力する。

時間領域変換部（音声算出部）１３６は、フィルタ部１３５２から入力された推定目標スペクトルＸ’（ｋ，ｌ）を時間領域の目標音響信号ｘ’（ｔ）に変換する。ここで、時間領域変換部１３６は、フレームｌ毎に推定目標スペクトルＸ’（ｋ，ｌ）に対して、例えば逆離散フーリエ変換（ＩｎｖｅｒｓｅＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ、ＩＤＦＴ）を行って、目標音響信号ｘ’（ｔ）を算出する。時間領域変換部１３６は、変換した目標音響信号ｘ’（ｔ）を出力部１４に出力する。つまり、推定目標スペクトルＸ’（ｋ，ｌ）は目標音響信号ｘ’（ｔ）のスペクトルである。
出力部１４は、時間領域変換部１３６から入力された目標音響信号ｘ’（ｔ）を音響処理装置１の外部に出力する。

テンプレート生成部１３８は、音声判定部１３８１、パワー算出部１３８２及びテンプレート更新部１３８３を含んで構成される。
音声判定部１３８１は、収音部１１から入力された音響信号ｙ（ｔ）に対して音声区間検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ；ＶＡＤ）を行う。音声判定部１３８１は、音声区間検出を有音区間毎に行う。有音区間は、音響信号の振幅の立ち上がり（ｏｎｓｅｔ）から立ち下り（ｄｅｃａｙ）に挟まれる区間である。立ち上がりとは、無音区間の後、音響信号のパワーが予め定めたパワーよりも大きくなる部分である。立ち下がりとは、無音区間の前に、音響信号のパワーが予め定めたパワーよりも小さくなる部分である。音声判定部１３８１は、例えば、ある時間間隔（例えば、１０ｍｓ）毎のパワー値が、その直前において予め定めたパワー閾値よりも小さく、現在においてそのパワー閾値を上回る場合に、立ち上がりと判定する。これに対して、音声判定部１３８１は、パワー値が、その直前において予め定めたパワー閾値よりも大きく、現在においてそのパワー閾値よりも小さい場合に、立ち下がりと判定する。

音声判定部１３８１は、単位時間当りの（例えば、１０ｍｓ）の零交差数（ｎｕｍｂｅｒｏｆｚｅｒｏｃｒｏｓｓｉｎｇｓ）が、予め定めた数を越えたとき、音声区間であると判定する。零交差数とは、音響信号の振幅値が零を跨ぐ回数、即ち、負値から正値、又は正値から負値に変化する回数である。音声判定部１３８１は、零交差数が、予め定めた数を下回る場合、非音声区間であると判定する。音声判定部１３８１は、音声区間であると判定したとき、音声であることを示す音声判定信号を生成する。音声判定部１３８１は、非音声区間であると判定したとき、非音声であることを示す音声判定信号を生成する。音声判定部１３８１は、生成した音声判定信号を加算部１３３３及びパワー算出部１３８２に出力する。なお、非音声区間であると判定された場合、収音部１１が収録する音響信号において、機器が発する自己雑音の成分が主である。

パワー算出部１３８２には、音声判定部１３８１から音声判定信号が入力され、フィルタ部１３５２から推定目標スペクトルＸ’（ｋ，ｌ）が入力される。音声判定信号が非音声を示す場合、入力された推定目標スペクトルＸ’（ｋ，ｌ）は、雑音から定常雑音成分が除去された非定常成分Ｎ’_ｎ（ｋ，ｌ）である。その場合、パワー算出部１３８２は、非定常成分Ｎ’_ｎ（ｋ，ｌ）のパワースペクトル｜Ｎ’_ｎ（ｋ，ｌ）｜^２を算出し、算出したパワースペクトル｜Ｎ’_ｎ（ｋ，ｌ）｜^２を非定常成分のパワースペクトルλ_ＴＥ（ｋ，ｌ）としてテンプレート更新部１３８３に出力する。
なお、パワー算出部１３８２は、音声判定部１３８１から入力された音声判定信号が音声であることを示す場合には、パワースペクトル｜Ｎ’_ｎ（ｋ，ｌ）｜^２を出力しない。

テンプレート更新部１３８３には、動作検出部１２から入力された動作信号と、パワー算出部１３８２から入力された非定常成分のパワースペクトルλ_ＴＥ（ｋ，ｌ）に基づいて、テンプレート記憶部１３４に記憶されたテンプレートを更新する。テンプレート更新部１３８３が、テンプレートを更新する処理については、後述する。

テンプレート再構成部１３９は、テンプレート記憶部１３４に記憶されたテンプレート毎の特徴ベクトルＦ’（ｌ）について、予め定めた時間間隔τ毎にＫＤ木を再構成する。再構成によって、ＫＤ木が有する再帰的な構造を回復するようにして、特徴ベクトルＦ’（ｌ）の探索時間が増加することを防止する。ＫＤ木のテンプレートの再構成は、フレームｌ毎に行ってもよいが、τはフレーム間隔よりも長い時間間隔、例えば、５０［ｍｓ］でもよい。これにより、テンプレートの更新による処理量の増加を抑制することができる。なお、テンプレート推定部１３３２及びテンプレート更新部１３８３が二分探索法を用いずに、例えば総当りで特徴ベクトルＦ’（ｌ）を探索する場合には、テンプレート再構成部１３９を省略してもよい。

（定常雑音レベルを算出する処理）
次に、定常雑音推定部１３３１がＨＲＬＥ法を用いて定常雑音レベルλ_ＳＮＥ（ｋ，ｌ）の算出する処理について説明する。
図２は、ＨＲＬＥ法を用いた定常雑音レベルλ_ＳＮＥ（ｋ，ｌ）の算出に係る処理を表すフローチャートである。
（ステップＳ１０１）定常雑音推定部１３３１は、パワースペクトル｜Ｙ（ｋ，ｌ）｜^２に基づき対数スペクトルＹ_Ｌ（ｋ，ｌ）を算出する。ここで、Ｙ_Ｌ（ｋ，ｌ）＝２０ｌｏｇ_１０｜Ｙ（ｋ，ｌ）｜である。その後、ステップＳ１０２に進む。
（ステップＳ１０２）定常雑音推定部１３３１は、算出した対数スペクトルＹ_Ｌ（ｋ，ｌ）が属する階級（ｂｉｎ）Ｉ_ｙ（ｋ，ｌ）を定める。ここで、Ｉ_ｙ（ｋ，ｌ）＝ｆｌｏｏｒ（Ｙ_Ｌ（ｋ，ｌ）−Ｌ_ｍｉｎ）／Ｌ_ｓｔｅｐである。ｆｌｏｏｒ（…）は、実数…、又は…よりも小さい最大の整数を与える床関数（ｆｌｏｏｒｆｕｎｃｔｉｏｎ）である。Ｌ_ｍｉｎ、Ｌ_ｓｔｅｐは、それぞれ予め定めた最小レベル、階級毎のレベルの幅である。その後、ステップＳ１０３に進む。

（ステップＳ１０３）定常雑音推定部１３３１は、現フレームｌにおける階級Ｉ_ｙ（ｋ，ｌ）に対する度数Ｎ（ｋ，ｌ）を累積する。ここで、Ｎ（ｋ，ｌ，ｉ）＝αＮ（ｋ，ｌ−１，ｉ）＋（１−α）δ（ｉ−Ｉ_ｙ（ｋ，ｌ））である。αは、時間減衰係数（ｔｉｍｅｄｅｃａｙｐａｒａｍｅｔｅｒ）である。α＝１−１／（Ｔ_ｒ・Ｆ_ｓ）である。Ｔ_ｒは、予め定めた時定数（ｔｉｍｅｃｏｎｓｔａｎｔ）であり、Ｆ_ｓは、サンプリング周波数である。δ（…）は、ディラックのデルタ関数（Ｄｉｒａｃ’ｓｄｅｌｔａｆｕｎｃｔｉｏｎ）である。即ち、度数Ｎ（ｋ，ｌ，ｉ）は、前フレームｌ−１における階級Ｉ_ｙ（ｋ，ｌ）に対する度数Ｎ（ｋ，ｌ−１，ｉ）にαを乗じて減衰させた値に、１−αを加算して得られる。その後、ステップＳ１０４に進む。

（ステップＳ１０４）定常雑音推定部１３３１は、最下位の階級０から階級ｉまで度数Ｎ（ｋ，ｌ，ｉ’）を加算して、累積度数Ｓ（ｋ，ｌ，ｉ）を算出する。その後、ステップＳ１０５に進む。
（ステップＳ１０５）定常雑音推定部１３３１は、累積頻度ｘに対応する累積度数Ｓ（ｋ，ｌ，Ｉ_ｍａｘ）・ｘ／１００に最も近似する累積度数Ｓ（ｋ，ｌ，ｉ）を与える階数ｉを、推定階数Ｉ_ｘ（ｋ，ｌ）として定める。即ち、推定階数Ｉ_ｘ（ｋ，ｌ）は、累積度数Ｓ（ｋ，ｌ，ｉ）との間で次の関係がある。Ｉ_ｘ（ｋ，ｌ）＝ａｒｇｍｉｎ_Ｉ［Ｓ（ｋ，ｌ，Ｉ_ｍａｘ）・ｘ／１００−Ｓ（ｋ，ｌ，Ｉ）］その後、ステップＳ１０６に進む。
（ステップＳ１０６）定常雑音推定部１３３１は、推定階数Ｉ_ｘ（ｋ，ｌ）を対数レベルλ_ＨＲＬＥ（ｋ，ｌ）に換算する。ここで、λ_ＨＲＬＥ（ｋ，ｌ）＝Ｌ_ｍｉｎ＋Ｌ_ｓｔｅｐ・Ｉ_ｘ（ｋ，ｌ）である。そして、対数レベルλ_ＨＲＬＥ（ｋ，ｌ）を、線形領域に変換して定常雑音レベルλ_ＳＮＥ（ｋ，ｌ）を算出する。即ち、λ_ＳＮＥ（ｋ，ｌ）＝１０^{（λＳＮＥ（ｋ，ｌ）／２０）}である。その後、処理を終了する。

（特徴ベクトルを選択する処理）
次に、テンプレート推定部１３３２は、特徴ベクトルＦ’（ｌ）を選択する処理について説明する。
テンプレート推定部１３３２は、例えば、最近傍探索法（ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｓｅａｒｃｈａｌｇｏｒｉｔｈｍ）を用いて、特徴ベクトルＦ’（ｌ）を選択する。最近傍探索法では、入力された特徴ベクトルＦ（ｌ）と記憶されている特徴ベクトルＦ’（ｌ）との間の類似度を表す指標値として、ユークリッド距離（Ｅｕｃｌｉｄｅａｎｄｉｓｔａｎｃｅ）ｄ（Ｆ（ｌ），Ｆ’（ｌ））を算出する。ユークリッド距離ｄ（Ｆ（ｌ），Ｆ’（ｌ））は、式（３）で表される。

式（３）において、Ｆ_ｊ（ｌ）、Ｆ’_ｊ（ｌ）は、それぞれ特徴ベクトルＦ（ｌ）、Ｆ’（ｌ）の第ｊ番目の要素値を示す。テンプレート推定部１３３２は、ユークリッド距離ｄ（Ｆ（ｌ），Ｆ’（ｌ））が最小となる特徴ベクトルＦ’（ｌ）を選択し、選択した特徴ベクトルＦ’（ｌ）に対応する雑音スペクトルベクトル｜Ｎ’_ｎ（ｋ，ｌ）｜^２をテンプレート記憶部１３４から読み出す。テンプレート推定部１３３２は、読み出した雑音スペクトルベクトル｜Ｎ’_ｎ（ｋ，ｌ）｜^２を非定常成分のパワースペクトルλ_ＴＥ（ｋ，ｌ）として加算部１３３３へ出力する。

テンプレート推定部１３３２は、テンプレート記憶部１３４に記憶された特徴ベクトルＦ’（ｌ）を選択する際、例えば、ｋ近傍法（ｋ−ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒａｌｇｏｒｉｔｈｍ、ｋ−ＮＮ）を用いてもよい。ここで、テンプレート推定部１３３２は、入力された特徴ベクトルＦ（ｌ）と記憶された特徴ベクトルＦ’（ｌ）毎のユークリッド距離ｄ（Ｆ（ｌ），Ｆ’（ｌ））を算出する。テンプレート推定部１３３２は、ユークリッド距離ｄ（Ｆ（ｌ），Ｆ’（ｌ））が最小となる特徴ベクトルＦ’^１（ｌ）からＫ（Ｋは、１よりも大きい整数）番目に小さい特徴ベクトルＦ’^Ｋ（ｌ）まで選択する。テンプレート推定部１３３２は、選択されたＫ個の特徴ベクトルＦ’^１（ｌ）〜Ｆ’^Ｋ（ｌ）のパワースペクトルλ^１ _ＴＥ〜λ^Ｋ _ＴＥを算出し、式（４）に示すように算出したパワースペクトルλ^１ _ＴＥ〜λ^Ｋ _ＴＥの重み付き平均値λ’’_ＴＥ（ｋ，ｌ）を算出する。

式（４）において、ｗ^ｎは、ｎ番目のパワースペクトルλ^ｎ _ＴＥに対する重み係数である。重み係数ｗ^ｎは、式（５）で表される。

即ち、重み係数ｗ^ｎは、対応する特徴ベクトルＦ’^ｎ（ｌ）に係るユークリッド距離ｄ（Ｆ（ｌ），Ｆ’^ｎ（ｌ））の逆数を、その総和Σ_ｎ＝１ ^Ｋｗ^ｎが１となるように定められる。式（５）に示される重み係数ｗ^ｎを用いた重み付き平均を距離逆数重み付け平均（ＩｎｖｅｒｓｅＤｉｓｔａｎｃｅＷｅｉｇｈｔｅｄＡｖｅｒａｇｅ、ＩＤＷＡ）という。これにより、入力された特徴ベクトルＦ（ｌ）に近似する特徴ベクトルＦ’（ｌ）に係るパワースペクトルλ_ＴＥほど大きい重み係数が与えられる。
テンプレート推定部１３３２は、算出した重み付き平均値λ’’_ＴＥ（ｋ，ｌ）を非定常成分のパワースペクトルλ_ＴＥ（ｋ，ｌ）として加算部１３３３へ出力する。

（ＫＤ木）
次に、ＫＤ木について説明する。ＫＤ木とは、多次元のユークリッド空間にある点（この例では、特徴ベクトルＦ’（ｌ））を分類する空間分割データ構造である。ＫＤ木では、例えば、特徴ベクトルＦ’（ｌ）の次元毎の中央値が選択され、その中央値を通過しその次元の座標軸に垂直な平面を分割平面として定められている。即ち、ＫＤ木では、次のような再帰的な構造を有する。
（１）ある次元ｎにおける中央値（ｍｅｄｉａｎ）をとる特徴ベクトルＦ’（ｌ）を根ノード（ｒｏｏｔｎｏｄｅ、親ノード、ｐａｒｅｎｔｎｏｄｅとも呼ばれる）と定められている。その次元ｎにおいて中央値よりも大きい値をとる特徴ベクトルＦ’（ｌ）と、中央値よりも小さい値をとる特徴ベクトルＦ’（ｌ）がそれぞれ葉ノード（ｌｅａｆｎｏｄｅ、子ノードｃｈｉｌｄｎｏｄｅとも呼ばれる）として分類される。
（２）その次元ｎにおいて、中央値よりも大きい値をとる葉ノードの候補と、中央値よりも小さい値をとる葉ノードの候補それぞれについて、他の次元ｎ’（例えば、次元ｎ＋１）において中央値をとる特徴ベクトルＦ’（ｌ）を根ノードと定める。即ち、次元ｎ’について、それぞれ定められた根ノードが、次元ｎにおける根ノードに対する葉ノードとなる。
（３）葉ノードの候補がなくなるまで、処理対象の次元を変更して（１）、（２）が順次繰り返される。

従って、出発点である根ノード（例えば、第１次元）から末端の葉ノードまでの各ノードには、それぞれ１つの特徴ベクトルＦ’（ｌ）が対応付けられる。また、ある根ノードについては、原則として２個の葉ノードを有する。また、末端の葉ノードとは、自ノードに対する葉ノードを有しないノードである。
この対応関係を表す情報として、出発点である根ノード、次元ごとの根ノード並びに葉ノードにそれぞれ対応する特徴ベクトルＦ’（ｌ）を示すインデックスを示す構造情報が、ＫＤ木の構成要素を示す情報としてテンプレート記憶部１３４に記憶されている。

（二分探索法）
次に、テンプレート推定部１３３２は、二分探索法を用いて特徴ベクトルＦ’（ｌ）を探索する処理について説明する。
図３は、本実施形態に係る特徴ベクトルＦ’（ｌ）の探索処理を示すフローチャートである。
（ステップＳ２０１）テンプレート推定部１３３２は、予め定めた出発点である根ノードを設定する。その後、ステップＳ２０２に進む。
（ステップＳ２０２）テンプレート推定部１３３２は、根ノードの特徴ベクトルＦ’（ｌ）に係るユークリッド距離ｄ（Ｆ（ｌ），Ｆ’（ｌ））、（以下、単に距離と呼ぶ）を算出する。その後、ステップＳ２０３に進む。
（ステップＳ２０３）テンプレート推定部１３３２は、その根ノードに対する葉ノードそれぞれについて距離を算出する。その後、ステップＳ２０４に進む。
（ステップＳ２０４）テンプレート推定部１３３２は、距離が小さいほうの葉ノードを選択し、選択した葉ノードが末端の葉ノードであるか否か判断する。選択した葉ノードが末端の葉ノードである場合には（ステップＳ２０４ＹＥＳ）、ステップＳ２０６に進む。選択した葉ノードが末端の葉ノードでない場合には（ステップＳ２０４ＮＯ）、ステップＳ２０５に進む。

（ステップＳ２０５）テンプレート推定部１３３２は、選択した葉ノードを根ノードと定める。その後、ステップＳ２０２に進む。
（ステップＳ２０６）テンプレート推定部１３３２は、根ノードに対する距離が、その葉ノードに対する距離よりも大きいか否か判断する。これにより、他の葉ノードを探索対象から除外するか否かを判断する。葉ノードに対する距離のほうが大きいと判断された場合には（ステップＳ２０６ＹＥＳ）、テンプレート推定部１３３２は、その根ノードを葉ノードと定め、ステップＳ２０６を繰り返す。葉ノードに対する距離が根ノードに対する距離と等しいか又は小さいと判断された場合には（ステップＳ２０６ＮＯ）、ステップＳ２０７に進む。
（ステップＳ２０７）テンプレート推定部１３３２は、その根ノードに係る他方の葉ノードであって未処理の葉ノードの有無を判断する。かかる葉ノードがあると判断された場合には（ステップＳ２０７ＹＥＳ）、ステップＳ２０８に進む。かかる葉ノードがないと判断された場合には（ステップＳ２０７ＮＯ）、ステップＳ２０９に進む。
（ステップＳ２０８）テンプレート推定部１３３２は、その他方の葉ノードを、出発点である根ノードと定め、ステップＳ２０２に進む。
（ステップＳ２０９）テンプレート推定部１３３２は、算出した距離が最小となる特徴ベクトルＦ’（ｌ）を選択する。その後、処理を終了する。

（テンプレートを更新する処理）
次に、テンプレートを更新する処理について説明する。テンプレート更新部１３８３は、入力された動作信号が表す特徴ベクトルＦ（ｌ）に基づいて、テンプレート記憶部１３４に記憶されている特徴ベクトルＦ’（ｌ）を選択する。ここで、テンプレート更新部１３８３は、例えば、特徴ベクトルＦ（ｌ）とのユークリッド距離ｄ（Ｆ（ｌ），Ｆ’（ｌ））が最も小さい特徴ベクトルＦ’（ｌ）を、上述の探索方法を用いて選択する。以下では、選択した特徴ベクトルＦ’（ｌ）に係るユークリッド距離を最小距離ｄ_ｍｉｎ（Ｆ（ｌ），Ｆ’（ｌ））と呼ぶ。

テンプレート更新部１３８３は、最小距離ｄ_ｍｉｎ（Ｆ（ｌ），Ｆ’（ｌ））が予め定めた距離の閾値Ｔと等しいか、又は閾値Ｔよりも大きいか否かを判断する。最小距離ｄ_ｍｉｎ（Ｆ（ｌ），Ｆ’（ｌ））が閾値Ｔと等しいか、又は閾値Ｔよりも大きいと判断された場合、テンプレート更新部１３８３は、入力された動作信号が示す特徴ベクトルＦ（ｌ）と入力されたパワースペクトルλ_ＴＥ（ｋ，ｌ）の組を対応付け、新たなテンプレートを生成する。テンプレート更新部１３８３は、生成したテンプレートをテンプレート記憶部１３４に記憶する。

最小距離ｄ_ｍｉｎ（Ｆ（ｌ），Ｆ’（ｌ））が閾値Ｔよりも小さいと判断された場合、テンプレート更新部１３８３は、選択した特徴ベクトルＦ’（ｌ）に対応するパワースペクトルλ’_ＴＥ（ｋ，ｌ−１）をテンプレート記憶部１３４から読み出す。以下、読み出したパワースペクトルλ’_ＴＥ（ｋ，ｌ）を記憶されたパワースペクトルλ’_ＴＥ（ｋ，ｌ−１）と呼ぶことがある。テンプレート更新部１３８３は、式（６）に示すように記憶されたパワースペクトルλ’_ＴＥ（ｋ，ｌ−１）と入力されたパワースペクトルλ_ＴＥ（ｋ，ｌ）とを、それぞれ係数η、（１−η）で重み付け加算して更新パワースペクトルλ_ＴＥ（ｋ，ｌ）を算出する。これにより、適応性（ａｄａｐｔａｂｉｌｉｔｙ）、即ち、学習性能（ｌｅａｒｎｉｎｇｑｕａｌｉｔｙ）と安定性（ｓｔａｂｉｌｉｔｙ）、即ち、誤りへの耐性（ｒｏｂｕｓｔｎｅｓｓａｇａｉｎｓｔｅｒｒｏｒｓ）とのバランスをとることができる。

係数ηは、忘却係数（ｆｏｒｇｅｔｔｉｎｇｐａｒａｍｅｔｅｒ）と呼ばれる。係数ηは、０より大きく１より小さい実数、例えば、０．９である。テンプレート更新部１３８３は、適応性を重視する場合には、より小さい係数ηを用い、安定性を重視する場合には、より大きい係数ηを用いる。テンプレート更新部１３８３は、算出した更新パワースペクトルλ_ＴＥ（ｋ，ｌ）を、読み出したパワースペクトルλ’_ＴＥ（ｋ，ｌ−１）に係る特徴ベクトルＦ’（ｌ）と対応づけてテンプレート記憶部１３４に記憶する。

（テンプレート更新処理）
次に本実施形態に係るテンプレート更新処理について説明する。
図４は、本実施形態に係るテンプレート更新処理を示すフローチャートである。
（ステップＳ３０１）周波数領域変換部１３１は、収音部１１から入力された音響信号ｙ（ｔ）を、周波数領域で表された複素入力スペクトルＹ（ｋ，ｌ）に変換する。周波数領域変換部１３１は、変換した複素入力スペクトルＹ（ｋ，ｌ）をパワー算出部１３２及び減算部１３５に出力する。その後、ステップＳ３０２に進む。

（ステップＳ３０２）パワー算出部１３２は、周波数領域変換部１３１から入力された複素入力スペクトルＹ（ｋ，ｌ）のパワースペクトル｜Ｙ（ｋ，ｌ）｜^２を算出する。パワー算出部１３２は、算出したパワースペクトル｜Ｙ（ｋ，ｌ）｜^２を利得算出部１３５１及び定常雑音推定部１３３１に出力する。その後、ステップＳ３０３に進む。

（ステップＳ３０３）定常雑音推定部１３３１は、パワー算出部１３２から入力されたパワースペクトル｜Ｙ（ｋ，ｌ）｜^２に基づいて、例えばＨＲＬＥ法を用いて定常雑音レベルλ_ＳＮＥ（ｋ，ｌ）を算出する。定常雑音推定部１３３１は、算出した定常雑音レベルλ_ＳＮＥ（ｋ，ｌ）を加算部１３３３に出力する。その後、ステップＳ３０４に進む。

（ステップＳ３０４）音声判定部１３８１は、収音部１１から入力された音響信号ｙ（ｔ）に対して音声区間であるか否かを判定する。音声区間であると判定された場合（ステップＳ３０４ＹＥＳ）、音声判定部１３８１は、音声であることを示す音声判定信号を生成し、生成した音声判定信号を加算部１３３３及びパワー算出部１３８２に出力する。その後、ステップＳ３２０に進む。非音声区間であると判定された場合（ステップＳ３０４ＮＯ）、音声判定部１３８１は、非音声であることを示す音声判定信号を生成し、生成した音声判定信号を加算部１３３３及びパワー算出部１３８２に出力する。その後、ステップＳ３０５に進む。

（ステップＳ３０５）利得算出部１３５１は、パワー算出部１３２から入力されたパワースペクトル｜Ｙ（ｋ，ｌ）｜^２と加算部１３３３から入力された雑音パワースペクトルλ_ｔｏｔ（ｋ，ｌ）とに基づいて、利得Ｇ_ＳＳ（ｋ，ｌ）を、例えば式（２）を用いて算出する。
利得算出部１３５１は、算出した利得Ｇ_ＳＳ（ｋ，ｌ）をフィルタ部１３５２に出力する。その後、ステップＳ３０６に進む。

（ステップＳ３０６）フィルタ部１３５２は、周波数領域変換部１３１から入力された複素入力スペクトルＹ（ｋ，ｌ）に利得算出部１３５１から入力された利得Ｇ_ＳＳ（ｋ，ｌ）を乗算して推定目標スペクトルＸ’（ｋ，ｌ）を算出する。フィルタ部１３５２は、算出した推定目標スペクトルＸ’（ｋ，ｌ）を時間領域変換部１３６及びパワー算出部１３８２に出力する。その後、ステップＳ３０７に進む。

（ステップＳ３０７）パワー算出部１３８２には、音声判定部１３８１から非音声であることを示す音声判定信号が入力され、フィルタ部１３５２から推定目標スペクトルＸ’（ｋ，ｌ）が入力される。この場合、入力された推定目標スペクトルＸ’（ｋ，ｌ）は、雑音から定常雑音成分が除去された非定常成分Ｎ’_ｎ（ｋ，ｌ）である。パワー算出部１３８２は、非定常成分Ｎ’_ｎ（ｋ，ｌ）のパワースペクトル｜Ｎ’_ｎ（ｋ，ｌ）｜^２を算出し、算出したパワースペクトル｜Ｎ’_ｎ（ｋ，ｌ）｜^２をテンプレート更新部１３８３に出力する。その後、ステップＳ３０８に進む。

（ステップＳ３０８）テンプレート更新部１３８３には、動作検出部１２から動作信号が入力され、パワー算出部１３８２からパワースペクトル｜Ｎ’_ｎ（ｋ，ｌ）｜^２が非定常成分のパワースペクトルλ_ＴＥ（ｋ，ｌ）として入力される。テンプレート更新部１３８３は、入力された動作信号が表す特徴ベクトルＦ（ｌ）に基づいて、最小距離ｄ_ｍｉｎ（Ｆ（ｌ），Ｆ’（ｌ））を与える特徴ベクトルＦ（ｌ）を探索する。その後、ステップＳ３０９に進む。

（ステップＳ３０９）テンプレート更新部１３８３は、最小距離ｄ_ｍｉｎ（Ｆ（ｌ），Ｆ’（ｌ））が予め定めた距離の閾値Ｔと等しい、もしくは閾値Ｔよりも大きいか否かを判断する。最小距離ｄ_ｍｉｎ（Ｆ（ｌ），Ｆ’（ｌ））が閾値Ｔと等しい、又は閾値Ｔよりも大きいと判断された場合（ステップＳ３０９ＹＥＳ）、ステップＳ３１０に進む。最小距離ｄ_ｍｉｎ（Ｆ（ｌ），Ｆ’（ｌ））が閾値Ｔよりも小さいと判断された場合（ステップＳ３０９ＮＯ）、ステップＳ３１１に進む。
（ステップＳ３１０）テンプレート更新部１３８３は、入力された動作信号が示す特徴ベクトルＦ（ｌ）と入力されたパワースペクトルλ_ＴＥ（ｋ，ｌ）の組を対応付けたテンプレートをテンプレート記憶部１３４に記憶する（テンプレート追加）。その後、ステップＳ３１２に進む。
（ステップＳ３１１）テンプレート更新部１３８３は、選択した特徴ベクトルＦ’（ｌ）に対応するパワースペクトルλ’_ＴＥ（ｋ，ｌ−１）をテンプレート記憶部１３４から読み出す。テンプレート更新部１３８３は、例えば、式（６）を用いて読み出したパワースペクトルλ’_ＴＥ（ｋ，ｌ−１）と入力されたパワースペクトルλ_ＴＥ（ｋ，ｌ）とを、それぞれ係数η、（１−η）で重み付け加算して更新パワースペクトルλ_ＴＥ（ｋ，ｌ）を算出する。テンプレート更新部１３８３は、算出した更新パワースペクトルλ_ＴＥ（ｋ，ｌ）を、読み出したパワースペクトルλ’_ＴＥ（ｋ，ｌ−１）に係る特徴ベクトルＦ’（ｌ）と対応づけてテンプレート記憶部１３４に記憶する（テンプレート更新）。その後、ステップＳ３１２に進む。

（ステップＳ３１２）テンプレート再構成部１３９は、直近に特徴ベクトルＦ’（ｌ）のＫＤ木を再構成した時点からの経過時間ｔが予め定めた時間間隔τを経過したか否か判断する。時間間隔τを経過したと判断された場合（ステップＳ３１２ＹＥＳ）、ステップＳ３１３に進む。時間間隔τを経過していないと判断された場合（ステップＳ３１２ＮＯ）、処理を終了する。
（ステップＳ３１３）テンプレート再構成部１３９は、テンプレート記憶部１３４に記憶された特徴ベクトルＦ’（ｌ）のＫＤ木を再構成する。その後、処理を終了する。
（ステップＳ３２０）音響処理装置１は目標音響信号を生成し、その後、処理を終了する。

（目標音響信号生成処理）
次に、音響処理装置１が、目標音響信号を生成する処理（ステップＳ３２０）について述べる。
図５は、本実施形態に係る目標音響信号を生成する処理を示すフローチャートである。

（ステップＳ３２１）加算部１３３３には、音声判定部１３８１から音声であることを示す音声判定信号が入力され、定常雑音レベル（定常成分）λ_ＳＮＥ（ｋ，ｌ）と非定常成分のパワースペクトルλ_ＴＥ（ｋ，ｌ）を加算する。加算部１３３３は、加算して生成した雑音パワースペクトルλ_ｔｏｔ（ｋ，ｌ）を利得算出部１３５１に出力する。
なお、パワー算出部１３８２にも、音声判定部１３８１から音声であることを示す音声判定信号が入力され、パワースペクトル｜Ｎ’_ｎ（ｋ，ｌ）｜^２をテンプレート更新部１３８３に出力しない。従って、ステップＳ３０８−３１１の処理は行われない。
その後、ステップＳ３２２に進む。

（ステップＳ３２２）利得算出部１３５１は、パワー算出部１３２から入力されたパワースペクトル｜Ｙ（ｋ，ｌ）｜^２と加算部１３３３から入力された雑音パワースペクトルλ_ｔｏｔ（ｋ，ｌ）とに基づいて、例えば式（２）を用いて利得Ｇ_ＳＳ（ｋ，ｌ）を算出する。その後、ステップＳ３２３に進む。
（ステップＳ３２３）フィルタ部１３５２は、周波数領域変換部１３１から入力された複素入力スペクトルＹ（ｋ，ｌ）に利得算出部１３５１から入力された利得Ｇ_ＳＳ（ｋ，ｌ）を乗算して推定目標スペクトルＸ’（ｋ，ｌ）を算出する。これにより、パワースペクトル｜Ｙ（ｋ，ｌ）｜^２から雑音パワースペクトルλ_ｔｏｔ（ｋ，ｌ）を減算する。フィルタ部１３５２は、算出した推定目標スペクトルＸ’（ｋ，ｌ）を時間領域変換部１３６に出力する。その後、ステップＳ３２４に進む。

（ステップＳ３２４）時間領域変換部１３６は、フィルタ部１３５２から入力された推定目標スペクトルＸ’（ｋ，ｌ）を時間領域の目標音響信号ｘ’（ｔ）に変換し、変換した目標音響信号ｘ’（ｔ）を出力部１４に出力する。出力部１４は、時間領域変換部１３６から入力された目標音響信号ｘ’（ｔ）を音響処理装置１の外部に出力する。その後、処理を終了する。

以上に説明したように、本実施形態では、入力された音響信号が非音声であると判定された場合、入力された動作情報が示す特徴ベクトルと非定常雑音成分のパワースペクトルに基づいて、テンプレート記憶部１３４に記憶されたパワースペクトルを更新する。
これにより、テンプレート記憶部１３４に記憶されたパワースペクトルが雑音の非定常性に適応して更新され、更新されたパワースペクトルが非定常雑音の減算に用いられる。そして、本実施形態では、更新したパワースペクトルを用いることで非定常雑音が抑圧される。本実施形態では、初期状態においてテンプレート記憶部１３４に多数のテンプレートを記憶させず、例えばモータや可動部が経年変化することにより雑音の特性が変動した場合でも、雑音を効果的に抑圧することができる。

（第２の実施形態）
次に本発明の第２の実施形態について、上述の実施形態と同一構成又は処理と同一の符号を付して説明する。
図６は、本実施形態に係る音響処理装置２の構成を示す概略図である。
音響処理装置２は、収音部１１、動作検出部１２、周波数領域変換部１３１、パワー算出部１３２、雑音推定部２３３、テンプレート記憶部１３４、減算部１３５、時間領域変換部１３６、テンプレート生成部２３８、及び出力部１４を含んで構成される。即ち、音響処理装置２は音響処理装置１（図１）の雑音推定部１３３及びテンプレート生成部１３８の代わりに、それぞれ雑音推定部２３３及びテンプレート生成部２３８を備える。
雑音推定部２３３は、定常雑音推定部１３３１、テンプレート推定部２３３２及び加算部１３３３を含んで構成される。即ち、雑音推定部２３３は、雑音推定部１３３のテンプレート推定部１３３２（図１）の代わりにテンプレート推定部２３３２を備える。
テンプレート生成部２３８は、音声判定部１３８１、パワー算出部１３８２及びテンプレート更新部２３８３を含んで構成される。即ち、テンプレート生成部２３８は、テンプレート生成部１３８（図１）のテンプレート更新部１３８３の代わりにテンプレート更新部２３８３を備える。

テンプレート推定部２３３２及びテンプレート更新部２３８３は、テンプレート推定部１３３２及びテンプレート更新部１３８３と同様な構成を備え、同様な処理を行う。
但し、テンプレート更新部２３８３は、さらに、テンプレート記憶部１３４に記憶されているテンプレートのうち、予め定めた時間ｔ’以上、使用されていないテンプレートを削除する。使用されたテンプレートとは、テンプレート推定部２３３２が、入力された特徴ベクトルＦ（ｌ）とのユークリッド距離ｄ（Ｆ（ｌ），Ｆ’（ｌ））が最小の特徴ベクトルＦ’（ｌ）に係るテンプレートである。テンプレート推定部２３３２において上述のＫ−ＮＮ法が採用されている場合には、そのユークリッド距離ｄ（Ｆ（ｌ），Ｆ’（ｌ））が第１番目から第Ｋ番目に小さい特徴ベクトルＦ’（ｌ）に係るテンプレートである。

そこで、テンプレート更新部２３８３は、追加又は更新したテンプレートをテンプレート記憶部１３４に記憶する際、その時刻を示す時刻情報を、そのテンプレートと対応付けて記憶する。
他方、テンプレート推定部２３３２は、上述のユークリッド距離ｄ（Ｆ（ｌ），Ｆ’（ｌ））が最小の特徴ベクトルＦ’（ｌ）を定めたとき、その時刻を示す時刻情報を生成する。テンプレート推定部２３３２は、その特徴ベクトルＦ’（ｌ）に係るテンプレートと対応付けてテンプレート記憶部１３４に記憶された時刻情報を、生成した時刻情報に更新する。上述のＫ−ＮＮ法が採用されている場合には、テンプレート推定部２３３２が、上述のユークリッド距離ｄ（Ｆ（ｌ），Ｆ’（ｌ））が第１番目から第Ｋ番目に小さい特徴ベクトルＦ’（ｌ）にかかるテンプレート対応した時刻情報を、生成した時刻情報に更新する。
テンプレート更新部２３８３は、テンプレート記憶部１３４に記憶された時刻情報が示す時刻から現時刻までの経過時間が所定時間ｔ’よりも大きい経過時間に対応するテンプレートを、予め定めた時間間隔（例えば、フレーム間隔）で探索する。テンプレート更新部２３８３は、かかるテンプレートが発見されたとき、発見されたテンプレートをテンプレート記憶部１３４から消去する。

次に本実施形態に係るテンプレート更新処理について説明する。
図７は、本実施形態に係るテンプレート更新処理を示すフローチャートである。
本実施形態に係るテンプレート更新処理は、ステップＳ３０１−Ｓ３１１の後で、ステップＳ４１４−Ｓ４１６を実行し、その後、ステップＳ３１２、Ｓ３１３を実行する。
（ステップＳ４１４）テンプレート更新部２３８３は、追加又は更新したテンプレートと対応付けて、その追加又は更新の時刻を示す時刻情報をそのテンプレートに対応付けてテンプレート記憶部１３４に記憶する。その後、ステップＳ４１５に進む。
（ステップＳ４１５）テンプレート更新部２３８３は、テンプレート記憶部１３４に記憶された時刻情報が示す時刻から現時刻までの経過時間が所定時間ｔ’よりも大きい経過時間に対応するテンプレートの有無を判断する。このようなテンプレートがあると判断されたとき（ステップＳ４１５ＹＥＳ）、ステップＳ４１６に進む。このようなテンプレートがないと判断されたとき（ステップＳ４１５ＮＯ）、ステップＳ３１２に進む。
（ステップＳ４１６）テンプレート更新部２３８３は、所定時間ｔ’よりも大きい経過時間に対応するテンプレートをテンプレート記憶部１３４から消去する。その後、ステップＳ３１２に進む。

なお、記憶部に記憶されている音響特徴量のうち、予め定めた時間よりも使用されていない時間が長い音響特徴量を削除する場合を例にとって説明したが、本実施形態ではこれには限られない。本実施形態では、記憶部に記憶されている音響特徴量のうち、予め定めた回数、例えば、使用された回数が少ない音響特徴量を削除するようにしてもよい。
以上に説明したように、本実施形態では、記憶部に記憶されている音響特徴量のうち、使用頻度が予め定めた頻度よりも、使用されていない音響特徴量を削除する。これにより、雑音の抑圧性能を劣化させることなく探索対象となる音響特徴量の数を減らし、音響特徴量の探索に係る処理量を低減することができる。

次に、第１の実施形態に係る音響処理装置１（図１）を動作させて行った実験例について説明する。実験は、次の条件で行った。収音部１１として、人型ロボット（ｈｕｍａｎｏｉｄｒｏｂｏｔ）の頭部の外周に装着されたマイクロホンを１個用いた。動作検出部１２は、人型ロボットの腕（４自由度［ｄｅｇｒｅｅｏｆｆｒｅｅｄｏｍ］）及び頭部（２自由度）の動作を検出する。腕、頭部を、予め定めた軌道に沿って動作させる。収音部１１は、これらの動作に伴って生じる自己雑音を収録する。
その他、音響信号のサンプリング周波数は１６ｋＨｚ、フレームシフトは１０ｍｓである。ユークリッド距離の閾値Ｔは、０．０００１、ＫＤ木の更新間隔τは５０ｍｓ、忘却係数ηは０．９である。

実験に先立ち、ロボットの動作に係る動作音（ｍｏｔｏｒｎｏｉｓｅ）と、その動作信号を用いて１回につき２００秒間学習させた。学習において、その動作信号に基づく特徴ベクトルと動作音に基づくパワースペクトルとの組からなるテンプレートを生成し、テンプレート記憶部１３４に生成したテンプレートを記憶させた。学習は、最大２０回繰り替した。

ここで、本実施形態における学習性能について説明する。性能の指標値として推定誤差とテンプレートの数を、実験に先立って行った学習時に観測した。
図８は、推定誤差の一例を示す図である。
図８において、横軸は繰り返し回数、縦軸は推定誤差を示す。実線は、本実施形態、破線は従来技術（テンプレート推定法、ＴｅｍｐｌａｔｅＥｓｔｉｍａｔｉｏｎ，ＴＥ）を示す。縦軸の推定誤差は、正規化雑音推定誤差（ＮｏｒｍａｌｉｚｅｄＮｏｉｓｅＥｓｔｉｍａｔｉｏｎＥｒｒｏｒ、ＮＮＥＥ）である。ＮＮＥＥは、式（７）で示される指標値ε（ｌ）を予め定めたフレーム数Ｌの区間内で平均した値ε’である。

式（７）において、｜Ｎ（ｋ，ｌ）｜^２は、現実の雑音のパワースペクトルを示す。｜Ｎ’（ｋ，ｌ）｜^２は、本実施形態又は従来技術によって推定した雑音のパワースペクトルを示す。即ち、ＮＮＥＥは、雑音のパワースペクトルの推定誤差を、そのパワースペクトルで正規化した値である。ＮＮＥＥが小さいほど学習性能が優れることを示す。

図８によれば、本実施形態では、従来技術よりもＮＮＥＥが１．７ｄＢ低い。本実施形態では、繰り返し回数１から２０にかけて、ＮＮＥＥは、−６．１ｄＢから−６．９ｄＢに単調に低下する。これに対して、従来技術では、ＮＮＥＥは、−４．７ｄＢから−５．１ｄＢに低下するが、必ずしも単調ではない。図７は、本実施形態のほう従来技術よりも学習性能が優れることを示す。

図９は、テンプレートの数の一例を示す図である。
図９において、横軸は繰り返し回数、縦軸はテンプレートの数を示す。実線は、本実施形態、破線は従来技術（テンプレート推定法、ＴｅｍｐｌａｔｅＥｓｔｉｍａｔｉｏｎ，ＴＥ）を示す。図９において、テンプレートの数とは、各技術において雑音の推定に用いるために記憶されたテンプレートの数である。本実施形態では、テンプレート記憶部１３４に記憶されたテンプレートの数である。
本実施形態では、繰り返し回数１から２０にかけて２００個から８００個に増加するが、従来技術では２００個から８，０００個に増加する。繰り返し回数の２０回に注目すると、本実施形態では、テンプレートの数は、従来技術の１／１０である。本実施形態では周囲の環境に応じてテンプレートが更新されるため、テンプレートが必要以上に増加することが抑制され、テンプレートの探索に係る処理が低減する。

次に、動作例として雑音のスペクトログラムについて、原信号、定常雑音、従来技術を用いて推定した雑音、本実施形態を用いて推定した雑音、各々について説明する。
図１０は、原信号のスペクトログラムを示す図である。
図１０において、横軸は時刻を示し、縦軸は周波数を示す。各周波数、各時刻におけるパワーを、濃淡で示す。明るい部分ほどパワーが大きいことを示す。図１０において、時刻０−２秒における「ｓｔａｔｉｏｎａｒｙｎｏｉｓｅ」は、この区間において定常雑音が提示されていることを示す。時刻２−４秒における「Ｎｏｎ−ｓｔａｔｉｏｎａｒｙ＋ＳｔａｔｉｏｎａｒｙＮｏｉｓｅ」は、この区間において非定常雑音と定常雑音がともに提示されていることを示す。時刻４−６秒における「Ｎｏｉｓｅ＋Ｓｐｅｅｃｈ」は、この区間において非定常雑音、定常雑音と音声がともに提示されていることを示す。

図１１は、定常雑音のスペクトログラムの一例を示す図である。
図１１において、横軸、縦軸の関係、濃淡の関係は図１０と同様である。図１１に示す定常雑音は、ＨＲＬＥ法を用いて推定した定常雑音である。図１１によれば、ＨＲＬＥ法を用いて推定した定常雑音は、図１０に示す定常雑音又はこの定常雑音による成分を近似できるが、非定常雑音をほとんど推定できないことを示す。

図１２は、推定した雑音のスペクトログラムの一例を示す図である。
図１２において、横軸、縦軸の関係、濃淡の関係は図１０と同様である。図１２に示す雑音は、従来技術を用いて推定した雑音を示す。図１２と図１０を比較すると、定常雑音のみの区間（０−２秒）、定常雑音と非定常雑音が提示されている区間（２−４秒）のスペクトログラムは互いに近似する。しかし、図１２の時刻４．６秒の周波数５−６ｋＨｚにみられるように、音声の成分が主である部分のパワーが周囲よりも大きい。これは、従来技術では、音声が主であるにも関わらず雑音が誤検出されることを示す。

図１３は、推定した雑音のスペクトログラムの他の例を示す図である。
図１３において、横軸、縦軸の関係、濃淡の関係は図１０と同様である。図１３に示す雑音は、本実施形態を用いて推定した雑音を示す。図１３と図１２を比較すると、各区間ともに図１３は図１２よりも全体的に滑らかである。つまり、本実施形態のほうが、安定して雑音を推定できることを示す。特に、時刻４．６秒の周波数５−６ｋＨｚにおいて周囲よりもパワーが大きくなる現象が、図１３では表れていない。これは本実施形態のほうが従来技術よりも音声による影響が少ないことを示す。

次に、実験方法及びその条件について説明する。
実験は、内径が縦４．０ｍ、横７．０ｍ、高さ３．０ｍで、残響時間（ｒｅｖｅｒｂｅｒａｔｉｏｎｔｉｍｅ）ＲＴ_２０が０．２秒の室内で行われた。実験において、動作音と動作信号のセット（計３セット、各１００秒）を用いた。動作音が発生している際に、参加者に２３６個の単語のいずれかを発声させた。本実験では、動作音と人間の音声の他に、背景雑音（ＢａｃｋｇｒａｏｕｎｄＮｏｉｓｅ、ＢＧＮ）を生成した。以下の説明では、次の条件（１）−（４）について実験した結果について述べる。条件（１）では、背景雑音のエネルギーを一定とし、音声のＳ／Ｎ比（ｓｉｇｎａｌ−ｔｏ−ｎｏｉｓｅｒａｔｉｏ、ＳＮＲ）は３ｄＢである。条件（２）では、背景雑音のエネルギーを一定とし、音声のＳ／Ｎ比（ｓｉｇｎａｌ−ｔｏ−ｎｏｉｓｅｒａｔｉｏ、ＳＮＲ）は−３ｄＢである。条件（３）、（４）では、条件（２）に対して、更に時間経過によって振幅が変動するガウシアン白色雑音（Ｇａｕｓｓｉａｎｗｈｉｔｅｎｏｉｓｅ）を追加した。このガウシアン白色雑音は、非定常な背景雑音を模する音源である。条件（３）、（４）における音声のＳ／Ｎ比の平均値は、それぞれ、−３．１ｄＢ、−３．２ｄＢである。

以下では、実験結果を示す指標値として、ＮＮＥＥの他、対数スペクトル歪（Ｌｏｇ−ＳｐｅｃｔｒａｌＤｉｓｔｏｒｔｉｏｎ，ＬＳＤ）、区間ＳＮＲ（ＳｅｇｍｅｎｔａｌＳＮＲ）、単語認識率（ＷｏｒｄＣｏｒｒｅｃｔＲａｔｅ，ＷＣＲ）を用いた。

ＬＳＤは、式（８）に示すように推定した音響信号のパワースペクトル｜Ｘ’（ｋ，ｌ）｜についての全周波数帯域にわたる推定誤差をフレーム数Ｌ内で平均した値である。

式（８）において、Ｌｍ｛…｝は、ｍａｘ（２０ｌｏｇ_１０｜Ｘ（ｋ，ｌ）｜，δ）、δ＝ｍａｘ_ｋ，ｌ｛２０ｌｏｇ_１０｜Ｘ（ｋ，ｌ）｜｝−５０である。即ち、Ｌｍ｛…｝は、…のダイナミックレンジを２０ｌｏｇ_１０｜Ｘ（ｋ，ｌ）｜の最大値から、その最大値から５０ｄＢだけ小さい値の間に制限する関数である。従って、ＬＳＤが小さいほど、良好なことを表す。

区間ＳＮＲとは、式（９）に示すように、原音響信号の推定誤差に対する比をフレーム数Ｌ内で平均した値である。以下の説明では、単にＳＮＲと呼ぶ。従って、ＳＮＲが大きいほど、良好なことを表す。

ＷＣＲは、推定した目標音響信号ｘ’（ｔ）に対して音声認識装置を用いて認識された単語の正解率である。認識対象の単語数は２３６であり、発話者は４名の男性と４名の女性である。本実験で用いた音声認識装置は、音響モデルである隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，ＨＭＭ）と単語辞書を備える。本音声認識装置には、日本語新聞記事読み上げ音声コーパス（ＪａｐａｎｅｓｅＮｅｗｓｐａｐｅｒＡｒｔｉｃｌｅＳｅｎｔｅｎｃｅｓ［ＪＮＡＳ］ｃｏｒｐｕｓ）を用いて事前学習を行った。ＪＮＡＳコーパスは、３０６名の話者による６０時間の音声データを含む。従って、認識対象の単語、話者ともに不特定である。なお、音声認識装置で音響信号から抽出する音響特徴量は、１３個の静的メル尺度対数スペクトル（Ｍｅｌ−ＳｃａｌｅＬｏｇＳｐｅｃｔｒｕｍ，ＭＳＬＳ）と１３個のデルタＭＳＬＳと１個のデルタパワーである。従って、ＷＣＲが高いほど、良好なことを表す。

図１４は、実験結果の一例を示す表である。
図１４において各行は、指標値としてＮＮＥＥ、ＬＳＤ、ＳＮＲ、ＷＣＲを用いたことを示す。各列は、条件（１）、条件（２）それぞれについて、評価対象の信号を示す。最左列から右側に順に、未処理の入力信号（未処理）、ＨＲＬＥによって推定した定常雑音を除去した音響信号（ＨＲＬＥ）、従来のテンプレート推定法を用いて推定した音響信号（ＴＥ）、本実施形態により推定した音響信号（本実施形態）を示す。太字で示した数値は、評価対象の信号の中で最も推定精度が優れることを示す信号に係る数値である。
条件（１）では、各指標値ともに本実施形態が最も良好なことを示す。条件（２）では、ＮＮＥＥ、ＬＳＤ、ＷＣＲについては、本実施形態が最も良好であるが、ＳＮＲについては、ＴＥに次いで良好である。但し、ＴＥについてのＳＮＲは５．４９ｄＢであるのに対し、本実施形態についてのＳＮＲは５．２４ｄＢであり、両者の間の差は、０．２５ｄＢに過ぎない。

図１５は、実験結果の他の例を示す表である。
図１５において各行は、指標値としてＬＳＤ、ＳＮＲ、ＷＣＲを用いたことを示す。各列は、条件（３）、条件（４）それぞれについて、評価対象の信号を示す。最左列から右側に順に、未処理、ＨＲＬＥ、ＴＥ、本実施形態を示す。太字で示した数値は、評価対象の信号の中で最も推定精度が優れることを示す信号に係る数値である。
条件（３）、（４）ともに、各指標値ともに本実施形態が最も良好なことを示す。従って、本実施形態では、他の方法よりも雑音の変動に対して頑強であることを示す。

上述では、音声判定部１３８１が入力された音響信号ｙ（ｔ）に対して非音声区間と判断した場合（ステップＳ３０４Ｎ）、目標音響信号ｘ’（ｔ）を生成する処理（ステップＳ３２０）を行う場合を例にとって説明したが、本実施形態ではこれには限られない。本実施形態では、音声判定部１３８１が入力された音響信号ｙ（ｔ）に対して非音声区間と判断するか否に関わらず、目標音響信号ｘ’（ｔ）を生成する処理（ステップＳ３２０）を行うようにしてもよい。

上述では、動作検出部１２が、音響処理装置１、２を組み込んでいる機器として、例えばロボットの動作信号を生成する場合を例にとって説明したが、上述した実施形態では、これには限られない。動作検出部１２は、音響処理装置１による音響信号の処理中に動作し、動作音を周囲に放射する機器であればよい。そのような機器は、例えば、エンジン、ＤＶＤプレイヤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＰｌａｙｅｒ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等を搭載する車両等であってもよい。即ち、音響処理装置１は、動作の制御対象であって、かつ、その動作によって生じる音を直接取得することができない機器に組み込まれるようにしてもよい。

動作検出部１２は、かかる機器に対する動作の開始、停止、その態様の変更等の指示を示す指示信号（指示データ、例えば、コマンド等）が当該機器から入力されるようにしてもよい。その場合、動作検出部１２は、入力された指示信号が当該機器に自己雑音を発生させる指示を表す指示信号（自己雑音指示信号）か否かを判断する。動作検出部１２は、入力された指示信号が自己雑音指示信号であると判断した場合に、上述の動作信号をテンプレート推定部１３３２、２３３２及びテンプレート更新部１３８３、２３８３に出力する。

ここで、動作検出部１２は、例えば、予め自部が備える記憶部に自己雑音指示信号を記憶させておく。動作検出部１２は、入力された指示信号と一致する自己雑音指示信号が記憶部にある場合、入力された指示信号が自己雑音指示信号であると判断する。動作検出部１２は、入力された指示信号と一致する自己雑音指示信号がない場合に入力された指示信号が自己雑音指示信号であると判断する。自己雑音指示信号は、例えば、当該機器がロボットである場合には、その一部の構成を動作させるためのモータの回転を指示する指示信号や、そのモータを冷却するためのファンの動作を指示する指示信号が該当する。つまり、モータの回転やファンの動作に伴って発生する動作音が自己雑音として扱われる。自己雑音指示信号は、例えば、当該機器が車両である場合には、エンジンの回転や加速を指示する指示信号が該当する。つまり、エンジンの回転や車両の走行に伴って生じる動作音や風切音が自己雑音として扱われる。

これにより、テンプレート更新部１３８３、２３８３は、入力された指示信号が自己雑音指示信号であると判断された場合に、上述のテンプレートを更新する処理を行う。つまり、テンプレート更新部１３８３、２３８３は、上述の動作信号に基づくデータと自己雑音に基づく音響特徴量を含むテンプレートを生成し、生成したテンプレートをテンプレート記憶部１３４に記憶する。テンプレート推定部１３３２、２３３２は、このように生成されたテンプレートを探索の対象となるため、自己雑音による成分の音響特徴量を推定する。よって、音響処理装置１、２は、推定された自己雑音による成分の音響特徴量を入力された音響信号の音響特徴量から除去する。

なお、上述した実施形態における音響処理装置１、２の一部、例えば、周波数領域変換部１３１、パワー算出部１３２、雑音推定部１３３、２３３、減算部１３５、利得算出部１３５１、フィルタ部１３５２、時間領域変換部１３６、テンプレート生成部１３８、２３８、テンプレート再構成部１３９、をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、音響処理装置１、２に内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における音響処理装置１、２の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現しても良い。音響処理装置１、２の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１、２…音響処理装置、１１…収音部、１２…動作検出部、１３１…周波数領域変換部、１３２…パワー算出部、１３３、２３３…雑音推定部、１３３１…定常雑音推定部、
１３３２、２３３２…テンプレート推定部、１３３３…加算部、
１３４…テンプレート記憶部、１３５…減算部、１３５１…利得算出部、
１３５２…フィルタ部、
１３６…時間領域変換部、１３８、２３８…テンプレート生成部、１３８１…音声判定部、１３８２…パワー算出部、１３８３、２３８３…テンプレート更新部、
１３９…テンプレート再構成部、１４…出力部

Claims

自装置を組み込むロボットの駆動部の動作を検出する動作検出部と、
入力された音響信号の音響特徴量に基づいて定常雑音成分の音響特徴量を推定する定常雑音推定部と、
前記音響信号の音響特徴量から、前記定常雑音推定部が推定した前記定常雑音成分の音響特徴量に基づいて前記定常雑音成分を除去した非定常成分の音響特徴量を算出する音響特徴量処理部と、
前記音響信号が音声であるか音声以外の非音声であるかを判定する音声判定部と、
前記音声判定部が非音声であると判定するとき、前記動作を表す動作データと前記非定常成分の音響特徴量とを記憶部に対応付けて記憶する更新部と、
前記音声判定部が音声であると判定するとき、前記記憶部から前記動作データに対応する非定常成分の音響特徴量を取得する推定部と、
前記定常雑音成分の音響特徴量と前記非定常成分の音響特徴量とを加算した雑音成分の音響特徴量を、前記音響信号の音響特徴量から減算して目標音響信号の音響特徴量を算出する減算部と、
を備えることを特徴とする音響処理装置。
前記更新部は、前記動作検出部が検出した動作を示す動作データに対応する非定常成分の音響特徴量を前記記憶部から選択し、前記選択した非定常成分の音響特徴量を、前記推定部が取得した非定常成分の音響特徴量と重み付け加算した値に更新することを特徴とする請求項１に記載の音響処理装置。
前記更新部は、前記動作検出部が検出した動作を示す動作データとの類似度が、前記記憶部に記憶された動作データのいずれに対しても、予め定めた類似度よりも類似していないことを示す場合、前記動作検出部が検出した動作を示す動作データと前記推定部が推定した非定常成分の音響特徴量を対応付けて前記記憶部に記憶することを特徴とする請求項１又は２に記載の音響処理装置。
前記動作データは、前記駆動部の動作状態を示すパラメータを複数個含む特徴ベクトルを示すことを特徴とし、
前記記憶部に記憶される複数の動作データが示す特徴ベクトル間の関係としてＫＤ木を表す構造情報を構成する構成部を備え、
前記推定部は、前記構造情報を参照して前記動作データが表す特徴ベクトルとの距離に基づいて二分探索を行って前記記憶部から所定の個数の特徴ベクトルを選択することを特徴とする請求項１から請求項３のいずれか一項に記載の音響処理装置。
音響処理装置における音響処理方法であって、
自装置を組み込むロボットの駆動部の動作を検出する動作検出過程と、
入力された音響信号の音響特徴量に基づいて定常雑音成分の音響特徴量を推定する定常雑音推定過程と、
前記音響信号の音響特徴量から、前記定常雑音推定過程において推定された前記定常雑音成分の音響特徴量に基づいて前記定常雑音成分を除去した非定常成分の音響特徴量を算出する音響特徴量処理過程と、
前記音響信号が音声であるか音声以外の非音声であるかを判定する音声判定過程と、
前記音声判定過程において非音声であると判定されるとき、前記動作を表す動作データと前記非定常成分の音響特徴量とを記憶部に対応付けて記憶する更新過程と、
前記音声判定過程において音声であると判定されるとき、前記記憶部から前記動作データに対応する非定常成分の音響特徴量を取得する推定過程と、
前記定常雑音成分の音響特徴量と前記非定常成分の音響特徴量とを加算した雑音成分の音響特徴量を、前記音響信号の音響特徴量から減算して目標音響信号の音響特徴量を算出する減算過程と、
を有することを特徴とする音響処理方法。
音響処理装置のコンピュータに、
自装置を組み込むロボットの駆動部の動作を検出する動作検出手順、
入力された音響信号の音響特徴量に基づいて定常雑音成分の音響特徴量を推定する定常雑音推定手順、
前記音響信号の音響特徴量から、前記定常雑音推定手順において推定された前記定常雑音成分の音響特徴量に基づいて前記定常雑音成分を除去した非定常成分の音響特徴量を算出する音響特徴量処理手順、
前記音響信号が音声であるか音声以外の非音声であるかを判定する音声判定過程と、
前記音声判定過程において非音声であると判定されるとき、前記動作を表す動作データと前記非定常成分の音響特徴量とを記憶部に対応付けて記憶する更新手順、
前記音声判定過程において音声であると判定されるとき、前記記憶部から前記動作データに対応する非定常成分の音響特徴量を取得する推定手順、
前記定常雑音成分の音響特徴量と前記非定常成分の音響特徴量とを加算した雑音成分の音響特徴量を、前記音響信号の音響特徴量から減算して目標音響信号の音響特徴量を算出する減算手順、
を実行させるための音響処理プログラム。