JP2009251134A

JP2009251134A - 音声／非音声を判定する装置、方法およびプログラム

Info

Publication number: JP2009251134A
Application number: JP2008096715A
Authority: JP
Inventors: Koichi Yamamoto; 幸一山本; Masami Akamine; 政巳赤嶺
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-04-03
Filing date: 2008-04-03
Publication date: 2009-10-29
Anticipated expiration: 2028-04-03
Also published as: US8380500B2; JP4950930B2; US20090254341A1

Abstract

【課題】非定常雑音に対しても音声／非音声の判定精度を向上する音声判定装置を提供する。
【解決手段】フレームごとに音響信号を周波数分析してスペクトルを算出するスペクトル算出部１０３と、雑音スペクトルを推定する雑音推定部１０４と、雑音信号のエネルギーに対する音響信号のエネルギーの相対的な大きさを表すエネルギー特徴量を算出するＳＮＲ算出部１０５と、正規化スペクトルエントロピーを算出するエントロピー算出部１０６と、複数フレームに対して算出されたエネルギー特徴量および正規化スペクトルエントロピーに基づいて特徴ベクトルを作成する特徴ベクトル作成部１０７と、所定の識別モデルに基づいて特徴ベクトルに対応するフレームの音声尤度を算出する尤度算出部１０９と、音声尤度が閾値より大きい場合にフレームが音声フレームであると判定する判定部１１０とを備えた。
【選択図】図１

Description

この発明は、音響信号が音声であるか非音声であるかを判定する装置、方法およびプログラムに関する。

音響信号の音声／非音声判別処理では、入力した音響信号（入力信号）の各フレームから特徴量を抽出し、得られた特徴量を閾値処理することで当該フレームの音声／非音声を判別する。非特許文献１では、音声／非音声判別処理で用いる音響特徴量としてスペクトルエントロピーが提案されている。この特徴量は、入力信号から計算したスペクトルを確率分布とみなして計算されるエントロピーである。スペクトルエントロピーは、スペクトル分布が不均一な音声スペクトルに対しては小さな値をとり、スペクトル分布が均一な雑音スペクトルに対しては大きな値をとる。スペクトルエントロピーを用いた方法では、この性質を利用してフレーム毎の音声／非音声を判別している。

また、非特許文献２では、スペクトルエントロピーの性能を改良するための正規化手法が提案されている。非特許文献２では、推定した雑音スペクトルを用いて入力スペクトルを正規化している。具体的には、非特許文献２の正規化処理では、雑音区間におけるスペクトルエントロピーが大きくなるように入力信号のスペクトルを背景雑音のスペクトルで除算している。これにより、雑音区間のスペクトルが白色化され、低域にエネルギーが集中する自動車走行雑音のような不均一な背景雑音に対してもスペクトルエントロピーを大きくすることができる。正規化スペクトルエントロピーは、自動車走行雑音等の定常雑音に対して高い性能を示すことが確認されている。

J.L. Shen, J.Hung and L.S.Lee, "Robust entropy based end point detection for speech recognition in noise," in Proc. ICSLP-98, 1998. P. Renevey and A. Drygajlo, "Entropy Based Voice Activity Detection in Very Noisy Conditions," in Proc EUROSPEECH 2001, pp.1887-1890, September 2001.

しかしながら、上述した正規化スペクトルエントロピーでは、スペクトルが非定常に変化するバブルノイズ（Babble Noise）等に対しては十分な正規化を行うことができず、結果として雑音区間における正規化スペクトルエントロピーが音声信号と同様に低い値になるという問題があった。この問題により、正規化スペクトルエントロピーのみでは非定常雑音に対して十分な性能を発揮することはできなかった。

本発明は、上記に鑑みてなされたものであって、非定常雑音に対しても音声／非音声の判定の精度を向上することができる装置、方法およびプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、雑音信号を含む音響信号を取得する取得部と、取得された前記音響信号を予め定められた時間間隔を表すフレーム単位に分割する分割部と、フレームごとに前記音響信号を周波数分析して前記音響信号のスペクトルを算出するスペクトル算出部と、算出された前記スペクトルに基づいて前記雑音信号のスペクトルを表す雑音スペクトルを推定する推定部と、前記雑音信号のエネルギーに対する前記音響信号のエネルギーの相対的な大きさを表すエネルギー特徴量をフレームごとに算出するエネルギー算出部と、前記音響信号のスペクトルについての分布の特徴を表すスペクトルエントロピーを、推定された前記雑音スペクトルによって正規化した正規化スペクトルエントロピーを算出するエントロピー算出部と、フレームに予め定められた個数の前後のフレームを加えた複数のフレームのそれぞれに対して算出された前記エネルギー特徴量と、前記複数のフレームのそれぞれに対して算出された前記正規化スペクトルエントロピーとに基づいて、前記音響信号の特徴を表す特徴ベクトルをフレームごとに作成する作成部と、音声を含む音響信号のフレームである音声フレームに対応する前記特徴ベクトルを予め学習した識別モデルと、作成された前記特徴ベクトルとに基づいて、前記音響信号のフレームが前記音声フレームであることの確からしさを表す音声尤度を算出する尤度算出部と、前記音声尤度と予め定められた第１閾値とを比較し、前記音声尤度が前記第１閾値より大きい場合に、前記音響信号のフレームが前記音声フレームであると判定する判定部と、を備えたことを特徴とする。

また、本発明は、上記装置を実行することができる方法およびプログラムである。

本発明によれば、非定常雑音に対しても音声／非音声の判定の精度を向上することができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる装置、方法およびプログラムの最良な実施の形態を詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。

（第１の実施の形態）
第１の実施の形態にかかる音声判定装置は、非特許文献１で提案されている正規化スペクトルエントロピーに対して、入力信号と背景雑音の雑音信号（以下、単に背景雑音という）との相対的な大きさを表すエネルギー特徴量を組み合わせた特徴量を、音声／非音声の判別に利用する。さらに、第１の実施の形態にかかる音声判定装置は、スペクトルの時間変化情報を利用するために、複数フレームから抽出した特徴量を利用する。

なお、非特許文献１の正規化スペクトルエントロピーは、入力信号のスペクトル形状に依存した特徴量である。一方、第１の実施の形態で利用する特徴量であるエネルギー特徴量は、入力信号と背景雑音の相対的な大きさを表している。このため、両特徴量が有する情報は補完関係にあると考えられる。また、バブルノイズは、複数人の音声信号が重畳された雑音であることから、フレーム単位のスペクトル情報のみでは十分な判別性能を発揮することができないものと考えられる。そこで、第１の実施の形態では、複数フレームから抽出したスペクトルの動的変化情報を利用することで性能向上を図っている。

なお、L.-S. Huang, C.-H. Yang, "A Novel Approach to Robust Speech Endpoint Detection in Car Environments," in Proc. ICASSP 2000, vol.3, pp.1751-1754, June 2000.（以下、文献Ａという）では、スペクトルエントロピーと、エネルギーを乗算することにより得られた特徴量とを用いて音声の始終端を検出することが提案されている。しかし、この文献Ａでは、正規化スペクトルエントロピーを用いていないため、スペクトル分布が不均一な雑音区間における性能を十分に発揮することはできないと考えられる。また、本発明のように複数フレームの情報を利用しておらず、スペクトルの動的変化情報を利用することによる性能向上を期待できない。さらに、文献Ａで利用されるエネルギーは、背景雑音との相対的な大きさを考慮しておらず、信号を取り込む際のマイクゲインの調整により特徴量の出力が変動するという問題がある。

一方、第１の実施の形態では、背景雑音と入力信号との相対的な大きさを表す値をエネルギー特徴量として用いており、特徴量の値がマイクゲインにより変化することがない。マイクゲインに対する非依存性は、マイクゲインを十分に調整することができない実環境で重要な特性の一つといえる。また、この特性は、第１の実施の形態のようにＧＭＭ（Gaussian Mixture Model）等の識別器を用いて音声尤度を計算する際に、学習データの振幅レベルの影響を受けずに音声／非音声モデルを作成することができる点でも重要である。

図１は、第１の実施の形態にかかる音声判定装置１００の構成を示すブロック図である。図１に示すように、音声判定装置１００は、音響信号取得部１０１と、フレーム分割部１０２と、スペクトル算出部１０３と、雑音推定部１０４と、ＳＮＲ算出部１０５と、エントロピー算出部１０６と、特徴ベクトル作成部１０７と、線形変換部１０８と、尤度算出部１０９と、判定部１１０とを備えている。

音響信号取得部１０１は、雑音信号を含む音響信号を取得する。具体的には、音響信号取得部１０１は、所定のサンプリング周波数（例えば１６ｋＨｚ）でマイク等（図示せず）から入力したアナログ信号をデジタル信号に変換することによって、音響信号を取得する。

フレーム分割部１０２は、音響信号取得部１０１から出力されるデジタル信号（音響信号）を予め定められた時間間隔のフレームに分割する。フレーム長は２０〜３０ｍｓｅｃ、分割するフレームのシフト幅は８〜１２ｍｓｅｃ程度が好ましい。このとき、フレーム化処理を行う窓関数としてハミング窓を用いることができる。

スペクトル算出部１０３は、フレームごとに音響信号を周波数分析してスペクトルを算出する。例えば、スペクトル算出部１０３は、分割された各フレームに含まれる音響信号から離散フーリエ変換によりパワースペクトルを算出する。なお、スペクトル算出部１０３が、パワースペクトルの代わりに振幅スペクトルを算出するように構成してもよい。

雑音推定部１０４は、スペクトル算出部１０３で得られたパワースペクトルから背景雑音のパワースペクトル（雑音スペクトル）を推定する。雑音推定部１０４は、例えば音響信号の取り込み開始から１００〜２００ｍｓｅｃ程度の区間を雑音と仮定し、初期雑音を推定する。その後、雑音推定部１０４は、エネルギー特徴量であるＳＮＲ（後述）に応じて、初期雑音を逐次更新することによって以降のフレームでの雑音を推定する。

音響信号取り込み開始から１０フレームを初期雑音推定に使う場合、初期雑音は以下の（１）式で計算することができる。また、１１番目以降のフレームでは（２）式により雑音スペクトルを逐次更新することができる。

ここで、ＳＮＲ（ｔ）はｔ番目のフレームにおけるＳＮＲ、ＴＨ_ｓｎｒは雑音更新を制御するためのＳＮＲの閾値、μは更新速度を制御する忘却係数を表す。このように、雑音スペクトルを逐次更新することにより、非定常雑音環境下でもＳＮＲおよび正規化スペクトルエントロピーの精度を向上させることができる。

ＳＮＲ算出部１０５は、雑音信号のエネルギーに対する入力信号のエネルギーの相対的な大きさを表すエネルギー特徴量としてＳＮＲを算出する。ＳＮＲは、入力信号および背景雑音のパワースペクトルから以下の（３）式により算出することができる。

ＳＮＲは、入力信号と背景雑音の相対的な大きさを表しており、音声フレームにおけるエネルギーは雑音フレームにおけるエネルギーよりも大きくなること（ＳＮＲ＞０）を前提とした特徴量である。また、エネルギーの相対的な大きさを表しているため、パワースペクトルの形状に着目する正規化スペクトルエントロピーには含まれない情報を有している。さらに、ＳＮＲは、信号を取り込む際のマイクゲインに依存しない利点を持つため、マイクゲインを予め調整することが難しい環境でも頑健な特徴量である。

なお、ＳＮＲは、以下の（４）式〜（７）式によって算出することもできる。

ここで、Ｅ_{ｎｏｉｓｅ}は背景雑音のエネルギー、Ｅ_ｉｎ（ｔ）はｔ番目のフレームにおける入力信号のエネルギー、ｕ（ｉ）はｉ番目の時間信号のサンプル値、ｉｎｉｔｉａｌは背景雑音を計算するためのサンプル数、ｆｒａｍｅＬｅｎｇｔｈはフレーム幅のサンプル数、ｓｈｉｆｔＬｅｎｇｔｈはシフト幅のサンプル数を表す。

（４）式でＳＮＲを算出する方法では、音響信号の取り込み開始後のｉｎｉｔｉａｌサンプルを雑音区間であると仮定して背景雑音のエネルギーＥ_{ｎｏｉｓｅ}を計算している。その後、Ｅ_{ｎｏｉｓｅ}と、入力信号の各フレームから計算したエネルギーＥ_ｉｎ（ｔ）と比較することでＳＮＲを抽出している。なお、ｉｎｉｔｉａｌサンプル数は２００ｍｓ程度に設定することが好ましい（１６ｋＨｚサンプリングで３２００サンプル）。

エントロピー算出部１０６は、背景雑音と入力信号のパワースペクトルから、以下の（８）式〜（１０）式によって正規化スペクトルエントロピーを計算する。

なお、以下の（１１）式および（１２）式で算出される、非特許文献１で提案されているスペクトルエントロピーを背景雑音のパワースペクトルで正規化した値が、上記正規化スペクトルエントロピーに相当する。

正規化スペクトルエントロピーは、入力信号から得られたパワースペクトルを確率分布とみなして算出されたエントロピーを表す。正規化スペクトルエントロピーは、パワースペクトル分布が不均一な音声信号に対しては小さな値をとり、パワースペクトル分布が均一な雑音信号に対しては大きな値をとる。また、背景雑音を利用した雑音スペクトルが白色化されることにより、不均一な分布を持つ背景雑音に対しても音声／非音声判別の性能を維持することができる。なお、正規化スペクトルエントロピーもＳＮＲと同様にマイクゲインに非依存な特徴量である。

特徴ベクトル作成部１０７は、複数フレームに対して算出されたＳＮＲおよび正規化スペクトルエントロピーを用いて特徴ベクトルを作成する。特徴ベクトル作成部１０７は、まず、以下の（１３）式によって、各フレームそれぞれに対して算出されたＳＮＲおよび正規化スペクトルエントロピーを含む単一フレーム特徴量を作成する。そして、特徴ベクトル作成部１０７は、以下の（１４）式のように、ｔ番目のフレームにおける特徴ベクトルｘ(t)を、前後の所定数のフレームに対する単一フレーム特徴量を結合することによって作成する。

ここで、ｚ(t)は、ｔ番目のフレームにおけるＳＮＲと正規化スペクトルエントロピーを含む単一フレーム特徴量を表す。また、Ｚは、結合する前後のフレーム数を表しており、３〜５程度に設定しておくことが望ましい。特徴ベクトルｘ（ｔ）は、複数フレームの特徴量を結合したベクトルであり、スペクトルの時間変化情報を含んでいる。そのため、単一フレームから抽出した特徴量と比較して音声／非音声判別にとってより有効な情報を有している。

特徴ベクトル作成部１０７段で作成されたｋ次元の特徴ベクトルｘ（ｔ）は、複数フレームの情報を利用した特徴量であり、単一フレーム特徴量と比較して一般に高次元の特徴ベクトルになる。

線形変換部１０８は、演算量の削減を目的として、特徴ベクトル作成部１０７で得られたｋ次元特徴ベクトルｘ（ｔ）を、予め定められた変換行列Ｐによって線形変換する。例えば、線形変換部１０８は、以下の（１５）式によって、ｊ次元（ｊ＜ｋ）の特徴ベクトルｙ（ｔ）に変換する。

ここで、Ｐはｊ×ｋの変換行列を表している。変換行列Ｐの値は、分布の最良近似を目的とした主成分分析やＫＬ展開などの手法を用いて予め学習することが可能である。なお、線形変換部１０８は、ｋ＝ｊである変換行列、すなわち、次元を変更しない変換行列を用いて特徴ベクトルを線形変換するように構成してもよい。次元削除を目的としない場合であっても、線形変換を施すことにより、特徴ベクトルの各要素の無相関化や、識別にとって有利な特徴空間の選択することができる。

なお、線形変換部１０８を備えず、特徴ベクトル作成部１０７によって作成された特徴ベクトルを、後述する尤度算出で利用するように構成してもよい。

尤度算出部１０９は、線形変換部１０８で得られたｊ次元の特徴ベクトルｙ（ｔ）と、音声および非音声を識別するための識別モデルとを用いて、音声尤度ＬＲを算出する。尤度算出部１０９は、音声および非音声の識別モデルとしてＧＭＭを用い、以下の（１６）式によって音声尤度ＬＲを算出する。

ここで、ｇ（｜ｓｐｅｅｃｈ）は音声ＧＭＭ、ｇ（｜ｎｏｎｓｐｅｅｃｈ）は非音声ＧＭＭの対数尤度を表している。各ＧＭＭは、予めＥＭアルゴリズム（Expectation-Maximization algorithm)を用いた最大尤度基準により学習することが可能である。なお、特開２００７−１１４４１３で提案されているように、射影行列ＰおよびＧＭＭのパラメータを識別的に学習することもできる。

判定部１１０は、尤度算出部１０９で得られた音声らしさを表す評価値ＬＲを基に、以下の（１７）式により、各フレームが音声を含む音声フレームであるか、音声を含まない非音声フレームであるかを判別する。

こで、θは音声らしさの閾値を表しており、例えば、θ＝０のように音声／非音声にとって最適な値を予め選択しておく。

次に、このように構成された第１の実施の形態にかかる音声判定装置１００による音声判定処理について図２を用いて説明する。図２は、第１の実施の形態における音声判定処理の全体の流れを示すフローチャートである。

まず、音響信号取得部１０１は、マイク等から入力したアナログ信号をデジタル信号に変換した音響信号を取得する（ステップＳ２０１）。次に、フレーム分割部１０２が、取得された音響信号を、所定長のフレーム単位に分割する（ステップＳ２０２）。

次に、スペクトル算出部１０３が、フレームごとに、各フレームに含まれる音響信号から離散フーリエ変換によりパワースペクトルを算出する（ステップＳ２０３）。次に、雑音推定部１０４が、上記（１）式または（２）式によって、算出されたパワースペクトルから背景雑音のパワースペクトル（雑音スペクトル）を推定する（ステップＳ２０４）。

次に、ＳＮＲ算出部１０５が、上記（３）式によって、音響信号のパワースペクトルおよび雑音スペクトルからＳＮＲを算出する（ステップＳ２０５）。また、エントロピー算出部１０６が、上記（８）式〜（１０）式によって、雑音スペクトルとパワースペクトルとから正規化スペクトルエントロピーを算出する（ステップＳ２０６）。

次に、特徴ベクトル作成部１０７が、複数フレームに対して算出されたＳＮＲおよび正規化スペクトルエントロピーを含む特徴ベクトルを作成する（ステップＳ２０７）。具体的には、特徴ベクトル作成部１０７は、上記（１３）式によって各フレームに対して算出される単一フレーム特徴量を、音声／非音声の判別対象となるｔ番目のフレームの前後Ｚフレーム分結合した、上記（１４）式で示すような特徴ベクトルを作成する。次に、線形変換部１０８が、上記（１５）式によって、特徴ベクトルを線形変換する（ステップＳ２０８）。

次に、尤度算出部１０９が、ＧＭＭを識別モデルとし、上記（１６）式により、線形変換した特徴ベクトルから音声尤度ＬＲを算出する（ステップＳ２０９）。そして、判定部１１０が、算出された音声尤度ＬＲが、所定の閾値θより大きいか否かを判断する（ステップＳ２１０）。

音声尤度ＬＲが閾値θより大きい場合（ステップＳ２１０：ＹＥＳ）、判定部１１０は、算出した特徴ベクトルに対応するフレームが音声フレームであると判定する（ステップＳ２１１）。音声尤度ＬＲが閾値θより大きくない場合（ステップＳ２１０：ＮＯ）、判定部１１０は、算出した特徴ベクトルに対応するフレームが非音声フレームであると判定する（ステップＳ２１２）。

次に、第１の実施の形態による音声／非音声判別性能について説明する。第１の実施の形態の方法により、５ｄＢのバブルノイズに対してフレーム単位の音声／非音声判別を行った際のＥＥＲ（Equal Error Rate）は１６．２４％であった。なお、正規化スペクトルエントロピーのみを用いる従来の手法では、同じ条件で音声／非音声判別を行った際のＥＥＲは８．２２％であって。この結果から、第１の実施の形態の方法を用いることにより、正規化スペクトルエントロピーのみを音響特徴量として利用する方法と比較して、バブルノイズなどの非定常雑音に対する音声／非音声判別性能が向上することが確認できる。

このように、第１の実施の形態にかかる音声判定装置では、入力信号のスペクトル形状に依存した特徴量である正規化スペクトルエントロピーと、この正規化スペクトルエントロピーと補完関係にあるエネルギー特徴量とを組み合わせて作成した特徴ベクトルを音声／非音声の判別に利用することができる。このため、非定常雑音に対しても音声／非音声の判定の精度を向上することができる

また、エネルギー特徴量は、入力信号と背景雑音の相対的な大きさを表した値であり、マイクゲインに依存しない。このため、マイクゲインを十分に調整することができない実環境における音声／非音声判別性能の向上を図ることができる。また、学習データの振幅レベルの影響を受けずに、ＧＭＭなどによる音声／非音声モデルを作成することができる。

また、第１の実施の形態では、単一フレームではなく、複数フレームから得られた情報を利用して特徴ベクトルを作成している。これにより、スペクトルの動的変化情報を利用した高性能な音声／非音声判別処理を実現することができる。

（第２の実施の形態）
第２の実施の形態にかかる音声判定装置は、スペクトルの動的特徴量であるデルタ特徴量を算出し、デルタ特徴量を含む特徴ベクトルを作成して音声／非音声判別に利用する。

図３は、第２の実施の形態にかかる音声判定装置３００の構成を示すブロック図である。図３に示すように、音声判定装置３００は、音響信号取得部１０１と、フレーム分割部１０２と、スペクトル算出部１０３と、雑音推定部１０４と、ＳＮＲ算出部１０５と、エントロピー算出部１０６と、特徴ベクトル作成部３０７と、尤度算出部３０９と、判定部３１０とを備えている。

第２の実施の形態では、線形変換部１０８を削除したことと、特徴ベクトル作成部３０７、尤度算出部３０９、および判定部３１０の機能とが第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる音声判定装置１００の構成を表すブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

特徴ベクトル作成部３０７は、ｔ番目のフレームにおける前後ＷフレームのＳＮＲおよび正規化スペクトルエントロピーから、スペクトルの動的特徴量であるデルタ特徴量を計算し、静的特徴量であるｔ番目のフレームのＳＮＲおよび正規化スペクトルエントロピーと結合した４次元の特徴ベクトルｘ（ｔ）を作成する。

具体的には、特徴ベクトル作成部３０７は、以下の（１８）式および（１９）式によって、それぞれＳＮＲのデルタ特徴量であるΔ_ｓｎｒ（ｔ）および正規化スペクトルエントロピーのデルタ特徴量であるΔ_{ｅｎｔｒｏｐｙ’}（ｔ）を算出する。

なお、Ｗはデルタ特徴量を算出する際のフレームの窓幅を表している。Ｗは３〜５フレーム程度が好ましい。

次に、特徴ベクトル作成部３０７は、以下の（２０）式により、ｔ番目のフレームの静的特徴量であるＳＮＲ（ｔ）およびｅｎｔｒｏｐｙ’（ｔ）と、算出した動的特徴量であるΔ_ｓｎｒ（ｔ）およびΔ_{ｅｎｔｒｏｐｙ’}（ｔ）とを結合した特徴ベクトルｘ（ｔ）を作成する。

この特徴ベクトルｘ（ｔ）は、静的特徴量および動的特徴量を結合させたベクトルであり、スペクトルの時間変化情報を利用した特徴量である。そのため、単一フレームから抽出した特徴量と比較した場合、音声／非音声判別にとってより有効な情報を含んでいる。

尤度算出部３０９は、ＧＭＭの代わりにＳＶＭ（Support Vector Machine）を用いて音声尤度を算出する点が、第１の実施の形態と異なっている。なお、第１の実施の形態と同様に、ＧＭＭを用いて音声尤度を算出するように構成してもよい。

ＳＶＭは、２クラスの判別を行う識別器であり、分離超平面と学習データのマージンを最大化するように識別境界を構成するものである。Dong Enqing, Liu Guizhong, Zhou Yatong, and Zhang Xiaodi, "Applying support vector machines to voice activity detection," in Proc. ICSP 2002.（以下、文献Ｂという）では、音声区間検出の識別器としてＳＶＭを用いている。尤度算出部３０９は、文献Ｂと同様の方法により音声／非音声の判別のためにＳＶＭを利用する。

判定部３１０は、ＳＶＭからの出力を音声尤度として、上記（１７）式によって音声／非音声を判別する。

次に、このように構成された第２の実施の形態にかかる音声判定装置３００による音声判定処理について図４を用いて説明する。図４は、第２の実施の形態における音声判定処理の全体の流れを示すフローチャートである。

ステップＳ４０１からステップＳ４０６までの、音響信号取得処理、フレーム分割処理、スペクトル算出処理、雑音推定処理、ＳＮＲ算出処理、およびエントロピー算出処理は、第１の実施の形態にかかる音声判定装置１００におけるステップＳ２０１からステップＳ２０６までと同様の処理なので、その説明を省略する。

ＳＮＲおよび正規化スペクトルエントロピーが算出された後、特徴ベクトル作成部３０７は、上記（１８）式および（１９）式によって、前後のＷフレームのＳＮＲおよび正規化スペクトルエントロピーからＳＮＲのデルタ特徴量および正規化スペクトルエントロピーのデルタ特徴量を算出する（ステップＳ４０７）。さらに、特徴ベクトル作成部３０７は、上記（２０）式によって、ｔ番目のフレームのＳＮＲおよび正規化スペクトルエントロピーと、算出した２つのデルタ特徴量を含む特徴ベクトルを作成する（ステップＳ４０８）。

次に、尤度算出部３０９が、ＳＶＭを識別モデルとし、作成した特徴ベクトルから音声尤度を算出する（ステップＳ４０９）。そして、判定部３１０が、算出された音声尤度が、所定の閾値θより大きいか否かを判断する（ステップＳ４１０）。

音声尤度が閾値θより大きい場合（ステップＳ４１０：ＹＥＳ）、判定部３１０は、算出した特徴ベクトルに対応するフレームが音声フレームであると判定する（ステップＳ４１１）。音声尤度が閾値θより大きくない場合（ステップＳ４１０：ＮＯ）、判定部３１０は、算出した特徴ベクトルに対応するフレームが非音声フレームであると判定する（ステップＳ４１２）。

このように、第２の実施の形態にかかる音声判定装置では、判別対象となるフレームを中心とした所定窓幅における動的特徴量と当該判別対象フレームの静的特徴量を結合させて特徴ベクトルを作成し、音声／非音声判別に利用することができる。これにより、静的特徴量のみを用いる方法と比較して、より高性能な音声／非音声判別処理を実現することができる。

次に、第１または第２の実施の形態にかかる音声判定装置のハードウェア構成について図５を用いて説明する。図５は、第１または第２の実施の形態にかかる音声判定装置のハードウェア構成を示す説明図である。

第１または第２の実施の形態にかかる音声判定装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ（Random Access Memory）５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、ＨＤＤ（Hard Disk Drive）、ＣＤ（Compact Disc）ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス６１を備えており、通常のコンピュータを利用したハードウェア構成となっている。

第１または第２の実施の形態にかかる音声判定装置で実行される音声判定プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、第１または第２の実施の形態にかかる音声判定装置で実行される音声判定プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１または第２の実施の形態にかかる音声判定装置で実行される音声判定プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

また、第１または第２の実施の形態の音声判定プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

第１または第２の実施の形態にかかる音声判定装置で実行される音声判定プログラムは、上述した各部（音響信号取得部、フレーム分割部、スペクトル算出部、雑音推定部、ＳＮＲ算出部、エントロピー算出部、特徴ベクトル作成部、線形変換部、尤度算出部、判定部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ５１（プロセッサ）が上記記憶媒体から音声判定プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。

以上のように、本発明にかかる装置、方法およびプログラムは、非定常雑音下の音響信号が音声であるか非音声であるかを判定する装置、方法およびプログラムに適している。

第１の実施の形態にかかる音声判定装置の構成を示すブロック図である。第１の実施の形態における音声判定処理の全体の流れを示すフローチャートである。第２の実施の形態にかかる音声判定装置の構成を示すブロック図である。第２の実施の形態における音声判定処理の全体の流れを示すフローチャートである。第１または第２の実施の形態にかかる音声判定装置のハードウェア構成を示す説明図である。

符号の説明

５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４通信Ｉ／Ｆ
６１バス
１００音声判定装置
１０１音響信号取得部
１０２フレーム分割部
１０３スペクトル算出部
１０４雑音推定部
１０５ＳＮＲ算出部
１０６エントロピー算出部
１０７特徴ベクトル作成部
１０８線形変換部
１０９尤度算出部
１１０判定部
３００音声判定装置
３０７特徴ベクトル作成部
３０９尤度算出部
３１０判定部

Claims

雑音信号を含む音響信号を取得する取得部と、
取得された前記音響信号を予め定められた時間間隔を表すフレーム単位に分割する分割部と、
フレームごとに前記音響信号を周波数分析して前記音響信号のスペクトルを算出するスペクトル算出部と、
算出された前記スペクトルに基づいて前記雑音信号のスペクトルを表す雑音スペクトルを推定する推定部と、
前記雑音信号のエネルギーに対する前記音響信号のエネルギーの相対的な大きさを表すエネルギー特徴量をフレームごとに算出するエネルギー算出部と、
前記音響信号のスペクトルについての分布の特徴を表すスペクトルエントロピーを、推定された前記雑音スペクトルによって正規化した正規化スペクトルエントロピーを算出するエントロピー算出部と、
フレームに予め定められた個数の前後のフレームを加えた複数のフレームのそれぞれに対して算出された前記エネルギー特徴量と、前記複数のフレームのそれぞれに対して算出された前記正規化スペクトルエントロピーとに基づいて、前記音響信号の特徴を表す特徴ベクトルをフレームごとに作成する作成部と、
音声を含む音響信号のフレームである音声フレームに対応する前記特徴ベクトルを予め学習した識別モデルと、作成された前記特徴ベクトルとに基づいて、前記音響信号のフレームが前記音声フレームであることの確からしさを表す音声尤度を算出する尤度算出部と、
前記音声尤度と予め定められた第１閾値とを比較し、前記音声尤度が前記第１閾値より大きい場合に、前記音響信号のフレームが前記音声フレームであると判定する判定部と、
を備えたことを特徴とする音声判定装置。
前記エネルギー算出部は、推定された前記雑音スペクトルに対する前記スペクトルの相対的な大きさを表す前記エネルギー特徴量をフレームごとに算出すること、
を特徴とする請求項１に記載の音声判定装置。
前記作成部は、前記複数のフレームのそれぞれに対して算出された前記エネルギー特徴量と、前記複数のフレームのそれぞれに対して算出された前記正規化スペクトルエントロピーとを要素として含む前記特徴ベクトルをフレームごとに作成すること、
を特徴とする請求項１に記載の音声判定装置。
前記作成部は、フレームの前記エネルギー特徴量と、フレームの前記正規化スペクトルエントロピーと、前記複数のフレームでの前記エネルギー特徴量の変化の特徴を表す動的特徴量と、前記複数のフレームでの前記正規化スペクトルエントロピーの変化の特徴を表す動的特徴量と、を要素として含む前記特徴ベクトルをフレームごとに作成すること、
を特徴とする請求項１に記載の音声判定装置。
前記推定部は、算出された前記エネルギー特徴量と予め定められた第２閾値とを比較し、算出された前記エネルギー特徴量が前記第２閾値より小さい場合に、算出された前記スペクトルと推定された前記雑音スペクトルとを予め定められた重み付け係数で重み付け加算した値を、前記エネルギー特徴量を算出した前記フレームの次のフレームの雑音スペクトルとして推定すること、
を特徴とする請求項１に記載の音声判定装置。
作成された前記特徴ベクトルを予め定められた変換行列によって変換する変換部をさらに備え、
前記尤度算出部は、前記識別モデルと変換された前記特徴ベクトルとに基づいて、前記音響信号のフレームの前記音声尤度を算出すること、
を特徴とする請求項１に記載の音声判定装置。
前記変換部は、前記特徴ベクトルより低次元のベクトルに変換する前記変換行列によって、作成された前記特徴ベクトルを変換すること、
を特徴とする請求項６に記載の音声判定装置。
前記変換部は、前記特徴ベクトルと同次元のベクトルに変換する前記変換行列によって、作成された前記特徴ベクトルを変換すること、
を特徴とする請求項６に記載の音声判定装置。
取得部が、雑音信号を含む音響信号を取得する取得ステップと、
分割部が、取得された前記音響信号を予め定められた時間間隔を表すフレーム単位に分割する分割ステップと、
スペクトル算出部が、フレームごとに前記音響信号を周波数分析して前記音響信号のスペクトルを算出するスペクトル算出ステップと、
推定部が、算出された前記スペクトルに基づいて前記雑音信号のスペクトルを表す雑音スペクトルを推定する推定ステップと、
エネルギー算出部が、前記雑音信号のエネルギーに対する前記音響信号のエネルギーの相対的な大きさを表すエネルギー特徴量をフレームごとに算出するエネルギー算出ステップと、
エントロピー算出部が、前記音響信号のスペクトルについての分布の特徴を表すスペクトルエントロピーを、推定された前記雑音スペクトルによって正規化した正規化スペクトルエントロピーを算出するエントロピー算出ステップと、
作成部が、フレームに予め定められた個数の前後のフレームを加えた複数のフレームのそれぞれに対して算出された前記エネルギー特徴量と、前記複数のフレームのそれぞれに対して算出された前記正規化スペクトルエントロピーとに基づいて、前記音響信号の特徴を表す特徴ベクトルをフレームごとに作成する作成ステップと、
尤度算出部が、音声を含む音響信号のフレームである音声フレームに対応する前記特徴ベクトルを予め学習した識別モデルと、作成された前記特徴ベクトルとに基づいて、前記音響信号のフレームが前記音声フレームであることの確からしさを表す音声尤度を算出する尤度算出ステップと、
判定部が、前記音声尤度と予め定められた第１閾値とを比較し、前記音声尤度が前記第１閾値より大きい場合に、前記音響信号のフレームが前記音声フレームであると判定する判定ステップと、
を備えたことを特徴とする音声判定方法。
コンピュータを、
雑音信号を含む音響信号を取得する取得部と、
取得された前記音響信号を予め定められた時間間隔を表すフレーム単位に分割する分割部と、
フレームごとに前記音響信号を周波数分析して前記音響信号のスペクトルを算出するスペクトル算出部と、
算出された前記スペクトルに基づいて前記雑音信号のスペクトルを表す雑音スペクトルを推定する推定部と、
前記雑音信号のエネルギーに対する前記音響信号のエネルギーの相対的な大きさを表すエネルギー特徴量をフレームごとに算出するエネルギー算出部と、
前記音響信号のスペクトルについての分布の特徴を表すスペクトルエントロピーを、推定された前記雑音スペクトルによって正規化した正規化スペクトルエントロピーを算出するエントロピー算出部と、
フレームに予め定められた個数の前後のフレームを加えた複数のフレームのそれぞれに対して算出された前記エネルギー特徴量と、前記複数のフレームのそれぞれに対して算出された前記正規化スペクトルエントロピーとに基づいて、前記音響信号の特徴を表す特徴ベクトルをフレームごとに作成する作成部と、
音声を含む音響信号のフレームである音声フレームに対応する前記特徴ベクトルを予め学習した識別モデルと、作成された前記特徴ベクトルとに基づいて、前記音響信号のフレームが前記音声フレームであることの確からしさを表す音声尤度を算出する尤度算出部と、
前記音声尤度と予め定められた第１閾値とを比較し、前記音声尤度が前記第１閾値より大きい場合に、前記音響信号のフレームが前記音声フレームであると判定する判定部と、
として機能させる音声判定プログラム。