JP2008158035A

JP2008158035A - 多音源有音区間判定装置、方法、プログラム及びその記録媒体

Info

Publication number: JP2008158035A
Application number: JP2006344045A
Authority: JP
Inventors: Hiroshi Sawada; 宏澤田; Akiko Araki; 章子荒木; Kazuhiro Otsuka; 和弘大塚; Masakiyo Fujimoto; 雅清藤本; Kentaro Ishizuka; 健太郎石塚
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-12-21
Filing date: 2006-12-21
Publication date: 2008-07-10
Anticipated expiration: 2026-12-21
Also published as: JP4746533B2

Abstract

【課題】複数のマイクロホンによって収音された同一音響区間内における多話者の発話信号から、各話者の発話区間を判定するための技術を提供する。
【解決手段】ノイズパワー推定部２が、複数のマイクロホンによってそれぞれ入力され周波数領域に変換された時間周波数ごとの各観測信号から、マイクロホンと周波数の組み合せごとに、無音区間におけるノイズパワーを推定する。観測信号分類部３が、上記推定されたノイズパワーと、上記各観測信号とを用いて、上記各観測信号を成分とする時間周波数ごとの観測信号ベクトルを、音源ごとに分類し、その分類結果を出力する。信号分離部４が、上記分類結果を用いて、上記各観測信号を、音源ごとの信号に分離する。有音区間判定部５が、上記分離された音源ごとの信号から、各音源の有音区間又は無音区間を判定する。
【選択図】図１

Description

本発明は、信号処理の技術分野に属し、特に、複数のマイクロホンで複数の音源から発生した音を収音した状況において、各音源の有音区間を判定する技術に関する。

有音区間を検出するための従来の技術として、単一のマイクロホンを用いて、一人の話者の発話区間を検出するものが数多く知られている。以下に、発話区間検出技術の例を説明する。
ｘ（ｔ）をマイクロホンでの時間領域の観測信号とする。ｔは時間である。この時間領域の観測信号に対して、短時間フーリエ変換を施し、時間周波数表現で表した周波数領域の観測信号ｘ（ｆ，ｔ）を得る。ｆは周波数である。本背景技術では、例えば最初の何秒間は誰も喋っていない等の仮定をして、周波数ごとにノイズパワーの推定値λ（ｆ）を得る。そして、周波数領域の観測信号ｘ（ｆ，ｔ）と、ノイズパワーの推定値λ（ｆ）とを用いて、時間周波数ごとに事後Ｓ／Ｎ比

を計算する。そして、以下の式に従って、ある種の非線形変換を施した後、考慮するすべての周波数での平均値を計算する。

ここで、Ｆは考慮する周波数の集合であり、｜Ｆ｜は、集合Ｆの要素の数である。このように計算したＧ（ｔ）が閾値ηより大きければ、時間ｔでのフレームは発話区間である、そうでなければ非発話区間であると判定する。なお、ここでの非線形変換は、観測信号ｘ（ｆ，ｔ）をノイズと発話に分類して、それぞれを分散の異なるガウス分布でモデル化した際の尤度比から導出されるものである（例えば、非特許文献１参照。）。
Jangseo Sohn，Nam Soo Kim，and Wonyong Sung，"A Statical Model-Based Voice Activity Detection"，IEEE Singal Processing Letters，Jan.1999.，Vol.6，No.1，pp.1-3

同一音響区間内に、話者が複数人居て、それぞれの話者の近くにマイクロホンが設置されているような状況で、上記した背景技術を用いる場合を考える。例えば、図５に示すように、話者Ｐ１〜話者Ｐ４の４人の話者が、互いに１ｍ〜３ｍ程度離れた状況で向き合っており、それぞれの話者Ｐ１〜Ｐ４の胸元にピンマイクＰ１’〜Ｐ４’がそれぞれ装着されているとする。図５は、実験の条件を表す図である。このような状況において、各話者Ｐ１〜Ｐ４による発話を、それぞれのピンマイクＰ１’〜Ｐ４’で、２０秒間収音することにより得た時系列の観測信号を、１／３０秒の時間長のフレームで区切り、各フレームごとの観測信号を短時間逆フーリエ変換することにより得た周波数領域の信号のスペクトルを、図６に示す。

図６（ａ）はピンマイクＰ１’で収音された観測信号についてのスペクトル、図６（ｂ）はピンマイクＰ２’で収音された観測信号についてのスペクトル、図６（ｃ）はピンマイクＰ３’で収音された観測信号についてのスペクトル、図６（ｄ）はピンマイクＰ４’で収音された観測信号についてのスペクトルである。図６の各グラフにおいて、縦軸は周波数、横軸は時間フレームの番号を表し、色が濃いほど音のパワーが大きいことを表す。
図６を見ると、似たようなスペクトル形状が複数のピンマイクで観測されていることがわかる。これは、話者Ｐ１〜Ｐ４同士がある程度近くに居るため、ある話者の声が、別の話者が装着しているピンマイクにも入り込んでしまうためである。

この観測信号に対して、ピンマイクごとに背景技術を適用した際の発話区間検出結果を図７に示す。図７（ａ）は背景技術による検出結果を示し、図７（ｂ）は人手によるラベリング結果（正解）を示す。横軸は時間フレームの番号（１フレームは１／３０秒）、縦軸は話者の番号を示す。黒く塗られた部分が、発話したと判断された時間フレームである。閾値はη＝１０と設定した。従来技術の結果は、他の人の発話まで過剰検出してしまっている。
このように、多人数・多マイクロホンの状況で、一話者・単一マイクロホンを仮定した発話区間検出を適用しても、あまりうまく動作しないという問題がある。
本発明は、音源が複数あり、それぞれの音源の近くにマイクロホンが設置されており、各マイクロホンに複数の音源から発生した音が入り込む可能性がある状況において、各音源の有音区間を正しく判定する技術を提供することを課題とする。

複数のマイクロホンによってそれぞれ入力され周波数領域に変換された時間周波数ごとの各観測信号から、マイクロホンと周波数の組み合せごとに、無音区間におけるノイズパワーを推定する。上記推定されたノイズパワーと、上記各観測信号とを用いて、上記各観測信号を成分とする時間周波数ごとの観測信号ベクトルを、音源ごとに分類し、その分類結果を出力する。上記分類結果を用いて、上記各観測信号を、音源ごとの信号に分離する。上記分離された音源ごとの信号から、各音源の有音区間又は無音区間を判定する。

周波数領域に変換された時間周波数ごとの各観測信号について、ノイズパワー推定値λ（ｆ）を用いて単に有音区間、無音区間の判定をするのでなく、まず、周波数領域に変換された時間周波数ごとの各観測信号を音源ごとに分類し、その分類された各観測信号について有音区間、無音区間の判定をすることにより、各音源の有音区間を正しく判定することができる。

以下では、音源が、人間による発話である場合を例に挙げて、本発明による多音源有音区間判定装置１０について説明をする。図１に、多音源有音区間判定装置１０の機能構成を例示する。多音源有音区間判定装置１０は、例えば、周波数領域変換部１、ノイズパワー推定部２、観測信号分類部３、信号分離部４、有音区間判定部５を有する。また、図３に、多音源有音区間判定装置の処理の流れを例示する。

［全体の流れ］
周波数領域変換部１は、Ｎ人の話者の発話がＭ個のマイクロホンによって収音された時間領域の観測信号ｘ_ｍ（ｔ）（ｍ＝１，…，Ｍ）を、周波数領域の観測信号ｘ_ｍ（ｆ，ｔ）（ｍ＝１，…，Ｍ）に変換する（ステップＳ１）。
ノイズパワー推定部２は、誰も発話していない時間区間での観測信号のパワー、すなわち、ノイズパワーλ_ｍ（ｆ）（ｍ＝１，…，Ｍ）を推定する（ステップＳ２）。
観測信号分類部３は、周波数領域の観測信号ベクトルＸ（ｆ，ｔ）＝｛ｘ_１（ｆ，ｔ），…，ｘ_Ｍ（ｆ，ｔ）｝を、ノイズか各話者に分類する（ステップＳ３）。分類結果は、０からＮまでの値を取り得るクラスタ情報Ｃ（ｆ，ｔ）で表現される。ある時間周波数スロット（ｆ，ｔ）において分類結果Ｃ（ｆ，ｔ）＝０であれば、その時間周波数スロット（ｆ，ｔ）においては誰も話者がおらず、ノイズに分類されたことを意味する。分類結果Ｃ（ｆ，ｔ）が１からＮまでの値ｎを取れば、その時間周波数スロット（ｆ，ｔ）における周波数領域の観測信号Ｘ（ｆ，ｔ）はｎ番目の話者による発話と判定されたことを意味する。

信号分離部４は、分類結果Ｃ（ｆ，ｔ）と周波数領域の観測信号ｘ_１（ｆ，ｔ），…，ｘ_Ｍ（ｆ，ｔ）から、分離信号ｙ_１（ｆ，ｔ），…，ｙ_Ｎ（ｆ，ｔ）を算出する（ステップＳ４）。分離信号ｙ_ｎ（ｆ，ｔ）は、ｎ番目の話者の発話のみを取り出したものである。
有音区間判定部５は、分離信号ｙ_ｎ（ｆ，ｔ）と、ノイズパワーλ_ｍ（ｆ）から、各話者が発話をしているかどうかを時間ｔ毎に判定し、フラグｖａｄ_ｎ（ｔ）として出力する（ステップＳ５）。
以下、各部の処理について詳細に説明する。

＜ステップＳ１＞
Ｎ個の話者（音源）からそれぞれ発生した発話（音）は、図示していないＭ個のマイクロホンによってそれぞれ収音される。話者の数Ｎと、マイクロホンの数Ｍは、同じでも異なっていてもよい。マイクロホンは、話者の近くに設置されているものとする。各マイクロホンによってそれぞれ収音された時間領域の各観測信号ｘ_１（ｔ），…，ｘ_ｍ（ｔ），…，ｘ_Ｍ（ｔ）は、周波数領域変換部１に入力される。周波数領域変換部１は、短時間フーリエ変換により、上記各観測信号ｘ_ｍ（ｔ）（ｍ＝１，…，Ｍ）を、時間周波数ごとの周波数領域の観測信号ｘ_１（ｆ，ｔ），…，ｘ_ｍ（ｆ，ｔ），…，ｘ_Ｍ（ｆ，ｔ）に変換する。変換された周波数領域の観測信号ｘ_ｍ（ｆ，ｔ）（ｍ＝１，…，Ｍ）は、ノイズパワー推定部２、観測信号分類部３、信号分離部４にそれぞれ出力される。
以下では、時間領域の観測信号ベクトルＸ（ｔ）を、Ｘ（ｔ）＝［ｘ_１（ｔ），…，ｘ_Ｍ（ｔ）］^Ｔと定義し、周波数領域の観測信号ベクトルＸ（ｆ，ｔ）を、Ｘ（ｆ，ｔ）＝［ｘ_１（ｆ，ｔ），…，ｘ_Ｍ（ｆ，ｔ）］^Ｔと定義する。
［＊］^Ｔは、ベクトル＊の転置を意味する。

＜ステップＳ２＞
ノイズパワー推定部２は、マイクロホンと周波数の組み合せごとに、無音区間、すなわち、誰も発話していない時間区間におけるノイズパワーλ_ｍ（ｆ）を推定する。ノイズパワーλ_ｍ（ｆ）は、ｍ番目のマイクロホンにおける周波数ｆでのノイズパワーを意味する。推定されたノイズパワーλ_ｍ（ｆ）は、観測信号分類部３、有音区間判定部５に出力される。ここで、無音区間とは、発話がない時間区間のことであり、音やノイズがまったく存在しない区間のことではない点に留意する。

例えば、誰も発話していないことが確実な時間区間Ｐが明らかであれば、ノイズパワー推定部２は、

を計算することにより、ノイズパワーλ_ｍ（ｆ）を求める。ここで、｜Ｐ｜は、時間区間Ｐに含まれるフレームの数である。また、ノイズパワー推定部２は、装置を起動した最初の数秒間は誰も発話をしていない等の仮定をして、その最初の数秒間を無音区間Ｐとしてノイズパワーλ_ｍ（ｆ）を計算してもよい。なお、誰も発話していないことが確実な時間区間Ｐが明らかでない場合には、適切な初期値を予め用意しておき、その適当な初期値をノイズパワーλ_ｍ（ｆ）としてもよい。

なお、ノイズパワーλ_ｍ（ｆ）は、予め定めた適当な時間間隔で更新することが望ましい。ノイズパワーλ_ｍ（ｆ）の変動に対処するためである。そのために、後述する観測信号分類部３から出力された分類結果Ｃ（ｆ，ｔ）を参照して、Ｃ（ｆ，ｔ）＝０となる時間周波数スロット（ｆ，ｔ）を求める。そして、次式

に従い、ノイズパワーλ_ｍ（ｆ）を更新する。ここで、αは忘却係数であり、一般に、１より小さく、１に近い値を取る。また、Ｅ｛＊｝_{Ｃ（ｆ，ｔ）＝０}は、あるｆについて、Ｃ（ｆ，ｔ）＝０を満たす時間ｔについてのみ平均を取ることを意味する。あるｆについて、そのようなＣ（ｆ，ｔ）＝０を満たす時間ｔが存在しない場合、前式による更新は行わない。

＜ステップＳ３＞
観測信号分類部３は、ノイズパワーλ_ｍ（ｆ）と周波数領域の各観測信号ｘ_ｍ（ｆ，ｔ）とを用いて、上記各観測信号ｘ_ｍ（ｆ，ｔ）（ｍ＝１，…，Ｍ）を成分とする時間周波数ごとの観測信号ベクトルＸ（ｆ，ｔ）を、話者ごとに分類し、その分類結果Ｃ（ｆ，ｔ）を求める。分類結果Ｃ（ｆ，ｔ）は、信号分離部４と、ノイズパワー推定部２にそれぞれ出力される。
分類結果Ｃ（ｆ，ｔ）は、０からＮまでの値を取るクラスタ情報である。Ｃ（ｆ，ｔ）＝０であれば、その時間周波数には誰も話者がおらず、ノイズと分類されたことを意味する。Ｃ（ｆ，ｔ）が、１からＮまでの値ｎを取れば、その時間周波数スロットにおける観測信号ベクトルＸ（ｆ，ｔ）は、ｎ番目の話者による発話と判定されたことを意味する。

なお、本実施例では、処理の簡便化のため、ある時間周波数スロット（ｆ，ｔ）で発話しているのは高々一人であることを仮定している。この仮定に従っても、ある時間ｔにおける全ての周波数ｆを考えると、周波数が異なれば同時刻ｔに複数人が発話をしていることを表現することができるため問題は生じない。
図２に、観測信号分類部３の機能構成を例示する。観測信号分類部３は、無音判定部３９、分類部３１０を有する。無音判定部３９は、Ｓ／Ｎ比計算部３１、非線形変換部３２、判定部３３を有する。分類部３１０は、正規化部３４、尤度計算部３５、最大値決定部３６、平均ベクトル更新部３７、分散更新部３８を有する。図４に、観測信号分類部３の処理の流れを例示する。

《ステップＳ３１》
まず、無音判定部３９が、観測信号のパワーのみに着目して、ノイズであるか、あるいは誰かが発話しているかを判別する。例えば、背景技術と同様の方法を用いることができる。すなわち、無音判定部３９のＳ／Ｎ比計算部３１が、ノイズパワーλ_ｍ（ｆ）と周波数領域の観測信号ｘ_ｍ（ｆ，ｔ）とから、次式に基づいて、事後Ｓ／Ｎ比γ_ｍ（ｆ，ｔ）を求める（ステップＳ３１）。

このように、無音判定部３９は、周波数領域の観測信号のパワー｜ｘ_ｍ（ｆ，ｔ）｜^２を、ノイズパワーλ_ｍ（ｆ）で割り、事後Ｓ／Ｎ比γ_ｍ（ｆ，ｔ）（ｍ＝１，…，Ｍ）をそれぞれ求め、非線形変換部３２に出力する。

《ステップＳ３２》
非線形変換部３２は、事後Ｓ／Ｎ比γ_ｍ（ｆ，ｔ）に対して、例えば、次式の非線形変換を施し、非線形変換後の事後Ｓ／Ｎ比Ｇ_ｍ（ｆ，ｔ）（ｍ＝１，…，Ｍ）をそれぞれ求め、判定部３３に出力する（ステップＳ３２）。

《ステップＳ３３》
判定部３３は、各Ｇ_ｍ（ｆ，ｔ）（ｍ＝１，…，Ｍ）と、予め定めた閾値η’との大小関係を比較し、すべてのｍ（ｍ＝１，…，Ｍ）において、Ｇ_ｍ（ｆ，ｔ）がη’未満であれば、周波数領域の観測信号ベクトルＸ（ｆ，ｔ）はノイズであり、その時間周波数スロットにおける分類結果Ｃ（ｆ，ｔ）を、Ｃ（ｆ，ｔ）＝０とする（ステップＳ３３）。
このように、無音判定部３９は、周波数領域の観測信号のパワー｜ｘ_ｍ（ｆ，ｔ）｜^２を推定されたノイズパワーλ_ｍ（ｆ）で割った値γ_ｍ（ｆ，ｔ）に非線形変換を施した値Ｇ_ｍ（ｆ，ｔ）と、予め定めた閾値η’との大小関係を時間周波数ごとに比較し、ある時間周波数において、すべてのマイクロホンの上記平均値が上記閾値未満であれば、その時間周波数の上記観測ベクトルはどの音源にも属さない、という分類結果Ｃ（ｆ，ｔ）＝０を出力する。
なお、無音判定部３９は、上記背景技術に記載した音声区間、非音声区間の判定方法以外の音声区間、非音声区間の判定方法を用いてもよい。

《ステップＳ３４》
次に、分類部３１０は、ある話者の発話がそれぞれのマイクロホンにどの程度の音量比で観測されたかという情報に基づいて、周波数領域の観測信号ｘ_ｍ（ｆ，ｔ）を分類する（ステップＳ３４）。そのために、まず、分類部３１０の正規化部３４は、例えば、次式に従って、周波数領域の観測信号ｘ_ｍ（ｆ，ｔ）を正規化して、それぞれのマイクロホンにどの程度の音量比で収音されたのかという情報を求める。

すなわち、周波数領域の各観測信号ｘ_ｍ（ｆ，ｔ）の絶対値を、周波数領域の観測信号ベクトルのノルム‖Ｘ（ｆ，ｔ）‖で割り、正規化された周波数領域の観測信号ｘ_ｍ’（ｆ，ｔ）を時間周波数ごとに求める。ｘ_ｍ’（ｆ，ｔ）を成分とするベクトルＸ’（ｆ，ｔ）＝［ｘ_１’（ｆ，ｔ），…，ｘ_ｍ’（ｆ，ｔ），…，ｘ_Ｍ’（ｆ，ｔ）］^Ｔを、正規化された周波数領域の観測信号ベクトルＸ’（ｆ，ｔ）とし、このベクトルは尤度計算部３５に出力される。

このように、周波数領域の観測信号ｘ_ｍ（ｆ，ｔ）の絶対値を用いて、位相を無視する理由は、考慮しているようなピンマイクを用いた状況では、位相情報が不安定となるからである。これは、各話者が装着しているピンマイクの位置が体の動きと共に頻繁に変化し得ることに起因する。
なお、上記式（１）は、それぞれのマイクロホンにどの程度の音量比で収音されたのかという情報の一例に過ぎない。上記以外にも、ｘ_ｍ’（ｆ，ｔ）として、以下に定めるｘ_ｍ’（ｆ，ｔ）のように比をもって表すことができる任意の統計量を用いても良い。

≪ステップＳ３５≫
このようにして算出されたベクトルＸ’（ｆ，ｔ）は、話者ごとにクラスタを形成することが期待できる。なぜなら、話者はｎ人おり、また、各話者ｎの近くに各マイクロホンｍが配置されている状況を考慮しているからである。
ここで、話者ｎの発話に対するクラスタを、例えば、以下のように、予め定めた平均ベクトルｍｅ_ｎ、予め定めた共分散行列σ_ｎ ^２Ｉの多次元ガウス分布でモデル化すると、その尤度ｐ_ｎ（Ｘ’（ｆ，ｔ））（ｎ＝１，…，Ｎ）は次式のようにして、計算することができる。

分類部３１０の尤度計算部３５は、ある正規化された周波数領域の観測信号ベクトルＸ’（ｆ，ｔ）について、各尤度Ｐ_ｎ（Ｘ’（ｆ，ｔ））（ｎ＝１，…，Ｎ）を計算して、その計算結果をそれぞれ最大値決定部３６に出力する。

≪ステップＳ３６≫
各時間周波数スロット（ｆ，ｔ）での正規化された周波数領域の観測信号ベクトルＸ’（ｆ，ｔ）に対して、以下の式を計算することで、最尤推定値としての分類結果Ｃ（ｆ，ｔ）を得ることができる。

すなわち、最大値決定部３６は、ｐ_１（Ｘ’（ｆ，ｔ）），…，ｐ_Ｎ（Ｘ’（ｆ，ｔ））のＮ個の尤度の中で最も値が大きいものを求め、その最も値が大きい尤度に対応したｎを、時間周波数スロットＣ（ｆ，ｔ）に対応した分類情報として出力する。
このように分類部３１０は、各話者に対応するクラスタを多次元ガウス分布で表した各モデルに、それぞれのマイクロホンにどの程度の音量比で収音されたのかという情報（例えば、Ｘ’（ｆ，ｔ））を入力することにより各モデルごとの尤度ｐ_ｎ（ｆ，ｔ）を計算し、最も尤度が高くなるモデルを求め、その観測信号ベクトルは、その最も尤度が高くなるモデルのクラスタに対応する音源に属するという分類結果を時間周波数ごとに出力する。

以下に、平均ベクトルｍｅ_ｎと分散σ_ｎ ^２の初期設定・更新の仕方を説明する。以下では、平均ベクトルｍｅ_ｎと分散σ_ｎ ^２を、パラメータと呼ぶ。話者の数Ｎとマイクロホンの数Ｍが等しく、話者ｎの近くにマイクロホンｍが配置されている場合には、平均ベクトルｍｅ_ｎの初期値としては、

を満たすように設定する。ここで、［ｍｅ_ｎ］_ｍは、平均ベクトルｍｅ_ｎを構成するＭ個の成分のうちのｍ番目の成分を意味する。分散σ_ｎ ^２に関しては、例えば、σ_ｎ ^２＝０．０１とする。上記した方法に限らず、後述するように、平均ベクトルｍｅ_ｎと分散σ_ｎ ^２の値は更新されるため、それらの初期値は適当に定めても構わない。

平均ベクトル更新部３７は、予め定めた時間間隔で、既に求まった分類結果Ｃ（ｆ，ｔ）を用いて、平均ベクトルｍｅ_ｎを以下の式に基づいて更新して、尤度計算部３５に出力する。

同様に、分散更新部３８は、予め定めた時間間隔で既に求まった分類結果Ｃ（ｆ，ｔ）を用いて、分散σ_ｎ ^２を以下の式に基づいて更新して、尤度計算部３５に出力する。

ここで、αは忘却係数であり、１より小さく１に近い値を取る。ノイズパワーの更新の式で用いたαと同じ値である必要はない。また、Ｅ｛＊｝_{Ｃ（ｆ，ｔ）＝ｎ}は、Ｃ（ｆ，ｔ）＝ｎを満たす時間周波数スロット（ｆ，ｔ）に係る＊のみについて平均を取ることを意味する。ここでも、そのような時間周波数スロット（ｆ，ｔ）がない場合には、上記式による更新は行わない。

平均ベクトルｍｅ_nが更新された場合には、尤度計算部３５は、その平均ベクトル更新部３７によって更新された平均ベクトルｍｅ_nを用いて、尤度の計算を行う。すなわち、上記平均ベクトルｍｅ_nの初期値に代えて、上記更新された平均ベクトルを用いてモデル化をして尤度を計算する。
同様に、分散δ_n ^２が更新された場合には、尤度計算部３５は、その分散更新部３８によって更新された分散δ_n ^２を用いて、尤度の計算を行う。
平均ベクトル更新部３７と分散更新部３８が、パラメータ（平均ベクトルｍｅ_n、分散δ_n ^２）を更新する時間間隔・更新する頻度は、毎フレームごとでもよいし、数フレームごとでもよい。毎フレームごとに更新すると、最も精度がよくなる。一方、数フレームごとに更新すると、計算コストを削減することができる。どの位の時間間隔・頻度でパラメータを更新するかは、求める精度や、本発明が実装されるハードウェアの規模や性能に応じて適宜定める。ただし、パラメータの変動に対処するために、最長でも数秒に一回は更新するとよい。平均ベクトル更新部３７の更新時間間隔・更新頻度と、分散更新部３８の更新時間間隔・更新頻度は、同じでも、異なっていても良い。

なお、どの話者にも対応しないクラスタをｎ＝Ｎ＋１として構成してもよい。この場合、そのクラスタＮ＋１の平均ベクトルｍｅ_Ｎ＋１の初期値は、

と設定する。このＮ＋１のクラスタは、複数人の話者が発話した時間周波数スロット（ｆ，ｔ）で構成されることになる。そのようなスロットでの情報は、不確定性が高いため、以後の処理では用いない。
また、マイクロホンの数Ｍの方が、話者の数Ｎよりも多い場合には、話者ｎから最も近いマイクロホンの番号をｋ（ｎ）とすると、例えば、平均ベクトルｍｅ_ｎを以下のように定める。分散σ_ｎ ^２については上記と同様である。

上記初期値は、最終的な最適値からは離れているが、更新により最終値に近づくので問題は生じない。その他、平均ベクトルｍｅ_ｎの初期値は、話者とマイクロホンの位置を考慮して適宜定めることができる。

＜ステップＳ４＞
信号分離部４は、観測信号分類部３が出力した分類結果Ｃ（ｆ，ｔ）に基づいて、周波数領域に変換された観測信号ｘ_ｍ（ｆ，ｔ）を、話者ごとの信号ｙ_ｎ（ｆ，ｔ）に分離する。具体的には、次式に基づいて、話者ｎの分離信号ｙ_ｎ（ｆ，ｔ）を時間周波数ごとに求めて、有音区間判定部５に出力する。

＜ステップＳ５＞
有音区間判定部５は、分離信号ｙ_ｎ（ｆ，ｔ）に基づいて、各話者の発話区間（有音区間）を判定する。具体的には、例えば、背景技術に記載した方法と同様に、まず、事後Ｓ／Ｎ比γ_ｎ（ｆ，ｔ）を、次式により求める。

そして、非線形変換を次式により施し、非線形変換後の事後Ｓ／Ｎ比Ｇ_ｎ（ｔ）を求める。

非線形変換後の事後Ｓ／Ｎ比Ｇ_ｎ（ｔ）が、予め定めた閾値ηよりも大きければ、時間ｔのフレームにおいて、話者ｎは発話（有音区間）していると判定し、小さければ非発話（無音区間）であると判断する。

有音区間を表すフラグをｖａｄ_ｎ（ｔ）とし、１が有音区間、０が無音区間を意味することにすると、有音区間判定部５は、次の条件により、フラグｖａｄ_ｎ（ｔ）の値を定める。

このフラグｖａｄ_ｎ（ｔ）が、各話者ｎに対する発話区間の判定結果となる。
閾値ηは、１から数十の範囲であり、経験的に最適と思われる値を設定する。すなわち、予め異なる複数の閾値ηで、上記の判定を行い最も精度が高いものを閾値ηとする。本明細書、特許請求の範囲においては、原則として、「より大」とは、「以上」の概念を包括するものとする。すなわち、ＡはＢ以上（Ａ＞Ｂ）であると言った場合には、ＡがＢより大（Ａ＞Ｂ）であっても、ＡがＢ以上（Ａ≧Ｂ）であってもよいものとする。同様に「未満」とは、「以下」の概念を包括するものとする。
なお、背景技術に記載した有音区間判定技術以外の任意の有音区間判定技術を用いることができる。

本発明の効果を示すために、図６に示す４本のマイクロホンで観測された２０秒分の各観測信号に対して本発明を適用した。図８に、観測信号分類部３による分類結果を示す。プロットを上から順に見ると、それぞれＣ（ｆ，ｔ）＝１、２、３、４と分類された時間周波数スロット（ｆ，ｔ）が黒く塗られている。この分類結果に従って、観測信号を各話者に分離し、それぞれの分離信号に対して発話区間の推定を行った。その結果を図９に示す。推定結果に多少の途切れはあるが、ほぼ正確に発話区間を判定していることがわかる。図７に示す従来技術による結果と見比べると、本発明の効果は明らかである。

［変形例等］
本発明は、マイクロホンでの観測信号に限らず、何らかの前処理により、信号対雑音比を高めた信号や、特定の話者（音源）の発話（音）を強調した信号に対しても有効に適用することができる。
以下、具体例を挙げつつ説明する。図１０は、４人の話者ｑ１，ｑ２，ｑ３，ｑ４が参加した会議の状況を３個のマイクロホンｑ１’，ｑ２’，ｑ３’で録音した状況を示すものである。話者は、各マイクロホンｑ１’，ｑ２’，ｑ３’は、一辺の長さが４ｃｍの正三角形の頂点に位置するように机の上に配置されている。各マイクロホンは、その正三角形の中心方向とは反対側の方向の音を収音するように向きが定められている。各マイクロホンｑ１’，ｑ２’，ｑ３’と机の間にはタオルが敷かれている。話者ｑ１，ｑ２，ｑ３，ｑ４は、話者ｑ１とマイクロホンｑ１’は８５ｃｍ、話者ｑ２とマイクロホンｑ１’は８０ｃｍ、話者ｑ３とマイクロホンｑ２’は８５ｃｍ、話者ｑ４とマイクロホンｑ３’は９０ｃｍそれぞれ離れるように位置しており、また、上記机の上にある各マイクロホンを取り囲むように位置している。

このような状況において、マイクロホンｑ１’，ｑ２’，ｑ３’で録音された時間領域の観測信号を図１１に示す。図１１（ａ）はマイクロホンｑ１’で録音された時間領域の観測信号，図１１（ｂ）はマイクロホンｑ２’で録音された時間領域の観測信号，図１１（ｃ）はマイクロホンｑ３’で録音された時間領域の観測信号を表す図である。図１１（ａ）から（ｃ）に示した図を見ると、各マイクロホンｑ１’，ｑ２’，ｑ３’は、特定の話者の声を大きく収録しているわけではなく、各話者の声を同じような音量で収音していることがわかる。したがって、図１１（ａ）から（ｃ）に示した各観測信号についてそのまま本発明を適用しても、有益な効果を得ることができない。
ここで、図１に破線で示す音処理部６が、例えば、音源分離技術などの前処理を、図１１（ａ）から（ｃ）に示した各観測信号について行うことで、特定の話者の声が強調され他の話者の声や雑音が抑圧された信号を生成することができる。図１２に、図１１（ａ）から（ｃ）に示した各観測信号に対して、音源分離技術を適用して作り出した話者ごと分離信号を示す。

音処理部６から出力された特定の話者の声が強調され他の話者の声や雑音が抑圧された信号は、周波数領域変換部１に入力され、上記説明したステップＳ１からステップＳ５の処理が行われる。上記音処理部６の音源分離の性能は完璧ではなく、その他の人の声や雑音は、ある程度の音量で混入している。したがって、これまでに説明したマイクロホンで収音した観測信号と同様の状況であると考えることができる。
図１３は、図１２に示す各分離信号に対して従来の音源有音区間判定技術を適用した結果を示す図である。その他の人の声や雑音がある程度の音量で混入しているため、発話区間が過剰に検出されていることがわかる。

一方、図１４は、図１２に示す各分離信号に対して本発明を適用した結果を示す図である。発話区間の過剰検出が抑えられ、図１２の各分離信号の波形と見比べても、比較的正しく発話区間を検出していることがわかる。
また、上記説明では、多音源有音区間判定装置１０は、周波数領域変換部１を有する場合を例に挙げているが、周波数領域変換部１は必ずしも必要ではない。すなわち、周波数領域変換部１を設けずに、各マイクロホンによってそれぞれ入力され周波数領域に変換された時間周波数ごとの各観測信号が、ノイズパワー推定部２、観測信号分類部３、信号分離部４に入力されるようにしてもよい。
上記説明では、音源が人間である場合、すなわち、音源として話者を取り上げた場合を例に挙げているが、音源として他の音源を用いても本発明を適用することができる。

分類部３１０は、無音判定部３９でＣ（ｆ，ｔ）＝０と判定された時間周波数スロット以外の時間周波数スロット（ｆ，ｔ）について分類結果Ｃ（ｆ，ｔ）を求めてもよい。
また、分類部３１０は、すべての時間周波数スロット（ｆ，ｔ）について分類結果Ｃ（ｆ，ｔ）を求め、図２に一点鎖線で示す合成部３１１に出力し、合成部３１１が、判定部３３から入力されたＣ（ｆ，ｔ）＝０となる時間周波数スロットで、上記分類部３１０が出力した分類結果Ｃ（ｆ，ｔ）を上書きしてもよい。かかる場合には、無音判定部３９の処理と、分類部３１０の処理を並行して行うことができる。
分散更新部３８と平均ベクトル更新部３７は、必ずしも設ける必要はなく、また、何れか一方のみを設けてもよい。

上記多音源音声区間判定装置の処理機能をコンピュータによって実現することができる。この場合、多音源音声区間判定装置の処理の内容はプログラムによって記述される。そして、このプログラムを、コンピュータで実行することにより、多音源音声区間判定装置の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＤＶＤ−ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−Ｒ（Ｒｅｃｏｒｄａｂｌｅ）／ＲＷ（ＲｅＷｒｉｔａｂｌｅ）等を、光磁気記録媒体として、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｃ）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（ＥｌｅｃｔｒｏｎｉｃａｌｌｙＥｒａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（ＡｐｐｌｉｃａｔｉｏｎＳｅｒｖｉｃｅＰｒｏｖｉｄｅｒ）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、多音源音声区間判定装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

以上の各実施形態の他、本発明である多音源音声区間判定装置、方法、プログラム及びその記録媒体は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

本発明による多音源有音区間判定装置１０の機能構成を例示する図。本発明による観測信号分類部３の機能構成を例示する図。本発明による多音源有音区間判定装置１０の処理の流れを例示する図。本発明による観測信号分類部３の処理の流れを例示する図。実験の条件を表す図。図６（ａ）はピンマイクＰ１’で収音された観測信号についてのスペクトル、図６（ｂ）はピンマイクＰ２’で収音された観測信号についてのスペクトル、図６（ｃ）はピンマイクＰ３’で収音された観測信号についてのスペクトル、図７（ｄ）はピンマイクＰ４’で収音された観測信号についてのスペクトルを表す図。図７（ａ）は背景技術による検出結果を示し、図７（ｂ）は人手によるラベリング結果（正解）を示す図。本発明による実験結果を表す図。本発明による実験結果を表す図。第２実施形態の説明を補助する図。図１１（ａ）はマイクロホンｑ１’で録音された時間領域の観測信号，図１１（ｂ）はマイクロホンｑ２’で録音された時間領域の観測信号，図１１（ｃ）はマイクロホンｑ３’で録音された時間領域の観測信号を表す図。図１１（ａ）から（ｃ）に示した各観測信号に対して、音源分離技術を適用して作り出した話者ごと分離信号を示す図。図１２に示す各分離信号に対して、従来の音源有音区間判定技術を適用した結果を示す図。図１２に示す各分離信号に対して本発明を適用した結果を示す図。

符号の説明

１周波数領域変換部
２ノイズパワー推定部
３観測信号分類部
４信号分離部
５有音区間判定部
６音処理部
１０多音源有音区間判定装置
３１比計算部
３２非線形変換部
３３判定部
３４正規化部
３５尤度計算部
３６最大値決定部
３７平均ベクトル更新部
３８分散更新部
３９無音判定部
３１０分類部
３１１合成部

Claims

複数のマイクロホンによってそれぞれ入力され周波数領域に変換された時間周波数ごとの各観測信号から、マイクロホンと周波数の組み合せごとに、無音区間におけるノイズパワーを推定するノイズパワー推定手段と、
上記推定されたノイズパワーと、上記各観測信号とを用いて、上記各観測信号を成分とする時間周波数ごとの観測信号ベクトルを、音源ごとに分類し、その分類結果を出力する観測信号分類手段と、
上記分類結果を用いて、上記各観測信号を、音源ごとの信号に分離する信号分離手段と、
上記分離された音源ごとの信号から、各音源の有音区間又は無音区間を判定する有音区間判定手段と、
を有する多音源有音区間判定装置。
請求項１に記載の多音源有音区間判定装置において、
上記観測信号分類手段は、上記観測信号のパワーを上記推定されたノイズパワーで割った値に非線形変換を施した値と、予め定めた閾値との大小関係を時間周波数ごとに比較し、ある時間周波数において、すべてのマイクロホンの上記非線形変換を施した値が上記閾値未満であれば、その時間周波数の上記観測ベクトルはどの音源にも属さない、という分類結果を出力する無音判定手段を含む、
ことを特徴とする多音源有音区間判定装置。
請求項１又は請求項２に記載の多音源有音区間判定装置において、
上記観測信号分類手段は、各音源から発生した音がそれぞれのマイクロホンにどの程度の音量比で収音されたという情報を求め、その情報に基づいて、上記観測信号ベクトルを、音源ごとに分類し、その分類結果を出力する手段を含む、
ことを特徴とする多音源有音区間判定装置。
請求項１から請求項３の何れかに記載の多音源有音区間判定装置において、
上記観測信号分類手段は、上記各音源に対応するクラスタを、平均ベクトルと分散とを用いて多次元ガウス分布で表した各モデルに、上記情報を入力することにより各モデルごとの尤度を計算し、最も尤度が高くなるモデルを求め、その観測信号ベクトルは、その最も尤度が高くなるモデルのクラスタに対応する音源に属するという分類結果を時間周波数ごとに出力する手段を含む、
ことを特徴とする多音源有音区間判定装置。
請求項４に記載の多音源有音区間判定装置において、
上記観測信号分類手段は、予め定めた時間間隔Ｔ_１ごとに上記平均ベクトルを更新する平均ベクトル更新手段と、予め定めた時間間隔Ｔ_２ごとに上記分散を更新する分散更新手段との少なくとも一方を含む、
ことを特徴とする多音源有音区間判定装置。
請求項１から請求項５の何れかに記載の多音源有音区間判定装置において、
上記ノイズパワー推定手段は、予め定めた時間間隔Ｔ_３ごとに上記ノイズパワーを更新するノイズパワー更新手段を有し、
上記観測信号分類手段は、上記推定されたノイズパワーの代わりに、上記更新されたノイズパワーを用いる、
ことを特徴とする多音源有音区間判定装置。
請求項１から請求項６の何れかに記載の多音源有音区間判定装置において、
複数のマイクロホンによってそれぞれ入力された信号に対して信号対雑音比を高める処理を行った信号を周波数領域に変換した時間周波数ごとの信号が、上記観測信号として入力されることを特徴とする多音源有音区間判定装置。
複数のマイクロホンによってそれぞれ入力され周波数領域に変換された時間周波数ごとの各観測信号から、マイクロホンと周波数の組み合せごとに、無音区間におけるノイズパワーを推定するノイズパワー推定ステップと、
上記推定されたノイズパワーと、上記各観測信号とを用いて、上記各観測信号を成分とする時間周波数ごとの観測信号ベクトルを、音源ごとに分類し、その分類結果を出力する観測信号分類ステップと、
上記分類結果を用いて、上記各観測信号を、音源ごとの信号に分離する信号分離ステップと、
上記分離された音源ごとの信号から、各音源の有音区間又は無音区間を判定する有音区間判定ステップと、
を有する多音源有音区間判定方法。
請求項８に記載の多音源有音区間判定方法において、
上記観測信号分類ステップは、上記観測信号のパワーを上記推定されたノイズパワーで割った値に非線形変換を施した値と、予め定めた閾値との大小関係を時間周波数ごとに比較し、ある時間周波数において、すべてのマイクロホンの上記非線形変換を施した値が上記閾値未満であれば、その時間周波数の上記観測ベクトルはどの音源にも属さない、という分類結果を出力する無音判定ステップを含む、
ことを特徴とする多音源有音区間判定方法。
請求項８又は請求項９に記載の多音源有音区間判定方法において、
上記観測信号分類ステップは、各音源から発生した音がそれぞれのマイクロホンにどの程度の音量比で収音されたという情報を求め、その情報に基づいて、上記観測信号ベクトルを、音源ごとに分類し、その分類結果を出力するステップを含む、
ことを特徴とする多音源有音区間判定方法。
請求項８から請求項１０の何れかに記載の多音源有音区間判定方法において、
上記観測信号分類ステップは、上記各音源に対応するクラスタを多次元ガウス分布で表した各モデルに、上記情報を入力することにより各モデルごとの尤度を計算し、最も尤度が高くなるモデルを求め、その観測信号ベクトルは、その最も尤度が高くなるモデルのクラスタに対応する音源に属するという分類結果を時間周波数ごとに出力するステップを含む、
ことを特徴とする多音源有音区間判定方法。
請求項１から請求項７の何れかに記載の多音源有音区間判定装置としてコンピュータを機能させるための多音源有音区間判定プログラム。
請求項１２に記載の多音源有音区間判定プログラムを記録した多音源有音区間判定プログラム記録媒体。