JP4791857B2

JP4791857B2 - 発話区間検出装置及び発話区間検出プログラム

Info

Publication number: JP4791857B2
Application number: JP2006056234A
Authority: JP
Inventors: 亨今井; 庄衛佐藤
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2006-03-02
Filing date: 2006-03-02
Publication date: 2011-10-12
Anticipated expiration: 2026-03-02
Also published as: JP2007233148A

Description

本発明は、発話区間検出装置及び発話区間検出プログラムに係り、特に迅速且つ効率的に音声に対する発話区間を検出するための発話区間検出装置及び発話区間検出プログラムに関する。

放送番組の字幕制作やメタデータ制作等に用いられる音声認識では、雑音環境や対談における発話検出性能の向上、男女の話者が混在した音声の認識性能の向上が重要である。そこで、従来では、単語や音声等から発話区間を検出する様々な手法が提案されている。例えば、従来の発話区間検出方法には、短時間パワーを利用した手法（例えば、非特許文献１、特許文献１参照。）や、音素認識結果による手法（例えば、非特許文献２参照。）、認識時の尤度を用いた手法（例えば、特許文献２参照。）、局所的な音声／非音声の尤度比による手法（例えば、特許文献３参照。）が知られている。

ここで、短時間パワーを利用した手法は、スピーチに対する短時間パワーの閾値と非スピーチに対する短時間パワーの閾値とを設け、入力音声の短時間パワーがスピーチの閾値を超えた時、そのしばらく前の時点を発話始端とし、入力音声の短時間パワーが非スピーチの閾値を下回った時を発話終端とするもので、２つの閾値を入力音声の短時間パワーの変動に合わせて動的に変化させて、雑音等の影響を軽減しようとするものである。

また、音素認識結果による手法は、音素単位の連続音声認識を実行し、非スピーチとして認識された部分を発話始終端として同定するものである。また、認識時の尤度を用いた手法は、発話中のポーズを検出することで発話区間を検出するものである。更に、局所的な音声／非音声の尤度比による手法は、短い音声区間で独立に音声／非音声を判定するものである。
Ｐ．Ｒｅｎｅｖｅｙ，ｅｔａｌ．，"ＥｎｔｒｏｐｙＢａｓｅｄＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎｉｎＶａｒｙＮｏｉｓｙＣｏｎｄｉｔｉｏｎｓ"，Ｅｕｒｏｓｐｅｅｃｈ−２００１，ｐｐ．１８８７−１８９０，２００１．特開２００５−３１６３２号公報Ｆ．Ｋｕｂａｌａ，ｅｔａｌ．，"Ｔｈｅ１９９６ＢＢＮＢｙｂｌｏｓＨＵＢ−４ＴｒａｎｓｃｒｉｐｔｉｏｎＳｙｓｔｅｍ"，ＤＡＲＰＡＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＷｏｒｋｓｈｏｐ，ｐｐ．９０−９３，１９９７．特開平９−２５８７６５号公報特許第３１０５４６５号公報

しかしながら、上述した発話検出手法において、まず短時間パワーを利用した手法の場合は、非常に簡便であり広く一般に利用されているが、音声に雑音がない場合であっても、発話の始端で十分にパワーが上がらない「日本」や「北海道」等の単語の始端を取りこぼす場合が多く、こうした低Ｓ／Ｎ比音声の発話検出性能は実用上十分ではない。

また、音素認識結果による手法は、オフライン処理では問題ないものの、音素認識結果の取得に入力音声からの大きな時間遅れが生じるため、オンライン処理には向いていない。

また、認識時の尤度を用いた手法は、発話終端はポーズそのものであるために問題はないものの、発話始端については発話中あるいは発話終端のポーズを検出するまで定まらないため、例えばポーズがなかなか出現しない原稿読み上げ等の発話においては、入力音声からの時間遅れが問題となる。

更に、局所的な音声／非音声の尤度比による手法は、短い音声区間で独立に音声／非音声を判定するものであるが、長い音声区間でみると判定結果にばらつきが生じるため、平均値処理等の経験的な平滑化処理が必要になり、様々な音響環境のもとでの発話区間検出の最適化が容易ではない。

本発明は、上述した問題点に鑑みなされたものであり、迅速且つ高精度に発話区間を検出するための発話区間検出装置及び発話区間検出プログラムを提供することを目的とする。

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。

請求項１に記載された発明は、入力音声から発話区間を検出する発話区間検出装置において、前記入力音声を音響特徴量に変換する音響分析手段と、前記音響分析手段により得られる音響特徴量と、予め設定された音響モデル及び言語モデルからなるサブワード・ネットワークとを用いて、前記入力音声に同期して、音素及び／又は音節に基づく各サブワードにおける累積尤度を逐次算出する連続音声認識手段と、前記各サブワードにおける累積尤度から前記入力音声における発話始端と発話終端とを逐次検出する発話区間検出手段と、音声と音声以外の音との音響的な特徴を表現する１又は複数の話者クラスタを有するサブワード音響モデルと、サブワード音響モデル間の遷移を表現するサブワード言語モデルとを用いて、前記サブワード・ネットワークを統合化するサブワード・ネットワーク統合手段とを有し、前記連続音声認識手段は、前記サブワード・ネットワークにおける発話区間検出開始状態から非スピーチあるいはスピーチに対応する音響モデルに遷移した後、一定の時間長にわたって発話始端検出条件が満たされなかった場合に、非スピーチ音響モデルから発話区間検出開始状態に戻ると同時に、全ての音響モデルにおける累積尤度等の音声認識の途中結果をクリアし、発話区間検出開始時刻を更新して再度サブワード単位の連続音声認識を開始し、前記サブワード・ネットワーク統合手段は、前記発話区間検出開始状態から全ての話者クラスタの非スピーチに対応する音響モデルへの遷移、前記非スピーチ音響モデルからそれぞれの話者クラスタのスピーチに対応する音響モデルへのサブワード言語モデルにしたがった遷移、一定の時間長にわたって非スピーチを吸収するために非スピーチ音響モデルから前記発話区間検出開始状態へ戻る遷移、各話者クラスタのスピーチに対応する音響モデル間でサブワード言語モデルにしたがった遷移、各話者クラスタのスピーチに対応する音響モデルから異なる話者クラスタのスピーチに対応する音響モデルへのペナルティ付き遷移、各話者クラスタのスピーチに対応する音響モデルからそれぞれの非スピーチに対応する音響モデルへのサブワード言語モデルにしたがった遷移、前記発話終端検出条件にしたがった発話区間検出終了状態への遷移、及び前記発話区間検出終了状態から前記発話区間検出開始状態への遷移のうち、少なくとも１つの遷移を可能とするサブワード・ネットワークを構成し、前記発話区間検出手段は、発話始端を検出する際、発話区間検出開始時刻から現時刻までの全入力音声に対して、全話者クラスタのスピーチに対応する音響モデルのうち、最大の累積尤度と、発話区間検出開始状態の後続の同じ話者クラスタの非スピーチに対応する音響モデルの累積尤度との比を入力音声に同期して逐次算出し、算出された比の値と予め設定された閾値とに基づいて、最大の累積尤度を示すサブワード列の始端の非スピーチ音響モデルの終端時刻から、一定の時間長遡った時刻を発話始端として検出することを特徴とする。

請求項１記載の発明によれば、迅速且つ高精度に発話区間を検出することができる。したがって、無音や雑音や音楽等、音声認識に不要な非スピーチ区間を入力音声から自動的に除去し、認識すべきスピーチ区間だけを取り出すことができる。これにより、音声認識の処理量の削減と認識性能の向上が図られる。また、男女の話者が混在した入力音声にも対応した高精度なサブワード・ネットワークを生成することができる。また、発話始端を検出するまでの長い非音声を吸収することができる。したがって、高精度に発話始端を検出することができる。更に、それぞれの状態遷移を行うことにより、サブワードの高精度化を図ることができる。

請求項２に記載された発明は、前記発話区間検出手段は、発話終端を検出する際、発話区間検出開始時刻から現時刻までの全入力音声に対して、全話者クラスタのスピーチに対応する音響モデルに後続する非スピーチに対応する音響モデルのうち最大の累積尤度と、同じ話者クラスタのスピーチに対応する音響モデルの最大の累積尤度との比を入力音声に同期して逐次算出し、算出された比の値が一定の時間長以上にわたって予め設定された閾値を超えていた場合、前記現時刻から一定の時間長遡った時刻を発話終端として検出することを特徴とする。

請求項２記載の発明によれば、迅速且つ高精度に発話終端を検出することができる。

請求項３に記載された発明は、前記発話区間検出手段は、前記発話始端及び前記発話終端の時刻情報に基づいて前記入力音声から発話区間の音声を出力することを特徴とする。

請求項３記載の発明によれば、発話始端及び発話終端の時刻情報に基づいて迅速且つ高精度に発話区間の音声を出力することができる。

請求項４に記載された発明は、コンピュータを、請求項１乃至３の何れか１項に記載の発話区間検出装置が有する各手段として機能させるための発話区間検出プログラムである。

請求項４記載の発明によれば、迅速且つ高精度に発話区間を検出することができる。したがって、無音や雑音や音楽等、音声認識に不要な非スピーチ区間を入力音声から自動的に除去し、認識すべきスピーチ区間だけを取り出すことができる。これにより、音声認識の処理量の削減と認識性能の向上が図られる。また、男女の話者が混在した入力音声にも対応した高精度なサブワード・ネットワークを生成することができる。また、発話始端を検出するまでの長い非音声を吸収することができる。したがって、高精度に発話始端を検出することができる。また、それぞれの状態遷移を行うことにより、サブワードの高精度化を図ることができる。更に、実行プログラムをコンピュータにインストールすることにより、容易に発話区間を検出することができる。

本発明によれば、迅速且つ高精度に発話区間を検出することができる。

＜本発明の概要＞
本発明は、様々な音響環境のもとで話された人間の声の発話区間を、音声中からオンラインで迅速に自動検出する発話区間検出手法に関するものである。具体的には、複数の話者クラスタのサブワード音響モデルとサブワード言語モデルとを統合してサブワード・ネットワークを構成し、入力音声に対するサブワード（例えば、音素、音節、トライフォン等）単位の連続音声認識の実行中に、スピーチと非スピーチに対応する各サブワードにおける累積尤度を入力音声に同期して算出及び比較することにより、少ない遅れ時間で高精度に発話始端と発話終端を検出する。

以下に、上記のような特徴を有する本発明における発話区間検出装置及び発話区間検出プログラムを好適に実施した形態について、図面を用いて詳細に説明する。

＜発話区間検出装置：装置構成＞
図１は、本発明における発話区間検出装置の一構成例を示す図である。図１に示す発話区間検出装置１０は、サブワード・ネットワーク統合手段１１と、音響分析手段１２と、連続音声認識手段１３と、発話区間検出装置１４とを有するよう構成されている。

サブワード・ネットワーク統合手段１１は、１又は複数の話者クラスタのサブワード音響モデル２１と、予め設定されたサブワード言語モデル２２とを利用して、サブワード・ネットワーク２３を生成し、連続音声認識手段１３に出力する。

ここで、サブワード音響モデル２１は、例えば話者クラスタ数を２とした場合、話者クラスタＡを男性、話者クラスタＢを女性、あるいは話者クラスタＡを広帯域音声、話者クラスタＢを狭帯域音声等として、サブワードを音響環境依存あるいは音響環境非依存の音素や音節とする等、任意に設定することができる。なお、サブワード音響モデルの話者クラスタ数は、３以上でもよく、単数でもよい。

また、サブワード言語モデル２２は、例えば音素連鎖確率モデルあるいは音節連鎖確率モデル等、既存の連鎖確率モデルを任意に設定することができる。なお、サブワード・ネットワーク２３については、後述する。

また、音響分析手段１２は、発話検出対象となる入力音声２４を入力し、音響特徴量２５に変換して出力する。なお、音響特徴量２５は、サブワード音響モデル２１を学習するために使用した音響特徴量と同じ構成とし、例えば周波数特性を表すケプストラム、短時間パワー、それらの動的特徴量等とすることができる。ここで、以下の説明では、発話の始端検出開始時刻τから現時刻ｔまでの音響特徴量２５の列をｘ_τ ^tとする。

連続音声認識手段１３は、音響特徴量２５の入力に同期してサブワード・ネットワーク２３にしたがって状態遷移を行いつつ、発話の始端検出開始時刻τから現時刻ｔまでの音響特徴量２５の列ｘ_τ ^tに対応する可能性のある複数のサブワードの列及びそれらの累積尤度２６を、例えば隠れマルコフモデルを利用した時間同期ビームサーチ音声認識手法（例えば、中川聖一、「確率モデルによる音声認識」、電子情報通信学会、ｐｐ．４４−４６，１９８８等）により逐次求めていく。なお、連続音声認識手段１３におけるサブワードの列及びそれらの累積尤度２６の認識手法については後述する。

発話区間検出手段１４は、連続音声認識手段１３により得られるサブワード累積尤度２６に基づいて、入力音声２４における１又は複数の発話始端と発話終端とを検出する。具体的には、発話区間検出手段１４は、入力音声２４に付与された時刻（タイムレコード）に対応した発話始端時刻２７、発話終端時刻２８を出力する。また、発話区間検出手段１４は、発話始端時刻２７及び発話終端時刻２８に対応させた発話区間音声２９を出力してもよい。上述した発話区間検出装置１０の構成により、発話区間を迅速且つ高精度に検出することができる。

なお、上述した発話区間検出装置１０では、サブワード・ネットワーク統合手段１１により話者クラスタのサブワード音響モデル２１とサブワード言語モデル２２とからサブワード・ネットワーク２３を生成していたが、本発明においてはこの限りではなく、予めサブワード・ネットワーク２３を生成し連続音声認識手段１３や他の蓄積手段（図示せず）に蓄積しておいてもよい。

＜サブワード・ネットワーク２３＞
ここで、上述したサブワード・ネットワークについて、具体的に説明する。図２は、話者クラスタ数を２とした場合のサブワード・ネットワークの一例を示す図である。

図２に示す話者クラスタ数を２としたサブワード・ネットワーク２３は、発話検出開始状態３１と、発話始端に相当する話者クラスタＡの非スピーチ音響モデル３２と、話者クラスタＡのスピーチ音響モデル３３と、発話終端に相当する話者クラスタＡの非スピーチ音響モデル３４と、発話始端に相当する話者クラスタＢの非スピーチ音響モデル３５と、話者クラスタＢのスピーチ音響モデル３６と、発話終端に相当する話者クラスタＢの非スピーチ音響モデル３７と、発話検出終了状態３８とを有するよう構成することができる。

ここで、音響モデルには、例えば隠れマルコフモデルを利用することができ、非スピーチ音響モデルはスピーチ以外の無音、雑音、音楽等の音声から事前に学習しておくものとし、スピーチ音響モデルはスピーチの音声から母音や子音等の音素や音節等のサブワード単位で事前に学習しておくものとする。

図２において、発話検出開始状態３１から話者クラスタＡの非スピーチ音響モデル３２及び話者クラスタＢの非スピーチ音響モデル３５へは、発話区間検出開始直後に制約なしで遷移することができる（図２における矢印＊１）。

また、話者クラスタＡの非スピーチ音響モデル３２及び３４と、話者クラスタＡのスピーチ音響モデル３３との間は、サブワード言語モデル２２にしたがって遷移することができる（図における矢印＊２）。

同様に、話者クラスタＢの非スピーチ音響モデル３５及び３７と、話者クラスタＢのスピーチ音響モデル３６との間は、サブワード言語モデル２２にしたがって遷移することができる（図２における矢印＊２）。

また、話者クラスタＡの非スピーチ音響モデル３２及び話者クラスタＢの非スピーチ音響モデル３５から発話検出開始状態３１へは、予め設定される一定の時間長にわたって発話始端検出条件が満たされなかった場合に遷移することができる（図２における矢印＊３）。

また、話者クラスタＡのスピーチ音響モデル３３と話者クラスタＢのスピーチ音響モデル３６との間は、異なる話者クラスタへ所定のペナルティ付きで遷移することができる（図２における矢印＊４）。

また、話者クラスタＡの非スピーチ音響モデル３４と話者クラスタＢの非スピーチ音響モデル３７とから発話検出終了状態３８へは、発話終端検出条件にしたがって遷移することができる（図２における矢印＊５）。更に、発話検出終了状態３８から発話検出開始状態３１へは、発話終端検出直後に次の発話のために制約なしで遷移することができる（図２における矢印＊６）。

なお、話者クラスタＡの非スピーチ音響モデル３２と話者クラスタＢの非スピーチ音響モデル３５とは、纏めて１つの非スピーチ音響モデルとして構成することも可能である。同様に、話者クラスタＡの非スピーチ音響モデル３４と話者クラスタＢの非スピーチ音響モデル３７とは、纏めて１つの非スピーチ音響モデルとして構成することも可能である。

ここで、話者クラスタＡの非スピーチ音響モデル３２及び３４は、異なる状態として表現しているが、その統計的性質は全く同じものでもよい。同様に、話者クラスタＢの非スピーチ音響モデル３５及び３７は、異なる状態として表現してるが、その統計的性質は全く同じものでもよい。

本発明におけるサブワード・ネットワーク統合手段１１は、１又は複数の話者クラスタ数において上述した遷移のうち少なくとも１つを用いてサブワード・ネットワーク２３を統合することができる。

＜サブワードの列及びそれらの累積尤度２６＞
次に、連続音声認識手段１３におけるサブワードの列及びそれらの累積尤度２６の認識手法について具体的に説明する。図３は、発話始端における音声認識の一例を示す図である。また、図４は、発話終端における音声認識の一例を示す図である。

例えば、サブワード音響モデル２１の話者クラスタ数が２であって、時間同期ビームサーチ音声認識処理を行う際に、話者クラスタＳ∈｛Ａ，Ｂ｝の非スピーチ音響モデルをｓｉｌ_Ｓとし、話者クラスタＳのスピーチ音響モデルをｐｈ_Ｓ，ｉとした場合（ここで、ｉは音素等のサブワード番号を示す）、発話始端では、図３に示すような音響特徴量２５に対応する可能性のある複数のサブワード列に対して、最尤サブワード列の累積尤度の対数値を以下に示す（１）式により逐次求める。

更に、始端の非スピーチ音響モデルの累積尤度の対数値を以下に示す（２）式により逐次求める。

また、発話終端では、図４に示すような発話の始端検出開始時刻τから現時刻ｔまでの音響特徴量２５の列ｘ_τ ^tに対応する可能性のある複数のサブワード列に対して、全話者クラスタのスピーチに対応する音響モデルに後続し、非スピーチに対応する音響モデルのうち、最大の累積尤度の対数値を以下に示す（３）式により逐次求める。

更に、同じ話者クラスタのスピーチに対応する音響モデルの最大の累積尤度の対数値を以下に示す（４）式により逐次求める。

なお、連続音声認識中は、話者クラスタ間のサブワード音響モデルの遷移を許可するものとし、話者クラスタ間のサブワード音響モデルの遷移を許可する場合、一定のペナルティのスコアをサブワード累積尤度の対数値に付加する。上述した処理を行うことで、連続音声認識手段１３は高精度なサブワード累積尤度２６を出力することができる。

なお、連続音声認識手段１３は、サブワード・ネットワーク２３における発話区間検出開始状態から非スピーチあるいはスピーチに対応する音響モデルに遷移した後、一定の時間長ｔ_ｉｄｌｅにわたって継続して予め設定された後述する発話始端検出条件が満たされなかった場合に、非スピーチ音響モデルから発話区間検出開始状態に戻ると同時に、全ての音響モデルにおける累積尤度等の音声認識の途中結果をクリア（リセット）し、発話区間検出開始時刻τを現時刻ｔに更新して再度サブワード単位の連続音声認識を開始する。これにより、発話始端を検出するまでの長い非音声を吸収することができる。したがって、高精度に発話始端を検出することができる。

＜発話区間検出手段１４＞
次に、発話区間検出手段１４について具体的に説明する。発話区間検出手段１４は、発話始端では、最尤サブワード列の累積尤度の対数値Ｌ_１と、始端の非スピーチ音響モデルの累積尤度の対数値Ｌ_２の差が一定の閾値θ_{ｓｔａｒｔ}を超えた時、すなわち（Ｌ_１−Ｌ_２）＞θ_{ｓｔａｒｔ}となる時、これを発話始端検出条件として、図３に示すように最大の累積尤度を示すサブワード列の始端の非スピーチ音響モデルの終端時刻から、所定の時間長ｔ_{ｓｔａｒｔ}遡った時刻を発話始端時刻２７とする。

なお、時間長ｔ_{ｓｔａｒｔ}は、例えばニュース原稿を読み上げるような一般的な音声速度の場合、約２００ｍｓｅｃ程度が好ましいが、本発明においてはこれに限定されない。

一方、発話終端では、終端が非スピーチ音響モデルとなる最尤サブワード列のうち最大の累積尤度の対数値Ｌ_３と、同話者クラスタのスピーチ音響モデルを終端とする最尤サブワード列の累積尤度の対数値Ｌ_４との差が、一定の閾値θ_ｅｎｄを時間長ｔ_ｅｎｄ１継続して超えた場合、すなわちｔ_ｅｎｄ１継続して（Ｌ_３−Ｌ_４）＞θ_ｅｎｄとなる時、これを発話終端検出条件として、図４に示すように、現時刻ｔから時間長ｔ_ｅｎｄ１を基準とした所定の時間長ｔ_ｅｎｄ２（ｔ_ｅｎｄ２＜ｔ_ｅｎｄ１）分遡った時刻を発話終端時刻２８とする。

なお、時間長ｔ_ｅｎｄ１は、発話終端検出条件の基準であるため、実際の発話終端時刻よりも長くなってしまう。そこで、よりもｔ_ｅｎｄ２＜ｔ_ｅｎｄ１の関係を満たす時間長ｔ_ｅｎｄ２を設定することで、より発話終端部に近い時刻を検出することができる。ここで、時間長ｔ_ｅｎｄ２は、例えばニュース原稿を読み上げるような一般的な音声速度の場合、約２００ｍｓｅｃ程度が好ましいが、本発明においてはこれに限定されない。

これにより、音声認識の処理量を削減することができる。また、認識性能の向上を図ることができる。したがって、入力された音声の中から発話区間を迅速且つ高精度に検出することができる。

＜実行プログラム＞
ここで、上述した発話区間検出装置１０は、上述した専用の装置構成等を用いて本発明における発話区間検出処理を行うこともできるが、各構成における処理をコンピュータに実行させることができる実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、サーバ等にそのプログラムをインストールすることにより、本発明に係る発話区間検出処理を実現することができる。

＜ハードウェア構成＞
ここで、本発明における発話区間検出処理が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図５は、本発明における発話区間検出処理が実現可能なハードウェア構成の一例を示す図である。

図５におけるコンピュータ本体には、入力装置４１と、出力装置４２と、ドライブ装置４３と、補助記憶装置４４と、メモリ装置４５と、各種制御を行うＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）４６と、ネットワーク接続装置４７とを有するよう構成されており、これらはシステムバスＢで相互に接続されている。

入力装置４１は、ユーザが操作するキーボード及びマウス等のポインティングデバイスや音声入力デバイス等を有しており、ユーザからのプログラムの実行指示等、各種操作信号、音声信号を入力する。出力装置４２は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイやスピーカ等を有し、ＣＰＵ４６が有する制御プログラムにより実行経過や結果等を表示又は音声出力することができる。

ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、ＣＤ−ＲＯＭ等の記録媒体４８等により提供される。プログラムを記録した記録媒体４８は、ドライブ装置４３にセット可能であり、記録媒体４８に含まれる実行プログラムが、記録媒体４８からドライブ装置４３を介して補助記憶装置４４にインストールされる。

また、ドライブ装置４３は、本発明に係る実行プログラムを記録媒体４８に記録することができる。これにより、その記録媒体４８を用いて、他の複数のコンピュータに容易にインストールすることができ、容易に発話区間検出処理を実現することができる。

補助記憶装置４４は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。また、補助記憶装置４４は、上述したサブワード音響モデル２１やサブワード言語モデル２２、サブワード・ネットワーク２３、入力音声２４、音響特徴量２５、サブワード累積尤度２６、発話始端時刻２７、発話終端時刻２８、及び発話区間音声２９等を蓄積する蓄積手段として用いることもできる。

ＣＰＵ４６は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラム、及び補助記憶装置４４から読み出されメモリ装置４５に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、発話区間検出処理における各処理を実現することができる。また、プログラムの実行中に必要な各種情報等は、補助記憶装置４４から取得することができ、また格納することもできる。

ネットワーク接続装置４７は、電話回線やＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）ケーブル等の通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラムを他の端末等に提供することができる。

上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで上述した発話区間検出処理を実現することができる。また、プログラムをインストールすることにより、容易に発話区間検出処理を実現することができる。

＜発話区間検出処理手順＞
次に、本発明における実行プログラム（発話区間検出プログラム）を用いた発話区間検出処理手順についてフローチャートを用いて説明する。図６は、発話区間検出処理手順の一例を示すフローチャートである。なお、図６に示す発話区間検出処理手順では、検出対象が発話始端であるか又は発話終端であるかを明確にするために検出対象パラメータを設けている。また、以下の説明では、検出対象のパラメータには、“始端”又は“終端”の何れかがセットされているものとして説明するが、本発明においてはこれに限定されるものではない。

図６において、まずプログラム開始直後、複数の話者クラスタのサブワード音響モデルとサブワード言語モデルとを利用して、サブワード・ネットワークを統合し（Ｓ０１）、検索対象のパラメータには初期状態として“始端”とセットする（Ｓ０２）。なお、ここまでの処理は、前処理として予め処理されていてもよい。

次に、音声入力があるか否かを判断し（Ｓ０３）、音声が入力された場合（Ｓ０３において、ＹＥＳ）、１フレーム分の音響特徴量の算出に必要な、例えば２５ミリ秒程度の短い区間の音声をデジタル入力し（Ｓ０４）、入力した音声の音響分析を行う（Ｓ０５）。次に、Ｓ０４の処理にて得られた音響特徴量について、Ｓ０１の処理にて得られたサブワード・ネットワーク上で各累積尤度を算出する（Ｓ０６）。

ここで、検出対象として予め設定されたパラメータに“始端”とセットされているか否かを判断し（Ｓ０７）、“始端”がセットされている場合（Ｓ０７において、ＹＥＳ）、発話始端時刻を出力し（Ｓ０８）、また音声の出力を開始する（Ｓ０９）。また、検出対象のパラメータに“終端”をセットし（Ｓ１０）、Ｓ０３に戻り、以後同様の処理を継続する。

また、Ｓ０７の処理において、検出対象パラメータに“始端”がセットされていない場合（Ｓ０７において、ＮＯ）、検出対象が“終端”であると判断し、発話終端の時刻を出力し（Ｓ１１）、また音声の出力を停止する（Ｓ１２）。

次に、発話区間検出処理を継続するか否かを判断し（Ｓ１３）、継続する場合（Ｓ１３において、ＹＥＳ）、検出対象のパラメータに“始端”をセットし（Ｓ１４）、Ｓ０３に戻り、以後同様の処理を継続する。

また、Ｓ０３の処理において、音声入力がない場合（Ｓ０３において、ＮＯ）、又はＳ１３の処理において、発話区間検出処理を継続しない場合（Ｓ１３において、ＮＯ）、処理を終了する。

上述したように、発話区間検出プログラムを用いた発話区間検出処理により、迅速且つ高精度に音声に対する発話区間を検出することができる。また、プログラムをインストールすることにより、容易に発話区間検出処理を実現することができる。

なお、発話区間検出処理においては、発話始端時刻及び発話終端時刻を出力し（Ｓ０８、Ｓ１１）、更に発話区間の音声を出力したが（Ｓ０９、Ｓ１２）本発明においてはこの限りではなく、例えば、発話始端時刻、発話終端時刻、及び発話区間の音声のうち、少なくとも１つを出力させてもよい。

上述したように本発明によれば、迅速且つ高精度に音声に対する発話区間を検出することができる。具体的には、本発明は、短時間パワーと周波数特性及びそれらの動的特徴量で構成される音響特徴量に対して、複数の話者クラスタのサブワード音響モデルとサブワード言語モデルを統合して高精度且つ簡易なサブワード・ネットワークを構成し、入力音声に対するサブワード単位の連続音声認識の実行中に、スピーチと非スピーチに対応する各音響モデルにおける累積尤度を入力音声に同期して算出及び比較することで、背景雑音が存在する様々な音響環境のもとでも高精度に、オンライン且つ少ない遅れ時間で、入力音声中の人間の声の発話区間を自動検出することが可能になる。

したがって、本発明を音声認識の前処理に利用することで、無音や雑音や音楽等、音声認識に不要な非スピーチ区間を入力音声から自動的に除去し、認識すべきスピーチ区間だけを取り出すことができる。これにより、音声認識の処理量の削減と認識性能の向上が図られる。

また、本発明を音声圧縮の前処理に利用することで、スピーチ区間と非スピーチ区間それぞれに最適な圧縮方式を選択的に適用することが可能となり、圧縮効率を高めることができる。また、本発明を音声データベースの自動ラベリングに利用することで、スピーチ区間と非スピーチ区間のラベリング及びファイルへの分割を自動化でき、作業効率を高めることができる。また、本発明を音声の書き起こしテキスト作成支援に利用することで、スピーチ区間だけを音声から取り出すと共に、音声中の各発話の時刻情報を自動的に付与することができ、作業効率を高めることができる。

更に、本発明を録音装置に利用することで、スピーチ区間だけを録音することができ、テープやメモリ等の録音媒体の節約が可能となる。

つまり、本発明は、放送番組の字幕制作、音声対話システム、音声ワープロ、会議の議事録の自動作成、声による機器の制御等、音声認識や言語処理を利用した様々な分野の技術に適用することができる。

以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

本発明における発話区間検出装置の一構成例を示す図である。話者クラスタ数を２とした場合のサブワード・ネットワークの一例を示す図である。発話始端における音声認識の一例を示す図である。発話終端における音声認識の一例を示す図である。本発明における発話区間検出処理が実現可能なハードウェア構成の一例を示す図である。発話区間検出処理手順の一例を示すフローチャートである。

符号の説明

１０発話区間検出装置
１１サブワード・ネットワーク統合手段
１２音響分析手段
１３連続音声認識手段
１４発話区間検出装置
２１サブワード音響モデル
２２サブワード言語モデル
２３サブワード・ネットワーク
２４入力音声
２５音響特徴量
２６サブワードの列及びそれらの累積尤度
２７発話始端時刻
２８発話終端時刻
２９発話区間音声
３１発話検出開始状態
３２発話始端に相当する話者クラスタＡの非スピーチ音響モデル
３３話者クラスタＡのスピーチ音響モデル
３４発話終端に相当する話者クラスタＡの非スピーチ音響モデル
３５発話始端に相当する話者クラスタＢの非スピーチ音響モデル
３６話者クラスタＢのスピーチ音響モデル
３７発話終端に相当する話者クラスタＢの非スピーチ音響モデル
３８発話検出終了状態
４１入力装置
４２出力装置
４３ドライブ装置
４４補助記憶装置
４５メモリ装置
４６ＣＰＵ
４７ネットワーク接続装置
４８記録媒体

Claims

入力音声から発話区間を検出する発話区間検出装置において、
前記入力音声を音響特徴量に変換する音響分析手段と、
前記音響分析手段により得られる音響特徴量と、予め設定された音響モデル及び言語モデルからなるサブワード・ネットワークとを用いて、前記入力音声に同期して、音素又は音節に基づく各サブワードにおける累積尤度を逐次算出する連続音声認識手段と、
前記各サブワードにおける累積尤度から前記入力音声における発話始端と発話終端とを逐次検出する発話区間検出手段と、
音声と音声以外の音との音響的な特徴を表現する１又は複数の話者クラスタを有するサブワード音響モデルと、サブワード音響モデル間の遷移を表現するサブワード言語モデルとを用いて、前記サブワード・ネットワークを統合化するサブワード・ネットワーク統合手段とを有し、
前記連続音声認識手段は、前記サブワード・ネットワークにおける発話区間検出開始状態から非スピーチあるいはスピーチに対応する音響モデルに遷移した後、一定の時間長にわたって発話始端検出条件が満たされなかった場合に、非スピーチ音響モデルから発話区間検出開始状態に戻ると同時に、全ての音響モデルにおける累積尤度等の音声認識の途中結果をクリアし、発話区間検出開始時刻を更新して再度サブワード単位の連続音声認識を開始し、
前記サブワード・ネットワーク統合手段は、
前記発話区間検出開始状態から全ての話者クラスタの非スピーチに対応する音響モデルへの遷移、前記非スピーチ音響モデルからそれぞれの話者クラスタのスピーチに対応する音響モデルへのサブワード言語モデルにしたがった遷移、一定の時間長にわたって非スピーチを吸収するために非スピーチ音響モデルから前記発話区間検出開始状態へ戻る遷移、各話者クラスタのスピーチに対応する音響モデル間でサブワード言語モデルにしたがった遷移、各話者クラスタのスピーチに対応する音響モデルから異なる話者クラスタのスピーチに対応する音響モデルへのペナルティ付き遷移、各話者クラスタのスピーチに対応する音響モデルからそれぞれの非スピーチに対応する音響モデルへのサブワード言語モデルにしたがった遷移、前記発話終端検出条件にしたがった発話区間検出終了状態への遷移、及び前記発話区間検出終了状態から前記発話区間検出開始状態への遷移のうち、少なくとも１つの遷移を可能とするサブワード・ネットワークを構成し、
前記発話区間検出手段は、
発話始端を検出する際、発話区間検出開始時刻から現時刻までの全入力音声に対して、全話者クラスタのスピーチに対応する音響モデルのうち、最大の累積尤度と、発話区間検出開始状態の後続の同じ話者クラスタの非スピーチに対応する音響モデルの累積尤度との比を入力音声に同期して逐次算出し、算出された比の値と予め設定された閾値とに基づいて、最大の累積尤度を示すサブワード列の始端の非スピーチ音響モデルの終端時刻から、一定の時間長遡った時刻を発話始端として検出することを特徴とする発話区間検出装置。
前記発話区間検出手段は、
発話終端を検出する際、発話区間検出開始時刻から現時刻までの全入力音声に対して、全話者クラスタのスピーチに対応する音響モデルに後続する非スピーチに対応する音響モデルのうち最大の累積尤度と、同じ話者クラスタのスピーチに対応する音響モデルの最大の累積尤度との比を入力音声に同期して逐次算出し、算出された比の値が一定の時間長以上にわたって予め設定された閾値を超えていた場合、前記現時刻から一定の時間長遡った時刻を発話終端として検出することを特徴とする請求項１に記載の発話区間検出装置。
前記発話区間検出手段は、
前記発話始端及び前記発話終端の時刻情報に基づいて前記入力音声から発話区間の音声を出力することを特徴とする請求項１又は２に記載の発話区間検出装置。
コンピュータを、請求項１乃至３の何れか１項に記載の発話区間検出装置が有する各手段として機能させるための発話区間検出プログラム。