JP4791857B2 - 発話区間検出装置及び発話区間検出プログラム - Google Patents

発話区間検出装置及び発話区間検出プログラム Download PDF

Info

Publication number
JP4791857B2
JP4791857B2 JP2006056234A JP2006056234A JP4791857B2 JP 4791857 B2 JP4791857 B2 JP 4791857B2 JP 2006056234 A JP2006056234 A JP 2006056234A JP 2006056234 A JP2006056234 A JP 2006056234A JP 4791857 B2 JP4791857 B2 JP 4791857B2
Authority
JP
Japan
Prior art keywords
speech
utterance
subword
acoustic
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006056234A
Other languages
English (en)
Other versions
JP2007233148A (ja
Inventor
亨 今井
庄衛 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2006056234A priority Critical patent/JP4791857B2/ja
Publication of JP2007233148A publication Critical patent/JP2007233148A/ja
Application granted granted Critical
Publication of JP4791857B2 publication Critical patent/JP4791857B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、発話区間検出装置及び発話区間検出プログラムに係り、特に迅速且つ効率的に音声に対する発話区間を検出するための発話区間検出装置及び発話区間検出プログラムに関する。
放送番組の字幕制作やメタデータ制作等に用いられる音声認識では、雑音環境や対談における発話検出性能の向上、男女の話者が混在した音声の認識性能の向上が重要である。そこで、従来では、単語や音声等から発話区間を検出する様々な手法が提案されている。例えば、従来の発話区間検出方法には、短時間パワーを利用した手法(例えば、非特許文献1、特許文献1参照。)や、音素認識結果による手法(例えば、非特許文献2参照。)、認識時の尤度を用いた手法(例えば、特許文献2参照。)、局所的な音声/非音声の尤度比による手法(例えば、特許文献3参照。)が知られている。
ここで、短時間パワーを利用した手法は、スピーチに対する短時間パワーの閾値と非スピーチに対する短時間パワーの閾値とを設け、入力音声の短時間パワーがスピーチの閾値を超えた時、そのしばらく前の時点を発話始端とし、入力音声の短時間パワーが非スピーチの閾値を下回った時を発話終端とするもので、2つの閾値を入力音声の短時間パワーの変動に合わせて動的に変化させて、雑音等の影響を軽減しようとするものである。
また、音素認識結果による手法は、音素単位の連続音声認識を実行し、非スピーチとして認識された部分を発話始終端として同定するものである。また、認識時の尤度を用いた手法は、発話中のポーズを検出することで発話区間を検出するものである。更に、局所的な音声/非音声の尤度比による手法は、短い音声区間で独立に音声/非音声を判定するものである。
P. Renevey,et al.,"Entropy Based Voice Activity Detection in Vary Noisy Conditions",Eurospeech−2001,pp.1887−1890,2001. 特開2005−31632号公報 F.Kubala,et al.,"The 1996 BBN Byblos HUB−4 Transcription System",DARPA Speech Recognition Workshop,pp.90−93,1997. 特開平9−258765号公報 特許第3105465号公報
しかしながら、上述した発話検出手法において、まず短時間パワーを利用した手法の場合は、非常に簡便であり広く一般に利用されているが、音声に雑音がない場合であっても、発話の始端で十分にパワーが上がらない「日本」や「北海道」等の単語の始端を取りこぼす場合が多く、こうした低S/N比音声の発話検出性能は実用上十分ではない。
また、音素認識結果による手法は、オフライン処理では問題ないものの、音素認識結果の取得に入力音声からの大きな時間遅れが生じるため、オンライン処理には向いていない。
また、認識時の尤度を用いた手法は、発話終端はポーズそのものであるために問題はないものの、発話始端については発話中あるいは発話終端のポーズを検出するまで定まらないため、例えばポーズがなかなか出現しない原稿読み上げ等の発話においては、入力音声からの時間遅れが問題となる。
更に、局所的な音声/非音声の尤度比による手法は、短い音声区間で独立に音声/非音声を判定するものであるが、長い音声区間でみると判定結果にばらつきが生じるため、平均値処理等の経験的な平滑化処理が必要になり、様々な音響環境のもとでの発話区間検出の最適化が容易ではない。
本発明は、上述した問題点に鑑みなされたものであり、迅速且つ高精度に発話区間を検出するための発話区間検出装置及び発話区間検出プログラムを提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
請求項1に記載された発明は、入力音声から発話区間を検出する発話区間検出装置において、前記入力音声を音響特徴量に変換する音響分析手段と、前記音響分析手段により得られる音響特徴量と、予め設定された音響モデル及び言語モデルからなるサブワード・ネットワークとを用いて、前記入力音声に同期して、音素及び/又は音節に基づく各サブワードにおける累積尤度を逐次算出する連続音声認識手段と、前記各サブワードにおける累積尤度から前記入力音声における発話始端と発話終端とを逐次検出する発話区間検出手段と音声と音声以外の音との音響的な特徴を表現する1又は複数の話者クラスタを有するサブワード音響モデルと、サブワード音響モデル間の遷移を表現するサブワード言語モデルとを用いて、前記サブワード・ネットワークを統合化するサブワード・ネットワーク統合手段を有し、前記連続音声認識手段は、前記サブワード・ネットワークにおける発話区間検出開始状態から非スピーチあるいはスピーチに対応する音響モデルに遷移した後、一定の時間長にわたって発話始端検出条件が満たされなかった場合に、非スピーチ音響モデルから発話区間検出開始状態に戻ると同時に、全ての音響モデルにおける累積尤度等の音声認識の途中結果をクリアし、発話区間検出開始時刻を更新して再度サブワード単位の連続音声認識を開始し、前記サブワード・ネットワーク統合手段は、前記発話区間検出開始状態から全ての話者クラスタの非スピーチに対応する音響モデルへの遷移、前記非スピーチ音響モデルからそれぞれの話者クラスタのスピーチに対応する音響モデルへのサブワード言語モデルにしたがった遷移、一定の時間長にわたって非スピーチを吸収するために非スピーチ音響モデルから前記発話区間検出開始状態へ戻る遷移、各話者クラスタのスピーチに対応する音響モデル間でサブワード言語モデルにしたがった遷移、各話者クラスタのスピーチに対応する音響モデルから異なる話者クラスタのスピーチに対応する音響モデルへのペナルティ付き遷移、各話者クラスタのスピーチに対応する音響モデルからそれぞれの非スピーチに対応する音響モデルへのサブワード言語モデルにしたがった遷移、前記発話終端検出条件にしたがった発話区間検出終了状態への遷移、及び前記発話区間検出終了状態から前記発話区間検出開始状態への遷移のうち、少なくとも1つの遷移を可能とするサブワード・ネットワークを構成し、前記発話区間検出手段は、発話始端を検出する際、発話区間検出開始時刻から現時刻までの全入力音声に対して、全話者クラスタのスピーチに対応する音響モデルのうち、最大の累積尤度と、発話区間検出開始状態の後続の同じ話者クラスタの非スピーチに対応する音響モデルの累積尤度との比を入力音声に同期して逐次算出し、算出された比の値と予め設定された閾値とに基づいて、最大の累積尤度を示すサブワード列の始端の非スピーチ音響モデルの終端時刻から、一定の時間長遡った時刻を発話始端として検出することを特徴とする。
請求項1記載の発明によれば、迅速且つ高精度に発話区間を検出することができる。したがって、無音や雑音や音楽等、音声認識に不要な非スピーチ区間を入力音声から自動的に除去し、認識すべきスピーチ区間だけを取り出すことができる。これにより、音声認識の処理量の削減と認識性能の向上が図られる。また、男女の話者が混在した入力音声にも対応した高精度なサブワード・ネットワークを生成することができる。また、発話始端を検出するまでの長い非音声を吸収することができる。したがって、高精度に発話始端を検出することができる。更に、それぞれの状態遷移を行うことにより、サブワードの高精度化を図ることができる。
請求項に記載された発明は、前記発話区間検出手段は、発話終端を検出する際、発話区間検出開始時刻から現時刻までの全入力音声に対して、全話者クラスタのスピーチに対応する音響モデルに後続する非スピーチに対応する音響モデルのうち最大の累積尤度と、同じ話者クラスタのスピーチに対応する音響モデルの最大の累積尤度との比を入力音声に同期して逐次算出し、算出された比の値が一定の時間長以上にわたって予め設定された閾値を超えていた場合、前記現時刻から一定の時間長遡った時刻を発話終端として検出することを特徴とする。
請求項記載の発明によれば、迅速且つ高精度に発話終端を検出することができる。
請求項に記載された発明は、前記発話区間検出手段は、前記発話始端及び前記発話終端の時刻情報に基づいて前記入力音声から発話区間の音声を出力することを特徴とする。
請求項記載の発明によれば、発話始端及び発話終端の時刻情報に基づいて迅速且つ高精度に発話区間の音声を出力することができる。
請求項に記載された発明は、コンピュータを、請求項1乃至3の何れか1項に記載の発話区間検出装置が有する各手段として機能させるための発話区間検出プログラムである
請求項記載の発明によれば、迅速且つ高精度に発話区間を検出することができる。したがって、無音や雑音や音楽等、音声認識に不要な非スピーチ区間を入力音声から自動的に除去し、認識すべきスピーチ区間だけを取り出すことができる。これにより、音声認識の処理量の削減と認識性能の向上が図られる。また、男女の話者が混在した入力音声にも対応した高精度なサブワード・ネットワークを生成することができる。また、発話始端を検出するまでの長い非音声を吸収することができる。したがって、高精度に発話始端を検出することができる。また、それぞれの状態遷移を行うことにより、サブワードの高精度化を図ることができる。更に、実行プログラムをコンピュータにインストールすることにより、容易に発話区間を検出することができる。
本発明によれば、迅速且つ高精度に発話区間を検出することができる。
<本発明の概要>
本発明は、様々な音響環境のもとで話された人間の声の発話区間を、音声中からオンラインで迅速に自動検出する発話区間検出手法に関するものである。具体的には、複数の話者クラスタのサブワード音響モデルとサブワード言語モデルとを統合してサブワード・ネットワークを構成し、入力音声に対するサブワード(例えば、音素、音節、トライフォン等)単位の連続音声認識の実行中に、スピーチと非スピーチに対応する各サブワードにおける累積尤度を入力音声に同期して算出及び比較することにより、少ない遅れ時間で高精度に発話始端と発話終端を検出する。
以下に、上記のような特徴を有する本発明における発話区間検出装置及び発話区間検出プログラムを好適に実施した形態について、図面を用いて詳細に説明する。
<発話区間検出装置:装置構成>
図1は、本発明における発話区間検出装置の一構成例を示す図である。図1に示す発話区間検出装置10は、サブワード・ネットワーク統合手段11と、音響分析手段12と、連続音声認識手段13と、発話区間検出装置14とを有するよう構成されている。
サブワード・ネットワーク統合手段11は、1又は複数の話者クラスタのサブワード音響モデル21と、予め設定されたサブワード言語モデル22とを利用して、サブワード・ネットワーク23を生成し、連続音声認識手段13に出力する。
ここで、サブワード音響モデル21は、例えば話者クラスタ数を2とした場合、話者クラスタAを男性、話者クラスタBを女性、あるいは話者クラスタAを広帯域音声、話者クラスタBを狭帯域音声等として、サブワードを音響環境依存あるいは音響環境非依存の音素や音節とする等、任意に設定することができる。なお、サブワード音響モデルの話者クラスタ数は、3以上でもよく、単数でもよい。
また、サブワード言語モデル22は、例えば音素連鎖確率モデルあるいは音節連鎖確率モデル等、既存の連鎖確率モデルを任意に設定することができる。なお、サブワード・ネットワーク23については、後述する。
また、音響分析手段12は、発話検出対象となる入力音声24を入力し、音響特徴量25に変換して出力する。なお、音響特徴量25は、サブワード音響モデル21を学習するために使用した音響特徴量と同じ構成とし、例えば周波数特性を表すケプストラム、短時間パワー、それらの動的特徴量等とすることができる。ここで、以下の説明では、発話の始端検出開始時刻τから現時刻tまでの音響特徴量25の列をxτ tとする。
連続音声認識手段13は、音響特徴量25の入力に同期してサブワード・ネットワーク23にしたがって状態遷移を行いつつ、発話の始端検出開始時刻τから現時刻tまでの音響特徴量25の列xτ tに対応する可能性のある複数のサブワードの列及びそれらの累積尤度26を、例えば隠れマルコフモデルを利用した時間同期ビームサーチ音声認識手法(例えば、中川聖一、「確率モデルによる音声認識」、電子情報通信学会、pp.44−46,1988等)により逐次求めていく。なお、連続音声認識手段13におけるサブワードの列及びそれらの累積尤度26の認識手法については後述する。
発話区間検出手段14は、連続音声認識手段13により得られるサブワード累積尤度26に基づいて、入力音声24における1又は複数の発話始端と発話終端とを検出する。具体的には、発話区間検出手段14は、入力音声24に付与された時刻(タイムレコード)に対応した発話始端時刻27、発話終端時刻28を出力する。また、発話区間検出手段14は、発話始端時刻27及び発話終端時刻28に対応させた発話区間音声29を出力してもよい。上述した発話区間検出装置10の構成により、発話区間を迅速且つ高精度に検出することができる。
なお、上述した発話区間検出装置10では、サブワード・ネットワーク統合手段11により話者クラスタのサブワード音響モデル21とサブワード言語モデル22とからサブワード・ネットワーク23を生成していたが、本発明においてはこの限りではなく、予めサブワード・ネットワーク23を生成し連続音声認識手段13や他の蓄積手段(図示せず)に蓄積しておいてもよい。
<サブワード・ネットワーク23>
ここで、上述したサブワード・ネットワークについて、具体的に説明する。図2は、話者クラスタ数を2とした場合のサブワード・ネットワークの一例を示す図である。
図2に示す話者クラスタ数を2としたサブワード・ネットワーク23は、発話検出開始状態31と、発話始端に相当する話者クラスタAの非スピーチ音響モデル32と、話者クラスタAのスピーチ音響モデル33と、発話終端に相当する話者クラスタAの非スピーチ音響モデル34と、発話始端に相当する話者クラスタBの非スピーチ音響モデル35と、話者クラスタBのスピーチ音響モデル36と、発話終端に相当する話者クラスタBの非スピーチ音響モデル37と、発話検出終了状態38とを有するよう構成することができる。
ここで、音響モデルには、例えば隠れマルコフモデルを利用することができ、非スピーチ音響モデルはスピーチ以外の無音、雑音、音楽等の音声から事前に学習しておくものとし、スピーチ音響モデルはスピーチの音声から母音や子音等の音素や音節等のサブワード単位で事前に学習しておくものとする。
図2において、発話検出開始状態31から話者クラスタAの非スピーチ音響モデル32及び話者クラスタBの非スピーチ音響モデル35へは、発話区間検出開始直後に制約なしで遷移することができる(図2における矢印*1)。
また、話者クラスタAの非スピーチ音響モデル32及び34と、話者クラスタAのスピーチ音響モデル33との間は、サブワード言語モデル22にしたがって遷移することができる(図における矢印*2)。
同様に、話者クラスタBの非スピーチ音響モデル35及び37と、話者クラスタBのスピーチ音響モデル36との間は、サブワード言語モデル22にしたがって遷移することができる(図2における矢印*2)。
また、話者クラスタAの非スピーチ音響モデル32及び話者クラスタBの非スピーチ音響モデル35から発話検出開始状態31へは、予め設定される一定の時間長にわたって発話始端検出条件が満たされなかった場合に遷移することができる(図2における矢印*3)。
また、話者クラスタAのスピーチ音響モデル33と話者クラスタBのスピーチ音響モデル36との間は、異なる話者クラスタへ所定のペナルティ付きで遷移することができる(図2における矢印*4)。
また、話者クラスタAの非スピーチ音響モデル34と話者クラスタBの非スピーチ音響モデル37とから発話検出終了状態38へは、発話終端検出条件にしたがって遷移することができる(図2における矢印*5)。更に、発話検出終了状態38から発話検出開始状態31へは、発話終端検出直後に次の発話のために制約なしで遷移することができる(図2における矢印*6)。
なお、話者クラスタAの非スピーチ音響モデル32と話者クラスタBの非スピーチ音響モデル35とは、纏めて1つの非スピーチ音響モデルとして構成することも可能である。同様に、話者クラスタAの非スピーチ音響モデル34と話者クラスタBの非スピーチ音響モデル37とは、纏めて1つの非スピーチ音響モデルとして構成することも可能である。
ここで、話者クラスタAの非スピーチ音響モデル32及び34は、異なる状態として表現しているが、その統計的性質は全く同じものでもよい。同様に、話者クラスタBの非スピーチ音響モデル35及び37は、異なる状態として表現してるが、その統計的性質は全く同じものでもよい。
本発明におけるサブワード・ネットワーク統合手段11は、1又は複数の話者クラスタ数において上述した遷移のうち少なくとも1つを用いてサブワード・ネットワーク23を統合することができる。
<サブワードの列及びそれらの累積尤度26>
次に、連続音声認識手段13におけるサブワードの列及びそれらの累積尤度26の認識手法について具体的に説明する。図3は、発話始端における音声認識の一例を示す図である。また、図4は、発話終端における音声認識の一例を示す図である。
例えば、サブワード音響モデル21の話者クラスタ数が2であって、時間同期ビームサーチ音声認識処理を行う際に、話者クラスタS∈{A,B}の非スピーチ音響モデルをsilとし、話者クラスタSのスピーチ音響モデルをphS,iとした場合(ここで、iは音素等のサブワード番号を示す)、発話始端では、図3に示すような音響特徴量25に対応する可能性のある複数のサブワード列に対して、最尤サブワード列の累積尤度の対数値を以下に示す(1)式により逐次求める。
Figure 0004791857
更に、始端の非スピーチ音響モデルの累積尤度の対数値を以下に示す(2)式により逐次求める。
Figure 0004791857
また、発話終端では、図4に示すような発話の始端検出開始時刻τから現時刻tまでの音響特徴量25の列xτ tに対応する可能性のある複数のサブワード列に対して、全話者クラスタのスピーチに対応する音響モデルに後続し、非スピーチに対応する音響モデルのうち、最大の累積尤度の対数値を以下に示す(3)式により逐次求める。
Figure 0004791857
更に、同じ話者クラスタのスピーチに対応する音響モデルの最大の累積尤度の対数値を以下に示す(4)式により逐次求める。
Figure 0004791857
なお、連続音声認識中は、話者クラスタ間のサブワード音響モデルの遷移を許可するものとし、話者クラスタ間のサブワード音響モデルの遷移を許可する場合、一定のペナルティのスコアをサブワード累積尤度の対数値に付加する。上述した処理を行うことで、連続音声認識手段13は高精度なサブワード累積尤度26を出力することができる。
なお、連続音声認識手段13は、サブワード・ネットワーク23における発話区間検出開始状態から非スピーチあるいはスピーチに対応する音響モデルに遷移した後、一定の時間長tidleにわたって継続して予め設定された後述する発話始端検出条件が満たされなかった場合に、非スピーチ音響モデルから発話区間検出開始状態に戻ると同時に、全ての音響モデルにおける累積尤度等の音声認識の途中結果をクリア(リセット)し、発話区間検出開始時刻τを現時刻tに更新して再度サブワード単位の連続音声認識を開始する。これにより、発話始端を検出するまでの長い非音声を吸収することができる。したがって、高精度に発話始端を検出することができる。
<発話区間検出手段14>
次に、発話区間検出手段14について具体的に説明する。発話区間検出手段14は、発話始端では、最尤サブワード列の累積尤度の対数値Lと、始端の非スピーチ音響モデルの累積尤度の対数値Lの差が一定の閾値θstartを超えた時、すなわち(L−L)>θstartとなる時、これを発話始端検出条件として、図3に示すように最大の累積尤度を示すサブワード列の始端の非スピーチ音響モデルの終端時刻から、所定の時間長tstart遡った時刻を発話始端時刻27とする。
なお、時間長tstartは、例えばニュース原稿を読み上げるような一般的な音声速度の場合、約200msec程度が好ましいが、本発明においてはこれに限定されない。
一方、発話終端では、終端が非スピーチ音響モデルとなる最尤サブワード列のうち最大の累積尤度の対数値Lと、同話者クラスタのスピーチ音響モデルを終端とする最尤サブワード列の累積尤度の対数値Lとの差が、一定の閾値θendを時間長tend1継続して超えた場合、すなわちtend1継続して(L−L)>θendとなる時、これを発話終端検出条件として、図4に示すように、現時刻tから時間長tend1を基準とした所定の時間長tend2(tend2<tend1)分遡った時刻を発話終端時刻28とする。
なお、時間長tend1は、発話終端検出条件の基準であるため、実際の発話終端時刻よりも長くなってしまう。そこで、よりもtend2<tend1の関係を満たす時間長tend2を設定することで、より発話終端部に近い時刻を検出することができる。ここで、時間長tend2は、例えばニュース原稿を読み上げるような一般的な音声速度の場合、約200msec程度が好ましいが、本発明においてはこれに限定されない。
これにより、音声認識の処理量を削減することができる。また、認識性能の向上を図ることができる。したがって、入力された音声の中から発話区間を迅速且つ高精度に検出することができる。
<実行プログラム>
ここで、上述した発話区間検出装置10は、上述した専用の装置構成等を用いて本発明における発話区間検出処理を行うこともできるが、各構成における処理をコンピュータに実行させることができる実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、サーバ等にそのプログラムをインストールすることにより、本発明に係る発話区間検出処理を実現することができる。
<ハードウェア構成>
ここで、本発明における発話区間検出処理が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図5は、本発明における発話区間検出処理が実現可能なハードウェア構成の一例を示す図である。
図5におけるコンピュータ本体には、入力装置41と、出力装置42と、ドライブ装置43と、補助記憶装置44と、メモリ装置45と、各種制御を行うCPU(Central Processing Unit)46と、ネットワーク接続装置47とを有するよう構成されており、これらはシステムバスBで相互に接続されている。
入力装置41は、ユーザが操作するキーボード及びマウス等のポインティングデバイスや音声入力デバイス等を有しており、ユーザからのプログラムの実行指示等、各種操作信号、音声信号を入力する。出力装置42は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイやスピーカ等を有し、CPU46が有する制御プログラムにより実行経過や結果等を表示又は音声出力することができる。
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、CD−ROM等の記録媒体48等により提供される。プログラムを記録した記録媒体48は、ドライブ装置43にセット可能であり、記録媒体48に含まれる実行プログラムが、記録媒体48からドライブ装置43を介して補助記憶装置44にインストールされる。
また、ドライブ装置43は、本発明に係る実行プログラムを記録媒体48に記録することができる。これにより、その記録媒体48を用いて、他の複数のコンピュータに容易にインストールすることができ、容易に発話区間検出処理を実現することができる。
補助記憶装置44は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。また、補助記憶装置44は、上述したサブワード音響モデル21やサブワード言語モデル22、サブワード・ネットワーク23、入力音声24、音響特徴量25、サブワード累積尤度26、発話始端時刻27、発話終端時刻28、及び発話区間音声29等を蓄積する蓄積手段として用いることもできる。
CPU46は、OS(Operating System)等の制御プログラム、及び補助記憶装置44から読み出されメモリ装置45に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、発話区間検出処理における各処理を実現することができる。また、プログラムの実行中に必要な各種情報等は、補助記憶装置44から取得することができ、また格納することもできる。
ネットワーク接続装置47は、電話回線やLAN(Local Area Network)ケーブル等の通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラムを他の端末等に提供することができる。
上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで上述した発話区間検出処理を実現することができる。また、プログラムをインストールすることにより、容易に発話区間検出処理を実現することができる。
<発話区間検出処理手順>
次に、本発明における実行プログラム(発話区間検出プログラム)を用いた発話区間検出処理手順についてフローチャートを用いて説明する。図6は、発話区間検出処理手順の一例を示すフローチャートである。なお、図6に示す発話区間検出処理手順では、検出対象が発話始端であるか又は発話終端であるかを明確にするために検出対象パラメータを設けている。また、以下の説明では、検出対象のパラメータには、“始端”又は“終端”の何れかがセットされているものとして説明するが、本発明においてはこれに限定されるものではない。
図6において、まずプログラム開始直後、複数の話者クラスタのサブワード音響モデルとサブワード言語モデルとを利用して、サブワード・ネットワークを統合し(S01)、検索対象のパラメータには初期状態として“始端”とセットする(S02)。なお、ここまでの処理は、前処理として予め処理されていてもよい。
次に、音声入力があるか否かを判断し(S03)、音声が入力された場合(S03において、YES)、1フレーム分の音響特徴量の算出に必要な、例えば25ミリ秒程度の短い区間の音声をデジタル入力し(S04)、入力した音声の音響分析を行う(S05)。次に、S04の処理にて得られた音響特徴量について、S01の処理にて得られたサブワード・ネットワーク上で各累積尤度を算出する(S06)。
ここで、検出対象として予め設定されたパラメータに“始端”とセットされているか否かを判断し(S07)、“始端”がセットされている場合(S07において、YES)、発話始端時刻を出力し(S08)、また音声の出力を開始する(S09)。また、検出対象のパラメータに“終端”をセットし(S10)、S03に戻り、以後同様の処理を継続する。
また、S07の処理において、検出対象パラメータに“始端”がセットされていない場合(S07において、NO)、検出対象が“終端”であると判断し、発話終端の時刻を出力し(S11)、また音声の出力を停止する(S12)。
次に、発話区間検出処理を継続するか否かを判断し(S13)、継続する場合(S13において、YES)、検出対象のパラメータに“始端”をセットし(S14)、S03に戻り、以後同様の処理を継続する。
また、S03の処理において、音声入力がない場合(S03において、NO)、又はS13の処理において、発話区間検出処理を継続しない場合(S13において、NO)、処理を終了する。
上述したように、発話区間検出プログラムを用いた発話区間検出処理により、迅速且つ高精度に音声に対する発話区間を検出することができる。また、プログラムをインストールすることにより、容易に発話区間検出処理を実現することができる。
なお、発話区間検出処理においては、発話始端時刻及び発話終端時刻を出力し(S08、S11)、更に発話区間の音声を出力したが(S09、S12)本発明においてはこの限りではなく、例えば、発話始端時刻、発話終端時刻、及び発話区間の音声のうち、少なくとも1つを出力させてもよい。
上述したように本発明によれば、迅速且つ高精度に音声に対する発話区間を検出することができる。具体的には、本発明は、短時間パワーと周波数特性及びそれらの動的特徴量で構成される音響特徴量に対して、複数の話者クラスタのサブワード音響モデルとサブワード言語モデルを統合して高精度且つ簡易なサブワード・ネットワークを構成し、入力音声に対するサブワード単位の連続音声認識の実行中に、スピーチと非スピーチに対応する各音響モデルにおける累積尤度を入力音声に同期して算出及び比較することで、背景雑音が存在する様々な音響環境のもとでも高精度に、オンライン且つ少ない遅れ時間で、入力音声中の人間の声の発話区間を自動検出することが可能になる。
したがって、本発明を音声認識の前処理に利用することで、無音や雑音や音楽等、音声認識に不要な非スピーチ区間を入力音声から自動的に除去し、認識すべきスピーチ区間だけを取り出すことができる。これにより、音声認識の処理量の削減と認識性能の向上が図られる。
また、本発明を音声圧縮の前処理に利用することで、スピーチ区間と非スピーチ区間それぞれに最適な圧縮方式を選択的に適用することが可能となり、圧縮効率を高めることができる。また、本発明を音声データベースの自動ラベリングに利用することで、スピーチ区間と非スピーチ区間のラベリング及びファイルへの分割を自動化でき、作業効率を高めることができる。また、本発明を音声の書き起こしテキスト作成支援に利用することで、スピーチ区間だけを音声から取り出すと共に、音声中の各発話の時刻情報を自動的に付与することができ、作業効率を高めることができる。
更に、本発明を録音装置に利用することで、スピーチ区間だけを録音することができ、テープやメモリ等の録音媒体の節約が可能となる。
つまり、本発明は、放送番組の字幕制作、音声対話システム、音声ワープロ、会議の議事録の自動作成、声による機器の制御等、音声認識や言語処理を利用した様々な分野の技術に適用することができる。
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
本発明における発話区間検出装置の一構成例を示す図である。 話者クラスタ数を2とした場合のサブワード・ネットワークの一例を示す図である。 発話始端における音声認識の一例を示す図である。 発話終端における音声認識の一例を示す図である。 本発明における発話区間検出処理が実現可能なハードウェア構成の一例を示す図である。 発話区間検出処理手順の一例を示すフローチャートである。
符号の説明
10 発話区間検出装置
11 サブワード・ネットワーク統合手段
12 音響分析手段
13 連続音声認識手段
14 発話区間検出装置
21 サブワード音響モデル
22 サブワード言語モデル
23 サブワード・ネットワーク
24 入力音声
25 音響特徴量
26 サブワードの列及びそれらの累積尤度
27 発話始端時刻
28 発話終端時刻
29 発話区間音声
31 発話検出開始状態
32 発話始端に相当する話者クラスタAの非スピーチ音響モデル
33 話者クラスタAのスピーチ音響モデル
34 発話終端に相当する話者クラスタAの非スピーチ音響モデル
35 発話始端に相当する話者クラスタBの非スピーチ音響モデル
36 話者クラスタBのスピーチ音響モデル
37 発話終端に相当する話者クラスタBの非スピーチ音響モデル
38 発話検出終了状態
41 入力装置
42 出力装置
43 ドライブ装置
44 補助記憶装置
45 メモリ装置
46 CPU
47 ネットワーク接続装置
48 記録媒体

Claims (4)

  1. 入力音声から発話区間を検出する発話区間検出装置において、
    前記入力音声を音響特徴量に変換する音響分析手段と、
    前記音響分析手段により得られる音響特徴量と、予め設定された音響モデル及び言語モデルからなるサブワード・ネットワークとを用いて、前記入力音声に同期して、音素又は音節に基づく各サブワードにおける累積尤度を逐次算出する連続音声認識手段と、
    前記各サブワードにおける累積尤度から前記入力音声における発話始端と発話終端とを逐次検出する発話区間検出手段と
    音声と音声以外の音との音響的な特徴を表現する1又は複数の話者クラスタを有するサブワード音響モデルと、サブワード音響モデル間の遷移を表現するサブワード言語モデルとを用いて、前記サブワード・ネットワークを統合化するサブワード・ネットワーク統合手段を有し、
    前記連続音声認識手段は、前記サブワード・ネットワークにおける発話区間検出開始状態から非スピーチあるいはスピーチに対応する音響モデルに遷移した後、一定の時間長にわたって発話始端検出条件が満たされなかった場合に、非スピーチ音響モデルから発話区間検出開始状態に戻ると同時に、全ての音響モデルにおける累積尤度等の音声認識の途中結果をクリアし、発話区間検出開始時刻を更新して再度サブワード単位の連続音声認識を開始し、
    前記サブワード・ネットワーク統合手段は、
    前記発話区間検出開始状態から全ての話者クラスタの非スピーチに対応する音響モデルへの遷移、前記非スピーチ音響モデルからそれぞれの話者クラスタのスピーチに対応する音響モデルへのサブワード言語モデルにしたがった遷移、一定の時間長にわたって非スピーチを吸収するために非スピーチ音響モデルから前記発話区間検出開始状態へ戻る遷移、各話者クラスタのスピーチに対応する音響モデル間でサブワード言語モデルにしたがった遷移、各話者クラスタのスピーチに対応する音響モデルから異なる話者クラスタのスピーチに対応する音響モデルへのペナルティ付き遷移、各話者クラスタのスピーチに対応する音響モデルからそれぞれの非スピーチに対応する音響モデルへのサブワード言語モデルにしたがった遷移、前記発話終端検出条件にしたがった発話区間検出終了状態への遷移、及び前記発話区間検出終了状態から前記発話区間検出開始状態への遷移のうち、少なくとも1つの遷移を可能とするサブワード・ネットワークを構成し、
    前記発話区間検出手段は、
    発話始端を検出する際、発話区間検出開始時刻から現時刻までの全入力音声に対して、全話者クラスタのスピーチに対応する音響モデルのうち、最大の累積尤度と、発話区間検出開始状態の後続の同じ話者クラスタの非スピーチに対応する音響モデルの累積尤度との比を入力音声に同期して逐次算出し、算出された比の値と予め設定された閾値とに基づいて、最大の累積尤度を示すサブワード列の始端の非スピーチ音響モデルの終端時刻から、一定の時間長遡った時刻を発話始端として検出することを特徴とする発話区間検出装置。
  2. 前記発話区間検出手段は、
    発話終端を検出する際、発話区間検出開始時刻から現時刻までの全入力音声に対して、全話者クラスタのスピーチに対応する音響モデルに後続する非スピーチに対応する音響モデルのうち最大の累積尤度と、同じ話者クラスタのスピーチに対応する音響モデルの最大の累積尤度との比を入力音声に同期して逐次算出し、算出された比の値が一定の時間長以上にわたって予め設定された閾値を超えていた場合、前記現時刻から一定の時間長遡った時刻を発話終端として検出することを特徴とする請求項に記載の発話区間検出装置。
  3. 前記発話区間検出手段は、
    前記発話始端及び前記発話終端の時刻情報に基づいて前記入力音声から発話区間の音声を出力することを特徴とする請求項1又は2に記載の発話区間検出装置。
  4. コンピュータを、請求項1乃至3の何れか1項に記載の発話区間検出装置が有する各手段として機能させるための発話区間検出プログラム。
JP2006056234A 2006-03-02 2006-03-02 発話区間検出装置及び発話区間検出プログラム Active JP4791857B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006056234A JP4791857B2 (ja) 2006-03-02 2006-03-02 発話区間検出装置及び発話区間検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006056234A JP4791857B2 (ja) 2006-03-02 2006-03-02 発話区間検出装置及び発話区間検出プログラム

Publications (2)

Publication Number Publication Date
JP2007233148A JP2007233148A (ja) 2007-09-13
JP4791857B2 true JP4791857B2 (ja) 2011-10-12

Family

ID=38553790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006056234A Active JP4791857B2 (ja) 2006-03-02 2006-03-02 発話区間検出装置及び発話区間検出プログラム

Country Status (1)

Country Link
JP (1) JP4791857B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4282704B2 (ja) 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
JP2009169139A (ja) * 2008-01-17 2009-07-30 Alpine Electronics Inc 音声認識装置
JP4950930B2 (ja) 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
JP5385876B2 (ja) * 2010-08-30 2014-01-08 日本電信電話株式会社 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
JP5737808B2 (ja) * 2011-08-31 2015-06-17 日本放送協会 音響処理装置およびそのプログラム
KR102563817B1 (ko) * 2018-07-13 2023-08-07 삼성전자주식회사 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08202384A (ja) * 1995-01-20 1996-08-09 Fuji Xerox Co Ltd 音声認識方法及び装置
JP3006496B2 (ja) * 1996-03-21 2000-02-07 日本電気株式会社 音声認識装置
JP3105465B2 (ja) * 1997-03-14 2000-10-30 日本電信電話株式会社 音声区間検出方法
JP3873418B2 (ja) * 1997-12-26 2007-01-24 三菱電機株式会社 音声スポッティング装置
JP3721948B2 (ja) * 2000-05-30 2005-11-30 株式会社国際電気通信基礎技術研究所 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
JP4219603B2 (ja) * 2002-03-04 2009-02-04 三菱電機株式会社 音声認識装置
JP2004094077A (ja) * 2002-09-03 2004-03-25 Nec Corp 音声認識装置及び制御方法並びにプログラム
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法

Also Published As

Publication number Publication date
JP2007233148A (ja) 2007-09-13

Similar Documents

Publication Publication Date Title
JP5218052B2 (ja) 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム
US5865626A (en) Multi-dialect speech recognition method and apparatus
KR101120716B1 (ko) 음성 특성에 기초한 전화 호출자들의 자동 식별
EP2048655B1 (en) Context sensitive multi-stage speech recognition
EP1936606A1 (en) Multi-stage speech recognition
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP6812843B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JP2009210617A (ja) 発話区間検出システム、方法及びプログラム
JP2007500367A (ja) 音声認識方法およびコミュニケーション機器
EP1675102A2 (en) Method for extracting feature vectors for speech recognition
WO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
JP6699748B2 (ja) 対話装置、対話方法及び対話用コンピュータプログラム
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
JP4791857B2 (ja) 発話区間検出装置及び発話区間検出プログラム
JP2004198831A (ja) 音声認識装置および方法、プログラム、並びに記録媒体
JP2016186515A (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム
JP5385876B2 (ja) 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
JP4758919B2 (ja) 音声認識装置及び音声認識プログラム
JP4700522B2 (ja) 音声認識装置及び音声認識プログラム
Philippou-Hübner et al. The performance of the speaking rate parameter in emotion recognition from speech
Këpuska Wake-up-word speech recognition
KR101122590B1 (ko) 음성 데이터 분할에 의한 음성 인식 장치 및 방법
JP6487650B2 (ja) 音声認識装置及びプログラム
JP4986028B2 (ja) 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110628

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110722

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140729

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4791857

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250