JP4711111B2 - 発話様式推定装置、発話様式推定方法及び発話様式推定プログラム - Google Patents

発話様式推定装置、発話様式推定方法及び発話様式推定プログラム Download PDF

Info

Publication number
JP4711111B2
JP4711111B2 JP2005041346A JP2005041346A JP4711111B2 JP 4711111 B2 JP4711111 B2 JP 4711111B2 JP 2005041346 A JP2005041346 A JP 2005041346A JP 2005041346 A JP2005041346 A JP 2005041346A JP 4711111 B2 JP4711111 B2 JP 4711111B2
Authority
JP
Japan
Prior art keywords
parameter
utterance
storage means
duration
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005041346A
Other languages
English (en)
Other versions
JP2006227319A (ja
Inventor
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005041346A priority Critical patent/JP4711111B2/ja
Publication of JP2006227319A publication Critical patent/JP2006227319A/ja
Application granted granted Critical
Publication of JP4711111B2 publication Critical patent/JP4711111B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識技術で用いられる発話様式推定装置等に関し、特に、音声の早口の度合いを示す尺度である発話速度や、音声を構成する音素や音節等の継続時間長に関する発話様式を推定するために用いる、発話様式推定装置等に関する。
従来この種の発話様式推定装置等は、音声認識システムとともに又は音声認識システムの一部として使用され、認識対象音声の発話速度、認識対象音声を構成する音節や音素の継続時間長の妥当性を推定し出力していた。音声認識システムは、これら発話速度や継続時間長の妥当性の情報を受け取り、認識結果を決定するための判断材料の一つとして利用することにより、より高精度に認識結果を出力することができる。
図4は、発話様式推定装置の第一従来例を示すブロック図である(非特許文献1)。以下、この図面に基づき説明する。
この発話様式推定装置は、音声を構成する各音素又は音節の標準的な音声信号パタンを記憶する標準パタン記憶手段303と、任意かつ大量の音声信号を記憶する音声信号記憶手段302と、音声信号記憶手段302に記憶された音声の発話内容を音素又は音節で記述した発音記号列を記憶する発音記号列記憶手段301と、標準パタン記憶手段303、音声信号記憶手段302及び発音記号列記憶手段301に各々記憶された情報を使用して、音声信号と発音記号列との時間的対応関係を計算するアラインメント計算手段304と、アラインメント計算手段304の結果から、音声信号を構成する音素及びその継続時間長を順次取得して記憶する継続時間長データ記憶手段305と、継続時間長データ記憶手段305に記憶された継続時間長を音素名ごとに分類し、各音素の継続時間長の分布を規定するパラメータを推定するパラメータ推定手段306と、パラメータ推定手段306の結果を記憶する継続時間長パラメータ記憶手段307と、から構成されている。
この発話様式推定装置は、次のように動作する。
アラインメント計算手段304は、標準パタン記憶手段303に記憶された標準パタン、音声信号記憶手段302に記憶された音声信号、及び発音記号列記憶手段301に記憶された発音記号列から、音声信号と発音記号列との時間的対応関係すなわちアラインメントを計算する。ここで発音記号列とは、例えば「こんにちは」という発声を音素で記述するならば「k/o/N/n/i/ch/i/w/a」と表されるような、音素記号の列を意味する。スラッシュで区切られた“k”、“o”などが、それぞれ1つの音素に相当する。
アラインメントとは、例えば図5[1]に概念的に示されるように、音声信号(波形)のどの部分にどの音素が対応しているかを表すものである。なお、図5[1]において“sil”は無音、つまりいかなる音声も存在しないことを意味する。実際のアラインメントは、図5[2]に具体例が示されているように、ある音素が音声信号上の何ミリ秒から始まって何ミリ秒に終わったかが明示されたテーブル形式の記憶構造を有する。なお、アラインメント計算の具体的方法については、例えば非特許文献2にビタビ法を用いた方法が記載されている。
継続時間長データ記憶手段305は、アラインメント計算手段304からアラインメントの計算結果を受け取り、音素とその継続時間長とを記憶する。ここに継続時間長とは、音声信号上での各音素の開始時刻と終了時刻との差分として計算される。継続時間長データ記憶手段305に記憶されるデータの形式は、図6に例示したようなテーブル形式である。
パラメータ推定手段306は、継続時間長データ記憶手段305から、音素名とその継続時間長とのデータを順次受け取り、継続時間長の値を音素名ごとに分類し、音素名ごとに継続時間長の分布を推定する。ここに分布とは、数個のパラメータで規定される確率分布を意味し、一般にはガウス分布(正規分布)、ポワソン分布、ガンマ分布等がよく用いられる。今、各音素の継続時間長がガンマ分布に従うとして、継続時間長データからガンマ分布を推定する方法の一例を示す。
ガンマ分布は一般に数1のような確率密度関数で表され、ρ及びλが分布を規定するパラメータである。ρは形状パラメータ、λは尺度パラメータと呼ばれることがある。また、Γ(・)はガンマ関数である。
Figure 0004711111
ある音素、例えば音素”a”に関して継続時間長データ記憶手段305に記憶されている継続時間長データが、x1, x2,
…, xnのn個であったとする。このとき、最尤推定法を用いれば、パラメータρ及びλは数2の連立方程式の解として得られることが知られている。ここにΨ(・)は、ディガンマ関数と呼ばれ、ガンマ関数の対数をとったものの一階導関数、すなわちΨ(x)=Γ’(x)/Γ(x)である。なお、数2からパラメータρ及びλの解析解を得ることは、一般に困難であるが、ニュートン法などのよく知られた数値解法により、計算機を用いて数値的に解くことが可能である。
Figure 0004711111
継続時間長パラメータ記憶手段307は、音素“a”についてパラメータ推定手段306が計算したパラメータρ及びλの値を、音素名”a”と対にして記憶する。以下、パラメータ推定手段306は、“a”以外の全ての音素についても、順次継続時間長の分布を推定し、すなわち分布のパラメータρ及びλの値を推定し、継続時間長パラメータ記憶手段307はその結果を音素名と対にして記憶する。
本従来例では、各音素の継続時間長の分布を集めた分布のセットが、発話様式に相当し、上述したような動作により、与えられた音声信号の発話様式が推定される。また、本従来例では、未知の音声信号が与えられたときに、その音声信号の発話様式が、既に推定されている発話様式とどの程度類似しているか、又は、未知の音声信号の発話様式が、想定される発話様式とどの程度ずれているか、を測ることが可能である。
図7は、発話様式推定装置の第二従来例を示すブロック図である。以下、この図面に基づき説明する。
この発話様式推定装置は、未知の音声信号を入力するための音声入力手段401と、入力された音声信号に対して音声認識処理を施し、音声信号から発音記号列すなわち音素記号列とそのアラインメントとを得る音声認識手段402と、音声認識手段402が出力するアラインメント情報から各音素の継続時間長を計算して記憶する継続時間長データ記憶手段403と、予め多数の音声信号から推定された各音素の継続時間長分布を発話様式として記憶する継続時間長パラメータ記憶手段404と、未知の音声信号の発話様式を評価する継続時間長評価手段405と、から構成されている。
この発話様式推定装置は、次のように動作する。
音声認識手段402は、音声入力手段401から入力された音声信号に対して音声認識処理を施し、音声認識結果として音素列と、音素列と入力音声信号との時間的対応関係すなわちアラインメントとを出力する。その具体例は、前述の図5[1][2]と同様である。このような音素列とアラインメントとは、一般に用いられる音声認識手段であれば、容易に出力することのできるものである。
継続時間長データ記憶手段403は、前述の継続時間長データ記憶手段30と同様、音声認識手段402からアラインメントの計算結果を受け取り、音素とその継続時間長の系列とを記憶する。その具体例は、前述の図6と同様である。
継続時間長パラメータ記憶手段404は、前述の継続時間長パラメータ記憶手段307と同一の記憶構造を持ち、なおかつ前述のパラメータ推定手段306が出力したのと同一の音素名とパラメータ値とを記憶しているものとする。
継続時間長評価手段405は、継続時間長データ記憶手段403に記憶された音素記号列ω1,…,ωT及び継続時間長系列x1,…,xTと、継続時間長パラメータ記憶手段404に記憶された継続時間長分布とを照らし合わせ、両者がどの程度整合しているかを評価する。その際の評価尺度は、数3のように表される。
Figure 0004711111
ここに、ρj及びλjは、音素jに対応する継続時間長分布のパラメータであり、継続時間長パラメータ記憶手段404に記憶されているものである。
継続時間長評価手段405の評価結果、すなわち数3右辺の値を知ることにより、継続時間長パラメータ記憶手段404に記憶された、既に得られている発話様式と、入力音声信号の発話様式とがどの程度整合しているか、を知ることができる。ひいては、音声認識手段402が出力した音声認識結果がどの程度正しいものであるか、を知ることができる。
図8は、本発明に係る発話様式推定装置の第三従来例を示すブロック図である。以下、この図面に基づき説明する。
この発話様式推定装置は、未知の音声信号を入力するための音声入力手段501と、入力された音声信号に対して音声認識処理を施し、音声信号から発音記号列すなわち音素記号列とそのアラインメントとを得る音声認識手段502と、音声認識手段502が出力するアラインメント情報から各音素の継続時間長を計算して記憶する継続時間長データ記憶手段503と、継続時間長データ記憶手段503に記憶された音素記号列を順次読み出してモーラ数を計数するモーラ数数手段504と、継続時間長データ記憶手段503に記憶された継続時間長の系列を順次読み出して加算することにより、入力音声の総時間長を計算する継続時間長加算手段505と、継続時間長加算手段505が出力する入力音声の総時間長を、モーラ数数手段504が出力するモーラ数で除し、その結果を出力する除算手段506と、から構成されている。
この発話様式推定装置は、次のように動作する。
音声認識手段502は、前述の音声認識手段402と同様、音声入力手段501から入力された音声信号に対して音声認識処理を施し、音声認識結果として音素列と、音素列と入力音声信号との時間的対応関係すなわちアラインメントとを出力する。その具体例は、前述の図5[1][2]と同様である。このような音素列とアラインメントは、一般に用いられる音声認識手段であれば容易に出力することのできるものである。
継続時間長データ記憶手段503は、前述の継続時間長データ記憶手段30,403と同様、音声認識手段502からアラインメントの計算結果を受け取り、音素とその継続時間長の系列を記憶する。その具体例は、前述の図6と同様である。
モーラ数計数手段504は、継続時間長データ記憶手段503から音素記号列を順次読み出し、モーラ数を計数する。ここでモーラ数とは、母音、促音、撥音の数を意味する。すなわちモーラ数計数手段504は、処理開始時にはモーラ数を0にセットし、以後読み出した音素が母音、促音、撥音のいずれかであれば1を加算し、それ以外であれば0を加算する。
継続時間長加算手段505は、継続時間長データ記憶手段503から継続時間長の値を順次読み出し、入力音声の総時間長を計算する。すなわち継続時間長加算手段505は、処理開始時には総時間長を0にセットし、音素の種類によらず各音素の継続時間長を加算する。
除算手段506は、継続時間長データ記憶手段503に記憶されたデータが全て読み出された時点で、モーラ数計数手段504から入力音声のモーラ数を受け取り、また継続時間長加算手段505から入力音声の総時間長を受け取り、前者を後者で除した値を出力する。この値は、発話速度の尺度の一つである単位時間当たりモーラ数である。すなわち、本従来例は、発話様式の一要因である発話速度を推定し出力するものである。
中川聖一著「確率モデルによる音声認識」、電子情報通信学会、コロナ社、1990年、pp.74-78 ローレンス・ラビナー他著、古井貞煕監訳「音声認識の基礎(下)」、NTTアドバンステクノロジ、1995年、pp.125-126
第1の問題点は、図4の第一従来例のように、発話様式として音素の継続時間長分布を推定しようとする場合、本来発話様式の重要な特徴であるべき、音素ごとの継続時間長分布の差異が、十分に現れないということである。その理由は、第一従来例では、音素の違いによる継続時間長の変動と発話速度の変動による継続時間長の変動とを区別せずに継続時間長分布を推定しているため、個々の音素の継続時間長分布の差異が、発話速度の変動に埋没して見えなくなってしまうからである。
第2の問題点は、図8の第三従来例のように、発話様式として発話速度を、単位時間当たりモーラ数として推定する場合、音素やモーラの種類の違いを一切考慮していないために、発話速度を正確に推定できないということである。すなわち、モーラを構成する音素によって継続時間長は一般に異なるはずであるにも関わらず、モーラの種類によらない量であるモーラ数によって発話速度を計算しているため、特に短い発話において発話速度が正確に推定できない。
第3の問題点は、発話様式として発話速度を推定する場合、推定結果の信頼性を見積もる機構が存在しないということである。なぜなら、図8の第三従来例は、発話速度の推定値を与えるのみで、推定結果のばらつきを示す尺度を出力することができないからである。
第4の問題点は、継続時間長と発話速度とは互いに依存関係にあるにも関わらず、継続時間長分布と発話速度とを同時に推定することができないということである。つまり、図4の第一従来例は、音素ごとの継続時間長分布を求めるが、その際に発話速度を推定できないために、継続時間長分布が正確に推定できない。また、図8の第三従来例は、発話速度を求めるが、音素ごとの継続時間長の違いを推定できないために、発話速度が正確に推定できない。
本発明に係る第一の発話様式推定装置は、複数個の発話又は発話の部分について、それらの構成要素とその継続時間長とからなる時系列データを記憶する継続時間長データ記憶手段と、発話速度の確率分布を規定するパラメータを記憶する発話速度パラメータ記憶手段と、前記構成要素の種類ごとの継続時間長の確率分布を規定するパラメータを記憶する継続時間長パラメータ記憶手段と、前記継続時間長データ記憶手段に記憶された時系列データを読み出し、その内容に基づいて前記発話速度パラメータ記憶手段及び前記継続時間長パラメータ記憶手段に記憶されたパラメータを反復的に更新するパラメータ更新手段と、を備えたことを特徴とする。
本発明に係る第二の発話様式推定装置は、複数個の発話又は発話の部分について、それらの構成要素とその継続時間長とからなる時系列データを記憶する継続時間長データ記憶手段と、発話速度の確率分布を規定するパラメータを記憶する発話速度パラメータ記憶手段と、前記構成要素の種類ごとの継続時間長の確率分布を規定するパラメータを記憶する継続時間長パラメータ記憶手段と、前記発話速度パラメータ記憶手段及び継続時間長パラメータ記憶手段からそれぞれパラメータ値を受け取り、かつ前記継続時間長データ記憶手段から、任意の1発話を構成する構成要素とその継続時間長とからなる時系列データを順次受け取り、前記時系列データが前記パラメータ値で規定される発話様式にどの程度合致しているか、を示すスコアを出力する継続時間長評価手段と、を備えたことを特徴とする。
本発明に係る第三の発話様式推定装置は、複数個の発話又は発話の部分について、それらの構成要素とその継続時間長とからなる時系列データを記憶する継続時間長データ記憶手段と、発話速度の確率分布を規定するパラメータを記憶する発話速度パラメータ記憶手段と、前記構成要素の種類ごとの継続時間長の確率分布を規定するパラメータを記憶する継続時間長パラメータ記憶手段と、前記発話速度パラメータ記憶手段及び継続時間長パラメータ記憶手段からそれぞれパラメータ値を受け取り、かつ前記継続時間長データ記憶手段から、任意の1発話を構成する構成要素とその継続時間長からなる時系列データを順次受け取り、前記任意の1発話の発話速度の範囲を確率分布の形式で出力する発話速度分布推定手段と、を備えたことを特徴とする。
本発明に係る第四の発話様式推定装置は、発話速度の分布を規定する第一のパラメータ及び発話を構成する構成要素の継続時間長の分布を規定する第二のパラメータを初期化するパラメータ初期化手段と、適当な単位で分割された複数個の発話について、それを構成する構成要素とその継続時間長とからなる時系列データと、前記第一及び第二のパラメータとを使用して、当該第一及び第二のパラメータを更新するパラメータ更新手段と、このパラメータ更新手段による前記第一及び第二のパラメータの更新を制御する収束判定手段と、を備えたことを特徴とする。
また、本発明に係る発話様式推定方法は、本発明に係る発話様式推定装置の各手段の動作を手順として捉えたものである。本発明に係る発話様式推定プログラムは、本発明に係る発話様式推定装置の各手段をコンピュータに機能させるためのものである。
換言すると、本発明の発話様式推定装置は、パラメータ初期化手段と、パラメータ更新手段と、収束判定手段と、発話速度パラメータ記憶手段と、継続時間長パラメータ記憶手段とを備え、与えられた継続時間長データを最も良く説明するよう、発話速度の分布を規定する発話速度パラメータと、継続時間長の分布を規定する継続時間長パラメータとを、収束するまで反復的に更新するよう動作する。このような構成を採用し、発話速度パラメータと継続時間長パラメータとを同時に推定することにより、本発明の目的を達成することができる。
第1の効果は、音素等、音声を構成する各要素の継続時間長分布を精度よく推定できることにある。その理由は、発話ごとに発話速度は変動するとの仮定の下に、継続時間長と発話速度の分布を同時に推定し、発話速度の変動を除去しつつ、音声を構成する各要素の継続時間長の分布を推定するためである。
第2の効果は、発話速度を精度良く推定できることである。その理由は、音声を構成する各要素の継続時間長分布を同時に推定し、音声を構成する各要素の継続時間長分布の違いを考慮しつつ発話速度を推定できることにある。
第3の効果は、発話速度の値のみでなく発話速度の分布を推定できることである。その理由は、発話速度の分布パラメータを保持し、パラメータを推定する機構を有するためである。
次に、本発明を実施するための最良の形態について、図面を参照して詳細に説明する。
図1は、本発明に係る発話様式推定装置の第一実施形態を示すブロック図である。以下、この図面に基づき説明する。
この発話様式推定装置は、音声を構成する各音素の標準的な音声信号パタンを記憶する標準パタン記憶手段103と、任意かつ大量の音声信号を記憶する音声信号記憶手段102と、音声信号記憶手段102に記憶された音声の発話内容を音素で記述した発音記号列を記憶する発音記号列記憶手段101と、標準パタン記憶手段103、音声信号記憶手段102及び発音記号列記憶手段101に各々記憶された情報を使用して、音声信号と発音記号列との時間的対応関係を計算するアラインメント計算手段104と、アラインメント計算手段104の結果から、音声信号を構成する音素とその継続時間長とを順次取得して記憶する継続時間長データ記憶手段105と、発話速度の分布を規定するパラメータを記憶する発話速度パラメータ記憶手段109と、各音素の継続時間長の分布を規定するパラメータを記憶する継続時間長パラメータ記憶手段110と、発話速度パラメータ記憶手段109及び継続時間長パラメータ記憶手段110に記憶される各パラメータを初期化するパラメータ初期化手段106と、継続時間長データ記憶手段105に記憶された音素と継続時間長とのデータを読み出し、その内容に基づいて発話速度パラメータ記憶手段109及び継続時間長パラメータ記憶手段110に記憶された各パラメータを反復的に更新するパラメータ更新手段107と、パラメータ更新手段107がパラメータの更新を継続するか終了するかをパラメータの更新ごとに判定する収束判定手段108と、から構成されている。
これらの各手段は、それぞれ概略次のように動作する。
標準パタン記憶手段103は、予め準備された、音声を構成する各音素の標準的な音声信号パタンを記憶する。なお、標準パタンは、音素ごとに用意する以外にも、音節ごとに用意してもよいし、その他任意の単位で用意してよい。これ以降、音素は音節やその他任意の単位に置き換えても、本発明は実施可能である。
音声信号記憶手段102は、発話様式を推定しようとする音声信号を記憶し、発音記号列記憶手段101は、音声信号記憶手段102に記憶された音声の発話内容を音素で記述した発音記号列を記憶する発音記号列を記憶する。ここで発音記号列とは、例えば「こんにちは」という発声を音素で記述するならば「k/o/N/n/i/ch/i/w/a」と表されるような、音素記号の列を意味する。スラッシュで区切られた”k”、”o”などが、それぞれ1つの音素に相当する。
アラインメント計算手段104は、標準パタン記憶手段103に記憶された標準パタン、音声信号記憶手段102に記憶された音声信号、及び発音記号列記憶手段101に記憶された発音記号列から、前記音声信号と発音記号列との時間的対応関係すなわちアラインメントを計算する。ここでアラインメントとは、例えば図5[1]に概念的に示されるように、音声信号(波形)のどの部分にどの音素が対応しているかを表すものである。なお、図5[1]において“sil”は無音、つまりいかなる音声も存在しないことを意味する。実際のアラインメントは、図5[2]に具体例が示されているように、ある音素が音声信号上の何ミリ秒から始まって何ミリ秒に終わったかが明示されたテーブル形式の記憶構造を有する。
継続時間長データ記憶手段105は、アラインメント計算手段104からアラインメントの計算結果を受け取り、音素とその継続時間長を発話ごとに分けて記憶する。ここに継続時間長とは、音声信号上での各音素の開始時刻と終了時刻の差分として計算される。継続時間長データ記憶手段105に記憶されるデータの形式は、図6に例示したようなテーブル形式である。以下、第k番目の発話の第t番目の音素をωktで表し、対応する継続時間長をxktで表すことにする。継続時間長データ記憶手段105には数4のような記憶構造でデータが記憶されているとする。ここにNは発話総数、Tkは第k番目の発話の音素数である。
Figure 0004711111
なお、ここでの発話とは、単語や文等、複数個の音素から構成される任意の単位でよく、一定の音素数、音節数、モーラ数等で区切って分割したようなものであってもよい。
発話速度パラメータ記憶手段109は、発話速度の事前分布を規定するパラメータを記憶する。ここでパラメータは、例えば分布にガンマ分布を仮定する場合は、形状パラメータρ及び尺度パラメータλの二つである。なお、分布の種類は、必ずしもガンマ分布である必要はなく、ガウス分布(正規分布)、ポワソン分布等、任意である。
継続時間長パラメータ記憶手段110は、音素ごとに継続時間長の分布を規定するパラメータを記憶する。例えば継続時間長にガンマ分布を仮定する場合は、パラメータは各音素について形状パラメータρj及び尺度パラメータλjの二つとなる。ここにjは音素を指定するインデクスである。よって継続時間長パラメータ記憶手段110には、音素の種類数と同数のρjとλjの組が保持される。なお、継続時間長の分布に関しても、分布の種類は必ずしもガンマ分布である必要はなく、ガウス分布(正規分布)、ポワソン分布等、任意である。
パラメータ初期化手段106は、発話速度パラメータ記憶手段109及び継続時間長パラメータ記憶手段110に記憶されたパラメータ、すなわち、(ρ,λ;ρjj|j=1,…,c)の値の初期化を行う。ここにcは音素の種類数である。各パラメータにどのような初期値をセットするかは原則的に任意であるが、例えばガンマ分布の場合は、その定義から各パラメータは正でなければならないので、正の値をセットすることが必須となる。
パラメータ更新手段107は、発話速度パラメータ記憶手段109及び継続時間長パラメータ記憶手段110からそれぞれパラメータを読み出し、続いて継続時間長データ記憶手段105から音素と継続時間長との系列を発話単位で順次読み出し、その読み出しが完了した時点で発話速度に関するパラメータ及び継続時間長に関するパラメータを更新し、それぞれ発話速度パラメータ記憶手段109及び継続時間長パラメータ記憶手段110に書き戻す。
以下、パラメータ更新手段107が発話速度及び継続時間長に関するパラメータを更新する方法について、最尤推定法(尤度最大化基準)に基づく場合を例に挙げて詳細に説明する。なお、パラメータの更新方法は、尤度最大化基準に基づく方法以外に、事後確率最大化(MAP)基準やベイズ基準等に基づく方法でも実現可能である。
発話速度をξとすると、その事前分布はパラメータρ及びλを用いて数5のようなガンマ分布で表される。
Figure 0004711111
また、発話速度ξが既知とした場合、音素jの継続時間長xは数6のようなガンマ分布で表されるとする。これは、継続時間長の平均と標準偏差とが発話速度に反比例して変化するという仮定から導出される。
Figure 0004711111
同一発話内では発話速度ξは一定として、音素列ω1,…,ωTで記述される1つの発話から継続時間長系列x1,…,xTが得られる確率密度は、数7となる。ここにθは発話速度及び継続時間長に関する全パラメータのセット、すなわちθ=(ρ,λ;ρjj|j=1,…,c)とする。
Figure 0004711111
数4で示されるN発話にわたる数7の総和が最大となるようにパラメータθを決めるのが尤度最大化基準であるが、発話速度ξを隠れ変数とした期待値最大化法(EM法)に基づいて、以下のEステップ及びMステップの反復計算で実現される。
Eステップ)発話速度パラメータ記憶手段109及び継続時間長パラメータ記憶手段110に記憶されているパラメータの値を読み出して、数8に従ってξ及びlogξの期待値を、発話ごとに計算する。
Figure 0004711111
Mステップ)数8で計算された各期待値を用いて、数9を解くことによって新しいパラメータ(ρ,λ,ρjjの上にバーが付加されたもの)を求め、発話速度パラメータ記憶手段109及び継続時間長パラメータ記憶手段110に結果を書き戻す。
Figure 0004711111
ここに、δijはクロネッカのデルタである。すなわち、i=jなら1、そうでなければ0である。また、数9からパラメータの解析解を得ることは困難だが、ニュートン法などのよく知られた数値解法により、計算機を用いて数値的に解くことが可能である。
収束判定手段108は、数7に基づいて、継続時間長データ記憶手段105に記憶された継続時間長データに対する尤度を、前記Eステップ及びMステップが1回完了するごとに計算し、更に直前に計算された尤度との差分を計算する。差分が所定のしきい値を下回っていなければ、パラメータ更新手段107に再度のEステップ及びMステップを実行させる。差分が所定のしきい値を下回っていれば、パラメータ更新を終了する。
パラメータ更新が終了された時点で発話速度パラメータ記憶手段109及び継続時間長パラメータ記憶手段110に記憶されたパラメータθ=(ρ,λ;ρjj|j=1,…,c)が、音声信号記憶手段102に記憶された音声の発話様式を示すパラメータとなる。
本実施形態では、ある1発話分の音声信号が与えられたときに、その音声信号の発話様式が、既に得られている発話様式とどの程度類似しているか、又は、前期未知の音声信号の発話様式が、想定される発話様式とどの程度ずれているかを測ることが可能である。
図2は、本発明に係る発話様式推定装置の第二実施形態を示すブロック図である。以下、この図面に基づき説明する。
この発話様式推定装置は、未知の音声信号を入力するための音声入力手段201と、入力された音声信号に対して音声認識処理を施し、音声信号から発音記号列すなわち音素記号列とそのアラインメントとを得る音声認識手段202と、音声認識手段202が出力するアラインメント情報から各音素の継続時間長を計算して記憶する継続時間長データ記憶手段203と、予め多数の音声信号から推定された発話速度の分布に関するパラメータ及び音素継続時間長の分布に関するパラメータをそれぞれ記憶する発話速度パラメータ記憶手段204及び継続時間長パラメータ記憶手段205と、前記未知の音声信号の継続時間長に関する発話様式を評価する継続時間長評価手段206と、前記未知の音声信号の発話速度の分布を求める発話速度分布推定手段207と、から構成されている。
この発話様式推定装置は、次のように動作する。
音声認識手段202は、音声入力手段201から入力された音声信号に対して音声認識処理を施し、音声認識結果として音素列と、音素列と入力音声信号との時間的対応関係すなわちアラインメントとを出力する。その具体例は、前述の図5[1][2]と同様である。このような音素列とアラインメントは、一般に用いられる音声認識手段であれば容易に出力することのできるものである。また、音素列の正解が既知であるような場合は、音声認識手段202は無くてもよい。
継続時間長データ記憶手段203は、前述の継続時間長データ記憶手段105と同様、音声認識手段202からアラインメントの計算結果を受け取り、音素とその継続時間長の系列を記憶する。その具体例は、前述の図6と同様である。
発話速度パラメータ記憶手段204は、前述の発話速度パラメータ記憶手段109と同一の記憶構造を持ち、なおかつ前述のパラメータ更新手段107が出力したものと同一の音素名とパラメータ値を記憶しているものとする。
同様に継続時間長パラメータ記憶手段205は、前述の継続時間長パラメータ記憶手段110と同一の記憶構造を持ち、なおかつ前述のパラメータ更新手段107が出力したものと同一の音素名とパラメータ値とを記憶しているものとする。
継続時間長評価手段206は、継続時間長データ記憶手段203に記憶された音素記号列ω1,…,ωT及び継続時間長系列x1,…,xTと、発話速度パラメータ記憶手段204及び継続時間長パラメータ記憶手段205に記憶されたパラメータを読み出し、数7の計算を行い、その結果、すなわちこれらパラメータで規定される継続時間長の発話様式と、入力された未知の音声信号の発話様式とがどの程度合致しているかを出力する。
一方、発話速度分布推定手段207は、継続時間長評価手段206と同様、継続時間長データ記憶手段203に記憶された音素記号列ω1,…,ωT及び継続時間長系列x1,…,xTと、発話速度パラメータ記憶手段204及び継続時間長パラメータ記憶手段205に記憶されたパラメータを読み出し、数10の計算を行い、結果ρ’及びλ’を出力する。
Figure 0004711111
数10のρ’及びλ’は、入力音声信号の発話速度の分布を規定するパラメータで、発話速度の事後分布は、数11のガンマ分布となる。なお、ガンマ分布の定義から、発話速度の平均はρ’/λ’であり、この値が1より小さいほど、入力音声信号の発話速度が遅いことを意味し、逆に右辺の値が1より大きいほど、入力音声信号の発話速度が速いことを意味する。
Figure 0004711111
図3は、本発明に係る発話様式推定装置の第三実施形態を示すブロック図である。以下、この図面に基づき説明する。
この発話様式推定装置は、プログラム制御により動作するデータ処理装置902と、入力装置903、出力装置904、記憶装置905とから構成されている。発話様式推定用プログラム901は、データ処理装置902に読み込まれ、データ処理装置902の動作を制御し、記憶装置905に標準パタン記憶部9051、継続時間長データ記憶部9052、発話速度パラメータ記憶部9053、及び継続時間長パラメータ記憶部9054を生成する。データ処理装置902は、発話様式推定用プログラム901の制御により、第一実施形態におけるアラインメント計算手段104、パラメータ初期化手段106、パラメータ更新手段107、及び収束判定手段108と同一の処理を実行する。
本発明によれば、音声信号中の音韻的特徴に加えて音素の継続時間長や発話速度を利用して認識を行う音声認識装置に適用できる。また、発話様式の異なる話者を区別する話者認識装置や話者認証装置といった用途にも適用可能である。
本発明に係る発話様式推定装置の第一実施形態を示すブロック図である。 本発明に係る発話様式推定装置の第二実施形態を示すブロック図である。 本発明に係る発話様式推定装置の第三実施形態を示すブロック図である。 発話様式推定装置の第一従来例を示すブロック図である。 アラインメント計算手段の出力結果の具体例を示し、図5[1]は波形図、図5[2]は図表である。 継続時間長データ記憶手段に記憶されるデータの具体例を示す図表である。 発話様式推定装置の第二従来例を示すブロック図である。 発話様式推定装置の第三従来例を示すブロック図である。
符号の説明
101 発音記号列記憶手段
102 音声信号記憶手段
103 標準パタン記憶手段
104 アラインメント計算手段
105 継続時間長データ記憶手段
106 パラメータ初期化手段
107 パラメータ更新手段
108 収束判定手段
109 発話速度パラメータ記憶手段
110 継続時間長パラメータ記憶手段
201 音声入力手段
202 音声認識手段
203 継続時間長データ記憶手段
204 発話速度パラメータ記憶手段
205 継続時間長パラメータ記憶手段
206 継続時間長評価手段
207 発話速度分布推定手段
301 発音記号列記憶手段
302 音声信号記憶手段
303 標準パタン記憶手段
304 アラインメント計算手段
305 継続時間長データ記憶手段
306 パラメータ推定手段
307 継続時間長パラメータ記憶手段
401 音声入力手段
402 音声認識手段
403 継続時間長データ記憶手段
404 継続時間長パラメータ記憶手段
405 継続時間長評価手段
501 音声入力手段
502 音声認識手段
503 継続時間長データ記憶手段
504 モーラ数計数手段
505 継続時間長加算手段
506 除算手段
901 発話様式推定用プログラム
902 データ処理装置
903 入力装置
904 出力装置
905 記憶装置
9051 標準パタン記憶部
9052 継続時間長データ記憶部
9053 発話速度パラメータ記憶部
9054 継続時間長パラメータ記憶部

Claims (9)

  1. 複数個の発話又は発話の部分について、それらの構成要素とその継続時間長とからなる時系列データを記憶する継続時間長データ記憶手段と、
    発話速度の確率分布を規定する第一のパラメータを記憶する発話速度パラメータ記憶手段と、
    前記構成要素の種類ごとの継続時間長の確率分布を規定する第二のパラメータを記憶する継続時間長パラメータ記憶手段と、
    前記発話速度パラメータ記憶手段及び継続時間長パラメータ記憶手段からそれぞれ前記第一及び第二のパラメータの値を受け取り、かつ前記継続時間長データ記憶手段から、任意の1発話を構成する構成要素とその継続時間長とからなる時系列データを順次受け取り、前記時系列データが前記第一及び第二のパラメータの値で規定される発話様式にどの程度合致しているか、を示すスコアを出力する継続時間長評価手段と、
    前記継続時間長データ記憶手段に記憶された時系列データを読み出し、その内容に基づいて前記発話速度パラメータ記憶手段及び前記継続時間長パラメータ記憶手段に記憶された前記第一及び第二のパラメータを反復的に更新するパラメータ更新手段と、
    を備えたことを特徴とする発話様式推定装置。
  2. 前記発話速度パラメータ記憶手段及び継続時間長パラメータ記憶手段からそれぞれ前記第一及び第二のパラメータ値を受け取り、かつ前記継続時間長データ記憶手段から、任意の1発話を構成する構成要素とその継続時間長からなる時系列データを順次受け取り、前記任意の1発話の発話速度の範囲を確率分布の形式で出力する発話速度分布推定手段を、
    更に備えたことを特徴とする請求項1記載の発話様式推定装置。
  3. 前記第一のパラメータ及び前記第二のパラメータを初期化するパラメータ初期化手段と、
    前記パラメータ更新手段による前記第一及び第二のパラメータの更新を制御する収束判定手段とを更に備え、
    前記パラメータ更新手段は、前記時系列データと、前記第一及び第二のパラメータとを使用して、当該第一及び第二のパラメータを更新する、
    ことを特徴とする請求項記載の発話様式推定装置。
  4. 複数個の発話又は発話の部分について、それらの構成要素とその継続時間長とからなる時系列データを記憶する第一の手順と、
    発話速度の確率分布を規定する第一のパラメータを記憶する第二の手順と、
    前記構成要素の種類ごとの継続時間長の確率分布を規定する第二のパラメータを記憶する第三の手順と、
    前記第二及び第三の手順で記憶された前記第一及び第二のパラメータの値を受け取り、かつ前記第一の手順で記憶された時系列データの中から、任意の1発話を構成する構成要素とその継続時間長とからなる時系列データを順次受け取り、前記時系列データが前記第一及び第二のパラメータ値で規定される発話様式にどの程度合致しているか、を示すスコアを出力する第四の手順と、
    前記第一の手順で記憶された時系列データを読み出し、その内容に基づいて前記第二及び第三の手順で記憶された前記第一及び第二のパラメータを反復的に更新する第六の手順と、
    を含むことを特徴とする発話様式推定方法。
  5. 前記第二及び第三の手順で記憶された前記第一及び第二のパラメータの値を受け取り、かつ前記第一の手順で記憶された時系列データの中から、任意の1発話を構成する構成要素とその継続時間長からなる時系列データを順次受け取り、前記任意の1発話の発話速度の範囲を確率分布の形式で出力する第五の手順と、
    を更に含むことを特徴とする請求項記載の発話様式推定方法。
  6. 前記第一のパラメータ及び前記第二のパラメータを初期化する第七の手順と、
    前記第六の手順による前記第一及び第二のパラメータの更新を制御する第八の手順とを更に含み、
    前記第六の手順では、前記時系列データと、前記第一及び第二のパラメータとを使用して、当該第一及び第二のパラメータを更新する、
    ことを特徴とする請求項記載の発話様式推定方法。
  7. 複数個の発話又は発話の部分について、それらの構成要素とその継続時間長とからなる時系列データを記憶する継続時間長データ記憶手段と、
    発話速度の確率分布を規定する第一のパラメータを記憶する発話速度パラメータ記憶手段と、
    前記構成要素の種類ごとの継続時間長の確率分布を規定する第二のパラメータを記憶する継続時間長パラメータ記憶手段と、
    前記発話速度パラメータ記憶手段及び継続時間長パラメータ記憶手段からそれぞれ前記第一及び第二のパラメータの値を受け取り、かつ前記継続時間長データ記憶手段から、任意の1発話を構成する構成要素とその継続時間長とからなる時系列データを順次受け取り、前記時系列データが前記第一及び第二のパラメータの値で規定される発話様式にどの程度合致しているか、を示すスコアを出力する継続時間長評価手段と、
    前記継続時間長データ記憶手段に記憶された時系列データを読み出し、その内容に基づいて前記発話速度パラメータ記憶手段及び前記継続時間長パラメータ記憶手段に記憶された前記第一及び第二のパラメータを反復的に更新するパラメータ更新手段を、
    をコンピュータに機能させるための発話様式推定プログラム。
  8. 前記発話速度パラメータ記憶手段及び継続時間長パラメータ記憶手段からそれぞれ前記第一及び第二のパラメータ値を受け取り、かつ前記継続時間長データ記憶手段から、任意の1発話を構成する構成要素とその継続時間長からなる時系列データを順次受け取り、前記任意の1発話の発話速度の範囲を確率分布の形式で出力する発話速度分布推定手段を、
    更に前記コンピュータに機能させるための請求項記載の発話様式推定プログラム。
  9. 前記第一のパラメータ及び前記第二のパラメータを初期化するパラメータ初期化手段と、
    前記パラメータ更新手段による前記第一及び第二のパラメータの更新を制御する収束判定手段とを更に前記コンピュータに機能させるとともに、
    前記パラメータ更新手段を、前記時系列データと、前記第一及び第二のパラメータとを使用して、当該第一及び第二のパラメータを更新するように、前記コンピュータに機能させるための、
    請求項記載の発話様式推定プログラム。
JP2005041346A 2005-02-17 2005-02-17 発話様式推定装置、発話様式推定方法及び発話様式推定プログラム Active JP4711111B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005041346A JP4711111B2 (ja) 2005-02-17 2005-02-17 発話様式推定装置、発話様式推定方法及び発話様式推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005041346A JP4711111B2 (ja) 2005-02-17 2005-02-17 発話様式推定装置、発話様式推定方法及び発話様式推定プログラム

Publications (2)

Publication Number Publication Date
JP2006227319A JP2006227319A (ja) 2006-08-31
JP4711111B2 true JP4711111B2 (ja) 2011-06-29

Family

ID=36988740

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005041346A Active JP4711111B2 (ja) 2005-02-17 2005-02-17 発話様式推定装置、発話様式推定方法及び発話様式推定プログラム

Country Status (1)

Country Link
JP (1) JP4711111B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5451982B2 (ja) * 2008-04-23 2014-03-26 ニュアンス コミュニケーションズ,インコーポレイテッド 支援装置、プログラムおよび支援方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830289A (ja) * 1994-07-12 1996-02-02 Mitsubishi Electric Corp 学習音声パタンモデル使用音声認識装置
JPH10149189A (ja) * 1996-11-20 1998-06-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識のための単語モデル生成装置及び音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830289A (ja) * 1994-07-12 1996-02-02 Mitsubishi Electric Corp 学習音声パタンモデル使用音声認識装置
JPH10149189A (ja) * 1996-11-20 1998-06-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識のための単語モデル生成装置及び音声認識装置

Also Published As

Publication number Publication date
JP2006227319A (ja) 2006-08-31

Similar Documents

Publication Publication Date Title
US9536525B2 (en) Speaker indexing device and speaker indexing method
JP5229216B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP5229478B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
US20090070115A1 (en) Speech synthesis system, speech synthesis program product, and speech synthesis method
CN108630200B (zh) 声音关键字检测装置以及声音关键字检测方法
JP4515054B2 (ja) 音声認識の方法および音声信号を復号化する方法
CN103778912A (zh) 引导式说话人自适应语音合成的***与方法及程序产品
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
CN106971743B (zh) 用户演唱数据处理方法和装置
KR20100130263A (ko) 음성 인식용 발음사전 확장 장치 및 방법
JP2006227587A (ja) 発音評定装置、およびプログラム
Herbig et al. Self-learning speaker identification for enhanced speech recognition
JP6276513B2 (ja) 音声認識装置および音声認識プログラム
CN112908308B (zh) 一种音频处理方法、装置、设备及介质
JP6481939B2 (ja) 音声認識装置および音声認識プログラム
CN107610691B (zh) 英语元音发声纠错方法及装置
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP4711111B2 (ja) 発話様式推定装置、発話様式推定方法及び発話様式推定プログラム
JP2008241970A (ja) 話者適応装置、話者適応方法及び話者適応プログラム
Larcher et al. Constrained temporal structure for text-dependent speaker verification
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP5914119B2 (ja) 音響モデル性能評価装置とその方法とプログラム
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP7159655B2 (ja) 感情推定システムおよびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100827

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110309

R150 Certificate of patent or registration of utility model

Ref document number: 4711111

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150