JP3866171B2

JP3866171B2 - 音素決定方法、その装置及びプログラム

Info

Publication number: JP3866171B2
Application number: JP2002239448A
Authority: JP
Inventors: 朋子米澤; 秀之水野; 匡伸阿部
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-08-20
Filing date: 2002-08-20
Publication date: 2007-01-10
Anticipated expiration: 2022-08-20
Also published as: JP2004077901A

Description

【０００１】
【発明の属する技術分野】
この発明は例えば音声素片を接続して音声合成をする際の音声素片を求めるために用いられ、音声信号における音韻又は音韻境界を自動的に求める音素決定方法、その装置及びプログラムに関する。
【０００２】
【従来の技術】
従来において、音声素片を取出すための音韻又は音韻境界を示すラベルの付与（ラベリング）はその音声信号のソナグラムを見ながら人手によって音韻境界を決定していた。人手によるラベリングは可成り正確に行うことができるが、手間が大変であった。特に様々な人の声質や様々な発話様式で音声を合成するために必要とする音声素片は非常に多数となり、これを人手によるラベリングにより求めることは著しく大変な作業となる。
【０００３】
従来において、自動的にラベリングを行うことが提案されている。その１つにメルケプストラムに基づく音素モデルを用いた音声認識による音素ラベリングが、文献Brugnara，F.，Falavigna，D.，and Omologo，M.，“Automatic segmentation and labeling of speech based on Hidden Markov Models,”Speech Communication，No.12, pp.357-370，1993.などに示されている。また、スペクトログラムリーディング知識を用いた音素ラベリングが、文献畑崎香一郎，田村震一，川端豪，鹿野清宏，“スペクトログラムリーディング知識を用いた音素セグメンテーションの試み”，日本音響学会講演論文集，pp.２１−２２，Mar.,1991.などに示されている。
【０００４】
しかし、従来の自動ラベリングは音声認識により音素を特定するだけであるため、各音素の区間を特定する精度が比較的悪かった。このため、自動ラベリングに基づき求めた音声素片をつなぎ合せた合成音声は品質が悪いものとなる。
【０００５】
【発明が解決しようとする課題】
この発明の目的は、音韻を正確に区別することができ、しかも音韻の区間、つまり音韻境界を正確に特定することができる音素決定方法、その装置及びプログラムを提供することにある。
【０００６】
【課題を解決するための手段】
この発明の方法によれば、入力音声信号をフレームごとに複数の帯域にメル周波数分割し、上記分割された帯域ごとの入力音声信号のパワーをメルフィルタバンク係数として計算し、フレームごとに入力音声信号のエネルギーを計算し、メルフィルタバンク係数及びエネルギーを含む音響特徴量ベクトルごとに音韻又は音韻境界と対応付けられた音響モデルに対する、上記入力音声信号の音響特徴量ベクトルの音韻又は音韻境界の類似度を求め、各フレームごとに求めた類似度が最も高い音韻又は音韻境界を示すラベルを付与する。
【０００７】
この発明の装置によれば、入力音声信号をフレームごとに複数の帯域にメル周波数分割する帯域分割部と、上記分割された各帯域の入力音声信号のパワーをメルフィルタバンク係数として計算するバンク係数計算部と、上記入力音声信号のエネルギーをフレームごとに求めるエネルギー計算部と、各音韻又は音韻境界の音響モデルが格納されたモデル格納部と、上記メルフィルタバンク係数及び上記エネルギーを含む音響特徴系列と上記音響モデルとの類似度を求める類似度計算部と、上記求めた類似度が最も高い音響モデルと対応した音韻又は音韻境界を示すラベルを付与するラベル付与部とを備える。
【０００８】
この構成によればメルフィルタバンク係数及びエネルギーを含む音響特徴量ベクトルを分析し、これに基づいて音韻又は音韻境界を示すラベルを特定しており、音韻境界では帯域ごとに特徴的なパワー変動が起こるが、その性質を反映した上記音響モデルを用いているため、音韻境界を正確に特定しやすくなる。
【０００９】
【発明の実施の形態】
この発明ではラベリングのために音響モデルを用いるがその音響モデルの作成をまず簡単に説明する。ある話者が無意味文を読み上げた音声信号について、フレーム長は例えば２０ミリ秒とし、そのフレームを例えば２ミリ秒ずつシフトしながら、入力音声信号を取り込みメル周波数分割する。この分割数は例えば１０以上、好ましくは１０とする。メル周波数分割は周波数の尺度を次式によりメル周波数尺度に変換し、音声信号をこのメル周波数尺度に対し等分割する。
Ｍｅｌ(f)＝２５９５log₁₀（１＋（ｆ／７００））
【００１０】
この各帯域ごとの音声信号の対数パワーを求めてメルフィルタバンク係数とし、また各フレームごとの音声信号のエネルギーを求めてこれらメルフィルタバンク係数とエネルギーとを含む音響特徴量ベクトルを求める。音響モデルとして例えば隠れマルコフモデル（ＨＭＭ）を使用するが、ＨＭＭは各状態ごとに１以上の有限個のフレーム間での音響特徴量ベクトルの系列ごとに音韻又は音韻境界と対応付けられた出現確率をもち、状態間の遷移確率から構成され、音韻又は音韻境界との対応が予め知られている音声波形又は対応する音響特徴量ベクトル系列を用いて、音響特徴量ベクトルまたはその系列ごとに音韻又は音韻境界ごとの出現頻度をカウントし、例えば既知の方法であるSegmental k-means法で初期化し、Baum−Welch法で学習することによりＨＭＭを作成する。
なお音韻境界の音響モデルは１つの音韻とその隣接する音韻境界を含む前後のいくつかのフレームの音響特徴量ベクトルの系列に基づき、作成されるものである。
【００１１】
次にこの発明の方法の実施形態を図１を参照して説明する。
ステップＳ１：入力音声信号をフレームごとに、複数の帯域にメル周波数分割する。フレーム長は例えば２０ミリ秒とし、そのフレームを例えば２ミリ秒ずつシフトしながら入力音声信号を取り込みメル周波数分割する。この分割数は例えば１０以上、好ましくは１０とする。
【００１２】
ステップＳ２：分割された各帯域の音声信号のパワーを、メルフィルタバンク係数として計算し、またそのフレームにおける音声信号のエネルギー、つまりパワーを求める。メルフィルタバンク係数とエネルギーを含む音響特徴量ベクトルを求める。各パワー（メルフィルタバンク係数）のフレーム間差分、Δ成分と、そのフレーム間差分ΔΔ成分（２次差分成分）も求め、同様にエネルギーのフレーム間差分Δ成分と、そのフレーム間差分ΔΔ成分も求め、これら両Δ成分、ΔΔ成分も音響特徴量ベクトルとして含めることが好ましい。パワーのΔ成分だけ、あるいはエネルギーのΔ成分だけ、またはパワーのΔ成分とΔΔ成分だけ、もしくはエネルギーのΔ成分とΔΔ成分だけを含めてもよい。またパワー（エネルギー）としては対数パワーとして求めた方が処理し易い。
【００１３】
ステップＳ３：求めた音響特徴量ベクトルの系列と音響モデルとの類似度を計算する。入力音声信号は文（テキスト）を読み上げたものであり、従って入力音声信号はどの音韻又は音韻境界系列からなっているかは予め知っているため、対応する音韻又は音韻境界の各音響モデルとの類似度を求めればよい。音響モデルが例えばＨＭＭの場合は、各フレームごとに得られる音響特徴量ベクトルを用いてＨＭＭにおける出現確率、遷移確率を求め、例えばビタビ（Ｖｉｔｅｒｂｉ）アルゴリズムによりブランチメトリック値を求め、更にパスメトリック値を求めて、その入力音声信号の全体に対する尤度を計算する。この場合、対象となるＨＭＭは予め知られているから、演算量が少なくて済む、また類似度として尤度を求めている。
【００１４】
ステップＳ４：類似度、ＨＭＭの場合は尤度が最も高い音響モデルの系列における各音響モデルの音韻又は音韻境界を示すラベルを、入力音声信号の対応する部分に付ける。なお通常は音響モデルは正規化した音声信号を用いて作成し、入力音声信号も正規化した後、前記ステップＳ１以下の処理を行う。
図２にこの発明の装置の実施形態を示す。入力端子１０より入力された音声信号（通常、例えばサンプリング周波数２２ｋＨｚでサンプリングされたデジタル信号とされている）は正規化部１１で正規化される。つまり例えば入力音声信号中のサンプルの最大値が、処理するデータのビット幅の取り得る最大値となるようにし、この変換係数を他の全てのサンプル値に乗算する、あるいは、入力音声信号中のサンプルの最大値で全てのサンプル値を割算するなどにより行う。
【００１５】
このように正規化された音声信号はフレーム分割部１２でフレームに分割される。前記例では２ミリ秒ごとに２０ミリ秒間の音声信号が取り込まれる。
各フレームごとに音声信号は帯域分割部１３において、複数、例えば１０個の帯域に周波数メル線形分割される。この分割は例えば前記式により行われる。
バンク係数計算部１４において、分割された各帯域の音声信号パワーがメルフィルタバンク係数として計算され、その帯域ごとのメルフィルタバンク係数は記憶部１５に格納される。またエネルギー計算部１６で各フレームごとに音声信号のエネルギーが、例えばそのフレームの各サンプル値の２乗和をとることにより計算され、記憶部１５に格納される。メルフィルタバンク係数、エネルギーも対数値として求めると処理が容易となる。この例では１次差分計算部１７でメルフィルタバンク係数のフレーム間差分Δ成分が計算され、また２次差分計算部１８でΔ成分のフレーム間差分ΔΔ成分が計算され、これらΔ成分、ΔΔ成分は記憶部１５に格納される。同様にこの例では１次差分計算部２１でエネルギーのフレーム間差分Δ成分が計算され２次差分計算部２２でそのエネルギーのΔ成分のフレーム間差分ΔΔ成分が計算され、これらエネルギーのΔ成分、ΔΔ成分も記憶部１５に格納される。記憶部１５に対する格納は何れも各フレームの番号と対応付けて行われる。
【００１６】
その後、類似度計算部２３では記憶部１５からフレーム番号の順に取り出した音響特徴量ベクトル（この例ではメルフィルタバンク係数、エネルギー、これらの各Δ成分、ΔΔ成分）の系列と、モデル格納部２４により取出した音響モデルの系列との類似度を計算する。入力音声信号は既知の文（テキスト）を読み上げたものであるから、そのテキストが音韻情報変換部２５に入力されて音韻又は音韻境界情報の系列に変換され、その変換された各音韻又は音韻境界情報によりモデル格納部２４から対応する音響モデルが読み出され入力音声信号に対する音響モデルの系列が類似度計算部２３に供給され、各音響モデルと前記音響特徴量ベクトル系列との対応付けを、全体の類似度が最大になるように行う。音響モデル系列の各音響モデルを、その順番に、音響特徴量ベクトル系列に対応付けるようにしてもよい。この対応付けは音響モデルがＨＭＭの場合は例えばビタビアルゴリズムにより尤度が最大になるようにする。
【００１７】
このようにして類似度が最大となる音響モデル又は音響モデル系列が求まると、ラベル付与部２６はその音響モデルの音韻又は音韻境界を表わすラベルを音声信号に付与する。つまり音声信号の各フレームについて音韻又は音韻境界を示すラベルを表わすラベル情報（音韻又は音韻境界情報）を付与する。以上の各部の処理を各部に順次行わせることを制御部２７が行う。
次にこの発明が優れていることを示す実験例を述べる。
従来技術としては、一般的に音声認識で用いられる音響パラメータであるメルフレクエンシイケプストラム係数（Mel Frequency Cepstrum Coefficient：ＭＦＣＣ、次式で計算される）
ｃ_i＝√（２／Ｎ）Σ_j=1 ^Nｍ_jcos（（πｉ／Ｎ）（ｊ−０．５））
とそのΔ成分、ΔΔ成分を用いた音素モデルにより自動ラベリングを行った。この発明の例としてメルフィルタバンク係数（ＦＢＡＮＫ）とエネルギーＥ（Ｅｎｅｒｇｙ成分）、及びそれらのΔ成分、ΔΔ成分を用いた、５状態、４つの混合分布を有するＨＭＭの音素モデルにより自動ラベリングを行った。この自動音素ラベリング実験で用いたパラメータ構成を図３に示す。例えばＭＦＣＣの０〜１０次とΔ成分、ΔΔ成分を便宜的にＭＦＣＣ１０と呼び、同様にＦＢＡＮＫの１〜３０チャネルとＥと各Δ成分、ΔΔ成分とをＦＢＡＮＫ３０と呼ぶ。実験に用いたテストデータを図４、図５に示す。図６に、同一話者の同一発話様式と異なる発話様式に関する実験結果を、図７に異なる話者の同一発話様式と異なる発話様式に関する実験結果を示す。
【００１８】
図において、棒グラフは平均誤差（ｍｓ）を、折れ線グラフは誤差が基準値以内に収まる割合を示す。棒グラフの値が小さいほど、また、折れ線グラフの値が大きいほど性能がよい。斜線を施した棒グラフは、ＭＦＣＣを用いた場合、白棒グラフはＦＢＡＮＫを用いた場合であり、折れ線グラフの実線はＭＦＣＣを用いた場合、折れ線グラフの破線はＦＢＡＮＫを用いた場合、各折れ線グラフで△のプロットは誤差が２０ｍｓ以内に収まる割合（％）の場合、×のプロットは誤差が１０ｍｓ以内に収まる割合（％）の場合である。誤差は自動ラベリングの結果とその手動ラベルデータとの境界位置の差分である。誤差算出の例を図８に示す。棒グラフと折れ線グラフ共に高い値を示す場合は、誤りの分散が大きい。図６、図７の棒グラフから、ＦＢＡＮＫパラメータの方が自動ラベリングによる誤差が少ないことが分かる。また、同様に折れ線グラフから、ＦＢＡＮＫパラメータの方が２０ｍｓ／１０ｍｓ以内に収まる割合が高いことが分かる。これらから、話者や発話様式にかかわらずＦＢＡＮＫパラメータの方がラベリング精度が高いと言える。
【００１９】
図７の棒グラフより、１５次以上になるとＭＦＣＣとＦＢＡＮＫの性能の差が極端に大きくなる。これに対し、図６の場合は１５次以上になってもＭＦＣＣとＦＢＡＮＫの性能の差はあまり変わらない。これは、次数が増加するにつれてＭＦＣＣが話者Ｘに適した精密なモデルが構築され、話者が異なるとラベリング精度が劣化すると考えられる。つまりＦＢＡＮＫの方が話者の影響を受け難いと言える。また、図７の棒グラフからＦＢＡＮＫ１０において自動ラベリング精度が飽和状態にあることが見て取れる。従ってＦＢＡＮＫにおいては帯域数が１０程度あればよいことになる。
【００２０】
音響モデルとしては、ＤＰパッチングによる音声認識に用いられる標準パタンを用いてもよい。この標準パタンを音響モデルとして用いる場合は音響特徴量と音響モデル（標準パタン）との類似度の計算はこれら間の距離を求め、その距離が小さいもの程、類似度が高いとする。上述において多少精度が落ちるがエネルギーの代りに、メルフレクエンシイケプストラム係数の０次成分を用いてもよい。
図２に示した装置をコンピュータにプログラムを実行させて機能させてもよい。この場合は、この音素決定プログラムをＣＤ−ＲＯＭ、磁気ディスクなどの記録媒体から、あるいは通信回線を介してコンピュータ内にダウンロードして、そのプログラムを実行させればよい。
【００２１】
【発明の効果】
以上述べたようにこの発明によれば、従来よりも高い精度で自動ラベリングを行うことができる。
【図面の簡単な説明】
【図１】この発明の方法の実施形態を示す流れ図。
【図２】この発明の装置の実施形態の機能構成を示す図。
【図３】実験に用いたパラメータの構成を示す図。
【図４】実験に用いた同一話者ラベリングのテストデータを示す図。
【図５】実験に用いた他者ラベリングのテストデータを示す図。
【図６】同一話者の音声自動ラベリング精度評価結果を示す図。
【図７】他者の音声自動ラベリング精度評価結果を示す図。
【図８】自動ラベリングの境界誤差算出例を示す図。

Claims

音声合成のための音声素片を取り出すための音素決定方法であって、
入力音声信号をフレームごとに複数の帯域にメル周波数分割する過程と、
上記分割された帯域ごとの入力音声信号のパワーをメルフィルタバンク係数として計算する過程と、
フレームごとに入力音声信号のエネルギーを計算する過程と、
メルフィルタバンク係数及びエネルギーを含む音響特徴量ベクトルごとに、音韻境界と対応付けられた音響モデルに対する、上記入力音声信号の音響特徴量ベクトルの音韻境界の類似度を求める過程と、ここで、音響モデルとは、上記入力音声信号のテキストが音韻境界の系列に変換され、変換された音韻境界に対応するものであり、
各フレームごとに求めた類似度が最も高い音韻境界を示すラベルを付与する過程と
を有する音素決定方法。
音声合成のための音声素片を取り出すための音素決定装置であって、
入力音声信号をフレームごとに複数の帯域にメル周波数分割する帯域分割部と、
上記分割された各帯域の入力音声信号のパワーをメルフィルタバンク係数として計算するバンク係数計算部と、
上記入力音声信号のエネルギーをフレームごとに求めるエネルギー計算部と、
上記入力音声信号のテキストが音韻境界の系列に変換され、変換された音韻境界に対応する音響モデルが格納されたモデル格納部と、
上記メルフィルタバンク係数及び上記エネルギーを含む音響特徴系列と上記音響モデルとの類似度を求める類似度計算部と、
上記求めた類似度が最も高い音響モデルと対応した音韻境界を示すラベルを付与するラベル付与部と
を具備する音素決定装置。
請求項１記載の音素決定方法の各過程をコンピュータに実行させるための音素決定プログラム。