JP3866171B2 - 音素決定方法、その装置及びプログラム - Google Patents

音素決定方法、その装置及びプログラム Download PDF

Info

Publication number
JP3866171B2
JP3866171B2 JP2002239448A JP2002239448A JP3866171B2 JP 3866171 B2 JP3866171 B2 JP 3866171B2 JP 2002239448 A JP2002239448 A JP 2002239448A JP 2002239448 A JP2002239448 A JP 2002239448A JP 3866171 B2 JP3866171 B2 JP 3866171B2
Authority
JP
Japan
Prior art keywords
phoneme
audio signal
frame
energy
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002239448A
Other languages
English (en)
Other versions
JP2004077901A (ja
Inventor
朋子 米澤
秀之 水野
匡伸 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002239448A priority Critical patent/JP3866171B2/ja
Publication of JP2004077901A publication Critical patent/JP2004077901A/ja
Application granted granted Critical
Publication of JP3866171B2 publication Critical patent/JP3866171B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は例えば音声素片を接続して音声合成をする際の音声素片を求めるために用いられ、音声信号における音韻又は音韻境界を自動的に求める音素決定方法、その装置及びプログラムに関する。
【0002】
【従来の技術】
従来において、音声素片を取出すための音韻又は音韻境界を示すラベルの付与(ラベリング)はその音声信号のソナグラムを見ながら人手によって音韻境界を決定していた。人手によるラベリングは可成り正確に行うことができるが、手間が大変であった。特に様々な人の声質や様々な発話様式で音声を合成するために必要とする音声素片は非常に多数となり、これを人手によるラベリングにより求めることは著しく大変な作業となる。
【0003】
従来において、自動的にラベリングを行うことが提案されている。その1つにメルケプストラムに基づく音素モデルを用いた音声認識による音素ラベリングが、文献Brugnara,F.,Falavigna,D.,and Omologo,M.,“Automatic segmentation and labeling of speech based on Hidden Markov Models,”Speech Communication,No.12, pp.357-370,1993.などに示されている。また、スペクトログラムリーディング知識を用いた音素ラベリングが、文献 畑崎香一郎,田村震一,川端豪,鹿野清宏,“スペクトログラムリーディング知識を用いた音素セグメンテーションの試み”,日本音響学会講演論文集,pp.21−22,Mar.,1991.などに示されている。
【0004】
しかし、従来の自動ラベリングは音声認識により音素を特定するだけであるため、各音素の区間を特定する精度が比較的悪かった。このため、自動ラベリングに基づき求めた音声素片をつなぎ合せた合成音声は品質が悪いものとなる。
【0005】
【発明が解決しようとする課題】
この発明の目的は、音韻を正確に区別することができ、しかも音韻の区間、つまり音韻境界を正確に特定することができる音素決定方法、その装置及びプログラムを提供することにある。
【0006】
【課題を解決するための手段】
この発明の方法によれば、入力音声信号をフレームごとに複数の帯域にメル周波数分割し、上記分割された帯域ごとの入力音声信号のパワーをメルフィルタバンク係数として計算し、フレームごとに入力音声信号のエネルギーを計算し、メルフィルタバンク係数及びエネルギーを含む音響特徴量ベクトルごとに音韻又は音韻境界と対応付けられた音響モデルに対する、上記入力音声信号の音響特徴量ベクトルの音韻又は音韻境界の類似度を求め、各フレームごとに求めた類似度が最も高い音韻又は音韻境界を示すラベルを付与する。
【0007】
この発明の装置によれば、入力音声信号をフレームごとに複数の帯域にメル周波数分割する帯域分割部と、上記分割された各帯域の入力音声信号のパワーをメルフィルタバンク係数として計算するバンク係数計算部と、上記入力音声信号のエネルギーをフレームごとに求めるエネルギー計算部と、各音韻又は音韻境界の音響モデルが格納されたモデル格納部と、上記メルフィルタバンク係数及び上記エネルギーを含む音響特徴系列と上記音響モデルとの類似度を求める類似度計算部と、上記求めた類似度が最も高い音響モデルと対応した音韻又は音韻境界を示すラベルを付与するラベル付与部とを備える。
【0008】
この構成によればメルフィルタバンク係数及びエネルギーを含む音響特徴量ベクトルを分析し、これに基づいて音韻又は音韻境界を示すラベルを特定しており、音韻境界では帯域ごとに特徴的なパワー変動が起こるが、その性質を反映した上記音響モデルを用いているため、音韻境界を正確に特定しやすくなる。
【0009】
【発明の実施の形態】
この発明ではラベリングのために音響モデルを用いるがその音響モデルの作成をまず簡単に説明する。ある話者が無意味文を読み上げた音声信号について、フレーム長は例えば20ミリ秒とし、そのフレームを例えば2ミリ秒ずつシフトしながら、入力音声信号を取り込みメル周波数分割する。この分割数は例えば10以上、好ましくは10とする。メル周波数分割は周波数の尺度を次式によりメル周波数尺度に変換し、音声信号をこのメル周波数尺度に対し等分割する。
Mel(f)=2595log10(1+(f/700))
【0010】
この各帯域ごとの音声信号の対数パワーを求めてメルフィルタバンク係数とし、また各フレームごとの音声信号のエネルギーを求めてこれらメルフィルタバンク係数とエネルギーとを含む音響特徴量ベクトルを求める。音響モデルとして例えば隠れマルコフモデル(HMM)を使用するが、HMMは各状態ごとに1以上の有限個のフレーム間での音響特徴量ベクトルの系列ごとに音韻又は音韻境界と対応付けられた出現確率をもち、状態間の遷移確率から構成され、音韻又は音韻境界との対応が予め知られている音声波形又は対応する音響特徴量ベクトル系列を用いて、音響特徴量ベクトルまたはその系列ごとに音韻又は音韻境界ごとの出現頻度をカウントし、例えば既知の方法であるSegmental k-means法で初期化し、Baum−Welch法で学習することによりHMMを作成する。
なお音韻境界の音響モデルは1つの音韻とその隣接する音韻境界を含む前後のいくつかのフレームの音響特徴量ベクトルの系列に基づき、作成されるものである。
【0011】
次にこの発明の方法の実施形態を図1を参照して説明する。
ステップS1:入力音声信号をフレームごとに、複数の帯域にメル周波数分割する。フレーム長は例えば20ミリ秒とし、そのフレームを例えば2ミリ秒ずつシフトしながら入力音声信号を取り込みメル周波数分割する。この分割数は例えば10以上、好ましくは10とする。
【0012】
ステップS2:分割された各帯域の音声信号のパワーを、メルフィルタバンク係数として計算し、またそのフレームにおける音声信号のエネルギー、つまりパワーを求める。メルフィルタバンク係数とエネルギーを含む音響特徴量ベクトルを求める。各パワー(メルフィルタバンク係数)のフレーム間差分、Δ成分と、そのフレーム間差分ΔΔ成分(2次差分成分)も求め、同様にエネルギーのフレーム間差分Δ成分と、そのフレーム間差分ΔΔ成分も求め、これら両Δ成分、ΔΔ成分も音響特徴量ベクトルとして含めることが好ましい。パワーのΔ成分だけ、あるいはエネルギーのΔ成分だけ、またはパワーのΔ成分とΔΔ成分だけ、もしくはエネルギーのΔ成分とΔΔ成分だけを含めてもよい。またパワー(エネルギー)としては対数パワーとして求めた方が処理し易い。
【0013】
ステップS3:求めた音響特徴量ベクトルの系列と音響モデルとの類似度を計算する。入力音声信号は文(テキスト)を読み上げたものであり、従って入力音声信号はどの音韻又は音韻境界系列からなっているかは予め知っているため、対応する音韻又は音韻境界の各音響モデルとの類似度を求めればよい。音響モデルが例えばHMMの場合は、各フレームごとに得られる音響特徴量ベクトルを用いてHMMにおける出現確率、遷移確率を求め、例えばビタビ(Viterbi)アルゴリズムによりブランチメトリック値を求め、更にパスメトリック値を求めて、その入力音声信号の全体に対する尤度を計算する。この場合、対象となるHMMは予め知られているから、演算量が少なくて済む、また類似度として尤度を求めている。
【0014】
ステップS4:類似度、HMMの場合は尤度が最も高い音響モデルの系列における各音響モデルの音韻又は音韻境界を示すラベルを、入力音声信号の対応する部分に付ける。なお通常は音響モデルは正規化した音声信号を用いて作成し、入力音声信号も正規化した後、前記ステップS1以下の処理を行う。
図2にこの発明の装置の実施形態を示す。入力端子10より入力された音声信号(通常、例えばサンプリング周波数22kHzでサンプリングされたデジタル信号とされている)は正規化部11で正規化される。つまり例えば入力音声信号中のサンプルの最大値が、処理するデータのビット幅の取り得る最大値となるようにし、この変換係数を他の全てのサンプル値に乗算する、あるいは、入力音声信号中のサンプルの最大値で全てのサンプル値を割算するなどにより行う。
【0015】
このように正規化された音声信号はフレーム分割部12でフレームに分割される。前記例では2ミリ秒ごとに20ミリ秒間の音声信号が取り込まれる。
各フレームごとに音声信号は帯域分割部13において、複数、例えば10個の帯域に周波数メル線形分割される。この分割は例えば前記式により行われる。
バンク係数計算部14において、分割された各帯域の音声信号パワーがメルフィルタバンク係数として計算され、その帯域ごとのメルフィルタバンク係数は記憶部15に格納される。またエネルギー計算部16で各フレームごとに音声信号のエネルギーが、例えばそのフレームの各サンプル値の2乗和をとることにより計算され、記憶部15に格納される。メルフィルタバンク係数、エネルギーも対数値として求めると処理が容易となる。この例では1次差分計算部17でメルフィルタバンク係数のフレーム間差分Δ成分が計算され、また2次差分計算部18でΔ成分のフレーム間差分ΔΔ成分が計算され、これらΔ成分、ΔΔ成分は記憶部15に格納される。同様にこの例では1次差分計算部21でエネルギーのフレーム間差分Δ成分が計算され2次差分計算部22でそのエネルギーのΔ成分のフレーム間差分ΔΔ成分が計算され、これらエネルギーのΔ成分、ΔΔ成分も記憶部15に格納される。記憶部15に対する格納は何れも各フレームの番号と対応付けて行われる。
【0016】
その後、類似度計算部23では記憶部15からフレーム番号の順に取り出した音響特徴量ベクトル(この例ではメルフィルタバンク係数、エネルギー、これらの各Δ成分、ΔΔ成分)の系列と、モデル格納部24により取出した音響モデルの系列との類似度を計算する。入力音声信号は既知の文(テキスト)を読み上げたものであるから、そのテキストが音韻情報変換部25に入力されて音韻又は音韻境界情報の系列に変換され、その変換された各音韻又は音韻境界情報によりモデル格納部24から対応する音響モデルが読み出され入力音声信号に対する音響モデルの系列が類似度計算部23に供給され、各音響モデルと前記音響特徴量ベクトル系列との対応付けを、全体の類似度が最大になるように行う。音響モデル系列の各音響モデルを、その順番に、音響特徴量ベクトル系列に対応付けるようにしてもよい。この対応付けは音響モデルがHMMの場合は例えばビタビアルゴリズムにより尤度が最大になるようにする。
【0017】
このようにして類似度が最大となる音響モデル又は音響モデル系列が求まると、ラベル付与部26はその音響モデルの音韻又は音韻境界を表わすラベルを音声信号に付与する。つまり音声信号の各フレームについて音韻又は音韻境界を示すラベルを表わすラベル情報(音韻又は音韻境界情報)を付与する。以上の各部の処理を各部に順次行わせることを制御部27が行う。
次にこの発明が優れていることを示す実験例を述べる。
従来技術としては、一般的に音声認識で用いられる音響パラメータであるメルフレクエンシイケプストラム係数(Mel Frequency Cepstrum Coefficient:MFCC、次式で計算される)
i =√(2/N)Σj=1 Nj cos((πi/N)(j−0.5))
とそのΔ成分、ΔΔ成分を用いた音素モデルにより自動ラベリングを行った。この発明の例としてメルフィルタバンク係数(FBANK)とエネルギーE(Energy成分)、及びそれらのΔ成分、ΔΔ成分を用いた、5状態、4つの混合分布を有するHMMの音素モデルにより自動ラベリングを行った。この自動音素ラベリング実験で用いたパラメータ構成を図3に示す。例えばMFCCの0〜10次とΔ成分、ΔΔ成分を便宜的にMFCC10と呼び、同様にFBANKの1〜30チャネルとEと各Δ成分、ΔΔ成分とをFBANK30と呼ぶ。実験に用いたテストデータを図4、図5に示す。図6に、同一話者の同一発話様式と異なる発話様式に関する実験結果を、図7に異なる話者の同一発話様式と異なる発話様式に関する実験結果を示す。
【0018】
図において、棒グラフは平均誤差(ms)を、折れ線グラフは誤差が基準値以内に収まる割合を示す。棒グラフの値が小さいほど、また、折れ線グラフの値が大きいほど性能がよい。斜線を施した棒グラフは、MFCCを用いた場合、白棒グラフはFBANKを用いた場合であり、折れ線グラフの実線はMFCCを用いた場合、折れ線グラフの破線はFBANKを用いた場合、各折れ線グラフで△のプロットは誤差が20ms以内に収まる割合(%)の場合、×のプロットは誤差が10ms以内に収まる割合(%)の場合である。誤差は自動ラベリングの結果とその手動ラベルデータとの境界位置の差分である。誤差算出の例を図8に示す。棒グラフと折れ線グラフ共に高い値を示す場合は、誤りの分散が大きい。図6、図7の棒グラフから、FBANKパラメータの方が自動ラベリングによる誤差が少ないことが分かる。また、同様に折れ線グラフから、FBANKパラメータの方が20ms/10ms以内に収まる割合が高いことが分かる。これらから、話者や発話様式にかかわらずFBANKパラメータの方がラベリング精度が高いと言える。
【0019】
図7の棒グラフより、15次以上になるとMFCCとFBANKの性能の差が極端に大きくなる。これに対し、図6の場合は15次以上になってもMFCCとFBANKの性能の差はあまり変わらない。これは、次数が増加するにつれてMFCCが話者Xに適した精密なモデルが構築され、話者が異なるとラベリング精度が劣化すると考えられる。つまりFBANKの方が話者の影響を受け難いと言える。また、図7の棒グラフからFBANK10において自動ラベリング精度が飽和状態にあることが見て取れる。従ってFBANKにおいては帯域数が10程度あればよいことになる。
【0020】
音響モデルとしては、DPパッチングによる音声認識に用いられる標準パタンを用いてもよい。この標準パタンを音響モデルとして用いる場合は音響特徴量と音響モデル(標準パタン)との類似度の計算はこれら間の距離を求め、その距離が小さいもの程、類似度が高いとする。上述において多少精度が落ちるがエネルギーの代りに、メルフレクエンシイケプストラム係数の0次成分を用いてもよい。
図2に示した装置をコンピュータにプログラムを実行させて機能させてもよい。この場合は、この音素決定プログラムをCD−ROM、磁気ディスクなどの記録媒体から、あるいは通信回線を介してコンピュータ内にダウンロードして、そのプログラムを実行させればよい。
【0021】
【発明の効果】
以上述べたようにこの発明によれば、従来よりも高い精度で自動ラベリングを行うことができる。
【図面の簡単な説明】
【図1】この発明の方法の実施形態を示す流れ図。
【図2】この発明の装置の実施形態の機能構成を示す図。
【図3】実験に用いたパラメータの構成を示す図。
【図4】実験に用いた同一話者ラベリングのテストデータを示す図。
【図5】実験に用いた他者ラベリングのテストデータを示す図。
【図6】同一話者の音声自動ラベリング精度評価結果を示す図。
【図7】他者の音声自動ラベリング精度評価結果を示す図。
【図8】自動ラベリングの境界誤差算出例を示す図。

Claims (3)

  1. 音声合成のための音声素片を取り出すための音素決定方法であって、
    入力音声信号をフレームごとに複数の帯域にメル周波数分割する過程と、
    上記分割された帯域ごとの入力音声信号のパワーをメルフィルタバンク係数として計算する過程と、
    フレームごとに入力音声信号のエネルギーを計算する過程と、
    メルフィルタバンク係数及びエネルギーを含む音響特徴量ベクトルごとに、音韻境界と対応付けられた音響モデルに対する、上記入力音声信号の音響特徴量ベクトルの音韻境界の類似度を求める過程と、ここで、音響モデルとは、上記入力音声信号のテキストが音韻境界の系列に変換され、変換された音韻境界に対応するものであり、
    各フレームごとに求めた類似度が最も高い音韻境界を示すラベルを付与する過程と
    を有する音素決定方法。
  2. 音声合成のための音声素片を取り出すための音素決定装置であって、
    入力音声信号をフレームごとに複数の帯域にメル周波数分割する帯域分割部と、
    上記分割された各帯域の入力音声信号のパワーをメルフィルタバンク係数として計算するバンク係数計算部と、
    上記入力音声信号のエネルギーをフレームごとに求めるエネルギー計算部と、
    上記入力音声信号のテキストが音韻境界の系列に変換され、変換された音韻境界に対応する音響モデルが格納されたモデル格納部と、
    上記メルフィルタバンク係数及び上記エネルギーを含む音響特徴系列と上記音響モデルとの類似度を求める類似度計算部と、
    上記求めた類似度が最も高い音響モデルと対応した音韻境界を示すラベルを付与するラベル付与部と
    を具備する音素決定装置。
  3. 請求項1記載の音素決定方法の各過程をコンピュータに実行させるための音素決定プログラム。
JP2002239448A 2002-08-20 2002-08-20 音素決定方法、その装置及びプログラム Expired - Fee Related JP3866171B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002239448A JP3866171B2 (ja) 2002-08-20 2002-08-20 音素決定方法、その装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002239448A JP3866171B2 (ja) 2002-08-20 2002-08-20 音素決定方法、その装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2004077901A JP2004077901A (ja) 2004-03-11
JP3866171B2 true JP3866171B2 (ja) 2007-01-10

Family

ID=32022553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002239448A Expired - Fee Related JP3866171B2 (ja) 2002-08-20 2002-08-20 音素決定方法、その装置及びプログラム

Country Status (1)

Country Link
JP (1) JP3866171B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7364068B2 (ja) * 2020-05-29 2023-10-18 日本電信電話株式会社 ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム
CN114360504A (zh) * 2021-11-26 2022-04-15 腾讯科技(深圳)有限公司 音频处理方法、装置、设备、程序产品及存储介质

Also Published As

Publication number Publication date
JP2004077901A (ja) 2004-03-11

Similar Documents

Publication Publication Date Title
JP3810608B2 (ja) 音声レコグナイザーのためのトレーニング方法
Svendsen et al. On the automatic segmentation of speech signals
US5146539A (en) Method for utilizing formant frequencies in speech recognition
Chazan et al. Speech reconstruction from mel frequency cepstral coefficients and pitch frequency
JPH05216490A (ja) 音声コード化装置及び方法並びに音声認識装置及び方法
JPH0612089A (ja) 音声認識方法
US20040143435A1 (en) Method of speech recognition using hidden trajectory hidden markov models
JP2006285254A (ja) 音声速度測定方法及び装置並びに録音装置
EP1511007B1 (en) Vocal tract resonance tracking using a target-guided constraint
JP2006227587A (ja) 発音評定装置、およびプログラム
US20150348535A1 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CN112750445A (zh) 语音转换方法、装置和***及存储介质
JP2002268698A (ja) 音声認識装置と標準パターン作成装置及び方法並びにプログラム
Rao et al. Glottal excitation feature based gender identification system using ergodic HMM
JP3866171B2 (ja) 音素決定方法、その装置及びプログラム
Darch et al. MAP prediction of formant frequencies and voicing class from MFCC vectors in noise
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP4753412B2 (ja) 発音評定装置、およびプログラム
JP2005157350A (ja) 区分的線形近似を用いた連続値声道共鳴追跡の方法および装置
Sai et al. Enhancing pitch robustness of speech recognition system through spectral smoothing
Sun et al. Experiments on Chinese speech recognition with tonal models and pitch estimation using the Mandarin speecon data.
Sriranjani et al. Experiments on front-end techniques and segmentation model for robust Indian Language speech recognizer
Tolba et al. Comparative experiments to evaluate the use of auditory-based acoustic distinctive features and formant cues for automatic speech recognition using a multi-stream paradigm
JP2003255980A (ja) 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体
Li SPEech Feature Toolbox (SPEFT) design and emotional speech feature extraction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040716

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060818

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061004

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101013

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101013

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111013

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111013

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121013

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121013

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131013

Year of fee payment: 7

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees