JP3533696B2

JP3533696B2 - 音声認識の境界推定方法及び音声認識装置

Info

Publication number: JP3533696B2
Application number: JP05060694A
Authority: JP
Inventors: 芳春阿部
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1994-03-22
Filing date: 1994-03-22
Publication date: 2004-05-31
Anticipated expiration: 2019-05-31
Also published as: JPH07261789A; US5710865A; TW299435B

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は連続音声を認識し、音
韻系列に変換する音声認識装置の改良に関する。

【０００２】

【従来の技術】連続音声を音韻の連結したものとみな
し、音韻モデルの連結である音韻モデル系列に従って入
力音声を分析し、入力音声に当てはまる最適な音韻モデ
ル系列をモデル演算手段によって求め、入力音声を、こ
うして得られる最適な音韻モデル系列の音韻の系列に変
換する音韻記述方式において、音韻モデル系列の当ては
めの演算とは別に、音韻の境界を直接入力音声中より検
出し、音韻モデル系列の当てはめ時に、音韻モデル間の
遷移を検出された音韻境界付近に限定することで、認識
精度の向上が達成される。この従来の音韻記述方式の詳
細は平成５年１０月発行の日本音響学会講演論文集１−
８−５「状態間遷移束縛型ＨＭＭによる音韻記述」に記
載された通りである。この従来の音韻境界検出は、検出
を高精度で行うため音韻境界を前後の音韻によって分類
して、この分類に基づく音韻境界の種類毎に確率モデル
のパラメータを学習して用いている。

【０００３】図８はこの種の従来の音声認識装置の構成
図である。本装置はモデル演算手段として、ビタビのア
ルゴリズムに基づくＨＭＭ演算部１３を用いている。Ｈ
ＭＭ演算部１３は１音韻に１状態を割り当てるＨＭＭを
用いている。また、音韻モデル系列の境界の生成は、Ｈ
ＭＭの状態間の遷移として現れる。更にモデル演算手段
で複数個用意された音韻モデル系列に対し、音韻系列変
換手段としての最適状態系列検出部１５が最適状態系列
を検出して音韻モデル系列を選択する。以下、各部の動
作を説明する。

【０００４】音声区間検出部１１は、入力音声のパワー
計算により音声区間を検出し、この音声区間内の音声信
号Ｒ１を切り出して特徴抽出部１に送る。特徴抽出部１
は、音声区間内の音声信号Ｒ１中から長さ２５．６ｍｓ
の時間窓を用いた１５次線形予測メルケプストラム分析
によって１０ｍｓ毎に０〜１０次のメルケプストラム係
数からなる特徴パラメータ時系列Ｒ２を抽出し音韻モデ
ル演算手段としてのＨＭＭ演算部１３及び境界検出部７
に送る。

【０００５】境界検出部７は、図９のごとく構成され、
特徴パラメータ時系列Ｒ２から、音韻境界の分類に対応
して音声中の音韻境界あるいは音韻境界付近の領域を検
出する。音韻境界の分類は音韻境界をはさんで先行する
音韻名を基準にして、図１０のごとく１４分類してい
る。図９において、時間窓部２は、特徴パラメータ時系
列Ｒ２より時刻t=1,2,…,Tについて、時刻ｔを中心に時
間幅10フレームの範囲の0〜7次のメルケプストラム係数
合計80(=10フレーム×8次元)個を１つのベクトル(以
後、固定長セグメントと呼ぶ)として抽出し、これら固
定長セグメントの時系列Ｒ２を出力する。（以下、中心
時刻ｔの固定長セグメントをＢtと記す。）境界検出パラメータ記憶部８は、境界検出パラメータＲ
８が記憶されている。境界検出パラメータＲ８は、Ｋ
（＝１４）種類の音韻境界の分類番号ｋ（ｋ＝１，２，
…，Ｋ）のクラスｃ（ｃ＝０，１）の固定長セグメント
の分布（これはＭ（＝４）混合のガウス混合分布によっ
て表されている）を構成する第ｍ番目（ｍ＝１，２，
…，Ｍ）の要素ガウス分布のパラメータとしての平均ベ
クトルμmck、共分散行列Σmck及び分岐確率λmckから
なる。境界尤度計算部９００２、９００４、……、９０
２８は、それぞれ、音韻境界のカテゴリに対応して、確
率密度Ｒ８００１、Ｒ８００２、……、Ｒ８０２８を参
照して、固定長セグメントＲ２の中心に音声中の音韻境
界が存在する尤度（境界尤度）を計算し、境界尤度時系
列Ｃ1（Ｂt）、Ｃ2（Ｂt）、…、ＣK（Ｂt）として出力
する。分類ｋの境界尤度Ｃk（Ｂt）は固定長セグメント
Ｂtの中心に分類ｋの音韻境界が存在する確率Pr(Ｂt｜
k,1)と、固定長セグメントＢtの中心に分類ｋの音韻境
界が存在しない確率Pr(Ｂt｜k,0)との対数尤度比として
式（１）に基づいて計算される。ここで、確率Pr(Ｂt｜
k,1)は式（２）に基づいて、また、確率Pr(Ｂt｜k,0)は
式（３）に基づいて計算される。なお、原理的に、変数
Ｃk（Ｂt）は、分類ｋの音韻境界あるいは音韻境界付近
の領域でＣk（Ｂt）＞０となることが期待される。

【０００６】

【数１】

【０００７】図１１は音韻モデル系列としてのＨＭＭの
構造を摸式的に示したものである。本ＨＭＭはｎ状態
（ｎ＝２９）からなり、各状態は、１つの音韻に対応づ
けられている。状態ｉから状態ｊへの遷移確率は、ａij
で、また、時刻ｔの特徴パラメータｘtの状態ｊにおけ
る出力確率は、ｂj(ｘt)で示されている。出力確率ｂj
(ｘt)は、Ｍ（＝８）混合の混合ガウス分布で表されて
おり、第ｍ番目の要素ガウス分布についての平均ベクト
ルμmj及び共分散行列Σmj、分岐確率λmjをパラメータ
として、式（４）で計算される。ただし、式中、Ｎ(ｘt
|μmj,Σmj)は平均μmj、分散Σmjの正規確率密度関数
をあらわす。これら遷移確率ａij及び出力確率計算用の
パラメータＨＭＭパラメータ記憶部１４に記憶されてい
る。

【０００８】

【数２】

【０００９】ＨＭＭ演算部１３は境界検出部７の境界検
出結果Ｒ７及びＨＭＭパラメータＲ１４を参照しビタビ
アルゴリズムに基づく漸化式である式（５）及び式
（６）を初期条件を表す式（７）の下で計算する。ここ
で、α(j,t)は、時刻ｔにおいて、状態ｊに留まる確率
(前向き確率)を表し、β(j,t)は時刻ｔに状態ｊに至る
一つ前の最適な状態番号を表すバックポインタである。

【００１０】

【数３】

【００１１】本ＨＭＭは、上記漸化式で示されたよう
に、従来のＨＭＭとは異なり、時刻ｔで状態ｉから状態
ｊへの状態間遷移に際して、変数Ｃij（Ｂt）を参照し
て、Ｃij（Ｂt）＞０である時だけ、状態間の遷移を許
すように音韻モデル系列の境界の生成としての状態間の
遷移を制限している。なお、同一状態内の遷移（ｉ＝ｊ
のとき）は変数Ｃij（Ｂt）による制限はない。ここ
で、変数Ｃij（Ｂt）は、境界検出部７で計算された分
類ｋの音韻境界の境界尤度Ｃｋ（Ｂt）に対応する。分
類ｋは状態番号ｉ及びｊの関数ｋ（ｉ，ｊ）で与えられ
る。

【００１２】音韻系列変換手段としての最適状態系列検
出部１５は、ＨＭＭ演算結果Ｒ３として得られる前向確
率α(j,t)及びバックポインタβ(j,t)の値から、最適状
態系列Ｒ１５（以後、β＾(1),β＾(2),…,β＾(T)と記
す）を出力する。最適状態系列Ｒ１５は漸化式を表す式
（８）を初期条件を表す式（９）の下で計算することで
得る。なお、最適状態系列Ｒ１５は認識結果の音韻系列
を状態の番号の系列で表したものである。

【００１３】

【数４】

【００１４】

【発明が解決しようとする課題】従来の音韻境界検出の
方法では音韻境界の分類を予め決めた上で、この音韻境
界の分類に従って、この分類毎に境界特徴量の確率分布
モデルを構成している。このため、異なる音韻境界では
あっても、音韻境界の分類として同じに分類されること
があり、必ずしも特定の音韻境界にとって適当ではない
可能性があるという問題があった。また、従来の方法で
も、音韻境界の分類を工夫することで、各音韻境界に対
応した、個別の境界検出器を設計することは理論的には
可能であるが、実際には、滅多に現れない音韻境界に対
応する個別の境界検出器の設計は、学習データを学習に
十分な数だけ集めることは難しいため、学習データの不
足によって、十分な精度で設計ができないという問題が
あった。更に、従来の音韻モデル系列の演算において、
音韻境界の出現を、入力音声中から検出された音韻境界
あるいは音韻境界付近の領域に制限する際、音韻境界尤
度に対して設定する閾値として、音韻境界の分類によら
ず一定の値を用いていたため、音韻境界によって異なる
と考えられる音韻境界の尤度の値の分布の違い（信頼
度）が考慮されていないという問題があった。

【００１５】

【課題を解決するための手段】本発明に係わる音声認識
の境界推定方法は、入力音声を分析して得られる時系列
で展開されるパラメータ群が、所定の時間幅の窓の中で
示す値をサンプルとして抽出し、前記窓の中心に音声の
境界が存在する度合いを算出する場合に、前記窓の中心
に前記音声の境界が存在する第１の確率密度と、前記窓
の中心に前記音声の境界が存在しない第２の確率密度と
を計算し、前記第１の確率密度及び前記第２の確率密度
を含む計算に基づいて前記窓の中心に音声の境界が存在
する度合いを算出する音声認識の境界推定方法におい
て、前記音声の境界の種類に依存しない共通の確率密度
の計算手段を備え、この計算手段の計算した確率密度と
第１の多項式係数を乗算し前記第１の確率密度を計算
し、またこの計算手段の計算した確率密度と第２の多項
式係数を乗算し前記第２の確率密度を計算するようにし
た。また、請求項２の発明は、入力音声を分析して時系
列の特徴パラメータに変換する特徴抽出手段と、前記時
系列の特徴パラメータから、前記入力音声中の音韻境界
または音韻境界付近の領域を検出する境界検出手段と、
前記特徴パラメータに対応する音韻モデル系列を用意
し、該モデル系列を用意する際、前記音韻モデル系列の
境界が生成される時刻を前記境界検出手段が検出した音
韻境界または音韻境界付近の領域内に限定したモデル演
算手段と、前記モデル演算手段の結果から、前記入力音
声に対応する適切な音韻モデル系列を選択する音韻系列
変換手段とを備えた音声認識装置において、前記境界検
出手段は、音韻境界の複数の種類ごとに閾値を算出し、
該閾値との比較により音韻境界を検出するものである。

【００１６】

【作用】この発明の音声認識の境界推定方法では、時系
列変化をするパラメータ群が所定の時間幅の窓の中で示
す値がサンプルとして抽出され、それが時間窓の中心に
境界が存在するサンプルである確率が高い１の確率密度
と、前記窓の中心に境界が存在しないサンプルである確
率が高い第２の確率密度とが計算されるにあたり、音声
の境界の種類に依存しない共通の確率密度が計算され、
この確率密度と第１の多項式係数を乗算し前記第１の確
率密度を計算し、またこの確率密度と第２の多項式係数
を乗算し前記第２の確率密度が計算される。またこの発
明の音声認識装置は、入力音声の音韻境界または音韻境
界付近の領域が推定されるにあたり、音韻境界の種類に
応じた閾値との比較により音韻境界が検出され、特徴パ
ラメータに対応する音韻モデル系列の遷移が生じる時刻
が前記音韻境界または音韻境界付近の領域に限定された
音韻モデル系列が準備され、その中から最適音韻モデル
系列が選ばれる。

【００１７】

【実施例】

実施例１．以下この発明の実施例を説明する。この実施
例においては、音韻モデル系列として、１音韻に１状態
の音韻ＨＭＭを割り当てたＨＭＭ（以後、音韻系列ＨＭ
Ｍと呼ぶ）を用いている。従って、本実施例では、音韻
モデル系列中の音韻境界の生成は、音韻系列ＨＭＭの状
態間の遷移として現れる。なお、１音韻に複数状態を有
する音韻ＨＭＭを用いるときでも本発明は適用可能であ
ることは言うまでもなく、この場合、音韻モデル系列中
の音韻境界の生成は、音韻モデル間の遷移に対応する
（音韻系列ＨＭＭ中の）状態間の遷移として現れる。ま
た、本実施例では、モデル演算手段として、通常のトレ
リスアルゴリズムに基づくＨＭＭ演算における和の演算
を最大化の演算に置き換えたビタビのアルゴリズムに基
づくＨＭＭ演算手段を用いている。なお、通常のトレリ
スアルゴリズムに基づくＨＭＭ演算においても本発明が
適用できることは言うまでもない。

【００１８】従来及びこの実施例における境界検出の原
理は、境界特徴量Ｂtが音韻境界の分布から生起する第
１の確率密度と、非音韻境界の分布から生起する第２の
確率密度を計算し、前者が後者より大きいときに音韻境
界が存在すると判定するものである。この原理の実用の
仕方として、従来は、音韻種類ｎの組み合わせ数（ｎ×
ｎ）に比べて小さな数Ｋ個に分類された音韻環境の分類
のそれぞれについて、境界特徴量の分布を混合連続分布
モデルで表現し、各カテゴリの確率密度の線形和として
第１と第２の確率密度を表現し、さらに、両者の比の対
数を取り境界尤度を表現していた。これに対して、本実
施例では、第１と第２の確率密度の表現に、セミ連続分
布モデルの考え方を取り入れて、式（１０）のように境
界尤度を表現している。

【００１９】

【数５】

【００２０】ここで、Ｍは要素分布の数(コードブック
のサイズ)、ｆm（・）は第ｍ番目の要素分布の確率密度
関数、Ｐmk及びＱmkは後述する学習方法で求められる多
項式係数である。また、整数ｋは物理的に観測される全
ての種類の音韻境界に対して付けられた通し番号であ
り、音韻境界の種類を表す。即ち、状態ｉから状態ｊへ
の遷移に対応する音韻境界の番号は、状態ｉと状態ｊの
一意の関数ｋ（ｉ、ｊ）を用いて、ｋ＝ｋ（ｉ，ｊ）で
与えられる。なお、この関数ｋは、ｉ≠ｊのときは真の
音韻境界、また、ｉ＝ｊのときは非音韻境界（即ち音韻
区間の中心部分）を指すものとする。上記の方法によれ
ば、境界検出器の設計の問題は、音韻境界の種類ｋとは
独立の要素分布の確率密度関数（ｆm）の設計（即ちコ
ードブックの設計）の問題と、音韻境界の種類ｋ毎の分
子分母の多項式係数（Ｐmk及びＱmk）の設計の問題に分
離できる。これら分母分子の多項式係数の設計に当たっ
ては、音韻境界の種類ｋの境界特徴量（固定長セグメン
トで表される）に対して境界尤度が高くなり、その他の
音韻境界の種類の境界特徴量に対して境界尤度が低くな
るようにすれば良い。

【００２１】図１は、この発明の一実施例の構成図であ
り、基本的な構成は従来と同様である。以下図１の各部
を説明する。音声区間検出部１１は、入力音声のパワー
計算により音声区間を検出し、この音声区間内の音声信
号Ｒ１を切り出して特徴抽出部１に送る。特徴抽出部１
は、音声区間内の音声信号Ｒ１中から長さ２５．６ｍｓ
の時間窓を用いた１５次線形予測メルケプストラム分析
によって１０ｍｓ毎に０〜１０次のメルケプストラム係
数からなる特徴パラメータ時系列Ｒ２を抽出し音韻モデ
ル演算手段としてのＨＭＭ演算部１３及び境界検出部７
に送る。

【００２２】境界検出部７は、図２のごとく構成され
る。図において、時間窓部２は、特徴パラメータ時系列
Ｒ２より時刻ｔ＝１，２，…,Ｔについて、時刻ｔを中
心に時間幅１０フレームの範囲の０〜７次のメルケプス
トラム係数合計８０（＝１０フレーム×８次元）個を１
つの８０次元ベクトル（以後、固定長セグメントと呼
ぶ）として抽出し、これら固定長セグメントの時系列Ｒ
２を出力する。（以下、中心時刻ｔの固定長セグメント
をＢtと記す。）境界検出パラメータ記憶部８は、境界検出パラメータＲ
８が記憶されている。境界検出パラメータＲ８は、Ｍ
（＝２２４）個の８０次元ガウス分布の確率密度関数の
平均μm及び分散Σm、また、Ｋ（＝３０９（２９音韻体
系の時）、または、１０７１（２１７音韻体系の時））
組の分子多項式係数Ｐmk及び分母多項式係数Ｑmkからな
る。（ただし、ｍ及びｋは１≦ｍ≦Ｍ、１≦ｋ≦Ｋなる
範囲の整数とする。）共通確率密度演算部１８は、固定長セグメントＢt（ｔ
＝１，２，…，Ｔ）について、Ｍ個の８０次元ガウス分
布の確率密度を計算する。ここで、第ｍ番目（ｍ＝１，
２，…，Ｍ）の確率密度をｆm（Ｂt）と記せばこれは式
（１１）に従って計算する。

【００２３】

【数６】

【００２４】境界尤度計算部１９−１、１９−２、…、
１９−Ｋは、それぞれ、音韻境界の種類に対応してい
て、共通確率密度演算部の結果Ｒ１８を参照して、固定
長セグメントＲ２の中心に音声中の音韻境界が存在する
尤度（境界尤度）を計算し、境界尤度時系列Ｃ1（Ｂ
t）、Ｃ2（Ｂt）、…、ＣK（Ｂt）として出力する。第
ｋ番目（ｋ＝１，２，…，Ｋ）の境界尤度Ｃk（Ｂt）は
固定長セグメントＢtの中心に種類ｋの音韻境界が存在
する確率Pr(Ｂt｜k,1)と、固定長セグメントＢtの中心
に種類ｋの音韻境界が存在しない確率Pr(Ｂt｜k,0)との
対数尤度比として式（１２）に基づいて計算される。こ
こで、確率Pr(Ｂt｜k,1)は式（１３）に基づいて、ま
た、確率Pr(Ｂt｜k,0)は式（１４）に基づいて計算され
る。なお、分子多項式係数及び分母多項式係数は、変数
Ｃk（Ｂt）が種類ｋの音韻境界あるいは音韻境界付近の
領域でＣk（Ｂt）＞０となるように設計する必要があ
る。

【００２５】

【数７】

【００２６】次に本実施例における前記分子及び分母多
項式係数の設計方法を説明する。まず、多項式係数に条
件をつける。即ち、Ｐmk及びＱmkはｍに関する総和が１
であるような非負の多項式係数とする。まず、コードブ
ックの設計をする。即ち音韻境界の種類ｋに依存しない
要素の確率密度関数（ｆm）のパラメータ（本実施例で
はパラメータはμm及びΣmからなる）を求める。これは
学習データをクラスタリングし各クラスタの分布から要
素分布のパラメータを推定することで実現される。本実
施例では学習データをＭ（＝２２４）個のクラスタに分
割して、各クラスタ（ｍ＝１，２，…，Ｍ）の平均μm
及び分散Σmを推定した。次に、最尤推定法に基づい
て、音韻境界の種類ｋのデータから推定される多項式係
数をλmkとする。即ち多項式係数λmkは尤度（式（１
５））を最大化するように決める。

【００２７】

【数８】

【００２８】分子多項式の設計法１：最尤推定した多項
式係数をそのまま分子の多項式係数として用いる。即ち
本設計法ではＰmk＝λmkと置く。

【００２９】分子多項式の設計法２：音韻境界の種類ｋ
＝ｋ（ｉ，ｊ）の最尤推定多項式係数λmkと類似した最
尤推定多項式係数を持つ音韻境界の種類を近い方からＮ
(K)個取ってきて、これらをｋ(1)，ｋ(2)，…，ｋ(N
(k))とする（ただし、ｋ(1)はｋ自身である）。これら
Ｎ(k)組の最尤推定多項式係数を荷重平均して分子の多
項式係数Ｐmkを式（１６）に基づいて設定する。但し、
Ｗkは音韻境界の種類ｋの境界特徴量の学習データ数
（標本数）である。なお、音韻境界の種類ｋの最尤推定
多項式係数λmkと音韻境界の種類ｌの最尤推定多項式係
数λmlの非類似度（ｄ（k,l）と記す）は多項式係数間
の距離を表す式（１７）に基づいて推定する。本設計法
によって、音韻境界の類似度に基づくクラスタリングと
学習データの不足を補う平滑化の効果が期待される。

【００３０】

【数９】

【００３１】分母多項式の設計法：変数Ｃk（Ｂt）をサ
ンプルデータに対して大きく、非サンプルデータに対し
て小さく推定する手法（例えば誤り訂正学習や相互情報
量最大推定法など）も考えられるが、本実施例では、音
韻の定常部に対応する音韻境界の全種類（ｋ（ｉ，
ｉ），ｉ＝１，２，…，ｎ、ただし、ｎは音韻の種類）
の最尤推定多項式係数を荷重平均して分母多項式係数と
してある。即ち、分母多項式係数を式（１８）に基づい
て設定する。このように、本設計法では、分母多項式係
数Ｑmkを音韻境界の種類ｋとは独立に（ｋに依存せず
に）設定する。

【００３２】

【数１０】

【００３３】図３は本実施例の音韻系列ＨＭＭの構造を
摸式的に示したものである。本ＨＭＭはｎ状態（ｎ＝２
９）からなり、各状態は、１つの音韻に対応づけられて
いる。状態ｉから状態ｊへの遷移確率は、ａijで、ま
た、時刻ｔの特徴パラメータｘtの状態ｊにおける出力
確率は、ｂj(ｘt)で示されている。出力確率ｂj(ｘt)
は、Ｍ（＝８）混合の混合ガウス分布で表されており、
第ｍ番目の要素ガウス分布についての平均ベクトルμmj
及び共分散行列Σmj、分岐確率λmjをパラメータとし
て、式（１９）で計算される。ただし、式中、Ｎ(ｘt|
μmj,Σmj)は平均μmj、分散Σmjの正規確率密度関数を
あらわす。これら遷移確率ａij及び出力確率計算用のパ
ラメータＨＭＭパラメータ記憶部１４に記憶されてい
る。

【００３４】

【数１１】

【００３５】ＨＭＭ演算部１３は境界検出部７の境界検
出結果Ｒ７及びＨＭＭパラメータＲ１４を参照しビタビ
アルゴリズムに基づく漸化式（式（２０）と式（２
１））を初期条件（式（２２））の下で計算する。ここ
で、α(j,t)は、時刻ｔにおいて、状態ｊに留まる確率
(前向き確率)を表し、β(j,t)は時刻ｔに状態ｊに至る
一つ前の最適な状態番号を表すバックポインタである。

【００３６】

【数１２】

【００３７】本ＨＭＭは、上記漸化式で示されたよう
に、従来のＨＭＭとは異なり、時刻ｔで状態ｉから状態
ｊへの状態間遷移に際して、変数Ｃij（Ｂt）を参照し
て、音韻境界の種類ｋ＝ｋ（ｉ，ｊ）に依存した閾値θ
ijと比較し、Ｃij（Ｂt）＞θijである時だけ、状態間
の遷移を許すように音韻モデル系列の境界の生成として
の状態間の遷移を制限している。なお、同一状態内の遷
移（ｉ＝ｊのとき）は変数Ｃij（Ｂt）による制限はな
い。ここで、変数Ｃij（Ｂt）は、境界検出部７で計算
された分類ｋの音韻境界の境界尤度Ｃk(Ｂｔ)に対応す
る。分類ｋは状態番号ｉ及びｊの関数ｋ（ｉ，ｊ）で与
えられる。

【００３８】音韻系列変換手段としての最適状態系列検
出部１５は、ＨＭＭ演算結果Ｒ３として得られる前向確
率α(j,t)及びバックポインタβ(j,t)の値から、最適状
態系列Ｒ１５（以後、β＾(1),β＾(2),…,β＾(T)と記
す）を出力する。最適状態系列Ｒ１５は漸化式（式（２
３））を初期条件（式（２４））の下で計算することで
得る。なお、最適状態系列Ｒ１５は認識結果の音韻系列
を状態の番号の系列で表したものである。

【００３９】

【数１３】

【００４０】次に上記実施例の評価結果について説明す
る。上記構成の実施例について、境界検出の閾値（θi
j）の設定法を不特定話者の音韻記述実験によって検討
する。ここでは、状態の出力確率についてもセミ連続分
布モデルを適用し、２種類の音韻体系を試みた。１つは
前後の音韻の環境に独立の２９音韻からなる音韻体系、
もう１つは子音と閉鎖部について後続の音韻に依存する
異音を含む２１７音韻からなる音韻体系である。状態遷
移確率ａijは１または０として、音韻配列情報だけを利
用した。共通の実験条件を図４に示す。図５に上記２９
音韻からなる音韻体系の学習データ中の音韻数を、図６
に上記２１７音韻からなる音韻体系の学習データ中の音
韻数を示す。参考のため、状態間遷移の束縛のないＨＭ
Ｍについても評価した。評価の結果を図７に示す。適切
に境界検出の閾値を選ぶことにより、誤りを少なくでき
ることが分かる。認識誤りを解析した結果、境界は正し
く検出できているが、音韻の尤度が低く置換誤りとなる
場合と、境界が正しく検出できず脱落誤りになる場合が
ある。前者に対しては、音韻当りの状態数増加等の音韻
モデルの精密化によって、また、後者に対しては、本実
施例では全てのしきい値θijを同じ値として変化させた
が、音韻境界の種類によって境界検出の難易度に差があ
ることから、検出の困難な音韻境界に対して閾値を小さ
くし、逆に検出の容易な音韻境界について閾値を高めに
設定するなど、音韻境界の種類毎に閾値θijを変えるこ
とにより、さらに、精度が向上すると期待される。

【００４１】なお、以上の説明では、ＨＭＭ演算にビタ
ビのアルゴリズムを用いた場合について説明したが、本
発明は、ビタビのアルゴリズムにおいて、最大化演算ｍ
ａｘを和Σで置き換えた例えば式（２５）のごとき定式
化に基づくＨＭＭに適用できることは言うまでもない
（但し、最適状態系列はビタビアルゴリズムに基づいて
検出する必要がある）。

【００４２】

【数１４】

【００４３】さらに、以上の説明は、２９種あるいはこ
れらを細分化した２１７種の音韻を音韻モデル系列とし
てのＨＭＭの各1つの状態に対応させた場合について述
べたが、音韻の種類または体系はこれに限定されるもの
ではなく、また、各音韻に割り当てる状態数もこれに限
定されるものではない。またさらに、音韻モデルとし
て、ＨＭＭを用いる必要はなく、例えば、文献(平成２
年３月発行の日本音響学会講演論文集、２−Ｐ−２７
「時間依存線形音素文脈モデルを用いた音声認識の検
討」)に示された線形音素文脈依存の音韻モデルを用い
ても構わない。

【００４４】

【発明の効果】以上のようにこの発明の音声認識の境界
推定方法によれば、音声の境界に対応した音声の境界の
検出器を設定するようにしたため、音声の境界の種類毎
に音声の境界にとって適当な音韻境界に対応した、個別
の境界検出器を設計することが可能になり、学習データ
の不足に影響を受けにくく精度を改善した設計ができる
という効果がある。

【００４５】また、この発明の音声認識装置によれば、
入力音声を分析して時系列の特徴パラメータに変換する
特徴抽出手段と、前記時系列の特徴パラメータから、前
記入力音声中の音韻境界または音韻境界付近の領域を検
出する境界検出手段と、前記特徴パラメータに対応する
複数の音韻モデル系列を用意し、該モデル系列を用意す
る際、前記音韻モデル系列の境界が生成される時刻を前
記境界検出手段が検出した音韻境界または音韻境界付近
の領域内に限定したモデル演算手段と、前記モデル演算
手段の結果から、前記入力音声に対応する適切な音韻モ
デル系列を選択する音韻系列変換手段とを備えた音声認
識装置において、前記境界検出手段として、音韻境界の
種類に応じた閾値との比較により音韻境界を検出する手
段としたため、音韻境界によって異なると考えられる音
韻境界の尤度の値の分布の違い（信頼度）が考慮され、
認識の精度の改善が得られるという効果がある。

【図面の簡単な説明】

【図１】この発明の実施例１を示す構成図。

【図２】実施例１における境界検出手段の構成図。

【図３】実施例１におけるＨＭＭの構造を示す図。

【図４】実施例１を評価する際の条件を示す図。

【図５】実施例１の学習における標本数を示す図。

【図６】実施例１の学習における標本数を示す図。

【図７】実施例１の評価の結果を示す図。

【図８】従来の音声認識装置の構成図。

【図９】従来の境界検出手段の構成図。

【図１０】従来の音声認識装置における音韻境界の分類
を示す図。

【図１１】従来の音声認識装置におけるＨＭＭの構造を
示す図。

【符号の説明】

１特徴抽出手段２時間窓部７境界検出手段８境界検出パラメータ記憶手段１１音声区間検出手段１３ＨＭＭ演算手段１４ＨＭＭパラメータ記憶手段１５最適状態系列検出手段１８共通確率密度演算部１９−１、１９−２、１９−ｋ、１９−Ｋ境界尤度計
算部８００１、８００２、８０２８確率密度計算部９００２、９００４、９０２８境界尤度計算部

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平４−251899（ＪＰ，Ａ) 特開平４−66999（ＪＰ，Ａ) 特開平５−333897（ＪＰ，Ａ) 特開昭60−75891（ＪＰ，Ａ) 特開平２−150899（ＪＰ，Ａ) 特許2924555（ＪＰ，Ｂ２) 阿部，中島，境界尤度の信頼度を考慮した状態間遷移束縛型ＨＭＭによる音韻記述，日本音響学会平成６年度春季研究発表会講演論文集，日本，1994年３月，２−Ｐ−11，Ｐａｇｅｓ 179−180 阿部，中島，状態間遷移束縛型ＨＭＭによる音韻記述，日本音響学会平成５年度秋季研究発表会講演論文集，日本, 1993年10月，１−８−５，Ｐａｇｅｓ９−10 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/04 G10L 15/14 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力音声を分析して得られる時系列で展
開されるパラメータ群が、所定の時間幅の窓の中で示す
値をサンプルとして抽出し、前記窓の中心に音声の境界
が存在する度合いを算出する場合に、前記窓の中心に前記音声の境界が存在する第１の確率密
度と、前記窓の中心に前記音声の境界が存在しない第２
の確率密度とを計算し、前記第１の確率密度及び前記第
２の確率密度を含む計算に基づいて前記窓の中心に音声
の境界が存在する度合いを算出する音声認識の境界推定
方法において、前記音声の境界の種類に依存しない共通の確率密度の計
算手段を備え、この計算手段の計算した確率密度と第１
の多項式係数を乗算し前記第１の確率密度を計算し、ま
たこの計算手段の計算した確率密度と第２の多項式係数
を乗算し前記第２の確率密度を計算することを特徴とす
る音声認識の境界推定方法。
【請求項２】入力音声を分析して時系列の特徴パラメ
ータに変換する特徴抽出手段と、前記時系列の特徴パラメータから、前記入力音声中の音
韻境界または音韻境界付近の領域を検出する境界検出手
段と、前記特徴パラメータに対応する音韻モデル系列を用意
し、該モデル系列を用意する際、前記音韻モデル系列の
境界が生成される時刻を前記境界検出手段が検出した音
韻境界または音韻境界付近の領域内に限定したモデル演
算手段と、前記モデル演算手段の結果から、前記入力
音声に対応する適切な音韻モデル系列を選択する音韻系
列変換手段とを備えた音声認識装置において、前記境界検出手段は、音韻境界の複数の種類ごとに閾値
を算出し、該閾値との比較により音韻境界を検出するこ
とを特徴とする音声認識装置。