JPH1097275A

JPH1097275A - 大語彙音声認識装置

Info

Publication number: JPH1097275A
Application number: JP8249548A
Authority: JP
Inventors: Koichi Yamaguchi; 耕市山口; Seiji Hamaguchi; 清治濱口; Toshio Akaha; 俊夫赤羽
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1996-09-20
Filing date: 1996-09-20
Publication date: 1998-04-14

Abstract

(57)【要約】【課題】超大語彙を対象としても安価なハードウェア
構成で実時間動作可能な大語彙音声認識装置を提供す
る。【解決手段】音声波形を音響分析部１で分析して音響
パラメータを抽出し、パーザ５の前向き演算部６で制約
の緩い音素ネットワークを参照してビタービサーチを行
ない、後向き演算部７で木構造化した単語辞書を参照し
てＡ^*アルゴリズムを用いて最適な単語候補を導出す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は大語彙音声認識装
置に関し、特に、サブワード単位のＨＭＭ（隠れマルコ
フモデル：Hidden Markov Model の略称）を用いて音声
認識する際に処理量を削減するようにした大語彙音声認
識装置に関する。

【０００２】

【従来の技術】図６は従来の音声認識装置を示すブロッ
ク図である。図６において、音声波形は音響分析部１に
与えられ、線形予測分析などを用いて音声波形の特徴で
ある音響パラメータに変換される。この音響パラメータ
は構文解析アルゴリズムであるパーザ２に与えられる。

【０００３】パーザ２は音響パラメータを解析するため
に、音響モデル３と言語モデル４の２つのモデルを使
う。音響モデル３は各音素がどういうパラメータになる
のかを決定するためのものであり、言語モデル４は音素
がどういう順番で並べば意味がある文や単語になるかを
決める語彙や文法の情報を決定するためのものである。
パーザ３はこの２つのモデルを組合せて入力に最もうま
く合う単語や文を探し出す。

【０００４】音響モデル３では、サブワードモデルＨＭ
Ｍが一般的に用いられ、特に音素環境依存型の連続分布
型ＨＭＭが不特定話者に対して精度よく表現できること
からよく用いられている。日本語では、たとえば特開平
０７−１７５４９４号公報に記載されたＨＭｎｅｔ（Hi
dden Markov Netwook ）が良好な認識率を得ている。こ
こで、サブワードとは、言語音声を精度よくかつ効率よ
く表せる表現単位のことで、音素や音節などがある。

【０００５】ＨＭＭを用いる音声認識システムは処理量
が多く、これを要素別に見ると、一般に、ＨＭＭの尤度
演算と探索処理（パーザ部）が二大要因となっている。
ＨＭＭの尤度演算はパーザ２の中の探索の前処理として
位置付けられる。オンライン型の音声認識では実時間動
作が望ましく、また処理量の多さは価格に直接影響する
ばかりでなく、他のタスクへの負荷にもなるので、処理
量削減は重要な課題である。近年、サブワードＨＭＭに
よる音声認識が一般的になり、その高速化の研究が増え
てきている。

【０００６】連続音声認識では、与えられた文法（言語
モデル）で許される系列と入力された音声とを照合し、
照合スコアの最も高い音素系列を認識結果とする。しか
し、文法で許される音素系列すべてと入力音声を照合し
たのでは、多くの計算量を必要とする。照合の回数をで
きるだけ減らし、必要な照合のみを行なうことが探索処
理の高速の鍵となっている。そのための１つの手法とし
て、Ａ^*アルゴリズムを用いて正確なＮ−ベスト候補を
高速に探索する手法が提案されている。

【０００７】図７はＡ^*アルゴリズムを説明するための
図である。図７において、グラフの任意の接点をｎとし
たとき、出発点Ｓからｎまでの最適な道のコストの推定
値をｇ^*（ｎ）とし、ｎから目標接点までの最適な道の
コストの推定値をｈ^*（ｎ）とする。もし、道がなけれ
ばｇ^*（ｎ）あるいはｈ^*（ｎ）は無限大となる。ｎを
通る最適な道のコストの推定値ｆ^*（ｎ）は次式で与え
られる。

【０００８】ｆ^*（ｎ）＝ｇ^*（ｎ）＋ｈ^*（ｎ）…（１）上述の式を評価関数として用いかつ推定コストｈ^*が真
のコストｈの下界であれば（ｈ^*（ｎ）≦ｈ^*（ｎ））
であるグラフ探索の戦略をＡ^*アルゴリズムと呼ぶ。

【０００９】図７に示すＡ^*アルゴリズムにおいてｈ^*
（ｎ）は節点の横に示し、各節点に対するｆ^*を括弧内
に示す。リストの変化は次のようになる。（Ｓ（７）→
（Ａ（８）Ｂ（９））→（Ｄ（８）Ｂ（９）Ｃ（１
０））→（Ｂ（９）Ｃ（１０）Ｈ（１０）Ｉ（１０））
→（Ｄ（７）Ｃ（１０）Ｅ（１０）Ｈ（１０）Ｉ（１
０））→（Ｈ（９）Ｉ（９）Ｃ（１０）Ｅ（１０））→
（Ｉ（９）Ｇ１（１０）Ｃ（１０）Ｅ（１０）Ｌ（１
１））→（Ｇ２（９）Ｇ１（１０）Ｃ（１０）Ｅ（１
０）Ｌ（１１））。次に、Ｇ２がオープンから取出され
て終了する。解はＳ→Ｂ→Ｄ→Ｉ→Ｇ２となる。

【００１０】一方、照合計算の共有化／近似を行なう方
法として、バンドルサーチが提案されている。この方法
では、各単語の１回ずつの照合計算で済ませるため、複
雑な文法でも高速探索が可能となる。しかし、計算量は
語彙数に依存する。

【００１１】従来の離散単語認識方法では、入力音声に
対して、認識語彙に含まれる単語１つずつビタービサー
チしてスコアが算出される。したがって、パーザ部の処
理数は語彙数に比例する。語彙数が非常に多いとき、連
続音声認識の場合と同様のことが離散単語認識について
もいえる。単語ごとのマッチングにｂｅｓｔ−ｆｉｒｓ
ｔ型のビタービサーチを用いる方法も提案されている
が、探索空間の削減は達成できてはいるものの、ヒュー
リスティック関数の計算量が多いため、実際の処理量は
あまり削減できていない。また、ヒューリスティック関
数の作成が離散ＨＭＭに対して有効な手法ともいえる。

【００１２】不特定話者を対象とするならば、より高精
度な音響モデルの混合連続ＨＭＭを使用する必要があ
る。この混合連続ＨＭＭに対してはヒューリスティック
関数を設計するのが難しい。予備選択を用いる方法も古
くから提案されている。しかし、予備選択ミスという避
けられない欠点があるため、最近ではあまり採用されな
い。認識率の低下はわずかながら計算量は１／２４まで
削減できたという報告もある。しかし、この実験は特定
話者認識であり、不特定話者を対象とした場合、予備選
択ミスが増加するため、認識率の低下を招くことが予想
される。

【００１３】Chenなどが発表した“Large Vocabulary W
ord Recognition Based on Tree-trellis Search, ”Pr
oc. ICASSP-94, pp.II-137-II-140 （1994）において、
Soong の連続音声認識手法を用いて中国語の大語彙単語
認識を高速にする手法を提案している。前向き探索には
音節の自由なネットワーク，後向き探索には音節木化し
た単語辞書を参照してＡ^*アルゴリズムを用いるという
もので、超大語彙の高速認識が可能としている。中国語
は４１２種類もの音節があるので、サブシラブル（subs
yllable ）ＨＭＭを状態共有することによって効率よく
音節を構成する。

【００１４】音素環境は音節内のみ考慮しており、音節
内の母音間接続条件のみが環境依存である。つまり、音
節間は無考慮（＝環境独立）とし、木構造辞書は音節を
アークとして作成しており、音節と音節を直接接続す
る。この論文中において、音素環境独立型（Table ４）
と音節内音素環境依存型（Table ５）の両方認識実験を
試みている。もちろん、音節内音素環境依存型を用いた
方が高い認識率を得ている。しかし、この実験も特定話
者認識である。不特定話者を対象とした場合、音節間環
境が考慮されていないため、認識性能の劣化が予想され
る。

【００１５】

【発明が解決しようとする課題】従来の離散単語認識方
法では、入力音声に対して認識語彙に含まれる単語１つ
ずつビタービサーチしてスコアを算出する。したがっ
て、パーザ２の処理量は語彙数に比例する。語彙数が非
常に多いとき、連続音声認識の場合と同様のことが離散
単語認識についてもいえる。情報検索などに適用する場
合、語彙数は数千単語以上となることが十分考えられ
る。１００単語のとき０．１秒かかるシステムならば、
１，０００単語では１秒、１０，０００単語では１０秒
かかることになる。この方式は、実時間動作が望ましい
オンライン型の音声認識には不向きである。

【００１６】前述のChenの離散単語認識方式は、特定話
者を対象としているので、音節間環境を考慮しなくとも
元来音響モデルが高精度なため良好な認識性能が得られ
ていた。しかし、この方式を不特定話者を対象とした場
合、Ａ^*アルゴリズムがうまく動作しないという問題点
がある。音響モデルの精度は低いため、前向きサーチの
精度は低くなり、後向きの探索で失敗する確率が高くな
るからである。

【００１７】同様の実験が日本語でも試みられ、「孤立
単語認識における全探索法・ビームサーチ法・Ａ^*探索
法の比較」，日本音響学会講演論文集，2-5-10, pp.77-
78（1996.3）において発表されている。この文献では、
Ａ^*探索のヒューリスティック関数ｘ^*（ｔ）の推定に
は任意の音節連鎖を用いており、音素環境を考慮してお
らず、不特定話者を対象とした実験を行ない処理時間を
調査しているが、従来方法に比べてよい結果は得られて
いない。

【００１８】予備選択方式は最近ではあまり用いられる
ことはない。なぜならば、予備選択部では処理量の少な
いマッチング方式で大雑把な認識／分類を行なう。よっ
て、しばしば誤り（＝予備選択ミス）が生じる。この誤
りは後で回復できないため認識率の低下を招く、という
ような避けられない欠点があるためである。

【００１９】それゆえに、この発明の主たる目的は、パ
ーザにおいて、探索空間を効率よく絞り込むサーチ方法
を採用することによって、処理量が語彙数にほとんど影
響されないという特徴を持たせ、超大語彙を対象として
も安価なハードウェア構成で実時間動作が可能な大語彙
音声認識装置を提供することである。

【００２０】

【課題を解決するための手段】請求項１に係る発明は、
音素環境依存型音素隠れマルコフモデルを用いた音声認
識装置において、音声を入力するための入力手段と、入
力された音声を短時間フレームごとに分析し、特徴ベク
トルを抽出する特徴ベクトル抽出手段と、抽出された特
徴ベクトルに基づいて語頭の前および語尾の後に無音モ
デルを付加した認識語彙を音素環境依存型音素列で表現
し、それら音素をアークとする木構造の辞書に変換する
辞書作成手段と、前向き演算部と後向き演算部とを含む
パーザ手段を備え、前向き演算部は音素環境を考慮した
音素単位の制約条件下で駆動するビタービサーチを行な
い、後向き演算部は音素環境を考慮した木構造辞書を参
照しながらビタービサーチを用いて仮説を展開し、前向
き演算結果のスコアと音素単位で実行した後向きビター
ビサーチの演算結果のスコアの和を利用したＡ^*アルゴ
リズムを用いて展開する順番をｂｅｓｔ−ｆｉｒｓｔに
決定し、受理された仮説の順にそれを認識結果の単語候
補として出力し、所定の個数の単語候補が求まれば後向
き演算を終了するようにしたものである。

【００２１】請求項２に係る発明では、請求項１の前向
き演算部は、音素環境を考慮した隠れマルコフモデルの
状態単位の制約条件下で駆動するビタービサーチを行な
う。

【００２２】請求項３に係る発明では、請求項１の後向
き演算部は各音素ごとのビタービサーチの照合範囲を予
め定める各音素別継続時間長をもとに所定の方法で制限
する。

【００２３】請求項４に係る発明では、請求項１の後向
き演算部は、音素単位の仮説の展開におけるビタービサ
ーチをＡ^*アルゴリズムで実行する。

【００２４】

【発明の実施の形態】図１はこの発明の一実施形態を示
すブロック図である。図１において、図示しないマイク
ロフォンから入力された音声は、Ａ／Ｄ変換器でデジタ
ル信号に変換され、音響分析部１に入力される。音響分
析部１では入力音声をフレームごとに分析し、音響パラ
メータを抽出する。この音響パラメータとしては、たと
えばＬＰＣケプストラムや差分ＬＰＣケプストラムや差
分パワーなどである。

【００２５】この実施形態では、音響モデルの音素環境
依存型ＨＭＭとしてＨＭｎｅｔを用いて説明する。音素
環境依存にするために各音素は三組音素（triphone）と
して表現され、さらに各状態は他の三組音素状態と共有
することがある。したがって、音素ごとに前後に接続す
る音素リスト，状態ごとに前後に接続する音素リスト，
状態ごとに前後に接続する状態リストが記述されてい
て、１つのネットワークを形成している。表１にＨＭｎ
ｅｔの状態に関する各種情報の例を示す。これらの接続
情報を用いて前向きサーチ演算および後向きサーチ演算
が実現される。

【００２６】

【表１】

【００２７】図１におけるパーザ５は前向き演算部６と
後向き演算部７の２つの演算部から構成される。前向き
演算部６では、まずフレームごとにＨＭｎｅｔの各状態
について尤度が計算される。この計算結果は尤度テーブ
ルとして前向き演算部６と後向き演算部７とで参照され
る。次に、音素環境を考慮した三組音素単位の制約条件
下で駆動するビタービサーチが行なわれる。

【００２８】図２は状態／音素接続情報の例を示す図で
ある。図２において、１つの音素は３〜４個の状態から
成り立っている。日本語の三組音素の総数は三千数百種
類存在するが、この発明の実施形態で扱うＨＭｎｅｔを
利用すると、状態共有がなされているため、状態系列の
異なる三組音素（これを異なり三組音素と呼ぶ）は数百
種類になる。そこで、この発明の実施形態では、図２に
示すように異なり三組音素ごとに状態を並べる。したが
って、三組音素のうちＨＭＭの状態系列が同じものは計
算を省略されることとなる。

【００２９】図２（ａ）において、時刻がｔ−１からｔ
へ移るとき、許されている遷移のうち、主として音素ｐ
の状態ａに関係するものを実線矢印で示している。ある
時刻ｔにおけるある音素ｐのヒューリスティック関数ｈ
^* _p（ｔ）は次の第（２）式のようにして１フレームご
と、すべての異なる音素について累積スコアとして算出
される。図２（ａ）の時刻ｔ上の状態ｊには直前フレー
ムｔ−１上の状態ｉと状態ｊからの経路が存在してい
て、ｔ−１フレームからこれらの経路を辿ってｔフレー
ムの状態ｊに達する累積スコア中で、最大のものが時刻
ｔにおける状態ｊの累積スコアとなる。

【００３０】

【数１】

【００３１】ここで、ｊは当該音素ｐの最終状態の状態
番号であり、簡単のためｈ^* _p（ｔ）≡ｈ^* _jp（ｔ）と
して定義している。ｂ_j（ｔ）は状態ｊの時刻ｔにおけ
るシンボル出力確率で、尤度テーブルに格納されてい
る。ａ_ijは状態ｉから状態ｊへの状態遷移確率である。
Ｃ_p（ｊ）は状態ｊに遷移し得る状態のうち、その音素
ｐに属するものの集合を意味し、図１に示す音響／言語
モデル８の状態／音素接続情報を参照して求められる。
ｖ_ip（ｔ−１）は状態ｉの時刻ｔ−１における累積スコ
アであり、ビタービサーチによって漸化的に求められ
る。

【００３２】ｊが当該音素ｐの初期状態の状態番号のと
きを図２（ｂ）に示す。この場合は第（３）式に示すと
おり、音素ｐに接続し得る音素群と自己ループのうちで
最大のものが選ばれる。

【００３３】

【数２】

【００３４】ここで、Ｉ（ｐ）は音素ｐに接続し得る音
素とその最終状態番号の集合を意味し、後述の表２に示
す音素接続情報を参照して求められる。

【００３５】前向き演算部７において、音素環境を考慮
したＨＭＭの状態単位の制約条件下で駆動するビタービ
サーチを行なうことも有効である。この場合、ｈ
^*（ｔ）の精度は上述の方式に比べてわずかに劣る。し
かし、状態共有によって計算しなくて済む度合が多くな
る。結局、状態数だけ計算すればよいので、前向きサー
チに必要な演算量が１／１０以下になるというメリット
がある。前向き演算方法は用途に応じて決めればよい。
ある時刻ｔにおけるある音素ｐのヒューリスティック関
数ｈ^* _p（ｔ）は第（４）式のようにして１フレームご
と、すべての状態について算出され、音素ｐの最終状態
の状態番号ｊを用いてｈ^* _j（ｔ）として代表表現され
る。

【００３６】

【数３】

【００３７】ここでＳ（ｊ）は状態ｊに遷移し得るすべ
ての状態の集合を意味し、状態に接続情報を参照して求
められる。ｖ_i（ｔ−１）は状態ｉの時刻ｔ−１におけ
る累積スコアであり、ｊが当該音素ｐの初期状態の状態
番号のときには、第（２）式と同様である。

【００３８】次に、表２に音素間の接続情報と初期状態
番号の集合Ｉ（ｐ）のうち、音素接続情報のテーブルを
示す。

【００３９】

【表２】

【００４０】音素ｐの初期状態に対してはこのテーブル
が参照される。言語的な制約を考慮して特定の音素と音
素との連結に制限を設けている。たとえば日本語であれ
ば子音と子音が連結しないと考えられ、“ｍ”から
“ｈ”への経路は設けないなどと設定している。音素表
記はヘボン式ローマ字綴りに従っている。ただし、
“ｑ”は促音、“Ｎ”は撥音、“ｙ”は拗音、“−”は
無音を示す。表２では左側の音素ＨＭＭの最終状態から
右側の音素ＨＭＭの初期状態に繋がり得ることを意味し
ている。

【００４１】後向き演算部７では、音素をアークとする
言語モデル１０の木構造辞書を参照する。この木構造辞
書は認識語彙リストから予め作成されている。パーザ５
の前に単語ごとの音声区間の切出し処理を行うが、語頭
・語尾の判定誤りがしばしば起こる。そこで、音声区間
と判定された区間に対し、その語頭の前および語尾の後
に、ある程度のマージン、すなわち周囲環境音区間を設
定することが多い。このマージンに対応するために各認
識語彙の前後にはＨＭＭの無音モデルが付加されてい
る。無音モデルとは音声が入っていない周囲雑音を対象
に学習したモデルのことであって、波形が常に０の真の
無音を指しているのではない。

【００４２】図３は木構造辞書の一部分の例を示す図で
あり、図４は比較のために音素環境を考慮しない場合の
木構造辞書を示す図である。図３および図４において、
数字は辞書のノード番号を示し、アルファベットはアー
クの音素を示す。前述の表２に例示したような音素間の
接続情報制約下で音素が展開されており、前後の音素環
境が考慮されている。そのため、枝分かれが多くなって
いる。ノード３２８から４本のアークが伸びているのに
対し、図４に示すように音素環境を考慮しなければノー
ド７６のように２本のアークとなる。演算の方向が時間
とは逆向きのため、語尾から語頭へと枝が伸びている。
後向き演算の参照を高速にするため、各アークには予め
ＨＭｎｅｔの状態番号が割付けられている。

【００４３】図３に示した木構造辞書に沿って仮説が展
開されるが、展開する順番はＡ^*アルゴリズムを用いて
ｂｅｓｔ−ｆｉｒｓｔに決定される。すなわち、以下の
第（５）式の評価値ｆ^* _p（ｔ）が最も高い部分仮説の
ノードを展開して先に進む。ここで、ｐはその仮説の先
端アークの音素を表わし、ｔは後述する方法によって定
められた照合範囲Ｒ（ｐ，ｔ₀）中のフレーム番号を表
わす。

【００４４】評価値ｆ^*（ｔ）は前向き演算結果のスコ
アｈ^*（ｔ）と、第（６）式に示すようにｔ∈Ｒ（ｐ，
ｔ₀）について音素単位で実行した後向きビタービサー
チの演算結果のスコアｇ_p（ｔ）の和で表わされる。こ
の和は木構造辞書に沿っているため、ｈ^*（ｔ）および
ｇ_p（ｔ）に付与されている前後音素環境情報が反映さ
れており、音素環境が考慮されていることになる。処理
の簡素化のため、接続ポイントはｆ^*（ｔ）の最大値を
与えるｔ′１点に限定する。つまり接続ポイントが異な
るだけで音素列は同じ仮説を１つで代表させることで仮
説の和を削減する。この仮説に接続するアークを次に展
開するときのビタービサーチの開始点はこのｔ′となり
これをｔ₀とおく。

【００４５】

【数４】

【００４６】ここで、ｉは音素ｐの初期状態の状態番号
であり、ｇ_p（ｔ）≡ｇ_ip（ｔ）と定義している。Ｃ^*
_p（ｉ）はＣ_p（ｊ）の状態接続の方向を逆にした集合
である。後述のｂｅｓｔ−ｆｉｒｓｔ仮説成長アルゴリ
ズムで説明しているように、仮説には単一仮説とグルー
プ仮説とがある。単一仮説の場合、ｐは先端アークの唯
一の音素である。グループ仮説の場合は、ｐはそのグル
ープ中の最高のスコアを与える選択アークの音素を示
す。ｔ₀はその仮説の前回の接続ポイントｔ′を示す。

【００４７】後向き演算における各音素ｐごとのビター
ビサーチの照合範囲Ｒ（ｐ，ｔ₀）は、通常のその仮説
の開始点ｔ₀（＝前回の接続ポイント）から終点、すな
わち入力音声の先頭ｔ＝１までである。したがって、語
尾付近においては照合範囲が非常に広くなり、計算量の
増加を招く。音素にはその音素固有の継続時間があり、
一般に母音や撥音，促音は長く、破裂子音は短い傾向が
ある。そこで、音素単位にラベル付けされた音声データ
を用いて、各音素ごとに平均継続時間長μ_pと分散σ²
_pを求めておく。音声データが多量にある場合は正確を
期すため、各三組音素ごとに平均継続時間長と分散を求
めてもよい。使い方としては前回の接続ポイントｔ₀か
ら“平均値μ_p±α×標準偏差σ_p”の区間を対象とす
る。たとえば、この実施形態では、次の第（７）式に示
すように、ｔ₀から“平均値μ_p＋３×標準偏差σ_p”
だけ遡った区間が照合範囲Ｒ（ｐ，ｔ₀）とされる

【００４８】

【数５】

【００４９】この照合範囲制限は計算量の削減だけでな
く、ビタービサーチでしばしば生じる不必要な時間軸整
合を未然に防ぐこともできるため、認識率の向上にも貢
献することが実験により確認されている。

【００５０】図５はｂｅｓｔ−ｆｉｒｓｔに仮説を成長
させるアルゴリズムを示すフローチャートである。この
フローチャートは前述のSoong に準拠している。図６に
おける全スコアとは第（５）式の評価値ｆ^* _p（ｔ）の
ことであり、ルートノードとはまだ全く展開をしていな
い仮説のことを意味し、単一パスとは仮説の先端アーク
が１個，グループパスとは仮説の先端アークが複数個で
ある仮説のことを示し、ＮはＮ−ｂｅｓｔの候補数Ｎを
示す。

【００５１】仮説の展開はスタックのトップエントリ
（＝最良部分仮説）を１アーク展開し、２つの仮説（す
なわち最良単一パスと残りのグループ）に分割すること
によって進められる。展開対象は常に最良部分仮説とし
ているので展開する順番はｂｅｓｔ−ｆｉｒｓｔとな
る。

【００５２】図５を参照してより具体的に説明すると、
スタックにルートノードをおき、初期化が行なわれる。
次いで、スタックのトップエントリを取出し、最良部分
仮説が単一パスであり、グループパスでないか否かが判
別される。単一パスでなければ、最良部分仮説を２つの
仮説（最良単一パスと残りのグループ）に分割され、こ
れら２つの仮説について全スコアが計算され、これら２
つの仮説がスタックに戻されて全スコアに基づいてソー
トされる。単一パスであれば最良部分仮説が終端ノード
まで到達しているか否かが判別され、終端ノードまで到
達していなければ、グループ仮説を２つの仮説に分割
し、これら２つの仮説について全スコアを計算し、これ
ら２つの仮説をスタックに戻し、全スコアに基づいてソ
ートされる。最良部分仮説が終端ノードまで到達すれ
ば、その仮説を出力し、受理数カウンタをインクリメン
トする。受理数カウンタがＮに等しくなければ、再びス
タックのトップエントリを取り、受理カウンタがＮに等
しければ終了する。

【００５３】このように、ｂｅｓｔ−ｆｉｒｓｔに順次
仮説を展開していくと、受理された仮説の順に認識結果
のＮ−ｂｅｓｔ単語候補が求まる。つまり、スコアの高
い候補から順に受理されるので、第１位、第２位、第３
位、…の順に単語候補が出力される。所定の個数（たと
えば１０個なら第１０位まで）の単語候補が求められれ
ば後向き演算が終了され、木構造辞書のうち、Ｎ−ｂｅ
ｓｔ単語候補にかかわるアークのみ後向き演算でビター
ビサーチを実行していることとなる。

【００５４】ヒューリスティック関数ｈ^*（ｔ）の精度
は後向きサーチの探索効率（＝仮説展開回数）に大きく
影響する。もし、ｈ^*（ｔ）が真の値ｈ（ｔ）に等しい
ならば理想的に展開が進み、無駄な仮説の展開を全くし
なくて済む。このとき処理量は認識語彙数、すなわち木
構造辞書のサイズには依存しないこととなる。ｈ
^*（ｔ）はＡ^*アルゴリズムの許容可能性：ｈ^*（ｔ）
≧ｈ（ｔ）の関係が成立しているが、弱い文法を使って
いるためｈ^*（ｔ）＝ｈ（ｔ）にはならない。

【００５５】したがって、実際には無駄な仮説の展開が
多少存在し、正解に近い仮説の周辺アークもサーチする
ので処理量は認識語彙数に少しは依存する。結果として
処理量が語彙数にはほとんど影響されないという特徴を
持つ。従来の１単語ずつビタービサーチを実行する方式
に比べれば、語彙が増えれば増えるほど探索空間が劇的
に削減できる。したがって、この実施形態は大語彙に適
した認識方式といえる。２０，３０００単語を認識語彙
とした場合、パーザ５の処理量が１／４０に削減できる
ことが実験で確認されている。

【００５６】なお、展開途中の仮説はスタックに積んで
おく。１回の展開操作ごとにスタックの並び換え（ソー
ト）が必要となる。スタックのサイズは理想的な環境下
では理論的にはＮ−ｂｅｓｔの候補数Ｎと同じでよい。
しかし、現実には認識語彙数や音響モデルの性能に影響
されるため、余裕を持たせた値に設定する必要がある。
実環境実験では数百程度のサイズが望まれる。たとえ
ば、この実施形態では、語彙が２０，０００語のときは
１，０００、５，０００語のときは５００とする。した
がって、スタックのソートは処理量を増大させる要因と
なる。処理の高速化のため、仮説をスタックへ戻す際に
は二分木探索処理量を増大させる要因となる。処理の高
速化のため、仮説をスタックへ戻す際には二分木探索を
用いて挿入する場所が決定される。これによりスタック
の全データのソートはしなくて済む。スタックの入換え
はポインタ操作で行ない、実際のスタック上のデータは
移動させないようにする。ただし、処理系によってはポ
インタ操作よりもスタックをリスト構造にした方が効果
的となることもある。

【００５７】なお、後向き演算における各音素ごとのビ
タービサーチの代わりにＡ^*アルゴリズムを用いて算出
することも可能である。この場合ヒューリスティック関
数は前向き演算で既に求まっているものを流用できる。
ただし、Ａ^*アルゴリズムを起動する回数が多く、スタ
ック操作などのオーバヘッドがあるため、処理速度が向
上するかどうかは、メモリのアクセススピードなど実装
する処理系の条件に依存する。

【００５８】この実施形態では、サブワード単位とし
て、音素を採用したが、音節でも実現可能である。日本
語の音節は約１１０種類あり、音素環境を考慮すると異
なり音節数は１０，０００以上になるため、前向き演算
の処理量が大きくなる反面、前向きサーチの精度が向上
するため、後向きサーチの探索がより効率よく行なわれ
る。

【００５９】また、上述の実施形態では、認識対象とし
て単語を取上げたが、辞書の語彙は単語に限定されるわ
けではなく、１文節を１単語と見なして木構造辞書を作
成すれば、文節の認識も実現可能である。日本語は助詞
などの表現で語尾の表現が木構造によって共有化できる
ので、効率よくサーチすることができる。

【００６０】

【発明の効果】以上のように、この発明によれば、認識
語彙を音素環境依存型音素列で表現し、それら音素をア
ークとする木構造の辞書に変換し、前向き演算部で音素
環境を考慮した音素単位の制約条件下で駆動するビター
ビサーチを行ない、後向き演算部で音素環境を考慮した
木構造辞書を参照しながらビタービサーチを用いて仮説
を展開し、前向き演算結果のスコアと音素単位で実行し
た後向きビタービサーチの演算結果のスコアの和を利用
したＡ^*アルゴリズムを用いて展開する順番をｂｅｓｔ
−ｆｉｒｓｔに決定し、受理された仮説の順にそれを認
識結果の単語候補として出力し、所定の個数の単語候補
が求まれば後向き演算を終了して認識候補の単語を出力
するようにしたので、処理量が語彙数に比例しないとい
う特徴を活かして、超大語彙を対象としても安価なハー
ドウェア構成で実時間動作が可能な音声認識装置を実現
できる。たとえば、２０，０００単語を認識語彙とした
場合、この発明によれば、音声認識の処理量の二大要
素、ＨＭＭの尤度演算とパーザのうち、後者を約１／４
０に削減できる。

【図面の簡単な説明】

【図１】この発明の一実施形態を示すブロック図であ
る。

【図２】ＨＭＭの状態間の接続の制約例を示す図であ
る。

【図３】音素環境を考慮した木構造辞書の一部分の例を
示す図である。

【図４】音素環境を考慮しない木構造辞書の一部分の例
を示す図である。

【図５】ｂｅｓｔ−ｆｉｒｓｔに仮説を成長させるアル
ゴリズムを示すフローチャートである。

【図６】従来の一般的な単語音声認識装置の構成を示す
ブロック図である。

【図７】Ａ^*アルゴリズムを説明するための図である。

【符号の説明】

１音響分析部５パーザ６前向き演算部７後向き演算部８音響／言語モデル９音響モデル１０言語モデル

Claims

【特許請求の範囲】

【請求項１】音素環境依存型音素隠れマルコフモデル
を用いた音声認識装置において、音声を入力するための入力手段と、前記入力手段から入力された音声を短時間フレームごと
に分析し、特徴ベクトルを抽出する特徴ベクトル抽出手
段、前記特徴ベクトル抽出手段によって抽出された特徴ベク
トルに基づいて、語頭の前および語尾の後に無音モデル
を付加した認識語彙を音素環境依存型音素列で表現し、
それら音素をアークとする木構造の辞書に変換する辞書
作成手段、および、前向き演算部と後向き演算部とを含むパーザ手段を備
え、前記前向き演算部は、音素環境を考慮した音素単位の制
約条件下で駆動するビタービサーチを行ない、前記後向き演算部は、音素環境を考慮した木構造辞書を
参照しながらビタービサーチを用いて仮説を展開し、前
向き演算結果のスコアと音素単位で実行した後向きビタ
ービサーチの演算結果のスコアの和を利用したＡ^*アル
ゴリズムを用いて展開する順番をｂｅｓｔ−ｆｉｒｓｔ
に決定し、受理された仮説の順にそれを認識結果の単語
候補として出力し、所定の個数の単語候補が求まれば後
向き演算を終了することを特徴とする、大語彙音声認識
装置。
【請求項２】前記前向き演算部は、音素環境を考慮し
た隠れマルコフモデルの状態単位の制約条件下で駆動す
るビタービサーチを行なうことを特徴とする、請求項１
の大語彙音声認識装置。
【請求項３】前記後向き演算部は、各音素ごとのビタ
ービサーチの照合範囲を予め定める各音素別継続時間長
をもとに所定の方法で制限することを特徴とする、請求
項１の大語彙音声認識装置。
【請求項４】前記後向き演算部は、音素単位の仮説の
展開におけるビタービサーチをＡ^*アルゴリズムで実行
することを特徴とする、請求項１の大語彙音声認識装
置。