JPH1097275A - 大語彙音声認識装置 - Google Patents

大語彙音声認識装置

Info

Publication number
JPH1097275A
JPH1097275A JP8249548A JP24954896A JPH1097275A JP H1097275 A JPH1097275 A JP H1097275A JP 8249548 A JP8249548 A JP 8249548A JP 24954896 A JP24954896 A JP 24954896A JP H1097275 A JPH1097275 A JP H1097275A
Authority
JP
Japan
Prior art keywords
phoneme
backward
viterbi search
speech recognition
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8249548A
Other languages
English (en)
Inventor
Koichi Yamaguchi
耕市 山口
Seiji Hamaguchi
清治 濱口
Toshio Akaha
俊夫 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP8249548A priority Critical patent/JPH1097275A/ja
Publication of JPH1097275A publication Critical patent/JPH1097275A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 超大語彙を対象としても安価なハードウェア
構成で実時間動作可能な大語彙音声認識装置を提供す
る。 【解決手段】 音声波形を音響分析部1で分析して音響
パラメータを抽出し、パーザ5の前向き演算部6で制約
の緩い音素ネットワークを参照してビタービサーチを行
ない、後向き演算部7で木構造化した単語辞書を参照し
てA* アルゴリズムを用いて最適な単語候補を導出す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は大語彙音声認識装
置に関し、特に、サブワード単位のHMM(隠れマルコ
フモデル:Hidden Markov Model の略称)を用いて音声
認識する際に処理量を削減するようにした大語彙音声認
識装置に関する。
【0002】
【従来の技術】図6は従来の音声認識装置を示すブロッ
ク図である。図6において、音声波形は音響分析部1に
与えられ、線形予測分析などを用いて音声波形の特徴で
ある音響パラメータに変換される。この音響パラメータ
は構文解析アルゴリズムであるパーザ2に与えられる。
【0003】パーザ2は音響パラメータを解析するため
に、音響モデル3と言語モデル4の2つのモデルを使
う。音響モデル3は各音素がどういうパラメータになる
のかを決定するためのものであり、言語モデル4は音素
がどういう順番で並べば意味がある文や単語になるかを
決める語彙や文法の情報を決定するためのものである。
パーザ3はこの2つのモデルを組合せて入力に最もうま
く合う単語や文を探し出す。
【0004】音響モデル3では、サブワードモデルHM
Mが一般的に用いられ、特に音素環境依存型の連続分布
型HMMが不特定話者に対して精度よく表現できること
からよく用いられている。日本語では、たとえば特開平
07−175494号公報に記載されたHMnet(Hi
dden Markov Netwook )が良好な認識率を得ている。こ
こで、サブワードとは、言語音声を精度よくかつ効率よ
く表せる表現単位のことで、音素や音節などがある。
【0005】HMMを用いる音声認識システムは処理量
が多く、これを要素別に見ると、一般に、HMMの尤度
演算と探索処理(パーザ部)が二大要因となっている。
HMMの尤度演算はパーザ2の中の探索の前処理として
位置付けられる。オンライン型の音声認識では実時間動
作が望ましく、また処理量の多さは価格に直接影響する
ばかりでなく、他のタスクへの負荷にもなるので、処理
量削減は重要な課題である。近年、サブワードHMMに
よる音声認識が一般的になり、その高速化の研究が増え
てきている。
【0006】連続音声認識では、与えられた文法(言語
モデル)で許される系列と入力された音声とを照合し、
照合スコアの最も高い音素系列を認識結果とする。しか
し、文法で許される音素系列すべてと入力音声を照合し
たのでは、多くの計算量を必要とする。照合の回数をで
きるだけ減らし、必要な照合のみを行なうことが探索処
理の高速の鍵となっている。そのための1つの手法とし
て、A* アルゴリズムを用いて正確なN−ベスト候補を
高速に探索する手法が提案されている。
【0007】図7はA* アルゴリズムを説明するための
図である。図7において、グラフの任意の接点をnとし
たとき、出発点Sからnまでの最適な道のコストの推定
値をg* (n)とし、nから目標接点までの最適な道の
コストの推定値をh* (n)とする。もし、道がなけれ
ばg* (n)あるいはh* (n)は無限大となる。nを
通る最適な道のコストの推定値f* (n)は次式で与え
られる。
【0008】 f* (n)=g* (n)+h* (n)…(1) 上述の式を評価関数として用いかつ推定コストh* が真
のコストhの下界であれば(h* (n)≦h* (n))
であるグラフ探索の戦略をA* アルゴリズムと呼ぶ。
【0009】図7に示すA* アルゴリズムにおいてh*
(n)は節点の横に示し、各節点に対するf* を括弧内
に示す。リストの変化は次のようになる。(S(7)→
(A(8)B(9))→(D(8)B(9)C(1
0))→(B(9)C(10)H(10)I(10))
→(D(7)C(10)E(10)H(10)I(1
0))→(H(9)I(9)C(10)E(10))→
(I(9)G1(10)C(10)E(10)L(1
1))→(G2(9)G1(10)C(10)E(1
0)L(11))。次に、G2がオープンから取出され
て終了する。解はS→B→D→I→G2となる。
【0010】一方、照合計算の共有化/近似を行なう方
法として、バンドルサーチが提案されている。この方法
では、各単語の1回ずつの照合計算で済ませるため、複
雑な文法でも高速探索が可能となる。しかし、計算量は
語彙数に依存する。
【0011】従来の離散単語認識方法では、入力音声に
対して、認識語彙に含まれる単語1つずつビタービサー
チしてスコアが算出される。したがって、パーザ部の処
理数は語彙数に比例する。語彙数が非常に多いとき、連
続音声認識の場合と同様のことが離散単語認識について
もいえる。単語ごとのマッチングにbest−firs
t型のビタービサーチを用いる方法も提案されている
が、探索空間の削減は達成できてはいるものの、ヒュー
リスティック関数の計算量が多いため、実際の処理量は
あまり削減できていない。また、ヒューリスティック関
数の作成が離散HMMに対して有効な手法ともいえる。
【0012】不特定話者を対象とするならば、より高精
度な音響モデルの混合連続HMMを使用する必要があ
る。この混合連続HMMに対してはヒューリスティック
関数を設計するのが難しい。予備選択を用いる方法も古
くから提案されている。しかし、予備選択ミスという避
けられない欠点があるため、最近ではあまり採用されな
い。認識率の低下はわずかながら計算量は1/24まで
削減できたという報告もある。しかし、この実験は特定
話者認識であり、不特定話者を対象とした場合、予備選
択ミスが増加するため、認識率の低下を招くことが予想
される。
【0013】Chenなどが発表した“Large Vocabulary W
ord Recognition Based on Tree-trellis Search, ”Pr
oc. ICASSP-94, pp.II-137-II-140 (1994)において、
Soong の連続音声認識手法を用いて中国語の大語彙単語
認識を高速にする手法を提案している。前向き探索には
音節の自由なネットワーク,後向き探索には音節木化し
た単語辞書を参照してA* アルゴリズムを用いるという
もので、超大語彙の高速認識が可能としている。中国語
は412種類もの音節があるので、サブシラブル(subs
yllable )HMMを状態共有することによって効率よく
音節を構成する。
【0014】音素環境は音節内のみ考慮しており、音節
内の母音間接続条件のみが環境依存である。つまり、音
節間は無考慮(=環境独立)とし、木構造辞書は音節を
アークとして作成しており、音節と音節を直接接続す
る。この論文中において、音素環境独立型(Table 4)
と音節内音素環境依存型(Table 5)の両方認識実験を
試みている。もちろん、音節内音素環境依存型を用いた
方が高い認識率を得ている。しかし、この実験も特定話
者認識である。不特定話者を対象とした場合、音節間環
境が考慮されていないため、認識性能の劣化が予想され
る。
【0015】
【発明が解決しようとする課題】従来の離散単語認識方
法では、入力音声に対して認識語彙に含まれる単語1つ
ずつビタービサーチしてスコアを算出する。したがっ
て、パーザ2の処理量は語彙数に比例する。語彙数が非
常に多いとき、連続音声認識の場合と同様のことが離散
単語認識についてもいえる。情報検索などに適用する場
合、語彙数は数千単語以上となることが十分考えられ
る。100単語のとき0.1秒かかるシステムならば、
1,000単語では1秒、10,000単語では10秒
かかることになる。この方式は、実時間動作が望ましい
オンライン型の音声認識には不向きである。
【0016】前述のChenの離散単語認識方式は、特定話
者を対象としているので、音節間環境を考慮しなくとも
元来音響モデルが高精度なため良好な認識性能が得られ
ていた。しかし、この方式を不特定話者を対象とした場
合、A* アルゴリズムがうまく動作しないという問題点
がある。音響モデルの精度は低いため、前向きサーチの
精度は低くなり、後向きの探索で失敗する確率が高くな
るからである。
【0017】同様の実験が日本語でも試みられ、「孤立
単語認識における全探索法・ビームサーチ法・A* 探索
法の比較」,日本音響学会講演論文集,2-5-10, pp.77-
78(1996.3)において発表されている。この文献では、
* 探索のヒューリスティック関数x* (t)の推定に
は任意の音節連鎖を用いており、音素環境を考慮してお
らず、不特定話者を対象とした実験を行ない処理時間を
調査しているが、従来方法に比べてよい結果は得られて
いない。
【0018】予備選択方式は最近ではあまり用いられる
ことはない。なぜならば、予備選択部では処理量の少な
いマッチング方式で大雑把な認識/分類を行なう。よっ
て、しばしば誤り(=予備選択ミス)が生じる。この誤
りは後で回復できないため認識率の低下を招く、という
ような避けられない欠点があるためである。
【0019】それゆえに、この発明の主たる目的は、パ
ーザにおいて、探索空間を効率よく絞り込むサーチ方法
を採用することによって、処理量が語彙数にほとんど影
響されないという特徴を持たせ、超大語彙を対象として
も安価なハードウェア構成で実時間動作が可能な大語彙
音声認識装置を提供することである。
【0020】
【課題を解決するための手段】請求項1に係る発明は、
音素環境依存型音素隠れマルコフモデルを用いた音声認
識装置において、音声を入力するための入力手段と、入
力された音声を短時間フレームごとに分析し、特徴ベク
トルを抽出する特徴ベクトル抽出手段と、抽出された特
徴ベクトルに基づいて語頭の前および語尾の後に無音モ
デルを付加した認識語彙を音素環境依存型音素列で表現
し、それら音素をアークとする木構造の辞書に変換する
辞書作成手段と、前向き演算部と後向き演算部とを含む
パーザ手段を備え、前向き演算部は音素環境を考慮した
音素単位の制約条件下で駆動するビタービサーチを行な
い、後向き演算部は音素環境を考慮した木構造辞書を参
照しながらビタービサーチを用いて仮説を展開し、前向
き演算結果のスコアと音素単位で実行した後向きビター
ビサーチの演算結果のスコアの和を利用したA* アルゴ
リズムを用いて展開する順番をbest−firstに
決定し、受理された仮説の順にそれを認識結果の単語候
補として出力し、所定の個数の単語候補が求まれば後向
き演算を終了するようにしたものである。
【0021】請求項2に係る発明では、請求項1の前向
き演算部は、音素環境を考慮した隠れマルコフモデルの
状態単位の制約条件下で駆動するビタービサーチを行な
う。
【0022】請求項3に係る発明では、請求項1の後向
き演算部は各音素ごとのビタービサーチの照合範囲を予
め定める各音素別継続時間長をもとに所定の方法で制限
する。
【0023】請求項4に係る発明では、請求項1の後向
き演算部は、音素単位の仮説の展開におけるビタービサ
ーチをA* アルゴリズムで実行する。
【0024】
【発明の実施の形態】図1はこの発明の一実施形態を示
すブロック図である。図1において、図示しないマイク
ロフォンから入力された音声は、A/D変換器でデジタ
ル信号に変換され、音響分析部1に入力される。音響分
析部1では入力音声をフレームごとに分析し、音響パラ
メータを抽出する。この音響パラメータとしては、たと
えばLPCケプストラムや差分LPCケプストラムや差
分パワーなどである。
【0025】この実施形態では、音響モデルの音素環境
依存型HMMとしてHMnetを用いて説明する。音素
環境依存にするために各音素は三組音素(triphone)と
して表現され、さらに各状態は他の三組音素状態と共有
することがある。したがって、音素ごとに前後に接続す
る音素リスト,状態ごとに前後に接続する音素リスト,
状態ごとに前後に接続する状態リストが記述されてい
て、1つのネットワークを形成している。表1にHMn
etの状態に関する各種情報の例を示す。これらの接続
情報を用いて前向きサーチ演算および後向きサーチ演算
が実現される。
【0026】
【表1】
【0027】図1におけるパーザ5は前向き演算部6と
後向き演算部7の2つの演算部から構成される。前向き
演算部6では、まずフレームごとにHMnetの各状態
について尤度が計算される。この計算結果は尤度テーブ
ルとして前向き演算部6と後向き演算部7とで参照され
る。次に、音素環境を考慮した三組音素単位の制約条件
下で駆動するビタービサーチが行なわれる。
【0028】図2は状態/音素接続情報の例を示す図で
ある。図2において、1つの音素は3〜4個の状態から
成り立っている。日本語の三組音素の総数は三千数百種
類存在するが、この発明の実施形態で扱うHMnetを
利用すると、状態共有がなされているため、状態系列の
異なる三組音素(これを異なり三組音素と呼ぶ)は数百
種類になる。そこで、この発明の実施形態では、図2に
示すように異なり三組音素ごとに状態を並べる。したが
って、三組音素のうちHMMの状態系列が同じものは計
算を省略されることとなる。
【0029】図2(a)において、時刻がt−1からt
へ移るとき、許されている遷移のうち、主として音素p
の状態aに関係するものを実線矢印で示している。ある
時刻tにおけるある音素pのヒューリスティック関数h
* p (t)は次の第(2)式のようにして1フレームご
と、すべての異なる音素について累積スコアとして算出
される。図2(a)の時刻t上の状態jには直前フレー
ムt−1上の状態iと状態jからの経路が存在してい
て、t−1フレームからこれらの経路を辿ってtフレー
ムの状態jに達する累積スコア中で、最大のものが時刻
tにおける状態jの累積スコアとなる。
【0030】
【数1】
【0031】ここで、jは当該音素pの最終状態の状態
番号であり、簡単のためh* p (t)≡h* jp(t)と
して定義している。bj (t)は状態jの時刻tにおけ
るシンボル出力確率で、尤度テーブルに格納されてい
る。aijは状態iから状態jへの状態遷移確率である。
p (j)は状態jに遷移し得る状態のうち、その音素
pに属するものの集合を意味し、図1に示す音響/言語
モデル8の状態/音素接続情報を参照して求められる。
ip(t−1)は状態iの時刻t−1における累積スコ
アであり、ビタービサーチによって漸化的に求められ
る。
【0032】jが当該音素pの初期状態の状態番号のと
きを図2(b)に示す。この場合は第(3)式に示すと
おり、音素pに接続し得る音素群と自己ループのうちで
最大のものが選ばれる。
【0033】
【数2】
【0034】ここで、I(p)は音素pに接続し得る音
素とその最終状態番号の集合を意味し、後述の表2に示
す音素接続情報を参照して求められる。
【0035】前向き演算部7において、音素環境を考慮
したHMMの状態単位の制約条件下で駆動するビタービ
サーチを行なうことも有効である。この場合、h
* (t)の精度は上述の方式に比べてわずかに劣る。し
かし、状態共有によって計算しなくて済む度合が多くな
る。結局、状態数だけ計算すればよいので、前向きサー
チに必要な演算量が1/10以下になるというメリット
がある。前向き演算方法は用途に応じて決めればよい。
ある時刻tにおけるある音素pのヒューリスティック関
数h* p (t)は第(4)式のようにして1フレームご
と、すべての状態について算出され、音素pの最終状態
の状態番号jを用いてh* j (t)として代表表現され
る。
【0036】
【数3】
【0037】ここでS(j)は状態jに遷移し得るすべ
ての状態の集合を意味し、状態に接続情報を参照して求
められる。vi (t−1)は状態iの時刻t−1におけ
る累積スコアであり、jが当該音素pの初期状態の状態
番号のときには、第(2)式と同様である。
【0038】次に、表2に音素間の接続情報と初期状態
番号の集合I(p)のうち、音素接続情報のテーブルを
示す。
【0039】
【表2】
【0040】音素pの初期状態に対してはこのテーブル
が参照される。言語的な制約を考慮して特定の音素と音
素との連結に制限を設けている。たとえば日本語であれ
ば子音と子音が連結しないと考えられ、“m”から
“h”への経路は設けないなどと設定している。音素表
記はヘボン式ローマ字綴りに従っている。ただし、
“q”は促音、“N”は撥音、“y”は拗音、“−”は
無音を示す。表2では左側の音素HMMの最終状態から
右側の音素HMMの初期状態に繋がり得ることを意味し
ている。
【0041】後向き演算部7では、音素をアークとする
言語モデル10の木構造辞書を参照する。この木構造辞
書は認識語彙リストから予め作成されている。パーザ5
の前に単語ごとの音声区間の切出し処理を行うが、語頭
・語尾の判定誤りがしばしば起こる。そこで、音声区間
と判定された区間に対し、その語頭の前および語尾の後
に、ある程度のマージン、すなわち周囲環境音区間を設
定することが多い。このマージンに対応するために各認
識語彙の前後にはHMMの無音モデルが付加されてい
る。無音モデルとは音声が入っていない周囲雑音を対象
に学習したモデルのことであって、波形が常に0の真の
無音を指しているのではない。
【0042】図3は木構造辞書の一部分の例を示す図で
あり、図4は比較のために音素環境を考慮しない場合の
木構造辞書を示す図である。図3および図4において、
数字は辞書のノード番号を示し、アルファベットはアー
クの音素を示す。前述の表2に例示したような音素間の
接続情報制約下で音素が展開されており、前後の音素環
境が考慮されている。そのため、枝分かれが多くなって
いる。ノード328から4本のアークが伸びているのに
対し、図4に示すように音素環境を考慮しなければノー
ド76のように2本のアークとなる。演算の方向が時間
とは逆向きのため、語尾から語頭へと枝が伸びている。
後向き演算の参照を高速にするため、各アークには予め
HMnetの状態番号が割付けられている。
【0043】図3に示した木構造辞書に沿って仮説が展
開されるが、展開する順番はA* アルゴリズムを用いて
best−firstに決定される。すなわち、以下の
第(5)式の評価値f* p (t)が最も高い部分仮説の
ノードを展開して先に進む。ここで、pはその仮説の先
端アークの音素を表わし、tは後述する方法によって定
められた照合範囲R(p,t0 )中のフレーム番号を表
わす。
【0044】評価値f* (t)は前向き演算結果のスコ
アh* (t)と、第(6)式に示すようにt∈R(p,
0 )について音素単位で実行した後向きビタービサー
チの演算結果のスコアgp (t)の和で表わされる。こ
の和は木構造辞書に沿っているため、h* (t)および
p (t)に付与されている前後音素環境情報が反映さ
れており、音素環境が考慮されていることになる。処理
の簡素化のため、接続ポイントはf* (t)の最大値を
与えるt′1点に限定する。つまり接続ポイントが異な
るだけで音素列は同じ仮説を1つで代表させることで仮
説の和を削減する。この仮説に接続するアークを次に展
開するときのビタービサーチの開始点はこのt′となり
これをt0 とおく。
【0045】
【数4】
【0046】ここで、iは音素pの初期状態の状態番号
であり、gp (t)≡gip(t)と定義している。C*
p (i)はCp (j)の状態接続の方向を逆にした集合
である。後述のbest−first仮説成長アルゴリ
ズムで説明しているように、仮説には単一仮説とグルー
プ仮説とがある。単一仮説の場合、pは先端アークの唯
一の音素である。グループ仮説の場合は、pはそのグル
ープ中の最高のスコアを与える選択アークの音素を示
す。t0 はその仮説の前回の接続ポイントt′を示す。
【0047】後向き演算における各音素pごとのビター
ビサーチの照合範囲R(p,t0 )は、通常のその仮説
の開始点t0 (=前回の接続ポイント)から終点、すな
わち入力音声の先頭t=1までである。したがって、語
尾付近においては照合範囲が非常に広くなり、計算量の
増加を招く。音素にはその音素固有の継続時間があり、
一般に母音や撥音,促音は長く、破裂子音は短い傾向が
ある。そこで、音素単位にラベル付けされた音声データ
を用いて、各音素ごとに平均継続時間長μp と分散σ2
p を求めておく。音声データが多量にある場合は正確を
期すため、各三組音素ごとに平均継続時間長と分散を求
めてもよい。使い方としては前回の接続ポイントt0
ら“平均値μp ±α×標準偏差σp ”の区間を対象とす
る。たとえば、この実施形態では、次の第(7)式に示
すように、t0 から“平均値μp+3×標準偏差σp
だけ遡った区間が照合範囲R(p,t0 )とされる
【0048】
【数5】
【0049】この照合範囲制限は計算量の削減だけでな
く、ビタービサーチでしばしば生じる不必要な時間軸整
合を未然に防ぐこともできるため、認識率の向上にも貢
献することが実験により確認されている。
【0050】図5はbest−firstに仮説を成長
させるアルゴリズムを示すフローチャートである。この
フローチャートは前述のSoong に準拠している。図6に
おける全スコアとは第(5)式の評価値f* p (t)の
ことであり、ルートノードとはまだ全く展開をしていな
い仮説のことを意味し、単一パスとは仮説の先端アーク
が1個,グループパスとは仮説の先端アークが複数個で
ある仮説のことを示し、NはN−bestの候補数Nを
示す。
【0051】仮説の展開はスタックのトップエントリ
(=最良部分仮説)を1アーク展開し、2つの仮説(す
なわち最良単一パスと残りのグループ)に分割すること
によって進められる。展開対象は常に最良部分仮説とし
ているので展開する順番はbest−firstとな
る。
【0052】図5を参照してより具体的に説明すると、
スタックにルートノードをおき、初期化が行なわれる。
次いで、スタックのトップエントリを取出し、最良部分
仮説が単一パスであり、グループパスでないか否かが判
別される。単一パスでなければ、最良部分仮説を2つの
仮説(最良単一パスと残りのグループ)に分割され、こ
れら2つの仮説について全スコアが計算され、これら2
つの仮説がスタックに戻されて全スコアに基づいてソー
トされる。単一パスであれば最良部分仮説が終端ノード
まで到達しているか否かが判別され、終端ノードまで到
達していなければ、グループ仮説を2つの仮説に分割
し、これら2つの仮説について全スコアを計算し、これ
ら2つの仮説をスタックに戻し、全スコアに基づいてソ
ートされる。最良部分仮説が終端ノードまで到達すれ
ば、その仮説を出力し、受理数カウンタをインクリメン
トする。受理数カウンタがNに等しくなければ、再びス
タックのトップエントリを取り、受理カウンタがNに等
しければ終了する。
【0053】このように、best−firstに順次
仮説を展開していくと、受理された仮説の順に認識結果
のN−best単語候補が求まる。つまり、スコアの高
い候補から順に受理されるので、第1位、第2位、第3
位、…の順に単語候補が出力される。所定の個数(たと
えば10個なら第10位まで)の単語候補が求められれ
ば後向き演算が終了され、木構造辞書のうち、N−be
st単語候補にかかわるアークのみ後向き演算でビター
ビサーチを実行していることとなる。
【0054】ヒューリスティック関数h* (t)の精度
は後向きサーチの探索効率(=仮説展開回数)に大きく
影響する。もし、h* (t)が真の値h(t)に等しい
ならば理想的に展開が進み、無駄な仮説の展開を全くし
なくて済む。このとき処理量は認識語彙数、すなわち木
構造辞書のサイズには依存しないこととなる。h
* (t)はA* アルゴリズムの許容可能性:h* (t)
≧h(t)の関係が成立しているが、弱い文法を使って
いるためh* (t)=h(t)にはならない。
【0055】したがって、実際には無駄な仮説の展開が
多少存在し、正解に近い仮説の周辺アークもサーチする
ので処理量は認識語彙数に少しは依存する。結果として
処理量が語彙数にはほとんど影響されないという特徴を
持つ。従来の1単語ずつビタービサーチを実行する方式
に比べれば、語彙が増えれば増えるほど探索空間が劇的
に削減できる。したがって、この実施形態は大語彙に適
した認識方式といえる。20,3000単語を認識語彙
とした場合、パーザ5の処理量が1/40に削減できる
ことが実験で確認されている。
【0056】なお、展開途中の仮説はスタックに積んで
おく。1回の展開操作ごとにスタックの並び換え(ソー
ト)が必要となる。スタックのサイズは理想的な環境下
では理論的にはN−bestの候補数Nと同じでよい。
しかし、現実には認識語彙数や音響モデルの性能に影響
されるため、余裕を持たせた値に設定する必要がある。
実環境実験では数百程度のサイズが望まれる。たとえ
ば、この実施形態では、語彙が20,000語のときは
1,000、5,000語のときは500とする。した
がって、スタックのソートは処理量を増大させる要因と
なる。処理の高速化のため、仮説をスタックへ戻す際に
は二分木探索処理量を増大させる要因となる。処理の高
速化のため、仮説をスタックへ戻す際には二分木探索を
用いて挿入する場所が決定される。これによりスタック
の全データのソートはしなくて済む。スタックの入換え
はポインタ操作で行ない、実際のスタック上のデータは
移動させないようにする。ただし、処理系によってはポ
インタ操作よりもスタックをリスト構造にした方が効果
的となることもある。
【0057】なお、後向き演算における各音素ごとのビ
タービサーチの代わりにA* アルゴリズムを用いて算出
することも可能である。この場合ヒューリスティック関
数は前向き演算で既に求まっているものを流用できる。
ただし、A* アルゴリズムを起動する回数が多く、スタ
ック操作などのオーバヘッドがあるため、処理速度が向
上するかどうかは、メモリのアクセススピードなど実装
する処理系の条件に依存する。
【0058】この実施形態では、サブワード単位とし
て、音素を採用したが、音節でも実現可能である。日本
語の音節は約110種類あり、音素環境を考慮すると異
なり音節数は10,000以上になるため、前向き演算
の処理量が大きくなる反面、前向きサーチの精度が向上
するため、後向きサーチの探索がより効率よく行なわれ
る。
【0059】また、上述の実施形態では、認識対象とし
て単語を取上げたが、辞書の語彙は単語に限定されるわ
けではなく、1文節を1単語と見なして木構造辞書を作
成すれば、文節の認識も実現可能である。日本語は助詞
などの表現で語尾の表現が木構造によって共有化できる
ので、効率よくサーチすることができる。
【0060】
【発明の効果】以上のように、この発明によれば、認識
語彙を音素環境依存型音素列で表現し、それら音素をア
ークとする木構造の辞書に変換し、前向き演算部で音素
環境を考慮した音素単位の制約条件下で駆動するビター
ビサーチを行ない、後向き演算部で音素環境を考慮した
木構造辞書を参照しながらビタービサーチを用いて仮説
を展開し、前向き演算結果のスコアと音素単位で実行し
た後向きビタービサーチの演算結果のスコアの和を利用
したA* アルゴリズムを用いて展開する順番をbest
−firstに決定し、受理された仮説の順にそれを認
識結果の単語候補として出力し、所定の個数の単語候補
が求まれば後向き演算を終了して認識候補の単語を出力
するようにしたので、処理量が語彙数に比例しないとい
う特徴を活かして、超大語彙を対象としても安価なハー
ドウェア構成で実時間動作が可能な音声認識装置を実現
できる。たとえば、20,000単語を認識語彙とした
場合、この発明によれば、音声認識の処理量の二大要
素、HMMの尤度演算とパーザのうち、後者を約1/4
0に削減できる。
【図面の簡単な説明】
【図1】この発明の一実施形態を示すブロック図であ
る。
【図2】HMMの状態間の接続の制約例を示す図であ
る。
【図3】音素環境を考慮した木構造辞書の一部分の例を
示す図である。
【図4】音素環境を考慮しない木構造辞書の一部分の例
を示す図である。
【図5】best−firstに仮説を成長させるアル
ゴリズムを示すフローチャートである。
【図6】従来の一般的な単語音声認識装置の構成を示す
ブロック図である。
【図7】A* アルゴリズムを説明するための図である。
【符号の説明】
1 音響分析部 5 パーザ 6 前向き演算部 7 後向き演算部 8 音響/言語モデル 9 音響モデル 10 言語モデル

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音素環境依存型音素隠れマルコフモデル
    を用いた音声認識装置において、 音声を入力するための入力手段と、 前記入力手段から入力された音声を短時間フレームごと
    に分析し、特徴ベクトルを抽出する特徴ベクトル抽出手
    段、 前記特徴ベクトル抽出手段によって抽出された特徴ベク
    トルに基づいて、語頭の前および語尾の後に無音モデル
    を付加した認識語彙を音素環境依存型音素列で表現し、
    それら音素をアークとする木構造の辞書に変換する辞書
    作成手段、および、 前向き演算部と後向き演算部とを含むパーザ手段を備
    え、 前記前向き演算部は、音素環境を考慮した音素単位の制
    約条件下で駆動するビタービサーチを行ない、 前記後向き演算部は、音素環境を考慮した木構造辞書を
    参照しながらビタービサーチを用いて仮説を展開し、前
    向き演算結果のスコアと音素単位で実行した後向きビタ
    ービサーチの演算結果のスコアの和を利用したA* アル
    ゴリズムを用いて展開する順番をbest−first
    に決定し、受理された仮説の順にそれを認識結果の単語
    候補として出力し、所定の個数の単語候補が求まれば後
    向き演算を終了することを特徴とする、大語彙音声認識
    装置。
  2. 【請求項2】 前記前向き演算部は、音素環境を考慮し
    た隠れマルコフモデルの状態単位の制約条件下で駆動す
    るビタービサーチを行なうことを特徴とする、請求項1
    の大語彙音声認識装置。
  3. 【請求項3】 前記後向き演算部は、各音素ごとのビタ
    ービサーチの照合範囲を予め定める各音素別継続時間長
    をもとに所定の方法で制限することを特徴とする、請求
    項1の大語彙音声認識装置。
  4. 【請求項4】 前記後向き演算部は、音素単位の仮説の
    展開におけるビタービサーチをA* アルゴリズムで実行
    することを特徴とする、請求項1の大語彙音声認識装
    置。
JP8249548A 1996-09-20 1996-09-20 大語彙音声認識装置 Pending JPH1097275A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8249548A JPH1097275A (ja) 1996-09-20 1996-09-20 大語彙音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8249548A JPH1097275A (ja) 1996-09-20 1996-09-20 大語彙音声認識装置

Publications (1)

Publication Number Publication Date
JPH1097275A true JPH1097275A (ja) 1998-04-14

Family

ID=17194637

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8249548A Pending JPH1097275A (ja) 1996-09-20 1996-09-20 大語彙音声認識装置

Country Status (1)

Country Link
JP (1) JPH1097275A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240008B2 (en) 2001-10-03 2007-07-03 Denso Corporation Speech recognition system, program and navigation system
JP2009169154A (ja) * 2008-01-17 2009-07-30 Kddi Corp 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体
JP2010175807A (ja) * 2009-01-29 2010-08-12 Kddi Corp 音声認識方法および装置
US7818171B2 (en) 2006-03-31 2010-10-19 Denso Corporation Speech recognition apparatus and speech recognition program
JP2021039384A (ja) * 2020-12-08 2021-03-11 株式会社東芝 生成装置、認識システム、および、有限状態トランスデューサの生成方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240008B2 (en) 2001-10-03 2007-07-03 Denso Corporation Speech recognition system, program and navigation system
US7818171B2 (en) 2006-03-31 2010-10-19 Denso Corporation Speech recognition apparatus and speech recognition program
DE102007015497B4 (de) * 2006-03-31 2014-01-23 Denso Corporation Spracherkennungsvorrichtung und Spracherkennungsprogramm
JP2009169154A (ja) * 2008-01-17 2009-07-30 Kddi Corp 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体
JP2010175807A (ja) * 2009-01-29 2010-08-12 Kddi Corp 音声認識方法および装置
JP2021039384A (ja) * 2020-12-08 2021-03-11 株式会社東芝 生成装置、認識システム、および、有限状態トランスデューサの生成方法

Similar Documents

Publication Publication Date Title
US5241619A (en) Word dependent N-best search method
US6243680B1 (en) Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
Wang et al. Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data
JP3481497B2 (ja) 綴り言葉に対する複数発音を生成し評価する判断ツリーを利用する方法及び装置
Kenny et al. A*-admissible heuristics for rapid lexical access
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
JPH06110493A (ja) 音声モデルの構成方法及び音声認識装置
JP2006038895A (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
JP2000075895A (ja) 連続音声認識用n最良検索方法
US20050038647A1 (en) Program product, method and system for detecting reduced speech
Boite et al. A new approach towards keyword spotting.
WO2002029615A1 (en) Search method based on single triphone tree for large vocabulary continuous speech recognizer
Lee et al. Acoustic modeling of subword units for speech recognition
Mihajlik et al. Phonetic transcription in automatic speech recognition
JPH1097275A (ja) 大語彙音声認識装置
Nakagawa Speaker-independent continuous-speech recognition by phoneme-based word spotting and time-synchronous context-free parsing
Huang et al. A fast algorithm for large vocabulary keyword spotting application
JP3171107B2 (ja) 音声認識装置
Nakagawa Spoken sentence recognition by time-synchronous parsing algorithm of context-free grammar
JPH08123470A (ja) 音声認識装置
JPH0981181A (ja) 音声認識装置
Lee et al. A survey on automatic speech recognition with an illustrative example on continuous speech recognition of Mandarin
Kershaw et al. The 1995 Abbot hybrid connectionist-HMM large-vocabulary recognition system
JP3494338B2 (ja) 音声認識方法
Nakagawa et al. The syntax-oriented speech understanding system-SPOJUS-SYNO.

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030422