JP2002351491A

JP2002351491A - 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体

Info

Publication number: JP2002351491A
Application number: JP2001161698A
Authority: JP
Inventors: Katsuki Minamino; 活樹南野; Koji Asano; 康治浅野; Hiroaki Ogawa; 浩明小川; Lucke Helmut; ルッケヘルムート
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2001-05-30
Filing date: 2001-05-30
Publication date: 2002-12-06
Anticipated expiration: 2021-05-30
Also published as: JP4696400B2

Abstract

(57)【要約】【課題】単語予備選択処理の計算量を低減する。【解決手段】単語予備選択部１３は、単語の探索の中
断が可能かどうかが判定し、単語の探索の中断が可能な
場合には、単語の探索を中断して、それまでに予備選択
した単語と、探索途中の単語（その後の処理により予備
選択されうる単語）とを、単語予備選択結果として、認
識部１４に出力する。即ち、単語予備選択部１３は、そ
れまでに予備選択した単語の数と、その後の処理によっ
て予備選択されうる単語の数とが、所定値以下となった
とき、それまでに予備選択した単語と、その後の処理に
よって予備選択されうる単語とを、単語予備選択結果と
して、認識部１４に供給する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法、並びにプログラムおよび記録媒体に関
し、特に、例えば、高速、かつ高精度な音声認識を行う
ことができるようにする音声認識装置および音声認識方
法、並びにプログラムおよび記録媒体に関する。

【０００２】

【従来の技術】図１は、従来の音声認識装置の一例の構
成を示している。

【０００３】ユーザが発した音声は、マイク（マイクロ
フォン）１に入力され、マイク１では、その入力音声
が、電気信号としての音声信号に変換される。この音声
信号は、ＡＤ(Analog Digital)変換部２に供給される。
ＡＤ変換部２では、マイク１からのアナログ信号である
音声信号がサンプリング、量子化され、ディジタル信号
である音声データに変換される。この音声データは、特
徴抽出部３に供給される。

【０００４】特徴抽出部３は、ＡＤ変換部２からの音声
データについて、適当なフレームごとに音響処理を施
し、これにより、例えば、ＭＦＣＣ(Mel Frequency Cep
strumCoefficient)等の特徴量を抽出し、マッチング部
４に供給する。なお、特徴抽出部３では、その他、例え
ば、スペクトルや、線形予測係数、ケプストラム係数、
線スペクトル対等の特徴量を抽出することが可能であ
る。

【０００５】マッチング部４は、特徴抽出部３からの特
徴量を用いて、音響モデルデータベース５、辞書データ
ベース６、および文法データベース７を必要に応じて参
照しながら、マイク１に入力された音声（入力音声）
を、例えば、連続分布ＨＭＭ法等に基づいて音声認識す
る。

【０００６】即ち、音響モデルデータベース５は、音声
認識する音声の言語における個々の音素や音節などの音
響的な特徴を表す音響モデルを記憶している。ここで
は、連続分布ＨＭＭ法に基づいて音声認識を行うので、
音響モデルとしては、ＨＭＭ(Hidden Markov Model)が
用いられる。辞書データベース６は、認識対象の各単語
について、その発音に関する情報（音韻情報）が記述さ
れた単語辞書を記憶している。文法データベース７は、
辞書データベース６の単語辞書に登録されている各単語
が、どのように連鎖する（つながる）かを記述した文法
規則（言語モデル）を記憶している。ここで、文法規則
としては、例えば、文脈自由文法（ＣＦＧ）や、統計的
な単語連鎖確率（Ｎ−ｇｒａｍ）などに基づく規則を用
いることができる。

【０００７】マッチング部４は、辞書データベース６の
単語辞書を参照することにより、音響モデルデータベー
ス５に記憶されている音響モデルを接続することで、単
語の音響モデル（単語モデル）を構成する。さらに、マ
ッチング部４は、幾つかの単語モデルを、文法データベ
ース７に記憶された文法規則を参照することにより接続
し、そのようにして接続された単語モデルを用いて、特
徴量に基づき、連続分布ＨＭＭ法によって、マイク１に
入力された音声を認識する。即ち、マッチング部４は、
特徴抽出部３が出力する時系列の特徴量が観測されるス
コア（尤度）が最も高い単語モデルの系列を検出し、そ
の単語モデルの系列に対応する単語列を、音声の認識結
果として出力する。

【０００８】つまり、マッチング部４は、接続された単
語モデルに対応する単語列について、各特徴量の出現確
率を累積し、その累積値をスコアとして、そのスコアを
最も高くする単語列を、音声認識結果として出力する。

【０００９】スコア計算は、一般に、音響モデルデータ
ベース５に記憶された音響モデルによって与えられる音
響的なスコア（以下、適宜、音響スコアという）と、文
法データベース７に記憶された文法規則によって与えら
れる言語的なスコア（以下、適宜、言語スコアという）
とを総合評価することで行われる。

【００１０】即ち、音響スコアは、例えば、ＨＭＭ法に
よる場合には、単語モデルを構成する音響モデルから、
特徴抽出部３が出力する特徴量の系列が観測される確率
（出現する確率）に基づいて、単語ごとに計算される。
また、言語スコアは、例えば、バイグラムによる場合に
は、注目している単語と、その単語の直前の単語とが連
鎖（連接）する確率に基づいて求められる。そして、各
単語についての音響スコアと言語スコアとを総合評価し
て得られる最終的なスコア（以下、適宜、最終スコアと
いう）に基づいて、音声認識結果が確定される。

【００１１】具体的には、あるＮ個の単語からなる単語
列におけるｋ番目の単語をｗ_kとして、その単語ｗ_kの音
響スコアをＡ（ｗ_k）と、言語スコアをＬ（ｗ_k）と、そ
れぞれ表すとき、その単語列の最終スコアＳは、例え
ば、次式にしたがって計算される。

【００１２】Ｓ＝Σ（Ａ（ｗ_k）＋Ｃ_k×Ｌ（ｗ_k））・・・（１）但し、Σは、ｋを１からＮに変えてのサメーションをと
ることを表す。また、Ｃ _kは、単語ｗ_kの言語スコアＬ
（ｗ_k）にかける重みを表す。

【００１３】マッチング部４では、例えば、式（１）に
示す最終スコアＳを最も大きくするＮと、単語列ｗ₁，
ｗ₂，・・・，ｗ_Nを求めるマッチング処理が行われ、そ
の単語列ｗ₁，ｗ₂，・・・，ｗ_Nが、音声認識結果とし
て出力される。

【００１４】以上のような処理が行われることにより、
図１の音声認識装置では、例えば、ユーザが、「ニュー
ヨークに行きたいです」と発話した場合には、「ニュー
ヨーク」、「に」、「行きたい」、「です」といった各
単語に、音響スコアおよび言語スコアが与えられ、それ
らを総合評価して得られる最終スコアが最も大きいとき
に、単語列「ニューヨーク」、「に」、「行きたい」、
「です」が、音声認識結果として出力される。

【００１５】ところで、上述の場合において、辞書デー
タベース６の単語辞書に、「ニューヨーク」、「に」、
「行きたい」、および「です」の５単語が登録されてい
るとすると、これらの５単語を用いて構成しうる５単語
の並びは、５⁵通り存在する。従って、単純には、マッ
チング部４では、この５⁵通りの単語列を評価し、その
中から、ユーザの発話に最も適合するもの（最終スコア
を最も大きくするもの）を決定しなければならない。そ
して、単語辞書に登録する単語数が増えれば、その単語
数分の単語の並びの数は、単語数の単語数乗通りになる
から、評価の対象としなければならない単語列は、膨大
な数となる。

【００１６】さらに、一般には、発話中に含まれる単語
の数は未知であるから、５単語の並びからなる単語列だ
けでなく、１単語、２単語、・・・からなる単語列も、
評価の対象とする必要がある。従って、評価すべき単語
列の数は、さらに膨大なものとなるから、そのような膨
大な単語列の中から、音声認識結果として最も確からし
いものを、計算量および使用するメモリ容量の観点から
効率的に決定することは、非常に重要な問題である。

【００１７】計算量およびメモリ容量の効率化を図る方
法としては、例えば、音響スコアを求める過程におい
て、その途中で得られる音響スコアが所定の閾値以下と
なった場合に、そのスコア計算を打ち切るという音響的
な枝刈り手法や、言語スコアに基づいて、スコア計算の
対象とする単語を絞り込む言語的な枝刈り手法があり、
これらの枝刈り手法は、ビームサーチ法と呼ばれる。

【００１８】ビームサーチ法によれば、スコア計算の対
象が、所定の判断基準（例えば、上述したような計算途
中の音響スコアや、単語に与えられる言語スコア）に基
づいて絞り込まれることで、計算量の削減を図ることが
できる。しかしながら、その反面、絞り込みを強くする
と、即ち、判断基準を厳しくすると、本来、音声認識結
果として正しいものまでも枝刈りされてしまい、誤認識
が生じることになる。従って、枝刈り手法による場合に
は、音声認識結果として正しいものが枝刈りされないよ
うに、ある程度のマージンをもたせた絞り込みを行う必
要があり、このため、計算量を大きく削減することは困
難である。

【００１９】また、音響スコアを求める場合に、スコア
計算の対象となっているすべての単語について独立に行
うと、その計算量が大きくなることから、複数の単語に
ついての音響スコアの計算の一部を共通化（共有化）す
る方法が提案されている。この共通化の方法としては、
単語辞書の単語のうち、その先頭の音韻が同一のものに
ついて、その先頭の音韻から、同一になっている音韻ま
では、音響モデルを共通に用い、それ以後の異なる音韻
には、音響モデルを個々に用いることにより、全体とし
て１つのツリー構造（木構造）のネットワークを構成
し、これを用いて、音響スコアを求める方法がある。具
体的には、例えば、いま、単語「秋田」と「曙」を考
え、「秋田」の音韻情報が「akita」であり、「曙」の
音韻情報が「akebono」であるとすると、単語「秋田」
と「曙」の音響スコアは、それぞれの先頭から２番目ま
での同一の音韻a,kについては兼用で計算される。そし
て、単語「秋田」の残りの音韻k,i,t,a、および単語
「曙」の残りの音韻e,b,o,n,oについては、それぞれ独
立に音響スコアが計算される。

【００２０】従って、この方法によれば、音響スコアの
計算量を大幅に低減することができる。

【００２１】しかしながら、この方法では、共通化され
ている部分（音響スコアが兼用で計算される部分）にお
いて、その音響スコアの計算の対象となっている単語を
決定することができない。即ち、上述の単語「秋田」と
「曙」の例でいえば、それぞれの先頭から２番目までの
音韻a,kについて音響スコアが計算されている場合は、
その音響スコアが計算されている単語が、「秋田」であ
るのか、または「曙」であるのかを同定することができ
ない。

【００２２】そして、この場合、「秋田」については、
その３番目の音韻iについて音響スコアの計算が開始さ
れたときに、その計算対象が「秋田」であることを同定
することができ、「曙」についても、その３番目の音韻
eについての音響スコアの計算が開始されたときに、そ
の計算対象が「曙」であることを同定することができ
る。

【００２３】従って、音響スコアの計算の一部を共通化
してしまうと、単語の音響スコアの計算の開始時に、そ
の単語を同定することができないため、その単語につい
て、言語スコアを考慮することができない。その結果、
単語の音響スコアの開始前に、上述したような言語的な
枝刈り手法を用いることが困難となり、無駄な計算が行
われることがある。

【００２４】さらに、音響スコアの計算の一部を共通化
する場合、単語辞書のすべての単語を対象として、上述
したようなツリー構造のネットワークが構成されるか
ら、これを保持するための大きなメモリ容量が必要とな
る。

【００２５】そこで、計算量およびメモリ容量の効率化
を図る方法として、音響スコアを計算する場合に、単語
辞書のすべての単語を対象とするのではなく、その音響
スコアの計算の対象とする単語を予備的に選択（予備選
択）し、その予備選択された単語についてだけ、音響ス
コア等を計算する方法がある。ここで、予備選択は、例
えば、それほど精度の高くない、簡易的な音響モデルや
文法規則を用いて行われる。

【００２６】なお、予備選択の方法は、例えば、L. R.
Bahl, S. V. De Gennaro, P. S. Gopalakrishnan and
R. L. Mercer, "A Fast Approximate Acoustic Match f
or Large Vocabulary Speech Recognition", IEEE Tran
s. Speech and Audio Proc.,vol. 1, pp.59-67, 1993等
に記載されている。

【００２７】ところで、単語の音響スコアは、音声の特
徴量の系列を用いて計算されるが、その計算に使用する
特徴量の系列の始点や終点が異なれば、求められる音響
スコアも変化する。そして、この変化は、音響スコアと
言語スコアとを総合評価して求められる式（１）の最終
スコアに影響する。

【００２８】ある単語に対応する特徴量の系列の始点お
よび終点、即ち、単語どうしの境界（単語境界）は、例
えば、動的計画法(Dynamic Programming)を用いて求め
ることができる。即ち、特徴量の系列の任意の点を、単
語境界の候補とし、音声認識結果の候補となる単語列の
単語について、その音響スコアと言語スコアとを総合評
価したスコア（以下、適宜、単語スコアという）を、逐
次累積していく。そして、その単語スコアの累積の際
に、最も大きい累積値を与える単語境界の候補を、その
累積値とともに記憶していく。

【００２９】これにより、最終的な単語スコアの累積値
が求めらると、最も良い累積値、即ち、最も大きい最終
スコアを与える単語境界も求められる。

【００３０】上述のようにして単語境界を求める方法
は、ビタビデコーディング(Viterbi decoding)、あるい
はワンパスデコーディング(One pass decoding)等と呼
ばれ、例えば、中川聖一、「確率モデルによる音声認
識」、電子情報通信学会、pp.20-26、１９８８年７月１
日等に記載されている。

【００３１】上述の予備選択を効果的に行うには、単語
境界をどこにするか、即ち、特徴量の系列（特徴量系
列）のどの点を始点とするかが重要である。

【００３２】具体的には、例えば、図２（Ａ）に示すよ
うな、音声「今日はいい天気ですね」について得られた
特徴量系列において、「今日」と「は」との正しい単語
境界が、時刻ｔ₁である場合において、単語「今日」に
続く単語「は」に関して予備選択を行うときに、正しい
時刻ｔ₁より先行する時刻ｔ_1-1を始点として予備選択を
行うと、その予備選択には、単語「は」の特徴量だけで
なく、その直前の単語「今日」の最後の部分の特徴量が
影響する。一方、正しい時刻ｔ₁より後行する時刻ｔ₁₊₁
を始点として予備選択を行うと、その予備選択において
は、単語「は」の最初の部分の特徴量が用いられないこ
とになる。

【００３３】従って、いずれにしても、始点を誤ると、
予備選択、ひいては、その後に行われるマッチング処理
に悪影響を与えることとなる。

【００３４】なお、図２においては（後述する図５にお
いても同様）、左から右方向が、時間の経過を表してお
り、また、音声区間の開始時刻を０として、音声区間は
時刻Ｔで終了するものとしてある。

【００３５】上述した動的計画法を用いる方法では、特
徴量系列の最後、即ち、図２においては、音声区間の終
了時刻Ｔまでの単語スコア（音響スコアおよび言語スコ
ア）の計算が終了しないと、最終的な単語境界を決定す
ることができないため、予備選択を行う段階では、その
予備選択の始点となる単語境界を一意に決定することは
困難である。

【００３６】そこで、単語境界の候補を、音声区間の特
徴量系列を用いた単語スコアの計算が終了するまで保持
しておく方法がある。

【００３７】この方法では、例えば、音声区間の開始時
刻０を始点として、単語「今日」の単語スコアを計算し
た場合に、時刻ｔ_1-1，ｔ₁，ｔ₁₊₁が、単語「今日」の
発話の終点の候補として求まったとすると、この３通り
の時刻ｔ_1-1，ｔ₁，ｔ₁₊₁が保持され、それぞれを始点
として、次の単語の予備選択が行われる。

【００３８】いま、この予備選択によって、時刻ｔ_1-1
を始点とした場合には、「は」と「いい」の２単語が、
時刻ｔ₁を始点とした場合には、「は」の１単語が、時
刻ｔ₁ ₊₁を始点とした場合には、「は」と「いい」の２
単語が、それぞれ得られたとし、さらに、これらの各単
語を対象として単語スコアの計算を行うことにより、図
２（Ｂ）乃至図２（Ｇ）に示すような結果が得られたと
する。

【００３９】即ち、図２（Ｂ）は、時刻ｔ_1-1を始点と
して、単語「は」の単語スコアの計算を行い、その終点
の候補として、時刻ｔ₂が得られた状態を示しており、
図２（Ｃ）は、時刻ｔ_1-1を始点として、単語「いい」
の単語スコアの計算を行い、その終点の候補として、時
刻ｔ₂₊₁が得られた状態を示している。また、図２
（Ｄ）は、時刻ｔ₁を始点として、単語「は」の単語ス
コアの計算を行い、その終点の候補として、時刻ｔ₂₊₁
が得られた状態を示しており、図２（Ｅ）は、時刻ｔ₁
を始点として、単語「は」の単語スコアの計算を行い、
その終点の候補として、時刻ｔ₂が得られた状態を示し
ている。さらに、図２（Ｆ）は、時刻ｔ₁₊₁を始点とし
て、単語「は」の単語スコアの計算を行い、その終点の
候補として、時刻ｔ₂が得られた状態を示しており、図
２（Ｇ）は、時刻ｔ₁₊₁を始点として、単語「いい」の
単語スコアの計算を行い、その終点の候補として、時刻
ｔ₂₊₂が得られた状態を示している。なお、図２におい
ては、ｔ_1-1＜ｔ₁＜ｔ₁₊₁＜ｔ₂＜ｔ ₂₊₁＜ｔ₂₊₂となって
いる。

【００４０】図２（Ｂ）乃至図２（Ｇ）のうち、図２
（Ｂ）、図２（Ｅ）、および図２（Ｆ）に示したものに
ついては、いずれも、音声認識結果の候補としての単語
列が、「今日」、「は」で同一あり、さらに、その単語
列の最後「は」の終点も、時刻ｔ₂で同一であるから、
その中から最も適切なものを、例えば、時刻ｔ₂までの
単語スコアの累積値等に基づいて選び、残りを破棄する
ことが可能である。

【００４１】しかしながら、いまの時点では、図２
（Ｂ）、図２（Ｅ）、または図２（Ｆ）のうちから選ん
だものに、図２（Ｃ）、図２（Ｄ）、図２（Ｇ）に示し
たものを加えた中から、正しいものを確定することはで
きないから、これらの４通りの場合を保持しておく必要
がある。そして、この４通りの場合それぞれについて、
再び、予備選択を行っていくことになる。

【００４２】従って、この方法では、音声区間の特徴量
系列を用いた単語スコアの計算が終了するまで、多くの
単語境界の候補を保持しながら、単語スコアの計算を行
っていく必要があり、計算量およびメモリ容量の効率化
の観点からは好ましくない。

【００４３】また、この場合、単語境界の候補として、
真に正しい単語境界を保持していれば、原理的には、上
述の動的計画法を用いた場合と同様の正しい単語境界
を、最終的に得ることができるが、その反面、単語境界
の候補として、真に正しい単語境界を保持し損ねると、
その単語境界を始点または終点とする単語を誤認識し、
さらには、それに起因して、その後に続く単語も誤認識
することがある。

【００４４】一方、近年においては、音響モデルとし
て、前後のコンテキストに依存するもの（考慮したも
の）が用いられるようになってきている。前後のコンテ
キストに依存する音響モデルとは、同一の音節（または
音素）の音響モデルであっても、その直前や直後の音節
によって異なるものとしてモデル化したもので、従っ
て、例えば、音節「あ」は、その直前や直後の音節が、
例えば、「か」の場合と「さ」の場合とで、異なる音響
モデルにモデル化される。

【００４５】前後のコンテキストに依存する音響モデル
としては、大きく分けて、単語内のコンテキストに依存
する音響モデルと、単語間にまたがるコンテキストに依
存する音響モデルとがある。

【００４６】単語内のコンテキストに依存する音響モデ
ルを用いる場合には、「今日」（きょう）という単語モ
デルを、音響モデル「きょ」と「う」とを連結して作成
するときに、音響モデル「きょ」として、その直後の音
節「う」に依存したもの（直後の音節「う」の影響を考
慮した音響モデル「きょ」）が用いられ、あるいは、音
響モデル「う」として、その直前の音節「きょ」に依存
したものが用いられる。

【００４７】一方、単語間にまたがるコンテキストに依
存する音響モデルを用いる場合には、上述のように、
「今日」という単語モデルを、音響モデル「きょ」と
「う」とを連結して作成するときに、その後につづく単
語が「は」であれば、音響モデル「う」として、その直
後の単語の最初の音節「は」に依存したものが用いられ
る。この単語間にまたがるコンテキストに依存する音響
モデルは、クロスワードモデルと呼ばれる。

【００４８】このクロスワードモデルを、予備選択を行
う音声認識に適用した場合には、予備選択された単語に
ついて、その直前の単語との間のコンテキストは考慮す
ることができるが、その直後の単語は、まだ決まってい
ないから、その直後の単語との間のコンテキストは考慮
することができない。

【００４９】そこで、予備選択される単語について、そ
の単語の直後に位置する可能性の高い単語を、あらかじ
め求めておき、その単語との間のコンテキストを考慮し
て、単語モデルを作成する方法がある。即ち、例えば、
単語「今日」について、その直後に、「は」や、
「が」、「の」などが位置する可能性が高い場合には、
単語「今日」の単語モデルの最後の音節に対応する音響
モデル「う」として、「は」、「が」、「の」をそれぞ
れ考慮したものを用いて、単語モデルを作成する方法が
ある。

【００５０】しかしながら、この方法では、余分なコン
テキストまでも必ず考慮してしまうため、演算量および
メモリ容量の効率化の観点からは好ましくない。

【００５１】また、同様の理由から、予備選択された単
語について、その言語スコアを、その直後の単語を考慮
して計算することも困難である。

【００５２】一方、注目している単語（注目単語）に対
して先行する単語だけでなく、後行する単語も考慮した
音声認識方法としては、例えば、R. Schwartz and Y.
L. Chow, "The N-Best Algorithm: An Efficient and E
xact Procedure for FindingThe Most Likely Sentence
Hypotheses", Proc. ICASSP, pp.81-84, 1990に記載さ
れているような、２パスデコーディング(2 pass decodi
ng)と呼ばれる方法がある。

【００５３】即ち、図３は、２パスデコーディングによ
る音声認識を行う、従来の音声認識装置の一例の概略構
成を示している。

【００５４】図３において、マッチング部４₁は、例え
ば、図１のマッチング部４と同様のマッチング処理を行
い、その結果得られる単語列を出力する。但し、マッチ
ング部４₁は、マッチング処理の結果得られる複数の単
語列から、最終的な音声認識結果となるものを１つだけ
出力するのではなく、音声認識結果の候補として確から
しいものを複数出力する。

【００５５】マッチング部４₁の出力は、マッチング部
４₂に供給され、マッチング部４₂は、マッチング部４₁
が出力する複数の単語列それぞれについて、その単語列
を音声認識結果とすることの確からしさを再評価するマ
ッチング処理を行う。即ち、マッチング部４₁が出力す
る音声認識結果としての単語列においては、ある単語の
直前の単語だけでなく、直後の単語も存在するから、マ
ッチング部４₂では、直前の単語だけでなく、直後の単
語も考慮して、クロスワードモデルによって、音響スコ
アや言語スコアが新たに求められる。そして、マッチン
グ部４₂は、マッチング部４₁からの複数の単語列から、
各単語列の新たな音響スコアおよび言語スコアに基づい
て、音声認識結果として確からしいものを決定して出力
する。

【００５６】なお、以上のような２パスデコーディング
では、一般に、最初のマッチング処理を行うマッチング
部４₁では、精度のそれほど高くない、簡易な音響モデ
ル、単語辞書、および文法規則が用いられ、後段のマッ
チング処理を行うマッチング部４₂では、高精度の音響
モデル、単語辞書、文法規則が用いられる。これによ
り、図３の音声認識装置では、マッチング部４₁と４₂そ
れぞれにおける処理量が、相互に緩和される一方、精度
の高い音声認識結果を得ることができるようになってい
る。

【００５７】図３は、上述のように、２パスデコーディ
ングの音声認識装置であるが、図３の後段のマッチング
部４₂の後段に、同様のマッチング部を追加したマルチ
パスデコーディング(multi pass decoding)の音声認識
装置も提案されている。

【００５８】しかしながら、２パスデコーディングやマ
ルチパスデコーディングでは、最初のマッチング処理が
終了するまで、次のマッチング処理を行うことができな
い。従って、音声の入力があってから、最終的な音声認
識結果が出力されるまでの遅延時間が大になる。

【００５９】そこで、例えば、幾つかの単語についての
最初のマッチング処理が終了した時点で、その幾つかの
単語については、クロスワードモデルを適用して後段の
マッチング処理を行うことを逐次的に繰り返す方法が、
例えば、M. Schuster, "Evaluation of a Stack Decode
r on a Japanese Newspaper Dictation Task", 音講論,
1-R-12, pp.141-142, 1997等で提案されている。

【００６０】

【発明が解決しようとする課題】以上のように、音声認
識処理の高速化および高精度化のために各種の手法が提
案されているが、さらなる高速化を図るためには、単語
の予備選択に要する時間を短縮する必要がある。

【００６１】一方、単語の予備選択において、音声認識
結果として正しい単語が選択されない場合には、音声認
識精度が劣化することになる。

【００６２】本発明は、このような状況に鑑みてなされ
たものであり、音声認識精度を劣化させずに、予備選択
に要する計算量を低減し、音声認識処理の高速化を図る
ことができるようにするものである。

【００６３】

【課題を解決するための手段】本発明の第１の音声認識
装置は、音声認識の対象とする単語群を探索し、音声認
識結果の候補となる単語を選択する単語選択手段が、単
語の探索の中断が可能かどうかを判定し、単語の探索の
中断が可能な場合には、単語の探索を中断し、それまで
に選択した単語と、探索途中の単語とを、音声認識結果
の候補となる単語として出力することを特徴とする。

【００６４】本発明の第１の音声認識方法は、音声認識
の対象とする単語群を探索し、音声認識結果の候補とな
る単語を選択する単語選択ステップにおいて、単語の探
索の中断が可能かどうかを判定し、単語の探索の中断が
可能な場合には、単語の探索を中断し、それまでに選択
した単語と、探索途中の単語とを、音声認識結果の候補
となる単語として出力することを特徴とする。

【００６５】本発明の第１のプログラムは、音声認識の
対象とする単語群を探索し、音声認識結果の候補となる
単語を選択する単語選択ステップにおいて、単語の探索
の中断が可能かどうかを判定し、単語の探索の中断が可
能な場合には、単語の探索を中断し、それまでに選択し
た単語と、探索途中の単語とを、音声認識結果の候補と
なる単語として出力することを特徴とする。

【００６６】本発明の第１の記録媒体は、音声認識の対
象とする単語群を探索し、音声認識結果の候補となる単
語を選択する単語選択ステップにおいて、単語の探索の
中断が可能かどうかを判定し、単語の探索の中断が可能
な場合には、単語の探索を中断し、それまでに選択した
単語と、探索途中の単語とを、音声認識結果の候補とな
る単語として出力するプログラムが記録されていること
を特徴とする。

【００６７】本発明の第２の音声認識装置は、音声認識
の対象とする単語群の単語の構成要素をノードとして構
成されたツリー構造であって、ノードが単語の途中で打
ち切られたものにしたがって、ツリー構造のノードにつ
いてスコアを計算しながら、単語を探索し、探索された
単語のスコアに基づいて、音声認識結果の候補となる単
語を選択する単語選択手段を備えることを特徴とする。

【００６８】本発明の第２の音声認識方法は、音声認識
の対象とする単語群の単語の構成要素をノードとして構
成されたツリー構造であって、ノードが単語の途中で打
ち切られたものにしたがって、ツリー構造のノードにつ
いてスコアを計算しながら、単語を探索し、探索された
単語のスコアに基づいて、音声認識結果の候補となる単
語を選択する単語選択ステップを備えることを特徴とす
る。

【００６９】本発明の第２のプログラムは、音声認識の
対象とする単語群の単語の構成要素をノードとして構成
されたツリー構造であって、ノードが単語の途中で打ち
切られたものにしたがって、ツリー構造のノードについ
てスコアを計算しながら、単語を探索し、探索された単
語のスコアに基づいて、音声認識結果の候補となる単語
を選択する単語選択ステップを備えることを特徴とす
る。

【００７０】本発明の第２の記録媒体は、音声認識の対
象とする単語群の単語の構成要素をノードとして構成さ
れたツリー構造であって、ノードが単語の途中で打ち切
られたものにしたがって、ツリー構造のノードについて
スコアを計算しながら、単語を探索し、探索された単語
のスコアに基づいて、音声認識結果の候補となる単語を
選択する単語選択ステップを備えるプログラムが記録さ
れていることを特徴とする。

【００７１】本発明の第１の音声認識装置および音声認
識方法、並びにプログラムにおいては、単語の探索の中
断が可能かどうかが判定され、単語の探索の中断が可能
な場合には、単語の探索が中断される。そして、それま
でに選択された単語と、探索途中の単語とが、音声認識
結果の候補となる単語として出力される。

【００７２】本発明の第２の音声認識装置および音声認
識方法、並びにプログラムにおいては、音声認識の対象
とする単語群の単語の構成要素をノードとして構成され
たツリー構造であって、ノードが単語の途中で打ち切ら
れたものにしたがって、ツリー構造のノードについてス
コアを計算しながら、単語が探索され、探索された単語
のスコアに基づいて、音声認識結果の候補となる単語が
選択される。

【００７３】

【発明の実施の形態】図４は、本発明を適用した音声認
識装置の一実施の形態の構成例を示している。なお、図
中、図１における場合と対応する部分については、同一
の符号を付してあり、以下では、その説明は、適宜省略
する。

【００７４】特徴量抽出部３が出力する、ユーザが発し
た音声の特徴量の系列は、フレーム単位で、制御部１１
に供給されるようになっており、制御部１１は、特徴量
抽出部３からの特徴量を、特徴量記憶部１２に供給す
る。

【００７５】また、制御部１１は、単語接続情報記憶部
１６に記憶された単語接続情報を参照し、認識部１４を
制御する。さらに、制御部１１は、認識部１４が、前述
した図１のマッチング部４と同様のマッチング処理を行
うことにより得られるマッチング処理結果としての音響
スコアや言語スコア等に基づいて、単語接続情報を生成
し、その単語接続情報によって、単語接続情報記憶部１
６の記憶内容を更新する。また、制御部１１は、単語接
続情報記憶部１６に記憶された単語接続情報に基づい
て、最終的な音声認識結果を確定して出力する。

【００７６】特徴量記憶部１２は、制御部１１から供給
される特徴量の系列を、例えば、ユーザの音声の認識結
果が得られるまで記憶する。なお、制御部１１は、音声
区間の開始時刻を基準（例えば０）とする、特徴抽出部
３が出力する特徴量が得られた時刻（以下、適宜、抽出
時刻という）を、その特徴量とともに、特徴量記憶部１
２に供給するようになっており、特徴量記憶部１２は、
特徴量を、その抽出時刻とともに記憶する。

【００７７】単語予備選択部１３は、認識部１４からの
要求に応じ、単語接続情報記憶部１６、音響モデルデー
タベース１７Ａ、辞書データベース１８Ａ、および文法
データベース１９Ａを必要に応じて参照しながら、認識
部１４でのマッチング処理の対象とする単語、つまり、
音声認識結果の候補となる単語を選択する単語予備選択
処理を、特徴量記憶部１２に記憶された特徴量を用いて
行う。なお、単語予備選択部１３は、基本的には、前述
した図１のマッチング部４と同様のマッチング処理を行
うことで、音響スコアや言語スコアを求め、それらのス
コアに基づいて、認識部１４でのマッチング処理の対象
とする単語を選択（予備選択）する。

【００７８】認識部１４は、制御部１１からの制御に基
づき、単語接続情報記憶部１６、音響モデルデータベー
ス１７Ｂ、辞書データベース１８Ｂ、および文法データ
ベース１９Ｂを必要に応じて参照しながら、単語予備選
択部１３からの単語予備選択処理の結果得られる単語を
対象としたマッチング処理を、特徴量記憶部１２に記憶
された特徴量を用いて行い、そのマッチング処理の結果
を、制御部１１に供給する。

【００７９】単語接続情報記憶部１６は、制御部１１か
ら供給される単語接続情報を、ユーザの音声の認識結果
が得られるまで記憶する。

【００８０】ここで、単語接続情報は、最終的な音声認
識結果の候補となる単語列を構成する単語どうしの接続
（連鎖または連接）関係を表すもので、各単語の音響ス
コアおよび言語スコア、並びに各単語に対応する発話の
開始時刻および終了時刻を含んでいる。

【００８１】即ち、図５は、単語接続情報記憶部１６に
記憶される単語接続情報を、グラフ構造を用いて示して
いる。

【００８２】図５の実施の形態において、単語接続情報
としてのグラフ構造は、単語を表すアーク（図５におい
て、○印どうしを結ぶ線分で示す部分）と、単語どうし
の境界を表すノード（図５において○印で示す部分）と
から構成されている。

【００８３】ノードは、時刻情報を有しており、この時
刻情報は、そのノードに対応する特徴量の抽出時刻を表
す。上述したように、抽出時刻は、音声区間の開始時刻
を０とする、特徴抽出部３が出力する特徴量が得られた
時刻であるから、図５において、音声区間の開始、即
ち、最初の単語の先頭に対応するノードNode₁が有する
時刻情報は０となる。ノードは、アークの始端および終
端となるが、始端のノード（始端ノード）、または終端
のノード（終端ノード）が有する時刻情報は、それぞ
れ、そのノードに対応する単語の発話の開始時刻、また
は終了時刻となる。

【００８４】なお、図５では、左から右方向が、時間の
経過を表しており、従って、あるアークの左右にあるノ
ードのうち、左側のノードが始端ノードとなり、右側の
ノードが終端ノードとなる。

【００８５】アークは、そのアークに対応する単語の音
響スコアおよび言語スコアを有しており、このアーク
が、終端ノードとなっているノードを始端ノードとし
て、順次接続されていくことにより、音声認識結果の候
補となる単語の系列が構成されていく。

【００８６】即ち、制御部１１においては、まず最初
に、音声区間の開始を表すノードNode ₁に対して、音声
認識結果として確からしい単語に対応するアークが接続
される。図５の実施の形態では、「今日」に対応するア
ークArc₁、「いい」に対応するアークArc₆、および「天
気」に対応するArc₁₁が接続されている。なお、音声認
識結果として確からしい単語かどうかは、認識部１４に
おいて求められる音響スコアおよび言語スコアに基づい
て決定される。

【００８７】そして、以下、同様にして、「今日」に対
応するアークArc₁の終端である終端ノードNode₂、「い
い」に対応するアークArc₆の終端である終端ノードNode
₇、「天気」に対応するArc₁₁の終端である終端ノードNo
de₁₂それぞれに対して、同様に、確からしい単語に対応
するアークが接続されていく。

【００８８】以上のようにしてアークが接続されていく
ことで、音声区間の開始を始点として、左から右方向
に、アークとノードで構成される１以上のパスが構成さ
れて行くが、例えば、そのパスのすべてが、音声区間の
最後（図５の実施の形態では、時刻Ｔ）に到達すると、
制御部１１において、音声区間の開始から最後までに形
成された各パスについて、そのパスを構成するアークが
有している音響スコアおよび言語スコアが累積され、最
終スコアが求められる。そして、例えば、その最終スコ
アが最も高いパスを構成するアークに対応する単語列
が、音声認識結果として確定されて出力される。

【００８９】具体的には、例えば、図５において、ノー
ドNode₁から、「今日」に対応するアークArc₁、ノードN
ode₂、「は」に対応するアークArc₂、ノードNode₃、
「いい」に対応するアークArc₃、ノードNode₄、「天
気」に対応するアークArc₄、ノードNode₅、「ですね」
に対応するアークArc₅、およびノードNode₆で構成され
るパスについて、最も高い最終スコアが得られた場合に
は、単語列「今日」、「は」、「いい」、「天気」、
「ですね」が、音声認識結果として出力されることにな
る。

【００９０】なお、上述の場合には、音声区間内にある
ノードについて、必ずアークを接続して、音声区間の開
始から最後にまで延びるパスを構成するようにしたが、
このようなパスを構成する過程において、それまでに構
成されたパスについてのスコアから、音声認識結果とし
て不適当であることが明らかであるパスに関しては、そ
の時点で、パスの構成を打ち切る（その後に、アークを
接続しない）ようにすることが可能である。

【００９１】また、上述のようなパスの構成ルールに従
えば、１つのアークの終端が、次に接続される１以上の
アークの始端ノードなり、基本的には、枝葉が拡がるよ
うに、パスが構成されて行くが、例外的に、１つのアー
クの終端が、他のアークの終端に一致する場合、つま
り、あるアークの終端ノードと、他のアークの終端ノー
ドとが同一のノードに共通化される場合がある。

【００９２】即ち、文法規則としてバイグラムを用いた
場合には、別のノードから延びる２つのアークが、同一
の単語に対応するものであり、さらに、その単語の発話
の終了時刻も同一であるときには、その２つのアークの
終端は一致する。

【００９３】図５において、ノードNode₇を始端として
延びるアークArc７、およびノードNode₁₃を始端として
延びるアークArc₁₃は、いずれも「天気」に対応するも
のであり、その発話の終了時刻も同一であるため、その
終端ノードは、同一のノードNode₈に共通化されてい
る。

【００９４】なお、ノードの共通化は行わないようにす
ることも可能であるが、メモリ容量の効率化の観点から
は、行うのが好ましい。

【００９５】図４に戻り、音響モデルデータベース１７
Ａおよび１７Ｂは、基本的には、図１の音響モデルデー
タベース５において説明したような音響モデルを記憶し
ている。

【００９６】但し、音響モデルデータベース１７Ｂは、
音響モデルデータベース１７Ａよりも精度の高い処理が
可能な高精度の音響モデルを記憶している。即ち、音響
モデルデータベース１７Ａにおいて、各音素や音節につ
いて、例えば、前後のコンテキストに依存しない１パタ
ーンの音響モデルだけが記憶されているとすると、音響
モデルデータベース１７Ｂには、各音素や音節につい
て、例えば、前後のコンテキストに依存しない音響モデ
ルの他、単語間にまたがるコンテキストに依存する音響
モデル、つまり、クロスワードモデルも記憶されてい
る。なお、音響モデルデータベース１７Ｂには、各音素
や音節について、例えば、前後のコンテキストに依存し
ない音響モデルおよびクロスワードモデルの他、さら
に、単語内のコンテキストに依存する音響モデル等も記
憶させることが可能である。

【００９７】辞書データベース１８Ａおよび１８Ｂは、
基本的には、図１の辞書データベース６において説明し
たような単語辞書を記憶している。

【００９８】即ち、辞書データベース１８Ａおよび１８
Ｂの単語辞書には、同一セットの単語が登録されてい
る。但し、辞書データベース１８Ｂの単語辞書は、辞書
データベース１８Ａの単語辞書よりも精度の高い処理が
可能な高精度の音韻情報を記憶している。即ち、辞書デ
ータベース１８Ａの単語辞書には、例えば、各単語に対
して、１通りの音韻情報（読み）だけ登録されていると
すると、辞書データベース１８Ｂの単語辞書には、例え
ば、各単語に対して、複数通りの音韻情報が登録されて
いる。なお、辞書データベース１８Ｂの単語辞書には、
その他、例えば、各単語に対して、さらに多くの通りの
音韻情報を登録することが可能である。

【００９９】具体的には、例えば、単語「お早う」に対
して、辞書データベース１８Ａの単語辞書には、１通り
の音韻情報「おはよう」だけを、辞書データベース１８
Ｂの単語辞書には、「おはよう」の他、「おはよー」や
「おはよ」を、それぞれ音韻情報として登録することが
可能である。

【０１００】文法データベース１９Ａおよび１９Ｂは、
基本的には、図１の文法データベース７において説明し
たような文法規則を記憶している。

【０１０１】但し、文法データベース１９Ｂは、文法デ
ータベース１９Ａよりも精度の高い処理が可能な高精度
の文法規則を記憶している。即ち、文法データベース１
９Ａが、例えば、ユニグラム（単語の生起確率）に基づ
く文法規則を記憶しているとすると、文法データベース
１９Ｂは、例えば、バイグラム（直前の単語との関係を
考慮した単語の生起確率）を記憶している。なお、文法
データベース１９Ｂには、その他、例えば、トライグラ
ム（直前の単語およびそのさらに１つ前の単語との関係
を考慮した単語の生起確率）や文脈自由文法等に基づく
文法規則等を記憶させることも可能である。

【０１０２】以上のように、音響モデルデータベース１
７Ａには、各音素や音節について、１パターンの音響モ
デルが、音響モデルデータベース１７Ｂには、各音素や
音節について、複数パターンの音響モデルが、それぞれ
記憶されている。また、辞書データベース１８Ａには、
各単語について、１通りの音韻情報が、辞書データベー
ス１８Ｂには、各単語について、複数通りの音韻情報
が、それぞれ記憶されている。そして、文法データベー
ス１９Ａには、簡易な文法規則が、文法データベース１
９Ｂには、精度の高い文法規則が、それぞれ記憶されて
いる。

【０１０３】これにより、音響モデルデータベース１７
Ａ、辞書データベース１８Ａ、および文法データベース
１９Ａを参照する単語予備選択部１３では、それほど精
度は高くないが、多くの単語を対象として、迅速に、音
響スコアおよび言語スコアを求めることができるように
なっている。また、音響モデルデータベース１７Ｂ、辞
書データベース１８Ｂ、および文法データベース１９Ｂ
を参照する認識部１４では、ある程度の数の単語を対象
として、迅速に、精度の高い音響スコアおよび言語スコ
アを求めることができるようになっている。

【０１０４】なお、ここでは、音響モデルデータベース
１７Ａと１７Ｂそれぞれに記憶させる音響モデルの精度
について優劣を設けるようにしたが、音響モデルデータ
ベース１７Ａと１７Ｂには、いずれにも、同一の音響モ
デルを記憶させることができ、この場合、音響モデルデ
ータベース１７Ａと１７Ｂは、１つの音響モデルデータ
ベースに共通化することができる。同様に、辞書データ
ベース１８Ａと１８Ｂの単語辞書それぞれの記憶内容
や、文法データベース１９Ａと１９Ｂそれぞれの文法規
則も、同一にすることができる。

【０１０５】次に、図６のフローチャートを参照して、
図４の音声認識装置による音声認識処理について説明す
る。

【０１０６】ユーザが発話を行うと、その発話としての
音声は、マイク１およびＡＤ変換部２を介することによ
り、ディジタルの音声データとされ、特徴抽出部３に供
給される。特徴抽出部３は、そこに供給される音声デー
タから、音声の特徴量を、フレームごとに順次抽出し、
制御部１１に供給する。

【０１０７】制御部１１は、何らかの手法で音声区間を
認識するようになっており、音声区間においては、特徴
抽出部３から供給される特徴量の系列を、各特徴量の抽
出時刻と対応付けて、特徴量記憶部１２に供給して記憶
させる。

【０１０８】さらに、制御部１１は、音声区間の開始
後、ステップＳ１において、音声区間の開始を表すノー
ド（以下、適宜、初期ノードという）を生成し、単語接
続情報記憶部１６に供給して記憶させる。即ち、制御部
１１は、ステップＳ１において、図５におけるノードNo
de₁を、単語接続情報記憶部１６に記憶させる。

【０１０９】そして、ステップＳ２に進み、制御部１１
は、単語接続情報記憶部１６の単語接続情報を参照する
ことで、途中ノードが存在するかどうかを判定する。

【０１１０】即ち、上述したように、図５に示した単語
接続情報においては、終端ノードに、アークが接続され
ていくことにより、音声区間の開始から最後にまで延び
るパスが形成されて行くが、ステップＳ２では、終端ノ
ードのうち、まだアークが接続されておらず、かつ、音
声区間の最後にまで到達していないものが、途中ノード
（例えば、図５におけるノードNode₈や、Node₁₀，Node
₁₁）として検索され、そのような途中ノードが存在する
かどうかが判定される。

【０１１１】なお、上述したように、音声区間は何らか
の手法で認識され、さらに、終端ノードに対応する時刻
は、その終端ノードが有する時刻情報を参照することで
認識することができるから、アークが接続されていない
終端ノードが、音声区間の最後に到達していない途中ノ
ードであるかどうかは、音声区間の最後の時刻と、終端
ノードが有する時刻情報とを比較することで判定するこ
とができる。

【０１１２】ステップＳ２において、途中ノードが存在
すると判定された場合、ステップＳ３に進み、制御部１
１は、情報接続情報の中に存在する途中ノードのうちの
１つを、それに接続するアークとしての単語を決定する
ノード（以下、適宜、注目ノードという）として選択す
る。

【０１１３】即ち、制御部１１は、情報接続情報の中に
１つの途中ノードしか存在しない場合には、その途中ノ
ードを、注目ノードとして選択する。また、制御部１１
は、情報接続情報の中に複数の途中ノードが存在する場
合には、その複数の途中ノードのうちの１つを注目ノー
ドとして選択する。具体的には、制御部１１は、例え
ば、複数の途中ノードそれぞれが有する時刻情報を参照
し、その時刻情報が表す時刻が最も古いもの（音声区間
の開始側のもの）、または最も新しいもの（音声区間の
終わり側のもの）を、注目ノードとして選択する。ある
いは、また、制御部１１は、例えば、初期ノードから、
複数の途中ノードそれぞれに至るまでのパスを構成する
アークが有する音響スコアおよび言語スコアを累積し、
その累積値（以下、適宜、部分累積スコアという）が最
も大きくなるパス、または小さくなるパスの終端になっ
ている途中ノードを、注目ノードとして選択する。

【０１１４】その後、制御部１１は、注目ノードが有す
る時刻情報を開始時刻としてマッチング処理を行う旨の
指令（以下、適宜、マッチング処理指令という）を、認
識部１４に出力する。

【０１１５】認識部１４は、制御部１１からマッチング
処理指令を受信すると、注目ノードと、それが有する時
刻情報とを、単語予備選択部１３に供給し、単語予備選
択処理を要求する。

【０１１６】単語予備選択部１３は、認識部１４から、
単語予備選択処理の要求を受信すると、ステップＳ４に
おいて、注目ノードに接続されるアークとなる単語の候
補を選択する単語予備選択処理を、辞書データベース１
８Ａの単語辞書に登録された単語を対象として行う。

【０１１７】即ち、単語予備選択部１３は、言語スコア
および音響スコアを計算するのに用いる特徴量の系列の
開始時刻を、注目ノードが有する時刻情報から認識し、
その開始時刻以降の、必要な特徴量の系列を特徴量記憶
部１２から読み出す。さらに、単語予備選択部１３は、
辞書データベース１８Ａの単語辞書に登録された各単語
の単語モデルを、音響モデルデータベース１７Ａに記憶
された音響モデルを接続することで構成する。そして、
単語予備選択部１３は、各単語モデルに対応する単語に
ついて、特徴量記憶部１２から読み出した特徴量の系列
を用いて、音響スコアを計算する。

【０１１８】ここで、辞書データベース１８Ａの単語辞
書には、例えば、図７（Ａ）に示すように、各単語につ
いて、ユニークなＩＤとしての単語ＩＤ、単語の表記、
および単語の発音（音韻情報）をセットにしたものが登
録されている。

【０１１９】単語予備選択部１３は、単語辞書を参照す
ることにより、例えば、図７（Ｂ）に示すような、各単
語の構成要素としての音素等をノードとして、各単語に
おける同一の音素を共通のノードとしたツリー構造のネ
ットワーク（以下、適宜、単語ネットワークという）を
構成し、その単語ネットワークにしたがって、そのノー
ドを探索することにより、各単語について、音響スコア
を計算する。なお、単語ネットワークは、予め構成して
おくことが可能である。

【０１２０】ここで、単語ネットワークにおけるノード
を、単語接続情報におけるノードと区別するために、以
下、適宜、音素ノードという。

【０１２１】なお、図７（Ｂ）の実施の形態における単
語ネットワークは、左側が上位階層で、右側にいくほど
下位階層になるようになっており、最上位階層の音素ノ
ードＮ₀は、音素が割り当てられないルートノード(ROO
T)となっている。

【０１２２】また、図７（Ｂ）の単語ネットワークは、
図７（Ａ）に示した単語辞書に登録された６単語
「秋」、「秋田」、「空き地」、「明かり」、「明る
い」、および「言う」について構成されたものであり、
ルートノードＮ₀の２つの子音素ノード（ある音素ノー
ドに直接接続されている下位階層の音素ノード）のうち
の１つである音素ノードＮ₁には、単語「秋」、「秋
田」、「空き地」、「明かり」、「明るい」に共通する
先頭の音素"a"が割り当てられている。

【０１２３】さらに、音素ノードＮ₁の子音素ノードＮ₂
には、単語「秋」、「秋田」、「空き地」、「明か
り」、「明るい」に共通する先頭から２番目の音素"k"
が割り当てられてられており、音素ノードＮ₂の２つの
子音素ノードのうちの１つである音素ノードＮ₃には、
単語「秋」、「秋田」、「空き地」に共通する先頭から
３番目の音素"i"が割り当てられている。

【０１２４】また、音素ノードＮ₃の子音素ノードであ
る音素ノードＮ₄には、単語「秋田」、「空き地」に共
通する先頭から４番目の音素"t"が割り当てられてお
り、音素ノードＮ₄の２つの子音素ノードのうちの１つ
である音素ノードＮ₅には、単語「秋田」の最後の音素"
a"が割り当てられている。

【０１２５】さらに、音素ノードＮ₄の２つの子音素ノ
ードのうちの他の１つである音素ノードＮ₆には、単語
「空き地」の最後の音素"i"が割り当てられており、音
素ノードＮ₂の２つの子音素ノードの他の１つである音
素ノードＮ₇には、単語「明かり」、「明るい」に共通
する先頭から３番目の音素"a"が割り当てられている。

【０１２６】また、音素ノードＮ₇の子音素ノードであ
る音素ノードＮ₈には、単語「明かり」、「明るい」に
共通する先頭から４番目の音素"r"が割り当てられてお
り、音素ノードＮ₈の２つの子音素ノードのうちの１つ
である音素ノードＮ₉には、単語「明かり」の最後の音
素"i"が割り当てられている。

【０１２７】さらに、音素ノードＮ₈の２つの子音素ノ
ードのうちの他の１つである音素ノードＮ₁₀には、単語
「明るい」の先頭から５番目の音素"u"が割り当てられ
ており、音素ノードＮ₁₀の子音素ノードである音素ノー
ドＮ₁₁には、単語「明るい」の最後の音素"i"が割り当
てられている。

【０１２８】また、ルートノードＮ₀の２つの子音素ノ
ードのうちの他の１つである音素ノードＮ₁₂には、単語
「言う」の先頭の音素"i"が割り当てられており、音素
ノードＮ₁₂の子音素ノードである音素ノードＮ₁₃には、
単語「言う」の先頭から２番目の音素"u"が割り当てら
れている。

【０１２９】さらに、図７（Ｂ）の単語ネットワークに
おいては、単語の最後の音素が割り当てられている音素
ノードに、その単語の単語ＩＤが登録されている。即
ち、図７（Ｂ）の実施の形態においては、単語「秋」の
最後の音素"i"が割り当てられている音素ノードＮ₃に
は、その単語「秋」の単語ＩＤである＃１が、単語「秋
田」の最後の音素"a"が割り当てられている音素ノード
Ｎ₅には、その単語「秋田」の単語ＩＤである＃２が、
単語「空き地」の最後の音素"i"が割り当てられている
音素ノードＮ₆には、その単語「空き地」の単語ＩＤで
ある＃３が、単語「明かり」の最後の音素"i"が割り当
てられている音素ノードＮ₉には、その単語「明かり」
の単語ＩＤである＃４が、単語「明るい」の最後の音
素"i"が割り当てられている音素ノードＮ₁₁には、その
単語「明るい」の単語ＩＤである＃５が、単語「言う」
の最後の音素"u"が割り当てられている音素ノードＮ₁₃
には、その単語「言う」の単語ＩＤである＃６が、それ
ぞれ登録されている。

【０１３０】また、図７（Ｂ）の単語ネットワークにお
いては、各音素ノードに、その音素ノード以下の音素ノ
ード（その音素ノードの階層以下の階層の音素ノード）
を終端とする単語の数（以下、適宜、残り単語数とい
う）も登録されている。図７（Ｂ）では、音素ノードを
表す四角形を区切る点線の下側に記述してある数字が、
残り単語数を表している。

【０１３１】例えば、音素ノードＮ₂に注目した場合、
その音素ノード以下の音素ノードを終端とする単語は、
単語ＩＤが＃１乃至＃５の５つの単語があるから、残り
単語数は５になっている。また、例えば、音素ノードＮ
₃に注目した場合、その音素ノード以下の音素ノードを
終端とする単語は、単語ＩＤが＃１乃至＃３の３つの単
語があるから、残り単語数は３になっている。他の音素
ノードについても、同様にして、残り単語数が登録され
ている。

【０１３２】単語予備選択部１３は、以上のような単語
ネットワークにしたがって、音響モデルデータベース１
７Ａに記憶された音響モデルを接続し、注目している音
素ノード（以下、適宜、注目音素ノードという）につい
て、例えば、いわゆるビタビサーチの手法にしたがっ
て、音響スコアを計算する。

【０１３３】即ち、単語予備選択部１３は、注目してい
る時刻（以下、適宜、注目時刻という）ｔの特徴量に対
して、注目音素ノードの親音素ノード（ある音素ノード
に直接接続している上位階層の音素ノード）となってい
る音素ノードから注目音素ノードへ遷移する尤度を表す
スコアを、音響モデルに基づいて求め、さらに、そのス
コアと、注目音素ノードの親音素ノードの、注目時刻ｔ
の直前の時刻ｔ−１の音響スコアとを加算したスコア
（以下、適宜、親遷移スコアという）を求める。

【０１３４】また、単語予備選択部１３は、注目音素ノ
ードから注目音素ノードへ遷移する尤度を表すスコア
を、音響モデルに基づいて求め、さらに、そのスコア
と、注目音素ノードの、注目時刻ｔの直前の時刻ｔ−１
の音響スコアとを加算したスコア（以下、適宜、自己遷
移スコアという）を求める。

【０１３５】その後、単語予備選択部１３は、親遷移ス
コアと自己遷移スコアとを比較し、大きい方のスコアを
求める。さらに、単語予備選択部１３は、注目音素ノー
ドから、注目時刻の特徴量が観測される尤度を表すスコ
アを、音響モデルに基づいて求め、そのスコアと、親遷
移スコアまたは自己遷移スコアのうちの大きい方のスコ
アとを加算する。そして、単語予備選択部１３は、その
加算の結果得られるスコアを、注目音素ノードの、注目
時刻ｔの音響スコアとする。

【０１３６】単語選択部１３は、上述のようにして、単
語ネットワークの各音素ノードを注目音素ノードとし
て、音響スコアを求めていく他、文法データベース１９
Ａを参照することにより、各単語について、言語スコア
を計算する。

【０１３７】そして、単語予備選択部１３は、各単語に
ついて音響スコアおよび言語スコア（以下、適宜、両方
含めて、単語スコアという）を求めると、その単語スコ
アに基づき、認識部１４でのマッチング処理の対象とす
る１以上の単語を選択して、認識部１４に供給する。

【０１３８】なお、単語予備選択部１３では、単語接続
情報記憶部１６を参照することにより、注目ノードを終
端とする単語を考慮して、即ち、クロスワードモデルに
基づいて、音響スコアを計算するようにすることが可能
である。

【０１３９】また、単語予備選択部１３では、注目ノー
ドを始点として固定し、終点フリーで、各単語について
の音響スコアが計算される。さらに、単語予備選択部１
３では、特徴量記憶部１２に記憶された特徴量の系列に
沿って、即ち、フレーム同期で、音響スコアが計算され
る。

【０１４０】さらに、図７に示した単語ネットワークの
各音素ノードには、ツリー構造を構成するための、例え
ば、親音素ノードへのポインタや、音響スコアおよび言
語スコアも登録可能になっている。

【０１４１】認識部１４は、単語予備選択部１３から、
マッチング処理に用いる１以上の単語（以下、適宜、候
補単語という）を受信すると、ステップＳ５において、
各候補単語を対象として、マッチング処理を行う。

【０１４２】即ち、認識部１４は、言語スコアおよび音
響スコアを計算するのに用いる特徴量の系列の開始時刻
を、注目ノードが有する時刻情報から認識し、その開始
時刻以降の、必要な特徴量の系列を特徴量記憶部１２か
ら読み出す。さらに、認識部１４は、辞書データベース
１８Ｂを参照することで、候補単語の音韻情報を認識
し、その音韻情報に対応する音響モデルを、音響モデル
データベース１７Ｂから読み出して接続することで、単
語モデルを構成する。

【０１４３】そして、認識部１４は、上述のようにして
構成した単語モデルに基づき、特徴量記憶部１２から読
み出した特徴量系列を用いて、各候補単語の音響スコア
を計算する。

【０１４４】また、認識部１４は、文法データベース１
９Ｂを参照することで、候補単語の言語スコアを計算す
る。

【０１４５】認識部１４は、以上のようにして、単語予
備選択部１３からの１以上の候補単語すべてについて、
その音響スコアおよび言語スコアを求め、ステップＳ６
に進む。ステップＳ６では、１以上の候補単語それぞれ
について、その音響スコアおよび言語スコア（単語スコ
ア）に基づいて、単語接続情報記憶部１６に記憶された
単語接続情報が更新される。

【０１４６】即ち、ステップＳ６では、認識部１４は、
各候補単語についての単語スコアを所定の閾値と比較す
ること等によって、注目ノードに接続するアークとして
の単語を、１以上の候補単語の中から絞り込む。そし
て、認識部１４は、その絞り込みの結果残った候補単語
を、その音響スコア、言語スコア、およびその候補単語
の終了時刻とともに、制御部１１に供給する。

【０１４７】なお、候補単語の終了時刻は、音響スコア
を計算するのに用いた特徴量の抽出時刻から認識され
る。また、ある単語について、その終了時刻としての蓋
然性の高い抽出時刻が複数得られた場合には、その単語
については、各終了時刻と、対応する音響スコアおよび
言語スコアとのセットが、制御部１１に供給される。

【０１４８】制御部１１は、上述のようにして認識部１
４から供給される、１以上の候補単語の音響スコア、言
語スコア、および終了時刻を受信すると、認識部１４か
らの各候補単語について、単語接続情報記憶部１６に記
憶された単語接続情報（図５）における注目ノードを始
端ノードとして、アークを延ばし、そのアークを、終了
時刻の位置に対応する終端ノードに接続する。さらに、
制御部１１は、各アークに対して、対応する単語、並び
にその音響スコアおよび言語スコアを付与するととも
に、各アークの終端ノードに対して、対応する終了時刻
を時刻情報として与える。そして、ステップＳ２に戻
り、以下、同様の処理が繰り返される。

【０１４９】なお、制御部１１は、単語接続情報を更新
する際に、可能であれば、上述したような終端ノードの
共通化を行う。

【０１５０】一方、ステップＳ２において、途中ノード
が存在しないと判定された場合、ステップＳ７に進み、
制御部１１は、単語接続情報を参照することで、その単
語接続情報として構成された各パスについて、単語スコ
アを累積することで、最終スコアを求め、例えば、その
最終スコアが最も大きいパスを構成するアークに対応す
る単語列を、ユーザの発話に対する音声認識結果として
出力して、処理を終了する。

【０１５１】次に、図８のフローチャートを参照して、
単語予備選択部１３による、図６のステップＳ４におけ
る単語予備選択処理について、さらに説明する。

【０１５２】単語予備選択部１３は、まず最初に、ステ
ップＳ１１において、単語予備選択処理のための初期化
を行う。即ち、単語予備選択部１３は、単語ネットワー
ク（図７（Ｂ））の各音素ノードのスコア（音響スコ
ア、言語スコア）を初期化する。さらに、単語予備選択
部１３は、ルートノード以外のすべての音素ノードを非
アクティブにするとともに、ルートノードをアクティブ
にする。

【０１５３】ここで、本実施の形態では、音素ノードに
ついて、アクティブな状態と、非アクティブな状態とが
定義されている。アクティブな音素ノードは、単語予備
選択部１３におけるスコア計算の対象とされ、非アクテ
ィブな音素ノードは、単語予備選択部１３におけるスコ
ア計算の対象化から除外される。

【０１５４】ステップＳ１１の処理後は、ステップＳ１
２に進み、単語予備選択部１３は、認識部１４からの注
目ノードが有する時刻情報が表す時刻以降の時刻のう
ち、まだ、注目時刻としていない、最も先行する時刻を
注目時刻とし、その注目時刻の特徴量を、注目特徴量と
して、特徴量記憶部１２から読み出す。

【０１５５】さらに、単語予備選択部１３は、ステップ
Ｓ１３に進み、単語ネットワークにしたがって、各音素
ノードについて、注目特徴量に対するスコアを計算しな
がら、単語を探索し、探索された単語のスコアに基づい
て、単語候補とする単語を選択するマッチング処理（詳
細は、図９を参照して後述する）を行い、ステップＳ１
４に進む。ステップＳ１４では、単語予備選択部１３
は、単語予備選択処理が中断可能かどうかを調査する調
査処理（詳細は、図１４を参照して後述する）を行い、
ステップＳ１５に進む。ステップＳ１５では、単語予備
選択部１３は、ステップＳ１４における調査処理の結果
に基づいて、単語予備選択処理が中断可能かどうかを判
定する。

【０１５６】ステップＳ１５において、単語予備選択処
理が中断可能でないと判定された場合、ステップＳ１６
に進み、単語予備選択部１３は、特徴量記憶部１２に記
憶されている、認識部１４からの注目ノードが有する時
刻情報が表す時刻以降の時刻の特徴量すべてを、注目特
徴量として、ステップＳ１３のマッチング処理を行った
かどうかを判定する。

【０１５７】ステップＳ１６において、注目ノードが有
する時刻情報が表す時刻以降の時刻の特徴量すべてを、
注目特徴量としたマッチング処理を、まだ行っていない
と判定された場合、ステップＳ１２に戻り、単語予備選
択部１３は、まだ、注目時刻としていない、最も先行す
る時刻を注目時刻とし、その注目時刻の特徴量を、注目
特徴量として、以下、同様の処理を繰り返す。

【０１５８】また、ステップＳ１６において、注目ノー
ドが有する時刻情報が表す時刻以降の時刻の特徴量すべ
てを、注目特徴量としたマッチング処理を行ったと判定
された場合、ステップＳ１８に進み、単語予備選択部１
３は、いままでのステップＳ１３のマッチング処理で選
択された単語を、単語予備選択結果（候補単語）とし
て、認識部１４に出力してリターンする。

【０１５９】一方、ステップＳ１５において、単語予備
選択処理が中断可能であると判定された場合、ステップ
Ｓ１７に進み、いままでのステップＳ１３のマッチング
処理で選択された単語に、そのマッチング処理で探索途
中の単語を加えたものを、単語予備選択結果（候補単
語）として、認識部１４に出力してリターンする。

【０１６０】次に、図９のフローチャートを参照して、
単語予備選択部１３による、図８のステップＳ１３のマ
ッチング処理について説明する。

【０１６１】単語予備選択部１３は、まず最初に、ステ
ップＳ２１において、注目特徴量に対する処理のための
初期化（例えば、単語予備選択部１３が内蔵する、図示
せぬメモリの初期化等）を行い、ステップＳ２２に進
む。

【０１６２】ステップＳ２２では、単語予備選択部１３
は、単語ネットワークにおけるアクティブな音素ノード
（以下、適宜、アクティブノードという）のすべてのス
コアを、注目特徴量を用いて計算し、その更新を行った
かどうかを判定する。

【０１６３】ステップＳ２２において、単語ネットワー
クにおけるアクティブノードのすべてのスコアを、まだ
更新していないと判定された場合、ステップＳ２３に進
み、単語予備選択部１３は、アクティブノードのうち
の、まだスコアを更新していないもののうちの１つを選
択し、ステップＳ２４に進む。ステップＳ２４では、単
語予備選択部１３は、ステップＳ２３で選択したアクテ
ィブノード（以下、適宜、注目アクティブノードとい
う）のスコアを、注目特徴量を用いて、上述したように
計算し、その更新を行って、ステップＳ２５に進む。

【０１６４】ステップＳ２５では、単語予備選択部１３
は、注目アクティブノードの更新後のスコアが、所定の
閾値以下（または未満）であるかどうかを判定する。ス
テップＳ２５において、注目アクティブノードの更新後
のスコアが所定の閾値以下であると判定された場合、ス
テップＳ２６に進み、単語予備選択部１３は、注目アク
ティブノードを、非アクティブの状態に変更し、ステッ
プＳ２２に戻る。

【０１６５】ここで、ステップＳ２６において、非アク
ティブな状態にされた音素ノード（以下、適宜、非アク
ティブノードという）については、その後、アクティブ
状態にされるまで、単語選択部１３におけるスコア計算
の対象とはされない。従って、スコアの低くなった音素
ノードは、非アクティブ状態とされることによって、枝
刈りされることになる。

【０１６６】一方、ステップＳ２５において、注目アク
ティブノードの更新後のスコアが所定の閾値以下でない
と判定された場合、ステップＳ２６をスキップして、ス
テップＳ２２に戻る。

【０１６７】そして、ステップＳ２２において、単語ネ
ットワークにおけるアクティブノードのすべてのスコア
を更新したと判定された場合、ステップＳ２７に進み、
単語予備選択部１３は、スコアが更新されたアクティブ
ノード（以下、適宜、更新済みアクティブノードとい
う）のすべてを、注目更新済みアクティブノードとして
選択して処理を行ったかどうかを判定する。

【０１６８】ステップＳ２７において、更新済みアクテ
ィブノードのすべてを、まだ、注目更新済みアクティブ
ノードとしていないと判定された場合、ステップＳ２８
に進み、単語予備選択部１３は、まだ注目更新済みアク
ティブノードとされていない更新済みアクティブノード
のうちの１つを、注目更新済みアクティブノードとして
選択し、ステップＳ２９に進む。

【０１６９】ステップＳ２９では、単語予備選択部１３
は、注目更新済みアクティブノードが子音素ノードを有
するかどうかを判定し、有すると判定した場合、ステッ
プ３０に進む。ステップＳ３０では、単語予備選択部１
３は、注目更新済みアクティブノードが有する子音素ノ
ードすべてをアクティブ状態に変更し、ステップＳ３１
に進む。

【０１７０】また、ステップＳ２９において、注目更新
済みアクティブノードが子音素ノードを有しないと判定
された場合、ステップＳ３０をスキップして、ステップ
Ｓ３１に進み、単語予備選択部１３は、注目更新済みア
クティブノードが、単語の終端、即ち、単語の最後の音
素に対応するものであるかどうかを判定する。

【０１７１】ここで、図７（Ｂ）で説明したように、単
語ネットワークのノードにおいて、単語の最後の音素に
対応するノードには、単語ＩＤが登録されている。従っ
て、ステップＳ３１の判定処理は、注目更新済みアクテ
ィブノードに、単語ＩＤが登録されているかどうかに基
づいて行われる。

【０１７２】ステップＳ３１において、注目更新済みア
クティブノードが、単語の最後の音素に対応するもので
あると判定された場合、ステップＳ３２に進み、単語予
備選択部１３は、注目更新済みアクティブノードに登録
されている単語ＩＤに対応する単語を、候補単語として
選択し、ステップＳ２７に戻る。

【０１７３】また、ステップＳ３１において、注目更新
済みアクティブノードが、単語の最後の音素に対応する
ものでないと判定された場合、ステップＳ３２をスキッ
プして、ステップＳ２７に戻る。

【０１７４】そして、ステップＳ２７において、更新済
みアクティブノードのすべてを、注目更新済みアクティ
ブノードとして処理したと判定された場合、ステップＳ
３３に進み、単語予備選択部１３は、ルートノードを非
アクティブ状態にして、リターンする。

【０１７５】なお、図９の実施の形態において、非アク
ティブの音素ノードがアクティブにされるケースは、ス
テップＳ３０において、更新済みアクティブノードが有
する子音素ノードがアクティブにされる場合だけであ
る。その結果、子音素ノードとならない（親音素ノード
を有しない）ルートノードは、一度、非アクティブ状態
になると、その後は、図８のステップＳ１１における初
期化でアクティブにされない限り、アクティブな状態に
なることはない。従って、図８のステップＳ１３乃至Ｓ
１６の処理が繰り返し行われている間は、最初のステッ
プＳ１３のマッチング処理としての図９の処理における
ステップＳ３３において、ルートノードを非アクティブ
にした後は、次回から、ステップＳ３３の処理を行う必
要はない。

【０１７６】以上のようなマッチング処理によれば、例
えば、図１０乃至図１３に示すように、アクティブな音
素ノードが変化していく。

【０１７７】即ち、例えば、いま、図１０乃至図１３に
示すような、ルートノードを頂点とする４階層の単語ネ
ットワークを考える。なお、図１０乃至図１３では、ノ
ードを、○印で示しており、○印の中のｎ（ｉ，ｊ）
は、第ｉ＋１階層のｊ＋１番目の音素ノードを表す。但
し、ここでは、最上位階層を第１階層とする。

【０１７８】まず、図８のステップＳ１１において初期
化が行われることにより、ルートノードｎ（０，０）
が、図１０（Ａ）に示すようにアクティブにされる。こ
こで、図１０乃至図１３では、アクティブな音素ノード
を、斜線を付して示してある。従って、斜線を付してい
ない○印は、非アクティブな音素ノードを表す。

【０１７９】そして、例えば、注目時刻ｔ＝０では、図
９のステップＳ２４において、図１０（Ｂ）に示すよう
に、アクティブノードであるルートノードｎ（０，０）
の注目時刻（ｔ＝０）におけるスコアｓ_n(0,0),0が計
算、更新される。なお、スコアｓ_n(i,j),tは、第ｉ＋１
階層のｊ＋１番目の音素ノードの時刻ｔにおけるスコア
を表す。

【０１８０】さらに、更新済みアクティブノードである
ルートノードｎ（０，０）の子音素ノードｎ（１，０）
およびｎ（１，１）が、図９のステップＳ３０におい
て、図１０（Ｃ）に示すようにアクティブにされる。そ
の後、図１０（Ｄ）に示すように、図９のステップＳ３
３において、ルートノードｎ（０，０）が非アクティブ
にされる。

【０１８１】次に、注目時刻ｔ＝１となり、図１１
（Ａ）に示すように、アクティブノードｎ（１，０）と
ｎ（１，１）の注目時刻（ｔ＝１）におけるスコアｓ
_n(1,0),1とｎ_s(1,1),1が、それぞれ計算、更新される
（ステップＳ２４）。いま、例えば、スコアｓ_n(1,0),1
とｓ_n(1,1),1が、いずれも閾値以下でないとすると、ア
クティブノードｎ（１，０）とｎ（１，１）は、図１１
（Ｂ）に示すように、いずれも非アクティブにされず、
アクティブ状態のままとされる（ステップＳ２５，Ｓ２
６）。

【０１８２】そして、図１１（Ｃ）に示すように、更新
済みアクティブノードとなった音素ノードｎ（１，０）
の子音素ノードである音素ノードｎ（２，０）およびｎ
（２，１）がアクティブノードとされるとともに、やは
り、更新済みアクティブノードとなった音素ノードｎ
（１，１）の子音素ノードである音素ノードｎ（２，
２）およびｎ（２，３）がアクティブノードとされる
（ステップＳ３０）。

【０１８３】次に、注目時刻ｔ＝２となり、図１２
（Ａ）に示すように、アクティブノードｎ（１，０），
ｎ（１，１），ｎ（２，０），ｎ（２，１），ｎ（２，
２），ｎ（２，３）の注目時刻（ｔ＝２）におけるスコ
アｓ_n(1,0),2，ｓ_n(1,1),2，ｓ_n( _2,0),2，ｓ_n(2,1),2，
ｓ_n(2,2),2，ｓ_n(2,3),2が、それぞれ計算、更新される
（ステップＳ２４）。いま、例えば、これらのスコアの
うち、ｓ_n(1,0),2，ｓ_n(2, _0),2，ｓ_n(2,3),2が、閾値以
下でないとすると、それ以外のスコアの音素ノードｎ
（１，１），ｎ（２，１），ｎ（２，２）は、図１２
（Ｂ）に示すように、いずれも非アクティブ状態にされ
る（ステップＳ２５，Ｓ２６）。

【０１８４】そして、図１２（Ｃ）に示すように、更新
済みアクティブノードとなった音素ノードｎ（１，０）
の子音素ノードである音素ノードｎ（２，１）がアクテ
ィブノードとされる（ステップＳ３０）。なお、更新済
みアクティブノードノードｎ（１，０）の子音素ノード
としては、音素ノードｎ（２，０）も存在するが、この
音素ノードｎ（２，０）は、既にアクティブ状態になっ
ているので（アクティブにする処理を行ってもよい
が）、アクティブ状態にする必要はない。

【０１８５】さらに、更新済みアクティブノードである
音素ノードｎ（２，０）の子音素ノードである音素ノー
ドｎ（３，０）およびｎ（３，１）がアクティブノード
とされるとともに、更新済みアクティブノードである音
素ノードｎ（２，３）の子音素ノードである音素ノード
ｎ（３，６）およびｎ（３，７）がアクティブノードと
される（ステップＳ３０）。

【０１８６】次に、注目時刻ｔ＝３となると、図１３
（Ａ）に示すように、アクティブノードｎ（１，０），
ｎ（２，０），ｎ（２，１），ｎ（２，３），ｎ（３，
０），ｎ（３，１），ｎ（３，６），ｎ（３，７）の注
目時刻（ｔ＝２）におけるスコアが、それぞれ計算、更
新される（ステップＳ２４）。いま、例えば、これらの
スコアのうち、アクティブノードｎ（１，０），ｎ
（３，０），ｎ（３，７）のスコアが、閾値以下でない
とすると、それ以外のスコアの音素ノードｎ（２，
０），ｎ（３，０），ｎ（３，７）は、図１３（Ｂ）に
示すように、いずれも非アクティブ状態にされる（ステ
ップＳ２５，Ｓ２６）。

【０１８７】そして、図１３（Ｃ）に示すように、更新
済みアクティブノードとなった音素ノードｎ（１，
０），ｎ（３，０），ｎ（３，７）のうち、子音素ノー
ドを有するものの、その子音素ノードがアクティブノー
ドとされる（ステップＳ３０）。

【０１８８】以上のように、単語予備選択部１３では、
アクティブな音素ノードについてのみ、そのスコアの計
算、更新が行われていく。

【０１８９】ところで、単語予備選択部１３による単語
予備選択処理は、認識部１４におけるマッチング処理の
計算量の低減等を図るべく、そのマッチング処理の対象
とする単語の数を制限するために行うものであるから、
認識部１４から供給される注目ノードが有する時刻情報
が表す時刻以降の時刻の特徴量すべてについて行う必要
は、必ずしもない。

【０１９０】即ち、単語予備選択部１３による単語予備
選択処理については、認識部１４におけるマッチング処
理の対象とする単語の数を、所定数以下に制限すること
ができれば、その目的を達成することができるから、単
語予備選択処理の過程において、それまでに単語候補と
して予備選択された単語と、その後に候補単語として予
備選択されうる単語との合計数が、所定数以下になった
場合には、単語予備選択処理の目的を達成することがで
きたということができる。

【０１９１】つまり、単語予備選択処理の過程におい
て、それまでに単語候補として予備選択された単語と、
その後に候補単語として予備選択されうる単語との合計
数が、所定数以下になった場合には、その所定数以下と
なった単語すべてを候補単語として、認識部１４におけ
るマッチング処理の対象としても、認識部１４の処理負
担は、装置設計当初から予想された範囲内にあることか
ら、問題とならない。

【０１９２】なお、単語予備選択処理の過程において、
それまでに単語候補として予備選択された単語と、その
後に候補単語として予備選択されうる単語との合計数
が、所定数以下になった場合の、その所定数以下となっ
た単語すべてを候補単語として、認識部１４におけるマ
ッチング処理の対象とするときには、認識部１４から供
給される注目ノードが有する時刻情報が表す時刻以降の
時刻の特徴量すべてについて単語予備選択処理を行うと
きと比較して、予備選択される単語が増加することがあ
るが、その場合でも、認識部１４において、その予備選
択された単語について、計算量の少ない言語スコアに基
づいて枝刈りを行うことで、音声認識装置全体としての
計算コストは低減することができる。

【０１９３】以上から、単語予備選択部１３は、図８で
説明したように、ステップＳ１４において、単語予備選
択処理が中断可能かどうかを調査する調査処理を行い、
その調査結果に基づき、単語予備選択処理の過程におい
て、それまでに単語候補として予備選択された単語と、
その後に候補単語として予備選択されうる単語との合計
数が、所定数以下になった場合には、ステップＳ１５に
おいて、単語予備選択処理を中断することが可能である
判断して、単語予備選択処理を中断し、ステップＳ１７
において、それまでに単語候補として予備選択された単
語に、その後に候補単語として予備選択されうる単語
を、候補単語として加えて、認識部１４に供給するよう
になっている。

【０１９４】ところで、図９乃至図１３で説明したこと
から、単語予備選択部１３のマッチング処理（図９）に
よれば、単語ネットワークにおいて、ある音素ノード
は、その親音素ノードがアクティブな状態の場合に、ア
クティブになる（ステップＳ３０）。

【０１９５】従って、非アクティブな音素ノードに注目
した場合に、その注目音素ノードから、ルートノードま
でのパス（以下、適宜、ノードパスという）上に、アク
ティブノードが存在しない場合には、注目音素ノード
は、その後の図８のステップＳ１３乃至Ｓ１６のループ
処理の間に、アクティブ状態になることはない。

【０１９６】図８のステップＳ１３乃至Ｓ１６のループ
処理が繰り返し行われ、これにより、図９のマッチング
処理が、特徴量記憶部１２に記憶された特徴量の系列に
沿って進んでいくと、その後のステップＳ１３乃至Ｓ１
６のループ処理の間に、アクティブ状態になることがな
い音素ノードが多数出現する。

【０１９７】音素ノードのうち、単語の最後の音素が割
り当てられているものには、上述したように、その単語
の単語ＩＤが登録されており、図９のマッチング処理で
は、そのような単語ＩＤが登録されている音素ノードが
アクティブ状態となっている場合に、その単語ＩＤによ
って特定される単語（単語ＩＤに対応する単語）が、単
語候補として予備選択される。

【０１９８】従って、単語ＩＤが登録されている音素ノ
ードが、上述したようなアクティブ状態になることがな
いものである場合には、その単語ＩＤに対応する単語が
予備選択されることはない。

【０１９９】以上から、単語ＩＤが登録されている音素
ノードについてのノードパス上にアクティブノードが存
在しない場合には、その単語ＩＤに対応する単語が予備
選択されることはなく、このことは、その単語ＩＤに対
応する単語が枝刈りされたことを意味する。

【０２００】一方、単語ＩＤが登録されている音素ノー
ドについてのノードパス上にアクティブノードが１つで
も存在する場合には、その後のステップＳ１３乃至Ｓ１
６のループ処理において、その単語ＩＤに対応する単語
が、候補単語として予備選択される可能性があることに
なる。

【０２０１】従って、ステップＳ１３乃至Ｓ１６のルー
プ処理のある時点において、その後に、候補単語として
予備選択されうる単語は、単語ＩＤが登録されている音
素ノードについて、そのノードパス上にアクティブノー
ドが存在するかどうかを調べることによって認識するこ
とができ、さらに、音素ノードの残り単語数を参照する
ことで、予備選択されうる単語の数、即ち、探索途中の
単語数も認識することができる。

【０２０２】図８のステップＳ１４における調査処理で
は、上述のようにして、予備選択されうる単語の数を認
識し、その単語の数に基づいて、単語予備選択処理が中
断可能かどうかを調査するようになっている。

【０２０３】そこで、図１４のフローチャートを参照し
て、図８のステップＳ１４における調査処理について説
明する。

【０２０４】調査処理では、まず最初に、ステップＳ４
１において、単語予備選択部１３は、その後の処理によ
って候補単語となる可能性がある単語（以下、適宜、可
能性単語という）の数をカウントする変数Ｎを０に初期
化し、ステップＳ４２に進む。

【０２０５】ステップＳ４２では、単語予備選択部１３
は、単語ネットワークにおけるアクティブノードすべて
を、注目アクティブノードとして処理を行ったかどうか
を判定し、まだ行っていないと判定した場合、ステップ
Ｓ４３に進み、単語予備選択部１３は、まだ注目アクテ
ィブノードとしていないアクティブノードを、注目アク
ティブノードとして選択し、ステップＳ４４に進む。

【０２０６】ステップＳ４４では、単語予備選択部１３
は、注目アクティブノードから、ルートノードまでのノ
ードパスを辿っていくことにより、そのノードパス上の
音素ノードを検出し、ステップＳ４５に進む。

【０２０７】ステップＳ４５では、単語予備選択部１３
は、ステップＳ４４で検出した、注目アクティブノード
についてのノードパス上の、注目アクティブノードを除
く音素ノードの中に、アクティブノードが存在するかど
うかを判定する。

【０２０８】ステップＳ４５において、注目アクティブ
ノードについてのノードパス上に、アクティブノードが
存在しないと判定された場合、即ち、注目アクティブノ
ードについてのノードパス（以下、適宜、注目ノードパ
スという）において、注目アクティブノードよりも上位
階層の音素ノードがアクティブになることがなく、従っ
て、注目アクティブノードが、その注目アクティブノー
ドを含んでノードパスを形成する音素ノードのうちの最
も上位階層のものであり、その結果、注目アクティブノ
ードを含んで形成されるノードパス上の音素ノードを最
後の音素とする単語のうち、現時点で枝刈りされていな
いものの数が、注目アクティブノードに登録されている
残り単語数に等しい場合、ステップＳ４６に進み、単語
予備選択部１３は、変数Ｎと、注目アクティブノードに
登録されている残り単語数とを加算して、その加算値
を、変数Ｎにセットする。その後、ステップＳ４２に戻
り、以下、同様の処理を繰り返す。

【０２０９】また、ステップＳ４５において、注目ノー
ドパス上に、アクティブノードが存在すると判定された
場合、ステップＳ４６をスキップして、ステップＳ４２
に戻り、以下、同様の処理を繰り返す。

【０２１０】そして、ステップＳ４２において、単語ネ
ットワークにおけるアクティブノードすべてを、注目ア
クティブノードとして処理を行ったと判定された場合、
ステップＳ４７に進み、単語予備選択部１３は、既にス
テップＳ３２（図９）で予備選択されている候補単語の
数と、変数Ｎとの加算値が、所定の閾値未満（または以
下）であるかどうかを判定する。

【０２１１】ステップＳ４７において、予備選択されて
いる候補単語の数と、変数Ｎとの加算値が、所定の閾値
未満であると判定された場合、ステップＳ４８に進み、
予備選択部１３は、予備選択処理の中断が可能であると
認識して、リターンする。

【０２１２】また、ステップＳ４７において、予備選択
されている候補単語との数と、変数Ｎとの加算値が、所
定の閾値未満でないと判定された場合、ステップＳ４９
に進み、予備選択部１３は、予備選択処理の中断が可能
でないと認識して、リターンする。

【０２１３】なお、ステップＳ４７で用いられる閾値
は、例えば、認識部１４の処理性能等を考慮して決定さ
れる。但し、変数Ｎによれば、現時点で、その後の処理
によって候補単語とされ得る単語の数の他、既にステッ
プＳ３２（図９）で予備選択されている候補単語の数も
重複してカウントされ得るため、ステップＳ４７で用い
られる閾値は、その重複分を見込んだ上で決定される。

【０２１４】以上のように、単語予備選択部１３におい
て、単語の探索の中断が可能かどうかが判定し、単語の
探索の中断が可能な場合には、単語の探索を中断して、
それまでに予備選択した単語と、探索途中の単語（その
後の処理により候補単語となりうる単語）とを、候補単
語として、認識部１４に出力する。従って、予備選択に
要する計算量を低減することができ、その結果、音声認
識装置全体としての音声認識処理を、その精度を劣化さ
せずに高速化することができる。

【０２１５】次に、上述の場合には、単語予備選択処理
を、途中で中断することによって、単語予備選択処理の
計算量の低減を図るようにしたが、単語予備選択処理の
計算量の低減は、その他、例えば、音素ノードを途中で
打ち切った単語ネットワークを用いることによっても実
現することができる。

【０２１６】即ち、図１５（Ａ）は、図７（Ａ）と同様
の単語辞書を示しており、図１５（Ｂ）は、図１５
（Ａ）の単語辞書に登録された単語について、音素ノー
ドを途中で打ち切って構成した単語ネットワークを示し
ている。

【０２１７】図１５（Ｂ）の単語ネットワークは、図７
（Ｂ）の単語ネットワークにおいて、そのルートノード
Ｎ₀の階層を第１階層とすると、第６階層以降を省略し
た形で構成されている。

【０２１８】即ち、図１５（Ｂ）の単語ネットワーク
は、図７（Ｂ）の単語ネットワークの、第６階層の音素
ノードＮ₅，Ｎ₆，Ｎ₉，Ｎ₁₀、および第７階層の音素ノ
ードＮ₁ ₁が省略されたものとなっている。

【０２１９】さらに、図１５（Ｂ）の単語ネットワーク
においては、単語の終端の音素に対応する音素ノード
（以下、適宜、終端音素ノードという）が省略される場
合には、すべての音素ノードが存在すると仮定したとき
に、省略される終端音素ノードについてのノードパス上
の、省略されない音素ノードのうちの最も下位の階層の
音素ノードに、省略される終端音素ノードに登録されて
いた単語ＩＤが登録されている。

【０２２０】即ち、図１５（Ｂ）の単語ネットワークに
おいては、単語ＩＤが２の単語「秋田」の終端音素ノー
ドＮ₅が省略されているため、その終端音素ノードＮ₅に
登録されていた単語ＩＤ＃２が、終端音素ノードＮ₅に
ついてのノードパス上の、省略されない音素ノードのう
ちの最も下位の階層の音素ノードＮ₄に登録されてい
る。

【０２２１】また、図１５（Ｂ）の単語ネットワークに
おいては、単語ＩＤが３の単語「空き地」の終端音素ノ
ードＮ₆が省略されているため、その終端音素ノードＮ₆
に登録されていた単語ＩＤ＃３が、終端音素ノードＮ₆
についてのノードパス上の、省略されない音素ノードの
うちの最も下位の階層の音素ノードＮ₄に登録されてい
る。

【０２２２】さらに、図１５（Ｂ）の単語ネットワーク
においては、単語ＩＤが４の単語「明かり」の終端音素
ノードＮ₉が省略されているため、その終端音素ノード
Ｎ₉に登録されていた単語ＩＤ＃４が、終端音素ノード
Ｎ₉についてのノードパス上の、省略されない音素ノー
ドのうちの最も下位の階層の音素ノードＮ₈に登録され
ている。

【０２２３】また、図１５（Ｂ）の単語ネットワークに
おいては、単語ＩＤが５の単語「明るい」の終端音素ノ
ードＮ₁₁が省略されているため、その終端音素ノードＮ
₁₁に登録されていた単語ＩＤ＃５が、終端音素ノードＮ
₁₁についてのノードパス上の、省略されない音素ノード
のうちの最も下位の階層の音素ノードＮ₈に登録されて
いる。

【０２２４】従って、図１５（Ｂ）の単語ネットワーク
では、単語「秋田」と「空き地」の音韻情報が、"akit"
という１つの音韻情報にまとめられ、また、単語「明か
り」と「明るい」の音韻情報も、"akar"という１つの音
韻情報にまとめられているということができる。

【０２２５】このように、音韻情報を、幾つかの単語で
１つにまとめた単語ネットワークを構成することによ
り、単語ネットワークを記憶するのに必要な記憶容量が
低減され、さらに、予備選択部１３における計算量も低
減されることになる。

【０２２６】なお、この場合、単語予備選択部１３にお
いて予備選択される単語の数は、上述のような音素ノー
ドの打ち切りを行っていない単語ネットワークを用いる
場合に比較して増加することがあるが、その場合でも、
認識部１４において、その予備選択された単語につい
て、計算量の少ない言語スコアに基づいて枝刈りを行う
ことで、音声認識装置全体としての計算コストは低減す
ることができる。

【０２２７】また、図１５（Ｂ）の実施の形態では、第
６階層以降の音素ノードを打ち切るようにしたが、即
ち、各単語の先頭から５番目以降の音素に対応する音素
ノードを打ち切るようにしたが、その他、例えば、最も
長いノードパスを検出し、そのノードパスの後半（下位
階層）の半分等の音素ノードを打ち切るようにすること
が可能である。あるいは、また、各音素について、その
継続時間長の平均値を求めておき、単語の発話時間が、
その全体を発話したときの半分になるように、音素ノー
ドを打ち切ること等も可能である。

【０２２８】さらに、単語予備選択部１３では、図１５
（Ｂ）の単語ネットワークを用いて、従来と同様の単語
予備選択を行うことも可能であるし、図８で説明したよ
うな、単語の探索を途中で中断する単語予備選択を行う
ことも可能である。

【０２２９】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
汎用のコンピュータ等にインストールされる。

【０２３０】そこで、図１６は、上述した一連の処理を
実行するプログラムがインストールされるコンピュータ
の一実施の形態の構成例を示している。

【０２３１】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク１０５やＲＯＭ１
０３に予め記録しておくことができる。

【０２３２】あるいはまた、プログラムは、フレキシブ
ルディスク、CD-ROM(Compact DiscRead Only Memory)，
MO(Magneto optical)ディスク，DVD(Digital Versatile
Disc)、磁気ディスク、半導体メモリなどのリムーバブ
ル記録媒体１１１に、一時的あるいは永続的に格納（記
録）しておくことができる。このようなリムーバブル記
録媒体１１１は、いわゆるパッケージソフトウエアとし
て提供することができる。

【０２３３】なお、プログラムは、上述したようなリム
ーバブル記録媒体１１１からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部１０８で受信し、内蔵するハード
ディスク１０５にインストールすることができる。

【０２３４】コンピュータは、CPU(Central Processing
Unit)１０２を内蔵している。CPU１０２には、バス１
０１を介して、入出力インタフェース１１０が接続され
ており、CPU１０２は、入出力インタフェース１１０を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部１０７が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)１０３に格納されているプログラムを実行
する。あるいは、また、CPU１０２は、ハードディスク
１０５に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部１０８で受信されてハー
ドディスク１０５にインストールされたプログラム、ま
たはドライブ１０９に装着されたリムーバブル記録媒体
１１１から読み出されてハードディスク１０５にインス
トールされたプログラムを、RAM(Random Access Memor
y)１０４にロードして実行する。これにより、CPU１０
２は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU１０２は、その処理結果を、必要に応
じて、例えば、入出力インタフェース１１０を介して、
LCD(Liquid CryStal Display)やスピーカ等で構成され
る出力部１０６から出力、あるいは、通信部１０８から
送信、さらには、ハードディスク１０５に記録等させ
る。

【０２３５】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理（例えば、並列処理あるい
はオブジェクトによる処理）も含むものである。

【０２３６】また、プログラムは、１のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。

【０２３７】なお、図４に示した音声認識装置は、例え
ば、音声によってデータベースの検索を行う場合や、各
種の機器の操作を行う場合、各機器へのデータ入力を行
う場合、音声対話システム等に適用可能である。より具
体的には、例えば、音声による地名の問合せに対して、
対応する地図情報を表示するデータベース検索装置や、
音声による命令に対して、荷物の仕分けを行う産業用ロ
ボット、キーボードの代わりに音声入力によりテキスト
作成を行うディクテーションシステム、ユーザとの会話
を行うロボットにおける対話システム等に適用可能であ
る。

【０２３８】

【発明の効果】本発明の第１の音声認識装置および音声
認識方法、並びにプログラムによれば、単語の探索の中
断が可能かどうかが判定され、単語の探索の中断が可能
な場合には、単語の探索が中断される。そして、それま
でに選択された単語と、探索途中の単語とが、音声認識
結果の候補となる単語として出力される。従って、処理
の高速化を図ることが可能となる。

【０２３９】本発明の第２の音声認識装置および音声認
識方法、並びにプログラムによれば、音声認識の対象と
する単語群の単語の構成要素をノードとして構成された
ツリー構造であって、ノードが単語の途中で打ち切られ
たものにしたがって、ツリー構造のノードについてスコ
アを計算しながら、単語が探索され、探索された単語の
スコアに基づいて、音声認識結果の候補となる単語が選
択される。従って、処理の高速化を図ることが可能とな
る。

【図面の簡単な説明】

【図１】従来の音声認識装置の一例の構成を示すブロッ
ク図である。

【図２】単語どうしの境界の候補を保持する必要性を説
明する図である。

【図３】従来の音声認識装置の他の一例の構成を示すブ
ロック図である。

【図４】本発明を適用した音声認識装置の一実施の形態
の構成例を示すブロック図である。

【図５】単語接続情報を説明するための図である。

【図６】音声認識装置の処理を説明するためのフローチ
ャートである。

【図７】単語辞書と、その単語辞書の単語について構成
されたツリー構造の単語ネットワークを示す図である。

【図８】ステップＳ４の単語予備選択処理の詳細を説明
するフローチャートである。

【図９】ステップＳ１３のマッチング処理の詳細を説明
するフローチャートである。

【図１０】単語予備選択部１３による単語予備選択処理
を説明するための図である。

【図１１】単語予備選択部１３による単語予備選択処理
を説明するための図である。

【図１２】単語予備選択部１３による単語予備選択処理
を説明するための図である。

【図１３】単語予備選択部１３による単語予備選択処理
を説明するための図である。

【図１４】ステップＳ１４における調査処理の詳細を説
明するフローチャートである。

【図１５】単語辞書と、その単語辞書の単語について構
成されたツリー構造の単語ネットワークを示す図であ
る。

【図１６】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。

【符号の説明】

１マイク，２ＡＤ変換部，３特徴抽出部，
１１制御部，１２特徴量記憶部，１３単語予備
選択部，１４認識部，１５再評価部，１６
単語接続情報記憶部，１７Ａ，１７Ｂ音響モデルデ
ータベース，１８Ａ，１８Ｂ辞書データベース，１
９Ａ，１９Ｂ文法データベース，１０１バス，１
０２ CPU，１０３ ROM，１０４ RAM，１０５
ハードディスク，１０６出力部，１０７入力
部，１０８通信部，１０９ドライブ，１１０
入出力インタフェース，１１１リムーバブル記録媒
体

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/28 Ｇ１０Ｌ 5/06 Ｆ 3/00 ５３７Ｆ (72)発明者小川浩明東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者ヘルムートルッケ東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 5B075 ND03 ND14 ND22 ND35 NK06 NK13 NK22 NK31 PP07 PP12 PP24 PQ00 PR06 QM08 UU40 5D015 AA01 AA04 BB01 JJ00 LL02 LL10

Claims

【特許請求の範囲】

【請求項１】入力された音声に対して、その音声認識
結果の尤度を表すスコアを計算し、そのスコアに基づい
て、前記音声を連続音声認識する音声認識装置であっ
て、音声認識の対象とする単語群を探索し、前記音声認識結
果の候補となる単語を選択する単語選択手段と、前記単語選択手段において選択された単語を対象に、前
記スコアを計算するスコア計算手段と、前記単語のスコアに基づいて、前記音声の音声認識結果
を確定する確定手段とを備え、前記単語選択手段は、前記単語の探索の中断が可能かどうかを判定し、前記単語の探索の中断が可能な場合には、前記単語の探
索を中断し、それまでに選択した単語と、探索途中の単語とを、前記
音声認識結果の候補となる単語として出力することを特
徴とする音声認識装置。
【請求項２】前記単語選択手段は、それまでに選択し
た単語の数と、探索途中の単語の数とに基づいて、前記
単語の探索の中断が可能かどうかを判定することを特徴
とする請求項１に記載の音声認識装置。
【請求項３】前記単語選択手段は、それまでに選択し
た単語の数と、探索途中の単語の数との総数が所定の閾
値以下である場合に、前記単語の探索を中断することを
特徴とする請求項２に記載の音声認識装置。
【請求項４】前記単語選択手段は、単語群の単語の構成要素をノードとして構成されたツリ
ー構造であって、各ノードに、そのノード以下のノード
を終端とする単語の数が登録されたものにしたがって、
前記ツリー構造のうちのアクティブなノードについて前
記スコアを計算しながら、単語を探索し、前記スコアに基づいて、対応するノードを非アクティブ
にし、アクティブなノードとして残ったノードの子ノードをア
クティブし、ルートノードまでの経路に、アクティブなノードが存在
しないアクティブなノードに登録されている単語の数か
ら、前記探索途中の単語の数を求めることを特徴とする
請求項２に記載の音声認識装置。
【請求項５】前記単語選択手段は、前記単語群の単語
の構成要素をノードとして構成されたツリー構造であっ
て、ノードが単語の途中で打ち切られたものにしたがっ
て、前記ツリー構造のノードについて前記スコアを計算
しながら、単語を探索し、そのスコアに基づいて、前記
音声認識結果の候補となる単語を選択することを特徴と
する請求項１に記載の音声認識装置。
【請求項６】入力された音声に対して、その音声認識
結果の尤度を表すスコアを計算し、そのスコアに基づい
て、前記音声を連続音声認識する音声認識方法であっ
て、音声認識の対象とする単語群を探索し、前記音声認識結
果の候補となる単語を選択する単語選択ステップと、前記単語選択ステップにおいて選択された単語を対象
に、前記スコアを計算するスコア計算ステップと、前記単語のスコアに基づいて、前記音声の音声認識結果
を確定する確定ステップとを備え、前記単語選択ステップにおいて、前記単語の探索の中断が可能かどうかを判定し、前記単語の探索の中断が可能な場合には、前記単語の探
索を中断し、それまでに選択した単語と、探索途中の単語とを、前記
音声認識結果の候補となる単語として出力することを特
徴とする音声認識方法。
【請求項７】入力された音声に対して、その音声認識
結果の尤度を表すスコアを計算し、そのスコアに基づい
て、前記音声を連続音声認識する音声認識処理を、コン
ピュータに行わせるプログラムであって、音声認識の対象とする単語群を探索し、前記音声認識結
果の候補となる単語を選択する単語選択ステップと、前記単語選択ステップにおいて選択された単語を対象
に、前記スコアを計算するスコア計算ステップと、前記単語のスコアに基づいて、前記音声の音声認識結果
を確定する確定ステップとを備え、前記単語選択ステップにおいて、前記単語の探索の中断が可能かどうかを判定し、前記単語の探索の中断が可能な場合には、前記単語の探
索を中断し、それまでに選択した単語と、探索途中の単語とを、前記
音声認識結果の候補となる単語として出力することを特
徴とするプログラム。
【請求項８】入力された音声に対して、その音声認識
結果の尤度を表すスコアを計算し、そのスコアに基づい
て、前記音声を連続音声認識する音声認識処理を、コン
ピュータに行わせるプログラムが記録されている記録媒
体であって、音声認識の対象とする単語群を探索し、前
記音声認識結果の候補となる単語を選択する単語選択ス
テップと、前記単語選択ステップにおいて選択された単語を対象
に、前記スコアを計算するスコア計算ステップと、前記単語のスコアに基づいて、前記音声の音声認識結果
を確定する確定ステップとを備え、前記単語選択ステップにおいて、前記単語の探索の中断が可能かどうかを判定し、前記単語の探索の中断が可能な場合には、前記単語の探
索を中断し、それまでに選択した単語と、探索途中の単語とを、前記
音声認識結果の候補となる単語として出力するプログラ
ムが記録されていることを特徴とする記録媒体。
【請求項９】入力された音声に対して、その音声認識
結果の尤度を表すスコアを計算し、そのスコアに基づい
て、前記音声を連続音声認識する音声認識装置であっ
て、音声認識の対象とする単語群の単語の構成要素をノード
として構成されたツリー構造であって、前記ノードが単
語の途中で打ち切られたものにしたがって、前記ツリー
構造のノードについて前記スコアを計算しながら、単語
を探索し、探索された単語のスコアに基づいて、前記音
声認識結果の候補となる単語を選択する単語選択手段
と、前記単語選択手段において選択された単語を対象に、前
記スコアを計算するスコア計算手段と、前記単語のスコアに基づいて、前記音声の音声認識結果
を確定する確定手段とを備えることを特徴とする音声認
識装置。
【請求項１０】前記単語選択手段は、前記ルートノー
ドからの音素数に基づいてノードが打ち切られた前記ツ
リー構造にしたがって、単語を探索することを特徴とす
る請求項９に記載の音声認識装置。
【請求項１１】前記単語選択手段は、前記ルートノー
ドからの音素の継続時間長に基づいてノードが打ち切ら
れた前記ツリー構造にしたがって、単語を探索すること
を特徴とする請求項９に記載の音声認識装置。
【請求項１２】入力された音声に対して、その音声認
識結果の尤度を表すスコアを計算し、そのスコアに基づ
いて、前記音声を連続音声認識する音声認識方法であっ
て、音声認識の対象とする単語群の単語の構成要素をノード
として構成されたツリー構造であって、前記ノードが単
語の途中で打ち切られたものにしたがって、前記ツリー
構造のノードについて前記スコアを計算しながら、単語
を探索し、探索された単語のスコアに基づいて、前記音
声認識結果の候補となる単語を選択する単語選択ステッ
プと、前記単語選択ステップにおいて選択された単語を対象
に、前記スコアを計算するスコア計算ステップと、前記単語のスコアに基づいて、前記音声の音声認識結果
を確定する確定ステップとを備えることを特徴とする音
声認識方法。
【請求項１３】入力された音声に対して、その音声認
識結果の尤度を表すスコアを計算し、そのスコアに基づ
いて、前記音声を連続音声認識する音声認識処理を、コ
ンピュータに行わせるプログラムであって、音声認識の対象とする単語群の単語の構成要素をノード
として構成されたツリー構造であって、前記ノードが単
語の途中で打ち切られたものにしたがって、前記ツリー
構造のノードについて前記スコアを計算しながら、単語
を探索し、探索された単語のスコアに基づいて、前記音
声認識結果の候補となる単語を選択する単語選択ステッ
プと、前記単語選択ステップにおいて選択された単語を対象
に、前記スコアを計算するスコア計算ステップと、前記単語のスコアに基づいて、前記音声の音声認識結果
を確定する確定ステップとを備えることを特徴とするプ
ログラム。
【請求項１４】入力された音声に対して、その音声認
識結果の尤度を表すスコアを計算し、そのスコアに基づ
いて、前記音声を連続音声認識する音声認識処理を、コ
ンピュータに行わせるプログラムが記録されている記録
媒体であって、音声認識の対象とする単語群の単語の構成要素をノード
として構成されたツリー構造であって、前記ノードが単
語の途中で打ち切られたものにしたがって、前記ツリー
構造のノードについて前記スコアを計算しながら、単語
を探索し、探索された単語のスコアに基づいて、前記音
声認識結果の候補となる単語を選択する単語選択ステッ
プと、前記単語選択ステップにおいて選択された単語を対象
に、前記スコアを計算するスコア計算ステップと、前記単語のスコアに基づいて、前記音声の音声認識結果
を確定する確定ステップとを備えるプログラムが記録さ
れていることを特徴とする記録媒体。