JP2002351491A - 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 - Google Patents

音声認識装置および音声認識方法、並びにプログラムおよび記録媒体

Info

Publication number
JP2002351491A
JP2002351491A JP2001161698A JP2001161698A JP2002351491A JP 2002351491 A JP2002351491 A JP 2002351491A JP 2001161698 A JP2001161698 A JP 2001161698A JP 2001161698 A JP2001161698 A JP 2001161698A JP 2002351491 A JP2002351491 A JP 2002351491A
Authority
JP
Japan
Prior art keywords
word
score
node
speech recognition
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001161698A
Other languages
English (en)
Other versions
JP4696400B2 (ja
Inventor
Katsuki Minamino
活樹 南野
Koji Asano
康治 浅野
Hiroaki Ogawa
浩明 小川
Lucke Helmut
ルッケ ヘルムート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2001161698A priority Critical patent/JP4696400B2/ja
Publication of JP2002351491A publication Critical patent/JP2002351491A/ja
Application granted granted Critical
Publication of JP4696400B2 publication Critical patent/JP4696400B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 単語予備選択処理の計算量を低減する。 【解決手段】 単語予備選択部13は、単語の探索の中
断が可能かどうかが判定し、単語の探索の中断が可能な
場合には、単語の探索を中断して、それまでに予備選択
した単語と、探索途中の単語(その後の処理により予備
選択されうる単語)とを、単語予備選択結果として、認
識部14に出力する。即ち、単語予備選択部13は、そ
れまでに予備選択した単語の数と、その後の処理によっ
て予備選択されうる単語の数とが、所定値以下となった
とき、それまでに予備選択した単語と、その後の処理に
よって予備選択されうる単語とを、単語予備選択結果と
して、認識部14に供給する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法、並びにプログラムおよび記録媒体に関
し、特に、例えば、高速、かつ高精度な音声認識を行う
ことができるようにする音声認識装置および音声認識方
法、並びにプログラムおよび記録媒体に関する。
【0002】
【従来の技術】図1は、従来の音声認識装置の一例の構
成を示している。
【0003】ユーザが発した音声は、マイク(マイクロ
フォン)1に入力され、マイク1では、その入力音声
が、電気信号としての音声信号に変換される。この音声
信号は、AD(Analog Digital)変換部2に供給される。
AD変換部2では、マイク1からのアナログ信号である
音声信号がサンプリング、量子化され、ディジタル信号
である音声データに変換される。この音声データは、特
徴抽出部3に供給される。
【0004】特徴抽出部3は、AD変換部2からの音声
データについて、適当なフレームごとに音響処理を施
し、これにより、例えば、MFCC(Mel Frequency Cep
strumCoefficient)等の特徴量を抽出し、マッチング部
4に供給する。なお、特徴抽出部3では、その他、例え
ば、スペクトルや、線形予測係数、ケプストラム係数、
線スペクトル対等の特徴量を抽出することが可能であ
る。
【0005】マッチング部4は、特徴抽出部3からの特
徴量を用いて、音響モデルデータベース5、辞書データ
ベース6、および文法データベース7を必要に応じて参
照しながら、マイク1に入力された音声(入力音声)
を、例えば、連続分布HMM法等に基づいて音声認識す
る。
【0006】即ち、音響モデルデータベース5は、音声
認識する音声の言語における個々の音素や音節などの音
響的な特徴を表す音響モデルを記憶している。ここで
は、連続分布HMM法に基づいて音声認識を行うので、
音響モデルとしては、HMM(Hidden Markov Model)が
用いられる。辞書データベース6は、認識対象の各単語
について、その発音に関する情報(音韻情報)が記述さ
れた単語辞書を記憶している。文法データベース7は、
辞書データベース6の単語辞書に登録されている各単語
が、どのように連鎖する(つながる)かを記述した文法
規則(言語モデル)を記憶している。ここで、文法規則
としては、例えば、文脈自由文法(CFG)や、統計的
な単語連鎖確率(N−gram)などに基づく規則を用
いることができる。
【0007】マッチング部4は、辞書データベース6の
単語辞書を参照することにより、音響モデルデータベー
ス5に記憶されている音響モデルを接続することで、単
語の音響モデル(単語モデル)を構成する。さらに、マ
ッチング部4は、幾つかの単語モデルを、文法データベ
ース7に記憶された文法規則を参照することにより接続
し、そのようにして接続された単語モデルを用いて、特
徴量に基づき、連続分布HMM法によって、マイク1に
入力された音声を認識する。即ち、マッチング部4は、
特徴抽出部3が出力する時系列の特徴量が観測されるス
コア(尤度)が最も高い単語モデルの系列を検出し、そ
の単語モデルの系列に対応する単語列を、音声の認識結
果として出力する。
【0008】つまり、マッチング部4は、接続された単
語モデルに対応する単語列について、各特徴量の出現確
率を累積し、その累積値をスコアとして、そのスコアを
最も高くする単語列を、音声認識結果として出力する。
【0009】スコア計算は、一般に、音響モデルデータ
ベース5に記憶された音響モデルによって与えられる音
響的なスコア(以下、適宜、音響スコアという)と、文
法データベース7に記憶された文法規則によって与えら
れる言語的なスコア(以下、適宜、言語スコアという)
とを総合評価することで行われる。
【0010】即ち、音響スコアは、例えば、HMM法に
よる場合には、単語モデルを構成する音響モデルから、
特徴抽出部3が出力する特徴量の系列が観測される確率
(出現する確率)に基づいて、単語ごとに計算される。
また、言語スコアは、例えば、バイグラムによる場合に
は、注目している単語と、その単語の直前の単語とが連
鎖(連接)する確率に基づいて求められる。そして、各
単語についての音響スコアと言語スコアとを総合評価し
て得られる最終的なスコア(以下、適宜、最終スコアと
いう)に基づいて、音声認識結果が確定される。
【0011】具体的には、あるN個の単語からなる単語
列におけるk番目の単語をwkとして、その単語wkの音
響スコアをA(wk)と、言語スコアをL(wk)と、そ
れぞれ表すとき、その単語列の最終スコアSは、例え
ば、次式にしたがって計算される。
【0012】 S=Σ(A(wk)+Ck×L(wk)) ・・・(1) 但し、Σは、kを1からNに変えてのサメーションをと
ることを表す。また、C kは、単語wkの言語スコアL
(wk)にかける重みを表す。
【0013】マッチング部4では、例えば、式(1)に
示す最終スコアSを最も大きくするNと、単語列w1
2,・・・,wNを求めるマッチング処理が行われ、そ
の単語列w1,w2,・・・,wNが、音声認識結果とし
て出力される。
【0014】以上のような処理が行われることにより、
図1の音声認識装置では、例えば、ユーザが、「ニュー
ヨークに行きたいです」と発話した場合には、「ニュー
ヨーク」、「に」、「行きたい」、「です」といった各
単語に、音響スコアおよび言語スコアが与えられ、それ
らを総合評価して得られる最終スコアが最も大きいとき
に、単語列「ニューヨーク」、「に」、「行きたい」、
「です」が、音声認識結果として出力される。
【0015】ところで、上述の場合において、辞書デー
タベース6の単語辞書に、「ニューヨーク」、「に」、
「行きたい」、および「です」の5単語が登録されてい
るとすると、これらの5単語を用いて構成しうる5単語
の並びは、55通り存在する。従って、単純には、マッ
チング部4では、この55通りの単語列を評価し、その
中から、ユーザの発話に最も適合するもの(最終スコア
を最も大きくするもの)を決定しなければならない。そ
して、単語辞書に登録する単語数が増えれば、その単語
数分の単語の並びの数は、単語数の単語数乗通りになる
から、評価の対象としなければならない単語列は、膨大
な数となる。
【0016】さらに、一般には、発話中に含まれる単語
の数は未知であるから、5単語の並びからなる単語列だ
けでなく、1単語、2単語、・・・からなる単語列も、
評価の対象とする必要がある。従って、評価すべき単語
列の数は、さらに膨大なものとなるから、そのような膨
大な単語列の中から、音声認識結果として最も確からし
いものを、計算量および使用するメモリ容量の観点から
効率的に決定することは、非常に重要な問題である。
【0017】計算量およびメモリ容量の効率化を図る方
法としては、例えば、音響スコアを求める過程におい
て、その途中で得られる音響スコアが所定の閾値以下と
なった場合に、そのスコア計算を打ち切るという音響的
な枝刈り手法や、言語スコアに基づいて、スコア計算の
対象とする単語を絞り込む言語的な枝刈り手法があり、
これらの枝刈り手法は、ビームサーチ法と呼ばれる。
【0018】ビームサーチ法によれば、スコア計算の対
象が、所定の判断基準(例えば、上述したような計算途
中の音響スコアや、単語に与えられる言語スコア)に基
づいて絞り込まれることで、計算量の削減を図ることが
できる。しかしながら、その反面、絞り込みを強くする
と、即ち、判断基準を厳しくすると、本来、音声認識結
果として正しいものまでも枝刈りされてしまい、誤認識
が生じることになる。従って、枝刈り手法による場合に
は、音声認識結果として正しいものが枝刈りされないよ
うに、ある程度のマージンをもたせた絞り込みを行う必
要があり、このため、計算量を大きく削減することは困
難である。
【0019】また、音響スコアを求める場合に、スコア
計算の対象となっているすべての単語について独立に行
うと、その計算量が大きくなることから、複数の単語に
ついての音響スコアの計算の一部を共通化(共有化)す
る方法が提案されている。この共通化の方法としては、
単語辞書の単語のうち、その先頭の音韻が同一のものに
ついて、その先頭の音韻から、同一になっている音韻ま
では、音響モデルを共通に用い、それ以後の異なる音韻
には、音響モデルを個々に用いることにより、全体とし
て1つのツリー構造(木構造)のネットワークを構成
し、これを用いて、音響スコアを求める方法がある。具
体的には、例えば、いま、単語「秋田」と「曙」を考
え、「秋田」の音韻情報が「akita」であり、「曙」の
音韻情報が「akebono」であるとすると、単語「秋田」
と「曙」の音響スコアは、それぞれの先頭から2番目ま
での同一の音韻a,kについては兼用で計算される。そし
て、単語「秋田」の残りの音韻k,i,t,a、および単語
「曙」の残りの音韻e,b,o,n,oについては、それぞれ独
立に音響スコアが計算される。
【0020】従って、この方法によれば、音響スコアの
計算量を大幅に低減することができる。
【0021】しかしながら、この方法では、共通化され
ている部分(音響スコアが兼用で計算される部分)にお
いて、その音響スコアの計算の対象となっている単語を
決定することができない。即ち、上述の単語「秋田」と
「曙」の例でいえば、それぞれの先頭から2番目までの
音韻a,kについて音響スコアが計算されている場合は、
その音響スコアが計算されている単語が、「秋田」であ
るのか、または「曙」であるのかを同定することができ
ない。
【0022】そして、この場合、「秋田」については、
その3番目の音韻iについて音響スコアの計算が開始さ
れたときに、その計算対象が「秋田」であることを同定
することができ、「曙」についても、その3番目の音韻
eについての音響スコアの計算が開始されたときに、そ
の計算対象が「曙」であることを同定することができ
る。
【0023】従って、音響スコアの計算の一部を共通化
してしまうと、単語の音響スコアの計算の開始時に、そ
の単語を同定することができないため、その単語につい
て、言語スコアを考慮することができない。その結果、
単語の音響スコアの開始前に、上述したような言語的な
枝刈り手法を用いることが困難となり、無駄な計算が行
われることがある。
【0024】さらに、音響スコアの計算の一部を共通化
する場合、単語辞書のすべての単語を対象として、上述
したようなツリー構造のネットワークが構成されるか
ら、これを保持するための大きなメモリ容量が必要とな
る。
【0025】そこで、計算量およびメモリ容量の効率化
を図る方法として、音響スコアを計算する場合に、単語
辞書のすべての単語を対象とするのではなく、その音響
スコアの計算の対象とする単語を予備的に選択(予備選
択)し、その予備選択された単語についてだけ、音響ス
コア等を計算する方法がある。ここで、予備選択は、例
えば、それほど精度の高くない、簡易的な音響モデルや
文法規則を用いて行われる。
【0026】なお、予備選択の方法は、例えば、L. R.
Bahl, S. V. De Gennaro, P. S. Gopalakrishnan and
R. L. Mercer, "A Fast Approximate Acoustic Match f
or Large Vocabulary Speech Recognition", IEEE Tran
s. Speech and Audio Proc.,vol. 1, pp.59-67, 1993等
に記載されている。
【0027】ところで、単語の音響スコアは、音声の特
徴量の系列を用いて計算されるが、その計算に使用する
特徴量の系列の始点や終点が異なれば、求められる音響
スコアも変化する。そして、この変化は、音響スコアと
言語スコアとを総合評価して求められる式(1)の最終
スコアに影響する。
【0028】ある単語に対応する特徴量の系列の始点お
よび終点、即ち、単語どうしの境界(単語境界)は、例
えば、動的計画法(Dynamic Programming)を用いて求め
ることができる。即ち、特徴量の系列の任意の点を、単
語境界の候補とし、音声認識結果の候補となる単語列の
単語について、その音響スコアと言語スコアとを総合評
価したスコア(以下、適宜、単語スコアという)を、逐
次累積していく。そして、その単語スコアの累積の際
に、最も大きい累積値を与える単語境界の候補を、その
累積値とともに記憶していく。
【0029】これにより、最終的な単語スコアの累積値
が求めらると、最も良い累積値、即ち、最も大きい最終
スコアを与える単語境界も求められる。
【0030】上述のようにして単語境界を求める方法
は、ビタビデコーディング(Viterbi decoding)、あるい
はワンパスデコーディング(One pass decoding)等と呼
ばれ、例えば、中川聖一、「確率モデルによる音声認
識」、電子情報通信学会、pp.20-26、1988年7月1
日等に記載されている。
【0031】上述の予備選択を効果的に行うには、単語
境界をどこにするか、即ち、特徴量の系列(特徴量系
列)のどの点を始点とするかが重要である。
【0032】具体的には、例えば、図2(A)に示すよ
うな、音声「今日はいい天気ですね」について得られた
特徴量系列において、「今日」と「は」との正しい単語
境界が、時刻t1である場合において、単語「今日」に
続く単語「は」に関して予備選択を行うときに、正しい
時刻t1より先行する時刻t1-1を始点として予備選択を
行うと、その予備選択には、単語「は」の特徴量だけで
なく、その直前の単語「今日」の最後の部分の特徴量が
影響する。一方、正しい時刻t1より後行する時刻t1+1
を始点として予備選択を行うと、その予備選択において
は、単語「は」の最初の部分の特徴量が用いられないこ
とになる。
【0033】従って、いずれにしても、始点を誤ると、
予備選択、ひいては、その後に行われるマッチング処理
に悪影響を与えることとなる。
【0034】なお、図2においては(後述する図5にお
いても同様)、左から右方向が、時間の経過を表してお
り、また、音声区間の開始時刻を0として、音声区間は
時刻Tで終了するものとしてある。
【0035】上述した動的計画法を用いる方法では、特
徴量系列の最後、即ち、図2においては、音声区間の終
了時刻Tまでの単語スコア(音響スコアおよび言語スコ
ア)の計算が終了しないと、最終的な単語境界を決定す
ることができないため、予備選択を行う段階では、その
予備選択の始点となる単語境界を一意に決定することは
困難である。
【0036】そこで、単語境界の候補を、音声区間の特
徴量系列を用いた単語スコアの計算が終了するまで保持
しておく方法がある。
【0037】この方法では、例えば、音声区間の開始時
刻0を始点として、単語「今日」の単語スコアを計算し
た場合に、時刻t1-1,t1,t1+1が、単語「今日」の
発話の終点の候補として求まったとすると、この3通り
の時刻t1-1,t1,t1+1が保持され、それぞれを始点
として、次の単語の予備選択が行われる。
【0038】いま、この予備選択によって、時刻t1-1
を始点とした場合には、「は」と「いい」の2単語が、
時刻t1を始点とした場合には、「は」の1単語が、時
刻t1 +1を始点とした場合には、「は」と「いい」の2
単語が、それぞれ得られたとし、さらに、これらの各単
語を対象として単語スコアの計算を行うことにより、図
2(B)乃至図2(G)に示すような結果が得られたと
する。
【0039】即ち、図2(B)は、時刻t1-1を始点と
して、単語「は」の単語スコアの計算を行い、その終点
の候補として、時刻t2が得られた状態を示しており、
図2(C)は、時刻t1-1を始点として、単語「いい」
の単語スコアの計算を行い、その終点の候補として、時
刻t2+1が得られた状態を示している。また、図2
(D)は、時刻t1を始点として、単語「は」の単語ス
コアの計算を行い、その終点の候補として、時刻t2+1
が得られた状態を示しており、図2(E)は、時刻t1
を始点として、単語「は」の単語スコアの計算を行い、
その終点の候補として、時刻t2が得られた状態を示し
ている。さらに、図2(F)は、時刻t1+1を始点とし
て、単語「は」の単語スコアの計算を行い、その終点の
候補として、時刻t2が得られた状態を示しており、図
2(G)は、時刻t1+1を始点として、単語「いい」の
単語スコアの計算を行い、その終点の候補として、時刻
2+2が得られた状態を示している。なお、図2におい
ては、t1-1<t1<t1+1<t2<t 2+1<t2+2となって
いる。
【0040】図2(B)乃至図2(G)のうち、図2
(B)、図2(E)、および図2(F)に示したものに
ついては、いずれも、音声認識結果の候補としての単語
列が、「今日」、「は」で同一あり、さらに、その単語
列の最後「は」の終点も、時刻t2で同一であるから、
その中から最も適切なものを、例えば、時刻t2までの
単語スコアの累積値等に基づいて選び、残りを破棄する
ことが可能である。
【0041】しかしながら、いまの時点では、図2
(B)、図2(E)、または図2(F)のうちから選ん
だものに、図2(C)、図2(D)、図2(G)に示し
たものを加えた中から、正しいものを確定することはで
きないから、これらの4通りの場合を保持しておく必要
がある。そして、この4通りの場合それぞれについて、
再び、予備選択を行っていくことになる。
【0042】従って、この方法では、音声区間の特徴量
系列を用いた単語スコアの計算が終了するまで、多くの
単語境界の候補を保持しながら、単語スコアの計算を行
っていく必要があり、計算量およびメモリ容量の効率化
の観点からは好ましくない。
【0043】また、この場合、単語境界の候補として、
真に正しい単語境界を保持していれば、原理的には、上
述の動的計画法を用いた場合と同様の正しい単語境界
を、最終的に得ることができるが、その反面、単語境界
の候補として、真に正しい単語境界を保持し損ねると、
その単語境界を始点または終点とする単語を誤認識し、
さらには、それに起因して、その後に続く単語も誤認識
することがある。
【0044】一方、近年においては、音響モデルとし
て、前後のコンテキストに依存するもの(考慮したも
の)が用いられるようになってきている。前後のコンテ
キストに依存する音響モデルとは、同一の音節(または
音素)の音響モデルであっても、その直前や直後の音節
によって異なるものとしてモデル化したもので、従っ
て、例えば、音節「あ」は、その直前や直後の音節が、
例えば、「か」の場合と「さ」の場合とで、異なる音響
モデルにモデル化される。
【0045】前後のコンテキストに依存する音響モデル
としては、大きく分けて、単語内のコンテキストに依存
する音響モデルと、単語間にまたがるコンテキストに依
存する音響モデルとがある。
【0046】単語内のコンテキストに依存する音響モデ
ルを用いる場合には、「今日」(きょう)という単語モ
デルを、音響モデル「きょ」と「う」とを連結して作成
するときに、音響モデル「きょ」として、その直後の音
節「う」に依存したもの(直後の音節「う」の影響を考
慮した音響モデル「きょ」)が用いられ、あるいは、音
響モデル「う」として、その直前の音節「きょ」に依存
したものが用いられる。
【0047】一方、単語間にまたがるコンテキストに依
存する音響モデルを用いる場合には、上述のように、
「今日」という単語モデルを、音響モデル「きょ」と
「う」とを連結して作成するときに、その後につづく単
語が「は」であれば、音響モデル「う」として、その直
後の単語の最初の音節「は」に依存したものが用いられ
る。この単語間にまたがるコンテキストに依存する音響
モデルは、クロスワードモデルと呼ばれる。
【0048】このクロスワードモデルを、予備選択を行
う音声認識に適用した場合には、予備選択された単語に
ついて、その直前の単語との間のコンテキストは考慮す
ることができるが、その直後の単語は、まだ決まってい
ないから、その直後の単語との間のコンテキストは考慮
することができない。
【0049】そこで、予備選択される単語について、そ
の単語の直後に位置する可能性の高い単語を、あらかじ
め求めておき、その単語との間のコンテキストを考慮し
て、単語モデルを作成する方法がある。即ち、例えば、
単語「今日」について、その直後に、「は」や、
「が」、「の」などが位置する可能性が高い場合には、
単語「今日」の単語モデルの最後の音節に対応する音響
モデル「う」として、「は」、「が」、「の」をそれぞ
れ考慮したものを用いて、単語モデルを作成する方法が
ある。
【0050】しかしながら、この方法では、余分なコン
テキストまでも必ず考慮してしまうため、演算量および
メモリ容量の効率化の観点からは好ましくない。
【0051】また、同様の理由から、予備選択された単
語について、その言語スコアを、その直後の単語を考慮
して計算することも困難である。
【0052】一方、注目している単語(注目単語)に対
して先行する単語だけでなく、後行する単語も考慮した
音声認識方法としては、例えば、R. Schwartz and Y.
L. Chow, "The N-Best Algorithm: An Efficient and E
xact Procedure for FindingThe Most Likely Sentence
Hypotheses", Proc. ICASSP, pp.81-84, 1990に記載さ
れているような、2パスデコーディング(2 pass decodi
ng)と呼ばれる方法がある。
【0053】即ち、図3は、2パスデコーディングによ
る音声認識を行う、従来の音声認識装置の一例の概略構
成を示している。
【0054】図3において、マッチング部41は、例え
ば、図1のマッチング部4と同様のマッチング処理を行
い、その結果得られる単語列を出力する。但し、マッチ
ング部41は、マッチング処理の結果得られる複数の単
語列から、最終的な音声認識結果となるものを1つだけ
出力するのではなく、音声認識結果の候補として確から
しいものを複数出力する。
【0055】マッチング部41の出力は、マッチング部
2に供給され、マッチング部42は、マッチング部41
が出力する複数の単語列それぞれについて、その単語列
を音声認識結果とすることの確からしさを再評価するマ
ッチング処理を行う。即ち、マッチング部41が出力す
る音声認識結果としての単語列においては、ある単語の
直前の単語だけでなく、直後の単語も存在するから、マ
ッチング部42では、直前の単語だけでなく、直後の単
語も考慮して、クロスワードモデルによって、音響スコ
アや言語スコアが新たに求められる。そして、マッチン
グ部42は、マッチング部41からの複数の単語列から、
各単語列の新たな音響スコアおよび言語スコアに基づい
て、音声認識結果として確からしいものを決定して出力
する。
【0056】なお、以上のような2パスデコーディング
では、一般に、最初のマッチング処理を行うマッチング
部41では、精度のそれほど高くない、簡易な音響モデ
ル、単語辞書、および文法規則が用いられ、後段のマッ
チング処理を行うマッチング部42では、高精度の音響
モデル、単語辞書、文法規則が用いられる。これによ
り、図3の音声認識装置では、マッチング部41と42
れぞれにおける処理量が、相互に緩和される一方、精度
の高い音声認識結果を得ることができるようになってい
る。
【0057】図3は、上述のように、2パスデコーディ
ングの音声認識装置であるが、図3の後段のマッチング
部42の後段に、同様のマッチング部を追加したマルチ
パスデコーディング(multi pass decoding)の音声認識
装置も提案されている。
【0058】しかしながら、2パスデコーディングやマ
ルチパスデコーディングでは、最初のマッチング処理が
終了するまで、次のマッチング処理を行うことができな
い。従って、音声の入力があってから、最終的な音声認
識結果が出力されるまでの遅延時間が大になる。
【0059】そこで、例えば、幾つかの単語についての
最初のマッチング処理が終了した時点で、その幾つかの
単語については、クロスワードモデルを適用して後段の
マッチング処理を行うことを逐次的に繰り返す方法が、
例えば、M. Schuster, "Evaluation of a Stack Decode
r on a Japanese Newspaper Dictation Task", 音講論,
1-R-12, pp.141-142, 1997等で提案されている。
【0060】
【発明が解決しようとする課題】以上のように、音声認
識処理の高速化および高精度化のために各種の手法が提
案されているが、さらなる高速化を図るためには、単語
の予備選択に要する時間を短縮する必要がある。
【0061】一方、単語の予備選択において、音声認識
結果として正しい単語が選択されない場合には、音声認
識精度が劣化することになる。
【0062】本発明は、このような状況に鑑みてなされ
たものであり、音声認識精度を劣化させずに、予備選択
に要する計算量を低減し、音声認識処理の高速化を図る
ことができるようにするものである。
【0063】
【課題を解決するための手段】本発明の第1の音声認識
装置は、音声認識の対象とする単語群を探索し、音声認
識結果の候補となる単語を選択する単語選択手段が、単
語の探索の中断が可能かどうかを判定し、単語の探索の
中断が可能な場合には、単語の探索を中断し、それまで
に選択した単語と、探索途中の単語とを、音声認識結果
の候補となる単語として出力することを特徴とする。
【0064】本発明の第1の音声認識方法は、音声認識
の対象とする単語群を探索し、音声認識結果の候補とな
る単語を選択する単語選択ステップにおいて、単語の探
索の中断が可能かどうかを判定し、単語の探索の中断が
可能な場合には、単語の探索を中断し、それまでに選択
した単語と、探索途中の単語とを、音声認識結果の候補
となる単語として出力することを特徴とする。
【0065】本発明の第1のプログラムは、音声認識の
対象とする単語群を探索し、音声認識結果の候補となる
単語を選択する単語選択ステップにおいて、単語の探索
の中断が可能かどうかを判定し、単語の探索の中断が可
能な場合には、単語の探索を中断し、それまでに選択し
た単語と、探索途中の単語とを、音声認識結果の候補と
なる単語として出力することを特徴とする。
【0066】本発明の第1の記録媒体は、音声認識の対
象とする単語群を探索し、音声認識結果の候補となる単
語を選択する単語選択ステップにおいて、単語の探索の
中断が可能かどうかを判定し、単語の探索の中断が可能
な場合には、単語の探索を中断し、それまでに選択した
単語と、探索途中の単語とを、音声認識結果の候補とな
る単語として出力するプログラムが記録されていること
を特徴とする。
【0067】本発明の第2の音声認識装置は、音声認識
の対象とする単語群の単語の構成要素をノードとして構
成されたツリー構造であって、ノードが単語の途中で打
ち切られたものにしたがって、ツリー構造のノードにつ
いてスコアを計算しながら、単語を探索し、探索された
単語のスコアに基づいて、音声認識結果の候補となる単
語を選択する単語選択手段を備えることを特徴とする。
【0068】本発明の第2の音声認識方法は、音声認識
の対象とする単語群の単語の構成要素をノードとして構
成されたツリー構造であって、ノードが単語の途中で打
ち切られたものにしたがって、ツリー構造のノードにつ
いてスコアを計算しながら、単語を探索し、探索された
単語のスコアに基づいて、音声認識結果の候補となる単
語を選択する単語選択ステップを備えることを特徴とす
る。
【0069】本発明の第2のプログラムは、音声認識の
対象とする単語群の単語の構成要素をノードとして構成
されたツリー構造であって、ノードが単語の途中で打ち
切られたものにしたがって、ツリー構造のノードについ
てスコアを計算しながら、単語を探索し、探索された単
語のスコアに基づいて、音声認識結果の候補となる単語
を選択する単語選択ステップを備えることを特徴とす
る。
【0070】本発明の第2の記録媒体は、音声認識の対
象とする単語群の単語の構成要素をノードとして構成さ
れたツリー構造であって、ノードが単語の途中で打ち切
られたものにしたがって、ツリー構造のノードについて
スコアを計算しながら、単語を探索し、探索された単語
のスコアに基づいて、音声認識結果の候補となる単語を
選択する単語選択ステップを備えるプログラムが記録さ
れていることを特徴とする。
【0071】本発明の第1の音声認識装置および音声認
識方法、並びにプログラムにおいては、単語の探索の中
断が可能かどうかが判定され、単語の探索の中断が可能
な場合には、単語の探索が中断される。そして、それま
でに選択された単語と、探索途中の単語とが、音声認識
結果の候補となる単語として出力される。
【0072】本発明の第2の音声認識装置および音声認
識方法、並びにプログラムにおいては、音声認識の対象
とする単語群の単語の構成要素をノードとして構成され
たツリー構造であって、ノードが単語の途中で打ち切ら
れたものにしたがって、ツリー構造のノードについてス
コアを計算しながら、単語が探索され、探索された単語
のスコアに基づいて、音声認識結果の候補となる単語が
選択される。
【0073】
【発明の実施の形態】図4は、本発明を適用した音声認
識装置の一実施の形態の構成例を示している。なお、図
中、図1における場合と対応する部分については、同一
の符号を付してあり、以下では、その説明は、適宜省略
する。
【0074】特徴量抽出部3が出力する、ユーザが発し
た音声の特徴量の系列は、フレーム単位で、制御部11
に供給されるようになっており、制御部11は、特徴量
抽出部3からの特徴量を、特徴量記憶部12に供給す
る。
【0075】また、制御部11は、単語接続情報記憶部
16に記憶された単語接続情報を参照し、認識部14を
制御する。さらに、制御部11は、認識部14が、前述
した図1のマッチング部4と同様のマッチング処理を行
うことにより得られるマッチング処理結果としての音響
スコアや言語スコア等に基づいて、単語接続情報を生成
し、その単語接続情報によって、単語接続情報記憶部1
6の記憶内容を更新する。また、制御部11は、単語接
続情報記憶部16に記憶された単語接続情報に基づい
て、最終的な音声認識結果を確定して出力する。
【0076】特徴量記憶部12は、制御部11から供給
される特徴量の系列を、例えば、ユーザの音声の認識結
果が得られるまで記憶する。なお、制御部11は、音声
区間の開始時刻を基準(例えば0)とする、特徴抽出部
3が出力する特徴量が得られた時刻(以下、適宜、抽出
時刻という)を、その特徴量とともに、特徴量記憶部1
2に供給するようになっており、特徴量記憶部12は、
特徴量を、その抽出時刻とともに記憶する。
【0077】単語予備選択部13は、認識部14からの
要求に応じ、単語接続情報記憶部16、音響モデルデー
タベース17A、辞書データベース18A、および文法
データベース19Aを必要に応じて参照しながら、認識
部14でのマッチング処理の対象とする単語、つまり、
音声認識結果の候補となる単語を選択する単語予備選択
処理を、特徴量記憶部12に記憶された特徴量を用いて
行う。なお、単語予備選択部13は、基本的には、前述
した図1のマッチング部4と同様のマッチング処理を行
うことで、音響スコアや言語スコアを求め、それらのス
コアに基づいて、認識部14でのマッチング処理の対象
とする単語を選択(予備選択)する。
【0078】認識部14は、制御部11からの制御に基
づき、単語接続情報記憶部16、音響モデルデータベー
ス17B、辞書データベース18B、および文法データ
ベース19Bを必要に応じて参照しながら、単語予備選
択部13からの単語予備選択処理の結果得られる単語を
対象としたマッチング処理を、特徴量記憶部12に記憶
された特徴量を用いて行い、そのマッチング処理の結果
を、制御部11に供給する。
【0079】単語接続情報記憶部16は、制御部11か
ら供給される単語接続情報を、ユーザの音声の認識結果
が得られるまで記憶する。
【0080】ここで、単語接続情報は、最終的な音声認
識結果の候補となる単語列を構成する単語どうしの接続
(連鎖または連接)関係を表すもので、各単語の音響ス
コアおよび言語スコア、並びに各単語に対応する発話の
開始時刻および終了時刻を含んでいる。
【0081】即ち、図5は、単語接続情報記憶部16に
記憶される単語接続情報を、グラフ構造を用いて示して
いる。
【0082】図5の実施の形態において、単語接続情報
としてのグラフ構造は、単語を表すアーク(図5におい
て、○印どうしを結ぶ線分で示す部分)と、単語どうし
の境界を表すノード(図5において○印で示す部分)と
から構成されている。
【0083】ノードは、時刻情報を有しており、この時
刻情報は、そのノードに対応する特徴量の抽出時刻を表
す。上述したように、抽出時刻は、音声区間の開始時刻
を0とする、特徴抽出部3が出力する特徴量が得られた
時刻であるから、図5において、音声区間の開始、即
ち、最初の単語の先頭に対応するノードNode1が有する
時刻情報は0となる。ノードは、アークの始端および終
端となるが、始端のノード(始端ノード)、または終端
のノード(終端ノード)が有する時刻情報は、それぞ
れ、そのノードに対応する単語の発話の開始時刻、また
は終了時刻となる。
【0084】なお、図5では、左から右方向が、時間の
経過を表しており、従って、あるアークの左右にあるノ
ードのうち、左側のノードが始端ノードとなり、右側の
ノードが終端ノードとなる。
【0085】アークは、そのアークに対応する単語の音
響スコアおよび言語スコアを有しており、このアーク
が、終端ノードとなっているノードを始端ノードとし
て、順次接続されていくことにより、音声認識結果の候
補となる単語の系列が構成されていく。
【0086】即ち、制御部11においては、まず最初
に、音声区間の開始を表すノードNode 1に対して、音声
認識結果として確からしい単語に対応するアークが接続
される。図5の実施の形態では、「今日」に対応するア
ークArc1、「いい」に対応するアークArc6、および「天
気」に対応するArc11が接続されている。なお、音声認
識結果として確からしい単語かどうかは、認識部14に
おいて求められる音響スコアおよび言語スコアに基づい
て決定される。
【0087】そして、以下、同様にして、「今日」に対
応するアークArc1の終端である終端ノードNode2、「い
い」に対応するアークArc6の終端である終端ノードNode
7、「天気」に対応するArc11の終端である終端ノードNo
de12それぞれに対して、同様に、確からしい単語に対応
するアークが接続されていく。
【0088】以上のようにしてアークが接続されていく
ことで、音声区間の開始を始点として、左から右方向
に、アークとノードで構成される1以上のパスが構成さ
れて行くが、例えば、そのパスのすべてが、音声区間の
最後(図5の実施の形態では、時刻T)に到達すると、
制御部11において、音声区間の開始から最後までに形
成された各パスについて、そのパスを構成するアークが
有している音響スコアおよび言語スコアが累積され、最
終スコアが求められる。そして、例えば、その最終スコ
アが最も高いパスを構成するアークに対応する単語列
が、音声認識結果として確定されて出力される。
【0089】具体的には、例えば、図5において、ノー
ドNode1から、「今日」に対応するアークArc1、ノードN
ode2、「は」に対応するアークArc2、ノードNode3
「いい」に対応するアークArc3、ノードNode4、「天
気」に対応するアークArc4、ノードNode5、「ですね」
に対応するアークArc5、およびノードNode6で構成され
るパスについて、最も高い最終スコアが得られた場合に
は、単語列「今日」、「は」、「いい」、「天気」、
「ですね」が、音声認識結果として出力されることにな
る。
【0090】なお、上述の場合には、音声区間内にある
ノードについて、必ずアークを接続して、音声区間の開
始から最後にまで延びるパスを構成するようにしたが、
このようなパスを構成する過程において、それまでに構
成されたパスについてのスコアから、音声認識結果とし
て不適当であることが明らかであるパスに関しては、そ
の時点で、パスの構成を打ち切る(その後に、アークを
接続しない)ようにすることが可能である。
【0091】また、上述のようなパスの構成ルールに従
えば、1つのアークの終端が、次に接続される1以上の
アークの始端ノードなり、基本的には、枝葉が拡がるよ
うに、パスが構成されて行くが、例外的に、1つのアー
クの終端が、他のアークの終端に一致する場合、つま
り、あるアークの終端ノードと、他のアークの終端ノー
ドとが同一のノードに共通化される場合がある。
【0092】即ち、文法規則としてバイグラムを用いた
場合には、別のノードから延びる2つのアークが、同一
の単語に対応するものであり、さらに、その単語の発話
の終了時刻も同一であるときには、その2つのアークの
終端は一致する。
【0093】図5において、ノードNode7を始端として
延びるアークArc7、およびノードNode13を始端として
延びるアークArc13は、いずれも「天気」に対応するも
のであり、その発話の終了時刻も同一であるため、その
終端ノードは、同一のノードNode8に共通化されてい
る。
【0094】なお、ノードの共通化は行わないようにす
ることも可能であるが、メモリ容量の効率化の観点から
は、行うのが好ましい。
【0095】図4に戻り、音響モデルデータベース17
Aおよび17Bは、基本的には、図1の音響モデルデー
タベース5において説明したような音響モデルを記憶し
ている。
【0096】但し、音響モデルデータベース17Bは、
音響モデルデータベース17Aよりも精度の高い処理が
可能な高精度の音響モデルを記憶している。即ち、音響
モデルデータベース17Aにおいて、各音素や音節につ
いて、例えば、前後のコンテキストに依存しない1パタ
ーンの音響モデルだけが記憶されているとすると、音響
モデルデータベース17Bには、各音素や音節につい
て、例えば、前後のコンテキストに依存しない音響モデ
ルの他、単語間にまたがるコンテキストに依存する音響
モデル、つまり、クロスワードモデルも記憶されてい
る。なお、音響モデルデータベース17Bには、各音素
や音節について、例えば、前後のコンテキストに依存し
ない音響モデルおよびクロスワードモデルの他、さら
に、単語内のコンテキストに依存する音響モデル等も記
憶させることが可能である。
【0097】辞書データベース18Aおよび18Bは、
基本的には、図1の辞書データベース6において説明し
たような単語辞書を記憶している。
【0098】即ち、辞書データベース18Aおよび18
Bの単語辞書には、同一セットの単語が登録されてい
る。但し、辞書データベース18Bの単語辞書は、辞書
データベース18Aの単語辞書よりも精度の高い処理が
可能な高精度の音韻情報を記憶している。即ち、辞書デ
ータベース18Aの単語辞書には、例えば、各単語に対
して、1通りの音韻情報(読み)だけ登録されていると
すると、辞書データベース18Bの単語辞書には、例え
ば、各単語に対して、複数通りの音韻情報が登録されて
いる。なお、辞書データベース18Bの単語辞書には、
その他、例えば、各単語に対して、さらに多くの通りの
音韻情報を登録することが可能である。
【0099】具体的には、例えば、単語「お早う」に対
して、辞書データベース18Aの単語辞書には、1通り
の音韻情報「おはよう」だけを、辞書データベース18
Bの単語辞書には、「おはよう」の他、「おはよー」や
「おはよ」を、それぞれ音韻情報として登録することが
可能である。
【0100】文法データベース19Aおよび19Bは、
基本的には、図1の文法データベース7において説明し
たような文法規則を記憶している。
【0101】但し、文法データベース19Bは、文法デ
ータベース19Aよりも精度の高い処理が可能な高精度
の文法規則を記憶している。即ち、文法データベース1
9Aが、例えば、ユニグラム(単語の生起確率)に基づ
く文法規則を記憶しているとすると、文法データベース
19Bは、例えば、バイグラム(直前の単語との関係を
考慮した単語の生起確率)を記憶している。なお、文法
データベース19Bには、その他、例えば、トライグラ
ム(直前の単語およびそのさらに1つ前の単語との関係
を考慮した単語の生起確率)や文脈自由文法等に基づく
文法規則等を記憶させることも可能である。
【0102】以上のように、音響モデルデータベース1
7Aには、各音素や音節について、1パターンの音響モ
デルが、音響モデルデータベース17Bには、各音素や
音節について、複数パターンの音響モデルが、それぞれ
記憶されている。また、辞書データベース18Aには、
各単語について、1通りの音韻情報が、辞書データベー
ス18Bには、各単語について、複数通りの音韻情報
が、それぞれ記憶されている。そして、文法データベー
ス19Aには、簡易な文法規則が、文法データベース1
9Bには、精度の高い文法規則が、それぞれ記憶されて
いる。
【0103】これにより、音響モデルデータベース17
A、辞書データベース18A、および文法データベース
19Aを参照する単語予備選択部13では、それほど精
度は高くないが、多くの単語を対象として、迅速に、音
響スコアおよび言語スコアを求めることができるように
なっている。また、音響モデルデータベース17B、辞
書データベース18B、および文法データベース19B
を参照する認識部14では、ある程度の数の単語を対象
として、迅速に、精度の高い音響スコアおよび言語スコ
アを求めることができるようになっている。
【0104】なお、ここでは、音響モデルデータベース
17Aと17Bそれぞれに記憶させる音響モデルの精度
について優劣を設けるようにしたが、音響モデルデータ
ベース17Aと17Bには、いずれにも、同一の音響モ
デルを記憶させることができ、この場合、音響モデルデ
ータベース17Aと17Bは、1つの音響モデルデータ
ベースに共通化することができる。同様に、辞書データ
ベース18Aと18Bの単語辞書それぞれの記憶内容
や、文法データベース19Aと19Bそれぞれの文法規
則も、同一にすることができる。
【0105】次に、図6のフローチャートを参照して、
図4の音声認識装置による音声認識処理について説明す
る。
【0106】ユーザが発話を行うと、その発話としての
音声は、マイク1およびAD変換部2を介することによ
り、ディジタルの音声データとされ、特徴抽出部3に供
給される。特徴抽出部3は、そこに供給される音声デー
タから、音声の特徴量を、フレームごとに順次抽出し、
制御部11に供給する。
【0107】制御部11は、何らかの手法で音声区間を
認識するようになっており、音声区間においては、特徴
抽出部3から供給される特徴量の系列を、各特徴量の抽
出時刻と対応付けて、特徴量記憶部12に供給して記憶
させる。
【0108】さらに、制御部11は、音声区間の開始
後、ステップS1において、音声区間の開始を表すノー
ド(以下、適宜、初期ノードという)を生成し、単語接
続情報記憶部16に供給して記憶させる。即ち、制御部
11は、ステップS1において、図5におけるノードNo
de1を、単語接続情報記憶部16に記憶させる。
【0109】そして、ステップS2に進み、制御部11
は、単語接続情報記憶部16の単語接続情報を参照する
ことで、途中ノードが存在するかどうかを判定する。
【0110】即ち、上述したように、図5に示した単語
接続情報においては、終端ノードに、アークが接続され
ていくことにより、音声区間の開始から最後にまで延び
るパスが形成されて行くが、ステップS2では、終端ノ
ードのうち、まだアークが接続されておらず、かつ、音
声区間の最後にまで到達していないものが、途中ノード
(例えば、図5におけるノードNode8や、Node10,Node
11)として検索され、そのような途中ノードが存在する
かどうかが判定される。
【0111】なお、上述したように、音声区間は何らか
の手法で認識され、さらに、終端ノードに対応する時刻
は、その終端ノードが有する時刻情報を参照することで
認識することができるから、アークが接続されていない
終端ノードが、音声区間の最後に到達していない途中ノ
ードであるかどうかは、音声区間の最後の時刻と、終端
ノードが有する時刻情報とを比較することで判定するこ
とができる。
【0112】ステップS2において、途中ノードが存在
すると判定された場合、ステップS3に進み、制御部1
1は、情報接続情報の中に存在する途中ノードのうちの
1つを、それに接続するアークとしての単語を決定する
ノード(以下、適宜、注目ノードという)として選択す
る。
【0113】即ち、制御部11は、情報接続情報の中に
1つの途中ノードしか存在しない場合には、その途中ノ
ードを、注目ノードとして選択する。また、制御部11
は、情報接続情報の中に複数の途中ノードが存在する場
合には、その複数の途中ノードのうちの1つを注目ノー
ドとして選択する。具体的には、制御部11は、例え
ば、複数の途中ノードそれぞれが有する時刻情報を参照
し、その時刻情報が表す時刻が最も古いもの(音声区間
の開始側のもの)、または最も新しいもの(音声区間の
終わり側のもの)を、注目ノードとして選択する。ある
いは、また、制御部11は、例えば、初期ノードから、
複数の途中ノードそれぞれに至るまでのパスを構成する
アークが有する音響スコアおよび言語スコアを累積し、
その累積値(以下、適宜、部分累積スコアという)が最
も大きくなるパス、または小さくなるパスの終端になっ
ている途中ノードを、注目ノードとして選択する。
【0114】その後、制御部11は、注目ノードが有す
る時刻情報を開始時刻としてマッチング処理を行う旨の
指令(以下、適宜、マッチング処理指令という)を、認
識部14に出力する。
【0115】認識部14は、制御部11からマッチング
処理指令を受信すると、注目ノードと、それが有する時
刻情報とを、単語予備選択部13に供給し、単語予備選
択処理を要求する。
【0116】単語予備選択部13は、認識部14から、
単語予備選択処理の要求を受信すると、ステップS4に
おいて、注目ノードに接続されるアークとなる単語の候
補を選択する単語予備選択処理を、辞書データベース1
8Aの単語辞書に登録された単語を対象として行う。
【0117】即ち、単語予備選択部13は、言語スコア
および音響スコアを計算するのに用いる特徴量の系列の
開始時刻を、注目ノードが有する時刻情報から認識し、
その開始時刻以降の、必要な特徴量の系列を特徴量記憶
部12から読み出す。さらに、単語予備選択部13は、
辞書データベース18Aの単語辞書に登録された各単語
の単語モデルを、音響モデルデータベース17Aに記憶
された音響モデルを接続することで構成する。そして、
単語予備選択部13は、各単語モデルに対応する単語に
ついて、特徴量記憶部12から読み出した特徴量の系列
を用いて、音響スコアを計算する。
【0118】ここで、辞書データベース18Aの単語辞
書には、例えば、図7(A)に示すように、各単語につ
いて、ユニークなIDとしての単語ID、単語の表記、
および単語の発音(音韻情報)をセットにしたものが登
録されている。
【0119】単語予備選択部13は、単語辞書を参照す
ることにより、例えば、図7(B)に示すような、各単
語の構成要素としての音素等をノードとして、各単語に
おける同一の音素を共通のノードとしたツリー構造のネ
ットワーク(以下、適宜、単語ネットワークという)を
構成し、その単語ネットワークにしたがって、そのノー
ドを探索することにより、各単語について、音響スコア
を計算する。なお、単語ネットワークは、予め構成して
おくことが可能である。
【0120】ここで、単語ネットワークにおけるノード
を、単語接続情報におけるノードと区別するために、以
下、適宜、音素ノードという。
【0121】なお、図7(B)の実施の形態における単
語ネットワークは、左側が上位階層で、右側にいくほど
下位階層になるようになっており、最上位階層の音素ノ
ードN0は、音素が割り当てられないルートノード(ROO
T)となっている。
【0122】また、図7(B)の単語ネットワークは、
図7(A)に示した単語辞書に登録された6単語
「秋」、「秋田」、「空き地」、「明かり」、「明る
い」、および「言う」について構成されたものであり、
ルートノードN0の2つの子音素ノード(ある音素ノー
ドに直接接続されている下位階層の音素ノード)のうち
の1つである音素ノードN1には、単語「秋」、「秋
田」、「空き地」、「明かり」、「明るい」に共通する
先頭の音素"a"が割り当てられている。
【0123】さらに、音素ノードN1の子音素ノードN2
には、単語「秋」、「秋田」、「空き地」、「明か
り」、「明るい」に共通する先頭から2番目の音素"k"
が割り当てられてられており、音素ノードN2の2つの
子音素ノードのうちの1つである音素ノードN3には、
単語「秋」、「秋田」、「空き地」に共通する先頭から
3番目の音素"i"が割り当てられている。
【0124】また、音素ノードN3の子音素ノードであ
る音素ノードN4には、単語「秋田」、「空き地」に共
通する先頭から4番目の音素"t"が割り当てられてお
り、音素ノードN4の2つの子音素ノードのうちの1つ
である音素ノードN5には、単語「秋田」の最後の音素"
a"が割り当てられている。
【0125】さらに、音素ノードN4の2つの子音素ノ
ードのうちの他の1つである音素ノードN6には、単語
「空き地」の最後の音素"i"が割り当てられており、音
素ノードN2の2つの子音素ノードの他の1つである音
素ノードN7には、単語「明かり」、「明るい」に共通
する先頭から3番目の音素"a"が割り当てられている。
【0126】また、音素ノードN7の子音素ノードであ
る音素ノードN8には、単語「明かり」、「明るい」に
共通する先頭から4番目の音素"r"が割り当てられてお
り、音素ノードN8の2つの子音素ノードのうちの1つ
である音素ノードN9には、単語「明かり」の最後の音
素"i"が割り当てられている。
【0127】さらに、音素ノードN8の2つの子音素ノ
ードのうちの他の1つである音素ノードN10には、単語
「明るい」の先頭から5番目の音素"u"が割り当てられ
ており、音素ノードN10の子音素ノードである音素ノー
ドN11には、単語「明るい」の最後の音素"i"が割り当
てられている。
【0128】また、ルートノードN0の2つの子音素ノ
ードのうちの他の1つである音素ノードN12には、単語
「言う」の先頭の音素"i"が割り当てられており、音素
ノードN12の子音素ノードである音素ノードN13には、
単語「言う」の先頭から2番目の音素"u"が割り当てら
れている。
【0129】さらに、図7(B)の単語ネットワークに
おいては、単語の最後の音素が割り当てられている音素
ノードに、その単語の単語IDが登録されている。即
ち、図7(B)の実施の形態においては、単語「秋」の
最後の音素"i"が割り当てられている音素ノードN3
は、その単語「秋」の単語IDである#1が、単語「秋
田」の最後の音素"a"が割り当てられている音素ノード
5には、その単語「秋田」の単語IDである#2が、
単語「空き地」の最後の音素"i"が割り当てられている
音素ノードN6には、その単語「空き地」の単語IDで
ある#3が、単語「明かり」の最後の音素"i"が割り当
てられている音素ノードN9には、その単語「明かり」
の単語IDである#4が、単語「明るい」の最後の音
素"i"が割り当てられている音素ノードN11には、その
単語「明るい」の単語IDである#5が、単語「言う」
の最後の音素"u"が割り当てられている音素ノードN13
には、その単語「言う」の単語IDである#6が、それ
ぞれ登録されている。
【0130】また、図7(B)の単語ネットワークにお
いては、各音素ノードに、その音素ノード以下の音素ノ
ード(その音素ノードの階層以下の階層の音素ノード)
を終端とする単語の数(以下、適宜、残り単語数とい
う)も登録されている。図7(B)では、音素ノードを
表す四角形を区切る点線の下側に記述してある数字が、
残り単語数を表している。
【0131】例えば、音素ノードN2に注目した場合、
その音素ノード以下の音素ノードを終端とする単語は、
単語IDが#1乃至#5の5つの単語があるから、残り
単語数は5になっている。また、例えば、音素ノードN
3に注目した場合、その音素ノード以下の音素ノードを
終端とする単語は、単語IDが#1乃至#3の3つの単
語があるから、残り単語数は3になっている。他の音素
ノードについても、同様にして、残り単語数が登録され
ている。
【0132】単語予備選択部13は、以上のような単語
ネットワークにしたがって、音響モデルデータベース1
7Aに記憶された音響モデルを接続し、注目している音
素ノード(以下、適宜、注目音素ノードという)につい
て、例えば、いわゆるビタビサーチの手法にしたがっ
て、音響スコアを計算する。
【0133】即ち、単語予備選択部13は、注目してい
る時刻(以下、適宜、注目時刻という)tの特徴量に対
して、注目音素ノードの親音素ノード(ある音素ノード
に直接接続している上位階層の音素ノード)となってい
る音素ノードから注目音素ノードへ遷移する尤度を表す
スコアを、音響モデルに基づいて求め、さらに、そのス
コアと、注目音素ノードの親音素ノードの、注目時刻t
の直前の時刻t−1の音響スコアとを加算したスコア
(以下、適宜、親遷移スコアという)を求める。
【0134】また、単語予備選択部13は、注目音素ノ
ードから注目音素ノードへ遷移する尤度を表すスコア
を、音響モデルに基づいて求め、さらに、そのスコア
と、注目音素ノードの、注目時刻tの直前の時刻t−1
の音響スコアとを加算したスコア(以下、適宜、自己遷
移スコアという)を求める。
【0135】その後、単語予備選択部13は、親遷移ス
コアと自己遷移スコアとを比較し、大きい方のスコアを
求める。さらに、単語予備選択部13は、注目音素ノー
ドから、注目時刻の特徴量が観測される尤度を表すスコ
アを、音響モデルに基づいて求め、そのスコアと、親遷
移スコアまたは自己遷移スコアのうちの大きい方のスコ
アとを加算する。そして、単語予備選択部13は、その
加算の結果得られるスコアを、注目音素ノードの、注目
時刻tの音響スコアとする。
【0136】単語選択部13は、上述のようにして、単
語ネットワークの各音素ノードを注目音素ノードとし
て、音響スコアを求めていく他、文法データベース19
Aを参照することにより、各単語について、言語スコア
を計算する。
【0137】そして、単語予備選択部13は、各単語に
ついて音響スコアおよび言語スコア(以下、適宜、両方
含めて、単語スコアという)を求めると、その単語スコ
アに基づき、認識部14でのマッチング処理の対象とす
る1以上の単語を選択して、認識部14に供給する。
【0138】なお、単語予備選択部13では、単語接続
情報記憶部16を参照することにより、注目ノードを終
端とする単語を考慮して、即ち、クロスワードモデルに
基づいて、音響スコアを計算するようにすることが可能
である。
【0139】また、単語予備選択部13では、注目ノー
ドを始点として固定し、終点フリーで、各単語について
の音響スコアが計算される。さらに、単語予備選択部1
3では、特徴量記憶部12に記憶された特徴量の系列に
沿って、即ち、フレーム同期で、音響スコアが計算され
る。
【0140】さらに、図7に示した単語ネットワークの
各音素ノードには、ツリー構造を構成するための、例え
ば、親音素ノードへのポインタや、音響スコアおよび言
語スコアも登録可能になっている。
【0141】認識部14は、単語予備選択部13から、
マッチング処理に用いる1以上の単語(以下、適宜、候
補単語という)を受信すると、ステップS5において、
各候補単語を対象として、マッチング処理を行う。
【0142】即ち、認識部14は、言語スコアおよび音
響スコアを計算するのに用いる特徴量の系列の開始時刻
を、注目ノードが有する時刻情報から認識し、その開始
時刻以降の、必要な特徴量の系列を特徴量記憶部12か
ら読み出す。さらに、認識部14は、辞書データベース
18Bを参照することで、候補単語の音韻情報を認識
し、その音韻情報に対応する音響モデルを、音響モデル
データベース17Bから読み出して接続することで、単
語モデルを構成する。
【0143】そして、認識部14は、上述のようにして
構成した単語モデルに基づき、特徴量記憶部12から読
み出した特徴量系列を用いて、各候補単語の音響スコア
を計算する。
【0144】また、認識部14は、文法データベース1
9Bを参照することで、候補単語の言語スコアを計算す
る。
【0145】認識部14は、以上のようにして、単語予
備選択部13からの1以上の候補単語すべてについて、
その音響スコアおよび言語スコアを求め、ステップS6
に進む。ステップS6では、1以上の候補単語それぞれ
について、その音響スコアおよび言語スコア(単語スコ
ア)に基づいて、単語接続情報記憶部16に記憶された
単語接続情報が更新される。
【0146】即ち、ステップS6では、認識部14は、
各候補単語についての単語スコアを所定の閾値と比較す
ること等によって、注目ノードに接続するアークとして
の単語を、1以上の候補単語の中から絞り込む。そし
て、認識部14は、その絞り込みの結果残った候補単語
を、その音響スコア、言語スコア、およびその候補単語
の終了時刻とともに、制御部11に供給する。
【0147】なお、候補単語の終了時刻は、音響スコア
を計算するのに用いた特徴量の抽出時刻から認識され
る。また、ある単語について、その終了時刻としての蓋
然性の高い抽出時刻が複数得られた場合には、その単語
については、各終了時刻と、対応する音響スコアおよび
言語スコアとのセットが、制御部11に供給される。
【0148】制御部11は、上述のようにして認識部1
4から供給される、1以上の候補単語の音響スコア、言
語スコア、および終了時刻を受信すると、認識部14か
らの各候補単語について、単語接続情報記憶部16に記
憶された単語接続情報(図5)における注目ノードを始
端ノードとして、アークを延ばし、そのアークを、終了
時刻の位置に対応する終端ノードに接続する。さらに、
制御部11は、各アークに対して、対応する単語、並び
にその音響スコアおよび言語スコアを付与するととも
に、各アークの終端ノードに対して、対応する終了時刻
を時刻情報として与える。そして、ステップS2に戻
り、以下、同様の処理が繰り返される。
【0149】なお、制御部11は、単語接続情報を更新
する際に、可能であれば、上述したような終端ノードの
共通化を行う。
【0150】一方、ステップS2において、途中ノード
が存在しないと判定された場合、ステップS7に進み、
制御部11は、単語接続情報を参照することで、その単
語接続情報として構成された各パスについて、単語スコ
アを累積することで、最終スコアを求め、例えば、その
最終スコアが最も大きいパスを構成するアークに対応す
る単語列を、ユーザの発話に対する音声認識結果として
出力して、処理を終了する。
【0151】次に、図8のフローチャートを参照して、
単語予備選択部13による、図6のステップS4におけ
る単語予備選択処理について、さらに説明する。
【0152】単語予備選択部13は、まず最初に、ステ
ップS11において、単語予備選択処理のための初期化
を行う。即ち、単語予備選択部13は、単語ネットワー
ク(図7(B))の各音素ノードのスコア(音響スコ
ア、言語スコア)を初期化する。さらに、単語予備選択
部13は、ルートノード以外のすべての音素ノードを非
アクティブにするとともに、ルートノードをアクティブ
にする。
【0153】ここで、本実施の形態では、音素ノードに
ついて、アクティブな状態と、非アクティブな状態とが
定義されている。アクティブな音素ノードは、単語予備
選択部13におけるスコア計算の対象とされ、非アクテ
ィブな音素ノードは、単語予備選択部13におけるスコ
ア計算の対象化から除外される。
【0154】ステップS11の処理後は、ステップS1
2に進み、単語予備選択部13は、認識部14からの注
目ノードが有する時刻情報が表す時刻以降の時刻のう
ち、まだ、注目時刻としていない、最も先行する時刻を
注目時刻とし、その注目時刻の特徴量を、注目特徴量と
して、特徴量記憶部12から読み出す。
【0155】さらに、単語予備選択部13は、ステップ
S13に進み、単語ネットワークにしたがって、各音素
ノードについて、注目特徴量に対するスコアを計算しな
がら、単語を探索し、探索された単語のスコアに基づい
て、単語候補とする単語を選択するマッチング処理(詳
細は、図9を参照して後述する)を行い、ステップS1
4に進む。ステップS14では、単語予備選択部13
は、単語予備選択処理が中断可能かどうかを調査する調
査処理(詳細は、図14を参照して後述する)を行い、
ステップS15に進む。ステップS15では、単語予備
選択部13は、ステップS14における調査処理の結果
に基づいて、単語予備選択処理が中断可能かどうかを判
定する。
【0156】ステップS15において、単語予備選択処
理が中断可能でないと判定された場合、ステップS16
に進み、単語予備選択部13は、特徴量記憶部12に記
憶されている、認識部14からの注目ノードが有する時
刻情報が表す時刻以降の時刻の特徴量すべてを、注目特
徴量として、ステップS13のマッチング処理を行った
かどうかを判定する。
【0157】ステップS16において、注目ノードが有
する時刻情報が表す時刻以降の時刻の特徴量すべてを、
注目特徴量としたマッチング処理を、まだ行っていない
と判定された場合、ステップS12に戻り、単語予備選
択部13は、まだ、注目時刻としていない、最も先行す
る時刻を注目時刻とし、その注目時刻の特徴量を、注目
特徴量として、以下、同様の処理を繰り返す。
【0158】また、ステップS16において、注目ノー
ドが有する時刻情報が表す時刻以降の時刻の特徴量すべ
てを、注目特徴量としたマッチング処理を行ったと判定
された場合、ステップS18に進み、単語予備選択部1
3は、いままでのステップS13のマッチング処理で選
択された単語を、単語予備選択結果(候補単語)とし
て、認識部14に出力してリターンする。
【0159】一方、ステップS15において、単語予備
選択処理が中断可能であると判定された場合、ステップ
S17に進み、いままでのステップS13のマッチング
処理で選択された単語に、そのマッチング処理で探索途
中の単語を加えたものを、単語予備選択結果(候補単
語)として、認識部14に出力してリターンする。
【0160】次に、図9のフローチャートを参照して、
単語予備選択部13による、図8のステップS13のマ
ッチング処理について説明する。
【0161】単語予備選択部13は、まず最初に、ステ
ップS21において、注目特徴量に対する処理のための
初期化(例えば、単語予備選択部13が内蔵する、図示
せぬメモリの初期化等)を行い、ステップS22に進
む。
【0162】ステップS22では、単語予備選択部13
は、単語ネットワークにおけるアクティブな音素ノード
(以下、適宜、アクティブノードという)のすべてのス
コアを、注目特徴量を用いて計算し、その更新を行った
かどうかを判定する。
【0163】ステップS22において、単語ネットワー
クにおけるアクティブノードのすべてのスコアを、まだ
更新していないと判定された場合、ステップS23に進
み、単語予備選択部13は、アクティブノードのうち
の、まだスコアを更新していないもののうちの1つを選
択し、ステップS24に進む。ステップS24では、単
語予備選択部13は、ステップS23で選択したアクテ
ィブノード(以下、適宜、注目アクティブノードとい
う)のスコアを、注目特徴量を用いて、上述したように
計算し、その更新を行って、ステップS25に進む。
【0164】ステップS25では、単語予備選択部13
は、注目アクティブノードの更新後のスコアが、所定の
閾値以下(または未満)であるかどうかを判定する。ス
テップS25において、注目アクティブノードの更新後
のスコアが所定の閾値以下であると判定された場合、ス
テップS26に進み、単語予備選択部13は、注目アク
ティブノードを、非アクティブの状態に変更し、ステッ
プS22に戻る。
【0165】ここで、ステップS26において、非アク
ティブな状態にされた音素ノード(以下、適宜、非アク
ティブノードという)については、その後、アクティブ
状態にされるまで、単語選択部13におけるスコア計算
の対象とはされない。従って、スコアの低くなった音素
ノードは、非アクティブ状態とされることによって、枝
刈りされることになる。
【0166】一方、ステップS25において、注目アク
ティブノードの更新後のスコアが所定の閾値以下でない
と判定された場合、ステップS26をスキップして、ス
テップS22に戻る。
【0167】そして、ステップS22において、単語ネ
ットワークにおけるアクティブノードのすべてのスコア
を更新したと判定された場合、ステップS27に進み、
単語予備選択部13は、スコアが更新されたアクティブ
ノード(以下、適宜、更新済みアクティブノードとい
う)のすべてを、注目更新済みアクティブノードとして
選択して処理を行ったかどうかを判定する。
【0168】ステップS27において、更新済みアクテ
ィブノードのすべてを、まだ、注目更新済みアクティブ
ノードとしていないと判定された場合、ステップS28
に進み、単語予備選択部13は、まだ注目更新済みアク
ティブノードとされていない更新済みアクティブノード
のうちの1つを、注目更新済みアクティブノードとして
選択し、ステップS29に進む。
【0169】ステップS29では、単語予備選択部13
は、注目更新済みアクティブノードが子音素ノードを有
するかどうかを判定し、有すると判定した場合、ステッ
プ30に進む。ステップS30では、単語予備選択部1
3は、注目更新済みアクティブノードが有する子音素ノ
ードすべてをアクティブ状態に変更し、ステップS31
に進む。
【0170】また、ステップS29において、注目更新
済みアクティブノードが子音素ノードを有しないと判定
された場合、ステップS30をスキップして、ステップ
S31に進み、単語予備選択部13は、注目更新済みア
クティブノードが、単語の終端、即ち、単語の最後の音
素に対応するものであるかどうかを判定する。
【0171】ここで、図7(B)で説明したように、単
語ネットワークのノードにおいて、単語の最後の音素に
対応するノードには、単語IDが登録されている。従っ
て、ステップS31の判定処理は、注目更新済みアクテ
ィブノードに、単語IDが登録されているかどうかに基
づいて行われる。
【0172】ステップS31において、注目更新済みア
クティブノードが、単語の最後の音素に対応するもので
あると判定された場合、ステップS32に進み、単語予
備選択部13は、注目更新済みアクティブノードに登録
されている単語IDに対応する単語を、候補単語として
選択し、ステップS27に戻る。
【0173】また、ステップS31において、注目更新
済みアクティブノードが、単語の最後の音素に対応する
ものでないと判定された場合、ステップS32をスキッ
プして、ステップS27に戻る。
【0174】そして、ステップS27において、更新済
みアクティブノードのすべてを、注目更新済みアクティ
ブノードとして処理したと判定された場合、ステップS
33に進み、単語予備選択部13は、ルートノードを非
アクティブ状態にして、リターンする。
【0175】なお、図9の実施の形態において、非アク
ティブの音素ノードがアクティブにされるケースは、ス
テップS30において、更新済みアクティブノードが有
する子音素ノードがアクティブにされる場合だけであ
る。その結果、子音素ノードとならない(親音素ノード
を有しない)ルートノードは、一度、非アクティブ状態
になると、その後は、図8のステップS11における初
期化でアクティブにされない限り、アクティブな状態に
なることはない。従って、図8のステップS13乃至S
16の処理が繰り返し行われている間は、最初のステッ
プS13のマッチング処理としての図9の処理における
ステップS33において、ルートノードを非アクティブ
にした後は、次回から、ステップS33の処理を行う必
要はない。
【0176】以上のようなマッチング処理によれば、例
えば、図10乃至図13に示すように、アクティブな音
素ノードが変化していく。
【0177】即ち、例えば、いま、図10乃至図13に
示すような、ルートノードを頂点とする4階層の単語ネ
ットワークを考える。なお、図10乃至図13では、ノ
ードを、○印で示しており、○印の中のn(i,j)
は、第i+1階層のj+1番目の音素ノードを表す。但
し、ここでは、最上位階層を第1階層とする。
【0178】まず、図8のステップS11において初期
化が行われることにより、ルートノードn(0,0)
が、図10(A)に示すようにアクティブにされる。こ
こで、図10乃至図13では、アクティブな音素ノード
を、斜線を付して示してある。従って、斜線を付してい
ない○印は、非アクティブな音素ノードを表す。
【0179】そして、例えば、注目時刻t=0では、図
9のステップS24において、図10(B)に示すよう
に、アクティブノードであるルートノードn(0,0)
の注目時刻(t=0)におけるスコアsn(0,0),0が計
算、更新される。なお、スコアsn(i,j),tは、第i+1
階層のj+1番目の音素ノードの時刻tにおけるスコア
を表す。
【0180】さらに、更新済みアクティブノードである
ルートノードn(0,0)の子音素ノードn(1,0)
およびn(1,1)が、図9のステップS30におい
て、図10(C)に示すようにアクティブにされる。そ
の後、図10(D)に示すように、図9のステップS3
3において、ルートノードn(0,0)が非アクティブ
にされる。
【0181】次に、注目時刻t=1となり、図11
(A)に示すように、アクティブノードn(1,0)と
n(1,1)の注目時刻(t=1)におけるスコアs
n(1,0),1とns(1,1),1が、それぞれ計算、更新される
(ステップS24)。いま、例えば、スコアsn(1,0),1
とsn(1,1),1が、いずれも閾値以下でないとすると、ア
クティブノードn(1,0)とn(1,1)は、図11
(B)に示すように、いずれも非アクティブにされず、
アクティブ状態のままとされる(ステップS25,S2
6)。
【0182】そして、図11(C)に示すように、更新
済みアクティブノードとなった音素ノードn(1,0)
の子音素ノードである音素ノードn(2,0)およびn
(2,1)がアクティブノードとされるとともに、やは
り、更新済みアクティブノードとなった音素ノードn
(1,1)の子音素ノードである音素ノードn(2,
2)およびn(2,3)がアクティブノードとされる
(ステップS30)。
【0183】次に、注目時刻t=2となり、図12
(A)に示すように、アクティブノードn(1,0),
n(1,1),n(2,0),n(2,1),n(2,
2),n(2,3)の注目時刻(t=2)におけるスコ
アsn(1,0),2,sn(1,1),2,sn( 2,0),2,sn(2,1),2
n(2,2),2,sn(2,3),2が、それぞれ計算、更新される
(ステップS24)。いま、例えば、これらのスコアの
うち、sn(1,0),2,sn(2, 0),2,sn(2,3),2が、閾値以
下でないとすると、それ以外のスコアの音素ノードn
(1,1),n(2,1),n(2,2)は、図12
(B)に示すように、いずれも非アクティブ状態にされ
る(ステップS25,S26)。
【0184】そして、図12(C)に示すように、更新
済みアクティブノードとなった音素ノードn(1,0)
の子音素ノードである音素ノードn(2,1)がアクテ
ィブノードとされる(ステップS30)。なお、更新済
みアクティブノードノードn(1,0)の子音素ノード
としては、音素ノードn(2,0)も存在するが、この
音素ノードn(2,0)は、既にアクティブ状態になっ
ているので(アクティブにする処理を行ってもよい
が)、アクティブ状態にする必要はない。
【0185】さらに、更新済みアクティブノードである
音素ノードn(2,0)の子音素ノードである音素ノー
ドn(3,0)およびn(3,1)がアクティブノード
とされるとともに、更新済みアクティブノードである音
素ノードn(2,3)の子音素ノードである音素ノード
n(3,6)およびn(3,7)がアクティブノードと
される(ステップS30)。
【0186】次に、注目時刻t=3となると、図13
(A)に示すように、アクティブノードn(1,0),
n(2,0),n(2,1),n(2,3),n(3,
0),n(3,1),n(3,6),n(3,7)の注
目時刻(t=2)におけるスコアが、それぞれ計算、更
新される(ステップS24)。いま、例えば、これらの
スコアのうち、アクティブノードn(1,0),n
(3,0),n(3,7)のスコアが、閾値以下でない
とすると、それ以外のスコアの音素ノードn(2,
0),n(3,0),n(3,7)は、図13(B)に
示すように、いずれも非アクティブ状態にされる(ステ
ップS25,S26)。
【0187】そして、図13(C)に示すように、更新
済みアクティブノードとなった音素ノードn(1,
0),n(3,0),n(3,7)のうち、子音素ノー
ドを有するものの、その子音素ノードがアクティブノー
ドとされる(ステップS30)。
【0188】以上のように、単語予備選択部13では、
アクティブな音素ノードについてのみ、そのスコアの計
算、更新が行われていく。
【0189】ところで、単語予備選択部13による単語
予備選択処理は、認識部14におけるマッチング処理の
計算量の低減等を図るべく、そのマッチング処理の対象
とする単語の数を制限するために行うものであるから、
認識部14から供給される注目ノードが有する時刻情報
が表す時刻以降の時刻の特徴量すべてについて行う必要
は、必ずしもない。
【0190】即ち、単語予備選択部13による単語予備
選択処理については、認識部14におけるマッチング処
理の対象とする単語の数を、所定数以下に制限すること
ができれば、その目的を達成することができるから、単
語予備選択処理の過程において、それまでに単語候補と
して予備選択された単語と、その後に候補単語として予
備選択されうる単語との合計数が、所定数以下になった
場合には、単語予備選択処理の目的を達成することがで
きたということができる。
【0191】つまり、単語予備選択処理の過程におい
て、それまでに単語候補として予備選択された単語と、
その後に候補単語として予備選択されうる単語との合計
数が、所定数以下になった場合には、その所定数以下と
なった単語すべてを候補単語として、認識部14におけ
るマッチング処理の対象としても、認識部14の処理負
担は、装置設計当初から予想された範囲内にあることか
ら、問題とならない。
【0192】なお、単語予備選択処理の過程において、
それまでに単語候補として予備選択された単語と、その
後に候補単語として予備選択されうる単語との合計数
が、所定数以下になった場合の、その所定数以下となっ
た単語すべてを候補単語として、認識部14におけるマ
ッチング処理の対象とするときには、認識部14から供
給される注目ノードが有する時刻情報が表す時刻以降の
時刻の特徴量すべてについて単語予備選択処理を行うと
きと比較して、予備選択される単語が増加することがあ
るが、その場合でも、認識部14において、その予備選
択された単語について、計算量の少ない言語スコアに基
づいて枝刈りを行うことで、音声認識装置全体としての
計算コストは低減することができる。
【0193】以上から、単語予備選択部13は、図8で
説明したように、ステップS14において、単語予備選
択処理が中断可能かどうかを調査する調査処理を行い、
その調査結果に基づき、単語予備選択処理の過程におい
て、それまでに単語候補として予備選択された単語と、
その後に候補単語として予備選択されうる単語との合計
数が、所定数以下になった場合には、ステップS15に
おいて、単語予備選択処理を中断することが可能である
判断して、単語予備選択処理を中断し、ステップS17
において、それまでに単語候補として予備選択された単
語に、その後に候補単語として予備選択されうる単語
を、候補単語として加えて、認識部14に供給するよう
になっている。
【0194】ところで、図9乃至図13で説明したこと
から、単語予備選択部13のマッチング処理(図9)に
よれば、単語ネットワークにおいて、ある音素ノード
は、その親音素ノードがアクティブな状態の場合に、ア
クティブになる(ステップS30)。
【0195】従って、非アクティブな音素ノードに注目
した場合に、その注目音素ノードから、ルートノードま
でのパス(以下、適宜、ノードパスという)上に、アク
ティブノードが存在しない場合には、注目音素ノード
は、その後の図8のステップS13乃至S16のループ
処理の間に、アクティブ状態になることはない。
【0196】図8のステップS13乃至S16のループ
処理が繰り返し行われ、これにより、図9のマッチング
処理が、特徴量記憶部12に記憶された特徴量の系列に
沿って進んでいくと、その後のステップS13乃至S1
6のループ処理の間に、アクティブ状態になることがな
い音素ノードが多数出現する。
【0197】音素ノードのうち、単語の最後の音素が割
り当てられているものには、上述したように、その単語
の単語IDが登録されており、図9のマッチング処理で
は、そのような単語IDが登録されている音素ノードが
アクティブ状態となっている場合に、その単語IDによ
って特定される単語(単語IDに対応する単語)が、単
語候補として予備選択される。
【0198】従って、単語IDが登録されている音素ノ
ードが、上述したようなアクティブ状態になることがな
いものである場合には、その単語IDに対応する単語が
予備選択されることはない。
【0199】以上から、単語IDが登録されている音素
ノードについてのノードパス上にアクティブノードが存
在しない場合には、その単語IDに対応する単語が予備
選択されることはなく、このことは、その単語IDに対
応する単語が枝刈りされたことを意味する。
【0200】一方、単語IDが登録されている音素ノー
ドについてのノードパス上にアクティブノードが1つで
も存在する場合には、その後のステップS13乃至S1
6のループ処理において、その単語IDに対応する単語
が、候補単語として予備選択される可能性があることに
なる。
【0201】従って、ステップS13乃至S16のルー
プ処理のある時点において、その後に、候補単語として
予備選択されうる単語は、単語IDが登録されている音
素ノードについて、そのノードパス上にアクティブノー
ドが存在するかどうかを調べることによって認識するこ
とができ、さらに、音素ノードの残り単語数を参照する
ことで、予備選択されうる単語の数、即ち、探索途中の
単語数も認識することができる。
【0202】図8のステップS14における調査処理で
は、上述のようにして、予備選択されうる単語の数を認
識し、その単語の数に基づいて、単語予備選択処理が中
断可能かどうかを調査するようになっている。
【0203】そこで、図14のフローチャートを参照し
て、図8のステップS14における調査処理について説
明する。
【0204】調査処理では、まず最初に、ステップS4
1において、単語予備選択部13は、その後の処理によ
って候補単語となる可能性がある単語(以下、適宜、可
能性単語という)の数をカウントする変数Nを0に初期
化し、ステップS42に進む。
【0205】ステップS42では、単語予備選択部13
は、単語ネットワークにおけるアクティブノードすべて
を、注目アクティブノードとして処理を行ったかどうか
を判定し、まだ行っていないと判定した場合、ステップ
S43に進み、単語予備選択部13は、まだ注目アクテ
ィブノードとしていないアクティブノードを、注目アク
ティブノードとして選択し、ステップS44に進む。
【0206】ステップS44では、単語予備選択部13
は、注目アクティブノードから、ルートノードまでのノ
ードパスを辿っていくことにより、そのノードパス上の
音素ノードを検出し、ステップS45に進む。
【0207】ステップS45では、単語予備選択部13
は、ステップS44で検出した、注目アクティブノード
についてのノードパス上の、注目アクティブノードを除
く音素ノードの中に、アクティブノードが存在するかど
うかを判定する。
【0208】ステップS45において、注目アクティブ
ノードについてのノードパス上に、アクティブノードが
存在しないと判定された場合、即ち、注目アクティブノ
ードについてのノードパス(以下、適宜、注目ノードパ
スという)において、注目アクティブノードよりも上位
階層の音素ノードがアクティブになることがなく、従っ
て、注目アクティブノードが、その注目アクティブノー
ドを含んでノードパスを形成する音素ノードのうちの最
も上位階層のものであり、その結果、注目アクティブノ
ードを含んで形成されるノードパス上の音素ノードを最
後の音素とする単語のうち、現時点で枝刈りされていな
いものの数が、注目アクティブノードに登録されている
残り単語数に等しい場合、ステップS46に進み、単語
予備選択部13は、変数Nと、注目アクティブノードに
登録されている残り単語数とを加算して、その加算値
を、変数Nにセットする。その後、ステップS42に戻
り、以下、同様の処理を繰り返す。
【0209】また、ステップS45において、注目ノー
ドパス上に、アクティブノードが存在すると判定された
場合、ステップS46をスキップして、ステップS42
に戻り、以下、同様の処理を繰り返す。
【0210】そして、ステップS42において、単語ネ
ットワークにおけるアクティブノードすべてを、注目ア
クティブノードとして処理を行ったと判定された場合、
ステップS47に進み、単語予備選択部13は、既にス
テップS32(図9)で予備選択されている候補単語の
数と、変数Nとの加算値が、所定の閾値未満(または以
下)であるかどうかを判定する。
【0211】ステップS47において、予備選択されて
いる候補単語の数と、変数Nとの加算値が、所定の閾値
未満であると判定された場合、ステップS48に進み、
予備選択部13は、予備選択処理の中断が可能であると
認識して、リターンする。
【0212】また、ステップS47において、予備選択
されている候補単語との数と、変数Nとの加算値が、所
定の閾値未満でないと判定された場合、ステップS49
に進み、予備選択部13は、予備選択処理の中断が可能
でないと認識して、リターンする。
【0213】なお、ステップS47で用いられる閾値
は、例えば、認識部14の処理性能等を考慮して決定さ
れる。但し、変数Nによれば、現時点で、その後の処理
によって候補単語とされ得る単語の数の他、既にステッ
プS32(図9)で予備選択されている候補単語の数も
重複してカウントされ得るため、ステップS47で用い
られる閾値は、その重複分を見込んだ上で決定される。
【0214】以上のように、単語予備選択部13におい
て、単語の探索の中断が可能かどうかが判定し、単語の
探索の中断が可能な場合には、単語の探索を中断して、
それまでに予備選択した単語と、探索途中の単語(その
後の処理により候補単語となりうる単語)とを、候補単
語として、認識部14に出力する。従って、予備選択に
要する計算量を低減することができ、その結果、音声認
識装置全体としての音声認識処理を、その精度を劣化さ
せずに高速化することができる。
【0215】次に、上述の場合には、単語予備選択処理
を、途中で中断することによって、単語予備選択処理の
計算量の低減を図るようにしたが、単語予備選択処理の
計算量の低減は、その他、例えば、音素ノードを途中で
打ち切った単語ネットワークを用いることによっても実
現することができる。
【0216】即ち、図15(A)は、図7(A)と同様
の単語辞書を示しており、図15(B)は、図15
(A)の単語辞書に登録された単語について、音素ノー
ドを途中で打ち切って構成した単語ネットワークを示し
ている。
【0217】図15(B)の単語ネットワークは、図7
(B)の単語ネットワークにおいて、そのルートノード
0の階層を第1階層とすると、第6階層以降を省略し
た形で構成されている。
【0218】即ち、図15(B)の単語ネットワーク
は、図7(B)の単語ネットワークの、第6階層の音素
ノードN5,N6,N9,N10、および第7階層の音素ノ
ードN1 1が省略されたものとなっている。
【0219】さらに、図15(B)の単語ネットワーク
においては、単語の終端の音素に対応する音素ノード
(以下、適宜、終端音素ノードという)が省略される場
合には、すべての音素ノードが存在すると仮定したとき
に、省略される終端音素ノードについてのノードパス上
の、省略されない音素ノードのうちの最も下位の階層の
音素ノードに、省略される終端音素ノードに登録されて
いた単語IDが登録されている。
【0220】即ち、図15(B)の単語ネットワークに
おいては、単語IDが2の単語「秋田」の終端音素ノー
ドN5が省略されているため、その終端音素ノードN5
登録されていた単語ID#2が、終端音素ノードN5
ついてのノードパス上の、省略されない音素ノードのう
ちの最も下位の階層の音素ノードN4に登録されてい
る。
【0221】また、図15(B)の単語ネットワークに
おいては、単語IDが3の単語「空き地」の終端音素ノ
ードN6が省略されているため、その終端音素ノードN6
に登録されていた単語ID#3が、終端音素ノードN6
についてのノードパス上の、省略されない音素ノードの
うちの最も下位の階層の音素ノードN4に登録されてい
る。
【0222】さらに、図15(B)の単語ネットワーク
においては、単語IDが4の単語「明かり」の終端音素
ノードN9が省略されているため、その終端音素ノード
9に登録されていた単語ID#4が、終端音素ノード
9についてのノードパス上の、省略されない音素ノー
ドのうちの最も下位の階層の音素ノードN8に登録され
ている。
【0223】また、図15(B)の単語ネットワークに
おいては、単語IDが5の単語「明るい」の終端音素ノ
ードN11が省略されているため、その終端音素ノードN
11に登録されていた単語ID#5が、終端音素ノードN
11についてのノードパス上の、省略されない音素ノード
のうちの最も下位の階層の音素ノードN8に登録されて
いる。
【0224】従って、図15(B)の単語ネットワーク
では、単語「秋田」と「空き地」の音韻情報が、"akit"
という1つの音韻情報にまとめられ、また、単語「明か
り」と「明るい」の音韻情報も、"akar"という1つの音
韻情報にまとめられているということができる。
【0225】このように、音韻情報を、幾つかの単語で
1つにまとめた単語ネットワークを構成することによ
り、単語ネットワークを記憶するのに必要な記憶容量が
低減され、さらに、予備選択部13における計算量も低
減されることになる。
【0226】なお、この場合、単語予備選択部13にお
いて予備選択される単語の数は、上述のような音素ノー
ドの打ち切りを行っていない単語ネットワークを用いる
場合に比較して増加することがあるが、その場合でも、
認識部14において、その予備選択された単語につい
て、計算量の少ない言語スコアに基づいて枝刈りを行う
ことで、音声認識装置全体としての計算コストは低減す
ることができる。
【0227】また、図15(B)の実施の形態では、第
6階層以降の音素ノードを打ち切るようにしたが、即
ち、各単語の先頭から5番目以降の音素に対応する音素
ノードを打ち切るようにしたが、その他、例えば、最も
長いノードパスを検出し、そのノードパスの後半(下位
階層)の半分等の音素ノードを打ち切るようにすること
が可能である。あるいは、また、各音素について、その
継続時間長の平均値を求めておき、単語の発話時間が、
その全体を発話したときの半分になるように、音素ノー
ドを打ち切ること等も可能である。
【0228】さらに、単語予備選択部13では、図15
(B)の単語ネットワークを用いて、従来と同様の単語
予備選択を行うことも可能であるし、図8で説明したよ
うな、単語の探索を途中で中断する単語予備選択を行う
ことも可能である。
【0229】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
汎用のコンピュータ等にインストールされる。
【0230】そこで、図16は、上述した一連の処理を
実行するプログラムがインストールされるコンピュータ
の一実施の形態の構成例を示している。
【0231】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク105やROM1
03に予め記録しておくことができる。
【0232】あるいはまた、プログラムは、フレキシブ
ルディスク、CD-ROM(Compact DiscRead Only Memory),
MO(Magneto optical)ディスク,DVD(Digital Versatile
Disc)、磁気ディスク、半導体メモリなどのリムーバブ
ル記録媒体111に、一時的あるいは永続的に格納(記
録)しておくことができる。このようなリムーバブル記
録媒体111は、いわゆるパッケージソフトウエアとし
て提供することができる。
【0233】なお、プログラムは、上述したようなリム
ーバブル記録媒体111からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部108で受信し、内蔵するハード
ディスク105にインストールすることができる。
【0234】コンピュータは、CPU(Central Processing
Unit)102を内蔵している。CPU102には、バス1
01を介して、入出力インタフェース110が接続され
ており、CPU102は、入出力インタフェース110を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部107が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)103に格納されているプログラムを実行
する。あるいは、また、CPU102は、ハードディスク
105に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部108で受信されてハー
ドディスク105にインストールされたプログラム、ま
たはドライブ109に装着されたリムーバブル記録媒体
111から読み出されてハードディスク105にインス
トールされたプログラムを、RAM(Random Access Memor
y)104にロードして実行する。これにより、CPU10
2は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU102は、その処理結果を、必要に応
じて、例えば、入出力インタフェース110を介して、
LCD(Liquid CryStal Display)やスピーカ等で構成され
る出力部106から出力、あるいは、通信部108から
送信、さらには、ハードディスク105に記録等させ
る。
【0235】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理(例えば、並列処理あるい
はオブジェクトによる処理)も含むものである。
【0236】また、プログラムは、1のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。
【0237】なお、図4に示した音声認識装置は、例え
ば、音声によってデータベースの検索を行う場合や、各
種の機器の操作を行う場合、各機器へのデータ入力を行
う場合、音声対話システム等に適用可能である。より具
体的には、例えば、音声による地名の問合せに対して、
対応する地図情報を表示するデータベース検索装置や、
音声による命令に対して、荷物の仕分けを行う産業用ロ
ボット、キーボードの代わりに音声入力によりテキスト
作成を行うディクテーションシステム、ユーザとの会話
を行うロボットにおける対話システム等に適用可能であ
る。
【0238】
【発明の効果】本発明の第1の音声認識装置および音声
認識方法、並びにプログラムによれば、単語の探索の中
断が可能かどうかが判定され、単語の探索の中断が可能
な場合には、単語の探索が中断される。そして、それま
でに選択された単語と、探索途中の単語とが、音声認識
結果の候補となる単語として出力される。従って、処理
の高速化を図ることが可能となる。
【0239】本発明の第2の音声認識装置および音声認
識方法、並びにプログラムによれば、音声認識の対象と
する単語群の単語の構成要素をノードとして構成された
ツリー構造であって、ノードが単語の途中で打ち切られ
たものにしたがって、ツリー構造のノードについてスコ
アを計算しながら、単語が探索され、探索された単語の
スコアに基づいて、音声認識結果の候補となる単語が選
択される。従って、処理の高速化を図ることが可能とな
る。
【図面の簡単な説明】
【図1】従来の音声認識装置の一例の構成を示すブロッ
ク図である。
【図2】単語どうしの境界の候補を保持する必要性を説
明する図である。
【図3】従来の音声認識装置の他の一例の構成を示すブ
ロック図である。
【図4】本発明を適用した音声認識装置の一実施の形態
の構成例を示すブロック図である。
【図5】単語接続情報を説明するための図である。
【図6】音声認識装置の処理を説明するためのフローチ
ャートである。
【図7】単語辞書と、その単語辞書の単語について構成
されたツリー構造の単語ネットワークを示す図である。
【図8】ステップS4の単語予備選択処理の詳細を説明
するフローチャートである。
【図9】ステップS13のマッチング処理の詳細を説明
するフローチャートである。
【図10】単語予備選択部13による単語予備選択処理
を説明するための図である。
【図11】単語予備選択部13による単語予備選択処理
を説明するための図である。
【図12】単語予備選択部13による単語予備選択処理
を説明するための図である。
【図13】単語予備選択部13による単語予備選択処理
を説明するための図である。
【図14】ステップS14における調査処理の詳細を説
明するフローチャートである。
【図15】単語辞書と、その単語辞書の単語について構
成されたツリー構造の単語ネットワークを示す図であ
る。
【図16】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。
【符号の説明】
1 マイク, 2 AD変換部, 3 特徴抽出部,
11 制御部, 12特徴量記憶部, 13 単語予備
選択部, 14 認識部, 15 再評価部, 16
単語接続情報記憶部, 17A,17B 音響モデルデ
ータベース,18A,18B 辞書データベース, 1
9A,19B 文法データベース,101 バス, 1
02 CPU, 103 ROM, 104 RAM, 105
ハードディスク, 106 出力部, 107 入力
部, 108 通信部,109 ドライブ, 110
入出力インタフェース, 111 リムーバブル記録媒
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/28 G10L 5/06 F 3/00 537F (72)発明者 小川 浩明 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 ヘルムート ルッケ 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 5B075 ND03 ND14 ND22 ND35 NK06 NK13 NK22 NK31 PP07 PP12 PP24 PQ00 PR06 QM08 UU40 5D015 AA01 AA04 BB01 JJ00 LL02 LL10

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声に対して、その音声認識
    結果の尤度を表すスコアを計算し、そのスコアに基づい
    て、前記音声を連続音声認識する音声認識装置であっ
    て、 音声認識の対象とする単語群を探索し、前記音声認識結
    果の候補となる単語を選択する単語選択手段と、 前記単語選択手段において選択された単語を対象に、前
    記スコアを計算するスコア計算手段と、 前記単語のスコアに基づいて、前記音声の音声認識結果
    を確定する確定手段とを備え、 前記単語選択手段は、 前記単語の探索の中断が可能かどうかを判定し、 前記単語の探索の中断が可能な場合には、前記単語の探
    索を中断し、 それまでに選択した単語と、探索途中の単語とを、前記
    音声認識結果の候補となる単語として出力することを特
    徴とする音声認識装置。
  2. 【請求項2】 前記単語選択手段は、それまでに選択し
    た単語の数と、探索途中の単語の数とに基づいて、前記
    単語の探索の中断が可能かどうかを判定することを特徴
    とする請求項1に記載の音声認識装置。
  3. 【請求項3】 前記単語選択手段は、それまでに選択し
    た単語の数と、探索途中の単語の数との総数が所定の閾
    値以下である場合に、前記単語の探索を中断することを
    特徴とする請求項2に記載の音声認識装置。
  4. 【請求項4】 前記単語選択手段は、 単語群の単語の構成要素をノードとして構成されたツリ
    ー構造であって、各ノードに、そのノード以下のノード
    を終端とする単語の数が登録されたものにしたがって、
    前記ツリー構造のうちのアクティブなノードについて前
    記スコアを計算しながら、単語を探索し、 前記スコアに基づいて、対応するノードを非アクティブ
    にし、 アクティブなノードとして残ったノードの子ノードをア
    クティブし、 ルートノードまでの経路に、アクティブなノードが存在
    しないアクティブなノードに登録されている単語の数か
    ら、前記探索途中の単語の数を求めることを特徴とする
    請求項2に記載の音声認識装置。
  5. 【請求項5】 前記単語選択手段は、前記単語群の単語
    の構成要素をノードとして構成されたツリー構造であっ
    て、ノードが単語の途中で打ち切られたものにしたがっ
    て、前記ツリー構造のノードについて前記スコアを計算
    しながら、単語を探索し、そのスコアに基づいて、前記
    音声認識結果の候補となる単語を選択することを特徴と
    する請求項1に記載の音声認識装置。
  6. 【請求項6】 入力された音声に対して、その音声認識
    結果の尤度を表すスコアを計算し、そのスコアに基づい
    て、前記音声を連続音声認識する音声認識方法であっ
    て、 音声認識の対象とする単語群を探索し、前記音声認識結
    果の候補となる単語を選択する単語選択ステップと、 前記単語選択ステップにおいて選択された単語を対象
    に、前記スコアを計算するスコア計算ステップと、 前記単語のスコアに基づいて、前記音声の音声認識結果
    を確定する確定ステップとを備え、 前記単語選択ステップにおいて、 前記単語の探索の中断が可能かどうかを判定し、 前記単語の探索の中断が可能な場合には、前記単語の探
    索を中断し、 それまでに選択した単語と、探索途中の単語とを、前記
    音声認識結果の候補となる単語として出力することを特
    徴とする音声認識方法。
  7. 【請求項7】 入力された音声に対して、その音声認識
    結果の尤度を表すスコアを計算し、そのスコアに基づい
    て、前記音声を連続音声認識する音声認識処理を、コン
    ピュータに行わせるプログラムであって、 音声認識の対象とする単語群を探索し、前記音声認識結
    果の候補となる単語を選択する単語選択ステップと、 前記単語選択ステップにおいて選択された単語を対象
    に、前記スコアを計算するスコア計算ステップと、 前記単語のスコアに基づいて、前記音声の音声認識結果
    を確定する確定ステップとを備え、 前記単語選択ステップにおいて、 前記単語の探索の中断が可能かどうかを判定し、 前記単語の探索の中断が可能な場合には、前記単語の探
    索を中断し、 それまでに選択した単語と、探索途中の単語とを、前記
    音声認識結果の候補となる単語として出力することを特
    徴とするプログラム。
  8. 【請求項8】 入力された音声に対して、その音声認識
    結果の尤度を表すスコアを計算し、そのスコアに基づい
    て、前記音声を連続音声認識する音声認識処理を、コン
    ピュータに行わせるプログラムが記録されている記録媒
    体であって、音声認識の対象とする単語群を探索し、前
    記音声認識結果の候補となる単語を選択する単語選択ス
    テップと、 前記単語選択ステップにおいて選択された単語を対象
    に、前記スコアを計算するスコア計算ステップと、 前記単語のスコアに基づいて、前記音声の音声認識結果
    を確定する確定ステップとを備え、 前記単語選択ステップにおいて、 前記単語の探索の中断が可能かどうかを判定し、 前記単語の探索の中断が可能な場合には、前記単語の探
    索を中断し、 それまでに選択した単語と、探索途中の単語とを、前記
    音声認識結果の候補となる単語として出力するプログラ
    ムが記録されていることを特徴とする記録媒体。
  9. 【請求項9】 入力された音声に対して、その音声認識
    結果の尤度を表すスコアを計算し、そのスコアに基づい
    て、前記音声を連続音声認識する音声認識装置であっ
    て、 音声認識の対象とする単語群の単語の構成要素をノード
    として構成されたツリー構造であって、前記ノードが単
    語の途中で打ち切られたものにしたがって、前記ツリー
    構造のノードについて前記スコアを計算しながら、単語
    を探索し、探索された単語のスコアに基づいて、前記音
    声認識結果の候補となる単語を選択する単語選択手段
    と、 前記単語選択手段において選択された単語を対象に、前
    記スコアを計算するスコア計算手段と、 前記単語のスコアに基づいて、前記音声の音声認識結果
    を確定する確定手段とを備えることを特徴とする音声認
    識装置。
  10. 【請求項10】 前記単語選択手段は、前記ルートノー
    ドからの音素数に基づいてノードが打ち切られた前記ツ
    リー構造にしたがって、単語を探索することを特徴とす
    る請求項9に記載の音声認識装置。
  11. 【請求項11】 前記単語選択手段は、前記ルートノー
    ドからの音素の継続時間長に基づいてノードが打ち切ら
    れた前記ツリー構造にしたがって、単語を探索すること
    を特徴とする請求項9に記載の音声認識装置。
  12. 【請求項12】 入力された音声に対して、その音声認
    識結果の尤度を表すスコアを計算し、そのスコアに基づ
    いて、前記音声を連続音声認識する音声認識方法であっ
    て、 音声認識の対象とする単語群の単語の構成要素をノード
    として構成されたツリー構造であって、前記ノードが単
    語の途中で打ち切られたものにしたがって、前記ツリー
    構造のノードについて前記スコアを計算しながら、単語
    を探索し、探索された単語のスコアに基づいて、前記音
    声認識結果の候補となる単語を選択する単語選択ステッ
    プと、 前記単語選択ステップにおいて選択された単語を対象
    に、前記スコアを計算するスコア計算ステップと、 前記単語のスコアに基づいて、前記音声の音声認識結果
    を確定する確定ステップとを備えることを特徴とする音
    声認識方法。
  13. 【請求項13】 入力された音声に対して、その音声認
    識結果の尤度を表すスコアを計算し、そのスコアに基づ
    いて、前記音声を連続音声認識する音声認識処理を、コ
    ンピュータに行わせるプログラムであって、 音声認識の対象とする単語群の単語の構成要素をノード
    として構成されたツリー構造であって、前記ノードが単
    語の途中で打ち切られたものにしたがって、前記ツリー
    構造のノードについて前記スコアを計算しながら、単語
    を探索し、探索された単語のスコアに基づいて、前記音
    声認識結果の候補となる単語を選択する単語選択ステッ
    プと、 前記単語選択ステップにおいて選択された単語を対象
    に、前記スコアを計算するスコア計算ステップと、 前記単語のスコアに基づいて、前記音声の音声認識結果
    を確定する確定ステップとを備えることを特徴とするプ
    ログラム。
  14. 【請求項14】 入力された音声に対して、その音声認
    識結果の尤度を表すスコアを計算し、そのスコアに基づ
    いて、前記音声を連続音声認識する音声認識処理を、コ
    ンピュータに行わせるプログラムが記録されている記録
    媒体であって、 音声認識の対象とする単語群の単語の構成要素をノード
    として構成されたツリー構造であって、前記ノードが単
    語の途中で打ち切られたものにしたがって、前記ツリー
    構造のノードについて前記スコアを計算しながら、単語
    を探索し、探索された単語のスコアに基づいて、前記音
    声認識結果の候補となる単語を選択する単語選択ステッ
    プと、 前記単語選択ステップにおいて選択された単語を対象
    に、前記スコアを計算するスコア計算ステップと、 前記単語のスコアに基づいて、前記音声の音声認識結果
    を確定する確定ステップとを備えるプログラムが記録さ
    れていることを特徴とする記録媒体。
JP2001161698A 2001-05-30 2001-05-30 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 Expired - Fee Related JP4696400B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001161698A JP4696400B2 (ja) 2001-05-30 2001-05-30 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001161698A JP4696400B2 (ja) 2001-05-30 2001-05-30 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2002351491A true JP2002351491A (ja) 2002-12-06
JP4696400B2 JP4696400B2 (ja) 2011-06-08

Family

ID=19004935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001161698A Expired - Fee Related JP4696400B2 (ja) 2001-05-30 2001-05-30 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4696400B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6347797A (ja) * 1986-08-15 1988-02-29 株式会社リコー 単語音声予備選択方式
JPH08241096A (ja) * 1995-03-01 1996-09-17 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6347797A (ja) * 1986-08-15 1988-02-29 株式会社リコー 単語音声予備選択方式
JPH08241096A (ja) * 1995-03-01 1996-09-17 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法

Also Published As

Publication number Publication date
JP4696400B2 (ja) 2011-06-08

Similar Documents

Publication Publication Date Title
JP4465564B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4802434B2 (ja) 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
US7240002B2 (en) Speech recognition apparatus
JP4543294B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
US6961701B2 (en) Voice recognition apparatus and method, and recording medium
US7725319B2 (en) Phoneme lattice construction and its application to speech recognition and keyword spotting
JP6188831B2 (ja) 音声検索装置および音声検索方法
US20040172247A1 (en) Continuous speech recognition method and system using inter-word phonetic information
JP4757936B2 (ja) パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
JP2000075895A (ja) 連続音声認識用n最良検索方法
US20070038451A1 (en) Voice recognition for large dynamic vocabularies
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP3914709B2 (ja) 音声認識方法およびシステム
JP4696400B2 (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP4600705B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP3494338B2 (ja) 音声認識方法
JP3550350B2 (ja) 音声認識方法及びプログラム記録媒体
JP2002149188A (ja) 自然言語処理装置および自然言語処理方法、並びに記録媒体
JP2001092495A (ja) 連続音声認識方法
JP4678464B2 (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JPH0962290A (ja) 音声認識装置
JP2005134442A (ja) 音声認識装置および方法、記録媒体、並びにプログラム
Georgila et al. Large Vocabulary Search Space Reduction Employing Directed Acyclic Word Graphs and Phonological Rules
Cai et al. Development of a Chinese song name recognition system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100902

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110214

LAPS Cancellation because of no payment of annual fees