JPH08241096A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH08241096A
JPH08241096A JP7041948A JP4194895A JPH08241096A JP H08241096 A JPH08241096 A JP H08241096A JP 7041948 A JP7041948 A JP 7041948A JP 4194895 A JP4194895 A JP 4194895A JP H08241096 A JPH08241096 A JP H08241096A
Authority
JP
Japan
Prior art keywords
evaluation value
partial
recognition method
voice
partial hypothesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7041948A
Other languages
English (en)
Other versions
JP3104900B2 (ja
Inventor
Yoshiaki Noda
喜昭 野田
Shigeki Sagayama
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP07041948A priority Critical patent/JP3104900B2/ja
Publication of JPH08241096A publication Critical patent/JPH08241096A/ja
Application granted granted Critical
Publication of JP3104900B2 publication Critical patent/JP3104900B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 探索過程の途中で文法外の発声を棄却する。 【構成】 木構造の文法41に基づいて、音素を追加連
結、分岐して部分仮説を生成し、その部分仮説iと対応
するHMMと入力音声とを照合して、トレリス計算によ
りスコア関数gi (t)を求め、同時に無文法により生
成した部分仮説のスコア中の最大値を求めて基準スコア
関数go (t)とし、前向きヒューリスティック関数g
^(t)とgi (t)およびgo (t)との各差の各最
大値をそれぞれ評価値Si ,SO とし、Si −SO がし
きい値以下の部分仮説を廃棄して探索を進める。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、音素、音節、半音
節、単語などのような音声単位の、与えられた文法の制
御に従って連結可能な数多くの各部分仮説について対応
する音響モデルと、入力された音声とを照合し入力音声
に近い候補を探索する音声認識方法に関する。
【0002】
【従来の技術】図3Aに音素を認識の単位とした音声認
識処理の手順を示す。入力音声11は、分析処理部12
により、特徴パラメータのベクトルデータ時系列に変換
され、探索処理部13により文法16の拘束条件を用い
ながら、音素モデル15との照合が行われる。そして、
最も高い評価値を持つ音素系列が認識結果14として出
力される。
【0003】分析処理部12における信号処理として、
よく用いられるのは、線形予測分析(Linear P
redictive Coding,LPCと呼ばれ
る)であり、特徴パラメータとしては、LPCケプスト
ラム、LPCデルタケプストラム、メルケプストラム、
対数パワーなどがある。音素モデル15としては確率・
統計理論に基づいてモデル化された隠れマルコフモデル
(Hidden Markov Model,以後HM
M法と呼ぶ)が主流である。このHMMの詳細は、例え
ば、社団法人電子情報通信学会編,中川聖一著『確率モ
デルによる音声認識』に開示されている。
【0004】探索処理部13は、文法で連結することが
許される音素列である部分仮説についてその音素モデル
に対して、入力音声とのもっともらしさを評価し、一つ
ずつ部分仮説に音素を拡張しながら探索を進める。ここ
で、部分仮説とは、文法に示されている音素の並び順の
制約に従ってつなげられた音素列のことを表し、また、
部分仮説への音素の拡張とは、文法に従って部分仮説の
音素列にさらに一つ音素をつなげることを意味する。
【0005】それぞれの部分仮説について、1.音素
列、2.トレリス計算等による、音響モデルとの照合結
果であるスコア関数、3.入力音声に対する部分仮説の
もっともらしさを示す評価値、の3つの情報を記憶して
おく。部分仮説の識別番号をi、時刻をtとするとスコ
ア関数はgi (t)と表される。探索処理部13では、
まず文法によって許される1つ目の音素を部分仮説に拡
張し、その音素に対応したHMMと、分析された特徴パ
ラメータのベクトルデータ時系列(入力音声)とを照合
し、この部分仮説iの各時刻tのスコア関数gi(t)
を求める。HMMとの照合方法としてトレリス法、ビタ
ービ法があり、この詳細は、例えば、社団法人電子情報
通信学会編,中川聖一著『確率モデルによる音声認識』
に開示されている。このスコア関数gi (t)から後述
する方法で部分仮説iの評価値を求め、この部分仮説に
対し、音素列、スコア関数gi (t)、評価値を記録し
ておく。そして、以後の音素の拡張が行われるごとに、
その部分仮説に対する評価値を求めながら探索処理が進
められる。また、部分仮説の音素列に対して、文法の制
約から2種類以上の音素が拡張できる場合は、拡張でき
る音素の種類の数だけ元の部分仮説を複製し、それぞれ
の音素を拡張した部分仮説を作り、それらに対する評価
値計算を行う。文法により音素を延ばすことが出来なく
なった部分仮説は、その音素列が文法として受理された
仮説として、音素の拡張を終了する。全ての部分仮説で
音素の拡張が出来なくなった時、文法として許される全
ての音素列に対し入力音声と照合を行ったことになり、
探索処理13を終える。そのときの最も評価値の高い仮
説の音素列またはそれに対応する単語、文を認識結果1
4として出力する。
【0006】上記のように、探索処理において全ての部
分仮説(音素列)の音素数が均等となるように部分仮説
の音素を延ばす探索方法は横形探索法と呼ばれる。横形
探索法を実際に行うと、文法の許す全ての音素列に対応
した部分仮説について計算を行うことになり、非常に多
くの部分仮説の計算を行わなければならず、多くの処理
時間を必要とする。このため、部分仮説に音素を拡張す
る過程で、最終的な認識結果となる見込みのある部分仮
説のみを残し、それ以外の部分仮説を廃棄する方法をと
る場合が多い。具体的には、部分仮説の評価値によりそ
の部分仮説を残すかどうかを判定する。その判定方法と
して部分仮説の評価値の高いものから順に一定個数の部
分仮説を残す方法や、部分仮説の評価値のしきい値を設
け、そのしきい値よりも高い部分仮説のみを残す方法、
両者の方法の併用等が用いられる。このような横形探索
法において、一定の条件により、見込みのある部分仮説
のみを残し、それ以外の部分仮説を廃棄して探索を行う
方法はビーム探索法と呼ばれる。
【0007】以上のことを具体的に説明すると、例えば
図3Bに示すような木構造によって表現された文法に対
して、HMMを用いた探索処理を行う場合を例とし、い
ま探索処理が既に第4音素までの処理を終えていると
し、第5音素を拡張する場合を述べると、図3Bにおい
ては第1音素#から第4音素まで拡張された部分仮説
は、「# 」,「# i」,「#
i」の3種類である。ここで、“ ”は音素の
区切りを示す記号であり、音素#は無音を示すものとす
る。
【0008】第1音素が#から始まり、第4音素まで拡
張された一つの部分仮説、「# i」では、図3
Bからわかるように、第5音素として、3種類の音素
k,o,mが拡張可能である。また、第1音素が#から
始まり、第4音素まで拡張されたもう1つの部分仮説、
「# a」は、第5音素として、2種類の音素
m,nが拡張可能である。また、部分仮説「#
i」は、第4音素で完了しており、音素の拡張は行わ
れない。
【0009】木構造文法における音素の深さごとに見込
みのない部分仮説の廃棄を行うビーム探索では、同じ音
素数をもつ部分仮説に対し、これら部分仮説の評価値を
求め、一定の条件で評価値の良い部分仮説のみを残す。
ここでは、一定の条件として、評価値の高い上位2つの
部分仮説のみを残すものとする。上で述べたように、第
5音素まで拡張された部分仮説は、「#
o」,「# k」,「#
m」,「# m」,「# n」
の5種類あり、それぞれの部分仮説の評価値はこの順に
高いとすると、上位2つの部分仮説である「#
o」と「# k」のみが次の音素を拡
張できる部分仮説として残し、それ以外の部分仮説を廃
棄する。
【0010】このように、部分仮説に音素を拡張して、
一定の条件によって残す部分仮説を限定し、残された部
分仮説にさらに音素を拡張していき、全ての部分仮説で
音素を拡張できなくなるまで、同様の処理を続ける。そ
して、音素を拡張できなくなった全ての部分仮説、つま
り仮説の評価値を比較して、評価値の最も高い仮説を認
識結果として、出力する。
【0011】部分仮説iのスコア関数gi (t)から部
分仮説の評価値を求める方法としては、音声の始端から
前向きに推定した全ての部分仮説に共通な前向きヒュー
リスティック関数g^(t)を求めておき、これと、部
分仮説iのスコア関数gi (t)との差を求め、その差
の時刻tに対する最大値に対応する値を、部分仮説iの
評価値Si とする方法がある(この方法の詳細は、例え
ば「野田喜昭、嵯峨山茂樹、“前向き尤度を用いたA*
ビーム探索によるHMM−LR音声認識”電子情報通信
学会技術研究報告 音声、SP94−23,199
4」、および「特願平6−133339,音響認識方
法」に開示されている)。
【0012】この部分仮説の評価値の求め方の具体例と
して第4音素まで拡張された部分仮説「#
i」に音素oを拡張するときの、評価値の計算方法を図
4を用いて説明する。図4は、音素列と入力音声の照合
であるトレリス計算を行って得られるスコア関数を、音
素列、入力音声、スコアの3つの軸をもつ3次元の図に
よって示しており、曲線31は部分仮説「#
i」のスコア関数、gi4(t)であり、時刻t1 でのそ
のスコア値gi4(t1 )は、入力音声が時刻t1までに
この部分仮説(音素列)が最も短い時間で発声されたと
仮定した時のもっともらしさを示すスコアであり、時刻
2 でのスコアgi4(t2 )は、入力音声が時刻t2
でに、この部分仮説が最も長い時間で発声されたと仮定
した時のもっともらしさを示すスコアであり、時刻
1 、t2 と、音素oの継続時間長とから時刻t3 を決
定し、その区間で、入力音声がその各時刻までに、音素
列「# o」をそれぞれ発声されたと仮定し
た時のもっともらしさ(スコア)をつらねたのが曲線3
2であり、つまり曲線32は入力音声の部分仮説「#
o」に対するスコア関数gi5(t)である。
即ち部分仮説「# i」のスコア関数31は、既
に計算されており、これを各時刻の尤度を初期値とし
て、トレリス計算により音素oの各時刻のスコアを積算
していき、「# o」のスコア関数32を求
める。
【0013】トレリス計算は、音響モデルを示すHMM
と入力音声を分析した特徴パラメータのベクトル時系列
データとの照合であり、時刻tでHMMの最終状態に到
達するHMMの全ての遷移に対してベクトル時系列デー
タの確率計算を行い、その結果時刻tにおける確率値を
得ることができる。ここではその確率値のlog 値をスコ
ア(尤度)として用いる。
【0014】次に部分仮説の評価値を求めるために、音
声の始端から推定した各部分仮説に共通な無文法(文法
の制約がなく、何れの音素への拡張を許す)で求めた前
向きのヒューリスティック関数g^(t)を求め、これ
を、下記式(1)のように、この部分仮説のスコア関数
i (t)から差し引き、その最大値Si を求めると、
i はその部分仮説iのもっともらしさを示しており、
これを部分仮説iの評価値とすることによって、時刻に
対する正規化を行った部分仮説の評価値を求めることが
できる。
【0015】 Si = max{gi (t)−g^(t)} (1) maxは各tについて{ }内が最大となるもの なお、無文法により探索を行うと正解に近い評価値が得
られるが、部分仮説の数が著しく多く、ほぼ同一の評価
値のものが多くなり、選択が困難となるため、前述した
ように文法の制約下での探索を行うことになる。
【0016】
【発明が解決しようとする課題】音声認識において、探
索処理量の削減により、認識処理時間を短くし実使用で
の音声認識の使いやすさが良くなる。また、探索処理量
の削減により処理能力の低い計算機にも音声認識を実用
的に動作させることが可能となる。探索処理量を減らす
には、探索の過程で見込みのない部分仮説を廃棄し、拡
張すべき部分仮説の個数を少なくすることが必要であ
る。しかし、従来の評価値の高い部分仮説を一定個数保
持するビーム探索では、一定個数保持する部分仮説の中
に評価値が小さい部分仮説、つまり、もっともらしい認
識結果となり得ない部分仮説があったとしても、その部
分仮説は廃棄されず、無駄な処理を行うことになる。ま
た、しきい値を設定し、評価値がしきい値よりも高い部
分仮説を保持するビーム探索では、評価値が小さい部分
仮説は廃棄されるが、一般に評価値は認識語彙数、話
者、入力音声長に大きく影響を受けるため、正解の部分
仮説を落とさずに効果的に部分仮説の廃棄を行えるしき
い値の設定は難しい。
【0017】つまり、従来の方法によって計算された評
価値は、部分仮説同士の比較を行うためには有効である
が、認識語彙数、話者、入力音声長の影響を大きく受け
るため、その絶対値そのものを用いて部分仮説を評価す
ることは難しい。
【0018】
【課題を解決するための手段】この発明によれば、探索
の過程で、つまり木構造の文法における音声単位(音
素、音節、半音節、単語など)の深さごとに、入力音声
の発声内容が正解であると仮定したときの評価値を推定
して基準評価値とし、従来の文法の制約を受けて音声単
位を連結し音響モデルとの照合を行って得られた評価値
を、前記基準評価値で正規化を行い、その正規化評価値
がしきい値以下の部分仮説を廃棄する。
【0019】上記正規化により、部分仮説の評価値から
認識語彙数、話者、入力音声長等の影響が取り除かれ、
探索の過程で見込みのない部分仮説を確実に廃棄でき、
探索効率を高め、この正規化評価値を用いることで探索
処理量を削減することができる。
【0020】
【実施例】以下、この発明の実施例を説明する。従来と
同様に入力音声を分析処理し、時系列の特徴パラメータ
のベクトルデータを得る。探索処理としては、部分仮説
に拡張する音声の単位を音素とし、各部分仮説で音素数
が一定なる音素同期のビーム探索、音響モデルはHMM
の場合に、この発明を適用した実施例を図1を用いて説
明する。文法41の拘束条件を用い音素拡張処理部42
で部分仮説iに音素を拡張し、トレリス計算処理部43
で音素系列に対応するHMMと入力音声との照合を行
う。得られた部分仮説iのスコア関数gi (t)から評
価値計算処理部47で部分仮説iの評価値Si を求め
る。従来の方法ではこの部分仮説iの評価値Si の高い
部分仮説を一定個数保持し、あとは捨てるというビーム
探索を行うが、この発明では、スコア関数計算処理部4
5で基準評価値のためのスコア関数g0 (t)を後述す
る方法で求め、上記と同様に評価値計算処理部48で基
準評価値SO を求める。次に部分仮説iの評価値Si
基準評価値S0 の差(部分仮説iの正規化評価値
i ′)を求め、この差Si ′が大きいものは、見込み
のない部分仮説として廃棄し、探索を進める。
【0021】図3Bの例で具体的に説明すると、第4音
素の部分仮説から音素を拡張した部分仮説は、「#
o」,「# k」,「#
m」,「# m」,「#
n」の5種類あり、それぞれの部分仮説を部分仮説
iとし、部分仮説iの評価値をSi とし、基準評価値S
0 とすると、下記式(2)により部分仮説iの正規化評
価値Si ′が得られる。
【0022】 Si ′=Si −S0 (2) 入力された音声が実際には「いきおい」と発生されたと
すると、「# o」の部分仮説が最も正解に
近く評価値が高くなる。また、「# m」の
ように正解とは離れた部分仮説については、その評価値
は小さくなっている。基準評価値は、入力音声の内容が
正解であると仮定したときの推定評価値であって、例え
ば無文法によって求められたものであるから、文法的な
制約がなく全ての音響モデルの組み合わせを許して得ら
れるものなので、必ず入力音声の内容と同一の音素系列
又はこれに近いものとの照合がなされ、その音素系列は
最も評価値が高くなる組み合わせになっているはずであ
り、この基準評価値は「# o」の部分仮
説の評価値に近い値になる。よって、正規化評価値
i ′の値は正解に近い部分仮説に対しては0に近くな
り、正解から離れた部分仮説では大きな負の値となる。
正規化評価値Si ′のこの傾向は、S0 とS i は共に同
一入力音声から作られているためS0 とSi が含む話者
の特性が正規化評価値では差し引かれて除去され、話者
に依存しにくい。同様の理由でSi の前記傾向は入力音
声長にも依存しない。また、部分仮説の個数を一定にす
るビーム探索では、認識語彙数によって保持する部分仮
説の個数を変える必要があるが、評価値そのものは認識
語彙数が変わっても変化しないため、正規化評価値
i′は認識語彙数の影響も少ない。
【0023】ビーム探索で正規化評価値Si ′の低い部
分仮説を廃棄する場合、しきい値Lを定め、Si ′<L
となる部分仮説を廃棄するが、Lは一定数としたり、部
分仮説の時間長に依存した値、例えば部分仮説の時間長
が長ければこれに応じて前記例では負の大きな値に設定
してもよい。図1中の評価値計算処理部47,48での
計算方法として式(1)を用い、かつ式(1)のg^
(t)が基準評価値のためのスコア関数g0 (t)と等
しい場合は下記式(3)を用いて正規化評価値Si ′を
求めることができる。gi (t)は部分仮説iのスコア
関数、g0 (t)は基準評価値のためのスコア関数であ
る。式(3)によれば正規化評価値Si ′のための計算
処理量を大幅に削減できる。
【0024】 Si ′= max{gi (t)−g0 (t)} (3) maxは各tについて{ }内が最大となるもの 基準評価値SO のためのスコア関数g0 (t)の求め方
を以下に示す。 <基準評価値のためのスコア関数の計算方法1>各音素
HMMは、通常3つ程度の状態をもっており、その各状
態では、複数の確率密度関数の重み和の出力確率密度分
布をもっている。ここで、各時刻での入力音声の特徴パ
ラメータを全ての出力確率密度分布に与え、最も高い出
力確率密度値を選択し、その対数である時刻ごとの最大
尤度を求める。この最大尤度の時刻進行での累積値を求
め、それを基準評価値のためのスコア関数とする。Oτ
を時刻τでの特徴パラメータ、pj (Oτ)を出力確率
密度分布jにその特徴パラメータを与えた出力確率密度
値とすると、g0 (t)は式(4)によって与えられ
る。
【0025】 g0 (t)=Σ maxpj (Oτ) (4) Σはτ=0からtまで、 maxはpj (Oτ)中の全ての
jについての最大値通常は一つのHMMから他のHMM
への遷移は、一つのHMMの終りの状態から、他のHM
Mの始めの状態へ遷移するという条件のもとに遷移する
が、このスコア関数は、前記遷移条件をなくし、かつ文
法の制約もなくし、全てのHMMの何れの状態から何れ
のHMMの何れの状態への遷移を許し、かつその遷移確
率を1として、ビタービ計算を行ったときのスコア関数
を示している。探索が進むとpj (Oτ)の大部分は、
探索の過程でのトレリス計算で行われているので、その
結果を利用でき計算量が少なくて済む。
【0026】<基準評価値のためのスコア関数の計算方
法2>前記計算方法1においては、全HMMの全ての状
態の出力確率密度分布から得られる出力確率密度値の最
大値から求めたが、この計算方法2では探索処理の過程
で現在までにトレリス計算によって計算済みの全ての出
力確率密度分布に対する出力確率密度値の最大値から求
める。例えば図2に示すように、各HMMの各状態の出
力密度分布p1 ,p2 ,p3 …,を縦軸に、横軸に時刻
tをとると、前記図3Bの例では先ず無音#のHMMの
各状態の出力密度分布に対する出力確率密度値が予測さ
れる無音長について、この例では時刻0から3まで計算
され(この計算値が埋められた領域を51で示す)、最
も短い無音の終了時刻1の次の時刻2から最も長い無音
の終了時刻3の次の時刻4より次の音素iのHMMの各
状態の出力密度分布に対する出力確率密度値がそれぞれ
計算される。その計算値が埋められた領域を52で示
す。同様にして音素kのHMMの各状態の出力確率密度
値が図2に領域53として計算される。探索によりこの
ような計算が進められるが、図2中の各時刻0,1,
2,…における各計算された出力確率密度値の最大値を
求める。この最大値を順次加算してg0 (t)とする。
このようにすると探索処理過程で文法の拘束を受けた出
力確率密度分布からスコア関数g0 (t)を計算するた
め、より実際の文法に近いスコア関数が得られる。しか
も、トレリス計算で既に計算された出力確率密度値しか
使わないため、スコア関数g0 (t)のための計算はほ
とんど必要としない。このような計算方法でも、文法で
制約されていない部分の出力確率密度値はトレリス計算
で得られているものより小さいものが大部分と考えら
れ、正しく数g0 (t)が推定される。
【0027】<基準評価値のためのスコア関数の計算方
法3>横型探索法の説明で述べたように部分仮説に音素
を拡張していき、トレリス計算等の照合を行うことによ
りスコア関数を得る。この場合、各部分仮説に任意の音
素の拡張を行えるような文法、つまり無文法で、音素を
拡張していき、対応する音響モデルと入力音声を照合し
て得られたスコア関数の各時刻での最大値を基準評価値
のためのスコア関数とする。この場合はHMMの遷移制
約は残しておく、この方法は上記2つの方法よりも文法
的拘力が強く、これを用いることにより精度の高い正規
化評価値Si ′を求めることができるが、計算量も多く
なる。
【0028】<基準評価値のためのスコア関数の計算方
法4>基準評価値のためのスコア関数の計算方法3にお
いて、任意の音素の拡張を行えるような文法ではなく、
日本語特有の音素配列構造のみを許す文法により、尤度
計算を行い、得られたスコア関数を前向きのヒューリス
ティック関数とする。日本語特有の音素配列構造を許す
音素列とは、例えば「o sh
i」や「s u」という
ように一般に子音の後には子音が来ないという制約を示
している。「s ai k」という音素の連鎖
は英語での音素配列構造を満たしているが、日本語の音
素配列構造とはなっていない。
【0029】計算方法3および計算方法4におけるg0
(t)を計算する際の音素を拡張する文法は、探索のた
めの部分仮説を作成するための文法を包含する文法と言
える。 <基準評価値のためのスコア関数の計算方法5>最終的
な正解の部分仮説は、そのスコア関数も他の部分仮説よ
りも大きくなっている場合が多い。そこで、探索の過程
で計算された全ての部分仮説のスコア関数g1 (t),
2 (t),g3 (t),…の各時間ごとの最大値をg
0 (t)とする。式で表現すると次のようになる。
【0030】 g0 (t)= maxgi (t) (5) maxはgi (t)の全てのi中最大のもの この計算方法ではg0 (t)のための計算量をほとんど
必要としない。 <基準評価値のためのスコア関数の計算方法6>基準評
価値SO を求めるためのスコア関数g0 (t)の計算
は、音素の識別をする必要はなく、スコアを求めること
ができればよいから、各音素ごとのHMMを用いる必要
がなく、図1に点線で示すように認識用の音響モデル1
5とは別の音響モデル46を用いてもよく、この音響モ
デル46としては、例えば一つまたは数個の音響モデル
でも、多くの状態数を設けることにより、認識対象を包
含している音響現象を全て表現できるように構成したも
のでもよく、この一つの音響モデルを繰り返し使用し、
または数個の音響モデルの場合は、これらを任意に選択
して連結して入力音声と照合してもっともらしいものを
求めてg0 (t)を求めてもよい。
【0031】一部変形の説明 上述において、評価値を求めるため前向きヒューリステ
ィック関数を求めたが、例えば「南等“番号案内を対象
とした大語い連続音声認識アルゴリズム”電子情報通信
学会論文誌A.vol.J77−A,No. 2,pp. 190〜
197.1994」に示されているように、音声の終端
から後向きに推定した全ての仮説に共通な推定尤度関数
h^(t)を求めておき、これをスコア関数gi (t)
に加算して評価値Si としてもよい。さらに、この発明
は音素を単位としての音声認識のみならず、音節、半音
節、単語などを単位として認識する場合にも適用され
る。
【0032】以下に実験例を示す。音素バランス216
単語の奇数番号108単語を対象とした単語認識におい
て、語彙内単語として奇数番号108単語、語彙外単語
として偶数番号108単語の音声データを与え認識を行
った結果で評価を行った。探索中、廃棄の性能を評価す
る値として、語彙内の単語認識での認識率を全体の認識
率、語彙内の単語認識で“認識結果なし”と判定される
割合を誤棄却率、語彙外の単語認識で“認識結果が棄却
されない”割合を誤受理率、誤棄却率と誤受理率の平均
を誤判定率とした。つまり、認識率を保った状態で誤判
定率を低く抑えられる場合に廃棄の性能が良いと考えら
れる。
【0033】以上の評価を廃棄の強さを変化させて行っ
た。これには部分仮説を棄却するためのしきい値Lとし
て、時刻tに比例したθ・tを用い、θの値を変えるこ
とによって廃棄の強さを変えた。θの値が大きいほど強
い廃棄となる。音声データとしてはATRの音声データ
ベースのうちMAU,MHT,FAF,FSUの4人の
話者を評価に用いた。また、実験システムとしてHMM
−LR音声認識サーバを用いた。ただし、音響モデル
は、状態数3,混合分布数4で音素モデル数54個の不
特定話者用環境独立型混合連続分布HMMで、音響学会
連続音声データベース9600文より学習したものを使
用した。今回の実験では任意の音素の組み合わせの連鎖
を基準評価値用の仮説とし、その尤度関数を前向きヒュ
ーリスティック関数とした。
【0034】図5に話者MHTの場合の動的廃棄の強さ
を変化させたときの認識性能、廃棄性能の変化を示す。
図での認識処理時間、照合回数は全探索でのそれぞれの
値を用いて正規化した値を示す。図からわかるように、
例えばθ=0付近を見るとわかるように認識率を保った
状態で廃棄の効果がある。また照合回数が抑えられてお
り、不要な部分仮説の棄却が行われていることがわか
る。しかし、今回の単語認識実験では語彙が小さいた
め、ヒューリスティック関数を求めるための計算量が相
対的に大きくなり、全体の認識処理時間は全探索を行う
場合とほとんど変わらなかった。ただし、このヒューリ
スティック関数を用いて部分仮説の個数一定のビーム探
索を行う場合、同等の認識率を得るには全探索の1.2倍
程度の認識処理時間を必要とする。よって、この条件で
の実験でも、個数一定のビーム探索に比べ、この発明方
法の方が廃棄の機能があり、しかも認識処理時間が短い
結果となった。
【0035】
【発明の効果】従来の部分仮説の評価値の絶対値が話
者、認識語彙数、入力音声長に依存するのに対し、この
発明では、部分仮説の評価値を同一入力音声から求めた
基準評価値により正規化しているため、話者、認識語彙
数、入力音声長に依存しない正規化評価値が得られ、探
索の過程での見込みのない部分仮説の廃棄を効果的に行
うことができる。これより、正規化評価値のためのしき
い値は同じ値で様々な用途に音声認識を利用でき、利用
者の設定の負担を減らすことができる。
【0036】また、入力された音声が文法の許さない内
容の場合、従来の探索では文法内のもっとも近い候補で
ある間違った結果を出力することになり、利用者の発声
ミスと音声認識の誤認識との区別を示すことができなか
った。しかし、この場合この発明では、探索の過程で全
ての部分仮説が廃棄され、認識結果なしとなり、利用者
に発声の誤りを知らせることができる。利用者の発声ミ
スを早期に発見して示すことは実用の音声認識において
重要である。
【0037】この発明の方法の効果を以下に列挙する。 ・探索の過程での見込みのない部分仮説の廃棄を効果的
に行える。 ・設定しなければならないしきい値は、話者、認識語彙
数、入力音声長に依存しないので、利用者の設定の負担
を減らすことができる。 ・入力された音声が文法の許さない内容の場合、探索の
過程で早期に認識が行えないことを検出でき、利用者の
発声ミスを知らせることができる。
【図面の簡単な説明】
【図1】この発明方法の要部である部分仮説の正規化評
価値を求める手法の例を示す図。
【図2】基準評価値のためのスコア関数計算方法2を説
明するためのトレリス計算にてなされた出力確率密度値
の例を示す図。
【図3】Aは音素を認識の単位とした音声認識方法の処
理を示す図、Bは木構造によって表現される文法を示す
図である。
【図4】トレリス計算の結果得られるスコア関数を示す
図。
【図5】この発明方法について行った実験の結果を示す
図。

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 音声単位で構成された木構造の文法に基
    づいて、入力音声の発生内容に関する一つあるいは複数
    の仮説を、音声単位を漸次的に追加連結および分岐して
    生成し、 その際に上記木構造の音声単位の深さごとに、音響モデ
    ルに基づいて、入力音声に対する各仮説におけるそれま
    での部分仮説のもっともらしさを評価して部分仮説評価
    値を求め、 上記各仮説についてのもっともらしさから認識結果を求
    める音声認識方法において、 上記木構造の音声単位の深さごとに、上記入力音声の発
    声内容が正解であると仮定したときの評価値を推定して
    基準評価値とし、 その基準評価値で対応する深さの上記部分仮説の評価値
    を正規化し、 その正規化した評価値がしきい値以下の部分仮説を廃棄
    することを特徴とする音声認識方法。
  2. 【請求項2】 上記文法を包含する文法に基づいて、上
    記入力音声の発声内容に関する仮説を、音声単位を漸次
    的に追加連続して生成し、上記入力音声を、部分仮説と
    対応した上記音響モデルと照合してスコア関数を求め
    て、上記基準評価値を得ることを特徴とする請求項1記
    載の音声認識方法。
  3. 【請求項3】 認識対象を包含している音響現象を表現
    する少なくとも一つの基準評価値用音響モデルの部分仮
    説と対応したものと、上記入力音声を照合してスコア関
    数を求めて、上記基準評価値を得ることを特徴とする請
    求項1記載の音声認識方法。
  4. 【請求項4】 上記入力音声を上記部分仮説と対応した
    音響モデルと照合してスコア関数を求めて、上記部分仮
    説評価値を得ることを特徴とする請求項2または3の何
    れかに記載の音声認識方法。
  5. 【請求項5】 上記音響モデルは隠れマルコフモデルで
    あることを特徴とする請求項4記載の音声認識方法。
  6. 【請求項6】 各時刻ごとに上記隠れマルコフモデルの
    全ての出力確率密度値の最大値を求め、その最大値を累
    積して上記基準評価値を得るためのスコア関数を計算す
    ることを特徴とする請求項5記載の音声認識方法。
  7. 【請求項7】 各時刻において、上記部分評価値を得る
    ために計算された隠れマルコフの出力確率値中の最大値
    を選び、その最大値を累積して上記基準評価値を得るた
    めのスコア関数を計算することを特徴とする請求項5記
    載の音声認識方法。
  8. 【請求項8】 上記文法を包含する文法は、音声単位に
    対応した音響モデルの任意の組み合わせを許すものであ
    ることを特徴とする請求項2記載の音声認識方法。
  9. 【請求項9】 上記音声単位に対応した音響モデルの組
    み合わせに、日本語特有の音素配列構造の制約を用いる
    ことを特徴とする請求項8記載の音声認識方法。
  10. 【請求項10】 上記入力音声を、部分仮説と対応した
    上記音響モデルと照合してスコア関数を求めて上記部分
    仮説評価値を得、上記基準評価値を、各時刻における上
    記スコア関数の最大値を求めることにより得ることを特
    徴とする請求項1記載の音声認識方法。
  11. 【請求項11】上記部分仮説の評価値を、全ての部分仮
    説に共通な前向きヒューリスティック関数を求め、各部
    分仮説のスコア関数と上記前向きヒューリスティック関
    数との差をとり、その差の最大値と対応する値として求
    めることを特徴とする請求項4乃至10の何れかに記載
    の音声認識方法。
  12. 【請求項12】 上記前向きヒューリスティック関数と
    して、上記基準評価値を求めるために得られたスコア関
    数を用いることを特徴とする請求項11記載の音声認識
    方法。
JP07041948A 1995-03-01 1995-03-01 音声認識方法 Expired - Lifetime JP3104900B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07041948A JP3104900B2 (ja) 1995-03-01 1995-03-01 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07041948A JP3104900B2 (ja) 1995-03-01 1995-03-01 音声認識方法

Publications (2)

Publication Number Publication Date
JPH08241096A true JPH08241096A (ja) 1996-09-17
JP3104900B2 JP3104900B2 (ja) 2000-10-30

Family

ID=12622438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07041948A Expired - Lifetime JP3104900B2 (ja) 1995-03-01 1995-03-01 音声認識方法

Country Status (1)

Country Link
JP (1) JP3104900B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293196A (ja) * 1999-04-08 2000-10-20 Nec Corp 音声認識装置、方法及びプログラムを記憶した記憶媒体
JP2002534719A (ja) * 1999-01-07 2002-10-15 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 大語彙音声認識のための検索アルゴリズム
JP2002351491A (ja) * 2001-05-30 2002-12-06 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
WO2005096271A1 (ja) * 2004-03-30 2005-10-13 Pioneer Corporation 音声認識装置及び音声認識方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6072561B2 (ja) * 2013-02-20 2017-02-01 三菱電機株式会社 空気調和システム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002534719A (ja) * 1999-01-07 2002-10-15 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 大語彙音声認識のための検索アルゴリズム
JP2000293196A (ja) * 1999-04-08 2000-10-20 Nec Corp 音声認識装置、方法及びプログラムを記憶した記憶媒体
JP2002351491A (ja) * 2001-05-30 2002-12-06 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP4696400B2 (ja) * 2001-05-30 2011-06-08 ソニー株式会社 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
WO2005096271A1 (ja) * 2004-03-30 2005-10-13 Pioneer Corporation 音声認識装置及び音声認識方法

Also Published As

Publication number Publication date
JP3104900B2 (ja) 2000-10-30

Similar Documents

Publication Publication Date Title
US6535850B1 (en) Smart training and smart scoring in SD speech recognition system with user defined vocabulary
US7672846B2 (en) Speech recognition system finding self-repair utterance in misrecognized speech without using recognized words
US7693713B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
US20140207457A1 (en) False alarm reduction in speech recognition systems using contextual information
JP4340685B2 (ja) 音声認識装置及び音声認識方法
JPH11175090A (ja) 話者クラスタリング処理装置及び音声認識装置
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
JP4950024B2 (ja) 会話システムおよび会話ソフトウェア
Huang et al. From Sphinx-II to Whisper—making speech recognition usable
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP3104900B2 (ja) 音声認識方法
JP2974621B2 (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JP2871420B2 (ja) 音声対話システム
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JP3615088B2 (ja) 音声認識方法及び装置
JP3368989B2 (ja) 音声認識方法
JP2731133B2 (ja) 連続音声認識装置
EP2948943B1 (en) False alarm reduction in speech recognition systems using contextual information
JP5158877B2 (ja) 音声認識方法および装置
JP3575904B2 (ja) 連続音声認識方式及び標準パタン訓練方式

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070901

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080901

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080901

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090901

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090901

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100901

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100901

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110901

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120901

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130901

Year of fee payment: 13

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term