JP3575904B2 - 連続音声認識方式及び標準パタン訓練方式 - Google Patents

連続音声認識方式及び標準パタン訓練方式 Download PDF

Info

Publication number
JP3575904B2
JP3575904B2 JP3245596A JP3245596A JP3575904B2 JP 3575904 B2 JP3575904 B2 JP 3575904B2 JP 3245596 A JP3245596 A JP 3245596A JP 3245596 A JP3245596 A JP 3245596A JP 3575904 B2 JP3575904 B2 JP 3575904B2
Authority
JP
Japan
Prior art keywords
state transition
model
environment
training
transition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3245596A
Other languages
English (en)
Other versions
JPH0916192A (ja
Inventor
喜永 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP3245596A priority Critical patent/JP3575904B2/ja
Publication of JPH0916192A publication Critical patent/JPH0916192A/ja
Application granted granted Critical
Publication of JP3575904B2 publication Critical patent/JP3575904B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【0001】
【発明の属する技術分野】
本発明は、連続音声認識方式及び標準パタン訓練方式、より詳細には、類の一部を代表するパタンを時間方向に連結して状態遷移モデルとなし、状態遷移モデルにおける各状態の照合継続時間を制御しながら入力音声パタンを照合し、当該状態遷移モデルと入力音声の特徴パタンとを比較することによって、認識結果を得る連続音声認識方式、及び、連続音声中の重要な単語を認識するために必要な標準パタンを訓練するのに好適な標準パタン訓練方式に関する。
【0002】
【従来の技術】
最初に、本明細書中において使用する記号について、下記の通り定義する。
【0003】
【外1】
【0004】
最初に、従来の連続音声認識方式について説明する。今、入力音声パタンに対する標準パタン系列がS個あるとし、s番目の系列を(s)Wとする。(s)Wは、以下の式に示すように、L個標準パタンを接続したものから成る。この標準パタンは、音声の類(例えば音素や単語)を特徴づけているパタンである。
【0005】
【数1】
【0006】
ただし、Lは可変である。ここで、q(l)は、系列中のl(1≦l≦L)番目の標準パタンのインデックスであり、V個の語彙数を持つ。
同様にして、入力音声特徴量の列Xを以下のように表す。
X={x,…,x,…,x} …(2)
ここで、連続音声認識の問題は、発声した音声Xと参照系列との距離D(X,(s)W)を最小にする参照系列*Wをみつけることに相当する。
【0007】
【数2】
【0008】
式(4)の右辺に関する最小化は、それぞれ、標準パタンの連結数,モデルの並び、整合関数に関して行われる。式(4)は、動的計画法によって求めることができる。ここで、θは照合経路を表す関数である。標準パタン系列(s)wの作成には、中川,“確率モデルによる音声認識”電子情報通信学会(1988)などに詳述される隠れマルコフモデル(HMM:Hidden Markov Model)や、神経回路網,音声パタンの相加平均などによってモデル化される。
【0009】
標準パタンWiの組合せによって、参照系列を作成するが、その組合せに制約がないと、照合時の探索空間が広くなると同時に、認識性能が低下する。そこで、言語モデルを導入して、種々の言語制約を与える。例えば、構文制御による言語モデルは、0,1的に与えられ、文脈自由文法などで記述し、ATR編,“自動翻訳電話”オーム社(1994)に詳述されるLR(Left−to−right Rightmost derivation)パーサなどを用いて解析する。前出の文献による認識方式では、解析と同時に音素HMMから得られる尤度によって、パーサから得られた仮説を棄却するか存続するかを決定する。最終的に、最も大きい尤度をもつ仮説を認識結果とする。この場合、式(1)のWiは、LR構文解析により受理された、終端記号に対応する系列でなければならない。
【0010】
次に、従来の標準パタン訓練方式について説明する。例えば、発話中から日付/一月一日/という単語を抽出したいと仮定する。発声者の発話方法はさまざまであり、(1)/一月一日/と連続的に発話する場合や、(2)/一月_一日/(_:若干の休止区間)、(3)/一月の一日/などと単語間に認識対象以外の語が挿入する場合が考えられる。このような発話に対して、照合に用いる標準パタンには、上記の3通りのパタンを全て作成することは、パタン記憶容量の増大を招くため、/一月/,/一日/といった、短い語を単位とする標準パタンを作成するのが普通である。このような標準パタンと入力音声とを、中川著,“確率モデルによる音声認識”(社)電子情報通信学会(1988),に掲載されているようなスポッティング手法を用いて照合し、キーワードを抽出する。
【0011】
上記標準パタンを訓練するには、通常/一月/,/一日/などの孤立単語を数回発声し、その特徴パタンの相加平均を求めることで実現できる。ところが、このように離散的に発声された音声を用いた標準パタンは、上述の(1)〜(3)のような連続的な発話音声とは様式が異なっている。そのため、認識対象でない(2)の休止部分や(3)の/の/の部分が対象語のいずれかとなって抽出され湧き出しが起ったり、連続音声中での語を表すパタンや発話速度が孤立単語のものとは異なるために、対象語であるにも関わらず脱落してしまうことがある。
【0012】
以上の現象は、発話様式に対する標準パタンを精密に設計していないために起こる。この問題に対処するために、特開平7−36479号公報に掲載されているようにガーベジモデルによる方法がある。これは、登録語以外の語に相当するモデルを作成して、キーワード以外の発声部分を前記モデルで吸収するように標準パタンを訓練する。また、国際電気通信基礎技術研究所編,“自動翻訳電話”オーム社(1994),に掲載されているように、発話文として起こりうる全ての現象を文脈自由文法などで記述し、予測型一般化LR(Left−to−right Rightmost derivation)解析アルゴリズムを用いて、音素を単位とする隠れマルコフモデル(HMM:Hidden Markov Model)を入力音声と照合させる方法がある。
【0013】
【発明が解決しようとする課題】
上述の従来の連続音声認識方式における標準パタンの作成において、最近では、鷹見他,“逐次状態分割方法による隠れマルコフ網の自動生成”,電子情報通信学会論文誌,Vol. J76−D−II,No.10, pp.2155−2164(1993−10)に報告されているように、音素単位ではなく、当該音素の環境を考慮するようなモデルが提案されている。例えば、/aka/と発声された音声の/k/を認識するのに、/k/の前後に/a/があるという情報をもった/a−k−a/というHMMを用いて照合を行う。同様にして、/iki/と発声した場合の/k/は、/i−k−i/というHMMを用いることになる。上述の発声はどちらも中心部の子音は/k/であり、音素環境独立型の場合には、同一のモデル/k/が照合に用いられるのであるが、環境依存型の場合には、それぞれ異なるHMMを用いることになる。そのため、音素モデルの設計段階で、当該音素のモデル化だけでなく、音響空間上のある音素から音素への移動経路もモデル化することができ、高精度な認識性能を期待できる。
【0014】
一方、このような音素環境依存型モデルを検証器として駆動するために、様々なLR構文解析機が提案されている。永井他,“隠れマルコフ網と一般化LR構文解析を統合した連続音声認識”,電子情報通信学会論文誌,Vol.J77−D−II,No.1,pp.9−19(1994−1)には、音素環境独立型のLRテーブルを用いて解析アルゴリズムを音素環境依存型に変更する例が報告されている。この例では、アルゴリズムの変更に伴い、音素環境独立でも駆動する専用の音素環境依存型解析機を開発しなければならない。
【0015】
また、永井他,“文脈自由文法から音素コンテキスト依存文法への変換アルゴリズム”,日本音響学会講演論文集,3−1−6, pp.81−82(1992−3)には、音素環境独立のLRテーブルを、音素環境依存の構文解析が可能なLRテーブルに変換する方法や、音素環境独立の文脈自由文法を音素環境依存の文脈自由文法に変換する方法を紹介している。しかし、これらの方法は、汎用的なタスクを想定して、音素環境独立のLRテーブル、あるいは文脈自由文法を音素環境依存型に変換しようとしているため、LRテーブルの状態数や文脈自由文法の規則数が爆発的に増加することが想定される。
【0016】
本発明は、上述のごとき従来の連続音声認識方式の実情に鑑みてなされたもので、タスクに応じて音声類の環境を考慮した文脈自由文法を生成し、機構が単純で、記憶量の小さい構文解析部を用いて音声認識の照合範囲を狭くするとともに、環境を考慮した標準パタンを適応的に訓練することによって、高速で高精度な照合が可能な連続音声認識方式を提供することを目的としてなされたものである。
【0017】
また、上述の従来の標準パタン訓練方式のうち、ガーベジモデルを用いる方法では、登録語以外のモデルを比較的粗いモデルとして設計するために、抽出すべき単語もガーベジモデルに引き寄せられ、吸収されてしまう可能性がある。そのためモデルパラメータを注意深く制御しなければならない。また、不必要な吸収を避けるためにガーベジモデルの数を増やすことも考えられるがモデルの記憶量が増大する。
【0018】
一方、予測型一般化LRアルゴリズムを用いる方法では、発話内容の一字一句を全て認識していくため、認識結果にキーワードが存在しているか否かを調べる後処理を必要とする。また、発話現象を扱うための文法規則数が増し、記述も複雑になるので、管理が容易でない。
【0019】
それゆえに、本発明は、上述のごとき従来の標準パタン訓練方式の実情に鑑みてなされたもので、記憶量の小さい標準パタン群と、機構が単純で、記憶量の小さいLR表を用いた構文解析部とにより、構文解析部から直接標準パタンを選択することによって、標準パタンの訓練効率と発話様式に対する認識精度を高め、短時間で高精度なキーワード認識を可能にする標準パタン訓練方式を提供することを目的としてなされたものである。
【0020】
【課題を解決するための手段】
請求項1の発明は、入力音声の特徴量を抽出する手段と、類の一部を代表するパタンを時間方向に連結して状態遷移モデルとなし、音声の類をモデル化する手段と、音声記号列を文法により解析する構文解析と、状態遷移モデルにおける各状態の照合継続時間を制御しながら入力音声パタンを照合する手段とを備え、当該状態遷移モデルと入力音声の特徴パタンとを比較することによって、認識結果を得る連続音声認識方式において、前記構文解析部で受理された音声記号列を用いて、類の前後環境を含めた終端記号列を生成し、文法を作成することにより、類の前後環境を含めた状態遷移モデルを未知入力音声と照合する。
【0021】
請求項2の発明は、請求項1の発明において、前記構文解析部で受理された音声記号列に基づいて発声した音声を入力とし、その入力に対応する類の前後環境を含めた状態遷移モデルを連結して訓練する。
請求項3の発明は、請求項1の発明において、前記構文解析部で受理された音声記号列を含む音声を入力とし、類の前後環境を含めた状態遷移モデルと照合し、その認識結果をもっともらしい順に所定数表示し、正しい候補を選択することによって、正しい状態遷移モデルを連結して訓練する。
請求項4の発明は、請求項2又は3の発明において、類の前後環境を含めた状態遷移モデルの訓練に関し、過去に当該モデルに対して訓練が行われていた場合は、過去の状態遷移モデルと重ね合せて訓練する。
【0022】
請求項5の発明は、請求項2又は3の発明において、類の前後環境を含めた状態遷移モデルの訓練に関し、過去に当該モデルに対して訓練が行われていた場合には、新たに当該モデルの類に対する前後環境を含めた状態遷移モデルを生成して訓練を行い、過去の対応状態遷移モデルは訓練しない
請求項6の発明は、請求項4の発明において、類の前後環境を含めた状態遷移モデルの訓練に関し、請求項5によって記憶された状態遷移モデルの中から、入力音声と最も類似したモデルを更新する。
請求項7の発明は、請求項2乃至6のいずれかの発明において、類の前後環境を含めた状態遷移モデルの訓練に関し、初期モデルとして、環境独立の状態遷移モデルを連結する。
【0025】
【発明の実施の形態】
最初に、連続音声認識方式について説明する。
図1は、本発明による連続音声認識方式の一実施例を説明するための概略ブロック図で、図中、1はLPC分析部、2は照合部、3は環境依存文法部、4は環境依存動作表部、5は構文解析部、6は環境依存型DSTモデル、7はパタン連結部、8は判定部、9はスイッチ、10は環境独立文法部、11は環境独立動作表部、12は記号処理部で、図1に示した実施例によれば、構文解析部5に手を加えることなく、環境依存型のDSTモデル6を利用でき、タスクに対して適応的でより確実な認識を行うことができる。環境独立文法部10には、通常の音素を終端記号とする文法を、文脈自由文法などを用いて格納してある。文法の例を表1に示す。表1で、右辺の小文字は終端記号を表す。本実施例では、文法の終端記号及び標準パタンの類を音素として話を進めるが、単語,音節などのような類を採用してもかまわない。また、この文法から得たLR解析表を環境独立動作表部11に記憶しておく。表1の内容は、A.V.Aho他,“Compilers-Principles, Techniques, and Tools”,Addison-Wesley(1986)などに詳述されるLR解析表と同じで、ACTION部とGOTO部とから成り立っている。
【0026】
【表1】
【0027】
まず、スイッチ9をA側に入れ、音素環境依存型の文法を作成するため、構文解析部5を駆動して、受理可能な文を終端記号列を用いて出力する。これは、北他,“HMM音韻認識と拡張LR構文解析法を用いた連続音声認識”,情報処理学会論文誌,Vol.31, 3, pp.472-480(1990)などに詳述されるように、動作表から次に解析する終端記号を予測しながら、構文解析部5を駆動することによって実現することができる。
【0028】
得られた文から、記号処理部12で認識タスクとして必要な文を選択する。選択には、必要とする文を記号列照合により、自動的に選択してもよいし、人間が出力結果を編集することによって選択してもよい。その後、選択した文を終端記号の並びに応じて、環境依存型の終端記号列に変換する。例えば、/koreokure/という文を得ている時には、対象とする記号の先行及び後続記号の一文字を考慮して、/−ko kor ore reo eok oku kur ure re−/のように変換する。中心の記号が対象とする終端記号であり、左右にはその環境を意味する記号を付加する。上述の例で/kor/は、/o/という終端記号に先行して/k/という終端記号があり、/r/という記号が後続することを示す。/−/は、記号の始まりもしくは終りを示す。本実施例では、先行および後続する記号数を一つにしているが、いくつに設定してもよい。次に、変換した終端記号を用いて、環境依存文法を作成し、同文法部に格納する。作成された文法を表2に示す。同文法から得たLR解析表を環境依存動作表部4に記憶しておく。
【0029】
【表2】
【0030】
次に、スイッチ9をB側に入れ、連続音声の認識を行う。入力した音声をLPC分析し、10次元のケプストラムパラメタを抽出する。ただし、分析条件として、標本化周波数8kHz,ハミング窓による窓がけ(窓幅16ms),LPC分析次数14とする。また、1フレームあたりのシフト幅は、5msec間隔としている。分析手法は、上記に限られたものではなく、新美,“音声認識”,共立出版(1979)などで詳述されているように、周波数分析など、どのような音響分析手法を用いてもよい。
【0031】
構文解析部5では、LR解析表からどの音素を照合すればよいかを決定する。解析の状態が進むたびに、室井他,“継続時間制御状態遷移モデルを用いた単語音声認識”,J72-D-II, 11, pp.1769-1777(1989-11)に詳述されるような継続時間制御状態遷移(DST:Duration-based State Transition)モデルを連結する。本実施例では、音素の環境を考慮したDSTモデルを用い、照合部において、DSTモデルと入力音声の特徴量との照合を行う。解析した文の句構造は、構文解析部のチャートに記録しておく。最終的に全ての解析を終了した候補の中から最も小さい得点をもつ候補を式(5)に従って求め、認識結果として出力する。
【0032】
【数3】
【0033】
ここで、rは、動的計画法により求められた伸縮関数である。この関数により、照合するmフレーム目の入力特徴量とr(m)番目のDSTモデルの状態とが対応づけられる。l(エル)r(m)は、入力音声パタンをN(s)個の部分パタンに分割した時のr(m)番目の部分パタンにおけるフレーム長を示す。右辺の第1項目が音響分析によって得られた特徴量に関する距離を表し、第2項目が部分パタンの継続時間長に関する距離を表す。aは、正の数で、継続時間長に関する距離をどの程度全体の距離に反映させるかを決定する。本実施例では、a=0.1程度に設定する。上述のDSTモデルを用いることによって、音響空間上の特徴量だけでなく、音声パタンの特間的構造(特に部分パタンの時間長)を考慮した照合を行うことができる。
【0034】
図2は、本発明の他の実施例を説明するための概略ブロック図で、図中、13は発声リスト、14はDSTモデル訓練部で、その他、図1に示した実施例と同様の作用をする部分には、図1の場合と同一の参照番号が付してある。而して、図2に示した実施例は、図1に示した実施例によって得られた環境依存型の文法と動作表とを用いて、音素環境依存型DSTモデルを訓練できるようにしたもので、まず、スイッチ9をA側に入れ、音素環境依存型DSTモデル6の訓練を行う。発声リスト13に対応した音声が入力され、LPCケプストラムパラメタが抽出される。次に、発声リスト13に従って、環境依存型DSTモデル列とを動的計画法を用いて照合し、式(4)の基準に従って伸縮関数θに関して最小化を行う。求めた伸縮関数をrとする。
DSTモデル訓練部14において、モデルの平均値と継続時間長を次式に従い更新する。ここで、Nr(m)は、DSTモデルのr(m)番目の状態に対応づけられた入力パタンの最終フレーム番号である。
【0035】
【数4】
【0036】
ただし、Nr(0)=0とする。
上述の訓練を行った後、スイッチ9をB側に入れ、連続音声の認識を行う。認識過程の構成は、図1の実施例と同じであるため省略する。
【0037】
図3は、本発明の更に他の実施例を説明するための概略ブロック図で、図中、15は結果表示部、16は選択部で、その他、図1又は図2に示した実施例と同様の作用をする部分には、図1又は図2の場合と同一の参照番号が付してある。而して、図3に示した実施例は、認識するために発声された入力音声を用いて音素環境依存型のDSTモデルを訓練できるようにしたものである。図3に示した実施例によれば、認識とDSTモデルの訓練とを同時に行うことができる。まず、入力音声を図1の実施例と同じ過程により認識し、ディスプレイなどの表示装置を用いて、表示部15で認識候補の得点の低い順に所定数表示する。表示部15に正解が含まれている場合には、キーボードなどの選択部16により、正解を選択できるようにする。この選択により、入力された音声パタンに対して訓練するべきDSTモデル列を決定することができる。これらのDSTモデル列に対し、式(4),(8),(9)を適用して、訓練部14にて、DSTモデルの平均値と継続時間長の更新を行う。訓練の過程は、図2の実施例と同じであるため省略する。
【0038】
本実施例では、表示部において、照合時の距離尺度に式(7)に示すユークリッド距離を用いているため、得点の低い順番に候補を表示している。もし、尤度などを基準として認識候補の得点をつけた場合には、得点の高い順に表示することになる。もちろん、本発明においては、どちらの基準を用いても構わない。
【0039】
図2または図3のDSTモデル訓練部14において、同じ類に対し、過去に訓練されたモデルが存在している場合には、次の2通りの方法によって、DSTモデルを訓練する。一つは、次式10に従って、過去に訓練されたモデルWk1と新しく訓練されたモデルWk2とを重ね合わせて、Wn3を作成する方法である。
k3=bWk1+(1−b)Wk2 …(10)
ここで、bは過去のモデルと新モデルとの混合比率を示す正の数である。特別な場合として、b=0の時には、モデルは訓練されないことを示し、b=1の時には、新モデルに置き換えることに相当する。
もう一つは、過去のモデルと新モデルとの両方を記憶しておく方法である。すなわち、訓練用の音声が入力されるたびに、新しいDSTモデルを作成する。認識時には、最も入力音声パタンと近いDSTモデル系列を認識結果として出力すればよい。
【0040】
また、上述の2つの訓練法を組合わせた方法も可能である。上述の2つ目の方法は、同じ類に対して複数のモデルを持つことで、認識の精度を上げることができるが、照合時の組合せ回数が多くなるので、認識時間が長くなる。そこで、所定数だけ、モデルが作成された後は、重ね合わせの対象となるモデルを選択し、選択されたモデルと新しく訓練されたモデルとを式10に従って重ね合わせる。列sが重ね合わせるDSTモデルを含んだ列であるとした場合、重ね合わせの対象となるDSTモデル列は、
【0041】
【数5】
【0042】
を満たす。この方法により、認識時間と認識精度との関係を自由に調整し、使用者の所望とする性能に設定することができる。
以上に述べてきた環境依存型DSTモデルを訓練するために、環境独立型DSTモデルを初期モデルとすることも可能である。例えば、先行および後続音素が/a/である/a−k−a/というDSTモデルを訓練することを考える。この場合の初期モデルとして、/k/という音素環境独立型のDSTモデルを訓練することを考える。この場合の初期モデルとして、/k/という音素環境独立型のDSTモデルを用いて訓練を始める。音素環境独立型のDSTモデルから質のよい初期値を与えることにより、高精度なモデルを設計することができる。
【0043】
次に、標準パタン訓練方式について説明する。
図4は、標準パタン訓練方式の一実施例を説明するための概略ブロック図で、図中、21は分節化部、22は特徴パタン作成部、23は照合部、24は累積得点記憶部、25は比較部、26はLR表部、27は予測型チャート構文解析部で、まず、スイッチW1をA側に入れ、標準パタンの訓練を行なう。図4では、入力音声に対する状態遷移モデルを作成するために、LR表部26を用いた予測型チャート構文解析部27を駆動する。LR表部26には表3に示すような文法から得られる動作表を記憶しておく。表3の記号の中で、終端記号は、’*’で始まり、それ以外の記号は非終端記号である。この記述は実施例を示すため簡単にしてあるが、文脈自由法による記法であればさらに複雑な記述が可能である。
【0044】
【表3】
【0045】
LR表の内容は、A.V.Aho他,“Compilers−Principles,Techniques,and Tools”,Addison−Wesley(1986)などに詳述されるLR解析表と同じで、ACTION部とGOTO部から成り立っている。この表の動作には、状態の遷移,文法の適用,受理,誤りの4種類がある。
【0046】
表3のLR表を用いて、予測型チャート構文解析部27では、終端記号を先頭から1つずつ取り出し、表4から表6に示すアルゴリズムを適用し、その結果を表7に示すチャートとして記録する。チャートには最終的に受理動作を行なうまで、全ての句構造を記録していく。ただし、’*$’は最後を表す終端記号で予測した終端記号列の最後の位置に設定される。
【0047】
【表4】
【0048】
【表5】
【0049】
【表6】
【0050】
表7は、例として“1月1日1時”の解析結果を示しているが、その他にも文法に基づいて“1月1日2時”,“1月2日1時”などが順次生成される。標準パタンの訓練は、これらの記号系列に対応する状態遷移モデルを作成することにより実現できる。
【0051】
【表7】
【0052】
上述の予測型チャート構文解析部27の動作により、終端記号を構成している文字系列のインデックス番号が順次に標準パタン記憶部28へ送られる。標準パタンは文字単位で格納されているので、連結部29にてインデックス番号を参照して終端記号単位に標準パタンを連結し、状態遷移モデル部30にて状態遷移モデルを作成する。例えば、標準パタンが音素単位で格納されていれば、終端記号“1月”に対して/i,ch,i,g,a,t,u/という標準パタンで構成する。なお、状態遷移モデルをHMMのような確率モデルで表現しても、単語グラフや有限状態網のように厳格に表現してもどちらでも構わない。
【0053】
一方、入力音声は分節化部21により所定の時間だけ音声を入力し、新美,“音声認識”,共立出版(1979)などで詳述されているような分析手法によって特徴パタンに変換される。ここでは、10次元のケプストラムパラメタを抽出し特徴パタンとする。ただし、分析条件として、標本化周波数:16kHz,高域強調:一次差分,256点ハミング窓,更新周期:10ms,LPC分析次数:20とする。分析手法は上記に限られたものではなく、周波数分析などどのような音響分析手法を用いてもよい。入力する音声には、前記チャート構文解析部から生成された終端記号に対応するキーワードを含めておく。
【0054】
次に、上述のようにして作成された状態遷移モデルと入力音声の特徴パタンとを、照合部23にて照合する。構文解析部27から生成された終端記号列のうち、s番目の終端記号に対応する状態遷移モデルをsW,(s=1,…,S)で表す。sWをL個の標準パタンにより構成する。
【0055】
【数6】
【0056】
ここで、pq(l)は、系列中のl(1≦l≦L)番目に対応する標準特徴パタンのインデックスであり、全体でV個の標準パタンを持つ。表7を例にすれば、生成文の終端記号数は、3であるので、S=3である。また、各標準パタンは、実施例の場合、音素に対応するので、標準パタン数は総音素数と等しくなる。
同様にして、入力特徴パタンXを以下のように表す。
X={x,…,x,…,x} …(13)
実施例において、Xは、入力音声中のS個のキーワードが含まれた特徴パタンである。照合部では、入力音声特徴パタンと状態遷移モデルとの照合得点Dを以下の式により求める。
【0057】
【数7】
【0058】
ここで、ms1,ms2は、s番目のキーワードに対応する音声特徴パタンの抽出区間の端点で、それぞれ始点と終点を表す。整合関数rは、照合経路を表す関数であり、よく知られた動的計画法などによって求めることができる。整合関数により、mフレーム目の入力特徴量とキーワードを構成するr(m)番目の標準パタンとが対応づけられる。標準パタンと音声特徴パタンとの得点D(x,pr(m))は、正値をもつしきい値から、よく知られたユークリッド距離を引くことで得られる。式(15)により得られたrより、標準パタンに対応する音声特徴パタンの部分パタンが求まるので、この部分パタンを用いて標準パタンを訓練する。この訓練は、標準パタンのもつ特徴量と部分パタンの特徴量との相加平均を求め、新たに標準パタンとして登録することでなされる。
【0059】
訓練の方法は、上記に限ったものではなく、状態遷移モデルをHMMで表現すれば、D(x,pr(m))を尤度として計算することで実現できる。また、この時のHMMの訓練は、前述の中川,“確率モデルによる音声認識”などに詳述される Baum−Welch の推定法により可能である。式(15)は、最大化を基準としているが、これに限ったものではなく、単なるユークリッド距離による最小化基準により訓練を行っても本発明の本質は変わらない。
【0060】
以上に説明したように、キーワード単位で入力音声の部分パタンを照合するため、キーワード間に休止や不要語が挿入されても、標準パタンの訓練が可能である。上述の処理を予測型チャート構文解析部27の終端記号列が生成されなくなるまで繰り返すことにより、訓練が完了する。次に、スイッチW1をBに入れることにより、キーワード認識をすることができる。認識時には、予測型チャート構文解析部27とLR表部26からキーワードを予測するように働く。解析が進むたびに予測キーワードの状態遷移モデルを作成するために標準パタンを連結する。照合部23において、状態遷移モデルと入力音声の特徴量との照合を行う。予測したキーワード候補の得点は、累積得点記憶部24に記憶しておき、最終的に全ての解析を終了した候補の中から最も高い得点をもつ候補を式(15)に従って求め、認識結果として出力する。
【0061】
図4に示した実施例において、式(16)で、以下のような条件を導入することにより、照合時間を速くすることが可能である。
【0062】
【数8】
【0063】
この式(16)は、入力特徴パタン中でs番目のキーワードを検出し、その区間内に収まるフレームから次のキーワード、すなわちs+1番目のキーワードの状態遷移モデルに対して照合を開始することを示している。
【0064】
複数のキーワードが入力された場合、分節化部で音声の存在する部分だけを切り出してくることにより、高速な照合が可能である。図8は、二つのキーワード/一月/と/一日/が含まれている音声波形を示している。図8からわかるように、/一月/と/一日/の間には、若干の休止が存在している。このような場合に既出の新美,“音声認識”,共立出版(1979)などで述べられている音声の切り出しアルゴリズムなどを用いて、分節化部21において、図8のAとBとの区間を求める。その後、切り出したAとBとの区間だけを状態遷移モデルとの照合対象とすることで、照合区間を短くすることができる。
【0065】
図5は、他の実施例を示す概略ブロック図で、図中、図4に示した実施例と同様の作用をする部分には、図4の場合と同一の参照番号が付してある。而して、図5に示す実施例は、LR表部(26A,26B,26C)と予測型チャート構文解析部(27A,27B,27C)との組を複数用意したものである。標準パタンの訓練時に初期段階から複数のキーワードが含まれた音声を用いて標準パタンを訓練すると、不安定なパタンとなることがある。そのような現象を避けるため、初期段階では、入力音声から単一キーワードだけを訓練するようにし、徐々に音声中に含まれるキーワードを増やすことにより、標準パタンが安定するだけでなく、入力音声の多様な発話様式も合わせて訓練することができる。実施例では、LR表部26Aと予測型チャート構文解析部27Aとを用いて、キーワードが一つ含まれる文を生成するようになっている。同様に残りの2組は、キーワードが2つ含まれる文と、3つ含まれる文とをそれぞれ生成する。訓練時、すなわちスイッチW1をAに入れた時には、まず、スイッチW2をCに入れて前記実施例と同様の手続きに従って、キーワードが一つ含まれた入力音声から標準パタンを訓練する。次に、スイッチW2を順にD,Eと切替えていくことにより、音声中に含まれるキーワード数を増やして、標準パタンを訓練することができる。キーワード認識時には、スイッチW1をBに入れ、スイッチW2をC,D,Eに全て入れることで実現できる。予測可能な全てのキーワード候補を生成することができるので、それらの中から最も高い得点を持つ候補を認識結果として出力すればよい。
【0066】
図6は、他の実施例を説明するための概略ブロック図で、図6に示す実施例は、図4に示した実施例に表示装置32を加えたものである。訓練時にスイッチWをA側に入れ、スイッチWをCに入れる。表示装置32には、予測型チャート構文解析部27から生成されたキーワードを含む文が生成され、表示装置32に“1月1日”のように表示される。この表示を見ながら、発声者が音声を入力する。その後の処理を、図4の実施例で述べた方法を同様にして行うことにより、標準パタンの訓練が完了する。認識は、スイッチWをB側に入れ、スイッチWをCに切ることによって実現することができる。
【0067】
図7は、さらに他の実施例を説明するための概略ブロック図で、図7に示す実施例は、図6の実施例によみ変換部33を加えたものである。よみ変換を行うために、LR表を作成する時の文法を表8のように変更する。表8は、キーワードにあたる日付に対応するよみを書き換え規則として追加している。訓練時の表示装置には、よみ変換部33により終端記号を含む書き換え規則の右辺も表示する。この結果、“1月(いちがつ)1日(ついたち)”のように表示することができ、1日を“いちにち”と読むようなことがなくなるため、発声者に正確な発話を促すことができる。
【0068】
【表8】
【0069】
【発明の効果】
以上の説明から明らかなように、本発明によれば、タスクに応じて類の環境を考慮した文脈自由文法を適応的に生成することができる。また、機構が単純で、記憶量の小さい従来のLR-Chart構文解析部に変更を加えることなく、環境依存型の音素モデルを組み合わせることが可能となる。さらに、類の環境を考慮した継続時間長制御型状態モデルを適応的に訓練することができる。その結果、高精度で高速な照合を行う連続音声認識を実現することができる。
請求項1に係わる発明は、入力音声の特徴量を抽出する手段と、類の一部を代表するパタンを時間方向に連結して状態遷移モデルとなし、音声の類をモデル化する手段と、音声記号列を文法により解析する構文解析と、状態遷移モデルにおける各状態の照合継続時間を制御しながら入力音声パタンを照合する手段とを備え、当該状態遷移モデルと入力音声の特徴パタンとを比較することによって、認識結果を得る連続音声認識方式において、前記構文解析部で産理された音声記号列を用いて、類の前後環境を含めた終端記号列を生成し、文法を作成することにより、類の前後環境を含めた状態遷移モデルを未知入力音声と照合することができる。
請求項2に係わる発明は、請求項1において、前記構文解析部で受理された音声記号列に基づいて発声した音声を入力とし、その入力に対応する類の前後環境を含めた状態遷移モデルを連結して訓練することができる。
請求項3に係わる発明は、請求項1において、前記構文解析部で受理された音声記号列を含む音声を入力とし、類の前後環境を含めた状態遷移モデルと照合し、その認識結果をもっもらしい順に所定数表示し、正しい候補を選択することによって、正しい状態遷移モデルを連結して訓練することができる。
請求項4に係わる発明は、請求項2又は3において、類の前後環境を含めた状態遷移モデルの訓練に関し、過去に当該モデルに対して訓練が行われていた場合は、過去の状態遷移モデルと重ね合せることができる。
請求項5に係わる発明は、請求項2又は3において、類の前後環境を含めた状態遷移モデルの訓練に関し、過去に当該モデルの類に対して訓練が行われていた場合には、新たに当該モデルに対する前後環境を含めた状態遷移モデルを生成して訓練を行い、過去の対応状態遷移モデルは訓練しないようにして、認識時間と認識精度との関係を自由に調整し、使用者の所望とする性能に設定することができる。
請求項6に係わる発明は、請求項4において、類の前後環境を含めた状態遷移モデルの訓練に関し、請求項5によって記憶された状態遷移モデルの中から、入力音声と最も類似したモデルを更新することができる。
請求項7に係わる発明は、請求項2乃至6のいずれかにおいて、類の前後環境を含めた状態遷移モデルの訓練に関し、初期モデルとして、環境独立の状態遷移モデルを連結することができる
【図面の簡単な説明】
【図1】本発明の一実施例による連続音声認識の実施例を示すブロック図である。
【図2】本発明の他の実施例を説明するための概略ブロック図である。
【図3】本発明のその他の実施例を説明するための概略ブロック図である。
【図4】準パタン訓練の一実施例を示すブロック図である。
【図5】の実施例を示す概略ブロック図である。
【図6】の実施例を示す概略ブロック図である。
【図7】らに他の実施例を示す概略ブロック図である。
【図8】二つのキーワード/一月/と/一日/が含まれている音声波形を示す図である。
【符号の説明】
1…LPC分析部、2…照合部、3…環境依存文法部、4…環境依存動作表部、5…構文解析部、6…環境依存型DSTモデル、7…パタン連結部、8…判定部、9…スイッチ、10…環境独立文法部、11…環境独立動作表部、12…記号処理部、13…発生リスト、14…DSTモデル訓練部、15…結果表示部、16…選択部、21…分節化部、22…特徴パタン作成部、23…照合部、24…累積得点記憶部、25…比較部、26…LR表部、27…予測型チャート構文解析部、28…標準パタン記憶部、29…連結部、30…状態遷移モデル部、31…訓練部、32…表示装置、33…よみ変換部。

Claims (7)

  1. 入力音声の特徴量を抽出する手段と、類の一部を代表するパタンを時間方向に連結して状態遷移モデルとなし、音声の類をモデル化する手段と、音声記号列を文法により解析する構文解析と、状態遷移モデルにおける各状態の照合継続時間を制御しながら入力音声パタンを照合する手段とを備え、当該状態遷移モデルと入力声の特徴パタンとを比較することによって、認識結果を得る連続音声認識方式において、前記構文解析部で受理された音声記号列を用いて、類の前後環境を含めた終端記号列を生成し、文法を作成することにより、類の前後環境を含めた状態遷移モデルを未知入力音声と照合することを特徴とする連続音声認識方式。
  2. 記構文解析部で受理された音声記号列に基づいて発声した音声を入力とし、その入力に対応する類の前後環境を含めた状態遷移モデルを連結して訓練することを特徴とする請求項1に記載の連続音声認識方式。
  3. 記構文解析部で受理された音声記号列を含む音声を入力とし、類の前後環境を含めた状態遷移モデルと照合し、その認識結果をもっともらしい順に所定数表示し、正しい候補を選択することによって、正しい状態遷移モデルを連結して訓練することを特徴とする請求項1に記載の連続音声認識方式。
  4. 前記類の前後環境を含めた状態遷移モデルの訓練に関し、過去に当該モデルに対して訓練が行われていた場合は、過去の状態遷移モデルと重ね合わせて訓練することを特徴とする請求項2又は3に記載の連続音声認識方式。
  5. 前記類の前後環境を含めた状態遷移モデルの訓練に関し、過去に当該モデルに対して訓練が行われていた場合は、新たに当該モデルの類に対する前後環境を含めた状態遷移モデルを生成して訓練を行い、過去の対応状態遷移モデルは訓練しないことを特徴とする請求項2又は3に記載の連続音声認識方式。
  6. 前記類の前後環境を含めた状態遷移モデルの訓練に関し、請求項5によって記憶された状態遷移モデルの中から、入力音声と最も類似したモデルを更新することを特徴とする請求項4に記載の連続音声認識方式。
  7. 前記類の前後環境を含めた状態遷移モデルの訓練に関し、初期モデルとして、環境独立の状態遷移モデルを連結することを特徴とする請求項2乃至6のいずれかに記載の連続音声認識方式。
JP3245596A 1995-04-26 1996-02-20 連続音声認識方式及び標準パタン訓練方式 Expired - Fee Related JP3575904B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3245596A JP3575904B2 (ja) 1995-04-26 1996-02-20 連続音声認識方式及び標準パタン訓練方式

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP7-102056 1995-04-26
JP10205695 1995-04-26
JP3245596A JP3575904B2 (ja) 1995-04-26 1996-02-20 連続音声認識方式及び標準パタン訓練方式

Publications (2)

Publication Number Publication Date
JPH0916192A JPH0916192A (ja) 1997-01-17
JP3575904B2 true JP3575904B2 (ja) 2004-10-13

Family

ID=26371035

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3245596A Expired - Fee Related JP3575904B2 (ja) 1995-04-26 1996-02-20 連続音声認識方式及び標準パタン訓練方式

Country Status (1)

Country Link
JP (1) JP3575904B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040236581A1 (en) * 2003-05-01 2004-11-25 Microsoft Corporation Dynamic pronunciation support for Japanese and Chinese speech recognition training
JP5519126B2 (ja) * 2008-06-27 2014-06-11 アルパイン株式会社 音声認識装置及び音声認識方法

Also Published As

Publication number Publication date
JPH0916192A (ja) 1997-01-17

Similar Documents

Publication Publication Date Title
US7676365B2 (en) Method and apparatus for constructing and using syllable-like unit language models
KR100486733B1 (ko) 음소 결합정보를 이용한 연속 음성인식방법 및 장치
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
EP0376501B1 (en) Speech recognition system
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
JP4604178B2 (ja) 音声認識装置及び方法ならびにプログラム
EP0965978B1 (en) Non-interactive enrollment in speech recognition
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JPWO2007097176A1 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US20040210437A1 (en) Semi-discrete utterance recognizer for carefully articulated speech
JP4072718B2 (ja) 音声処理装置および方法、記録媒体並びにプログラム
US20020091520A1 (en) Method and apparatus for text input utilizing speech recognition
US20050038647A1 (en) Program product, method and system for detecting reduced speech
Szarvas et al. Automatic recognition of Hungarian: Theory and practice
JP3575904B2 (ja) 連続音声認識方式及び標準パタン訓練方式
JPH08248980A (ja) 音声認識装置
JP2000056795A (ja) 音声認識装置
JPH09114482A (ja) 音声認識のための話者適応化方法
JPH1097275A (ja) 大語彙音声認識装置
JPH08241096A (ja) 音声認識方法
Chung Towards multi-domain speech understanding with flexible and dynamic vocabulary
JPH09212190A (ja) 音声認識装置及び文認識装置
Tjalve Accent features and idiodictionaries: on improving accuracy for accented speakers in ASR
JPH10198392A (ja) 音声認識方法
Abuzeina Utilizing data-driven and knowledge-based techniques to enhance Arabic speech recognition

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040706

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040706

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070716

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080716

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080716

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090716

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090716

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100716

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110716

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120716

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120716

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130716

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees