JP3747171B2 - 音声処理システム - Google Patents
音声処理システム Download PDFInfo
- Publication number
- JP3747171B2 JP3747171B2 JP2001344825A JP2001344825A JP3747171B2 JP 3747171 B2 JP3747171 B2 JP 3747171B2 JP 2001344825 A JP2001344825 A JP 2001344825A JP 2001344825 A JP2001344825 A JP 2001344825A JP 3747171 B2 JP3747171 B2 JP 3747171B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- sub
- dictionary
- phoneme
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 32
- 238000011156 evaluation Methods 0.000 claims description 87
- 238000000034 method Methods 0.000 claims description 70
- 230000004044 response Effects 0.000 claims description 2
- 238000003672 processing method Methods 0.000 claims 3
- 230000004931 aggregating effect Effects 0.000 claims 1
- 238000003780 insertion Methods 0.000 description 21
- 230000037431 insertion Effects 0.000 description 20
- 230000007704 transition Effects 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000000644 propagated effect Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 6
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 230000001902 propagating effect Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 235000008694 Humulus lupulus Nutrition 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241000252794 Sphinx Species 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000020509 sex determination Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Description
本発明は、音声認識システムから出力されるサブ単語ユニットの1つあるいは複数の系列を1つあるいは複数の対応する単語にデコードするための装置ならびに方法に関するものである。
【0002】
音声認識システムは、認識処理に利用できる処理能力の増大に伴い、ますます広く使われようになっている。ほとんどの音声認識システムは、小語彙システムと大語彙システムの2つに分けることができる。小語彙システムでは、音声認識エンジンにおいて、認識対象の入力音声とシステムの既得単語を表現する音響パターンとを比較している。大語彙システムでは、システムの既得単語それぞれに対する単語モデルを蓄積しておくのは現実的ではない。そこで、その代わりに、参照パターンを所与の言語の音素とすることが多い。この方法では、入力音声は音素パターンと比較され、入力音声を表現する音素系列が生成される。次いで、単語デコーダを用いて、音素系列に合致する単語候補が選ばれる。通常、音素系列から単語へのデコード処理は、音素系列と単語を表現する隠れマルコフモデルとを辞書を用いて比較することでなされる。
【0003】
本発明の目的は、認識エンジンから出力される音素系列を一つあるいは複数の単語にデコードする別の方法を提供することである。
【0004】
本発明は、1つあるいは複数の単語の音声入力に対して認識システムから出力されるサブ単語系列に対応する1つあるいは複数の単語を識別する音声処理装置であって、前記入力サブ単語系列を受信する第一の受信手段と、複数の辞書単語及び該辞書単語毎に複数対応づけられた辞書サブ単語系列を有する単語辞書から、前記辞書サブ単語系列を受信する第二の受信手段と、前記第一の受信手段により受信した入力サブ単語系列と前記第二の受信手段で受信した各辞書サブ単語系列との間で、サブ単語を対応付けた整合ペアを複数生成して各整合ペアのサブ単語を比較し、該比較結果より該入力サブ単語系列と該辞書サブ単語系列との類似度を算出し、辞書単語ごとに複数の類似度を取得する取得手段と、前記取得手段で取得した複数の類似度を集計して、辞書単語ごとに入力サブ単語系列と辞書サブ単語系列との間の類似度を算出する算出手段と、前記算出手段で算出された類似度に基づいて前記1つあるいは複数の単語を識別する手段とを備える音声処理装置を提示するものである。
【0005】
以下、本発明の実施形態を添付図面を参照しながら詳細に説明する。
【0006】
本発明の実施形態は専用ハードウェア回路を用いて実装され得るももの、以下の実施形態ではパーソナルコンピュータ上で動作するコンピュータソフトウェアすなわちコードでもって実装されるものとしている。なお、他の実施形態として、ワークステーション、複写機、ファクシミリ、携帯情報端末(PDA)、ウェブブラウザなどの上で動作するソフトウェアであっても良い。
【0007】
図1は、本発明の実施形態を実行できるプログラムを具備しているパーソナルコンピュータ(PC)1を示している。キーボード3、ポインティングデバイス5、マイクロフォン7、電話線9などがインタフェース11を介してPC1に接続されている。キーボード3やポインティングデバイス5により、ユーザはシステムを制御することができる。マイクロフォン7は、ユーザの音声信号波形を電気信号に変換し、PC1において電気信号が処理される。なお、遠隔コンピュータや遠隔ユーザとの通信を行うために、電話線9には内部モデムや音声受信回路(不図示)が接続されることもある。
【0008】
本発明の実施形態を実行できるプログラムは、磁気ディスク13などの記憶デバイスといった形で提供されることもあるし、内部モデムや電話線9を介したインターネットなどを用いて遠隔コンピュータからソフトウェアをダウンロードするといった形で提供されることもある。
【0009】
PC1に実装される音声認識システム14の動作を、図2を用いて詳細に説明する。マイクロフォン7からのユーザ入力音声を表現する電気信号は、プレプロセッサ15において、パラメータフレーム系列に変換される。ここで、パラメータフレームとは、入力音声信号を一定時間で区切った時間フレームのことである。プレプロセッサ15から出力されたパラメータフレーム系列は、音声認識エンジン17において、音素モデル19と比較処理され、入力信号を表現する音素系列が生成される。次いで、音素系列は単語デコーダ21に入力され、単語辞書23に記憶されている種々の単語の音素系列との比較処理が行われ、単語の認識が行われる。
【0010】
すなわち、単語辞書23には音声認識システムの対象単語それぞれに対する音素系列が格納されている。本実施形態では、単語デコーダ21はまず単語辞書に対して命令信号29を送出し、単語辞書23中の音素系列のサブセットを単語デコーダ21にダウンロード30をするよう要求する。ここで、音素系列のサブセットは、単語辞書23中のすべての単語が表現されるように選択されている。次いで、単語デコーダ21は、音声認識エンジン17を用いて、生成された音素系列出力の先頭と選択された音素系列の先頭とを比較し、評価点を求める。この評価点に基づいて、評価点の高い単語種別と評価点の低い単語種別とが識別される。そこで、単語デコーダ21は、評価点の低い音素系列を削除するとともに、新たな命令信号29を単語辞書23に送信し、評価点の高い音素系列に音響的に類似の単語を単語デコーダ21にダウンロードするように要求する。そして、単語デコーダ21に新たに保持された関連音素系列のすべてと入力音素系列との比較が行われ、N個の評価点の高い単語の出力25がされる。出力された単語は、PC1においてPC1上で動作しているソフトウェアアプリケーションを制御するために用いられたり、PC1上で動作しているワードプロセッシングプログラムにテキストとして挿入するために用いられる。
【0011】
単語デコーダ
図3は、上述の単語デコーダ21の構成要素を詳細に示した図である。図示のように、音声認識エンジン17から出力される音素系列を受信するメモリ41が含まれる。音素系列は整合ユニット43に送られる。本実施形態の整合ユニット43では、動的計画法整合手法を用いて、メモリ47に保持されている単語辞書23からの複数の音素系列と入力音素系列との比較が行われる。本実施形態の整合ユニット43では、入力音素系列と辞書系列との比較と整合とは独立かつ同時に行われる。この整合処理では、各整合結果についての評価点は評価点分析ユニット45に入力され、評価点分析ユニット45において評価点の分析が行われて評価点の高い辞書系列と評価点の低い辞書系列とが決定される。それに応じて、分析ユニット45は単語辞書23に対して第一の制御信号29を送信し、評価点の高い単語に類似の新たな単語の音素系列をメモリ47にダウンロードする。
【0012】
また、分析ユニットは第二の制御信号31をメモリ47に送信し、評価点の低い辞書系列を削除する。このようにして、評価点分析ユニット45は、動的計画法整合ユニット43でもって整合処理がなされた音響系列の数を動的に制御することができる。これにより、単語辞書中の音素系列の初期サブセットがメモリ47にダウンロードされ、新たな入力音素系列との比較が行われることになり、本実施形態では、辞書音素系列の初期セットは、辞書23における種々の単語音を代表するものとなる。ここで、初期セットは、例えば、辞書23中の単語をクラスタリングして、類似の単語音をクラスタ化することなどによって作成される。次いで、比較処理において、各クラスタ中の単語の一つがメモリ47にダウンロードされ、入力音素系列と比較される。
【0013】
入力音素系列と選択されたすべての辞書系列との比較がなされた後で、評価点分析ユニット45は選択された辞書系列との評価点を再度分析し、最も高い評価点を有する辞書音素系列を決定する。最も高い評価点を有する辞書系列に対応する単語は、入力音素系列を表す単語として評価点分析ユニット45から出力25される。本実施形態では、評価点分析ユニット45は、N個の評価点の高い辞書系列をランク付けするとともに、これらもあわせて出力する。
【0014】
ところで、辞書音素系列がマニュアルで作成されたものであれば、これらを正しいと考えることができる。しかしながら、音声認識エンジン17は発話を完全にデコードすることはできないため、入力音素系列には辞書系列に対して挿入や欠落が含まれることになる。また、入力音素系列には辞書系列に対してデコード誤りも存在し得る。当業者には認識されているであろうが、現在の多くの音声認識システムはマニュアルで生成された単語辞書を用いている。しかしながら、辞書音素系列が発話単語から生成されるような辞書が出てきつつある。また、マニュアルで生成された音素系列とともに音声認識システムで生成された音素系列をも用いる混合辞書も出てきている。このような場合には、入力音素系列と辞書系列の双方において、実際に発声されたテキストを表す未知の基準音素系列に対して挿入、欠落、デコード誤りが発生し得ることとなる。
【0015】
図4は、辞書単語を表す辞書音素系列(ラベルd1 i, d1 i+1, d1 i+2...)、入力音素系列(ラベルd2 j, d2 j+1, d2 j+2...)、辞書系列や入力系列と最適にマッチングされるテキストの基準音素系列を表す音素系列(ラベルpn, pn+1, pn+2...)間でのマッチングを示したものである。図4に示すように、動的計画法整合ユニット43は、入力音素系列と辞書音素系列における基準音素系列に対する音素の挿入(d1 i+3, d2 j+1などで表される挿入音素)や、音素の欠落(d1 i+1, d2 j+2などの基準音素系列中の2つの音素に対して整合される欠落音素)に対処できなければならない。
【0016】
本実施形態においては、辞書単語がマニュアルで生成された場合と音声から生成された場合とで、異なる評価点判定技術を用いる。ここで、辞書種類情報は、動的計画法整合ユニット43に送られる各辞書系列のラベルに付与されている。
【0017】
(DP整合の概要)
音声処理の当業者であれば既知であるように、動的計画法は、本実施形態では音素系列となる特徴系列間で最適な整合を求めるために用いられる技術である。本実施形態では、動的計画法整合ユニット43は入力系列と辞書系列との間の最適整合を計算する。ここで、最適整合の計算は、入力系列からの音素系列と辞書系列からの音素系列との間での整合可能性を示す複数の動的計画法のパスを同時に伝搬させることで行われる。すべてのパスは、整合する2つの音素系列の始点に位置する始点空ノードから始まり、整合する2つの音素系列の終点に位置する終点空ノードまで伝搬される。
【0018】
図5と図6は、実行される整合処理とパスの伝搬とを模式的に示したものである。具体的には、図5は、辞書音素系列を示す水平軸と入力音素系列を示す垂直軸とからなる直交座標プロットを示している。始点空ノードφsは左上角、終点空ノードφeは右下角に位置する。また、図6において、辞書系列音素は水平軸に、入力系列音素は垂直軸に示されている。図6の格子点は、入力音素系列と辞書音素系列の音素間での整合可能性を表したものである。例えば、格子点21は辞書系列音素d1 3と入力系列音素d2 1との間での整合を示す。また、図6にはm1, m2, m3といった3つの動的計画法のパスも示されている。これらは、入力音素系列と辞書音素系列との間での3つの整合可能性を示しており、始点空ノードφsから始まり、終点空ノードφeに向かって格子点を伝搬している。
【0019】
入力音素系列と辞書音素系列との間での最適な整合を求めるために、動的計画法整合ユニット43は伝搬している動的計画法のパスそれぞれの評価点を計算している。ここで、評価点は、パスに沿って整合したときの全体的な類似性に基づいて計算される。また、整合する系列中での音素の欠落や挿入の数に少なく抑えるために、動的計画法プロセスは動的計画法のパスの伝搬の仕方に制限を設けている。当業者であれば理解できるように、ここで用いる動的計画法の制限は辞書音素系列の生成方法に依存するものとなる。
【0020】
DP制約
(マニュアルで生成された辞書音素系列)
マニュアルで生成された辞書音素系列を用いる場合には、辞書音素系列には音素の欠落や挿入はないものの、入力音素系列においては辞書音素系列に対して音素の欠落や挿入が起こり得る。図7aは、このような場合に本実施形態で用いる動的計画法の制限である。図示されているように、動的計画法のパスが辞書音素d1 iと入力音素d2 jとの間での整合を示す格子点(i,j)で終端している場合、動的計画法のパスは格子点(i+1,j), (i+1,j+1), (i+1,j+2), (i+1,j+3)のどれかに伝搬することになる。ここで、格子点(i+1,j)への伝搬は、辞書系列に対して入力系列の音素の欠落が生じたことを示す。格子点(i+1,j+1)への伝搬は、次の入力音素と次の辞書音素とが単純デコードされたことを示す。格子点(i+1,j+2)への伝搬は、辞書系列に対して入力系列の音素d2 j+1の挿入が生じ、辞書音素d1 i+1と入力音素d2 j+1とがデコードなされたことを示す。格子点(i+1,j+3)への伝搬は、辞書系列に対して入力系列の2つの音素(d2 j+1とd2 j+2)の挿入が生じ、辞書音素d1 i+1と入力音素d2 j+3とがデコードなされたことを示す。
【0021】
(音声から生成された辞書系列)
音声から生成された辞書系列を用いる場合には、辞書系列ならびに音素系列双方において音素の挿入あるいは欠落が生じる。図7bは、このような場合に本実施形態で用いる動的計画法の制限である。すなわち、動的計画法のパスが辞書音素d1 iと入力音素d2 jとの間での整合を示す格子点(i,j)で終端している場合、動的計画法のパスは格子点(i+1,j), (i+2,j), (i+3,j), (i,j+1), (i+1,j+1), (i+2,j+1), (i,j+2), (i+1,j+2), (i,j+3) のどれかに伝搬することになる。このような伝搬制約を設けることで、実際に発声されたテキストの未知の基準音素系列に対する入力音素系列ならびに辞書音素系列における音素の挿入や欠落に対処することが可能となる。
【0022】
DP評価点伝搬
上述のように、動的計画法整合ユニット43は、動的計画法のパスそれぞれについてパスに沿って整合したときの音素の類似性に基づいて計算される評価点を計算している。すなわち、格子点(i,j)で終端されたパスを他の点に伝搬させる場合、動的計画法プロセスはこの際の伝搬「コスト」を、格子点(i,j)で終端されたパスの積算評価点に追加する。ここで、積算評価点は、格子点(i,j)において(SCORE(i,j))として保持されている。本実施形態では、このコストは、音素が挿入される挿入確率や、欠落が起こる欠落確率や、入力音素系列からの音素と辞書音素系列からの音素との間での新しい整合が起こるデコード確率などに依存する。すなわち、挿入が生じた際には積算評価点にある音素の挿入確率を掛け合わせ、欠落が生じた際には積算評価点に音素の欠落確率を掛け合わせ、デコードされた際には積算評価点に2つの音素のデコード確率が掛け合わされる。
【0023】
これらの確率を計算するために、システムはすべての可能性のある音素組み合わせに対する確率をメモリ47に保持しておく。本実施形態では、第一あるいは第二の音素系列からの音素の欠落は、デコードと同様に処理する。これは、欠落された音素を単に新たな音素として処理することでなされる。すなわち、システムが43個の音素を対象としている場合には、可能性のある音素のデコードならびに欠落に対して、1832(=43×44)個のデコード/欠落確率をシステムが保持することになる。図8は、音素/ax/に対して保持されている可能性のある音素デコードを示したもので、欠落音素(φ)が一つの確率として示されている。当業者であれば理解できるように、ある音素に対するデコード確率の和は、他の確率が存在し得ないため1とならなければならない。これらのデコード/欠落確率に加えて、可能性のある音素の挿入に対して43個の挿入確率(PI( ))がメモリ47に保持される。後述するように、これらの確率はトレーニングデータを用いてあらかじめ決定される。
【0024】
上述のように、本実施形態では、整合ユニット43は辞書系列の作成方法に応じて異なる評価点計算手法を用いる。すなわち、マニュアルで辞書系列を作成した場合には、辞書音素は正しいと想定し、システムは入力音素系列からの音素(d2 j)を第一音素系列からの音素(d1 i)としてデコードする確率を
【0025】
【数3】
として求める。ここで、デコード確率は、メモリ47に保持されている適切な確率をルックアップすることで求められる。一方、音声から辞書音素系列を生成した場合には、整合ユニット43は、入力音素系列からの音素(d2 j)を辞書音素系列からの音素(d1 i)としてデコードする確率を、音素pを辞書音素d1 iならびに入力音素d2 jとしてデコードする確率を音素pの生起確率で重み付けしたものを、すべての可能性のある音素pに対して和をとった
【0026】
【数4】
として求める。ここで、Npはシステムが対象とする音素の数、P(d1 i|pr)は音素prを辞書音素d1 iとしてデコードする確率、P(d2 j|pr)は音素prを入力音素d2 jとしてデコードする確率、P(pr)は音素prの生起確率である。
【0027】
評価点の伝搬を説明するために、いくつかの例を説明する。辞書系列がマニュアルで作成された場合であって、パスが格子点(i,j)から(i+1,j+2)に伝搬した場合には、入力音素d2 j+1が辞書音素系列に対して挿入されるとともに、入力音素d2 j+2は辞書音素d1 i+1としてデコードされる。すなわち、格子点(i+1,j+2)に至る伝搬の評価点は、
【0028】
【数5】
として与えられる。ここで、PI(d2 j+1)は入力音素d2 j+1が挿入される確率、P(d2 j+2|d1 i+1)は辞書音素d1 i+1を入力音素d2 j+2としてデコードする確率である。
【0029】
これに対し、辞書音素系列が音声から作成された場合であって、パスが格子点(i,j)から(i+2,j+1)に伝搬した場合には、辞書音素d1 i+1が入力音素系列に対して挿入されるとともに、入力音素d2 j+1は辞書音素d1 i+2としてデコードされる。すなわち、格子点(i+2,j+1)に至る伝搬の評価点は、
【0030】
【数6】
として与えられる。
【0031】
当業者であれば理解できるように、このパス伝搬においては、複数のパスが同一の格子点で合流することがあり得る。ここで、最適なパスを選択するために、各格子点において評価点の比較を行って、最も評価点の高いパスのみを残し、他のパスは削除する。このような処理を経てパスが終端ノードに達すると、終端ノードにたどり着いたパスの評価点が入力音素系列と辞書音素系列との間での類似度を表すこととなる。上述のように、評価点分析ユニット45は、ここで得られた評価点を辞書音素系列それぞれについて比較し、入力音素系列に類似のN個の辞書音素系列を決定する。これらの辞書音素系列に対応した辞書単語が単語辞書から引き出されて出力され、PC1で使用されることになる。
【0032】
(DP整合の詳細な説明)
入力系列を整合し、辞書単語の一つと比較するような動的計画法整合ユニット43の動作に関して、以下詳細に説明する。なお、同様の整合ならびに比較処理は入力系列と他の辞書系列との間でも行われることに注意されたい。まず、すべてのノードにおける評価点を適切な初期値に設定する。次いで、整合ユニット43は、始点空ノード(φs)から上述の動的計画法の制限で指定されるすべての可能な始点へパスを伝搬させる。ここで、このパスの評価点は、始点空ノードから始点までの伝搬に伴う遷移評価点となる。このようにして伝播を開始したパスは、第一ならびに第二の音素系列で指定される格子点配列中を終点空ノード(φe)に達するまで伝搬することになる。なお、整合ユニット43は格子点配列の処理を列ごとにラスター処理的に行う。
【0033】
ラスター処理動作で制御を行う制御アルゴリズムを図9に示す。図示のように、ステップs149において、システムは辞書音素系列ループポインタiと入力音素ループポインタjとを0にセットする。続くステップs151において、辞書音素系列ループポインタiと辞書音素系列中の音素の数(Nseq1)とを比較する。開始時点では辞書音素系列ループポインタiは0にセットされているため、処理はステップs153に進み、入力音素系列ループポインタjと入力音素系列のすべての音素数(Nseq2)とを比較する。開始時点ではループポインタjは0にセットされているため、処理はステップs155に進み、格子点(i,j)で終端されるパスを上述の動的計画法の制限を用いて伝搬させる。ステップs155における伝搬に関する詳細は後述する。ステップs155に続いて、ステップs157でループポインタjを1増加(インクリメント)させ、処理をステップs153に戻す。入力音素系列中のすべての音素に対してこのようなループを繰り返すと、すなわち格子点配列中の現在の列の処理を終えると、処理はステップs159に進み、ループポインタjを0にリセットするとともにループポインタiを1増加させる。そして、処理はステップs151に戻り、格子点配列の次の列に対して同様の処理を実行する。格子点配列の最後の列を処理すると、ステップs161に進み、ループポインタiを0にリセットして処理を終了する。
【0034】
(伝搬)
図9のステップs155では、格子点(i,j)で終端されるパスを上述の動的計画法の制限を用いて伝搬させる。図10は、この伝搬処理を実行する処理ステップを示すフローチャートである。図示のように、ステップs211において、システムは2つの変数mxiとmxjの値をセットし、辞書音素系列ループポインタi2と入力音素系列ループポインタj2とを初期化する。ここで、ループポインタi2とj2は、格子点(i,j)で終端されるパスが伝搬するすべての格子点をループさせるために用いられ、変数mxiとmxjは、i2とj2とが動的計画法の制限にしたがう値のみとなるように制限するために用いられる。すなわち、iにmxhopsを加算した値が辞書音素系列中の音素の数以下であれば、mxiはiにmxhopsを加算した値と設定される。ここで、mxhopsは動的計画法の制限の中で最大の「ホップ」数よりも1大きい一定値であり、本実施形態では系列に沿って3つ先の音素までパスがジャンプするためmxhopsの値は4となる。一方、iにmxhopsを加算した値が辞書音素系列中の音素の数より大きければ、mxiは辞書音素系列中の音素の数(Nseq1)に設定される。同様に、jにmxhopsを加算した値が入力音素系列中の音素の数以下であれば、mxjはjにmxhopsを加算した値と設定され、そうでない場合にはmxjは入力音素系列中の音素の数(Nseq2)に設定される。最後に、ステップs211において、システムは辞書音素系列ループポインタi2を辞書音素系列ループポインタiの現在の値に設定するとともに、入力音素系列ループポインタj2を入力音素系列ループポインタjの現在の値に設定する。
【0035】
整合ユニット43において用いられる動的計画法の制限は、辞書音素系列が音声から作成された場合とマニュアルで作成された場合とでことなるが、この判定をステップs213で行う。辞書単語が音声から作成された場合には、格子点(i,j)で終端された動的計画法のパスは図7bに示した点のいずれかに伝搬することになるが、このような処理をステップs219からs235で行う。すなわち、ステップs219では、辞書音素系列ループポインタi2と変数mxiとを比較する。ここで、ループポインタi2はiに、mxiはi+4に設定されているためステップs221に進む。ステップs221では入力音素系列ループポインタj2に対して同様の比較が行われる。そして、ステップs223において、パスが同一の格子点(i,j)に留まっているか否かの判定が、i2がiと等しいか否か、j2がjと等しいか否かに基づいてなされる。同一の格子点に留まっていた場合には、入力音素ループポインタj2を1増加させるステップs225に進む。
【0036】
ステップs221に戻ると、1増加された値j2とmxjとが比較される。j2がmxjよりも小さいと、ステップs223を経てステップs227に進む。ここで、ステップs227は、双方の音素系列に沿ってのホップ数が大きくなりすぎないようにするためのものである。すなわち、i2+j2がi+j+mxhops以下である場合にのみパスを伝搬させるもので、図7bに示した三角形内の格子点のみを対象とするものである。この条件が満たされると、ステップs229に進み、格子点(i,j)から格子点(i2,j2)への遷移評価点(TRANSCORE)を計算する。なお、本実施形態では、遷移評価点ならびに積算評価点は確率で表現され、双方の確率を乗算することで新たな積算評価点が得られる。この際、高精度浮動小数点演算を避けるために、本実施形態では遷移評価点ならびに積算評価点はログ確率で表現する。すなわち、ステップs231において、システムは遷移評価点と格子点(i,j)における積算評価点とを加算し、一時評価点TEMPSCOREにコピーする。
【0037】
上述のように、本実施形態では、2つ以上の動的計画法のパスが同一格子点に達すると、それぞれのパスの積算評価点を比較し、最適なパス、すなわち大きい評価点のパスのみを残す。すなわち、ステップs233において、TEMPSCOREを既に格子点(i2,j2)における積算評価点と比較し、大きい方の評価点をSCORE(i2,j2)に保持する。そして、ステップs225に戻り、ループポインタj2を1加算してステップs221に戻る。第二音素系列ループポインタj2がmxjの値に達すると、ステップs235に進み、ループポインタj2を初期値jに再設定するとともに、第一音素系列ループポインタi2を1加算する。そして、ステップs219に戻り、図7bに示す次の列の格子点処理を開始する。格子点(i,j)から図7bに示したすべての他の点までパスを伝搬させると、処理は終了する。
【0038】
判定ステップs213において、辞書単語がマニュアルで作成されたと判定された場合には、処理をステップs241からs251に進め、格子点(i,j)で終端されたパスを図7aで示した格子点に伝搬させる。すなわち、ステップs241において、辞書音素ループポインタiが辞書音素系列中の最後の音素であるか否かを判定する。最後の音素である場合には、辞書音素系列において他の音素は存在しないため処理を終了する。辞書音素ループポインタiがNdic-1より小さければ、ステップs243に進み、入力音素ループポインタj2をmxjと比較する。当初j2はmxjよりも小さいため、ステップs245に進み、格子点(i,j)から格子点(i+1,j2)への遷移評価点(TRANSCORE)を計算する。次いで、ステップs247においてこの遷移評価点に格子点(i,j)で終端されたパスの積算評価点を加算し、加算結果を一時評価点TEMPSCOREにコピーする。続くステップs249では、TEMPSCOREを既に格子点(i+1,j2)における積算評価点と比較し、大きい方の評価点をSCORE(i+1,j2)に保持する。そして、ステップs251に進み、ループポインタj2を1加算してステップs243に戻る。格子点(i,j)で終端されたパスを図7aで示す他のすべての点まで伝搬させると、j2はmxjと等しくなり、格子点(i,j)で終端されたパスの伝搬が終了する。 (遷移評価点)
ステップs229とs245においては、格子点(i,j)から他の格子点(i2,j2)あるいは(i+1,j2)への遷移評価点が計算される。この遷移評価点の計算は、遷移始点と遷移終点とに関係する挿入確率、欠落確率、デコード確率に基づいて行われる。本実施形態での計算方法を図11と図12に示す。
【0039】
図11は、格子点(i,j)から格子点(i2,j2)へのパス伝搬における遷移評価点を計算する一般的な処理ステップを示したフローチャートである。ステップs291において、格子点(i,j)と格子点(i2,j2)との間で挿入された辞書系列音素ごとに、音素が挿入される評価点(上述のPI( )のログ確率)を求め、これをINSERTSTOREに加算する。次いで、ステップs293において、格子点(i,j)と格子点(i2,j2)との間に挿入される入力系列音素ごとに同様の計算を行い、これをINSERTSCOREに加算する。上述のように、計算された評価点はログベースの確率であるため、INSERTSCOREへの加算は挿入確率を乗算することと等価となる。続くステップs295では、格子点(i,j)から格子点(i2,j2)への伝搬における欠落やデコードに対する評価点を上式(1)にしたがって計算し、これらを加算してDELSCOREに保持する。ステップs297において、INSERTCOREとDELSCOREとを加算し、結果をTRANSCOREにコピーする。
【0040】
図12は、ステップs295において格子点(i,j)から格子点(i2,j2)への伝搬における欠落やデコードに対する評価点を計算する処理を詳細に示した図である。欠落やデコードは、辞書系列が音声から作成されたものであるのか否かによって異なるため、まず判定ステップs301でこの判定を行う。辞書系列が音声から作成されていた場合には、図12bに示すステップs325に進む。辞書系列がマニュアルで作成されていた場合には、ステップs319において、入力音素ループポインタj2が入力音素ループポインタjと等しいか否かの判定がなされる。等しい場合には、格子点(i,j)から格子点(i+1,j)への遷移評価点を計算する。すなわち、辞書音素系列に比して入力音素系列において辞書音素d1 i+1が欠落した場合である。この場合には、ステップs321において、欠落辞書音素d1 i+1のログ確率(logP(φ|d1 i+1)を求め、DELSCOREにコピーし処理を終了する。ステップs319において、入力音素ループポインタj2が入力音素ループポインタjと等しくないと判断された場合には、格子点(i,j)から格子点(i+1,j+1), (i+1,j+2), (i+1,j+3)いずれかへの遷移評価点を計算する。すなわち、辞書音素d1 i+1と入力音素d2 j2との間で欠落が発生せず、挿入とデコードが生じた場合である。この場合には、ステップs323において、辞書音素d1 i+1を入力音素d2 j2としてデコードするログ確率(logP(d2 j2|d1 i+1)を求め、DELSCOREにコピーし処理を終了する。
【0041】
ステップs301において、辞書音素系列が音声から作成されたと判定された場合には、ステップs325に進み、辞書音素系列ループポインタi2が辞書音素系列ループポインタjと等しいかの判定がなされる。等しい場合にはステップs327に進み、音素ループポインタrが1に初期化される。ここで、音素ポインタrは、上式(2)の計算においてシステムが対象とするすべての音素をループさせるために用いられる。続くステップs329では、音素ポインタrをシステムが対象とする音素の数Nphonemes(本実施形態では43)と比較する。rは当初ステップs327で1に設定されるので、ステップs331に進み、音素prのログ発生確率(logP(pr))を求め、一時評価点TEMPDELSCOREにコピーする。辞書音素系列ループポインタi2が辞書音素ループポインタiと等しい場合には、格子点(i,j)で終端されるパスを格子点(i,j+1), (i,j+2), (i,j+3)のいずれかの点に伝搬させる。すなわち、入力音素系列に辞書音素系列に存在しない音素が存在する場合である。したがって、ステップs333では、辞書音素系列から音素prが欠落するログ確率(logP(φ|pr))をTEMPDELSCOREに加算する。また、ステップs335では、音素prを入力系列音素d2 j2としてデコードするログ確率(logP(d2 j2|pr))をTEMPDELSCOREに加算する。さらに、ステップs337においてTEMPDELSCOREとDELSCOREとの「ログ加算」がなされ、加算結果がDELSCOREに保持される。
【0042】
本実施形態では、上式(2)に基づくデコード確率の計算において確率の加算や乗算が必要となる。この際、本実施形態では、ログ確率を用いているため、「ログ加算」処理を行うにあたってはTEMPDELSCOREとDELSCOREとをログ確率から通常の確率に一旦変換した後、加算して、再度ログ確率に変換するという処理が必要となる。なお、この「ログ加算」は音声処理では良く知られた手法であり、例えばLee, Kai-Fu, "Automatic Speech Recognition: The Development of the (Sphinx) System," Kluwer Academic Publishers, 1989 という本のページ28と29に記されている。ステップs337に続いて、ステップs339において音素ループポインタrに1を加算した後、ステップs329に戻り、システムが対象とする次の音素に対して同様の処理を実行する。システムが対象とする43個の音素に対しての処理を行うと、処理が終了する。
【0043】
一方、ステップs325においてi2とiとが異なると判定されると、ステップs341において入力音素系列ループポインタj2が入力音素系列ループポインタjと等しいかの判定が行われる。j2とjとが等しい場合には、ステップs343において音素ループポインタrが1に初期化される。続くステップs345では、音素ループポインタrをシステムが対象とするすべての音素の数Nphonemesと比較する。rは当初ステップs343で1に設定されるので、ステップs347に進み、音素prのログ発生確率を求め、一時評価点TEMPDELSCOREにコピーする。続くステップs349では、音素prを辞書音素d1 i2としてデコードするログ確率を求め、TEMPDELSCOREに加算する。入力音素系列ループポインタj2がループポインタjと等しい場合には、格子点(i,j)で終端されるパスを格子点(i+1,j), (i+2,j), (i+3,j)のいずれかの点に伝搬させる。すなわち、辞書音素系列に入力音素系列に存在しない音素が存在する場合である。したがって、ステップs351では、入力音素系列から音素prが欠落するログ確率を求め、TEMPDELSCOREに加算する。続くステップs353では、TEMPDELSCOREとDELSCOREとのログ加算を行い、加算結果をDELSCOREに保持する。そして、ステップs355において音素ループポインタrを1増加させ、ステップs345に戻る。ステップs347からs353をシステムが対象とするすべての音素に対して実行すると、処理は終了する。
【0044】
ステップs341において入力音素系列ループポインタj2が入力音素系列ループポインタjと異なると判定されると、ステップs357において音素ループポインタrが1に初期化される。続くステップs359では、音素カウンタrをシステムが対象とするすべての音素の数Nphonemesと比較する。rは当初ステップs357で1に設定されるので、ステップs361に進み、音素prのログ発生確率を求め、一時評価点TEMPDELSCOREにコピーする。ループポインタj2がループポインタjと異なる場合には、格子点(i,j)で終端されるパスを格子点(i+1,j+1), (i+1,j+2), (i+2,j+1)のいずれかの点に伝搬させる。すなわち、欠落は発生せず、挿入とデコードが生じた場合である。したがって、ステップs363では、音素prを辞書音素d1 i2としてデコードするログ確率をTEMPDELSCOREに加算する。また、ステップs365では、音素prを入力音素d2 j2としてデコードするログ確率を求めTEMPDELSCOREに加算する。続くステップs367では、TEMPDELSCOREとDELSCOREとのログ加算を行い、加算結果をDELSCOREに保持する。そして、ステップs369において音素カウンタrを1増加させ、ステップs359に戻る。ステップs361からs367をシステムが対象とするすべての音素に対して実行すると、処理は終了する。
【0045】
トレーニング
上記実施形態では、動的計画法整合ユニット78は、音素整合処理における動的計画法のパスの評価点を計算するために、1892個のデコード/欠落確率と43個の挿入確率を用いる。本実施形態では、これらの確率は、あらかじめトレーニングセッションにおいて決定され、メモリ47に記憶しておく。すなわち、トレーニングセッションにおいて、音声認識システムを用いて音声の音素デコードを2種類の方法で実行する。第一の方法では、音声と発話された単語とを音声認識システムに入力する。音声認識システムは、これらの情報を用いて発話単語の基準音素系列を生成し、音声の理想的なデコードを求める。次に、今度は発話された単語の知識を用いずに、同一の音声を音声認識システムでデコードする(以下、これを無条件デコードと呼ぶ)。この際、無条件デコードから生成された音素系列は、基準音素系列と以下の点で異なることになる。
i)無条件デコードには誤りが生じえる。すなわち、基準系列に存在しない音素がデコードに挿入されたり、基準系列に存在する音素がデコードから欠落したりすることがあり得る。
ii)ある音素が別の音素と取り違えられることがあり得る。
iii)音声認識システムが音声を完全にデコードしたとしても、会話発音と基準発音との差異から無条件デコードが異なることがあり得る。例えば、単語"and"の基準形式は/ae/ /n/ /d/ と/ax/ /n/ /d/ となるが、会話音声では/ax/ /n/ あるいは /n/ となることがしばしばあり得る。
【0046】
したがって、多数の発話を基準形式ならびに無条件デコード形式にデコードするにあたっては、2つの整合をとるために上記と同様な動的計画法手法を用いることができる。これにより、基準音素がpであったときにdとデコードされた回数が得られ、このようなトレーニング結果を用いて、上述のデコード確率、欠落確率、挿入確率を下記のように近似することが可能となる。
音素dが挿入される確率は、
【0047】
【数7】
となる。ここで、Idは自動音声認識システムが音素dを挿入した回数、no dは基準系列に対して挿入されたデコード音素の全体数である。
【0048】
音素pを音素dとしてデコードする確率は、
【0049】
【数8】
となる。ここで、cdpは自動音声認識システムがpとデコードされるべき音素をdとデコードした回数、npは自動音声認識システムがpとデコードされるべき音素を欠落をも含めたいかなる音素のいずれかにデコードした回数である。
pとデコードされるべき音素がいずれかの音素にもデコードされない確率、すなわち欠落確率は、
【0050】
【数9】
となる。ここで、Opは自動音声認識システムがpとデコードされるべき音素をいずれかの音素にもデコードしなかった回数、npは上と同様である。
【0051】
他の実施形態
今まで「音素」という言葉を用いてきたが、本発明はこの言語学的意味に限定されるものではなく、標準の音声認識システムにおいて用いられる識別可能な別のサブ単語ユニットにも適用できることが、当業者であれば理解されよう。すなわち、「音素」という言葉は、音韻、音節、片仮名(日本語のアルファベット)などのようなサブ単語ユニットをも意味する。
【0052】
また、音素系列を動的計画法整合する上記説明は例として示したものであり、種々の修正を施すことが可能であることは当業者であれば理解されよう。例えば、パスを格子点上で伝搬させるためにラスタースキャン処理を用いたが、パスを格子点上で漸進的に伝搬させるような手法を用いることも可能である。さらに、上述の動的計画法の制限以外の制約を用いてマッチング処理を制御することも可能であることは、当業者であれば理解できよう。
【0053】
上記実施形態では、音声から辞書音素が作成された場合、式(2)を用いて動的計画法整合ユニットにおける遷移のデコード評価点計算を行っている。これに対して、式(2)のようにシステムが対象とするすべての音素を加算するのではなく、加算する確率項それぞれの最大値を求め、この最大値を入力系列中の音素のデコード確率とすることで、未知の音素pを識別する動的計画法整合ユニットを考えることもできる。
【0054】
また、上記実施形態では、音声認識システムの統計量から確率を最尤推定して、挿入、欠落、デコード確率を求めている。これに対して、最大エントロピー法を用いてこれらの確率を推定することもできることは当業者であれば理解できよう。なお、適切な最大エントロピー法の詳細は、John Skilling, "Maximum Entropy and Bayesian Methods", Kluwer Academic Publishers という本のページ45から52に記されており、参照されたい。
【0055】
さらに、上記実施形態では、音声認識エンジンから出力された音素系列とそれぞれの辞書音素系列とを動的計画法アルゴリズムを用いて整合している。ここで、他の整合手法を用いることが可能であることは、当業者であれば理解できよう。例えば、すべての可能な整合を試してみる素朴な方法を用いることもできる。しかし、動的計画法は、標準的な処理プロセッサを用いて容易に実装できるという点で優れている。また、上述の実施形態における動的計画法では、音素の入力系列間での「最適な」整合を求めていたが、いくつかのアプリケーションでは必ずしも最適な整合を求める必要はない。すなわち、第二、第三、第四番目に最適な整合を用いることができる場合がある。
【0056】
また、上述の実施形態における動的計画法アルゴリズムでは、辞書系列が音声から作成された場合、整合する音素ペアごとに式(2)を計算している。すなわち、式(2)の計算では、辞書系列音素と入力系列音素とをシステムが対象とする音素それぞれと比較している。しかし、ある辞書系列音素と入力系列音素とのペアに対しては、式(2)で与えられる確率の多くが等しい、もしくは0に近くなることが、当業者であれば理解できよう。したがって、すべての対象音素中の一部に対してのみ整合する音素との比較を行う別の実施形態を考えることもできる。なお、対象音素のうちの一部は、トレーニングデータを用いてあらかじめ決定される。このような実施形態においては、整合する入力音素を用いてルックアップテーブルを参照し、式(2)を用いて比較対象の音素を決定することになる。
【0057】
さらに、上述の実施形態では、認識する入力音素系列と辞書音素系列の双方に対して、同一の音素混同(取り違え)確率を適用している。ここで、音素混同確率は、音素系列を生成するために用いる認識システムに依存するため、異なる認識システムを用いる場合には、それぞれ異なる音素混同確率を用いなければならないことは、当業者であれば理解できよう。
【0058】
以上、種々の実施形態や修正を記したが、当業者であれば明らかであるような他の実施形態や修正もあり得ることは、当業者であれば理解できよう。
【図面の簡単な説明】
【図1】本発明の実施形態を処理するようにプログラムされたコンピュータの模式図である。
【図2】本発明を実現する音声認識システムの概要を示すブロック図である。
【図3】図2で示した音声認識システムの一部となるワードデコーダの主要素を示すもブロック図である。
【図4】辞書単語を示す第一音素系列、図2の音声認識エンジンから出力される発話単語を示す第二音素系列、第一ならびに第二音素系列を最も良く表現する第三音素系列を示し、第一ならびに第二音素系列において第三音素系列に対して音素の挿入や欠落が生じ得ることを示している。
【図5】辞書単語と発話単語の音素系列からなる探索空間を、始点空ノードと終点空ノードとともに模式的に示した図である。
【図6】水平軸が辞書単語音素、垂直軸が発話音素である2次元座標プロットであり、辞書単語音素と発話音素との間での可能なマッチングを示す複数の格子点を示している。
【図7a】辞書音素系列がマニュアルで作成された場合に、図3に示した単語デコーダの一部の動的計画法整合ユニットで用いられる動的計画法の制限を模式的に示した図である。
【図7b】辞書音素系列が発話から作成された場合に、図3に示した単語デコーダの一部の動的計画法整合ユニットで用いられる動的計画法の制限を模式的に示した図である。
【図8】音素列に対して格納されている欠落確率とデコード確率とを示したもので、これらの確率は、図3に示した整合ユニットで実行される動的計画法整合処理中の適合性決定処理において用いられる。
【図9】図3の動的計画法整合ユニットにおいて実行される主処理ステップを示すフローチャートである。
【図10】始点空ノードから終点空ノードまで動的計画法のパスを伝搬させるために用いられる主処理ステップを示すフローチャートである。
【図11】動的計画法整合処理におけるパス伝搬において遷移評価点を計算する処理ステップを示すフローチャートである。
【図12a】第一ならびに第二音素系列において単語候補に対して欠落やデコードが生じる評価点を計算する処理ステップの第一の部分を示すフローチャートである。
【図12b】第一ならびに第二音素系列において単語候補に対して欠落やデコードが生じる評価点を計算する処理ステップの第二の部分を示すフローチャートである。
Claims (8)
- 1つあるいは複数の単語の音声入力に対して認識システムから出力されるサブ単語系列に対応する1つあるいは複数の単語を識別する音声処理装置であって、
前記入力サブ単語系列を受信する第一の受信手段と、
複数の辞書単語及び該辞書単語毎に複数対応づけられた辞書サブ単語系列を有する単語辞書から、前記辞書サブ単語系列を受信する第二の受信手段と、
前記第一の受信手段により受信した入力サブ単語系列と前記第二の受信手段で受信した各辞書サブ単語系列との間で、サブ単語を対応付けた整合ペアを複数生成して各整合ペアのサブ単語を比較し、該比較結果より該入力サブ単語系列と該辞書サブ単語系列との類似度を算出し、辞書単語ごとに複数の類似度を取得する取得手段と、
前記取得手段で取得した複数の類似度を集計して、辞書単語ごとに入力サブ単語系列と辞書サブ単語系列との間の類似度を算出する算出手段と、
前記算出手段で算出された類似度に基づいて前記1つあるいは複数の単語を識別する手段と
を備えることを特徴とする音声処理装置。 - 前記取得手段は、前記入力サブ単語系列と前記複数の辞書サブ単語系列それぞれとの比較を同時に行うことを特徴とする請求項1記載の音声処理装置。
- 前記取得手段は、d1 iとd2 jを辞書サブ単語系列のサブ単語と入力サブ単語系列のサブ単語の整合ペアとし、P(d2 j|pr)を、前記サブ単語セット中のサブ単語prを入力サブ単語系列のサブ単語d2 jと混同する所与の確率を示す、前記第一比較手段から出力される中間評価点とし、P(d1 i|pr)を、前記サブ単語セット中のサブ単語prを辞書サブ単語系列のサブ単語d1 iと混同する所与の確率を示す、前記第二比較手段から出力される評価点とし、P(pr)を前記サブ単語セット中のサブ単語prがサブ単語系列で発生する確率を示す重みとしたとき、
P(d1 i|pr)P(d2 j|pr)P(pr)
を計算することで前記集計評価点を集計することを特徴とする請求項1記載の音声処理装置。 - 1つあるいは複数の単語の音声入力に対して認識システムから出力される入力サブ単語系列に対応する1つあるいは複数の単語を識別する音声処理方法であって、
前記入力サブ単語系列を受信する第一の受信ステップと、
複数の辞書単語及び該辞書単語毎に複数対応づけられた辞書サブ単語系列を有する単語辞書から、前記辞書サブ単語系列を受信する第二の受信ステップと、
前記第一の受信ステップにより受信した入力サブ単語系列と前記第二の受信ステップで受信した各辞書サブ単語系列の間で、サブ単語を対応付けた整合ペアを複数生成して各整合ペアのサブ単語を比較し、該比較結果より該入力サブ単語系列と該辞書サブ単語系列との類似度を算出し、辞書単語ごとに複数の類似度を取得する取得ステップと、
前記取得ステップで取得した複数の類似度を集計して、辞書単語ごとに入力サブ単語系列と辞書サブ単語系列との間の類似度を算出する算出ステップと、
前記算出ステップで算出された類似度に基づいて前記1つあるいは複数の単語を識別するステップと
を有することを特徴とする音声処理方法。 - 前記取得ステップは前記入力サブ単語系列と前記複数の辞書サブ単語系列それぞれとの比較を同時に行うことを特徴とする請求項4記載の音声処理方法。
- 前記取得ステップは、d1 iとd2 jを辞書サブ単語系列のサブ単語と入力サブ単語系列のサ ブ単語の整合ペアとし、P(d2 j|pr)を、前記サブ単語セット中のサブ単語prを入力サブ単語系列のサブ単語d2 jと混同する所与の確率を示す、前記第一比較ステップから出力される中間評価点とし、P(d1 i|pr)を、前記サブ単語セット中のサブ単語prを辞書サブ単語系列のサブ単語d1 iと混同する所与の確率を示す、前記第二比較ステップから出力される評価点とし、P(pr)を前記サブ単語セット中のサブ単語prがサブ単語系列で発生する確率を示す重みとしたとき、
P(d1 i|pr)P(d2 j|pr)P(pr)
を計算することで前記集計評価点を集計することを特徴とする請求項第4項記載の音声処理方法。 - プロセッサを制御して請求項4から6のいずれかに記載の方法を実現するためのプロセッサ実装可能命令を保持する記録媒体。
- プロセッサを制御して請求項4から6のいずれかに記載の方法を実現するためのプロセッサ実装可能命令から構成されるプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GBGB0028277.2A GB0028277D0 (en) | 2000-11-20 | 2000-11-20 | Speech processing system |
GB0028277.2 | 2000-11-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002207496A JP2002207496A (ja) | 2002-07-26 |
JP3747171B2 true JP3747171B2 (ja) | 2006-02-22 |
Family
ID=9903511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001344825A Expired - Fee Related JP3747171B2 (ja) | 2000-11-20 | 2001-11-09 | 音声処理システム |
Country Status (4)
Country | Link |
---|---|
US (1) | US6801891B2 (ja) |
EP (1) | EP1207518A3 (ja) |
JP (1) | JP3747171B2 (ja) |
GB (1) | GB0028277D0 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7653545B1 (en) | 1999-06-11 | 2010-01-26 | Telstra Corporation Limited | Method of developing an interactive system |
US7310600B1 (en) * | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
GB2370401A (en) * | 2000-12-19 | 2002-06-26 | Nokia Mobile Phones Ltd | Speech recognition |
WO2003017252A1 (de) * | 2001-08-13 | 2003-02-27 | Knittel, Jochen | Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge |
EP1369847B1 (en) * | 2002-06-04 | 2008-03-12 | Intellectual Ventures Fund 21 LLC | Speech recognition method and system |
AU2002950336A0 (en) | 2002-07-24 | 2002-09-12 | Telstra New Wave Pty Ltd | System and process for developing a voice application |
AU2002951244A0 (en) | 2002-09-06 | 2002-09-19 | Telstra New Wave Pty Ltd | A development system for a dialog system |
AU2003900584A0 (en) | 2003-02-11 | 2003-02-27 | Telstra New Wave Pty Ltd | System for predicting speech recognition accuracy and development for a dialog system |
AU2003902020A0 (en) | 2003-04-29 | 2003-05-15 | Telstra New Wave Pty Ltd | A process for grammatical inference |
US20050144003A1 (en) * | 2003-12-08 | 2005-06-30 | Nokia Corporation | Multi-lingual speech synthesis |
JP4587160B2 (ja) * | 2004-03-26 | 2010-11-24 | キヤノン株式会社 | 信号処理装置および方法 |
DE602005004503T2 (de) * | 2005-02-21 | 2009-01-22 | Harman Becker Automotive Systems Gmbh | Multilinguale Spracherkennung |
CA2610269C (en) * | 2005-06-01 | 2016-02-02 | Loquendo S.P.A. | Method of adapting a neural network of an automatic speech recognition device |
ATE536611T1 (de) * | 2006-02-14 | 2011-12-15 | Intellectual Ventures Fund 21 Llc | Kommunikationsgerät mit lautsprecherunabhängiger spracherkennung |
JP4671898B2 (ja) * | 2006-03-30 | 2011-04-20 | 富士通株式会社 | 音声認識装置、音声認識方法、音声認識プログラム |
US8255216B2 (en) | 2006-10-30 | 2012-08-28 | Nuance Communications, Inc. | Speech recognition of character sequences |
US9418152B2 (en) * | 2011-02-09 | 2016-08-16 | Nice-Systems Ltd. | System and method for flexible speech to text search mechanism |
EP2851896A1 (en) * | 2013-09-19 | 2015-03-25 | Maluuba Inc. | Speech recognition using phoneme matching |
US10749989B2 (en) | 2014-04-01 | 2020-08-18 | Microsoft Technology Licensing Llc | Hybrid client/server architecture for parallel processing |
US9953632B2 (en) * | 2014-04-17 | 2018-04-24 | Qualcomm Incorporated | Keyword model generation for detecting user-defined keyword |
JP6580882B2 (ja) * | 2015-06-24 | 2019-09-25 | 株式会社東芝 | 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム |
GB2544070B (en) * | 2015-11-04 | 2021-12-29 | The Chancellor Masters And Scholars Of The Univ Of Cambridge | Speech processing system and method |
JP6545633B2 (ja) * | 2016-03-17 | 2019-07-17 | 株式会社東芝 | 単語スコア計算装置、単語スコア計算方法及びプログラム |
Family Cites Families (64)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4227176A (en) | 1978-04-27 | 1980-10-07 | Dialog Systems, Inc. | Continuous speech recognition method |
JPS59226400A (ja) * | 1983-06-07 | 1984-12-19 | 松下電器産業株式会社 | 音声認識装置 |
US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
FR2554623B1 (fr) * | 1983-11-08 | 1986-08-14 | Texas Instruments France | Procede d'analyse de la parole independant du locuteur |
US4980918A (en) | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
US4903305A (en) * | 1986-05-12 | 1990-02-20 | Dragon Systems, Inc. | Method for representing word models for use in speech recognition |
JP2739945B2 (ja) * | 1987-12-24 | 1998-04-15 | 株式会社東芝 | 音声認識方法 |
US5075896A (en) * | 1989-10-25 | 1991-12-24 | Xerox Corporation | Character and phoneme recognition based on probability clustering |
US6236964B1 (en) | 1990-02-01 | 2001-05-22 | Canon Kabushiki Kaisha | Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data |
US5136655A (en) | 1990-03-26 | 1992-08-04 | Hewlett-Pacard Company | Method and apparatus for indexing and retrieving audio-video data |
US5202952A (en) | 1990-06-22 | 1993-04-13 | Dragon Systems, Inc. | Large-vocabulary continuous speech prefiltering and processing system |
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
US5333275A (en) * | 1992-06-23 | 1994-07-26 | Wheatley Barbara J | System and method for time aligning speech |
EP0583559B1 (en) | 1992-07-31 | 2004-02-25 | International Business Machines Corporation | Finding token sequences in a database of token strings |
EP0597798A1 (en) | 1992-11-13 | 1994-05-18 | International Business Machines Corporation | Method and system for utilizing audible search patterns within a multimedia presentation |
AU5803394A (en) | 1992-12-17 | 1994-07-04 | Bell Atlantic Network Services, Inc. | Mechanized directory assistance |
US5467425A (en) | 1993-02-26 | 1995-11-14 | International Business Machines Corporation | Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models |
US5787414A (en) | 1993-06-03 | 1998-07-28 | Kabushiki Kaisha Toshiba | Data retrieval system using secondary information of primary data to be retrieved as retrieval key |
DE69423838T2 (de) | 1993-09-23 | 2000-08-03 | Xerox Corp., Rochester | Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen |
JP2986345B2 (ja) | 1993-10-18 | 1999-12-06 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声記録指標化装置及び方法 |
SE513456C2 (sv) * | 1994-05-10 | 2000-09-18 | Telia Ab | Metod och anordning vid tal- till textomvandling |
IT1272259B (it) | 1994-05-30 | 1997-06-16 | Texas Instruments Italia Spa | Procedimento ed apparecchio per il riconoscimento dei caratteri |
JP3260979B2 (ja) | 1994-07-15 | 2002-02-25 | 株式会社リコー | 文字認識方法 |
US5799267A (en) | 1994-07-22 | 1998-08-25 | Siegel; Steven H. | Phonic engine |
US5737723A (en) * | 1994-08-29 | 1998-04-07 | Lucent Technologies Inc. | Confusable word detection in speech recognition |
US5835667A (en) | 1994-10-14 | 1998-11-10 | Carnegie Mellon University | Method and apparatus for creating a searchable digital video library and a system and method of using such a library |
JPH10507536A (ja) | 1994-11-01 | 1998-07-21 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 言語認識 |
US5680605A (en) | 1995-02-07 | 1997-10-21 | Torres; Robert J. | Method and apparatus for searching a large volume of data with a pointer-based device in a data processing system |
DE69615667T2 (de) | 1995-03-07 | 2002-06-20 | British Telecommunications P.L.C., London | Spracherkennung |
CA2170669A1 (en) | 1995-03-24 | 1996-09-25 | Fernando Carlos Neves Pereira | Grapheme-to phoneme conversion with weighted finite-state transducers |
US5675706A (en) | 1995-03-31 | 1997-10-07 | Lucent Technologies Inc. | Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition |
US5729741A (en) | 1995-04-10 | 1998-03-17 | Golden Enterprises, Inc. | System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions |
JPH10503033A (ja) | 1995-05-03 | 1998-03-17 | フィリップス エレクトロニクス ネムローゼ フェン ノートシャップ | 新ワードのモデル化に基づく音声認識方法及びその装置 |
JPH0916598A (ja) | 1995-07-03 | 1997-01-17 | Fujitsu Ltd | エラー・パターンを用いた文字列修正システムおよび方法 |
US5721939A (en) | 1995-08-03 | 1998-02-24 | Xerox Corporation | Method and apparatus for tokenizing text |
US5684925A (en) * | 1995-09-08 | 1997-11-04 | Matsushita Electric Industrial Co., Ltd. | Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity |
US5737489A (en) | 1995-09-15 | 1998-04-07 | Lucent Technologies Inc. | Discriminative utterance verification for connected digits recognition |
JPH09128396A (ja) | 1995-11-06 | 1997-05-16 | Hitachi Ltd | 対訳辞書作成方法 |
US6567778B1 (en) | 1995-12-21 | 2003-05-20 | Nuance Communications | Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores |
US5960395A (en) | 1996-02-09 | 1999-09-28 | Canon Kabushiki Kaisha | Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming |
GB2302199B (en) | 1996-09-24 | 1997-05-14 | Allvoice Computing Plc | Data processing method and apparatus |
US5870740A (en) | 1996-09-30 | 1999-02-09 | Apple Computer, Inc. | System and method for improving the ranking of information retrieval results for short queries |
US5708759A (en) * | 1996-11-19 | 1998-01-13 | Kemeny; Emanuel S. | Speech recognition using phoneme waveform parameters |
US6172675B1 (en) | 1996-12-05 | 2001-01-09 | Interval Research Corporation | Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data |
US5852822A (en) | 1996-12-09 | 1998-12-22 | Oracle Corporation | Index-only tables with nested group keys |
EP0849723A3 (en) | 1996-12-20 | 1998-12-30 | ATR Interpreting Telecommunications Research Laboratories | Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition |
WO1998047084A1 (en) | 1997-04-17 | 1998-10-22 | Sharp Kabushiki Kaisha | A method and system for object-based video description and linking |
WO1999005681A1 (de) | 1997-07-23 | 1999-02-04 | Siemens Aktiengesellschaft | Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz |
JP2001517815A (ja) | 1997-09-24 | 2001-10-09 | ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ | 言語認識上の類似発声識別方法及び装置 |
US6026398A (en) | 1997-10-16 | 2000-02-15 | Imarket, Incorporated | System and methods for searching and matching databases |
US6061679A (en) | 1997-11-25 | 2000-05-09 | International Business Machines Corporation | Creating and searching a data structure ordered by ranges of key masks associated with the data structure |
US5983177A (en) | 1997-12-18 | 1999-11-09 | Nortel Networks Corporation | Method and apparatus for obtaining transcriptions from multiple training utterances |
US6182039B1 (en) | 1998-03-24 | 2001-01-30 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using probabilistic language model based on confusable sets for speech recognition |
US6243680B1 (en) | 1998-06-15 | 2001-06-05 | Nortel Networks Limited | Method and apparatus for obtaining a transcription of phrases through text and spoken utterances |
US6321226B1 (en) | 1998-06-30 | 2001-11-20 | Microsoft Corporation | Flexible keyboard searching |
US6192337B1 (en) | 1998-08-14 | 2001-02-20 | International Business Machines Corporation | Apparatus and methods for rejecting confusible words during training associated with a speech recognition system |
US6490563B2 (en) | 1998-08-17 | 2002-12-03 | Microsoft Corporation | Proofreading with text to speech feedback |
DE19842404A1 (de) | 1998-09-16 | 2000-03-23 | Philips Corp Intellectual Pty | Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente |
AU1520000A (en) | 1998-11-25 | 2000-06-13 | Sony Electronics Inc. | Method and apparatus for very large vocabulary isolated word recognition in a parameter sharing speech recognition system |
KR100828884B1 (ko) | 1999-03-05 | 2008-05-09 | 캐논 가부시끼가이샤 | 데이터베이스 주석 및 검색 |
GB2349260B (en) | 1999-04-23 | 2003-05-28 | Canon Kk | Training apparatus and method |
US6662180B1 (en) | 1999-05-12 | 2003-12-09 | Matsushita Electric Industrial Co., Ltd. | Method for searching in large databases of automatically recognized text |
US6567816B1 (en) | 2000-03-07 | 2003-05-20 | Paramesh Sampatrai Desai | Method, system, and program for extracting data from database records using dynamic code |
US6535850B1 (en) | 2000-03-09 | 2003-03-18 | Conexant Systems, Inc. | Smart training and smart scoring in SD speech recognition system with user defined vocabulary |
-
2000
- 2000-11-20 GB GBGB0028277.2A patent/GB0028277D0/en not_active Ceased
-
2001
- 2001-11-09 JP JP2001344825A patent/JP3747171B2/ja not_active Expired - Fee Related
- 2001-11-13 US US09/986,914 patent/US6801891B2/en not_active Expired - Fee Related
- 2001-11-19 EP EP01309733A patent/EP1207518A3/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
GB0028277D0 (en) | 2001-01-03 |
JP2002207496A (ja) | 2002-07-26 |
EP1207518A3 (en) | 2003-11-19 |
US20020120448A1 (en) | 2002-08-29 |
EP1207518A2 (en) | 2002-05-22 |
US6801891B2 (en) | 2004-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3747171B2 (ja) | 音声処理システム | |
EP1205908B1 (en) | Pronunciation of new input words for speech processing | |
US11676575B2 (en) | On-device learning in a hybrid speech processing system | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
JP6686154B2 (ja) | 発話認識方法及び装置 | |
JP5066483B2 (ja) | 言語理解装置 | |
KR101247578B1 (ko) | 자동 음성 인식 음향 모델들의 적응 | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
US10381000B1 (en) | Compressed finite state transducers for automatic speech recognition | |
JP2001356794A (ja) | データ処理装置及びその方法 | |
JPH07219578A (ja) | 音声認識方法 | |
JP2007093789A (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP6095588B2 (ja) | 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム | |
US9858038B2 (en) | Correction menu enrichment with alternate choices and generation of choice lists in multi-pass recognition systems | |
CN112927683A (zh) | 用于语音使能设备的动态唤醒词 | |
CN106030698B (zh) | 用于智能个人助理应用的方法、***和计算机可读介质 | |
JP6051004B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
US5706397A (en) | Speech recognition system with multi-level pruning for acoustic matching | |
US11532301B1 (en) | Natural language processing | |
CN111400481A (zh) | 针对多轮对话生成回复语句的方法和装置 | |
JP2001092496A (ja) | 連続音声認識装置および記録媒体 | |
US11626107B1 (en) | Natural language processing | |
JP3059398B2 (ja) | 自動通訳装置 | |
CN115240633A (zh) | 用于文本到语音转换的方法、装置、设备和存储介质 | |
US11328713B1 (en) | On-device contextual understanding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040827 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050131 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050401 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050926 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051128 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091202 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091202 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101202 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111202 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121202 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131202 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |