JP2524472B2 - 電話回線利用の音声認識システムを訓練する方法 - Google Patents
電話回線利用の音声認識システムを訓練する方法Info
- Publication number
- JP2524472B2 JP2524472B2 JP5219208A JP21920893A JP2524472B2 JP 2524472 B2 JP2524472 B2 JP 2524472B2 JP 5219208 A JP5219208 A JP 5219208A JP 21920893 A JP21920893 A JP 21920893A JP 2524472 B2 JP2524472 B2 JP 2524472B2
- Authority
- JP
- Japan
- Prior art keywords
- telephone
- voice
- data set
- speech
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 33
- 238000013139 quantization Methods 0.000 claims description 28
- 238000013461 design Methods 0.000 claims description 11
- 238000012937 correction Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 claims 1
- 230000008569 process Effects 0.000 description 20
- 238000012545 processing Methods 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 13
- 241000252794 Sphinx Species 0.000 description 10
- 230000007704 transition Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000001419 dependent effect Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 241000408659 Darpa Species 0.000 description 4
- 238000012952 Resampling Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000006854 communication Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 101001093748 Homo sapiens Phosphatidylinositol N-acetylglucosaminyltransferase subunit P Proteins 0.000 description 3
- 102100035188 Phosphatidylinositol N-acetylglucosaminyltransferase subunit P Human genes 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 230000003750 conditioning effect Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000000153 supplemental effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- BSFODEXXVBBYOC-UHFFFAOYSA-N 8-[4-(dimethylamino)butan-2-ylamino]quinolin-6-ol Chemical compound C1=CN=C2C(NC(CCN(C)C)C)=CC(O)=CC2=C1 BSFODEXXVBBYOC-UHFFFAOYSA-N 0.000 description 1
- 241000747049 Aceros Species 0.000 description 1
- 101150087426 Gnal gene Proteins 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 244000221110 common millet Species 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002844 continuous effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000036316 preload Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/022—Demisyllables, biphones or triphones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
- G10L2019/0005—Multi-stage vector quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Telephonic Communication Services (AREA)
Description
【0001】
【産業上の利用分野】本発明は、公衆電話交換回線を利
用する音声認識システムに関するものである。
用する音声認識システムに関するものである。
【0002】
【従来の技術】音声認識システムは、よく知られている
技術である。IBMタンゴラ(Tangora)[13](本願書文
末記載の参照文献の番号で、以下同様に表記する)およ
びドラゴン・システム・ドラゴン30k口述システムは
その例である。それらは、典型的な単一ユーザおよび話
し手依存型システムである。これは、プロセスが「登
録」と呼ばれるプロセスの間に、話し手の音声パターン
で音声認識装置を訓練することを各話し手に要求する。
将来の認識セッションの中で話し手自身をシステムが識
別しなければならないのでシステムは話し手のプロファ
イルを維持する。典型的には、話し手は低レベル雑音シ
ステム環境の中でローカル・マイクを通して認識システ
ムが常駐する単一の機械に話しかけながら登録を行う。
登録作業の間、その話し手は、長ったらしい原稿を読む
ことを要求されるが、それ故に、そのシステムは各話し
手の特色に順応することができることとなる。 独立し
た口述システム(たとえば、上記の2つのシステム)
は、話し手にたどたどしい、不自然な形で、すなわち、
語と語の間にポーズをいれながら、各語を形づくること
を要求する。これにより、音声認識システムは、語の境
界となる、先行および後続の無音を利用し、各個人の語
に連想される音声パターンを識別することが可能とな
る。典型的音声認識システムは、(たとえば、IBM
タンゴラ システムの Office Correspondence の場合の
ように)単一の機械上で作動し、訓練された単一の適用
業務を持つ。
技術である。IBMタンゴラ(Tangora)[13](本願書文
末記載の参照文献の番号で、以下同様に表記する)およ
びドラゴン・システム・ドラゴン30k口述システムは
その例である。それらは、典型的な単一ユーザおよび話
し手依存型システムである。これは、プロセスが「登
録」と呼ばれるプロセスの間に、話し手の音声パターン
で音声認識装置を訓練することを各話し手に要求する。
将来の認識セッションの中で話し手自身をシステムが識
別しなければならないのでシステムは話し手のプロファ
イルを維持する。典型的には、話し手は低レベル雑音シ
ステム環境の中でローカル・マイクを通して認識システ
ムが常駐する単一の機械に話しかけながら登録を行う。
登録作業の間、その話し手は、長ったらしい原稿を読む
ことを要求されるが、それ故に、そのシステムは各話し
手の特色に順応することができることとなる。 独立し
た口述システム(たとえば、上記の2つのシステム)
は、話し手にたどたどしい、不自然な形で、すなわち、
語と語の間にポーズをいれながら、各語を形づくること
を要求する。これにより、音声認識システムは、語の境
界となる、先行および後続の無音を利用し、各個人の語
に連想される音声パターンを識別することが可能とな
る。典型的音声認識システムは、(たとえば、IBM
タンゴラ システムの Office Correspondence の場合の
ように)単一の機械上で作動し、訓練された単一の適用
業務を持つ。
【0003】話し手依存型音声認識装置をもつマルチ・
ユーザ・システム環境は、各話し手にその音声パターン
をシステムに理解させるための退屈な訓練に従事するこ
とを要求する。話し手の電話番号によってシステムがど
の音声テンプレートを使用すべきかを知り得る共通デー
タ・ベースに音声テンプレートが格納されているかもし
れないが、それでもなお各話し手は使用の前にそのシス
テムを訓練しなければならない。外部の電話線から接続
してくる新しいシステム利用者は、このプロシージャが
容認できるものでないことを認識する。また、成功した
電話の音声認識システムというものは、様々の分野に関
係する音声を正確に認識するために迅速な文脈切り替え
ができなければならない。たとえば、一般のオフィス通
信のために訓練されたシステムは、数字列の提示の場
合、うまく働かない。
ユーザ・システム環境は、各話し手にその音声パターン
をシステムに理解させるための退屈な訓練に従事するこ
とを要求する。話し手の電話番号によってシステムがど
の音声テンプレートを使用すべきかを知り得る共通デー
タ・ベースに音声テンプレートが格納されているかもし
れないが、それでもなお各話し手は使用の前にそのシス
テムを訓練しなければならない。外部の電話線から接続
してくる新しいシステム利用者は、このプロシージャが
容認できるものでないことを認識する。また、成功した
電話の音声認識システムというものは、様々の分野に関
係する音声を正確に認識するために迅速な文脈切り替え
ができなければならない。たとえば、一般のオフィス通
信のために訓練されたシステムは、数字列の提示の場
合、うまく働かない。
【0004】Kai-Fu Lee の博士号論文[1]の中で最初に
記述されたスフィンクス(Sphinx)システムは、以前の話
し手依存型認識システムに大きな進歩をもたらした。そ
れは話し手独立型であり、会話音声の連続ストリームか
ら単語を認識することができた。このシステムは、実際
の使用に先立って行われる話し手個々の登録を必要とし
なかった。話し手依存型システムの中には、話し手に4
〜6週毎に再登録することを要求したり、利用者にその
システムが理解するための個人用プラグイン・カートリ
ッジを持ち運ぶことを要求する。連続の音声認識を行う
スフィンクス・システムは、語と語の間の休止を必要と
せず、音声認識システムの一時的ユーザに非常に多くの
親切なアプローチを提供する。認識システムの利便のた
めにどのように音声を調節するかをユーザが訓練しなく
てよいので、この点は、電話の音声認識システムの本質
的な特長である。
記述されたスフィンクス(Sphinx)システムは、以前の話
し手依存型認識システムに大きな進歩をもたらした。そ
れは話し手独立型であり、会話音声の連続ストリームか
ら単語を認識することができた。このシステムは、実際
の使用に先立って行われる話し手個々の登録を必要とし
なかった。話し手依存型システムの中には、話し手に4
〜6週毎に再登録することを要求したり、利用者にその
システムが理解するための個人用プラグイン・カートリ
ッジを持ち運ぶことを要求する。連続の音声認識を行う
スフィンクス・システムは、語と語の間の休止を必要と
せず、音声認識システムの一時的ユーザに非常に多くの
親切なアプローチを提供する。認識システムの利便のた
めにどのように音声を調節するかをユーザが訓練しなく
てよいので、この点は、電話の音声認識システムの本質
的な特長である。
【0005】音声認識システムは、また,与えられたさ
さやかな語彙を使って、実時間処理を提供しなければな
らない。しかし、スフィンクス・システムは、まだ以前
の話し手に依存する認識システムの不利な点をいくつか
持っていた。マイクロホンおよび比較的に制約された語
彙を使用しながら低レベル雑音システム環境の中で単一
機械上で操作するようプログラムされていた。スフィン
クス・システムは、複数ユーザのサポート、少くとも、
異なるロケーションおよび複数の語彙認識に関するサポ
ートを行うようには設計されなかった。
さやかな語彙を使って、実時間処理を提供しなければな
らない。しかし、スフィンクス・システムは、まだ以前
の話し手に依存する認識システムの不利な点をいくつか
持っていた。マイクロホンおよび比較的に制約された語
彙を使用しながら低レベル雑音システム環境の中で単一
機械上で操作するようプログラムされていた。スフィン
クス・システムは、複数ユーザのサポート、少くとも、
異なるロケーションおよび複数の語彙認識に関するサポ
ートを行うようには設計されなかった。
【0006】
【発明が解決しようとしている課題】本発明は、上記の
従前技術の不利益な点の多くを克服することを目的とす
る。したがって、本発明は、ローカルおよび遠隔地双方
の話し手からの入力を持つ電話機器使用に適した連続音
声話し手独立型音声認識装システムを提供することを目
的とする。
従前技術の不利益な点の多くを克服することを目的とす
る。したがって、本発明は、ローカルおよび遠隔地双方
の話し手からの入力を持つ電話機器使用に適した連続音
声話し手独立型音声認識装システムを提供することを目
的とする。
【0007】低レベル雑音条件の中で集められた語彙を
基に電話システム環境のように高レベル雑音の中での音
声パターンを認識できるようシステムを訓練すること
は、本発明のもうひとつの目的である。
基に電話システム環境のように高レベル雑音の中での音
声パターンを認識できるようシステムを訓練すること
は、本発明のもうひとつの目的である。
【0008】複数の音声適用業務が、コンピュータ・ネ
ットワーク上または電話線上で同時に音声認識システム
によって音声認識されるようにすることは、本発明のも
うひとつの目的である。
ットワーク上または電話線上で同時に音声認識システム
によって音声認識されるようにすることは、本発明のも
うひとつの目的である。
【0009】
【課題を解決するための手段】本発明の上記目的は、ロ
ーカル・エリア・ネットワークまたは広域ネットワーク
の上のクライアント・サーバを基に構築される音声認識
システムによって達成される。この音声認識システム
は、アナログまたはディジタル音声データを音声を表わ
す一組のケプストラム係数およびベクトル量子化値に変
換するフロントエンドを含む多くのモジュールに分けら
れる。バックエンドは、ベクトル量子化値を使用して、
その音声の作る文脈と音素モデル(Phoneme Models)と語
対文法(Word Pair Grammars)に従ってその語を認識す
る。語彙を一連の文脈(すなわち、ある特定の語がその
システムによって予期される状況)に分割することによ
って、一層大規模な語彙を、最小限のメモリに収納する
ことができる。ユーザが音声認識作業を進めるにつれ
て、文脈は共通のデータベースから迅速に切り換えられ
る(下記引用Brickmanその他による特許出願参照)。シス
テムは、また、コンピュータ・ネットワーク間および複
数のユーザ適用業務間のインターフェースを備える。
ーカル・エリア・ネットワークまたは広域ネットワーク
の上のクライアント・サーバを基に構築される音声認識
システムによって達成される。この音声認識システム
は、アナログまたはディジタル音声データを音声を表わ
す一組のケプストラム係数およびベクトル量子化値に変
換するフロントエンドを含む多くのモジュールに分けら
れる。バックエンドは、ベクトル量子化値を使用して、
その音声の作る文脈と音素モデル(Phoneme Models)と語
対文法(Word Pair Grammars)に従ってその語を認識す
る。語彙を一連の文脈(すなわち、ある特定の語がその
システムによって予期される状況)に分割することによ
って、一層大規模な語彙を、最小限のメモリに収納する
ことができる。ユーザが音声認識作業を進めるにつれ
て、文脈は共通のデータベースから迅速に切り換えられ
る(下記引用Brickmanその他による特許出願参照)。シス
テムは、また、コンピュータ・ネットワーク間および複
数のユーザ適用業務間のインターフェースを備える。
【0010】このシステムは、文脈のための語対文法を
構築しシステムを訓練する訓練およびタスク構築モジュ
ールを備え持つ。
構築しシステムを訓練する訓練およびタスク構築モジュ
ールを備え持つ。
【0011】本発明は、電話から得られる音声に応答で
きるよう音声認識システムを訓練するための電話チャネ
ル・シミュレーション・プロセスを含む。その方法は、
音声データ・セットを、電話帯域幅より帯域幅が高い音
声認識訓練・プロセッサに入力することから始める。入
力音声データ・セットは、電話帯域幅を持つ間引かれた
(decimated)音声データを得るために間引かれる。その
後、帯域通過デジタル濾波器(Bandpass Digital Filte
r)を間引かれた音声データ・セットに適用し、電話機器
の伝送特性に特化させる。これにより、濾波された音声
データ・セットが得られる。次に、その濾波された音声
データ・セットの最大ダイナミック・レンジが非圧伸(u
ncompanded)電話音声の最大レンジと一致するように、
振幅補正(スケーリング)を行う。それから、振幅補正
された音声データ・セットは、電話システムの音声信号
を圧伸、非圧伸するシークエンスを表わす量子化ノイズ
によって修正される。そして修正された音声データは、
統計的パターン・マッチング・データ・ユニットを訓練
するために音声認識プロセッサに入力される。上記方法
により、音声認識プロセッサは電話システムからの音声
信号に対して音声認識を実行することができることとな
る。
きるよう音声認識システムを訓練するための電話チャネ
ル・シミュレーション・プロセスを含む。その方法は、
音声データ・セットを、電話帯域幅より帯域幅が高い音
声認識訓練・プロセッサに入力することから始める。入
力音声データ・セットは、電話帯域幅を持つ間引かれた
(decimated)音声データを得るために間引かれる。その
後、帯域通過デジタル濾波器(Bandpass Digital Filte
r)を間引かれた音声データ・セットに適用し、電話機器
の伝送特性に特化させる。これにより、濾波された音声
データ・セットが得られる。次に、その濾波された音声
データ・セットの最大ダイナミック・レンジが非圧伸(u
ncompanded)電話音声の最大レンジと一致するように、
振幅補正(スケーリング)を行う。それから、振幅補正
された音声データ・セットは、電話システムの音声信号
を圧伸、非圧伸するシークエンスを表わす量子化ノイズ
によって修正される。そして修正された音声データは、
統計的パターン・マッチング・データ・ユニットを訓練
するために音声認識プロセッサに入力される。上記方法
により、音声認識プロセッサは電話システムからの音声
信号に対して音声認識を実行することができることとな
る。
【0012】
【実施例】電話ラインによってもらされる帯域幅減衰お
よび雑音は、すべての音声認識システムの正確度を減ず
る。この影響は、瞬間的に認識されなければならない語
彙の大きさに応じて増加する。迅速に切り替え可能な音
声認識文脈の使用はこの発明にとって有用であるが、そ
のために、個々の文脈のサイズが制限されねばならな
い。文脈切り替えは、N.F. Brickmanその他の発明にな
るIBM出願のアメリカ合衆国特許出願番号947,634"In
stantaneous Context Switching For Speech Recogniti
on Systems"で記述されるており、本明細書においても
参照される。図1は、ハードウェア機械構成から独立し
たIBM連続音声認識システム(IBM Continuous Speec
h Recognition System のことで、以下ICSRSと呼
ぶ)の論理的構造を図示する。ICSRSは、幅広いレ
ベルで、以下の分野をカバーするコンポーネントから構
成される。
よび雑音は、すべての音声認識システムの正確度を減ず
る。この影響は、瞬間的に認識されなければならない語
彙の大きさに応じて増加する。迅速に切り替え可能な音
声認識文脈の使用はこの発明にとって有用であるが、そ
のために、個々の文脈のサイズが制限されねばならな
い。文脈切り替えは、N.F. Brickmanその他の発明にな
るIBM出願のアメリカ合衆国特許出願番号947,634"In
stantaneous Context Switching For Speech Recogniti
on Systems"で記述されるており、本明細書においても
参照される。図1は、ハードウェア機械構成から独立し
たIBM連続音声認識システム(IBM Continuous Speec
h Recognition System のことで、以下ICSRSと呼
ぶ)の論理的構造を図示する。ICSRSは、幅広いレ
ベルで、以下の分野をカバーするコンポーネントから構
成される。
【0013】データ収集:データは、アナログからディ
ジタル形式にブロック100で変換されるか、あるいは
電話のデータの場合他のチャネルから潜在的にデマルチ
プレックス(demultiplexed)される。
ジタル形式にブロック100で変換されるか、あるいは
電話のデータの場合他のチャネルから潜在的にデマルチ
プレックス(demultiplexed)される。
【0014】データ圧縮:ICSRSフロントエンドブ
ロック102および104は、ベクトル量子化ステップ
の間に300バイト/秒に音声データストリームを調整
し、再標本化し、圧縮する。
ロック102および104は、ベクトル量子化ステップ
の間に300バイト/秒に音声データストリームを調整
し、再標本化し、圧縮する。
【0015】音声認識:バックエンド106は、文法ガ
イド型ビーム・サーチ・アルゴリズムを使用しているパ
ターンマッチング音素モデル192によって実際の音声
認識を実行する。音素モデル192および語対文法13
5は共に認識文脈を構成する。バックエンド認識装置の
ひとつまたは複数の事例が、遠隔地であろうがローカル
であろうが音声データを捕捉し圧縮するフロントエンド
事例に配備されることができる。
イド型ビーム・サーチ・アルゴリズムを使用しているパ
ターンマッチング音素モデル192によって実際の音声
認識を実行する。音素モデル192および語対文法13
5は共に認識文脈を構成する。バックエンド認識装置の
ひとつまたは複数の事例が、遠隔地であろうがローカル
であろうが音声データを捕捉し圧縮するフロントエンド
事例に配備されることができる。
【0016】タスク構築:タスク構築コンポーネント1
30は、認識文脈のオフラインでの構築を可能にし、実
行時で使用のために語対文法をコンパイルし、適切な音
素モデルをそのタスク(文脈)に連結させる。
30は、認識文脈のオフラインでの構築を可能にし、実
行時で使用のために語対文法をコンパイルし、適切な音
素モデルをそのタスク(文脈)に連結させる。
【0017】適用業務プログラム・インタフェース(A
PI):API108は、データストリーム・コントロ
ール、文脈ローディングおよび起動を可能にするRPC
(Remote Procedure Call)に基づく認識サービスを提供
する。
PI):API108は、データストリーム・コントロ
ール、文脈ローディングおよび起動を可能にするRPC
(Remote Procedure Call)に基づく認識サービスを提供
する。
【0018】電話チャネル・シミュレータ:シミュレー
タ185は、高帯域、高解像度音声データ・セットを、
音素モデル192および電話音声に連結し、 減少され
た標本抽出率、圧縮された帯域幅および圧縮されたダイ
ナミック・レンジの電話音声を作り出す。
タ185は、高帯域、高解像度音声データ・セットを、
音素モデル192および電話音声に連結し、 減少され
た標本抽出率、圧縮された帯域幅および圧縮されたダイ
ナミック・レンジの電話音声を作り出す。
【0019】音声認識の間に、ローカル・マイクからの
高帯域声データストリームも電話に関連しているような
低帯域声データストリームも、アナログデジタル変換ブ
ロック100によって受け取られる。アナログデジタル
変換100は、ボイス・ワークステーション上のIBM M-
Audio Capture/Playback Cardカード(M−ACPA)
のようなハードウェア・カードによって実行されること
ができる。M−ACPAは、高帯域または電話帯域幅信
号を処理するデジタル信号処理機構を持ち、ディジタル
に標本化された一連のデータ・ポイントにそれらを変換
する。この変換は、また、デジタルPBXや8KHz、
8ビットのMu−Law/A−Law形式で与えられる
電話データストリームによって実行されることもでき
る。
高帯域声データストリームも電話に関連しているような
低帯域声データストリームも、アナログデジタル変換ブ
ロック100によって受け取られる。アナログデジタル
変換100は、ボイス・ワークステーション上のIBM M-
Audio Capture/Playback Cardカード(M−ACPA)
のようなハードウェア・カードによって実行されること
ができる。M−ACPAは、高帯域または電話帯域幅信
号を処理するデジタル信号処理機構を持ち、ディジタル
に標本化された一連のデータ・ポイントにそれらを変換
する。この変換は、また、デジタルPBXや8KHz、
8ビットのMu−Law/A−Law形式で与えられる
電話データストリームによって実行されることもでき
る。
【0020】本発明では、高帯域を、サンプル率16キ
ロヘルツ以上と定義する。低レベル帯域幅を、アメリカ
合衆国で一般の電話がデジタル音声に使う8キロヘルツ
以下と定義する。電話システムの中でデジタル情報が個
人の電話交換(PBX)から入る可能性があるので、A
/D変換ブロック100は、オプションとして必要であ
る。
ロヘルツ以上と定義する。低レベル帯域幅を、アメリカ
合衆国で一般の電話がデジタル音声に使う8キロヘルツ
以下と定義する。電話システムの中でデジタル情報が個
人の電話交換(PBX)から入る可能性があるので、A
/D変換ブロック100は、オプションとして必要であ
る。
【0021】音声認識に対する「フロントエンド」の中
の最初の重要なブロックは、データ条件付け・速度変換
ブロック102(Data Conditioning and Rate Convers
ionのことで、以下DCRCと呼ぶ)である。A/D変
換100からのデジタル化された入力は、44または8
KHzである。本発明で間引き(DECIMATION)と呼び使用
する再標本化テクニックは、IEEE の文献[2]によっ
て提供されている。DCRC102は、デジタル化され
た信号に対しアンチエイリアシング(Anti-aliasing)・
フィルターを使用し標本化を行い、次のステップでの使
用のために、16KHzまたは8KHzデータストリー
ムを作る。DCRCおよびベクトル量子化プロセスは、
以下に詳細に記述される。
の最初の重要なブロックは、データ条件付け・速度変換
ブロック102(Data Conditioning and Rate Convers
ionのことで、以下DCRCと呼ぶ)である。A/D変
換100からのデジタル化された入力は、44または8
KHzである。本発明で間引き(DECIMATION)と呼び使用
する再標本化テクニックは、IEEE の文献[2]によっ
て提供されている。DCRC102は、デジタル化され
た信号に対しアンチエイリアシング(Anti-aliasing)・
フィルターを使用し標本化を行い、次のステップでの使
用のために、16KHzまたは8KHzデータストリー
ムを作る。DCRCおよびベクトル量子化プロセスは、
以下に詳細に記述される。
【0022】音声認識の中でデータ条件付け・速度変換
の後、音声データは、ベクトル量子化ブロック104に
渡される。ベクトル量子化の中でデジタル・データ・ス
トリームは、1秒間の1/50のフレームに細分化さ
れ、16KHz、11KHzおよび8KHzそれぞれの
標本化率に対し各々320個、220個および160個
の標本となる。本発明の好ましい実施例のひとつでは、
いかなる帯域幅音声信号からも計算される1秒につき1
00フレームがあり、それらは50パーセント上重ねさ
れ、ハミング・ウィンドウ(Hamming Window)が適用され
る。ハミング・ウィンドウは、文献[3]で定義されてい
る。
の後、音声データは、ベクトル量子化ブロック104に
渡される。ベクトル量子化の中でデジタル・データ・ス
トリームは、1秒間の1/50のフレームに細分化さ
れ、16KHz、11KHzおよび8KHzそれぞれの
標本化率に対し各々320個、220個および160個
の標本となる。本発明の好ましい実施例のひとつでは、
いかなる帯域幅音声信号からも計算される1秒につき1
00フレームがあり、それらは50パーセント上重ねさ
れ、ハミング・ウィンドウ(Hamming Window)が適用され
る。ハミング・ウィンドウは、文献[3]で定義されてい
る。
【0023】音声データストリームがフレームに細分化
されたあと、ベクトル量子化ステップは、各フレームか
ら特性を抽出する。ベクトル量子化ステップの抽出部分
で、LPCケプストラム係数と呼ばれる一連のパラメー
タが、計算される。ケプストラム係数は、パターン認識
のために音声の重要な特性のいくつかを抜き出し、要約
する。データの各フレームの中で、音声の1秒の50分
の1が、カプセルに入れられる。1秒につき50のフレ
ームと想定するであろうが、50パーセントの上重ねが
あるので、1秒につき100フレームが生成される。ケ
プストラム係数を計算するために、まず(コサイン・ベ
ル-cosine bell-である)ハミング・ウィンドウが、音
声データに適用される。抽出されたデータが、無限時間
連続フーリエ変換にあるようにするために、ハミング・
ウィンドウは、音声データの各フレームのエッジを次第
に減少させる。
されたあと、ベクトル量子化ステップは、各フレームか
ら特性を抽出する。ベクトル量子化ステップの抽出部分
で、LPCケプストラム係数と呼ばれる一連のパラメー
タが、計算される。ケプストラム係数は、パターン認識
のために音声の重要な特性のいくつかを抜き出し、要約
する。データの各フレームの中で、音声の1秒の50分
の1が、カプセルに入れられる。1秒につき50のフレ
ームと想定するであろうが、50パーセントの上重ねが
あるので、1秒につき100フレームが生成される。ケ
プストラム係数を計算するために、まず(コサイン・ベ
ル-cosine bell-である)ハミング・ウィンドウが、音
声データに適用される。抽出されたデータが、無限時間
連続フーリエ変換にあるようにするために、ハミング・
ウィンドウは、音声データの各フレームのエッジを次第
に減少させる。
【0024】ハミング・ウィンドウ化されたフレームは
音声スペクトルを平坦にするために、そのZ変換が1.
0ー0.97*z-1([1]49ページ参照)であるところの
濾波器を使用して事前に濾波される。それから、14個
の自己相関係数が計算される。自己相関係数が、文献
[4]の記述でよく知られている方法でケプストラム係数
を計算するために使われる。13個のケプストラム係数
は、14個の自己相関係数から引き出される。自己相関
係数の数やケプストラム係数の次元数を変えることは可
能である。これらの係数の統計的特性は、最終的なベク
トル量子化ステップをガイドするために使われる。
音声スペクトルを平坦にするために、そのZ変換が1.
0ー0.97*z-1([1]49ページ参照)であるところの
濾波器を使用して事前に濾波される。それから、14個
の自己相関係数が計算される。自己相関係数が、文献
[4]の記述でよく知られている方法でケプストラム係数
を計算するために使われる。13個のケプストラム係数
は、14個の自己相関係数から引き出される。自己相関
係数の数やケプストラム係数の次元数を変えることは可
能である。これらの係数の統計的特性は、最終的なベク
トル量子化ステップをガイドするために使われる。
【0025】ベクトル量子化は、訓練プロセス190の
中でも同様に使われる。下記の訓練データの調整は、基
本スフィンクス認識エンジンを電話機器上で作動可能と
させる点で、本発明にとって重要である。訓練プロセス
190において、10、000から15、000の間の
センテンスがとられて、フレームに細分化され、そこか
ら自己相関およびケプストラム係数が計算される。参照
文献[5]に記述されるk−手法タイプのクラスタリング
・プロシージャを使用して、256個のクラスにケプス
トラム・フレーム特性を区分する。これらのケプストラ
ム・クラスターの中央値、およびそのクラス・ラベルが
共に取り出され、これ以後「コード・ブック」と呼ばれ
る。量子化コード・ブック105は、音響訓練機能19
0によって生成される電話音声用コード・ブックを保存
し、また、第2の高帯域音声用コード・ブックをも保存
する。
中でも同様に使われる。下記の訓練データの調整は、基
本スフィンクス認識エンジンを電話機器上で作動可能と
させる点で、本発明にとって重要である。訓練プロセス
190において、10、000から15、000の間の
センテンスがとられて、フレームに細分化され、そこか
ら自己相関およびケプストラム係数が計算される。参照
文献[5]に記述されるk−手法タイプのクラスタリング
・プロシージャを使用して、256個のクラスにケプス
トラム・フレーム特性を区分する。これらのケプストラ
ム・クラスターの中央値、およびそのクラス・ラベルが
共に取り出され、これ以後「コード・ブック」と呼ばれ
る。量子化コード・ブック105は、音響訓練機能19
0によって生成される電話音声用コード・ブックを保存
し、また、第2の高帯域音声用コード・ブックをも保存
する。
【0026】ベクトル量子化の最終的なステップのため
に、どのクラスター中央値がフレーム・ケプストラム係
数に最も近いかを決めるために、ブロック104は、上
記のように訓練プロシージャで引き出される量子化コー
ド・ブック105のコード・ブックを参照する。現在の
フレームが、コード・ブック値によって表わされたクラ
スに割り当てられる。256個のクラスがあるので、V
Q(Vector Quantization)値は、1バイトで表わされ
る。微分ケプストラムおよびフレームのそのべき乗から
引き出される別の2個の1バイトVQ値がある。1秒に
100回引き出されるた3個の1バイトVQ値があり、
その結果、音声データストリームは2、400 ビット
/秒に圧縮される。
に、どのクラスター中央値がフレーム・ケプストラム係
数に最も近いかを決めるために、ブロック104は、上
記のように訓練プロシージャで引き出される量子化コー
ド・ブック105のコード・ブックを参照する。現在の
フレームが、コード・ブック値によって表わされたクラ
スに割り当てられる。256個のクラスがあるので、V
Q(Vector Quantization)値は、1バイトで表わされ
る。微分ケプストラムおよびフレームのそのべき乗から
引き出される別の2個の1バイトVQ値がある。1秒に
100回引き出されるた3個の1バイトVQ値があり、
その結果、音声データストリームは2、400 ビット
/秒に圧縮される。
【0027】音声認識装置のためにその音声を特徴づけ
るところの完全に別個のコード・ブックが、電話データ
から引き出され、図1の量子化コード・ブック105で
保存されなければならないといううことは、電話音声認
識に関する本発明の一部である。また、対応する音素モ
デルが電話データから引き出され、音素モデル192で
保存されなければならないということは、本発明のもう
一つの部分である。標本率減少、帯域幅圧縮およびダイ
ナミック・レンジ圧縮のために、電話音声信号はかなり
変わる。しかし、多大な労力を要する、電話から収集す
る音声標本の使用を必要とせず、高帯域標本を、電話チ
ャネル特性をシミュレートするように処理することがで
きる。これにより、スフィンクス・システムの初期化訓
練で使われた、大規模で既に使用可能の音声データ・フ
ァイルを活用して、電話音声認識を可能となる。電話チ
ャネル・シミュレータは、本発明の対象である。
るところの完全に別個のコード・ブックが、電話データ
から引き出され、図1の量子化コード・ブック105で
保存されなければならないといううことは、電話音声認
識に関する本発明の一部である。また、対応する音素モ
デルが電話データから引き出され、音素モデル192で
保存されなければならないということは、本発明のもう
一つの部分である。標本率減少、帯域幅圧縮およびダイ
ナミック・レンジ圧縮のために、電話音声信号はかなり
変わる。しかし、多大な労力を要する、電話から収集す
る音声標本の使用を必要とせず、高帯域標本を、電話チ
ャネル特性をシミュレートするように処理することがで
きる。これにより、スフィンクス・システムの初期化訓
練で使われた、大規模で既に使用可能の音声データ・フ
ァイルを活用して、電話音声認識を可能となる。電話チ
ャネル・シミュレータは、本発明の対象である。
【0028】電話チャネル・シミュレーションは、下記
の通り、3つの段階的プロセスで達成される。 1.)電話帯域幅への変換 文献[14]から[19]で参照されるように、(たとえば4
4、100Hz、あるいは16、000Hzで集められ
た16ビット解像度データのような)高帯域、高解像度
音声データ・セットが図1のブロック180への入力と
なる。
の通り、3つの段階的プロセスで達成される。 1.)電話帯域幅への変換 文献[14]から[19]で参照されるように、(たとえば4
4、100Hz、あるいは16、000Hzで集められ
た16ビット解像度データのような)高帯域、高解像度
音声データ・セットが図1のブロック180への入力と
なる。
【0029】入力音声データ・セット180は、最初
に、図1のブロック182の中で[2]で記述の再標本化
プログラムを使用して、8、000Hzに再標本化され
る 。このデータは、図1の機能ブロック182で、参
考文献[8]で記述のMAXFLATルーチンの修正版を
使用して設計された符復号器帯域濾波器に供給される。
この濾波器は、図2、3および4の中で図示される。こ
の濾波器の通過帯域特性は、現代の米国における電話機
器の中で使われる符号化/復号化濾波器に近似するよう
設計される。通過帯域、3dbポイントおよび移行(TRANS
ITION)帯域幅の設定は、本発明の有効性にとって重要で
ある。ローカル電話回線上の音声に対する良好な認識を
行う認識訓練のための符復号濾波器を設計するのは可能
であるが、遠隔地の電話については難しい。そのような
問題を避けるために、上記の特性は、たとえば、低位の
3dbポイントに対しては300Hz、上位の3dbポイン
トに対しては3、600Hzに設定すべきである。移行
帯域幅は、それぞれ、400Hzおよび800Hzでな
ければならない。通過帯域は500Hzから3、200
Hzになる。実際の符復号器濾波器の幅に近似するため
に、通過帯域リプルは、全通過帯域にわたり、1単位か
ら0.1パーセント以上の偏差であってはならない。
に、図1のブロック182の中で[2]で記述の再標本化
プログラムを使用して、8、000Hzに再標本化され
る 。このデータは、図1の機能ブロック182で、参
考文献[8]で記述のMAXFLATルーチンの修正版を
使用して設計された符復号器帯域濾波器に供給される。
この濾波器は、図2、3および4の中で図示される。こ
の濾波器の通過帯域特性は、現代の米国における電話機
器の中で使われる符号化/復号化濾波器に近似するよう
設計される。通過帯域、3dbポイントおよび移行(TRANS
ITION)帯域幅の設定は、本発明の有効性にとって重要で
ある。ローカル電話回線上の音声に対する良好な認識を
行う認識訓練のための符復号濾波器を設計するのは可能
であるが、遠隔地の電話については難しい。そのような
問題を避けるために、上記の特性は、たとえば、低位の
3dbポイントに対しては300Hz、上位の3dbポイン
トに対しては3、600Hzに設定すべきである。移行
帯域幅は、それぞれ、400Hzおよび800Hzでな
ければならない。通過帯域は500Hzから3、200
Hzになる。実際の符復号器濾波器の幅に近似するため
に、通過帯域リプルは、全通過帯域にわたり、1単位か
ら0.1パーセント以上の偏差であってはならない。
【0030】スフィンクス音声認識エンジンおよびタン
ゴラを始めとするその他の音声認識エンジンが線形濾波
器によって提示されるスペクトルのひずみを感知できる
点に、注意することは重要である。スペクトルのひずみ
は、主要な音声認識特性(例えばケプストラム)が周波
数スペクトルから引き出されるので、その通過帯域の中
の平坦な周波数応答を持たない。複雑な認識作業につい
ては、いくぶん平坦な通過帯域応答からのマイナーな偏
差が、本願発明者の研究室において観察され、結果とし
て、絶対認識誤り率が数パーセント劣化した。したがっ
て、最大平坦設計アルゴリズムは、必要である。「スペ
クトルの傾き」へのスフィンクス音声認識エンジンの感
度が、参考文献[9]の中で指摘された。したがって、M
AXFLATまたは比較的低レベル通過帯域のリップル
設計は、必要とされる。
ゴラを始めとするその他の音声認識エンジンが線形濾波
器によって提示されるスペクトルのひずみを感知できる
点に、注意することは重要である。スペクトルのひずみ
は、主要な音声認識特性(例えばケプストラム)が周波
数スペクトルから引き出されるので、その通過帯域の中
の平坦な周波数応答を持たない。複雑な認識作業につい
ては、いくぶん平坦な通過帯域応答からのマイナーな偏
差が、本願発明者の研究室において観察され、結果とし
て、絶対認識誤り率が数パーセント劣化した。したがっ
て、最大平坦設計アルゴリズムは、必要である。「スペ
クトルの傾き」へのスフィンクス音声認識エンジンの感
度が、参考文献[9]の中で指摘された。したがって、M
AXFLATまたは比較的低レベル通過帯域のリップル
設計は、必要とされる。
【0031】4、100Hzから8、000Hzへの再
標本化率変換は、参考文献[8]の中で提供されたMAX
FLATには過度な要求であり、それは、帯域通過特性
が符復号器帯域濾波器に必要なとき、低通過帯域フィル
ターの設計のためにのみ役立てられる。このルーチンに
対するデザイン特性は、0.5へマップするナイキスト
周波数と1.0へマップする標本化周波数によって、正
規化された周波数の3dbポイントおよび移行帯域幅を表
わす2個のパラメータ、ベータおよびガンマによって与
えられる。Kaiserの参考文献 [8]によって、ガンマは
「0.005よりあまり小さくない」値に制限されなけ
ればならないことが示唆されている。これより低い値で
は、使われる計算精度浮動小数点数を増やすためにルー
チンの修正が要求であり、そのような濾波器の条件数
は、およそガンマの2乗に反比例するので、フィルター
係数バッファを200から4096に拡張する必要があ
る。このため、44、100Hzから8、000Hzへ
の変換に必要となる0.05の約10分の1または0.0
05のガンマ値をもつ濾波器とした。2個の低域濾波器
設計、低域から高域通過帯域波変換、および、低域と高
域通過波の渦状組合せが、必要な帯域通過特性を実現す
るために要求された。
標本化率変換は、参考文献[8]の中で提供されたMAX
FLATには過度な要求であり、それは、帯域通過特性
が符復号器帯域濾波器に必要なとき、低通過帯域フィル
ターの設計のためにのみ役立てられる。このルーチンに
対するデザイン特性は、0.5へマップするナイキスト
周波数と1.0へマップする標本化周波数によって、正
規化された周波数の3dbポイントおよび移行帯域幅を表
わす2個のパラメータ、ベータおよびガンマによって与
えられる。Kaiserの参考文献 [8]によって、ガンマは
「0.005よりあまり小さくない」値に制限されなけ
ればならないことが示唆されている。これより低い値で
は、使われる計算精度浮動小数点数を増やすためにルー
チンの修正が要求であり、そのような濾波器の条件数
は、およそガンマの2乗に反比例するので、フィルター
係数バッファを200から4096に拡張する必要があ
る。このため、44、100Hzから8、000Hzへ
の変換に必要となる0.05の約10分の1または0.0
05のガンマ値をもつ濾波器とした。2個の低域濾波器
設計、低域から高域通過帯域波変換、および、低域と高
域通過波の渦状組合せが、必要な帯域通過特性を実現す
るために要求された。
【0032】上記フィルター設計の実現によって、4
4、100Hzデータは、参照文献[2]で記述される再
標本アルゴリズムを使用して、図1の機能ブロック18
2の中で8、000Hzに変換され、米国長距離電話機
器のための通過帯域に非常に近い符復号器通過帯域を提
供する。このデータは、下記のステップ2および3に従
って処理され、16ビットの、低雑音信号となる。
4、100Hzデータは、参照文献[2]で記述される再
標本アルゴリズムを使用して、図1の機能ブロック18
2の中で8、000Hzに変換され、米国長距離電話機
器のための通過帯域に非常に近い符復号器通過帯域を提
供する。このデータは、下記のステップ2および3に従
って処理され、16ビットの、低雑音信号となる。
【0033】同様の通過帯域特性および速度低減削減
は、この訓練テクニックの中で使われる16、000H
z音声サンプルのために必要であるが、例外は、移行バ
ンド要求がそれほど要求していない点と濾波器加重が、
要求された通過帯域平坦度特性を達成するにはさほど必
要とされない点とである。 図2、3、4で、事前訓練
再標本化操作の訓練に実行されたのと同様に、符復号器
濾波器のインパルス(Impulse)、マグニチュウド(Magnit
ude)およびログ・マグニチュウド(Log Magnitude) 応答
を再びを示す。 2)ダイナミック・レンジを正規化するための振幅補正
(スケーリング) 音声標本は、個別に読まれて、図1のブロック184
で、14ビットのダイナミック・レンジにスケーリング
される。 3)Mu−law 圧伸 各音声標本は、図1のブロック186で、参照文献[7]
のような公の文献でよく知られているMu−law圧縮
を使用して16ビットの精度から8ビットの精度に引き
下げられる。8ビットへ圧縮されたデータは、ふたたび
Muーlaw公式に従って、14ビットへ拡大される。
は、この訓練テクニックの中で使われる16、000H
z音声サンプルのために必要であるが、例外は、移行バ
ンド要求がそれほど要求していない点と濾波器加重が、
要求された通過帯域平坦度特性を達成するにはさほど必
要とされない点とである。 図2、3、4で、事前訓練
再標本化操作の訓練に実行されたのと同様に、符復号器
濾波器のインパルス(Impulse)、マグニチュウド(Magnit
ude)およびログ・マグニチュウド(Log Magnitude) 応答
を再びを示す。 2)ダイナミック・レンジを正規化するための振幅補正
(スケーリング) 音声標本は、個別に読まれて、図1のブロック184
で、14ビットのダイナミック・レンジにスケーリング
される。 3)Mu−law 圧伸 各音声標本は、図1のブロック186で、参照文献[7]
のような公の文献でよく知られているMu−law圧縮
を使用して16ビットの精度から8ビットの精度に引き
下げられる。8ビットへ圧縮されたデータは、ふたたび
Muーlaw公式に従って、14ビットへ拡大される。
【0034】この結果、図1ブロック188でシミュレ
ートされる電話チャネル音声データ・セットになる。こ
れは、信号強度によって増大、減少する量子化ノイズ・
レベルを持ち、およそ一定のS/N比を維持する。特
に、話し手の声が大きい場合、これは、電話音声信号の
中で聞きとれる「ひび割れ」雑音を導入する。
ートされる電話チャネル音声データ・セットになる。こ
れは、信号強度によって増大、減少する量子化ノイズ・
レベルを持ち、およそ一定のS/N比を維持する。特
に、話し手の声が大きい場合、これは、電話音声信号の
中で聞きとれる「ひび割れ」雑音を導入する。
【0035】電話データより高域の種々の帯域幅で集め
られるであろう音声データ180のこのような処理は、
電話機器での使用のため音声認識装置50をブロック1
90で訓練するために使用される。音響訓練190は、
図1のブロック192の音素モデルと量子化コード・ブ
ック105を生成する。これにより、スフィンクス音声
認識エンジンを使用して電話帯域幅での実際的音声認識
を行うことを可能とする。
られるであろう音声データ180のこのような処理は、
電話機器での使用のため音声認識装置50をブロック1
90で訓練するために使用される。音響訓練190は、
図1のブロック192の音素モデルと量子化コード・ブ
ック105を生成する。これにより、スフィンクス音声
認識エンジンを使用して電話帯域幅での実際的音声認識
を行うことを可能とする。
【0036】シミュレートされた電話チャネルデータ使
用の認識装置訓練 2個のコード・ブック105と2個の音素モデル・セッ
ト192が作成されるように、2つの訓練セッション、
すなわち電話と高帯域に対するセッションが、実行され
る。高帯域、ローカルな認識あるいは、電話帯域幅など
のユーザの要求に応じてコード・ブック105の各セッ
トおよび各音素モデル192は、別々にに保管され、実
行される。いずれの帯域幅でも、自己相関係数は、ケプ
ストラム係数を引き出すために抜き出される。そのフレ
ームにもっとも近い係数を類別するために、ケプストラ
ム係数がベクトル量子化104によって実行される。こ
のようにして、[1]で記述されるように、各音声時系列
フレームは、そのフレームを表わす3バイトに減じられ
る。
用の認識装置訓練 2個のコード・ブック105と2個の音素モデル・セッ
ト192が作成されるように、2つの訓練セッション、
すなわち電話と高帯域に対するセッションが、実行され
る。高帯域、ローカルな認識あるいは、電話帯域幅など
のユーザの要求に応じてコード・ブック105の各セッ
トおよび各音素モデル192は、別々にに保管され、実
行される。いずれの帯域幅でも、自己相関係数は、ケプ
ストラム係数を引き出すために抜き出される。そのフレ
ームにもっとも近い係数を類別するために、ケプストラ
ム係数がベクトル量子化104によって実行される。こ
のようにして、[1]で記述されるように、各音声時系列
フレームは、そのフレームを表わす3バイトに減じられ
る。
【0037】量子化の値のセットが、ビーム・サーチ・
プロセス106に送り出される。ビーム・サーチ106
は、ビタービ(Viterbi)ビーム・サーチと呼ばれる文法
ガイド型「隠れたマルコフ・モデル」(Hidden Markov M
odel)サーチ・プロセスである。この文法ガイド型サー
チは、サーチ・スペースを減らすために語対文法を使
う。
プロセス106に送り出される。ビーム・サーチ106
は、ビタービ(Viterbi)ビーム・サーチと呼ばれる文法
ガイド型「隠れたマルコフ・モデル」(Hidden Markov M
odel)サーチ・プロセスである。この文法ガイド型サー
チは、サーチ・スペースを減らすために語対文法を使
う。
【0038】本発明のもうひとつの重要な点は、その音
声認識システムがローカルであろうが遠隔地であろう
が、両方の音声を処理することができることである。こ
れは、音声のいずれのタイプもチャネル・シミュレータ
で使われる帯域幅に対応するように、実行時データ条件
づけ・速度変換濾波器の遮断ポイントを2個の帯域幅の
幅が狭い方に近い帯域幅に置くことによって、達成され
る。3dbポイントおよび移行帯域特性は、訓練の中で使
われる電話符復号器濾波器の上位移行帯域の特性に近似
しなければならない。
声認識システムがローカルであろうが遠隔地であろう
が、両方の音声を処理することができることである。こ
れは、音声のいずれのタイプもチャネル・シミュレータ
で使われる帯域幅に対応するように、実行時データ条件
づけ・速度変換濾波器の遮断ポイントを2個の帯域幅の
幅が狭い方に近い帯域幅に置くことによって、達成され
る。3dbポイントおよび移行帯域特性は、訓練の中で使
われる電話符復号器濾波器の上位移行帯域の特性に近似
しなければならない。
【0039】ビーム・サーチ106は、そのベクトル量
子化の中で引き出された時系列を語対文法からの語列に
突き合わせ、各文脈を定義する。音声認識サーバは、ユ
ーザ適用業務または音声認識クライアント(ブロック1
10)とコミュニケートする。本発明の構造は、単数の
バックエンドとコミュニケートする複数のフロントエン
ド(ワークステーション)または複数のバックエンドと
コミュニケートする複数のフロントエンドを持つことが
できる。
子化の中で引き出された時系列を語対文法からの語列に
突き合わせ、各文脈を定義する。音声認識サーバは、ユ
ーザ適用業務または音声認識クライアント(ブロック1
10)とコミュニケートする。本発明の構造は、単数の
バックエンドとコミュニケートする複数のフロントエン
ド(ワークステーション)または複数のバックエンドと
コミュニケートする複数のフロントエンドを持つことが
できる。
【0040】本発明のシステムは、オペレーションの異
なるレベルのために構成され実行される。非常に高いデ
ータ速度をもつコミュニケーション・ネットワークにつ
いては、フロントエンドでのデータ圧縮のために、音声
標本は、直接バックエンドを実行しているシステムに伝
達されることができる。原デジタル音声データストリー
ムが、複数のユーザ用のバックエンドがあるサーバに送
り出されることができる。電話システムについては、複
数のチャネルが1つのバックエンドへつながるか、また
は、複数のユーザが、フロントエンドおよびバックエン
ド双方にコミュニケートする。
なるレベルのために構成され実行される。非常に高いデ
ータ速度をもつコミュニケーション・ネットワークにつ
いては、フロントエンドでのデータ圧縮のために、音声
標本は、直接バックエンドを実行しているシステムに伝
達されることができる。原デジタル音声データストリー
ムが、複数のユーザ用のバックエンドがあるサーバに送
り出されることができる。電話システムについては、複
数のチャネルが1つのバックエンドへつながるか、また
は、複数のユーザが、フロントエンドおよびバックエン
ド双方にコミュニケートする。
【0041】本発明でのシステムは、音声認識サーバー
として配備される音声認識機能を中心に主として構成さ
れる。システムは、その時点の文脈として適用業務が選
択する語対文法によってガイドされる。音声認識適用業
務は、初期値設定プロシージャ、ステータス・コードお
よびコマンド[6]のような機能をサポートする適用業務
プログラム・インタフェース(API)コールをもつ音声
認識システムにインターフェースを持つ。音声認識適用
業務は、音声認識サーバに一定のタイプの操作を要求す
るか、あるいは、ある特定の認識文脈をロードして、必
要なとき、音声認識のための文脈を起動するよう要求す
る。音声認識適用業務が最初に実行されるとき、タスク
は通常サーバによって事前ロードされる。適用業務の活
動の必要に応じて、タスクはその後順に起動される。
として配備される音声認識機能を中心に主として構成さ
れる。システムは、その時点の文脈として適用業務が選
択する語対文法によってガイドされる。音声認識適用業
務は、初期値設定プロシージャ、ステータス・コードお
よびコマンド[6]のような機能をサポートする適用業務
プログラム・インタフェース(API)コールをもつ音声
認識システムにインターフェースを持つ。音声認識適用
業務は、音声認識サーバに一定のタイプの操作を要求す
るか、あるいは、ある特定の認識文脈をロードして、必
要なとき、音声認識のための文脈を起動するよう要求す
る。音声認識適用業務が最初に実行されるとき、タスク
は通常サーバによって事前ロードされる。適用業務の活
動の必要に応じて、タスクはその後順に起動される。
【0042】音声認識サーバ(ブロック108)のAP
Iコールは、ユーザ適用業務(ブロック110)が音声
認識システムのサービスを要請することを可能にする。
ユーザ適用業務プログラム(ブロック100)は、音声
認識サーバの種々の構成要素と同じコンピューターまた
は異なるコンピューターの上で実行することができる。
同じコンピューター上の場合、適用業務プログラム(ブ
ロック110)は、そのオペレーティングシステムでサ
ポートされる共有メモリおよびセマフォを通して音声認
識サーバとインターフェースをとることができる。異な
るコンピュータ上の場合、交信はRS232インターフ
ェースあるいは遠隔プロシージャ呼出し(RPC)を通
して行われる。RPCは参照プログラミング文献[10]で
よく知られている。
Iコールは、ユーザ適用業務(ブロック110)が音声
認識システムのサービスを要請することを可能にする。
ユーザ適用業務プログラム(ブロック100)は、音声
認識サーバの種々の構成要素と同じコンピューターまた
は異なるコンピューターの上で実行することができる。
同じコンピューター上の場合、適用業務プログラム(ブ
ロック110)は、そのオペレーティングシステムでサ
ポートされる共有メモリおよびセマフォを通して音声認
識サーバとインターフェースをとることができる。異な
るコンピュータ上の場合、交信はRS232インターフ
ェースあるいは遠隔プロシージャ呼出し(RPC)を通
して行われる。RPCは参照プログラミング文献[10]で
よく知られている。
【0043】ユーザ適用業務の典型的例には、エグゼク
ティブ情報システム、言葉の照会経由のデータベース・
アクセス、ソフトウェア問題報告システムなどがある。
ティブ情報システム、言葉の照会経由のデータベース・
アクセス、ソフトウェア問題報告システムなどがある。
【0044】もうひとつの例は、その利点を活用するた
め音声認識サーバへの呼び出しを行う電話回答音声応答
装置(VRU)である。RISC SYSTEM 600
0(TM)およびOS/2(TM)をもつ PS/2(TM)
の上でこれらのサーバーは実行された。
め音声認識サーバへの呼び出しを行う電話回答音声応答
装置(VRU)である。RISC SYSTEM 600
0(TM)およびOS/2(TM)をもつ PS/2(TM)
の上でこれらのサーバーは実行された。
【0045】Direct Talk 6000(TM)
は、同様の電話VRUシステムである。このVRUシス
テムでは、1本の電話回線を扱うのではなく、(同時に
活動中となる可能性のある24個の会話チャネルをも
つ)T1回線処理が必要となる。 音声認識サーバ構造
は、Direct Talk(TM)のように大量の電話
適用業務の処理が必要な場合、複数のクライアントを扱
うことができる。 ユーザ適用業務は多くの文脈を前も
って登録することができる。レストラン案内、ハードデ
ィスク・ヘルプ・デスク、あるいは、ソフトウェア・ヘ
ルプ・デスクは全て複数の文脈を階層的に事前に登録す
ることができる。各適用業務では、何人かのユーザが、
音声ストリームを入力することができる。各適用業務
は、特特有の音声ストリームのために特有の文脈の下で
音声認識を実行するよう音声認識サーバに指示する。
は、同様の電話VRUシステムである。このVRUシス
テムでは、1本の電話回線を扱うのではなく、(同時に
活動中となる可能性のある24個の会話チャネルをも
つ)T1回線処理が必要となる。 音声認識サーバ構造
は、Direct Talk(TM)のように大量の電話
適用業務の処理が必要な場合、複数のクライアントを扱
うことができる。 ユーザ適用業務は多くの文脈を前も
って登録することができる。レストラン案内、ハードデ
ィスク・ヘルプ・デスク、あるいは、ソフトウェア・ヘ
ルプ・デスクは全て複数の文脈を階層的に事前に登録す
ることができる。各適用業務では、何人かのユーザが、
音声ストリームを入力することができる。各適用業務
は、特特有の音声ストリームのために特有の文脈の下で
音声認識を実行するよう音声認識サーバに指示する。
【0046】言い換えると、同じAPIを扱う複数のユ
ーザが、1またはおそらくはいくつかの版の音声認識サ
ーバを用いるタスクすべてを登録するであろう。システ
ムは、要請された作業がすでにロードされているかを検
査し、複数のユーザの音声認識タスクが余分にロードさ
れることを回避する。
ーザが、1またはおそらくはいくつかの版の音声認識サ
ーバを用いるタスクすべてを登録するであろう。システ
ムは、要請された作業がすでにロードされているかを検
査し、複数のユーザの音声認識タスクが余分にロードさ
れることを回避する。
【0047】タスク構築(ブロック130)は、いくつ
かの基本入力ソースを持つ。20、000語の発音をも
つ基本辞書である米語辞書(ブロック132)は、その
1つである。補足辞書(ブロック138)は、適用業務
特有のもので、基本辞書の中で見つけられなかった語の
発音を追加するためのものである。補足辞書は、典型的
には、特定の適用業務が音声認識のために必要とする固
有名詞、頭字語(ACROMYM)その他から構成される。
かの基本入力ソースを持つ。20、000語の発音をも
つ基本辞書である米語辞書(ブロック132)は、その
1つである。補足辞書(ブロック138)は、適用業務
特有のもので、基本辞書の中で見つけられなかった語の
発音を追加するためのものである。補足辞書は、典型的
には、特定の適用業務が音声認識のために必要とする固
有名詞、頭字語(ACROMYM)その他から構成される。
【0048】基本米語辞書(ブロック132)は、タス
ク構築プログラム(ブロック134)によって求められ
る語および音素を供給する。タスク構築プログラムは、
また、何がそのタスクの下の音声認識サーバによって認
識されることができるかを決めるためにタスクBNF辞
書(ブロック136)から該当するタスクBaukus
−Naur Form(BNF)文法を引き出す。たと
えば、地域レストラン情報を提供する適用業務の最初の
文脈は、その話し手が希望するレストランのタイプ、た
とえば、フランス、イタリア、中国料理などであるかも
しれない。ひとたびそのタイプが決まれば、次の文脈
は、その特定のカテゴリの中のレストランとなろう。タ
スク構築プログラムは、そのパターン合わせのために必
要なすべての語を見つけるためにBNFを分析し、汎用
の米語辞書(ブロック132)から音素表示を引き出す。
必然的に、あらゆる特定適用業務は、そのシステムに加
えられなければならないそれ自身の副語彙を持ち、それ
らは、補足辞書に保存される。たとえば、レストラン・
ヘルプ・デスクの中で、「イタリアン」、「フレン
チ」、「スパニッシュ」などの言葉は、汎用米語辞書で
見つけられるが、レストラン名、とくに外国語で、たと
えば、「Cherchez LesFemmes」、「Chateau Voulez」
や、アメリカのレストランで普通でない名、たとえば、
J. J. Muldoon、は、普通の辞書になく、タスク補足辞
書(ブロック138)に加えなければならない。これら
の補足辞書(ブロック138)は、また、基本汎用米語
にあるが発音をローカルなものにするためにローカルな
語彙を含めることができる。。
ク構築プログラム(ブロック134)によって求められ
る語および音素を供給する。タスク構築プログラムは、
また、何がそのタスクの下の音声認識サーバによって認
識されることができるかを決めるためにタスクBNF辞
書(ブロック136)から該当するタスクBaukus
−Naur Form(BNF)文法を引き出す。たと
えば、地域レストラン情報を提供する適用業務の最初の
文脈は、その話し手が希望するレストランのタイプ、た
とえば、フランス、イタリア、中国料理などであるかも
しれない。ひとたびそのタイプが決まれば、次の文脈
は、その特定のカテゴリの中のレストランとなろう。タ
スク構築プログラムは、そのパターン合わせのために必
要なすべての語を見つけるためにBNFを分析し、汎用
の米語辞書(ブロック132)から音素表示を引き出す。
必然的に、あらゆる特定適用業務は、そのシステムに加
えられなければならないそれ自身の副語彙を持ち、それ
らは、補足辞書に保存される。たとえば、レストラン・
ヘルプ・デスクの中で、「イタリアン」、「フレン
チ」、「スパニッシュ」などの言葉は、汎用米語辞書で
見つけられるが、レストラン名、とくに外国語で、たと
えば、「Cherchez LesFemmes」、「Chateau Voulez」
や、アメリカのレストランで普通でない名、たとえば、
J. J. Muldoon、は、普通の辞書になく、タスク補足辞
書(ブロック138)に加えなければならない。これら
の補足辞書(ブロック138)は、また、基本汎用米語
にあるが発音をローカルなものにするためにローカルな
語彙を含めることができる。。
【0049】タスク構築プログラム(ブロック134)
は、入力BNF文法を分析して、その文法の中の各語の
リストと次に続くことができるすべての語のサブリスト
を生成する。したがって、その文法の中の各語が、後に
続く適切な語のリストおよび各語の音素表示へのポイン
タを持つ。音素モデル192は、種々のVQ値を観察す
るである。このマルコフ・モデルは、VQ値(ブロック
104)のための、一群の離散的確率分布であり、「隠
れたマルコフ」状態機械が音素の範囲内の特定の状態に
あるとすると、VQ値のオカレンスの確率を与える。
「隠れたマルコフ・モデル」は文献[11]に適切に記述さ
れている。
は、入力BNF文法を分析して、その文法の中の各語の
リストと次に続くことができるすべての語のサブリスト
を生成する。したがって、その文法の中の各語が、後に
続く適切な語のリストおよび各語の音素表示へのポイン
タを持つ。音素モデル192は、種々のVQ値を観察す
るである。このマルコフ・モデルは、VQ値(ブロック
104)のための、一群の離散的確率分布であり、「隠
れたマルコフ」状態機械が音素の範囲内の特定の状態に
あるとすると、VQ値のオカレンスの確率を与える。
「隠れたマルコフ・モデル」は文献[11]に適切に記述さ
れている。
【0050】ビーム・サーチ(ブロック106)は、訓
練プロセスの間に生成される文脈感知のトリフォン(tri
phones)の大きいテーブルから連結HMM音素モデル1
92でできている語モデルを使用する。この語モデル
が、VQ値の観察された順序を最もよく説明する語順序
の最適推定を行うために使われる。ビーム・サーチ(ブ
ロック106)は、そのサーチの中で使われる語をつく
るための音素モデル192を選択するために、語文法を
使う。
練プロセスの間に生成される文脈感知のトリフォン(tri
phones)の大きいテーブルから連結HMM音素モデル1
92でできている語モデルを使用する。この語モデル
が、VQ値の観察された順序を最もよく説明する語順序
の最適推定を行うために使われる。ビーム・サーチ(ブ
ロック106)は、そのサーチの中で使われる語をつく
るための音素モデル192を選択するために、語文法を
使う。
【0051】ユーザ適用業務は、音声認識サーバを制御
する。例えば、[12]で記述されるIBMプログラム・プ
ロダクト Direct Talk/2(TM)は、電話に
応答しレストラン案内機能をを実行するひとつのユーザ
適用業務となり得る。レストラン案内適用業務は、Di
rect Talk/2(TM)を使用し、この適用業務が
16の文脈を持ち、レストラン案内ヘルプ・デスクの一
部である文脈を事前ロードする要求を起こすことを音声
認識サーバに知らせる。その適用業務が進行するにつれ
て、音声認識サーバの文脈切り替えを要請する。ユーザ
は、電話ヘルプを電話を通して呼び出す。レストラン案
内は、音声認識サーバに最初のレベルの文脈での音声認
識を実行することを要請する。認識サーバとユーザ適用
業務間のAPI上で制御とデータが交換される。Dir
ect Talk/2(TM)システムの複数の事例が同
じ音声認識サーバを使用する可能性がある。
する。例えば、[12]で記述されるIBMプログラム・プ
ロダクト Direct Talk/2(TM)は、電話に
応答しレストラン案内機能をを実行するひとつのユーザ
適用業務となり得る。レストラン案内適用業務は、Di
rect Talk/2(TM)を使用し、この適用業務が
16の文脈を持ち、レストラン案内ヘルプ・デスクの一
部である文脈を事前ロードする要求を起こすことを音声
認識サーバに知らせる。その適用業務が進行するにつれ
て、音声認識サーバの文脈切り替えを要請する。ユーザ
は、電話ヘルプを電話を通して呼び出す。レストラン案
内は、音声認識サーバに最初のレベルの文脈での音声認
識を実行することを要請する。認識サーバとユーザ適用
業務間のAPI上で制御とデータが交換される。Dir
ect Talk/2(TM)システムの複数の事例が同
じ音声認識サーバを使用する可能性がある。
【0052】音声認識サーバは、無声間隔(ユーザが調
整可能で、ほとんど一般に0.6秒)が来るまで音声デ
ータを捕捉する。無声間隔が観察されると、認識は終了
し、話し手の話しが終わったと仮定される。
整可能で、ほとんど一般に0.6秒)が来るまで音声デ
ータを捕捉する。無声間隔が観察されると、認識は終了
し、話し手の話しが終わったと仮定される。
【0053】本発明記載の音声認識システムは、複数の
ハードウェア・プラットホームおよび複数のソフトウェ
ア機械構成の上に、複数の実施を可能にするよう基本設
計がなされる。たとえば、1つの可能な構造は、図5の
ように、ローカル・エリア・ネットワーク160を通し
て接続されているワークステーションの物理的実施の上
への上記論理的構造50の物理マッピングを提供する。
この構造の中の各ワークステーション150、15
0’、150”は、複数の独立ユーザ適用業務を実行す
ることができ、各々は、スレーブ・プロセッサーとして
の音声認識サーバ50のマスターとなる。PBX170
は、外部の電話回線に接続していて、電話帯域幅データ
ストリームを図1の音声認識サーバ50のアナログ・デ
ジタル変換100に渡す。認識された音声を表わしてい
るテキストが、ワークステーション150、150’、
150”のユーザ適用業務に音声認識サーバから返され
る。
ハードウェア・プラットホームおよび複数のソフトウェ
ア機械構成の上に、複数の実施を可能にするよう基本設
計がなされる。たとえば、1つの可能な構造は、図5の
ように、ローカル・エリア・ネットワーク160を通し
て接続されているワークステーションの物理的実施の上
への上記論理的構造50の物理マッピングを提供する。
この構造の中の各ワークステーション150、15
0’、150”は、複数の独立ユーザ適用業務を実行す
ることができ、各々は、スレーブ・プロセッサーとして
の音声認識サーバ50のマスターとなる。PBX170
は、外部の電話回線に接続していて、電話帯域幅データ
ストリームを図1の音声認識サーバ50のアナログ・デ
ジタル変換100に渡す。認識された音声を表わしてい
るテキストが、ワークステーション150、150’、
150”のユーザ適用業務に音声認識サーバから返され
る。
【0054】訓練プロセス ビーム・サーチ・プロセスでの語モデルとテキストとの
パターン合わせに使われる音素HMM192のパラメー
タを推定するために、訓練プロシージャは、既知の音声
およびテキスト原稿という大規模辞書を使用する。
パターン合わせに使われる音素HMM192のパラメー
タを推定するために、訓練プロシージャは、既知の音声
およびテキスト原稿という大規模辞書を使用する。
【0055】最初に、その原稿が、訓練セットの語の発
音を表わす音素を汎用米語辞書から検索するために使わ
れる。
音を表わす音素を汎用米語辞書から検索するために使わ
れる。
【0056】次に、音素HMM192のパラメータが、
共調音(coarticulation)効果の効果的な推定を行うため
に、先行および後続音素文脈(トリフォン-triphones-
と呼ばれる)の中で推定される。使われる推定プロシー
ジャは、[11]で記述のBaum-Welch 順方向/逆方向繰返
しアルゴリズムである。訓練されたトリフォンHMMが
訓練セットの中で観察されたVQ値時系列を生成したで
あろう確率を最大にするために、HMMのパラメータ
が、繰り返し調節される。
共調音(coarticulation)効果の効果的な推定を行うため
に、先行および後続音素文脈(トリフォン-triphones-
と呼ばれる)の中で推定される。使われる推定プロシー
ジャは、[11]で記述のBaum-Welch 順方向/逆方向繰返
しアルゴリズムである。訓練されたトリフォンHMMが
訓練セットの中で観察されたVQ値時系列を生成したで
あろう確率を最大にするために、HMMのパラメータ
が、繰り返し調節される。
【0057】あらゆる「隠れたマルコフ」音素モデルに
は多くのパラメータがあり、各「隠れた」状態機械中に
7つの状態および12のトランジション・アーク(TRANS
ITION ARC)が存在する。各トランジション・アークに関
連して、3つのコード・ブックの各々の確率分布に、関
連する256の離散エレメントがある。訓練プロシージ
ャから生じるトリフォンHMMパラメータは、連続音声
の中に存在する共調音効果を表わすのに必要なトリフォ
ン数を減らすために一定の幅の値の範囲に集められる。
は多くのパラメータがあり、各「隠れた」状態機械中に
7つの状態および12のトランジション・アーク(TRANS
ITION ARC)が存在する。各トランジション・アークに関
連して、3つのコード・ブックの各々の確率分布に、関
連する256の離散エレメントがある。訓練プロシージ
ャから生じるトリフォンHMMパラメータは、連続音声
の中に存在する共調音効果を表わすのに必要なトリフォ
ン数を減らすために一定の幅の値の範囲に集められる。
【0058】訓練は、ローカルな電話交換を通して集め
られる低レベル帯域幅音声およびマイクからの高帯域音
声の組合せによって実行される。高帯域音声は、本発明
に従って、本願書で記述の電話チャネル・シミュレータ
185によって処理される。3個のコード・ブックすべ
ては、この段階でコンパイルされる。[1]で記述のよう
に、コード・ブックが、ケプストラム、微分のケプスト
ラム、べきおよび微分のべきを含む。
られる低レベル帯域幅音声およびマイクからの高帯域音
声の組合せによって実行される。高帯域音声は、本発明
に従って、本願書で記述の電話チャネル・シミュレータ
185によって処理される。3個のコード・ブックすべ
ては、この段階でコンパイルされる。[1]で記述のよう
に、コード・ブックが、ケプストラム、微分のケプスト
ラム、べきおよび微分のべきを含む。
【0059】3つのコード・ブックの各々は量子化コー
ド・ブック105に保存され、実行時ベクトル量子化プ
ロセスで使われる。ここで、電話ネットワークの効果
が、データの事前処理によってシミュレートされ、公衆
電話ネットワークが調整するのと同じ方法で特性コード
・ブックの統計的属性が調整される。このプロシージャ
をとることによって、米国大陸の様々なロケーションか
らの呼び出しをもつ実際の電話の音声認識の正確度が大
幅に増加した。
ド・ブック105に保存され、実行時ベクトル量子化プ
ロセスで使われる。ここで、電話ネットワークの効果
が、データの事前処理によってシミュレートされ、公衆
電話ネットワークが調整するのと同じ方法で特性コード
・ブックの統計的属性が調整される。このプロシージャ
をとることによって、米国大陸の様々なロケーションか
らの呼び出しをもつ実際の電話の音声認識の正確度が大
幅に増加した。
【0060】図6は、たとえばPBX170経由で電話
から得られた音声に応答する音声認識装置50を訓練す
るための電話チャネル・シミュレーション・プロセス2
00を記述する流れ図である。図6の流れ図は、図5の
データ処理装置50の上で実行されることができるコン
ピューター・プログラム方法を表わす。
から得られた音声に応答する音声認識装置50を訓練す
るための電話チャネル・シミュレーション・プロセス2
00を記述する流れ図である。図6の流れ図は、図5の
データ処理装置50の上で実行されることができるコン
ピューター・プログラム方法を表わす。
【0061】プロセス200は、電話帯域幅より帯域幅
がより高い音声認識訓練プロセッサ50に音声データ・
セットを入力するステップ202で始まる。例となる高
帯域音声データ・セットは、参照文献[14]から[19]で記
述されている。このステップは、図1のデータ入力ブロ
ック180に対応する。
がより高い音声認識訓練プロセッサ50に音声データ・
セットを入力するステップ202で始まる。例となる高
帯域音声データ・セットは、参照文献[14]から[19]で記
述されている。このステップは、図1のデータ入力ブロ
ック180に対応する。
【0062】図6のステップ204で、音声データ・セ
ットは、電話帯域幅を持つ間引かれた音声データ・セッ
トを得るために間引かれる。これは、図1の機能ブロッ
ク182に対応する。間引かれた音声データ・セット
は、入力音声データ・セットの高い方の帯域幅より低い
帯域幅を持つであろう。間引き(decimation)プロセス
は、参照[2]で記述されている。
ットは、電話帯域幅を持つ間引かれた音声データ・セッ
トを得るために間引かれる。これは、図1の機能ブロッ
ク182に対応する。間引かれた音声データ・セット
は、入力音声データ・セットの高い方の帯域幅より低い
帯域幅を持つであろう。間引き(decimation)プロセス
は、参照[2]で記述されている。
【0063】次に、図6のステップ206で、帯域通過
デジタル濾波器を間引かれた音声データ・セットに適用
し、電話機器の伝送特性に特徴づける。これは、図1の
機能ブロック182に対応する。これは、濾波された音
声データ・セットを得るために行われる。帯域通過デジ
タル濾波器は、最大平坦設計アルゴリズムを持たなけれ
ばならない。
デジタル濾波器を間引かれた音声データ・セットに適用
し、電話機器の伝送特性に特徴づける。これは、図1の
機能ブロック182に対応する。これは、濾波された音
声データ・セットを得るために行われる。帯域通過デジ
タル濾波器は、最大平坦設計アルゴリズムを持たなけれ
ばならない。
【0064】次に、図6の中のステップ208で、その
最大ダイナミック・レンジが非圧伸電話音声の最大レン
ジと一致するように、濾波された音声データ・セットの
振幅が、再補正される。これは、図1の機能ブロック1
84に対応する。これは、振幅再補正音声データ・セッ
トを得るために行われる。このステップの結果、その最
大ダイナミック・レンジは非圧伸Muーlaw電話音声
の最大ダイナミック・レンジと一致し得る。代わりに、
その最大ダイナミック・レンジは非圧伸Aーlaw電話
音声の最大ダイナミック・レンジと一致することもでき
る。
最大ダイナミック・レンジが非圧伸電話音声の最大レン
ジと一致するように、濾波された音声データ・セットの
振幅が、再補正される。これは、図1の機能ブロック1
84に対応する。これは、振幅再補正音声データ・セッ
トを得るために行われる。このステップの結果、その最
大ダイナミック・レンジは非圧伸Muーlaw電話音声
の最大ダイナミック・レンジと一致し得る。代わりに、
その最大ダイナミック・レンジは非圧伸Aーlaw電話
音声の最大ダイナミック・レンジと一致することもでき
る。
【0065】次に、図6ステップ210で、上記補正音
声データ・セットを、電話中の音声信号の圧伸非圧伸の
順序を表わしている量子化ノイズをもって修正する。こ
れは、図1の機能ブロック186に対応する。これは、
修正された音声データ・セットを得るために行われる。
修正ステップは、Mu−lawノイズとしての量子化ノ
イズを持つことができる。代わりに、修正ステップは、
A−lawノイズとしての量子化ノイズを持つことがで
きる。
声データ・セットを、電話中の音声信号の圧伸非圧伸の
順序を表わしている量子化ノイズをもって修正する。こ
れは、図1の機能ブロック186に対応する。これは、
修正された音声データ・セットを得るために行われる。
修正ステップは、Mu−lawノイズとしての量子化ノ
イズを持つことができる。代わりに、修正ステップは、
A−lawノイズとしての量子化ノイズを持つことがで
きる。
【0066】次に、図6のステップ212では、統計的
パターン・マッチング・データ装置を訓練するために、
音声認識プロセッサ50へ修正された音声データ・セッ
トを入力する。これは、図1の出力データ・ブロック1
88に対応する。シミュレートされた電話チャネル音声
185が、電話音声特有性を持つ電話コード・ブック1
05の特性を持つ音素モデル192を生成するために、
音響的訓練プロセス190によって使われる。
パターン・マッチング・データ装置を訓練するために、
音声認識プロセッサ50へ修正された音声データ・セッ
トを入力する。これは、図1の出力データ・ブロック1
88に対応する。シミュレートされた電話チャネル音声
185が、電話音声特有性を持つ電話コード・ブック1
05の特性を持つ音素モデル192を生成するために、
音響的訓練プロセス190によって使われる。
【0067】次に、図6のステップ214で、たとえ
ば、図5のPBX170からの信号のような、電話から
の音声信号に対し、音声認識プロセッサ50を使って、
音声認識が実行される。
ば、図5のPBX170からの信号のような、電話から
の音声信号に対し、音声認識プロセッサ50を使って、
音声認識が実行される。
【0068】電話チャネル・シミュレータ(ブロック1
85)を使用する高帯域音声の変換は、連続の音声認識
装置に限られてなく、たとえば、IBM Tangora Dictatio
n SystemおよびDragon Systems、ニュートン・マサチュ
ーセッツ、Dragon 30k DictateおよびKurzweil Applied
Intelligence、Voice Report、Waltham、マサチューセ
ッツおよび[20]で記述されるその他のシステム等のよう
な様々な音声認識プロセッサに適用されるということに
留意する必要がある。
85)を使用する高帯域音声の変換は、連続の音声認識
装置に限られてなく、たとえば、IBM Tangora Dictatio
n SystemおよびDragon Systems、ニュートン・マサチュ
ーセッツ、Dragon 30k DictateおよびKurzweil Applied
Intelligence、Voice Report、Waltham、マサチューセ
ッツおよび[20]で記述されるその他のシステム等のよう
な様々な音声認識プロセッサに適用されるということに
留意する必要がある。
【0069】上記本発明の説明において引用した参照文
献は、以下の通りである。
献は、以下の通りである。
【0070】[1] "Large Vocabulary Speaker and Depe
ndent Continuous Speech Recognition: The Sphinx Sy
stem"; Kai-Fu Lee; Cargnie Mellon University, Depa
rtment of Electrical and Computer Engineering; Apr
il 1988; CMU-CS-88-148 [2] "A General Program to Perform Sampling Rate Co
nversion of Data by Rational Ratios"; from "Progra
ms for Digital Signal Processing", Ed.: Digital Si
gnal Processing Committee of the IEEE Acoustics, S
peech, and Signal Processing Society; IEEE Press,
1979; Section 8.2, pp8.2-1 to 8.2-7 by R.E. Crochi
ere [3] "Theory and Application of Digital Signal Pro
cessing" L.R. Rabiner, B. Gold; Prentice Hall, 197
5, pp 91 [4] "Digital Processing of Speech Signals"; Prenti
ce Hall Signal Processing Series; 1978, pp 401-40
2, 411-413 [5] "An Algorithm for Vector Quantizer Design"; Y.
Linde, A. Buzo, R.Gray, IEEE Transactions on Com
munications, Vol. com-28, no. 1, January 1980 [6] "IBM Continuous Speech Recognition System Pro
grammers Guide"; B. Booth; 1992; currently unpubli
shed, available on request. [7] "Digital Telephony and Network Integration";
B. Keiser, E. Strange;Van Nostrand Reinhold Compan
y Inc. 1985.; pp. 26-31 [8] "Design Subroutine (MAXFLAT) for Symmetric FIR
Low Pass Digital Filters with Maximally-Flat Pass
and Stop Bands" from "Programs for DigitalSignal
Processing", Ed.: Digital Signal Processing Commit
tee of the IEEE Acoustics, Speech, and Signal Proc
essing Society; IEEE Press, 1979; Section 5.3, pp
5.3-1 to 5.3-6 by J. Kaiser [9] "Acoustical and Environmental Robustness in Au
tomatic Speech Recognition" A. Acero; Cargnie Mell
on University, Department of Electrical andCompute
r Engineering; April 1990; CMU-CS-88-148 [10] "AIX Distributed Environments: NFS, NCS, RPC,
DS Migration, LAN Maintenance and Everything"; IB
M International Technical Support Centers,Publicat
ion GG24-3489, May 8, 1990 [11] "A Tutorial on Hidden Markov Models and Sele
cted Applications inSpeech Recognition"; L. Rabine
r; Readings in Speech Recognition; Ed.: A.Waibel,
K. Lee; Morgan Kaufmann; 1990; pp 267-296 [12] "IBM CallPath DirectTalk/2 General Informati
on and Planning Manual"; International Business Ma
chines publication no. GB35-4403-0; 1991 [13] "A Maximum Likelihood Approach to Continuous
Speech Recognition";L. R. Bahl, F. Jelinek, R. Me
rcer; Readings in Speech Recognition; Ed.:A. Waibe
l, K. Lee; Morgan Kaufmann; 1990; pp 308-319 [14] "Speech Corpora Produced on CD-ROM Media by
The National Institute of Standards and Technology
(NIST)", April, 1991 [15] "DARPA Resource Management Continuous Speech
Database(RMI) Speaker Dependent Training Data",
September 1989 NIST Speech Discs 2-1.1, 2-2.1 (2 D
iscs) NTIS Order No. PB89-226666 [16] "DARPA Resource Management Continuous Speech
Database(RMl) Speaker-Independent Training Data",
November 1989 NIST Speech Disc 2-3.1 (1 Disc) NTIS
Order No.PB90-500539 [17] "DARPA Extended Resource Management Continu
ous Speech Speaker-Dependent Corpus (RM2)", Sepet
mber 1990 NIST Speech Discs 3-1.2, 3-2.2 NTIS Orde
r No. PB90-501776 [18] "DARPA Acoustic-Phonetic Continuous Speech Co
rpus (TIMIT)", October 1990 NIST Speech Disc 1-1.1
NTIS Order No. PB91-0505065 [19] "Studio Quality Speaker-Indpendent Connected-
Digit Corpus(TIDIGITS)", NIST Speech Discs 4-1.1,
4-2.1, 4-3.1 NTIS Order No. PB91-505592 [20] "The Spoken Word", Kai-Fu Lee, et al., Byte M
agazine, JulY 1990, Vol- 15, No. 7; pp. 225-232
ndent Continuous Speech Recognition: The Sphinx Sy
stem"; Kai-Fu Lee; Cargnie Mellon University, Depa
rtment of Electrical and Computer Engineering; Apr
il 1988; CMU-CS-88-148 [2] "A General Program to Perform Sampling Rate Co
nversion of Data by Rational Ratios"; from "Progra
ms for Digital Signal Processing", Ed.: Digital Si
gnal Processing Committee of the IEEE Acoustics, S
peech, and Signal Processing Society; IEEE Press,
1979; Section 8.2, pp8.2-1 to 8.2-7 by R.E. Crochi
ere [3] "Theory and Application of Digital Signal Pro
cessing" L.R. Rabiner, B. Gold; Prentice Hall, 197
5, pp 91 [4] "Digital Processing of Speech Signals"; Prenti
ce Hall Signal Processing Series; 1978, pp 401-40
2, 411-413 [5] "An Algorithm for Vector Quantizer Design"; Y.
Linde, A. Buzo, R.Gray, IEEE Transactions on Com
munications, Vol. com-28, no. 1, January 1980 [6] "IBM Continuous Speech Recognition System Pro
grammers Guide"; B. Booth; 1992; currently unpubli
shed, available on request. [7] "Digital Telephony and Network Integration";
B. Keiser, E. Strange;Van Nostrand Reinhold Compan
y Inc. 1985.; pp. 26-31 [8] "Design Subroutine (MAXFLAT) for Symmetric FIR
Low Pass Digital Filters with Maximally-Flat Pass
and Stop Bands" from "Programs for DigitalSignal
Processing", Ed.: Digital Signal Processing Commit
tee of the IEEE Acoustics, Speech, and Signal Proc
essing Society; IEEE Press, 1979; Section 5.3, pp
5.3-1 to 5.3-6 by J. Kaiser [9] "Acoustical and Environmental Robustness in Au
tomatic Speech Recognition" A. Acero; Cargnie Mell
on University, Department of Electrical andCompute
r Engineering; April 1990; CMU-CS-88-148 [10] "AIX Distributed Environments: NFS, NCS, RPC,
DS Migration, LAN Maintenance and Everything"; IB
M International Technical Support Centers,Publicat
ion GG24-3489, May 8, 1990 [11] "A Tutorial on Hidden Markov Models and Sele
cted Applications inSpeech Recognition"; L. Rabine
r; Readings in Speech Recognition; Ed.: A.Waibel,
K. Lee; Morgan Kaufmann; 1990; pp 267-296 [12] "IBM CallPath DirectTalk/2 General Informati
on and Planning Manual"; International Business Ma
chines publication no. GB35-4403-0; 1991 [13] "A Maximum Likelihood Approach to Continuous
Speech Recognition";L. R. Bahl, F. Jelinek, R. Me
rcer; Readings in Speech Recognition; Ed.:A. Waibe
l, K. Lee; Morgan Kaufmann; 1990; pp 308-319 [14] "Speech Corpora Produced on CD-ROM Media by
The National Institute of Standards and Technology
(NIST)", April, 1991 [15] "DARPA Resource Management Continuous Speech
Database(RMI) Speaker Dependent Training Data",
September 1989 NIST Speech Discs 2-1.1, 2-2.1 (2 D
iscs) NTIS Order No. PB89-226666 [16] "DARPA Resource Management Continuous Speech
Database(RMl) Speaker-Independent Training Data",
November 1989 NIST Speech Disc 2-3.1 (1 Disc) NTIS
Order No.PB90-500539 [17] "DARPA Extended Resource Management Continu
ous Speech Speaker-Dependent Corpus (RM2)", Sepet
mber 1990 NIST Speech Discs 3-1.2, 3-2.2 NTIS Orde
r No. PB90-501776 [18] "DARPA Acoustic-Phonetic Continuous Speech Co
rpus (TIMIT)", October 1990 NIST Speech Disc 1-1.1
NTIS Order No. PB91-0505065 [19] "Studio Quality Speaker-Indpendent Connected-
Digit Corpus(TIDIGITS)", NIST Speech Discs 4-1.1,
4-2.1, 4-3.1 NTIS Order No. PB91-505592 [20] "The Spoken Word", Kai-Fu Lee, et al., Byte M
agazine, JulY 1990, Vol- 15, No. 7; pp. 225-232
【0071】
【発明の効果】電話回線から入力される不特定の話し手
の音声を音声認識するシステムを構築することによっ
て、たとえば、電話による顧客問い合わせ自動応答シス
テムやレストラン電話案内など、従来技法では実現でき
なかった新たなコンピュータ適用業務を開発することが
できる。
の音声を音声認識するシステムを構築することによっ
て、たとえば、電話による顧客問い合わせ自動応答シス
テムやレストラン電話案内など、従来技法では実現でき
なかった新たなコンピュータ適用業務を開発することが
できる。
【図1】 電話チャネル・シミュレータ発明を含む、連
続音声認識システムの論理的構造を図示する。
続音声認識システムの論理的構造を図示する。
【図2】電話の符復号器濾波器インパルス応答を特徴づ
けるグラフである。
けるグラフである。
【図3】振幅特性韻文規格化ラジアン周波数を図示する
グラフである。
グラフである。
【図4】対数振幅特性韻文規格化ラジアン周波数を図示
するグラフである。
するグラフである。
【図5】電話顧客業務通話センタにおける音声認識サー
バのネットワークのブロック図である。
バのネットワークのブロック図である。
【図6】電話から得られる音声に応答するために音声認
識装置を訓練するためのプロセスのステップ流れ図であ
る。
識装置を訓練するためのプロセスのステップ流れ図であ
る。
100 アナログ・デジタル変換 104 ベクトル量子化 105 ベクトル量子化コードブック 192 音素モデル 135 語対文法 132 米語辞書 138 補助辞書 186 Muーlawノイズ 186 Aーlawノイズ 188 電話チャネル・シミュレータ 182 符復号デジタル濾波・速度変換 184 振幅補正(スケーリング) 134 タスク構築プログラム 106 ビーム・サーチ 108 API(適用業務プログラム・インターフェー
ス)
ス)
Claims (7)
- 【請求項1】 電話帯域幅より高い帯域幅の音声認識訓
練プロセッサへの音声データ・セットの入力ステップ
と、 上記音声データ・セットを間引き、上記電話帯域幅を有
する間引かれた音声データ・セットを入手するステップ
と、 帯域通過デジタル濾波器を上記間引かれた音声データ・
セットに適用し、電話機器の電送特性に特性化した、濾
波された音声データ・セットを入手するステップと、 上記濾波された音声データ・セットの振幅を、その最大
ダイナミック・レンジが非圧伸電話音声の最大ダイナミ
ック・レンジと一致するように補正し、振幅幅補正音声
データ・セットを入手するステップと、 上記振幅補正音声データ・セットを、電話システムの圧
伸・非圧伸音声信号シークエンスを表す量子化ノイズを
用いて修正し、修正音声データ・セットを入手するステ
ップと、 上記修正音声データ・セットを音声認識プロセッサに入
力し、統計的パターン・マッチング・ユニットを訓練す
るステップと、 から構成される、電話システムから得られる音声に応答
する音声認識プロセッサを訓練する方法。 - 【請求項2】 上記電話帯域幅が上記音声幅の高位帯域
より低い帯域である上記請求項1記載の方法。 - 【請求項3】 上記帯域通過デジタル濾波器が最大平坦
設計アルゴリズムを備え持つ上記請求項1記載の方法。 - 【請求項4】 上記音声データ・セット振幅補正の結
果、最大ダイナミック・レンジが非圧伸mu−law電
話音声の最大ダイナミック・レンジに一致する上記請求
項1の記載方法。 - 【請求項5】 上記音声データ・セット振幅補正の結
果、最大ダイナミック・レンジが非圧伸A−law電話
音声の最大ダイナミック・レンジに一致する上記請求項
1記載の方法。 - 【請求項6】 上記音声データ・セット修正ステップが
mu−lawノイズとしての量子化ノイズを用いる上記
請求項1記載の方法。 - 【請求項7】 上記音声データ・セット修正ステップが
A−lawノイズとしての量子化ノイズを用いる上記請
求項1記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US94803192A | 1992-09-21 | 1992-09-21 | |
US07/948,031 | 1992-09-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06204952A JPH06204952A (ja) | 1994-07-22 |
JP2524472B2 true JP2524472B2 (ja) | 1996-08-14 |
Family
ID=25487148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5219208A Expired - Lifetime JP2524472B2 (ja) | 1992-09-21 | 1993-08-12 | 電話回線利用の音声認識システムを訓練する方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5475792A (ja) |
JP (1) | JP2524472B2 (ja) |
Families Citing this family (136)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2280820A (en) * | 1993-07-29 | 1995-02-08 | Ibm | Distributed system for call processing |
US5790754A (en) * | 1994-10-21 | 1998-08-04 | Sensory Circuits, Inc. | Speech recognition apparatus for consumer electronic applications |
US5940793A (en) | 1994-10-25 | 1999-08-17 | British Telecommunications Public Limited Company | Voice-operated services |
US5752232A (en) * | 1994-11-14 | 1998-05-12 | Lucent Technologies Inc. | Voice activated device and method for providing access to remotely retrieved data |
US5845246A (en) * | 1995-02-28 | 1998-12-01 | Voice Control Systems, Inc. | Method for reducing database requirements for speech recognition systems |
US5774841A (en) * | 1995-09-20 | 1998-06-30 | The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration | Real-time reconfigurable adaptive speech recognition command and control apparatus and method |
ATE220817T1 (de) * | 1995-12-04 | 2002-08-15 | Jared C Bernstein | Verfahren und vorrichtung zur ermittlung von kombinierten informationen aus sprachsignalen für adaptive interaktion in unterricht und prüfung |
US6832223B1 (en) | 1996-04-23 | 2004-12-14 | Sun Microsystems, Inc. | Method and system for facilitating access to a lookup service |
US6446070B1 (en) | 1998-02-26 | 2002-09-03 | Sun Microsystems, Inc. | Method and apparatus for dynamic distributed computing over a network |
US6708171B1 (en) | 1996-04-23 | 2004-03-16 | Sun Microsystems, Inc. | Network proxy |
US6598094B1 (en) | 1998-03-20 | 2003-07-22 | Sun Microsystems, Inc. | Method and apparatus for determining status of remote objects in a distributed system |
US6272559B1 (en) | 1997-10-15 | 2001-08-07 | Sun Microsystems, Inc. | Deferred reconstruction of objects and remote loading for event notification in a distributed system |
US6938263B2 (en) | 1996-04-23 | 2005-08-30 | Sun Microsystems, Inc. | System and method for facilitating dynamic loading of “stub” information to enable a program operating in one address space to invoke processing of a remote method or procedure in another address space |
US6393497B1 (en) | 1998-03-20 | 2002-05-21 | Sun Microsystems, Inc. | Downloadable smart proxies for performing processing associated with a remote procedure call in a distributed system |
US6560656B1 (en) | 1998-02-26 | 2003-05-06 | Sun Microsystems, Inc. | Apparatus and method for providing downloadable code for use in communicating with a device in a distributed system |
US6578044B1 (en) | 1997-11-17 | 2003-06-10 | Sun Microsystems, Inc. | Method and system for typesafe attribute matching |
US6237024B1 (en) * | 1998-03-20 | 2001-05-22 | Sun Microsystem, Inc. | Method and apparatus for the suspension and continuation of remote processes |
US6421704B1 (en) | 1998-03-20 | 2002-07-16 | Sun Microsystems, Inc. | Method, apparatus, and product for leasing of group membership in a distributed system |
US6138238A (en) | 1997-12-11 | 2000-10-24 | Sun Microsystems, Inc. | Stack-based access control using code and executor identifiers |
US6466947B2 (en) | 1998-03-20 | 2002-10-15 | Sun Microsystems, Inc. | Apparatus and method for dynamically verifying information in a distributed system |
US6226746B1 (en) | 1998-03-20 | 2001-05-01 | Sun Microsystems, Inc. | Stack-based system and method to combine security requirements of methods |
US6282652B1 (en) | 1998-02-26 | 2001-08-28 | Sun Microsystems, Inc. | System for separately designating security requirements for methods invoked on a computer |
US6182083B1 (en) | 1997-11-17 | 2001-01-30 | Sun Microsystems, Inc. | Method and system for multi-entry and multi-template matching in a database |
US6438614B2 (en) | 1998-02-26 | 2002-08-20 | Sun Microsystems, Inc. | Polymorphic token based control |
US6487607B1 (en) | 1998-02-26 | 2002-11-26 | Sun Microsystems, Inc. | Methods and apparatus for remote method invocation |
US6185611B1 (en) | 1998-03-20 | 2001-02-06 | Sun Microsystem, Inc. | Dynamic lookup service in a distributed system |
US6463446B1 (en) | 1998-02-26 | 2002-10-08 | Sun Microsystems, Inc. | Method and apparatus for transporting behavior in an event-based distributed system |
US6247026B1 (en) | 1996-10-11 | 2001-06-12 | Sun Microsystems, Inc. | Method, apparatus, and product for leasing of delegation certificates in a distributed system |
CA2252664C (en) | 1996-04-26 | 2002-04-02 | At&T Corp. | Method and apparatus for data transmission using multiple transmit antennas |
US5832441A (en) * | 1996-09-16 | 1998-11-03 | International Business Machines Corporation | Creating speech models |
WO1998014934A1 (en) * | 1996-10-02 | 1998-04-09 | Sri International | Method and system for automatic text-independent grading of pronunciation for language instruction |
US6237009B1 (en) | 1996-10-11 | 2001-05-22 | Sun Microsystems, Inc. | Lease renewal service |
US6728737B2 (en) | 1996-10-11 | 2004-04-27 | Sun Microsystems, Inc. | Method and system for leasing storage |
US5832529A (en) | 1996-10-11 | 1998-11-03 | Sun Microsystems, Inc. | Methods, apparatus, and product for distributed garbage collection |
US6157913A (en) * | 1996-11-25 | 2000-12-05 | Bernstein; Jared C. | Method and apparatus for estimating fitness to perform tasks based on linguistic and other aspects of spoken responses in constrained interactions |
US6665639B2 (en) * | 1996-12-06 | 2003-12-16 | Sensory, Inc. | Speech recognition in consumer electronic products |
US5960399A (en) * | 1996-12-24 | 1999-09-28 | Gte Internetworking Incorporated | Client/server speech processor/recognizer |
US5913195A (en) * | 1996-12-27 | 1999-06-15 | Intervoice Limited Partnership | System and method for developing VRU voice dialogue |
US8209184B1 (en) | 1997-04-14 | 2012-06-26 | At&T Intellectual Property Ii, L.P. | System and method of providing generated speech via a network |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
US6856960B1 (en) * | 1997-04-14 | 2005-02-15 | At & T Corp. | System and method for providing remote automatic speech recognition and text-to-speech services via a packet network |
US6236715B1 (en) | 1997-04-15 | 2001-05-22 | Nortel Networks Corporation | Method and apparatus for using the control channel in telecommunications systems for voice dialing |
US6192338B1 (en) * | 1997-08-12 | 2001-02-20 | At&T Corp. | Natural language knowledge servers as network resources |
US6313765B1 (en) | 1997-10-10 | 2001-11-06 | L-3 Communications Corporation | Method for sample rate conversion of digital data |
US6957427B1 (en) | 1997-10-15 | 2005-10-18 | Sun Microsystems, Inc. | Remote object activation in a distributed system |
US6253256B1 (en) | 1997-10-15 | 2001-06-26 | Sun Microsystems, Inc. | Deferred reconstruction of objects and remote loading in a distributed system |
US6182038B1 (en) * | 1997-12-01 | 2001-01-30 | Motorola, Inc. | Context dependent phoneme networks for encoding speech information |
EP1058883A2 (en) | 1998-02-26 | 2000-12-13 | Sun Microsystems, Inc. | Method and system for deterministic hashes to identify remote methods |
US6604127B2 (en) | 1998-03-20 | 2003-08-05 | Brian T. Murphy | Dynamic lookup service in distributed system |
US7006967B1 (en) * | 1999-02-05 | 2006-02-28 | Custom Speech Usa, Inc. | System and method for automating transcription services |
US6195636B1 (en) * | 1999-02-19 | 2001-02-27 | Texas Instruments Incorporated | Speech recognition over packet networks |
US6901518B1 (en) | 1999-04-08 | 2005-05-31 | Sun Microsystems, Inc. | Method and system for establishing trust in downloaded proxy code |
US6877163B1 (en) | 1999-06-14 | 2005-04-05 | Sun Microsystems, Inc. | Method and system for dynamic proxy classes |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US6615172B1 (en) | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
US6535850B1 (en) | 2000-03-09 | 2003-03-18 | Conexant Systems, Inc. | Smart training and smart scoring in SD speech recognition system with user defined vocabulary |
US6792466B1 (en) | 2000-05-09 | 2004-09-14 | Sun Microsystems, Inc. | Trusted construction of message endpoints in a distributed computing environment |
US6868447B1 (en) | 2000-05-09 | 2005-03-15 | Sun Microsystems, Inc. | Mechanism and apparatus for returning results of services in a distributed computing environment |
US8082491B1 (en) | 2000-05-09 | 2011-12-20 | Oracle America, Inc. | Dynamic displays in a distributed computing environment |
US6918084B1 (en) | 2000-05-09 | 2005-07-12 | Sun Microsystems, Inc. | Spawning new repository spaces using information provided in advertisement schema messages |
US7072967B1 (en) | 2000-05-09 | 2006-07-04 | Sun Microsystems, Inc. | Efficient construction of message endpoints |
US6973493B1 (en) | 2000-05-09 | 2005-12-06 | Sun Microsystems, Inc. | Mechanism and apparatus for security of newly spawned repository spaces in a distributed computing environment |
US7016966B1 (en) | 2000-05-09 | 2006-03-21 | Sun Microsystems, Inc. | Generating results gates in a distributed computing environment |
US7080078B1 (en) | 2000-05-09 | 2006-07-18 | Sun Microsystems, Inc. | Mechanism and apparatus for URI-addressable repositories of service advertisements and other content in a distributed computing environment |
US6950875B1 (en) | 2000-05-09 | 2005-09-27 | Sun Microsystems, Inc. | Message conductors in a distributed computing environment |
US7188251B1 (en) | 2000-05-09 | 2007-03-06 | Sun Microsystems, Inc. | System and method for secure message-based leasing of resources in a distributed computing environment |
US6898618B1 (en) | 2000-05-09 | 2005-05-24 | Sun Microsystems, Inc. | Client-specified display services in a distributed computing environment |
US7200848B1 (en) | 2000-05-09 | 2007-04-03 | Sun Microsystems, Inc. | Migrating processes using data representation language representations of the processes in a distributed computing environment |
US8135796B1 (en) | 2000-05-09 | 2012-03-13 | Oracle America, Inc. | Mechanism and apparatus for accessing and addressing services in a distributed computing environment |
US7370091B1 (en) | 2000-05-09 | 2008-05-06 | Sun Microsystems, Inc. | Method and apparatus for obtaining space advertisements |
US6862594B1 (en) | 2000-05-09 | 2005-03-01 | Sun Microsystems, Inc. | Method and apparatus to discover services using flexible search criteria |
US6970869B1 (en) | 2000-05-09 | 2005-11-29 | Sun Microsystems, Inc. | Method and apparatus to discover services and negotiate capabilities |
US7716492B1 (en) | 2000-05-09 | 2010-05-11 | Oracle America, Inc. | Method and apparatus to obtain service capability credentials |
US7010573B1 (en) | 2000-05-09 | 2006-03-07 | Sun Microsystems, Inc. | Message gates using a shared transport in a distributed computing environment |
US7065574B1 (en) | 2000-05-09 | 2006-06-20 | Sun Microsystems, Inc. | Messaging system using pairs of message gates in a distributed computing environment |
US7577834B1 (en) | 2000-05-09 | 2009-08-18 | Sun Microsystems, Inc. | Message authentication using message gates in a distributed computing environment |
US6789077B1 (en) | 2000-05-09 | 2004-09-07 | Sun Microsystems, Inc. | Mechanism and apparatus for web-based searching of URI-addressable repositories in a distributed computing environment |
US7243356B1 (en) | 2000-05-09 | 2007-07-10 | Sun Microsystems, Inc. | Remote method invocation with secure messaging in a distributed computing environment |
US6789126B1 (en) | 2000-05-09 | 2004-09-07 | Sun Microsystems, Inc. | Addressing message gates in a distributed computing environment |
US7260543B1 (en) | 2000-05-09 | 2007-08-21 | Sun Microsystems, Inc. | Automatic lease renewal with message gates in a distributed computing environment |
US6850979B1 (en) | 2000-05-09 | 2005-02-01 | Sun Microsystems, Inc. | Message gates in a distributed computing environment |
US8001232B1 (en) | 2000-05-09 | 2011-08-16 | Oracle America, Inc. | Event message endpoints in a distributed computing environment |
US6643650B1 (en) | 2000-05-09 | 2003-11-04 | Sun Microsystems, Inc. | Mechanism and apparatus for using messages to look up documents stored in spaces in a distributed computing environment |
US6917976B1 (en) | 2000-05-09 | 2005-07-12 | Sun Microsystems, Inc. | Message-based leasing of resources in a distributed computing environment |
US7395333B1 (en) | 2000-05-09 | 2008-07-01 | Sun Microsystems, Inc. | Method and apparatus to obtain negotiated service advertisement |
US6941410B1 (en) | 2000-06-02 | 2005-09-06 | Sun Microsystems, Inc. | Virtual heap for a virtual machine |
US6854115B1 (en) | 2000-06-02 | 2005-02-08 | Sun Microsystems, Inc. | Process persistence in a virtual machine |
US6763440B1 (en) | 2000-06-02 | 2004-07-13 | Sun Microsystems, Inc. | Garbage collection using nursery regions for new objects in a virtual heap |
US6865657B1 (en) | 2000-06-02 | 2005-03-08 | Sun Microsystems, Inc. | Garbage collector for a virtual heap |
US6957237B1 (en) | 2000-06-02 | 2005-10-18 | Sun Microsystems, Inc. | Database store for a virtual heap |
US6760815B1 (en) | 2000-06-02 | 2004-07-06 | Sun Microsystems, Inc. | Caching mechanism for a virtual heap |
US7047196B2 (en) | 2000-06-08 | 2006-05-16 | Agiletv Corporation | System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery |
US7047197B1 (en) | 2000-09-29 | 2006-05-16 | Intel Corporation | Changing characteristics of a voice user interface |
US7212969B1 (en) * | 2000-09-29 | 2007-05-01 | Intel Corporation | Dynamic generation of voice interface structure and voice content based upon either or both user-specific contextual information and environmental information |
US6694294B1 (en) * | 2000-10-31 | 2004-02-17 | Qualcomm Incorporated | System and method of mu-law or A-law compression of bark amplitudes for speech recognition |
US7296275B2 (en) | 2001-01-04 | 2007-11-13 | Sun Microsystems, Inc. | Method and system for passing objects in a distributed system using serialization contexts |
US6681207B2 (en) * | 2001-01-12 | 2004-01-20 | Qualcomm Incorporated | System and method for lossy compression of voice recognition models |
US8095370B2 (en) | 2001-02-16 | 2012-01-10 | Agiletv Corporation | Dual compression voice recordation non-repudiation system |
US6785647B2 (en) * | 2001-04-20 | 2004-08-31 | William R. Hutchison | Speech recognition system with network accessible speech processing resources |
US7660887B2 (en) | 2001-09-07 | 2010-02-09 | Sun Microsystems, Inc. | Systems and methods for providing dynamic quality of service for a distributed system |
US7756969B1 (en) | 2001-09-07 | 2010-07-13 | Oracle America, Inc. | Dynamic provisioning of identification services in a distributed system |
CN1295674C (zh) * | 2002-03-27 | 2007-01-17 | 诺基亚有限公司 | 模式识别 |
US7072834B2 (en) * | 2002-04-05 | 2006-07-04 | Intel Corporation | Adapting to adverse acoustic environment in speech processing using playback training data |
US20030191639A1 (en) * | 2002-04-05 | 2003-10-09 | Sam Mazza | Dynamic and adaptive selection of vocabulary and acoustic models based on a call context for speech recognition |
US20040004599A1 (en) * | 2002-07-03 | 2004-01-08 | Scott Shepard | Systems and methods for facilitating playback of media |
US20040006748A1 (en) * | 2002-07-03 | 2004-01-08 | Amit Srivastava | Systems and methods for providing online event tracking |
US20040176946A1 (en) * | 2002-10-17 | 2004-09-09 | Jayadev Billa | Pronunciation symbols based on the orthographic lexicon of a language |
US7349836B2 (en) * | 2003-12-12 | 2008-03-25 | International Business Machines Corporation | Method and process to generate real time input/output in a voice XML run-time simulation environment |
US20050171781A1 (en) * | 2004-01-08 | 2005-08-04 | Poploskie Jon M. | Speech information system |
US7792874B1 (en) | 2004-01-30 | 2010-09-07 | Oracle America, Inc. | Dynamic provisioning for filtering and consolidating events |
CN101014997B (zh) | 2004-02-18 | 2012-04-04 | 皇家飞利浦电子股份有限公司 | 用于生成用于自动语音识别器的训练数据的方法和*** |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
WO2008100518A1 (en) * | 2007-02-13 | 2008-08-21 | Ntera Limited | Voltage feedback circuit for active matrix reflective display devices |
US20080273672A1 (en) * | 2007-05-03 | 2008-11-06 | Microsoft Corporation | Automated attendant grammar tuning |
US8615397B2 (en) * | 2008-04-04 | 2013-12-24 | Intuit Inc. | Identifying audio content using distorted target patterns |
US9058818B2 (en) * | 2009-10-22 | 2015-06-16 | Broadcom Corporation | User attribute derivation and update for network/peer assisted speech coding |
US20140095161A1 (en) * | 2012-09-28 | 2014-04-03 | At&T Intellectual Property I, L.P. | System and method for channel equalization using characteristics of an unknown signal |
US10141009B2 (en) | 2016-06-28 | 2018-11-27 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
US9824692B1 (en) | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
US10325601B2 (en) | 2016-09-19 | 2019-06-18 | Pindrop Security, Inc. | Speaker recognition in the call center |
US10553218B2 (en) | 2016-09-19 | 2020-02-04 | Pindrop Security, Inc. | Dimensionality reduction of baum-welch statistics for speaker recognition |
CA3179080A1 (en) | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
US10397398B2 (en) | 2017-01-17 | 2019-08-27 | Pindrop Security, Inc. | Authentication using DTMF tones |
US10373630B2 (en) * | 2017-03-31 | 2019-08-06 | Intel Corporation | Systems and methods for energy efficient and low power distributed automatic speech recognition on wearable devices |
DK179496B1 (en) * | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11355103B2 (en) | 2019-01-28 | 2022-06-07 | Pindrop Security, Inc. | Unsupervised keyword spotting and word discovery for fraud analytics |
US11019201B2 (en) | 2019-02-06 | 2021-05-25 | Pindrop Security, Inc. | Systems and methods of gateway detection in a telephone network |
US11646018B2 (en) * | 2019-03-25 | 2023-05-09 | Pindrop Security, Inc. | Detection of calls from voice assistants |
US12015637B2 (en) | 2019-04-08 | 2024-06-18 | Pindrop Security, Inc. | Systems and methods for end-to-end architectures for voice spoofing detection |
CN110459205B (zh) * | 2019-09-24 | 2022-04-12 | 京东科技控股股份有限公司 | 语音识别方法及装置、计算机可存储介质 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4144582A (en) * | 1970-12-28 | 1979-03-13 | Hyatt Gilbert P | Voice signal processing system |
GB1435779A (en) * | 1972-09-21 | 1976-05-12 | Threshold Tech | Word recognition |
US4087630A (en) * | 1977-05-12 | 1978-05-02 | Centigram Corporation | Continuous speech recognition apparatus |
DE3166082D1 (en) * | 1980-12-09 | 1984-10-18 | Secretary Industry Brit | Speech recognition systems |
US4481593A (en) * | 1981-10-05 | 1984-11-06 | Exxon Corporation | Continuous speech recognition |
US4489435A (en) * | 1981-10-05 | 1984-12-18 | Exxon Corporation | Method and apparatus for continuous word string recognition |
US4720802A (en) * | 1983-07-26 | 1988-01-19 | Lear Siegler | Noise compensation arrangement |
US4718088A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition training method |
CA1220282A (en) * | 1985-04-03 | 1987-04-07 | Northern Telecom Limited | Transmission of wideband speech signals |
DE3674694D1 (de) * | 1985-08-20 | 1990-11-08 | Nat Res Dev | Einrichtung und verfahren zur spracherkennung. |
US4897878A (en) * | 1985-08-26 | 1990-01-30 | Itt Corporation | Noise compensation in speech recognition apparatus |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
GB8608289D0 (en) * | 1986-04-04 | 1986-05-08 | Pa Consulting Services | Noise compensation in speech recognition |
US4856066A (en) * | 1986-11-06 | 1989-08-08 | Lemelson Jerome H | Speech communication system and method |
GB8702910D0 (en) * | 1987-02-10 | 1987-03-18 | British Telecomm | Multi-user speech recognition system |
US4805218A (en) * | 1987-04-03 | 1989-02-14 | Dragon Systems, Inc. | Method for speech analysis and speech recognition |
NL8700985A (nl) * | 1987-04-27 | 1988-11-16 | Philips Nv | Systeem voor sub-band codering van een digitaal audiosignaal. |
US4829572A (en) * | 1987-11-05 | 1989-05-09 | Andrew Ho Chung | Speech recognition system |
US4933973A (en) * | 1988-02-29 | 1990-06-12 | Itt Corporation | Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems |
US4956871A (en) * | 1988-09-30 | 1990-09-11 | At&T Bell Laboratories | Improving sub-band coding of speech at low bit rates by adding residual speech energy signals to sub-bands |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5036538A (en) * | 1989-11-22 | 1991-07-30 | Telephonics Corporation | Multi-station voice recognition and processing system |
-
1993
- 1993-08-12 JP JP5219208A patent/JP2524472B2/ja not_active Expired - Lifetime
-
1994
- 1994-02-24 US US08/201,157 patent/US5475792A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH06204952A (ja) | 1994-07-22 |
US5475792A (en) | 1995-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2524472B2 (ja) | 電話回線利用の音声認識システムを訓練する方法 | |
JP2818362B2 (ja) | 音声認識装置のコンテキスト切換えシステムおよび方法 | |
US5615296A (en) | Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors | |
US7630878B2 (en) | Speech recognition with language-dependent model vectors | |
Xiong et al. | Phonetic analysis of dysarthric speech tempo and applications to robust personalised dysarthric speech recognition | |
US5865626A (en) | Multi-dialect speech recognition method and apparatus | |
JPH06214587A (ja) | 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法 | |
US20030154080A1 (en) | Method and apparatus for modification of audio input to a data processing system | |
WO1996003741A1 (en) | System and method for facilitating speech transcription | |
WO1996003741A9 (en) | System and method for facilitating speech transcription | |
CN110570842B (zh) | 基于音素近似度和发音标准度的语音识别方法及*** | |
Kumar et al. | Continuous hindi speech recognition using monophone based acoustic modeling | |
Karpagavalli et al. | Phoneme and word based model for tamil speech recognition using GMM-HMM | |
Ramabhadran et al. | Acoustics-only based automatic phonetic baseform generation | |
Dumitru et al. | A comparative study of feature extraction methods applied to continuous speech recognition in romanian language | |
Adetunmbi et al. | Development of Standard Yorùbá speech-to-text system using HTK | |
Touazi et al. | An experimental framework for Arabic digits speech recognition in noisy environments | |
Steinbiss et al. | Continuous speech dictation—From theory to practice | |
Kotnik et al. | Efficient noise robust feature extraction algorithms for distributed speech recognition (DSR) systems | |
Lee | The conversational computer: an apple perspective. | |
Prasangini et al. | Sinhala speech to sinhala unicode text conversion for disaster relief facilitation in sri lanka | |
Ananthakrishna et al. | Effect of time-domain windowing on isolated speech recognition system performance | |
Karpov et al. | Speech Interface for Internet Service “Yellow Pages” | |
Delić et al. | A Review of AlfaNum Speech Technologies for Serbian, Croatian and Macedonian | |
Furui | Toward the ultimate synthesis/recognition system. |