JP2524472B2

JP2524472B2 - 電話回線利用の音声認識システムを訓練する方法

Info

Publication number: JP2524472B2
Application number: JP5219208A
Authority: JP
Inventors: エムスタンフォードビンス; エフブリックマンノーマン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1992-09-21
Filing date: 1993-08-12
Publication date: 1996-08-14
Anticipated expiration: 2011-08-14
Also published as: JPH06204952A; US5475792A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、公衆電話交換回線を利
用する音声認識システムに関するものである。

【０００２】

【従来の技術】音声認識システムは、よく知られている
技術である。ＩＢＭタンゴラ(Tangora)[13]（本願書文
末記載の参照文献の番号で、以下同様に表記する）およ
びドラゴン・システム・ドラゴン３０ｋ口述システムは
その例である。それらは、典型的な単一ユーザおよび話
し手依存型システムである。これは、プロセスが「登
録」と呼ばれるプロセスの間に、話し手の音声パターン
で音声認識装置を訓練することを各話し手に要求する。
将来の認識セッションの中で話し手自身をシステムが識
別しなければならないのでシステムは話し手のプロファ
イルを維持する。典型的には、話し手は低レベル雑音シ
ステム環境の中でローカル・マイクを通して認識システ
ムが常駐する単一の機械に話しかけながら登録を行う。
登録作業の間、その話し手は、長ったらしい原稿を読む
ことを要求されるが、それ故に、そのシステムは各話し
手の特色に順応することができることとなる。独立し
た口述システム（たとえば、上記の２つのシステム）
は、話し手にたどたどしい、不自然な形で、すなわち、
語と語の間にポーズをいれながら、各語を形づくること
を要求する。これにより、音声認識システムは、語の境
界となる、先行および後続の無音を利用し、各個人の語
に連想される音声パターンを識別することが可能とな
る。典型的音声認識システムは、（たとえば、ＩＢＭ
タンゴラシステムの Office Correspondence の場合の
ように）単一の機械上で作動し、訓練された単一の適用
業務を持つ。

【０００３】話し手依存型音声認識装置をもつマルチ・
ユーザ・システム環境は、各話し手にその音声パターン
をシステムに理解させるための退屈な訓練に従事するこ
とを要求する。話し手の電話番号によってシステムがど
の音声テンプレートを使用すべきかを知り得る共通デー
タ・ベースに音声テンプレートが格納されているかもし
れないが、それでもなお各話し手は使用の前にそのシス
テムを訓練しなければならない。外部の電話線から接続
してくる新しいシステム利用者は、このプロシージャが
容認できるものでないことを認識する。また、成功した
電話の音声認識システムというものは、様々の分野に関
係する音声を正確に認識するために迅速な文脈切り替え
ができなければならない。たとえば、一般のオフィス通
信のために訓練されたシステムは、数字列の提示の場
合、うまく働かない。

【０００４】Kai-Fu Lee の博士号論文[1]の中で最初に
記述されたスフィンクス(Sphinx)システムは、以前の話
し手依存型認識システムに大きな進歩をもたらした。そ
れは話し手独立型であり、会話音声の連続ストリームか
ら単語を認識することができた。このシステムは、実際
の使用に先立って行われる話し手個々の登録を必要とし
なかった。話し手依存型システムの中には、話し手に4
〜6週毎に再登録することを要求したり、利用者にその
システムが理解するための個人用プラグイン・カートリ
ッジを持ち運ぶことを要求する。連続の音声認識を行う
スフィンクス・システムは、語と語の間の休止を必要と
せず、音声認識システムの一時的ユーザに非常に多くの
親切なアプローチを提供する。認識システムの利便のた
めにどのように音声を調節するかをユーザが訓練しなく
てよいので、この点は、電話の音声認識システムの本質
的な特長である。

【０００５】音声認識システムは、また,与えられたさ
さやかな語彙を使って、実時間処理を提供しなければな
らない。しかし、スフィンクス・システムは、まだ以前
の話し手に依存する認識システムの不利な点をいくつか
持っていた。マイクロホンおよび比較的に制約された語
彙を使用しながら低レベル雑音システム環境の中で単一
機械上で操作するようプログラムされていた。スフィン
クス・システムは、複数ユーザのサポート、少くとも、
異なるロケーションおよび複数の語彙認識に関するサポ
ートを行うようには設計されなかった。

【０００６】

【発明が解決しようとしている課題】本発明は、上記の
従前技術の不利益な点の多くを克服することを目的とす
る。したがって、本発明は、ローカルおよび遠隔地双方
の話し手からの入力を持つ電話機器使用に適した連続音
声話し手独立型音声認識装システムを提供することを目
的とする。

【０００７】低レベル雑音条件の中で集められた語彙を
基に電話システム環境のように高レベル雑音の中での音
声パターンを認識できるようシステムを訓練すること
は、本発明のもうひとつの目的である。

【０００８】複数の音声適用業務が、コンピュータ・ネ
ットワーク上または電話線上で同時に音声認識システム
によって音声認識されるようにすることは、本発明のも
うひとつの目的である。

【０００９】

【課題を解決するための手段】本発明の上記目的は、ロ
ーカル・エリア・ネットワークまたは広域ネットワーク
の上のクライアント・サーバを基に構築される音声認識
システムによって達成される。この音声認識システム
は、アナログまたはディジタル音声データを音声を表わ
す一組のケプストラム係数およびベクトル量子化値に変
換するフロントエンドを含む多くのモジュールに分けら
れる。バックエンドは、ベクトル量子化値を使用して、
その音声の作る文脈と音素モデル(Phoneme Models)と語
対文法(Word Pair Grammars)に従ってその語を認識す
る。語彙を一連の文脈（すなわち、ある特定の語がその
システムによって予期される状況）に分割することによ
って、一層大規模な語彙を、最小限のメモリに収納する
ことができる。ユーザが音声認識作業を進めるにつれ
て、文脈は共通のデータベースから迅速に切り換えられ
る(下記引用Brickmanその他による特許出願参照)。シス
テムは、また、コンピュータ・ネットワーク間および複
数のユーザ適用業務間のインターフェースを備える。

【００１０】このシステムは、文脈のための語対文法を
構築しシステムを訓練する訓練およびタスク構築モジュ
ールを備え持つ。

【００１１】本発明は、電話から得られる音声に応答で
きるよう音声認識システムを訓練するための電話チャネ
ル・シミュレーション・プロセスを含む。その方法は、
音声データ・セットを、電話帯域幅より帯域幅が高い音
声認識訓練・プロセッサに入力することから始める。入
力音声データ・セットは、電話帯域幅を持つ間引かれた
(decimated)音声データを得るために間引かれる。その
後、帯域通過デジタル濾波器(Bandpass Digital Filte
r)を間引かれた音声データ・セットに適用し、電話機器
の伝送特性に特化させる。これにより、濾波された音声
データ・セットが得られる。次に、その濾波された音声
データ・セットの最大ダイナミック・レンジが非圧伸(u
ncompanded)電話音声の最大レンジと一致するように、
振幅補正（スケーリング）を行う。それから、振幅補正
された音声データ・セットは、電話システムの音声信号
を圧伸、非圧伸するシークエンスを表わす量子化ノイズ
によって修正される。そして修正された音声データは、
統計的パターン・マッチング・データ・ユニットを訓練
するために音声認識プロセッサに入力される。上記方法
により、音声認識プロセッサは電話システムからの音声
信号に対して音声認識を実行することができることとな
る。

【００１２】

【実施例】電話ラインによってもらされる帯域幅減衰お
よび雑音は、すべての音声認識システムの正確度を減ず
る。この影響は、瞬間的に認識されなければならない語
彙の大きさに応じて増加する。迅速に切り替え可能な音
声認識文脈の使用はこの発明にとって有用であるが、そ
のために、個々の文脈のサイズが制限されねばならな
い。文脈切り替えは、N.F. Brickmanその他の発明にな
るＩＢＭ出願のアメリカ合衆国特許出願番号947,634"In
stantaneous Context Switching For Speech Recogniti
on Systems"で記述されるており、本明細書においても
参照される。図１は、ハードウェア機械構成から独立し
たＩＢＭ連続音声認識システム（IBM Continuous Speec
h Recognition System のことで、以下ＩＣＳＲＳと呼
ぶ）の論理的構造を図示する。ＩＣＳＲＳは、幅広いレ
ベルで、以下の分野をカバーするコンポーネントから構
成される。

【００１３】データ収集：データは、アナログからディ
ジタル形式にブロック１００で変換されるか、あるいは
電話のデータの場合他のチャネルから潜在的にデマルチ
プレックス(demultiplexed)される。

【００１４】データ圧縮：ＩＣＳＲＳフロントエンドブ
ロック１０２および１０４は、ベクトル量子化ステップ
の間に３００バイト/秒に音声データストリームを調整
し、再標本化し、圧縮する。

【００１５】音声認識：バックエンド１０６は、文法ガ
イド型ビーム・サーチ・アルゴリズムを使用しているパ
ターンマッチング音素モデル１９２によって実際の音声
認識を実行する。音素モデル１９２および語対文法１３
５は共に認識文脈を構成する。バックエンド認識装置の
ひとつまたは複数の事例が、遠隔地であろうがローカル
であろうが音声データを捕捉し圧縮するフロントエンド
事例に配備されることができる。

【００１６】タスク構築：タスク構築コンポーネント１
３０は、認識文脈のオフラインでの構築を可能にし、実
行時で使用のために語対文法をコンパイルし、適切な音
素モデルをそのタスク（文脈）に連結させる。

【００１７】適用業務プログラム・インタフェース（Ａ
ＰＩ）：ＡＰＩ１０８は、データストリーム・コントロ
ール、文脈ローディングおよび起動を可能にするＲＰＣ
(Remote Procedure Call)に基づく認識サービスを提供
する。

【００１８】電話チャネル・シミュレータ：シミュレー
タ１８５は、高帯域、高解像度音声データ・セットを、
音素モデル１９２および電話音声に連結し、減少され
た標本抽出率、圧縮された帯域幅および圧縮されたダイ
ナミック・レンジの電話音声を作り出す。

【００１９】音声認識の間に、ローカル・マイクからの
高帯域声データストリームも電話に関連しているような
低帯域声データストリームも、アナログデジタル変換ブ
ロック１００によって受け取られる。アナログデジタル
変換１００は、ボイス・ワークステーション上のIBM M-
Audio Capture/Playback Cardカード（Ｍ−ＡＣＰＡ）
のようなハードウェア・カードによって実行されること
ができる。Ｍ−ＡＣＰＡは、高帯域または電話帯域幅信
号を処理するデジタル信号処理機構を持ち、ディジタル
に標本化された一連のデータ・ポイントにそれらを変換
する。この変換は、また、デジタルＰＢＸや８ＫＨｚ、
８ビットのＭｕ−Ｌａｗ／Ａ−Ｌａｗ形式で与えられる
電話データストリームによって実行されることもでき
る。

【００２０】本発明では、高帯域を、サンプル率１６キ
ロヘルツ以上と定義する。低レベル帯域幅を、アメリカ
合衆国で一般の電話がデジタル音声に使う８キロヘルツ
以下と定義する。電話システムの中でデジタル情報が個
人の電話交換（ＰＢＸ）から入る可能性があるので、Ａ
／Ｄ変換ブロック１００は、オプションとして必要であ
る。

【００２１】音声認識に対する「フロントエンド」の中
の最初の重要なブロックは、データ条件付け・速度変換
ブロック１０２（Data Conditioning and Rate Convers
ionのことで、以下ＤＣＲＣと呼ぶ）である。Ａ／Ｄ変
換１００からのデジタル化された入力は、４４または８
ＫＨｚである。本発明で間引き(DECIMATION)と呼び使用
する再標本化テクニックは、ＩＥＥＥの文献[2]によっ
て提供されている。ＤＣＲＣ１０２は、デジタル化され
た信号に対しアンチエイリアシング(Anti-aliasing)・
フィルターを使用し標本化を行い、次のステップでの使
用のために、１６ＫＨｚまたは８ＫＨｚデータストリー
ムを作る。ＤＣＲＣおよびベクトル量子化プロセスは、
以下に詳細に記述される。

【００２２】音声認識の中でデータ条件付け・速度変換
の後、音声データは、ベクトル量子化ブロック１０４に
渡される。ベクトル量子化の中でデジタル・データ・ス
トリームは、１秒間の１／５０のフレームに細分化さ
れ、１６ＫＨｚ、１１ＫＨｚおよび８ＫＨｚそれぞれの
標本化率に対し各々３２０個、２２０個および１６０個
の標本となる。本発明の好ましい実施例のひとつでは、
いかなる帯域幅音声信号からも計算される１秒につき１
００フレームがあり、それらは５０パーセント上重ねさ
れ、ハミング・ウィンドウ(Hamming Window)が適用され
る。ハミング・ウィンドウは、文献[3]で定義されてい
る。

【００２３】音声データストリームがフレームに細分化
されたあと、ベクトル量子化ステップは、各フレームか
ら特性を抽出する。ベクトル量子化ステップの抽出部分
で、ＬＰＣケプストラム係数と呼ばれる一連のパラメー
タが、計算される。ケプストラム係数は、パターン認識
のために音声の重要な特性のいくつかを抜き出し、要約
する。データの各フレームの中で、音声の１秒の５０分
の１が、カプセルに入れられる。１秒につき５０のフレ
ームと想定するであろうが、５０パーセントの上重ねが
あるので、１秒につき１００フレームが生成される。ケ
プストラム係数を計算するために、まず（コサイン・ベ
ル-cosine bell-である）ハミング・ウィンドウが、音
声データに適用される。抽出されたデータが、無限時間
連続フーリエ変換にあるようにするために、ハミング・
ウィンドウは、音声データの各フレームのエッジを次第
に減少させる。

【００２４】ハミング・ウィンドウ化されたフレームは
音声スペクトルを平坦にするために、そのＺ変換が１.
０ー０.９７＊ｚ^-1（[1]49ページ参照）であるところの
濾波器を使用して事前に濾波される。それから、１４個
の自己相関係数が計算される。自己相関係数が、文献
[4]の記述でよく知られている方法でケプストラム係数
を計算するために使われる。１３個のケプストラム係数
は、１４個の自己相関係数から引き出される。自己相関
係数の数やケプストラム係数の次元数を変えることは可
能である。これらの係数の統計的特性は、最終的なベク
トル量子化ステップをガイドするために使われる。

【００２５】ベクトル量子化は、訓練プロセス１９０の
中でも同様に使われる。下記の訓練データの調整は、基
本スフィンクス認識エンジンを電話機器上で作動可能と
させる点で、本発明にとって重要である。訓練プロセス
１９０において、１０、０００から１５、０００の間の
センテンスがとられて、フレームに細分化され、そこか
ら自己相関およびケプストラム係数が計算される。参照
文献[5]に記述されるｋ−手法タイプのクラスタリング
・プロシージャを使用して、２５６個のクラスにケプス
トラム・フレーム特性を区分する。これらのケプストラ
ム・クラスターの中央値、およびそのクラス・ラベルが
共に取り出され、これ以後「コード・ブック」と呼ばれ
る。量子化コード・ブック１０５は、音響訓練機能１９
０によって生成される電話音声用コード・ブックを保存
し、また、第２の高帯域音声用コード・ブックをも保存
する。

【００２６】ベクトル量子化の最終的なステップのため
に、どのクラスター中央値がフレーム・ケプストラム係
数に最も近いかを決めるために、ブロック１０４は、上
記のように訓練プロシージャで引き出される量子化コー
ド・ブック１０５のコード・ブックを参照する。現在の
フレームが、コード・ブック値によって表わされたクラ
スに割り当てられる。２５６個のクラスがあるので、Ｖ
Ｑ(Vector Quantization)値は、１バイトで表わされ
る。微分ケプストラムおよびフレームのそのべき乗から
引き出される別の２個の１バイトＶＱ値がある。１秒に
１００回引き出されるた３個の１バイトＶＱ値があり、
その結果、音声データストリームは２、４００ビット
／秒に圧縮される。

【００２７】音声認識装置のためにその音声を特徴づけ
るところの完全に別個のコード・ブックが、電話データ
から引き出され、図１の量子化コード・ブック１０５で
保存されなければならないといううことは、電話音声認
識に関する本発明の一部である。また、対応する音素モ
デルが電話データから引き出され、音素モデル１９２で
保存されなければならないということは、本発明のもう
一つの部分である。標本率減少、帯域幅圧縮およびダイ
ナミック・レンジ圧縮のために、電話音声信号はかなり
変わる。しかし、多大な労力を要する、電話から収集す
る音声標本の使用を必要とせず、高帯域標本を、電話チ
ャネル特性をシミュレートするように処理することがで
きる。これにより、スフィンクス・システムの初期化訓
練で使われた、大規模で既に使用可能の音声データ・フ
ァイルを活用して、電話音声認識を可能となる。電話チ
ャネル・シミュレータは、本発明の対象である。

【００２８】電話チャネル・シミュレーションは、下記
の通り、３つの段階的プロセスで達成される。 1.）電話帯域幅への変換文献[14]から[19]で参照されるように、（たとえば４
４、１００Ｈｚ、あるいは１６、０００Ｈｚで集められ
た１６ビット解像度データのような）高帯域、高解像度
音声データ・セットが図１のブロック１８０への入力と
なる。

【００２９】入力音声データ・セット１８０は、最初
に、図１のブロック１８２の中で[2]で記述の再標本化
プログラムを使用して、８、０００Ｈｚに再標本化され
る。このデータは、図１の機能ブロック１８２で、参
考文献[8]で記述のＭＡＸＦＬＡＴルーチンの修正版を
使用して設計された符復号器帯域濾波器に供給される。
この濾波器は、図２、３および４の中で図示される。こ
の濾波器の通過帯域特性は、現代の米国における電話機
器の中で使われる符号化/復号化濾波器に近似するよう
設計される。通過帯域、３dbポイントおよび移行(TRANS
ITION)帯域幅の設定は、本発明の有効性にとって重要で
ある。ローカル電話回線上の音声に対する良好な認識を
行う認識訓練のための符復号濾波器を設計するのは可能
であるが、遠隔地の電話については難しい。そのような
問題を避けるために、上記の特性は、たとえば、低位の
３dbポイントに対しては３００Ｈｚ、上位の３dbポイン
トに対しては３、６００Ｈｚに設定すべきである。移行
帯域幅は、それぞれ、４００Ｈｚおよび８００Ｈｚでな
ければならない。通過帯域は５００Ｈｚから３、２００
Ｈｚになる。実際の符復号器濾波器の幅に近似するため
に、通過帯域リプルは、全通過帯域にわたり、１単位か
ら０.１パーセント以上の偏差であってはならない。

【００３０】スフィンクス音声認識エンジンおよびタン
ゴラを始めとするその他の音声認識エンジンが線形濾波
器によって提示されるスペクトルのひずみを感知できる
点に、注意することは重要である。スペクトルのひずみ
は、主要な音声認識特性（例えばケプストラム）が周波
数スペクトルから引き出されるので、その通過帯域の中
の平坦な周波数応答を持たない。複雑な認識作業につい
ては、いくぶん平坦な通過帯域応答からのマイナーな偏
差が、本願発明者の研究室において観察され、結果とし
て、絶対認識誤り率が数パーセント劣化した。したがっ
て、最大平坦設計アルゴリズムは、必要である。「スペ
クトルの傾き」へのスフィンクス音声認識エンジンの感
度が、参考文献[9]の中で指摘された。したがって、Ｍ
ＡＸＦＬＡＴまたは比較的低レベル通過帯域のリップル
設計は、必要とされる。

【００３１】４、１００Ｈｚから８、０００Ｈｚへの再
標本化率変換は、参考文献[8]の中で提供されたＭＡＸ
ＦＬＡＴには過度な要求であり、それは、帯域通過特性
が符復号器帯域濾波器に必要なとき、低通過帯域フィル
ターの設計のためにのみ役立てられる。このルーチンに
対するデザイン特性は、０.５へマップするナイキスト
周波数と１.０へマップする標本化周波数によって、正
規化された周波数の３dbポイントおよび移行帯域幅を表
わす２個のパラメータ、ベータおよびガンマによって与
えられる。Kaiserの参考文献 [8]によって、ガンマは
「０.００５よりあまり小さくない」値に制限されなけ
ればならないことが示唆されている。これより低い値で
は、使われる計算精度浮動小数点数を増やすためにルー
チンの修正が要求であり、そのような濾波器の条件数
は、およそガンマの２乗に反比例するので、フィルター
係数バッファを２００から４０９６に拡張する必要があ
る。このため、４４、１００Ｈｚから８、０００Ｈｚへ
の変換に必要となる０.０５の約１０分の１または０.０
０５のガンマ値をもつ濾波器とした。２個の低域濾波器
設計、低域から高域通過帯域波変換、および、低域と高
域通過波の渦状組合せが、必要な帯域通過特性を実現す
るために要求された。

【００３２】上記フィルター設計の実現によって、４
４、１００Ｈｚデータは、参照文献[2]で記述される再
標本アルゴリズムを使用して、図１の機能ブロック１８
２の中で８、０００Ｈｚに変換され、米国長距離電話機
器のための通過帯域に非常に近い符復号器通過帯域を提
供する。このデータは、下記のステップ２および３に従
って処理され、１６ビットの、低雑音信号となる。

【００３３】同様の通過帯域特性および速度低減削減
は、この訓練テクニックの中で使われる１６、０００Ｈ
ｚ音声サンプルのために必要であるが、例外は、移行バ
ンド要求がそれほど要求していない点と濾波器加重が、
要求された通過帯域平坦度特性を達成するにはさほど必
要とされない点とである。図２、３、４で、事前訓練
再標本化操作の訓練に実行されたのと同様に、符復号器
濾波器のインパルス(Impulse)、マグニチュウド(Magnit
ude)およびログ・マグニチュウド(Log Magnitude) 応答
を再びを示す。２）ダイナミック・レンジを正規化するための振幅補正
（スケーリング）音声標本は、個別に読まれて、図１のブロック１８４
で、１４ビットのダイナミック・レンジにスケーリング
される。３）Ｍｕ−ｌａｗ圧伸各音声標本は、図１のブロック１８６で、参照文献[7]
のような公の文献でよく知られているＭｕ−ｌａｗ圧縮
を使用して１６ビットの精度から８ビットの精度に引き
下げられる。８ビットへ圧縮されたデータは、ふたたび
Ｍｕーｌａｗ公式に従って、１４ビットへ拡大される。

【００３４】この結果、図１ブロック１８８でシミュレ
ートされる電話チャネル音声データ・セットになる。こ
れは、信号強度によって増大、減少する量子化ノイズ・
レベルを持ち、およそ一定のＳ／Ｎ比を維持する。特
に、話し手の声が大きい場合、これは、電話音声信号の
中で聞きとれる「ひび割れ」雑音を導入する。

【００３５】電話データより高域の種々の帯域幅で集め
られるであろう音声データ１８０のこのような処理は、
電話機器での使用のため音声認識装置５０をブロック１
９０で訓練するために使用される。音響訓練１９０は、
図１のブロック１９２の音素モデルと量子化コード・ブ
ック１０５を生成する。これにより、スフィンクス音声
認識エンジンを使用して電話帯域幅での実際的音声認識
を行うことを可能とする。

【００３６】シミュレートされた電話チャネルデータ使
用の認識装置訓練２個のコード・ブック１０５と２個の音素モデル・セッ
ト１９２が作成されるように、２つの訓練セッション、
すなわち電話と高帯域に対するセッションが、実行され
る。高帯域、ローカルな認識あるいは、電話帯域幅など
のユーザの要求に応じてコード・ブック１０５の各セッ
トおよび各音素モデル１９２は、別々にに保管され、実
行される。いずれの帯域幅でも、自己相関係数は、ケプ
ストラム係数を引き出すために抜き出される。そのフレ
ームにもっとも近い係数を類別するために、ケプストラ
ム係数がベクトル量子化１０４によって実行される。こ
のようにして、[1]で記述されるように、各音声時系列
フレームは、そのフレームを表わす３バイトに減じられ
る。

【００３７】量子化の値のセットが、ビーム・サーチ・
プロセス１０６に送り出される。ビーム・サーチ１０６
は、ビタービ(Viterbi)ビーム・サーチと呼ばれる文法
ガイド型「隠れたマルコフ・モデル」(Hidden Markov M
odel)サーチ・プロセスである。この文法ガイド型サー
チは、サーチ・スペースを減らすために語対文法を使
う。

【００３８】本発明のもうひとつの重要な点は、その音
声認識システムがローカルであろうが遠隔地であろう
が、両方の音声を処理することができることである。こ
れは、音声のいずれのタイプもチャネル・シミュレータ
で使われる帯域幅に対応するように、実行時データ条件
づけ・速度変換濾波器の遮断ポイントを２個の帯域幅の
幅が狭い方に近い帯域幅に置くことによって、達成され
る。３dbポイントおよび移行帯域特性は、訓練の中で使
われる電話符復号器濾波器の上位移行帯域の特性に近似
しなければならない。

【００３９】ビーム・サーチ１０６は、そのベクトル量
子化の中で引き出された時系列を語対文法からの語列に
突き合わせ、各文脈を定義する。音声認識サーバは、ユ
ーザ適用業務または音声認識クライアント（ブロック１
１０）とコミュニケートする。本発明の構造は、単数の
バックエンドとコミュニケートする複数のフロントエン
ド（ワークステーション）または複数のバックエンドと
コミュニケートする複数のフロントエンドを持つことが
できる。

【００４０】本発明のシステムは、オペレーションの異
なるレベルのために構成され実行される。非常に高いデ
ータ速度をもつコミュニケーション・ネットワークにつ
いては、フロントエンドでのデータ圧縮のために、音声
標本は、直接バックエンドを実行しているシステムに伝
達されることができる。原デジタル音声データストリー
ムが、複数のユーザ用のバックエンドがあるサーバに送
り出されることができる。電話システムについては、複
数のチャネルが１つのバックエンドへつながるか、また
は、複数のユーザが、フロントエンドおよびバックエン
ド双方にコミュニケートする。

【００４１】本発明でのシステムは、音声認識サーバー
として配備される音声認識機能を中心に主として構成さ
れる。システムは、その時点の文脈として適用業務が選
択する語対文法によってガイドされる。音声認識適用業
務は、初期値設定プロシージャ、ステータス・コードお
よびコマンド[6]のような機能をサポートする適用業務
プログラム・インタフェース(ＡＰＩ)コールをもつ音声
認識システムにインターフェースを持つ。音声認識適用
業務は、音声認識サーバに一定のタイプの操作を要求す
るか、あるいは、ある特定の認識文脈をロードして、必
要なとき、音声認識のための文脈を起動するよう要求す
る。音声認識適用業務が最初に実行されるとき、タスク
は通常サーバによって事前ロードされる。適用業務の活
動の必要に応じて、タスクはその後順に起動される。

【００４２】音声認識サーバ（ブロック１０８）のＡＰ
Ｉコールは、ユーザ適用業務（ブロック１１０）が音声
認識システムのサービスを要請することを可能にする。
ユーザ適用業務プログラム（ブロック１００）は、音声
認識サーバの種々の構成要素と同じコンピューターまた
は異なるコンピューターの上で実行することができる。
同じコンピューター上の場合、適用業務プログラム（ブ
ロック１１０）は、そのオペレーティングシステムでサ
ポートされる共有メモリおよびセマフォを通して音声認
識サーバとインターフェースをとることができる。異な
るコンピュータ上の場合、交信はＲＳ２３２インターフ
ェースあるいは遠隔プロシージャ呼出し（ＲＰＣ）を通
して行われる。ＲＰＣは参照プログラミング文献[10]で
よく知られている。

【００４３】ユーザ適用業務の典型的例には、エグゼク
ティブ情報システム、言葉の照会経由のデータベース・
アクセス、ソフトウェア問題報告システムなどがある。

【００４４】もうひとつの例は、その利点を活用するた
め音声認識サーバへの呼び出しを行う電話回答音声応答
装置（ＶＲＵ）である。ＲＩＳＣＳＹＳＴＥＭ６００
０（TM）およびＯＳ／２（TM）をもつＰＳ／２（TM）
の上でこれらのサーバーは実行された。

【００４５】ＤｉｒｅｃｔＴａｌｋ６０００（TM）
は、同様の電話ＶＲＵシステムである。このＶＲＵシス
テムでは、１本の電話回線を扱うのではなく、（同時に
活動中となる可能性のある２４個の会話チャネルをも
つ）Ｔ１回線処理が必要となる。音声認識サーバ構造
は、ＤｉｒｅｃｔＴａｌｋ（TM）のように大量の電話
適用業務の処理が必要な場合、複数のクライアントを扱
うことができる。ユーザ適用業務は多くの文脈を前も
って登録することができる。レストラン案内、ハードデ
ィスク・ヘルプ・デスク、あるいは、ソフトウェア・ヘ
ルプ・デスクは全て複数の文脈を階層的に事前に登録す
ることができる。各適用業務では、何人かのユーザが、
音声ストリームを入力することができる。各適用業務
は、特特有の音声ストリームのために特有の文脈の下で
音声認識を実行するよう音声認識サーバに指示する。

【００４６】言い換えると、同じＡＰＩを扱う複数のユ
ーザが、１またはおそらくはいくつかの版の音声認識サ
ーバを用いるタスクすべてを登録するであろう。システ
ムは、要請された作業がすでにロードされているかを検
査し、複数のユーザの音声認識タスクが余分にロードさ
れることを回避する。

【００４７】タスク構築（ブロック１３０）は、いくつ
かの基本入力ソースを持つ。２０、０００語の発音をも
つ基本辞書である米語辞書（ブロック１３２）は、その
１つである。補足辞書（ブロック１３８）は、適用業務
特有のもので、基本辞書の中で見つけられなかった語の
発音を追加するためのものである。補足辞書は、典型的
には、特定の適用業務が音声認識のために必要とする固
有名詞、頭字語(ACROMYM)その他から構成される。

【００４８】基本米語辞書（ブロック１３２）は、タス
ク構築プログラム（ブロック１３４）によって求められ
る語および音素を供給する。タスク構築プログラムは、
また、何がそのタスクの下の音声認識サーバによって認
識されることができるかを決めるためにタスクＢＮＦ辞
書（ブロック１３６）から該当するタスクＢａｕｋｕｓ
−ＮａｕｒＦｏｒｍ（ＢＮＦ）文法を引き出す。たと
えば、地域レストラン情報を提供する適用業務の最初の
文脈は、その話し手が希望するレストランのタイプ、た
とえば、フランス、イタリア、中国料理などであるかも
しれない。ひとたびそのタイプが決まれば、次の文脈
は、その特定のカテゴリの中のレストランとなろう。タ
スク構築プログラムは、そのパターン合わせのために必
要なすべての語を見つけるためにＢＮＦを分析し、汎用
の米語辞書(ブロック１３２)から音素表示を引き出す。
必然的に、あらゆる特定適用業務は、そのシステムに加
えられなければならないそれ自身の副語彙を持ち、それ
らは、補足辞書に保存される。たとえば、レストラン・
ヘルプ・デスクの中で、「イタリアン」、「フレン
チ」、「スパニッシュ」などの言葉は、汎用米語辞書で
見つけられるが、レストラン名、とくに外国語で、たと
えば、「Cherchez LesFemmes」、「Chateau Voulez」
や、アメリカのレストランで普通でない名、たとえば、
J. J. Muldoon、は、普通の辞書になく、タスク補足辞
書（ブロック１３８）に加えなければならない。これら
の補足辞書（ブロック１３８）は、また、基本汎用米語
にあるが発音をローカルなものにするためにローカルな
語彙を含めることができる。。

【００４９】タスク構築プログラム（ブロック１３４）
は、入力ＢＮＦ文法を分析して、その文法の中の各語の
リストと次に続くことができるすべての語のサブリスト
を生成する。したがって、その文法の中の各語が、後に
続く適切な語のリストおよび各語の音素表示へのポイン
タを持つ。音素モデル１９２は、種々のＶＱ値を観察す
るである。このマルコフ・モデルは、ＶＱ値（ブロック
１０４）のための、一群の離散的確率分布であり、「隠
れたマルコフ」状態機械が音素の範囲内の特定の状態に
あるとすると、ＶＱ値のオカレンスの確率を与える。
「隠れたマルコフ・モデル」は文献[11]に適切に記述さ
れている。

【００５０】ビーム・サーチ（ブロック１０６）は、訓
練プロセスの間に生成される文脈感知のトリフォン(tri
phones)の大きいテーブルから連結ＨＭＭ音素モデル１
９２でできている語モデルを使用する。この語モデル
が、ＶＱ値の観察された順序を最もよく説明する語順序
の最適推定を行うために使われる。ビーム・サーチ（ブ
ロック１０６）は、そのサーチの中で使われる語をつく
るための音素モデル１９２を選択するために、語文法を
使う。

【００５１】ユーザ適用業務は、音声認識サーバを制御
する。例えば、[12]で記述されるＩＢＭプログラム・プ
ロダクトＤｉｒｅｃｔＴａｌｋ／２(TM)は、電話に
応答しレストラン案内機能をを実行するひとつのユーザ
適用業務となり得る。レストラン案内適用業務は、Ｄｉ
ｒｅｃｔＴａｌｋ／２(TM)を使用し、この適用業務が
１６の文脈を持ち、レストラン案内ヘルプ・デスクの一
部である文脈を事前ロードする要求を起こすことを音声
認識サーバに知らせる。その適用業務が進行するにつれ
て、音声認識サーバの文脈切り替えを要請する。ユーザ
は、電話ヘルプを電話を通して呼び出す。レストラン案
内は、音声認識サーバに最初のレベルの文脈での音声認
識を実行することを要請する。認識サーバとユーザ適用
業務間のＡＰＩ上で制御とデータが交換される。Ｄｉｒ
ｅｃｔＴａｌｋ／２（TM）システムの複数の事例が同
じ音声認識サーバを使用する可能性がある。

【００５２】音声認識サーバは、無声間隔(ユーザが調
整可能で、ほとんど一般に０.６秒）が来るまで音声デ
ータを捕捉する。無声間隔が観察されると、認識は終了
し、話し手の話しが終わったと仮定される。

【００５３】本発明記載の音声認識システムは、複数の
ハードウェア・プラットホームおよび複数のソフトウェ
ア機械構成の上に、複数の実施を可能にするよう基本設
計がなされる。たとえば、１つの可能な構造は、図５の
ように、ローカル・エリア・ネットワーク１６０を通し
て接続されているワークステーションの物理的実施の上
への上記論理的構造５０の物理マッピングを提供する。
この構造の中の各ワークステーション１５０、１５
０’、１５０”は、複数の独立ユーザ適用業務を実行す
ることができ、各々は、スレーブ・プロセッサーとして
の音声認識サーバ５０のマスターとなる。ＰＢＸ１７０
は、外部の電話回線に接続していて、電話帯域幅データ
ストリームを図１の音声認識サーバ５０のアナログ・デ
ジタル変換１００に渡す。認識された音声を表わしてい
るテキストが、ワークステーション１５０、１５０’、
１５０”のユーザ適用業務に音声認識サーバから返され
る。

【００５４】訓練プロセスビーム・サーチ・プロセスでの語モデルとテキストとの
パターン合わせに使われる音素ＨＭＭ１９２のパラメー
タを推定するために、訓練プロシージャは、既知の音声
およびテキスト原稿という大規模辞書を使用する。

【００５５】最初に、その原稿が、訓練セットの語の発
音を表わす音素を汎用米語辞書から検索するために使わ
れる。

【００５６】次に、音素ＨＭＭ１９２のパラメータが、
共調音(coarticulation)効果の効果的な推定を行うため
に、先行および後続音素文脈（トリフォン-triphones-
と呼ばれる）の中で推定される。使われる推定プロシー
ジャは、[11]で記述のBaum-Welch 順方向／逆方向繰返
しアルゴリズムである。訓練されたトリフォンＨＭＭが
訓練セットの中で観察されたＶＱ値時系列を生成したで
あろう確率を最大にするために、ＨＭＭのパラメータ
が、繰り返し調節される。

【００５７】あらゆる「隠れたマルコフ」音素モデルに
は多くのパラメータがあり、各「隠れた」状態機械中に
７つの状態および１２のトランジション・アーク(TRANS
ITION ARC)が存在する。各トランジション・アークに関
連して、３つのコード・ブックの各々の確率分布に、関
連する２５６の離散エレメントがある。訓練プロシージ
ャから生じるトリフォンＨＭＭパラメータは、連続音声
の中に存在する共調音効果を表わすのに必要なトリフォ
ン数を減らすために一定の幅の値の範囲に集められる。

【００５８】訓練は、ローカルな電話交換を通して集め
られる低レベル帯域幅音声およびマイクからの高帯域音
声の組合せによって実行される。高帯域音声は、本発明
に従って、本願書で記述の電話チャネル・シミュレータ
１８５によって処理される。３個のコード・ブックすべ
ては、この段階でコンパイルされる。[1]で記述のよう
に、コード・ブックが、ケプストラム、微分のケプスト
ラム、べきおよび微分のべきを含む。

【００５９】３つのコード・ブックの各々は量子化コー
ド・ブック１０５に保存され、実行時ベクトル量子化プ
ロセスで使われる。ここで、電話ネットワークの効果
が、データの事前処理によってシミュレートされ、公衆
電話ネットワークが調整するのと同じ方法で特性コード
・ブックの統計的属性が調整される。このプロシージャ
をとることによって、米国大陸の様々なロケーションか
らの呼び出しをもつ実際の電話の音声認識の正確度が大
幅に増加した。

【００６０】図６は、たとえばＰＢＸ１７０経由で電話
から得られた音声に応答する音声認識装置５０を訓練す
るための電話チャネル・シミュレーション・プロセス２
００を記述する流れ図である。図６の流れ図は、図５の
データ処理装置５０の上で実行されることができるコン
ピューター・プログラム方法を表わす。

【００６１】プロセス２００は、電話帯域幅より帯域幅
がより高い音声認識訓練プロセッサ５０に音声データ・
セットを入力するステップ２０２で始まる。例となる高
帯域音声データ・セットは、参照文献[14]から[19]で記
述されている。このステップは、図１のデータ入力ブロ
ック１８０に対応する。

【００６２】図６のステップ２０４で、音声データ・セ
ットは、電話帯域幅を持つ間引かれた音声データ・セッ
トを得るために間引かれる。これは、図１の機能ブロッ
ク１８２に対応する。間引かれた音声データ・セット
は、入力音声データ・セットの高い方の帯域幅より低い
帯域幅を持つであろう。間引き(decimation)プロセス
は、参照[2]で記述されている。

【００６３】次に、図６のステップ２０６で、帯域通過
デジタル濾波器を間引かれた音声データ・セットに適用
し、電話機器の伝送特性に特徴づける。これは、図１の
機能ブロック１８２に対応する。これは、濾波された音
声データ・セットを得るために行われる。帯域通過デジ
タル濾波器は、最大平坦設計アルゴリズムを持たなけれ
ばならない。

【００６４】次に、図６の中のステップ２０８で、その
最大ダイナミック・レンジが非圧伸電話音声の最大レン
ジと一致するように、濾波された音声データ・セットの
振幅が、再補正される。これは、図１の機能ブロック１
８４に対応する。これは、振幅再補正音声データ・セッ
トを得るために行われる。このステップの結果、その最
大ダイナミック・レンジは非圧伸Ｍｕーｌａｗ電話音声
の最大ダイナミック・レンジと一致し得る。代わりに、
その最大ダイナミック・レンジは非圧伸Ａーｌａｗ電話
音声の最大ダイナミック・レンジと一致することもでき
る。

【００６５】次に、図６ステップ２１０で、上記補正音
声データ・セットを、電話中の音声信号の圧伸非圧伸の
順序を表わしている量子化ノイズをもって修正する。こ
れは、図１の機能ブロック１８６に対応する。これは、
修正された音声データ・セットを得るために行われる。
修正ステップは、Ｍｕ−ｌａｗノイズとしての量子化ノ
イズを持つことができる。代わりに、修正ステップは、
Ａ−ｌａｗノイズとしての量子化ノイズを持つことがで
きる。

【００６６】次に、図６のステップ２１２では、統計的
パターン・マッチング・データ装置を訓練するために、
音声認識プロセッサ５０へ修正された音声データ・セッ
トを入力する。これは、図１の出力データ・ブロック１
８８に対応する。シミュレートされた電話チャネル音声
１８５が、電話音声特有性を持つ電話コード・ブック１
０５の特性を持つ音素モデル１９２を生成するために、
音響的訓練プロセス１９０によって使われる。

【００６７】次に、図６のステップ２１４で、たとえ
ば、図５のＰＢＸ１７０からの信号のような、電話から
の音声信号に対し、音声認識プロセッサ５０を使って、
音声認識が実行される。

【００６８】電話チャネル・シミュレータ（ブロック１
８５）を使用する高帯域音声の変換は、連続の音声認識
装置に限られてなく、たとえば、IBM Tangora Dictatio
n SystemおよびDragon Systems、ニュートン・マサチュ
ーセッツ、Dragon 30k DictateおよびKurzweil Applied
Intelligence、Voice Report、Waltham、マサチューセ
ッツおよび[20]で記述されるその他のシステム等のよう
な様々な音声認識プロセッサに適用されるということに
留意する必要がある。

【００６９】上記本発明の説明において引用した参照文
献は、以下の通りである。

【００７０】[1] "Large Vocabulary Speaker and Depe
ndent Continuous Speech Recognition: The Sphinx Sy
stem"; Kai-Fu Lee; Cargnie Mellon University, Depa
rtment of Electrical and Computer Engineering; Apr
il 1988; CMU-CS-88-148 [2] "A General Program to Perform Sampling Rate Co
nversion of Data by Rational Ratios"; from "Progra
ms for Digital Signal Processing", Ed.: Digital Si
gnal Processing Committee of the IEEE Acoustics, S
peech, and Signal Processing Society; IEEE Press,
1979; Section 8.2, pp8.2-1 to 8.2-7 by R.E. Crochi
ere [3] "Theory and Application of Digital Signal Pro
cessing" L.R. Rabiner, B. Gold; Prentice Hall, 197
5, pp 91 [4] "Digital Processing of Speech Signals"; Prenti
ce Hall Signal Processing Series; 1978, pp 401-40
2, 411-413 [5] "An Algorithm for Vector Quantizer Design"; Y.
Linde, A. Buzo, R.Gray, IEEE Transactions on Com
munications, Vol. com-28, no. 1, January 1980 [6] "IBM Continuous Speech Recognition System Pro
grammers Guide"; B. Booth; 1992; currently unpubli
shed, available on request. [7] "Digital Telephony and Network Integration";
B. Keiser, E. Strange;Van Nostrand Reinhold Compan
y Inc. 1985.; pp. 26-31 [8] "Design Subroutine (MAXFLAT) for Symmetric FIR
Low Pass Digital Filters with Maximally-Flat Pass
and Stop Bands" from "Programs for DigitalSignal
Processing", Ed.: Digital Signal Processing Commit
tee of the IEEE Acoustics, Speech, and Signal Proc
essing Society; IEEE Press, 1979; Section 5.3, pp
5.3-1 to 5.3-6 by J. Kaiser [9] "Acoustical and Environmental Robustness in Au
tomatic Speech Recognition" A. Acero; Cargnie Mell
on University, Department of Electrical andCompute
r Engineering; April 1990; CMU-CS-88-148 [10] "AIX Distributed Environments: NFS, NCS, RPC,
DS Migration, LAN Maintenance and Everything"; IB
M International Technical Support Centers,Publicat
ion GG24-3489, May 8, 1990 [11] "A Tutorial on Hidden Markov Models and Sele
cted Applications inSpeech Recognition"; L. Rabine
r; Readings in Speech Recognition; Ed.: A.Waibel,
K. Lee; Morgan Kaufmann; 1990; pp 267-296 [12] "IBM CallPath DirectTalk/2 General Informati
on and Planning Manual"; International Business Ma
chines publication no. GB35-4403-0; 1991 [13] "A Maximum Likelihood Approach to Continuous
Speech Recognition";L. R. Bahl, F. Jelinek, R. Me
rcer; Readings in Speech Recognition; Ed.:A. Waibe
l, K. Lee; Morgan Kaufmann; 1990; pp 308-319 [14] "Speech Corpora Produced on CD-ROM Media by
The National Institute of Standards and Technology
(NIST)", April, 1991 [15] "DARPA Resource Management Continuous Speech
Database(RMI) Speaker Dependent Training Data",
September 1989 NIST Speech Discs 2-1.1, 2-2.1 (2 D
iscs) NTIS Order No. PB89-226666 [16] "DARPA Resource Management Continuous Speech
Database(RMl) Speaker-Independent Training Data",
November 1989 NIST Speech Disc 2-3.1 (1 Disc) NTIS
Order No.PB90-500539 [17] "DARPA Extended Resource Management Continu
ous Speech Speaker-Dependent Corpus (RM2)", Sepet
mber 1990 NIST Speech Discs 3-1.2, 3-2.2 NTIS Orde
r No. PB90-501776 [18] "DARPA Acoustic-Phonetic Continuous Speech Co
rpus (TIMIT)", October 1990 NIST Speech Disc 1-1.1
NTIS Order No. PB91-0505065 [19] "Studio Quality Speaker-Indpendent Connected-
Digit Corpus(TIDIGITS)", NIST Speech Discs 4-1.1,
4-2.1, 4-3.1 NTIS Order No. PB91-505592 [20] "The Spoken Word", Kai-Fu Lee, et al., Byte M
agazine, JulY 1990, Vol- 15, No. 7; pp. 225-232

【００７１】

【発明の効果】電話回線から入力される不特定の話し手
の音声を音声認識するシステムを構築することによっ
て、たとえば、電話による顧客問い合わせ自動応答シス
テムやレストラン電話案内など、従来技法では実現でき
なかった新たなコンピュータ適用業務を開発することが
できる。

【図面の簡単な説明】

【図１】電話チャネル・シミュレータ発明を含む、連
続音声認識システムの論理的構造を図示する。

【図２】電話の符復号器濾波器インパルス応答を特徴づ
けるグラフである。

【図３】振幅特性韻文規格化ラジアン周波数を図示する
グラフである。

【図４】対数振幅特性韻文規格化ラジアン周波数を図示
するグラフである。

【図５】電話顧客業務通話センタにおける音声認識サー
バのネットワークのブロック図である。

【図６】電話から得られる音声に応答するために音声認
識装置を訓練するためのプロセスのステップ流れ図であ
る。

【符号の説明】

１００アナログ・デジタル変換１０４ベクトル量子化１０５ベクトル量子化コードブック１９２音素モデル１３５語対文法１３２米語辞書１３８補助辞書１８６Ｍｕーｌａｗノイズ１８６Ａーｌａｗノイズ１８８電話チャネル・シミュレータ１８２符復号デジタル濾波・速度変換１８４振幅補正（スケーリング）１３４タスク構築プログラム１０６ビーム・サーチ１０８ＡＰＩ（適用業務プログラム・インターフェー
ス）

Claims

(57)【特許請求の範囲】

【請求項１】電話帯域幅より高い帯域幅の音声認識訓
練プロセッサへの音声データ・セットの入力ステップ
と、上記音声データ・セットを間引き、上記電話帯域幅を有
する間引かれた音声データ・セットを入手するステップ
と、帯域通過デジタル濾波器を上記間引かれた音声データ・
セットに適用し、電話機器の電送特性に特性化した、濾
波された音声データ・セットを入手するステップと、上記濾波された音声データ・セットの振幅を、その最大
ダイナミック・レンジが非圧伸電話音声の最大ダイナミ
ック・レンジと一致するように補正し、振幅幅補正音声
データ・セットを入手するステップと、上記振幅補正音声データ・セットを、電話システムの圧
伸・非圧伸音声信号シークエンスを表す量子化ノイズを
用いて修正し、修正音声データ・セットを入手するステ
ップと、上記修正音声データ・セットを音声認識プロセッサに入
力し、統計的パターン・マッチング・ユニットを訓練す
るステップと、から構成される、電話システムから得られる音声に応答
する音声認識プロセッサを訓練する方法。
【請求項２】上記電話帯域幅が上記音声幅の高位帯域
より低い帯域である上記請求項１記載の方法。
【請求項３】上記帯域通過デジタル濾波器が最大平坦
設計アルゴリズムを備え持つ上記請求項１記載の方法。
【請求項４】上記音声データ・セット振幅補正の結
果、最大ダイナミック・レンジが非圧伸ｍｕ−ｌａｗ電
話音声の最大ダイナミック・レンジに一致する上記請求
項１の記載方法。
【請求項５】上記音声データ・セット振幅補正の結
果、最大ダイナミック・レンジが非圧伸Ａ−ｌａｗ電話
音声の最大ダイナミック・レンジに一致する上記請求項
１記載の方法。
【請求項６】上記音声データ・セット修正ステップが
ｍｕ−ｌａｗノイズとしての量子化ノイズを用いる上記
請求項１記載の方法。
【請求項７】上記音声データ・セット修正ステップが
Ａ−ｌａｗノイズとしての量子化ノイズを用いる上記請
求項１記載の方法。