JPH08507620A

JPH08507620A - 音声対話式言語指導のための方法及び装置

Info

Publication number: JPH08507620A
Application number: JP6520287A
Authority: JP
Inventors: ルテイスシエフ，デイミトリー; バーンスタイン，ジエアード・シー; チエン，ジヨージ・テイー; ブツツバーガー，ジヨン・ダブリユー
Original assignee: エス・アール・アイ・インターナシヨナル
Priority date: 1993-03-12
Filing date: 1994-03-08
Publication date: 1996-08-13
Also published as: US5634086A; EP0692135A1; WO1994020952A1; EP0692135B1; ATE195605T1; KR960701431A; EP0692135A4; JP3899122B2; DE69425564D1; JP2006048065A; KR100309207B1

Abstract

(57)【要約】音声言語指導方法及び装置では、指導や評価のために文脈に基づいたスピーチ認識を用いる。レッスンでの単語列パターンの範囲に対応する有限状態文法の組（113）が、隠れマルコフ（Markov）モデル（HMM）スピーチ認識器（112）内のHMM探索装置上の制約として用いられる。本発明は対話式決定機構を有するシステムを含む。それは、少なくとも３つのエラー許容レベルを用いて人間を基にした対話式指導における忍耐の自然なレベルをシミュレートする。言語的感知可能な発声終点検出器が、音声発声の終わりを判定して会話スピーチで人間の役をシミュレートするために設けられる。

Description

【発明の詳細な説明】音声対話式言語指導のための方法及び装置本発明の背景この発明はスピーチ認識に関し、特に言語又はスピーチ指導で用いるための隠れマルコフモデル（hidden Markov model）（HMM）に基づいたシステムのタイプに関する。背景として、隠れマルコフモデリングのプロセス上の指導的教授は、ラビナー（Rabiner）らによる１９８６年の論文「隠れマルコフモデルへのイントロダクション（An Introduction to Hidden Markov Models）」、IEEE ASSP Magazine 、１９８６年１月、４〜１６頁に記載されている。隠れマルコフモデルに基づいた種々のスピーチ認識システムが知られており、ここでその詳細を述べる必要はないであろう。そのようなシステムは一般に音素（phoneme）の具現化を用いる。これらの音素は、訓練例の組から評価されたパラメータを有する音声セグメント（異音（allophone）又はもっと一般的に言語音（phone）を含む。）の統計的モデルである。言語音は音素の音響的具現化であり、音素は単語を区別するのに用いることができるスピーチの最小単位であるので、単語のモデルは適当な言語音モデルからネットワークを作ることにより作られる。単語モデルの組を通じて入力スピーチ信号への最も起こり得る経路を探すことにより認識がなされる。公知の隠れマルコフモデルスピーチ認識システムは、マルコフソースとしてのスピーチ導出モデルを基にしている。モデル化されているスピーチ単位は、有限状態機械により表される。ノードに到達するとき各遷移が取る確率を特定することにより、確率分布が各ノードを離れる遷移に関連してくる。出力シンボルに対する確率分布は各ノードに関連する。遷移確率分布は暗黙の内に持続時間をモデル化する。出力シンボル分布は一般にスペクトルのようなスピーチ信号特性をモデル化するのに用いられる。遷移と出力シンボルに対する確率分布は、スピーチのラベル付けされた例を用いて評価される。観測された列を発生する最も高い確率を有するマルコフネットワークを通じて経路を決めることにより、認識がなされる。連続スピーチに対しては、この経路は単語モデルの列に対応するであろう。語彙外スピーチを説明するモデルが知られており、ここでは廃棄言語音モデルというが、しばしば「フィルター」モデルとも言われる。このようなモデルはローズ（Rose）らによる「隠れマルコフモデルを基にしたキーワード認識システム（A Hidden Markov Model Based Keyword Recognition System）」、IEEE ICASS Pのプロシーディング、１９９０年に記載されている。本発明と共に用いられる特定の隠れマルコフモデル認識システムは、デシファー（Decipher）スピーチ認識器であり、これはＳＲＩインターナショナル、メンロパーク（Menlo Park）、カルフォルニアで入手できる。デシファーシステムは、確率的音韻論的情報、文脈依存の異なるレベルを有する音声モデルを訓練できるトレーナー、単語の多重発音、及び認識器を組み込んでいる。共同発明者は本発明の周辺に関連した指導法などの開発について他の論文やレポートを出している。各々は、質問と応答技術の初期のものについて述べている。例えば、「英語発音の自動評価と訓練（Automatic Evaluation and Training in English Pronu nciation）」、Proc．ICSLP 90、１９９０年１１月、神戸、日本、「話し手から独立した連続スピーチ認識の商用応用に向けて（Toward Commercial Applicatio ns of Speaker-Independent Continuous Speech Recognition）」、Speech Tech 91のプロシーディング、１９９１年４月２３日、ニューヨーク、ニューヨーク、及び「音声対話式言語指導システム（A Voice Interactive Language Instruc tion System）」、Eurospeech 91のプロシーディング、ジェノア、イタリア、１９９１年９月２５日を参照せよ。これらの論文は、実演の観測者が経験することを単に記載したものである。他の言語訓練技術も知られている。例えば、エザワ（Ezawa）らによる米国特許第4,969,194号には、言語の発音における利用者の簡単な練習用システムが開示されている。そのシステムではスピーチ認識は出来ないけれども、コンパレーターを用いて信号を基にしたフィードバック機構を有していると思われる。このコンパレーターは、スピーチの幾つかの音響的特徴及びスピーチの基本周波数を基準の組と比較する。オカモト（Okamoto）による米国特許第4,380,438号には、利用者自身のスピーチを記録し再生するために用いられるアナログテープレコーダーのデジタルコントローラーが開示されている。これは認識することはできない。ボグ（Boggs）による米国特許第4,860,360号は、通信チャンネル内の歪みが分析されるスピーチ評価用システムである。その開示は信号分析と歪み測度計算のみに関連しており、どんな既知の語彙に対してもスピーチ信号の整列や認識は行わない。ハーブソン（Harbeson）による米国特許第4,276,445号には、アナログピッチ表示より粗いスピーチ分析システムが記載されている。それが本発明に関連するとは考えられない。ホランド（Holland）らによる米国特許第4,641,343号には、フォルマント（fo rmant）周波数を引き出すアナログシステムが記載されている。このフォルマント周波数は、利用者への基本的な表示のためにマイクロプロセッサーに送られる。唯一のフィードバックは、入力信号から直接計算可能な特徴のグラフィック表現である。スピーチ認識又はその他の如何なる高レベル処理に対する要素も存在しない。ベーカー（Baker）らによる米国特許第4,783,803号には、スピーチ認識装置及び技術が開示されており、これはスピーチの開始を探すべくフレーム間の場所を決めるための手段を含んでいる。この開示には、音響パラメータのみを処理する低レベル音響を基にした終点検出器が含まれるが、より高いレベルでの文脈を感知する終点検出器は可能ではない。必要とされているのは、認識及びフィードバックシステムである。これは、利用者と言語的文脈感知の方法で対話でき、準会話的方法で利用者によるスクリプト（script）の朗読をトラッキングし、適当に表現され自然に聞こえるスピーチで利用者を指導する。本発明の概略本発明によると、指導及び評価のための、特に言語の指導及び言語の流暢さの評価のための言語的文脈感知スピーチ認識を用いた指導システムが提供される。このシステムは、非現地人である利用者の強い外国アクセントを許容する一方、自然な音声対話式方法でレッスン、特に言語レッスンをしてその評価を与えることができる。レッスン資料と指導は種々の方法で学習者に提示でき、これに制限されるものではないが、ビデオ、オーディオ、又は印刷された視覚的テキストを含む。例として、言語指導の特定された用途においては、ある指導は利用者になじみの言語でできる一方、会話及び対話の全体が目標言語、即ち指導言語で行われ得る。予め選択された視覚情報に関連して、システムは訓練を受けている人に聴覚情報を与えることができる。システムは朗読フェーズの間はシステムに記憶されているスクリプトとの比較を基にしたスピーチの選択されたパラメータをモニターしながら、被訓練者である利用者を促してテキストを大声で読むように促す。システムはそれから利用者に可能な応答のリストを与えてある質問を行う。それから、利用者は目標言語で適当な応答を復唱することにより答えるのを期待される。システムは、利用者のまずい発音、休止、およびその他の流暢でないさまにも拘わらず、正確に自然な仕方でスクリプト化されたスピーチを認識でき応答できる。特定の実施例では、レッスン中の単語列パターンの範囲に対応する有限状態文法の組が、ＨＭＭスピーチ認識器内の隠れマルコフモデル（HMM）探索装置上の制約として用いられる。このＨＭＭスピーチ認識器は、目標言語の現地人話者により作られた目標言語によるナレーション（スクリプト）の隠れマルコフモデルの組を含んでいる。他の言語的文脈感知スピーチ認識器は基本的スピーチ認識エンジンとして用いることができるけれども、本発明は好ましくはＳＲＩインターナショナル、メンロパーク、カルフォルニアから入手可能なデシファースピーチ認識器のような言語的文脈感知スピーチ認識器の利用に基づいている。本発明は朗読練習のような練習を通して利用者にペースを示すための機構や対話式決定機構を用いた一群の多重選択質問を含む。この決定機構は少なくとも３つのエラー許容レベルを用いており、それにより、人間を基にした対話式指導における忍耐の自然なレベルをシミュレートする。朗読フェーズに対する機構は、有限状態機械又は少なくとも４つの状態を有する同等物を通じて与えられる。この有限状態機械又はその同等物は、スクリプト中のどんな場所の朗読エラーも認識し、動作の第１組を用いる。対話式質問フェーズに対する関連した機構もまた、少なくとも４つの状態を有するもう一つの有限状態機械を通じて与えられるが、動作の第２組を援用する一方、誤った応答と同様に朗読エラーも認識する。明らかに流暢でないのをモデリングすることは少なくとも休止とスクリプトを外れた発声を含んでいるのであるが、言語的文脈感知スピーチ認識器の一部として、スピーチの確率的モデルがナレーション用のスクリプトを用いることにより簡素化されている。対話式朗読及び質問／応答フェーズと共に、言語的に感知する発声終点検出が、音声発声の終端を判定するのに与えられ、会話スピーチにおける人間の役をシミュレートする。採点システムが与えられ、これは、正しい朗読中の時間部分や対象者の朗読速度と標準の現地人の朗読速度の比や認識された単語ストリーム内の「アルト（al t）」単位（スピーチに対する新しいモデル）の部分に重み付けすることにより、スピーチ及び朗読の熟達度、即ち速度とエラーレートを分析することができる。ＤＳＰ装置又は同等の能力を有するプロセッサーと共に、本発明により特定のレッスンの科目についてのシステムと利用者の間のリアルタイムの会話ができるようになる。本発明は便利にはシステムから離れた場所で電話ネットワークを介して用いることができる。利用者は電話番号を選択することによりシステムにアクセスし、システムとの対話のための視覚的又は記憶された資料を参照する。本発明は添付の図面に関連した以下の詳細な記載を参照することによりよりよく理解されるであろう。図面の簡単な説明図１は本発明によるシステムのブロック図である。図２は本発明で用いられる認識プロセスの機能ブロック図である。図３は本発明に関連して用いられるプロセスの機能ブロック図である。図４Ａ１は本発明に従った装置に埋め込まれたレッスンを通じて利用者にペースを示すプロセスのフローチャートの最初の一部である。図４Ａ２は本発明に従った装置に埋め込まれたレッスンを通じて利用者にペースを示すプロセスのフローチャートの次の一部である。図４Ｂは本発明に従ったトラッキングプロセスのフローチャートである。図５は本発明に従った朗読モードにおいて用いられる文レベル文法の状態図である。図６は本発明に従って用いられる単語レベル文法の状態図である。図７は本発明に従った応答モードにおいて用いられる文レベル文法の状態図である。図８は本発明に従った文法で用いられる「アルト」構造の状態図である。図９は朗読速度の計算器のブロック図である。図１０は朗読技能の計算器のブロック図である。特定の実施例の説明図１を参照すると、本発明による指導装置１０のシステムブロック図が示されており、これは装置１０の近くに位置する利用者１２を指導するため、又は装置１０から離れて位置する利用者１２’を指導し電話１４を介して通信するためのものである。ローカル利用者１２はマイクロフォン１６を通じてシステムと対話でき、スピーカー又はイヤホン１８及び映像モニター（ＣＲＴ）２０を介して指導及びフィードバックされる。リモート利用者１２’は、新聞広告からのような、刊行又は印刷されたテキスト２２を通じて促され、若しくは幾つかの周知又は記憶されたテキストを用いることができる。リモート利用者の電話１４はマルチプレクサー２６を介して電話ネットワーク２４を通じて結ばれる。ローカル利用者のマイクロフォン１６もマルチプレクサー２６に接続される。マルチプレクサー２６の出力はプリアンプ２８に接続され、ローパスフィルター３０を介してアナログ−デジタル変換器３２に接続される。この変換器３２は、ワークステーション又は時分割計算機３６内のデジタル信号処理（ＤＳＰ）サブシステム３４の一部である。ＤＳＰサブシステム３４からの出力は、デジタル−アナログ変換器（ＤＡＣ）３８を介してアンプ４０又は電話ネットワーク２４のどちらか一方又は両方に供給される。これらのアンプ４０及び電話ネットワーク２４は夫々スピーカー１８及び電話１４に接続される。ＣＲＴ２０は一般的にワークステーション３６の映像出力装置である。適当なＤＳＰサブシステムとしては「ソニテックスピリット３０（Sonitech Spirit 30）」ＤＳＰカードがあり、適当なワークステーションとしてはサンマイクロシステムズ（Sun Microsystems）のスパークステーション（SPARCStation）２ユニックスワークステーション（UNIX workstati on）がある。図１に関連した図２を参照すると、基本的システムの基本操作が描かれている。システムは好ましくは、ＳＲＩインターナショナルのデシファーシステムのようなスピーチ認識システムの周りに設けられる。利用者１２は映像又は音によって催促するような剌激に反応してマイクロフォン（ＭＩＣ）１４に話す。マイクロフォン１４の連続的なスピーチ信号は電気的経路を通じて「フロントエンド」信号処理システム４２に送られる。この信号処理システム４２は主にＤＳＰサブシステム３４内に含まれ、マザーワークステーション３６の制御に従う。フロントエンド信号処理システム４２は、特徴抽出をして音響的特徴パラメータをモデル探索器４４に送る。このモデル探索器４４は、隠れマルコフモデルのモデルの組（HMM models）４６の周りに設けられる。モデル探索器４４は、音響的特徴上の「探索」を行う。これらの音響的特徴は、有限状態文法により選択の制限され管理されうる組のみに強制される。従って、ＨＭＭモデル４６と比較すると重要な許容程度が発音の技能において利用者に認められ得る。制限されない文法や語彙の準備されたレッスンの形式のアプリケーションサブシステム４８は、モデル探索器４４と通信する。アプリケーションサブシステム４８は、有限状態文法を探索が行われるモデル探索器４４に供給する。モデル探索器４４は、デシファーのようなスピーチ認識システムに組み込まれた逆トラッキングプロセスを経由してアプリケーションサブシステム４８と逆トラッキングの発生された情報だけでなく認識や非認識をやり取りする。それから、本発明に従って利用者１２と対話する。本発明に関連して用いられるスピーチ処理システムには２つの機能モードがあり、それは訓練モードと認識モードである。図３については、その処理が描かれている。訓練モードでは、訓練スクリプト１０２が訓練母集団１０４内の複数の人に与えられ、その各々は訓練スクリプト１０２に対応する複数のスピーチパターン１０６を作る。訓練スクリプト１０２とスピーチパターン１０６は、索引付けられた組として隠れマルコフモデルトレーナー１０８に与えられ、目標言語スピーチの一般ＨＭＭモデル１１１を作る。このことは、目標言語に対して一回だけ行われるのを要求し、一般には現地人話者といく人かの非現地人話者を使って目標言語スピーチの一般ＨＭＭモデルを発生する。それから、ＨＭＭネットワークモデルコンパイラー１１０は、一般ＨＭＭモデルと予め選択されたスクリプト１１４を入力して、特に予め選択されたスクリプト用のスピーチモデルのネットワーク１１３を作る。ネットワークモデルコンパイラー出力は、隠れマルコフモデルを基にしたスピーチ認識器１１２に与えられる。認識モードでは、予め選択されたスクリプト１１４が被訓練者／利用者又は発音が評価されるべき装置１１６に対して与えられる。この予め選択されたスクリプト１１４は、訓練スクリプト１０２の機能的な一部であるが、選択されたスクリプトの単語１０２を必ずしも含まない。被訓練者／利用者１１６のスピーチは、予め選択されたスクリプト１１４に対応するスピーチパターン１１８の形式をとると推定される。予め選択されたスクリプト１１４と一つのスピーチパターン１１８は、索引付けられた組として隠れマルコフモデルスピーチ認識器１１２に与えられる。現在の各評価期間（言語音長、単語長、句長、又は文長の間の時間）の間、単語が認識器１１２により認識される。評価期間又は前の期間の間に認識された単語の数から、認識得点の組１２０が計算され、ここに記載されたタイプのレッスン制御ユニットとして動作するアプリケーションサブシステム４８（図２）に送られる。得点の組１２０は、逆トレースの発生された情報内で具体化されるときの認識プロセスのスナップショットである。それは、後に説明される決定装置を具体化する有限状態機械を用いるアプリケーションサブシステム４８／レッスン制御ユニットに送られる。ほかの機能の間の有限状態機械は、生得点の組の情報をフィルタリングしてスクリプト化されたレッスンの良好な表現のみを同定する。特に、それは得点の組の一部を同定して、それを基に、朗読速度や朗読の技能を含んだレッスン実技の技能を判定する。図４Ａは、本発明に従った装置に組み込まれたレッスンを通じて利用者にペースを示すプロセスのフローチャートである。それは、アプリケーションサブシステム４８に組み込まれた有限状態機械（ＦＳＭ）として働く。このアプリケーションサブシステム４８は、利用者１２及びレッスン資料の対話を制御する。操作中は、ＦＳＭによりＣＲＴ上に表示できるスクリプトが参照されるか、又は読まれるべき印刷資料が参照される。ｉ＝１の文インデックスとｊ＝１の単語インデックスから始めて（ステップＡ）、トラッキングプロセスが行われる（ステップＢ）。ＦＳＭは利用者がスクリプト中の最後の文を読み終えたか否かを調べ（ステップＣ）、もし真ならばＥＮＤ（エンド）となる（ステップＤ）。そうでなければ、ＦＳＭは利用者がトラッカー（tracker）により検出されたときに休止しているか否か、及び最後のトラッキング操作以後スクリプトから良好な（認識可能な）単語を朗読したか否かを調べる（ステップＥ）。もし真ならば、ＦＳＭは好ましくは、例えば返答「オーケイ」のような、音声又は映像の肯定的返答で応答し（ステップＦ）、ＦＳＭはトラッキングプロセスを繰り返す（ステップＢ）。他方もし、ＦＳＭが最後のトラッキング操作以来利用者がよい単語を朗読後に休止していないことを認めるならば、ＦＳＭは利用者に「Ｐ（ｉ）から読んで下さい。」と言って催促する（ステップＧ）。Ｐ（ｉ）は、トラッキングされてない単語を含んだ句又はその直前の句のスクリプト中の同定された位置の始まりである。トラッキングプロセスは後に再び援用され（ステップＨ）、このときは利用者が有効に一つのペナルティを有する忍耐のレベルである。それからＦＳＭは、この新しいレベルで前のように最後の文の終了を調べ（ステップＩ）、もしスクリプトが終了していたら終わる（ステップＪ）。そうでなければ、ＦＳＭは利用者がトラッキング操作により検出されるとき休止しているか否か、及びスクリプトからの良好な（認識可能な）単語を読んだか否かを調べる（ステップＫ）。もし真ならば、ＦＳＭは好ましくは、例えば返答「オーケイ」のような音声又は映像の肯定返答で応答し（ステップＬ）、新しい文の始まりを調べ（ステップＭ）、もしイエス（yes）ならば、ＦＳＭはトラッキングプロセスを繰り返し（ステップＢ）、もしノー（no）ならば、ＦＳＭは現在の文内のトラッキングを繰り返す（ステップＨ）。もしトラッキング操作により示されているように正しく単語が読まれるならば（ステップＫ）、ＦＳＭは新しい文が始まったか否かを調べる（ステップＮ）。その場合には、ＦＳＭはサイクルを繰り返し、文の初めから読むように利用者に促す（ステップＧ）。もしこれが文の初めでないならば、ＦＳＭは「違います。文はＳ（ｉ）です。Ｐ（ｉ）から読んで下さい。」と言う（ステップＰ）。換言すれば、利用者は文のモデルを与えられ、文の初めから開始すること、即ち再度試みることを促される。催促の後に、トラッキング手続きを再度援用し（ステップＱ）、それから最後の文が話されたか否かを調べる（ステップＲ）。もしイエス（ＹＥＳ）ならば終わり（ステップＳ）、そうでなければ、利用者がスクリプトからの良好な単語を読み終わった後に休止しているのか否かを調べる（ステップＴ）。もし真ならば、ＦＳＭは「ｏｋ」を出し（ステップＵ）、新しい文を調べ（ステップＶ）、もしノー（no）ならば、トラッキングを再び始める（ステップＱへ）。そうでなければ、もし新しい文ならば、トラッキングを忍耐の最高レベルに再設定する（ステップＢ）。もしＦＳＭが良好な単語をトラッキングしてないならば、新しい文が始まったか否かを調べ（ステップＷ）、もしそうならば、初期文位置Ｐ（ｉ）から読むのを始めるように利用者を促す（ステップＧへ）。もしそれが新しい文でないならば、ＦＳＭは「よろしい。よくやった。今度は次の文の初めから読みなさい。（即ち、Ｐ（ｉ＋１））」のような句を述べることにより忍耐の損失を示す（ステップＺ）。文計数指標ｉはそれから１文だけ増加され（ｉ＋１）（ステップＡＡ）、単語計数指標ｊは１にリセットされ（ステップＡＢ）、初期トラッキングプロセスに戻り（ステップＢへ）、ＦＳＭはその忍耐の初期レベルを再び得る。図４Ｂは図４ＡのＦＳＭにより用いられるトラッキングプロセス（ステップＢ、Ｈ、Ｑ）のフロー図である。トラッキングプロセスは、例えば、予め選択されたスクリプトに対応するスピーチパターンの隠れマルコフモデルを用いた入力スピーチの１秒間を調べる（ステップＡＣ）。ＦＳＭはカウンター（ｉとｊ）を現在の位置に更新し（ステップＡＤ）、最後の文が復唱されたか否かを調べる（ステップＡＥ）。もしイエス（yes）ならば、トラッキングプロセスが終わる（ステップＡＦ）。もし最後の文が認識されなければ、ＦＳＭは前の単語から認識された休止言語音の数である休止指標を計算する（ステップＡＧ）。これは、休止の長さを一般的に示すものである。それから、それは現在の位置（ｉ，ｊ）及び練習厳格さレベルに対する休止指標閾値が比較される（ステップＡＨ）。もし休止指標が閾値を越えるならば、トラッキングプロセスは終わる（ステップＡＩ）。もしそうでないならば、ＦＳＭは廃棄指標を計算する（ステップＡＪ）。予め選択されたスクリプトに対応するスピーチを利用者が行わない見込みを一般に示す廃棄指標は、例えば、最後の単語以来認識器により戻された全ての廃棄言語音を合計することにより計算される。廃棄指標はその後廃棄指標閾値と比較される（ステップＡＫ）。この閾値は、練習採点厳格さレベル又はテキスト中の現在の位置の関数である。もし指標が閾値を越えるならば、手続きは終わる（ステップＡＬ）。もしそうでないならば、廃棄密度が計算される（ステップＡＭ）。廃棄密度はスクリプト化された単語の前の数（例えば、５）を調べることにより計算され、認識器により戻された廃棄言語音の数を計数し、それから、廃棄言語音の数を廃棄言語音の数とスクリプト化された単語の数の合計（５）で割る。その商が廃棄密度である。従って、休止長内の変化は廃棄密度に影響しない。廃棄密度はその後廃棄密度閾値（練習厳格さレベル、テキスト位置、又はその両方）と比較される（ステップＡＮ）。もし廃棄密度が閾値を越えると、トラッキングプロセスは終わる（ステップＡＯ）。そうでなければ、トラッキングプロセスは続けられる（ステップＡＣ）。廃棄指標閾値、廃棄密度閾値、及び休止指標閾値は、厳格さのレベル又はテキスト中の位置の関数として可変調節される。調節は利用者、レッスン設計者、又は自動的にシステムにより行うことができる。図５を参照すると、レッスンの朗読フェーズ中の文レベル文法の構造が示されている。文レベル文法や関連する言語的構造は、休止、とぎれ雑音、及び生徒である話し手のスピーチに予期されたその他のスクリプト外のスピーチ現象を許容するのに必要な構造的精巧さを与える。文法はスクリプト化されたスピーチパターンから認識された文１２６、１２８、１３０を分離する「アルト」構造１２２からなる。「アルト」構造１２２（など）の目的は、スクリプト外（非スクリプトの、又はスクリプトされてない）スピーチ又は沈黙（単なる休止ではない）を同定又はそうでなければ説明することである。この沈黙は読み手により朗読又は応答練習中に種々のポイントに朗読中に挿入されがちである。本発明によるアルト構造は隠れマルコフモデルを基にしたスピーチ認識システムにおいて用いることができ、基本的なスピーチ認識器に機能を追加して外部又は非スクリプト入力を明瞭な方法で扱うことができるようにしている。図６を参照すると、朗読モード又は応答モードでの文に対する単語レベル文法の構造が示されている。特定のキーが検出のために探されるという公知の単語レベル文法とは似ていなくて、この文法は明らかに全ての単語の間の流暢でない復唱を予期しており、従って順序づけられた各単語１３６、１３８間のアルト構造１３２、１３４からなる。単語は基本的単位として認識器により戻され得るが、アルト構造は認識器により廃棄言語音及び休止言語音のストリング（ひも）として分析され戻される。これらの言語音はここで更に詳細に述べるようにアルト構造を構成する。これにより、アプリケーションサブシステム４８（図２）は利用者による朗読に関してより高レベルの決定ができるようになる。図７を参照すると、応答モードにおける文レベル文法の構造が示されている。初期アルト１４０は軌線により選択肢としての複数の答え１４２、１４４、１４６、１４８のいずれか一つに接続される。答えの各々は軌線により最終アルト１５０に接続される。この文法は、利用者からの予想外の返答を初期アルト１４０上でループすることにより廃棄し、及び有効な答えの後のスピーチを最終アルト１５０上でループすることにより、又は有効な答えのうちの一つの表現の間に間投詞と休止を受け入れることにより廃棄するためのものである。図８は全てのアルトに共通のアルト構造１５２を示している。アルト構造１５２は隠れマルコフ状態のネットワークである。そのパラメータはスクリプト外スピーチ、沈黙、又は背景ノイズに対応する音響的特徴を説明するものである。それは、初期ノード１６６と終端ノード１６８間の遷移円弧１５８、１６０又は１６２、１６４のどちらかに向かう選択肢に沿った「休止」モデル１５４及び「廃棄」モデル１５６からなる。初期ノード１６６と終端ノード１６８の間には、直接向かう遷移円弧１７０と直接戻る遷移円弧１７２も存在する。休止モデル１５４や廃棄モデル１５６の内部構造は、３つのマルコフ状態と５つの遷移円弧からなり、これは、ＳＲＩインターナショナル、メンロパーク、カルフォルニアで入手可能なデシファースピーチ認識システム内での他の言語音のモデル用に用いられる正確な構造である。休止モデル１５４は（一般に記録された）訓練データの非スピーチセグメント上で訓練された言語音であり、主に沈黙又は訓練データにおいて発生する背景ノイズの例を含む。廃棄言語音に対するモデル１５６は、訓練データからランダムに又は周期的に選択された広い範囲のスピーチ上で訓練された言語音である。十分に訓練された休止モデル言語音１５４と廃棄モデル言語音１５６を有したアルト構造１５２は、内部で遷移円弧により接続され、以下の起こり得る事象の全てを可能にする。即ち、引き延ばされた沈黙（休止言語音１５４や戻り円弧１７２を介しての多重ループ）、引き延ばされたスクリプト外スピーチ（廃棄言語音１５６や戻り円弧１７２を介しての多重ループ）、沈黙とスクリプト外スピーチの交互の周期、及び休止無し且つスクリプト外スピーチ無し（進行遷移円弧１７０上のバイパス）である。休止言語音１５４や廃棄言語音１５６に導く初期遷移円弧１５８又は１６２は、各々０．５の確率で等しく重みづけされた発明の一つの実施例である。図９を参照すると、本発明による朗読速度計算器１８０が示されている。それは、アプリケーションサブシステム４８（有限状態機械）から得点の組１２０の一部（データのアレイ）１８２を受け取る。これは、タイプ（単語、休止要素、廃棄要素）及び時間上の位置、並びにタイミングに関係したものにより良好なスピーチの要素を同定する。確率情報は利用可能であるが使用する必要はない。朗読速度は「良好な」単語を計数する単語カウンター１８４とタイマー１８６を用いて引き出される。このタイマー１８６は、フィルタリングされた（良好な）単語を含む句の持続時間を測定又は計算する。朗読速度得点１９０はデバイダー１８８から決められる。このデバイダー１８８は、「良好な」単語を含んで許容された句の復唱において経過した時間Ｔで「良好な」単語の数を割る。ここに記載されたサブシステムは、以下に示された等式を援用する回路又は計算機プログラムにより実行できる。図１０は朗読技能得点２３０を決める機構１９２を示している。システムに関連して、予め選択されたスクリプト内の単語の数の計数値１９５を与える単語計数ソース１９４、スクリプトの最適朗読時間１９７が伝えられる機構１９６、廃棄言語音の数（１９９）を計数するための手段１９８、予め選択されたスクリプト内の全ての単語の朗読中の全経過時間２０１を測定するための手段２００、及び前記分析手段により許容できると思われる句の朗読中の「良好な」経過時間を測定するための手段２０２が存在する。デバイダー手段２０４が良好な時間値２０３で全時間値２０１を割り第１商２０５を得るために与えられる。重み付け手段２０６（マルチプライヤー）が第１重み付けパラメータ（「ａ」）で第１商２０５を重み付けて第１得点成分を得るために与えられる。３つの重み付けパラメータａ，ｂ，ｃの合計は、好ましくは全体で１．０であり、技能の測度の３つのタイプの各々の相対的な重みを割り付ける。セレクター手段２１０が最適読み取り時間１９７と良好な時間２０３間の最大値を選択してより好ましい最大値２１１を作るために与えられる。これは、速い朗読と好みに従ってペースの示された朗読間の選択を数値化するのに用いられる。選択評価に関連して、デバイダー手段２１２が最適朗読時間１９７で好ましい最大値２１１を割って第２の商２１３を得るために与えられる。第２の商は重み付け手段２１４（マルチプライヤー）により第２重み付けパラメータ（ｂ）により重み付けられ第２得点成分２１６が得られる。加算器又は合計手段２１８が廃棄言語音の数１９９とスクリプト単語の数１９５を合計して技能の値２１９を得るために与えられる。デバイダー手段２２０が技能の値２１９で単語の数１９５を割って第３の商２２１を得るために与えられる。第３の商は重み付け手段２２２（マルチプライヤー）により第３重み付けパラメーター（ｃ）により重み付けられて第３得点成分２２４を得る。三入力合計手段２２６が第１、第２、及び第３得点成分２０８、２１６、２２４を合計して得点合計２２７を得るために与えられる。得点合計２２７は重み付け手段によりパーセント又は他のスケールにスケール化される。この重み付け手段は、値が１０であるようなスケール因子２２８を掛けて朗読技能得点２３０を得る。ここに記載されている朗読技能評価サブシステムは、以下の式を援用する回路又は計算機プログラムにより実行され得る。 RQS=10*（a*T_g/T_t+b*（T_n/［max（T_n,T_g）］）+C*W/（R_g+W）ここで、RQSは１から１０のスケール上の朗読技能得点（ここでは１０のスケール因子を基にしている。）であり、ａ，ｂ，ｃはスケール因子で、その合計は１に等しく特定の実施例では、ａ＝０．２５，ｂ＝０．２５，ｃ＝０．５であり、Ｗはテキスト中の単語の数であり、Ｔ_gは「良好な」時間又は良好な文を朗読するのに使った時間であり、Ｔ_tは初期及び最終休止を含めて朗読に使った全朗読時間であり、Ｔ_nは最適朗読時間、即ち良好な現地人話し手による朗読時間であり、Ｒ_gは文の「良好な」表現の間、即ちＴ_gの間に検出された廃棄の数である。付録Ａは、計算機ワークステーション上で実現された本発明によるシステムのソースコードのリストのマイクロフィッシュ付録である。ソースコードの言語はＣである。本発明は特定の実施例を参照して説明されてきた。他の実施例も本説明を参照の上では当業者には明らかとなるであろう。従って、この発明は添付の請求項により示されたもの以外には制限されることはないであろう。

───────────────────────────────────────────────────── フロントページの続き (72)発明者チエン，ジヨージ・テイーアメリカ合衆国カリフオルニア州94025 メンロ・パーク、ナンバー７、マーシユ・ロード 723 (72)発明者ブツツバーガー，ジヨン・ダブリユーアメリカ合衆国カリフオルニア州94404 フオスター・シテイー、ナンバー3609、バウンテイ・ドライヴ 736

Claims

【特許請求の範囲】１．スピーチ認識器を組み入れた自動スピーチ認識システムであって、該スピーチ認識器は単語列仮説を作りだしスピーチ認識器上の制約として単語列パターンの範囲を順位付けするための言語モデルを用いる上記自動スピーチ認識システムにおける、スピーチパターンをトラッキングし、択一的テキストを含んだ予め選択されたスクリプトに関して前記スピーチパターン内のエラーを確認し、利用者に前記予め選択されたスクリプトを復唱するように対話的に促すための方法であって、デジタル計算機に文のための文法モデルを与えるステップであって、前記文法モデルが文を形成するように連続して配列された各単語間に置かれた単一アルト要素を含んでいる該ステップ、前記デジタル計算機にスクリプトのための文法モデルを与えるステップであって、一連の連続して配列された各文の間に置かれた単一アルト要素により分離された記号列内に文を集合させることにより行う該ステップ、対象言語で訓練され前記文法モデルを有して前記デジタル計算機内に記憶された前記スピーチ認識器を用いるステップであって、利用者のスピーチを前記スクリプト内の単語の記号列に整列し、スクリプト化された及びスクリプト化されてないスピーチ並びに文脈を感知する沈黙を確認する該ステップ、及び前記スクリプト化された及びスクリプト化されてないスピーチ並びに文脈を感知する沈黙に応答して、少なくとも３つの忍耐のレベルに従って利用者に音声及び意味上の正確さをもって前記予め選択されたスクリプトを復唱するように促すステップを含んだ上記方法。２．請求項１に記載のスピーチ認識システムにおいて、文の択一的テキストのための文法モデルを与えるステップであって、前記対話式会話文法モデルが択一的返答の選択前に置かれた第１の共通アルト要素および択一的返答の前記選択後に置かれた第２の共通アルト要素を含み、それにより音声上の正確さと意味上の不正確さを有した択一的応答が可能となる該ステップを更に含んだ上記方法。３．請求項１に記載のスピーチ認識システムにおいて、前記スピーチ認識器を用いるステップが、前記スピーチ認識器の出力の現在のセグメントに対してスクリプト化された単語、休止言語音、及び廃棄言語音を周期的に調べるステップ、前記現在のセグメントに対する廃棄密度を求めるステップ、前記廃棄密度を廃棄密度閾値と比べるステップ、及びもし前記廃棄密度が前記廃棄密度閾値を越えるならば、スピーチをスクリプト外として表すステップを含んでいる上記方法。４．請求項３に記載のスピーチ認識システムにおいて、前記廃棄密度が、予め選択された数の連続したスクリプト化単語から前記スピーチ認識器により戻された廃棄された言語音の数を前記廃棄された言語音と前記選択された数の単語の合計で割ることにより求める、上記方法。５．請求項１に記載のスピーチ認識システムにおいて、前記スピーチ認識器を用いるステップが、前記スピーチ認識器の出力の現在のセグメントに対してスクリプト化された単語、休止言語音、及び廃棄言語音を周期的に調べるステップ、前記現在のセグメントに対する廃棄指標を求めるステップ、前記廃棄指標を廃棄指標閾値と比べるステップ、及びもし前記廃棄指標が前記廃棄指標閾値を越えるならば、スピーチをスクリプト外として表すステップを含んでいる上記方法。６．請求項５に記載のスピーチ認識システムにおいて、前記廃棄指標を求めるステップが、予め選択された数の連続したスクリプト化単語から前記スピーチ認識器により戻された廃棄言語音を合計することを含んでいる上記方法。７．請求項１に記載のスピーチ認識システムにおいて、前記スピーチ認識器を用いるステップが、前記スピーチ認識器の出力の現在のセグメントに対してスクリプト化された単語、休止言語音、及び廃棄言語音を周期的に調べるステップ、前記現在のセグメントに対する休止指標を求めるステップ、前記休止指標を休止指標閾値と比べるステップ、及びもし前記休止指標が前記休止指標閾値を越えるならば、スピーチをスクリプト外として表すステップを含んでいる上記方法。８．請求項７に記載のスピーチ認識システムにおいて、前記休止指標閾値が言語的文脈とテキスト内での位置に依存し、前記休止指標閾値が文及び主要な節の終わりでは文の単語間のどこよりも小さい、上記方法。９．請求項７に記載のスピーチ認識システムにおいて、前記休止指標を求めるステップが、予め選択された数の連続したスクリプト化単語から前記スピーチ認識器により戻された休止言語音を合計することを含んでいる上記方法。１０．請求項２に記載のスピーチ認識システムにおいて、前記アルト要素が、引き延ばされた沈黙を含んだ、事象に対する複数の遷移円弧、引き延ばされたスクリプト外のスピーチ、沈黙とスクリプト外スピーチの交互した周期、及び非休止と非スクリプト外スピーチを含んだ構造からなる上記方法。１１．スピーチ認識器を組み入れた自動スピーチ認識サブシステムを用いて、システムへの音声入力及び音声、画像出力と共に利用者のスピーチをトラッキングするためのシステムであって、該スピーチ認識器は単語列仮説を作りだし、スピーチ認識器上の制約として単語列パターンの範囲を順位付けるための言語モデルを用い、該システムが、利用者に対象についての情報を示し、許容された発声での予め選択されたスクリプトの朗読を勧めるための手段、音響的情報の時間不変のフレームからスピーチが含む信号を示す音響的特徴を検知するための手段、音響的情報の前記フレームを分析して音響的情報フレームの集積に対応する可能な発声の組を求めるための手段、発声の完全性を評価して朗読の正確さを決めるための、前記分析手段に結合された手段、及び予め選択されたスクリプトの正しい朗読を奨励する応答を発生するための、前記比較する手段に結合された手段を含むシステム。１２．トラッキングシステムが利用者に対しては外国の言語での指導用であり、前記応答を発生するための手段が現地人の発音や表現の例としての可聴応答を発生するための手段を含んでいる、請求項１に記載のシステム。１３．朗読された単語の数を計数するための手段、スクリプト化された単語を朗読中、経過した時間を測定するための手段、及び計数された単語の前記数を前記測定された経過時間で割るための手段を含んだ朗読速度を測定するための手段を更に含んだ、請求項１１に記載のシステム。１４．予め選択されたスクリプト中の単語の数（195）を計数する手段（194）、最適な朗読時間を確立する持続時間を与える手段（196）、廃棄言語音の数（199）を計数するための手段（198）、予め選択されたスクリプト内の全ての単語の朗読中の全経過時間（201）を測定するための手段（200）、前記分析手段により許容されると思われる句の朗読中の良好な経過時間（203 ）を測定するための手段（202）、前記全時間（201）を前記良好時間（203）で割って第１の商（205）を得るための手段（204）、前記第１の商（205）を第１重み付けパラメータ（a）で重み付けして第１得点成分（208）を得るための手段（206）、前記最適朗読時間（197）と前記良好時間（203）の間の最大値を選択してより好ましい最大値（211）を発生するための手段（210）、前記より好ましい最大値（211）を前記最適朗読時間（197）で割って第２の商（213）を得るための手段（212）、前記第２の商（213）を第２重み付けパラメータ（b）で重み付けして第２得点成分（216）を得るための手段（214）、前記廃棄言語音の数（199）と前記単語の数（195）を合計して技能の値を得るための手段（218）、前記単語の数（195）を前記技能の値（219）で割って第３の商（221）を得るための手段（220）、前記第３の商（221）を第３重み付けパラメータ（c）で重み付けして第３得点成分（224）を得るための手段（222）、前記第１得点成分（208）、前記第２得点成分（216）、及び前記第３得点成分（224）を合計して得点合計（227）を出すための手段（226）、及び前記得点合計（227）をスケール因子（228）で重み付けして前記朗読技能得点（230）を得るための手段を含んだ朗読技能を測定して朗読の技能得点（230）を得るための手段（192）を更に含んだ、請求項１１に記載のシステム。１５．スピーチ認識器を組み入れた自動スピーチ認識サブシステムを用いて、スピーチをトラッキングし且つシステムへの音声入力と音声出力及びグラフィック出力で利用者と対話するためのシステムであって、該スピーチ認識器は単語列仮説を作りだし、スピーチ認識器上の制約として単語列パターンの範囲を順位付けるための言語モデルを用い、該システムは、対象についての情報を利用者に与え、許容された発声の予め選択された組から返答を促して音声応答を引き出すための手段、音響的情報の時間不変のフレームからスピーチが含む信号を示す音響的特徴を検知するための手段、音響的情報の前記フレームを分析して音響的情報フレームの集積に対応する可能な発声の組を求めるための手段、前記発声の組から発声の完全性を調べるための、前記分析手段に結合された手段、発声の終わりの指示で可能な発声の前記組から発声の最良仮説を選択するための、前記安全性を調べるための手段に結合された手段、前記最良仮説を許容された発声の予め選択された組と比較して選択された返答を決めるための、前記選択手段に結合された手段、及び選択された返答に対応する応答を作るための、前記比較手段に結合された手段を含む、上記システム。１６．対話システムが利用者にとっては外国の言語での指導用であり、前記応答を作るための手段が現地人の発音や表現の例としての可聴応答を発生するための手段を含む、請求項１５に記載のシステム。