JPH08507620A - 音声対話式言語指導のための方法及び装置 - Google Patents

音声対話式言語指導のための方法及び装置

Info

Publication number
JPH08507620A
JPH08507620A JP6520287A JP52028794A JPH08507620A JP H08507620 A JPH08507620 A JP H08507620A JP 6520287 A JP6520287 A JP 6520287A JP 52028794 A JP52028794 A JP 52028794A JP H08507620 A JPH08507620 A JP H08507620A
Authority
JP
Japan
Prior art keywords
speech
script
reading
words
recognizer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6520287A
Other languages
English (en)
Other versions
JP3899122B2 (ja
JP3899122B6 (ja
Inventor
ルテイスシエフ,デイミトリー
バーンスタイン,ジエアード・シー
チエン,ジヨージ・テイー
ブツツバーガー,ジヨン・ダブリユー
Original Assignee
エス・アール・アイ・インターナシヨナル
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エス・アール・アイ・インターナシヨナル filed Critical エス・アール・アイ・インターナシヨナル
Publication of JPH08507620A publication Critical patent/JPH08507620A/ja
Publication of JP3899122B2 publication Critical patent/JP3899122B2/ja
Application granted granted Critical
Publication of JP3899122B6 publication Critical patent/JP3899122B6/ja
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

(57)【要約】 音声言語指導方法及び装置では、指導や評価のために文脈に基づいたスピーチ認識を用いる。レッスンでの単語列パターンの範囲に対応する有限状態文法の組(113)が、隠れマルコフ(Markov)モデル(HMM)スピーチ認識器(112)内のHMM探索装置上の制約として用いられる。本発明は対話式決定機構を有するシステムを含む。それは、少なくとも3つのエラー許容レベルを用いて人間を基にした対話式指導における忍耐の自然なレベルをシミュレートする。言語的感知可能な発声終点検出器が、音声発声の終わりを判定して会話スピーチで人間の役をシミュレートするために設けられる。

Description

【発明の詳細な説明】 音声対話式言語指導のための方法及び装置 本発明の背景 この発明はスピーチ認識に関し、特に言語又はスピーチ指導で用いるための隠 れマルコフモデル(hidden Markov model)(HMM)に基づいたシステムのタイプ に関する。 背景として、隠れマルコフモデリングのプロセス上の指導的教授は、ラビナー (Rabiner)らによる1986年の論文「隠れマルコフモデルへのイントロダク ション(An Introduction to Hidden Markov Models)」、IEEE ASSP Magazine 、1986年1月、4〜16頁に記載されている。 隠れマルコフモデルに基づいた種々のスピーチ認識システムが知られており、 ここでその詳細を述べる必要はないであろう。そのようなシステムは一般に音素 (phoneme)の具現化を用いる。これらの音素は、訓練例の組から評価されたパ ラメータを有する音声セグメント(異音(allophone)又はもっと一般的に言語 音(phone)を含む。)の統計的モデルである。 言語音は音素の音響的具現化であり、音素は単語を区別するのに用いることが できるスピーチの最小単位であるので、単語のモデルは適当な言語音モデルから ネットワークを作ることにより作られる。単語モデルの組を通じて入力スピーチ 信号への最も起こり得る経路を探すことにより認識がなされる。 公知の隠れマルコフモデルスピーチ認識システムは、マルコフソースとしての スピーチ導出モデルを基にしている。モデル化されているスピーチ単位は、有限 状態機械により表される。ノードに到達するとき各遷移が取る確率を特定するこ とにより、確率分布が各ノードを離れる遷移に関連してくる。出力シンボルに対 する確率分布は各ノードに関連する。遷移確率分布は暗黙の内に持続時間をモデ ル化する。出力シンボル分布は一般にスペクトルのようなスピーチ信号特性をモ デル化するのに用いられる。 遷移と出力シンボルに対する確率分布は、スピーチのラベル付けされた例を用 いて評価される。観測された列を発生する最も高い確率を有するマルコフネット ワークを通じて経路を決めることにより、認識がなされる。連続スピーチに対し ては、この経路は単語モデルの列に対応するであろう。 語彙外スピーチを説明するモデルが知られており、ここでは廃棄言語音モデル というが、しばしば「フィルター」モデルとも言われる。このようなモデルはロ ーズ(Rose)らによる「隠れマルコフモデルを基にしたキーワード認識システム (A Hidden Markov Model Based Keyword Recognition System)」、IEEE ICASS Pのプロシーディング、1990年に記載されている。 本発明と共に用いられる特定の隠れマルコフモデル認識システムは、デシファ ー(Decipher)スピーチ認識器であり、これはSRIインターナショナル、メン ロパーク(Menlo Park)、カルフォルニアで入手できる。デシファーシステムは 、確率的音韻論的情報、文脈依存の異なるレベルを有する音声モデルを訓練でき るトレーナー、単語の多重発音、及び認識器を組み込んでいる。共同発明者は本 発明の周辺に関連した指導法などの開発について他の論文やレポートを出してい る。各々は、質問と応答技術の初期のものについて述べている。例えば、「英語 発音の自動評価と訓練(Automatic Evaluation and Training in English Pronu nciation)」、Proc.ICSLP 90、1990年11月、神戸、日本、「話し手から 独立した連続スピーチ認識の商用応用に向けて(Toward Commercial Applicatio ns of Speaker-Independent Continuous Speech Recognition)」、Speech Tech 91のプロシーディング、1991年4月23日、ニューヨーク、ニューヨーク 、及び「音声対話式言語指導システム(A Voice Interactive Language Instruc tion System)」、Eurospeech 91のプロシーディング、ジェノア、イタリア、1 991年9月25日を参照せよ。これらの論文は、実演の観測者が経験すること を単に記載したものである。 他の言語訓練技術も知られている。例えば、エザワ(Ezawa)らによる米国特 許第4,969,194号には、言語の発音における利用者の簡単な練習用システムが開 示されている。そのシステムではスピーチ認識は出来ないけれども、コンパレー ターを用いて信号を基にしたフィードバック機構を有していると思われる。この コンパレーターは、スピーチの幾つかの音響的特徴及びスピーチの基本周波数を 基 準の組と比較する。 オカモト(Okamoto)による米国特許第4,380,438号には、利用者自身のスピー チを記録し再生するために用いられるアナログテープレコーダーのデジタルコン トローラーが開示されている。これは認識することはできない。 ボグ(Boggs)による米国特許第4,860,360号は、通信チャンネル内の歪みが分 析されるスピーチ評価用システムである。その開示は信号分析と歪み測度計算の みに関連しており、どんな既知の語彙に対してもスピーチ信号の整列や認識は行 わない。 ハーブソン(Harbeson)による米国特許第4,276,445号には、アナログピッチ 表示より粗いスピーチ分析システムが記載されている。それが本発明に関連する とは考えられない。 ホランド(Holland)らによる米国特許第4,641,343号には、フォルマント(fo rmant)周波数を引き出すアナログシステムが記載されている。このフォルマン ト周波数は、利用者への基本的な表示のためにマイクロプロセッサーに送られる 。唯一のフィードバックは、入力信号から直接計算可能な特徴のグラフィック表 現である。スピーチ認識又はその他の如何なる高レベル処理に対する要素も存在 しない。 ベーカー(Baker)らによる米国特許第4,783,803号には、スピーチ認識装置及 び技術が開示されており、これはスピーチの開始を探すべくフレーム間の場所を 決めるための手段を含んでいる。この開示には、音響パラメータのみを処理する 低レベル音響を基にした終点検出器が含まれるが、より高いレベルでの文脈を感 知する終点検出器は可能ではない。 必要とされているのは、認識及びフィードバックシステムである。これは、利 用者と言語的文脈感知の方法で対話でき、準会話的方法で利用者によるスクリプ ト(script)の朗読をトラッキングし、適当に表現され自然に聞こえるスピーチ で利用者を指導する。 本発明の概略 本発明によると、指導及び評価のための、特に言語の指導及び言語の流暢さの 評価のための言語的文脈感知スピーチ認識を用いた指導システムが提供される。 このシステムは、非現地人である利用者の強い外国アクセントを許容する一方、 自然な音声対話式方法でレッスン、特に言語レッスンをしてその評価を与えるこ とができる。レッスン資料と指導は種々の方法で学習者に提示でき、これに制限 されるものではないが、ビデオ、オーディオ、又は印刷された視覚的テキストを 含む。例として、言語指導の特定された用途においては、ある指導は利用者にな じみの言語でできる一方、会話及び対話の全体が目標言語、即ち指導言語で行わ れ得る。 予め選択された視覚情報に関連して、システムは訓練を受けている人に聴覚情 報を与えることができる。システムは朗読フェーズの間はシステムに記憶されて いるスクリプトとの比較を基にしたスピーチの選択されたパラメータをモニター しながら、被訓練者である利用者を促してテキストを大声で読むように促す。シ ステムはそれから利用者に可能な応答のリストを与えてある質問を行う。それか ら、利用者は目標言語で適当な応答を復唱することにより答えるのを期待される 。システムは、利用者のまずい発音、休止、およびその他の流暢でないさまにも 拘わらず、正確に自然な仕方でスクリプト化されたスピーチを認識でき応答でき る。 特定の実施例では、レッスン中の単語列パターンの範囲に対応する有限状態文 法の組が、HMMスピーチ認識器内の隠れマルコフモデル(HMM)探索装置上の 制約として用いられる。このHMMスピーチ認識器は、目標言語の現地人話者に より作られた目標言語によるナレーション(スクリプト)の隠れマルコフモデル の組を含んでいる。 他の言語的文脈感知スピーチ認識器は基本的スピーチ認識エンジンとして用い ることができるけれども、本発明は好ましくはSRIインターナショナル、メン ロパーク、カルフォルニアから入手可能なデシファースピーチ認識器のような言 語的文脈感知スピーチ認識器の利用に基づいている。 本発明は朗読練習のような練習を通して利用者にペースを示すための機構や対 話式決定機構を用いた一群の多重選択質問を含む。この決定機構は少なくとも3 つのエラー許容レベルを用いており、それにより、人間を基にした対話式指導に おける忍耐の自然なレベルをシミュレートする。 朗読フェーズに対する機構は、有限状態機械又は少なくとも4つの状態を有す る同等物を通じて与えられる。この有限状態機械又はその同等物は、スクリプト 中のどんな場所の朗読エラーも認識し、動作の第1組を用いる。対話式質問フェ ーズに対する関連した機構もまた、少なくとも4つの状態を有するもう一つの有 限状態機械を通じて与えられるが、動作の第2組を援用する一方、誤った応答と 同様に朗読エラーも認識する。 明らかに流暢でないのをモデリングすることは少なくとも休止とスクリプトを 外れた発声を含んでいるのであるが、言語的文脈感知スピーチ認識器の一部とし て、スピーチの確率的モデルがナレーション用のスクリプトを用いることにより 簡素化されている。 対話式朗読及び質問/応答フェーズと共に、言語的に感知する発声終点検出が 、音声発声の終端を判定するのに与えられ、会話スピーチにおける人間の役をシ ミュレートする。 採点システムが与えられ、これは、正しい朗読中の時間部分や対象者の朗読速 度と標準の現地人の朗読速度の比や認識された単語ストリーム内の「アルト(al t)」単位(スピーチに対する新しいモデル)の部分に重み付けすることにより 、スピーチ及び朗読の熟達度、即ち速度とエラーレートを分析することができる 。 DSP装置又は同等の能力を有するプロセッサーと共に、本発明により特定の レッスンの科目についてのシステムと利用者の間のリアルタイムの会話ができる ようになる。本発明は便利にはシステムから離れた場所で電話ネットワークを介 して用いることができる。利用者は電話番号を選択することによりシステムにア クセスし、システムとの対話のための視覚的又は記憶された資料を参照する。 本発明は添付の図面に関連した以下の詳細な記載を参照することによりよりよ く理解されるであろう。 図面の簡単な説明 図1は本発明によるシステムのブロック図である。 図2は本発明で用いられる認識プロセスの機能ブロック図である。 図3は本発明に関連して用いられるプロセスの機能ブロック図である。 図4A1は本発明に従った装置に埋め込まれたレッスンを通じて利用者にペー スを示すプロセスのフローチャートの最初の一部である。 図4A2は本発明に従った装置に埋め込まれたレッスンを通じて利用者にペー スを示すプロセスのフローチャートの次の一部である。 図4Bは本発明に従ったトラッキングプロセスのフローチャートである。 図5は本発明に従った朗読モードにおいて用いられる文レベル文法の状態図で ある。 図6は本発明に従って用いられる単語レベル文法の状態図である。 図7は本発明に従った応答モードにおいて用いられる文レベル文法の状態図で ある。 図8は本発明に従った文法で用いられる「アルト」構造の状態図である。 図9は朗読速度の計算器のブロック図である。 図10は朗読技能の計算器のブロック図である。 特定の実施例の説明 図1を参照すると、本発明による指導装置10のシステムブロック図が示され ており、これは装置10の近くに位置する利用者12を指導するため、又は装置 10から離れて位置する利用者12’を指導し電話14を介して通信するための ものである。ローカル利用者12はマイクロフォン16を通じてシステムと対話 でき、スピーカー又はイヤホン18及び映像モニター(CRT)20を介して指 導及びフィードバックされる。リモート利用者12’は、新聞広告からのような 、刊行又は印刷されたテキスト22を通じて促され、若しくは幾つかの周知又は 記憶されたテキストを用いることができる。リモート利用者の電話14はマルチ プレクサー26を介して電話ネットワーク24を通じて結ばれる。ローカル利用 者のマイクロフォン16もマルチプレクサー26に接続される。マルチプレクサ ー26の出力はプリアンプ28に接続され、ローパスフィルター30を介してア ナログ−デジタル変換器32に接続される。この変換器32は、ワークステーシ ョン又は時分割計算機36内のデジタル信号処理(DSP)サブシステム34の 一部である。DSPサブシステム34からの出力は、デジタル−アナログ変換器 (DAC)38を介してアンプ40又は電話ネットワーク24のどちらか一方又 は両方に供給される。これらのアンプ40及び電話ネットワーク24は夫々スピ ーカー18及び電話14に接続される。CRT20は一般的にワークステーショ ン36の映像出力装置である。適当なDSPサブシステムとしては「ソニテック スピリット30(Sonitech Spirit 30)」DSPカードがあり、適当なワークス テーションとしてはサンマイクロシステムズ(Sun Microsystems)のスパークス テーション(SPARCStation)2ユニックスワークステーション(UNIX workstati on)がある。 図1に関連した図2を参照すると、基本的システムの基本操作が描かれている 。システムは好ましくは、SRIインターナショナルのデシファーシステムのよ うなスピーチ認識システムの周りに設けられる。利用者12は映像又は音によっ て催促するような剌激に反応してマイクロフォン(MIC)14に話す。マイク ロフォン14の連続的なスピーチ信号は電気的経路を通じて「フロントエンド」 信号処理システム42に送られる。この信号処理システム42は主にDSPサブ システム34内に含まれ、マザーワークステーション36の制御に従う。フロン トエンド信号処理システム42は、特徴抽出をして音響的特徴パラメータをモデ ル探索器44に送る。このモデル探索器44は、隠れマルコフモデルのモデルの 組(HMM models)46の周りに設けられる。モデル探索器44は、音響的特徴上 の「探索」を行う。これらの音響的特徴は、有限状態文法により選択の制限され 管理されうる組のみに強制される。従って、HMMモデル46と比較すると重要 な許容程度が発音の技能において利用者に認められ得る。制限されない文法や語 彙の準備されたレッスンの形式のアプリケーションサブシステム48は、モデル 探索器44と通信する。アプリケーションサブシステム48は、有限状態文法を 探索が行われるモデル探索器44に供給する。モデル探索器44は、デシファー のようなスピーチ認識システムに組み込まれた逆トラッキングプロセスを経由し てアプリケーションサブシステム48と逆トラッキングの発生された情報だけで なく認識や非認識をやり取りする。それから、本発明に従って利用者12と対話 する。 本発明に関連して用いられるスピーチ処理システムには2つの機能モードがあ り、それは訓練モードと認識モードである。図3については、その処理が描かれ ている。訓練モードでは、訓練スクリプト102が訓練母集団104内の複数の 人に与えられ、その各々は訓練スクリプト102に対応する複数のスピーチパタ ーン106を作る。訓練スクリプト102とスピーチパターン106は、索引付 けられた組として隠れマルコフモデルトレーナー108に与えられ、目標言語ス ピーチの一般HMMモデル111を作る。このことは、目標言語に対して一回だ け行われるのを要求し、一般には現地人話者といく人かの非現地人話者を使って 目標言語スピーチの一般HMMモデルを発生する。それから、HMMネットワー クモデルコンパイラー110は、一般HMMモデルと予め選択されたスクリプト 114を入力して、特に予め選択されたスクリプト用のスピーチモデルのネット ワーク113を作る。ネットワークモデルコンパイラー出力は、隠れマルコフモ デルを基にしたスピーチ認識器112に与えられる。 認識モードでは、予め選択されたスクリプト114が被訓練者/利用者又は発 音が評価されるべき装置116に対して与えられる。この予め選択されたスクリ プト114は、訓練スクリプト102の機能的な一部であるが、選択されたスク リプトの単語102を必ずしも含まない。被訓練者/利用者116のスピーチは 、予め選択されたスクリプト114に対応するスピーチパターン118の形式を とると推定される。予め選択されたスクリプト114と一つのスピーチパターン 118は、索引付けられた組として隠れマルコフモデルスピーチ認識器112に 与えられる。現在の各評価期間(言語音長、単語長、句長、又は文長の間の時間 )の間、単語が認識器112により認識される。評価期間又は前の期間の間に認 識された単語の数から、認識得点の組120が計算され、ここに記載されたタイ プのレッスン制御ユニットとして動作するアプリケーションサブシステム48( 図2)に送られる。得点の組120は、逆トレースの発生された情報内で具体化 されるときの認識プロセスのスナップショットである。それは、後に説明される 決定装置を具体化する有限状態機械を用いるアプリケーションサブシステム48 /レッスン制御ユニットに送られる。ほかの機能の間の有限状態機械は、生得点 の組の情報をフィルタリングしてスクリプト化されたレッスンの良好な表現のみ を同定する。特に、それは得点の組の一部を同定して、それを基に、朗読速度や 朗読の技能を含んだレッスン実技の技能を判定する。 図4Aは、本発明に従った装置に組み込まれたレッスンを通じて利用者にペー スを示すプロセスのフローチャートである。それは、アプリケーションサブシス テム48に組み込まれた有限状態機械(FSM)として働く。このアプリケーシ ョンサブシステム48は、利用者12及びレッスン資料の対話を制御する。 操作中は、FSMによりCRT上に表示できるスクリプトが参照されるか、又 は読まれるべき印刷資料が参照される。i=1の文インデックスとj=1の単語 インデックスから始めて(ステップA)、トラッキングプロセスが行われる(ス テップB)。FSMは利用者がスクリプト中の最後の文を読み終えたか否かを調 べ(ステップC)、もし真ならばEND(エンド)となる(ステップD)。そう でなければ、FSMは利用者がトラッカー(tracker)により検出されたときに 休止しているか否か、及び最後のトラッキング操作以後スクリプトから良好な( 認識可能な)単語を朗読したか否かを調べる(ステップE)。もし真ならば、F SMは好ましくは、例えば返答「オーケイ」のような、音声又は映像の肯定的返 答で応答し(ステップF)、FSMはトラッキングプロセスを繰り返す(ステッ プB)。 他方もし、FSMが最後のトラッキング操作以来利用者がよい単語を朗読後に 休止していないことを認めるならば、FSMは利用者に「P(i)から読んで下 さい。」と言って催促する(ステップG)。P(i)は、トラッキングされてな い単語を含んだ句又はその直前の句のスクリプト中の同定された位置の始まりで ある。トラッキングプロセスは後に再び援用され(ステップH)、このときは利 用者が有効に一つのペナルティを有する忍耐のレベルである。それからFSMは 、この新しいレベルで前のように最後の文の終了を調べ(ステップI)、もしス クリプトが終了していたら終わる(ステップJ)。そうでなければ、FSMは利 用者がトラッキング操作により検出されるとき休止しているか否か、及びスクリ プトからの良好な(認識可能な)単語を読んだか否かを調べる(ステップK)。 もし真ならば、FSMは好ましくは、例えば返答「オーケイ」のような音声又は 映像の肯定返答で応答し(ステップL)、新しい文の始まりを調べ(ステップM )、もしイエス(yes)ならば、FSMはトラッキングプロセスを繰り返し(ス テップB)、もしノー(no)ならば、FSMは現在の文内のトラッキングを繰り 返す(ステップH)。 もしトラッキング操作により示されているように正しく単語が読まれるならば (ステップK)、FSMは新しい文が始まったか否かを調べる(ステップN)。 その場合には、FSMはサイクルを繰り返し、文の初めから読むように利用者に 促す(ステップG)。もしこれが文の初めでないならば、FSMは「違います。 文はS(i)です。P(i)から読んで下さい。」と言う(ステップP)。換言 すれば、利用者は文のモデルを与えられ、文の初めから開始すること、即ち再度 試みることを促される。 催促の後に、トラッキング手続きを再度援用し(ステップQ)、それから最後 の文が話されたか否かを調べる(ステップR)。もしイエス(YES)ならば終 わり(ステップS)、そうでなければ、利用者がスクリプトからの良好な単語を 読み終わった後に休止しているのか否かを調べる(ステップT)。もし真ならば 、FSMは「ok」を出し(ステップU)、新しい文を調べ(ステップV)、も しノー(no)ならば、トラッキングを再び始める(ステップQへ)。そうでなけ れば、もし新しい文ならば、トラッキングを忍耐の最高レベルに再設定する(ス テップB)。もしFSMが良好な単語をトラッキングしてないならば、新しい文 が始まったか否かを調べ(ステップW)、もしそうならば、初期文位置P(i) から読むのを始めるように利用者を促す(ステップGへ)。もしそれが新しい文 でないならば、FSMは「よろしい。よくやった。今度は次の文の初めから読み なさい。(即ち、P(i+1))」のような句を述べることにより忍耐の損失を 示す(ステップZ)。文計数指標iはそれから1文だけ増加され(i+1)(ス テップAA)、単語計数指標jは1にリセットされ(ステップAB)、初期トラ ッキングプロセスに戻り(ステップBへ)、FSMはその忍耐の初期レベルを再 び得る。 図4Bは図4AのFSMにより用いられるトラッキングプロセス(ステップB 、H、Q)のフロー図である。トラッキングプロセスは、例えば、予め選択され たスクリプトに対応するスピーチパターンの隠れマルコフモデルを用いた入力ス ピーチの1秒間を調べる(ステップAC)。FSMはカウンター(iとj)を現 在の位置に更新し(ステップAD)、最後の文が復唱されたか否かを調べる(ス テップAE)。もしイエス(yes)ならば、トラッキングプロセスが終わる(ス テップAF)。もし最後の文が認識されなければ、FSMは前の単語から認識さ れた休止言語音の数である休止指標を計算する(ステップAG)。これは、休止 の長さを一般的に示すものである。それから、それは現在の位置(i,j)及び 練習厳格さレベルに対する休止指標閾値が比較される(ステップAH)。もし休 止指標が閾値を越えるならば、トラッキングプロセスは終わる(ステップAI) 。もしそうでないならば、FSMは廃棄指標を計算する(ステップAJ)。予め 選択されたスクリプトに対応するスピーチを利用者が行わない見込みを一般に示 す廃棄指標は、例えば、最後の単語以来認識器により戻された全ての廃棄言語音 を合計することにより計算される。 廃棄指標はその後廃棄指標閾値と比較される(ステップAK)。この閾値は、 練習採点厳格さレベル又はテキスト中の現在の位置の関数である。もし指標が閾 値を越えるならば、手続きは終わる(ステップAL)。もしそうでないならば、 廃棄密度が計算される(ステップAM)。 廃棄密度はスクリプト化された単語の前の数(例えば、5)を調べることによ り計算され、認識器により戻された廃棄言語音の数を計数し、それから、廃棄言 語音の数を廃棄言語音の数とスクリプト化された単語の数の合計(5)で割る。 その商が廃棄密度である。従って、休止長内の変化は廃棄密度に影響しない。 廃棄密度はその後廃棄密度閾値(練習厳格さレベル、テキスト位置、又はその 両方)と比較される(ステップAN)。もし廃棄密度が閾値を越えると、トラッ キングプロセスは終わる(ステップAO)。そうでなければ、トラッキングプロ セスは続けられる(ステップAC)。 廃棄指標閾値、廃棄密度閾値、及び休止指標閾値は、厳格さのレベル又はテキ スト中の位置の関数として可変調節される。調節は利用者、レッスン設計者、又 は自動的にシステムにより行うことができる。 図5を参照すると、レッスンの朗読フェーズ中の文レベル文法の構造が示され ている。文レベル文法や関連する言語的構造は、休止、とぎれ雑音、及び生徒で ある話し手のスピーチに予期されたその他のスクリプト外のスピーチ現象を許容 するのに必要な構造的精巧さを与える。文法はスクリプト化されたスピーチパタ ーンから認識された文126、128、130を分離する「アルト」構造122 からなる。「アルト」構造122(など)の目的は、スクリプト外(非スクリプ トの、又はスクリプトされてない)スピーチ又は沈黙(単なる休止ではない)を 同定又はそうでなければ説明することである。この沈黙は読み手により朗読又は 応答練習中に種々のポイントに朗読中に挿入されがちである。本発明によるアル ト構造は隠れマルコフモデルを基にしたスピーチ認識システムにおいて用いるこ とができ、基本的なスピーチ認識器に機能を追加して外部又は非スクリプト入力 を明瞭な方法で扱うことができるようにしている。 図6を参照すると、朗読モード又は応答モードでの文に対する単語レベル文法 の構造が示されている。特定のキーが検出のために探されるという公知の単語レ ベル文法とは似ていなくて、この文法は明らかに全ての単語の間の流暢でない復 唱を予期しており、従って順序づけられた各単語136、138間のアルト構造 132、134からなる。単語は基本的単位として認識器により戻され得るが、 アルト構造は認識器により廃棄言語音及び休止言語音のストリング(ひも)とし て分析され戻される。これらの言語音はここで更に詳細に述べるようにアルト構 造を構成する。これにより、アプリケーションサブシステム48(図2)は利用 者による朗読に関してより高レベルの決定ができるようになる。 図7を参照すると、応答モードにおける文レベル文法の構造が示されている。 初期アルト140は軌線により選択肢としての複数の答え142、144、14 6、148のいずれか一つに接続される。答えの各々は軌線により最終アルト1 50に接続される。この文法は、利用者からの予想外の返答を初期アルト140 上でループすることにより廃棄し、及び有効な答えの後のスピーチを最終アルト 150上でループすることにより、又は有効な答えのうちの一つの表現の間に間 投詞と休止を受け入れることにより廃棄するためのものである。 図8は全てのアルトに共通のアルト構造152を示している。アルト構造15 2は隠れマルコフ状態のネットワークである。そのパラメータはスクリプト外ス ピーチ、沈黙、又は背景ノイズに対応する音響的特徴を説明するものである。そ れは、初期ノード166と終端ノード168間の遷移円弧158、160又は1 62、164のどちらかに向かう選択肢に沿った「休止」モデル154及び「廃 棄」モデル156からなる。初期ノード166と終端ノード168の間には、直 接向かう遷移円弧170と直接戻る遷移円弧172も存在する。休止モデル15 4や廃棄モデル156の内部構造は、3つのマルコフ状態と5つの遷移円弧から なり、これは、SRIインターナショナル、メンロパーク、カルフォルニアで入 手可能なデシファースピーチ認識システム内での他の言語音のモデル用に用いら れる正確な構造である。 休止モデル154は(一般に記録された)訓練データの非スピーチセグメント 上で訓練された言語音であり、主に沈黙又は訓練データにおいて発生する背景ノ イズの例を含む。廃棄言語音に対するモデル156は、訓練データからランダム に又は周期的に選択された広い範囲のスピーチ上で訓練された言語音である。十 分に訓練された休止モデル言語音154と廃棄モデル言語音156を有したアル ト構造152は、内部で遷移円弧により接続され、以下の起こり得る事象の全て を可能にする。即ち、引き延ばされた沈黙(休止言語音154や戻り円弧172 を介しての多重ループ)、引き延ばされたスクリプト外スピーチ(廃棄言語音1 56や戻り円弧172を介しての多重ループ)、沈黙とスクリプト外スピーチの 交互の周期、及び休止無し且つスクリプト外スピーチ無し(進行遷移円弧170 上のバイパス)である。 休止言語音154や廃棄言語音156に導く初期遷移円弧158又は162は 、各々0.5の確率で等しく重みづけされた発明の一つの実施例である。 図9を参照すると、本発明による朗読速度計算器180が示されている。それ は、アプリケーションサブシステム48(有限状態機械)から得点の組120の 一部(データのアレイ)182を受け取る。これは、タイプ(単語、休止要素、 廃棄要素)及び時間上の位置、並びにタイミングに関係したものにより良好なス ピーチの要素を同定する。確率情報は利用可能であるが使用する必要はない。 朗読速度は「良好な」単語を計数する単語カウンター184とタイマー186 を用いて引き出される。このタイマー186は、フィルタリングされた(良好な )単語を含む句の持続時間を測定又は計算する。朗読速度得点190はデバイダ ー188から決められる。このデバイダー188は、「良好な」単語を含んで許 容された句の復唱において経過した時間Tで「良好な」単語の数を割る。 ここに記載されたサブシステムは、以下に示された等式を援用する回路又は計 算機プログラムにより実行できる。 図10は朗読技能得点230を決める機構192を示している。システムに関 連して、予め選択されたスクリプト内の単語の数の計数値195を与える単語計 数ソース194、スクリプトの最適朗読時間197が伝えられる機構196、廃 棄言語音の数(199)を計数するための手段198、予め選択されたスクリプ ト内の全ての単語の朗読中の全経過時間201を測定するための手段200、及 び前記分析手段により許容できると思われる句の朗読中の「良好な」経過時間を 測定するための手段202が存在する。 デバイダー手段204が良好な時間値203で全時間値201を割り第1商2 05を得るために与えられる。重み付け手段206(マルチプライヤー)が第1 重み付けパラメータ(「a」)で第1商205を重み付けて第1得点成分を得る ために与えられる。3つの重み付けパラメータa,b,cの合計は、好ましくは 全体で1.0であり、技能の測度の3つのタイプの各々の相対的な重みを割り付 ける。 セレクター手段210が最適読み取り時間197と良好な時間203間の最大 値を選択してより好ましい最大値211を作るために与えられる。これは、速い 朗読と好みに従ってペースの示された朗読間の選択を数値化するのに用いられる 。選択評価に関連して、デバイダー手段212が最適朗読時間197で好ましい 最大値211を割って第2の商213を得るために与えられる。第2の商は重み 付け手段214(マルチプライヤー)により第2重み付けパラメータ(b)によ り重み付けられ第2得点成分216が得られる。 加算器又は合計手段218が廃棄言語音の数199とスクリプト単語の数19 5を合計して技能の値219を得るために与えられる。デバイダー手段220が 技能の値219で単語の数195を割って第3の商221を得るために与えられ る。第3の商は重み付け手段222(マルチプライヤー)により第3重み付けパ ラメーター(c)により重み付けられて第3得点成分224を得る。 三入力合計手段226が第1、第2、及び第3得点成分208、216、22 4を合計して得点合計227を得るために与えられる。得点合計227は重み付 け手段によりパーセント又は他のスケールにスケール化される。この重み付け手 段は、値が10であるようなスケール因子228を掛けて朗読技能得点230を 得る。 ここに記載されている朗読技能評価サブシステムは、以下の式を援用する回路 又は計算機プログラムにより実行され得る。 RQS=10*(a*Tg/Tt+b*(Tn/[max(Tn,Tg)])+C*W/(Rg+W) ここで、RQSは1から10のスケール上の朗読技能得点(ここでは10のスケー ル因子を基にしている。)であり、 a,b,cはスケール因子で、その合計は1に等しく特定の実施例では、a= 0.25,b=0.25,c=0.5であり、 Wはテキスト中の単語の数であり、 Tgは「良好な」時間又は良好な文を朗読するのに使った時間であり、 Ttは初期及び最終休止を含めて朗読に使った全朗読時間であり、 Tnは最適朗読時間、即ち良好な現地人話し手による朗読時間であり、 Rgは文の「良好な」表現の間、即ちTgの間に検出された廃棄の数である。 付録Aは、計算機ワークステーション上で実現された本発明によるシステムの ソースコードのリストのマイクロフィッシュ付録である。ソースコードの言語は Cである。 本発明は特定の実施例を参照して説明されてきた。他の実施例も本説明を参照 の上では当業者には明らかとなるであろう。従って、この発明は添付の請求項に より示されたもの以外には制限されることはないであろう。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 チエン,ジヨージ・テイー アメリカ合衆国カリフオルニア州94025 メンロ・パーク、ナンバー7、マーシユ・ ロード 723 (72)発明者 ブツツバーガー,ジヨン・ダブリユー アメリカ合衆国カリフオルニア州94404 フオスター・シテイー、ナンバー3609、バ ウンテイ・ドライヴ 736

Claims (1)

  1. 【特許請求の範囲】 1. スピーチ認識器を組み入れた自動スピーチ認識システムであって、該スピ ーチ認識器は単語列仮説を作りだしスピーチ認識器上の制約として単語列パター ンの範囲を順位付けするための言語モデルを用いる上記自動スピーチ認識システ ムにおける、スピーチパターンをトラッキングし、択一的テキストを含んだ予め 選択されたスクリプトに関して前記スピーチパターン内のエラーを確認し、利用 者に前記予め選択されたスクリプトを復唱するように対話的に促すための方法で あって、 デジタル計算機に文のための文法モデルを与えるステップであって、前記文法 モデルが文を形成するように連続して配列された各単語間に置かれた単一アルト 要素を含んでいる該ステップ、 前記デジタル計算機にスクリプトのための文法モデルを与えるステップであっ て、一連の連続して配列された各文の間に置かれた単一アルト要素により分離さ れた記号列内に文を集合させることにより行う該ステップ、 対象言語で訓練され前記文法モデルを有して前記デジタル計算機内に記憶され た前記スピーチ認識器を用いるステップであって、利用者のスピーチを前記スク リプト内の単語の記号列に整列し、スクリプト化された及びスクリプト化されて ないスピーチ並びに文脈を感知する沈黙を確認する該ステップ、及び 前記スクリプト化された及びスクリプト化されてないスピーチ並びに文脈を感 知する沈黙に応答して、少なくとも3つの忍耐のレベルに従って利用者に音声及 び意味上の正確さをもって前記予め選択されたスクリプトを復唱するように促す ステップ を含んだ上記方法。 2. 請求項1に記載のスピーチ認識システムにおいて、 文の択一的テキストのための文法モデルを与えるステップであって、前記対話 式会話文法モデルが択一的返答の選択前に置かれた第1の共通アルト要素および 択一的返答の前記選択後に置かれた第2の共通アルト要素を含み、それにより音 声上の正確さと意味上の不正確さを有した択一的応答が可能となる該ステップ を更に含んだ上記方法。 3. 請求項1に記載のスピーチ認識システムにおいて、前記スピーチ認識器を 用いるステップが、 前記スピーチ認識器の出力の現在のセグメントに対してスクリプト化された単 語、休止言語音、及び廃棄言語音を周期的に調べるステップ、 前記現在のセグメントに対する廃棄密度を求めるステップ、 前記廃棄密度を廃棄密度閾値と比べるステップ、及び もし前記廃棄密度が前記廃棄密度閾値を越えるならば、スピーチをスクリプト 外として表すステップ を含んでいる上記方法。 4. 請求項3に記載のスピーチ認識システムにおいて、前記廃棄密度が、予め 選択された数の連続したスクリプト化単語から前記スピーチ認識器により戻され た廃棄された言語音の数を前記廃棄された言語音と前記選択された数の単語の合 計で割ることにより求める、上記方法。 5. 請求項1に記載のスピーチ認識システムにおいて、前記スピーチ認識器を 用いるステップが、 前記スピーチ認識器の出力の現在のセグメントに対してスクリプト化された 単語、休止言語音、及び廃棄言語音を周期的に調べるステップ、 前記現在のセグメントに対する廃棄指標を求めるステップ、 前記廃棄指標を廃棄指標閾値と比べるステップ、及び もし前記廃棄指標が前記廃棄指標閾値を越えるならば、スピーチをスクリプト 外として表すステップ を含んでいる上記方法。 6. 請求項5に記載のスピーチ認識システムにおいて、前記廃棄指標を求める ステップが、予め選択された数の連続したスクリプト化単語から前記スピーチ認 識器により戻された廃棄言語音を合計することを含んでいる上記方法。 7. 請求項1に記載のスピーチ認識システムにおいて、前記スピーチ認識器を 用いるステップが、 前記スピーチ認識器の出力の現在のセグメントに対してスクリプト化された 単語、休止言語音、及び廃棄言語音を周期的に調べるステップ、 前記現在のセグメントに対する休止指標を求めるステップ、 前記休止指標を休止指標閾値と比べるステップ、及び もし前記休止指標が前記休止指標閾値を越えるならば、スピーチをスクリプト 外として表すステップ を含んでいる上記方法。 8. 請求項7に記載のスピーチ認識システムにおいて、前記休止指標閾値が言 語的文脈とテキスト内での位置に依存し、前記休止指標閾値が文及び主要な節の 終わりでは文の単語間のどこよりも小さい、上記方法。 9. 請求項7に記載のスピーチ認識システムにおいて、前記休止指標を求める ステップが、予め選択された数の連続したスクリプト化単語から前記スピーチ認 識器により戻された休止言語音を合計することを含んでいる上記方法。 10. 請求項2に記載のスピーチ認識システムにおいて、前記アルト要素が、 引き延ばされた沈黙を含んだ、事象に対する複数の遷移円弧、 引き延ばされたスクリプト外のスピーチ、 沈黙とスクリプト外スピーチの交互した周期、及び 非休止と非スクリプト外スピーチ を含んだ構造からなる上記方法。 11. スピーチ認識器を組み入れた自動スピーチ認識サブシステムを用いて、 システムへの音声入力及び音声、画像出力と共に利用者のスピーチをトラッキン グするためのシステムであって、該スピーチ認識器は単語列仮説を作りだし、ス ピーチ認識器上の制約として単語列パターンの範囲を順位付けるための言語モデ ルを用い、該システムが、 利用者に対象についての情報を示し、許容された発声での予め選択されたスク リプトの朗読を勧めるための手段、 音響的情報の時間不変のフレームからスピーチが含む信号を示す音響的特徴を 検知するための手段、 音響的情報の前記フレームを分析して音響的情報フレームの集積に対応する可 能な発声の組を求めるための手段、 発声の完全性を評価して朗読の正確さを決めるための、前記分析手段に結合さ れた手段、及び 予め選択されたスクリプトの正しい朗読を奨励する応答を発生するための、前 記比較する手段に結合された手段 を含むシステム。 12. トラッキングシステムが利用者に対しては外国の言語での指導用であり 、前記応答を発生するための手段が現地人の発音や表現の例としての可聴応答を 発生するための手段を含んでいる、請求項1に記載のシステム。 13. 朗読された単語の数を計数するための手段、 スクリプト化された単語を朗読中、経過した時間を測定するための手段、及び 計数された単語の前記数を前記測定された経過時間で割るための手段 を含んだ朗読速度を測定するための手段を更に含んだ、請求項11に記載のシス テム。 14. 予め選択されたスクリプト中の単語の数(195)を計数する手段(194) 、 最適な朗読時間を確立する持続時間を与える手段(196)、 廃棄言語音の数(199)を計数するための手段(198)、 予め選択されたスクリプト内の全ての単語の朗読中の全経過時間(201)を測 定するための手段(200)、 前記分析手段により許容されると思われる句の朗読中の良好な経過時間(203 )を測定するための手段(202)、 前記全時間(201)を前記良好時間(203)で割って第1の商(205)を得るた めの手段(204)、 前記第1の商(205)を第1重み付けパラメータ(a)で重み付けして第1得点 成分(208)を得るための手段(206)、 前記最適朗読時間(197)と前記良好時間(203)の間の最大値を選択してより 好ましい最大値(211)を発生するための手段(210)、 前記より好ましい最大値(211)を前記最適朗読時間(197)で割って第2の商 (213)を得るための手段(212)、 前記第2の商(213)を第2重み付けパラメータ(b)で重み付けして第2得点 成 分(216)を得るための手段(214)、 前記廃棄言語音の数(199)と前記単語の数(195)を合計して技能の値を得る ための手段(218)、 前記単語の数(195)を前記技能の値(219)で割って第3の商(221)を得る ための手段(220)、 前記第3の商(221)を第3重み付けパラメータ(c)で重み付けして第3得点 成分(224)を得るための手段(222)、 前記第1得点成分(208)、前記第2得点成分(216)、及び前記第3得点成分 (224)を合計して得点合計(227)を出すための手段(226)、及び 前記得点合計(227)をスケール因子(228)で重み付けして前記朗読技能得点 (230)を得るための手段 を含んだ朗読技能を測定して朗読の技能得点(230)を得るための手段(192)を 更に含んだ、請求項11に記載のシステム。 15. スピーチ認識器を組み入れた自動スピーチ認識サブシステムを用いて、 スピーチをトラッキングし且つシステムへの音声入力と音声出力及びグラフィッ ク出力で利用者と対話するためのシステムであって、該スピーチ認識器は単語列 仮説を作りだし、スピーチ認識器上の制約として単語列パターンの範囲を順位付 けるための言語モデルを用い、該システムは、 対象についての情報を利用者に与え、許容された発声の予め選択された組から 返答を促して音声応答を引き出すための手段、 音響的情報の時間不変のフレームからスピーチが含む信号を示す音響的特徴を 検知するための手段、 音響的情報の前記フレームを分析して音響的情報フレームの集積に対応する可 能な発声の組を求めるための手段、 前記発声の組から発声の完全性を調べるための、前記分析手段に結合された手 段、 発声の終わりの指示で可能な発声の前記組から発声の最良仮説を選択するため の、前記安全性を調べるための手段に結合された手段、 前記最良仮説を許容された発声の予め選択された組と比較して選択された返答 を決めるための、前記選択手段に結合された手段、及び 選択された返答に対応する応答を作るための、前記比較手段に結合された手段 を含む、上記システム。 16. 対話システムが利用者にとっては外国の言語での指導用であり、前記応 答を作るための手段が現地人の発音や表現の例としての可聴応答を発生するため の手段を含む、請求項15に記載のシステム。
JP1994520287A 1993-03-12 1994-03-08 音声対話式言語指導のための方法及び装置 Expired - Lifetime JP3899122B6 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US3285093A 1993-03-12 1993-03-12
US08/032,850 1993-03-12
US081032,850 1993-03-12
PCT/US1994/002542 WO1994020952A1 (en) 1993-03-12 1994-03-08 Method and apparatus for voice-interactive language instruction

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2005237423A Division JP2006048065A (ja) 1993-03-12 2005-08-18 音声対話式言語指導法及び装置

Publications (3)

Publication Number Publication Date
JPH08507620A true JPH08507620A (ja) 1996-08-13
JP3899122B2 JP3899122B2 (ja) 2007-03-28
JP3899122B6 JP3899122B6 (ja) 2007-06-27

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006201491A (ja) * 2005-01-20 2006-08-03 Advanced Telecommunication Research Institute International 発音評定装置、およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006201491A (ja) * 2005-01-20 2006-08-03 Advanced Telecommunication Research Institute International 発音評定装置、およびプログラム

Also Published As

Publication number Publication date
US5634086A (en) 1997-05-27
EP0692135A1 (en) 1996-01-17
WO1994020952A1 (en) 1994-09-15
EP0692135B1 (en) 2000-08-16
ATE195605T1 (de) 2000-09-15
KR960701431A (ko) 1996-02-24
EP0692135A4 (en) 1997-08-13
JP3899122B2 (ja) 2007-03-28
DE69425564D1 (de) 2000-09-21
JP2006048065A (ja) 2006-02-16
KR100309207B1 (ko) 2001-12-17

Similar Documents

Publication Publication Date Title
US5634086A (en) Method and apparatus for voice-interactive language instruction
US7280964B2 (en) Method of recognizing spoken language with recognition of language color
USRE37684E1 (en) Computerized system for teaching speech
US5679001A (en) Children's speech training aid
US6963841B2 (en) Speech training method with alternative proper pronunciation database
US7840404B2 (en) Method and system for using automatic generation of speech features to provide diagnostic feedback
CN110148427A (zh) 音频处理方法、装置、***、存储介质、终端及服务器
US20060004567A1 (en) Method, system and software for teaching pronunciation
CN111862954B (zh) 一种语音识别模型的获取方法及装置
JPH075807A (ja) 合成を基本とした会話訓練装置
WO2006034200A2 (en) Method and system for the automatic generation of speech features for scoring high entropy speech
US20120065977A1 (en) System and Method for Teaching Non-Lexical Speech Effects
JP2002040926A (ja) インターネット上での自動発音比較方法を用いた外国語発音学習及び口頭テスト方法
JPH11143346A (ja) 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
WO2021074721A2 (en) System for automatic assessment of fluency in spoken language and a method thereof
CN113496696A (zh) 一种基于语音识别的言语功能自动评估***和方法
US20230252971A1 (en) System and method for speech processing
Czap Automated speech production assessment of hard of hearing children
Kantor et al. Reading companion: The technical and social design of an automated reading tutor
Evain et al. Human beatbox sound recognition using an automatic speech recognition toolkit
JP3899122B6 (ja) 音声対話式言語指導のための方法及び装置
CA2158062C (en) Method and apparatus for voice-interactive language instruction
Tsubota et al. Practical use of autonomous English pronunciation learning system for Japanese students
Stativă et al. Assessment of Pronunciation in Language Learning Applications
EP4160591A1 (en) Conversation engine and related methods

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040921

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050818

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20051020

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20051117

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060607

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060612

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061225

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110105

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120105

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130105

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130105

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term