JP2006048065A - 音声対話式言語指導法及び装置 - Google Patents

音声対話式言語指導法及び装置 Download PDF

Info

Publication number
JP2006048065A
JP2006048065A JP2005237423A JP2005237423A JP2006048065A JP 2006048065 A JP2006048065 A JP 2006048065A JP 2005237423 A JP2005237423 A JP 2005237423A JP 2005237423 A JP2005237423 A JP 2005237423A JP 2006048065 A JP2006048065 A JP 2006048065A
Authority
JP
Japan
Prior art keywords
speech
script
input
speaker
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005237423A
Other languages
English (en)
Inventor
Dimitry Rtischev
ルテイスシエフ,デイミトリー
Jared C Bernstein
バーンスタイン,ジエアード・シー
George T Chen
チエン,ジヨージ・テイー
John W Butzberger
ブツツバーガー,ジヨン・ダブリユー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SRI International Inc
Original Assignee
SRI International Inc
Stanford Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SRI International Inc, Stanford Research Institute filed Critical SRI International Inc
Publication of JP2006048065A publication Critical patent/JP2006048065A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】利用者と言語的コンテキスト感知の方法で対話でき、準会話的方法で利用者によるスクリプトの朗読をトラッキングし、適当に表現され自然に聞こえる音声で利用者を指導する認識及びフィードバックシステムの操作方法を提供すること。
【解決手段】入力音声及び文法モデルから単語列の認識結果と単音列の認識結果を発生する言語指導及び言語評価のための自動音声認識器の操作方法であって、事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するステップを含む。また、入力音声の正確さの指標をアプリケーションサブシステムからレッスンプログラムに入力し、オーディオ装置及び/又は映像装置を介して、レッスンプログラムを用いて、レッスンプログラムに入力された正確さに従った動作を取ることにより話者の読み上げの正確さを話者に示す。
【選択図】図3

Description

この発明は音声(スピーチ)認識に関し、特に言語又は音声指導で用いるための隠れマルコフモデル(hidden Markov model)(HMM)に基づいたシステムの操作方法等に関する。
背景として、隠れマルコフモデル化のプロセスについての説明は、ラビナー(Rabiner) らによる1986年の論文「隠れマルコフモデル入門(An Introduction to Hidden Markov Models) 」、IEEE ASSP Magazine、1986年1月、4〜16頁に記載されている。
隠れマルコフモデルに基づいた種々の音声認識システムが知られており、ここでその詳細を述べる必要はないであろう。このようなシステムは一般に音素(phoneme) の認識を利用する。この場合の音素は、1組の訓練例から評価されたパラメータを有する音声セグメント(異音(allophone) 又はもっと一般的に単音(phone) を含む。)の統計的モデルである。
単音は音素の音響的認識であり、音素は単語を区別するのに用いることができる音声の最小単位であるので、単語のモデルは適当な単音モデルからネットワークを作ることにより作られる。入力音声信号に対する認識は、単語モデルの組を通る最もあり得そうな経路を探すことにより行われる。
公知の隠れマルコフモデル音声認識システムは、マルコフソースとしての音声導出モデルを基にしている。モデル化されている音声単位は、有限状態機械により表される。確率分布は各ノードを離れる遷移に関連し、ノードに到達するとき各遷移が取る確率を特定する。出力シンボルに対する確率分布は各ノードに関連する。遷移確率分布は暗黙の内に持続時間をモデル化する。出力シンボル分布は一般にスペクトルのような音声信号特性をモデル化するのに用いられる。
遷移と出力シンボルに対する確率分布は、ラベル付けされた音声例を用いて評価される。観測された列を発生する最も高い確率を有するマルコフネットワークを通る経路を求めることにより、認識がなされる。連続音声に対しては、この経路は単語モデルの列に対応するであろう。
語彙外の音声を説明するモデルが知られており、ここではリジェクト単音モデルというが、しばしば「フィルター」モデルとも言われる。このようなモデルは非特許文献1に記載されている。
本発明と共に用いられる特定の隠れマルコフモデル認識システムは、デシファー(Decipher) 音声認識器であり、これはSRIインターナショナル、メンロパーク(Menlo Park)、カルフォルニアから入手できる。デシファーシステムは、確率的音韻論的情報、コンテキスト依存の様々なレベルで音声モデルを訓練できるトレーナー、単語の多様な発音、及び認識器を組み込んでいる。共同発明者は本発明の周辺に関連した指導法などの開発について他の論文やレポートを出している。その各々は、質疑応答技術の初期のものについて述べている。例えば、非特許文献2、非特許文献3及び非特許文献4を参照せよ。これらの論文は、実演の観測者が経験することを単に記載したものである。
他の言語訓練技術も知られている。例えば、エザワ(Ezawa) 他の米国特許第4,969,194 号には、言語の発音における利用者の簡単な練習用システムが開示されている。そのシステムでは音声認識は出来ないけれども、コンパレーターを用いて信号を基にしたフィードバック機構を有していると思われる。このコンパレーターは、音声の幾つかの音響的特徴及び音声の基本周波数を基準の組と比較する。
オカモト(Okamoto) の米国特許第4,380,438 号には、利用者自身の音声を記録し再生するために用いられるアナログテープレコーダーのデジタルコントローラーが開示されている。これは認識することはできない。
ボグ(Boggs) への米国特許第4,860,360 号は、通信チャンネル内の歪みが分析される音声評価用システムである。その開示は信号分析と歪み程度の計算のみに関連しており、どんな既知の語彙に対しても音声信号の整列や認識は行わない。
ハーブソン(Harbeson)への米国特許第4,276,445 号には、アナログピッチ表示より粗い音声分析システムが記載されている。それが本発明に関連するとは考えられない。
ホランド(Holland) 他への米国特許第4,641,343 号には、フォルマント周波数を引き出すアナログシステムが記載されている。このフォルマント周波数は、利用者への基本的な表示のためにマイクロプロセッサーに送られる。唯一のフィードバックは、入力信号から直接計算可能な特徴のグラフィック表現である。音声認識又はその他の如何なる高レベル処理に対する要素も存在しない。
ベーカー(Baker) 他への米国特許第4,783,803 号には、音声認識装置及び技術が開示されており、これは音声の開始を探すべくフレーム間の場所を求めるための手段を含んでいる。この開示には、音響パラメータのみを処理する低レベル音響ベースの終点検出器が含まれるが、より高いレベルのコンテキスト感知式の終点検出は可能ではない。
米国特許第4,969,194号 米国特許第4,380,438号 米国特許第4,860,360号 米国特許第4,276,445号 米国特許第4,641,343号 米国特許第4,783,803号 ローズ(Rose)他による「隠れマルコフモデルを基にしたキーワード認識システム(A Hidden Markov Model Based Keyword Recognition System)」、IEEE ICASSP のプロシーディング、1990年 「英語発音の自動評価と訓練(Automatic Evaluation and Training in English Pronunciation)」、Proc. ICSLP 90、1990年11月、神戸、日本、 「不特定話者連続音声認識の商用応用に向けて(Toward Commercial Applications of Speaker-Independent Continuous Speech Recognition) 」、Speech Tech 91のプロシーディング、1991年4月23日、ニューヨーク、ニューヨーク 「音声対話式言語指導システム(A Voice Interactive Language Instruction System) 」、Eurospeech 91 のプロシーディング、ジェノア、イタリア、1991年9月25日
必要とされているのは、利用者と言語的コンテキスト感知の方法で対話でき、準会話的方法で利用者によるスクリプト(script)の朗読をトラッキングし、適当に表現され自然に聞こえる音声で利用者を指導する認識及びフィードバックシステムである。
本発明の概略
本発明によると、指導及び評価のための、特に言語の指導及び言語の流暢さの評価のための言語的コンテキスト感知式の音声認識を用いた指導システムが提供される。このシステムは、非ネーティブである利用者の強い外国アクセントを許容する一方、自然な音声対話式方法でレッスン、特に言語レッスンをしてその評価を与えることができる。レッスン資料と指導は、これに制限されるものではないが、ビデオ、オーディオ又は印刷された視覚的テキストを含めて、種々の方法で学習者に提示できる。例として、言語指導の特定された用途においては、ある指導は利用者になじみの言語でできる一方、会話及び対話の全体を目標言語、即ち指導言語で行うことができる。
システムは、予め選択された視覚情報と共に、訓練を受けている人に聴覚情報を与えることができる。システムは、朗読段階中、システムに記憶されているスクリプトとの比較に基づいて選択された音声パラメータを監視しながら、被訓練者である利用者を促してテキストを大声で読むように促す。次に、システムは、利用者に特定の質問を行って、可能な応答のリストを提示する。それから、利用者は、目標言語で適当な応答を復唱することにより答えるのを期待される。システムは、利用者の下手な発音、休止、およびその他の失流暢にも拘わらず、スクリプト化された音声を正確に認識でき自然に応答できる。
特定の実施例では、レッスン中の単語列パターンの範囲に対応する有限状態文法の組が、HMM音声認識器内の隠れマルコフモデル(HMM) 探索装置上の制約として用いられる。このHMM音声認識器は、目標言語のネーティブ話者により作られた目標言語によるナレーション(スクリプト)の隠れマルコフモデルの組を含んでいる。
他の言語的コンテキスト感知式の音声認識器も基本的な音声認識エンジンとして用いることができるけれども、本発明は好ましくはSRIインターナショナル、メンロパーク、カルフォルニアから入手可能なデシファー音声認識器のような言語的コンテキスト感知式の音声認識器の利用に基づいている。
本発明は、朗読練習のような練習を通して利用者を先導するための機構や、対話式決定機構を用いた一群の多項選択式の質問を含む。この決定機構は少なくとも3つのエラー許容レベルを用いており、それにより、人間を基にした対話式指導における自然なレベルの忍耐をシミュレートする。
朗読段階のための機構は、少なくとも4つの状態を有する有限状態機械又は同等物を通じて実現され、これはスクリプト中のどんな場所の朗読エラーも認識し、動作の第1組を用いる。対話式質問段階のための関連した機構もまた、少なくとも4つの状態を有するもう一つの有限状態機械を通じて実現されるが、動作の第2組を用い、誤った応答のみならず朗読エラーも認識する。
少なくとも休止とスクリプトを外れた発声とを含んだ失流暢を明白にモデル化しつつ、ナレーション用のスクリプトを用いることにより、音声の確率的モデルは、言語的コンテキスト感知式の音声認識器の一部として、簡素化さる。
対話式朗読及び質問/応答段階と共に、言語的に感知する発声終点の検出が、音声発声の終端を判定すべく行われ、会話音声における人の交替時をシミュレートする。
採点システムが与えられ、これは、正しい朗読中の時間部分や、対象者の朗読速度と標準のネーティブの朗読速度の比や、認識された単語ストリーム内の「アルト(alt) 」単位(新しい音声モデル)の部分に重み付けすることにより、音声及び朗読の熟達度、即ち速度とエラーレートを分析することができる。
DSP装置又は同等の能力を有するプロセッサーと共に、本発明により特定のレッスンの科目についてシステムと利用者の間のリアルタイムの会話ができるようになる。本発明は便利にはシステムから離れた場所で電話ネットワークを介して用いることができる。利用者は電話番号を選択することによりシステムにアクセスし、システムとの対話のための視覚的又は記憶された資料を参照する。
本発明は添付の図面に関連した以下の詳細な記載を参照することによりよりよく理解されるであろう。
特定の実施例の説明
図1を参照すると、本発明による指導装置10のシステムブロック図が示されており、装置10の近くに位置する利用者12を指導するか、又は装置10から離れて位置する利用者12’を指導し電話14を介して通信する。ローカル利用者12はマイクロフォン16を通じてシステムと対話でき、スピーカー又はイヤホン18及び映像モニター(CRT)20を介して指導及びフィードバックされる。リモート利用者12’は、新聞広告などの刊行若しくは印刷されたテキスト22を通じて促され、又はなんらかの周知又は記憶されたテキストを用いることができる。リモート利用者の電話14はマルチプレクサー26を介して電話ネットワーク24を通じて結ばれる。ローカル利用者のマイクロフォン16もマルチプレクサー26に接続される。マルチプレクサー26の出力はプリアンプ28に接続され、ローパスフィルター30を介してアナログ−デジタル変換器32に接続される。この変換器32は、ワークステーション又は時分割計算機36内のデジタル信号処理(DSP)サブシステム34の一部である。DSPサブシステム34からの出力は、デジタル−アナログ変換器(DAC)38を介してアンプ40又は電話ネットワーク24のどちらか一方又は両方に供給される。これらのアンプ40及び電話ネットワーク24は夫々スピーカー18及び電話14に接続される。CRT20は一般的にワークステーション36の映像出力装置である。適当なDSPサブシステムとしては「ソニテックスピリット30(Sonitech Spirit 30)」DSPカードがあり、適当なワークステーションとしてはサンマイクロシステムズ(Sun Microsystems)のスパークステーション2ユニックスワークステーション(SPARCStation 2 UNIX workstation)がある。
図1に関連した図2を参照すると、基本的システムの基本操作が描かれている。システムは好ましくは、SRIインターナショナルのデシファーシステムのような音声認識システムを中心に構築される。利用者12は映像又は音によって催促するような刺激に反応してマイクロフォン(MIC)14に話す。マイクロフォン14の連続的な音声信号は電気的経路を通じて「フロントエンド」信号処理システム42に送られる。この信号処理システム42は主にDSPサブシステム34内に含まれ、マザーワークステーション36の制御に従う。フロントエンド信号処理システム42は、特徴抽出をして音響的特徴パラメータをモデル探索器44に送る。このモデル探索器44は、隠れマルコフモデルのモデルの組(HMM models)46を中心に構築される。モデル探索器44は、音響的特徴により「探索」を行う。これらの音響的特徴は、有限状態文法により、管理可能で限定的な選択の組のみに制約される。従って、利用者には、HMMモデル46との比較の際に発音の質において相当な許容度を与えることができる。限定的な文法及び語彙の準備されたレッスンの形式のアプリケーションサブシステム48が、モデル探索器44と情報伝達する。アプリケーションサブシステム48は、探索が行われるモデル探索器44に有限状態文法を供給する。モデル探索器44は、デシファーのような音声認識システムに組み込まれた逆トレーシングプロセスを介して逆トレース発生情報だけでなく認識や非認識をアプリケーションサブシステム48に伝える。それから、アプリケーションサブシステム48は本発明に従って利用者12と対話する。
本発明と共に用いられる音声処理システムには2つの機能モードがあり、それは訓練モードと認識モードである。図3には、その処理が描かれている。訓練モードでは、訓練スクリプト102が訓練母集団104内の複数の人に与えられ、その各々は訓練スクリプト102に対応する複数の音声パターン106を作る。訓練スクリプト102と音声パターン106は、索引付けられた組として隠れマルコフモデルトレーナー108に与えられ、目標言語音声の一般HMMモデル111を作る。このことは、目標言語に対して一回だけ行われる必要があり、一般にはネーティブ話者といく人かの非ネーティブ話者を使って目標言語音声の一般HMMモデルを生成する。それから、HMMネットワークモデルコンパイラー110は、一般HMMモデルと予め選択されたスクリプト114を入力して、特に予め選択されたスクリプト用の音声モデルのネットワーク113を作る。ネットワークモデルコンパイラーの出力は、隠れマルコフモデルを基にした音声認識器112に与えられる。
認識モードでは、予め選択されたスクリプト114が被訓練者/利用者又は発音が評価されるべき装置116に対して与えられる。この予め選択されたスクリプト114は、訓練スクリプト102の機能的な一部であるが、選択されたスクリプト102の単語を必ずしも含まない。被訓練者/利用者116の音声は、予め選択されたスクリプト114に対応する音声パターン118の形式をとると推定される。予め選択されたスクリプト114と一つの音声パターン118は、索引付けられた組として隠れマルコフモデル音声認識器112に与えられる。現在の各評価期間(単音長、単語長、句長、又は文長の期間)中に、単語が認識器112により認識される。当該評価期間及び前の期間中に認識された単語の数から、認識得点の組120が計算され、ここに記載された種類のレッスン制御ユニットとして動作するアプリケーションサブシステム48(図2)に送られる。得点の組120は、逆トレース発生情報内に組み入れられた認識プロセスのスナップショットである。この得点の組120は、後に説明される決定装置を具体化する有限状態機械を用いるアプリケーションサブシステム48/レッスン制御ユニットに送られる。有限状態機械は、他にも機能はあるが、得点の組の生の情報をフィルタリングし、スクリプト化されたレッスンの良好な表現のみを同定する。具体的には、有限状態機械は得点の組の一部を同定して、それを基に、朗読速度や朗読の質を含めてレッスン実技の質を判定する。
図4Aは、本発明に従った装置に組み込まれたレッスンを通じて利用者を先導するプロセスのフローチャートである。これは、アプリケーションサブシステム48に組み込まれた有限状態機械(FSM)として働く。このアプリケーションサブシステム48は、利用者12との対話及びレッスン資料を制御する。
動作中は、CRT上に表示し得るスクリプト又は読まれるべき印刷資料として作成されたスクリプトを参照することをFSMにより指示される。i=1の文インデックスとj=1の単語インデックスから始めて(ステップA)、トラッキングプロセスが行われる(ステップB)。FSMは利用者がスクリプト中の最後の文を読み終えたか否かを調べ(ステップC)、もし真ならばEND(エンド)に抜け出る(ステップD)。そうでなければ、FSMは利用者がトラッカー(tracker) により検出されたときに休止しているか否か、及び最後のトラッキング操作以後スクリプトから適切な(認識可能な)単語を朗読したか否かを調べる(ステップE)。もし真ならば、FSMは好ましくは、例えば返答「オーケイ」のような、音声又は映像の肯定的返答で応答し(ステップF)、FSMはトラッキングプロセスを繰り返す(ステップB)。
他方、もしFSMが最後のトラッキング操作以後利用者が適切な単語を朗読した後に休止していないことを認めるならば、FSMは利用者に「P(i)から読んで下さい。」と言って催促する(ステップG)。P(i)は、トラッキングされてない単語を含んだ句又はその直前の句におけるスクリプト中で同定された位置の最初の部分である。その後、トラッキングプロセスは再び実施され(ステップH)、この時点での忍耐のレベルは、利用者が事実上1ペナルティを有しているレベルである。それからFSMは、この新しいレベルで上述したように最後の文の終了を調べ(ステップI)、もしスクリプトが終了していたら終わる(ステップJ)。そうでなければ、FSMは利用者がトラッキング操作により検出されるとき休止しているか否か、及びスクリプトから適切な(認識可能な)単語を読んだか否かを調べる(ステップK)。もし真ならば、FSMは好ましくは、例えば返答「オーケイ」のような音声又は映像の肯定返答で応答し(ステップL)、新しい文の始まりを調べ(ステップM)、もし肯定ならば、FSMはトラッキングプロセスを繰り返し(ステップB)、もし否定ならば、FSMは現在の文内のトラッキングを繰り返す(ステップH)。
もしトラッキング操作により示されているように正しく単語が読まれていないならば(ステップK)、FSMは新しい文が始まったか否かを調べる(ステップN)。肯定の場合には、FSMはサイクルを繰り返し、文の初めから読むように利用者に促す(ステップG)。もしそれが文の初めでないならば、FSMは「違います。文はS(i)です。P(i)から読んで下さい。」と言う(ステップP)。換言すれば、利用者は文のモデルを与えられ、文の初めから開始すること、即ち再度試みることを催促される。
催促の後に、FSMはトラッキング手順を再実行し(ステップQ)、それから最後の文が話されたか否かを調べる(ステップR)。もし肯定ならば終わり(ステップS)、そうでなければ、利用者がスクリプトから適切な単語を読み終わった後に休止しているのか否かを調べる(ステップT)。もし真ならば、FSMは「ok」を出し(ステップU)、新しい文を調べ(ステップV)、もし否定ならば、トラッキングを再び始める(ステップQへ)。そうではなくもし新しい文ならば、トラッキングを忍耐の最高レベルに再設定する(ステップB)。もしFSMが適切な単語をトラッキングしていないならば、新しい文が始まったか否かを調べ(ステップW)、もしそうならば、最初の文位置P(i)から読み始めるように利用者を促す(ステップGへ)。もしそれが新しい文でないならば、FSMは「よろしい。よくやった。今度は次の文の初めから読みなさい。(即ち、P(i+1))」のようなフレーズを述べることにより忍耐の損失を示す(ステップZ)。それから文計数インデックスiが1文だけ増加され(i+1)(ステップAA)、単語計数インデックスjは1にリセットされ(ステップAB)、最初のトラッキングプロセスに戻り(ステップBへ)、FSMはその忍耐の初期レベルを再び得る。
図4Bは図4AにおいてFSMにより用いられるトラッキングプロセス(ステップB、H、Q)のフロー図である。トラッキングプロセスは、例えば、予め選択されたスクリプトに対応する音声パターンの隠れマルコフモデルを用いて入力音声の1秒間を調べる(ステップAC)。FSMはカウンター(iとj)を現在の位置に更新し(ステップAD)、最後の文が復唱されたか否かを調べる(ステップAE)。もし肯定 ならば、トラッキングプロセスが終わる(ステップAF)。もし最後の文が認識されなければ、FSMは、前の単語以後に認識された休止単音の数である休止指標を計算する(ステップAG)。この休止指標は、一般的に休止の長さを示すものである。それから、この休止指標は、現在の位置(i,j)及び練習厳格さレベルに対する休止指標閾値と比較される(ステップAH)。もし休止指標がこの閾値を越えるならば、トラッキングプロセスは終わる(ステップAI)。もしそうでないならば、FSMはリジェクト(廃棄)指標を計算する(ステップAJ)。リジェクト指標とは、予め選択されたスクリプトに対応する音声を利用者が発していない可能性を一般に示し、このリジェクト指標は、例えば、最後の単語以後に認識器により戻された全てのリジェクト単音を合計することにより計算される。
その後、リジェクト指標がリジェクト指標閾値と比較される(ステップAK)。この閾値は、練習採点厳格さレベル又はテキスト中の現在の位置の関数である。もしこの指標が閾値を越えるならば、当該手順は終わる(ステップAL)。もしそうでないならば、リジェクト密度が計算される(ステップAM)。
リジェクト密度は、スクリプト化された単語の前の数(例えば、5)を調べ、認識器により戻されたリジェクト単音の数を計数し、リジェクト単音の数をリジェクト単音の数とスクリプト化された単語の数(5)との合計で割ることにより計算される。その商がリジェクト密度である。従って、休止長の変化はリジェクト密度に影響しない。
その後、リジェクト密度がリジェクト密度閾値(練習厳格さレベル、テキスト位置又はその両方の関数)と比較される(ステップAN)。もしリジェクト密度が閾値を越えていると、トラッキングプロセスは終わる(ステップAO)。そうでなければ、トラッキングプロセスは続けられる(ステップAC)。
リジェクト指標閾値、リジェクト密度閾値、及び休止指標閾値は、厳格さのレベル又はテキスト中の位置の関数として可変的に調節できる。調節は利用者、レッスン設計者、又は自動的にシステムにより行うことができる。
図5を参照すると、レッスンの朗読段階中の文レベル文法の構造が示されている。文レベル文法及び関連する言語的構造は、休止、ためらい雑音、及び生徒である話し手の音声に予期されるその他のスクリプト外の音声現象を許容するのに必要な構造的精巧さを与える。この文法は、スクリプト化された音声パターンから認識された文126、128、130を分離する「アルト」構造122からなる。「アルト」構造122(など)の目的は、読み手により朗読又は応答練習中に種々のポイントに朗読中に挿入されがちなスクリプト外(非スクリプトの又はスクリプトされてない)音声又は沈黙(単なる休止ではない)を同定又は説明することである。本発明によるアルト構造は、隠れマルコフモデルを基にした音声認識システムにおいて用いることができ、基本的な音声認識器に機能を追加して無関係な入力又は非スクリプト入力を明瞭な方法で扱うことができるようにしている。
図6を参照すると、朗読モード又は応答モードでの文に対する単語レベル文法の構造が示されている。特定のキーが検出のために探されるという公知の単語レベル文法とは違って、この文法は明らかに全ての単語の間の流暢でない復唱を予想しており、従って順序づけられた各単語136、138間のアルト構造132、134からなる。単語は、基本的単位として認識器により戻され得るが、アルト構造は、ここで更に詳細に説明するアルト構造を構成するリジェクト単音及び休止単音のストリングとして認識器により分析され戻される。これにより、アプリケーションサブシステム48(図2)は利用者による朗読に関してより高レベルの決定ができるようになる。
図7を参照すると、応答モードにおける文レベル文法の構造が示されている。初期アルト140は軌線により選択肢としての複数の答え142、144、146、148のいずれか一つに接続される。答えの各々は軌線により最終アルト150に接続される。この文法は、初期アルト140上でループすることにより利用者からの予想外の返答をリジェクト(廃棄)し、また、最終アルト150上でループすることにより又は有効な答えのうちの一つの表現中に間投詞と休止を受け入れることにより、有効な答えの後の音声をリジェクトするためのものである。
図8は全てのアルトに共通のアルト構造152を示している。アルト構造152は隠れマルコフ状態のネットワークである。そのパラメータはスクリプト外の音声、沈黙、又は背景ノイズに対応する音響的特徴を説明べく訓練されている。アルト構造152は、初期ノード166と終端ノード168間の遷移弧158、160又は162、164のどちらかに向かう選択肢に沿った「休止」モデル154及び「リジェクト」モデル156からなる。初期ノード166と終端ノード168の間には、直接向かう遷移弧170と直接戻る遷移弧172も存在する。休止モデル154やリジェクトモデル156の内部構造は、3つのマルコフ状態と5つの遷移弧からなり、これは、SRIインターナショナル、メンロパーク、カルフォルニアで入手可能なデシファー音声認識システムにおいて他の単音のモデルに用いられる正確な構造である。
休止モデル154は、(一般に記録された)訓練データの非音声セグメントにより訓練された単音であり、主に訓練データ中に発生する沈黙又は背景ノイズの例からなる。リジェクト単音のモデル156は、訓練データからランダムに又は周期的に選択された広範囲の音声により訓練された単音である。
十分に訓練された休止モデル単音154とリジェクトモデル単音156とを有したアルト構造152は、内部で遷移弧により接続され、以下の起こり得る事象の全てを考慮できる。即ち、長期の沈黙(休止単音154と戻り円弧172を介しての多重ループ)、長期のスクリプト外の音声(リジェクト単音156と戻り円弧172を介しての多重ループ)、沈黙とスクリプト外の音声が交互する期間、及び休止無し且つスクリプト外音声無し(進行遷移弧170によるバイパス)である。
休止単音154やリジェクト単音156に導く初期遷移弧158又は162は、本発明の一つの実施例では、各々0.5の確率で等しく重みづけされる。
図9を参照すると、本発明による朗読速度計算器180が示されている。この朗読速度計算器180は、アプリケーションサブシステム48(有限状態機械)から得点の組120の一部(データのアレイ)182を受け取り、種類(単語、休止要素、リジェクト要素)及び時間上の位置並びに特定の関連タイミングにより良好な音声の要素を同定する。確率情報は利用可能であるが使用する必要はない。
朗読速度は「良好な」単語を計数する単語カウンター184とタイマー186を用いて導き出される。このタイマー186は、フィルタリングされた(適切な)単語を含む句の持続時間を測定又は計算する。朗読速度得点190はデバイダー188により求められる。このデバイダー188は、「良好な」単語を含んで許容された句の復唱において経過した時間Tで「良好な」単語の数を割る。
ここに記載されたサブシステムは、以下に示された等式を実行する回路又は計算機プログラムにより実現できる。
図10は朗読の質の得点230を決める機構192を示している。システムに関連して、予め選択されたスクリプト内の単語の数の計数値195を与える単語計数ソース194、スクリプトの最適朗読時間197を伝える機構196、リジェクト単音の数(199)を計数するための手段198、予め選択されたスクリプト内の全ての単語の朗読中の全経過時間201を測定するための手段200、及び前記分析手段により許容できると思われる句の朗読中の「良好な」経過時間を測定するための手段202が存在する。
デバイダー手段204は、良好な時間値203で全時間値201を割り第1の商205を得るために設けられる。重み付け手段206(マルチプライヤー)は、第1重み付けパラメータ(「a」)で第1の商205を重み付けて第1得点成分を得るために設けられる。3つの重み付けパラメータa,b,cの合計は、慣例により好ましくは1.0であり、質の測度における3つのタイプ各々の相対的な重みの割り当てを可能にする。
セレクター手段210は、最適読み取り時間197と良好な時間203のうちの最大値を選択して好ましい最大値211を得るために設けられる。これは、速い朗読と好みに従って先導された朗読のうちの選択を数値化するのに用いられる。選択評価に関連して、デバイダー手段212が、最適朗読時間197で好ましい最大値211を割って第2の商213を得るために設けられる。第2の商は、重み付け手段214(マルチプライヤー)により第2重み付けパラメータ(b)で重み付けられ、第2得点成分216が得られる。
加算器又は合計手段218が設けられ、リジェクト単音の数199とスクリプト単語の数195とを合計して質の値219を得る。デバイダー手段220が設けられ、質の値219で単語の数195を割って第3の商221を得る。第3の商は、重み付け手段222(マルチプライヤー)により第3重み付けパラメーター(c)で重み付けられ、第3得点成分224が得られる。
三入力合計手段226が設けられ、第1、第2、及び第3得点成分208、216、224を合計して得点合計227を得る。得点合計227は、値が10であるようなスケール因子228を掛ける重み付け手段によりパーセント又は他のスケールにスケーリングされ、朗読の質の得点230が得られる。
ここに記載されている朗読の質の評価サブシステムは、以下の式を用いる回路又は計算機プログラムにより実行され得る。
RQS = 10 * (a*Tg/Tt + b*(Tn/[max(Tn,Tg)]) + c*W/(Rg + W)
ここで、
RQS は1から10のスケール上の朗読の質の得点(ここでは10のスケール因子を基にしている。)であり、
a,b,cはスケール因子で、その合計は1に等しく、特定の実施例では、a=0.25,b=0.25,c=0.5であり、
Wはテキスト中の単語の数であり、
g は「良好な」時間又は適切な文を朗読するのに使った時間であり、
t は初期及び最終休止を除いて朗読に使った全朗読時間であり、
n は最適朗読時間、即ち適切なネーティブ話し手による朗読時間であり、
g は文の「適切な」表現中、即ちTg 中に検出されたリジェクトの数である。
付録Aは、計算機ワークステーション上で実現された本発明によるシステムのソースコードのリストのマイクロフィッシュ付録である。ソースコードの言語はCである。
本発明は特定の実施例を参照して説明されてきた。他の実施例も本説明を参照の上では当業者には明らかとなるであろう。従って、この発明は添付の請求項により示されたもの以外には制限されることはないであろう。
本発明に関連の実施態様を以下に記す。
1. 入力音声及び文法モデルから単語列の認識結果と単音列の認識結果を発生しモデルトレーナー、アプリケーションサブシステム及び自動音声認識器を備えた言語指導及び言語評価のための自動音声認識システムの操作方法であって、入力音声は、所定のスクリプトを読み上げるように話者に促したのに応じて話者により話された音声であり、該方法は、
モデルトレーナーにおいて、事前に選ばれたスクリプトから文法モデルを発生するステップ;
該モデルトレーナーにおいて、可能性のある非スクリプトの音声及び休止を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するステップ;
変更した文法モデルと共に自動音声認識器を用いて、入力音声から入力認識結果を発生するステップであって、前記入力認識結果は、前記変更した文法モデルにより許容された単語及びアルトの列の部分集合からなる前記ステップ;
アプリケーションサブシステムにおいて、入力認識結果を、事前に選ばれたスクリプト中に見いだされる単語の一つ、非スクリプトの音声及び沈黙として識別される列に分解するステップであって、入力認識結果中のアルトは、非スクリプトの音声及び沈黙に関連している前記ステップ;
該アプリケーションサブシステムにおいて、入力認識結果中のアルトの分布に基づいて入力音声の正確さを評価するステップであって、前記正確さは、入力音声の話者が読み上げるように促された事前に選ばれたスクリプトに対し、いかに良好に入力音声が一致しているかの尺度である前記ステップ;及び
アプリケーションサブシステム、オーディオ装置及び/又は映像装置から入力音声の正確さの指標を出力することで、いかに良好に話者が事前に選ばれたスクリプトを読み上げたかを話者に知らせるステップ
を含む上記方法。
2. アナログ-デジタル変換器にて入力音声をデジタル化し、デジタル化した入力音声をデジタルメモリに記憶するステップ;
文法モデルと変更した文法モデルをデジタルメモリに記憶するステップ;及び
デジタルコンピュータの音声認識器において、入力音声と記憶した文法モデルを比較するステップ
をさらに含む、第1項に記載の方法。
3. 入力音声に応じて、少なくとも3つの忍耐レベルに従って音声的及び意味的に的確な事前に選択したスクリプトを再度読み上げるようにオーディオ装置及び/又は映像装置を介して話者に促すステップをさらに含む、第1項に記載の方法。
4. 入力音声及び文法モデルから単語列の認識結果と単音列の認識結果を発生しモデルトレーナー、アプリケーションサブシステム及び自動音声認識器を備えた言語指導及び言語評価のための自動音声認識システムの操作方法であって、入力音声は、所定のスクリプトを読み上げるように話者に促したのに応じて話者により話された音声であり、該方法は、
モデルトレーナーにおいて、事前に選ばれたスクリプトから文法モデルを発生するステップ;
該モデルトレーナーにおいて、可能性のある非スクリプトの音声及び休止を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するステップ
変更した文法モデルと共に自動音声認識器を用いて、入力音声から入力認識結果を発生するステップであって、前記入力認識結果は、前記変更した文法モデルにより許容された単語及びアルトの列の部分集合からなる前記ステップ;
アプリケーションサブシステムにおいて、入力認識結果を、事前に選ばれたスクリプト中に見いだされる単語の一つ、非スクリプトの音声及び沈黙として識別される列に分解するステップであって、入力認識結果中のアルトは、非スクリプトの音声及び沈黙に関連している前記ステップ;
該アプリケーションサブシステムにおいて、入力認識結果中のアルトの分布に基づいて入力音声の正確さを評価するステップ;及び
アプリケーションサブシステム、オーディオ装置及び/又は映像装置から入力音声の正確さの指標を話者に出力するステップ
を含み、前記事前に選ばれたスクリプトが代替テキストを含み、
また、該方法が、モデルトレーナーにおいて代替テキストに対する双方向性の会話文法モデルを発生するステップであって、該双方向性の会話文法モデルが、代替フレーズの選択の前に置かれた第1の共通アルト要素と、代替フレーズの選択の後に置かれた第2の共通アルト要素を含み、音声的に正確だが意味的に不的確な代替応答を可能にするステップをさらに含む上記方法。
5. 長期の沈黙、長期のスクリプト外の音声、沈黙期間とスクリプト外の音声の期間を交互にもつ音声、及び休止又はスクリプト外の音声のない音声を含めた事象に対する複数の遷移弧としてアルト要素が構造化される、第4項に記載の方法。
6. 入力音声及び文法モデルから単語列の認識結果と単音列の認識結果を発生しモデルトレーナー、アプリケーションサブシステム及び自動音声認識器を備えた言語指導及び言語評価のための自動音声認識システムの操作方法であって、入力音声は、所定のスクリプトを読み上げるように話者に促したのに応じて話者により話された音声であり、該方法は、
モデルトレーナーにおいて、事前に選ばれたスクリプトから文法モデルを発生するステップ;
該モデルトレーナーにおいて、可能性のある非スクリプトの音声及び休止を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するステップ
変更した文法モデルと共に自動音声認識器を用いて、入力音声から入力認識結果を発生するステップであって、前記入力認識結果は、前記変更した文法モデルにより許容された単語及びアルトの列の部分集合からなる前記ステップ;
アプリケーションサブシステムにおいて、入力認識結果を、事前に選ばれたスクリプト中に見いだされる単語の一つ、非スクリプトの音声及び沈黙として識別される列に分解するステップであって、入力認識結果中のアルトは、非スクリプトの音声及び沈黙に関連し、
a)アプリケーションサブシステムの有限状態機械において、スクリプト化された単語、休止単音及びリジェクト単音について音声認識器による現在のセグメント出力を反復して調べるステップ;
b)アプリケーションサブシステムの有限状態機械において、現在のセグメントに対しリジェクト密度を求めるステップ;及び
c)アプリケーションサブシステムの有限状態機械において、もしリジェクト密度がリジェクト密度のしきい値を超えているならば、現在のセグメントをスクリプト外の音声として表すステップ
を含む前記ステップ;
アプリケーションサブシステムにおいて、入力認識結果中のアルトの分布に基づいて入力音声の正確さを評価するステップ;及び
アプリケーションサブシステム、オーディオ装置及び/又は映像装置から入力音声の正確さの指標を話者に出力するステップ
を含む上記方法。
7. 現在のセグメントのリジェクト密度を求めるステップが、前記有限状態機械において、所定数の連続したスクリプト化された単語に対する音声認識器により戻されたリジェクト単音の数を、リジェクト単音数と該所定数の連続したスクリプト化された単語数との和で除するステップを含む、第6項に記載の方法。
8. 入力音声及び文法モデルから単語列の認識結果と単音列の認識結果を発生しモデルトレーナー、アプリケーションサブシステム及び自動音声認識器を備えた言語指導及び言語評価のための自動音声認識システムの操作方法であって、入力音声は、所定のスクリプトを読み上げるように話者に促したのに応じて話者により話された音声であり、該方法は、
モデルトレーナーにおいて、事前に選ばれたスクリプトから文法モデルを発生するステップ;
該モデルトレーナーにおいて、可能性のある非スクリプトの音声及び休止を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するステップ
変更した文法モデルと共に自動音声認識器を用いて、入力音声から入力認識結果を発生するステップであって、前記入力認識結果は、前記変更した文法モデルにより許容された単語及びアルトの列の部分集合からなる前記ステップ;
アプリケーションサブシステムにおいて、入力認識結果を、事前に選ばれたスクリプト中に見いだされる単語の一つ、非スクリプトの音声及び沈黙として識別される列に分解するステップであって、入力認識結果中のアルトは、非スクリプトの音声及び沈黙に関連し、
a)アプリケーションサブシステムの有限状態機械において、スクリプト化された単語、休止音及びリジェクト単音について音声認識器による現在のセグメント出力を反復して調べるステップ;
b)アプリケーションサブシステムの有限状態機械において、現在のセグメントに対しリジェクト密度を求めるステップ;及び
c)アプリケーションサブシステムの有限状態機械において、もしリジェクト密度がリジェクト密度のしきい値を超えているならば、現在のセグメントをスクリプト外の音声として表すステップ
を含む前記ステップ;
アプリケーションサブシステムにおいて、入力認識結果中のアルトの分布に基づいて入力音声の正確さを評価するステップ;及び
アプリケーションサブシステム、オーディオ装置及び/又は映像装置から入力音声の正確さの指標を話者に出力することで、いかに良好に話者が所定のスクリプトを読み上げたかを話者に知らせるステップ
を含む上記方法。
9. 現在のセグメントに対するリジェクト指標を求めるステップが、所定数の連続したスクリプト化された単語に対し音声認識器により戻されたリジェクト単音数を合計するステップを含む、第8項に記載の方法。
10. 入力音声及び文法モデルから単語列の認識結果と単音列の認識結果を発生しモデルトレーナー、アプリケーションサブシステム及び自動音声認識器を備えた言語指導及び言語評価のための自動音声認識システムの操作方法であって、入力音声は、所定のスクリプトを読み上げるように話者に促したのに応じて話者により話された音声であり、該方法は、
モデルトレーナーにおいて、事前に選ばれたスクリプトから文法モデルを発生するステップ;
該モデルトレーナーにおいて、可能性のある非スクリプトの音声及び休止を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するステップ
変更した文法モデルと共に自動音声認識器を用いて、入力音声から入力認識結果を発生するステップであって、前記入力認識結果は、前記変更した文法モデルにより許容された単語及びアルトの列の部分集合からなる前記ステップ;
アプリケーションサブシステムにおいて、入力認識結果を、事前に選ばれたスクリプト中に見いだされる単語の一つ、非スクリプトの音声及び沈黙として識別される列に分解するステップであって、入力認識結果中のアルトは、非スクリプトの音声及び沈黙に関連し、
a)アプリケーションサブシステムの有限状態機械において、スクリプト化された単語、休止単音及びリジェクト単音について音声認識器による現在のセグメント出力を反復して調べるステップ;
b)前記有限状態機械において、現在のセグメントに対し休止指標を求めるステップ;及び
c)前記有限状態機械において、もし休止指標が休止指標のしきい値を超えているならば、現在のセグメントを有効(actionable)な休止として表すステップであって、該有効な休止は、自動音声認識器と話者の間の対話における交替点を表す前記ステップ
を含む前記ステップ;
アプリケーションサブシステムにおいて、入力認識結果中のアルトの分布に基づいて入力音声の正確さを評価するステップ;及び
アプリケーションサブシステム、オーディオ装置及び/又は映像装置から入力音声の正確さの指標を話者に出力することで、いかに良好に話者が所定のスクリプトを読み上げたかを話者に知らせるステップ
を含む上記方法。
11. アプリケーションサブシステムにおいて、現在のセグメントの言語的文脈及び所定のスクリプト中の現在のセグメントの位置に依存したしきい値として休止指標のしきい値を発生するステップであって、休止指標のしきい値が、所定のスクリプトの文の他のところの単語間よりも文及び主節の終わりにて小さい前記ステップをさらに含む、第10項に記載の方法。
12. 休止指標を求めるステップが、アプリケーションサブシステムにおいて、所定のスクリプトのうち所定数の連続した単語から音声認識器により戻された休止単音を合計するステップを含む、第10項に記載の方法。
13. 文法モデル及び所定のスクリプトを読み上げるように促された話者により話された入力音声から単語列の認識結果及び単音列の認識結果を作る自動音声認識器を用いて、話者の音声をトラッキングするためのシステムであって、
主題及び所定のスクリプトについて話者に情報を与え、かつ所定のスクリプトを読み上げるように話者に促すための提示手段;
提示手段の催促に応じて話された入力音声を電子的に取り込むための音声検出手段であって、取り込んだ入力音声はコンピュータメモリに記憶される前記手段;
取り込んだ入力音声を分析し、単語及びアルトを認識すべく訓練された認識モデルと単語及びアルトを含んだ文法に基づいて単語及びアルトの列を求める自動音声認識手段であって、求められた単語及びアルトは取り込んだ入力音声に対応し、単語は所定のスクリプトの一部として識別され、アルトは非スクリプトの音声及び休止を表す前記手段;
自動音声認識手段に接続され、前記列を受け取り、その結果から発声の完全性を評価し、所定のスクリプトの読み上げの正確さを求めるための音声評価手段であって、前記正確さは、いかに良好に入力音声が、入力音声の話者が読み上げるように促された所定のスクリプトに一致しているかの尺度である前記手段;及び
評価手段に接続され、もし読み上げが正確でないならば、所定のスクリプトを正しく読み上げるよう話者に指示する応答を行うための応答手段を備える前記システム。
14. 話者にとっては外国語で指導するために用いられる第13項に記載のシステムであって、応答手段が、ネイティブの発音及び該言語での音声の表現の例として可聴応答を発生するための手段を含む前記システム。
15. 読み上げ速度を測定するための手段をさらに含み、該手段が、
読み上げられた単語を計数して読み上げられた単語数を求めるための単語カウンター手段;
スクリプト化された単語の読み上げ時間を測定するためのタイマー手段;及び
読み上げられた単語数を、測定した経過時間で除するための第1デバイダー手段
を含む、第13項に記載のシステム。
16. 読み上げの質を測定して読み上げの質の得点(230)を得るための手段(192)をさらに含み、該手段が、
所定のスクリプト中の単語(195)を計数して所定のスクリプトの単語数を求めるための単語計数手段(194);
最適な読み上げ時間(197)を伝えるための伝達手段(196);
リジェクト単音(199)を計数してリジェクト単音の数を求めるための計数手段(198);
所定のスクリプトの読み上げ中に経過した総時間(201)を測定するための第1時間測定手段(200);
分析手段により許容可能と判断されたフレーズの読み上げ中に経過した良好時間(203)を測定するための第2時間測定手段(202);
第2時間測定手段から良好時間(203)を受け取り、第1時間測定手段から総時間(201)を受け取り、良好時間(203)を総時間(201)で除して第1の商(205)を得るための第1デバイダー手段(204);
伝達手段から最適読み上げ時間(197)を受け取り、最適読み上げ時間(197)と良好時間(203)のうちの最大である好適な最大値(211)を選択して出力するためのセレクター手段(210);
伝達手段(196)に接続されて最適読み上げ時間を受け取り、セレクター手段に接続されて好適な最大値を受け取り、最適読み上げ時間(197)を好適な最大値(211)で除して第2の商(213)を得るための第2デバイダー手段(212);
単語計数手段(194)に接続されて所定のスクリプトの単語数(195)を受け取り、計数手段(198)に接続されてリジェクト単音数(199)を受け取り、リジェクト単音数(199)と所定のスクリプトの単語数(195)とを合計し、質の値(219)を得るための合計手段(218);
合計手段(218)に接続されて質の値を受け取り、単語計数手段(194)に接続されて所定のスクリプトの単語数(195)を受け取り、所定のスクリプトの単語数(195)を質の値(219)で除して第3の商(221)を得るための第3デバイダー手段(220);及び
第1デバイダー手段(204)に接続されて第1得点成分(208)を受け取り、第2デバイダー手段(212)に接続されて第2得点成分(216)を受け取り、第3デバイダー手段(220)に接続されて第3得点成分(224)を受け取り、第1得点成分(208)、第2得点成分(216)及び第3得点成分(224)の重み付き合計として、読み上げの質の得点(230)を計算するための計算手段
を備える、第13項に記載のシステム。
17. 文法モデル及び所定のスクリプトを読み上げるように促された話者により話された入力音声から単語列の認識結果及び単音列の認識結果を作る自動音声認識器を用いて、話者の音声をトラッキングするためのシステムであって、
主題及び所定のスクリプトについて話者に情報を与え、かつ所定のスクリプトを読み上げるように話者に促すための提示手段;
提示手段の催促に応じて話された入力音声を電子的に取り込むための手段であって、取り込んだ入力音声はコンピュータメモリに記憶される前記手段;
取り込んだ入力音声を分析し、単語及びアルトを認識すべく訓練された認識モデルと単語及びアルトを含んだ文法に基づいて単語及びアルトの列を求める音声認識手段であって、求めた単語とアルトは取り込んだ入力音声に対応し、単語は所定のスクリプトの一部として識別され、アルトは非スクリプトの音声及び休止を表す前記手段;
分析手段に接続され、発声の完全性を評価し、所定のスクリプトの読み上げの正確さを求めるための手段;
評価手段に接続され、もし読み上げが正確でないならば、所定のスクリプトを正しく読み上げるよう話者に指示する応答を行うための応答手段;
読み上げの質を測定して読み上げの質の得点(230)を得るための手段(192)であって、
(a)所定のスクリプト中の単語(195)を計数して所定のスクリプトの単語数を求めるための単語計数手段(194);
(b)最適な読み上げ時間(197)を伝えるための伝達手段(196);
(c)リジェクト単音(199)を計数してリジェクト単音の数を求めるための計数手段(198);
(d)所定のスクリプトの読み上げ中に経過した総時間(201)を測定するための第1時間測定手段(200);
(e)分析手段により許容可能と判断されたフレーズの読み上げ中に経過した良好時間(203)を測定するための第2時間測定手段(202);
(f)第2時間測定手段から良好時間(203)を受け取り、第1時間測定手段から総時間を受け取り、良好時間(203)を総時間(201)で除して第1の商(205)を得るための第1デバイダー手段(204);
(g)伝達手段から最適読み上げ時間(197)を受け取り、最適読み上げ時間(197)と良好時間(203)のうちの最大である好適な最大値(211)を選択し出力するためのセレクター手段(210);
(h)伝達手段(196)から最適読み上げ時間を受け取り、セレクター手段から好適な最大値を受け取り、最適読み上げ時間(197)を好適な最大値(211)で除して第2の商(213)を得るための第2デバイダー手段(212);
(i)単語計数手段(194)から所定のスクリプトの単語数(195)を受け取り、計数手段(198)からリジェクト単音数(199)を受け取り、リジェクト単音数(199)と所定のスクリプトの単語数(195)とを合計し、質の値(219)を得るための合計手段(218);
(j)合計手段(218)から質の値を受け取り、単語計数手段(194)から所定のスクリプトの単語数(195)を受け取り、所定のスクリプトの単語数(195)を質の値(219)で除して第3の商(221)を得るための第3デバイダー手段(220);及び
(k)第1デバイダー手段(204)から第1得点成分(208)を受け取り、第2デバイダー手段(212)から第2得点成分(216)を受け取り、第3デバイダー手段(220)から第3得点成分(224)を受け取り、第1得点成分(208)、第2得点成分(216)及び第3得点成分(224)の重み付き合計として、読み上げの質の得点(230)を計算するための計算手段;
を含む前記手段(192)
を備え、前記計算手段が、
1)第1の商(205)を第1の重み付けパラメータ(a)で重み付けして第1得点成分(208)を得るための第1乗算手段(206);
2)第2の商(213)を第2の重み付けパラメータ(b)で重み付けして第2得点成分(216)を得るための第2乗算手段(214);
3)第3の商(221)を第3の重み付けパラメータ(c)で重み付けして第3得点成分(224)を得るための第3乗算手段(222);
4)第1得点成分(208)、第2得点成分(216)及び第3得点成分(224)を合計して得点合計(227)を出すための合計手段(226);及び
5)得点合計(227)を倍率(228)で重み付けして読み上げの質の得点(230)を得るための第4乗算手段
をさらに備える、前記システム。
18. 音声出力及びグラフィック出力と自動音声認識器とを用いて音声をトラッキングしかつ話者と対話するためのシステムであって、該自動音声認識器は、複数の所定の代替スクリプトを含んだ所定のスクリプトから読み上げるように促された後に話者が話した入力音声と文法モデルとから、単語列の認識結果と単音列の認識結果を作り、該システムは、
主題について話者に情報を提示し、複数の所定の代替スクリプトのうちの一つを読み上げるよう話者に促すための提示手段;
入力音声を電子的に取り込むための感知手段であって、取り込まれた入力音声はコンピュータメモリに記憶される前記感知手段;
取り込まれた入力音声を分析し、話者により話された入力音声に対応する入力認識結果を求めるための分析手段であって、該分析手段は単語及びアルトを認識すべく訓練された音声認識モデルと単語及びアルトを含んだ文法に基づいて入力認識結果を求め、求めた入力認識結果は取り込んだ入力音声に対応し、単語は所定のスクリプトの一部として識別され、アルトは非スクリプトの音声、休止及び/又は背景ノイズを表す前記分析手段;
分析手段に接続され、複数の所定の代替スクリプトのうちどの所定の代替スクリプトが入力認識結果に最もよく対応しているかを特定するための特定手段;
特定手段に接続され、発声の完全性を評価して特定された所定の代替スクリプトの読み上げの正確さを求めるための評価手段であって、該正確さは、入力音声が、入力音声の話者に読み上げるように促された所定のスクリプトといかに良好に一致しているかの尺度である前記評価手段;及び
評価手段に接続され、特定された所定の代替スクリプトの読み上げの正確さと、特定された所定の代替スクリプトの意味的な適切さとを話者に示す応答を、発声の完了の際に出力するための出力手段
を含む、前記システム。
19. 対話システムが、話者にとっては外国語による指導用であり、応答手段が、ネイティブの発音及び表現の例として可聴応答を発生するための手段を含む、第18項に記載のシステム。
20. 指標を出力するステップが、指標を間接的に出力するステップであり、
アプリケーションサブシステムからレッスンプログラムに指標を入力するステップ;及び
オーディオ装置及び/又は映像装置を介して、レッスンプログラムを用いて、レッスンプログラムに入力された正確さに従った動作を取ることにより話者の読み上げの正確さを話者に示すステップ
を含む、第1項に記載の方法。
本発明によるシステムのブロック図である。 本発明で用いられる認識プロセスの機能ブロック図である。 本発明に関連して用いられるプロセスの機能ブロック図である。 本発明に従った装置に組み込まれたレッスンを通じて利用者を先導するプロセスのフローチャートの最初の一部である。 本発明に従った装置に組み込まれたレッスンを通じて利用者を先導するプロセスのフローチャートの次の一部である。 本発明に従ったトラッキングプロセスのフローチャートである。 本発明に従った朗読モードにおいて用いられる文レベル文法の状態図である。 本発明に従って用いられる単語レベル文法の状態図である。 本発明に従った応答モードにおいて用いられる文レベル文法の状態図である。 本発明に従った上記文法で用いられる「アルト」構造の状態図である。 朗読速度の計算器のブロック図である。 朗読の質の計算器のブロック図である。
符号の説明
10 指導装置
12 利用者
14 電話
16 マイク
18 スピーカー
20 CRT
22 テキスト
24 電話ネットワーク
26 マルチプレクサー
34 デジタル信号処理(DSP)サブシステム
36 ワークステーション
42 フロントエンド信号処理システム
44 モデル探索器
46 HMMモデル
48 アプリケーションサブシステム
108 HMMトレーナー
112 音声認識器

Claims (1)

  1. 入力音声及び文法モデルから単語列の認識結果と単音列の認識結果を発生しモデルトレーナー、アプリケーションサブシステム及び自動音声認識器を備えた言語指導及び言語評価のための自動音声認識システムの操作方法であって、入力音声は、所定のスクリプトを読み上げるように話者に促したのに応じて話者により話された音声であり、該方法は、
    モデルトレーナーにおいて、事前に選ばれたスクリプトから文法モデルを発生するステップ;
    該モデルトレーナーにおいて、可能性のある非スクリプトの音声及び休止を表すアルト要素を、文法モデルにおいて事前に選ばれたスクリプトの単語間及び文間に組み込んで、変更した文法モデルを形成するステップ;
    変更した文法モデルと共に自動音声認識器を用いて、入力音声から入力認識結果を発生するステップであって、前記入力認識結果は、前記変更した文法モデルにより許容された単語及びアルトの列の部分集合からなる前記ステップ;
    アプリケーションサブシステムにおいて、入力認識結果を、事前に選ばれたスクリプト中に見いだされる単語の一つ、非スクリプトの音声及び沈黙として識別される列に分解するステップであって、入力認識結果中のアルトは、非スクリプトの音声及び沈黙に関連している前記ステップ;
    該アプリケーションサブシステムにおいて、入力認識結果中のアルトの分布に基づいて入力音声の正確さを評価するステップであって、前記正確さは、入力音声の話者が読み上げるように促された事前に選ばれたスクリプトに対し、いかに良好に入力音声が一致しているかの尺度である前記ステップ;及び
    アプリケーションサブシステム、オーディオ装置及び/又は映像装置から入力音声の正確さの指標を出力することで、いかに良好に話者が事前に選ばれたスクリプトを読み上げたかを話者に知らせるステップ
    を含み、更に、
    指標を出力するステップが、指標を間接的に出力するステップであり、
    アプリケーションサブシステムからレッスンプログラムに指標を入力するステップ;及び
    オーディオ装置及び/又は映像装置を介して、レッスンプログラムを用いて、レッスンプログラムに入力された正確さに従った動作を取ることにより話者の読み上げの正確さを話者に示すステップ
    を含む方法。
JP2005237423A 1993-03-12 2005-08-18 音声対話式言語指導法及び装置 Withdrawn JP2006048065A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US3285093A 1993-03-12 1993-03-12

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP1994520287A Division JP3899122B6 (ja) 1993-03-12 1994-03-08 音声対話式言語指導のための方法及び装置

Publications (1)

Publication Number Publication Date
JP2006048065A true JP2006048065A (ja) 2006-02-16

Family

ID=21867160

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005237423A Withdrawn JP2006048065A (ja) 1993-03-12 2005-08-18 音声対話式言語指導法及び装置

Country Status (7)

Country Link
US (1) US5634086A (ja)
EP (1) EP0692135B1 (ja)
JP (1) JP2006048065A (ja)
KR (1) KR100309207B1 (ja)
AT (1) ATE195605T1 (ja)
DE (1) DE69425564D1 (ja)
WO (1) WO1994020952A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023248520A1 (ja) * 2022-06-20 2023-12-28 オムロンヘルスケア株式会社 認知機能検査装置及び認知機能検査プログラム

Families Citing this family (145)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6109923A (en) 1995-05-24 2000-08-29 Syracuase Language Systems Method and apparatus for teaching prosodic features of speech
DK0956552T3 (da) * 1995-12-04 2002-11-04 Jared C Bernstein Fremgangsmåde og anordninger til kombinerede informationer fra talesignaler med henblik på adaptiv interaktion til undervisnings- og testformål
IL120622A (en) * 1996-04-09 2000-02-17 Raytheon Co System and method for multimodal interactive speech and language training
GB9619165D0 (en) * 1996-09-13 1996-10-23 British Telecomm Training apparatus and method
WO1998014934A1 (en) 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
US6157913A (en) * 1996-11-25 2000-12-05 Bernstein; Jared C. Method and apparatus for estimating fitness to perform tasks based on linguistic and other aspects of spoken responses in constrained interactions
US5857173A (en) * 1997-01-30 1999-01-05 Motorola, Inc. Pronunciation measurement device and method
US5920838A (en) * 1997-06-02 1999-07-06 Carnegie Mellon University Reading and pronunciation tutor
JPH1152979A (ja) * 1997-08-08 1999-02-26 Fujitsu Ltd 順序データの音声認識装置
US6125341A (en) * 1997-12-19 2000-09-26 Nortel Networks Corporation Speech recognition system and method
US5995932A (en) * 1997-12-31 1999-11-30 Scientific Learning Corporation Feedback modification for accent reduction
US6134529A (en) * 1998-02-09 2000-10-17 Syracuse Language Systems, Inc. Speech recognition apparatus and method for learning
JP3178426B2 (ja) * 1998-07-29 2001-06-18 日本電気株式会社 自然言語対話システム及び自然言語対話プログラム記録媒体
KR100385892B1 (ko) * 1998-09-10 2003-08-14 이에스피 평가 아카데미(주) 외국어말하기평가시스템
US6380934B1 (en) * 1998-11-30 2002-04-30 Mitsubishi Electric Research Laboratories, Inc. Estimating targets using statistical properties of observations of known targets
US6353924B1 (en) * 1999-02-08 2002-03-05 Incert Software Corporation Method for back tracing program execution
US7062441B1 (en) 1999-05-13 2006-06-13 Ordinate Corporation Automated language assessment using speech recognition modeling
US6308151B1 (en) * 1999-05-14 2001-10-23 International Business Machines Corp. Method and system using a speech recognition system to dictate a body of text in response to an available body of text
US6468084B1 (en) * 1999-08-13 2002-10-22 Beacon Literacy, Llc System and method for literacy development
US7149690B2 (en) 1999-09-09 2006-12-12 Lucent Technologies Inc. Method and apparatus for interactive language instruction
WO2001024139A1 (fr) * 1999-09-27 2001-04-05 Kojima Co., Ltd. Systeme d'evaluation de la prononciation
US7206746B1 (en) 1999-11-09 2007-04-17 West Corporation Third party verification system
US7130800B1 (en) 2001-09-20 2006-10-31 West Corporation Third party verification system
US6401066B1 (en) 1999-11-09 2002-06-04 West Teleservices Holding Company Automated third party verification system
JP3520022B2 (ja) 2000-01-14 2004-04-19 株式会社国際電気通信基礎技術研究所 外国語学習装置、外国語学習方法および媒体
US7031923B1 (en) * 2000-03-06 2006-04-18 International Business Machines Corporation Verbal utterance rejection using a labeller with grammatical constraints
US6644973B2 (en) * 2000-05-16 2003-11-11 William Oster System for improving reading and speaking
US7047196B2 (en) * 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
US6850882B1 (en) 2000-10-23 2005-02-01 Martin Rothenberg System for measuring velar function during speech
US7792676B2 (en) * 2000-10-25 2010-09-07 Robert Glenn Klinefelter System, method, and apparatus for providing interpretive communication on a network
GB0030079D0 (en) * 2000-12-09 2001-01-24 Hewlett Packard Co Voice exchanges with voice service systems
AU2002231045A1 (en) * 2000-12-18 2002-07-01 Digispeech Marketing Ltd. Method of providing language instruction and a language instruction system
US7400712B2 (en) * 2001-01-18 2008-07-15 Lucent Technologies Inc. Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access
US6523007B2 (en) * 2001-01-31 2003-02-18 Headsprout, Inc. Teaching method and system
US7966187B1 (en) 2001-02-15 2011-06-21 West Corporation Script compliance and quality assurance using speech recognition
US7739115B1 (en) 2001-02-15 2010-06-15 West Corporation Script compliance and agent feedback
US7191133B1 (en) 2001-02-15 2007-03-13 West Corporation Script compliance using speech recognition
US8180643B1 (en) 2001-02-15 2012-05-15 West Corporation Script compliance using speech recognition and compilation and transmission of voice and text records to clients
US7664641B1 (en) 2001-02-15 2010-02-16 West Corporation Script compliance and quality assurance based on speech recognition and duration of interaction
US8095370B2 (en) 2001-02-16 2012-01-10 Agiletv Corporation Dual compression voice recordation non-repudiation system
WO2002071390A1 (en) * 2001-03-01 2002-09-12 Ordinate Corporation A system for measuring intelligibility of spoken language
KR20010044657A (ko) * 2001-03-14 2001-06-05 김선래 말하기 능력 평가 시스템
US7403938B2 (en) * 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
KR20030027990A (ko) * 2001-09-27 2003-04-08 주식회사 아이티엔방송 음성 인식 시스템을 이용한 인터넷 영어 능력 평가 시스템및 그 방법
US7386453B2 (en) * 2001-11-14 2008-06-10 Fuji Xerox, Co., Ltd Dynamically changing the levels of reading assistance and instruction to support the needs of different individuals
US6819758B2 (en) 2001-12-21 2004-11-16 West Corporation Method, system, and computer-readable media for performing speech recognition of indicator tones
KR20020062564A (ko) * 2001-12-29 2002-07-26 강선 인터넷상에서의 외국어 교정 방법 및 그 시스템
US6953343B2 (en) 2002-02-06 2005-10-11 Ordinate Corporation Automatic reading system and methods
US7024362B2 (en) * 2002-02-11 2006-04-04 Microsoft Corporation Objective measure for estimating mean opinion score of synthesized speech
US7016842B2 (en) * 2002-03-26 2006-03-21 Sbc Technology Resources, Inc. Method and system for evaluating automatic speech recognition telephone services
US6862343B1 (en) 2002-03-27 2005-03-01 West Corporation Methods, apparatus, scripts, and computer readable media for facilitating secure capture of sensitive data for a voice-based transaction conducted over a telecommunications network
US6804331B1 (en) 2002-03-27 2004-10-12 West Corporation Method, apparatus, and computer readable media for minimizing the risk of fraudulent receipt of telephone calls
JP2003308091A (ja) * 2002-04-17 2003-10-31 Pioneer Electronic Corp 音声認識装置、音声認識方法および音声認識プログラム
JP4224250B2 (ja) * 2002-04-17 2009-02-12 パイオニア株式会社 音声認識装置、音声認識方法および音声認識プログラム
EP1376537B1 (en) * 2002-05-27 2009-04-08 Pioneer Corporation Apparatus, method, and computer-readable recording medium for recognition of keywords from spontaneous speech
US6937702B1 (en) 2002-05-28 2005-08-30 West Corporation Method, apparatus, and computer readable media for minimizing the risk of fraudulent access to call center resources
US7403967B1 (en) 2002-06-18 2008-07-22 West Corporation Methods, apparatus, and computer readable media for confirmation and verification of shipping address data associated with a transaction
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7249011B2 (en) * 2002-08-12 2007-07-24 Avaya Technology Corp. Methods and apparatus for automatic training using natural language techniques for analysis of queries presented to a trainee and responses from the trainee
US6889147B2 (en) * 2002-09-17 2005-05-03 Hydrogenics Corporation System, computer program product and method for controlling a fuel cell testing device
US7752045B2 (en) * 2002-10-07 2010-07-06 Carnegie Mellon University Systems and methods for comparing speech elements
US7593842B2 (en) * 2002-12-10 2009-09-22 Leslie Rousseau Device and method for translating language
US7324944B2 (en) * 2002-12-12 2008-01-29 Brigham Young University, Technology Transfer Office Systems and methods for dynamically analyzing temporality in speech
US20040138883A1 (en) * 2003-01-13 2004-07-15 Bhiksha Ramakrishnan Lossless compression of ordered integer lists
US7171358B2 (en) * 2003-01-13 2007-01-30 Mitsubishi Electric Research Laboratories, Inc. Compression of language model structures and word identifiers for automated speech recognition systems
WO2004092756A1 (en) * 2003-04-17 2004-10-28 Hydrogenics Corporation Alarm recovery system and method for fuel cell testing systems
US7797146B2 (en) * 2003-05-13 2010-09-14 Interactive Drama, Inc. Method and system for simulated interactive conversation
US7421393B1 (en) 2004-03-01 2008-09-02 At&T Corp. System for developing a dialog manager using modular spoken-dialog components
US20040229954A1 (en) * 2003-05-16 2004-11-18 Macdougall Diane Elaine Selective manipulation of triglyceride, HDL and LDL parameters with 6-(5-carboxy-5-methyl-hexyloxy)-2,2-dimethylhexanoic acid monocalcium salt
US20080249779A1 (en) * 2003-06-30 2008-10-09 Marcus Hennecke Speech dialog system
US20050027523A1 (en) * 2003-07-31 2005-02-03 Prakairut Tarlton Spoken language system
US7524191B2 (en) * 2003-09-02 2009-04-28 Rosetta Stone Ltd. System and method for language instruction
US7386451B2 (en) * 2003-09-11 2008-06-10 Microsoft Corporation Optimization of an objective measure for estimating mean opinion score of synthesized speech
WO2005028713A1 (en) * 2003-09-22 2005-03-31 Hydrogenics Corporation Electrolyzer cell stack system
CN1320482C (zh) * 2003-09-29 2007-06-06 摩托罗拉公司 标识文本串中的自然语音停顿的方法
US20050144010A1 (en) * 2003-12-31 2005-06-30 Peng Wen F. Interactive language learning method capable of speech recognition
US7660715B1 (en) * 2004-01-12 2010-02-09 Avaya Inc. Transparent monitoring and intervention to improve automatic adaptation of speech models
US7412393B1 (en) * 2004-03-01 2008-08-12 At&T Corp. Method for developing a dialog manager using modular spoken-dialog components
CN1942875B (zh) * 2004-04-12 2010-05-26 松下电器产业株式会社 对话支援装置
US20060008781A1 (en) * 2004-07-06 2006-01-12 Ordinate Corporation System and method for measuring reading skills
KR100701271B1 (ko) 2004-08-20 2007-03-29 동아시테크주식회사 온라인 외국어 인터뷰 학습 및 평가 시스템과 그 시스템을이용한 인터뷰 학습 및 평가 방법
US8109765B2 (en) * 2004-09-10 2012-02-07 Scientific Learning Corporation Intelligent tutoring feedback
US20060057545A1 (en) * 2004-09-14 2006-03-16 Sensory, Incorporated Pronunciation training method and apparatus
WO2006136061A1 (en) * 2005-06-24 2006-12-28 Intel Corporation Measurement and presentation of spoken language fluency
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US20070055514A1 (en) * 2005-09-08 2007-03-08 Beattie Valerie L Intelligent tutoring feedback
US8756057B2 (en) 2005-11-02 2014-06-17 Nuance Communications, Inc. System and method using feedback speech analysis for improving speaking ability
US20100304342A1 (en) * 2005-11-30 2010-12-02 Linguacomm Enterprises Inc. Interactive Language Education System and Method
US7526722B2 (en) * 2005-12-29 2009-04-28 Sap Ag System and method for providing user help according to user category
US7979798B2 (en) * 2005-12-30 2011-07-12 Sap Ag System and method for providing user help tips
KR100687441B1 (ko) * 2006-03-16 2007-02-27 장성옥 외국어 음성 평가 방법 및 시스템
US7653543B1 (en) 2006-03-24 2010-01-26 Avaya Inc. Automatic signal adjustment based on intelligibility
US8171412B2 (en) * 2006-06-01 2012-05-01 International Business Machines Corporation Context sensitive text recognition and marking from speech
US7962342B1 (en) 2006-08-22 2011-06-14 Avaya Inc. Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns
US7925508B1 (en) 2006-08-22 2011-04-12 Avaya Inc. Detection of extreme hypoglycemia or hyperglycemia based on automatic analysis of speech patterns
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8542802B2 (en) 2007-02-15 2013-09-24 Global Tel*Link Corporation System and method for three-way call detection
US20080201158A1 (en) 2007-02-15 2008-08-21 Johnson Mark D System and method for visitation management in a controlled-access environment
US8041344B1 (en) 2007-06-26 2011-10-18 Avaya Inc. Cooling off period prior to sending dependent on user's state
KR100943477B1 (ko) 2007-07-10 2010-02-22 한국방송공사 말하기 능력 공증 시스템 및 그 방법
US20090087821A1 (en) * 2007-09-27 2009-04-02 Kuang Chien Computer Co., Ltd. Digital language teaching system
US8103503B2 (en) * 2007-11-01 2012-01-24 Microsoft Corporation Speech recognition for determining if a user has correctly read a target sentence string
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
KR20100022243A (ko) * 2008-08-19 2010-03-02 현대자동차주식회사 블루투스를 이용한 외국어 학습 시스템 및 그 방법
US20100105015A1 (en) * 2008-10-23 2010-04-29 Judy Ravin System and method for facilitating the decoding or deciphering of foreign accents
TW201019288A (en) * 2008-11-13 2010-05-16 Ind Tech Res Inst System and method for conversation practice in simulated situations
US9225838B2 (en) 2009-02-12 2015-12-29 Value-Added Communications, Inc. System and method for detecting three-way call circumvention attempts
US8630726B2 (en) * 2009-02-12 2014-01-14 Value-Added Communications, Inc. System and method for detecting three-way call circumvention attempts
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8682241B2 (en) * 2009-05-12 2014-03-25 International Business Machines Corporation Method and system for improving the quality of teaching through analysis using a virtual teaching device
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US20110189646A1 (en) * 2010-02-01 2011-08-04 Amos Benninga Pedagogical system method and apparatus
KR101153736B1 (ko) * 2010-05-31 2012-06-05 봉래 박 발음기관 애니메이션 생성 장치 및 방법
US9262941B2 (en) * 2010-07-14 2016-02-16 Educational Testing Services Systems and methods for assessment of non-native speech using vowel space characteristics
DE112010005959B4 (de) * 2010-10-29 2019-08-29 Iflytek Co., Ltd. Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
WO2013003749A1 (en) * 2011-06-30 2013-01-03 Rosetta Stone, Ltd Statistical machine translation framework for modeling phonological errors in computer assisted pronunciation training system
WO2013138633A1 (en) * 2012-03-15 2013-09-19 Regents Of The University Of Minnesota Automated verbal fluency assessment
JP6045175B2 (ja) * 2012-04-05 2016-12-14 任天堂株式会社 情報処理プログラム、情報処理装置、情報処理方法及び情報処理システム
WO2014005142A2 (en) 2012-06-29 2014-01-03 Rosetta Stone Ltd Systems and methods for modeling l1-specific phonological errors in computer-assisted pronunciation training system
US9076347B2 (en) * 2013-03-14 2015-07-07 Better Accent, LLC System and methods for improving language pronunciation
US9412362B2 (en) 2013-08-28 2016-08-09 Verint Systems Ltd. System and method for determining the compliance of agent scripts
US9589564B2 (en) 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US20150294580A1 (en) * 2014-04-11 2015-10-15 Aspen Performance Technologies System and method for promoting fluid intellegence abilities in a subject
US9412393B2 (en) 2014-04-24 2016-08-09 International Business Machines Corporation Speech effectiveness rating
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的***和方法
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10255913B2 (en) * 2016-02-17 2019-04-09 GM Global Technology Operations LLC Automatic speech recognition for disfluent speech
US10572961B2 (en) 2016-03-15 2020-02-25 Global Tel*Link Corporation Detection and prevention of inmate to inmate message relay
US9609121B1 (en) 2016-04-07 2017-03-28 Global Tel*Link Corporation System and method for third party monitoring of voice and video calls
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US10431112B2 (en) 2016-10-03 2019-10-01 Arthur Ward Computerized systems and methods for categorizing student responses and using them to update a student model during linguistic education
US10027797B1 (en) 2017-05-10 2018-07-17 Global Tel*Link Corporation Alarm control for inmate call monitoring
US10225396B2 (en) 2017-05-18 2019-03-05 Global Tel*Link Corporation Third party monitoring of a activity within a monitoring platform
US10860786B2 (en) 2017-06-01 2020-12-08 Global Tel*Link Corporation System and method for analyzing and investigating communication data from a controlled environment
US9930088B1 (en) 2017-06-22 2018-03-27 Global Tel*Link Corporation Utilizing VoIP codec negotiation during a controlled environment call
GB2568902B (en) * 2017-11-29 2020-09-09 Auris Tech Ltd System for speech evaluation
US11232798B2 (en) * 2020-05-21 2022-01-25 Bank Of America Corporation Audio analysis system for automatic language proficiency assessment

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4276445A (en) * 1979-09-07 1981-06-30 Kay Elemetrics Corp. Speech analysis apparatus
US4380438A (en) * 1981-08-31 1983-04-19 Yugen Kaisha Batora Konsaruteingu Automated study voice record/reproduction system
US4641343A (en) * 1983-02-22 1987-02-03 Iowa State University Research Foundation, Inc. Real time speech formant analyzer and display
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
US4887212A (en) * 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
JPH065451B2 (ja) * 1986-12-22 1994-01-19 株式会社河合楽器製作所 発音訓練装置
US4862408A (en) * 1987-03-20 1989-08-29 International Business Machines Corporation Paradigm-based morphological text analysis for natural languages
US4852180A (en) * 1987-04-03 1989-07-25 American Telephone And Telegraph Company, At&T Bell Laboratories Speech recognition by acoustic/phonetic system and technique
US4860360A (en) * 1987-04-06 1989-08-22 Gte Laboratories Incorporated Method of evaluating speech
JPH0293597A (ja) * 1988-09-30 1990-04-04 Nippon I B M Kk 音声認識装置
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5010495A (en) * 1989-02-02 1991-04-23 American Language Academy Interactive language learning system
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5075896A (en) * 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering
JP2964507B2 (ja) * 1989-12-12 1999-10-18 松下電器産業株式会社 Hmm装置
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
US5329609A (en) * 1990-07-31 1994-07-12 Fujitsu Limited Recognition apparatus with function of displaying plural recognition candidates
US5268990A (en) * 1991-01-31 1993-12-07 Sri International Method for recognizing speech using linguistically-motivated hidden Markov models
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
CA2088080C (en) * 1992-04-02 1997-10-07 Enrico Luigi Bocchieri Automatic speech recognizer
US5333275A (en) * 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023248520A1 (ja) * 2022-06-20 2023-12-28 オムロンヘルスケア株式会社 認知機能検査装置及び認知機能検査プログラム

Also Published As

Publication number Publication date
KR960701431A (ko) 1996-02-24
KR100309207B1 (ko) 2001-12-17
ATE195605T1 (de) 2000-09-15
EP0692135B1 (en) 2000-08-16
EP0692135A4 (en) 1997-08-13
JP3899122B2 (ja) 2007-03-28
US5634086A (en) 1997-05-27
JPH08507620A (ja) 1996-08-13
DE69425564D1 (de) 2000-09-21
WO1994020952A1 (en) 1994-09-15
EP0692135A1 (en) 1996-01-17

Similar Documents

Publication Publication Date Title
US5634086A (en) Method and apparatus for voice-interactive language instruction
US5791904A (en) Speech training aid
EP0708958B1 (en) Multi-language speech recognition system
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
US8209173B2 (en) Method and system for the automatic generation of speech features for scoring high entropy speech
US7840404B2 (en) Method and system for using automatic generation of speech features to provide diagnostic feedback
CN110148427A (zh) 音频处理方法、装置、***、存储介质、终端及服务器
EP1606793A1 (en) Speech recognition method
WO1994017508A1 (en) Computerized system for teaching speech
JPH11143346A (ja) 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
JP2002040926A (ja) インターネット上での自動発音比較方法を用いた外国語発音学習及び口頭テスト方法
Pallett Performance assessment of automatic speech recognizers
CN102184654B (zh) 诵读监督方法及装置
WO2002091358A1 (en) Method and apparatus for rejection of speech recognition results in accordance with confidence level
US20230252971A1 (en) System and method for speech processing
Hirschberg et al. Generalizing prosodic prediction of speech recognition errors
JP3899122B6 (ja) 音声対話式言語指導のための方法及び装置
Barczewska et al. Detection of disfluencies in speech signal
CA2158062C (en) Method and apparatus for voice-interactive language instruction
Lea What causes speech recognizers to make mistakes?
Audhkhasi Automatic evaluation of fluency in spoken language
JP2001228890A (ja) 音声認識装置
CN114627896A (zh) 语音评测方法、装置、设备及存储介质
WO2008083689A1 (en) System and method for qur'an recitation rules

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060215

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060512

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061018

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20061110