JP2000259170A - 音声認識システムにユーザを登録する方法および装置 - Google Patents

音声認識システムにユーザを登録する方法および装置

Info

Publication number
JP2000259170A
JP2000259170A JP2000027657A JP2000027657A JP2000259170A JP 2000259170 A JP2000259170 A JP 2000259170A JP 2000027657 A JP2000027657 A JP 2000027657A JP 2000027657 A JP2000027657 A JP 2000027657A JP 2000259170 A JP2000259170 A JP 2000259170A
Authority
JP
Japan
Prior art keywords
text
user
phrase
voice
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000027657A
Other languages
English (en)
Inventor
R Lewis James
ジェームズ・アール・ルイス
Huifang Wang
フイファン・ワン
Buskirk Ron Van
ブスカーク ロン・ファン
Kerry A Ortega
ケリー・エイ・オーテガ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2000259170A publication Critical patent/JP2000259170A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Processing Or Creating Images (AREA)
  • Traffic Control Systems (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 読み上げることができない人、およびディス
プレイのない装置のための音声認識登録を提供する。 【解決手段】 読み上げることを必要とせずに音声認識
システムにユーザを登録する方法は、音声出力および音
声入力を有するオーディオ・ユーザ・インターフェース
を生成するステップと、音声でテキスト・フレーズを再
生するステップと、再生されたテキスト・フレーズを発
声するように音声でユーザに指示を与えるステップと、
さらなる複数のテキスト・フレーズに関して、発声をし
ないようにユーザに音声による指示を与えるステップ
と、テキスト・フレーズを音声で再生し音声でユーザに
発声を指示するステップを繰り返すステップと、音声で
発声を促された結果として発声されたテキスト・フレー
ズに基づきユーザ登録を処理するステップとを含む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、主に音声認識シス
テムの分野に関し、詳細には、読み上げることができな
い人、およびディスプレイのない装置のための音声認識
登録に関するものである。
【0002】
【従来の技術】音声認識システムによる最高の認識精度
を得るために、音声認識プログラムのユーザは登録を行
い、認識システムによる処理のためのサンプルを提供す
る必要がある。ユーザが支障なくテキストを声に出して
読み上げることができる場合は、そのようなサンプルの
収集は容易である。何らかの理由により、ユーザがテキ
ストを読み上げることに支障がある場合、または音声認
識システムがディスプレイを備えていない場合には、そ
のようなサンプルの収集は今までのところ困難であっ
た。ディスプレイ・モニタをその機器の一部として備え
ていない電話システムおよび中央ディクテーション・シ
ステムでの音声認識システムの実現が可能である。
【0003】音声認識ソフトウェアの品質は近年著しく
向上した。音声認識ソフトウェアは、また音声認識エン
ジンとも呼ばれ、ディクテーションまたは命令および制
御の目的で、ユーザの音声の音声信号からテキストを構
成する。できる限り早くユーザによるソフトウェアの使
用を可能にするために、時として最新のシステムにおい
てはユーザのシステムに対する発声をスピーカ独立モデ
ルによって行うことができる。しかし最もよい認識精度
はユーザがシステムに登録を行うことによって得ること
ができる。
【0004】通常の登録においては、システムがユーザ
にテキストを提示し、ユーザがそのテキストを読み、そ
の音声をシステムが記録する。ユーザが支障なくテキス
トを読み上げることができる場合には、この方法はうま
くいく。ユーザが登録しようとする言語においてユーザ
がテキストを読み上げることに支障がある場合には、こ
の方法はうまくいかない。
【0005】テキストを読み上げることにおいてユーザ
に何らかの支障がある場合、その理由は様々である。そ
の例としては、ユーザが子供であり読むことを学び始め
たばかりである、ユーザが1つまたは複数の学習障害を
持つ子供または大人であり慣れていないものを読むこと
が難しい、ユーザが言葉を話すことに支障はないが読む
ことに支障がある、登録するシステムがユーザにとって
第2言語で設計されている、ディスプレイのない装置を
用いてユーザがシステムに登録を行っているため読み上
げるべきテキストを表示することができない、などの理
由がある。
【0006】
【発明が解決しようとする課題】読み上げることができ
ない人、およびディスプレイのない装置のための音声認
識登録が長い間必要とされてきた。
【0007】
【課題を解決するための手段】登録システムは、テキス
トを支障なく読むことのできるユーザのためのシステム
の機能に加えて、読み上げることができない人、および
ディスプレイ装置へのアクセスのないユーザをサポート
するためのいくつかの機能を有さなければならない。本
発明の実施形態において、最も重要な追加機能は、ユー
ザにテキストを読ませる前にテキストを読み上げる機能
である。これは、音声出力がテキストの正しい発音で言
葉を生成するように調節されたTTS(テキスト音声変
換)か、または録音された音声を使用することによって
行うことができる。適切なシステム・リソースがある場
合は、現在は、録音された音声がより自然であるため好
まれるが、リソースの限られたシステム、例えばクライ
アント・サーバ・システムのハンドヘルド型装置などに
おいては、TTS(テキスト音声変換)を使用する方が
よい場合もある。
【0008】このように、分かりやすい操作手順(sequ
ence of events)を提供するように標準ユーザ・インタ
ーフェースを調整し、登録テキストを音声チャネルを通
してユーザに提供することにより、従来技術の以前から
の必要性は満たされる。
【0009】本発明の実施形態における、テキストを読
み上げることを必要とせずに音声認識システムにユーザ
を登録する方法は、音声出力および音声入力を有するオ
ーディオ・ユーザ・インターフェースを生成するステッ
プと、テキスト・フレーズを音声で再生するステップ
と、再生されたテキスト・フレーズを発声するようにユ
ーザに音声によって指示を与えるステップと、さらに存
在するいくつかのテキスト・フレーズに関して、テキス
ト・フレーズを音声で再生するステップおよびユーザに
発声するように音声で指示するステップを繰り返すステ
ップと、音声の指示によりユーザが発声したテキスト・
フレーズに基づいてユーザ登録の処理を行うステップと
を含む。
【0010】この方法は、ユーザにより発声されたフレ
ーズが受け取られた場合にのみ、さらに存在するいくつ
かのテキスト・フレーズのうちの次のテキスト・フレー
ズを音声で再生するステップをさらに含むことができ
る。
【0011】この方法は、ユーザにより発声されたフレ
ーズが受け取られない場合には、最も新しく再生された
テキスト・フレーズに関して、テキスト・フレーズを音
声で再生するステップおよびユーザに発声するように音
声で指示するステップを繰り返すステップをさらに含む
ことができる。
【0012】この方法は、音声で再生するステップの前
に、テキスト・フレーズが再生されている間に発声しな
いようにユーザに音声で指示を与えるステップをさらに
含むことができる。
【0013】この方法は、登録の過程において音声によ
るユーザ進捗通知を生成するステップをさらに含むこと
ができる。
【0014】この方法は、第1音声で音声による指示を
ユーザに与え、第2音声で前記テキスト・フレーズを再
生するステップをさらに含むことができる。
【0015】この方法は、テキスト・フレーズの少なく
ともいくつかを録音された音声から再生する、またはテ
キスト・フレーズの少なくともいくつかをTTS(テキ
スト音声変換)によって再生する、あるいはその両方の
ステップを含むことができる。同様に、ユーザへの指示
は、録音された音声、またはTTS(テキスト音声変
換)、あるいはその両方によって与えることができる。
【0016】この方法は、オーディオ・ユーザ・インタ
ーフェースを生成するステップと同時にグラフィカル・
ユーザ・インターフェースを生成するステップと、テキ
スト・フレーズおよび音声による指示に対応するテキス
トを表示するステップをさらに含むことができる。
【0017】この方法は、ユーザ操作のための複数のア
イコンを表示するステップと、色、形、図柄のうちの少
なくとも1つによって、その複数のアイコンの異なるも
のを時に応じて選択的に区別するステップをさらに含む
ことができる。
【0018】本発明の構成における、テキストを読み上
げることを必要とせずに音声認識システムにユーザを登
録するための、固定媒体に格納された一連の命令により
プログラムされたコンピュータ装置は、音声出力および
音声入力を有するオーディオ・ユーザ・インターフェー
スを生成する手段と、テキスト・フレーズを音声で再生
する手段と、再生されたテキスト・フレーズを発声する
ようにユーザに音声によって指示を与える手段とを備え
る。
【0019】この装置は、登録の過程において音声によ
るユーザ進捗通知を生成する手段をさらに備えることが
できる。
【0020】音声でテキスト・フレーズを再生する手段
は、事前に録音された音声を再生する手段、またはTT
S(テキスト音声変換)エンジン、あるいはその両方を
備えることができる。
【0021】この装置は、オーディオ・ユーザ・インタ
ーフェースを生成すると同時にグラフィカル・ユーザ・
インターフェースを生成する手段と、テキスト・フレー
ズおよび音声による指示に対応するテキストを表示する
手段とをさらに備えることができる。
【0022】この装置は、ユーザ操作のための複数のア
イコンを表示する手段と、色、形、図柄のうちの少なく
とも1つによって、その複数のアイコンの異なるものを
時に応じて選択的に区別する手段とをさらに備えること
ができる。
【0023】
【発明の実施の形態】あらゆる登録処理に必要となるス
テップは、使用する登録スクリプトを準備することであ
る。一般に登録スクリプトは音声と音声の組み合わせの
充分なサンプルを含むべきである。読み上げられるごと
にそのフレーズを順次強調表示していくなど、ディスプ
レイ上の登録スクリプトを読み上げることによりユーザ
に指示を与えるために様々な方法の使用が可能である。
読み上げることができない人、およびディスプレイ装置
へのアクセスのないユーザのためには、他の要素も考慮
しなければならない。スクリプトのテキストは、音声認
識エンジンの初期トレーニングに有用な様々な音声に基
づいて選択あるいは構成されていなければならない。ス
クリプトの各センテンスは、構成要素または構成部分で
あるフレーズに分けなければならない。各フレーズは、
ユーザにとって覚えやすいものであるべきであり、その
ために言語的に完成されたユニットに対応するものであ
るべきである。ユーザの短期間の記憶力の限界を超えな
いため、各フレーズに含まれるユニットは1つまたは2
つに限るべきである。ユニットは前置詞句などの言語学
的構成要素である。
【0024】読み上げることができない人のためのまた
ディスプレイ装置なしで行うための、登録プロセス10
は図1、図2、図3の3つの部分に分けて示されてい
る。図1、図2による流れ図の分割は単に1ページの図
面に納まらないために行った便宜上のものである。図3
に示されているルーチンはオプションであり、本発明の
実施形態に直接関わるものではない。プロセス10のス
テップは、読み上げることができない人またはディスプ
レイへのアクセスのないユーザのための、登録プロセス
における理想的なシステムを表している。ここでは説明
のために、ユーザに指示、テキスト、命令が与えられる
場合、その指示、テキスト、命令は、少なくともユーザ
が聞くことのできる形で行われることを前提とする。こ
の音声による指示、テキスト、命令は、録音された音声
の再生、またはTTS(テキスト音声変換)、あるいは
その両方によって生成することができる。
【0025】登録プロセス10は、図1に示されている
ようにステップ12で開始される。ステップ14でボイ
ス・ユーザ・インターフェース(VUI)が始動され
る。ディスプレイ装置の使用が可能な場合は、グラフィ
カル・ユーザ・インターフェース(GUI)の生成も開
始する。この流れ図のステップにより表される方法は、
GUIがなくても実行することができるが、ここでは説
明のために、ディスプレイ装置が使用できることを前提
とする。したがって、図5から図11に関連してさらに
詳しく説明されるように、指示、テキスト、命令はまた
グラフィカル・ユーザ・インターフェースのウィンドウ
においてテキストとしても表示される。
【0026】登録プロセスをどのように行うかという全
般的な指示がステップ16で再生される。この全般的な
指示もまた、好ましくは音声出力と合わせて、表示する
ことができる。
【0027】最初は、VUIの使用のみが考慮される。
この状況では、読み上げることができない人だけではな
く、すべてのユーザが登録を行うために音声ガイドを必
要とする。ユーザは、フレーズが再生されている間は沈
黙をたもつように、そしてそれぞれのフレーズの再生の
終了後にそれぞれのフレーズを発声するように、ステッ
プ18で指示を受け、ステップ16ですでに指示を受け
ている場合は、ステップ18で再度確認の指示を受け
る。この指示は音声1で再生される。
【0028】ステップ20で、テキストの最後のブロッ
クが再生されたかどうかが判定される。再生されていな
い場合は、方法はパス21を通ってステップ22へ分岐
し、そこでテキストの次のブロックが提示される。この
時点で方法は図1のジャンプ・ブロック23から図2の
ジャンプ・ブロック23へ移る。ステップ24で、現ブ
ロックの次のフレーズが現行のフレーズとなる。そして
現行のフレーズがステップ26で再生される。現行のフ
レーズは音声2で再生される。現行のフレーズの再生が
終わると、その再生されたフレーズがユーザにより発声
されるのを待つ。
【0029】判断ステップ28で、音声認識エンジンは
ユーザにより何か言葉が発声されたかどうかを判定す
る。ユーザが何か言葉を発声した場合には、方法はパス
29を通って判断ステップ34に分岐する。ユーザが発
声していない場合には、方法はパス31を通ってステッ
プ32に分岐し、そこでユーザは再生されたフレーズを
発声するように指示を受ける。その指示は音声1によっ
て再生され、方法はステップ28に戻る。
【0030】ユーザによって言葉が発声された場合、判
断ステップ34で、ユーザがコマンド「戻る」を発声し
たかどうかが判定される。これによりユーザは前のフレ
ーズを再度ディクテーションすることができる。コマン
ド「戻る」が発声されると方法はパス37を通ってステ
ップ38に分岐し、前回のフレーズが現行のフレーズと
なる。この後、方法はステップ26に戻る。コマンド
「戻る」が発声されない場合には、方法はパス35を通
って判断ブロック40のステップに分岐する。
【0031】判断ステップ40で、ユーザがコマンド
「繰り返す」を発声したかどうかが判定される。これに
よって、ユーザが現行のフレーズを再度ディクテーショ
ンすることができるようになる。コマンド「繰り返す」
が発声されると方法はパス43で分岐してステップ26
に戻る。コマンド「繰り返す」が発声されない場合に
は、方法はパス41を通って判断ステップ44に分岐す
る。
【0032】判断ステップ44で、発声の質が受容可能
(良好)であるかどうかが判定される。フレーズが適切
に復号化され再生されたフレーズと一致している場合に
そのフレーズは受容可能である。誤ったフレーズが発声
されたり、正しいフレーズであっても完全に復号化する
ことができない場合、またフレーズが受け取られなかっ
た場合には、そのフレーズは受容可能とならない。フレ
ーズが受け取られなかった場合というのは、例えばユー
ザがフレーズの発声ができなかった場合、フレーズが雑
音やその他の妨害によってかき消された場合、またはオ
ーディオ・インターフェースの入力が失敗した場合など
がある。
【0033】発声されたフレーズが受容可能でない場
合、方法はパス47を通ってステップ56に分岐し、そ
こでユーザはもう一度繰り返すように指示を受け、方法
はステップ26に戻る。また別法では、例えば、ユーザ
は指示を受けることなくそのフレーズを繰り返すことを
要求することもでき、またフレーズの再生の繰り返しを
行わないようにすることもできる。全般の流れとして
は、ユーザの発音が使用のために受容可能なものである
場合、方法は、普通にフレーズ上を移動する。1つまた
は複数のフレーズの発音が受容可能なものでない場合に
は、方法はその問題のある1つまたは複数のフレーズの
提示を繰り返す。
【0034】発音されたフレーズが受容可能である場
合、方法はパス45を通って判断ステップ46に分岐
し、そこで現行のブロックの最後のフレーズの再生、繰
り返しが行われたかどうかが判定される。再生、繰り返
しが行われていない場合には、方法は分岐しパス49を
通ってステップ24に戻る。現行のブロックの最後のフ
レーズの再生、繰り返しが行われた場合、方法はパス4
7を通って分岐する。この時点において、方法は、図2
のジャンプ・ブロック53から図1のジャンプ・ブロッ
ク53に移る。図1において、ジャンプ・ブロック53
からステップ54へ進み、そこで、音声による登録進捗
通知を生成することができる。
【0035】通知の後に、方法は判断ステップ20に戻
る。テキストの最後のブロックが再生されると、方法は
パス21を通ってステップ22に分岐し、そこで上記の
説明のように、次のテキスト・ブロックが提示される。
最後のテキスト・ブロックが提示されると、方法はパス
50を通ってステップ58に分岐し、そこでテキストの
提示は終了する。
【0036】テキストの提示が終了した後、ユーザにそ
の時点で登録を行うか、または登録を延期するかの選択
をする機会を与えることもできる。登録ルーチン60が
図3に示されており、これは関連する図1および図3の
ジャンプ・ブロック59からアクセスされる。ステップ
62において、その時点で登録を行うか、または後に登
録を行うかの選択をユーザに提示することができる。ユ
ーザがその時点で登録を行うことを選択した場合、方法
はパス61を通ってステップ64に分岐し、そこで、発
声されたフレーズに基いて登録処理が行われる。その
後、方法はステップ68で終了する。登録が延期された
場合には、方法はパス63を通ってステップ66に分岐
し、そこで登録スクリプトのテキスト・ブロックの発声
されたフレーズが後の登録処理のために保存される。そ
の後、方法はステップ68で終了する。
【0037】登録スクリプトのテキスト・フレーズを読
み上げる音声と指示およびフィードバックの音声に異な
る音声を使用することにより、この方法を都合よく実行
することができる。次の表1のダイアログの例により、
この異なる音声の使用を理解することができる。
【0038】
【表1】
【0039】グラフィカル・ユーザ・インターフェース
(GUI)での方法10の使用が、図4から図10に示
す一連の表示画面100によって例示されている。これ
らの表示画面はすでにあるビア・ボイス・ゴールド(Vi
aVoice Gold)の登録ダイアログに、読み上げることが
できない人の登録およびディスプレイのない装置での登
録のために必要な追加機能を付与するために変更および
拡張したものを表している。ビア・ボイス・ゴールド
(ViaVoice Gold)(商標)はIBM(商標)によって
提供されている音声認識アプリケーションである。読み
上げることができない人のための登録テキストの部分お
よび他のアイコンやボタンの識別を可能にする方法を従
来の図面で示すことは難しい。なぜならそのような識別
の方法としては色を用いることが好ましいからである。
表示装置の使用が可能である場合には、色の参照は音声
の指示によって簡単に行うことができる。テキストに適
用できる他の方法としては、飾り枠、下線、太字、斜体
文字、背景の強調表示などがある。白黒表示装置および
文字を読み上げることが出来ても出来なくても色盲であ
るユーザのために、色を用いない代替方法も有用であ
る。TTS(テキスト音声変換)エンジンは、例えば
「砂時計アイコンの上の矢印が黄色から緑色に変わった
ら、緑色の言葉を読み上げてください」などという指示
を出すことができる。この緑色に替えて太字、斜体文
字、下線などを用いることもできる。図4から図10に
おいて、円の網掛けの種類はそれぞれ異なる色を表して
おり、テキストの場合、テキストの部分が破線の飾り枠
によって囲まれる。どちらの場合も、最初の登録テキス
ト・ブロックは、「登録のために、この文を自然にでき
るだけはっきりと声に出して読み、次の文が表示される
のを待ってください」である。このテキストのフレー
ズ、または部分はTTS(テキスト音声変換)エンジン
または録音あるいはその両方の組み合わせによって再生
され、その後ユーザはそのテキストを繰り返す。表示装
置の使用が可能である場合、GUIによってユーザは、
テキストを読むことはできなくても少なくとも見ること
はできるようになる。
【0040】図4は、テキスト・ブロック104が表示
されるウィンドウ102を有する表示画面100を示し
ている。ビア・ボイス・ゴールド登録画面と同様に、表
示画面100は、テキスト・ブロック・カウンタ10
6、オーディオ・レベル・メーター・アイコン108、
スタート・ボタン・アイコン110、オプション・ボタ
ン・アイコン112、フレーズ再生ボタン・アイコン1
14、一時停止ボタン・アイコン116、およびヘルプ
・ボタン・アイコン118を有する。ビア・ボイス・ゴ
ールド登録画面において、ボタン・アイコン114はサ
ンプル再生である。その他のボタン・アイコンは明示さ
れておらず、本発明の実施形態の理解に必要なものでは
ない。
【0041】砂時計の形の指示アイコン120は、シス
テムがテキスト・ブロックの最初のフレーズを再生する
準備をしていることを示すものである。本発明の現時点
での好ましい実施形態において、この砂時計は現行のフ
レーズの最初の単語を指す黄色い矢印122を有する。
図4から図10のそれぞれにおいて、テキスト表示のあ
るボタン・アイコンは、読み上げることができない人に
は適切ではない。ボタン・アイコンを異なる色にするこ
とによって、例えば「では緑色のボタンをクリックして
くだい」などと、システムによる指示をすることができ
る。
【0042】図5において、システムは現行のフレーズ
の音声の再生を開始する。矢印122は依然として黄色
であり最初の言葉「登録」が緑色で飾り枠の中に表示さ
れる。本実施形態においては、それぞれの言葉が再生さ
れるごとに各言葉の色は黒色から緑色に変化する。この
追加機能により、読み上げることができない人はそれぞ
れの言葉と適切な音声を関連付けることができ、読む上
での焦点を知ることができる。
【0043】図6においては、現行のフレーズの最後の
言葉の音声をシステムが生成し、登録スクリプトの最初
のブロックの現行のフレーズ全体が、緑色で表示され飾
り枠132によって囲まれている。砂時計120の矢印
122は依然として黄色である。
【0044】図7において、マイクロフォン・アイコン
124および矢印122が緑色に変わることによって、
システムによって今再生されたフレーズをユーザが繰り
返すようにシステムからユーザに指示が与えられる。必
要であれば、ユーザはフレーズ再生ボタン・アイコンを
クリックしフレーズをもう一度聞くことができる。ユー
ザがこのオプションを選択した場合、システムは図4に
示されている状態に戻る。
【0045】図8に示されている代替方法では、ユーザ
がフレーズを繰り返すと、システムはそれぞれの言葉の
色を青に変えて、言葉の発音が正しいこと、少なくとも
その音声は、システムが使用する音声モデルを構成する
のに十分な質の発音であることを示す。この手順がうま
くいくためには、ユーザの発音を受容するシステムの基
準はできるかぎり厳しくない方がよい。したがって、矢
印122は緑色であり、最初の言葉「登録」は青色で飾
り枠134に囲まれ、現行のフレーズの残りの部分は緑
色で飾り枠136に囲まれている。
【0046】図9において、ユーザはフレーズの繰り返
しを終了し、システムはすべての発音を受容した。した
がって、すべての現行のフレーズは青色で飾り枠138
に囲まれている。その後、例えば250ミリ秒から50
0ミリ秒後にブロックの次のフレーズ、例えば「できる
だけはっきりと声に出して読み、」に対して、図4から
図9に示されているステップをシステムは繰り返す。
【0047】図10は、例えばユーザの発音がユーザの
音声モデルを評価するために使用するにはその基準から
離れすぎている場合には赤などと、どのように言葉を異
なる色に変えるかを示している。矢印122は緑色であ
る。フレーズの「登録のために、」の部分が青色であ
り、飾り枠140に囲まれている。フレーズの「自然
に」の部分もまた青色であり、飾り枠144に囲まれて
いる。基準に合っていない言葉である「この文を」は赤
色であり、飾り枠142に囲まれている。
【0048】部分的にのみ言葉が赤色で表示される場
合、「次へ」ボタンはグレイアウトされず、そのまま続
けるには「次へ」ボタンを押すようにユーザに指示を与
えることもできる。言葉のうちのいずれかが赤色(言葉
が基準からはずれていて使用できないことを示す)に変
わった場合、赤色の言葉をクリックし「開始」ボタン・
アイコンを用いてその言葉またはフレーズ全体を再度記
録するようにユーザに指示を与えることができる。この
代替方法においては、例えば「この文を、と言ってくだ
さい」というような音声の指示を伴って表示画面の底辺
のボタンの間のウィンドウに指示テキストを表示するこ
ともできる。赤色の言葉の記録を行う手順はシステムが
赤色の言葉の発声を促す点を除いて、フレーズの記録の
手順と同じである。前後を含めた音声が必要である場合
には、システムは赤色の言葉の前後の言葉の発声を促
す。
【0049】言い換えれば、システムはターゲットであ
る言葉を、砂時計/黄色い矢印のアイコンで示されてい
る一連のターゲットの言葉とともに読み上げる。その後
アイコンはマイクロフォン/緑色の矢印のアイコンに変
わり、ユーザはフレーズを繰り返す。プログラムされた
試行回数、例えば3回の後に依然としてその記録された
発音が基準からはずれていて使用できない場合には、可
能であればシステムは自動的に次の赤色の言葉または次
のフレーズに進む。
【0050】本発明の実施形態は、読み上げることがで
きない人、テキストを読むことが十分にできないユー
ザ、また他の言語を第一言語とするユーザが音声認識シ
ステムにおける登録を実行することを支援するのに適す
る新たな登録手順を提供する。ディスプレイのない装置
においては読取機能(reading facility)がなくても登
録を行うことができる。実際のディクテーションによる
録音された音声を使用してさらなる音声分析を行う非監
視登録(unsupervised enrollment)の技術が将来可能
になることが期待されるが、少なくともユーザによるあ
る程度の初期登録は常に必要なことであり、読み上げる
ことができない人、テキストを読むことが十分にできな
いユーザも本発明の実施形態によるシステムによって利
益を享受することができる。
【0051】本発明の実施形態における方法は、図11
に示されるコンピュータ装置60によって実行すること
ができ、固定媒体に格納された一連のいくつかの命令と
ともに提供することができる。コンピュータ60はプロ
セッサ62を有する。プロセッサ62は、ランダム・ア
クセス・メモリ(RAM)64、ハード・ディスク6
6、グラフィック・アダプタ68、および1つまたは複
数のサウンド・カード76を有する。図1、図2、図3
に示されているプロセス10のステップを実行し、図4
から図10に示されている画面を生成するように、RA
M64がプログラムされている様子が図面に示されてい
る。モニタ70はグラフィック・アダプタ68により制
御される。コマンドはキーボード72およびマウス74
によって生成される。オーディオ・ユーザ・インターフ
ェース78は、接続80を通してサウンド・カード76
(1つまたは複数)から信号を受け取るスピーカ84、
および接続82を通してサウンド・カード76(1つま
たは複数)に信号を送るマイクロフォン86を有する。
破線飾り枠88で示されているマイクロフォンおよびス
ピーカは1つのヘッドフォンに一体化することもでき
る。
【0052】コンピュータ装置は、インターフェース9
0を通して電話システム92に接続することもできる。
ユーザは電話によって音声認識アプリケーションにアク
セスし、ディスプレイ装置を使わずにそのアプリケーシ
ョンでの登録を行うことができる。
【0053】本発明の実施形態は、文が本質的に1つの
フレーズであるほど短い場合を除き、登録スクリプトを
簡単に繰り返せる短いフレーズに分割する機能、および
音声認識システムのための登録スクリプトのフレーズを
ユーザが発声する前にTTS(テキスト音声変換)また
は格納された音声を使用してフレーズの正しい発音を提
示する機能などを含む、いくつかの重要な機能に依存す
る。ディスプレイのある装置のための追加機能には、シ
ステムがフレーズの音声を提示する際に音声がどの言葉
のものであるかをユーザが知ることを支援するための表
示によるフィードバックの使用、読み始めるタイミング
をユーザに知らせる機能、どの言葉が受容可能な発音で
どの言葉が受容可能でない発音であるかをフィードバッ
クする機能が含まれる。
【0054】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0055】(1)読み上げることを必要とせずに音声
認識システムにユーザを登録する方法であって、音声出
力および音声入力を有するオーディオ・ユーザ・インタ
ーフェースを生成するステップと、テキスト・フレーズ
を音声で再生するステップと、前記再生されたテキスト
・フレーズを発声するように音声でユーザに指示を与え
るステップと、さらなる複数のテキスト・フレーズに関
して、前記テキスト・フレーズを音声で再生する前記ス
テップおよびユーザに発声をするように音声で指示を与
える前記ステップを繰り返すステップと、音声で発声を
促した結果として発声された前記テキスト・フレーズに
基づいて、ユーザ登録を処理するステップとを含む方
法。 (2)前記発声されたフレーズが受け取られた場合のみ
に、さらなる複数のテキスト・フレーズのうちの次のテ
キスト・フレーズを音声で再生するステップをさらに含
む、上記(1)に記載の方法。 (3)前記発声されたフレーズが受け取られない場合
に、前記テキスト・フレーズを音声で再生するステップ
および最も新しく再生されたテキスト・フレーズを発声
するように音声でユーザに指示を与えるステップを繰り
返すステップをさらに含む、上記(1)に記載の方法。 (4)前記音声による再生のステップの前に、前記テキ
スト・フレーズが再生されている間発声をしないようユ
ーザに音声で指示を与えるステップをさらに含む、上記
(3)に記載の方法。 (5)前記登録の過程において、音声によるユーザ進捗
通知を生成するステップをさらに含む、上記(1)に記
載の方法。 (6)第1音声でユーザに対する音声による指示を行
い、第2音声で前記テキスト・フレーズの再生を行うス
テップをさらに含む、上記(1)に記載の方法。 (7)前記テキスト・フレーズの少なくともいくつかを
録音された音声から再生するステップを含む、上記
(1)に記載の方法。 (8)前記テキスト・フレーズの少なくともいくつかを
TTS(テキスト音声変換)エンジンによって再生する
ステップを含む、上記(1)に記載の方法。 (9)録音された音声によってユーザに指示を与えるス
テップを含む、上記(1)に記載の方法。 (10)TTS(テキスト音声変換)エンジンによって
ユーザに指示を与えるステップを含む、上記(1)に記
載の方法。 (11)前記オーディオ・ユーザ・インターフェースを
生成する前記ステップと同時にグラフィカル・ユーザ・
インターフェースを生成するステップと、前記テキスト
・フレーズおよび前記音声による指示に対応するテキス
トを表示するステップとをさらに含む、上記(1)に記
載の方法。 (12)ユーザ操作のための複数のアイコンを表示する
ステップと、色、形、図柄のうちの少なくとも1つによ
って、前記複数のアイコンの異なるものを時に応じて選
択的に区別するステップとをさらに含む、上記(1)に
記載の方法。 (13)前記オーディオ・ユーザ・インターフェースを
生成する前記ステップと同時にグラフィカル・ユーザ・
インターフェースを生成するステップと、前記テキスト
・フレーズおよび音声による指示に対応するテキストを
表示するステップと、ユーザ操作のための複数のアイコ
ンを表示するステップと、色、形、図柄のうちの少なく
とも1つによって、前記の複数のアイコンの異なるもの
を時に応じて選択的に区別するステップとをさらに含
む、上記(1)に記載の方法。 (14)読み上げることを必要とせずに音声認識システ
ムにユーザを登録するための、固定媒体に格納された一
連の命令でプログラムされたコンピュータ装置であっ
て、音声出力および音声入力を有するオーディオ・ユー
ザ・インターフェースを生成する手段と、テキスト・フ
レーズを音声で再生する手段と、前記再生されたテキス
ト・フレーズを発声するようにユーザに音声で指示を与
える手段とを備える装置。 (15)登録の過程において音声によるユーザ進捗通知
を生成する手段をさらに備える、上記(14)に記載の
装置。 (16)前記テキスト・フレーズを音声で再生する前記
手段が、事前に録音された音声を再生する手段を備え
る、上記(14)に記載の装置。 (17)前記テキスト・フレーズを音声で再生する前記
手段が、TTS(テキスト音声変換)エンジンを備え
る、上記(14)に記載の装置。 (18)前記オーディオ・ユーザ・インターフェースと
同時にグラフィカル・ユーザ・インターフェースを生成
する手段と、前記テキスト・フレーズおよび音声による
指示に対応するテキストを表示する手段とをさらに備え
る、上記(14)に記載の装置。 (19)ユーザ操作のための複数のアイコンを表示する
手段と、色、形、図柄のうちの少なくとも1つによっ
て、前記の複数のアイコンの異なるものを時に応じて選
択的に区別する手段とをさらに備える、上記(14)に
記載の装置。 (20)前記のオーディオ・ユーザ・インターフェース
を生成する前記のステップと同時にグラフィカル・ユー
ザ・インターフェースを生成する手段と、前記テキスト
・フレーズおよび音声による指示に対応するテキストを
表示する手段と、ユーザ操作のための複数のアイコンを
表示する手段と、色、形、図柄のうちの少なくとも1つ
によって、前記の複数のアイコンの異なるものを時に応
じて選択的に区別する手段とをさらに備える、上記(1
4)に記載の装置。
【図面の簡単な説明】
【図1】読み上げることができない人の音声アプリケー
ションへの登録、およびあらゆるユーザのディスプレイ
装置なしでの音声アプリケーションへの登録を説明する
のに有用な流れ図である。
【図2】読み上げることができない人の音声アプリケー
ションへの登録、およびあらゆるユーザのディスプレイ
装置なしでの音声アプリケーションへの登録を説明する
のに有用な流れ図である。
【図3】読み上げることができない人の音声アプリケー
ションへの登録、およびあらゆるユーザのディスプレイ
装置なしでの音声アプリケーションへの登録を説明する
のに有用な流れ図である。
【図4】本発明の実施形態における、グラフィカル・ユ
ーザ・インターフェース(GUI)によって生成され
る、読み上げることができない人のための登録ダイアロ
グの一表示画面を示す図である。
【図5】本発明の実施形態における、グラフィカル・ユ
ーザ・インターフェース(GUI)によって生成され
る、読み上げることができない人のための登録ダイアロ
グの一表示画面を示す図である。
【図6】本発明の実施形態における、グラフィカル・ユ
ーザ・インターフェース(GUI)によって生成され
る、読み上げることができない人のための登録ダイアロ
グの一表示画面を示す図である。
【図7】本発明の実施形態における、グラフィカル・ユ
ーザ・インターフェース(GUI)によって生成され
る、読み上げることができない人のための登録ダイアロ
グの一表示画面を示す図である。
【図8】本発明の実施形態における、グラフィカル・ユ
ーザ・インターフェース(GUI)によって生成され
る、読み上げることができない人のための登録ダイアロ
グの一表示画面を示す図である。
【図9】本発明の実施形態における、グラフィカル・ユ
ーザ・インターフェース(GUI)によって生成され
る、読み上げることができない人のための登録ダイアロ
グの一表示画面を示す図である。
【図10】本発明の実施形態における、グラフィカル・
ユーザ・インターフェース(GUI)によって生成され
る、読み上げることができない人のための登録ダイアロ
グの一表示画面を示す図である。
【図11】コンピュータ装置のブロック図である。
【符号の説明】 60 コンピュータ 62 プロセッサ 64 ランダム・アクセス・メモリ(RAM) 66 ハード・ディスク 68 グラフィック・アダプタ 70 モニタ 72 キーボード 74 マウス 76 サウンド・カード 78 オーディオ・ユーザ・インターフェース 80 接続 82 接続 84 スピーカ 86 マイクロフォン 88 破線飾り枠 90 インターフェース
フロントページの続き (72)発明者 ジェームズ・アール・ルイス アメリカ合衆国33445 フロリダ州デルレ イ・ビーチ マジェスティック・パーム・ ウェイ4000 (72)発明者 フイファン・ワン アメリカ合衆国33417 フロリダ州ウェス ト・パーム・ビーチ テニス・クラブ・ド ライブ2892 ナンバー205 (72)発明者 ロン・ファン ブスカーク アメリカ合衆国34956 フロリダ州インデ ィアンタウン サウスウェスト・ピント・ ストリート16401 (72)発明者 ケリー・エイ・オーテガ アメリカ合衆国33442 フロリダ州ディア フィールド・ビーチ ノースウェスト・フ ォーティーファースト・ウェイ 374

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】読み上げることを必要とせずに音声認識シ
    ステムにユーザを登録する方法であって、 音声出力および音声入力を有するオーディオ・ユーザ・
    インターフェースを生成するステップと、 テキスト・フレーズを音声で再生するステップと、 前記再生されたテキスト・フレーズを発声するように音
    声でユーザに指示を与えるステップと、 さらなる複数のテキスト・フレーズに関して、前記テキ
    スト・フレーズを音声で再生する前記ステップおよびユ
    ーザに発声をするように音声で指示を与える前記ステッ
    プを繰り返すステップと、 音声で発声を促した結果として発声された前記テキスト
    ・フレーズに基づいて、ユーザ登録を処理するステップ
    とを含む方法。
  2. 【請求項2】前記発声されたフレーズが受け取られた場
    合のみに、さらなる複数のテキスト・フレーズのうちの
    次のテキスト・フレーズを音声で再生するステップをさ
    らに含む、請求項1に記載の方法。
  3. 【請求項3】前記発声されたフレーズが受け取られない
    場合に、前記テキスト・フレーズを音声で再生するステ
    ップおよび最も新しく再生されたテキスト・フレーズを
    発声するように音声でユーザに指示を与えるステップを
    繰り返すステップをさらに含む、請求項1に記載の方
    法。
  4. 【請求項4】前記音声による再生のステップの前に、前
    記テキスト・フレーズが再生されている間発声をしない
    ようユーザに音声で指示を与えるステップをさらに含
    む、請求項3に記載の方法。
  5. 【請求項5】前記登録の過程において、音声によるユー
    ザ進捗通知を生成するステップをさらに含む、請求項1
    に記載の方法。
  6. 【請求項6】第1音声でユーザに対する音声による指示
    を行い、第2音声で前記テキスト・フレーズの再生を行
    うステップをさらに含む、請求項1に記載の方法。
  7. 【請求項7】前記テキスト・フレーズの少なくともいく
    つかを録音された音声から再生するステップを含む、請
    求項1に記載の方法。
  8. 【請求項8】前記テキスト・フレーズの少なくともいく
    つかをTTS(テキスト音声変換)エンジンによって再
    生するステップを含む、請求項1に記載の方法。
  9. 【請求項9】録音された音声によってユーザに指示を与
    えるステップを含む、請求項1に記載の方法。
  10. 【請求項10】TTS(テキスト音声変換)エンジンに
    よってユーザに指示を与えるステップを含む、請求項1
    に記載の方法。
  11. 【請求項11】前記オーディオ・ユーザ・インターフェ
    ースを生成する前記ステップと同時にグラフィカル・ユ
    ーザ・インターフェースを生成するステップと、 前記テキスト・フレーズおよび前記音声による指示に対
    応するテキストを表示するステップとをさらに含む、請
    求項1に記載の方法。
  12. 【請求項12】ユーザ操作のための複数のアイコンを表
    示するステップと、 色、形、図柄のうちの少なくとも1つによって、前記複
    数のアイコンの異なるものを時に応じて選択的に区別す
    るステップとをさらに含む、請求項1に記載の方法。
  13. 【請求項13】前記オーディオ・ユーザ・インターフェ
    ースを生成する前記ステップと同時にグラフィカル・ユ
    ーザ・インターフェースを生成するステップと、 前記テキスト・フレーズおよび音声による指示に対応す
    るテキストを表示するステップと、 ユーザ操作のための複数のアイコンを表示するステップ
    と、 色、形、図柄のうちの少なくとも1つによって、前記の
    複数のアイコンの異なるものを時に応じて選択的に区別
    するステップとをさらに含む、請求項1に記載の方法。
  14. 【請求項14】読み上げることを必要とせずに音声認識
    システムにユーザを登録するための、固定媒体に格納さ
    れた一連の命令でプログラムされたコンピュータ装置で
    あって、 音声出力および音声入力を有するオーディオ・ユーザ・
    インターフェースを生成する手段と、 テキスト・フレーズを音声で再生する手段と、 前記再生されたテキスト・フレーズを発声するようにユ
    ーザに音声で指示を与える手段とを備える装置。
  15. 【請求項15】登録の過程において音声によるユーザ進
    捗通知を生成する手段をさらに備える、請求項14に記
    載の装置。
  16. 【請求項16】前記テキスト・フレーズを音声で再生す
    る前記手段が、事前に録音された音声を再生する手段を
    備える、請求項14に記載の装置。
  17. 【請求項17】前記テキスト・フレーズを音声で再生す
    る前記手段が、TTS(テキスト音声変換)エンジンを
    備える、請求項14に記載の装置。
  18. 【請求項18】前記オーディオ・ユーザ・インターフェ
    ースと同時にグラフィカル・ユーザ・インターフェース
    を生成する手段と、 前記テキスト・フレーズおよび音声による指示に対応す
    るテキストを表示する手段とをさらに備える、請求項1
    4に記載の装置。
  19. 【請求項19】ユーザ操作のための複数のアイコンを表
    示する手段と、 色、形、図柄のうちの少なくとも1つによって、前記の
    複数のアイコンの異なるものを時に応じて選択的に区別
    する手段とをさらに備える、請求項14に記載の装置。
  20. 【請求項20】前記のオーディオ・ユーザ・インターフ
    ェースを生成する前記のステップと同時にグラフィカル
    ・ユーザ・インターフェースを生成する手段と、 前記テキスト・フレーズおよび音声による指示に対応す
    るテキストを表示する手段と、 ユーザ操作のための複数のアイコンを表示する手段と、 色、形、図柄のうちの少なくとも1つによって、前記の
    複数のアイコンの異なるものを時に応じて選択的に区別
    する手段とをさらに備える、請求項14に記載の装置。
JP2000027657A 1999-02-10 2000-02-04 音声認識システムにユーザを登録する方法および装置 Pending JP2000259170A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/248243 1999-02-10
US09/248,243 US6324507B1 (en) 1999-02-10 1999-02-10 Speech recognition enrollment for non-readers and displayless devices

Publications (1)

Publication Number Publication Date
JP2000259170A true JP2000259170A (ja) 2000-09-22

Family

ID=22938271

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000027657A Pending JP2000259170A (ja) 1999-02-10 2000-02-04 音声認識システムにユーザを登録する方法および装置

Country Status (8)

Country Link
US (2) US6324507B1 (ja)
EP (1) EP1028410B1 (ja)
JP (1) JP2000259170A (ja)
KR (1) KR100312060B1 (ja)
CN (1) CN1128435C (ja)
AT (1) ATE482447T1 (ja)
DE (1) DE60044991D1 (ja)
TW (1) TW503388B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334207A (ja) * 2003-05-01 2004-11-25 Microsoft Corp 日本語および中国語音声認識システムのトレーニングのための動的な発音の補助

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6594346B2 (en) * 1997-09-08 2003-07-15 Ultratec, Inc. Relay for personal interpreter
US6603835B2 (en) 1997-09-08 2003-08-05 Ultratec, Inc. System for text assisted telephony
US6324507B1 (en) * 1999-02-10 2001-11-27 International Business Machines Corp. Speech recognition enrollment for non-readers and displayless devices
US7164753B2 (en) * 1999-04-08 2007-01-16 Ultratec, Incl Real-time transcription correction system
US6456973B1 (en) * 1999-10-12 2002-09-24 International Business Machines Corp. Task automation user interface with text-to-speech output
US6760754B1 (en) * 2000-02-22 2004-07-06 At&T Corp. System, method and apparatus for communicating via sound messages and personal sound identifiers
US7308484B1 (en) 2000-06-30 2007-12-11 Cisco Technology, Inc. Apparatus and methods for providing an audibly controlled user interface for audio-based communication devices
JP4268325B2 (ja) * 2000-08-14 2009-05-27 パイオニア株式会社 音声操作語句の提示装置及び提示方法
SE0003206L (sv) * 2000-09-11 2002-03-12 Hotsip Ab Förfarande och system för informationsdistribution
US20020091530A1 (en) * 2001-01-05 2002-07-11 Panttaja Erin M. Interactive voice response system and method having voice prompts with multiple voices for user guidance
US6882707B2 (en) * 2001-02-21 2005-04-19 Ultratec, Inc. Method and apparatus for training a call assistant for relay re-voicing
US6944594B2 (en) * 2001-05-30 2005-09-13 Bellsouth Intellectual Property Corporation Multi-context conversational environment system and method
US7707033B2 (en) 2001-06-21 2010-04-27 Koninklijke Philips Electronics N.V. Method for training a consumer-oriented application device by speech items, whilst reporting progress by an animated character with various maturity statuses each associated to a respective training level, and a device arranged for supporting such method
US7881441B2 (en) 2005-06-29 2011-02-01 Ultratec, Inc. Device independent text captioned telephone service
US8416925B2 (en) 2005-06-29 2013-04-09 Ultratec, Inc. Device independent text captioned telephone service
US20040030559A1 (en) * 2001-09-25 2004-02-12 Payne Michael J. Color as a visual cue in speech-enabled applications
US20030061054A1 (en) * 2001-09-25 2003-03-27 Payne Michael J. Speaker independent voice recognition (SIVR) using dynamic assignment of speech contexts, dynamic biasing, and multi-pass parsing
US20030061053A1 (en) * 2001-09-27 2003-03-27 Payne Michael J. Method and apparatus for processing inputs into a computing device
US20030065626A1 (en) * 2001-09-28 2003-04-03 Allen Karl H. User verification for conducting health-related transactions
US20030065740A1 (en) * 2001-09-28 2003-04-03 Karl Allen Real-time access to health-related information across a network
US20030130868A1 (en) * 2002-01-04 2003-07-10 Rohan Coelho Real-time prescription transaction with adjudication across a network
US20030130875A1 (en) * 2002-01-04 2003-07-10 Hawash Maher M. Real-time prescription renewal transaction across a network
US20030130867A1 (en) * 2002-01-04 2003-07-10 Rohan Coelho Consent system for accessing health information
US7092884B2 (en) * 2002-03-01 2006-08-15 International Business Machines Corporation Method of nonvisual enrollment for speech recognition
AUPS204302A0 (en) * 2002-04-30 2002-06-06 Cmc Power Systems Limited A connection assembly
JP2004037998A (ja) 2002-07-05 2004-02-05 Denso Corp 音声制御装置
US7305336B2 (en) * 2002-08-30 2007-12-04 Fuji Xerox Co., Ltd. System and method for summarization combining natural language generation with structural analysis
US20040049391A1 (en) * 2002-09-09 2004-03-11 Fuji Xerox Co., Ltd. Systems and methods for dynamic reading fluency proficiency assessment
US7455522B2 (en) * 2002-10-04 2008-11-25 Fuji Xerox Co., Ltd. Systems and methods for dynamic reading fluency instruction and improvement
US7145571B2 (en) * 2002-11-01 2006-12-05 Tenebraex Corporation Technique for enabling color blind persons to distinguish between various colors
US20110229023A1 (en) * 2002-11-01 2011-09-22 Tenebraex Corporation Technique for enabling color blind persons to distinguish between various colors
US7916152B2 (en) * 2002-11-01 2011-03-29 Tenebraex Corporaton Technique for enabling color blind persons to distinguish between various colors
US7424420B2 (en) * 2003-02-11 2008-09-09 Fuji Xerox Co., Ltd. System and method for dynamically determining the function of a lexical item based on context
US7363213B2 (en) * 2003-02-11 2008-04-22 Fuji Xerox Co., Ltd. System and method for dynamically determining the function of a lexical item based on discourse hierarchy structure
US7369985B2 (en) * 2003-02-11 2008-05-06 Fuji Xerox Co., Ltd. System and method for dynamically determining the attitude of an author of a natural language document
US7260519B2 (en) * 2003-03-13 2007-08-21 Fuji Xerox Co., Ltd. Systems and methods for dynamically determining the attitude of a natural language speaker
US20040242330A1 (en) * 2003-03-17 2004-12-02 Blackburn Christopher W. Name service in a service-oriented gaming network environment
US8515024B2 (en) 2010-01-13 2013-08-20 Ultratec, Inc. Captioned telephone service
US7660398B2 (en) 2004-02-18 2010-02-09 Ultratec, Inc. Captioned telephone service
US7924985B2 (en) * 2005-04-21 2011-04-12 The Invention Science Fund I, Llc Interaction history applied to structured voice interaction system
US8938052B2 (en) 2005-04-21 2015-01-20 The Invention Science Fund I, Llc Systems and methods for structured voice interaction facilitated by data channel
US8139725B2 (en) * 2005-04-22 2012-03-20 The Invention Science Fund I, Llc Associated information in structured voice interaction systems
US8467506B2 (en) * 2005-04-21 2013-06-18 The Invention Science Fund I, Llc Systems and methods for structured voice interaction facilitated by data channel
US20060271368A1 (en) * 2005-05-25 2006-11-30 Yishay Carmiel Voice interface for consumer products
US11258900B2 (en) 2005-06-29 2022-02-22 Ultratec, Inc. Device independent text captioned telephone service
EP3043349B1 (en) 2006-01-06 2019-10-30 Pioneer Corporation A words recognition apparatus
KR20080063041A (ko) * 2006-12-29 2008-07-03 삼성전자주식회사 사용자 인터페이스 방법 및 장치
US20090142737A1 (en) * 2007-11-30 2009-06-04 Breig Donna J Method and system for developing reading skills
DE112009001779B4 (de) * 2008-07-30 2019-08-08 Mitsubishi Electric Corp. Spracherkennungsvorrichtung
US8121842B2 (en) 2008-12-12 2012-02-21 Microsoft Corporation Audio output of a document from mobile device
WO2014165837A1 (en) * 2013-04-04 2014-10-09 Waterhouse Jonathan Displaying an action vignette while text of a passage is correctly read aloud
US10878721B2 (en) 2014-02-28 2020-12-29 Ultratec, Inc. Semiautomated relay method and apparatus
US10748523B2 (en) 2014-02-28 2020-08-18 Ultratec, Inc. Semiautomated relay method and apparatus
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US20180034961A1 (en) 2014-02-28 2018-02-01 Ultratec, Inc. Semiautomated Relay Method and Apparatus
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
JP2019082944A (ja) * 2017-10-31 2019-05-30 富士通株式会社 事象調査補助プログラム、事象調査補助方法及び事象調査補助装置
TWI749447B (zh) * 2020-01-16 2021-12-11 國立中正大學 同步語音產生裝置及其產生方法
US11539900B2 (en) 2020-02-21 2022-12-27 Ultratec, Inc. Caption modification and augmentation systems and methods for use by hearing assisted user
CN112767946A (zh) * 2021-01-15 2021-05-07 北京嘀嘀无限科技发展有限公司 确定用户状态的方法、装置、设备、存储介质和程序产品

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5223202A (en) * 1975-08-15 1977-02-22 Fuji Xerox Co Ltd Utterance timing display device for voice recognition
JPS58178396A (ja) * 1982-04-12 1983-10-19 株式会社日立製作所 音声認識用標準パタ−ン登録方式
JPS59177599A (ja) * 1983-03-29 1984-10-08 富士通株式会社 音声登録方式
JPS60173967A (ja) * 1984-02-20 1985-09-07 Fujitsu Ltd 音声登録方式
JPS6126678B2 (ja) * 1979-12-11 1986-06-21 Sanyo Electric Co
JPS6126677B2 (ja) * 1979-10-04 1986-06-21 Sanyo Electric Co
JPS61153098U (ja) * 1985-03-15 1986-09-22
JPS61249182A (ja) * 1985-04-27 1986-11-06 Toshiba Corp パタ−ン認識学習装置
JPS62232692A (ja) * 1986-04-03 1987-10-13 株式会社リコー 特定話者音声登録方法
JPS63149699A (ja) * 1986-12-15 1988-06-22 富士通株式会社 音声入出力装置
JPS63289685A (ja) * 1987-05-21 1988-11-28 Toshiba Corp パタ−ン認識装置
JPH05216618A (ja) * 1991-11-18 1993-08-27 Toshiba Corp 音声対話システム
JPH06130985A (ja) * 1992-10-19 1994-05-13 Fujitsu Ltd 音声認識装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2661701B2 (ja) * 1988-05-12 1997-10-08 キヤノン株式会社 情報処理方法
US5297183A (en) * 1992-04-13 1994-03-22 Vcs Industries, Inc. Speech recognition system for electronic switches in a cellular telephone or personal communication network
US5717738A (en) * 1993-01-11 1998-02-10 Texas Instruments Incorporated Method and device for generating user defined spoken speed dial directories
US5502759A (en) * 1993-05-13 1996-03-26 Nynex Science & Technology, Inc. Apparatus and accompanying methods for preventing toll fraud through use of centralized caller voice verification
US5569038A (en) * 1993-11-08 1996-10-29 Tubman; Louis Acoustical prompt recording system and method
US5821933A (en) * 1995-09-14 1998-10-13 International Business Machines Corporation Visual access to restricted functions represented on a graphical user interface
US5812977A (en) * 1996-08-13 1998-09-22 Applied Voice Recognition L.P. Voice control computer interface enabling implementation of common subroutines
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US6212498B1 (en) 1997-03-28 2001-04-03 Dragon Systems, Inc. Enrollment in speech recognition
US5933804A (en) 1997-04-10 1999-08-03 Microsoft Corporation Extensible speech recognition system that provides a user with audio feedback
US6173266B1 (en) * 1997-05-06 2001-01-09 Speechworks International, Inc. System and method for developing interactive speech applications
US6017219A (en) * 1997-06-18 2000-01-25 International Business Machines Corporation System and method for interactive reading and language instruction
US5950167A (en) * 1998-01-26 1999-09-07 Lucent Technologies Inc. Screen-less remote voice or tone-controlled computer program operations via telephone set
US6075534A (en) * 1998-03-26 2000-06-13 International Business Machines Corporation Multiple function graphical user interface minibar for speech recognition
US6219644B1 (en) * 1998-03-27 2001-04-17 International Business Machines Corp. Audio-only user speech interface with audio template
US6122614A (en) * 1998-11-20 2000-09-19 Custom Speech Usa, Inc. System and method for automating transcription services
US6192343B1 (en) * 1998-12-17 2001-02-20 International Business Machines Corporation Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms
US6324507B1 (en) * 1999-02-10 2001-11-27 International Business Machines Corp. Speech recognition enrollment for non-readers and displayless devices

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5223202A (en) * 1975-08-15 1977-02-22 Fuji Xerox Co Ltd Utterance timing display device for voice recognition
JPS6126677B2 (ja) * 1979-10-04 1986-06-21 Sanyo Electric Co
JPS6126678B2 (ja) * 1979-12-11 1986-06-21 Sanyo Electric Co
JPS58178396A (ja) * 1982-04-12 1983-10-19 株式会社日立製作所 音声認識用標準パタ−ン登録方式
JPS59177599A (ja) * 1983-03-29 1984-10-08 富士通株式会社 音声登録方式
JPS60173967A (ja) * 1984-02-20 1985-09-07 Fujitsu Ltd 音声登録方式
JPS61153098U (ja) * 1985-03-15 1986-09-22
JPS61249182A (ja) * 1985-04-27 1986-11-06 Toshiba Corp パタ−ン認識学習装置
JPS62232692A (ja) * 1986-04-03 1987-10-13 株式会社リコー 特定話者音声登録方法
JPS63149699A (ja) * 1986-12-15 1988-06-22 富士通株式会社 音声入出力装置
JPS63289685A (ja) * 1987-05-21 1988-11-28 Toshiba Corp パタ−ン認識装置
JPH05216618A (ja) * 1991-11-18 1993-08-27 Toshiba Corp 音声対話システム
JPH06130985A (ja) * 1992-10-19 1994-05-13 Fujitsu Ltd 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334207A (ja) * 2003-05-01 2004-11-25 Microsoft Corp 日本語および中国語音声認識システムのトレーニングのための動的な発音の補助

Also Published As

Publication number Publication date
CN1263333A (zh) 2000-08-16
US6324507B1 (en) 2001-11-27
ATE482447T1 (de) 2010-10-15
US20020091519A1 (en) 2002-07-11
KR20000057795A (ko) 2000-09-25
KR100312060B1 (ko) 2001-11-03
DE60044991D1 (de) 2010-11-04
CN1128435C (zh) 2003-11-19
US6560574B2 (en) 2003-05-06
EP1028410B1 (en) 2010-09-22
TW503388B (en) 2002-09-21
EP1028410A1 (en) 2000-08-16

Similar Documents

Publication Publication Date Title
JP2000259170A (ja) 音声認識システムにユーザを登録する方法および装置
US7280968B2 (en) Synthetically generated speech responses including prosodic characteristics of speech inputs
US6675142B2 (en) Method and apparatus for improving speech recognition accuracy
USRE37684E1 (en) Computerized system for teaching speech
EP0965979B1 (en) Position manipulation in speech recognition
US6321196B1 (en) Phonetic spelling for speech recognition
US6535848B1 (en) Method and apparatus for transcribing multiple files into a single document
US20190130894A1 (en) Text-based insertion and replacement in audio narration
JPH027168A (ja) 音声言語翻訳機
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JPWO2007148493A1 (ja) 感情認識装置
JP2010197644A (ja) 音声認識システム
JP6841309B2 (ja) 電子機器およびプログラム
JP2003186489A (ja) 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
JP2005031150A (ja) 音声処理装置および方法
JP2000244609A (ja) 話者状況適応型音声対話装置及び発券装置
JP2005241767A (ja) 音声認識装置
Hurley et al. Telephone data collection using the World Wide Web
JP7288530B1 (ja) システムおよびプログラム
JP4260071B2 (ja) 音声合成方法、音声合成プログラム及び音声合成装置
JP2010060729A (ja) 受付装置、受付方法、及び受付プログラム
JPH0816089A (ja) 発音比較学習装置
JP2021110874A (ja) 発話練習プログラム、発話練習方法、及び、発話練習装置
Gibbon et al. Consumer off-the-shelf (COTS) speech technology product and service evaluation