JP2004334207A - 日本語および中国語音声認識システムのトレーニングのための動的な発音の補助 - Google Patents

日本語および中国語音声認識システムのトレーニングのための動的な発音の補助 Download PDF

Info

Publication number
JP2004334207A
JP2004334207A JP2004134537A JP2004134537A JP2004334207A JP 2004334207 A JP2004334207 A JP 2004334207A JP 2004134537 A JP2004134537 A JP 2004134537A JP 2004134537 A JP2004134537 A JP 2004134537A JP 2004334207 A JP2004334207 A JP 2004334207A
Authority
JP
Japan
Prior art keywords
pronunciation
training
speech recognition
training sentence
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004134537A
Other languages
English (en)
Inventor
Yun-Cheng Ju
ユンチェン ジュ
Hsiao-Wuen Hon
シャオウェン ホン
Kazuhiro Senju
センジュ カズヒロ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2004334207A publication Critical patent/JP2004334207A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】 中国語および日本語の文字の発音を容易にし、同時に、トレーニング表示を簡潔にする。
【解決手段】 漢字ベースの言語に対する音声認識システムを提供する。システムは、トレーニング文中の全ての表意文字の各々に対して発音の補助手段をロードするが、実際には、トレーニングシステムが発音上の困難を認識するまで発音の補助手段を表示しない。発音上の困難が識別されると、難しい表意文字に対して関連する発音の補助手段(ルビ)(232)を表示する。
【選択図】 図3

Description

本発明は、パターン認識に関し、より詳細には、現在の音声認識システムのトレーニングの改善に関する。
一般に、音声認識システムは、発話(spoken speech)認識能力を向上させる目的でトレーニングされる。トレーニングプロセスにおいて、トレーナは、かなり大量の言葉を読み上げるか、または他の方法で音声認識システムに供給する。音声認識システムに供給される言葉は既知であり、従って、既知の言葉のトレーナの発声(utterance)を用いて、音声認識に用いられる数学的モデルを調整することにより、正確さが向上する。一般に、トレーニング期間に音声認識システムに対して供給される言葉が多ければ多いほど、それ以降の音声認識がより正確になる。
従って、音声認識システムをトレーニングするプロセスは、ある程度の時間を必要とする。音響モデルトレーニングプロセスの期間、トレーナをできるだけ長く快適な状態に保つことは、非常に重要である。日本語や中国語などの極東の言語は、この点に関して特有の課題が残されている。現代の日本語は、中国語と同様、漢字の書式が非常に多く用いられている。漢字(すなわち、中国の文字)は、音と意味とを表現する表意文字であり、しばしば発音上の問題を引き起こす。そこで、ルビ(日本語の場合はカナ、中国語ではピンイン)と呼ばれる発音の補助手段が開発され、発音表記を明記している。現在では、漢字に基づく言語の音声認識トレーニングにおいて、与えられた単語のルビを、音声トレーニングが必要とされる全ての単語の上部に表示する。従って、トレーナが読むべき言葉と対応するルビとの双方を表示することは、比較的煩雑であり、混乱しがちである。さらに、全ての単語に対してルビを表示することは、実際には、トレーニングセッションにおける大部分の単語をどのように発音するかを知っているようなトレーナをいらいらさせることになる。
中国語および日本語の文字の発音を容易にし、同時に、トレーニング表示を簡潔にしてトレーナをいらいらさせないような音声認識トレーニングセッションを実現することは、中国語や日本語などの漢字に基づく言語の音声認識トレーニングを著しく進歩させることになる。さらに、このようなシステムは、音声トレーナがより長い時間期間に亘ってより正確にトレーニングを行なう能力を向上させ、音声システムの音声認識全体を改善すると信じられている。認識能力の改善は、音声認識システムに対するユーザの全体的な印象を向上することにもなる。
漢字に基づく言語の音声認識トレーニングシステムを提供する。システムは、トレーニングの言葉の各表意文字の全てに対して発音の補助手段を提供するが、実際には、トレーニングシステムが発音上の困難を認識するまでは、表意文字を表示しない。発音上の困難が識別されると、難しい表意文字に対応する発音の補助手段(ルビ)が表示される。
図1は、本発明を実施する適切なコンピューティング環境例100を例示する。コンピューティング環境100は、適切なコンピューティング環境の一例であって、本発明の利用またはその機能の範囲に対する限定の示唆を企図するものではない。また、コンピューティング環境例100に例示された単一あるいは複数のコンポーネントの組み合わせに関連する依存性や要求事項を、コンピューティング環境例100が有すると解釈されるべきものでもない。
本発明は、無数の他の汎用あるいは専用コンピューティング環境または構成と共に機能しうる。本発明と共に用いられるのに適した公知のコンピューティングシステム、コンピューティング環境、および/またはコンピューティング配置は、これらに限定されないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドあるいはラップトップデバイス、マルチプロセッサデバイス、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家電製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、テレフォニーシステム、前述のシステムあるいはデバイスのうちのいずれかを含む分散コンピューティング環境などを含む。
本発明を、コンピュータによって実行されうるプログラムモジュールなどのコンピュータ実行可能命令に係る一般的な文脈で記述することができる。一般には、プログラムモジュールは、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造など、特定のタスクを実行するあるいは特定の抽象的データ型を実装するものを含む。本発明を、通信ネットワークを介して接続されたリモート処理デバイスによってタスクが実行されるような分散コンピューティング環境においても実施することができる。分散コンピューティング環境において、プログラムモジュールを、メモリストレージデバイスを含むローカルおよびリモートコンピュータストレージ媒体の双方に配置することができる。
図1を参照すると、本発明を実施するシステム例には、コンピュータ110の形態を有する汎用コンピューティングデバイスを含む。コンピュータ110のコンポーネントは、これらに限定されないが、中央処理ユニット120、システムメモリ130、および、システムメモリから処理ユニット120への接続を含む、種々のシステムコンポーネントを接続するシステムバス121を含む。
システムバス121は、メモリバスあるいはメモリコントローラ、周辺バス、および種々のバスアーキテクチャのうちのいずれかを用いたローカルバスなどの種々のバス構造のうちのいずれでもよい。この種のバス構造には、これらに限定されないが、ISA(Industry・Standard・Architecture)バス、MCA(Micro・Channel・Architecture)バス、エンハンストISA(Enhanced ISA)バス、VESA(Video・Electronics・Standard・Association)ローカルバス、および、メザニン(Mezzanine)バスとしても知られているPCI(Peripheral・Component・Interconnect)バスなどを含む。
コンピュータ110は、典型的には、種々のコンピュータ読み取り可能媒体を含む。コンピュータ読み取り可能媒体は、コンピュータ110によってアクセスされうるあらゆる入手可能な媒体であって、揮発性および不揮発性の、リムーバブルおよび非リムーバブル媒体の双方を含む。例えば、コンピュータ読み取り可能媒体は、これらに限定されないが、コンピュータストレージ媒体および通信媒体を含む。コンピュータストレージ媒体は、コンピュータ読み取り可能命令、データ構造、プログラムモジュールまたは他のデータなどの情報を蓄積するためのあらゆる方法あるいは技術によって実現された揮発性および不揮発性の、リムーバブルおよび非リムーバブル媒体の双方を含む。コンピュータストレージ媒体は、これらに限定されないが、RAM、ROM、EEPROM、フラッシュメモリあるいは他のメモリ技術、CD−ROM、DVD(Digital・Versatile・Disk)または他のディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは、所望の情報をストアするために用いられコンピュータ110によってアクセスされるあらゆる媒体を含む。通信媒体は、典型的には、搬送波または他の伝送媒体などの変調されたデータ信号に実現されたコンピュータ読み取り可能命令、データ構造、プログラムモジュールまたは他のデータであり、あらゆる情報伝達媒体を含む。「変調されたデータ信号」という用語は、信号中に情報を符号化するように単一または複数個の特徴的な組を有するように、またはそのように変更された信号を意味する。例えば限定ではなく、通信媒体は、有線ネットワークまたは直接有線接続などの有線媒体、および、音波、RF、赤外線または他の無線媒体などの無線媒体を含む。前述の媒体のあらゆる組み合わせも、コンピュータ読み取り可能媒体の範疇に含められるべきである。
システムメモリ130は、リードオンリメモリ(ROM)131およびランダムアクセスメモリ(RAM)132などの揮発性および/または不揮発性メモリの形態のコンピュータストレージ媒体を含む。スタートアップ時などにコンピュータ110内の要素間での情報伝達を助ける基本ルーチンを含む基本入出力システム(BIOS)133は、典型的には、ROM131内に格納される。RAM132は、典型的には、処理ユニット120によって即時アクセス可能な、および/または現時点で処理されつつあるデータおよび/またはプログラムモジュールを保持する。例えば限定ではなく、図1は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137を例示する。
コンピュータ110は、他のリムーバブル/非リムーバブルな揮発性/不揮発性コンピュータ媒体を含むことができる。例えば限定ではなく、図1は、非リムーバブルかつ不揮発性の磁気媒体への読み書きを行なうハードディスクドライブ141、リムーバブルかつ不揮発性の磁気ディスク152への読み書きを行なう磁気ディスクドライブ151、CD−ROMあるいは他の光学媒体などのリムーバブルかつ不揮発性の光学ディスク156への読み書きを行なう光学ディスクドライブ155を例示する。例示的オペレーティング環境において用いられる他のリムーバブル/非リムーバブルな揮発性/不揮発性コンピュータストレージ媒体は、これらに限定されないが、磁気テープカセット、フラッシュメモリカード、デジタル汎用ディスク、デジタルビデオテープ、固体RAM、固体ROMなどを含む。ハードディスクドライブ141は、典型的には、インタフェース140などの非リムーバブルメモリインタフェースを介してシステムバス121に接続されており、磁気ディスクドライブ151および光学ディスクドライブ155は、典型的には、インタフェース150などのリムーバブルメモリインタフェースを介してシステムバス121に接続されている。
上述の図1に例示されているドライブおよびそれらに関連するコンピュータストレージ媒体は、コンピュータ110に対するコンピュータ読み取り可能命令、データ構造、プログラムモジュールおよび他のデータのストレージを実現する。例えば、図1において、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を格納するように例示されている。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同一であっても相異なっていても構わないことに留意されたい。本明細書において、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147は、少なくともそれらが異なったバージョンであることを例示する目的で、異なった参照番号が付与されている。
ユーザは、キーボード162、マイクロフォン163、およびマウス、トラックボールあるいはタッチパッドのようなポインティングデバイス161などの入力デバイスを介して、コンピュータ110にコマンドおよび情報を入力することができる。他の入力デバイス(図示せず)は、ジョイスティック、ゲームパッド、衛星通信アンテナ、スキャナなどを含むことができる。これらおよび他の入力デバイスは、システムバス121に接続されているユーザ入力インタフェース160を介して処理ユニット120に接続されることが多いが、パラレルポート、ゲームポートまたはユニバーサルシリアルバス(USB)などの他のインタフェースおよびバス構造によって接続されることも可能である。モニタ191または他の種類の表示装置を、ビデオインタフェース190などのインタフェースを介してバス121に接続する。モニタに加えて、コンピュータは、スピーカ197およびプリンタ196などの他の周辺出力デバイスを含むことができ、これらは、周辺出力インタフェース195を介して接続されている。
コンピュータ110は、リモートコンピュータ180などの単一または複数個の他のコンピュータへの論理接続を利用したネットワーク環境においても動作することができる。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイスあるいは他の共通ネットワークノードなどであり、典型的には、コンピュータ110に関連して上述されている多くのまたは全ての要素を含む。図1に示されている論理接続は、ローカルエリアネットワーク(LAN)171およびワイドエリアネットワーク(WAN)173が含まれるが、他のネットワークを含むことができる。このようなネットワーク環境は、オフィスにおいて一般的であり、企業内コンピュータネットワーク、イントラネットおよびインターネットである。
LANネットワーク環境において用いられる場合には、コンピュータ110は、ネットワークインタフェースすなわちアダプタ170を介してLAN171に接続される。WANネットワーク環境において用いられる場合には、コンピュータ110は、典型的には、インターネットなどのWAN173を介した通信を設定するモデム172または他の手段を有している。モデム172は、内蔵でも外付けでも構わないが、ユーザ入力インタフェース160または他の適切な機構を介してシステムバス121に接続されている。ネットワーク環境においては、コンピュータ110に関連して示されているプログラムモジュールまたはその一部を、リモートメモリストレージデバイスに格納することができる。例えば限定されないが、図1において、リモートアプリケーションプログラム185は、リモートコンピュータ180上に存在しているように示されている。図示されたネットワーク接続は、例示目的であり、コンピュータ間の通信を設定する他の手段も用いられうることに留意されたい。
図2は、コンピューティング環境の一例としてのモバイルデバイス200を示すブロック図である。モバイルデバイス200は、マイクロプロセッサ202、メモリ204、入出力(I/O)コンポーネント206、および、リモートコンピュータあるいは他のモバイルデバイスとの通信を行なう通信インタフェース208を含む。一実施形態において、前述されているコンポーネントが、適切なバス210を介して互いに通信するように接続されている。
メモリ204は、バッテリバックアップモジュール(図示せず)を有するランダムアクセスメモリ(RAM)などの不揮発性電子的メモリとして実装されており、メモリ204内にストアされた情報は、モバイルデバイス200への電源が切断された場合においても失われない。メモリ204の一部は、プログラム実行のためのアドレシング可能なメモリとして割り当てられることが望ましく、また、メモリ204の別の一部は、ディスクドライブ上のストレージを模する目的などで、ストレージとして用いられることが望ましい。
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214およびオブジェクトストア216を含む。動作中、オペレーティングシステム212は、メモリ204からプロセッサ202によって実行されることが望ましい。オペレーティングシステム212は、本発明の望ましい実施形態においては、マイクロソフト社より市販されているWINDOWS(登録商標)CEブランドのオペレーティングシステムである。オペレーティングシステム212は、モバイルデバイス向けに設計されていることが望ましく、公開されたアプリケーションプログラミングインタフェースおよびメソッドの組を介してアプリケーション214によって用いることができるデータベース機能を実現している。オブジェクトストア216内のオブジェクトは、少なくとも、一部は、公開されたアプリケーションプログラミングインタフェースおよびメソッドへの呼び出しに応答して、アプリケーション214およびオペレーティングシステム212によって管理される。
通信インタフェース208は、モバイルデバイス200による情報の送受信を可能にする種々のデバイスおよび技術を表わしている。これらのデバイスは、いくつかの例を挙げれば、有線および無線モデム、衛星通信レシーバおよびブロードキャストチューナを含む。モバイルデバイス200を、データ交換目的で、コンピュータに対して直接接続することができる。このような場合、通信インタフェース208は、赤外線トランシーバまたはシリアル/パラレル通信接続であり、これら全てはストリーミング情報の送信が可能である。
入出力コンポーネント206は、タッチスクリーン、ボタン、ローラ、およびマイクロフォンなどの種々の入力デバイスおよびオーディオジェネレータ、振動デバイス、およびディスプレイなどの種々の出力デバイスを含む。上記に列挙されたデバイスは例示目的であり、それらが全てモバイルデバイス200に存在している必要は無い。加えて、モバイルデバイス200が他の入出力デバイスを有することも可能であり、このことは本発明の範疇に包含される。
本発明の一側面においては、トレーナが発音をするのに難しい単語に対してのみルビを動的に表示するようなユーザインタフェース(UI)コンポーネントを用いる。この新たなUIコンポーネント240は、日本語および中国語のユーザに対して、よりフレンドリーで快適なトレーニングセッションを提供する。図3は、従来技術にかかるユーザインタフェースコンポーネントを示す。従来技術においては、プロンプトファイルディスプレイユーザインタフェースモジュール230は、トレーナが読み上げるべき文を表示する前に、全ての単語に対するルビ232を準備し、文全体と共に全てのルビ232を表示する。従来技術にかかるユーザインタフェースコンポーネント230は、読み上げられた単語をハイライト表示して進捗を明示し、何らかの拒否または予期しない長時間休止が検出された場合に、新たに文脈自由文法を再生成して文の残りの部分に対する適用を継続するために、音声認識エンジンからの通知を待機する。
本発明の一つの広範な側面に従って、ユーザインタフェースモジュール240は、ルビを準備するが、それら全てを表示するわけではない。その結果、トレーナは、トレーニング文の新たなページを開始する際には、平文のみを見ることになる。これは、図4に示されている。ユーザインタフェースモジュール240は、文を進めていく際、発音上の困難が観察される(音声認識を拒否または長時間の休止を識別)ごとに、難しい単語の直近にルビを表示する。モジュール240は、一定量のトレーニング文を表示するトレーニング文部分244を含むことが望ましい。さらに、モジュール240は、音声認識エンジン248からの通知を受信する通信チャネル246を含む。従来技術において、音声認識エンジンは、認識された単語の明示のみを行なって、トレーナに読み続けるように適切に指示をする。しかしながら、モジュール240は、認識エンジン248との通信チャネルを用いて、発音上の困難の通知を受信する。これに応答して、モジュール240は、トレーナが発音上の困難に遭遇した単語のみに対するルビを表示する。従って、トレーナが全文を発音上の困難無く読み上げることが可能である場合には、表示がルビによって中断されまたは分割されることが無いことを確実にする。これは、トレーナに対する最も簡潔で最も効果的な音声認識トレーニング表示を提供すると考えられる。
図5は、音声トレーニング中に、トレーナが発音上の困難に遭遇した状況を例示する。ユーザインタフェースモジュール240は、必要に応じてルビを表示する。この状況において、トレーナは、単語の正しい発音を知らず、そのため、拒否通知が音声認識エンジンによって生成され、ユーザインタフェースモジュール240によって受信される。ユーザインタフェースモジュール240は、難しい単語に対するルビ242を、その単語に対する発音を示すようにディスプレイ上で注意深く配置し、トレーナが継続することを可能にする。
図6は、本発明の一側面に従って漢字ベースの音声トレーニング文に対するルビを選択的に表示するための方法を示す流れ図である。ブロック300において、ユーザインタフェースモジュールは、最初にルビを全く表示しないが、ブロック300で、トレーニング文に対するルビは全てシステムメモリにロードされている。ブロック302において、発音上の困難を、音声認識により検出する。この種の困難は、例えば、発音の休止、発音間違いなどを含む。しかしながら、本発明の種々の実施例において、他の適切かつ検出可能な発音上の困難を利用することができる。
ブロック302において、音声認識モジュール(図示せず)は、ユーザインタフェースモジュール240に、検出された発音上の困難を通知する。その後、制御がブロック304へ移り、ユーザインタフェースモジュールが、トレーナがトレーニングページを完了しているか否かを決定する。トレーニングページが実際に完了している場合には、経路306に従って制御が進み、トレーニングページに関するトレーニングは終了する。しかしながら、経路308によって示されているように、トレーナが当トレーニングページを完了していない場合には、ユーザインタフェースモジュールは、トレーニング文中の次の単語に対するルビを表示する(ブロック310)。ルビが表示されると、制御はブロック302へ戻り、この方法を反復する。
本明細書においては、本発明が特定の実施例を参照して記述されているが、本発明の精神およびその範囲を逸脱することなく種々の変更がなされうることが当業者には明らかである。例えば、本明細書において、発音補助手段が文字(ルビ)であるとして記述されているが、正しい発音を音声として録音したものなどの他の適切な発音補助手段も動的に提供することができる。
本発明を実施することができるコンピューティング環境の一例を示すブロック図である。 本発明を実施することができる別のコンピューティング環境を示すブロック図である。 従来技術にかかる音声認識トレーニングユーザインタフェースを模式的に示す図である。 本発明の実施形態にかかる音声認識トレーニングユーザインタフェースを模式図である。 本発明の実施形態にかかる音声認識トレーニングユーザインタフェースの別の模式図である。 本発明の実施形態にかかる音声認識トレーニング中に選択的に発音を補助する方法を示す流れ図である。
符号の説明
202 プロセッサ
204 メモリ
206 入出力モジュール
208 通信インタフェース
212 オペレーティングシステム
214 アプリケーションプログラム
216 オブジェクトストア

Claims (13)

  1. 音声認識トレーニングのためのユーザインタフェースモジュールであって、
    トレーニング文を表示するトレーニング文の指示部と、
    音声認識エンジンに対して接続可能であり、該エンジンから前記トレーニング文内の難しい単語に関連する発音上の困難の表示を受信する通信チャネルと、
    前記発音上の困難の表示に応答して前記難しい単語の発音を補助する目的で配置された選択的に表示される発音の補助手段と
    を備えたことを特徴とするユーザインタフェースモジュール。
  2. 前記選択的に表示される発音の補助手段は、ルビであることを特徴とする請求項1に記載のモジュール。
  3. 前記トレーニング文は、少なくとも一つの表意文字を含むことを特徴とする請求項1に記載のモジュール。
  4. 前記トレーニング文は、中国語で書かれていることを特徴とする請求項3に記載のモジュール。
  5. 前記トレーニング文は、日本語で書かれていることを特徴とする請求項3に記載のモジュール。
  6. 前記発音の補助手段は、前記難しい単語の上部に表示されることを特徴とする請求項1に記載のモジュール。
  7. 音声認識システムのトレーニング方法であって、
    少なくとも一つの表意文字の形態の複数のトレーニング文をロードすること、
    前記トレーニング文を発音の補助手段無く表示すること、
    前記トレーニング文内の難しい単語に関連する発音上の困難の通知を受信すること、および、
    前記難しい単語に関連する発音の補助手段を選択的に提供すること
    を備えたことを特徴とする方法。
  8. 前記発音の補助手段を提供することは、前記難しい単語の発音を補助するためのルビを表示することを含むことを特徴とする請求項7に記載の方法。
  9. 前記トレーニング文は、中国語で書かれていることを特徴とする請求項7に記載の方法。
  10. 前記トレーニング文は、日本語で書かれていることを特徴とする請求項7に記載の方法。
  11. 前記通知は、音声認識エンジンから受信されることを特徴とする請求項7に記載の方法。
  12. 前記発音上の困難は、休止を含むことを特徴とする請求項7に記載の方法。
  13. 前記発音上の困難は、発音間違いを含むことを特徴とする請求項7に記載の方法。
JP2004134537A 2003-05-01 2004-04-28 日本語および中国語音声認識システムのトレーニングのための動的な発音の補助 Pending JP2004334207A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/427,216 US20040236581A1 (en) 2003-05-01 2003-05-01 Dynamic pronunciation support for Japanese and Chinese speech recognition training

Publications (1)

Publication Number Publication Date
JP2004334207A true JP2004334207A (ja) 2004-11-25

Family

ID=32990436

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004134537A Pending JP2004334207A (ja) 2003-05-01 2004-04-28 日本語および中国語音声認識システムのトレーニングのための動的な発音の補助

Country Status (12)

Country Link
US (1) US20040236581A1 (ja)
EP (1) EP1475776B1 (ja)
JP (1) JP2004334207A (ja)
KR (1) KR20040094634A (ja)
CN (1) CN1551102A (ja)
AT (1) ATE331276T1 (ja)
AU (1) AU2004201480A1 (ja)
BR (1) BRPI0401664A (ja)
CA (1) CA2463572A1 (ja)
DE (1) DE602004001280T2 (ja)
MX (1) MXPA04004142A (ja)
RU (1) RU2344492C2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015121781A (ja) * 2013-11-20 2015-07-02 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、及びそのプログラム
JP2016045467A (ja) * 2014-08-26 2016-04-04 日本放送協会 発話評価装置、発話評価方法、及びプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8290775B2 (en) * 2007-06-29 2012-10-16 Microsoft Corporation Pronunciation correction of text-to-speech systems between different spoken languages
US8438008B2 (en) * 2010-08-03 2013-05-07 King Fahd University Of Petroleum And Minerals Method of generating a transliteration font
US9437190B2 (en) * 2011-09-09 2016-09-06 Asahi Kasei Kabushiki Kaisha Speech recognition apparatus for recognizing user's utterance
WO2014052326A2 (en) 2012-09-25 2014-04-03 Nvoq Incorporated Apparatus and methods for managing resources for a system using voice recognition
RU2530268C2 (ru) 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ обучения информационной диалоговой системы пользователем
CN107041159B (zh) * 2014-08-13 2020-09-11 俄克拉荷马大学董事会 发音助手
US9886433B2 (en) * 2015-10-13 2018-02-06 Lenovo (Singapore) Pte. Ltd. Detecting logograms using multiple inputs

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916192A (ja) * 1995-04-26 1997-01-17 Ricoh Co Ltd 連続音声認識方式及び標準パタン訓練方式
JP2000259170A (ja) * 1999-02-10 2000-09-22 Internatl Business Mach Corp <Ibm> 音声認識システムにユーザを登録する方法および装置
JP2001265210A (ja) * 2000-03-16 2001-09-28 Takayuki Takada 勤行唱題補助方法および装置並びに記録媒体

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4713008A (en) * 1986-09-09 1987-12-15 Stocker Elizabeth M Method and means for teaching a set of sound symbols through the unique device of phonetic phenomena
US4891011A (en) * 1988-07-13 1990-01-02 Cook Graham D System for assisting the learning of a subject
CN1137449C (zh) * 1997-09-19 2004-02-04 国际商业机器公司 在中文语音识别***中识别字母/数字串的方法
US6336089B1 (en) * 1998-09-22 2002-01-01 Michael Everding Interactive digital phonetic captioning program
US6324511B1 (en) * 1998-10-01 2001-11-27 Mindmaker, Inc. Method of and apparatus for multi-modal information presentation to computer users with dyslexia, reading disabilities or visual impairment
US7110945B2 (en) * 1999-07-16 2006-09-19 Dreamations Llc Interactive book
JP3542026B2 (ja) * 2000-05-02 2004-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
EP1237094A1 (en) * 2001-01-22 2002-09-04 Sun Microsystems, Inc. A method for determining rubies
EP1308856A3 (en) * 2001-11-01 2006-01-18 Matsushita Electric Industrial Co., Ltd. Information providing system and information providing server apparatus for use therein, information terminal unit, and information providing method using to user profile
US7386453B2 (en) * 2001-11-14 2008-06-10 Fuji Xerox, Co., Ltd Dynamically changing the levels of reading assistance and instruction to support the needs of different individuals
TW556152B (en) * 2002-05-29 2003-10-01 Labs Inc L Interface of automatically labeling phonic symbols for correcting user's pronunciation, and systems and methods
US20040049391A1 (en) * 2002-09-09 2004-03-11 Fuji Xerox Co., Ltd. Systems and methods for dynamic reading fluency proficiency assessment
US7455522B2 (en) * 2002-10-04 2008-11-25 Fuji Xerox Co., Ltd. Systems and methods for dynamic reading fluency instruction and improvement
WO2004061796A1 (en) * 2002-12-31 2004-07-22 Burlingtonspeech Limited Comprehensive spoken language learning system
US7407384B2 (en) * 2003-05-29 2008-08-05 Robert Bosch Gmbh System, method and device for language education through a voice portal server
US8131538B2 (en) * 2003-09-30 2012-03-06 American Youth Literacy Foundation Phoneme decoding system and method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916192A (ja) * 1995-04-26 1997-01-17 Ricoh Co Ltd 連続音声認識方式及び標準パタン訓練方式
JP2000259170A (ja) * 1999-02-10 2000-09-22 Internatl Business Mach Corp <Ibm> 音声認識システムにユーザを登録する方法および装置
JP2001265210A (ja) * 2000-03-16 2001-09-28 Takayuki Takada 勤行唱題補助方法および装置並びに記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015121781A (ja) * 2013-11-20 2015-07-02 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、及びそのプログラム
JP2016045467A (ja) * 2014-08-26 2016-04-04 日本放送協会 発話評価装置、発話評価方法、及びプログラム

Also Published As

Publication number Publication date
ATE331276T1 (de) 2006-07-15
RU2344492C2 (ru) 2009-01-20
US20040236581A1 (en) 2004-11-25
EP1475776B1 (en) 2006-06-21
CN1551102A (zh) 2004-12-01
DE602004001280T2 (de) 2006-10-12
RU2004113568A (ru) 2005-10-10
EP1475776A1 (en) 2004-11-10
AU2004201480A1 (en) 2004-11-18
KR20040094634A (ko) 2004-11-10
BRPI0401664A (pt) 2005-01-18
CA2463572A1 (en) 2004-11-01
DE602004001280D1 (de) 2006-08-03
MXPA04004142A (es) 2005-07-05

Similar Documents

Publication Publication Date Title
KR101143034B1 (ko) 음성 명령을 명확하게 해주는 중앙집중식 방법 및 시스템
KR101255402B1 (ko) 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
TWI510965B (zh) 輸入方法編輯器整合
JP2006146887A (ja) キャラクタの制御された操作
JP2006119625A (ja) 音声認識における動詞誤りの回復
JP2009506386A (ja) 対話式ユーザチュートリアルへの、音声エンジン訓練の組込み
JP7230145B2 (ja) 自動音声認識のためのコンテキスト非正規化
JP2020027132A (ja) 情報処理装置およびプログラム
JP2004334207A (ja) 日本語および中国語音声認識システムのトレーニングのための動的な発音の補助
US9697851B2 (en) Note-taking assistance system, information delivery device, terminal, note-taking assistance method, and computer-readable recording medium
JP5791124B2 (ja) 要約筆記支援システム、要約筆記支援装置、要約筆記支援方法、及びプログラム
JP5892598B2 (ja) 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム
US8438005B1 (en) Generating modified phonetic representations of indic words
KR20170009487A (ko) 청크 기반 언어 학습 방법 및 이를 수행하는 전자 기기
JP2016197184A (ja) 発音学習コンテンツ提供装置、システム、プログラム及び方法
JP2013168158A (ja) 視覚障害のあるユーザを助けるための同音異義語の規範的記述
KR102453876B1 (ko) 외국어 스피킹 훈련 방법, 장치 및 프로그램
US20240013668A1 (en) Information Processing Method, Program, And Information Processing Apparatus
Neff et al. User modeling to support the development of an auditory help system
JP2000003355A (ja) 中国語入力変換処理装置、同装置に用いられる新語登録方法及び記録媒体
KR20150011042A (ko) 외국어 학습 시스템 및 학습 방법
JP2019144310A (ja) 情報処理装置、情報処理システム、制御方法、およびプログラム
JP2006185306A (ja) 情報処理方法
JP2007249022A (ja) 音声合成装置および音声合成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100302

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100803