JP2004334207A

JP2004334207A - 日本語および中国語音声認識システムのトレーニングのための動的な発音の補助

Info

Publication number: JP2004334207A
Application number: JP2004134537A
Authority: JP
Inventors: Yun-Cheng Ju; ユンチェンジュ; Hsiao-Wuen Hon; シャオウェンホン; Kazuhiro Senju; センジュカズヒロ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2003-05-01
Filing date: 2004-04-28
Publication date: 2004-11-25
Also published as: ATE331276T1; RU2344492C2; US20040236581A1; EP1475776B1; CN1551102A; DE602004001280T2; RU2004113568A; EP1475776A1; AU2004201480A1; KR20040094634A; BRPI0401664A; CA2463572A1; DE602004001280D1; MXPA04004142A

Abstract

【課題】中国語および日本語の文字の発音を容易にし、同時に、トレーニング表示を簡潔にする。
【解決手段】漢字ベースの言語に対する音声認識システムを提供する。システムは、トレーニング文中の全ての表意文字の各々に対して発音の補助手段をロードするが、実際には、トレーニングシステムが発音上の困難を認識するまで発音の補助手段を表示しない。発音上の困難が識別されると、難しい表意文字に対して関連する発音の補助手段（ルビ）（２３２）を表示する。
【選択図】図３

Description

本発明は、パターン認識に関し、より詳細には、現在の音声認識システムのトレーニングの改善に関する。

一般に、音声認識システムは、発話（spoken speech）認識能力を向上させる目的でトレーニングされる。トレーニングプロセスにおいて、トレーナは、かなり大量の言葉を読み上げるか、または他の方法で音声認識システムに供給する。音声認識システムに供給される言葉は既知であり、従って、既知の言葉のトレーナの発声（utterance）を用いて、音声認識に用いられる数学的モデルを調整することにより、正確さが向上する。一般に、トレーニング期間に音声認識システムに対して供給される言葉が多ければ多いほど、それ以降の音声認識がより正確になる。

従って、音声認識システムをトレーニングするプロセスは、ある程度の時間を必要とする。音響モデルトレーニングプロセスの期間、トレーナをできるだけ長く快適な状態に保つことは、非常に重要である。日本語や中国語などの極東の言語は、この点に関して特有の課題が残されている。現代の日本語は、中国語と同様、漢字の書式が非常に多く用いられている。漢字（すなわち、中国の文字）は、音と意味とを表現する表意文字であり、しばしば発音上の問題を引き起こす。そこで、ルビ（日本語の場合はカナ、中国語ではピンイン）と呼ばれる発音の補助手段が開発され、発音表記を明記している。現在では、漢字に基づく言語の音声認識トレーニングにおいて、与えられた単語のルビを、音声トレーニングが必要とされる全ての単語の上部に表示する。従って、トレーナが読むべき言葉と対応するルビとの双方を表示することは、比較的煩雑であり、混乱しがちである。さらに、全ての単語に対してルビを表示することは、実際には、トレーニングセッションにおける大部分の単語をどのように発音するかを知っているようなトレーナをいらいらさせることになる。

中国語および日本語の文字の発音を容易にし、同時に、トレーニング表示を簡潔にしてトレーナをいらいらさせないような音声認識トレーニングセッションを実現することは、中国語や日本語などの漢字に基づく言語の音声認識トレーニングを著しく進歩させることになる。さらに、このようなシステムは、音声トレーナがより長い時間期間に亘ってより正確にトレーニングを行なう能力を向上させ、音声システムの音声認識全体を改善すると信じられている。認識能力の改善は、音声認識システムに対するユーザの全体的な印象を向上することにもなる。

漢字に基づく言語の音声認識トレーニングシステムを提供する。システムは、トレーニングの言葉の各表意文字の全てに対して発音の補助手段を提供するが、実際には、トレーニングシステムが発音上の困難を認識するまでは、表意文字を表示しない。発音上の困難が識別されると、難しい表意文字に対応する発音の補助手段（ルビ）が表示される。

図１は、本発明を実施する適切なコンピューティング環境例１００を例示する。コンピューティング環境１００は、適切なコンピューティング環境の一例であって、本発明の利用またはその機能の範囲に対する限定の示唆を企図するものではない。また、コンピューティング環境例１００に例示された単一あるいは複数のコンポーネントの組み合わせに関連する依存性や要求事項を、コンピューティング環境例１００が有すると解釈されるべきものでもない。

本発明は、無数の他の汎用あるいは専用コンピューティング環境または構成と共に機能しうる。本発明と共に用いられるのに適した公知のコンピューティングシステム、コンピューティング環境、および／またはコンピューティング配置は、これらに限定されないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドあるいはラップトップデバイス、マルチプロセッサデバイス、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家電製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、テレフォニーシステム、前述のシステムあるいはデバイスのうちのいずれかを含む分散コンピューティング環境などを含む。

本発明を、コンピュータによって実行されうるプログラムモジュールなどのコンピュータ実行可能命令に係る一般的な文脈で記述することができる。一般には、プログラムモジュールは、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造など、特定のタスクを実行するあるいは特定の抽象的データ型を実装するものを含む。本発明を、通信ネットワークを介して接続されたリモート処理デバイスによってタスクが実行されるような分散コンピューティング環境においても実施することができる。分散コンピューティング環境において、プログラムモジュールを、メモリストレージデバイスを含むローカルおよびリモートコンピュータストレージ媒体の双方に配置することができる。

図１を参照すると、本発明を実施するシステム例には、コンピュータ１１０の形態を有する汎用コンピューティングデバイスを含む。コンピュータ１１０のコンポーネントは、これらに限定されないが、中央処理ユニット１２０、システムメモリ１３０、および、システムメモリから処理ユニット１２０への接続を含む、種々のシステムコンポーネントを接続するシステムバス１２１を含む。

システムバス１２１は、メモリバスあるいはメモリコントローラ、周辺バス、および種々のバスアーキテクチャのうちのいずれかを用いたローカルバスなどの種々のバス構造のうちのいずれでもよい。この種のバス構造には、これらに限定されないが、ＩＳＡ（Industry・Standard・Architecture）バス、ＭＣＡ（Micro・Channel・Architecture）バス、エンハンストＩＳＡ（Enhanced ISA）バス、ＶＥＳＡ（Video・Electronics・Standard・Association）ローカルバス、および、メザニン（Mezzanine）バスとしても知られているＰＣＩ（Peripheral・Component・Interconnect）バスなどを含む。

コンピュータ１１０は、典型的には、種々のコンピュータ読み取り可能媒体を含む。コンピュータ読み取り可能媒体は、コンピュータ１１０によってアクセスされうるあらゆる入手可能な媒体であって、揮発性および不揮発性の、リムーバブルおよび非リムーバブル媒体の双方を含む。例えば、コンピュータ読み取り可能媒体は、これらに限定されないが、コンピュータストレージ媒体および通信媒体を含む。コンピュータストレージ媒体は、コンピュータ読み取り可能命令、データ構造、プログラムモジュールまたは他のデータなどの情報を蓄積するためのあらゆる方法あるいは技術によって実現された揮発性および不揮発性の、リムーバブルおよび非リムーバブル媒体の双方を含む。コンピュータストレージ媒体は、これらに限定されないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリあるいは他のメモリ技術、ＣＤ−ＲＯＭ、ＤＶＤ（Digital・Versatile・Disk）または他のディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは、所望の情報をストアするために用いられコンピュータ１１０によってアクセスされるあらゆる媒体を含む。通信媒体は、典型的には、搬送波または他の伝送媒体などの変調されたデータ信号に実現されたコンピュータ読み取り可能命令、データ構造、プログラムモジュールまたは他のデータであり、あらゆる情報伝達媒体を含む。「変調されたデータ信号」という用語は、信号中に情報を符号化するように単一または複数個の特徴的な組を有するように、またはそのように変更された信号を意味する。例えば限定ではなく、通信媒体は、有線ネットワークまたは直接有線接続などの有線媒体、および、音波、ＲＦ、赤外線または他の無線媒体などの無線媒体を含む。前述の媒体のあらゆる組み合わせも、コンピュータ読み取り可能媒体の範疇に含められるべきである。

システムメモリ１３０は、リードオンリメモリ（ＲＯＭ）１３１およびランダムアクセスメモリ（ＲＡＭ）１３２などの揮発性および／または不揮発性メモリの形態のコンピュータストレージ媒体を含む。スタートアップ時などにコンピュータ１１０内の要素間での情報伝達を助ける基本ルーチンを含む基本入出力システム（ＢＩＯＳ）１３３は、典型的には、ＲＯＭ１３１内に格納される。ＲＡＭ１３２は、典型的には、処理ユニット１２０によって即時アクセス可能な、および／または現時点で処理されつつあるデータおよび／またはプログラムモジュールを保持する。例えば限定ではなく、図１は、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７を例示する。

コンピュータ１１０は、他のリムーバブル／非リムーバブルな揮発性／不揮発性コンピュータ媒体を含むことができる。例えば限定ではなく、図１は、非リムーバブルかつ不揮発性の磁気媒体への読み書きを行なうハードディスクドライブ１４１、リムーバブルかつ不揮発性の磁気ディスク１５２への読み書きを行なう磁気ディスクドライブ１５１、ＣＤ−ＲＯＭあるいは他の光学媒体などのリムーバブルかつ不揮発性の光学ディスク１５６への読み書きを行なう光学ディスクドライブ１５５を例示する。例示的オペレーティング環境において用いられる他のリムーバブル／非リムーバブルな揮発性／不揮発性コンピュータストレージ媒体は、これらに限定されないが、磁気テープカセット、フラッシュメモリカード、デジタル汎用ディスク、デジタルビデオテープ、固体ＲＡＭ、固体ＲＯＭなどを含む。ハードディスクドライブ１４１は、典型的には、インタフェース１４０などの非リムーバブルメモリインタフェースを介してシステムバス１２１に接続されており、磁気ディスクドライブ１５１および光学ディスクドライブ１５５は、典型的には、インタフェース１５０などのリムーバブルメモリインタフェースを介してシステムバス１２１に接続されている。

上述の図１に例示されているドライブおよびそれらに関連するコンピュータストレージ媒体は、コンピュータ１１０に対するコンピュータ読み取り可能命令、データ構造、プログラムモジュールおよび他のデータのストレージを実現する。例えば、図１において、ハードディスクドライブ１４１は、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７を格納するように例示されている。これらのコンポーネントは、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７と同一であっても相異なっていても構わないことに留意されたい。本明細書において、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７は、少なくともそれらが異なったバージョンであることを例示する目的で、異なった参照番号が付与されている。

ユーザは、キーボード１６２、マイクロフォン１６３、およびマウス、トラックボールあるいはタッチパッドのようなポインティングデバイス１６１などの入力デバイスを介して、コンピュータ１１０にコマンドおよび情報を入力することができる。他の入力デバイス（図示せず）は、ジョイスティック、ゲームパッド、衛星通信アンテナ、スキャナなどを含むことができる。これらおよび他の入力デバイスは、システムバス１２１に接続されているユーザ入力インタフェース１６０を介して処理ユニット１２０に接続されることが多いが、パラレルポート、ゲームポートまたはユニバーサルシリアルバス（ＵＳＢ）などの他のインタフェースおよびバス構造によって接続されることも可能である。モニタ１９１または他の種類の表示装置を、ビデオインタフェース１９０などのインタフェースを介してバス１２１に接続する。モニタに加えて、コンピュータは、スピーカ１９７およびプリンタ１９６などの他の周辺出力デバイスを含むことができ、これらは、周辺出力インタフェース１９５を介して接続されている。

コンピュータ１１０は、リモートコンピュータ１８０などの単一または複数個の他のコンピュータへの論理接続を利用したネットワーク環境においても動作することができる。リモートコンピュータ１８０は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークＰＣ、ピアデバイスあるいは他の共通ネットワークノードなどであり、典型的には、コンピュータ１１０に関連して上述されている多くのまたは全ての要素を含む。図１に示されている論理接続は、ローカルエリアネットワーク（ＬＡＮ）１７１およびワイドエリアネットワーク（ＷＡＮ）１７３が含まれるが、他のネットワークを含むことができる。このようなネットワーク環境は、オフィスにおいて一般的であり、企業内コンピュータネットワーク、イントラネットおよびインターネットである。

ＬＡＮネットワーク環境において用いられる場合には、コンピュータ１１０は、ネットワークインタフェースすなわちアダプタ１７０を介してＬＡＮ１７１に接続される。ＷＡＮネットワーク環境において用いられる場合には、コンピュータ１１０は、典型的には、インターネットなどのＷＡＮ１７３を介した通信を設定するモデム１７２または他の手段を有している。モデム１７２は、内蔵でも外付けでも構わないが、ユーザ入力インタフェース１６０または他の適切な機構を介してシステムバス１２１に接続されている。ネットワーク環境においては、コンピュータ１１０に関連して示されているプログラムモジュールまたはその一部を、リモートメモリストレージデバイスに格納することができる。例えば限定されないが、図１において、リモートアプリケーションプログラム１８５は、リモートコンピュータ１８０上に存在しているように示されている。図示されたネットワーク接続は、例示目的であり、コンピュータ間の通信を設定する他の手段も用いられうることに留意されたい。

図２は、コンピューティング環境の一例としてのモバイルデバイス２００を示すブロック図である。モバイルデバイス２００は、マイクロプロセッサ２０２、メモリ２０４、入出力（Ｉ／Ｏ）コンポーネント２０６、および、リモートコンピュータあるいは他のモバイルデバイスとの通信を行なう通信インタフェース２０８を含む。一実施形態において、前述されているコンポーネントが、適切なバス２１０を介して互いに通信するように接続されている。

メモリ２０４は、バッテリバックアップモジュール（図示せず）を有するランダムアクセスメモリ（ＲＡＭ）などの不揮発性電子的メモリとして実装されており、メモリ２０４内にストアされた情報は、モバイルデバイス２００への電源が切断された場合においても失われない。メモリ２０４の一部は、プログラム実行のためのアドレシング可能なメモリとして割り当てられることが望ましく、また、メモリ２０４の別の一部は、ディスクドライブ上のストレージを模する目的などで、ストレージとして用いられることが望ましい。

メモリ２０４は、オペレーティングシステム２１２、アプリケーションプログラム２１４およびオブジェクトストア２１６を含む。動作中、オペレーティングシステム２１２は、メモリ２０４からプロセッサ２０２によって実行されることが望ましい。オペレーティングシステム２１２は、本発明の望ましい実施形態においては、マイクロソフト社より市販されているＷＩＮＤＯＷＳ（登録商標）ＣＥブランドのオペレーティングシステムである。オペレーティングシステム２１２は、モバイルデバイス向けに設計されていることが望ましく、公開されたアプリケーションプログラミングインタフェースおよびメソッドの組を介してアプリケーション２１４によって用いることができるデータベース機能を実現している。オブジェクトストア２１６内のオブジェクトは、少なくとも、一部は、公開されたアプリケーションプログラミングインタフェースおよびメソッドへの呼び出しに応答して、アプリケーション２１４およびオペレーティングシステム２１２によって管理される。

通信インタフェース２０８は、モバイルデバイス２００による情報の送受信を可能にする種々のデバイスおよび技術を表わしている。これらのデバイスは、いくつかの例を挙げれば、有線および無線モデム、衛星通信レシーバおよびブロードキャストチューナを含む。モバイルデバイス２００を、データ交換目的で、コンピュータに対して直接接続することができる。このような場合、通信インタフェース２０８は、赤外線トランシーバまたはシリアル／パラレル通信接続であり、これら全てはストリーミング情報の送信が可能である。

入出力コンポーネント２０６は、タッチスクリーン、ボタン、ローラ、およびマイクロフォンなどの種々の入力デバイスおよびオーディオジェネレータ、振動デバイス、およびディスプレイなどの種々の出力デバイスを含む。上記に列挙されたデバイスは例示目的であり、それらが全てモバイルデバイス２００に存在している必要は無い。加えて、モバイルデバイス２００が他の入出力デバイスを有することも可能であり、このことは本発明の範疇に包含される。

本発明の一側面においては、トレーナが発音をするのに難しい単語に対してのみルビを動的に表示するようなユーザインタフェース（ＵＩ）コンポーネントを用いる。この新たなＵＩコンポーネント２４０は、日本語および中国語のユーザに対して、よりフレンドリーで快適なトレーニングセッションを提供する。図３は、従来技術にかかるユーザインタフェースコンポーネントを示す。従来技術においては、プロンプトファイルディスプレイユーザインタフェースモジュール２３０は、トレーナが読み上げるべき文を表示する前に、全ての単語に対するルビ２３２を準備し、文全体と共に全てのルビ２３２を表示する。従来技術にかかるユーザインタフェースコンポーネント２３０は、読み上げられた単語をハイライト表示して進捗を明示し、何らかの拒否または予期しない長時間休止が検出された場合に、新たに文脈自由文法を再生成して文の残りの部分に対する適用を継続するために、音声認識エンジンからの通知を待機する。

本発明の一つの広範な側面に従って、ユーザインタフェースモジュール２４０は、ルビを準備するが、それら全てを表示するわけではない。その結果、トレーナは、トレーニング文の新たなページを開始する際には、平文のみを見ることになる。これは、図４に示されている。ユーザインタフェースモジュール２４０は、文を進めていく際、発音上の困難が観察される（音声認識を拒否または長時間の休止を識別）ごとに、難しい単語の直近にルビを表示する。モジュール２４０は、一定量のトレーニング文を表示するトレーニング文部分２４４を含むことが望ましい。さらに、モジュール２４０は、音声認識エンジン２４８からの通知を受信する通信チャネル２４６を含む。従来技術において、音声認識エンジンは、認識された単語の明示のみを行なって、トレーナに読み続けるように適切に指示をする。しかしながら、モジュール２４０は、認識エンジン２４８との通信チャネルを用いて、発音上の困難の通知を受信する。これに応答して、モジュール２４０は、トレーナが発音上の困難に遭遇した単語のみに対するルビを表示する。従って、トレーナが全文を発音上の困難無く読み上げることが可能である場合には、表示がルビによって中断されまたは分割されることが無いことを確実にする。これは、トレーナに対する最も簡潔で最も効果的な音声認識トレーニング表示を提供すると考えられる。

図５は、音声トレーニング中に、トレーナが発音上の困難に遭遇した状況を例示する。ユーザインタフェースモジュール２４０は、必要に応じてルビを表示する。この状況において、トレーナは、単語の正しい発音を知らず、そのため、拒否通知が音声認識エンジンによって生成され、ユーザインタフェースモジュール２４０によって受信される。ユーザインタフェースモジュール２４０は、難しい単語に対するルビ２４２を、その単語に対する発音を示すようにディスプレイ上で注意深く配置し、トレーナが継続することを可能にする。

図６は、本発明の一側面に従って漢字ベースの音声トレーニング文に対するルビを選択的に表示するための方法を示す流れ図である。ブロック３００において、ユーザインタフェースモジュールは、最初にルビを全く表示しないが、ブロック３００で、トレーニング文に対するルビは全てシステムメモリにロードされている。ブロック３０２において、発音上の困難を、音声認識により検出する。この種の困難は、例えば、発音の休止、発音間違いなどを含む。しかしながら、本発明の種々の実施例において、他の適切かつ検出可能な発音上の困難を利用することができる。

ブロック３０２において、音声認識モジュール（図示せず）は、ユーザインタフェースモジュール２４０に、検出された発音上の困難を通知する。その後、制御がブロック３０４へ移り、ユーザインタフェースモジュールが、トレーナがトレーニングページを完了しているか否かを決定する。トレーニングページが実際に完了している場合には、経路３０６に従って制御が進み、トレーニングページに関するトレーニングは終了する。しかしながら、経路３０８によって示されているように、トレーナが当トレーニングページを完了していない場合には、ユーザインタフェースモジュールは、トレーニング文中の次の単語に対するルビを表示する（ブロック３１０）。ルビが表示されると、制御はブロック３０２へ戻り、この方法を反復する。

本明細書においては、本発明が特定の実施例を参照して記述されているが、本発明の精神およびその範囲を逸脱することなく種々の変更がなされうることが当業者には明らかである。例えば、本明細書において、発音補助手段が文字（ルビ）であるとして記述されているが、正しい発音を音声として録音したものなどの他の適切な発音補助手段も動的に提供することができる。

本発明を実施することができるコンピューティング環境の一例を示すブロック図である。本発明を実施することができる別のコンピューティング環境を示すブロック図である。従来技術にかかる音声認識トレーニングユーザインタフェースを模式的に示す図である。本発明の実施形態にかかる音声認識トレーニングユーザインタフェースを模式図である。本発明の実施形態にかかる音声認識トレーニングユーザインタフェースの別の模式図である。本発明の実施形態にかかる音声認識トレーニング中に選択的に発音を補助する方法を示す流れ図である。

符号の説明

２０２プロセッサ
２０４メモリ
２０６入出力モジュール
２０８通信インタフェース
２１２オペレーティングシステム
２１４アプリケーションプログラム
２１６オブジェクトストア

Claims

音声認識トレーニングのためのユーザインタフェースモジュールであって、
トレーニング文を表示するトレーニング文の指示部と、
音声認識エンジンに対して接続可能であり、該エンジンから前記トレーニング文内の難しい単語に関連する発音上の困難の表示を受信する通信チャネルと、
前記発音上の困難の表示に応答して前記難しい単語の発音を補助する目的で配置された選択的に表示される発音の補助手段と
を備えたことを特徴とするユーザインタフェースモジュール。
前記選択的に表示される発音の補助手段は、ルビであることを特徴とする請求項１に記載のモジュール。
前記トレーニング文は、少なくとも一つの表意文字を含むことを特徴とする請求項１に記載のモジュール。
前記トレーニング文は、中国語で書かれていることを特徴とする請求項３に記載のモジュール。
前記トレーニング文は、日本語で書かれていることを特徴とする請求項３に記載のモジュール。
前記発音の補助手段は、前記難しい単語の上部に表示されることを特徴とする請求項１に記載のモジュール。
音声認識システムのトレーニング方法であって、
少なくとも一つの表意文字の形態の複数のトレーニング文をロードすること、
前記トレーニング文を発音の補助手段無く表示すること、
前記トレーニング文内の難しい単語に関連する発音上の困難の通知を受信すること、および、
前記難しい単語に関連する発音の補助手段を選択的に提供すること
を備えたことを特徴とする方法。
前記発音の補助手段を提供することは、前記難しい単語の発音を補助するためのルビを表示することを含むことを特徴とする請求項７に記載の方法。
前記トレーニング文は、中国語で書かれていることを特徴とする請求項７に記載の方法。
前記トレーニング文は、日本語で書かれていることを特徴とする請求項７に記載の方法。
前記通知は、音声認識エンジンから受信されることを特徴とする請求項７に記載の方法。
前記発音上の困難は、休止を含むことを特徴とする請求項７に記載の方法。
前記発音上の困難は、発音間違いを含むことを特徴とする請求項７に記載の方法。