JP2010224563A - 発音矯正装置、発音矯正方法および記録媒体 - Google Patents
発音矯正装置、発音矯正方法および記録媒体 Download PDFInfo
- Publication number
- JP2010224563A JP2010224563A JP2010115562A JP2010115562A JP2010224563A JP 2010224563 A JP2010224563 A JP 2010224563A JP 2010115562 A JP2010115562 A JP 2010115562A JP 2010115562 A JP2010115562 A JP 2010115562A JP 2010224563 A JP2010224563 A JP 2010224563A
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- pronunciation
- data
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】ベクトルデータ生成部160およびラベル作成部182は、日本人が発音した英語の1センテンス分の音声データを処理し、ラベル列に変換する。候補単語作成部184は、1センテンス分のラベル列を、それぞれ1つ以上の英単語から構成される第1の候補単語に対応付ける。類似単語追加部186は、単語データベース部160を用いて、第1の候補単語の発音に類似する英単語、例えば、第1の候補単語readに対する類似単語lead(日本人は一般にlとrとを区別して発音しづらい)を検索し、得られた類似単語を第1の候補単語に付加して第2の候補単語とする。絞り込み部188は、ユーザの操作に応じて第2の候補単語のいずれかを最終的な識別結果として選択し、選択した英単語を接続して英文のテキストデータとして出力する。
【選択図】図3
Description
しかしながら、これらの文献に開示された学習装置を用いても、提示された発音と自分の発音とを比較しなければならなかったり、自分の発音のどこが誤っているかが分からなかったりして、話者が充分な学習効果を必ずしも得ることはできない。
上記目的を達成するために、本発明にかかる第1の音声識別装置は、話し声に含まれる1つ以上の単語を示す音声データから、前記単語それぞれを識別する音声識別装置であって、1つ以上の前記単語の音声データそれぞれに、これらの音声データの1つ以上それぞれを識別して得られる1つ以上の前記単語の組み合わせの候補(候補単語)の1組以上を対応付ける候補単語対応付け手段と、1つ以上の前記単語の音声データそれぞれに対応付けた前記候補単語それぞれに、前記候補単語それぞれの発音に対応しうる1つ以上の前記単語の組み合わせ(類似単語)の0組以上を対応付ける類似単語対応付け手段と、1つ以上の前記単語の音声データそれぞれに対応付けた前記候補単語、および、前記候補単語それぞれに対応付けた前記類似単語のいずれかを選択し、前記単語の音声データそれぞれの識別結果とする音声データ識別手段とを有する。
本発明にかかる音声識別装置は、特定の言語(以下本項目において英語を例示する)以外の言語(同様に日本語を例示する)を母国語とし、主に話す話者(同様に日本人を例示する)が発音した英語の話し声(音声)に含まれる単語を識別し、英単語に置き換えてテキストデータを作成する。
候補単語対応付け手段は、ラベルに変換された音声データを1つの単語、あるいは、一連の複数の単語ごとに処理し、音声データと、音声データの識別結果の候補として、単独(1個)の英単語、あるいは、複数の英単語の組み合わせ(これらを総称して候補単語と記す)とを対応付ける。
類似単語記憶手段は、正確な英語の発音とは異なるが、日本人が英語を発音した場合に、音声データと対応しうる単独の英単語、あるいは、複数の英単語の組み合わせ(これらを総称して類似単語と記す)と、候補単語となりうる単独の英単語あるいは複数の英単語の組み合わせとを予め対応付けた、例えば、検索用辞書データを記憶する。一例を挙げると、この辞書データにおいては、日本人による不正確な英語の発音に対応するために、候補単語となりうる単独の英単語"lead"に、類似単語"read"(日本人が区別しにくいl,rを考慮したもの、一般に日本人は"r"の発音が不得手である)が対応付けられる。なお、英単語に対して類似単語が存在しない場合があるので、このような場合には、この辞書において、英単語に類似単語は対応付けられない。
類似単語対応付け手段は、類似単語記憶手段が記憶した辞書データを検索し、候補単語に対応付けられた類似単語を読み出して、候補単語に対する類似単語の対応付けを行なう。上記例においては、日本人が発音した英単語"read"に対応する音声データに、英単語"lead"と、類似単語"read"とが対応付けられる。
音声データ識別手段は、例えば、それまでに識別された英単語列に対する構文解析処理に基づいて、あるいは、ユーザの選択操作に応じて、音声データに対応付けられた候補単語および類似単語のいずれかを選択し、識別結果とする。
このように、上記「所定の言語」の範囲は、候補単語対応付け手段が、充分な識別率で、音声データと単語とを対応付けられる範囲として定義される。従って、例えば、通常、同一とされる言語であっても、地域的な隔離により発音が相互に異なってしまい、いずれかに適するように調整された候補単語対応付け手段のみでは充分な識別率を得られない複数の方言(例えば、アメリカ、イギリス、オーストラリアおよび南アフリカ等各国の英語、スペインおよび中南米等各国のスペイン語)は、上記「所定の言語」の同一範囲には含まれない。さらに、何らかの理由により、特定の人の発音が不明りょうになり、この人の母国語(主に話す言葉)に適するように調整された候補単語対応付け手段のみでは充分な識別率が得られなくなった場合も同様である。
また、本発明にかかる第2の音声識別装置は、所定の言語以外を主に話す話者による前記所定の言語の音声に含まれる前記所定の言語の1つ以上の単語を示す音声データから、前記所定の言語の単語の1つ以上それぞれを識別する音声識別装置であって、前記所定の言語の単語の音声データの1つ以上それぞれに、これらの音声データの1つ以上それぞれを識別して得られる前記所定の言語の単語、および、前記話者が話した可能性がある前記所定の言語の単語の1つ以上またはこれらのいずれかを対応付ける単語対応付け手段と、1つ以上の前記単語の音声データそれぞれに対応付けた単語のいずれかを選択し、1つ以上の前記単語の音声データそれぞれの識別結果とする音声データ識別手段とを有する。
また、本発明にかかる第1の音声識別方法は、話し声に含まれる1つ以上の単語を示す音声データから、前記単語それぞれを識別する音声識別方法であって、1つ以上の前記単語の音声データそれぞれに、これらの音声データの1つ以上それぞれを識別して得られる1つ以上の前記単語の組み合わせの候補(候補単語)の1組以上を対応付けるステップと、1つ以上の前記単語の音声データそれぞれに対応付けた前記候補単語それぞれに、前記候補単語それぞれの発音に対応しうる1つ以上の前記単語の組み合わせ(類似単語)の0組以上を対応付けるステップと、1つ以上の前記単語の音声データそれぞれに対応付けた前記候補単語、および、前記候補単語それぞれに対応付けた前記類似単語のいずれかを選択し、前記単語の音声データそれぞれの識別結果とするステップとを含む。
また、本発明にかかる音声矯正装置は、単語を示す音声データを識別して得られる単語の候補(候補単語)を1個以上、対応付ける候補単語対応付け手段と、音声データに対応付けた前記候補単語それぞれに、前記候補単語それぞれの発音に対応しうる単語(類似単語)を0個以上、対応付ける類似単語対応付け手段と、前記音声データが示す単語と、この音声データに対応付けられた前記候補単語それぞれに対応付けられた前記類似単語とが一致する場合に、前記音声データが示す単語と同じ前記類似単語に対応し、前記音声データが示す単語の発音を矯正する発音矯正データを出力する発音矯正データ出力手段とを有する。
本発明にかかる発音矯正装置において、候補単語対応付け手段および類似単語対応付け手段は、上述した本発明にかかる音声識別装置においてと同様に、音声データと、候補単語・類似単語とを対応付ける。
話者がネイティブに近い正しい発音をしている場合には、話者の意図した単語と音声データの識別結果とは候補単語に含まれることになる。一方、話者の発音が誤っていたり、不明瞭であったりすると、話者の意図した単語は候補単語に含まれるが、音声データの識別結果は類似単語に含まれるということになる。従って、予め話者に発音すべき単語を示し、この単語を発音させた場合に、この単語が音声データの識別結果において、類似単語と一致するということは、ユーザ(話者)の発音に何らかの誤り、あるいは、発音に不明瞭さがあることを意味する。
発音矯正データ出力手段は、話者に示した単語が類似単語と一致する場合に、話者に示した単語と一致する類似単語に対応付けられ、発音の誤り・不明瞭さを矯正する情報(例えば、ネイティブスピーカーが正しい発音を行なう際の口および舌の動きを示す画像データ、および、ネイティブスピーカーと比べて、話者の発音のどこが誤っているかを文章で示すテキストデータ)をモニタに表示し、話者に発音の矯正を促すとともに、話者の発音がネイティブスピーカーの発音に近づくように学習を補助する。
また、本発明にかかる音声矯正方法は、単語を示す音声データを識別して得られる単語の候補(候補単語)を1個以上、対応付け、音声データに対応付けた前記候補単語それぞれに、前記候補単語それぞれの発音に対応しうる単語(類似単語)を0個以上、対応付け、前記音声データが示す単語と、この音声データに対応付けられた前記候補単語それぞれに対応付けられた前記類似単語とが一致する場合に、前記音声データが示す単語と同じ前記類似単語に対応し、前記音声データが示す単語の発音を矯正する発音矯正データを出力する。
以下、本発明の第1の実施形態を説明する。なお、以下、説明の明確化および便宜のために、特に断らない限り、本発明にかかる音声識別処理が、日本人が話す英語を識別するために調整されている場合を具体例として説明する。
まず、図1を参照して、本発明にかかる音声識別処理を実現するコンピュータ1を説明する。図1は、本発明にかかる音声識別処理を実現するコンピュータ1の構成を例示する図である。図1に例示するように、コンピュータ1は、例えば、音声入出力機能を有するパーソナルコンピュータであって、CPU、メモリおよびこれらの周辺装置等を含むコンピュータ本体10、出力装置100、光磁気(mo)ディスク装置、ハードディスク装置あるいはフロッピー(登録商標)ディスク装置等の記憶装置110、および、入力装置120から構成される。出力装置100は、CRディスプレイ装置等のモニタ102、音声出力用のスピーカ104、プリンタ106等を含む。入力装置120は、マイク122、音声入力用ボード124、キーボード126およびマウス128等を含む。
出力装置100において、モニタ102は、コンピュータ1のユーザに対して操作用のGUI画像、および、コンピュータ本体10が音声を識別して得られたテキストデータ等を表示する。
スピーカ104は、コンピュータ本体10が音声を識別して得られたテキストデータを音声として出力するため等に用いられる。
プリンタ106は、コンピュータ本体10が音声を識別して得られたテキストデータのハードコピーを出力するため等に用いられる。
記憶装置110は、コンピュータ本体10による制御に従って動作し、コンピュータ本体10が音声を識別して得られたテキストデータを記憶する。また、記憶装置110は、音声識別に必要なデータ(以下、このようなデータを「単語データ」と総称する)およびプログラム等を記憶し、記憶した単語データおよびプログラム等をコンピュータ本体10に対して出力する。なお、記憶装置110に記憶される単語データは、例えば、音声識別プログラム16により作成され、あるいは、フロッピー(登録商標)ディスク等の記録媒体により供給され、ラベル列テーブル、インデックステーブル、単語レコード、類似単語レコードおよび誤り情報コードテーブル(ラベル列データを除くこれらの詳細は、図4〜図7を参照して後述する)を含む。
マイク122は、ユーザが発音した話し声の音声を集音し、アナログ形式の音声信号に変換して音声入力用ボード124に対して出力する。
音声入力用ボード124は、コンピュータ本体10による制御に従って動作し、マイク122から入力された音声信号をサンプリングし、音声信号の波形に対応するディジタル形式の音声データに変換してコンピュータ本体10に対して出力する。
キーボード126およびマウス128は、例えば、モニタ102に表示されたGUIに対するユーザの操作を受け入れて、操作入力としてコンピュータ本体10に対して出力する。
以下、図2を参照して、本発明にかかる音声識別処理を実現するソフトウェアの構成を説明する。図2は、本発明にかかる音声識別処理を実現するソフトウェア14の構成を示す図である。なお、図2においては、本発明にかかる音声識別処理の実現に関係がないソフトウェアの構成部分を省略してある。
ハードウェアサポート部142において、音声デバイスドライバ144は、音声入力用ボード124を制御して、マイク122から入力される音声信号を音声データに変換させる。また、音声デバイスドライバ144は、音声入力用ボード124から入力された音声データを音声インターフェース部150に対して出力するインターフェース機能を実現する。また、音声デバイスドライバ144は、オペレーティングシステム148の音声インターフェース部150の制御に従って、音声入力用ボード124のサンプリング周期の変更等の設定変更、および、サンプリングの開始および終了等の動作制御を行なう。
記憶デバイスドライバ146は、オペレーティングシステム148の記憶装置インターフェース部152からの要求(制御)に応じて、記憶装置110の動作を制御し、単語データおよび音声識別の結果として得られたテキストデータを記憶させ、あるいは、記憶装置110が記憶しているこれらのデータを読み出させる。また、記憶デバイスドライバ146は、記憶装置110から入力された単語データおよびテキストデータを、記憶装置インターフェース部152に対して出力し、あるいは、記憶装置インターフェース部152から入力されたこれらのデータを記憶デバイスドライバ146に対して出力するインターフェース機能を実現する。
オペレーティングシステム148は、音声インターフェース部150および記憶装置インターフェース部152が実現する機能の他、コンピュータ本体10におけるプログラムの実行制御を行なう。また、オペレーティングシステム148は、音声識別プログラム16が出力するテキストデータおよびGUI画像をモニタ102に表示する処理、テキストデータを音声信号に変換してスピーカ104を介して出力する処理、プリンタ106に対するハードコピーを行なうために必要な処理、および、キーボード126およびマウス128に対するユーザの操作を受け入れる等を行なう。
オペレーティングシステム148において、音声インターフェース部150は、音声識別プログラム16からの要求(制御)に応じて、音声デバイスドライバ144を制御する。また、音声インターフェース部150は、音声デバイスドライバ144から入力された音声データを音声識別プログラム16に対して出力するインターフェース機能を実現する。
記憶装置インターフェース部152は、記憶装置110の記憶領域を管理する。また、記憶装置インターフェース部152は、音声識別プログラム16からの要求(制御)に応じて記憶デバイスドライバ146を制御し、音声識別プログラム16から要求された単語データおよびテキストデータを記憶装置110から読み出させ、読み出された単語データおよびテキストデータを音声識別プログラム16に対して出力する。また、記憶装置インターフェース部152は、音声識別プログラム16から入力される単語データおよびテキストデータを、記憶デバイスドライバ146を介して記憶装置110の空き記憶領域に記憶させる。
以下、図3を参照して音声識別プログラム16を説明する。図3は、図2に示した音声識別プログラム16の構成を示す図である。
制御部162は、操作用のGUI画像をモニタ102に表示し、表示したGUI画像に対して、ユーザが入力装置120のキーボード126およびマウス128を用いて行なう操作をオペレーティングシステム148を介して受け入れる。また、制御部162は、受け入れた操作入力に応じて、オペレーティングシステム148の音声インターフェース部150および記憶装置インターフェース部152を制御する。
単語データベース部160は、上述のように制御部162の制御に従って単語データを作成または更新し、記憶装置110に記憶させ、管理する。また、単語データベース部160は、候補単語作成部184に対して単語データ(ラベル列テーブル)を出力する。
ここで、以下の説明の理解を容易にするために、図4〜図7を参照して、ラベル列テーブルを除く単語データ(インデックステーブル、単語レコード、類似単語レコードおよび誤り情報テーブル)を説明する。
図4は、単語データのインデックステーブルに含まれるデータを例示する図である。インデックステーブルは、単語データベース部160が、単語の先頭文字(A〜Z)により分類された単語レコードを検索するために用いられる。インデックステーブルは、図4に示すように、先頭文字A〜Zそれぞれの記録領域の先頭を示すポインタと、先頭文字をそれぞれA〜Zとする単語レコードの数とが対応付けられて構成される。
図5は、単語データの単語レコードに含まれるデータを例示する図である。図5に示すように、単語レコードは、類似単語追加部186において、候補単語作成部184が作成した第1の候補単語データ[候補単語データ(1)]
と突き合わされ、比較される見出し単語(TarWord)、次の見出し単語へのポインタ(NextP)、単語レコードに含まれる類似単語の数(#Can)および類似単語レコード(CanWord)が対応付けられて構成される。
図6は、単語データの類似単語レコードに含まれるデータを例示する図である。図6に示すように、類似単語レコードは、入力単語数(#m;#mは1以上の整数)、入力候補単語(aWord,aWord-1,aWord-2,...,aWord-m-1)、出力単語数(#n;#nは0以上の整数)、類似単語(COWord,COWord-1,..,COWord-n)および誤りコード(ECode)が対応付けられて構成される。
1つの単語が別の1つの単語に誤って識別される場合に対応するために、1つの単語のみを含む第1の候補単語に、1つの単語のみを含む類似単語を対応付ける。第1の方法の例としては、第1の候補単語"read"の"r"が、正しく発音されなかった場合に備えて、第1の候補単語"read"と類似単語"lead"とを対応付けることが挙げられる。さらに、第1の方法をとる場合の対応付けの例としては、"sink"と"think"、"fell"と"fill"、"seat"と"sit"、"better"と"bitter"、"nut"と"not"、"fund"と"found"、"boat"と"bought"および"coal"と"call"との対応付け等を挙げることができる。
1つの単語が別の複数の単語に誤って識別される場合に対応するために、1つの単語のみを含む第1の候補単語に、複数の単語を含む類似単語を対応付ける。第2の方法の例としては、第1の候補単語"jumped"の"ed"が、正しく"t"と発音されなかった場合に備えて、第1の候補単語"jumped"と類似単語"jump","and"を対応付けることが挙げられる。さらに、第2の方法をとる場合の対応付けの例としては、"check in"と"chicken"との対応付け等を挙げることができる。
複数の単語が別の1つの単語に誤って識別される場合に対応するために、複数の単語を含む第1の候補単語に、1つの単語のみを含む類似単語を対応付ける。第3の方法の例としては、第1の候補単語"have","to"がつながって発音された場合に備えて、第1の候補単語"have","to"と類似単語"hat"を対応付けることが挙げられる。さらに、第3の方法をとる場合の対応付けの例としては、"I will"と"aisle"との対応付け等を挙げることができる。
複数の単語が別の複数の単語に誤って識別される場合に対応するために、複数の単語を含む第1の候補単語に、複数の単語を含む類似単語を対応付ける。第1〜第3の方法は、第4の方法に限定を加えた方法と考えることができるので、図6に示した類似単語レコードは、第4の方法に基づいて作成され、複数の単語を含む第1の候補単語に複数の単語を含む類似単語が対応付けてある。
図7は、単語データの誤り情報コードテーブルを例示する図である。図7に示すように、誤り情報コードテーブルは、誤りコード(ECode; 0,1,2,...)と、誤りの内容を示す情報(例えば、「rをlと発音した」,「lをrと発音した」,「thをsと発音した」等の誤り情報)とが対応付けられて構成される。
音声識別部18において、ベクトルデータ生成部160(図3)は、音声インターフェース部150から入力される音声データを処理して、音声の複数の特徴(音の高さ、強さ、イントネーション等)それぞれについて量子化を行ない、これらの特徴それぞれを示す数値を含むベクトルデータを生成して制御部162に対して出力する。例えば、音声データのサンプリング周波数が11kHzである場合、ベクトルデータ生成部160は、音声データを1/100秒単位で処理し、音声データの複数の種類の特徴それぞれを量子化し、複数の要素からなるベクトルデータを生成する。
ラベル作成部182は、ベクトルデータ生成部160から入力されたベクトルデータを、発音記号に類似するラベルと呼ばれるデータに変換し、1センテンス分ずつ候補単語作成部184に対して出力する。ラベル作成部182は、この変換処理を、例えば、色々な人(大人、子供、男、女等)の実際の話し声のサンプルから生成したラベルと、連続した複数のベクトルデータのパターンとを対応付けたラベルテーブルを用い、連続した複数のベクトルデータに対応するラベルを選択することにより行なう。ただし、「センテンス」という用語は、実際の文章内の実際のセンテンスに必ずしも対応せず、単に音声識別の処理単位を示す。
候補単語作成部184は、音声データにおいて、1つ以上の英単語に対応する連続した1つ以上のラベル列を、英単語との対応を示すラベル列テーブルを用いて、ラベル列それぞれが示す1つ以上の英単語の組み合わせの1つ以上と対応付け、対応付けた英単語の組み合わせを第1の候補単語として類似単語追加部186に対して出力する。(以下、説明の簡略化のために、候補単語作成部184が、1つの英単語に対応するラベル列それぞれを、1つの英単語のみを含む第1の候補単語に対応付ける場合を例として説明する。)
類似単語追加部186は、候補単語作成部184から入力された入力レコードそれぞれに対して、ラベル列と対応付けることはできないが、日本人による英語の発音の癖等を考慮して、第1の候補単語に類似する可能性がある英単語を第1の候補単語に付加し、第2の候補単語を生成して絞り込み部188に対して出力する。
絞り込み部188は、出力レコードとして類似単語追加部186から入力された第2の候補単語をモニタ102に表示し、例えば、ユーザの操作に応じて、あるいは、それまでに識別した単語列の構文解析結果に基づいて、第2の候補単語のいずれかを、最終的な識別結果として選択し、選択した単語を並べたテキストデータを作成し、モニタ102、スピーカ104あるいはプリンタ106に対して出力する。
以下、図12を参照して、コンピュータ1における音声識別処理を説明する。図12は、コンピュータ1における本発明にかかる音声識別処理を示すフローチャート図である。なお、図12においては、説明の簡略化のために、本発明にかかる音声識別処理の内、基本的な処理のみを示してあり、上述した確率データあるいは誤り情報を用いた処理は適宜、省略されている。
なお、絞り込み部188の処理を、ユーザが、類似単語追加部186において類似単語として第2の候補単語に付加された単語を最終的な識別結果として選択した場合に、選択された単語に付加された誤り情報をモニタ102に表示するようにすると、ユーザは、自分の英語の発音の欠点を知ることができ、コンピュータ1を音声識別装置として用いるほか、英語の発音の学習装置として用いることができる。誤り情報の表示方法としては、正しい発音をするための口の形を表示する、あるいは、正しい発音を音声合成してユーザに聞かせる等の方法が考えられる。
図3に示した音声識別プログラム16において、音声識別の結果として候補単語が選択されるということは、ユーザ(話者)の発音がネイティブスピーカーに比較的近く、本発明にかからない一般的な音声識別装置を用いても高い識別率で識別可能な程度に正確であることを意味し、反対に、類似単語が選択されるということは、話者の発音に誤り、あるいは、不明瞭さがあることを意味する。このことは、音声識別プログラム16において、ユーザが意図した単語が類似単語に含まれる場合にも当てはまる。
図13は、本発明にかかる音声識別処理および発音矯正方法を実現するコンピュータ2の構成を示す図である。なお、特に断らない限り、以下の図面に示す構成部分は、これまでの図面に示した同一符号の構成部分と同じである。図13に示すように、コンピュータ2は、コンピュータ1(図1)の入力装置120を入力装置130で置換した構成を採り、入力装置130は、入力装置120に画像入力用ボード132を追加した構成を採る。画像入力用ボード132は、例えば、発音矯正画像(図19)に用いられる画像データをビデオカメラとり込むために用いられる。
図14は、本発明にかかる音声識別処理および発音矯正方法を実現するソフトウェア20を示す図である。図14に示すように、ソフトウェア20は、ソフトウェア14(図2)における音声識別プログラム16を音声識別・矯正プログラム22で置換した構成を採る。ソフトウェア14において各構成部分の間で入出力されるデータの他に、ソフトウェア20においては、画像データがさらに入出力され、ソフトウェア14における識別結果(テキストデータ)の代わりに、ユーザ(話者)の発音を矯正する発音矯正情報を示す画像(発音矯正画像)がモニタ102等に出力されるようになっている。
図15は、図14に示した音声識別・矯正プログラム22の構成を示す図である。図15に示すように、音声識別・矯正プログラム22は、音声識別プログラム16(図3)および発音矯正プログラム24から構成される(絞り込み部188は省略)。
音声識別・矯正プログラム22においては、音声識別プログラム16においてと異なり、類似単語追加部186は、発音矯正プログラム24の比較部240および発音矯正情報表示部242に対して類似単語レコード(図18)を出力する。
図16は、図15に示した制御部162が表示する発音指示画像を例示する図である。図17(A),(B)はそれぞれ、図15に示した単語データベース部160が生成する矯正情報インデックスを例示する図であって、(A)はrの発音を矯正するための発音矯正画像を示し、(B)はlの発音を矯正するための発音矯正画像を示す。図18は、第2の実施形態において単語データベース部160が生成する類似単語レコードを示す図である。
単語データベース部160は、ソフトウェア14においてと異なり、誤り情報コードテーブル(図7)の代わりに、図17(A),(B)に例示したような矯正情報インデックスを作成し、単語データとして記憶装置110にさらに記憶する。
比較部240(図15)は、類似単語追加部186から入力される類似単語レコード(図18)が示す類似単語レコードに含まれる類似単語それぞれと、制御部162から入力される正解単語とを比較し、正解単語が類似単語のいずれかと一致するか否かを判断する。比較部240は、正解単語が類似単語と一致する場合にはその旨を、一致しない場合にはその旨を発音矯正画像表示部242に対して通知する。
発音矯正画像表示部242は、比較部240が正解単語のいずれかと類似単語とが一致すると判定した場合に、類似単語レコード(図18)に付加された矯正情報コード(CCode)が示す矯正情報インデックス(図17(A),(B))が示す画像データおよびテキストデータの取得を制御部162に要求する。制御部162が、この要求に応えて画像データおよびテキストデータを記憶装置110から読み出し、発音矯正画像表示部242に対して出力すると、発音矯正画像表示部242は、これらのデータを、図19において符号(a)〜(e)を付して例示したような位置に配置し、発音矯正画像を生成してモニタ102に表示する。
以下、音声識別・矯正プログラム22の動作を説明する。図20は、第2の実施形態における音声識別・矯正プログラム22(図15)の処理(S20)を示すフローチャートである。
なお、第2の実施形態においては、発音矯正情報がテキストデータおよび画像データのみを含む場合を例示したが、発音矯正情報が他の種類のデータを含んでいてもよい。例えば、発音矯正情報に正しい発音の音声データを含め、発音矯正情報(図19)をモニタ102に表示するとともに、音声データをスピーカ104を介して出力するようにしてもよい。
以下、第3の実施形態として、第2の実施形態として示した発音矯正方法を応用した発音学習方法を説明する。この発音学習方法は、図20に示した発音識別・矯正プログラム22の動作を改良し、図16および図19に示した発音指示画像および発音の基礎を示す発音矯正画像の他に、発展的な学習を指示する発音矯正画像(図21〜図23)をさらに表示し、ユーザの発音学習の便宜を図ったものである。
以下、第3の実施形態における音声識別・矯正プログラム22の動作を説明する。図24は、第3の実施形態における音声識別・矯正プログラム22(図15)の動作(S30)を示すフローチャートである。図25は、図24に示した学習項目のリストアップ処理(S300)において作成される学習項目リストを例示する図である。
10・・・コンピュータ本体
100・・・出力装置
102・・・モニタ
104・・・スピーカ
106・・・プリンタ
120,130・・・入力装置
122・・・マイク
124・・・音声入力用ボード
126・・・キーボード
128・・・マウス
132・・・画像入力用ボード
110・・・記憶装置
14,20・・・ソフトウェア
142・・・ハードウェアサポート部
144・・・音声デバイスドライバ
146・・・記憶デバイスドライバ
148・・・オペレーティングシステム
150・・・音声インターフェース部
152・・・記憶装置インターフェース部
16・・・音声識別プログラム
160・・・単語データベース部
162・・・制御部
18・・・音声識別部
180・・・ベクトルデータ生成部
182・・・ラベル作成部
184・・・候補単語作成部
186・・・類似単語追加部
188・・・絞り込み部
22・・・音声識別・矯正プログラム
24・・・発音矯正プログラム
240・・・比較部
242・・・発音矯正画像表示部
Claims (3)
- 所定の言語のある単語を示す音声データに、該音声データを識別して得られる単語の候補(候補単語)を1個以上、対応付ける候補単語対応付け手段と、
前記所定の言語の単語に対応付けて0個以上の類似単語を記憶する類似単語記憶手段であって、前記所定の言語の単語に対応付けられる類似単語は、前記所定の言語以外の言語を母国語とする話者によって発音される前記所定の言語の前記単語の誤った発音を表す、類似単語記憶手段と、
前記音声データに対応付けられた前記候補単語それぞれに、前記類似単語記憶手段を使って、前記候補単語それぞれの発音に対応しうる単語(類似単語)を0個以上、対応付ける類似単語対応付け手段と、
前記音声データによって示される単語が、この音声データに対応付けられた前記候補単語それぞれに対応付けられた前記類似単語に一致する場合に、前記音声データによって示される単語が一致する前記類似単語に対応し、前記音声データによって示される単語の発音を矯正する発音矯正データを出力する発音矯正データ出力手段と
を有する発音矯正装置。 - コンピュータを含む発音矯正装置の動作方法であって、
記憶装置に記憶された単語データベースを参照する候補単語対応付け手段によって、音声入力手段を介して入力された所定の言語のある単語を示す音声データに、該音声データを識別して得られる単語の候補(候補単語)を1個以上、対応付けるステップと、
前記所定の言語の単語に対応付けて0個以上の類似単語を記憶する記憶装置に記憶された単語データベースを参照する類似単語対応付け手段によって、前記音声データに対応付けられた前記候補単語それぞれに、前記候補単語それぞれの発音に対応しうる単語(類似単語)を0個以上、対応付けるステップであって、前記単語データベースにおいて前記所定の言語の単語に対応付けられている類似単語は、前記所定の言語以外の言語を母国語とする話者によって発音される前記所定の言語の前記単語の誤った発音を表す、ステップと、
比較手段が、前記音声データによって示される単語が、この音声データに対応付けられた前記候補単語それぞれに対応付けられた前記類似単語に一致すると判定する場合に、発音矯正データ出力手段によって、前記音声データによって示される単語が一致する前記類似単語に対応し、前記音声データによって示される単語の発音を矯正する発音矯正データを記憶装置から読み出して出力するステップとを含む、
方法。 - 記憶装置に記憶された単語データベースを参照する候補単語対応付け手段によって、音声入力手段を介して入力された所定の言語のある単語を示す音声データに、該音声データを識別して得られる単語の候補(候補単語)を1個以上、対応付ける候補単語対応付けステップと、
前記所定の言語の単語に対応付けて0個以上の類似単語を記憶する記憶装置に記憶された単語データベースを参照する類似単語対応付け手段によって、前記音声データに対応付けられた前記候補単語それぞれに、前記候補単語それぞれの発音に対応しうる単語(類似単語)を0個以上、対応付ける類似単語対応付けステップであって、前記単語データベースにおいて前記所定の言語の単語に対応付けられている類似単語は、前記所定の言語以外の言語を母国語とする話者によって発音される前記所定の言語の前記単語の誤った発音を表す、ステップと、
比較手段が、前記音声データによって示される単語が、この音声データに対応付けられた前記候補単語それぞれに対応付けられた前記類似単語に一致すると判定する場合に、発音矯正データ出力手段によって、前記音声データによって示される単語が一致する前記類似単語に対応し、前記音声データによって示される単語の発音を矯正する発音矯正データを記憶装置から読み出して出力する発音矯正データ出力ステップと
をコンピュータに実行させるプログラムを記録したコンピュータにより読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010115562A JP5025759B2 (ja) | 1997-11-17 | 2010-05-19 | 発音矯正装置、発音矯正方法および記録媒体 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1997315519 | 1997-11-17 | ||
JP31551997 | 1997-11-17 | ||
JP2010115562A JP5025759B2 (ja) | 1997-11-17 | 2010-05-19 | 発音矯正装置、発音矯正方法および記録媒体 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007047403A Division JP2007193350A (ja) | 1997-11-17 | 2007-02-27 | 発音矯正装置、発音矯正方法および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010224563A true JP2010224563A (ja) | 2010-10-07 |
JP5025759B2 JP5025759B2 (ja) | 2012-09-12 |
Family
ID=43041737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010115562A Expired - Fee Related JP5025759B2 (ja) | 1997-11-17 | 2010-05-19 | 発音矯正装置、発音矯正方法および記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5025759B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2480649A (en) * | 2010-05-26 | 2011-11-30 | Lin Sun | Non-native language spelling correction |
JP2012256047A (ja) * | 2011-06-07 | 2012-12-27 | Samsung Electronics Co Ltd | ディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法 |
WO2014002391A1 (ja) * | 2012-06-29 | 2014-01-03 | テルモ株式会社 | 情報処理装置および情報処理方法 |
JP2015026057A (ja) * | 2013-07-29 | 2015-02-05 | 韓國電子通信研究院Electronics and Telecommunications Research Institute | インタラクティブキャラクター基盤の外国語学習装置及び方法 |
CN114944218A (zh) * | 2022-01-18 | 2022-08-26 | 华东师范大学 | 一种用于声母构音障碍矫治的数据查询处理方法及数据库*** |
CN117393002A (zh) * | 2023-12-11 | 2024-01-12 | 深圳市妙语教育科技有限公司 | 基于人工智能的朗读质量测评方法及相关装置 |
CN118098030A (zh) * | 2024-04-19 | 2024-05-28 | 电子科技大学成都学院 | 一种基于在线教育的多人交互式英语教学方法及*** |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6129879A (ja) * | 1984-07-23 | 1986-02-10 | 株式会社リコー | 発音練習機 |
JPS61100833A (ja) * | 1984-10-22 | 1986-05-19 | Fujitsu Ltd | 発声訓練装置 |
JPS61184598A (ja) * | 1985-02-12 | 1986-08-18 | 松下電器産業株式会社 | 発音練習装置 |
JPS63148288A (ja) * | 1986-12-12 | 1988-06-21 | 株式会社河合楽器製作所 | 発音訓練装置 |
US5170432A (en) * | 1989-09-22 | 1992-12-08 | Alcatel N.V. | Method of speaker adaptive speech recognition |
JPH06110494A (ja) * | 1992-09-08 | 1994-04-22 | Osaka Gas Co Ltd | 発音学習装置 |
JPH06348297A (ja) * | 1993-06-10 | 1994-12-22 | Osaka Gas Co Ltd | 発音練習装置 |
JP4501617B2 (ja) * | 2004-09-22 | 2010-07-14 | 富士ゼロックス株式会社 | 電子写真感光体、及び画像形成装置 |
-
2010
- 2010-05-19 JP JP2010115562A patent/JP5025759B2/ja not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6129879A (ja) * | 1984-07-23 | 1986-02-10 | 株式会社リコー | 発音練習機 |
JPS61100833A (ja) * | 1984-10-22 | 1986-05-19 | Fujitsu Ltd | 発声訓練装置 |
JPS61184598A (ja) * | 1985-02-12 | 1986-08-18 | 松下電器産業株式会社 | 発音練習装置 |
JPS63148288A (ja) * | 1986-12-12 | 1988-06-21 | 株式会社河合楽器製作所 | 発音訓練装置 |
US5170432A (en) * | 1989-09-22 | 1992-12-08 | Alcatel N.V. | Method of speaker adaptive speech recognition |
JPH06110494A (ja) * | 1992-09-08 | 1994-04-22 | Osaka Gas Co Ltd | 発音学習装置 |
JPH06348297A (ja) * | 1993-06-10 | 1994-12-22 | Osaka Gas Co Ltd | 発音練習装置 |
JP4501617B2 (ja) * | 2004-09-22 | 2010-07-14 | 富士ゼロックス株式会社 | 電子写真感光体、及び画像形成装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2480649A (en) * | 2010-05-26 | 2011-11-30 | Lin Sun | Non-native language spelling correction |
GB2480649B (en) * | 2010-05-26 | 2017-07-26 | Sun Lin | Non-native language spelling correction |
JP2012256047A (ja) * | 2011-06-07 | 2012-12-27 | Samsung Electronics Co Ltd | ディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法 |
WO2014002391A1 (ja) * | 2012-06-29 | 2014-01-03 | テルモ株式会社 | 情報処理装置および情報処理方法 |
JPWO2014002391A1 (ja) * | 2012-06-29 | 2016-05-30 | テルモ株式会社 | 情報処理装置および情報処理方法 |
JP2015026057A (ja) * | 2013-07-29 | 2015-02-05 | 韓國電子通信研究院Electronics and Telecommunications Research Institute | インタラクティブキャラクター基盤の外国語学習装置及び方法 |
CN114944218A (zh) * | 2022-01-18 | 2022-08-26 | 华东师范大学 | 一种用于声母构音障碍矫治的数据查询处理方法及数据库*** |
CN117393002A (zh) * | 2023-12-11 | 2024-01-12 | 深圳市妙语教育科技有限公司 | 基于人工智能的朗读质量测评方法及相关装置 |
CN117393002B (zh) * | 2023-12-11 | 2024-03-05 | 深圳市妙语教育科技有限公司 | 基于人工智能的朗读质量测评方法及相关装置 |
CN118098030A (zh) * | 2024-04-19 | 2024-05-28 | 电子科技大学成都学院 | 一种基于在线教育的多人交互式英语教学方法及*** |
Also Published As
Publication number | Publication date |
---|---|
JP5025759B2 (ja) | 2012-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4267101B2 (ja) | 音声識別装置、発音矯正装置およびこれらの方法 | |
JP5025759B2 (ja) | 発音矯正装置、発音矯正方法および記録媒体 | |
EP0262938B1 (en) | Language translation system | |
US6363342B2 (en) | System for developing word-pronunciation pairs | |
US6173253B1 (en) | Sentence processing apparatus and method thereof,utilizing dictionaries to interpolate elliptic characters or symbols | |
CN1205572C (zh) | 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构 | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US6490563B2 (en) | Proofreading with text to speech feedback | |
JPH03224055A (ja) | 同時通訳向き音声認識システムおよびその音声認識方法 | |
JP2015026057A (ja) | インタラクティブキャラクター基盤の外国語学習装置及び方法 | |
JP2001092484A (ja) | 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体 | |
JP2021139994A (ja) | 音声認識誤り訂正装置、音声認識誤り訂正方法及び音声認識誤り訂正プログラム | |
CN110555091A (zh) | 一种基于词向量的联想词生成方法及装置 | |
US5745875A (en) | Stenographic translation system automatic speech recognition | |
JP2007193350A (ja) | 発音矯正装置、発音矯正方法および記録媒体 | |
JP4018668B2 (ja) | 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム | |
JP2004295578A (ja) | 翻訳装置 | |
Kabra et al. | Auto spell suggestion for high quality speech synthesis in hindi | |
JP2003162524A (ja) | 言語処理装置 | |
JP2007086404A (ja) | 音声合成装置 | |
JPH0210957B2 (ja) | ||
JP2002123281A (ja) | 音声合成装置 | |
US6327560B1 (en) | Chinese character conversion apparatus with no need to input tone symbols | |
CN112988955B (zh) | 多语语音识别及主题语意分析方法与装置 | |
JPH11338498A (ja) | 音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120501 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120522 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120619 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150629 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |