JP4778008B2

JP4778008B2 - 混同音の生成および検知の方法およびシステム

Info

Publication number: JP4778008B2
Application number: JP2008021153A
Authority: JP
Inventors: 智星張; 派斌王; 江村陳; 正豪林
Original assignee: Institute for Information Industry
Current assignee: Institute for Information Industry
Priority date: 2007-12-11
Filing date: 2008-01-31
Publication date: 2011-09-21
Anticipated expiration: 2028-01-31
Also published as: US7996209B2; TW200926140A; US20090150154A1; JP2009145853A

Description

本発明は混同音の生成および検知の方法およびシステムに関し、特に中国語発音の混同音の生成および検知の方法およびシステムに関する。

特許文献１に示すように、近年、コンピュータの計算能力の向上および音声認識技術の進歩により、日常生活で利用される音声処理は日々増大している。特に言語学習では、外国語を学習する際にコンピュータを利用することが非常に重視されてきており、それに関する様々な研究も盛んである。

中国語の言語学習には、読み書きや聞く話すといった四つの学習が含まれるが、そのなかでも言語能力の訓練に関しては、中国語学習者が自分で練習して評価を知ることが可能な良好な方法はなかった。また現在の中国語学習ソフトは、発音および会話の学習補助方法として音声セグメンテーション、システム分析、演算法などのデータを処理する方法があったが、それは音声評価しか行うことができなかった。つまり、学習者は、どの単語の発音が正確でないかを知ることができたが、学習者の発音をさらに分析したり指摘・矯正することはできなかった。さらに、学習者の様々な母国語や出身国ごとに有効な矯正を行うことができなかったため、実用性に乏しく、実質的な補助も限定されたものであった。

そのため、上述の問題点を改善することが可能で、混同音の生成および検知の方法およびシステムが求められていた。

台湾特許出願公開２００７１３８４８号公報

本発明の目的は、発音エラーのパターンを分析し、学習者に間違っている箇所を指摘し、どの発音が正確でないのかを知らせて発音を有効に矯正することにより、中国語学習者の学習効果を向上させることが可能な混同音の生成および検知の方法およびシステムを提供することにある。

本発明は生成段階および検知段階を含む混同音の生成および検知の方法であって、前記生成段階は、（ａ）中国語の言語データを入力するステップと、（ｂ）ビタビ復号演算のフォースアライメントを利用し、混同音認識ネットワークにより最適ルートを認識し、前記中国語の言語データをセグメント化し、複数の音節である音声セグメンテーションの結果を得るステップと、（ｃ）前記音声セグメンテーションの結果と、複数の標準中国語の音節が含まれる中国語の音声モデルとを比較するステップと、（ｄ）混同音が生成されたか否かを判断するステップと、（ｅ）前記混同音が生成された時に、前記混同音が前記混同音認識ネットワークに入力され、ステップ（ｂ）、（ｃ）および（ｄ）を繰り返すステップと、（ｆ）前記混同音が生成されない時に停止し、これまでに生成された前記混同音の全てを混同音設定ファイルへ出力するステップと、を含み、前記検知段階は、（ｇ）学習者が読み上げた中国語語句を入力するステップと、（ｈ）前記混同音認識ネットワークによりアライメントを行うステップと、（ｉ）前記中国語語句の最適ルートを決定するステップと、（ｊ）前記最適ルートと、標準ルートとを比較し、リアルタイムで音声の矯正を行うステップと、を含み、前記混同音認識ネットワークは、前記生成段階に出力される前記混同音設定ファイルを基に構築されることを特徴とする混同音の生成および検知の方法を提供する。

また、本発明は生成システムおよび検知システムを備える混同音の生成および検知のシステムであって、前記生成システムは、中国語の言語データを認識する混同音認識ネットワークと、複数の標準中国語の音節を提供する中国語の音声モデルと、生成された混同音全てを保存する混同音設定ファイルと、前記中国語の言語データを入力し、ビタビ復号演算のフォースアライメントを利用し、前記混同音認識ネットワークにより最適ルートを認識し、前記中国語の言語データをセグメント化し、複数の音節である音声セグメンテーションの結果を得る音声分割モジュールと、前記音声セグメンテーションの結果と、前記中国語の音声モデルとを比較し、前記混同音が生成されたか否かを判断し、前記混同音が生成された時に、前記混同音が前記混同音認識ネットワークに入力され、前記混同音が生成されない時に停止し、これまでに生成された前記混同音の全てを前記混同音設定ファイルへ出力する混同音生成モジュールと、を備え、前記混同音生成モジュールに前記混同音が生成されると、前記音声分割モジュールが前記混同音認識ネットワークにより新しい最適ルートを認識してから前記中国語の言語データをセグメント化し、新しい音声セグメンテーションの結果を得るとともに、前記新しい音声セグメンテーションの結果を前記混同音生成モジュールへ出力し、前記混同音が生成されたか否かを判断し、前記検知システムは、学習者が読み上げた中国語語句を認識し、前記生成システムから出力される前記混同音設定ファイルを基に構築された前記混同音認識ネットワークと、ビタビ復号演算のフォースアライメントを利用し、前記中国語語句の最適ルートを決定するルート認識モジュール
と、リアルタイムで音声の矯正を行う音声矯正モジュールと、を備えることを特徴とする混同音の生成および検知のシステムを提供する。

また、本発明はコンピュータに実行させるためのプログラムを記録し、前記コンピュータが前記プログラムにより混同音の生成および検知を実行し、前記プログラムは、生成段階および検知段階を含む記録媒体であって、前記生成段階は、（ａ）中国語の言語データを入力するステップと、（ｂ）ビタビ復号演算のフォースアライメントを利用し、混同音認識ネットワークにより最適ルートを認識し、前記中国語の言語データをセグメント化し、複数の音節である音声セグメンテーションの結果を得るステップと、（ｃ）前記音声セグメンテーションの結果と、複数の標準中国語の音節が含まれる中国語の音声モデルとを比較するステップと、（ｄ）前記混同音が生成されたか否かを判断するステップと、（ｅ）前記混同音が生成された時に、前記混同音が前記混同音認識ネットワークに入力され、ステップ（ｂ）、（ｃ）および（ｄ）を繰り返すステップと、（ｆ）前記混同音が生成されない時に停止し、これまでに生成された前記混同音の全てを混同音設定ファイルへ出力するステップと、を含み、前記検知段階は、（ｇ）学習者が読み上げた中国語語句を入力するステップと、（ｈ）前記混同音認識ネットワークによりアライメントを行うステップと、（ｉ）前記中国語語句の最適ルートを決定するステップと、（ｊ）前記最適ルートと、標準ルートとを比較し、リアルタイムで音声の矯正を行うステップと、を含み、前記混同音認識ネットワークは、前記生成段階に出力される前記混同音設定ファイルを基に構築されることを特徴とする記録媒体を提供する。

本発明によれば、発音エラーのパターンを分析し、学習者に間違っている箇所を指摘し、どの発音が正確でないのかを知らせて発音を有効的に矯正することにより、中国語学習者の学習効果を向上させることが可能である混同音の生成および検知の方法およびシステムを提供することができる。

以下に本発明の実施の形態を詳細に説明する。

本発明の混同音の生成および検知の方法は、生成段階および検知段階に分けられる。図１Ａおよび図２Ａを参照する。図１Ａは、本発明の一実施形態による混同音の生成方法を示す流れ図である。図２Ａは、本発明の一実施形態による混同音の生成段階時の混同音認識ネットワークを示す模式図である。生成段階では、中国語音声ファイルまたはマイクから中国語の言語データを入力した後に（ステップ１１０）、中国語の言語データをセグメント化する（ステップ１２０）。このステップでは、ビタビ復号演算（Ｖｉｔｅｒｂｉｄｅｃｏｄｉｎｇ）のフォースアライメント（ｆｏｒｃｅｄａｌｉｇｎｍｅｎｔ）を利用し、混同音認識ネットワークにより１本の最適ルートを認識する。この混同音認識ネットワークには、開始時に標準ルートが含まれている。この標準ルートは、中国語の言語データの標準音声内容であり、ここでは、「ｑｕ−ｎｉａｎ−ｘｉａ−ｔｉａｎ−ｒｅ−ｓｉ−ｌｅ（去年夏天熱死了）」を例に説明する。図２Ａの状態２１０に示すように、この時の混同音認識ネットワーク中の標準ルートは、「ｑｕ−ｎｉａｎ−ｘｉａ−ｔｉａｎ−ｒｅ−ｓｉ−ｌｅ」の７つの標準中国語の音節から構成されており、これら標準中国語の音節を基に中国語の言語データをセグメント化すると、各音節の開始時間および終了時間を知ることができる。続いて、音声セグメンテーションを行った後の各音節と、４１１個の標準中国語の音節の中国語音声モデルとを比較する（ステップ１３０）。この方法では、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：ＨＭＭ）を音声モデルとして用い、各音節と、４１１個の標準中国語の音節全てとを比較してログ確率を計算する。これらログ確率の高低を基に、４１１個の標準中国語の音節をランク付けし、１つの標準中国語の音節ａのランクが１つの音声セグメンテーションを行った後の音節が対応す
る標準中国語の音節ｂよりも高いとき、標準中国語の音節ａは混同音である。例えば、１つの音声セグメンテーションを行った後の音節が対応する標準中国語の音節が「ｒｅ（熱）」であり、「ｌｅ（樂）」のランクが「ｒｅ（熱）」よりも高いとき、「ｒｅ（熱）」と「ｌｅ（樂）」とを学習者が混同していると判断し、混同音である「ｌｅ（樂）」を探し出すことができる。そして、このランクを基に混同音が生成されたか否かを判断することができる（ステップ１４０）。続いて、混同音認識ネットワーク内に混同音を加える（ステップ１５０）。図２Ａの状態２２０に示すように、この際、混同音「ｌｅ（樂）」が加えられるため、混同音認識ネットワーク内には他のルートが増やされる。続いて、混同音の生成が無くなるまで、ステップ１２０、１３０、１４０を繰り返し、混同音の生成が無くなった時に停止し、これまでに生成された混同音を混同音設定ファイルへ出力する（ステップ１６０）。

混同音「ｌｅ（樂）」が混同音認識ネットワークに加えられるため、再びステップ１２０において音声セグメンテーションが繰り返されると、ルートが「ｑｕ−ｎｉａｎ−ｘｉａ−ｔｉａｎ−ｒｅ−ｓｉ−ｌｅ」となり、音声セグメンテーションの結果がさらに正確となる。この時、音声セグメンテーションの結果が変動し、その他の混同音が再び生成される可能性がある。その場合は音声セグメンテーションの結果と、中国語音声モデルとを再び比較し、新しい混同音が生成されたか否かを判断する。図２Ｃを参照する。図２Ｃは、本発明の一実施形態による音声セグメンテーションの結果を示す模式図である。状態２７０は、１回目の音声セグメンテーションを行った結果を示し、状態２８０は、２回目の音声セグメンテーションを行った結果を示す。

図１Ｂおよび図２Ｂを参照する。図１Ｂは、本発明の一実施形態による混同音の検知方法を示す流れ図である。図２Ｂは、本発明の一実施形態による混同音の検知段階時のルートを示す模式図である。この検知段階では、まず、学習者が中国語語句を読み上げ（ステップ１７０）、混同音認識ネットワークを介し、ビタビ復号演算のフォースアライメントを利用し、この中国語語句のアライメントを行う（ステップ１７５）。混同音認識ネットワークは、生成段階で出力される混同音設定ファイルを基に構築され、中国語を非母国語とする学習者がよく発話する混同音をカバーしている。図２Ｂの状態２４０に示すように、「ｑｕ−ｎｉａｎ−ｘｉａ−ｔｉａｎ−ｒｅ−ｓｉ−ｌｅ（去年夏天熱死了）」の混同音認識ネットワークには、混同音「ｎｉａｎｇ」、「ｔｉａｎｇ」および「ｌｅ」が含まれている。その後、中国語語句の最適ルートを得る（ステップ１８０）。図２Ｂの状態２５０に示すように、学習者が読み上げた中国語語句のルートである「ｑｕ−ｎｉａｎｇ−ｘｉａ−ｔｉａｎｇ−ｌｅ−ｓｉ−ｌｅ」を認識する。最後に、最適ルートと、標準ルートとを比較して間違った発音を探し出すとともに、リアルタイムで音声を矯正し（ステップ１８５）、例文中の「ｎｉａｎ」が「ｎｉａｎｇ」に、「ｔｉａｎ」が「ｔｉａｎｇ」に、「ｒｅ」が「ｌｅ」に読み違えていることを学習者に知らせ、中国語語句の評価を行う。

図３Ａを参照する。図３Ａは、本発明の一実施形態による混同音の生成システムのアーキテクチャを示すブロック図である。混同音の生成システムには、中国語の言語データを保存する中国語の音声ファイル３１０と、中国語の言語データを認識する混同音認識ネットワーク３２０と、４１１個の標準中国語の音節を提供する、隠れマルコフモデルである中国語の音声モデル３３０と、生成される混同音全てを保存する混同音設定ファイル３４０と、中国語の言語データをセグメント化する音声分割モジュール３５０と、混同音を生成して計算モジュール３６２およびランクモジュール３６４を含む混同音生成モジュール３６０とが含まれる。

中国語の音声ファイル３１０には、大量の中国語学習者の言語データ（よく使われる中国語音節をカバーされてることが好ましい。）が保存され、中国語の言語データが中国語
の音声ファイル３１０から入力されると、音声分割モジュール３５０が言語データのセグメント化を行い、ビタビ復号演算のフォースアライメントを利用し、混同音認識ネットワーク３２０により最適ルートを認識して中国語の言語データをセグメント化し、音声セグメンテーションを行った後に各音節の開始時間および終了時間を知ることができる。混同音認識ネットワーク３２０には、開始時に中国語の言語データの標準音声内容である標準ルートが含まれる。混同音生成モジュール３６０中で、計算モジュール３６２が音声セグメンテーションを行った後の各音節と、中国語の音声モデル３３０の４１１個の標準中国語の音節とを比較してログ確率を計算した後に、ランクモジュール３６４がログ確率の高低を基に、標準中国語の音節をランク付けする。１つの標準中国語の音節ａのランクが１つの音声セグメンテーション後の音節が対応する標準中国語の音節ｂよりも高いとき、標準中国語の音節ａは混合音であり、学習者がｂをａと混同して混同音が生成されると、この混同音は混同音認識ネットワーク３２０に加えられる。また、混同音が生成されない時は停止し、これまでに生成された混同音の全てが混同音設定ファイル３４０に出力される。混同音生成モジュール３６０に混同音が生成されると、音声分割モジュール３５０は、混同音認識ネットワーク３２０を介して１本の新たな最適ルートを認識した後に、中国語の言語データをセグメント化し、新たな音声セグメンテーションの結果を得る。同時に新たな音声セグメンテーションの結果を混同音生成モジュール３６０へ出力し、混同音が生成されたか否かを判断する。

図３Ｂを参照する。図３Ｂは、本発明の一実施形態による混同音の検知システムのアーキテクチャを示すブロック図である。この検知システムには、学習者が読み上げた中国語語句を認識する混同音認識ネットワーク３７０と、中国語語句の最適ルートを決定するルート認識モジュール３８０と、リアルタイムで音声の矯正を行う音声矯正モジュール３８５と、が含まれる。

生成システムは、外国人が中国語を学習するときによく発話する混同音を探し出し、混同音設定ファイルへ出力する。そして、この混同音設定ファイルを基に、混同音認識ネットワーク３７０を構築する。学習者が読み上げた中国語語句を入力した後、ルート認識モジュール３８０は混同音認識ネットワーク３７０を介し、ビタビ復号演算のフォースアライメントを利用し、中国語語句の最適ルートを得る。音声矯正モジュール３８５は、最適ルートと、標準ルートとを比較し、間違った発音を探し出し、リアルタイムで音声を矯正して中国語語句の評価を行う。

本実施形態は、混同音を反復法により繰り返し探し出し、混同音認識ネットワークへ加え、音声セグメンテーションの正確性および評価の客観性を徐々に高める。本発明の好適な実施形態から分かるように、この中国語発音の混同音の生成および検知の方法およびシステムは、学習者の間違った発音パターンを分析し、学習者にどの発音が間違ったかを知らせて矯正を行う。このように、矯正を有効的に行って学習者の学習効果を高めることができる。

本発明では好適な実施形態を前述の通り開示したが、これらは決して本発明を限定するものではなく、当該技術を熟知するものなら誰でも、本発明の主旨と領域を脱しない範囲内で各種の変更や修正を加えることができる。従って本発明の保護の範囲は、特許請求の範囲で指定した内容を基準とする。

本発明の一実施形態による混同音の生成方法を示す流れ図である。本発明の一実施形態による混同音の検知方法を示す流れ図である。本発明の一実施形態による混同音の生成段階時の混同音認識ネットワークを示す模式図である。本発明の一実施形態による混同音の検知段階時のルートを示す模式図である。本発明の一実施形態による音声セグメンテーションの結果を示す模式図である。本発明の一実施形態による混同音の生成システムのアーキテクチャを示すブロック図である。本発明の一実施形態による混同音の検知システムのアーキテクチャを示すブロック図である。

２４０：混同音認識ネットワーク
２５０：最適ルート
２７０：第１の音声セグメンテーションの結果
２８０：第２の音声セグメンテーションの結果
３１０：中国語の音声ファイル
３２０：混同音認識ネットワーク
３３０：中国語の音声モデル
３４０：混同音設定ファイル
３５０：音声分割モジュール
３６０：混同音生成モジュール
３６２：計算モジュール
３６４：ランクモジュール
３７０：混同音認識ネットワーク
３８０：ルート認識モジュール
３８５：音声矯正モジュール

Claims

生成段階および検知段階を含む、コンピュータによって実行される混同音の生成および検知の方法であって、
前記コンピュータは、中国語の音声ファイル、混同音認識ネットワーク、中国語の音声モデル、混同音設定ファイル、音声分割モジュール、混同音生成モジュール、ルート認識モジュール、音声矯正モジュールを備え、
前記生成段階は、
（ａ）前記中国語の音声ファイルから中国語の言語データが入力されるステップと、
（ｂ）前記音声分割モジュールによって実行されるステップであって、ビタビ復号演算のフォースアライメントを利用し、前記混同音認識ネットワークにより最適ルートを認識し、前記中国語の言語データをセグメント化し、複数の音節である音声セグメンテーションの結果を得るステップと、を含み、
さらに、前記混同音生成モジュールによって実行される（ｃ）、（ｄ）、（ｅ）、（ｆ）のステップであって、
（ｃ）前記音声セグメンテーションの結果と、複数の標準中国語の音節が含まれる前記中国語の音声モデルとを比較するステップと、
（ｄ）前記混同音が生成されたか否かを判断するステップと、
（ｅ）前記混同音が生成された時に、前記混同音が前記混同音認識ネットワークに入力され、ステップ（ｂ）、（ｃ）および（ｄ）を繰り返すステップと、
（ｆ）前記混同音が生成されない時に停止し、これまでに生成された前記混同音の全てを前記混同音設定ファイルへ出力するステップと、を含み、
前記検知段階は、
（ｇ）前記ルート認識モジュールによって実行されるステップであって、学習者が読み上げた中国語語句が入力された後に、前記混同音認識ネットワークによりアライメントを行い、前記中国語語句の最適ルートを決定するステップと、
（ｈ）前記音声矯正モジュールによって実行されるステップであって、前記最適ルートと、標準ルートとを比較し、リアルタイムで音声の矯正を行うステップと、を含み、
前記混同音認識ネットワークは、前記生成段階に出力される前記混同音設定ファイルを基に構築されることを特徴とする混同音の生成および検知の方法。
前記中国語の音声モデルは隠れマルコフモデルであることを特徴とする請求項１に記載
の混同音の生成および検知の方法。
前記中国語の音声モデルは、４１１個の前記標準中国語の音節を含むことを特徴とする請求項１に記載の混同音の生成および検知の方法。
前記混同音認識ネットワークは、開始時に前記中国語の言語データの標準音声内容である前記標準ルートを含むことを特徴とする請求項１に記載の混同音の生成および検知の方法。
前記ステップ（ｃ）は、
各前記複数の音節と、前記複数の標準中国語の音節の全てとを比較し、複数のログ確率を計算するステップと、
前記複数のログ確率の高低を基に、前記複数の標準中国語の音節をランク付けするステップと、
前記複数の標準中国語の音節が存在し、前記複数の標準中国語の音節のランクが各前記複数の音節が対応する前記複数の標準中国語の音節よりも高い時に、前記複数の標準中国語の音節が混同音であると判断するステップと、含むことを特徴とする請求項１に記載の混同音の生成および検知の方法。
前記混同音を反復法により繰り返し探し出し、前記混同音認識ネットワークに入力することを特徴とする請求項１に記載の混同音の生成および検知の方法。
生成システムおよび検知システムを備える混同音の生成および検知のシステムであって、
前記生成システムは、
中国語の言語データを認識する混同音認識ネットワークと、
複数の標準中国語の音節を提供する中国語の音声モデルと、
生成された混同音全てを保存する混同音設定ファイルと、
前記中国語の言語データを入力し、ビタビ復号演算のフォースアライメントを利用し、前記混同音認識ネットワークにより最適ルートを認識し、前記中国語の言語データをセグメント化し、複数の音節である音声セグメンテーションの結果を得る音声分割モジュールと、
前記音声セグメンテーションの結果と、前記中国語の音声モデルとを比較し、前記混同音が生成されたか否かを判断し、前記混同音が生成された時に、前記混同音が前記混同音認識ネットワークに入力され、前記混同音が生成されない時に停止し、これまでに生成された前記混同音の全てを前記混同音設定ファイルへ出力する混同音生成モジュールと、を備え、
前記混同音生成モジュールに前記混同音が生成されると、前記音声分割モジュールが前記混同音認識ネットワークにより新しい最適ルートを認識してから前記中国語の言語データをセグメント化し、新しい音声セグメンテーションの結果を得るとともに、前記新しい音声セグメンテーションの結果を前記混同音生成モジュールへ出力し、前記混同音が生成されたか否かを判断し、
前記検知システムは、
学習者が読み上げた中国語語句を認識し、前記生成システムから出力される前記混同音設定ファイルを基に構築された前記混同音認識ネットワークと、
ビタビ復号演算のフォースアライメントを利用し、前記中国語語句の最適ルートを決定するルート認識モジュールと、
リアルタイムで音声の矯正を行う音声矯正モジュールと、を備えることを特徴とする混同音の生成および検知のシステム。
前記中国語の音声モデルは隠れマルコフモデルであることを特徴とする請求項７に記載の混同音の生成および検知のシステム。
前記中国語の音声モデルは、４１１個の前記標準中国語の音節を含むことを特徴とする請求項７に記載の混同音の生成および検知のシステム。
前記混同音認識ネットワークは、開始時に前記中国語の言語データの標準音声内容である標準ルートを含むことを特徴とする請求項７に記載の混同音の生成および検知のシステム。
前記混同音生成モジュールは、
各前記複数の音節と、前記複数の標準中国語の音節の全てとを比較し、複数のログ確率を計算する計算モジュールと、
前記複数のログ確率の高低を基に、前記複数の標準中国語の音節をランク付けし、前記複数の標準中国語の音節が存在し、前記複数の標準中国語の音節のランクが各前記複数の音節の対応する前記複数の標準中国語の音節よりも高い時に、前記複数の標準中国語の音節が混同音であると判断するランクモジュールと、を備えることを特徴とする請求項７に記載の混同音の生成および検知のシステム。
前記混同音を反復法により繰り返し探し出し、前記混同音認識ネットワークに入力することを特徴とする請求項７に記載の混同音の生成および検知のシステム。
混同音の生成および検知を実行する生成段階および検知段階をコンピュータに実行させるプログラムを記録したコンピュータにより読み取り可能な記録媒体であって、
前記コンピュータは、中国語の音声ファイル、混同音認識ネットワーク、中国語の音声モデル、混同音設定ファイル、音声分割モジュール、混同音生成モジュール、ルート認識モジュール、音声矯正モジュールを備え、
前記生成段階は、
（ａ）前記中国語の音声ファイルから中国語の言語データが入力されるステップと、
（ｂ）前記音声分割モジュールによって実行されるステップであって、ビタビ復号演算のフォースアライメントを利用し、前記混同音認識ネットワークにより最適ルートを認識し、前記中国語の言語データをセグメント化し、複数の音節である音声セグメンテーションの結果を得るステップと、を含み、
さらに、前記混同音生成モジュールによって実行される（ｃ）、（ｄ）、（ｅ）、（ｆ）のステップであって、
（ｃ）前記音声セグメンテーションの結果と、複数の標準中国語の音節が含まれる前記中国語の音声モデルとを比較するステップと、
（ｄ）前記混同音が生成されたか否かを判断するステップと、
（ｅ）前記混同音が生成された時に、前記混同音が前記混同音認識ネットワークに入力され、ステップ（ｂ）、（ｃ）および（ｄ）を繰り返すステップと、
（ｆ）前記混同音が生成されない時に停止し、これまでに生成された前記混同音の全てを前記混同音設定ファイルへ出力するステップと、を含み、
前記検知段階は、
（ｇ）前記ルート認識モジュールによって実行されるステップであって、学習者が読み上げた中国語語句が入力された後に、前記混同音認識ネットワークによりアライメントを行い、前記中国語語句の最適ルートを決定するステップと、
（ｈ）前記音声矯正モジュールによって実行されるステップであって、前記最適ルートと、標準ルートとを比較し、リアルタイムで音声の矯正を行うステップと、を含み、
前記混同音認識ネットワークは、前記生成段階に出力される前記混同音設定ファイルを基に構築されることを特徴とする記録媒体。
前記中国語の音声モデルは隠れマルコフモデルであることを特徴とする請求項１３に記載の記録媒体。
前記中国語の音声モデルは、４１１個の前記標準中国語の音節を含むことを特徴とする請求項１３に記載の記録媒体。
前記混同音認識ネットワークは、開始時に前記中国語の言語データの標準音声内容である前記標準ルートを含むことを特徴とする請求項１３に記載の記録媒体。
前記ステップ（ｃ）は、
各前記複数の音節と、前記複数の標準中国語の音節の全てとを比較し、複数のログ確率を計算するステップと、
前記複数のログ確率の高低を基に、前記複数の標準中国語の音節をランク付けするステップと、
前記複数の標準中国語の音節が存在する時に、前記複数の標準中国語の音節のランクが各前記複数の音節が対応する前記複数の標準中国語の音節よりも高い時に、前記複数の標準中国語の音節が前記混同音であると判断するステップと、含むことを特徴とする請求項１３に記載の記録媒体。
前記混同音を反復法により繰り返し探し出し、前記混同音認識ネットワークに入力することを特徴とする請求項１３に記載の記録媒体。