JP4778008B2 - 混同音の生成および検知の方法およびシステム - Google Patents

混同音の生成および検知の方法およびシステム Download PDF

Info

Publication number
JP4778008B2
JP4778008B2 JP2008021153A JP2008021153A JP4778008B2 JP 4778008 B2 JP4778008 B2 JP 4778008B2 JP 2008021153 A JP2008021153 A JP 2008021153A JP 2008021153 A JP2008021153 A JP 2008021153A JP 4778008 B2 JP4778008 B2 JP 4778008B2
Authority
JP
Japan
Prior art keywords
chinese
confusion
confusion sound
sound
syllables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008021153A
Other languages
English (en)
Other versions
JP2009145853A (ja
Inventor
智星 張
派斌 王
江村 陳
正豪 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute for Information Industry
Original Assignee
Institute for Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute for Information Industry filed Critical Institute for Information Industry
Publication of JP2009145853A publication Critical patent/JP2009145853A/ja
Application granted granted Critical
Publication of JP4778008B2 publication Critical patent/JP4778008B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Machine Translation (AREA)

Description

本発明は混同音の生成および検知の方法およびシステムに関し、特に中国語発音の混同音の生成および検知の方法およびシステムに関する。
特許文献1に示すように、近年、コンピュータの計算能力の向上および音声認識技術の進歩により、日常生活で利用される音声処理は日々増大している。特に言語学習では、外国語を学習する際にコンピュータを利用することが非常に重視されてきており、それに関する様々な研究も盛んである。
中国語の言語学習には、読み書きや聞く話すといった四つの学習が含まれるが、そのなかでも言語能力の訓練に関しては、中国語学習者が自分で練習して評価を知ることが可能な良好な方法はなかった。また現在の中国語学習ソフトは、発音および会話の学習補助方法として音声セグメンテーション、システム分析、演算法などのデータを処理する方法があったが、それは音声評価しか行うことができなかった。つまり、学習者は、どの単語の発音が正確でないかを知ることができたが、学習者の発音をさらに分析したり指摘・矯正することはできなかった。さらに、学習者の様々な母国語や出身国ごとに有効な矯正を行うことができなかったため、実用性に乏しく、実質的な補助も限定されたものであった。
そのため、上述の問題点を改善することが可能で、混同音の生成および検知の方法およびシステムが求められていた。
台湾特許出願公開200713848号公報
本発明の目的は、発音エラーのパターンを分析し、学習者に間違っている箇所を指摘し、どの発音が正確でないのかを知らせて発音を有効に矯正することにより、中国語学習者の学習効果を向上させることが可能な混同音の生成および検知の方法およびシステムを提供することにある。
本発明は生成段階および検知段階を含む混同音の生成および検知の方法であって、前記生成段階は、(a)中国語の言語データを入力するステップと、(b)ビタビ復号演算のフォースアライメントを利用し、混同音認識ネットワークにより最適ルートを認識し、前記中国語の言語データをセグメント化し、複数の音節である音声セグメンテーションの結果を得るステップと、(c)前記音声セグメンテーションの結果と、複数の標準中国語の音節が含まれる中国語の音声モデルとを比較するステップと、(d)混同音が生成されたか否かを判断するステップと、(e)前記混同音が生成された時に、前記混同音が前記混同音認識ネットワークに入力され、ステップ(b)、(c)および(d)を繰り返すステップと、(f)前記混同音が生成されない時に停止し、これまでに生成された前記混同音の全てを混同音設定ファイルへ出力するステップと、を含み、前記検知段階は、(g)学習者が読み上げた中国語語句を入力するステップと、(h)前記混同音認識ネットワークによりアライメントを行うステップと、(i)前記中国語語句の最適ルートを決定するステップと、(j)前記最適ルートと、標準ルートとを比較し、リアルタイムで音声の矯正を行うステップと、を含み、前記混同音認識ネットワークは、前記生成段階に出力される前記混同音設定ファイルを基に構築されることを特徴とする混同音の生成および検知の方法を提供する。
また、本発明は生成システムおよび検知システムを備える混同音の生成および検知のシステムであって、前記生成システムは、中国語の言語データを認識する混同音認識ネットワークと、複数の標準中国語の音節を提供する中国語の音声モデルと、生成された混同音全てを保存する混同音設定ファイルと、前記中国語の言語データを入力し、ビタビ復号演算のフォースアライメントを利用し、前記混同音認識ネットワークにより最適ルートを認識し、前記中国語の言語データをセグメント化し、複数の音節である音声セグメンテーションの結果を得る音声分割モジュールと、前記音声セグメンテーションの結果と、前記中国語の音声モデルとを比較し、前記混同音が生成されたか否かを判断し、前記混同音が生成された時に、前記混同音が前記混同音認識ネットワークに入力され、前記混同音が生成されない時に停止し、これまでに生成された前記混同音の全てを前記混同音設定ファイルへ出力する混同音生成モジュールと、を備え、前記混同音生成モジュールに前記混同音が生成されると、前記音声分割モジュールが前記混同音認識ネットワークにより新しい最適ルートを認識してから前記中国語の言語データをセグメント化し、新しい音声セグメンテーションの結果を得るとともに、前記新しい音声セグメンテーションの結果を前記混同音生成モジュールへ出力し、前記混同音が生成されたか否かを判断し、前記検知システムは、学習者が読み上げた中国語語句を認識し、前記生成システムから出力される前記混同音設定ファイルを基に構築された前記混同音認識ネットワークと、ビタビ復号演算のフォースアライメントを利用し、前記中国語語句の最適ルートを決定するルート認識モジュール
と、リアルタイムで音声の矯正を行う音声矯正モジュールと、を備えることを特徴とする混同音の生成および検知のシステムを提供する。
また、本発明はコンピュータに実行させるためのプログラムを記録し、前記コンピュータが前記プログラムにより混同音の生成および検知を実行し、前記プログラムは、生成段階および検知段階を含む記録媒体であって、前記生成段階は、(a)中国語の言語データを入力するステップと、(b)ビタビ復号演算のフォースアライメントを利用し、混同音認識ネットワークにより最適ルートを認識し、前記中国語の言語データをセグメント化し、複数の音節である音声セグメンテーションの結果を得るステップと、(c)前記音声セグメンテーションの結果と、複数の標準中国語の音節が含まれる中国語の音声モデルとを比較するステップと、(d)前記混同音が生成されたか否かを判断するステップと、(e)前記混同音が生成された時に、前記混同音が前記混同音認識ネットワークに入力され、ステップ(b)、(c)および(d)を繰り返すステップと、(f)前記混同音が生成されない時に停止し、これまでに生成された前記混同音の全てを混同音設定ファイルへ出力するステップと、を含み、前記検知段階は、(g)学習者が読み上げた中国語語句を入力するステップと、(h)前記混同音認識ネットワークによりアライメントを行うステップと、(i)前記中国語語句の最適ルートを決定するステップと、(j)前記最適ルートと、標準ルートとを比較し、リアルタイムで音声の矯正を行うステップと、を含み、前記混同音認識ネットワークは、前記生成段階に出力される前記混同音設定ファイルを基に構築されることを特徴とする記録媒体を提供する。
本発明によれば、発音エラーのパターンを分析し、学習者に間違っている箇所を指摘し、どの発音が正確でないのかを知らせて発音を有効的に矯正することにより、中国語学習者の学習効果を向上させることが可能である混同音の生成および検知の方法およびシステムを提供することができる。
以下に本発明の実施の形態を詳細に説明する。
本発明の混同音の生成および検知の方法は、生成段階および検知段階に分けられる。図1Aおよび図2Aを参照する。図1Aは、本発明の一実施形態による混同音の生成方法を示す流れ図である。図2Aは、本発明の一実施形態による混同音の生成段階時の混同音認識ネットワークを示す模式図である。生成段階では、中国語音声ファイルまたはマイクから中国語の言語データを入力した後に(ステップ110)、中国語の言語データをセグメント化する(ステップ120)。このステップでは、ビタビ復号演算(Viterbi decoding)のフォースアライメント(forced alignment)を利用し、混同音認識ネットワークにより1本の最適ルートを認識する。この混同音認識ネットワークには、開始時に標準ルートが含まれている。この標準ルートは、中国語の言語データの標準音声内容であり、ここでは、「qu−nian−xia−tian−re−si−le(去年夏天熱死了)」を例に説明する。図2Aの状態210に示すように、この時の混同音認識ネットワーク中の標準ルートは、「qu−nian−xia−tian−re−si−le」の7つの標準中国語の音節から構成されており、これら標準中国語の音節を基に中国語の言語データをセグメント化すると、各音節の開始時間および終了時間を知ることができる。続いて、音声セグメンテーションを行った後の各音節と、411個の標準中国語の音節の中国語音声モデルとを比較する(ステップ130)。この方法では、隠れマルコフモデル(Hidden Markov Model:HMM)を音声モデルとして用い、各音節と、411個の標準中国語の音節全てとを比較してログ確率を計算する。これらログ確率の高低を基に、411個の標準中国語の音節をランク付けし、1つの標準中国語の音節aのランクが1つの音声セグメンテーションを行った後の音節が対応す
る標準中国語の音節bよりも高いとき、標準中国語の音節aは混同音である。例えば、1つの音声セグメンテーションを行った後の音節が対応する標準中国語の音節が「re(熱)」であり、「le(樂)」のランクが「re(熱)」よりも高いとき、「re(熱)」と「le(樂)」とを学習者が混同していると判断し、混同音である「le(樂)」を探し出すことができる。そして、このランクを基に混同音が生成されたか否かを判断することができる(ステップ140)。続いて、混同音認識ネットワーク内に混同音を加える(ステップ150)。図2Aの状態220に示すように、この際、混同音「le(樂)」が加えられるため、混同音認識ネットワーク内には他のルートが増やされる。続いて、混同音の生成が無くなるまで、ステップ120、130、140を繰り返し、混同音の生成が無くなった時に停止し、これまでに生成された混同音を混同音設定ファイルへ出力する(ステップ160)。
混同音「le(樂)」が混同音認識ネットワークに加えられるため、再びステップ120において音声セグメンテーションが繰り返されると、ルートが「qu−nian−xia−tian−re−si−le」となり、音声セグメンテーションの結果がさらに正確となる。この時、音声セグメンテーションの結果が変動し、その他の混同音が再び生成される可能性がある。その場合は音声セグメンテーションの結果と、中国語音声モデルとを再び比較し、新しい混同音が生成されたか否かを判断する。図2Cを参照する。図2Cは、本発明の一実施形態による音声セグメンテーションの結果を示す模式図である。状態270は、1回目の音声セグメンテーションを行った結果を示し、状態280は、2回目の音声セグメンテーションを行った結果を示す。
図1Bおよび図2Bを参照する。図1Bは、本発明の一実施形態による混同音の検知方法を示す流れ図である。図2Bは、本発明の一実施形態による混同音の検知段階時のルートを示す模式図である。この検知段階では、まず、学習者が中国語語句を読み上げ(ステップ170)、混同音認識ネットワークを介し、ビタビ復号演算のフォースアライメントを利用し、この中国語語句のアライメントを行う(ステップ175)。混同音認識ネットワークは、生成段階で出力される混同音設定ファイルを基に構築され、中国語を非母国語とする学習者がよく発話する混同音をカバーしている。図2Bの状態240に示すように、「qu−nian−xia−tian−re−si−le(去年夏天熱死了)」の混同音認識ネットワークには、混同音「niang」、「tiang」および「le」が含まれている。その後、中国語語句の最適ルートを得る(ステップ180)。図2Bの状態250に示すように、学習者が読み上げた中国語語句のルートである「qu−niang−xia−tiang−le−si−le」を認識する。最後に、最適ルートと、標準ルートとを比較して間違った発音を探し出すとともに、リアルタイムで音声を矯正し(ステップ185)、例文中の「nian」が「niang」に、「tian」が「tiang」に、「re」が「le」に読み違えていることを学習者に知らせ、中国語語句の評価を行う。
図3Aを参照する。図3Aは、本発明の一実施形態による混同音の生成システムのアーキテクチャを示すブロック図である。混同音の生成システムには、中国語の言語データを保存する中国語の音声ファイル310と、中国語の言語データを認識する混同音認識ネットワーク320と、411個の標準中国語の音節を提供する、隠れマルコフモデルである中国語の音声モデル330と、生成される混同音全てを保存する混同音設定ファイル340と、中国語の言語データをセグメント化する音声分割モジュール350と、混同音を生成して計算モジュール362およびランクモジュール364を含む混同音生成モジュール360とが含まれる。
中国語の音声ファイル310には、大量の中国語学習者の言語データ(よく使われる中国語音節をカバーされてることが好ましい。)が保存され、中国語の言語データが中国語
の音声ファイル310から入力されると、音声分割モジュール350が言語データのセグメント化を行い、ビタビ復号演算のフォースアライメントを利用し、混同音認識ネットワーク320により最適ルートを認識して中国語の言語データをセグメント化し、音声セグメンテーションを行った後に各音節の開始時間および終了時間を知ることができる。混同音認識ネットワーク320には、開始時に中国語の言語データの標準音声内容である標準ルートが含まれる。混同音生成モジュール360中で、計算モジュール362が音声セグメンテーションを行った後の各音節と、中国語の音声モデル330の411個の標準中国語の音節とを比較してログ確率を計算した後に、ランクモジュール364がログ確率の高低を基に、標準中国語の音節をランク付けする。1つの標準中国語の音節aのランクが1つの音声セグメンテーション後の音節が対応する標準中国語の音節bよりも高いとき、標準中国語の音節aは混合音であり、学習者がbをaと混同して混同音が生成されると、この混同音は混同音認識ネットワーク320に加えられる。また、混同音が生成されない時は停止し、これまでに生成された混同音の全てが混同音設定ファイル340に出力される。混同音生成モジュール360に混同音が生成されると、音声分割モジュール350は、混同音認識ネットワーク320を介して1本の新たな最適ルートを認識した後に、中国語の言語データをセグメント化し、新たな音声セグメンテーションの結果を得る。同時に新たな音声セグメンテーションの結果を混同音生成モジュール360へ出力し、混同音が生成されたか否かを判断する。
図3Bを参照する。図3Bは、本発明の一実施形態による混同音の検知システムのアーキテクチャを示すブロック図である。この検知システムには、学習者が読み上げた中国語語句を認識する混同音認識ネットワーク370と、中国語語句の最適ルートを決定するルート認識モジュール380と、リアルタイムで音声の矯正を行う音声矯正モジュール385と、が含まれる。
生成システムは、外国人が中国語を学習するときによく発話する混同音を探し出し、混同音設定ファイルへ出力する。そして、この混同音設定ファイルを基に、混同音認識ネットワーク370を構築する。学習者が読み上げた中国語語句を入力した後、ルート認識モジュール380は混同音認識ネットワーク370を介し、ビタビ復号演算のフォースアライメントを利用し、中国語語句の最適ルートを得る。音声矯正モジュール385は、最適ルートと、標準ルートとを比較し、間違った発音を探し出し、リアルタイムで音声を矯正して中国語語句の評価を行う。
本実施形態は、混同音を反復法により繰り返し探し出し、混同音認識ネットワークへ加え、音声セグメンテーションの正確性および評価の客観性を徐々に高める。本発明の好適な実施形態から分かるように、この中国語発音の混同音の生成および検知の方法およびシステムは、学習者の間違った発音パターンを分析し、学習者にどの発音が間違ったかを知らせて矯正を行う。このように、矯正を有効的に行って学習者の学習効果を高めることができる。
本発明では好適な実施形態を前述の通り開示したが、これらは決して本発明を限定するものではなく、当該技術を熟知するものなら誰でも、本発明の主旨と領域を脱しない範囲内で各種の変更や修正を加えることができる。従って本発明の保護の範囲は、特許請求の範囲で指定した内容を基準とする。
本発明の一実施形態による混同音の生成方法を示す流れ図である。 本発明の一実施形態による混同音の検知方法を示す流れ図である。 本発明の一実施形態による混同音の生成段階時の混同音認識ネットワークを示す模式図である。 本発明の一実施形態による混同音の検知段階時のルートを示す模式図である。 本発明の一実施形態による音声セグメンテーションの結果を示す模式図である。 本発明の一実施形態による混同音の生成システムのアーキテクチャを示すブロック図である。 本発明の一実施形態による混同音の検知システムのアーキテクチャを示すブロック図である。
240:混同音認識ネットワーク
250:最適ルート
270:第1の音声セグメンテーションの結果
280:第2の音声セグメンテーションの結果
310:中国語の音声ファイル
320:混同音認識ネットワーク
330:中国語の音声モデル
340:混同音設定ファイル
350:音声分割モジュール
360:混同音生成モジュール
362:計算モジュール
364:ランクモジュール
370:混同音認識ネットワーク
380:ルート認識モジュール
385:音声矯正モジュール

Claims (18)

  1. 生成段階および検知段階を含む、コンピュータによって実行される混同音の生成および検知の方法であって、
    前記コンピュータは、中国語の音声ファイル、混同音認識ネットワーク、中国語の音声モデル、混同音設定ファイル、音声分割モジュール、混同音生成モジュール、ルート認識モジュール、音声矯正モジュールを備え、
    前記生成段階は、
    (a)前記中国語の音声ファイルから中国語の言語データが入力されるステップと、
    (b)前記音声分割モジュールによって実行されるステップであって、ビタビ復号演算のフォースアライメントを利用し、前記混同音認識ネットワークにより最適ルートを認識し、前記中国語の言語データをセグメント化し、複数の音節である音声セグメンテーションの結果を得るステップと、を含み、
    さらに、前記混同音生成モジュールによって実行される(c)、(d)、(e)、(f)のステップであって、
    (c)前記音声セグメンテーションの結果と、複数の標準中国語の音節が含まれる前記中国語の音声モデルとを比較するステップと、
    (d)前記混同音が生成されたか否かを判断するステップと、
    (e)前記混同音が生成された時に、前記混同音が前記混同音認識ネットワークに入力され、ステップ(b)、(c)および(d)を繰り返すステップと、
    (f)前記混同音が生成されない時に停止し、これまでに生成された前記混同音の全てを前記混同音設定ファイルへ出力するステップと、を含み、
    前記検知段階は、
    (g)前記ルート認識モジュールによって実行されるステップであって、学習者が読み上げた中国語語句が入力された後に、前記混同音認識ネットワークによりアライメントを行い、前記中国語語句の最適ルートを決定するステップと、
    (h)前記音声矯正モジュールによって実行されるステップであって、前記最適ルートと、標準ルートとを比較し、リアルタイムで音声の矯正を行うステップと、を含み、
    前記混同音認識ネットワークは、前記生成段階に出力される前記混同音設定ファイルを基に構築されることを特徴とする混同音の生成および検知の方法。
  2. 前記中国語の音声モデルは隠れマルコフモデルであることを特徴とする請求項1に記載
    の混同音の生成および検知の方法。
  3. 前記中国語の音声モデルは、411個の前記標準中国語の音節を含むことを特徴とする請求項1に記載の混同音の生成および検知の方法。
  4. 前記混同音認識ネットワークは、開始時に前記中国語の言語データの標準音声内容である前記標準ルートを含むことを特徴とする請求項1に記載の混同音の生成および検知の方法。
  5. 前記ステップ(c)は、
    各前記複数の音節と、前記複数の標準中国語の音節の全てとを比較し、複数のログ確率を計算するステップと、
    前記複数のログ確率の高低を基に、前記複数の標準中国語の音節をランク付けするステップと、
    前記複数の標準中国語の音節が存在し、前記複数の標準中国語の音節のランクが各前記複数の音節が対応する前記複数の標準中国語の音節よりも高い時に、前記複数の標準中国語の音節が混同音であると判断するステップと、含むことを特徴とする請求項1に記載の混同音の生成および検知の方法。
  6. 前記混同音を反復法により繰り返し探し出し、前記混同音認識ネットワークに入力することを特徴とする請求項1に記載の混同音の生成および検知の方法。
  7. 生成システムおよび検知システムを備える混同音の生成および検知のシステムであって、
    前記生成システムは、
    中国語の言語データを認識する混同音認識ネットワークと、
    複数の標準中国語の音節を提供する中国語の音声モデルと、
    生成された混同音全てを保存する混同音設定ファイルと、
    前記中国語の言語データを入力し、ビタビ復号演算のフォースアライメントを利用し、前記混同音認識ネットワークにより最適ルートを認識し、前記中国語の言語データをセグメント化し、複数の音節である音声セグメンテーションの結果を得る音声分割モジュールと、
    前記音声セグメンテーションの結果と、前記中国語の音声モデルとを比較し、前記混同音が生成されたか否かを判断し、前記混同音が生成された時に、前記混同音が前記混同音認識ネットワークに入力され、前記混同音が生成されない時に停止し、これまでに生成された前記混同音の全てを前記混同音設定ファイルへ出力する混同音生成モジュールと、を備え、
    前記混同音生成モジュールに前記混同音が生成されると、前記音声分割モジュールが前記混同音認識ネットワークにより新しい最適ルートを認識してから前記中国語の言語データをセグメント化し、新しい音声セグメンテーションの結果を得るとともに、前記新しい音声セグメンテーションの結果を前記混同音生成モジュールへ出力し、前記混同音が生成されたか否かを判断し、
    前記検知システムは、
    学習者が読み上げた中国語語句を認識し、前記生成システムから出力される前記混同音設定ファイルを基に構築された前記混同音認識ネットワークと、
    ビタビ復号演算のフォースアライメントを利用し、前記中国語語句の最適ルートを決定するルート認識モジュールと、
    リアルタイムで音声の矯正を行う音声矯正モジュールと、を備えることを特徴とする混同音の生成および検知のシステム。
  8. 前記中国語の音声モデルは隠れマルコフモデルであることを特徴とする請求項7に記載の混同音の生成および検知のシステム。
  9. 前記中国語の音声モデルは、411個の前記標準中国語の音節を含むことを特徴とする請求項7に記載の混同音の生成および検知のシステム。
  10. 前記混同音認識ネットワークは、開始時に前記中国語の言語データの標準音声内容である標準ルートを含むことを特徴とする請求項7に記載の混同音の生成および検知のシステム。
  11. 前記混同音生成モジュールは、
    各前記複数の音節と、前記複数の標準中国語の音節の全てとを比較し、複数のログ確率を計算する計算モジュールと、
    前記複数のログ確率の高低を基に、前記複数の標準中国語の音節をランク付けし、前記複数の標準中国語の音節が存在し、前記複数の標準中国語の音節のランクが各前記複数の音節の対応する前記複数の標準中国語の音節よりも高い時に、前記複数の標準中国語の音節が混同音であると判断するランクモジュールと、を備えることを特徴とする請求項7に記載の混同音の生成および検知のシステム。
  12. 前記混同音を反復法により繰り返し探し出し、前記混同音認識ネットワークに入力することを特徴とする請求項7に記載の混同音の生成および検知のシステム。
  13. 混同音の生成および検知を実行する生成段階および検知段階をコンピュータに実行させるプログラムを記録したコンピュータにより読み取り可能な記録媒体であって、
    前記コンピュータは、中国語の音声ファイル、混同音認識ネットワーク、中国語の音声モデル、混同音設定ファイル、音声分割モジュール、混同音生成モジュール、ルート認識モジュール、音声矯正モジュールを備え、
    前記生成段階は、
    (a)前記中国語の音声ファイルから中国語の言語データが入力されるステップと、
    (b)前記音声分割モジュールによって実行されるステップであって、ビタビ復号演算のフォースアライメントを利用し、前記混同音認識ネットワークにより最適ルートを認識し、前記中国語の言語データをセグメント化し、複数の音節である音声セグメンテーションの結果を得るステップと、を含み、
    さらに、前記混同音生成モジュールによって実行される(c)、(d)、(e)、(f)のステップであって、
    (c)前記音声セグメンテーションの結果と、複数の標準中国語の音節が含まれる前記中国語の音声モデルとを比較するステップと、
    (d)前記混同音が生成されたか否かを判断するステップと、
    (e)前記混同音が生成された時に、前記混同音が前記混同音認識ネットワークに入力され、ステップ(b)、(c)および(d)を繰り返すステップと、
    (f)前記混同音が生成されない時に停止し、これまでに生成された前記混同音の全てを前記混同音設定ファイルへ出力するステップと、を含み、
    前記検知段階は、
    (g)前記ルート認識モジュールによって実行されるステップであって、学習者が読み上げた中国語語句が入力された後に、前記混同音認識ネットワークによりアライメントを行い、前記中国語語句の最適ルートを決定するステップと、
    (h)前記音声矯正モジュールによって実行されるステップであって、前記最適ルートと、標準ルートとを比較し、リアルタイムで音声の矯正を行うステップと、を含み、
    前記混同音認識ネットワークは、前記生成段階に出力される前記混同音設定ファイルを基に構築されることを特徴とする記録媒体。
  14. 前記中国語の音声モデルは隠れマルコフモデルであることを特徴とする請求項13に記載の記録媒体。
  15. 前記中国語の音声モデルは、411個の前記標準中国語の音節を含むことを特徴とする請求項13に記載の記録媒体。
  16. 前記混同音認識ネットワークは、開始時に前記中国語の言語データの標準音声内容である前記標準ルートを含むことを特徴とする請求項13に記載の記録媒体。
  17. 前記ステップ(c)は、
    各前記複数の音節と、前記複数の標準中国語の音節の全てとを比較し、複数のログ確率を計算するステップと、
    前記複数のログ確率の高低を基に、前記複数の標準中国語の音節をランク付けするステップと、
    前記複数の標準中国語の音節が存在する時に、前記複数の標準中国語の音節のランクが各前記複数の音節が対応する前記複数の標準中国語の音節よりも高い時に、前記複数の標準中国語の音節が前記混同音であると判断するステップと、含むことを特徴とする請求項13に記載の記録媒体。
  18. 前記混同音を反復法により繰り返し探し出し、前記混同音認識ネットワークに入力することを特徴とする請求項13に記載の記録媒体。
JP2008021153A 2007-12-11 2008-01-31 混同音の生成および検知の方法およびシステム Active JP4778008B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW096147276 2007-12-11
TW096147276A TW200926140A (en) 2007-12-11 2007-12-11 Method and system of generating and detecting confusion phones of pronunciation

Publications (2)

Publication Number Publication Date
JP2009145853A JP2009145853A (ja) 2009-07-02
JP4778008B2 true JP4778008B2 (ja) 2011-09-21

Family

ID=40722538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008021153A Active JP4778008B2 (ja) 2007-12-11 2008-01-31 混同音の生成および検知の方法およびシステム

Country Status (3)

Country Link
US (1) US7996209B2 (ja)
JP (1) JP4778008B2 (ja)
TW (1) TW200926140A (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI336880B (en) * 2007-06-11 2011-02-01 Univ Nat Taiwan Voice processing methods and systems, and machine readable medium thereof
US8180641B2 (en) * 2008-09-29 2012-05-15 Microsoft Corporation Sequential speech recognition with two unequal ASR systems
KR101217524B1 (ko) * 2008-12-22 2013-01-18 한국전자통신연구원 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치
CN102163428A (zh) * 2011-01-19 2011-08-24 无敌科技(西安)有限公司 汉语发音判断方法
CN103065633B (zh) * 2012-12-27 2015-01-14 安徽科大讯飞信息科技股份有限公司 一种语音识别解码效率优化方法
US9317499B2 (en) * 2013-04-11 2016-04-19 International Business Machines Corporation Optimizing generation of a regular expression
JP6596924B2 (ja) * 2014-05-29 2019-10-30 日本電気株式会社 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム
GB201706078D0 (en) 2017-04-18 2017-05-31 Univ Oxford Innovation Ltd System and method for automatic speech analysis
JP6840858B2 (ja) * 2017-09-26 2021-03-10 日本電信電話株式会社 発音誤り検出装置、発音誤り検出方法、プログラム
CN107895578B (zh) * 2017-11-15 2021-07-20 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN109994106B (zh) * 2017-12-29 2023-06-23 阿里巴巴集团控股有限公司 一种语音处理方法及设备
EP3544001B8 (en) * 2018-03-23 2022-01-12 Articulate.XYZ Ltd Processing speech-to-text transcriptions
US11043213B2 (en) * 2018-12-07 2021-06-22 Soundhound, Inc. System and method for detection and correction of incorrectly pronounced words
CN111951825A (zh) * 2019-05-16 2020-11-17 上海流利说信息技术有限公司 一种发音测评方法、介质、装置和计算设备
CN111128172B (zh) * 2019-12-31 2022-12-16 达闼机器人股份有限公司 一种语音识别方法、电子设备和存储介质
CN111862958B (zh) * 2020-08-07 2024-04-02 广州视琨电子科技有限公司 发音***错误检测方法、装置、电子设备及存储介质
CN111862960B (zh) * 2020-08-07 2024-04-30 广州视琨电子科技有限公司 发音错误检测方法、装置、电子设备及存储介质
CN111862959B (zh) * 2020-08-07 2024-04-19 广州视琨电子科技有限公司 发音错误检测方法、装置、电子设备及存储介质
CN112967711B (zh) * 2021-02-02 2022-04-01 早道(大连)教育科技有限公司 一种针对小语种口语发音评价方法、***及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4500872A (en) * 1982-03-18 1985-02-19 Dai-E Systems, Inc. Method for encoding Chinese characters
US5751905A (en) * 1995-03-15 1998-05-12 International Business Machines Corporation Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system
JP2001166789A (ja) * 1999-12-10 2001-06-22 Matsushita Electric Ind Co Ltd 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
US20060074664A1 (en) * 2000-01-10 2006-04-06 Lam Kwok L System and method for utterance verification of chinese long and short keywords
JP2004334164A (ja) * 2002-10-24 2004-11-25 Toshimasa Ishihara 英語の音素「l」及び「r」の発音及び識別学習装置
TW200506764A (en) 2003-08-05 2005-02-16 Wen-Fu Peng Interactive language learning method with speech recognition
US7590533B2 (en) * 2004-03-10 2009-09-15 Microsoft Corporation New-word pronunciation learning using a pronunciation graph
US20070033042A1 (en) * 2005-08-03 2007-02-08 International Business Machines Corporation Speech detection fusing multi-class acoustic-phonetic, and energy features
JP2007148170A (ja) * 2005-11-29 2007-06-14 Cai Media Kyodo Kaihatsu:Kk 外国語学習支援システム

Also Published As

Publication number Publication date
US7996209B2 (en) 2011-08-09
TW200926140A (en) 2009-06-16
US20090150154A1 (en) 2009-06-11
JP2009145853A (ja) 2009-07-02

Similar Documents

Publication Publication Date Title
JP4778008B2 (ja) 混同音の生成および検知の方法およびシステム
US8019602B2 (en) Automatic speech recognition learning using user corrections
US8818813B2 (en) Methods and system for grammar fitness evaluation as speech recognition error predictor
Tachbelie et al. Using different acoustic, lexical and language modeling units for ASR of an under-resourced language–Amharic
CN109979484B (zh) 发音检错方法、装置、电子设备及存储介质
JP2015026057A (ja) インタラクティブキャラクター基盤の外国語学習装置及び方法
Qian et al. Capturing L2 segmental mispronunciations with joint-sequence models in computer-aided pronunciation training (CAPT)
US20140205974A1 (en) Statistical machine translation framework for modeling phonological errors in computer assisted pronunciation training system
CN110930993A (zh) 特定领域语言模型生成方法及语音数据标注***
JP2011002656A (ja) 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
CN112331229B (zh) 语音检测方法、装置、介质和计算设备
CN112489626A (zh) 一种信息识别方法、装置及存储介质
US20220199071A1 (en) Systems and Methods for Speech Validation
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
Tanaka et al. Neural speech-to-text language models for rescoring hypotheses of dnn-hmm hybrid automatic speech recognition systems
CN114386399A (zh) 一种文本纠错方法及装置
CN112530405B (zh) 一种端到端语音合成纠错方法、***及装置
CN113822052A (zh) 一种文本错误检测方法、装置、电子设备及存储介质
CN111508522A (zh) 一种语句分析处理方法及***
CN111128181B (zh) 背诵题评测方法、装置以及设备
CN114203158A (zh) 一种儿童中文口语评测和检错纠错方法及装置
Baranwal et al. Improved Mispronunciation detection system using a hybrid CTC-ATT based approach for L2 English speakers
US11341961B2 (en) Multi-lingual speech recognition and theme-semanteme analysis method and device
KR102374405B1 (ko) Ai 면접 환경에서의 음성 인식 후처리 장치 및 방법
TWI731493B (zh) 多語語音辨識及主題語意分析方法與裝置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110607

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110630

R150 Certificate of patent or registration of utility model

Ref document number: 4778008

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140708

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250