JP7165439B2 - ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法 - Google Patents

ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法 Download PDF

Info

Publication number
JP7165439B2
JP7165439B2 JP2021153076A JP2021153076A JP7165439B2 JP 7165439 B2 JP7165439 B2 JP 7165439B2 JP 2021153076 A JP2021153076 A JP 2021153076A JP 2021153076 A JP2021153076 A JP 2021153076A JP 7165439 B2 JP7165439 B2 JP 7165439B2
Authority
JP
Japan
Prior art keywords
language
extended
source
source language
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021153076A
Other languages
English (en)
Other versions
JP2022092568A (ja
Inventor
ウェン-シャン ル
シャオ-チャン シェン
チン-ジュイ リン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Cheng Kung University NCKU
Original Assignee
National Cheng Kung University NCKU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Cheng Kung University NCKU filed Critical National Cheng Kung University NCKU
Publication of JP2022092568A publication Critical patent/JP2022092568A/ja
Application granted granted Critical
Publication of JP7165439B2 publication Critical patent/JP7165439B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本開示は、音声認識モデル(speech recognition model)をトレーニングする方法に関し、より詳細には、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法に関するものである。
技術の発展に伴い、電子製品に音声ユーザインターフェースが追加され、ユーザが手で操作する以外の作業を行えるようになった。
Figure 0007165439000001
本開示は、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法を提供し、これにより、新しい音声認識モデルを開発しながら拡張言語のコーパスを収集するステップを排除又は大幅に簡素化することができる。
本開示の一側面によれば、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法は、前記ソース言語の発音参照テーブル(phonetic reference table)を作成することであって、前記発音参照テーブルは、互いに対応するソース言語オーディオファイル(source language audio file)及びソース言語発音表記(source language phonetic transcription)を含むことと、前記拡張言語の拡張言語テキストファイル(extended language text file)を取得することと、表記命令(mark instruction)に従って、前記拡張言語テキストファイルに拡張言語発音表記(extended language phonetic transcription)を表記して、前記拡張言語のテキスト参照テーブルを作成することと、前記ソース言語の前記発音参照テーブルと前記拡張言語の前記テキスト参照テーブルとによって、前記拡張言語の音響モデルをトレーニングすることと、前記拡張言語の前記拡張言語テキストファイルによって、前記拡張言語の言語モデルをトレーニングすることと、を含み、前記拡張言語の前記音声認識モデルは、前記拡張言語における前記音響モデル及び前記言語モデルを含む。
上述の記述に鑑み、拡張言語の音声認識モデルは、拡張言語の音声を収集することなく、ソース言語の音声コーパスによってトレーニングされる。したがって、ソース言語の音響モデルを拡張言語、特に話者数の少ない言語に対して、転移学習(transfer learning)により低コストで使用することができ、トレーニングプロセスを簡略化してトレーニングコストを低減することができるので、拡張言語の音声認識モデルを迅速かつ容易にトレーニングすることができる。
本開示は、以下に示す詳細な説明及び添付の図面から、より完全に理解されるであろう。これらの図面は、例示のみを目的としており、したがって、本開示を制限することを意図していない。
本開示の一実施形態による、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法を適用する電子機器のブロック図である。 図1のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法のフローチャートである。 図2のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。 図3のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。 図3のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。 図2のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。 本開示の別の実施形態による、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。 本開示のさらに別の実施形態による、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。 本開示のさらに別の実施形態による、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。
以下の詳細な説明では、説明のために、開示された実施形態の完全な理解を提供するために、多数の具体的な詳細が記載されている。しかし、これらの具体的な詳細がなくても、1つ又は複数の実施形態を実施することができることは明らかであろう。他の例では、図面を簡略化するために、よく知られた構造や装置が模式的に示されている。
本実施形態は、拡張言語の音声認識モデルをソース言語の音声によってトレーニングする方法を提供し、その音声認識モデルを電子機器に適用することができる。まず、電子機器について説明する。本開示の一実施形態によるソース言語での音声によって拡張言語の音声認識モデルをトレーニングする方法を適用する電子デバイス10のブロック図である、図1を参照されたい。
電子デバイス10(例えば、コンピュータ)は、音声認識モデルをトレーニングするように構成されており、そのため、電子デバイス10は、音声認識システムとなることができ、又は、出力されて別の電子製品に適用することができる音声認識システムを作成することができるようになっている。具体的には、電子デバイス10は、演算ユニット(computing unit)100、入力ユニット200、記憶ユニット300、及び出力ユニット400を含んでもよい。演算ユニット100は、CPU(Central Processing Unit)であってもよい。入力ユニット200は、マイク、キーボード、マウス、タッチパネル、又は伝送インターフェースであってもよく、演算ユニット100と電気的に接続されている。記憶ユニット300は、ハードディスクドライブであってもよく、演算ユニット100に電気的に接続されている。出力ユニット400は、スピーカやディスプレイであってもよく、演算ユニット100に電気的に接続されている。
以下では、電子デバイス10に適用される音声認識モデルのトレーニング方法について説明する。図1のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法のフローチャートである、図2を参照されたい。
本開示では、広く使用されている言語からの複数の人の完全に確立された発音記録ファイルを含み得るソース言語オーディオファイルがある。さらに、ローマ字に基づいて広く使用されている言語からの母音及び子音の発音記号を含み得るソース言語発音表記もある。広く使われている言語は、標準中国語(Standard Mandarin)、近代英語、韓国標準語などであってもよく、以下ではソース言語と呼ぶ。
本実施形態では、ステップS101において、入力ユニット200は、演算ユニット100が記憶ユニット300にソース言語の発音参照テーブルを作成することができるように、ソース言語オーディオファイル及びソース言語発音表記を受信する。ソース言語の発音参照テーブルは、ソース言語オーディオファイル及びソース言語発音表記を含む。ソース言語発音表記は、ソース言語オーディオファイルを表現するために使用されるローマ字の配列を含んでもよい。例えば、標準中国語の「今日は天気がいい」という意味の記録では、“jin-tian-hao-tian-chi”の母音記号及び子音記号が、音声を表すために使用され、声調記号(tone letter)は使用されない。ローマ字の配列は、ソース言語の編成された音声認識システムから直接取得されてもよいし、演算ユニット100が作成されてもよく、本開示はこれに限定されるものではない。
Figure 0007165439000002
Figure 0007165439000003
ステップS104において、演算ユニット100は、ソース言語の発音参照テーブルと拡張言語のテキスト参照テーブルとによって、拡張言語の音響モデルをトレーニングする。音響モデルとは、録音された音声が1つ以上の特定の音素列に属する確率と、その1つ以上の特定の音素列が言語における1つ以上の特定の記号列に対応する確率を含むものとみなすことができる。
具体的には、図2のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである、図3を参照されたい。本実施形態及びいくつかの実施形態では、ステップS1041において、演算ユニット100は、ソース言語オーディオファイルからケプストラム特徴(cepstrum feature)を抽出する。ステップS1042において、演算ユニット100は、ソース言語オーディオファイルの3フレームごとに演算処理を行い、その混合ガウスモデル(Gaussian mixture model)を得る。各フレームは、20ミリ秒である。ステップS1043において、演算ユニット100は、混合ガウスモデルに従って、ソース言語オーディオファイルの各フレームに対して音素アライメントを行い、ソース言語オーディオファイルの各フレームの各音素を抽出する。ステップS1044において、演算ユニット100は、ソース言語オーディオファイルの音素ソーティング(phoneme sorting)を、隠れマルコフモデル(Hidden Markov model)によって学習する。ステップS1045において、演算ユニット100は、ソース言語オーディオファイルの音素と、ソース言語におけるソース言語発音表記の記号との対応関係を取得する。なお、ステップS1041~ステップS1045は、拡張言語の音響モデルをトレーニングする際の例示であり、本開示を限定するものではない。他のいくつかの実施形態では、拡張言語の音響モデルをトレーニングするための別のモデルや態様があってもよい。
一般的に、ソース言語のオーディオファイルの音素とソース言語発音表記の記号との間の対応関係は、一対一の対応関係であることが望ましい。しかし、言語は異なる方法でローマ字化されることがある。例えば、標準中国語の「凹面(concave)」の意味を持つ単語は、“ao”や“au”とローマ字表記されることがある。このような場合には、上述の対応関係は一対多の対応関係に変更されてもよい。代わりに、上述のステップにおいて、ソース言語オーディオファイル及び拡張言語テキストファイルを表現するために使用される母音記号及び子音記号は、表記の変換による差異を少なくするために、ローマ字ではなく国際音声記号(IPA:International Phonetic Alphabet)に基づいていてもよい。
さらに、いくつかの言語では、発音の際に、ある単語の最後の子音(音節の末尾子音:syllable coda)が次の単語の最初の母音につながることがある。例えば、近代英語の“hold on”は“hol-don”と発音され、韓国標準語の“da-eum-e”(意味:次回)は“da-eu-me”又は“da-eum-me”と発音されることがある。これについて、演算ユニット100は、ソース言語オーディオファイルの音素ソーティング(phoneme sorting)を学習することで、近代英語の記録音声が“hold-on”及び“hol-don”の記号に対応する確率や、韓国標準語の別の記録音声が“da-eum-e”、“da-eu-me”及び“da-eum-me”の記号に対応する確率を決定することができる。
ステップS1046において、演算ユニット100は、拡張言語の拡張言語発音表記がソース言語のソース言語発音表記と同一であるか否かに応じて、拡張言語発音表記における記号列がソース言語オーディオファイルの音素列に対応する確率を決定する。
Figure 0007165439000004
Figure 0007165439000005
Figure 0007165439000006
Figure 0007165439000007
Figure 0007165439000008
場合によっては、拡張言語には、ソース言語には含まれない発音があるので、演算ユニット100は、拡張言語の拡張言語発音表記におけるこの発音に対応する母音又は子音が、ソース言語のソース言語オーディオファイルの中の音素に対応するソース言語発音表記の中の記号の全てと異なると決定する。この母音又はこの子音を、以下、特殊記号(special symbol)と呼ぶ。例えば、台湾客家語の"f"の発音は、韓国標準語には含まれていないので、"f"の記号を特殊記号とする。ステップS1047dでは、演算ユニット100は、特殊記号が、ソース言語のソース言語オーディオファイルにおける少なくとも1つの類似音素に近似していると決定する。例えば、演算ユニット100は、台湾客家語の「f」の発音が、韓国標準語の「p」の発音に近似していると決定することができる。そして、演算ユニット100は、特殊音素(special phoneme)と少なくとも1つの類似音素(similar phoneme)との間のファジー関係(fuzzy relationship)を含むファジー音素セット(fuzzy phoneme set)を記憶ユニット300に出力して、ファジー関係を記憶ユニット300に記憶させる。
演算ユニット100は、記憶ユニット300に格納されているソース言語の音素と拡張言語の記号との間の等価な、近似的な、又はファジーな関係を通じて、拡張言語の音響モデルをトレーニングすることができるので、演算ユニット100は、拡張言語からの各記録の音声がソース言語からの1つ又は複数の特定の音素列に属し、したがって、拡張言語からの1つ又は複数の対応する特定の記号列に属する確率を決定することができる。
続いて、図2を参照されたい。本実施形態では、ステップS105において、演算ユニット100は、拡張言語の拡張言語テキストファイルによって、拡張言語の言語モデルをトレーニングする。言語モデルとは、ある言語において、単語が意味のある慣用句を形成する確率を含むものとみなすことができる。
具体的には、図2のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである、図5を参照されたい。本実施形態及び一部の実施形態では、ステップS1051において、入力ユニット200は、演算ユニット100が拡張言語の拡張言語テキストファイルに対してテキストセグメンテーション(text segmentation)を実行することができるように、意味解釈命令(semantic interpretation instruction)を受信する。意味解釈命令は、コーパスシステム(図示せず)によって生成されてもよい。ステップS1052において、演算ユニット100は、拡張言語の文法及び構文(syntax)を取得するように、拡張言語テキストファイル内の単語間の文脈的関係を決定し、単語間の文脈的関係は、単語の1つが単語の他の1つの前又は後に存在する確率(すなわち、単語の文法的な配置)を含んでもよい。
続いて、図2を参照されたい。本実施形態では、演算ユニット100は、音響モデルのトレーニングのステップS104において、拡張言語からの各レコードの音声が、ソース言語からの1つ以上の特定の音素列に属し、それに対応して拡張言語からの1つ以上の特定の記号列に属する確率を既に決定しており、また、演算ユニット100は、言語モデルのトレーニングのステップS105において、拡張言語の文法及び構文を既に取得している。このように、ステップS106において、演算ユニット100は、拡張言語の音響モデルと拡張言語の言語モデルとを用いて、拡張言語の音声認識モデルを作成することができる。より詳細には、演算ユニット100は、拡張言語の音響モデルと拡張言語の言語モデルとを組み合わせて、拡張言語の音声認識モデルを作成してもよい。つまり、拡張言語の音声認識モデルは、拡張言語における音響モデル及び言語モデルを含む。したがって、入力ユニット200が拡張言語の音声記録を受信すると、演算ユニット100は、音響モデルを通じて、音声記録が1つ以上の記号列に属することを決定し、さらに、1つ以上の記号列が単語列に属することを音声認識結果として決定することができるので、演算ユニット100は、音声認識結果を出力ユニット400に送信して、音声認識結果を表示することができる。
上述のステップでは、拡張言語の音声を収集することなく、ソース言語の音声コーパスによって拡張言語の音声認識モデルをトレーニングすることができる。したがって、ソース言語の音響モデルを拡張言語、特に話者数の少ない言語に対して、転移学習により低コストで使用することができ、トレーニングプロセスを簡略化してトレーニングコストを低減することができるので、拡張言語の音声認識モデルを迅速かつ容易にトレーニングすることができる。
さらに、演算ユニット100が、複数の言語(ソース言語と拡張言語、又は拡張言語と別の拡張言語)の音声認識モデルをトレーニングするために、単一の言語(ソース言語)の音響モデルのみを使用する機能を実現できるように、ソース言語又は別の拡張言語の言語モデルを記憶ユニット300に含めることもできる。
本開示の別の実施形態による、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである、図6を参照されたい。ステップS111aにおいて、入力ユニット200は、拡張言語の音声記録を音声認識モデルに入力するが、音声記録は、例えば、拡張言語の音声コーパスからのものであってもよく、ソース言語のソース言語オーディオファイルに含まれていない特殊音素を含んでもよい。そして、ステップS112aにおいて、演算ユニット100は、拡張言語の特殊音素が、ソース言語のソース言語オーディオファイルにおける少なくとも1つの類似音素に近似していると決定する。例えば、演算ユニット100は、台湾客家語の「f」が韓国標準語の「p」に近似していると決定する。ステップS113aにおいて、演算ユニット100は、ファジー音素セットを記憶ユニット300に出力して、ファジー音素セットを記憶ユニット300に格納し、ファジー音素セットは、特殊音素(例えば、「f」)と、少なくとも1つの類似音素(例えば、「p」)との間のファジー関係を含んでいる。ステップS114aでは、演算ユニット100は、ファジー音素セットにしたがって、拡張言語の追加音響モデル(extra acoustic model)を作成する。そして、演算ユニット100は、追加音響モデルに従って拡張言語の音声認識モデルを更新することにより、拡張言語の特殊な発音がソース言語に含まれておらず、その対応する特殊な記号がステップS102で取得した拡張言語テキストファイルに含まれていないことに起因する音声誤認識の可能性を低減することができる。
本開示のさらに別の実施形態による、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである、図7を参照されたい。ステップS111bにおいて、入力ユニット200は、演算ユニット100が音声記録を追加オーディオファイル(extra audio file)として記憶ユニット300に記録及び格納することができるように、拡張言語の音声記録を受信する。追加オーディオファイルは、例えば、拡張言語の音声コーパスからのものであってもよく、ソース言語のソース言語オーディオファイルに含まれない特殊音素を含むことができる。例えば、入力ユニット200は、韓国標準語の“f”の発音がないことに対応する追加の音声ファイルとして、台湾客家語の“f”の発音を含む音声記録を受信する。次に、ステップS112bにおいて、入力ユニット200は、演算ユニット100が追加オーディオファイルを発音記号(phonetic symbol)で表記することができるような、別の表記命令を受信する。別の表記命令は、音素認識システム(図示せず)によって生成されてもよい。ステップS113bにおいて、演算ユニット100は、追加オーディオファイル内の特殊音素と、その特殊音素に対応する発音記号とに従って、拡張言語の追加発音参照テーブル(extra phonetic reference table)を作成する。ステップS114bでは、演算ユニット100は、追加発音参照テーブルと拡張言語のテキスト参照テーブルとに従って、拡張言語の追加音響モデルを作成する。そして、演算ユニット100は、拡張言語の音声認識モデルを、追加音響モデルに従って更新することにより、音声認識モデルが、記録された特殊音素を使用して、音声のご認識を考慮して音声の誤認識の可能性を低減することができるようになる。
さらに、本開示のさらに別の実施形態による、ソース言語の音声による拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである、図8を参照されたい。ステップS111cにおいて、入力ユニット200は、拡張言語の音声記録を音声認識モデルに入力する。次に、ステップS112cにおいて、演算ユニット100は、音声記録における同一の音節列の出現回数をカウントする。同一の音節列は、拡張言語の拡張言語テキストファイルのどの部分にも対応していない。例えば、技術の発展により新しい語彙が生まれることがあり、その新しい語彙は、拡張言語の拡張言語テキストファイルのどの部分にも対応していない音節列とみなすことができる。ステップS113cにおいて、演算ユニット100が、音声記録中の同一の音節列(例えば、新しい語彙)の出現回数が閾値を超えたと決定した場合、ステップS114cが実行される。ステップS114cでは、演算ユニット100は、同一音節列に対応する拡張言語の1つ以上のテキスト列を、各音節又は音素によって形成し、1つ以上のテキスト列に含まれる単語間の文脈的関係に応じて、拡張言語の追加言語モデルを作成する。そして、演算ユニット100は、拡張言語の音声認識モデルを追加言語モデルにしたがって更新することにより、拡張言語における新しい語彙を含む音声を受信したときの音声認識モデルの認識効率を向上させることができる。
上述の記載に鑑みると、拡張言語の音声を収集することなく、ソース言語の音声コーパスによって拡張言語の音声認識モデルをトレーニングすることができる。したがって、ソース言語の音響モデルを拡張言語、特に話者数の少ない言語に対して、転移学習により低コストで使用することができ、トレーニングプロセスを簡略化し、トレーニングコストを低減することができるので、拡張言語の音声認識モデルを迅速かつ容易にトレーニングすることができる。
実施形態は、当業者が企図されている特定の使用に適した様々な変更を伴う本開示及び様々な実施形態を最もよく利用することができるように、本開示の原理及びその実用的な応用を最もよく説明するために選択され、説明されている。本開示の範囲は、以下の請求項及びその均等物によって定義されることが意図されている。

Claims (13)

  1. ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
    前記ソース言語の発音参照テーブルを作成することであって、前記発音参照テーブルは、互いに対応するソース言語オーディオファイル及びソース言語発音表記を含む、ことと、
    前記拡張言語の拡張言語テキストファイルを取得することと、
    表記命令に従って、前記拡張言語テキストファイルに拡張言語発音表記を表記して、前記拡張言語のテキスト参照テーブルを作成することと、
    前記ソース言語の前記発音参照テーブルと前記拡張言語の前記テキスト参照テーブルとによって、前記拡張言語の音響モデルをトレーニングすることと、
    前記拡張言語の前記拡張言語テキストファイルによって、前記拡張言語の言語モデルをトレーニングすることと、
    を含み、
    前記拡張言語の音響モデルをトレーニングすることは、
    前記ソース言語における前記ソース言語オーディオファイルに含まれる音素と前記ソース言語発音表記に含まれる記号との関係を取得することと、
    前記拡張言語の前記拡張言語発音表記が前記ソース言語の前記ソース言語発音表記と同一であるか否かに応じて、前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することと、
    を含み、
    前記拡張言語の前記音声認識モデルは、前記拡張言語における前記音響モデル及び前記言語モデルを含む、方法。
  2. 請求項に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
    前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することは、
    前記拡張言語の前記拡張言語発音表記における単語の記号列が、前記ソース言語の前記ソース言語オーディオファイルの記録に対応する前記ソース言語発音表記における記号列と同一である場合、前記ソース言語の前記ソース言語オーディオファイルの前記記録の音素列の各フレームが、前記拡張言語の前記拡張言語発音表記における単語の記号列に等しいと決定することと、
    前記記録の前記音素列と前記単語の前記記号列との間の等価関係を出力することと、
    含む、方法。
  3. 請求項に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
    前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することは、
    前記拡張言語の前記拡張言語発音表記における単語の一部の記号列が、前記ソース言語の前記ソース言語オーディオファイルの音節に対応する前記ソース言語発音表記における記号列と同一である場合、前記ソース言語の前記ソース言語オーディオファイルにおける前記音節の音素列の各フレームが、前記拡張言語の前記拡張言語発音表記における前記単語の一部の前記記号列に等しいと決定することと、
    前記音節の前記音素列と前記単語の一部の前記記号列との間の等価関係を出力することと、
    を含む、方法。
  4. 請求項に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
    前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することは、
    前記拡張言語の前記拡張言語発音表記における母音又は子音が、前記ソース言語の前記ソース言語オーディオファイルにおける音素に対応する前記ソース言語発音表記における記号と同一である場合、前記ソース言語の前記ソース言語オーディオファイルにおける前記音素が、前記拡張言語の前記拡張言語発音表記における前記母音又は前記子音に等しいと決定することと、
    前記音素と前記母音又は前記子音との間の等価関係を出力することと、
    を含む、方法。
  5. 請求項に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
    前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することは、
    前記拡張言語の前記拡張言語発音表記における特殊記号が、前記ソース言語の前記ソース言語発音表記における任意の記号と異なる場合、前記拡張言語の前記拡張言語発音表記における前記特殊記号が、前記ソース言語の前記ソース言語オーディオファイルにおける少なくとも1つの類似音素に近似していると決定することと、
    ファジー音素セットを出力することであって、前記ファジー音素セットは、前記特殊記号と前記少なくとも1つの類似音素との間の関係を含むことと、
    を含む、方法。
  6. 請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
    前記拡張言語の言語モデルをトレーニングすることは、
    前記拡張言語の前記拡張言語テキストファイルに対してテキストセグメンテーションを実行することと、
    前記拡張言語テキストファイルにおける単語間の文脈的関係を決定することと、
    を含む、方法。
  7. 請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、さらに、
    前記拡張言語の音声記録を前記音声認識モデルに入力することであって、前記音声記録は、前記ソース言語の前記ソース言語オーディオファイルに含まれていない特殊音素を含むことと、
    前記特殊音素が、前記ソース言語オーディオファイル内の少なくとも1つの類似音素に近似していると決定することと、
    ファジー音素セットを出力することであって、前記ファジー音素セットは、前記特殊音素と前記少なくとも1つの類似音素との間の関係を含むことと、
    前記ファジー音素セットに従って、前記拡張言語の追加音響モデルを作成することと、
    前記追加音響モデルに基づいて、前記拡張言語の前記音声認識モデルを更新することと、
    を含む、方法。
  8. 請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、さらに、
    前記拡張言語の音声記録を追加オーディオファイルとして受信することであって、前記追加オーディオファイルは、前記ソース言語の前記ソース言語オーディオファイルに含まれていない特殊音素を含むことと、
    表記命令に従って、前記追加オーディオファイルを発音記号で表記することと、
    前記特殊音素と前記特殊音素に対応する発音記号に基づいて、前記拡張言語の追加発音参照テーブルを作成することと、
    前記拡張言語における前記追加発音参照テーブルと前記テキスト参照テーブルに基づいて、前記拡張言語の追加音響モデルを作成することと、
    前記追加音響モデルに基づいて、前記拡張言語の音声認識モデルを更新することと、
    を含む、方法。
  9. 請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、さらに、
    前記拡張言語の音声記録を前記音声認識モデルに入力することと、
    前記音声記録の中における同一の音節列の出現回数をカウントすることであって、前記同一の音節列は、前記拡張言語の前記拡張言語テキストファイルのどの部分にも対応していないことと、
    前記音声記録における前記同一の音節列の出現回数が閾値を超えた場合、前記同一の音節列に対応する前記拡張言語のテキスト列を記録し、前記テキスト列に応じて追加言語モデルを作成することと、
    前記追加言語モデルに基づいて、前記拡張言語の前記音声認識モデルを更新することと、
    を含む、方法。
  10. 請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
    前記ソース言語の前記ソース言語オーディオファイルは、複数の人の発音を含む、方法。
  11. 請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
    前記ソース言語の前記発音参照テーブルを作成することは、前記ソース言語発音表記における少なくとも1つの母音と少なくとも1つの子音とを用いて、声調記号を用いることなくソース言語を表現することを含み、
    前記拡張言語テキストファイルを表記して、前記拡張言語の前記テキスト参照テーブルを作成することは、前記拡張言語発音表記における少なくとも1つの母音と少なくとも1つの子音とを用いて、声調記号を用いることなく前記拡張言語を表現することを含む、方法。
  12. 請求項11に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
    前記少なくとも1つの母音及び前記少なくとも1つの子音は、ローマ字に基づいている、方法。
  13. 請求項11に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
    前記少なくとも1つの母音及び前記少なくとも1つの子音は、国際音声記号に基づいている、方法。
JP2021153076A 2020-12-10 2021-09-21 ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法 Active JP7165439B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW109143725A TWI759003B (zh) 2020-12-10 2020-12-10 語音辨識模型的訓練方法
TW109143725 2020-12-10

Publications (2)

Publication Number Publication Date
JP2022092568A JP2022092568A (ja) 2022-06-22
JP7165439B2 true JP7165439B2 (ja) 2022-11-04

Family

ID=81710799

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021153076A Active JP7165439B2 (ja) 2020-12-10 2021-09-21 ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法

Country Status (3)

Country Link
US (1) US20220189462A1 (ja)
JP (1) JP7165439B2 (ja)
TW (1) TWI759003B (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006098994A (ja) 2004-09-30 2006-04-13 Advanced Telecommunication Research Institute International 辞書を準備する方法、音響モデルのためのトレーニングデータを準備する方法、およびコンピュータプログラム
JP2007155833A (ja) 2005-11-30 2007-06-21 Advanced Telecommunication Research Institute International 音響モデル開発装置及びコンピュータプログラム
JP2012177815A (ja) 2011-02-28 2012-09-13 National Institute Of Information & Communication Technology 音響モデル学習装置、および音響モデル学習方法
JP2015040946A (ja) 2013-08-21 2015-03-02 独立行政法人情報通信研究機構 音響モデル生成装置、音響モデル生成方法、およびプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6085160A (en) * 1998-07-10 2000-07-04 Lernout & Hauspie Speech Products N.V. Language independent speech recognition
ATE320650T1 (de) * 1999-06-30 2006-04-15 Ibm Verfahren zur erweiterung des wortschatzes eines spracherkennungssystems
US6963841B2 (en) * 2000-04-21 2005-11-08 Lessac Technology, Inc. Speech training method with alternative proper pronunciation database
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
DE10040063A1 (de) * 2000-08-16 2002-02-28 Philips Corp Intellectual Pty Verfahren zur Zuordnung von Phonemen
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US7146319B2 (en) * 2003-03-31 2006-12-05 Novauris Technologies Ltd. Phonetically based speech recognition system and method
US7289958B2 (en) * 2003-10-07 2007-10-30 Texas Instruments Incorporated Automatic language independent triphone training using a phonetic table
US20050144003A1 (en) * 2003-12-08 2005-06-30 Nokia Corporation Multi-lingual speech synthesis
US7415411B2 (en) * 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
US8498857B2 (en) * 2009-05-19 2013-07-30 Tata Consultancy Services Limited System and method for rapid prototyping of existing speech recognition solutions in different languages
CN103971678B (zh) * 2013-01-29 2015-08-12 腾讯科技(深圳)有限公司 关键词检测方法和装置
GB2533370A (en) * 2014-12-18 2016-06-22 Ibm Orthographic error correction using phonetic transcription
US9965569B2 (en) * 2015-03-13 2018-05-08 Microsoft Technology Licensing, Llc Truncated autosuggest on a touchscreen computing device
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
US10706873B2 (en) * 2015-09-18 2020-07-07 Sri International Real-time speaker state analytics platform
TWI698756B (zh) * 2018-11-08 2020-07-11 中華電信股份有限公司 查詢服務之系統與方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006098994A (ja) 2004-09-30 2006-04-13 Advanced Telecommunication Research Institute International 辞書を準備する方法、音響モデルのためのトレーニングデータを準備する方法、およびコンピュータプログラム
JP2007155833A (ja) 2005-11-30 2007-06-21 Advanced Telecommunication Research Institute International 音響モデル開発装置及びコンピュータプログラム
JP2012177815A (ja) 2011-02-28 2012-09-13 National Institute Of Information & Communication Technology 音響モデル学習装置、および音響モデル学習方法
JP2015040946A (ja) 2013-08-21 2015-03-02 独立行政法人情報通信研究機構 音響モデル生成装置、音響モデル生成方法、およびプログラム

Also Published As

Publication number Publication date
JP2022092568A (ja) 2022-06-22
US20220189462A1 (en) 2022-06-16
TW202223874A (zh) 2022-06-16
TWI759003B (zh) 2022-03-21

Similar Documents

Publication Publication Date Title
TWI532035B (zh) 語言模型的建立方法、語音辨識方法及電子裝置
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
AU2010212370B2 (en) Generic spelling mnemonics
US8498857B2 (en) System and method for rapid prototyping of existing speech recognition solutions in different languages
TWI539441B (zh) 語音辨識方法及電子裝置
TW546631B (en) Disambiguation language model
JP2001296880A (ja) 固有名の複数のもっともらしい発音を生成する方法および装置
TW201517015A (zh) 聲學模型的建立方法、語音辨識方法及其電子裝置
JP2008209717A (ja) 入力された音声を処理する装置、方法およびプログラム
TW201517018A (zh) 語音辨識方法及其電子裝置
JPWO2011064829A1 (ja) 情報処理装置
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
JP6397641B2 (ja) 自動通訳装置及び方法
CN108109610B (zh) 一种模拟发声方法及模拟发声***
KR20180025559A (ko) 발음 사전 학습 방법 및 장치
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
JP7165439B2 (ja) ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法
JP6879521B1 (ja) 多言語音声認識およびテーマ−意義素解析方法および装置
JP2004021207A (ja) 音素認識方法、音素認識装置および音素認識プログラム
JP2007535692A (ja) 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法
JP2001188556A (ja) 音声認識方法及び装置
Lehečka et al. Improving speech recognition by detecting foreign inclusions and generating pronunciations
KR20230155836A (ko) 난발음 표기 방법
Santiago-Omar On the development of speech resources for the mixtec language
Kao Mandarin recognition over the telephone

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221011

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221017

R150 Certificate of patent or registration of utility model

Ref document number: 7165439

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150