JP7165439B2

JP7165439B2 - ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法

Info

Publication number: JP7165439B2
Application number: JP2021153076A
Authority: JP
Inventors: ウェン－シャンル; シャオ－チャンシェン; チン－ジュイリン
Original assignee: National Cheng Kung University NCKU
Current assignee: National Cheng Kung University NCKU
Priority date: 2020-12-10
Filing date: 2021-09-21
Publication date: 2022-11-04
Anticipated expiration: 2041-09-21
Also published as: JP2022092568A; US20220189462A1; TW202223874A; TWI759003B

Description

本開示は、音声認識モデル（ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｍｏｄｅｌ）をトレーニングする方法に関し、より詳細には、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法に関するものである。

技術の発展に伴い、電子製品に音声ユーザインターフェースが追加され、ユーザが手で操作する以外の作業を行えるようになった。

本開示は、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法を提供し、これにより、新しい音声認識モデルを開発しながら拡張言語のコーパスを収集するステップを排除又は大幅に簡素化することができる。

本開示の一側面によれば、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法は、前記ソース言語の発音参照テーブル（ｐｈｏｎｅｔｉｃｒｅｆｅｒｅｎｃｅｔａｂｌｅ）を作成することであって、前記発音参照テーブルは、互いに対応するソース言語オーディオファイル（ｓｏｕｒｃｅｌａｎｇｕａｇｅａｕｄｉｏｆｉｌｅ）及びソース言語発音表記（ｓｏｕｒｃｅｌａｎｇｕａｇｅｐｈｏｎｅｔｉｃｔｒａｎｓｃｒｉｐｔｉｏｎ）を含むことと、前記拡張言語の拡張言語テキストファイル（ｅｘｔｅｎｄｅｄｌａｎｇｕａｇｅｔｅｘｔｆｉｌｅ）を取得することと、表記命令（ｍａｒｋｉｎｓｔｒｕｃｔｉｏｎ）に従って、前記拡張言語テキストファイルに拡張言語発音表記（ｅｘｔｅｎｄｅｄｌａｎｇｕａｇｅｐｈｏｎｅｔｉｃｔｒａｎｓｃｒｉｐｔｉｏｎ）を表記して、前記拡張言語のテキスト参照テーブルを作成することと、前記ソース言語の前記発音参照テーブルと前記拡張言語の前記テキスト参照テーブルとによって、前記拡張言語の音響モデルをトレーニングすることと、前記拡張言語の前記拡張言語テキストファイルによって、前記拡張言語の言語モデルをトレーニングすることと、を含み、前記拡張言語の前記音声認識モデルは、前記拡張言語における前記音響モデル及び前記言語モデルを含む。

上述の記述に鑑み、拡張言語の音声認識モデルは、拡張言語の音声を収集することなく、ソース言語の音声コーパスによってトレーニングされる。したがって、ソース言語の音響モデルを拡張言語、特に話者数の少ない言語に対して、転移学習（ｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇ）により低コストで使用することができ、トレーニングプロセスを簡略化してトレーニングコストを低減することができるので、拡張言語の音声認識モデルを迅速かつ容易にトレーニングすることができる。

本開示は、以下に示す詳細な説明及び添付の図面から、より完全に理解されるであろう。これらの図面は、例示のみを目的としており、したがって、本開示を制限することを意図していない。
本開示の一実施形態による、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法を適用する電子機器のブロック図である。図１のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法のフローチャートである。図２のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。図３のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。図３のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。図２のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。本開示の別の実施形態による、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。本開示のさらに別の実施形態による、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。本開示のさらに別の実施形態による、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。

以下の詳細な説明では、説明のために、開示された実施形態の完全な理解を提供するために、多数の具体的な詳細が記載されている。しかし、これらの具体的な詳細がなくても、１つ又は複数の実施形態を実施することができることは明らかであろう。他の例では、図面を簡略化するために、よく知られた構造や装置が模式的に示されている。

本実施形態は、拡張言語の音声認識モデルをソース言語の音声によってトレーニングする方法を提供し、その音声認識モデルを電子機器に適用することができる。まず、電子機器について説明する。本開示の一実施形態によるソース言語での音声によって拡張言語の音声認識モデルをトレーニングする方法を適用する電子デバイス１０のブロック図である、図１を参照されたい。

電子デバイス１０（例えば、コンピュータ）は、音声認識モデルをトレーニングするように構成されており、そのため、電子デバイス１０は、音声認識システムとなることができ、又は、出力されて別の電子製品に適用することができる音声認識システムを作成することができるようになっている。具体的には、電子デバイス１０は、演算ユニット（ｃｏｍｐｕｔｉｎｇｕｎｉｔ）１００、入力ユニット２００、記憶ユニット３００、及び出力ユニット４００を含んでもよい。演算ユニット１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であってもよい。入力ユニット２００は、マイク、キーボード、マウス、タッチパネル、又は伝送インターフェースであってもよく、演算ユニット１００と電気的に接続されている。記憶ユニット３００は、ハードディスクドライブであってもよく、演算ユニット１００に電気的に接続されている。出力ユニット４００は、スピーカやディスプレイであってもよく、演算ユニット１００に電気的に接続されている。

以下では、電子デバイス１０に適用される音声認識モデルのトレーニング方法について説明する。図１のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法のフローチャートである、図２を参照されたい。

本開示では、広く使用されている言語からの複数の人の完全に確立された発音記録ファイルを含み得るソース言語オーディオファイルがある。さらに、ローマ字に基づいて広く使用されている言語からの母音及び子音の発音記号を含み得るソース言語発音表記もある。広く使われている言語は、標準中国語（ＳｔａｎｄａｒｄＭａｎｄａｒｉｎ）、近代英語、韓国標準語などであってもよく、以下ではソース言語と呼ぶ。

本実施形態では、ステップＳ１０１において、入力ユニット２００は、演算ユニット１００が記憶ユニット３００にソース言語の発音参照テーブルを作成することができるように、ソース言語オーディオファイル及びソース言語発音表記を受信する。ソース言語の発音参照テーブルは、ソース言語オーディオファイル及びソース言語発音表記を含む。ソース言語発音表記は、ソース言語オーディオファイルを表現するために使用されるローマ字の配列を含んでもよい。例えば、標準中国語の「今日は天気がいい」という意味の記録では、“jin-tian-hao-tian-chi”の母音記号及び子音記号が、音声を表すために使用され、声調記号（ｔｏｎｅｌｅｔｔｅｒ）は使用されない。ローマ字の配列は、ソース言語の編成された音声認識システムから直接取得されてもよいし、演算ユニット１００が作成されてもよく、本開示はこれに限定されるものではない。

ステップＳ１０４において、演算ユニット１００は、ソース言語の発音参照テーブルと拡張言語のテキスト参照テーブルとによって、拡張言語の音響モデルをトレーニングする。音響モデルとは、録音された音声が１つ以上の特定の音素列に属する確率と、その１つ以上の特定の音素列が言語における１つ以上の特定の記号列に対応する確率を含むものとみなすことができる。

具体的には、図２のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである、図３を参照されたい。本実施形態及びいくつかの実施形態では、ステップＳ１０４１において、演算ユニット１００は、ソース言語オーディオファイルからケプストラム特徴（ｃｅｐｓｔｒｕｍｆｅａｔｕｒｅ）を抽出する。ステップＳ１０４２において、演算ユニット１００は、ソース言語オーディオファイルの３フレームごとに演算処理を行い、その混合ガウスモデル（Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ）を得る。各フレームは、２０ミリ秒である。ステップＳ１０４３において、演算ユニット１００は、混合ガウスモデルに従って、ソース言語オーディオファイルの各フレームに対して音素アライメントを行い、ソース言語オーディオファイルの各フレームの各音素を抽出する。ステップＳ１０４４において、演算ユニット１００は、ソース言語オーディオファイルの音素ソーティング（ｐｈｏｎｅｍｅｓｏｒｔｉｎｇ）を、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ）によって学習する。ステップＳ１０４５において、演算ユニット１００は、ソース言語オーディオファイルの音素と、ソース言語におけるソース言語発音表記の記号との対応関係を取得する。なお、ステップＳ１０４１～ステップＳ１０４５は、拡張言語の音響モデルをトレーニングする際の例示であり、本開示を限定するものではない。他のいくつかの実施形態では、拡張言語の音響モデルをトレーニングするための別のモデルや態様があってもよい。

一般的に、ソース言語のオーディオファイルの音素とソース言語発音表記の記号との間の対応関係は、一対一の対応関係であることが望ましい。しかし、言語は異なる方法でローマ字化されることがある。例えば、標準中国語の「凹面（ｃｏｎｃａｖｅ）」の意味を持つ単語は、“ao”や“au”とローマ字表記されることがある。このような場合には、上述の対応関係は一対多の対応関係に変更されてもよい。代わりに、上述のステップにおいて、ソース言語オーディオファイル及び拡張言語テキストファイルを表現するために使用される母音記号及び子音記号は、表記の変換による差異を少なくするために、ローマ字ではなく国際音声記号（ＩＰＡ：ＩｎｔｅｒｎａｔｉｏｎａｌＰｈｏｎｅｔｉｃＡｌｐｈａｂｅｔ）に基づいていてもよい。

さらに、いくつかの言語では、発音の際に、ある単語の最後の子音（音節の末尾子音：ｓｙｌｌａｂｌｅｃｏｄａ）が次の単語の最初の母音につながることがある。例えば、近代英語の“hold on”は“hol-don”と発音され、韓国標準語の“da-eum-e”（意味：次回）は“da-eu-me”又は“da-eum-me”と発音されることがある。これについて、演算ユニット１００は、ソース言語オーディオファイルの音素ソーティング（ｐｈｏｎｅｍｅｓｏｒｔｉｎｇ）を学習することで、近代英語の記録音声が“hold-on”及び“hol-don”の記号に対応する確率や、韓国標準語の別の記録音声が“da-eum-e”、“da-eu-me”及び“da-eum-me”の記号に対応する確率を決定することができる。

ステップＳ１０４６において、演算ユニット１００は、拡張言語の拡張言語発音表記がソース言語のソース言語発音表記と同一であるか否かに応じて、拡張言語発音表記における記号列がソース言語オーディオファイルの音素列に対応する確率を決定する。

場合によっては、拡張言語には、ソース言語には含まれない発音があるので、演算ユニット１００は、拡張言語の拡張言語発音表記におけるこの発音に対応する母音又は子音が、ソース言語のソース言語オーディオファイルの中の音素に対応するソース言語発音表記の中の記号の全てと異なると決定する。この母音又はこの子音を、以下、特殊記号（ｓｐｅｃｉａｌｓｙｍｂｏｌ）と呼ぶ。例えば、台湾客家語の"f"の発音は、韓国標準語には含まれていないので、"f"の記号を特殊記号とする。ステップＳ１０４７ｄでは、演算ユニット１００は、特殊記号が、ソース言語のソース言語オーディオファイルにおける少なくとも１つの類似音素に近似していると決定する。例えば、演算ユニット１００は、台湾客家語の「f」の発音が、韓国標準語の「p」の発音に近似していると決定することができる。そして、演算ユニット１００は、特殊音素（ｓｐｅｃｉａｌｐｈｏｎｅｍｅ）と少なくとも１つの類似音素（ｓｉｍｉｌａｒｐｈｏｎｅｍｅ）との間のファジー関係（ｆｕｚｚｙｒｅｌａｔｉｏｎｓｈｉｐ）を含むファジー音素セット（ｆｕｚｚｙｐｈｏｎｅｍｅｓｅｔ）を記憶ユニット３００に出力して、ファジー関係を記憶ユニット３００に記憶させる。

演算ユニット１００は、記憶ユニット３００に格納されているソース言語の音素と拡張言語の記号との間の等価な、近似的な、又はファジーな関係を通じて、拡張言語の音響モデルをトレーニングすることができるので、演算ユニット１００は、拡張言語からの各記録の音声がソース言語からの１つ又は複数の特定の音素列に属し、したがって、拡張言語からの１つ又は複数の対応する特定の記号列に属する確率を決定することができる。

続いて、図２を参照されたい。本実施形態では、ステップＳ１０５において、演算ユニット１００は、拡張言語の拡張言語テキストファイルによって、拡張言語の言語モデルをトレーニングする。言語モデルとは、ある言語において、単語が意味のある慣用句を形成する確率を含むものとみなすことができる。

具体的には、図２のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである、図５を参照されたい。本実施形態及び一部の実施形態では、ステップＳ１０５１において、入力ユニット２００は、演算ユニット１００が拡張言語の拡張言語テキストファイルに対してテキストセグメンテーション（ｔｅｘｔｓｅｇｍｅｎｔａｔｉｏｎ）を実行することができるように、意味解釈命令（ｓｅｍａｎｔｉｃｉｎｔｅｒｐｒｅｔａｔｉｏｎｉｎｓｔｒｕｃｔｉｏｎ）を受信する。意味解釈命令は、コーパスシステム（図示せず）によって生成されてもよい。ステップＳ１０５２において、演算ユニット１００は、拡張言語の文法及び構文（ｓｙｎｔａｘ）を取得するように、拡張言語テキストファイル内の単語間の文脈的関係を決定し、単語間の文脈的関係は、単語の１つが単語の他の１つの前又は後に存在する確率（すなわち、単語の文法的な配置）を含んでもよい。

続いて、図２を参照されたい。本実施形態では、演算ユニット１００は、音響モデルのトレーニングのステップＳ１０４において、拡張言語からの各レコードの音声が、ソース言語からの１つ以上の特定の音素列に属し、それに対応して拡張言語からの１つ以上の特定の記号列に属する確率を既に決定しており、また、演算ユニット１００は、言語モデルのトレーニングのステップＳ１０５において、拡張言語の文法及び構文を既に取得している。このように、ステップＳ１０６において、演算ユニット１００は、拡張言語の音響モデルと拡張言語の言語モデルとを用いて、拡張言語の音声認識モデルを作成することができる。より詳細には、演算ユニット１００は、拡張言語の音響モデルと拡張言語の言語モデルとを組み合わせて、拡張言語の音声認識モデルを作成してもよい。つまり、拡張言語の音声認識モデルは、拡張言語における音響モデル及び言語モデルを含む。したがって、入力ユニット２００が拡張言語の音声記録を受信すると、演算ユニット１００は、音響モデルを通じて、音声記録が１つ以上の記号列に属することを決定し、さらに、１つ以上の記号列が単語列に属することを音声認識結果として決定することができるので、演算ユニット１００は、音声認識結果を出力ユニット４００に送信して、音声認識結果を表示することができる。

上述のステップでは、拡張言語の音声を収集することなく、ソース言語の音声コーパスによって拡張言語の音声認識モデルをトレーニングすることができる。したがって、ソース言語の音響モデルを拡張言語、特に話者数の少ない言語に対して、転移学習により低コストで使用することができ、トレーニングプロセスを簡略化してトレーニングコストを低減することができるので、拡張言語の音声認識モデルを迅速かつ容易にトレーニングすることができる。

さらに、演算ユニット１００が、複数の言語（ソース言語と拡張言語、又は拡張言語と別の拡張言語）の音声認識モデルをトレーニングするために、単一の言語（ソース言語）の音響モデルのみを使用する機能を実現できるように、ソース言語又は別の拡張言語の言語モデルを記憶ユニット３００に含めることもできる。

本開示の別の実施形態による、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである、図６を参照されたい。ステップＳ１１１ａにおいて、入力ユニット２００は、拡張言語の音声記録を音声認識モデルに入力するが、音声記録は、例えば、拡張言語の音声コーパスからのものであってもよく、ソース言語のソース言語オーディオファイルに含まれていない特殊音素を含んでもよい。そして、ステップＳ１１２ａにおいて、演算ユニット１００は、拡張言語の特殊音素が、ソース言語のソース言語オーディオファイルにおける少なくとも１つの類似音素に近似していると決定する。例えば、演算ユニット１００は、台湾客家語の「f」が韓国標準語の「p」に近似していると決定する。ステップＳ１１３ａにおいて、演算ユニット１００は、ファジー音素セットを記憶ユニット３００に出力して、ファジー音素セットを記憶ユニット３００に格納し、ファジー音素セットは、特殊音素（例えば、「f」）と、少なくとも１つの類似音素（例えば、「p」）との間のファジー関係を含んでいる。ステップＳ１１４ａでは、演算ユニット１００は、ファジー音素セットにしたがって、拡張言語の追加音響モデル（ｅｘｔｒａａｃｏｕｓｔｉｃｍｏｄｅｌ）を作成する。そして、演算ユニット１００は、追加音響モデルに従って拡張言語の音声認識モデルを更新することにより、拡張言語の特殊な発音がソース言語に含まれておらず、その対応する特殊な記号がステップＳ１０２で取得した拡張言語テキストファイルに含まれていないことに起因する音声誤認識の可能性を低減することができる。

本開示のさらに別の実施形態による、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである、図７を参照されたい。ステップＳ１１１ｂにおいて、入力ユニット２００は、演算ユニット１００が音声記録を追加オーディオファイル（ｅｘｔｒａａｕｄｉｏｆｉｌｅ）として記憶ユニット３００に記録及び格納することができるように、拡張言語の音声記録を受信する。追加オーディオファイルは、例えば、拡張言語の音声コーパスからのものであってもよく、ソース言語のソース言語オーディオファイルに含まれない特殊音素を含むことができる。例えば、入力ユニット２００は、韓国標準語の“f”の発音がないことに対応する追加の音声ファイルとして、台湾客家語の“f”の発音を含む音声記録を受信する。次に、ステップＳ１１２ｂにおいて、入力ユニット２００は、演算ユニット１００が追加オーディオファイルを発音記号（ｐｈｏｎｅｔｉｃｓｙｍｂｏｌ）で表記することができるような、別の表記命令を受信する。別の表記命令は、音素認識システム（図示せず）によって生成されてもよい。ステップＳ１１３ｂにおいて、演算ユニット１００は、追加オーディオファイル内の特殊音素と、その特殊音素に対応する発音記号とに従って、拡張言語の追加発音参照テーブル（ｅｘｔｒａｐｈｏｎｅｔｉｃｒｅｆｅｒｅｎｃｅｔａｂｌｅ）を作成する。ステップＳ１１４ｂでは、演算ユニット１００は、追加発音参照テーブルと拡張言語のテキスト参照テーブルとに従って、拡張言語の追加音響モデルを作成する。そして、演算ユニット１００は、拡張言語の音声認識モデルを、追加音響モデルに従って更新することにより、音声認識モデルが、記録された特殊音素を使用して、音声のご認識を考慮して音声の誤認識の可能性を低減することができるようになる。

さらに、本開示のさらに別の実施形態による、ソース言語の音声による拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである、図８を参照されたい。ステップＳ１１１ｃにおいて、入力ユニット２００は、拡張言語の音声記録を音声認識モデルに入力する。次に、ステップＳ１１２ｃにおいて、演算ユニット１００は、音声記録における同一の音節列の出現回数をカウントする。同一の音節列は、拡張言語の拡張言語テキストファイルのどの部分にも対応していない。例えば、技術の発展により新しい語彙が生まれることがあり、その新しい語彙は、拡張言語の拡張言語テキストファイルのどの部分にも対応していない音節列とみなすことができる。ステップＳ１１３ｃにおいて、演算ユニット１００が、音声記録中の同一の音節列（例えば、新しい語彙）の出現回数が閾値を超えたと決定した場合、ステップＳ１１４ｃが実行される。ステップＳ１１４ｃでは、演算ユニット１００は、同一音節列に対応する拡張言語の１つ以上のテキスト列を、各音節又は音素によって形成し、１つ以上のテキスト列に含まれる単語間の文脈的関係に応じて、拡張言語の追加言語モデルを作成する。そして、演算ユニット１００は、拡張言語の音声認識モデルを追加言語モデルにしたがって更新することにより、拡張言語における新しい語彙を含む音声を受信したときの音声認識モデルの認識効率を向上させることができる。

上述の記載に鑑みると、拡張言語の音声を収集することなく、ソース言語の音声コーパスによって拡張言語の音声認識モデルをトレーニングすることができる。したがって、ソース言語の音響モデルを拡張言語、特に話者数の少ない言語に対して、転移学習により低コストで使用することができ、トレーニングプロセスを簡略化し、トレーニングコストを低減することができるので、拡張言語の音声認識モデルを迅速かつ容易にトレーニングすることができる。

実施形態は、当業者が企図されている特定の使用に適した様々な変更を伴う本開示及び様々な実施形態を最もよく利用することができるように、本開示の原理及びその実用的な応用を最もよく説明するために選択され、説明されている。本開示の範囲は、以下の請求項及びその均等物によって定義されることが意図されている。

Claims

ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記ソース言語の発音参照テーブルを作成することであって、前記発音参照テーブルは、互いに対応するソース言語オーディオファイル及びソース言語発音表記を含む、ことと、
前記拡張言語の拡張言語テキストファイルを取得することと、
表記命令に従って、前記拡張言語テキストファイルに拡張言語発音表記を表記して、前記拡張言語のテキスト参照テーブルを作成することと、
前記ソース言語の前記発音参照テーブルと前記拡張言語の前記テキスト参照テーブルとによって、前記拡張言語の音響モデルをトレーニングすることと、
前記拡張言語の前記拡張言語テキストファイルによって、前記拡張言語の言語モデルをトレーニングすることと、
を含み、
前記拡張言語の音響モデルをトレーニングすることは、
前記ソース言語における前記ソース言語オーディオファイルに含まれる音素と前記ソース言語発音表記に含まれる記号との関係を取得することと、
前記拡張言語の前記拡張言語発音表記が前記ソース言語の前記ソース言語発音表記と同一であるか否かに応じて、前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することと、
を含み、
前記拡張言語の前記音声認識モデルは、前記拡張言語における前記音響モデル及び前記言語モデルを含む、方法。
請求項１に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することは、
前記拡張言語の前記拡張言語発音表記における単語の記号列が、前記ソース言語の前記ソース言語オーディオファイルの記録に対応する前記ソース言語発音表記における記号列と同一である場合、前記ソース言語の前記ソース言語オーディオファイルの前記記録の音素列の各フレームが、前記拡張言語の前記拡張言語発音表記における単語の記号列に等しいと決定することと、
前記記録の前記音素列と前記単語の前記記号列との間の等価関係を出力することと、
含む、方法。
請求項１に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することは、
前記拡張言語の前記拡張言語発音表記における単語の一部の記号列が、前記ソース言語の前記ソース言語オーディオファイルの音節に対応する前記ソース言語発音表記における記号列と同一である場合、前記ソース言語の前記ソース言語オーディオファイルにおける前記音節の音素列の各フレームが、前記拡張言語の前記拡張言語発音表記における前記単語の一部の前記記号列に等しいと決定することと、
前記音節の前記音素列と前記単語の一部の前記記号列との間の等価関係を出力することと、
を含む、方法。
請求項１に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することは、
前記拡張言語の前記拡張言語発音表記における母音又は子音が、前記ソース言語の前記ソース言語オーディオファイルにおける音素に対応する前記ソース言語発音表記における記号と同一である場合、前記ソース言語の前記ソース言語オーディオファイルにおける前記音素が、前記拡張言語の前記拡張言語発音表記における前記母音又は前記子音に等しいと決定することと、
前記音素と前記母音又は前記子音との間の等価関係を出力することと、
を含む、方法。
請求項１に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することは、
前記拡張言語の前記拡張言語発音表記における特殊記号が、前記ソース言語の前記ソース言語発音表記における任意の記号と異なる場合、前記拡張言語の前記拡張言語発音表記における前記特殊記号が、前記ソース言語の前記ソース言語オーディオファイルにおける少なくとも１つの類似音素に近似していると決定することと、
ファジー音素セットを出力することであって、前記ファジー音素セットは、前記特殊記号と前記少なくとも１つの類似音素との間の関係を含むことと、
を含む、方法。
請求項１に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記拡張言語の言語モデルをトレーニングすることは、
前記拡張言語の前記拡張言語テキストファイルに対してテキストセグメンテーションを実行することと、
前記拡張言語テキストファイルにおける単語間の文脈的関係を決定することと、
を含む、方法。
請求項１に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、さらに、
前記拡張言語の音声記録を前記音声認識モデルに入力することであって、前記音声記録は、前記ソース言語の前記ソース言語オーディオファイルに含まれていない特殊音素を含むことと、
前記特殊音素が、前記ソース言語オーディオファイル内の少なくとも１つの類似音素に近似していると決定することと、
ファジー音素セットを出力することであって、前記ファジー音素セットは、前記特殊音素と前記少なくとも１つの類似音素との間の関係を含むことと、
前記ファジー音素セットに従って、前記拡張言語の追加音響モデルを作成することと、
前記追加音響モデルに基づいて、前記拡張言語の前記音声認識モデルを更新することと、
を含む、方法。
請求項１に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、さらに、
前記拡張言語の音声記録を追加オーディオファイルとして受信することであって、前記追加オーディオファイルは、前記ソース言語の前記ソース言語オーディオファイルに含まれていない特殊音素を含むことと、
表記命令に従って、前記追加オーディオファイルを発音記号で表記することと、
前記特殊音素と前記特殊音素に対応する発音記号に基づいて、前記拡張言語の追加発音参照テーブルを作成することと、
前記拡張言語における前記追加発音参照テーブルと前記テキスト参照テーブルに基づいて、前記拡張言語の追加音響モデルを作成することと、
前記追加音響モデルに基づいて、前記拡張言語の音声認識モデルを更新することと、
を含む、方法。
請求項１に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、さらに、
前記拡張言語の音声記録を前記音声認識モデルに入力することと、
前記音声記録の中における同一の音節列の出現回数をカウントすることであって、前記同一の音節列は、前記拡張言語の前記拡張言語テキストファイルのどの部分にも対応していないことと、
前記音声記録における前記同一の音節列の出現回数が閾値を超えた場合、前記同一の音節列に対応する前記拡張言語のテキスト列を記録し、前記テキスト列に応じて追加言語モデルを作成することと、
前記追加言語モデルに基づいて、前記拡張言語の前記音声認識モデルを更新することと、
を含む、方法。
請求項１に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記ソース言語の前記ソース言語オーディオファイルは、複数の人の発音を含む、方法。
請求項１に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記ソース言語の前記発音参照テーブルを作成することは、前記ソース言語発音表記における少なくとも１つの母音と少なくとも１つの子音とを用いて、声調記号を用いることなくソース言語を表現することを含み、
前記拡張言語テキストファイルを表記して、前記拡張言語の前記テキスト参照テーブルを作成することは、前記拡張言語発音表記における少なくとも１つの母音と少なくとも１つの子音とを用いて、声調記号を用いることなく前記拡張言語を表現することを含む、方法。
請求項１１に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記少なくとも１つの母音及び前記少なくとも１つの子音は、ローマ字に基づいている、方法。
請求項１１に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記少なくとも１つの母音及び前記少なくとも１つの子音は、国際音声記号に基づいている、方法。