JP7343615B2 - ストリーミングエンドツーエンドモデルを用いる大規模多言語音声認識 - Google Patents
ストリーミングエンドツーエンドモデルを用いる大規模多言語音声認識 Download PDFInfo
- Publication number
- JP7343615B2 JP7343615B2 JP2021569947A JP2021569947A JP7343615B2 JP 7343615 B2 JP7343615 B2 JP 7343615B2 JP 2021569947 A JP2021569947 A JP 2021569947A JP 2021569947 A JP2021569947 A JP 2021569947A JP 7343615 B2 JP7343615 B2 JP 7343615B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- vector
- multilingual
- utterance
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 claims description 126
- 238000012549 training Methods 0.000 claims description 92
- 238000000034 method Methods 0.000 claims description 74
- 238000012545 processing Methods 0.000 claims description 58
- 230000008569 process Effects 0.000 claims description 43
- 230000015654 memory Effects 0.000 claims description 41
- 238000013518 transcription Methods 0.000 claims description 32
- 230000035897 transcription Effects 0.000 claims description 32
- 238000013515 script Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 7
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000001994 activation Methods 0.000 description 4
- 230000003750 conditioning effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Description
104 ユーザ
102 ユーザデバイス
106 発話
107 ユーザインターフェースジェネレータ
108 オーディオサブシステム
110 音響フレーム、オーディオデータ
112 言語識別器
114 言語ベクトルジェネレータ
115 言語ベクトル
116 ベクトル表現ジェネレータ
117 ベクトル表現、音響特徴
118 連結器
119 入力ベクトル
120 トランスクリプション
150 ストリーミングエンドツーエンド(E2E)音声認識モデル、多言語エンドツーエンド(E2E)音声認識モデル
200 エンコーダネットワーク
201 リモートコンピューティングデバイス
216 積重ね長短期記憶(LSTM)層
218 言語特有のアダプタモデル
220 予測ネットワーク
230 ジョイントネットワーク
240 ソフトマックス層
300 アダプタモジュール
302 正規化層
304 下方射影
306 非線型性
308 上方射影
500 コンピューティングデバイス
510 データ処理ハードウェア、プロセッサ
520 メモリ
530 記憶デバイス
540 高速インターフェース/コントローラ
550 高速拡張ポート
560 低速インターフェース/コントローラ
570 低速バス
580 ディスプレイ
590 低速拡張ポート
Claims (22)
- データ処理ハードウェア(510)において、特定の母語で話された発話(106)についてのオーディオデータ(110)を受け取るステップと、
前記データ処理ハードウェア(510)によって、前記特定の言語を識別する言語ベクトル(115)を取得するステップと、
前記データ処理ハードウェア(510)によって、多言語エンドツーエンド(E2E)音声認識モデル(150)を使用して、前記オーディオデータ(110)から導出された前記言語ベクトル(115)および音響特徴(117)を処理し、前記発話(106)についてのトランスクリプション(120)を生成するステップであって、前記多言語E2E音声認識モデル(150)が、前記特定の母語に特有の1つまたは複数のアダプタモジュール(300)と、前記特定の母語とは異なる少なくとも1つの他の母語に特有の1つまたは複数の他のアダプタモジュール(300)とを含む複数の言語特有のアダプタモジュール(300)を含む、ステップと、
前記データ処理ハードウェア(510)によって、出力のために前記トランスクリプション(120)を提供するステップと
を含む方法であって、
前記多言語E2E音声認識モデル(150)がトレーニングプロセスによってトレーニングされ、前記トレーニングプロセスが、
他のトレーニングデータセットのそれぞれの母語とは異なるそれぞれの母語にそれぞれ関連付けられた複数のトレーニングデータセットを取得するステップであって、各トレーニングデータセットが複数のそれぞれのトレーニングデータサンプルを含み、各トレーニングデータサンプルが、前記それぞれの母語で話された発話(106)についてのオーディオデータ(110)と、前記それぞれの母語を識別する言語識別子(112、115)と、前記それぞれの母語を表すそれぞれのネイティブスクリプトでの前記発話(106)の対応するトランスクリプション(120)とを含む、ステップと、
前記トレーニングプロセスの第1の段階の間に、確率的最適化アルゴリズムを使用して、すべての前記トレーニングデータセットの和集合に関して前記多言語E2E音声認識モデル(150)をトレーニングするステップと、
前記第1の段階が完了した後の前記トレーニングプロセスの第2の段階の間に、
前記複数の言語特有のアダプタモジュール(300)を含むように前記多言語E2E音声認識モデル(150)を修正するステップと、
前記特定の母語に特有の前記1つまたは複数のアダプタモジュール(300)のそれぞれについて、前記それぞれの特定の母語に関連付けられる前記トレーニングデータセットのみに関して前記多言語E2E音声認識モデル(150)をトレーニングすることによって、重みのそれぞれのセットについての値を学習するステップと
を含む、
方法(400)。 - 前記言語ベクトル(115)がワンホットベクトルを含む、請求項1に記載の方法(400)。
- 前記言語ベクトル(115)および前記音響特徴(117)を処理する前に、前記データ処理ハードウェア(510)によって、前記オーディオデータ(110)を使用して、前記発話(106)のベクトル表現(117)を生成するステップをさらに含み、前記発話(106)の前記ベクトル表現(117)が、前記オーディオデータ(110)から導出された前記音響特徴(117)を含む、請求項1または2に記載の方法(400)。
- 前記データ処理ハードウェア(510)によって、前記言語ベクトル(115)と前記発話(106)の前記ベクトル表現(117)を連結して、入力ベクトル(119)を生成するステップ
をさらに含み、
前記言語ベクトル(115)および前記音響特徴(117)を処理するステップが、前記多言語E2E音声認識モデル(150)を使用して前記入力ベクトル(119)を処理し、前記発話(106)についての前記トランスクリプション(120)を生成するステップを含む、請求項3に記載の方法(400)。 - 前記言語ベクトル(115)を取得する前記ステップが、
前記発話(106)を話したユーザについての言語選好に基づいて、前記発話(106)についての前記特定の母語を識別するステップと、
前記識別した特定の母語に基づいて前記言語ベクトル(115)を生成するステップと
を含む、請求項1~4のいずれか一項に記載の方法(400)。 - 前記言語ベクトル(115)を取得する前記ステップが、
前記オーディオデータ(110)を処理することによって前記特定の母語を識別するように構成された言語識別システムを実行するステップと、
前記識別した特定の母語に基づいて前記言語ベクトル(115)を生成するステップと
を含む、請求項1~5のいずれか一項に記載の方法(400)。 - 前記多言語E2E音声認識モデル(150)が再帰型ニューラルネットワーク変換器(RNN-T)アーキテクチャを使用し、前記RNN-Tアーキテクチャが、
複数の時間ステップのそれぞれにおいて、入力ベクトル(119)から高次特徴表現を生成するように構成されたエンコーダネットワーク(200)であって、前記入力ベクトル(119)が、前記オーディオデータ(110)から導出された前記言語ベクトル(115)と前記音響特徴(117)の連結を含む、エンコーダネットワーク(200)と、
先に出力された非ブランク記号のシーケンスを密表現として処理するように構成された予測ネットワーク(220)と、
前記複数の時間ステップのそれぞれにおいて、前記エンコーダネットワーク(200)によって出力された前記高次特徴表現と、前記予測ネットワーク(220)によって出力された前記密表現とに基づいて、可能な出力ラベルにわたる確率分布を予測するように構成されたジョイントネットワーク(230)と
を備える、請求項1~6のいずれか一項に記載の方法(400)。 - 前記エンコーダネットワーク(200)が、
複数の積重ね長短期記憶(LSTM)層(216)と、
各LSTM層(216)の後の、前記複数の言語特有のアダプタモジュール(300)のそれぞれのサブセットを含むそれぞれの層であって、前記それぞれの層内のそれぞれの言語特有のアダプタモジュール(300)が、異なるそれぞれの母語に特有のものであり、前記それぞれの層内の前記言語特有のアダプタモジュール(300)のうちの1つが、前記特定の母語に特有のものである、それぞれの層と
を備える、請求項7に記載の方法(400)。 - 前記発話(106)についての前記生成されたトランスクリプション(120)が、前記特定の母語を表すそれぞれのネイティブスクリプトでのものである、請求項1~8のいずれか一項に記載の方法(400)。
- 前記データ処理ハードウェア(510)および前記多言語E2E音声認識モデル(150)が、前記発話(106)を話したユーザ(104)に関連付けられるユーザデバイス(102)上に常駐する、請求項1~9のいずれか一項に記載の方法(400)。
- 前記トレーニングプロセスが、前記データ処理ハードウェア(510)と通信しているリモートコンピューティングデバイス(201)上で実行され、前記データ処理ハードウェア(510)が、前記発話(106)を話したユーザ(104)に関連付けられ、前記トレーニングプロセスが完了した後に前記多言語E2E音声認識モデル(150)を実行するように構成されたユーザデバイス(102)上に常駐する、請求項10に記載の方法(400)。
- データ処理ハードウェア(510)と、
前記データ処理ハードウェア(510)と通信しているメモリハードウェア(520)であって、前記データ処理ハードウェア(510)上で実行されるとき、前記データ処理ハードウェア(510)に、
特定の母語で話された発話(106)についてのオーディオデータ(110)を受け取ること、
前記特定の言語を識別する言語ベクトル(115)を取得すること、
多言語エンドツーエンド(E2E)音声認識モデル(150)を使用して、前記オーディオデータ(110)から導出された前記言語ベクトル(115)および音響特徴(117)を処理し、前記発話(106)についてのトランスクリプション(120)を生成することであって、前記多言語E2E音声認識モデル(150)が、前記特定の母語に特有の1つまたは複数のアダプタモジュール(300)と、前記特定の母語とは異なる少なくとも1つの他の母語に特有の1つまたは複数の他のアダプタモジュール(300)とを含む複数の言語特有のアダプタモジュール(300)を含む、生成すること、および
出力のために前記トランスクリプション(120)を提供すること
を含む動作を実施させる命令を記憶する、メモリハードウェア(520)と
を備えるシステムであって、
前記多言語E2E音声認識モデル(150)がトレーニングプロセスによってトレーニングされ、前記トレーニングプロセスが、
他のトレーニングデータセットのそれぞれの母語とは異なるそれぞれの母語にそれぞれ関連付けられた複数のトレーニングデータセットを取得することであって、各トレーニングデータセットが複数のそれぞれのトレーニングデータサンプルを含み、各トレーニングデータサンプルが、前記それぞれの母語で話された発話(106)についてのオーディオデータ(110)と、前記それぞれの母語を識別する言語識別子(112、115)と、前記それぞれの母語を表すそれぞれのネイティブスクリプトでの前記発話(106)の対応するトランスクリプション(120)とを含む、取得すること、
前記トレーニングプロセスの第1の段階の間に、確率的最適化アルゴリズムを使用して、すべての前記トレーニングデータセットの和集合に関して前記多言語E2E音声認識モデル(150)をトレーニングすること、ならびに
前記第1の段階が完了した後の前記トレーニングプロセスの第2の段階の間に、
前記複数の言語特有のアダプタモジュール(300)を含むように前記多言語E2E音声認識モデル(150)を修正すること、および
前記特定の母語に特有の前記1つまたは複数のアダプタモジュール(300)のそれぞれについて、前記それぞれの特定の母語に関連付けられる前記トレーニングデータセットのみに関して前記多言語E2E音声認識モデル(150)をトレーニングすることによって、重みのそれぞれのセットについての値を学習すること
を含む、
システム(100)。 - 前記言語ベクトル(115)がワンホットベクトルを含む、請求項12に記載のシステム(100)。
- 前記動作が、前記言語ベクトル(115)および前記音響特徴(117)を処理する前に、前記オーディオデータ(110)を使用して、前記発話(106)のベクトル表現(117)を生成することをさらに含み、前記発話(106)の前記ベクトル表現(117)が、前記オーディオデータ(110)から導出された前記音響特徴(117)を含む、請求項12または13に記載のシステム(100)。
- 前記動作が、
前記言語ベクトル(115)と前記発話(106)の前記ベクトル表現(117)を連結して、入力ベクトル(119)を生成すること
をさらに含み、
前記言語ベクトル(115)および前記音響特徴(117)を処理することが、前記多言語E2E音声認識モデル(150)を使用して前記入力ベクトル(119)を処理し、前記発話(106)についての前記トランスクリプション(120)を生成することを含む、請求項14に記載のシステム(100)。 - 前記言語ベクトル(115)を取得することが、
前記発話(106)を話したユーザについての言語選好に基づいて、前記発話(106)についての前記特定の母語を識別すること、および
前記識別した特定の母語に基づいて前記言語ベクトル(115)を生成すること
を含む、請求項12~15のいずれか一項に記載のシステム(100)。 - 前記言語ベクトル(115)を取得することが、
前記オーディオデータ(110)を処理することによって前記特定の母語を識別するように構成された言語識別システムを実行すること、および
前記識別した特定の母語に基づいて前記言語ベクトル(115)を生成すること
を含む、請求項12~16のいずれか一項に記載のシステム(100)。 - 前記多言語E2E音声認識モデル(150)が再帰型ニューラルネットワーク変換器(RNN-T)アーキテクチャを使用し、前記RNN-Tアーキテクチャが、
複数の時間ステップのそれぞれにおいて、入力ベクトル(119)から高次特徴表現を生成するように構成されたエンコーダネットワーク(200)であって、前記入力ベクトル(119)が、前記オーディオデータ(110)から導出された前記言語ベクトル(115)と前記音響特徴(117)の連結を含む、エンコーダネットワーク(200)と、
先に出力された非ブランク記号のシーケンスを密表現として処理するように構成された予測ネットワーク(220)と、
前記複数の時間ステップのそれぞれにおいて、前記エンコーダネットワーク(200)によって出力された前記高次特徴表現と、前記予測ネットワーク(220)によって出力された前記密表現とに基づいて、可能な出力ラベルにわたる確率分布を予測するように構成されたジョイントネットワーク(230)と
を備える、請求項12~17のいずれか一項に記載のシステム(100)。 - 前記エンコーダネットワーク(200)が、
複数の積重ね長短期記憶(LSTM)層(216)と、
各LSTM層(216)の後の、前記複数の言語特有のアダプタモジュール(300)のそれぞれのサブセットを含むそれぞれの層であって、それぞれの層内のそれぞれの言語特有のアダプタモジュール(300)が、異なるそれぞれの母語に特有のものであり、前記それぞれの層内の前記言語特有のアダプタモジュール(300)のうちの1つが、前記特定の母語に特有のものである、それぞれの層と
を備える、請求項18に記載のシステム(100)。 - 前記発話(106)についての前記生成されたトランスクリプション(120)が、前記特定の母語を表すそれぞれのネイティブスクリプトでのものである、請求項12~19のいずれか一項に記載のシステム(100)。
- 前記データ処理ハードウェア(510)および前記多言語E2E音声認識モデル(150)が、前記発話(106)を話したユーザ(104)に関連付けられるユーザデバイス(102)上に常駐する、請求項12~20のいずれか一項に記載のシステム(100)。
- 前記トレーニングプロセスが、前記データ処理ハードウェア(510)と通信しているリモートコンピューティングデバイス(201)上で実行され、前記データ処理ハードウェア(510)が、前記発話(106)を話したユーザに関連付けられ、前記トレーニングプロセスが完了した後に前記多言語E2E音声認識モデル(150)を実行するように構成されたユーザデバイス(102)上に常駐する、請求項21に記載のシステム(100)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962853365P | 2019-05-28 | 2019-05-28 | |
US62/853,365 | 2019-05-28 | ||
PCT/US2020/025760 WO2020242580A1 (en) | 2019-05-28 | 2020-03-30 | Large-scale multilingual speech recognition with a streaming end-to-end model |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022534390A JP2022534390A (ja) | 2022-07-29 |
JP7343615B2 true JP7343615B2 (ja) | 2023-09-12 |
Family
ID=70465346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021569947A Active JP7343615B2 (ja) | 2019-05-28 | 2020-03-30 | ストリーミングエンドツーエンドモデルを用いる大規模多言語音声認識 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11468244B2 (ja) |
EP (1) | EP3966816B1 (ja) |
JP (1) | JP7343615B2 (ja) |
KR (1) | KR20220007160A (ja) |
CN (1) | CN113924619A (ja) |
WO (1) | WO2020242580A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470662A (zh) * | 2020-03-31 | 2021-10-01 | 微软技术许可有限责任公司 | 生成和使用用于关键词检出***的文本到语音数据和语音识别***中的说话者适配 |
US11373657B2 (en) * | 2020-05-01 | 2022-06-28 | Raytheon Applied Signal Technology, Inc. | System and method for speaker identification in audio data |
US11315545B2 (en) * | 2020-07-09 | 2022-04-26 | Raytheon Applied Signal Technology, Inc. | System and method for language identification in audio data |
US11568858B2 (en) * | 2020-10-17 | 2023-01-31 | International Business Machines Corporation | Transliteration based data augmentation for training multilingual ASR acoustic models in low resource settings |
US11955110B2 (en) * | 2021-02-26 | 2024-04-09 | Lemon, Inc. | Identifying language in music |
US20220310081A1 (en) * | 2021-03-26 | 2022-09-29 | Google Llc | Multilingual Re-Scoring Models for Automatic Speech Recognition |
US20220319506A1 (en) * | 2021-03-31 | 2022-10-06 | Chief Chief Technologies Oy | Method and system for performing domain adaptation of end-to-end automatic speech recognition model |
CN113436616B (zh) * | 2021-05-28 | 2022-08-02 | 中国科学院声学研究所 | 一种多领域自适应的端到端语音识别方法、***及电子装置 |
CN113362811B (zh) * | 2021-06-30 | 2023-03-24 | 北京有竹居网络技术有限公司 | 语音识别模型的训练方法、语音识别方法和装置 |
CN113724683B (zh) * | 2021-07-23 | 2024-03-22 | 阿里巴巴达摩院(杭州)科技有限公司 | 音频生成方法、计算机设备及计算机可读存储介质 |
US20230108275A1 (en) * | 2021-10-06 | 2023-04-06 | Google Llc | Language Agnostic Multilingual End-To-End Streaming On-Device ASR System |
WO2023059969A1 (en) * | 2021-10-06 | 2023-04-13 | Google Llc | Joint unsupervised and supervised training for multilingual automatic speech recognition |
CN114582329A (zh) * | 2022-03-03 | 2022-06-03 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、计算机可读介质及电子设备 |
US20230290345A1 (en) * | 2022-03-08 | 2023-09-14 | Microsoft Technology Licensing, Llc | Code-Mixed Speech Recognition Using Attention and Language-Specific Joint Analysis |
WO2023183530A1 (en) * | 2022-03-25 | 2023-09-28 | Google Llc | Streaming end-to-end multilingual speech recognition with joint language identification |
US20230335122A1 (en) * | 2022-04-19 | 2023-10-19 | Google Llc | Sub-models For Neural Contextual Biasing |
CN115132182B (zh) * | 2022-05-24 | 2024-02-23 | 腾讯科技(深圳)有限公司 | 一种数据识别方法、装置、设备及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014229124A (ja) | 2013-05-23 | 2014-12-08 | 独立行政法人情報通信研究機構 | ディープ・ニューラルネットワークの学習方法、ディープ・ニューラルネットワークのサブネットワークのパラメータを記憶した記憶媒体及びコンピュータプログラム |
JP2015102806A (ja) | 2013-11-27 | 2015-06-04 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
JP2016188944A (ja) | 2015-03-30 | 2016-11-04 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム |
JP2018513399A (ja) | 2015-11-25 | 2018-05-24 | バイドゥ ユーエスエー エルエルシーBaidu USA LLC | 配置されたエンドツーエンド音声認識 |
WO2019023908A1 (en) | 2017-07-31 | 2019-02-07 | Beijing Didi Infinity Technology And Development Co., Ltd. | SYSTEM AND METHOD FOR LANGUAGE SERVICE CALL |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9786270B2 (en) * | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
WO2017083695A1 (en) * | 2015-11-12 | 2017-05-18 | Google Inc. | Generating target sequences from input sequences using partial conditioning |
US10032463B1 (en) * | 2015-12-29 | 2018-07-24 | Amazon Technologies, Inc. | Speech processing with learned representation of user interaction history |
KR102384641B1 (ko) * | 2017-02-20 | 2022-04-08 | 엘지전자 주식회사 | 다국어 처리를 수행하는 인공 지능 시스템의 제어 방법 |
KR102339716B1 (ko) * | 2017-06-30 | 2021-12-14 | 삼성에스디에스 주식회사 | 음성 인식 방법 및 그 장치 |
US10453454B2 (en) * | 2017-10-26 | 2019-10-22 | Hitachi, Ltd. | Dialog system with self-learning natural language understanding |
US10593321B2 (en) * | 2017-12-15 | 2020-03-17 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for multi-lingual end-to-end speech recognition |
-
2020
- 2020-03-30 KR KR1020217040653A patent/KR20220007160A/ko unknown
- 2020-03-30 WO PCT/US2020/025760 patent/WO2020242580A1/en unknown
- 2020-03-30 US US16/834,342 patent/US11468244B2/en active Active
- 2020-03-30 EP EP20721974.2A patent/EP3966816B1/en active Active
- 2020-03-30 CN CN202080039464.7A patent/CN113924619A/zh active Pending
- 2020-03-30 JP JP2021569947A patent/JP7343615B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014229124A (ja) | 2013-05-23 | 2014-12-08 | 独立行政法人情報通信研究機構 | ディープ・ニューラルネットワークの学習方法、ディープ・ニューラルネットワークのサブネットワークのパラメータを記憶した記憶媒体及びコンピュータプログラム |
JP2015102806A (ja) | 2013-11-27 | 2015-06-04 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
JP2016188944A (ja) | 2015-03-30 | 2016-11-04 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム |
JP2018513399A (ja) | 2015-11-25 | 2018-05-24 | バイドゥ ユーエスエー エルエルシーBaidu USA LLC | 配置されたエンドツーエンド音声認識 |
WO2019023908A1 (en) | 2017-07-31 | 2019-02-07 | Beijing Didi Infinity Technology And Development Co., Ltd. | SYSTEM AND METHOD FOR LANGUAGE SERVICE CALL |
Also Published As
Publication number | Publication date |
---|---|
US11468244B2 (en) | 2022-10-11 |
EP3966816B1 (en) | 2023-12-27 |
JP2022534390A (ja) | 2022-07-29 |
WO2020242580A1 (en) | 2020-12-03 |
KR20220007160A (ko) | 2022-01-18 |
CN113924619A (zh) | 2022-01-11 |
US20200380215A1 (en) | 2020-12-03 |
EP3966816A1 (en) | 2022-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7343615B2 (ja) | ストリーミングエンドツーエンドモデルを用いる大規模多言語音声認識 | |
JP7436709B2 (ja) | 非発話テキストおよび音声合成を使う音声認識 | |
US11373049B2 (en) | Cross-lingual classification using multilingual neural machine translation | |
JP7257593B2 (ja) | 区別可能な言語音を生成するための音声合成のトレーニング | |
JP7359969B2 (ja) | ストリーミングシーケンスモデルの一貫性予測 | |
EP4085451B1 (en) | Language-agnostic multilingual modeling using effective script normalization | |
JP7351018B2 (ja) | エンド・ツー・エンド音声認識における固有名詞認識 | |
US20220309340A1 (en) | Self-Adaptive Distillation | |
JP7393585B2 (ja) | テキスト読み上げのためのWaveNetの自己トレーニング | |
KR20240051176A (ko) | 스피치 합성 기반 모델 적응을 통한 스피치 인식 개선하기 | |
JP7502561B2 (ja) | 言語間音声合成を改良するための音声認識の使用 | |
JP2021157145A (ja) | 推論器および推論器の学習方法 | |
WO2023183010A1 (en) | Using non-parallel voice conversion for training a speech recognition model | |
JP2024510816A (ja) | タイイングされ縮小されたrnn-t | |
US20220310061A1 (en) | Regularizing Word Segmentation | |
WO2024015140A1 (en) | Unsupervised data selection via discrete speech representation for automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220124 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220124 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230807 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230831 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7343615 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |