JP2022523883A - エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析 - Google Patents
エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析 Download PDFInfo
- Publication number
- JP2022523883A JP2022523883A JP2021564950A JP2021564950A JP2022523883A JP 2022523883 A JP2022523883 A JP 2022523883A JP 2021564950 A JP2021564950 A JP 2021564950A JP 2021564950 A JP2021564950 A JP 2021564950A JP 2022523883 A JP2022523883 A JP 2022523883A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- language
- model
- bias
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title description 2
- 238000000034 method Methods 0.000 claims abstract description 54
- 238000013518 transcription Methods 0.000 claims abstract description 24
- 230000035897 transcription Effects 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 22
- 230000015654 memory Effects 0.000 claims description 45
- 238000012545 processing Methods 0.000 claims description 38
- 238000013507 mapping Methods 0.000 claims description 8
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 230000001537 neural effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- RTZKZFJDLAIYFH-UHFFFAOYSA-N Diethyl ether Chemical compound CCOCC RTZKZFJDLAIYFH-UHFFFAOYSA-N 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 235000013312 flour Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- FFNMBRCFFADNAO-UHFFFAOYSA-N pirenzepine hydrochloride Chemical compound [H+].[H+].[Cl-].[Cl-].C1CN(C)CCN1CC(=O)N1C2=NC=CC=C2NC(=O)C2=CC=CC=C21 FFNMBRCFFADNAO-UHFFFAOYSA-N 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
Description
本明細書の実装は、他の動作の中でも、外国語音素セットを自動音声認識ASRモデルの言語(例えば、アメリカ英語)の音素セットに写像(マッピング)して、音素レベルでバイアスをかける有限状態変換器(FST)において外国語のモデリングを可能にすることで、外国語を認識する文脈的(コンテクチュアル)自動音声認識(ASR)モデルを強化することに向けられている。さらなる実装は、自動音声認識ASRモデルが、モデリング空間における自動音声認識ASRモデルの言語(例えば、アメリカ英語)のための語句(ワードピース)および音素を備えている語句(ワードピース)-音素モデルを組み込むことに向けられている。例として、文脈的自動音声認識ASRモデルは、語句-音素モデルおよび文脈的バイアス有限状態変換器FSTを使用して音声発話(スポークン発話)を復号(デコード)し、発話の転写を文脈的に1つまたは複数の外国語に偏らせるように構成される。たとえば、アメリカ英語を話す人が、クレテイユ(Creteil。Creのeの上にアクソンテグュが付されている)という単語がフランス語である、「クレテイユまでの道順」(Directions to Creteil)という発話をすると、文脈的自動音声認識ASRモデルは、アメリカ英語以外の言語の単語で学習されていないにもかかわらず、語句-音素モデルと文脈的バイアス有限状態変換器FSTを利用して、外国語であるクレテイユ(Creteil)を認識するように転写を偏らせることができる。この例では、外国語のクレテイユ(Creteil)は、現在の文脈に基づきバイアスをかけた単語リストに含まれる複数のフランス語のうちの1つである可能性がある。例えば、ユーザが現在フランスにいて車を運転している場合、現在の文脈(コンテキスト)は、フランスの都市名/地域名が関連していることを示している可能性があり、したがって、文脈的(コンテキストに基づく)自動音声認識ASRモデルは、これらのフランスの都市名/地域名に偏っている(バイアスしている)可能性がある。
Claims (20)
- データ処理ハードウェア(610)において、第1言語のネイティブスピーカ(110)によって話される発話(106)を符号化する音声データを受け取る工程と、
前記データ処理ハードウェア(610)において、前記第1言語とは異なる第2言語の1つまたは複数の用語を備えているバイアス用語リスト(105)を受け取る工程と、
前記データ処理ハードウェア(610)において、音声認識モデル(200)を用いて、前記音声データから得られる音響特徴(104)を処理して、前記第1言語の語句と、対応する音素シーケンスとの両方に対する音声認識スコアを生成する工程と、
前記データ処理ハードウェア(610)によって、前記バイアス用語リスト(105)内の前記1つまたは複数の用語に基づき、前記音素シーケンスに対する前記音声認識スコアを再スコアリングする工程と、
前記データ処理ハードウェア(610)によって、前記語句に対する前記音声認識スコアと、前記音素シーケンスに対する再スコアリングされた音声認識スコアとを用いて、復号グラフ(400)を実行して、前記発話(106)に対する転写(116)を生成する工程と、
を備えている方法(500)。 - 前記音素シーケンスに対する前記音声認識スコアを再スコアリングする工程は、バイアス有限状態変換器(FST)を使用して、前記音素シーケンスに対する前記音声認識スコアを再スコアリングする工程を備えている、
請求項1に記載の方法(500)。 - 前記方法はさらに、
前記データ処理ハードウェア(610)によって、前記バイアス用語リスト(105)の各用語を、前記第2言語の対応する音素シーケンスにトークン化する工程と、
前記データ処理ハードウェア(610)によって、前記第2言語における各対応する音素シーケンスを、前記第1言語における対応する音素シーケンスに写像する工程と、
前記データ処理ハードウェア(610)によって、前記第1言語における各対応する音素シーケンスに基づき、前記バイアス有限状態変換器(300)を生成する工程と、
を備えている、請求項2に記載の方法(500)。 - 前記音声認識モデル(200)は、エンドツーエンド語句-音素モデル(200)を備えている、
請求項1~3のいずれか一項に記載の方法(500)。 - 前記エンドツーエンド語句-音素モデル(200)は、リカレントニューラルネットワーク-変換器(RNN-T)を備えている、
請求項4に記載の方法(500)。 - 前記復号グラフ(400)の実行中に、前記復号グラフ(400)は、前記バイアス用語リスト(105)内の前記1つまたは複数の用語のいずれかを有利にするように、前記転写(116)をバイアスする、
請求項1~5のいずれか一項に記載の方法(500)。 - 前記音声認識モデル(200)は、前記第1言語のみの学習発話で学習される、
請求項1~6のいずれか一項に記載の方法(500)。 - 前記バイアス用語リスト(105)内の用語のいずれも、前記音声認識モデル(200)を学習するために使用されなかった、
請求項1~7のいずれか一項に記載の方法(500)。 - 前記データ処理ハードウェア(610)および前記音声認識モデル(200)は、ユーザ装置(102)上に存在する、
請求項1~8のいずれか一項に記載の方法(500)。 - 前記データ処理ハードウェア(610)および前記音声認識モデル(200)は、リモート計算装置(201)上に存在し、
前記発話(106)を符号化する前記音声データを受け取る工程は、前記リモート計算装置(201)に通信しているユーザ装置(102)から、前記発話(106)を符号化する前記音声データを受け取る工程を備えている、
請求項1~9のいずれか一項に記載の方法(500)。 - データ処理ハードウェア(610)と、
前記データ処理ハードウェア(610)に通信するメモリハードウェア(620)であって、前記メモリハードウェア(620)は、前記データ処理ハードウェア(610)上で実行されると前記データ処理ハードウェア(610)に、以下を備えている動作を実行させる命令を格納する、前記メモリハードウェア(620)と、
を備えているシステム(100)であって、前記動作は、
第1言語のネイティブスピーカ(110)によって話される発話(106)を符号化する音声データを受け取る工程と、
前記第1言語とは異なる第2言語による1つまたは複数の用語を備えているバイアス用語リスト(105)を受け取る工程と、
音声認識モデル(200)を用いて、前記音声データから得られる音響特徴(104)を処理して、前記第1言語の語句と、対応する音素シーケンスとの両方に対する音声認識スコアを生成する工程と、
前記バイアス用語リスト(105)の前記1つまたは複数の用語に基づき、前記音素シーケンスに対する前記音声認識スコアを再スコアリングする工程と、
前記語句に対する前記音声認識スコアと、前記音素シーケンスに対する再スコアリングされた音声認識スコアとを用いて、復号グラフ(400)を実行して、前記発話(106)に対する転写(116)を生成する工程と、
を備えている、システム(100)。 - 前記音素シーケンスに対する前記音声認識スコアを再スコアリングする工程は、バイアス有限状態変換器(FST)を使用して、前記音素シーケンスに対する前記音声認識スコアを再スコアリングする工程を備えている、
請求項11に記載のシステム(100)。 - 前記動作はさらに、
前記バイアス用語リスト(105)の各用語を、前記第2言語の対応する音素シーケンスにトークン化する工程と、
前記第2言語における各対応する音素シーケンスを、前記第1言語における対応する音素シーケンスに写像する工程と、
前記第1言語における各対応する音素シーケンスに基づき、前記バイアス有限状態変換器(300)を生成する工程と、
を備えている、請求項12に記載のシステム(100)。 - 前記音声認識モデル(200)は、エンドツーエンド語句-音素モデル(200)を備えている、
請求項11~13のいずれか一項に記載のシステム(100)。 - 前記エンドツーエンド語句-音素モデル(200)は、リカレントニューラルネットワーク-変換器(RNN-T)を備えている、
請求項14に記載のシステム(100)。 - 前記復号グラフ(400)の実行中に、前記復号グラフ(400)は、前記バイアス用語リスト(105)内の前記1つまたは複数の用語のいずれかを有利にするように、前記転写(116)をバイアスする、
請求項11~15のいずれか一項に記載のシステム(100)。 - 前記音声認識モデル(200)は、前記第1言語のみの学習発話で学習される、
請求項11~16のいずれか一項に記載のシステム(100)。 - 前記バイアス用語リスト(105)内の用語のいずれも、前記音声認識モデル(200)を学習するために使用されなかった、
請求項11~17のいずれか一項に記載のシステム(100)。 - 前記データ処理ハードウェア(610)および前記音声認識モデル(200)は、ユーザ装置(102)上に存在する、
請求項11~18のいずれか一項に記載のシステム(100)。 - 前記データ処理ハードウェア(610)および前記音声認識モデル(200)は、リモート計算装置(201)上に存在し、
前記発話(106)を符号化する前記音声データを受け取る工程は、前記リモート計算装置(201)に通信しているユーザ装置(102)から、前記発話(106)を符号化する前記音声データを受け取る工程を備えている、
請求項11~19のいずれか一項に記載のシステム(100)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962842571P | 2019-05-03 | 2019-05-03 | |
US62/842,571 | 2019-05-03 | ||
PCT/US2020/030321 WO2020226948A1 (en) | 2019-05-03 | 2020-04-28 | Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022523883A true JP2022523883A (ja) | 2022-04-26 |
JP7092953B2 JP7092953B2 (ja) | 2022-06-28 |
Family
ID=70922127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021564950A Active JP7092953B2 (ja) | 2019-05-03 | 2020-04-28 | エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11270687B2 (ja) |
EP (1) | EP3948849A1 (ja) |
JP (1) | JP7092953B2 (ja) |
KR (2) | KR20220038514A (ja) |
CN (2) | CN117935785A (ja) |
WO (1) | WO2020226948A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11501764B2 (en) * | 2019-05-10 | 2022-11-15 | Spotify Ab | Apparatus for media entity pronunciation using deep learning |
WO2021145893A1 (en) * | 2020-01-17 | 2021-07-22 | Google Llc | Alphanumeric sequence biasing for automatic speech recognition |
CN112784696B (zh) * | 2020-12-31 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于图像识别的唇语识别方法、装置、设备及存储介质 |
EP4295362A1 (en) * | 2021-03-26 | 2023-12-27 | Google LLC | Multilingual re-scoring models for automatic speech recognition |
CN117396879A (zh) * | 2021-06-04 | 2024-01-12 | 谷歌有限责任公司 | 用于生成地区特定语音拼写变体的***和方法 |
CN113643718B (zh) * | 2021-08-16 | 2024-06-18 | 贝壳找房(北京)科技有限公司 | 音频数据处理方法和装置 |
CN113936647B (zh) * | 2021-12-17 | 2022-04-01 | 中国科学院自动化研究所 | 语音识别模型的训练方法、语音识别方法和*** |
CN114078469B (zh) * | 2022-01-19 | 2022-05-10 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置、终端和存储介质 |
US20230360646A1 (en) * | 2022-05-05 | 2023-11-09 | Nuance Communications, Inc. | End-to-end automatic speech recognition system for both conversational and command-and-control speech |
US20240127801A1 (en) * | 2022-10-13 | 2024-04-18 | International Business Machines Corporation | Domain adaptive speech recognition using artificial intelligence |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019507362A (ja) * | 2016-02-05 | 2019-03-14 | グーグル エルエルシー | 外部データソースを用いた音声の再認識 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040078191A1 (en) * | 2002-10-22 | 2004-04-22 | Nokia Corporation | Scalable neural network-based language identification from written text |
US7415411B2 (en) * | 2004-03-04 | 2008-08-19 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers |
TWI233589B (en) * | 2004-03-05 | 2005-06-01 | Ind Tech Res Inst | Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously |
ATE385024T1 (de) * | 2005-02-21 | 2008-02-15 | Harman Becker Automotive Sys | Multilinguale spracherkennung |
EP1975923B1 (en) * | 2007-03-28 | 2016-04-27 | Nuance Communications, Inc. | Multilingual non-native speech recognition |
US7991615B2 (en) * | 2007-12-07 | 2011-08-02 | Microsoft Corporation | Grapheme-to-phoneme conversion using acoustic data |
CN101727901B (zh) * | 2009-12-10 | 2011-11-09 | 清华大学 | 嵌入式***的汉英双语语音识别方法 |
US8886533B2 (en) * | 2011-10-25 | 2014-11-11 | At&T Intellectual Property I, L.P. | System and method for combining frame and segment level processing, via temporal pooling, for phonetic classification |
WO2014005142A2 (en) * | 2012-06-29 | 2014-01-03 | Rosetta Stone Ltd | Systems and methods for modeling l1-specific phonological errors in computer-assisted pronunciation training system |
US9159317B2 (en) * | 2013-06-14 | 2015-10-13 | Mitsubishi Electric Research Laboratories, Inc. | System and method for recognizing speech |
KR102084646B1 (ko) * | 2013-07-04 | 2020-04-14 | 삼성전자주식회사 | 음성 인식 장치 및 음성 인식 방법 |
US9502032B2 (en) * | 2014-10-08 | 2016-11-22 | Google Inc. | Dynamically biasing language models |
US9966066B1 (en) * | 2016-02-03 | 2018-05-08 | Nvoq Incorporated | System and methods for combining finite state transducer based speech recognizers |
JP6727607B2 (ja) * | 2016-06-09 | 2020-07-22 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
US10235991B2 (en) * | 2016-08-09 | 2019-03-19 | Apptek, Inc. | Hybrid phoneme, diphone, morpheme, and word-level deep neural networks |
US10074369B2 (en) * | 2016-09-01 | 2018-09-11 | Amazon Technologies, Inc. | Voice-based communications |
US10311876B2 (en) * | 2017-02-14 | 2019-06-04 | Google Llc | Server side hotwording |
US11093110B1 (en) * | 2017-07-17 | 2021-08-17 | Amazon Technologies, Inc. | Messaging feedback mechanism |
CN112262430B (zh) * | 2018-08-23 | 2024-06-25 | 谷歌有限责任公司 | 自动确定经由自动助理界面接收到的口头话语的语音识别的语言 |
US10861446B2 (en) * | 2018-12-10 | 2020-12-08 | Amazon Technologies, Inc. | Generating input alternatives |
US11069353B1 (en) * | 2019-05-06 | 2021-07-20 | Amazon Technologies, Inc. | Multilingual wakeword detection |
-
2020
- 2020-04-28 WO PCT/US2020/030321 patent/WO2020226948A1/en unknown
- 2020-04-28 CN CN202311813671.5A patent/CN117935785A/zh active Pending
- 2020-04-28 US US16/861,190 patent/US11270687B2/en active Active
- 2020-04-28 EP EP20729879.5A patent/EP3948849A1/en active Pending
- 2020-04-28 CN CN202080028777.2A patent/CN113692616B/zh active Active
- 2020-04-28 KR KR1020227008217A patent/KR20220038514A/ko active Application Filing
- 2020-04-28 JP JP2021564950A patent/JP7092953B2/ja active Active
- 2020-04-28 KR KR1020217035448A patent/KR102375115B1/ko active IP Right Grant
-
2022
- 2022-02-16 US US17/651,315 patent/US11942076B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019507362A (ja) * | 2016-02-05 | 2019-03-14 | グーグル エルエルシー | 外部データソースを用いた音声の再認識 |
Non-Patent Citations (1)
Title |
---|
PATEL, AMI ET AL.: ""CROSS-LINGUAL PHONEME MAPPING FOR LANGUAGE ROBUST CONTEXTUAL SPEECH RECOGNITION"", PROC. OF THE 2018 IEEE ICASSP, JPN6022022490, 15 April 2018 (2018-04-15), pages 5924 - 5928, XP033400925, ISSN: 0004794117, DOI: 10.1109/ICASSP.2018.8461600 * |
Also Published As
Publication number | Publication date |
---|---|
CN113692616B (zh) | 2024-01-05 |
KR20220038514A (ko) | 2022-03-28 |
EP3948849A1 (en) | 2022-02-09 |
US20200349923A1 (en) | 2020-11-05 |
KR20210138776A (ko) | 2021-11-19 |
CN113692616A (zh) | 2021-11-23 |
WO2020226948A1 (en) | 2020-11-12 |
JP7092953B2 (ja) | 2022-06-28 |
US11942076B2 (en) | 2024-03-26 |
CN117935785A (zh) | 2024-04-26 |
US20220172706A1 (en) | 2022-06-02 |
KR102375115B1 (ko) | 2022-03-17 |
US11270687B2 (en) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7092953B2 (ja) | エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析 | |
JP7280382B2 (ja) | 数字列のエンドツーエンド自動音声認識 | |
KR102390940B1 (ko) | 음성 인식을 위한 컨텍스트 바이어싱 | |
EP4078572B1 (en) | Proper noun recognition in end-to-end speech recognition | |
JP2023545988A (ja) | トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル | |
CN117099157A (zh) | 用于端到端自动语音识别置信度和删除估计的多任务学习 | |
KR20240089276A (ko) | 다중 언어 자동 스피치 인식을 위한 공동 비지도 및 지도 트레이닝 | |
US20220310067A1 (en) | Lookup-Table Recurrent Language Model | |
JP2024512606A (ja) | 自己アライメントを用いたストリーミングasrモデル遅延の短縮 | |
US11893349B2 (en) | Systems and methods for generating locale-specific phonetic spelling variations | |
CN113811946B (zh) | 数字序列的端到端自动语音识别 | |
US20220310061A1 (en) | Regularizing Word Segmentation | |
Theis | Learning to detect named entities in bilingual code-mixed open speech corpora | |
WO2024118387A1 (en) | Monte carlo self-training for speech recognition | |
WO2024086265A1 (en) | Context-aware end-to-end asr fusion of context, acoustic and text representations | |
CN117378005A (zh) | 用于自动语音识别的多语言重新评分模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220124 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A801 Effective date: 20220124 Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20220124 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220607 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220616 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7092953 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |