JP7335460B2 - テキストエコー消去 - Google Patents
テキストエコー消去 Download PDFInfo
- Publication number
- JP7335460B2 JP7335460B2 JP2022576155A JP2022576155A JP7335460B2 JP 7335460 B2 JP7335460 B2 JP 7335460B2 JP 2022576155 A JP2022576155 A JP 2022576155A JP 2022576155 A JP2022576155 A JP 2022576155A JP 7335460 B2 JP7335460 B2 JP 7335460B2
- Authority
- JP
- Japan
- Prior art keywords
- audio
- text
- sequence
- audio signal
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 claims description 140
- 238000000034 method Methods 0.000 claims description 44
- 230000015654 memory Effects 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 36
- 230000007246 mechanism Effects 0.000 claims description 32
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 18
- 230000008030 elimination Effects 0.000 claims description 12
- 238000003379 elimination reaction Methods 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 18
- 238000002592 echocardiography Methods 0.000 description 13
- 238000001914 filtration Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000004044 response Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013329 compounding Methods 0.000 description 1
- 230000001808 coupling effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Description
12 発声
100 音声環境
110 音声対応デバイス
112 データ処理ハードウェア
114 メモリハードウェア
116 オーディオ取り込みデバイス
118 音声出力デバイス
120 ネットワーク
130 リモートシステム
132 リモートリソース
134 リモートデータ処理ハードウェア
136 リモートメモリハードウェア
140 音声認識システム
142 トランスクリプション
150 TTSシステム
152 テキスト
154 合成再生オーディオ
156 エコー
160 AECシステム
200 TECシステム
202 オーディオ信号
204 重複領域
206 改善オーディオ信号
210 テキストエンコーダ
212 テキスト埋め込み表現
214 キャラクタ埋め込み
220 注意メカニズム
222 消去確率
224 注意重み
230 消去ニューラルネットワーク
300 トレーニングプロセス
302 トレーニング例
310 グランドトゥルースオーディオ信号
320 トレーニング用重複オーディオ信号
330 トレーニング用テキスト
500 コンピューティングデバイス
500a サーバ
500b ラップトップコンピュータ
500c ラックサーバシステム
510 プロセッサ
520 メモリ
530 記憶デバイス
540 高速インタフェース/コントローラ
550 高速拡張ポート
560 低速インタフェース/コントローラ
570 低速バス
580 ディスプレイ
590 低速拡張ポート
Claims (20)
- コンピュータ実装方法であって、データ処理ハードウェア上で実行されると前記データ処理ハードウェアに、
合成再生オーディオのセグメントに重複する、話者によって発話されたオーディオを含む重複オーディオ信号を受信するステップと、
前記合成再生オーディオに対応するキャラクタのシーケンスをテキスト埋め込み表現に符号化するステップと、
前記キャラクタのシーケンス内の各キャラクタについて、前記テキスト埋め込み表現を使用して、前記対応するキャラクタが、前記重複オーディオ信号内で前記話者によって発話された前記オーディオに重複する前記合成再生オーディオの前記セグメントに関連する尤度を示すそれぞれの消去確率を生成するステップと、
前記重複オーディオ信号と前記キャラクタのシーケンス内の各キャラクタについて生成された前記それぞれの消去確率とを入力として受信するように構成される消去ニューラルネットワークを使用して、前記合成再生オーディオの前記セグメントを前記重複オーディオ信号から除去することによって改善オーディオ信号を生成するステップと
を含む動作を実行させる、コンピュータ実装方法。 - テキスト/音声変換(TTS)システムが、前記キャラクタのシーケンスを前記合成再生オーディオを含む合成音声に変換する、請求項1に記載のコンピュータ実装方法。
- 前記テキスト埋め込み表現は、単一の、固定次元のテキスト埋め込みベクトルを含む、請求項1に記載のコンピュータ実装方法。
- 前記キャラクタのシーケンスを符号化するステップは、キャラクタ埋め込み列を生成するために前記キャラクタのシーケンス内の各キャラクタを対応するキャラクタ埋め込みに符号化するステップを含む、請求項1に記載のコンピュータ実装方法。
- 前記重複オーディオ信号はフレームのシーケンスを含み、前記フレームのシーケンス内の各フレームは、合成再生オーディオの前記セグメントに重複する、前記話者によって発話された前記オーディオの一部に対応し、
前記キャラクタのシーケンス内の各キャラクタについて前記それぞれの消去確率を生成するステップは、前記対応するキャラクタ埋め込みが前記重複オーディオ信号の前記フレームのシーケンス内の前記フレームのうちの1つに対応するときに前記対応するキャラクタ埋め込みに重みを適用するために注意メカニズムを使用するステップを含む、
請求項4に記載のコンピュータ実装方法。 - 前記動作は、複数のトレーニング例を用いて前記消去ニューラルネットワークをトレーニングするステップをさらに含み、各トレーニング例は、
非合成音声に対応するグランドトゥルースオーディオ信号と、
合成オーディオ信号に重複する前記グランドトゥルースオーディオ信号を含むトレーニング用重複オーディオ信号と、
前記合成オーディオ信号のそれぞれのテキスト表現であって、前記テキスト表現はキャラクタのシーケンスを含む、テキスト表現と
を含む、請求項1に記載のコンピュータ実装方法。 - テキスト符号化ニューラルネットワークのテキストエンコーダが、前記合成再生オーディオに対応する前記キャラクタのシーケンスを前記テキスト埋め込み表現に符号化する、請求項1に記載のコンピュータ実装方法。
- 前記テキストエンコーダはテキスト/音声変換(TTS)システムによって共有され、前記TTSシステムは、前記キャラクタのシーケンスから前記合成再生オーディオを生成するように構成される、請求項7に記載のコンピュータ実装方法。
- 前記消去ニューラルネットワークは、複数の長短期記憶(LSTM)層を有するLSTMネットワークを含む、請求項1に記載のコンピュータ実装方法。
- 前記動作は、前記合成再生オーディオのテキスト表現が利用可能であることの指示を受信するステップをさらに含む、請求項1に記載のコンピュータ実装方法。
- システムであって
データ処理ハードウェアと、
前記データ処理ハードウェアと通信するメモリハードウェアであって、前記データ処理ハードウェア上で実行されると前記データ処理ハードウェアに、
合成再生オーディオのセグメントに重複する、話者によって発話されたオーディオを含む重複オーディオ信号を受信することと、
前記合成再生オーディオに対応するキャラクタのシーケンスをテキスト埋め込み表現に符号化することと、
前記キャラクタのシーケンス内の各キャラクタについて、前記テキスト埋め込み表現を使用して、前記対応するキャラクタが、前記重複オーディオ信号内で前記話者によって発話された前記オーディオに重複する前記合成再生オーディオの前記セグメントに関連する尤度を示すそれぞれの消去確率を生成することと、
前記重複オーディオ信号と前記キャラクタのシーケンス内の各キャラクタについて生成された前記それぞれの消去確率とを入力として受信するように構成される消去ニューラルネットワークを使用して、前記合成再生オーディオの前記セグメントを前記重複オーディオ信号から除去することによって改善オーディオ信号を生成することと
を備える動作を実行させる命令を記憶する、メモリハードウェアと
を備える、システム。 - テキスト/音声変換(TTS)システムが、前記キャラクタのシーケンスを前記合成再生オーディオを含む合成音声に変換する、請求項11に記載のシステム。
- 前記テキスト埋め込み表現は、単一の、固定次元のテキスト埋め込みベクトルを含む、請求項11に記載のシステム。
- 前記キャラクタのシーケンスを符号化する動作は、キャラクタ埋め込み列を生成するために前記キャラクタのシーケンス内の各キャラクタを対応するキャラクタ埋め込みに符号化することを含む、請求項11に記載のシステム。
- 前記重複オーディオ信号はフレームのシーケンスを含み、前記フレームのシーケンス内の各フレームは、合成再生オーディオの前記セグメントに重複する、前記話者によって発話された前記オーディオの一部に対応し、
前記キャラクタのシーケンス内の各キャラクタについて前記それぞれの消去確率を生成することは、前記対応するキャラクタ埋め込みが前記重複オーディオ信号の前記フレームのシーケンス内の前記フレームのうちの1つに対応するときに前記対応するキャラクタ埋め込みに重みを適用するために注意メカニズムを使用することを含む、請求項14に記載のシステム。 - 前記動作は、複数のトレーニング例を用いて前記消去ニューラルネットワークをトレーニングすることをさらに含み、各トレーニング例は、
非合成音声に対応するグランドトゥルースオーディオ信号と、
合成オーディオ信号に重複する前記グランドトゥルースオーディオ信号を含むトレーニング用重複オーディオ信号と、
前記合成オーディオ信号のそれぞれのテキスト表現であって、前記テキスト表現はキャラクタのシーケンスを含む、テキスト表現と
を含む、請求項11に記載のシステム。 - テキスト符号化ニューラルネットワークのテキストエンコーダが、前記合成再生オーディオに対応する前記キャラクタのシーケンスを前記テキスト埋め込み表現に符号化する、請求項11に記載のシステム。
- 前記テキストエンコーダはテキスト/音声変換(TTS)システムによって共有され、前記TTSシステムは、前記キャラクタのシーケンスから前記合成再生オーディオを生成するように構成される、請求項17に記載のシステム。
- 前記消去ニューラルネットワークは、複数のLSTM層を有する長短期記憶(LSTM)ネットワークを含む、請求項11に記載のシステム。
- 前記動作は、前記合成再生オーディオのテキスト表現が利用可能であることの指示を受信することをさらに含む、請求項11に記載のシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023132585A JP2023162265A (ja) | 2020-06-10 | 2023-08-16 | テキストエコー消去 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063037137P | 2020-06-10 | 2020-06-10 | |
US63/037,137 | 2020-06-10 | ||
PCT/US2021/022008 WO2021252039A1 (en) | 2020-06-10 | 2021-03-11 | Textual echo cancelation |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023132585A Division JP2023162265A (ja) | 2020-06-10 | 2023-08-16 | テキストエコー消去 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023529699A JP2023529699A (ja) | 2023-07-11 |
JP7335460B2 true JP7335460B2 (ja) | 2023-08-29 |
Family
ID=75302675
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022576155A Active JP7335460B2 (ja) | 2020-06-10 | 2021-03-11 | テキストエコー消去 |
JP2023132585A Pending JP2023162265A (ja) | 2020-06-10 | 2023-08-16 | テキストエコー消去 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023132585A Pending JP2023162265A (ja) | 2020-06-10 | 2023-08-16 | テキストエコー消去 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11482244B2 (ja) |
EP (1) | EP4139920B1 (ja) |
JP (2) | JP7335460B2 (ja) |
KR (1) | KR20230020508A (ja) |
CN (1) | CN115699170A (ja) |
WO (1) | WO2021252039A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111427932B (zh) * | 2020-04-02 | 2022-10-04 | 南方科技大学 | 出行预测方法、装置、设备和存储介质 |
US12010260B2 (en) * | 2021-11-03 | 2024-06-11 | Capital One Services, Llc | Detecting synthetic sounds in call audio |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150235637A1 (en) | 2014-02-14 | 2015-08-20 | Google Inc. | Recognizing speech in the presence of additional audio |
JP2019191557A (ja) | 2018-04-20 | 2019-10-31 | 百度在線網絡技術(北京)有限公司 | 音声認識方法、装置、機器及び記憶媒体 |
WO2020005202A1 (en) | 2018-06-25 | 2020-01-02 | Google Llc | Hotword-aware speech synthesis |
WO2020110808A1 (ja) | 2018-11-30 | 2020-06-04 | パナソニックIpマネジメント株式会社 | 翻訳装置及び翻訳方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9324322B1 (en) | 2013-06-18 | 2016-04-26 | Amazon Technologies, Inc. | Automatic volume attenuation for speech enabled devices |
US9972339B1 (en) | 2016-08-04 | 2018-05-15 | Amazon Technologies, Inc. | Neural network based beam selection |
EP3474280B1 (en) | 2017-10-19 | 2021-07-07 | Goodix Technology (HK) Company Limited | Signal processor for speech signal enhancement |
-
2021
- 2021-03-11 CN CN202180040717.7A patent/CN115699170A/zh active Pending
- 2021-03-11 KR KR1020237000248A patent/KR20230020508A/ko not_active Application Discontinuation
- 2021-03-11 EP EP21715745.2A patent/EP4139920B1/en active Active
- 2021-03-11 JP JP2022576155A patent/JP7335460B2/ja active Active
- 2021-03-11 WO PCT/US2021/022008 patent/WO2021252039A1/en unknown
- 2021-03-11 US US17/199,347 patent/US11482244B2/en active Active
-
2022
- 2022-10-09 US US18/045,168 patent/US11776563B2/en active Active
-
2023
- 2023-08-16 JP JP2023132585A patent/JP2023162265A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150235637A1 (en) | 2014-02-14 | 2015-08-20 | Google Inc. | Recognizing speech in the presence of additional audio |
JP2019191557A (ja) | 2018-04-20 | 2019-10-31 | 百度在線網絡技術(北京)有限公司 | 音声認識方法、装置、機器及び記憶媒体 |
WO2020005202A1 (en) | 2018-06-25 | 2020-01-02 | Google Llc | Hotword-aware speech synthesis |
WO2020110808A1 (ja) | 2018-11-30 | 2020-06-04 | パナソニックIpマネジメント株式会社 | 翻訳装置及び翻訳方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20230020508A (ko) | 2023-02-10 |
US20210390975A1 (en) | 2021-12-16 |
JP2023529699A (ja) | 2023-07-11 |
US11482244B2 (en) | 2022-10-25 |
WO2021252039A1 (en) | 2021-12-16 |
US20230114386A1 (en) | 2023-04-13 |
EP4139920A1 (en) | 2023-03-01 |
EP4139920B1 (en) | 2024-03-06 |
CN115699170A (zh) | 2023-02-03 |
JP2023162265A (ja) | 2023-11-08 |
US11776563B2 (en) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11355097B2 (en) | Sample-efficient adaptive text-to-speech | |
US11776563B2 (en) | Textual echo cancellation | |
US11699453B2 (en) | Adaptive multichannel dereverberation for automatic speech recognition | |
JP7485858B2 (ja) | 実世界ノイズを使用した音声個性化および連合訓練 | |
EP4062400A1 (en) | Deliberation model-based two-pass end-to-end speech recognition | |
US20230178067A1 (en) | Method of training speech synthesis model and method of synthesizing speech | |
US20230186901A1 (en) | Attention-Based Joint Acoustic and Text On-Device End-to-End Model | |
JP2022101663A (ja) | ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN117043856A (zh) | 高效流式非递归设备上的端到端模型 | |
JP2024513778A (ja) | 自己適応型蒸留 | |
JP4809358B2 (ja) | 対話システムの忠実度を向上させる方法及びシステム | |
KR20240065125A (ko) | 희귀 단어 스피치 인식을 위한 대규모 언어 모델 데이터 선택 | |
US20230298609A1 (en) | Generalized Automatic Speech Recognition for Joint Acoustic Echo Cancellation, Speech Enhancement, and Voice Separation | |
JP2021157145A (ja) | 推論器および推論器の学習方法 | |
JP2024510816A (ja) | タイイングされ縮小されたrnn-t | |
US20220310061A1 (en) | Regularizing Word Segmentation | |
US20230038982A1 (en) | Joint Acoustic Echo Cancelation, Speech Enhancement, and Voice Separation for Automatic Speech Recognition | |
US20230298612A1 (en) | Microphone Array Configuration Invariant, Streaming, Multichannel Neural Enhancement Frontend for Automatic Speech Recognition | |
Coucke et al. | On-device Voice Control on Sonos Speakers | |
JP2024512071A (ja) | 自動音声認識のための多言語再スコアリングモデル |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230111 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230111 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230718 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230817 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7335460 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |