JP7508533B2 - 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション - Google Patents
話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション Download PDFInfo
- Publication number
- JP7508533B2 JP7508533B2 JP2022194890A JP2022194890A JP7508533B2 JP 7508533 B2 JP7508533 B2 JP 7508533B2 JP 2022194890 A JP2022194890 A JP 2022194890A JP 2022194890 A JP2022194890 A JP 2022194890A JP 7508533 B2 JP7508533 B2 JP 7508533B2
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- speaker
- processing
- additional
- verbal input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims description 110
- 238000000034 method Methods 0.000 claims description 89
- 230000004044 response Effects 0.000 claims description 54
- 230000001755 vocal effect Effects 0.000 claims description 54
- 230000008569 process Effects 0.000 claims description 30
- 230000009471 action Effects 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 16
- 238000003058 natural language processing Methods 0.000 claims description 9
- 238000012544 monitoring process Methods 0.000 claims description 7
- 230000002401 inhibitory effect Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 description 64
- 238000010801 machine learning Methods 0.000 description 25
- 230000000694 effects Effects 0.000 description 17
- 230000004913 activation Effects 0.000 description 13
- 238000001994 activation Methods 0.000 description 13
- 239000013598 vector Substances 0.000 description 9
- 230000001364 causal effect Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000000670 limiting effect Effects 0.000 description 4
- 229920002803 thermoplastic polyurethane Polymers 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 241000269400 Sirenidae Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Stereophonic System (AREA)
- Telephonic Communication Services (AREA)
Description
107 自動化アシスタントクライアント
108 ローカルエンジン
110 ローカルおよび/またはワイドエリアネットワーク、ネットワーク
120 洗練化エンジン
125 話者埋め込みエンジン
126 話者埋め込み
130 訓練インスタンスエンジン
132 損失モジュール
134 更新モジュール
135 追加の構成要素
140 自動化アシスタント
152 話者埋め込みモデル
156 生成モデル
157A 隠れ層、層
157B 隠れ層、層
157C 隠れ層、層
160 オーディオデータデータベース
164A 追加のオーディオデータA
164B 追加のオーディオデータB
170 訓練インスタンスデータベース
170A~170N 訓練インスタンス
171A オーディオデータの混合インスタンス、混合オーディオデータA
171B 混合オーディオデータB
172A 埋め込み
173A グラウンドトゥルースオーディオデータ
174A 損失
175A 予測オーディオデータ
180 自動化アシスタント構成要素
181 クラウドベースのTTSモジュール、TTSモジュール
182 クラウドベースのSTTモジュール、STTモジュール
183 自然言語プロセッサ
184 対話状態トラッカ
185 対話マネージャ
190 リモート音声処理システム
570 オーディオデータ
573 洗練されたオーディオデータ
670 オーディオデータ
675 洗練されたオーディオデータ
770 オーディオデータ
775A 第1の洗練されたオーディオデータ
775B 第2の洗練されたオーディオデータ
777A 部分
777B 部分
970 要求
971 応答
1070 入力オーディオデータ、入力オーディオ
1070t 時間ステップ
1070t-15 時間ステップ
1073 洗練されたオーディオデータ
1073t 時間ステップ
1073t-15 時間ステップ
1110 コンピューティングデバイス
1112 バスサブシステム
1114 プロセッサ
1116 ネットワークインターフェースサブシステム
1120 ユーザインターフェース出力デバイス
1122 ユーザインターフェース入力デバイス
1124 記憶サブシステム
1125 メモリサブシステム、メモリ
1126 ファイル記憶サブシステム
1130 メインランダムアクセスメモリ(RAM)
1132 読み取り専用メモリ(ROM)
Claims (12)
クライアントデバイスにおいて自動化アシスタントクライアントを呼び出すステップであって、前記自動化アシスタントクライアントを呼び出すステップが、受信されたユーザインターフェース入力における1つまたは複数の呼び出しキューを検出したことに応答する、ステップと、
前記自動化アシスタントクライアントを呼び出したことに応答して、
前記クライアントデバイスの1つまたは複数のマイクロフォンを介して受信された最初の口頭入力を処理するステップと、
前記最初の口頭入力の前記処理に基づいて応答アクションを生成するステップと、
前記応答アクションの実行を引き起こすステップと、
前記応答アクションの少なくとも一部の実行を引き起こした後、追加の口頭入力を自動的に監視するステップと、
前記自動的に監視している間にオーディオデータを受信するステップと、
前記オーディオデータの洗練されたバージョンを生成するステップであって、前記洗練されたバージョンが人間の話者からの前記オーディオデータのいずれかを分離し、前記オーディオデータの前記洗練されたバージョンを生成するステップが、
前記最初の口頭入力を提供した前記人間の話者のための話者埋め込みを識別するステップと、
訓練された生成モデルを使用して前記オーディオデータおよび前記話者埋め込みを処理するステップとを含み、
前記オーディオデータの前記洗練されたバージョンに基づいて、前記オーディオデータが、前記最初の口頭入力を提供した同じ人間の話者からの追加の口頭入力を含むかどうかを判断するステップと、
前記オーディオデータが、同じ人間の話者からの追加の口頭入力を含むと判断したことに応答して、
前記追加の口頭入力に基づく特定のさらなる処理を実行するステップとを含む、
方法。
請求項1に記載の方法。
請求項1に記載の方法。
1つまたは複数のマイクロフォンと、
命令を記憶するメモリと、
1つまたは複数のプロセッサであって、
前記クライアントデバイスにおいて自動化アシスタントクライアントを呼び出すことであって、前記自動化アシスタントクライアントを呼び出すことが、受信されたユーザインターフェース入力における1つまたは複数の呼び出しキューを検出したことに応答する、ことと、
前記自動化アシスタントクライアントを呼び出したことに応答して、
前記1つまたは複数のマイクロフォンを介して受信された最初の口頭入力を処理することと、
前記最初の口頭入力の前記処理に基づいて応答アクションを実行することと、
前記応答アクションの少なくとも一部の実行を引き起こした後、追加の口頭入力を自動的に監視することと、
前記自動的に監視している間に前記1つまたは複数のマイクロフォンを介してオーディオデータを受信することと、
前記オーディオデータの洗練されたバージョンを生成することであって、前記洗練されたバージョンが人間の話者からの前記オーディオデータのいずれかを分離し、前記オーディオデータの前記洗練されたバージョンを生成する際に、1つまたは複数の前記プロセッサが、
前記最初の口頭入力を提供した前記人間の話者のためのローカルに記憶された話者埋め込みを識別することと、
ローカルに記憶された訓練された生成モデルを使用して前記オーディオデータおよび前記話者埋め込みを処理することとを行い、
前記オーディオデータの前記洗練されたバージョンに基づいて、前記オーディオデータが、前記最初の口頭入力を提供した同じ人間の話者からの追加の口頭入力を含むかどうかを判断することと、
前記オーディオデータが、同じ人間の話者からの追加の口頭入力を含むと判断したことに応答して、
前記追加の口頭入力に基づく特定のさらなる処理を実行することとを行うために、前記メモリに記憶された前記命令を実行する1つまたは複数のプロセッサとを備える、
クライアントデバイス。
前記オーディオデータが、同じ人間の話者からのいかなる追加の口頭入力も含まないと判断したことに応答して、前記オーディオデータに対する前記特定の処理のうちの少なくともいくつかの実行を抑制することをさらに行う、
請求項7に記載のクライアントデバイス。
前記オーディオデータが、同じ人間の話者からのいかなる追加の口頭入力も含まないと判断したことに応答して、前記オーディオデータに合わせて調整された任意の追加の応答アクションの生成を抑制することをさらに行う、
請求項7に記載のクライアントデバイス。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022194890A JP7508533B2 (ja) | 2018-09-25 | 2022-12-06 | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2018/052724 WO2020068056A1 (en) | 2018-09-25 | 2018-09-25 | Speaker diarization using speaker embedding(s) and trained generative model |
JP2020568987A JP7191987B2 (ja) | 2018-09-25 | 2018-09-25 | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション |
JP2022194890A JP7508533B2 (ja) | 2018-09-25 | 2022-12-06 | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020568987A Division JP7191987B2 (ja) | 2018-09-25 | 2018-09-25 | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023029973A JP2023029973A (ja) | 2023-03-07 |
JP7508533B2 true JP7508533B2 (ja) | 2024-07-01 |
Family
ID=63858134
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020568987A Active JP7191987B2 (ja) | 2018-09-25 | 2018-09-25 | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション |
JP2022194890A Active JP7508533B2 (ja) | 2018-09-25 | 2022-12-06 | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020568987A Active JP7191987B2 (ja) | 2018-09-25 | 2018-09-25 | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション |
Country Status (6)
Country | Link |
---|---|
US (3) | US10978059B2 (ja) |
EP (3) | EP3655947B1 (ja) |
JP (2) | JP7191987B2 (ja) |
KR (2) | KR102492783B1 (ja) |
CN (1) | CN112262431A (ja) |
WO (1) | WO2020068056A1 (ja) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9633650B2 (en) * | 2013-08-28 | 2017-04-25 | Verint Systems Ltd. | System and method of automated model adaptation |
KR102544250B1 (ko) * | 2018-07-03 | 2023-06-16 | 삼성전자주식회사 | 소리를 출력하는 디바이스 및 그 방법 |
EP3655947B1 (en) * | 2018-09-25 | 2022-03-09 | Google LLC | Speaker diarization using speaker embedding(s) and trained generative model |
US11250838B2 (en) * | 2018-11-16 | 2022-02-15 | Deepmind Technologies Limited | Cross-modal sequence distillation |
US11527235B2 (en) * | 2018-12-03 | 2022-12-13 | Google Llc | Text independent speaker recognition |
US11853812B2 (en) * | 2018-12-20 | 2023-12-26 | Here Global B.V. | Single component data processing system and method utilizing a trained neural network |
US11217254B2 (en) * | 2018-12-24 | 2022-01-04 | Google Llc | Targeted voice separation by speaker conditioned on spectrogram masking |
CN114175149A (zh) * | 2019-07-01 | 2022-03-11 | 谷歌有限责任公司 | 自适应日志模型和用户界面 |
US11514911B2 (en) * | 2019-09-12 | 2022-11-29 | Oracle International Corporation | Reduced training for dialog systems using a database |
US11521592B2 (en) * | 2019-09-24 | 2022-12-06 | Baidu Usa Llc | Small-footprint flow-based models for raw audio |
GB2595222A (en) * | 2020-05-18 | 2021-11-24 | Waves Audio Ltd | Digital audio workstation with audio processing recommendations |
US11328733B2 (en) * | 2020-09-24 | 2022-05-10 | Synaptics Incorporated | Generalized negative log-likelihood loss for speaker verification |
KR102482827B1 (ko) * | 2020-11-30 | 2022-12-29 | 네이버 주식회사 | 화자 임베딩 기반 음성 활동 검출을 이용한 화자 분할 방법, 시스템, 및 컴퓨터 프로그램 |
US11557278B2 (en) * | 2020-12-10 | 2023-01-17 | Google Llc | Speaker dependent follow up actions and warm words |
WO2022133125A1 (en) * | 2020-12-16 | 2022-06-23 | Truleo, Inc. | Audio analysis of body worn camera |
KR102560019B1 (ko) * | 2021-01-15 | 2023-07-27 | 네이버 주식회사 | 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램 |
WO2022173989A1 (en) | 2021-02-11 | 2022-08-18 | Nuance Communications, Inc. | Multi-channel speech compression system and method |
WO2022232284A1 (en) * | 2021-04-30 | 2022-11-03 | Dolby Laboratories Licensing Corporation | Speaker diarization supporting eposodical content |
US20230069049A1 (en) * | 2021-08-23 | 2023-03-02 | Robert Bosch Gmbh | System and method for a natural language understanding system based on iterative intent detection and slot filling neural layers |
US20230169988A1 (en) * | 2021-11-30 | 2023-06-01 | Samsung Electronics Co., Ltd. | Method and apparatus for performing speaker diarization based on language identification |
WO2024035424A1 (en) * | 2022-08-08 | 2024-02-15 | Google Llc | Dynamically determining whether to perform candidate automated assistant action determined from spoken utterance |
KR102685265B1 (ko) | 2022-12-27 | 2024-07-15 | 부산대학교 산학협력단 | 대규모 대화 음성 데이터 분석을 위한 자동 화자 레이블링 방법 및 장치 |
CN116631406B (zh) * | 2023-07-21 | 2023-10-13 | 山东科技大学 | 基于声学特征生成的身份特征提取方法、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005122194A (ja) | 2004-10-22 | 2005-05-12 | Seiko Epson Corp | 音声認識対話装置および音声認識対話処理方法 |
US20170270919A1 (en) | 2016-03-21 | 2017-09-21 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
WO2018125292A1 (en) | 2016-12-27 | 2018-07-05 | Google Llc | Contextual hotwords |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040122672A1 (en) * | 2002-12-18 | 2004-06-24 | Jean-Francois Bonastre | Gaussian model-based dynamic time warping system and method for speech processing |
US8155961B2 (en) * | 2008-12-09 | 2012-04-10 | Nokia Corporation | Adaptation of automatic speech recognition acoustic models |
US8756062B2 (en) * | 2010-12-10 | 2014-06-17 | General Motors Llc | Male acoustic model adaptation based on language-independent female speech data |
KR101330328B1 (ko) | 2010-12-14 | 2013-11-15 | 한국전자통신연구원 | 음성 인식 방법 및 이를 위한 시스템 |
US9262612B2 (en) * | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9368116B2 (en) | 2012-09-07 | 2016-06-14 | Verint Systems Ltd. | Speaker separation in diarization |
US9460722B2 (en) * | 2013-07-17 | 2016-10-04 | Verint Systems Ltd. | Blind diarization of recorded calls with arbitrary number of speakers |
US20160293167A1 (en) * | 2013-10-10 | 2016-10-06 | Google Inc. | Speaker recognition using neural networks |
US9324320B1 (en) * | 2014-10-02 | 2016-04-26 | Microsoft Technology Licensing, Llc | Neural network-based speech processing |
US9978374B2 (en) * | 2015-09-04 | 2018-05-22 | Google Llc | Neural networks for speaker verification |
US10706873B2 (en) | 2015-09-18 | 2020-07-07 | Sri International | Real-time speaker state analytics platform |
US10733979B2 (en) * | 2015-10-09 | 2020-08-04 | Google Llc | Latency constraints for acoustic modeling |
JP6463710B2 (ja) | 2015-10-16 | 2019-02-06 | グーグル エルエルシー | ホットワード認識 |
US9747926B2 (en) | 2015-10-16 | 2017-08-29 | Google Inc. | Hotword recognition |
US20180018973A1 (en) * | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
CN108320732A (zh) * | 2017-01-13 | 2018-07-24 | 阿里巴巴集团控股有限公司 | 生成目标说话人语音识别计算模型的方法和装置 |
US10464530B2 (en) | 2017-01-17 | 2019-11-05 | Nio Usa, Inc. | Voice biometric pre-purchase enrollment for autonomous vehicles |
US10460727B2 (en) * | 2017-03-03 | 2019-10-29 | Microsoft Technology Licensing, Llc | Multi-talker speech recognizer |
KR101989106B1 (ko) * | 2017-03-31 | 2019-06-13 | 엘지전자 주식회사 | 홈 어플라이언스, 음성 인식 모듈 및 홈 어플라이언스 시스템 |
EP3655947B1 (en) * | 2018-09-25 | 2022-03-09 | Google LLC | Speaker diarization using speaker embedding(s) and trained generative model |
-
2018
- 2018-09-25 EP EP18786558.9A patent/EP3655947B1/en active Active
- 2018-09-25 KR KR1020207035754A patent/KR102492783B1/ko active IP Right Grant
- 2018-09-25 EP EP24172258.6A patent/EP4383249A3/en active Pending
- 2018-09-25 JP JP2020568987A patent/JP7191987B2/ja active Active
- 2018-09-25 KR KR1020237002422A patent/KR102535338B1/ko active IP Right Grant
- 2018-09-25 CN CN201880094528.6A patent/CN112262431A/zh active Granted
- 2018-09-25 WO PCT/US2018/052724 patent/WO2020068056A1/en unknown
- 2018-09-25 EP EP22152829.2A patent/EP4009321B1/en active Active
- 2018-09-25 US US16/607,977 patent/US10978059B2/en active Active
-
2021
- 2021-03-29 US US17/215,129 patent/US11735176B2/en active Active
-
2022
- 2022-12-06 JP JP2022194890A patent/JP7508533B2/ja active Active
-
2023
- 2023-08-21 US US18/236,302 patent/US20230395069A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005122194A (ja) | 2004-10-22 | 2005-05-12 | Seiko Epson Corp | 音声認識対話装置および音声認識対話処理方法 |
US20170270919A1 (en) | 2016-03-21 | 2017-09-21 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
WO2018125292A1 (en) | 2016-12-27 | 2018-07-05 | Google Llc | Contextual hotwords |
Also Published As
Publication number | Publication date |
---|---|
EP4383249A2 (en) | 2024-06-12 |
US11735176B2 (en) | 2023-08-22 |
EP4009321A1 (en) | 2022-06-08 |
JP2021533397A (ja) | 2021-12-02 |
US20230395069A1 (en) | 2023-12-07 |
US10978059B2 (en) | 2021-04-13 |
EP3655947A1 (en) | 2020-05-27 |
US20200342857A1 (en) | 2020-10-29 |
EP3655947B1 (en) | 2022-03-09 |
WO2020068056A1 (en) | 2020-04-02 |
EP4009321B1 (en) | 2024-05-01 |
KR102492783B1 (ko) | 2023-01-27 |
JP2023029973A (ja) | 2023-03-07 |
EP4383249A3 (en) | 2024-07-10 |
KR20230018534A (ko) | 2023-02-07 |
JP7191987B2 (ja) | 2022-12-19 |
US20210217411A1 (en) | 2021-07-15 |
CN112262431A (zh) | 2021-01-22 |
KR102535338B1 (ko) | 2023-05-26 |
KR20210008520A (ko) | 2021-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7508533B2 (ja) | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション | |
US11545157B2 (en) | Speaker diartzation using an end-to-end model | |
US20230206911A1 (en) | Processing natural language using machine learning to determine slot values based on slot descriptors | |
US11922951B2 (en) | Targeted voice separation by speaker conditioned on spectrogram masking | |
US11854533B2 (en) | Speaker awareness using speaker dependent speech model(s) | |
CN112381989A (zh) | 排序方法、装置、***和电子设备 | |
US20240112673A1 (en) | Identifying and correcting automatic speech recognition (asr) misrecognitions in a decentralized manner |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230105 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240318 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240520 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240619 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7508533 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |