JP2021189424A - マルチデバイスによる話者ダイアライゼーション性能の向上のための方法およびシステム - Google Patents
マルチデバイスによる話者ダイアライゼーション性能の向上のための方法およびシステム Download PDFInfo
- Publication number
- JP2021189424A JP2021189424A JP2020204340A JP2020204340A JP2021189424A JP 2021189424 A JP2021189424 A JP 2021189424A JP 2020204340 A JP2020204340 A JP 2020204340A JP 2020204340 A JP2020204340 A JP 2020204340A JP 2021189424 A JP2021189424 A JP 2021189424A
- Authority
- JP
- Japan
- Prior art keywords
- similarity matrix
- speaker
- clusters
- eigenvalues
- electronic device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 239000011159 matrix material Substances 0.000 claims abstract description 90
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 16
- 230000010354 integration Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 208000006930 Pseudomyxoma Peritonei Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 229920000306 polymethylpentene Polymers 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
310:音声統合部
320:クラスタ決定部
330:クラスタリング実行部
Claims (20)
- コンピュータシステムが実行する話者ダイアライゼーション方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記話者ダイアライゼーション方法は、
前記少なくとも1つのプロセッサにより、複数の電子機器から各電子機器で録音された音声ファイルを受信する段階、
前記少なくとも1つのプロセッサにより、前記各電子機器の前記音声ファイルに対して計算された埋め込み行列に基づいて候補クラスタ数を推定する段階、
前記少なくとも1つのプロセッサにより、前記各電子機器の候補クラスタ数を利用して最終クラスタ数を決定する段階、および
前記少なくとも1つのプロセッサにより、前記最終クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する段階
を含む、話者ダイアライゼーション方法。 - 前記受信する段階は、
前記各電子機器の前記音声ファイルに対してエンドポイント検出(EPD)を実行する段階、および
前記各電子機器のEPD結果を統合してEPDユニオンを生成する段階
を含む、請求項1に記載の話者ダイアライゼーション方法。 - 前記推定する段階は、
前記各電子機器の前記音声ファイルのEPD結果から埋め込み抽出をすることで類似度行列を計算する段階、および
前記各電子機器の前記類似度行列を利用して前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階
を含む、請求項1に記載の話者ダイアライゼーション方法。 - 前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階は、
前記類似度行列に対して固有値分解を実行して固有値を抽出する段階、および
前記抽出された固有値を整列した後、隣接する固有値の差に基づいて前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階
を含む、請求項3に記載の話者ダイアライゼーション方法。 - 前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階は、
前記類似度行列に対して固有値分解を実行して固有値を抽出する段階、
前記抽出された固有値を整列した後、隣接する固有値の差を基準として選択された固有値の個数を前記候補クラスタ数として決定する段階、および
前記候補クラスタ数の決定過程で選択されずに残った固有値を利用して前記信頼度値を計算する段階
を含む、請求項3に記載の話者ダイアライゼーション方法。 - 前記残った固有値を利用して前記信頼度値を計算する段階は、
前記残った固有値のうちで最も大きい固有値を前記類似度行列の信頼度値として決定すること
を特徴とする、請求項5に記載の話者ダイアライゼーション方法。 - 前記残った固有値を利用して前記信頼度値を計算する段階は、
前記残った固有値の平均を計算した平均値を前記類似度行列の信頼度値として決定すること
を特徴とする、請求項5に記載の話者ダイアライゼーション方法。 - 前記推定する段階は、
前記音声ファイルのEPD結果に対して学習された加重値に基づいて前記類似度行列に対する加重和を適用する段階
をさらに含む、請求項3に記載の話者ダイアライゼーション方法。 - 前記決定する段階は、
前記信頼度値が最も大きい類似度行列で推定された候補クラスタ数を前記最終クラスタ数として決定すること
を特徴とする、請求項3に記載の話者ダイアライゼーション方法。 - 前記実行する段階は、
前記各電子機器の前記音声ファイルのEPD結果から埋め込み抽出をすることで類似度行列を計算する段階、および
前記各電子機器の類似度行列を平均し、平均類似度行列と前記最終クラスタ数に基づいて前記話者ダイアライゼーションクラスタリングを実行する段階
を含む、請求項1に記載の話者ダイアライゼーション方法。 - 請求項1〜10のうちのいずれか一項に記載の話者ダイアライゼーション方法を前記コンピュータシステムに実行させる、コンピュータプログラム。
- 請求項1〜10のうちのいずれか一項に記載の話者ダイアライゼーション方法をコンピュータに実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体。
- コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
複数の電子機器から各電子機器で録音された音声ファイルを受信する過程、
前記各電子機器の前記音声ファイルに対して計算された埋め込み行列に基づいて候補クラスタ数を推定する過程、
前記各電子機器の候補クラスタ数を利用して最終クラスタ数を決定する過程、および
前記最終クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する過程
を処理する、コンピュータシステム。 - 前記受信する過程は、
前記各電子機器の前記音声ファイルに対してEPDを実行する過程、および
前記各電子機器のEPD結果を統合してEPDユニオンを生成する過程
を含む、請求項13に記載のコンピュータシステム。 - 前記推定する過程は、
前記各電子機器の前記音声ファイルのEPD結果から埋め込み抽出をすることで類似度行列を計算する過程、および
前記各電子機器の前記類似度行列を利用して前記候補クラスタ数と前記類似度行列の信頼度値を計算する過程
を含む、請求項13に記載のコンピュータシステム。 - 前記候補クラスタ数と前記類似度行列の信頼度値を計算する過程は、
前記類似度行列に対して固有値分解を実行して固有値を抽出する過程、
前記抽出された固有値を整列した後、隣接する固有値の差を基準として選択された固有値の個数を前記候補クラスタ数として決定する過程、および
前記候補クラスタ数の決定過程で選択されずに残った固有値を利用して前記信頼度値を計算する過程
を含む、請求項15に記載のコンピュータシステム。 - 前記残った固有値を利用して前記信頼度値を計算する過程は、
前記残った固有値のうちで最も大きい固有値を前記類似度行列の信頼度値として決定すること
を特徴とする、請求項16に記載のコンピュータシステム。 - 前記推定する過程は、
前記音声ファイルのEPD結果に対して学習された加重値に基づいて前記類似度行列に対する加重和を適用する過程
をさらに含む、請求項15に記載のコンピュータシステム。 - 前記決定する過程は、
前記信頼度値が最も大きい類似度行列で推定された候補クラスタ数を前記最終クラスタ数として決定すること
を特徴とする、請求項15に記載のコンピュータシステム。 - 前記実行する過程は、
前記各電子機器の前記音声ファイルのEPD結果から埋め込み抽出をすることで類似度行列を計算する過程、および
前記各電子機器の類似度行列を平均し、平均類似度行列と前記最終クラスタ数に基づいて前記話者ダイアライゼーションクラスタリングを実行する過程
を含む、請求項13に記載のコンピュータシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023001000A JP7453733B2 (ja) | 2020-06-02 | 2023-01-06 | マルチデバイスによる話者ダイアライゼーション性能の向上のための方法およびシステム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2020-0066240 | 2020-06-02 | ||
KR1020200066240A KR102396136B1 (ko) | 2020-06-02 | 2020-06-02 | 멀티디바이스 기반 화자분할 성능 향상을 위한 방법 및 시스템 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023001000A Division JP7453733B2 (ja) | 2020-06-02 | 2023-01-06 | マルチデバイスによる話者ダイアライゼーション性能の向上のための方法およびシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021189424A true JP2021189424A (ja) | 2021-12-13 |
Family
ID=78849629
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020204340A Pending JP2021189424A (ja) | 2020-06-02 | 2020-12-09 | マルチデバイスによる話者ダイアライゼーション性能の向上のための方法およびシステム |
JP2023001000A Active JP7453733B2 (ja) | 2020-06-02 | 2023-01-06 | マルチデバイスによる話者ダイアライゼーション性能の向上のための方法およびシステム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023001000A Active JP7453733B2 (ja) | 2020-06-02 | 2023-01-06 | マルチデバイスによる話者ダイアライゼーション性能の向上のための方法およびシステム |
Country Status (2)
Country | Link |
---|---|
JP (2) | JP2021189424A (ja) |
KR (1) | KR102396136B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220103507A (ko) * | 2021-01-15 | 2022-07-22 | 네이버 주식회사 | 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011059500A (ja) * | 2009-09-11 | 2011-03-24 | Yahoo Japan Corp | 話者クラスタリング装置および話者クラスタリング方法 |
JP2013012059A (ja) * | 2011-06-29 | 2013-01-17 | Mizuho Information & Research Institute Inc | 資料表示システム、資料表示方法及び資料表示プログラム |
JP2018063313A (ja) * | 2016-10-12 | 2018-04-19 | 日本電信電話株式会社 | 話者数推定装置、話者数推定方法、およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5418223B2 (ja) * | 2007-03-26 | 2014-02-19 | 日本電気株式会社 | 音声分類装置、音声分類方法、および音声分類用プログラム |
JP5486565B2 (ja) * | 2011-08-05 | 2014-05-07 | 日本電信電話株式会社 | 話者クラスタリング方法、話者クラスタリング装置、プログラム |
KR102441063B1 (ko) * | 2017-06-07 | 2022-09-06 | 현대자동차주식회사 | 끝점 검출 장치, 그를 포함한 시스템 및 그 방법 |
KR102100204B1 (ko) | 2017-10-31 | 2020-04-13 | 삼성에스디에스 주식회사 | 기계 학습 기반의 분류 방법 및 그 장치 |
-
2020
- 2020-06-02 KR KR1020200066240A patent/KR102396136B1/ko active IP Right Grant
- 2020-12-09 JP JP2020204340A patent/JP2021189424A/ja active Pending
-
2023
- 2023-01-06 JP JP2023001000A patent/JP7453733B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011059500A (ja) * | 2009-09-11 | 2011-03-24 | Yahoo Japan Corp | 話者クラスタリング装置および話者クラスタリング方法 |
JP2013012059A (ja) * | 2011-06-29 | 2013-01-17 | Mizuho Information & Research Institute Inc | 資料表示システム、資料表示方法及び資料表示プログラム |
JP2018063313A (ja) * | 2016-10-12 | 2018-04-19 | 日本電信電話株式会社 | 話者数推定装置、話者数推定方法、およびプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220103507A (ko) * | 2021-01-15 | 2022-07-22 | 네이버 주식회사 | 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램 |
KR102560019B1 (ko) | 2021-01-15 | 2023-07-27 | 네이버 주식회사 | 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램 |
Also Published As
Publication number | Publication date |
---|---|
JP2023026657A (ja) | 2023-02-24 |
KR102396136B1 (ko) | 2022-05-11 |
KR20210149336A (ko) | 2021-12-09 |
JP7453733B2 (ja) | 2024-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6771805B2 (ja) | 音声認識方法、電子機器、及びコンピュータ記憶媒体 | |
JP7348445B2 (ja) | 話者識別を結合した話者ダイアライゼーション方法、システム、およびコンピュータプログラム | |
US11430449B2 (en) | Voice-controlled management of user profiles | |
CN111091176A (zh) | 数据识别设备及方法和训练设备及方法 | |
US11727939B2 (en) | Voice-controlled management of user profiles | |
JP2021533397A (ja) | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション | |
JP6785904B2 (ja) | 情報プッシュ方法及び装置 | |
US11809965B2 (en) | Continual learning for multi modal systems using crowd sourcing | |
CN110400563A (zh) | 车载语音指令识别方法、装置、计算机设备及存储介质 | |
US20210125617A1 (en) | Method and apparatus with registration for speaker recognition | |
JP2021068455A (ja) | 写真に基づいてユーザの顔を認識して活用する方法およびコンピュータシステム | |
JP7453733B2 (ja) | マルチデバイスによる話者ダイアライゼーション性能の向上のための方法およびシステム | |
KR20190136578A (ko) | 음성 인식 방법 및 장치 | |
KR20220138558A (ko) | 머신 러닝 기반의 영상 자동 편집 방법 및 시스템 | |
CN114127801A (zh) | 跨设备网络使用人物可识别性的***和方法 | |
CN106039711B (zh) | 一种用户身份认证方法和装置 | |
US20170235743A1 (en) | Associating user logs using geo-point density | |
JP2021039749A (ja) | オン−デバイストレーニング基盤のユーザ認識方法及び装置 | |
JP7273078B2 (ja) | 話者埋め込みに基づく音声活動検出を利用した話者ダイアライゼーション方法、システム、およびコンピュータプログラム | |
GB2552995A (en) | Learned model data processing | |
JP7314221B2 (ja) | 音源を検出するための電子装置およびその作動方法 | |
KR20240096049A (ko) | 화자 분할 방법 및 시스템 | |
KR102147496B1 (ko) | 유사 댓글의 연속 입력을 차단하기 위한 방법 및 시스템 | |
JP2023043854A (ja) | ポスト推薦方法、コンピュータプログラムおよびコンピュータ装置 | |
KR20230062264A (ko) | 문서분류 방법 및 문서분류 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201209 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20210414 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20210412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220405 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220809 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20221108 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230307 |