JP6954680B2 - 話者の確認方法及び話者の確認装置 - Google Patents
話者の確認方法及び話者の確認装置 Download PDFInfo
- Publication number
- JP6954680B2 JP6954680B2 JP2019553913A JP2019553913A JP6954680B2 JP 6954680 B2 JP6954680 B2 JP 6954680B2 JP 2019553913 A JP2019553913 A JP 2019553913A JP 2019553913 A JP2019553913 A JP 2019553913A JP 6954680 B2 JP6954680 B2 JP 6954680B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- spectrogram
- voice
- audio
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012790 confirmation Methods 0.000 title claims description 39
- 238000000034 method Methods 0.000 title claims description 35
- 238000000605 extraction Methods 0.000 claims description 46
- 238000013527 convolutional neural network Methods 0.000 claims description 44
- 238000013528 artificial neural network Methods 0.000 claims description 38
- 238000011176 pooling Methods 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 26
- 230000009467 reduction Effects 0.000 claims description 24
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000013604 expression vector Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Image Analysis (AREA)
Description
Claims (10)
- 第2の音声を取得することと、
予め取得した第1の音声と前記第2の音声を、対応する第1の音声スペクトログラムと第2の音声スペクトログラムに変換することと、
畳み込みニューラルネットワークを使用して、前記第1の音声スペクトログラムと前記第2の音声スペクトログラムに対して特徴抽出を行い、対応する第1の特徴と第2の特徴を取得することと、
時間遅延ニューラルネットワークを使用して、前記第1の特徴と前記第2の特徴に対して特徴抽出を行い、対応する第3の特徴と第4の特徴を取得することと、
前記第3の特徴と前記第4の特徴により、話者を確認することと、を含み、
前記の、時間遅延ニューラルネットワークを使用して、前記第1の特徴と前記第2の特徴に対して特徴抽出を行い、対応する第3の特徴と第4の特徴を取得することは、
前記第1の音声スペクトログラムの前後のフレームに対応する前記第1の特徴に対してつなぎ合わせを行い、前記第2の音声スペクトログラムの前後のフレームに対応する前記第2の特徴に対してつなぎ合わせを行うことと、
つなぎ合わせた後の前記第1の特徴とつなぎ合わせた後の前記第2の特徴のそれぞれに対して線形変換と次元削減を行い、対応する前記第3の特徴と前記第4の特徴を取得することと、を含むことを特徴とする話者の確認方法。 - 前記の、予め取得した第1の音声と前記第2の音声を対応する第1の音声スペクトログラムと第2の音声スペクトログラムに変換することは、具体的に、
前記第1の音声と前記第2の音声のそれぞれにおけるフレームをつなぎ合わせることと、
前記第1の音声におけるフレームをつなぎ合わせた後の音声を、対応する第1の音声スペクトログラムに変換し、前記第2の音声におけるフレームをつなぎ合わせた後の音声を、対応する第2の音声スペクトログラムに変換することと、を含むことを特徴とする請求項1に記載の話者の確認方法。 - 前記の、畳み込みニューラルネットワークを使用して、前記第1の特徴と前記第2の特徴に対して特徴抽出を行い、対応する第1の特徴と第2の特徴を取得することは、
前記第1の音声スペクトログラムと前記第2の音声スペクトログラムのそれぞれに対して畳み込み処理を行うことと、
畳み込んだ後の前記第1の音声スペクトログラムと前記第2の音声スペクトログラムのそれぞれに対してプーリング処理を行うことと、
プーリング後の前記第1の音声スペクトログラムと前記第2の音声スペクトログラムのそれぞれに対して次元削減を行い、前記対応する第1の特徴と第2の特徴を得ることと、を含むことを特徴とする請求項1または2に記載の話者の確認方法。 - 畳み込みニューラルネットワークを使用して前記第1の音声スペクトログラムと前記第2の音声スペクトログラムに対して特徴抽出を行う前に、更に
前記畳み込みニューラルネットワークと前記時間遅延ニューラルネットワークとをトレーニングすることを含むことを特徴とする請求項1から3のいずれか1項に記載の話者の確認方法。 - 前記畳み込みニューラルネットワークと前記時間遅延ニューラルネットワークとをトレーニングすることは、
交差エントロピー関数を目的関数として使用して、前記畳み込みニューラルネットワークと前記時間遅延ニューラルネットワークとをトレーニングすることを含むことを特徴とする請求項4に記載の話者の確認方法。 - 第2の音声を取得するための取得ユニットと、
予め取得した第1の音声と前記第2の音声を、対応する第1の音声スペクトログラムと第2の音声スペクトログラムに変換するための変換ユニットと、
畳み込みニューラルネットワークを使用して、前記第1の音声スペクトログラムと前記第2の音声スペクトログラムに対して特徴抽出を行い、対応する第1の特徴と第2の特徴を取得するための第1の抽出ユニットと、
時間遅延ニューラルネットワークを使用して、前記第1の特徴と前記第2の特徴に対して特徴抽出を行い、対応する第3の特徴と第4の特徴を取得するための第2の抽出ユニットと、
前記第3の特徴と前記第4の特徴により、話者を確認するための確認ユニットと、を含み、
前記第2の抽出ユニットは、具体的に、
前記第1の音声スペクトログラムの前後のフレームに対応する前記第1の特徴に対してつなぎ合わせを行い、前記第2の音声スペクトログラムの前後のフレームと対応する前記第2の特徴に対してつなぎ合わせを行うための第2のつなぎ合わせサブユニットと、
つなぎ合わせた後の前記第1の特徴とつなぎ合わせた後の前記第2の特徴のそれぞれに対して線形変換と次元削減を行い、対応する前記第3の特徴と前記第4の特徴を取得するための第2の変換サブユニットを含むことを特徴とする話者の確認装置。 - 前記変換ユニットは、
具体的に、それぞれ前記第1の音声と前記第2の音声におけるフレームをつなぎ合わせるためのつなぎ合わせサブユニットと、
前記第1の音声におけるフレームをつなぎ合わせた後の音声を、対応する第1の音声スペクトログラムに変換し、前記第2の音声におけるフレームをつなぎ合わせた後の音声を、対応する第2の音声スペクトログラムに変換するための変換サブユニットと、を含むことを特徴とする請求項6に記載の話者の確認装置。 - 前記第1の抽出ユニットは、
前記第1の音声スペクトログラムと前記第2の音声スペクトログラムのそれぞれに対して畳み込み処理を行うための畳み込みサブユニットと、
畳み込んだ後の前記第1の音声スペクトログラムと前記第2の音声スペクトログラムのそれぞれに対してプーリング処理を行うためのプーリングサブユニットと、
プーリング後の前記第1の音声スペクトログラムと前記第2の音声スペクトログラムのそれぞれに対して次元削減を行い、前記対応する第1の特徴と第2の特徴を得るための次元削減サブユニットと、を含むことを特徴とする請求項6または7に記載の話者の確認装置。 - 更に、前記畳み込みニューラルネットワークと前記時間遅延ニューラルネットワークとをトレーニングするためのトレーニングユニットを含むことを特徴とする請求項6から8のいずれか1項に記載の話者の確認装置。
- 前記トレーニングユニットは、具体的に、交差エントロピー関数を目的関数として使用して、前記畳み込みニューラルネットワークと前記時間遅延ニューラルネットワークとをトレーニングするために使われることを特徴とする請求項9に記載の話者の確認装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710214666.0 | 2017-04-01 | ||
CN201710214666.0A CN107146624B (zh) | 2017-04-01 | 2017-04-01 | 一种说话人确认方法及装置 |
PCT/CN2017/114293 WO2018176894A1 (zh) | 2017-04-01 | 2017-12-01 | 一种说话人确认方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020515905A JP2020515905A (ja) | 2020-05-28 |
JP6954680B2 true JP6954680B2 (ja) | 2021-10-27 |
Family
ID=59773613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019553913A Active JP6954680B2 (ja) | 2017-04-01 | 2017-12-01 | 話者の確認方法及び話者の確認装置 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6954680B2 (ja) |
CN (1) | CN107146624B (ja) |
WO (1) | WO2018176894A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107146624B (zh) * | 2017-04-01 | 2019-11-22 | 清华大学 | 一种说话人确认方法及装置 |
CN107464568B (zh) * | 2017-09-25 | 2020-06-30 | 四川长虹电器股份有限公司 | 基于三维卷积神经网络文本无关的说话人识别方法及*** |
CN108461092B (zh) * | 2018-03-07 | 2022-03-08 | 燕山大学 | 一种对帕金森病语音分析的方法 |
CN108648759A (zh) * | 2018-05-14 | 2018-10-12 | 华南理工大学 | 一种文本无关的声纹识别方法 |
CN110299142B (zh) * | 2018-05-14 | 2021-11-19 | 桂林远望智能通信科技有限公司 | 一种基于网络融合的声纹识别方法及装置 |
CN108877812B (zh) * | 2018-08-16 | 2021-04-02 | 桂林电子科技大学 | 一种声纹识别方法、装置及存储介质 |
CN109065033B (zh) * | 2018-09-19 | 2021-03-30 | 华南理工大学 | 一种基于随机深度时延神经网络模型的自动语音识别方法 |
CN110289003B (zh) | 2018-10-10 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
CN111128222B (zh) * | 2018-10-30 | 2023-09-08 | 富士通株式会社 | 语音分离方法、语音分离模型训练方法和计算机可读介质 |
US11031017B2 (en) * | 2019-01-08 | 2021-06-08 | Google Llc | Fully supervised speaker diarization |
CN111048097B (zh) * | 2019-12-19 | 2022-11-29 | 中国人民解放军空军研究院通信与导航研究所 | 一种基于3d卷积的孪生网络声纹识别方法 |
CN111108554A (zh) * | 2019-12-24 | 2020-05-05 | 广州国音智能科技有限公司 | 一种基于语音降噪的声纹识别方法和相关装置 |
CN111833885B (zh) * | 2020-07-08 | 2023-08-01 | 太原科技大学 | 一种基于卷积模糊神经网络的音源识别方法 |
CN111951823B (zh) * | 2020-08-07 | 2024-06-21 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置、设备及介质 |
CN113781993A (zh) | 2021-01-20 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 定制音色歌声的合成方法、装置、电子设备和存储介质 |
CN113113022A (zh) * | 2021-04-15 | 2021-07-13 | 吉林大学 | 一种基于说话人声纹信息的自动识别身份的方法 |
CN113178196B (zh) * | 2021-04-20 | 2023-02-07 | 平安国际融资租赁有限公司 | 音频数据提取方法、装置、计算机设备和存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102201236B (zh) * | 2011-04-06 | 2012-12-19 | 中国人民解放军理工大学 | 一种高斯混合模型和量子神经网络联合的说话人识别方法 |
US9230550B2 (en) * | 2013-01-10 | 2016-01-05 | Sensory, Incorporated | Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination |
EP2897076B8 (en) * | 2014-01-17 | 2018-02-07 | Cirrus Logic International Semiconductor Ltd. | Tamper-resistant element for use in speaker recognition |
CN104732978B (zh) * | 2015-03-12 | 2018-05-08 | 上海交通大学 | 基于联合深度学习的文本相关的说话人识别方法 |
CN106326939A (zh) * | 2016-08-31 | 2017-01-11 | 深圳市诺比邻科技有限公司 | 卷积神经网络的参数优化方法及*** |
CN107146624B (zh) * | 2017-04-01 | 2019-11-22 | 清华大学 | 一种说话人确认方法及装置 |
-
2017
- 2017-04-01 CN CN201710214666.0A patent/CN107146624B/zh not_active Expired - Fee Related
- 2017-12-01 JP JP2019553913A patent/JP6954680B2/ja active Active
- 2017-12-01 WO PCT/CN2017/114293 patent/WO2018176894A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN107146624B (zh) | 2019-11-22 |
WO2018176894A1 (zh) | 2018-10-04 |
CN107146624A (zh) | 2017-09-08 |
JP2020515905A (ja) | 2020-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6954680B2 (ja) | 話者の確認方法及び話者の確認装置 | |
CN107492382B (zh) | 基于神经网络的声纹信息提取方法及装置 | |
WO2019232829A1 (zh) | 声纹识别方法、装置、计算机设备及存储介质 | |
CN108172218B (zh) | 一种语音建模方法及装置 | |
WO2021051608A1 (zh) | 一种基于深度学习的声纹识别方法、装置及设备 | |
Salehghaffari | Speaker verification using convolutional neural networks | |
CN109410957A (zh) | 基于计算机视觉辅助的正面人机交互语音识别方法及*** | |
KR20120054845A (ko) | 로봇의 음성인식방법 | |
TW201419270A (zh) | 詞語驗證的方法及裝置 | |
CN110299142A (zh) | 一种基于网络融合的声纹识别方法及装置 | |
WO2018051945A1 (ja) | 音声処理装置、音声処理方法、および記録媒体 | |
CN110299143B (zh) | 用于识别语音说话人的装置及其方法 | |
CN112507311A (zh) | 一种基于多模态特征融合的高安全性身份验证方法 | |
Mun et al. | The sound of my voice: Speaker representation loss for target voice separation | |
CN114303186A (zh) | 用于在语音合成中适配人类说话者嵌入的***和方法 | |
Han et al. | Continuous Speech Separation Using Speaker Inventory for Long Recording. | |
CN114530156A (zh) | 用于短语音说话人确认的生成对抗网络优化方法及*** | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN108665901B (zh) | 一种音素/音节提取方法及装置 | |
Park et al. | The Second DIHARD Challenge: System Description for USC-SAIL Team. | |
KR20140093459A (ko) | 자동 통역 방법 | |
US11977855B2 (en) | System and method for automatic speech translation based on zero user interface | |
CN110197657A (zh) | 一种基于余弦相似度的动态音声特征提取方法 | |
CN112667787A (zh) | 基于话术标签的智能应答方法、***及存储介质 | |
Afshan et al. | Attention-based conditioning methods using variable frame rate for style-robust speaker verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201124 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210506 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210907 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210922 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6954680 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |