JP6954680B2 - 話者の確認方法及び話者の確認装置 - Google Patents

話者の確認方法及び話者の確認装置 Download PDF

Info

Publication number
JP6954680B2
JP6954680B2 JP2019553913A JP2019553913A JP6954680B2 JP 6954680 B2 JP6954680 B2 JP 6954680B2 JP 2019553913 A JP2019553913 A JP 2019553913A JP 2019553913 A JP2019553913 A JP 2019553913A JP 6954680 B2 JP6954680 B2 JP 6954680B2
Authority
JP
Japan
Prior art keywords
feature
spectrogram
voice
audio
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019553913A
Other languages
English (en)
Other versions
JP2020515905A (ja
Inventor
東 王
東 王
藍天 李
藍天 李
方 鄭
方 鄭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Publication of JP2020515905A publication Critical patent/JP2020515905A/ja
Application granted granted Critical
Publication of JP6954680B2 publication Critical patent/JP6954680B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Analysis (AREA)

Description

参照関係
本願は、2017年4月1日に中国に出願された、特許名称が「話者の確認方法及び装置」である中国特許出願2017102146660号を引用し、その全体が本出願において参照により引用されている。
本発明は音声情報処理分野に関し、より具体的には、話者の確認方法及び話者の確認装置に関する。
話者の確認方法とは、音声に含まれる声紋特徴により、話者に対して身分検証を行う方法である。話者の確認を行う時に、ユーザは、音声を予め保存しておき、そして検証音声を入力する。検証音声とシステムに予め保存した音声を比較すると、検証音声がそのユーザの発した音声であるかを判断することができ、ユーザの身分認証が実現される。
現在、話者の確認方法は、統計モデルを主にしており、性能が良い話者の確認方法は、一般的にi−vectorモデルとPLDAモデルに基づくものである。i−vectorモデルは、音声信号に対して、下記の線形モデルを構築する。
X=Tw+v
ただし、Xは音声信号のMFCC特徴であり、Tは低次元行列であり、wはセンテンスベクトル、すなわちi−vectorであり、vはガウス雑音である。当該モデルは、本質的に確率的PCAモデルである。実際の応用では、一般的に、音声空間は複数の領域に分けられ、それぞれの領域に対して上記線形モデリングが行われ、全ての領域はセンテンスベクトルwを共有する。wは低次元ベクトルであり、その中に話者、音声内容、チャンネル等の情報を含む。話者情報の区別性を高めるために、次のようなPLDAモデルを取り入れる。
w=Hu+Kc+n
ただし、uは話者ベクトルであり、cは表現ベクトルであり、発音方式、チャンネル等を含み、nはガウス雑音である。PLDAモデルは、話者特徴と表現特徴を区別する。
上記モデルは、一般に公知のMFCC特徴に基づくものであり、モデルにより話者情報を分離する。当該方法は、音声信号の分布状態に基づいてモデリングを行うものであるので、より良い結果を得るにはより多くのデータが必要であり、その計算量が多く、かつチャンネル、ノイズ及び時間的変化等の要因の影響を受けやすい。
本発明は、上記の必要なデータが多く、計算量が多くかつロバスト性が悪い等の課題又は少なくともその一部の課題を解決するために、話者の確認方法及び話者の確認装置を提供することを目的とする。
本発明のある局面に係る話者の確認方法は、第2の音声を取得することと、予め取得した第1の音声と前記第2の音声を、対応する第1の音声スペクトログラムと第2の音声スペクトログラムに変換することと、畳み込みニューラルネットワークを使用して、前記第1の音声スペクトログラムと前記第2の音声スペクトログラムに対して特徴抽出を行い、対応する第1の特徴と第2の特徴を取得することと、時間遅延ニューラルネットワークを使用して、前記第1の特徴と前記第2の特徴に対して特徴抽出を行い、対応する第3の特徴と第4の特徴を取得することと、前記第3の特徴と前記第4の特徴により、話者を確認することと、を含む。
具体的に、前記の、予め取得した第1の音声と前記第2の音声を対応する第1の音声スペクトログラムと第2の音声スペクトログラムに変換することは、それぞれ前記第1の音声と前記第2の音声におけるフレームをつなぎ合わせることと、それぞれ前記第1の音声におけるフレームをつなぎ合わせた後の音声を、対応する第1の音声スペクトログラムに変換し、前記第2の音声におけるフレームをつなぎ合わせた後の音声を、対応する第2の音声スペクトログラムに変換することと、を含む。
具体的に、前記の、畳み込みニューラルネットワークを使用して、前記第1の音声スペクトログラムと前記第2の音声スペクトログラムに対して特徴抽出を行い、対応する第1の特徴と第2の特徴を取得することは、前記第1の音声スペクトログラムと前記第2の音声スペクトログラムのそれぞれに対して畳み込み処理を行うことと、畳み込んだ後の前記第1の音声スペクトログラムと前記第2の音声スペクトログラムのそれぞれに対してプーリング処理を行うことと、プーリング後の前記第1の音声スペクトログラムと前記第2の音声スペクトログラムのそれぞれに対して次元削減を行い、前記対応する第1の特徴と第2の特徴を得ることと、を含む。
具体的に、前記の、時間遅延ニューラルネットワークを使用して、前記第1の特徴と前記第2の特徴に対して特徴抽出を行い、対応する第3の特徴と第4の特徴を取得することは、前記第1の音声スペクトログラムの前後のフレームに対応する前記第1の特徴に対してつなぎ合わせを行い、前記第2の音声スペクトログラムの前後のフレームに対応する前記第2の特徴に対してつなぎ合わせを行うことと、つなぎ合わせた後の前記第1の特徴とつなぎ合わせた後の前記第2の特徴のそれぞれに対して線形変換と次元削減を行い、対応する前記第3の特徴と前記第4の特徴とを取得することと、を含む。
具体的に、畳み込みニューラルネットワークを使用して前記第1の音声スペクトログラムと前記第2の音声スペクトログラムに対して特徴抽出を行う前に、更に、前記畳み込みニューラルネットワークと前記時間遅延ニューラルネットワークとをトレーニングすることを含む。
具体的に、前記畳み込みニューラルネットワークと前記時間遅延ニューラルネットワークとをトレーニングすることは、交差エントロピー関数を目的関数として使用して、前記畳み込みニューラルネットワークと前記時間遅延ニューラルネットワークとをトレーニングすることを含む。
本発明の他の局面に係る話者の確認装置は、第2の音声を取得するための取得ユニットと、予め取得した第1の音声と前記第2の音声を、対応する第1の音声スペクトログラムと第2の音声スペクトログラムに変換するための変換ユニットと、畳み込みニューラルネットワークを使用して、前記第1の音声スペクトログラムと前記第2の音声スペクトログラムに対して特徴抽出を行い、対応する第1の特徴と第2の特徴を取得するための第1の抽出ユニットと、時間遅延ニューラルネットワークを使用して、前記第1の特徴と前記第2の特徴に対して特徴抽出を行い、対応する第3の特徴と第4の特徴を取得するための第2の抽出ユニットと、前記第3の特徴と前記第4の特徴により、話者を確認するための確認ユニットと、を含む。
具体的に、更に、前記畳み込みニューラルネットワークと前記時間遅延ニューラルネットワークとをトレーニングするためのトレーニングユニットを含む。
具体的に、前記変換ユニットは、更に、前記第1の音声と前記第2の音声のそれぞれにおけるフレームをつなぎ合わせるためのつなぎ合わせサブユニットと、前記第1の音声におけるフレームをつなぎ合わせた後の音声を、対応する第1の音声スペクトログラムに変換し、前記第2の音声におけるフレームをつなぎ合わせた後の音声を、対応する第2の音声スペクトログラムに変換するための変換サブユニットと、を含む。
具体的に、前記第1の抽出ユニットは、前記第1の音声スペクトログラムと前記第2の音声スペクトログラムのそれぞれに対して畳み込み処理を行うための畳み込みサブユニットと、畳み込んだ後の前記第1の音声スペクトログラムと前記第2の音声スペクトログラムのそれぞれに対してプーリング処理を行うためのプーリングサブユニットと、プーリング後の前記第1の音声スペクトログラムと前記第2の音声スペクトログラムのそれぞれに対して次元削減を行うための次元削減サブユニットと、を含む。
具体的に、前記第2の抽出ユニットは、前記第1の音声スペクトログラムの前後のフレームに対応する前記第1の特徴に対してつなぎ合わせを行い、前記第2の音声スペクトログラムの前後のフレームに対応する前記第2の特徴に対してつなぎ合わせを行うための第2のつなぎ合わせサブユニットと、前記第1の特徴をつなぎ合わせた後の特徴と前記第2の特徴をつなぎ合わせた後の特徴のそれぞれに対して線形変換と次元削減を行い、対応する第3の特徴と第4の特徴を取得するための第2の変換サブユニットと、を含む。
具体的に、前記トレーニングユニットは、交差エントロピー関数を目的関数として使用して、前記畳み込みニューラルネットワークと前記時間遅延ニューラルネットワークとをトレーニングするために使われる。
本発明は、話者の確認方法及び話者の確認装置を提供しており、畳み込みニューラルネットワークと時間遅延ニューラルネットワークとを組み合わせることで、第1の音声と第2の音声に対して二回の特徴抽出を行い、最終的に抽出した第3の特徴と第4の特徴とを比較することにより、話者の確認が実現される。本発明は、計算が簡単で、ロバスト性が強く、良好な認識効果を達成することができる。
本発明の実施例に係る話者の確認方法のフローチャートである。 畳み込みニューラルネットワークと時間遅延ニューラルネットワークのモデルの構成図である。 本発明の実施例に係る話者の確認装置の構成図である。 本発明の他の実施例に係る話者の確認装置の構成図である。
以下、添付の図面と実施例を参照して、本発明を実施するための形態について、より詳細に説明する。以下の実施例は、本発明を説明するためのものに過ぎず、本発明の範囲を限定するものではない。
図1は、本発明の実施例に係る話者の確認方法のフローチャートであり、第2の音声を取得するステップS1と、予め取得した第1の音声と第2の音声を、対応する第1の音声スペクトログラムと第2の音声スペクトログラムに変換するステップS2と、畳み込みニューラルネットワークを使用して、第1の音声スペクトログラムと第2の音声スペクトログラムに対して特徴抽出を行い、対応する第1の特徴と第2の特徴を取得するステップS3と、時間遅延ニューラルネットワークを使用して、第1の特徴と第2の特徴に対して特徴抽出を行い、対応する第3の特徴と第4の特徴を取得するステップS4と、第3の特徴と第4の特徴により、話者を確認するステップS5、を含む。
具体的に、ステップS1において、第2の音声を取得する。第2の音声は、話者が新たに入力した音声であり、検証する必要がある音声である。
ステップS2において、第1の音声は、話者が予め入力した音声であり、それぞれの第1の音声は、一つの話者ラベルと対応し、話者ラベルにより、話者を一意に確認することができる。第1の音声は、複数の話者の音声を含むことができ、それぞれの話者は、一つ又は複数の第1の音声と対応することができる。第1の音声におけるフレームをつなぎ合わせて、第1の音声スペクトログラムに変換し、第2の音声におけるフレームをつなぎ合わせて、第2の音声スペクトログラムに変換する。第1の音声スペクトログラムと第2の音声スペクトログラムの横軸は時間を表し、縦軸は周波数を表し、色又は輝度は振幅を表す。
ステップS3において、畳み込みニューラルネットワークを使用して、第1の音声スペクトログラムと第2の音声スペクトログラムに対して特徴抽出を行い、対応する第1の特徴と第2の特徴を取得することは、第1の音声スペクトログラムと第2の音声スペクトログラムのそれぞれに対して畳み込み処理を行うことと、畳み込んだ後の第1の音声スペクトログラムと第2の音スペクトルのそれぞれに対してプーリング処理を行うことと、プーリング後の第1の音声スペクトログラムと第2の音声スペクトログラムのそれぞれに対して次元削減を行い、対応する第1の特徴と第2の特徴を得ることと、を含む。
具体的に、畳み込みネットワークは、複数の畳み込み層とプーリング層を含んでもよい。それぞれの畳み込み層の畳み込みカーネルの数とサイズは必要に応じて調整してもよい。それぞれの畳み込みカーネルを使用して、第1の音声スペクトログラムと第2の音声スペクトログラムに対して畳み込みを行う時に、何れも一つの特徴プレーンを生成することができる。それぞれの畳み込み層の後ろには、一つのプーリング層を接続してもよい。プーリング層は、最大プーリング層又は平均プーリング層であってもよい。プーリング層のウィンドウが重なり合っていてもよく、重なり合っていなくてもよい。プーリング層のウィンドウのサイズは必要に応じて調整してもよい。最後のプーリング層から得られた特徴プレーンに対して線形変換を行い、次元削減することで、対応する第1の特徴と第2の特徴を得る。もちろん、その他の次元削減方法を使用してもよく、本発明は、これを限定しない。
ステップS4において、時間遅延ネットワークは、複数の時間遅延層を含んでもよく、それぞれの時間遅延層の入力特徴は、直前の時間遅延層の出力特徴であり、第1の音声と対応する第1の時間遅延層の入力は、第1の特徴であり、第2の音声と対応する第1の時間遅延層の入力は、第2の特徴である。第1の特徴と第2の特徴は、それぞれ第1の音声スペクトログラムと第2の音声スペクトログラムにより得られるので、第1の特徴と第2の特徴は、音声スペクトログラムにおけるフレームと1対1に対応する。第1の音声スペクトログラムについて、第1の時間遅延層を通過する時に、まず、第1の音声スペクトログラムにおける現在フレームの前後のいくつかのフレームに対応する第1の特徴をつなぎ合わせて、つなぎ合わせた後の特徴に対して、線形変換と次元削減を実行して、第1の時間遅延層の出力特徴を得る。第1の時間遅延層の出力特徴を第2の時間遅延層の入力特徴とする。
第2の時間遅延層を通過する時に、まず、第1の音声スペクトログラムにおける現在フレームの前後のいくつかのフレームに対応する第1の時間遅延層の出力特徴をつなぎ合わせて、つなぎ合わせた後の特徴に対して、線形変換と次元削減を実行して、第2の時間遅延層の出力特徴を得る。ただし、本発明は具体的な次元削減の方法を限定しない。
第2の音声スペクトログラムと第1の音声スペクトログラムとは、時間遅延ネットワークにおけるプロセスが同じである。第1の音声スペクトログラムについて、最後の時間遅延層の出力特徴は、第3の特徴である。第2の音声スペクトログラムについて、最後の時間遅延層の出力特徴は、第4の特徴である。
ステップS5において、第1の音声と第2の音声に対して、ニューラルネットワークによりフォワード演算を行い、それぞれ第1の音声と第2の音声におけるそれぞれのフレームに対応する第3の特徴と第4の特徴を抽出する。それぞれのフレームの特徴によって、任意の統計モデルを使用して、話者を確認することができる。例えば、第1の音声と第2の音声のそれぞれにおけるそれぞれのフレームの特徴の平均値を算出し、第1の音声におけるそれぞれのフレームの第3の特徴の平均値と、第2の音声におけるそれぞれのフレームの第4の特徴の平均値と、の間の距離を算出する。距離は、コサイン類似度であってもよいが、この距離に限定されない。算出したコサイン類似度がプリセット閾値よりも大きい時に、第2の音声に対応する話者ラベルにより、現在の話者を確認する。
本実施例は、畳み込みニューラルネットワークと時間遅延ニューラルネットワークを組み合わせることで、第1の音声と第2の音声に対して二回の特徴抽出を行い、最終的に抽出した第3の特徴と第4の特徴とを比較することにより、話者の確認が実現される。本発明は、計算が簡単で、ロバスト性が強く、良好な認識効果を達成することができる。
図2は、畳み込みニューラルネットワークと畳み込みニューラルネットワークの構成図であり、図2に示すように、示された畳み込みニューラルネットワークの入力は、スペクトログラムである。畳み込みニューラルネットワークは、二つの畳み込み層があり、一つ目の畳み込み層の畳み込みカーネルは、128個であり、それぞれの畳み込みカーネルのサイズは、6×33であり、一つ目のプーリング層のプーリングウィンドウのサイズは、3×11である。二つ目の畳み込み層の畳み込みカーネルは、256個であり、それぞれの畳み込みカーネルのサイズは、2×8である。二つ目のプーリング層のプーリングウィンドウのサイズは、2×4である。二つ目のプーリング層から得られた256個の特徴プレーンに対して、次元削減を行い、512個の特徴まで次元削減され、512個のニューロンに対応する。時間遅延ネットワークは、二つの時間遅延層があり、それぞれの時間遅延層は、タイミングつなぎ合わせにより前後のコンテキスト情報を拡張する。一つ目の時間遅延層は、前後の各2フレームの音声スペクトログラムに対応する第1の特徴をつなぎ合わせ、二つ目の時間遅延層は、前後の各4フレームの音声スペクトログラムに対応する一つ目の時間遅延層の出力特徴をつなぎ合わせる。それぞれの時間遅延層は、まず、一回線形変換され、そして、更に一つの次元削減層をつなぎ合わせる。それぞれの次元削減層は、時間遅延層に対して次元削減を行い、400個の特徴を出力する。最後に、二つ目の時間遅延層の次元削減層から出力された400個の特徴に対して、線形変換を行う。
上記実施例に基づいて、本実施において畳み込みニューラルネットワークを使用して第1の音声スペクトログラムと第2の音声スペクトログラムに対して特徴抽出を行う前に、更に畳み込みニューラルネットワークと時間遅延ニューラルネットワークをトレーニングすることを含む。
具体的に、トレーニングする前に、確認する必要がある話者の音声を取得し、確認する必要がある話者の音声を、トレーニングセットとする。トレーニングを行う時に、音声におけるそれぞれのフレームを学習サンプルとして、畳み込みニューラルネットワークと時間遅延ニューラルネットワークにより二回の特徴抽出を行ってから、最後に算出された特徴に対して、線形変換を行い、その後、当該フレームによって予測された話者ラベルは当該フレームと対応する実際の話者ラベルであるかを確認し、話者が確認した誤差情報を使用して、畳み込みニューラルネットワークと時間遅延ニューラルネットワークにおけるパラメータを逆調整する。目的関数は、交差エントロピー関数である。トレーニングする時に使った逆伝播アルゴリズムは、NステップSGD(Natural ステップStochaステップStic Gradient DeステップScent、確率的勾配降下法)アルゴリズム又は任意のディープニューラルネットワークトレーニング方法であってもよい。
本実施例において、音声におけるそれぞれのフレームを学習サンプルとして使用して、畳み込みニューラルネットワークと時間遅延ニューラルネットワークに対してトレーニングを行い、畳み込みニューラルネットワークと時間遅延ニューラルネットワークにおけるパラメータを調整する。当該トレーニング方法に必要なデータ量は少なく、最適化した後のパラメータを使用するので、話者の確認の精度を向上させることができる。
図3は、本発明の実施例に係る話者の確認装置の構成図であり、図3に示すように、取得ユニット1、変換ユニット2、第1の抽出ユニット3、第2の抽出ユニット4、及び確認ユニット5を含む。ただし、取得ユニット1は、第2の音声を取得するためのものであり、変換ユニット2は、予め取得した第1の音声と第2の音声を対応する第1の音声スペクトログラムと第2の音声スペクトログラムに変換するためのものであり、第1の抽出ユニット3は、畳み込みニューラルネットワークを使用して、第1の音声スペクトログラムと第2の音声スペクトログラムに対して特徴抽出を行い、対応する第1の特徴と第2の特徴を取得するためのものであり、第2の抽出ユニット4は、時間遅延ニューラルネットワークを使用して、第1の特徴と第2の特徴に対して特徴抽出を行い、対応する第3の特徴と第4の特徴を取得するためのものであり、確認ユニット5は、第3の特徴と第4の特徴により、話者を確認するためのものである。
具体的に、取得ユニット1は、第2の音声を取得する。第2の音声は、話者が新たに入力した音声であり、検証する必要な音声である。
変換ユニット2は、具体的に、第1の音声と第2の音声のそれぞれにおけるフレームをつなぎ合わせるためのつなぎ合わせサブユニットと、第1の音声におけるフレームをつなぎ合わせた後の音声を、対応する第1の音声スペクトログラムに変換し、第2の音声におけるフレームをつなぎ合わせた後の音声を、対応する第2の音声スペクトログラムに変換するための変換サブユニットと、を含む。
具体的に、変換ユニット2は、第1の音声におけるフレームをつなぎ合わせてから、第1の音声スペクトログラムに変換し、第2の音声におけるフレームをつなぎ合わせてから、第2の音声スペクトログラムに変換する。第1の音声は、話者が予め入力した音声であり、それぞれの第1の音声は、一つの話者ラベルと対応し、話者ラベルにより、話者を一意に確認することができる。第1の音声は、複数の話者の音声を含むことができ、それぞれの話者は、一つ又は複数の第1の音声と対応することができる。第1の音声スペクトログラムと第2の音声スペクトログラムの横軸は時間を表し、縦軸は周波数を表し、色又は輝度は振幅を表す。
第1の抽出ユニット3は、第1の音声スペクトログラムと第2の音声スペクトログラムのそれぞれに対して畳み込み処理を行うための畳み込みサブユニットと、畳み込んだ後の第1の音声スペクトログラムと第2の音声スペクトログラムのそれぞれに対してプーリング処理を行うためのプーリングサブユニットと、プーリング後の第1の音声スペクトログラムと第2の音声スペクトログラムのそれぞれに対して次元削減を行うための次元削減サブユニットと、を含む。
具体的に、第1の抽出ユニット3は、畳み込みニューラルネットワークを使用して、第1の音声スペクトログラムと第2の音声スペクトログラムに対して特徴抽出を行い、対応する第1の特徴と第2の特徴を取得する。畳み込みネットワークは、複数の畳み込み層とプーリング層を含んでもよい。それぞれの畳み込み層の畳み込みカーネルの数とサイズは必要に応じて調整してもよい。それぞれの畳み込み層の後ろには、一つのプーリング層を接続してもよい。プーリング層は、最大プーリング層又は平均プーリング層であってもよい。プーリング層のウィンドウが重なり合っていてもよく、重なり合っていなくてもよい。プーリング層のウィンドウのサイズは必要に応じて調整してもよい。最後のプーリング層から得られた特徴プレーンに対して線形変換を行い、次元削減することで、対応する第1の特徴と第2の特徴を得る。もちろん、その他の次元削減方法を使用してもよく、本発明は、これを限定しない。
ただし、畳み込みニューラルネットワークを使用して、第1の音声スペクトログラムと第2の音声スペクトログラムに対して特徴抽出を行う時に、それぞれの畳み込みカーネルは、一枚の特徴プレーンを生成する。畳み込みカーネルの数が多いと、複数枚の特徴プレーンを生成することができ、それぞれのプレーンは、多数の特徴があり、それぞれの畳み込み層の後ろに一つのプーリング層をつなぎ合わせるが、特徴の数が依然として多く、算出スピードを大幅に低減させる。そこで、畳み込みニューラルネットワークにおける最後のプーリング層から得られた特徴プレーンに対して次元削減を行う必要がある。低次元行列を使用して次元削減を行うことができるが、本実施例は、次元削減の方法に限定されない。
本実施例は、最後のプーリング層から得られた特徴プレーンに対して次元削減を行うことで、第1の音声に対応する第1の特徴と、第2の音声に対応する第2の特徴が得られ、算出スピードを大幅に向上させる。
更に、第2の抽出ユニット4が使用した時間遅延ネットワークは、例えば複数の全接続の時間遅延層のような複数の時間遅延層を含むことができ、それぞれの時間遅延層における第2の抽出ユニット4は、前後の各フレームをつなぎ合わせることで、前後のコンテキスト情報に対して拡張を行う。前後の各フレームをつなぎ合わせる数は、必要に応じて設置することができる。
具体的に、第2の抽出ユニット4は、第1の音声スペクトログラムの前後フレームに対応する第1の特徴に対してつなぎ合わせを行い、第2の音声スペクトログラムの前後フレームに対応する第2の特徴に対してつなぎ合わせを行うための第2のつなぎ合わせサブユニットと、第1の特徴をつなぎ合わせた後の特徴と、第2の特徴をつなぎ合わせた後の特徴のそれぞれに対して線形変換と次元削減を行い、対応する第3の特徴と第4の特徴を取得するための第2の変換サブユニットと、を含む。
具体的に、それぞれの時間遅延層において、第2のつなぎ合わせサブユニットがつなぎ合わせるフレームの数は同じであってもよいし、異なる時間遅延層において、第2のつなぎ合わせサブユニットがつなぎ合わせるフレームの数は異なってもよい。つなぎ合わせウィンドウは重なり合っていてもよい。
第1の音声スペクトログラムと第2の音声スペクトログラムとは、時間遅延ネットワークにおけるプロセスが同じである。第1の音声スペクトログラムについて、最後の時間遅延層の出力特徴は、第3の特徴である。第2の音声スペクトログラムについて、最後の時間遅延層の出力特徴は、第4の特徴である。
本発明の実施例は、時間遅延ニューラルネットワークを使用して、第1の特徴と第2の特徴に対して、特徴抽出を行い、対応する第3の特徴と第4の特徴を取得する。時間遅延ニューラルネットワークは、特徴に対して強い抽出能力を有し、話者の正確な確認に対して基礎を築く。
確認ユニット5は、第1の音声と第2の音声に対して、畳み込みニューラルネットワークと時間遅延ニューラルネットワークによりフォワード演算を行い、第1の音声と第2の音声のそれぞれにおけるそれぞれのフレームに対応する第3の特徴と第4の特徴を抽出する。それぞれのフレームの特徴によって、任意の統計モデルを使用して、話者を確認することができる。例えば、第1の音声と第2の音声のそれぞれにおけるそれぞれのフレームの特徴の平均値を算出し、第1の音声におけるそれぞれのフレームの第3の特徴の平均値と、第2の音声におけるそれぞれのフレームの第4の特徴の平均値と、の間の距離を算出する。距離は、コサイン類似度であってもよいが、この距離に限定されない。算出したコサイン類似度がプリセット閾値よりも大きい時に、第2の音声に対応する話者ラベルにより、現在の話者を確認する。
本実施例は、畳み込みニューラルネットワークと時間遅延ニューラルネットワークを組み合わせることで、第1の音声と第2の音声に対して二回の特徴抽出を行い、最終的に抽出した第3の特徴と第4の特徴を比較することにより、話者の確認が実現される。本発明は、計算が簡単で、ロバスト性が強く、良好な認識効果を達成することができる。
図4は、本発明の実施例に係る話者の確認装置の構成図であり、図4に示すように、上記各実施例に基づいて、装置は、更に畳み込みニューラルネットワークと時間遅延ニューラルネットワークとをトレーニングするためのトレーニングユニット6を含む。
具体的に、トレーニングする前に、確認する必要がある話者の音声を取得し、確認する必要がある話者の音声を、トレーニングセットとする。トレーニングを行う時に、トレーニングユニット6は、音声中におけるそれぞれのフレームを学習サンプルとして、畳み込みニューラルネットワークと時間遅延ニューラルネットワークにより二回の特徴抽出を行ってから、最後に算出された特徴に対して、線形変換を行い、その後、当該フレームによって予測された話者ラベルは当該フレームと対応する実際の話者ラベルであるかを確認し、話者が確認した誤差情報を使用して、畳み込みニューラルネットワークと時間遅延ニューラルネットワークにおけるパラメータを逆調整する。目的関数は、交差エントロピー関数である。トレーニングする時に使った逆伝播アルゴリズムは、NステップSGD(Natural ステップStochaステップStic Gradient DeステップScent、確率的勾配降下法)アルゴリズム又は任意のディープニューラルネットワークトレーニング方法であってもよい。
本実施例において、音声におけるそれぞれのフレームを学習サンプルとして使用して、畳み込みニューラルネットワークと時間遅延ニューラルネットワークに対してトレーニングを行い、畳み込みニューラルネットワークと時間遅延ニューラルネットワークにおけるパラメータを調整する。当該トレーニング方法に必要なデータ量が少なく、最適化した後のパラメータを使用するので、話者の確認の精度を向上させることができる。
最後に、以上説明した方法は、一つの好適な実施案に過ぎず、本発明の保護範囲を限定するものではない。本発明の要旨と原則を逸脱しない範囲においてなされる様々な修正、等価交換、改善等は、何れも本開示の保護範囲に含まれる。

Claims (10)

  1. 第2の音声を取得することと、
    予め取得した第1の音声と前記第2の音声を、対応する第1の音声スペクトログラムと第2の音声スペクトログラムに変換することと、
    畳み込みニューラルネットワークを使用して、前記第1の音声スペクトログラムと前記第2の音声スペクトログラムに対して特徴抽出を行い、対応する第1の特徴と第2の特徴を取得することと、
    時間遅延ニューラルネットワークを使用して、前記第1の特徴と前記第2の特徴に対して特徴抽出を行い、対応する第3の特徴と第4の特徴を取得することと、
    前記第3の特徴と前記第4の特徴により、話者を確認することと、を含み、
    前記の、時間遅延ニューラルネットワークを使用して、前記第1の特徴と前記第2の特徴に対して特徴抽出を行い、対応する第3の特徴と第4の特徴を取得することは、
    前記第1の音声スペクトログラムの前後のフレームに対応する前記第1の特徴に対してつなぎ合わせを行い、前記第2の音声スペクトログラムの前後のフレームに対応する前記第2の特徴に対してつなぎ合わせを行うことと、
    つなぎ合わせた後の前記第1の特徴とつなぎ合わせた後の前記第2の特徴のそれぞれに対して線形変換と次元削減を行い、対応する前記第3の特徴と前記第4の特徴を取得することと、を含むことを特徴とする話者の確認方法。
  2. 前記の、予め取得した第1の音声と前記第2の音声を対応する第1の音声スペクトログラムと第2の音声スペクトログラムに変換することは、具体的に、
    前記第1の音声と前記第2の音声のそれぞれにおけるフレームをつなぎ合わせることと、
    前記第1の音声におけるフレームをつなぎ合わせた後の音声を、対応する第1の音声スペクトログラムに変換し、前記第2の音声におけるフレームをつなぎ合わせた後の音声を、対応する第2の音声スペクトログラムに変換することと、を含むことを特徴とする請求項1に記載の話者の確認方法。
  3. 前記の、畳み込みニューラルネットワークを使用して、前記第1の特徴と前記第2の特徴に対して特徴抽出を行い、対応する第1の特徴と第2の特徴を取得することは、
    前記第1の音声スペクトログラムと前記第2の音声スペクトログラムのそれぞれに対して畳み込み処理を行うことと、
    畳み込んだ後の前記第1の音声スペクトログラムと前記第2の音声スペクトログラムのそれぞれに対してプーリング処理を行うことと、
    プーリング後の前記第1の音声スペクトログラムと前記第2の音声スペクトログラムのそれぞれに対して次元削減を行い、前記対応する第1の特徴と第2の特徴を得ることと、を含むことを特徴とする請求項1または2に記載の話者の確認方法。
  4. 畳み込みニューラルネットワークを使用して前記第1の音声スペクトログラムと前記第2の音声スペクトログラムに対して特徴抽出を行う前に、更に
    前記畳み込みニューラルネットワークと前記時間遅延ニューラルネットワークとをトレーニングすることを含むことを特徴とする請求項1から3のいずれか1項に記載の話者の確認方法。
  5. 前記畳み込みニューラルネットワークと前記時間遅延ニューラルネットワークとをトレーニングすることは、
    交差エントロピー関数を目的関数として使用して、前記畳み込みニューラルネットワークと前記時間遅延ニューラルネットワークとをトレーニングすることを含むことを特徴とする請求項4に記載の話者の確認方法。
  6. 第2の音声を取得するための取得ユニットと、
    予め取得した第1の音声と前記第2の音声を、対応する第1の音声スペクトログラムと第2の音声スペクトログラムに変換するための変換ユニットと、
    畳み込みニューラルネットワークを使用して、前記第1の音声スペクトログラムと前記第2の音声スペクトログラムに対して特徴抽出を行い、対応する第1の特徴と第2の特徴を取得するための第1の抽出ユニットと、
    時間遅延ニューラルネットワークを使用して、前記第1の特徴と前記第2の特徴に対して特徴抽出を行い、対応する第3の特徴と第4の特徴を取得するための第2の抽出ユニットと、
    前記第3の特徴と前記第4の特徴により、話者を確認するための確認ユニットと、を含み、
    前記第2の抽出ユニットは、具体的に、
    前記第1の音声スペクトログラムの前後のフレームに対応する前記第1の特徴に対してつなぎ合わせを行い、前記第2の音声スペクトログラムの前後のフレームと対応する前記第2の特徴に対してつなぎ合わせを行うための第2のつなぎ合わせサブユニットと、
    つなぎ合わせた後の前記第1の特徴とつなぎ合わせた後の前記第2の特徴のそれぞれに対して線形変換と次元削減を行い、対応する前記第3の特徴と前記第4の特徴を取得するための第2の変換サブユニットを含むことを特徴とする話者の確認装置。
  7. 前記変換ユニットは、
    具体的に、それぞれ前記第1の音声と前記第2の音声におけるフレームをつなぎ合わせるためのつなぎ合わせサブユニットと、
    前記第1の音声におけるフレームをつなぎ合わせた後の音声を、対応する第1の音声スペクトログラムに変換し、前記第2の音声におけるフレームをつなぎ合わせた後の音声を、対応する第2の音声スペクトログラムに変換するための変換サブユニットと、を含むことを特徴とする請求項6に記載の話者の確認装置。
  8. 前記第1の抽出ユニットは、
    前記第1の音声スペクトログラムと前記第2の音声スペクトログラムのそれぞれに対して畳み込み処理を行うための畳み込みサブユニットと、
    畳み込んだ後の前記第1の音声スペクトログラムと前記第2の音声スペクトログラムのそれぞれに対してプーリング処理を行うためのプーリングサブユニットと、
    プーリング後の前記第1の音声スペクトログラムと前記第2の音声スペクトログラムのそれぞれに対して次元削減を行い、前記対応する第1の特徴と第2の特徴を得るための次元削減サブユニットと、を含むことを特徴とする請求項6または7に記載の話者の確認装置。
  9. 更に、前記畳み込みニューラルネットワークと前記時間遅延ニューラルネットワークとをトレーニングするためのトレーニングユニットを含むことを特徴とする請求項6から8のいずれか1項に記載の話者の確認装置。
  10. 前記トレーニングユニットは、具体的に、交差エントロピー関数を目的関数として使用して、前記畳み込みニューラルネットワークと前記時間遅延ニューラルネットワークとをトレーニングするために使われることを特徴とする請求項9に記載の話者の確認装置。
JP2019553913A 2017-04-01 2017-12-01 話者の確認方法及び話者の確認装置 Active JP6954680B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710214666.0 2017-04-01
CN201710214666.0A CN107146624B (zh) 2017-04-01 2017-04-01 一种说话人确认方法及装置
PCT/CN2017/114293 WO2018176894A1 (zh) 2017-04-01 2017-12-01 一种说话人确认方法及装置

Publications (2)

Publication Number Publication Date
JP2020515905A JP2020515905A (ja) 2020-05-28
JP6954680B2 true JP6954680B2 (ja) 2021-10-27

Family

ID=59773613

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019553913A Active JP6954680B2 (ja) 2017-04-01 2017-12-01 話者の確認方法及び話者の確認装置

Country Status (3)

Country Link
JP (1) JP6954680B2 (ja)
CN (1) CN107146624B (ja)
WO (1) WO2018176894A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146624B (zh) * 2017-04-01 2019-11-22 清华大学 一种说话人确认方法及装置
CN107464568B (zh) * 2017-09-25 2020-06-30 四川长虹电器股份有限公司 基于三维卷积神经网络文本无关的说话人识别方法及***
CN108461092B (zh) * 2018-03-07 2022-03-08 燕山大学 一种对帕金森病语音分析的方法
CN108648759A (zh) * 2018-05-14 2018-10-12 华南理工大学 一种文本无关的声纹识别方法
CN110299142B (zh) * 2018-05-14 2021-11-19 桂林远望智能通信科技有限公司 一种基于网络融合的声纹识别方法及装置
CN108877812B (zh) * 2018-08-16 2021-04-02 桂林电子科技大学 一种声纹识别方法、装置及存储介质
CN109065033B (zh) * 2018-09-19 2021-03-30 华南理工大学 一种基于随机深度时延神经网络模型的自动语音识别方法
CN110289003B (zh) 2018-10-10 2021-10-29 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN111128222B (zh) * 2018-10-30 2023-09-08 富士通株式会社 语音分离方法、语音分离模型训练方法和计算机可读介质
US11031017B2 (en) * 2019-01-08 2021-06-08 Google Llc Fully supervised speaker diarization
CN111048097B (zh) * 2019-12-19 2022-11-29 中国人民解放军空军研究院通信与导航研究所 一种基于3d卷积的孪生网络声纹识别方法
CN111108554A (zh) * 2019-12-24 2020-05-05 广州国音智能科技有限公司 一种基于语音降噪的声纹识别方法和相关装置
CN111833885B (zh) * 2020-07-08 2023-08-01 太原科技大学 一种基于卷积模糊神经网络的音源识别方法
CN111951823B (zh) * 2020-08-07 2024-06-21 腾讯科技(深圳)有限公司 一种音频处理方法、装置、设备及介质
CN113781993A (zh) 2021-01-20 2021-12-10 北京沃东天骏信息技术有限公司 定制音色歌声的合成方法、装置、电子设备和存储介质
CN113113022A (zh) * 2021-04-15 2021-07-13 吉林大学 一种基于说话人声纹信息的自动识别身份的方法
CN113178196B (zh) * 2021-04-20 2023-02-07 平安国际融资租赁有限公司 音频数据提取方法、装置、计算机设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201236B (zh) * 2011-04-06 2012-12-19 中国人民解放军理工大学 一种高斯混合模型和量子神经网络联合的说话人识别方法
US9230550B2 (en) * 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
EP2897076B8 (en) * 2014-01-17 2018-02-07 Cirrus Logic International Semiconductor Ltd. Tamper-resistant element for use in speaker recognition
CN104732978B (zh) * 2015-03-12 2018-05-08 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN106326939A (zh) * 2016-08-31 2017-01-11 深圳市诺比邻科技有限公司 卷积神经网络的参数优化方法及***
CN107146624B (zh) * 2017-04-01 2019-11-22 清华大学 一种说话人确认方法及装置

Also Published As

Publication number Publication date
CN107146624B (zh) 2019-11-22
WO2018176894A1 (zh) 2018-10-04
CN107146624A (zh) 2017-09-08
JP2020515905A (ja) 2020-05-28

Similar Documents

Publication Publication Date Title
JP6954680B2 (ja) 話者の確認方法及び話者の確認装置
CN107492382B (zh) 基于神经网络的声纹信息提取方法及装置
WO2019232829A1 (zh) 声纹识别方法、装置、计算机设备及存储介质
CN108172218B (zh) 一种语音建模方法及装置
WO2021051608A1 (zh) 一种基于深度学习的声纹识别方法、装置及设备
Salehghaffari Speaker verification using convolutional neural networks
CN109410957A (zh) 基于计算机视觉辅助的正面人机交互语音识别方法及***
KR20120054845A (ko) 로봇의 음성인식방법
TW201419270A (zh) 詞語驗證的方法及裝置
CN110299142A (zh) 一种基于网络融合的声纹识别方法及装置
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
CN110299143B (zh) 用于识别语音说话人的装置及其方法
CN112507311A (zh) 一种基于多模态特征融合的高安全性身份验证方法
Mun et al. The sound of my voice: Speaker representation loss for target voice separation
CN114303186A (zh) 用于在语音合成中适配人类说话者嵌入的***和方法
Han et al. Continuous Speech Separation Using Speaker Inventory for Long Recording.
CN114530156A (zh) 用于短语音说话人确认的生成对抗网络优化方法及***
CN109065026B (zh) 一种录音控制方法及装置
CN108665901B (zh) 一种音素/音节提取方法及装置
Park et al. The Second DIHARD Challenge: System Description for USC-SAIL Team.
KR20140093459A (ko) 자동 통역 방법
US11977855B2 (en) System and method for automatic speech translation based on zero user interface
CN110197657A (zh) 一种基于余弦相似度的动态音声特征提取方法
CN112667787A (zh) 基于话术标签的智能应答方法、***及存储介质
Afshan et al. Attention-based conditioning methods using variable frame rate for style-robust speaker verification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201124

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210506

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210907

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210922

R150 Certificate of patent or registration of utility model

Ref document number: 6954680

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150