JP6649474B2 - 声紋識別方法、装置及びバックグラウンドサーバ - Google Patents

声紋識別方法、装置及びバックグラウンドサーバ Download PDF

Info

Publication number
JP6649474B2
JP6649474B2 JP2018514332A JP2018514332A JP6649474B2 JP 6649474 B2 JP6649474 B2 JP 6649474B2 JP 2018514332 A JP2018514332 A JP 2018514332A JP 2018514332 A JP2018514332 A JP 2018514332A JP 6649474 B2 JP6649474 B2 JP 6649474B2
Authority
JP
Japan
Prior art keywords
test
voiceprint
voice
user
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018514332A
Other languages
English (en)
Other versions
JP2019510248A (ja
Inventor
健宗 王
健宗 王
卉 郭
卉 郭
継程 宋
継程 宋
京 肖
京 肖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of JP2019510248A publication Critical patent/JP2019510248A/ja
Application granted granted Critical
Publication of JP6649474B2 publication Critical patent/JP6649474B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/39Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using genetic algorithms

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)

Description

(関連出願の相互参照)
本願は2017年2月16日に提出されて出願番号が中国特許出願第201710083629.0号であって名称が『声紋識別方法及び装置』である中国特許出願の優先権を享受し、該中国特許出願の全体内容は参照により本願に組み入れられる。
(技術分野)
本発明はバイオメトリック特徴の身分識別技術分野に関し、特に声紋識別方法、装置、記憶媒体及びバックグラウンドサーバに関する。
声紋識別(Voiceprint Recognition)は、声に含まれる話者のバイオメトリック特徴により、話者を識別する身分識別技術を指す。声紋識別は、安全・確実性を有するため、身分識別を必要とするほとんどの安全性保護分野及びパーソナライズドアプリケーションの場合に使用されている。例えば、銀行、証券、保険等の金融機関の業務量が持続的に拡大すると同時に、大量の身分識別のニーズが生まれている。従来の身分識別技術に比べ、声紋識別の長所は、声紋抽出過程が簡単でありコストが低く、かつ各人の声紋特徴が他人の声紋特徴と異なり一意性を有するため、偽造しにくいという点にある。声紋識別は、安全、確実、便利等の特徴を備えるため、身分識別を必要とする場合に幅広く応用されている。しかしながら、現在の声紋識別過程にかかる時間が長いため、大量の音声識別要求を処理する際に、処理時間が長すぎることが原因で一部の音声識別要求がなくなることを引き起こし、声紋識別技術のアプリケーションに影響を与えてしまう。
本発明が解決しようとする技術的課題は、従来技術の欠陥に対して声紋識別方法、装置、記憶媒体及びバックグラウンドサーバを提供し、大量の音声識別要求の処理効率を向上させ、処理時間を短縮させることにある。
本発明が技術的課題を解決するために採用した技術的手段は、
クライアントがユーザのテスト音声を採集し、かつバックグラウンドサーバにユーザIDと前記テスト音声とを含む音声識別要求を送信することと、
バックグラウンドサーバが前記音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定することと、
バックグラウンドサーバが前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、
バックグラウンドサーバが前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力することと、
クライアントが前記判断結果を受信して表示することと、
を含む声紋識別方法である。
本発明はまた、
ユーザのテスト音声を採集してかつバックグラウンドサーバにユーザIDと前記テスト音声とを含む音声識別要求を送信するためのクライアントと、
前記音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するためのバックグラウンドサーバと、
前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するためのバックグラウンドサーバと、
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力するためのバックグラウンドサーバと、
前記判断結果を受信して表示するためのクライアントと、を含む声紋識別装置を提供する。
本発明はまた、
メモリと、プロセッサと、前記メモリに記憶されてかつ前記プロセッサによって動作可能なコンピュータプログラムと、を含み、前記プロセッサは、前記コンピュータプログラムを実行する際に、上述の声紋識別方法におけるバックグラウンドサーバが実行するステップを実現するバックグラウンドサーバを提供する。
本発明はまた、コンピュータプログラムを記憶しており、前記コンピュータプログラムはプロセッサに実行される際に、上述の声紋識別方法におけるバックグラウンドサーバが実行するステップを実現するコンピュータ読取可能な記憶媒体を提供する。
本発明は従来技術に比べ、以下の利点を有する。本発明が提供した声紋識別方法及び装置において、バックグラウンドサーバは、処理待ちの音声識別要求のユーザIDに基づいて対応した目標声紋特徴を取得し、かつ処理待ちの音声識別要求のテスト音声に基づいて対応したテスト声紋特徴を取得し、目標声紋特徴をテスト声紋特徴と比較することで、目標声紋特徴とテスト声紋特徴の話者が同一ユーザであるかどうかを確定するため、音声を迅速に識別する効果を達成し、音声識別効率を向上させることができる。また、バックグラウンドサーバはメッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するため、大量の音声識別要求の処理効率を向上させ、処理時間が長すぎることが原因で一部の音声識別要求がなくなることを避ける。
以下、図面及び実施形態を合わせて本発明をより詳細に説明する。
本発明の第一実施形態による声紋識別方法のフロー図である。 本発明の第二実施形態による声紋識別装置の原理ブロック図である。 本発明の一つの実施形態が提供したバックグラウンドサーバの概略図である。
本発明の技術的特徴、目的及び効果をより明らかにするために、以下、図面と合わせて本発明の具体的な実施態様をより詳細に説明する。
(第一実施形態)
図1は本実施形態による声紋識別方法のフロー図である。該声紋識別方法は、クライアント及びバックグラウンドサーバに応用されて、クライアントが採集したテスト音声に対して身分識別を行うことを実現する。図1に示すように、該声紋識別方法は、以下のステップを含む。
S10:クライアントがユーザのテスト音声を採集し、かつバックグラウンドサーバにユーザIDとテスト音声とを含む音声識別要求を送信する。
ここで、クライアントは、スマホ、ノートパソコン、デスクトップコンピュータ等のバックグラウンドサーバに接続して通信することができる端末を含み、クライアントにテスト音声を採集するためのマイク又は外付けマイクのインターフェースが設けられている。ユーザIDはユーザの身分を一意に識別するためのものであり、本実施形態においてテスト音声とユーザIDとを関連付けて、テスト音声に対応したユーザを特定するためのものである。クライアントはユーザに対してサンプリング録音を行って、wavオーディオフォーマットのテスト音声を取得し、テスト音声及びユーザIDに基づき音声識別要求を形成し、かつバックグラウンドサーバに音声識別要求を送信する。
さらに、クライアントは携帯電話端末である場合、マルチスレッド方式でテスト音声を採集し、クライアントはウェブ端末である場合、バックグラウンドサーバと通信する際にユーザの操作を中断せずにテスト要求の採集スピードを向上させることを実現するために、Ajax非同期リフレッシュ方式でテスト音声を採集する。Ajax(Asynchronous JavaScript(登録商標) and XML、非同期JavaScript(登録商標)とXML)は、クライアントスクリプトを使用してWebサーバとデータを交換するWebアプリケーション開発方法である。
S20:バックグラウンドサーバが音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定する。
ここで、バックグラウンドサーバは、少なくとも一つのクライアントが送信した音声識別要求を受信し、かつ少なくとも一つの音声識別要求をメッセージキューに入れて処理を待たせる。バックグラウンドサーバは、非同期メカニズムを採用してメッセージキューにおける少なくとも一つの音声識別要求に対してスケジューリングを行うことにより、メッセージキューにおける各メッセージを処理する際に送信側と受信側を互いに独立させて相手の応答を待つ必要がなくなる。メッセージキュー及び非同期メカニズムを採用して少なくとも一つの音声識別要求に対してスケジューリングを行うことで処理待ちの音声識別要求を取得することにより、バックグラウンドサーバが同時に大量の音声識別要求を受信するだけではなく、また処理待ちの任意の音声識別要求の処理時間が長すぎることが原因で他の大量の音声識別要求がなくなることを避けることができる。もう一方で、メッセージキュー及び非同期メカニズムを採用すると、バックグラウンドサーバに分散システムを構築することもでき、音声識別要求のピーク処理能力及び柔軟性を向上させ、プロセス間の結合度を低下させ、各音声識別要求がいずれも処理されることを保証できる。
S30:バックグラウンドサーバが処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得する。
具体的に、目標声紋特徴は、予めバックグラウンドサーバに記憶されてユーザIDに対応したユーザの声紋特徴である。テスト声紋特徴は音声識別要求におけるテスト音声に対応した声紋特徴である。ここで、声紋(Voiceprint)は、電子音響機器で表示されて言語情報を持っている音響スペクトルである。従って、声紋特徴は、例えば、スペクトル、ケプストラム、共振ピーク、基音、反射係数等のような人類の発音メカニズムの解剖学構造に関する音響的特徴、鼻音、深呼吸音、嗄声、笑い声を含むが、これらに限定されない。
本実施形態において、好ましい目標声紋特徴及びテスト声紋特徴はI−vector(つまりidentifying vector、識別ベクトル)特徴である。従って、任意のI−vector特徴はいずれもI−vectorアルゴリズムにより取得されることができる。I−vectorアルゴリズムは、隠れた変数を推定する方法であり、固定長を有する低次元ベクトルで一部の音声を表示し、I−vector特徴抽出過程においてクラス内及びクラス間の分散値を分けて処理せず、それを一つの部分空間、つまり総変数空間(total variablity space)に入れて処理することにより、監督の無い方法で訓練を行うことができるし、総変数空間から言語種類と関係しない情報を取り除くこともでき、次元を低減してノイズを除去するとともに最大限に言語種類に関係する音響的情報を保留している。
さらに、ステップS30は、具体的に以下のステップを含む。
S31:処理待ちの音声識別要求のユーザIDにより声紋特徴データベースを照会することで、処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得する。
具体的に、処理待ちの音声識別要求のユーザIDに基づいて対応した目標声紋特徴を検索するために、予め声紋特徴データベースに少なくとも1セットのユーザID及びユーザIDと関連づけられる目標声紋特徴を記憶している。
S32:ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得する。
ここで、ガウス混合モデル−汎用背景モデル(つまりGaussian Mixture Model−Universal Background Model,GMM−UBMと略称する)は、話者と関係ない上位GMMであり、話者の訓練音声に基づいて自行対応して訓練し、つまり音声モデルが話者の自分の音声でモデルに含まない発音状況を反映し、話者と関係ない音声特徴分布で近似的に記述するためのものであり、識別率が高いという特徴を有する。
具体的に、バックグラウンドサーバは受信した音声識別要求をメッセージキューに入れて処理を待たせており、アイドルプロセスがある場合、メッセージキューから処理待ちの音声識別要求を取り出してバックグラウンドServletコンテナに渡して処理する。Servletコンテナは、HttpRequestオブジェクトを作成して、送信されたメッセージをこのオブジェクトにパッキングする同時に、HttpResponseオブジェクトを作成し、HttpRequest及びHttpResponseをパラメータとしてHttpServletオブジェクトに伝送して、HttpServletオブジェクトのservice方法を呼び出す。service方法にガウス混合モデル−汎用背景モデルを呼び出してテスト音声に対して処理を行うことでテスト声紋特徴を取得する。
S40:バックグラウンドサーバが目標声紋特徴及びテスト声紋特徴に基づいて同一ユーザに対応するかどうかを判断し、かつクライアントに判断結果を出力する。
目標声紋特徴が予め声紋特徴データベースに記憶されてユーザIDと関連づけられる声紋特徴であり、テスト声紋特徴が、クライアントが採集したユーザIDと関連づけられるテスト音声に対応した声紋特徴であるため、両方が同じ又は近似度がプリセットされた類似閾値に達する場合、両方が同一ユーザであると判断でき、クライアントに両方が同一ユーザ又は異なるユーザであるという判断結果を出力する。
さらに、S40は、具体的に以下のステップを含む。
S41:PLDAアルゴリズムを採用してそれぞれ目標声紋特徴及びテスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得する。
ここで、PLDA(Probabilistic Linear Discriminant Analysis)アルゴリズムは、チャネル補償アルゴリズムである。PLDAは、I−vector特徴に基づくアルゴリズムであり、I−vector特徴が話者の差異情報だけでなくまたチャネル差異情報を含むが、話者の情報だけを考慮すべきであるため、チャネル補償の必要がある。PLDAアルゴリズムは、チャネル補償能力がLDAアルゴリズムよりもっとよい。
ここで、PLDAアルゴリズムは具体的に、
(1)μとWを初期化することと、
(2)
Figure 0006649474
によりwを計算することと、
(3)
Figure 0006649474
によりWを再度計算し、かつ
Figure 0006649474
によりwを計算するというステップに戻ることで、wが指定閾値より小さくなるまで計算することと、を含む。
ここで、μは平均値声紋ベクトルであり、Wはクラス間距離であり、wは声紋特徴であり、iは反復回数である。
S42:余弦測度関数を採用して目標次元低減値及びテスト次元低減値に対して余弦測度を行って、余弦測度値を取得する。
具体的に、余弦測度関数は、
Figure 0006649474
を含み、そのうち、wtrainは目標声紋特徴であり、wtestはテスト声紋特徴であり、tは時間である。余弦測度関数を採用することにより、目標声紋特徴とテスト声紋特徴との間の距離を簡単に判断することができ、目標声紋特徴及びテスト声紋特徴が指定された有限次元空間内に展開できる場合、該余弦測度関数は計算が比較的簡単でありかつ効果が比較的直接で有効である。
S43:余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断する。
具体的に、score(wtrain,wtest)>Kの場合、目標声紋特徴に対応した話者は、テスト声紋特徴に対応した話者と同一ユーザであり、逆に、score(wtrain,wtest)≦Kの場合、目標声紋特徴に対応した話者は、テスト声紋特徴に対応した話者と同一ユーザではない。そのうち、Kは、類似閾値であり、50%より大きい定数であってもよい。
S50:クライアントが判断結果を受信して表示する。
該判断結果は、テスト音声に対応したテスト声紋特徴が声紋特徴データベースに記憶された目標声紋特徴に対応した話者と同一ユーザであるという判断結果であってもよく、または同一ユーザではないという判断結果であってもよい。
本発明が提供した声紋識別方法において、バックグラウンドサーバは、処理待ちの音声識別要求のユーザIDに基づいて対応した目標声紋特徴を取得し、かつ処理待ちの音声識別要求のテスト音声に基づいてテスト声紋特徴を取得し、目標声紋特徴をテスト声紋特徴と比較することで、目標声紋特徴とテスト声紋特徴の話者が同一ユーザであるかどうかを確定するため、音声を迅速に識別する効果を達成し、音声識別効率を向上させることができる。また、バックグラウンドサーバはメッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するため、大量の音声識別要求の処理効率を向上させ、処理時間が長すぎることが原因で一部の音声識別要求がなくなることを避ける。
具体的な実施態様において、該声紋識別方法は、また以下のステップを含む。
S51:訓練音声に対してMFCC特徴抽出を行うことでMFCC音響的特徴を取得する。
ここで、MFCC(Mel Frequency Cepstrum Coefficients)は、メル周波数ケプストラム係数である。訓練音声に対してMFCC特徴抽出を行う過程は、訓練音声に対してプリエンファシス、フレーム分割及びウィンドウ処理を行うことと、各短時間分析ウィンドウに対してFFT(Fast Fourier Transform、高速フーリエ変換)により対応したスペクトルを取得することと、上述スペクトルに対してMelフィルタバンクによりMel周波数を得ることと、Melスペクトルにケプストラム分析(対数を取ること、逆変換すること;実際に逆変換は通常DCT離散コサイン変換により実現され、DCT後の第2番目から第13番目までの係数をMFCC係数とする)を行って、Mel周波数ケプストラム係数MFCCを取得して、MFCC音響的特徴を取得することと、を含む。
S52:MFCC音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定する。
ここで、音声活動検出は、音声活動検出(Voice Activity detection,VAD)アルゴリズムにより音声及びノイズの異なる特徴に対して音声及びノイズ判断を行うことで、連続的にサンプリングして取得したデジタル信号から音声信号部分及びノイズ信号部分を検出し、かつ音声信号部分のMFCC音響的特徴でガウス混合モデル(Gaussian Mixture Modeモデル、GMMモデルと略称する)のパラメータセットを推定する。具体的に、音声活動検出アルゴリズムにより短時間エネルギー、短時間ゼロクロス率、短時間自己相関等の音声特徴パラメータを計算することでミューティング信号及び非音声信号を取り除き、非ミューティング音声信号を保留してガウス混合モデルパラメータを推定する。本実施形態において、MFCC音響的特徴のゼロオーダ、1オーダ及び2オーダでガウス混合モデルのパラメータを推定する。
S53:ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、ガウス混合モデル−汎用背景モデルを取得する。
本実施形態において、ガウス混合モデルパラメータに対して汎用背景モデルにより因子分析を行って、ガウス混合モデル−汎用背景モデルを取得する。具体的に、汎用背景モデルの因子分析アルゴリズムは、s=m+Twを含み、そのうち、mは平均音声であり、つまり平均値ベクトルであり、Tは声紋空間マッピング行列であり、wは、声紋差異ベクトルであり、つまりI−vector特徴である。因子分析アルゴリズムによりガウス混合モデルで表示された音響的特徴に対して因子分析を行って、音響的特徴の平均値ベクトル(平均値)から声紋差異ベクトル(残量)を分離ことにより、I−vector特徴を取得する。該因子分析アルゴリズムは異なる音声間の声紋差異ベクトルを分離し、異なる音声間の声紋特異性をより簡単に抽出することができる。
S54:ユーザIDと目標訓練音声とを含む声紋登録要求を受信する。
本実施形態において、クライアントは、ユーザが入力した声紋登録要求を受信し、かつ該声紋登録要求をサーバに送信し、サーバは該声紋登録要求を受信する。
S55:ガウス混合モデル−汎用背景モデルで目標訓練音声に対して特徴抽出を行って、目標声紋特徴を取得する。
具体的に、サーバは、訓練済みのガウス混合モデル−汎用背景モデルで目標訓練音声に対して特徴抽出を行って、目標声紋特徴を取得する。つまり先ず目標訓練音声に対してMFCC特徴を抽出して、対応した目標MFCC音響的特徴を取得し、その後、目標MFCC音響的特徴に対して音声活動検出を行って、さらに音声活動検出後のMFCC音響的特徴を訓練済みのガウス混合モデル−汎用背景モデルに入れて特徴抽出を行って、目標声紋特徴を取得する。
S56:ユーザID及び目標声紋特徴を前記声紋特徴データベースに記憶する。
本実施形態において、ユーザ身分識別の必要がある場合にユーザIDに基づいて対応した目標声紋特徴を呼び出すために、声紋登録要求におけるユーザID及び目標訓練音声に基づいて取得した目標声紋特徴を声紋特徴データベースに記憶する。
具体的な該実施方式において、訓練音声に対してMFCC特徴抽出及び音声活動検出を行うことによりガウス混合モデルパラメータを推定し、かつガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、訓練済みのガウス混合モデル−汎用背景モデルを取得し、該ガウス混合モデル−汎用背景モデルは、識別率が高いという利点を有する。さらに、声紋登録要求を受信して、声紋登録要求における目標訓練音声に対して訓練済みのガウス混合モデル−汎用背景モデルにより特徴抽出を行って、目標声紋特徴を取得し、かつ目標声紋特徴及びユーザIDを声紋特徴データベースに記憶し、これで、音声識別過程に処理待ちの音声識別要求におけるユーザIDに基づいて対応した目標声紋特徴を取得してテスト声紋特徴と比較し、目標声紋特徴とテスト声紋特徴の話者が同一ユーザであるかどうかを確定して、音声識別効果に達する。
(第二実施形態)
図2は本実施形態による声紋識別装置の原理ブロック図である。該声紋識別装置は、クライアントと、バックグラウンドサーバと、を含み、クライアントが採集したテスト音声に対して身分識別を行うことを実現することができる。図2に示すように、該声紋識別装置は、クライアント10と、バックグラウンドサーバ20と、を含む。
クライアント10は、ユーザのテスト音声を採集してかつバックグラウンドサーバにユーザIDとテスト音声とを含む音声識別要求を送信するためのものである。
ここで、クライアント10は、スマホ、ノートパソコン、デスクトップコンピュータ等のバックグラウンドサーバに接続して通信することができる端末を含み、クライアントにテスト音声を採集するためのマイク又は外付けマイクのインターフェースが設けられている。ユーザIDはユーザの身分を一意に識別するためのものであり、本実施形態においてテスト音声とユーザIDとを関連付けて、テスト音声に対応したユーザを特定するためのものである。クライアントはユーザに対してサンプリング録音を行って、wavオーディオフォーマットのテスト音声を取得し、テスト音声及びユーザIDに基づき音声識別要求を形成し、かつバックグラウンドサーバに音声識別要求を送信する。
さらに、クライアントは携帯電話端末である場合、マルチスレッド方式でテスト音声を採集し、クライアントはウェブ端末である場合、バックグラウンドサーバと通信する際にユーザの操作を中断せずにテスト要求の採集スピードを向上させることを実現するために、Ajax非同期リフレッシュ方式でテスト音声を採集する。Ajax(Asynchronous JavaScript(登録商標) and XML、非同期JavaScript(登録商標)とXML)は、クライアントスクリプトを使用してWebサーバとデータを交換するWebアプリケーション開発方法である。
バックグラウンドサーバ20は、音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するためのものである。
ここで、バックグラウンドサーバ20は、少なくとも一つのクライアントが送信した音声識別要求を受信し、かつ少なくとも一つの音声識別要求をメッセージキューに入れて処理を待たせる。バックグラウンドサーバは、非同期メカニズムを採用してメッセージキューにおける少なくとも一つの音声識別要求に対してスケジューリングを行うことにより、メッセージキューにおける各メッセージを処理する際に送信側と受信側を互いに独立させて相手の応答を待つ必要がなくなる。メッセージキュー及び非同期メカニズムを採用して少なくとも一つの音声識別要求に対してスケジューリングを行うことで処理待ちの音声識別要求を取得することにより、バックグラウンドサーバが同時に大量の音声識別要求を受信するだけではなく、また処理待ちの任意の音声識別要求の処理時間が長すぎることが原因で他の大量の音声識別要求がなくなることを避けることができる。もう一方で、メッセージキュー及び非同期メカニズムを採用すると、バックグラウンドサーバに分散システムを構築することもでき、音声識別要求のピーク処理能力及び柔軟性を向上させ、プロセス間の結合度を低下させ、各音声識別要求がいずれも処理されることを保証できる。
バックグラウンドサーバ20は、処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するためのものである。
具体的に、目標声紋特徴は、予めバックグラウンドサーバに記憶されてユーザIDに対応したユーザの声紋特徴である。テスト声紋特徴は、音声識別要求におけるテスト音声に対応した声紋特徴である。ここで、声紋(Voiceprint)は、電子音響機器で表示されて言語情報を持っている音響スペクトルである。従って、声紋特徴は、例えば、スペクトル、ケプストラム、共振ピーク、基音、反射係数等のような人類の発音メカニズムの解剖学構造に関する音響的特徴、鼻音、深呼吸音、嗄声、笑い声を含むが、これらに限定されない。
本実施形態において、好ましい目標声紋特徴及びテスト声紋特徴はI−vector(つまりidentifying vector、識別ベクトル)特徴である。従って、任意のI−vector特徴はいずれもI−vectorアルゴリズムにより取得されることができる。I−vectorアルゴリズムは、隠れた変数を推定する方法であり、固定長を有する低次元ベクトルで一部の音声を表示し、I−vector特徴抽出過程においてクラス内及びクラス間の分散値を分けて処理せず、それを一つの部分空間、つまり総変数空間(total variablity space)に入れて処理することにより、監督の無い方法で訓練を行うことができるし、総変数空間から言語種類と関係しない情報を取り除くこともでき、次元を低減してノイズを除去するとともに最大限に言語種類に関係する音響的情報を保留している。
さらに、バックグラウンドサーバ20は、特徴照会ユニット211と、特徴処理ユニット212と、を含む。
特徴照会ユニット211は、処理待ちの音声識別要求のユーザIDにより声紋特徴データベースを照会することで、処理待ちの音声識別要求のユーザIDに基づいて対応した目標声紋特徴を取得するためのものである。
具体的に、処理待ちの音声識別要求のユーザIDに基づいて対応した目標声紋特徴を検索するために、予め声紋特徴データベースに少なくとも1セットのユーザID及びユーザIDと関連づけられる目標声紋特徴を記憶している。
特徴処理ユニット212は、ガウス混合モデル−汎用背景モデルで処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するためのものである。
ここで、ガウス混合モデル−汎用背景モデル(つまりGaussian Mixture Model−Universal Background Model,GMM−UBMと略称する)は、話者と関係ない上位GMMであり、話者の訓練音声に基づいて自行対応して訓練し、つまり音声モデルが話者の自分の音声でモデルに含まない発音状況を反映し、話者と関係ない音声特徴分布で近似的に記述するためのものであり、識別率が高いという特徴を有する。
具体的に、バックグラウンドサーバ20は、受信した音声識別要求をメッセージキューに入れて処理を待たせており、アイドルプロセスがある場合、メッセージキューから処理待ちの音声識別要求を取り出してバックグラウンドServletコンテナに渡して処理する。Servletコンテナは、HttpRequestオブジェクトを作成して、送信されたメッセージをこのオブジェクトにパッキングする同時に、HttpResponseオブジェクトを作成し、HttpRequest及びHttpResponseをパラメータとしてHttpServletオブジェクトに伝送して、HttpServletオブジェクトのservice方法を呼び出す。service方法にガウス混合モデル−汎用背景モデルを呼び出してテスト音声に対して処理を行うことでテスト声紋特徴を取得する。
バックグラウンドサーバ20は、目標声紋特徴及びテスト声紋特徴に基づいて同一ユーザに対応するかどうかを判断し、かつクライアントに判断結果を出力する。
目標声紋特徴が予め声紋特徴データベースに記憶されてユーザIDと関連づけられる声紋特徴であり、テスト声紋特徴がクライアントが採集した、ユーザIDと関連づけられるテスト音声に対応した声紋特徴であるため、両方が同じ又は近似度がプリセットされた類似閾値に達する場合、両方が同一ユーザであると判断でき、クライアントに両方が同一ユーザ又は異なるユーザであるという判断結果を出力する。
さらに、バックグラウンドサーバ20は、具体的に特徴次元低減ユニット221と、余弦測度処理ユニット222と、ユーザ識別判断ユニット223と、を含む。
特徴次元低減ユニット221は、PLDAアルゴリズムを採用してそれぞれ目標声紋特徴及びテスト声紋特徴に対して次元低減を行って目標次元低減値及びテスト次元低減値を取得するためのものである。
ここで、PLDA(Probabilistic Linear Discriminant Analysis)アルゴリズムは、チャネル補償アルゴリズムである。PLDAは、I−vector特徴に基づくアルゴリズムであり、I−vector特徴が話者の差異情報だけでなくまたチャネル差異情報を含むが、話者の情報だけを考慮すべきであるため、チャネル補償の必要がある。PLDAアルゴリズムは、チャネル補償能力がLDAアルゴリズムよりもっとよい。
ここで、PLDAアルゴリズムは具体的に、
(1)μとWを初期化することと、
(2)
Figure 0006649474
によりwを計算することと、
(3)
Figure 0006649474
によりWを再度計算し、かつ
Figure 0006649474
によりwを計算するというステップに戻ることで、wが指定閾値より小さくなるまで計算することと、を含む。
ここで、μは平均値声紋ベクトルであり、Wはクラス間距離であり、wは声紋特徴であり、iは反復回数である。
余弦測度処理ユニット222は、余弦測度関数を採用して目標次元低減値及びテスト次元低減値に対して余弦測度を行って余弦測度値を取得するためのものである。
具体的に、余弦測度関数は、
Figure 0006649474
を含み、そのうち、wtrainは目標声紋特徴であり、wtestはテスト声紋特徴であり、tは時間である。余弦測度関数を採用することにより、目標声紋特徴とテスト声紋特徴との間の距離を簡単に判断することができ、目標声紋特徴及びテスト声紋特徴が指定された有限次元空間内に展開できる場合、該余弦測度関数は、計算が比較的簡単でありかつ効果が比較的直接で有効である。
ユーザ識別判断ユニット223は、余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断するためのものである。
具体的に、score(wtrain,wtest)>Kの場合、目標声紋特徴に対応した話者は、テスト声紋特徴に対応した話者と同一ユーザであり、逆に、score(wtrain,wtest)≦Kの場合、目標声紋特徴に対応した話者は、テスト声紋特徴に対応した話者と同一ユーザではない。そのうち、Kは、類似閾値であり、50%より大きい定数であってもよい。
クライアント10は、判断結果を受信して表示するためのものである。
該判断結果は、テスト音声に対応したテスト声紋特徴が声紋特徴データベースに記憶された目標声紋特徴に対応した話者と同一ユーザであるという判断結果であってもよく、または同一ユーザではないという判断結果であってもよい。
本発明が提供した声紋識別装置において、バックグラウンドサーバは、処理待ちの音声識別要求のユーザIDに基づいて対応した目標声紋特徴を取得し、かつ処理待ちの音声識別要求のテスト音声に基づいてテスト声紋特徴を取得し、目標声紋特徴をテスト声紋特徴と比較することで、目標声紋特徴とテスト声紋特徴の話者が同一ユーザであるかどうかを確定するため、音声を迅速に識別する効果を達成し、音声識別効率を向上させることができる。また、バックグラウンドサーバはメッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するため、大量の音声識別要求の処理効率を向上させ、処理時間が長すぎることが原因で一部の音声識別要求がなくなることを避ける。
具体的な実施態様において、該声紋識別装置は、音響的特徴抽出ユニット231と、音声活動検出ユニット232と、モデル訓練ユニット233と、登録音声受信ユニット234と、目標声紋特徴取得ユニット235と、目標声紋特徴記憶ユニット236と、をさらに含む。
音響的特徴抽出ユニット231は、訓練音声に対してMFCC特徴抽出を行うことでMFCC音響的特徴を取得するためのものである。
ここで、MFCC(Mel Frequency Cepstrum Coefficients)は、メル周波数ケプストラム係数である。訓練音声に対してMFCC特徴抽出を行う過程は、訓練音声に対してプリエンファシス、フレーム分割及びウィンドウ処理を行うことと、各短時間分析ウィンドウに対してFFT(Fast Fourier Transform、高速フーリエ変換)により対応したスペクトルを取得することと、上述スペクトルに対してMelフィルタバンクによりMel周波数を得ることと、Melスペクトルにケプストラム分析(対数を取ること、逆変換すること;実際に逆変換は通常DCT離散コサイン変換により実現され、DCT後の第2番目から第13番目までの係数をMFCC係数とする)を行って、Mel周波数ケプストラム係数MFCCを取得して、MFCC音響的特徴を取得することと、を含む。
音声活動検出ユニット232は、MFCC音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定するためのものである。
ここで、音声活動検出は、音声活動検出(Voice Activity detection,VAD)アルゴリズムにより音声とノイズとの異なる特徴に対して音声及びノイズ判断を行うことで、連続的にサンプリングして取得したデジタル信号から音声信号部分及びノイズ信号部分を検出し、かつ音声信号部分のMFCC音響的特徴をガウス混合モデル(Gaussian Mixture Modeモデル、GMMモデルと略称する)のパラメータセットとする。具体的に、音声活動検出アルゴリズムにより短時間エネルギー、短時間ゼロクロス率、短時間自己相関等の音声特徴パラメータを計算することでミューティング信号及び非音声信号を取り除き、非ミューティング音声信号を保留してガウス混合モデルパラメータを推定する。本実施形態において、非ミューティング信号のMFCC音響的特徴のゼロオーダ、1オーダ及び2オーダでガウス混合モデルのパラメータを推定する。
モデル訓練ユニット233は、ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、ガウス混合モデル−汎用背景モデルを取得するためのものである。
本実施形態において、ガウス混合モデルパラメータに対して汎用背景モデルにより因子分析を行って、ガウス混合モデル−汎用背景モデルを取得する。具体的に、汎用背景モデルの因子分析アルゴリズムは、s=m+Twを含み、そのうち、mは平均音声であり、つまり平均値ベクトルであり、Tは声紋空間マッピング行列であり、wは、声紋差異ベクトルであり、つまりI−vector特徴である。因子分析アルゴリズムでガウス混合モデルにより表示された音響的特徴に対して因子分析を行って、音響的特徴の平均値ベクトル(平均値)から声紋差異ベクトル(残量)を分離ことにより、I−vector特徴を取得する。該因子分析アルゴリズムは、異なる音声間の声紋差異ベクトルを分離し、異なる音声間の声紋特異性をより簡単に抽出することができる。
登録音声受信ユニット234は、ユーザIDと目標訓練音声とを含む声紋登録要求を受信するためのものである。本実施形態において、クライアントは、ユーザが入力した声紋登録要求を受信し、かつ該声紋登録要求をサーバに送信し、サーバは該声紋登録要求を受信する。
目標声紋特徴取得ユニット235は、ガウス混合モデル−汎用背景モデルで目標訓練音声に対して訓練を行って、目標声紋特徴を取得するためのものである。具体的に、サーバは、訓練済みのガウス混合モデル−汎用背景モデルで目標訓練音声に対して特徴抽出を行って、目標声紋特徴を取得する。つまり先ず目標訓練音声に対してMFCC特徴を抽出して、対応した目標MFCC音響的特徴を取得し、その後、目標MFCC音響的特徴に対して音声活動検出を行って、さらに音声活動検出後のMFCC音響的特徴を訓練済みのガウス混合モデル−汎用背景モデルに入れて特徴抽出を行って、目標声紋特徴を取得する。
目標声紋特徴記憶ユニット236は、ユーザID及び目標声紋特徴を前記声紋特徴データベースに記憶するためのものである。本実施形態において、ユーザ身分識別の必要がある場合にユーザIDに基づいて対応した目標声紋特徴を呼び出すために、声紋登録要求におけるユーザID及び目標訓練音声に基づいて取得した目標声紋特徴を声紋特徴データベースに記憶する。
該具体的な実施態様が提供した声紋識別装置において、訓練音声に対してMFCC特徴抽出及び音声活動検出を行うことにより、ガウス混合モデルパラメータを推定し、かつガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、訓練済みのガウス混合モデル−汎用背景モデルを取得し、該ガウス混合モデル−汎用背景モデルは、識別率が高いという利点を有する。さらに、声紋登録要求を受信して、声紋登録要求における目標訓練音声に対して訓練済みのガウス混合モデル−汎用背景モデルにより特徴抽出を行って、目標声紋特徴を取得し、かつ目標声紋特徴及びユーザIDを声紋特徴データベースに記憶し、これで、音声識別過程に処理待ちの音声識別要求におけるユーザIDに基づいて対応した目標声紋特徴を取得してテスト声紋特徴と比較し、目標声紋特徴とテスト声紋特徴の話者が同一ユーザであるかどうかを確定して、音声識別効果に達する。
図3は本発明のある実施形態が提供したバックグラウンドサーバの概略図である。図3に示すように、該実施形態のバックグラウンドサーバ3は、プロセッサ30と、メモリ31と、前記メモリ31に記憶されてかつ前記プロセッサ30によって動作可能なコンピュータプログラム32(例えば、上述の声紋識別方法を実行するプログラム)と、を含む。前記プロセッサ30は、前記コンピュータプログラム32を実行する際に上述の声紋識別方法の実施形態における例えば図1に示されるS10からS50までの各ステップを実現する。または、前記プロセッサ30は、前記コンピュータプログラム32を実行する際に、上述の各装置の実施形態の各モジュール/ユニットの機能、例えば図2に示されるバックグラウンドサーバ20の各ユニットの機能を実現する。
例示的に、前記コンピュータプログラム32は、一つ又は複数のモジュール/ユニットに分割されても良く、前記一つ又は複数のモジュール/ユニットは、前記メモリ31に記憶され、かつ前記プロセッサ30に実行されることで本発明を実現する。前記一つ又は複数のモジュール/ユニットは、特定機能を実現できる一連のコンピュータプログラムの指令セグメントであってもよく、該指令セグメントは、前記コンピュータプログラム32が前記バックグラウンドサーバ3に実行される過程を記述するためのものである。
前記バックグラウンドサーバ3は、ローカルサーバ、クラウドサーバ等の計算装置であってもよい。前記バックグラウンドサーバは、プロセッサ30と、メモリ31と、を含んでもよいが、それらに限定されない。本分野の当業者は、図3がバックグラウンドサーバ3の例示だけに過ぎず、バックグラウンドサーバ3を限定するものでなく、図面よりもっと多くの又はもっと少ない部品を含んでもよく、又はある部品或いは異なる部品と組合せてもよく、例えば、前記バックグラウンドサーバは、また入出力装置、インターネットアクセス装置、バス等を含んでも良いという点を理解すべきである。
プロセッサ30は、中央処理装置(Central Processing Unit,CPU)だけではなく、また汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor,DSP)、専用集積回路(Application Specific Integrated Circuit,ASIC)、フィールドブログラマブルゲートアレイ(Field−Programmable Gate Array,FPGA)又は他のブログラマブル論理デバイス、ディスクリートゲート又はトランジスタ論理デバイス、ディスクリートハードウェアコンポーネント等であってもよい。汎用プロセッサは、マイクロプロセッサ又は任意の従来のプロセッサ等であってもよい。
前記メモリ31は、前記バックグラウンドサーバ3の内部記憶ユニット、例えば、ハードディスク又は内部メモリであってもよい。前記メモリ31は、また前記バックグラウンドサーバ3の外部記憶装置、例えば、前記バックグラウンドサーバ3に配置されたソケット式ハードディスク、スマートメディアカード(SmartMedia(登録商標) Card, SMC)、安全デジタル(Secure Digital, SD)カード、フラッシュカード(Flash Card)等であってもよい。さらに、前記メモリ31は、前記バックグラウンドサーバ3の内部記憶ユニットだけではなく、また外部記憶装置を含んでも良い。前記メモリ31は、前記コンピュータプログラム及び前記バックグラウンドサーバにとって必要な他のプログラム及びデータを記憶するためのものである。前記メモリ31は、既に出力した又はすぐ出力するデータを一時的に記憶することに用いられても良い。
いくつかの具体的な実施形態によって本発明を説明したが、本分野の当業者は、本発明の範囲から逸脱することなく本発明に対して様々な変更及び取替を行うこともできるのを理解すべきである。また特定のケース又は具体的な状況について、本発明に対して様々な変更を行うことができるとともに、本発明の範囲から逸脱することはない。従って、本発明は、開示されている具体的な実施形態に限定されず、特許請求の範囲内に含まれる全ての実施態様を含むべきである。
(付記)
(付記1)
クライアントがユーザのテスト音声を採集し、かつバックグラウンドサーバにユーザIDと前記テスト音声とを含む音声識別要求を送信することと、
バックグラウンドサーバが前記音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定することと、
バックグラウンドサーバが前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、
バックグラウンドサーバが前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力することと、
クライアントが前記判断結果を受信して表示することと、を含む、
ことを特徴とする声紋識別方法。
(付記2)
前記バックグラウンドサーバが前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することは、
前記処理待ちの音声識別要求のユーザIDにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得することと、
ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、を含む、
ことを特徴とする付記1に記載の声紋識別方法。
(付記3)
訓練音声に対してMFCC特徴抽出を行うことでMFCC音響的特徴を取得することと、
前記MFCC音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定することと、
前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得することと、
ユーザIDと目標訓練音声とを含む声紋登録要求を受信することと、
前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得することと、
前記ユーザID及び前記目標声紋特徴を前記声紋特徴データベースに記憶することと、をさらに含む、
ことを特徴とする付記2に記載の声紋識別方法。
(付記4)
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断することは、
PLDAアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得することと、
余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得することと、
前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断することと、を含む、
ことを特徴とする付記1に記載の声紋識別方法。
(付記5)
前記PLDAアルゴリズムは、
μとWを初期化することと、
Figure 0006649474
によりwを計算することと、
Figure 0006649474
によりWを再度計算し、かつ
Figure 0006649474
によりwを計算するというステップに戻ることで、wが指定閾値より小さくなるまで計算することと、を含み、
ここで、μは平均値声紋ベクトルであり、Wはクラス間距離であり、wは声紋特徴であり、iは反復回数であり、
前記余弦測度関数は、
Figure 0006649474
を含み、
ここで、wtrainは目標声紋特徴であり、wtestはテスト声紋特徴であり、tは時間である、
ことを特徴とする付記4に記載の声紋識別方法。
(付記6)
ユーザのテスト音声を採集してかつバックグラウンドサーバにユーザIDと前記テスト音声とを含む音声識別要求を送信するためのクライアントと、
前記音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するためのバックグラウンドサーバと、
前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するためのバックグラウンドサーバと、
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力するためのバックグラウンドサーバと、
前記判断結果を受信して表示するためのクライアントと、を含む、
ことを特徴とする声紋識別装置。
(付記7)
前記バックグラウンドサーバは、
前記処理待ちの音声識別要求のユーザIDにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得するための特徴照会ユニットと、
ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するための特徴処理ユニットと、を含む、
ことを特徴とする付記6に記載の声紋識別装置。
(付記8)
バックグラウンドサーバは、
訓練音声に対してMFCC特徴抽出を行うことでMFCC音響的特徴を取得するための音響的特徴抽出ユニットと、
前記MFCC音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定するための音声活動検出ユニットと、
前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得するためのモデル訓練ユニットと、
ユーザIDと目標訓練音声とを含む声紋登録要求を受信するための登録音声受信ユニットと、
前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得するための目標声紋特徴取得ユニットと、
前記ユーザID及び前記目標声紋特徴を前記声紋特徴データベースに記憶するための目標声紋特徴記憶ユニットと、を含む、
ことを特徴とする付記7に記載の声紋識別装置。
(付記9)
前記バックグラウンドサーバは、
PLDAアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得するための特徴次元低減ユニットと、
余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得するための余弦測度処理ユニットと、
前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断するためのユーザ識別判断ユニットと、を含む、
ことを特徴とする付記6に記載の声紋識別装置。
(付記10)
前記PLDAアルゴリズムは、
μとWを初期化することと、
Figure 0006649474
によりwを計算することと、
Figure 0006649474
によりWを再度計算し、かつ
Figure 0006649474
によりwを計算するというステップに戻ることで、wが指定閾値より小さくなるまで計算することと、を含み、
ここで、μは平均値声紋ベクトルであり、Wはクラス間距離であり、wは声紋特徴であり、iは反復回数であり、
前記余弦測度関数は、
Figure 0006649474
を含み、
ここで、wtrainは目標声紋特徴であり、wtestはテスト声紋特徴であり、tは時間である、
ことを特徴とする付記9に記載の声紋識別装置。
(付記11)
メモリと、プロセッサと、前記メモリに記憶されてかつ前記プロセッサによって動作可能なコンピュータプログラムと、を含むバックグラウンドサーバであって、
前記プロセッサは、前記コンピュータプログラムを実行する際に、
クライアントがユーザのテスト音声を採集し、かつバックグラウンドサーバにユーザIDと前記テスト音声とを含む音声識別要求を送信するステップと、
バックグラウンドサーバが前記音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するステップと、
バックグラウンドサーバが前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するステップと、
バックグラウンドサーバが前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力するステップと、
クライアントが前記判断結果を受信して表示するステップと、を実現する、
ことを特徴とするバックグラウンドサーバ。
(付記12)
前記バックグラウンドサーバが前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するステップは、
前記処理待ちの音声識別要求のユーザIDにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得することと、
ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、を含む、
ことを特徴とする付記11に記載のバックグラウンドサーバ。
(付記13)
訓練音声に対してMFCC特徴抽出を行うことでMFCC音響的特徴を取得することと、
前記MFCC音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定することと、
前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得することと、
ユーザIDと目標訓練音声とを含む声紋登録要求を受信することと、
前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得することと、
前記ユーザID及び前記目標声紋特徴を前記声紋特徴データベースに記憶することと、をさらに含む、
ことを特徴とする付記12に記載のバックグラウンドサーバ。
(付記14)
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断するステップは、
PLDAアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得することと、
余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得することと、
前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断することと、を含む、
ことを特徴とする付記11に記載のバックグラウンドサーバ。
(付記15)
前記PLDAアルゴリズムは、
μとWを初期化することと、
Figure 0006649474
によりwを計算することと、
Figure 0006649474
によりWを再度計算し、かつ
Figure 0006649474
によりwを計算するというステップに戻ることで、wが指定閾値より小さくなるまで計算することと、を含み、
ここで、μは平均値声紋ベクトルであり、Wはクラス間距離であり、wは声紋特徴であり、iは反復回数であり、
前記余弦測度関数は、
Figure 0006649474
を含み、
ここで、wtrainは目標声紋特徴であり、wtestはテスト声紋特徴であり、tは時間である、
ことを特徴とする付記14に記載のバックグラウンドサーバ。
(付記16)
コンピュータプログラムが記憶されたコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムはプロセッサにより実行される際に、
クライアントがユーザのテスト音声を採集し、かつバックグラウンドサーバにユーザIDと前記テスト音声とを含む音声識別要求を送信するステップと、
バックグラウンドサーバが前記音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するステップと、
バックグラウンドサーバが前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するステップと、
バックグラウンドサーバが前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力するステップと、
クライアントが前記判断結果を受信して表示するステップと、を実現する、
ことを特徴とするコンピュータ読取可能記憶媒体。
(付記17)
前記バックグラウンドサーバが前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するステップは、
前記処理待ちの音声識別要求のユーザIDにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得することと、
ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、を含む、
ことを特徴とする付記16に記載のコンピュータ読取可能記憶媒体。
(付記18)
訓練音声に対してMFCC特徴抽出を行うことでMFCC音響的特徴を取得することと、
前記MFCC音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定することと、
前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得することと、
ユーザIDと目標訓練音声とを含む声紋登録要求を受信することと、
前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得することと、
前記ユーザID及び前記目標声紋特徴を前記声紋特徴データベースに記憶することと、をさらに含む、
ことを特徴とする付記17に記載のコンピュータ読取可能記憶媒体。
(付記19)
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断するステップは、
PLDAアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得することと、
余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得することと、
前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断することと、を含む、
ことを特徴とする付記16に記載のコンピュータ読取可能記憶媒体。
(付記20)
前記PLDAアルゴリズムは、
μとWを初期化することと、
Figure 0006649474
によりwを計算することと、
Figure 0006649474
によりWを再度計算し、かつ
Figure 0006649474
によりwを計算するというステップに戻ることで、wが指定閾値より小さくなるまで計算することと、を含み、
ここで、μは平均値声紋ベクトルであり、Wはクラス間距離であり、wは声紋特徴であり、iは反復回数であり、
前記余弦測度関数は、
Figure 0006649474
を含み、
ここで、wtrainは目標声紋特徴であり、wtestはテスト声紋特徴であり、tは時間である、
ことを特徴とする付記19に記載のコンピュータ読取可能記憶媒体。

Claims (17)

  1. クライアントがユーザのテスト音声を採集し、かつバックグラウンドサーバにユーザIDと前記テスト音声とを含む音声識別要求を送信することと、
    バックグラウンドサーバが前記音声識別要求を受信し、受信した前記音声識別要求をメッセージキューに入れて処理を待たせ、前記メッセージキューにおける前記音声識別要求に対してスケジューリングを行い、かつ非同期メカニズムを採用することにより、処理待ちの音声識別要求を特定することと、
    バックグラウンドサーバが前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、
    バックグラウンドサーバが前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力することと、
    クライアントが前記判断結果を受信して表示することと、を含む、
    ことを特徴とする声紋識別方法。
  2. 前記クライアントがユーザのテスト音声を採集することは、前記ユーザによる前記クライアントの操作が可能な状態のまま前記操作と非同期に実行される、
    ことを特徴とする請求項1に記載の声紋識別方法。
  3. 前記バックグラウンドサーバが前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することは、
    前記処理待ちの音声識別要求のユーザIDにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得することと、
    ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、を含む、
    ことを特徴とする請求項1または2に記載の声紋識別方法。
  4. 訓練音声に対してMFCC特徴抽出を行うことでMFCC音響的特徴を取得することと、
    前記MFCC音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定することと、
    前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得することと、
    ユーザIDと目標訓練音声とを含む声紋登録要求を受信することと、
    前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得することと、
    前記ユーザID及び前記目標声紋特徴を前記声紋特徴データベースに記憶することと、をさらに含む、
    ことを特徴とする請求項に記載の声紋識別方法。
  5. 前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断することは、
    PLDAアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得することと、
    余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得することと、
    前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断することと、を含む、
    ことを特徴とする請求項1から4のいずれか1項に記載の声紋識別方法。
  6. 前記PLDAアルゴリズムは、
    μとWを初期化することと、
    Figure 0006649474
    によりwを計算することと、
    Figure 0006649474
    によりWを再度計算し、かつ
    Figure 0006649474
    によりwを計算するというステップに戻ることで、wが指定閾値より小さくなるまで計算することと、を含み、
    ここで、μは平均値声紋ベクトルであり、Wはクラス間距離であり、wは声紋特徴であり、iは反復回数であり、
    前記余弦測度関数は、
    Figure 0006649474
    を含み、
    ここで、wtrainは目標声紋特徴であり、wtestはテスト声紋特徴であり、tは時間である、
    ことを特徴とする請求項に記載の声紋識別方法。
  7. クライアントとバックグラウンドサーバとを備える声紋識別装置であって、
    前記クライアントは、
    ユーザのテスト音声を採集してかつ前記バックグラウンドサーバにユーザIDと前記テスト音声とを含む音声識別要求を送信
    前記バックグラウンドサーバは、
    前記音声識別要求を受信し、受信した前記音声識別要求をメッセージキューに入れて処理を待たせ、前記メッセージキューにおける前記音声識別要求に対してスケジューリングを行い、かつ非同期メカニズムを採用することにより、処理待ちの音声識別要求を特定
    前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得
    前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力
    前記クライアントは、
    前記判断結果を前記バックグラウンドサーバから受信して表示する、
    ことを特徴とする声紋識別装置。
  8. 前記クライアントがユーザのテスト音声を採集することは、前記ユーザによる前記クライアントの操作が可能な状態のまま前記操作と非同期に実行される、
    ことを特徴とする請求項7に記載の声紋識別装置。
  9. 前記バックグラウンドサーバは、
    前記処理待ちの音声識別要求のユーザIDにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得するための特徴照会ユニットと、
    ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するための特徴処理ユニットと、を含む、
    ことを特徴とする請求項7または8に記載の声紋識別装置。
  10. 前記バックグラウンドサーバは、
    訓練音声に対してMFCC特徴抽出を行うことでMFCC音響的特徴を取得するための音響的特徴抽出ユニットと、
    前記MFCC音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定するための音声活動検出ユニットと、
    前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得するためのモデル訓練ユニットと、
    ユーザIDと目標訓練音声とを含む声紋登録要求を受信するための登録音声受信ユニットと、
    前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得するための目標声紋特徴取得ユニットと、
    前記ユーザID及び前記目標声紋特徴を前記声紋特徴データベースに記憶するための目標声紋特徴記憶ユニットと、を含む、
    ことを特徴とする請求項に記載の声紋識別装置。
  11. 前記バックグラウンドサーバは、
    PLDAアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得するための特徴次元低減ユニットと、
    余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得するための余弦測度処理ユニットと、
    前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断するためのユーザ識別判断ユニットと、を含む、
    ことを特徴とする請求項7から10のいずれか1項に記載の声紋識別装置。
  12. 前記PLDAアルゴリズムは、
    μとWを初期化することと、
    Figure 0006649474
    によりwを計算することと、
    Figure 0006649474
    によりWを再度計算し、かつ
    Figure 0006649474
    によりwを計算するというステップに戻ることで、wが指定閾値より小さくなるまで計算することと、を含み、
    ここで、μは平均値声紋ベクトルであり、Wはクラス間距離であり、wは声紋特徴であり、iは反復回数であり、
    前記余弦測度関数は、
    Figure 0006649474
    を含み、
    ここで、wtrainは目標声紋特徴であり、wtestはテスト声紋特徴であり、tは時間である、
    ことを特徴とする請求項11に記載の声紋識別装置。
  13. メモリと、プロセッサと、を含むバックグラウンドサーバであって、
    前記プロセッサは
    ユーザIDと、クライアントが採集したユーザのテスト音声と、を含む音声識別要求を前記クライアントから受信し、受信した前記音声識別要求をメッセージキューに入れて処理を待たせ、前記メッセージキューにおける前記音声識別要求に対してスケジューリングを行い、かつ非同期メカニズムを採用することにより、処理待ちの音声識別要求を特定
    記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得
    記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力する、
    ことを特徴とするバックグラウンドサーバ。
  14. 記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することは、
    前記処理待ちの音声識別要求のユーザIDにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得することと、
    ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、を含む、
    ことを特徴とする請求項13に記載のバックグラウンドサーバ。
  15. 前記プロセッサは、さらに、
    訓練音声に対してMFCC特徴抽出を行うことでMFCC音響的特徴を取得
    前記MFCC音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定
    前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得
    ユーザIDと目標訓練音声とを含む声紋登録要求を受信
    前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得
    前記ユーザID及び前記目標声紋特徴を前記声紋特徴データベースに記憶する、
    ことを特徴とする請求項14に記載のバックグラウンドサーバ。
  16. 前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断することは、
    PLDAアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得することと、
    余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得することと、
    前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断することと、を含む、
    ことを特徴とする請求項13から15のいずれか1項に記載のバックグラウンドサーバ。
  17. 前記PLDAアルゴリズムは、
    μとWを初期化することと、
    Figure 0006649474
    によりwを計算することと、
    Figure 0006649474
    によりWを再度計算し、かつ
    Figure 0006649474
    によりwを計算するというステップに戻ることで、wが指定閾値より小さくなるまで計算することと、を含み、
    ここで、μは平均値声紋ベクトルであり、Wはクラス間距離であり、wは声紋特徴であり、iは反復回数であり、
    前記余弦測度関数は、
    Figure 0006649474
    を含み、
    ここで、wtrainは目標声紋特徴であり、wtestはテスト声紋特徴であり、tは時間である、
    ことを特徴とする請求項16に記載のバックグラウンドサーバ。
JP2018514332A 2017-02-16 2017-06-26 声紋識別方法、装置及びバックグラウンドサーバ Active JP6649474B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710083629.0 2017-02-16
CN201710083629.0A CN106847292B (zh) 2017-02-16 2017-02-16 声纹识别方法及装置
PCT/CN2017/090046 WO2018149077A1 (zh) 2017-02-16 2017-06-26 声纹识别方法、装置、存储介质和后台服务器

Publications (2)

Publication Number Publication Date
JP2019510248A JP2019510248A (ja) 2019-04-11
JP6649474B2 true JP6649474B2 (ja) 2020-02-19

Family

ID=59128377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018514332A Active JP6649474B2 (ja) 2017-02-16 2017-06-26 声紋識別方法、装置及びバックグラウンドサーバ

Country Status (8)

Country Link
US (1) US10629209B2 (ja)
EP (1) EP3584790A4 (ja)
JP (1) JP6649474B2 (ja)
KR (1) KR20180104595A (ja)
CN (1) CN106847292B (ja)
AU (2) AU2017101877A4 (ja)
SG (1) SG11201803895RA (ja)
WO (1) WO2018149077A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847292B (zh) 2017-02-16 2018-06-19 平安科技(深圳)有限公司 声纹识别方法及装置
US10170112B2 (en) * 2017-05-11 2019-01-01 Google Llc Detecting and suppressing voice queries
CN107492379B (zh) * 2017-06-30 2021-09-21 百度在线网络技术(北京)有限公司 一种声纹创建与注册方法及装置
CN109215643B (zh) * 2017-07-05 2023-10-24 阿里巴巴集团控股有限公司 一种交互方法、电子设备及服务器
CN107527620B (zh) * 2017-07-25 2019-03-26 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
CN107623614B (zh) * 2017-09-19 2020-12-08 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN109584884B (zh) * 2017-09-29 2022-09-13 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
CN107978311B (zh) * 2017-11-24 2020-08-25 腾讯科技(深圳)有限公司 一种语音数据处理方法、装置以及语音交互设备
CN108806696B (zh) * 2018-05-08 2020-06-05 平安科技(深圳)有限公司 建立声纹模型的方法、装置、计算机设备和存储介质
US11893999B1 (en) * 2018-05-13 2024-02-06 Amazon Technologies, Inc. Speech based user recognition
CN108777146A (zh) * 2018-05-31 2018-11-09 平安科技(深圳)有限公司 语音模型训练方法、说话人识别方法、装置、设备及介质
CN108899032A (zh) * 2018-06-06 2018-11-27 平安科技(深圳)有限公司 声纹识别方法、装置、计算机设备及存储介质
CN108986792B (zh) * 2018-09-11 2021-02-12 苏州思必驰信息科技有限公司 用于语音对话平台的语音识别模型的训练调度方法及***
KR20190067135A (ko) 2019-05-27 2019-06-14 박경훈 묶을 수 있는 끈이 일체형으로 직조 된 망사 자루 연속 자동화 제조방법 및 그로써 직조 된 망사 자루
CN110491370A (zh) * 2019-07-15 2019-11-22 北京大米科技有限公司 一种语音流识别方法、装置、存储介质及服务器
CN110364182B (zh) * 2019-08-01 2022-06-14 腾讯音乐娱乐科技(深圳)有限公司 一种声音信号处理方法及装置
CN110610709A (zh) * 2019-09-26 2019-12-24 浙江百应科技有限公司 基于声纹识别的身份辨别方法
CN111048100B (zh) * 2019-11-21 2023-09-08 深圳市东进银通电子有限公司 一种大数据并行化声纹辨认***和方法
CN111081261B (zh) * 2019-12-25 2023-04-21 华南理工大学 一种基于lda的文本无关声纹识别方法
CN111370000A (zh) * 2020-02-10 2020-07-03 厦门快商通科技股份有限公司 声纹识别算法评估方法、***、移动终端及存储介质
CN111312259B (zh) * 2020-02-17 2022-12-30 厦门快商通科技股份有限公司 声纹识别方法、***、移动终端及存储介质
CN111210829A (zh) * 2020-02-19 2020-05-29 腾讯科技(深圳)有限公司 语音识别方法、装置、***、设备和计算机可读存储介质
CN111554303B (zh) * 2020-05-09 2023-06-02 福建星网视易信息***有限公司 一种歌曲演唱过程中的用户身份识别方法及存储介质
CN112000570A (zh) * 2020-07-29 2020-11-27 北京达佳互联信息技术有限公司 应用测试方法、装置、服务器及存储介质
CN111951791B (zh) * 2020-08-26 2024-05-17 上海依图网络科技有限公司 声纹识别模型训练方法、识别方法、电子设备及存储介质
CN112185395B (zh) * 2020-09-04 2021-04-27 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于差分隐私的联邦声纹识别方法
CN112185362A (zh) * 2020-09-24 2021-01-05 苏州思必驰信息科技有限公司 针对用户个性化服务的语音处理方法及装置
CN112214298B (zh) * 2020-09-30 2023-09-22 国网江苏省电力有限公司信息通信分公司 基于声纹识别的动态优先级调度方法及***
US11522994B2 (en) 2020-11-23 2022-12-06 Bank Of America Corporation Voice analysis platform for voiceprint tracking and anomaly detection
CN112669820B (zh) * 2020-12-16 2023-08-04 平安科技(深圳)有限公司 基于语音识别的***识别方法、装置及计算机设备
CN114780787A (zh) * 2022-04-01 2022-07-22 杭州半云科技有限公司 声纹检索方法、身份验证方法、身份注册方法和装置

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU670379B2 (en) 1993-08-10 1996-07-11 International Standard Electric Corp. System and method for passive voice verification in a telephone network
US7047196B2 (en) 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
JP2002304379A (ja) * 2001-04-05 2002-10-18 Sharp Corp 個人認証方法および個人認証システム
US6853716B1 (en) * 2001-04-16 2005-02-08 Cisco Technology, Inc. System and method for identifying a participant during a conference call
JP2003114617A (ja) * 2001-10-03 2003-04-18 Systemfrontier Co Ltd 音声による認証システム及び音声による認証方法
US7240007B2 (en) * 2001-12-13 2007-07-03 Matsushita Electric Industrial Co., Ltd. Speaker authentication by fusion of voiceprint match attempt results with additional information
JP2005115921A (ja) * 2003-09-17 2005-04-28 Moss Institute Co Ltd 音声情報管理方法,音声情報管理システム,音声情報管理プログラム及び音声データ管理装置
US20060015335A1 (en) * 2004-07-13 2006-01-19 Ravigopal Vennelakanti Framework to enable multimodal access to applications
CN1936967A (zh) * 2005-09-20 2007-03-28 吴田平 声纹考勤机
CN101197131B (zh) * 2006-12-07 2011-03-30 积体数位股份有限公司 随机式声纹密码验证***、随机式声纹密码锁及其产生方法
JP2009230267A (ja) * 2008-03-19 2009-10-08 Future Vision:Kk 会議室設備及び会議室設備を用いた会議記録システム
JP2009237774A (ja) * 2008-03-26 2009-10-15 Advanced Media Inc 認証サーバ、サービス提供サーバ、認証方法、通信端末、およびログイン方法
US8442824B2 (en) * 2008-11-26 2013-05-14 Nuance Communications, Inc. Device, system, and method of liveness detection utilizing voice biometrics
JP2010182076A (ja) * 2009-02-05 2010-08-19 Nec Corp 認証システム、認証サーバ、証明方法およびプログラム
CN101923855A (zh) * 2009-06-17 2010-12-22 复旦大学 文本无关的声纹识别***
CN102402985A (zh) * 2010-09-14 2012-04-04 盛乐信息技术(上海)有限公司 提高声纹识别安全性的声纹认证***及其实现方法
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及***
CN102509547B (zh) * 2011-12-29 2013-06-19 辽宁工业大学 基于矢量量化的声纹识别方法及***
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
US9491167B2 (en) * 2012-09-11 2016-11-08 Auraya Pty Ltd Voice authentication system and method
CN103035245A (zh) * 2012-12-08 2013-04-10 大连创达技术交易市场有限公司 以太网声纹识别***
JP6276523B2 (ja) 2013-06-28 2018-02-07 株式会社フジクラ 酸化物超電導導体及び酸化物超電導導体の製造方法
JP6128500B2 (ja) * 2013-07-26 2017-05-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報管理方法
EP3261087A1 (en) * 2013-09-03 2017-12-27 Panasonic Intellectual Property Corporation of America Voice interaction control method
GB2517952B (en) * 2013-09-05 2017-05-31 Barclays Bank Plc Biometric verification using predicted signatures
CN103730114A (zh) * 2013-12-31 2014-04-16 上海交通大学无锡研究院 一种基于联合因子分析模型的移动设备声纹识别方法
EP3373176B1 (en) * 2014-01-17 2020-01-01 Cirrus Logic International Semiconductor Limited Tamper-resistant element for use in speaker recognition
CN103915096A (zh) * 2014-04-15 2014-07-09 胡上杰 警务声纹识别方法
US10410638B2 (en) 2015-02-27 2019-09-10 Samsung Electronics Co., Ltd. Method and device for transforming feature vector for user recognition
CN104835498B (zh) * 2015-05-25 2018-12-18 重庆大学 基于多类型组合特征参数的声纹识别方法
CN105845140A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 应用于短语音条件下的说话人确认方法和装置
CN107492382B (zh) * 2016-06-13 2020-12-18 阿里巴巴集团控股有限公司 基于神经网络的声纹信息提取方法及装置
CN106297806A (zh) * 2016-08-22 2017-01-04 安徽工程大学机电学院 基于声纹的智能传声***
CN106847292B (zh) 2017-02-16 2018-06-19 平安科技(深圳)有限公司 声纹识别方法及装置

Also Published As

Publication number Publication date
US10629209B2 (en) 2020-04-21
EP3584790A1 (en) 2019-12-25
SG11201803895RA (en) 2018-09-27
EP3584790A4 (en) 2021-01-13
US20190272829A1 (en) 2019-09-05
WO2018149077A1 (zh) 2018-08-23
CN106847292A (zh) 2017-06-13
JP2019510248A (ja) 2019-04-11
KR20180104595A (ko) 2018-09-21
CN106847292B (zh) 2018-06-19
AU2017101877A4 (en) 2020-04-23
AU2017341161A1 (en) 2018-08-30

Similar Documents

Publication Publication Date Title
JP6649474B2 (ja) 声紋識別方法、装置及びバックグラウンドサーバ
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
WO2018166187A1 (zh) 服务器、身份验证方法、***及计算机可读存储介质
CN112562691B (zh) 一种声纹识别的方法、装置、计算机设备及存储介质
US8731936B2 (en) Energy-efficient unobtrusive identification of a speaker
US11875799B2 (en) Method and device for fusing voiceprint features, voice recognition method and system, and storage medium
CN110265037B (zh) 身份验证方法、装置、电子设备及计算机可读存储介质
WO2020181824A1 (zh) 声纹识别方法、装置、设备以及计算机可读存储介质
WO2018223727A1 (zh) 识别声纹的方法、装置、设备及介质
WO2019019256A1 (zh) 电子装置、身份验证的方法、***及计算机可读存储介质
CN108694954A (zh) 一种性别年龄识别方法、装置、设备及可读存储介质
US20120102066A1 (en) Method, Devices and a Service for Searching
CN109360572B (zh) 通话分离方法、装置、计算机设备及存储介质
CN109801635A (zh) 一种基于注意力机制的声纹特征提取方法及装置
WO2021051572A1 (zh) 语音识别方法、装置以及计算机设备
CN109947971B (zh) 图像检索方法、装置、电子设备及存储介质
US9947323B2 (en) Synthetic oversampling to enhance speaker identification or verification
CN111028845A (zh) 多音频识别方法、装置、设备及可读存储介质
TW202018696A (zh) 語音識別方法、裝置及計算設備
CN111161713A (zh) 一种语音性别识别方法、装置及计算设备
WO2019218512A1 (zh) 服务器、声纹验证的方法及存储介质
WO2019196305A1 (zh) 电子装置、身份验证的方法及存储介质
Savchenko Method for reduction of speech signal autoregression model for speech transmission systems on low-speed communication channels
WO2019218515A1 (zh) 服务器、基于声纹的身份验证方法及存储介质
CN110875037A (zh) 语音数据处理方法、装置及电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180316

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200116

R150 Certificate of patent or registration of utility model

Ref document number: 6649474

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250