JP2020503541A - 声紋の作成・登録の方法及び装置 - Google Patents

声紋の作成・登録の方法及び装置 Download PDF

Info

Publication number
JP2020503541A
JP2020503541A JP2019530680A JP2019530680A JP2020503541A JP 2020503541 A JP2020503541 A JP 2020503541A JP 2019530680 A JP2019530680 A JP 2019530680A JP 2019530680 A JP2019530680 A JP 2019530680A JP 2020503541 A JP2020503541 A JP 2020503541A
Authority
JP
Japan
Prior art keywords
user
voiceprint
voice
model
gender
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019530680A
Other languages
English (en)
Inventor
ワン、ウェンユ
フー、ユアン
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2020503541A publication Critical patent/JP2020503541A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本発明は、ユーザに声紋IDを登録するように提示することと、テキストに関する訓練方法を利用して、登録されていないユーザのために声紋モデルを確立することと、ユーザIDを生成し、ユーザにユーザID相関データを入力するように提示することと、ユーザIDと声紋モデルを対応付けて声紋登録データベースに記憶することを、含む声紋の作成・登録の方法及び装置。従来技術における声紋の作成・登録の方法の技術学習のコストが高く、ユーザの妨げとなる問題点を避けることができる。声紋の確立過程にそれぞれのシーンをカバーさせることができ、声紋確立が各段階にユーザを案内する又は頻度によって声紋の確立と登録を分離することができ、ユーザに対する妨げを最小化させ、ユーザが声紋を登録するように案内して、音声インタラクティブ製品が声紋に基づいてユーザに対してパーソナライズサービスを提供することができる。

Description

本願は、出願日が2017年6月30日であり、出願番号が201710527022.7であり、発明の名称が「声紋の作成・登録の方法及び装置」である中国特許出願の優先権を要求する。
本願は、人工知能応用分野に関するものであり、特に声紋の作成・登録の方法及び装置に関するものである。
人工知能(Artificial Intelligence;AI)は、人の知能をシミュレーション、延在及び拡張するための理論、方法、技術及び応用システムを研究、開発する新たな技術科学である。人工知能は、コンピュータ科学の一つの分岐であり、スマートの本質を理解しようと努め、人間知能と似た方式で反応する新たなスマート機器を生産し、分野の研究は、ロボット、言語認識、画像認識、自然言語処理及びスキャンエキスパートシステム等を含む。ただし、人工知能の主な一の方面は、声紋認識技術である。
近年、人工知能技術の発展が非常に速く、徐々に製品化される。特に、スマート音声会話製品については、海外のAmazon Echo(登録商標)スピーカボックス及びGoogle Home(登録商標)スピーカボックスの普及に従って、会話を主のインタラクティブ方式とするスマート家居製品、特にスピーカボックス製品が流行される。
スマートスピーカボックスを含むスマート音声会話製品の典型的な使用シーンは、家庭中であり、家庭においてユーザが音声で機器とインタラクティブを行うことは、非常に自然であり、家庭には常に複数のユーザがあり、ユーザ毎に必ず異なる要求があるが、現在製品のサービスはすべて粗く、すべてのユーザに提供するのが同じサービスであり、製品がユーザの要求に対する応答に使用されるのは、同一の共通標準であり、ユーザのパーソナライズの要求を満足することができないことになる。
音声会話の利点は、ユーザの声を収録することができることであり、指紋のように、誰も自分の声を持っているので、各自の声を声紋と呼び、パーソナライズのサービスを提供するように、話者の声紋により、話者がどのユーザであるかを判断し、ユーザのデータを抽出する。現在、業界の声紋技術は成熟しなく、製品化の要件を満たすのが難しい。
従来技術における声紋の作成・登録の方法技術は、学習コストが高く、ユーザの妨げとなる問題点が存在する。
本願の複数の技術案は、ユーザにパーソナライズサービスを提供し、学習コストを低減させるための声紋の作成・登録の方法及び装置を提供する。
本願の一つの技術案によると、声紋の作成・登録の方法であって、
機器が最初に使用されるとき、声紋の作成・登録を提示すること、
テキストに関する訓練方法を利用して、ユーザのために声紋モデルを確立すること、
ユーザIDを生成すること、
ユーザIDと声紋モデルを対応付けて声紋登録データベースに記憶すること、を含む。
上述した技術案といずれかの可能な実現方式によると、テキストに関する訓練方法を利用して、ユーザのために声紋モデルを確立することは、
登録文字列をユーザに提供すること、
ユーザが登録文字列を読んだ音声情報を受信すること、
性別分類器と音声情報に基づいて、ユーザの性別タグを確定すること、
性別タグと音声情報に基づいて、ユーザの声紋モデルを生成すること、を含む。
本願の他の技術案によると、声紋の作成・登録の方法であって、
ユーザが送信した音声要求を取得すること、
音声要求に基づいて、声紋認識方式を利用して、音声要求を送信したユーザIDを認識すること、
ユーザIDが認識されない場合、声紋の作成・登録を提示すること、
ユーザIDを生成すること、
ユーザIDと声紋モデルを対応付けて声紋登録データベースに記憶すること、を含む。
上述した技術案といずれかの可能な実現方式によると、ユーザが送信した音声要求を取得することは、
クラウド側に音声要求を送信する必要があるかを判断し、「はい」であれば、音声要求に基づいて、声紋認識方式を利用して、音声要求を送信したユーザIDを認識すること、を含む。
上述した技術案といずれかの可能な実現方式によると、ユーザが送信した音声要求を取得することは、
音声要求についてユーザIDを認識する必要があるかを判断し、「はい」であれば、音声要求に基づいて、声紋認識方式を利用して、音声要求を送信したユーザIDを認識すること、を含む。
上述した技術案といずれかの可能な実現方式によると、声紋の作成・登録を提示することは、
ユーザIDが認識されない声紋モデルにID番号を付けること、
ID番号を付けた声紋モデルの出現頻度を判断すること、
閾値より低いと、ID番号を削除すること、
閾値より高いと、ユーザIDを生成すること、
ユーザIDと声紋モデルを対応付けて声紋登録データベースに記憶すること、を含む。
上述した技術案といずれかの可能な実現方式によると、声紋の作成・登録を提示することは、
テキストに関する訓練方法を利用して、ユーザIDが認識されないユーザのために声紋モデルを確立すること、を含む。
上述した技術案といずれかの可能な実現方式によると、テキストに関する訓練方法を利用して、ユーザIDが認識されないユーザのために声紋モデルを確立することは、
登録文字列をユーザに提供すること、
ユーザが登録文字列を読んだ音声情報を受信すること、
性別分類器と音声情報に基づいて、ユーザの性別タグを確定すること、
性別タグと音声情報に基づいて、ユーザの声紋モデルを生成すること、を含む。
本発明の他の技術案によると、声紋の作成・登録の装置であって、
機器が最初に使用されるとき、声紋の作成・登録を提示するための提示モジュールと、
テキストに関する訓練方法を利用して、ユーザのために声紋モデルを確立するための声紋確立モジュールと
ユーザIDを生成するための入力モジュールと、
ユーザIDと声紋モデルを対応付けて声紋登録データベースに記憶するための登録モジュールと、を含む。
上述した技術案といずれかの可能な実現方式によると、声紋確立モジュールは、具体的に、
登録文字列をユーザに提供するための提供サブモジュールと、
ユーザが登録文字列を読んだ音声情報を受信するための受信サブモジュールと、
性別分類器と音声情報に基づいて、ユーザの性別タグを確定するための確定サブモジュールと、
性別タグと音声情報に基づいて、ユーザの声紋モデルを生成するための生成サブモジュールと、を含む。
本発明の他の技術案によると、声紋の作成・登録の装置であって、
ユーザが送信した音声要求を取得するための取得モジュールと、
音声要求に基づいて、声紋認識方式を利用して、音声要求を送信したユーザIDを認識するための声紋認識モジュールと、
登録されていないユーザに声紋の作成・登録を提示するための提示モジュールと、
ユーザIDを生成するための入力モジュールと、
ユーザIDと声紋モデルを対応付けて声紋登録データベースに記憶するための登録モジュールと、を含む。
上述した技術案といずれかの可能な実現方式によると、取得モジュールは、
クラウド側に音声要求を送信する必要があるかを判断し、「はい」であれば、音声要求に基づいて、声紋認識方式を利用して、音声要求を送信したユーザIDを認識すること、を具体的に実行する。
上述した技術案といずれかの可能な実現方式によると、提示モジュールは、
音声要求についてユーザIDを認識する必要があるかを判断し、「はい」であれば、音声要求に基づいて、声紋認識方式を利用して、音声要求を送信したユーザIDを認識すること、を具体的に実行する。
上述した技術案といずれかの可能な実現方式によると、提示モジュールは、
ユーザIDが認識されない声紋モデルにID番号を付けること、
ID番号を付けた声紋モデルの出現頻度を判断すること、
閾値より低いと、ID番号を削除すること、
閾値より高いと、ユーザIDを生成すること、
ユーザIDと声紋モデルを対応付けて声紋登録データベースに記憶すること、を具体的に実行する。
上述した技術案といずれかの可能な実現方式によると、提示モジュールは、
テキストに関する訓練方法を利用して、登録されていないユーザのために声紋モデルを確立すること、を具体的に実行する。
上述した技術案といずれかの可能な実現方式によると、提示モジュールは、
登録文字列をユーザに提供するための提供サブモジュールと、
ユーザが登録文字列を読んだ音声情報を受信するための受信サブモジュールと、
性別分類器と音声情報に基づいて、ユーザの性別タグを確定するための確定サブモジュールと、
性別タグと音声情報に基づいて、ユーザの声紋モデルを生成するための生成サブモジュールと、を含む。
本願の他の技術案によると、機器であって、
一つ又は複数のプロセッサと、
一つ又は複数のプログラムを記憶するためのストレジと、を含み、
一つ又は複数のプログラムが一つ又は複数のプロセッサによって実行されるとき、一つ又は複数のプロセッサに上記のいずれかの方法を実現させる。
本願の他の技術案によると、コンピュータプログラムを記憶しているコンピュータ読み取り可能な記憶媒体であって、プログラムがプロセッサによって実行されるとき、上記のいずれかの方法を実現する。
以上の技術案から分かるように、本願実施形態は、従来技術における声紋認識方法の技術の依頼性が強く、使用策略が簡単で、製品化の程度が低い問題点を避けることができる。高い技術エラー耐性を有し、製品化を速くし、ユーザにパーソナライズサービスを提供する。
本願の一実施形態に係る声紋の作成・登録の方法のフロー模式図である。 本願の一実施形態に係る声紋の作成・登録の方法におけるテキストに関する訓練方法を利用して、登録されていないユーザのために声紋モデルを確立するフロー模式図である。 本願の他の実施形態に係る声紋の作成・登録の方法のフロー模式図である。 本願の他の実施形態に係る声紋の作成・登録の方法における音声要求に基づいて、声紋認識方式を利用して、音声要求を送信したユーザIDを認識するフロー模式図である。 本願の他の実施形態に係る声紋の作成・登録の方法における登録されていないユーザに声紋の作成・登録を提示するフロー模式図である。 本願の他の実施形態に係る声紋の作成・登録の装置の構成模式図である。 本願の一実施形態に係る声紋の作成・登録の装置の声紋確立モジュールの構成模式図である。 本願の他の実施形態に係る声紋の作成・登録の装置の構成模式図である。 本願の他の実施形態に係る声紋の作成・登録の装置の提示モジュールの構成模式図である。 本発明の実施形態を実現するための示的なコンピュータシステム/サーバのブロック図である。
本発明の目的、技術案と利点をより明確で簡潔させるために、以下、図面を参照して具体的な実施形態を挙げて、本発明をはっきりと完全に説明する。
また、本願において使用される専門用語「及び/又は」は、関連対象を記述する関連関係だけであり、三つの関係、例えば、A及び/又はBは、Aだけが存在し、AとBが同ときに存在し、Bだけが存在するという三つの情况が存在することを表すと理解されるべきである。また、本願における文字「/」は、一般的に、前後関連対象が一つの「又は」の関係であることを表す。
スマート音声インタラクティブ機器には、MateAPPが存在し、携帯電話側にスマート音声インタラクティブ機器と協力して、一連のタスクを完成する。声紋を確立するために、MateAPP上に「声紋管理」機能モジュールが作成されており、その内でユーザはアカウントにおける声紋を作成、削除及び補正を行うことができる。
図1は、本願の一実施形態に係る声紋の作成・登録の方法のフロー模式図であり、図1に示すように、以下のステップを含む。
101において、機器が最初に使用されるとき、声紋の作成・登録を提示する。
機器が初めに使用されるとき、ユーザにMateAPPによって少なくとも一つの声紋IDを登録し、相関身元情報、例えば氏名、年齢、性別等の情報を確認するように提示する。
ユーザは、MateAPP又は音声によって声紋を作成したい旨を表すことで、声紋作成を行う。
102において、テキストに関する訓練方法を利用して、ユーザのために声紋モデルを確立し、具体的に、図2に示すように、以下のサブステップを含む。
201において、登録文字列をユーザに提供する。
当然のことながら、登録文字列の形式は、さまざまな種類がある。
一つの例示として、登録文字列は、ランダムに生成された数字列であってもよい。また、更に大きいサンプル空間をカバーすることができるように、登録文字列における数字は、一度だけ現れる。
他の一つの例示として、登録文字列は、ランダムに生成された漢字文字列であってもよい。
202において、ユーザが登録文字列を読んだ音声情報を受信する。
具体的に、登録文字列をユーザに提供した後、ユーザは、提供された登録文字列に基づいて、複数回の読み上げを行って複数本の音声を生成して登録することができる。ユーザが登録文字列を読む過程において、又はユーザが登録文字列の読み上げを完成したとき、ユーザにより提供された登録文字列を読み上げて生成された音声情報を受信することができる。
203において、性別分類器と音声情報に基づいて、ユーザの性別タグを確定する。
本発明の実施形態において、性別分類器に基づいて、音声に対して性別分類を行って、ユーザの性別タグを得ることができる。ただし、性別タグは、男性又は女性を含む。具体的に、取得された音声の第一特徴情報を抽出し、第一特徴情報を予め生成された性別分類器に送信する。性別分類器は、第一特徴情報を分析し、第一特徴情報の性別タグ、即ちユーザの性別タグを取得する。
例えば、性別分類モデルがガウス混合モデルである場合を例として、先ず音声に対して基本周波数特徴及びメル周波数ケプストラム係数(Malta Fairs and Convention Centre、MFCC)特徴を抽出した後、ガウス混合モデルに基づいて、基本周波数特徴及びMFCC特徴に対して事後確率値を計算し、計算結果に基づいてユーザの性別を確定することができる。例えば、仮に、ガウス混合モデルが男性ガウス混合モデルであると、計算結果の事後確率値が非常に高いと、例えば一定の閾値より高いとき、ユーザの性別が男性であると確定することができ、計算結果の事後確率値が非常に小さいと、例えば一定の閾値より低いとき、ユーザの性別が女性であると確定することができる。
204において、性別タグと音声情報に基づいて、ユーザの声紋モデルを生成する。
性別タグに対応するDNNモデルに基づいて、音声毎の事後確率を取得する。
性別タグに対応する統一背景モデルと特徴ベクトルに基づいて、モデルを抽出し、それぞれに音声毎の第二特徴ベクトルを抽出する。
複数本の音声に対応する複数の第二特徴ベクトルに基づいて、ユーザの声紋モデルを取得する。
具体的に、性別分類器が返送した、音声に対応する性別タグに基づいて、ユーザが入力した複数本の音声を対応する性別のDNNモデルに送信する。即ち、音声に対応するのが男性の音声であると、音声を男性DNNモデルに送信する。音声に対応するのが女性の音声であると、音声を女性DNNモデルに送信する。
性別タグに対応するDNNモデルに基づいて、音声毎に対応する複数の事後確率を取得する。
性別タグに対応する統一背景モデルに基づいて、事後確率毎に正規化処理を行い、予め訓練された特徴ベクトルを応用してモデルを抽出し、音声毎及びに対応する正規化の事後確率に基づいて、それぞれに音声毎の第二特徴ベクトルを抽出する。
複数本の音声に対応する複数の第二特徴ベクトルに基づいて、ユーザの声紋モデルを取得し、取得する方式は、複数の種類があり、異なる応用の必要に基づいて、選択することができ、例えば、複数の第二特徴ベクトルの平均特徴ベクトルをユーザの声紋モデルとして取得する。
103において、ユーザIDを生成し、ユーザに氏名、性別、年齢、趣味、家庭住所、勤務先等のユーザID相関データを入力するように提示する。
104において、後の声紋モデルに基づいて声紋認識を行うことと、アカウントにおけるいずれかのスマート音声機器に対して音声制御を行うことができるように、ユーザIDと声紋モデルを対応付けて声紋登録データベースのあるアカウントに記憶する。
ただし、予め記憶された声紋モデルは、同一のアカウント、例えば百度(登録商標)アカウントに関連されており、アカウントにおけるすべての声紋が一つのコレクションを形成する。各スマート音声インタラクティブ機器とアカウントとはユニークに関連されており、アカウントがスマート音声インタラクティブ機器と声紋とを関連付けることで、アカウントにおけるいずれかの機器によって声紋を登録することができ、一旦登録したら、アカウントにおけるいずれかのスマート音声機器において使用することができる。あるアカウントにおける機器が声紋を収集した後、同一のアカウントにおける家庭声紋コレクションにおいてマッチングを行い、声紋IDを認識し、三者の統一が完成し、エンドツーエンドの声紋コレクション認識の解決方案を実現した。
図3は、本願の他の実施形態に係る声紋の作成・登録の方法のフロー模式図であり、図3に示すように、以下のステップを含む。
301において、ユーザが送信した音声要求を取得する。
本実施形態の一つの実現方式において、スマート音声インタラクティブ機器は、ネットワークに接続した後、ユーザがスマート音声インタラクティブ機器と音声インタラクティブを行い、クラウド側へ音声要求を送信する必要があるかを判断し、「はい」であれば、更に音声要求を送信したユーザIDを認識する。
本実施形態の他の一つの実現方式において、先ず音声要求に対して音声認識を行い、命令音声に記載された命令を取得し、命令対応垂直クラスを確定し、垂直クラスが、パーソナライズ推薦を提供するためにユーザIDを確定する必要がないと、直接に音声要求に対して応答し、垂直クラスが、パーソナライズ推薦を提供するためにユーザIDを確定する必要があると、音声要求を送信したユーザIDを認識する。
302において、音声要求に基づいて、声紋認識方式を利用して、音声要求を送信したユーザIDを認識し、具体的に、図4に示すように、以下のサブステップを含む。
401において、音声要求に基づいて、声紋認識方式を利用して、音声要求を送信したユーザ性別タグを認識する。
性別別のユーザ群が特殊の声紋特徴を有するので、異なる性別のユーザ群向けの声紋分析を実現するように、ユーザ群の声特点に基づいて、モデル訓練を行うことができる。ユーザが音声要求を送信したとき、ユーザが送信した音声要求に基づいて、声紋認識方式を利用して、音声要求を送信したユーザ性情報を認識する。
声紋認識の前に、先ず話者の声紋に対してモデリング、即ち「訓練」又は「学習」を行う必要がある。具体的に、ディープニューラルネットワークDNN声紋基準線システムを応用することで、訓練セットにおける音声毎の第一特徴ベクトルを抽出し、音声毎の第一特徴ベクトル及び予めマーキングした性別タグに基づいて、性別分類器を訓練する。従って、性別を区分する声紋処理モデルを確立する。
取得された命令音声情報に基づいて、命令音声の第一特徴情報を抽出し、第一特徴情報を予め生成された性別分類器に送信する。性別分類器は、第一特徴情報を分析し、第一特徴情報の性別タグ、即ち命令音声の性別タグを取得する。
例えば、性別分類器がガウス混合モデルであることを例として、先ず音声要求に対して基本周波数特徴及びメル周波数ケプストラム係数MFCC特徴を抽出した後、ガウス混合モデルに基づいて、基本周波数特徴及びMFCC特徴に対して事後確率値を計算し、計算結果に基づいてユーザの性別を確定することができる。例えば、仮にガウス混合モデルが男性ガウス混合モデルであると、計算結果の事後確率値が非常に高い場合、例えば一定の閾値より高いとき、ユーザの性別が男性であると確定することができ、計算結果の事後確率値が非常に小さい場合、例えば一定の閾値より低いとき、ユーザの性別が女性であると確定することができる。
402において、音声要求を送信したユーザ性別タグを認識した後、更に命令音声を送信したユーザ声紋IDを認識する。
ユーザ毎の声は、一つのユニークな声紋IDを有し、IDに、ユーザ氏名、性別、年齢、趣味等の個人データが記録されている。
具体的に、性別分類器が返送した音声要求に対応する性別タグに基づいて、ユーザが入力した音声を対応性別のDNNモデルに送信する。即ち、音声要求に対応するのが男性の音声であれば、音声を男性DNNモデルに送信する。音声要求に対応するのが女性の音声であれば、音声を女性DNNモデルに送信する。
性別タグに対応するDNNモデルに基づいて、音声要求に対応する複数の事後確率を取得する。
性別タグに対応する統一背景モデルに基づいて、事後確率毎に正規化処理を行い、予め訓練された特徴ベクトルを応用してモデルを抽出し、音声毎及びに対応する正規化の事後確率に基づいて、それぞれに音声毎の第二特徴ベクトルを抽出する。
複数本の音声に対応する複数の第二特徴ベクトルに基づいて、ユーザの声紋モデルを取得し、取得する方式は、複数の種類があり、異なる応用の必要に基づいて、選択することができ、例えば、
複数の第二特徴ベクトルの平均特徴ベクトルをユーザの声紋モデルとして取得する。
取得されたユーザの声紋モデルを、予めに記憶された声紋モデルとマッチングを行うことで、マッチング値が予め設定された閾値より小さいと、ユーザが登録されていない、初めにスマート機器を使用していると確定し、ステップ303を実行する。
303において、ユーザIDが認識されない場合、声紋の作成・登録を提示する。
本実施形態の一つの実現方式において、ユーザIDが認識されない場合、非テキストに関する訓練方法を利用し、登録されていないユーザのために声紋モデルを確立し、登録する。
具体的に、取得された登録されていないユーザの声紋モデルに対してID番号を付ける。
ユーザIDを生成し、ユーザに氏名、性別、年齢、趣味、家庭住所、勤務先等のユーザID相関データを入力して声紋を登録するように提示する。
後の声紋モデルに基づいて声紋認識を行うことと、アカウントにおけるいずれかのスマート音声機器に対して音声制御を行うこととができるように、ユーザIDと声紋モデルを対応付けて声紋登録データベースのあるアカウントに記憶する。
本実施形態の他の一つの実現方式において、ユーザに対する妨げを最小化にするために、常に使用する家庭ユーザのみに声紋の作成を案内することができ、具体的に、
ユーザIDが認識されない声紋モデルにID番号を付けるが、ユーザIDを生成してユーザに氏名、性別、年齢、趣味、家庭住所、勤務先等のユーザID相関データを入力するように提示しなく、バックグラウンドのみでID番号が所属するユーザの行動を記録する。
ID番号を付けた声紋モデルの出現頻度を判断する。
声紋の出現頻度が低いと、自動にID番号を削除する。
声紋の出現頻度が高い又は連続に複数の日に出現したら、ユーザIDを生成し、ユーザに氏名、性別、年齢、趣味、家庭住所、勤務先等のユーザID相関データを入力して声紋を登録するように提示する。後に声紋モデルに基づいて声紋認識を行い、アカウントにおけるいずれかのスマート音声機器に対して音声制御を行うことができるように、ユーザIDと声紋モデルを対応付けて声紋登録データベースのあるアカウントに記憶する。
本実施形態の一つの実現方式において、テキストに関する訓練方法を利用して、ユーザIDが認識されないユーザのために声紋モデルを確立し、声紋技術がまだ完璧でなくても、テキストに関する訓練方法を使用して認識率を向上することができる。
具体的に、図5に示すように、テキストに関する訓練方法を利用して、ユーザIDが認識されないユーザのために声紋モデルを確立し、以下のサブステップを含む。
501において、登録文字列をユーザに提供する。
当然のことながら、登録文字列の形式は、さまざまな種類がある。
一つの例示として、登録文字列は、ランダムに生成された数字列であってもよい。また、更に大きいサンプル空間をカバーすることができるために、登録文字列における数字は、一度だけ現れる。
他の一つの例示として、登録文字列は、ランダムに生成された漢字文字列であってもよい。
502において、ユーザが登録文字列を読んだ音声情報を受信する。
具体的に、登録文字列をユーザに提供した後、ユーザは、提供された登録文字列に従って複数回の読み上げを行って登録することができる。ユーザが登録文字列を読んだ過程において、又はユーザが登録文字列の読み上げを完成したとき、ユーザにより提供された登録文字列を読み上げて生成された音声情報を受信することができる。
503において、性別分類器と音声情報に基づいて、ユーザの性別タグを確定する。
本発明の実施形態において、性別分類器に基づいて、音声に対して性別分類を行って、ユーザの性別タグを得ることができる。ただし、性別タグは、男性又は女性を含む。具体的に、取得された音声の第一特徴情報を抽出し、第一特徴情報を予め生成された性別分類器に送信する。性別分類器は、第一特徴情報を分析し、第一特徴情報の性別タグ、即ちユーザの性別タグを取得する。
例えば、性別分類モデルがガウス混合モデルである場合を例として、先ず音声に対して基本周波数特徴及びメル周波数ケプストラム係数(Malta Fairs and Convention Centre、MFCC)特徴を抽出した後、ガウス混合モデルに基づいて、基本周波数特徴及びMFCC特徴に対して事後確率値を計算し、計算結果に基づいてユーザの性別を確定することができる。例えば、仮にガウス混合モデルが男性ガウス混合モデルであると、計算結果の事後確率値が非常に高い、例えば一定の閾値より高いとき、ユーザの性別が男性であると確定することができ、計算結果の事後確率値が非常に小さい、例えば一定の閾値より低いとき、ユーザの性別が女性であると確定することができる。
504において、性別タグと音声情報に基づいて、ユーザの声紋モデルを生成する。
性別タグに対応するDNNモデルに基づいて、音声毎の事後確率を取得する。
性別タグに対応する統一背景モデルと特徴ベクトルに基づいて、モデルを抽出し、それぞれに音声毎の第二特徴ベクトルを抽出する。
複数本の音声に対応する複数の第二特徴ベクトルに基づいて、ユーザの声紋モデルを取得する。
具体的に、性別分類器が返送した音声に対応する性別タグに基づいて、ユーザが入力した複数本の音声を対応する性別のDNNモデルに送信する。即ち、音声に対応するのが男性の音声であると、音声を男性DNNモデルに送信する。音声に対応するのが女性の音声であると、音声を女性DNNモデルに送信する。
性別タグに対応するDNNモデルに基づいて、音声毎に対応する複数の事後確率を取得する。
性別タグに対応する統一背景モデルに基づいて、事後確率毎に正規化処理を行い、予め訓練された特徴ベクトルを応用してモデルを抽出し、音声毎及びに対応する正規化の事後確率に基づいて、それぞれに音声毎の第二特徴ベクトルを抽出する。
複数本の音声に対応する複数の第二特徴ベクトルに基づいて、ユーザの声紋モデルを取得し、取得する方式は、複数の種類があり、異なる応用の必要に基づいて、選択することができ、例えば、
複数の第二特徴ベクトルの平均特徴ベクトルをユーザの声紋モデルとして取得する。
304において、ユーザIDを生成し、ユーザに氏名、性別、年齢、趣味、家庭住所、勤務先等のユーザID相関データを入力するように提示する。
305において、後の声紋モデルに基づいて声紋認識を行うことと、アカウントにおけるいずれかのスマート音声機器に対して音声制御を行うこととができるように、ユーザIDと声紋モデルを対応付けて声紋登録データベースのあるアカウントに記憶する。
ただし、予め記憶された声紋モデルは、同一のアカウント、例えば百度(登録商標)アカウントに関連されており、アカウントにおけるすべての声紋が一つのコレクションを形成する。各スマート音声インタラクティブ機器とアカウントとはユニークに関連されており、アカウントがスマート音声インタラクティブ機器と声紋とを関連付けることで、アカウントにおけるいずれかの機器によって声紋を登録することができ、一旦登録したら、アカウントにおけるいずれかのスマート音声機器において使用することができる。あるアカウントにおける機器が声紋を収集した後、同一のアカウントにおける家庭声紋コレクションにおいてマッチングを行い、声紋IDを認識し、三者の統一が完成し、エンドツーエンドの声紋コレクション認識の解決方案を実現した。
好ましくは、ユーザは、MateAPPによって音声ログインし、ユーザID、声紋モデルを補正することができる。
本実施形態の方法は、従来技術における声紋の作成・登録の方法の技術学習のコストが高く、ユーザの妨げとなる問題点を避けることができる。性別を区分する声紋認証処理モデルを応用して声紋認証の効率と正確性を提高するように、性別を区分する声紋登録過程を実現し、声紋の確立過程にそれぞれのシーンをカバーさせることができ、声紋確立の各段階にユーザを案内することができ、又は頻度によって声紋の確立と登録を分離することができ、ユーザに対する妨げを最小化させ、ユーザが声紋を登録するように案内した後、音声インタラクティブ製品が声紋に基づいてユーザに対してパーソナライズサービスを提供することができる。
説明すべきことは、前述の各方法実施形態については、簡単に説明するために、それを共に一連のステップの組み合わせと記載したが、当業者にとって、本願に記述されたステップの順序に限定されておらず、あるステップを、他の順序に従って行っても良く、又は同時に行っても良いことを理解すべきである。次に、当業者については、説明書に記述された実施形態は共に好ましい実施形態であり、かかる動作とモジュールは必ず本願に必要なものではないことも理解すべきである。
実施形態において、各実施形態の記述は、共にそれぞれにフォーカスがあり、ある実施形態において詳細に説明していない部分は、他の実施形態の相関記述を参照することができる。
図6は、本願の他の実施形態に係る声紋の作成・登録の装置の構成模式図であり、6に示すように、提示モジュール61、声紋確立モジュール62、入力モジュール63、登録モジュール64を含み、ただし、
提示モジュール61は、機器が最初に使用されるとき、声紋の作成・登録を提示するために用いられる。
機器が初めに使用されるとき、ユーザがMateAPPによって少なくとも一つの声紋IDを登録するように案内し、相関身元情報、例えば氏名、年齢、性別等の情報を確認する。
ユーザは、MateAPP又は音声によって声紋を作成したい旨を表すことで、声紋作成を行う。
声紋確立モジュール62は、テキストに関する訓練方法を利用して、ユーザのために声紋モデルを確立するために用いられ、具体的に、図7に示すように、以下のサブモジュールを含む。
提供サブモジュール71は、登録文字列をユーザに提供するために用いられる。
当然のことながら、登録文字列の形式は、さまざまな種類がある。
一つの例示として、登録文字列は、ランダムに生成された数字列であってもよい。また、更に大きいサンプル空間をカバーすることができるために、登録文字列における数字は、一度だけ現れる。
他の一つの例示として、登録文字列は、ランダムに生成された漢字文字列であってもよい。
受信サブモジュール72は、ユーザが登録文字列を読んだ音声情報を受信するために用いられる。
具体的に、登録文字列をユーザに提供した後、ユーザは、提供された登録文字列に基づいて、複数回の読み上げを行って複数本の音声を生成して登録することができる。ユーザが登録文字列を読んだ過程において、又はユーザが登録文字列の読み上げを完成したとき、ユーザにより提供された登録文字列を読み上げて生成された音声情報を受信することができる。
確定サブモジュール73は、性別分類器と音声情報に基づいて、ユーザの性別タグを確定するために用いられる。
本発明の実施形態において、性別分類器に基づいて、音声に対して性別分類を行って、ユーザの性別タグを得ることができる。ただし、性別タグは、男性又は女性を含む。具体的に、取得された音声の第一特徴情報を抽出し、第一特徴情報を予め生成された性別分類器に送信する。性別分類器は、第一特徴情報を分析し、第一特徴情報の性別タグ、即ちユーザの性別タグを取得する。
例えば、性別分類モデルがガウス混合モデルである場合を例として、先ず音声に対して基本周波数特徴及びメル周波数ケプストラム係数(Malta Fairs and Convention Centre、MFCC)特徴を抽出した後、ガウス混合モデルに基づいて、基本周波数特徴及びMFCC特徴に対して事後確率値を計算し、計算結果に基づいてユーザの性別を確定することができる。例えば、仮にガウス混合モデルが男性ガウス混合モデルであると、計算結果の事後確率値が非常に高いと、例えば一定の閾値より高いとき、ユーザの性別が男性であると確定することができ、計算結果の事後確率値が非常に小さいと、例えば一定の閾値より低いとき、ユーザの性別が女性であると確定することができる。
生成サブモジュール74は、性別タグと音声情報に基づいて、ユーザの声紋モデルを生成するために用いられる。
性別タグに対応するDNNモデルに基づいて、音声毎の事後確率を取得する。
性別タグに対応する統一背景モデルと特徴ベクトルに基づいて、モデルを抽出し、それぞれに音声毎の第二特徴ベクトルを抽出する。
複数本の音声に対応する複数の第二特徴ベクトルに基づいて、ユーザの声紋モデルを取得する。
具体的に、性別分類器が返送した音声に対応する性別タグに基づいて、ユーザが入力した複数本の音声を対応する性別のDNNモデルに送信する。即ち、音声に対応するのが男性の音声であると、音声を男性DNNモデルに送信する。音声に対応するのが女性の音声であると、音声を女性DNNモデルに送信する。
性別タグに対応するDNNモデルに基づいて、音声毎に対応する複数の事後確率を取得する。
性別タグに対応する統一背景モデルに基づいて、事後確率毎に正規化処理を行い、予め訓練された特徴ベクトルを応用してモデルを抽出し、音声毎及びに対応する正規化の事後確率に基づいて、それぞれに音声毎の第二特徴ベクトルを抽出する。
複数本の音声に対応する複数の第二特徴ベクトルに基づいて、ユーザの声紋モデルを取得し、取得する方式は、複数の種類があり、異なる応用の必要に基づいて、選択することができ、例えば、
複数の第二特徴ベクトルの平均特徴ベクトルをユーザの声紋モデルとして取得する。
入力モジュール63は、ユーザIDを生成し、ユーザに氏名、性別、年齢、趣味、家庭住所、勤務先等のユーザID相関データを入力するように提示するために用いられる。
登録モジュール64は、後の声紋モデルに基づいて声紋認識を行うことと、アカウントにおけるいずれかのスマート音声機器に対して音声制御を行うこととができるように、ユーザIDと声紋モデルを対応付けて声紋登録データベースのあるアカウントに記憶するために用いられる。
ただし、予め記憶された声紋モデルは、同一のアカウント、例えば百度(登録商標)アカウントに関連されており、アカウントにおけるすべての声紋が一つのコレクションを形成する。各スマート音声インタラクティブ機器とアカウントとはユニークに関連されており、アカウントがスマート音声インタラクティブ機器と声紋とを関連付けることで、アカウントにおけるいずれかの機器によって声紋を登録することができ、一旦登録したら、アカウントにおけるいずれかのスマート音声機器において使用することができる。あるアカウントにおける機器が声紋を収集した後、同一のアカウントにおける家庭声紋コレクションにおいてマッチングを行い、声紋IDを認識し、三者の統一が完成し、エンドツーエンドの声紋コレクション認識の解決方案を実現した。
図8は、本願の他の実施形態に係る声紋の作成・登録の装置の構成模式図であり、図8に示すように、以下のモジュールを含む。
取得モジュール81は、ユーザが送信した音声要求を取得するために用いられる。
本実施形態の一つの実現方式において、スマート音声インタラクティブ機器は、ネットワークに接続した後、ユーザがスマート音声インタラクティブ機器と音声インタラクティブを行い、クラウド側へ音声要求を送信する必要があるかを判断し、「はい」であれば、更に音声要求を送信したユーザIDを認識する。
本実施形態の他の一つの実現方式において、先ず音声要求に対して音声認識を行い、命令音声に記載された命令を取得し、命令対応垂直クラスを確定し、垂直クラスがパーソナライズ推薦を提供するためにユーザIDを確定する必要がないと、直接に音声要求に対して応答し、垂直クラスが、パーソナライズ推薦を提供するためユーザIDを確定する必要があると、更に音声要求を送信したユーザIDを認識する。
声紋認識モジュール82は、音声要求に基づいて、声紋認識方式を利用して、音声要求を送信したユーザIDを認識するために用いられ、具体的に、以下のサブモジュールを含む。
ユーザ性別認識サブモジュールは、音声要求に基づいて、声紋認識方式を利用して、音声要求を送信したユーザ性別タグを認識するために用いられる。
性別別のユーザ群が特殊の声紋特徴を有するので、異なる性別のユーザ群向けの声紋分析を実現するように、ユーザ群の声特点に基づいて、モデル訓練を行うことができる。ユーザが音声要求を送信したとき、ユーザが送信した音声要求に基づいて、声紋認識方式を利用して、音声要求を送信したユーザ性情報を認識する。
声紋認識の前に、先ず話者の声紋に対してモデリング、即ち「訓練」又は「学習」を行う必要がある。具体的に、ディープニューラルネットワークDNN声紋基準線システムを応用することで、訓練セットにおける音声毎の第一特徴ベクトルを抽出し、音声毎の第一特徴ベクトル及び予めマーキングした性別タグに基づいて、性別分類器を訓練する。従って、性別を区分する声紋処理モデルを確立する。
取得された命令音声情報に基づいて、命令音声の第一特徴情報を抽出し、第一特徴情報を予め生成された性別分類器に送信する。性別分類器は、第一特徴情報を分析し、第一特徴情報の性別タグ、即ち命令音声の性別タグを取得する。
例えば、性別分類器がガウス混合モデルであることを例として、先ず音声要求に対して基本周波数特徴及びメル周波数ケプストラム係数MFCC特徴を抽出した後、ガウス混合モデルに基づいて、基本周波数特徴及びMFCC特徴に対して事後確率値を計算し、計算結果に基づいてユーザの性別を確定することができる例えば、仮にガウス混合モデルが男性ガウス混合モデルであると、計算結果の事後確率値が非常に高いと、例えば一定の閾値より高いとき、ユーザの性別が男性であると確定することができ、計算結果の事後確率値が非常に小さいと、例えば一定の閾値より低いとき、ユーザの性別が女性であると確定することができる。
ユーザ声紋ID認識サブモジュールは、音声要求を送信したユーザ性別タグを認識した後、更に命令音声を送信したユーザ声紋IDを認識するために用いられる。
ユーザ毎の声は、一つのユニークな声紋IDを有し、IDに、ユーザ氏名、性別、年齢、趣味等の個人データが記録されている。
具体的に、性別分類器が返送した音声要求に対応する性別タグに基づいて、ユーザが入力した音声を対応性別のDNNモデルに送信する。即ち、音声要求に対応するのが男性の音声であれば、音声を男性DNNモデルに送信する。音声要求に対応するのが女性の音声であれば、音声を女性DNNモデルに送信する。
性別タグに対応するDNNモデルに基づいて、音声要求に対応する複数の事後確率を取得する。
性別タグに対応する統一背景モデルに基づいて、事後確率毎に正規化処理を行い、予め訓練された特徴ベクトルを応用してモデルを抽出し、音声毎及びに対応する正規化の事後確率に基づいて、それぞれに音声毎の第二特徴ベクトルを抽出する。
複数本の音声に対応する複数の第二特徴ベクトルに基づいて、ユーザの声紋モデルを取得し、取得する方式は、複数の種類があり、異なる応用の必要に基づいて、選択することができ、例えば、
複数の第二特徴ベクトルの平均特徴ベクトルをユーザの声紋モデルとして取得する。
取得されたユーザの声紋モデルを、予めに記憶された声紋モデルとマッチングを行うことで、マッチング値が予め設定された閾値より小さいと、ユーザが登録されていない、初めにスマート機器を使用していると確定する。
提示モジュール83は、ユーザIDが認識されない場合、声紋の作成・登録を提示するために用いられる。
本実施形態の一つの実現方式において、ユーザIDが認識されなく、初めにスマート機器を使用する場合に、提示モジュール83は、非テキストに関する訓練方法を利用して、ユーザのために声紋モデルを確立する。
具体的に、
ユーザIDが認識されない声紋モデルにID番号を付ける。
ユーザIDを生成し、ユーザに氏名、性別、年齢、趣味、家庭住所、勤務先等のユーザID相関データを入力して声紋を登録するように提示する。
後の声紋モデルに基づいて声紋認識を行うことと、アカウントにおけるいずれかのスマート音声機器に対して音声制御を行うことができるように、ユーザIDと声紋モデルを対応付けて声紋登録データベースのあるアカウントに記憶する。
本実施形態の他の一つの実現方式において、ユーザに対する妨げを最小化にするために、常に使用する家庭ユーザのみに声紋の作成を案内することができ、具体的に、
ユーザIDが認識されない声紋モデルにID番号を付けるが、ユーザIDを生成してユーザに氏名、性別、年齢、趣味、家庭住所、勤務先等のユーザID相関データを入力するように提示しなく、バックグラウンドのみでID番号が所属するユーザの行動を記録する。
ID番号を付けた声紋モデルの出現頻度を判断する。
声紋の出現頻度が低いと、自動にID番号を削除する。
声紋の出現頻度が高い又は連続に複数の日に出現したら、ユーザIDを生成し、ユーザに氏名、性別、年齢、趣味、家庭住所、勤務先等のユーザID相関データを入力して声紋を登録するように提示する。後に声紋モデルに基づいて声紋認識を行い、アカウントにおけるいずれかのスマート音声機器に対して音声制御を行うことができるように、ユーザIDと声紋モデルを対応付けて声紋登録データベースのあるアカウントに記憶する。
本実施形態の一つの実現方式において、提示モジュール83は、テキストに関する訓練方法を利用して、ユーザIDが認識されない声紋モデルを確立し、登録し、声紋技術がまだ完璧でなくても、テキストに関する訓練方法を使用して認識率を向上することができる。具体的に、図9に示すように、以下のサブモジュールを含む。
提供サブモジュール91は、登録文字列をユーザに提供するために用いられる。
当然のことながら、登録文字列の形式は、さまざまな種類がある。
一つの例示として、登録文字列は、ランダムに生成された数字列であってもよい。また、更に大きいサンプル空間をカバーすることができるために、登録文字列における数字は、一度だけ現れる。
他の一つの例示として、登録文字列は、ランダムに生成された漢字文字列であってもよい。
受信サブモジュール92は、ユーザが登録文字列を読んだ音声情報を受信するために用いられる。
具体的に、登録文字列をユーザに提供した後、ユーザは、提供された登録文字列に従って複数回の読み上げを行って登録することができる。ユーザが登録文字列を読んだ過程において、又はユーザが登録文字列の読み上げを完成したとき、ユーザにより提供された登録文字列を読み上げて生成した音声情報を受信することができる。
確定サブモジュール93は、性別分類器と音声情報に基づいて、ユーザの性別タグを確定するために用いられる。
本発明の実施形態において、性別分類器に基づいて、音声に対して性別分類を行って、ユーザの性別タグを得ることができる。ただし、性別タグは、男性又は女性を含む。具体的に、取得された音声の第一特徴情報を抽出し、第一特徴情報を予め生成された性別分類器に送信する。性別分類器は、第一特徴情報を分析し、第一特徴情報の性別タグ、即ちユーザの性別タグを取得する。
例えば、性別分類モデルがガウス混合モデルである場合を例として、先ず音声に対して基本周波数特徴及びメル周波数ケプストラム係数(Malta Fairs and Convention Centre、MFCC)特徴を抽出した後、ガウス混合モデルに基づいて、基本周波数特徴及びMFCC特徴に対して事後確率値を計算し、計算結果に基づいてユーザの性別を確定することができる。例えば、仮にガウス混合モデルが男性ガウス混合モデルであると、計算結果の事後確率値が非常に高いと、例えば一定の閾値より高いとき、ユーザの性別が男性であると確定することができ、計算結果の事後確率値が非常に小さいと、例えば一定の閾値より低いとき、ユーザの性別が女性であると確定することができる。
生成サブモジュール94は、性別タグと音声情報に基づいて、ユーザの声紋モデルを生成するために用いられる。
性別タグに対応するDNNモデルに基づいて、音声毎の事後確率を取得する。
性別タグに対応する統一背景モデルと特徴ベクトルに基づいて、モデルを抽出し、それぞれに音声毎の第二特徴ベクトルを抽出する。
複数本の音声に対応する複数の第二特徴ベクトルに基づいて、ユーザの声紋モデルを取得する。
具体的に、性別分類器が返送した音声に対応する性別タグに基づいて、ユーザが入力した複数本の音声を対応性別のDNNモデルに送信する。即ち、音声に対応するのが男性の音声であると、音声を男性DNNモデルに送信する。音声に対応するのが女性の音声であると、音声を女性DNNモデルに送信する。
性別タグに対応するDNNモデルに基づいて、音声毎に対応する複数の事後確率を取得する。
性別タグに対応する統一背景モデルに基づいて、事後確率毎に正規化処理を行い、予め訓練された特徴ベクトルを応用してモデルを抽出し、音声毎及びに対応する正規化の事後確率に基づいて、それぞれに音声毎の第二特徴ベクトルを抽出する。
複数本の音声に対応する複数の第二特徴ベクトルに基づいて、ユーザの声紋モデルを取得し、取得する方式は、複数の種類があり、異なる応用の必要に基づいて、選択することができ、例えば、
複数の第二特徴ベクトルの平均特徴ベクトルをユーザの声紋モデルとして取得する。
入力モジュール84は、ユーザIDを生成し、ユーザに氏名、性別、年齢、趣味、家庭住所、勤務先等のユーザID相関データを入力するように提示するために用いられる。
登録モジュール85は、後の声紋モデルに基づいて声紋認識を行うことと、アカウントにおけるいずれかのスマート音声機器に対して音声制御を行うことができるように、ユーザIDと声紋モデルを対応付けて声紋登録データベースのあるアカウントに記憶するために用いられる。
ただし、予めに記憶された声紋モデルは、同一のアカウント、例えば百度(登録商標)アカウントに関連されており、アカウントにおけるすべての声紋が一つのコレクションを形成する。各スマート音声インタラクティブ機器とアカウントとはユニークに関連されており、アカウントがスマート音声インタラクティブ機器と声紋とを関連付けることで、アカウントにおけるいずれかの機器によって声紋を登録することができ、一旦登録したら、アカウントにおけるいずれかのスマート音声機器において使用することができる。あるアカウントにおける機器が声紋を収集した後、同一のアカウントにおける家庭声紋コレクションにおいてマッチングを行い、声紋IDを認識し、三者の統一が完成し、エンドツーエンドの声紋コレクション認識の解決方案を実現した。
好ましく、ユーザは、MateAPPによって音声ログインし、ユーザID、声紋モデルを補正することができる。
本実施形態の方法は、従来技術における声紋の作成・登録の方法の技術学習のコストが高く、ユーザの妨げとなる問題点を避けることができる。性別を区分する声紋認証処理モデルを応用して声紋認証の効率と正確性を提高するように、性別を区分する声紋登録過程を実現し、声紋の確立過程にそれぞれのシーンをカバーさせることができ、声紋確立の各段階にユーザを案内することができ、又は頻度によって声紋の確立と登録を分離することができ、ユーザに対する妨げを最小化させ、ユーザが声紋を登録するように案内した後、音声インタラクティブ製品が声紋に基づいてユーザに対してパーソナライズサービスを提供することができる。
当業者については、説明の簡単のために、端末とサーバの具体的な動作の過程は、前述の方法の実施形態における対応する過程を参照することができるので、ここで繰り返さないことを分かっている。
本実施形態の装置は、従来技術における声紋の作成・登録の方法の技術学習のコストが高く、ユーザの妨げとなる問題点を避けることができる。声紋の確立過程にそれぞれのシーンをカバーさせることができ、声紋確立の各段階にユーザを案内することができ、又は頻度によって声紋の確立と登録を分離することができ、ユーザに対する妨げを最小化させ、ユーザが声紋を登録するように案内した後、音声インタラクティブ製品が声紋に基づいてユーザに対してパーソナライズサービスを提供することができる。
本発明における幾つかの実施形態において、開示された方法と装置は、他の方式で得ることができることを理解されたい。例えば、上記した装置は単なる例示に過ぎず、例えば、手段の分割は、論理的な機能分割のみであり、実際には、別の方法で分割することもでき、例えば、複数の手段または部材を組み合わせて他のシステムに集積することができ、或いはいくつかの特徴を省略し、あるいは実行しないことができる。さて、表示または説明した相互結合または直接結合または通信接続は、何らかのインターフェース、装置または手段を介した間接的結合または通信接続であることができ、そして電気的、機械的または他の方式であってもよい。
分離部品として説明された手段が、物理的に分離されてもよく、物理的に分離されなくてもよく、手段として表される部品が、物理手段でもよく、物理手段でなくてもよく、1つの箇所に位置してもよく、又は複数のネットワークセルに分布されても良い。実際の必要に基づいて、その中の一部又は全部を選択して、本実施形態の態様の目的を実現することができる。
また、本発明の各実施形態における各機能手段が1つの処理手段に集積されてもよく、各手段が物理的に独立に存在してもよく、2つ又は2つ以上の手段が1つの手段に集積されても良い。上記集積された手段は、ハードウェアの形式で実現してもよく、ハードウェア+ソフトウェア機能手段の形式で実現しても良い。
図10は、本発明の実施形態を実現するために適応する例示的なコンピュータシステム/サーバ012のブロック図を示す。図10に示すコンピュータシステム/サーバ012は、一つの例だけであり、本発明の実施形態の機能と使用範囲を制限していない。
図10に示すように、コンピュータシステム/サーバ012は、汎用演算機器の形態で表現される。コンピュータシステム/サーバ012の構成要素には、1つ又は複数のプロセッサ又は処理手段016と、システムメモリ028と、異なるシステム構成要素(システムメモリ028と処理手段016とを含む)を接続するためのバス018を含んでいるが、これに限定されない。
バス018は、複数種類のバス構成の中の1つ又は複数の種類を示し、メモリバス又はメモリコントローラ、周辺バス、グラフィック加速ポート、プロセッサ又は複数種類のバス構成でのいずれかのバス構成を使用したローカルバスを含む。例えば、それらの架構には、工業標準架構(ISA)バス、マイクロチャンネル架構(MAC)バス、増強型ISAバス、ビデオ電子規格協会(VESA)ローカルバス及び周辺コンポーネント接続(PCI)バスを含んでいるが、これに限定されない。
コンピュータシステム/サーバ012には、典型的には複数のコンピュータシステム読取り可能な媒体を含む。それらの媒体は、コンピュータシステム/サーバ012にアクセスされて使用可能な任意な媒体であり、揮発性の媒体と不揮発性の媒体や移動可能な媒体と移動不可な媒体を含む。
システムメモリ028には、揮発性メモリ形式のコンピュータシステム読取り可能な媒体、例えばランダムアクセスメモリ(RAM)030及び/又はキャッシュメモリ032を含むことができる。コンピュータシステム/サーバ012には、更に他の移動可能/移動不可なコンピュータシステム記憶媒体や揮発性/不揮発性のコンピュータシステム記憶媒体を含むことができる。例として、ストレジ034は、移動不可能な不揮発性磁媒体を読み書くために用いられる(図10に示していないが、常に「ハードディスクドライブ」とも呼ばれる)。図9に示していないが、移動可能な不揮発性磁気ディスク(例えば「フレキシブルディスク」)に対して読み書きを行うための磁気ディスクドライブ、及び移動可能な不揮発性光ディスク(例えばCD−ROM、DVD−ROM又は他の光媒体)に対して読み書きを行うための光ディスクドライブを提供できる。このような場合に、ドライブは、それぞれ1つ又は複数のデータ媒体インターフェースによってバス018に接続される。システムメモリ028には少なくとも1つのプログラム製品を含み、プログラム製品には1組の(例えば少なくとも1つの)プログラムモジュールを含み、それらのプログラムモジュールは、本発明の各実施形態の機能を実行するように配置される。
1組の(少なくとも1つの)プログラムモジュール042を含むプログラム/実用ツール040は、例えばシステムメモリ028に記憶され、このようなプログラムモジュール042には、オペレーティングシステム、1つの又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含んでいるが、これに限定しておらず、それらの例示での1つ又はある組み合にはネットワーク環境の実現を含む可能性がある。プログラムモジュール042は、常に本発明に記載されている実施形態における機能及び/或いは方法を実行する。
コンピュータシステム/サーバ012は、一つ又は複数の周辺機器014(例えばキーボード、ポインティングデバイス、ディスプレイ024)と通信を行ってもよく、本発明において、コンピュータシステム/サーバ012は外部レーダ機器と通信を行い、一つ又は複数のユーザとコンピュータシステム/サーバ012とのインタラクティブを実現することができる機器と通信を行ってもよく、及び/又はコンピュータシステム/サーバ012と一つ又は複数の他の演算機器との通信を実現することができるいずれかの機器(例えばネットワークカード、モデム等)と通信を行っても良い。このような通信は入力/出力(I/O)インターフェース022によって行うことができる。そして、コンピュータシステム/サーバ012は、ネットワークアダプタ020によって、一つ又は複数のネットワーク(例えばローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)及び/又は公衆回線網、例えばインターネット)と通信を行っても良い。図10に示すように、ネットワークアダプタ020は、バス018によって、コンピュータシステム/サーバ012の他のモジュールと通信を行う。当然のことながら、図10に示していないが、コンピュータシステム/サーバ012と連携して他のハードウェア及び/又はソフトウェアモジュールを使用することができ、マイクロコード、機器ドライブ、冗長処理手段、外部磁気ディスクドライブアレイ、RAIDシステム、磁気テープドライブ及びデータバックアップストレジ等を含むが、これに限定されない。
処理手段016は、メモリ028に記憶されているプログラムを実行することで、本発明に記述された実施形態における機能及び/又は方法を実現する。
上記のコンピュータプログラムは、コンピュータ記憶媒体に設置されることができ、即ちコンピュータ記憶媒体にコンピュータプログラムを符号化することができ、プログラムが一つ又は複数のコンピュータによって実行されるとき、一つ又は複数のコンピュータに本発明の上記実施形態に示す方法フロー及び/又は装置操作を実行させる。
時間と技術の発展に伴って、媒体の意味はますます広範囲になり、コンピュータプログラムの伝送経路は有形のメディアによって制限されなくなり、ネットワークなどから直接ダウンロードすることもできる。1つ又は複数のコンピュータ読み取り可能な媒体の任意な組合を利用しても良い。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体又はコンピュータ読み取り可能な記憶媒体である。コンピュータ読み取り可能な記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記ものの任意な組合であるが、これに限定されない。コンピュータ読み取り可能な記憶媒体の更なる具体的な例(網羅していないリスト)には、1つ又は複数のワイヤを具備する電気的な接続、携帯式コンピュータ磁気ディスク、ハードディクス、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュ)、光ファイバー、携帯式コンパクト磁気ディスクリードオンリーメモリ(CD−ROM)、光メモリ部材、磁気メモリ部材、又は上記ものの任意で適当な組合を含む。本願において、コンピュータ読み取り可能な記憶媒体は、プログラムを含む又は記憶する任意な有形媒体であってもよく、プログラムは、命令実行システム、装置又はデバイスに使用される又はそれらと連携して使用されるができる。
コンピュータ読み取り可能な信号媒体には、ベースバンドにおいて伝搬されるデータ信号或いはキャリアの一部として伝搬されるデータ信号を含み、それにコンピュータ読み取り可能なプログラムコードが載っている。このような伝搬されるデータ信号について、複数種類の形態を利用でき、電磁気信号、光信号又はそれらの任意で適当な組合を含んでいるが、これに限定されない。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記憶媒体以外の任意なコンピュータ読み取り可能な媒体であってもよく、コンピュータ読み取り可能な媒体は、命令実行システム、装置又はデバイスによって使用される又はそれと連携して使用されるプログラムを送信、伝搬又は転送できる。
コンピュータ読み取り可能な媒体に記憶されたプログラムコードは、任意で適正な媒体によって転送されてもよく、無線、電線、光ケーブル、RF等、又は上記ものの任意で適当な組合が含まれているが、これに限定されない。
1つ又は複数のプログラミング言語又はそれらの組合で、本発明の操作を実行するためのコンピュータプログラムコードを編集することができ、プログラミング言語には、オブジェクト向けのプログラミング言語、例えばJava(登録商標)、Smalltalk、C++が含まれ、通常のプロシージャ向けプログラミング言語、例えば「C」言葉又は類似しているプログラミング言語も含まれる。プログラムコードは、完全的にユーザコンピュータに実行されてもよく、部分的にユーザコンピュータに実行されてもよく、1つの独立のソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータに実行され且つ部分的に遠隔コンピュータに実行されてもよく、又は完全的に遠隔コンピュータ又はサーバに実行されてもよい。遠隔コンピュータに係る場合に、遠隔コンピュータは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザコンピュータ、又は、外部コンピュータに接続できる(例えば、インターネットサービス事業者を利用してインターネットを介して接続できる)。
以上は、本発明の好ましい実施形態のみであり、本発明を制限しなく、本発明の精神および原則の範囲内で行われた変更、同等の置換、改善等は、全て本発明の特許請求の範囲に含めるべきである。

Claims (18)

  1. 声紋の作成・登録の方法であって、
    機器が最初に使用されるとき、声紋の作成・登録を提示することと、
    テキストに関する訓練方法を利用して、ユーザのために声紋モデルを確立することと、
    ユーザIDを生成することと、
    ユーザIDと声紋モデルを対応付けて声紋登録データベースに記憶することと、を含む、
    声紋の作成・登録の方法。
  2. テキストに関する訓練方法を利用して、ユーザのために声紋モデルを確立することは、
    登録文字列をユーザに提供することと、
    ユーザが登録文字列を読んだ音声情報を受信することと、
    性別分類器と音声情報に基づいて、ユーザの性別タグを確定することと、
    性別タグと音声情報に基づいて、ユーザの声紋モデルを生成することと、を含む、
    請求項1に記載の声紋の作成・登録の方法。
  3. 声紋の作成・登録の方法であって、
    ユーザが送信した音声要求を取得することと、
    前記音声要求に基づいて、声紋認識方式を利用して、音声要求を送信したユーザIDを認識することと、
    ユーザIDが認識されない場合、声紋の作成・登録を提示することと、
    ユーザIDを生成することと、
    ユーザIDと声紋モデルを対応付けて声紋登録データベースに記憶することと、を含む、
    声紋の作成・登録の方法。
  4. ユーザが送信した音声要求を取得することは、
    クラウド側に前記音声要求を送信する必要があるかを判断し、「はい」であれば、前記音声要求に基づいて、声紋認識方式を利用して、音声要求を送信したユーザIDを認識すること、を更に含む、
    請求項3に記載の声紋の作成・登録の方法。
  5. ユーザが送信した音声要求を取得することは、
    前記音声要求についてユーザIDを認識する必要があるかを判断し、「はい」であれば、前記音声要求に基づいて、声紋認識方式を利用して、音声要求を送信したユーザIDを認識することと、を更に含む、請求項3又は4に記載の声紋の作成・登録の方法。
  6. 声紋の作成・登録を提示することは、
    ユーザIDが認識されない声紋モデルにID番号を付けることと、
    前記ID番号を付けた声紋モデルの出現頻度を判断することと、
    閾値より低いと、ID番号を削除することと、
    閾値より高いと、ユーザIDを生成することと、
    ユーザIDと声紋モデルを対応付けて声紋登録データベースに記憶することと、を含む、
    請求項3から5のいずれか1項に記載の声紋の作成・登録の方法。
  7. 声紋の作成・登録を提示することは、
    テキストに関する訓練方法を利用して、ユーザIDが認識されないユーザのために声紋モデルを確立することと、を含む、
    請求項3から6のいずれか1項に記載の声紋の作成・登録の方法。
  8. 前記テキストに関する訓練方法を利用して、ユーザIDが認識されないユーザのために声紋モデルを確立することは、
    登録文字列をユーザに提供することと、
    ユーザが登録文字列を読んだ音声情報を受信することと、
    性別分類器と音声情報に基づいて、ユーザの性別タグを確定することと、
    性別タグと音声情報に基づいて、ユーザの声紋モデルを生成することと、を含む、
    請求項7に記載の声紋の作成・登録の方法。
  9. 声紋の作成・登録の装置であって、
    機器が最初に使用されるとき、声紋の作成・登録を提示するための提示モジュールと、
    テキストに関する訓練方法を利用して、ユーザのために声紋モデルを確立するための声紋確立モジュールと
    ユーザIDを生成するための入力モジュールと、
    ユーザIDと声紋モデルを対応付けて声紋登録データベースに記憶するための登録モジュールと、を含む、
    声紋の作成・登録の装置。
  10. 前記声紋確立モジュールは、
    登録文字列をユーザに提供するための提供サブモジュールと、
    ユーザが登録文字列を読んだ音声情報を受信するための受信サブモジュールと、
    性別分類器と音声情報に基づいて、ユーザの性別タグを確定するための確定サブモジュールと、
    性別タグと音声情報に基づいて、ユーザの声紋モデルを生成するための生成サブモジュールと、を含む、
    請求項9に記載の声紋の作成・登録の装置。
  11. 声紋の作成・登録の装置であって、
    ユーザが送信した音声要求を取得するための取得モジュールと、
    前記音声要求に基づいて、声紋認識方式を利用して、音声要求を送信したユーザIDを認識するための声紋認識モジュールと、
    登録されていないユーザに声紋の作成・登録を提示するための提示モジュールと、
    ユーザIDを生成するための入力モジュールと、
    ユーザIDと声紋モデルを対応付けて声紋登録データベースに記憶するための登録モジュールと、を含む、
    声紋の作成・登録の装置。
  12. 前記取得モジュールは、
    クラウド側に前記音声要求を送信する必要があるかを判断し、「はい」であれば、前記音声要求に基づいて、声紋認識方式を利用して、音声要求を送信したユーザIDを認識するように構成された、
    請求項11に記載の声紋の作成・登録の装置。
  13. 前記提示モジュールは、
    前記音声要求についてユーザIDを認識する必要があるかを判断し、「はい」であれば、前記音声要求に基づいて、声紋認識方式を利用して、音声要求を送信したユーザIDを認識するように構成された、
    請求項11又は12に記載の声紋の作成・登録の装置。
  14. 前記提示モジュールは、
    ユーザIDが認識されない声紋モデルにID番号を付けることと、
    前記ID番号を付けた声紋モデルの出現頻度を判断することと、
    閾値より低いと、ID番号を削除することと、
    閾値より高いと、ユーザIDを生成することと、
    ユーザIDと声紋モデルを対応付けて声紋登録データベースに記憶することと、を実行するように構成された、
    請求項11から13のいずれか1項に記載の声紋の作成・登録の装置。
  15. 前記提示モジュールは、
    テキストに関する訓練方法を利用して、登録されていないユーザのために声紋モデルを確立するように構成された、
    請求項13に記載の声紋の作成・登録の装置。
  16. 前記提示モジュールは、
    登録文字列をユーザに提供するための提供サブモジュールと、
    ユーザが登録文字列を読んだ音声情報を受信するための受信サブモジュールと、
    性別分類器と音声情報に基づいて、ユーザの性別タグを確定するための確定サブモジュールと、
    性別タグと音声情報に基づいて、ユーザの声紋モデルを生成するための生成サブモジュールと、を含む、
    請求項15に記載の声紋の作成・登録の装置。
  17. 一つ又は複数のプロセッサと、
    一つ又は複数のプログラムを記憶するためのストレジと、を含む機器であって、
    前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサによって実行されるとき、前記一つ又は複数のプロセッサに請求項1から8のいずれか1項の方法を実現させる、
    機器。
  18. プログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
    前記プログラムがプロセッサによって実行されるとき、請求項1から8のいずれか1項の方法を実現する、
    記憶媒体。
JP2019530680A 2017-06-30 2017-11-30 声紋の作成・登録の方法及び装置 Pending JP2020503541A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710527022.7 2017-06-30
CN201710527022.7A CN107492379B (zh) 2017-06-30 2017-06-30 一种声纹创建与注册方法及装置
PCT/CN2017/113772 WO2019000832A1 (zh) 2017-06-30 2017-11-30 一种声纹创建与注册方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020179787A Division JP7062851B2 (ja) 2017-06-30 2020-10-27 声紋の作成・登録の方法及び装置

Publications (1)

Publication Number Publication Date
JP2020503541A true JP2020503541A (ja) 2020-01-30

Family

ID=60644303

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019530680A Pending JP2020503541A (ja) 2017-06-30 2017-11-30 声紋の作成・登録の方法及び装置
JP2020179787A Active JP7062851B2 (ja) 2017-06-30 2020-10-27 声紋の作成・登録の方法及び装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2020179787A Active JP7062851B2 (ja) 2017-06-30 2020-10-27 声紋の作成・登録の方法及び装置

Country Status (6)

Country Link
US (1) US11100934B2 (ja)
EP (1) EP3564950B1 (ja)
JP (2) JP2020503541A (ja)
KR (1) KR102351670B1 (ja)
CN (1) CN107492379B (ja)
WO (1) WO2019000832A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597525B (zh) * 2018-04-25 2019-05-03 四川远鉴科技有限公司 语音声纹建模方法及装置
CN109036436A (zh) * 2018-09-18 2018-12-18 广州势必可赢网络科技有限公司 一种声纹数据库建立方法、声纹识别方法、装置及***
CN109510844B (zh) * 2019-01-16 2022-02-25 中民乡邻投资控股有限公司 一种基于声纹的对话交流式的账号注册方法及装置
CN111798857A (zh) * 2019-04-08 2020-10-20 北京嘀嘀无限科技发展有限公司 一种信息识别方法、装置、电子设备及存储介质
CN109920435B (zh) * 2019-04-09 2021-04-06 厦门快商通信息咨询有限公司 一种声纹识别方法及声纹识别装置
CN112127090A (zh) * 2019-06-06 2020-12-25 青岛海尔洗衣机有限公司 用于衣物处理设备的控制方法
CN110459227A (zh) * 2019-08-29 2019-11-15 四川长虹电器股份有限公司 基于智能电视的声纹注册方法
CN110570873B (zh) * 2019-09-12 2022-08-05 Oppo广东移动通信有限公司 声纹唤醒方法、装置、计算机设备以及存储介质
CN111081258B (zh) * 2019-11-07 2022-12-06 厦门快商通科技股份有限公司 一种声纹模型管理方法、***、存储介质及装置
CN110992930A (zh) * 2019-12-06 2020-04-10 广州国音智能科技有限公司 声纹特征提取方法、装置、终端及可读存储介质
CN111368504A (zh) * 2019-12-25 2020-07-03 厦门快商通科技股份有限公司 语音数据标注方法、装置、电子设备及介质
CN111161746B (zh) * 2019-12-31 2022-04-15 思必驰科技股份有限公司 声纹注册方法及***
CN111210829A (zh) * 2020-02-19 2020-05-29 腾讯科技(深圳)有限公司 语音识别方法、装置、***、设备和计算机可读存储介质
CN111477234A (zh) * 2020-03-05 2020-07-31 厦门快商通科技股份有限公司 一种声纹数据注册方法和装置以及设备
CN111599367A (zh) * 2020-05-18 2020-08-28 珠海格力电器股份有限公司 一种智能家居设备的控制方法、装置、设备及介质
US11699447B2 (en) * 2020-06-22 2023-07-11 Rovi Guides, Inc. Systems and methods for determining traits based on voice analysis
CN111914803B (zh) * 2020-08-17 2023-06-13 华侨大学 一种唇语关键词检测方法、装置、设备及存储介质
CN112185362A (zh) * 2020-09-24 2021-01-05 苏州思必驰信息科技有限公司 针对用户个性化服务的语音处理方法及装置
CN112423063A (zh) * 2020-11-03 2021-02-26 深圳Tcl新技术有限公司 一种智能电视自动设置方法、装置及存储介质
CN112634909B (zh) * 2020-12-15 2022-03-15 北京百度网讯科技有限公司 声音信号处理的方法、装置、设备、计算机可读存储介质
CN113506577A (zh) * 2021-06-25 2021-10-15 贵州电网有限责任公司 一种基于增量采集电话录音完善声纹库的方法
CN113707154B (zh) * 2021-09-03 2023-11-10 上海瑾盛通信科技有限公司 模型训练方法、装置、电子设备和可读存储介质
CN114155845A (zh) * 2021-12-13 2022-03-08 中国农业银行股份有限公司 服务确定方法、装置、电子设备及存储介质
CN117221450A (zh) * 2023-09-25 2023-12-12 深圳我买家网络科技有限公司 Ai智慧客服***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5864548A (ja) * 1981-10-14 1983-04-16 Fujitsu Ltd 音声日本語処理システム
JP2002330100A (ja) * 2001-02-27 2002-11-15 Alpine Electronics Inc 携帯電話選択無線通信装置
JP2009109712A (ja) * 2007-10-30 2009-05-21 National Institute Of Information & Communication Technology オンライン話者逐次区別システム及びそのコンピュータプログラム
JP2009237774A (ja) * 2008-03-26 2009-10-15 Advanced Media Inc 認証サーバ、サービス提供サーバ、認証方法、通信端末、およびログイン方法
WO2015033523A1 (ja) * 2013-09-03 2015-03-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声対話制御方法
JP2015153258A (ja) * 2014-02-17 2015-08-24 パナソニックIpマネジメント株式会社 車両用個人認証システム及び車両用個人認証方法
CN105656887A (zh) * 2015-12-30 2016-06-08 百度在线网络技术(北京)有限公司 基于人工智能的声纹认证方法以及装置
WO2016123900A1 (zh) * 2015-02-05 2016-08-11 北京得意音通技术有限责任公司 基于动态密码语音的具有自学习功能的身份认证***及方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060222210A1 (en) 2005-03-31 2006-10-05 Hitachi, Ltd. System, method and computer program product for determining whether to accept a subject for enrollment
US20070219801A1 (en) 2006-03-14 2007-09-20 Prabha Sundaram System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user
US8442824B2 (en) * 2008-11-26 2013-05-14 Nuance Communications, Inc. Device, system, and method of liveness detection utilizing voice biometrics
JP5577737B2 (ja) 2010-02-18 2014-08-27 株式会社ニコン 情報処理システム
US20160372116A1 (en) * 2012-01-24 2016-12-22 Auraya Pty Ltd Voice authentication and speech recognition system and method
AU2013203139B2 (en) * 2012-01-24 2016-06-23 Auraya Pty Ltd Voice authentication and speech recognition system and method
US9691377B2 (en) * 2013-07-23 2017-06-27 Google Technology Holdings LLC Method and device for voice recognition training
US9548047B2 (en) * 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US20150302856A1 (en) 2014-04-17 2015-10-22 Qualcomm Incorporated Method and apparatus for performing function by speech input
JP6596376B2 (ja) * 2015-04-22 2019-10-23 パナソニック株式会社 話者識別方法及び話者識別装置
CN105185379B (zh) 2015-06-17 2017-08-18 百度在线网络技术(北京)有限公司 声纹认证方法和装置
CN104967622B (zh) 2015-06-30 2017-04-05 百度在线网络技术(北京)有限公司 基于声纹的通讯方法、装置和***
US20180358113A1 (en) * 2015-11-24 2018-12-13 Koninklijke Philips N.V. Two-factor authentication in a pulse oximetry system
CN105913850B (zh) * 2016-04-20 2019-05-28 上海交通大学 文本相关声纹密码验证方法
CN106057206B (zh) * 2016-06-01 2019-05-03 腾讯科技(深圳)有限公司 声纹模型训练方法、声纹识别方法及装置
CN106098068B (zh) 2016-06-12 2019-07-16 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN106782571A (zh) * 2017-01-19 2017-05-31 广东美的厨房电器制造有限公司 一种控制界面的显示方法和装置
CN106847292B (zh) * 2017-02-16 2018-06-19 平安科技(深圳)有限公司 声纹识别方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5864548A (ja) * 1981-10-14 1983-04-16 Fujitsu Ltd 音声日本語処理システム
JP2002330100A (ja) * 2001-02-27 2002-11-15 Alpine Electronics Inc 携帯電話選択無線通信装置
JP2009109712A (ja) * 2007-10-30 2009-05-21 National Institute Of Information & Communication Technology オンライン話者逐次区別システム及びそのコンピュータプログラム
JP2009237774A (ja) * 2008-03-26 2009-10-15 Advanced Media Inc 認証サーバ、サービス提供サーバ、認証方法、通信端末、およびログイン方法
WO2015033523A1 (ja) * 2013-09-03 2015-03-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声対話制御方法
JP2015153258A (ja) * 2014-02-17 2015-08-24 パナソニックIpマネジメント株式会社 車両用個人認証システム及び車両用個人認証方法
WO2016123900A1 (zh) * 2015-02-05 2016-08-11 北京得意音通技术有限责任公司 基于动态密码语音的具有自学习功能的身份认证***及方法
CN105656887A (zh) * 2015-12-30 2016-06-08 百度在线网络技术(北京)有限公司 基于人工智能的声纹认证方法以及装置

Also Published As

Publication number Publication date
CN107492379A (zh) 2017-12-19
JP7062851B2 (ja) 2022-05-09
KR102351670B1 (ko) 2022-01-13
CN107492379B (zh) 2021-09-21
EP3564950B1 (en) 2022-03-23
EP3564950A1 (en) 2019-11-06
KR20190077088A (ko) 2019-07-02
US20190362724A1 (en) 2019-11-28
EP3564950A4 (en) 2020-08-05
WO2019000832A1 (zh) 2019-01-03
JP2021021955A (ja) 2021-02-18
US11100934B2 (en) 2021-08-24

Similar Documents

Publication Publication Date Title
JP7062851B2 (ja) 声紋の作成・登録の方法及び装置
CN107481720B (zh) 一种显式声纹识别方法及装置
JP7029613B2 (ja) インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム
JP6862632B2 (ja) 音声インタラクション方法、装置、設備、コンピュータ記憶媒体及びコンピュータプログラム
US20180366107A1 (en) Method and device for training acoustic model, computer device and storage medium
JP2019527371A (ja) 声紋識別方法及び装置
CN108363556A (zh) 一种基于语音与增强现实环境交互的方法和***
WO2020019591A1 (zh) 用于生成信息的方法和装置
CN108986790A (zh) 语音识别联系人的方法和装置
CN108682414A (zh) 语音控制方法、语音***、设备和存储介质
CN109582825B (zh) 用于生成信息的方法和装置
US11580971B2 (en) Photo album management method, storage medium and electronic device
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN111462726B (zh) 一种外呼应答方法、装置、设备及介质
CN110704618A (zh) 确定对话数据对应的标准问题的方法及装置
JP2021081713A (ja) 音声信号を処理するための方法、装置、機器、および媒体
CN110647613A (zh) 一种课件构建方法、装置、服务器和存储介质
CN110991155A (zh) 文本修正方法、设备及介质
CN111556096B (zh) 信息推送方法、装置、介质及电子设备
CN115510457A (zh) 数据识别方法、装置、设备及计算机程序产品
JP6944920B2 (ja) スマートインタラクティブの処理方法、装置、設備及びコンピュータ記憶媒体
CN109036379A (zh) 语音识别方法、设备及存储介质
KR102684930B1 (ko) 인공지능을 통해 학습자 식별이 가능한 화상 학습 시스템 및 그 방법
US20220375484A1 (en) Acoustic data augmentation with mixed normalization factors
CN114360544A (zh) 语音识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190618

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190618

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200728

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210309

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210531