JP2020516935A - ユーザー登録方法、装置及び電子機器 - Google Patents

ユーザー登録方法、装置及び電子機器 Download PDF

Info

Publication number
JP2020516935A
JP2020516935A JP2019554957A JP2019554957A JP2020516935A JP 2020516935 A JP2020516935 A JP 2020516935A JP 2019554957 A JP2019554957 A JP 2019554957A JP 2019554957 A JP2019554957 A JP 2019554957A JP 2020516935 A JP2020516935 A JP 2020516935A
Authority
JP
Japan
Prior art keywords
voice
user
information
recognition
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019554957A
Other languages
English (en)
Other versions
JP6956349B2 (ja
Inventor
福祥 李
福祥 李
驍 李
驍 李
国光 李
国光 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orion Star Technology Co Ltd
Original Assignee
Beijing Orion Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orion Star Technology Co Ltd filed Critical Beijing Orion Star Technology Co Ltd
Publication of JP2020516935A publication Critical patent/JP2020516935A/ja
Application granted granted Critical
Publication of JP6956349B2 publication Critical patent/JP6956349B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1073Registration or de-registration
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Business, Economics & Management (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

本願の実施例はユーザー登録方法、装置及び電子機器を提供し、前記方法は、ユーザーのウェイクアップ音声を取得するたびに、前記ウェイクアップ音声に対応する第1の声紋特徴を抽出して保存することと、保存されている第1の声紋特徴をクラスタリングし、前記保存されている第1の声紋特徴を少なくとも1つのクラスに区分し、各クラスにおける第1の声紋特徴が同じユーザーに属することと、各クラスに1つのクラス識別子を割り当てることと、各クラス識別子と、それに対応する少なくとも1つの第1の声紋特徴と、を対応して記憶し、ユーザー登録を完成することと、を含む。本願は実施例でユーザーの操作を簡略化し、ユーザー体験を向上させることができる。【選択図】図1

Description

関連出願の相互参照
本願は、2017年4月10日に中国特許局に提出して出願番号が第201710229959.6で発明の名称が「ユーザー登録方法、装置及び電子機器」である中国特許出願に基づいて優先権を主張し、その全内容が援用により本願に取り込まれている。
技術分野
本願はスマート機器分野に関し、特にユーザー登録方法、装置及び電子機器に関する。
リアルな生活では、スマート機器は一般的にユーザー認識過程を有し、即ち、ユーザー認識機能を有する。ユーザー認識過程は指紋認識、音声認識又は顔認識等を含む。
ユーザーがスマート機器を使う前に、スマート機器において対応する指紋、音声又は顔の登録を予め行う必要があり、ユーザーが次回スマート機器を使うときに、スマート機器が対応するユーザーを認識できる。
従来、音声によるユーザー登録過程では、まず、ユーザーがスマート機器へウェイクアップ音声を連続で複数回出す必要があり、そして、スマート機器が各ウェイクアップ音声の声紋特徴を抽出して記録するとともに、ユーザーがスマート機器において該声紋特徴に対応するユーザー名を入力する必要がある。これで、登録を完成する。
ユーザーが次回ウェイクアップ音声を出した後、スマート機器がウェイクアップ音声の声紋特徴を抽出し、該声紋特徴が以前に記録したあるユーザー名に対応する声紋特徴に近い場合、該ウェイクアップ音声を出したユーザーを認識できる。
従来の音声による登録過程では、ユーザーはスマート機器へウェイクアップ音声を連続で複数回出す上、ユーザー名も入力する必要がある。登録が完了しないと、スマート機器がウェイクアップ音声を出したユーザーを認識できないため、ユーザー操作が複雑であり、ユーザー体験が悪い。
本願は、ユーザーの操作を簡略化でき、ユーザー体験を向上できるユーザー登録方法、装置及び電子機器を提供することを目的とする。
上記目的を実現するために、本願の実施例は電子機器に適用されるユーザー登録方法を提供し、前記方法は、
ユーザーのウェイクアップ音声を取得するたびに、前記ウェイクアップ音声に対応する第1の声紋特徴を抽出して保存することと、
保存されている第1の声紋特徴をクラスタリングし、前記保存されている第1の声紋特徴を少なくとも1つのクラスに区分し、各クラスにおける第1の声紋特徴が同じユーザーに属することと、
各クラスに1つのクラス識別子を割り当てることと、
各クラス識別子と、それに対応する少なくとも1つの第1の声紋特徴と、を対応して記憶し、ユーザー登録を完成することと、を含む。
好ましくは、保存されている第1の声紋特徴をクラスタリングし、前記保存されている第1の声紋特徴を少なくとも1つのクラスに区分する前記ステップは、
保存されている各第1の声紋特徴の間の類似度をクラスタリングアルゴリズムで計算することと、
類似度に基づいてすべての第1の声紋特徴を少なくとも1つのクラスに区分することと、を含む。
好ましくは、前記方法は、更に、
ユーザーのサービス命令音声を取得するたびに、前記サービス命令音声に対応する第2の声紋特徴を抽出して保存することと、
前記サービス命令音声に対応するサービスタイプを決定することと、
前記第2の声紋特徴を各前記クラスにおける各第1の声紋特徴とマッチングすることと、
マッチしている第1の声紋特徴のクラス識別子と、前記サービスタイプと、を対応して記憶することと、を含む。
好ましくは、前記サービス命令音声に対応するサービスタイプを決定する前記ステップは、
前記サービス命令音声を認識し、サービス命令音声認識情報を取得することと、
前記サービス命令音声認識情報に対して語意解析を行うことと、
語意解析結果に基づき、前記サービス命令音声に対応するサービスタイプを決定することと、を含む。
好ましくは、前記方法は、更に、
ウェイクアップ音声に対応する第1の声紋特徴を抽出した後、前記ウェイクアップ音声に対応する第1の声紋特徴を認識予定の声紋特徴として決定することと、
前記認識予定の声紋特徴を各クラスにおける第1の声紋特徴とマッチングすることと、
マッチしている第1の声紋特徴に対応するクラス識別子を目標クラス識別子として決定することと、
前記目標クラス識別子に対応してサービスタイプ記憶されているかどうかを判断することと、
肯定の場合、記憶されているサービスタイプに対応するサービス提示情報を出力することと、を含む。
好ましくは、前記方法は、更に、
認識された目標クラス識別子に基づき、第1のユーザー識別子を要求するリクエストを出力することと、
ユーザーがフィードバックした第1の音声情報を受信し、該第1の音声情報に対して音声認識を行って第1の音声認識情報を取得することと、
前記第1の音声認識情報を前記第1のユーザー識別子として決定することと、
前記第1のユーザー識別子と前記目標クラス識別子との対応関係を記録することと、を含む。
好ましくは、前記方法は、更に、
ユーザー登録命令を取得した後、ウェイクアップ音声サンプルを連続でN回に取得し、第2のユーザー識別子を要求するリクエストを出力し、Nが1より大きな整数であることと、
フィードバックした音声情報を受信し、該音声情報に対して音声認識を行って該音声に対応する音声認識情報を取得することと、
前記音声認識情報を前記第2のユーザー識別子として決定し、前記第2のユーザー識別子と、N個のウェイクアップ音声サンプルの声紋特徴と、をそれぞれに対応して記憶することと、を含む。
好ましくは、前記電子機器がスマート機器であり、前記方法は、更に、以下のようにユーザーのウェイクアップ音声を取得する、即ち、
音声情報をリアルタイムで検出し、
ユーザーが音声情報を入力したと検出した後、ミュートする時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報を目標認識予定音声情報として決定し、
前記目標認識予定音声情報に対して音声認識を行って、目標音声認識情報を取得し、
前記目標音声認識情報がプリセットのウェイクアップワードと同じである場合、前記認識予定音声情報をウェイクアップ音声として決定する。
好ましくは、前記電子機器がスマート機器と通信接続されるクラウドサーバーであり、
前記方法は、更に、以下のようにユーザーのウェイクアップ音声を取得する、即ち、
前記スマート機器から送信されたウェイクアップ音声を受信し、前記スマート機器から送信されたウェイクアップ音声は、前記スマート機器がユーザーが音声情報を入力したと検出した後、ミュートする時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報を目標認識予定音声情報として決定し、前記目標認識予定音声情報に対して音声認識を行って、目標音声認識情報を取得し、前記目標音声認識情報がプリセットのウェイクアップワードと同じである場合、前記認識予定音声情報をウェイクアップ音声として決定し、該ウェイクアップ音声を前記クラウドサーバーに送信するものである。
本願の実施例は更に電子機器に適用されるユーザー登録装置を提供し、前記装置は、
ユーザーのウェイクアップ音声を取得するたびに、前記ウェイクアップ音声に対応する第1の声紋特徴を抽出して保存するための第1の抽出モジュールと、
保存されている第1の声紋特徴をクラスタリングし、前記保存されている第1の声紋特徴を少なくとも1つのクラスに区分するためのクラスタリングモジュールであって、各クラスにおける第1の声紋特徴が同じユーザーに属するクラスタリングモジュールと、
各クラスに1つのクラス識別子を割り当てるための割り当てモジュールと、
各クラス識別子と、それに対応する少なくとも1つの第1の声紋特徴と、を対応して記憶してユーザー登録を完成するための第1の記憶モジュールと、を備える。
好ましくは、前記クラスタリングモジュールは、
保存されている各第1の声紋特徴の間の類似度をクラスタリングアルゴリズムで計算するための計算ユニットと、
類似度に基づいてすべての第1の声紋特徴を少なくとも1つのクラスに区分するための区分ユニットと、を備える。
好ましくは、前記装置は、更に、
ユーザーのサービス命令音声を取得するたびに、前記サービス命令音声に対応する第2の声紋特徴を抽出して保存するための第2の抽出モジュールと、
前記サービス命令音声に対応するサービスタイプを決定するための第1の決定モジュールと、
前記第2の声紋特徴を各前記クラスにおける各第1の声紋特徴とマッチングするための第1のマッチングモジュールと、
マッチしている第1の声紋特徴のクラス識別子と、前記サービスタイプと、を対応して記憶するための第2の記憶モジュールと、を備える。
好ましくは、前記第1の決定モジュールは、
前記サービス命令音声を認識し、サービス命令音声認識情報を取得するための第1の認識ユニットと、
前記サービス命令音声認識情報に対して語意解析を行うための解析ユニットと、
語意解析結果に基づき、前記サービス命令音声に対応するサービスタイプを決定するための第1の決定ユニットと、を備える。
好ましくは、前記装置は、更に、
ウェイクアップ音声に対応する第1の声紋特徴を抽出した後、前記ウェイクアップ音声に対応する第1の声紋特徴を認識予定の声紋特徴として決定するための第2の決定モジュールと、
前記認識予定の声紋特徴を各クラスにおける第1の声紋特徴とマッチングするための第2のマッチングモジュールと、
マッチしている第1の声紋特徴に対応するクラス識別子を目標クラス識別子として決定するための第3の決定モジュールと、
前記目標クラス識別子に対応してサービスタイプ記憶されているかどうかを判断するための判断モジュールと、
前記判断モジュールの判断結果が肯定である場合、記憶されているサービスタイプに対応するサービス提示情報を出力するための第1の出力モジュールと、を備える。
好ましくは、前記装置は、更に、
認識された目標クラス識別子に基づき、第1のユーザー識別子を要求するリクエストを出力するための第2の出力モジュールと、
ユーザーが前記第1のユーザー識別子を要求するリクエストに対してフィードバックした第1の音声情報を受信し、該第1の音声情報に対して音声認識を行って第1の音声認識情報を取得するための第1の認識モジュールと、
前記第1の音声認識情報を前記第1のユーザー識別子として決定するための第4の決定モジュールと、
前記第1のユーザー識別子と前記目標クラス識別子との対応関係を記録するための記録モジュールと、を備える。
好ましくは、前記装置は、更に、
ユーザー登録命令を取得した後、ウェイクアップ音声サンプルを連続でN回に取得し、第2のユーザー識別子を要求するリクエストを出力するための第2の出力モジュールであって、Nが1より大きな整数である第2の出力モジュールと、
ユーザーが前記第2のユーザー識別子を要求するリクエストに対してフィードバックした音声情報を受信し、該音声情報に対して音声認識を行って該音声に対応する音声認識情報を取得するための第2の認識モジュールと、
前記音声認識情報を前記第2のユーザー識別子として決定し、前記第2のユーザー識別子と、N個のウェイクアップ音声サンプルの声紋特徴と、をそれぞれに対応して記憶するための第3の記憶モジュールと、を備える。
好ましくは、前記電子機器がスマート機器であり、前記装置は、更に、
ユーザーのウェイクアップ音声を取得するための第1の取得モジュールを備え、
前記第1の取得モジュールは、
音声情報をリアルタイムで検出するための検出ユニットと、
ユーザーが音声情報を入力したと検出した後、ミュートする時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報を目標認識予定音声情報として決定するための第2の決定ユニットと、
前記目標認識予定音声情報に対して音声認識を行って、目標音声認識情報を取得するための第2の認識ユニットと、
前記目標音声認識情報がプリセットのウェイクアップワードと同じである場合、前記認識予定音声情報をウェイクアップ音声として決定するための第3の決定ユニットと、を備える。
好ましくは、前記電子機器がスマート機器と通信接続されるクラウドサーバーであり、
前記装置は、更に、
ユーザーのウェイクアップ音声を取得するための第1の取得モジュールを備え、
前記第1の取得モジュールは、具体的に、前記スマート機器から送信されたウェイクアップ音声を受信するためのものであり、前記スマート機器から送信されたウェイクアップ音声は、前記スマート機器がユーザーが音声情報を入力したと検出した後、ミュートする時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報を認識予定音声情報として決定し、前記認識予定音声情報に対して音声認識を行って、目標音声認識情報を取得し、前記目標音声認識情報がプリセットしたウェイクアップワードと同じである場合、前記認識予定音声情報をウェイクアップ音声として決定し、該ウェイクアップ音声を前記クラウドサーバーに送信するものである。
本願の実施例は、更に、ハウジング、プロセッサ、メモリ、回路基板及び電源回路を備える電子機器を提供し、回路基板がハウジングで囲んでなる空間内部に設置され、プロセッサ及びメモリが回路基板に設置され、電源回路が電子機器の各回路又は素子に給電することに用いられ、メモリが実行可能なプログラムコードを記憶することに用いられ、プロセッサが前記ユーザー登録方法を実行するように、メモリに記憶される実行可能なプログラムコードを読み取って実行可能なプログラムコードに対応するプログラムを実行する。
本願の実施例は、更に、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体にコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサにより実行されるとき、前記ユーザー登録方法を実現する。
本願の実施例は更にアプリケーションプログラムを提供し、前記アプリケーションプログラムは実行される時に前記ユーザー登録方法を実行することに用いられる。
本願の実施例に係るユーザー登録方法、装置及び電子機器において、ウェイクアップ音声を受信するたびに、声紋特徴を抽出して保存し、保存されている声紋特徴をクラスタリングし、声紋特徴を少なくとも1つのクラスに区分し、各クラスにおける声紋特徴が同じユーザーに属し、各クラスに1つのクラス識別子を割り当て、各クラス識別子と、それに対応する少なくとも1つの声紋特徴と、を対応して記憶し、ユーザー登録を完成する。本願の実施例は、ユーザーが声紋特徴認識装置へウェイクアップ音声を連続で複数回出すとともにユーザー名を入力する必要があり、登録を完了しなければ声紋特徴認識装置が音声を出したユーザーを認識できないような従来技術と違って、ユーザーの操作を簡略化し、ユーザー体験を向上させることができる。
本願の実施例又は従来技術の技術案をより明確に説明するために、以下に実施例又は従来技術の記述に必要な図面を簡単に説明するが、勿論、以下に記載する図面は単に本願の実施例の一例であり、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面に想到しうる。
図1は本願の実施例に係るユーザー登録方法のフローチャートである。 図2は本願の実施例に係るサービス命令音声に基づいてユーザーへサービス提示情報を送信するフローチャートである。 図3は本願の実施例に係るユーザー登録装置の第1の構造模式図である。 図4は本願の実施例に係るユーザー登録装置の第2の構造模式図である。 図5は本願の実施例に係る電子機器の構造模式図である。
以下、本願の実施例の図面を参照しながら、本願の実施例の技術案を明確且つ完全に説明する。無論、説明される実施例は本願の実施例の一部であり、実施例のすべてではない。本願の実施例に基づき、当業者が進歩性のある労働を必要とせずに得られる他の実施例は、いずれも本願の保護範囲に属する。
上記目的を実現するために、本願の実施例はユーザー登録方法を提供し、該方法は電子機器に適用されてもよく、該電子機器はスマート機器であってもよく、スマート機器と通信接続されるクラウドサーバーであってもよい。本願の実施例において、スマート機器はスマートフォン、スマートスピーカー、知能ロボット又はスマートタブレットPC等の音声認識機能を有する機器であってもよい。
図1は本願の実施例に係るユーザー登録方法のフローチャートであり、前記方法は以下を含む。
S110で、ユーザーのウェイクアップ音声を取得するたびに、前記ウェイクアップ音声に対応する第1の声紋特徴を抽出して保存する。
本実施例において、電子機器の適用シーンをホーム環境とする。つまり、ホームに少なくとも1つのユーザーがいる。これらのユーザーが電子機器を長期間使うので、いずれのユーザーが電子機器をウェイクアップするたびに、電子機器がいずれもウェイクアップ音声を取得するとともに、電子機器がウェイクアップ音声に対応する第1の声紋特徴を抽出して保存する。そのうち、声紋特徴の抽出方法が従来技術である。
本願の実施例に係る具体的な実現形態では、前記電子機器がスマート機器であり、
スマート機器は、以下のようにユーザーのウェイクアップ音声を取得する、即ち、
音声情報をリアルタイムで検出し、ユーザーが音声情報を入力したと検出した後、ミュートする時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報を認識予定音声情報として決定し、前記認識予定音声情報に対して音声認識を行って目標音声認識情報を取得し、前記目標音声認識情報がプリセットのウェイクアップワードと同じである場合、前記認識予定音声情報をウェイクアップ音声として決定する。
具体的に、動作状態にあるスマート機器が周りの音声情報をリアルタイムで検出する。初期に周りの音声の音量が小さいとし、この時はミュート状態にある。音声の音量があるプリセット値より大きいと突然検出すると、音声情報を入力するユーザーが現在いると確定できる。この時、音声段階に入り、スマート機器が音声段階の音声情報を収集する。音声段階で一定の時間を経てから音声の音量がプリセット値より小さくなると、再びミュート段階に入る。ミュート段階の時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報すなわちスマート機器に収集された音声情報を目標認識予定音声情報として決定する。本実施例において、プリセット音声休止時間の長さを自由に設定することができ、プリセット音声休止時間の長さが500ミリ秒であることが好ましい。
その後、スマート機器は前記目標認識予定音声情報に対して音声認識を行って目標音声認識情報を取得し、そして目標音声認識情報をプリセットのウェイクアップワードとマッチングし、前記目標音声認識情報がプリセットのウェイクアップワードにマッチしている場合、例えば、目標音声認識情報がプリセットのウェイクアップワードと同じである場合、認識予定音声情報をウェイクアップ音声として決定することができる。
本願の実施例の他の具体的な実現形態では、電子機器はスマート機器と通信接続されるクラウドサーバーである場合、以下のようにユーザーのウェイクアップ音声を取得する、即ち、
前記スマート機器から送信されたウェイクアップ音声を受信し、該ウェイクアップ音声を前記クラウドサーバーに送信する。前記スマート機器から送信されたウェイクアップ音声は、前記スマート機器がユーザーが音声情報を入力したと検出した後、ミュートする時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報を目標認識予定音声情報として決定し、前記目標認識予定音声情報に対して音声認識を行って、目標音声認識情報を取得し、前記目標音声認識情報がプリセットのウェイクアップワードと同じである場合、前記認識予定音声情報をウェイクアップ音声として決定する。
具体的に、スマート機器が周りの音声情報をリアルタイムで検出する。初期に周りの音声の音量が小さいとし、この時はミュート状態にある。音声の音量があるプリセット値より大きいと突然検出すると、音声情報を入力するユーザーが現在いると確定できる。この時、音声段階に入り、スマート機器が音声段階の音声情報を収集する。音声段階で一定の時間を経てから音声の音量がプリセット値より小さくなると、再びミュート段階に入る。ミュート段階の時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報すなわちスマート機器の収集した音声情報を目標認識予定音声情報として決定する。その後、スマート機器は前記目標認識予定音声情報に対して音声認識を行って、目標音声認識情報を取得し、そして目標音声認識情報をプリセットのウェイクアップワードとマッチングし、前記目標音声認識情報がプリセットのウェイクアップワードにマッチしている場合、例えば、目標音声認識情報がプリセットのウェイクアップワードと同じである場合、認識予定音声情報をウェイクアップ音声として決定し、ウェイクアップ音声をクラウドサーバーに送信し、クラウドサーバーがユーザーのウェイクアップ音声を取得する。
S120で、保存されている第1の声紋特徴をクラスタリングし、前記保存されている第1の声紋特徴を少なくとも1つのクラスに区分し、各クラスにおける第1の声紋特徴が同じユーザーに属する。
本願の実施例の具体的な実現形態では、ステップS120は以下を含む。
A1、保存されている各第1の声紋特徴の間の類似度をクラスタリングアルゴリズムで計算する。
具体的に、クラスタリングアルゴリズムでマッチングする予定の各属性情報の類似重みを予め設定する。属性情報は音波スペクトルの振動周波数、振動周期及び振幅等を含んでもよく、保存されているいずれか2つの第1の声紋特徴の間のマッチング過程において、ある属性情報の類似重みが大きければ大きいほど、この2つの保存されている第1の声紋特徴の該属性情報が類似していることが示される。最後にすべての属性情報の類似重みを重ね合わせて類似度を取得する。該類似度はこの2つの保存されている第1の声紋特徴の各属性情報の類似重みの総合効果を示し、類似度が高ければ高いほど、この2つの保存されている第1の声紋特徴が同じクラスに属する可能性が高いと示される。
A2、類似度に基づいてすべての第1の声紋特徴を少なくとも1つのクラスに区分する。
具体的に、1つの類似度閾値を予め設定することができる。各保存されている第1の声紋特徴の間の類似度を計算した後、類似度が該類似度閾値より高い2つの保存されている第1の声紋特徴は同じクラスとし、類似度が該類似度閾値より低い2つの保存されている第1の声紋特徴は異なるクラスとする。このように、すべての保存されている第1の声紋特徴を少なくとも1つのクラスに区分することができる。好ましくは、実際の状況に応じて類似度閾値を自由に設定する。
本実施例において、異なるユーザーの出したウェイクアップ音声の第1の声紋特徴が異なるため、保存されている各第1の声紋特徴の間の類似度をクラスタリングアルゴリズムで計算して、すべての保存されている第1の声紋特徴を区分することにより、保存されている第1の声紋特徴を少なくとも1つのクラスに区分することができ、各クラスにおける第1の声紋特徴が同じユーザーに属する。
S130で、各クラスに1つのクラス識別子を割り当てる。
S140で、各クラス識別子と、それに対応する少なくとも1つの第1の声紋特徴と、を対応して記憶し、ユーザー登録を完成する。
具体的に、電子機器は各種類の第1の声紋特徴を取得した後、各クラスに1つのクラス識別子を割り当てる。つまり、各クラスにおける少なくとも1つの第1の声紋特徴を該クラスのクラス識別子に関連付け、そして各クラス識別子と、それに対応する少なくとも1つの第1の声紋特徴と、を対応して記憶することによって、1つのユーザーの第1の声紋特徴を1つのクラス識別子に対応する。
例えば、電子機器はユーザーYaの第1の声紋特徴a1、第1の声紋特徴a2及び第1の声紋特徴a3、ユーザーYbの第1の声紋特徴b1、第1の声紋特徴b2及びユーザーYcの第1の声紋特徴c1を取得し、クラスタリングアルゴリズムで3種類の第1の声紋特徴を取得し、各クラスに割り当てたクラス識別子がそれぞれA、B、Cであり、そしてクラス識別子Aと、第1の声紋特徴a1、第1の声紋特徴a2及び第1の声紋特徴a3と、を対応して記憶し、クラス識別子Bと、第1の声紋特徴b1、第1の声紋特徴b2と、を対応して記憶し、クラス識別子Cと、第1の声紋特徴c1と、を対応して記憶する。このように、ユーザーYa、ユーザーYb及びユーザーYcがそれぞれにクラス識別子A、B、Cに対応する。
本実施例において、1つのユーザーの第1の声紋特徴を1つのクラス識別子に対応し、つまり、1つのユーザーを1つのクラス識別子に対応することができるため、ユーザーの暗証登録を実現することができる。
本願の実施例に係るユーザー登録方法において、ユーザーのウェイクアップ音声を取得するたびに、ウェイクアップ音声に対応する第1の声紋特徴を抽出して保存し、保存されている第1の声紋特徴をクラスタリングし、前記保存されている第1の声紋特徴を少なくとも1つのクラスに区分し、各クラスにおける第1の声紋特徴が同じユーザーに属し、各クラスに1つのクラス識別子を割り当て、各クラス識別子と、それに対応する少なくとも1つの声紋特徴と、を対応して記憶してユーザー登録を完成する。本願の実施例は、従来技術のように、ユーザーが声紋特徴認識装置へウェイクアップ音声を連続で複数回出すとともにユーザー名を入力し、登録を完了しなければ声紋特徴認識装置が音声を出したユーザーを認識できないと異なるので、本願の実施例はユーザーの操作を簡略化し、ユーザー体験を向上させることができる。
好ましくは、電子機器は、更に、取得されたサービス命令音声に基づき、ユーザーへサービス提示情報を送信することができる。図2は本願の実施例に係るサービス命令音声に基づいてユーザーへサービス提示情報を送信するフローチャートであり、該ステップは以下を含む。
S210で、ユーザーのサービス命令音声を取得するたびに、前記サービス命令音声に対応する第2の声紋特徴を抽出して保存する。
本実施例において、サービス命令音声はユーザーが出してサービス要求付きの命令音声である。例えば、サービス命令音声は「周杰倫の東風破を聞きたい」「天気はどうですか」「笑い話をしてください」等であってもよい。
具体的に、ユーザーが電子機器を長期間使い、いずれかのユーザーが電子機器へサービス命令音声を出すたびに、電子機器が該サービス命令音声を取得するとともに、電子機器がサービス命令音声に対応する第2の声紋特徴を抽出して保存する。
S220で、前記サービス命令音声に対応するサービスタイプを決定する。
本願の実施例の具体的な実現形態では、ステップS220は以下のステップを含んでもよい。
A1、前記サービス命令音声を認識し、サービス命令音声認識情報を取得する。
具体的に、電子機器が受信されたサービス命令音声に対して音声認識を行って、サービス命令音声認識情報を取得する。本実施例において、具体的な音声認識過程が従来技術であり、ここで詳細な説明は省略する。
A2、前記サービス命令音声認識情報に対して語意解析を行う。
具体的に、電子機器が取得されたサービス命令音声認識情報に対して語意解析を行って、解析結果を取得する。本実施例において、該語意解析過程が従来の分詞、死語をフィルタリングする等の処理過程とすることができ、ここで詳細な説明は省略する。
A3、語意解析結果に基づき、前記サービス命令音声に対応するサービスタイプを決定する。
具体的に、電子機器は語意解析結果を予め設定された複数のサービス命令語句モデルにそれぞれにマッチングし、語意解析結果に含まれるサービスのサービスタイプを取得することができる。例えば、予め設定されたサービス命令語句モデルは「曲名+聞きたい」、「天気」、「物語を語る」等であってもよい。
例えば、語意解析結果は「忘情水+聞きたい」であり、該語意解析結果が所定のサービス命令語句モデル「曲名+聞きたい」にマッチしている場合、該サービス命令音声に含まれるサービスである「忘情水」に対応するサービスタイプが歌であると決定できる。
更に、例えば、語意解析結果が「天気」であり、該語意解析結果が所定のサービス命令語句モデル「天気」にマッチしている場合、該サービス命令音声に含まれるサービスである「天気」に対応するサービスタイプが天気予報であると決定できる。
S230で、前記第2の声紋特徴を前記各クラスにおける各第1の声紋特徴とマッチングする。
具体的に、電子機器が第2の声紋特徴を取得した後、該第2の声紋特徴を各クラスにおける各第1の声紋特徴とそれぞれにマッチングする。本実施例において、具体的なマッチング過程は、第2の声紋特徴と各第1の声紋特徴との間の類似度を計算し、類似度が類似度閾値に達した後、それらがマッチしていると判断する。具体的な過程はステップS120に記載の過程を参照してもよい。
S240で、マッチしている第1の声紋特徴のクラス識別子と、前記サービスタイプと、を対応して記憶する。
具体的に、第2の声紋特徴とある第1の声紋特徴とがマッチしていることによって、該第2の声紋特徴に対応するサービス命令音声を出したユーザーが第1の声紋特徴に対応するウェイクアップ音声を出したユーザーであることが分かる。この時、電子機器がマッチしている第1の声紋特徴のクラス識別子と、サービスタイプと、を対応して記憶する。ただし、同じユーザーは複数のサービスタイプ、例えば歌、ビデオ又は漫才等を要求する可能性があるので、マッチしている第1の声紋特徴のクラス識別子と、複数のサービスタイプと、を対応して記憶してもよい。
例えば、第2の声紋特徴と第1の声紋特徴b2とがマッチしており、第1の声紋特徴b2に対応するウェイクアップ音声を出したユーザーがBである場合、該第2の声紋特徴に対応するサービス命令音声を出したユーザーがユーザーYbであり、第2の声紋特徴に対応するサービスタイプが「歌」であり、第1の声紋特徴b2に対応するクラス識別子がBである。このように、電子機器は第1の声紋特徴のクラス識別子Bと、サービスタイプ「歌」と、を対応して記憶することができる。
本実施例において、サービス命令音声の声紋特徴をウェイクアップ音声の声紋特徴とマッチングすることにより、クラス識別子とサービスタイプとの対応関係を決定し、更にユーザーとサービスタイプとの対応関係を取得することができる。
ただし、ステップS210〜S220の過程は、ユーザーのサービス命令音声を取得するたびに、1回実行することであってもよく、ユーザーのサービス命令音声を取得するたびに、それを保存するとともにユーザーのサービス命令音声を取得した回数を記録し、記録された回数が予め設定された回数に達した後、これらのサービス命令音声に基づいて上記ステップS210〜S220を実行することであってもよい。
S25ウェイクアップ音声に対応する第1の声紋特徴を抽出した後、前記ウェイクアップ音声に対応する第1の声紋特徴を認識予定の声紋特徴として決定する。
具体的に、ユーザーが電子機器を使うために再びウェイクアップ音声を出すとき、電子機器が該ウェイクアップ音声に対応する第1の声紋特徴を抽出して、それを認識予定の声紋特徴とする。
S260で、前記認識予定の声紋特徴を各クラスにおける第1の声紋特徴とマッチングする。
具体的に、電子機器が認識予定の声紋特徴を取得した後、該認識予定の声紋特徴を各クラスにおける各第1の声紋特徴とそれぞれにマッチングする。本実施例において、具体的なマッチング過程は、認識予定の声紋特徴と各第1の声紋特徴との類似度を計算し、類似度が類似度閾値に達した後、それらがマッチしていると判断する。具体的な過程はステップS120に記載の過程を参照してもよい。
S270で、マッチしている第1の声紋特徴に対応するクラス識別子を目標クラス識別子として決定する。
S280で、前記目標クラス識別子に対応してサービスタイプ記憶されているかどうかを判断し、肯定の場合、ステップS290を実行し、否定の場合、サービス提示情報の過程がフェールしたと出力する。
具体的に、電子機器はマッチしている第1の声紋特徴に対応するクラス識別子を決定し、該クラス識別子を目標クラス識別子として決定し、該目標クラス識別子に対応してサービスタイプ記憶されているかどうかを判断する。
S290で、記憶されているサービスタイプに対応するサービス提示情報を出力する。
具体的に、目標クラス識別子に対応してサービスタイプ記憶されている場合、電子機器が該サービスタイプを決定し、該サービスタイプに対応するサービス提示情報を出力する。目標クラス識別子に対応してサービスタイプ記憶されていない場合、サービス提示情報のプロセスがフェールしたと出力し、この時、電子機器はユーザーにサービス提示情報のプロセスがフェールしたことを提示するようにフェール提示情報を出力し、例えば、電子機器は音声情報「対応するサービスが検索されていない」「もう一度言ってください」等を出力することができる。サービス提示情報は「歌を聴きたいですか」又は「漫才を聞きたいですか」等であってもよい。
例えば、目標クラス識別子がBであり、それにサービスタイプ「歌」が対応して記憶されていると仮定する場合、電子機器はサービス提示情報「歌を聴きたいですか」を出力することができる。更に、例えば、目標クラス識別子に対応してサービスタイプ記憶されていない場合、電子機器はフェール提示情報「もう一度言ってください」を出力することができる。
本実施例において、ユーザーの出したサービス命令音声を取得してユーザーへサービス提示情報を送信することにより、ユーザー体験を向上させて、電子機器をよりスマートにする。
好ましくは、電子機器は更にサービス提示情報を出力することにより、ユーザーによく要求するサービスタイプのサービスをプッシュすることができる。
具体的に、各クラス識別子に対しては、それらが所定時間内、例えば一週間又は一ヶ月等内に使ったサービスのサービスタイプを記録し、使用回数の最も多いサービスのサービスタイプを、ウェイクアップされるたびにプッシュするサービスタイプとして決定し、対応するサービス提示情報を出力することができる。
例えば、ユーザーが一日中サービスタイプが歌であるサービスを10回使ったが、サービスタイプが漫才であるサービスを1回のみ使ったため、ウェイクアップされるたびにプッシュするサービスが歌であると決定でき、対応するサービス提示情報、例えば「氷雨を聞きたいですか」を出力する。
実際には、ユーザーの使用回数の最も多いサービスタイプのサービスがユーザーの使用習慣である。本実施例において、電子機器はユーザーの使用習慣に基づいてユーザーに該サービスタイプに対応するサービスをプッシュすることができ、これにより、ユーザー体験を更に向上させる。
以上により、本実施例において、ユーザーがサービスを要求するとの習慣を取得することにより、ユーザーに対応するサービスを提供し、ユーザー体験を向上させて、電子機器をよりスマートにする。
好ましくは、電子機器はユーザーの出したウェイクアップ音声に基づいて該ウェイクアップ音声の声紋特徴のクラス識別子を決定することができる。そして、そのクラス識別子に基づいて該第1のウェイクアップ音声を出したユーザーを更に取得し、システム全体をよりスマートにするために、前記方法は更に以下を含む。
B1、認識された目標クラス識別子に基づき、第1のユーザー識別子を要求するリクエストを出力する。
本実施例において、第1のユーザー識別子はユーザーの名称例えば小明やユーザーのコード例えば001など、又はユーザーの呼び方例えばパパやママ等であってもよい。
具体的に、電子機器は目標クラス識別子を認識した後、第1のユーザー識別子を要求するリクエストを出力することができ、該リクエストを音声情報によって出力することができ、例えば、該リクエストは「お名前は教えてもらえませんか」であってもよい。
好ましくは、電子機器は所定の数量で同じクラス識別子の第1の声紋特徴を取得した後、第1のユーザー識別子を要求するリクエストを出力することができる。例えば、電子機器は同じクラス識別子の第1の声紋特徴を20回受信した後、「私たちがここまでよく知り合っていたのですが、まだお名前は知っていませんね」とのリクエストを送信することができる。
B2、ユーザーが前記第1のユーザー識別子を要求するリクエストに対してフィードバックした第1の音声情報を受信し、該第1の音声情報に対して音声認識を行って第1の音声認識情報を取得する。
具体的に、ユーザーが電子機器の出力した第1のユーザーマークを要求するリクエストを聞いた後、第1のユーザー識別子を含む第1の音声情報、例えば第1のユーザーの名称を言い出し、電子機器は該第1の音声情報を受信してそれに対して音声認識を行って対応する第1の音声認識情報を取得する。
B3、前記第1の音声認識情報を前記第1のユーザー識別子として決定する。
B4、前記第1のユーザー識別子と前記目標クラス識別子との対応関係を記録する。
具体的に、電子機器が認識された第1の音声認識情報を第1のユーザー識別子として決定し、前記第1のユーザー識別子と前記目標クラス識別子との対応関係を記録する。
このように、電子機器が第1のユーザー識別子と目標クラス識別子との対応関係を確立する。目標クラス識別子が第1の声紋特徴に対応しているので、電子機器が第1のユーザー識別子と第1の声紋特徴との対応関係を確立し、更に、電子機器は再び該ユーザーのウェイクアップ音声を受信した後、そのウェイクアップ音声の第1の声紋特徴に基づき、該ユーザーの第1のユーザー識別子を決定することができる。
本実施例において、電子機器は再びユーザーのウェイクアップ音声を受信した後、該音声に対応している第1のユーザー識別子を取得して、第1のユーザー識別子付きの音声情報を出力することができる。例えば、第1のユーザー識別子が「小明」である場合、電子機器は音声情報「小明さん、こんにちは」を出力することにより、電子機器全体をよりスマートにし、ユーザー体験を向上させる。
好ましくは、異なるユーザーの使用習慣に適応するために、本願の実施例は更に他のユーザー登録プロセスを提供し、具体的に以下を含む。
C1、ユーザー登録命令を取得した後、ウェイクアップ音声サンプルを連続でN回に取得し、第2のユーザー識別子を要求するリクエストを出力し、Nが1より大きな整数である。
本実施例において、ユーザー登録命令は電子機器に予め設定されてユーザー登録プロセスを開始するための命令である。ユーザーがユーザー登録命令付きの音声を出した後、電子機器はユーザー登録の動作状態に入る。例えば、ユーザー登録命令は「登録する」「登録したい」「登録」等であってもよい。
第2のユーザー識別子はユーザーの名称例えば小明やユーザーのコード例えば001など、又はユーザーの呼び方例えばパパ、ママ等であってもよい。Nは3、4又は5等の1より大きな整数であってもよい。
具体的に、ユーザー登録命令を取得した後、ユーザーが電子機器へウェイクアップ音声を連続でN回に出し、電子機器が受信されたN回のウェイクアップ音声をN個のウェイクアップ音声サンプルとして、ユーザーへ第2のユーザー識別子を要求するリクエストを送信する。
C2、ユーザーが前記第2のユーザー識別子を要求するリクエストに対してフィードバックした音声情報を受信し、該音声情報に対して音声認識を行って該音声に対応する音声認識情報を取得する。
具体的に、ユーザーが電子機器の出力した第2のユーザー識別子を要求するリクエストを聞いた後、第2のユーザー識別子を含む音声情報、例えばユーザーの名称を言い出す。電子機器が該音声情報を受信してそれに対して音声認識を行って、対応する音声認識情報を取得する。
C3、前記音声認識情報を前記第2のユーザー識別子として決定し、前記第2のユーザー識別子と、N個のウェイクアップ音声サンプルの声紋特徴と、をそれぞれに対応して記憶する。
具体的に、電子機器が音声認識情報を第2のユーザー識別子として決定し、第2のユーザー識別子と、N個のウェイクアップ音声サンプルの声紋特徴と、をそれぞれに対応して記憶してユーザー登録を完成する。電子機器は再びユーザーの出したウェイクアップ音声を取得した後、該ウェイクアップ音声の声紋特徴を抽出して、該声紋特徴を各ウェイクアップ音声サンプルの声紋特徴とマッチングし、マッチしている声紋特徴に対応する第2のユーザー識別子に基づいて該ウェイクアップ音声を出したユーザーを識別することができる。
つまり、本実施例において、図1に示されるプロセスを用いてユーザーの暗証登録を行うことができるだけでなく、上記C1〜C3のステップを用いて従来の登録を行うこともできる。従って、本実施例は異なるユーザーの使用習慣に適応することができ、ユーザー体験を更に向上させ、電子機器のスマート性を向上させる。
本願は方法実施例に対応して実施例で更に電子機器に適用されるユーザー登録装置を提供する。図3は本願の実施例に係るユーザー登録装置の第1の構造模式図であり、前記装置は、
ユーザーのウェイクアップ音声を取得するたびに、前記ウェイクアップ音声に対応する第1の声紋特徴を抽出して保存するための第1の抽出モジュール310と、
保存されている第1の声紋特徴をクラスタリングし、前記保存されている第1の声紋特徴を少なくとも1つのクラスに区分するためのクラスタリングモジュールであって、各クラスにおける第1の声紋特徴が同じユーザーに属するクラスタリングモジュール320と、
各クラスに1つのクラス識別子を割り当てるための割り当てモジュール330と、
各クラス識別子と、それに対応する少なくとも1つの第1の声紋特徴と、を対応して記憶してユーザー登録を完成するための第1の記憶モジュール340と、を備える。
本願の実施例に係るユーザー登録装置は、ユーザーのウェイクアップ音声を受信するたびに、ウェイクアップ音声に対応する第1の声紋特徴を抽出して保存し、保存されている第1の声紋特徴をクラスタリングし、前記保存されている第1の声紋特徴を少なくとも1つのクラスに区分し、各クラスにおける第1の声紋特徴が同じユーザーに属し、各クラスに1つのクラス識別子を割り当て、各クラス識別子と、それに対応する少なくとも1つの声紋特徴と、に対応して記憶してユーザー登録を完成する。本願の実施例は、従来技術のように、ユーザーが声紋特徴認識装置へウェイクアップ音声を連続で複数回出すとともにユーザー名を入力する必要があり、登録を完了しなければ、声紋特徴認識装置が音声を出したユーザーを認識できないことがないので、本願の実施例はユーザーの操作を簡略化し、ユーザー体験を向上させることができる。
更に、前記クラスタリングモジュール320は、
保存されている各第1の声紋特徴の間の類似度をクラスタリングアルゴリズムで計算するための計算ユニットと、
類似度に基づいてすべての第1の声紋特徴を少なくとも1つのクラスに区分するための区分ユニットと、を備える。
図4は本願の実施例に係るユーザー登録装置の第2の構造模式図であり、図3との相違点は、前記装置は、更に、
ユーザーのサービス命令音声を取得するたびに、前記サービス命令音声に対応する第2の声紋特徴を抽出して保存するための第2の抽出モジュール350と、
前記サービス命令音声に対応するサービスタイプを決定するための第1の決定モジュール360と、
前記第2の声紋特徴を各前記クラスにおける各第1の声紋特徴とマッチングするための第1のマッチングモジュール370と、
マッチしている第1の声紋特徴のクラス識別子と、前記サービスタイプと、を対応して記憶するための第2の記憶モジュール380と、を備える。
更に、前記第1の決定モジュール360は、
前記サービス命令音声を認識し、サービス命令音声認識情報を取得するための第1の認識ユニットと、
前記サービス命令音声認識情報に対して語意解析を行うための解析ユニットと、
語意解析結果に基づき、前記サービス命令音声に対応するサービスタイプを決定するための第1の決定ユニットと、を備える。
更に、前記装置は、
ウェイクアップ音声に対応する第1の声紋特徴を抽出した後、前記ウェイクアップ音声に対応する第1の声紋特徴を認識予定の声紋特徴として決定するための第2の決定モジュール390と、
前記認識予定の声紋特徴を各クラスにおける第1の声紋特徴とマッチングするための第2のマッチングモジュール3100と、
マッチしている第1の声紋特徴に対応するクラス識別子を目標クラス識別子として決定するための第3の決定モジュール3110と、
前記目標クラス識別子に対応してサービスタイプ記憶されているかどうかを判断するための判断モジュール3120と、
前記判断モジュールの判断結果が肯定である場合、記憶されているサービスタイプに対応するサービス提示情報を出力するための第1の出力モジュール3130と、を備える。
更に、前記装置は、
認識された目標クラス識別子に基づき、第1のユーザー識別子を要求するリクエストを出力するための第2の出力モジュールと、
ユーザーが前記第1のユーザー識別子を要求するリクエストに対してフィードバックした第1の音声情報を受信し、該第1の音声情報に対して音声認識を行って第1の音声認識情報を取得するための第1の認識モジュールと、
前記第1の音声認識情報を前記第1のユーザー識別子として決定するための第4の決定モジュールと、
前記第1のユーザー識別子と前記目標クラス識別子との対応関係を記録するための記録モジュールと、を備える。
更に、前記装置は、
ユーザー登録命令を取得した後、ウェイクアップ音声サンプルを連続でN回に取得し、第2のユーザー識別子を要求するリクエストを出力するための第2の出力モジュールであって、Nが1より大きな整数である第2の出力モジュールと、
ユーザーが前記第2のユーザー識別子を要求するリクエストに対してフィードバックした音声情報を受信し、該音声情報に対して音声認識を行って該音声に対応する音声認識情報を取得するための第2の認識モジュールと、
前記音声認識情報を前記第2のユーザー識別子として決定し、前記第2のユーザー識別子と、N個のウェイクアップ音声サンプルの声紋特徴と、をそれぞれに対応して記憶するための第3の記憶モジュールと、を備える。
更に、前記電子機器がスマート機器であり、前記装置は、更に、
ユーザーのウェイクアップ音声を取得するための第1の取得モジュールを備え、
前記第1の取得モジュールは、
音声情報をリアルタイムで検出するための検出ユニットと、
ユーザーが音声情報を入力したと検出した後、ミュートする時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報を目標認識予定音声情報として決定するための第2の決定ユニットと、
前記目標認識予定音声情報に対して音声認識を行って、目標音声認識情報を取得するための第2の認識ユニットと、
前記目標音声認識情報がプリセットのウェイクアップワードと同じである場合、前記認識予定音声情報をウェイクアップ音声として決定するための第3の決定ユニットと、を備える。
更に、前記電子機器がスマート機器と通信接続されるクラウドサーバーであり、
前記装置は、更に、
ユーザーのウェイクアップ音声を取得するための第1の取得モジュールを備え、
前記第1の取得モジュールは、具体的に、前記スマート機器から送信されたウェイクアップ音声を受信するためのものであり、前記スマート機器から送信されたウェイクアップ音声は、前記スマート機器がユーザーが音声情報を入力したと検出した後、ミュートする時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報を目標認識予定音声情報として決定し、前記目標認識予定音声情報に対して音声認識を行って、目標音声認識情報を取得し、前記目標音声認識情報がプリセットのウェイクアップワードと同じである場合、前記認識予定音声情報をウェイクアップ音声として決定し、該ウェイクアップ音声を前記クラウドサーバーに送信するものである。
本願は上記方法実施例に対応して実施例で更に電子機器を提供する。図5は本願の実施例に係る電子機器の構造模式図であり、前記電子機器は、
ハウジング510、プロセッサ520、メモリ530、回路基板540及び電源回路550を備える電子機器であって、
回路基板540がハウジング510で囲んでなる空間内部に設置され、プロセッサ520及びメモリ530が回路基板に設置され、電源回路550が電子機器の各回路又は素子に給電することに用いられ、メモリ530が実行可能なプログラムコードを記憶することに用いられ、プロセッサ520が前記ユーザー登録方法を実行するように、メモリ530に記憶される実行可能なプログラムコードを読み取って実行可能なプログラムコードに対応するプログラムを実行する。
一実現形態では、上記ユーザー登録方法は、
ユーザーのウェイクアップ音声を取得するたびに、前記ウェイクアップ音声に対応する第1の声紋特徴を抽出して保存することと、
保存されている第1の声紋特徴をクラスタリングし、前記保存されている第1の声紋特徴を少なくとも1つのクラスに区分し、各クラスにおける第1の声紋特徴が同じユーザーに属することと、
各クラスに1つのクラス識別子を割り当てることと、
各クラス識別子と、それに対応する少なくとも1つの第1の声紋特徴と、を対応して記憶し、ユーザー登録を完成することと、を含む。
上記ユーザー登録方法の他の実現形態は上記方法実施例部分の説明を参照し、ここで詳細な説明は省略する。
プロセッサ520が上記ステップ及び上記音声信号に対する処理方法の他の実現形態の具体的な実行過程及びプロセッサ520が実行可能なプログラムコードを実行することにより更に実行する過程は、本願の実施例の図1〜図4に示される実施例の説明を参照してもよく、ここで詳細な説明は省略する。
ただし、該電子機器は様々な形式で存在し、以下を含むが、それらに限らない。
(1)モバイル通信装置
このような装置の特徴はモバイル通信機能を有し、且つ音声、データ通信を提供することを主な目的とする。このような端末はスマートフォン(例えば、iPhone(登録商標))、マルチメディア携帯電話、機能的携帯電話及びローエンド携帯電話等を含む。
(2)ウルトラモバイルパーソナルコンピュータ装置
このような装置はパーソナルコンピュータ範囲に属し、計算及び処理機能を有し、一般的にモバイルインターネット特性も有する。このような端末はPDA、MID及びUMPC装置等、例えばiPad(登録商標)を含む。
(3)ポータブルエンターテイメントデバイス
このような装置はマルチメディアコンテンツを表示・再生することができる。このような装置はオーディオ、ビデオプレーヤー(例えば、iPod(登録商標))、携帯ゲーム機、電子書籍、並びにスマートトイ及び携帯用カーナビゲーション装置を含む。
(4)サーバー
計算サービスを提供する装置であり、サーバーの構造はプロセッサ、ハードディスク、メモリ、システムバス等を備え、サーバーが汎用のコンピュータアーキテクチャと類似するが、高信頼性のサービスを提供する必要があるため、処理能力、安定性、信頼性、安全性、拡張性、管理性等の面での要求がより高い。
(5)他のデータ交換機能を有する電子装置
以上により、本願の実施例に係る技術案において、電子機器のプロセッサはメモリに記憶される実行可能なプログラムコードを読み取って実行可能なプログラムコードに対応するプログラムを実行し、ユーザーのウェイクアップ音声を取得するたびに、前記ウェイクアップ音声に対応する第1の声紋特徴を抽出して保存し、保存されている第1の声紋特徴をクラスタリングし、前記保存されている第1の声紋特徴を少なくとも1つのクラスに区分し、各クラスにおける第1の声紋特徴が同じユーザーに属し、各クラスに1つのクラス識別子を割り当て、各クラス識別子と、それに対応する少なくとも1つの第1の声紋特徴と、を対応して記憶してユーザー登録を完成する。
本願の実施例において、ウェイクアップ音声を受信するたびに、声紋特徴を抽出して保存し、保存されている声紋特徴をクラスタリングし、声紋特徴を少なくとも1つのクラスに区分し、各クラスにおける声紋特徴が同じユーザーに属し、各クラスに1つのクラス識別子を割り当て、各クラス識別子と、それに対応する少なくとも1つの声紋特徴と、に対応して記憶してユーザー登録を完成する。本願の実施例は、従来技術のように、ユーザーが声紋特徴認識装置へウェイクアップ音声を連続で複数回出すとともにユーザー名を入力する必要があり、登録を完了しなければ、声紋特徴認識装置が音声を出したユーザーを認識できないことがないので、本願の実施例はユーザーの操作を簡略化し、ユーザー体験を向上させることができる。
そのうち、保存されている第1の声紋特徴をクラスタリングし、前記保存されている第1の声紋特徴を少なくとも1つのクラスに区分する前記ステップは、
保存されている各第1の声紋特徴の間の類似度をクラスタリングアルゴリズムで計算することと、
類似度に基づいてすべての第1の声紋特徴を少なくとも1つのクラスに区分することと、を含む。
そのうち、前記方法は、更に、
ユーザーのサービス命令音声を取得するたびに、前記サービス命令音声に対応する第2の声紋特徴を抽出して保存することと、
前記サービス命令音声に対応するサービスタイプを決定することと、
前記第2の声紋特徴を各前記クラスにおける各第1の声紋特徴とマッチングすることと、
マッチしている第1の声紋特徴のクラス識別子と、前記サービスタイプと、を対応して記憶することと、を含む。
そのうち、前記サービス命令音声に対応するサービスタイプを決定する前記ステップは、
前記サービス命令音声を認識し、サービス命令音声認識情報を取得することと、
前記サービス命令音声認識情報に対して語意解析を行うことと、
語意解析結果に基づき、前記サービス命令音声に対応するサービスタイプを決定することと、を含む。
そのうち、前記方法は、更に、
ウェイクアップ音声に対応する第1の声紋特徴を抽出した後、前記ウェイクアップ音声に対応する第1の声紋特徴を認識予定の声紋特徴として決定することと、
前記認識予定の声紋特徴を各クラスにおける第1の声紋特徴とマッチングすることと、
マッチしている第1の声紋特徴に対応するクラス識別子を目標クラス識別子として決定することと、
前記目標クラス識別子に対応してサービスタイプ記憶されているかどうかを判断することと、
肯定の場合、記憶されているサービスタイプに対応するサービス提示情報を出力することと、を含む。
そのうち、前記方法は、更に、
認識された目標クラス識別子に基づき、第1のユーザー識別子を要求するリクエストを出力することと、
ユーザーがフィードバックした第1の音声情報を受信し、該第1の音声情報に対して音声認識を行って第1の音声認識情報を取得することと、
前記第1の音声認識情報を前記第1のユーザー識別子として決定することと、
前記第1のユーザー識別子と前記目標クラス識別子との対応関係を記録することと、を含む。
そのうち、前記方法は、更に、
ユーザー登録命令を取得した後、ウェイクアップ音声サンプルを連続でN回に取得し、第2のユーザー識別子を要求するリクエストを出力し、Nが1より大きな整数であることと、
フィードバックした音声情報を受信し、該音声情報に対して音声認識を行って該音声に対応する音声認識情報を取得することと、
前記音声認識情報を前記第2のユーザー識別子として決定し、前記第2のユーザー識別子と、N個のウェイクアップ音声サンプルの声紋特徴と、をそれぞれに対応して記憶することと、を含む。
そのうち、前記電子機器がスマート機器であり、前記方法は、更に、以下のようにユーザーのウェイクアップ音声を取得する、即ち、
音声情報をリアルタイムで検出し、
ユーザーが音声情報を入力したと検出した後、ミュートする時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報を目標認識予定音声情報として決定し、
前記目標認識予定音声情報に対して音声認識を行って、目標音声認識情報を取得し、
前記目標音声認識情報がプリセットのウェイクアップワードと同じである場合、前記認識予定音声情報をウェイクアップ音声として決定する。
そのうち、前記電子機器がスマート機器と通信接続されるクラウドサーバーであり、
前記方法は、更に、以下のようにユーザーのウェイクアップ音声を取得する、即ち、
前記スマート機器から送信されたウェイクアップ音声を受信し、前記スマート機器から送信されたウェイクアップ音声は、前記スマート機器がユーザーが音声情報を入力したと検出した後、ミュートする時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報を目標認識予定音声情報として決定し、前記目標認識予定音声情報に対して音声認識を行って、目標音声認識情報を取得し、前記目標音声認識情報がプリセットのウェイクアップワードと同じである場合、前記認識予定音声情報をウェイクアップ音声として決定し、該ウェイクアップ音声を前記クラウドサーバーに送信するものである。
本発明の実施例は更にコンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体にコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサにより実行されるとき、以下のステップを実現する、即ち、
ユーザーのウェイクアップ音声を取得するたびに、前記ウェイクアップ音声に対応する第1の声紋特徴を抽出して保存することと、
保存されている第1の声紋特徴をクラスタリングし、前記保存されている第1の声紋特徴を少なくとも1つのクラスに区分し、各クラスにおける第1の声紋特徴が同じユーザーに属することと、
各クラスに1つのクラス識別子を割り当てることと、
各クラス識別子と、それに対応する少なくとも1つの第1の声紋特徴と、を対応して記憶し、ユーザー登録を完成することである。
上記ユーザー登録方法の他の実現形態は上記方法実施例部分の説明を参照し、ここで詳細な説明は省略する。
以上により、本発明の実施例に係る技術案において、コンピュータプログラムがプロセッサにより実行されるとき、ウェイクアップ音声を受信するたびに、声紋特徴を抽出して保存し、保存されている声紋特徴をクラスタリングし、声紋特徴を少なくとも1つのクラスに区分し、各クラスにおける声紋特徴が同じユーザーに属し、各クラスに1つのクラス識別子を割り当て、各クラス識別子と、それに対応する少なくとも1つの声紋特徴と、に対応して記憶してユーザー登録を完成する。本願の実施例は、従来技術のように、ユーザーが声紋特徴認識装置へウェイクアップ音声を連続で複数回出すとともにユーザー名を入力する必要があり、登録を完了しなければ、声紋特徴認識装置が音声を出したユーザーを認識できないことがないので、本願の実施例はユーザーの操作を簡略化し、ユーザー体験を向上させることができる。
そのうち、保存されている第1の声紋特徴をクラスタリングし、前記保存されている第1の声紋特徴を少なくとも1つのクラスに区分する前記ステップは、
保存されている各第1の声紋特徴の間の類似度をクラスタリングアルゴリズムで計算することと、
類似度に基づいてすべての第1の声紋特徴を少なくとも1つのクラスに区分することと、を含む。
そのうち、前記方法は、更に、
ユーザーのサービス命令音声を取得するたびに、前記サービス命令音声に対応する第2の声紋特徴を抽出して保存することと、
前記サービス命令音声に対応するサービスタイプを決定することと、
前記第2の声紋特徴を各前記クラスにおける各第1の声紋特徴とマッチングすることと、
マッチしている第1の声紋特徴のクラス識別子と、前記サービスタイプと、を対応して記憶することと、を含む。
そのうち、前記サービス命令音声に対応するサービスタイプを決定する前記ステップは、
前記サービス命令音声を認識し、サービス命令音声認識情報を取得することと、
前記サービス命令音声認識情報に対して語意解析を行うことと、
語意解析結果に基づき、前記サービス命令音声に対応するサービスタイプを決定することと、を含む。
そのうち、前記方法は、更に、
ウェイクアップ音声に対応する第1の声紋特徴を抽出した後、前記ウェイクアップ音声に対応する第1の声紋特徴を認識予定の声紋特徴として決定することと、
前記認識予定の声紋特徴を各クラスにおける第1の声紋特徴とマッチングすることと、
マッチしている第1の声紋特徴に対応するクラス識別子を目標クラス識別子として決定することと、
前記目標クラス識別子に対応してサービスタイプ記憶されているかどうかを判断することと、
肯定の場合、記憶されているサービスタイプに対応するサービス提示情報を出力することと、を含む。
そのうち、前記方法は、更に、
認識された目標クラス識別子に基づき、第1のユーザー識別子を要求するリクエストを出力することと、
ユーザーがフィードバックした第1の音声情報を受信し、該第1の音声情報に対して音声認識を行って第1の音声認識情報を取得することと、
前記第1の音声認識情報を前記第1のユーザー識別子として決定することと、
前記第1のユーザー識別子と前記目標クラス識別子との対応関係を記録することと、を含む。
そのうち、前記方法は、更に、
ユーザー登録命令を取得した後、ウェイクアップ音声サンプルを連続でN回に取得し、第2のユーザー識別子を要求するリクエストを出力し、Nが1より大きな整数であることと、
フィードバックした音声情報を受信し、該音声情報に対して音声認識を行って該音声に対応する音声認識情報を取得することと、
前記音声認識情報を前記第2のユーザー識別子として決定し、前記第2のユーザー識別子と、N個のウェイクアップ音声サンプルの声紋特徴と、をそれぞれに対応して記憶することと、を含む。
そのうち、前記コンピュータ可読記憶媒体がスマート機器の可読記憶媒体であり、前記方法は、更に、以下のようにユーザーのウェイクアップ音声を取得する、即ち、
音声情報をリアルタイムで検出し、
ユーザーが音声情報を入力したと検出した後、ミュートする時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報を目標認識予定音声情報として決定し、
前記目標認識予定音声情報に対して音声認識を行って、目標音声認識情報を取得し、
前記目標音声認識情報がプリセットのウェイクアップワードと同じである場合、前記認識予定音声情報をウェイクアップ音声として決定する。
そのうち、前記コンピュータ可読記憶媒体がスマート機器と通信接続されるクラウドサーバーのコンピュータ可読記憶媒体であり、
前記方法は、更に、以下のようにユーザーのウェイクアップ音声を取得する、即ち、
前記スマート機器から送信されたウェイクアップ音声を受信し、前記スマート機器から送信されたウェイクアップ音声は、前記スマート機器がユーザーが音声情報を入力したと検出した後、ミュートする時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報を目標認識予定音声情報として決定し、前記目標認識予定音声情報に対して音声認識を行って、目標音声認識情報を取得し、前記目標音声認識情報がプリセットのウェイクアップワードと同じである場合、前記認識予定音声情報をウェイクアップ音声として決定し、該ウェイクアップ音声を前記クラウドサーバーに送信するものである。
本発明の実施例は更にアプリケーションプログラムを提供し、該アプリケーションプログラムは実行される時に本願の実施例に係るユーザー登録方法を実行することに用いられる。該アプリケーションプログラムがプロセッサにより実行されるとき、以下のステップを実現する、即ち、
ユーザーのウェイクアップ音声を取得するたびに、前記ウェイクアップ音声に対応する第1の声紋特徴を抽出して保存することと、
保存されている第1の声紋特徴をクラスタリングし、前記保存されている第1の声紋特徴を少なくとも1つのクラスに区分し、各クラスにおける第1の声紋特徴が同じユーザーに属することと、
各クラスに1つのクラス識別子を割り当てることと、
各クラス識別子と、それに対応する少なくとも1つの第1の声紋特徴と、を対応して記憶し、ユーザー登録を完成することである。
上記ユーザー登録方法の他の実現形態は上記方法実施例部分の説明を参照し、ここで詳細な説明は省略する。
以上により、本発明の実施例に係る技術案において、アプリケーションプログラムがプロセッサにより実行されるとき、ウェイクアップ音声を受信するたびに、声紋特徴を抽出して保存し、保存されている声紋特徴をクラスタリングし、声紋特徴を少なくとも1つのクラスに区分し、各クラスにおける声紋特徴が同じユーザーに属し、各クラスに1つのクラス識別子を割り当て、各クラス識別子と、それに対応する少なくとも1つの声紋特徴と、に対応して記憶してユーザー登録を完成する。本願の実施例は、従来技術のように、ユーザーが声紋特徴認識装置へウェイクアップ音声を連続で複数回出すとともにユーザー名を入力する必要があり、登録を完了しなければ、声紋特徴認識装置が音声を出したユーザーを認識できないことがないので、本願の実施例はユーザーの操作を簡略化し、ユーザー体験を向上させることができる。
そのうち、保存されている第1の声紋特徴をクラスタリングし、前記保存されている第1の声紋特徴を少なくとも1つのクラスに区分する前記ステップは、
保存されている各第1の声紋特徴の間の類似度をクラスタリングアルゴリズムで計算することと、
類似度に基づいてすべての第1の声紋特徴を少なくとも1つのクラスに区分することと、を含む。
そのうち、前記方法は、更に、
ユーザーのサービス命令音声を取得するたびに、前記サービス命令音声に対応する第2の声紋特徴を抽出して保存することと、
前記サービス命令音声に対応するサービスタイプを決定することと、
前記第2の声紋特徴を各前記クラスにおける各第1の声紋特徴とマッチングすることと、
マッチしている第1の声紋特徴のクラス識別子と、前記サービスタイプと、を対応して記憶することと、を含む。
そのうち、前記サービス命令音声に対応するサービスタイプを決定する前記ステップは、
前記サービス命令音声を認識し、サービス命令音声認識情報を取得することと、
前記サービス命令音声認識情報に対して語意解析を行うことと、
語意解析結果に基づき、前記サービス命令音声に対応するサービスタイプを決定することと、を含む。
そのうち、前記方法は、更に、
ウェイクアップ音声に対応する第1の声紋特徴を抽出した後、前記ウェイクアップ音声に対応する第1の声紋特徴を認識予定の声紋特徴として決定することと、
前記認識予定の声紋特徴を各クラスにおける第1の声紋特徴とマッチングすることと、
マッチしている第1の声紋特徴に対応するクラス識別子を目標クラス識別子として決定することと、
前記目標クラス識別子に対応してサービスタイプ記憶されているかどうかを判断することと、
肯定の場合、記憶されているサービスタイプに対応するサービス提示情報を出力することと、を含む。
そのうち、前記方法は、更に、
認識された目標クラス識別子に基づき、第1のユーザー識別子を要求するリクエストを出力することと、
ユーザーがフィードバックした第1の音声情報を受信し、該第1の音声情報に対して音声認識を行って第1の音声認識情報を取得することと、
前記第1の音声認識情報を前記第1のユーザー識別子として決定することと、
前記第1のユーザー識別子と前記目標クラス識別子との対応関係を記録することと、を含む。
そのうち、前記方法は、更に、
ユーザー登録命令を取得した後、ウェイクアップ音声サンプルを連続でN回に取得し、第2のユーザー識別子を要求するリクエストを出力し、Nが1より大きな整数であることと、
フィードバックした音声情報を受信し、該音声情報に対して音声認識を行って該音声に対応する音声認識情報を取得することと、
前記音声認識情報を前記第2のユーザー識別子として決定し、前記第2のユーザー識別子と、N個のウェイクアップ音声サンプルの声紋特徴と、をそれぞれに対応して記憶することと、を含む。
そのうち、前記アプリケーションプログラムがスマート機器に記憶されるものであり、前記方法は、更に、以下のようにユーザーのウェイクアップ音声を取得する、即ち、
音声情報をリアルタイムで検出し、
ユーザーが音声情報を入力したと検出した後、ミュートする時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報を目標認識予定音声情報として決定し、
前記目標認識予定音声情報に対して音声認識を行って、目標音声認識情報を取得し、
前記目標音声認識情報がプリセットのウェイクアップワードと同じである場合、前記認識予定音声情報をウェイクアップ音声として決定する。
そのうち、前記アプリケーションプログラムがスマート機器と通信接続されるクラウドサーバーに記憶されるものであり、
前記方法は、更に、以下のようにユーザーのウェイクアップ音声を取得する、即ち、
前記スマート機器から送信されたウェイクアップ音声を受信し、前記スマート機器から送信されたウェイクアップ音声は、前記スマート機器がユーザーが音声情報を入力したと検出した後、ミュートする時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報を目標認識予定音声情報として決定し、前記目標認識予定音声情報に対して音声認識を行って、目標音声認識情報を取得し、前記目標音声認識情報がプリセットのウェイクアップワードと同じである場合、前記認識予定音声情報をウェイクアップ音声として決定し、該ウェイクアップ音声を前記クラウドサーバーに送信するものである。
装置、電子機器、コンピュータ可読記憶媒体及びアプリケーションプログラム実施例は基本的に方法実施例に類似するため、簡単に説明を行ったが、関連部分は方法実施例部分の説明を参照すればよい。
ただし、本明細書において、「第1の」と「第2の」のような関係用語は1つのエンティティ又は操作を他のエンティティ又は操作に区別するためのものであり、これらのエンティティ又は操作同士にこのような実際の関係又は順序があるように要求又は暗示するとは限らない。且つ、用語「包括」「包含」又はその任意の他の変形は非排他的包含を含むように意図され、それにより一連の要素を含む過程、方法、品物又は設備はそれらの要素を含むだけでなく、更に明確に列挙しない他の要素を含み、又は、更にこのような過程、方法、品物又は設備固有の要素を含む。これ以上制限しない限り、語句「○○を含む」で限定された要素は、前記要素を含む過程、方法、品物又は設備に更に他の同じ要素があることを排除しない。
本明細書の各実施例はいずれも関連方式で説明し、各実施例同士の同様又は類似する部分は互いに参照すればよく、各実施例の重点として説明した箇所はいずれも他の実施例との相違点である。特に、システム実施例は基本的に方法実施例に類似するため、簡単に説明を行ったが、関連個所は方法実施例部分の説明を参照すればよい。
以上の説明は本願の好適な実施例であって、本願の保護範囲を制限するためのものではない。本願の趣旨及び原則内に行ったいかなる修正、等価置換、改良等は、いずれも本願の保護範囲内に含まれるべきである。

Claims (21)

  1. 電子機器に適用されるユーザー登録方法であって、
    ユーザーのウェイクアップ音声を取得するたびに、前記ウェイクアップ音声に対応する第1の声紋特徴を抽出して保存することと、
    保存されている第1の声紋特徴をクラスタリングし、前記保存されている第1の声紋特徴を少なくとも1つのクラスに区分し、各クラスにおける第1の声紋特徴が同じユーザーに属することと、
    各クラスに1つのクラス識別子を割り当てることと、
    各クラス識別子と、それに対応する少なくとも1つの第1の声紋特徴と、を対応して記憶し、ユーザー登録を完成することと、を含む
    ことを特徴とするユーザー登録方法。
  2. 前記保存されている第1の声紋特徴をクラスタリングし、前記保存されている第1の声紋特徴を少なくとも1つのクラスに区分することは、
    保存されている各第1の声紋特徴の間の類似度をクラスタリングアルゴリズムで計算することと、
    類似度に基づいてすべての第1の声紋特徴を少なくとも1つのクラスに区分することと、を含む
    ことを特徴とする請求項1に記載の方法。
  3. 前記方法は、更に、
    ユーザーのサービス命令音声を取得するたびに、前記サービス命令音声に対応する第2の声紋特徴を抽出して保存することと、
    前記サービス命令音声に対応するサービスタイプを決定することと、
    前記第2の声紋特徴を各前記クラスにおける各第1の声紋特徴とマッチングすることと、
    マッチしている第1の声紋特徴のクラス識別子と、前記サービスタイプと、を対応して記憶することと、を含む
    ことを特徴とする請求項1に記載の方法。
  4. 前記サービス命令音声に対応するサービスタイプを決定することは、
    前記サービス命令音声を認識し、サービス命令音声認識情報を取得することと、
    前記サービス命令音声認識情報に対して語意解析を行うことと、
    語意解析結果に基づき、前記サービス命令音声に対応するサービスタイプを決定することと、を含む
    ことを特徴とする請求項3に記載の方法。
  5. 前記方法は、更に、
    ウェイクアップ音声に対応する第1の声紋特徴を抽出した後、前記ウェイクアップ音声に対応する第1の声紋特徴を認識予定の声紋特徴として決定することと、
    前記認識予定の声紋特徴を各クラスにおける第1の声紋特徴とマッチングすることと、
    マッチしている第1の声紋特徴に対応するクラス識別子を目標クラス識別子として決定することと、
    前記目標クラス識別子に対応してサービスタイプが記憶されているかどうかを判断することと、
    肯定の場合、記憶されているサービスタイプに対応するサービス提示情報を出力することと、を含む
    ことを特徴とする請求項3に記載の方法。
  6. 前記方法は、更に、
    認識された目標クラス識別子に基づき、第1のユーザー識別子を要求するリクエストを出力することと、
    ユーザーが前記第1のユーザー識別子を要求するリクエストに対してフィードバックした第1の音声情報を受信し、該第1の音声情報に対して音声認識を行って第1の音声認識情報を取得することと、
    前記第1の音声認識情報を前記第1のユーザー識別子として決定することと、
    前記第1のユーザー識別子と前記目標クラス識別子との対応関係を記録することと、を含む
    ことを特徴とする請求項5に記載の方法。
  7. 前記方法は、更に、
    ユーザー登録命令を取得した後、ウェイクアップ音声サンプルを連続でN回に取得し、第2のユーザー識別子を要求するリクエストを出力し、Nが1より大きな整数であることと、
    ユーザーが前記第2のユーザー識別子を要求するリクエストに対してフィードバックした音声情報を受信し、該音声情報に対して音声認識を行って該音声に対応する音声認識情報を取得することと、
    前記音声認識情報を前記第2のユーザー識別子として決定し、前記第2のユーザー識別子と、N個のウェイクアップ音声サンプルの声紋特徴と、をそれぞれに対応して記憶することと、を含む
    ことを特徴とする請求項1に記載の方法。
  8. 前記電子機器がスマート機器であり、
    前記方法は、更に、以下のようにユーザーのウェイクアップ音声を取得する、即ち、
    音声情報をリアルタイムで検出し、
    ユーザーが音声情報を入力したと検出した後、ミュートする時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報を目標認識予定音声情報として決定し、
    前記目標認識予定音声情報に対して音声認識を行って、目標音声認識情報を取得し、
    前記目標音声認識情報がプリセットのウェイクアップワードと同じである場合、前記認識予定音声情報をウェイクアップ音声として決定する
    ことを特徴とする請求項1〜7のいずれか1項に記載の方法。
  9. 前記電子機器がスマート機器と通信接続されるクラウドサーバーであり、
    前記方法は、更に、以下のようにユーザーのウェイクアップ音声を取得する、即ち、
    前記スマート機器から送信されたウェイクアップ音声を受信し、前記スマート機器から送信されたウェイクアップ音声は、前記スマート機器がユーザーが音声情報を入力したと検出した後、ミュートする時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報を目標認識予定音声情報として決定し、前記目標認識予定音声情報に対して音声認識を行って、目標音声認識情報を取得し、前記目標音声認識情報がプリセットのウェイクアップワードと同じである場合、前記認識予定音声情報をウェイクアップ音声として決定し、該ウェイクアップ音声を前記クラウドサーバーに送信するものである
    ことを特徴とする請求項1〜7のいずれか1項に記載の方法。
  10. 電子機器に適用されるユーザー登録装置であって、
    ユーザーのウェイクアップ音声を取得するたびに、前記ウェイクアップ音声に対応する第1の声紋特徴を抽出して保存するための第1の抽出モジュールと、
    保存されている第1の声紋特徴をクラスタリングし、前記保存されている第1の声紋特徴を少なくとも1つのクラスに区分するためのクラスタリングモジュールであって、各クラスにおける第1の声紋特徴が同じユーザーに属するクラスタリングモジュールと、
    各クラスに1つのクラス識別子を割り当てるための割り当てモジュールと、
    各クラス識別子と、それに対応する少なくとも1つの第1の声紋特徴と、を対応して記憶してユーザー登録を完成するための第1の記憶モジュールと、を備える
    ことを特徴とするユーザー登録装置。
  11. 前記クラスタリングモジュールは、
    保存されている各第1の声紋特徴の間の類似度をクラスタリングアルゴリズムで計算するための計算ユニットと、
    類似度に基づいてすべての第1の声紋特徴を少なくとも1つのクラスに区分するための区分ユニットと、を備える
    ことを特徴とする請求項10に記載の装置。
  12. 前記装置は、更に、
    ユーザーのサービス命令音声を取得するたびに、前記サービス命令音声に対応する第2の声紋特徴を抽出して保存するための第2の抽出モジュールと、
    前記サービス命令音声に対応するサービスタイプを決定するための第1の決定モジュールと、
    前記第2の声紋特徴を各前記クラスにおける各第1の声紋特徴とマッチングするための第1のマッチングモジュールと、
    マッチしている第1の声紋特徴のクラス識別子と、前記サービスタイプと、を対応して記憶するための第2の記憶モジュールと、を備える
    ことを特徴とする請求項10に記載の装置。
  13. 前記第1の決定モジュールは、
    前記サービス命令音声を認識し、サービス命令音声認識情報を取得するための第1の認識ユニットと、
    前記サービス命令音声認識情報に対して語意解析を行うための解析ユニットと、
    語意解析結果に基づき、前記サービス命令音声に対応するサービスタイプを決定するための第1の決定ユニットと、を備える
    ことを特徴とする請求項12に記載の装置。
  14. 前記装置は、更に、
    ウェイクアップ音声に対応する第1の声紋特徴を抽出した後、前記ウェイクアップ音声に対応する第1の声紋特徴を認識予定の声紋特徴として決定するための第2の決定モジュールと、
    前記認識予定の声紋特徴を各クラスにおける第1の声紋特徴とマッチングするための第2のマッチングモジュールと、
    マッチしている第1の声紋特徴に対応するクラス識別子を目標クラス識別子として決定するための第3の決定モジュールと、
    前記目標クラス識別子に対応してサービスタイプが記憶されているかどうかを判断するための判断モジュールと、
    前記判断モジュールの判断結果が肯定である場合、記憶されているサービスタイプに対応するサービス提示情報を出力するための第1の出力モジュールと、を備える
    ことを特徴とする請求項12に記載の装置。
  15. 前記装置は、更に、
    認識された目標クラス識別子に基づき、第1のユーザー識別子を要求するリクエストを出力するための第2の出力モジュールと、
    ユーザーが前記第1のユーザー識別子を要求するリクエストに対してフィードバックした第1の音声情報を受信し、該第1の音声情報に対して音声認識を行って第1の音声認識情報を取得するための第1の認識モジュールと、
    前記第1の音声認識情報を前記第1のユーザー識別子として決定するための第4の決定モジュールと、
    前記第1のユーザー識別子と前記目標クラス識別子との対応関係を記録するための記録モジュールと、を備える
    ことを特徴とする請求項14に記載の装置。
  16. 前記装置は、更に、
    ユーザー登録命令を取得した後、ウェイクアップ音声サンプルを連続でN回に取得し、第2のユーザー識別子を要求するリクエストを出力するための第2の出力モジュールであって、Nが1より大きな整数である第2の出力モジュールと、
    ユーザーが前記第2のユーザー識別子を要求するリクエストに対してフィードバックした音声情報を受信し、該音声情報に対して音声認識を行って該音声に対応する音声認識情報を取得するための第2の認識モジュールと、
    前記音声認識情報を前記第2のユーザー識別子として決定し、前記第2のユーザー識別子と、N個のウェイクアップ音声サンプルの声紋特徴と、をそれぞれに対応して記憶するための第3の記憶モジュールと、を備える
    ことを特徴とする請求項10に記載の装置。
  17. 前記電子機器がスマート機器であり、前記装置は、更に、
    ユーザーのウェイクアップ音声を取得するための第1の取得モジュールを備え、
    前記第1の取得モジュールは、
    音声情報をリアルタイムで検出するための検出ユニットと、
    ユーザーが音声情報を入力したと検出した後、ミュートする時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報を目標認識予定音声情報として決定するための第2の決定ユニットと、
    前記目標認識予定音声情報に対して音声認識を行って、目標音声認識情報を取得するための第2の認識ユニットと、
    前記目標音声認識情報がプリセットのウェイクアップワードと同じである場合、前記認識予定音声情報をウェイクアップ音声として決定するための第3の決定ユニットと、を備える
    ことを特徴とする請求項10〜16のいずれか1項に記載の装置。
  18. 前記電子機器がスマート機器と通信接続されるクラウドサーバーであり、
    前記装置は、更に、
    ユーザーのウェイクアップ音声を取得するための第1の取得モジュールを備え、
    前記第1の取得モジュールは、具体的に、前記スマート機器から送信されたウェイクアップ音声を受信するためのものであり、前記スマート機器から送信されたウェイクアップ音声は、前記スマート機器がユーザーが音声情報を入力したと検出した後、ミュートする時間の長さがプリセット音声休止時間の長さに達するとき、ユーザーの入力した音声情報を目標認識予定音声情報として決定し、前記目標認識予定音声情報に対して音声認識を行って、目標音声認識情報を取得し、前記目標音声認識情報がプリセットのウェイクアップワードと同じである場合、前記認識予定音声情報をウェイクアップ音声として決定し、該ウェイクアップ音声を前記クラウドサーバーに送信するものである
    ことを特徴とする請求項10〜16のいずれか1項に記載の装置。
  19. ハウジング、プロセッサ、メモリ、回路基板及び電源回路を備える電子機器であって、
    回路基板がハウジングで囲んでなる空間内部に設置され、プロセッサ及びメモリが回路基板に設置され、電源回路が電子機器の各回路又は素子に給電することに用いられ、メモリが実行可能なプログラムコードを記憶することに用いられ、プロセッサが請求項1〜9のいずれか1項に記載のユーザー登録方法を実行するように、メモリに記憶される実行可能なプログラムコードを読み取って実行可能なプログラムコードに対応するプログラムを実行する
    ことを特徴とする電子機器。
  20. コンピュータ可読記憶媒体であって、
    前記コンピュータ可読記憶媒体にコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサにより実行されるとき、請求項1〜9のいずれか1項に記載のユーザー登録方法を実現する
    ことを特徴とするコンピュータ可読記憶媒体。
  21. アプリケーションプログラムであって、
    前記アプリケーションプログラムは実行される時に請求項1〜9のいずれか1項に記載のユーザー登録方法を実行することに用いられる
    ことを特徴とするアプリケーションプログラム。
JP2019554957A 2017-04-10 2018-04-10 ユーザー登録方法、装置及び電子機器 Active JP6956349B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710229959.6 2017-04-10
CN201710229959.6A CN107147618B (zh) 2017-04-10 2017-04-10 一种用户注册方法、装置及电子设备
PCT/CN2018/082501 WO2018188586A1 (zh) 2017-04-10 2018-04-10 一种用户注册方法、装置及电子设备

Publications (2)

Publication Number Publication Date
JP2020516935A true JP2020516935A (ja) 2020-06-11
JP6956349B2 JP6956349B2 (ja) 2021-11-02

Family

ID=59774616

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019554957A Active JP6956349B2 (ja) 2017-04-10 2018-04-10 ユーザー登録方法、装置及び電子機器

Country Status (5)

Country Link
US (1) US11568876B2 (ja)
EP (1) EP3611895B1 (ja)
JP (1) JP6956349B2 (ja)
CN (1) CN107147618B (ja)
WO (1) WO2018188586A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107147618B (zh) 2017-04-10 2020-05-15 易视星空科技无锡有限公司 一种用户注册方法、装置及电子设备
CN107978311B (zh) * 2017-11-24 2020-08-25 腾讯科技(深圳)有限公司 一种语音数据处理方法、装置以及语音交互设备
CN108958810A (zh) * 2018-02-09 2018-12-07 北京猎户星空科技有限公司 一种基于声纹的用户识别方法、装置及设备
CN108509225B (zh) * 2018-03-28 2021-07-16 联想(北京)有限公司 一种信息处理方法及电子设备
CN108830063A (zh) * 2018-05-31 2018-11-16 上海大学 基于亚马逊语音助手Alexa的以声纹识别进行用户权限管理的方法
CN108694947B (zh) * 2018-06-27 2020-06-19 Oppo广东移动通信有限公司 语音控制方法、装置、存储介质及电子设备
CN108962262B (zh) * 2018-08-14 2021-10-08 思必驰科技股份有限公司 语音数据处理方法和装置
CN109215646B (zh) * 2018-08-15 2021-08-17 北京百度网讯科技有限公司 语音交互处理方法、装置、计算机设备及存储介质
WO2020061787A1 (zh) * 2018-09-26 2020-04-02 深圳市博电电子技术有限公司 一种智能马桶控制方法与智能马桶
CN109410934A (zh) * 2018-10-19 2019-03-01 深圳魔听文化科技有限公司 一种基于声纹特征的多人声音分离方法、***及智能终端
CN111179940A (zh) * 2018-11-12 2020-05-19 阿里巴巴集团控股有限公司 一种语音识别方法、装置及计算设备
CN111198733A (zh) * 2018-11-19 2020-05-26 阿里巴巴集团控股有限公司 开机画面显示方法、终端设备及存储介质
CN111292733A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 一种语音交互方法和装置
CN111462756B (zh) * 2019-01-18 2023-06-27 北京猎户星空科技有限公司 声纹识别方法、装置、电子设备及存储介质
CN109961787A (zh) * 2019-02-20 2019-07-02 北京小米移动软件有限公司 确定采集结束时间的方法及装置
CN110047492A (zh) * 2019-03-08 2019-07-23 佛山市云米电器科技有限公司 一种通过声纹识别进行组网的方法及***
CN110060693A (zh) * 2019-04-16 2019-07-26 Oppo广东移动通信有限公司 模型训练方法、装置、电子设备及存储介质
CN110517673B (zh) * 2019-07-18 2023-08-18 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN110889009B (zh) * 2019-10-18 2023-07-21 平安科技(深圳)有限公司 一种声纹聚类方法、装置、处理设备以及计算机存储介质
CN110908629A (zh) * 2019-11-18 2020-03-24 北京小米移动软件有限公司 电子设备操作方法、装置、电子设备和存储介质
CN111210829A (zh) * 2020-02-19 2020-05-29 腾讯科技(深圳)有限公司 语音识别方法、装置、***、设备和计算机可读存储介质
CN111429920B (zh) * 2020-03-30 2024-01-23 北京奇艺世纪科技有限公司 用户区分方法、用户行为库确定方法、装置及设备
CN112051746B (zh) * 2020-08-05 2023-02-07 华为技术有限公司 获取服务的方法以及装置
CN112837687A (zh) * 2021-03-03 2021-05-25 北京百家科技集团有限公司 一种答题方法、装置、计算机设备及存储介质
CN113241080A (zh) * 2021-06-10 2021-08-10 思必驰科技股份有限公司 自动注册声纹识别方法和装置
CN113593582B (zh) * 2021-06-24 2024-05-24 青岛海尔科技有限公司 智能设备的控制方法和装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005078072A (ja) * 2003-09-03 2005-03-24 Samsung Electronics Co Ltd 音声認識及び話者認識を通じて個別化されたサービスを提供するav装置及びその方法
JP2011175587A (ja) * 2010-02-25 2011-09-08 Nippon Telegr & Teleph Corp <Ntt> ユーザ判定装置、方法、プログラム及びコンテンツ配信システム
WO2014155652A1 (ja) * 2013-03-29 2014-10-02 株式会社日立製作所 話者検索システム、プログラム
JP2015516091A (ja) * 2012-07-09 2015-06-04 ▲華▼▲為▼終端有限公司Huawei Device Co., Ltd. 声紋特徴モデルを更新するための方法及び端末
US20160035349A1 (en) * 2014-07-29 2016-02-04 Samsung Electronics Co., Ltd. Electronic apparatus and method of speech recognition thereof

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3286339B2 (ja) * 1992-03-25 2002-05-27 株式会社リコー ウインドウ画面制御装置
US6246987B1 (en) * 1998-02-04 2001-06-12 Alcatel Usa Sourcing, L.P. System for permitting access to a common resource in response to speaker identification and verification
US7406422B2 (en) * 2004-07-20 2008-07-29 Hewlett-Packard Development Company, L.P. Techniques for improving collaboration effectiveness
US8595007B2 (en) * 2006-06-15 2013-11-26 NITV Federal Services, LLC Voice print recognition software system for voice identification and matching
US9460722B2 (en) * 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
CN104123115B (zh) * 2014-07-28 2017-05-24 联想(北京)有限公司 一种音频信息处理方法及电子设备
WO2016022588A1 (en) * 2014-08-04 2016-02-11 Flagler Llc Voice tallying system
CN105575391B (zh) * 2014-10-10 2020-04-03 阿里巴巴集团控股有限公司 声纹信息管理方法、装置以及身份认证方法、***
CN104575504A (zh) * 2014-12-24 2015-04-29 上海师范大学 采用声纹和语音识别进行个性化电视语音唤醒的方法
KR102371697B1 (ko) * 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
CN105096940B (zh) * 2015-06-30 2019-03-08 百度在线网络技术(北京)有限公司 用于进行语音识别的方法和装置
US9754593B2 (en) * 2015-11-04 2017-09-05 International Business Machines Corporation Sound envelope deconstruction to identify words and speakers in continuous speech
CN105511608B (zh) * 2015-11-30 2018-12-25 北京光年无限科技有限公司 基于智能机器人的交互方法及装置、智能机器人
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
CN106228988A (zh) * 2016-07-29 2016-12-14 珠海市魅族科技有限公司 一种基于声纹信息的习惯信息匹配方法及装置
CN106295299A (zh) * 2016-08-15 2017-01-04 歌尔股份有限公司 一种智能机器人的用户注册方法和装置
CN106375336A (zh) * 2016-09-28 2017-02-01 北京金山安全软件有限公司 登录信息存储、提供方法及装置
US10181323B2 (en) * 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
CN106506524B (zh) * 2016-11-30 2019-01-11 百度在线网络技术(北京)有限公司 用于验证用户的方法和装置
US10546575B2 (en) * 2016-12-14 2020-01-28 International Business Machines Corporation Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier
CN107147618B (zh) 2017-04-10 2020-05-15 易视星空科技无锡有限公司 一种用户注册方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005078072A (ja) * 2003-09-03 2005-03-24 Samsung Electronics Co Ltd 音声認識及び話者認識を通じて個別化されたサービスを提供するav装置及びその方法
JP2011175587A (ja) * 2010-02-25 2011-09-08 Nippon Telegr & Teleph Corp <Ntt> ユーザ判定装置、方法、プログラム及びコンテンツ配信システム
JP2015516091A (ja) * 2012-07-09 2015-06-04 ▲華▼▲為▼終端有限公司Huawei Device Co., Ltd. 声紋特徴モデルを更新するための方法及び端末
WO2014155652A1 (ja) * 2013-03-29 2014-10-02 株式会社日立製作所 話者検索システム、プログラム
US20160035349A1 (en) * 2014-07-29 2016-02-04 Samsung Electronics Co., Ltd. Electronic apparatus and method of speech recognition thereof

Also Published As

Publication number Publication date
WO2018188586A1 (zh) 2018-10-18
CN107147618A (zh) 2017-09-08
JP6956349B2 (ja) 2021-11-02
EP3611895A4 (en) 2020-04-08
US20210110832A1 (en) 2021-04-15
EP3611895B1 (en) 2024-04-10
CN107147618B (zh) 2020-05-15
EP3611895A1 (en) 2020-02-19
US11568876B2 (en) 2023-01-31
EP3611895C0 (en) 2024-04-10

Similar Documents

Publication Publication Date Title
JP6956349B2 (ja) ユーザー登録方法、装置及び電子機器
CN108694940B (zh) 一种语音识别方法、装置及电子设备
US10733978B2 (en) Operating method for voice function and electronic device supporting the same
KR102315732B1 (ko) 음성 인식 방법, 디바이스, 장치, 및 저장 매체
CN107146602B (zh) 一种语音识别方法、装置及电子设备
CN110069608B (zh) 一种语音交互的方法、装置、设备和计算机存储介质
US10043520B2 (en) Multilevel speech recognition for candidate application group using first and second speech commands
US20170164049A1 (en) Recommending method and device thereof
CN106098063B (zh) 一种语音控制方法、终端设备和服务器
US11188289B2 (en) Identification of preferred communication devices according to a preference rule dependent on a trigger phrase spoken within a selected time from other command data
CN108874895B (zh) 交互信息推送方法、装置、计算机设备及存储介质
CN108055617B (zh) 一种麦克风的唤醒方法、装置、终端设备及存储介质
CN110097895B (zh) 一种纯音乐检测方法、装置及存储介质
CN111724781B (zh) 音频数据的存储方法、装置、终端及存储介质
CN107146605B (zh) 一种语音识别方法、装置及电子设备
CN109003607B (zh) 语音识别方法、装置、存储介质及电子设备
CN108600559B (zh) 静音模式的控制方法、装置、存储介质及电子设备
CN108922520B (zh) 语音识别方法、装置、存储介质及电子设备
CN108322770B (zh) 视频节目识别方法、相关装置、设备和***
CN113505272A (zh) 基于行为习惯的控制方法和装置、电子设备和存储介质
CN117253478A (zh) 一种语音交互方法和相关装置
CN110706691B (zh) 语音验证方法及装置、电子设备和计算机可读存储介质
CN113241080A (zh) 自动注册声纹识别方法和装置
US10818298B2 (en) Audio processing
CN113593546B (zh) 终端设备唤醒方法和装置、存储介质及电子装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210817

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210914

R150 Certificate of patent or registration of utility model

Ref document number: 6956349

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150