JP6564058B2 - 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末 - Google Patents

音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末 Download PDF

Info

Publication number
JP6564058B2
JP6564058B2 JP2017553159A JP2017553159A JP6564058B2 JP 6564058 B2 JP6564058 B2 JP 6564058B2 JP 2017553159 A JP2017553159 A JP 2017553159A JP 2017553159 A JP2017553159 A JP 2017553159A JP 6564058 B2 JP6564058 B2 JP 6564058B2
Authority
JP
Japan
Prior art keywords
voice
information
listening
audio
wakeup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017553159A
Other languages
English (en)
Other versions
JP2018517919A (ja
Inventor
均▲揚▼ 周
均▲揚▼ 周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2018517919A publication Critical patent/JP2018517919A/ja
Application granted granted Critical
Publication of JP6564058B2 publication Critical patent/JP6564058B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/725Cordless telephones
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

本発明はモバイル通信技術の分野に関し、詳細には、音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末に関する。
現在、モバイルハンドヘルド端末の人気が高まっており、特に携帯電話、タッチスクリーン技術もますます成熟してきている。タッチスクリーン技術は、ユーザの動作を容易にするが、呼び出し対話を完了するために複数のタッチステップが行われる必要があり、ユーザが運転している、またはタッチを行うのに都合が悪いとき、呼び出しをし損なうことがある。
従って音声認識技術に基づいて呼び出しをすること、またはSMSメッセージを送ることなどの機能が出現している。さらに現在、新しく重要なユーザ対話技術として音声認識は、モバイル端末にますます広く適用されている。
しかし、音声認識技術に基づいて呼び出しをすること、またはSMSメッセージを送ることなどの現在のサービスは、タッチスクリーン技術が協調的に用いられるときにのみ実施されることができる。
本発明の実施形態は、音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末を提供する。ユーザは1つの命令だけを送ることが必要であり、ユーザの要求は満たされることができる。ユーザはタッチスクリーンの助けを必要とせず、複数の命令を入力することも必要としない。
第1の態様によれば本発明の実施形態は、音声認識方法を提供し、方法は、
音声ウェイクアップ装置によって、周囲環境における音声情報を聴取するステップと、
聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、音声ウェイクアップ装置によって、聴取することによって取得される第1のプリセットされた持続時間の音声情報をバッファし、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るステップであって、トリガ信号は、音声認識装置に対して、音声認識装置がイネーブルされた後、音声ウェイクアップ装置によってバッファされた音声情報を読み出し、認識するように指示するために用いられる、ステップとを含む。
第1の態様に関連して、第1の態様の第1の可能な実装形態において、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップは、
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップを含む。
第1の態様に関連して、第1の態様の第2の可能な実装形態において、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップは、
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声信号の声紋特徴を抽出し、抽出された声紋特徴が所定の声紋特徴と一致すると決定し、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップを含む。
第2の態様に関連して、本発明の実施形態は、音声認識方法を提供し、方法は、
音声認識装置によって、音声ウェイクアップ装置によって送られたトリガ信号を受信するステップであって、トリガ信号は、音声認識装置に対して、それ自体をイネーブルし、音声ウェイクアップ装置によってバッファされた第1の音声情報を認識するように指示するために用いられる、ステップと、
トリガ信号を受信した後、音声認識装置によって、それ自体をイネーブル化し、第2のプリセットされた持続時間の第2の音声情報を聴取するステップと、
音声ウェイクアップ装置によってバッファされた第1の音声情報、および聴取することによって取得された第2の音声情報を認識して、認識結果を取得するステップとを含む。
第2の態様に関連して、第2の態様の第1の可能な実装形態において、音声認識装置が認識結果を取得した後、方法は、
音声認識装置によって、取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行うステップと、
一致した音声命令情報に対応する動作を、音声認識装置によって行うステップとをさらに含む。
第2の態様、または第2の態様の第1の可能な実装形態に関連して、第2の態様の第2の可能な実装形態において方法は、
トリガ信号が受信された後、第3のプリセットされた持続時間内でトリガ信号が再び受信されなかったと決定したとき、音声認識装置によってそれ自体を自動的にディセーブルするステップをさらに含む。
第3の態様によれば、本発明の実施形態は、音声認識方法を提供し、方法は、
音声ウェイクアップ装置によって、周囲環境における音声情報を聴取するステップと、
聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、音声ウェイクアップ装置によって、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るステップとを含む。
第3の態様に関連して、第3の態様の第1の可能な実装形態において、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップは、
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップを含む。
第3の態様に関連して、第3の態様の第2の可能な実装形態において、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップは、
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声信号の声紋特徴を抽出し、抽出された声紋特徴が所定の声紋特徴と一致すると決定し、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップを含む。
第4の態様によれば本発明の実施形態は、音声認識方法を提供し、方法は、
音声認識装置によって、音声ウェイクアップ装置によって送られたトリガ信号を受信するステップと、
音声認識装置によって、トリガ信号を受信した後、それ自体をイネーブル化し、ユーザに音声プロンプト命令を送るステップと、
音声認識装置によって、音声プロンプト命令に従ってユーザによって入力された音声信号を記録し、音声信号に対する認識を行って認識結果を取得するステップとを含む。
第5の態様によれば本発明の実施形態はさらに、音声ウェイクアップ装置を提供し、装置は、
周囲環境における音声情報を聴取するように構成された聴取モジュールと、
聴取モジュールによって聴取することによって取得された音声情報が、音声ウェイクアップモデルと一致するかどうかを決定するように構成された決定モジュールと、
決定モジュールが、聴取モジュールによって聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、聴取モジュールによって聴取することによって取得される第1のプリセットされた持続時間の音声情報をバッファするように構成されたバッファモジュールと、
音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成された送出モジュールであって、トリガ信号は、音声認識装置に対して、音声認識装置がイネーブルされた後、音声ウェイクアップ装置によってバッファされた音声情報を読み出し、認識するように指示するために用いられる、送出モジュールとを含む。
第5の態様に関連して、第5の態様の第1の可能な実装形態において、決定モジュールは、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するように特に構成される。
第5の態様に関連して、第5の態様の第2の可能な実装形態において、装置は、
決定モジュールが、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声信号の声紋特徴を抽出するように構成された抽出モジュールをさらに含み、
決定モジュールは、抽出モジュールによって抽出された声紋特徴が所定の声紋特徴と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するようにさらに構成される。
第6の態様によれば本発明の実施形態は、音声認識装置を提供し、装置は、
音声ウェイクアップ装置によって送られたトリガ信号を受信するように構成された受信モジュールであって、トリガ信号は、音声認識装置に対して、それ自体をイネーブルし、音声ウェイクアップ装置によってバッファされた第1の音声情報を認識するように指示するために用いられる、受信モジュールと、
受信モジュールがトリガ信号を受信した後、それ自体をイネーブルし、第2のプリセットされた持続時間の第2の音声情報を聴取するように構成された聴取モジュールと、
音声ウェイクアップ装置によってバッファされた第1の音声情報、および聴取モジュールによって聴取することによって取得された第2の音声情報を認識して、認識結果を取得するように構成された認識モジュールとを含む。
第6の態様に関連して、第6の態様の第1の可能な実装形態において、この装置は、
認識モジュールが認識を行った後に取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行うように構成された突き合わせモジュールと、
一致した音声命令情報に対応する動作を行うように構成された実行モジュールとをさらに含む。
第6の態様、または第6の態様の第1の可能な実装形態に関連して、第6の態様の第2の可能な実装形態において、装置は、
トリガ信号が受信された後、第3のプリセットされた持続時間内でトリガ信号が再び受信されなかったとき、音声認識モジュールをディセーブルするように構成されたディセーブル化モジュールをさらに含む。
第7の態様によれば、本発明の実施形態は、音声ウェイクアップ装置を提供し、装置は、
周囲環境における音声情報を聴取するように構成された聴取モジュールと、
聴取することによって取得された音声情報が音声ウェイクアップモデルと一致するかどうかを決定するように構成された決定モジュールと、
決定モジュールが、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成された送出モジュールとを含む。
第7の態様に関連して、第7の態様の第1の可能な実装形態において、決定モジュールは、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するように特に構成される。
第7の態様に関連して、第7の態様の第2の可能な実装形態において、装置は、
決定モジュールが、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声信号の声紋特徴を抽出するように構成された抽出モジュールをさらに含み、
決定モジュールは、抽出された声紋特徴が所定の声紋特徴と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するように特に構成される。
第8の態様によれば本発明の実施形態は、音声認識装置を提供し、装置は、
音声ウェイクアップ装置によって送られたトリガ信号を受信するように構成された受信モジュールと、
受信モジュールがトリガ信号を受信した後、それ自体をイネーブルし、ユーザに音声プロンプト命令を送るように構成された送出モジュールと、
音声プロンプト命令に従ってユーザによって入力された音声信号を記録し、音声信号を認識して認識結果を取得するように構成された処理モジュールとを含む。
第9の態様によれば、本発明の実施形態は、端末を提供し、端末は、
音声ウェイクアップ装置と、音声認識装置とを含み、
音声ウェイクアップ装置は、周囲環境における音声情報を聴取し、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、第1のプリセットされた持続時間内で聴取することによって取得される第1の音声情報をバッファし、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成され、
音声認識装置は、音声ウェイクアップ装置によって送られたトリガ信号を受信した後、それ自体をイネーブルし、第2のプリセットされた持続時間内で第2の音声情報を聴取し、音声ウェイクアップ装置によってバッファされた第1の音声情報、および聴取することによって取得された第2の音声情報を認識して認識結果を取得するように構成される。
第9の態様に関連して、第9の態様の第1の可能な実装形態において、音声ウェイクアップ装置は、デジタル信号プロセッサDSPである。
第9の態様、または第9の態様の第1の可能な実装形態に関連して、第9の態様の第2の可能な実装形態において、音声認識装置は、アプリケーションプロセッサAPである。
本発明の実施形態において提供される解決策を用いることによって、ユーザは1つの命令だけを送ることが必要であり、ユーザの要求は満たされることができる。さらに、解決策は、端末が待機状態にあるか非待機状態にあるかに関わらず適用可能である。さらに、音声ウェイクアップ装置は、聴取することによって取得された音声情報をバッファし、音声認識装置は、イネーブルされた後に第2の音声情報を聴取し、バッファされた第1の音声情報および第2の音声情報を認識し、それにより音声認識装置がウェイクアップされた後に音声情報の取得を開始したとき、音声認識装置がイネーブルされる前にユーザによって送られた部分的音声情報の喪失が回避されることができる。
本発明の実施形態による端末の概略構成図である。 本発明の実施形態による音声認識方法のフローチャートである。 本発明の実施形態による音声認識方法の別のフローチャートである。 本発明の実施形態による音声認識方法のさらに別のフローチャートである。 本発明の実施形態による音声認識方法のまたさらに別のフローチャートである。 本発明の実施形態による音声ウェイクアップ装置の概略図である。 本発明の実施形態による音声認識装置の概略図である。 本発明の実施形態による音声ウェイクアップ装置の別の概略図である。 本発明の実施形態による音声認識装置の別の概略図である。 本発明の実施形態による音声認識方法の概略図である。
本発明の目的、技術的解決策、および利点をより明らかにするために、以下ではさらに本発明を添付の図面を参照して詳しくさらに述べる。明らかに、説明する実施形態は本発明の実施形態のすべてではなく単に一部である。本発明の実施形態に基づいて当業者によって創造的な努力なしに得られる他のすべての実施形態は、本発明の保護範囲に入るものである。
本発明の実施形態は、音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末を提供する。ユーザは1つの命令だけを送る必要があり、ユーザの要求は満たされることができる。ユーザはタッチスクリーンの助けを必要とせず、複数の命令を入力することも必要としない。方法および装置は、同じ発明の概念に基づく。方法および装置によって問題を解決するための原理は同様であるので、端末、装置、および方法の実装形態は互いに参照してよく、繰り返しの説明は提供されない。
本発明の実施形態は、端末を提供する。図1に示されるように、端末は、音声ウェイクアップ装置101、および音声認識装置102を含む。
音声ウェイクアップ装置101は、デジタル信号プロセッサ(Digital Signal Processor、略してDSP)を用いることによって実施され得る。音声認識装置102は、アプリケーションプロセッサ(Application Processor、略してAP)を用いることによって実施され得る。音声認識装置102はさらに、中央処理装置(Central Process Unit、略してCPU)を用いることによって実施され得る。
音声ウェイクアップ装置101は、周囲環境における音声情報を聴取し、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、第1のプリセットされた持続時間内で聴取することによって取得される第1の音声情報をバッファし、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成される。
音声認識装置102は、音声ウェイクアップ装置によって送られたトリガ信号を受信した後、それ自体をイネーブルし、第2のプリセットされた持続時間内で第2の音声情報を聴取し、音声ウェイクアップ装置によってバッファされた第1の音声情報、および聴取することによって取得された第2の音声情報を認識して、認識結果を取得するように構成される。
任意選択で、トリガ信号が受信された後、第3のプリセットされた持続時間内でトリガ信号が再び受信されなかったと決定したとき、音声認識装置102はそれ自体を自動的にディセーブルする。
本発明のこの実施形態において提供される解決策を用いることによって、ユーザは1つの命令だけを送ることが必要であり、ユーザの要求は満たされることができる。さらに解決策は、端末が待機状態にあるか非待機状態にあるかに関わらず適用可能である。さらに音声ウェイクアップ装置は、聴取することによって取得された音声情報をバッファし、音声認識装置は、イネーブルされた後に第2の音声情報を聴取し、バッファされた第1の音声情報および第2の音声情報を認識し、それにより音声認識装置がウェイクアップされた後に音声情報の取得を開始したとき、音声認識装置がイネーブルされる前にユーザによって送られた部分的音声情報の喪失を回避することができる。
具体的には、一般にDSPがトリガ信号をイニシエートした後、イネーブルされた後、APは記録を行うために記録チャネルをイネーブルする。一般に、記録は、APがイネーブルされた後に開始される。しかし、この解決策において、APがイネーブルされる前に、DSPはウェイクアップ情報を受信したとき、記録およびバッファリングを行うことを開始する。イネーブルされた後に、APは、音声情報を取得するために記録を行い続け、次いでDSPバッファから読み出された音声情報、およびAPがイネーブルされた後に取得された音声情報を認識する。ワンショットシナリオでは、DSPをウェイクアップしてから、DSPによる命令を送出するまでには、時間差がある。APがイネーブルされた後に記録が行われる場合、APがイネーブルされた後の音声情報のみが記録されることができ、上記の時間差内の音声情報は失われる。しかし、DSPがウェイクアップされたときに記録が開始され、バッファされる場合、上記の時間差内の音声情報は取得されることができる。
例えばウェイクアップワードを話し始める時点はt0、ウェイクアップワードを話し終わる時点はt1、コマンドワードを話し始める時点はt2、APをイネーブルする時点はt3である。バッファは、t0からt3までの音声情報を含む。しかし、APがイネーブルされたときにのみ記録が行われる場合、t3後の音声情報のみが記録されることができ、t0からt3までの音声情報は記録されることができない。従って本発明のこの実施形態において提供される解決策では、ウェイクアップのために用いられる音声情報の後の音声情報は取得されることができ、音声情報の喪失は回避され、それによって音声認識を改善する。
任意選択で、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するために、下記の方法が特に用いられることがある。
第1の実装形態:
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声情報は、音声ウェイクアップモデルと一致する。
ユーザは、前もってプロンプト、例えば「やあ、リトルE」に従って、音声ウェイクアップ装置にウェイクアップ音声情報を設定することができる。代替的に、ウェイクアップ音声情報は、工場渡しの時点で端末にプリセットされる。周囲環境における音声情報を検出するとき、音声ウェイクアップ装置は音声情報を、記憶されたウェイクアップ音声情報と比較する。2つが同じ場合、音声情報は音声ウェイクアップモデルと一致し、トリガ命令が音声認識装置102に送られ、または、2つが異なる場合、音声ウェイクアップ装置101は、現在の検出された音声情報を捨てて、検出および決定作業を行い続け得る。
第2の実装形態:
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声信号の声紋特徴が抽出され、抽出された声紋特徴は所定の声紋特徴と一致し、聴取することによって取得された音声情報は音声ウェイクアップモデルと一致する。
声紋特徴は、下記の特徴の1つまたは複数を含む。
ピッチ曲線、線形予測係数、スペクトル包絡線パラメータ、高調波エネルギー比率、共鳴ピーク周波数およびその帯域幅、ケプストラム(パワーケプストラムとも呼ばれる)、またはメル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficient、略してMFCC)などの声紋特徴を反映する音響パラメータ。この実施形態は、上記で述べられた声紋特徴パラメータに限定されない。
本発明のこの実施形態において、設定装置がさらに含まれ得る。ユーザの声紋特徴は予め抽出され、音声ウェイクアップ装置に記憶される。例えばユーザは、プロンプトに従って、音声情報を設定モジュールの内部に記録し、次いで声紋特徴を抽出し、抽出された声紋特徴を音声ウェイクアップ装置に記憶し得る。
本発明のこの実施形態において提供される解決策を用いることによって、声紋特徴がウェイクアップモデルに追加され、周囲環境におけるノイズ、および他のユーザの音声入力はフィルタ除去されることができるようにし、音声ウェイクアップ装置は、ユーザに対して信頼性のあるセキュリティをもたらすことができるようにする。
任意選択で、音声認識装置が認識結果を取得した後、音声認識装置は、取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行い、音声認識装置は、一致した音声命令情報に対応する動作の実行を制御する。
音声命令情報は、音声認識装置に予め記憶される。音声認識装置は、複数の音声命令情報を含む。
本発明のこの実施形態において、音声命令情報に対応する動作を行う実行モジュールがさらに含まれ得る。音声認識装置は、音声命令情報に対応する動作を行う実行モジュールに、実行命令を送り得る。例えばスピーカ、発光装置などが含まれる。
例えば周囲環境における音声情報がウェイクアップモデルを満足することを検出したとき、音声ウェイクアップモジュールは、2秒などの第1のプリセットされた持続時間の第1の音声情報をバッファし、音声認識モジュールをトリガしてそれ自体をイネーブルして第2の音声情報を聴取し、次いでバッファされた第1の音声情報および第2の音声情報を認識し、認識結果を音声命令情報とをファジー的に比較して、音声情報が音声命令情報の1つと一致するかどうかを決定する。例えば音声命令情報は、「着信音を再生」または「MP3を再生」など、着信音またはMP3を再生するよう指示する音声命令情報を含み、または「あなたはどこ?」など、答えるように指示する音声命令情報、または「カメラフラッシュをオンする」など、カメラフラッシュを点灯させるように指示する音声命令情報を含む。
携帯電話などの端末デバイスは、本発明のこの実施形態において提供される解決策を用いることによってサーチされることがある。自宅では一般に、携帯電話はランダムに置かれ、使用に必要な場合に携帯電話を見つけるのに多少の時間がかかる。本発明のこの実施形態において提供される解決策を用いることによって、「こんにちは、リトルE、あなたはどこ?」が発声されることができる。従って、携帯電話の音声ウェイクアップモジュールは音声情報を検出し、音声情報と、音声ウェイクアップモデル(例えば、ウェイクアップ音声情報は「こんにちは、リトルE」である)との間の突き合わせを行う。音声情報が音声ウェイクアップモデルと一致したとき、音声情報はバッファ内にバッファされ、トリガ信号が音声認識モジュールに送られる。音声認識モジュールはそれ自体をイネーブルし、音声情報を聴取し始め、次いでバッファされた音声情報、および聴取することによって取得された音声情報を認識して、認識結果(テキスト結果は、「こんにちは、リトルE、あなたはどこ」である)を取得し、テキスト結果と音声命令情報との間の突き合わせを行う。例えば「こんにちは、リトルE、あなたはどこ」と一致する音声命令情報がMP3再生である場合、ユーザに促すようにMP3音楽が再生される。
本発明のこの実施形態において提供される解決策を用いることによって、呼び出しがなされることがある。携帯電話が待機状態にあるか画面ロック状態にあるかに関わらず、携帯電話の音声ウェイクアップモジュールは常にイネーブルされた状態にあり、ユーザによって送られる音声情報は、例えば「こんにちは、リトルE、リトルAを呼び出す」を聴取することによって取得されることができるようにする。次いで呼び出しが直接なされることができ、いかなる他の動作も必要ない。
本発明の実施形態はさらに、音声認識方法を提供する。図2に示されるように方法は下記を含む。
ステップ201:音声ウェイクアップ装置は、周囲環境における音声情報を聴取する。
ステップ202:聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、音声ウェイクアップ装置は、聴取することによって取得される第1のプリセットされた持続時間の音声情報をバッファし、音声認識装置のイネーブル化をトリガするためのトリガ信号を送り、トリガ信号は、音声認識装置に対して、音声認識装置がイネーブルされた後、音声ウェイクアップ装置によってバッファされた音声情報を読み出し、認識するように指示するために用いられる。
本発明のこの実施形態において提供される解決策を用いることによって、ユーザは1つの命令だけを送ることが必要であり、ユーザの要求は満たされることができる。さらに解決策は、端末が待機状態にあるか非待機状態にあるかに関わらず適用可能である。さらに、聴取することによって取得された音声情報はバッファされ、音声認識装置はイネーブルされ、音声認識装置は音声情報を聴取し、次いでバッファされた音声情報および聴取することによって取得された音声情報を認識し、音声認識装置がウェイクアップされた後に音声情報を取得し始めるときに部分的音声情報の喪失を回避されることができるようにし、音声認識が改善される。
任意選択で、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するために、下記の方法が特に用いられることがある。
第1の実装形態:
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声情報は、音声ウェイクアップモデルと一致する。
第2の実装形態:
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声信号の声紋特徴が抽出され、抽出された声紋特徴は所定の声紋特徴と一致し、聴取することによって取得された音声情報は音声ウェイクアップモデルと一致する。
本発明の実施形態はさらに、音声認識方法を提供する。図3に示されるように、方法は下記を含む。
ステップ301:音声認識装置は音声ウェイクアップ装置によって送られたトリガ信号を受信し、トリガ信号は、音声認識装置に対して、それ自体をイネーブルし、音声ウェイクアップ装置によってバッファされた第1の音声情報を認識するように指示するために用いられる。
ステップ302:トリガ信号を受信した後、音声認識装置はイネーブルされ、音声認識装置は第2のプリセットされた持続時間の第2の音声情報を聴取する。
ステップ303:音声ウェイクアップ装置によってバッファされた第1の音声情報、および聴取することによって取得された第2の音声情報を認識して、認識結果を取得する。
本発明のこの実施形態において提供される解決策を用いることによって、ユーザは1つの命令を送ることだけが必要であり、ユーザの要求は満たされることができる。さらに解決策は、端末が待機状態にあるか非待機状態にあるかに関わらず適用可能である。さらに聴取することによって取得された音声情報はバッファされ、音声認識装置はイネーブルされ、音声認識装置は音声情報を聴取し、次いでバッファされた音声情報および聴取することによって取得された音声情報を認識し、音声認識装置がウェイクアップされた後に音声情報を取得し始めるときに部分的音声情報の喪失を回避されることができるようにし、音声認識が改善される。
任意選択で、音声認識装置が認識結果を取得した後、方法は、
音声認識装置によって、取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行うステップと、
音声認識装置によって、一致した音声命令情報に対応する動作の実行を制御するステップとをさらに含む。
任意選択で、トリガ信号が受信された後、第3のプリセットされた持続時間内でトリガ信号が再び受信されなかったと決定したとき、音声認識装置はそれ自体を自動的にディセーブルする。
本発明の実施形態はさらに、音声認識方法を提供する。図4に示されるように方法は下記を含む。
ステップ401:音声ウェイクアップ装置は、周囲環境における音声情報を聴取する。
ステップ402:聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、音声ウェイクアップ装置は、音声認識装置のイネーブル化をトリガするためのトリガ信号を送る。
任意選択で、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するために、下記の方法が特に用いられることがある。
第1の実装形態:
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声情報は、音声ウェイクアップモデルと一致する。
第2の実装形態:
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声信号の声紋特徴が抽出され、抽出された声紋特徴は所定の声紋特徴と一致し、聴取することによって取得された音声情報は音声ウェイクアップモデルと一致する。
本発明のこの実施形態において提供される解決策を用いることによって、ユーザは1つの命令だけを送ることが必要であり、ユーザの要求は満たされることができる。さらに、解決策は、端末が待機状態にあるか非待機状態にあるかに関わらず適用可能である。さらに、聴取することによって取得された音声情報はバッファされ、音声認識装置はそれ自体をイネーブルし、音声情報を聴取し、次いでバッファされた音声情報および聴取することによって取得された音声情報を認識し、音声認識装置がウェイクアップされた後に音声情報を取得し始めるときに部分的音声情報の喪失を回避されることができるようにし、音声認識が改善される。
本発明の実施形態はさらに、音声認識方法を提供する。図5に示されるように、方法は下記を含む。
ステップ501:音声認識装置は、音声ウェイクアップ装置によって送られたトリガ信号を受信する。
ステップ502:トリガ信号を受信した後、音声認識装置はそれ自体をイネーブルし、ユーザに音声プロンプト命令を送る。
ステップ503:音声認識装置は、音声プロンプト命令に従ってユーザによって入力された音声信号を記録し、音声信号を認識して認識結果を取得する。
本発明のこの実施形態において提供される解決策を用いることによって、ユーザは1つの命令だけを送ることが必要であり、ユーザの要求は満たされることができる。さらに解決策は、端末が待機状態にあるか非待機状態にあるかに関わらず適用可能である。
任意選択で、音声認識装置が、音声信号を認識して認識結果を取得した後、方法は、
音声認識装置によって、取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行うステップと、
音声認識装置によって、一致した音声命令情報に対応する動作の実行を制御するステップとをさらに含む。
本発明の実施形態はさらに、音声ウェイクアップ装置を提供する。図6に示されるように、装置は、
周囲環境における音声情報を聴取するように構成された聴取モジュール601と、
聴取モジュール601によって聴取することによって取得された音声情報が、音声ウェイクアップモデルと一致するかどうかを決定するように構成された決定モジュール602と、
決定モジュール602が、聴取モジュール601によって聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、聴取モジュール601によって聴取することによって取得される第1のプリセットされた持続時間の音声情報をバッファするように構成されたバッファモジュール603と、
音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成された送出モジュール604であって、トリガ信号は、音声認識装置に対して、音声認識装置がイネーブルされた後、音声ウェイクアップ装置によってバッファされた音声情報を読み出し、認識するように指示するために用いられる、送出モジュール604とを含む。
本発明のこの実施形態において提供される解決策を用いることによって、ユーザは1つの命令だけを送ることが必要であり、ユーザの要求は満たされることができる。さらに、解決策は、端末が待機状態にあるか非待機状態にあるかに関わらず適用可能である。さらに、聴取することによって取得された音声情報はバッファされ、音声認識装置はそれ自体をイネーブルし、音声情報を聴取し、次いでバッファされた音声情報および聴取することによって取得された音声情報を認識し、音声認識装置がウェイクアップされた後に音声情報を取得し始めるとき、部分的音声情報の喪失を回避されることができ、音声認識が改善される。
任意選択で、決定モジュール602は、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するように特に構成される。
任意選択で、装置は、
決定モジュール602が、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声信号の声紋特徴を抽出するように構成された抽出モジュールをさらに含み、
決定モジュール602は、抽出モジュールによって抽出された声紋特徴が所定の声紋特徴と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するようにさらに構成される。
本発明の実施形態はさらに、音声認識装置を提供する。図7に示されるように、装置は、
音声ウェイクアップ装置によって送られたトリガ信号を受信するように構成された受信モジュール701であって、トリガ信号は、音声認識装置に対して、それ自体をイネーブルし、音声ウェイクアップ装置によってバッファされた第1の音声情報を認識するように指示するために用いられる、受信モジュール701と、
受信モジュール701がトリガ信号を受信した後、それ自体をイネーブルし、第2のプリセットされた持続時間の第2の音声情報を聴取するように構成された聴取モジュール702と、
音声ウェイクアップ装置によってバッファされた第1の音声情報、および聴取モジュールによって聴取することによって取得された第2の音声情報を認識して、認識結果を取得するように構成された認識モジュール703とを含む。
本発明のこの実施形態において提供される解決策を用いることによって、ユーザは1つの命令だけを送ることが必要であり、ユーザの要求は満たされることができる。さらに、解決策は、端末が待機状態にあるか非待機状態にあるかに関わらず適用可能である。
任意選択で、装置は、
認識モジュール703が認識を行った後に取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行うように構成された突き合わせモジュールと、
一致した音声命令情報に対応する動作を行うように構成された実行モジュールとをさらに含む。
任意選択で、装置は、
受信モジュールがトリガ信号を受信した後、第3のプリセットされた持続時間内でトリガ信号が再び受信されなかったとき、音声認識モジュールをディセーブルするように構成されたディセーブル化モジュールをさらに含む。
本発明のこの実施形態において提供される解決策を用いることによって、ユーザは1つの命令だけを送ることが必要であり、ユーザの要求は満たされることができる。さらに、解決策は、端末が待機状態にあるか非待機状態にあるかに関わらず適用可能である。さらに、聴取することによって取得された音声情報はバッファされ、音声認識装置はそれ自体をイネーブルし、音声情報を聴取し、次いでバッファされた音声情報および聴取することによって取得された音声情報を認識し、音声認識装置がウェイクアップされた後に音声情報を取得し始めるときに部分的音声情報の喪失を回避されることができるようにし、音声認識が改善される。
本発明の実施形態はさらに、音声ウェイクアップ装置を提供する。図8に示されるように、装置は、
周囲環境における音声情報を聴取するように構成された聴取モジュール801と、
聴取することによって取得された音声情報が音声ウェイクアップモデルと一致するかどうかを決定するように構成された決定モジュール802と、
決定モジュール802が、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成された送出モジュール803とを含む。
任意選択で決定モジュール802は、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するように特に構成される。
任意選択で、装置は、
決定モジュール802が、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声信号の声紋特徴を抽出するように構成された抽出モジュールをさらに含み、
決定モジュール802は、抽出された声紋特徴が所定の声紋特徴と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するように特に構成される。
本発明の実施形態は、音声認識装置を提供する。図9に示されるように、装置は、
音声ウェイクアップ装置によって送られたトリガ信号を受信するように構成された受信モジュール901と、
受信モジュール901がトリガ信号を受信した後、それ自体をイネーブルし、ユーザに音声プロンプト命令を送るように構成された送出モジュール902と、
音声プロンプト命令に従ってユーザによって入力された音声信号を記録し、音声信号を認識して認識結果を取得するように構成された処理モジュール903とを含む。
本発明のこの実施形態において提供される解決策を用いることによって、ユーザは1つの命令だけを送ることが必要であり、ユーザの要求は満たされることができる。さらに、解決策は、端末が待機状態にあるか非待機状態にあるかに関わらず適用可能である。
以下では、図10に示されるように、ソフトウェア実装処理を参照して本発明の実施形態について具体的に説明する。
ソフトウェアの観点から、音声認識モジュールは、ドライブレイヤ、オーディオハードウェア抽象化レイヤ(Audio HAL)、フレームワーク(Framework)レイヤ、音声認識エンジン(VA Service)、およびアプリケーション設定(Setting)に分割されることができる。
P1.イベントを報告する。具体的には、ドライブレイヤは、DSPからトリガ信号を受信した後、トリガイベントをFrameworkに報告する。
P2.イベントを報告する。具体的には、Audio HALは、上記のトリガイベントをVA Serviceに報告する。
P3.パラメータを設定する。具体的には、それはバッファからデータを読み出すように設定される。
P4.VA Serviceをイネーブルする。
P5.VA Serviceは、Frameworkに記録イネーブル命令を送る。
P6.Frameworkは、記録イネーブル命令を受信した後、オーディオデータ読み出し命令をAudio HALに送る。
P7.Audio HALは、Frameworkによって送られたオーディオデータ読み出し命令を受信した後、Bufferデータに対する読み出しをイネーブルする。
P8.Audio HALは、Bufferデータ取得命令をドライブに送り、それによりドライブはBufferデータ取得命令をDSPに送り、次いでDSPはBufferデータをドライブに送る。
P9.ドライブは、受信されたBufferデータをVA Serviceに報告する。
P10.VA Serviceは、Bufferデータおよび記録データに対して、認識処理を行う。
P11.VA Serviceは、記録停止命令をFrameworkに送る。
P12.Frameworkは、記録停止命令を受信した後、オーディオデータ読み出し停止命令をAudio HALに送る。
P13.Audio HALは、Frameworkによって送られたオーディオデータ読み出し停止命令を受信した後、Bufferデータに対する読み出しをディセーブルする。
P14.Audio HALは、Bufferデータ取得停止命令をドライブに送る。
当業者は、本発明の実施形態が、方法、システム、またはコンピュータプログラム製品として提供されることがあることを理解するべきである。従って、本発明は、ハードウェアのみの実施形態、ソフトウェアのみの実施形態、またはソフトウェアおよびハードウェアの組み合わせによる実施形態の形式を用いることがある。さらに、本発明は、コンピュータ使用可能プログラムコードを含む1つまたは複数のコンピュータ使用可能記憶媒体(限定的ではないが、ディスクメモリ、CD−ROM、光メモリなどを含む)上において実施されるコンピュータプログラム製品の形式を用いることがある。
本発明については、本発明の実施形態による方法、デバイス(システム)、およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照して説明する。コンピュータプログラム命令は、フローチャートおよび/またはブロック図における各処理および/または各ブロック、ならびにフローチャートおよび/またはブロック図における処理および/またはブロックの組み合わせを実施するために用いられることがあることを理解されるべきである。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ、埋め込みプロセッサ、またはマシンを生成する他の任意のプログラマブルデータ処理デバイスに対して提供されてよく、それによりコンピュータまたは他の任意のプログラマブルデータ処理デバイスのコンピュータまたはプロセッサによって実行される命令は、フローチャートにおける1つまたは複数の処理、および/またはブロック図における1つまたは複数のブロックにおいて、特定の機能を実施するための装置を生成する。
これらのコンピュータプログラム命令は、コンピュータまたは他の任意のプログラマブルデータ処理デバイスに特定の方法で動くように指示することができるコンピュータ可読メモリに記憶されてよく、したがってコンピュータ可読メモリに記憶された命令は、指示装置を含む人工物を生成する。指示装置は、フローチャートの1つまたは複数の処理、および/またはブロック図の1つまたは複数のブロックにおける特定の機能を実施する。
これらのコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理デバイス上にロードされてよく、したがって一連の動作およびステップがコンピュータまたは他のプログラマブルデバイス上で行われ、それによってコンピュータによって実施される処理を生成する。従って、コンピュータまたは他のプログラマブルデバイス上で実行される命令は、フローチャートの1つまたは複数の処理、および/またはブロック図の1つまたは複数のブロックにおける特定の機能を実施するためのステップを提供する。
本発明のいくつかの実施形態が述べられたが、当業者は、基本的な発明概念を習得した後、これらの実施形態に変更および修正を行うことができる。従って、下記の特許請求の範囲は、実施形態、および本発明の範囲内に入るすべての変更および修正を包含すると解釈されるものである。
明らかに、当業者は本発明の実施形態の趣旨および範囲から逸脱せずに、本発明の実施形態に様々な修正および変形を行うことができる。本発明はこれらの修正および変形を、それらが以下の特許請求の範囲およびそれらの等価な技術によって定義される保護の範囲内に入ることを条件として包含するものである。
さらに、本発明の実施形態は、以下において提供される。以下のセクションにおいて使用される番号設定は、必ずしも前述のセクションで使用されている番号設定と一致するものではない。
実施形態1.音声ウェイクアップ装置によって、周囲環境における音声情報を聴取するステップと、
聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致すると決定したとき、前記音声ウェイクアップ装置によって、聴取することによって取得される、第1のプリセットされた持続時間の音声情報をバッファし、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るステップであって、前記トリガ信号は、前記音声認識装置に対して、前記音声認識装置がイネーブルされた後、前記音声ウェイクアップ装置によってバッファされた前記音声情報を読み出し、認識するように指示するために用いられる、ステップと
を含む音声認識方法。
実施形態2.聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致すると決定する前記ステップは、
聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するステップを含む実施形態1に記載の方法。
実施形態3.聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致すると決定する前記ステップは、
聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声信号の声紋特徴を抽出し、前記抽出された声紋特徴が所定の声紋特徴と一致すると決定し、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するステップを含む実施形態1に記載の方法。
実施形態4.音声認識装置によって、音声ウェイクアップ装置によって送られたトリガ信号を受信するステップであって、前記トリガ信号は、前記音声認識装置に対して、それ自体をイネーブルし、前記音声ウェイクアップ装置によってバッファされた第1の音声情報を認識するように指示するために用いられる、ステップと、
前記トリガ信号を受信した後、前記音声認識装置によって、それ自体をイネーブル化し、第2のプリセットされた持続時間の第2の音声情報を聴取するステップと、
前記音声ウェイクアップ装置によってバッファされた前記第1の音声情報、および聴取することによって取得された前記第2の音声情報を認識して、認識結果を取得するステップと
を含む音声認識方法。
実施形態5.前記音声認識装置が前記認識結果を取得した後、前記方法は、
前記音声認識装置によって、前記取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行うステップと、
前記音声認識装置によって、一致した音声命令情報に対応する動作を行うステップとをさらに含む実施形態4に記載の方法。
実施形態6.前記トリガ信号が受信された後、第3のプリセットされた持続時間内で前記トリガ信号が再び受信されなかったと決定したとき、前記音声認識装置によってそれ自体を自動的にディセーブルするステップをさらに含む実施形態4または5に記載の方法。
実施形態7.音声ウェイクアップ装置によって、周囲環境における音声情報を聴取するステップと、
聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致すると決定したとき、前記音声ウェイクアップ装置によって、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るステップと
を含む音声認識方法。
実施形態8.聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致すると決定する前記ステップは、
聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するステップを含む実施形態7に記載の方法。
実施形態9.聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致すると決定する前記ステップは、
聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声信号の声紋特徴を抽出し、前記抽出された声紋特徴が所定の声紋特徴と一致すると決定し、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するステップを含む実施形態7に記載の方法。
実施形態10.音声認識装置によって、音声ウェイクアップ装置によって送られたトリガ信号を受信するステップと、
前記音声認識装置によって、前記トリガ信号を受信した後、それ自体をイネーブル化し、ユーザに音声プロンプト命令を送るステップと、
前記音声認識装置によって、前記音声プロンプト命令に従って前記ユーザによって入力された音声信号を記録し、前記音声信号に対する認識を行って認識結果を取得するステップと
を含む音声認識方法。
実施形態11.周囲環境における音声情報を聴取するように構成された聴取モジュールと、
前記聴取モジュールによって聴取することによって取得された前記音声情報が、音声ウェイクアップモデルと一致するかどうかを決定するように構成された決定モジュールと、
前記決定モジュールが、前記聴取モジュールによって聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定したとき、前記聴取モジュールによって聴取することによって取得される第1のプリセットされた持続時間の音声情報をバッファするように構成されたバッファモジュールと、
音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成された送出モジュールであって、前記トリガ信号は、前記音声認識装置に対して、前記音声認識装置がイネーブルされた後、前記音声ウェイクアップ装置によってバッファされた前記音声情報を読み出し、認識するように指示するために用いられる、送出モジュールと
を含む音声ウェイクアップ装置。
実施形態12.前記決定モジュールは、聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するように特に構成される実施形態11に記載の装置。
実施形態13.前記決定モジュールが、聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声信号の声紋特徴を抽出するように構成された抽出モジュールをさらに備え、
前記決定モジュールは、前記抽出モジュールによって抽出された前記声紋特徴が所定の声紋特徴と一致すると決定したとき、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するようにさらに構成される実施形態11に記載の装置。
実施形態14.音声ウェイクアップ装置によって送られたトリガ信号を受信するように構成された受信モジュールであって、前記トリガ信号は、前記音声認識装置に対して、それ自体をイネーブルし、前記音声ウェイクアップ装置によってバッファされた第1の音声情報を認識するように指示するために用いられる、受信モジュールと、
前記受信モジュールが前記トリガ信号を受信した後、それ自体をイネーブルし、第2のプリセットされた持続時間の第2の音声情報を聴取するように構成された聴取モジュールと、
前記音声ウェイクアップ装置によってバッファされた前記第1の音声情報、および前記聴取モジュールによって聴取することによって取得された前記第2の音声情報を認識して、認識結果を取得するように構成された認識モジュールと
を備える音声認識装置。
実施形態15.前記認識モジュールが認識を行った後に取得された前記認識結果と、予め記憶された音声命令情報との間の突き合わせを行うように構成された突き合わせモジュールと、
一致した音声命令情報に対応する動作を行うように構成された実行モジュールとをさらに備える実施形態14に記載の装置。
実施形態16.前記トリガ信号が受信された後、第3のプリセットされた持続時間内で前記トリガ信号が再び受信されなかったとき、前記認識モジュールをディセーブルするように構成されたディセーブル化モジュールをさらに備える実施形態14または15に記載の装置。
実施形態17.周囲環境における音声情報を聴取するように構成された聴取モジュールと、
聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致するかどうかを決定するように構成された決定モジュールと、
前記決定モジュールが、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定したとき、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成された送出モジュールと
を備える音声ウェイクアップ装置。
実施形態18.前記決定モジュールは、聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するように特に構成される実施形態17に記載の装置。
実施形態19.前記決定モジュールが、聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声信号の声紋特徴を抽出するように構成された抽出モジュールをさらに備え、
前記決定モジュールは、前記抽出された声紋特徴が所定の声紋特徴と一致すると決定したとき、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するように特に構成される実施形態17に記載の装置。
実施形態20.音声ウェイクアップ装置によって送られたトリガ信号を受信するように構成された受信モジュールと、
前記受信モジュールが前記トリガ信号を受信した後、それ自体をイネーブルし、ユーザに音声プロンプト命令を送るように構成された送出モジュールと、
前記音声プロンプト命令に従って前記ユーザによって入力された音声信号を記録し、前記音声信号を認識して認識結果を取得するように構成された処理モジュールと
を備える音声認識装置。
実施形態21.音声ウェイクアップ装置と、音声認識装置とを備え、
前記音声ウェイクアップ装置は、周囲環境における音声情報を聴取し、聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致すると決定したとき、第1のプリセットされた持続時間内で聴取することによって取得される第1の音声情報をバッファし、前記音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成され、
前記音声認識装置は、前記音声ウェイクアップ装置によって送られた前記トリガ信号を受信した後、それ自体をイネーブルし、第2のプリセットされた持続時間内で第2の音声情報を聴取し、前記音声ウェイクアップ装置によってバッファされた前記第1の音声情報、および聴取することによって取得された前記第2の音声情報を認識して認識結果を取得するように構成される端末。
実施形態22.前記音声ウェイクアップ装置は、デジタル信号プロセッサDSPである実施形態21に記載の端末。
実施形態23.前記音声認識装置は、アプリケーションプロセッサAPである実施形態21または22に記載の端末。

Claims (16)

  1. 周囲環境における音声情報を聴取するステップと、
    第1の音声情報および第2の音声情報を取得するステップであって、前記第1の音声情報は、音声認識装置をイネーブルにするためのウェイクアップ情報と、第1の認識情報を含み、かつ音声ウェイクアップ装置によって聴取され、前記第2の音声情報は、第2の認識情報を含み、かつイネーブル後の前記音声認識装置により聴取される、ステップと、
    前記第1の認識情報および前記第2の認識情報に従って制御情報を取得するステップと、
    前記制御情報に従って動作を行うステップと
    を含む音声制御方法。
  2. 前記ウェイクアップ情報が音声ウェイクアップモデルと一致する場合に、音声認識機能を可能にするためのトリガ信号を生成するステップをさらに含む
    請求項1に記載の方法。
  3. 前記ウェイクアップ情報が音声ウェイクアップモデルと一致することはさらに、前記ウェイクアップ情報が所定のウェイクアップ音声情報と一致する場合に、前記ウェイクアップ情報から声紋特徴を抽出するステップと、前記抽出された声紋特徴が所定の声紋特徴と一致すると決定するステップとを含む
    請求項2に記載の方法。
  4. 前記第2の音声情報が取得されない場合、前記制御情報は、前記第1の認識情報に従って取得される
    請求項1ないしのいずれか1項に記載の方法。
  5. 周囲環境における音声情報を聴取する前記ステップは、待機状態、非待機状態、または画面ロック状態で実施される
    請求項1ないしのいずれか1項に記載の方法。
  6. 前記第1の認識情報に従って動作を行う前記ステップはさらに、前記制御情報がプリセットされた音声命令情報と一致する場合に、プリセットされた音声命令情報に従って実行するステップを含む
    請求項1ないしのいずれか1項に記載の方法。
  7. 前記声紋特徴は、ピッチ曲線、線形予測係数、スペクトル包絡線パラメータ、高調波エネルギー比率、共鳴ピーク周波数およびその帯域幅、ケプストラム、またはメル周波数ケプストラム係数の声紋特徴を反映する音響パラメータを含む
    請求項3に記載の方法。
  8. 前記第1の音声情報は、デジタル信号プロセッサによって取得され、前記第2の音声情報は、アプリケーションプロセッサまたはCPUによって取得される
    請求項1ないしのいずれか1項に記載の方法。
  9. 前記第1の音声情報は、音声ウェイクアップ装置によって取得され、前記第2の音声情報は、音声認識装置によって取得され、前記ウェイクアップ情報が音声ウェイクアップモデルと一致する場合に、音声認識機能を可能にするためのトリガ信号を生成するステップはさらに、
    前記音声ウェイクアップ装置によって、前記ウェイクアップ情報が音声ウェイクアップモデルと一致すると決定するステップと、前記音声認識装置が音声認識機能を活性化することを可能にするためのトリガ信号を生成するステップとを含む
    請求項2に記載の方法。
  10. 前記方法はさらに、
    前記音声ウェイクアップ装置によって、前記トリガ信号を前記音声認識装置に送るステップと、
    前記音声認識装置によって、前記音声認識機能を活性化し、前記第2の音声情報を聴取するステップとを含む
    請求項に記載の方法。
  11. 前記方法はさらに、
    前記音声認識装置によって、前記音声ウェイクアップ装置より取得する前記第1の認識情報、および聴取することによって取得された前記第2の認識情報を認識し、制御情報を取得するステップをさらに含む
    請求項10に記載の方法。
  12. 前記方法はさらに、
    事前に記憶済みのプリセットされた音声命令情報を含む
    請求項1ないし11のいずれか1項に記載の方法。
  13. 前記方法はさらに、前記制御情報に対応する前記動作を行うための実行モジュールに実行命令を送るステップを含む
    請求項1ないし12のいずれか1項に記載の方法。
  14. 1つまたは複数のプロセッサと、
    前記1つまたは複数のプロセッサにより実行するためのプログラミングを記憶するメモリであって、前記プログラミングは命令を含み、前記命令が前記1つまたは複数のプロセッサによって実行されるときに、音声制御端末に請求項1ないし13のいずれか1項に記載の方法を実行させる音声制御端末。
  15. プロセッサにより実行するために記憶されたコンピュータ使用可能な命令を含む非一時的コンピュータ可読媒体であって、前記命令により前記プロセッサに請求項1ないし13のいずれか1項に記載の方法を実行させる非一時的コンピュータ可読媒体。
  16. 命令を含むコンピュータプログラムであって、前記コンピュータプログラムが電子デバイスで実行されるときに前記電子デバイスに請求項1ないし13のいずれか1項に記載の方法を実行させるコンピュータプログラム。
JP2017553159A 2015-04-10 2015-04-10 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末 Active JP6564058B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/076342 WO2016161641A1 (zh) 2015-04-10 2015-04-10 语音识别方法、语音唤醒装置、语音识别装置及终端

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019137200A Division JP6817386B2 (ja) 2019-07-25 2019-07-25 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末

Publications (2)

Publication Number Publication Date
JP2018517919A JP2018517919A (ja) 2018-07-05
JP6564058B2 true JP6564058B2 (ja) 2019-08-21

Family

ID=57071774

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017553159A Active JP6564058B2 (ja) 2015-04-10 2015-04-10 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末

Country Status (8)

Country Link
US (2) US10943584B2 (ja)
EP (1) EP3282445A4 (ja)
JP (1) JP6564058B2 (ja)
CN (1) CN106463112B (ja)
AU (3) AU2015390534B2 (ja)
BR (1) BR112017021673B1 (ja)
CA (1) CA2982196C (ja)
WO (1) WO2016161641A1 (ja)

Families Citing this family (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
CN107181869A (zh) * 2017-06-06 2017-09-19 上海传英信息技术有限公司 移动终端和利用语音识别开启移动终端应用的方法
CN107358951A (zh) * 2017-06-29 2017-11-17 阿里巴巴集团控股有限公司 一种语音唤醒方法、装置以及电子设备
CN116364076A (zh) * 2017-07-04 2023-06-30 阿里巴巴集团控股有限公司 一种处理方法、控制方法、识别方法及其装置和电子设备
US11361763B1 (en) * 2017-09-01 2022-06-14 Amazon Technologies, Inc. Detecting system-directed speech
CN110800045A (zh) * 2017-10-24 2020-02-14 北京嘀嘀无限科技发展有限公司 用于不间断应用唤醒和语音识别的***和方法
CN107808670B (zh) * 2017-10-25 2021-05-14 百度在线网络技术(北京)有限公司 语音数据处理方法、装置、设备及存储介质
CN108062949A (zh) * 2017-12-11 2018-05-22 广州朗国电子科技有限公司 语音控制跑步机的方法及装置
CN111819626A (zh) * 2018-03-07 2020-10-23 华为技术有限公司 一种语音交互的方法及装置
CN110299137B (zh) * 2018-03-22 2023-12-12 腾讯科技(深圳)有限公司 语音交互方法和装置
US10818288B2 (en) * 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN108563468B (zh) * 2018-03-30 2021-09-21 深圳市冠旭电子股份有限公司 一种蓝牙音箱数据处理的方法、装置及蓝牙音箱
CN108492827B (zh) 2018-04-02 2019-07-30 百度在线网络技术(北京)有限公司 应用程序的唤醒处理方法、装置及存储介质
CN108538291A (zh) * 2018-04-11 2018-09-14 百度在线网络技术(北京)有限公司 语音控制方法、终端设备、云端服务器及***
EP3553775B1 (en) * 2018-04-12 2020-11-25 Spotify AB Voice-based authentication
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
CN108735210A (zh) * 2018-05-08 2018-11-02 宇龙计算机通信科技(深圳)有限公司 一种语音控制方法及终端
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10777196B2 (en) * 2018-06-27 2020-09-15 The Travelers Indemnity Company Systems and methods for cooperatively-overlapped and artificial intelligence managed interfaces
CN109215646B (zh) * 2018-08-15 2021-08-17 北京百度网讯科技有限公司 语音交互处理方法、装置、计算机设备及存储介质
CN110853632A (zh) * 2018-08-21 2020-02-28 蔚来汽车有限公司 基于声纹信息的语音识别方法及智能交互设备
CN109446533B (zh) * 2018-09-17 2020-12-22 深圳市沃特沃德股份有限公司 蓝牙翻译机、蓝牙翻译的交互方式及其装置
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN109243447A (zh) * 2018-10-12 2019-01-18 西安蜂语信息科技有限公司 语音发送触发方法及装置
JP7242248B2 (ja) * 2018-10-31 2023-03-20 キヤノン株式会社 電子機器、その制御方法、およびそのプログラム
CN109545207A (zh) * 2018-11-16 2019-03-29 广东小天才科技有限公司 一种语音唤醒方法及装置
CN109243462A (zh) * 2018-11-20 2019-01-18 广东小天才科技有限公司 一种语音唤醒方法及装置
CN109448720A (zh) * 2018-12-18 2019-03-08 维拓智能科技(深圳)有限公司 便民服务自助终端及其语音唤醒方法
CN111383633B (zh) * 2018-12-29 2023-08-01 深圳Tcl新技术有限公司 语音识别连续性控制方法、装置、智能终端及存储介质
CN109448725A (zh) * 2019-01-11 2019-03-08 百度在线网络技术(北京)有限公司 一种语音交互设备唤醒方法、装置、设备及存储介质
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN109979466B (zh) * 2019-03-21 2021-09-17 广州国音智能科技有限公司 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质
US11776538B1 (en) * 2019-04-01 2023-10-03 Dialog Semiconductor B.V. Signal processing
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
CN110225386B (zh) * 2019-05-09 2021-09-14 海信视像科技股份有限公司 一种显示控制方法、显示设备
CN110232916A (zh) * 2019-05-10 2019-09-13 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US20200380139A1 (en) * 2019-05-29 2020-12-03 Denso International America, Inc. System and method for enhancing vehicle occupant voice data privacy
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110223687B (zh) * 2019-06-03 2021-09-28 Oppo广东移动通信有限公司 指令执行方法、装置、存储介质及电子设备
CN112216277A (zh) * 2019-07-12 2021-01-12 Oppo广东移动通信有限公司 通过耳机进行语音识别的方法、耳机、语音识别装置
CN110265031A (zh) * 2019-07-25 2019-09-20 秒针信息技术有限公司 一种语音处理方法及装置
EP3792912B1 (en) * 2019-09-11 2021-11-03 Oracle International Corporation Improved wake-word recognition in low-power devices
CN111292510A (zh) * 2020-01-16 2020-06-16 广州华铭电力科技有限公司 一种城市电缆被外力破坏的识别预警方法
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
IT202000015973A1 (it) * 2020-07-02 2022-01-02 Voiceme S R L Sistema elettronico e metodo per abilitare il pagamento di un bene o servizio per mezzo di comandi vocali
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112037784B (zh) * 2020-08-14 2023-10-20 南京创维信息技术研究院有限公司 显示设备语音控制方法、显示设备和存储介质
CN112363851A (zh) * 2020-10-28 2021-02-12 广东小天才科技有限公司 智能终端的语音唤醒方法、***、智能手表及存储介质
CN112581956A (zh) * 2020-12-04 2021-03-30 海能达通信股份有限公司 一种双模终端的语音识别方法及双模终端
TWI765485B (zh) * 2020-12-21 2022-05-21 矽統科技股份有限公司 外接式語音喚醒裝置及其控制方法
CN114254076B (zh) * 2021-12-16 2023-03-07 天翼爱音乐文化科技有限公司 一种多媒体教学的音频处理方法、***及存储介质
CN114283793A (zh) * 2021-12-24 2022-04-05 北京达佳互联信息技术有限公司 一种语音唤醒方法、装置、电子设备、介质及程序产品
WO2024125032A1 (zh) * 2022-12-12 2024-06-20 海信视像科技股份有限公司 一种语音控制方法及终端设备

Family Cites Families (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US5857172A (en) * 1995-07-31 1999-01-05 Microsoft Corporation Activation control of a speech recognizer through use of a pointing device
US20050091057A1 (en) * 1999-04-12 2005-04-28 General Magic, Inc. Voice application development methodology
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6591239B1 (en) * 1999-12-09 2003-07-08 Steris Inc. Voice controlled surgical suite
WO2002050817A1 (en) * 2000-12-20 2002-06-27 Koninklijke Philips Electronics N.V. Speechdriven setting of a language of interaction
US7610199B2 (en) 2004-09-01 2009-10-27 Sri International Method and apparatus for obtaining complete speech signals for speech recognition applications
KR100690740B1 (ko) 2004-11-24 2007-03-09 엘지전자 주식회사 이동 통신 단말기의 슬립 모드 전환 방법
US20080140397A1 (en) * 2006-12-07 2008-06-12 Jonathan Travis Millman Sequencing for location determination
US8600741B2 (en) * 2008-08-20 2013-12-03 General Motors Llc Method of using microphone characteristics to optimize speech recognition performance
US9070282B2 (en) * 2009-01-30 2015-06-30 Altorr Corp. Smartphone control of electrical devices
KR20110031797A (ko) 2009-09-21 2011-03-29 삼성전자주식회사 휴대 단말기의 입력 장치 및 방법
US20110165541A1 (en) * 2010-01-02 2011-07-07 Yong Liu Reviewing a word in the playback of audio data
CN102196096A (zh) 2011-05-19 2011-09-21 青岛海信移动通信技术股份有限公司 一种移动终端执行特定操作的方法、移动终端及通信***
US8768707B2 (en) * 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
US8452597B2 (en) * 2011-09-30 2013-05-28 Google Inc. Systems and methods for continual speech recognition and detection in mobile computing devices
US9992745B2 (en) * 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
US9117449B2 (en) * 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
CN102905029A (zh) * 2012-10-17 2013-01-30 广东欧珀移动通信有限公司 一种手机及智能语音寻找手机的方法
US9646610B2 (en) * 2012-10-30 2017-05-09 Motorola Solutions, Inc. Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
KR20140060040A (ko) * 2012-11-09 2014-05-19 삼성전자주식회사 디스플레이장치, 음성취득장치 및 그 음성인식방법
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
CN103871408B (zh) * 2012-12-14 2017-05-24 联想(北京)有限公司 一种语音识别方法及装置、电子设备
CN103095911B (zh) * 2012-12-18 2014-12-17 苏州思必驰信息科技有限公司 一种通过语音唤醒寻找手机的方法及***
CN103021413A (zh) * 2013-01-07 2013-04-03 北京播思软件技术有限公司 语音控制方法及装置
DE102013001219B4 (de) 2013-01-25 2019-08-29 Inodyn Newmedia Gmbh Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus
CN113470640B (zh) * 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9818407B1 (en) * 2013-02-07 2017-11-14 Amazon Technologies, Inc. Distributed endpointing for speech recognition
US9842489B2 (en) * 2013-02-14 2017-12-12 Google Llc Waking other devices for additional data
US20150348538A1 (en) * 2013-03-14 2015-12-03 Aliphcom Speech summary and action item generation
WO2014144579A1 (en) * 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9703350B2 (en) * 2013-03-15 2017-07-11 Maxim Integrated Products, Inc. Always-on low-power keyword spotting
KR101505127B1 (ko) * 2013-03-15 2015-03-26 주식회사 팬택 음성 명령에 의한 오브젝트 실행 장치 및 방법
US9202463B2 (en) * 2013-04-01 2015-12-01 Zanavox Voice-activated precision timing
US20140358535A1 (en) 2013-05-28 2014-12-04 Samsung Electronics Co., Ltd. Method of executing voice recognition of electronic device and electronic device using the same
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
US20140365225A1 (en) * 2013-06-05 2014-12-11 DSP Group Ultra-low-power adaptive, user independent, voice triggering schemes
JP2015011170A (ja) 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
CN105283836B (zh) * 2013-07-11 2019-06-04 英特尔公司 用于设备唤醒的设备、方法、装置及计算机可读存储介质
CN103338311A (zh) * 2013-07-11 2013-10-02 成都西可科技有限公司 一种智能手机锁屏界面启动app的方法
US9548047B2 (en) * 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
JP2015041123A (ja) * 2013-08-20 2015-03-02 株式会社リコー 画像形成装置
JP6312053B2 (ja) 2013-09-06 2018-04-18 株式会社ユピテル システム及びプログラム
US10134395B2 (en) 2013-09-25 2018-11-20 Amazon Technologies, Inc. In-call virtual assistants
US8775191B1 (en) * 2013-11-13 2014-07-08 Google Inc. Efficient utterance-specific endpointer triggering for always-on hotwording
CN103595869A (zh) * 2013-11-15 2014-02-19 华为终端有限公司 一种终端语音控制方法、装置及终端
US9443522B2 (en) * 2013-11-18 2016-09-13 Beijing Lenovo Software Ltd. Voice recognition method, voice controlling method, information processing method, and electronic apparatus
CN103594089A (zh) * 2013-11-18 2014-02-19 联想(北京)有限公司 一种语音识别方法及电子设备
CN103632667B (zh) * 2013-11-25 2017-08-04 华为技术有限公司 声学模型优化方法、装置及语音唤醒方法、装置和终端
CN104143326B (zh) * 2013-12-03 2016-11-02 腾讯科技(深圳)有限公司 一种语音命令识别方法和装置
US11138971B2 (en) * 2013-12-05 2021-10-05 Lenovo (Singapore) Pte. Ltd. Using context to interpret natural language speech recognition commands
GB2524222B (en) * 2013-12-18 2018-07-18 Cirrus Logic Int Semiconductor Ltd Activating speech processing
GB2523984B (en) * 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
WO2015094369A1 (en) 2013-12-20 2015-06-25 Intel Corporation Transition from low power always listening mode to high power speech recognition mode
WO2015116151A1 (en) * 2014-01-31 2015-08-06 Hewlett-Packard Development Company, L.P. Voice input command
US20180108001A1 (en) * 2014-03-24 2018-04-19 Thomas Jason Taylor Voice triggered transactions
US20150302856A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Method and apparatus for performing function by speech input
US10770075B2 (en) 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
CN103929540A (zh) * 2014-04-25 2014-07-16 浙江翼信科技有限公司 一种消息操作方法及装置
US9466290B2 (en) * 2014-05-06 2016-10-11 Honeywell International Inc. Systems and methods for aviation communication monitoring using speech recognition
EP3410257B1 (en) * 2014-06-11 2020-01-08 Huawei Technologies Co., Ltd. Method for quickly starting application service, and terminal
KR102208477B1 (ko) * 2014-06-30 2021-01-27 삼성전자주식회사 마이크 운용 방법 및 이를 지원하는 전자 장치
US20160012827A1 (en) * 2014-07-10 2016-01-14 Cambridge Silicon Radio Limited Smart speakerphone
US20160055847A1 (en) * 2014-08-19 2016-02-25 Nuance Communications, Inc. System and method for speech validation
US9335966B2 (en) * 2014-09-11 2016-05-10 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup
US9354687B2 (en) * 2014-09-11 2016-05-31 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup with time-correlated acoustic events
US9582296B2 (en) * 2014-09-18 2017-02-28 International Business Machines Corporation Dynamic multi-user computer configuration settings
CN104301109B (zh) * 2014-09-24 2017-06-06 飞天诚信科技股份有限公司 一种语音动态令牌的工作方法
KR102299330B1 (ko) * 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
US9653079B2 (en) 2015-02-12 2017-05-16 Apple Inc. Clock switching in always-on component
KR102346302B1 (ko) * 2015-02-16 2022-01-03 삼성전자 주식회사 전자 장치 및 음성 인식 기능 운용 방법
US10192546B1 (en) * 2015-03-30 2019-01-29 Amazon Technologies, Inc. Pre-wakeword speech processing
US10026399B2 (en) * 2015-09-11 2018-07-17 Amazon Technologies, Inc. Arbitration between voice-enabled devices
CN105204963A (zh) * 2015-09-28 2015-12-30 北京奇虎科技有限公司 数据缓存方法及装置
TWI557599B (zh) * 2015-11-05 2016-11-11 宏碁股份有限公司 語音控制方法及語音控制系統
US9728188B1 (en) * 2016-06-28 2017-08-08 Amazon Technologies, Inc. Methods and devices for ignoring similar audio being received by a system
US10074371B1 (en) * 2017-03-14 2018-09-11 Amazon Technologies, Inc. Voice control of remote device by disabling wakeword detection

Also Published As

Publication number Publication date
EP3282445A1 (en) 2018-02-14
AU2015390534B2 (en) 2019-08-22
CN106463112B (zh) 2020-12-08
CN106463112A (zh) 2017-02-22
BR112017021673A2 (pt) 2018-07-10
AU2021286393A1 (en) 2022-01-20
US11783825B2 (en) 2023-10-10
WO2016161641A1 (zh) 2016-10-13
US10943584B2 (en) 2021-03-09
CA2982196C (en) 2022-07-19
AU2015390534A1 (en) 2017-11-30
CA2982196A1 (en) 2016-10-13
AU2021286393B2 (en) 2023-09-21
EP3282445A4 (en) 2018-05-02
AU2019268131A1 (en) 2019-12-12
US20210287671A1 (en) 2021-09-16
US20180033436A1 (en) 2018-02-01
BR112017021673B1 (pt) 2023-02-14
JP2018517919A (ja) 2018-07-05

Similar Documents

Publication Publication Date Title
JP6564058B2 (ja) 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
JP6811758B2 (ja) 音声対話方法、装置、デバイス及び記憶媒体
US10360916B2 (en) Enhanced voiceprint authentication
US8909537B2 (en) Device capable of playing music and method for controlling music playing in electronic device
CN106448678B (zh) 用于在电子装置中执行语音命令的方法和设备
JP6817386B2 (ja) 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
EP2760015A1 (en) Event-triggered hands-free multitasking for media playback
WO2016032732A1 (en) Selective enabling of a component by a microphone circuit
CN103002147A (zh) 一种移动终端自动应答方法和装置
US8185400B1 (en) System and method for isolating and processing common dialog cues
KR20200005617A (ko) 화자 구분
WO2021052134A1 (zh) 语音识别方法、装置和移动终端
WO2014032597A1 (zh) 语音识别方法及电子设备
CN111128166B (zh) 连续唤醒识别功能的优化方法和装置
CN107680592A (zh) 一种移动终端语音识别方法、及移动终端及存储介质
US10129382B2 (en) Electronic device and method for controlling electronic device using headset
CN108492826A (zh) 音频处理方法、装置、智能设备及介质
JP7258007B2 (ja) 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
US10887693B2 (en) Method for switching mode and electronic device employing the method
EP3089160B1 (en) Method and apparatus for voice control of a mobile device
TW201336290A (zh) 通信裝置及通信方法
CN106910505B (zh) 一种基于移动终端的语音应答方法及***
WO2016033869A1 (zh) 一种回铃音实现方法、装置和计算机可读存储介质
WO2019047220A1 (zh) 一种应用程序启动方法及终端、计算机可读存储介质
JP2020160430A (ja) 音声入力装置、音声入力方法及びそのプログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20180511

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20180511

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181113

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20181207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190725

R150 Certificate of patent or registration of utility model

Ref document number: 6564058

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250