JP2019117623A - 音声対話方法、装置、デバイス及び記憶媒体 - Google Patents

音声対話方法、装置、デバイス及び記憶媒体 Download PDF

Info

Publication number
JP2019117623A
JP2019117623A JP2018173966A JP2018173966A JP2019117623A JP 2019117623 A JP2019117623 A JP 2019117623A JP 2018173966 A JP2018173966 A JP 2018173966A JP 2018173966 A JP2018173966 A JP 2018173966A JP 2019117623 A JP2019117623 A JP 2019117623A
Authority
JP
Japan
Prior art keywords
scene
voice
semantic analysis
user
voice interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018173966A
Other languages
English (en)
Other versions
JP6811758B2 (ja
Inventor
ジャナン シュ
Jianan Xu
ジャナン シュ
グォグォ チェン
Guoguo Chen
グォグォ チェン
チンゴン チエン
Qinggeng Qian
チンゴン チエン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2019117623A publication Critical patent/JP2019117623A/ja
Application granted granted Critical
Publication of JP6811758B2 publication Critical patent/JP6811758B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

【課題】物理ウェークアップ或いはウェークアップワードによるウェークアップの過程を省略し、音声対話の使用手順を簡略化し、音声対話の学習コストを低減し、ユーザを体験を向上させる音声対話方法、装置、デバイス及び記憶媒体を提供する。【解決手段】方法は、AIデバイスに応用され、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定し、AIデバイスが現在に置かれるシーンがプリセットシーンであれば、ユーザと音声対話を行うように、AIデバイスの音声対話機能をウェークアップする。シーンにより音声対話手続きを直接にトリガする。【選択図】図2

Description

本発明は、人工知能(Artificial Intelligence、AI)の技術分野に関し、特に音声対話方法、装置、デバイス及び記憶媒体に関する。
知能端末デバイスの発展に従って、音声対話を実行可能なデバイスが徐々に増加し、ユーザの日常生活における音声対話の応用も徐々に増加し、どのように製品の便利性を向上するかについての製品設計も段々に注目されている。
最近、常用の音声対話手続きは、以下のような複数の種類を含む。第一種の方式において、ユーザが端末デバイスにおける制御ボタン或いはhomeキーをクリックして音声対話手続きを起動し、ユーザが希望の操作を言い出し、端末デバイスがユーザの音声データを採集して、デバイスとの音声対話を実現する。第二種の方式において、固定のウェークアップワードを採用して音声対話手続きを起動し、当該端末デバイスの音声対話に使用されるウェークアップワードをユーザが事前に分かる必要があり、ユーザが当該ウェークアップワードを言い出し、採集された固定のウェークアップワードに基づいて、端末デバイスが音声対話手続きを起動し、音声対話手続きが起動された後にユーザの音声データを採集して音声対話を行い、例えばユーザが「バイドゥ、バイドゥ」を言い出して携帯電話の音声対話機能をウェークアップする。第三種の方式において、oneshot技術を採用して音声対話を実現し、ウェークアップワードと共に希望の動作を使用して音声対話を起動し、即ちユーザが固定のウェークアップワード及び希望の端末デバイスによる実行内容を同時に言い出し、端末デバイスがウェークアップワードに基づいて音声対話手続きを起動し、採集されたユーザの希望する端末デバイスによる実行内容に基づいて直接に音声対話を行い、例えばユーザが「バイドゥ、バイドゥ、今日の天気はどうですか」を言い出して携帯電話と音声対話を行う。
上記複数種の音声対話の技術案において、音声対話を行う際に、ユーザは、制御ボタン、homeキーなどの物理ウェークアップ、或いはユーザから固定のウェークアップワードを言い出す手段を採用して、端末デバイスに音声対話機能を起動させる必要があり、且つウェークアップワードによるウェークアップは、ある程度の誤差があるため、現在の音声対話の使用手順が複雑で、成功率が低くなり、ユーザから音声対話を使用する使用頻度が低くなってしまう。
本発明の実施例は、上記複数種の音声対話の技術案において、音声対話の使用手順が複雑で、成功率が低いため、ユーザから音声対話を使用する使用頻度が低くなる課題を解決するために、音声対話方法、装置、デバイス及び記憶媒体を提供する。
本発明の第一の局面は、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定し、上記AIデバイスが現在に置かれるシーンが上記プリセットシーンであれば、ユーザと音声対話を行うように、上記AIデバイスの音声対話機能をウェークアップすることを含む音声対話方法を提供する。
一種の具体的な実現手段において、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、上記AIデバイスの操作状態に変化があるか否かを検出し、変化があると、操作状態が変化された後に上記AIデバイスが置かれるシーンがプリセットシーンであるか否かを確定することを含む。
一種の具体的な実現手段において、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、ユーザから上記AIデバイスに入力されたシーン設置コマンドを受信し、上記シーン設置コマンドに基づいて、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することを含む。
一種の具体的な実現手段において、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、所定の周期に基づいて、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを周期的に検出し確定することを含む。
一種の具体的な実現手段において、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、上記AIデバイスのマイクがオン状態にあるか否かを検出し、上記マイクがオン状態にあると、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することを含む。
一種の具体的な実現手段において、上記プリセットシーンに通話シーンが含まれる場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、上記AIデバイスが通話中であるか、或いは通話要求を受信したかを検出し、肯定の場合に、上記AIデバイスが現在に置かれるシーンがプリセットシーンであると確定することを含む。
一種の具体的な実現手段において、上記プリセットシーンにメディアファイル再生シーンが含まれる場合に、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、上記AIデバイスがメディアファイルを再生しているか否かを検出し、ここで、上記メディアファイルに画像ファイル、オーディオファイル及びビデオファイルのうちの少なくとも一つが含まれ、肯定の場合に、上記AIデバイスが現在に置かれるシーンがプリセットシーンであると確定することを含む。
一種の具体的な実現手段において、上記プリセットシーンに移動シーンが含まれる場合に、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、上記AIデバイスの移動速度を検出し、上記移動が所定値よりも大きいか否かを判断し、肯定の場合に、上記AIデバイスが現在に置かれるシーンがプリセットシーンであることを確定することを含む。
選択的に、上記プリセットシーンに情報シーンが含まれる場合に、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、上記AIデバイスがショートメッセージ或いは通知メッセージを受信したか否かを検出し、肯定の場合に、上記AIデバイスが現在に置かれるシーンがプリセットシーンであると確定することを含む。
選択的に、上記ユーザと音声対話を行うように上記AIデバイスの音声対話機能をウェークアップすることは、ユーザの音声データを取得し、上記音声データと、予め設置された上記AIデバイスが現在に置かれるシーンに対応するコマンドセットとに基づいて、音声対話を行うことを含む。
選択的に、上記ユーザの音声データを取得することは、ユーザの音声データを採集するように上記AIデバイスのマイクを制御し、或いは、ユーザの音声を採集してユーザの音声データを取得するように、上記AIデバイスに接続されたブルートゥース(登録商標)或いはイヤホンマイクを制御し、或いは、他のデバイスから送信されたユーザの音声データを受信する、ことを含む。
更に、上記方法は、音響学モデルと語義解析モデルを採用して上記音声データを認識し解析することにより語義解析結果を取得し、上記語義解析結果の信頼度が所定の閾値よりも大きい場合に、上記語義解析結果に指示された操作を実行する、ことを更に含む。
選択的に、上記音響学モデルと語義解析モデルを採用して上記音声データを認識し解析する前に、上記方法は、上記音声データに対してノイズ除去とエコ除去の処理を行う、ことを更に含む。
選択的に、上記予め取得された音響学モデルと語義解析モデルを採用して上記音声データを認識し解析することにより、語義解析結果を取得することは、上記音声データについて上記音響学モデルを採用してマッチングすることにより、語義データを認識し、上記語義解析モデルに基づいて上記語義データを解析することにより、上記語義解析結果を取得する、ことを含む。
選択的に、上記方法は、上記AIデバイスが現在に置かれるシーン、上記AIデバイスが現在に置かれるシーンに対応するコマンドセット及び上記AIデバイスの状態に基づいて、上記語義解析結果の信頼度を評価し、上記語義解析結果の信頼度が所定の閾値よりも大きいか否かを判断し、上記語義解析結果の信頼度が上記所定の閾値よりも小さい場合に、上記語義解析結果に指示された操作の実行をキャンセルする、ことを更に含む。
選択的に、上記上記語義解析結果に指示された操作を実行することは、コマンドを指定するように上記語義解析結果をソフトウェアインターフェースに出力して実行する、ことを含む。
本発明の第二の局面は、音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを確定する第一処理モジュールと、上記音声対話装置が現在に置かれるシーンが上記プリセットシーンであれば、ユーザと音声対話を行うように、上記音声対話装置の音声対話機能をウェークアップする第二処理モジュールと、を備える音声対話装置を提供する。
選択的に、上記第一処理モジュールは、具体的に、上記音声対話装置の操作状態に変化があるか否かを検出し、変化があると、操作状態が変化された後に上記音声対話装置が置かれるシーンがプリセットシーンであるか否かを確定するように用いられる。
選択的に、上記第一処理モジュールは、具体的に、ユーザから上記音声対話装置に入力されたシーン設置コマンドを受信し、上記シーン設置コマンドに基づいて、上記音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを確定するように用いられる。
選択的に、上記第一処理モジュールは、具体的に、所定の周期に基づいて、上記音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを周期的に検出し確定するように用いられる。
選択的に、上記第一処理モジュールは、具体的に、上記音声対話装置のマイクがオン状態にあるか否かを検出し、上記マイクがオン状態にあると、上記音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを確定する、ように用いられる。
選択的に、上記プリセットシーンに通話シーンが含まれる場合に、上記第一処理モジュールは、更に上記音声対話装置が通話中であるか或いは通話要求を受信したかを検出し、肯定の場合に、上記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられる。
選択的に、上記プリセットシーンにメディアファイル再生シーンが含まれる場合に、上記第一処理モジュールは、更に上記音声対話装置がメディアファイルを再生しているかを検出し、ここで、上記メディアファイルに画像ファイル、オーディオファイル及びビデオファイルのうちの少なくとも一つが含まれ、肯定の場合に、上記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられる。
選択的に、上記プリセットシーンに移動シーンが含まれる場合に、上記第一処理モジュールは、更に上記音声対話装置の移動速度を検出し、上記移動が所定値よりも大きいか否かを判断し、肯定の場合に、上記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられる。
選択的に、上記プリセットシーンに情報シーンが含まれる場合に、上記第一処理モジュールは、更に上記音声対話装置がショートメッセージ或いは通知メッセージを受信したか否かを検出し、肯定の場合に、上記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられる。
選択的に、上記第二処理モジュールは、具体的に、ユーザの音声データを取得し、上記音声データと、予め設置された上記音声対話装置が現在に置かれるシーンに対応するコマンドセットとに基づいて、音声対話を行う、ように用いられる。
選択的に、上記第二処理モジュールは、更に具体的に、ユーザの音声データを採集するように、上記音声対話装置のマイクを制御し、或いは、ユーザの音声を採集してユーザの音声データを取得するように、上記音声対話装置に接続されたブルートゥース(登録商標)或いはイヤホンマイクを制御し、或いは、他のデバイスから送信されたユーザの音声データを受信する、ように用いられる。
選択的に、上記装置は、更に、音響学モデルと語義解析モデルを採用して上記音声データを認識し解析することにより、語義解析結果を取得する第三処理モジュールと、上記語義解析結果の信頼度が所定の閾値よりも大きい場合に、上記語義解析結果に指示された操作を実行する第四処理モジュールと、を備える。
選択的に、上記第三処理モジュールは、音響学モデルと語義解析モデルを採用して上記音声データを認識し解析する前に、更に上記音声データに対してノイズ除去とエコ除去の処理を行うように用いられる。
選択的に、上記第三処理モジュールは、具体的に、上記音声データに対して上記音響学モデルを採用してマッチングすることにより、語義データを認識し、上記語義解析モデルに基づいて上記語義データを解析することにより、上記語義解析結果を取得する、ように用いられる。
選択的に、上記第四処理モジュールは、具体的に、上記音声対話装置が現在に置かれるシーン、上記音声対話装置が現在に置かれるシーンに対応するコマンドセット、及び上記音声対話装置の状態に基づいて、上記語義解析結果の信頼度を評価し、上記語義解析結果の信頼度が所定の閾値よりも大きいか否かを判断し、上記語義解析結果の信頼度が上記所定の閾値よりも小さい場合に、上記語義解析結果に指示された操作の実行をキャンセルする、ように用いられる。
選択的に、上記第四処理モジュールは、更に、コマンドを指定するように上記語義解析結果をソフトウェアインターフェースに出力して実行するように用いられる。
本発明の第三の局面は、メモリとプロセッサを備え、上記メモリは、コンピュータコマンドが記憶されており、上記プロセッサは、上記メモリに記憶されている上記コンピュータコマンドを実行して第一の局面の何れか一つの実現手段により提供された音声対話方法を実現させるAIデバイスを提供する。
本発明の第四の局面は、読み取り可能な記憶媒体とコンピュータコマンドを備え、上記コンピュータコマンドは上記読み取り可能な記憶媒体に記憶されており、上記コンピュータコマンドは第一の局面の何れか一つの実現手段により提供された音声対話方法を実現させる記憶媒体を提供する。
本発明の実施例の第五の局面は、プログラム製品を提供する。当該プログラム製品はコンピュータコマンド(即ちコンピュータプログラム)を含み、当該コンピュータコマンドは読み取り可能な記憶媒体に記憶される。AIデバイスの少なくとも一つのプロセッサは、読み取り可能な記憶媒体から当該コンピュータコマンドを読み取ることができ、少なくとも一つのプロセッサは、AIデバイスにより上記第一の局面の何れか一つの実施手段により提供された音声対話方法を実施するように当該コンピュータコマンドを実行する。
本発明により提供される音声対話方法、装置、デバイス及び記憶媒体によれば、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定し、AIデバイスが現在に置かれるシーンがプリセットシーンであれば、ユーザと音声対話を行うように、AIデバイスの音声対話機能をウェークアップする。AIデバイスが置かれるシーンにより音声対話手続きを直接にトリガすることにより、物理ウェークアップ或いはウェークアップワードによるウェークアップの過程が省略され、音声対話の使用手順が簡略化され、音声対話の学習コストが低減され、ユーザの体験が向上されると共に、専門的な音声対話ウェークアップハードウェア或いはウェークアップワードによるウェークアップの過程が不要になり、技術開発のコストが低減されることができる。
本発明の実施例又は従来技術における技術案をより明確にするために、以下に実施例又は従来技術の説明に必要な図面を簡単に紹介する。明らかに、以下の説明における図面は本発明の幾つかの実施例であり、当業者であればわかるように、進歩性に値する労働を付しない前提で、更にこれらの図面に基いて他の図面を得ることができる。
本発明の実施例により提供される音声対話方法の構成模式図である。 本発明の実施例により提供される音声対話方法の第一の実施例のフローチャートである。 本発明の実施例により提供される音声対話方法におけるプリセットシーンの設置模式図である。 本発明の実施例により提供される音声対話方法の第二の実施例のフローチャートである。 本発明の実施例により提供される音声対話方法の第三の実施例のフローチャートである。 本発明の実施例により提供される音声対話装置の第一の実施例の構成模式図である。 本発明の実施例により提供される音声対話装置の第二の実施例の構成模式図である。
本発明の実施例の目的、技術案及び利点をより明確にするために、以下に本発明の実施例における図面と合わせて本発明の実施例における技術案について明瞭で完備な説明を行う。明らかに、説明された実施例は、本発明の一部の実施例であり、全ての実施例ではない。当業者は、進歩性に値する労働を付しない前提で本発明における実施例に基いて得られた全ての他の実施例は、何れも本発明の保護範囲に属する。
音声対話応用のシーン及びデバイスが益々増加することに従って、どのように製品の便利性を向上させるについての製品設計が段々に注目されている。現在に採用されている物理キーによる音声対話手続きのウェークアップ、或いはユーザが固定のウェークアップワードを言い出して音声対話手続きをウェークアップする技術案は、以下のような課題がある。
(1)物理ウェークアップ及びウェークアップワードによるウェークアップは、何れもユーザを徐々に案内する必要がある。しかし、実際にユーザの使用頻度が依然として非常に低いため、ユーザへの教育コストが大きくなる。
(2)ユーザニーズの満足はウェークアップ動作により遮断され、2〜3ステップを経過する必要があり、且つ成功率による影響があるため(ウェークアップの成功且つニーズの認識の成功)、使用手順が複雑になる。
(3)ユーザニーズを満足するコストに加え、物理キー及びウェークアップワードにも付加的な研究開発コスト及び時間コストが必要であるため、技術において開発コストが大きくなる。
上記課題に基づいて、本発明は音声対話方法を提供する。特定のシーンにおいて音声対話手続きを直接に行い、即ちシーントリガにより、端末デバイスがプリセットシーンにある場合に、ユーザは関連の動作コマンドを直接に言い出すことができ、端末デバイスはウェークアップの過程を省略して直接にユーザから言い出される関連の動作コマンドを認識し実行することができる。これにより、より便利な音声対話が実現され、手順が簡略化され、ユーザの体験が向上されると共に、技術開発コストが低減される。
本発明の実施例により提供される音声対話方法は、全ての人工知能(Artificial Intelligence、AI)デバイス、例えば携帯電話、パソコン、タブレット、ウェアラブルデバイス、ロボット、スマート家電、サーバなどの端末デバイス、工業生産デバイス、医療機械デバイス、セキュリティデバイスなどに応用でき、本技術案において制限がない。
図1は、本発明の実施例により提供される音声対話方法の構成模式図である。図1に示されたように、当該技術案において、本技術案の主な構成は、AIデバイスにおいて一つ又は複数のプリセットシーンを予め設置し、AIデバイスは、自身が何れか一つのプリセットシーンにある(置かれる)か否かを確定する際に、音声対話機能をウェークアップし、ユーザの音声データを採集して、ユーザとの音声対話手続きを完成することができる。プリセットシーンの設置は、AIデバイスの出荷前に設置されても良く、ユーザの使用過程において自身のニーズに基づいて手動設置されても良い。
以下、複数の具体的な実施例により当該音声対話方法を説明する。
図2は、本発明の実施例により提供される音声対話方法の第一の実施例のフローチャートである。図2に示されたように、本実施例により提供される音声対話方法は、具体的に以下のステップを含む。
ステップS101において、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する。
本ステップにおいて、AIデバイスにおいて一つ又は複数のプリセットシーンを設置し、AIデバイスは、自身が何れか一つのプリセットシーンにあるか否かを確定し、その後にユーザと音声対話を行うか否かを決定する。AIデバイスがプリセットシーンにない(置かれない)場合に、音声対話機能をウェークアップしない。
当該プリセットシーンは、AIデバイスが出荷する際に配置されても良く、応用の過程においてユーザの操作に基づいて設置されても良く、本技術案では制限しない。例えば、図3は本発明の実施例により提供される音声対話方法におけるプリセットシーンの設置模式図である。図3に示されたように、AIデバイスの設置において、音声対話シーンを設置するためのインターフェースを提供し、複数のインターフェースを提供してユーザに選択させることができる。同図において、音声対話シーンの設置画面において、複数の汎用のシーンが提供されたと共に開閉操作が合わせて提供され、ユーザは実際の状況に応じて選択し、それらのシーンにおいて音声対話を自動的に行うことができる。例えば、同図において、ユーザにより移動シーンが選択されると、AIデバイスが移動シーンにある場合に音声対話の手順を自動的に実行する。
当該プリセットシーンは、AIデバイスの所在する環境、或いはAIデバイスの自身の状態についてのシーンであっても良い。例えば、携帯電話を例として、ユーザが通話中、或いは着信中などが含まれる通話シーン、携帯電話によるビデオ再生中、オーディオ再生中、或いは画像再生中などが含まれるメディアファイル再生シーン、携帯電話によるショートメッセージの受信或いはアプリの通知メッセージの受信などが含まれる情報シーン、目覚まし時計シーン、携帯電話が写真を撮っているか、撮影しているなどが含まれる撮影シーン、携帯電話が車載状態、ナビゲーション状態、或いはユーザが走っているか或いは歩いているなどが含まれる移動シーン、充電シーンなどがある。
当該ステップの具体的な実現において、AIデバイスは、自身状態の変化、ユーザの操作、周期、或いはAIデバイスのマイクの状態などの手段に基づいてプリセットシーンにあるか否かを確定することができる。AIデバイスがプリセットシーンにあるか否かを確定する具体的な方式は少なくとも以下の複数種を含む。
第一種の方式において、AIデバイスの操作状態に変化があるか否かを検出し、変化があれば、操作状態が変化された後に上記AIデバイスが置かれるシーンがプリセットシーンであるか否かを確定する。
当該技術案において、AIデバイスは、操作状態の変化により、プリセットシーンにあるか否かを確定する過程をトリガする。ここでの操作状態は、AIデバイスのユーザ操作による変化に加え、AIデバイスの自身の状態の変化も含む。例えば、同様に携帯電話を例とする。携帯電話が待機中に着信が受信された時、携帯電話の状態が変化すれば、携帯電話の状態変化後の着信継続、通話許可或いは通話拒否などのシーンがプリセットシーンであるか否かを確定することができる。或いは、携帯電話がショートメッセージ又はあるアプリの通知を受信した時、携帯電話の状態が変化すれば、状態が変化された後にメッセージの受信がプリセットシーンであるか否かなどを検出することができる。或いは、ユーザが携帯電話をアンロックし、携帯電話が待機のブランクスクリーン状態からスクリーンアクテイブの操作可能な状態に移行した時、携帯電話の状態が変化すれば、状態が変化された後に携帯電話がプリセットシーンにあるか否かなどを確定することができる。
第二種の方式において、ユーザからAIデバイスに入力されたシーン設置コマンドを受信し、シーン設置コマンドに基いて、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する。
当該技術案において、ユーザがAIデバイスに対して操作を行い、即ちシーン設置コマンドを入力すると、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することをトリガする。例えば、ユーザにより携帯電話における地図ソフトウェアがオープンされ且つナビゲーション機能がオープンされた場合に、携帯電話がナビゲーションシーンに入り、当該携帯電話のナビゲーションシーンがプリセットシーンであるか否かを確定することができる。或いは、ユーザが電話番号を入力してダイヤルし、携帯電話による通信の接続が開始した場合に、携帯電話において通話シーンが動作し、当該通話シーンがプリセットシーンであるか否かなどを確定することができる。
第三種の方式において、所定の周期に基いて、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを周期的に検出し確定する。
当該技術案において、出荷前に、AIデバイスにおいて、AIデバイスが置かれるシーンがプリセットシーンであるか否かを確定するための所定の周期を設置し、或いはユーザの使用過程における操作に基づいて、AIデバイスが置かれるシーンがプリセットシーンであるか否かを確定するための周期を設置することができる。AIデバイスは、運行過程において当該所定の周期に従って、現在に置かれるシーンがプリセットシーンであるか否かを周期的に確定する。
第四種の方式において、AIデバイスのマイクがオン状態にあるか否かを検出し、マイクがオン状態にあると、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する。
当該技術案において、マイクの状態により、AIデバイスが現在に置かれるシーンがプリセットシーンであるかを確定するか否かを決定する。例えば、AIデバイスによりマイクがオン状態であると検出されると、ユーザから音声対話のニーズがあると見なすため、現在に置かれるシーンがプリセットシーンであるか否かを確定することをトリガすることができる。マイクがオフ状態であれば、暫くユーザから音声対話のニーズがないと見なすことができる。
AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを判断することをトリガすることは、上記複数種の方式に加え、他の方式或いは機能を設置して当該過程をトリガすることもでき、本技術案では制限しない。
上記複数種の方式をもとに、異なるシーンによっては、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを検出する際に実行すべき検出手段は異なる。以下に複数の例に基いて説明する。
例えば、プリセットシーンに通話シーンが含まれる場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する過程において、AIデバイスは、通話中であるか、或いは通話要求を受信したか、或いはダイヤル中であるかを検出する必要がある。何れか一つの状態であれば、当該AIデバイスが現在に置かれるシーンがプリセットシーンであると確定することができる。
プリセットシーンにメディアファイル再生シーンが含まれる場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する過程において、AIデバイスは、例えば写真アルバムにおける写真の再生、音楽の再生、音声メッセージの再生、通知メッセージの放送のような、画像、オーディオファイル又はビデオファイルの再生中であるか、或いはビデオの再生中、ビデオのオンライン観覧などを検出する必要がある。AIデバイスがメディアファイルの再生中であると確定されると、AIデバイスが現在に置かれるシーンがプリセットシーンであると確定することができる。
プリセットシーンに移動シーンが含まれる場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する過程において、AIデバイスは、移動速度を検出し、AIデバイスの移動速度が所定値よりも大きいかを判断する必要がある。例えば、AIデバイスが車載状態である場合に、ユーザは明らかに手動操作であるコマンドを実行できず、この場合に一定の移動速度の閾値を設置し、速度が当該閾値よりも大きいであれば、AIデバイスが移動シーンにあり、即ち現在に置かれるシーンがプリセットシーンであることを確定することができる。
プリセットシーンに情報シーンが含まれる場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する過程において、AIデバイスは、ショートメッセージ又は通知メッセージを受信したか否かを検出する必要がある。例えば、他のユーザから送信されたショートメッセージを受信し、或いはあるアプリから送信された通知メッセージを受信した場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであると確定することができる。
プリセットシーンに目覚まし時計シーンが含まれる場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する過程において、目覚まし時計が目覚まし状態にあるか否かを検出する必要がある。例えば、時間がユーザにより設置された時間になり、AIデバイスがアラーム音を再生するか振動する場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであると確定する。
プリセットシーンに撮影シーンが含まれる場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する過程において、AIデバイスは、写真を撮っているか、或いは撮影中であるかなどを検出する必要がある。肯定の場合に、AIデバイスが現在に置かれるシーンがプリセットシーンなどであるを確定する。
当該技術案の具体的な実現において、プリセットシーンは一つに限らず、AIデバイスに音声対話手続きをトリガする一つ又は複数のシーンを設置でき、本技術案では制限しない。
ステップS102において、AIデバイスが現在に置かれるシーンがプリセットシーンであれば、ユーザと音声対話を行うように、AIデバイスの音声対話機能をウェークアップする。
本ステップにおいて、上記何れか一つの方式によりAIデバイスが現在に置かれるシーンがプリセットシーンであると確定された場合に、AIデバイスの音声対話機能を直接にウェークアップしてユーザと音声対話を行い、ユーザから言い出された内容に対して採集及び認識を行い、そのコマンドを確定し実行することができる。
本実施例により提供された音声対話方法によれば、音声対話手続きをトリガすることができるプリセットシーンをAIデバイスに予め設置し、AIデバイスが使用過程において現在に所在するシーンがプリセットシーンであるか否かを確定し、現在に置かれるシーンがプリセットシーンであると確定されると、音声対話手続きをウェークアップし、即ちAIデバイスが置かれるシーンにより音声対話手続きを直接にトリガする。これにより、物理ウェークアップ又はウェークアップワードによるウェークアップの過程が省略され、音声対話の使用手順が簡略化され、音声対話の学習コストが低減され、ユーザの体験が向上されると共に、専門的な音声対話ウェークアップハードウェア又はウェークアップワードによるウェークアップの過程が不要になり、技術開発のコストが低減される。
図4は、本発明の実施例により提供される音声対話方法の第二の実施例のフローチャートである。図4に示されたように、上記第一の実施例をもとに、ステップS102においてAIデバイスが現在に置かれるシーンがプリセットシーンであれば、ユーザと音声対話を行うように、AIデバイスの音声対話機能をウェークアップする。一種の具体的な実現において、以下のステップを含むことができる。
ステップS1021において、AIデバイスが現在に置かれるシーンがプリセットシーンであれば、ユーザの音声データを取得する。
本ステップにおいて、ユーザと音声対話を行うようにAIデバイスの音声対話機能をウェークアップすることは、まず、ユーザの音声データを取得し、即ちユーザから言い出された内容を採集する必要があることが分かる。具体的な実現において、少なくとも以下の複数の方式で実現することができる。
第一種の方式において、AIデバイスのマイクを制御してユーザの音声データを採集する。
AIデバイスのマイクがオン状態であれば、AIデバイスは、マイクでユーザから言い出された内容を直接に採集して音声データを取得することができる。AIデバイスのマイクがオンされていなければ、AIデバイスは、マイクをオンするように制御し、その後にユーザの音声データを採集する。
第二種の方式において、AIデバイスに接続されたブルートゥース(登録商標)又はイヤホンマイクを制御して、ユーザの音声を採集してユーザの音声データを取得する。
AIデバイスにブルートゥース(登録商標)イヤホン、無線イヤホン又は有線イヤホンが接続されている場合に、AIデバイスはイヤホンのマイクでユーザから言い出された内容を採集してユーザの音声データを取得することができる。
第三種の方式において、他のデバイスから送信されたユーザの音声データを受信する。
AIデバイスに他のウェアラブルデバイス、例えばスマートウォッチ、スマートブレスレットなどが接続されており、或いは他のAIデバイスが接続されている場合に、他のAIデバイスにより音声データを採集して当該AIデバイスへ送信することもでき、本技術案において制限しない。
ステップS1022において、音声データと、予め設置されたAIデバイスが現在に置かれるシーンに対応するコマンドセットとに基づいて、音声対話を行う。
本ステップにおいて、AIデバイスは、ユーザの音声データを取得した後に、現在に置かれるシーン、及び当該シーンに対応するコマンドセットに基づいて音声対話を行う。その意味は、当該技術案において、プリセットシーン毎に対応のコマンドセットが設置されている。音声データを解析し認識してユーザにより指示された操作セットを確定する場合に、シーンに対応するコマンドセットと比較して、精確な音声対話を実現する必要がある。
以下に携帯電話を例として、幾つかの具体的な実際の例により、異なるシーンが異なるコマンドセットに対応することを説明する。
通話シーン:通話シーンにおいて、ユーザに必要の可能な操作に、電話を切ること、電話を受け取ること、着信を無視すること、切って情報を相手へ送信すること、通話過程において情報を共有することなどが含まれるため、通話シーンにおいて上記少なくとも一つの操作に対応するコマンドが含まれるセットを設置しても良い。例えば、簡単の電話の切り、受け取り、無視などのコマンド以外、ユーザによる通話過程において、ある第三者のユーザの連絡方法を相手が取得する必要がある場合に、通話過程中に連絡帳を調べ難く、且つ相手の記録を正しく言い出す必要があり、複雑であるため、ユーザがニーズとして「XXの電話番号をXXへ送信する」と言い出すことができる。携帯電話は、通話シーンにおいて音声対話手続きをトリガした後に、ユーザの音声データに基づいて、連絡帳におけるXXの連絡方法を呼び出してショートメッセージ又はネット情報などにより通話中の相手に送信する。この時に、コマンドセットに連絡帳の呼び出しコマンド、ショートメッセージの送信コマンドなどを設置し、即ちシーン毎に対応のコマンドセットを作成することができる。具体的なコマンドタイプは、実際の状況に応じて設置しても良く、本技術案において制限しない。
メディアファイル再生シーン:例えば、携帯電話により音楽が再生されている場合に、ユーザに必要の可能な操作に、前の曲への切り換え、次の曲への切り替え、ランダムの再生、再生、一時停止、早送り、早戻し、収蔵、リピート再生、リスト再生、ボリュームを大きくすること、ボリュームを小さくすること、ミュートなどが含まれるため、音楽を再生するシーンに上記少なくとも一つの操作を実現するコマンドセットを設置することができる。
携帯電話によりビデオが再生されている場合に、ユーザに必要の可能な操作に、スクリーンを明るくすること、スクリーンを暗くすること、前の一話、次の一話、再生、一時停止、早送り、早戻し、収蔵、プレーバック、リスト再生、ボリュームを大きくすること、ボリュームを小さくすること、ミュートなどが含まれるため、ビデオを再生するシーンに上記少なくとも一つの操作を実現するコマンドセットを設置することができる。
携帯電話によりスライドでアルバムにおける画像を再生している場合に、ユーザに必要の可能な操作に、再生の停止、前の一枚へ、次の一枚へ、再生の終了などが含まれるため、画像を再生するシーンに上記操作を実現するコマンドセットを設置することができる。
目覚まし時計シーン:目覚まし時計シーンにおいて、ユーザに必要の可能な操作に、目覚まし時計をオフすること、数分後の目覚まし、或いは次の目覚ましなどが含まれる。これに基づいて、目覚まし時計シーンに上記操作を実現するコマンドセットを設置することができる。
情報シーン:携帯電話により通知又はショートメッセージが受信された場合に、ユーザに必要の可能な操作に通知の放送、メッセージの放送、メッセージの記憶、メッセージの削除が含まれ、当該情報シーンにこれら操作のうちの少なくとも一つに対応するコマンドセットを設置することができる。
撮影シーン:写真シーンを例として、携帯電話が写真モードを起動した場合に、ユーザに必要の可能な操作に、写真を撮ること、写真を自動に撮ること、写真の保存や非保存、写真の削除などの操作が含まれるため、当該写真シーンにこれら操作のうちの少なくとも一つに対応するコマンドセットを設置することができる。
ナビゲーションシーン:携帯電話がナビゲーションモードを起動した場合に、ユーザに必要の可能な操作に、路線の再選択、目的地の変更、ナビゲーションの終了、目的地に最も近い駐車場の検索などが含まれる。同様に、ナビゲーションシーンにこれら操作のうちの少なくとも一つに対応するコマンドセットを設置することができる。
上記幾つかの簡単なシーンを例としてわかるように、AIデバイスは、異なるシーンにおいて音声対話を行う目的が異なり、実現しようとする機能や実行の操作も異なるため、当該音声対話方法の具体的な実現において、シーンにより音声対話手続きをトリガした後にユーザの音声データに基づいてユーザの実行必要な操作を正確に判断し実行できるように、プリセットシーン毎に異なるコマンドセットを設置すれば良い。
本実施例により提供された音声対話方法において、AIデバイスが置かれるシーンにより音声対話手続きを直接にトリガすることにより、物理ウェークアップ又はウェークアップワードによるウェークアップの過程が省略され、音声対話の使用手順が簡略化され、音声対話の学習コストが低減され、ユーザの体験が向上される。また、異なるシーンにおいて、異なるコマンドセットを設置し、異なるシーンに設置される異なるコマンドにより、ユーザに必要な操作をより正確に実現し、ユーザの体験を向上させることができる。
図5は、本発明の実施例により提供される音声対話方法の第三の実施例のフローチャートである。図5に示されたように、上記二つの実施例をもとに、AIデバイスが現在に置かれるシーンがプリセットシーンであることで音声対話手続きをトリガし、音声データが取得された後に、音声データ及び予め設置されたAIデバイスが現在に置かれるシーンに対応するコマンドセットに基づいて音声対話を行う具体的な実現ステップは、以下のステップを含む。
ステップS201において、音響学モデルと語義解析モデルを採用して、音声データを認識し解析して語義解析結果を取得する。
本ステップの前に、まず、処理の能力のワードに基づいて言語データ資料を取得し、即ち大量のシーン及び人々のトレーニングデータの収集を行う必要がある。収集されたデータに対して標識及び処理を行って意図のタイプを分類する。そして、トレーニングデータに対して音響学モデルのトレーニングを行って固定音響学モデル(音声認識モデル又は音声認識モデルパラメータとも呼ばれる)と音声解析モデル(音声解析モデルパラメータとも呼ばれる)を生成する。実際の応用において、AIデバイスは、音声データについて上記音響学モデルを採用してマッチングを行って語義データを認識し、且つ語義解析モデルに基づいて上記語義データを解析して語義解析結果を取得する。これは、音声データについて音響学モデルのマッチングを行って、対応する音声データを認識し、認識に成功であれば、語義解析モデルと比較することにより、ユーザから入力された語句の語義を解析して現在の語句の語義解析結果を取得することを意味する。
一つの可能な実現方式において、ステップS201を行う前に、音声データに対してノイズ除去とエコ除去の処理を行うことができる。具体的に、AIデバイスに組み込まれるチップがノイズ除去及びエコ除去の処理をサポートする場合に、まず音声データを最適化する。ハードウェアデバイスにノイズ除去及びエコ除去の機能が具備されない場合であっても、声音データが取得された後に、再び開発ツール(例えば、DuerOS SDK)に内蔵されたノイズ除去アルゴリズムとエコ除去アルゴリズムを使用して、音声に対して最適化の処理を行う。
ステップS202において、AIデバイスが現在に置かれるシーンと、AIデバイスが現在に置かれるシーンに対応するコマンドセットと、AIデバイスの状態とに基づいて、語義解析結果の信頼度を評価する。
本ステップにおいて、AIデバイスを例とする。AIデバイスは、現在に置かれるシーンに対応するコマンドセット、及びAIデバイスの現在の状態を採用し、上記語義解析モデルを採用して音声データを解析して得られた語義解析結果の信頼度を評価し、即ち語義解析結果の確実性を評価する。語義解析結果は、語句意図、動作詞、専門名詞などのような複数種の次元を含む。通話シーンを例として、例えば「電話を無視する」ことは、動作である「無視する」及び専門名詞である「電話」を含み、全体の語句の意図が現在のデバイスの着信を無視することである。特に、ユーザの表現が「着信を無視する」、「当該電話の受け取りを無視する」のような汎用化的な表現である場合に、AIデバイス状態とシーンに対応するコマンドセットとに基づいて、相応の意図及び動作に対する認識の正確度の評価を行って、上記語義解析結果の信頼度を取得する必要がある。
ステップS203において、語義解析結果の信頼度が所定の閾値よりも大きいかを判断する。
本ステップにおいて、AIデバイスにおいて、予め信頼度の閾値を設置し、つまり複数回のシミュレーションテストに基づいて語義解析結果の正確度の限界、即ち評価された信頼度の限界を確定することができる。ユーザから音声データを入力した後に、上記方法に従って語義解析結果及び対応の信頼度を取得すれば、信頼度が所定の閾値よりも大きいかを判断する必要がある。
ステップS204において、語義解析結果の信頼度が所定の閾値よりも大きいであれば、語義解析結果に指示された操作を実行する。
ステップS205において、語義解析結果の信頼度が所定の閾値よりも小さいであれば、語義解析結果に指示された操作の実行をキャンセルする。
上記二つのステップにおいて、評価の結果として信頼度が所定の閾値よりも大きいであれば、語義解析が成功したと見なし、語義解析結果に指示された操作を実行すれば良い。具体的な実行方式において、コマンドを指定するように語義解析結果をソフトウェアインターフェースへ出力して実行することにより、AIデバイスは、当該コマンドに基づいて該当するソフトウェア又はハードウェアを呼び出して実行することができる。そうでなければ、不成功と見なし、上記取得された語義解析結果をキャンセルし、或いは音声データを新たに取得して上記過程を行うことができる。
上記技術案の具体的な実現において、ユーザから意図的にボタンを操作してAIデバイスを音声採集の状態になるようにトリガすることと異なり、本発明により提供された音声対話技術案において、AIデバイスが一旦にプリセットシーンに入ると、AIデバイスが自動的に音声採集の状態になり、例えばmic呼び出し(当該操作は、そのものが提携ハードウェアメーカーにより処理され、SDKにより合意の要求と定義が提出される)をオープンしてユーザの音声入力をリアルタイムに受信し、即ち音声データを取得する。同時に、当該技術案は、ウェークアップボタン又はウェークアップワードによりウェークアップされた後に単一のコマンド(例えば音声の受信を起動する)のみ提供し、AIデバイスにおける一つの応用機能のみに合わせることと異なる。本発明により提供された語義の対話(インタラクション)過程において、AIデバイスの音声対話手続きが現在に置かれるシーンと深く関連付けており、認識されたシーン及び当該シーンに対応するコマンドがと、ハードウェアとは、関連の操作(例えばハードウェアに対するスクリーン制御、スピーカ制御、通信制御など)が定義される必要があることに合わせて、一連な標準的なハードウェアによるインターフェースの呼出し基準が提供され、ハードウェアメーカーによりAIデバイスを速めに制御して必要な操作を実現することに寄与することができる。
以上より、本発明の各実施例により提供された音声対話方法によれば、音声の採集を行うようにAIデバイスをウェークアップする動作が不要になり、ユーザに自然の言語で表現するように音声対話を使用させることにより、ユーザの音声対話の学習コストを効率に低減することができ、ユーザの体験及び粘着性の向上に寄与する。また、ユーザによる音声対話の慣習の養成に寄与し、他のシーン及び機能の使用頻度が増加され、音声対話の使用手順が簡略化され、音声対話の学習コストが低減され、ユーザの体験が向上される。また、専門的な音声対話のウェークアップハードウェア又はウェークアップワードによるウェークアップの過程が不要になり、技術開発コストが低減される。
図6は、本発明の実施例により提供された音声対話装置の第一の実施例の構成模式図である。図6に示されたように、本実施例により提供された音声対話装置10は、音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを確定する第一処理モジュール11と、上記音声対話装置が現在に置かれるシーンが上記プリセットシーンであれば、ユーザと音声対話を行うように上記音声対話装置の音声対話機能をウェークアップする第二処理モジュール12とを備える。
本実施例により提供された音声対話装置は、上記何れか一つの方法実施例における方法実施例の技術案を実現するために用いられる。その実現原理と技術效果は同じように、シーンにより音声対話手続きを直接にトリガすることにより、物理ウェークアップ又はウェークアップワードによるウェークアップの過程が不要になり、音声対話の使用手順が簡略化され、音声対話の学習コストが低減され、ユーザの体験が向上される。
当該音声対話装置10の一つの具体的な実現において、上記第一処理モジュール11は、具体的に、上記音声対話装置の操作状態に変化があるか否かを検出し、変化があれば、操作状態が変化された後に上記音声対話装置が置かれるシーンがプリセットシーンであるか否かを確定するように用いられる。
選択的に、上記第一処理モジュール11は、具体的に、ユーザから上記音声対話装置に入力されたシーン設置コマンドを受信し、上記シーン設置コマンドに基いて、上記音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを確定するように用いられる。
選択的に、上記第一処理モジュール11は、具体的に、所定の周期に基いて、上記音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを周期的に検出し確定するように用いられる。
選択的に、上記第一処理モジュール11は、具体的に、上記音声対話装置のマイクがオン状態にあるか否かを検出し、上記マイクがオン状態にあると、上記音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを確定するように用いられる。
選択的に、上記プリセットシーンに通話シーンが含まれる場合に、上記第一処理モジュール11は、更に上記音声対話装置が通話中であるか、或いは通話要求を受信したかを検出し、肯定の場合に、上記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられる。
選択的に、上記プリセットシーンにメディアファイル再生シーンが含まれる場合に、上記第一処理モジュール11は、更に上記音声対話装置が画像ファイル、オーディオファイル及びビデオファイルのうちの少なくとも一つが含まれるメディアファイルを再生しているかを検出し、肯定の場合に、上記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられる。
選択的に、上記プリセットシーンに移動シーンが含まれる場合に、上記第一処理モジュール11は、更に上記音声対話装置の移動速度を検出し、上記移動速度が所定値よりも大きいか否かを判断し、肯定の場合に、上記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられる。
選択的に、上記プリセットシーンに情報シーンが含まれる場合に、上記第一処理モジュール11は、更に上記音声対話装置がショートメッセージ又は通知メッセージを受信したかを検出し、肯定の場合に、上記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられる。
選択的に、上記第二処理モジュール12は、具体的に、ユーザの音声データを取得し、上記音声データ及び予め設置された上記音声対話装置が現在に置かれるシーンに対応するコマンドセットに基いて音声対話を行うように用いられる。
選択的に、上記第二処理モジュール12は、更に具体的に、上記音声対話装置のマイクをユーザの音声データを採集するように制御し、或いは、ユーザの音声を採集してユーザの音声データを取得するように上記音声対話装置に接続されたブルートゥース(登録商標)又はイヤホンマイクを制御し、或いは、他のデバイスから送信されたユーザの音声データを受信するように用いられる。
上記実現方式により提供された音声対話装置は、上記何れか一つの方法実施例の技術案を実現するために用いられる。その実現原理と技術效果は同様であるため、ここでは詳しく説明しない。
図7は、本発明の実施例により提供された音声対話装置の第二の実施例の構成模式図である。図7に示されたように、当該音声対話装置10は、更に、音響学モデルと語義解析モデルを採用して、上記音声データを認識し解析して語義解析結果を取得する第三処理モジュール13と、上記語義解析結果の信頼度が所定の閾値よりも大きい場合に、上記語義解析結果に指示された操作を実行する第四処理モジュール14と、を備える。
一つの具体的な実現において、上記第三処理モジュール13は、音響学モデルと語義解析モデルを採用して上記音声データを認識し解析する前に、更に上記音声データに対してノイズ除去とエコ除去の処理を行うように用いられる。
選択的に、上記第三処理モジュール13は、具体的に、上記音声データを上記音響学モデルを採用してマッチングを行って語義データを認識し、上記語義解析モデルに基いて上記語義データを解析して上記語義解析結果を取得するように用いられる。
選択的に、上記第四処理モジュール14は、具体的に、上記音声対話装置が現在に置かれるシーン、上記音声対話装置が現在に置かれるシーンに対応するコマンドセット及び上記音声対話装置の状態に基いて、上記語義解析結果の信頼度を評価し、上記語義解析結果の信頼度が所定の閾値よりも大きいか否かを判断し、上記語義解析結果の信頼度が上記所定の閾値よりも小さい場合に、上記語義解析結果に指示された操作の実行をキャンセルするように用いられる。
選択的に、上記第四処理モジュール14は、更に、上記語義解析結果をコマンドを指定するようにソフトウェアインターフェースに出力して実行するように用いられる。
上記実現方式により提供された音声対話装置は、上記何れか一つの方法実施例の技術案を実現するために用いられる。その実現原理と技術效果は同様であるため、ここでは詳しく説明しない。
本発明は、メモリと少なくとも一つのプロセッサとを備えるAIデバイスを更に提供する。上記メモリはコンピュータコマンドを記憶するために用いられ、上記プロセッサは上記メモリに記憶されている上記コンピュータコマンドを運行して、上記何れも一つの方法実施例により提供された音声対話方法を実現するために用いられる。
本発明は、読み取り可能な記憶媒体とコンピュータコマンドとを備え、上記コンピュータコマンドが上記読み取り可能な記憶媒体に記憶されており、上記コンピュータコマンドが上記何れか一つの方法実施例により提供された音声対話方法を実現するために用いられる記憶媒体を更に提供する。
本発明の実施例は、プログラム製品を更に提供する。当該プログラム製品にコンピュータコマンド(即ちコンピュータプログラム)が備えられ、当該コンピュータコマンドが読み取り可能な記憶媒体に記憶される。AIデバイスの少なくとも一つのプロセッサは、読み取り可能な記憶媒体から当該コンピュータコマンドを読み取ることができ、少なくとも一つのプロセッサは、当該コンピュータコマンドを実行してAIデバイスに上記何れか一つの実施例により提供された音声対話方法を実施する。
理解すべきなのは、上記AIデバイスの具体的な実現において、プロセッサは中央処理ユニット(Central Processing Unit、CPU)であっても良く、他の汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSP)、専用集積回路(Application Specific Integrated Circuit、ASIC)などであっても良い。汎用プロセッサはマイクロプロセッサであっても良く、或いは当該プロセッサは任意の通常のプロセッサなどであっても良い。本発明の実施例に開示された方法に合わせるステップは、ハードウェアプロセッサが実行して完成させるように直接に表現されても良く、或いはプロセッサにおけるハードウェア及びソフトウェアのモジュールを組合わせて実行して完成させても良い。
当業者であればわかるように、上記各方法実施例の全て又は一部のステップの実現は、プログラムコマンドに関するハードウェアにより完成することができる。上記プログラムは、コンピュータに読み取り可能な記憶媒体に記憶されても良い。当該プログラムは実行されると、上記各方法実施例を含むステップを実行する。上記記憶媒体に、読み取り専用メモリ(read-only memory、ROM)、RAM、フラッシュメモリ、ハードディスク、SSD、磁気テープ(magnetic tape)、フロッピディスク(floppy disk)、光ディスク(optical disc)及び任意の組合わせが含まれる。
最後に説明すべきなのは、上記各実施例は、本発明の技術案に対する説明に過ぎず、それらに制限しない。上記各実施例に参照して本発明を詳しく説明したが、当業者であればわかるように、依然として上記各実施例に記載された技術案を補正し、或いはそのうち一部又は全ての技術特徴を均等に置換することができる。これらの補正又は置換は、相応の技術案の要旨を本発明の各実施例の技術案の範囲から逸脱させることではない。

Claims (22)

  1. 人工知能AIデバイスに応用される音声対話方法であって、
    AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定し、
    前記AIデバイスが現在に置かれるシーンが前記プリセットシーンであれば、ユーザと音声対話を行うように、前記AIデバイスの音声対話機能をウェークアップする、
    ことを含むことを特徴とする方法。
  2. 前記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、
    前記AIデバイスの操作状態に変化があるか否かを検出し、
    変化があると、操作状態が変化された後に前記AIデバイスが置かれるシーンがプリセットシーンであるか否かを確定し、
    或いは、
    ユーザから前記AIデバイスに入力されたシーン設置コマンドを受信し、
    前記シーン設置コマンドに基づいて、前記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定し、
    或いは、
    所定の周期に基づいて、前記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを周期的に検出し確定し、
    或いは、
    前記AIデバイスのマイクがオン状態にあるか否かを検出し、
    前記マイクがオン状態にあると、前記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する、
    ことを含むことを特徴とする請求項1に記載の方法。
  3. 前記プリセットシーンに通話シーンが含まれる場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、
    前記AIデバイスが通話中であるか、或いは通話要求を受信したかを検出し、
    肯定の場合に、前記AIデバイスが現在に置かれるシーンがプリセットシーンであると確定することを含み、
    或いは、
    前記プリセットシーンにメディアファイル再生シーンが含まれる場合に、前記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、
    前記AIデバイスがメディアファイルを再生しているか否かを検出し、ここで、前記メディアファイルに画像ファイル、オーディオファイル及びビデオファイルのうちの少なくとも一つが含まれ、
    肯定の場合に、前記AIデバイスが現在に置かれるシーンがプリセットシーンであると確定することを含み、
    或いは、
    前記プリセットシーンに移動シーンが含まれる場合に、前記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、
    前記AIデバイスの移動速度を検出し、前記移動が所定値よりも大きいか否かを判断し、
    肯定の場合に、前記AIデバイスが現在に置かれるシーンがプリセットシーンであることを確定することを含み、
    或いは、
    前記プリセットシーンに情報シーンが含まれる場合に、前記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、
    前記AIデバイスがショートメッセージ或いは通知メッセージを受信したか否かを検出し、
    肯定の場合に、前記AIデバイスが現在に置かれるシーンがプリセットシーンであると確定することを含む
    ことを特徴とする請求項1又は請求項2に記載の方法。
  4. 前記ユーザと音声対話を行うように、前記AIデバイスの音声対話機能をウェークアップすることは、
    ユーザの音声データを取得し、
    前記音声データと、予め設置された前記AIデバイスが現在に置かれるシーンに対応するコマンドセットとに基づいて、音声対話を行う
    ことを含むことを特徴とする請求項1又請求項は2に記載の方法。
  5. 前記ユーザの音声データを取得することは、
    ユーザの音声データを採集するように、前記AIデバイスのマイクを制御し、
    或いは、
    ユーザの音声を採集してユーザの音声データを取得するように、前記AIデバイスに接続されたブルートゥース(登録商標)或いはイヤホンマイクを制御し、
    或いは、
    他のデバイスから送信されたユーザの音声データを受信する、
    ことを含むことを特徴とする請求項4に記載の方法。
  6. 前記方法は、
    音響学モデルと語義解析モデルを採用して前記音声データを認識し解析することにより語義解析結果を取得し、
    前記語義解析結果の信頼度が所定の閾値よりも大きい場合に、前記語義解析結果に指示された操作を実行する、
    ことを更に含むことを特徴とする請求項5に記載の方法。
  7. 前記音響学モデルと語義解析モデルを採用して前記音声データを認識し解析する前に、前記方法は、
    前記音声データに対してノイズ除去とエコ除去の処理を行う、
    ことを更に含むことを特徴とする請求項6に記載の方法。
  8. 予め取得された音響学モデルと語義解析モデルを採用して前記音声データを認識し解析することにより語義解析結果を取得することは、
    前記音声データについて前記音響学モデルを採用してマッチングすることにより、語義データを認識し、
    前記語義解析モデルに基づいて前記語義データを解析することにより、前記語義解析結果を取得する、
    ことを含むことを特徴とする請求項6に記載の方法。
  9. 前記方法は、
    前記AIデバイスが現在に置かれるシーン、前記AIデバイスが現在に置かれるシーンに対応するコマンドセット及び前記AIデバイスの状態に基づいて、前記語義解析結果の信頼度を評価し、
    前記語義解析結果の信頼度が所定の閾値よりも大きいか否かを判断し、
    前記語義解析結果の信頼度が前記所定の閾値よりも小さい場合に、前記語義解析結果に指示された操作の実行をキャンセルする、
    ことを更に含むことを特徴とする請求項6〜請求項8の何れか一つに記載の方法。
  10. 前記前記語義解析結果に指示された操作を実行することは、
    コマンドを指定するように前記語義解析結果をソフトウェアインターフェースに出力して実行する、ことを含むことを特徴とする請求項6〜請求項8の何れか一つに記載の方法。
  11. 音声対話装置であって、
    音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを確定する第一処理モジュールと、
    前記音声対話装置が現在に置かれるシーンが前記プリセットシーンであれば、ユーザと音声対話を行うように、前記音声対話装置の音声対話機能をウェークアップする第二処理モジュールと、
    を備えることを特徴とする装置。
  12. 前記第一処理モジュールは、具体的に、
    前記音声対話装置の操作状態に変化があるか否かを検出し、
    変化があると、操作状態が変化された後に前記音声対話装置が置かれるシーンがプリセットシーンであるか否かを確定し、
    或いは、
    ユーザから前記音声対話装置に入力されたシーン設置コマンドを受信し、
    前記シーン設置コマンドに基づいて、前記音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを確定し、
    或いは、
    所定の周期に基づいて、前記音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを周期的に検出し確定し、
    或いは、
    前記音声対話装置のマイクがオン状態にあるか否かを検出し、
    前記マイクがオン状態にあると、前記音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを確定する、
    ように用いられることを特徴とする請求項11に記載の装置。
  13. 前記プリセットシーンに通話シーンが含まれる場合に、前記第一処理モジュールは、更に
    前記音声対話装置が通話中であるか、或いは通話要求を受信したかを検出し、
    肯定の場合に、前記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられ、
    或いは、
    前記プリセットシーンにメディアファイル再生シーンが含まれる場合に、前記第一処理モジュールは、更に
    前記音声対話装置がメディアファイルを再生しているかを検出し、ここで、前記メディアファイルに画像ファイル、オーディオファイル及びビデオファイルのうちの少なくとも一つが含まれ、
    肯定の場合に、前記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられ、
    或いは、
    前記プリセットシーンに移動シーンが含まれる場合に、前記第一処理モジュールは、更に
    前記音声対話装置の移動速度を検出し、前記移動が所定値よりも大きいか否かを判断し、
    肯定の場合に、前記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられ、
    或いは、
    前記プリセットシーンに情報シーンが含まれる場合に、前記第一処理モジュールは、更に
    前記音声対話装置がショートメッセージ或いは通知メッセージを受信したか否かを検出し、
    肯定の場合に、前記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられる、
    ことを特徴とする請求項11又は請求項12に記載の装置。
  14. 前記第二処理モジュールは、具体的に、
    ユーザの音声データを取得し、
    前記音声データと、予め設置された前記音声対話装置が現在に置かれるシーンに対応するコマンドセットとに基づいて、音声対話を行う、
    ように用いられることを特徴とする請求項11又は請求項12に記載の装置。
  15. 前記第二処理モジュールは、更に具体的に、
    ユーザの音声データを採集するように、前記音声対話装置のマイクを制御し、
    或いは、
    ユーザの音声を採集してユーザの音声データを取得するように、前記音声対話装置に接続されたブルートゥース(登録商標)或いはイヤホンマイクを制御し、
    或いは、
    他のデバイスから送信されたユーザの音声データを受信する、
    ように用いられることを特徴とする請求項14に記載の装置。
  16. 前記装置は、更に、
    音響学モデルと語義解析モデルを採用して前記音声データを認識し解析することにより、語義解析結果を取得する第三処理モジュールと、
    前記語義解析結果の信頼度が所定の閾値よりも大きい場合に、前記語義解析結果に指示された操作を実行する第四処理モジュールと、
    を備えることを特徴とする請求項15に記載の装置。
  17. 前記第三処理モジュールは、音響学モデルと語義解析モデルを採用して前記音声データを認識し解析する前に、更に
    前記音声データに対してノイズ除去とエコ除去の処理を行う
    ように用いられることを特徴とする請求項16に記載の装置。
  18. 前記第三処理モジュールは、具体的に、
    前記音声データに対して前記音響学モデルを採用してマッチングすることにより、語義データを認識し、
    前記語義解析モデルに基づいて前記語義データを解析することにより、前記語義解析結果を取得する、
    ように用いられることを特徴とする請求項16に記載の装置。
  19. 前記第四処理モジュールは、具体的に、
    前記音声対話装置が現在に置かれるシーン、前記音声対話装置が現在に置かれるシーンに対応するコマンドセット、及び前記音声対話装置の状態に基づいて、前記語義解析結果の信頼度を評価し、
    前記語義解析結果の信頼度が所定の閾値よりも大きいか否かを判断し、
    前記語義解析結果の信頼度が前記所定の閾値よりも小さい場合に、前記語義解析結果に指示された操作の実行をキャンセルする、
    ように用いられることを特徴とする請求項16〜請求項18の何れか一つに記載の装置。
  20. 前記第四処理モジュールは、更に、
    コマンドを指定するように前記語義解析結果をソフトウェアインターフェースに出力して実行する
    ように用いられることを特徴とする請求項16〜請求項18の何れか一つに記載の装置。
  21. メモリとプロセッサを備え、
    前記メモリは、コンピュータコマンドが記憶されており、前記プロセッサは、前記メモリに記憶されている前記コンピュータコマンドを実行して請求項1〜請求項10の何れか一つに記載の音声対話方法を実現させる、
    ことを特徴とする人工知能AIデバイス。
  22. 読み取り可能な記憶媒体とコンピュータコマンドを備え、
    前記コンピュータコマンドは前記読み取り可能な記憶媒体に記憶されており、前記コンピュータコマンドは請求項1〜請求項10の何れか一つに記載の音声対話方法を実現させる、
    ことを特徴とする記憶媒体。
JP2018173966A 2017-12-26 2018-09-18 音声対話方法、装置、デバイス及び記憶媒体 Active JP6811758B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201711427997.9A CN108337362A (zh) 2017-12-26 2017-12-26 语音交互方法、装置、设备和存储介质
CN201711427997.9 2017-12-26

Publications (2)

Publication Number Publication Date
JP2019117623A true JP2019117623A (ja) 2019-07-18
JP6811758B2 JP6811758B2 (ja) 2021-01-13

Family

ID=62923410

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018173966A Active JP6811758B2 (ja) 2017-12-26 2018-09-18 音声対話方法、装置、デバイス及び記憶媒体

Country Status (3)

Country Link
US (1) US10600415B2 (ja)
JP (1) JP6811758B2 (ja)
CN (1) CN108337362A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022501623A (ja) * 2019-08-16 2022-01-06 ペキン シャオミ モバイル ソフトウェア カンパニー, リミテッドBeijing Xiaomi Mobile Software Co., Ltd. オーディオ処理方法、装置及び記憶媒体
JP2022534371A (ja) * 2019-08-15 2022-07-29 華為技術有限公司 音声対話方法及び装置、端末、並びに記憶媒体

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087650B (zh) * 2018-10-24 2022-02-22 北京小米移动软件有限公司 语音唤醒方法及装置
CN109192210B (zh) * 2018-10-25 2023-09-22 腾讯科技(深圳)有限公司 一种语音识别的方法、唤醒词检测的方法及装置
CN109410952B (zh) * 2018-10-26 2020-02-28 北京蓦然认知科技有限公司 一种语音唤醒方法、装置及***
CN109285547B (zh) * 2018-12-04 2020-05-01 北京蓦然认知科技有限公司 一种语音唤醒方法、装置及***
CN111312235B (zh) * 2018-12-11 2023-06-30 阿里巴巴集团控股有限公司 一种语音交互方法、装置及***
CN109360567B (zh) * 2018-12-12 2021-07-20 思必驰科技股份有限公司 可定制唤醒的方法和装置
CN109524010A (zh) * 2018-12-24 2019-03-26 出门问问信息科技有限公司 一种语音控制方法、装置、设备及存储介质
CN109671432A (zh) * 2018-12-25 2019-04-23 斑马网络技术有限公司 语音定位处理方法、装置、定位设备及车辆
CN109493849A (zh) * 2018-12-29 2019-03-19 联想(北京)有限公司 语音唤醒方法、装置及电子设备
CN109871238A (zh) * 2019-01-02 2019-06-11 百度在线网络技术(北京)有限公司 语音交互方法、装置和存储介质
CN111475206B (zh) * 2019-01-04 2023-04-11 优奈柯恩(北京)科技有限公司 用于唤醒可穿戴设备的方法及装置
CN110136707B (zh) * 2019-04-22 2021-03-02 云知声智能科技股份有限公司 一种用于进行多设备自主决策的人机交互***
CN110278205B (zh) 2019-06-19 2021-05-28 百度在线网络技术(北京)有限公司 蓝牙音箱底座及其控制方法和***
CN110517678B (zh) * 2019-08-28 2022-04-08 南昌保莱科技有限公司 一种基于视觉感应的ai语音应答响应***
CN112447180A (zh) * 2019-08-30 2021-03-05 华为技术有限公司 语音唤醒方法和装置
CN110473556B (zh) * 2019-09-17 2022-06-21 深圳市万普拉斯科技有限公司 语音识别方法、装置和移动终端
CN112533041A (zh) * 2019-09-19 2021-03-19 百度在线网络技术(北京)有限公司 视频播放方法、装置、电子设备和可读存储介质
CN112558753A (zh) * 2019-09-25 2021-03-26 佛山市顺德区美的电热电器制造有限公司 多媒体交互方式的切换方法及装置、终端、存储介质
CN112581945A (zh) * 2019-09-29 2021-03-30 百度在线网络技术(北京)有限公司 语音控制方法、装置、电子设备和可读存储介质
CN110895931A (zh) * 2019-10-17 2020-03-20 苏州意能通信息技术有限公司 一种基于语音识别的vr交互***和方法
CN114556895A (zh) * 2019-10-21 2022-05-27 宇龙计算机通信科技(深圳)有限公司 语音控制的方法、装置、终端及存储介质
CN110751951B (zh) * 2019-10-25 2022-11-11 智亮君 基于智能镜子的握手交互方法及***、存储介质
CN111367488B (zh) * 2020-01-07 2023-08-22 百度在线网络技术(北京)有限公司 语音设备及语音设备的交互方法、设备、存储介质
CN113223510B (zh) * 2020-01-21 2022-09-20 青岛海尔电冰箱有限公司 冰箱及其设备语音交互方法、计算机可读存储介质
CN111581361B (zh) * 2020-04-22 2023-09-15 腾讯科技(深圳)有限公司 一种意图识别方法及装置
CN111524504A (zh) * 2020-05-11 2020-08-11 中国商用飞机有限责任公司北京民用飞机技术研究中心 机载语音控制方法和装置
CN111625094B (zh) * 2020-05-25 2023-07-14 阿波罗智联(北京)科技有限公司 智能后视镜的交互方法、装置、电子设备和存储介质
CN111916076B (zh) * 2020-07-10 2024-06-07 北京搜狗智能科技有限公司 一种录音方法、装置和电子设备
CN111951795B (zh) * 2020-08-10 2024-04-09 中移(杭州)信息技术有限公司 语音交互方法、服务器、电子设备和存储介质
CN112000024B (zh) * 2020-09-01 2022-08-05 青岛海尔科技有限公司 用于控制家电设备的方法及装置、设备
CN112233674A (zh) * 2020-10-15 2021-01-15 上海博泰悦臻网络技术服务有限公司 一种多模交互方法及其***
CN112489644B (zh) * 2020-11-04 2023-12-19 三星电子(中国)研发中心 用于电子设备的语音识别方法及装置
CN112799632B (zh) * 2021-01-26 2023-12-19 深圳市普渡科技有限公司 机器人语音播放方法及机器人
CN115396831A (zh) * 2021-05-08 2022-11-25 ***通信集团浙江有限公司 交互模型生成方法、装置、设备及存储介质
CN115695636A (zh) * 2021-07-27 2023-02-03 华为技术有限公司 一种智能语音交互的方法及电子设备
CN113808584A (zh) * 2021-07-29 2021-12-17 杭州逗酷软件科技有限公司 语音唤醒方法、装置、电子设备及存储介质
CN114356275B (zh) * 2021-12-06 2023-12-29 上海小度技术有限公司 交互控制方法、装置、智能语音设备及存储介质
CN115472156A (zh) * 2022-09-05 2022-12-13 Oppo广东移动通信有限公司 语音控制方法、装置、存储介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020077830A1 (en) * 2000-12-19 2002-06-20 Nokia Corporation Method for activating context sensitive speech recognition in a terminal
JP2003195891A (ja) * 2001-12-27 2003-07-09 Denso Corp 電子機器
JP2004289710A (ja) * 2003-03-25 2004-10-14 Toshiba Corp ハンズフリーシステムおよび携帯電話機
JP2011253375A (ja) * 2010-06-02 2011-12-15 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
CN103561156A (zh) * 2013-09-24 2014-02-05 北京光年无限科技有限公司 一种通过位移唤醒语音助手的方法
JP2017069748A (ja) * 2015-09-30 2017-04-06 グローリー株式会社 監視カメラシステム及び監視方法
CN107360327A (zh) * 2017-07-19 2017-11-17 腾讯科技(深圳)有限公司 语音识别方法、装置和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013037097A (ja) * 2011-08-05 2013-02-21 Seiko Epson Corp 音声処理装置
CN105739977A (zh) * 2016-01-26 2016-07-06 北京云知声信息技术有限公司 一种语音交互设备的唤醒方法及装置
CN105912092B (zh) * 2016-04-06 2019-08-13 北京地平线机器人技术研发有限公司 人机交互中的语音唤醒方法及语音识别装置
CN106175407B (zh) * 2016-07-05 2018-08-31 杭州九阳欧南多小家电有限公司 一种具有语音交互的烹饪器具及语音交互控制方法
US10051600B1 (en) * 2017-12-12 2018-08-14 Amazon Technologies, Inc. Selective notification delivery based on user presence detections

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020077830A1 (en) * 2000-12-19 2002-06-20 Nokia Corporation Method for activating context sensitive speech recognition in a terminal
JP2003195891A (ja) * 2001-12-27 2003-07-09 Denso Corp 電子機器
JP2004289710A (ja) * 2003-03-25 2004-10-14 Toshiba Corp ハンズフリーシステムおよび携帯電話機
JP2011253375A (ja) * 2010-06-02 2011-12-15 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
CN103561156A (zh) * 2013-09-24 2014-02-05 北京光年无限科技有限公司 一种通过位移唤醒语音助手的方法
JP2017069748A (ja) * 2015-09-30 2017-04-06 グローリー株式会社 監視カメラシステム及び監視方法
CN107360327A (zh) * 2017-07-19 2017-11-17 腾讯科技(深圳)有限公司 语音识别方法、装置和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022534371A (ja) * 2019-08-15 2022-07-29 華為技術有限公司 音声対話方法及び装置、端末、並びに記憶媒体
JP7324313B2 (ja) 2019-08-15 2023-08-09 華為技術有限公司 音声対話方法及び装置、端末、並びに記憶媒体
US11922935B2 (en) 2019-08-15 2024-03-05 Huawei Technologies Co., Ltd. Voice interaction method and apparatus, terminal, and storage medium
JP2022501623A (ja) * 2019-08-16 2022-01-06 ペキン シャオミ モバイル ソフトウェア カンパニー, リミテッドBeijing Xiaomi Mobile Software Co., Ltd. オーディオ処理方法、装置及び記憶媒体
US11264027B2 (en) 2019-08-16 2022-03-01 Beijing Xiaomi Mobile Software Co., Ltd. Method and apparatus for determining target audio data during application waking-up
JP7166294B2 (ja) 2019-08-16 2022-11-07 ペキン シャオミ モバイル ソフトウェア カンパニー, リミテッド オーディオ処理方法、装置及び記憶媒体

Also Published As

Publication number Publication date
US20190198019A1 (en) 2019-06-27
JP6811758B2 (ja) 2021-01-13
CN108337362A (zh) 2018-07-27
US10600415B2 (en) 2020-03-24

Similar Documents

Publication Publication Date Title
JP6811758B2 (ja) 音声対話方法、装置、デバイス及び記憶媒体
CN110634483B (zh) 人机交互方法、装置、电子设备及存储介质
CN108962240B (zh) 一种基于耳机的语音控制方法及***
US11502859B2 (en) Method and apparatus for waking up via speech
CN109243431A (zh) 一种处理方法、控制方法、识别方法及其装置和电子设备
CN108538291A (zh) 语音控制方法、终端设备、云端服务器及***
JP7166294B2 (ja) オーディオ処理方法、装置及び記憶媒体
CN106463112A (zh) 语音识别方法、语音唤醒装置、语音识别装置及终端
WO2019033987A1 (zh) 提示方法、装置、存储介质及终端
US20130238341A1 (en) Device capable of playing music and method for controlling music playing in electronic device
US11200899B2 (en) Voice processing method, apparatus and device
CN111583923B (zh) 信息控制方法及装置、存储介质
WO2014182453A2 (en) Method and apparatus for training a voice recognition model database
CN108648754A (zh) 语音控制方法及装置
JP6817386B2 (ja) 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
CN112133302A (zh) 预唤醒终端的方法、装置及存储介质
CN108492826B (zh) 音频处理方法、装置、智能设备及介质
CN110415703A (zh) 语音备忘信息处理方法及装置
CN109215642A (zh) 人机会话的处理方法、装置及电子设备
US10693944B1 (en) Media-player initialization optimization
CN109670025A (zh) 对话管理方法及装置
CN113449068A (zh) 一种语音交互方法及电子设备
US11641592B1 (en) Device management using stored network metrics
CN111968680A (zh) 一种语音处理方法、装置及存储介质
CN213691430U (zh) 一种用于声音控制的装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180918

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201215

R150 Certificate of patent or registration of utility model

Ref document number: 6811758

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250