JP2019117623A

JP2019117623A - 音声対話方法、装置、デバイス及び記憶媒体

Info

Publication number: JP2019117623A
Application number: JP2018173966A
Authority: JP
Inventors: ジャナンシュ; Jianan Xu; グォグォチェン; Guoguo Chen; チンゴンチエン; Qinggeng Qian
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2017-12-26
Filing date: 2018-09-18
Publication date: 2019-07-18
Anticipated expiration: 2038-09-18
Also published as: US20190198019A1; JP6811758B2; CN108337362A; US10600415B2

Abstract

【課題】物理ウェークアップ或いはウェークアップワードによるウェークアップの過程を省略し、音声対話の使用手順を簡略化し、音声対話の学習コストを低減し、ユーザを体験を向上させる音声対話方法、装置、デバイス及び記憶媒体を提供する。【解決手段】方法は、AIデバイスに応用され、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定し、AIデバイスが現在に置かれるシーンがプリセットシーンであれば、ユーザと音声対話を行うように、AIデバイスの音声対話機能をウェークアップする。シーンにより音声対話手続きを直接にトリガする。【選択図】図２

Description

本発明は、人工知能（Artificial Intelligence、AI）の技術分野に関し、特に音声対話方法、装置、デバイス及び記憶媒体に関する。

知能端末デバイスの発展に従って、音声対話を実行可能なデバイスが徐々に増加し、ユーザの日常生活における音声対話の応用も徐々に増加し、どのように製品の便利性を向上するかについての製品設計も段々に注目されている。

最近、常用の音声対話手続きは、以下のような複数の種類を含む。第一種の方式において、ユーザが端末デバイスにおける制御ボタン或いはhomeキーをクリックして音声対話手続きを起動し、ユーザが希望の操作を言い出し、端末デバイスがユーザの音声データを採集して、デバイスとの音声対話を実現する。第二種の方式において、固定のウェークアップワードを採用して音声対話手続きを起動し、当該端末デバイスの音声対話に使用されるウェークアップワードをユーザが事前に分かる必要があり、ユーザが当該ウェークアップワードを言い出し、採集された固定のウェークアップワードに基づいて、端末デバイスが音声対話手続きを起動し、音声対話手続きが起動された後にユーザの音声データを採集して音声対話を行い、例えばユーザが「バイドゥ、バイドゥ」を言い出して携帯電話の音声対話機能をウェークアップする。第三種の方式において、oneshot技術を採用して音声対話を実現し、ウェークアップワードと共に希望の動作を使用して音声対話を起動し、即ちユーザが固定のウェークアップワード及び希望の端末デバイスによる実行内容を同時に言い出し、端末デバイスがウェークアップワードに基づいて音声対話手続きを起動し、採集されたユーザの希望する端末デバイスによる実行内容に基づいて直接に音声対話を行い、例えばユーザが「バイドゥ、バイドゥ、今日の天気はどうですか」を言い出して携帯電話と音声対話を行う。

上記複数種の音声対話の技術案において、音声対話を行う際に、ユーザは、制御ボタン、homeキーなどの物理ウェークアップ、或いはユーザから固定のウェークアップワードを言い出す手段を採用して、端末デバイスに音声対話機能を起動させる必要があり、且つウェークアップワードによるウェークアップは、ある程度の誤差があるため、現在の音声対話の使用手順が複雑で、成功率が低くなり、ユーザから音声対話を使用する使用頻度が低くなってしまう。

本発明の実施例は、上記複数種の音声対話の技術案において、音声対話の使用手順が複雑で、成功率が低いため、ユーザから音声対話を使用する使用頻度が低くなる課題を解決するために、音声対話方法、装置、デバイス及び記憶媒体を提供する。

本発明の第一の局面は、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定し、上記AIデバイスが現在に置かれるシーンが上記プリセットシーンであれば、ユーザと音声対話を行うように、上記AIデバイスの音声対話機能をウェークアップすることを含む音声対話方法を提供する。

一種の具体的な実現手段において、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、上記AIデバイスの操作状態に変化があるか否かを検出し、変化があると、操作状態が変化された後に上記AIデバイスが置かれるシーンがプリセットシーンであるか否かを確定することを含む。

一種の具体的な実現手段において、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、ユーザから上記AIデバイスに入力されたシーン設置コマンドを受信し、上記シーン設置コマンドに基づいて、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することを含む。

一種の具体的な実現手段において、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、所定の周期に基づいて、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを周期的に検出し確定することを含む。

一種の具体的な実現手段において、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、上記AIデバイスのマイクがオン状態にあるか否かを検出し、上記マイクがオン状態にあると、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することを含む。

一種の具体的な実現手段において、上記プリセットシーンに通話シーンが含まれる場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、上記AIデバイスが通話中であるか、或いは通話要求を受信したかを検出し、肯定の場合に、上記AIデバイスが現在に置かれるシーンがプリセットシーンであると確定することを含む。

一種の具体的な実現手段において、上記プリセットシーンにメディアファイル再生シーンが含まれる場合に、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、上記AIデバイスがメディアファイルを再生しているか否かを検出し、ここで、上記メディアファイルに画像ファイル、オーディオファイル及びビデオファイルのうちの少なくとも一つが含まれ、肯定の場合に、上記AIデバイスが現在に置かれるシーンがプリセットシーンであると確定することを含む。

一種の具体的な実現手段において、上記プリセットシーンに移動シーンが含まれる場合に、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、上記AIデバイスの移動速度を検出し、上記移動が所定値よりも大きいか否かを判断し、肯定の場合に、上記AIデバイスが現在に置かれるシーンがプリセットシーンであることを確定することを含む。

選択的に、上記プリセットシーンに情報シーンが含まれる場合に、上記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、上記AIデバイスがショートメッセージ或いは通知メッセージを受信したか否かを検出し、肯定の場合に、上記AIデバイスが現在に置かれるシーンがプリセットシーンであると確定することを含む。

選択的に、上記ユーザと音声対話を行うように上記AIデバイスの音声対話機能をウェークアップすることは、ユーザの音声データを取得し、上記音声データと、予め設置された上記AIデバイスが現在に置かれるシーンに対応するコマンドセットとに基づいて、音声対話を行うことを含む。

選択的に、上記ユーザの音声データを取得することは、ユーザの音声データを採集するように上記AIデバイスのマイクを制御し、或いは、ユーザの音声を採集してユーザの音声データを取得するように、上記AIデバイスに接続されたブルートゥース（登録商標）或いはイヤホンマイクを制御し、或いは、他のデバイスから送信されたユーザの音声データを受信する、ことを含む。

更に、上記方法は、音響学モデルと語義解析モデルを採用して上記音声データを認識し解析することにより語義解析結果を取得し、上記語義解析結果の信頼度が所定の閾値よりも大きい場合に、上記語義解析結果に指示された操作を実行する、ことを更に含む。

選択的に、上記音響学モデルと語義解析モデルを採用して上記音声データを認識し解析する前に、上記方法は、上記音声データに対してノイズ除去とエコ除去の処理を行う、ことを更に含む。

選択的に、上記予め取得された音響学モデルと語義解析モデルを採用して上記音声データを認識し解析することにより、語義解析結果を取得することは、上記音声データについて上記音響学モデルを採用してマッチングすることにより、語義データを認識し、上記語義解析モデルに基づいて上記語義データを解析することにより、上記語義解析結果を取得する、ことを含む。

選択的に、上記方法は、上記AIデバイスが現在に置かれるシーン、上記AIデバイスが現在に置かれるシーンに対応するコマンドセット及び上記AIデバイスの状態に基づいて、上記語義解析結果の信頼度を評価し、上記語義解析結果の信頼度が所定の閾値よりも大きいか否かを判断し、上記語義解析結果の信頼度が上記所定の閾値よりも小さい場合に、上記語義解析結果に指示された操作の実行をキャンセルする、ことを更に含む。

選択的に、上記上記語義解析結果に指示された操作を実行することは、コマンドを指定するように上記語義解析結果をソフトウェアインターフェースに出力して実行する、ことを含む。

本発明の第二の局面は、音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを確定する第一処理モジュールと、上記音声対話装置が現在に置かれるシーンが上記プリセットシーンであれば、ユーザと音声対話を行うように、上記音声対話装置の音声対話機能をウェークアップする第二処理モジュールと、を備える音声対話装置を提供する。

選択的に、上記第一処理モジュールは、具体的に、上記音声対話装置の操作状態に変化があるか否かを検出し、変化があると、操作状態が変化された後に上記音声対話装置が置かれるシーンがプリセットシーンであるか否かを確定するように用いられる。

選択的に、上記第一処理モジュールは、具体的に、ユーザから上記音声対話装置に入力されたシーン設置コマンドを受信し、上記シーン設置コマンドに基づいて、上記音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを確定するように用いられる。

選択的に、上記第一処理モジュールは、具体的に、所定の周期に基づいて、上記音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを周期的に検出し確定するように用いられる。

選択的に、上記第一処理モジュールは、具体的に、上記音声対話装置のマイクがオン状態にあるか否かを検出し、上記マイクがオン状態にあると、上記音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを確定する、ように用いられる。

選択的に、上記プリセットシーンに通話シーンが含まれる場合に、上記第一処理モジュールは、更に上記音声対話装置が通話中であるか或いは通話要求を受信したかを検出し、肯定の場合に、上記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられる。

選択的に、上記プリセットシーンにメディアファイル再生シーンが含まれる場合に、上記第一処理モジュールは、更に上記音声対話装置がメディアファイルを再生しているかを検出し、ここで、上記メディアファイルに画像ファイル、オーディオファイル及びビデオファイルのうちの少なくとも一つが含まれ、肯定の場合に、上記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられる。

選択的に、上記プリセットシーンに移動シーンが含まれる場合に、上記第一処理モジュールは、更に上記音声対話装置の移動速度を検出し、上記移動が所定値よりも大きいか否かを判断し、肯定の場合に、上記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられる。

選択的に、上記プリセットシーンに情報シーンが含まれる場合に、上記第一処理モジュールは、更に上記音声対話装置がショートメッセージ或いは通知メッセージを受信したか否かを検出し、肯定の場合に、上記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられる。

選択的に、上記第二処理モジュールは、具体的に、ユーザの音声データを取得し、上記音声データと、予め設置された上記音声対話装置が現在に置かれるシーンに対応するコマンドセットとに基づいて、音声対話を行う、ように用いられる。

選択的に、上記第二処理モジュールは、更に具体的に、ユーザの音声データを採集するように、上記音声対話装置のマイクを制御し、或いは、ユーザの音声を採集してユーザの音声データを取得するように、上記音声対話装置に接続されたブルートゥース（登録商標）或いはイヤホンマイクを制御し、或いは、他のデバイスから送信されたユーザの音声データを受信する、ように用いられる。

選択的に、上記装置は、更に、音響学モデルと語義解析モデルを採用して上記音声データを認識し解析することにより、語義解析結果を取得する第三処理モジュールと、上記語義解析結果の信頼度が所定の閾値よりも大きい場合に、上記語義解析結果に指示された操作を実行する第四処理モジュールと、を備える。

選択的に、上記第三処理モジュールは、音響学モデルと語義解析モデルを採用して上記音声データを認識し解析する前に、更に上記音声データに対してノイズ除去とエコ除去の処理を行うように用いられる。

選択的に、上記第三処理モジュールは、具体的に、上記音声データに対して上記音響学モデルを採用してマッチングすることにより、語義データを認識し、上記語義解析モデルに基づいて上記語義データを解析することにより、上記語義解析結果を取得する、ように用いられる。

選択的に、上記第四処理モジュールは、具体的に、上記音声対話装置が現在に置かれるシーン、上記音声対話装置が現在に置かれるシーンに対応するコマンドセット、及び上記音声対話装置の状態に基づいて、上記語義解析結果の信頼度を評価し、上記語義解析結果の信頼度が所定の閾値よりも大きいか否かを判断し、上記語義解析結果の信頼度が上記所定の閾値よりも小さい場合に、上記語義解析結果に指示された操作の実行をキャンセルする、ように用いられる。

選択的に、上記第四処理モジュールは、更に、コマンドを指定するように上記語義解析結果をソフトウェアインターフェースに出力して実行するように用いられる。

本発明の第三の局面は、メモリとプロセッサを備え、上記メモリは、コンピュータコマンドが記憶されており、上記プロセッサは、上記メモリに記憶されている上記コンピュータコマンドを実行して第一の局面の何れか一つの実現手段により提供された音声対話方法を実現させるAIデバイスを提供する。

本発明の第四の局面は、読み取り可能な記憶媒体とコンピュータコマンドを備え、上記コンピュータコマンドは上記読み取り可能な記憶媒体に記憶されており、上記コンピュータコマンドは第一の局面の何れか一つの実現手段により提供された音声対話方法を実現させる記憶媒体を提供する。

本発明の実施例の第五の局面は、プログラム製品を提供する。当該プログラム製品はコンピュータコマンド（即ちコンピュータプログラム）を含み、当該コンピュータコマンドは読み取り可能な記憶媒体に記憶される。AIデバイスの少なくとも一つのプロセッサは、読み取り可能な記憶媒体から当該コンピュータコマンドを読み取ることができ、少なくとも一つのプロセッサは、AIデバイスにより上記第一の局面の何れか一つの実施手段により提供された音声対話方法を実施するように当該コンピュータコマンドを実行する。

本発明により提供される音声対話方法、装置、デバイス及び記憶媒体によれば、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定し、AIデバイスが現在に置かれるシーンがプリセットシーンであれば、ユーザと音声対話を行うように、AIデバイスの音声対話機能をウェークアップする。AIデバイスが置かれるシーンにより音声対話手続きを直接にトリガすることにより、物理ウェークアップ或いはウェークアップワードによるウェークアップの過程が省略され、音声対話の使用手順が簡略化され、音声対話の学習コストが低減され、ユーザの体験が向上されると共に、専門的な音声対話ウェークアップハードウェア或いはウェークアップワードによるウェークアップの過程が不要になり、技術開発のコストが低減されることができる。

本発明の実施例又は従来技術における技術案をより明確にするために、以下に実施例又は従来技術の説明に必要な図面を簡単に紹介する。明らかに、以下の説明における図面は本発明の幾つかの実施例であり、当業者であればわかるように、進歩性に値する労働を付しない前提で、更にこれらの図面に基いて他の図面を得ることができる。
本発明の実施例により提供される音声対話方法の構成模式図である。本発明の実施例により提供される音声対話方法の第一の実施例のフローチャートである。本発明の実施例により提供される音声対話方法におけるプリセットシーンの設置模式図である。本発明の実施例により提供される音声対話方法の第二の実施例のフローチャートである。本発明の実施例により提供される音声対話方法の第三の実施例のフローチャートである。本発明の実施例により提供される音声対話装置の第一の実施例の構成模式図である。本発明の実施例により提供される音声対話装置の第二の実施例の構成模式図である。

本発明の実施例の目的、技術案及び利点をより明確にするために、以下に本発明の実施例における図面と合わせて本発明の実施例における技術案について明瞭で完備な説明を行う。明らかに、説明された実施例は、本発明の一部の実施例であり、全ての実施例ではない。当業者は、進歩性に値する労働を付しない前提で本発明における実施例に基いて得られた全ての他の実施例は、何れも本発明の保護範囲に属する。

音声対話応用のシーン及びデバイスが益々増加することに従って、どのように製品の便利性を向上させるについての製品設計が段々に注目されている。現在に採用されている物理キーによる音声対話手続きのウェークアップ、或いはユーザが固定のウェークアップワードを言い出して音声対話手続きをウェークアップする技術案は、以下のような課題がある。

（1）物理ウェークアップ及びウェークアップワードによるウェークアップは、何れもユーザを徐々に案内する必要がある。しかし、実際にユーザの使用頻度が依然として非常に低いため、ユーザへの教育コストが大きくなる。

（2）ユーザニーズの満足はウェークアップ動作により遮断され、2〜3ステップを経過する必要があり、且つ成功率による影響があるため（ウェークアップの成功且つニーズの認識の成功）、使用手順が複雑になる。

（3）ユーザニーズを満足するコストに加え、物理キー及びウェークアップワードにも付加的な研究開発コスト及び時間コストが必要であるため、技術において開発コストが大きくなる。

上記課題に基づいて、本発明は音声対話方法を提供する。特定のシーンにおいて音声対話手続きを直接に行い、即ちシーントリガにより、端末デバイスがプリセットシーンにある場合に、ユーザは関連の動作コマンドを直接に言い出すことができ、端末デバイスはウェークアップの過程を省略して直接にユーザから言い出される関連の動作コマンドを認識し実行することができる。これにより、より便利な音声対話が実現され、手順が簡略化され、ユーザの体験が向上されると共に、技術開発コストが低減される。

本発明の実施例により提供される音声対話方法は、全ての人工知能（Artificial Intelligence、AI）デバイス、例えば携帯電話、パソコン、タブレット、ウェアラブルデバイス、ロボット、スマート家電、サーバなどの端末デバイス、工業生産デバイス、医療機械デバイス、セキュリティデバイスなどに応用でき、本技術案において制限がない。

図1は、本発明の実施例により提供される音声対話方法の構成模式図である。図1に示されたように、当該技術案において、本技術案の主な構成は、AIデバイスにおいて一つ又は複数のプリセットシーンを予め設置し、AIデバイスは、自身が何れか一つのプリセットシーンにある（置かれる）か否かを確定する際に、音声対話機能をウェークアップし、ユーザの音声データを採集して、ユーザとの音声対話手続きを完成することができる。プリセットシーンの設置は、AIデバイスの出荷前に設置されても良く、ユーザの使用過程において自身のニーズに基づいて手動設置されても良い。

以下、複数の具体的な実施例により当該音声対話方法を説明する。

図2は、本発明の実施例により提供される音声対話方法の第一の実施例のフローチャートである。図2に示されたように、本実施例により提供される音声対話方法は、具体的に以下のステップを含む。

ステップS101において、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する。

本ステップにおいて、AIデバイスにおいて一つ又は複数のプリセットシーンを設置し、AIデバイスは、自身が何れか一つのプリセットシーンにあるか否かを確定し、その後にユーザと音声対話を行うか否かを決定する。AIデバイスがプリセットシーンにない（置かれない）場合に、音声対話機能をウェークアップしない。

当該プリセットシーンは、AIデバイスが出荷する際に配置されても良く、応用の過程においてユーザの操作に基づいて設置されても良く、本技術案では制限しない。例えば、図3は本発明の実施例により提供される音声対話方法におけるプリセットシーンの設置模式図である。図3に示されたように、AIデバイスの設置において、音声対話シーンを設置するためのインターフェースを提供し、複数のインターフェースを提供してユーザに選択させることができる。同図において、音声対話シーンの設置画面において、複数の汎用のシーンが提供されたと共に開閉操作が合わせて提供され、ユーザは実際の状況に応じて選択し、それらのシーンにおいて音声対話を自動的に行うことができる。例えば、同図において、ユーザにより移動シーンが選択されると、AIデバイスが移動シーンにある場合に音声対話の手順を自動的に実行する。

当該プリセットシーンは、AIデバイスの所在する環境、或いはAIデバイスの自身の状態についてのシーンであっても良い。例えば、携帯電話を例として、ユーザが通話中、或いは着信中などが含まれる通話シーン、携帯電話によるビデオ再生中、オーディオ再生中、或いは画像再生中などが含まれるメディアファイル再生シーン、携帯電話によるショートメッセージの受信或いはアプリの通知メッセージの受信などが含まれる情報シーン、目覚まし時計シーン、携帯電話が写真を撮っているか、撮影しているなどが含まれる撮影シーン、携帯電話が車載状態、ナビゲーション状態、或いはユーザが走っているか或いは歩いているなどが含まれる移動シーン、充電シーンなどがある。

当該ステップの具体的な実現において、AIデバイスは、自身状態の変化、ユーザの操作、周期、或いはAIデバイスのマイクの状態などの手段に基づいてプリセットシーンにあるか否かを確定することができる。AIデバイスがプリセットシーンにあるか否かを確定する具体的な方式は少なくとも以下の複数種を含む。

第一種の方式において、AIデバイスの操作状態に変化があるか否かを検出し、変化があれば、操作状態が変化された後に上記AIデバイスが置かれるシーンがプリセットシーンであるか否かを確定する。

当該技術案において、AIデバイスは、操作状態の変化により、プリセットシーンにあるか否かを確定する過程をトリガする。ここでの操作状態は、AIデバイスのユーザ操作による変化に加え、AIデバイスの自身の状態の変化も含む。例えば、同様に携帯電話を例とする。携帯電話が待機中に着信が受信された時、携帯電話の状態が変化すれば、携帯電話の状態変化後の着信継続、通話許可或いは通話拒否などのシーンがプリセットシーンであるか否かを確定することができる。或いは、携帯電話がショートメッセージ又はあるアプリの通知を受信した時、携帯電話の状態が変化すれば、状態が変化された後にメッセージの受信がプリセットシーンであるか否かなどを検出することができる。或いは、ユーザが携帯電話をアンロックし、携帯電話が待機のブランクスクリーン状態からスクリーンアクテイブの操作可能な状態に移行した時、携帯電話の状態が変化すれば、状態が変化された後に携帯電話がプリセットシーンにあるか否かなどを確定することができる。

第二種の方式において、ユーザからAIデバイスに入力されたシーン設置コマンドを受信し、シーン設置コマンドに基いて、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する。

当該技術案において、ユーザがAIデバイスに対して操作を行い、即ちシーン設置コマンドを入力すると、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することをトリガする。例えば、ユーザにより携帯電話における地図ソフトウェアがオープンされ且つナビゲーション機能がオープンされた場合に、携帯電話がナビゲーションシーンに入り、当該携帯電話のナビゲーションシーンがプリセットシーンであるか否かを確定することができる。或いは、ユーザが電話番号を入力してダイヤルし、携帯電話による通信の接続が開始した場合に、携帯電話において通話シーンが動作し、当該通話シーンがプリセットシーンであるか否かなどを確定することができる。

第三種の方式において、所定の周期に基いて、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを周期的に検出し確定する。

当該技術案において、出荷前に、AIデバイスにおいて、AIデバイスが置かれるシーンがプリセットシーンであるか否かを確定するための所定の周期を設置し、或いはユーザの使用過程における操作に基づいて、AIデバイスが置かれるシーンがプリセットシーンであるか否かを確定するための周期を設置することができる。AIデバイスは、運行過程において当該所定の周期に従って、現在に置かれるシーンがプリセットシーンであるか否かを周期的に確定する。

第四種の方式において、AIデバイスのマイクがオン状態にあるか否かを検出し、マイクがオン状態にあると、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する。

当該技術案において、マイクの状態により、AIデバイスが現在に置かれるシーンがプリセットシーンであるかを確定するか否かを決定する。例えば、AIデバイスによりマイクがオン状態であると検出されると、ユーザから音声対話のニーズがあると見なすため、現在に置かれるシーンがプリセットシーンであるか否かを確定することをトリガすることができる。マイクがオフ状態であれば、暫くユーザから音声対話のニーズがないと見なすことができる。

AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを判断することをトリガすることは、上記複数種の方式に加え、他の方式或いは機能を設置して当該過程をトリガすることもでき、本技術案では制限しない。

上記複数種の方式をもとに、異なるシーンによっては、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを検出する際に実行すべき検出手段は異なる。以下に複数の例に基いて説明する。

例えば、プリセットシーンに通話シーンが含まれる場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する過程において、AIデバイスは、通話中であるか、或いは通話要求を受信したか、或いはダイヤル中であるかを検出する必要がある。何れか一つの状態であれば、当該AIデバイスが現在に置かれるシーンがプリセットシーンであると確定することができる。

プリセットシーンにメディアファイル再生シーンが含まれる場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する過程において、AIデバイスは、例えば写真アルバムにおける写真の再生、音楽の再生、音声メッセージの再生、通知メッセージの放送のような、画像、オーディオファイル又はビデオファイルの再生中であるか、或いはビデオの再生中、ビデオのオンライン観覧などを検出する必要がある。AIデバイスがメディアファイルの再生中であると確定されると、AIデバイスが現在に置かれるシーンがプリセットシーンであると確定することができる。

プリセットシーンに移動シーンが含まれる場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する過程において、AIデバイスは、移動速度を検出し、AIデバイスの移動速度が所定値よりも大きいかを判断する必要がある。例えば、AIデバイスが車載状態である場合に、ユーザは明らかに手動操作であるコマンドを実行できず、この場合に一定の移動速度の閾値を設置し、速度が当該閾値よりも大きいであれば、AIデバイスが移動シーンにあり、即ち現在に置かれるシーンがプリセットシーンであることを確定することができる。

プリセットシーンに情報シーンが含まれる場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する過程において、AIデバイスは、ショートメッセージ又は通知メッセージを受信したか否かを検出する必要がある。例えば、他のユーザから送信されたショートメッセージを受信し、或いはあるアプリから送信された通知メッセージを受信した場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであると確定することができる。

プリセットシーンに目覚まし時計シーンが含まれる場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する過程において、目覚まし時計が目覚まし状態にあるか否かを検出する必要がある。例えば、時間がユーザにより設置された時間になり、AIデバイスがアラーム音を再生するか振動する場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであると確定する。

プリセットシーンに撮影シーンが含まれる場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する過程において、AIデバイスは、写真を撮っているか、或いは撮影中であるかなどを検出する必要がある。肯定の場合に、AIデバイスが現在に置かれるシーンがプリセットシーンなどであるを確定する。

当該技術案の具体的な実現において、プリセットシーンは一つに限らず、AIデバイスに音声対話手続きをトリガする一つ又は複数のシーンを設置でき、本技術案では制限しない。

ステップS102において、AIデバイスが現在に置かれるシーンがプリセットシーンであれば、ユーザと音声対話を行うように、AIデバイスの音声対話機能をウェークアップする。

本ステップにおいて、上記何れか一つの方式によりAIデバイスが現在に置かれるシーンがプリセットシーンであると確定された場合に、AIデバイスの音声対話機能を直接にウェークアップしてユーザと音声対話を行い、ユーザから言い出された内容に対して採集及び認識を行い、そのコマンドを確定し実行することができる。

本実施例により提供された音声対話方法によれば、音声対話手続きをトリガすることができるプリセットシーンをAIデバイスに予め設置し、AIデバイスが使用過程において現在に所在するシーンがプリセットシーンであるか否かを確定し、現在に置かれるシーンがプリセットシーンであると確定されると、音声対話手続きをウェークアップし、即ちAIデバイスが置かれるシーンにより音声対話手続きを直接にトリガする。これにより、物理ウェークアップ又はウェークアップワードによるウェークアップの過程が省略され、音声対話の使用手順が簡略化され、音声対話の学習コストが低減され、ユーザの体験が向上されると共に、専門的な音声対話ウェークアップハードウェア又はウェークアップワードによるウェークアップの過程が不要になり、技術開発のコストが低減される。

図4は、本発明の実施例により提供される音声対話方法の第二の実施例のフローチャートである。図4に示されたように、上記第一の実施例をもとに、ステップS102においてAIデバイスが現在に置かれるシーンがプリセットシーンであれば、ユーザと音声対話を行うように、AIデバイスの音声対話機能をウェークアップする。一種の具体的な実現において、以下のステップを含むことができる。

ステップS1021において、AIデバイスが現在に置かれるシーンがプリセットシーンであれば、ユーザの音声データを取得する。

本ステップにおいて、ユーザと音声対話を行うようにAIデバイスの音声対話機能をウェークアップすることは、まず、ユーザの音声データを取得し、即ちユーザから言い出された内容を採集する必要があることが分かる。具体的な実現において、少なくとも以下の複数の方式で実現することができる。

第一種の方式において、AIデバイスのマイクを制御してユーザの音声データを採集する。

AIデバイスのマイクがオン状態であれば、AIデバイスは、マイクでユーザから言い出された内容を直接に採集して音声データを取得することができる。AIデバイスのマイクがオンされていなければ、AIデバイスは、マイクをオンするように制御し、その後にユーザの音声データを採集する。

第二種の方式において、AIデバイスに接続されたブルートゥース（登録商標）又はイヤホンマイクを制御して、ユーザの音声を採集してユーザの音声データを取得する。

AIデバイスにブルートゥース（登録商標）イヤホン、無線イヤホン又は有線イヤホンが接続されている場合に、AIデバイスはイヤホンのマイクでユーザから言い出された内容を採集してユーザの音声データを取得することができる。

第三種の方式において、他のデバイスから送信されたユーザの音声データを受信する。

AIデバイスに他のウェアラブルデバイス、例えばスマートウォッチ、スマートブレスレットなどが接続されており、或いは他のAIデバイスが接続されている場合に、他のAIデバイスにより音声データを採集して当該AIデバイスへ送信することもでき、本技術案において制限しない。

ステップS1022において、音声データと、予め設置されたAIデバイスが現在に置かれるシーンに対応するコマンドセットとに基づいて、音声対話を行う。

本ステップにおいて、AIデバイスは、ユーザの音声データを取得した後に、現在に置かれるシーン、及び当該シーンに対応するコマンドセットに基づいて音声対話を行う。その意味は、当該技術案において、プリセットシーン毎に対応のコマンドセットが設置されている。音声データを解析し認識してユーザにより指示された操作セットを確定する場合に、シーンに対応するコマンドセットと比較して、精確な音声対話を実現する必要がある。

以下に携帯電話を例として、幾つかの具体的な実際の例により、異なるシーンが異なるコマンドセットに対応することを説明する。

通話シーン：通話シーンにおいて、ユーザに必要の可能な操作に、電話を切ること、電話を受け取ること、着信を無視すること、切って情報を相手へ送信すること、通話過程において情報を共有することなどが含まれるため、通話シーンにおいて上記少なくとも一つの操作に対応するコマンドが含まれるセットを設置しても良い。例えば、簡単の電話の切り、受け取り、無視などのコマンド以外、ユーザによる通話過程において、ある第三者のユーザの連絡方法を相手が取得する必要がある場合に、通話過程中に連絡帳を調べ難く、且つ相手の記録を正しく言い出す必要があり、複雑であるため、ユーザがニーズとして「XXの電話番号をXXへ送信する」と言い出すことができる。携帯電話は、通話シーンにおいて音声対話手続きをトリガした後に、ユーザの音声データに基づいて、連絡帳におけるXXの連絡方法を呼び出してショートメッセージ又はネット情報などにより通話中の相手に送信する。この時に、コマンドセットに連絡帳の呼び出しコマンド、ショートメッセージの送信コマンドなどを設置し、即ちシーン毎に対応のコマンドセットを作成することができる。具体的なコマンドタイプは、実際の状況に応じて設置しても良く、本技術案において制限しない。

メディアファイル再生シーン：例えば、携帯電話により音楽が再生されている場合に、ユーザに必要の可能な操作に、前の曲への切り換え、次の曲への切り替え、ランダムの再生、再生、一時停止、早送り、早戻し、収蔵、リピート再生、リスト再生、ボリュームを大きくすること、ボリュームを小さくすること、ミュートなどが含まれるため、音楽を再生するシーンに上記少なくとも一つの操作を実現するコマンドセットを設置することができる。

携帯電話によりビデオが再生されている場合に、ユーザに必要の可能な操作に、スクリーンを明るくすること、スクリーンを暗くすること、前の一話、次の一話、再生、一時停止、早送り、早戻し、収蔵、プレーバック、リスト再生、ボリュームを大きくすること、ボリュームを小さくすること、ミュートなどが含まれるため、ビデオを再生するシーンに上記少なくとも一つの操作を実現するコマンドセットを設置することができる。

携帯電話によりスライドでアルバムにおける画像を再生している場合に、ユーザに必要の可能な操作に、再生の停止、前の一枚へ、次の一枚へ、再生の終了などが含まれるため、画像を再生するシーンに上記操作を実現するコマンドセットを設置することができる。

目覚まし時計シーン：目覚まし時計シーンにおいて、ユーザに必要の可能な操作に、目覚まし時計をオフすること、数分後の目覚まし、或いは次の目覚ましなどが含まれる。これに基づいて、目覚まし時計シーンに上記操作を実現するコマンドセットを設置することができる。

情報シーン：携帯電話により通知又はショートメッセージが受信された場合に、ユーザに必要の可能な操作に通知の放送、メッセージの放送、メッセージの記憶、メッセージの削除が含まれ、当該情報シーンにこれら操作のうちの少なくとも一つに対応するコマンドセットを設置することができる。

撮影シーン：写真シーンを例として、携帯電話が写真モードを起動した場合に、ユーザに必要の可能な操作に、写真を撮ること、写真を自動に撮ること、写真の保存や非保存、写真の削除などの操作が含まれるため、当該写真シーンにこれら操作のうちの少なくとも一つに対応するコマンドセットを設置することができる。

ナビゲーションシーン：携帯電話がナビゲーションモードを起動した場合に、ユーザに必要の可能な操作に、路線の再選択、目的地の変更、ナビゲーションの終了、目的地に最も近い駐車場の検索などが含まれる。同様に、ナビゲーションシーンにこれら操作のうちの少なくとも一つに対応するコマンドセットを設置することができる。

上記幾つかの簡単なシーンを例としてわかるように、AIデバイスは、異なるシーンにおいて音声対話を行う目的が異なり、実現しようとする機能や実行の操作も異なるため、当該音声対話方法の具体的な実現において、シーンにより音声対話手続きをトリガした後にユーザの音声データに基づいてユーザの実行必要な操作を正確に判断し実行できるように、プリセットシーン毎に異なるコマンドセットを設置すれば良い。

本実施例により提供された音声対話方法において、AIデバイスが置かれるシーンにより音声対話手続きを直接にトリガすることにより、物理ウェークアップ又はウェークアップワードによるウェークアップの過程が省略され、音声対話の使用手順が簡略化され、音声対話の学習コストが低減され、ユーザの体験が向上される。また、異なるシーンにおいて、異なるコマンドセットを設置し、異なるシーンに設置される異なるコマンドにより、ユーザに必要な操作をより正確に実現し、ユーザの体験を向上させることができる。

図5は、本発明の実施例により提供される音声対話方法の第三の実施例のフローチャートである。図5に示されたように、上記二つの実施例をもとに、AIデバイスが現在に置かれるシーンがプリセットシーンであることで音声対話手続きをトリガし、音声データが取得された後に、音声データ及び予め設置されたAIデバイスが現在に置かれるシーンに対応するコマンドセットに基づいて音声対話を行う具体的な実現ステップは、以下のステップを含む。

ステップS201において、音響学モデルと語義解析モデルを採用して、音声データを認識し解析して語義解析結果を取得する。

本ステップの前に、まず、処理の能力のワードに基づいて言語データ資料を取得し、即ち大量のシーン及び人々のトレーニングデータの収集を行う必要がある。収集されたデータに対して標識及び処理を行って意図のタイプを分類する。そして、トレーニングデータに対して音響学モデルのトレーニングを行って固定音響学モデル（音声認識モデル又は音声認識モデルパラメータとも呼ばれる）と音声解析モデル（音声解析モデルパラメータとも呼ばれる）を生成する。実際の応用において、AIデバイスは、音声データについて上記音響学モデルを採用してマッチングを行って語義データを認識し、且つ語義解析モデルに基づいて上記語義データを解析して語義解析結果を取得する。これは、音声データについて音響学モデルのマッチングを行って、対応する音声データを認識し、認識に成功であれば、語義解析モデルと比較することにより、ユーザから入力された語句の語義を解析して現在の語句の語義解析結果を取得することを意味する。

一つの可能な実現方式において、ステップS201を行う前に、音声データに対してノイズ除去とエコ除去の処理を行うことができる。具体的に、AIデバイスに組み込まれるチップがノイズ除去及びエコ除去の処理をサポートする場合に、まず音声データを最適化する。ハードウェアデバイスにノイズ除去及びエコ除去の機能が具備されない場合であっても、声音データが取得された後に、再び開発ツール（例えば、DuerOS SDK）に内蔵されたノイズ除去アルゴリズムとエコ除去アルゴリズムを使用して、音声に対して最適化の処理を行う。

ステップS202において、AIデバイスが現在に置かれるシーンと、AIデバイスが現在に置かれるシーンに対応するコマンドセットと、AIデバイスの状態とに基づいて、語義解析結果の信頼度を評価する。

本ステップにおいて、AIデバイスを例とする。AIデバイスは、現在に置かれるシーンに対応するコマンドセット、及びAIデバイスの現在の状態を採用し、上記語義解析モデルを採用して音声データを解析して得られた語義解析結果の信頼度を評価し、即ち語義解析結果の確実性を評価する。語義解析結果は、語句意図、動作詞、専門名詞などのような複数種の次元を含む。通話シーンを例として、例えば「電話を無視する」ことは、動作である「無視する」及び専門名詞である「電話」を含み、全体の語句の意図が現在のデバイスの着信を無視することである。特に、ユーザの表現が「着信を無視する」、「当該電話の受け取りを無視する」のような汎用化的な表現である場合に、AIデバイス状態とシーンに対応するコマンドセットとに基づいて、相応の意図及び動作に対する認識の正確度の評価を行って、上記語義解析結果の信頼度を取得する必要がある。

ステップS203において、語義解析結果の信頼度が所定の閾値よりも大きいかを判断する。

本ステップにおいて、AIデバイスにおいて、予め信頼度の閾値を設置し、つまり複数回のシミュレーションテストに基づいて語義解析結果の正確度の限界、即ち評価された信頼度の限界を確定することができる。ユーザから音声データを入力した後に、上記方法に従って語義解析結果及び対応の信頼度を取得すれば、信頼度が所定の閾値よりも大きいかを判断する必要がある。

ステップS204において、語義解析結果の信頼度が所定の閾値よりも大きいであれば、語義解析結果に指示された操作を実行する。

ステップS205において、語義解析結果の信頼度が所定の閾値よりも小さいであれば、語義解析結果に指示された操作の実行をキャンセルする。

上記二つのステップにおいて、評価の結果として信頼度が所定の閾値よりも大きいであれば、語義解析が成功したと見なし、語義解析結果に指示された操作を実行すれば良い。具体的な実行方式において、コマンドを指定するように語義解析結果をソフトウェアインターフェースへ出力して実行することにより、AIデバイスは、当該コマンドに基づいて該当するソフトウェア又はハードウェアを呼び出して実行することができる。そうでなければ、不成功と見なし、上記取得された語義解析結果をキャンセルし、或いは音声データを新たに取得して上記過程を行うことができる。

上記技術案の具体的な実現において、ユーザから意図的にボタンを操作してAIデバイスを音声採集の状態になるようにトリガすることと異なり、本発明により提供された音声対話技術案において、AIデバイスが一旦にプリセットシーンに入ると、AIデバイスが自動的に音声採集の状態になり、例えばmic呼び出し（当該操作は、そのものが提携ハードウェアメーカーにより処理され、SDKにより合意の要求と定義が提出される）をオープンしてユーザの音声入力をリアルタイムに受信し、即ち音声データを取得する。同時に、当該技術案は、ウェークアップボタン又はウェークアップワードによりウェークアップされた後に単一のコマンド（例えば音声の受信を起動する）のみ提供し、AIデバイスにおける一つの応用機能のみに合わせることと異なる。本発明により提供された語義の対話（インタラクション）過程において、AIデバイスの音声対話手続きが現在に置かれるシーンと深く関連付けており、認識されたシーン及び当該シーンに対応するコマンドがと、ハードウェアとは、関連の操作（例えばハードウェアに対するスクリーン制御、スピーカ制御、通信制御など）が定義される必要があることに合わせて、一連な標準的なハードウェアによるインターフェースの呼出し基準が提供され、ハードウェアメーカーによりAIデバイスを速めに制御して必要な操作を実現することに寄与することができる。

以上より、本発明の各実施例により提供された音声対話方法によれば、音声の採集を行うようにAIデバイスをウェークアップする動作が不要になり、ユーザに自然の言語で表現するように音声対話を使用させることにより、ユーザの音声対話の学習コストを効率に低減することができ、ユーザの体験及び粘着性の向上に寄与する。また、ユーザによる音声対話の慣習の養成に寄与し、他のシーン及び機能の使用頻度が増加され、音声対話の使用手順が簡略化され、音声対話の学習コストが低減され、ユーザの体験が向上される。また、専門的な音声対話のウェークアップハードウェア又はウェークアップワードによるウェークアップの過程が不要になり、技術開発コストが低減される。

図6は、本発明の実施例により提供された音声対話装置の第一の実施例の構成模式図である。図6に示されたように、本実施例により提供された音声対話装置10は、音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを確定する第一処理モジュール11と、上記音声対話装置が現在に置かれるシーンが上記プリセットシーンであれば、ユーザと音声対話を行うように上記音声対話装置の音声対話機能をウェークアップする第二処理モジュール12とを備える。

本実施例により提供された音声対話装置は、上記何れか一つの方法実施例における方法実施例の技術案を実現するために用いられる。その実現原理と技術效果は同じように、シーンにより音声対話手続きを直接にトリガすることにより、物理ウェークアップ又はウェークアップワードによるウェークアップの過程が不要になり、音声対話の使用手順が簡略化され、音声対話の学習コストが低減され、ユーザの体験が向上される。

当該音声対話装置10の一つの具体的な実現において、上記第一処理モジュール11は、具体的に、上記音声対話装置の操作状態に変化があるか否かを検出し、変化があれば、操作状態が変化された後に上記音声対話装置が置かれるシーンがプリセットシーンであるか否かを確定するように用いられる。

選択的に、上記第一処理モジュール11は、具体的に、ユーザから上記音声対話装置に入力されたシーン設置コマンドを受信し、上記シーン設置コマンドに基いて、上記音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを確定するように用いられる。

選択的に、上記第一処理モジュール11は、具体的に、所定の周期に基いて、上記音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを周期的に検出し確定するように用いられる。

選択的に、上記第一処理モジュール11は、具体的に、上記音声対話装置のマイクがオン状態にあるか否かを検出し、上記マイクがオン状態にあると、上記音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを確定するように用いられる。

選択的に、上記プリセットシーンに通話シーンが含まれる場合に、上記第一処理モジュール11は、更に上記音声対話装置が通話中であるか、或いは通話要求を受信したかを検出し、肯定の場合に、上記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられる。

選択的に、上記プリセットシーンにメディアファイル再生シーンが含まれる場合に、上記第一処理モジュール11は、更に上記音声対話装置が画像ファイル、オーディオファイル及びビデオファイルのうちの少なくとも一つが含まれるメディアファイルを再生しているかを検出し、肯定の場合に、上記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられる。

選択的に、上記プリセットシーンに移動シーンが含まれる場合に、上記第一処理モジュール11は、更に上記音声対話装置の移動速度を検出し、上記移動速度が所定値よりも大きいか否かを判断し、肯定の場合に、上記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられる。

選択的に、上記プリセットシーンに情報シーンが含まれる場合に、上記第一処理モジュール11は、更に上記音声対話装置がショートメッセージ又は通知メッセージを受信したかを検出し、肯定の場合に、上記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられる。

選択的に、上記第二処理モジュール12は、具体的に、ユーザの音声データを取得し、上記音声データ及び予め設置された上記音声対話装置が現在に置かれるシーンに対応するコマンドセットに基いて音声対話を行うように用いられる。

選択的に、上記第二処理モジュール12は、更に具体的に、上記音声対話装置のマイクをユーザの音声データを採集するように制御し、或いは、ユーザの音声を採集してユーザの音声データを取得するように上記音声対話装置に接続されたブルートゥース（登録商標）又はイヤホンマイクを制御し、或いは、他のデバイスから送信されたユーザの音声データを受信するように用いられる。

上記実現方式により提供された音声対話装置は、上記何れか一つの方法実施例の技術案を実現するために用いられる。その実現原理と技術效果は同様であるため、ここでは詳しく説明しない。

図7は、本発明の実施例により提供された音声対話装置の第二の実施例の構成模式図である。図7に示されたように、当該音声対話装置10は、更に、音響学モデルと語義解析モデルを採用して、上記音声データを認識し解析して語義解析結果を取得する第三処理モジュール13と、上記語義解析結果の信頼度が所定の閾値よりも大きい場合に、上記語義解析結果に指示された操作を実行する第四処理モジュール14と、を備える。

一つの具体的な実現において、上記第三処理モジュール13は、音響学モデルと語義解析モデルを採用して上記音声データを認識し解析する前に、更に上記音声データに対してノイズ除去とエコ除去の処理を行うように用いられる。

選択的に、上記第三処理モジュール13は、具体的に、上記音声データを上記音響学モデルを採用してマッチングを行って語義データを認識し、上記語義解析モデルに基いて上記語義データを解析して上記語義解析結果を取得するように用いられる。

選択的に、上記第四処理モジュール14は、具体的に、上記音声対話装置が現在に置かれるシーン、上記音声対話装置が現在に置かれるシーンに対応するコマンドセット及び上記音声対話装置の状態に基いて、上記語義解析結果の信頼度を評価し、上記語義解析結果の信頼度が所定の閾値よりも大きいか否かを判断し、上記語義解析結果の信頼度が上記所定の閾値よりも小さい場合に、上記語義解析結果に指示された操作の実行をキャンセルするように用いられる。

選択的に、上記第四処理モジュール14は、更に、上記語義解析結果をコマンドを指定するようにソフトウェアインターフェースに出力して実行するように用いられる。

本発明は、メモリと少なくとも一つのプロセッサとを備えるAIデバイスを更に提供する。上記メモリはコンピュータコマンドを記憶するために用いられ、上記プロセッサは上記メモリに記憶されている上記コンピュータコマンドを運行して、上記何れも一つの方法実施例により提供された音声対話方法を実現するために用いられる。

本発明は、読み取り可能な記憶媒体とコンピュータコマンドとを備え、上記コンピュータコマンドが上記読み取り可能な記憶媒体に記憶されており、上記コンピュータコマンドが上記何れか一つの方法実施例により提供された音声対話方法を実現するために用いられる記憶媒体を更に提供する。

本発明の実施例は、プログラム製品を更に提供する。当該プログラム製品にコンピュータコマンド（即ちコンピュータプログラム）が備えられ、当該コンピュータコマンドが読み取り可能な記憶媒体に記憶される。AIデバイスの少なくとも一つのプロセッサは、読み取り可能な記憶媒体から当該コンピュータコマンドを読み取ることができ、少なくとも一つのプロセッサは、当該コンピュータコマンドを実行してAIデバイスに上記何れか一つの実施例により提供された音声対話方法を実施する。

理解すべきなのは、上記AIデバイスの具体的な実現において、プロセッサは中央処理ユニット（Central Processing Unit、CPU）であっても良く、他の汎用プロセッサ、デジタル信号プロセッサ（Digital Signal Processor、DSP）、専用集積回路（Application Specific Integrated Circuit、ASIC）などであっても良い。汎用プロセッサはマイクロプロセッサであっても良く、或いは当該プロセッサは任意の通常のプロセッサなどであっても良い。本発明の実施例に開示された方法に合わせるステップは、ハードウェアプロセッサが実行して完成させるように直接に表現されても良く、或いはプロセッサにおけるハードウェア及びソフトウェアのモジュールを組合わせて実行して完成させても良い。

当業者であればわかるように、上記各方法実施例の全て又は一部のステップの実現は、プログラムコマンドに関するハードウェアにより完成することができる。上記プログラムは、コンピュータに読み取り可能な記憶媒体に記憶されても良い。当該プログラムは実行されると、上記各方法実施例を含むステップを実行する。上記記憶媒体に、読み取り専用メモリ（read-only memory、ROM）、RAM、フラッシュメモリ、ハードディスク、SSD、磁気テープ（magnetic tape）、フロッピディスク（floppy disk）、光ディスク（optical disc）及び任意の組合わせが含まれる。

最後に説明すべきなのは、上記各実施例は、本発明の技術案に対する説明に過ぎず、それらに制限しない。上記各実施例に参照して本発明を詳しく説明したが、当業者であればわかるように、依然として上記各実施例に記載された技術案を補正し、或いはそのうち一部又は全ての技術特徴を均等に置換することができる。これらの補正又は置換は、相応の技術案の要旨を本発明の各実施例の技術案の範囲から逸脱させることではない。

Claims

人工知能AIデバイスに応用される音声対話方法であって、
AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定し、
前記AIデバイスが現在に置かれるシーンが前記プリセットシーンであれば、ユーザと音声対話を行うように、前記AIデバイスの音声対話機能をウェークアップする、
ことを含むことを特徴とする方法。
前記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、
前記AIデバイスの操作状態に変化があるか否かを検出し、
変化があると、操作状態が変化された後に前記AIデバイスが置かれるシーンがプリセットシーンであるか否かを確定し、
或いは、
ユーザから前記AIデバイスに入力されたシーン設置コマンドを受信し、
前記シーン設置コマンドに基づいて、前記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定し、
或いは、
所定の周期に基づいて、前記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを周期的に検出し確定し、
或いは、
前記AIデバイスのマイクがオン状態にあるか否かを検出し、
前記マイクがオン状態にあると、前記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定する、
ことを含むことを特徴とする請求項1に記載の方法。
前記プリセットシーンに通話シーンが含まれる場合に、AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、
前記AIデバイスが通話中であるか、或いは通話要求を受信したかを検出し、
肯定の場合に、前記AIデバイスが現在に置かれるシーンがプリセットシーンであると確定することを含み、
或いは、
前記プリセットシーンにメディアファイル再生シーンが含まれる場合に、前記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、
前記AIデバイスがメディアファイルを再生しているか否かを検出し、ここで、前記メディアファイルに画像ファイル、オーディオファイル及びビデオファイルのうちの少なくとも一つが含まれ、
肯定の場合に、前記AIデバイスが現在に置かれるシーンがプリセットシーンであると確定することを含み、
或いは、
前記プリセットシーンに移動シーンが含まれる場合に、前記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、
前記AIデバイスの移動速度を検出し、前記移動が所定値よりも大きいか否かを判断し、
肯定の場合に、前記AIデバイスが現在に置かれるシーンがプリセットシーンであることを確定することを含み、
或いは、
前記プリセットシーンに情報シーンが含まれる場合に、前記AIデバイスが現在に置かれるシーンがプリセットシーンであるか否かを確定することは、
前記AIデバイスがショートメッセージ或いは通知メッセージを受信したか否かを検出し、
肯定の場合に、前記AIデバイスが現在に置かれるシーンがプリセットシーンであると確定することを含む
ことを特徴とする請求項1又は請求項2に記載の方法。
前記ユーザと音声対話を行うように、前記AIデバイスの音声対話機能をウェークアップすることは、
ユーザの音声データを取得し、
前記音声データと、予め設置された前記AIデバイスが現在に置かれるシーンに対応するコマンドセットとに基づいて、音声対話を行う
ことを含むことを特徴とする請求項1又請求項は2に記載の方法。
前記ユーザの音声データを取得することは、
ユーザの音声データを採集するように、前記AIデバイスのマイクを制御し、
或いは、
ユーザの音声を採集してユーザの音声データを取得するように、前記AIデバイスに接続されたブルートゥース（登録商標）或いはイヤホンマイクを制御し、
或いは、
他のデバイスから送信されたユーザの音声データを受信する、
ことを含むことを特徴とする請求項4に記載の方法。
前記方法は、
音響学モデルと語義解析モデルを採用して前記音声データを認識し解析することにより語義解析結果を取得し、
前記語義解析結果の信頼度が所定の閾値よりも大きい場合に、前記語義解析結果に指示された操作を実行する、
ことを更に含むことを特徴とする請求項5に記載の方法。
前記音響学モデルと語義解析モデルを採用して前記音声データを認識し解析する前に、前記方法は、
前記音声データに対してノイズ除去とエコ除去の処理を行う、
ことを更に含むことを特徴とする請求項6に記載の方法。
予め取得された音響学モデルと語義解析モデルを採用して前記音声データを認識し解析することにより語義解析結果を取得することは、
前記音声データについて前記音響学モデルを採用してマッチングすることにより、語義データを認識し、
前記語義解析モデルに基づいて前記語義データを解析することにより、前記語義解析結果を取得する、
ことを含むことを特徴とする請求項6に記載の方法。
前記方法は、
前記AIデバイスが現在に置かれるシーン、前記AIデバイスが現在に置かれるシーンに対応するコマンドセット及び前記AIデバイスの状態に基づいて、前記語義解析結果の信頼度を評価し、
前記語義解析結果の信頼度が所定の閾値よりも大きいか否かを判断し、
前記語義解析結果の信頼度が前記所定の閾値よりも小さい場合に、前記語義解析結果に指示された操作の実行をキャンセルする、
ことを更に含むことを特徴とする請求項6〜請求項8の何れか一つに記載の方法。
前記前記語義解析結果に指示された操作を実行することは、
コマンドを指定するように前記語義解析結果をソフトウェアインターフェースに出力して実行する、ことを含むことを特徴とする請求項6〜請求項8の何れか一つに記載の方法。
音声対話装置であって、
音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを確定する第一処理モジュールと、
前記音声対話装置が現在に置かれるシーンが前記プリセットシーンであれば、ユーザと音声対話を行うように、前記音声対話装置の音声対話機能をウェークアップする第二処理モジュールと、
を備えることを特徴とする装置。
前記第一処理モジュールは、具体的に、
前記音声対話装置の操作状態に変化があるか否かを検出し、
変化があると、操作状態が変化された後に前記音声対話装置が置かれるシーンがプリセットシーンであるか否かを確定し、
或いは、
ユーザから前記音声対話装置に入力されたシーン設置コマンドを受信し、
前記シーン設置コマンドに基づいて、前記音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを確定し、
或いは、
所定の周期に基づいて、前記音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを周期的に検出し確定し、
或いは、
前記音声対話装置のマイクがオン状態にあるか否かを検出し、
前記マイクがオン状態にあると、前記音声対話装置が現在に置かれるシーンがプリセットシーンであるか否かを確定する、
ように用いられることを特徴とする請求項11に記載の装置。
前記プリセットシーンに通話シーンが含まれる場合に、前記第一処理モジュールは、更に
前記音声対話装置が通話中であるか、或いは通話要求を受信したかを検出し、
肯定の場合に、前記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられ、
或いは、
前記プリセットシーンにメディアファイル再生シーンが含まれる場合に、前記第一処理モジュールは、更に
前記音声対話装置がメディアファイルを再生しているかを検出し、ここで、前記メディアファイルに画像ファイル、オーディオファイル及びビデオファイルのうちの少なくとも一つが含まれ、
肯定の場合に、前記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられ、
或いは、
前記プリセットシーンに移動シーンが含まれる場合に、前記第一処理モジュールは、更に
前記音声対話装置の移動速度を検出し、前記移動が所定値よりも大きいか否かを判断し、
肯定の場合に、前記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられ、
或いは、
前記プリセットシーンに情報シーンが含まれる場合に、前記第一処理モジュールは、更に
前記音声対話装置がショートメッセージ或いは通知メッセージを受信したか否かを検出し、
肯定の場合に、前記音声対話装置が現在に置かれるシーンがプリセットシーンであると確定するように用いられる、
ことを特徴とする請求項11又は請求項12に記載の装置。
前記第二処理モジュールは、具体的に、
ユーザの音声データを取得し、
前記音声データと、予め設置された前記音声対話装置が現在に置かれるシーンに対応するコマンドセットとに基づいて、音声対話を行う、
ように用いられることを特徴とする請求項11又は請求項12に記載の装置。
前記第二処理モジュールは、更に具体的に、
ユーザの音声データを採集するように、前記音声対話装置のマイクを制御し、
或いは、
ユーザの音声を採集してユーザの音声データを取得するように、前記音声対話装置に接続されたブルートゥース（登録商標）或いはイヤホンマイクを制御し、
或いは、
他のデバイスから送信されたユーザの音声データを受信する、
ように用いられることを特徴とする請求項14に記載の装置。
前記装置は、更に、
音響学モデルと語義解析モデルを採用して前記音声データを認識し解析することにより、語義解析結果を取得する第三処理モジュールと、
前記語義解析結果の信頼度が所定の閾値よりも大きい場合に、前記語義解析結果に指示された操作を実行する第四処理モジュールと、
を備えることを特徴とする請求項15に記載の装置。
前記第三処理モジュールは、音響学モデルと語義解析モデルを採用して前記音声データを認識し解析する前に、更に
前記音声データに対してノイズ除去とエコ除去の処理を行う
ように用いられることを特徴とする請求項16に記載の装置。
前記第三処理モジュールは、具体的に、
前記音声データに対して前記音響学モデルを採用してマッチングすることにより、語義データを認識し、
前記語義解析モデルに基づいて前記語義データを解析することにより、前記語義解析結果を取得する、
ように用いられることを特徴とする請求項16に記載の装置。
前記第四処理モジュールは、具体的に、
前記音声対話装置が現在に置かれるシーン、前記音声対話装置が現在に置かれるシーンに対応するコマンドセット、及び前記音声対話装置の状態に基づいて、前記語義解析結果の信頼度を評価し、
前記語義解析結果の信頼度が所定の閾値よりも大きいか否かを判断し、
前記語義解析結果の信頼度が前記所定の閾値よりも小さい場合に、前記語義解析結果に指示された操作の実行をキャンセルする、
ように用いられることを特徴とする請求項16〜請求項18の何れか一つに記載の装置。
前記第四処理モジュールは、更に、
コマンドを指定するように前記語義解析結果をソフトウェアインターフェースに出力して実行する
ように用いられることを特徴とする請求項16〜請求項18の何れか一つに記載の装置。
メモリとプロセッサを備え、
前記メモリは、コンピュータコマンドが記憶されており、前記プロセッサは、前記メモリに記憶されている前記コンピュータコマンドを実行して請求項1〜請求項10の何れか一つに記載の音声対話方法を実現させる、
ことを特徴とする人工知能AIデバイス。
読み取り可能な記憶媒体とコンピュータコマンドを備え、
前記コンピュータコマンドは前記読み取り可能な記憶媒体に記憶されており、前記コンピュータコマンドは請求項1〜請求項10の何れか一つに記載の音声対話方法を実現させる、
ことを特徴とする記憶媒体。