JP2023509868A

JP2023509868A - 能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステム

Info

Publication number: JP2023509868A
Application number: JP2022538904A
Authority: JP
Inventors: ▲ウェイ▼斯石; 洪博宋; 成亜朱; 帥樊
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-12-26
Filing date: 2020-11-20
Publication date: 2023-03-10
Anticipated expiration: 2040-11-20
Also published as: EP4084434A4; CN111107156A; EP4084434A1; US20230037913A1; JP7353497B2; WO2021129262A1

Abstract

【課題】本発明は能動的に対話の開始を提起するためのサーバ側処理方法を提供する。【解決手段】受信した音声クライアントからの接続確立要求に応答して、音声クライアントとの通信接続を確立するステップと、通信接続を介して、音声クライアントから送信された情報ストリームを受信するステップと、情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して音声クライアントに出力するステップと、を含む。本発明はさらに、能動的に対話の開始を提起するためのサーバおよびシステムを提供する。本発明は、音声インタラクションに対する知能的な決定を実現し、サーバ側の決定に基づいて能動的に対話の開始を提起し、インタラクション体験を向上させ、知能的なインタラクションを実現することができる。【選択図】図１

Description

本発明は、音声インタラクション（VOICE INTERACTION）の技術分野に関し、特に、能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステムに関する。

近年、人工知能による音声技術の発展に伴い、音声インタラクションに基づくさまざまなスマートデバイスもますます広く応用されている。しかし、現在の音声インタラクションプロセスのほとんどはその開始がユーザによって能動的に提起され、デバイスはユーザの音声命令に基づいて受動的に応答する。実際に、多くの場合、デバイスから能動的に対話の開始が提起されるほうは、人間同士のコミュニケーションの実際のシーンにより一致しており、音声インタラクションプロセスがより自然になる。これは、音声インタラクションデバイスが高知能の特徴を真に示す鍵でもある。この目標を実現するために、現在、一般的に以下の２つの方法を採用して、能動的に対話の開始を提起する音声インタラクションプロセスを実現している。

案１、クラウド側は前回の要求に応答する時、能動的に対話の開始を提起する必要がある対話話術をユーザ端末側に返し、ユーザ端末側は適切なタイミングで能動的な対話の話術を再生することを判断する。

案２、ユーザ端末側の判断により、能動的な対話が必要な場合、１つの要求をクラウド側に送信し、それに対して、クラウド側は能動的な対話の話術を返す。

しかし、上記の案ではいずれもユーザ端末側とサーバ側が切り離されているため、サーバ側には、受動的な側としてインタラクションを行う場合の制限がある。例えば、上記の２つの案には、以下のような欠陥がある。

案１の時効性が低い。即ち、一回の要求で２つの対話話術を取得する必要がある。ユーザ端末側が２番目の話術を再生するとき、ユーザのシーンがすでに変わっている可能性がある。このとき、すでに保存されている２番目の話術を再生するのは適切ではなく、ユーザはデバイスが知能的ではないと感じる。

案２の能動対話シーンは制限されている。即ち、ユーザ端末にセマンティックと対話の情報がないため、ユーザ端末側でできる条件判断は非常に限られている。

上記の問題を解決するために、発明者は、サーバ側自体の利点を利用して対話決定を行い、サーバの対話決定状況に基づいて能動的に対話の開始を提起する案を想到した。

本発明の第１の態様によれば、
能動的に対話の開始を提起するためのサーバ側処理方法であって、
受信した音声クライアントからの接続確立要求に応答して、音声クライアントとの通信接続を確立するステップと、
通信接続を介して、音声クライアントから送信された情報ストリームを受信するステップと、
情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して音声クライアントに出力するステップと、
を含むことを特徴とする。

本発明の第２の態様によれば、
能動的に対話の開始を提起するためのサーバであって、
受信した音声クライアントからの接続要求に応答して、音声クライアントとの通信接続を確立するための通信モジュールと、
通信接続を介して、音声クライアントから送信された情報ストリームを受信するための情報受信モジュールと、
情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して音声クライアントに出力するための対話決定モジュールと、
を備えることを特徴とする。

本発明の第３の態様によれば、
能動的に対話の開始を提起する音声インタラクションシステムであって、
音声クライアントと音声サーバ側とを含み、
音声クライアントは、音声サーバとの接続要求を送信し、通信接続を確立した後に、確立した通信接続を介して、収集されたオーディオ情報をリアルタイムに音声サーバに出力し、音声サーバから送信された対話内容を受信したときに再生するために用いられ、
音声サーバは、前記能動的な対話の開始を提起するためのサーバであることを特徴とする。

本発明の第４の態様によれば、
少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、
メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記能動的に対話の開始を提起するためのサーバ側処理方法のステップが実行できるように、少なくとも１つのプロセッサによって命令を実行させることを特徴とする。

本発明の第５の態様によれば、
コンピュータプログラムが記憶されている記憶媒体であって、
前記プログラムがプロセッサによって実行されると、前記能動的に対話の開始を提起するためのサーバ側処理方法のステップが実現できる、ことを特徴とする。

本発明の実施例の技術案は、サーバの対話決定に基づいて能動的な音声対話の開始を提起することができる。サーバは、完全な対話情報を有し且つセマンティック判断能力を有するため、サーバの機能を拡張することで、サーバは音声クライアントの状態をリアルタイムで取得し、音声クライアントの当該リアルタイム状態に基づいて対話決定を行うことができ、さらに、音声インタラクションにおける他のモジュールに含まれる情報と合わせて、より知能的な決定をすることができる。そして、音声クライアントは、サーバと通信接続を確立して維持し、通信接続に基づいて情報ストリームを送信するだけでよく、複雑な論理処理を行う必要がなく、ユーザ端末の負担が軽減されると同時に、ユーザ端末情報の時効性も保証される。また、サーバは、音声クライアントとの特定の通信接続を確立することにより、安定した情報ストリームを取得し、音声クライアントの状態に対する規則的な更新が保証される。

本願の実施例の技術案をより明確に説明するために、以下、実施例の説明において使用される図面について簡単に紹介する。明らかに、以下の説明における図面は、本願のいくつかの実施例である。当業者は、創造的な労働をすることなく、これらの図面に基づいて他の図面を得ることができる。

本発明の一実施形態であって、能動的に対話の開始を提起するためのサーバ側処理方法を示すフローチャートである。本発明の一実施形態であって、サーバ側において対話決定処理を行って能動的に対話の開始を提起する処理方法を示すフローチャートである。本発明の一実施形態であって、能動的に対話の開始を提起するためのサーバの構成を模式的に示す概略図である。本発明の一実施形態であって、能動的に対話の開始を提起する音声インタラクションシステムの構成を模式的に示す概略図である。本発明の一実施形態に係る電子機器の構造概略図である。本発明の一実施形態における音声クライアントの構成を模式的に示す概略図である。本発明の一実施形態であって、サーバ側において対話決定処理を行う方法を示すフローチャートである。

本発明の実施例の目的、技術案および利点をより明確にさせるために、以下では、本発明の実施例における図面と併せて、本発明の実施例における技術案を明確かつ完全に説明する。もちろん、説明される実施形態は本発明の一部の実施形態にすぎず、本発明の全部の実施形態ではない。本発明の実施形態に基づいて、当業者が創造的な努力なしに得られる他の全ての実施形態も本発明の保護範囲に含まれるべきである。

なお、本願の実施形態と実施形態の特徴とは、互いに矛盾することなければ、組み合わせることができる。

本発明は、例えば、プログラムモジュールなどの、コンピュータによって実行されるコンピュータ実行可能命令の一般的なコンテキストで説明することができる。プログラムモジュールには、通常、特定のタスクを実行したり、特定の抽象データ型を実現したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、分散コンピューティング環境で実施することもできる。これらの分散コンピューティング環境では、通信ネットワークを介して接続されたリモート処理デバイスによって、タスクが実行される。分散コンピューティング環境では、プログラムモジュールは、ストレージデバイスを含むローカル及びリモートのコンピューターストレージメディアに配置できる。

本発明では、「モジュール」、「デバイス」、「システム」などは、例えば、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、又は実行中のソフトウェアなどのコンピュータに適用される関連エンティティを指す。具体的には、コンポーネントは、プロセッサで実行するプロセス、プロセッサ、オブジェクト、実行可能なコンポーネント、実行スレッド、プログラム、及び／又はコンピュータであるが、これらに限定されない。また、サーバで実行するアプリケーションプログラムやスクリプトプログラム、サーバがコンポーネントと呼ばれることもできる。実行のプロセス及び／又はスレッドには、一つ又は複数のコンポーネントを含んでもよく、且つ、コンポーネントは、一台のコンピュータにローカライズされ、及び／又は二台以上のコンピュータの間に分布され、さまざまなコンピュータ可読媒体で実行することができる。コンポーネントは、一つ以上のデータパケットを有する信号によって、ローカル及び／又はリモートプロセスを介して、通信することができる。信号は、例えば、ローカルシステム、分散システムにおけるもう一つのコンポーネントと相互作用するデータ、及び／又はインターネットのようなネットワークで信号を介して他のシステムと相互作用するデータからの信号である。

最後に、本発明の明細書、請求の範囲及び図面における関係用語「第一」及び「第二」などは、一つの実体又は操作をもう一つの実体又は操作と区別するためのものだけであり、これらの実体又は操作がいかなるこのような実際の関係又は順序を特定し、示唆するためのものではない。また、用語「含む」、「有する」及びそれらのいずれの変更は、それらの要素だけでなく、明示的にリストされていない他の要素、又はそのようなプロセス、方法、オブジェクト、又は機器に固有の要素も含む。これ以上の制限が課されない場合、「含む」、「有する」及びそれらのいずれの変更によって定義された要素は、その要素を含むプロセス、方法、オブジェクト、又は機器に他の同一要素があることを除外しない。

本発明の実施例に係る能動的に対話の開始を提起する技術案は、例えば、携帯電話、腕時計、イヤホン、パソコンなどの知能音声インタラクション機能を有する任意のスマートデバイスに適用することができ、音声インタラクション中に、シーンに応じてユーザとの対話を能動的に開始提起することができる。しかし、本発明の適用範囲はこれに限定されるべきではない。本発明の実施例によって提供される技術案は、音声クライアントとサーバのそれぞれの利点を合わせて、音声クライアントがリアルタイムに取得してアップロードした情報ストリームを利用して、サーバが自身のセマンティックと対話情報に対する全体的な判断に基づいて、知能的に対話決定を行い、そしてシーンに応じて能動的に対話を開始提起して、ユーザのインタラクション体験を向上させ、音声インタラクションデバイスをより知能化させることができる。

以下、図面と併せて本発明をさらに詳しく説明する。

図１は、本発明の実施例に係る能動的に対話の開始を提起するためのサーバ側処理方法を概略的に示す図である。本発明の実施例の方法の実行主体は、例えば、音声識別処理やセマンティック解析処理や対話管理機能モジュールが配置されたクラウド側サーバなどの、音声インタラクション機能に音声識別処理やセマンティック解析処理や対話管理機能を提供する任意のサーバ端末であってもよく、または、例えば音声識別処理やセマンティック解析処理や対話管理機能モジュールが配置されているクラウド側サーバと双方向通信可能な第２のクラウド側サーバなどの、音声識別処理やセマンティック解析処理や対話管理機能モジュールが配置されたサーバ端末と双方向通信可能な第２のサーバ端末であってもよいが、もちろん、図３に示す能動的な対話の開始を提起するためのサーバであってもよい。

本発明の実施例に係る音声クライアントは、例えば携帯電話、腕時計、イヤホン、パソコン、車載端末などの、音声インタラクション機能を有する任意のスマートデバイスであってもよい。実行主体が図３に示す能動的な対話の開始を提起するためのサーバである場合を例にとると、図１に示すように、当該方法は以下のステップを含む。

ステップＳ１０１：受信した音声クライアントからの接続要求に応答して、音声クライアントとの通信接続を確立する。本発明の実施例では、サーバが取得する音声クライアント状態の時効性を確保するために、対応する音声クライアントと通信接続を確立し、当該通信接続に基づいて音声クライアントの状態更新をリアルタイムで取得する。すなわち、本発明の実施例では、音声クライアントの接続要求に基づいて、音声クライアントとサーバとの間に、音声クライアントのリアルタイム状態を取得するための専用の接続チャネルを確立する。具体的な実現において、本発明の実施例の技術案は、音声クライアントによって能動的に接続要求を開始するように構成され、サーバは、音声クライアントからの接続要求を受信した後、それと通信接続を確立するように構成される。これにより、音声クライアントの要求に基づいて各音声クライアントを明確に識別することができるだけでなく、音声クライアントは、本発明の実施例の能動的に対話を開始提起してインタラクションするサービスを拡張するかどうかを能動的に決定することができる。

好ましくは、本発明の実施例における通信接続は、二重通信のパーシステントコネクション（persistent connection）であり、二重通信のパーシステントコネクションを確立することにより、伝送情報の安定性を確保することができるだけでなく、通信接続を確立した後、音声クライアントとサーバ側は完全に平等であり、互いに能動的に要求することができる。これにより、サーバは、音声クライアントの要求を待つことなく、必要に応じていつでも音声クライアントにメッセージを能動的にプッシュすることができ、これにより、サーバは確実に能動的に対話の開始を提起することができる。例示的に、ＷｅｂＳｏｃｋｅｔプロトコルまたはＴＣＰＳｏｃｋｅｔカスタムプロトコルを利用して、二重通信のパーシステントコネクションを確立することができる。

ステップＳ１０２：通信接続を介して、音声クライアントから送信された情報ストリームを受信する。サーバと音声クライアントとの間で通信接続を確立した後、当該通信接続を介して音声クライアントの状態情報を取得する。具体的に、音声クライアントは、収集された情報を、通信接続を介して情報ストリームの形態でリアルタイムに送信する。ここで、情報ストリームに含まれる情報は、音声クライアントがラジオなどの収音装置を介して記録したオーディオストリームであってもよく、または、地理的位置や連絡先ホットワードなどの、音声クライアントがリアルタイムで収集したデバイス情報であってもよく、または、オーディオストリームとデバイス情報を同時に含むことができる。情報伝送の秩序性と時効性を確保するために、オーディオストリームを伝送する際に固定周波数で送信することが好ましい。

ステップＳ１０３：情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して音声クライアントに出力する。対話決定処理とは、能動的に対話の開始を提起する必要があるかどうかを確定するための処理であり、情報ストリーム決定フレームワークに基づいて実現される。情報ストリーム決定フレームワークは、予め配置されて記憶された能動対話シーンのトリガ条件とトリガ条件に関連する対話内容として具現化できる。

本発明の実施例における能動対話シーンとは、サーバが能動的に対話の開始を提起する必要があるシーンを意味する。トリガ条件とは、能動対話シーンを発生させる所定の条件を意味する。トリガ条件に関連する対話内容とは、能動対話シーンが発生したときに音声クライアントで能動的に再生する必要がある対話内容を意味する。図７に示すように、外部から入力された配置情報を受信することにより、能動対話シーンのトリガ条件とトリガ条件に関連する対話内容とを生成して記憶することができ、これにより、ステップＳ７０１における能動対話シーンのトリガ条件の配置とトリガ条件に関連する対話内容記憶を実現することができる。このように、情報ストリームを受信した後、図７に示すように、ステップＳ７０２において、取得した情報ストリームと予め配置された能動対話シーンのトリガ条件に基づいて、能動対話シーンであるか否かを判断し、判断結果に基づいて、能動的に対話の開始を提起する必要があるか否かを判断することができる。

本発明の実施例は、トリガ条件が満たされたときに能動対話シーンであると判断し、能動対話シーンであると確定されたときに、現在のトリガ条件に関連付けて記憶された対話内容を取得して音声クライアントに出力し、音声クライアントで対話内容の再生を行うことにより、サーバによる能動的な対話インタラクションの開始を実現するように構成されている。

ここで、能動対話シーンとそのトリガ条件、およびトリガ条件に関連する対話内容は、ユーザの実際のニーズに応じて定義および配置することができる。

以下では、能動対話シーンが問い合わせ待ち状態、沈黙破り状態、及び能動的に割り込む状態であることを例として、本発明の実施例の方法をより詳細に説明する。

好ましい実施例として、本発明の例では、音声クライアントがサーバに送信する情報ストリームには、音声クライアントがピックアップしたオーディオ情報（すなわち、記録されたオーディオストリーム）が含まれ、サーバに配置された能動対話シーンのトリガ条件には、少なくとも以下の２つの状況が含まれる。
第１のトリガ条件は、識別内容が含まれること、且つ、識別内容が無効なセマンティックであることである。
第２のトリガ条件は、識別内容が含まれないこと、且つ、対応するコンテキスト状態を有することである。

各能動対話シーンのトリガ条件は互いに干渉しないが、同じ能動対話シーンのトリガ条件は完全に満たされる必要がある。すなわち、どの能動対話シーンのトリガ条件が満たされていても、そのトリガ条件が十分に満たされていれば、サーバに１ラウンドの能動的な対話を開始させることができる。上記の例において、識別内容とは、音声クライアントから送信されたオーディオ情報に対するサーバの識別結果の内容を意味する。すなわち、識別結果に識別内容が含まれているかどうか、および識別結果における識別内容のセマンティックが有効であるかどうかである。コンテキスト状態とは、ユーザの意図または現在の文脈を示すために用いられる、対話管理においてサーバが確定したインタラクションフローを意味する。例示的に、対話管理のインタラクションフローに従って、配置された対応するコンテキスト状態には、問い合わせ待ち状態と沈黙破り状態とが含まれる。

上記能動対話シーンの構成条件を例に、以下に、図２に示す決定処理フローチャートとともに、当該ステップの具体的な決定処理プロセスを詳細に説明する。図２に示すように、本発明の実施例の、対話決定処理を行い且つ能動対話シーンであると確定されたときに能動的に対話の開始を提起する音声インタラクションの実施プロセスには、以下のステップが含まれる。

ステップＳ２０１：取得したオーディオ情報を識別し、識別結果を取得する。サーバにおいてオーディオ情報を識別して識別結果を得るには、音声インタラクションサーバの既存の音声識別機能とモジュールを利用して実現することができる、例えば、音声インタラクションサービスを提供する既存のクラウド側サーバに音声識別モジュールを配置することにより実現され、ここでは説明を省略する。

ステップＳ２０２：識別結果に識別内容が含まれているか否かを判断する。識別内容が含まれている場合にはステップＳ２０３を実行し、識別内容が含まれていない場合にはステップＳ２０４を実行する。音声認識を実行した後、識別結果に内容があるかどうかを判断する。音声識別を実行するとオーディオ情報がテキスト情報に変換されるため、識別結果に識別内容が含まれているかどうかを判断することは、変換後のテキスト情報にテキスト文字列が含まれているかどうかを判断することで実現できる。

ステップＳ２０３：識別内容をセマンティック解析し、セマンティック解析結果が無効なセマンティックである場合、能動対話シーンであると確定する。識別内容に対するセマンティック解析は、セマンティックインタラクションサーバの既存のセマンティック解析機能及びモジュールを利用して実現することができ、セマンティック識別とセマンティック解析は、既存の音声インタラクションシステムにおいて従来技術であり、当該機能をそのまま利用すればよく、例えば、既存の音声インタラクションサービスを提供するクラウド側サーバに配置されている音声解析モジュールで実現するため、ここでは具体的な識別及び解析プロセスについては詳述しない。ここで、有効なセマンティックとは、セマンティック解析エンジンに存在する特定の実行または応答動作に対応するセマンティックであり、セマンティック解析エンジンに存在しない場合、即ちマッチングする項目が見つからない場合には、無効なセマンティックであると見なす。具体的な応用では、音声インタラクションプロセスにおいて、ユーザが連続的に発話し、識別内容がますます長くなり、内容が無意味又は敏感な内容がない場合（すなわち、マッチングする実行や応答動作に対応できない場合）、能動的な割り込みを行うことが知能的なインタラクションにより合致する。従って、このシーンに対応する状況を能動的に割り込む能動的に対話をするシーンとすることができ、より知能的なインタラクションを実現し、ユーザのインタラクション体験を向上させることができる。例示的に、このトリガ条件に対して、ユーザが効果的な対話を実行するようにガイドするために、配置された対話内容は「．．．を話してください」などの割り込み命令やリマインダ命令にすることができる。

ステップＳ２０４：音声インタラクションシーンのコンテキスト状態を取得して判断し、取得した音声インタラクションシーンのコンテキスト状態がトリガ条件における対応するコンテキスト状態である場合、ステップＳ２０５を実行する。識別内容を含まないオーディオを取得した場合、例えば、以下の２つのシーンのように、能動的な対話の開始を提起する必要があるシーンである可能性もある。
問い合わせ待ち状態シーン。即ち、ユーザは前のラウンドのインタラクションで待つ意図を表明し、指定された時間だけマシンを待機した後に、能動的に問い合わせを開始する必要がある。
沈黙破り状態シーン。即ち、対話中に、お互いに何も言わない気まずい状況がたまに発生する。この時、マシンが能動的に質問をし、ユーザを誘導する必要がある。

この時、知能的に対話の開始を提起するには、マシンがコンテキスト状態に基づいて文脈を判断できる必要がある。そのため、上記のコンテキスト状態を、識別内容がない場合に対話の開始を提起する必要があるトリガ条件として記憶することができる。この処理プロセスはサーバで行われ、サーバは音声インタラクションプロセス全体のコンテキスト状態であるインタラクションフローを記録しているため、インタラクションフローを取得して判断することができ、インタラクションフローに基づいて能動対話シーンに合致するコンテキスト状態であるかどうかを判断することができる。例えば、インタラクションフローに問い合わせ待ち状態実行フローがあると判断された場合、または１つの音声インタラクションプロセスが行われていると判断されてユーザが突然沈黙した場合、能動対話シーンであると確定し、ステップＳ２０５を実行する。

ステップＳ２０５：能動対話シーンであると確定し、既知の意図に従って能動的な対話を開始する。サーバはコンテキスト状態であるインタラクションフローを知っているため、インタラクションフローの状況に基づいて既知の意図を判断し、そして既知の意図に基づいて実行される動作または再生される内容を確定するなど、既知の意図に基づいて能動的に対話の開始を提起することができる。既知の意図は一般的に複数ラウンドのプロセスに現れるため、既知の意図を判断することは、複数ラウンドの対話の結果に基づいて判断することができる。例えば、カーナビゲーションのシーンでは、前の複数ラウンドの対話ではすでに目的地とナビゲーションルートを確定している。この場合、既知の意図を既知のナビゲーション意図として確定し、既知のナビゲーション意図に基づいて、能動的に対話する内容を推奨目的地週辺駐車場などであると確定することができる。例示的に、既知の意図に基づいて、問い合わせ待ち状態に対応する対話内容は、指定された事項または内容を問い合わせることであってもよく、沈黙破り状態に対応する対話内容は、その前のインタラクションフロー状態に基づいて問い合わせることであってもよい。

ステップＳ２０６：適合する対話内容を取得して、音声クライアントに出力する。

ステップＳ２０７：音声クライアントは、当該対話内容を再生する。

上記の方法プロセスに基づいて、ユーザ端末がリアルタイム伝送するオーディオストリームに基づいて、サーバが対話シーンに従って能動対話シーンを判断し、適切なタイミングで能動的に対話を開始し、ユーザ端末が対話内容の再生を行うことを実現することができる。当該技術案は、ユーザ端末がその状態情報をリアルタイムに伝送することを実現できるだけでなく、サーバを利用して音声インタラクション中の他の情報（コンテキスト状態など）と合わせて決定することができるため、時効性とマシンの知能性が保証され、ユーザのインタラクション体験を大幅に向上させることができる。

ユーザ端末が伝送する情報ストリームにデバイス情報も含まれる実施例において、サーバは、リアルタイムのデバイス情報に基づいて能動的に対話する決定を行うこともできる。例えば、サーバは、対話決定処理を行う際に、デバイス情報に基づいて推薦内容を確定し、推薦内容を対話内容として音声クライアントに出力することができる。例えば、サーバは、リアルタイムの地理位置情報に基づいて、週辺の店舗や食べ物を推薦するための対話インタラクションなどを音声クライアントに能動的に開始することもできる。

図３は、本発明の一実施形態の能動的な対話の開始を提起するためのサーバを模式的に示しており、図３に示すように、当該サーバには、
受信した音声クライアントの接続要求に応答して、音声クライアントとの通信接続を確立するための通信モジュール３０と、
通信接続を介して、音声クライアントから送信された情報ストリームを受信するための情報受信モジュール３１と、
情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して音声クライアントに出力するための対話決定モジュール３２と、
能動対話シーンのトリガ条件と、トリガ条件に関連する対話内容とを設けて記憶するための配置モジュール３３と、
が配置されている。

ここで、対話決定モジュール３２は、
情報ストリームと、配置された能動対話シーンのトリガ条件とに基づいて、能動対話シーンであるか否かを判断し、能動対話シーンであると確定された場合、対話開始提起ユニットを呼び出すために用いられる条件判断ユニット３２Ａと、
現在のトリガ条件に関連付けて記憶された対話内容を取得して音声クライアントに出力するための対話開始提起ユニット３２Ｂと、
を含んで実現される。

図４は、図３に示すサーバを用いて実現される、能動的に対話の開始を提起することができる音声インタラクションシステムを概略的に示している。図４に示すように、当該システムには、音声クライアント１と、音声サーバ３とが含まれており、ここで、音声サーバは、図３に示すような能動的な対話の開始を実現するためのサーバである。

好ましい実施例として、情報ストリームには、音声クライアントがピックアップしたオーディオ情報が含まれ、トリガ条件には、以下の二種類の能動対話シーンのトリガ条件が含まれることができる。
第１のトリガ条件は、オーディオ情報に識別内容が含まれること、且つ、識別内容が無効なセマンティックであることである。
第２のトリガ条件は、オーディオ情報に識別内容が含まれないこと、且つ、問い合わせ待ち状態と沈黙破り状態とを含む対応するコンテキスト状態を有することである。

具体的な実現プロセスにおいて、音声クライアント１は音声サーバ３との接続要求を送信し、音声サーバ３の通信モジュール３０はこの要求を受信し、音声クライアント１との通信接続を確立する。通信接続が確立された後、音声クライアント１は、確立した通信接続を介して、収集されたオーディオ情報（例示的に、ラジオを介して記録されたオーディオ）をリアルタイム（固定周波数でもよい）で音声サーバ３に送信する。音声サーバ３の情報受信モジュール３１は、この情報ストリームを受信し、オーディオ情報を対話決定モジュール３２に出力する。対話決定モジュール３２は、オーディオ情報と配置モジュール３３により配置されたトリガ条件に基づいて、能動的に対話の開始を提起するか否かを判断し、能動的に対話の開始を提起する必要があると判断された場合、マッチングする対話内容を取得して音声クライアント１に出力する。音声クライアント１は、音声サーバ３から送信された対話内容を受信したときに再生し、能動的な対話の開始を実現する。

図６は、一実施形態の音声クライアントを概略的に示している。図６に示すように、音声クライアントは、通信接続を確立するためにサーバに接続要求を送信するための接続要求モジュール１０と、通信接続を介して受信した対話内容を再生するための音声再生モジュール１１と、情報ストリームを取得し、確立した通信接続を介してサーバに送信するための情報取得モジュール１２とを含むことができる。例示的に、接続要求モジュール１０は、ＷｅｂＳｏｃｋｅｔプロトコルまたはＴＣＰＳｏｃｋｅｔカスタムプロトコルに基づいて接続要求を行い、サーバとの間の二重通信パーシステントコネクションを確立することができる。音声再生モジュール１１は、ホーンやスピーカなどで実現されてもよい。情報取得モジュール１２は、オーディオ情報をピックアップするための録音装置、リアルタイムの地理位置情報を取得するための測位モジュールなどを含むことができる。

サーバ、音声サーバ３、音声クライアントに関する各モジュールとユニットの具体的な実現プロセスは、前述の方法部分の説明を参照することができ、ここでは説明を繰り返さない。

具体的な実現では、音声クライアントを上記の方法で上記のサーバまたは音声サーバに接続することにより、上記の音声インタラクションシステムを構築し、サーバの処理に基づいて能動的な対話の開始を提起し、対話の開始を提起する主動権をサーバに渡すことができる。上記の技術案により、音声クライアントの軽量を確保できるとともに、サーバがリアルタイムで連続的な音声クライアントの状態を取得することを保証することができて、システムの拡張性とメンテナンス性がより良く、任意の需要のあるユーザ端末に対するサービス機能の拡張が容易になる。本発明の実施例の技術案はさらに、サーバの他の音声インタラクション機能を利用して全体的に把握し、識別やセマンティックや対話シーンに基づく知能的な決定を実現し、能動的に対話する応用シーンを広げ、音声インタラクションの体験を大幅に向上させ、知能的なインタラクション効果を保証することができる。

いくつかの実施例において、本発明の実施例はさらに、実行命令を含む１つまたは複数のプログラムを記憶する不揮発性コンピュータ読み取り可能な記憶媒体を提供する。実行命令は、本発明の上記の能動的な対話の開始を実現するためのサーバ側処理方法を実行するために、電子機器（コンピュータ、サーバ、又はネットワーク機器などを含むがこれらに限定されない）によって読み取られて実行することができる。

いくつかの実施例において、本発明の実施例はさらに、不揮発性コンピュータ読み取り可能な記憶媒体に記憶されたコンピュータプログラムを含むコンピュータプログラム製品を提供し、コンピュータプログラムはプログラム命令を含み、プログラム命令がコンピュータによって実行されると、コンピュータに上記の能動的な対話の開始を実現するためのサーバ側処理方法を実行させる。

いくつかの実施例において、本発明の実施例はさらに、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、上記の能動的な対話の開始を実現するためのサーバ側処理方法が実行できるように、少なくとも１つのプロセッサによって命令を実行させる電子機器を提供する。

いくつかの実施例において、本発明の実施例はさらに、コンピュータプログラムが記憶された記憶媒体を提供し、当該プログラムがプロセッサによって実行される時に、上記の能動的な対話の開始を実現するためのサーバ側処理方法を実現できる。

上記の本発明の実施例の能動的な対話の開始を実現するためのサーバは、本発明の実施例の能動的な対話の開始を実現するためのサーバ側処理方法を実行するために用いられることができ、それに応じて、上記本発明の実施例の能動的な対話の開始を実現するためのサーバ側処理方法によって達成される技術的効果を達成することができ、ここでは説明を省略する。本発明の実施例において、ハードウェアプロセッサ（ｈａｒｄｗａｒｅｐｒｏｃｅｓｓｏｒ）によって関連する機能モジュールを実現することができる。

図５は、本発明の他の実施例によって提供される、能動的な対話の開始を提起するためのサーバ側処理方法を実行する電子機器のハードウェア構造概略図である。図５に示すように、当該機器には、
１つまたは複数のプロセッサ５１０およびメモリ５２０が含まれ、図５では１つのプロセッサ５１０を例に取る。

能動的な対話の開始を提起するためのサーバ側処理方法を実行する機器は、入力装置５３０と出力装置５４０とをさらに含むことができる。

プロセッサ５１０、メモリ５２０、入力装置５３０と出力装置５４０はバスまたは他の方法で接続することができ、図５ではバスによる接続を例に取る。

メモリ５２０は不揮発性コンピュータ可読記憶媒体として、不揮発性ソフトウェアプログラム、不揮発性コンピュータ実行可能プログラムおよびモジュールを記憶するために用いられることができる。例えば、本発明の実施例における能動的な対話の開始を実現するためのサーバ側処理方法に対応するプログラム命令／モジュールを記憶することができる。プロセッサ５１０は、メモリ５２０に記憶されている不揮発性ソフトウェアプログラム、命令およびモジュールを実行することによって、サーバの各種機能応用およびデータ処理を実行し、即ち、上記方法実施例の能動的な対話の開始を実現するためのサーバ側処理方法を実現する。

メモリ５２０は、プログラム記憶領域とデータ記憶領域を含むことができる。プログラム記憶領域は、オペレーティングシステムや少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができる。データ記憶領域は、能動的な対話の開始を実現するためのサーバの使用に応じて作成されたデータなどを記憶することができる。さらに、メモリ５２０は、高速ランダムアクセスメモリを含むことができ、例えば少なくとも１つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の不揮発性固体記憶装置のような不揮発性メモリをさらに含むことができる。いくつかの実施例において、メモリ５２０は、プロセッサ５１０から離れて設置されたメモリを選択的に含み得、これらのリモートメモリは、ネットワークを介して能動的な対話の開始を実現するためのサーバに接続することができる。上記ネットワークには、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワークおよびそれらの組合せが含まれるが、これらに限定されない。

入力装置５３０は、入力された数値や文字情報を受信し、能動的な対話の開始を実現するためのサーバのユーザ設定および機能制御に関連する信号を生成することができる。出力装置５４０は、ディスプレイなどの表示装置を含むことができる。

上記の１つまたは複数のモジュールはメモリ５２０に記憶され、１つまたは複数のプロセッサ５１０によって実行されると、上記任意の方法実施例における能動的な対話の開始を実現するサーバ側処理方法を実行する。

上記の製品は、本発明の実施例で提供される方法を実行することができ、実行方法に対応する機能モジュールと有益な効果を有する。本実施例において詳細に説明されていない技術の詳細は、本発明の実施例で提供される方法を参照することができる。

本発明の実施形態の電子デバイスは、以下のデバイスを含むが、これらに限定されない様々な形態で存在する。

（１）モバイル通信デバイス：これらのデバイスは、その特徴がモバイル通信機能を備えることであり、音声及びデータ通信を提供することを主な目標として、スマートフォン（例えば、ｉＰｈｏｎｅ（登録商標））、マルチメディア携帯電話、機能携帯電話、ローエンド携帯電話などを含む。

（２）ウルトラモバイルパソコンデバイス：これらのデバイスは、パソコンのカテゴリーに属し、計算及び処理の機能を持ち、一般にモバイルインターネットアクセスの特性を持って、例えば、ｉＰａｄ（登録商標）などのＰＤＡ、ＭＩＤ及びＵＭＰＣデバイスなどを含む。

（３）ポータブルエンターテイメントデバイス：これらのデバイスは、マルチメディアコンテンツを表示及び放送でき、オーディオ、ビデオプレーヤー（例えば、ｉＰｏｄ（登録商標））、ハンドヘルドゲームデバイス、電子書籍、インテリジェントおもちゃ及びポータブルカーナビゲーションデバイスを含む。

（４）サーバ：コンピューティングサービスを提供するデバイスである。サーバの構成は、プロセッサ、ハードディスク、メモリ、システムバスなどを含む。サーバ及び汎用コンピュータはアーキテクチャが似るが、信頼性の高いサービスを提供する必要があるため、処理能力、安定性、信頼性、セキュリティ、スケーラビリティ、及び管理性などの方面での要求が高い。

（５）データ交換機能を備えたその他の電子デバイス。

上記の装置の実施形態は、例示的だけであり、分離するコンポーネントとして記載されたユニットは、物理的に分離されるものであってもよく、分離されないものであってもよい。ユニットとして表示されるコンポーネントは、物理ユニットであってもよく、物理ユニットではなくてもよい。即ち、一つの場所に配置することもでき、複数のネットワークユニットに分散することもできる。実際のニーズに応じて、いくつかのモジュール又はすべてのモジュールを選択することができ、実施形態の目的を達成するようになる。

上記の実施形態の説明を通じて、当業者は、各実施形態がソフトウェア及び共通のハードウェアプラットフォームによって実現することができ、もちろん、ハードウェアによって実現することもできることを明確に理解することができる。この理解に基づいて、上記の技術方案の本質又は関連技術に貢献する部分は、ソフトウェア製品の形式で具体化でき、コンピューターソフトウェア製品は、例えば、ＲＯＭ／ＲＡＭ、磁気ディスク、コンパクトディスクなどのコンピュータ可読記憶媒体に格納でき、コンピューターデバイス（パーソナルコンピューター、サーバ又はネットワークデバイスなどである）に、各々の実施形態又は実施形態のある部分に記載された方法を実行させるように、いくつかの命令を含む。

最後に、上記した実施形態は、本発明の技術構成を説明するためのものであり、本発明を限定するためのものではない。当業者であれば、本発明の技術構成の趣旨や範囲を逸脱しない前提下で、上述した実施形態に対して修正することもできるし、一部の技術的特徴を均等置換することもできる。これらの修正や置換は、いずれも本発明の保護範囲に含まれるべきである。

Claims

受信した音声クライアントの接続要求に応答して、音声クライアントとの通信接続を確立するステップと、
前記通信接続を介して、音声クライアントから送信された情報ストリームを受信するステップと、
前記情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して前記音声クライアントに出力するステップと、
を含むことを特徴とする、能動的に対話の開始を提起するためのサーバ側処理方法。
情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して前記音声クライアントに出力するステップにおいては、
能動対話シーンのトリガ条件と、トリガ条件に関連する対話内容とを設けて記憶し、
前記情報ストリームと、配置された能動対話シーンのトリガ条件とに基づいて、能動対話シーンであるか否かを判断し、能動対話シーンであると確定された場合、現在のトリガ条件に関連付けて記憶された対話内容を取得して前記音声クライアントに出力する、
ことを特徴とする請求項１に記載のサーバ側処理方法。
前記情報ストリームには、音声クライアントがピックアップしたオーディオ情報が含まれ、
前記トリガ条件には、識別内容を含むこと、且つ、識別内容が無効なセマンティックであることが含まれ、
前記情報ストリーム及び配置された能動対話シーンのトリガ条件に基づいて、能動対話シーンであるか否かを判断するステップにおいては、
前記オーディオ情報を識別して、識別結果を取得し、
識別結果に識別内容が含まれているか否かを判断し、識別内容が含まれている場合には、識別内容をセマンティック解析し、セマンティック解析結果が無効なセマンティックである場合、能動対話シーンであると確定する、
ことを特徴とする請求項２に記載のサーバ側処理方法。
前記トリガ条件には、識別内容を含まないこと、且つ、対応するコンテキスト状態を有することが含まれ、
前記情報ストリームと、配置された能動対話シーンのトリガ条件とに基づいて、能動対話シーンであるか否かを判断するステップにおいては、さらに、
識別結果に識別内容が含まれているか否かを判断し、識別内容が含まれていない場合には、音声インタラクションシーンのコンテキスト状態を取得して判断し、取得した音声インタラクションシーンのコンテキスト状態がトリガ条件における対応するコンテキスト状態である場合、能動対話シーンであると確定する、
ことを特徴とする請求項３に記載のサーバ側処理方法。
トリガ条件に含まれる前記対応するコンテキスト状態には、問い合わせ待ち状態と沈黙破り状態とが含まれる、
ことを特徴とする請求項４に記載のサーバ側処理方法。
前記通信接続は、二重通信のパーシステントコネクションである、
ことを特徴とする請求項１～５のいずれか１項に記載のサーバ側処理方法。
能動的に対話の開始を提起するためのサーバであって、
受信した音声クライアントからの接続要求に応答して、音声クライアントとの通信接続を確立するための通信モジュールと、
前記通信接続を介して、音声クライアントから送信された情報ストリームを受信するための情報受信モジュールと、
前記情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して前記音声クライアントに出力するための対話決定モジュールと、
が配置されていることを特徴とするサーバ。
能動対話シーンのトリガ条件と、トリガ条件に関連する対話内容とを設けて記憶するための配置モジュールとがさらに配置されており、
前記対話決定モジュールには、
前記情報ストリームと、配置された能動対話シーンのトリガ条件とに基づいて、能動対話シーンであるか否かを判断し、能動対話シーンであると確定された場合、対話開始提起ユニットを呼び出すために用いられる条件判断ユニットと、
現在のトリガ条件に関連付けて記憶された対話内容を取得して前記音声クライアントに出力するための対話開始提起ユニットと、
が含まれることを特徴とする請求項７に記載のサーバ。
前記情報ストリームには、音声クライアントがピックアップしたオーディオ情報が含まれ、
前記トリガ条件としては、
オーディオ情報に識別内容を含むこと、且つ、識別内容が無効なセマンティックであることが含まれ、または、
オーディオ情報に識別内容を含まないこと、且つ、対応するコンテキスト状態を有することが含まれ、または、
前記対応するコンテキスト状態に問い合わせ待ち状態と沈黙破り状態とを含むことが含まれる、
ことを特徴とする請求項８に記載のサーバ。
音声クライアントと音声サーバとを備え、能動的に対話の開始が提起できる音声インタラクションシステムであって、
前記音声クライアントは、前記音声サーバとの接続要求を送信し、通信接続を確立した後に、確立した通信接続を介して、収集されたオーディオ情報をリアルタイムに前記音声サーバに出力し、前記音声サーバから送信された対話内容を受信したときに再生するために用いられ、
前記音声サーバは、請求項７～９のいずれか１項に記載の、能動的に対話の開始を提起するためのサーバである、
ことを特徴とする音声インタラクションシステム。
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、
請求項１～６のいずれか１項に記載のサーバ側処理方法のステップが実行できるように、前記少なくとも１つのプロセッサによって前記命令を実行させることを特徴とする電子機器。
コンピュータプログラムが記憶された記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１～６のいずれか１項に記載のサーバ側処理方法のステップが実現できる、ことを特徴とする記憶媒体。