JP2019050554A - 音声サービスを提供するための方法および装置 - Google Patents

音声サービスを提供するための方法および装置 Download PDF

Info

Publication number
JP2019050554A
JP2019050554A JP2018128465A JP2018128465A JP2019050554A JP 2019050554 A JP2019050554 A JP 2019050554A JP 2018128465 A JP2018128465 A JP 2018128465A JP 2018128465 A JP2018128465 A JP 2018128465A JP 2019050554 A JP2019050554 A JP 2019050554A
Authority
JP
Japan
Prior art keywords
information
event
audio
event information
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018128465A
Other languages
English (en)
Other versions
JP6582100B2 (ja
Inventor
ジェンリャン チョウ
Jianliang Zhou
ジェンリャン チョウ
グアンハオ シェン
Guanghao Shen
グアンハオ シェン
ルイシァン ウー
Ruisheng Wu
ルイシァン ウー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2019050554A publication Critical patent/JP2019050554A/ja
Application granted granted Critical
Publication of JP6582100B2 publication Critical patent/JP6582100B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Selective Calling Equipment (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】音声サービスの効率を改善するため方法および装置を提供する。【解決手段】デバイスによって送信された要求情報を受信するステップを含む。要求情報は、デバイスが要求情報を送信するときに発生する第1のイベントを示すためのものである第1のイベント情報および音声情報を含む。第1のイベント情報は、ユーザに音声情報の入力を示す音声入力イベント情報を含む。第1のイベント情報及び音声情報に基づいて上記デバイスの操作指示を含む応答情報を生成し、操作コマンドが示す操作は、対象となるデバイスに対して実行される。【選択図】図2

Description

本願は、コンピュータ技術の分野、特に人工知能の分野に関し、特に、音声サービスを提供するための方法および装置に関する。
コンピュータ技術の発展とネットワークデータの継続的な蓄積により、人工知能技術は急速に発展している。人工知能の分野では、音声認識、自然言語処理および機械学習技術を統合した知能音声サービスがますます広く用いられている。
しかし、既存の音声サービス方法は、効率が低いという問題がある。
本願の目的は、音声サービスを提供するための改善された方法および装置を提案して、背景技術の項で述べた技術的問題を解決することにある。
第一の局面として、本願の実施形態は、音声サービスを提供するための方法を提供する。上記方法は、デバイスによって送信された要求情報を受信するステップであって、上記要求情報は、第1のイベント情報及び音声情報を含み、上記第1のイベント情報は、上記要求情報を送信するとき上記デバイスに発生される第1のイベントを示すためのものであり、上記第1のイベント情報は、ユーザに音声情報の入力を示す音声入力イベント情報を含む、ステップと、上記第1のイベント情報と上記音声情報とに基づいて、操作コマンドを含む、上記デバイスを対象とする応答情報を生成するステップと、対象となるデバイスが上記操作コマンドによって指示される操作を実行するように、対象となるデバイスに上記応答情報を送信するステップと、を含む。
一部の実施形態において、上記デバイスによって送信された要求情報を受信するステップの前に、上記方法は、デバイスにより送信された応答チャネルの構築要求を受信するステップであって、上記応答チャネルの構築要求は、応答情報を端末デバイスに返すチャネルの構築を要求するとともに、構築された上記応答チャネルを接続状態に維持するために用いられる、ステップと、デバイスにより送信された第2のイベント情報及び第2の状態情報を受信するステップであって、上記第2のイベント情報は、上記応答チャネルの構築要求を送信するときデバイスに発生される上記第2のイベントを示すためのものであり、上記第2の状態情報は、上記第2のイベントの状態を示すためのものである、ステップと、をさらに含む。
一部の実施形態において、デバイスによって送信された要求情報を受信するステップの前に、上記方法は、デバイスによって送信された機能インターフェースのリストを受信するステップであって、上記機能インターフェースのリストは、音声入力インターフェース、音声出力インターフェース、スピーカ制御インターフェース、音声プレイ制御インターフェース、アラームインターフェース、および画面表示インターフェースのうちの少なくとも1つの操作インターフェースの識別子を含む、ステップと、機能インターフェースのリストを記憶するデバイスと、機能インターフェースのリストを送信するデバイスのデバイス識別子とを対応付ける、ステップと、をさらに含む。
一部の実施形態において、上記第1のイベント情報と上記音声情報とに基づいて、操作コマンドを含む、上記デバイスを対象とする応答情報を生成するステップの前に、上記方法は、デバイスによって送信された状態レポートメッセージを受信するステップであって、上記状態レポートメッセージは第3のイベント情報と第3の状態情報とを含み、上記第3のイベント情報は、デバイスが状態レポートメッセージを送信するときに発生される第3のイベントを示すためのものであり、上記第3の状態情報は、第3のイベントの状態を示すためのものである、ステップと、をさらに含む。
一部の実施形態において、上記要求情報は、上記第1のイベントの状態を示すための第1の状態情報をさらに含み、上記第1のイベント情報と上記音声情報とに基づいて、操作コマンドを含む、上記デバイスを対象とする応答情報を生成するステップは、音声情報を分析して、対象となるデバイスを決定するステップと、上記第1のイベント情報、上記第2のイベント情報及び上記第3のイベント情報のうちの少なくとも1つに基づいて、上記対象となるデバイスの現在のイベント情報及び上記現在のイベント情報に対応する現在の状態情報を決定するステップと、対象となるデバイスの現在のイベント情報、現在の状態情報、機能インターフェースのリストおよび上記音声情報に基づいて、上記応答情報を生成する、ステップと、をさらに含む。
一部の実施形態において、上記応答情報は、再生待ち音声情報をさらに含み、上記操作コマンドは、上記再生待ち音声情報を再生する音声再生コマンドを含み、対象となるデバイスが操作コマンドによって指示される操作を実行するように、対象となるデバイスに上記応答情報を送信するステップは、対象となるデバイスが音声再生コマンドに従って音声出力インターフェースを呼び出して、再生待ち音声情報を再生するように、上記再生待ち音声情報及び上記音声再生コマンドを対象となるデバイスに送信する、ステップを含む。
一部の実施形態において、上記応答情報は、表示待ちビュー情報をさらに含み、上記操作コマンドは、上記表示待ちビューをレンダリングするためのビューレンダリングコマンドをさらに含み、ビュー情報は、画像、ウェブページ及びビデオのうちの少なくとも1つを含み、対象となるデバイスが操作コマンドによって指示される操作を実行するように、対象となるデバイスに上記応答情報を送信するステップは、対象となるデバイスが上記表示待ちビュー情報と上記ビューレンダリングコマンドとに従って、画面表示インターフェースを呼び出して、上記表示待ちビュー情報をレンダリングして表示するように、上記表示待ちビュー情報と上記ビューレンダリングコマンドとを対象となるデバイスに送信する、ステップをさらに含む。
第二の局面として、本願の実施形態は、音声サービスを提供するための装置を提供する。上記装置は、デバイスによって送信された要求情報を受信する第1の受信部であって、上記要求情報は、第1のイベント情報及び音声情報を含み、上記第1のイベント情報は、上記要求情報を送信するとき上記デバイスに発生される第1のイベントを示すためのものであり、上記第1のイベント情報は、ユーザに音声情報の入力を示す音声入力イベント情報を含む、第1の受信部と、上記第1のイベント情報と上記音声情報とに基づいて、操作コマンドを含む、上記デバイスを対象とする応答情報を生成する生成部と、対象となるデバイスが操作コマンドによって指示される操作を実行するように、対象となるデバイスに上記応答情報を送信する送信部と、を含む。
一部の実施形態において、上記装置は、デバイスにより送信された応答チャネルの構築要求を受信する第2の受信部であって、上記応答チャネルの構築要求は、応答情報を端末デバイスに返すチャネルの構築を要求するとともに、構築された上記応答チャネルを接続状態に維持するために用いられる、第2の受信部と、デバイスにより送信された第2のイベント情報及び第2の状態情報を受信する第3の受信部であって、上記第2のイベント情報は、上記応答チャネルの構築要求を送信するときデバイスに発生される上記第2のイベントを示すためのものであり、上記第2の状態情報は、上記第2のイベントの状態を示すためのものである、第3の受信部と、をさらに含む。
一部の実施形態において、上記装置は、デバイスによって送信された機能インターフェースのリストを受信する第4の受信部であって、上記機能インターフェースのリストは、音声入力インターフェース、音声出力インターフェース、スピーカ制御インターフェース、音声プレイ制御インターフェース、アラームインターフェース、および画面表示インターフェースのうちの少なくとも1つの操作インターフェースの識別子を含む、第4の受信部と、機能インターフェースのリストを記憶するデバイスと、機能インターフェースのリストを送信するデバイスのデバイス識別子とを対応付ける、記憶部と、をさらに含む。
一部の実施形態において、上記装置は、デバイスによって送信された状態レポートメッセージを受信する第5の受信部であって、上記状態レポートメッセージは第3のイベント情報と第3の状態情報とを含み、上記第3のイベント情報は、デバイスが状態レポートメッセージを送信するときに発生される第3のイベントを示すためのものであり、上記第3の状態情報は、第3のイベントの状態を示すためのものである、第5の受信部、をさらに含む。
一部の実施形態において、上記装置は、上記要求情報は、上記第1のイベントの状態を示すための第1の状態情報をさらに含み、上記生成部は、音声情報を分析して、対象となるデバイスを決定する装置と、上記第1のイベント情報、上記第2のイベント情報及び上記第3のイベント情報のうちの少なくとも1つに基づいて、上記対象となるデバイスの現在のイベント情報及び上記現在のイベント情報に対応する現在の状態情報を決定する装置と、対象となるデバイスの現在のイベント情報、現在の状態情報、機能インターフェースのリストおよび上記音声情報に基づいて、上記応答情報を生成する、装置と、をさらに含む。
一部の実施形態において、上記応答情報は、再生待ち音声情報をさらに含み、上記操作コマンドは、上記再生待ち音声情報を再生する音声再生コマンドを含み、上記送信部は、対象となるデバイスが音声再生コマンドに従って音声出力インターフェースを呼び出して、再生待ち音声情報を再生するように、上記再生待ち音声情報及び上記音声再生コマンドを対象となるデバイスに送信する。
一部の実施形態において、上記応答情報は、表示待ちビュー情報をさらに含み、上記操作コマンドは、上記表示待ちビューをレンダリングするためのビューレンダリングコマンドをさらに含み、ビュー情報は、画像、ウェブページ及びビデオのうちの少なくとも1つを含み、上記送信部は、対象となるデバイスが上記表示待ちビュー情報と上記ビューレンダリングコマンドとに従って、画面表示インターフェースを呼び出して、上記表示待ちビュー情報をレンダリングして表示するように、上記表示待ちビュー情報と上記ビューレンダリングコマンドとを対象となるデバイスに送信する。
第三の局面として、本願の実施形態は、1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶する記憶装置と、1つまたは複数のプログラムが1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサが第一の局面に記載の方法を実施するようにする、サーバを提供する。
第四の局面として、本願の実施形態は、コンピュータプログラムが格納され、当該コンピュータプログラムがプロセッサによって実行されると、第一の局面に記載の方法を実施する、コンピュータ可読記憶媒体を提供する。
本願の実施形態により提供される音声サービスを提供するための方法及装置によると、サーバに音声情報を送信するとともに、第一のイベント情報を送信することにより、イベント情報に対応する機能をクイックスタートし、またはイベント情報に対応する応答情報を生成することを、サーバが容易に行うことができ、音声サービスを提供する効率を高めることができる。
本願の他の特徴、目的および利点は、以下の図面を参照して行われた非限定的な実施形態の詳細な説明を読むことにより、より明らかになる。
図1は、本願が適用される例示的なシステムアーキテクチャ図である。 図2は、本願に係る音声サービスを提供するための方法の一実施形態のフローチャートである。 図3は、本願に係る音声サービスを提供するための方法の応用シナリオの概略図である。 図4は、本願に係る音声サービスを提供するための方法の他の実施形態を示すフローチャートである。 図5は、本願に係る音声サービスを提供するための装置の一実施形態の概略構成図である。 図6は、本実施形態を実現するのに適するサーバのコンピュータシステムの概略構成図である。
以下、図面及び実施形態を参照しながら本発明をより詳細に説明する。理解すべきことは、ここで説明する具体的な実施形態は、当該発明を説明するものに過ぎず、当該発明を限定するものではない。ただし、説明の便宜上、図面には発明に関連する部分のみが示されている。
なお、衝突しない場合、本実施形態及び実施形態における特徴を相互に組み合せてもよい。以下、図面及び実施形態を参照しながら本願を詳細に説明する。
図1は、本願に係る音声サービスを提供するための方法または音声サービスを提供するための装置の実施形態が適用される例示的なシステムアーキテクチャ図を示している。
図1に示すように、システムアーキテクチャ100は、端末101、デバイス102、103、ネットワーク104、及びサーバ105を備えてもよい。ネットワーク104は、端末101とサーバ105との間に通信リンクを提供するための媒体、及びデバイス102、103とサーバ105との間に通信リンクを提供するための媒体として用いられる。ネットワーク104は、様々な接続タイプ、例えば有線、無線通信リンク又は光ファイバーケーブル等を含んでもよい。
ユーザ110は、端末101を使用してネットワーク104を介してサーバ105とインタラクションすることにより、メッセージなどを送受信することができる。端末101には、サーバ105とインタラクションできるアプリケーション、例えばウェブブラウザアプリケーション、音声サービスクライアントアプリケーションなどがインストールされてもよい。端末101は、ディスプレーを有する様々な電子デバイス、例えば、スマートフォン、タブレットコンピュータ、デスクトップコンピュータであってもよいが、これらに限定されない。
デバイス102、103は、ネットワーク104を介してサーバ105とインタラクションすることにより、メッセージなどを送受信することもできる。デバイス102、103は、音声入力インターフェースおよび音声出力インターフェースを有する電子デバイス、例えば、マイクロホンを備えたスピーカであってもよい。
サーバ105は、様々なサービスを提供するサーバ、例えば端末101に表示されたウェブページコンテンツをサポートし、デバイス102、103が行う音声出力操作を制御する音声サーバであってもよい。音声サーバは、デバイス102、103への音声サービス操作のために、ユーザ110が端末101を介して送信した要求を処理し、デバイス102、103に処理結果(例えば、音声データおよび音声出力インターフェースの制御コマンド)を送信する。デバイス102、103は、ネットワーク104を介して、サーバ105によって送信された音声データおよび制御コマンドを受信して、対応する操作を実行することにより、デバイス102、103が音声サーバ105により提供された音声サービスにアクセスすることを実現する。
なお、本実施形態に係る音声サービスを提供するための方法は一般的にサーバ105により実行され、これに応じて、音声サービスを提供するための装置は一般的にサーバ105に設置される。
理解すべきことは、図1における端末、デバイス、ネットワーク及びサーバの数は例示的なものに過ぎない。必要に応じて、端末装置、ネットワーク及びサーバの数を任意に加減してもよい。たとえば、サーバは、異なるプロセスでデプロイされた複数のサーバを含む、クラスター化されたサーバであってもよい。
続いて、図2を参照すると、図2には、本願に係る音声サービスを提供するための方法の一実施形態のフローチャート200が示されている。上記音声サービスを提供するための方法は、以下のステップを含む。
ステップ201において、デバイスにより送信された要求情報を受信する。
本実施形態では、音声サービスを提供する方法が実行される電子デバイス(例えば、図1に示すサーバ)は、デバイスによって送信された要求情報を受信することができる。
本実施形態では、要求情報は、第1のイベント情報および音声情報を含んでもよい。ここで、第1のイベント情報は、上記要求情報を送信するときにデバイスに発生される第1のイベントを送信するために用いられる。
本実施形態では、第1のイベント情報は、音声入力イベント情報を含み、音声入力イベント情報は、ユーザが音声情報を入力したイベントを示すためのものである。
説明すべきことは、デバイスのイベント情報は、デバイスおよびサーバによって事前に合意されたことでもよい。デバイスが実現できる機能は、複数の機能タイプに分かれる。各機能タイプは、一種のイベントタイプに対応される。デバイスによってサーバに送信されたイベント情報は、サーバがイベント情報に従って、オープンすべき機能を迅速に位置決めを行い、イベント情報に対応する操作コマンドを生成するようにする。
例えば、サーバは、音声入力イベント情報を受信したことに応答して、音声認識機能をオープンすることができる。サーバは、ボリューム変更イベントを受信したことに応答して、ボリューム調整操作コマンドを生成するように位置決めを行うことができる。
本実施形態の一部の実現形態では、上記要求情報は、第1の状態情報をさらに含み、第1の状態情報は、第1のイベントの状態を示すためのものである。
一例として、イベントの進捗状況を分類し、そのイベントの可能な存在状態を示す状態情報を予め設定することができる。
本実施形態の一部の実現形態では、デバイスが実現可能な機能に対して機能インターフェースを設定し、機能インターフェースに対して機能インターフェースに対応する操作コマンドを設定し、対応する操作コマンドを利用して機能インターフェースを呼び出して操作を実行することができる。
説明すべきことは、異なるデバイスが実現できる機能は相違するかもしれないので、異なるデバイスの機能インターフェースは異なる可能性がある。
本実施形態の一部の実現形態では、デバイスがサーバとの通信接続を構築した後、デバイスはサーバに機能インターフェースリストを送信することができる。サーバは、機能インターフェースリストと、機能インターフェースリストを送信したデバイスのデバイス識別子とを対応付けて格納することができる。
本実施形態の一部の実現形態では、機能インターフェースのリストは、音声入力インターフェース、音声出力インターフェース、スピーカ制御インターフェース、音声プレイ制御インターフェース、アラームインターフェース、および画面表示インターフェースのうちの少なくとも1つの操作インターフェースの識別子を含むことができる。
本実施形態の一部の実現形態では、デバイスの機能タイプに従って、当該機能タイプに対応するイベント情報、状態情報、コマンド情報、および機能インターフェース情報をパッケージングしてもよい。各機能タイプのパッケージング結果を1つのインストールパッケージとする。デバイスは、このインストールパッケージをインストールすることだけで、サーバと通信でき、サーバに音声サービスを要求することができる。
一例として、デバイスは、サーバによって送信されたコマンドをインストールパッケージ内のコマンド情報と比較し、対応する機能インターフェースを呼び出すことができる。
本実施形態の一部の実現形態では、インストールパッケージには、メッセージフォーマット及びメッセージ転送プロトコルを定義してもよい。メッセージフォーマット及びメッセージ転送プロトコルもサーバと予め合意されたものであってもよい。
一例として、イベントタイプは、音声入力タイプ、音声出力タイプ、スピーカ制御タイプ、音声再生タイプ、再生制御タイプ、アラームタイプなどを含んでもよい。音声入力機能、音声出力機能、スピーカ制御機能、音声再生機能、再生制御機能、アラーム機能などにそれぞれ対応している。
一例として、各イベントタイプは、複数の具体的イベント情報を含んでもよい。音声入力タイプは、音声入力イベント情報を含んでもよい。音声出力タイプは、音声放送開始イベント情報及び音声放送終了イベント情報を含んでもよい。スピーカ制御タイプは、音量変更イベント情報およびミュートスイッチイベント情報を含んでもよい。音声再生タイプは、音声再生開始イベント情報、音声再生終了イベント情報、音声再生終了直前イベント情報、音声再生エラーイベント情報、及び音声再生停止イベント情報を含んでもよい。放送制御タイプは、「再生」ボタンクリックイベント情報、「ポーズ」ボタンクリックイベント情報、「前の曲」ボタンクリックイベント情報、「次の曲」ボタンクリックイベントなどを含んでもよい。アラームの種類は、アラーム設定成功イベント情報、アラーム設定失敗イベント情報、アラーム削除成功イベント情報、アラーム削除失敗イベント情報、アラーム開始イベント情報、アラーム完成イベント情報、及びアラーム停止イベント情報を含むことができる。
一例として、音声出力の種類のイベント情報に対応する状態情報は、放送中情報であってもよいし、放送終了情報であってもよい。スピーカ制御タイプのイベント情報に対応する状態情報は、ミュート有無情報であってもよいし、音量値情報であってもよい。音声再生種別のイベント情報に対応する状態情報は、再生中情報、再生停止情報、再生完了情報であってもよい。アラームタイプのイベント情報に対応する状態情報は、現在のアラーム数情報、現在のアラームイベント情報などであってもよい。
ステップ202において、第1のイベント情報および音声情報に基づいて、操作コマンドを含む、デバイスを対象とする応答情報を生成する。
本実施形態では、音声サービスを提供する方法が実行される電子デバイス(例えば、図1に示すサーバ)は、第1のイベント情報と音声情報とに基づいて、操作コマンドを含む、デバイスを対象とする応答情報を生成する。
本実施形態において、サーバは、音声入力イベント情報を受信して、音声認識機能をオープンすることができる。そして、音声認識機能により上記音声情報に対して解析して、ユーザの意図を識別し、対応する応答情報を生成する。説明すべきことは、音声情報を解析してユーザの意図を分析する方法は、当業者ならば従来技術によって実施され得るので、ここでは説明しない。
本実施形態の一部の実施形態では、対象となるデバイスは、要求情報を送信するデバイスであってもよく、また、他のデバイスであってもよい。例として、ユーザが携帯電話で音声メッセージとして「ステレオをオンにする」を入力する場合、音声メッセージによって対象となるデバイスは、携帯電話とバインディング関係を有するステレオである。
ステップ203において、対象となるデバイスに応答情報を送信する。
本実施形態では、音声サービスを提供する方法が実行される電子デバイス(例えば、図1に示すサーバ)は、対象となるデバイスに応答情報を送信することができる。ここで、対象となるデバイスは、上記操作コマンドに示される操作を行うことができる。
本実施形態の一部の実施形態では、応答情報は、再生待ち音声情報をさらに含み、上記操作コマンドは、上記再生待ち音声情報を再生する音声再生コマンドを含む。従って、ステップ203は、対象となるデバイスが音声再生コマンドに従って音声出力インターフェースを呼び出して、再生待ち音声情報を再生するように、再生待ち音声情報及び上記音声再生コマンドを、対象となるデバイスに送信する、ことを含んでもよい。
本実施形態の一部の実施形態において、応答情報は、表示待ちビュー情報をさらに含み、操作コマンドは、表示待ちビューをレンダリングする(描く)ためのビューレンダリングコマンドをさらに含み、ビュー情報は、画像、ウェブページ及びビデオのうちの少なくとも1つを含む。したがって、ステップ203は、対象となるデバイスが表示待ちビュー情報とビューレンダリングコマンドとに従って、画面表示インターフェースを呼び出して、表示待ちビュー情報をレンダリングして表示するように、表示待ちビュー情報とビューレンダリングコマンドとを、対象となるデバイスに送信する、ステップをさらに含んでもよい。
次に、図3を参照すると、図3には、本実施形態に係る音声サービスを提供するための方法の適用シナリオの概略図である。図3の適用シナリオでは、図3に示すように、あるシナリオにおいて、ユーザCがデバイスAで操作することにより、音声サービスをオープンする。デバイスAは、ユーザの操作の検出に応答して、ステップ301において音声サーバBに要求情報を送信し、デバイスAのために対象音声サービスを提供することを要求する。ここで、要求情報は、第1のイベント情報及び音声情報を含み、上記第1のイベント情報は、上記要求情報を送信するときデバイスに発生される第1のイベントを示すためのものであり、上記第1のイベント情報は、ユーザに音声情報の入力を示す音声入力イベント情報を含む。音声サーバBは、ステップ302において、要求情報を処理して、操作コマンドを含む、上記デバイスを対象とする応答情報を生成し、ステップ303において、操作コマンドによって指示される操作をデバイスAが実行するように、デバイスAに上記応答情報を送信する。
本願の上記実施形態の方法によると、サーバに音声情報を送信するとともに、第一のイベント情報を送信することにより、サーバは、イベント情報に対応する機能をクイックスタートし、またはイベント情報に対応する応答情報を生成することができ、音声サービスを提供する効率を高める。
次に、図4を参照する。図4には、音声サービスを提供するための方法の別の実施形態のフローチャート400が示されている。音声サービス方法を提供するためのプロセス400は、以下のステップを含む。
ステップ401において、デバイスによって送信された応答チャネルの構築要求を受信する。
本実施形態では、音声サービスの提供方法が実行される電子デバイス(例えば、図1に示すサーバ)は、デバイスから送信された応答チャンネル構築要求を受信することができる。ここで、応答チャネルの構築要求は、応答情報を端末デバイスに返すチャネルの構築を要求するとともに、構築された応答チャネルを接続状態に維持するために用いられる。
本実施形態の一部の実施形態では、ステップ401は、デバイスとサービスとが物理的接続を構築する、ことを含んでもよい。物理的接続内にデータフローを作成し、接続要求を送信する。このデータフローは、サーバがメッセージをデバイスに送信するためのチャネルとしてのダウンリンクメッセージチャネルである。デバイス側がイベント情報を報告する必要がある場合、物理接続内に新しいデータフローを作成して、要求イベントの報告要求を送信し、要求または応答が終了した後にデータフローを閉じる。所定時間毎に、新しいストリームを作成し、接続維持要求を送信することができ、この要求は、サーバとデバイスとを接続することを要求するデバイスの要求である。
ステップ402において、デバイスによって送信された第2のイベント情報および第2の状態情報を受信する。
本実施形態では、音声サービスの提供方法が実行される電子デバイス(例えば、図1に示すサーバ)は、デバイスによって送信された第2のイベント情報および第2の状態情報を受信することができる。ここで、第2のイベント情報は、応答チャネルの構築要求を送信するときにデバイスに発生される第2のイベントを示すためのものであり、第2の状態情報は、第2のイベントの状態を示すためのものである。
本実施形態において、上記サーバは、デバイスによって送信された機能インターフェースのリストを受信することができる。ここで、上記機能インターフェースのリストは、音声入力インターフェース、音声出力インターフェース、スピーカ制御インターフェース、音声プレイ制御インターフェース、アラームインターフェース、および画面表示インターフェースのうちの少なくとも1つの操作インターフェースの識別子を含み、機能インターフェースのリストを記憶するデバイスと、機能インターフェースのリストを送信するデバイスのデバイス識別子とを対応付ける。
ステップ403において、デバイスによって送信された要求情報を受信する。
本実施形態では、音声サービスを提供する方法が実行される電子デバイス(例えば、図1に示すサーバ)は、デバイスによって送信された要求情報を受信することができる。
本実施態様の一部の実施形態において、電子デバイスは、デバイスによって送信された状態レポートメッセージを受信することができ、状態レポートメッセージは第3のイベント情報と第3の状態情報とを含み、第3のイベント情報は、デバイスが状態レポートメッセージを送信するときに発生される第3のイベントを示すためのものであり、第3の状態情報は、第3のイベントの状態を示すためのものである。
本実施形態の一部の実現形態では、デバイスによって送信される要求情報は、デバイス識別子、アクセストークンなどを含んでもよい。アクセストークンは、サーバ事前にデバイスに送信したアクセス許可クレデンシャルである。
ステップ404において、音声情報を解析して、対象となるデバイスを決定する。
本実施形態では、音声サービスを提供する方法が実行される電子デバイス(例えば、図1に示されるサーバ)は、音声情報を解析して、対象となるデバイスを決定することができる。
ステップ405において、第一のイベント情報、第2のイベント情報、及び第三のイベント情報の少なくとも一項に基づいて、対象となるデバイスの現在のイベント情報と、現在のイベント情報に対応する現在の状態情報とを決定する。
本実施形態において、音声サービスを提供する方法が実行される電子デバイス(例えば、図1に示されるサーバ)は、第一のイベント情報、第2のイベント情報、及び第三のイベント情報の少なくとも一項に基づいて、対象となるデバイスの現在のイベント情報と、現在のイベント情報に対応する現在の状態情報とを決定することができる。
ここで、第1のイベント、第2のイベント及び第3のイベントの発生順序により、最終に発生したイベントを、対象となるデバイスの現在イベントとする。
ステップ406において、対象となるデバイスの現在のイベント情報、現在の状態情報、機能インターフェースのリストおよび上記音声情報に基づいて、上記応答情報を生成する。
本実施形態では、音声サービスを提供する方法が実行される電子デバイス(例えば、図1に示されるサーバ)は、対象となるデバイスの現在のイベント情報、現在の状態情報、機能インターフェースのリストおよび上記音声情報に基づいて、上記応答情報を生成することができる。
一例として、ユーザの音声情報が「ステレオの音を増やす」であれば、ステレオからサーバに送信された複数のボリューム変更イベントと音量値変更状態とから、現在のステレオの音量値を決定して、ステレオのスピーカ制御インターフェースを呼び出して音量値を調整する操作コマンドを生成する。
説明すべきことは、デバイス側の機能インターフェースリストにより、デバイス側が有する機能を正確に知ることができる。現在のイベント情報、現在の状態情報にもとづいて、音声サービスにより生成可能な操作コマンドとデバイス側の現在の発生イベントとのコンフリクトによる音声サービスの応答遅れを回避することができる。
ステップ407において、対象となるデバイスに応答情報を送信する。
本実施形態では、音声サービスを提供する方法が実行される電子デバイス(例えば、図1に示されるサーバ)は、操作コマンドによって指示される操作を対象となるデバイスが実行するように、対象となるデバイスに応答情報を送信する。
図4から分かるように、図2に対応する実施形態と比較して、本実施形態に係る音声サービスを提供する方法プロセス400は、対象となるデバイスを決定するステップと、対象となるデバイスの現在のイベント情報及び状態情報に基づいて応答情報を生成するステップとをアウトスタンディングした。これにより、本実施形態によると、音声サービスの精度およびインタラクティブ効率を改善することができる。
次に、図5を参照すると、図5に示すように、上述した各図に示された方法の実現として、本願は、音声サービスを提供するための装置の実施形態を提供する。当該装置は、図2に示された実施形態と対応し、様々な電子デバイスに具体的に適用される。
図5に示すように、本実施形態に係る音声サービスを提供するための装置500は、第1の受信部501と、生成部502と、送信部503とを備える。ここで、第1の受信部501はデバイスによって送信された要求情報を受信し、上記要求情報は第1のイベント情報及び音声情報を含み、上記第1のイベント情報は、上記要求情報を送信するとき上記デバイスに発生される第1のイベントを示すためのものであり、第1のイベント情報は、ユーザに音声情報の入力を示す音声入力イベント情報を含み、生成部502は、上記第1のイベント情報と上記音声情報とに基づいて、操作コマンドを含む、上記デバイスを対象とする応答情報を生成し、送信部503は、対象となるデバイスが操作コマンドによって指示される操作を実行するように、対象となるデバイスに上記応答情報を送信する。
本実施形態では、第1の受信部501は、生成部502、および送信処理部503の具体的処理及び特定の技術的効果は、それぞれ、図2のステップ201、202および203の関連する説明を参照することができ、ここでその詳細を省略する。
本実施形態の一部の実施形態では、デバイスにより送信された応答チャネルの構築要求を受信する第2の受信部であって、上記装置500は、上記応答チャネルの構築要求は、応答情報を端末デバイスに返すチャネルの構築を要求するとともに、構築された上記応答チャネルを接続状態に維持するために用いられる、第2の受信部(図示せず)と、デバイスにより送信された第2のイベント情報及び第2の状態情報を受信する第3の受信部であって、上記第2のイベント情報は、上記応答チャネルの構築要求を送信するときデバイスに発生される上記第2のイベントを示すためのものであり、上記第2の状態情報は、上記第2のイベントの状態を示すためのものである、第3の受信部(図示せず)と、をさらに含む。
本実施態様の幾つかの実施方法では、上記装置500は、デバイスによって送信された機能インターフェースのリストを受信する第4の受信部であって、上記機能インターフェースのリストは、音声入力インターフェース、音声出力インターフェース、スピーカ制御インターフェース、音声プレイ制御インターフェース、アラームインターフェース、および画面表示インターフェースのうちの少なくとも1つの操作インターフェースの識別子を含む、第4の受信部(図示せず)と、機能インターフェースのリストを記憶するデバイスと、機能インターフェースのリストを送信するデバイスのデバイス識別子とを対応付ける、記憶部(図示せず)と、をさらに含む。
本実施形態の一部の実施形態では、上記装置500は、デバイスによって送信された状態レポートメッセージを受信する第5の受信部であって、上記状態レポートメッセージは第3のイベント情報と第3の状態情報とを含み、上記第3のイベント情報は、デバイスが状態レポートメッセージを送信するときに発生される第3のイベントを示すためのものであり、上記第3の状態情報は、第3のイベントの状態を示すためのものである、第5の受信部(図示せず)をさらに含む。
本実施形態の一部の実施形態では、上記要求情報は、上記第1のイベントの状態を示すための第1の状態情報をさらに含み、上記生成部502は、音声情報を分析して、対象となるデバイスを決定するデバイスと、上記第1のイベント情報、上記第2のイベント情報及び上記第3のイベント情報のうちの少なくとも1つに基づいて、上記対象となるデバイスの現在のイベント情報及び上記現在のイベント情報に対応する現在の状態情報を決定するデバイスと、対象となるデバイスの現在のイベント情報、現在の状態情報、機能インターフェースのリストおよび上記音声情報に基づいて、上記応答情報を生成する、デバイスと、をさらに含む。
本実施形態の一部の実施形態では、上記応答情報は、再生待ち音声情報をさらに含み、上記操作コマンドは、上記再生待ち音声情報を再生する音声再生コマンドを含み、上記送信部503は、対象となるデバイスが音声再生コマンドに従って音声出力インターフェースを呼び出して、再生待ち音声情報を再生するように、上記再生待ち音声情報及び上記音声再生コマンドを対象となるデバイスに送信する。
本実施形態の一部の実施形態では、上記応答情報は、表示待ちビュー情報をさらに含み、上記操作コマンドは、上記表示待ちビューをレンダリングするためのビューレンダリングコマンドをさらに含み、ビュー情報は、画像、ウェブページ及びビデオのうちの少なくとも1つを含み、上記送信部503は、対象となるデバイスが上記表示待ちビュー情報と上記ビューレンダリングコマンドとに従って、画面表示インターフェースを呼び出して、上記表示待ちビュー情報をレンダリングして表示するように、上記表示待ちビュー情報と上記ビューレンダリングコマンドとを対象となるデバイスに送信する。
なお、本実施形態において、音声サービスを提供するための装置における各部の実現される具体的処理及び技術的効果は、他の実施形態の説明を参照することができ、ここでその詳細を省略する
以下、本発明の実施形態を実現するためのサーバに適用されるコンピュータシステム600を示す構造模式図である図6を参照する。
図6に示すように、コンピュータシステム600は、読み出し専用メモリ(ROM)602に記憶されているプログラム又は記憶部608からランダムアクセスメモリ(RAM)603にロードされたプログラムに基づいて様々な適当な動作および処理を実行することができる中央処理装置(CPU)601を備える。RAM603には、システム600の操作に必要な様々なプログラムおよびデータがさらに記憶されている。CPU601、ROM602およびRAM603は、バス604を介して互いに接続されている。入力/出力(I/O)インターフェース605もバス604に接続されている。
キーボード、マウスなどを含む入力部606、陰極線管(CRT)、液晶ディスプレイ(LCD)など、およびスピーカなどを含む出力部607、ハードディスクなどを含む記憶部608、およびLANカード、モデムなどを含むネットワークインターフェースカードの通信部609は、I/Oインターフェース605に接続されている。通信部609は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ610は、必要に応じてI/Oインターフェース605に接続される。リムーバブルメディア611は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライバ610に取り付けられ、したがって、ドライバ610から読み出されたコンピュータプログラムが必要に応じて記憶部608にインストールされる。
特に、本発明の実施形態によれば、上記のフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実現されてもよい。例えば、本発明の実施形態は、コンピュータプログラム製品を含み、当該コンピュータプログラム製品は、機械可読媒体に有形に具現化されるコンピュータプログラムを含み、上記コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施形態では、当該コンピュータプログラムは、通信部609を介してネットワークからダウンロードされてインストールされてもよく、および/またはリムーバブルメディア611からインストールされてもよい。当該コンピュータプログラムは、中央処理ユニット(CPU)601により実行される場合に、本願の方法に限定される上記機能を実行する。
なお、本願のコンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体、コンピュータ読取可能な記憶媒体、或いは上記両者の任意の組合わせであっても良い。コンピュータ読取可能な記憶媒体は、例えば電気、磁気、光、電磁気、赤外線、半導体のシステム、サーバ又は部品、或いはこれらの任意の組み合わせであっても良いが、それらに限定されない。コンピュータ読取可能な記憶媒体についてのより具体的な例は、一つ又は複数の導線を含む電気的な接続、携帯可能なコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、消去可能なプログラミング読取専用メモリ(EPROM又はフラッシュ)、光ファイバ、携帯可能なコンパクト磁気ディスク読取専用メモリ(CD−ROM)、光学記憶素子、磁気記憶素子、或いは上記任意の適当の組み合わせを含むが、それらに限定されない。本願において、コンピュータ読取可能な記憶媒体は、プログラムを含むか記憶する任意の有形の媒体であっても良い。当該プログラムは、コマンドによりシステム、サーバ又は部品の使用を実行し、或いはそれらに組合わせて使用されても良い。本願において、コンピュータ読取可能な信号媒体は、ベースバンドに伝送され或いはキャリアの一部として伝送され、コンピュータ読取可能なプログラムコードがロードされるデータ信号を含んでも良い。このような伝送されるデータ信号は、各種類の形式を採用しても良く、電磁気信号、光信号又は上記任意の適当の組合わせを含むが、それらに限定されない。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記憶媒体以外の任意のコンピュータ読取可能な媒体であっても良い。当該コンピュータ読取可能な媒体は、コマンドによりシステム、サーバ又は部品の使用を実行し又はそれらと組合わせて使用されるプログラムを送信し、伝播し又は伝送することができる。コンピュータ読取可能な媒体に含まれるプログラムコードは、任意の適当の媒体で伝送されても良く、無線、電線、光ケーブル、RFなど、或いは上記任意の適当の組み合わせを含むが、それらに限定されない。
図面におけるフローチャートおよびブロック図は、本発明の各実施形態に係るシステム、方法およびコンピュータプログラム製品により実現可能なアーキテクチャ、機能及び操作を示す。ここで、フローチャートまたはブロック図における各枠は、1つのモジュール、プログラムセグメント、またはコードの一部を代表してもよく、上記モジュール、プログラムセグメント、またはコードの一部は、規定された論理機能を達成するための1つ以上の実行可能な命令を含む。なお、いくつかの代替実施態様として、枠に示された機能は、図面に示された順番で実行されなくてもよい。例えば、連続して示された2つの枠は、関連する機能に応じて、実際にほぼ並行に実行されてもよく、逆の順番で実行されてもよい。なお、ブロック図および/またはフローチャートにおける各枠と、ブロック図および/またはフローチャートにおける枠の組合せは、規定された機能または操作を実行する、ハードウェアに基づく専用システムで実現されてもよく、あるいは、専用ハードウェアとコンピュータの命令との組合せで実行されてもよい。
本発明の実施形態に記載されたユニットまたはモジュールは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。記載されたユニットは、プロセッサに設定されてもよく、例えば、「第1の受信部、生成部と送信部を含むプロセッサである」として記載されてもよい。その中でも、これらのユニットまたはモジュールの名称は、ある場合において当該ユニットその自体を限定するものではなく、例えば、第1の受信部は、「デバイスによって送信された要求情報を受信するユニット」として記載されてもよい。
一方、本発明は、コンピュータ可読記憶媒体をさらに提供し、当該コンピュータ可読記憶媒体は、上記実施形態の上記装置に含まれるコンピュータ可読記憶媒体であってもよく、独立に存在して端末に組み立てられていないコンピュータ可読記憶媒体であってもよい。上記コンピュータ可読記憶媒体は、1つ以上のプログラムが記憶され、上記1つ以上のプログラムが上記装置により実行時、当該装置は、デバイスによって送信された要求情報を受信し、ここで、上記要求情報は、第1のイベント情報及び音声情報を含み、上記第1のイベント情報は、上記要求情報を送信するとき上記デバイスに発生される第1のイベントを示すためのものであり、上記第1のイベント情報は、ユーザに音声情報の入力を示す音声入力イベント情報を含む。そして、当該装置は、上記第1のイベント情報と上記音声情報とに基づいて、操作コマンドを含む、上記デバイスを対象とする応答情報を生成し、対象となるデバイスが上記操作コマンドによって指示される操作を実行するように、対象となるデバイスに上記応答情報を送信する。
以上の記載は、本発明の好ましい実施形態、および使用された技術的原理の説明に過ぎない。本発明に係る特許請求の範囲が、上記した技術的特徴の特定な組合せからなる技術案に限定されることではなく、本発明の趣旨を逸脱しない範囲で、上記の技術的特徴または同等の特徴の任意の組合せからなる他の技術案も含むべきであることを、当業者は理解すべきである。例えば、上記の特徴と、本発明に開示された類似の機能を持っている技術的特徴(これらに限定されていない)とを互いに置き換えてなる技術案が挙げられる。

Claims (17)

  1. 音声サービスを提供するための方法であって、
    前記方法は、
    デバイスによって送信された要求情報を受信するステップであって、前記要求情報は、第1のイベント情報及び音声情報を含み、前記第1のイベント情報は、前記要求情報を送信するとき前記デバイスに発生される第1のイベントを示すためのものであり、前記第1のイベント情報は、ユーザに音声情報の入力を示す音声入力イベント情報を含む、ステップと、
    前記第1のイベント情報と前記音声情報とに基づいて、操作コマンドを含む、前記デバイスを対象とする応答情報を生成するステップと、
    対象となるデバイスが前記操作コマンドによって指示される操作を実行するように、対象となるデバイスに前記応答情報を送信するステップと、を含む、
    ことを特徴とする音声サービスを提供するための方法。
  2. 前記デバイスによって送信された要求情報を受信するステップの前に、
    前記方法は、
    デバイスにより送信された応答チャネルの構築要求を受信するステップであって、前記応答チャネルの構築要求は、応答情報を端末デバイスに返すチャネルの構築を要求するとともに、構築された前記応答チャネルを接続状態に維持するために用いられる、ステップと、
    デバイスにより送信された第2のイベント情報及び第2の状態情報を受信するステップであって、前記第2のイベント情報は、前記応答チャネルの構築要求を送信するときデバイスに発生される前記第2のイベントを示すためのものであり、前記第2の状態情報は、前記第2のイベントの状態を示すためのものである、ステップと、をさらに含む、
    ことを特徴とする請求項1に記載の音声サービスを提供するための方法。
  3. デバイスによって送信された要求情報を受信するステップの前に、
    前記方法は、
    デバイスによって送信された機能インターフェースのリストを受信するステップであって、前記機能インターフェースのリストは、音声入力インターフェース、音声出力インターフェース、スピーカ制御インターフェース、音声プレイ制御インターフェース、アラームインターフェース、および画面表示インターフェースのうちの少なくとも1つの操作インターフェースの識別子を含む、ステップと、
    機能インターフェースのリストを記憶するデバイスと、機能インターフェースのリストを送信するデバイスのデバイス識別子とを対応付ける、ステップと、をさらに含む、
    ことを特徴とする請求項2に記載の音声サービスを提供するための方法。
  4. 前記第1のイベント情報と前記音声情報とに基づいて、操作コマンドを含む、前記デバイスを対象とする応答情報を生成するステップの前に、
    前記方法は、
    デバイスによって送信された状態レポートメッセージを受信するステップであって、前記状態レポートメッセージは、第3のイベント情報と第3の状態情報とを含み、前記第3のイベント情報は、デバイスが状態レポートメッセージを送信するときに発生される第3のイベントを示すためのものであり、前記第3の状態情報は、第3のイベントの状態を示すためのものである、ステップと、をさらに含む、
    ことを特徴とする請求項3に記載の音声サービスを提供するための方法。
  5. 前記要求情報は、前記第1のイベントの状態を示すための第1の状態情報をさらに含み、
    前記第1のイベント情報と前記音声情報とに基づいて、操作コマンドを含む、前記デバイスを対象とする応答情報を生成するステップは、
    音声情報を分析して、対象となるデバイスを決定するステップと、
    前記第1のイベント情報、前記第2のイベント情報及び前記第3のイベント情報のうちの少なくとも1つに基づいて、前記対象となるデバイスの現在のイベント情報及び前記現在のイベント情報に対応する現在の状態情報を決定するステップと、
    対象となるデバイスの現在のイベント情報、現在の状態情報、機能インターフェースのリストおよび前記音声情報に基づいて、前記応答情報を生成する、ステップと、をさらに含む、
    ことを特徴とする請求項4に記載の音声サービスを提供するための方法。
  6. 前記応答情報は、再生待ち音声情報をさらに含み、
    前記操作コマンドは、前記再生待ち音声情報を再生する音声再生コマンドを含み、
    対象となるデバイスが前記操作コマンドによって指示される操作を実行するように、対象となるデバイスに前記応答情報を送信するステップは、
    対象となるデバイスが音声再生コマンドに従って音声出力インターフェースを呼び出して、再生待ち音声情報を再生するように、前記再生待ち音声情報及び前記音声再生コマンドを対象となるデバイスに送信する、ステップを含む、
    ことを特徴とする請求項1乃至請求項5のいずれかに記載の音声サービスを提供するための方法。
  7. 前記応答情報は、表示待ちビュー情報をさらに含み、
    前記操作コマンドは、前記表示待ちビューをレンダリングするためのビューレンダリングコマンドをさらに含み、
    ビュー情報は、画像、ウェブページ及びビデオのうちの少なくとも1つを含み、
    対象となるデバイスが前記操作コマンドによって指示される操作を実行するように、対象となるデバイスに前記応答情報を送信するステップは、
    対象となるデバイスが前記表示待ちビュー情報と前記ビューレンダリングコマンドとに従って、画面表示インターフェースを呼び出して、前記表示待ちビュー情報をレンダリングして表示するように、前記表示待ちビュー情報と前記ビューレンダリングコマンドとを対象となるデバイスに送信する、ステップをさらに含む、
    ことを特徴とする請求項6に記載の音声サービスを提供するための方法。
  8. 音声サービスを提供するための装置であって、
    前記装置は、
    デバイスによって送信された要求情報を受信する第1の受信部であって、前記要求情報は、第1のイベント情報及び音声情報を含み、前記第1のイベント情報は、前記要求情報を送信するとき前記デバイスに発生される第1のイベントを示すためのものであり、前記第1のイベント情報は、ユーザに音声情報の入力を示す音声入力イベント情報を含む、第1の受信部と、
    前記第1のイベント情報と前記音声情報とに基づいて、操作コマンドを含む、前記デバイスを対象とする応答情報を生成する生成部と、
    対象となるデバイスが前記操作コマンドによって指示される操作を実行するように、対象となるデバイスに前記応答情報を送信する送信部と、を含む、
    ことを特徴とする音声サービスを提供するための装置。
  9. 前記デバイスにより送信された応答チャネルの構築要求を受信する第2の受信部であって、前記応答チャネルの構築要求は、応答情報を端末デバイスに返すチャネルの構築を要求するとともに、構築された前記応答チャネルを接続状態に維持するために用いられる、第2の受信部と、
    デバイスにより送信された第2のイベント情報及び第2の状態情報を受信する第3の受信部であって、前記第2のイベント情報は、前記応答チャネルの構築要求を送信するときデバイスに発生される前記第2のイベントを示すためのものであり、前記第2の状態情報は、前記第2のイベントの状態を示すためのものである、第3の受信部と、をさらに含む、
    ことを特徴とする請求項8に記載の音声サービスを提供するためのデバイス装置。
  10. デバイスによって送信された機能インターフェースのリストを受信する第4の受信部であって、前記機能インターフェースのリストは、音声入力インターフェース、音声出力インターフェース、スピーカ制御インターフェース、音声プレイ制御インターフェース、アラームインターフェース、および画面表示インターフェースのうちの少なくとも1つの操作インターフェースの識別子を含む、第4の受信部と、
    機能インターフェースのリストを記憶するデバイスと、機能インターフェースのリストを送信するデバイスのデバイス識別子とを対応付ける、記憶部と、をさらに含む、
    ことを特徴とする請求項9に記載の音声サービスを提供するための装置。
  11. デバイスによって送信された状態レポートメッセージを受信する第5の受信部であって、前記状態レポートメッセージは、第3のイベント情報と第3の状態情報とを含み、前記第3のイベント情報は、デバイスが状態レポートメッセージを送信するときに発生される第3のイベントを示すためのものであり、前記第3の状態情報は、第3のイベントの状態を示すためのものである、第5の受信部、をさらに含む、
    ことを特徴とする請求項10に記載の音声サービスを提供するための装置。
  12. 前記要求情報は、前記第1のイベントの状態を示すための第1の状態情報をさらに含み、
    前記生成部は、
    音声情報を分析して、対象となるデバイスを決定する装置と、
    前記第1のイベント情報、前記第2のイベント情報及び前記第3のイベント情報のうちの少なくとも1つに基づいて、前記対象となるデバイスの現在のイベント情報及び前記現在のイベント情報に対応する現在の状態情報を決定する装置と、
    対象となるデバイスの現在のイベント情報、現在の状態情報、機能インターフェースのリストおよび前記音声情報に基づいて、前記応答情報を生成する、装置と、をさらに含む、
    ことを特徴とする請求項11に記載の音声サービスを提供するためのデバイス装置。
  13. 前記応答情報は、再生待ち音声情報をさらに含み、
    前記操作コマンドは、前記再生待ち音声情報を再生する音声再生コマンドを含み、
    前記送信部は、
    対象となるデバイスが音声再生コマンドに従って音声出力インターフェースを呼び出して、再生待ち音声情報を再生するように、前記再生待ち音声情報及び前記音声再生コマンドを対象となるデバイスに送信する、
    ことを特徴とする請求項8乃至請求項12のいずれかに記載の音声サービスを提供するための装置。
  14. 前記応答情報は、表示待ちビュー情報をさらに含み、
    前記操作コマンドは、前記表示待ちビューをレンダリングするためのビューレンダリングコマンドをさらに含み、
    ビュー情報は、画像、ウェブページ及びビデオのうちの少なくとも1つを含み、
    前記送信部は、
    対象となるデバイスが前記表示待ちビュー情報と前記ビューレンダリングコマンドとに従って、画面表示インターフェースを呼び出して、前記表示待ちビュー情報をレンダリングして表示するように、前記表示待ちビュー情報と前記ビューレンダリングコマンドとを対象となるデバイスに送信する、
    ことを特徴とする請求項13に記載の音声サービスを提供するためのデバイス。
  15. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムを記憶する記憶装置と、
    1つまたは複数のプログラムが1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサが請求項1乃至請求項7のいずれかに記載の方法を実施するようにする、サーバ。
  16. コンピュータプログラムが格納され、
    当該コンピュータプログラムがプロセッサによって実行されると、請求項1乃至請求項7のいずれか一項に記載の方法を実施する、コンピュータ可読記憶媒体。
  17. プロセッサにより実行されると、請求項1-7の何れか一つに記載の方法を実現させる、ことを特徴とするコンピュータプログラム。
JP2018128465A 2017-07-05 2018-07-05 音声サービスを提供するための方法および装置 Active JP6582100B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710543537.6 2017-07-05
CN201710543537.6A CN107342083B (zh) 2017-07-05 2017-07-05 用于提供语音服务的方法和装置

Publications (2)

Publication Number Publication Date
JP2019050554A true JP2019050554A (ja) 2019-03-28
JP6582100B2 JP6582100B2 (ja) 2019-09-25

Family

ID=60218860

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018128465A Active JP6582100B2 (ja) 2017-07-05 2018-07-05 音声サービスを提供するための方法および装置

Country Status (3)

Country Link
US (1) US11360737B2 (ja)
JP (1) JP6582100B2 (ja)
CN (1) CN107342083B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022502692A (ja) * 2019-09-12 2022-01-11 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声処理方法、装置、デバイス、プログラム及びコンピュータ記憶媒体

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920125B (zh) * 2018-04-03 2019-10-18 北京小蓦机器人技术有限公司 一种用于确定语音识别结果的方法与设备
CN109918040B (zh) * 2019-03-15 2022-08-16 阿波罗智联(北京)科技有限公司 语音指令分发方法和装置、电子设备及计算机可读介质
CN112312240B (zh) * 2019-07-23 2022-10-04 北京声智科技有限公司 一种音箱集群控制方法、服务器、控制装置及控制***
CN110517096A (zh) * 2019-08-30 2019-11-29 百度在线网络技术(北京)有限公司 内容植入方法、装置、电子设备及存储介质
CN111190668B (zh) * 2019-12-18 2024-03-22 腾讯科技(深圳)有限公司 用户界面ui事件响应方法、装置、电子设备及存储介质
CN111555247A (zh) * 2020-04-24 2020-08-18 广东电网有限责任公司东莞供电局 一种电力设备的倒闸操作控制方法、装置、设备及介质
CN112035086B (zh) * 2020-08-19 2024-03-22 海尔优家智能科技(北京)有限公司 音频播放方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016100139A1 (en) * 2014-12-19 2016-06-23 Amazon Technologies, Inc. Application focus in speech-based systems
CN105793923A (zh) * 2013-09-20 2016-07-20 亚马逊技术股份有限公司 本地和远程语音处理

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6532446B1 (en) * 1999-11-24 2003-03-11 Openwave Systems Inc. Server based speech recognition user interface for wireless devices
US20070055957A1 (en) * 2005-09-07 2007-03-08 Richard Birenheide Remote debugging proxy
US7865887B2 (en) * 2006-11-30 2011-01-04 Sap Ag Context based event handling and execution with prioritization and interrupt management
WO2008085206A2 (en) * 2006-12-29 2008-07-17 Prodea Systems, Inc. Subscription management of applications and services provided through user premises gateway devices
WO2008109477A1 (en) * 2007-03-02 2008-09-12 Aegis Mobility, Inc. Management of mobile device communication sessions to reduce user distraction
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
JP4513888B2 (ja) * 2008-03-31 2010-07-28 ブラザー工業株式会社 画像生成装置および印刷装置
EP2249272B1 (en) * 2009-05-06 2017-02-22 F. Hoffmann-La Roche AG Analysis system for analyzing biological samples
US8614716B2 (en) * 2010-10-01 2013-12-24 Apple Inc. Recording a command stream with a rich encoding format for capture and playback of graphics content
TW201222275A (en) * 2010-11-29 2012-06-01 Ind Tech Res Inst System, server and method for administrating remote device
US9119054B2 (en) * 2011-03-09 2015-08-25 The Boston Consulting Group, Inc. Communication systems and methods
US9449575B2 (en) * 2012-09-10 2016-09-20 Samsung Electronics Co., Ltd. Screen output control method and system, and mobile terminal supporting the same
US9280981B2 (en) * 2013-02-27 2016-03-08 Blackberry Limited Method and apparatus for voice control of a mobile device
US9293138B2 (en) * 2013-05-14 2016-03-22 Amazon Technologies, Inc. Storing state information from network-based user devices
US9280314B2 (en) * 2013-10-17 2016-03-08 Panasonic Intellectual Property Corporation Of America Method for controlling cordless telephone device, handset of cordless telephone device, and cordless telephone device
US20150153827A1 (en) * 2013-12-04 2015-06-04 Qualcomm Incorporated Controlling connection of input device to electronic devices
EP3166023A4 (en) * 2014-07-04 2018-01-24 Clarion Co., Ltd. In-vehicle interactive system and in-vehicle information appliance
CN104125491A (zh) * 2014-07-07 2014-10-29 乐视网信息技术(北京)股份有限公司 音频评论信息生成方法和装置,音频评论播放方法和装置
WO2016017978A1 (en) * 2014-07-31 2016-02-04 Samsung Electronics Co., Ltd. Device and method for performing functions
US9798810B2 (en) * 2014-09-30 2017-10-24 At&T Intellectual Property I, L.P. Methods and apparatus to track changes to a network topology
US9791919B2 (en) * 2014-10-19 2017-10-17 Philip Lyren Electronic device displays an image of an obstructed target
CN112152910A (zh) * 2015-02-16 2020-12-29 钉钉控股(开曼)有限公司 通讯方法
US20160322044A1 (en) * 2015-04-01 2016-11-03 Elwha Llc Networked User Command Recognition
EP3076286B1 (en) * 2015-04-03 2020-08-19 Canon Production Printing Netherlands B.V. System and method for visualizing relationships between a source view and a target view
US9742788B2 (en) * 2015-04-09 2017-08-22 Accenture Global Services Limited Event correlation across heterogeneous operations
CN105161106A (zh) * 2015-08-20 2015-12-16 深圳Tcl数字技术有限公司 智能终端的语音控制方法、装置及电视机***
JP6620493B2 (ja) * 2015-09-30 2019-12-18 ブラザー工業株式会社 モニタプログラム、情報処理端末、モニタシステム
KR102386204B1 (ko) * 2015-11-23 2022-04-13 삼성전자주식회사 이벤트 관리 서비스를 제공하는 전자 장치 및 방법
CN105869636A (zh) * 2016-03-29 2016-08-17 上海斐讯数据通信技术有限公司 一种语音识别装置及其方法、一种智能电视及其控制方法
CN107517236B (zh) * 2016-06-17 2021-06-15 斑马智行网络(香港)有限公司 一种用于物联网的事件处理方法、装置和设备
CN106228974A (zh) * 2016-08-19 2016-12-14 镇江惠通电子有限公司 基于语音识别的控制方法、装置及***
EP3499399A1 (en) * 2016-12-15 2019-06-19 Shenzhen Royole Technologies Co., Ltd. Electronic apparatus and information reading control method
KR101889279B1 (ko) * 2017-01-16 2018-08-21 주식회사 케이티 음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법
US10742434B2 (en) * 2017-05-26 2020-08-11 Box, Inc. Event-based content object collaboration
US10404636B2 (en) * 2017-06-15 2019-09-03 Google Llc Embedded programs and interfaces for chat conversations
CN107277153B (zh) * 2017-06-30 2020-05-26 百度在线网络技术(北京)有限公司 用于提供语音服务的方法、装置和服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105793923A (zh) * 2013-09-20 2016-07-20 亚马逊技术股份有限公司 本地和远程语音处理
JP2016531375A (ja) * 2013-09-20 2016-10-06 アマゾン テクノロジーズ インコーポレイテッド ローカルとリモートのスピーチ処理
WO2016100139A1 (en) * 2014-12-19 2016-06-23 Amazon Technologies, Inc. Application focus in speech-based systems

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022502692A (ja) * 2019-09-12 2022-01-11 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声処理方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
JP7193059B2 (ja) 2019-09-12 2022-12-20 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声処理方法、装置、デバイス、プログラム及びコンピュータ記憶媒体

Also Published As

Publication number Publication date
US11360737B2 (en) 2022-06-14
JP6582100B2 (ja) 2019-09-25
CN107342083A (zh) 2017-11-10
CN107342083B (zh) 2021-07-20
US20190012138A1 (en) 2019-01-10

Similar Documents

Publication Publication Date Title
JP6582100B2 (ja) 音声サービスを提供するための方法および装置
JP6754011B2 (ja) 音声サービスを提供するための方法、装置およびサーバ
US10055190B2 (en) Attribute-based audio channel arbitration
CN108901056B (zh) 用于交互信息的方法和装置
CN112738140B (zh) 一种基于WebRTC的视频流传输方法、装置、存储介质和设备
US8275586B2 (en) Enabling end-to-end testing of applications across networks
JP2020008854A (ja) 音声要求を処理するための方法および装置
US20120317243A1 (en) Audio processing method and device for remote desktop protocol
WO2019128829A1 (zh) 动作执行方法、装置、存储介质及电子装置
CN107395742A (zh) 基于智能音箱的网络通信方法以及智能音箱
CN108337556B (zh) 用于播放影音文件的方法和装置
JP2020004379A (ja) 情報をリリースするための方法と装置、ならびに情報を処理するための方法と装置
CN110113298B (zh) 数据传输方法、装置、信令服务器和计算机可读介质
JP7029218B2 (ja) 再生データ取得方法、装置、機器及び記憶媒体
CN106303754A (zh) 一种音频数据播放方法及装置
WO2020044084A1 (zh) 近场数据迁移方法及其装置
CN115631758B (zh) 音频信号处理方法、装置、设备和存储介质
CN112468679B (zh) 一种同步播放音视频课件的方法、装置及电子设备
CN111787418B (zh) 基于人工智能ai的音视频流的对接处理方法及相关设备
JP7333731B2 (ja) 通話品質情報を提供する方法および装置
CN113079397A (zh) 一种多媒体资源播放方法和装置
CN115915382A (zh) 多媒体流同步的通信方法和相关设备、通信***
WO2020073565A1 (zh) 音频处理方法和装置
CN114125684A (zh) 智能音箱测试方法、装置、电子设备和存储介质
CN115801740A (zh) 音频流数据处理方法、装置、云端服务器及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180705

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190806

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190902

R150 Certificate of patent or registration of utility model

Ref document number: 6582100

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250