JP7420078B2

JP7420078B2 - 情報処理装置及び情報処理方法

Info

Publication number: JP7420078B2
Application number: JP2020555963A
Authority: JP
Inventors: 哲博内田; 祐介阪井; 美和市川
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-11-06
Filing date: 2019-10-25
Publication date: 2024-01-23
Anticipated expiration: 2039-10-25
Also published as: EP3879819A1; WO2020095728A1; CN113330735A; EP3879819A4; JPWO2020095728A1; US20210399913A1; US11641448B2

Description

本技術は、情報処理装置及び情報処理方法に関する。

テレビ会議等、通信網を利用して異なる地点間で映像音声データを双方向に伝送し、リアルタイムで情報交換することが可能となってきている（例えば特許文献１参照）。

特許文献１には、テレビ会議の会話量や会話の盛り上がり度に基づき映像音声データの低遅延優先度を決定している。

特開２００９－７６９５２号公報

特許文献１に記載される技術では、例えばユーザ間の会話が無く、異なる地点にいる二者間の映像同期が求められるような場面において、映像音声データの遅延により適切な映像をユーザに提供することが難しい。

以上のような事情に鑑み、本技術の目的は、ユーザに与える遅延感を減少させることができる情報処理装置及び情報処理方法を提供することにある。

上記目的を達成するため、本技術の一形態に係る情報処理装置は、取得部と、エンコード部と、コンテキスト認識部と、優先データ抽出部と、通信部と、を具備する。
上記取得部は、送信地点に関するデータを取得する。
上記エンコード部は、上記送信地点に関するデータをエンコードする。
上記コンテキスト認識部は、上記送信地点に関するデータを用いて認識した上記送信地点の状況に基づいて、上記送信地点に関するデータから、優先的に送信するデータを設定する。
上記優先データ抽出部は、上記コンテキスト認識部での設定に基づいて、上記優先的に送信するデータを優先データとして抽出する。
上記通信部は、上記エンコード部によりエンコードされたデータと、エンコードされていない上記優先データを、受信地点にある情報処理装置へ送信する。

このような構成によれば、送信地点の状況に基づいて、受信地点にある情報処理装置へ優先して送信されるデータが抽出され、そのデータはエンコードされずに受信地点にある情報処理装置に送信される。これにより、優先的に送信されるデータはエンコード処理に要する時間が不要のため、エンコード処理されるデータよりも早く受信地点にある情報処理装置に送信することができる。

上記優先データ抽出部は、上記優先データとして、上記優先的に送信するデータと、上記送信地点の状況と、上記優先的に送信するデータの再生時刻と、を抽出してもよい。

上記優先データを保存する保存部と、上記保存部に保存された優先データを基に、優先的に送信するデータを予測する優先データ予測部とを更に具備してもよい。

上記送信地点に関するデータは、映像データを含んでもよい。
上記送信地点に関するデータは、音データとデプスデータの少なくとも一方を更に含んでもよい。

上記目的を達成するため、本技術の一形態に係る情報処理装置は、通信部と、デコード部と、決定部と、再生データ生成部と、出力部と、を具備する。
上記通信部は、送信地点の情報処理装置から、上記送信地点に関するデータがエンコードされたデータと、上記送信地点に関するデータから抽出されエンコードされていない優先データを受信する。
上記デコード部は、上記エンコードされたデータをデコードする。
上記決定部は、上記エンコードされていない優先データの再生時刻及び再生方法を決定する。
上記再生データ生成部は、上記決定部での決定に基づいて、上記優先データの再生データを生成する。
上記出力部は、上記デコード部でデコードされたデータと上記優先データの再生データを出力する。

このような構成によれば、エンコードされていない優先データはデコード処理が不要なため、エンコードされたデータよりも、早く再生することができる。

上記決定部での決定の内容を保存する保存部と、上記保存部に保存された決定内容を参照して、上記デコードされたデータのうち、上記優先データの再生データによって既に再生されているデータがあるか否かを確認する再生済み確認部と、上記再生済み確認部により上記優先データの再生データが既に再生されている場合に、上記優先データの再生データと上記デコードされたデータを繋ぎ合わせるための補間データを生成する補間データ生成部とを更に具備してもよい。

上記目的を達成するため、本技術の一形態に係る情報処理方法は、
送信地点にある情報処理装置が、
送信地点に関するデータを取得し、
上記送信地点に関するデータをエンコードし、
上記送信地点に関するデータを用いて認識した上記送信地点の状況に基づいて、上記送信地点に関するデータから、優先的に送信するデータを優先データとして抽出し、
上記エンコードしたデータと、エンコードしていない上記優先データを、受信地点にある情報処理装置に送信し、
上記受信地点にある情報処理装置が、
上記エンコードしたデータと、エンコードしていない上記優先データを受信し、
上記エンコードしたデータをデコードし、
エンコードしていない上記優先データの再生時刻及び再生方法を決定し、
上記決定に基づいて上記優先データの再生データを生成し、
上記デコードしたデータと上記優先データの再生データを出力する。

本技術の一実施形態に係る情報処理装置が用いられた情報処理システム及び情報処理装置の構成を示す図である。送信地点にある情報処理装置での遅延制御に係る情報処理方法のフロー図である。受信地点にある情報処理装置での遅延制御に係る情報処理方法のフロー図である。本技術の一実施形態に係る情報処理方法での遅延制御の具体例を説明する図である。比較例に係る情報処理方法での映像遅延の具体例を説明する図である。

本開示の一実施形態に係る情報処理装置及びこれを用いた情報処理システムについて説明する。情報処理システムは、互いに異なる地点に設置される２つの情報処理装置間での映像データ及び音声データを双方向に伝送する通信システムに係る。

本実施形態の情報処理システムでは、地点で情報処理装置によって取得される地点の情報に関する映像データや音データといったセンシングデータを用いて、情報処理装置が設置される地点の状況（以下、シーンと称する場合がある。）が認識される。

送信地点の情報処理装置で取得されたセンシングデータはＡＶコーデックを通しエンコードされて、受信地点の情報処理装置に送信される。
また、送信地点の情報処理装置では、シーンに応じて、センシングデータから、受信地点の情報処理装置に優先的に送るデータ（以下、優先データと称する場合がある。）が抽出される。抽出された優先データは、ＡＶコーデックを通さずに、エンコードされるデータとは別送で受信地点にある情報処理装置に送信される。

受信地点にある情報処理装置では、エンコードされたデータと、エンコードされていない優先データが再生される。

このように、本実施形態の情報処理システムでは、ＡＶコーデックを通さずに優先データが別送され再生されることにより、ＡＶコーデック分の遅延がなくなり、優先データが速やかに再生される。これにより、受信地点の情報処理装置では、状況に応じた、遅延が減少された映像データや音声データが受信されることになり、ユーザに与える遅延感を減少させることができる。
以下、詳細に説明する。

（情報処理システムの構成）
図１は、本実施形態に係る情報処理システム５０の構成を示す。
図１に示すように、情報処理システム５０は、第１の情報処理システム２０Ａと、第２の情報処理システム２０Ｂと、を有する。これら２つの情報処理システム２０Ａ及び２０Ｂは、ネットワーク３０を介して双方向に通信可能となっている。

本実施形態では、第１の情報処理システム２０Ａを用いるユーザをＡさんとし、第２の情報処理システム２０Ｂを用いるユーザをＢさんとする。第１の情報処理システム２０Ａは、ＡさんのいるＡ地点に設置される。第２の情報処理システム２０Ｂは、ＢさんのいるＢ地点に設置される。Ａ地点とＢ地点とは異なる場所にある。Ａ地点が送信地点のとき、Ｂ地点は受信地点となり、Ｂ地点が送信地点のとき、Ａ地点は受信地点となる。

ネットワーク３０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）などを含んでもよい。また、ネットワーク３０は、ＩＰ－ＶＰＮ（Internet Protocol-Virtual Private Network）などの専用回線網を含んでもよい。また、ネットワーク３０は、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）など無線通信網を含んでも良い。

第１の情報処理システム２０Ａと第２の情報処理システム２０Ｂとは同じ構成を有する。ここでは、第１の情報処理システム２０Ａを構成する各構成に付与する符号の語尾にＡをつけ、第２の情報処理システム２０Ｂを構成する各構成に不要する符号の語尾にＢをつけ、両者を区別する。
以下の説明で、第１の情報処理システム２０Ａと第２の情報処理システム２０Ｂとを特に分ける必要がない場合には、Ａ、Ｂの記載を省略する。

情報処理システム２０は、情報処理装置２１と、センサ群２２と、再生部２３と、を有する。情報処理装置２１の構成については後述する。

センサ群２２は、映像用カメラ２２１と、集音部としてのマイク２２２と、デプスセンサ２２３と、赤外線カメラ２２４等の各種センサを有する。各種センサで取得されるセンシングデータには、地点に関する情報（データ）が含まれる。地点に関するデータとは、具体的には、地点にいる人やその人の周囲の映像データ、音データ、デプスデータ等である。

本実施形態では、センシングデータを用いて、地点の状況（シーン）が認識される。シーンの認識は、互いに通信する複数の地点のうち、少なくともいずれか１つの地点に関するセンシングデータを用いて認識される。

シーンの認識は、複数の地点それぞれで得られるセンシングデータを用いて行われてもよい、通信相手の情報処理装置で得られるセンシングデータと、自身（情報処理装置）が取得したセンシングデータに基づいて、二者間で行われているシーンが認識されてもよい。

映像用カメラ２２１は、地点の映像データを取得する。
マイク２２２は、地点での音、例えば人の声や環境音を集音し、音データを取得する。
デプスセンサ２２３は、例えば、赤外光を用いて、地点にいる人や物体のデプスセンサからの距離を示すデプスデータを取得する。デプスセンサの方式にはＴＯＦ(Time of Flight)方式、パターン照射方式、ステレオカメラ方式等の任意の方式を採用することが可能である。
赤外線カメラ２２４は、人や物体等の赤外線画像データを取得する。赤外線画像データにより人の骨格推定等を行うことができる。

再生部２３は、映像再生機２３１と、音声再生機２３２と、表示部２３３と、音声出力部であるスピーカ２３４を有する。

映像再生機２３１は、後述する情報処理装置２１の再生データ出力部１５から出力され、入力された優先データ、予測優先データ、非優先データに基づく再生データについて、Ｄ／Ａ変換及び増幅などの再生処理を行い、表示部２３３に映像を表示させる。

音声再生機２３２は、後述する情報処理装置２１の再生データ出力部１５から出力され、入力された優先データ、予測優先データ、非優先データに基づく再生データについて、Ｄ／Ａ変換及び増幅などの再生処理を行い、スピーカ２３４から音声を出力させる。
優先データ、予測優先データ、非優先データについては後述する。

データの再生処理を、映像再生機２３１で行うか、又は、音声再生機２３２で行うかは、後述する情報処理装置２１の再生時刻／再生方法決定部９で決定される。

表示部２３３は、映像再生機２３１で再生処理された映像を表示する。
表示部２３３は、液晶ディスプレイ、プラズマディスプレイ又はＯＥＬＤ（Organic Electro Luminescence Display）等の表示デバイスにより構成される。表示部２３３には、通信する相手地点の映像、自身の地点の映像、又は、通信相手地点の映像及び自身の地点の映像の両方が表示可能に構成される。

例えば、第１の情報処理システム２０Ａの表示部２３３Ａには、第２の情報処理システム２０Ｂにより取得される映像が表示され、第２の情報処理システム２０Ｂの表示部２３３Ｂには、第１の情報処理システム２０Ａにより取得される映像が表示される。

スピーカ２３４は、音声再生機２３２で再生処理された音声を出力する。

第１の情報処理システム２０Ａのスピーカ２３４Ａには、第２の情報処理システム２０Ｂにより取得される音声が出力され、第２の情報処理システム２０Ｂのスピーカ２３４Ｂには、第１の情報処理システム２０Ａにより取得される音声が出力される。

（情報処理装置の構成）
情報処理装置２１は、センシングデータ取得部１と、データエンコード部２と、コンテキスト認識部３と、優先データ抽出部４と、短期優先データ保存部５と、優先データ予測部６と、通信部７と、優先データ分別部８と、再生時刻／再生方法決定部９と、データデコード部１０と、優先データ再生保存部１１と、再生データ生成部１２と、優先データ再生済み確認部１３と、補間データ生成部１４と、再生データ出力部１５と、を有する。

取得部としてのセンシングデータ取得部１は、センサ群２２を構成する各種センサで取得されたセンシングデータを取得する。センシングデータには、映像データ、音データ、デプスデータ、赤外線画像データが含まれる。センシングデータは、当該センシングデータを取得した地点に関するデータである。ここでは、センシングデータとして、映像データ、音データ、デプスデータを用いる場合について説明する。

センシングデータ取得部１で取得されたセンシングデータは、データエンコード部２、コンテキスト認識部３に出力される。
また、取得されたセンシングデータは、時系列に図示しないセンシングデータ保存部に保存される。

エンコード部としてのデータエンコード部２は、センシングデータ取得部１で取得されたセンシングデータをエンコードする。センシングデータ取得部１で取得された全てのデータ（ここでは、映像データ、音データ、デプスデータ）をエンコードする。エンコードされたデータは、通信部７に出力される。エンコードされたデータは非優先データである。

データエンコード部２及び後述するデータデコード部１０は、図示しないＡＶコーデックに備えられている。

コンテキスト認識部３は、センシングデータ取得部１で取得されたセンシングデータを基に、地点の状況（シーン）を認識する。

例えば、コンテキスト認識部３は、地点に、人が複数いるのか、人による会話が行われているのか、人は何をしているのか、地点にある物体が何であるか、物体は動いているのか静止しているのか、物体が動いている場合は何をしているのか、等を認識する。

この認識は、センシングデータがそれに対応した分析器に入力され分析されることにより行われる。

各種センシングデータのうち音データは、分析器によって、音声認識により人の声と環境音とに判別される。これにより、人の声の音データを抽出することができる。

また、音声認識では、音データに基づいて言語認識を行い、音データに含まれる言葉を単語単位で認識してキーワードが抽出される。抽出されるキーワードとしては、物体の名称等を表す名詞、「ストップ」、「行け」等の指示語、「嬉しい」、「楽しい」等の感情を表す語等がある。このように抽出されたキーワードを用いて地点の状況（シーン）を認識することができる。

音声認識の手法としては、例えば、学習用データから音声の特徴を蓄積し、その特徴と供給された音声とを比較してキーワードを抽出する手法等があり、既知の手法を用いることができる。

各種センシングデータのうち映像データは、分析器によって、画素毎に、前に取得されたフレーム画像との画素値の差分が取られる。
各種センシングデータのうちデプスデータは、分析器によって、前に取得されたデプスデータとの差分が取られ、これを基に奥行き方向、縦方向の物体の移動量が求められる。
前に取得されたフレーム画像及びデプスデータには、センシングデータ保存部に保存されたデータを用いる。
これら画素値の差分、物体の移動量から、人物、物体の移動情報を取得することができる。

このような各センシングデータの分析結果を基に、シーンが推定、認識される。

シーンの例としては、複数の異なる場所にそれぞれ設置された情報処理システム（本実施形態における第１の情報処理システム２０Ａと第２の情報処理システム２０Ｂ）間の通信を用いて、２つの異なる場所それぞれにいる二者間（本実施形態におけるＡさんとＢさんの二者間）で行われる、じゃんけんをしているシーン、テレビ会議をしているシーン、遠隔操作をしているシーン、遠隔指さしをしているシーン等がある。尚、これらのシーンに限定されない。

更に、コンテキスト認識部３は、認識したシーンに基づいて、二地点間、二者間で同期すべきデータの識別フラグを設定する。二地点間、二者間で同期すべきデータとは、優先的に相手の情報処理装置（送信地点の情報処理装置）に送るべきデータであり、シーンにおいて二者間の円滑なコミュニケーションに重要な情報となるものである。この優先的に送るべきデータかどうかが識別できるように識別フラグが設定される。
優先的に通信相手の情報処理装置に送るべきデータが何であるかはシーンに応じて設定される。具体例については後述する。

同期すべきデータ（優先的に送るデータ）としては、音データの分析により判別された人の声等の音データ、映像データの分析により求められた画素値、デプスデータの分析により求められた物体の移動量等がある。
具体例については後述する。

コンテキスト認識部３で認識されたシーン名、当該シーン名に対して設定された識別フラグの情報、優先的に送るべきデータの再生時刻は、優先データ抽出部４に出力される。

優先データ抽出部４は、設定された識別フラグに基づいて、二地点間、二者間で同期すべき情報、すなわち優先的に送信するデータを抽出する。優先データ抽出部４は、優先的に送信するデータ、シーン名、識別フラグ情報及び再生時刻を併せ、互いに紐づけして、優先データとして、短期優先データ保存部５及び通信部７に出力する。

短期優先データ保存部５は、優先データ抽出部４で抽出された優先データを時系列順に短期的に保存する。

優先データ予測部６は、短期優先データ保存部５で保存された優先データを基に、将来の優先データを予測し、予測優先データを生成する。予測優先データは通信部７に出力される。

より具体的には、優先データ予測部６は、短期優先データ保存部５により保存された時系列の優先データを基に、認識されたシーン名で、映像にある人物や物体が連続的な動作をしているかを判定する。
更に、優先データ予測部６は、人物や物体が連続的な動作をしていると判定した場合、短期優先データ保存部５により保存された時系列の優先データから、人物や物体の動作を予測することが可能なフェーズか否かを判定する。
そして、予測することが可能なフェーズであると判定した場合、短期優先データ保存部５に保存された情報を基に、将来の優先データである予測優先データを予測し、生成する。

このように優先データ予測部を設けることにより、シーンに応じた重要なデータを優先的に通信相手に提示することが可能となり、二者間でのコミュニケーションをより円滑なものとすることができる。

一例として、じゃんけんのシーンでは、出し手の情報が重要となり、出し手の部分の映像データの画素値が優先データとなる。
じゃんけんにおいて、出し手が、「グー」、「チョキ」、「パー」のいずれかの形態を完全にとって出される前の手の形態変化から、出し手がどの形態をとるか、予測がつく。したがって、出し手が完全にだされる前に、短期優先データ保存部５により保存された時系列の優先データを基に、将来の優先データである予測優先データを予測し、生成することが可能となる。

予測優先データには、音データ、画素値、物体の移動量等の予測される優先的に送信するデータと、シーン名と、識別フラグと、再生時刻が含まれる。予測優先データはエンコードされずに通信相手の情報処理装置に送信される。

通信部７は、通信相手の情報処理装置とデータの送受信を行う。本実施形態では、第１の情報処理装置２０Ａ（第２の情報処理装置２０Ｂ）における通信相手の情報処理装置は第２の情報処理装置２０Ｂ（第１の情報処理装置２０Ａ）である。

通信部７は、自身の情報処理装置で取得したセンシングデータに基づいて得た優先データ及び非優先データを、通信相手の情報処理装置に送信する。更に、通信部７は、通信相手の情報処理装置で取得されたセンシングデータに基づいて得られた優先データ及び非優先データを、受信する。

このように、優先データは、ＡＶコーデックを通さずにエンコードされずに通信相手の情報処理装置に送信される。これにより、ＡＶコーデックを通してエンコードされて通信相手の情報処理装置に送信される非優先データと比べて、優先コードは、エンコードに要する時間が不要なため、ＡＶコーデックによるエンコード分の遅延がなく、通信相手の情報処理装置に早く送信することが可能となる。
これにより、受信地点の情報処理装置に対して、遅延が減少された映像データや音声データを送信することができ、二者間の円滑なコミュニケーションが可能となる。

優先データ分別部８は、通信部７で受信した通信相手の情報処理装置からのデータを、優先データ又は予測優先データと、非優先データとに分別する。優先データ及び予測優先データは、エンコードされていないデータである。非優先データはエンコードされているデータである。

優先データ分別部８は、非優先データをデータデコード部１０に出力する。
優先データ分別部８は、優先データ及び予測優先データを再生時刻／再生方法決定部９に出力する。

決定部としての再生時刻／再生方法決定部９は、優先データ分別部８にて分別された優先データ（予測優先データ）の再生時刻と、どの再生機で優先データ（予測優先データ）である映像データ（予測映像データ）や音データ（予測音データ）を再生するかを決定する。決定内容は、優先データ再生保存部１１に保存される。また、決定内容は、再生データ生成部１２に出力される。

デコード部としてのデータデコード部１０は、優先データ分別部８にて分別された非優先データをデコードする。デコードされた非優先データは優先データ再生済み確認部１３に出力される。

保存部としての優先データ再生保存部１１は、再生時刻／再生方法決定部９による決定内容として、優先データの内容と、優先データを用いた再生を行う再生時刻と、再生に用いる再生機の情報を保存する。

再生データ生成部１２は、再生時刻／再生方法決定部９での決定内容に基づいて、優先データ、予測優先データの再生データを生成する。生成された再生データは再生データ出力部１５に出力される。

再生済み確認部としての優先データ再生済み確認部１３は、データデコード部１０でデコードされたデータを再生する前に、優先データ再生保存部１１に保存された決定内容を参照して、通信相手の情報処理装置から受信した非優先データをデコードしたデータのうち、優先データを用いた再生で既に再生済みされたものがあるかを確認する。

優先データ再生済み確認部１３は、まだ再生されていないデコードされた非優先データを再生データ出力部１５に出力する。また、優先データ再生済み確認部１３は、確認結果を補間データ生成部１４に出力する。

補間データ生成部１４は、優先データを用いて既に再生されたと確認された優先データとデコードされた非優先データとの間を補間して繋ぎ合わせるための補間データを生成する。生成された補間データは、再生データ出力部１５に出力される。

このように補間データ生成部１４が設けられることにより、映像に写し出される人等の動きの流れに違和感が少ない映像を表示させることができ、また出力される人の声の流れに違和感が少ない音声を出力させることができる。

出力部としての再生データ出力部１５は、再生データ生成部１２からの再生データの入力、優先データ再生済み確認部１３からのデコードされたデータの入力、補間データ生成部１４からの補間データの入力をうけて、再生データを再生部２３に出力する。

受信地点にある情報処理装置２１においては、優先データはエンコードされていないためＡＶコーデックを通してデコードする必要がないため、ＡＶコーデックによるデコード分の遅延がなく、非優先データよりも早く再生することができる。
これにより、送信地点にある情報処理装置２１から送信されたデータの再生が、遅延が減少されて行なわれ得るので、二者間のより円滑なコミュニケーションが可能となる。

（情報処理方法）
次に、上述の情報処理システム５０が実行する情報処理方法について、送信側と受信側に分け、図２、図３を用いて説明する。
尚、ここでは、便宜的に、地点Ａを送信地点とし、地点Ｂを受信地点として説明するが、当然のことながら、地点Ａが受信地点、地点Ｂが送信地点であってもよく、このような場合においても同様の処理が行われる。以下、必要に応じ、図１に図示される構成を用いて説明する。

[送信地点にある情報処理システムでの動作フロー]
図２は、送信側の情報処理システム（ここでは、第１の情報処理システム２０Ａ）での遅延制御に係る情報処理方法のフロー図である。以下、図２に従って、送信側の情報処理システムにおける情報処理方法について説明する。

図２に示すように、第１の情報処理装置２１Ａのセンシングデータ取得部１Ａにより、地点Ａに関するデータとして、センサ群２２Ａの各種センサで取得されたセンシングデータが取得される（Ｓ１）。本実施形態では、センシングデータには、音データ、映像データ、デプスデータが含まれる。

データエンコード部２Ａにより、センシングデータ取得部１Ａで取得されたセンシングデータ(音データ、映像データ、デプスデータ)は、センシングデータ取得時刻の同期をとったうえで、汎用コーデック処理されエンコードされる（Ｓ２）。

コーデック処理では、音データ、映像データ、デプスデータに対して、処理時間の短いコーデック処理を施す。例えば、音データ及び映像データに対して、リアルタイム通信向けで処理時間の短いＶＰ９によるエンコードを施す。

エンコードデータ、すなわち非優先データは、通信部７Ａを介して、第２の情報処理装置２１Ｂに送信される（Ｓ１２）。

コンテキスト認識部３Ａにより、取得された音データの音声認識が行われる（Ｓ３）。音声認識では、人の音声と環境音とが判別される。

コンテキスト認識部３Ａにより、取得された映像データを用いて、画素値が求められ、更に、画素毎に前フレームとの画素値の差分が計算される（Ｓ４）。

コンテキスト認識部３Ａにより、取得されたデプスデータを用いて、前フレームのデプス情報との差分が取られ、奥行き方向、縦方向の物体の移動量が求められる（Ｓ５）。
これら画素値の差分結果、物体の移動量から、人物や物体の動き情報を取得することができる。

コンテキスト認識部３Ａにより、音声認識結果、画素値の差分結果、物体の移動量結果に基づいて、シーンが認識される（Ｓ６）。
次に、コンテキスト認識部３Ａにより、認識されたシーンに基づき、優先的に送信されるデータが識別可能にデータに対して識別フラグが設定される（Ｓ７）。

次に、優先データ抽出部４Ａにより、設定された識別フラグに基づいて、音データ、画素値、物体の移動量等から、優先的に第２の情報処理装置２１Ｂに送信されるデータが抽出される。抽出されたデータは、シーン名、識別フラグ情報、再生時刻と併せて優先データとして抽出される（Ｓ８）。

次に、抽出された優先データは、短期優先データ保存部５Ａに書き込まれ保存される（Ｓ９）。

次に、優先データ予測部６により、短期優先データ保存部５により保存された時系列の優先データを基に、認識されたシーン名で、人物や物体が連続的な動作をしていて、かつ、短期優先データ保存部５により保存された時系列の優先データから、人物や物体の動作を予測することが可能なフェーズであるかが判定される（Ｓ１０）。

Ｓ１０でＮｏと判定されるとＳ１２に進む。優先データは、通信部７Ａを介して、第２の情報処理装置２１Ｂに送信される（Ｓ１２）。

Ｓ１０で、人物や物体が連続的な動作をしていて、かつ、人物や物体の動作を予測することが可能なフェーズであると判定されると（Ｙｅｓ）、Ｓ１１に進む。

Ｓ１１では、短期優先データ保存部５に保存された情報を基に予測優先データが生成される。生成された予測優先データと、優先データは、通信部７Ａを介して、第２の情報処理装置２１Ｂに送信される（Ｓ１２）。

[受信地点にある情報処理システムでの動作フロー]
図３は、受信側の情報処理システム（ここでは、第２の情報処理システム２０Ｂ）での遅延制御に係る情報処理方法のフロー図である。以下、図３に従って、受信側の情報処理システムにおける情報処理方法について説明する。

図３に示すように、第２の情報処理装置２１Ｂの通信部７Ｂにより、ネットワーク３０を介して、第１の情報処理装置２１Ａから優先データ、非優先データ、予測優先データが受信される（Ｓ３１）。

次に、優先データ分別部８Ｂにより、受信したデータが、優先データ又は予測優先データであるか否かが判定される（Ｓ３２）。
Ｓ３２で、優先データ又は予測優先データでない、すなわち、非優先データであると判定されると（Ｎｏ）、Ｓ３３に進む。
Ｓ３２で、優先データ又は予測優先データであると判定されると（Ｙｅｓ）、Ｓ３８に進む。

Ｓ３８では、再生時刻／再生方法決定部９により、再生する優先データ又は予測優先データの再生時刻及び再生方法が決定される。再生方法とは、どの再生機を用いて再生するかを示す。

再生時刻及び再生方法は、優先データ再生保存部１１Ｂに保存され、優先データ又は予測優先データの再生情報が保存される（Ｓ３９）。

次に、再生データ生成部１２Ｂにより、決定された再生方法に従って、優先データ又は予測優先データを用いて再生データが生成される（Ｓ４０）。生成された再生データは再生データ出力部１５Ｂに出力され、Ｓ３６へ進む。

Ｓ３３では、データデコード部１０Ｂにより、エンコードされたデータである非優先データがデコードされる。

次に、優先データ再生済み確認部１３Ｂにより、優先データ再生保存部１１Ｂに保存されたデータが参照され、再生時刻がキーとされて、デコードされたデータに含まれる内容が、優先データを用いた再生で既に再生されているかが確認される（Ｓ３４）。

Ｓ３４で再生されていないと確認されると（Ｎｏ）、デコードされたデータは、再生データ出力部１５Ｂに出力され、Ｓ３６へ進む。

Ｓ３４で再生されていると確認されると（Ｙｅｓ）、補間データ生成部１４Ｂにより、先行して行われる優先データによる再生とデコードされたデータによる再生が旨くつながるように補間データが生成される（Ｓ３５）。生成された補間データは、再生データ出力部１５Ｂに出力され、Ｓ３６へ進む。

Ｓ３６では、再生データ出力部１５Ｂにより、データの再生時刻に従ってデータのソートが行なわれたうえで、順に、決定された再生機（映像再生機２３１Ｂ又は音声再生機２３２Ｂ）にデータが出力される。優先的に別送された優先データは、決定された再生時刻に従って、デコードされている非優先データに重畳されて出力データとして出力される。

具体例として、じゃんけんのシーンの場合、デコードされている映像データの手の部分に、優先データである出し手の部分の映像データを重畳されたデータが出力される。

映像再生機２３１Ｂ、音声再生機２３２Ｂでは入力されたデータに基づいて再生処理が行われ（Ｓ３７）、表示部２３３Ｂに映像が表示され、スピーカ２３４Ｂから音声が出力される。
じゃんけんのシーンの場合、デコードされた映像データの手の部分に、優先データである出し手の部分の映像データを重畳された映像が表示部２３３Ｂに表示される。

（遅延制御に係る情報処理方法の具体例）
次に、遅延制御に係る情報処理方法の一例として、異なる地点にいるＡさんとＢさんがじゃんけんをしているシーンが認識された場合について図４及び図５を用いて説明する。

「じゃんけん」は、手だけを使う遊戯である。じゃんけんは、３種類の指の出し方で三すくみを構成し、勝敗を決める手段である。「じゃんけん」は、例えば英語圏では、Rock-paper-scissorsと呼ばれている。

日本では、３種類の指の出し方として、一般的には、五本指を全て握って握り拳の形態をとる「グー」と、人差し指と中指を伸ばし、それ以外の指は握る形態をとる「チョキ」と、五本指全てを伸ばす形態をとる「パー」とがある。
「グー」は、Rock-paper-scissorsのRockに相当する。「チョキ」は、Rock-paper-scissorsのscissorsに相当する。「パー」は、Rock-paper-scissorsのpaperに相当する。

「じゃんけん」では、「グー」は「チョキ」に勝つが「パー」には負け、「チョキ」は「パー」には勝つが「グー」には負け、「パー」は「グー」には勝つが「チョキ」には負ける。

日本では、じゃんけんを行うときのかけ声として、「さいしょはグー、じゃんけんぽん」という決まり文句が用いられることが多い。ここでは、このかけ声を用いる場合を例にあげて遅延制御に係る情報処理方法について説明する。

「さいしょはグー、じゃんけんぽん」のかけ声を用いるじゃんけんでは、じゃんけんのルールとして、「さいしょはグー」の「グー」の声が発せられると同時に、じゃんけんプレーヤーは全員、「グー」の形態の手を出すことになっている。
そして、「さいしょはぐー」に続いて、「じゃんけんぽん」のかけ声が発せられ、「じゃんけんぽん」の「ぽん」の声が発せられると同時に、じゃんけんプレーヤーは全員、勝敗を決めるために、「グー」、「チョキ」、「パー」のいずれかの形態にした手をだす。

図４は、本技術の一実施形態に係る情報処理方法での遅延制御に係る情報処理方法の具体例を説明する図である。図４に示す例では、優先的に送信される、エンコードされていない優先データがある場合を示す。

図５は、比較例に係る情報処理方法での遅延制御に係る情報処理方法の具体例を説明する図である。図５に示す例は、優先的に送信される優先データがなく、通信相手の情報処理装置に対して送信されるデータがエンコードされたデータである非優先データのみである場合を示す。

図４及び図５に示す例では、Ａさんがかけ声をかけ、そのかけ声にあわせてＡさんとＢさんは互いの動作にあわせて、グー、チョキ、パーのいずれかの形態にした手をだす、とする。

まず、図５を用いて比較例について説明する。
図５（Ａ）～（Ｄ）は、それぞれ、撮影時のユーザ又は再生映像の経時変化を複数のコマで表したものである。図５において、「グー」の出し手を出した時の最初のコマにおける出し手を鎖線の楕円で囲んでいる。

図５（Ａ）は、第１の情報処理システム２０ＡでＡさんを撮影している時のＡさんの動作の経時変化を示す。第１の情報処理システム２０Ａで取得されたＡさんの映像データ、音声データ及びデプスデータはエンコードされて、第２の情報処理システム２０Ｂに送られる。

第２の情報処理システム２０Ｂでは、第１の情報処理システム２０Ａから送られてきたデータがデコードされて、映像及び音声が再生される。
図５（Ｂ）は、第１の情報処理システム２０Ａから送られてきたデータに基づいて、第２の情報処理システム２０Ｂの表示部２３３Ｂに表示される再生映像の経時変化を示す。この再生映像は、地点Ａの映像である。

図５（Ａ）及び（Ｂ）に示すように、伝送遅延により、第１の情報処理システム２０Ａで撮影される撮影時よりもやや遅延して、第２の情報処理システム２０Ｂ側で映像が再生される。図に示す例では、第２の情報処理システム２０Ｂで表示される再生映像で「グー」がだされるタイミングは、第１の情報処理システム２０Ａで撮影するときよりも時間的に１コマ分遅くなっている。

第２の情報処理システム２０Ｂ側にいるユーザであるＢさんは、この図５（Ｂ）に示されるように再生された映像をみて、じゃんけんを行うことになる。

図５（Ｃ）は、第２の情報処理システム２０Ｂで、図５（Ｂ）に示されるように再生された映像をみてじゃんけんを行っているＢさんを撮影している時のＢさんの動作の経時変化を示す。

Ｂさんは、図５（Ｂ）に示される再生映像をみてＡさんの「さいしょはグー」の「グー」のときに「グー」を出すタイミングで、図５（Ｃ）に示すように「グー」を出す。図５（Ａ）及び図５（Ｃ）に示すように、Ａさんの「グー」を出すタイミングとＢさんの「グー」を出すタイミングとは、同期ずれが生じることになる。

第２の情報処理システム２０Ｂで取得されたＢさんの映像データ、音声データ及びデプスデータはエンコードされて、第１の情報処理システム２０Ａに送られる。

第１の情報処理システム２０Ａでは、第２の情報処理システム２０Ｂから送られてきたデータがデコードされて、映像及び音声が再生される。
図５（Ｄ）は、第２の情報処理システム２０Ｂから送られてきたデータに基づいて、第１の情報処理システム２０Ａの表示部２３３Ａに表示される再生映像の経時変化を示す。

図５（Ｃ）及び（Ｄ）に示すように、伝送遅延により、第２の情報処理システム２０Ｂで撮影される撮影時よりも遅延して、第１の情報処理システム２０Ａの表示部２３３Ａで地点Ｂの映像が再生される。図に示す例では、地点Ａの表示部２３３Ａに再生されて表示される地点Ｂの様子の映像で「グー」がだされるタイミングは、第１の情報処理システム２０Ａ側で撮影したとき（図５（Ａ）参照。）よりも時間的に３コマ分遅くなっている。

第１の情報処理システム２０Ａ側のユーザであるＡさんは、この図５（Ｄ）に示される再生映像をみて、じゃんけんを行うことになる。

つまり、Ａさんは、Ｂさんの「さいしょはグー」のかけ声の「グー」にあわせて出すグーの手の映像を表示部２３３Ａで確認して、次のかけ声である「じゃんけんぽん」を発することになる。

これにより、図５（Ａ）に示すように、Ａさんには、「さいしょはグー」のかけ声から、次の「じゃんけんぽん」のかけ声を発するまでに、３コマ分の待ち時間が生じることになる。

これに対し、本実施形態に係る図４に示す遅延制御が実行される情報処理方法では、図４（Ａ）に示すように、Ａさんの待ち時間が１コマ分となり、待ち時間が比較例と比較して短くなっている。

以下、図４を用いて説明する。図４（Ａ）～（Ｄ）は、それぞれ、撮影時のユーザ又は再生映像の経時変化を複数のコマで表したものである。図４において、「グー」の出し手を出した時の最初のコマにおける出し手を鎖線の楕円で囲んでいる。

ここで説明する一例では、センシングデータ取得部１で取得されたセンシングデータを基に、情報処理装置２１によりユーザの状況であるシーンがじゃんけんをしているシーンであると既に認識されているものとして説明する。

情報処理装置２１では、認識されたシーンに基づいて、相手の情報処理装置に優先的に送るべきデータ（優先データ）が識別できるように、データに識別フラグが設定される。じゃんけんのシーンにおいては、映像データのうち「グー」「チョキ」「パー」の形態をとる出し手の部分の映像データが、優先データとなるように識別フラグが設定される。

センシングデータである映像データ、音データ、デプスデータはエンコードされて非優先データとして送信される。
また、エンコードデータ（非優先データ）とは別に、じゃんけんのシーンでは、優先データとして、出し手の部分の映像データの画素値がエンコードされずに、通信相手の情報処理装置に送信される。すなわち、じゃんけんのシーンでは、出し手の映像情報が重要なため、出し手の映像データが優先データとなる。優先データは、遅延するとＡさんとＢさんとの間のじゃんけんでのコミュニケーションがうまくいかない情報に相当する。

情報処理システム５０において、優先データは、エンコード及びデコードされることなく、通信相手の情報処理装置の再生データ出力部へ出力されることになるため、ＡＶコーデックでのエンコード及びデコード分の遅延がなく、非優先データよりも早く通信相手に提示することが可能となる。

本実施形態では、じゃんけんのシーンであると認識されている場合を例にあげているので、じゃんけんプレーヤーの出し手の部分の映像データ（画素値）が優先的に別送される。そして、決定された再生時刻に従って、エンコードして送信されデコードされている映像データに、優先的に別送された出し手の部分の映像を重畳させた出力データが生成される。

図４に示す例は、本技術の効果をわかりやすくするために、Ｂさんの映像がＡさんに送られてくるときに、本技術に係る遅延制御が実行される場合を例にあげている。

図４（Ａ）は、第１の情報処理システム２０Ａで、Ａさんを撮影している時のＡさんの動作の経時変化を示す。第１の情報処理システム２０Ａで取得された映像データ、音データ、デプスデータはエンコードされ第２の情報処理システム２０Ｂに送られる。

第２の情報処理システム２０Ｂでは、第１の情報処理システム２０Ａより送られてきたデータを基に、映像及び音声が再生される。
図４（Ｂ）は、表示部２３３Ｂに表示される再生映像の経時変化を表す。

図４（Ａ）及び（Ｂ）に示すように、伝送遅延により、第１の情報処理システム２０Ａで撮影される撮影時よりもやや遅延して、第２の情報処理システム２０Ｂ側で映像が再生される。図に示す例では、第２の情報処理システム２０Ｂ側での再生映像で「グー」がだされるタイミングは、第１の情報処理システム２０Ａで撮影するときよりも時間的に１コマ分遅くなっている。

第２の情報処理システム２０Ｂ側にいるユーザであるＢさんは、この図４（Ｂ）に示されるように再生された映像をみて、じゃんけんを行うことになる。

図４（Ｃ）は、第２の情報処理システム２０Ｂで、図４（Ｂ）に示される再生映像をみてじゃんけんを行っているＢさんを撮影している時のＢさんの動作の経時変化を示す。

Ｂさんは、図４（Ｂ）に示される再生映像をみてＡさんの「さいしょはグー」の「グー」のときに「グー」を出すタイミングで、図４（Ｃ）に示すように「グー」を出す。図４（Ａ）及び図４（Ｃ）に示すように、Ａさんの「グー」を出すタイミングとＢさんの「グー」を出すタイミングとは、同期ずれが生じることになる。

ここでは、既にじゃんけんのシーンであると認識されているので、出し手の部分の部分映像の画素値が優先データとなるように識別フラグが設定されている。
第２の情報処理システム２０Ｂで、識別フラグに基づいて、映像データからＢさんの出し手の部分の部分映像データ（画素値）が優先データとして抽出される。抽出された優先データはエンコードされずに優先データとして優先的に第１の情報処理システム２０Ａに送られる。

また、優先データ予測部６Ｂにより予測された予測優先データがある場合、この予測優先データも、エンコードされずに優先的に第１の情報処理システム２０Ａに送られる。ここでは、予測優先データは、予測される出し手の部分の部分映像データ（画素値）である。

第１の情報処理システム２０Ａでは、第２の情報処理システム２０Ｂより送られてきた優先データ又は予測優先データである出し手の映像データ（画素値）の再生時刻及び再生方法が決定され、これに基づいて優先データである出し手の映像データの再生データが生成される。

また、予測優先データがある場合においても、送られてきた予測優先データである予測される出し手の映像データの再生時刻及び再生方法が決定され、これに基づいて予測優先データである予測される出し手の映像データの再生データが生成される。

また、第１の情報処理システム２０Ａでは、第２の情報処理システム２０Ｂより送られてきた非優先データであるエンコードされたデータはデコードされる。

デコードされたデータのうち、既に優先データ又は予測優先データを用いた再生が行われているデータがある場合、先行して行われた優先データ又は予測優先データによる再生とデコードされたデータによる再生が旨くつながるように補間データが生成される。

デコードされたデータ、生成された再生データ及び補間データは、データの再生時刻に従ってデータのソートが行われた上で、映像再生機２３１Ａ、音声再生機２３２Ａに出力され、再生される。これにより、図４（Ｄ）に示すように表示部２３３Ａに再生映像が表示される。
図４（Ｄ）は、表示部２３３Ａに表示されるＢ地点の再生映像を示す。

図４（Ｄ）に示すように、破線の楕円で囲まれている出し手の「グー」は、優先データとして優先的に送られてきた出し手の映像データ（画素値）に基づくものであり、出し手以外の映像部分は、非優先データに基づく映像となっている。このように、優先的に送られた優先データに基づく出し手の映像は、先に送られている非優先データに基づく映像に重畳されて表示される。
これにより、じゃんけんというシーンに重要な出し手の映像は、遅延が抑制されて通信相手の情報処理装置で再生されることになる。

第１の情報処理システム２０Ａ側のユーザであるＡさんは、この図４（Ｄ）に示される再生映像をみて、じゃんけんを行うことになる。つまり、Ａさんは、「さいしょはグー」の「グー」にあわせてＢさんが出すグーの手の映像を表示部２３３Ａで確認して、次のかけ声である「じゃんけんぽん」を発することになる。

これにより、図４（Ａ）に示すように、Ａさんにおける、「さいしょはグー」のかけ声から、次の「じゃんけんぽん」のかけ声を発するまでの待ち時間は、１コマ分となる。つまり、図５を用いて説明した比較例と比べて、ＡさんのＢさんからの情報待ち時間が短縮される。

このように待ち時間が短縮されることにより、単位時間当たりの効率が向上する。また、待ち時間が短縮されることにより、ユーザが感じる遅延感が減少し、ＡさんとＢさんとのコミュニケーションをより自然に、より円滑なものとすることができる。

以上のように、本技術においては、場所の離れた複数の地点間での通信において、シーンに応じた重要なデータが抽出されて優先的に通信相手の情報処理装置に送信されるので、通信相手に、重要な情報を、遅延を抑制して、提示することができる。

これにより、例えば、通信インフラが整備されていない地域や国土の広い国での通信、他国間での通信等、伝送遅延の大きくなりやすい通信状況においても、通信相手に、シーンに応じた重要な情報をより早く提示することができ、ユーザに与える通信の遅延感を減少させることができる。

また、本技術は、センサによって取得した情報等を自動でサーバへ送信するようなＩｏＴ(Internet of Things)端末を用い、ＩｏＴ端末と物理的に近い位置に設けられた複数のサーバ（エッジサーバ）でデータ分散処理を行うエッジングコンピューティングにも適用することができる。

（遅延制御に係る情報処理方法の他のシーンでの適用例）
上述の実施形態においては、じゃんけんのシーンを例にあげて説明したが、これに限定されない。認識されるシーンに応じて、通信相手の情報処理システムに優先的に送信するデータの内容を異ならせ、シーンに応じた重要な情報を優先的に送信することによって、通信におけるユーザが感じる遅延感を減少させることができる。
以下、じゃんけん以外の他のシーンへの適用例について説明するが、これらシーンに限定されることはない。

例えば、テレビ会議をしているシーンの場合は、話始めそうな人の口の動きや声が重要となってくるため、優先データとして、センシングデータから、話を始めそうな人の口の部分の映像データ、人の声のデータが抽出される。

このようなデータが優先的に送信相手の情報処理装置に送信されることで、テレビ会議で、異なる地点それぞれにいるユーザの話し始めが衝突してしまうのを防止することができる。これにより、複数の異なる地点間でより円滑なコミュニケーションが可能となり、また、ユーザに与える通信の遅延感を減少させることができる。

また、他の例として、Ａ地点にいる人が、Ｂ地点にいる人の声による指示を聞きながら、Ｂ地点にある物体を例えばロボットハンドによって移動操作をする等の遠隔操作のシーンの場合にも、本技術を適用することができる。

このような遠隔操作のシーンの場合、「ストップ」などの声による指示（指示の声のデータ）、移動操作対象物体へ近づいてくる物体であるロボットハンドの映像データが、優先データとして抽出される。

Ａ地点にいる人が、Ｂ地点にいる人の指示を聞きながら、Ｂ地点にある物体の移動操作をする例では、Ｂ地点が送信地点である場合、取得されたＢ地点の音データから、Ｂ地点にいる人が発する指示の声のデータが抽出される。更に、取得されたＢ地点の映像データから、ロボットハンドの部分の映像データが抽出される。
これら抽出された指示の声のデータ及びロボットハンドの部分の映像データ（画素値）は、優先データとして、受信側となるＡ地点の情報処理装置に優先的に送信される。

また、遠隔操作の他のシーン例として、Ａ地点にいる人が、Ｂ地点にいる人の指示を聞きながら、Ａ地点にある物体の移動操作を、ロボットハンドを用いて行う例では、Ｂ地点が送信地点であるとき、Ｂ地点で取得される音データから、Ｂ地点にいる人が発する指示の声のデータが抽出される。この指示の声のデータは、優先データとして、受信地点となるＡ地点の情報処理装置に優先的に送信される。
一方、Ａ地点が送信地点であるとき、Ａ地点で取得される映像データから、ロボットハンドの部分の映像データが抽出される。このロボットハンドの部分の映像データは、優先データとして、受信地点となるＢ地点の情報処理装置に優先的に送信される。

以上のように、遠隔操作のシーンにおいて重要となる指示の声のデータ、ロボットハンドの部分の映像データが優先的に通信相手の情報処理装置に送信されることにより、ユーザに与える通信の遅延感を減少させることができる、より円滑な遠隔操作を行うことができる。

また、更に他の例として、遠隔指差しのシーンの場合にも、本技術を適用することができる。
遠隔指差しのシーンとは、例えば、Ａ地点の表示部２３３ＡとＢ地点の表示部２３３ＢそれぞれにＡ地点及びＢ地点両方の映像が表示され、Ａ地点にいる人が表示部２３３Ａに表示されるＢ地点の映像に写し出される物体を指差しするシーンをいう。この場合、表示部２３３Ｂに表示されるＢ地点の映像には、Ａ地点で指差しされた箇所が指差しポイントの形態で表示される。

遠隔指差しのシーンの場合、映像上の指の動きが重要となるので、Ａ地点で取得された映像データのうち、指差しをしている指の部分の映像データ（画素値）が抽出され、優先データとして、Ｂ地点の情報処理装置に優先的に送信される。
このように指の部分の映像データが優先的に送信されることにより、送信側の指の指差し方向と受信側で表示される指差しポイントが同期され、ユーザに与える通信の遅延感を減少させることができる。

本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、上述の実施形態においては２地点間での通信を例にあげたが、３つ以上の複数の地点間での通信に適用することもできる。

また、上述の実施形態においては、取得するセンシングデータとして、音データ、映像データ、デプスデータを例にあげたが、少なくとも映像データがあればよい。シーンに応じて映像データから部分的にデータを抽出して優先的に通信相手の情報処理装置に送信することにより、ユーザに与える通信の遅延感を減少させることができる。

なお、本技術は以下のような構成もとることができる。

（１）
送信地点に関するデータを取得する取得部と、
上記送信地点に関するデータをエンコードするエンコード部と、
上記送信地点に関するデータを用いて認識した上記送信地点の状況に基づいて、上記送信地点に関するデータから、優先的に送信するデータを設定するコンテキスト認識部と、
上記コンテキスト認識部での設定に基づいて、上記優先的に送信するデータを優先データとして抽出する優先データ抽出部と、
上記エンコード部によりエンコードされたデータと、エンコードされていない上記優先データを、受信地点にある情報処理装置へ送信する通信部と
を具備する情報処理装置。

（２）
上記（１）に記載の情報処理装置であって、
上記優先データ抽出部は、上記優先データとして、上記優先的に送信するデータと、上記送信地点の状況と、上記優先的に送信するデータの再生時刻と、を抽出する
情報処理装置。

（３）
上記（１）又は（２）に記載の情報処理装置であって、
上記優先データを保存する保存部と、
上記保存部に保存された優先データを基に、優先的に送信するデータを予測する優先データ予測部と
を更に具備する情報処理装置。

（４）
上記（１）～（３）のうちいずれか１つに記載の情報処理装置であって、
上記送信地点に関するデータは、映像データを含む
情報処理装置。

（５）
上記（４）に記載の情報処理装置であって、
上記送信地点に関するデータは、音データとデプスデータの少なくとも一方を更に含む
情報処理装置。

（６）
送信地点の情報処理装置から、上記送信地点に関するデータがエンコードされたデータと、上記送信地点に関するデータから抽出されエンコードされていない優先データを受信する通信部と、
上記エンコードされたデータをデコードするデコード部と、
上記エンコードされていない優先データの再生時刻及び再生方法を決定する決定部と、
上記決定部での決定に基づいて、上記優先データの再生データを生成する再生データ生成部と、
上記デコード部でデコードされたデータと上記優先データの再生データを出力する出力部と
を具備する情報処理装置。

（７）
上記（６）に記載の情報処理装置であって、
上記決定部での決定の内容を保存する保存部と、
上記保存部に保存された決定内容を参照して、上記デコードされたデータのうち、上記優先データの再生データによって既に再生されているデータがあるか否かを確認する再生済み確認部と、
上記再生済み確認部により上記優先データの再生データが既に再生されている場合に、上記優先データの再生データと上記デコードされたデータを繋ぎ合わせるための補間データを生成する補間データ生成部と
を更に具備する情報処理装置。

（８）
送信地点にある情報処理装置が、
送信地点に関するデータを取得し、
上記送信地点に関するデータをエンコードし、
上記送信地点に関するデータを用いて認識した上記送信地点の状況に基づいて、上記送信地点に関するデータから、優先的に送信するデータを優先データとして抽出し、
上記エンコードしたデータと、エンコードしていない上記優先データを、受信地点にある情報処理装置に送信し、
上記受信地点にある情報処理装置が、
上記エンコードしたデータと、エンコードしていない上記優先データを受信し、
上記エンコードしたデータをデコードし、
エンコードしていない上記優先データの再生時刻及び再生方法を決定し、
上記決定に基づいて上記優先データの再生データを生成し、
上記デコードしたデータと上記優先データの再生データを出力する
情報処理方法。

１Ａ、１Ｂ…センシングデータ取得部（取得部）
２Ａ、２Ｂ…データエンコード部（エンコード部）
３Ａ、３Ｂ…コンテキスト認識部
４Ａ、４Ｂ…優先データ抽出部
６Ａ、６Ｂ…優先データ予測部
７Ａ、７Ｂ…通信部
９Ａ、９Ｂ…再生時刻／再生方法決定部（決定部）
１０Ａ、１０Ｂ…データデコード部（デコード部）
１１Ａ、１１Ｂ…優先データ再生保存部（保存部）
１２Ａ、１２Ｂ…再生データ生成部
１３Ａ、１３Ｂ…優先データ再生済み確認部（再生済み確認部）
１４Ａ、１４Ｂ…補間データ生成部
１５Ａ、１５Ｂ…再生データ出力部（出力部）
２０Ａ…第１の情報処理装置（送信地点にある情報処理装置、受信地点にある情報処理装置）
２０Ｂ…第２の情報処理装置（送信地点にある情報処理装置、受信地点にある情報処理装置）
５０…情報処理システム

Claims

送信地点に関するデータを取得する取得部と、
前記送信地点に関するデータをエンコードするエンコード部と、
前記送信地点に関するデータを用いて認識した前記送信地点の状況に基づいて、前記送信地点に関するデータから、優先的に送信するデータを設定するコンテキスト認識部と、
前記コンテキスト認識部での設定に基づいて、前記優先的に送信するデータを優先データとして抽出する優先データ抽出部と、
前記エンコード部によりエンコードされたデータと、エンコードされていない前記優先データを、受信地点にある情報処理装置へ送信する通信部と
を具備し、
前記優先データ抽出部は、前記優先データとして、前記優先的に送信するデータと、前記送信地点の状況と、前記優先的に送信するデータの再生時刻と、を抽出する
情報処理装置。
請求項１に記載の情報処理装置であって、
前記優先データを保存する保存部と、
前記保存部に保存された優先データを基に、優先的に送信するデータを予測する優先データ予測部と
を更に具備する情報処理装置。
請求項２に記載の情報処理装置であって、
前記送信地点に関するデータは、映像データを含む
情報処理装置。
請求項３に記載の情報処理装置であって、
前記送信地点に関するデータは、音データとデプスデータの少なくとも一方を更に含む
情報処理装置。
送信地点の情報処理装置から、前記送信地点に関するデータがエンコードされたデータと、前記送信地点に関するデータから抽出されエンコードされていない優先データを受信する通信部と、
前記エンコードされたデータをデコードするデコード部と、
前記エンコードされていない優先データの再生時刻及び再生方法を決定する決定部と、
前記決定部での決定に基づいて、前記優先データの再生データを生成する再生データ生成部と、
前記デコード部でデコードされたデータと前記優先データの再生データを出力する出力部と
を具備する情報処理装置。
請求項５に記載の情報処理装置であって、
前記決定部での決定の内容を保存する保存部と、
前記保存部に保存された決定内容を参照して、前記デコードされたデータのうち、前記優先データの再生データによって既に再生されているデータがあるか否かを確認する再生済み確認部と、
前記再生済み確認部により前記優先データの再生データが既に再生されている場合に、前記優先データの再生データと前記デコードされたデータを繋ぎ合わせるための補間データを生成する補間データ生成部と
を更に具備する情報処理装置。
送信地点にある情報処理装置が、
送信地点に関するデータを取得し、
前記送信地点に関するデータをエンコードし、
前記送信地点に関するデータを用いて認識した前記送信地点の状況に基づいて、前記送信地点に関するデータから、優先的に送信するデータを優先データとして抽出し、
前記エンコードしたデータと、エンコードしていない前記優先データを、受信地点にある情報処理装置に送信し、
前記受信地点にある情報処理装置が、
前記エンコードしたデータと、エンコードしていない前記優先データを受信し、
前記エンコードしたデータをデコードし、
エンコードしていない前記優先データの再生時刻及び再生方法を決定し、
前記決定に基づいて前記優先データの再生データを生成し、
前記デコードしたデータと前記優先データの再生データを出力する、
情報処理方法。