JP7420078B2 - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
JP7420078B2
JP7420078B2 JP2020555963A JP2020555963A JP7420078B2 JP 7420078 B2 JP7420078 B2 JP 7420078B2 JP 2020555963 A JP2020555963 A JP 2020555963A JP 2020555963 A JP2020555963 A JP 2020555963A JP 7420078 B2 JP7420078 B2 JP 7420078B2
Authority
JP
Japan
Prior art keywords
data
information processing
priority
priority data
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020555963A
Other languages
English (en)
Other versions
JPWO2020095728A1 (ja
Inventor
哲博 内田
祐介 阪井
美和 市川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2020095728A1 publication Critical patent/JPWO2020095728A1/ja
Application granted granted Critical
Publication of JP7420078B2 publication Critical patent/JP7420078B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1827Network arrangements for conference optimisation or adaptation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2425Traffic characterised by specific attributes, e.g. priority or QoS for supporting services specification, e.g. SLA
    • H04L47/2433Allocation of priorities to traffic types
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本技術は、情報処理装置及び情報処理方法に関する。
テレビ会議等、通信網を利用して異なる地点間で映像音声データを双方向に伝送し、リアルタイムで情報交換することが可能となってきている(例えば特許文献1参照)。
特許文献1には、テレビ会議の会話量や会話の盛り上がり度に基づき映像音声データの低遅延優先度を決定している。
特開2009-76952号公報
特許文献1に記載される技術では、例えばユーザ間の会話が無く、異なる地点にいる二者間の映像同期が求められるような場面において、映像音声データの遅延により適切な映像をユーザに提供することが難しい。
以上のような事情に鑑み、本技術の目的は、ユーザに与える遅延感を減少させることができる情報処理装置及び情報処理方法を提供することにある。
上記目的を達成するため、本技術の一形態に係る情報処理装置は、取得部と、エンコード部と、コンテキスト認識部と、優先データ抽出部と、通信部と、を具備する。
上記取得部は、送信地点に関するデータを取得する。
上記エンコード部は、上記送信地点に関するデータをエンコードする。
上記コンテキスト認識部は、上記送信地点に関するデータを用いて認識した上記送信地点の状況に基づいて、上記送信地点に関するデータから、優先的に送信するデータを設定する。
上記優先データ抽出部は、上記コンテキスト認識部での設定に基づいて、上記優先的に送信するデータを優先データとして抽出する。
上記通信部は、上記エンコード部によりエンコードされたデータと、エンコードされていない上記優先データを、受信地点にある情報処理装置へ送信する。
このような構成によれば、送信地点の状況に基づいて、受信地点にある情報処理装置へ優先して送信されるデータが抽出され、そのデータはエンコードされずに受信地点にある情報処理装置に送信される。これにより、優先的に送信されるデータはエンコード処理に要する時間が不要のため、エンコード処理されるデータよりも早く受信地点にある情報処理装置に送信することができる。
上記優先データ抽出部は、上記優先データとして、上記優先的に送信するデータと、上記送信地点の状況と、上記優先的に送信するデータの再生時刻と、を抽出してもよい。
上記優先データを保存する保存部と、上記保存部に保存された優先データを基に、優先的に送信するデータを予測する優先データ予測部とを更に具備してもよい。
上記送信地点に関するデータは、映像データを含んでもよい。
上記送信地点に関するデータは、音データとデプスデータの少なくとも一方を更に含んでもよい。
上記目的を達成するため、本技術の一形態に係る情報処理装置は、通信部と、デコード部と、決定部と、再生データ生成部と、出力部と、を具備する。
上記通信部は、送信地点の情報処理装置から、上記送信地点に関するデータがエンコードされたデータと、上記送信地点に関するデータから抽出されエンコードされていない優先データを受信する。
上記デコード部は、上記エンコードされたデータをデコードする。
上記決定部は、上記エンコードされていない優先データの再生時刻及び再生方法を決定する。
上記再生データ生成部は、上記決定部での決定に基づいて、上記優先データの再生データを生成する。
上記出力部は、上記デコード部でデコードされたデータと上記優先データの再生データを出力する。
このような構成によれば、エンコードされていない優先データはデコード処理が不要なため、エンコードされたデータよりも、早く再生することができる。
上記決定部での決定の内容を保存する保存部と、上記保存部に保存された決定内容を参照して、上記デコードされたデータのうち、上記優先データの再生データによって既に再生されているデータがあるか否かを確認する再生済み確認部と、上記再生済み確認部により上記優先データの再生データが既に再生されている場合に、上記優先データの再生データと上記デコードされたデータを繋ぎ合わせるための補間データを生成する補間データ生成部とを更に具備してもよい。
上記目的を達成するため、本技術の一形態に係る情報処理方法は、
送信地点にある情報処理装置が、
送信地点に関するデータを取得し、
上記送信地点に関するデータをエンコードし、
上記送信地点に関するデータを用いて認識した上記送信地点の状況に基づいて、上記送信地点に関するデータから、優先的に送信するデータを優先データとして抽出し、
上記エンコードしたデータと、エンコードしていない上記優先データを、受信地点にある情報処理装置に送信し、
上記受信地点にある情報処理装置が、
上記エンコードしたデータと、エンコードしていない上記優先データを受信し、
上記エンコードしたデータをデコードし、
エンコードしていない上記優先データの再生時刻及び再生方法を決定し、
上記決定に基づいて上記優先データの再生データを生成し、
上記デコードしたデータと上記優先データの再生データを出力する。
本技術の一実施形態に係る情報処理装置が用いられた情報処理システム及び情報処理装置の構成を示す図である。 送信地点にある情報処理装置での遅延制御に係る情報処理方法のフロー図である。 受信地点にある情報処理装置での遅延制御に係る情報処理方法のフロー図である。 本技術の一実施形態に係る情報処理方法での遅延制御の具体例を説明する図である。 比較例に係る情報処理方法での映像遅延の具体例を説明する図である。
本開示の一実施形態に係る情報処理装置及びこれを用いた情報処理システムについて説明する。情報処理システムは、互いに異なる地点に設置される2つの情報処理装置間での映像データ及び音声データを双方向に伝送する通信システムに係る。
本実施形態の情報処理システムでは、地点で情報処理装置によって取得される地点の情報に関する映像データや音データといったセンシングデータを用いて、情報処理装置が設置される地点の状況(以下、シーンと称する場合がある。)が認識される。
送信地点の情報処理装置で取得されたセンシングデータはAVコーデックを通しエンコードされて、受信地点の情報処理装置に送信される。
また、送信地点の情報処理装置では、シーンに応じて、センシングデータから、受信地点の情報処理装置に優先的に送るデータ(以下、優先データと称する場合がある。)が抽出される。抽出された優先データは、AVコーデックを通さずに、エンコードされるデータとは別送で受信地点にある情報処理装置に送信される。
受信地点にある情報処理装置では、エンコードされたデータと、エンコードされていない優先データが再生される。
このように、本実施形態の情報処理システムでは、AVコーデックを通さずに優先データが別送され再生されることにより、AVコーデック分の遅延がなくなり、優先データが速やかに再生される。これにより、受信地点の情報処理装置では、状況に応じた、遅延が減少された映像データや音声データが受信されることになり、ユーザに与える遅延感を減少させることができる。
以下、詳細に説明する。
(情報処理システムの構成)
図1は、本実施形態に係る情報処理システム50の構成を示す。
図1に示すように、情報処理システム50は、第1の情報処理システム20Aと、第2の情報処理システム20Bと、を有する。これら2つの情報処理システム20A及び20Bは、ネットワーク30を介して双方向に通信可能となっている。
本実施形態では、第1の情報処理システム20Aを用いるユーザをAさんとし、第2の情報処理システム20Bを用いるユーザをBさんとする。第1の情報処理システム20Aは、AさんのいるA地点に設置される。第2の情報処理システム20Bは、BさんのいるB地点に設置される。A地点とB地点とは異なる場所にある。A地点が送信地点のとき、B地点は受信地点となり、B地点が送信地点のとき、A地点は受信地点となる。
ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでも良い。
第1の情報処理システム20Aと第2の情報処理システム20Bとは同じ構成を有する。ここでは、第1の情報処理システム20Aを構成する各構成に付与する符号の語尾にAをつけ、第2の情報処理システム20Bを構成する各構成に不要する符号の語尾にBをつけ、両者を区別する。
以下の説明で、第1の情報処理システム20Aと第2の情報処理システム20Bとを特に分ける必要がない場合には、A、Bの記載を省略する。
情報処理システム20は、情報処理装置21と、センサ群22と、再生部23と、を有する。情報処理装置21の構成については後述する。
センサ群22は、映像用カメラ221と、集音部としてのマイク222と、デプスセンサ223と、赤外線カメラ224等の各種センサを有する。各種センサで取得されるセンシングデータには、地点に関する情報(データ)が含まれる。地点に関するデータとは、具体的には、地点にいる人やその人の周囲の映像データ、音データ、デプスデータ等である。
本実施形態では、センシングデータを用いて、地点の状況(シーン)が認識される。シーンの認識は、互いに通信する複数の地点のうち、少なくともいずれか1つの地点に関するセンシングデータを用いて認識される。
シーンの認識は、複数の地点それぞれで得られるセンシングデータを用いて行われてもよい、通信相手の情報処理装置で得られるセンシングデータと、自身(情報処理装置)が取得したセンシングデータに基づいて、二者間で行われているシーンが認識されてもよい。
映像用カメラ221は、地点の映像データを取得する。
マイク222は、地点での音、例えば人の声や環境音を集音し、音データを取得する。
デプスセンサ223は、例えば、赤外光を用いて、地点にいる人や物体のデプスセンサからの距離を示すデプスデータを取得する。デプスセンサの方式にはTOF(Time of Flight)方式、パターン照射方式、ステレオカメラ方式等の任意の方式を採用することが可能である。
赤外線カメラ224は、人や物体等の赤外線画像データを取得する。赤外線画像データにより人の骨格推定等を行うことができる。
再生部23は、映像再生機231と、音声再生機232と、表示部233と、音声出力部であるスピーカ234を有する。
映像再生機231は、後述する情報処理装置21の再生データ出力部15から出力され、入力された優先データ、予測優先データ、非優先データに基づく再生データについて、D/A変換及び増幅などの再生処理を行い、表示部233に映像を表示させる。
音声再生機232は、後述する情報処理装置21の再生データ出力部15から出力され、入力された優先データ、予測優先データ、非優先データに基づく再生データについて、D/A変換及び増幅などの再生処理を行い、スピーカ234から音声を出力させる。
優先データ、予測優先データ、非優先データについては後述する。
データの再生処理を、映像再生機231で行うか、又は、音声再生機232で行うかは、後述する情報処理装置21の再生時刻/再生方法決定部9で決定される。
表示部233は、映像再生機231で再生処理された映像を表示する。
表示部233は、液晶ディスプレイ、プラズマディスプレイ又はOELD(Organic Electro Luminescence Display)等の表示デバイスにより構成される。表示部233には、通信する相手地点の映像、自身の地点の映像、又は、通信相手地点の映像及び自身の地点の映像の両方が表示可能に構成される。
例えば、第1の情報処理システム20Aの表示部233Aには、第2の情報処理システム20Bにより取得される映像が表示され、第2の情報処理システム20Bの表示部233Bには、第1の情報処理システム20Aにより取得される映像が表示される。
スピーカ234は、音声再生機232で再生処理された音声を出力する。
第1の情報処理システム20Aのスピーカ234Aには、第2の情報処理システム20Bにより取得される音声が出力され、第2の情報処理システム20Bのスピーカ234Bには、第1の情報処理システム20Aにより取得される音声が出力される。
(情報処理装置の構成)
情報処理装置21は、センシングデータ取得部1と、データエンコード部2と、コンテキスト認識部3と、優先データ抽出部4と、短期優先データ保存部5と、優先データ予測部6と、通信部7と、優先データ分別部8と、再生時刻/再生方法決定部9と、データデコード部10と、優先データ再生保存部11と、再生データ生成部12と、優先データ再生済み確認部13と、補間データ生成部14と、再生データ出力部15と、を有する。
取得部としてのセンシングデータ取得部1は、センサ群22を構成する各種センサで取得されたセンシングデータを取得する。センシングデータには、映像データ、音データ、デプスデータ、赤外線画像データが含まれる。センシングデータは、当該センシングデータを取得した地点に関するデータである。ここでは、センシングデータとして、映像データ、音データ、デプスデータを用いる場合について説明する。
センシングデータ取得部1で取得されたセンシングデータは、データエンコード部2、コンテキスト認識部3に出力される。
また、取得されたセンシングデータは、時系列に図示しないセンシングデータ保存部に保存される。
エンコード部としてのデータエンコード部2は、センシングデータ取得部1で取得されたセンシングデータをエンコードする。センシングデータ取得部1で取得された全てのデータ(ここでは、映像データ、音データ、デプスデータ)をエンコードする。エンコードされたデータは、通信部7に出力される。エンコードされたデータは非優先データである。
データエンコード部2及び後述するデータデコード部10は、図示しないAVコーデックに備えられている。
コンテキスト認識部3は、センシングデータ取得部1で取得されたセンシングデータを基に、地点の状況(シーン)を認識する。
例えば、コンテキスト認識部3は、地点に、人が複数いるのか、人による会話が行われているのか、人は何をしているのか、地点にある物体が何であるか、物体は動いているのか静止しているのか、物体が動いている場合は何をしているのか、等を認識する。
この認識は、センシングデータがそれに対応した分析器に入力され分析されることにより行われる。
各種センシングデータのうち音データは、分析器によって、音声認識により人の声と環境音とに判別される。これにより、人の声の音データを抽出することができる。
また、音声認識では、音データに基づいて言語認識を行い、音データに含まれる言葉を単語単位で認識してキーワードが抽出される。抽出されるキーワードとしては、物体の名称等を表す名詞、「ストップ」、「行け」等の指示語、「嬉しい」、「楽しい」等の感情を表す語等がある。このように抽出されたキーワードを用いて地点の状況(シーン)を認識することができる。
音声認識の手法としては、例えば、学習用データから音声の特徴を蓄積し、その特徴と供給された音声とを比較してキーワードを抽出する手法等があり、既知の手法を用いることができる。
各種センシングデータのうち映像データは、分析器によって、画素毎に、前に取得されたフレーム画像との画素値の差分が取られる。
各種センシングデータのうちデプスデータは、分析器によって、前に取得されたデプスデータとの差分が取られ、これを基に奥行き方向、縦方向の物体の移動量が求められる。
前に取得されたフレーム画像及びデプスデータには、センシングデータ保存部に保存されたデータを用いる。
これら画素値の差分、物体の移動量から、人物、物体の移動情報を取得することができる。
このような各センシングデータの分析結果を基に、シーンが推定、認識される。
シーンの例としては、複数の異なる場所にそれぞれ設置された情報処理システム(本実施形態における第1の情報処理システム20Aと第2の情報処理システム20B)間の通信を用いて、2つの異なる場所それぞれにいる二者間(本実施形態におけるAさんとBさんの二者間)で行われる、じゃんけんをしているシーン、テレビ会議をしているシーン、遠隔操作をしているシーン、遠隔指さしをしているシーン等がある。尚、これらのシーンに限定されない。
更に、コンテキスト認識部3は、認識したシーンに基づいて、二地点間、二者間で同期すべきデータの識別フラグを設定する。二地点間、二者間で同期すべきデータとは、優先的に相手の情報処理装置(送信地点の情報処理装置)に送るべきデータであり、シーンにおいて二者間の円滑なコミュニケーションに重要な情報となるものである。この優先的に送るべきデータかどうかが識別できるように識別フラグが設定される。
優先的に通信相手の情報処理装置に送るべきデータが何であるかはシーンに応じて設定される。具体例については後述する。
同期すべきデータ(優先的に送るデータ)としては、音データの分析により判別された人の声等の音データ、映像データの分析により求められた画素値、デプスデータの分析により求められた物体の移動量等がある。
具体例については後述する。
コンテキスト認識部3で認識されたシーン名、当該シーン名に対して設定された識別フラグの情報、優先的に送るべきデータの再生時刻は、優先データ抽出部4に出力される。
優先データ抽出部4は、設定された識別フラグに基づいて、二地点間、二者間で同期すべき情報、すなわち優先的に送信するデータを抽出する。優先データ抽出部4は、優先的に送信するデータ、シーン名、識別フラグ情報及び再生時刻を併せ、互いに紐づけして、優先データとして、短期優先データ保存部5及び通信部7に出力する。
短期優先データ保存部5は、優先データ抽出部4で抽出された優先データを時系列順に短期的に保存する。
優先データ予測部6は、短期優先データ保存部5で保存された優先データを基に、将来の優先データを予測し、予測優先データを生成する。予測優先データは通信部7に出力される。
より具体的には、優先データ予測部6は、短期優先データ保存部5により保存された時系列の優先データを基に、認識されたシーン名で、映像にある人物や物体が連続的な動作をしているかを判定する。
更に、優先データ予測部6は、人物や物体が連続的な動作をしていると判定した場合、短期優先データ保存部5により保存された時系列の優先データから、人物や物体の動作を予測することが可能なフェーズか否かを判定する。
そして、予測することが可能なフェーズであると判定した場合、短期優先データ保存部5に保存された情報を基に、将来の優先データである予測優先データを予測し、生成する。
このように優先データ予測部を設けることにより、シーンに応じた重要なデータを優先的に通信相手に提示することが可能となり、二者間でのコミュニケーションをより円滑なものとすることができる。
一例として、じゃんけんのシーンでは、出し手の情報が重要となり、出し手の部分の映像データの画素値が優先データとなる。
じゃんけんにおいて、出し手が、「グー」、「チョキ」、「パー」のいずれかの形態を完全にとって出される前の手の形態変化から、出し手がどの形態をとるか、予測がつく。したがって、出し手が完全にだされる前に、短期優先データ保存部5により保存された時系列の優先データを基に、将来の優先データである予測優先データを予測し、生成することが可能となる。
予測優先データには、音データ、画素値、物体の移動量等の予測される優先的に送信するデータと、シーン名と、識別フラグと、再生時刻が含まれる。予測優先データはエンコードされずに通信相手の情報処理装置に送信される。
通信部7は、通信相手の情報処理装置とデータの送受信を行う。本実施形態では、第1の情報処理装置20A(第2の情報処理装置20B)における通信相手の情報処理装置は第2の情報処理装置20B(第1の情報処理装置20A)である。
通信部7は、自身の情報処理装置で取得したセンシングデータに基づいて得た優先データ及び非優先データを、通信相手の情報処理装置に送信する。更に、通信部7は、通信相手の情報処理装置で取得されたセンシングデータに基づいて得られた優先データ及び非優先データを、受信する。
このように、優先データは、AVコーデックを通さずにエンコードされずに通信相手の情報処理装置に送信される。これにより、AVコーデックを通してエンコードされて通信相手の情報処理装置に送信される非優先データと比べて、優先コードは、エンコードに要する時間が不要なため、AVコーデックによるエンコード分の遅延がなく、通信相手の情報処理装置に早く送信することが可能となる。
これにより、受信地点の情報処理装置に対して、遅延が減少された映像データや音声データを送信することができ、二者間の円滑なコミュニケーションが可能となる。
優先データ分別部8は、通信部7で受信した通信相手の情報処理装置からのデータを、優先データ又は予測優先データと、非優先データとに分別する。優先データ及び予測優先データは、エンコードされていないデータである。非優先データはエンコードされているデータである。
優先データ分別部8は、非優先データをデータデコード部10に出力する。
優先データ分別部8は、優先データ及び予測優先データを再生時刻/再生方法決定部9に出力する。
決定部としての再生時刻/再生方法決定部9は、優先データ分別部8にて分別された優先データ(予測優先データ)の再生時刻と、どの再生機で優先データ(予測優先データ)である映像データ(予測映像データ)や音データ(予測音データ)を再生するかを決定する。決定内容は、優先データ再生保存部11に保存される。また、決定内容は、再生データ生成部12に出力される。
デコード部としてのデータデコード部10は、優先データ分別部8にて分別された非優先データをデコードする。デコードされた非優先データは優先データ再生済み確認部13に出力される。
保存部としての優先データ再生保存部11は、再生時刻/再生方法決定部9による決定内容として、優先データの内容と、優先データを用いた再生を行う再生時刻と、再生に用いる再生機の情報を保存する。
再生データ生成部12は、再生時刻/再生方法決定部9での決定内容に基づいて、優先データ、予測優先データの再生データを生成する。生成された再生データは再生データ出力部15に出力される。
再生済み確認部としての優先データ再生済み確認部13は、データデコード部10でデコードされたデータを再生する前に、優先データ再生保存部11に保存された決定内容を参照して、通信相手の情報処理装置から受信した非優先データをデコードしたデータのうち、優先データを用いた再生で既に再生済みされたものがあるかを確認する。
優先データ再生済み確認部13は、まだ再生されていないデコードされた非優先データを再生データ出力部15に出力する。また、優先データ再生済み確認部13は、確認結果を補間データ生成部14に出力する。
補間データ生成部14は、優先データを用いて既に再生されたと確認された優先データとデコードされた非優先データとの間を補間して繋ぎ合わせるための補間データを生成する。生成された補間データは、再生データ出力部15に出力される。
このように補間データ生成部14が設けられることにより、映像に写し出される人等の動きの流れに違和感が少ない映像を表示させることができ、また出力される人の声の流れに違和感が少ない音声を出力させることができる。
出力部としての再生データ出力部15は、再生データ生成部12からの再生データの入力、優先データ再生済み確認部13からのデコードされたデータの入力、補間データ生成部14からの補間データの入力をうけて、再生データを再生部23に出力する。
受信地点にある情報処理装置21においては、優先データはエンコードされていないためAVコーデックを通してデコードする必要がないため、AVコーデックによるデコード分の遅延がなく、非優先データよりも早く再生することができる。
これにより、送信地点にある情報処理装置21から送信されたデータの再生が、遅延が減少されて行なわれ得るので、二者間のより円滑なコミュニケーションが可能となる。
(情報処理方法)
次に、上述の情報処理システム50が実行する情報処理方法について、送信側と受信側に分け、図2、図3を用いて説明する。
尚、ここでは、便宜的に、地点Aを送信地点とし、地点Bを受信地点として説明するが、当然のことながら、地点Aが受信地点、地点Bが送信地点であってもよく、このような場合においても同様の処理が行われる。以下、必要に応じ、図1に図示される構成を用いて説明する。
[送信地点にある情報処理システムでの動作フロー]
図2は、送信側の情報処理システム(ここでは、第1の情報処理システム20A)での遅延制御に係る情報処理方法のフロー図である。以下、図2に従って、送信側の情報処理システムにおける情報処理方法について説明する。
図2に示すように、第1の情報処理装置21Aのセンシングデータ取得部1Aにより、地点Aに関するデータとして、センサ群22Aの各種センサで取得されたセンシングデータが取得される(S1)。本実施形態では、センシングデータには、音データ、映像データ、デプスデータが含まれる。
データエンコード部2Aにより、センシングデータ取得部1Aで取得されたセンシングデータ(音データ、映像データ、デプスデータ)は、センシングデータ取得時刻の同期をとったうえで、汎用コーデック処理されエンコードされる(S2)。
コーデック処理では、音データ、映像データ、デプスデータに対して、処理時間の短いコーデック処理を施す。例えば、音データ及び映像データに対して、リアルタイム通信向けで処理時間の短いVP9によるエンコードを施す。
エンコードデータ、すなわち非優先データは、通信部7Aを介して、第2の情報処理装置21Bに送信される(S12)。
コンテキスト認識部3Aにより、取得された音データの音声認識が行われる(S3)。音声認識では、人の音声と環境音とが判別される。
コンテキスト認識部3Aにより、取得された映像データを用いて、画素値が求められ、更に、画素毎に前フレームとの画素値の差分が計算される(S4)。
コンテキスト認識部3Aにより、取得されたデプスデータを用いて、前フレームのデプス情報との差分が取られ、奥行き方向、縦方向の物体の移動量が求められる(S5)。
これら画素値の差分結果、物体の移動量から、人物や物体の動き情報を取得することができる。
コンテキスト認識部3Aにより、音声認識結果、画素値の差分結果、物体の移動量結果に基づいて、シーンが認識される(S6)。
次に、コンテキスト認識部3Aにより、認識されたシーンに基づき、優先的に送信されるデータが識別可能にデータに対して識別フラグが設定される(S7)。
次に、優先データ抽出部4Aにより、設定された識別フラグに基づいて、音データ、画素値、物体の移動量等から、優先的に第2の情報処理装置21Bに送信されるデータが抽出される。抽出されたデータは、シーン名、識別フラグ情報、再生時刻と併せて優先データとして抽出される(S8)。
次に、抽出された優先データは、短期優先データ保存部5Aに書き込まれ保存される(S9)。
次に、優先データ予測部6により、短期優先データ保存部5により保存された時系列の優先データを基に、認識されたシーン名で、人物や物体が連続的な動作をしていて、かつ、短期優先データ保存部5により保存された時系列の優先データから、人物や物体の動作を予測することが可能なフェーズであるかが判定される(S10)。
S10でNoと判定されるとS12に進む。優先データは、通信部7Aを介して、第2の情報処理装置21Bに送信される(S12)。
S10で、人物や物体が連続的な動作をしていて、かつ、人物や物体の動作を予測することが可能なフェーズであると判定されると(Yes)、S11に進む。
S11では、短期優先データ保存部5に保存された情報を基に予測優先データが生成される。生成された予測優先データと、優先データは、通信部7Aを介して、第2の情報処理装置21Bに送信される(S12)。
[受信地点にある情報処理システムでの動作フロー]
図3は、受信側の情報処理システム(ここでは、第2の情報処理システム20B)での遅延制御に係る情報処理方法のフロー図である。以下、図3に従って、受信側の情報処理システムにおける情報処理方法について説明する。
図3に示すように、第2の情報処理装置21Bの通信部7Bにより、ネットワーク30を介して、第1の情報処理装置21Aから優先データ、非優先データ、予測優先データが受信される(S31)。
次に、優先データ分別部8Bにより、受信したデータが、優先データ又は予測優先データであるか否かが判定される(S32)。
S32で、優先データ又は予測優先データでない、すなわち、非優先データであると判定されると(No)、S33に進む。
S32で、優先データ又は予測優先データであると判定されると(Yes)、S38に進む。
S38では、再生時刻/再生方法決定部9により、再生する優先データ又は予測優先データの再生時刻及び再生方法が決定される。再生方法とは、どの再生機を用いて再生するかを示す。
再生時刻及び再生方法は、優先データ再生保存部11Bに保存され、優先データ又は予測優先データの再生情報が保存される(S39)。
次に、再生データ生成部12Bにより、決定された再生方法に従って、優先データ又は予測優先データを用いて再生データが生成される(S40)。生成された再生データは再生データ出力部15Bに出力され、S36へ進む。
S33では、データデコード部10Bにより、エンコードされたデータである非優先データがデコードされる。
次に、優先データ再生済み確認部13Bにより、優先データ再生保存部11Bに保存されたデータが参照され、再生時刻がキーとされて、デコードされたデータに含まれる内容が、優先データを用いた再生で既に再生されているかが確認される(S34)。
S34で再生されていないと確認されると(No)、デコードされたデータは、再生データ出力部15Bに出力され、S36へ進む。
S34で再生されていると確認されると(Yes)、補間データ生成部14Bにより、先行して行われる優先データによる再生とデコードされたデータによる再生が旨くつながるように補間データが生成される(S35)。生成された補間データは、再生データ出力部15Bに出力され、S36へ進む。
S36では、再生データ出力部15Bにより、データの再生時刻に従ってデータのソートが行なわれたうえで、順に、決定された再生機(映像再生機231B又は音声再生機232B)にデータが出力される。優先的に別送された優先データは、決定された再生時刻に従って、デコードされている非優先データに重畳されて出力データとして出力される。
具体例として、じゃんけんのシーンの場合、デコードされている映像データの手の部分に、優先データである出し手の部分の映像データを重畳されたデータが出力される。
映像再生機231B、音声再生機232Bでは入力されたデータに基づいて再生処理が行われ(S37)、表示部233Bに映像が表示され、スピーカ234Bから音声が出力される。
じゃんけんのシーンの場合、デコードされた映像データの手の部分に、優先データである出し手の部分の映像データを重畳された映像が表示部233Bに表示される。
(遅延制御に係る情報処理方法の具体例)
次に、遅延制御に係る情報処理方法の一例として、異なる地点にいるAさんとBさんがじゃんけんをしているシーンが認識された場合について図4及び図5を用いて説明する。
「じゃんけん」は、手だけを使う遊戯である。じゃんけんは、3種類の指の出し方で三すくみを構成し、勝敗を決める手段である。「じゃんけん」は、例えば英語圏では、Rock-paper-scissorsと呼ばれている。
日本では、3種類の指の出し方として、一般的には、五本指を全て握って握り拳の形態をとる「グー」と、人差し指と中指を伸ばし、それ以外の指は握る形態をとる「チョキ」と、五本指全てを伸ばす形態をとる「パー」とがある。
「グー」は、Rock-paper-scissorsのRockに相当する。「チョキ」は、Rock-paper-scissorsのscissorsに相当する。「パー」は、Rock-paper-scissorsのpaperに相当する。
「じゃんけん」では、「グー」は「チョキ」に勝つが「パー」には負け、「チョキ」は「パー」には勝つが「グー」には負け、「パー」は「グー」には勝つが「チョキ」には負ける。
日本では、じゃんけんを行うときのかけ声として、「さいしょはグー、じゃんけんぽん」という決まり文句が用いられることが多い。ここでは、このかけ声を用いる場合を例にあげて遅延制御に係る情報処理方法について説明する。
「さいしょはグー、じゃんけんぽん」のかけ声を用いるじゃんけんでは、じゃんけんのルールとして、「さいしょはグー」の「グー」の声が発せられると同時に、じゃんけんプレーヤーは全員、「グー」の形態の手を出すことになっている。
そして、「さいしょはぐー」に続いて、「じゃんけんぽん」のかけ声が発せられ、「じゃんけんぽん」の「ぽん」の声が発せられると同時に、じゃんけんプレーヤーは全員、勝敗を決めるために、「グー」、「チョキ」、「パー」のいずれかの形態にした手をだす。
図4は、本技術の一実施形態に係る情報処理方法での遅延制御に係る情報処理方法の具体例を説明する図である。図4に示す例では、優先的に送信される、エンコードされていない優先データがある場合を示す。
図5は、比較例に係る情報処理方法での遅延制御に係る情報処理方法の具体例を説明する図である。図5に示す例は、優先的に送信される優先データがなく、通信相手の情報処理装置に対して送信されるデータがエンコードされたデータである非優先データのみである場合を示す。
図4及び図5に示す例では、Aさんがかけ声をかけ、そのかけ声にあわせてAさんとBさんは互いの動作にあわせて、グー、チョキ、パーのいずれかの形態にした手をだす、とする。
まず、図5を用いて比較例について説明する。
図5(A)~(D)は、それぞれ、撮影時のユーザ又は再生映像の経時変化を複数のコマで表したものである。図5において、「グー」の出し手を出した時の最初のコマにおける出し手を鎖線の楕円で囲んでいる。
図5(A)は、第1の情報処理システム20AでAさんを撮影している時のAさんの動作の経時変化を示す。第1の情報処理システム20Aで取得されたAさんの映像データ、音声データ及びデプスデータはエンコードされて、第2の情報処理システム20Bに送られる。
第2の情報処理システム20Bでは、第1の情報処理システム20Aから送られてきたデータがデコードされて、映像及び音声が再生される。
図5(B)は、第1の情報処理システム20Aから送られてきたデータに基づいて、第2の情報処理システム20Bの表示部233Bに表示される再生映像の経時変化を示す。この再生映像は、地点Aの映像である。
図5(A)及び(B)に示すように、伝送遅延により、第1の情報処理システム20Aで撮影される撮影時よりもやや遅延して、第2の情報処理システム20B側で映像が再生される。図に示す例では、第2の情報処理システム20Bで表示される再生映像で「グー」がだされるタイミングは、第1の情報処理システム20Aで撮影するときよりも時間的に1コマ分遅くなっている。
第2の情報処理システム20B側にいるユーザであるBさんは、この図5(B)に示されるように再生された映像をみて、じゃんけんを行うことになる。
図5(C)は、第2の情報処理システム20Bで、図5(B)に示されるように再生された映像をみてじゃんけんを行っているBさんを撮影している時のBさんの動作の経時変化を示す。
Bさんは、図5(B)に示される再生映像をみてAさんの「さいしょはグー」の「グー」のときに「グー」を出すタイミングで、図5(C)に示すように「グー」を出す。図5(A)及び図5(C)に示すように、Aさんの「グー」を出すタイミングとBさんの「グー」を出すタイミングとは、同期ずれが生じることになる。
第2の情報処理システム20Bで取得されたBさんの映像データ、音声データ及びデプスデータはエンコードされて、第1の情報処理システム20Aに送られる。
第1の情報処理システム20Aでは、第2の情報処理システム20Bから送られてきたデータがデコードされて、映像及び音声が再生される。
図5(D)は、第2の情報処理システム20Bから送られてきたデータに基づいて、第1の情報処理システム20Aの表示部233Aに表示される再生映像の経時変化を示す。
図5(C)及び(D)に示すように、伝送遅延により、第2の情報処理システム20Bで撮影される撮影時よりも遅延して、第1の情報処理システム20Aの表示部233Aで地点Bの映像が再生される。図に示す例では、地点Aの表示部233Aに再生されて表示される地点Bの様子の映像で「グー」がだされるタイミングは、第1の情報処理システム20A側で撮影したとき(図5(A)参照。)よりも時間的に3コマ分遅くなっている。
第1の情報処理システム20A側のユーザであるAさんは、この図5(D)に示される再生映像をみて、じゃんけんを行うことになる。
つまり、Aさんは、Bさんの「さいしょはグー」のかけ声の「グー」にあわせて出すグーの手の映像を表示部233Aで確認して、次のかけ声である「じゃんけんぽん」を発することになる。
これにより、図5(A)に示すように、Aさんには、「さいしょはグー」のかけ声から、次の「じゃんけんぽん」のかけ声を発するまでに、3コマ分の待ち時間が生じることになる。
これに対し、本実施形態に係る図4に示す遅延制御が実行される情報処理方法では、図4(A)に示すように、Aさんの待ち時間が1コマ分となり、待ち時間が比較例と比較して短くなっている。
以下、図4を用いて説明する。図4(A)~(D)は、それぞれ、撮影時のユーザ又は再生映像の経時変化を複数のコマで表したものである。図4において、「グー」の出し手を出した時の最初のコマにおける出し手を鎖線の楕円で囲んでいる。
ここで説明する一例では、センシングデータ取得部1で取得されたセンシングデータを基に、情報処理装置21によりユーザの状況であるシーンがじゃんけんをしているシーンであると既に認識されているものとして説明する。
情報処理装置21では、認識されたシーンに基づいて、相手の情報処理装置に優先的に送るべきデータ(優先データ)が識別できるように、データに識別フラグが設定される。じゃんけんのシーンにおいては、映像データのうち「グー」「チョキ」「パー」の形態をとる出し手の部分の映像データが、優先データとなるように識別フラグが設定される。
センシングデータである映像データ、音データ、デプスデータはエンコードされて非優先データとして送信される。
また、エンコードデータ(非優先データ)とは別に、じゃんけんのシーンでは、優先データとして、出し手の部分の映像データの画素値がエンコードされずに、通信相手の情報処理装置に送信される。すなわち、じゃんけんのシーンでは、出し手の映像情報が重要なため、出し手の映像データが優先データとなる。優先データは、遅延するとAさんとBさんとの間のじゃんけんでのコミュニケーションがうまくいかない情報に相当する。
情報処理システム50において、優先データは、エンコード及びデコードされることなく、通信相手の情報処理装置の再生データ出力部へ出力されることになるため、AVコーデックでのエンコード及びデコード分の遅延がなく、非優先データよりも早く通信相手に提示することが可能となる。
本実施形態では、じゃんけんのシーンであると認識されている場合を例にあげているので、じゃんけんプレーヤーの出し手の部分の映像データ(画素値)が優先的に別送される。そして、決定された再生時刻に従って、エンコードして送信されデコードされている映像データに、優先的に別送された出し手の部分の映像を重畳させた出力データが生成される。
図4に示す例は、本技術の効果をわかりやすくするために、Bさんの映像がAさんに送られてくるときに、本技術に係る遅延制御が実行される場合を例にあげている。
図4(A)は、第1の情報処理システム20Aで、Aさんを撮影している時のAさんの動作の経時変化を示す。第1の情報処理システム20Aで取得された映像データ、音データ、デプスデータはエンコードされ第2の情報処理システム20Bに送られる。
第2の情報処理システム20Bでは、第1の情報処理システム20Aより送られてきたデータを基に、映像及び音声が再生される。
図4(B)は、表示部233Bに表示される再生映像の経時変化を表す。
図4(A)及び(B)に示すように、伝送遅延により、第1の情報処理システム20Aで撮影される撮影時よりもやや遅延して、第2の情報処理システム20B側で映像が再生される。図に示す例では、第2の情報処理システム20B側での再生映像で「グー」がだされるタイミングは、第1の情報処理システム20Aで撮影するときよりも時間的に1コマ分遅くなっている。
第2の情報処理システム20B側にいるユーザであるBさんは、この図4(B)に示されるように再生された映像をみて、じゃんけんを行うことになる。
図4(C)は、第2の情報処理システム20Bで、図4(B)に示される再生映像をみてじゃんけんを行っているBさんを撮影している時のBさんの動作の経時変化を示す。
Bさんは、図4(B)に示される再生映像をみてAさんの「さいしょはグー」の「グー」のときに「グー」を出すタイミングで、図4(C)に示すように「グー」を出す。図4(A)及び図4(C)に示すように、Aさんの「グー」を出すタイミングとBさんの「グー」を出すタイミングとは、同期ずれが生じることになる。
第2の情報処理システム20Bで取得されたBさんの映像データ、音声データ及びデプスデータはエンコードされて、第1の情報処理システム20Aに送られる。
ここでは、既にじゃんけんのシーンであると認識されているので、出し手の部分の部分映像の画素値が優先データとなるように識別フラグが設定されている。
第2の情報処理システム20Bで、識別フラグに基づいて、映像データからBさんの出し手の部分の部分映像データ(画素値)が優先データとして抽出される。抽出された優先データはエンコードされずに優先データとして優先的に第1の情報処理システム20Aに送られる。
また、優先データ予測部6Bにより予測された予測優先データがある場合、この予測優先データも、エンコードされずに優先的に第1の情報処理システム20Aに送られる。ここでは、予測優先データは、予測される出し手の部分の部分映像データ(画素値)である。
第1の情報処理システム20Aでは、第2の情報処理システム20Bより送られてきた優先データ又は予測優先データである出し手の映像データ(画素値)の再生時刻及び再生方法が決定され、これに基づいて優先データである出し手の映像データの再生データが生成される。
また、予測優先データがある場合においても、送られてきた予測優先データである予測される出し手の映像データの再生時刻及び再生方法が決定され、これに基づいて予測優先データである予測される出し手の映像データの再生データが生成される。
また、第1の情報処理システム20Aでは、第2の情報処理システム20Bより送られてきた非優先データであるエンコードされたデータはデコードされる。
デコードされたデータのうち、既に優先データ又は予測優先データを用いた再生が行われているデータがある場合、先行して行われた優先データ又は予測優先データによる再生とデコードされたデータによる再生が旨くつながるように補間データが生成される。
デコードされたデータ、生成された再生データ及び補間データは、データの再生時刻に従ってデータのソートが行われた上で、映像再生機231A、音声再生機232Aに出力され、再生される。これにより、図4(D)に示すように表示部233Aに再生映像が表示される。
図4(D)は、表示部233Aに表示されるB地点の再生映像を示す。
図4(D)に示すように、破線の楕円で囲まれている出し手の「グー」は、優先データとして優先的に送られてきた出し手の映像データ(画素値)に基づくものであり、出し手以外の映像部分は、非優先データに基づく映像となっている。このように、優先的に送られた優先データに基づく出し手の映像は、先に送られている非優先データに基づく映像に重畳されて表示される。
これにより、じゃんけんというシーンに重要な出し手の映像は、遅延が抑制されて通信相手の情報処理装置で再生されることになる。
第1の情報処理システム20A側のユーザであるAさんは、この図4(D)に示される再生映像をみて、じゃんけんを行うことになる。つまり、Aさんは、「さいしょはグー」の「グー」にあわせてBさんが出すグーの手の映像を表示部233Aで確認して、次のかけ声である「じゃんけんぽん」を発することになる。
これにより、図4(A)に示すように、Aさんにおける、「さいしょはグー」のかけ声から、次の「じゃんけんぽん」のかけ声を発するまでの待ち時間は、1コマ分となる。つまり、図5を用いて説明した比較例と比べて、AさんのBさんからの情報待ち時間が短縮される。
このように待ち時間が短縮されることにより、単位時間当たりの効率が向上する。また、待ち時間が短縮されることにより、ユーザが感じる遅延感が減少し、AさんとBさんとのコミュニケーションをより自然に、より円滑なものとすることができる。
以上のように、本技術においては、場所の離れた複数の地点間での通信において、シーンに応じた重要なデータが抽出されて優先的に通信相手の情報処理装置に送信されるので、通信相手に、重要な情報を、遅延を抑制して、提示することができる。
これにより、例えば、通信インフラが整備されていない地域や国土の広い国での通信、他国間での通信等、伝送遅延の大きくなりやすい通信状況においても、通信相手に、シーンに応じた重要な情報をより早く提示することができ、ユーザに与える通信の遅延感を減少させることができる。
また、本技術は、センサによって取得した情報等を自動でサーバへ送信するようなIoT(Internet of Things)端末を用い、IoT端末と物理的に近い位置に設けられた複数のサーバ(エッジサーバ)でデータ分散処理を行うエッジングコンピューティングにも適用することができる。
(遅延制御に係る情報処理方法の他のシーンでの適用例)
上述の実施形態においては、じゃんけんのシーンを例にあげて説明したが、これに限定されない。認識されるシーンに応じて、通信相手の情報処理システムに優先的に送信するデータの内容を異ならせ、シーンに応じた重要な情報を優先的に送信することによって、通信におけるユーザが感じる遅延感を減少させることができる。
以下、じゃんけん以外の他のシーンへの適用例について説明するが、これらシーンに限定されることはない。
例えば、テレビ会議をしているシーンの場合は、話始めそうな人の口の動きや声が重要となってくるため、優先データとして、センシングデータから、話を始めそうな人の口の部分の映像データ、人の声のデータが抽出される。
このようなデータが優先的に送信相手の情報処理装置に送信されることで、テレビ会議で、異なる地点それぞれにいるユーザの話し始めが衝突してしまうのを防止することができる。これにより、複数の異なる地点間でより円滑なコミュニケーションが可能となり、また、ユーザに与える通信の遅延感を減少させることができる。
また、他の例として、A地点にいる人が、B地点にいる人の声による指示を聞きながら、B地点にある物体を例えばロボットハンドによって移動操作をする等の遠隔操作のシーンの場合にも、本技術を適用することができる。
このような遠隔操作のシーンの場合、「ストップ」などの声による指示(指示の声のデータ)、移動操作対象物体へ近づいてくる物体であるロボットハンドの映像データが、優先データとして抽出される。
A地点にいる人が、B地点にいる人の指示を聞きながら、B地点にある物体の移動操作をする例では、B地点が送信地点である場合、取得されたB地点の音データから、B地点にいる人が発する指示の声のデータが抽出される。更に、取得されたB地点の映像データから、ロボットハンドの部分の映像データが抽出される。
これら抽出された指示の声のデータ及びロボットハンドの部分の映像データ(画素値)は、優先データとして、受信側となるA地点の情報処理装置に優先的に送信される。
また、遠隔操作の他のシーン例として、A地点にいる人が、B地点にいる人の指示を聞きながら、A地点にある物体の移動操作を、ロボットハンドを用いて行う例では、B地点が送信地点であるとき、B地点で取得される音データから、B地点にいる人が発する指示の声のデータが抽出される。この指示の声のデータは、優先データとして、受信地点となるA地点の情報処理装置に優先的に送信される。
一方、A地点が送信地点であるとき、A地点で取得される映像データから、ロボットハンドの部分の映像データが抽出される。このロボットハンドの部分の映像データは、優先データとして、受信地点となるB地点の情報処理装置に優先的に送信される。
以上のように、遠隔操作のシーンにおいて重要となる指示の声のデータ、ロボットハンドの部分の映像データが優先的に通信相手の情報処理装置に送信されることにより、ユーザに与える通信の遅延感を減少させることができる、より円滑な遠隔操作を行うことができる。
また、更に他の例として、遠隔指差しのシーンの場合にも、本技術を適用することができる。
遠隔指差しのシーンとは、例えば、A地点の表示部233AとB地点の表示部233BそれぞれにA地点及びB地点両方の映像が表示され、A地点にいる人が表示部233Aに表示されるB地点の映像に写し出される物体を指差しするシーンをいう。この場合、表示部233Bに表示されるB地点の映像には、A地点で指差しされた箇所が指差しポイントの形態で表示される。
遠隔指差しのシーンの場合、映像上の指の動きが重要となるので、A地点で取得された映像データのうち、指差しをしている指の部分の映像データ(画素値)が抽出され、優先データとして、B地点の情報処理装置に優先的に送信される。
このように指の部分の映像データが優先的に送信されることにより、送信側の指の指差し方向と受信側で表示される指差しポイントが同期され、ユーザに与える通信の遅延感を減少させることができる。
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、上述の実施形態においては2地点間での通信を例にあげたが、3つ以上の複数の地点間での通信に適用することもできる。
また、上述の実施形態においては、取得するセンシングデータとして、音データ、映像データ、デプスデータを例にあげたが、少なくとも映像データがあればよい。シーンに応じて映像データから部分的にデータを抽出して優先的に通信相手の情報処理装置に送信することにより、ユーザに与える通信の遅延感を減少させることができる。
なお、本技術は以下のような構成もとることができる。
(1)
送信地点に関するデータを取得する取得部と、
上記送信地点に関するデータをエンコードするエンコード部と、
上記送信地点に関するデータを用いて認識した上記送信地点の状況に基づいて、上記送信地点に関するデータから、優先的に送信するデータを設定するコンテキスト認識部と、
上記コンテキスト認識部での設定に基づいて、上記優先的に送信するデータを優先データとして抽出する優先データ抽出部と、
上記エンコード部によりエンコードされたデータと、エンコードされていない上記優先データを、受信地点にある情報処理装置へ送信する通信部と
を具備する情報処理装置。
(2)
上記(1)に記載の情報処理装置であって、
上記優先データ抽出部は、上記優先データとして、上記優先的に送信するデータと、上記送信地点の状況と、上記優先的に送信するデータの再生時刻と、を抽出する
情報処理装置。
(3)
上記(1)又は(2)に記載の情報処理装置であって、
上記優先データを保存する保存部と、
上記保存部に保存された優先データを基に、優先的に送信するデータを予測する優先データ予測部と
を更に具備する情報処理装置。
(4)
上記(1)~(3)のうちいずれか1つに記載の情報処理装置であって、
上記送信地点に関するデータは、映像データを含む
情報処理装置。
(5)
上記(4)に記載の情報処理装置であって、
上記送信地点に関するデータは、音データとデプスデータの少なくとも一方を更に含む
情報処理装置。
(6)
送信地点の情報処理装置から、上記送信地点に関するデータがエンコードされたデータと、上記送信地点に関するデータから抽出されエンコードされていない優先データを受信する通信部と、
上記エンコードされたデータをデコードするデコード部と、
上記エンコードされていない優先データの再生時刻及び再生方法を決定する決定部と、
上記決定部での決定に基づいて、上記優先データの再生データを生成する再生データ生成部と、
上記デコード部でデコードされたデータと上記優先データの再生データを出力する出力部と
を具備する情報処理装置。
(7)
上記(6)に記載の情報処理装置であって、
上記決定部での決定の内容を保存する保存部と、
上記保存部に保存された決定内容を参照して、上記デコードされたデータのうち、上記優先データの再生データによって既に再生されているデータがあるか否かを確認する再生済み確認部と、
上記再生済み確認部により上記優先データの再生データが既に再生されている場合に、上記優先データの再生データと上記デコードされたデータを繋ぎ合わせるための補間データを生成する補間データ生成部と
を更に具備する情報処理装置。
(8)
送信地点にある情報処理装置が、
送信地点に関するデータを取得し、
上記送信地点に関するデータをエンコードし、
上記送信地点に関するデータを用いて認識した上記送信地点の状況に基づいて、上記送信地点に関するデータから、優先的に送信するデータを優先データとして抽出し、
上記エンコードしたデータと、エンコードしていない上記優先データを、受信地点にある情報処理装置に送信し、
上記受信地点にある情報処理装置が、
上記エンコードしたデータと、エンコードしていない上記優先データを受信し、
上記エンコードしたデータをデコードし、
エンコードしていない上記優先データの再生時刻及び再生方法を決定し、
上記決定に基づいて上記優先データの再生データを生成し、
上記デコードしたデータと上記優先データの再生データを出力する
情報処理方法。
1A、1B…センシングデータ取得部(取得部)
2A、2B…データエンコード部(エンコード部)
3A、3B…コンテキスト認識部
4A、4B…優先データ抽出部
6A、6B…優先データ予測部
7A、7B…通信部
9A、9B…再生時刻/再生方法決定部(決定部)
10A、10B…データデコード部(デコード部)
11A、11B…優先データ再生保存部(保存部)
12A、12B…再生データ生成部
13A、13B…優先データ再生済み確認部(再生済み確認部)
14A、14B…補間データ生成部
15A、15B…再生データ出力部(出力部)
20A…第1の情報処理装置(送信地点にある情報処理装置、受信地点にある情報処理装置)
20B…第2の情報処理装置(送信地点にある情報処理装置、受信地点にある情報処理装置)
50…情報処理システム

Claims (7)

  1. 送信地点に関するデータを取得する取得部と、
    前記送信地点に関するデータをエンコードするエンコード部と、
    前記送信地点に関するデータを用いて認識した前記送信地点の状況に基づいて、前記送信地点に関するデータから、優先的に送信するデータを設定するコンテキスト認識部と、
    前記コンテキスト認識部での設定に基づいて、前記優先的に送信するデータを優先データとして抽出する優先データ抽出部と、
    前記エンコード部によりエンコードされたデータと、エンコードされていない前記優先データを、受信地点にある情報処理装置へ送信する通信部と
    を具備し、
    前記優先データ抽出部は、前記優先データとして、前記優先的に送信するデータと、前記送信地点の状況と、前記優先的に送信するデータの再生時刻と、を抽出する
    情報処理装置。
  2. 請求項に記載の情報処理装置であって、
    前記優先データを保存する保存部と、
    前記保存部に保存された優先データを基に、優先的に送信するデータを予測する優先データ予測部と
    を更に具備する情報処理装置。
  3. 請求項に記載の情報処理装置であって、
    前記送信地点に関するデータは、映像データを含む
    情報処理装置。
  4. 請求項に記載の情報処理装置であって、
    前記送信地点に関するデータは、音データとデプスデータの少なくとも一方を更に含む
    情報処理装置。
  5. 送信地点の情報処理装置から、前記送信地点に関するデータがエンコードされたデータと、前記送信地点に関するデータから抽出されエンコードされていない優先データを受信する通信部と、
    前記エンコードされたデータをデコードするデコード部と、
    前記エンコードされていない優先データの再生時刻及び再生方法を決定する決定部と、
    前記決定部での決定に基づいて、前記優先データの再生データを生成する再生データ生成部と、
    前記デコード部でデコードされたデータと前記優先データの再生データを出力する出力部と
    を具備する情報処理装置。
  6. 請求項に記載の情報処理装置であって、
    前記決定部での決定の内容を保存する保存部と、
    前記保存部に保存された決定内容を参照して、前記デコードされたデータのうち、前記優先データの再生データによって既に再生されているデータがあるか否かを確認する再生済み確認部と、
    前記再生済み確認部により前記優先データの再生データが既に再生されている場合に、前記優先データの再生データと前記デコードされたデータを繋ぎ合わせるための補間データを生成する補間データ生成部と
    を更に具備する情報処理装置。
  7. 送信地点にある情報処理装置が、
    送信地点に関するデータを取得し、
    前記送信地点に関するデータをエンコードし、
    前記送信地点に関するデータを用いて認識した前記送信地点の状況に基づいて、前記送信地点に関するデータから、優先的に送信するデータを優先データとして抽出し、
    前記エンコードしたデータと、エンコードしていない前記優先データを、受信地点にある情報処理装置に送信し、
    前記受信地点にある情報処理装置が、
    前記エンコードしたデータと、エンコードしていない前記優先データを受信し、
    前記エンコードしたデータをデコードし、
    エンコードしていない前記優先データの再生時刻及び再生方法を決定し、
    前記決定に基づいて前記優先データの再生データを生成し、
    前記デコードしたデータと前記優先データの再生データを出力する、
    情報処理方法。
JP2020555963A 2018-11-06 2019-10-25 情報処理装置及び情報処理方法 Active JP7420078B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018208707 2018-11-06
JP2018208707 2018-11-06
PCT/JP2019/041998 WO2020095728A1 (ja) 2018-11-06 2019-10-25 情報処理装置及び情報処理方法

Publications (2)

Publication Number Publication Date
JPWO2020095728A1 JPWO2020095728A1 (ja) 2021-09-24
JP7420078B2 true JP7420078B2 (ja) 2024-01-23

Family

ID=70612415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020555963A Active JP7420078B2 (ja) 2018-11-06 2019-10-25 情報処理装置及び情報処理方法

Country Status (5)

Country Link
US (1) US11641448B2 (ja)
EP (1) EP3879819A4 (ja)
JP (1) JP7420078B2 (ja)
CN (1) CN113330735A (ja)
WO (1) WO2020095728A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004343328A (ja) 2003-05-14 2004-12-02 Olympus Corp 通信機能付きカメラ
JP2008067350A (ja) 2006-09-06 2008-03-21 Hitachi Ltd 無線通信方法及び無線通信システム
JP2009076952A (ja) 2006-01-12 2009-04-09 Panasonic Corp Tv会議装置およびtv会議方法
JP2013031191A (ja) 2005-08-19 2013-02-07 Qualcomm Inc ビデオテレフォニーのためのピクチャーインピクチャー処理

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4153995B2 (ja) * 1996-08-07 2008-09-24 松下電器産業株式会社 画像復号化符号化装置、画像符号化装置及び画像復号化装置
US7319667B1 (en) * 2000-11-15 2008-01-15 Cisco Technology, Inc. Communication system with priority data compression
JP4298262B2 (ja) * 2001-10-29 2009-07-15 パナソニック株式会社 映像音声同期装置
CN101171841B (zh) * 2005-03-09 2012-06-27 高通股份有限公司 用于视频电话的关注区提取
EP2031805A1 (en) * 2007-09-03 2009-03-04 Siemens Aktiengesellschaft Packet-type based resilience using network coding
US20100329355A1 (en) * 2009-06-30 2010-12-30 Nxp B.V System and method for configurable packet streaming
JP5527603B2 (ja) * 2010-06-24 2014-06-18 ソニー株式会社 情報処理装置および情報処理方法
US8863222B2 (en) * 2011-05-23 2014-10-14 Broadcom Corporation Multiplexing, synchronizing, and assembling multiple audio/video (A/V) streams in a media gateway
US9049464B2 (en) 2011-06-07 2015-06-02 Qualcomm Incorporated Multiple description coding with plural combined diversity
JP6171263B2 (ja) * 2012-03-19 2017-08-02 株式会社リコー 遠隔会議システム及び遠隔会議端末
US9179155B1 (en) * 2012-06-14 2015-11-03 Google Inc. Skipped macroblock video encoding enhancements
CN103929640B (zh) * 2013-01-15 2018-03-06 英特尔公司 用于管理视频流播的技术
US9413797B2 (en) * 2013-04-23 2016-08-09 Gurulogic Microsystems Oy Data communication system and method
US9774650B2 (en) * 2014-09-23 2017-09-26 Cisco Technology, Inc. Frame priority system
CA2874715C (en) * 2014-12-15 2022-03-15 Ibm Canada Limited - Ibm Canada Limitee Dynamic video and sound adjustment in a video conference
JP2017059902A (ja) * 2015-09-14 2017-03-23 株式会社リコー 情報処理装置、プログラム、画像処理システム
US10075672B2 (en) * 2016-12-20 2018-09-11 Facebook, Inc. Optimizing video conferencing using contextual information
US11025918B2 (en) * 2016-12-29 2021-06-01 Sony Interactive Entertainment Inc. Foveated video link for VR, low latency wireless HMD video streaming with gaze tracking

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004343328A (ja) 2003-05-14 2004-12-02 Olympus Corp 通信機能付きカメラ
JP2013031191A (ja) 2005-08-19 2013-02-07 Qualcomm Inc ビデオテレフォニーのためのピクチャーインピクチャー処理
JP2009076952A (ja) 2006-01-12 2009-04-09 Panasonic Corp Tv会議装置およびtv会議方法
JP2008067350A (ja) 2006-09-06 2008-03-21 Hitachi Ltd 無線通信方法及び無線通信システム

Also Published As

Publication number Publication date
EP3879819A1 (en) 2021-09-15
WO2020095728A1 (ja) 2020-05-14
CN113330735A (zh) 2021-08-31
EP3879819A4 (en) 2022-01-05
JPWO2020095728A1 (ja) 2021-09-24
US20210399913A1 (en) 2021-12-23
US11641448B2 (en) 2023-05-02

Similar Documents

Publication Publication Date Title
CN107423809B (zh) 应用于视频直播平台的虚拟机器人多模态交互方法和***
EP3120259B1 (en) In-call translation
US11495231B2 (en) Lip language recognition method and mobile terminal using sound and silent modes
TWI554317B (zh) 對於視訊遊戲玩家及旁觀者之管理音訊及視訊通道之系統及方法
US9462230B1 (en) Catch-up video buffering
TW201608395A (zh) 呼叫中的翻譯
JP6227459B2 (ja) 遠隔操作方法ならびにシステムならびにそのユーザ端末および視聴端末
WO2022089224A1 (zh) 一种视频通信方法、装置、电子设备、计算机可读存储介质及计算机程序产品
US11671562B2 (en) Method for enabling synthetic autopilot video functions and for publishing a synthetic video feed as a virtual camera during a video call
JP2003037826A (ja) 代理画像表示装置およびテレビ電話装置
WO2011027475A1 (ja) テレビ会議装置
JP2011061450A (ja) 会議通信システム、会議通信方法及びプログラム
KR20170135598A (ko) 특정인의 합성된 가상 음성을 이용한 음성 대화 시스템 및 방법
JP2011055483A (ja) 番組画像配信システム、番組画像配信方法及びプログラム
KR20230133864A (ko) 스피치 오디오 스트림 중단들을 처리하는 시스템들및 방법들
JP7420078B2 (ja) 情報処理装置及び情報処理方法
US20230353707A1 (en) Method for enabling synthetic autopilot video functions and for publishing a synthetic video feed as a virtual camera during a video call
JP5143114B2 (ja) 発話の予備動作検出及び伝達方法及び装置及びプログラム
US11627283B2 (en) Method for enabling synthetic autopilot video functions and for publishing a synthetic video feed as a virtual camera during a video call
KR20230102753A (ko) 아바타를 통해 영상의 음성을 수어로 통역하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
JP2009112027A (ja) テレビ電話端末
JP2001357414A (ja) アニメーション通信方法およびシステム並びにそれに用いる端末装置
JP6182464B2 (ja) 画像表示システム及び画像表示方法
JP2021086474A (ja) アバター制御システム
KR20010017865A (ko) 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220901

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20220901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231225

R151 Written notification of patent or utility model registration

Ref document number: 7420078

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151