JP2017507557A - 高解像度の動画ストリームを自身の端末で視聴するユーザの体感品質を向上するためのプロセス - Google Patents

高解像度の動画ストリームを自身の端末で視聴するユーザの体感品質を向上するためのプロセス Download PDF

Info

Publication number
JP2017507557A
JP2017507557A JP2016546455A JP2016546455A JP2017507557A JP 2017507557 A JP2017507557 A JP 2017507557A JP 2016546455 A JP2016546455 A JP 2016546455A JP 2016546455 A JP2016546455 A JP 2016546455A JP 2017507557 A JP2017507557 A JP 2017507557A
Authority
JP
Japan
Prior art keywords
user
interest
video stream
video
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016546455A
Other languages
English (en)
Inventor
マリリー,エマニュエル
ゴンゲ,アルノー
ティトガット,ドニー
Original Assignee
アルカテル−ルーセント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント filed Critical アルカテル−ルーセント
Publication of JP2017507557A publication Critical patent/JP2017507557A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234345Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/252Processing of multiple end-users' preferences to derive collaborative data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25808Management of client data
    • H04N21/25825Management of client data involving client display capabilities, e.g. screen resolution of a mobile phone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8146Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

少なくとも1つの動画撮影装置(3)によって撮影され、ネットワーク内でユーザが自身の端末(1)を通じて接続されているサーバ(4)によって提供される高解像度動画ストリーム(2、I、V)を自身の端末(1)で視聴する前記ユーザの体感品質を向上するためのプロセスである。このプロセスは次のステップを備える:− 前記動画ストリームの視聴者全体のうち1つのサンプルの各ユーザについて、少なくとも前記動画ストリーム上の前記ユーザの凝視位置に関する情報を収集するステップと、− 前記動画ストリームの主要な関心のある領域(R1、R2、R3、R4)を前記関心のある領域に置かれたユーザの凝視の数に従って識別するために、前記収集された情報をすべて集計し、前記集計された情報を分析するステップと、− 前記ユーザのいくつかの端末1に表示するために、前記動画ストリームの少なくとも1つの関心のある領域(R1、R2、R3)を選択するステップ。

Description

本発明は、少なくとも1つの動画撮影デバイスによって撮影された高解像度の動画ストリームを自身の端末で視聴するユーザのために体感品質を向上するためのプロセスと、そのようなプロセスを実装するための手段を備えるエンジン、サーバ、およびアーキテクチャに関する。
ますます高度化する動画撮影デバイスを搭載するモバイル端末、例えば超高解像度(HD)カメラデバイスを備えたSamsungソサエティのGalaxy Note 3タブレットなどの市場への到来に伴い、近い将来には、低コストなライブの超HD動画ストリームの作品が利用可能になるであろう。
現在、ビデオ会議や娯楽などの分野には、ライブHD動画ストリームを使用したいくつかのソリューションがすでに存在する。ビデオ会議の分野ではHP(Halo Telepresence用)およびCisco(Cisco Telepresence用)のソサエティがうまく実装されており、娯楽の分野ではフットボールの試合のライブ表示のソリューションがある。
しかし、ライブ超HD動画ストリームの現在のソリューションでは、良好な体感品質は保証されない。実際、そのような動画ストリームは概して非常に巨大であり、多くの既存のネットワークおよび/または端末の能力に適応されておらず、詳細には、それらのネットワークおよび/または端末の能力はそのストリームの大きなサイズおよび/または高い分解能をサポートすることができない。
さらに、そのような超HD動画ストリームの利用または使用は、前記ストリームのリッチさに起因して、それを自身の端末で受信するユーザに不満を起こさせる。その理由は、例えば、前記ストリームの大きな画像が自身の端末に表示されたときに、前記ユーザが大きな画像の中のストリームの関心のある領域を見ることが困難であること、および/または前記表示中に前記ユーザの注意がそれることである。
これらの欠点の克服を試みるために、そのようなHD動画ストリームを管理し、ユーザにより良い経験を提供するために様々な手法が使用され得る。
詳細には、ビデオ会議の分野では、前述したHPおよびCiscoなどの会社が、専用のHD端末、ストリーム、および接続を備えた専用の部屋を提案してユーザ間の通信を保証する。
しかし、そのようなソリューションは非常に高価で専用ツールを必要とするので、普通の消費者による配備および使用に関して柔軟性に欠ける。さらに、これらのソリューションでは、表示されたHD動画ストリームの中の関心のある領域を自動的に選択して撮影することは不可能である。よって、このような手法は、汎用の公共的なツールまたは端末を通じて超HD動画品質を提供するための「低コスト」超HD動画ストリームの動向には適応されない。
さらに、フットボールの試合などの専用テレビ番組では、人間の動画制作チームが、特に発見的知識および独自の制作スタイルに基づいて、超HD動画ストリームの特定の部分をズームする決定をリアルタイムで行うことができる。
しかし、そのようなソリューションは手作業で費用がかかるので、低価格で自動化されることが望ましいウェブのマルチメディアサービスにはうまく適応されない。
また、超HD動画ストリーム内の関心のある領域の対話形式での選択を提供するために行われた学術研究も存在し、例えば、博士論文「Peer−to−PeeROI video streaming with Interactive Region of Interest」(Ph.D.Dissertation、Department of Electrical Engineering、Stanford University、2010年4月)および、書籍「High−Quality Visual Experience: Creation, Processing and Interactivity of High−Resolution and High−Dimensional Video Signals」(Springer、ISBN 978−3−642−12801−1)、特に「Video Streaming with Interactive Pan/Tilt/Zoom」章などがある。
詳細には、これらのソリューションは、自身の端末に表示された動画ストリームの画像内の関心のある領域をユーザが選択すること、または前記動画ストリーム内の特定の対象を追跡することのどちらかを提唱し、特殊な符号化および圧縮機構を開発する。
しかし、これらのソリューションには、動画ストリーム内の関心のある領域をユーザの注視に基づいて自動的に検出できるようにすることによってユーザの体感品質を改善するための機構は備わっていない。詳細には、これらのソリューションは、関心のある領域の選択のためのユーザグループの管理は考慮しない。さらに、関心のある領域の選択はテンプレートまたは追跡に基づくので、特にフットボールの試合などのスポーツイベントで発生する可能性のある、予期しない事象に適応されない。よって、これらのソリューションの手法では、動画ストリームに特定の事象が発生した場合に、それを関心のある領域として検出し撮影してユーザの端末にズームすることはできない。
さらに、「アフェクティブコンピューティング」と称する最近の手法はユーザの感情のリアルタイム測定および、それらの感情へのリアルタイムな適応に基づいており、感情の測定は特に情緒認識および/または姿勢分析機構のたまものである。しかし、この手法には2つの欠点があり、その1つはユーザの感情を測定するために使用されるセンサは煩わしく信頼性が低いこと、もう1つは、この手法のリアルタイム適応は所定のものであり、前述した人間の動画制作チームに基づくソリューションと同じ問題をかかえることである。
「Peer−to−PeeROI video streaming with Interactive Region of Interest」(Ph.D.Dissertation、Department of Electrical Engineering、Stanford University、2010年4月) 「High−Quality Visual Experience: Creation, Processing and Interactivity of High−Resolution and High−Dimensional Video Signals」(Springer、ISBN 978−3−642−12801−1)
本発明の目的は、あるソリューションを提供することによって従来技術を改善することである。そのソリューションは、超HD動画ストリームを視聴しているユーザの端末の能力に、特に前記端末がそのような超HD動画ストリームをサポートしていない場合に、前記動画ストリームを自動的に適合させることを可能にし、また、ユーザの端末がそのような超HD動画ストリームをサポートする十分な能力を有していても前記ユーザが前記動画ストリームの関心のある領域に集中できない場合には、ネットワークの使用、端末の使用およびユーザの理解性を最適化しながら超HD動画ストリームを前記ユーザの必要および/または能力に自動的に適応させることを可能にするものである。
その目的のために、第1の態様によれば、本発明は、少なくとも1つの動画撮影デバイスによって撮影され、ネットワーク内でユーザが自身の端末を通じて接続されているサーバによって提供される高解像度動画ストリームを自身の端末で視聴する前記ユーザの体感品質を向上するためのプロセスに関し、前記プロセスは次のステップを備える:
− 前記動画ストリームの視聴者全体のうち1つのサンプルの各ユーザについて、少なくとも前記動画ストリーム上の前記ユーザの凝視位置に関する情報を収集するステップと、
− 前記動画ストリームの主要な関心のある領域を前記関心のある領域に置かれたユーザの凝視の数に従って識別するために、前記収集された情報をすべて集計し、前記集計された情報を分析するステップと、
− 前記ユーザのいくつかの端末に表示される、前記動画ストリームの少なくとも1つの関心のある領域を選択するステップ。
第2の態様によれば、本発明は、少なくとも1つの動画撮影デバイスによって撮影され、ネットワーク内の自身の端末を通じてユーザが接続されているサーバによって提供される高解像度動画ストリームを自身の端末で視聴する前記ユーザの体感品質を向上するためのエンジンに関し、前記エンジンは次を含む:
− 前記動画ストリームの視聴者全体のうち1つのサンプルの各ユーザについて少なくとも前記動画ストリーム上の前記ユーザの凝視位置に関する情報を収集するための、少なくとも1つの収集モジュールと、
− 前記動画ストリームの主要な関心のある領域を前記関心のある領域に置かれたユーザの凝視の数に従って識別するために、前記収集した情報をすべて集計するための手段および、前記集計した情報を分析するための手段を含む少なくとも1つの推定モジュールと、
− 前記動画ストリームの少なくとも1つの関心のある領域を選択して前記サーバと相互作用することで、前記選択された関心のある領域が前記ユーザのいくつかの端末に表示されるように構成された少なくとも1つの選択モジュール。
第3の態様によれば、本発明は、少なくとも1つの動画撮影デバイスによって撮影された高解像度動画ストリームを、ユーザが自身の端末で前記動画ストリームを視聴できるように前記ユーザに提供するためのサーバに関し、前記ユーザはネットワーク内の前記サーバに自身の端末を通じて接続されており、前記サーバは前記ユーザの体感品質を向上するためにそのようなエンジンと相互作用するための手段を含み、前記手段は次を含む:
− 前記エンジンの選択モジュールによって選択された関心のある領域を含む少なくとも1つのROI動画ストリームを構築するために前記選択モジュールと相互作用するための手段を備えるフォーカスモジュールと、
− ROI動画ストリームを前記ユーザのうち何人かに提供するための手段を備えるストリーマモジュール。
第4の態様によれば、本発明は、自身の端末を通じて接続されているユーザに、前記端末で前記ユーザによって視聴される高解像度動画ストリームを提供するためのネットワークのアーキテクチャに関し、前記動画ストリームは少なくとも1つの動画撮影デバイスによって撮影され、前記アーキテクチャは次を含む:
− ユーザの体感品質を改善するためのエンジンであって、
・ 前記動画ストリームの視聴者全体のうち少なくとも1つのサンプルの各ユーザについて少なくとも前記動画ストリーム上の前記ユーザの凝視位置に関する情報を収集するための、少なくとも1つの収集モジュールと、
・ 前記動画ストリームの主要な関心のある領域を前記関心のある領域に置かれたユーザの凝視の数に従って識別するために、前記収集した情報をすべて集計するための手段および、前記集計した情報を分析するための手段を含む少なくとも1つの推定モジュールと、
・ 前記ユーザのいくつかの端末に表示される、前記動画ストリームの少なくとも1つの関心のある領域を選択するように構成された選択モジュールと
を含むエンジンと、
− ユーザが自身の端末を通じて接続されているサーバであって、前記ユーザに前記高解像度動画ストリームを提供し:
・ 前記エンジンの選択モジュールによって選択された関心のある領域を含む少なくとも1つのROI動画ストリームを構築するために前記選択モジュールと相互作用するための手段を含む、フォーカスモジュールと
・ ROI動画ストリームを前記ユーザのうち何人かに提供するための手段を含むストリーマモジュールと
をさらに含む、サーバ。
第5の態様によれば、本発明はそのようなプロセスを実行するように構成されたコンピュータプログラムに関する。
第6の態様によれば、本発明は、データ処理装置にそのようなプロセスを実行させる命令を含むコンピュータ可読記憶媒体に関する。
本発明のその他の態様および長所が、添付図面を参照しながらの下記の説明によって明らかになる。
ユーザの端末上の高解像度動画ストリームの表示を管理するための本発明によるプロセスのステップを概略的に示す図である。 本発明によるプロセスを実装するためのアーキテクチャを概略的に示す図である。 本発明によるプロセスの主要な関心のある領域を識別するステップの一実施形態をグラフ表示した図である。 高解像度動画ストリームが複数の同期した動画撮影デバイスによって提供されるときの、本発明によるプロセスの主要な関心のある領域を識別するステップの、特定の一実施形態を概略的に示す図である。 高解像度動画ストリームが複数の同期した動画撮影デバイスによって提供されるときの、本発明によるプロセスの主要な関心のある領域を識別するステップの、特定の別の一実施形態を概略的に示す図である。
これらの図に関連して、少なくとも1つの動画撮影デバイス3によって撮影された高解像度動画ストリーム2を自身の端末1で視聴するユーザの体感品質を向上するためのプロセスについて下記に説明される。
詳細には、プロセスは適合されたコンピュータプログラムによって、または、データ処理装置に前記プロセスを実行させる命令を含むコンピュータ可読記憶媒体によって行われることができる。
図2は、そのような動画ストリーム2を提供するためのネットワークのアーキテクチャを表し、前記アーキテクチャは特に、前記ユーザが自身の端末1を通じて接続されているサーバ4を含む。サーバ4は、前記サーバに登録および/または接続された少なくとも1つの動画撮影デバイス3によって撮影された前記動画ストリーム2を前記ユーザに提供する。
このアーキテクチャは全体的に、様々な種類の実装および要素をサポートすることのできる動画ネットワークインフラストラクチャに依存し、そのようなインフラストラクチャは、インターネット技術タスクフォース(IETF)Clueワーキンググループによってさらに詳細に説明されている、同時に複数のビデオ会議の会話を実装するためのマルチポイント制御ユニット(MCU)インフラストラクチャ、またはコンテンツデリバリネットワーク(CDN)インフラストラクチャなどである。
よって、このアーキテクチャは、HPおよびCiscoのソサエティにより提供されるものなどの基本的なビデオ会議インフラストラクチャ、スポーツイベントもしくは任意の他のタイプのテレビ番組のライブ拡散などの娯楽動画ストリームのためのインフラストラクチャ、仮想教室インフラストラクチャ、ビデオ調査インフラストラクチャに実装され得、または、より一般的には、カメラなどの少なくとも1つの動画撮影デバイス3で撮影される少なくとも1つの主要な場所および、ライブのイベント動画ストリームを自分の端末1で視聴する少なくとも1人のリモートユーザからなる視聴者を有する前記イベント動画ストリームを提供するための、任意のインフラストラクチャに実装され得る。
図に示されるように、端末1は特に、タブレットまたはスマートフォンなどのモバイル端末であることができ、前記端末はサーバ4に「クライアント」として接続され、それぞれ画面を備え、ユーザが前記サーバによって提供される動画ストリーム2をその画面で視聴する。
図1に示されるように、プロセスは最初のステップAを含み、このステップで動画ストリーム2が端末1にフルサイズで表示される。前記表示の分解能は、前記表示の時点での前記端末および/またはネットワーク接続の技術的能力によって異なる。詳細には、動画ストリーム2は講義の動画撮影であり、PowerPointファイルなどのスライドを有するファイルが表示されたホワイトスクリーンの前に講師が立っている。
ユーザの体感品質を向上するために、このアーキテクチャは専用エンジン5もまた備え、サーバ4は、そのような向上を行うために前記エンジンと相互作用するための手段を備える。詳細には、サーバ4はユーザに特定の「群衆(crowd)サービス」を提供するように構成されることができ、前記ユーザはそのサービスに接続して、そのような体感品質の向上の恩恵を、特にユーザのニーズおよび/またはユーザの利用可能な技術的能力に応じて受けることができる。
このプロセスは、動画ストリーム2の視聴者全体のうち少なくとも1つのサンプルの各ユーザについて、少なくとも前記動画ストリーム上の前記ユーザの凝視位置に関する情報を収集するステップを最初に備える。
詳細には、視聴者のサンプルは自身の端末1で動画ストリーム2をフルサイズで視聴する視聴者全体に関連するか、または、前記サンプルによって前記動画ストリームの凝視位置の主要な傾向を十分な妥当性をもって調べること、および/または新しい凝視位置の出現を効率的に検出することが可能である場合に限り、前記視聴者の特定の一部のみに関連することもできる。
例えば、視聴者のサンプルは、潜在的な新しい凝視位置を考慮する対象の新規に加わったユーザであることもできるし、または、例えば光ファイバー接続および/もしくは高解像度大画面テレビなどの高い分解能の超高解像度画像をフルサイズで表示するための十分な技術的能力をもつ端末1および/もしくはネットワーク接続を有するユーザであることもできる。
そうするために、エンジン5は、動画ストリーム2の視聴者全体の少なくとも1つのサンプルの各ユーザについて少なくとも前記動画ストリーム上の前記ユーザの凝視位置に関する情報を収集するために、少なくとも1つの収集モジュール6を備える。
詳細には、端末1は収集モジュール6にユーザの画面上の凝視位置に関する情報を提供して、前記モジュールが前記画面に表示された動画ストリーム2上の前記凝視位置を導出するようにすることができる。そうするために、各端末1は、それぞれのユーザのそれぞれの画面上の凝視位置を決定するための凝視分析機能をサポートする専用手段を備える。
さらに、ユーザの画面に表示された動画ストリーム2上のユーザの凝視位置を直接決定するための高度なサポート凝視分析機能を端末1が備える場合は、前記端末は動画ストリーム2上のユーザの凝視位置に関するそのような情報を収集モジュール6に直接送信することができる。このような機能はすでに、例えば、LGおよびSamsungソサエティによってそれぞれ提供されているOptimus G proおよびGalaxy S4などのスマートフォンにおいて実現されており、またはさらに、前記端末に組み込まれた撮影デバイスによって提供されるユーザの動画撮影を分析するための凝視分析器を組み込んだ動画再生デバイスにおいても実現されている。
さらに、端末1は収集モジュール6に、動画ストリーム2の識別子、前記端末の画面上の前記動画ストリームの位置、前記画面上の前記端末の画像表示のサイズ、タイムスタンプおよび/または前記画面上の前記画像表示の分解能に関する情報などの、前記端末上の前記動画ストリーム2の表示に関する情報を送信することができ、前記収集モジュールは必要に応じてさらに、前記表示情報を使用して端末1の画面上の凝視位置を前記画面上の動画ストリーム2の位置にマッピングして、前記画像ストリーム上の前記凝視位置を導出する。
図2に関連して、端末1は収集モジュール6に、それぞれのユーザの画面上および/または動画ストリーム2上の凝視位置に関する情報、および最終的には前述したとおりの前記表示に関する情報を送信する。
例えば、図3に示されるように、ドットd、d、d、dで表される凝視位置は、それぞれ、横座標として第1の主成分および縦座標として第2の主成分をもつ一対の幾何学座標によって与えられることができる。さらに、端末1上の動画ストリーム2の表示サイズは幅および高さによって与えられることができ、表示情報は、表示の形式(例えば4:3形式)、符号化の形式(例えばh264標準に準拠)、または端末1のタイプ(例えばSumsung S4スマートフォン)もまた含むことができる。
図2で、エンジン5は収集デバイス7を備える。このデバイスは、収集モジュール6、ならびに、自身の端末1のユーザの凝視位置、前記端末に以前表示されていた動画ストリーム2上の前記凝視位置、前記動画ストリームの識別子(ID)、および/または前記動画ストリームの説明に関するデータを格納することを目的とするデータベース8といったものを含む。
加えて、プロセスは、そのような凝視の検出を改善するために、ユーザの凝視位置の次の位置を予測するために、収集された前記凝視位置をさらに追跡するステップを備えることができる。そうするために、エンジン5の収集デバイス7はそのような予測を行うために、収集されたユーザの凝視位置を追跡するように構成された追跡モジュール9を備える。詳細には、追跡モジュール9は、ユーザが動画ストリーム2上で凝視する次の位置または軌道を予測するために、カルマンフィルタなどの比例積分微分(PID)コントローラまたはアルゴリズムを実装することができる。
プロセスはさらに、フル動画ストリーム2上の凝視位置に関する収集された情報をすべて集計するステップ、および、前記集計された情報を分析して、前記動画ストリームの主要な関心のある領域R1、R2、R3、R4を、前記関心のある領域に置かれたユーザの凝視の数に従って識別するステップを備える。
そうするために、エンジン5は少なくとも1つの推定モジュール10を含み、このモジュールは収集モジュール6から収集された情報をすべて集計するための手段および、動画ストリーム2の主要な関心のある領域R1、R2、R3、R4を、前記関心のある領域に置かれたユーザの凝視の数に従って識別するために、前記集計された情報を分析するための手段を含む。
図1に関連して、プロセスはステップBを含み、このステップでは、動画ストリーム2内の比較的興味深い対象、すなわち多数のユーザの凝視が置かれた対象を含む、前記動画ストリームの特定部分としてそれぞれ、前記動画ストリーム2の主要な関心のある領域R1、R2、R3が識別される。詳細には、関心のある領域R1、R2、R3はそれぞれ、ホワイトスクリーン上に表示されたスライドを有するファイル、前記ホワイトスクリーンの前に立つ講師の頭部、および、前記ホワイトスクリーンの近くにあり、前記表示されたファイルについて口頭で発表するために講師がペンおよびノートを置いたテーブルに関連する。
一般的に言えば、推定モジュール10は主要な関心のある領域R1、R2、R3、R4を群衆手法に基づいて識別する。この手法では前記モジュールは動画ストリーム2に置かれた凝視の再分割に基づいて、前記動画ストリームの中で多数の凝視が集中する部分として主要な関心のある領域を識別する。そうするために、図3に関連して、推定モジュール10は、主成分分析(PCA)アルゴリズムを実装して収集モジュール6から入る集計された情報を分析するように構成されることができ、それにより、前記分析から明らかにされて前記図面に示されたユーザの凝視の主要なグループによって、主要な関心のある領域を識別することができる。
詳細には、動画ストリーム2の領域R1、R2、R3、R4を見ているユーザの数が多いほど前記領域の関心はより高いので、推定モジュール11は、関連する凝視の数に従って識別された主要な関心のある領域R1、R2、R3、R4に重みを持たせるように構成されることができる。
図2に関連して、エンジン5は分析デバイス11を備える。このデバイスは、推定モジュール10、ならびに、動画ストリーム2の異なる識別された関心のある領域R1、R2、R3、R4に関するデータを格納することを目的とするデータベース12といったものを含む。それらのデータは特に、前記関心のある領域のそれぞれのベクトルおよびクラス、前記関心のある領域に関連するユーザの数、前記関連するユーザの識別子およびクラスを含むことができる。
加えて、プロセスは、識別された関心のある領域のさらに詳細な識別を改善するため、前記関心のある領域に置かれたユーザの凝視の数の進展を識別するためにそのような関心のある領域をさらに追跡するステップを備えることができる。そうするために、エンジン5の分析デバイス11は、そのような進展の識別を行うために識別された関心のある領域を追跡するように構成されたトレンドモジュール13を含む。
動画ストリーム2の主要な関心のある領域R1、R2、R3、R4が識別された後は、プロセスはユーザの端末1のいくつかに表示される少なくとも1つの関心のある領域R1、R2、R3を選択するステップを備える。
そうするために、エンジン5は少なくとも1つの選択モジュール14を備えており、このモジュールは推定モジュール10によって識別された関心のある領域の中から少なくとも1つの関心のある領域を選択し、かつサーバ4と相互作用するように、またその結果、前記選択された興味領域がユーザの端末1のいくつかに表示されるように構成される。
同様に、サーバ4は、選択モジュールによって選択された関心のある領域R1、R2、R3を含む少なくとも1つのROI動画ストリーム16、17、18を構築するために前記選択モジュール14と相互作用するための手段を含むフォーカスモジュール15、ならびに、ROI動画ストリーム16、17、18をユーザの何人かに提供するための手段を含むストリーマモジュール19のようなものを備える。
さらに、図1に関連して、プロセスは連続するステップC、Dを含み、ここで3つの主要な関心のある領域R1、R2、R3が選択され、前記選択された関心のある領域から、ユーザの端末1のいくつかに表示される特定のROI動画ストリーム16、17、18が構築される。
詳細には、選択モジュール14は、メインのフル高解像度動画ストリーム2から選択する関心のある領域R1、R2、R3の数およびサイズを決定するように構成される。
そうするために、選択モジュール14は特に、推定モジュール10によって提供される識別された関心のある領域R1、R2、R3、R4に動画ストリーム2を見ているユーザを関連付けるように構成される。例えば、図3の両側矢印に関連して、選択モジュール14は基本的なユークリッド距離アルゴリズムを実装して、あるユーザのフル動画ストリーム2上の凝視位置に基づいて前記ユーザが関心のある領域R3、R4のどちらに分類され得るかを決定する。それは、図3に示される凝視点のうち、前記ユーザの凝視点が幾何学的に最も近いグループから導出することができる。
一般的に言えば、選択モジュール14は、ユーザの端末1のいくつかに表示される関心のある領域R1、R2、R3の選択のための特定のポリシーを定める規則を実装することができ、前記規則は、識別されたすべての関心のある領域R1、R2、R3、R4から選択される関心のある領域R1、R2、R3の、例えばサイズ、総数、および/または分解能などの特性を、とりわけ、関連するユーザの数、その領域への凝視の集中または離散などの、前記識別されたそれぞれの関心のある領域の特定のパラメータに従って定める。
選択モジュール14はまた、ネットワークおよび/もしくはユーザの端末1の能力などの技術的パラメータ、またはその他のサービス品質の測定値に従って、表示される関心のある領域R1、R2、R3の選択を定めるための規則を実装することもできる。
例えば、選択モジュール14は、フル動画ストリーム2を見ているユーザの総数が厳密に10より多い場合に表示される3つの関心のある領域R1、R2、R3を選択するための規則、あるいは、ネットワーク帯域幅が減少した場合に選択される関心のある領域R1、R2、R3の数および/または前記選択される関心のある領域のサイズもしくは分解能を減少させるための規則を実装することができる。
そうするために、エンジン5は、最適化モジュール20もまた備えてもよく、このモジュールは、少なくとも関心のある領域に置かれたユーザの注視の数ならびに/または、ネットワークおよび/もしくはユーザの端末の技術的能力に関する情報に従って前記関心のある領域R1、R2、R3の選択を最適化するために選択モジュール14と相互作用するように構成される。よって、プロセスは、リソースの消費を最小化しながら、より効率的なサービスを維持することができる。
図2に関連して、エンジン5は決定デバイス21を備える。このデバイスは、選択モジュール14および最適化モジュール20、ならびに、動画ストリーム2の選択された異なる表示される関心のある領域R1、R2、R3に関連するデータを、とりわけそれらに関連するユーザと関係付けて格納することを目的とするデータベース22といったものを含む。
同様に、サーバ4はサービス品質(QoS)分析モジュール23を備え、このモジュールは、関心のある領域R1、R2、R2の選択の最適化を、少なくともユーザがそれを通して前記サーバに接続されるネットワークおよび/または端末1の技術的能力に関する情報に従って行うために、前記情報を最適化モジュール24に提供するための手段を備える。
表示される関心のある領域R1、R2、R3の選択をさらに最適化するために、プロセスは、ユーザの凝視の数のうち1つが著しく変化したときに、新しい関心のある領域R1、R2、R3、R4を識別するためのアラートを送信するために、識別された関心のある領域R1、R2、R3のそれぞれについて、前記関心のある領域に置かれた前記ユーザの凝視の数を追跡するステップを特に備えることができる。詳細には、プロセスのこのアラートするステップは、ユーザが加入できるサービスとして提案されることができる。
そうするために、図2に関連して、決定デバイス21はアラートモジュール24を備え、このモジュールは、そのような追跡を行って、必要な場合に新しい関心のある領域R1、R2、R3、R4を識別するためにそのようなアラートを送信するように構成される。
例えば、アラートモジュール24は、特定の関心のある領域R1、R2、R3、R4上のユーザの凝視の数を定期的に前記関心のある領域に関連する特定の閾値と比較することによって前記数を追跡し、前記数が前記閾値に達すると、ユーザに前記特定の興味領域を視聴するように促すために、ユーザにアラート、特にフル画像ストリーム2上の可視アラートを送信するように構成されることができる。それによって前記特定の関心のある領域が選択モジュール14によってさらに選択されて、より大きなサイズで専用ROI動画ストリーム16、17、18の中に表示される。
逆に、アラートモジュール24は、ある特定の関心のある領域に置かれたユーザの凝視の数が前記特定の関心のある領域の特定の閾値より低いときに、前記特定の関心のある領域の代わりに新しい関心のある領域R1、R2、R3、R4を識別するために、推定モジュール10にアラートを送信するように構成されてもよい。
図1に関連して、ホワイトスクリーンの近くにあるテーブルに関係する関心のある領域R3は、ホワイトスクリーンに表示されたファイルと講話中の講師の頭部とにそれぞれ関する他の関心のある領域R1、R2に比べて重要度が低いと考えられるので、他の領域R1、R2とは異なり、関心のある領域R3がステップCの間に専用ROI動画ストリーム16、17、18を通していくつかの端末1に表示されるために選択される可能性は低い。
しかし、講師がテーブルに向かって移動し、前記テーブルに置いてあったノートに記入を始めると、対応する関心のある領域R3へのユーザの凝視の数が増加するので、アラートモジュール24が可視アラートをすべてのユーザに送信して関心のある領域R3を見るように促してもよく、すると、ステップDで前記関心のある領域が専用ROI動画ストリーム16を通して前記ユーザのいくつかの端末1に表示される。
図1では、動画ストリーム2はただ1つの動画撮影デバイス3によって提供され、ただ1つの動画ビューを含む。図4に示される別の実施形態によれば、動画ストリーム2は複数の同期された動画ビューVを含み、複数の動画撮影デバイス3から提供される。例えば、複数の動画撮影デバイス3は、ユーザによって自身の端末1に視覚化される場面の周囲に置かれることができ、前記場面は、ビデオ会議のシナリオでの会議室、または競技場でのフットボールの試合である。
その特定の実施形態では、動画ストリーム2の主要な関心のある領域は、前記動画ストリームのすべての動画ビューVを処理することによって識別される。
そうするために各ビューVを単一の動画ストリームとして処理することもできるが、この方法はうまく働かない。その理由は、ある動画ビューVを見ているユーザが、同じ動画ストリーム2の別の動画ビューVを見ている別のユーザからは見えない要素を凝視することができることである。このように、動画ストリーム2の各動画ビューVで識別される関心のある領域は2D手法に基づいて各動画ビューVで個別に識別され得るので、前記関心のある領域の間には一貫性が保証されない。これにより、自動システムが最も重要な関心のある領域について正確な決定を行うことは容易ではなくなる。
この問題を解決するために、動画ストリーム2の2D動画ビューVのそれぞれで識別された関心のある領域を、より一貫性をもたせて集積するために3D顕著性マップを生成するという手法が存在し得る。実際に、そのような一貫性のある集積が可能な理由は、同一の動画ストリーム2の2つの異なる動画ビューVで識別された2つの関心のある領域が前記動画ストリームの同一の3D対象に焦点を当て得ることである。
そうするために、一定の発見的技法がしばしば使用される。それらは、表面曲率のかなり後ろの次数の導関数における頂点の計算に依存するアルゴリズム、または、各動画ビューVから構築された関心のある領域の既存の2Dマップを前記動画ビューの識別された関心のある領域から少し異なる新しい3Dモデルへモーフィングすることに依存するアルゴリズムなどである。
他の知られている手法は、ある動画ビューVを視聴している単一ユーザに見られている、すなわち単一の視角から見られている、この動画ストリーム2の動画ビューVを人間の観察者を使用して追跡することに基づく。しかし、前述したように、人間の観察者は、例えば隠蔽などに起因して他の動画ビューVでは一時的に見えなくなっている対象を見ることができるので、誤った関心のある領域が識別され、さらに動画ストリーム2のユーザのために表示されるように選択される恐れがあり、これは前記ユーザの体感品質にとって明らかに不利益となる。
さらに、これらの手法は一般に、オンラインの対話的な様式での関心のある領域の識別には適応しない。
よって、本発明のプロセスは、この特定の実施形態に合わせ、また前述した欠点を解消するために、単一の動画撮影デバイス3によって提供された動画ストリーム2に対してと同様に、複数の動画ビューVを含む動画ストリーム2の協調して識別された関連関心のある領域に対して、少なくとも1つのユーザのサンプルの挙動を使用するステップを備えることができる。
図4aに関して、処理される動画ビューは、それぞれが動画撮影デバイス3によって撮影された動画入力Iである。複数のユーザが同じ動画ストリーム2の複数の動画入力Iを同時に視聴するように、この動画入力Iは少なくとも1人の個別のユーザにそれぞれ並列で示される。
同時に、各動画入力Iは、図2の収集モジュール6が行うように、少なくとも前記動画入力を視聴しているユーザの凝視位置に関する情報を収集するために、図2のエンジン5の収集モジュール6に特に技術的に類似し得る個別の収集モジュール6’に送られる。
さらに、このプロセスは、各動画ビューについて、前記動画ビューの関心のある領域を位置特定する2D顕著性マップ2DSを作成し、それにより、すべての前記2D顕著性マップからグローバルな3D顕著性マップ3DSを作成して、動画ストリーム2の主要な関心のある領域を識別するためのステップを備える。
図4aに関連して、収集モジュール6’はそれぞれ、そのような2D顕著性マップを作成するように構成され、そのマップには対応する動画入力Iの関心のある領域が位置特定されている。
詳細には、収集モジュール6’は、関心のある領域に信頼性の値が付随する2D顕著性マップを提供することができる。収集モジュール6’はまた、凝視の収集をより堅牢に行うために一時的に情報をフィルタリングするための手段、特に、例えばパケット損失または不十分な信頼性に起因して新しいデータが入手できない場合に、以前に収集されたデータを使用するための手段を備えることができる。
詳細には、プロセスは、各2D顕著性マップ2DSを変換して前記2D顕著性マップの関心のある領域の逆投影を作成し、それにより、前記逆投影から前記2D顕著性マップの3D顕著性推定3Deを作成して、すべての3D顕著性推定3Deを結合してグローバルな3D顕著性マップ3DSが作成されるようにするためのステップをさらに備えることができる。
図4aに関連して、収集モジュール6’はそれぞれ、作成した2D顕著性マップ2DSを個別の逆投影モジュール25に送る。このモジュールは、そのような逆投影を作成するための手段および、前記逆投影からそのような3D顕著性推定3Deを作成するための手段を備える。
2D顕著性マップ2DSのそのような変換は特に、撮影デバイス3から入手可能であると仮定される較正データによって可能になる。例えば、動画入力Iの関心のある領域の逆投影は、知られているピンホールカメラモデルに準じて取得され得る。よって、2D動画入力Vが使用されると、前記動画入力の関心のある領域が単に逆投影されて、3D顕著性推定3Deの深度全域に一様な信頼性の値が与えられる。その理由は、関心のある領域の深度は、動画ストリーム2の対応する対象の深度に関する情報がなければ知られ得ず、その深度は単一の動画ビューからは決定できないからである。
さらに、逆投影モジュール25は、例えば2d+zデータ、すなわちピクセル当たりの深度値などの補足情報が入手可能であれば、その情報を、想定される3D関心のある領域を制限するために使用することができる。よって、その場合、該当する対象の手前にある3D関心のある領域は実際に関心対象であるとは見なされ得ないので、プロセスはこれを破棄して、所与の動画ビューIに効率的により良い3D顕著性推定3Deを与えることができる。
よって、すべての逆投影モジュール25が3D顕著性推定3Deを推定モジュール10’に送る。推定モジュール10’は図2のエンジン5の推定モジュール10に技術的に類似しながらも、すべての3D顕著性推定3Deを結合してグローバル3D顕著性マップ3DSを作成するための追加手段を実装することができ、このマップの中では動画ストリーム2の主要な関心のある領域R1、R2、R2、R4が識別されて位置特定される。
例えば、推定モジュール10’は、単に個別の3D顕著性推定3Deを合計してから、特に元の動画ビューVの信頼性の値に依存して、取得した関心のある領域R1、R2、R3、R4の信頼性を一定の値に制限するための手段を備えることができる。しかし、推定モジュール10’は、例えば、個別の推定3Deを使用し、以前の情報を仮説の構築に含める3D塊(blob)検出方法などの、より複雑な方法を実装することもできる。
方法はまた、顕著性推定3Deおよび結果のグローバル3D顕著性マップ3DSを洗練するために、セグメンテーション情報および/または関連するモデルを使用した対象認識に依存する技法などの他の画像処理および/またはコンピュータ技法を使用するステップを備えてもよい。
図4bに関連して、3D顕著性マップ3DSを作成するために処理される動画ビューは、画像撮影デバイス3によってそれぞれ撮影された動画入力Iから構築された場面モデルMから作成された仮想カメラビューVである。詳細には、動画入力Iは2D形式、2D+z形式、または他の任意のタイプの形式の動画ストリームである。
そうするために、仮想ディレクタデバイス26が、同じ動画ストリーム2の同期された動画入力Iを収集し、それぞれが1つの前記仮想ビューを提供する模擬的な仮想カメラ3’を実装することによって、前記動画入力を使用してそのような仮想カメラビューVを生成する。詳細には、仮想ディレクタデバイス26は、特に、利用可能な実物の動画撮影デバイス3の数が限られている場合に、視覚化対象の場面が発生する3D空間の十分なサンプリングを保証するために十分な数の仮想カメラビューVを作成する。
その後、図4aの推定モジュール10’の機能を特に包含し得るのみならず、収集モジュール6’および逆投影モジュール25の機能もまた包含し得る3D顕著性マップ作成デバイス10’’によってすべての仮想カメラビューVが使用されて、動画ストリーム2の主要な関心のある領域R1、R2、R3、R4を位置特定するための3D顕著性マップ3DSが作成される。デバイス26、10’’はさらに、動画プロバイダのサーバ4に接続されたユーザに体感品質を改善するためのオンラインサービスを提供するために、図2に示されるようなエンジン5または他の任意のタイプのエンジンに実装される。
より正確には、仮想ディレクタデバイス26は、個別の動画撮影デバイス3から提供される動画ストリーム2の動画入力Iを収集するための手段および前記動画入力から場面モデルMを構築および/または更新するための手段を含む場面モジュール27、ならびに、前記場面モデルからそれぞれの仮想カメラビューVを提供する仮想カメラ3’を生成するためのモジュール28のようなものを備え、作成モジュール10’’は前記仮想カメラビューから3D顕著性マップ3DSを作成する。
場面モデルMは、様々な程度の複雑さを有することができる。例えば、非常に単純な場面モデルは、その時点で受信される動画入力Iのフレームのみで構成されることができ、その場合、モジュール28が生成する仮想カメラビューVは、入力フレームのクロッピングされたバージョンまたは、近接フレーム間のいくつかの補間フレームに制限される可能性が極めて高い。さらに、より柔軟性のある方法で仮想ビューVを生成するために、より複雑な場面モデルは何らかの幾何学的知識を導入することができる。
プロセスは、さらなる3D顕著性マップ3Dの作成を最適化するために、作成された3D顕著性マップ3DSを分析するステップをさらに備えることができる。
図4aに関連して、推定モジュール10’は、生成された3D顕著性マップ3DSを収集モジュール6’のそれぞれにフィードバックするように構成される。よって、収集モジュール6’は、3D顕著性マップ3DSによって間接的に与えられる、よりグローバルな測定値に基づいて、それらのモジュールに対応する動画入力Iにおけるユーザの凝視位置の追跡を、有用に微調整することができる。
さらに、生成された3D顕著性マップ3DSのフィードバックは、出力域を弱く制限することによって、やや精度の低い収集モジュール6’の使用を可能にする。例えば、標準的な動画撮影デバイス3が凝視検出に使用されるときは、通常、その結果にはあまり信頼性がないが、提供される3D顕著性マップ3DSを使用すれば、プロセスは、より高い密度のモードに凝視をスナップすることができるので、出力域が縮小し、関心のある領域の正確な追跡の機会が増大する。
図4bに関連して、好ましくは動画ストリーム2のすでに識別されている関心のある領域R1、R2、R3、R4に焦点を当てた仮想カメラビューVを作成するために、作成デバイス10’’は、生成された3D顕著性マップ3DSをディレクタデバイス26にフィードバックするように構成される。
より一般的には、ディレクタデバイス26は、モジュール28によって生成される仮想カメラ3’の選択のために、フィードバックされた前の3D顕著性マップ3DSに加えて、一定数の補足的な要因を考慮することができる。詳細には、ディレクタデバイス26は、現在知られている場面モデルMおよび、現在のユーザの視点の履歴を考慮することができる。この履歴は特に、様々な選択された関心のある領域R1、R2、R3および関連ユーザに関するデータを格納して、前記ユーザにコンテンツおよび視角に関して十分な多様性を提供するための、図2のデータベース22に技術的に類似したデータベースによって提供されることができる。
ディレクタデバイス26はまた、視覚化対象の場面が発生する3D空間の十分なサンプリングを保証するために、動画入力Iのサンプリング履歴を考慮することもできる。実際、新しい関心のある領域R1、R2、R3、R4を検出するために、プロセスは時折、現在の関心のある領域に必ずしも焦点を当てていないビューのサンプリングを必要とし得る。
ただし、これはプロセスが動画入力Iの全く無意味な領域を可視化する必要があることを意味するのではない。その理由は、前記ビデオ入力の画像は、その場面のサンプリング対象の領域が関心のある領域を含む前記場面の他の領域と共にサンプリングされる方法でフレーム化されることができるからである。さらに、動画技法でポピュラーな技法にオーバービューショットがあり、これを使用して、場面が視覚化される3D空間内の、大きな領域を再サンプリングすることもできる。
より一般的には、3D顕著性マップ3DSをできる限り正確に作成できるようにするために、生成される仮想ビューVでは、視覚化対象場面の利用可能な知識を十分に利用するべきである。加えて、場面モデルMで3D情報が利用可能なときには、前記場面モデルから生成された仮想ビューVのそれぞれに対して、任意選択で作成デバイス10’’によって個別の2D顕著性マップ2DSを作成できるようにするために、前記ビューもまた、そのような情報を含むべきであり、前記作成デバイス10’’による最終的な3D顕著性マップ3DSの作成を可能にするために、ディレクタデバイス26によって前記作成デバイス10’’に前記仮想ビューVが個別に提供されるべきである。
したがって、取得された3D顕著性マップは内部インタフェースに提供され得るが、さらに詳細には、オンラインネットワークのクラウドベースの動画サービスプロバイダなどの公共的な外部インタフェースに提供され得る。前記サービスプロバイダは、例えば図2によるアーキテクチャによって実装される。このアーキテクチャはエンジン5と協働するサーバ4を備え、動画ストリーム2を視聴するために前記サーバに接続されているユーザに、前記ユーザ自身の挙動に従って前記動画ストリームの関心要素に焦点を当てることによって、オンラインで体感品質の改善を提供する。取得された3D顕著性マップはまた、メディア符号化の強化または動画ストリーム2内の異常を示すためにも使用され得る。
しかし、そのような3D顕著性マップをグローバル動画ストリーム2の関心のある領域R1、R2、R3、R4に焦点を当てるために使用することは、前記動画ストリームで発生するイベントに対しては明らかに事後対応的である。その理由は、専用ROI動画ストリーム16、17、18を生成できるようになる前に、前記動画ストリームのビューIを見ているユーザは先にそのようなイベントに気付いて、さらに前記イベントを凝視する必要があることである。したがってこれにより、ある程度の遅延が生じる。
ライブショーのディレクタはこの遅延の対処に慣れているので、一般にはこの問題は許容されているが、この問題を軽減させるために少なくとも2つの方法がある。詳細には、瞬間リプレイ法は、分野に特定な異常検出器を使用する3D顕著性マップ3DS内の突然のスパイクの相関関係付けに依存して、いつ瞬間リプレイが有用であり得るか推定する。さらに、動画ストリーム2のビューV、Iのユーザによるオフライン非同期視聴によって特徴付けられるオフラインシステムでは、3D顕著性マップ3DSを構築して洗練させて、前記動画ストリームを視聴したユーザが増えるに従って視聴体験を体系的に改善することができる。
その結果、プロセスは注意の散漫なユーザ、すなわち動画ストリーム2を視聴しながら他の何かを見ているユーザが前記動画ストリームの重要な要素に集中できるようにする。前記動画ストリームを視聴している前記ユーザの大きなサンプルの挙動によって前記要素が決定されて、前記重要な要素の少なくとも1つに焦点を当てたROI動画ストリーム16、17、18がフルサイズの動画ストリーム2から前記注意の散漫なユーザに向けて構築される。この手法が効果的である理由は、大多数のユーザは動画ストリーム2の最も興味深い要素に注意を集中させるという前提にこの手法が依存するので、関心のある領域R1、R2、R3を追跡するための静的な規則および信頼性の低いユーザの注視を排除することである。
さらに、プロセスは代替案として、特に、ユーザの端末1および/またはネットワーク接続の技術的能力がフルサイズの高解像度動画ストリーム2の表示をサポートしていない場合に、高解像度で重要な要素に焦点を当てたROI動画ストリーム16、17、18をユーザに提供することによってユーザの体感品質を向上することもできる。
実際に、プロセスは、動画ストリーム2の主要な関心のある領域R1、R2、R3に焦点を当てたROI動画ストリーム16、17、18を構築して、注意散漫と技術的能力の欠如の両方の問題を解決することが目標の場合には動画ストリーム2を見ているすべてのユーザに送信するか、または、そのようなROI動画ストリーム16、17、18を技術的能力の欠如に遭遇したユーザのみに送信するためのステップを備えることができる。
一般的に言えば、プロセスはまた、ただ1つのフルサイズの高解像度動画ストリーム2から複数の高解像度動画ストリーム16、17、18を作成することを可能にし、また、自動動画ディレクタを使用して動的ビデオストリームを作成するために、動画編成デバイスに関連付けられることもできる。
本明細書の記述および図面は、本発明の原理を単に説明するものである。よって、当業者が、本明細書に明示的に記述または図示されていないが本発明の原理を具体化し、本発明の趣旨および範囲に含まれる、様々な構成を考案することができることが理解される。さらに、本明細書に記載されるすべての例は主として、本発明の原理および当技術分野の発展のために本発明者(複数可)が寄与する概念を理解するうえで読者を支援するための教育的目的のみであることが明示的に意図されており、そのような具体的に記載された例および条件への制限を伴わないと解釈されるものとする。さらに、本発明の原理、態様、および実施形態、ならびにその特定の例を記載した本明細書内のすべての文は、それらの均等物を包含することが意図されている。

Claims (16)

  1. 少なくとも1つの動画撮影装置(3)によって撮影され、ネットワーク内でユーザが自身の端末(1)を通じて接続されているサーバ(4)によって提供される高解像度動画ストリーム(2、I、V)を自身の端末(1)で視聴する前記ユーザの体感品質を向上するためのプロセスであって、
    − 前記動画ストリームの視聴者全体のうち1つのサンプルの各ユーザについて、少なくとも前記動画ストリーム上の前記ユーザの凝視位置に関する情報を収集するステップと、
    − 前記動画ストリームの主要な関心のある領域(R1、R2、R3、R4)を前記関心のある領域に置かれたユーザの凝視の数に従って識別するために、前記収集された情報をすべて集計し、前記集計された情報を分析するステップと、
    − 前記ユーザのいくつかの端末(1)に表示される、前記動画ストリームの少なくとも1つの関心のある領域(R1、R2、R3)を選択するステップと
    を備える、プロセス。
  2. 動画ストリームが複数の同期された動画ビュー(I、V)を含み、前記動画ストリームの主要な関心のある領域が前記動画ビューを処理することから識別されることを特徴とする、請求項1に記載のプロセス。
  3. 動画ビューが、動画撮影デバイス(3)によってそれぞれ撮影された動画入力(I)であることを特徴とする、請求項2に記載のプロセス。
  4. 動画ビューが、動画撮影デバイス(3)によってそれぞれ撮影された動画入力(I)から構築された場面モデル(M)から作成された仮想カメラビュー(V)であることを特徴とする、請求項2に記載のプロセス。
  5. 動画ストリームの主要な関心のある領域を識別するために、各動画ビュー(I、V)について、前記動画ビューの関心のある領域を位置特定する2D顕著性マップ(2DS)を作成し、それにより、すべての前記2D顕著性マップからグローバルな3D顕著性マップ(3DS)を作成するステップを備えることを特徴とする、請求項2から4のいずれか一項に記載のプロセス。
  6. 各2D顕著性マップ(2DS)を変換するステップであって、それにより前記2D顕著性マップの関心のある領域の逆投影を作成し、それにより、前記逆投影から前記2D顕著性マップの3D顕著性推定(3De)を作成し、すべての3D顕著性推定(3De)を結合してグローバルな3D顕著性マップ(3DS)が作成される、変換するステップを備えることを特徴とする、請求項5に記載のプロセス。
  7. さらなる3D顕著性マップ(3DS)の作成を最適化するために、作成された3D顕著性マップ(3DS)を分析するステップを備えることを特徴とする、請求項5または6に記載のプロセス。
  8. 少なくとも1つの動画撮影装置(3)によって撮影され、ネットワーク内でユーザが自身の端末(1)を通じて接続されているサーバ(4)によって提供される高解像度動画ストリーム(2、I、V)を自身の端末(1)で視聴する前記ユーザの体感品質を向上するためのエンジン(5)であって、
    − 前記動画ストリームの視聴者全体のうち1つのサンプルの各ユーザについて少なくとも前記動画ストリーム上の前記ユーザの凝視位置に関する情報を収集するための、少なくとも1つの収集モジュール(6、6’)と、
    − 前記動画ストリームの主要な関心のある領域(R1、R2、R3、R4)を前記関心のある領域に置かれたユーザの凝視の数に従って識別するために、前記収集した情報をすべて集計するための手段および、前記集計した情報を分析するための手段を含む少なくとも1つの推定モジュール(10、10’、10’’)と、
    − 前記選択された関心のある領域が前記ユーザのいくつかの端末(1)に表示されるように、少なくとも1つの関心のある領域(R1、R2、R3)を選択して、前記サーバと相互作用するように構成された少なくとも1つの選択モジュール(14)と
    を備える、エンジン。
  9. ユーザの凝視位置の次の位置を予測するために、収集された前記凝視位置を追跡するように構成された追跡モジュール(9)をさらに備えることを特徴とする、請求項8に記載のエンジン(5)。
  10. 関心のある領域に置かれたユーザの凝視の数の進展を識別するために、識別された前記関心のある領域(R1、R2、R3、R4)を追跡するように構成されたトレンドモジュール(13)をさらに備えることを特徴とする、請求項8または9に記載のエンジン(5)。
  11. 識別された関心のある領域(R1、R2、R3、R4)のそれぞれについて、前記関心のある領域に置かれたユーザの凝視の数を追跡し、前記の数のうち1つが著しく変化したときに、新しい関心のある領域(R1、R2、R3、R4)を識別するためのアラートを送信するように構成されたアラートモジュール(24)をさらに備えることを特徴とする、請求項8から10のいずれか一項に記載のエンジン(5)。
  12. 少なくとも、関心のある領域(R1、R2、R3)に置かれたユーザの注視の数、ならびに/または、ネットワークおよび/もしくはユーザの端末(1)の技術的能力に関する情報に従って前記関心のある領域(R1、R2、R3)の選択を最適化するために選択モジュール(14)と相互作用するように構成された最適化モジュール(20)をさらに備えることを特徴とする、請求項8から11のいずれか一項に記載のエンジン(5)。
  13. 少なくとも1つの動画撮影装置(3)によって撮影された高解像度動画ストリーム(2、I、V)を、ユーザが自身の端末(1)で前記動画ストリームを視聴するように前記ユーザに提供するサーバ(4)であって、前記ユーザがネットワーク内の前記サーバに自身の端末(1)を通じて接続しており、前記サーバが前記ユーザの体感品質を向上するために請求項8から12のいずれか一項に記載のエンジン(5)と相互作用する手段を備え、前記手段が、
    − 前記エンジンの選択モジュール(14)によって選択された関心のある領域(R1、R2、R3)を含む少なくとも1つのROI動画ストリーム(16、17、18)を構築するために前記選択モジュール(14)と相互作用するための手段を備えるフォーカスモジュール(15)と、
    − ROI動画ストリーム(16、17、18)を前記ユーザのうち何人かに提供するための手段を備えるストリーマモジュール(19)とを含む、
    サーバ。
  14. 請求項12に従属する場合に、少なくともユーザがそれを通して前記サーバに接続されるネットワークおよび/または端末(1)の技術的能力に関する情報に従って関心のある領域(R1、R2、R3)の選択の最適化を行うように、前記情報をエンジン(5)の最適化モジュール(20)に提供するための手段を備えるサービス品質(QoS)分析モジュール(23)を備えることを特徴とする、請求項13に記載のサーバ(4)。
  15. 自身の端末(1)を通じて接続されているユーザに、前記端末で前記ユーザによって視聴される高解像度動画ストリーム(2、I、V)を提供するためのネットワークのアーキテクチャであって、前記動画ストリームが少なくとも1つの動画撮影デバイス(3)によって撮影され、前記アーキテクチャが、
    − ユーザの体感品質を向上するためのエンジン(5)であって、
    ・ 前記動画ストリームの視聴者全体のうち少なくとも1つのサンプルの各ユーザについて少なくとも前記動画ストリーム上の前記ユーザの凝視位置に関する情報を収集するための、少なくとも1つの収集モジュール(6、6’)、
    ・ 前記動画ストリームの主要な関心のある領域(R1、R2、R3、R4)を前記関心のある領域に置かれたユーザの凝視の数に従って識別するために、前記収集した情報をすべて集計するための手段および、前記集計した情報を分析するための手段を含む少なくとも1つの推定モジュール(10、10’、10’’)、および
    ・ 前記ユーザのいくつかの端末(1)に表示される、少なくとも1つの関心のある領域(R1、R2、R3)を選択するように構成された選択モジュール(14)
    を含むエンジンと、
    − ユーザが自身の端末(1)を通じて接続されているサーバ(4)であって、前記ユーザに前記高解像度動画ストリームを提供し、
    ・ 前記エンジンの選択モジュール(14)によって選択された関心のある領域(R1、R2、R3)を含む少なくとも1つのROI動画ストリーム(16、17、18)を構築するために前記選択モジュール(14)と相互作用するための手段を含む、フォーカスモジュール(15)、および
    ・ ROI動画ストリーム(16、17、18)を前記ユーザのうち何人かに提供するための手段を含むストリーマモジュール(19)
    をさらに含むサーバと
    を含む、アーキテクチャ。
  16. 請求項1から7のいずれか一項に記載のプロセスを実行するように構成された、コンピュータプログラム。
JP2016546455A 2014-01-14 2014-12-05 高解像度の動画ストリームを自身の端末で視聴するユーザの体感品質を向上するためのプロセス Pending JP2017507557A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14305049.0A EP2894852A1 (en) 2014-01-14 2014-01-14 Process for increasing the quality of experience for users that watch on their terminals a high definition video stream
EP14305049.0 2014-01-14
PCT/EP2014/076724 WO2015106882A1 (en) 2014-01-14 2014-12-05 Process for increasing the quality of experience for users that watch on their terminals a high definition video stream

Publications (1)

Publication Number Publication Date
JP2017507557A true JP2017507557A (ja) 2017-03-16

Family

ID=50023502

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016546455A Pending JP2017507557A (ja) 2014-01-14 2014-12-05 高解像度の動画ストリームを自身の端末で視聴するユーザの体感品質を向上するためのプロセス

Country Status (4)

Country Link
US (1) US20160360267A1 (ja)
EP (1) EP2894852A1 (ja)
JP (1) JP2017507557A (ja)
WO (1) WO2015106882A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021027487A (ja) * 2019-08-06 2021-02-22 日本放送協会 映像演出処理装置及びそのプログラム

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110266977B (zh) 2014-06-10 2021-06-25 株式会社索思未来 半导体集成电路和图像显示的控制方法
US10204658B2 (en) 2014-07-14 2019-02-12 Sony Interactive Entertainment Inc. System and method for use in playing back panorama video content
WO2016073035A1 (en) 2014-11-05 2016-05-12 Super League Gaming, Inc. Game system
US20160353146A1 (en) * 2015-05-27 2016-12-01 Google Inc. Method and apparatus to reduce spherical video bandwidth to user headset
JP6561887B2 (ja) * 2016-03-29 2019-08-21 ブラザー工業株式会社 情報処理装置、情報処理方法及びプログラム
US20170359603A1 (en) * 2016-06-09 2017-12-14 James Alexander Levy Viewer tailored dynamic video compression using attention feedback
US10805592B2 (en) * 2016-06-30 2020-10-13 Sony Interactive Entertainment Inc. Apparatus and method for gaze tracking
US10742999B2 (en) 2017-01-06 2020-08-11 Mediatek Inc. Methods and apparatus for signaling viewports and regions of interest
US10979663B2 (en) * 2017-03-30 2021-04-13 Yerba Buena Vr, Inc. Methods and apparatuses for image processing to optimize image resolution and for optimizing video streaming bandwidth for VR videos
US10986384B2 (en) * 2017-04-14 2021-04-20 Facebook, Inc. Modifying video data captured by a client device based on a request received by a different client device receiving the captured video data
KR102498597B1 (ko) * 2017-08-22 2023-02-14 삼성전자 주식회사 전자 장치 및 이를 이용하여 관심 영역을 설정하여 오브젝트를 식별하는 방법
US10805653B2 (en) * 2017-12-26 2020-10-13 Facebook, Inc. Accounting for locations of a gaze of a user within content to select content for presentation to the user
US20190335166A1 (en) * 2018-04-25 2019-10-31 Imeve Inc. Deriving 3d volumetric level of interest data for 3d scenes from viewer consumption data
US11260295B2 (en) * 2018-07-24 2022-03-01 Super League Gaming, Inc. Cloud-based game streaming
CN109218742A (zh) * 2018-09-06 2019-01-15 视联动力信息技术股份有限公司 一种视联网的数据处理方法和装置
US11032607B2 (en) * 2018-12-07 2021-06-08 At&T Intellectual Property I, L.P. Methods, devices, and systems for embedding visual advertisements in video content
US11228622B2 (en) 2019-04-08 2022-01-18 Imeve, Inc. Multiuser asymmetric immersive teleconferencing
CN112511866B (zh) 2019-12-03 2024-02-23 中兴通讯股份有限公司 媒体资源播放方法、装置、设备和存储介质
US11284141B2 (en) 2019-12-18 2022-03-22 Yerba Buena Vr, Inc. Methods and apparatuses for producing and consuming synchronized, immersive interactive video-centric experiences
CN111093107A (zh) * 2019-12-18 2020-05-01 深圳市麦谷科技有限公司 播放实时直播流的方法和装置
GB2597917B (en) * 2020-07-29 2024-03-27 Sony Interactive Entertainment Inc Gaze tracking method and apparatus
US11854242B2 (en) * 2020-09-23 2023-12-26 Apple Inc. Systems and methods for providing personalized saliency models
CN114782676B (zh) * 2022-04-02 2023-01-06 北京广播电视台 一种视频感兴趣区域的提取方法和***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014522596A (ja) * 2011-05-31 2014-09-04 トムソン ライセンシング 3dコンテンツを再目標化するための方法およびデバイス

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1087618A3 (en) * 1999-09-27 2003-12-17 Be Here Corporation Opinion feedback in presentation imagery
GB0116877D0 (en) * 2001-07-10 2001-09-05 Hewlett Packard Co Intelligent feature selection and pan zoom control
US7922670B2 (en) * 2005-02-24 2011-04-12 Warren Jones System and method for quantifying and mapping visual salience
FR2890517A1 (fr) * 2005-09-08 2007-03-09 Thomson Licensing Sas Procede et dispositif d'affichage d'images
US8315466B2 (en) * 2006-12-22 2012-11-20 Qualcomm Incorporated Decoder-side region of interest video processing
US8175376B2 (en) * 2009-03-09 2012-05-08 Xerox Corporation Framework for image thumbnailing based on visual similarity
KR101584115B1 (ko) * 2009-03-31 2016-01-12 삼성전자주식회사 시각적 관심맵 생성 장치 및 방법
CN101943982B (zh) * 2009-07-10 2012-12-12 北京大学 基于被跟踪的眼睛运动的图像操作
KR20110061468A (ko) * 2009-12-01 2011-06-09 (주)휴맥스 고해상도 영상의 부호화/복호화 방법 및 이를 수행하는 장치
US20110305397A1 (en) * 2010-03-08 2011-12-15 Robinson Piramuthu Systems and methods for retargeting an image utilizing a saliency map
US20140168277A1 (en) * 2011-05-10 2014-06-19 Cisco Technology Inc. Adaptive Presentation of Content
US10165157B2 (en) * 2013-02-19 2018-12-25 Disney Enterprises, Inc. Method and device for hybrid robotic/virtual pan-tilt-zoom cameras for autonomous event recording
US9298980B1 (en) * 2013-03-07 2016-03-29 Amazon Technologies, Inc. Image preprocessing for character recognition
WO2015066475A1 (en) * 2013-10-31 2015-05-07 The University of North Carlina at Chapel Hill Methods, systems, and computer readable media for leveraging user gaze in user monitoring subregion selection systems

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014522596A (ja) * 2011-05-31 2014-09-04 トムソン ライセンシング 3dコンテンツを再目標化するための方法およびデバイス

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021027487A (ja) * 2019-08-06 2021-02-22 日本放送協会 映像演出処理装置及びそのプログラム
JP7320400B2 (ja) 2019-08-06 2023-08-03 日本放送協会 映像演出処理装置及びそのプログラム

Also Published As

Publication number Publication date
EP2894852A1 (en) 2015-07-15
US20160360267A1 (en) 2016-12-08
WO2015106882A1 (en) 2015-07-23

Similar Documents

Publication Publication Date Title
JP2017507557A (ja) 高解像度の動画ストリームを自身の端末で視聴するユーザの体感品質を向上するためのプロセス
US11025959B2 (en) Probabilistic model to compress images for three-dimensional video
US10488195B2 (en) Curated photogrammetry
CN108010037B (zh) 图像处理方法、装置及存储介质
US8749607B2 (en) Face equalization in video conferencing
US20120293613A1 (en) System and method for capturing and editing panoramic images
US11748870B2 (en) Video quality measurement for virtual cameras in volumetric immersive media
US10868999B2 (en) Eye gaze angle feedback in a remote meeting
US11361535B2 (en) Multi-angle object recognition
JP2017511035A (ja) 画像デバイスにおける写真構図および位置ガイダンス
US20200388068A1 (en) System and apparatus for user controlled virtual camera for volumetric video
WO2018057472A1 (en) Content based stream splitting of video data
US20190335166A1 (en) Deriving 3d volumetric level of interest data for 3d scenes from viewer consumption data
EP2739044A1 (en) A video conferencing server with camera shake detection
KR20190088478A (ko) 인게이지먼트 측정 시스템
JP7202935B2 (ja) 注目度算出装置、注目度算出方法、および注目度算出プログラム
WO2016192467A1 (zh) 一种播放视频的方法及装置
KR20180131687A (ko) 실시간기반 및 컨텐츠 기반 실시간 공연공유 서비스 제공시스템
CN107733874A (zh) 信息处理方法、装置、计算机设备和存储介质
US10009550B1 (en) Synthetic imaging
EP3548996A1 (en) Eye gaze angle feedback in a remote meeting
JP6938500B2 (ja) 少なくとも1つのプレノプティックビデオをリフォーカシングする方法及びモジュール
Mitra et al. Real-time Smile Detection using Integrated ML Model
JP6623905B2 (ja) サーバ装置、情報処理方法およびプログラム
US20240087203A1 (en) System and method for displaying reaction animations

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170725

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171019

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180320