JP2017507557A

JP2017507557A - 高解像度の動画ストリームを自身の端末で視聴するユーザの体感品質を向上するためのプロセス

Info

Publication number: JP2017507557A
Application number: JP2016546455A
Authority: JP
Inventors: マリリー，エマニュエル; ゴンゲ，アルノー; ティトガット，ドニー
Original assignee: アルカテル−ルーセント
Priority date: 2014-01-14
Filing date: 2014-12-05
Publication date: 2017-03-16
Also published as: EP2894852A1; US20160360267A1; WO2015106882A1

Abstract

少なくとも１つの動画撮影装置（３）によって撮影され、ネットワーク内でユーザが自身の端末（１）を通じて接続されているサーバ（４）によって提供される高解像度動画ストリーム（２、Ｉ、Ｖ）を自身の端末（１）で視聴する前記ユーザの体感品質を向上するためのプロセスである。このプロセスは次のステップを備える：− 前記動画ストリームの視聴者全体のうち１つのサンプルの各ユーザについて、少なくとも前記動画ストリーム上の前記ユーザの凝視位置に関する情報を収集するステップと、− 前記動画ストリームの主要な関心のある領域（Ｒ１、Ｒ２、Ｒ３、Ｒ４）を前記関心のある領域に置かれたユーザの凝視の数に従って識別するために、前記収集された情報をすべて集計し、前記集計された情報を分析するステップと、− 前記ユーザのいくつかの端末１に表示するために、前記動画ストリームの少なくとも１つの関心のある領域（Ｒ１、Ｒ２、Ｒ３）を選択するステップ。

Description

本発明は、少なくとも１つの動画撮影デバイスによって撮影された高解像度の動画ストリームを自身の端末で視聴するユーザのために体感品質を向上するためのプロセスと、そのようなプロセスを実装するための手段を備えるエンジン、サーバ、およびアーキテクチャに関する。

ますます高度化する動画撮影デバイスを搭載するモバイル端末、例えば超高解像度（ＨＤ）カメラデバイスを備えたＳａｍｓｕｎｇソサエティのＧａｌａｘｙＮｏｔｅ３タブレットなどの市場への到来に伴い、近い将来には、低コストなライブの超ＨＤ動画ストリームの作品が利用可能になるであろう。

現在、ビデオ会議や娯楽などの分野には、ライブＨＤ動画ストリームを使用したいくつかのソリューションがすでに存在する。ビデオ会議の分野ではＨＰ（ＨａｌｏＴｅｌｅｐｒｅｓｅｎｃｅ用）およびＣｉｓｃｏ（ＣｉｓｃｏＴｅｌｅｐｒｅｓｅｎｃｅ用）のソサエティがうまく実装されており、娯楽の分野ではフットボールの試合のライブ表示のソリューションがある。

しかし、ライブ超ＨＤ動画ストリームの現在のソリューションでは、良好な体感品質は保証されない。実際、そのような動画ストリームは概して非常に巨大であり、多くの既存のネットワークおよび／または端末の能力に適応されておらず、詳細には、それらのネットワークおよび／または端末の能力はそのストリームの大きなサイズおよび／または高い分解能をサポートすることができない。

さらに、そのような超ＨＤ動画ストリームの利用または使用は、前記ストリームのリッチさに起因して、それを自身の端末で受信するユーザに不満を起こさせる。その理由は、例えば、前記ストリームの大きな画像が自身の端末に表示されたときに、前記ユーザが大きな画像の中のストリームの関心のある領域を見ることが困難であること、および／または前記表示中に前記ユーザの注意がそれることである。

これらの欠点の克服を試みるために、そのようなＨＤ動画ストリームを管理し、ユーザにより良い経験を提供するために様々な手法が使用され得る。

詳細には、ビデオ会議の分野では、前述したＨＰおよびＣｉｓｃｏなどの会社が、専用のＨＤ端末、ストリーム、および接続を備えた専用の部屋を提案してユーザ間の通信を保証する。

しかし、そのようなソリューションは非常に高価で専用ツールを必要とするので、普通の消費者による配備および使用に関して柔軟性に欠ける。さらに、これらのソリューションでは、表示されたＨＤ動画ストリームの中の関心のある領域を自動的に選択して撮影することは不可能である。よって、このような手法は、汎用の公共的なツールまたは端末を通じて超ＨＤ動画品質を提供するための「低コスト」超ＨＤ動画ストリームの動向には適応されない。

さらに、フットボールの試合などの専用テレビ番組では、人間の動画制作チームが、特に発見的知識および独自の制作スタイルに基づいて、超ＨＤ動画ストリームの特定の部分をズームする決定をリアルタイムで行うことができる。

しかし、そのようなソリューションは手作業で費用がかかるので、低価格で自動化されることが望ましいウェブのマルチメディアサービスにはうまく適応されない。

また、超ＨＤ動画ストリーム内の関心のある領域の対話形式での選択を提供するために行われた学術研究も存在し、例えば、博士論文「Ｐｅｅｒ−ｔｏ−ＰｅｅＲＯＩｖｉｄｅｏｓｔｒｅａｍｉｎｇｗｉｔｈＩｎｔｅｒａｃｔｉｖｅＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ」（Ｐｈ．Ｄ．Ｄｉｓｓｅｒｔａｔｉｏｎ、ＤｅｐａｒｔｍｅｎｔｏｆＥｌｅｃｔｒｉｃａｌＥｎｇｉｎｅｅｒｉｎｇ、ＳｔａｎｆｏｒｄＵｎｉｖｅｒｓｉｔｙ、２０１０年４月）および、書籍「Ｈｉｇｈ−ＱｕａｌｉｔｙＶｉｓｕａｌＥｘｐｅｒｉｅｎｃｅ：Ｃｒｅａｔｉｏｎ，ＰｒｏｃｅｓｓｉｎｇａｎｄＩｎｔｅｒａｃｔｉｖｉｔｙｏｆＨｉｇｈ−ＲｅｓｏｌｕｔｉｏｎａｎｄＨｉｇｈ−ＤｉｍｅｎｓｉｏｎａｌＶｉｄｅｏＳｉｇｎａｌｓ」（Ｓｐｒｉｎｇｅｒ、ＩＳＢＮ９７８−３−６４２−１２８０１−１）、特に「ＶｉｄｅｏＳｔｒｅａｍｉｎｇｗｉｔｈＩｎｔｅｒａｃｔｉｖｅＰａｎ／Ｔｉｌｔ／Ｚｏｏｍ」章などがある。

詳細には、これらのソリューションは、自身の端末に表示された動画ストリームの画像内の関心のある領域をユーザが選択すること、または前記動画ストリーム内の特定の対象を追跡することのどちらかを提唱し、特殊な符号化および圧縮機構を開発する。

しかし、これらのソリューションには、動画ストリーム内の関心のある領域をユーザの注視に基づいて自動的に検出できるようにすることによってユーザの体感品質を改善するための機構は備わっていない。詳細には、これらのソリューションは、関心のある領域の選択のためのユーザグループの管理は考慮しない。さらに、関心のある領域の選択はテンプレートまたは追跡に基づくので、特にフットボールの試合などのスポーツイベントで発生する可能性のある、予期しない事象に適応されない。よって、これらのソリューションの手法では、動画ストリームに特定の事象が発生した場合に、それを関心のある領域として検出し撮影してユーザの端末にズームすることはできない。

さらに、「アフェクティブコンピューティング」と称する最近の手法はユーザの感情のリアルタイム測定および、それらの感情へのリアルタイムな適応に基づいており、感情の測定は特に情緒認識および／または姿勢分析機構のたまものである。しかし、この手法には２つの欠点があり、その１つはユーザの感情を測定するために使用されるセンサは煩わしく信頼性が低いこと、もう１つは、この手法のリアルタイム適応は所定のものであり、前述した人間の動画制作チームに基づくソリューションと同じ問題をかかえることである。

「Ｐｅｅｒ−ｔｏ−ＰｅｅＲＯＩｖｉｄｅｏｓｔｒｅａｍｉｎｇｗｉｔｈＩｎｔｅｒａｃｔｉｖｅＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ」（Ｐｈ．Ｄ．Ｄｉｓｓｅｒｔａｔｉｏｎ、ＤｅｐａｒｔｍｅｎｔｏｆＥｌｅｃｔｒｉｃａｌＥｎｇｉｎｅｅｒｉｎｇ、ＳｔａｎｆｏｒｄＵｎｉｖｅｒｓｉｔｙ、２０１０年４月）「Ｈｉｇｈ−ＱｕａｌｉｔｙＶｉｓｕａｌＥｘｐｅｒｉｅｎｃｅ：Ｃｒｅａｔｉｏｎ，ＰｒｏｃｅｓｓｉｎｇａｎｄＩｎｔｅｒａｃｔｉｖｉｔｙｏｆＨｉｇｈ−ＲｅｓｏｌｕｔｉｏｎａｎｄＨｉｇｈ−ＤｉｍｅｎｓｉｏｎａｌＶｉｄｅｏＳｉｇｎａｌｓ」（Ｓｐｒｉｎｇｅｒ、ＩＳＢＮ９７８−３−６４２−１２８０１−１）

本発明の目的は、あるソリューションを提供することによって従来技術を改善することである。そのソリューションは、超ＨＤ動画ストリームを視聴しているユーザの端末の能力に、特に前記端末がそのような超ＨＤ動画ストリームをサポートしていない場合に、前記動画ストリームを自動的に適合させることを可能にし、また、ユーザの端末がそのような超ＨＤ動画ストリームをサポートする十分な能力を有していても前記ユーザが前記動画ストリームの関心のある領域に集中できない場合には、ネットワークの使用、端末の使用およびユーザの理解性を最適化しながら超ＨＤ動画ストリームを前記ユーザの必要および／または能力に自動的に適応させることを可能にするものである。

その目的のために、第１の態様によれば、本発明は、少なくとも１つの動画撮影デバイスによって撮影され、ネットワーク内でユーザが自身の端末を通じて接続されているサーバによって提供される高解像度動画ストリームを自身の端末で視聴する前記ユーザの体感品質を向上するためのプロセスに関し、前記プロセスは次のステップを備える：
− 前記動画ストリームの視聴者全体のうち１つのサンプルの各ユーザについて、少なくとも前記動画ストリーム上の前記ユーザの凝視位置に関する情報を収集するステップと、
− 前記動画ストリームの主要な関心のある領域を前記関心のある領域に置かれたユーザの凝視の数に従って識別するために、前記収集された情報をすべて集計し、前記集計された情報を分析するステップと、
− 前記ユーザのいくつかの端末に表示される、前記動画ストリームの少なくとも１つの関心のある領域を選択するステップ。

第２の態様によれば、本発明は、少なくとも１つの動画撮影デバイスによって撮影され、ネットワーク内の自身の端末を通じてユーザが接続されているサーバによって提供される高解像度動画ストリームを自身の端末で視聴する前記ユーザの体感品質を向上するためのエンジンに関し、前記エンジンは次を含む：
− 前記動画ストリームの視聴者全体のうち１つのサンプルの各ユーザについて少なくとも前記動画ストリーム上の前記ユーザの凝視位置に関する情報を収集するための、少なくとも１つの収集モジュールと、
− 前記動画ストリームの主要な関心のある領域を前記関心のある領域に置かれたユーザの凝視の数に従って識別するために、前記収集した情報をすべて集計するための手段および、前記集計した情報を分析するための手段を含む少なくとも１つの推定モジュールと、
− 前記動画ストリームの少なくとも１つの関心のある領域を選択して前記サーバと相互作用することで、前記選択された関心のある領域が前記ユーザのいくつかの端末に表示されるように構成された少なくとも１つの選択モジュール。

第３の態様によれば、本発明は、少なくとも１つの動画撮影デバイスによって撮影された高解像度動画ストリームを、ユーザが自身の端末で前記動画ストリームを視聴できるように前記ユーザに提供するためのサーバに関し、前記ユーザはネットワーク内の前記サーバに自身の端末を通じて接続されており、前記サーバは前記ユーザの体感品質を向上するためにそのようなエンジンと相互作用するための手段を含み、前記手段は次を含む：
− 前記エンジンの選択モジュールによって選択された関心のある領域を含む少なくとも１つのＲＯＩ動画ストリームを構築するために前記選択モジュールと相互作用するための手段を備えるフォーカスモジュールと、
− ＲＯＩ動画ストリームを前記ユーザのうち何人かに提供するための手段を備えるストリーマモジュール。

第４の態様によれば、本発明は、自身の端末を通じて接続されているユーザに、前記端末で前記ユーザによって視聴される高解像度動画ストリームを提供するためのネットワークのアーキテクチャに関し、前記動画ストリームは少なくとも１つの動画撮影デバイスによって撮影され、前記アーキテクチャは次を含む：
− ユーザの体感品質を改善するためのエンジンであって、
・前記動画ストリームの視聴者全体のうち少なくとも１つのサンプルの各ユーザについて少なくとも前記動画ストリーム上の前記ユーザの凝視位置に関する情報を収集するための、少なくとも１つの収集モジュールと、
・前記動画ストリームの主要な関心のある領域を前記関心のある領域に置かれたユーザの凝視の数に従って識別するために、前記収集した情報をすべて集計するための手段および、前記集計した情報を分析するための手段を含む少なくとも１つの推定モジュールと、
・前記ユーザのいくつかの端末に表示される、前記動画ストリームの少なくとも１つの関心のある領域を選択するように構成された選択モジュールと
を含むエンジンと、
− ユーザが自身の端末を通じて接続されているサーバであって、前記ユーザに前記高解像度動画ストリームを提供し：
・前記エンジンの選択モジュールによって選択された関心のある領域を含む少なくとも１つのＲＯＩ動画ストリームを構築するために前記選択モジュールと相互作用するための手段を含む、フォーカスモジュールと
・ＲＯＩ動画ストリームを前記ユーザのうち何人かに提供するための手段を含むストリーマモジュールと
をさらに含む、サーバ。

第５の態様によれば、本発明はそのようなプロセスを実行するように構成されたコンピュータプログラムに関する。

第６の態様によれば、本発明は、データ処理装置にそのようなプロセスを実行させる命令を含むコンピュータ可読記憶媒体に関する。

本発明のその他の態様および長所が、添付図面を参照しながらの下記の説明によって明らかになる。

ユーザの端末上の高解像度動画ストリームの表示を管理するための本発明によるプロセスのステップを概略的に示す図である。本発明によるプロセスを実装するためのアーキテクチャを概略的に示す図である。本発明によるプロセスの主要な関心のある領域を識別するステップの一実施形態をグラフ表示した図である。高解像度動画ストリームが複数の同期した動画撮影デバイスによって提供されるときの、本発明によるプロセスの主要な関心のある領域を識別するステップの、特定の一実施形態を概略的に示す図である。高解像度動画ストリームが複数の同期した動画撮影デバイスによって提供されるときの、本発明によるプロセスの主要な関心のある領域を識別するステップの、特定の別の一実施形態を概略的に示す図である。

これらの図に関連して、少なくとも１つの動画撮影デバイス３によって撮影された高解像度動画ストリーム２を自身の端末１で視聴するユーザの体感品質を向上するためのプロセスについて下記に説明される。

詳細には、プロセスは適合されたコンピュータプログラムによって、または、データ処理装置に前記プロセスを実行させる命令を含むコンピュータ可読記憶媒体によって行われることができる。

図２は、そのような動画ストリーム２を提供するためのネットワークのアーキテクチャを表し、前記アーキテクチャは特に、前記ユーザが自身の端末１を通じて接続されているサーバ４を含む。サーバ４は、前記サーバに登録および／または接続された少なくとも１つの動画撮影デバイス３によって撮影された前記動画ストリーム２を前記ユーザに提供する。

このアーキテクチャは全体的に、様々な種類の実装および要素をサポートすることのできる動画ネットワークインフラストラクチャに依存し、そのようなインフラストラクチャは、インターネット技術タスクフォース（ＩＥＴＦ）Ｃｌｕｅワーキンググループによってさらに詳細に説明されている、同時に複数のビデオ会議の会話を実装するためのマルチポイント制御ユニット（ＭＣＵ）インフラストラクチャ、またはコンテンツデリバリネットワーク（ＣＤＮ）インフラストラクチャなどである。

よって、このアーキテクチャは、ＨＰおよびＣｉｓｃｏのソサエティにより提供されるものなどの基本的なビデオ会議インフラストラクチャ、スポーツイベントもしくは任意の他のタイプのテレビ番組のライブ拡散などの娯楽動画ストリームのためのインフラストラクチャ、仮想教室インフラストラクチャ、ビデオ調査インフラストラクチャに実装され得、または、より一般的には、カメラなどの少なくとも１つの動画撮影デバイス３で撮影される少なくとも１つの主要な場所および、ライブのイベント動画ストリームを自分の端末１で視聴する少なくとも１人のリモートユーザからなる視聴者を有する前記イベント動画ストリームを提供するための、任意のインフラストラクチャに実装され得る。

図に示されるように、端末１は特に、タブレットまたはスマートフォンなどのモバイル端末であることができ、前記端末はサーバ４に「クライアント」として接続され、それぞれ画面を備え、ユーザが前記サーバによって提供される動画ストリーム２をその画面で視聴する。

図１に示されるように、プロセスは最初のステップＡを含み、このステップで動画ストリーム２が端末１にフルサイズで表示される。前記表示の分解能は、前記表示の時点での前記端末および／またはネットワーク接続の技術的能力によって異なる。詳細には、動画ストリーム２は講義の動画撮影であり、ＰｏｗｅｒＰｏｉｎｔファイルなどのスライドを有するファイルが表示されたホワイトスクリーンの前に講師が立っている。

ユーザの体感品質を向上するために、このアーキテクチャは専用エンジン５もまた備え、サーバ４は、そのような向上を行うために前記エンジンと相互作用するための手段を備える。詳細には、サーバ４はユーザに特定の「群衆（ｃｒｏｗｄ）サービス」を提供するように構成されることができ、前記ユーザはそのサービスに接続して、そのような体感品質の向上の恩恵を、特にユーザのニーズおよび／またはユーザの利用可能な技術的能力に応じて受けることができる。

このプロセスは、動画ストリーム２の視聴者全体のうち少なくとも１つのサンプルの各ユーザについて、少なくとも前記動画ストリーム上の前記ユーザの凝視位置に関する情報を収集するステップを最初に備える。

詳細には、視聴者のサンプルは自身の端末１で動画ストリーム２をフルサイズで視聴する視聴者全体に関連するか、または、前記サンプルによって前記動画ストリームの凝視位置の主要な傾向を十分な妥当性をもって調べること、および／または新しい凝視位置の出現を効率的に検出することが可能である場合に限り、前記視聴者の特定の一部のみに関連することもできる。

例えば、視聴者のサンプルは、潜在的な新しい凝視位置を考慮する対象の新規に加わったユーザであることもできるし、または、例えば光ファイバー接続および／もしくは高解像度大画面テレビなどの高い分解能の超高解像度画像をフルサイズで表示するための十分な技術的能力をもつ端末１および／もしくはネットワーク接続を有するユーザであることもできる。

そうするために、エンジン５は、動画ストリーム２の視聴者全体の少なくとも１つのサンプルの各ユーザについて少なくとも前記動画ストリーム上の前記ユーザの凝視位置に関する情報を収集するために、少なくとも１つの収集モジュール６を備える。

詳細には、端末１は収集モジュール６にユーザの画面上の凝視位置に関する情報を提供して、前記モジュールが前記画面に表示された動画ストリーム２上の前記凝視位置を導出するようにすることができる。そうするために、各端末１は、それぞれのユーザのそれぞれの画面上の凝視位置を決定するための凝視分析機能をサポートする専用手段を備える。

さらに、ユーザの画面に表示された動画ストリーム２上のユーザの凝視位置を直接決定するための高度なサポート凝視分析機能を端末１が備える場合は、前記端末は動画ストリーム２上のユーザの凝視位置に関するそのような情報を収集モジュール６に直接送信することができる。このような機能はすでに、例えば、ＬＧおよびＳａｍｓｕｎｇソサエティによってそれぞれ提供されているＯｐｔｉｍｕｓＧｐｒｏおよびＧａｌａｘｙＳ４などのスマートフォンにおいて実現されており、またはさらに、前記端末に組み込まれた撮影デバイスによって提供されるユーザの動画撮影を分析するための凝視分析器を組み込んだ動画再生デバイスにおいても実現されている。

さらに、端末１は収集モジュール６に、動画ストリーム２の識別子、前記端末の画面上の前記動画ストリームの位置、前記画面上の前記端末の画像表示のサイズ、タイムスタンプおよび／または前記画面上の前記画像表示の分解能に関する情報などの、前記端末上の前記動画ストリーム２の表示に関する情報を送信することができ、前記収集モジュールは必要に応じてさらに、前記表示情報を使用して端末１の画面上の凝視位置を前記画面上の動画ストリーム２の位置にマッピングして、前記画像ストリーム上の前記凝視位置を導出する。

図２に関連して、端末１は収集モジュール６に、それぞれのユーザの画面上および／または動画ストリーム２上の凝視位置に関する情報、および最終的には前述したとおりの前記表示に関する情報を送信する。

例えば、図３に示されるように、ドットｄ_１、ｄ_２、ｄ_３、ｄ_４で表される凝視位置は、それぞれ、横座標として第１の主成分および縦座標として第２の主成分をもつ一対の幾何学座標によって与えられることができる。さらに、端末１上の動画ストリーム２の表示サイズは幅および高さによって与えられることができ、表示情報は、表示の形式（例えば４：３形式）、符号化の形式（例えばｈ２６４標準に準拠）、または端末１のタイプ（例えばＳｕｍｓｕｎｇＳ４スマートフォン）もまた含むことができる。

図２で、エンジン５は収集デバイス７を備える。このデバイスは、収集モジュール６、ならびに、自身の端末１のユーザの凝視位置、前記端末に以前表示されていた動画ストリーム２上の前記凝視位置、前記動画ストリームの識別子（ＩＤ）、および／または前記動画ストリームの説明に関するデータを格納することを目的とするデータベース８といったものを含む。

加えて、プロセスは、そのような凝視の検出を改善するために、ユーザの凝視位置の次の位置を予測するために、収集された前記凝視位置をさらに追跡するステップを備えることができる。そうするために、エンジン５の収集デバイス７はそのような予測を行うために、収集されたユーザの凝視位置を追跡するように構成された追跡モジュール９を備える。詳細には、追跡モジュール９は、ユーザが動画ストリーム２上で凝視する次の位置または軌道を予測するために、カルマンフィルタなどの比例積分微分（ＰＩＤ）コントローラまたはアルゴリズムを実装することができる。

プロセスはさらに、フル動画ストリーム２上の凝視位置に関する収集された情報をすべて集計するステップ、および、前記集計された情報を分析して、前記動画ストリームの主要な関心のある領域Ｒ１、Ｒ２、Ｒ３、Ｒ４を、前記関心のある領域に置かれたユーザの凝視の数に従って識別するステップを備える。

そうするために、エンジン５は少なくとも１つの推定モジュール１０を含み、このモジュールは収集モジュール６から収集された情報をすべて集計するための手段および、動画ストリーム２の主要な関心のある領域Ｒ１、Ｒ２、Ｒ３、Ｒ４を、前記関心のある領域に置かれたユーザの凝視の数に従って識別するために、前記集計された情報を分析するための手段を含む。

図１に関連して、プロセスはステップＢを含み、このステップでは、動画ストリーム２内の比較的興味深い対象、すなわち多数のユーザの凝視が置かれた対象を含む、前記動画ストリームの特定部分としてそれぞれ、前記動画ストリーム２の主要な関心のある領域Ｒ１、Ｒ２、Ｒ３が識別される。詳細には、関心のある領域Ｒ１、Ｒ２、Ｒ３はそれぞれ、ホワイトスクリーン上に表示されたスライドを有するファイル、前記ホワイトスクリーンの前に立つ講師の頭部、および、前記ホワイトスクリーンの近くにあり、前記表示されたファイルについて口頭で発表するために講師がペンおよびノートを置いたテーブルに関連する。

一般的に言えば、推定モジュール１０は主要な関心のある領域Ｒ１、Ｒ２、Ｒ３、Ｒ４を群衆手法に基づいて識別する。この手法では前記モジュールは動画ストリーム２に置かれた凝視の再分割に基づいて、前記動画ストリームの中で多数の凝視が集中する部分として主要な関心のある領域を識別する。そうするために、図３に関連して、推定モジュール１０は、主成分分析（ＰＣＡ）アルゴリズムを実装して収集モジュール６から入る集計された情報を分析するように構成されることができ、それにより、前記分析から明らかにされて前記図面に示されたユーザの凝視の主要なグループによって、主要な関心のある領域を識別することができる。

詳細には、動画ストリーム２の領域Ｒ１、Ｒ２、Ｒ３、Ｒ４を見ているユーザの数が多いほど前記領域の関心はより高いので、推定モジュール１１は、関連する凝視の数に従って識別された主要な関心のある領域Ｒ１、Ｒ２、Ｒ３、Ｒ４に重みを持たせるように構成されることができる。

図２に関連して、エンジン５は分析デバイス１１を備える。このデバイスは、推定モジュール１０、ならびに、動画ストリーム２の異なる識別された関心のある領域Ｒ１、Ｒ２、Ｒ３、Ｒ４に関するデータを格納することを目的とするデータベース１２といったものを含む。それらのデータは特に、前記関心のある領域のそれぞれのベクトルおよびクラス、前記関心のある領域に関連するユーザの数、前記関連するユーザの識別子およびクラスを含むことができる。

加えて、プロセスは、識別された関心のある領域のさらに詳細な識別を改善するため、前記関心のある領域に置かれたユーザの凝視の数の進展を識別するためにそのような関心のある領域をさらに追跡するステップを備えることができる。そうするために、エンジン５の分析デバイス１１は、そのような進展の識別を行うために識別された関心のある領域を追跡するように構成されたトレンドモジュール１３を含む。

動画ストリーム２の主要な関心のある領域Ｒ１、Ｒ２、Ｒ３、Ｒ４が識別された後は、プロセスはユーザの端末１のいくつかに表示される少なくとも１つの関心のある領域Ｒ１、Ｒ２、Ｒ３を選択するステップを備える。

そうするために、エンジン５は少なくとも１つの選択モジュール１４を備えており、このモジュールは推定モジュール１０によって識別された関心のある領域の中から少なくとも１つの関心のある領域を選択し、かつサーバ４と相互作用するように、またその結果、前記選択された興味領域がユーザの端末１のいくつかに表示されるように構成される。

同様に、サーバ４は、選択モジュールによって選択された関心のある領域Ｒ１、Ｒ２、Ｒ３を含む少なくとも１つのＲＯＩ動画ストリーム１６、１７、１８を構築するために前記選択モジュール１４と相互作用するための手段を含むフォーカスモジュール１５、ならびに、ＲＯＩ動画ストリーム１６、１７、１８をユーザの何人かに提供するための手段を含むストリーマモジュール１９のようなものを備える。

さらに、図１に関連して、プロセスは連続するステップＣ、Ｄを含み、ここで３つの主要な関心のある領域Ｒ１、Ｒ２、Ｒ３が選択され、前記選択された関心のある領域から、ユーザの端末１のいくつかに表示される特定のＲＯＩ動画ストリーム１６、１７、１８が構築される。

詳細には、選択モジュール１４は、メインのフル高解像度動画ストリーム２から選択する関心のある領域Ｒ１、Ｒ２、Ｒ３の数およびサイズを決定するように構成される。

そうするために、選択モジュール１４は特に、推定モジュール１０によって提供される識別された関心のある領域Ｒ１、Ｒ２、Ｒ３、Ｒ４に動画ストリーム２を見ているユーザを関連付けるように構成される。例えば、図３の両側矢印に関連して、選択モジュール１４は基本的なユークリッド距離アルゴリズムを実装して、あるユーザのフル動画ストリーム２上の凝視位置に基づいて前記ユーザが関心のある領域Ｒ３、Ｒ４のどちらに分類され得るかを決定する。それは、図３に示される凝視点のうち、前記ユーザの凝視点が幾何学的に最も近いグループから導出することができる。

一般的に言えば、選択モジュール１４は、ユーザの端末１のいくつかに表示される関心のある領域Ｒ１、Ｒ２、Ｒ３の選択のための特定のポリシーを定める規則を実装することができ、前記規則は、識別されたすべての関心のある領域Ｒ１、Ｒ２、Ｒ３、Ｒ４から選択される関心のある領域Ｒ１、Ｒ２、Ｒ３の、例えばサイズ、総数、および／または分解能などの特性を、とりわけ、関連するユーザの数、その領域への凝視の集中または離散などの、前記識別されたそれぞれの関心のある領域の特定のパラメータに従って定める。

選択モジュール１４はまた、ネットワークおよび／もしくはユーザの端末１の能力などの技術的パラメータ、またはその他のサービス品質の測定値に従って、表示される関心のある領域Ｒ１、Ｒ２、Ｒ３の選択を定めるための規則を実装することもできる。

例えば、選択モジュール１４は、フル動画ストリーム２を見ているユーザの総数が厳密に１０より多い場合に表示される３つの関心のある領域Ｒ１、Ｒ２、Ｒ３を選択するための規則、あるいは、ネットワーク帯域幅が減少した場合に選択される関心のある領域Ｒ１、Ｒ２、Ｒ３の数および／または前記選択される関心のある領域のサイズもしくは分解能を減少させるための規則を実装することができる。

そうするために、エンジン５は、最適化モジュール２０もまた備えてもよく、このモジュールは、少なくとも関心のある領域に置かれたユーザの注視の数ならびに／または、ネットワークおよび／もしくはユーザの端末の技術的能力に関する情報に従って前記関心のある領域Ｒ１、Ｒ２、Ｒ３の選択を最適化するために選択モジュール１４と相互作用するように構成される。よって、プロセスは、リソースの消費を最小化しながら、より効率的なサービスを維持することができる。

図２に関連して、エンジン５は決定デバイス２１を備える。このデバイスは、選択モジュール１４および最適化モジュール２０、ならびに、動画ストリーム２の選択された異なる表示される関心のある領域Ｒ１、Ｒ２、Ｒ３に関連するデータを、とりわけそれらに関連するユーザと関係付けて格納することを目的とするデータベース２２といったものを含む。

同様に、サーバ４はサービス品質（ＱｏＳ）分析モジュール２３を備え、このモジュールは、関心のある領域Ｒ１、Ｒ２、Ｒ２の選択の最適化を、少なくともユーザがそれを通して前記サーバに接続されるネットワークおよび／または端末１の技術的能力に関する情報に従って行うために、前記情報を最適化モジュール２４に提供するための手段を備える。

表示される関心のある領域Ｒ１、Ｒ２、Ｒ３の選択をさらに最適化するために、プロセスは、ユーザの凝視の数のうち１つが著しく変化したときに、新しい関心のある領域Ｒ１、Ｒ２、Ｒ３、Ｒ４を識別するためのアラートを送信するために、識別された関心のある領域Ｒ１、Ｒ２、Ｒ３のそれぞれについて、前記関心のある領域に置かれた前記ユーザの凝視の数を追跡するステップを特に備えることができる。詳細には、プロセスのこのアラートするステップは、ユーザが加入できるサービスとして提案されることができる。

そうするために、図２に関連して、決定デバイス２１はアラートモジュール２４を備え、このモジュールは、そのような追跡を行って、必要な場合に新しい関心のある領域Ｒ１、Ｒ２、Ｒ３、Ｒ４を識別するためにそのようなアラートを送信するように構成される。

例えば、アラートモジュール２４は、特定の関心のある領域Ｒ１、Ｒ２、Ｒ３、Ｒ４上のユーザの凝視の数を定期的に前記関心のある領域に関連する特定の閾値と比較することによって前記数を追跡し、前記数が前記閾値に達すると、ユーザに前記特定の興味領域を視聴するように促すために、ユーザにアラート、特にフル画像ストリーム２上の可視アラートを送信するように構成されることができる。それによって前記特定の関心のある領域が選択モジュール１４によってさらに選択されて、より大きなサイズで専用ＲＯＩ動画ストリーム１６、１７、１８の中に表示される。

逆に、アラートモジュール２４は、ある特定の関心のある領域に置かれたユーザの凝視の数が前記特定の関心のある領域の特定の閾値より低いときに、前記特定の関心のある領域の代わりに新しい関心のある領域Ｒ１、Ｒ２、Ｒ３、Ｒ４を識別するために、推定モジュール１０にアラートを送信するように構成されてもよい。

図１に関連して、ホワイトスクリーンの近くにあるテーブルに関係する関心のある領域Ｒ３は、ホワイトスクリーンに表示されたファイルと講話中の講師の頭部とにそれぞれ関する他の関心のある領域Ｒ１、Ｒ２に比べて重要度が低いと考えられるので、他の領域Ｒ１、Ｒ２とは異なり、関心のある領域Ｒ３がステップＣの間に専用ＲＯＩ動画ストリーム１６、１７、１８を通していくつかの端末１に表示されるために選択される可能性は低い。

しかし、講師がテーブルに向かって移動し、前記テーブルに置いてあったノートに記入を始めると、対応する関心のある領域Ｒ３へのユーザの凝視の数が増加するので、アラートモジュール２４が可視アラートをすべてのユーザに送信して関心のある領域Ｒ３を見るように促してもよく、すると、ステップＤで前記関心のある領域が専用ＲＯＩ動画ストリーム１６を通して前記ユーザのいくつかの端末１に表示される。

図１では、動画ストリーム２はただ１つの動画撮影デバイス３によって提供され、ただ１つの動画ビューを含む。図４に示される別の実施形態によれば、動画ストリーム２は複数の同期された動画ビューＶを含み、複数の動画撮影デバイス３から提供される。例えば、複数の動画撮影デバイス３は、ユーザによって自身の端末１に視覚化される場面の周囲に置かれることができ、前記場面は、ビデオ会議のシナリオでの会議室、または競技場でのフットボールの試合である。

その特定の実施形態では、動画ストリーム２の主要な関心のある領域は、前記動画ストリームのすべての動画ビューＶを処理することによって識別される。

そうするために各ビューＶを単一の動画ストリームとして処理することもできるが、この方法はうまく働かない。その理由は、ある動画ビューＶを見ているユーザが、同じ動画ストリーム２の別の動画ビューＶを見ている別のユーザからは見えない要素を凝視することができることである。このように、動画ストリーム２の各動画ビューＶで識別される関心のある領域は２Ｄ手法に基づいて各動画ビューＶで個別に識別され得るので、前記関心のある領域の間には一貫性が保証されない。これにより、自動システムが最も重要な関心のある領域について正確な決定を行うことは容易ではなくなる。

この問題を解決するために、動画ストリーム２の２Ｄ動画ビューＶのそれぞれで識別された関心のある領域を、より一貫性をもたせて集積するために３Ｄ顕著性マップを生成するという手法が存在し得る。実際に、そのような一貫性のある集積が可能な理由は、同一の動画ストリーム２の２つの異なる動画ビューＶで識別された２つの関心のある領域が前記動画ストリームの同一の３Ｄ対象に焦点を当て得ることである。

そうするために、一定の発見的技法がしばしば使用される。それらは、表面曲率のかなり後ろの次数の導関数における頂点の計算に依存するアルゴリズム、または、各動画ビューＶから構築された関心のある領域の既存の２Ｄマップを前記動画ビューの識別された関心のある領域から少し異なる新しい３Ｄモデルへモーフィングすることに依存するアルゴリズムなどである。

他の知られている手法は、ある動画ビューＶを視聴している単一ユーザに見られている、すなわち単一の視角から見られている、この動画ストリーム２の動画ビューＶを人間の観察者を使用して追跡することに基づく。しかし、前述したように、人間の観察者は、例えば隠蔽などに起因して他の動画ビューＶでは一時的に見えなくなっている対象を見ることができるので、誤った関心のある領域が識別され、さらに動画ストリーム２のユーザのために表示されるように選択される恐れがあり、これは前記ユーザの体感品質にとって明らかに不利益となる。

さらに、これらの手法は一般に、オンラインの対話的な様式での関心のある領域の識別には適応しない。

よって、本発明のプロセスは、この特定の実施形態に合わせ、また前述した欠点を解消するために、単一の動画撮影デバイス３によって提供された動画ストリーム２に対してと同様に、複数の動画ビューＶを含む動画ストリーム２の協調して識別された関連関心のある領域に対して、少なくとも１つのユーザのサンプルの挙動を使用するステップを備えることができる。

図４ａに関して、処理される動画ビューは、それぞれが動画撮影デバイス３によって撮影された動画入力Ｉである。複数のユーザが同じ動画ストリーム２の複数の動画入力Ｉを同時に視聴するように、この動画入力Ｉは少なくとも１人の個別のユーザにそれぞれ並列で示される。

同時に、各動画入力Ｉは、図２の収集モジュール６が行うように、少なくとも前記動画入力を視聴しているユーザの凝視位置に関する情報を収集するために、図２のエンジン５の収集モジュール６に特に技術的に類似し得る個別の収集モジュール６’に送られる。

さらに、このプロセスは、各動画ビューについて、前記動画ビューの関心のある領域を位置特定する２Ｄ顕著性マップ２ＤＳを作成し、それにより、すべての前記２Ｄ顕著性マップからグローバルな３Ｄ顕著性マップ３ＤＳを作成して、動画ストリーム２の主要な関心のある領域を識別するためのステップを備える。

図４ａに関連して、収集モジュール６’はそれぞれ、そのような２Ｄ顕著性マップを作成するように構成され、そのマップには対応する動画入力Ｉの関心のある領域が位置特定されている。

詳細には、収集モジュール６’は、関心のある領域に信頼性の値が付随する２Ｄ顕著性マップを提供することができる。収集モジュール６’はまた、凝視の収集をより堅牢に行うために一時的に情報をフィルタリングするための手段、特に、例えばパケット損失または不十分な信頼性に起因して新しいデータが入手できない場合に、以前に収集されたデータを使用するための手段を備えることができる。

詳細には、プロセスは、各２Ｄ顕著性マップ２ＤＳを変換して前記２Ｄ顕著性マップの関心のある領域の逆投影を作成し、それにより、前記逆投影から前記２Ｄ顕著性マップの３Ｄ顕著性推定３Ｄｅを作成して、すべての３Ｄ顕著性推定３Ｄｅを結合してグローバルな３Ｄ顕著性マップ３ＤＳが作成されるようにするためのステップをさらに備えることができる。

図４ａに関連して、収集モジュール６’はそれぞれ、作成した２Ｄ顕著性マップ２ＤＳを個別の逆投影モジュール２５に送る。このモジュールは、そのような逆投影を作成するための手段および、前記逆投影からそのような３Ｄ顕著性推定３Ｄｅを作成するための手段を備える。

２Ｄ顕著性マップ２ＤＳのそのような変換は特に、撮影デバイス３から入手可能であると仮定される較正データによって可能になる。例えば、動画入力Ｉの関心のある領域の逆投影は、知られているピンホールカメラモデルに準じて取得され得る。よって、２Ｄ動画入力Ｖが使用されると、前記動画入力の関心のある領域が単に逆投影されて、３Ｄ顕著性推定３Ｄｅの深度全域に一様な信頼性の値が与えられる。その理由は、関心のある領域の深度は、動画ストリーム２の対応する対象の深度に関する情報がなければ知られ得ず、その深度は単一の動画ビューからは決定できないからである。

さらに、逆投影モジュール２５は、例えば２ｄ＋ｚデータ、すなわちピクセル当たりの深度値などの補足情報が入手可能であれば、その情報を、想定される３Ｄ関心のある領域を制限するために使用することができる。よって、その場合、該当する対象の手前にある３Ｄ関心のある領域は実際に関心対象であるとは見なされ得ないので、プロセスはこれを破棄して、所与の動画ビューＩに効率的により良い３Ｄ顕著性推定３Ｄｅを与えることができる。

よって、すべての逆投影モジュール２５が３Ｄ顕著性推定３Ｄｅを推定モジュール１０’に送る。推定モジュール１０’は図２のエンジン５の推定モジュール１０に技術的に類似しながらも、すべての３Ｄ顕著性推定３Ｄｅを結合してグローバル３Ｄ顕著性マップ３ＤＳを作成するための追加手段を実装することができ、このマップの中では動画ストリーム２の主要な関心のある領域Ｒ１、Ｒ２、Ｒ２、Ｒ４が識別されて位置特定される。

例えば、推定モジュール１０’は、単に個別の３Ｄ顕著性推定３Ｄｅを合計してから、特に元の動画ビューＶの信頼性の値に依存して、取得した関心のある領域Ｒ１、Ｒ２、Ｒ３、Ｒ４の信頼性を一定の値に制限するための手段を備えることができる。しかし、推定モジュール１０’は、例えば、個別の推定３Ｄｅを使用し、以前の情報を仮説の構築に含める３Ｄ塊（ｂｌｏｂ）検出方法などの、より複雑な方法を実装することもできる。

方法はまた、顕著性推定３Ｄｅおよび結果のグローバル３Ｄ顕著性マップ３ＤＳを洗練するために、セグメンテーション情報および／または関連するモデルを使用した対象認識に依存する技法などの他の画像処理および／またはコンピュータ技法を使用するステップを備えてもよい。

図４ｂに関連して、３Ｄ顕著性マップ３ＤＳを作成するために処理される動画ビューは、画像撮影デバイス３によってそれぞれ撮影された動画入力Ｉから構築された場面モデルＭから作成された仮想カメラビューＶである。詳細には、動画入力Ｉは２Ｄ形式、２Ｄ＋ｚ形式、または他の任意のタイプの形式の動画ストリームである。

そうするために、仮想ディレクタデバイス２６が、同じ動画ストリーム２の同期された動画入力Ｉを収集し、それぞれが１つの前記仮想ビューを提供する模擬的な仮想カメラ３’を実装することによって、前記動画入力を使用してそのような仮想カメラビューＶを生成する。詳細には、仮想ディレクタデバイス２６は、特に、利用可能な実物の動画撮影デバイス３の数が限られている場合に、視覚化対象の場面が発生する３Ｄ空間の十分なサンプリングを保証するために十分な数の仮想カメラビューＶを作成する。

その後、図４ａの推定モジュール１０’の機能を特に包含し得るのみならず、収集モジュール６’および逆投影モジュール２５の機能もまた包含し得る３Ｄ顕著性マップ作成デバイス１０’’によってすべての仮想カメラビューＶが使用されて、動画ストリーム２の主要な関心のある領域Ｒ１、Ｒ２、Ｒ３、Ｒ４を位置特定するための３Ｄ顕著性マップ３ＤＳが作成される。デバイス２６、１０’’はさらに、動画プロバイダのサーバ４に接続されたユーザに体感品質を改善するためのオンラインサービスを提供するために、図２に示されるようなエンジン５または他の任意のタイプのエンジンに実装される。

より正確には、仮想ディレクタデバイス２６は、個別の動画撮影デバイス３から提供される動画ストリーム２の動画入力Ｉを収集するための手段および前記動画入力から場面モデルＭを構築および／または更新するための手段を含む場面モジュール２７、ならびに、前記場面モデルからそれぞれの仮想カメラビューＶを提供する仮想カメラ３’を生成するためのモジュール２８のようなものを備え、作成モジュール１０’’は前記仮想カメラビューから３Ｄ顕著性マップ３ＤＳを作成する。

場面モデルＭは、様々な程度の複雑さを有することができる。例えば、非常に単純な場面モデルは、その時点で受信される動画入力Ｉのフレームのみで構成されることができ、その場合、モジュール２８が生成する仮想カメラビューＶは、入力フレームのクロッピングされたバージョンまたは、近接フレーム間のいくつかの補間フレームに制限される可能性が極めて高い。さらに、より柔軟性のある方法で仮想ビューＶを生成するために、より複雑な場面モデルは何らかの幾何学的知識を導入することができる。

プロセスは、さらなる３Ｄ顕著性マップ３Ｄの作成を最適化するために、作成された３Ｄ顕著性マップ３ＤＳを分析するステップをさらに備えることができる。

図４ａに関連して、推定モジュール１０’は、生成された３Ｄ顕著性マップ３ＤＳを収集モジュール６’のそれぞれにフィードバックするように構成される。よって、収集モジュール６’は、３Ｄ顕著性マップ３ＤＳによって間接的に与えられる、よりグローバルな測定値に基づいて、それらのモジュールに対応する動画入力Ｉにおけるユーザの凝視位置の追跡を、有用に微調整することができる。

さらに、生成された３Ｄ顕著性マップ３ＤＳのフィードバックは、出力域を弱く制限することによって、やや精度の低い収集モジュール６’の使用を可能にする。例えば、標準的な動画撮影デバイス３が凝視検出に使用されるときは、通常、その結果にはあまり信頼性がないが、提供される３Ｄ顕著性マップ３ＤＳを使用すれば、プロセスは、より高い密度のモードに凝視をスナップすることができるので、出力域が縮小し、関心のある領域の正確な追跡の機会が増大する。

図４ｂに関連して、好ましくは動画ストリーム２のすでに識別されている関心のある領域Ｒ１、Ｒ２、Ｒ３、Ｒ４に焦点を当てた仮想カメラビューＶを作成するために、作成デバイス１０’’は、生成された３Ｄ顕著性マップ３ＤＳをディレクタデバイス２６にフィードバックするように構成される。

より一般的には、ディレクタデバイス２６は、モジュール２８によって生成される仮想カメラ３’の選択のために、フィードバックされた前の３Ｄ顕著性マップ３ＤＳに加えて、一定数の補足的な要因を考慮することができる。詳細には、ディレクタデバイス２６は、現在知られている場面モデルＭおよび、現在のユーザの視点の履歴を考慮することができる。この履歴は特に、様々な選択された関心のある領域Ｒ１、Ｒ２、Ｒ３および関連ユーザに関するデータを格納して、前記ユーザにコンテンツおよび視角に関して十分な多様性を提供するための、図２のデータベース２２に技術的に類似したデータベースによって提供されることができる。

ディレクタデバイス２６はまた、視覚化対象の場面が発生する３Ｄ空間の十分なサンプリングを保証するために、動画入力Ｉのサンプリング履歴を考慮することもできる。実際、新しい関心のある領域Ｒ１、Ｒ２、Ｒ３、Ｒ４を検出するために、プロセスは時折、現在の関心のある領域に必ずしも焦点を当てていないビューのサンプリングを必要とし得る。

ただし、これはプロセスが動画入力Ｉの全く無意味な領域を可視化する必要があることを意味するのではない。その理由は、前記ビデオ入力の画像は、その場面のサンプリング対象の領域が関心のある領域を含む前記場面の他の領域と共にサンプリングされる方法でフレーム化されることができるからである。さらに、動画技法でポピュラーな技法にオーバービューショットがあり、これを使用して、場面が視覚化される３Ｄ空間内の、大きな領域を再サンプリングすることもできる。

より一般的には、３Ｄ顕著性マップ３ＤＳをできる限り正確に作成できるようにするために、生成される仮想ビューＶでは、視覚化対象場面の利用可能な知識を十分に利用するべきである。加えて、場面モデルＭで３Ｄ情報が利用可能なときには、前記場面モデルから生成された仮想ビューＶのそれぞれに対して、任意選択で作成デバイス１０’’によって個別の２Ｄ顕著性マップ２ＤＳを作成できるようにするために、前記ビューもまた、そのような情報を含むべきであり、前記作成デバイス１０’’による最終的な３Ｄ顕著性マップ３ＤＳの作成を可能にするために、ディレクタデバイス２６によって前記作成デバイス１０’’に前記仮想ビューＶが個別に提供されるべきである。

したがって、取得された３Ｄ顕著性マップは内部インタフェースに提供され得るが、さらに詳細には、オンラインネットワークのクラウドベースの動画サービスプロバイダなどの公共的な外部インタフェースに提供され得る。前記サービスプロバイダは、例えば図２によるアーキテクチャによって実装される。このアーキテクチャはエンジン５と協働するサーバ４を備え、動画ストリーム２を視聴するために前記サーバに接続されているユーザに、前記ユーザ自身の挙動に従って前記動画ストリームの関心要素に焦点を当てることによって、オンラインで体感品質の改善を提供する。取得された３Ｄ顕著性マップはまた、メディア符号化の強化または動画ストリーム２内の異常を示すためにも使用され得る。

しかし、そのような３Ｄ顕著性マップをグローバル動画ストリーム２の関心のある領域Ｒ１、Ｒ２、Ｒ３、Ｒ４に焦点を当てるために使用することは、前記動画ストリームで発生するイベントに対しては明らかに事後対応的である。その理由は、専用ＲＯＩ動画ストリーム１６、１７、１８を生成できるようになる前に、前記動画ストリームのビューＩを見ているユーザは先にそのようなイベントに気付いて、さらに前記イベントを凝視する必要があることである。したがってこれにより、ある程度の遅延が生じる。

ライブショーのディレクタはこの遅延の対処に慣れているので、一般にはこの問題は許容されているが、この問題を軽減させるために少なくとも２つの方法がある。詳細には、瞬間リプレイ法は、分野に特定な異常検出器を使用する３Ｄ顕著性マップ３ＤＳ内の突然のスパイクの相関関係付けに依存して、いつ瞬間リプレイが有用であり得るか推定する。さらに、動画ストリーム２のビューＶ、Ｉのユーザによるオフライン非同期視聴によって特徴付けられるオフラインシステムでは、３Ｄ顕著性マップ３ＤＳを構築して洗練させて、前記動画ストリームを視聴したユーザが増えるに従って視聴体験を体系的に改善することができる。

その結果、プロセスは注意の散漫なユーザ、すなわち動画ストリーム２を視聴しながら他の何かを見ているユーザが前記動画ストリームの重要な要素に集中できるようにする。前記動画ストリームを視聴している前記ユーザの大きなサンプルの挙動によって前記要素が決定されて、前記重要な要素の少なくとも１つに焦点を当てたＲＯＩ動画ストリーム１６、１７、１８がフルサイズの動画ストリーム２から前記注意の散漫なユーザに向けて構築される。この手法が効果的である理由は、大多数のユーザは動画ストリーム２の最も興味深い要素に注意を集中させるという前提にこの手法が依存するので、関心のある領域Ｒ１、Ｒ２、Ｒ３を追跡するための静的な規則および信頼性の低いユーザの注視を排除することである。

さらに、プロセスは代替案として、特に、ユーザの端末１および／またはネットワーク接続の技術的能力がフルサイズの高解像度動画ストリーム２の表示をサポートしていない場合に、高解像度で重要な要素に焦点を当てたＲＯＩ動画ストリーム１６、１７、１８をユーザに提供することによってユーザの体感品質を向上することもできる。

実際に、プロセスは、動画ストリーム２の主要な関心のある領域Ｒ１、Ｒ２、Ｒ３に焦点を当てたＲＯＩ動画ストリーム１６、１７、１８を構築して、注意散漫と技術的能力の欠如の両方の問題を解決することが目標の場合には動画ストリーム２を見ているすべてのユーザに送信するか、または、そのようなＲＯＩ動画ストリーム１６、１７、１８を技術的能力の欠如に遭遇したユーザのみに送信するためのステップを備えることができる。

一般的に言えば、プロセスはまた、ただ１つのフルサイズの高解像度動画ストリーム２から複数の高解像度動画ストリーム１６、１７、１８を作成することを可能にし、また、自動動画ディレクタを使用して動的ビデオストリームを作成するために、動画編成デバイスに関連付けられることもできる。

本明細書の記述および図面は、本発明の原理を単に説明するものである。よって、当業者が、本明細書に明示的に記述または図示されていないが本発明の原理を具体化し、本発明の趣旨および範囲に含まれる、様々な構成を考案することができることが理解される。さらに、本明細書に記載されるすべての例は主として、本発明の原理および当技術分野の発展のために本発明者（複数可）が寄与する概念を理解するうえで読者を支援するための教育的目的のみであることが明示的に意図されており、そのような具体的に記載された例および条件への制限を伴わないと解釈されるものとする。さらに、本発明の原理、態様、および実施形態、ならびにその特定の例を記載した本明細書内のすべての文は、それらの均等物を包含することが意図されている。

Claims

少なくとも１つの動画撮影装置（３）によって撮影され、ネットワーク内でユーザが自身の端末（１）を通じて接続されているサーバ（４）によって提供される高解像度動画ストリーム（２、Ｉ、Ｖ）を自身の端末（１）で視聴する前記ユーザの体感品質を向上するためのプロセスであって、
− 前記動画ストリームの視聴者全体のうち１つのサンプルの各ユーザについて、少なくとも前記動画ストリーム上の前記ユーザの凝視位置に関する情報を収集するステップと、
− 前記動画ストリームの主要な関心のある領域（Ｒ１、Ｒ２、Ｒ３、Ｒ４）を前記関心のある領域に置かれたユーザの凝視の数に従って識別するために、前記収集された情報をすべて集計し、前記集計された情報を分析するステップと、
− 前記ユーザのいくつかの端末（１）に表示される、前記動画ストリームの少なくとも１つの関心のある領域（Ｒ１、Ｒ２、Ｒ３）を選択するステップと
を備える、プロセス。
動画ストリームが複数の同期された動画ビュー（Ｉ、Ｖ）を含み、前記動画ストリームの主要な関心のある領域が前記動画ビューを処理することから識別されることを特徴とする、請求項１に記載のプロセス。
動画ビューが、動画撮影デバイス（３）によってそれぞれ撮影された動画入力（Ｉ）であることを特徴とする、請求項２に記載のプロセス。
動画ビューが、動画撮影デバイス（３）によってそれぞれ撮影された動画入力（Ｉ）から構築された場面モデル（Ｍ）から作成された仮想カメラビュー（Ｖ）であることを特徴とする、請求項２に記載のプロセス。
動画ストリームの主要な関心のある領域を識別するために、各動画ビュー（Ｉ、Ｖ）について、前記動画ビューの関心のある領域を位置特定する２Ｄ顕著性マップ（２ＤＳ）を作成し、それにより、すべての前記２Ｄ顕著性マップからグローバルな３Ｄ顕著性マップ（３ＤＳ）を作成するステップを備えることを特徴とする、請求項２から４のいずれか一項に記載のプロセス。
各２Ｄ顕著性マップ（２ＤＳ）を変換するステップであって、それにより前記２Ｄ顕著性マップの関心のある領域の逆投影を作成し、それにより、前記逆投影から前記２Ｄ顕著性マップの３Ｄ顕著性推定（３Ｄｅ）を作成し、すべての３Ｄ顕著性推定（３Ｄｅ）を結合してグローバルな３Ｄ顕著性マップ（３ＤＳ）が作成される、変換するステップを備えることを特徴とする、請求項５に記載のプロセス。
さらなる３Ｄ顕著性マップ（３ＤＳ）の作成を最適化するために、作成された３Ｄ顕著性マップ（３ＤＳ）を分析するステップを備えることを特徴とする、請求項５または６に記載のプロセス。
少なくとも１つの動画撮影装置（３）によって撮影され、ネットワーク内でユーザが自身の端末（１）を通じて接続されているサーバ（４）によって提供される高解像度動画ストリーム（２、Ｉ、Ｖ）を自身の端末（１）で視聴する前記ユーザの体感品質を向上するためのエンジン（５）であって、
− 前記動画ストリームの視聴者全体のうち１つのサンプルの各ユーザについて少なくとも前記動画ストリーム上の前記ユーザの凝視位置に関する情報を収集するための、少なくとも１つの収集モジュール（６、６’）と、
− 前記動画ストリームの主要な関心のある領域（Ｒ１、Ｒ２、Ｒ３、Ｒ４）を前記関心のある領域に置かれたユーザの凝視の数に従って識別するために、前記収集した情報をすべて集計するための手段および、前記集計した情報を分析するための手段を含む少なくとも１つの推定モジュール（１０、１０’、１０’’）と、
− 前記選択された関心のある領域が前記ユーザのいくつかの端末（１）に表示されるように、少なくとも１つの関心のある領域（Ｒ１、Ｒ２、Ｒ３）を選択して、前記サーバと相互作用するように構成された少なくとも１つの選択モジュール（１４）と
を備える、エンジン。
ユーザの凝視位置の次の位置を予測するために、収集された前記凝視位置を追跡するように構成された追跡モジュール（９）をさらに備えることを特徴とする、請求項８に記載のエンジン（５）。
関心のある領域に置かれたユーザの凝視の数の進展を識別するために、識別された前記関心のある領域（Ｒ１、Ｒ２、Ｒ３、Ｒ４）を追跡するように構成されたトレンドモジュール（１３）をさらに備えることを特徴とする、請求項８または９に記載のエンジン（５）。
識別された関心のある領域（Ｒ１、Ｒ２、Ｒ３、Ｒ４）のそれぞれについて、前記関心のある領域に置かれたユーザの凝視の数を追跡し、前記の数のうち１つが著しく変化したときに、新しい関心のある領域（Ｒ１、Ｒ２、Ｒ３、Ｒ４）を識別するためのアラートを送信するように構成されたアラートモジュール（２４）をさらに備えることを特徴とする、請求項８から１０のいずれか一項に記載のエンジン（５）。
少なくとも、関心のある領域（Ｒ１、Ｒ２、Ｒ３）に置かれたユーザの注視の数、ならびに／または、ネットワークおよび／もしくはユーザの端末（１）の技術的能力に関する情報に従って前記関心のある領域（Ｒ１、Ｒ２、Ｒ３）の選択を最適化するために選択モジュール（１４）と相互作用するように構成された最適化モジュール（２０）をさらに備えることを特徴とする、請求項８から１１のいずれか一項に記載のエンジン（５）。
少なくとも１つの動画撮影装置（３）によって撮影された高解像度動画ストリーム（２、Ｉ、Ｖ）を、ユーザが自身の端末（１）で前記動画ストリームを視聴するように前記ユーザに提供するサーバ（４）であって、前記ユーザがネットワーク内の前記サーバに自身の端末（１）を通じて接続しており、前記サーバが前記ユーザの体感品質を向上するために請求項８から１２のいずれか一項に記載のエンジン（５）と相互作用する手段を備え、前記手段が、
− 前記エンジンの選択モジュール（１４）によって選択された関心のある領域（Ｒ１、Ｒ２、Ｒ３）を含む少なくとも１つのＲＯＩ動画ストリーム（１６、１７、１８）を構築するために前記選択モジュール（１４）と相互作用するための手段を備えるフォーカスモジュール（１５）と、
− ＲＯＩ動画ストリーム（１６、１７、１８）を前記ユーザのうち何人かに提供するための手段を備えるストリーマモジュール（１９）とを含む、
サーバ。
請求項１２に従属する場合に、少なくともユーザがそれを通して前記サーバに接続されるネットワークおよび／または端末（１）の技術的能力に関する情報に従って関心のある領域（Ｒ１、Ｒ２、Ｒ３）の選択の最適化を行うように、前記情報をエンジン（５）の最適化モジュール（２０）に提供するための手段を備えるサービス品質（ＱｏＳ）分析モジュール（２３）を備えることを特徴とする、請求項１３に記載のサーバ（４）。
自身の端末（１）を通じて接続されているユーザに、前記端末で前記ユーザによって視聴される高解像度動画ストリーム（２、Ｉ、Ｖ）を提供するためのネットワークのアーキテクチャであって、前記動画ストリームが少なくとも１つの動画撮影デバイス（３）によって撮影され、前記アーキテクチャが、
− ユーザの体感品質を向上するためのエンジン（５）であって、
・前記動画ストリームの視聴者全体のうち少なくとも１つのサンプルの各ユーザについて少なくとも前記動画ストリーム上の前記ユーザの凝視位置に関する情報を収集するための、少なくとも１つの収集モジュール（６、６’）、
・前記動画ストリームの主要な関心のある領域（Ｒ１、Ｒ２、Ｒ３、Ｒ４）を前記関心のある領域に置かれたユーザの凝視の数に従って識別するために、前記収集した情報をすべて集計するための手段および、前記集計した情報を分析するための手段を含む少なくとも１つの推定モジュール（１０、１０’、１０’’）、および
・前記ユーザのいくつかの端末（１）に表示される、少なくとも１つの関心のある領域（Ｒ１、Ｒ２、Ｒ３）を選択するように構成された選択モジュール（１４）
を含むエンジンと、
− ユーザが自身の端末（１）を通じて接続されているサーバ（４）であって、前記ユーザに前記高解像度動画ストリームを提供し、
・前記エンジンの選択モジュール（１４）によって選択された関心のある領域（Ｒ１、Ｒ２、Ｒ３）を含む少なくとも１つのＲＯＩ動画ストリーム（１６、１７、１８）を構築するために前記選択モジュール（１４）と相互作用するための手段を含む、フォーカスモジュール（１５）、および
・ＲＯＩ動画ストリーム（１６、１７、１８）を前記ユーザのうち何人かに提供するための手段を含むストリーマモジュール（１９）
をさらに含むサーバと
を含む、アーキテクチャ。
請求項１から７のいずれか一項に記載のプロセスを実行するように構成された、コンピュータプログラム。