JP2022550168A

JP2022550168A - 画像コンテンツを処理するための方法及び装置

Info

Publication number: JP2022550168A
Application number: JP2022519776A
Authority: JP
Inventors: ドイエン、ディディエ; ガルピン、フランク; ボワソン、ギヨーム
Original assignee: インターデジタルブイシーホールディングスフランス，エスアーエス
Priority date: 2019-09-30
Filing date: 2020-09-29
Publication date: 2022-11-30
Also published as: EP4038574A1; US20220311986A1; CN114503552A; CN114503552B; WO2021063919A1; US11962745B2

Abstract

画像コンテンツを処理するための方法及びシステムが提供される。本方法は、少なくとも１つのカメラによって捕捉されたコンテンツ画像に関する情報を受信することを含む。コンテンツには、歪んだ領域及び歪んでいない領域の両方を含む画像の多視点表現が含まれる。次いで、カメラパラメータ及び画像パラメータを取得及び使用して、当該画像内のどの領域が歪んでおらず、どの領域が歪んでいるかを決定する。これは、決定された歪んでいない情報及び歪んだ情報を使用して、画像の深度マップを計算するために使用される。次いで、歪んだ領域及び歪んでいない領域及び深度マップの計算を使用する最終立体画像がレンダリングされる。【選択図】図７

Description

本実施形態は、概して、画像処理に関し、より詳細には、送信されたカメラパラメータを使用して捕捉された画像内の深度マップを使用することに関する。

従来のカメラは、可視光に敏感な二次元センサデバイス上の三次元シーンから光を捕捉する。そのような撮像デバイスで使用される感光技術は、多くの場合、例えば、電荷結合デバイス（charge coupled device、ＣＣＤ）又は相補型金属酸化物技術（complementary metal oxide technology、ＣＭＯＳ）など、電子に光子を変換することができる半導体技術に基づく。デジタル画像光センサは、例えば、典型的には、感光電池のアレイを含み、各電池は、入射光を捕捉するように構成されている。空間情報を提供する２Ｄ画像は、画像センサデバイスの各感光電池によって捕捉された光の総量の測定から取得される。２Ｄ画像は、光の強度及び光センサの空間点における光の色に関する情報を提供することができるが、入射光の方向に情報は提供されない。

視覚認知は事後に作成される必要があるため、捕捉された２Ｄ画像から３Ｄ又は４Ｄレンダリングを生成することは複雑である。正確な視覚認識を作成する際の２つの重要な考慮事項は、視差推定及び深度マップ計算を用いて行う必要がある。深度マップは、視点からのシーンオブジェクトの表面の距離に関する情報を含む画像又は画像チャネルである。言い換えれば、深度マップは、各画素が、カメラに対してその位置で観察されている物体の距離（又は距離の逆数、若しくは距離の関数である任意の情報）を記録する特別な画像である。深度マップは、例えば、同じ視野を観察するいくつかのカメラを使用して計算され、視点間の視差の変動で深度が推測され得る。実際には、推定された深度マップは、偽の画素を示す。多くの理由により、深度マップ推定が困難になる。これらの困難のいくつかは、１つのカメラから次のカメラに部分的にマスクされている物体、異なる位置で観察された物体からの反射光の変動、視差推定困難を作製するテクスチャを含まないか、又はほとんど含まない表面、及びカメラ間の感度変動を含むことができる。

視差推定及び概念は、視覚認知において重要であり、２つの異なる視線に沿って見られる物体の視位置における変位又は差として定義され得、それらの２つの線間の傾斜角によって測定され得る。各人間の眼は、異なる及び重複するわずかに異なる視線を有する。この概念は、深度の知覚を達成することを可能にする。視差はまた、物体をわずかに異なる角度から見る光学機器にも影響を与える。

映像及びストリーミングコンテンツでは、立体視覚認知を提供することがまた更に複雑になる。異なる角度で捕捉された同じシーン画像の複数の視点が、適切な視差及び深度マップを作成するために提供される場合がある。しかしながら、関連データが広範囲であるため、ストレージ及び処理は困難になる。例えば、動き視差を提供するために、多視点コンテンツに関するデータが必要である。コンテンツに関する情報は、視点間に十分な重なりを提供するが、異なる視野角で効果を提供することができるような十分な高密度でなければならない。これは、送信されるデータ量を低減するために、任意の圧縮アルゴリズムを有効活用してアドレス指定する必要がある重要な要素の１つである（それぞれのカメラパラメータも考慮する必要がある）。残念ながら、従来技術では、現在のところ、この分野において容易で実用的な技術が提供されていない。その結果、捕捉されるデータを少なくし、三次元及び四次元の視覚認知を提供するために使用される技術を提供することが望ましい。

画像コンテンツを処理するための方法及びシステムが提供される。本方法は、少なくとも１つのカメラによって捕捉されたコンテンツ画像に関する情報を受信することを含む。コンテンツには、歪んだ領域及び歪んでいない領域の両方を含む画像の多視点表現が含まれる。次いで、カメラパラメータ及び画像パラメータを取得及び使用して、当該画像内のどの領域が歪んでおらず、どの領域が歪んでいるかを決定する。これは、決定された歪んでいない情報及び歪んだ情報を使用して、画像の深度マップを計算するために使用される。次いで、歪んだ領域及び歪んでいない領域及び深度マップの計算を使用する最終立体画像がレンダリングされる。

ここで、単なる例として、以下の図面を参照して、異なる実施形態を説明する。

実施形態による、多視点カメラを提供する概略図である。

一実施形態による、その関連する深度マップを有するシーンの図である。

１つの視点の１つの画素がカメラ位置を関連付けている、一実施形態による図である。

一実施形態によるカメラ座標系を示す。

歪んだコンテンツ及び関連する歪んだマッピングの図である。

１つ以上の実施形態による、符号化及び復号化システムの概略図である。

一実施形態による方法論のフロー図である。

多視点獲得情報を提供するテーブルの図である。多視点獲得情報を提供するテーブルの図である。

２×２のカメラパラメータを有する、一実施形態による科学的計算のテーブル図である。

科学的表現で行列を表すテーブル図である。

科学的表現形式で歪みパラメータを有する、一実施形態によるテーブルを提供する。

歪みパラメータを含むテーブルの別の図である。歪みパラメータを含むテーブルの別の図である。

一実施形態による、２×２のカメラパラメータと組み合わされた歪みがないワープマップを提供する更に別のテーブルである。一実施形態による、２×２のカメラパラメータと組み合わされた歪みがないワープマップを提供する更に別のテーブルである。一実施形態による、２×２のカメラパラメータと組み合わされた歪みがないワープマップを提供する更に別のテーブルである。

図１４－１、図１４－２及び図１４－３は、２×２のカメラアレイを有する実施形態のための歪みがないワープマップパラメータを有する更に別のテーブルの図である。２×２のカメラアレイを有する実施形態のための歪みがないワープマップパラメータを有する更に別のテーブルの図である。２×２のカメラアレイを有する実施形態のための歪みがないワープマップパラメータを有する更に別のテーブルの図である。

２つのワープマップを有する、一実施形態によるテーブルを提供する。２つのワープマップを有する、一実施形態によるテーブルを提供する。

大部分の画像捕捉は、二次元画像を提供する。これらの画像の三又は四次元レンダリングを作成するために、異なる技術を使用することができる。例えば、シーンの２つ以上の視点は、ステレオペアの較正済み又は未較正のカメラを使用して、若しくは単一のカメラを使用して複数の画像を通して、あるいはライトフィールドカメラ／プレノプティックカメラを使用するときなど、異なる角度から同じ画像を捕捉することによって、その再構成に使用することができる。

多次元視覚認知の再現を可能にするために、送信された多視点コンテンツには、有効である深度情報などの関連情報が含まれる必要がある。２つ以上のカメラ又は角度が使用されるとき、各カメラの深度マップは、十分に定義されたＭＶＤ又は多視点及び深度形式で必要とされる。この情報は、映像圧縮／圧縮解除のための高効率映像コード化（High Efficiency Video Coding、ＨＥＶＣ）規格などの技術の延長に使用される形式で、入力として送信されることが多い。

先に述べたように、動き視差を提供するために、多視点コンテンツは、視点間に十分な重なりを提供するが、異なる視野角で効果を発揮できるような十分な高密度でなければならないが、そのためには多くの捕捉された情報を必要とするので、送信されるデータ量を低減するために圧縮アルゴリズムが重要になる。以前、ＨＥＶＣコーデックの３Ｄ－ＨＥＶＣ及びＭＶ－ＨＥＶＣの拡張機能として、視点間予測が導入された。当時、多視点カメラシステムは、主に水平のみのシステムと見なされており、予測機構は、水平方向のみを有効活用していた。したがって、インタビュー差は、水平差異として定義された。この差異を使用して、別の視点における対応する画素を計算することが可能であった。現在のカメラアレイは、もはや水平のみではなく、２Ｄであるか、又は更に３Ｄ配置である。隣接する視点の対応する画素を計算するには、それぞれのカメラパラメータを考慮しなければならない、より複雑な処理を必要とする。これらの問題及び欠陥に対処するために、歪み情報などのカメラを特徴付けるための追加情報が提供されるべきである。一実施形態では、一対のカメラモードを導入して、それぞれの視点の画素位置を計算するための係数行列を表すことができる。

コンテンツ（６ＤｏＦコンテンツなど）の配信を標的とするＭＰＥＧ－Ｉプログラムは、エンドユーザがコンテンツ内を移動し、視差を認知することを可能にすることができる。クライアント側のレンダリングされたコンテンツは、観察者の頭部の動きにリアルタイムで適合させる必要がある。この視差を作成するために、通常の２Ｄコンテンツだけでなく、視聴者が自身の頭部を動かしたときに、初期角度では見えないが、異なる角度から見える可能性があるものに対応するコンテンツも配信する必要がある。このコンテンツは、典型的には、カメラアレイによって捕捉することができ、各カメラは、わずかに異なる角度及び異なる位置からそのシーンを見る。カメラ間の距離によって、システムが提供できる視差量がおおよそ決まる。そのような場合の多視点コンテンツを送信するためのデータ量は、網羅的であり得る。更に、任意の視聴位置を正しくレンダリングするための中間視点を合成することができるように、いくつかの深度マップをテクスチャと関連付けて送信する必要がある。ＭＶＤ形式は、このようなコンテンツを配信するために過去に既に使用されている。例えば、ＨＥＶＣの３Ｄ－ＨＥＶＣの拡張機能のための入力形式として既に使用されていた。この規格では、カメラパラメータは、デコーダ側で使用されるＳＥＩメッセージとして送信された。

場合によっては、特にレンダリングが体積的に網羅的であるとき、カメラパラメータは、入力視点のいずれかの空間内の所与の点の対応する位置を正確に計算するために、必須である。例えば、３Ｄ－ＨＥＶＣでは、多視点コンテンツは、水平に整列されたカメラからのみ提供され、次にそれらを後で調整することができる。これは、異なる視点が、同じグリッド上にそれぞれのカメラ主点を有するために事前処理されたことを意味する。これはまた、空間内の所与の点について、２つの異なるカメラに対応する２つの異なる視点におけるそれらの位置間の距離が、水平方向にのみ表される差異であることを意味する。

水平に整列されていない複数のカメラが使用されるとき、歪み補正などの任意の事前処理を考慮せずに調整されることはない。何かしらの較正が望ましくあり得、カメラパラメータが重要になる。必要なカメラパラメータには、
外部パラメータ、
固有パラメータ、及び
歪みパラメータが含まれる。

固有パラメータは、その焦点距離、スキュー、歪み、及び画像中心などのカメラの内部特性に対処する。一方、外部パラメータは、全体的にそれらの位置及び向きについて記載する。固有パラメータを知ることは、ユークリッド空間内のシーンの構造を推定することを可能にし、精度を低下させるレンズの歪みを除去するため、３Ｄコンピュータビジョンにとって非常に重要な最初のステップとなる。幾何光学では、歪みは、直線投影からの偏差であり、シーン内の直線が画像内の直線を維持する投影である。それは光学収差の形態である。

図６は、１つ以上の実施形態による、符号化及び復号化システムの一般的な概要を概略的に示す。図６のシステムは、１つ以上の機能を実施するように構成されている。事前処理モジュール３０は、符号化デバイス４０によって符号化するためのコンテンツを準備するために提供され得る。事前処理モジュール３０は、多画像の獲得、獲得された複数の画像を共通の空間にマージすることを実施することができる。獲得された映像データ表現に応じて、事前処理モジュール３０は、マッピング空間変化を実施することができる。符号化された後、符号化された没入型映像データ又は３ＤＣＧＩであり得るデータは、典型的には、例えば、ゲートウェイに存在する任意のネットワークインターフェースに実装され得る。次いで、データは、インターネットなどの通信ネットワークを通じて送信されるが、任意の他のネットワークも想定され得る。次いで、データは、必要に応じてネットワークインターフェース６０を介して受信される。ネットワークインターフェース６０は、ゲートウェイ、テレビ、セットトップボックス、ヘッドマウントディスプレイデバイス、没入型（投影）壁、又は任意の没入型映像レンダリングデバイス内で実装され得る。受信後、データは、復号化デバイス７００に送られる。次に、復号化されたデータは、プレーヤとすることができるコンポーネント８０によって処理される。次いで、データをレンダリングデバイス９０のために準備する。

デコーダ側では、カメラパラメータがストリームから抽出され、計算が実施されて、異なる視点の対応する画素位置を計算する（例えば、復号化プロセスにおける視点予測のために）。これらの計算には、行列積及び逆行列計算が含まれ、非常に計算が集中する可能性がある。デコーダの複雑さを低減するために、エンコーダ側でこれらのカメラパラメータを事前に計算し、デコーダの観点から、これらを改善された方法でビットストリームに送信することが可能である。

図１は、多視点カメラ１００の例示的な図を提供する。この例では、１つ以上の深度マップと関連付けられることができる１６台のカメラアレイ１１０（１１０として表される４台のカメラ×４台のカメラベース）が提供される。一実施形態では、深度マップは、８ビット表現の深さを使用できる可能性があるが、これは必須ではなく、代替の実施形態において変化する場合がある。加えて、図１は、しかしながら、例としてのみ提供されており、より多くの又はより少ないカメラ部材を有するアレイを備えた他のアレイ配置が、代替の実施形態において提供され得る。特定のカメラアレイを含む図１の例では、捕捉された視点間の重なりは重要であり、重要な圧縮ステップを必要とする。図２ａ及び図２ｂでは、理解するのを容易にするために、画像の図が、図２ａ及び図２ｂの関連する深度マップ（２１０及び２２０で参照）に示されている。

図８は、多視点獲得情報の例示を提供する、関連するテーブル（テーブル１）を示す。このテーブルは、ＨＥＶＣにおけるＳＥＩメッセージシンタックスを提供する。ＳＥＩメッセージは、カメラの固有及び外部パラメータを記載する。現在、パラメータは、視点のいずれかにおける空間内の所与の点の対応する位置を正確に計算するために、デコーダによって必要とされている。更に、先の記載には、各カメラに関連付けられた任意の歪みパラメータが含まれない。ＨＥＶＣのＳＥＩメッセージに記載されたカメラのモデルは、歪んでいないカメラのみを考慮している。歪んでいるか否かであり得る、あらゆる種類のコンテンツを考慮するために、歪みパラメータについて記載するための機会を提供することが重要である。

従来技術によって提示される別の制限は、カメラパラメータが記載されている方法（ＨＥＶＣ規格のＧ．１４．２．６セクション）において、それらが使用されるために必要とする計算量である。各回転又は並進行列の各値は、科学的表記法で与えられる。これは、符号（１ビット）、指数（６ビット）、及び仮数（ｖビット）に相当する。固有パラメータ（焦点及びスキュー及び主点）もまた、同じ表記法を使用して記載される。この表記法は、デコーダ側で使用される前にいくつかの計算を必要とする。代替の実施形態では、これらのパラメータの平行な３２ビットの固定小数点バージョンを送って、デコーダ側の計算を簡素化することが可能である。

一実施形態では、デコーダ側の計算を簡素化することは、カメラパラメータを操作するときに行われる計算の一部を除去することである可能性がある。一実施形態では、後述するように、この全計算を非常に正確な方法で実施することができ、それに対応して、１つの視点から別の視点への空間内の所与の点の位置が提示され得る。これにより、情報の抽出が、１つのカメラに対応する１つの位置を別のカメラに対応する別の位置に変換することを可能にする。一実施形態では、事前に計算された行列を、特にデコーダ側で必要な計算量を簡素化するために、提供することができる。

別の実施形態では、各視点の獲得に関連付けられているカメラパラメータがあるとき、
・あらゆる種類のコンテンツ（歪んでいないか否か）の使用を確実にするためにカメラの歪みパラメータを積分する
・事前に計算された行列積を提案することによって、デコーダの計算負荷を簡素化して、２つのカメラのグループからの画素の投影及び非投影に対処する
・事前に計算されたワープマップ及び非ワープマップを提案することによって、デコーダ側の歪みの計算を簡素化する、カメラパラメータの送信を可能にする技術を使用することができる。

加えて、多視点及び深度フォーマットを提示した概念の理解を容易にするために、エンコーダの入力形式で提供される。（多視点＋深度とは、各視点についてＲＧＢコンテンツが同じ画素解像度で深度マップと関連付けられていることを意味する。この深度マップは、当業者には既知であるように、任意の手段（計算、測定など）によって生成され得る。一実施形態では、このようなコンテンツを複数のカメラから正しく有効活用するために、焦点距離又は主点位置など、カメラの相対位置（外部パラメータ）及び個々のカメラパラメータ（固有パラメータ）を決定するために較正段階が必要である。

一実施形態では、この較正段階は、特定の試験パターン及び関連するソフトウェアを使用して、撮影前に行われる。本明細書で使用される実施形態のいくつかと併せて開発及び使用される技術を理解するために、多視点及び深度コンテンツ情報の圧縮に関するいくつかの背景材料を探索する必要がある。この目的のために、空間内の異なる点の様々な視点を使用する例を探索し、空間内のこれらの点のうちの少なくとも１つについて異なる視点における対応する画素位置を計算することが有用である。一実施形態では、図３に示されるように、１つの視点の１つの画素について、この点について別のカメラによって獲得されたかのように対応する位置を決定するために、関連するカメラ位置を計算することができる。この例では、この点の位置は、カメラｃのＰ（ｕ、ｖ）であり（３１０として参照）、これはまた、３２０で参照されるように、カメラｃ’によって獲得された場合の位置Ｐ’（ｕ’、ｖ’）に対応する。

本実施形態では、点Ｐに関する情報がある場合、固有及び外部パラメータは、Ｐ’の計算を可能にするために使用される。普通のピンホールとして較正されたカメラを考慮する。仮にその固有行列を

とすると、
・ｆは、射出ひとみからセンサまでの距離を示し、画素で表され、文献上「焦点距離」と呼ばれることが多く、
・

は、いわゆる「主点」の画素座標、すなわち、センサ上へのピンホールの直交投影を示し、
・ α及びγは、それぞれ、画素のアスペクト比及びセンサのスキュー係数を示す。

一実施形態では、

が、カメラの座標系（Coordinate System、ＣＳ）における所与の点の座標である場合、その画像投影

の座標は、

によって与えられ（画素で）、
式中、記号≡は、同次ベクトル

間の当量関係を示す。
仮に

とすると、カメラの姿勢行列を示し、式中、

は、それぞれ、参照座標系（ＣＳ）におけるカメラの向き及び位置を示す。カメラの外部行列は、

によって定義されており、

の場合、それぞれ、カメラＣＳ及び参照ＣＳ内の同じ点の座標を示し、次いで、

を示す。これは、図４を検討することによって更に理解することができる。図４では、カメラ座標系（４１０）が、並進行列（４２０）中の並進行列を使用して示される。

所与のカメラ及び現在の視点の場合、＃ｃをその指数とする。

を現在の画素とし、ｚをその推定深度とする。参照視点＃ｃ’における対応する一致は、

である。
これらのパラメータ及び式（１）の場合、カメラごとに送信しながら空間内の１つの点について異なる視点の対応する画素位置を計算することが可能である。
－行列Ｋ（固有パラメータ）
－行列Ｒ及びＴ（回転行列及び並進行列）
Ｋ^－１及びＲ^－１は、式（１）を実施するためにデコーダ側で計算されるべきである。これは最先端の状態であり、Ｋ、Ｒ、及びＴは、ＳＥＩメッセージとして送信されるデータである（当業者には既知であるように、ＨＥＶＣ規格のＧ．１４．２．６セクションに記載されている）。
実施形態１ａ：２×２のカメラパラメータ、データの科学的表現

別の視点上への１つの画素の投影を事前に計算するために、固有及び外部行列を送信する代わりに、２つのカメラの各グループを、式（１）に対応する行列の必要な積を送信することが可能である。Ｐを、Ｐ＝（ＲＴ）に置き換え、Ｑを、Ｑ＝（Ｒ＾（－１）－Ｒ＾（－１）．Ｔ）に置き換える。

方程式の右側の計算

次いで、最終的に、エラー！参照元が見つかりません。と記述される。

ストレージに関しては、２×２カメラパラメータのアプローチは、したがってカメラペア当たり３×３行列Ａ＿ｃｃ’及び３×１ベクトルＢ＿ｃｃ’のみを必要とする。

式中、

理論的には、カメラペアの任意の組み合わせを送信することができ、これはｎ台のカメラに対してｎ^２組の情報を意味する。それにもかかわらず、一実施形態では、全ての組み合わせにおいて（既に復号化された視点を使用して）復号化される視点の予測は必要とされない。符号化された視点間の通常の依存関係に従って、所与の数のカメラペアのみが必要である。送信されるペアの数は、ｎ^２「台のカメラペア」の代わりに２＊ｎ順である可能性が高い。

図９は、２×２のカメラパラメータの例を有する、一実施形態によるテーブル（テーブル２）を提供する。このテーブルは、科学的表現の計算及び数字を提供する。また、先に述べたように式（２）は、これらの同次座標を得るために、ｚによって暗黙の除算が必要であることに留意されたい。デコーダ側で行われる計算を簡素化するために、この除算は、所与のビット数のシフトによって近似することができる（所与の丸めエラーを導入する）。この例では、ａ／ｚは、ａ／（ｆｌｏｏｒ（ｌｏｇ２（ｚ）））によって置き換えられる。
実施形態１ｂ：２×２のカメラパラメータ、データの固定小数点表現

図１０のテーブル（テーブル３）にも示されるこの実施形態では、科学的表現におけるＡｃｃ’及びＢｃｃ’行列の両方の任意の値を表す代わりに、そのような情報を固定小数点表現で提示することが可能である。このように、このテーブルに現れるコンポーネントは、このテーブルで提供されるエントリを示すように修正される。しかしながら、本文書の残りについて、残りの実施形態のうちのいずれかについて、パラメータが科学的表記法で記載されている場合、これらのパラメータの各々の固定小数点表現の仕様を検討することが可能であることに留意されたい。その後、同じパラメータを固定小数点表現で扱う同様の実施形態が提案される可能性がある。
光学的歪みを提示する多視点コンテンツ。

先の記載は、光学系によってもたらされる歪みを除去するために、カメラからの元のコンテンツが修正されていることを意味する歪んでないコンテンツに基づいていた。ここで、この歪みを補正することなく、コンテンツを考慮する。ピンホールモデルは、実際の光学系で生じる幾何学的歪みのために、正確な対応を提供することができない。まず、

は、固有行列の最初の２行を示すものとする。また、

は、逆固有行列の最初の２行を示すものとする。

を、所与のカメラの３Ｄ点のＣＳとする。対応する同次ベクトル

を考慮する

光学的歪みを考慮に入れると、画像投影方程式は以下のようになる。

は、歪みによって誘発された前方ワーピング演算子を示す。Ｗは、通常、多項式であり、したがって、浮動小数点形式の一組の係数によって定義される。
｛ａ_ｋ｝_ｋ≦Ｎ
文献には、様々な歪みモデルが存在する。例えば、Ｚｈａｎｇは、半径方向の歪みの最初の２項のみを考慮する（Ｚ．Ｚｈａｎｇ、「Ａｆｌｅｘｉｂｌｅｎｅｗｔｅｃｈｎｉｑｕｅｆｏｒｃａｍｅｒａｃａｌｉｂｒａｔｉｏｎ」、ＩＥＥＥＴｒａｎｓ．ＰａｔｔｅｒｎＡｎａｌｙｓｉｓ＆ＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ｖｏｌ．２２，ｎｏ．１１，ｐｐ．１３３０～１３３４，Ｎｏｖ．２０００）：

式中、

は、投影の半径を示す。
一方、彼の有名なＭａｔｌａｂツールボックス（ｈｔｔｐ：／／ｗｗｗ．ｖｉｓｉｏｎ．ｃａｌｔｅｃｈ．ｅｄｕ／ｂｏｕｇｕｅｔｊ／ｃａｌｉｂ＿ｄｏｃ／）では、Ｂｏｕｇｕｅｔは、接線歪みと高次の半径方向の歪みも考慮した、より高性能の５係数モデルを使用している。

式中、

そのような多項式モデルを反転させることは、有理分数をもたらし、これは、無意味な計算の複雑さを誘発するであろう。歪みがない^１ワーピングを同じ次数の多項式で近似することは、非常に簡単である。
^１「歪みがない」という表現は、「逆歪み」という意味で、歪んだ光線（光学系の画像センサに到達する）から物体全体の歪んでいない光線に戻るワーピングに対応する。

現在、歪んだコンテンツに対するいくつかの実施形態をここで探索することができる。最初の１つは、多項式計算を必要とするが、メタデータを最もコンパクトな形態に制限する。その後、ループ性能を改善するが、歪みがないワープマップを事前に計算する必要がある。
実施形態２：多項式演算を特徴とする歪みパラメータ

本実施形態では、既に適用されたモデルに基づいて、歪みによって記載されるパラメータの数は変化し得る。送信する第１の情報は、（既知のモデルのリストの中で）適用されるモデルである。パラメータの数は、モデルから推測される。歪み情報及び歪みがない情報の両方は、復号化側での歪みがない係数を計算することを回避するために送られる。シンタックスの観点では、そのような情報の送信は、図１１（テーブル４）に反映される。
実施形態３：２×２のカメラパラメータ表現と組み合わせた多項式計算を特徴とする歪みパラメータ

歪み式（１）を考慮するとき、以下のようになる。

式中、

そして、回転行列及び並進ベクトルに戻る。

これは、以下のように再公式化することができる。

式中、

また、歪みがあるため、単一の線形代数演算として計算することができない点にも留意されたい。加えて、本実施形態は、カメラ２台当たり、３×３行列

及び３×１ベクトル

に加えて、カメラ１台当たり、２つの多項式Ｗ_ｃ並びに

及び２つの２×３行列

並びに

のストレージを必要とする。

これは、図１２に示されており、テーブル５（実施形態３、２×２のカメラペアパラメータと組み合わせた歪みパラメータ、科学的表現）を参照する。
実施形態４：２×２のカメラパラメータ表現と組み合わせた歪みがないワープマップを使用する歪んだコンテンツ

図５は、歪んだコンテンツ及び関連する歪んだマッピングの図である。以前の方程式セットでは、多項式計算

は、歪みがないワープマップ

を使用することによって回避することができ、

は、

によって定義される。
式（５）は、以下のようになる。

又は等価に、

これは、以下のように再公式化することができる。

式中、

ストレージに関しては、本実施形態は、カメラ２台当たり、３×３行列

及び３×１ベクトル

に加えて、カメラ１台当たり、１つの多項式Ｗ_ｃ、１つの歪みがないマップ

及び１つの２×３行列

（２つの多項式並びに２つの２×３行列の代わりに）を必要とする。

また、歪みがないワープマップの事前計算により、多項式計算の半分を節約することができることに留意されたい。ワープマップは、入力画像よりも低い解像度を提示し得る。その場合、ワープされた位置は、事前に計算されたノードから補間される。サブサンプル処理係数は、送信する情報量を低減するために、水平方向及び垂直方向の両方に適用することができる。これは、テーブル６で参照されるように、図１３に更に示されている。

別の実施形態では、アンワープマップのサブサンプル処理係数を定義する代わりに（サブサンプル処理係数Ｘ及びサブサンプル処理係数Ｙ）、歪みがないマップの水平及び垂直のサイズが直接送信される。図１３のテーブル６は、テーブル７として参照されるように、図１４に示されるように修正される。同様の実施形態は、サブサンプル処理係数をマップのサイズ（歪みがないマップ及び歪みマップの両方について）に置き換えることによって、実施形態５について提案することができることにも留意されたい。
実施形態５：２×２のカメラパラメータ表現と組み合わせた歪みワープマップ及び歪みがないワープマップを使用する歪んだコンテンツ
また、ワープマップは、

を定義することによって、残りの多項式計算を回避するために使用することができる。

は、以下のとおりである。

この場合、式（４）は、以下のようになる。

式中、

又は等価に、

これは、以下のように再公式化することができる。

式中、

送信に関しては、本実施形態は、カメラ２台当たり、３×３行列

及び１×３ベクトル

に加えて、カメラ１台当たり、２つのワープマップ

を必要とする。これは、図１５、テーブル８で捕捉される。

図７は、一実施形態のフローチャート図である。図７では、ステップ７００において、少なくとも１つのカメラによって捕捉されたコンテンツの周りのプロセッサなどから、情報が受信される。複数のカメラが使用され、コンテンツが複数の画像又は複数の角度からの同じ画像を含むことが可能である。受信された情報は、一実施形態では、７１０に示されるようなコンテンツの歪んでいない、及び歪んだレンダリングのためのカメラパラメータを含む。次いで、ステップ７２０において、行列がカメラのために計算される。ステップ７３０では、歪んだコンテンツに対処するために歪みパラメータが取得される。ステップ７４０では、歪みパラメータを含むカメラペアの行列に対して計算が行われる。ステップ７５０では、歪み補償の計算を簡素化するためにワープマップが計算され、次いで、ステップ７６０で最終画像がレンダリングされる。

Claims

方法であって、
少なくとも１つのカメラによって捕捉されたコンテンツ画像に関する情報を受信することであって、
前記コンテンツ画像が、歪んだ領域及び歪んでいない領域の両方を含む画像の多視点表現を含む、受信することと、
カメラパラメータ及び画像パラメータのうちの少なくとも１つを取得することと、
前記少なくとも１つの画像を使用して、前記画像内のどの領域が歪んでおらず、どの領域が歪んでいるかを示すカメラパラメータ歪み情報を取得することと、
前記歪み情報を使用して、前記画像の深度マップを計算することと、を含む、方法。
装置であって、
１つ以上のプロセッサであって、
少なくとも１つのカメラによって捕捉されたコンテンツ画像に関する情報を受信することであって、前記コンテンツ画像が、歪んだ領域及び歪んでいない領域の両方を含む画像の多視点表現を含む、受信することと、
カメラパラメータ及び画像パラメータのうちの少なくとも１つを取得することと、
前記少なくとも１つの画像を使用して、前記画像内のどの領域が歪んでおらず、どの領域が歪んでいるかを示すカメラパラメータ歪み情報を取得することと、前記歪み情報を使用して、前記画像の深度マップを提供することと、を行うために構成されている、１つ以上のプロセッサを備える、装置。
前記歪み情報及び前記深度マップを使用する最終立体画像をレンダリングすることを更に含む、請求項１に記載の方法。
前記１つ以上のプロセッサが、前記歪んだ領域及び歪んでいない領域並びに深度マップの計算を使用する最終立体画像をレンダリングするために構成されている、請求項２に記載の装置。
少なくとも一対のカメラが、多視点画像を捕捉するために使用される、請求項１若しくは３に記載の方法又は請求項２若しくは４に記載の装置。
前記パラメータが、前記カメラペアのための行列を提供するためにも使用される、請求項５に記載の方法又は請求項５に記載の装置。
前記歪み情報が、歪んだコンテンツを取得するために提供される、請求項５若しくは６に記載の方法又は請求項５若しくは６に記載の装置。
前記歪み情報が、歪んだコンテンツのアドレスを取得するために提供される、請求項７に記載の方法又は請求項７に記載の装置。
前記カメラペアのための行列が、歪みパラメータも含む、請求項５若しくは６に記載の方法又は請求項５若しくは６に記載の装置。
前記歪み情報が、歪み補償値を提供して、ワープマップを計算するために使用される、請求項９に記載の方法又は請求項９に記載の装置。
前記カメラペアと関連付けられた前記行列が、ワープマップを決定するために使用される、請求項９に記載の方法又は請求項９に記載の装置。
前記ワープマップが、動きベクトルの精密化として更に定義される、請求項１１に記載の方法又は請求項１１に記載の装置。
前記ワープマップが、予測モード（ｍｖｄ）と関連付けられている、請求項１２に記載の方法又は請求項１２に記載の装置。
プロセッサに、請求項１、３又は５～１３のいずれか一項に記載の方法を実施させるための命令を内部に記憶している、非一時的なプロセッサ可読媒体。
請求項１、３又は５～１３のいずれか一項に記載の方法に従って実行するためのプログラムコードの命令を運ぶ、非一時的な記憶媒体。