JP2022550168A - 画像コンテンツを処理するための方法及び装置 - Google Patents

画像コンテンツを処理するための方法及び装置 Download PDF

Info

Publication number
JP2022550168A
JP2022550168A JP2022519776A JP2022519776A JP2022550168A JP 2022550168 A JP2022550168 A JP 2022550168A JP 2022519776 A JP2022519776 A JP 2022519776A JP 2022519776 A JP2022519776 A JP 2022519776A JP 2022550168 A JP2022550168 A JP 2022550168A
Authority
JP
Japan
Prior art keywords
camera
image
distorted
parameters
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022519776A
Other languages
English (en)
Inventor
ドイエン、ディディエ
ガルピン、フランク
ボワソン、ギヨーム
Original Assignee
インターデジタル ブイシー ホールディングス フランス,エスアーエス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターデジタル ブイシー ホールディングス フランス,エスアーエス filed Critical インターデジタル ブイシー ホールディングス フランス,エスアーエス
Publication of JP2022550168A publication Critical patent/JP2022550168A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • G06T7/596Depth or shape recovery from multiple images from stereo images from three or more stereo images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

画像コンテンツを処理するための方法及びシステムが提供される。本方法は、少なくとも1つのカメラによって捕捉されたコンテンツ画像に関する情報を受信することを含む。コンテンツには、歪んだ領域及び歪んでいない領域の両方を含む画像の多視点表現が含まれる。次いで、カメラパラメータ及び画像パラメータを取得及び使用して、当該画像内のどの領域が歪んでおらず、どの領域が歪んでいるかを決定する。これは、決定された歪んでいない情報及び歪んだ情報を使用して、画像の深度マップを計算するために使用される。次いで、歪んだ領域及び歪んでいない領域及び深度マップの計算を使用する最終立体画像がレンダリングされる。【選択図】図7

Description

本実施形態は、概して、画像処理に関し、より詳細には、送信されたカメラパラメータを使用して捕捉された画像内の深度マップを使用することに関する。
従来のカメラは、可視光に敏感な二次元センサデバイス上の三次元シーンから光を捕捉する。そのような撮像デバイスで使用される感光技術は、多くの場合、例えば、電荷結合デバイス(charge coupled device、CCD)又は相補型金属酸化物技術(complementary metal oxide technology、CMOS)など、電子に光子を変換することができる半導体技術に基づく。デジタル画像光センサは、例えば、典型的には、感光電池のアレイを含み、各電池は、入射光を捕捉するように構成されている。空間情報を提供する2D画像は、画像センサデバイスの各感光電池によって捕捉された光の総量の測定から取得される。2D画像は、光の強度及び光センサの空間点における光の色に関する情報を提供することができるが、入射光の方向に情報は提供されない。
視覚認知は事後に作成される必要があるため、捕捉された2D画像から3D又は4Dレンダリングを生成することは複雑である。正確な視覚認識を作成する際の2つの重要な考慮事項は、視差推定及び深度マップ計算を用いて行う必要がある。深度マップは、視点からのシーンオブジェクトの表面の距離に関する情報を含む画像又は画像チャネルである。言い換えれば、深度マップは、各画素が、カメラに対してその位置で観察されている物体の距離(又は距離の逆数、若しくは距離の関数である任意の情報)を記録する特別な画像である。深度マップは、例えば、同じ視野を観察するいくつかのカメラを使用して計算され、視点間の視差の変動で深度が推測され得る。実際には、推定された深度マップは、偽の画素を示す。多くの理由により、深度マップ推定が困難になる。これらの困難のいくつかは、1つのカメラから次のカメラに部分的にマスクされている物体、異なる位置で観察された物体からの反射光の変動、視差推定困難を作製するテクスチャを含まないか、又はほとんど含まない表面、及びカメラ間の感度変動を含むことができる。
視差推定及び概念は、視覚認知において重要であり、2つの異なる視線に沿って見られる物体の視位置における変位又は差として定義され得、それらの2つの線間の傾斜角によって測定され得る。各人間の眼は、異なる及び重複するわずかに異なる視線を有する。この概念は、深度の知覚を達成することを可能にする。視差はまた、物体をわずかに異なる角度から見る光学機器にも影響を与える。
映像及びストリーミングコンテンツでは、立体視覚認知を提供することがまた更に複雑になる。異なる角度で捕捉された同じシーン画像の複数の視点が、適切な視差及び深度マップを作成するために提供される場合がある。しかしながら、関連データが広範囲であるため、ストレージ及び処理は困難になる。例えば、動き視差を提供するために、多視点コンテンツに関するデータが必要である。コンテンツに関する情報は、視点間に十分な重なりを提供するが、異なる視野角で効果を提供することができるような十分な高密度でなければならない。これは、送信されるデータ量を低減するために、任意の圧縮アルゴリズムを有効活用してアドレス指定する必要がある重要な要素の1つである(それぞれのカメラパラメータも考慮する必要がある)。残念ながら、従来技術では、現在のところ、この分野において容易で実用的な技術が提供されていない。その結果、捕捉されるデータを少なくし、三次元及び四次元の視覚認知を提供するために使用される技術を提供することが望ましい。
画像コンテンツを処理するための方法及びシステムが提供される。本方法は、少なくとも1つのカメラによって捕捉されたコンテンツ画像に関する情報を受信することを含む。コンテンツには、歪んだ領域及び歪んでいない領域の両方を含む画像の多視点表現が含まれる。次いで、カメラパラメータ及び画像パラメータを取得及び使用して、当該画像内のどの領域が歪んでおらず、どの領域が歪んでいるかを決定する。これは、決定された歪んでいない情報及び歪んだ情報を使用して、画像の深度マップを計算するために使用される。次いで、歪んだ領域及び歪んでいない領域及び深度マップの計算を使用する最終立体画像がレンダリングされる。
ここで、単なる例として、以下の図面を参照して、異なる実施形態を説明する。
実施形態による、多視点カメラを提供する概略図である。
一実施形態による、その関連する深度マップを有するシーンの図である。
1つの視点の1つの画素がカメラ位置を関連付けている、一実施形態による図である。
一実施形態によるカメラ座標系を示す。
歪んだコンテンツ及び関連する歪んだマッピングの図である。
1つ以上の実施形態による、符号化及び復号化システムの概略図である。
一実施形態による方法論のフロー図である。
多視点獲得情報を提供するテーブルの図である。 多視点獲得情報を提供するテーブルの図である。
2×2のカメラパラメータを有する、一実施形態による科学的計算のテーブル図である。
科学的表現で行列を表すテーブル図である。
科学的表現形式で歪みパラメータを有する、一実施形態によるテーブルを提供する。
歪みパラメータを含むテーブルの別の図である。 歪みパラメータを含むテーブルの別の図である。
一実施形態による、2×2のカメラパラメータと組み合わされた歪みがないワープマップを提供する更に別のテーブルである。 一実施形態による、2×2のカメラパラメータと組み合わされた歪みがないワープマップを提供する更に別のテーブルである。 一実施形態による、2×2のカメラパラメータと組み合わされた歪みがないワープマップを提供する更に別のテーブルである。
図14-1、図14-2及び図14-3は、2×2のカメラアレイを有する実施形態のための歪みがないワープマップパラメータを有する更に別のテーブルの図である。 2×2のカメラアレイを有する実施形態のための歪みがないワープマップパラメータを有する更に別のテーブルの図である。 2×2のカメラアレイを有する実施形態のための歪みがないワープマップパラメータを有する更に別のテーブルの図である。
2つのワープマップを有する、一実施形態によるテーブルを提供する。 2つのワープマップを有する、一実施形態によるテーブルを提供する。
大部分の画像捕捉は、二次元画像を提供する。これらの画像の三又は四次元レンダリングを作成するために、異なる技術を使用することができる。例えば、シーンの2つ以上の視点は、ステレオペアの較正済み又は未較正のカメラを使用して、若しくは単一のカメラを使用して複数の画像を通して、あるいはライトフィールドカメラ/プレノプティックカメラを使用するときなど、異なる角度から同じ画像を捕捉することによって、その再構成に使用することができる。
多次元視覚認知の再現を可能にするために、送信された多視点コンテンツには、有効である深度情報などの関連情報が含まれる必要がある。2つ以上のカメラ又は角度が使用されるとき、各カメラの深度マップは、十分に定義されたMVD又は多視点及び深度形式で必要とされる。この情報は、映像圧縮/圧縮解除のための高効率映像コード化(High Efficiency Video Coding、HEVC)規格などの技術の延長に使用される形式で、入力として送信されることが多い。
先に述べたように、動き視差を提供するために、多視点コンテンツは、視点間に十分な重なりを提供するが、異なる視野角で効果を発揮できるような十分な高密度でなければならないが、そのためには多くの捕捉された情報を必要とするので、送信されるデータ量を低減するために圧縮アルゴリズムが重要になる。以前、HEVCコーデックの3D-HEVC及びMV-HEVCの拡張機能として、視点間予測が導入された。当時、多視点カメラシステムは、主に水平のみのシステムと見なされており、予測機構は、水平方向のみを有効活用していた。したがって、インタビュー差は、水平差異として定義された。この差異を使用して、別の視点における対応する画素を計算することが可能であった。現在のカメラアレイは、もはや水平のみではなく、2Dであるか、又は更に3D配置である。隣接する視点の対応する画素を計算するには、それぞれのカメラパラメータを考慮しなければならない、より複雑な処理を必要とする。これらの問題及び欠陥に対処するために、歪み情報などのカメラを特徴付けるための追加情報が提供されるべきである。一実施形態では、一対のカメラモードを導入して、それぞれの視点の画素位置を計算するための係数行列を表すことができる。
コンテンツ(6DoFコンテンツなど)の配信を標的とするMPEG-Iプログラムは、エンドユーザがコンテンツ内を移動し、視差を認知することを可能にすることができる。クライアント側のレンダリングされたコンテンツは、観察者の頭部の動きにリアルタイムで適合させる必要がある。この視差を作成するために、通常の2Dコンテンツだけでなく、視聴者が自身の頭部を動かしたときに、初期角度では見えないが、異なる角度から見える可能性があるものに対応するコンテンツも配信する必要がある。このコンテンツは、典型的には、カメラアレイによって捕捉することができ、各カメラは、わずかに異なる角度及び異なる位置からそのシーンを見る。カメラ間の距離によって、システムが提供できる視差量がおおよそ決まる。そのような場合の多視点コンテンツを送信するためのデータ量は、網羅的であり得る。更に、任意の視聴位置を正しくレンダリングするための中間視点を合成することができるように、いくつかの深度マップをテクスチャと関連付けて送信する必要がある。MVD形式は、このようなコンテンツを配信するために過去に既に使用されている。例えば、HEVCの3D-HEVCの拡張機能のための入力形式として既に使用されていた。この規格では、カメラパラメータは、デコーダ側で使用されるSEIメッセージとして送信された。
場合によっては、特にレンダリングが体積的に網羅的であるとき、カメラパラメータは、入力視点のいずれかの空間内の所与の点の対応する位置を正確に計算するために、必須である。例えば、3D-HEVCでは、多視点コンテンツは、水平に整列されたカメラからのみ提供され、次にそれらを後で調整することができる。これは、異なる視点が、同じグリッド上にそれぞれのカメラ主点を有するために事前処理されたことを意味する。これはまた、空間内の所与の点について、2つの異なるカメラに対応する2つの異なる視点におけるそれらの位置間の距離が、水平方向にのみ表される差異であることを意味する。
水平に整列されていない複数のカメラが使用されるとき、歪み補正などの任意の事前処理を考慮せずに調整されることはない。何かしらの較正が望ましくあり得、カメラパラメータが重要になる。必要なカメラパラメータには、
外部パラメータ、
固有パラメータ、及び
歪みパラメータが含まれる。
固有パラメータは、その焦点距離、スキュー、歪み、及び画像中心などのカメラの内部特性に対処する。一方、外部パラメータは、全体的にそれらの位置及び向きについて記載する。固有パラメータを知ることは、ユークリッド空間内のシーンの構造を推定することを可能にし、精度を低下させるレンズの歪みを除去するため、3Dコンピュータビジョンにとって非常に重要な最初のステップとなる。幾何光学では、歪みは、直線投影からの偏差であり、シーン内の直線が画像内の直線を維持する投影である。それは光学収差の形態である。
図6は、1つ以上の実施形態による、符号化及び復号化システムの一般的な概要を概略的に示す。図6のシステムは、1つ以上の機能を実施するように構成されている。事前処理モジュール30は、符号化デバイス40によって符号化するためのコンテンツを準備するために提供され得る。事前処理モジュール30は、多画像の獲得、獲得された複数の画像を共通の空間にマージすることを実施することができる。獲得された映像データ表現に応じて、事前処理モジュール30は、マッピング空間変化を実施することができる。符号化された後、符号化された没入型映像データ又は3D CGIであり得るデータは、典型的には、例えば、ゲートウェイに存在する任意のネットワークインターフェースに実装され得る。次いで、データは、インターネットなどの通信ネットワークを通じて送信されるが、任意の他のネットワークも想定され得る。次いで、データは、必要に応じてネットワークインターフェース60を介して受信される。ネットワークインターフェース60は、ゲートウェイ、テレビ、セットトップボックス、ヘッドマウントディスプレイデバイス、没入型(投影)壁、又は任意の没入型映像レンダリングデバイス内で実装され得る。受信後、データは、復号化デバイス700に送られる。次に、復号化されたデータは、プレーヤとすることができるコンポーネント80によって処理される。次いで、データをレンダリングデバイス90のために準備する。
デコーダ側では、カメラパラメータがストリームから抽出され、計算が実施されて、異なる視点の対応する画素位置を計算する(例えば、復号化プロセスにおける視点予測のために)。これらの計算には、行列積及び逆行列計算が含まれ、非常に計算が集中する可能性がある。デコーダの複雑さを低減するために、エンコーダ側でこれらのカメラパラメータを事前に計算し、デコーダの観点から、これらを改善された方法でビットストリームに送信することが可能である。
図1は、多視点カメラ100の例示的な図を提供する。この例では、1つ以上の深度マップと関連付けられることができる16台のカメラアレイ110(110として表される4台のカメラ×4台のカメラベース)が提供される。一実施形態では、深度マップは、8ビット表現の深さを使用できる可能性があるが、これは必須ではなく、代替の実施形態において変化する場合がある。加えて、図1は、しかしながら、例としてのみ提供されており、より多くの又はより少ないカメラ部材を有するアレイを備えた他のアレイ配置が、代替の実施形態において提供され得る。特定のカメラアレイを含む図1の例では、捕捉された視点間の重なりは重要であり、重要な圧縮ステップを必要とする。図2a及び図2bでは、理解するのを容易にするために、画像の図が、図2a及び図2bの関連する深度マップ(210及び220で参照)に示されている。
図8は、多視点獲得情報の例示を提供する、関連するテーブル(テーブル1)を示す。このテーブルは、HEVCにおけるSEIメッセージシンタックスを提供する。SEIメッセージは、カメラの固有及び外部パラメータを記載する。現在、パラメータは、視点のいずれかにおける空間内の所与の点の対応する位置を正確に計算するために、デコーダによって必要とされている。更に、先の記載には、各カメラに関連付けられた任意の歪みパラメータが含まれない。HEVCのSEIメッセージに記載されたカメラのモデルは、歪んでいないカメラのみを考慮している。歪んでいるか否かであり得る、あらゆる種類のコンテンツを考慮するために、歪みパラメータについて記載するための機会を提供することが重要である。
従来技術によって提示される別の制限は、カメラパラメータが記載されている方法(HEVC規格のG.14.2.6セクション)において、それらが使用されるために必要とする計算量である。各回転又は並進行列の各値は、科学的表記法で与えられる。これは、符号(1ビット)、指数(6ビット)、及び仮数(vビット)に相当する。固有パラメータ(焦点及びスキュー及び主点)もまた、同じ表記法を使用して記載される。この表記法は、デコーダ側で使用される前にいくつかの計算を必要とする。代替の実施形態では、これらのパラメータの平行な32ビットの固定小数点バージョンを送って、デコーダ側の計算を簡素化することが可能である。
一実施形態では、デコーダ側の計算を簡素化することは、カメラパラメータを操作するときに行われる計算の一部を除去することである可能性がある。一実施形態では、後述するように、この全計算を非常に正確な方法で実施することができ、それに対応して、1つの視点から別の視点への空間内の所与の点の位置が提示され得る。これにより、情報の抽出が、1つのカメラに対応する1つの位置を別のカメラに対応する別の位置に変換することを可能にする。一実施形態では、事前に計算された行列を、特にデコーダ側で必要な計算量を簡素化するために、提供することができる。
別の実施形態では、各視点の獲得に関連付けられているカメラパラメータがあるとき、
・ あらゆる種類のコンテンツ(歪んでいないか否か)の使用を確実にするためにカメラの歪みパラメータを積分する
・ 事前に計算された行列積を提案することによって、デコーダの計算負荷を簡素化して、2つのカメラのグループからの画素の投影及び非投影に対処する
・ 事前に計算されたワープマップ及び非ワープマップを提案することによって、デコーダ側の歪みの計算を簡素化する、カメラパラメータの送信を可能にする技術を使用することができる。
加えて、多視点及び深度フォーマットを提示した概念の理解を容易にするために、エンコーダの入力形式で提供される。(多視点+深度とは、各視点についてRGBコンテンツが同じ画素解像度で深度マップと関連付けられていることを意味する。この深度マップは、当業者には既知であるように、任意の手段(計算、測定など)によって生成され得る。一実施形態では、このようなコンテンツを複数のカメラから正しく有効活用するために、焦点距離又は主点位置など、カメラの相対位置(外部パラメータ)及び個々のカメラパラメータ(固有パラメータ)を決定するために較正段階が必要である。
一実施形態では、この較正段階は、特定の試験パターン及び関連するソフトウェアを使用して、撮影前に行われる。本明細書で使用される実施形態のいくつかと併せて開発及び使用される技術を理解するために、多視点及び深度コンテンツ情報の圧縮に関するいくつかの背景材料を探索する必要がある。この目的のために、空間内の異なる点の様々な視点を使用する例を探索し、空間内のこれらの点のうちの少なくとも1つについて異なる視点における対応する画素位置を計算することが有用である。一実施形態では、図3に示されるように、1つの視点の1つの画素について、この点について別のカメラによって獲得されたかのように対応する位置を決定するために、関連するカメラ位置を計算することができる。この例では、この点の位置は、カメラcのP(u、v)であり(310として参照)、これはまた、320で参照されるように、カメラc’によって獲得された場合の位置P’(u’、v’)に対応する。
本実施形態では、点Pに関する情報がある場合、固有及び外部パラメータは、P’の計算を可能にするために使用される。普通のピンホールとして較正されたカメラを考慮する。仮にその固有行列を
Figure 2022550168000002
とすると、
・ fは、射出ひとみからセンサまでの距離を示し、画素で表され、文献上「焦点距離」と呼ばれることが多く、

Figure 2022550168000003
は、いわゆる「主点」の画素座標、すなわち、センサ上へのピンホールの直交投影を示し、
・ α及びγは、それぞれ、画素のアスペクト比及びセンサのスキュー係数を示す。
一実施形態では、
Figure 2022550168000004
が、カメラの座標系(Coordinate System、CS)における所与の点の座標である場合、その画像投影
Figure 2022550168000005
の座標は、
Figure 2022550168000006
によって与えられ(画素で)、
式中、記号≡は、同次ベクトル
Figure 2022550168000007
間の当量関係を示す。
仮に
Figure 2022550168000008
とすると、カメラの姿勢行列を示し、式中、
Figure 2022550168000009
は、それぞれ、参照座標系(CS)におけるカメラの向き及び位置を示す。カメラの外部行列は、
Figure 2022550168000010
によって定義されており、
Figure 2022550168000011
の場合、それぞれ、カメラCS及び参照CS内の同じ点の座標を示し、次いで、
Figure 2022550168000012
を示す。これは、図4を検討することによって更に理解することができる。図4では、カメラ座標系(410)が、並進行列(420)中の並進行列を使用して示される。
所与のカメラ及び現在の視点の場合、#cをその指数とする。
Figure 2022550168000013
を現在の画素とし、zをその推定深度とする。参照視点#c’における対応する一致は、
Figure 2022550168000014
である。
これらのパラメータ及び式(1)の場合、カメラごとに送信しながら空間内の1つの点について異なる視点の対応する画素位置を計算することが可能である。
- 行列K(固有パラメータ)
- 行列R及びT(回転行列及び並進行列)
-1及びR-1は、式(1)を実施するためにデコーダ側で計算されるべきである。これは最先端の状態であり、K、R、及びTは、SEIメッセージとして送信されるデータである(当業者には既知であるように、HEVC規格のG.14.2.6セクションに記載されている)。
実施形態1a:2×2のカメラパラメータ、データの科学的表現
別の視点上への1つの画素の投影を事前に計算するために、固有及び外部行列を送信する代わりに、2つのカメラの各グループを、式(1)に対応する行列の必要な積を送信することが可能である。Pを、P=(R T)に置き換え、Qを、Q=(R^(-1)-R^(-1).T)に置き換える。
Figure 2022550168000015
方程式の右側の計算
Figure 2022550168000016
次いで、最終的に、エラー!参照元が見つかりません。と記述される。
Figure 2022550168000017
ストレージに関しては、2×2カメラパラメータのアプローチは、したがってカメラペア当たり3×3行列A_cc’及び3×1ベクトルB_cc’のみを必要とする。
Figure 2022550168000018
式中、
Figure 2022550168000019
理論的には、カメラペアの任意の組み合わせを送信することができ、これはn台のカメラに対してn組の情報を意味する。それにもかかわらず、一実施形態では、全ての組み合わせにおいて(既に復号化された視点を使用して)復号化される視点の予測は必要とされない。符号化された視点間の通常の依存関係に従って、所与の数のカメラペアのみが必要である。送信されるペアの数は、n「台のカメラペア」の代わりに2*n順である可能性が高い。
図9は、2×2のカメラパラメータの例を有する、一実施形態によるテーブル(テーブル2)を提供する。このテーブルは、科学的表現の計算及び数字を提供する。また、先に述べたように式(2)は、これらの同次座標を得るために、zによって暗黙の除算が必要であることに留意されたい。デコーダ側で行われる計算を簡素化するために、この除算は、所与のビット数のシフトによって近似することができる(所与の丸めエラーを導入する)。この例では、a/zは、a/(floor(log2(z)))によって置き換えられる。
実施形態1b:2×2のカメラパラメータ、データの固定小数点表現
図10のテーブル(テーブル3)にも示されるこの実施形態では、科学的表現におけるAcc’及びBcc’行列の両方の任意の値を表す代わりに、そのような情報を固定小数点表現で提示することが可能である。このように、このテーブルに現れるコンポーネントは、このテーブルで提供されるエントリを示すように修正される。しかしながら、本文書の残りについて、残りの実施形態のうちのいずれかについて、パラメータが科学的表記法で記載されている場合、これらのパラメータの各々の固定小数点表現の仕様を検討することが可能であることに留意されたい。その後、同じパラメータを固定小数点表現で扱う同様の実施形態が提案される可能性がある。
光学的歪みを提示する多視点コンテンツ。
先の記載は、光学系によってもたらされる歪みを除去するために、カメラからの元のコンテンツが修正されていることを意味する歪んでないコンテンツに基づいていた。ここで、この歪みを補正することなく、コンテンツを考慮する。ピンホールモデルは、実際の光学系で生じる幾何学的歪みのために、正確な対応を提供することができない。まず、
Figure 2022550168000020
は、固有行列の最初の2行を示すものとする。また、
Figure 2022550168000021
は、逆固有行列の最初の2行を示すものとする。
Figure 2022550168000022
を、所与のカメラの3D点のCSとする。対応する同次ベクトル
Figure 2022550168000023
を考慮する
光学的歪みを考慮に入れると、画像投影方程式は以下のようになる。
Figure 2022550168000024
Figure 2022550168000025
は、歪みによって誘発された前方ワーピング演算子を示す。Wは、通常、多項式であり、したがって、浮動小数点形式の一組の係数によって定義される。
{ak≦N
文献には、様々な歪みモデルが存在する。例えば、Zhangは、半径方向の歪みの最初の2項のみを考慮する(Z.Zhang、「A flexible new technique for camera calibration」、IEEE Trans.Pattern Analysis & Machine Intelligence,vol.22,no.11,pp.1330~1334,Nov.2000):
Figure 2022550168000026
式中、
Figure 2022550168000027
は、投影の半径を示す。
一方、彼の有名なMatlabツールボックス(http://www.vision.caltech.edu/bouguetj/calib_doc/)では、Bouguetは、接線歪みと高次の半径方向の歪みも考慮した、より高性能の5係数モデルを使用している。
Figure 2022550168000028
式中、
Figure 2022550168000029
そのような多項式モデルを反転させることは、有理分数をもたらし、これは、無意味な計算の複雑さを誘発するであろう。歪みがないワーピングを同じ次数の多項式で近似することは、非常に簡単である。
「歪みがない」という表現は、「逆歪み」という意味で、歪んだ光線(光学系の画像センサに到達する)から物体全体の歪んでいない光線に戻るワーピングに対応する。
現在、歪んだコンテンツに対するいくつかの実施形態をここで探索することができる。最初の1つは、多項式計算を必要とするが、メタデータを最もコンパクトな形態に制限する。その後、ループ性能を改善するが、歪みがないワープマップを事前に計算する必要がある。
実施形態2:多項式演算を特徴とする歪みパラメータ
本実施形態では、既に適用されたモデルに基づいて、歪みによって記載されるパラメータの数は変化し得る。送信する第1の情報は、(既知のモデルのリストの中で)適用されるモデルである。パラメータの数は、モデルから推測される。歪み情報及び歪みがない情報の両方は、復号化側での歪みがない係数を計算することを回避するために送られる。シンタックスの観点では、そのような情報の送信は、図11(テーブル4)に反映される。
実施形態3:2×2のカメラパラメータ表現と組み合わせた多項式計算を特徴とする歪みパラメータ
歪み式(1)を考慮するとき、以下のようになる。
Figure 2022550168000030
式中、
Figure 2022550168000031
そして、回転行列及び並進ベクトルに戻る。
Figure 2022550168000032
これは、以下のように再公式化することができる。
Figure 2022550168000033
式中、
Figure 2022550168000034
また、歪みがあるため、単一の線形代数演算として計算することができない点にも留意されたい。加えて、本実施形態は、カメラ2台当たり、3×3行列
Figure 2022550168000035
及び3×1ベクトル
Figure 2022550168000036
に加えて、カメラ1台当たり、2つの多項式W並びに
Figure 2022550168000037
及び2つの2×3行列
Figure 2022550168000038
並びに
Figure 2022550168000039
のストレージを必要とする。
これは、図12に示されており、テーブル5(実施形態3、2×2のカメラペアパラメータと組み合わせた歪みパラメータ、科学的表現)を参照する。
実施形態4:2×2のカメラパラメータ表現と組み合わせた歪みがないワープマップを使用する歪んだコンテンツ
図5は、歪んだコンテンツ及び関連する歪んだマッピングの図である。以前の方程式セットでは、多項式計算
Figure 2022550168000040
は、歪みがないワープマップ
Figure 2022550168000041
を使用することによって回避することができ、
Figure 2022550168000042
は、
Figure 2022550168000043
によって定義される。
式(5)は、以下のようになる。
Figure 2022550168000044
又は等価に、
Figure 2022550168000045
これは、以下のように再公式化することができる。
Figure 2022550168000046
式中、
Figure 2022550168000047
ストレージに関しては、本実施形態は、カメラ2台当たり、3×3行列
Figure 2022550168000048
及び3×1ベクトル
Figure 2022550168000049
に加えて、カメラ1台当たり、1つの多項式W、1つの歪みがないマップ
Figure 2022550168000050
及び1つの2×3行列
Figure 2022550168000051
(2つの多項式並びに2つの2×3行列の代わりに)を必要とする。
また、歪みがないワープマップの事前計算により、多項式計算の半分を節約することができることに留意されたい。ワープマップは、入力画像よりも低い解像度を提示し得る。その場合、ワープされた位置は、事前に計算されたノードから補間される。サブサンプル処理係数は、送信する情報量を低減するために、水平方向及び垂直方向の両方に適用することができる。これは、テーブル6で参照されるように、図13に更に示されている。
別の実施形態では、アンワープマップのサブサンプル処理係数を定義する代わりに(サブサンプル処理係数X及びサブサンプル処理係数Y)、歪みがないマップの水平及び垂直のサイズが直接送信される。図13のテーブル6は、テーブル7として参照されるように、図14に示されるように修正される。同様の実施形態は、サブサンプル処理係数をマップのサイズ(歪みがないマップ及び歪みマップの両方について)に置き換えることによって、実施形態5について提案することができることにも留意されたい。
実施形態5:2×2のカメラパラメータ表現と組み合わせた歪みワープマップ及び歪みがないワープマップを使用する歪んだコンテンツ
また、ワープマップは、
Figure 2022550168000052
を定義することによって、残りの多項式計算を回避するために使用することができる。
Figure 2022550168000053
は、以下のとおりである。
Figure 2022550168000054
この場合、式(4)は、以下のようになる。
Figure 2022550168000055
式中、
Figure 2022550168000056
又は等価に、
Figure 2022550168000057
これは、以下のように再公式化することができる。
Figure 2022550168000058
式中、
Figure 2022550168000059
送信に関しては、本実施形態は、カメラ2台当たり、3×3行列
Figure 2022550168000060
及び1×3ベクトル
Figure 2022550168000061
に加えて、カメラ1台当たり、2つのワープマップ
Figure 2022550168000062
を必要とする。これは、図15、テーブル8で捕捉される。
図7は、一実施形態のフローチャート図である。図7では、ステップ700において、少なくとも1つのカメラによって捕捉されたコンテンツの周りのプロセッサなどから、情報が受信される。複数のカメラが使用され、コンテンツが複数の画像又は複数の角度からの同じ画像を含むことが可能である。受信された情報は、一実施形態では、710に示されるようなコンテンツの歪んでいない、及び歪んだレンダリングのためのカメラパラメータを含む。次いで、ステップ720において、行列がカメラのために計算される。ステップ730では、歪んだコンテンツに対処するために歪みパラメータが取得される。ステップ740では、歪みパラメータを含むカメラペアの行列に対して計算が行われる。ステップ750では、歪み補償の計算を簡素化するためにワープマップが計算され、次いで、ステップ760で最終画像がレンダリングされる。

Claims (15)

  1. 方法であって、
    少なくとも1つのカメラによって捕捉されたコンテンツ画像に関する情報を受信することであって、
    前記コンテンツ画像が、歪んだ領域及び歪んでいない領域の両方を含む画像の多視点表現を含む、受信することと、
    カメラパラメータ及び画像パラメータのうちの少なくとも1つを取得することと、
    前記少なくとも1つの画像を使用して、前記画像内のどの領域が歪んでおらず、どの領域が歪んでいるかを示すカメラパラメータ歪み情報を取得することと、
    前記歪み情報を使用して、前記画像の深度マップを計算することと、を含む、方法。
  2. 装置であって、
    1つ以上のプロセッサであって、
    少なくとも1つのカメラによって捕捉されたコンテンツ画像に関する情報を受信することであって、前記コンテンツ画像が、歪んだ領域及び歪んでいない領域の両方を含む画像の多視点表現を含む、受信することと、
    カメラパラメータ及び画像パラメータのうちの少なくとも1つを取得することと、
    前記少なくとも1つの画像を使用して、前記画像内のどの領域が歪んでおらず、どの領域が歪んでいるかを示すカメラパラメータ歪み情報を取得することと、前記歪み情報を使用して、前記画像の深度マップを提供することと、を行うために構成されている、1つ以上のプロセッサを備える、装置。
  3. 前記歪み情報及び前記深度マップを使用する最終立体画像をレンダリングすることを更に含む、請求項1に記載の方法。
  4. 前記1つ以上のプロセッサが、前記歪んだ領域及び歪んでいない領域並びに深度マップの計算を使用する最終立体画像をレンダリングするために構成されている、請求項2に記載の装置。
  5. 少なくとも一対のカメラが、多視点画像を捕捉するために使用される、請求項1若しくは3に記載の方法又は請求項2若しくは4に記載の装置。
  6. 前記パラメータが、前記カメラペアのための行列を提供するためにも使用される、請求項5に記載の方法又は請求項5に記載の装置。
  7. 前記歪み情報が、歪んだコンテンツを取得するために提供される、請求項5若しくは6に記載の方法又は請求項5若しくは6に記載の装置。
  8. 前記歪み情報が、歪んだコンテンツのアドレスを取得するために提供される、請求項7に記載の方法又は請求項7に記載の装置。
  9. 前記カメラペアのための行列が、歪みパラメータも含む、請求項5若しくは6に記載の方法又は請求項5若しくは6に記載の装置。
  10. 前記歪み情報が、歪み補償値を提供して、ワープマップを計算するために使用される、請求項9に記載の方法又は請求項9に記載の装置。
  11. 前記カメラペアと関連付けられた前記行列が、ワープマップを決定するために使用される、請求項9に記載の方法又は請求項9に記載の装置。
  12. 前記ワープマップが、動きベクトルの精密化として更に定義される、請求項11に記載の方法又は請求項11に記載の装置。
  13. 前記ワープマップが、予測モード(mvd)と関連付けられている、請求項12に記載の方法又は請求項12に記載の装置。
  14. プロセッサに、請求項1、3又は5~13のいずれか一項に記載の方法を実施させるための命令を内部に記憶している、非一時的なプロセッサ可読媒体。
  15. 請求項1、3又は5~13のいずれか一項に記載の方法に従って実行するためのプログラムコードの命令を運ぶ、非一時的な記憶媒体。

JP2022519776A 2019-09-30 2020-09-29 画像コンテンツを処理するための方法及び装置 Pending JP2022550168A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19306245.2 2019-09-30
EP19306245 2019-09-30
PCT/EP2020/077179 WO2021063919A1 (en) 2019-09-30 2020-09-29 Method and apparatus for processing image content

Publications (1)

Publication Number Publication Date
JP2022550168A true JP2022550168A (ja) 2022-11-30

Family

ID=68289896

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022519776A Pending JP2022550168A (ja) 2019-09-30 2020-09-29 画像コンテンツを処理するための方法及び装置

Country Status (5)

Country Link
US (1) US11962745B2 (ja)
EP (1) EP4038574A1 (ja)
JP (1) JP2022550168A (ja)
CN (1) CN114503552B (ja)
WO (1) WO2021063919A1 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2306515A1 (en) * 2000-04-25 2001-10-25 Inspeck Inc. Internet stereo vision, 3d digitizing, and motion capture camera
CN101166271B (zh) * 2006-10-16 2010-12-08 华为技术有限公司 一种多视点视频编码中的视点差补偿方法
KR101345303B1 (ko) * 2007-03-29 2013-12-27 삼성전자주식회사 스테레오 또는 다시점 영상의 입체감 조정 방법 및 장치
JP5243612B2 (ja) * 2008-10-02 2013-07-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 中間画像合成およびマルチビューデータ信号抽出
KR20110124473A (ko) * 2010-05-11 2011-11-17 삼성전자주식회사 다중시점 영상을 위한 3차원 영상 생성 장치 및 방법
US20220084300A1 (en) * 2019-03-11 2022-03-17 Sony Group Corporation Image processing apparatus and image processing method

Also Published As

Publication number Publication date
EP4038574A1 (en) 2022-08-10
US20220311986A1 (en) 2022-09-29
CN114503552A (zh) 2022-05-13
CN114503552B (zh) 2024-06-25
WO2021063919A1 (en) 2021-04-08
US11962745B2 (en) 2024-04-16

Similar Documents

Publication Publication Date Title
JP5763184B2 (ja) 3次元画像に対する視差の算出
JP5654138B2 (ja) 3dヒューマンマシンインターフェースのためのハイブリッドリアリティ
KR100950046B1 (ko) 무안경식 3차원 입체 tv를 위한 고속 다시점 3차원 입체영상 합성 장치 및 방법
US8780256B2 (en) Stereoscopic image format with depth information
JP4188968B2 (ja) 立体視用映像提供方法及び立体映像表示装置
KR101185870B1 (ko) 3d 입체 영상 처리 장치 및 방법
US7876953B2 (en) Apparatus, method and medium displaying stereo image
US20140198182A1 (en) Representation and Coding of Multi-View Images Using Tapestry Encoding
US20100134599A1 (en) Arrangement and method for the recording and display of images of a scene and/or an object
JP4939639B2 (ja) 画像処理装置、画像処理方法、プログラム及び記録媒体
KR20110124473A (ko) 다중시점 영상을 위한 3차원 영상 생성 장치 및 방법
KR20060063575A (ko) 스테레오 카메라의 영상왜곡 보정 장치 및 그 방법
KR100897542B1 (ko) 임의 시점 영상 합성 시 영상 보정 방법 및 장치
US20130050187A1 (en) Method and Apparatus for Generating Multiple Image Views for a Multiview Autosteroscopic Display Device
JP2015005978A (ja) 3次元ビデオストリームに属する画像のカラーコンポーネントを用いることにより、深度マップを生成、格納、送信、受信および再生する方法およびデバイス
US20180262749A1 (en) Storing Data Retrieved from Different Sensors for Generating a 3-D Image
Knorr et al. An image-based rendering (ibr) approach for realistic stereo view synthesis of tv broadcast based on structure from motion
TWI462569B (zh) 三維影像攝相機及其相關控制方法
JP5627498B2 (ja) 立体画像生成装置及び方法
Knorr et al. From 2D-to stereo-to multi-view video
JP2022550168A (ja) 画像コンテンツを処理するための方法及び装置
Ruijters et al. IGLANCE: transmission to medical high definition autostereoscopic displays
JPWO2012176526A1 (ja) 立体画像処理装置、立体画像処理方法、及びプログラム
Gurrieri et al. Stereoscopic cameras for the real-time acquisition of panoramic 3D images and videos
WO2012014695A1 (ja) 立体撮像装置およびその撮像方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220530

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20220624

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220727

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230922

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20231110