WO2024053522A1

WO2024053522A1 - 画像処理装置および画像処理方法

Info

Publication number: WO2024053522A1
Application number: PCT/JP2023/031637
Authority: WO
Inventors: 陽介江口
Original assignee: キヤノン株式会社
Priority date: 2022-09-06
Filing date: 2023-08-30
Publication date: 2024-03-14
Also published as: JP2024036943A

Abstract

フレーム間の相関を利用して３次元動画のデータ量を適切に削減可能な画像処理装置が開示される。画像処理装置は、フレームごとに３次元データとテクスチャ情報とを有する３次元動画データを取得する取得手段と、３次元動画データを、フレーム間予測を用いて符号化する符号化手段と、を有する。符号化手段は、３次元データとテクスチャ情報とを別個にフレーム間予測符号化し、各フレームのメタデータに基づき、３次元データをフレーム間予測符号化するためのキーフレームと、テクスチャ情報を符号化するためのキーフレームとを別個に選択する。

Description

画像処理装置および画像処理方法

　本発明は画像処理装置および画像処理方法に関し、特にはデータ量の削減技術に関する。

　２次元（２Ｄ）動画と３次元（３Ｄ）動画を撮影可能な撮影装置が知られている（特許文献１）。特許文献１では、３Ｄ動画をＭＰＥＧ２規格に準拠した方法で符号化することにより、データ量を削減している。

特開２００８－１８７３８５号公報

　ＭＰＥＧ規格のような、フレーム間の相関を利用した符号化を用いて３Ｄ動画のデータ量を効率よく削減しつつ、画質劣化を抑制するには、参照フレーム（キーフレーム）を適切に設定することが必要である。特許文献１では、露出制御をＩフレームのタイミングで実行することの開示はあるが、Ｉフレームをどのように設定するかについては言及されていない。

　本発明はその一態様において、フレーム間の相関を利用して３Ｄ動画のデータ量を適切に削減可能な画像処理装置および画像処理方法を提供する。

　本発明の一態様による画像処理装置は、フレームごとに３次元データとテクスチャ情報とを有する３次元動画データを取得する取得手段と、３次元動画データを、フレーム間予測を用いて符号化する符号化手段と、を有し、符号化手段は、３次元データとテクスチャ情報とを別個に符号化し、３次元データを符号化するためのキーフレームと、テクスチャ情報を符号化するためのキーフレームとを別個に選択する、ことを特徴とする。

　本発明によれば、フレーム間の相関を利用して３Ｄ動画のデータ量を適切に削減可能な画像処理装置および画像処理方法を提供することができる。

　本発明のその他の特徴及び利点は、添付図面を参照とした以下の説明により明らかになるであろう。なお、添付図面においては、同じ若しくは同様の構成には、同じ参照番号を付す。

　添付図面は明細書に含まれ、その一部を構成し、本発明の実施の形態を示し、その記述と共に本発明の原理を説明するために用いられる。
実施形態に係る画像処理装置の一例としてのデジタルカメラの機能構成例を示すブロック図撮像素子の構成例を示す図撮像素子の構成例を示す図撮像面位相差ＡＦを説明するための図撮像面位相差ＡＦを説明するための図撮像面位相差ＡＦを説明するための図撮像面位相差ＡＦを説明するための図撮像面位相差ＡＦを説明するための図実施形態におけるデフォーカスマップ生成処理に関するフローチャートデフォーカス量から距離情報を求める方法を説明するための図実施形態において生成する、３次元物体に関するデータを説明するための図実施形態において生成する、３次元物体に関するデータを説明するための図実施形態において生成する、３次元物体に関するデータを説明するための図第１実施形態における３次元動画データの圧縮処理に関するフローチャート第１実施形態におけるキーフレーム評価方法を説明するための図第２実施形態における３次元動画データの圧縮処理に関するフローチャート第２実施形態におけるキーフレーム評価方法を説明するための図

●（第１実施形態）
　以下、添付図面を参照して本発明をその例示的な実施形態に基づいて詳細に説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定しない。また、実施形態には複数の特徴が記載されているが、その全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

　なお、以下の実施形態では、本発明をデジタルカメラで実施する場合に関して説明する。しかし、本発明に撮像機能は必須でなく、本発明は画像データを取り扱い可能な任意の電子機器で実施可能である。このような電子機器には、ビデオカメラ、コンピュータ機器（パーソナルコンピュータ、タブレットコンピュータ、メディアプレーヤ、ＰＤＡなど）、携帯電話機、スマートフォン、ゲーム機、ロボット、ドローンなど含まれる。これらは例示であり、本発明は他の電子機器でも実施可能である。

＜撮影画像情報＞
　図１は、実施形態に係る画像処理装置としてのデジタルカメラ１００の機能構成例を示すブロック図である。
　撮像光学系１０は、被写体の光学像を撮像素子１１の撮像面に形成する。撮像光学系１０は、光軸１０３に沿って配列された複数のレンズを有する。複数のレンズには、撮像光学系１０の合焦距離を調整するためのフォーカスレンズ１０２が含まれる。フォーカスレンズ１０２は光軸に沿って移動可能である。フォーカスレンズ１０２は、画像処理部１４が生成するデフォーカス量に従って制御部１２が駆動する。

　撮像光学系１０はまた、絞り値（開口量）を調整可能な絞り１０４を有する。絞り１０４の絞り値は制御部１２が例えば自動露出制御（ＡＥ）によって決定された撮影条件に基づいて制御する。絞り１０４はメカニカルシャッタの機能を有してもよい。射出瞳１０１は撮像光学系１０を撮像素子１１側から見た開放絞りの像であり、図では射出瞳１０１の位置を示している。

　撮像素子１１は例えば原色ベイヤ配列のカラーフィルタを有する公知のＣＣＤもしくはＣＭＯＳカラーイメージセンサであってよい。撮像素子１１は複数の画素が２次元配列された画素アレイと、各画素から信号を読み出すための周辺回路とを有する。各画素は光電変換によって入射光量に応じた電荷を蓄積する。露光期間に蓄積された電荷量に応じた電圧を有する信号を各画素から読み出すことにより、撮像光学系１０が撮像面に形成した被写体像を表す画素信号群（アナログ画像信号）が得られる。

　後述するように、撮像素子１１が有する画素は複数の光電変換領域または光電変換素子を有し、１回の撮影で視差画像対を生成可能である。そして、この視差画像対に基づいて位相差検出方式の自動焦点検出（位相差ＡＦ）を実行したり、距離情報を生成したりすることができる。詳細については後述する。

　制御部１２は、プログラムを実行可能な１つ以上のプロセッサ（以下、ＣＰＵという）を有する。制御部１２は、例えばＲＯＭ２１に記憶されたプログラムをＲＡＭ２０に読み込んでＣＰＵで実行する。制御部１２は、プログラムを実行しながら各機能ブロックの動作を制御することにより、デジタルカメラ１００の各種機能を実現する。

　ＲＯＭ２１は例えば書き換え可能な不揮発性メモリであり、制御部１２のＣＰＵが実行可能なプログラム、設定値、ＧＵＩデータなどを記憶する。ＲＡＭ２０は、制御部１２のＣＰＵが実行するプログラムを読み込んだり、プログラムの実行中に必要な値を保存したりするために用いられる。また、ＲＡＭ２０は画像処理部１４の作業用メモリ、撮像によよって得られた画像を一時的に記憶するためのバッファメモリ、表示部１７のビデオメモリなどとしても用いられる。

　画像処理部１４は、撮像素子１１から読み出されたアナログ画像信号に対して予め定められた画像処理を適用し、用途に応じた信号や画像データを生成したり、各種の情報を取得および／または生成したりする。画像処理部１４は例えば特定の機能を実現するように設計されたＡＳＩＣ(Application Specific Integrated Circuit)のような専用のハードウェア回路であってよい。あるいは画像処理部１４はＤＳＰ(Digital Signal Processor)やＧＰＵ(Graphics Processing Unit)のようなプロセッサがソフトウェアを実行することで特定の機能を実現する構成であってもよい。画像処理部１４は、取得もしくは生成した情報やデータを、用途に応じて制御部１２やＲＡＭ２０などに出力する。

　画像処理部１４が適用する画像処理には、例えば、前処理、色補間処理、補正処理、検出処理、データ加工処理、評価値算出処理、特殊効果処理などが含まれうる。
　前処理には、Ａ／Ｄ変換、信号増幅、基準レベル調整、欠陥画素補正などが含まれうる。
　色補間処理は、撮像素子にカラーフィルタが設けられている場合に行われ、画像データを構成する個々の画素データに含まれていない色成分の値を補間する処理である。色補間処理はデモザイク処理とも呼ばれる。
　補正処理には、ホワイトバランス調整、階調補正、撮像光学系１０の光学収差に起因する画像劣化の補正（画像回復）、撮像光学系１０の周辺減光の影響の補正、色補正などの処理が含まれうる。
　検出処理には、特徴領域（たとえば顔領域や人体領域）やその動きの検出、人物の認識処理などが含まれうる。
　評価値算出処理には、自動焦点検出（ＡＦ）に用いる信号や評価値の生成、自動露出制御（ＡＥ）に用いる評価値の生成などの処理が含まれうる。図１では、ＡＦ用の評価値であるデフォーカス量を生成する画像処理部１４の機能を、便宜上、機能ブロック（デフォーカス生成部１４１）として示している。
　データ加工処理には、領域の切り出し（トリミング）、合成、スケーリング、符号化および復号、ヘッダ情報生成（データファイル生成）などの処理が含まれうる。表示用画像データや記録用画像データの生成もデータ加工処理に含まれる。また、デフォーカス量に基づく距離情報の生成もデータ加工処理として実行される。
　特殊効果処理には、ボケ効果の付加、色調の変更、リライティングなどの処理などが含まれうる。
　なお、これらは画像処理部１４が適用可能な処理の例示であり、画像処理部１４が適用する処理を限定するものではない。

　記憶部１５は撮像により得られた画像データを格納したデータファイルを記録するための記録媒体である。記憶部１５は例えばメモリカードとそのリーダライタとの組み合わせであってよい。記憶部１５は複数の記録媒体を取り扱い可能であってもよい。

　入力部１６は、例えば、ダイヤル、ボタン、スイッチ、タッチパネルなど、デジタルカメラ１００に設けられた、ユーザが操作可能な入力デバイスの総称である。入力部１６に対する操作は制御部１２が監視する。入力部１６に対する操作が検出されると、制御部１２は、操作された入力デバイスに割り当てられている機能および操作内容に応じた動作を実行する。

　表示部１７は、例えば、液晶ディスプレイや有機ＥＬ等の表示装置である。動画の撮像と、撮像された動画の表示部１７への表示とを継続的に実行することにより、表示部１７を電子ビューファインダ（ＥＶＦ）として機能させることができる。表示部１７を電子ビューファインダ（ＥＶＦ）として機能させる動作をライブビュー表示またはスルー表示と呼ぶことがある。また、ライブビュー表示またはスルー表示によって表示部１７に表示される画像をライブビュー画像またはスルー画像と呼ぶことがある。

　表示部１７はタッチディスプレイであってよい。表示部１７がタッチディスプレイの場合、表示部１７に表示するＧＵＩパーツとタッチパネルとの組み合わせによってソフトウェアキーを実現してもよい。制御部１２はソフトウェアキーを入力部１６が有する入力デバイスと同様に取り扱う。

　通信部１８は外部装置との通信インターフェースである。制御部１２は、通信部１８を通じて外部機器と１つ以上の有線または無線通信規格に準拠した通信を行うことができる。

　動きセンサ１９は、デジタルカメラ１００の動きに応じた信号を生成する。動きセンサ１９は、例えばＸＹＺの各軸方向の動きに応じた信号を出力する加速度センサと各軸周りの動きに応じた信号を出力するジャイロセンサとの組み合わせであってよい。

＜撮像素子の構成例＞
　撮像素子１１の構成例について、図２を参照して説明する。図２Ａは、撮像素子１１の画素アレイを撮像面側から見た平面図である。画素アレイには原色ベイヤ配列のカラーフィルタが設けられている。したがって、各画素には、赤（Ｒ）、緑（Ｇ）、青（Ｂ）のいずれか１つのカラーフィルタが、２行×２列の画素群２１０を繰り返し単位として規則的に配置されている。なお、原色ベイヤ配列以外の配列のカラーフィルタが設けられてもよい。

　図２Ｂは、１つの画素の垂直断面図である。図２ＡのＩ－Ｉ’断面の構成に相当する。各画素は、導光層２１３と受光層２１４とを有する。導光層２１３は、１つのマイクロレンズ２１１とカラーフィルタ２１２とを有する。また、受光層２１４は第１の光電変換部２１５と第２の光電変換部２１６とを有する。

　マイクロレンズ２１１は、画素へ入射した光束を第１の光電変換部２１５および第２の光電変換部２１６に効率よく導くよう構成されている。またカラーフィルタ２１２は、Ｒフィルタ、Ｇフィルタ、Ｂフィルタのいずれかである。

　第１の光電変換部２１５および第２の光電変換部２１６はいずれも入射光量に応じた電荷を発生する。撮像素子１１は、個々の画素から、第１の光電変換部２１５および第２の光電変換部２１６の１つまたは両方から選択的に信号を読み出すことができる。本明細書では、第１の光電変換部２１５から得られる信号をＡ信号、第２の光電変換部２１６得られる信号をＢ信号、第１の光電変換部２１５および第２の光電変換部２１６の両方から得られる信号をＡ＋Ｂ信号と呼ぶことがある。

　第１の光電変換部２１５と第２の光電変換部２１６とは、射出瞳１０１を異なる視点から見ている。そのため、同一の画素領域から読み出された、Ａ信号からなる画像とＢ信号からなる画像とは視差画像対を形成する。そのため、Ａ信号とＢ信号を用いることにより、位相差ＡＦの原理に従ってデフォーカス量を求めることができる。したがって、Ａ信号およびＢ信号はそれぞれ焦点検出用信号と言える。

　一方、Ａ＋Ｂ信号は画素が１つの光電変換部を有する場合に得られる信号に相当するため、各画素からＡ＋Ｂ信号を取得することにより、アナログ画像信号を取得することができる。

　なお、Ａ信号はＡ＋Ｂ信号からＢ信号を減算することでも得られる。同様に、Ｂ信号はＡ＋Ｂ信号からＡ信号を減算することでも得られる。したがって、各画素からＡ＋Ｂ信号と、Ａ信号またはＢ信号とを読み出すことにより、Ａ信号、Ｂ信号、Ａ＋Ｂ信号を得ることができる。画素から読み出す信号の種類は、制御部１２が制御する。

　なお、図２では、各画素が水平方向に並んだ２つの光電変換部２１５および２１６を有する構成を示した。しかし、水平方向に２つ、垂直方向に２つの４つの光電変換部が並んだ構成であってもよい。また、Ａ信号を生成する専用の画素と、Ｂ信号を生成する専用の画素とが画素アレイに分散して複数対配置された構成であってもよい。撮像素子１１は、撮像面位相差ＡＦに対応した公知の任意の構成を有しうる。

＜撮像面位相差ＡＦの原理＞
　Ａ信号とＢ信号とを用いてデフォーカス量が算出できる原理について、図３Ａ～図３Ｅを参照して説明する。
　図３Ａは、撮像光学系１０の射出瞳１０１と、ある１つの画素の第１の光電変換部２１５に入射する光束との関係を示す模式図である。図３Ｂは、同じ画素の第２の光電変換部２１６に入射する光束と射出瞳１０１との関係を示す模式図である。

　なお、本明細書では、撮像光学系の光軸に平行な方向をｚ方向またはデフォーカス方向、光軸と直交し、撮像面の水平方向と平行な方向をｘ方向、光軸と直交し、撮像面の垂直方向と平行な方向をｙ方向とする。

　マイクロレンズ２１１は、射出瞳１０１と受光層２１４とが光学的に共役関係になるように配置されている。撮像光学系１０の射出瞳１０１を通過した光束は、マイクロレンズ２１１により集光されて第１の光電変換部２１５または第２の光電変換部２１６に入射する。この際、第１の光電変換部２１５と第２の光電変換部２１６にはそれぞれ図３Ａおよび図３Ｂに示すように、射出瞳１０１の異なる領域を通過した光束が主に入射する。具体的には、第１の光電変換部２１５には第１の瞳領域５１０を通過した光束が入射し、第２の光電変換部２１６には第２の瞳領域５２０を通過した光束が入射する。

　着目画素を中心として水平方向にならんだ複数の画素のそれぞれからＡ信号とＢ信号とを取得する。この場合、Ａ信号列に基づく像信号（Ａ像）と、Ｂ信号列に基づく像信号（Ｂ像）との相対的な位置ずれ量（位相差または視差量）は、着目画素のデフォーカス量に応じた大きさを有する。

　図３Ｃ～図３Ｅにおいて、５１１は第１の瞳領域５１０を通過する第１の光束を示し、５２１は第２の瞳領域５２０を通過する第２の光束を示している。
　図３Ｃは合焦状態を示しており、第１の光束５１１と第２の光束５２１が撮像面上で収束している。このとき、Ａ像とＢ像との位相差または視差量は０となる。
　図３Ｄは第１の光束５１１と第２の光束５２１が撮像面よりも物体側（ｚ軸の負方向側）で収束している。このとき、Ａ像とＢ像との位相差または視差量は負の値（＜０）を有する。
　図３Ｅは第１の光束５１１と第２の光束５２１が物体側から見て撮像面よりも奥（ｚ軸の正方向側）で収束している。このとき、Ａ像とＢ像との位相差または視差量は正の値（＞０）を有する。

　このように、Ａ像とＢ像との位相差または視差量は、第１の光束５１１と第２の光束５２１が収束している位置と撮像面との関係に応じた符号を有し、デフォーカス量の大きさに応じた大きさを有する。Ａ像とＢ像とを相対的にずらしながら相関量を算出し、相関量が最大となるずらし量として、Ａ像とＢ像との位相差または視差量を得ることができる。

＜デフォーカス画像生成処理＞
　次に、画像処理部１４のデフォーカス生成部１４１がデフォーカスマップを生成する処理の一例について、図４に示すフローチャートを用いて説明する。デフォーカスマップとは、撮像画像の各画素位置におけるデフォーカス量を表す２次元データである。

　ここでは、撮像素子１１の各画素についてのＡ信号とＢ信号とがＲＡＭ２０に格納されているものとする。

　Ｓ１４０１で、デフォーカス生成部１４１は、Ａ信号およびＢ信号の光量を補正する。特に像高の大きな画素では撮像光学系１０の口径食によって第１の瞳領域５１０と第２の瞳領域５２０の形状の差が大きくなり、Ａ信号とＢ信号との大きさに差が生じる。デフォーカス生成部１４１は、画素位置に応じた補正値をＡ信号およびＢ信号に適用して、Ａ信号とＢ信号との大きさの違いを補正する。補正値は予め例えばＲＯＭ２１に保存しておくことができる。

　Ｓ１４０２で、デフォーカス生成部１４１は、Ａ信号およびＢ信号にノイズ低減処理を適用する。一般に、空間周波数が高いほど相対的にノイズ成分が多くなるため、デフォーカス生成部１４１は、空間周波数が高いほど通過率が低減するローパスフィルタをＡ信号およびＢ信号に適用する。なお、撮像光学系１０の製造誤差等によってＳ１４０１における光量補正で良好な結果が得られない場合がある。そのため、Ｓ１４０２でデフォーカス生成部１４１は、直流成分を遮断し、かつ、高周波成分の通過率が低いバンドパスフィルタを適用することができる。

　Ｓ１４０３で、デフォーカス生成部１４１は、Ａ信号とＢ信号との位相差または視差量を検出する。デフォーカス生成部１４１は、例えば着目画素を含む水平方向に連続した画素列からＡ信号列およびＢ信号列を生成する。そして、デフォーカス生成部１４１はＡ信号列とＢ信号列とを相対的にずらしながら相関量を算出する。相関量は例えばＮＣＣ（Normalized Cross-Correlation）、ＳＳＤ（Sum of Squared Difference）、またはＳＡＤ（Sum of Absolute Difference）であってよい。

　デフォーカス生成部１４１は、Ａ信号列およびＢ信号列の相関が最大となるずらし量を画素未満の単位で求め、注目画素における位相差または視差量とする。デフォーカス生成部１４１は、注目画素の位置を変えながら個々の画素位置における位相差または視差量を検出する。なお、Ａ信号とＢ信号との位相差または視差量は他の任意の公知の方法で検出してもよい。位相差または視差量を求める解像度は撮像画像の解像度より低くてもよい。

　Ｓ１４０４で、デフォーカス生成部１４１は、検出された位相差または視差量をデフォーカス量に変換する。検出された位相差または視差量はデフォーカス量に応じた大きさを有するため、所定の変換係数を適用することによりデフォーカス量に変換することができる。位相差または視差量をｄ、変換係数をＫとすると、デフォーカス量ΔＬは以下の式（１）によって得ることができる。
　ΔL = K × d　　　（１）

　デフォーカス生成部１４１は、検出した位相差または視差量をデフォーカス量に変換することにより、画素位置に応じたデフォーカス量を表す２次元情報（デフォーカスマップ）を生成する。

＜距離情報の取得＞
　次に、デフォーカス量に基づいて奥行き（距離）情報を取得する方法を、図５を用いて説明する。図５において、ＯＢＪは物体面、ＩＭＧは像面、Ｈは前側主点、Ｈ’は後側主点、ｆは撮像光学系（レンズ）の焦点距離、Ｓは物体面から前側主点までの距離、Ｓ’は後側主点から像面までの距離を表す。また、ΔＳ’はデフォーカス量、ΔＳはデフォーカス量に応じた物体側の相対距離である。一点鎖線が光軸、点線が結像光束、破線がデフォーカス光束である。

　レンズの結像では、以下の式（２）が成り立つことが知られている。
　1/S + 1/S’ = 1/f　　　（２）
　また、デフォーカス時は式（２）を変形した式（３）が成り立つ。
　1/(S+ΔS) + 1/(S’+ΔS’) = 1/f　　　（３）

　合焦時のＳとｆは撮影条件の情報（撮影情報）から取得可能である。したがって、式（１）からＳ’を求めることができる。また、デフォーカス量ΔＳ’は例えば位相差検出方式の自動焦点検出（ＡＦ）などによって取得可能である。これにより、式（３）からΔＳを求めることができ、物体面ＯＢＪまでの距離Ｓを求めることができる。

　画像処理部１４は、生成したデフォーカスマップと撮影情報とを用いて被写体の距離情報を生成することができる。距離情報は例えば各画素位置に対応した被写体距離を表す２次元データであってよく、デプスマップ、距離画像、奥行き画像などと呼ばれることもある。

　なお、ここではデフォーカス量を用いて距離情報を取得したが、他の公知の方法を用いて距離情報を取得してもよい。例えばコントラスト評価値が極大となるフォーカスレンズ位置を画素ごとに求めることで、画素ごとに被写体距離を取得することができる。また、合焦距離を変えて同一シーンを複数回撮影して得られる画像データと光学系の点像分布関数(PSF)とから、ぼけ量と距離との相関関係に基づいて画素ごとの距離情報を求めることもできる。これらの技術に関しては例えば特開２０１０－１７７７４１号公報や米国特許第4,965,840号公報などに記載されている。また、視差画像対を取得可能な場合には、ステレオマッチング等の手法で画素ごとに被写体距離を取得することができる。

　＜３次元データの生成＞
　次に、距離情報を用いた３次元（３Ｄ）データの生成方法の例について説明する。
　まず、距離情報（デプスマップ）を、撮影情報から得られる焦点距離、フォーカス位置を用いて世界座標系の座標値へ変換することにより、３Ｄデータを生成する。得られた３Ｄデータは、３Ｄモデルとして扱いやすいようにポリゴン化する。ポリゴン化は任意の公知の方法を用いて実施することができる。

　例えば、３Ｄデータの隣接する任意の三点の座標情報を用いて面を規定することで、３Ｄデータをポリゴンメッシュに変換することができる。また、ポリゴン化に用いた三点に対応する撮影画像の情報から、そのポリゴンのテクスチャ情報を算出することができる。また、世界座標系の座標値に変換する前のデプスマップや、ポリゴン化前の３Ｄデータにフィルタ処理を適用してもよい。例えば、メディアンフィルタなどを適用するなどして小さな形状変化を平滑化してもよい。

　ポリゴン化を行った場合、２次元画像の予測符号化技術を用いてデータ量を削減できるよう、画像処理部１４は公知の任意の方法によってポリゴンデータを２次元の構造化データに変換する。なお、ポリゴン化は必須ではなく、３Ｄデータを点群形式で取り扱ってもよい。公知の２次元画像の予測符号化技術を適用可能なデータ形式を有しさえすれば、物体の３次元形状を表現する方法は任意である。

　図６Ａ～図６Ｃに３Ｄ物体とそのデプスマップおよび３Ｄデータの例を示す。
　図６Ａに示すような３Ｄ物体として円柱を側面から撮影して距離情報を取得すると、図６Ｂに示すようなデプスマップが得られる。ここで、図６Ｂのデプスマップにおける濃淡は、色が淡くなるほど距離が大きい（遠い）ことを表している。つまり、撮影画像において円柱の中心部分が最も近くに存在し、中心から左右に離れるほど距離が増加している。図６Ｃはデプスマップを変換した３Ｄデータを世界座標系にプロットした状態を模式的に示している。３Ｄ物体の撮影されていない部分についてはデプスマップが生成されないため、３Ｄデータもデプスマップに対応した部分だけが生成される。図示していないが、３Ｄデータにはテクスチャ情報（ＲＧＢデータ）がマッピングされる。

＜撮影条件と距離情報の精度およびテクスチャ情報の品質との関係＞
　撮影画像から距離情報を取得する場合、撮影条件が距離情報の精度に影響を与えうる。例えば、撮像面位相差検出ＡＦに対応した撮像素子を用いて撮影した視差画像対に基づいて距離情報を取得する場合、絞り値が大きくなると、視差画像対の基線長が短くなるため、距離の分解能が低下する。

　また、撮像素子の構成にかかわらず、撮影感度（ＩＳＯ感度）が高くなると、画像のノイズが増幅されることにより、デフォーカス量の検出精度が低下することにより、距離情報の精度が低下する。また、画像に占める物体領域の割合が小さい（撮影倍率が低い）場合、１画素が対応する物体の表面積が大きくなるため、物体形状の再現性が低下する。

　このように、撮影画像から距離情報を取得する場合、距離情報の精度は撮影条件に応じて変化しうる。例えば撮像面位相差検出ＡＦに対応した撮像素子を用いる場合、絞り値が開放値に近いほど視差画像対の基線長は長くなるため、距離情報の精度は高くなる。

　一方で、撮影画像の画質は、一般に絞り値が開放値より大きい場合の方が開放値の場合よりも高くなる。これは、絞り値が開放値のとき、周辺減光や光学収差が画像に与える影響が最も大きく、絞り値を増加させるとこれらの影響が低減するためである。撮影画像の画質がよいほど高品質のテクスチャ情報が得られるため、テクスチャ情報の品質の観点からは絞り値は開放値でない方がよい。このように、距離情報の精度および距離情報に基づく３Ｄデータの精度という観点と、テクスチャ情報の品質という観点とでは、最適な撮影条件が異なる。

　これは、フレームごとに生成される３Ｄデータとテクスチャ情報（フレーム画像データ）とのデータ量を、フレーム間予測を用いて削減しようとした場合、３Ｄデータに最適なキーフレームと、テクスチャ情報に最適なキーフレームとが異なることを意味する。したがって、同じタイミングのフレームをキーフレームとした場合、３Ｄデータとテクスチャ情報の少なくとも一方においては最適でないデータ量の削減が行われうる。

＜３次元動画ファイルの生成＞
　デジタルカメラ１００は、例えば３Ｄ動画を記録する撮影モードが設定されている場合に、３Ｄ動画データを生成し、記憶部１５に保存する。具体的には、制御部１２は所定のフレームレートで動画撮影を行い、各フレームについてＡ＋Ｂ信号と、Ａ信号とを読み出すように撮像素子１１の動作を制御する。Ａ信号の代わりにＢ信号を読み出すこともできる。なお、露出条件や焦点調節は画像処理部１４が生成する評価値に基づいて制御部１２が例えばフレームごとに実行する。

　画像処理部１４は、各フレームについて、Ａ＋Ｂ信号から記録用のフレーム画像データを生成する。記録用のフレーム画像データは一般的な動画記録時に生成するものと同じであってよい。撮影時に用いられた露出条件などもフレーム画像データと関連付けて記録される。３Ｄ動画を記録する場合、記録用の２次元動画のフレーム画像データは３Ｄデータのテクスチャ情報として用いられる。

　また、画像処理部１４は、各フレームについて、Ａ＋Ｂ信号からＡ信号を減じてＢ信号を生成する。そして、画像処理部１４（デフォーカス生成部１４１）は、Ａ信号とＢ信号とからデフォーカスマップを生成し、さらに、デフォーカスマップをデプスマップに変換する。３Ｄデータをポリゴンデータとする場合、画像処理部１４はデプスマップをポリゴンデータに変換したのち、２次元構造化データにさらに変換する。

　制御部１２は、同じフレームについて生成されたテクスチャ情報（フレーム画像データ）と、３Ｄデータ（２次元構造化データまたはデプスマップ）とを関連付けて、３Ｄ動画のフレームデータとしてＲＡＭ２０に一旦格納する。そして、制御部１２は３Ｄ動画のフレームデータに後述するデータ量削減処理（圧縮処理）を適用したのち、記憶部１５に保存する。なお、３Ｄ動画のフレームデータに圧縮処理を適用せずに記憶部１５に保存し、３Ｄ動画の撮影が終了してから圧縮処理を適用してもよい。また、３Ｄ動画のフレームデータは通信部１８を通じて外部装置に保存してもよい。

＜３Ｄ動画のデータ削減処理＞
　図７に示すフローチャートを用いて、本実施形態における３Ｄ動画のデータ削減（圧縮）処理について説明する。ここでは、３Ｄ動画の撮影時にデジタルカメラ１００の画像処理部１４が実行するものとする。しかし、通信部１８を通じて接続された外部装置で実行されてもよい。また、３Ｄ動画の撮影が終了してから、画像処理部１４あるいは外部装置で実行してもよい。ここでは３Ｄ動画データのデータ量を、ＭＰＥＧ４などの、フレーム間予測を用いた画像符号化技術を用いて削減するものとする。

　Ｓ１０１で画像処理部１４は、圧縮する３次元動画データを記憶部１５からＲＡＭ２０に読み出す。ここでは少なくとも１ＧＯＰ(Group Of Pictures)以上のフレームを読み出すものとする。すでにＲＡＭ２０に３Ｄ動画データが存在する場合には記憶部１５から読み出さなくてもよい。

　Ｓ１０２で画像処理部１４は、３Ｄ動画データに付随して撮影情報が記録されているか判定し、記録されていると判定されればＳ１０３を実行し、判定されなければＳ１０４を実行する。デジタルカメラ１００のような撮像装置によって撮影された場合、撮影情報が例えばメタデータとして記録されている。

　Ｓ１０３で画像処理部１４は、Ｓ１０１で読み出した各フレームの撮影情報を読み出してＲＡＭ２０に格納する。ここで読み出す撮影情報は例えば撮像光学系１０の焦点距離、合焦距離、絞り値、ＩＳＯ感度、シャッタースピードなどであってよい。

　Ｓ１０４で画像処理部１４は、キーフレーム評価処理を行う。
　キーフレーム評価処理で画像処理部１４は、ＲＡＭ２０に読み込んだ３Ｄ動画のフレーム画像データについて、１フレームごとに３Ｄデータとテクスチャ情報とを評価し、キーフレーム（Ｉフレーム）として適切か否か判定する。

　このとき画像処理部１４は、テクスチャ情報と３Ｄデータとを別個の条件に基づいて評価することにより、テクスチャ情報の圧縮に最適なキーフレームと、３Ｄデータの圧縮に最適なキーフレームとを別個に判定する。

　図８は、対応するフレームにおけるテクスチャ情報と３Ｄデータを模式的に示した図である。左列がフレームＮ、右列がフレームＮ＋α（α≧１）である。フレームＮは絞り値ａで撮影され、フレームＮ＋αは絞り値ｂ（ｂ＞ａ）で撮影されている。フレームＮの方が開放に近い絞り値で撮影されているため、テクスチャ情報（フレーム画像データ）の画質はフレームＮ＋αの方が高い。一方、基線長はフレームＮの方が大きくなるため、３Ｄデータの距離分解能はフレームＮの方が高い。

　キーフレーム評価処理において画像処理部１４は、例えばＧＯＰに含まれる全てのフレームの撮影時の絞り値に基づいて判定を行うことができる。画像処理部１４は、例えば、撮影時の絞り値が最も大きいフレームをテクスチャ情報に最適なキーフレームと判定し、撮影時の絞り値が最も小さなフレームを３Ｄデータに最適なキーフレームと判定することができる。

　なお、撮影条件の複数の項目の１つ以上に基づく評価値をフレームごとに算出し、評価値が最も高いフレームを最適なキーフレームと判定してもよい。この場合、撮影条件の項目と評価値との関係は例えば以下のようにすることができる。

・絞り値
　上述の通り、絞り値が小さくなると３Ｄデータの距離分解能は高くなり、テクスチャ情報の解像度は低下する。そのため、絞り値が小さいほど３Ｄデータに関する評価値は高く、テクスチャ情報に関する評価値は低くすることができる。しかし、絞り値が閾値を超えると回折の影響で画像のコントラストが低下する。したがって、テクスチャ情報に関する評価値は、第１の絞り値＜第２の絞り値＜第３の絞り値（閾値）とすると、第１の絞り値から第３の絞り値に達するまでは絞り値の増加に応じて高くなり、第３の絞り値を超えると低くなる。第３の絞り値を超える場合の評価値は、固定値であっても、段階的に低くしてもよい。

・シャッタースピード
　シャッタースピードが遅いと手ブレや動体ブレが発生しやすくなる。そのため、シャッタースピードが閾値より遅い場合には、閾値より速い場合よりも３Ｄデータおよびテクスチャ情報に関する評価値をいずれも低くする。撮像光学系１０の焦点距離が可変の場合、焦点距離が長くなるほど閾値を短くしてもよい。

・ＩＳＯ感度
　ＩＳＯ感度が高いと画像のノイズが多くなる。その結果、３Ｄデータの信頼性が低下する。そのため、ＩＳＯ感度が閾値以上の場合には、閾値より速い場合よりも３Ｄデータおよびテクスチャ情報に関する評価値をいずれも低くする。

・撮影倍率（焦点距離と合焦距離との組み合わせ）
　撮影倍率が小さいと、３Ｄデータの距離分解能が低下する。またテクスチャ情報の解像度も低下する。そのため、撮影倍率が閾値以下の場合には、閾値より大きい場合よりも３Ｄデータおよびテクスチャ情報に関する評価値をいずれも低くする。撮影倍率は例えば撮像光学系１０の焦点距離と合焦距離との組み合わせに応じて予め容易しておくことができる。あるいは、主被写体の領域が画面に占める割合と撮影場率とを対応付けてもよい。

　例えば主被写体がデジタルカメラ１００に近づくシーン、もしくは遠ざかるシーンの３Ｄ動画の場合、撮影倍率が大きいほど、また合焦距離が短いほど、３Ｄデータおよびテクスチャ情報に関する評価値をいずれも高くする。

　なお、撮影情報以外の条件に基づいてキーフレームとして適切か否かの評価を行ってもよい。例えば、テクスチャ情報（フレーム画像データ）について、適正露出の領域と暗部とでキーフレームとしての評価を個別に行ってもよい。具体的には、評価の対象となる複数のフレームのうち、暗部の露出が最も適正露出に近いフレームを、暗部に対する評価値が最も高いフレームとする。明部についても同様に別個に評価することができる。

　評価値はＯＫ／ＮＧ（または１／０）のように２値としてもよいし、３値以上であってもよい。あるいは、評価対象のフレームにおける順位に応じた値としてもよい。画像処理部１４は、評価を行ったフレームに関連付けて、評価値をＲＡＭ２０に保存する。

　Ｓ１０５で画像処理部１４は、Ｓ１０４の評価処理の結果に基づいて、３Ｄデータのキーフレームと、テクスチャ情報のキーフレームとを選択する。画像処理部１４は、例えば評価値が最も高いフレームをキーフレームとして選択することができる。フレームごとに複数の評価値が存在する場合には、評価値の合計が最も高いフレームをキーフレームとして選択することができる。なお、他の条件に基づいてキーフレームを選択してもよい。また、キーフレームはＮＧの評価値がないフレームから選択するようにしてもよい。テクスチャ情報のキーフレームを領域ごとに選択する場合も同様である。

　Ｓ１０６で画像処理部１４は、Ｓ１０５で選択したキーフレームをＩフレームとしたＭＰＥＧ符号化により、ＧＯＰ単位で３Ｄデータとテクスチャ情報とを別個に符号化する。ＧＯＰ単位でＩフレーム、Ｐフレーム、Ｂフレームを割り当て、ＰフレームおよびＢフレームについてはフレーム間予測符号化するＭＰＥＧ符号化方式は公知であるため、その詳細については説明を省略する。なお、Ｂフレームなしで、ＩフレームとＰフレームを割り当ててＭＰＥＧ符号化するようにしてもよい。

　画像処理部１４は、Ｓ１０１からＳ１０６の処理を必要に応じて繰り返して実行することにより、３Ｄ動画データを符号化する。

　Ｓ１０７で画像処理部１４は、符号化後の３Ｄデータおよびテクスチャ情報を含む３D動画データを格納した３Ｄ動画データファイルを記憶部１５に順次記録する。
　なお、Ｓ１０１で記憶部１５から３Ｄ動画データを読み出した場合、符号化後の３Ｄ動画データで置き換えてもよいし、符号化前の３D動画データを残しておいてもよい。また、符号化後の３Ｄ動画データを格納した３D動画データファイルを、通信部１８を通じて外部装置に送信してもよい。

　ここで、外部装置は、Ｓ１０６において３Ｄデータとテクスチャ情報の符号化に用いられた符号化方式と対応する復号器を備える。復号器は、３D動画データファイルに格納された３D動画データの３Dデータとテクスチャ情報とを、それぞれに設定されたキーフレームを参照し、別個に復号する。そして、外部装置は、復号された３Ｄデータとテクスチャ情報の組み合わせをフレーム毎に生成し、各フレームをメモリに展開し、フレームの時系列に沿って読み出して表示再生を行う。これにより、画像に被写体として含まれる３Ｄ物体に立体感を与えながら動画を再生表示することができる。なお、３Ｄデータとテクスチャ情報が復号された後に、３Ｄデータとテクスチャ情報の組み合わせをフレーム毎に生成し、ファイルとして外部装置の記憶装置に記憶するようにしてもよい。

　本実施形態によれば、フレームごとに３Ｄデータとテクスチャ情報とを有する３Ｄ動画データを、フレーム間予測を用いて符号化する際、３Ｄデータ用のキーフレームとテクスチャ情報用のキーフレームとを別個に決定するようにした。これにより、３Ｄデータとテクスチャ情報とを最適なキーフレームを用いて符号化することができ、符号化による品質の低下を抑制しつつ、効率よくデータ量を削減することができる。

●（第２実施形態）
　次に、本発明の第２実施形態について説明する。本実施形態は３Ｄ動画データの圧縮処理以外は第１実施形態と同様であってよい。そのため、以下では圧縮処理について説明する。

　図９は、本実施形態における３Ｄ動画データの圧縮処理に関するフローチャートである。第１実施形態と同様の処理を行うステップには図７と同じ参照数字を付してある。本実施形態ではＳ１０４のキーフレーム評価処理の前に、３Ｄデータ分析処理を行うステップＳ２０１を有する。

　３Ｄデータ分析処理は、キーフレームの評価、選択をより適切に実行するために行う。３Ｄデータを視差画像から生成する場合、視差画像の全体が被写界深度に含まれることはまれであり、一般的にはボケた領域が含まれている。合焦度が高い領域は低い領域よりもコントラストが高いため、得られる３Ｄデータの距離分解能も高くなる。

　動画撮影中には合焦距離も経時的に変化しうるため、視差画像において合焦度が高い領域もまた経時的に変化しうる。そのため、３Ｄデータについても、領域ごとに距離分解能が高い３Ｄデータをキーフレームとして選択することができる。３Ｄデータは距離方向に分割してもよいし、距離および垂直方向に分割してもよい。分割前の３Ｄデータは１つの連続したオブジェクトでもよいし、複数のオブジェクトでもよい。

　図１０は、対応するフレームにおけるテクスチャ情報と３Ｄデータを模式的に示した図である。左列がフレームＮ、中列がフレームＮ＋α（α≧１）、右列がフレームＮ＋β（β＞α）である。

　フレームＮおよびＮ＋αは絞り値ａで撮影され、フレームＮ＋βは絞り値ｂ（ｂ＞ａ）で撮影されている。また、フレームＮでは物体の手前側に合焦しており、フレームＮ＋αでは物体の奥側に合焦している。また、フレームＮ＋βでは、フレームＮ＋αの状態から絞り値が大きくなったことにより、テクスチャ情報全体が合焦するようになった状態を示している。

　３Ｄデータは距離分解能が高い部分を格子状のパターンで示している。フレームＮでは物体の手前側の距離分解能が高く、フレームＮ＋αでは物体の奥側の距離分解能が高い。フレームＮ＋βでは絞り値が大きくなったことにより、物体の奥側の距離分解能が低下し、距離分解能の高い部分がなくなっている。

　３Ｄデータ分析処理において画像処理部１４は、３Ｄデータを手前側と奥側に分割し、手前側についてはフレームＮ、奥側についてはフレームＮ＋αの評価値を高くする。また、テクスチャ情報についてはフレームＮ＋βの評価値を高くする。

　画像処理部１４は、３Ｄデータをどのように分割したかの情報と、３Ｄデータの分割領域ごとの評価値と、テクスチャ情報についての評価値をＲＡＭ２０に保存する。これらの情報および評価値は、Ｓ１０４におけるキーフレーム評価処理で決定された評価値とともに、Ｓ１０５のキーフレーム選択処理で考慮される。

　なお、Ｓ１０４でのキーフレーム評価処理において、３Ｄデータに対する評価値は求めなくてもよい。あるいは、３Ｄデータ分析処理で考慮されていない項目に関する評価値だけを求めるようにしてもよい。テクスチャ情報の評価値についても同様である。

　Ｓ１０５で画像処理部１４は、３Ｄデータについてのキーフレームを、分割した領域ごとに選択する。テクスチャ情報についてのキーフレームは、第１実施形態と同様に選択することができる。

　Ｓ１０６において画像処理部１４は、３Ｄデータを分割した領域ごとに符号化することをのぞき、第１実施形態と同様に処理する。

　本実施形態によれば、３Ｄデータに対してよりきめ細かくキーフレームを選択することができ、３Ｄデータの品質低下をさらに抑制しつつ、効果的にデータ量を削減することができる。

　なお、第１および第２実施形態で生成される符号化３Ｄ動画データは、公知の方法で復号することができる。復号された３Ｄデータはポリゴンメッシュに変換される。また、復号されたテクスチャ情報に基づいて、ポリゴンメッシュに基づく３Ｄモデルにテクスチャをマッピングすることができる。

（その他の実施形態）
　本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

　本発明は上述した実施形態の内容に制限されず、発明の精神および範囲から離脱することなく様々な変更及び変形が可能である。したがって、発明の範囲を公にするために請求項を添付する。

　本願は、２０２２年９月６日提出の日本国特許出願特願２０２２－１４１５１７を基礎として優先権を主張するものであり、その記載内容の全てを、ここに援用する。

Claims

　フレームごとに３次元データとテクスチャ情報とを有する３次元動画データを取得する取得手段と、
　前記３次元動画データを、フレーム間予測を用いて符号化する符号化手段と、を有し、
　前記符号化手段は、
　　前記３次元データと前記テクスチャ情報とを別個にフレーム間予測符号化し、
　　各フレームのメタデータに基づき、前記３次元データをフレーム間予測符号化するためのキーフレームと、前記テクスチャ情報を符号化するためのキーフレームとを別個に選択する、
ことを特徴とする画像処理装置。
　前記フレームのメタデータは、フレームの撮影情報であり、
　前記符号化手段は、前記フレームの撮影情報に基づく、前記３次元データと前記テクスチャ情報とについての評価値に基づいて、前記キーフレームを選択することを特徴とする請求項１に記載の画像処理装置。
　前記符号化手段は、フレームごとに、前記３次元データと前記テクスチャ情報とについての前記評価値を求め、前記評価値が最も高いフレームを前記キーフレームとして選択することを特徴とする請求項２に記載の画像処理装置。
　前記撮影情報は撮影時のシャッタースピード、絞り値、ＩＳＯ感度、合焦距離、撮像光学系の焦点距離の１つ以上を含むことを特徴とする請求項２または３に記載の画像処理装置。
　前記撮影情報は撮影時の絞り値を含み、
　前記３次元データについての前記評価値は、前記撮影情報が第１の絞り値のとき、前記第１の絞り値より大きい第２の絞り値のときより高くなり、
　前記テクスチャ情報についての前記評価値は、前記撮影情報が前記第１の絞り値のときよりも、前記第２の絞り値のときに高くなる、
ことを特徴とする請求項２から４のいずれか１項に記載の画像処理装置。
　前記テクスチャ情報についての前記評価値は、前記撮影情報が前記第２の絞り値より大きな第３の絞り値を超えると低くなることを特徴とする請求項５に記載の画像処理装置。
　前記テクスチャ情報は２次元動画のフレーム画像であり、
　前記符号化手段は、前記テクスチャ情報を符号化するためのキーフレームを、前記フレーム画像の領域ごとに選択する、
ことを特徴とする請求項１から６のいずれか１項に記載の画像処理装置。
　前記符号化手段は、前記３次元データを複数の領域に分割し、前記３次元データを符号化するためのキーフレームを、前記３次元データの領域ごとに選択する、
ことを特徴とする請求項１から７のいずれか１項に記載の画像処理装置。
　前記符号化手段は、前記３次元データを、奥行き方向、水平方向、垂直方向の１つ以上に分割することを特徴とする請求項８に記載の画像処理装置。
　前記３次元データはポリゴンデータであり、
　前記符号化手段は、前記ポリゴンデータを２次元構造化データに変換してから符号化する、
ことを特徴とする請求項１から９のいずれか１項に記載の画像処理装置。
　前記符号化手段は、前記キーフレームをＩフレームとし、他のフレームをPフレームまたはＢフレームとしてフレーム間予測符号化する
ことを特徴とする請求項１から１０のいずれか１項に記載の画像処理装置。
　１回の撮影で視差画像対を生成可能な撮像手段と、
　前記撮像手段で撮影された動画に基づいて、フレームごとに３次元データとテクスチャ情報とを有する３次元動画データを生成する生成手段と、
　前記生成手段が生成した前記３次元動画データを処理する、請求項１から１０のいずれか１項に記載の画像処理装置と、
を有することを特徴とする撮像装置。
　画像処理装置が実行する画像処理方法であって、
　フレームごとに３次元データとテクスチャ情報とを有する３次元動画データを取得する取得工程と、
　前記３次元動画データを、フレーム間予測を用いて符号化する符号化工程と、を有し、
　前記符号化工程では、
　　前記３次元データと前記テクスチャ情報とを別個にフレーム間予測符号化し、
　　各フレームのメタデータに基づき、前記３次元データをフレーム間予測符号化するためのキーフレームと、前記テクスチャ情報を符号化するためのキーフレームとを別個に選択する、
ことを特徴とする画像処理方法。
　コンピュータを、請求項１から１１のいずれか１項に記載の画像処理装置が有する各手段として機能させるためのプログラム。