WO2013108339A1

WO2013108339A1 - ステレオ撮影装置

Info

Publication number: WO2013108339A1
Application number: PCT/JP2012/008117
Authority: WO
Inventors: 森岡　芳宏; 浅井　祥光; 圭介大川; 矢野　修志; 昇司宋; 松浦　賢司; 窪田　憲一; 祐介小野
Original assignee: パナソニック株式会社
Priority date: 2012-01-20
Filing date: 2012-12-19
Publication date: 2013-07-25
Also published as: JPWO2013108339A1; US20140002612A1; JP5320524B1

Abstract

　ステレオ撮影装置は、光学ズーム機能を有し、第１の画像を取得する第１の撮影部（３５０）と、第２の画像を取得する第２の撮影部（３５１）と、第１の画像および第２の画像から同一画角と推定される画像部分を抽出する画角合わせ部（３２０）とを備える。画角合わせ部（３２０）は、第１の画像および第２の画像から、相互に対応する複数の画像ブロックを選択し、各画像における複数の画像ブロックの垂直方向の相対的な位置関係に基づいて、第１の画像と同一の垂直方向範囲を有すると推定される垂直画像領域を抽出する垂直領域算出部（３２２）と、算出された前記垂直画像領域に含まれる水平ラインの数と、前記第１の画像に含まれる水平ラインの数とを予め定めた値に合わせる水平ライン数合わせ部（３２５）と、第１および第２の画像に含まれる対応する水平ラインの信号を比較することによってステレオマッチングを行う水平マッチング部（３２３）とを有している。

Description

ステレオ撮影装置

　本開示は、光学ズーム機能を備えた第１の撮影部と、第１の撮影部から出力される画像よりも撮影画角の広い画像を出力し得る第２の撮影部とを備えたステレオ画像の撮影装置に関する。

　立体映像を視聴するには、立体映像に対応したコンテンツ（ビデオストリームなどのデータ）を用意しなければならない。その方法の一つとして、立体映像を撮影できるカメラで立体映像用のコンテンツを生成する方法がある。

　例えば、特許文献１には、主撮像部および従撮像部の２つの撮像部を備えたデジタルカメラが開示されている。このカメラでは、主撮像部および従撮像部によって撮影した映像から視差が検出され、主撮像部で撮影した主画像と、主画像および検出した視差に基づいて生成した従画像とから、立体映像が生成される。

　また、特許文献２には、２つの撮像系を備えたステレオカメラにおいて、２つの撮像系の撮影倍率が異なる場合でも立体映像を撮影できる技術が開示されている。特許文献２に開示されたステレオカメラは、まず、ズーム駆動可能なメインレンズ系を介して得られた画像データを減数処理して、サブレンズ系を介して得られた画像データと等価な状態の画像データを生成する。次に、減数処理された画像データとサブレンズ系を介して得られた画像データとをパターンマッチングによって比較する。そして、メインレンズ系を介して得られた画像データに相当する画像データを、サブレンズ系を介して得られた画像データの中から切り出して記録する。これにより、光学ズーム機能を有する撮像系と、光学ズーム機能を有しない（電子ズーム機能を有する）撮像系とを備えたステレオカメラが構成可能であることが開示されている。

特開２００５－２０６０６号公報特開２００５－２１０２１７号公報

　本開示における技術は、光学ズーム機能を有する撮像系および光学ズーム機能を有しない撮像系から出力される２つの画像に対して、ステレオマッチングを高速かつ高い精度で行うことができる技術を提供する。

　本開示における一実施形態によるステレオ撮影装置は、ズーム光学系を有し、被写体を撮影することによって第１の画像を取得する第１の撮影部と、前記被写体を撮影することによって第２の画像を取得する第２の撮影部と、前記第２の画像から、前記第１の画像または前記第１の画像の一部と同一画角と推定される画像部分を抽出する画角合わせ部とを備える。前記画角合わせ部は、前記第１の画像および前記第２の画像から、同じ画像特徴をもつと推定される相互に対応する複数の画像ブロックを選択し、各画像における前記複数の画像ブロックの垂直方向の相対的な位置関係に基づいて、前記第２の画像から、前記第１の画像または前記第１の画像の一部と同一の垂直方向範囲を有すると推定される垂直画像領域を算出する垂直領域算出部と、前記垂直領域算出部によって算出された前記第２の垂直画像領域に含まれる水平ラインの数と、前記第１の画像に含まれる水平ラインの数とを予め定めた値に合わせた後、前記第１の画像に含まれる水平ラインの信号および前記第２の画像の前記垂直画像領域に含まれる水平ラインの信号を、それぞれ第１の水平ライン信号および第２の水平ライン信号として出力する水平ライン数合わせ部と、前記水平ライン数合わせ部から出力された前記第１および第２の水平ライン信号を比較することによってステレオマッチングを行う水平マッチング部とを有している。

　上述の一般的かつ特定の態様は、システム、方法、およびコンピュータプログラムを用いて実装され、または、システム、方法およびコンピュータプログラムの組み合わせを用いて実現され得る。

　本開示の実施形態によれば、光学ズーム機能を有する撮像系および光学ズーム機能を有しない撮像系からそれぞれ出力される２つの画像に対して、ステレオマッチングを高速かつ高い精度で行うことができる。そのため、例えば撮影中に光学ズーム倍率を変化させた場合でも、高品質なステレオ映像を生成することができる。

（ａ）は従来の映像撮影装置の概観図であり、（ｂ）は実施形態１による映像撮影装置の概観図である。実施形態１による映像撮影装置のハードウェア構成図である。実施形態１による映像撮影装置の機能構成図である。ステレオマッチング部によるステレオマッチング処理の例を説明する図である。画像信号処理部により処理されるデータの変化を示す図である。ステレオマッチング部によるステレオマッチング処理の手順を示す概念図である。ステレオマッチング部によるステレオマッチング処理の流れを示すフローチャートである。垂直マッチング部による垂直マッチング処理の流れを示すフローチャートである。垂直マッチング部による垂直マッチング処理の例を示す図である。水平マッチング部による水平マッチング処理の流れを示すフローチャートである。水平マッチング部による水平マッチング処理の例を示す図である。実施形態１において、メイン撮影部とサブ撮影部とによって撮影した映像の違いを示す図である。左右両映像間の視差を算出する処理を示すフローチャートである。算出した視差量のデータの例を示す図である。メイン撮影部によって撮影した映像から立体映像の対となる映像を生成したことを示す図である。画像信号処理部が行う処理を示すフローチャートである。ステレオマッチング部が水平方向の補正処理を行った場合の例を示す図である。視差情報生成部により水平方向の補正処理を行った場合の例を示す図である。被写体までの距離と立体特性の大きさとの関係例を示す図である。被写体までの距離と、メイン撮影部およびサブ撮影部により撮影された被写体の画素数との関係例を示す図である。水平方向の傾きと立体映像の生成要否との関係を示す図である。立体映像の生成要否を判断する処理を示すフローチャートである。撮影された映像や、生成された立体映像などの記録方式の例を示す図である。撮影装置が撮影時に立体映像の立体特性を調整して撮影した場合の例を示す図である。実施形態２による映像撮影装置の概観図である。実施形態２による映像撮影装置のハードウェア構成図である。実施形態２による映像撮影装置の機能構成図である。センター撮影部、第１サブ撮影部、第２サブ撮影部によって撮影した映像の画角を合わせる処理の例を示す図である。画像信号処理部により処理されるデータの変化を示す図である。センター撮影部で撮影された映像から立体映像の左右それぞれの映像を生成することを示す図である。実施形態２における、生成された立体映像などの記録方式の例を示す図である。実施形態１および実施形態２の変形例による映像撮影装置の概観図である。歪み補正部を備えた実施形態における映像撮影装置の機能構成図である。

　以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

　なお、発明者らは、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。

　（実施形態１）
　まず、添付の図面を参照しながら、実施形態１を説明する。なお、本明細書において、「画像」とは、動画像（映像）および静止画像を含む概念を指す。以下の説明において、画像または映像を示す信号または情報を、単に「画像」または「映像」と呼ぶことがある。

　［１－１．構成］
　図１は、従来の映像撮影装置および本実施形態による映像撮影装置の外観を示す斜視図である。図１（ａ）は、動画像または静止画像を撮影する従来の映像撮影装置１００を示している。図１（ｂ）は、本実施形態による映像撮影装置１０１を示している。映像撮影装置１００と映像撮影装置１０１とは、映像撮影装置１０１が、第１レンズ部１０２のみならず第２レンズ部１０３を備えている点で外観上異なっている。従来の映像撮影装置１００では、映像を撮影するには、第１レンズ部１０２でのみ集光して映像を撮影する。これに対して、本実施形態による映像撮影装置１０１は、第１レンズ部１０２と第２レンズ部１０３の２種類の光学系でそれぞれ集光し、視差をもつ２つの映像（立体映像）を撮影する。第２レンズ部１０３は、第１レンズ部１０２と比較して体積的な大きさが小型のレンズである。ここで、「体積的な大きさ」とは、各レンズ部の口径および厚さによって定まる体積で表される大きさを意味する。このような構成により、映像撮影装置１０１は、２種類の光学系を用いて立体映像を撮影する。

　第１レンズ部１０２と第２レンズ部１０３との距離は、撮影する立体映像の視差の大きさに影響する。そのため、第１レンズ部１０２と第２レンズ部１０３との距離は、人の左右両眼の距離と同程度にしておけば、映像撮影装置１０１によって撮影された立体映像がより自然な映像になると考えられる。

　さらに、第１レンズ部１０２と第２レンズ部１０３とは、典型的には映像撮影装置１０１を地面に平行に置いたときに、ほぼ同一水平面上にある。これは、人は、左右の目がほぼ水平な状態で対象物を見ることが一般的であるため、水平方向の視差には慣れているが、垂直方向の視差には慣れていないためである。よって、立体映像を撮影する際には、多くの場合、垂直方向ではなく水平方向に視差が生じるように撮影される。第１レンズ部１０２と第２レンズ部１０３との位置関係が垂直方向にずれるほど、映像撮影装置１０１が生成する立体映像は違和感のある映像となり得る。

　また、本実施形態における第１レンズ部１０２の光学中心と第２レンズ部１０３の光学中心とは、映像撮影装置１０１における撮像素子の撮像面に平行な１つの平面上に位置している。すなわち、第１レンズ部１０２の光学中心が被写体側（前方）に飛び出し、第２レンズ部１０３の光学中心が被写体の反対側（後方）に位置していたり、その逆の関係になっていない。第１レンズ部１０２および第２レンズ部１０３が撮像面に平行な１つの平面上に位置していないと、被写体までの距離が第１レンズ部１０２と第２レンズ部１０３とで異なることになる。そのような場合、正確な視差情報を得ることは一般に困難である。したがって、本実施形態における第１レンズ部１０２および第２レンズ部１０３は、被写体からほぼ同一距離となる位置関係にある。なお、この点について、より厳密には、それぞれのレンズ部と、レンズ部の後段に配置される撮像素子との位置関係を含めて考慮する必要がある。

　これらの第１レンズ部１０２と第２レンズ部１０３との相対的な位置関係が理想的な関係に近いほど、それぞれのレンズ部によって撮影された映像から立体映像を生成する際の信号処理量を軽減することができる。より具体的には、第１レンズ部１０２と第２レンズ部１０３とが撮像面に平行な同一平面上にある場合、立体映像を構成する左右の画像フレーム（以下、「映像面」と呼ぶことがある。）上の同一被写体の位置が、エピポーラ拘束（Ｅｐｉｐｏｌａｒ　Ｃｏｎｓｔｒａｉｎｔ）条件を満たす。このため、後述する立体映像を生成するための信号処理において、一方の映像面上での被写体の位置が確定すると、他方の映像面上での被写体の位置も比較的容易に算出することが可能となる。

　図１（ｂ）に示される映像撮影装置１０１では、第１レンズ部１０２は、従来通り映像撮影装置１０１の本体前部に設けられ、第２レンズ部１０３は撮影した映像を確認するためのモニター部１０４の背面に設けられている。モニター部１０４は、被写体がある側とは反対側（映像撮影装置１０１の後部側）に、撮影した映像を表示する。図１（ｂ）に示す例では、映像撮影装置１０１は、第１レンズ部１０２を用いて撮影した映像は右眼視点の映像として、第２レンズ部１０３を用いて撮影した映像は左眼視点の映像として処理する。さらに、上記の第１レンズ部１０２と第２レンズ部１０３との理想的な位置関係を考慮する場合、第２レンズ部１０３については、モニター部１０４の背面に、第１レンズ部１０２との距離が、例えば人の左右の目の距離と同程度（４ｃｍ～６ｃｍ）となるように設けられ得る。さらに、第２レンズ部１０３と第１レンズ部１０２とが撮像面に平行な同一平面上に位置するように設けられ得る。

　図２は、図１（ｂ）に示す映像撮影装置１０１の内部のハードウェア構成の概略を示す図である。映像撮影装置１０１は、メイン撮影ユニット２５０、サブ撮影ユニット２５１、ＣＰＵ２０８、ＲＡＭ２０９、ＲＯＭ２１０、加速度センサ２１１、ディスプレイ２１２、エンコーダー２１３、記憶装置２１４、入力装置２１５を備える。メイン撮影ユニット２５０は、第１レンズ群２００、ＣＣＤ２０１、Ａ／Ｄ変換ＩＣ２０２、アクチュエーター２０３を有する。サブ撮影ユニット２５１は、第２レンズ群２０４、ＣＣＤ２０５、Ａ／Ｄ変換ＩＣ２０６、アクチュエーター２０７を有する。第１レンズ群２００は、図１（ｂ）における第１レンズ部１０２に含まれる複数のレンズから構成される光学系である。第２レンズ群２０４は、図１（ｂ）における第２レンズ部１０３に含まれる複数のレンズから構成される光学系である。

　第１レンズ群２００は、被写体から入射する光を複数のレンズによって光学的に調整する。具体的には、第１レンズ群２００は、撮影する被写体を大きく撮影、または小さく撮影するためのズーム機能や、撮像面上における被写体像の輪郭などの鮮明度を調整する焦点（フォーカス）機能を有する。

　ＣＣＤ２０１は、第１レンズ群２００により被写体から入射した光を電気信号に変換する撮像素子（イメージセンサ）である。本実施形態では、ＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）を用いているが、これに限定するものではない。他のセンサ、例えばＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）などの他の方式で入射光を電気信号に変換する撮像素子を用いてもよい。

　Ａ／Ｄ変換ＩＣ２０２は、ＣＣＤ２０１で生成されたアナログ電気信号をデジタル電気信号に変換する集積回路である。

　アクチュエーター２０３は、モータを有し、後述するＣＰＵ２０８からの制御により、第１レンズ群２００に含まれる複数のレンズ間の距離の調整や、ズームレンズの位置の調整などを行う。

　サブ撮影ユニット２５１の第２レンズ群２０４、ＣＣＤ２０５、Ａ／Ｄ変換ＩＣ２０６、アクチュエーター２０７は、それぞれメイン撮影ユニット２５０の第１レンズ群２００、ＣＣＤ２０１、Ａ／Ｄ変換ＩＣ２０２、アクチュエーター２０３に対応している。以下、メイン撮影ユニット２５０と同一の部分については説明を省略し、異なる部分のみを説明する。

　第２レンズ群２０４は、第１レンズ群２００よりも体積的な大きさが小型のレンズ群から構成される。具体的には、第２レンズ群の対物レンズの口径は、第１レンズ群の対物レンズの口径よりも小さい。これは、サブ撮影ユニット２５１をメイン撮影ユニット２５０よりも小型化することによって映像撮影装置１０１全体も小型化するためである。本実施形態では、第２レンズ群２０４を小型化するため、第２レンズ群２０４にはズーム機能を持たせない。つまり第２レンズ群２０４は、単焦点レンズである。

　ＣＣＤ２０５は、ＣＣＤ２０１と同等、またはより大きい解像度（水平方向、垂直方向の画素数がより大きい）をもつ。サブ撮影ユニット２５１のＣＣＤ２０５に、メイン撮影ユニット２５０のＣＣＤ２０１と同等、またはより大きい解像度を持たせる理由は、サブ撮影ユニット２５１で撮影した映像に対して、後述する信号処理によって電子ズーム（画角合わせ）を行う際に画質の低下を抑制するためである。

　アクチュエーター２０７は、モータを有し、後述するＣＰＵ２０８からの制御により、第２レンズ群２００に含まれる複数のレンズ間の距離の調整を行う。第２レンズ群２０４はズーム機能を持たないため、アクチュエーター２０７は、焦点調整のためのレンズ調整を行う。

　ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）２０８は、映像撮影装置１０１全体を制御する。ＣＰＵ２０８は、メイン撮影ユニット２５０およびサブ撮影ユニット２５１によって撮影された映像に基づいて、両映像から立体映像を生成する処理を行う。なお、ＣＰＵ２０８の代わりに、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）を用いて同様の処理を実現してもよい。

　ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）２０９は、ＣＰＵ２０８を動作させるプログラム実行時の各種変数などをＣＰＵ２０８の指示により一時的に記憶する。

　ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）２１０は、ＣＰＵ２０８を動作させるプログラムデータ、制御パラメータなどのデータを記録する。

　加速度センサ２１１は、映像撮影装置１０１の撮影状態（姿勢や向きなど）を検出する。本実施形態では、加速度センサ２１１を用いるものとして説明しているが、これに限定するものではない。その他のセンサとして、３軸方向のジャイロスコープを用いてもよい。つまり、映像撮影装置１０１の撮影状態を検出するセンサであればいずれを採用してもよい。

　ディスプレイ２１２は、映像撮影装置１０１が撮影し、ＣＰＵ２０８などで処理された立体映像を表示する。なお、ディスプレイ２１２は、入力機能としてのタッチパネルを備えていてもよい。

　エンコーダー２１３は、ＣＰＵ２０８が生成した立体映像の情報、または、立体映像などを表示するために必要な情報のデータを、所定の方式に従って符号化（エンコード）する。

　記憶装置２１４は、エンコーダー２１３で符号化されたデータを記録、保持する。記憶装置２１４は、磁気記録ディスクや、光記録ディスク、半導体メモリなど、データを記録できる記録媒体であればいずれの方式で実現されていてもよい。

　入力装置２１５は、ユーザなどの、映像撮影装置１０１外部からの指示を受け付ける入力装置である。

　次に、映像撮影装置１０１の機能構成を説明する。以下の説明では、映像撮影装置１０１における上記の各構成要素をそれに対応する機能部で表す。

　図３は、映像撮影装置１０１の機能構成図である。図２に示すハードウェア構成を機能部に分けて表すと、図３のように表される。映像撮影装置１０１は、メイン撮影部３５０と、サブ撮影部３５１と、画像信号処理部３０８と、水平方向検出部３１８と、表示部３１４と、映像圧縮部３１５と、蓄積部３１６と、入力部３１７とを有する。メイン撮影部３５０は、第１光学部３００、撮像部（撮像センサ）３０１、Ａ／Ｄ変換部３０２、光学制御部３０３を有する。サブ撮影部３５１は、第２光学部３０４、撮像部（撮像センサ）３０５、Ａ／Ｄ変換部３０６、光学制御部３０７を有する。なお、本実施形態では、メイン撮影部３５０が「第１の撮影部」に相当し、サブ撮影部３５１が「第２の撮影部」に相当する。

　メイン撮影部３５０は、図２におけるメイン撮影ユニット２５０に対応する。第１光学部３００は、図２における第１レンズ群２００に対応し、被写体から入射する光を調整する。第１光学部３００は、第１光学部３００から撮像部３０１への入射光量を制御する光学式絞り手段を有している。

　撮像部３０１は、図２におけるＣＣＤ２０１に対応し、第１光学部３００から入射した光を電気信号に変換する。

　Ａ／Ｄ変換部３０２は、図２におけるＡ／Ｄ変換ＩＣ２０２に対応し、撮像部３０１が出力したアナログ電気信号をデジタル信号に変換する。

　光学制御部３０３は、図２におけるアクチュエーター２０３に対応し、後述する画像信号処理部３０８からの制御により第１光学部３００を制御する。

　サブ撮影部３５１は、図２におけるサブ撮影ユニット２５１に対応する。サブ撮影部３５１における第２光学部３０４、撮像部３０５、Ａ／Ｄ変換部３０６、光学制御部３０７は、それぞれ第１光学部３００、撮像部３０１、Ａ／Ｄ変換部３０２、光学制御部３０３に対応する。それらの機能は、メイン撮影部３５０における対応する機能部と同様であるため、ここでは説明を省略する。なお、第２光学部３０４、撮像部３０５、Ａ／Ｄ変換部３０６、光学制御部３０７は、それぞれ、図２における第２レンズ群２０４、ＣＣＤ２０５、Ａ／Ｄ変換ＩＣ２０６、アクチュエーター２０７に対応する。

　画像信号処理部３０８は、図２におけるＣＰＵ２０８に対応し、メイン撮影部３５０およびサブ撮影部３５１からの映像信号を入力として受け取り、立体映像信号を生成し、出力する。画像信号処理部３０８が立体映像信号を生成する具体的方法については、後述する。

　水平方向検出部３１８は、図２における加速度センサ２１１に対応し、映像撮影時の水平方向を検出する。

　表示部３１４は、図２におけるディスプレイ２１２の映像表示機能に対応し、画像信号処理部３０８によって生成された立体映像信号を表示する。表示部３１４は、入力された立体映像に含まれる左右の映像を、時間軸上で交互に表示する。視聴者は、表示部３１４の表示と同期して、視聴者の左眼に入射する光と右眼に入射する光とを交互に遮光する映像視聴用眼鏡（アクティブシャッター眼鏡）などを利用することにより、左側映像を左眼のみで、右側映像を右眼のみで見る。

　映像圧縮部３１５は、図２におけるエンコーダー２１３に対応し、画像信号処理部３０８によって生成された立体像信号を所定の方式に従って符号化する。

　蓄積部３１６は、図２における記憶装置２１４に対応し、映像圧縮部３１５によって符号化された立体映像信号を記録保持する。なお、蓄積部３１６は、上記の立体映像信号に限らず、他の形式で表される立体映像信号を記録するものであってもよい。

　入力部３１７は、図２における入力装置２１５やディスプレイ２１２のタッチパネル機能に対応し、映像撮影装置外部からの入力を受け付ける。

　[１－２．動作]
　[１－２－１．立体映像信号の生成処理]
　次に、画像信号処理部３０８が行う立体映像信号の生成処理を説明する。なお、以下の説明では、画像信号処理部３０８による処理は、ＣＰＵ２０８を用いたソフトウェアによって実現されるものとするが、本実施形態はこれに限定するものではない。例えばＦＰＧＡやその他の集積回路によるハードウェア構成によって同様の処理内容を実現するものであってもよい。

　画像信号処理部３０８は、図３に示すように、メイン撮影部３５０およびサブ撮影部３５１から出力される２つの画像の画角および画素数を合わせるステレオマッチング部（画角合わせ部）３２０と、２つの画像間の視差情報を生成する視差情報生成部３１１と、ステレオ画像を生成する画像生成部３１２と、各撮影部を制御する撮影制御部３１３とを備えている。ステレオマッチング部３２０は、粗切り出し部３２１と、垂直マッチング部（垂直領域算出部）３２２と、水平ライン数合わせ部３２５と、水平マッチング部３２３とを有している。

　ステレオマッチング部３２０は、メイン撮影部３５０およびサブ撮影部３５１の両方から入力された映像信号の画角を合わせるとともに、両者の画素数を合わせる処理を行う。「画角（Ａｎｇｌｅ　ｏｆ　ｖｉｅｗ）」とは、メイン撮影部３５０およびサブ撮影部３５１によってそれぞれ撮影された映像の撮影範囲（通常、角度で表現される）を意味する。すなわち、ステレオマッチング部３２０は、メイン撮影部３５０から入力された画像信号、およびサブ撮影部３５１から入力された画像信号の各々から、同一画角と推定される画像部分を抽出する。そして、両画像の画素数を合わせる。

　図４は、メイン撮影部３５０およびサブ撮影部３５１から入力された、ある時点における映像信号に基づいて生成された２つの画像を並べたものである。メイン撮影部３５０からの画像（以下、「右側映像Ｒ」と呼ぶ。）とサブ撮影部３５１からの画像（以下、「左側映像Ｌ」と呼ぶ。）とでは、撮影の倍率が異なっている。これは、第１光学部３００（第１レンズ群２００）は光学ズーム機能を搭載しているが、第２光学部３０４（第２レンズ群２０４）は光学ズーム機能を搭載していないためである。メイン撮影部３５０とサブ撮影部３５１とが同じ被写体を撮影したとしても、第１光学部３００のズーム倍率と第２光学部３０４のズーム倍率との差異や、相互の位置関係に起因して、撮影される「画角」（映像の撮影範囲）は異なる。ステレオマッチング部３２０は、各撮影部によって撮影された画角の異なる映像を合わせる処理を行う。なお、本実施形態では、サブ撮影部３５１の第２光学部３０４が光学ズーム機能を搭載しないため、第２光学部３０４（第２レンズ群２０４）を小型化することが可能である。

　ステレオマッチング部３２０は、サブ撮影部３５１によって撮影された左側映像Ｌから、メイン撮影部３５０によって撮影された右側映像Ｒに写っている光景に該当する部分を抽出する。画像信号処理部３０８は、撮影された映像を処理するとともに、光学制御部３０３を介して撮影中の第１光学部３００の状態を取得することができる。例えば、画像信号処理部３０８は、ズーム制御を行う場合は、撮影制御部３１３によって光学制御部３０３を介して第１光学部３００のズーム機能を制御する。そのため、画像信号処理部３０８は、メイン撮影部３５０によって撮影された映像のズーム倍率を付帯情報として取得することができる。逆に、第２光学部３０４はズーム機能を有しないため、その倍率は予めわかっている。ステレオマッチング部３２０は、これらの情報に基づいて、メイン撮影部３５０とサブ撮影部３５１との間の倍率の差異を算出し、その差異に基づいて、左側映像Ｌの中で右側映像Ｒに該当する部分を特定することが可能となる。なお、この処理の際、該当する部分に比べ、例えば１０％程度大きい範囲をまず切り出し、切り出した範囲内でステレオマッチング処理を行うことにより、簡単な処理で画角合わせを実現することができる。左側映像Ｌから右側映像Ｒに該当する部分を抽出する方法の詳細については後述する。

　図４において、左側映像Ｌの点線で囲まれた部分は、右側映像Ｒの撮影範囲に該当する部分である。左側映像Ｌは、ズーム機能のない単焦点レンズを有する第２光学部３０４によって取得された画像であるため、ズームレンズを用いて撮影された右側映像Ｒよりも広範な範囲に及んでいる。すなわち、右側映像Ｒよりも左側映像Ｌの方が広角の画像である。ステレオマッチング部３２０は、左側映像Ｌから、右側映像Ｒに相当する点線で囲まれた領域を特定する。なお、本実施形態では、右側映像Ｒについては一部の領域を抽出することなくそのまま利用されるが、右側映像Ｒについても一部を抽出し、抽出した右側映像Ｒの一部に相当する領域を左側映像Ｌから切り出してもよい。

　本実施形態におけるステレオマッチング部３２０は、左右両画像の画素数を合わせる処理も行う。メイン撮影部３５０の撮像部３０１とサブ撮影部３５１の撮像部３０５とでは、解像度が異なっている。また、光学ズーム機能によってメイン撮影部３５０のズーム倍率が変化した場合、左側映像Ｌにおいて右側映像Ｒの撮影範囲に相当する領域のサイズも変化する。すなわち、左側映像Ｌから抽出される部分画像の画素数は、メイン撮影部３５０のズーム倍率に応じて増減する。そのため、画角を合わせただけでは、左右の両画像の画素数が一致しないため、両者を比較するには扱いにくい状態となる。そこで、ステレオマッチング部３２０は、左側映像Ｌから抽出した部分画像の画素数と右側映像Ｒの画素数とを合わせる処理も併せて行う。なお、ステレオマッチング部３２０は、左右の両映像の輝度信号レベルや色信号レベルの差異が大きい場合には、左右の両映像の輝度信号レベルや色信号レベルを合わせる（または近づける）処理を同時に行ってもよい。左側映像Ｌから抽出した部分画像の画素数と右側映像Ｒの画素数とを合わせた後に、さらに、２次元または３次元のデジタル画像フィルタを通して残留歪をさらに低減することもできる。

　ステレオマッチング部３２０は、撮像部３０１および撮像部３０５の画素数が多い場合には、計算過程で発生する誤差を小さくすることを考慮して平均画素法、線形補間法、または最近傍法等を用いて両画像の画素数を縮小させる処理を行ってもよい。例えば、図４に示すように、メイン撮影部３５０によって撮影された画像が、高精細度テレビ方式に対応した１９２０×１０８０画素の情報量を持つ場合、取り扱う情報量が多い。情報量が多いと、要求される映像撮影装置１０１全体の処理能力が高くなるため、撮影した映像の処理に要する時間が長くなるなど、データ処理が困難となりやすくなる。そこで、ステレオマッチング部３２０は、画素数を合わせるとともに、必要に応じて両画像の画素数を減少させる処理を行ってもよい。例えば、メイン撮影部３５０が撮影した１９２０×１０８０画素の右側映像Ｒを、２８８×１６２画素のサイズに縮小する場合、縦、横方向にそれぞれ３／２０倍にすればよい。なお、ステレオマッチング部３２０による映像の縮小、拡大の方法は、公知のいずれの方法であってもよい。

　本実施形態では、サブ撮影部３５１の撮像部３０５は、メイン撮影部３５０の撮像部３０１よりも多くの画素を有している。例えば、図４に示すように、撮像部３０５は、３８４０×２１６０の画素を有する。ここで、左側映像Ｌにおける右側映像Ｒに相当する領域の大きさが１２８０×７２０であるとすると、ステレオマッチング部３２０は、１２８０×７２０の画素数を縦、横にそれぞれ９／４０倍に縮小することにより、左側映像についても、２８８×１６２の画像にすることができる。

　図５は、上記の例におけるステレオマッチング部３２０による映像データの処理結果を示す図である。なお、図５には、後述する視差情報生成部３１１および画像生成部３１２による処理結果も併せて示されている。上記のように、ステレオマッチング部３２０は、右側映像Ｒおよび左側映像Ｌの画角を合わせる。すなわち、左側映像Ｌから右側映像Ｒに該当する部分（図５における１２８０×７２０画素の画像）を抽出する。ステレオマッチング部３２０は、さらに、左右の画像の画素数を合わせ、以降の処理に適した大きさに両画像を縮小することにより、２８８×１６２の画像Ｒｓ、Ｌｓを生成する。なお、図５に示す例では、ステレオマッチング部３２０は、まず左側映像Ｌから右側映像Ｒに相当する部分画像を抽出してから、右側映像Ｒおよび当該部分画像の画素数を合わせているが、このような例に限定されるものではない。例えば、後述するように、まず左側映像Ｌの垂直方向の範囲および画素数を右側映像Ｒに合わせた後、水平方向の範囲および画素数を右側映像Ｒに合わせる処理を行ってもよい。

　本実施形態では、図５に示す右側映像Ｒが「第１の画像」に相当し、左側映像Ｌが「第２の画像」に相当する。このように、「第１の画像」は、光学ズーム機能を有する撮影部（メイン撮影部３５０）によって取得される画像であり、「第２の画像」は、サブ撮影部３５１によって取得される画像である。本実施形態における右側映像Ｒおよび左側映像Ｌは、それぞれメイン撮影部３５０における撮像部３０１の画素（光感知セル）数およびサブ撮影部３５１における撮像部３０５の画素（光感知セル）数と同数の画素を有している。

　以下、ステレオマッチング部３２０による画角合わせ処理および画素数合わせ処理の具体例を説明する。

　図６は、ステレオマッチング部３２０による画角合わせ処理の流れを示す概念図である。本実施形態における画角合わせ処理には、大別して３段階の処理が含まれる。まず第１に、左側映像Ｌから、右側映像Ｒの撮影範囲に対応する箇所を包含する領域Ｌ１が抽出される（粗切り出し）。第２に、領域Ｌ１から、右側映像Ｒの垂直方向の範囲に相当する領域（以下、「垂直画像領域」と呼ぶことがある。）Ｌ２が抽出される（垂直マッチング）。第３に、領域Ｌ２から、右側映像Ｒの水平方向の範囲に相当する領域Ｌｍが抽出される（水平マッチング）。ここで、垂直方向とは、図６に示される座標系におけるｙ軸方向であり、画像の上下方向を意味する。また、水平方向とは、図６におけるｘ軸方向であり、画像の左右方向を意味する。以上の処理により、右側映像Ｒの撮影範囲に対応する部分画像Ｌｍが左側映像Ｌから抽出される。

　本実施形態では、以上の処理のいずれかの段階において、左右両画像の画素数を合わせる処理が行われる。画素数を合わせる処理は、垂直方向および水平方向の両方についてまとめて行ってもよいし、それぞれ個別に行ってもよい。以下、垂直マッチングの後で垂直方向の画素数を合わせ、水平マッチングの後で水平方向の画素数を合わせる例を説明する。

　図７は、ステレオマッチング部３２０による画角合わせ処理の一例を示すフローチャートである。この例では、まずステップＳ７０１において、粗切り出し部３２１によって左側映像Ｌから、右側映像Ｒの撮影範囲に対応する箇所を包含する領域Ｌ１が抽出される。次に、ステップＳ７０２において、垂直マッチング部３２２によって領域Ｌ１から、右側映像Ｒの垂直方向の範囲に対応する垂直画像領域Ｌ２が抽出または算出される。続いて、ステップＳ７０３において、水平ライン数合わせ部３２５によって垂直画像領域Ｌ２の垂直方向の画素数と右側映像Ｒの垂直方向の画素数とが予め定められた値に合わせられる。すなわち、垂直画像領域Ｌ２に含まれる水平ラインの数と右側映像Ｒの水平ラインの数とが予め定められた値に合わせられる。これらの水平ライン数を合わせる方法としては、公知のどのような方法を採用してもよい。その後、ステップＳ７０４において、水平マッチング部３２３によって、領域Ｌ２から、右側映像Ｒの水平方向の範囲に対応する領域Ｌｍが抽出される。最後に、ステップＳ７０５において、水平マッチング部３２３によって領域Ｌｍの水平方向の画素数と右側映像Ｒの水平方向の画素数とが合わせられ、画像Ｒｓ、Ｌｓが出力される。

　粗切り出し部３２１は、例えば、メイン撮影部３５０におけるズーム光学系のズーム倍率を示す情報、およびズーム光学系の光軸と撮像センサの中心との変位量を示す情報の少なくとも一方に基づいて、左側映像Ｌのうち、右側映像Ｒの撮影範囲に対応すると推定される領域を包含する領域を抽出する。ここで、「ズーム光学系」とは、メイン撮影部３５０における光学部３００に含まれる光学ズーム機能を実現するために使用される光学系を意味する。前述のように、ズーム光学系のズーム倍率は既知であり、ズーム倍率の変動に応じて左側映像Ｌから切り出すべき範囲が変動するため、当該情報を利用することにより、適切な範囲を切り出すことができる。また、映像撮影装置が光学式手振れ補正を行う場合、メイン撮影部３５０におけるズーム光学系または撮像センサが撮影者の手振れに応じて変位する。その場合、メイン撮像部３５０ではズーム光学系の光軸と撮像センサの中心とがずれる一方、サブ撮影部３５１では光学系の光軸と撮像センサの中心とは一致した状態に維持される。すなわち、ズーム光学系の光軸と撮像センサの中心との変位量を示す情報は、第２の画像と第１の画像との並進のずれの程度を表す。したがって、当該変位量を示す情報を利用することにより、粗切り出しの精度をさらに向上させることができる。なお、上記のズーム倍率を示す情報や変位量を示す情報を記録しておけば、他の装置において当該情報を利用することもできる。これらの情報は、例えば、映像の１フレームごと（例えば１／６０秒ごと）に記録しておくことができる。

　図８Ａは、垂直マッチング部３２２による垂直マッチング処理（図７におけるステップＳ７０２）の詳細手順を示すフローチャートである。まずステップＳ８０１において、垂直マッチング部３２２は、領域Ｌ１および右側映像Ｒから、同じ画像特徴をもつと推定される相互に対応する複数の画像ブロックを選択する。ここで、「画像特徴」とは、画像に含まれる輝度信号や色信号のエッジやテクスチャーを意味する。複数の画像ブロックは、例えば垂直方向の輝度変化が大きい箇所から選択され得る。また、領域Ｌ１から右側映像Ｒに対応する領域を決定する方法として、公知のテンプレートマッチングを用いることができる。ここで、領域Ｌ１および右側映像Ｒをそのまま用いるのではなく、複数の解像度で表現した各画像の画像特徴を階層的に比較することによって上記複数の画像ブロックを決定してもよい。

　本実施形態では、複数の画像ブロックが選択されると、各画像ブロックから１つ以上の代表点が決定される。代表点としては、例えば画像の特徴点や画像ブロックの端部の点が選ばれる。なお、「特徴点」とは、画像を特徴付ける画素または画素の集合を意味し、典型的にはエッジやコーナーなどを指す。また、画像に含まれる輝度信号や色信号のエッジだけでなくテクスチャーも画素の集合という意味で画像の特徴点といえる。

　続くステップＳ８０２において、垂直マッチング部３２２は、領域Ｌ１における各画像ブロックの代表点のｙ座標と、右側映像Ｒにおける各画像ブロックの代表点のｙ座標とを比較する。次に、ステップＳ８０３において、ステップＳ８０２における比較結果に基づいて、領域Ｌ１から、右側映像Ｒと同一の垂直方向範囲を有すると推定される領域Ｌ２を抽出する。

　図８Ｂは、上記の垂直マッチング処理の一例を示す図である。ここでは、粗切り出しされた左側映像Ｌ１が１４００×７８０の画素を含み、図８Ｂに示す６個の画像ブロック８００が左側映像Ｌ１および右側映像Ｒの各々から選択される場合を想定する。ここで、左側映像Ｌ１における複数の画像ブロック８００の一部の代表点のｙ座標がｙｌ１、ｙｌ２、ｙｌ３、ｙｌ４であり、右側映像Ｒにおける対応する代表点のｙ座標がｙｒ１、ｙｒ２、ｙｒ３、ｙｒ４であったとする。また、右側映像Ｒにおけるｙ＝０～１０８０の範囲は、左側映像Ｌ１ではｙ＝ｙ０～ｙ１の範囲に該当すると仮定する。すると、求めるべき未知数ｙ０、ｙ１は、例えば（ｙｌ１－ｙ０）：（ｙｌ２－ｙｌ１）：（ｙｌ３－ｙｌ２）：（ｙｌ４－ｙｌ３）：（ｙ１－ｙｌ４）＝ｙｒ１：（ｙｒ２－ｙｒ１）：（ｙｒ３－ｙｒ２）：（ｙｒ４－ｙｒ３）：（１０８０－ｙｒ４）の関係から求めることができる。上記演算の結果、例えば１４００×７２０画素の領域Ｌ２が抽出される。

　この例では、垂直マッチング部３２２は、抽出した領域Ｌ２の垂直方向の画素数と右側映像Ｒの垂直方向の画素数とを合わせる処理をさらに行う。例えば、１４００×７２０画素の領域Ｌ２を、１４００×１６２画素の領域Ｌ２’に変換し、１９２０×１０８０画素の右側画像Ｒを、１９２０×１６２画素の右側画像Ｒ’に変換する。その後、水平マッチング部３２３は、これらの２画像について、水平マッチング処理および水平方向の画素数合わせ処理を行う。

　図９Ａは、水平マッチング部３２３による水平マッチング処理（図７におけるステップＳ７０４）の詳細手順を示すフローチャートである。まず、ステップＳ９０１において、水平マッチング部３２３は、領域Ｌ２および右側映像Ｒから変換された領域Ｌ２’および右側映像Ｒ’から、相互に対応する水平ライン信号を選択する。次に、ステップＳ９０２において、領域Ｌ２’から選択した複数の水平ライン信号と、右側映像Ｒ’から選択した対応する水平ライン信号とを比較する。最後に、ステップＳ９０３において、ステップＳ９０２における比較結果に基づいて、領域Ｌ２’から、右側映像Ｒ’と同一の水平方向範囲を有すると推定される領域Ｌｍを抽出する。なお、水平マッチング部３２３は、ステップＳ９０１の前に、垂直マッチング部３２２によって抽出された２つの画像領域の平均輝度値の差を予め設定した値以下に合わせるゲイン調整を行ってもよい。これにより、メイン撮影部３５０の撮像特性とサブ撮影部３５１の撮像特性との違いに起因して２つの画像領域の平均輝度値に差がある場合でも高い精度で水平マッチングを行うことができる。

　図９Ｂは、水平マッチング部３２３による水平マッチング処理の一例を示す図である。この例では、水平マッチング部３２３は、垂直方向の範囲および画素数が合わせられた左側映像Ｌ２’（１４００×１６２画素）および右側映像Ｒ’（１９２０×１６２画素）から、相互に対応する複数の水平ライン９００を選択する。そして、それらの相互相関関数を求めることにより、左側映像Ｌ２’から右側映像Ｒ’に相当する水平方向の範囲ｘ＝ｘ０～ｘ１の領域Ｌｍを抽出する。なお、図９Ｂでは、簡単のため、水平ライン９００の数は３本であるが、実際には３本である必要はなく、１本でもよい。しかし、水平ライン９００の数が多いほどマッチングの精度が向上するため、計算機のスペックに応じて可能な限り多くの水平ライン９００を選択すればよい。水平ライン９００は、例えば、所定の行数ごとに選択され得る。また、左側映像Ｌ２’および右側映像Ｒ’をそのまま用いるのではなく、複数の解像度で表現された各画像の水平ライン信号を階層的に比較することによって精度を高めてもよい。

　なお、上記の処理において、水平ライン９００全体について比較するのではなく、水平方向の輝度変化が特に大きい領域の信号の比較によって水平方向の範囲を決定してもよい。すなわち、予め設定された閾値を超える輝度変化が水平方向に生じている画素の周辺領域の信号の比較によって水平方向の範囲を決定してもよい。そのような処理を採用することにより、演算量を抑えることができる。

　水平マッチング部３２３は、領域Ｌｍを抽出した後、左右両画像の水平方向の画素数を合わせることによって、例えば２８８×１６２画素の左側映像Ｌｓおよび右側映像Ｒｓを出力する。これにより、画角および画素数が合わせられた左右両画像が得られるため、後述する視差情報の生成およびステレオ画像の生成が容易となる。

　以上の処理により、ステレオマッチング部３２０は、左側映像Ｌおよび右側映像Ｒの画角および画素数を合わせる。上記の処理によれば、撮影中にメイン撮影部３５０のズーム倍率が変化した場合であっても、高速かつ高精度にステレオマッチングを行うことが可能となる。

　なお、上記の例では、まず粗切り出し部３２１によって左側画像Ｌから右側画像Ｒに該当する領域Ｌ１が切り出されるが、このような処理は必須ではない。粗切り出し処理を省略して垂直マッチング処理から開始することも可能である。また、上記の例では、垂直マッチング後に垂直方向の画素数が合わせられ、水平マッチング後に水平方向の画素数が合わせられるが、前述のとおり、垂直方向および水平方向のマッチングを行った後またはその前に画素数を合わせてもよい。

　次に、視差情報生成部３１１による視差情報の生成処理を説明する。

　視差情報生成部３１１は、ステレオマッチング部３２０によって画角合わせおよび画素数合わせ処理が行われた左右の両映像の視差を検出する。メイン撮影部３５０によって撮影された映像とサブ撮影部３５１によって撮影された映像とは、同じ被写体を撮影しているものの、それらの位置の差異に起因する視差の分だけ異なる映像となる。例えば、図１０に示す２つの画像が撮影された場合、被写体として写っている建物６００の位置は、左側映像Ｌと右側映像Ｒとで異なっている。メイン撮影部３５０によって撮影された右側映像Ｒは、サブ撮影部３５１によって撮影された左側映像Ｌよりも、右側から撮影された映像であるため、右側映像Ｒでは、建物６００が、左側映像Ｌにおける位置よりも左側に配置されている。視差情報生成部３１１は、これらの異なる画像に基づいて、映し出されている被写体の視差を算出する。

　図１１は、視差情報生成部３１１によって実行される処理の流れを示すフローチャートである。視差情報生成部３１１は、図１１のフローチャートに従って左右両映像間の視差を算出する。以下、図１１に示す各ステップを説明する。

　ステップＳ１１０１：視差情報生成部３１１は、入力された左右両映像Ｒｓ、Ｌｓの各々から、輝度信号（Ｙ）のみを抽出した映像を作成する。これは、視差を検出する場合、ＲＧＢの３色すべてについて処理を行うよりも、輝度・色差信号（ＹＣｂＣｒ）のうちの輝度信号（Ｙ）のみを用いて処理を行う方が効率的であり、処理負荷を軽くできるからである。なお、本実施形態では、映像を輝度信号Ｙおよび色差信号ＣｂＣｒで表すが、ＲＧＢの３色で映像を表現し、処理してもよい。

　ステップＳ１１０２：視差情報生成部３１１は、ステップＳ１１０１において生成した左右両映像の輝度信号の差分（Δ（Ｌｓ／Ｒｓ））を算出する。この際、視差情報生成部３１１は、各映像内における同じ位置の画素を比較して差分を求める。例えば、左側映像Ｌｓにおけるある画素の輝度信号の値（画素値）Ｌｓが１０３、右側映像における対応画素の輝度信号の値Ｒｓが１０１である場合、その画素における差分値Δ（Ｌｓ／Ｒｓ）は２となる。

　ステップＳ１１０３：ステップＳ１１０２において算出した画素間の差分値に基づいて、視差情報生成部３１１は、画素単位で以下の処理の内容を変える。差分値が０の場合（左右の映像間で画素値がまったく同じ場合）、ステップＳ１１０４の処理を行う。逆に、差分値が０以外の場合（左右の映像間で画素値が異なる場合）には、ステップＳ１１０５の処理を行う。

　ステップＳ１１０４：ステップＳ１１０３の処理で左右の画素値がまったく同じ場合、視差情報生成部３１１は、当該画素における視差量を０に設定する。なお、ここでは説明を簡単にするために左右の画素がまったく同じ場合を視差量０として判断しているが、実際の製品における算出方法はこの例に限定されない。左右の画素値がまったく同じでなくとも、当該画素の周囲に位置する画素の値が左右の映像間でまったく同じであり、当該画素の値の差異が小さい場合は、当該画素も左右の映像間で同じであると判断してもよい。つまり、視差量を決定する際に、注目している画素の左右の映像間での差異のみならず、周囲の画素の左右の映像間での差異も考慮して、視差量を決定してもよい。これにより、その画素の近傍に存在するエッジやテクスチャーなどに起因して生じる計算誤差の影響を取り除くことができる。また、着目している画素または周囲の画素の画素値がまったく同じでなくとも、着目している画素間の差分が予め設定された閾値に満たない場合は視差量を０と判断してもよい。

　ステップＳ１１０５：視差情報生成部３１１は、２つの画像間で差異を検出すると、メイン撮影部３５０による映像（本実施形態では右側映像Ｒｓ）を基準映像として、基準映像の各画素が、サブ撮影部３５１による映像（本実施形態では左側映像Ｌｓ）のどの画素と対応するかを検出（探索）する。対応画素の探索は、例えば、左側映像Ｌｓにおける着目する画素を起点として、横方向および縦方向に１画素ずつずらしながら差分を求め、差分が最小になる画素を特定することによって行われ得る。また、あるラインとその近傍ラインとでは、輝度信号のパターンが類似することから、それらのパターンの情報を利用して最も確からしい対応画素を探索してもよい。平行法による撮影では、映像内に無限遠点が存在する場合、そこでは視差が生じないため、無限遠点を基準に対応画素の探索を行うこともできる。更に、輝度信号だけでなく、色差信号のパターンの類似性を考慮してもよい。映像上のどの部分が無限遠点かは、例えば自動焦点の動作を考慮して判断することが可能である。なお、映像撮影装置１０１が完全に水平な状態で撮影が行なわれていれば、視差は水平方向にしか発生しないため、右側映像と左側映像との画素単位の検出は、当該映像の横方向のみについてのみ探索すればよいといえる。また、平行法による撮影の場合、無限遠の物体の視差がゼロとなり、無限遠より近い物体の視差は、水平方向の一方向にしか発生しないため、横方向の探索は一方向のみについて行ってもよい。

　ステップＳ１１０６：視差情報生成部３１１は、左側映像Ｌｓにおいて探索された対応画素と基準映像Ｒｓの画素との映像面上での画素間距離を算出する。画素間距離は、それぞれの画素の位置に基づいて算出され、例えば画素数で表される。この算出結果に基づいて、視差量が決定される。画素間距離が大きいほど視差量が大きいと考えることができる。反対に画素間距離が小さいほど視差量が小さいと考えることができる。

　なお、メイン撮影部３５０とサブ撮影部３５１とが平行法による撮影方法で撮影するように構成されている場合、前述のとおり、無限遠方で視差量が０となる。したがって、撮影された被写体は、映像撮影装置１０１から被写体までの距離（撮影距離）が短いほど、映像面上では視差量が大きくなる傾向がある。逆に、映像撮影装置１０１と被写体までの距離が長いほど、映像面上での視差量が小さくなる傾向がある。一方、メイン撮影部３５０とサブ撮影部３５１とが交差法による撮影方法で撮影するように構成されている場合、両者の光軸は一点で交わる。両者の光軸が交わる位置を「クロスポイント」と呼ぶ。この場合、クロスポイントを基準として、被写体がクロスポイントよりも手前（映像撮影装置１０１側）にある場合、被写体が映像撮影装置１０１に近いほど視差量は大きくなる。逆に、被写体がクロスポイントよりも奥（映像撮影装置１０１とは反対側）にある場合、被写体が遠方にあるほど視差量が大きくなる傾向がある。

　ステップＳ１１０７：視差情報生成部３１１は、すべての画素について視差量を決定した場合は、次のステップＳ１１０８へ処理を移す。まだ視差量が決定されていない画素がある場合は、まだ視差量が決定されていない画素についてステップＳ１１０３に戻り上記の処理を繰り返す。

　ステップＳ１１０８：すべての画素について視差量を決定すると、映像面全体について視差量が決定されたことになるので、視差情報生成部３１１は、この映像面全体についての視差量の情報から、デプスマップ（ＤｅｐｔｈＭａｐ）を作成する。このデプスマップは、映像面上の被写体、または映像面の部分毎の奥行きを示す情報である。デプスマップにおいては、視差量が小さい部分は０に近い値を持ち、視差量が大きい部分ほど大きい値を持つ。デプスマップで示される奥行き情報と視差量との間には、１対１の関係があり、輻輳角やステレオベース距離などの幾何学的な撮影条件を与えれば相互変換ができる。よって、メイン撮影部３５０による右側映像Ｒと左右の視差量、または、右側映像Ｒとデプスマップとによって、立体映像を表現することができる。

　図１２は、図１０に示す映像が取得された場合に生成されるデプスマップの例を示す図である。図１２（ｂ）に示すように、視差のある部分は視差量に応じて有限の値を持ち、視差のない部分は０の値となる。なお、図１２（ｂ）に示す例では、わかり易さのため、実際よりも粗く視差量を表現しているが、実際には、例えば図５に示される２８８×１６２個の画素ごとに視差量が計算される。

　視差量からデプスマップを生成する際には、第１光学部３００と第２光学部３０４とのレンズ間距離や相互の位置関係が考慮される。第１光学部３００と第２光学部３０４とは、例えば人の左右両眼の位置関係と同様の位置関係をもつが、必ずしもそれを実現できない場合がある。その場合、視差情報生成部３１１は、第１光学部３００と第２光学部３０４との位置関係を考慮してデプスマップを生成するとよい。例えば、第１光学部３００と第２光学部３０４とが近接して配置されている場合、デプスマップを生成する際、算出された個々の視差量の値を大きくするように変換してもよい。第１光学部３００と第２光学部３０４とが近接して設けられていると、撮影される映像間の視差の変化が小さくなるため、そのまま立体映像にしても自然な映像とならない場合がある。そこで、視差情報生成部３１１は、デプスマップを生成する際に第１光学部３００と第２光学部３０４との位置関係を考慮してデプスマップを生成する。

　画像生成部３１２は、視差情報生成部３１１によって算出された画素ごとの視差量を示す情報であるデプスマップに基づいて、メイン撮影部３５０によって撮影された映像から、立体映像の対となる映像を生成する。立体映像の対となる映像とは、メイン撮影部３５０によって撮影された右側映像Ｒと同一の画素数をもち、右側映像Ｒに対して視差を有する左側映像を意味する。本実施形態における画像生成部３１２は、図１３に示すように、右側映像Ｒとデプスマップとに基づいて、右側映像Ｒと立体映像の対となる左側映像Ｌ’を生成する。画像生成部３１２は、まず、デプスマップを参照することにより、メイン撮影部３５０が出力した１９２０×１０８０の右側映像Ｒにおいて、視差が発生している部分を特定する。次に、デプスマップが示す視差量の分だけ当該部分の位置を補正する処理を行うことにより、左側映像として適当な視差を持つ映像Ｌ’を生成する。つまり、左側映像として適切な映像になるように、右側映像Ｒにおける当該部分をデプスマップによって示される視差量に応じて右側に移動させるなどの処理を施し、その結果生成された映像を左側映像Ｌ’として出力する。視差を有する部分を右側に移動させるのは、左側映像における視差を有する部分は、右側映像における対応する部分よりも右側に位置するためである。

　なお、上記の例では、デプスマップは２８８×１６２画素を有する画像Ｒｓ、Ｌｓから生成されるため、１９２０×１０８０画素を有する右側映像Ｒに比べて情報量が少ない。このため、画像生成部３１２は、不足する情報を補完した上で上記の処理を行う。例えば、デプスマップを２８８×１６２画素を有する画像と考えたとき、縦および横方向に画素数を２０／３倍に拡大し、かつ視差量を表す画素値も２０／３倍にした上で、拡大によって追加された画素の値を、周辺の画素の値で埋める処理が行われる。画像生成部３１２は、上記のような処理によってデプスマップを１９２０×１０８０画素の情報に変換した上で、右側映像Ｒから左側映像Ｌ’を生成する。

　画像生成部３１２は、図５に示すように、生成した左側映像Ｌ’と、画像信号処理部３０８に入力された右側映像Ｒとを立体映像信号として出力する。これにより、画像信号処理部３０８は、メイン撮影部３５０およびサブ撮影部３５１によってそれぞれ撮影された映像信号に基づいて立体映像信号を出力することが可能となる。

　以上の処理により、映像撮影装置１０１は、メイン撮影部３５０とサブ撮影部３５１とが異なる構成であっても、信号処理により、一方の撮影映像から立体映像の対となる他方の映像を生成することが可能となる。

　次に、ステレオマッチング部３２０、視差情報生成部３１１、画像生成部３１２を含む映像撮影装置１０１全体の処理の流れの例を、図１４に示すフローチャートを参照しながら説明する。以下、各ステップの処理を説明する。

　ステップＳ１４０１：画像信号処理部３０８は、入力部３１７から撮影モードの入力を受けつける。撮影モードは、例えば立体映像（３Ｄ）撮影モードおよび非立体映像（２Ｄ）撮影モードの中からユーザによって選択され得る。

　ステップＳ１４０２：画像信号処理部３０８は、入力された撮影モードが、立体映像撮影モードか、非立体映像撮影モードかを判別する。立体映像撮影モードが選択された場合、処理はステップＳ１４０４に進む。非立体映像撮影モードが選択された場合、処理はステップＳ１４０３に進む。

　ステップＳ１４０３：画像信号処理部３０８は、入力された撮影モードが非立体映像撮影モードの場合は、メイン撮影部３５０で撮影される映像を従来どおりの方式で撮影し、記録する。

　ステップＳ１４０４：画像信号処理部３０８は、入力された撮影モードが立体映像撮影モードの場合は、メイン撮影部３５０およびサブ撮影部３５１によってそれぞれ右側映像Ｒおよび左側映像Ｌを撮影する。

　ステップＳ１４０５：ステレオマッチング部３２０は、上述した方法により、入力された右側映像Ｒおよび左側映像Ｌの画角合わせ処理を行う。

　ステップＳ１４０６：ステレオマッチング部３２０は、上述した方法により、画角合わせされた左右両映像に対して画素数合わせ処理を行う。

　ステップＳ１４０７：視差情報生成部３１１は、画素数合わせ処理が行われた右側映像Ｒｓおよび左側映像Ｌｓについて、視差量の検出を行う。視差量の検出は、図１１を参照しながら説明した上記の処理によって行われる。

　ステップＳ１４０８：画像生成部３１２は、上述した方法により、右側映像Ｒと、算出されたデプスマップとから、右側映像Ｒに対して立体映像の対となる左側映像Ｌ’を生成する。

　ステップＳ１４０９：映像撮影装置１０１は、生成された右側映像Ｒおよび左側映像Ｌ’に基づく立体映像を表示部３１４に表示する。なお、立体映像を表示するのではなく、右側映像Ｒおよび左側映像Ｌ’、または右側映像Ｒおよび視差情報を記録する処理を行ってもよい。これらの情報が記録されていれば、当該情報を他の再生装置に読み出させることによって立体映像を再生することが可能となる。

　ステップＳ１４１０：映像撮影装置１０１は、引き続き映像の撮影が続けられるか否かを判断する。撮影が続けられる場合は、ステップＳ１４０４に戻って処理を繰り返す。撮影が続けられない場合は、撮影を終了する。

　なお、撮影した映像から立体映像を生成する方法は、上記の方法に限定されるものではない。例えば、他の方法として、輪郭マッチングを用いる方法がある。この方法は、左右いずれかの粗い画像の輪郭に、他方の高精細画像の輪郭をマッチングさせることにより、テクスチャーを埋め、高精細な画像を生成する方法である。ＣＧの分野で導入されているように、頂点、稜線、面の接続情報（位相情報）を持ったポリゴンなどによって表現された３Ｄモデル（３Ｄオブジェクト）の表面にテクスチャーをマッピングする（壁紙のように貼り付ける）ことにより、高精細な画像を生成することができる。この際、オクルージョン部（隠れ部）のテクスチャーは、その周囲の既知のテクスチャーから推定して埋めることができる。なお、「オクル―ジョン部」とは、一方の映像には映っているが、他方の映像には映っていない部分（情報欠落領域）を指す。オクルージョン部でない部分を引き伸ばすことにより、オクルージョン部をオクルージョン部でない部分で隠すこともできる。

　オクル―ジョン部でない部分を引き延ばす方法として、例えば、公知のガウシアンフィルタなどの平滑化フィルタを用いる方法がある。比較的低い解像度のデプスマップに、予め定められた減衰特性をもつ平滑化フィルタを通して得られる新たなデプスマップを用いてオクル―ジョン部をもつ映像を補正することができる。このような方法により、オクル―ジョン部においても自然な立体映像を生成することが可能となる。

　さらに別の方法として、２Ｄ－３Ｄ変換を用いる方法がある。例えば、高精細な右側映像（Ｒ－ｃｈ画像）に対して２Ｄ－３Ｄ変換を施して生成される高精細な左側映像（推定Ｌ－ｃｈ画像）と、実際に撮影された左側映像（Ｌ－ｃｈ画像）とを比較して推定Ｌ－ｃｈ画像を補正することにより、輪郭エラーのない高精細な左側映像を生成することができる。

　また、他の方法として、以下の方法を用いてもよい。まず、視差情報生成部３１１によって高精細な右側映像（例えば、水平１９２０画素、垂直１０８０画素の画像）の構図、輪郭、色、テクスチャー、シャープネス、空間周波数分布などの画像特徴に基づき、奥行き情報（デプス情報１）を推定、生成する。ここで、デプス情報１の解像度は、右側映像の解像度と同等もしくはそれ以下に設定することができる。デプス情報１は、上記の例のように、例えば水平２８８画素、垂直１６２画素に設定され得る。次に、２つのレンズ系より実際に取得された左右の両画像から画素数が合わせられた２つの画像（例えば、水平２８８画素、垂直１６２画素）を生成し、それらの画像から奥行き情報（デプス情報２）を生成する。この場合、デプス情報２も、水平２８８画素、垂直１６２画素となる。

　ここで、デプス情報２は実際に撮影した画像から計算しているので、画像特徴に基づいて推定して生成したデプス情報１よりも正確である。よって、デプス情報２を参照して、デプス情報１に含まれている誤差を補正することができる。つまり、この例における処理は、画像解析による２Ｄ－３Ｄ変換によって生成された奥行き情報（デプス情報１）の精度を上げるための拘束条件として、デプス情報２を利用することと等価である。

　以上の動作は、サブ撮影部３５１が光学ズームを用いている場合も有効動作する。サブ撮影部３５１が光学ズームを用いている時には、高精細な左側映像を規準画像とし、右側映像をサブ画像として参照した方が、画像歪（エラー）の発生に対して耐性がある。その理由は、第１に、微妙なズーム倍率の変化を行ったときの左側映像と右側映像とのステレオマッチング処理が簡単となるからである。第２に、メイン撮影部３５０の光学ズーム倍率が連続的に変化する場合、デプス情報計算のために、サブ撮影部３５１の電子ズーム倍率を追随させると、計算時間が多くなるため、ステレオマッチング処理で画像歪が発生する傾向にあるからである。

　なお、人の場合、両目から入力されたステレオ映像から細やかな立体形状、立体表現を作り上げるのは脳であると言われている。このため、２Ｄ－３Ｄ変換として、例えば、映像全体に眼球の持つ球面的な視差を付けて奥行き感を表現したり、撮影時のズーム量や焦点距離を示す情報を参照することにより、被写体のボケ量から被写体の奥行き情報を推定することもできる。

　さらに他の方法として、右側映像に対して、２つのレンズ系より実測した奥行き情報（デプス情報）を用いた幾何学的な計算を施すことにより、視差情報を得てもよい。この視差情報を用いて、幾何学的な計算により、右側映像から左側映像を計算することができる。

　また、他の方法として、超解像法がある。この方法では、粗い左側映像から超解像により、高精細な左側映像を生成する際に、高精細な右側映像が参照される。例えば、ガウシアンフィルタなどによって平滑化されたデプスマップを、撮像系の幾何学的な位置関係に基づいて視差情報に変換し、その視差情報を用いて高精細な右側映像から高精細な左側映像を計算することができる。

　[１－２－２．視差情報を利用した映像撮影]
　次に、図３に示す画像信号処理部３０８における撮影制御部３１３の動作を説明する。撮影制御部３１３は、視差情報生成部３１１によって算出された視差情報に基づいて、メイン撮影部３５０やサブ撮影部３５１の撮影条件を制御する。

　本実施形態の映像撮影装置１０１では、立体映像を構成する左右の映像は、メイン撮影部３５０によって撮影された映像に基づいて生成され、利用される。サブ撮影部３５１によって撮影された映像は、メイン撮影部３５０によって撮影された映像に対する視差情報を検出するために利用される。そのため、サブ撮影部３５１は、メイン撮影部３５０と連携して、視差情報を取得しやすい映像を撮影してもよい。

　そこで、撮影制御部３１３は、視差情報生成部３１１によって算出された視差情報に基づいてメイン撮影部３５０およびサブ撮影部３５１の制御を行う。例えば、撮影中に露出、ホワイトバランス、オートフォーカスなどの制御を行う。

　視差情報生成部３１１がメイン撮影部３５０による映像とサブ撮影部３５１による映像とから視差を適切に検出できない場合、それは、メイン撮影部３５０とサブ撮影部３５１との間で撮影条件が異なっていることが原因の一つと考えられる。そこで、撮影制御部３１３は、視差情報生成部３１１の視差検出結果に基づいて、光学制御部３０３および／または光学制御部３０７を制御することにより、メイン撮影部３５０および／またはサブ撮影部３５１の撮影条件を変化させる。

　例えば、メイン撮影部３５０が適正露出で撮影する一方、サブ撮影部３５１が露出を過度に大きくして撮影すると、サブ撮影部３５１による映像は全体的に白色に近い映像（撮影された撮像データの画素の値が上限値に近い値）となり、被写体の輪郭を識別できない場合がある。このような映像に基づいて視差情報生成部３１１が処理を行うと、サブ撮影部３５１の映像からは被写体の輪郭を抽出できない可能性がある。そこで、撮影制御部３１３は、光学制御部３０７を介してサブ撮影部３５１の露出を修正する制御を行う。露出の修正は、例えば不図示の絞りを調整することによって行われる。これにより、視差情報生成部３１１は、修正されたサブ撮影部３５１からの映像を利用して視差を検出することが可能となる。

　また、他の制御例として、以下の方法を採用してもよい。メイン撮影部３５０の映像とサブ撮影部３５１の映像との間で、写っている被写体の焦点が異なっている場合がある。このような場合、視差情報生成部３１１は、両者の映像を比較することにより、被写体の輪郭の鮮明度が両者の画像間で異なっていることがわかる。撮影制御部３１３は、両者の画像における同一被写体の輪郭の鮮明度の違いを検出すると、光学制御部３０３および光学制御部３０７を介してメイン撮影部３５０およびサブ撮影部３５１の焦点を同一にするように制御する。例えば、撮影制御部３１３は、サブ撮影部３５１の焦点をメイン撮影部３５０の焦点に合わせる制御を行う。

　以上のように、撮影制御部３１３は、視差情報生成部３１１で算出された視差情報に基づいてメイン撮影部３５０およびサブ撮影部３５１の撮影条件を制御する。これにより、視差情報生成部３１１は、メイン撮影部３５０およびサブ撮影部３５１によってそれぞれ撮影された映像から、視差情報をより抽出し易くなる。

　[１－２－３．水平方向情報を利用した立体映像の生成について]
　次に、映像撮影装置１０１が水平面に対して傾いた状態で撮影が行われた場合におけるステレオマッチング部３２０の処理の例を説明する。本実施形態におけるステレオマッチング部３２０は、水平方向検出部３１８から映像撮影装置１０１の水平方向に関する情報を取得する。一般に、立体映像に含まれる左右の映像は、水平方向については視差を持つが、垂直方向については視差を持たない。これは、人間の左右の眼が水平方向に所定の距離をおいて位置している一方で、垂直方向についてはほぼ同一水平面上に位置しているためである。そのため、一般的に人は、網膜などの知覚細胞においても水平網膜像差による検知度が比較的高い。例えば、視角にして数秒、または、視距離１ｍにおいて約０．５ｍｍの奥行き量を検出できる。水平方向の視差については感度が高いが、垂直方向の視差については、垂直網膜像差による特定の空間知覚パターンに依存するため、概して相対的に感度が低いと考えられる。その点を考慮すると、撮影および生成される立体映像についても、視差は横方向のみに発生させ、縦方向には発生させないことが好ましいと考えられる。

　しかし、映像撮影装置１０１が三脚などに固定されて撮影される場合はともかく、ユーザが映像撮影装置１０１を携帯して撮影する場合には、必ずしも撮影される映像が水平方向を保持しているとは限らない。そこで、水平方向検出部３１８は、映像撮影時の映像撮影装置１０１の状態、特に、水平方向に対する傾きに関する情報を取得する。ステレオマッチング部３２０は、左右の両画像の画角を合わせる際に、この水平方向検出部３１８からの傾きに関する情報を用いて、映像の水平方向を補正する。例えば、撮影時の映像撮影装置１０１が傾いているために、撮影された映像も図１５（ａ）に示すように傾いているとする。このような場合、ステレオマッチング部３２０は、メイン撮影部３５０およびサブ撮影部３５１によって撮影された映像の画角合わせを行うとともに、両映像の水平方向の補正を行う。ステレオマッチング部３２０は、水平方向検出部３１８から入力される傾き情報に基づいて、画角合わせを行う際の水平方向を変更して、図１５（ａ）の点線枠で示される範囲を、画角合わせの結果として出力する。図１５（ｂ）は、ステレオマッチング部３２０で水平方向が補正されて出力された結果を示すものである。

　ステレオマッチング部３２０による上記水平方向の補正により、映像撮影装置１０１が傾いた状態で映像を撮影したとしても、立体映像を生成する段階で適正に水平方向が補正される。そのため、生成された立体映像についても、視差は主に横方向（水平方向）に生じ、縦方向（垂直方向）にはほとんど生じない。これにより、視聴者は、自然な立体映像を視聴することが可能となる。

　上記の説明では、ステレオマッチング部３２０は、水平方向検出部３１８からの傾き情報に基づいて、映像撮影装置１０１の撮影状態を検知するものとしたが、本開示における技術はこれに限定するものではない。水平方向検出部３１８を用いなくとも、画像信号処理部３０８は、他の方法によって映像の水平方向の成分や垂直方向の成分を検知してもよい。

　例えば、視差情報生成部３１１によって生成された左右両映像の視差情報を用いて水平方向を判断することも可能である。メイン撮影部３５０とサブ撮影部３５１とにより、図１６（ａ）に示す映像Ｒ、Ｌがそれぞれ撮影された場合、視差情報生成部３１１によって生成される視差情報は、例えば図１６（ｂ）に示すような映像で表される。図１６（ｂ）に示す映像は、視差情報に基づいて、視差がない部分を実線で記載し、視差のある部分を点線で記載している。これによれば、視差のある部分は撮影した映像内において合焦している部分であり、視差のない部分は、合焦している被写体よりも遠くに位置している被写体である。遠くに位置している被写体は、映像の背景などとなる部分であり、これらの部分について映像を解析することで水平方向を検出することが可能である。例えば、図１６に示す例では、背景の「山」の部分を論理的に解析することにより、水平方向を判断することができる。例えば、山の形や、山を構成する木々の生育状況より垂直方向や水平方向を判定することができる。

　以上の処理により、ステレオマッチング部３２０や視差情報生成部３１１は、立体映像を生成する段階で、撮影された映像の傾きを検出し、水平方向を補正した立体映像を生成することが可能となる。映像撮影装置１０１が傾いた状態で撮影した場合であっても、視聴者は水平方向が所定の範囲内で保持された立体映像を視聴することが可能となる。

　[１－２－４．立体映像生成要否の判断などについて]
　映像撮影装置１０１は、上記の説明の通り、メイン撮影部３５０およびサブ撮影部３５１によって撮影した映像から立体映像を生成する。しかし、映像撮影装置１０１は、常に立体映像を生成する必要はない。立体映像は、左右両映像の視差により被写体の前後関係を視聴者に知覚させることで、視聴される映像が立体的であると視聴者に感じさせるため、立体感が得られない映像については、立体映像を生成しなくてもよい。例えば、立体映像の撮影と非立体映像の撮影とを撮影条件や映像の内容に応じて切り替えてもよい。

　図１７は、撮影装置から被写体までの距離（被写体距離）と当該距離に位置する被写体が立体的に見える程度（立体特性）との関係を、メイン撮影部３５０のズーム倍率ごとに示したグラフである。一般に、被写体距離が大きいほど、立体特性は小さくなる。逆に、被写体距離が小さいほど、立体特性は大きくなる。

　ここで、「被写体」の定義として、一般によく用いられる以下の定義を用いる。
　（ケース１）撮影装置がマニュアル・フォーカス・モードの場合は、通常、撮影者が合焦させた撮影対象が被写体である。
　（ケース２）撮影装置がオート・フォーカス・モードの場合は、撮影装置が自動的に合焦させた撮影対象が被写体となる。この場合、撮影対象の中心付近の人物、動植物、物体や、撮影範囲において自動検出された人物の顔や目立つ物体（一般に、Ｓａｌｉｅｎｔな物体と呼ばれる）が被写体となるのが通例である。

　撮影した映像が風景画のように遠景の被写体ばかりで構成される場合、被写体は遠方にのみ集中して存在する。被写体の位置が撮影装置から遠方になればなるほど立体映像における被写体の視差量は小さくなる。そのため、視聴者には当該映像が立体映像であるとわかりにくくなる場合がある。これは、ズーム倍率が大きくなって画角が小さくなった場合と同様である。

　映像撮影装置１０１は、上記の特性を用いて、撮影された条件や、撮影された映像の特性などに応じて立体映像を生成する機能の有効／無効を切り換えてもよい。その具体的な実現方法について以下に記載する。

　図１８は、撮影装置から被写体までの距離と、当該被写体を撮影した場合における被写体の有効画素数との関係を示す図である。メイン撮影部３５０の第１光学部３００は、ズーム機能を搭載している。図１８によれば、被写体距離がズーム範囲上限までの範囲（ズーム機能を利用して被写体までの距離に変化があっても被写体像を構成する画素数を一定にできる範囲）内にあれば、第１光学部３００は当該被写体に対してズーム機能を用いることで一定の有効画素数を維持することができる。しかし、被写体距離がズーム範囲上限以上の被写体を撮影する場合は、距離に応じて当該被写体の有効画素数が減少する。一方、サブ撮影部３５１の第２光学部３０４は単焦点機能を有している。そのため、被写体距離に応じて、当該被写体の有効画素数は減少する。

　上記のような場合に、画像信号処理部３０８は、例えば、映像撮影装置１０１から被写体までの距離である被写体距離が所定の値（閾値）未満の場合（図１８のＡ領域）にのみ、ステレオマッチング部３２０、視差情報生成部３１１、画像生成部３１２の機能を有効にし、立体映像を生成する。反対に、被写体距離が所定の値（閾値）以上（図１８のＢ領域）である場合、画像信号処理部３０８は、ステレオマッチング部３２０、ステレオマッチング部３２０、視差情報生成部３１１、画像生成部３１２を動作させず、メイン撮影部３５０によって撮影された映像を後段に出力する。この被写体距離は、第１光学部３００や第２光学部３０４の合焦の際の焦点距離を利用して測定することが可能である。

　上記のように、映像撮影装置１０１は、撮影した被写体の条件、特に被写体までの距離に応じて立体映像を出力する処理と、立体映像を出力しない（非立体映像信号を出力する）処理とを切り換える。この結果、視聴者には、視聴しても立体映像と知覚しにくい映像については、従来の撮影映像（非立体映像）を視聴させることが可能となる。このような制御により、必要な場合だけ立体映像が生成されるため、処理量およびデータ量を低減させることができる。

　また、別の切り換え方法として、映像撮影装置１０１は、視差情報生成部３１１によって検出された視差量の大きさに基づいて、立体映像の生成要否を判定することも可能である。画像生成部３１２は、視差情報生成部３１１により生成されたデプスマップから当該映像に含まれる最大の視差量を抽出する。この最大の視差量が所定の値（閾値）以上である場合、画像生成部３１２は、当該映像を、所定以上の立体感を得ることができる映像であると判定することができる。反対に、画像生成部３１２がデプスマップから抽出した最大の視差量の値が所定の値（閾値）未満の場合、画像生成部３１２は、当該立体映像を生成しても視聴者には立体感を知覚しがたい映像であると判断することができる。なお、ここでは映像面に含まれる最大の視差量を例として説明したがこれに限定するものではない。例えば、所定の値より大きい視差量を持つ画素が映像面に占める割合に基づいて判断するものであってもよい。

　上記の判断方法にしたがって画像生成部３１２が立体映像を生成する場合、映像撮影装置１０１は、すでに説明した方法により、映像撮影装置１０１は立体映像を生成し、出力する。画像生成部３１２が立体映像を知覚しにくい映像であると判断した場合は、画像生成部３１２は、立体映像を生成せず、メイン撮影部３５０から入力された映像を出力する。その結果、映像撮影装置１０１は、撮影した映像のデプスマップに基づいて立体映像の生成、出力を判断することができる。

　さらに、すでに述べた水平方向の条件に応じて立体映像の出力要否を判断するものであってもよい。視聴者には水平方向に視差がある映像は比較的自然に見えるが、垂直方向に視差のある映像は不自然に見える可能性がある。そこで、水平方向検出部３１８による検出結果、または視差情報生成部３１１により検出された視差量を利用して、撮影される映像の水平方向を、ステレオマッチング部３２０、または視差情報生成部３１１が判断し、立体映像の生成要否を決定してもよい。例えば、図１９に示すように、水平方向の傾きが所定の範囲内の角度（図１９の例ではθの範囲内の角度）であれば、画像信号処理部３０８は立体映像を生成して出力する。反対に、水平方向の傾きが図１９に示す所定の範囲に含まれなければ、画像信号処理部３０８は、メイン撮影部３５０で撮影した映像を出力する。このような制御により、映像撮影装置１０１は、水平方向の傾きに応じて、立体映像の生成、出力要否を判断することが可能となる。

　以上のように、映像撮影装置１０１は、幾つかの方法により、立体映像の生成、出力を、その効果（立体特性）を考慮して自動的に切り換えることが可能となる。ここで、立体特性とは、上記のズーム倍率、最大視差量、カメラの傾きなどを指す。立体特性の程度が基準レベル以上であれば立体映像が出力され、基準レベルに満たなければ非立体映像が出力される。

　図２０は、上記の立体映像の生成要否の判断に関する画像信号処理部３０８の処理の流れを示すフローチャートである。以下、各ステップを説明する。

　ステップＳ１６０１：まず、メイン撮影部３５０およびサブ撮影部３５１の両方で映像（画像フレーム）が撮影される。

　ステップＳ１６０２：撮影中の映像の立体特性が大きいか否かが判定される。判定は、例えば上記のいずれかの方法で行われる。立体特性が基準レベルに満たないと判定された場合はステップＳ１６０３に進み、基準レベル以上と判定された場合はステップＳ１６０４に進む。

　ステップＳ１６０３：画像信号処理部３０８は、メイン撮影部３５０によって取得された２Ｄ映像を出力する。

　ステップＳ１６０４からステップＳ１６０９までの処理は、図１４におけるステップＳ１４０５からステップＳ１４１０までの処理とそれぞれ同じであるため、説明を省略する。

　なお、本実施形態は、光学ズーム機能を備えるメイン撮影部３５０と、電子ズーム機能を備え相対的に高解像度のサブ撮影部３５１とを備える映像撮影装置を例として説明したが、これに限定するものではない。メイン撮影部３５０と、サブ撮影部３５１とがほぼ等価な構成を有する映像撮影装置であってもよい。また、撮影部が単一の方式による撮影を行う映像撮影装置であってもよい。つまり、撮影した映像から立体映像を生成する映像撮影装置であり、被写体までの距離や、水平方向の傾きなどといった撮影条件、撮影した被写体の条件などに応じて、立体映像生成の有効／無効、または立体映像撮影と非立体映像撮影との切り換えを行うものであればよい。そのような構成により、撮影または生成された立体映像の立体特性の大きさに応じて自動的に映像装置はその切り換えを行うことが可能となる。

　以上より、本実施形態の映像撮影装置１０１は、撮影時の撮影条件や、撮影した映像の条件に応じて、立体映像の撮影と従来の平面映像（非立体映像）の撮影とを好適に切り換えることが可能となる。

　[１－２－５．立体映像の記録方式について]
　次に、図２１を参照しながら、生成した立体映像などの記録方式について記載する。ステレオマッチング部３２０、視差情報生成部３１１、画像生成部３１２で生成された立体映像の記録方式については幾つかの方式がある。

　図２１（ａ）は、画像信号処理部３０８が生成した立体映像、つまりメイン撮影部３５０で撮影された映像（Ｍａｉｎ　Ｖｉｄｅｏ　Ｓｔｒｅａｍ）と、当該映像と対になる、画像信号処理部３０８が生成した映像（Ｓｕｂ　Ｖｉｄｅｏ　Ｓｔｒｅａｍ）とを記録する方式である。この方式では、右側映像と左側映像とが、それぞれ独立のデータとして画像信号処理部３０８から出力される。映像圧縮部３１５は、これらの左右の映像データをそれぞれ独立に符号化する。映像圧縮部３１５は、符号化した左右の映像データを多重化する。符号化、多重化されたデータは、蓄積部３１６に記録される。

　蓄積部３１６が可搬型の記録装置である場合は、蓄積部３１６を別の再生装置に接続すれば、当該再生装置において再生が可能である。そのような再生装置は、蓄積部３１６に記録されたデータを読み出し、多重化されたデータを分割し、符号化データを復号する処理を行うことにより、立体映像の左右の映像データを再生することが可能となる。この方式では、再生装置側は、立体映像を再生する機能を備えていれば蓄積部３１６に記録された立体映像を再生できるため、比較的単純な構成で実現できる。

　また、他の記録方式として、メイン撮影部３５０で撮影された映像（Ｍａｉｎ　Ｖｉｄｅｏ　Ｓｔｒｅａｍ）と視差情報生成部３１１で生成されたデプスマップとを記録する方式がある（図２１（ｂ））。この方式では、映像圧縮部３１５は、メイン撮影部３５０で撮影された映像を符号化し、符号化された映像データとデプスマップとを多重化する。符号化、多重化されたデータは蓄積部３１６に記録される。

　この方式では、再生装置側でデプスマップとメイン側映像とに基づいて、立体映像の対となる映像を生成する必要がある。そのため、再生装置が比較的複雑な構成となる。しかし、デプスマップのデータは、圧縮符号化により、立体映像の対となる映像データよりもデータ量を小さくできるため、本方式によれば、蓄積部３１６に記録するデータ量を低減することができる。

　また、さらに他の方式として、メイン撮影部３５０で撮影された映像と、視差情報生成部３１１で算出されたメイン側映像とサブ側映像との差分Δ（Ｌｓ／Ｒｓ）とを記録する方式がある（図２１（ｃ））。この方式では、映像圧縮部３１５は、メイン撮影部３５０で撮影された映像を符号化する。さらに、映像圧縮部３１５は、符号化された映像と差分データとを多重化する。多重化されたデータは蓄積部３１６に記録される。なお、本明細書では、画素ごとに算出された差分Δ（Ｌｓ／Ｒｓ）の集合を「差分画像」と呼ぶことがある。

　この方式では、再生装置側は、差分Δ（Ｌｓ／Ｒｓ）とメイン側映像とに基づいて、視差量（デプスマップ）を算出し、さらに立体映像の対となる映像を生成する必要がある。そのため、再生装置は映像撮影装置１０１の画像信号処理部３０８に比較的近い構成を持つ必要がある。しかし、差分Δ（Ｌｓ／Ｒｓ）のデータを有するため、再生装置側に好適な視差量（デプスマップ）の算出が可能となる。再生装置側で好適な視差量が算出できれば、例えば、再生装置は、当該装置の表示ディスプレイなどの大きさに応じて、視差量を調整した立体映像を生成、表示することができる。立体映像は、左側映像と右側映像との視差の大きさに応じて、立体感（表示面に対する前後方向の奥行き感）が異なる。そのため、同じ立体映像を大型の表示ディスプレイで視聴する場合と、小型の表示ディスプレイで視聴する場合とでは立体感が異なる。本記録方式の場合、再生装置は自身の表示ディスプレイの大きさにしたがって、生成する立体映像の視差量を調整することができる。また、左右両眼が合焦する面とディスプレイ面との角度と、表示される立体映像が持つ視差が有する角度とが、より快適に視聴できると考えられる関係を保つように、再生装置は、表示する立体映像の臨場感などを制御することが可能となる。これにより、視聴される３Ｄ映像の品質を、より高めることが可能となる。

　さらに、他の方式として、図２１には表されていないが、メイン撮影部３５０で撮影された映像と、サブ撮影部３５１で撮影された映像とを記録する方式も可能である。この場合、映像圧縮部３１５は、メイン撮影部３５０で撮影された映像と、サブ撮影部３５１で撮影された映像とを符号化する。さらに、映像圧縮部３１５は、符号化された映像と差分データとを多重化する。多重化されたデータは蓄積部３１６に記録される。

　この方式では、撮影装置１０１は、ステレオマッチング部３２０、視差情報生成部３１１、および画像生成部３１２を備えている必要はない。一方、再生装置は、ステレオマッチング部３２０、視差情報生成部３１１、および画像生成部３１２を備える。再生装置は、上記の画像信号処理部３０８が行う処理と同様の処理（画角合わせ、画素数合わせ、差分画像の生成、デプスマップの生成、デプスマップによるメイン画像の補正）を行うことにより、ステレオ映像を生成することが可能である。この方式は、図３に示す画像信号処理部３０８を撮影装置とは独立した画像処理装置として構成し、当該画像処理装置を再生装置に設ける方式であると言える。そのような方式であっても、上記の実施形態と同様の機能を実現することができる。

　さらに、再生装置は、立体映像を視聴する視聴者によって、例えば、視聴する人が大人であるか子供であるかによって、表示する映像の視差量を調整してもよい。このような調整により、立体映像の奥行き感を視聴者に応じて変えることができる。視聴者が子供の場合には、奥行き感を小さくするほうが好ましいと考えられる。また、別の例として、部屋の明るさに応じて立体感を変えるものであってもよい。これらの調整は、図２１（ｂ）に示す方式においても同様に再生装置側で行うことが可能である。これにより、再生装置は、視聴者が大人であるか子供であるかなどの視聴条件を示す情報をテレビ（ＴＶ）やリモコンなどから受け取り、立体映像の奥行き感を好適に変更することが可能となる。なお、視聴条件としては、上記以外に部屋の明るさ、視聴者が認証登録者であるか否かなど、上記以外の各種の視聴者または視聴環境に関する条件であればいずれの情報であってもよい。

　図２２（ａ）は、映像撮影装置１０１によって撮影された左右の映像からなる立体映像を示している。図２２（ｂ）は、再生装置側で生成された、立体感を弱めた立体映像を示す図である。図２２（ｂ）に示す映像は、図２２（ａ）に示す映像に比べ、被写体として写っている建築物の位置が左右の映像間で近づいている。つまり、サブ側の映像に写っている建築物の位置が、図２２（ａ）の場合と比較して左側に位置している。図２２（ｃ）は、再生装置側で立体感をより強めた立体映像を生成した場合の例を示す図である。図２２（ｃ）に示す映像は、図２２（ａ）に示す映像と比較して、被写体として写っている建築物の位置が左右の映像間で離れている。つまり、サブ側の映像に写っている建築物の位置が、図２２（ａ）の場合と比較して右側に位置している。再生装置は、このように、立体感の大きさを、各種の条件により独自に設定することができる。

　なお、本実施形態の映像撮影装置が、上で説明したように、立体映像の生成要否を各種条件により切り換える場合は、上記の記録方式のいずれかに、さらに以下の情報を追加することができる。映像撮影装置１０１は、映像を撮影した際の撮影条件や、撮影された映像の条件などによって、立体映像を生成する（立体映像を出力する）処理と、立体映像を生成しない（立体映像を出力しない）処理とを切り換える。そのため、映像撮影装置１０１は、立体映像を生成した部分と、立体映像を生成していない部分とを再生装置側で区別することができるようにするため、記録される映像とともに補助データとして、この区別するための識別情報を記録してもよい。なお、「立体映像を生成した部分」とは、映像を構成する複数のフレームのうち、立体画像として生成されたフレームの範囲、すなわち時間的な部分を意味する。補助データには、例えば、立体映像が生成されている部分の開始時刻と終了時刻とを示す時間情報、または開始時刻と立体映像が生成されている期間とを示す時間情報などにより構成され得る。時間情報以外でも、例えばフレーム番号や、映像データの先頭からのオフセットなどで示されるものであってもよい。つまり、補助データには、記録される映像データ内での立体映像が生成されている部分と、生成されていない部分とが識別される情報を含んでいるものであればいずれの方式であってもよい。

　映像撮影装置１０１は、例えば立体映像を生成した部分（３Ｄ映像）と、立体映像を生成していない部分（２Ｄ映像）とを識別するための上記の時間情報やその他の情報、例えば２Ｄ／３Ｄ識別フラグなどの情報を生成する。そして、当該情報を例えばＡＶデータ（ストリーム）やプレイリストに補助情報として記録する。再生装置は、補助情報に含まれる時間情報や２Ｄ／３Ｄ識別フラグなどにより、２Ｄ／３Ｄ撮影区間を区別することができる。再生装置は、これを利用して自動的に２Ｄ／３Ｄを切り換えて再生することや、３Ｄ撮影された区間（部分）だけを抽出して再生するなどの様々な再生制御を行うことが可能となる。

　そのような識別情報（制御情報）は、例えば「０：不要、１：要、２：撮影システムに任せる」のように、３Ｄ出力の要否を示す３値の情報であってもよいし、「０：低、１：中、２：高、３：高すぎて危険」のように、立体特性の程度を示す４値の値をとる情報であってもよい。上記の例に限らず、２値の情報または４値よりも多くの情報によって３Ｄ表示の要否を表現してもよい。

　また、上記の識別情報によって立体映像の出力要否を指示するのではなく、２つの映像の状態および撮影条件の少なくとも一方の情報から立体特性が低いと判断した場合に、当該映像フレームについては視差情報の記録を行わないようにしてもよい。この場合、再生装置は、視差情報を受け取った場合のみ立体映像を表示し、視差情報を受け取らなかった場合には非立体映像を表示するように構成されていればよい。

　なお、視差量を示す情報は、例えば撮影された被写体の視差量を検出して算出したデプスマップである。このデプスマップを構成する各画素のデプス値は、例えば６ビットのビット列で表される。この実施例では、制御情報としての識別情報はデプスマップと組み合わせた統合データとして記録してもよい。また、統合データを、映像ストリームの特定の位置（例えば、付加情報エリアやユーザーエリア）に埋め込むこともできる。

　また、デプス値の信頼性を示す情報（信頼性情報）を統合データに付加してもよい。信頼性情報は、画素ごとに、例えば「１：信頼できる、２：少し信頼できる、３：信頼できない」と表現することができる。そして、このデプス値の信頼性情報（例えば２ビット）を、デプスマップを構成する各画素のデプス値と組み合わせて、例えば８ビットのデプス総合情報として取り扱うことができる。このデプス総合情報は、１フレームごとに映像ストリームに埋め込んで記録してもよい。

　なお、デプス値の信頼性情報（例えば２ビット）を、デプスマップを構成する各画素のデプス値（例えば６ビット）と組み合わせて、８ビットのデプス総合情報として取り扱い、このデプス総合情報を１フレーム毎に、映像ストリームに埋め込んで記録することができる。また、１フレームに相当する画像を複数のブロック領域に分割して、デプス値の信頼性情報を、そのブロック領域毎に設定することもできる。

　また、制御情報としての識別情報とデプスマップとを組み合わせた統合データに映像ストリームのタイムコードを関連付けて、この統合データをファイル化して、専用のファイル格納領域（いわゆる、ファイルシステムにおけるディレクトリ、またはフォルダ）に記録することもできる。なお、タイムコードは、例えば、１秒に３０フレームや６０フレームの映像フレーム毎に付加される。ある特定のシーンは、そのシーンの先頭フレームのタイムコードから、そのシーンの最終フレームのタイムコードまでの一連のタイムコードにより識別される。

　また、制御情報としての識別情報とデプスマップとに、それぞれ映像ストリームのタイムコードを関連付けて、それぞれのデータを専用のファイル格納領域に記録することもできる。

　このように、「制御情報」と「視差量を示す情報（デプスマップ）」とを一緒に記録することによって、左右画像の視差量が適切で迫力のあるシーンや、左右画像の視差量が大きくなりすぎて安全性に課題のあるシーンをマーキングすることができる。よって、このマーキングを利用して、例えば、立体感（３Ｄ感）があって迫力のあるシーンの高速探索（呼び出し）や、ハイライト再生用のシーンへの適用が容易に実現できる。また、このマーキングを利用して、３Ｄ出力が不要なシーンや安全性に課題のあるシーンをスキップ再生したり、安全な画像に再加工（信号処理により安全な画像に変換）したりすることも可能となる。

　さらに、このマーキングを利用して、奥行の信頼性の高いシーンのみを選択して再生することができる。また、奥行の信頼性の低いシーンでは、奥行レンジ幅を縮小して安全で視覚的に破綻のない立体画像（３Ｄ画像）に変換することができる。あるいは、奥行の信頼性の低いシーンでは、奥行レンジ幅をゼロにすることにより、ディスプレイ画面から飛び出したり奥に引いたりする３Ｄ感を持ちながら、視覚的に完全に破綻のない画像に変換することもできる。あるいは、奥行の信頼性の低いシーンでは、左右画像をまったく同じ画像に変換して、２Ｄ画像として表示することもできる。

　以上、本実施形態によれば、立体映像の一方を構成する映像を撮影するメイン撮影部３５０と、視差量を検出するための映像を撮影するサブ撮影部３５１とを、異なる構成とすることができる。特に、サブ撮影部３５１は、メイン撮影部３５０と比較して簡略な構成で実現できる可能性があるため、より簡単な構成で立体映像撮影装置１０１を構成することができる。

　なお、上記の実施形態では、メイン撮影部３５０による映像が立体映像の右側映像として、画像生成部３１２により生成される映像が左側映像として扱われているが、本開示における技術はこのような形態に限定されるものではない。メイン撮影部３５０とサブ撮影部３５１との位置関係が逆、すなわち、メイン撮影部３５０による映像を左側映像として、画像生成部３１２により生成される映像を右側映像としてもよい。

　また、上記の説明において、ステレオマッチング部３２０が出力する映像のサイズ（２８８×１６２）は、一例であり、本開示における技術はこのようなサイズに限定されるものではない。上記以外のサイズの映像を扱ってもよい。

　本実施形態では、サブ撮影部３５１は、メイン撮影部３５０によって取得される右側映像Ｒにおける撮影画角よりも広い撮影画角で被写体を撮影することによって左側映像Ｌを取得するが、本開示における技術はこのような形態に限られない。すなわち、サブ撮影部３５１によって取得される画像の撮影画角と、メイン撮影部３５０によって取得される画像の撮影画角とが同じであってもよいし、後者の方が前者よりも広くてもよい。

　[１－３．効果等]
　以上のように、本実施形態におけるステレオ撮影装置は、ズーム光学系を有し、被写体を撮影することによって第１の画像を取得するメイン撮影部３５０と、被写体を撮影することによって第２の画像を取得するサブ撮影部３５１と、第２の画像から、第１の画像または第１の画像の一部と同一画角と推定される部分画像を抽出するステレオマッチング部３２０とを備える。ステレオマッチング部３２０は、第１の画像および第２の画像から、同じ画像特徴をもつと推定される相互に対応する複数の画像ブロックを選択し、各画像における複数の画像ブロックの垂直方向の相対的な位置関係に基づいて、第２の画像から、第１の画像または第１の画像の一部と同一の垂直方向範囲を有すると推定される画像領域を抽出する垂直マッチング部３２２と、抽出された画像領域に含まれる水平ラインの信号を、第１の画像における対応する水平ラインの信号と比較することにより、当該画像領域から、第１の画像または第１の画像の一部と同一の水平方向範囲を有すると推定される部分画像を抽出する水平マッチング部３２３とを有している。

　これにより、例えば撮影中にメイン撮影部３５０のズーム倍率が変化した場合であっても、高速かつ高精度にステレオマッチングを行うことができる。

　また、本実施形態において、サブ撮影部３５１は、第１の画像における撮影画角よりも広い撮影画角で被写体を撮影することによって第２の画像を取得する。

　これにより、例えば撮影中にメイン撮影部３５０のズーム倍率が変化した場合であっても、第２の画像から抽出される部分画像の解像度の低下を抑えることができる。

　また、本実施形態のある態様において、垂直マッチング部３２２は、複数の異なる解像度で表現した第１の画像の画像特徴および第２の画像の画像特徴の比較結果に基づいて、複数の画像ブロックを決定する。

　これにより、より適切な画像ブロックの選択が可能になり、マッチングの精度が向上する。

　また、本実施形態のある態様において、垂直マッチング部３２２は、抽出した画像領域の垂直方向の画素数と第１の画像の垂直方向の画素数とを合わせる処理を行い、水平マッチング部３２３は、垂直方向の画素数が第１の画像に合わせられた画像領域から、上記部分画像を抽出する。

　これにより、水平方向のマッチングを行う際に、左右の画像の画素数が揃った状態になっているため、容易にマッチングを行うことができる。

　また、本実施形態において、水平マッチング部３２３は、抽出した部分画像の水平方向の画素数と、第１の画像の水平方向の画素数とを合わせる処理を行う。

　これにより左右の画像の画素数が揃うため、立体画像の生成が可能となる。

　また、本実施形態のある態様において、垂直マッチング部３２２は、第１の画像から選択した複数の画像ブロックの各々の代表点における垂直方向の座標の比と、第２の画像から選択された複数の画像ブロックの各々の代表点における垂直方向の座標の比とを比較することにより、当該画像領域を決定する。

　これにより、高速に垂直方向のマッチングが可能となる。

　また、本実施形態において、ステレオマッチング部３２０は、ズーム光学系のズーム倍率を示す情報、およびズーム光学系の光軸とメイン撮影部３５０における撮像センサ３０１の中心との変位量を示す情報の少なくとも一方を用いて、第２の画像から、第１の画像の範囲を包含する領域を抽出する粗切り出し部３２１をさらに有している。垂直マッチング部３２２は、粗切り出し部３２１によって抽出された領域から、複数の画像ブロックを選択する。

　これにより、マッチング完了までの動作をさらに高速化させることができる。

　また、本実施形態のある態様において、水平マッチング部３２３は、垂直マッチング部３２２によって抽出された画像領域に含まれる水平ラインの信号と、第１の画像における対応する水平ラインの信号との間の相互相関に基づいて、水平マッチング処理を行う。

　これにより、水平方向のマッチングを高い精度で行うことが可能になる。

　また、本実施形態のある態様において、水平マッチング部３２３は、垂直マッチング部３２２によって抽出された２つの画像の平均輝度値の差を予め設定した値以下に合わせるゲイン調整を行った後に、水平マッチング処理を行う。

　また、本実施形態の撮影装置は、第２の画像から抽出された部分画像、および第１の画像に基づいて、視差情報を生成する視差情報生成部３１１をさらに備えている。

　これにより、立体画像を生成するための視差情報の生成が可能になる。

　また、本実施形態の撮影装置は、当該視差情報および第１の画像に基づいて、前記第１の画像とステレオ画像の対となる第３の画像を生成する画像生成部３１２をさらに備えている。

　これにより、撮影装置自身が立体画像を生成することができる。

　また、本実施形態の撮影装置は、第１の画像および視差情報を記録媒体に記録する映像圧縮部３１５および蓄積部３１６をさらに備えている。

　これにより、他の装置によって立体画像を生成することが可能になる。

　（実施形態２）
　次に、実施形態２を説明する。本実施形態は、サブ撮影部が２個設けられている点で、実施形態１とは異なっている。以下、実施形態１と異なる点を中心に説明し、重複する事項についての説明は省略する。

　[２－１．構成]
　図２３は、本実施形態による映像撮影装置１８００を示す外観図である。図２３に示す映像撮影装置１８００は、センターレンズ部１８０１と、そのまわりに設けられた、第１サブレンズ部１８０２および第２サブレンズ部１８０３とを備えている。なお、レンズの配置はこの例に限定するものではない。例えば、第１サブレンズ部１８０２と第２サブレンズ部１８０３との距離が人の左右両眼間の距離とほぼ等価になるような位置に、これらのレンズを配置するものであってもよい。この場合は、以下に説明するように、センターレンズ部１８０１で撮影された映像から生成される立体映像の左右それぞれの映像間の視差量を人の目で対象物を見た場合の視差量に近づけることが可能となる。この場合、第１サブレンズ部１８０２と第２サブレンズ部１８０３とは、それぞれのレンズの中心がほぼ同一水平面上に位置するように配置される。

　また、センターレンズ部１８０１との位置関係については、センターレンズ部１８０１は、第１サブレンズ部１８０２および第２サブレンズ部１８０３の各々からほぼ等しい距離に位置するように配置される。これは、センターレンズ部１８０３を用いて撮影した映像から立体映像を構成する左右映像を生成する際に、左右対称な映像を生成しやすいようにするためである。図２３に示す例では、センターレンズ部１８０１の鏡筒部１８０４に隣接する位置に第１サブレンズ部１８０２と第２サブレンズ部１８０３とが配置されている。この場合、センターレンズ部１８０１が、ほぼ真円の形状であれば、第１サブレンズ部１８０２と第２サブレンズ部１８０３とはセンターレンズ部１８０１に対してほぼ左右対称の位置関係にあるといえる。

　図２４は、映像撮影装置１８００のハードウェア構成の概略を示す図である。映像撮影装置１８００は、実施形態１におけるメイン撮影ユニット２５０に代えて、センターレンズ部１８０１のレンズ群（センターレンズ群１９００）を備えるセンター撮影ユニット１９５０を有している。また、サブ撮影ユニット２５１に代えて、第１サブレンズ部１８０２のレンズ群（第１サブレンズ群１９０４）を備えるサブ１撮影ユニット１９５１と、第２サブレンズ部１８０３のレンズ群（第２サブレンズ群１９０８）を備えるサブ２撮影ユニット１９５２とを有している。センター撮影ユニット１９５０は、センターレンズ群１９００の他、ＣＣＤ１９０１、Ａ／Ｄ変換ＩＣ１９０２、およびアクチュエーター１９０３も有している。サブ１撮影ユニット１９５１は、第１サブレンズ群１９０４の他、ＣＣＤ１９０５、Ａ／Ｄ変換ＩＣ１９０６、およびアクチュエーター１９０７も有している。サブ２撮影ユニット１９５２は、第２サブレンズ群１９０８の他、ＣＣＤ１９０９、Ａ／Ｄ変換ＩＣ１９１０、およびアクチュエーター１９１１も有している。

　本実施形態におけるセンター撮影ユニット１９５０のセンターレンズ群１９００は、サブ１撮影ユニット１９５１の第１サブレンズ群１９０４や、サブ２撮影ユニット１９５２の第２サブレンズ群１９０８より、比較的大きいレンズ群から構成されている。また、センター撮影ユニット１９５０は、ズーム機能を搭載している。これは、センターレンズ群１９００で撮影された映像は立体映像を生成する際の基本となるため、集光能力が高く、撮影倍率を任意に変更できるほうが好ましいからである。

　サブ１撮影ユニット１９５１の第１サブレンズ群１９０４、およびサブ２撮影ユニットの第２サブレンズ群１９０８は、センター撮影ユニット１９５０のセンターレンズ群１９００よりも小型のレンズであってもよい。また、サブ１撮影ユニット１９５１およびサブ２撮影ユニット１９５２は、ズーム機能を有していなくてもよい。

　また、サブ１撮影ユニット１９５１のＣＣＤ１９０５およびサブ２撮影ユニット１９５２のＣＣＤ１９０９は、センター撮影ユニットのＣＣＤ１９０１よりも高解像度である。サブ１撮影ユニット１９５１や、サブ２撮影ユニット１９５２で撮影された映像は、後述するステレオマッチング部２０３０の処理により、電子ズームによって一部が抽出される可能性がある。そのため、その際にも画像の精度を保てるようにこれらのＣＣＤは高い精細度のものが用いられる。

　その他のハードウェア構成については、図２を参照して説明した実施形態１における構成と同じであるため、説明を省略する。

　図２５は、映像撮影装置１８００の機能構成図である。映像撮影装置１８００は、実施形態１と比較して、メイン撮影部３５０に代えてセンター撮影部２０５０を、サブ撮影部３５１に代えて第１サブ撮影部２０５１と第２サブ撮影部２０５２とを備えている点が異なる。しかし、センター撮影部２０５０とメイン撮影部３５０とは機能的にほぼ等価であり、第１サブ撮影部２０５１および第２サブ撮影部２０５２は、サブ撮影部３５１と機能的にほぼ等価である。

　なお、本実施形態では図２３に示す映像撮影装置１８００の構成を例として説明するが、本開示における技術はこの構成に限定されるものではない。例えば、他の構成として、３つ以上のサブ撮影部が設けられた構成であってもよい。また、サブ撮影部はセンター撮影部と必ずしも、ほぼ同一水平面上に配置されなくてもよい。意図的に、センター撮影部や他のサブ撮影部と垂直方向に異なる位置に配置したものであってもよい。そのような構成では、垂直方向に立体感のある映像を撮影することができる。このように、複数のサブ撮影部を備えることで、映像撮影装置１８００は、さまざまな角度からの撮影（多視点撮影）を実現することが可能となる。

　画像信号処理部２０１２は、実施形態１における画像信号処理部３０８と同様、ステレオマッチング部２０３０、視差情報生成部２０１５、画像生成部２０１６、撮影制御部２０１７を有する。ステレオマッチング部２０３０は、粗切り出し部２０３１と、垂直マッチング部２０３２と、水平マッチング部２０３３とを有している。なお、本実施形態では、図３における水平ライン数合わせ部の機能は垂直マッチング部２０３２または水平マッチング部２０３３に包含されている。

　ステレオマッチング部２０３０は、センター撮影部２０５０、第１サブ撮影部２０５１、第２サブ撮影部２０５２から入力される映像の画角および画素数を合わせる。ステレオマッチング部２０３３は、実施形態１と異なり、３つの異なる角度で撮影された映像の画角および画素数を合わせる処理を行う。

　視差情報生成部２０１５は、ステレオマッチング部２０３３により、画角および画素数が合わせられた３つの映像から、撮影された被写体の視差量を検出し、２種類のデプスマップを生成する。

　画像生成部２０１６は、視差情報生成部２０１５によって生成された映像に撮影されている被写体の視差量（デプスマップ）に基づいて、センター撮影部２０５０で撮影された映像から立体映像用の左右の映像を生成する。

　撮影制御部２０１７は、視差情報生成部２０１５が算出した視差量に基づいてセンター撮影部２０５０、第１サブ撮影部２０５１、第２サブ撮影部２０５２の撮影条件を制御する。

　水平方向検出部２０２２、表示部２０１８、映像圧縮部２０１９、蓄積部２０２０、入力部２０２１は、それぞれ実施形態１の水平方向検出部３１８、表示部３１４、映像圧縮部３１５、蓄積部３１６、入力部３１７と同じであるので説明を省略する。

　[２－２．動作]
　[２－２－１．立体映像信号の生成処理について]
　以下、本実施形態における立体映像信号の生成処理を説明する。本実施形態における立体映像信号の生成処理において、実施形態１と大きく異なる点は、以下の点にある。すなわち、画像信号処理部２０１２にセンター撮影部２０５０、第１サブ撮影部２０５１、第２サブ撮影部２０５２の３系統からの映像信号が入力され、その入力された３系統の映像信号に基づいて２種類の視差情報が算出される。その後、算出された視差情報に基づいてセンター撮影部２０５０で撮影された映像から、新たに立体映像を構成する左右の映像が生成される。

　なお、いわゆる両眼間隔に相当するステレオベース距離と視差情報とを用いて、立体映像を演算して生成する過程において、これらの演算係数を変更することにより、立体の臨場感を制御することが可能となる。これにより、視聴される３Ｄ映像の品質をより高めることができる。

　図２６は、ステレオマッチング部２０３０に入力された３つの映像と、ステレオマッチング部２０３０が行う画角合わせ処理との関係の例を示す図である。ステレオマッチング部２０３０は、センター撮影部２０５０で撮影された映像（Ｃｅｎｔｅｒ）を基準として、第１サブ撮影部２０５１および第２サブ撮影部２０５２によってそれぞれ撮影された映像（Ｓｕｂ１、Ｓｕｂ２）から、センター撮影部２０５０で撮影された部分（画角）と同じ領域を抽出する。ステレオマッチング部２０３０は、実施形態１におけるステレオマッチング部３２０と同様、図６から図９Ｂを参照しながら説明した方法を用いて画角および画素数を合わせる。この際、撮影時の撮影制御部２０１７による制御内容、特に、センター撮影部２０５０のズーム倍率と第１サブ撮影部２０５１および第２サブ撮影部２０５２の単焦点距離との関係を参考に画角を決定してもよい。

　図２６に示す例では、センター撮影部２０５０が撮影した１９２０×１０８０の大きさの映像に基づいて、第１サブ撮影部２０５１、第２サブ撮影部２０５２がそれぞれ撮影した３８４０×２１６０の映像から、画角が等しい範囲の領域１２８０×７２０の部分が抽出される。

　図２７は、ステレオマッチング部２０３０、視差情報生成部２０１５、および画像生成部２０１６による処理結果の例を示す図である。ステレオマッチング部２０３０は、上記の例に示すように、３つの映像について、画角合わせを行った後、画素数を合わせる処理を行う。上記の例では、センター撮影部２０５０による映像が１９２０×１０８０のサイズを有し、第１サブ撮影部２０５１および第２サブ撮影部２０５２によってそれぞれ撮影され抽出された映像は、ともに１２８０×７２０の画素数を有する。ステレオマッチング部２０３０は、図２７に示すように、実施形態１と同様にこれらの画素数を、例えば２８８×１６２のサイズに合わせる。これは、画像信号処理部２０１２による画像信号処理を全体として処理しやすくするために、３つの映像を所定の目標サイズに合わせるためである。そのため、単に３つの映像間で最も画素数の小さい映像に合わせるのではなく、３つの映像間の画素を合わせると同時に、システム全体として処理し易い画像サイズに変更してもよい。

　なお、本実施形態では上記のような処理が行われるが、本開示における技術は上記のような処理を行うものに限定されるものではない。３つの映像のうち、最小の画素数を持つ映像に他の映像の画素数を合わせる処理が行われてもよい。

　視差情報生成部２０１５は、３つの映像間の視差量を検出する。具体的には、視差情報生成部２０１５は、ステレオマッチング部２０３０により画素数合わせがされた、センター撮影部２０５０によるセンター映像（Ｃｓ）と、第１サブ撮影部２０５１によるサブ１映像（Ｓ１ｓ）との間の差分Δ（Ｃｓ／Ｓ１ｓ）を示す情報の算出を行う。また、ステレオマッチング部２０３０により画素数合わせがされた、センター撮影部２０５０によるセンター映像（Ｃｓ）と、第２サブ撮影部２０５２によるサブ２映像（Ｓ２ｓ）との間の差分Δ（Ｃｓ／Ｓ２ｓ）を示す情報の算出を行う。視差情報生成部２０１５は、これらの差分情報に基づいて左右それぞれの視差量を示す情報（デプスマップ）を決定する。

　視差情報生成部２０１５は、差分Δ（Ｃｓ／Ｓ１ｓ）およびΔ（Ｃｓ／Ｓ２ｓ）から左右それぞれの視差量を決定する際に、左右の対称性を考慮してもよい。例えば、左側のみに著しく大きい視差量が発生し、右側にはまったく視差量が発生しない極端な画素がある場合には、そのような画素における視差量の決定に際して、より信頼できる方の値を採用してもよい。このように、左右相互の視差量の値も考慮して最終的な視差量を決定することができる。これにより、第１サブ撮影部２０５１および第２サブ撮影部２０５２の一方からの映像に部分的に障害（映像乱れなど）が発生した場合でも、視差情報生成部２０１５は、左右相互間の対称性に基づいて、視差量の算出への影響度を小さくすることができる。

　画像生成部２０１６は、視差情報生成部２０１５が生成したデプスマップと、センター撮影部２０５０が撮影した映像とから、立体映像を構成する左右映像を生成する。具体的には、図２８に示すように、センター撮影部２０５０で撮影した映像（Ｃｅｎｔｅｒ）から、デプスマップを参照して、被写体または映像部分ごとに、視差量に応じて左または右に移動させることにより、左側映像（Ｌｅｆｔ）および右側映像（Ｒｉｇｈｔ）を生成する。図２８に示す例では、左側映像は、被写体である建築物がセンター映像における位置より、視差量の分だけ右側にずれている。一方、背景部分は、視差量が少ないため、センター撮影部２０５０による映像とほぼ同じである。同様に、右側映像は、被写体である建築物がセンター映像における位置より、視差量の分だけ左側にずれている。一方、背景部分は、同様の理由でセンター撮影部２０５０による映像とほぼ同じである。

　[２－２－２．視差情報を利用した映像撮影について]
　撮影制御部２０１７は、実施形態１と同様の制御を行う。つまり、センター撮影部２０５０は、立体映像の基本となる映像を主に撮影し、第１サブ撮影部２０５１、第２サブ撮影部２０５２は、センター撮影部２０５０が撮影した映像に対する視差の情報を取得するための映像を撮影する。そのため、撮影制御部２０１７は、それぞれの用途に応じた好適な撮影制御を、光学制御部２００３、光学制御部２００７、光学制御部２０１１を通じて、第１光学部２０００、サブ１光学部２００４、サブ２光学部２００８に対して行う。例えば、実施形態１と同様に露出の制御、オートフォーカスなどがある。

　さらに、本実施形態では、撮影部の数が、センター撮影部２０５０、第１サブ撮影部２０５１、第２サブ撮影部２０５２の３つとなったことから、撮影制御部２０１７はこれら３つの撮影部間の連携などについての制御も行う。特に、第１サブ撮影部２０５１と第２サブ撮影部２０５２は、立体映像生成時の左右それぞれの視差情報を取得するための映像を撮影する。そのため、第１サブ撮影部２０５１と第２サブ撮影部２０５２は、連携して対称となる制御を行ってもよい。撮影制御部２０１７は、第１サブ撮影部２０５１と第２サブ撮影部２０５２とを制御する際は、これらの制約を考慮した制御を行う。

　水平方向情報を利用した立体映像の生成や、立体映像生成要否の判断などについては、実施形態１と同様のため説明を省略する。

　[２－２－３．立体映像の記録方式について]
　本実施形態でも、実施形態１と同様に複数の立体映像記録方式がある。以下、図２９を参照しながら、それぞれの記録方式について説明する。

　図２９（ａ）は、画像生成部２０１６で生成された立体映像を構成する左右それぞれの映像（Ｌｅｆｔ　Ｖｉｄｅｏ　Ｓｔｒｅａｍ、Ｒｉｇｈｔ　Ｖｉｄｅｏ　Ｓｔｒｅａｍ）を映像圧縮部２０１９で符号化し、符号化されたデータを多重化して蓄積部２０２０に記録する方式である。この方式では、再生装置は、記録されたデータを左右それぞれのデータに分割し、その後それぞれを復号して再生することができれば、記録した立体映像を再生することが可能である。すなわち、本方式の利点としては、再生装置の構成を比較的簡単にすることができる点にある。

　図２９（ｂ）は、立体映像の基本となるセンター撮影部２０５０によるセンター映像（Ｍａｉｎ　Ｖｉｄｅｏ　Ｓｔｒｅａｍ）と、センター映像に対する左右それぞれの映像のデプスマップ（視差量）とを記録する方式である。この方式では、映像圧縮部２０１９は、データとしてセンター撮影部２０５０による映像と、当該映像に対する左右それぞれのデプスマップを符号化する。その後、映像圧縮部２０１９は、それぞれの符号化されたデータを多重化して、蓄積部２０２０へ記録する。この場合、再生装置は、蓄積部２０２０からデータを読み出し、それをデータ種別ごとに分割し、分割したそれぞれのデータを復号する。再生装置はさらに、復号したセンター映像から、左右それぞれのデプスマップに基づいて立体映像を構成する左右それぞれの映像を生成し、表示する。本方式の利点としては、データ量が多い映像データを一つのみとし、左右其々の映像を生成するために必要なデプスマップを合わせて記録することで、記録データ量を抑制することができる点にある。

　図２９（ｃ）は、立体映像の基本となるセンター撮影部２０５０による映像を記録する点は図２９（ｂ）と同様である。しかし、デプスマップ情報に代えて、センター撮影部２０５０による映像と第１サブ撮影部２０５１、および第２サブ撮影部２０５２による映像との差分情報（差分画像）を記録する点が図２９（ｂ）に示す方式と異なる。この方式では、映像圧縮部２０１９は、センター撮影部２０５０による映像と、センター撮影部２０５０に対する左右それぞれの差分情報Δ（Ｃｓ／Ｒｓ）およびΔ（Ｃｓ／Ｌｓ）をそれぞれ符号化した後、これらを多重化して蓄積部２０２０に記録する。再生装置は、蓄積部２０２０に記録されたデータをデータ種別ごとに分割し、それぞれを複合化する。その後、再生装置は、差分情報Δ（Ｃｓ／Ｒｓ）およびΔ（Ｃｓ／Ｌｓ）からデプスマップを算出し、センター撮影部２０５０による映像から立体映像を構成する左右其々の映像を生成、表示する。本方式の利点は、再生装置が自身の表示ディスプレイの性能に応じて、デプスマップを生成し、立体映像を生成することができる。そのため、個々の再生条件に応じた立体映像の再生を実現することができる。

　[２－３．効果等]
　以上の構成により、本実施形態による映像撮影装置は、センター撮影部２０５０で撮影した映像から、立体映像を構成する左右の映像を生成することができる。従来技術のように、一方の映像は実際に撮影された映像であるが、他方の映像は実際に撮影された映像に基づいて生成した映像である場合は、左右の映像の信頼性に大きな偏りが生じる。これに対して、本実施形態では、左右映像の両者とも、撮影された基本映像により生成されている。そのため、立体映像としての左右対称性も考慮して映像を作ることができるため、左右のバランスがとれた、より自然な映像を生成することができる。

　また、実施形態１と同様に、全ての撮影部（撮影ユニット）をほぼ等価な構成とする必要がないため、立体映像の基礎となる映像を撮影するセンター撮影部２０５０と、視差量を検出するための映像を撮影するサブ撮影部２０５１、２０５２とで、異なる構成とすることができる。特に、視差量を検出するためのサブ撮影部２０５１、２０５２は、センター撮影部２０５０と比較して簡略な構成で実現できる可能性があるため、より簡単な構成で立体映像撮影装置１８００を構成することができる。

　なお、本実施形態においても、上記のステレオマッチング部２０３０が出力する映像のサイズは一例であり、本開示における技術はこれに限定されるものではない。上記以外のサイズの映像を扱うものであってもよい。

　（他の実施形態）
　以上のように、本出願において開示する技術の例示として、実施形態１、２を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施形態１、２で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。

　そこで、以下、他の実施の形態を例示する。

　上記の実施形態１および実施形態２では、図１（ｂ）や図２３に示す映像撮影装置を例として説明したが、本開示における映像撮影装置はこれらの構成に限定されるものではない。映像撮影装置は、他の構成として、例えば図３０に示す構成を有していてもよい。

　図３０（ａ）は、映像撮影装置前面から見た場合に、サブ撮影ユニット２５０３がメイン撮影ユニット２５０２よりも左側に配置された構成例を示している。この構成例では、サブ撮影ユニット２５０３は、サブレンズ支持部２５０１に支持され、本体から離れた位置に配置されている。この例における映像撮影装置は、実施形態１とは逆に、メイン撮影部による映像を左側の映像とすることができる。

　図３０（ｂ）は、図３０（ａ）に示す構成とは逆に、映像撮影装置前面から見た場合に、サブ撮影ユニット２５０４がメイン撮影ユニット２５０２よりも右側に配置された構成例を示している。この構成例では、サブ撮影ユニット２５０４は、サブレンズ支持部２５０２に支持され、本体から離れた位置に配置されている。この構成例によれば、実施形態１における構成よりもメイン撮影ユニット２５０２とサブ撮影ユニット２５０４との間の距離が大きいため、映像撮影装置は、より視差の大きい映像を撮影することができる。

　また、上記実施形態１、および実施形態２における、メイン撮影部（またはセンター撮影部）がズームレンズを有し、サブ撮影部が単焦点レンズを有する構成において、ズーム光学系の焦点距離を単焦点レンズの焦点距離に一致させて立体映像の撮影を行うように構成されていてもよい。この場合、立体映像の撮影は、メイン撮影部の光学倍率とサブ撮影部の光学倍率とが同じ状態で撮影されることとなる。立体映像の撮影を行わず、従来のように非立体映像の撮影を行う場合は、メイン撮影部がズームレンズを可動にした状態で撮影してもよい。このような構成により、立体映像の撮影はメイン撮影部の倍率とサブ撮影部の倍率とが等しい状態で行われることとなり、画像信号処理部は、画角合わせなどの処理を比較的簡単に実行することが可能となる。

　また、立体映像撮影時にメイン撮影部がズームレンズを可動にして撮影する場合であっても、画像処理部のステレオマッチング部が、サブ撮影部が撮影した映像から該当部分を抽出する際の拡大率（電子ズーム）が所定の範囲の場合（例えば、拡大率が４倍以下などの場合）にのみ立体映像を生成するものであってもよい。この拡大率が所定の範囲を超える場合は、立体映像の生成を停止し、メイン撮影部が撮影した従来の非立体映像を画像信号処理部が出力するように構成されていてもよい。これにより、拡大率が大きいために、算出された奥行き情報（デプスマップ）の信頼性が低い撮影部分では立体映像の生成が停止されることで、生成される立体映像の品質を比較的高品質に保つことが可能となる。

　さらに、メイン撮影部がズームレンズを有し、サブ撮影部が単焦点レンズを有する構成において、奥行き情報（デプスマップ）を取得した場合、ズーム光学系または単焦点レンズ光学系の光学式絞りを除去した構成であってもよい。例えば、撮影された立体映像が、撮影装置より１ｍ以遠の被写体に対して、全画面で焦点が合っているとする。この場合、全画面で焦点が合っているので、画像処理により焦点ボケを持った映像を生成することができる。光学式絞り方式では、光学系の特性のため、ボケる深度領域は絞り量により一意的に決まるが、画像処理では鮮明にする深度領域とボケさせる深度領域を自由に制御することができる。例えば、鮮明にする深度領域の深度幅を光学式の場合よりも広くしたり、複数の深度領域で被写体を鮮明にすることができる。

　また、実施形態１の構成において、メイン撮影部３５０またはサブ撮影部３５１の光軸方向を可動にするものであってもよい。つまり立体撮影における平行法と交差法の撮影を映像撮影装置が変更できるようにしてもよい。具体的には、サブ撮影部３５１を構成するレンズを含んだレンズ鏡筒および撮像部を制御されたモータなどによって駆動することによって光軸を変化させてもよい。このような構成により、映像撮影装置は被写体や撮影条件に応じて平行法と交差法とを切り変えることができる。あるいは、交差法におけるクロスポイントの位置を動かすなどの制御を行うことができる。なお、モータなどによる機械制御に代えて、電子制御によりこれを実現するものであってもよい。

　例えば、サブ撮影部３５１のレンズとしては、メイン撮影部３５０のレンズに比して、非常に広角の魚眼レンズなどが利用され得る。このような場合、サブ撮影部３５１により撮影された映像は、通常のレンズで撮影された映像よりも広範囲（広角）であるため、メイン撮影部３５０が撮影した範囲の映像を含む。ステレオマッチング部３２０は、メイン撮影部３５０で撮影された映像に基づいて、サブ撮影部３５１で撮影された映像から、交差法で撮影された場合に含まれる範囲を抽出する。魚眼レンズで撮影された映像は、周辺部が歪み易い特性がある。そのため、ステレオマッチング部３２０はこの点も考慮して抽出時に同時に画像の歪み補正を行ってもよい。

　例えば、図３１に示すように、ステレオマッチング部３２０は、メイン撮影部３５０によって取得した第１の画像およびサブ撮影部３５１によって取得した第２の画像の各々から、レンズの歪曲に起因する歪みを補正する歪み補正部３２４をさらに備えていてもよい。歪み補正部３２４は、第１の画像から、第１光学部３００（ズーム光学系）のレンズの歪曲に起因する歪みを補正する処理を行うとともに、第２の画像から、第２光学部３０４のレンズの歪曲に起因する歪みを補正する処理を行う。第２の画像のうち第１の画像に対応する領域は、ズーム光学系のズーム倍率に応じて変動するため、レンズの歪曲に起因する歪みの程度もズーム倍率に応じて変動する。このため、歪み補正部３２４は、ズーム光学系のズーム倍率に応じて異なる補正パラメータを用いて補正を行う。なお、歪みの補正については、公知の歪曲収差補正法を利用することができる。この場合、垂直マッチング部３２２は、歪みが補正された第１および第２の画像に基づいて、垂直方向のマッチング処理を行うようにすればよい。

　上記の処理を行った場合、映像撮影装置は、メイン撮影部３５０の光軸とサブ撮影部３５１の光軸とを機械的に変化させなくても、電子処理により平行法と交差法との切り替えを実現することが可能となる。なお、この場合は、サブ撮影部３５１の解像度を、メイン撮影部３５０の解像度よりも十分大きく（例えば、２倍以上に）しておくことが好ましい。これは、サブ撮影部３５１で撮影された映像は画角合わせ処理などにより抽出されることが前提となるため、抽出される部分の解像度を少しでも高くするためである。ここでは、実施形態１の構成について、魚眼レンズなどの広角レンズを用いる方法について説明したが、実施形態２の構成（センターレンズ、第１サブレンズ、第２サブレンズ）を採用した場合についても、少なくとも３つのレンズのうちの２つのレンズの関係において、上記の方法を適用することが可能である。

　さらに、視差情報生成部３１１、２０１５は、撮影画角内の被写体の位置と分布と被写体の輪郭とにより、奥行き情報（デプスマップ）の計算の精度、奥行き情報の算出刻みを変えてもよい。例えば、視差情報生成部３１１、２０１５は、ある被写体に対して奥行き情報の刻みを粗く設定し、その被写体内部の奥行き情報の刻みを細かく設定してもよい。すなわち、視差情報生成部３１１、２０１５は、奥行き情報を、撮影している画角、構図の内容に応じて被写体の内外で階層構造にしてもよい。

　ステレオ画像の視差に関して、図１７を参照して説明したように、遠くの被写体の視差量は小さくなる。このため、例えば水平解像度が２８８ピクセルの画像に対して、視差量が３ピクセルの場合の被写体の距離の範囲（被写体距離領域）と、視差量が２ピクセルの場合の被写体距離領域と、視差量が１ピクセルの場合の被写体距離領域とを比較すると、視差量が小さいほど被写体距離領域が広がっていく。すなわち、遠くになるほど被写体距離の変化に対する視差量の変化の感度が小さくなる。これにより、遠くになるほど同じ視差量の被写体距離領域内の被写体は同じ奥行きとして認識され、いわゆる「カキワリ」効果を生じる。カキワリ効果とは、舞台道具の書き割りのように、映像のある部分が扁平に見える現象である。

　そこで、映像の輪郭およびテクスチャーの特徴抽出を行い、輪郭線や面の傾きより奥行き変化が推定できる場合、この奥行き変化量を用いることにより、１ピクセルの視差量を例えば２等分あるいは４等分することができる。このように、視差量を２等分あるいは４等分することにより、視差の感度が２倍または４倍に拡大できるため、カキワリ効果を低減できる。

　視差情報生成部３１１、２０１５は、これにより、奥行き情報の演算を高精度化でき、オブジェクト内の微妙な奥行き表現が可能になる。また、映像撮影装置は、生成される立体映像を特徴のある部分の奥行きを意図的に大きくしたり、小さくしたりといった変化を有する映像とすることも可能になる。さらに、別の活用方法として、映像撮影装置が、奥行き情報とメイン画像とにより、三角法の原理を用いて、任意視点での画像を計算して生成することもできる。

　ところで、映像が立体情報を含む場合、映像撮影装置自体が記憶手段と学習手段をさらに備え、映像に関する学習と記憶とを積み重ねることにより、被写体と背景とにより構成される映像の構図を、人間のように理解することが可能となる。例えば、ある被写体の距離が分かれば、その大きさや輪郭、テクスチャー、色、動き（加速度や角速度情報を含む）より、その被写体が何であるかを同定することが可能となる。よって、クロマキー処理のように特定の色の被写体だけを抽出したりするだけでなく、特定の距離にある人や物（オブジェクト）の抽出、さらに、認識結果より特定の人や物の抽出が可能となる。映像が立体情報を持っていると、ＣＧ（Ｃｏｍｐｕｔｅｒ　Ｇｒａｐｈｉｃｓ）処理に展開でき、ＶＲ（Ｖｉｒｔｕａｌ　Ｒｅａｌｉｔｙ）、ＡＲ（Ａｕｇｕｍｅｎｔｅｄ　Ｒｅａｌｉｔｙ）、ＭＲ（Ｍｉｘｅｄ　Ｒｅａｌｉｔｙ）など、撮影映像とコンピュータで生成した映像データとの合成処理などができる。

　また上記以外にも、例えば、映像の上方で無限遠に広がりがあるブルーの領域は青空である、映像の青空領域の中で白い領域は雲である、などと映像撮影装置に認識せることも可能である。同様に、映像の中央から下方にかけて広がりがある灰色領域は道路である、また道路上で透明部（ガラスウインドウ部）と、黒い丸いドーナツ状の黒い部分（タイヤ）を持った物体は自動車であるなどと映像撮影装置に認識させることができる。さらに、自動車の形をしていても、距離が分かれば、本物の自動車であるか、おもちゃの自動車であるかを映像撮影装置に判定することができる。このように、被写体である人や物の距離が分かると、その人や物の認識をより正確に映像撮影装置に判定させることができる。

　なお、映像撮影装置自体が持つ記憶手段と学習手段には容量や処理能力の限界があるので、これらの記憶手段と学習手段をＷＥＢなどのネットワーク上に待たせて、より認識用のデータベースを持った高機能なクラウドサービス機能として実装してもよい。この場合は、映像撮影装置からネットワーク上のクラウドサーバーなどに撮影映像を送るとともに、認識したいことや知りたいことを問い合わせる構成とすればよい。

　反対に、ネットワーク上のクラウドサーバーから映像撮影装置には、撮影映像が含む被写体や背景の意味データや、場所や人に関する過去から現在までの説明データを送信する。これにより、映像撮影装置をよりインテリジェントな端末として活用することができる。

　なお、実施形態１および実施形態２では、映像撮影装置を用いて説明したが、本開示における技術はこの態様に限定されるものではない。他の実現方法として、上記の映像撮影装置で用いるプログラムをソフトウェアにより実現することも可能である。そのようなソフトウェアを、プロセッサを備えたコンピュータに実行させることにより、上記の各種画像処理を実現することができる。

　また、以上の各実施形態では、立体映像を生成、記録する映像撮影装置を前提としたが、静止画像のみを生成する撮影装置においても、全く同様に上記の撮影方法および画像処理方法を適用してステレオ画像を生成することが可能である。

　以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

　したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

　また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

　本開示における技術は、動画像または静止画像を撮影する撮影装置で利用することが可能である。

　　１００、１０１、１８００　映像撮影装置
　　１０２、２００　第１レンズ群
　　１０３、２０４　第２レンズ群
　　１０４　モニター部
　　２０１、２０５、１９０１、１９０５、１９０９　ＣＣＤ
　　２０２、２０６、１９０２、１９０６、１９１０　Ａ／ＤＩＣ
　　２０３、２０７、１９０３、１９０７、１９１１　アクチュエータ
　　２０８、１９１２　ＣＰＵ
　　２０９、１９１３　ＲＡＭ
　　２１０、１９１４　ＲＯＭ
　　２１１、１９１９　加速度センサ
　　２１２、１９１５　ディスプレイ
　　２１３、１９１６　エンコーダー
　　２１４、１９１７　記憶装置
　　２１５、１９１８　入力装置
　　２５０　メイン撮影ユニット
　　２５１　サブ撮影ユニット
　　３００　第１光学部
　　３０１、３０５、２００１、２００５、２００９　撮像部
　　３０２、３０６、２００２、２００６、２０１０　Ａ／Ｄ変換部
　　３０３、３０７、２００３、２００７、２０１１　光学制御部
　　３０４　第２光学部
　　３０８、２０１２　画像信号処理部
　　３１１、２０１５　視差情報生成部
　　３１２、２０１６　画像生成部
　　３１３、２０１７　撮影制御部
　　３１４、２０１８　表示部
　　３１５、２０１９　映像圧縮部
　　３１６、２０２０　蓄積部
　　３１７、２０２１　入力部
　　３１８、２０２２　水平方向検出部
　　３２０、２０３０　ステレオマッチング部
　　３２１、２０３１　粗切り出し部
　　３２２、２０３２　垂直マッチング部
　　３２３、２０３３　水平マッチング部
　　３５０　メイン撮影部
　　３５１　サブ撮影部
　　６００　建物
　　１８０１、１９００　センターレンズ群
　　１８０２　第１サブレンズ群
　　１８０３　第２サブレンズ群
　　１８０４　鏡筒部
　　１９５０　センター撮影ユニット
　　１９５１　サブ１撮影ユニット
　　１９５２　サブ２撮影ユニット
　　２０００　センター光学部
　　２００４　サブ１光学部
　　２００８　サブ２光学部
　　２０５０　センター撮影部
　　２０５１　第１サブ撮影部
　　２０５２　第２サブ撮影部
　　２５０１、２５０２　サブレンズ支持部

Claims

　被写体を撮影することによって第１の画像を取得するように構成され、ズーム光学系を有する第１の撮影部と、
　前記被写体を撮影することによって第２の画像を取得するように構成された第２の撮影部と、
　前記第１の画像および前記第２の画像から、同一画角と推定される画像部分を抽出する画角合わせ部と、
を備え、
　前記画角合わせ部は、
　前記第１の画像および前記第２の画像から、同じ画像特徴を持つと推定される相互に対応する複数の画像ブロックを選択し、各画像における前記複数の画像ブロックの垂直方向の相対的な位置関係に基づいて、前記第１の画像と同一の垂直方向範囲を有すると推定される前記第２の画像の垂直画像領域を算出する垂直領域算出部と、
　前記垂直領域算出部によって算出された前記第２の画像の垂直画像領域に含まれる水平ラインの数と、前記第１の画像に含まれる水平ラインの数とを予め定めた値に合わせた後、前記第１の画像に含まれる水平ラインの信号および前記第２の画像の前記垂直画像領域に含まれる水平ラインの信号を、それぞれ、第１の水平ライン信号および第２の水平ライン信号として出力する水平ライン数合わせ部と、
　前記水平ライン数合わせ部から出力された前記第１の水平ライン信号と前記第２の水平ライン信号とを比較することによってステレオマッチングを行う水平マッチング部と、
を有する、
ステレオ撮影装置。
　前記第２の撮影部は、前記第１の画像における撮影画角よりも広い撮影画角で前記被写体を撮影することによって前記第２の画像を取得する、請求項１に記載のステレオ撮影装置。
　前記水平マッチング部は、前記第１および第２の画像内の相互に対応する少なくとも一対の画像領域の平均輝度値の差を予め設定した値以下に合わせるゲイン調整を行った後、前記ステレオマッチングを行う、請求項１に記載のステレオ撮影装置。
　前記水平マッチング部は、前記垂直領域算出部によって算出された前記垂直画像領域に含まれる水平ラインの信号と、前記第１の画像における対応する水平ラインの信号との間の相互相関に基づいて、前記ステレオマッチングを行う、請求項１に記載のステレオ撮影装置。
　前記第１の水平ライン信号と前記第１の水平ライン信号に基づいて、視差情報を生成する視差情報生成部をさらに備えている、請求項１に記載のステレオ撮影装置。
　前記視差情報および前記第１の画像に基づいて、前記第１の画像とステレオ画像の対となる第３の画像を生成する画像生成部をさらに備えている、請求項５に記載のステレオ撮影装置。
　前記垂直領域算出部は、前記ズーム光学系のズーム倍率を示す情報、および前記ズーム光学系の光軸と前記第１の撮影部における撮像センサの中心との変位量を示す情報の少なくとも一方を用いて、前記第２の画像から、前記第１の画像の範囲を包含する領域を抽出する粗切り出し部をさらに有し、
前記垂直領域算出部は、前記粗切り出し部によって抽出された前記領域から、前記複数の画像ブロックを選択する、
請求項１に記載のステレオ撮影装置
　前記垂直領域算出部は、
　前記第１の画像から、前記ズーム光学系のレンズの歪曲に起因する歪みを補正する第１の歪み補正部と、
　前記第２の画像から、前記ズーム光学系のズーム倍率に応じて前記歪みとは異なる歪みを補正する第２の歪み補正部とをさらに有し、
　前記垂直領域算出部は、前記第２の歪み補正部によって歪みが補正された前記第２の画像から、前記第１の歪み補正部によって歪みが補正された前記第１の画像と同一の垂直方向範囲を有すると推定される前記垂直画像領域を算出する、請求項１から７のいずれかに記載のステレオ撮影装置。
　前記垂直領域算出部は、それぞれ複数の異なる解像度で表現した前記第１の画像の画像特徴および前記第２の画像の画像特徴の比較結果に基づいて、前記複数の画像ブロックを決定する、請求項１から８のいずれかに記載のステレオ撮影装置。
　前記水平マッチング部は、同じ水平範囲について、前記第１の水平ライン信号と前記第２の水平ライン信号の画素数とを合わせる処理を行うことによって前記ステレオマッチングを行う、請求項１に記載のステレオ撮影装置。
　前記垂直領域算出部は、前記第１の画像から選択した複数の画像ブロックの各々の代表点における垂直方向の座標の比と、前記第２の画像から選択された複数の画像ブロックの各々の代表点における垂直方向の座標の比とを比較することにより、前記垂直画像領域を決定する、請求項１から９のいずれかに記載のステレオ撮影装置。
　被写体を撮影することによって第１の画像を取得するように構成され、ズーム光学系を有する第１の撮影部と、
　前記被写体を撮影することによって第２の画像を取得するように構成された第２の撮影部と、
　前記第１の画像および前記第２の画像から、同一画角と推定される画像部分を抽出する画角合わせ部と、
を備え、
　前記画角合わせ部は、
　前記第１の画像および前記第２の画像から、同じ画像特徴を持つと推定される相互に対応する複数の画像ブロックを選択し、各画像における前記複数の画像ブロックの垂直方向の相対的な位置関係に基づいて、前記第１の画像と同一の垂直方向範囲を有すると推定される前記第２の画像の垂直画像領域を算出するステップと、
　前記第２の画像の前記垂直画像領域に含まれる水平ラインの数と、前記第１の画像に含まれる水平ラインの数とを予め定めた値に合わせた後、前記第１の画像に含まれる水平ラインの信号および前記第２の画像の前記垂直画像領域に含まれる水平ラインの信号を、それぞれ、第１の水平ライン信号および第２の水平ライン信号として出力するステップと、
　前記第１の水平ライン信号と前記第２の水平ライン信号とを比較することによってステレオマッチングを行うステップと、
を実行するように構成されている、
ステレオ撮影装置。