JP2024051665A

JP2024051665A - 動画合成システム、動画合成方法およびプログラム

Info

Publication number: JP2024051665A
Application number: JP2022157949A
Authority: JP
Inventors: 章五島; Akira Goshima
Original assignee: Konami Digital Entertainment Co Ltd
Current assignee: Konami Digital Entertainment Co Ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2024-04-11

Abstract

【課題】相異なる空間に所在する複数の被写体を含む自然な合成動画を生成する。【解決手段】動画合成システム３０は、第１現実空間内の第１撮像装置が撮像した第１動画と、第２現実空間内の第２撮像装置が撮像した第２動画とを取得する動画取得部４１と、第１動画における第１被写体の画像と第２動画における第２被写体の画像とを含む合成動画Ｖを生成する合成処理を実行する画像処理部４２とを具備する。合成処理は、第１撮像装置の第１撮像距離と第２撮像装置の第２撮像距離とに応じて第１被写体の画像と第２被写体の画像とを調整する調整処理を含む。【選択図】図４

Description

本開示は、複数の動画を合成する技術に関する。

個別に収録された複数の動画を合成する技術が従来から提案されている。例えば特許文献１には、相異なるカメラにより複数の動画を撮像し、複数の動画の各々から切取られたユーザの動画を所定の背景動画に合成する技術が開示されている。

特許第６６２７８６１号公報

特許文献１の技術において、被写体であるユーザとカメラとの間の撮像距離は、カメラ毎に相違し得る。したがって、特許文献１においては、例えば、被写体毎の撮像距離の相違が適切に反映されていない不自然な動画が生成されるという課題がある。以上の事情を考慮して、本開示のひとつの態様は、相異なる空間に所在する複数の被写体を含む自然な合成動画を生成することを目的とする。

以上の課題を解決するために、本開示のひとつの態様に係る動画合成システムは、第１現実空間内の第１撮像装置が撮像した第１動画と、第２現実空間内の第２撮像装置が撮像した第２動画とを取得する動画取得部と、前記第１動画における第１被写体の画像と前記第２動画における第２被写体の画像とを含む合成動画を生成する合成処理を実行する画像処理部とを具備し、前記合成処理は、前記第１撮像装置の第１撮像距離と前記第２撮像装置の第２撮像距離とに応じて前記第１被写体の画像と前記第２被写体の画像とを調整する調整処理を含む。

本開示のひとつの態様に係る動画合成方法は、第１現実空間内の第１撮像装置が撮像した第１動画と、第２現実空間内の第２撮像装置が撮像した第２動画とを取得し、前記第１動画における第１被写体の画像と前記第２動画における第２被写体の画像とを含む合成動画を生成する合成処理を実行し、前記合成処理は、前記第１撮像装置の第１撮像距離と前記第２撮像装置の第２撮像距離とに応じて前記第１被写体の画像と前記第２被写体の画像とを調整する調整処理を含む。

本開示のひとつの態様に係るプログラムは、第１現実空間内の第１撮像装置が撮像した第１動画と、第２現実空間内の第２撮像装置が撮像した第２動画とを取得する動画取得部、および、前記第１動画における第１被写体の画像と前記第２動画における第２被写体の画像とを含む合成動画を生成する合成処理を実行する画像処理部、としてコンピュータシステムを機能させるプログラムであって、前記合成処理は、前記第１撮像装置の第１撮像距離と前記第２撮像装置の第２撮像距離とに応じて前記第１被写体の画像と前記第２被写体の画像とを調整する調整処理を含む。

第１実施形態に係る動画収録システムの構成を例示するブロック図である。各撮像装置が撮像する動画の模式図である。動画合成システムの構成を例示するブロック図である。動画合成システムの機能的な構成を例示するブロック図である。画像処理部の具体的な構成を例示するブロック図である。ぼかし処理の説明図である。撮像距離とぼかし量との関係を表す説明図である。合成動画の模式図である。合成動画の模式図である。合成動画の模式図である。動画合成システムの動作のフローチャートである。合成処理の具体的な手順を例示するフローチャートである。第３実施形態における画像処理部のブロック図である。第３実施形態における仮想動画の説明図である。第３実施形態における合成処理のフローチャートである。第３実施形態における合成動画の模式図である。第４実施形態における動画合成システムの機能的な構成を例示するブロック図である。変形例における撮像距離とぼかし量との関係を表す説明図である。変形例における撮像距離とぼかし量との関係を表す説明図である。変形例における撮像距離とぼかし量との関係を表す説明図である。変形例における撮像距離とぼかし量との関係を表す説明図である。

図面を参照しながら本開示の実施の形態を説明する。以下に記載する実施の形態は、技術的に好適な種々の限定を含む。本開示の範囲は、以下に例示する形態には限定されない。

［第１実施形態］
図１は、第１実施形態における動画収録システム１００の構成を例示するブロック図である。動画収録システム１００は、配信コンテンツＣを制作するためのコンピュータシステムである。配信コンテンツＣは、端末装置２００の利用者による視聴のために端末装置２００に配信される情報である。配信コンテンツＣは、例えば複数の対戦者がビデオゲームにより対戦する競技イベント（esports）の動画および音声で構成される。

端末装置２００は、例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報装置である。配信コンテンツＣは、例えばインターネット等の通信網を介して動画収録システム１００から端末装置２００に配信される。なお、図１においては便宜的に１個の端末装置２００のみが図示されているが、実際には複数の端末装置２００に対して配信コンテンツＣが配信される。

動画収録システム１００は、複数の収録システム２０-1～２０-3と動画合成システム３０とを具備する。各収録システム２０-n（ｎ＝１～３）は、通信網を介して動画合成システム３０と通信する。複数の収録システム２０-1～２０-3の各々は、相異なる収録スタジオＲnに設置される。各収録スタジオＲnは、相異なる現実の空間である。各収録スタジオＲnは、例えば相互に遠隔の地点に位置する。

各収録スタジオＲnには、収録対象となる被写体Ｑnが所在する。被写体Ｑnは、例えば競技イベントの出場者または解説者等、配信コンテンツＣの出演者である。各収録スタジオＲnにおける被写体Ｑnの背景は、例えばグリーンバックまたはブルーバック等の特定色で構成される。

図１に例示される通り、各収録システム２０-nは、撮像装置２１-nと収音装置２２-nと通信装置２３-nとを具備する。なお、収音装置２２-nおよび通信装置２３-nの一方または双方は、撮像装置２１-nに搭載されてもよい。

撮像装置２１-nは、収録スタジオＲn内の動画Ｖnを生成するカメラである。各撮像装置２１-nは、例えば、撮影レンズ等の光学系と、光学系からの入射光を受光する撮像素子と、撮像素子による受光量に応じて動画Ｖnのデータを生成する処理回路とを具備する。なお、動画Ｖnを表すデータの形式は任意である。

図２は、各撮像装置２１-nが生成する動画Ｖnの模式図である。撮像装置２１-1は、収録スタジオＲ1における被写体Ｑ1の撮像により動画Ｖ1を収録する。同様に、撮像装置２１-2は、収録スタジオＲ2における被写体Ｑ2の撮像により動画Ｖ2を収録し、撮像装置２１-3は、収録スタジオＲ3における被写体Ｑ3の撮像により動画Ｖ3を収録する。なお、各撮像装置２１-nは、光軸方向の広範囲にわたり実質的に合焦したパンフォーカスの状態で被写体Ｑnを撮像する。したがって、各被写体画像Ｇnには、撮像装置２１の合焦面から離間することに起因した光学的なぼけは実質的に発生しない。すなわち、各動画Ｖnにおける被写体Ｑnの画像（以下「被写体画像Ｇn」という）は、輪郭または境界が明瞭な画像である。

図１に例示される通り、撮像装置２１-n毎に撮像距離Ｄnは相違する。撮像距離Ｄnは、撮像装置２１-nと被写体Ｑnとの間の距離である。撮像距離Ｄnは、撮影レンズの表面または撮像素子の撮像面と、被写体Ｑnとの距離である。以下の説明においては、撮像距離Ｄ2が撮像距離Ｄ1を上回り、かつ、撮像距離Ｄ3が撮像距離Ｄ2を上回る場合を想定する（Ｄ1＜Ｄ2＜Ｄ3）。他方、例えば焦点距離または絞り値等、撮像距離Ｄn以外の撮像条件は、複数の撮像装置２１-1～２１-3において共通する。したがって、複数の被写体Ｑ1～Ｑ3の現実の身長が共通する場合でも、図２に例示される通り、各動画Ｖnにおける被写体画像Ｇnのサイズは、撮像距離Ｄnに応じて動画Ｖn毎に相違する。

図１の収音装置２２-nは、収録スタジオＲn内の音声Ａnを収録するマイクロホンである。音声Ａnは、例えば収録スタジオＲn内の被写体Ｑnが発音する音声である。具体的には、音声Ａnの波形を表すデータが収音装置２２-nにより生成される。なお、音声Ａnを表すデータの形式は任意である。

通信装置２３-nは、例えばインターネット等の通信網を介して動画合成システム３０と通信する。通信装置２３-nと動画合成システム３０との間の通信の経路は、有線区間または無線区間で構成される。具体的には、通信装置２３-nは、素材データＭnを動画合成システム３０に送信する。素材データＭnは、撮像装置２１-nが撮像した動画Ｖnと収音装置２２-nが収音した音声Ａnとを表すデータである。

図３は、動画合成システム３０の構成を例示するブロック図である。動画合成システム３０は、配信コンテンツＣを生成および配信するコンピュータシステムである。動画合成システム３０は、例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報装置で実現される。なお、動画合成システム３０は、以上に例示した汎用の情報装置により実現されるほか、配信コンテンツＣの生成に専用される映像装置により実現されてもよい。

動画合成システム３０は、制御装置３１と記憶装置３２と通信装置３３と操作装置３４と再生装置３５とを具備する。なお、動画合成システム３０は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。

制御装置３１は、動画合成システム３０の各要素を制御する単数または複数のプロセッサである。具体的には、例えばＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＳＰＵ（Sound Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより、制御装置３１が構成される。

記憶装置３２は、制御装置３１が実行するプログラムと、制御装置３１が使用する各種のデータとを記憶する単数または複数のメモリである。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置３２として利用される。なお、例えば、動画合成システム３０に対して着脱される可搬型の記録媒体、または、制御装置３１が通信網を介してアクセス可能な記録媒体（例えばクラウドストレージ）が、記憶装置３２として利用されてもよい。

通信装置３３は、通信網を介して端末装置２００および各収録システム２０-nと通信する。例えば、通信装置３３は、各収録システム２０-nが送信する素材データＭnを受信する。また、通信装置３３は、端末装置２００に対して配信コンテンツＣを送信する。なお、端末装置２００に対する配信コンテンツＣの配信は、動画収録システム１００とは別個の配信システムが実行してもよい。例えば、動画合成システム３０から送信された配信コンテンツＣが配信システムに保持され、配信システムから端末装置２００に対して配信コンテンツＣが配信されてもよい。また、配信コンテンツＣは、端末装置２００に配信されるほか、記憶装置３２等の記録媒体に記録されてもよい。すなわち、端末装置２００に対する配信は省略されてよい。

操作装置３４は、動画収録システム１００の利用者による指示を受付ける入力機器である。動画収録システム１００の利用者は、例えば配信コンテンツＣの制作者である。例えば、利用者が操作する操作子、または、利用者による接触を検知するタッチパネルが、操作装置３４として利用される。なお、動画合成システム３０とは別体の操作装置３４が、動画合成システム３０に対して有線または無線により接続されてもよい。

再生装置３５は、制御装置３１による制御のもとで配信コンテンツＣを再生する。各収録スタジオＲnにける収録に並行して、配信コンテンツＣが再生装置３５により再生される。動画収録システム１００の利用者は、配信コンテンツＣを確認できる。具体的には、再生装置３５は、表示装置と放音装置とを具備する。表示装置は、配信コンテンツＣの動画（後述の合成動画Ｖ）を表示する。例えば液晶表示パネルまたは有機ＥＬ（Electroluminescence）パネル等の各種の表示パネルが、表示装置として利用される。放音装置は、配信コンテンツＣの音声（後述の合成音声Ａ）を放射する。例えばスピーカまたはヘッドホンが、放音装置として利用される。なお、動画合成システム３０とは別体の再生装置３５が、動画合成システム３０に対して有線または無線により接続されてもよい。

図４は、動画合成システム３０の機能的な構成を例示するブロック図である。制御装置３１は、記憶装置３２に記憶されたプログラムを実行することで、配信コンテンツＣを生成するための複数の機能（動画取得部４１、画像処理部４２、音声処理部４３および出力処理部４４）を実現する。なお、相互に別体で構成された複数の装置により制御装置３１の機能が実現されもよい。制御装置３１の機能の一部または全部が専用の電子回路で実現されてもよい。

動画取得部４１は、複数の素材データＭ1～Ｍ3を取得する。具体的には、動画取得部４１は、各収録システム２０-nにより収録された動画Ｖnおよび音声Ａnを含む素材データＭnを、通信装置３３により収録システム２０-nから受信する。すなわち、動画取得部４１は、複数の動画Ｖ1～Ｖ3と複数の音声Ａ1～Ａ3とを取得する。各素材データＭnは、配信コンテンツＣの素材となるデータである。

画像処理部４２は、合成処理を実行することで合成動画Ｖを生成する。合成処理は、動画取得部４１が取得した複数の動画Ｖ1～Ｖ3を合成する処理である。すなわち、合成動画Ｖは、図８から図１０に例示される通り、動画Ｖ1の被写体画像Ｇ1と動画Ｖ2の被写体画像Ｇ2と動画Ｖ3の被写体画像Ｇ3とを含む動画である。すなわち、合成処理は、複数の被写体画像Ｇ1～Ｇ3を合成する画像処理である。

図４の音声処理部４３は、複数の音声Ａ1～Ａ3を混合することで合成音声Ａを生成する。各音声Ａ1～Ａ3の混合比は、例えば操作装置３４に対する利用者からの指示に応じて設定される。出力処理部４４は、合成動画Ｖと合成音声Ａとを含む配信コンテンツＣを生成する。第１実施形態の出力処理部４４は、配信コンテンツＣを通信装置３３から端末装置２００に配信する。

図５は、画像処理部４２の具体的な構成を例示するブロック図である。図５に例示される通り、第１実施形態の画像処理部４２は、距離特定部４２１と被写体抽出部４２２と被写体選択部４２３と画像調整部４２４とを具備する。

距離特定部４２１は、複数の動画Ｖ1～Ｖ3の各々について撮像距離Ｄnを特定する。前述の通り、撮像距離Ｄnは、撮像装置２１-nと被写体Ｑnとの間の距離である。

第１実施形態の距離特定部４２１は、動画Ｖn内の距離指標を検出することで撮像距離Ｄnを特定する。距離指標は、撮像距離Ｄnの特定のために各被写体Ｑnに事前に付加されたマーカーである。複数の被写体Ｑ1～Ｑ3には共通のサイズの距離指標が付加される。したがって、撮像距離Ｄnが大きいほど動画Ｖn内の距離指標のサイズは小さいという相関がある。以上の相関を利用して、距離特定部４２１は、各動画Ｖn内における距離指標のサイズに応じて撮像距離Ｄnを推定する。例えば、動画Ｖn内の距離指標のサイズが大きいほど撮像距離Ｄnが小さい数値となるように、距離特定部４２１は動画Ｖnの解析により撮像距離Ｄnを推定する。なお、距離指標が被写体Ｑnに直接的に付与される必要は必ずしもない。例えば、収録スタジオＲn内において被写体Ｑnの撮像距離Ｄnと同等の距離の地点に、距離指標が設置されてもよい。

被写体抽出部４２２は、複数の動画Ｖ1～Ｖ3の各々から被写体画像Ｇnを抽出する。具体的には、被写体抽出部４２２は、各動画Ｖnから特定色の背景（例えばグリーンバックまたはブルーバック）に対応する領域を除去することで、被写体画像Ｇnを抽出する。なお、被写体画像Ｇnの抽出済の動画Ｖnを動画取得部４１が取得する形態においては、被写体抽出部４２２は省略されてよい。

被写体選択部４２３は、複数の被写体Ｑ1～Ｑ3の何れかを基準被写体Ｑrefとして選択する。基準被写体Ｑrefは、複数の被写体Ｑ1～Ｑ3のうち配信コンテンツＣの視聴者が注目すべき被写体Ｑnである。利用者は、再生装置３５が再生する配信コンテンツＣを視聴しながら操作装置３４を操作することで、複数の被写体Ｑ1～Ｑ3の何れかを指定する。被写体選択部４２３は、複数の被写体Ｑ1～Ｑ3のうち利用者が操作装置３４に対する操作により指定した被写体Ｑnを、基準被写体Ｑrefとして選択する。なお、被写体選択部４２３による基準被写体Ｑrefの選択は、複数の動画Ｖ1～Ｖ3の何れかの選択、または、複数の撮像装置２１-1～２１-3の何れかの選択とも換言される。

画像調整部４２４は、調整処理を実行する。調整処理は、複数の被写体画像Ｇ1～Ｇ3の各々を撮像距離Ｄnに応じて調整する画像処理である。第１実施形態の調整処理は、ぼかし処理と重畳処理とを含む。

［ぼかし処理］
ぼかし処理は、各被写体画像Ｇnをぼかす加工処理である。すなわち、ぼかし処理により、被写体画像Ｇnの輪郭または境界は曖昧な状態に変化する。具体的には、ぼかし処理は、被写体画像Ｇnを構成する各画素の画素値を、当該画素を含む所定の範囲（以下「処理範囲」という）内における複数の画素値の平均値（例えば単純平均または加重平均）に置換するフィルタ処理である。処理範囲は、例えば置換対象となる１個の画素を中心とする矩形状の範囲である。処理範囲が大きいほど、被写体画像Ｇnがぼける程度は増加する。ぼかし処理は、撮像装置における光学系の合焦面から離間した被写体に光学的に発生するぼけを模擬する画像処理である。

図６は、ぼかし処理の説明図である。ぼかし処理においては、ぼかし量Ｂn（Ｂ1～Ｂ3）が制御される。ぼかし量Ｂnは、被写体画像Ｇnをぼかす程度を表す画像パラメータである。具体的には、ぼかし量Ｂnは、ぼかし処理における処理範囲のサイズを指定する非負値である。図６に例示される通り、ぼかし量Ｂnが大きいほど処理範囲は拡大し、結果的に被写体画像Ｇnがぼける程度は増加する。ぼかし量Ｂnのゼロは、被写体画像Ｇnをぼかさないことを意味する。

第１実施形態の画像調整部４２４は、被写体画像Ｇn毎にぼかし量Ｂnを個別に制御する。具体的には、画像調整部４２４は、各被写体Ｑnの撮像距離Ｄnに応じて被写体画像Ｇnのぼかし量Ｂnを調整する。以上の説明から理解される通り、ぼかし処理は、各撮像距離Ｄnに応じて各被写体Ｑnの画像パラメータ（ぼかし量Ｂn）を調整する加工処理の一例である。

図７は、撮像距離Ｄnとぼかし量Ｂnとの関係を表す説明図である。図７の横軸は撮像距離Ｄnであり、縦軸はぼかし量Ｂnである。図７の基準値Ｄrefは、撮像距離Ｄnの基準となる数値である。具体的には、画像調整部４２４は、被写体選択部４２３が選択した基準被写体Ｑrefに対応する撮像距離Ｄnを基準値Ｄrefとして設定する。以上の通り、基準値Ｄrefは、複数の被写体Ｑ1～Ｑ3の何れか（基準被写体Ｑref）に対応する撮像距離Ｄnである。基準値Ｄrefは、撮像装置における光学系の合焦面に相当する。

図７から理解される通り、画像調整部４２４は、撮像距離Ｄnが合焦範囲Ｐ0内の数値である場合にはぼかし量Ｂnをゼロに設定する。合焦範囲Ｐ0は、基準値Ｄrefを含む範囲である。例えば、基準値Ｄrefを中心とする所定幅の範囲が合焦範囲Ｐ0として設定される。合焦範囲Ｐ0は、現実の撮像装置において実質的に合焦していると見做せる被写界深度に相当する。

図７から理解される通り、画像調整部４２４は、合焦範囲Ｐ0の外側において、基準値Ｄrefと各被写体Ｑnの撮像距離Ｄnとの差異|Ｄref－Ｄn|が大きいほど、被写体画像Ｇnのぼかし量Ｂnを大きい数値に設定する。具体的には、ぼかし量Ｂnは、撮像距離Ｄnに対して直線的に変化する。

撮像距離Ｄnの数値として距離Ｄa1と距離Ｄa2とを想定する。距離Ｄa1および距離Ｄa2は、合焦範囲Ｐ0の下限値ｒaを下回る範囲Ｐa内の数値である。距離Ｄa2と基準値Ｄrefとの差異は、距離Ｄa1と基準値Ｄrefとの差異を上回る（|Ｄref－Ｄa2|＞|Ｄref－Ｄa1|）。画像調整部４２４は、撮像距離Ｄnが距離Ｄa1である場合に、被写体画像Ｇnのぼかし量Ｂnを設定値Ｂa1に設定する。他方、画像調整部４２４は、撮像距離Ｄnが距離Ｄa2である場合に、被写体画像Ｇnのぼかし量Ｂnを、設定値Ｂa1を上回る設定値Ｂa2に設定する。なお、距離Ｄa1は「第１距離」の一例であり、距離Ｄa2は「第２距離」の一例である。また、設定値Ｂa1は「第１設定値」の一例であり、設定値Ｂa2は「第２設定値」の一例である。

同様に、撮像距離Ｄnの数値として距離Ｄb1と距離Ｄb2とを想定する。距離Ｄb1および距離Ｄb2は、合焦範囲Ｐ0の上限値ｒbを上回る範囲Ｐb内の数値である。距離Ｄb2と基準値Ｄrefとの差異は、距離Ｄb1と基準値Ｄrefとの差異を上回る（|Ｄref－Ｄb2|＞|Ｄref－Ｄb1|）。画像調整部４２４は、撮像距離Ｄnが距離Ｄb1である場合に、被写体画像Ｇnのぼかし量Ｂnを設定値Ｂb1に設定する。他方、画像調整部４２４は、撮像距離Ｄnが距離Ｄb2である場合に、被写体画像Ｇnのぼかし量Ｂnを、設定値Ｂb1を上回る設定値Ｂb2に設定する。なお、距離Ｄb1は「第１距離」の一例であり、距離Ｄb2は「第２距離」の一例である。また、設定値Ｂb1は「第１設定値」の一例であり、設定値Ｂb2は「第２設定値」の一例である。

図８から図１０は、各被写体画像Ｇnのぼかし量Ｂnに着目した合成動画Ｖの模式図である。図８から図１０においては、複数の被写体画像Ｇ1～Ｇ3が合成された合成動画Ｖが例示されている。

図８においては、被写体Ｑ2が基準被写体Ｑrefとして選択された場合が想定されている。被写体Ｑ2の撮像距離Ｄ2が基準値Ｄrefに設定され、結果的に被写体画像Ｇ2のぼかし量Ｂ2はゼロに設定される。すなわち、被写体画像Ｇ2は輪郭または境界が明瞭な状態に維持される。他方、被写体Ｑ1の撮像距離Ｄ1は合焦範囲Ｐ0の下限値ｒaを下回る。撮像距離Ｄ1に対応するぼかし量Ｂ1が被写体画像Ｇ1のぼかし処理に適用される結果、合成動画Ｖにおける被写体画像Ｇ1は被写体画像Ｇ2と比較してぼけた画像となる。同様に、被写体Ｑ3の撮像距離Ｄ3は合焦範囲Ｐ0の上限値ｒbを上回る。撮像距離Ｄ3に対応するぼかし量Ｂ3が被写体画像Ｇ3のぼかし処理に適用される結果、合成動画Ｖにおける被写体画像Ｇ3は被写体画像Ｇ2と比較してぼけた画像となる。以上の通り、図８の合成動画Ｖは、被写体Ｑ2に合焦した状態で撮像された動画のように知覚される。すなわち、被写体Ｑ1には前ぼけが付与され、被写体Ｑ3には後ぼけが付与される。したがって、配信コンテンツＣの視聴者は、被写体Ｑ2に注目し易い。

図９においては、被写体Ｑ1が基準被写体Ｑrefとして選択された場合が想定されている。したがって、被写体画像Ｇ1は輪郭または境界が明瞭な状態に維持され、被写体画像Ｇ2および被写体画像Ｇ3はぼけた画像となる。撮像距離Ｄ3は範囲Ｐb内で撮像距離Ｄ2を上回るから、被写体画像Ｇ3のぼかし量Ｂ3は被写体画像Ｇ2のぼかし量Ｂ2を上回る。すなわち、被写体画像Ｇ3は被写体画像Ｇ2と比較してぼけた画像となる。以上の通り、被写体画像Ｇ1は他の被写体画像Ｇn（Ｇ2，Ｇ3）と比較して明瞭に表示されるから、配信コンテンツＣの視聴者は被写体Ｑ1に注目し易い。

図１０においては、被写体Ｑ3が基準被写体Ｑrefとして選択された場合が想定されている。したがって、被写体画像Ｇ3は輪郭または境界が明瞭な状態に維持され、被写体画像Ｇ1および被写体画像Ｇ2はぼけた画像となる。撮像距離Ｄ1は範囲Ｐa内で撮像距離Ｄ2を下回るから、被写体画像Ｇ1のぼかし量Ｂ1は被写体画像Ｇ2のぼかし量Ｂ2を上回る。すなわち、被写体画像Ｇ1は被写体画像Ｇ2と比較してぼけた画像となる。以上の通り、被写体画像Ｇ3は他の被写体画像Ｇn（Ｇ1，Ｇ2）と比較して明瞭に表示されるから、配信コンテンツＣの視聴者は被写体Ｑ3に注目し易い。

［重畳処理］
重畳処理は、複数の被写体画像Ｇ1～Ｇ3を相互に重畳する画像処理である。重畳処理において、画像調整部４２４は、複数の被写体画像Ｇ1～Ｇ3の前後を、各撮像距離Ｄnに応じて制御する。具体的には、撮像距離Ｄnが大きいほど被写体画像Ｇnが奥側に位置するように、各被写体画像Ｇnの前後が調整される。

例えば、図８から図１０においては、被写体画像Ｇ1と被写体画像Ｇ2とが部分的に重複し、被写体画像Ｇ2と被写体画像Ｇ3とが部分的に重複する場合が想定されている。前述の通り、撮像距離Ｄ1は撮像距離Ｄ2を下回る。したがって、画像調整部４２４は、重畳処理において、被写体画像Ｇ1が被写体画像Ｇ2の手前に位置するように各被写体画像Ｇnを重畳する。すなわち、被写体画像Ｇ2のうち被写体画像Ｇ1と重複する部分は、被写体画像Ｇ1の背後に隠れる。

また、撮像距離Ｄ2は撮像距離Ｄ3を下回る。したがって、画像調整部４２４は、重畳処理において、被写体画像Ｇ2が被写体画像Ｇ3の手前に位置するように各被写体画像Ｇnを重畳する。すなわち、被写体画像Ｇ3のうち被写体画像Ｇ2と重複する部分は、被写体画像Ｇ2の背後に隠れる。図８から図１０の例示の通り、第１実施形態においては、各被写体画像Ｇnの前後が撮像距離Ｄnに応じて制御される。したがって、各被写体Ｑnの現実の位置が各被写体画像Ｇnの前後に反映された自然な合成動画Ｖを生成できる。

以上に説明した通り、画像調整部４２４が実行するぼかし処理および重畳処理は、各撮像距離Ｄnに応じて各被写体画像Ｇnを調整する調整処理の例示である。いま、被写体Ｑn1と被写体Ｑn2とに着目する（ｎ1＝１～３，ｎ2＝１～３，ｎ1≠ｎ2）。調整処理は、撮像装置２１-n1の撮像距離Ｄn1と撮像装置２１-n2の撮像距離Ｄn2とに応じて被写体画像Ｇn1と被写体画像Ｇn2とを調整する処理として包括的に表現される。

撮像装置２１-n1は「第１撮像装置」の一例であり、撮像距離Ｄn1は「第１撮像距離」の一例である。撮像装置２１-n2は「第２撮像装置」の一例であり、撮像距離Ｄn2は「第２撮像距離」の一例である。また、被写体画像Ｇn1は「第１被写体の画像」の一例であり、被写体画像Ｇn2は「第２被写体の画像」の一例である。動画Ｖn1は「第１動画」の一例であり、動画Ｖn2は「第２動画」の一例である。収録スタジオＲn1は「第１現実空間」の一例であり、収録スタジオＲn2は「第２現実空間」の一例である。

図１１は、動画合成システム３０の動作のフローチャートである。図１１の動作は、例えば操作装置３４に対する利用者からの指示を契機として開始され、以降は所定の周期で反復される。

制御装置３１（動画取得部４１）は、複数の素材データＭ1～Ｍ3を取得する（Ｓ1）。制御装置３１（画像処理部４２）は、合成処理Ｓ2を実行することで合成動画Ｖを生成する。また、制御装置３１（音声処理部４３）は、複数の音声Ａ1～Ａ3を混合することで合成音声Ａを生成する（Ｓ3）。なお、合成動画Ｖの生成（Ｓ2）と合成音声Ａの生成（Ｓ3）との順序は反転されてもよい。制御装置３１（出力処理部４４）は、合成動画Ｖと合成音声Ａとを含む配信コンテンツＣを生成し（Ｓ4）、配信コンテンツＣを端末装置２００に配信する（Ｓ5）。

図１２は、図１１における合成処理Ｓ2のフローチャートである。合成処理Ｓ2が開始されると、制御装置３１（距離特定部４２１）は、複数の動画Ｖ1～Ｖ3の各々について撮像距離Ｄnを特定する（Ｓ21）。制御装置３１（被写体抽出部４２２）は、複数の動画Ｖ1～Ｖ3の各々から被写体画像Ｇnを抽出する（Ｓ22）。なお、撮像距離Ｄnの特定（Ｓ21）と被写体画像Ｇnの抽出（Ｓ22）との順序は反転されてもよい。

制御装置３１（被写体選択部４２３）は、複数の被写体Ｑ1～Ｑ3の何れかを基準被写体Ｑrefとして選択する（Ｓ23）。具体的には、操作装置３４に対する操作で指定された被写体Ｑnが基準被写体Ｑrefとして選択される。なお、利用者は、合成処理Ｓ2の過程における任意の時点で所望の被写体Ｑnを基準被写体Ｑrefとして指定できる。したがって、配信コンテンツＣの再生中の任意の時点において、基準被写体Ｑrefは変更され得る。

制御装置３１（画像調整部４２４）は、調整処理を実行する（Ｓ24，Ｓ25）。具体的には、制御装置３１は、ぼかし処理Ｓ24と重畳処理Ｓ25とを実行することで、合成動画Ｖを生成する。すなわち、合成処理Ｓ2は、各撮像距離Ｄnに応じて各被写体画像Ｇnを調整する調整処理（Ｓ24，Ｓ25）を含む。

以上に説明した通り、第１実施形態においては、複数の動画Ｖ1～Ｖ3を合成する合成処理Ｓ2において、各撮像距離Ｄnに応じて被写体画像Ｇnを調整する調整処理が実行される。すなわち、図８から図１０の例示の通り、各撮像距離Ｄnの関係が合成動画Ｖにおける各被写体画像Ｇnの関係に反映される。したがって、相異なる収録スタジオＲnに所在する複数の被写体Ｑ1～Ｑ3を含む自然な合成動画Ｖを生成できる。第１実施形態においては特に、各被写体Ｑnの画像パラメータであるぼかし量Ｂnが撮像距離Ｄnに応じて調整される。したがって、複数の被写体Ｑ1～Ｑ3を含む自然な合成動画Ｖを生成できるという効果は格別に顕著である。

第１実施形態においては特に、各被写体画像Ｇnにおけるぼかし量Ｂnが撮像距離Ｄnに応じて相違するようにぼかし処理Ｓ24が実行される。したがって、撮像距離Ｄnに応じて光学的なぼけの度合が変化する現実の撮像の傾向が模擬された自然な合成動画Ｖを生成できる。

また、撮像距離Ｄnとの基準値Ｄrefとの差異が増加するほど、被写体画像Ｇnのぼかし処理Ｓ24に適用されるぼかし量Ｂnが増加する。したがって、基準値Ｄrefに対応する地点に位置する合焦面から奥行方向（前後方向）に離間するほど被写体の光学的なぼけが増加する、という現実の撮像の傾向が忠実に模擬された自然な合成動画Ｖを生成できる。

第１実施形態においては、複数の被写体Ｑ1～Ｑ3の何れか（基準被写体Ｑref）に対応する撮像距離Ｄnを基準値Ｄrefとして各被写体画像Ｇnのぼかし量Ｂnが設定される。したがって、基準被写体Ｑrefを基準として各被写体画像Ｇnのぼかし量Ｂnが設定された自然な合成動画Ｖを生成できる。また、複数の被写体Ｑ1～Ｑ3のうち基準被写体Ｑrefが特に注目され易い合成動画Ｖを生成できる。

［第２実施形態］
第２実施形態を説明する。なお、以下に例示する各態様において機能が第１実施形態と同様である要素については、第１実施形態の説明と同様の符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態においては、被写体選択部４２３が、利用者からの指示に応じて基準被写体Ｑrefを選択する形態を例示した。第２実施形態の被写体選択部４２３は、複数の素材データＭ1～Ｍ3を解析した結果に応じて、複数の被写体Ｑ1～Ｑ3から基準被写体Ｑrefを選択する（Ｓ23）。被写体選択部４２３が基準被写体Ｑrefを選択する方法としては、例えば以下の態様１または態様２が採用される。

［態様１］
態様１の被写体選択部４２３は、複数の動画Ｖ1～Ｖ3を解析した結果に応じて基準被写体Ｑrefを選択する。例えば、複数の被写体Ｑ1～Ｑ3のうち特に動作している被写体Ｑnを視聴者は特に注目すべきという概略的な傾向がある。以上の傾向を考慮して、被写体選択部４２３は、複数の被写体Ｑ1～Ｑ3のうち時間的な変化が大きい動画Ｖnに対応する被写体Ｑnを、基準被写体Ｑrefとして選択する。

具体的には、被写体選択部４２３は、複数の動画Ｖ1～Ｖ3の各々について画像の時間的な変化量を算定し、変化量が大きい動画Ｖnに対応する被写体Ｑnを、基準被写体Ｑrefとして選択する。以上の形態によれば、複数の被写体Ｑ1～Ｑ3のうち動作が顕著な被写体Ｑnが、基準被写体Ｑrefとして選択される。なお、変化量は、動画Ｖnの全体の解析により算定されてもよいし、動画Ｖnのうち被写体画像Ｇnの解析により算定されてもよい。

複数の被写体Ｑ1～Ｑ3の各々が順次に動作する場面においては、複数の被写体Ｑ1～Ｑ3のうち動作が顕著な被写体Ｑnは経時的に変化する。したがって、合成動画Ｖの任意の時点において基準被写体Ｑrefは変更される。例えば、被写体Ｑn1が動作する状態から被写体Ｑn2が動作する状態に遷移した場合、基準被写体Ｑrefは被写体Ｑn1から被写体Ｑn2に変更される。すなわち、合成動画Ｖにおいて明瞭に表示される被写体画像Ｇnは、時間の経過とともに随時に切替わる。

［態様２］
態様２の被写体選択部４２３は、複数の音声Ａ1～Ａ3を解析した結果に応じて基準被写体Ｑrefを選択する。例えば、複数の被写体Ｑ1～Ｑ3のうち発言している被写体Ｑnを視聴者は特に注目すべきという概略的な傾向がある。以上の傾向を考慮して、被写体選択部４２３は、複数の被写体Ｑ1～Ｑ3のうち音量が大きい音声Ａnに対応する被写体Ｑnを、基準被写体Ｑrefとして選択する。

具体的には、被写体選択部４２３は、複数の音声Ａ1～Ａ3の各々について音量を算定し、音量が大きい音声Ａnに対応する被写体Ｑnを、基準被写体Ｑrefとして選択する。以上の形態によれば、複数の被写体Ｑ1～Ｑ3のうち発言中の被写体Ｑnが、基準被写体Ｑrefとして選択される。

複数の被写体Ｑ1～Ｑ3の各々が順次に発言する場面においては、音声Ａnの音量が大きい被写体Ｑnは経時的に変化する。したがって、合成動画Ｖの任意の時点において基準被写体Ｑrefは変更される。例えば、被写体Ｑn1が発言する状態から被写体Ｑn2が発言する状態に遷移した場合、基準被写体Ｑrefは被写体Ｑn1から被写体Ｑn2に変更される。すなわち、合成動画Ｖにおいて明瞭に表示される被写体画像Ｇnは、時間の経過とともに随時に切替わる。

態様１および態様２の説明から理解される通り、第２実施形態の被写体選択部４２３は、複数の素材データＭ1～Ｍ3（動画Ｖ1～Ｖ3または音声Ａ1～Ａ3）を解析した結果に応じて、複数の被写体Ｑ1～Ｑ3から基準被写体Ｑrefを選択する要素として表現される。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態においては、複数の素材データＭ1～Ｍ3を解析した結果に応じて複数の被写体Ｑ1～Ｑ3から基準被写体Ｑrefが選択される。したがって、利用者による指示を必要とせずに、配信コンテンツＣにおいて視聴者が特に注目すべき適切な被写体Ｑnを、基準被写体Ｑrefとして選択できる。なお、各素材データＭnの解析の結果に応じた基準被写体Ｑrefの選択（第２実施形態）と、利用者からの指示に応じた基準被写体Ｑrefの選択（第１実施形態）とは併用されてもよい。

［第３実施形態］
図１３は、第３実施形態における画像処理部４２のブロック図である。第３実施形態の画像処理部４２は、第１実施形態と同様の要素（距離特定部４２１、被写体抽出部４２２、被写体選択部４２３および画像調整部４２４）に加えて画像生成部４２５を含む。画像生成部４２５は、仮想動画Ｖzを生成する。

図１４は、仮想動画Ｖzの説明図である。仮想動画Ｖzは、仮想空間Ｚの動画である。仮想空間Ｚは、複数の仮想オブジェクトＯm（ｍ＝１，２）が配置された仮想的な空間である。すなわち、仮想空間Ｚは、収録スタジオＲn等の現実の空間とは別個の空間であり、コンピュータによる情報処理で生成される空間である。各仮想オブジェクトＯmは、例えば演出または装飾のために仮想空間Ｚ内に配置された仮想的な表示要素である。なお、図１４においては、仮想空間Ｚ内で活動する仮想的な生物を、仮想オブジェクトＯmとして例示した。ただし、仮想空間Ｚ内の建造物や自然物等の無生物的な要素が、仮想オブジェクトＯmとして仮想空間Ｚ内に配置されてもよい。

仮想空間Ｚ内には仮想的な撮像装置（以下「仮想撮像装置」という）が設置される。仮想撮像装置は、仮想空間Ｚを撮像する仮想カメラである。画像生成部４２５が生成する仮想動画Ｖzは、仮想撮像装置により仮想空間Ｚを撮像した動画である。仮想動画Ｖzの生成には、例えば３Ｄレンダリング等の各種の画像処理が利用される。なお、仮想動画Ｖzを表すデータの形式は任意である。

仮想オブジェクトＯm毎に仮想撮像距離Ｅmが設定される。仮想撮像距離Ｅmは、仮想空間Ｚ内における仮想撮像装置と仮想オブジェクトＯmとの間の距離である。図１４においては、仮想オブジェクトＯ2の仮想撮像距離Ｅ2が仮想オブジェクトＯ1の仮想撮像距離Ｅ1を上回る場合が想定されている（Ｅ2＞Ｅ1）。

図１５は、第３実施形態における合成処理Ｓ2のフローチャートである。第３実施形態の合成処理Ｓ2において、制御装置３１（画像生成部４２５）は、仮想動画Ｖzを生成する（Ｓ26）。なお、仮想動画Ｖzの生成（Ｓ26）は、調整処理（Ｓ24，Ｓ25）の開始前の任意の段階で実行されてよい。

第３実施形態の合成処理Ｓ2は、複数の被写体画像Ｇ1～Ｇ3と仮想動画Ｖzとの合成により合成動画Ｖを生成する画像処理である。図１６は、第３実施形態における合成動画Ｖの模式図である。図１６に例示される通り、合成動画Ｖは、複数の被写体画像Ｇ1～Ｇ3と複数の仮想オブジェクトＯm（Ｏ1，Ｏ2）とを含む。

第３実施形態の調整処理（Ｓ24，Ｓ25）においては、第１実施形態と同様に各被写体画像Ｇnが撮像距離Ｄnに応じて調整されるほか、各仮想オブジェクトＯmが仮想撮像距離Ｅmに応じて調整される。

具体的には、ぼかし処理Ｓ24において、画像調整部４２４は、各被写体画像Ｇnを撮像距離Ｄnに応じたぼかし量Ｂnによりぼかすほか、各仮想オブジェクトＯmを仮想撮像距離Ｅmに応じたぼかし量Ｂmによりぼかす。仮想撮像距離Ｅmは、撮像距離Ｄnと同様にぼかし量Ｂmの制御に利用される。例えば、画像調整部４２４は、合焦範囲Ｐ0の外側において、基準値Ｄrefと各仮想オブジェクトＯmの仮想撮像距離Ｅmとの差異|Ｄref－Ｅm|が大きいほど、仮想オブジェクトＯmのぼかし量Ｂmを大きい数値に設定する。以上に例示した制御の結果、図１６に例示される通り、各仮想オブジェクトＯmは仮想撮像距離Ｅmに応じてぼけた画像となる。

また、重畳処理Ｓ25において、画像調整部４２４は、仮想空間Ｚ内における各被写体画像Ｇnの前後を撮像距離Ｄnに応じて制御するほか、仮想空間Ｚ内における各仮想オブジェクトＯmの前後を仮想撮像距離Ｅmに応じて制御する。具体的には、仮想撮像距離Ｅmが大きいほど仮想オブジェクトＯmが奥側に位置するように、各仮想オブジェクトＯmの前後が調整される。

例えば、図１６においては、仮想オブジェクトＯ1の仮想撮像距離Ｅ1が被写体画像Ｇ1の撮像距離Ｄ1と被写体画像Ｇ2の撮像距離Ｄ2との間の数値である場合が想定されている（Ｄ1＜Ｅ1＜Ｄ2）。したがって、画像調整部４２４は、被写体画像Ｇ1を仮想オブジェクトＯ1の手前に配置し、かつ、仮想オブジェクトＯ1を被写体画像Ｇ2の手前に配置する。すなわち、仮想オブジェクトＯ1のうち被写体画像Ｇ1と重複する部分は、被写体画像Ｇ1の背後に隠れ、被写体画像Ｇ2のうち仮想オブジェクトＯ1と重複する部分は、仮想オブジェクトＯ1の背後に隠れる。同様に、被写体画像Ｇ2は仮想オブジェクトＯ2の手前に位置し、仮想オブジェクトＯ2は被写体画像Ｇ3の手前に位置する。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態においては、収録スタジオＲnにおいて撮像された被写体画像Ｇnと仮想空間Ｚ内の仮想オブジェクトＯmとが重畳される。したがって、現実の被写体Ｑnだけでなく仮想オブジェクトＯmを含む多様な合成動画Ｖを生成できる。しかも、仮想撮像距離Ｅmに応じて仮想オブジェクトＯmが調整される。したがって、仮想撮像距離Ｅmが反映されない形態と比較して、仮想オブジェクトＯmが各被写体Ｑnと同じ空間に所在するような自然な合成動画Ｖを生成できる。

なお、被写体選択部４２３が選択する基準被写体Ｑrefの候補に仮想オブジェクトＯmが含まれてもよい。例えば、被写体選択部４２３は、複数の被写体Ｑ1～Ｑ3と複数の仮想オブジェクトＯ1，Ｏ2とを含む複数の候補（以下「候補被写体」という）から基準被写体Ｑrefを選択する。具体的には、被写体選択部４２３は、複数の候補被写体のうち利用者が操作装置３４に対する操作により指定した候補被写体を、基準被写体Ｑrefとして選択する。したがって、仮想オブジェクトＯmが基準被写体Ｑrefとして選択され、当該仮想オブジェクトＯmの仮想撮像距離Ｅmが基準値Ｄrefとして設定される場合がある。

また、仮想オブジェクトＯmを含む複数の候補被写体から基準被写体Ｑrefが選択される形態には、第２実施形態の態様１が適用されてもよい。具体的には、被写体選択部４２３は、複数の動画Ｖ1～Ｖ3と仮想動画Ｖzとを解析した結果に応じて基準被写体Ｑrefを選択する。例えば、被写体選択部４２３は、複数の動画Ｖ1～Ｖ3と各仮想オブジェクトＯmの動画とを含む複数の動画のうち、時間的な変化が大きい動画から基準被写体Ｑrefを選択する。したがって、仮想オブジェクトＯmの動画の変化量が各動画Ｖnの変化量を上回る場合、被写体選択部４２３は、仮想オブジェクトＯmを基準被写体Ｑrefとして選択する。

また、仮想オブジェクトＯmが音声を発音する形態においては、第２実施形態の態様２が適用されてもよい。具体的には、被写体選択部４２３は、複数の音声Ａ1～Ａ3と仮想動画Ｖzに対応する音声とを解析した結果に応じて基準被写体Ｑrefを選択する。例えば、被写体選択部４２３は、複数の音声Ａ1～Ａ3と各仮想オブジェクトＯmの音声とを含む複数の音声のうち、音量が大きい音声に対応する被写体Ｑnまたは仮想オブジェクトＯmを、基準被写体Ｑrefとして選択する。したがって、仮想オブジェクトＯmが音量で発音している場合、被写体選択部４２３は、仮想オブジェクトＯmを基準被写体Ｑrefとして選択する。

［第４実施形態］
図１７は、第４実施形態における動画合成システム３０の機能的な構成を例示するブロック図である。第４実施形態の制御装置３１は、第１実施形態と同様の要素（動画取得部４１、画像処理部４２、音声処理部４３および出力処理部４４）に加えて撮像制御部４５としても機能する。撮像制御部４５は、複数の撮像装置２１-1～２１-3を制御する。

第４実施形態の各撮像装置２１-nは、動画Ｖnを撮像する条件（以下「撮像条件」という）を変更可能なＰＴＺ（Panoramac-Tilt-Zoom）カメラである。撮像条件は、撮像装置２１-nが撮像する範囲を規定する条件である。例えば、撮像方向および撮像倍率が撮像条件として例示される。撮像方向は、撮影レンズの光軸の方向であり、例えば水平方向（パン）および垂直方向（チルト）に変化する。撮像倍率は、例えば焦点距離に応じた倍率（ズーム）である。

撮像制御部４５は、操作装置３４に対する利用者からの操作に応じて各撮像装置２１-nを制御する。利用者は、再生装置３５が再生する配信コンテンツＣを視聴しながら操作装置３４を操作することで、各撮像装置２１-nの撮像条件を指示する。撮像制御部４５は、利用者が指示した撮像条件を指定する制御データＸを生成する。制御データＸは、撮像方向および撮像倍率を指定するデータである。例えば、制御データＸは、現時点の数値に対する変化量（相対値）、または所定値を基準とした絶対値として、撮像方向および撮像倍率を指定する。なお、制御データＸの時系列が記憶装置３２に事前に記憶されてもよい。

撮像制御部４５は、複数の収録システム２０-1～２０-3に対して制御データＸを通信装置３３から送信する。すなわち、複数の撮像装置２１-1～２１-3に対して共通の制御データＸが供給される。各撮像装置２１-nは同機種であり、動作特性等の仕様は相互に共通する。したがって、複数の撮像装置２１-1～２１-3は、制御データＸに対して同様に動作する。すなわち、撮像制御部４５による制御データＸの供給により、複数の撮像装置２１-1～２１-3は共通の撮像条件に制御される。

撮像制御部４５は、複数の収録システム２０-1～２０-3に対して時間的に並列に制御データＸを送信する。すなわち、複数の撮像装置２１-1～２１-3に対して制御データＸが時間的に並列に供給される。したがって、各撮像装置２１-nの撮像条件は、制御データＸに応じて時間的に並列に変化する。

以上の説明から理解される通り、撮像制御部４５は、複数の撮像装置２１-1～２１-3を、共通の撮像条件のもとで、時間的に相互に並列に動作させる。例えば、撮像装置２１-1の撮像方向が特定の角度だけ変化する場合、撮像装置２１-1の撮像方向の変化に並行して、撮像装置２１-2および撮像装置２１-3の撮像方向も同じ角度だけ変化する。また、撮像装置２１-1の撮像倍率が所定の倍率に変化する場合、撮像装置２１-1の撮像倍率の変化に並行して、撮像装置２１-2および撮像装置２１-3の撮像倍率も同じ倍率に変化する。すなわち、複数の撮像装置２１-1～２１-3の撮像条件が相互に連動して共通の条件に変化する。

第４実施形態においても第１実施形態と同様の効果が実現される。また、各撮像装置２１-nによる動画Ｖnの撮像が共通の撮像条件のもとで実行される。したがって、実際には相異なる収録スタジオＲnに所在する複数の被写体Ｑ1～Ｑ3が恰も共通の空間内に所在するかのように視聴者に知覚される自然な合成動画Ｖを生成できる。

なお、第２実施形態および第３実施形態は、第４実施形態にも同様に適用される。例えば、仮想動画Ｖzを複数の動画Ｖ1～Ｖ3に合成する第３実施形態において、画像生成部４２５は、仮想撮像装置が仮想動画Ｖzを撮像するための撮像条件を、各撮像装置２１-nの撮像条件に連動させてもよい。すなわち、複数の撮像装置２１-1～２１-3と仮想撮像装置とが、共通の撮像条件のもとで時間的に相互に並列に動作してもよい。

［変形例］
以上に例示した各形態は多様に変形され得る。前述の各形態に適用され得る具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を、相互に矛盾しない範囲で併合してもよい。

（１）前述の各形態においては、距離指標を利用して撮像距離Ｄnを特定したが、各被写体Ｑnの撮像距離Ｄnを特定する方法は、以上の例示に限定されない。例えば、以下に例示する態様１または態様２により、撮像距離Ｄnが特定されてもよい。

［態様１］
距離特定部４２１は、各被写体Ｑnに対する顔検出の結果に応じて撮像距離Ｄnを特定してもよい。例えば、距離特定部４２１は、動画Ｖnに対する顔検出の結果を利用して、被写体Ｑnの顔面の各要素に関するサイズの指標（以下「評価指標」という）を算定する。顔検出は、被写体Ｑnの顔面を検出する処理である。例えば、顔面のサイズまたは両眼間の距離等の数値が、評価指標として算定される。

撮像距離Ｄnが大きいほど評価指標は減少するという相関がある。以上の相関を考慮して、距離特定部４２１は、評価指標に応じて撮像距離Ｄnを特定する。例えば、距離特定部４２１は、評価指標が基準値と比較して大きいほど撮像距離Ｄnを小さい数値に設定し、評価指標が基準値と比較して小さいほど撮像距離Ｄnを大きい数値に設定する。なお、顔面の各要素に関するサイズには個人差があるから、評価指標の基準値は被写体Ｑn毎に個別に用意されることが望ましい。例えば、撮像距離Ｄnが所定値である状態で算定された評価指標が、基準値として記憶装置３２に事前に記憶される。

なお、以上の説明においては被写体Ｑnの顔検出を例示したが、距離特定部４２１は、被写体Ｑnに対する骨格推定の結果を利用して、撮像距離Ｄnの特定のための評価指標を算定してもよい。骨格推定は、被写体Ｑnについて関節等の骨格を推定する処理である。例えば、特定の関節間の距離（例えば腕の長さ）または比率が評価指標として算定される。距離特定部４２１は、骨格に関する評価指標に応じて撮像距離Ｄnを特定する。なお、骨格には個人差があるから、評価指標の基準値は被写体Ｑn毎に個別に用意されてもよい。

［態様２］
撮像装置２１-nによる撮像時に測距装置が撮像距離Ｄnを測定する形態においては、距離特定部４２１は、測距装置が測定した撮像距離Ｄnを取得する。測距装置は、例えば赤外光または紫外光等の測距光を利用した光学的なセンサである。測距装置は、例えばＬｉＤＡＲ（Light Detection and Ranging）機能を具備する。また、撮像装置２１-nの自動焦点機能により撮像距離Ｄnが特定されてもよい。自動焦点機能は、被写体Ｑnに自動的に合焦する機能である。撮影レンズを制御した結果に応じて撮像距離Ｄnが特定される。

撮像距離Ｄnの特定には、態様１および態様２以外にも任意の方法が採用される。例えば、被写体Ｑnの距離指標（マーカー）を複数の撮像装置２１-nにより撮像した結果を利用して、距離特定部４２１が撮像距離Ｄnを特定してもよい。

なお、制御装置３１（距離特定部４２１）による演算処理で各被写体Ｑnの撮像距離Ｄnが特定される必要はない。例えば、各収録スタジオＲnにおいて例えばメジャー等の計測器を利用して収録前に実際に測定された撮像距離Ｄnが、被写体Ｑn毎に記憶装置３２に事前に記憶されてもよい。制御装置３１（距離特定部４２１）は、合成処理Ｓ2において、各被写体Ｑnの撮像距離Ｄnを記憶装置３２から取得する（Ｓ21）。以上の説明から理解される通り、距離特定部４２１による撮像距離Ｄnの特定（Ｓ21）には、事前に記憶された撮像距離Ｄnの読出も包含される。

（２）前述の各形態においては、撮像距離Ｄnに応じてぼかし量Ｂnを設定したが、ぼかし量Ｂnは、撮像距離Ｄn以外の制御パラメータに依存してもよい。例えば、画像調整部４２４は、撮像距離Ｄnとぼかし量Ｂnとの相関を、仮想的な絞り値（以下「仮想絞り値Ｆ」という）に応じて制御してもよい。画像調整部４２４は、例えば操作装置３４に対する利用者からの指示に応じて仮想絞り値Ｆを設定する。

図１８は、本変形例における撮像距離Ｄnとぼかし量Ｂnとの関係を表すグラフである。仮想絞り値Ｆが相異なる２個の数値（Ｆ1，Ｆ2）に設定された場合のグラフが図１８には併記されている。数値Ｆ1は数値Ｆ2を下回る。

画像調整部４２４は、仮想絞り値Ｆに応じて合焦範囲Ｐ0を制御する。具体的には、図１８に例示される通り、仮想絞り値Ｆが数値Ｆ1に設定された場合の合焦範囲Ｐ0は、仮想絞り値Ｆが数値Ｆ2（＞Ｆ1）に設定された場合の合焦範囲Ｐ0よりも狭い範囲に設定される。以上の制御により、撮影レンズの絞り値が小さいほど被写界深度が縮小する現実の傾向が模擬される。

また、画像調整部４２４は、撮像距離Ｄnに対するぼかし量Ｂnを仮想絞り値Ｆに応じて制御する。具体的には、撮像距離Ｄnが同一の数値に設定された状況でも、仮想絞り値Ｆが数値Ｆ1に設定された場合のぼかし量Ｂnは、仮想絞り値Ｆが数値Ｆ2（＞Ｆ1）に設定された場合のぼかし量Ｂnを上回る。以上の制御により、撮影レンズの絞り値が小さいほど光学的なぼけの程度が大きいという現実の傾向が模擬される。

なお、以上の説明においては仮想絞り値Ｆに着目したが、ぼかし量Ｂnに影響する制御パラメータは仮想絞り値Ｆに限定されない。例えば、画像調整部４２４は、撮像距離Ｄnとぼかし量Ｂnとの相関を、仮想的な焦点距離（以下「仮想焦点距離」という）に応じて制御してもよい。仮想焦点距離は、例えば操作装置３４に対する利用者からの指示に応じて設定される。具体的には、画像調整部４２４は、仮想焦点距離が大きいほど、合焦範囲Ｐ0を縮小し、かつ、撮像距離Ｄnに対するぼかし量Ｂnを大きい数値に設定する。以上の形態によれば、撮影レンズの焦点距離が大きいほど、被写界深度が縮小し易く、かつ、光学的なぼけが増大し易いという現実の傾向が模擬される。

以上の例示から理解される通り、前述の各形態に例示した撮像距離Ｄnと、本変形例において例示した仮想絞り値Ｆおよび仮想焦点距離とは、ぼかし量Ｂnを制御するための制御パラメータとして包括的に表現される。制御パラメータは、以上に例示した種類の変数に限定されない。

（３）撮像距離Ｄnとぼかし量Ｂnとの関係は、図７に例示した関係に限定されない。例えば、図１９に例示される通り、撮像距離Ｄnに対してぼかし量Ｂnが曲線的に変化する形態も想定される。また、図２０に例示される通り、撮像距離Ｄnに対してぼかし量Ｂnが変化しない合焦範囲Ｐ0は、省略されてもよい。

図２１に例示される通り、撮像距離Ｄnとぼかし量Ｂnとの関係が、範囲Ｐaと範囲Ｐbとで相違する形態も想定される。図２１には、撮像距離Ｄnに対するぼかし量Ｂnの勾配が、範囲Ｐaと範囲Ｐbとで相違する場合が例示されている。図２１から理解される通り、ぼかし量Ｂnの数値範囲も範囲Ｐaと範囲Ｐbとで相違する。図２１の形態によれば、基準被写体Ｑrefの手前側と奥側とで被写体Ｑnのぼけの特性を相違させることが可能である。

（４）前述の各形態においては、複数の撮像装置２１-1～２１-3において撮像条件が共通する場合を想定したが、撮像倍率等の撮像条件が撮像装置２１-n毎に相違する場合が想定される。また、各撮像装置２１-nの撮影レンズがズームレンズである形態では、撮像倍率（焦点距離）が撮像装置２１-n毎に個別に設定される場合も想定される。

各動画Ｖnにおける被写体画像Ｇnのサイズは、撮像距離Ｄnだけでなく撮像倍率等の撮像条件にも依存する。例えば、被写体Ｑn自体のサイズおよび撮像距離Ｄnが共通する場合でも、撮像装置２１-nの撮像倍率が大きいほど被写体画像Ｇnのサイズは増大する。複数の被写体画像Ｇ1～Ｇ3のサイズが自然な関係となるように、画像調整部４２４は、合成処理Ｓ2において撮像装置２１-n毎の撮像倍率の相違を補償する。すなわち、撮像倍率の相違に起因した被写体画像Ｇnのサイズの相違が低減される。

具体的には、画像調整部４２４は、撮像倍率の逆比により各被写体画像Ｇnを拡大または縮小する。例えば、撮像装置２１-n1の撮像倍率が撮像装置２１-n2の撮像倍率の２倍である場合、画像調整部４２４は、被写体画像Ｇn1のサイズを変更せずに被写体画像Ｇn2のサイズを１/２倍に調整する。あるいは、画像調整部４２４は、被写体画像Ｇn2のサイズを変更せずに被写体画像Ｇn1のサイズを２倍に調整してもよい。以上の形態によれば、撮像装置２１-n毎の撮像条件の相違が補償され、結果的に自然な合成動画Ｖを生成できる。

なお、画像調整部４２４が各撮像装置２１-nの撮像倍率を取得できない形態においては、画像調整部４２４は、撮像距離Ｄnに応じて各被写体画像Ｇnのサイズを調整してもよい。具体的には、画像調整部４２４は、各被写体画像Ｇnにおける距離指標のサイズが撮像距離Ｄnの逆比となるように、各被写体画像Ｇnのサイズを拡大または縮小する。例えば、撮像距離Ｄn2が撮像距離Ｄn1の２倍である場合、被写体画像Ｇn2における距離指標のサイズが被写体画像Ｇn1における距離指標のサイズの１/２倍となるように、被写体画像Ｇn1および被写体画像Ｇn2の一方または双方のサイズが調整される。

（５）前述の各形態においては、各収録スタジオＲnとは別個の位置に動画合成システム３０が設置された形態を例示したが、収録スタジオＲnに動画合成システム３０が設置されてもよい。また、撮像装置２１-nに動画合成システム３０が搭載されてもよい。

（６）前述の各形態においては、動画Ｖnのうち特定色の背景に対応する領域を除去することで被写体画像Ｇnを抽出したが、動画Ｖnから被写体画像Ｇnを抽出する方法は、以上の例示に限定されない。例えば、被写体抽出部４２２は、公知の物体検出処理により動画Ｖnから被写体画像Ｇnを抽出してもよい。物体検出処理としては、例えば深層ニューラルネットワーク等の推定モデルを利用した物体検出、または背景差分法等の画像処理を利用した物体検出が例示される。以上の説明から理解される通り、収録スタジオＲnの背景は特定色である必要はない。

（７）前述の各形態においては、基準被写体Ｑrefに対応する撮像距離Ｄnを基準値Ｄrefとして設定したが、基準値Ｄrefを設定する方法は、以上の例示に限定されない。例えば、操作装置３４に対する操作により利用者が任意に指示した数値が、基準値Ｄrefとして設定されてもよい。基準値Ｄrefは、利用者からの指示に応じて随時に変更される。画像調整部４２４は、利用者から指示された基準値Ｄrefをぼかし処理Ｓ24に適用する。また、進行が事前に計画されたイベントの配信コンテンツＣを制作する場合を想定すると、基準値Ｄrefの時系列が記憶装置３２に事前に記憶されてもよい。画像調整部４２４は、記憶装置３２から時系列に取得した基準値Ｄrefを順次にぼかし処理Ｓ24に適用する。

以上の例示から理解される通り、基準値Ｄrefは、基準被写体Ｑrefの撮像距離Ｄnに限定されない。すなわち、基準被写体Ｑrefの撮像距離Ｄnとは無関係に基準値Ｄrefが設定されてもよい。したがって、基準被写体Ｑrefの選択（被写体選択部４２３，Ｓ23）は、本開示において省略されてよい。

（８）前述の各形態においては、重畳処理Ｓ25において複数の被写体画像Ｇ1～Ｇ3が合成される形態を例示したが、複数の被写体画像Ｇ1～Ｇ3を合成する合成処理の過程において、調整処理が実行される段階は任意である。例えば、各被写体画像Ｇnについてぼかし処理Ｓ24や前後の調整等の調整処理が実行されてから、複数の被写体画像Ｇ1～Ｇ3が合成されてもよいし、複数の被写体画像Ｇ1～Ｇ3が合成されてから、合成動画Ｖにおける各被写体画像Ｇnについて調整処理が実行されてもよい。

（９）前述の各形態においては、被写体画像Ｇnに対するぼかし処理Ｓ24を例示したが、被写体画像Ｇnの画像パラメータを調整する加工処理は、以上に例示したぼかし処理Ｓ24に限定されない。例えば、明度（露出）、彩度、色相、コントラスト、明瞭度等の任意の画像パラメータを調整する画像処理が、「加工処理」として包括的に表現される。加工処理においては、被写体画像Ｇnに関する以上の画像パラメータが、撮像距離Ｄnに応じて調整される。

（１０）前述の各形態においては、収録スタジオＲnを現実空間として例示したが、現実空間は収録スタジオＲn等の屋内空間に限定されない。例えば、屋外空間等の現実空間内に収録システム２０-nが設置されてもよい。以上の説明から理解される通り、現実空間は、現実世界の実在する空間として定義され、屋内／屋外は不問である。

（１１）前述の各形態においては、複数の動画Ｖ1～Ｖ3の合成により合成動画Ｖを生成したが、さらに他の画像が合成されてもよい。例えば、被写体Ｑnがプレイするゲームの画面が、合成動画Ｖに合成されてもよい。また、収録スタジオＲn内に設置された撮像装置２１-n以外の撮像装置により撮像された動画が、合成動画Ｖに合成されてもよい。また、前述の各形態においては、複数の音声Ａ1～Ａ3の合成により合成音声Ａを生成したが、さらに他の音声が合成されてもよい。例えば、被写体Ｑnがプレイするゲームの音声が、合成音声Ａに合成されてもよい。

（１２）動画合成システム３０と収録システム２０-1との間の通信遅延と、動画合成システム３０と収録システム２０-2との間の通信遅延とが相違する場合、動画合成システム３０が取得する動画Ｖ1と動画Ｖ2とが時間的に相互に同期しない可能性がある。例えば、動画Ｖ1および動画Ｖ2の一方が他方に対して遅延する状況が想定される。以上の状況において、画像処理部４２（例えば画像調整部４２４）は、複数の動画Ｖ1～Ｖ3を時間的に相互に同期させてもよい。以上の形態によれば、複数の動画Ｖ1～Ｖ3の時間的なズレが低減された自然な合成動画Ｖを生成できる。

（１３）第４実施形態においては、撮像方向および撮像倍率を撮像条件として例示したが、撮像制御部４５により制御される撮像条件は、以上の例示に限定されない。例えば、焦点位置（フォーカス）、絞り値（アイリス）、露光時間（シャッタースピード）、露出値またはホワイトバランス等、撮像範囲自体には影響しない条件も「撮像条件」には包含される。

（１４）前述の各形態においては３個の収録システム２０-1～２０-3を例示したが、収録システム２０-nの個数は任意である。例えば、２個の収録システム２０-nが設置された構成や、４個以上の収録システム２０-nが設置された構成にも、本開示は同様に適用される。

例えば、動画収録システム１００がＮ個（Ｎは２以上の自然数）の撮像装置２１-1～２１-Nを具備する構成を想定すると、Ｎ個の撮像装置２１-1～２１-Nから選択された１個の撮像装置２１-n1（ｎ1＝１～Ｎ）が本開示における「第１撮像装置」の一例であり、他の撮像装置２１-n2（ｎ2＝１～Ｎ，ｎ2≠ｎ1）が本開示における「第２撮像装置」の一例である。

（１５）前述の各形態に係る動画合成システム３０の機能は、前述の通り、制御装置３１を構成する単数または複数のプロセッサと、記憶装置３２に記憶されたプログラムとの協働により実現される。以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記録媒体が、前述の非一過性の記録媒体に相当する。

（１６）本開示における「第ｎ」（ｎは自然数）という記載は、各要素を表記上において区別するための形式的または便宜的な標識（ラベル）としてのみ使用され、如何なる実質的な意味も持たない。したがって、「第ｎ」という表記を根拠として、各要素の位置または処理の順序等が限定的に解釈される余地はない。

［付記］
以上の記載から、例えば以下のように本開示の好適な態様が把握される。なお、各態様の理解を容易にするために、以下では、図面の符号を便宜的に括弧書で併記するが、本開示は図示の態様に限定されない。

［付記１］
本開示のひとつの態様（付記１）に係る動画合成システム（３０）は、第１現実空間（Ｒn1）内の第１撮像装置（２１-n1）が撮像した第１動画（Ｖn1）と、第２現実空間（Ｒn2）内の第２撮像装置（２１-n2）が撮像した第２動画（Ｖn2）とを取得する動画取得部（４１）と、前記第１動画（Ｖn1）における第１被写体（Ｑn1）の画像（Ｇn1）と前記第２動画（Ｖn2）における第２被写体（Ｑn2）の画像（Ｇn2）とを含む合成動画（Ｖ）を生成する合成処理（Ｓ2）を実行する画像処理部（４２）とを具備し、前記合成処理（Ｓ2）は、前記第１撮像装置（２１-n1）の第１撮像距離（Ｄn1）と前記第２撮像装置（２１-n2）の第２撮像距離（Ｄn2）とに応じて前記第１被写体（Ｑn1）の画像（Ｇn1）と前記第２被写体（Ｑn2）の画像（Ｇn2）とを調整する調整処理（Ｓ24，Ｓ25）を含む。

以上の態様によれば、第１撮像装置（２１-n1）が撮像した第１動画（Ｖn1）と第２撮像装置（２１-n2）が撮像した第２動画（Ｖn2）とを合成する合成処理（Ｓ2）において、第１動画（Ｖn1）における第１被写体（Ｑn1）の画像（Ｇn1）と第２動画（Ｖn2）における第２被写体（Ｑn2）の画像（Ｇn2）とを、第１撮像距離（Ｄn1）と第２撮像距離（Ｄn2）とに応じて調整する調整処理（Ｓ24，Ｓ25）が実行される。すなわち、第１撮像距離（Ｄn1）および第２撮像距離（Ｄn2）の関係が、合成動画（Ｖ）における第１被写体（Ｑn1）の画像（Ｇn1）と第２被写体（Ｑn2）の画像（Ｇn2）との関係に反映される。したがって、相異なる現実空間（Ｒn）に所在する複数の被写体（Ｑn）を含む自然な合成動画（Ｖ）を生成できる。

「（第１／第２）現実空間（Ｒn）」は、現実の世界に実在する空間であり、仮想空間（Ｚ）と対比される概念である。

「（第１／第２）動画」は、複数の映像の時系列により構成される動的な画像である。第１動画（Ｖn1）と第２動画（Ｖn2）とは、例えば時間的に相互に並列に撮像される。すなわち、第１動画（Ｖn1）が撮像される期間と第２動画（Ｖn2）が撮像される期間とは時間軸上で相互に重複する。ただし、第１動画（Ｖn1）と第２動画（Ｖn2）とは相互に並列に撮像されなくてもよい。すなわち、第１動画（Ｖn1）が撮像される期間と第２動画（Ｖn2）が撮像される期間とは時間軸上で相互に重複しなくてもよい。

「合成処理（Ｓ2）」は、第１動画（Ｖn1）における第１被写体（Ｑn1）の画像（Ｇn1）と第２動画（Ｖn2）における第２被写体（Ｑn2）の画像（Ｇn2）とを含む合成動画（Ｖ）を生成する任意の画像処理である。合成処理（Ｓ2）のなかで調整処理（Ｓ24，Ｓ25）が実行される段階は任意である。例えば、第１被写体（Ｑn1）の画像（Ｇn1）および第２被写体（Ｑn2）の画像（Ｇn2）の少なくとも一方について調整処理（Ｓ24，Ｓ25）が実行されてから、第１被写体（Ｑn1）の画像（Ｇn1）と第２被写体（Ｑn2）の画像（Ｇn2）とが合成されてもよいし、第１被写体（Ｑn1）の画像（Ｇn1）と第２被写体（Ｑn2）の画像（Ｇn2）とが合成されてから、第１被写体（Ｑn1）の画像（Ｇn1）および第２被写体（Ｑn2）の画像（Ｇn2）の少なくとも一方について調整処理（Ｓ24，Ｓ25）が実行されてもよい。また、第１被写体（Ｑn1）の画像（Ｇn1）と第２被写体（Ｑn2）の画像（Ｇn2）とを合成する過程において調整処理（Ｓ24，Ｓ25）（例えば後述の重畳処理（Ｓ25））が実行されてもよい。

「撮像距離（Ｄn）」は、（第１／第２）撮像装置と（第１／第２）被写体との間の距離である。撮像距離（Ｄn）を特定する方法は任意である。例えば、撮像距離（Ｄn）が事前に決定された既定値であれば、当該撮像距離（Ｄn）は記憶装置に事前に保存されてもよい。

撮像装置が撮像した動画の解析により撮像距離（Ｄn）が推定されてもよい。例えば、被写体に付加された既定の距離指標（マーカー）について動画内のサイズを解析することで、撮像距離（Ｄn）が推定される。また、既知のサイズの被写体（例えば出演者）について、顔認識または骨格認識等の認識技術により動画内のサイズを解析することで、撮像距離（Ｄn）が推定される。

撮像装置による撮像時に測距装置が撮像距離（Ｄn）を測定する環境では、測距装置が測定した撮像距離（Ｄn）が取得される。測距装置は、例えば赤外光または紫外光等の測距光を利用した光学的なセンサである。測距装置は、例えばＬｉＤＡＲ（Light Detection and Ranging）機能または自動焦点機能を具備する。なお、測距装置は、撮像装置に搭載されてもよいし、撮像装置とは別体に設置されてもよい。

「調整処理（Ｓ24，Ｓ25）」は、撮像距離（Ｄn）に応じて被写体の画像を調整する画像処理である。「撮像距離（Ｄn）に応じて」とは、合成画像における被写体の画像が撮像距離（Ｄn）に依存する関係を意味する。すなわち、例えば撮像距離（Ｄn）が相異なる第１値と第２値とに設定され得る場合を想定すると、撮像距離（Ｄn）が第１値である場合の調整処理（Ｓ24，Ｓ25）後の画像と、撮像距離（Ｄn）が第２値である場合の調整処理（Ｓ24，Ｓ25）後の画像とが相違することを意味する。ただし、撮像距離（Ｄn）が変化しても画像が変化しない場合はあり得る。

「複数の撮像装置」は、第１撮像装置（２１-n1）および第２撮像装置（２１-n2）以外の１以上の撮像装置を含んでもよい。すなわち、画像処理部（４２）は、相異なる撮像装置により撮像された３個以上の動画の合成により合成動画（Ｖ）を生成してもよい。「第１動画（Ｖn1）」は、複数の動画から選択されたひとつの動画であり、「第２動画（Ｖn2）」は、複数の動画のうち第１動画（Ｖn1）以外のひとつの動画である。すなわち、合成動画（Ｖ）は、第１動画（Ｖn1）および第２動画（Ｖn2）のみの合成により生成されてもよいし、第１動画（Ｖn1）および第２動画（Ｖn2）と他の１以上の動画との合成により生成されてもよい。

［付記２］
付記１の具体例（付記２）において、前記調整処理（Ｓ24，Ｓ25）は、前記第１撮像距離（Ｄn1）と前記第２撮像距離（Ｄn2）とに応じて前記第１被写体（Ｑn1）の画像パラメータと前記第２被写体（Ｑn2）の画像パラメータとを調整する加工処理を含む。以上の態様においては、第１被写体（Ｑn1）の画像パラメータと第２被写体（Ｑn2）の画像パラメータとが、第１撮像距離（Ｄn1）および第２撮像距離（Ｄn2）に応じて調整される。したがって、相異なる空間に所在する複数の被写体（Ｑn）を含む自然な合成動画（Ｖ）を生成できる。

「加工処理」は、第１撮像距離（Ｄn1）と第２撮像距離（Ｄn2）とに応じて第１被写体（Ｑn1）の画像パラメータと第２被写体（Ｑn2）の画像パラメータとを調整する任意の画像処理である。例えば、第１撮像距離（Ｄn1）と第２撮像距離（Ｄn2）との差異が大きいほど、第１被写体（Ｑn1）の画像パラメータと第２被写体（Ｑn2）の画像パラメータとの差異を増加させるような画像処理が、「調整処理（Ｓ24，Ｓ25）」として例示される。ただし、例えば第１撮像距離（Ｄn1）と第２撮像距離（Ｄn2）とが相互に近似または一致する場合に、第１被写体（Ｑn1）の画像パラメータと第２被写体（Ｑn2）の画像パラメータとが相互に一致することはあり得る。

「画像パラメータ」は、画像の視覚的な特性を制御するための任意のパラメータである。例えば、ぼかし量（Ｂn）、明度（露出）、彩度、色相、コントラスト、明瞭度等の任意の特性値が「画像パラメータ」として例示される。相異なる複数のパラメータの組合せを「画像パラメータ」と解釈してもよい。

［付記３］
付記２の具体例（付記３）において、前記加工処理は、画像をぼかすぼかし処理（Ｓ24）を含み、前記画像パラメータは、ぼかし量（Ｂn）である。以上の態様によれば、第１被写体（Ｑn1）の画像（Ｇn1）におけるぼかし量（Ｂn）と第２被写体（Ｑn2）の画像（Ｇn2）におけるぼかし量（Ｂn）とが第１撮像距離（Ｄn1）および第２撮像距離（Ｄn2）に応じて相違するように、ぼかし処理（Ｓ24）が実行される。撮像距離（Ｄn）に応じて光学的なぼけの度合が変化する現実の撮像の傾向が模擬された自然な合成動画（Ｖ）を生成できる。

「ぼかし処理（Ｓ24）」は、画像をぼかす画像処理である。例えば、動画内の各画素の画素値を、当該画素を含む所定の範囲内の平均値に置換する平滑処理が、ぼかし処理（Ｓ24）の一例である。ぼかし量（Ｂn）は、ぼかし処理（Ｓ24）により画像がぼける程度を制御する画像パラメータである。例えば、画素値の平均値が算定される範囲のサイズを規定する画像パラメータが、「ぼかし量（Ｂn）」として例示される。

第１撮像距離（Ｄn1）と第２撮像距離（Ｄn2）とが相違する場合には、第１被写体（Ｑn1）の画像（Ｇn1）のぼかし量（Ｂn）と第２被写体（Ｑn2）の画像（Ｇn2）のぼかし量（Ｂn）とが相異なる数値に設定される。第１被写体（Ｑn1）の画像（Ｇn1）および第２被写体（Ｑn2）の画像（Ｇn2）の双方に対してぼかし処理（Ｓ24）が実行されてもよいし、第１被写体（Ｑn1）の画像（Ｇn1）および第２被写体（Ｑn2）の画像（Ｇn2）の一方のみにぼかし処理（Ｓ24）が実行されてもよい。

［付記４］
付記３の具体例（付記４）において、前記第１撮像距離（Ｄn1）は、相異なる第１距離（Ｄa1，Ｄb1）および第２距離（Ｄa2，Ｄb2）に設定可能であり、前記第２距離（Ｄa2，Ｄb2）と基準値（Ｄref）との差異は、前記第１距離（Ｄa1，Ｄb1）と基準値（Ｄref）との差異を上回り、前記画像処理部（４２）は、前記第１撮像距離（Ｄn1）が前記第１距離（Ｄa1，Ｄb1）である場合に、前記第１被写体（Ｑn1）の画像（Ｇn1）に関するぼかし量（Ｂn）を第１設定値（Ｂa1，Ｂb1）に設定し、前記第１撮像距離（Ｄn1）が前記第２距離（Ｄa2，Ｄb2）である場合に、前記第１被写体（Ｑn1）の画像（Ｇn1）に関するぼかし量（Ｂn）を、前記第１設定値（Ｂa1，Ｂb1）を上回る第２設定値（Ｂa2，Ｂb2）に設定する。以上の態様によれば、第１撮像距離（Ｄn1）と基準値（Ｄref）との差異が増加するほど、第１被写体（Ｑn1）の画像（Ｇn1）のぼかし処理（Ｓ24）に適用されるぼかし量（Ｂn）が増加する。したがって、基準値（Ｄref）に対応する地点に位置する合焦面から奥行方向（前後方向）に離間するほど被写体の光学的なぼけが増加するという現実の撮像の傾向が忠実に模擬された自然な合成動画（Ｖ）を生成できる。

「基準値（Ｄref）」は、撮像距離（Ｄn）がとり得る特定の数値である。例えば第２撮像距離（Ｄn2）が「基準値（Ｄref）」として設定される。以上の形態によれば、第２被写体（Ｑn2）に合焦し、かつ第１被写体（Ｑn1）はぼけた合成動画（Ｖ）を生成できる。撮像距離（Ｄn）が、基準値（Ｄref）を含む所定の範囲内の数値である場合、被写体のぼかし量（Ｂn）をゼロに設定してもよい。以上の形態によれば、被写界深度内の要素には全体に合焦するという光学的な傾向を模擬できる。

［付記５］
付記４の具体例（付記５）において、前記基準値（Ｄref）は、前記第１動画（Ｖn1）および前記第２動画（Ｖn2）を含む複数の動画にそれぞれ対応する複数の被写体（Ｑn）の何れかである基準被写体（Ｑref）に対応する撮像距離（Ｄn）である。以上の態様によれば、複数の被写体（Ｑn）の何れか（基準被写体（Ｑref））に対応する撮像距離（Ｄn）を基準値（Ｄref）として第１被写体（Ｑn1）の画像（Ｇn1）に関するぼかし量（Ｂn）が設定される。したがって、基準被写体（Ｑref）を基準として各被写体の画像のぼかし量（Ｂn）が設定された自然な合成動画（Ｖ）を生成できる。また、複数の被写体（Ｑn）のうち基準被写体（Ｑref）が特に注目され易い合成動画（Ｖ）を生成できる。

「基準被写体（Ｑref）」は、相異なる動画に対応する複数の被写体（Ｑn）から選択された１以上の被写体である。基準被写体（Ｑref）を選択するための条件は任意である。例えば、複数の被写体（Ｑn）のうち利用者が選択した被写体が基準被写体（Ｑref）とされる。なお、「複数の動画」は、現実空間（Ｒn）内で実際に撮像された動画のほか、仮想空間（Ｚ）を表す仮想動画が含まれてもよい。仮想動画は、仮想空間（Ｚ）内の仮想オブジェクト（Ｏm）を仮想撮像装置により撮像した動画である。基準被写体（Ｑref）は、現実空間（Ｒn）内の被写体と仮想空間（Ｚ）内の仮想オブジェクト（Ｏm）とを含む複数の被写体（Ｑn）から選択される。

［付記６］
付記５の具体例（付記６）において、前記画像処理部（４２）は、前記複数の動画または前記複数の動画にそれぞれ対応する複数の音声を解析した結果に応じて、前記複数の被写体（Ｑn）から前記基準被写体（Ｑref）を選択する。以上の態様によれば、各被写体の動画または音声を解析した結果に応じて複数の被写体（Ｑn）から基準被写体（Ｑref）が選択される。したがって、利用者による指示を必要とせずに、合成動画（Ｖ）において視聴者が特に注目すべき適切な被写体を基準被写体（Ｑref）として選択できる。

各動画を解析する処理の具体的な内容、および解析の結果を被写体の選択に適用する条件は任意である。例えば、ひとつの態様において、複数の被写体（Ｑn）のうち時間的な変化が大きい被写体（すなわち動作中の被写体）が基準被写体（Ｑref）として選択される。また、例えば各動画が音声を含む形態においては、複数の被写体（Ｑn）のうち音声の音量が大きい動画に対応する被写体（すなわち発言中の被写体）が基準被写体（Ｑref）として選択される。

［付記７］
付記１から付記６の何れかの具体例（付記７）において、前記調整処理（Ｓ24，Ｓ25）は、前記第１被写体（Ｑn1）の画像（Ｇn1）と前記第２被写体（Ｑn2）の画像（Ｇn2）とを重畳する重畳処理（Ｓ25）を含み、前記重畳処理（Ｓ25）においては、前記第１被写体（Ｑn1）の画像（Ｇn1）と前記第２被写体（Ｑn2）の画像（Ｇn2）との前後を、前記第１撮像距離（Ｄn1）および前記第２撮像距離（Ｄn2）に応じて制御する。以上の態様によれば、第１被写体（Ｑn1）の画像（Ｇn1）と第２被写体（Ｑn2）の画像（Ｇn2）との前後が第１撮像距離（Ｄn1）および第２撮像距離（Ｄn2）に応じて制御される。したがって、第１被写体（Ｑn1）および第２被写体（Ｑn2）の現実の位置が第１被写体（Ｑn1）の画像（Ｇn1）と第２被写体（Ｑn2）の画像（Ｇn2）との前後に反映され他自然な合成動画（Ｖ）を生成できる。

「重畳処理（Ｓ25）」は、複数の被写体（Ｑn）を重ねる画像処理である。重畳処理（Ｓ25）により、第１被写体（Ｑn1）の画像（Ｇn1）と第２被写体（Ｑn2）の画像（Ｇn2）とが部分的に重複する。第１被写体（Ｑn1）の画像（Ｇn1）と第２被写体（Ｑn2）の画像（Ｇn2）との「前後」は、第１被写体（Ｑn1）の画像（Ｇn1）の背後に第２被写体（Ｑn2）の画像（Ｇn2）が配置されるのか、第２被写体（Ｑn2）の画像（Ｇn2）の背後の第１被写体（Ｑn1）の画像（Ｇn1）が配置されるのかという位置関係である。

「第１被写体（Ｑn1）の画像（Ｇn1）と第２被写体（Ｑn2）の画像（Ｇn2）との前後を第１撮像距離（Ｄn1）および第２撮像距離（Ｄn2）に応じて制御する」とは、合成動画（Ｖ）における第１被写体（Ｑn1）の画像（Ｇn1）と第２被写体（Ｑn2）の画像（Ｇn2）との前後が、第１撮像距離（Ｄn1）および第２撮像距離（Ｄn2）に依存することを意味する。例えば、第１撮像距離（Ｄn1）が第２撮像距離（Ｄn2）を下回る場合には、第１被写体（Ｑn1）の画像（Ｇn1）が第２被写体（Ｑn2）の画像（Ｇn2）の手前に位置するように第１被写体（Ｑn1）の画像（Ｇn1）と第２被写体（Ｑn2）の画像（Ｇn2）とが重畳され、第２撮像距離（Ｄn2）が第１撮像距離（Ｄn1）を下回る場合には、第２被写体（Ｑn2）の画像（Ｇn2）が第１被写体（Ｑn1）の画像（Ｇn1）の手前に位置するように第１被写体（Ｑn1）の画像（Ｇn1）と第２被写体（Ｑn2）の画像（Ｇn2）とが重畳される。

以上の例示から理解される通り、第１被写体（Ｑn1）の画像（Ｇn1）と第２被写体（Ｑn2）の画像（Ｇn2）との「前後」は、画像（Ｇn1）と画像（Ｇn2）との表示における優先度とも観念される。例えば、画像（Ｇn1）が画像（Ｇn2）の前方に表示された状態は、画像（Ｇn1）が画像（Ｇn2）に優先して表示された状態とも表現され、画像（Ｇn2）が画像（Ｇn1）の前方に表示された状態は、画像（Ｇn2）が画像（Ｇn1）に優先して表示された状態とも表現される。

また、第１被写体（Ｑn1）の画像（Ｇn1）と第２被写体（Ｑn2）の画像（Ｇn2）との「前後」は、画像（Ｇn1）および画像（Ｇn2）の各々の表示／非表示の区別とも観念される。例えば、画像（Ｇn1）が画像（Ｇn2）の前方に表示された状態は、画像（Ｇn1）のうち画像（Ｇn2）に重複する部分が表示され、かつ、画像（Ｇn2）のうち画像（Ｇn1）に重複する部分が非表示とされた状態とも表現される。同様に、例えば、画像（Ｇn2）が画像（Ｇn1）の前方に表示された状態は、画像（Ｇn2）のうち画像（Ｇn1）に重複する部分が表示され、画像（Ｇn1）のうち画像（Ｇn2）に重複する部分が非表示とされた状態とも表現される。

［付記８］
付記１から付記７の何れかの具体例（付記８）において、前記画像処理部（４２）は、前記合成処理（Ｓ2）において、前記第１被写体（Ｑn1）の画像（Ｇn1）および前記第２被写体（Ｑn2）の画像（Ｇn2）と、仮想空間（Ｚ）において仮想撮像装置により撮像された仮想オブジェクト（Ｏm）とを含む前記合成動画（Ｖ）を生成し、前記調整処理（Ｓ24，Ｓ25）において、前記仮想撮像装置の仮想撮像距離（Ｅm）に応じて前記仮想オブジェクト（Ｏm）を調整する。以上の態様によれば、現実空間（Ｒn）内において撮像された被写体（第１被写体（Ｑn1）および第２被写体（Ｑn2））の画像と仮想空間（Ｚ）内の仮想オブジェクト（Ｏm）とが重畳される。したがって、現実の被写体だけでなく仮想オブジェクト（Ｏm）を含む多様な合成動画（Ｖ）を生成できる。しかも、仮想撮像距離（Ｅm）に応じて仮想オブジェクト（Ｏm）が調整されるから、仮想オブジェクト（Ｏm）が各被写体と同じ空間に所在するような自然な合成動画（Ｖ）を生成できる。

「仮想空間（Ｚ）」は、画像処理等の各種の情報処理により設定される仮想的な空間であり、現実空間（Ｒn）と対比される概念である。仮想オブジェクト（Ｏm）は、仮想空間（Ｚ）内に存在するオブジェクトであり、仮想空間（Ｚ）内の仮想撮像装置により撮像される。「仮想撮像装置」は、仮想空間（Ｚ）内に設置された仮想的な撮像装置である。仮想撮像装置による撮像条件は固定／可変の何れでもよい。

仮想オブジェクト（Ｏm）の画像に対する「調整処理（Ｓ24，Ｓ25）」の内容は任意である。例えば、前述の各形態について例示した加工処理または重畳処理（Ｓ25）等を含む「調整処理（Ｓ24，Ｓ25）」が、第１被写体（Ｑn1）の画像（Ｇn1）および第２被写体（Ｑn2）の画像（Ｇn2）だけでなく仮想オブジェクト（Ｏm）の画像に対しても実行される。

［付記９］
付記１から付記８の何れかの具体例（付記９）に係る動画合成システム（３０）は、前記第１撮像装置（２１-n1）と前記第２撮像装置（２１-n2）とを共通の撮像条件のもとで時間的に相互に並列に動作させる撮像制御部（４５）をさらに具備する。以上の態様によれば、第１撮像装置（２１-n1）による第１動画（Ｖn1）の撮像と第２撮像装置（２１-n2）による第２動画（Ｖn2）の撮像とが共通の撮像条件のもとで実行される。したがって、第１現実空間（Ｒn1）内の被写体と第２現実空間（Ｒn2）内の被写体とが恰も共通の空間内に所在するかのように視聴者に知覚され得る自然な合成動画（Ｖ）を生成できる。

「撮像条件」は、（第１／第２）撮像装置による動画の撮像に関する条件である。具体的には、撮像方向または撮像倍率等、撮像範囲を規定する条件が「撮像条件」として例示される。撮像方向は、例えばパン方向（左右方向）またはチルト方向（上下方向）である。撮像倍率は、例えばズーム倍率である。ただし、例えば焦点位置（フォーカス）、絞り値（アイリス）、露出値、ホワイトバランス等、撮像範囲自体には影響しない条件も「撮像条件」には包含される。「撮像条件」は、例えば撮像制御部（４５）による制御の対象となる動作条件とも表現される。

「共通の撮像条件のもとで動作させる」とは、第１撮像装置（２１-n1）による撮像条件と第２撮像装置（２１-n2）による撮像条件とが完全に一致する場合のほか、第１撮像装置（２１-n1）による撮像条件と第２撮像装置（２１-n2）による撮像条件とが実質的に一致する場合も含む。「撮像条件が実質的に一致する場合」とは、例えば、撮像条件の相違が視聴者に知覚されない程度に第１撮像装置（２１-n1）と第２撮像装置（２１-n2）との間で撮像条件が近似する場合、または、第１撮像装置（２１-n1）による撮像条件と第２撮像装置（２１-n2）による撮像条件との差異が、両者間の特性の相違（例えば製造誤差に起因した相違）を原因とする程度の微小な差異である場合である。

例えば、第１撮像装置（２１-n1）と第２撮像装置（２１-n2）とが同機種である場合を想定すると、撮像条件を指示する共通の制御データを第１撮像装置（２１-n1）および第２撮像装置（２１-n2）の双方に送信する結果として、第１撮像装置（２１-n1）と第２撮像装置（２１-n2）とは共通の撮像条件のもとで動作する。また、第１撮像装置（２１-n1）と第２撮像装置（２１-n2）とが別機種である場合を想定すると、両機種間の撮像動作の相違が解消されるように第１撮像装置（２１-n1）と第２撮像装置（２１-n2）とに別個の制御データを送信する結果として、第１撮像装置（２１-n1）と第２撮像装置（２１-n2）とは共通の撮像条件のもとで動作する。

［付記１０］
本開示のひとつの態様（付記１０）に係る動画合成方法は、第１現実空間（Ｒn1）内の第１撮像装置（２１-n1）が撮像した第１動画（Ｖn1）と、第２現実空間（Ｒn2）内の第２撮像装置（２１-n2）が撮像した第２動画（Ｖn2）とを取得し、前記第１動画（Ｖn1）における第１被写体（Ｑn1）の画像（Ｇn1）と前記第２動画（Ｖn2）における第２被写体（Ｑn2）の画像（Ｇn2）とを含む合成動画（Ｖ）を生成する合成処理（Ｓ2）を実行し、前記合成処理（Ｓ2）は、前記第１撮像装置（２１-n1）の第１撮像距離（Ｄn1）と前記第２撮像装置（２１-n2）の第２撮像距離（Ｄn2）とに応じて前記第１被写体（Ｑn1）の画像（Ｇn1）と前記第２被写体（Ｑn2）の画像（Ｇn2）とを調整する調整処理（Ｓ24，Ｓ25）を含む。

［付記１１］
本開示のひとつの態様（付記１１）に係るプログラムは、第１現実空間（Ｒn1）内の第１撮像装置（２１-n1）が撮像した第１動画（Ｖn1）と、第２現実空間（Ｒn2）内の第２撮像装置（２１-n2）が撮像した第２動画（Ｖn2）とを取得する動画取得部（４１）、および、前記第１動画（Ｖn1）における第１被写体（Ｑn1）の画像（Ｇn1）と前記第２動画（Ｖn2）における第２被写体（Ｑn2）の画像（Ｇn2）とを含む合成動画（Ｖ）を生成する合成処理（Ｓ2）を実行する画像処理部（４２）、としてコンピュータシステムを機能させるプログラムであって、前記合成処理（Ｓ2）は、前記第１撮像装置（２１-n1）の第１撮像距離（Ｄn1）と前記第２撮像装置（２１-n2）の第２撮像距離（Ｄn2）とに応じて前記第１被写体（Ｑn1）の画像（Ｇn1）と前記第２被写体（Ｑn2）の画像（Ｇn2）とを調整する調整処理（Ｓ24，Ｓ25）を含む。

１００…動画収録システム、２００…端末装置、２０-n（２０-1～２０-3）…収録システム、２１-n（２１-1～２１-3）…撮像装置、２２-n（２２-1～２２-3）…収音装置、２３-n（２３-1～２３-3）…通信装置、３０…動画合成システム、３１…制御装置、３２…記憶装置、３３…通信装置、３４…操作装置、３５…再生装置、４１…動画取得部、４２…画像処理部、４３…音声処理部、４４…出力処理部、４５…撮像制御部、４２１…距離特定部、４２２…被写体抽出部、４２３…被写体選択部、４２４…画像調整部、４２５…画像生成部。

Claims

第１現実空間内の第１撮像装置が撮像した第１動画と、第２現実空間内の第２撮像装置が撮像した第２動画とを取得する動画取得部と、
前記第１動画における第１被写体の画像と前記第２動画における第２被写体の画像とを含む合成動画を生成する合成処理を実行する画像処理部とを具備し、
前記合成処理は、前記第１撮像装置の第１撮像距離と前記第２撮像装置の第２撮像距離とに応じて前記第１被写体の画像と前記第２被写体の画像とを調整する調整処理を含む
動画合成システム。
前記調整処理は、前記第１撮像距離と前記第２撮像距離とに応じて前記第１被写体の画像パラメータと前記第２被写体の画像パラメータとを調整する加工処理を含む
請求項１の動画合成システム。
前記加工処理は、画像をぼかすぼかし処理を含み、
前記画像パラメータは、ぼかし量である
請求項２の動画合成システム。
前記第１撮像距離は、相異なる第１距離および第２距離に設定可能であり、
前記第２距離と基準値との差異は、前記第１距離と基準値との差異を上回り、
前記画像処理部は、前記第１撮像距離が前記第１距離である場合に、前記第１被写体の画像に関するぼかし量を第１設定値に設定し、前記第１撮像距離が前記第２距離である場合に、前記第１被写体の画像に関するぼかし量を、前記第１設定値を上回る第２設定値に設定する
請求項３の動画合成システム。
前記基準値は、前記第１動画および前記第２動画を含む複数の動画にそれぞれ対応する複数の被写体の何れかである基準被写体に対応する撮像距離である
請求項４の動画合成システム。
前記画像処理部は、前記複数の動画または前記複数の動画にそれぞれ対応する複数の音声を解析した結果に応じて、前記複数の被写体から前記基準被写体を選択する
請求項５の動画合成システム。
前記調整処理は、前記第１被写体の画像と前記第２被写体の画像とを重畳する重畳処理を含み、
前記重畳処理においては、前記第１被写体の画像と前記第２被写体の画像との前後を、前記第１撮像距離および前記第２撮像距離に応じて制御する
請求項１の動画合成システム。
前記画像処理部は、
前記合成処理において、前記第１被写体の画像および前記第２被写体の画像と、仮想空間において仮想撮像装置により撮像された仮想オブジェクトとを含む前記合成動画を生成し、
前記調整処理において、前記仮想撮像装置の仮想撮像距離に応じて前記仮想オブジェクトを調整する
請求項１の動画合成システム。
前記第１撮像装置と前記第２撮像装置とを共通の撮像条件のもとで時間的に相互に並列に動作させる撮像制御部
をさらに具備する請求項１の動画合成システム。
第１現実空間内の第１撮像装置が撮像した第１動画と、第２現実空間内の第２撮像装置が撮像した第２動画とを取得し、
前記第１動画における第１被写体の画像と前記第２動画における第２被写体の画像とを含む合成動画を生成する合成処理を実行し、
前記合成処理は、前記第１撮像装置の第１撮像距離と前記第２撮像装置の第２撮像距離とに応じて前記第１被写体の画像と前記第２被写体の画像とを調整する調整処理を含む
コンピュータシステムにより実現される動画合成方法。
第１現実空間内の第１撮像装置が撮像した第１動画と、第２現実空間内の第２撮像装置が撮像した第２動画とを取得する動画取得部、および、
前記第１動画における第１被写体の画像と前記第２動画における第２被写体の画像とを含む合成動画を生成する合成処理を実行する画像処理部、
としてコンピュータシステムを機能させるプログラムであって、
前記合成処理は、前記第１撮像装置の第１撮像距離と前記第２撮像装置の第２撮像距離とに応じて前記第１被写体の画像と前記第２被写体の画像とを調整する調整処理を含む
プログラム。