JP2013504938A

JP2013504938A - ３ｄビデオへの仮想インサート

Info

Publication number: JP2013504938A
Application number: JP2012528927A
Authority: JP
Inventors: カッツ，シェルドン; ハウス，グレゴリー; ケネディー，ハワード
Original assignee: ディズニーエンタープライズ，インコーポレイテッド
Priority date: 2009-09-11
Filing date: 2010-09-10
Publication date: 2013-02-07
Anticipated expiration: 2030-09-10
Also published as: JP5801812B2; US20110216167A1; CN102726051B; BR112012005477B1; CN102726051A; WO2011031968A1; US10652519B2; BR112012005477A2; EP2476259A1; MX2012002948A

Abstract

実施形態は、３Ｄビデオへのインサートに関する。仮想カメラモデルは、インサートのために、インサートの３Ｄ精度およびリアリズムを最大にするために３Ｄビデオの左右のチャンネルと関連して調整することができる。カメラは、コンポジットとして形成されて、他のモデルに得ることができる。カメラモデルは、３Ｄビデオの視覚分析に基づき、トーインおよび接眼レンズ間隔を含む３Ｄカメラデータに基づく。カメラデータは、収集した使用している機器が、３Ｄビデオの視覚分析に基づいて引き出される、３Ｄカメラシステムに接続するかまたは３Ｄビデオの機器および視覚分析を使用して収集される情報の組合せを使用することを引き出した情報から導出する。インサートは現地でなされるかまたは遠隔サイトにあることができ、カメラデータは３Ｄビデオに埋められることができ、および／または別に遠隔サイトに発信されうる。インサートは一種のインサート、３Ｄビデオシーン構成および／またはユーザフィードバックに基づいて３Ｄ空間において調整されることができ、眼精疲労にユーザ感度からみて３Ｄインサートおよび調整の双方向調整を含む。
【選択図】図２

Description

本出願は、２００９年９月１１日出願の“３Ｄビデオへの仮想インサート”と題された米国仮出願番号６１／２４１，６８７号の優先権を主張する。この米国仮出願において開示された全てが、引用により本出願に援用される。

実施形態は、３Ｄビデオへの仮想インサートに関する。

視聴者にストリーミングビデオコンテンツをストリーミングするための方法は、立体視を利用して、プログラムコンテンツを３Ｄ視野に投影することができる。

発明が解決すべき課題

３Ｄ対応システムは左右の眼の画像のために別個のチャンネルを送信して、シーンの視差図を提供することができる。従来の２Ｄビデオに仮想インサートを追加する方法が知られているが、このような周知の２Ｄ方法は最適な視聴経験を３Ｄビデオの視聴者に提供するのに十分でないことがある。したがって、インサートが元の制作物の一部であるかのように、視聴者に提示される３Ｄビデオにリアルな仮想インサートを提供することが求められている。

さらなる理解を提供するために含まれる添付図面は、この明細書中に組み込まれ、この明細書の一部を構成し、本発明の原理を説明するのに役立つ実施形態を説明と共に例示する。図面の説明は以下の通りである。

２Ｄビデオ内にインサートおよびエンハンスメントを生成する実施形態の概略図である。３Ｄビデオ内にインサートおよびエンハンスメントを生成する実施形態の概略図である。実施形態に係る例示的な３Ｄオクルージョン方法の第１図を示す。図３Ａの例示的な３Ｄオクルージョン方法の第２図を示す。実施形態に係る例示的な３Ｄオクルージョン方法の第１図を示す。図４Ａの例示的な３Ｄオクルージョン方法の第２図を示す。３Ｄビデオ内にインサートおよびエンハンスメントを生成する実施形態の概略図である。実施形態に係る例示的な３Ｄビデオ製造販売の流れを示す。実施形態が実施されうる例示的なコンピュータシステムのブロック図である。

本実施形態は、現在、添付図面を参照して記載されている。図において、同類の参照番号は、同一であるか機能的に同等の要素を示す場合がある。

特定の用途のための実施形態に関して本発明が本願明細書に記載されるが、本発明がそれに制限されないことを理解すべきである。ここに提供されている教示に接する当業者は、本発明が極めて有用である本発明および付加的な分野の範囲内において、追加変更態様、出願および実施形態を認める。

実施形態は、例えば、フットボールの試合の広告ロゴ、スコアボックス、および第１ダウンラインのようなエンハンスメントを３Ｄビデオコンテンツに挿入することを含む。実施形態は、３Ｄメディアに関し、ビデオ、テレビ（放送、ケーブル、衛星、ファイバ）、映画館、インターネット、モバイル機器（携帯電話または他の無線デバイス）および他のプラットフォームのストリーミング３Ｄビデオメディアを含むがこれに制限されない。

元のビデオの一部であるかのようにリアルに見えるように、２Ｄビデオへのインサートおよびエンハンスメントがビデオと統合されうる。例えば、インサートは、１９９２年１月２８日に出願され、本明細書にその内容が参考として完全に援用される「選択され挿入された兆候を有するテレビディスプレイ」と題する、ロッサーらの米国特許第５，２６４，９３３号明細書に記載したように実行することができる。２Ｄビデオの仮想インサートシステムは、シーンを認識して、仮想インサートを追加するためのシーンの仮想カメラモデルを構成するために、いかなる数の検索技術を使用してもよい。カメラモデルはカメラの位置および他のパラメータを含むことができ、これによりカメラをシーンに関して配置させることができる。シーンが認識されると、次のフレームモデルはビデオシーンをトラッキングするいかなる数の方法によって算出されうる。オクルージョン処理は、ビデオ内の最前面の物体によってシーン背景に加えられるインサートをオクルードすることが可能になる。例えば、クロマキーシステムのように、オクルージョン算出はシーンカラーに基づいて実行されうる。例えば、プログラムビデオとミックスされる前に、市販のグラフィックレンダラーを用いて、インサートをレンダリングしてもよい。本明細書において参照される実施形態は移動するシステムを合わせるのに利用されることができ、ここで、移動情報はシーンから得られ、インサートの変化をシーンの動きと一致させるために用いる。

カメラモデルは、例えば、パン、チルト、ロール、画像距離、ｘ位置、ｙ位置、ｚ位置のような三脚据え付けカメラの物理的な測定値に関する複数のパラメータを含むことができる。例えば、放射レンズゆがみのパラメータのような他のパラメータは、利用されうる。カメラデータパラメータは、３Ｄカメラシステムに接続している測定器を使用して収集されるデータから得ることができ、３Ｄビデオの視覚分析に基づいて引き出されうるか、または、３Ｄビデオの３Ｄカメラシステムおよび視覚分析に接続している測定器を使用して収集されるデータの組合せを使用して得ることができる。カメラモデル自体は、３Ｄビデオの一方または両方のチャンネルの視野を表わすのに必要なすべての情報の一部を含むことができる。例えば、左チャンネルか右チャンネルのいずれかに関連されるズームまたは画像距離のような単一のパラメータを含むことができる。交互の一つのチャンネルパラメータには、焦点、軸、レンズ歪曲等があるが、これらに限定されるものではない。１つのチャネル視野について決定されたカメラデータパラメータは、他のチャンネルの視野から独立して得られてもよい。また、カメラモデルは、３Ｄビデオ（カメラ位置、パン、チルト）の両方のチャンネルと関連した一つまたはそれ以上のパラメータに限られる場合がある。カメラデータパラメータは、個々のチャンネルの視界との類似点を使用して決定されうる。さらにまた、カメラモデルは、左右のチャンネル（接眼レンズ間隔、トーイ角度、その他）の関係を記載するパラメータに限られる場合がある。カメラデータパラメータは、個々のチャンネルの視野の違いを使用して決定されうる。カメラデータパラメータが広範囲のユニットまたは測定のための手段で表されうることを理解すべきである。３Ｄビデオの複合、カメラモデルは、３Ｄビデオの個々のチャンネルのカメラモデルを含む。

本発明の実施形態において、カメラモデルは、１または２の３×３マトリックスとして表される場合がある。別の実施形態では、カメラモデルは、他の次元のマトリックスを使用して生成されてもよい。マトリックス表現の要素またはパラメータは、カメラデータパラメータと考えられうる。マトリックスパラメータは、例えば、カメラ位置を調整するようなカメラ外部のパラメータ、および、例えば、センサ垂直および水平のスケーリング係数のような内部パラメータを含むことができる。例えば、同形異義性に基づく方法のような他の方法を利用することができ、本発明はカメラモデルを算出する特定の手段に依存することを意図しない。例えば、カメラモデルは、バスケットボールコートを含む平面のような、単に現在のカメラチャンネルの視界といくらかの物理的な参照の同形異義の関係を提供することができる。他の例では、カメラモデルは入力視野とシーンの基準画像の間に同形異義のマッピングを含むことができ、その際、基準画像はグラフィックインサートの位置を定めるために使用される。同形異義のマッピングの要素またはパラメータは、カメラデータパラメータと考えられる。本発明の更なる実施形態において、カメラモデルは、３Ｄビデオのチャンネルの物体、一群の物体または一部のシーンの位置の表現でもよい。すべてのカメラモデルと同様に、視野の物***置は、時間とともに更新されうる。すべてのカメラモデルと同様に、視野の物***置は、時間とともに更新されうる。

仮想インサートを２Ｄビデオに追加することをベースとする実施形態は、３Ｄビデオシステムで使用されるように、左右の眼のビデオチャンネルに対して別々のインサートを生成するために組み込まれる場合がある。このような実施形態は、左右それぞれのチャンネルカメラモデルにおいて生成する場合があるインサートエラーを対象にすることができる。例えば、これらのモデルエラーは、検索またはトラックビデオチャンネル内の雑音が多い画素データのために発生する場合がある。テンプレートブロックを使用しているトラッカはランダムな部品を備えていることができる、すなわち、ブロックはランダムに選択されることができ、別の実施形態のチャンネルの間に一貫した挙動を提供することができない。仮想インサートを２Ｄビデオに追加する時、例えば、検索モデルエラーによってバスケットボールコートに仮想広告がコート上で０．５メートルずれて配置される場合がある。特に、ロゴ位置が交差するコートのラインのような近くの目立つ特徴から比較的離れている場合、２Ｄビデオの視聴者はこれを問題ないと考える場合がある。

しかしながら、３Ｄビデオでは、特に誤差が互いにトラッキングする傾向にない場合、左右の眼画像の同様のずれの誤差は、左右の眼の画像が各々互いにずれているため、好ましくないと考えられうる。したがって、本明細書において記載されるように、左右の眼のカメラモデルが共通の基準を参照するか、または左右のチャンネルモデルの相対的な違いを維持することは３Ｄビデオへの仮想インサートを見る視聴者の体感を改善する場合がある。

図１は、元のビデオの一部である視聴者にリアルに見えるように、２Ｄビデオへのインサートおよびエンハンスメントを生成するための実施形態の概略図である。プログラムビデオフィード／ビデオ入力プットのようなビデオのソースは、ビデオ入力１０１として、サブシステムに入力される。ビデオ入力１０１は、インサートおよびエンハンスメントを含み、ビデオ出力１２１として出力するために変更されうる。主コントローラ１０３は、サブシステムブロック１０３〜１１３を制御し、調整することができるハードウェアおよび／またはソフトウェアモジュールを表す。検索ブロック１０５は、カメラモデルを算出して、プログラムビデオシーンのためのシーンジオメトリを計算するためにビデオ入力１０１を分析することができるハードウェアおよび／またはソフトウェアモジュールを表す。トラッキングブロック１０７は、検索ブロック１０５の処理必要量を減らすためにプログラムビデオの範囲内で物体をトラッキングすることができ、ビデオ入力１０１の背景に関連するインサートおよびエンハンスメントのより円滑なトラッキングを可能にすることができるハードウェアおよび／またはソフトウェモジュールを表す。オクルージョンブロック１０９は、最前面の物体がインサートおよびエンハンスメントを塞ぐ時点を決定し、ミキサー１１３がふさがれたインサートおよびエンハンスメントを表示できるようにするためにオクルージョンキーを生成するハードウェアおよび／またはソフトウェアモジュールを表す。レンダーブロック１１１は、ビデオ出力１２１とミキシングするためのインサートおよびエンハンスメントをレンダリングするためにカメラモデル、インサート位置、オクルージョンキーおよび他の情報を受信することができるハードウェアおよび／またはソフトウェアモジュールを表す。結合されるか、もしくは３Ｄビデオにミックスされるかいかなるタイプの現実または仮想グラフィックも、３Ｄビデオへのエンハンスメントのインサートと考えられることができる。この実施形態は例示のみを目的としており、実施形態はハードウェア、ソフトウェアまたは一つ以上のブロックのためのハードウェアおよびソフトウェアの組合せを含むさまざまな他のアーキテクチャによって実行されうる。例えば、複数のレンダーブロック１１１およびミキサー１１３は、インサートおよびエンハンスメントの複数のバージョンを異なる視聴者に提供するために、バックエンドプロセッサとして役立つことができる。例えば、いくつかの実施形態では、検索ブロック１０５およびトラッキングブロック１０７は結合される場合がある。別の実施形態では、検索ブロック１０５、トラッキングブロック１０７、およびオクルージョンブロック１０９は結合される場合がある。

カメラモデルを生成するための基礎的な手法は、カメラシステム、ビデオチャンネルのコンピュータ視覚または画像処理分析、物理的なセンサ測定値およびビデオ分析処理の組合せを含む。視野処理は、図１の検索ブロック１０５、トラッキングブロック１０７またはオクルージョンをブロック１０９使用されうる。検索ブロック１０５にとって、視覚分析は、シーンの視覚の特徴のイメージまたはスクリーン位置を得るために用いることができる。カメラモデルは、画像機能位置およびそれらの対応する３Ｄシーン位置に関連する特定のフレームのために生成することができる。このような方法は、本明細書にその内容が参考として完全に内含されている、米国特許出願第１２／６５９，６２８号に記載されている。トラッキングブロック１０７にとって、視覚分析は、画像の一連のフレーム間で、特徴位置または関心ある点をトラッキングするために用いることができる。１つの実施形態の動作は、本明細書にその内容が参考として完全に内含されている、アストルによる米国特許第６，７４１，７２５号明細書に記載されている。オクルージョンブロック１０９にとって、視覚分析は、画像の最前面ピクセルと背景ピクセルを区別するために用いることができる。色に基づく方法は、本明細書にその内容が参考として完全に内含されている、ジェファーズらによる米国特許第７，０１５，９７８号明細書に記載されている。

図２は、３Ｄビデオへのインサートおよびエンハンスメントを生成するための模式的な実施形態のレイアウトを示す。コントローラ２９０は、２Ｄビデオへの仮想インサートを追加するために用いる方法を使用することができる。コントローラ２９０は、左右の両方のチャンネルのためのビデオ処理ユニットと入出力を行うことができるハードウェアおよび／またはソフトウェアモジュールを表す。対応するサブシステム検索２０５、トラッキング２０７、オクルージョン２０９およびミキサー２１３に、左ビデオ入力２０１として、左の眼テレビチャンネルのためのプログラムビデオが入力される。対応するサブシステムである検索２５５、トラッキング２５７、オクルージョン２５９およびミキサー２６３に、右ビデオ入力２５１として、右の眼テレビチャンネルのためのプログラムビデオが入力される。左／右ビデオ入力２０１、２５１は、インサートおよびエンハンスメントを含むために変更されることができ、左ビデオ出力２２１および右ビデオ出力２７１にそれぞれ出力される。

コントローラ２９０は、さまざまなサブシステムブロックを制御し、調整することができる。検索ブロック２０５、２５５は、左／右ビデオ入力２０１、２５１を分析することができるハードウェアおよび／またはソフトウェアモジュールを表し、プログラムビデオシーンのカメラモデルを算出する。トラッキングブロック２０７、２５７は、検索ブロック２０５、２５５の処理必要量を減らすためにビデオ内で物体をトラッキングすることができるハードウェアおよび／またはソフトウェアモジュールを表し、左／右ビデオ入力２０１、２５１の背景に関して、インサートおよびエンハンスメントのより円滑なトラッキングを可能にする。オクルージョンブロック２０９、２５９は、最前面の物体が、ミキサー２１３、２６３がオクルードされたインサートおよびエンハンスメントを表示することを可能にすることができるオクルージョンキーを生成するようにインサートおよびエンハンスメントをオクルードする時点を決定することができるハードウェアおよび／またはソフトウェアモジュールを表す。レンダーブロック２１１、２６１は、左／右ビデオ出力２２１、２７１とミキシングためのインサートおよびエンハンスメントをレンダリングするために、カメラおよびその他モデル、インサート位置、オクルージョンキーおよび他の情報を受信することができるハードウェアおよび／またはソフトウェアモジュールを表す。

コントローラ２９０は、左右のテレビチャンネルのための現在のカメラモデル情報を決定するために、検索ブロック２０５、２５５およびトラッキングブロック２０７、２５７をモニタするモデルマネージャ２９２を含むことができる。モデルマネージャ２９２は、左右のカメラモデルを一致させるために、左右のテレビチャンネルの各カメラモデルを参照することができる。例えば、モデルマネージャ２９２は、左右のチャンネルカメラモデルの中間に、３Ｄワールド座標において、カメラ位置を有する平均／基準カメラモデルを算出することができる。場合によっては、共通の基準として左または右チャンネルカメラモデルを使用することが好ましい。左右のビデオチャンネルに関連した平均または共通の基準カメラモデルを使用することは、左右のチャンネルの間にカメラモデル不適当な組合せの効果を減らすことができる。例えば、左右のチャンネルカメラモデルは、固定量または共通の基準カメラモデルまでの距離によりオフセットされうる。例として、左右チャンネルカメラモデルは、共通の基準カメラモデルの３Ｄワールド座標から３Ｄワールド座標において、固定空間距離を有するようにされうる。例えば、左右のカメラモデル間の距離は、３Ｄカメラシステムとして知られている左右カメラレンズ間の距離に相当する。カメラレンズの間の距離または眼距離または間隔はビデオシーケンスの間、変化しうるが、平均距離は一部の用途では適切である。また別の用途では、例えば、周知の公式または近似値を有する接眼レンズ間隔をより正確にモデル化することが好ましい。他の例では、共通の基準カメラモデルからの補正は、立体画像間の視差を算出するための方法を用いて計算されうる。これは、左右のチャンネル単独の視覚分析または組合せの左右のチャンネルの視覚分析によって達成されうる。視差またはステレオ分析は、３Ｄビデオのチャンネルの関係を決定または導出するために用いることができる。カメラデータパラメータは、３Ｄテレビチャンネルの視差またはステレオ分析に基づいて引き出されうる。チャンネル間の一致が、同様にパラメータの一組のために使用されうる。例えば、左右のカメラモデルが一致する前に、ズームまたは拡大データは平均ズーム値に基づいて一致しうる。この例では、ズームデータは、カメラモデルを算出するためにそれを適用する前に、ノイズのためにフィルターに通されうる。あるいは、最小自乗誤差フィティングが、入力パラメータの最善の一致を見つけるために使用される場合がある。
有効な予想される範囲に対する物理的パラメータを制限することは、調整プロセスで使用できる他の機構である。これは、時間にわたるだけでなく個々の時点にも適用できる。ズームのような特定のパラメータの変化率が制約され、スムージングされうる。これは、３Ｄビデオチャンネルの画像処理または物理的なセンサ測定の信号処理によって部分的に達成されうる。調整は、周知のフィルタリング技術、統計方法、閾値化方法または他の方法を利用する場合がある。調整は、個々のカメラデータパラメータまたはカメラデータパラメータのグループ化に適用されうる。複合カメラモデルのようなカメラデータパラメータのグループ化は、整合されまたは一つまたはそれ以上のカメラデータパラメータで調整する。調整は、カメラモデルまたはカメラデータパラメータを他のカメラデータパラメータと整合して関連している。ある実施形態において、第１のカメラデータパラメータと調整された一つまたはそれ以上のカメラデータパラメータまたはカメラモデルは、第１のカメラデータパラメータと同時に生成されうる。いくつかの実施形態では、複合カメラモデルおよび一つまたはそれ以上の個々のカメラデータパラメータは、整合したまたは一つまたはそれ以上の個々のカメラデータパラメータの最初の評価によって調整される。別の実施形態では、第１のカメラデータパラメータと一致する一つまたはそれ以上のカメラデータパラメータまたはカメラモデルは、第１のカメラデータパラメータの後、順次生成される。別の実施形態において、第１および第２のカメラデータパラメータに一致する一つまたはそれ以上のカメラデータパラメータまたはカメラモデルは、同時に、あるいは、第１および第２のカメラデータパラメータの生成の後、順次生成される。調整は、３Ｄビデオのチャンネル、３Ｄチャンネルの視覚的分析、３Ｄビデオチャンネルを得るカメラパラメータ、センサ測定または３Ｄカメラシステムのカメラパラメータ、または上記のいかなる組合せに基づいてもよい。調整は、特定の方法または方法のグループに限られない。

一部の３Ｄアプリケーションでは、シーンのトラッキングで発生しうるドリフトを最小化するために、２Ｄアプリケーションよりも頻繁な検索モデルを利用することが望ましい。左右のチャンネルの相対的なドリフトを各々に対して最小化することも望ましい。３Ｄインサートアプリケーションのための検索精度は、例えば、３Ｄシーンの範囲内の不正確な位置に収束している３Ｄ物体と関連した潜在的エラーの観点から望ましい。２Ｄ画像における位置誤差とは対照的に、このような誤差は、不正確なインサートを３Ｄにおいて顕著に不自然な外観にみえる場合がある。例えば、３Ｄフットボール試合テレビ番組の３Ｄ第１ダウンラインのための収束誤差により、競技場の上または競技場の下にラインが表示されることがある。第１のダウンラインの左右のチャンネルインサートは正しい位置を有するのと同様に、長さが一致することが必要であり、そうでなければ、ラインの端は３Ｄにおいて不自然にみえる場合がある。例えば、突然のエラーのような付加的なタイプのエラーは、３Ｄ空間内で物体を突然移動させる原因となる場合がある。サイズの不一致によって、色の誤差または他の外観上の問題が生じる場合がある。そのような場合、モデルマネージャ２９２は、左右のチャンネル間のカメラモデルの違いを考慮することによって、パフォーマンスを高めることができる。

トラッキングブロック２０７、２５７は、例えば、テクスチャテンプレート法などのシーントラッキングのための２Ｄ方法を利用することができる（アストルに対する、「画像テクスチャテンプレートを用いた移動トラッキング」と題した、米国特許第６，７４１，７２５号明細書参照）。３Ｄビデオのチャンネルの視覚分析を使用して、テクスチャテンプレートまたはトラッキングブロックは、シーントラッキングおよび生成モデルのためのシーン内で選択されうる。トラッキング法は、左右のチャンネルから２Ｄテクスチャテンプレートを用いてシーンの２Ｄ情報を使用することができる。他のトラッキング法は、２Ｄシーンテクスチャを使用することができるが、３Ｄ位置情報をトラッキングブロックのために利用することができる。このような方法は、２Ｄテクスチャテンプレートを利用する場合であっても、３Ｄトラッキング法と呼ぶことができる。他の場合には、左右のチャンネルのステレオ視野から得られる３Ｄ情報が用いられる場合がある。ボクセル、または３Ｄピクセルに基づく３Ｄトラッキングブロックは、３Ｄシーントラッキングに用いられる場合がある。このような方法は、オプティカルフローのような他の技術に応用されうる。多くのアプリケーションでは、２Ｄ処理が適切であるが、複雑さおよびコストを最小限に抑えることができる。いくつかの実施形態では、物体または物体の集合体、またはシーンの一部は、３Ｄビデオの個々のチャンネルでトラッキングされるか、または同時に両方のチャンネル全体に共同でトラッキングされうる。

ボクセルを使用して、一部の２Ｄトラッキング法のエラーを回避することができる。例えば、あまりに多くのテンプレートブロックが、背景ブロックと関連して、シーン内の移動する前景の物体に存在すると、２Ｄテンプレートトラッキングが失敗する場合がある。このような前景の物体が背景に対して移動すると、誤ったカメラモデルが算出されうる。このような状態は、バスケットボールの試合のテレビ番組の間に、例えば、カメラがプレーヤにズームインし、トラッキングはプレーヤ上のブロックを使用すると発生する。周知の３Ｄ座標を有するボクセルを使用すると、トラッキングのための３Ｄ位置に基づいて背景ボクセルを選択することが可能となる。例えば、上記の実施形態において、ボクセルは、コートフロアプレートまたは視聴者スタンドプレートに選択されうる。検索と同様に、トラッキングはチャンネル間の違いを考慮しモデルマネージャ２９２の利益を得ることができる。性能の向上は２Ｄブロックまたはボクセル検索を周知の左右のチャンネル関係によって定義される制約内に制限することによって得られる。より小さい領域の上のブロックまたはボクセル検索はよりトラッキング要素の使用を可能にする場合があり、より良いトラッキング精度および性能を与える。上記の分析法は、３Ｄチャンネルの視覚分析、３Ｄカメラシステムのセンサ測定または視覚分析およびセンサ測定の組合せによって達成されうる。ボクセルの使用は、視覚分析の調整または３Ｄビデオのチャンネルと関連したセンサ測定の一部でもよい。

オクルージョンブロック２０９、２５９は、オクルージョン処理を実行することができる。オクルージョン処理は、クロマキーなどの方法を使用してなされうる。３Ｄビデオの場合、オクルージョン処理は、シーンから３Ｄ情報を使用することができる。例えば、シーンの範囲内のピクセルは、テンプレートマッチングのような方法を使用している左右のビデオチャンネルの両方において参照されうる。左右のチャンネルピクセルに対応するための３Ｄ位置情報は、その時、例えば、エピポーラ幾何学法を使用して算出される。ピクセルのための３Ｄ位置情報が決定されると、オクルージョンサブシステムはそれらのピクセルが最前面の物体によってオクルードされるか否かを決定することができる。例えば、ピクセルの背景ブロックが、シーンのピクセルの背景ブロックより３Ｄカメラの近くに位置すると決定される場合、ピクセルの背景ブロックはピクセルの背景ブロックをオクルードするために実行されうる。

図３Ａは、実施形態に係る例示的な３Ｄオクルージョン法の第１図を図示する。プレーヤのリストバンド上の緑色の部分は、左目チャンネル３０２および右目チャンネル３０４のパッチ３０６として示される。左／右目チャンネル３０２、３０４の各々におけるクロマキー法を使用して、このパッチ３０６は、背景競技場３１０の緑色を区別するのが困難であり、ブリーディングの可能性を増加させる場合がある。しかしながら、パッチ３０６および背景３１０のような類似色が含まれるときでも、実施形態はパッチ３０６と背景３１０を区別するために視差方法を使用することができる。視差法が、クロマキー法と共に用いられうる。図３Ｂは、図３Ａの例示的な３Ｄオクルージョン法の第２図を図示する。視差を使用して、リストバンドの緑パッチ３０６の３Ｄ位置が、競技場３１０の類似の緑色よりもカメラ／視聴者３１２により近いと決定されうる。従って、競技場３１０上のプレーヤの背後に置かれた黄色の第１のダウンラインのような仮想インサートは、視差の決定に基づいてパッチ３０６によってオクルードされる場合がある。視差を利用しているインサートおよびエンハンスメントは、パッチ３０６の上の第１のダウンラインインサートの不自然な「ブリーディング」を回避することができる。

図４Ａは実施形態に係る例示的な３Ｄオクルージョン法の第１図を図示する。ここで、空間情報が複数のプレーヤ４０６、４０８のために使用される。例えば、検索を使用して、プレーヤ４０６、４０８が左右のチャンネル４０２、４０４に見つかる。カメラ／視聴者４１２からの距離を含むプレーヤ４０６、４０８の位置が、視差を使用して決定されうる。競技場４１０が、背景に表示され、他のプレーヤおよび仮想インサートによってオクルードされうる。図４Ｂに図示したように、仮想インサート４１４は、カメラ／視聴者４１２により近いプレーヤ４０６によってオクルードされる場合があるが、カメラ／視聴者４１２からより遠いプレーヤ４０８はそうでない。仮想インサート４１４は３Ｄシーン内でプレーヤ４０６と４０８の間にあるように見えうるが、プレーヤ４０６、４０８の後方に競技場の背景４１０にブリードしない。この方法は、３Ｄシーン内で非常に複数のプレーヤまたは物体にも応用されうる。

３Ｄビデオの左右の図間のステレオ視覚分析により、深度図またはマスクの生成も可能となる。ここで、ピクセルまたはビデオシーンの領域は深度測定によって表されうる。ステレオ図から深度図を生成するさまざまな方法が用いられうる。深度図がシーン内で正確に物体の輪郭に続く時、挿入されたグラフィックを除外する（key out）オクルージョンマスクを生成するのに用いる場合がある。除外部分は、最前面の物体をオクルードするのを防止し、挿入したグラフィックの前に現れることを可能にする。例えば、これは、挿入されたグラフィックのピクセルのカメラからの有効な距離と、ピクセルと関連したシーンの位置のカメラからの距離の間のピクセル比較によってピクセルを生成することによって、深度図に得ることができる。例えば、物体またはシーンピクセルがグラフィックの仮想位置よりカメラに近いときに、挿入されたグラフィックは、除外されうる。例えば、物体またはシーンピクセルがカメラからグラフィックの仮想位置よりはるかに離れる時、挿入されたグラフィックは、ビデオに導入（keyed into）されうる。

２Ｄスポーツ放送のビデオに重ね合わされる標準グラフィックは、３Ｄビデオ製品の更なる課題となる場合がある。グラフィックは、時としてスコアバグまたはフォックスボックスと呼ばれる、固定スコアグラフィックオーバレイを含むことができ、それは現在の試合クロック、スコアおよび関連するプレー情報を連続的に表示することができる。グラフィックは一時的にポップアップグラフィックを含むこともでき、時々、試合のプレーヤに関する背景情報を提供する、下位第３（lower-third）グラフィックと称される。このようなグラフィックを３Ｄビデオに挿入する手法は、グラフィックをカメラと関連して固定位置または距離に表示させる。しかしながら、これは、視聴者にとって不快なことがあり、場合によっては、時々、３Ｄテレビ番組に伴う眼精疲労を引き起こす場合がある。視聴者に好ましく見えるグラフィックかどうかは、所与の時刻または時間にわたって３Ｄビデオシーンの物体および背景の深度に依存しうる。物体および視聴距離のより大きな背景の配置は、視聴者が集中しやすく、したがって、視聴者の眼精疲労を低減させる。さらに、カメラに比較定期近く、および／またはシーン要素から遠く離れて配置されるグラフィックは、例えば、ディスプレイ面／画面から遠い、および／または視聴者に近いシーンは、視聴者の気を散らし、および／またはシーンとは無関係なように視聴者に見える。しかしながら、シーン内でグラフィックを統合することは、このような問題を最小化することができる。

視聴者にとってより快適にみえることができるような３Ｄビデオシーンにおいて、実施形態は、バーンイングラフィックを含む仮想グラフィックの配置をガイドするために、カメラモデルを使用しうる。物理モデルとともに、カメラモデルによって、シーンの物体の深度範囲が決定されうる。ある実施形態において、バーンイングラフィックは観察スクリーン／ディスプレイ平面の位置に配置されうる。そして、視聴者から観察スクリーン／ディスプレイ平面と同じ距離に位置するように見える。別の実施形態において、バーンイングラフィックは、視野の物体に関する相当する距離、または視野における物体の僅かにその前または背後に配置されうる。グラフィック配置は、シーンの構成に基づいて異なる場合がある。例えば、フットボールの試合の広い監視ショットを有する高いカメラのグラフィックの配置は、フィールドレベル（フィールド上の一団のプレーヤのズームインされたショット）のためのグラフィックの配置と異なる場合がある。別の実施形態では、バーンイングラフィックは、物体を越えた深度またはシーンのプレー面に配置され、カメラから比較的大きい距離で現れる。カメラモデルおよび検索方法はプレーヤまたはレフェリによっておそらくオクルードされていないスクリーン位置を決定するために用いることができ、または、アルゴリズムはオクルードされていない領域を直接見つけ出すことができる。更なる実施形態において、グラフィック深度は、予想される操作上の範囲（例えば監視図対分離されたプレーヤ範囲）に基づいて、所与のカメラのために固定することができる。これは、計算信号を使用しているか、または、例えば、制作の責任者によってゲームの音声呼び出しを聞いている系統的方法で確認されうる。別の実施形態では、カメラモデルは、カメラから３Ｄ距離を考慮しているグラフィックオーバレイのためのシーン適合性を評価するために用いることができる。グラフィックは、視聴者にとって快いようにさまざまな基準を使用して、選択的に可能である。

実施形態は、３Ｄビデオシーンに挿入されうる他の情報に拡張することができる。字幕スーパーまたはクローズドキャプションテキストは、３Ｄシーン内でインサートおよび組み込むことができる。眼精疲労または他の機能的または美的な理由を最小化するために、インサートを配置してもよい。例えば、ダイアログテキストを、シーンの話し手の近くに配置してもよい。例えば、ビデオストリーム内のメタデータは、シーン内でクローズキャプションテキストの自動配置を可能にすることができる。仮想インサート配置は、視聴者によって制御されることができ、例えば、カッツらによる２００９年８月１３日に出願した「双方向ビデオインサートおよびそのアプリケーション」と題する、米国特許出願公開第２０１０／００５００８２号明細書に記載するように行うことができ、同文献は、本明細書にその内容が参考として完全に組み込まれている。例えば、３Ｄビデオを見る時、眼精疲労の傾向があるかその影響を受けやすい視聴者は、より長い視聴距離ではインサートを選択することができる。

実施形態は３Ｄビデオの様々なタイプのデータを提示するためにシーンと統合される仮想グラフィックを利用することができ、その結果、データは視聴者にとって快適にみえる。試合状況に関する情報は、例えば、グラウンド上へ統合される英数字グラフィックとして提示されうる。ある実施形態において、例えば野球の試合の、またはセンターサークルの一部、またはサッカーの試合のエンドラインの近くにおけるピッチャーマウンドの次のように、このようなデータは、固定された分野位置において提示されうる。別の実施形態では、情報のグラフィックは他の仮想グラフィック（例えば、ダウンおよび／または距離グラフィック）に取り付けられることができ、これは、第１ダウンラインまたはスクリメージライングラフィックの配置と関係している。情報のグラフィックは、テレビ生産の代替位置に示されうる。これは背面の壁、または野球の試合のスタンド、またはフットボールの試合の制作物におけるスタジアムの構造物の上方デッキから吊り下げられたサインを含むことができる。

より大きな視聴距離で仮想インサートを配置することは、眼精疲労を減らすことができ、比較的間近に焦点を合わせる期間の後に、目の焦点を合わせる必要性を減らすことができる。３Ｄビデオに影響され、頭痛を呈しうる一部の視聴者のために、より大きな距離に集中することは、不快な症状を減らすことができる。仮想インサート距離を制御する能力を有することは、ビデオ制作が３Ｄビデオと関連した眼精疲労および他の症状を減らすことを可能にすることができる。

３Ｄビデオカメラシステムのパラメータは、接眼レンズ間隔およびトーアングルを含む。接眼レンズ間隔はレンズ間の距離であり、トーアングルはレンズ間の相対的な視野角である。パラメータは、オペレータによって手動で制御されうる。これは、一つまたはそれ以上の３Ｄカメラ操作者を支援するために、指定された個人によって実施されうる。モーターは、パラメータを調整するために、カメラを動かすことができる。パラメータは、物体との距離および他のシーン情報に基づいて決定されうる。オペレータは類似のシーンに伴う経験に依存し、周知のガイドラインを使用し、ライブヴュースクリーンを使用し、または他の技術を使用することによってパラメータを決定することができる。カメラまたはカメラコントローラは、カメラの設定を決定するために、テーブル、または視聴距離、視野角、シーンジオメトリ、その他のようなパラメータを検索することに基づいて、これらのパラメータを算出することができる。接眼レンズ間隔およびトーアングルは、２つのステレオチャンネルの間に背景内の特徴ポイントに視覚的に一致させ、登録することによって、直接計算されうる。周知のカメラ接眼レンズ間隔およびトーアングルは、３Ｄインサートモデルのための算出に組み込まれることができる。例えば、これらのパラメータは、メタデータとしてビデオ内で埋められることができるか、または仮想インサートシステムに直接データチャンネルを介して送られうる。

３Ｄカメラからの設定／パラメータと関連したカメラデータを使用した実施形態において、コントローラは、カメラによって制作されるビデオ録画の垂直帰線消去期間に、３Ｄカメラデータを埋め込むことができる。３Ｄカメラデータは、接眼レンズ間隔、トーアングル、ズーム、焦点、エクステンダおよび他の３Ｄカメラパラメータまたは信号を含むことができる。３Ｄカメラマウント（例えば、パン、および２Ｄビデオを使用されるシステムからデータと類似のチルトデータ）からの付加的なデータは、また、３Ｄカメラデータに含まれることができる。この種の埋め込み３Ｄカメラデータは、３Ｄ仮想インサートのために、放送スタジオなどの遠隔の場所にビデオで送られることができる。ビデオまたはインサート方法のインサート領域は、仮想インサートシステムのための最終的な目的地でデータ保全性を確実にするように選択されうる。他の例では、カメラデータは、ビデオの水平帰線消去領域または水平補助的データ（ＨＡＮＣ）領域の中で使っていない音声チャンネル内でエンコードされる場合がある。

カメラデータ以外の他のタイプのメタデータは、ビデオ制作および／または配布の流れの下流の段階において仮想３Ｄのインサートを可能にするために、ビデオに挿入されてもよい。一つの実施形態において、４点が、左右のチャンネルの各々のための仮想インサートのためのターゲット領域を定義しうる。これらの８点は、後の段階でインサート用に供することができる３Ｄ矩形の平面を定義する。挿入されたエンハンスメントの位置を示すために、エッジ、曲線またはスプラインのような他の数の点または代替表現が用いられてもよい。他の例では、３Ｄターゲットプレースホルダがビデオに挿入され、その後下流で置換されてもよい。ターゲットプレースホルダは、エンハンスメントを特定のフレームまたはキーフレームに挿入するための画像座標を表すことができる。中間フレーム用のターゲットプレースホルダは、中間フレームの時間的近く内で、キーフレームのターゲットプレースホルダから挿入されうるかまたは決定されうる。あるいは、ターゲットプレースホルダは、シーン（例えば、フットボール場）の物体の画像座標がエンハンスメントまたはインサートの画像座標を決定するために使用されることを表すことができる。それが能動的な視聴の用に供するビデオの部分に影響を及ぼさないように、座標は３Ｄビデオに埋め込まれるかまたはエンコードされうる。これは、ビデオの水平帰線消去領域または水平補助的データ（ＨＡＮＣ）領域内で使用されない音声チャンネルを含むことができない。オクルードされた領域がプレースホルダに含まれないように、プレースホルダは処理されうる。別の実施形態において、インサート位置は、別にエンコードされるメタデータおよびオクルージョンキーマスクにエンコードされうる。さまざまな類似の方法は、当業者によって考案されうる。

場合によっては、スタジオのような下流ではなく、イベント場所などの上流でビデオを処理することが好ましい場合がある。例えば、スタジオのビデオが衛星通信を容易にするために圧縮されうるのに対して、イベントで利用可能なビデオは圧縮されていないことがある。例えば、オクルージョン処理が、非圧縮ビデオを使用して、より良好な結果を提供しうる。他の例では、スタジオよりも上流の段階に少なくとも一部の処理を負荷分散させることによって、スタジオの機器が占めるスペースを少なく保つことが望ましい。

一部のアプリケーションでは、インサート／カメラモデルを算出するためにカメラデータおよび視野処理の組合せを使用するか、またはモデルを算出して、カメラシステム／シーンパラメータを導出するために一の視野処理を使用することが望ましい。一つの実施形態において、パンおよびチルトデータは、近似の検索位置を視野ベースの方法を使用して検索を改良することができる視野ベースのシステムに提供するために用いうる。他の例では、近似の検索位置は、３Ｄカメラから利用される視野処理および接眼レンズ間隔およびトーアングルによって引き出されうる。さまざまな組合せは、異なるアプリケーションおよび信号有効性に有利かもしれない。視野ベースの処理は、３Ｄビデオのテレビチャンネルの視覚分析によって成し遂げられることができる。チャンネルは、個々に、または組み合わせて共に処理されうる。

個々のチャンネルまたはチャンネル自体のカメラモデルが、３Ｄカメラシステムの接眼レンズ間隔またはトーアングルパラメータを算出するために、個々に、または共同で用いられうる。算出パラメータは、３Ｄカメラを制御するかまたは手動カメラオペレータ制御を増やすために用いることができる。ビデオが新しい設定に応答して変化する時、これらの設定は改良されることができ、新しいカメラモデル／パラメータが算出される。視聴者に不快なフレーミングを回避するズームのようなパラメータに制限を設けてもよい。自動的に接眼レンズ間隔およびトーアングルを算出することにより、３Ｄカメラのより速い準備を可能となり、より一貫した準備および結果を提供することができる。自動パラメータ算出は、仕事を最小化することによって、制作コストを節約することができる。３Ｄ制作物は、視聴者に３Ｄ構造のより強い感覚を与えるために、シーンの比較的近い視野を支持することができる。物体が比較的かなりの視聴距離である、比較的長い視野は視聴者により２Ｄビデオのようにみえることができ、３Ｄ制作物がこのような視野のために必要とされないとみなされうる。例えば、フットボールテレビ番組中のような、より近い距離のフレーミングアクションショットは、３Ｄカメラを急速に組み立てるかまたは準備する課題を提供することができる。このようなケースのために、実施形態は、自動的に様々なシーンショットの３Ｄカメラパラメータを調整するために用いることができる。例えば、これらの方法を使用して、長いフットボールパスは、より一貫してズームアウトショットと対照的に、ロングパスのより堅い様々なショットに包含される場合がある。

仮想インサートの別の実施形態において、例えば、テレビ放送される３Ｄフットボール試合の仮想３Ｄ第１ダウンラインのような特定の平面にインサートを配置することが望ましい。最終的なインサートがシーン内の正しい３Ｄ位置に収束するように、左右のチャンネルインサート部はフレーム内で正しく配置されることを必要とする。例えば、位置誤差は、第１のダウンラインによって、フィールドの平面を通じて、またはその下に現れる。このような課題を回避するために、左右のチャンネルインサート位置は、モニタされることができ、最終的な３Ｄインサートがシーンの特定の平面に収束することを確実にするように調整されうる。例えば、場合によっては、競技場の下ではなく競技場の上など、平面の一方の側に誤るほうが、問題がないか、好ましいことがある。

図５は、３Ｄビデオへのインサートおよびエンハンスメントを生成するための実施形態の概略図であり、３Ｄビデオが統合化法を使用して扱われることができることを示す。入力である３Ｄビデオ入力５０１が、独立High Definition Serial Digital
Interface（ＨＤ−ＳＤＩ）が供給するような分離された左右のチャンネルから成ることができるか、またはインターレースする左右のチャンネルを有する複合フィードから成ることができる。インターレースインターレースは、単一のＨＤ−ＳＤＩストリーム、またはストリームを組み合わせることによる交互方式を用いて、歪像的に圧搾している左右チャンネルを含むことができる。３Ｄビデオ入力５０１は、インサートおよび／またはエンハンスメントを含み、３Ｄビデオ出力５２１を出力するために変更されうる。インサートおよび／またはエンハンスメントは、元のビデオの一部である視聴者にリアルに表示されることができる。主コントローラ（５０３とインタフェースしている統合した主要な制御）は、サブシステムブロック５０３〜５１３を制御、調整することができる。組み合わされるか、またはコンポジットストリームに個々のチャンネルをエンコードする他の方式が可能で、ビデオ圧縮方法に基づいてもよい。

統合検索ブロック５０５は、３Ｄビデオ入力５０１を分析することができ、カメラモデルを算出することができ、プログラムビデオシーンのためのシーンジオメトリを分析することができる。カメラモデルおよび分析は単一のチャンネルから導出することができ、２本目のチャンネルに外挿されうる。そして、単一のチャンネルを引き出し、２本目のチャンネルを処理することによって改良され、最適に両方の視野または上記のいかなる組合せ／順列にもマッチするモデルを有する両方のチャンネルから計算される。統合検索ブロック５０５、視覚分析は、左右のチャンネル内に視覚の特徴の画像位置を導出するために用いることができる。合成されたカメラモデルは、３Ｄビデオチャンネルのシーン特徴の画像位置の関連およびシーン特徴に対応する３Ｄ位置による特定のフレームのために生成することができる。合成されたカメラモデルは、個々のチャンネルのために引き出される特徴位置を一致させることによって生成することができる。例えば、これは、特徴の画像位置と３Ｄシーン位置の間にマッピングに適合する最小自乗誤差を計算することによって達成されうる。

統合トラッキングブロック５０７は、単一の視野に基づいてモデルを更新することができて、第２視野を外挿することができる。統合トラッキングブロック５０７は、第２視野によって改良される単一の視野に基づいてモデルを更新することができ、最適に両方の視野にマッチするために直接モデルを更新することができるか、または、上記のいかなる組合せ／順列に基づいても、モデルを更新することができる。視覚分析は、統合トラッキングブロック５０７、一連の画像でフレームの間に特徴位置または興味のある点をトラッキングするために用いることができる。これは、物理的なセンサ測定と結合して実行されうる。統合トラッキングブロック５０７は、コントローラ２９０（図２）のモデルマネージャ２９２に同様の方法で複合モデルを生成することができるか、またはホッケープレーヤのヘルメットのような物体または一部をトラッキングすることができる。１つの実施形態において、それぞれ物体はトラッキングされ、シーンはトラッキングされうる。その結果、シーンと関連する物***置はプレーヤのような物体の背後に跡を置くようなグラフィック効果を導出することができる。さらにまた、通信するか、またはカメラおよび／またはレンズに電気接続を行うことによって、統合トラッキングブロック５０７は、カメラヘッド（パン、チルト、接眼レンズ間隔、トーアングル、その他）を取り付けることによって得られるデータを使用することができ、レンズ情報（ズーム、焦点、ダブラー、Ｆストップ、光軸トーイン、その他）を抽出した。１つの実施形態において、前撮影較正プロセスは、左右のカメラ視野の関係を導出するために用いる。別の実施形態において、左右の目チャンネルモデルは、物理的なカメラについての知識に基づいて、例えば、左右の目チャンネルカメラセンサ、レンズパラメータ等の知識に基づいて引き出される。実行時で、カメラモデルは１本のチャンネルのために計算されることができ、較正モデルは他のチャンネルのカメラモデルを導出するために用いることができる。

統合オクルージョンブロック５０９は、最前面の物体が各チャンネルと関連したマスクキーを生成することによって、３Ｄビデオへのインサートおよびエンハンスメントをオクルードする時点を決定することができる。クロマキー手法では、一方または両方のチャンネルはインサート領域の最適色を決定するために用いることができ、これは両方のチャンネルの独立キーを生成するために用いることができる。両方のチャンネルの背景ピクセル間の通信は、特定のカメラチャンネルのためのマスクキーのショットノイズまたは他のオクルージョンアーチファクトをスムージングするために用いることができる。あるいは、両方のチャンネルのためのオクルージョンマスクは、ステレオ深度図から直接計算されうる。両方のチャンネルのためのマスクは、各チャンネルのための同じ対応するピクセルがマスキングのために確実に選択されようにするために処理されうる。１本のチャンネルにおいてマスキングされて、他のチャンネルにおいてマスキングされない一部のピクセルを有することは、例えば、マッチしている不適当な左右のチャンネルによって生じるインサートの色誤差または他のアーチファクトが生じる場合がある。視覚分析は、各チャンネルのためのマスクキーを生成するために、統合オクルージョンブロック５０９によって使用されうる。視覚分析は、各チャンネルのためのマスクキーを生成するために、統合オクルージョンブロック５０９により使用されうる。

統合レンダーブロック５１１は、個々の左右のチャンネルモデルから決定される複合モデルに基づいて、インサートの立体レンダリングを実行することができる。グラフィックレンダリングエンジンは、３Ｄビデオと統合される仮想インサートのための同時の左右のチャンネルを生成するために用いることができる。グラフィックキーとのオクルージョンマスクのキーミキシングは、統合レンダーブロック５１１によって行うことができ、更に、３Ｄフィルチャンネルとの３Ｄビデオの最終的なミキシングがおそらく行われる。また、ミキシングは独立統合ミキサーブロック５１３を使用して行うことができ、それは２つの放送ビデオミキサーを含むことができる。いくつかの実施形態では、左右のチャンネルが標準ビデオ形式（例えば、ＨＤ−ＳＤＩ）においてインターレースされる場合、ミキシングは単一の放送ミキサーによって行うことができる。

実施形態において、統合レンダーブロック５１１は、統合検索ブロック５０５および統合トラッキングブロック５０７で測定されるカメラモデルに従って、視覚要素をレンダリングすることができる。一例では、視覚要素は三次元の物体でもよく、統合レンダーブロック５１１はビデオ内で現れるために三次元の物体をレンダリングすることができる。その実施形態において、統合レンダーブロック５１１は３次元モデリング技術を使用している三次元動的な／アニメーションの図をレンダリングすることができ、例えば、テクスチャロード、視界ポートに対する仮想カメラモデリングおよびレンダリングを含む。あるいは、レンダリングした３Ｄ物体は、第１ダウンラインの３Ｄ代表のような静的でもよい。三次元レンダリング技術が、ゲームアプリケーションのそれらのように用いられることができる。別の実施形態において、３Ｄビデオ入力５０１に挿入される視覚要素は、画像、ビデオ、グラフィック、テキストまたは広告（例えば、広告ロゴ）でもよい。視覚要素は文字フォントを使用して生成されうる。そして、インサートがデータソース（例えば、スポーツ競技中に試合のデータまたはプレーヤ位置統計を放送しているチャンネル）に得ることができる。結合されるかまたは３Ｄビデオを混合される仮想要素は、エンハンスメントの３Ｄビデオへのインサートであると考えられる。
３Ｄビデオ入力５０１に挿入される視覚要素は、仮想第１ダウンラインのインサートはフットボールプレイ表面の背景に固定したように、背景によってシーンをトラッキングすることができる。視覚要素は、スポーツ競技中にプレーヤの足に配置される輪のように、興味のある点をトラッキングすることができる。グラフィックの一部は、ビデオ（例えば、スポーツ競技のプレーヤを示す矢印であり、矢印の先端のみが興味のある点の位置をトラッキングするなど）内で、興味のある点をトラッキングすることができる。例えば、グラフィックは放送ビデオの動くプレーヤの進路（経路）をマークした時、３Ｄグラフィックインサートは背景シーンおよび最前面の興味のある点と関連しうる。この場合、進路の位置（時間による足の位置）は、最初の興味のある点のトラッキングに基づいて初期化され、その後、カメラの動きを補償するために更新される。

一つの実施形態において、プレーヤの移動を図示する、３Ｄテレストレーショングラフィックは、例えば、競技面上の３Ｄにおいて覆われる。別の実施形態では、テレストレーショングラフィックは、カメラからの設定された距離のバーンインとして表されうる。これは、若干のアプリケーションでよく作用しうるが、シーン空間情報から利益を得ることができた他において制限されうる。例えば、テレストレートアーオペレータは、カメラまたはディスプレイ平面から距離に基づいてプレーヤの周辺に円を配置しうる。一部のプレーヤにとって、このような円はプレーヤを囲むように見えるかもしれないが、他のプレーヤでは、円がプレーヤの上に浮くように見えるかもしれない。例えば、近いプレーヤの足のようなシーン内の３Ｄ位置に基づいてこのような円を配置することは、プレーヤと円の間の視覚の関係を改善することができる。類似の問題は、プレーヤを示している矢印を含む他のグラフィックにも適用されうる。例えば、ディスプレイ平面の背後に所定距離で矢印を配置すると、矢印が、プレーヤの近くに、または明らかにリンクしたようにみえない場合もある。特定の実施態様において、３Ｄビデオのテレストレーショングラフィックは、マニュアルインタフェース（タッチスクリーン、マウス、ゲーム装置、タブレット、その他）を使用して獲得されるユーザ命令に基づいて、一部に配置および／または生成されうる。例えば、テレストレーターグラフィックは、プレーヤに続く矢印のような３Ｄシーンを有するトラッキングを作製することができる。例えば、テレストレーターシーントラッキングは、カメラ接眼レンズ間隔およびトーアングルデータを使用することを含み、本明細書において記載されている方法を用いることが可能である。図示する実施形態において、円は、プレーヤのウエストのまわりに挿入されうる。２Ｄ法を使用して、プレーヤの足の近くのシーンに円を配置すると、プレーヤと円との関連がなされないことがある。３Ｄ空間に円を正確に配置することは、これを修正することができる。３Ｄビデオとミキシングまたは結合されたテレストレーショングラフィックは、３Ｄビデオへのエンハンスメントのインサートであると考えられる。

図６は、実施形態に係る例示的な３Ｄビデオ制作および販売の流れを例示する。図６で図示したように、カメラおよび他のデータ情報を使用する３Ｄビデオの仮想インサート／エンハンスメントは、３Ｄビデオの流れの異なる段階で提供されうる。スポーツ会場６０２の試合が、複数の３Ｄビデオカメラ６０４によって包含され、３Ｄビデオフィードがオンサイト制作６０６に送信される。例えば、３Ｄ仮想インサートシステムは、オンサイト制作６０６の左／右チャンネルスイッチャから上流の３Ｄインサートシステム６０８で専用３Ｄビデオカメラフィードを修正することができる。システムは、オンサイト制作６０６から下流の３Ｄインサートシステム６１０でオンサイト３Ｄビデオ番組フィードを修正することができる。

カメラデータ情報は３Ｄカメラまたは３Ｄカメラシステムを取り付けることによって抽出されることができ、それはレンズ、コントローラおよび三脚ヘッドを含むことができる。カメラデータ情報は、データ接続、または情報をビデオ形式にエンコードすることによって３Ｄインサートシステムに提供されうる。カメラモデル情報は、ビデオまたはビデオ分析およびカメラセンサの組合せを分析することによって、直接抽出されうる。３Ｄビデオフィードはビデオ伝送６１２によって放送スタジオプロダクション６１４のような遠隔位置に送信され、ここで、仮想インサートが３Ｄインサートシステム６１６を使用して３Ｄビデオに統合されうる。カメラモデルまたはデータパラメータはオンサイト制作段階から遠隔の位置まで送信され、ここで、データが受信され、３Ｄビデオにエンハンスメントを統合するために利用される。仮想インサートを有する３Ｄビデオは３Ｄビデオ配信６２０によって配信されうる。ここで、テレビ６２２、インターネット６２４または携帯電話６２６を含むプラットフォームに提供されうる。

実施形態において、仮想インサートは、放送ビデオの一方または両方のチャンネルのビデオ分析法を用いて、オンサイト制作と離れた位置で、３Ｄビデオに統合される。その位置は、放送スタジオ、ローカルケーブルヘッドエンド、ローカルケーブルヘッドエンド、ケーブルノード、セットトップボックス、コンピュータシステムおよびモバイル機器を含むが、これに限定されるものではない。別の実施形態では、ビデオ分析は、オンサイトで行われるか、またはこれらに限定されないが、例えばスタジオまたはローカルケーブルヘッドエンドのような遠隔位置において行われうる。情報は、インサートが統合される（ローカルケーブルヘッドエンド、ローカルケーブルヘッドエンド、ケーブルノード、セットトップボックス）配布チェーンにおいて下流に伝達されうる。さらに別の実施形態では、カメラセンサ情報は、３Ｄビデオカメラのために導出することができ、３Ｄビデオにグラフィックを統合する仮想インサートシステムにより用いられる会場から離れた位置に送られることができる。

図７は、３Ｄビデオへのインサートのための実施形態を実施するために用いられる例示的なコンピュータシステム７００の概略図である。各種実施形態のさまざまな態様は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせによって行うことができる。図７は、実施形態またはその部分がコンピュータ可読のコードとして行うことができる例示的なコンピュータシステム７００を例示する。図７は、実施形態またはその部分がコンピュータ可読のコードとして実行されうるコンピュータシステム７００を例示する。各種実施形態は、この実施形態コンピュータシステム７００に関して記載されている。この記載を読んだ後、どのように他のコンピュータシステムおよび／またはコンピュータアーキテクチャを用いた実施形態の実施方法は、当業者にとって明らかである。

コンピュータシステム７００は、プロセッサ７０４のような一つまたはそれ以上のプロセッサを含む。プロセッサ７０４は、特殊用途または汎用プロセッサでありうる。プロセッサ７０４は、例えば、バスまたはネットワークの通信基盤７０６に接続している。

コンピュータシステム７００もまた、メインメモリ７０８、好ましくはランダムアクセスメモリ（ＲＡＭ）を含み、二次記憶装置７１０を含むこともできる。例えば、二次記憶装置７１０は、ハードディスク装置７１２および／または着脱可能な記憶装置７１４を含むことができる。着脱可能な記憶装置７１４は、フロッピー（登録商標）ディスク装置、磁気テープドライブ、光ディスクドライブ、フラッシュメモリ等を含むことができる。着脱可能な記憶装置７１４は、周知の方法のリムーバブル記憶ユニット７１８から読みおよび／または書く。リムーバブル記憶ユニット７１８はフロッピー（登録商標）ディスク、磁気テープ、光ディスク、その他を含むことができ、それは着脱可能な記憶装置７１４によって読み書きされる。当該技術の当業者が理解できるように、リムーバブル記憶ユニット７１８は、本明細書において、コンピュータソフトウェアおよび／またはデータを格納していた有形の計算機可読の記憶媒体を含む。

別の実施形態において、二次記憶装置７１０は、コンピュータプログラムまたは他の指示がコンピュータシステム７００にロードされるための他の類似の手段を含むことができる。このような手段は、例えば、リムーバブル記憶ユニット７２２およびインタフェース７２０を含むことができる。このような手段の実施形態は、プログラムカートリッジおよびカートリッジインタフェース（例えば、ビデオゲーム装置でみられる）、着脱可能なメモリチップ（例えば、ＥＰＲＯＭまたはＰＲＯＭ）および付随するソケット、および、ソフトウェアおよびデータがリムーバブル記憶ユニット７２２へ、コンピュータシステム７００へ転送されうる他のリムーバブル記憶ユニット７２２およびインタフェース７２０を含むことができる。

コンピュータシステム７００は、通信インタフェース７２４を含むこともできる。通信インタフェース７２４によって、ソフトウェアおよびデータがコンピュータシステム７００と外部素子の間に転送されうる。通信インタフェース７２４は、モデム、ネットワークインタフェース（例えば、イーサネット（登録商標）カード）、通信ポート、ＰＣＭＣＩＡスロットおよびカード等を含むことができる。通信インタフェース７２４を介して転送されるソフトウェアおよびデータは、通信パス７２６を介して通信インタフェース７２４に提供される。通信パス７２６は、ワイヤまたはケーブル、光ファイバ、電話回線、携帯電話リンク、ＲＦリンクまたは他の通信チャンネルを使用して実行されうる。

この明細書において、用語「コンピュータプログラム媒体」および「コンピュータが使用可能な媒体」は、一般に、ハードディスク装置７１２に取り付けられる着脱可能な記憶ユニット７１８、着脱可能な記憶ユニット７２２およびハードディスクのようなメディアを指すために用いる。コンピュータプログラム媒体およびコンピュータが使用可能な媒体はメインメモリ７０８および二次記憶装置７１０のようなメモリを指してもよく、それはメモリ半導体（例えば、ＤＲＡＭ、その他）でありうる。これらのコンピュープログラム製品は、ソフトウェアをコンピュータシステム７００に提供するための手段である。

コンピュータプログラム（計算機制御ロジックとも呼ばれる）は、メインメモリ７０８および／または二次記憶装置７１０に格納される。コンピュータプログラムは、通信インタフェース７２４を介して受け取られることもできる。実行される時、このようなコンピュータプログラムは、上述したシステムのように、コンピュータシステム７００が本明細書において述べられる実施形態を実行することを可能にする。特に、実行される時、コンピュータプログラムによってプロセッサ７０４が実施形態の方法を実行することが可能になる。従って、そのようなコンピュータプログラムは、コンピュータシステム７００のコントローラを示す。実施形態がソフトウェアを使用して実行されるところで、ソフトウェアはコンピュータプログラム製品に格納されることができ、着脱可能な記憶装置７１４、インタフェース７２０、ハードディスク７１２または通信インタフェース７２４を使用するコンピュータシステム７００にロードされうる。

３Ｄビデオおよびそのアプリケーションへの挿入のシステム、装置、および方法は上述されている。要約ではない、発明の詳細な説明の部分が特許請求の範囲を解釈するために用いることが認められる。要約は一つまたはそれ以上を記載することができるが、発明者によって、このように意図される本発明のすべての例示的実施形態はいかなる形であれ、本発明および添付の特許請求の範囲を制限することを目的としない。

実施形態は、特定された機能およびその関係の実現を例示している機能的な基礎的要素を用いて上述された。これらの機能的な基礎的要素の限界は、説明の便宜のために、本明細書において任意に定められた。特定された機能およびその関係が適切に実行される限り、交互の限界は定められることができる。

特定の実施形態の上述の記載は、本発明の一般的な性質を非常に十分にあらわしているので、他が当該技術の当業者で知識を適用することによって、本発明の一般の概念を逸脱しない範囲で、過度の実験なしで、直ちに特定の実施形態のようなさまざまな出願に修正および／または適用することができる。従って、本願明細書において提示される教示およびガイダンスに基づいて、この種の変更および修正は、開示された実施形態の相当の意味および範囲内にあることを目的とする。本明細書において、語法または用語が説明の目的のために、および制限されないことを理解すべきである。その結果、本明細書の用語または語法は教示およびガイダンスにおける当業者によって解釈される。

本発明の広さおよび範囲は、上述した例示的な実施形態のいずれによっても限定されず、以下の特許請求の範囲およびその均等物によってのみ規定されなければならない。

Claims

少なくとも３Ｄビデオの第１チャンネルに基づいて第１のカメラデータパラメータを決定することと、
少なくとも３Ｄビデオの第１チャンネルと３Ｄビデオの第２チャンネルとの関係に基づいて第２のカメラデータパラメータを決定することと、
前記第１のカメラデータパラメータおよび前記第２のカメラデータパラメータと調整された複合カメラモデルを生成することと、
前記複合カメラモデルに基づいてエンハンスメントを３Ｄビデオに挿入することと、を含む方法。
さらに、前記第１のカメラデータパラメータおよび前記第２のカメラデータパラメータを調整することを含む、請求項１に記載の方法。
さらに、前記３Ｄビデオの前記第１および第２チャンネルのうち少なくとも１つの視覚分析に基づいて前記カメラデータパラメータを導出することを含む、請求項１に記載の方法。
前記カメラデータパラメータが接眼レンズ間隔またはトーアングルを含む、請求項１に記載の方法。
さらに、前記カメラデータパラメータに基づいて、前記３Ｄビデオと関連した３Ｄカメラシステムを自動的に調整することを含む、請求項１に記載の方法。
前記第１および第２のカメラデータパラメータのうち少なくとも１つが前記３Ｄビデオと関連した３Ｄカメラシステムから得られる、請求項１の方法。
さらに、少なくとも前記第１チャンネルの検索分析に基づいて前記第１および第２のカメラデータパラメータを決定することを含む、請求項１に記載の方法。
前記検索分析がボクセルに基づく、請求項７に記載の方法。
さらに、前記３Ｄビデオの前記第１チャンネルと第２チャンネルとの間の関係に基づいて検索分析を制約することを含む、請求項７に記載の方法。
さらに、前記第１チャンネルの少なくともトラッキング分析に基づいて前記第１および第２のカメラデータパラメータを更新することを含む、請求項１に記載の方法。
前記トラッキング分析がボクセルに基づく、請求項１０に記載の方法。
さらに、前記複合カメラモデルに基づいて前記エンハンスメントをオクルードすることを含む、請求項１に記載の方法。
さらに、前記３Ｄビデオの第１および第２チャンネルと関連した視差情報から決定される目標物体距離に基づいて前記エンハンスメントをオクルードすることを含む、請求項１２に記載の方法。
さらに、受信された入力に従って前記エンハンスメントを３Ｄ位置にインタラクティブに配置することを含む、請求項１に記載の方法。
前記エンハンスメントがテレストレーショングラフィックである、請求項１４に記載の方法。
前記エンハンスメントがレンダリングした３次元視覚要素である、請求項１に記載の方法
さらに、前記３Ｄビデオおよび一種の前記エンハンスメントのシーン構成に従って前記エンハンスメントを３Ｄ位置に自動的に置くことを含む、請求項１に記載の方法。
前記エンハンスメントが、統合グラフィック、スコアボックスグラフィック、テレストレーショングラフィック、サブタイトル、クローズドキャプション、ポップアップグラフィック、オーバレイグラフィック、およびバーンイングラフィックのうち少なくとも１つである、請求項１７に記載の方法。
さらに、接眼レンズ間隔またはトーアングルを含む少なくともカメラデータに基づき、３Ｄ空間において、前記３Ｄビデオと関連した興味のある点をトラッキングするために前記エンハンスメントを更新することを含む、請求項１に記載の方法。
前記カメラデータパラメータが接眼レンズ間隔またはトーアングルを含み、前記挿入することが、オンサイト制作の流れの段階から遠隔で実行される、請求項１に記載の方法
さらに、前記オンサイト制作の流れの段階から離れた流れの段階で前記カメラデータパラメータを受信することを含む、請求項２０に記載の方法。
さらに、前記オンサイト制作の流れの段階に前記３Ｄビデオに前記カメラデータパラメータを埋め込むことを含むことを特徴とする請求項２０に記載の方法。
前記３Ｄビデオへ前記エンハンスメントに対しターゲットプレースホルダを挿入することを更に含み、前記エンハラスメントの前記挿入は、前記ターゲットプレースホルダに基づいて前記３Ｄビデオの段階の下流の段階で実行される、請求項２０に記載の方法。
前記ターゲットプレースホルダがオンサイト制作の流れの段階で生成される、請求項２３の方法。
前記ターゲットプレースホルダがオンサイト制作の流れの段階の下流の一元化された位置で生成される、請求項２３の方法。
３Ｄビデオの少なくとも第１チャンネルに基づいて第１のカメラデータパラメータを決定することと、
前記３Ｄビデオの前記第１チャンネルと第２チャンネルとの間の関係に基づいて第２のカメラデータパラメータを導出することと、
前記第１および第２のカメラデータパラメータに基づいて前記３Ｄビデオにエンハンスメントを挿入することと、を含む方法。
３Ｄビデオの少なくとも第１チャンネルおよび前記３Ｄビデオの第２チャンネルに基づいて基準カメラモデルを決定することと、
前記基準カメラモデルおよび前記３Ｄビデオの前記第１チャンネルおよび第２チャンネルに関連したオフセットに基づいて第１のカメラモデルを導出することと、
前記基準カメラモデルおよび前記オフセットに基づいて第２のカメラモデルを導出することと、
前記第１および第２のカメラモデルに基づいて前記３Ｄビデオにエンハンスメントを挿入することと、を含む方法。
３Ｄビデオの第１チャンネルの少なくとも視覚分析に基づいて第１のカメラモデルを決定することと、
前記３Ｄビデオの第２チャンネルの少なくとも視覚分析に基づいて第２のカメラモデルを決定することと、
前記第１のカメラモデルおよび前記第２のカメラモデルを調整することによって複合カメラモデルを生成することと、
前記複合カメラモデルに基づいて前記３Ｄビデオにスコアボックスを挿入することと、を含む方法。
３Ｄビデオの少なくとも第１チャンネルに基づいて第１のカメラモデルを決定するための第１の検索モジュールと、
前記３Ｄビデオの少なくとも第２チャンネルに基づいて第２のカメラモデルを決定するための第２の検索モジュールと、
前記第１のカメラモデルと前記第２のカメラモデルとを調整することによって複合カメラモデルを生成するためのコントローラーモジュールと、
前記複合カメラモデルに基づいて３Ｄビデオにエンハンスメントを挿入するためのミキサーモジュールと、を含む方法。
３Ｄビデオの少なくとも第１チャンネルと関連した第１のカメラデータパラメータを受信することと、
前記３Ｄビデオの第２チャンネルと関連して前記３Ｄビデオの前記第１チャンネルと関連した第２のカメラデータパラメータを受信することと、
前記エンハンスメントを前記第１および第２カメラデータパラメータに基づいて前記３Ｄビデオに挿入することと、を含み、前記挿入がオンサイト制作の流れの段階から離れて実行される方法。
さらに、少なくとも前記第１および第２のカメラデータパラメータに基づいて複合カメラモデルを生成することを含む、請求項３０の方法。
前記第２のカメラデータパラメータが前記３Ｄビデオの接眼レンズ間隔またはトーアングルである、請求項３０に記載の方法。
前記第１および第２のカメラデータパラメータがオンサイト制作の流れの段階から送信される、請求項３０に記載の方法。