JP4981370B2

JP4981370B2 - 動画生成システム、及び動画生成方法

Info

Publication number: JP4981370B2
Application number: JP2006176937A
Authority: JP
Inventors: 和弘大村
Original assignee: Xing Inc
Current assignee: Xing Inc
Priority date: 2006-06-27
Filing date: 2006-06-27
Publication date: 2012-07-18
Anticipated expiration: 2026-06-27
Also published as: JP2008010966A

Description

本発明は、様々な動作を行うことが可能であると共に見る位置を自在に変更できる三次元的な人体画像等を含む動画に、実際に撮影した被写体の画像を合成して合成動画を生成する動画生成システム、及び動画生成方法に関する。

従来、モーションキャプチャ技術を用いて三次元的な動画を作成することが行われている（特許文献１参照）。モーションキャプチャとは、人体の所要箇所にデータ取得対象となるマーカを複数取り付けた状態で、その人にダンス及びスポーツ等の動きを行ってもらうことにより、三次元座標系におけるマーカを付した箇所の座標値及び角度を表すモーションデータ（姿勢情報）を取得するものである。

このように取得されたモーションデータを利用して人体を表す動体（人体を模した形態の三次元的な人体画像）を作成すれば、その動体がモーションデータに基づいた姿勢で様々な動作を行う内容の動画を作成できる。また、モーションデータに基づく動画は、動体を見る位置を様々に規定することで、動体を見る向きを自在に変更でき、例えば、動体を真正面から見た状態で動画を生成すること、動体を斜め上から見た状態で動画を生成することなども行える。

一方、上述したモーションキャプチャ技術を用いた内容とは別に、撮影した被写体を含む映像（実写映像）から被写体の画像のみを抽出し、その抽出した被写体画像を、別の画像に合成することが従来から行われている。例えば、実写映像から被写体画像のみを抽出する方法として、クロマキー（chroma key）法、ロートスコーピング（roto scoping）法、ディファレンスマッチング（difference matting）法などがある。

また、上述した方法を利用して抽出された被写体の画像の合成対象となる別の画像としては、予め準備された静止画、動画以外にも、随時生成される画像を対象にしているものもある。例えば、特許文献２では、画像合成を行う処理部に加えて、歌い手を撮影するビデオカメラを設け、ビデオカメラで撮影した歌い手の映像に基づく検出結果に対応してグラフィック映像（例えば、風船が飛び交う映像）が生成され、このグラフィック映像にビデオカメラで撮影した歌い手の映像を合成することが開示されている。なお、特許文献２では、ビデオカメラで撮影する歌い手の動作を検出し、例えば、歌い手の右手がグラフィック映像の風船に触れた時は、合成対象のグラフィック映像を変化させることも記載されている。

また、特許文献３では、画像合成を行う処理部と、役者を撮影するカメラを設けると共に、予め蓄積されたＣＧ（コンピュータグラフィックス）キャラクタの三次元モデルデータを元に、操作者がＣＧ操作部で入力したＣＧ動き情報を付加して３次元ＣＧデータを生成し、この生成した３次元ＣＧデータに、カメラで撮影した役者の映像を三次元的に合成することが開示されている。なお、特許文献３では、合成した映像を表示する際、ＣＧ操作部の操作者が分かり易いように、その操作者の視点（つまりＣＧのキャラクタの視点）から見えるであろう仮想的な映像を提示することが記載されている。
特開平１０−２２２６６８号公報特開平５−２３２８６１号公報特開２０００−２３０３７号公報

特許文献２に記載された内容は、撮影画像の合成対象となるグラフィック映像は、二次元的なものであるため、合成された映像に三次元的な奥行き、及び三次元的な映像の変化を表現できないと云う問題がある。

また、特許文献３に記載された内容は、操作者の入力によるＣＧ動き情報を付加して３次元ＣＧデータを生成するため、３次元ＣＧデータを見る方向を変更できず、画一的なアングルの３次元ＣＧデータを撮影映像に合成するに留まり、合成された映像に含まれる３次元ＣＧデータに対するアングル変化が乏しく、ユーザが飽きやすい内容になると云う問題がある。

本発明は、斯かる事情に鑑みてなされたものであり、動体を見る方向が変更可能な動画を、撮影した被写体の画像の合成対象にすることで、アングル変化が多彩な合成画像を生成できる動画生成システム、及び動画生成方法を提供することを目的とする。
また、本発明は、動体を見る位置を様々な条件に基づき変更することで毎回、画像内容が多様に変化する合成画像を生成できる動画生成システムを提供することを目的とする。
さらに、本発明は、生成する合成画像をカラオケと組み合わせること、合成画像を記憶媒体に記憶可能にすること、及び合成画像をネットワークを通じて配信可能にすることにより、生成した合成画像の利用範囲を広げられるようにした動画生成システムを提供することを目的とする。

上記課題を解決するために本発明に係る動画生成システムは、動体の三次元座標系での姿勢を単位時間ごとに規定する姿勢情報、及び動体を見る位置を規定する視点情報に基づいて姿勢及び視点が特定された動体を含む動画を生成する動画生成手段を備える動画生成システムにおいて、被写体を撮影する撮影手段と、該撮影手段が撮影した映像中に含まれる被写体画像を抽出する画像抽出手段と、該画像抽出手段が抽出した被写体画像を、前記動画生成手段が生成した動画に合成して合成動画を生成する合成動画生成手段とを備えることを特徴とする。
また、本発明に係る動画生成方法は、動画生成システムが、動体の三次元座標系での姿勢を単位時間ごとに規定する姿勢情報、及び動体を見る位置を規定する視点情報に基づいて姿勢及び視点が特定された動体を含む動画を生成する動画生成方法において、前記動画生成システムは、被写体を撮影し、撮影した映像中に含まれる被写体画像を抽出し、抽出した被写体画像を、前記動画に合成して合成動画を生成することを特徴とする。

本発明にあっては、撮影した映像から抽出した被写体画像を、姿勢情報及び視点情報を利用して三次元的な形態が特定された動体を含む動画に合成するので、合成動画に表れる動体を見る方向が様々に変化自在となる。その結果、アングル変化が多彩な合成画像を生成でき、様々な用途に適用可能な合成画像を各種ユーザに提供できる。特に、撮影手段の被写体としてユーザを撮影することで、視点変更が可能な動体を含む動画中にユーザを登場させて新たなアミューズメントサービスを実現できる。

本発明に係る動画生成システムは、楽曲を取得する楽曲取得手段と、該楽曲取得手段が取得した楽曲の再生処理を行う楽曲再生手段と、該楽曲再生手段の再生処理に合わせて、前記合成動画の表示処理を行う表示処理手段とを備えることを特徴とする。

本発明にあっては、取得した楽曲の再生処理に合わせて、生成した合成動画の表示処理を行うことで、多彩な動きを行うと共にアングルを自由に変更できる動体を含む合成動画を楽曲の進行に合わせて表示でき、聴覚及び視覚の両面でユーザを楽しませることができる。

また、本発明に係る動画生成システムは、前記楽曲取得手段は、歌詞を表す文字が付帯された楽曲を取得するようにしてあり、前記楽曲に付帯された文字を、前記合成動画に合成する文字合成手段を備え、前記表示処理手段は、前記文字合成手段により文字が合成された合成動画の表示処理を行うことを特徴とする。

本発明にあっては、楽曲に付帯された歌詞を表す文字を合成動画に合成して表示処理を行うので、カラオケに好適なシステムを提供できる。即ち、合成動画には歌詞のテロップ（文字）が表示されるので、ユーザはテロップを参照して歌うことができ、特に、撮影手段で歌うユーザを撮影すると共に、動画に含まれる動体をバックダンサーを模した人体画像にすれば、まるで多彩な動きをするバックダンサーを引き連れた歌手の状況を擬似的にユーザは体験可能となり、さらに、カラオケ曲に合わせて振りの動作を行えば、自身の振りも合成動画を見ることで確認でき、カラオケにユーザを楽しませる新たな機能を付加できる。さらに、本発明をカラオケに適用した場合、歌うユーザ以外に、表示する合成動画を見るユーザも歌っている人（ユーザ）が映り込んだ表示を見て楽しむことができ、歌うユーザと、見るユーザの連帯感（一体感）を高めることができる。

さらに、本発明に係る動画生成システムは、前記楽曲取得手段は、複数の視点情報が楽曲進行順に付帯された楽曲を取得するようにしており、前記動画生成手段は、前記楽曲再生手段の再生処理の進行時点に応じた視点情報に基づいて動画を生成することを特徴とする。

本発明にあっては、複数の視点情報が楽曲進行順に付帯された楽曲の再生処理を行い、再生処理の進行時点に応じた視点情報に基づき動画を生成するので、表示処理が行われる合成動画中の動体を見る位置が楽曲の再生処理の進行に伴い変化するようになる。そのため、楽曲の再生処理にリンクした合成動画中の動体のアングル変化をユーザは楽しめることができる。

さらにまた、本発明に係る動画生成システムは、複数の視点情報の中から１つの視点情報をランダムに選択する選択手段を備え、前記動画生成手段は、選択された視点情報に基づいて動画を生成することを特徴とする。

本発明にあっては、複数の視点情報の中からランダムに視点情報を選択して、その視点情報に基づいて動画を生成するので、ランダムに動体を見る位置が様々に変化する合成動画を生成でき、動体の視点変化が多様な合成動画をユーザに提供できる。

また、本発明に係る動画生成システムは、前記撮影手段が撮影した映像中に含まれる被写体画像の位置を検出する画像位置検出手段と、映像中の各位置、及び複数の視点情報をそれぞれ対応付けた位置対応テーブルと、前記画像位置検出手段が検出した位置に対応する視点情報を、前記位置対応テーブルから選択する手段とを備え、前記動画生成手段は、前記位置対応テーブルから選択された視点情報に基づいて動画を生成することを特徴とする。

本発明にあっては、撮影した映像中の被写体画像の位置に基づいて、動体を見る位置が変化する動画を生成するので、合成画像中の動体のアングルも被写体の位置に応じて変動し、被写体の位置変化に連動して動体のアングルが変化する合成動画を得られる。よって、被写体がユーザであれば、ユーザは積極的に移動すれば、合成動画中の動体のアングルを変化させることが可能となる。そのため、ユーザは、自らが撮影映像中に映り込む位置をコントロールすることで動体のアングルを自在に制御できる。なお、動体を見る位置の変更は、最適な構図の合成動画を得る観点より、検出された被写体画像の位置を参考にして、被写体画像と重ならない状況へ変更することが好ましい。

さらに、本発明に係る動画生成システムは、前記撮影手段が撮影した映像中の被写体画像の動作を検出する動作検出手段と、被写体画像に係る各動作、及び複数の視点情報をそれぞれ対応付けた動作対応テーブルと、前記動作検出手段が検出した動作に対応する視点情報を、前記動作対応テーブルから選択する手段とを備え、前記動画生成手段は、前記動作対応テーブルから選択された視点情報に基づいて動画を生成することを特徴とする。

本発明にあっては、撮影した映像中の被写体画像の動作に基づいて、動体を見る位置が変化する動画を生成するので、合成動画中の動体のアングルも被写体の動作に連動して変化するようになる。そのため、被写体がユーザであれば、ユーザは自らの動きにより合成動画中のアングルをコントロール可能となり、合成動画のサービスにおいてユーザを楽しませる新たな機能を追加できる。

さらにまた、本発明に係る動画生成システムは、前記姿勢情報には、複数の動体に係る三次元座標系の姿勢が規定してあり、前記動画生成手段は、前記姿勢情報に基づいて複数の動体を含む動画を生成することを特徴とする。

本発明にあっては、姿勢情報が複数の動体に係る姿勢を規定するので、複数の動体を含む動画が生成されるようになり、合成動画中の動体数を豊富にして、よりダイナミックな内容の動画をユーザに提供可能となる。例えば、本発明をカラオケに適用して被写体としてユーザを撮影すると共に、動体をバックダンサーを模した人体画像にすれば、ユーザは複数のバックダンサーに囲まれて歌う雰囲気を擬似的に楽しむことが可能となり、カラオケの楽しさを高められる。

また、本発明に係る動画生成システムは、背景の三次元座標系での位置を規定した背景情報を記憶する手段を備え、前記動画生成手段は、記憶された背景情報に基づいて背景を含む動画を生成することを特徴とする。

本発明にあっては、動体に加えて、背景を含む動画を生成するので、合成動画中には背景も追加されるようになり、合成動画の内容を詳細にしてユーザの目を楽しませることができる。特に、本発明をカラオケに適用して被写体としてユーザを撮影し、動体をバックダンサーを模した人体画像にすると共に、背景をステージにすれば、ユーザはステージ上でバックダンサーを従えて歌う雰囲気を擬似的に楽しむことが可能となり、カラオケの楽しさを視覚的に一段と向上できる。

さらに、本発明に係る動画生成システムは、前記合成動画生成手段が生成した合成動画を記憶媒体に記憶する処理を行う記憶処理手段を備えることを特徴とする。

本発明にあっては、生成した合成動画を記憶媒体に記憶できるので、例えば、ユーザ自身が登場する合成動画をＤＶＤ等の着脱式の記憶媒体に記憶して、その記憶媒体を再生すれば、擬似的な体験を家庭でも楽しめるようになり、結婚式の二次会、同窓会、各種オーディション等の多様なイベントで利用可能なサービスを提供できる。

さらにまた、本発明に係る動画生成システムは、ネットワークを通じて送信された動画要求信号を受信する受信手段と、該受信手段が動画要求信号を受信した場合、該動画要求信号の送信元へ動画を送信する動画送信手段とを備え、前記動画送信手段は、前記合成動画生成手段が生成した合成動画を送信することを特徴とする。

本発明にあっては、生成した合成動画をネットワークを通じて、要求するユーザの元へ配信可能となるので、合成動画をネットワークを利用して広く配布可能となり、生成した合成動画の利用範囲を広げられる。

本発明にあっては、撮影した映像から抽出した被写体画像を、姿勢情報に加えて視点情報も利用して三次元的な状態が特定される動体を含む動画に合成するので、生成された合成動画に含まれる動体の見る方向を変更でき、合成動画中の動体の見る方向を変えて多様な表現形態で毎回、ユーザの目を楽しませることができる。

また、本発明にあっては、取得した楽曲の再生処理に合わせて、生成した合成動画の表示処理を行うことで、楽曲の進行に会わせて動体を見るアングルが変化する合成動画をユーザに表示でき、聴覚及び視覚の両面でユーザに楽しさを提供できる。

さらに、本発明にあっては、楽曲に付帯された歌詞を表す文字を合成動画に合成して表示処理を行うので、動体の見る方向が様々に変化可能な合成動画中に歌詞を表示して、カラオケに好適なシステムを実現でき、カラオケを歌うユーザは擬似的なステージ体験を楽しめると共に、表示された合成動画を見るユーザには知人、友人等が画面中に登場する表示内容を楽しめる。
さらにまた、本発明にあっては、複数の視点情報が付帯した楽曲を用いるので、楽曲の再生処理の進行時点に応じて合成動画中の動体を見る位置の変化を行い、楽曲のイントロ、盛り上がり箇所など楽曲の再生状況にマッチした表示内容でユーザを楽しませることができる。

また、本発明にあっては、見る位置の規定がそれぞれ異なる複数の視点情報の中からランダムに視点情報を選択して、その視点情報に基づいて動画を生成するので、動体を見る位置が毎回変化して飽きが来ない合成動画をユーザに提供できる。

さらに、本発明にあっては、撮影した映像中の被写体画像の位置に基づいて、合成動画中の動体を見る位置を変化でき、撮影の被写体となるユーザに対して、撮影される位置を変えることで動体の位置が制御可能なシステムを実現できる。
さらにまた、本発明にあっては、撮影した映像中の被写体画像の動作に基づいて、合成動画中の動体を見る位置を変化でき、撮影の被写体となるユーザに対して、撮影中の動作を変えることで動体の位置が制御可能なシステムを実現できる。

本発明にあっては、姿勢情報が複数の動体に係る姿勢を規定するので、複数の動体のアングルが変化するダイナミックな動きの合成動画をユーザに提供できる。
また、本発明にあっては、動体の他に背景を含む動画を生成するので、合成動画中に視点位置の変更が可能な動体及び背景が登場し、一段と多様な三次元内容の合成動画を作成できる。

本発明にあっては、生成した合成動画を記憶媒体に記憶するので、その記憶媒体を介して多くの人に生成した合成動画を見てもらう機会を提供できる。
また、本発明にあっては、生成した合成動画をネットワークを通じて、要求するユーザの元へ配信可能となるので、ネットワークを利用して多くの人に合成動画を容易に見てもらう機会を提供できる。

図１は、本発明の第１実施形態に係る動画生成システム１０を適用したカラオケシステム１の全体的な構成を示している。カラオケシステム１は、本発明の動画生成システム１０を用いることで、カラオケ楽曲を歌うユーザＵが登場する合成動画を生成して大型ディスプレイ２に表示し、ユーザＵには、多様な動きを行う３人のバックダンサー１５ａ〜１５ｃを前にして歌う状況を擬似的に体験可能にすると共に、周囲のユーザには、歌うユーザＵのパフォーマンスを楽しめるようにして、カラオケの新たな楽しさを歌う人、見る人の両方に提供できることが特徴になっている。

第１実施形態のカラオケシステム１は、ユーザＵを撮影した被写体画像を取り込むために、クロマキー法を採用しており、カラオケの楽曲を歌うユーザＵが位置する場所の背部及び周囲に、青色の壁部材６を設けている。なお、カラオケシステム１は、歌うユーザＵが歌詞及び自身の撮影画像等を確認するためのサブディスプレイ４を、壁部材６に対向するよう配置している。また、カラオケシステム１は、カラオケ楽曲の配信を行うカラオケ楽曲サーバ５をネットワークＮＷを通じて動画生成システム１０に接続し、さらに生成した合成動画及びユーザＵの歌唱を、周囲のユーザが確認できるように大型ディスプレイ２及び左右スピーカ３ａ、３ｂを設けている。

カラオケシステム１に適用された本実施形態の動画生成システム１０は図１中、波線で囲まれた範囲に該当し、カメラ装置１１、クロマキー装置２０、３Ｄ動画生成装置３０、分配装置４０、カラオケ装置４１、記憶装置４４、及び３Ｄ動画配信サーバ４５を含んでいる。なお、動画生成システム１０において、必須となるのはカメラ装置１１、クロマキー装置２０、及び３Ｄ動画生成装置３０であり、その他の部分（分配装置４０、カラオケ装置４１等）は適用対象のサービスの種類に応じてオプション的に追加される周辺装置に該当する。

よって、第１実施形態の動画生成システム１０は、カラオケシステム１に適用されることから、分配装置４０及びカラオケ装置４１を有し、さらに、生成した合成動画を記憶媒体（ＤＶＤ）に記憶可能にすると共に、ネットワークＮＷを通じて配信可能にするため、記憶装置４４及び３Ｄ動画配信サーバ４５を設けている。以下、動画生成システム１０が有する各装置１１、２０等について、追加した周辺装置（分配装置４０及びカラオケ装置４１等）から説明する。

分配装置４０は、クロマキー装置２０で生成された合成動画を分配して複数の分配先へ送る処理を行うものである。具体的には、第３ビデオ線Ｖ３でクロマキー装置２０から受け取る合成動画を、第４ビデオ線Ｖ４を通じて大型ディスプレイ２へ送ると共に、第５ビデオ線Ｖ５を通じてカラオケ装置４１へ送る処理を行う。

図２は、カラオケ装置４１の内部構成を示すブロック図である。カラオケ装置４１は内部バス４１ｉを介して、各種制御を行う制御部４１ａ、通信処理部４１ｂ、カラオケ楽曲処理部４１ｃ、楽曲再生処理部４１ｄ、メモリ部４１ｅ、テロップ合成部４１ｆ、入出力インタフェース４１ｇ、及び赤外光受光部４１ｈを接続した構成にしている。

通信処理部４１ｂは楽曲取得手段に相当し、ネットワークＮＷを介してカラオケ楽曲サーバ５と繋がっており、制御部４１ａの制御指示に基づきカラオケ楽曲サーバ５へユーザが指定するカラオケ楽曲の要求信号を送信する。カラオケ楽曲サーバ５は、要求信号の受信に伴って指定されたカラオケ楽曲を送信するようになっており、通信処理部４１ｂは、カラオケ楽曲サーバ５から送信されたカラオケ楽曲を受信して取得する。なお、カラオケ楽曲サーバ５が配信するカラオケ楽曲は、音楽に関する楽曲データに、歌詞を表す文字データ（テロップ）が付帯されたものになっている。

さらに、本実施形態では、通信処理部４１ｂは、後述する音声合成部４２ａでカラオケ楽曲とユーザ音声が合成された合成音の音ファイル及びテロップ合成部４１ｆでテロップが合成された合成動画の動画ファイルをメモリ部４１ｅから読み出して、両者を関連づけて３Ｄ動画配信サーバ４５へネットワークＮＷを通じてアップロード（送信）する処理も行う。このようなアップロード処理は、制御部４１ａの制御指示に基づいて行われており、アップロードされる際には、日付、及びカラオケが行われた場所の情報（例えば、カラオケ店の名称）等が付加されたファイル形式で送信される。

また、カラオケ楽曲処理部４１ｃは、通信処理部４１ｂで取得されたカラオケ楽曲を、楽曲データと、文字データに分離して、楽曲データを楽曲再生処理部４１ｄに送ると共に、文字データをテロップ合成部４１ｆに送る処理を行う。

楽曲再生処理部４１ｄは楽曲再生手段に相当し、楽曲データの再生処理を順次行って再生した楽曲音を音声合成部４２ａに送る。音声合成部４２ａには、第１音声ケーブルＡ１が繋がったマイク音声入力部４２ｂが受け付けるカラオケ楽曲を歌うユーザＵのユーザ音声も送られており、音声合成部４２ａは、再生された楽曲音とユーザ音声を合成する処理を行い、合成音を増幅部４２ｃへ送ると共に、第２音声ケーブルＡ２を通じて記憶装置４４へも送るようにしている。さらに、音声合成部４２ａは合成音を、アップロード用の音ファイルにしてメモリ部４１ｅへ送る処理も行っている。なお、増幅部４２ｃは、合成音を増幅して第３音声ケーブルＡ３を通じて左右スピーカ３ａ、３ｂから出力する。

一方、テロップ合成部４１ｆは文字合成手段に相当し、動画入力部４２ｄと接続されている。動画入力部４２は第５ビデオ線Ｖ５を通じて、後述するクロマキー装置２０で生成された合成動画を取得しており、取得した合成動画をテロップ合成部４１ｆへ送る処理を行う。よって、テロップ合成部４１ｆは送られた合成動画を受け取ると、その合成動画にカラオケ楽曲のテロップを合成する処理を行い、テロップを合成した合成動画（図１６参照）を動画インタフェース部４２ｅへ送る。なお、テロップ合成部４１ｆも、合成処理を行った合成動画を、アップロード用の動画ファイルとしてメモリ部４１ｅに送る処理を行う。

また、動画インタフェース部４２ｅは表示処理手段に相当し、受け取った合成動画を表示用のデータ（データ信号及び走査信号）に変換して、所定のタイミングで第６ビデオ線Ｖ６を通じてサブディスプレイ４へ送る処理を行う。動画インタフェース部４２ｅでの上述した表示処理のタイミングは制御部４１ａにより、楽曲再生処理部４１ｄにおける再生処理と同期が取られており、楽曲の再生状況に合ったタイミングで、図１６に示すようなカラオケ楽曲のテロップ付きの合成動画が表示されるように表示処理が行われる。なお、動画インタフェース部４２ｅは、音声合成部４１ａが第２音声ケーブルＡ２を通じて音データを記憶装置４４へ送るタイミングに合わせて、合成動画の動画データを、第７ビデオ線Ｖ７を通じて記憶装置４４へ送る処理も行っている。

メモリ部４１ｅは、アップロード用となる音ファイル及び動画ファイルを関連付けて一時的に記憶している。また、入出力インタフェース４１ｇは、ネットワークケーブルＬ１を通じて後述する３Ｄ動画生成装置３０と接続されている。入出力インタフェース４１ｇは、制御部４１ａの制御に基づき楽曲再生処理部４１ｄで再生処理を開始すると、再生開始信号を３Ｄ動画生成装置３０へ送ると共に、再生処理を終了すると、再生終了信号を３Ｄ動画生成装置３０へ送る処理を行う。

赤外光受光部４１ｈは、ユーザが操作するリモコン装置４３から発せられる操作指示を含む赤外光を受光するものであり、受光した赤外光に含まれる操作指示を内部バス４０ｉを通じて制御部４１ａへ送る処理を行う。制御部４１ａは、受け取った操作指示に従って上述した各部４１ｂ、４１ｃ等の制御を行っている。

また、図１に示す記憶装置４４は記憶媒体であるＤＶＤに、生成された合成動画の記憶処理を行う記憶処理手段に相当し、具体的には第７ビデオ線Ｖ７を通じてカラオケ装置４１からテロップが合成された合成動画を受け取ると共に、第２音声ケーブルＡ２を通じてカラオケ装置４１からカラオケ楽曲音とユーザ音声の合成音を受け取っている。記憶装置４４は、受け取った合成動画及び合成音を記憶処理部４４ａでＤＶＤに書き込む処理（記憶する処理）を行っており、合成動画等が記憶されたＤＶＤを、ユーザはカラオケに伴うサービス品目（サービスメニュー）の一つとして有償で入手できる。

図３は、３Ｄ動画配信サーバ４５の主要な内部構成を示すブロック図である。３Ｄ動画配信サーバ４５は、クロマキー装置２０で生成された合成動画をネットワークＮＷを通じて広く配信可能にするものであり、図４に示すようなウェブページ４７を有するウェブサイトをネットワーク上に設けている。３Ｄ動画配信サーバ４５は、ＭＰＵ４５ａ、通信インタフェース４５ｂ、ＲＡＭ４５ｃ、ＲＯＭ４５ｄ、及びハードディスク装置４５ｅを内部バス４５ｉで接続している。

通信インタフェース４５ｂは、ネットワークＮＷと接続されており、各種信号及びデータファイルの送受信を行い、本実施形態ではカラオケ装置４１からアップロードされる合成動画及び音声のファイル（動画ファイル及び音ファイル）を受信して、ハードディスク装置４５ｅに記憶されたコンテンツデータベース４６へ送る処理を行う。また、通信インタフェース４５ｂは、ネットワークＮＷを通じてウェブサイトへアクセスしてきたアクセス元へＭＰＵ４５ａの制御によりウェブページ４７のページデータを送信すると共に、コンテンツの要求信号（動画要求信号）の受信、コンテンツ（動画ファイル及び音ファイル）の配信等もＭＰＵ４５ａの制御に基づき行う。

ＲＡＭ４５ｃはＭＰＵ４５ａの処理に従うデータ及びフォルダ等を一時的に記憶し、ＲＯＭ４５ｄはＭＰＵ４５ａが行う基本的な処理内容を規定したプログラム等を予め記憶する。ハードディスク装置４５ｅは、サーバの基本的な処理を規定したサーバプログラム４５ｆ、コンテンツの配信処理を規定した配信プログラム４５ｇ、ウェブページ用のページデータ４５ｈ、及びアップロードされた動画ファイル及び音ファイルを格納したコンテンツデータベース４６を記憶している。

配信プログラム４５ｇは、コンテンツ配信に係るＭＰＵ４５ａの制御処理の内容を規定したものであり、ウェブサイトのアクセス元の端末に図４のサイトページ４７を表示させる処理を行う。なお、サイトページ４７は、コンテンツデータベース４６に格納されているコンテンツを、コンテンツの作成日付及びコンテンツが作成されたカラオケ店を表記して選択可能にした選択欄４７ａ、選択欄４７ａで選択した状態のコンテンツの配信を決定する決定ボタン４７ｂ、及び選択した状態のコンテンツをキャンセルするキャンセルボタン４７ｃを有する。決定ボタン４７ｂがアクセス元の端末で選択されると、選択状態のコンテンツを要求する動画要求信号が、３Ｄ動画配信サーバ４５へ送信されるようになっている。

そのため、配信プログラム４５ｇは、３Ｄ動画配信サーバ４５の通信インタフェース４５ｂで動画要求信号を受信すると、選択されたコンテンツ（動画ファイル及び音ファイル）をコンテンツデータベース４６から読み出して、アクセス元の端末へ通信インタフェース４５ｂから送信することを規定している。

次に、動画生成システム１０において必須となるカメラ装置１１、クロマキー装置２０、及び３Ｄ動画生成装置３０を説明する。カメラ装置１１は、被写体としてカラオケ楽曲を歌うユーザＵを、所定のフレームレートでビデオ撮影する撮影手段に相当し、撮影した映像は第１ビデオ線Ｖ１によりクロマキー装置２０へ順次送っている。

図５は、クロマキー装置２０の内部構成を示すブロック図である。クロマキー装置２０は、第１入力部２１、第２入力部２２、被写体画像抽出部２３、合成部２４、及び出力部２５を有する。第１入力部２１は第１ビデオ線Ｖ１が接続されており、カメラ装置１１から送られる撮影映像が入力される。また、第２入力部２２は第２ビデオ線Ｖ２が接続されており、３Ｄ動画生成装置３０で生成された３Ｄ動画（図１４（ｂ）参照）が入力される。被写体画像抽出部２３は画像抽出手段に相当し、第１入力部２１に入力された撮影映像中に含まれるユーザＵの画像（被写体画像）のみをクロマキー法により抽出する処理を行い、抽出した被写体画像（図１４（ａ）参照）を合成部２４へ送る。

合成部２４は合成動画生成手段に相当し、被写体画像抽出部２３から送られる被写体画像を、第２入力部２２で入力された３Ｄ動画に合成して合成動画（図１の大型ディスプレイ２に表示された内容）を随時生成するものである。なお、合成部２４は、図１４（ａ）に示すように撮影映像Ｗ（図中、波線で示す）から抽出された被写体画像Ｈを、撮影映像Ｗの映像枠の下辺Ｗａと、３Ｄ動画生成装置３０で生成された図１４（ｂ）に示す３Ｄ動画Ｇの動画枠の下辺Ｇａが一致するように合成する処理を行って、図１５（ａ）（ｂ）に示すような合成動画のフレーム画像Ｇ１、Ｇ２等を生成する。また、出力部２５は第３ビデオ線Ｖ３が接続されており、合成部２４で生成された合成動画を第３ビデオ線Ｖ３を通じて分配装置４０へ随時出力する処理を行っている。

図６は、３Ｄ動画生成装置３０（動画生成手段に相当）の内部構成を示すブロック図である。本実施形態の３Ｄ動画生成装置３０は汎用のパーソナルコンピュータを適用している。３Ｄ動画生成装置３０は、モーションキャプチャ技術により得られた動体のモーションデータ（姿勢情報に相当）を動画フレームごとに含んだ動画データＤと、動体を見る位置を規定した視点情報を複数格納した視点テーブルＴを予め記憶しており、これら動画データＤ及び視点テーブルＴに基づき、動体に対する視点位置がランダムに変更する３Ｄ動画（図１４（ｂ）参照）を生成する。

３Ｄ動画生成装置３０は、コンピュータ本体３０ａの内部において、各種制御処理を行う制御部３１（プロセッサ）に、ＲＡＭ３２、ＲＯＭ３３、動画出力インタフェース３４、入出力インタフェース３５、及びハードディスク装置３６を内部バス３０ｂで接続している。ＲＡＭ３２は制御部３１の処理に従うデータ及びフォルダ等を一時的に記憶し、ＲＯＭ３３は制御部３１が行う基本的な処理内容を規定したプログラム等を予め記憶する。動画出力インタフェース３４は第２ビデオ線Ｖ２が接続されており、生成した３Ｄ動画をクロマキー装置２０へ随時送る処理を行う。入出力インタフェース３５はネットワークケーブルＬ１が接続されており、カラオケ装置４１から送られる再生開始信号、再生終了信号等を受け付けている。

ハードディスク装置３６は、各種プログラム及びデータ等を記憶し、本実施形態ではプログラムとして、コンピュータ本体３０ａを作動させる上でベースとなる処理を規定したシステムプログラム３７、３Ｄ動画の生成に係る処理を規定した動画生成プログラム３８、動画データＤ、及び視点テーブルＴ等を記憶している。

ハードディスク装置３６に記憶される動画データＤは、動体として３体の三次元的なバックダンサー（バックダンサー画像）を含む動画コンテンツであり、実際のダンサーにマーカを付してモーションキャプチャ技術により得た三次元座標系における実際のダンサーの姿勢を、マーカの座標及び角度等で単位時間（動画フレーム）ごとに規定して作成されたモーションデータを含む内容になっている。このような動画データＤは、３Ｄ動画の生成時に視点テーブルＴに含まれる視点情報に基づき動体を見る位置（視点）を規定することで、その視点から３体のバックダンサーを見た状態の姿勢で３Ｄ動画が生成されるようになっている。なお、本実施形態の動画データＤは、３体のバックダンサーに関する三次元座標系の姿勢情報に加えて、ステージ背景画像となる背景情報（三次元座標系でのステージ背景画像の位置を規定したもの）も含んでいる。

図７は３Ｄ動画の生成に係る状態のイメージを概略的に示したものである。図中、Ｘ軸、Ｙ軸、Ｚ軸で構成されるＸＹＺ座標系における３体のバックダンサー１５ａ〜１５ｃ、及び４個のステージ背景１６ａ〜１６ｄ（ハート型のモチーフ画像）は、動画データＤに基づくものであり、図中、多数存在するカメラ１７Ａ、１７Ｂ等は視点テーブルＴが規定する三次元座標ＸＹＺにおける動体を見る位置を表したものである。なお、各カメラ１７Ａ、１７Ｂ等ごとに、ＸＹＺ座標系とは相違するカメラ系座標であるＵＶＷ座標系が設けてあり、本実施形態の各カメラ１７Ａ、１７Ｂは、撮像方向（視点方向）に一致するＶ軸を中央に位置するバックダンサー１５ｂに向けている。これら複数のカメラ１７Ａ、１７Ｂ等の中から１つを選択することで、ＸＹＺ座標系での動体（バックダンサー１５ａ〜１５ｃ）を見る位置が定まり、その定まったカメラで撮影した内容になるように３Ｄ動画が生成される。なお、図７で示されたカメラの数及び位置は一例であり、仕様に応じてカメラの数及び位置は適宜設定できる。

図８は、視点テーブルＴの中身を示している。視点テーブルＴはカメラ（第１カメラ１７Ａ〜第ｎカメラ１７Ｎ）ごとにＸＹＺ座標における座標値を規定したものになっており、テーブル中のカメラの種類（及び座標値）が視点情報に該当する。

なお、動体データＤに含まれる動体（バックダンサー）ついて少し説明すると、図９（ａ）は三次元コンピュータグラフィックス技術により作成される３体の中の１体のバックダンサー１５ａ（バックダンサー画像）を示し、バックダンサー画像は図９（ｂ）に示すように、人体の骨に相当するボーンＢと云う棒状のリンク部材を連結したものに、人体の皮膚に相当するスキンを被せて作成される。さらに、図９（ｂ）に示すボーンＢの各所に付された点Ｐ１〜Ｐ１７が、実際のダンサーに付されたマーカ位置に相当し、これら各点Ｐ１〜Ｐ１７ごとにモーションデータの値が存在する。なお、図９（ｂ）に示す各点Ｐ１〜Ｐ１７の位置及び個数は一例であり、実際のダンサーに付すマーカの位置及び個数に応じて適宜変更できる。

図１０は、動画データＤに含まれる動画フレーム（単位時間）ごとに生成される三次元的な状態が特定されたバックダンサーを含む３Ｄ動画における各フレームのイメージを示す図である。３Ｄ動画は、時刻ｔ１、ｔ２、ｔ３・・・における動画フレームｆ１、ｆ２、ｆ３・・・により構成されており、各動画フレームｆ１、ｆ２、ｆ３等に応じた画像を順次生成することで、各動画フレームｆ１、ｆ２、ｆ３等に含まれるバックダンサー１５ａ〜１５ｃが動く動画を得られる。なお、本実施形態の動画データＤは、１秒当たりの動画フレーム数を６０個（６０フレーム／秒）にしているが、この数値はあくまで一例であり、モーションデータを取得する際のフレーム数の範囲であれば、要求される動画品質に応じて適宜増減できる。また、図１０では、動画データＤに含まれるステージ背景画像の図示は省略している。

図１１は、動画データＤに含まれる時刻ｔ１、ｔ２における第１動画フレームｆ１、第２動画フレームｆ２中の１つのバックダンサー１５ａに対するモーションデータＭ１ａ、Ｍ２ａの中身を概略的に示したものである。モーションデータＭ１ａ、Ｍ２ａは、図９（ｂ）に示す各点Ｐ１〜Ｐ１７ごとに、図７に示すＸＹＺ座標系におけるＸ軸、Ｙ軸、Ｚ軸のそれぞれに対する回転角度、及び座標値を有する。このような動画フレームごとのモーションデータに基づいて、図１０に示す各動画フレームに含まれるバックダンサー１５ａ〜１５ｃの姿勢が特定された画像が生成される。なお、図１０の画像は、中央のバックダンサー１５ｂを正面から見た状態で視点が特定されたものになっている。また、図１１では、残りのバックダンサー１５ｂ、１５ｃ及びステージ背景１６ａ〜１６ｄに係るモーションデータの図示を省略しているが、動画データＤは、これらのモーションデータも勿論含んでいる。

次に、動画生成プログラム３８が規定する処理内容について説明する。動画生成プログラム３８は、制御部３１が行う制御処理内容を規定しており、カラオケ装置４１からの再生開始信号の入力に伴い、視点テーブルＴからランダムにカメラを選択する処理を行う。具体的には、Ｎ個のカメラを視点テーブルＴが含んでいるとすると、１／Ｎの確率でいずれか１つのカメラに対応する番号を発生する乱数発生処理を行い、発生した乱数の数値に対応するカメラを選択する処理を行う。例えば、乱数発生処理で「２」が生じると、図８の視点テーブルＴから第２カメラ１７Ｂを制御部３１が選択することになる。

また、動画生成プログラム３８は、選択されたカメラの視点で３Ｄ動画を生成することを規定している。なお、本実施形態の動画生成プログラム３８は、このようなカメラ選択処理を８秒ごとに行うようにしており、３Ｄ動画の生成及びカメラ選択処理はカラオケ装置４１からの再生終了信号の入力に伴って終わらせるようにしている。

図１２は、３Ｄ動画生成装置３０における動画生成プログラム３８に基づく処理の流れを整理した第１フローチャートである。以下、この第１フローチャートに従って３Ｄ動画生成装置３０の処理手順を説明する。先ず、３Ｄ動画生成装置３０は、カラオケ装置４１からの再生開始信号を受け取ったか否かを判断する（Ｓ１）。再生開始信号を受け取っていない場合（Ｓ１：ＮＯ）、３Ｄ動画生成装置３０は処理待ちとなる。また、再生開始信号を受け取った場合（Ｓ１：ＹＥＳ）、３Ｄ動画生成装置３０は複数のカメラの中から一つのカメラをランダムに選択する処理を行い（Ｓ２）、視点テーブルＴを参照して、選択したカメラの視点で３Ｄ動画の生成処理を行う（Ｓ３）。それから、３Ｄ動画生成装置３０は、８秒が経過したか否かを判断し（Ｓ４）、８秒が経過していない場合（Ｓ４：ＮＯ）、３Ｄ動画生成の処理段階（Ｓ３）へ戻り、以降、８秒が経過するまで所定のフレームレートで３体のバックダンサーが所定の動作を行う３Ｄ動画の生成を行う。

また、８秒が経過した場合（Ｓ４：ＹＥＳ）、３Ｄ動画生成装置３０は、再生終了信号をカラオケ装置４１から受け取ったか否かを判断し（Ｓ５）、再生終了信号を受け取っていない場合（Ｓ５：ＮＯ）、カメラ選択処理の段階（Ｓ２）へ戻り、新たなカメラの選択処理を行うことになる。この新たなカメラの選択により自動的に３Ｄ動画の視点が変更される。以降、再生終了信号を受け取るまでＳ２〜Ｓ５の段階を繰り返し、再生終了信号を受け取った場合（Ｓ５：ＹＥＳ）、３Ｄ動画生成装置３０は、処理を終了する。

図１３は、３Ｄ動画における視点の変更状態を表したタイムチャートである。３Ｄ動画生成装置３０が、上述したようなカメラの選択処理を行うので、本実施形態ではカラオケ楽曲の再生開始から８秒ごとにカメラが切り替わる。それにより、本発明では、図１４（ｂ）に示す３Ｄ動画Ｇのアングル以外に、各バックダンサー１５ａ〜１５ｃ及びステージ背景１６ａ〜１６ｄの三次元的な画像を見る位置が８秒ごと切り替わる３Ｄ画像が３Ｄ動画生成装置３０で生成される。

また、最終的にはクロマキー装置２０での合成処理により、図１５（ａ）（ｂ）に示すように、被写体画像Ｈの背後に位置する３体のバックダンサー１５ａ〜１５ｃ、及びステージ背景１６ａ〜１６ｄの三次元的な画像を見るアングルが様々に切り替わる合成画像のフレーム画像Ｇ１、Ｇ２を得ることができる。このようなフレーム画像Ｇ１、Ｇ２により構成される合成画像は、大型ディスプレイ２に表示されるため、カラオケ楽曲を歌うユーザＵの周囲にいるユーザも大型ディスプレイ２の表示内容を見て楽しむことができ、歌うユーザＵと一緒に楽しめる一体感を演出できる。なお、図１５（ａ）は、図７において、正面の第６カメラ１７Ｆが選択された場合のものであり、図１５（ｂ）は左側の第２カメラ１７Ｂが選択された場合のものである。

さらに、図１６は、サブディスプレイ４で表示されるテロップ１９が合成された合成動画のフレーム画像Ｇ１０を示している。この合成動画のフレーム画像Ｇ１０は、カラオケ楽曲を歌うユーザＵが見ることになる。そのためユーザＵは、通常のカラオケ画面に加えて自身が登場するため、楽曲に合わせた振りを確認できると共に、リアルに多様な動きを行うバックダンサー１５ａ〜１５ｃとステージ背景１６ａ〜１６ｄにより、擬似的にステージ上で熱唱している雰囲気を味わえる。さらに、バックダンサー１５ａ〜１５ｃとステージ背景１６ａ〜１６ｄを見る位置及びアングルがランダムに切り替わるため、ユーザＵはテレビ番組における本物のカメラワークにようにダイナミックな構図の変化を毎回楽しむことができる。

さらにまた、本発明のカラオケシステム１では、図１６に示すような合成動画を記憶装置４４でＤＶＤに記憶できると共に、３Ｄ動画配信サーバ４５よりネットワーク配信可能にしているので、生成したコンテンツ（合成動画）の二次的な利用も容易に行えるようにしている。その結果、本発明のカラオケシステム１は、今までにない新たな楽しさをユーザに与えられると共に、カラオケを歌うことで生成されたコンテンツの提供もスムーズに展開することができ、カラオケサービスを行う事業体にとって新たな収益源の確保にも役立てることができ、さらに、カラオケサービス以外にも結婚式の二次会、同窓会等の各種イベント、また、新人歌手を発掘するためのオーディション等にも本発明を活用できる。

なお、第１実施形態のカラオケシステム１及び動画生成システム１０は、上述した内容に限定されるものではなく、種種の変形例の適用が可能である。たとえば、カラオケ楽曲の取得方法は、図１に示すようにネットワークＮＷを通じてカラオケ楽曲サーバ５から取得する以外にも、カラオケ装置４１に、多数のカラオケ楽曲を記憶した記憶媒体（ＤＶＤ、ハードディスク装置等）の読取部を設け、この読取部でユーザが指定したカラオケ楽曲を記憶媒体から読み取ることで、カラオケ装置４１がカラオケ楽曲を取得するようにしてもよい。

また、カラオケ楽曲を歌うユーザＵも大型ディスプレイ２の表示を確認できるときは、サブディスプレイ４を省略してもよく、このときは、分配装置４０を省略できると共に、大型ディスプレイ２にはテロップを合成した合成動画を表示するようにカラオケ装置４１からの出力動画を表示することが好適である。また、仕様を簡略化する場合は、記憶装置４４及び３Ｄ動画配信サーバ４５を省略してもよい。さらに、動画生成システム１０をカラオケシステム１に適用しない場合は、カラオケ装置４１も省略して動画のみに処理を絞った仕様にしてもよい。

さらにまた、３Ｄ動画生成装置３０でランダムにカメラを選択する時間間隔は、８秒に限定されるものではなく（図１２のステップＳ４参照）、他の時間を適用することも可能である。さらに、カメラを選択する間隔の時間もランダムに変化させることも可能であり、例えば、最初の時間間隔は３秒、２番目の時間間隔は１０秒、３番目の時間間隔を７秒と云うように不規則な時間間隔にして、時間的にもランダムに視点が変化する動画内容にしてもよい。なお、この場合は、カメラ選択の処理後に時間間隔を決定する処理が必要となり、決定する時間は例えば１秒から１５秒の範囲の各秒が１／１５の確率で当たるように乱数を発生させて時間を決定する。

また、動体に相当するバックダンサー１５ａ〜１５ｃは３体以外に適宜増減可能であり、さらに、バックダンサー以外にも動物、アニメのキャラクタ等の様々な形態を動体として適用してもよい。さらにまた、ステージ背景は別の形態のものを適用することが可能であり、画像内容の簡略化を図るときは省略することも勿論可能である。また、合成処理に用いる方法は、クロマキー法以外にも、他の方法を適用してもよい。

図１７は、第１実施形態の変形例の処理に用いられるカラオケ楽曲のデータ構造を概略的に示したものである。このカラオケ楽曲は、楽曲データの最初（時刻０）から最後（時刻Ｔｎ）までにおいて、所定の時間間隔（例えば、８秒ごと）で、選択するカメラを指定する情報が楽曲進行順に付帯されたものになっている。なお、このようなデータ構造のカラオケ楽曲は、カラオケ楽曲の作成者側で、３Ｄ動画生成装置３０で生成される際のアングルを決めることができるため、カラオケ楽曲の作成者側がカラオケ楽曲の際に表示される動画内容のアングルをコントロールできるメリットがある。また、この変形例では上述したデータ構造のカラオケ楽曲を、図１に示すカラオケ楽曲サーバ５から配信できる構成にして、カラオケ装置４１で取得できるようにする。

さらに、この変形例では、カラオケ装置４１は、カラオケ楽曲の再生処理を行う際、付帯するカメラの情報をカメラ指定信号として３Ｄ動画生成装置３０へ、楽曲の再生処理に合わせて送る処理を行う。例えば、カラオケ装置４１は、図１７に示すデータ構造のカラオケ楽曲の再生処理を行う場合、楽曲の再生開始時に、再生開始信号及び第４カメラを指定するカメラ指定信号を３Ｄ動画生成装置３０へ送り、再生開始からｔ１０秒経過後に第６カメラを指定するカメラ指定信号を３Ｄ動画生成装置３０へ送り、再生開始からｔ１１秒経過後に第３カメラを指定するカメラ指定信号を３Ｄ動画生成装置３０へ送る。

また、図１８は、図１７に示す変形例のカラオケ楽曲を用いる場合の３Ｄ動画生成装置３０が行う処理手順を示す第２フローチャートである。この第２フローチャートに従って変形例の３Ｄ動画生成装置３０が行う３Ｄ動画の生成処理を説明する。先ず、３Ｄ動画生成装置３０は、カラオケ装置４１からの再生開始信号を受け取ったか否かを判断し（Ｓ１０）、再生開始信号を受け取っていない場合（Ｓ１０：ＮＯ）、処理待ちとなり、再生開始信号を受け取った場合（Ｓ１０：ＹＥＳ）、次にカメラ指定信号をカラオケ装置４１から受け取ったか否かを判断する。

カメラ指定信号を受け取っていない場合（Ｓ１１：ＮＯ）、３Ｄ動画生成装置３０は、処理待ちとなり、カメラ指定信号を受け取った場合（Ｓ１１：ＹＥＳ）、受け取ったカメラ指定信号が指定するカメラを選択する処理を行い（Ｓ１２）、選択したカメラの視点で３Ｄ動画の生成処理を行う（Ｓ１３）。それから、３Ｄ動画生成装置３０は、新たなカメラ指定信号を受け取ったか否かを判断し（Ｓ１４）、新たなカメラ指定信号を受け取った場合（Ｓ１４：ＹＥＳ）、カメラ選択段階（Ｓ１２）へ戻り、新たなカメラ指定信号が指定するカメラを選択する。

また、新たなカメラ指定信号を受け取っていない場合（Ｓ１４：ＮＯ）、再生終了信号をカラオケ装置４１から受け取ったか否かを判断し（Ｓ１５）、再生終了信号を受け取っていない場合（Ｓ１５：ＮＯ）、３Ｄ動画生成の段階（Ｓ１３）へ戻り、カメラを変更することなく３Ｄ動画の生成処理を行う。また、再生終了信号を受け取った場合（Ｓ１５：ＹＥＳ）、３Ｄ動画生成装置３０は、処理を終了する。

このように図１７に示すカラオケ楽曲に基づく変形例では、３Ｄ動画生成装置３０において、視点を決めるカメラをランダムに選択する処理が不要となり、処理負担の低減を図れる。また、カラオケ楽曲の作成側は表示する合成動画中に含まれる３Ｄ動画部分（バックダンサーの画像及び背景の画像等）の視点を指定できるため、作成側の意図に沿った動画コンテンツの生成を実現できる。

図１９は、本発明の第２実施形態に係る動画生成システム５０の主要部を示すブロック図である。第２実施形態の動画生成システム５０は、カメラ装置５１で撮影された映像中における被写体画像の位置に応じて、３Ｄ動画の視点情報を切り替えることを特徴にしている。そのため、カメラ装置５１の第１ビデオ線Ｖ１の一方の端を二股に分岐して第１分岐線Ｖ１ａをクロマキー装置６０に接続すると共に、第２分岐線Ｖ１ｂを、３Ｄ動画生成装置７０に新たに設けた動画入力インタフェース７７に接続して、３Ｄ動画生成装置７０が撮影映像を取得して、撮影映像中に含まれる被写体画像の位置を検出する処理を行えるようにしている。なお、カメラ装置５１は、図１に示す第１実施形態と同様に所定の撮像方向を向いた状態で固定されている。

第２実施形態の３Ｄ動画生成装置７０は、ハードディスク装置７６に記憶される動画生成プログラム７９に被写体画像の位置検出の処理を含ませており、制御部７１は動画生成プログラム７９が規定する内容に基づいて被写体画像の位置検出処理を行う。

図２０（ａ）は、３Ｄ動画生成装置７０の制御部７１が行う被写体画像の位置検出処理を説明する図である。制御部７１は、動画入力インタフェース７７で、カメラ装置５１の撮影映像Ｗ１を取得すると、取得した撮影映像Ｗ１の全範囲を格子状に区分けして計１２個のブロックＢ１〜Ｂ１２を形成する。それから、制御部７１は各ブロックＢ１〜Ｂ１２中において、被写体画像Ｈが占有する領域が最も大きいブロックを特定し、その特定したブロックを被写体画像Ｈの検出した位置（検出位置）に決定する。なお、図２０（ａ）では、被写体画像Ｈの占める領域が最も大きいブロックＢ１１が被写体画像Ｈの検出位置になる。

また、図２０（ｂ）は、第２実施形態の３Ｄ動画生成装置７０が、ハードディスク装置７６に新たに記憶する位置対応テーブル８０の中身を示している。位置対応テーブル８０は、区分けされた撮影映像Ｗ１のブロックＢ１〜Ｂ１２ごとに、複数種類のカメラを予め対応付けた内容になっている。なお、位置対応テーブル８０の対応付けは、被写体画像Ｈが占有するブロックの位置に対して、動体（バックダンサー）及び背景の画像が重複せずに見やすくなることを考慮して決められている。例えば、被写体画像Ｈが右側（又は右下）のブロックを占有する場合、その逆側となる左側、又は対角的に反対方向となる左上側のカメラが対応付けられており、さらに、被写体画像Ｈが左側（又は左下）のブロックを占有する場合、その逆側となる右側、又は対角的に反対方向となる右上側のカメラが対応付けられている。

ハードディスク装置７６が記憶する動画生成プログラム７９は、図２０（ｂ）の位置対応テーブル８０を用いて、視点を定めるカメラを選択する処理を規定している。詳しくは、動画生成プログラム７９は、上述した被写体画像Ｈの検出処理により一つのブロックを特定すると、その特定したブロックに対応するカメラ（視点情報）を位置対応テーブル８０から選択する処理を制御部７１が行うことを規定している。それから、動画生成プログラム７９は、選択したカメラの位置（ＸＹＺ座標系の位置）を視点テーブルＴ（図８参照）に基づき制御部７１が特定し、３Ｄ動画の生成処理を行うことを規定している。

第２実施形態の３Ｄ動画生成装置７０における他の部分（ＲＡＭ７２、ＲＯＭ７３、動画出力インタフェース７４、入出力インタフェース７５等）及びハードディスク装置７６に記憶されるシステムプログラム７８、動画データＤ、視点テーブルＴは、第１実施形態と同等である。また、第２実施形態の動画生成システム５０のカメラ装置５１及びクロマキー装置６０も第１実施形態と同等であるため説明を省略する。さらに、第２実施形態の動画生成システム５０も、図１に示すようなカラオケシステム１に採用され、カラオケ楽曲を歌うユーザＵが合成された合成動画の生成を行っている。なお、カラオケシステム１に含まれる動画生成システム５０以外の分配装置４０、カラオケ装置４１等も第１実施形態と同等であるため、説明を省略すると共に、第２実施形態でも第１実施形態と同等の符号を用いて以下の説明を行う。

図２１は、第２実施形態の３Ｄ動画生成装置７０における３Ｄ動画の生成処理を示す第３フローチャートである。先ず、３Ｄ動画生成装置７０は、カラオケ装置４１からの再生開始信号を受け取ったか否かを判断し（Ｓ２０）、再生開始信号を受け取っていない場合（Ｓ２０：ＮＯ）、処理待ちとなり、再生開始信号を受け取った場合（Ｓ２０：ＹＥＳ）、次にカメラ装置５１から送られる撮影映像の入力があるか否かを判断する（Ｓ２１）。

撮影映像の入力がない場合（Ｓ２１：ＮＯ）、３Ｄ動画生成装置７０は、撮影映像の入力待ちとなり、撮影映像の入力があった場合（Ｓ２１：ＹＥＳ）、図２０（ａ）に示すような被写体画像Ｈの位置検出処理を行い（Ｓ２２）、検出した位置に応じたカメラの選択処理を位置対応テーブル８０を利用して行い（Ｓ２３）、選択したカメラの視点で３Ｄ動画の生成処理を行う（Ｓ２４）。それから、３Ｄ動画生成装置７０は、再生終了信号をカラオケ装置４１から受け取ったか否かを判断し（Ｓ２５）、再生終了信号を受け取っていない場合（Ｓ２５：ＮＯ）、撮影映像の入力判断処理の段階（Ｓ２１）へ戻り、処理を継続する。また、再生終了信号を受け取った場合（Ｓ２５：ＹＥＳ）、３Ｄ動画生成装置７０は、処理を終了する。

このように第２実施形態の３Ｄ動画生成装置７０は、撮影映像中の被写体画像の位置に応じて視点を変更した３Ｄ動画を生成するので、最終的にクロマキー装置６０において生成される合成動画のフレーム画像Ｇ２０、Ｇ２１等は、図２２（ａ）（ｂ）に示すように、被写体画像Ｈの位置が変わるごとに、バックダンサー１５ａ〜１５ｃ及びステージ背景１６ａ〜１６ｄの画像を見る方向が変化する内容になる。

即ち、図２２（ａ）では、ユーザＵの移動により被写体画像Ｈが、フレーム画像Ｇ２０において左側に位置するので、左側と反対側になる右側のカメラを視点にして、右端のバックダンサー１５ｃが大きくなるように視点変更が行われている。一方、図２２（ｂ）では、ユーザＵの移動により被写体画像Ｈが、フレーム画像Ｇ２１において右側に位置するので、右側と反対側になる左側のカメラに視点にして、左端のバックダンサー１５ａが大きくなるように視点変更が行われている。そのため、カラオケ楽曲を歌うユーザＵは、撮影を行うカメラ装置５１に対する位置を移動することで、バックダンサー１５ａ〜１５ｃ及びステージ背景１６ａ〜１６ｄの画像の視点が切り替わるようになり、歌いながら位置を変えることよる視覚的な楽しさを味わえる。

なお、第２実施形態でも、第１実施形態で述べた各種変形例の適用が可能である。また、図２３（ａ）（ｂ）は、第２実施形態特有の変形例の処理内容を示している。この変形例では、カメラ装置５１で撮影された映像中における被写体画像の動作に応じて、３Ｄ動画の視点情報を切り替えることを特徴にしている。そのため、変形例の３Ｄ動画生成装置７０は、ハードディスク装置７６に記憶される動画生成プログラム７９に撮影された被写体の動作を検出する処理を含ませており、制御部７１は動画生成プログラム７９が規定する内容に基づいて被写体の動作検出を行う。

被写体の動作検出は、カメラ装置５１から順次送られる撮影映像の時間的に前後する映像フレームの差分を取ることで行う。例えば、図２３（ａ）は、時刻ｔ２０での撮影映像Ｗ１０の内容、図２３（ｂ）は時刻ｔ２０に続く時刻ｔ２１での撮影映像Ｗ１１の内容を示し、動画生成プログラム７９の規定に基づき制御部７１は、各撮影映像Ｗ１０、Ｗ１１を区分けした各ブロックＢ１〜Ｂ１２で、被写体画像Ｈが位置するブロックを検出する。

そして、制御部７１は、検出した被写体画像Ｈが位置するブロックの中で、時刻ｔ２０の撮影映像Ｗ１０では位置しないが、時刻ｔ２１の撮影映像Ｗ１１では被写体Ｈが位置するブロックがあるか否かを、各ブロックごとの差分で判断し、そのようなブロックがあるときは、被写体に動作があったと判定する。例えば、図２３（ａ）（ｂ）の場合では、図２３（ａ）の第６ブロックＢ６に被写体画像Ｈは位置しないが、図２３（ｂ）の第６ブロックＢ６では被写体画像Ｈ（ユーザＵの右手）が位置するため、動作の有ったブロックとして第６ブロックＢ６が特定され、被写体に動作があったと判定される。

図２４は、動作検出に係る変形例で使用される動作対応テーブル８５の中身を示しており、動作対応テーブル８５は変形例の３Ｄ動画生成装置７０が、ハードディスク装置７６に新たに記憶するものである。動作対応テーブル８５は、動作のあったブロックＢ１〜Ｂ１２ごとに、複数種類のカメラ（視点情報に相当）を予め対応付けた内容になっている。なお、動作対応テーブル８５の対応付けは、動作のあったブロックの位置に対して、動体（バックダンサー）及び背景の画像が重複せずに見やすくなることを考慮して決められているが、動作に連動するようにカメラの対応付けを行ってもよい。例えば、現在の被写体Ｈが位置するブロックより右側のブロックが被写体Ｈの動作により新たに検出されれば、使用中のカメラより右側に位置するカメラを対応付けるようにしてもよく、また、被写体Ｈが位置するブロックより左側のブロックが新たに検出されれば、使用中のカメラより左側のカメラを対応付けるようにしてもよい。なお、上述した各ブロックＢ１〜Ｂ１２が本発明では内容的に、検出対象の被写体の動作に該当したものになっている。

また、ハードディスク装置７６に記憶される変形例の動画生成プログラム７９は、動作検出に基づき、図２４の動作対応テーブル８５を用いて、視点を定めるカメラを選択する処理を規定している。詳しくは、動画生成プログラム７９は上述した動作の検出処理により、動作のあったブロックを特定し、その特定したブロックに対応するカメラ（視点情報）を動作対応テーブル８５から選択する処理を規定する。

図２５は、上述した動作検出に係る変形例の３Ｄ動画生成装置７０が行う処理内容を示す第４フローチャートである。先ず、３Ｄ動画生成装置７０は、カラオケ装置４１から再生開始信号の受け取りの判断処理（Ｓ３０）、及びカメラ装置５１から送られる撮影映像の入力の判断処理（Ｓ３１）を、図２１に示す第３フローチャートと同様に行う。

そして、カメラ装置５１からの撮影映像の入力があった場合（Ｓ３１：ＹＥＳ）、３Ｄ動画生成装置７０は、図２３（ａ）（ｂ）に示すような被写体の動作検出処理を行い（Ｓ３２）、動作による変化があったか否かを判断する（Ｓ３３）。変化があったと判断した場合（Ｓ３３：ＹＥＳ）、３Ｄ動画生成装置７０は、動作のあったブロックに対応するカメラの選択処理を、動作対応テーブル８５を用いて行う（Ｓ３４）。また、変化が無いと判断した場合（Ｓ３３：ＮＯ）、被写体画像Ｈが占有するブロックに応じたカメラの選択処理を、図２０（ｂ）の位置対応テーブル８０を用いて行う（Ｓ３５）。

それから、３Ｄ動画生成装置７０は、選択したカメラの視点で３Ｄ動画の生成処理を行う（Ｓ３６）。そして、３Ｄ動画生成装置７０は、再生終了信号をカラオケ装置４１から受け取ったか否かを判断し（Ｓ３７）、再生終了信号を受け取っていない場合（Ｓ３７：ＮＯ）、撮影映像の入力判断処理の段階（Ｓ３１）へ戻り、処理を継続する。また、再生終了信号を受け取った場合（Ｓ３７：ＹＥＳ）、３Ｄ動画生成装置７０は、処理を終了する。

このように第２実施形態の変形例の３Ｄ動画生成装置７０は、被写体の動作に応じて視点を変更した３Ｄ動画を生成するので、最終的にクロマキー装置６０において生成される合成動画もカラオケ楽曲を歌うユーザＵの動作に応じて、バックダンサー１５ａ〜１５ｃ及びステージ背景１６ａ〜１６ｄの画像を見る方向が切り替わる。そのため、カラオケ楽曲を歌うユーザＵは、歌っている途中に振りの動作を行うことで、合成動画中のバックダンサー１５ａ〜１５ｃ及びステージ背景１６ａ〜１６ｄの画像の視点が変化するので、振りの動作に対する楽しみを得られると共に、各ユーザは積極的に様々な振りの動作を行って画像の視点を変えて、合成動画を見るユーザを楽しませることもできる。なお、図２５中の第４フローチャートは、動作検出に係る処理と、位置検出に係る処理を組み合わせた内容にしているが（Ｓ３４、Ｓ３５）、動作検出に係る処理のみを行って、動作による変化が無い場合は（Ｓ３３：ＮＯ）、固定の視点（デフォルトの視点）を選択するようにしてもよい。

本発明の第１実施形態に係る動画生成システムを適用したカラオケシステムの全体的な構成を示す概略図である。カラオケ装置の内部構成を示すブロック図である。３Ｄ動画配信サーバの内部構成を示すブロック図である。ウェブサイトのサイトページの一例を示す概略図である。クロマキー装置の内部構成を示すブロック図である。３Ｄ動画生成装置の内部構成を示すブロック図である。三次座標系における三次元的な動体、及び視点の位置関係等を説明する概略図である。視点テーブルの中身を示す図表である。（ａ）三次元コンピュータグラフィック技術により作成されるバックダンサーの画像を示す概略図、（ｂ）はモーションキャプチャ技術によるマーカに対応した点及びボーンを示す概略図である。動画データを構成する各動画フレームに含まれるバックダンサーの状態を示す概略図である。各動画フレームに対応するモーションデータの内容を表した図である。第１実施形態の３Ｄ動画生成装置の処理方法を示す第１フローチャートである。楽曲の再生進行に伴って選択されたカメラを表したタイムチャートである。（ａ）は撮影映像から抽出された被写体画像のイメージを表した概略図、（ｂ）は３Ｄ動画生成装置で生成された３Ｄ動画のフレーム画像を示す概略図である。（ａ）が生成された合成動画を構成するフレーム画像の一例を示す概略図、（ｂ）は（ａ）と視点が異なる合成動画のフレーム画像を示す概略図である。テロップが合成された合成動画のフレーム画像の一例を示す概略図である。第１実施形態の変形例に用いられるカラオケ楽曲のデータ構造を示す図である。第１実施形態の変形例に係る３Ｄ動画生成の処理方法を示す第２フローチャートである。本発明の第２実施形態に係る動画生成システムの構成を示すブロック図である。（ａ）は被写体画像の位置検出に係る処理を説明するための撮影映像の図、（ｂ）は位置対応テーブルの中身を示す図表である。第２実施形態に係る３Ｄ動画生成の処理方法を示す第３フローチャートである。（ａ）は合成動画を構成するフレーム画像の一例を示す概略図、（ｂ）は被写体画像の移動に伴い視点が変更された状態のフレーム画像を示す概略図である。第２実施形態の変形例に係る動作検出に係る処理を説明するための撮影映像の図であり、（ａ）は連続する時間における前側の状態を示す図、（ｂ）は被写体の動作があった後側の状態を示す図である。動作対応テーブルの中身を示す図表である。第２実施形態の変形例に係る３Ｄ動画生成の処理方法を示す第４フローチャートである。

符号の説明

１カラオケシステム
２大型ディスプレイ
４サブディスプレイ
５カラオケ楽曲サーバ
６壁部材
１０動画生成システム
１１カメラ装置
１５ａ〜１５ｃバックダンサー
１６ａ〜１６ｄステージ背景
２０クロマキー装置
２３被写体画像抽出部
２４合成部
３０３Ｄ動画生成装置
３８動画生成プログラム
４０分配装置
４１カラオケ装置
４１ｄ楽曲再生処理部
４０ｆテロップ合成部
４４記憶装置
４５３Ｄ動画配信サーバ
４６コンテンツデータベース
８０位置対応テーブル
８５動作対応テーブル
Ｄ動画データ
Ｔ視点テーブル
Ｈ被写体画像

Claims

動体の三次元座標系での姿勢を単位時間ごとに規定する姿勢情報、及び動体を見る位置を規定する視点情報に基づいて姿勢及び視点が特定された動体を含む動画を生成する動画生成手段を備える動画生成システムにおいて、
被写体を撮影する撮影手段と、
該撮影手段が撮影した映像中に含まれる被写体画像を抽出する画像抽出手段と、
該画像抽出手段が抽出した被写体画像を、前記動画生成手段が生成した動画に合成して合成動画を生成する合成動画生成手段とを備えることを特徴とする動画生成システム。
楽曲を取得する楽曲取得手段と、
該楽曲取得手段が取得した楽曲の再生処理を行う楽曲再生手段と、
該楽曲再生手段の再生処理に合わせて、前記合成動画の表示処理を行う表示処理手段とを備える請求項１に記載の動画生成システム。
前記楽曲取得手段は、歌詞を表す文字が付帯された楽曲を取得するようにしてあり、
前記楽曲に付帯された文字を、前記合成動画に合成する文字合成手段を備え、
前記表示処理手段は、前記文字合成手段により文字が合成された合成動画の表示処理を行う請求項２に記載の動画生成システム。
前記楽曲取得手段は、複数の視点情報が楽曲進行順に付帯された楽曲を取得するようにしており、
前記動画生成手段は、前記楽曲再生手段の再生処理の進行時点に応じた視点情報に基づいて動画を生成する請求項２又は請求項３に記載の動画生成システム。
複数の視点情報の中から１つの視点情報をランダムに選択する手段を備え、
前記動画生成手段は、選択された視点情報に基づいて動画を生成する請求項１乃至請求項３のいずれか１つに記載の動画生成システム。
前記撮影手段が撮影した映像中に含まれる被写体画像の位置を検出する画像位置検出手段と、
映像中の各位置、及び視点情報をそれぞれ対応付けた位置対応テーブルと、
前記画像位置検出手段が検出した位置に対応する視点情報を、前記位置対応テーブルから選択する手段とを備え、
前記動画生成手段は、前記位置対応テーブルから選択された視点情報に基づいて動画を生成する請求項１乃至請求項３のいずれか１つに記載の動画生成システム。
前記撮影手段が撮影した映像中の被写体画像の動作を検出する動作検出手段と、
被写体画像に係る各動作、及び複数の視点情報をそれぞれ対応付けた動作対応テーブルと、
前記動作検出手段が検出した動作に対応する視点情報を、前記動作対応テーブルから選択する手段とを備え、
前記動画生成手段は、前記動作対応テーブルから選択された視点情報に基づいて動画を生成する請求項１、２、３、６のいずれか１つに記載の動画生成システム。
前記姿勢情報には、複数の動体に係る三次元座標系の姿勢が規定してあり、
前記動画生成手段は、前記姿勢情報に基づいて複数の動体を含む動画を生成する請求項１乃至請求項７のいずれか１つに記載の動画生成システム。
背景の三次元座標系での位置を規定した背景情報を記憶する手段を備え、
前記動画生成手段は、記憶された背景情報に基づいて背景を含む動画を生成する請求項１乃至請求項８のいずれか１つに記載の動画生成システム。
前記合成動画生成手段が生成した合成動画を記憶媒体に記憶する処理を行う記憶処理手段を備える請求項１乃至請求項９のいずれか１つに記載の動画生成システム。
ネットワークを通じて送信された動画要求信号を受信する受信手段と、
該受信手段が動画要求信号を受信した場合、該動画要求信号の送信元へ動画を送信する動画送信手段とを備え、
前記動画送信手段は、前記合成動画生成手段が生成した合成動画を送信する請求項１乃至請求項１０のいずれか１つに記載の動画像生成システム。
動画生成システムが、動体の三次元座標系での姿勢を単位時間ごとに規定する姿勢情報、及び動体を見る位置を規定する視点情報に基づいて姿勢及び視点が特定された動体を含む動画を生成する動画生成方法において、
前記動画生成システムは、
被写体を撮影し、
撮影した映像中に含まれる被写体画像を抽出し、
抽出した被写体画像を、前記動画に合成して合成動画を生成することを特徴とする動画生成方法。