WO2023012976A1

WO2023012976A1 - 映像処理装置、映像処理方法およびプログラム

Info

Publication number: WO2023012976A1
Application number: PCT/JP2021/029145
Authority: WO
Inventors: 秀信長田; 弘員柿沼; 翔大山田
Original assignee: 日本電信電話株式会社
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2023-02-09
Also published as: JPWO2023012976A1

Abstract

スタイル変換を活用して、よりエンターテイメント性の高いイベント映像を生成する映像処理装置を提供する。実施形態に係る映像処理装置は、映像取得部と、反応取得部と、生成部と、変換部と、出力部と、を備える。映像取得部は、イベントに関連する第１映像を取得する。反応取得部は、イベントを視聴する視聴者の反応を表す情報を取得する。生成部は、視聴者の反応を表す情報をもとに動的スタイルデータを生成する。変換部は、第１映像に対して上記動的スタイルデータを用いたスタイル変換を実行し、スタイル変換済みの第２映像を生成する。出力部は、上記第２映像を出力する。

Description

映像処理装置、映像処理方法およびプログラム

　本発明の実施形態は、映像処理装置、映像処理方法およびプログラムに関する。

　画像または映像に対して、過去の芸術作品の画風、作風、またはテクスチャ（質感）等を反映させる、スタイル変換が知られている。スタイル変換は、画像のコンテンツ（形状等）を保持したままスタイルを変化させる画像処理技術である。このようなスタイル変換は、素材画像から所望のスタイルの画像への変換を可能にし、映画等のシーン作成において一般的なものとなりつつある。スタイル変換をほどこした映像を作成するには、収録済み素材映像に対して、そのフレーム画像を画像レタッチソフトウェアやＣＧソフトウェア等を用いて処理するか、あるいはプログラムを用いて変換する等の方法を採用することができる（例えば、非特許文献１、非特許文献２参照）。

Gatys, L.A., Ecker, A.S., Bethge, M., "Image Style Transfer Using Convolutional Neural Networks", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2414-2423 (2016) Justin Johnson, Alexandre Alahi, Li Fei-Fei, "Perceptual Losses for Real-Time Style Transfer and Super-Resolution", CVPR 2016, 27 Mar 2016

　スタイル変換は、まだその適用分野が限られている。舞台芸術等をはじめとするエンターテイメント分野における、スタイル変換の活用が期待される。　
　この発明は、スタイル変換を活用して、よりエンターテイメント性の高いイベント映像を生成する、映像処理装置、映像処理方法およびプログラムを提供することにある。

　実施形態に係る映像処理装置は、映像取得部と、反応取得部と、生成部と、変換部と、出力部と、を備える。映像取得部は、イベントに関連する第１映像を取得する。反応取得部は、イベントを視聴する視聴者の反応を表す情報を取得する。生成部は、視聴者の反応を表す情報をもとに動的スタイルデータを生成する。変換部は、第１映像に対して上記動的スタイルデータを用いたスタイル変換を実行し、スタイル変換済みの第２映像を生成する。出力部は、上記第２映像を出力する。

　実施形態によれば、イベントに関連する第１映像に対し、視聴者の反応を表す情報をもとに生成された動的スタイルデータを用いたスタイル変換が実行される。このスタイル変換により得られる第２映像は、視聴者のリアルタイムの反応を反映する、エンターテイメント性の高いイベント映像である。

　したがって、実施形態によれば、スタイル変換を活用して、よりエンターテイメント性の高いイベント映像を生成する、映像処理装置、映像処理方法およびプログラムが提供される。

図１は、この発明の一実施形態に係る映像処理装置の機能構成例を示す図である。図２は、図１に示した映像処理装置のハードウェア構成例を示すブロック図である。図３は、図１に示した映像処理装置の動作例を示すフローチャートである。図４は、図１に示した映像処理装置の機能構成の変形例を示す図である。

　以下、図面を参照してこの発明に係わる実施形態を説明する。なお、以降、説明済みの要素と同一または類似の要素には同一または類似の符号を付し、重複する説明については基本的に省略する。例えば、複数の同一または類似の要素が存在する場合に、各要素を区別せずに説明するために共通の符号を用いることがあるし、各要素を区別して説明するために当該共通の符号に加えて枝番号を用いることもある。

　［一実施形態］
　（構成）
　図１は、この発明の一実施形態に係る映像処理装置１の機能構成例を示す図である。　
　映像処理装置１は、舞台芸術をはじめとするステージエンターテイメント分野において、スタイル変換を活用する。

　図１において、映像処理装置１は、映像取得部１１と、スタイル取得部１２と、反応取得部１３と、動的スタイルデータ生成部１４と、適用割合設定部１５と、スタイル変換部１６と、同期処理部１７と、出力部１８と、静的スタイルデータ記憶部１９と、ユーザインタフェース２１と、を備える。

　ユーザインタフェース２１は、スタイル変換制御のためのユーザインタフェースである。ユーザインタフェース２１は、映像処理装置１とユーザとの間の情報のやり取りを可能にする。ここでは、ユーザは、例えば、映像処理装置１のオペレータである。

　静的スタイルデータ記憶部１９は、静的スタイルデータを記憶する。静的スタイルデータは、例えば映像処理装置１のユーザによって事前に格納される。静的スタイルデータは、様々なテクスチャ画像を含む。テクスチャ画像の例として、水、火、布、紙、木、石、砂などの無機物の写真、あるいはそれらの特徴を表す画像、または斜線、ドットなどに代表されるデザインに用いられるテクスチャ、あるいは著名な絵画の一部などの、当該絵画の作風が特徴的に表れるテクスチャ画像を、静的スタイルデータとして用いる。また、これらの画像のほかに、ざらざら、つるつる、きらきら、といった質感を表す単語に結び付けられた、画像の特徴量、さらに、ニューラルネットにより生成した光沢などを表現可能な特徴量を、静的スタイルデータとして適用することもできる。

　映像取得部１１は、スタイル変換の対象となる映像を取得する。映像取得部１１は、イベントに関連する第１映像を取得する映像取得部の一例である。映像取得部１１は、イベントに関連する第１映像を、例えば、カメラ（図示せず）からの映像として取得する。イベントは、視聴者の存在が想定される、エンターテイメント分野に係る種々のイベントを含む。イベントは、舞台芸術（例えば、演劇、音楽、舞踊）、演芸、スポーツなど、舞台に限らず、所定の空間で実現されるイベントを含み得る。イベントは、現実空間で実現されるイベント、仮想空間で実現されるイベント、またはそれらの組合せであり得る。イベントは、コンテンツと言い換えられてもよい。映像取得部１１が取得する映像は、例えば、舞台上で実演される音楽ライブの様子を撮影した映像や、舞台芸術における役者を撮影した映像である。これらは静止画または動画を含む。

　スタイル取得部１２は、静的スタイルデータ記憶部１９から静的スタイルデータを取得する。例えば、スタイル取得部１２は、ユーザインタフェース２１を介してユーザからスタイル変換に適用すべきテクスチャの指定を受け取り、指定されたテクスチャに対応する静的スタイルデータを静的スタイルデータ記憶部１９から読み出す。スタイル取得においては、スタイル取得部１２は、静的スタイルデータ記憶部１９に格納されたデータの一部または全部を、任意の組み合わせでスタイルとして取得することができる。

　反応取得部１３は、イベントを視聴する視聴者の反応を表す情報を取得する。具体的には、反応取得部１３は、例えば、視聴者の手の動き、視聴者が振るケミカルライト（ペンライト）の光、単一の視聴者の姿、客席などの集合した状態の視聴者の姿、客席の明るさ、ノイズの大きさ、またはイベントや舞台の実施時に前記映像がストリーミング配信された際の配信サイトにおける画面等を、イベントを視聴する視聴者の反応として取得する。前記の例にあげた反応のうち、いずれの反応をシステムで採用するかは、ユーザインタフェース２１で指定することが可能である。反応取得部１３は、イベントを視聴する視聴者の反応を表す情報を取得する反応取得部の一例である。

　動的スタイルデータ生成部１４は、反応取得部１３によって取得された情報を処理し、スタイル変換の要素となる動的スタイルデータを生成する。具体的には、動的スタイルデータ生成部１４は、例えば、反応取得部１３によって取得された視聴者の手の動きの１フレームごとの量、反応取得部１３によって取得された視聴者が振るケミカルライトの光の色の１フレームごとの輝度値、反応取得部１３によって取得された視聴者が振るケミカルライトの光の色のうち、特定の色の１フレームごとの輝度値、反応取得部１３によって取得された単一の視聴者を撮影した動画像から抽出する動きベクトルの１フレームごとの値、反応取得部１３によって取得された客席などの集合した状態の視聴者を撮影した動画像から抽出することのできる動きベクトルの総量の１フレームごとの値、反応取得部１３によって取得された客席などの集合した状態の視聴者を撮影した動画像から抽出することのできる１フレームごとの客席の明るさ、反応取得部１３によって取得された客席などの集合した状態の視聴者を撮影した動画像から抽出することのできる１フレームごとの、一定以上の輝度値となる領域の数すなわち「明るい点」の数、反応取得部１３によって取得された観客席の音声から得られる１フレームごとの音圧、反応取得部１３によって取得された、ストリーミング配信サイトまたは掲示板サイトに書き込まれる文字、または文字の総量、または文字の色、または文字がスクロールされ流れる速さ、文字のフォントの大きさ、これらを動的スタイルデータとして生成する。動的スタイルデータ生成部１４は、視聴者の反応を表す情報をもとに動的スタイルデータを生成する生成部の一例である。

　適用割合設定部１５は、静的スタイルデータと動的スタイルデータの適用割合を設定する。例えば、適用割合設定部１５は、ユーザからユーザインタフェース２１を介して適用割合の指定を受け取り、後述するスタイル変換部１６に対して適用割合を設定する。ユーザは、例えばディスプレイ等に表示されたＧＵＩ（Graphical User Interface）部品を介して適用割合を指定することができる。ＧＵＩ部品の一例は、ドラッグ操作等により静的スタイルデータと動的スタイルデータの割合を選択可能なスライダである。ユーザが静的スタイルデータと動的スタイルデータとの適用割合を数値で入力可能としてもよい。ＧＵＩ部品の代わりにハードウェアが用いられてもよい。適用割合設定部１５は、静的スタイルデータと動的スタイルデータとの適用割合を設定する設定部の一例である。

　スタイル変換部１６は、静的スタイルデータ、動的スタイルデータ、および映像取得部１１で取得された映像を入力とし、適用割合設定部１５によって設定された適用割合にしたがって、スタイル変換を実行する。スタイル変換部１６は、スタイル変換のアルゴリズムとして、上記の非特許文献１に記載されたアルゴリズムを採用することができる。例えば、スタイル変換部１６は、物体認識に最適化された畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Networks）から得られる画像表現を用い、スタイルデータのスタイル表現を映像の各フレーム（コンテンツ画像）に対して転写することにより、スタイル変換を実行することができる。画像の代わりに文字情報等を入力に用いる場合、あらかじめ文字を画像に変換してもよいし、文字情報を何らかの形でベクトル表現に変換してもよい。スタイル変換部１６は、このようなスタイル変換の結果、元の映像（第１映像）のコンテンツ表現を維持しつつ、スタイルデータのスタイル表現を有する、スタイル変換済みの映像（第２映像）を得ることができる。スタイル変換部１６は、第１映像に対して動的スタイルデータを用いたスタイル変換を実行し、スタイル変換済みの第２映像を生成する変換部の一例である。スタイル変換部１６は、上述したように、設定された適用割合で静的スタイルデータと動的スタイルデータを用いてスタイル変換を実行することができる。

　同期処理部１７は、映像取得部１１で取得された映像のフレームと、スタイル変換部１６で生成したスタイル変換済みの映像のフレームとを同期させる。スタイルを変換する元の動画から、スタイル変換を行った後の動画（たとえば、衣装だけが炎で表現され、なおかつ炎の明るさが会場の観客の声援の音量やペン型ライトを振る観客の数に応じて明るく変化するようなスタイル変換を適用した動画）に、スイッチング処理によってなめらかに変換をかけていく必要がある。この場合、スタイル変換の適用前後の動画像が完全に連動している必要がある。このため、例えば、スタイル変換前の映像の各フレームにタイムスタンプまたは識別番号が付され、映像取得部１１で取得した映像を分岐させ、待機回路（図示せず）を経由させることによってスタイル変換の処理前の映像と処理後の映像を同期させる。同期処理部１７は、スタイル変換済みの映像のフレームと、映像取得部１１で取得された元の映像のフレームとを同期させることができる機構である。同期処理部１７は、第１映像のフレームと第２映像のフレームとを時間同期させる同期処理部の一例である。

　出力部１８は、同期処理部１７で同期された、元の映像とスタイル変換された映像とを出力する。一例として、舞台で行われているシーンを複数のカメラ（ここではＣ１、Ｃ２とする）でとらえ、これらの切り替えによってカット（視点）を変えた画面を番組として配信する場合であって、Ｃ２のカメラで撮影されている画像に対してのみ、スタイル変換を時間をかけて施した画像を出力する場合を想定する。この場合、同期処理部１７によってＣ１の出力映像とＣ２の出力映像とが同期されるため、出力部１８における映像を遠隔の視聴者が見た場合、同じ被写体を別の角度から同時に映しているにもかかわらず、一方の視点の映像のみ、特殊効果（今回の場合にはスタイル変換）を掛けたように見せることができ、演出上の効果が大きくなる。なお、出力部１８の映像を、テレビやストリーミング配信ではなく、舞台上のサービス画面と呼ばれる大型スクリーンに映し出す場合にも、同じ効果が期待できる。なお、出力部１８は、スタイル変換部１６によるスタイル変換済みの映像（第２映像）のみを出力してもよい。出力する映像は、ユーザインタフェース２１で指定することができる。出力部１８は、第２映像を出力する出力部の一例である。

　この発明の一実施形態に係る映像処理装置１は、上記のような構成により、イベントの視聴者のリアクションを取り入れたスタイル変換をリアルタイムに実行する。これにより、映像処理装置１は、よりエンターテイメント性の高いイベント映像を生成することができる。

　図２は、映像処理装置１のハードウェア構成例を示す図である。映像処理装置１は、コンピュータとして構成され得る。映像処理装置１は、単一のコンピュータである必要はなく、複数のコンピュータによって構成されていてもよい。　
　図２に示すように、映像処理装置１は、プロセッサ１０１と、ＲＡＭ（Random Access Memory）１０２と、ＲＯＭ（Read Only Memory）１０３と、補助記憶装置１０４と、入力装置１０５と、出力装置１０６と、通信モジュール１０７と、を備え、これらがバス１０８を介して接続されている。

　プロセッサ１０１は、様々なプログラムを実行することが可能な処理回路であり、映像処理装置１の全体の動作を制御する。プロセッサ１０１は、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）等のプロセッサであってよい。また、プロセッサ１０１は、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）等であってもよい。さらに、プロセッサ１０１は、単一のＣＰＵ等で構成されていてもよいし、複数のＣＰＵ等で構成されていてもよい。

　ＲＡＭ１０２は、揮発性の半導体メモリであり、プロセッサ１０１の作業領域として使用される。ＲＯＭ１０３は、不揮発性の半導体メモリであり、映像処理装置１を制御するためのプログラムおよび制御データ等を保持している。プロセッサ１０１は、ＲＯＭ１０３に記憶されたプログラムをＲＡＭ１０２に展開し、解釈および実行することによって、上記の映像取得部１１、スタイル取得部１２、反応取得部１３、動的スタイルデータ生成部１４、適用割合設定部１５、スタイル変換部１６、同期処理部１７、出力部１８およびユーザインタフェース２１の機能を含む、様々な機能を実現する。

　補助記憶装置１０４は、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）といった不揮発性の記憶装置である。補助記憶装置１０４は、上記の静的スタイルデータ記憶部１９を含む。なお、プログラムの一部は補助記憶装置１０４に記憶されてもよい。

　入力装置１０５は、映像処理装置１のユーザからの入力を受け付けるための装置である。入力装置１０５は、例えば、タッチパネル、キーボード、マウス、操作ボタン、または操作スイッチ等を含む。入力装置１０５は、例えば、ユーザから静的スタイルデータと動的スタイルデータの適用割合の入力を受け付け、適用割合設定部１５に渡す。

　出力装置１０６は、情報を出力するための装置である。出力装置１０６は、例えば、ディスプレイまたはスピーカを含む。ディスプレイは、例えば、液晶表示装置または有機ＥＬ（Electro-Luminescence）ディスプレイであり得る。

　通信モジュール１０７は、映像処理装置１と他の機器との通信に使用される回路を含むモジュールである。通信モジュール１０７は、例えば有線ＬＡＮの規格に準拠した通信モジュールであってよい。また、通信モジュール１０７は、例えば無線ＬＡＮの規格に準拠した通信モジュールであってもよい。通信モジュール１０７は、マイクロＵＳＢ（Universal Serial Bus）コネクタなどの端子を備えていてもよい。通信モジュール１０７は、図示しないカメラとの間で通信し、カメラから上記第１映像を受信し得る。

　なお、映像処理装置１の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。

　一実施形態に関して説明するスタイル変換の適用シーンは、従前の研究や商用の事例において実現されているスタイル変換のように、あらかじめ準備した素材または舞台上の映像を、事前に設定した何らかのスタイルに変換し、これを再生する、という利用シーンにとどまらない。一実施形態に係る映像処理装置１が想定している適用シーンは、舞台の目の前で視聴する多数の観客や、自宅等のリモート環境で視聴する視聴者が、視聴中にとる何らかのリアクション（拍手、歓声、ライトを振る等）から物理特徴を抽出し、これをスタイルデータとして取り入れることを想定している。さらに、映像処理装置１は、事前に準備した静的スタイルデータと、上記の物理特徴によって生成された動的スタイルデータとの適用配分を動的に変更可能とする。

　（動作）
　次に、以上のように構成された映像処理装置１による情報処理動作を説明する。　
　図３は、映像処理装置１の動作例を示すフローチャートである。例えば、舞台上で音楽ライブ等のイベントが進行されており、観客席には第１カメラが設置され、この第１カメラがイベント進行中に観客席から舞台上の演者の映像を撮影するものとする。また例えば舞台には第２カメラが設置され、この第２カメラがイベント進行中に舞台から観客席の観客の映像を撮影するものとする。

　ステップＳ１０１において、映像処理装置１のプロセッサ１０１は、映像取得部１１により、スタイル変換の対象となる第１映像を取得する。映像取得部１１は、例えば、上記の第１カメラから音楽ライブの映像を取得する。スタイル変換の対象となる第１映像は、単一のカメラから取得される映像に限られるものではなく、異なる位置に設置された複数のカメラからの映像を含んでよい。

　ステップＳ１０２において、映像処理装置１のプロセッサ１０１は、反応取得部１３により、視聴者の反応を表す情報を取得する。反応取得部１３は、例えば、上記の第２カメラからイベントの進行中に観客（視聴者）を撮影した映像を取得する。この映像は、例えば、視聴者の手の動き、視聴者が振るケミカルライトの輝度値、視聴者が振るケミカルライトの光の色のうち特定の色の輝度値、単一もしくは複数の視聴者から抽出される動きベクトルの量、客席の明るさ、一定以上の輝度値となる領域の数すなわち「明るい点」の数、または音声情報として得られる音圧、等の情報を含む。反応取得部１３により取得される映像は、単一のカメラから取得される映像に限られるものではなく、異なる位置に設置された複数のカメラからの映像を含んでよい。反応取得部１３により取得される映像は、遠隔地でイベント映像を視聴する視聴者を撮影した映像や、ストリーミング配信サイトもしくは掲示板サイトのキャプチャ画像等を含んでよい。反応取得部１３はまた、カメラからの映像に加えて、またはカメラからの映像に代えて、ストリーミング配信サイトもしくは掲示板サイトに書き込まれる文字の情報等を、視聴者の反応を表す情報として取得し得る。

　ステップＳ１０３において、映像処理装置１のプロセッサ１０１は、動的スタイルデータ生成部１４により、視聴者の反応を表す情報を処理し、動的スタイルデータを生成する。一実施形態では、動的スタイルデータ生成部１４は、ユーザインタフェース２１を介して指定された複数の物理量をフレームごとに抽出し、それらの値の変化に基づいて動的スタイルデータに採用する物理量を動的に選択するように構成される。具体的には、動的スタイルデータ生成部１４は、複数の物理量についてフレームごとの値の変化を監視し、事前に設定された閾値を超える変化を示す物理量を次々に動的スタイルとして採用する。これにより、動的スタイルデータ生成部１４は、ある場面では視聴者の声援が大きくなり、ある場面では視聴者がケミカルライトを振り、ある場面ではＷｅｂサイトへの書き込みが増加する、といった多様な視聴者の反応を即座に反映して動的スタイルデータを生成することができる。一般に、静まり返った舞台において、次の瞬間に観客がケミカルライトを振るか、応援の掛け声をかけるか、または拍手するか等を事前に予測することは困難である。そこで、一実施形態では、映像処理装置１は、動的スタイルデータ生成部１４により、複数の物理量の変化を監視し、フレーム間の変化量が所定の閾値を超えるなどの場合に、その物理量を動的なスタイルとして逐次採用する。あるいは、動的スタイルデータ生成部１４は、ユーザインタフェース２１を介して指定された物理量をフレームごとに抽出し、抽出した物理量を動的スタイルデータとして用いてもよい。例えば、動的スタイルデータ生成部１４は、反応取得部１３によって得られた映像から、フレームごとに視聴者が振るケミカルライトの光の色の輝度値を抽出し、輝度値を動的スタイルデータとしてもよい。

　ステップＳ１０４において、映像処理装置１のプロセッサ１０１は、スタイル取得部１２により、静的スタイルデータを取得する。スタイル取得部１２は、例えば、ユーザインタフェース２１を介して入力されたユーザの指示にしたがい、静的スタイルデータ記憶部１９から対応するデータを読み出す。静的スタイルデータは、事前に用意されたテクスチャ画像を含む。

　ステップＳ１０５において、映像処理装置１のプロセッサ１０１は、適用割合設定部１５により、静的スタイルデータと動的スタイルデータの適用割合を設定する。適用割合設定部１５は、例えば、ユーザインタフェース２１を介して入力されたユーザの指示にしたがって設定を行う。

　ステップＳ１０６において、映像処理装置１のプロセッサ１０１は、スタイル変換部１６により、ステップＳ１０１で取得された第１映像の各フレーム、ステップＳ１０３で取得された動的スタイルデータ、およびステップＳ１０４で取得された静的スタイルデータを入力とし、適用割合設定部１５によって設定された適用割合にしたがって、スタイル変換を実行する。スタイル変換部１６は、画像の特徴を抽出可能なＣＮＮにより、スタイル適用対象画像（スタイル変換の対象）とスタイル画像とに対してエンコード処理を実行する。スタイル変換部１６は、例えば、第１映像のコンテンツ表現をＣＮＮの特定の中間層の出力である特徴マップとして得る。またスタイル変換部１６は、例えば、静的スタイルデータおよび動的スタイルデータのそれぞれのスタイル表現をＣＮＮの同じ中間層のコンテンツ表現のグラム行列として得る。ここで、スタイル変換部１６は、複数の中間層の生成データを取り出してプールしておき、エンコードの途中で特定の層から抽出される特徴をスタイル適用対象画像とスタイル画像との間で交代（いわゆる「スタイル・スワップ」）させる処理を行う。これにより、デコードのフェーズにおいて、スタイル適用対象画像内に、スタイル画像の特徴が反映された画像が復元される。この方法によれば、スタイル適用対象画像およびスタイル画像の画像特徴を抽出するために大量のデータによる事前学習の必要がなく、処理を高速化することができる。

　どの層の特徴をスワップさせるべきかの指定、ならびにＣＮＮにおいて処理を行う単位（スタイル適用対象画像およびスタイル画像それぞれの画像領域のウインドウサイズ）は、スタイル変換の具合をユーザが目視確認しつつヒューリスティックに決定し、ユーザインタフェース２１を介して決定してよい。あるいは、勾配降下法等によりコンテンツ損失とスタイル損失の線形和を最小化するような中間量をスワップさせてもよい。

　スタイル変換の適用割合と粒度は、任意の方法で適用されてよい。一例として、スタイルとして画像が使用される場合、そのサブセットの領域を粒度の１つとすることができる。例えば、観客がケミカルライトを振る映像がスタイル画像として採用される場合、映像から抽出される明るい点の数がスタイルデータとして使用される。

　ステップＳ１０７において、映像処理装置１のプロセッサ１０１は、同期処理部１７により、同期処理を実行する。スタイル変換には時間を要するため（例えば、数十秒程度）、同期処理部１７は、元の映像（第１映像）のフレームと、スタイル変換後の映像（第２映像）のフレームと、を時間同期させ、出力部１８に渡す。

　ステップＳ１０８において、映像処理装置１のプロセッサ１０１は、出力部１８により、同期処理部１７によって同期処理された第１映像と第２映像とを映像データとして出力する。一例として、映像処理装置１は、出力部１８により、通信モジュール１０７を介して、映像データを遠隔地にいる視聴者の端末に送信する。視聴者の端末は、例えば、スマートフォン、携帯電話端末、パーソナルコンピュータ、タブレット端末、ゲーム機、テレビジョン受像機、またはヘッドマウントディスプレイ等のウェアラブル端末を含む。視聴者は、受信した映像データに基づく映像を端末のディスプレイに表示させ、スタイル変換を適用されたイベント映像を視聴することができる。視聴者の端末に表示されるイベント映像は、例えば、舞台上の音楽ライブを撮影したライブ映像に対し、舞台の目の前にいる観客のケミカルライトの色情報を動的スタイルデータとして用いて、スタイル変換したものである。これにより、視聴者は、遠隔地にいながら、他の観客との一体感および臨場感を感じながら音楽ライブを楽しむことができる。また、視聴者自身の視聴時の行動が、スタイルに動的に反映される。視聴者の端末における表示態様は、元の映像（第１映像）のみ、スタイル変換後の映像（第２映像）のみ、または元の映像とスタイル変換後の映像の同時表示（例えば、上下もしくは左右に並べて、または重畳させて）を任意に切り替え可能であってよい。

　図３に示したフローは一例にすぎず、処理の順序は適宜入れ替えて実行されてよい。例えば、ステップＳ１０４の静的スタイルデータ取得処理は、ステップＳ１０１～Ｓ１０３よりも前に実行されてもよいし、ステップＳ１０１～Ｓ１０３と並行して実行されてもよい。同様に、ステップＳ１０５の適用割合設定処理も、任意のタイミングで実行されてよい。

　（効果）
　以上詳述したように、この発明の一実施形態に係る映像処理装置１では、映像取得部１１が、イベントに関連する第１映像を取得し、反応取得部１３が、イベントを視聴する視聴者の反応を表す情報を取得し、動的スタイルデータ生成部１４が、視聴者の反応を表す情報をもとに動的スタイルデータを生成し、スタイル変換部１６が、上記の第１映像に対して動的スタイルデータを用いたスタイル変換を実行してスタイル変換済みの第２映像を生成し、出力部１８が、第２映像を出力する。出力される第２映像は、第１映像に対して、視聴者の反応を表す情報をもとに生成された動的スタイルデータのスタイルをリアルタイムに転写したものである。遠隔地にいる視聴者は、第２映像を視聴することにより、他の視聴者の反応を感知することができ、他の視聴者との一体感および臨場感を楽しむことができる。

　動的スタイルデータ生成部１４は、視聴者の反応を表す情報として抽出可能な物理量を監視し、動的スタイルデータを生成する。これにより、映像処理装置１は、観客の姿、動き、もしくは声の大きさ、またはＷｅｂサイトへの書き込みの頻度など、画像の質感とは直接的には関連しない動的な情報をスタイル変換に用いることができる。舞台芸術のように観客の反応に予測困難な要素の多いイベントにおいても、このような動的スタイルデータを用いることによって、より臨場感の高いスタイル変換を実行することができる。

　また映像処理装置１では、スタイル取得部１２が静的スタイルデータを取得し、適用割合設定部１５が、静的スタイルデータと動的スタイルデータとの適用割合を設定し、上記のスタイル変換部１６が、設定された適用割合を用いて静的スタイルデータと動的スタイルデータとを適用してスタイル変換を実行する。これにより、得られるスタイル変換後の映像（イベント映像または第２映像）は、視聴者の反応をリアルタイムに反映しつつ、静的スタイルデータによってある程度の統一感のある映像を提供することができる。

　映像処理装置１では、さらに、同期処理部１７が、第１映像のフレームと第２映像のフレームとを時間同期させ、上記の出力部１８が、上記の第２映像とともに、第２映像に時間同期された第１映像を出力する。これにより、スタイル変換に要する時間の遅れの影響のない第１映像と第２映像の映像セットを得ることができる。

　近年、リアルタイムでのスタイル変換を可能とする試みが提案されている。しかし、上記実施形態のように、視聴者の反応を動的スタイルとして取り入れ、しかもその取り入れる割合を自在に制御可能とする仕組みまで具備するシステムは知られていない。公開されている文献を単純に組み合わせても、上記実施形態に係るスタイル変換処理を実現することは容易ではない。

　実施形態に係る映像処理装置１によれば、事前に設定した固定的なスタイル（静的スタイル）だけではなく、舞台を視聴するあらゆる視聴者のリアクションを取り入れた、動的なスタイル変換を実現することができる。

　（変形例）
　図４は、映像処理装置１の機能構成の変形例を示す。この変形例では、映像処理装置１は、複数の視聴者の反応をスタイル変換に適用する。複数の視聴者は、例えば、公演会場にいる視聴者、リモート会場にいる視聴者、または自宅で端末のディスプレイ上で視聴する視聴者を含む。

　図４に示す映像処理装置１は、反応取得部１３および動的スタイルデータ生成部１４の代わりに複数の反応取得部１３１，・・・，１３Ｎおよび複数の動的スタイルデータ生成部１４１，・・・，１４Ｎを備える点を除き、図１に示した映像処理装置１と同様の構成を有する。以下では、主に図１に示した映像処理装置１との相違について説明する。

　反応取得部１３１，・・・，１３Ｎは、それぞれ、１または複数の視聴者の反応を表す情報を取得する。反応取得部１３１，・・・，１３Ｎは、それぞれ異なる種類の反応を表す情報を取得してよい。例えば、ある反応取得部１３１は、公演会場の視聴者がケミカルライトを振る映像を取得し、別の反応取得部１３ｘは、自宅で視聴する視聴者が端末に入力した声を取得してもよい。

　動的スタイルデータ生成部１４１，・・・，１４Ｎは、それぞれ、反応取得部１３１，・・・，１３Ｎから取得された反応を表す情報を受け取り、対応する動的スタイルデータを生成する。動的スタイルデータ生成部１４１，・・・，１４Ｎは、それぞれ、異なる処理を用いて異なる種類の動的スタイルデータを生成してよい。

　なお、図４に示す映像処理装置１も、図２に例示したのと同じハードウェア構成例を採用することができる。

　この変形例により、地理的に異なる位置にいる複数の視聴者の反応を反映したスタイル変換を実行することができる。スタイル変換後の映像を視聴者に提示することによって、視聴者は、公演会場にいるか、リモート会場にいるか、自宅にいるかを問わず、他の視聴者との一体感を感じることができる。同様に、スタイル変換後の映像を演者自身に提示することによって、演者は、目の前にいる観客だけでなく、遠隔地にいる視聴者の反応をも感知することができる。

　［他の実施形態］
　なお、この発明は上記実施形態に限定されるものではない。例えば、映像処理装置１が備える各機能を、複数の装置に分散配置し、これらの装置が互いに連携することにより処理を行うようにしてもよい。また各機能部は、回路を用いることで実現されてもよい。回路は、特定の機能を実現する専用回路であってもよいし、プロセッサのような汎用回路であってもよい。

　スタイル変換に用いられる動的スタイルデータは、１つの種類のデータに限定されない。例えば、ケミカルライトの色を反映する動的スタイルデータと、視聴者の声の大きさを反映する動的スタイルデータとを任意の割合で組み合わせ、さらに上記のように設定された適用割合で静的スタイルデータを適用して、複数のスタイルを用いたスタイル変換を実現することも可能である。

　以上で説明した各処理の流れは、説明した手順に限定されるものではなく、いくつかのステップの順序が入れ替えられてもよいし、いくつかのステップが同時並行で実施されてもよい。

　以上で記載した手法は、計算機（コンピュータ）に実行させることができるプログラム（ソフトウェア手段）として、例えば磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ、ＭＯ等）、半導体メモリ（ＲＯＭ、ＲＡＭ、フラッシュメモリ等）等の記録媒体（記憶媒体）に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウェア手段（実行プログラムのみならずテーブル、データ構造も含む）を計算機内に構成させる設定プログラムをも含む。上記装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウェア手段を構築し、このソフトウェア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含むものである。

　なお、この発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

　１…映像処理装置
　１１…映像取得部
　１２…スタイル取得部
　１３，１３１，１３Ｎ…反応取得部
　１４，１４１，１４Ｎ…動的スタイルデータ生成部
　１５…適用割合設定部
　１６…スタイル変換部
　１７…同期処理部
　１８…出力部
　１９…静的スタイルデータ記憶部
　２１…ユーザインタフェース
　１０１…プロセッサ
　１０２…ＲＡＭ
　１０３…ＲＯＭ
　１０４…補助記憶装置
　１０５…入力装置
　１０６…出力装置
　１０７…通信モジュール

Claims

　イベントに関連する第１映像を取得する映像取得部と、
　前記イベントを視聴する視聴者の反応を表す情報を取得する反応取得部と、
　前記視聴者の反応を表す情報をもとに動的スタイルデータを生成する生成部と、
　前記第１映像に対して前記動的スタイルデータを用いたスタイル変換を実行し、スタイル変換済みの第２映像を生成する変換部と、
　前記第２映像を出力する出力部と
　を備える、映像処理装置。
　静的スタイルデータを取得するスタイル取得部と、
　前記静的スタイルデータと前記動的スタイルデータとの適用割合を設定する設定部と、
　をさらに備え、
　前記変換部は、設定された適用割合を用いて前記静的スタイルデータと前記動的スタイルデータとを適用して、前記スタイル変換を実行する、
　請求項１に記載の映像処理装置。
　前記第１映像のフレームと前記第２映像のフレームとを時間同期させる同期処理部をさらに備え、
　前記出力部は、前記第２映像とともに、前記第２映像に時間同期された前記第１映像を出力する、
　請求項１または２に記載の映像処理装置。
　前記反応取得部は、前記イベントを視聴する前記視聴者を撮影した映像、前記イベントに係るインターネットサイトへの書き込み、または前記視聴者が端末に向かって発声した声を、前記視聴者の反応を表す情報として取得する、請求項１乃至３のいずれか一項に記載の映像処理装置。
　映像処理装置が実行する映像処理方法であって、
　イベントに関連する第１映像を取得することと、
　前記イベントを視聴する視聴者の反応を表す情報を取得することと、
　前記視聴者の反応を表す情報をもとに動的スタイルデータを生成することと、
　前記第１映像に対して前記動的スタイルデータを用いたスタイル変換を実行し、スタイル変換済みの第２映像を生成することと、
　前記第２映像を出力することと
　を備える、映像処理方法。
　請求項１乃至４のいずれか一項に記載の装置の各部による処理をコンピュータに実行させるプログラム。