JP2022091670A

JP2022091670A - 自動スイッチング装置、自動スイッチング方法及びプログラム

Info

Publication number: JP2022091670A
Application number: JP2021103756A
Authority: JP
Inventors: 太郎矢口; Taro Yaguchi; 大樹加藤; Daiki Kato; 萌江竹内; Moe Takeuchi
Original assignee: Nippon Television Network Corp
Current assignee: Nippon Television Network Corp
Priority date: 2020-12-09
Filing date: 2021-06-23
Publication date: 2022-06-21
Also published as: JP2022091640A; JP6908906B1

Abstract

【課題】映像のスイッチングを自動化すること。【解決手段】自動スイッチング装置は、コンテンツの映像素材を取得する取得部と、映像素材の人物の画像又は音声を認識する認識部と、認識されたオブジェクトの画像又は音声により、コンテンツにおけるオブジェクトの役割の指標である役割指標を計算し、役割指標を用いて、少なくとも一以上のオブジェクトを領域内に含み、映像素材から映像を切り出すための切り出し候補領域を複数選定する切り出し候補領域選定部と、映像素材におけるオブジェクトの映像変化及び音声変化を検出する検出部と、映像素材におけるオブジェクトの映像変化及び音声変化の検出結果から、各切り出し候補領域におけるスイッチングのタイミングの指標であるスイッチング指標を計算し、各切り出し候補領域のスイッチング指標を用いて、各切り出し候補領域から切り出し領域を決定する切り出し領域決定部と、映像素材から切り出し領域の映像を切り出し、現在出力されている映像を切り出した映像にスイッチングするスイッチング部とを備える。【選択図】図１

Description

本発明は自動スイッチング装置、自動スイッチング方法及びプログラムに関し、特に、スイッチングする映像の選択を自動化する自動スイッチング装置、自動スイッチング方法及びプログラムに関する。

従来、放送局における番組制作の現場では、複数台のカメラを用いて、各カメラマンがそれぞれの観点から出演者を撮影し、スイッチャが番組の意図などの観点より複数のカメラ映像からひとつの映像をスイッチング(選択)して出力映像としていた。しかし、上述のような制作システムでは、多くの人的リソースを必要としていた。そこで、人的リソースの軽減を図るため、ロボットカメラ等により自動撮影する試みがなされている（例えば、特許文献１）。

特許文献１の技術は、外部からの指令に基づいて撮影ショットタイプを設定する撮影ショットタイプ設定手段と、被写体のイベントと撮影ショットタイプと切替ショットとを関連付けた複数のイベント撮影規則生成情報を予め記憶する撮影規則生成情報記憶手段と、設定された撮影ショットタイプとイベント撮影規則生成情報とに基づいてイベントと切替ショットとを対応させたイベント撮影規則を生成する撮影規則生成手段と、外部からのイベント情報とイベント撮影規則とに基づいて撮影ショットを決定する撮影ショット制御手段とを備える。また、特許文献１の技術は、複数のロボットカメラによって撮影される被写体の複数の映像を入力し、外部から入力された、あるロボットカメラの映像から他のロボットカメラの映像に出力を切り替える指令である切替指令に基づいて、映像の出力を切り替えて、ひとつの出力映像を生成するスイッチャに映像を出力する機能も備えている。

特許４７４１５５７号公報

しかしながら、特許文献１の発明は、多くのロボットカメラを用意しなければならず、設備コストを高くなる。また、カメラを制御するための規則を詳細に定めなければならず、また、撮影からスイッチングまでを完全に自動化するものではなかった。

そこで、本発明は上記課題に鑑みて発明されたものであって、スイッチングする映像を自動的に選択できる自動スイッチング装置、自動スイッチング方法及びプログラムを提供することにある。

本発明の一態様は、コンテンツの映像素材を取得する取得部と、前記映像素材の人物の画像又は音声を認識する認識部と、認識されたオブジェクトの画像又は音声により、前記コンテンツにおけるオブジェクトの役割の指標である役割指標を計算し、前記役割指標を用いて、少なくとも一以上のオブジェクトを領域内に含み、前記映像素材から映像を切り出すための切り出し候補領域を複数選定する切り出し候補領域選定部と、前記映像素材におけるオブジェクトの映像変化及び音声変化を検出する検出部と、前記映像素材におけるオブジェクトの映像変化及び音声変化の検出結果から、前記各切り出し候補領域におけるスイッチングのタイミングの指標であるスイッチング指標を計算し、前記各切り出し候補領域のスイッチング指標を用いて、前記各切り出し候補領域から切り出し領域を決定する切り出し領域決定部と、前記映像素材から切り出し領域の映像を切り出し、現在出力されている映像を切り出した映像にスイッチングするスイッチング部とを備える自動スイッチング装置である。

本発明の一態様は、コンピュータに、コンテンツの映像素材を取得する取得機能、映像素材のオブジェクトの画像又は音声を認識する認識機能、認識されたオブジェクトの画像又は音声により、前記コンテンツのオブジェクトの役割の指標である役割指標を計算し、前記役割指標を用いて、少なくとも一以上のオブジェクトを領域内に含み、前記映像素材から映像を切り出すための切り出し候補領域を複数選定する切り出し候補領域選定機能、前記映像素材におけるオブジェクトの映像変化及び音声変化を検出する検出機能、前記映像素材におけるオブジェクトの映像変化及び音声変化の検出結果から、前記各切り出し候補領域におけるスイッチングのタイミングの指標であるスイッチング指標を計算し、前記各切り出し候補領域のスイッチング指標を用いて、前記各切り出し候補領域から切り出し領域を決定する切り出し領域決定機能、前記映像素材から切り出し領域の映像を切り出し、現在出力されている映像を切り出した映像にスイッチングするスイッチング機能を実現させるためのプログラムである。

本発明の一態様は、コンピュータが、コンテンツの映像素材を取得し、映像素材のオブジェクトの画像又は音声を認識し、認識されたオブジェクトの画像又は音声により、前記コンテンツのオブジェクトの役割の指標である役割指標を計算し、前記役割指標を用いて、一以上のオブジェクトを領域内に含み、前記映像素材から映像を切り出すための切り出し候補領域を複数選定し、前記映像素材におけるオブジェクトの映像変化及び音声変化を検出し、前記映像素材におけるオブジェクトの映像変化及び音声変化の検出結果から、前記各切り出し候補領域におけるスイッチングのタイミングの指標であるスイッチング指標を計算し、前記各切り出し候補領域のスイッチング指標を用いて、前記各切り出し候補領域から切り出し領域を決定し、前記映像素材から切り出し領域の映像を切り出し、現在出力されている映像を切り出した映像にスイッチングする自動スイッチング方法である。

本発明の一態様は、コンテンツの映像素材を取得する取得部と、映像素材のオブジェクトの画像又は音声を認識する認識部と、認識されたオブジェクトの画像又は音声により、コンテンツにおけるオブジェクトの役割と映像切替のタイミングとを考慮した指標を計算し、前記指標を用いて、前記映像素材上に少なくとも一以上のオブジェクトを含む切り出し領域を選定する切り出し領域選定部と、前記映像素材から切り出し領域の映像を切り出し、現在出力されている映像を切り出した映像にスイッチングするスイッチング部とを備える自動スイッチング装置である。

本発明は、スイッチングする映像の選択を自動化することができる。

図１は本発明の実施の形態のブロック図である。図２は番組データベース１１の番組情報の一例である。図３はカメラ１が撮影した番組映像の一例を示す図である。図４は切り出し候補領域選定部１３、切り出し候補領域選定部１５、スイッチング部１６及び表示制御部１７の動作を説明するための図である。図５は切り出し候補領域選定部１３、切り出し候補領域選定部１５、スイッチング部１６及び表示制御部１７の動作を説明するための図である。図６は切り出し候補領域選定部１３、切り出し候補領域選定部１５、スイッチング部１６及び表示制御部１７の動作を説明するための図である。図７は切り出し候補領域選定部１３、切り出し候補領域選定部１５、スイッチング部１６及び表示制御部１７の動作を説明するための図である。図８は実施の形態の変形例１を説明するための図である。図９は実施の形態の変形例２のブロック図である。図１０は表示装置３におけるユーザのスイッチング映像の選択を示した図である。図１１は実施の形態の変形例３のブロック図である。

本発明の実施の形態を説明する。

以下の説明では、コンテンツを一つの番組とし、映像素材をその番組をカメラで撮影することにより得られる番組映像とし、映像素材のオブジェクトを番組の出演者とした例を説明する。但し、コンテンツ及び映像素材を限定するものではなく、例えば、コンテンツは番組に限られず、映像素材は直接、動画ファイル等を取得できるものでも良い。また、オブジェクトは出演者等の人物に限られず、映像に映っている物体(動物、製品等)でも良い。

図１は本発明の実施の形態のブロック図である。図１中、１はカメラ、２はスイッチング装置、３は表示装置である。

カメラ１は、番組を撮影するカメラである。カメラ１は、１台で、被写体(例えば、番組の出演者)全員が写るような広い画角で、番組を撮影する。本実施の形態は、後述するように、カメラ１が番組を撮影した映像（以下、番組映像と記載する）そのものを、又は、カメラ１が撮影した番組映像の一部を切り出した映像（トリミング映像）を、本線側に出力するスイッチング映像として出力する。そのため、カメラ１は高画質な映像が撮影できる４Ｋ又は８Ｋのカメラが好ましいが、これらに限定されるものではない。

スイッチング装置２は、取得部１０と、番組データベース(番組DB)１１と、認識部１２と、切り出し候補領域選定部１３と、検出部１４と、切り出し領域決定部１５と、スイッチング部１６と、表示制御部１７と、を備える。
取得部１０は、カメラ１が撮影した番組の番組映像及び音声を入力するものである。

番組データベース１１は、番組の収録、撮影にあたって、番組の番組情報が登録されるデータベースである。番組情報は、番組の出演者の出演者情報、後述する役割指標及びスイッチング指標の計算式の係数（重み値）を含む。番組情報は、番組毎に番組の収録、撮影開始前に登録される。これにより、番組毎の特性を反映することができる。尚、同一番組であっても、異なる複数の番組情報を登録するようにしても良い。例えば、コーナ毎に番組情報を登録するようにしても良い。

図２は番組データベース１１の番組情報の一例である。図２に示される番組データベース１１の番組情報は、トーク番組の番組Xの番組情報の一例である。
図２に示される番組Xの番組情報のうち、出演者情報として、番組Xに出演する出演者A、出演者B、出演者C及び出演者D毎に、出演者の画像特徴、番組Xにおける出演者の重要度である人物重要度、番組Xの司会を示すフラグ、番組の台本などに記載されたキーワード、番組Xにおける出演時間(オンタリー時間)等の情報が登録されている。また、後述する役割指標及びスイッチング指標に用いられる重みづけ値(係数)が登録されている。

認識部１２は、顔認識機能と、骨格判定機能と、音声認識機能とを備える。
顔認識機能は、番組データベース１１に登録された出演者の画像特徴を用いて、番組映像中の人物(出演者)を認識するものである。また、認識された出演者の目線方向、顔の変化(うなずきや笑顔)を検出し、これらを数値化する。これらの認識、検出方法の種類は問わないが、パターンマッチングによる方法、機械学習して得られたアルゴリズムによる認識などがある。機械学習の方法は、深層学習（ディープラーニング）が代表的なものであるが、これに限られない。

骨格判定機能は、番組映像中に写っている人物の骨格を判定する。そして、骨格判定の結果を用いて、認識した出演者の部位の撮影映像上の位置関係を特定する。骨格判定の手法は、例えば、OpenPose、VisionPose、tf-pose-estimation等があるが、これらに限られない。

音声認識機能は、番組映像の音声から、出演者の発音、音のレベル、キーワードの検出の機能を有する。また、音声認識機能は、音声自体により出演者(人物)を識別する識別機能を持っていも良い。尚、音声は、番組映像信号とは別の単独の音声信号から取得するようにしても良い。

切り出し候補領域選定部１３は、認識部１２により認識された出演者の画像、骨格又は音声により、番組における出演者の役割の指標である役割指標を計算する。そして、計算した役割指標を用いて、認識された少なくとも一以上の出演者を領域内に含み、番組映像から映像を切り出すための切り出し候補領域を複数選定する。

役割指標について説明する。番組において出演者は、番組の司会(MC)、メインゲスト、リアクター等、それぞれ役割があるのが通常である。例えば、トーク番組であれば、番組を進行する司会がおり、トークの中心人物となるメインのゲストがおり、トークに対してリアクションを行うリアクターがいる。番組の各出演者は自分の役割を意識しながら、番組を進行する。このような出演者の役割を数値化したものが、役割指標である。

役割指標は、時間の経過にともない変化する要素(例えば、話者、出演者の目線集合、出演者の外形変化(動作、うなずき、笑顔等)と、事前に決定される要素(人物重要度、キーワードの発話）とをパラメータとして含む指標である。また、視聴率データ、配信データ、検索エンジンの上位の検索キーワード等をパラメータに含めても良い。以下、番組がトーク番組である場合を例にして、各役割指標の算出式について説明する。

（１）役割指標（司会者）
役割指標（司会者）は、番組映像からＭＣ(Master of ceremonies)や司会者の役割を持つ出演者を識別するための指標である。通常、番組のＭＣや司会者は、予め定められている。そこで、認識部１２が認識した出演者の画像特徴から、番組データベース１１に司会と登録されている出演者を識別する。そして、認識部１２が検出した出演者が司会の場合は“１”、認識部１２が検出した出演者が司会ではない場合は“０”を、役割指標（司会者）の下記式の司会者の項に代入して、役割指標（司会者）を算出する。
・役割指標（司会者）＝司会者×1
上述した役割指標（司会者）の式は一例であり、他の項を適時追加しても良い。また、入力される値も一例であり、他の値を代入するようにしても良い。

（２）役割指標（トークの軸）
役割指標（トークの軸）は、番組映像から番組のトークの軸(中心)となる出演者を識別するための指標である。トークの軸は、メインとなる出演者だけとは限らず、番組の進行に伴って変化する場合も多い。この進行に伴って変化するトークの軸となる出演者を識別するための指標が役割指標（トークの軸）である。役割指標（トークの軸）の算出式の一例は、以下の通りである。
・役割指標（トークの軸）＝話者×0.5 ＋目線集合×0.2＋キーワード×0.2＋人物重要度×0.1

ここで、話者は出演者が話者であることを考慮するための項であり、認識部１２がトークを検出した出演者には“１０”、認識部１２がトークを検出しない出演者には“０”を、話者の項に代入する。目線集合は認識部１２が検出した出演者の視線方向の集合値となる。例えば、役割指標（トークの軸）を計算の対象となる出演者に、他の一人の出演者の視線が向いている場合は３、他の二人の出演者の視線が向いている場合は６、他三人の出演者の視線が向いている場合は１０を、目線集合の項に代入する。キーワードは、出演者がキーワードを話した場合に与えられる項であり、出演者が発した言葉が番組データベース１１に登録されているキーワードであり、そのキーワードが重要である場合は１０、そのキーワードが準重要である場合は５、キーワードでない場合は０を、キーワードの項に代入する。人物重要度は、認識部１２が認識した出演者の人物重要度を番組データベース１１から読み出し、人物重要度の項に代入する。尚、各項の係数は番組データベース１１に番組毎の番組情報に登録されている。
上述した役割指標（トークの軸）の式は一例であり、他の項を適時追加しても良い。また、入力される値も一例であり、他の値を代入するようにしても良い。

（３）役割指標（リアクター）
番組の出演者の役割として、司会やトークの軸の話に対してリアクション(返答やうなずき)の役割を担う出演者（リアクター）がいる。この出演者（リアクター）の役割も、番組の進行に伴って変化する場合も多い。この出演者（リアクター）を識別する指標が役割指標（リアクター）である。役割指標（リアクター）の算出式は、以下の通りである。
・役割指標（リアクター）＝うなずき×0.3＋トークの軸を向いている出演者×0.2＋キーワード×0.2＋笑顔率×0.2＋人物重要度×0.1

ここで、うなずきは司会やトークの軸の話に対してリアクションのひとつとして与えられる項であり、認識部１２がうなずきを検出した出演者はその度合いに応じて０から１０の値が与えられ、その値をうなずきの項に代入する。トークの軸を向いている出演者は、トークの軸となる出演者に顔を向けている出演者に与えられる項であり、認識部１２により出演者がトークの軸となる出演者に顔を向けていることが検出された場合は“１０”、検出されない場合は“０”を、トークの軸を向いている出演者の項に代入する。キーワードは、出演者が言葉を発した場合、その言葉が番組データベース１１に登録されているキーワードであり、そのキーワードが重要である場合は１０、そのキーワードが準重要である場合は５、キーワードでない場合は０を、キーワードの項に代入する。人物重要度は、認識部１２が認識した出演者の人物重要度を番組データベース１１から読み出し、人物重要度の項に代入する。尚、各項の係数は番組データベース１１に番組毎の番組情報に登録されている。
上述した役割指標（リアクター）の式は一例であり、他の項を適時追加しても良い。また、入力される値も一例であり、他の値を代入するようにしても良い。

切り出し候補領域選定部１３は、上述した役割指標を各出演者に対して随時計算を行う。そして、役割指標毎に指標が高い出演者を、予め定められた数（例えば３）だけ選択する。そして、予め定められたサイズ（例えば、アスペクト比１６：９）に、選択した出演者を含むように、領域を決定する。このようにして選定された各領域を、以下、切り出し候補領域と記載する。尚、各役割指標の値が一定の閾値を超えない場合は、前回の役割指標の計算の際に選定した切り出し候補領域を維持するように構成しても良い。尚、切り出すサイズ等は、映像を提供する装置の表示サイズ等により、自由に定めることができる。

また、切り出し候補領域選定部１３は、認識部１２による顔認識機能や音声認識機能等の認識結果を受け、識別した出演者の氏名等の字幕を、切り出し候補領域の映像上に自動的にスーパー（重畳）するように構成しても良い。

検出部１４は、認識部１２と同様に、顔認識機能と、骨格判定機能と、物体識別機能(色、形状等の識別を含む)と、音声認識機能とを備える。検出部１４は、認識部１２により認識された各出演者の番組映像における映像変化及び音声の変化を検出する。検出するのは、例えば、出演者の識別、出演者の話だし、司会者の動き、各出演者の視線方向等である。番組映像における各出演者の検出結果は、切り出し領域決定部１５に出力される。

切り出し領域決定部１５は、検出部１４の検出結果を用いて、各切り出し候補領域のスイッチング指標を計算する。そして、各切り出し候補領域のスイッチング指標を用いて、切り出し領域を決定する。ここで、スイッチング指標は、複数の切り出し候補領域の映像のうち、スイッチングの対象となるスイッチング映像を決定するための指標となるものである。スイッチング指標は、時間の経過にともない変化する要素(例えば、話者、出演者の目線集合、出演者の外形変化(動作、うなずき、笑顔等)と、音声要素(一定の話者が話し終わったタイミングや、話者数の変化、音量)と、オンタリー時間の調整とをパラメータとして含む指標である。また、視聴率データ、配信データ、検索エンジンの上位の検索キーワード等をパラメータに含めても良い。以下、役割指標と同様に、番組がトーク番組である場合を例にして、スイッチング指標の算出式について説明する。スイッチング指標の計算方法の一例を示す。
・（スイッチング指標）＝話だし×0.7＋司会動作×0.2＋目線集合×0.1＋時間調整

ここで、話だしは出演者の話始めを考慮するための項であり、切り出し候補領域において出演者の話だしを検出した場合は１０を、切り出し候補領域の出演者の話だしが検出されない場合は０を、話だしの項目に代入する。司会動作は司会者の動作を考慮するための項であり、司会者を含む切り出し候補領域において司会者の動作が検出された場合は１０を、司会者の動作が検出されない場合は０を、司会動作の項目に代入する。目線集合は検出部１４が検出した出演者の視線方向の集合値となる。例えば、切り出し候補領域内の出演者に、他の一人の出演者の視線が向いている場合は３、他の二人の出演者の視線が向いている場合は６、他三人の出演者の視線が向いている場合は１０を、目線集合の項に代入する。出演時間調整は、番組データベース１１に登録されている出演時間と実際のオンタリー時間との差の時間である。

上述したスイッチング指標の式は一例であり、他の項を適時追加しても良い。また、入力される値も一例であり、他の値を代入するようにしても良い。

切り出し領域決定部１５は、計算した各切り出し候補領域のスイッチング指標のうち最も高い値が予め定められた閾値を超える場合は、最も高いスイッチング指標の値を持つ切り出し候補領域を、切り出し領域に決定する。

更に、切り出し領域決定部１５は、スイッチング指標の計算に加えて、スイッチング禁止条件を記憶している。切り出し領域決定部１５は、スイッチング時点で、最も高いスイッチング指標の値を持つ切り出し候補領域の映像がスイッチング禁止条件に該当する場合は、現在の切り出し領域を維持し、新たな切り出し領域の決定は行わない。または、次に高いスイッチング指標の値を持つ切り出し候補領域を切り出し領域に決定する。

スイッチング禁止条件は、視聴者に対して不快を与えるようなスイッチングを防止するためのルールであり、例えば、スイッチング後から所定時間を経過していない場合等である。更に、切り出し領域決定部１５が、現在の切り出し領域の映像と、切り出し候補領域の映像との相違を検出できるように構成されている場合、新たな切り出し領域の映像が前の切り出し領域の映像のジャンプショットとなるような場合、新たな切り出し領域の映像が現在の切り出し領域の映像とサイズやアングルなどがほぼ変わらない場合、新たな切り出し領域の映像が現在の切り出し領域の映像に対して指標に影響を与えない人物が単純に増加したような場合等である。

スイッチング部１６は、番組映像から切り出し領域の映像を切り出し、スイッチング映像として出力する。

表示制御部１７は、番組映像と、各切り出し候補領域の映像と、現在の出力映像(スイッチング映像)とを、表示装置３に表示する。

表示装置３は、表示制御部１７から出力される各映像を出力するディスプレイである。表示装置３は、表示機能のみならず、タブレット端末のように、タッチパネルの機能を持つディスプレイであっても良い。

次に、本実施の形態のスイッチング装置２の動作を説明する。以下の動作の説明では、番組Ｘがトーク番組であり、その番組Ｘに出演者Ａ、Ｂ、Ｃ、Ｄの４人の人物が出演しているものとする。そして、番組データベース１１には、図２に示した番組Ｘの番組情報が登録されているものとする。また、役割指標及びスイッチング指標については、上述した算出式を用いるものとする。

まず、スイッチング装置２の取得部１０はカメラ１が撮影された番組映像を取得する。
番組のオープニングでは、取得した番組映像が、図３に示す如く、スイッチング部１６からスイッチング映像として出力されているものとする。

認識部１２は、番組映像の出演者を認識する。番組映像中で認識されるのは、出演者Ａ、出演者Ｂ、出演者Ｃ、出演者Ｄであり、各出演者の認識結果を切り出し候補領域選定部１３に出力する。

切り出し候補領域選定部１３は、所定時間毎に認識した出演者の役割指標を計算する。そして、切り出し候補領域選定部１５は各切り出し候補領域のスイッチング指標を計算し、切り出し領域を決定する。スイッチング部１６は番組映像から切り出し領域の映像を切り出して、切り出した映像をスイッチング映像として出力する。以下、切り出し候補領域選定部１３、切り出し候補領域選定部１５、スイッチング部１６及び表示制御部１７の各時刻の動作を説明する。尚、切り出し候補領域選定部１３が選定する切り出し候補領域は、役割指標毎に役割指標の値が所定の閾値(第１の閾値)を超える最も値が大きい役割指標の切り出し候補領域をひとつ選定するものとする。また、重複する切り出し候補領域がある場合は次に指標の大きい出演者を含む領域を切り出し候補領域として選定するものとする。更に、切り出し候補領域のアスペクト比は16:9とし、バストアップの１ショットとする。

１．時刻(t)における動作
(1) 切り出し候補領域選定部１３による役割指標の計算
時刻(t)の番組映像が図４に示すものであったとする。図４の番組映像において、切り出し候補領域選定部１３は、認識部１２の検出結果(各出演者Ａ、Ｂ、Ｃ、Ｄ及び出演者Ａの発音「今日のゲストはＣさんです。」)を用いて、各出演者の各役割指標を計算し、各役割指標の最も高い値を持つ出演者を含む領域を切り出し候補領域として選定する。

(1-1) 役割指標（司会）
番組データベース１１によれば、司会は出演者Ａである。すると、各出演者の役割指標は以下の通りである。
・出演者Ａの役割指標（司会者）＝司会者×1
=1×1
=1
・出演者Ｂの役割指標（司会者）＝司会者×1
=0×1
=0
・出演者Ｃの役割指標（司会者）＝司会者×1
=0×1
=0
・出演者Ｄの役割指標（司会者）＝司会者×1
=0×1
=0

ここで、役割指標（司会）の第１の閾値を０とし、０を超える役割指標（司会者）のうちその値が最も大きい出演者Ａの役割が司会者であるとみなし、出演者Ａを含む切り出し候補領域P１を選定する。

(1-2) 役割指標（トークの軸）
認識部１２は、各出演者Ａ、Ｂ、Ｃ、Ｄ及び出演者Ａの発音「今日のゲストはＣさんです。」、出演者Ａが話者であること、出演者Ａがキーワード「Ｃさん」を発音していることを検出している。この検出結果を用いて、切り出し候補領域選定部１３は、各出演者の役割指標（トークの軸）を計算する。各出演者の役割指標（トークの軸）は以下の通りである。

・出演者Ａの役割指標（トークの軸）＝話者×0.6＋目線集合×0.3＋キーワード×0.5＋人物重要度×0.8
=10×0.6＋0×0.3＋10×0.5＋8×0.8
=6＋2＋6.4=14.4
・出演者Ｂの役割指標（トークの軸）＝話者×0.6＋目線集合×0.3＋キーワード×0.5＋人物重要度×0.8
=0×0.6＋0×0.3＋0×0.5＋6×0.8=4.8
・出演者Ｃの役割指標（トークの軸）＝話者×0.6＋目線集合×0.3＋キーワード×0.5＋人物重要度×0.8
＝0×0.6 ＋0×0.3＋0×0.5＋10×0.8=8
・出演者Ｄの役割指標（トークの軸）＝話者×0.6 ＋目線集合×0.3＋キーワード×0.5＋人物重要度×0.8
＝0×0.6＋0×0.3＋0×0.5＋5×0.8=4.0

ここで、役割指標（トークの軸）の第１の閾値を５とし、５を超える役割指標（トークの軸）のうちその値が最も大きい出演者は出演者Ａである。しかし、出演者Ａは役割指標（司会）で司会者であるとみなされて切り出し候補領域P１が設定されている。そこで、次に、役割指標（トークの軸）の値が大きい出演者Ｃがトークの軸であるとみなし、出演者Ｃを含む切り出し候補領域P２を選定する。

(1-3) 役割指標（リアクター）
認識部１２は、各出演者Ａ、Ｂ、Ｃ、Ｄ及び出演者Ａの発音「今日のゲストはＣさんです。」、出演者Ａが話者であること、出演者Ａがキーワード「Ｃさん」を発音していること、各出演者の笑顔率を認識している。この検出結果を用いて、切り出し候補領域選定部１３は、各出演者の役割指標（リアクター）を計算する。各出演者の役割指標（リアクター）は以下の通りである。

・出演者Ａの役割指標（リアクター）＝うなずき×0.3＋ターゲットを向いている出演者×0.2＋キーワード×0.2＋笑顔率×0.2＋人物重要度×0.1
＝0×0.3＋0×0.2＋10×0.2＋2×0.2＋8×0.1
＝2＋0.4＋0.8＝3.2
・出演者Ｂの役割指標（リアクター）＝うなずき×0.3＋ターゲットを向いている出演者×0.2＋キーワード×0.2＋笑顔率×0.2＋人物重要度×0.1
＝0×0.3＋0×0.2＋0×0.2＋6×0.2＋6×0.1
＝1.2＋0.6＝1.8
・出演者Ｃの役割指標（リアクター）＝うなずき×0.3＋ターゲットを向いている出演者×0.2＋キーワード×0.2＋笑顔率×0.2＋人物重要度×0.1
＝0×0.3＋0×0.2＋0×0.2＋2×0.2＋10×0.1
＝0.4＋1=1.4
・出演者Ｄの役割指標（リアクター）＝うなずき×0.3＋ターゲットを向いている出演者×0.2＋キーワード×0.2＋笑顔率×0.2＋人物重要度×0.1
＝0×0.3＋0×0.2＋0×0.2＋6×0.2＋5×0.1
＝1.2＋0.5=1.7

ここで、役割指標（リアクター）の第１の閾値を５とし、５を超える役割指標（リアクター）のうちその値が最も大きい出演者Ｂの役割がリアクターであるとみなし、出演者Ｂを含む切り出し候補領域P３を選定する。
以上、切り出し候補領域P１、切り出し候補領域P２、切り出し候補領域P３を、図４に示す。

(２) 切り出し領域決定部１５によるスイッチング指標の計算
切り出し領域決定部１５は、各切り出し候補領域のスイッチング指標を計算し、第２の閾値を超えるスイッチング指標のうち最も高いスイッチング指標の値を持つ切り出し候補領域を、切り出し領域として決定する。時刻(t)では、検出部１４が、各出演者Ａ、Ｂ、Ｃ、Ｄ及び出演者Ａの話だし、出演者Ａが話者であること、出演者Ａ(司会)の動作、目線集合を検出している。また、各出演者の累計オンタリー時間を蓄積している。すると、時刻(t)における各切り出し候補領域P１、切り出し候補領域P２及び切り出し候補領域P３のスイッチング指標は、以下の通りである。

・切り出し候補領域P１のスイッチング指標＝話だし×0.7＋司会動作×0.2＋目線集合×0.1＋(出演者のオンタリー予定時間－出演者の累計オンタリー時間)
＝10×0.7＋10×0.2＋0×0.1＋(15-0)
=7＋2＋15=24
・切り出し候補領域P２のスイッチング指標＝話だし×0.7＋司会動作×0.2＋目線集合×0.1＋(出演者のオンタリー予定時間－出演者の累計オンタリー時間)
＝0×0.7＋0×0.2＋0×0.1＋(15-0)=15
・切り出し候補領域P３のスイッチング指標＝話だし×0.7＋司会動作×0.2＋目線集合×0.1＋(出演者のオンタリー予定時間－出演者の累計オンタリー時間)
＝0×0.7＋0×0.2＋0×0.1＋(10-0)=10

ここで、第２の閾値を１０とすると、切り出し領域決定部１５は、切り出し候補領域P１、P２、P３のうち、値が第２の閾値を超えるスイッチング指標のうちその値が最も大きいスイッチング指標を持つ切り出し候補領域P１を、切り出し領域Ｓに仮決定する。更に、切り出し候補領域P１がスイッチング禁止条件の該当するものであるかを判断する。ここでは、スイッチング禁止条件が直近のスイッチングから所定時間(z時間: z<t)を経過していない場合であるとすると、直近のスイッチングからz時間は経過しているので、切り出し候補領域P１はスイッチング禁止条件に該当しないので、図４に示す如く、切り出し候補領域P１を切り出し領域Ｓに決定する。

スイッチング部１６は、番組映像から切り出し領域Ｓの映像を切り出して、スイッチング映像として出力する。

図４の下は、表示制御部１７が表示装置３に表示する画面の一例である。図４では時刻(t)の表示装置３に表示される制御画面を示している。制御画面には、カメラ１が撮影した番組映像と、各切り出し候補領域P1, P2, P3の映像と、現在のスイッチング映像(切り出し領域Sの映像)とが表示されている。

２．時刻(t＋m)における動作
時刻(t)から時間m経過した時刻(t＋m)における動作を説明する。

(1) 切り出し候補領域選定部１３による役割指標の計算
切り出し候補領域選定部１３は、時刻(t)から時刻(t＋m)の間、認識部１２の検出結果を用いて、各出演者の各役割指標を計算する。ここでは、時刻(t)から時刻(t＋m)の間は各役割指標が大きく変化せず、図５に示すように、切り出し候補領域は時刻(t)と同じものとする。

(２) 切り出し領域決定部１５によるスイッチング指標の計算
切り出し領域決定部１５は、時刻(t＋m)の各切り出し候補領域のスイッチング指標を計算し、第２の閾値を超えるスイッチング指標のうち最も高いスイッチング指標の値を持つ切り出し候補領域を、切り出し領域として決定する。時刻(t＋m)では、検出部１４が、各出演者Ａ、Ｂ、Ｃ、Ｄ及び出演者Ｃの話だし「今日はよろしくお願いします」、出演者Ａ(司会)の動作、目線集合を検出している。また、各出演者の累計オンタリー時間を蓄積している。すると、時刻(t＋m)における各切り出し候補領域P１、切り出し候補領域P２及び切り出し候補領域P３のスイッチング指標は、以下の通りである。

・切り出し候補領域P１のスイッチング指標＝話だし×0.7＋司会動作×0.2＋目線集合×0.1＋(出演者のオンタリー予定時間－出演者の累計オンタリー時間)
＝0×0.7＋0×0.2＋0×0.1＋(15-m)＝15-m
・切り出し候補領域P２のスイッチング指標＝話だし×0.7＋司会動作×0.2＋目線集合×0.1＋(出演者のオンタリー予定時間－出演者の累計オンタリー時間)
＝10×0.7＋0×0.2＋0×0.1＋(15-0)=22
・切り出し候補領域P３のスイッチング指標＝話だし×0.7＋司会動作×0.2＋目線集合×0.1＋(出演者のオンタリー予定時間－出演者の累計オンタリー時間)
＝0×0.7＋0×0.2＋0×0.1＋(10-0)=10

ここで、第２の閾値を１０とすると、切り出し領域決定部１５は、切り出し候補領域P１、P２、P３のうち、値が第２の閾値を超えるスイッチング指標のうちその値が最も大きいスイッチング指標を持つ切り出し候補領域P２を、切り出し領域Ｓに仮決定する。更に、切り出し候補領域P２がスイッチング禁止条件の該当するものであるかを判断する。ここでは、スイッチング禁止条件が直近のスイッチングから所定時間(z時間: z<m)を経過していない場合であるとすると、直近のスイッチングからz時間は経過しているので、切り出し候補領域P２はスイッチング禁止条件に該当しないので、図５に示す通り、切り出し候補領域P２を切り出し領域Ｓに決定する。

図５の下は、表示制御部１７が表示装置３に表示する画面の一例である。図５では時刻(t＋m)の表示装置３に表示される制御画面を示している。制御画面には、カメラ１が撮影した番組映像と、各切り出し候補領域P1, P2, P3の映像と、現在のスイッチング映像(切り出し領域Sの映像)とが表示されている。

３．時刻(t＋m＋n)における動作
時刻(t＋m)から時間n経過した時刻(t＋m＋n)における動作を説明する。

(1) 切り出し候補領域選定部１３による役割指標の計算

切り出し候補領域選定部１３は、時刻(t)から時刻(t＋m＋n)の間、認識部１２の検出結果を用いて、各出演者の各役割指標を計算するが、ここでは、図６に示すように、時刻(t)から時刻(t＋m＋n)の間は各役割指標が大きく変化せず、切り出し候補領域は時刻(t)と同じものとする。

(２) 切り出し領域決定部１５によるスイッチング指標の計算

切り出し領域決定部１５は、時刻(t＋m＋n)の各切り出し候補領域のスイッチング指標を計算し、スイッチング指標が最も高い値を持つ切り出し候補領域を、切り出し領域として決定する。

時刻(t＋m＋n)では、検出部１４が、各出演者Ａ、Ｂ、Ｃ、Ｄ及び出演者Ｂの話だし「Ｃさんは、現在～」、出演者Ａ(司会)の動作、目線集合を検出している。また、各出演者の累計オンタリー時間を蓄積している。すると、時刻(t＋m)における各切り出し候補領域P１、切り出し候補領域P２及び切り出し候補領域P３のスイッチング指標は、以下の通りである。

・切り出し候補領域P１のスイッチング指標＝話だし×0.7＋司会動作×0.2＋目線集合×0.1＋(出演者のオンタリー予定時間－出演者の累計オンタリー時間)
＝0×0.7＋0×0.2＋0×0.1＋(15-m)＝15-m
・切り出し候補領域P２のスイッチング指標＝話だし×0.7＋司会動作×0.2＋目線集合×0.1＋(出演者のオンタリー予定時間－出演者の累計オンタリー時間)
＝10×0.7＋0×0.2＋0×0.1＋(10-0)=17
・切り出し候補領域P３のスイッチング指標＝話だし×0.7＋司会動作×0.2＋目線集合×0.1＋(出演者のオンタリー予定時間－出演者の累計オンタリー時間)
＝0×0.7＋0×0.2＋0×0.1＋(15-n)=15-m

ここで、第２の閾値を１０とすると、切り出し領域決定部１５は、切り出し候補領域P１、P２、P３のうち、値が第２の閾値を超えるスイッチング指標のうちその値が最も大きいスイッチング指標を持つ切り出し候補領域P３を、切り出し領域Ｓに仮決定する。更に、切り出し候補領域P３がスイッチング禁止条件の該当するものであるかを判断する。ここでは、スイッチング禁止条件が直近のスイッチングから所定時間(z時間: z<n)を経過していない場合であるとすると、直近のスイッチングからz時間は経過しているので、切り出し候補領域P３はスイッチング禁止条件に該当しないので、図６に示す通り、切り出し候補領域P３を切り出し領域Ｓに決定する。スイッチング部１６は、番組映像から切り出し領域Ｓの映像を切り出して、スイッチング映像として出力する。

図６の下は、表示制御部１７が表示装置３に表示する画面の一例である。図６では時刻(t＋m＋n)の表示装置３に表示される制御画面を示している。制御画面には、カメラ１が撮影した番組映像と、各切り出し候補領域P1, P2, P3の映像と、現在のスイッチング映像(切り出し領域Sの映像)とが表示されている。

４．時刻(t＋n＋m＋o)における動作
時刻(t＋m＋n)から時間o経過した時刻(t＋n＋m＋o)における動作を説明する。

(1) 切り出し候補領域選定部１３による役割指標の計算
切り出し候補領域選定部１３は、時刻(t＋m＋n)から時刻(t＋n＋m＋o)の間、認識部１２の検出結果を用いて、各出演者の各役割指標を計算する。

(1-1) 役割指標（司会）
・出演者Ａの役割指標（司会者）＝司会者×1
=1×1=1
・出演者Ｂの役割指標（司会者）＝司会者×1
=0×1=0
・出演者Ｃの役割指標（司会者）＝司会者×1
=0×1=0
・出演者Ｄの役割指標（司会者）＝司会者×1
=0×1=0

(1-2) 役割指標（トークの軸）
認識部１２は、図７に示す如く、各出演者Ａ、Ｂ、Ｃ、Ｄ及び出演者Ｄの発音「Ｃさんのファンなんです。」、出演者Ｄが話者であること、出演者Ｄがキーワード「Ｃさん」を発音していることを検出している。この検出結果を用いて、切り出し候補領域選定部１３は、各出演者の役割指標（トークの軸）を計算する。各出演者の役割指標（トークの軸）は以下の通りである。

・出演者Ａの役割指標（トークの軸）＝話者×0.6＋目線集合×0.3＋キーワード×0.5＋人物重要度×0.8
=0×0.6＋0×0.3＋0×0.5＋8×0.8=6.4
・出演者Ｂの役割指標（トークの軸）＝話者×0.6＋目線集合×0.3＋キーワード×0.5＋人物重要度×0.8
＝0×0.6＋0×0.3＋0×0.5＋6×0.8=4.8
・出演者Ｃの役割指標（トークの軸）＝話者×0.6＋目線集合×0.3＋キーワード×0.5＋人物重要度×0.8
＝0×0.6 ＋0×0.3＋0×0.5＋10×0.8=8.0
・出演者Ｄの役割指標（トークの軸）＝話者×0.6 ＋目線集合×0.3＋キーワード×0.5＋人物重要度×0.8
＝10×0.6＋0×0.3＋10×0.5＋5×0.8
=6＋5＋4=15

ここで、役割指標（トークの軸）の第１の閾値を５とし、５を超える役割指標（トークの軸）のうちその値が最も大きい出演者は出演者Ｄであり、出演者Ｄがトークの軸であるとみなし、出演者Ｄを含む切り出し候補領域P４を選定する。

(1-3) 役割指標（リアクター）
認識部１２は、各出演者Ａ、Ｂ、Ｃ、Ｄ及び出演者Ｄの発音「Ｃさんのファンなんです。」、出演者Ｄが話者であること、出演者Ｄがキーワード「Ｃさん」を発音していること、各出演者の笑顔率を認識している。この検出結果を用いて、切り出し候補領域選定部１３は、各出演者の役割指標（リアクター）を計算する。各出演者の役割指標（リアクター）は以下の通りである。

・出演者Ａの役割指標（リアクター）＝うなずき×0.3＋ターゲットを向いている出演者×0.2＋キーワード×0.2＋笑顔率×0.2＋人物重要度×0.1
＝2×0.3＋10×0.2＋0×0.2＋5×0.2＋8×0.1
=0.6＋2＋1＋0.8=4.4
・出演者Ｂの役割指標（リアクター）＝うなずき×0.3＋ターゲットを向いている出演者×0.2＋キーワード×0.2＋笑顔率×0.2＋人物重要度×0.1
＝3×0.3＋10×0.2＋0×0.2＋6×0.2＋6×0.1
=0.9＋0.2＋1.2＋0.6=2.9
・出演者Ｃの役割指標（リアクター）＝うなずき×0.3＋ターゲットを向いている出演者×0.2＋キーワード×0.2＋笑顔率×0.2＋人物重要度×0.1
＝0×0.3＋10×0.2＋0×0.2＋8×0.2＋10×0.1
=2＋1.6＋1=4.6
・出演者Ｄの役割指標（リアクター）＝うなずき×0.3＋ターゲットを向いている出演者×0.2＋キーワード×0.2＋笑顔率×0.2＋人物重要度×0.1
＝0×0.3＋0×0.2＋10×0.2＋5×0.2＋5×0.1
=2＋1＋0.5=3.5

ここで、役割指標（リアクター）の第１の閾値を５とし、５を超える役割指標（リアクター）のうちその値が最も大きい出演者Ｃの役割がリアクターであるとみなし、図７に示す如く、出演者Ｃを含む切り出し候補領域P５を選定する。
以上、切り出し候補領域P１、切り出し候補領域P４、切り出し候補領域P５を、図７に示す。

(２) 切り出し領域決定部１５によるスイッチング指標の計算
切り出し領域決定部１５は、各切り出し候補領域のスイッチング指標を計算し、第２の閾値を超えるスイッチング指標のうち最も高いスイッチング指標の値を持つ切り出し候補領域を、切り出し領域として決定する。

切り出し領域決定部１５は、時刻(t＋n＋m＋o)の各切り出し候補領域のスイッチング指標を計算し、スイッチング指標が最も高い値を持つ切り出し候補領域を、切り出し領域として決定する。

時刻(t＋n＋m＋o)では、検出部１４が、各出演者Ａ、Ｂ、Ｃ、Ｄ及び出演者Ｄの話だし「Ａさんのファンなんです。」、出演者Ａ(司会)の動作、目線集合を検出している。また、各出演者の累計オンタリー時間を蓄積している。すると、時刻(t＋m)における各切り出し候補領域P１、切り出し候補領域P４及び切り出し候補領域P５のスイッチング指標は、以下の通りである。

・切り出し候補領域P１のスイッチング指標＝話だし×0.7＋司会動作×0.2＋目線集合×0.1＋(出演者のオンタリー予定時間－出演者の累計オンタリー時間)
＝0×0.7＋0×0.2＋0×0.1＋(15-m)＝15-m
・切り出し候補領域P４のスイッチング指標＝話だし×0.7＋司会動作×0.2＋目線集合×0.1＋(出演者のオンタリー予定時間－出演者の累計オンタリー時間)
＝10×0.7＋0×0.2＋10×0.1＋(15-0)
=7＋1＋15=23
・切り出し候補領域P５のスイッチング指標＝話だし×0.7＋司会動作×0.2＋目線集合×0.1＋(出演者のオンタリー予定時間－出演者の累計オンタリー時間)
＝0×0.7＋0×0.2＋0×0.1＋(15-n)=15-n

ここで、第２の閾値を１０とすると、切り出し領域決定部１５は、切り出し候補領域P１、P４、P５のうち、値が第２の閾値を超えるスイッチング指標のうちその値が最も大きいスイッチング指標を持つ切り出し候補領域P４を、切り出し領域Ｓに仮決定する。更に、切り出し候補領域P４がスイッチング禁止条件の該当するものであるかを判断する。ここでは、スイッチング禁止条件が直近のスイッチングから所定時間(z時間: z<o)を経過していない場合であるとすると、直近のスイッチングからz時間は経過しているので、切り出し候補領域P４はスイッチング禁止条件に該当しないので、図７に示す如く、切り出し候補領域P４を切り出し領域Ｓに決定する。

図７の下は、表示制御部１７が表示装置３に表示する画面の一例である。図７では時刻(t＋m＋n＋o)の表示装置３に表示される制御画面を示している。制御画面には、カメラ１が撮影した番組映像と、各切り出し候補領域P1, P4, P5の映像と、現在のスイッチング映像(切り出し領域Sの映像)とが表示されている。

このように、各時刻について番組映像に変化があれば、各役割指標を計算し、各役割指標が第１の閾値を超える場合は切り取り候補領域を選定し、各切り取り候補領域のスイッチング指標を計算し、スイッチング指標が第２の閾値を超え、スイッチング禁止条件に該当しない場合は、切り取り領域を決定してスイッチング映像を決定する。

本実施の形態では、自動的にスイッチング映像を決定するために、従来、複数のカメラマンがそれぞれの観点に基づいて撮影を行う撮影映像を、役割指標を導入してスイッチング映像の候補となる映像の領域である切り出し候補領域を自動で選定することができる。更に、複数の切り出し候補領域の映像からひとつのスイッチング映像を決定するために、スイッチャの観点であるスイッチング指標を導入することにより、複数の切り出し候補領域から最適な切り出し領域を決定することができ、スイッチングの自動化も達成することができる。

尚、上述した実施の形態では、番組を撮影するカメラが１台の場合を説明した。しかし、これに限られず、カメラを複数台用意しても良い。この場合、各カメラからの番組映像を上述した動作をカメラ毎に行うようにすれば良い。カメラを複数台の用意する利点は、番組の出演者等を異なる方向から撮影した番組映像を取得することが可能となるので、最終的にスイッチング映像として出力される出力映像が多彩となる点である。

また、算出した役割指標及びスイッチング指標は、他のデータ解析に利用することが可能であり、更に、役割指標及びスイッチング指標を算出した各パラメータも、他のデータ解析に利用することが可能である。

＜実施の形態の変形例１＞
本発明の実施の形態の変形例１を説明する。

上述した実施の形態では、説明を容易とするために、切り出し候補領域を、出演者が一人含むバストショットの領域とした。しかし、切り出し候補領域はこれだけに限られない。

認識部１２は、顔認識以外にも骨格判定を行っており、各出演者の骨格や、出演者の位置関係を認識することが可能である。従って、各者の骨格を用いることにより、出演が一人の場合では、出演者の全体が映るロングショット等の各種ショット(FF、BS、WS、KS等)に対応する領域を設定することが可能である。

更に、各出演者の骨格や、出演者の位置関係を用いることにより、図８に示すように、二人以上の出演者を含んだグループショットの領域を設定することも可能である。例えば、映像(画像)平面上で出演者の位置情報をクラスタリングし、分散の低くなる組み合わせで出演者のグルーピングを行い、各グループのグループショットの切り出し候補領域を設定する。尚、グループショットについては、選定する切り出し候補領域の映像が互いにジャンプショットとなるような映像を避けるようにすることも可能である。

このように、切り出し候補領域を、出演者が一人含む定められたショットの領域を、切り出し候補領域とするのではなく、上述した様々なショットや、グループショットを切り出し候補領域として選定することが可能である。

このような切り出し候補領域を選定した場合は、役割指標及びスイッチング指標については、出演者毎に計算しても良いし、グループショットの場合は役割指標及びスイッチング指標を領域に含まれる人数によって調整するようにしても良い。更に、切り出す候補領域を、スイッチング映像の解像度に合わせて調整することも可能である。

また、複数の出演者を含むグループショットの領域を切り出し候補領域に加える場合、特有のスイッチング禁止条件を設けても良い。例えば、出演者Ａが一人を含む切り出し領域に対して、次の切り出し領域の映像が出演者Ａと他の出演者が単に加わった映像のような場合は、スイッチングを行わないとするスイッチング禁止条件を設けても良い。

＜実施の形態の変形例２＞
上述した実施の形態では、スイッチングする映像を全て自動化する例を説明した。しかし、ユーザの判断により、スイッチング装置２が選択したスイッチング映像を変更したい場合もある。そこで、実施の形態の変形例２は、スイッチングする映像を自動化するとともに、切り出す候補領域の映像をユーザにより決定することができる例を説明する。
図９は実施の形態の変形例２のブロック図である。実施の形態の変形例２は、スイッチング装置２に、スイッチ映像選択部１８が設けられている。

スイッチ映像選択部１８は、表示装置３がタッチパネルを備えたディスプレイの場合、自動的に選択されたスイッチング映像に代えて、表示装置３に表示された切り出し候補領域の映像のうちユーザが希望の映像の選択を受けて、現在のスイッチング映像をユーザが選択した切り出し候補領域の映像をスイッチング映像とするように構成されている。

図１０は表示装置３におけるユーザのスイッチング映像の選択を示した図である。図１０では、ユーザは現在スイッチング映像として出力されている出演者Ｄの映像に代えて、切り出し候補領域の映像のうち出演者Ａの映像を選択した場合を示している。
このような構成にすることにより、ユーザのスイッチングの好みを加味することができる。

＜実施の形態の変形例３＞
実施の形態の変形例３を説明する。
スイッチング装置２は、プログラムで動作するＣＰＵやＧＰＵ等のプロセッサを持つコンピュータにより実現することもできる。
図１１は実施の形態の変形例３のブロック図である。

コンピュータは処理部１００と、記録部１１０とを備える。処理部１００は、記憶部１１０に格納されるプログラムやデータ等に基づいて、スイッチング装置２の動作を統括的に制御する。処理部１００の機能は、例えば、ＣＰＵやＧＰＵ等のマイクロプロセッサ、ＡＳＩＣ、ＩＣメモリ等の電子部品によって実現できる。この処理部１００は、主な機能処理として、取得処理１０１と、認識処理１０２と、切り出し候補領域選定処理１０３と、検出処理１０４と、切り出し領域決定処理１０５と、スイッチング処理１０６と、表示制御処理１０７と、スイッチ映像選択処理１０８とを備える。取得処理１０１は取得部１０に対応し、認識処理１０２は認識部１２に対応し、切り出し候補領域選定処理１０３は切り出し候補領域選定部１３に対応し、検出処理１０４は検出部１４に対応し、切り出し領域決定処理１０５は切り出し領域決定部１５に対応し、スイッチング処理１０６はスイッチング部１６に対応し、表示制御処理１０７は表示制御部１７に対応し、スイッチ映像選択処理１０８はスイッチ映像選択部１８に対応する。

記録部１１０には、コンピュータが備える種々の機能を実現するためのプログラムや、このプログラムの実行中に使用されるデータ等が予め記憶され、或いは処理の都度一時的に記憶される。記憶部１１０は、例えばＲＡＭやＲＯＭ、フラッシュメモリ等のＩＣメモリ、ハードディスク等の磁気ディスク、ＣＤ－ＲＯＭやＤＶＤ等の光学ディスク等によって実現できる。

＜実施の形態の変形例４＞
上述した実施の形態は、役割指標を用いて切り出し候補領域を選定し、各切り出し候補領域のスイッチング指標を用いて切り出し領域を決定した。しかし、役割指標とスイッチング指標とをまとめたひとつの指標の算出式を用いても良い。

ひとつの指標の算出式を作成するにあたり、役割指標とスイッチング指標との間で重複する項を削除したり、役割指標とスイッチング指標とを合成することにより生じる誤差などを吸収する項を設けても良い。

このようなひとつの指標により、スイッチング映像を決定する場合は、切り出し候補領域の選定という処理がなくなり、スイッチング映像のための切り出し領域がひとつ決定されることになる。

＜実施の形態の変形例５＞
上述した実施の形態では、所定期間ごとにスイッチング指標を計算する例を説明した。しかし、かならずしも、適切なタイミングでスイッチング指標が計算できるとは限らない。そこで、実施の形態の変形例５では、映像が、ある条件を満足した時に、スイッチング指標を計算する例を説明する。

実施の形態の変形例５では、適切なタイミングでスイッチング指標を計算するために、スイッチング指標を計算するトリガとなるスイッチング指標計算トリガ条件を設ける。スイッチング指標計算トリガ条件は、例えば、以下のような例がある。

（１）番組映像の音声レベルが急激な変化
例えば、出演者のトークが終わった時などは、番組映像の音声レベルが急激に低下する。このような場合、現在出力されているスイッチング映像から他の映像にスイッチングすることが多い。一方、そのような変化が起こっている場合、各切り出し候補領域の役割指標も大きく変化しているはずである。そこで、音声レベルが所定の閾値まで低下したことをトリガとして、各切り出し候補領域のスイッチング指標を計算し、新たな切り出し領域を決定する。

また、複数人が発呼した場合や、ひとりの人物が急に大きな声を発生した場合など、全体又は個別の音声レベルが上昇した場合、現在出力されているスイッチング映像から他の映像にスイッチングすることが多い。一方、そのような変化が起こっている場合、各切り出し候補領域の役割指標も大きく変化しているはずである。そこで、音声レベルが所定の閾値まで低下したことをトリガとして、各切り出し候補領域のスイッチング指標を計算し、新たな切り出し領域を決定する。

（２）番組映像中の急激な動作の変化
番組の出演者等が急に動作をした場合など、その出演者の映像にスイッチングする場合が多い。一方、そのような変化が起こっている場合、各切り出し候補領域の役割指標も大きく変化しているはずである。そこで、映像中の急激な変化（動きベクトルの急激な変化等）を検出したことをトリガとして、各切り出し候補領域のスイッチング指標を計算し、新たな切り出し領域を決定する。

このようなスイッチング指標計算トリガ条件を満たしたときにスイッチング指標を計算することにより、適切なタイミングでスイッチング映像の選定を行うことができる。

尚、スイッチング指標計算トリガ条件を満たし、各切り出し候補領域のスイッチング指標を計算した結果、スイッチング指標の値が全体的に低く、切り出し領域を決定できない場合もありうる。例えば、ある出演者のトークが終わった後も、他の出演者が発声しない場合などである。このような場合は、予め定められた司会やグループショットの映像をスイッチング映像としても良い。

＜実施の形態の変形例６＞
本発明の実施の形態の変形例６を説明する。
上述した実施の形態では、各切り出し候補領域の選定にあたって、各役割指標の値が大きいものを選定する例を説明した。しかし、役割指標の値に関係なく、例外として、切り出し候補領域として選定するパターンを設けても良い。

例えば、四人グループのうち、二名の出演者を含むグループショットの領域の役割指標が高く、その領域を切り出し候補領域として選定した場合、役割指標の値とは関係なく、残りの二人の出演者のグループショットの領域についても、切り出し候補領域に選定するようにしても良い。

また、ひな壇の上段に着席しているゲストのグループショット（例えば、四人）の役割指標が高く、その領域を切り出し候補領域として選定した場合、役割指標の値とは関係なく、ひな壇の下段に着席しているゲストのグループショット（例えば、四人）の領域についても、切り出し候補領域に選定するようにしても良い。

また、一人の出演者が爆笑して、他の出演者も笑った場合など、役割指標が高くなる爆笑した出演者のみを含む切り出し候補領域のみならず、爆笑した出演者と笑った他の出演者とを含む全体の領域を切り出し候補領域に選定するようにしても良い。

以上、好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。

１カメラ
２スイッチング装置
３表示装置
１０取得部
１１番組データベース(番組DB)
１２認識部
１３切り出し候補領域選定部
１４検出部
１５切り出し領域決定部
１６スイッチング部
１７表示制御部
１８スイッチ映像選択部
１００処理部
１１０記憶部

Claims

コンテンツの映像素材を取得する取得部と、
前記映像素材の人物の画像又は音声を認識する認識部と、
認識されたオブジェクトの画像又は音声により、前記コンテンツにおけるオブジェクトの役割の指標である役割指標を計算し、前記役割指標を用いて、少なくとも一以上のオブジェクトを領域内に含み、前記映像素材から映像を切り出すための切り出し候補領域を複数選定する切り出し候補領域選定部と、
前記映像素材におけるオブジェクトの映像変化及び音声変化を検出する検出部と、
前記映像素材におけるオブジェクトの映像変化及び音声変化の検出結果から、前記各切り出し候補領域におけるスイッチングのタイミングの指標であるスイッチング指標を計算し、前記各切り出し候補領域のスイッチング指標を用いて、前記各切り出し候補領域から切り出し領域を決定する切り出し領域決定部と、
前記映像素材から切り出し領域の映像を切り出し、現在出力されている映像を切り出した映像にスイッチングするスイッチング部と
を備える自動スイッチング装置。
前記役割指標は、オブジェクトの重要度、オブジェクトの発音の有無、オブジェクトが発したキーワード、オブジェクトの音声情報、オブジェクトの視線集合、オブジェクトの外形変化の少なくとも一以上をパラメータに持ち、
前記切り出し候補領域選定部は、前記役割指標が第１所定値を超える映像素材中のオブジェクトを領域内に含むように、切り出し候補領域を選定する
請求項１に記載の自動スイッチング装置。
前記役割指標の各パラメータに対し、コンテンツ毎に異なる重みづけを行う
請求項２に記載の自動スイッチング装置。
前記切り出し候補領域選定部は、
前記切り出し領域におけるオブジェクトの配置情報を記憶し、
前記役割指標が第１所定値を超える映像素材中のオブジェクトと他のオブジェクトとを領域内に含むように、切り出し候補領域を選定する
請求項２又は請求項３に記載の自動スイッチング装置。
前記スイッチング指標は、オブジェクトの発音又は音声情報、オブジェクトの動作、オブジェクトの視線方向、オブジェクトのオンタリー時間の少なくとも一以上をパラメータに持ち、
前記切り出し領域決定部は、第２所定値を超え、最も高いスイッチング指標の切り出し候補領域を、切り出し領域として決定する
請求項１から請求項４のいずれかに記載の自動スイッチング装置。
前記スイッチング指標の各パラメータに対し、コンテンツ毎に異なる重みづけを行う
請求項５に記載の自動スイッチング装置。
前記切り出し領域決定部は、スイッチング禁止条件を記憶し、前記スイッチング禁止条件に該当する場合は、新たな切り出し候補領域を決定しない、または、次に高いスイッチング指標の値を持つ切り出し候補領域を切り出し領域に決定する
請求項１から請求項６のいずれかに記載の自動スイッチング装置。
複数の切り出し候補領域の映像と、現在出力されている映像とを、表示部に表示する表示制御部と、
前記複数の切り出し候補領域の映像のなかから、スイッチングする映像を手動で選択することが可能なスイッチング映像選択部と、
を備える請求項１から請求項７のいずれかに記載の自動スイッチング装置。
前記コンテンツの映像素材が、番組の番組映像であり、
前記オブジェクトが、前記番組の出演者である
請求項１から請求項８のいずれかに記載の自動スイッチング装置。
コンピュータに、
コンテンツの映像素材を取得する取得機能、
映像素材のオブジェクトの画像又は音声を認識する認識機能、
認識されたオブジェクトの画像又は音声により、前記コンテンツのオブジェクトの役割の指標である役割指標を計算し、前記役割指標を用いて、少なくとも一以上のオブジェクトを領域内に含み、前記映像素材から映像を切り出すための切り出し候補領域を複数選定する切り出し候補領域選定機能、
前記映像素材におけるオブジェクトの映像変化及び音声変化を検出する検出機能、
前記映像素材におけるオブジェクトの映像変化及び音声変化の検出結果から、前記各切り出し候補領域におけるスイッチングのタイミングの指標であるスイッチング指標を計算し、前記各切り出し候補領域のスイッチング指標を用いて、前記各切り出し候補領域から切り出し領域を決定する切り出し領域決定機能、
前記映像素材から切り出し領域の映像を切り出し、現在出力されている映像を切り出した映像にスイッチングするスイッチング機能
を実現させるためのプログラム。
コンピュータが、
コンテンツの映像素材を取得し、
映像素材のオブジェクトの画像又は音声を認識し、
認識されたオブジェクトの画像又は音声により、前記コンテンツのオブジェクトの役割の指標である役割指標を計算し、前記役割指標を用いて、一以上のオブジェクトを領域内に含み、前記映像素材から映像を切り出すための切り出し候補領域を複数選定し、
前記映像素材におけるオブジェクトの映像変化及び音声変化を検出し、
前記映像素材におけるオブジェクトの映像変化及び音声変化の検出結果から、前記各切り出し候補領域におけるスイッチングのタイミングの指標であるスイッチング指標を計算し、前記各切り出し候補領域のスイッチング指標を用いて、前記各切り出し候補領域から切り出し領域を決定し、
前記映像素材から切り出し領域の映像を切り出し、現在出力されている映像を切り出した映像にスイッチングする
自動スイッチング方法。
コンテンツの映像素材を取得する取得部と、
映像素材のオブジェクトの画像又は音声を認識する認識部と、
認識されたオブジェクトの画像又は音声により、コンテンツにおけるオブジェクトの役割と映像切替のタイミングとを考慮した指標を計算し、前記指標を用いて、前記映像素材上に少なくとも一以上のオブジェクトを含む切り出し領域を選定する切り出し領域選定部と、
前記映像素材から切り出し領域の映像を切り出し、現在出力されている映像を切り出した映像にスイッチングするスイッチング部と
を備える自動スイッチング装置。