WO2023188606A1

WO2023188606A1 - 記録方法、記録装置、及びプログラム

Info

Publication number: WO2023188606A1
Application number: PCT/JP2022/046895
Authority: WO
Inventors: 啓山路; 俊輝小林; 潤小林
Original assignee: 富士フイルム株式会社
Priority date: 2022-03-30
Filing date: 2022-12-20
Publication date: 2023-10-05

Abstract

動画像データ中のフレームに対して付帯情報を効率よく記録するための記録方法、記録装置、及びプログラムを提供する。　複数のフレームにより構成される動画像データ中のフレームに対して付帯情報を記録する記録方法であって、フレーム内の被写体を、フレーム毎に認識する認識工程と、付帯情報のうち、認識された被写体に対して記録可能な付帯情報を検索する検索工程と、検索工程の結果に基づいて、フレームに対して付帯情報を記録する記録工程と、を備え、動画像データを構成するフレームの数を第１数とし、検索工程が実行されるフレームの数を第２数とした場合に、第２数が第１数より小さい。

Description

記録方法、記録装置、及びプログラム

　本発明は、記録方法、記録装置、及びプログラムに関する。

　動画像データ中のフレーム（フレーム画像）に対して、そのフレーム内の被写体に関する付帯情報を記録することがある。そのような付帯情報が記録されることで、フレーム内の被写体を特定した上で動画像データを利用することができる。

　例えば、特許文献１に記載の発明では、ユーザの操作に基づいて、動画像の各シーン対して少なくとも１つのキーワードを付与し、各シーンに付与されたキーワードを、動画像データとともに記録する。

特開平６－３０９３８１号公報

　一方、動画像データを構成する複数のフレームのそれぞれに対してキーワード等の付帯情報を記録しようとすると、その処理に係る負荷が大きくなり、また付帯情報の記録容量が大きくなる。

　本発明の一つの実施形態は、上記の事情に鑑みてなされたものであり、前述した従来技術の問題点を解決し、動画像データ中のフレームに対して付帯情報を効率よく記録するための記録方法、記録装置、及びプログラムを提供することを目的とする。

　上記の目的を達成するために、本発明の記録方法は、複数のフレームにより構成される動画像データ中のフレームに対して付帯情報を記録する記録方法であって、フレーム内の被写体を、フレーム毎に認識する認識工程と、付帯情報のうち、認識された被写体に対して記録可能な付帯情報を検索する検索工程と、検索工程の結果に基づいて、フレームに対して付帯情報を記録する記録工程と、を備え、動画像データを構成するフレームの数を第１数とし、検索工程が実行されるフレームの数を第２数とした場合に、第２数が第１数より小さい記録方法である。

　また、検索工程は、被写体又は画角のブレが検出されたフレームに対して実行されなくてもよい。

　また、上記の記録方法は、複数のフレームのうち、第１フレームに対して実行された認識工程の結果と、第１フレームと異なる第２フレームに対して実行された認識工程の結果と、の類似度合いを判定する第１判定工程をさらに備えてもよい。この場合、第１判定工程にて判定された類似度合いが、検索工程の実行に関する第１制限条件を満たす場合に、第１フレームに対する検索工程の実行が制限されるとよい。

　また、第１フレーム及び第２フレームに対して、認識工程で複数の被写体が認識された場合、第１判定工程では、複数の被写体に対して優先度を設定し、複数の被写体の優先度に基づいて類似度合いを判定してもよい。

　また、記録工程にて付帯情報が記録されるフレームの数を第３数とした場合に、第３数が第２数より小さくてもよい。

　また、上記の記録方法は、複数のフレームのうち、第１フレームに対して実行された検索工程の結果と、第１フレームと異なる第２フレームに対して実行された検索工程の結果と、の類似度合いを判定する第２判定工程をさらに備えてもよい。この場合、第２判定工程にて判定された類似度合いが、記録工程の実行に関する第２制限条件を満たす場合に、第１フレームに対する記録工程の実行が制限されるとよい。

　また、第１フレーム及び第２フレームに対する検索工程において、複数の被写体に対して、記録可能な付帯情報が検索された場合、第２判定工程では、複数の被写体に対して優先度を設定し、複数の被写体の優先度に基づいて類似度合いを判定してもよい。

　また、上記の記録方法は、付帯情報の記録指示に関するユーザの入力を受け付ける受付け工程をさらに備えてもよい。この場合、複数のフレームのうち、ユーザの入力に対応する入力フレームに対して、記録工程が実行されて付帯情報が記録されるとよい。

　また、入力フレームに対する記録工程では、記録指示に関する情報が付帯情報として記録されてもよい。

　また、複数のフレームのうち、入力フレーム、及び、入力フレームの前又は後の補完フレームに対して記録工程が実行されて付帯情報が記録されてもよい。

　また、付帯情報は、動画像データとは異なるデータファイルに保存されてもよい。

　また、本発明の一つの実施形態に係る記録装置は、プロセッサを備え、複数のフレームにより構成される動画像データ中のフレームに対して付帯情報を記録する記録装置である。また、上記のプロセッサは、フレーム内の被写体を、フレーム毎に認識する認識処理と、付帯情報のうち、認識された被写体に対して記録可能な付帯情報を検索する検索処理と、検索処理の結果に基づいて、フレームに対して付帯情報を記録する記録処理と、を実行する。そして、本発明の一つの実施形態では、動画像データを構成するフレームの数を第１数とし、検索処理が実行されるフレームの数を第２数とした場合に、第２数が第１数より小さい。

　また、本発明の一つの実施形態に係るプログラムは、前述した本発明の一つの実施形態に係る記録方法に含まれる認識工程、検索工程及び記録工程のそれぞれを、コンピュータに実施させるためのプログラムである。

動画像データの説明図である。フレーム内の被写体に関する付帯情報を示す図である。階層構造の付帯情報の例を示す図である。円形状の被写体領域の位置を特定する手順に関する図である。フレームに対して付帯情報を記録する手順に関する図である。動画像データ中のすべてのフレームに対して付帯情報を記録するケースを示す図である。本発明の一つの実施形態に係る記録装置のハードウェア構成を示す図である。本発明の一つの実施形態に係る記録装置の機能についての説明図である。互いに類似する第１フレーム及び第２フレームの各々に対する検索工程の実行の有無を示す図である。検索工程の実行レートについての説明図である。検索工程の実行レートについての説明図であり、シーン変更によりフレーム内の被写体が変わった場合の図である。付帯情報の補完についての説明図である。検索工程の実行レートについての説明図であり、付帯情報の記録指示に関するユーザの入力がなされた場合の図である。検索工程での結果が類似する第１フレーム及び第２フレームの各々に対する記録工程の実行の有無を示す図である。記録工程の実行レートについての説明図である。記録工程の実行レートについての説明図であり、付帯情報の記録指示に関するユーザの入力がなされた場合の図である。本発明の一つの実施形態に係る記録フローを示す図である（その１）。本発明の一つの実施形態に係る記録フローを示す図である（その２）。検索工程及び記録工程のそれぞれの実行レートについての変動を示す図である。検索工程の実行レートに関する変更例を示す図である。付帯情報が動画像データとは異なるデータファイルに保存されている例を示す図である。

　本発明の具体的な実施形態について説明する。ただし、以下に説明する実施形態は、本発明の理解を容易にするための一例に過ぎず、本発明を限定するものではない。本発明は、その趣旨を逸脱しない限り、以下に説明する実施形態から変更又は改良され得る。また、本発明には、その等価物が含まれる。

　また、本明細書において、「装置」という概念には、特定の機能を発揮する単一の装置が含まれるとともに、分散して互いに独立して存在しつつ協働（連携）して特定の機能を発揮する複数の装置の組み合わせも含まれることとする。

　また、本明細書において、「者」は、特定の行為を行う主体を意味し、その概念には、個人、グループ、企業等の法人、及び団体等が含まれる。さらに、人工知能（ＡＩ：Artificial Intelligence）を構成するコンピュータ及びデバイスも、「者」に含まれ得る。人工知能は、推論、予測及び判断等の知的な機能をハードウェア資源及びソフトウェア資源を使って実現されるものである。人工知能のアルゴリズムは任意であり、例えば、エキスパートシステム、事例ベース推論（ＣＢＲ：Case-Based Reasoning）、ベイジアンネットワーク又は包摂アーキテクチャ等である。

　＜＜本発明の一つの実施形態について＞＞
　本発明の一つの実施形態は、動画像データ中のフレームに対して付帯情報を記録する記録方法、記録装置及びプログラムに関する。

　［動画像データ及びフレームについて］
　動画像データは、ビデオカメラ及びデジタルカメラ等のような公知の動画撮影機器（以下、撮影機器という）によって作成される。撮影機器は、一定のフレームレート（単位時間に撮影されるフレーム画像の数）にて、画角内の被写体を、予め設定された露光条件で撮影してアナログ画像データ（ＲＡＷ画像データ）を生成する。その後、撮影機器は、アナログ画像データから変換されるデジタル画像データに対してγ補正等の補正処理を実施することで、フレーム（詳しくは、フレーム画像のデータ）を作成する。

　そして、撮影機器がフレーム画像のデータを一定のレート（間隔）で記録することで、図１に示すように、複数のフレームによって構成される動画像データが作成される。なお、以下では、動画像データを構成するフレームの数を、第１数Ｎ１と呼ぶこととする。

　動画中データ中の各フレーム内には、１つ以上の被写体が含まれ、つまり、各フレームの画角内には１つ以上の被写体が存在する。被写体は、画角内に存在する人、物及び背景等である。また、本明細書において、被写体は、広義に解釈され、特定の有形物に限られず、景色（風景）、明け方及び夜間等のようなシーン、旅行及び結婚式等のようなイベント、料理及び趣味等のようなテーマ、並びにパターン及び模様等を含み得る。

　動画像データは、そのデータ構造に応じたファイル形式を有する。ファイル形式は、動画像データのコーデック（圧縮技術）と対応するファイルフォーマット、及びバージョン情報を有する。ファイル形式には、ＭＰＥＧ（Moving Picture Experts Group）－４、Ｈ．２６４、ＭＪＰＥＧ（Motion JPEG）、ＨＥＩＦ（High Efficiency Image File Format）、ＡＶＩ（Audio Video Interleave）、ＭＯＶ（QuickTime file format）、ＷＭＶ（Windows Media Video）、及び、ＦＬＶ（Flash Video）等が挙げられる。ＭＪＰＥＧは、動画を構成するフレーム画像がＪＰＥＧ（Joint Photographic Experts Group）形式の画像からなるファイルフォーマットである。

　ファイルフォーマットは、各フレームのデータ構造に反映される。本発明の一つの実施形態では、各フレームのデータ構造における先頭のデータが、ＳＯＩ（Start of Image）のマーカセグメント、又はヘッダ情報であるBITMAP FILE HEADERから始まる。これらの情報には、例えば、フレーム番号（撮影開始時点のフレームから順に付与される通し番号）を示す情報が含まれる。

　また、各フレームのデータ構造には、フレーム画像のデータが含まれる。フレーム画像のデータは、撮影時の画角にて記録されたフレーム画像の解像度、及び、画素毎に規定された白黒２色又はＲＧＢ（Red Green Blue）３色の階調値等を示す。画角は、画像が表示又は描画されるデータ処理上の範囲であり、その範囲は、互いに直交する２つの軸を座標軸とする二次元座標空間にて規定される。

　また、各フレームのデータ構造には、付帯情報が記録（書き込み）可能な領域が含まれ得る。付帯情報は、各フレーム及び各フレーム内の被写体に関するタグ情報である。

　動画ファイルフォーマットが例えばＨＥＩＦである場合、各フレームに対応するＥｘｉｆ（Exchangeable image file format）形式の付帯情報、具体的には、撮影日時、撮影場所及び撮影条件等に関する情報が格納できる。撮影条件には、使用された撮影機器の種類、ＩＳＯ感度、ｆ値及びシャッタスピード等の露光条件、合焦位置（例えば、オートフォーカス時のフォーカスポイント）、並びに画像処理の内容等が含まれる。画像処理の内容は、フレームの画像データに対して実行された画像処理の名称、特徴、処理を実行した機器、並びに画角の中で画像処理が実行された領域等を含む。

　［付帯情報について］
　動画像データ中の各フレームには、付帯情報が記録可能なボックス領域が設けられており、フレーム内の被写体に関する付帯情報が記録可能である。具体的には、被写体に該当する項目が、その被写体に関する付帯情報として記録可能である。項目は、被写体を各観点で分類した場合に、その被写体が該当する事項及びカテゴリであり、分かり易くは、被写体の種類、状態、性質、構造、属性及びその他の特徴を表す語句（ワード）である。例えば、図２に示すケースでは、「人」、「女性」、「日本人」、「鞄を所持」及び「高級バッグを所持」が項目に該当する。

　また、一つの被写体に対して、２つ以上の項目の付帯情報が付加されてもよく、また、抽象度が異なる複数の項目の付帯情報が付加されてもよい。そして、一つの被写体に対して付加される付帯情報の項目が多いほど、あるいは、付帯情報が具体的（詳細）であるほど、その被写体に対する付帯情報の項目の精度が高くなる。ここで、精度とは、付帯情報によって記述される被写体の内容についての詳しさの度合い（精細度）を表す概念である。

　また、ある項目の付帯情報が付加された被写体に対して、その項目よりも精度が高い項目の付帯情報を付加してもよい。例えば、図３に示すケースでは、例えば、「人」という項目の付帯情報が付加された被写体に対して、より精度が高い「女性」という項目の付帯情報が付加されている。また、「鞄を所持」という項目の付帯情報が付加された被写体に対して、より精度が高い「高級バッグを所持」という項目の付帯情報が付加されている。
　なお、付帯情報は、図３に示すように階層ごとに規定されているのが好ましい。

　また、被写体の項目には、被写体の外観からは識別できない項目、例えば、農作物における病気等のような異常の有無、若しくは、果物の糖度等のような品質等が含まれてもよい。上記のように外観から識別不能な項目は、画像データにおける被写体の特徴量から判定できる。具体的には、被写体の特徴量と被写体の属性との対応関係を予め学習しておき、その対応関係に基づいて、画像内の被写体の特徴量から当該被写体の属性を判定（推定）できる。

　なお、被写体の特徴量は、例えば、フレームにおける被写体の解像度、データ量、ボケの度合い、ブレの度合い、フレームの画角に対するサイズ比、画角における位置、色味、又はこれらを複数組み合わせたものである。特徴量は、公知の画像解析技術を適用し、画角中の被写体領域を解析することで算出できる。また、特徴量は、機械学習によって構築される数理モデルにフレーム（画像）が入力されることで出力される値でもよく、例えば、１次元又は多次元のベクトル値でもよい。その他、少なくとも、一つの画像を入力したときに一意に出力されるような値であれば、特徴量として用いることができる。

　また、上記のボックス領域には、画角における被写体の位置（座標位置）を示す付帯情報、奥行方向における被写体までの距離（深度）を示す付帯情報が記録されてもよい。被写体の座標は、図２に示すように、フレームの画角を規定する二次元座標空間において、被写体の一部又は全部を囲む領域（以下、被写体領域）の縁上に存在する点の座標である。被写体領域の形状は、特に限定されないが、例えば略円形状又は矩形形状でもよい。被写体領域は、ユーザが画角内の一定範囲を指定することで抽出されてもよく、あるいは、公知の被写体検出アルゴリズム等を利用して自動的に抽出されてもよい。

　被写体領域が、図２にて破線にて示す矩形状の領域である場合、被写体領域の縁において対角線の両端に位置する２つの交点（図２にて白丸及び黒丸で示す点）の座標により被写体の位置が特定される。このように複数の点の座標により、画角における被写体の位置を的確に特定することができる。

　また、被写体領域は、被写体領域内における基点の座標、及び当該基点からの距離によって特定される領域でもよい。例えば、図４に示すように被写体領域が円形状である場合には、被写体領域の中心（基点）の座標、及び、基点から被写体領域の縁までの距離（つまり、半径ｒ）によって被写体領域が特定される。この場合、基点である中心の座標と、基点からの距離である半径とが被写体領域の位置情報となる。このように被写体領域内の基点と、基点からの距離を用いることで、被写体の位置を的確に表すことができる。
　なお、矩形状である被写体領域の位置は、その領域の中心の座標、及び各座標軸方向における中心からの距離によって表されてもよい。

　さらに、上記のボックス領域には、図２に示すように、被写体の画質を表す付帯情報を記録してもよい。画質は、フレーム画像のデータが示す被写体の画質であり、例えば、被写体の解像感、ノイズ、及び明るさ等である。解像感は、ボケ又はブレ等の有無及び程度、解像度、又は、これらに応じた等級若しくはランク等を含む。ノイズは、Ｓ／Ｎ値、ホワイトノイズの有無、又は、これらに応じた等級若しくはランク等を含む。明るさは、輝度値、明るさを示すスコア、又は、これらに応じた等級若しくはランク等を含む。また、明るさには、白飛び又は黒つぶれのような露光異常の有無（階調値により表現可能な範囲を超えているか）が含まれ得る。また、画質を表す情報には、解像感、ノイズ及び明るさ等を人の感性に基づいて評価した場合の評価結果（官能評価結果）が含まれてもよい。

　さらにまた、付帯情報の記録指示に関するユーザの入力がなされたフレームのボックス領域には、図２に示すように、記録指示に関する付帯情報が記録されてもよい。記録指示に関する情報は、記録指示がなされた旨を明記する情報、あるいは、記録指示がなされたフレームであることを示す識別コード（符号情報）である。付帯情報の記録指示については、後に説明することとする。

　以上までに説明した付帯情報がフレームに記録された動画像データは、様々な用途に利用され、例えば、機械学習の教師データを作成する目的で用いられ得る。詳しく説明すると、動画像データは、フレーム内の被写体を付帯情報（詳しくは、付帯情報の項目）から特定できるため、フレームに対して記録された付帯情報に基づいてアノテーション（選別）される。アノテーション後の動画像データ及びそのフレーム画像のデータは、教師データの作成に供され、機械学習に必要な分の教師データを集めて機械学習が実施される。

　［付帯情報を記録する基本的な流れについて］
　以下、図５を参照しながら、動画像データ中のフレームに対して付帯情報を記録する基本的な流れについて説明する。なお、以下では、動画像データを構成する複数のフレームのうち、付帯情報が記録されるフレーム（特に、被写体に関する付帯情報が記録されるフレーム）を、「対象フレーム」とも呼ぶこととする。

　対象フレームに対して付帯情報を記録する場合には、図５に示すように、先ず、対象フレーム内の被写体を認識する。具体的には、対象フレームの画角内にて被写体領域を抽出し、抽出された領域内の被写体を認識する。なお、対象フレーム内で複数の被写体領域が抽出された場合には、抽出された領域と同数の被写体を認識する。

　次に、認識された被写体に対して記録可能な付帯情報を、検索項目に基づいて検索する。検索項目は、付帯情報の候補として設定された複数の項目（項目群）である。例えば、被写体が人である場合には、検索項目の中から「人」という項目を検索する。

　また、検索項目には、ある観点について精度（詳しくは、精細度）が段階的に変わった複数の項目が含まれている。例えば、検索項目には、「人」という項目が含まれており、「人」に関連するより詳細な項目として、性別、年齢、国籍及び職業等を表す項目がさらに含まれている。そして、上記の検索項目から、認識された被写体に該当する項目を、その被写体に対して記録可能な付帯情報として検索する。この際、検索される項目の数が多いほど、あるいは検索される項目が具体的（詳細）であるほど、検索の精度が高くなる。

　また、検索項目の精度、つまり、検索項目に含まれる項目の数及び精細度は、可変であり、また、一度設定された後に変更可能である。例えば、あるフレーム内の被写体（第１被写体）に応じて検索項目の精度を設定した後に、別のフレーム内の被写体（第２被写体）に対する検索項目の精度を、第２被写体に応じて変更することができる。

　検索項目の精度は、前のフレーム内の被写体に応じて高く設定してもよい。例えば、あるフレーム内の被写体（第１被写体）に対して、人であるか否かを検索し、その後のフレーム内の被写体（上記の第１被写体と同じ被写体）に対して、性別、国籍及び年齢等のような精度をより高くした検索項目を設定してもよい。

　なお、被写体に対して記録可能な付帯情報を検索する方法は、特に限定されない。例えば、被写体の特徴量から被写体の種類、性質及び状態等を推定し、推定結果と一致又は対応する項目を検索項目の中から見つけてもよい。また、対象フレーム内で複数の被写体を認識した場合には、複数の被写体のうち、少なくとも一部の被写体について、その被写体に対して記録可能な付帯情報を検索項目の中から検索してもよい。

　次に、上述の検索結果に基づき、検索された項目（つまり、検索項目の一部）を付帯情報として対象フレームに対して記録する。付帯情報を対象フレームに対して記録するとは、例えば、対象フレームの画像データに設けられたボックス領域（詳しくは、ＪＵＭＢＦに準拠するボックス領域）に付帯情報を書き込むことである。なお、対象フレーム内の被写体に該当する項目が検索項目中に存在しない場合には、「該当項目なし」という付帯情報を、対象フレームに対して記録してもよい。
　また、対象フレーム内で複数の被写体が認識された場合、図５に示すように、付帯情報（項目）を被写体毎に検索し、検索された付帯情報（項目）を、対応する一つの被写体と関連付けて対象フレームに対して記録する。なお、付帯情報（項目）の検索は、フレーム内の複数の被写体の全てに対して実行しなくてもよい。

　ところで、上述の手順により、動画像データ中のフレームに対して付帯情報を記録する場合、効率よく付帯情報を記録できるのが好ましい。一方、図６に示すように、動画像データを構成するフレームの各々に対して付帯情報を記録しようとすると、上述の処理に係る負荷が大きくなる。また、付帯情報の記録量が膨大となり、動画像データの記録容量が大きくなる。この結果、動画像データの収録時間（換言すると、動画データを構成するフレームの第１数Ｎ１）が小さくなってしまう。

　一方、動画像データ中、前後のフレーム間では、被写体が同一又は類似している場合（例えば、共通の被写体を撮影している場合）があり得る。その場合、フレーム内の被写体に対して記録可能な付帯情報がフレーム間で共通し、前後のフレームにおいて、付帯情報（項目）の検索結果がフレーム間で類似する（重複する）可能性がある。

　本発明の一つの実施形態では、動画データ中のフレームに対して付帯情報を効率よく記録する目的のために、以下に説明する記録装置及び記録方法を用いている。以下では、本発明の一つの実施形態に係る記録装置の構成、及び本発明の一つの実施形態に係る記録方法の流れについて説明する。

　［本発明の一つの実施形態に係る記録装置の構成］
　本発明の一つの実施形態に記録装置（以下、記録装置１０）は、図７に示すように、プロセッサ１１及びメモリ１２を備えるコンピュータである。プロセッサ１１は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）、又はＴＰＵ（Tensor Processing Unit）等によって構成される。メモリ１２は、例えば、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）等の半導体メモリ等によって構成される。

　また、記録装置１０は、タッチパネル及びカーソルボタン等のようなユーザ操作を受け付ける入力機器１３、並びに、ディスプレイ及びスピーカ等のような出力機器１４を備える。入力機器１３には、ユーザの音声入力を受け付ける機器が含まれてもよい。この場合、記録装置１０は、ユーザの音声を認識し、形態素解析等によって音声を解析し、その解析結果を入力情報として取得してもよい。

　また、メモリ１２には、動画像データ中のフレームに対して付帯情報を記録するためのプログラム（以下、記録用プログラム）が格納されている。記録用プログラムは、コンピュータに本発明の記録方法に含まれる各工程（具体的には、図１７Ａ及び１７Ｂに示す記録フロー中の各ステップ）を実施させるためのプログラムである。記録用プログラムは、コンピュータが読み取り可能な記録媒体から読み込むことで取得されてもよいし、インターネット又はイントラネット等の通信網を通じてダウンロードすることで取得されてもよい。

　また、記録装置１０は、ストレージ１５内に記憶された各種のデータに自由にアクセス可能である。ストレージ１５に記憶されたデータには、記録装置１０が付帯情報を記録するために必要なデータ、具体的には、上述した検索項目のデータが含まれる。
　なお、ストレージ１５は、記録装置１０に内蔵又は外付けされてもよく、若しくはＮＡＳ（Network Attached Storage）等によって構成されてもよい。あるいは、ストレージ１５が、記録装置１０とインターネット又はモバイル通信網を通じて通信可能な外部機器、例えばオンラインストレージでもよい。

　上述の記録装置１０は、例えば、動画の撮影機器によって構成される。記録装置１０を構成する撮影機器の構成（特に、メカ構成）は、動画撮影の機能を有する公知の機器のものと略共通する。また、上記の撮影機器は、画角内の所定位置に自動的に合焦するオートフォーカス（ＡＦ）機能を有してもよい。さらに、上記の撮影機器は、ＡＦ機能を利用して動画像データを記録している間の合焦位置、すなわちＡＦポイントを特定する機能を有してもよい。

　また、上記の撮影機器は、手振れ等によって発生する画角のブレ、及び、被写体の動きに起因して発生する被写体のブレを検出する機能を有する。ここで、「ブレ」は、不規則で且つ遅い揺れ（ブレ）であり、例えば、意図的な画角変更、具体的には、撮影機器の向きを所定方向に沿って素早く変更させる操作（具体的には、パン操作）とは相違する。なお、被写体のブレは、例えば、公知の画像解析技術によって検出可能である。画角のブレは、例えば、ジャイロセンサ等の公知のブレ検出機器によって検出可能である。

　また、上記の撮影機器は、動画像データの記録中にユーザ（すなわち、動画の撮影者）が覗き込むファインダ、詳しくは電子ビューファインダ又は光学ビューファインダを備えてもよい。この場合、上記の撮影機器は、動画像データの記録中、ユーザの視線及び瞳のそれぞれの位置を検出して、ユーザの視線位置を特定する機能を有してもよい。ユーザの視線位置は、ファインダ内を覗き込んでいるユーザの視線と、ファインダ内の表示画面（不図示）との交点位置に相当する。

　また、上記の撮影機器は、赤外センサ等の公知の距離センサを搭載してもよい。この場合、上記の撮影機器は、画角内の各被写体について、奥行方向の距離（深度）を測定可能である。

　記録装置１０の機能、特に、フレームへの付帯情報の記録に関連する機能について、図８を参照しながら説明する。記録装置１０は、図８に示すように、取得部２１、入力受付部２２、検出部２３、認識部２４、第１判定部２５、検索部２６、第２判定部２７、記録部２８、及び補完部２９を有する。これらの機能部は、記録装置１０が備えるハードウェア機器（プロセッサ１１、メモリ１２、入力機器１３及び出力機器１４）と、前述の記録用プログラムを含むソフトウェアとの協働によって実現される。
　以下、上述した各機能部について説明する。

　（取得部）
　取得部２１は、複数のフレームにより構成される動画像データを取得する。具体的には、取得部２１は、記録装置１０を構成する撮影機器の画角にて、一定のフレームレートでフレーム（フレーム画像）を記録することで動画像データを取得する。

　（入力受付部）
　入力受付部２２は、受付け工程を実行し、受付け工程において、フレームへの付帯情報の記録に関連して行われるユーザ操作を受け付ける。入力受付部２２が受け付けるユーザ操作には、付帯情報の記録指示に関するユーザの入力（以下、記録指示の入力）が含まれる。記録指示の入力は、動画像データを構成する複数のフレームのうち、付帯情報が記録される対象フレームを指示するために行われる入力操作である。具体的に説明すると、動画像データの記録中、ユーザは、付帯情報の記録を希望するタイミングで所定の動作（例えば、所定のボタンを押す操作又は音声を発する操作等）を行う。入力受付部２２は、その操作を記録指示の入力として受け付ける。

　（検出部）
　検出部２３は、動画像データの記録中、被写体又は画角のブレが発生した場合に、公知のブレ検出手段により、発生したブレを検出する。また、検出部２３は、ブレを検出した場合に、動画像データのうち、そのブレが検出されたフレームを特定する。

　（認識部）
　認識部２４は、認識工程を実行し、認識工程において、動画像データにおけるフレーム内の被写体を、フレーム毎に認識する。具体的に説明すると、認識工程では、各フレームの画角において被写体領域を抽出し、抽出された被写体領域内の被写体を特定する。また、フレーム内に複数の被写体が存在する場合（つまり、フレームの画角内で複数の被写体領域が抽出される場合）、認識部２４は、複数の被写体を認識する。
　なお、フレーム内の被写体をフレーム毎に認識する態様には、動画像データを構成する複数のフレームの中に、フレーム内の被写体が認識されないフレームが存在する態様が含まれてもよい。

　（第１判定部）
　第１判定部２５は、第１判定工程を実行し、動画像データにおける第１フレームと第２フレームとの間の類似度合いを判定する。第１フレーム及び第２フレームは、動画像データを構成する複数のフレームのうち、互いに異なるフレームである。第２フレームは、第１フレームよりも前のフレーム、又は、第１フレームよりも後のフレームである。
　以下では、動画像データの記録中、現時点（リアルタイム）に相当するフレームが第１フレームであり、過去（例えば、第１フレームの数フレーム前）のフレームが第２フレームであるケースを例に挙げて説明する。

　第１判定工程では、第１フレーム内の被写体についての認識結果と、第２フレーム内の被写体についての認識結果と、の類似度合いを判定する。つまり、第１判定部２５は、認識部２４が認識した第１フレーム内の被写体と、第２フレーム内の被写体との間の類似度合いを判定する。

　なお、類似度合いを判定する際には、類似度合いを評価（算出）する公知の技術が利用可能である。例えば、比較される２つの被写体の特徴量（厳密には、フレーム内の画角における被写体領域の特徴量）の各々を特徴量空間内で規定する。そして、特徴量空間における特徴量間の距離によって、被写体同士の類似度合いを判定してもよい。この場合、距離が小さいほど、被写体同士が類似している（類似度合いが高い）ことになる。

　さらに、第１判定部２５は、第１判定工程において、上記の類似度合いが第１制限条件を満たすか否かを判定する。第１制限条件とは、検索部２６による検索工程の実行に関して予め設定された条件である。ここで、「予め設定する」とは、検索工程の実行までに設定することを意味する。また、本発明の一つの実施形態では、第１制限条件が、類似度合いが所定のレベルを超えるという条件である。所定のレベルは、比較される２つの被写体同士が類似していると判定し得る程度の類似度合いを規定している。
　なお、第１制限条件については、上記の条件に限定されず、例えば、類似度合いが所定のレベルを超えた状態が数フレーム以上継続するという条件でもよい。

　そして、上記の類似度合いが所定のレベルを超えると判定された場合、第１判定部２５は、上記の類似度合いが第１制限条件を満たし、つまり、第１フレームと第２フレームとが類似していると判定する。

　また、第１フレーム及び第２フレームに対して認識部２４が複数の被写体を認識した場合、第１判定部２５は、複数の被写体に対して優先度を設定する。この際、複数の被写体のうち、主要な被写体、例えば画角の中央により近い被写体、あるいはＡＦポイントにより近い被写体等に対しては、より高い優先度が設定される。または、ユーザが各被写体に対する優先度を指定してもよい。
　なお、各被写体に対して優先度を設定する態様には、複数の被写体の中に、優先度が設定されない被写体が存在する態様が含まれてもよい。

　そして、第１判定部２５は、複数の被写体の優先度に基づいて上記の類似度合いを判定し、詳しくは、優先度がより高い被写体について判定された類似度合いを重視する。例えば、優先度が最も高い被写体（すなわち、主要被写体）について判定された類似度合いが所定のレベルを超える場合、第１判定部２５は、第１フレームと第２フレームとが類似していると判定してもよい。
　なお、各被写体の優先度に基づいて類似度合いを判定する態様には、複数の被写体の優先度の中に、類似度合いを判定する際に参照されない優先度が存在する態様が含まれてもよい。

　（検索部）
　検索部２６は、対象フレームに対して検索工程を実行する。検索工程において、検索部２６は、検索項目に含まれる付帯情報のうち、認識部２４によって認識された対象フレーム内の被写体に対して記録可能な付帯情報を検索する。

　また、本発明の一つの実施形態では、検索部２６による検索工程が実行される対象フレームの数を第２数Ｎ２とした場合に、第２数Ｎ２が第１数Ｎ１よりも小さい。つまり、動画像データを構成する複数のフレームのうち、対象フレーム以外のフレーム（以下、非対象フレームという）に対しては、検索工程の実行が制限される。

　ここで、非対象フレームに対して検索工程の実行を制限するとは、例えば、非対象フレームに対する検索工程を実行しないことである。具体的に説明すると、第１判定部２５による第１判定工程にて判定された類似度合いが前述の第１制限条件を満たしているとする。つまり、図９に示すように、第１フレームと第２フレームとが類似しているとする。この場合、検索部２６は、第１フレームを非対象フレームとして設定し、非対象フレームに対する検索工程の実行を制限する。詳しくは、図９に示すように、第１フレームに対する検索工程が実行されずに省略される。

　そして、第１フレームに対する検索工程が実行されないので、検索工程が実行されるフレーム（対象フレーム）の数、すなわち第２数Ｎ２が、第１数Ｎ１よりも小さくなる。これにより、前後のフレームが類似し続ける状況では、図１０に示すように、検索工程の実行レートが、動画像データ記録時のフレームレートより小さくなる。

　具体的に説明すると、例えば、同じシーンで同じ被写体を撮影して動画像データを記録する場合、前後のフレーム間における被写体の類似度合いが所定のレベルを超える状態が継続することになる。この場合、図１０に示すように、検索工程が実行されるフレームの間隔が、動画像データにおけるフレームの記録間隔よりも長くなる。
　なお、図１０～１６、１８、及び１９において、動画像データを構成する複数のフレームのうち、検索工程が実行される対象フレームには、斜線のハッチングが付けられている。

　また、動画像データの記録中、撮影シーンの変更等によって前後のフレームが切り替わり、第１フレーム内の被写体と第２フレーム内の被写体との類似度合いが大きく変化したとする。この場合、検索部２６は、第１フレームに対して検索工程を実行し、図１１に示すように、シーン変更後における検索工程の実行レートを、それまでのレートよりも大きくする。

　また、検索部２６による検索工程の実行の有無、換言すると、フレームが対象フレーム及び非対象フレームのいずれに該当するかは、上記以外の要因でも変わり得る。具体的に説明すると、動画像データ中、検出部２３により被写体又は画角のブレが検出されたフレームは、非対象フレームとなり、そのフレームに対しては検索工程が実行されない。ブレが検出されたフレームでは被写体が明瞭でない可能性があるため、そのようなフレームを検索工程の対象から外すことにより、検索結果の妥当性を確保しつつ、検索工程の実行負担を軽減することができる。

　また、動画像データの記録中に入力受付部２２が記録指示の入力を受け付けた場合、検索部２６は、図１３に示すように、入力フレーム及び補完フレームに対して検索工程を実行する。入力フレームは、動画像データ中、記録指示の入力に対応するフレームであり、具体的には入力が受け付けられた瞬間に記録されたフレームである。補完フレームは、図１３に示すように、入力フレームの前又は後のフレームであり、例えば、入力フレームの直前及び直後の数フレームである。なお、補完フレームは、入力フレームの前のフレームのみでもよく、あるいは入力フレームの後のフレームのみでもよい。

　（補完部）
　補完部２９は、非対象フレームに対して補完情報を記録する補完工程を実行する。補完情報は、非対象フレームの前後にある２つのフレームに対して記録工程にて記録された付帯情報に基づいて決められる情報である。図１２を参照しながら具体的に説明すると、例えば、フレームＡ及びフレームＢのそれぞれに対しては、記録工程が実行されて付帯情報が記録された一方で、フレームＡ、Ｂの間には非対象フレームが存在することとする。ここで、フレームＡに対して記録された付帯情報と、フレームＢに対して記録された付帯情報とが、比較的類似している場合、補完部２９は、これらの情報に応じた補完情報（具体的には、例えば、フレームＡ、Ｂに共通の項目）を作成する。

　そして、補完部２９は、作成した補完情報を、フレームＡ、Ｂの間の非対象フレームに対して記録する補完工程を実行する。このように非対象フレームに対して補完情報が記録されることで、本来付帯情報が記録されない非対象フレームに対して、付帯情報としての補完情報を簡易に記録することができる。
　なお、補完情報が非対象フレームに対して記録された場合には、補完情報が記録された旨の情報が付帯情報として非対象フレームにさらに記録されてもよい。

　（第２判定部）
　第２判定部２７は、第２判定工程を実行し、第１フレームに対して実行された検索工程の結果と、第２フレームに対して実行された検索工程の結果と、の類似度合いを判定する。詳しくは、第２判定部２７は、第１フレーム内の被写体に記録可能な付帯情報として検索された項目と、第２フレーム内の被写体に記録可能な付帯情報として検索された項目との類似度合いを判定する。

　なお、類似度合いを判定する際には、類似度合いを評価（算出）する公知の技術が利用可能である。例えば、比較される２つの付帯情報（項目）の各々を、Ｗｏｒｄ２ｖｅｃ等の公知の手法によって数値化（詳しくは、ベクトル化）し、数値化された情報をベクトル空間内で規定する。そして、ベクトル空間における付帯情報間の距離によって、付帯情報同士の類似度を判定してもよい。この場合、ベクトル間の距離が小さいほど、付帯情報同士が類似していることになる。

　さらに、第２判定部２７は、第２判定工程において、上記の類似度合いが満たすか否かを判定する。第２制限条件とは、記録部２８による記録工程の実行に関して予め設定された条件である。ここで、「予め設定する」とは、記録工程の実行までに設定することを意味する。また、本発明の一つの実施形態では、第２制限条件が、類似度合いが所定のレベルを超えるという条件である。所定のレベルは、比較される２つの付帯情報同士が類似していると判定し得る程度の類似度合いを規定している。
　なお、第２制限条件については、上記の条件に限定されず、例えば、類似度合いが所定のレベルを超えた状態が数フレーム以上継続するという条件でもよい。

　そして、上記の類似度合いが所定のレベルを超えると判定された場合、第２判定部２７は、第１フレームに対して実行された検索工程の結果と、第２フレームに対して実行された検索工程の結果とが互いに類似していると判定する。

　また、第１フレーム及び第２フレームに対する検索工程において、複数の被写体に対して、記録可能な付帯情報が検索された場合、第２判定部２７は、複数の被写体に対して優先度を設定する。この際、複数の被写体のうち、主要な被写体、例えば画角の中央により近い被写体、あるいはＡＦポイントにより近い被写体等に対しては、より高い優先度が設定される。また、ユーザが各被写体に対して優先度を設定してもよい。
　なお、複数の被写体に対して優先度を設定する態様には、複数の被写体の中に、優先度が設定されない被写体が存在する態様が含まれてもよい。

　そして、第２判定部２７は、複数の被写体の優先度に基づいて上記の類似度合いを判定し、詳しくは、優先度がより高い被写体について判定された類似度合いを重視する。例えば、優先度が最も高い被写体（すなわち、主要被写体）について判定された類似度合いが所定のレベルを超える場合、第２判定部２７は、第１フレームに対する検索結果と第２フレームに対する検索結果とが類似していると判定してもよい。
　なお、複数の被写体の優先度に基づいて類似度合いを判定する態様には、複数の被写体の優先度の中に、類似度合いを判定する際に参照されない優先度が存在する態様が含まれてもよい。

　（記録部）
　記録部２８は、対象フレームに対して記録工程を実行する。記録工程において、記録部２８は、検索部２６による検索工程の結果（検索結果）に基づいて、対象フレームに対して付帯情報を記録する。より詳しく説明すると、記録工程では、検索項目の中から検索された項目、つまり対象フレーム内の被写体に該当する項目を、付帯情報として対象フレームに対して記録する。

　また、本発明の一つの実施形態では、記録部２８による記録工程にて付帯情報が記録される対象フレームの数を第３数Ｎ３とした場合に、第３数Ｎ３が第１数Ｎ１及び第２数Ｎ２よりも小さい。つまり、対象フレームのうち、特定の対象フレーム（以下、非記録フレームという）に対して記録工程の実行が制限される。

　ここで、非記録フレームに対して記録工程の実行を制限するとは、例えば、非記録フレームに対する記録工程を実行しないことである。具体的に説明すると、第２判定部２７による第２判定工程にて判定された類似度合いが前述の第２制限条件を満たしているとする。つまり、図１４に示すように、第１フレームに対する検索結果と第２フレームに対する検索結果とが類似している場面を想定する。この場合、記録部２８は、第１フレームを非記録フレームに設定し、当該フレームに対する記録工程の実行を制限する。詳しくは、図１４に示すように、第１フレームに対する記録工程が実行されずに省略される。

　そして、第１フレームに対する記録工程が実行されないので、記録工程が実行されるフレームの数、すなわち第３数Ｎ３が、検索工程が実行されたフレーム（対象フレーム）の第２数Ｎ２よりも小さくなる。これにより、前後のフレームの間で検索工程での結果（検索結果）が類似している状況が続けば、図１５に示すように、記録工程の実行レートが検索工程の実行レートより小さくなる。つまり、記録工程が実行されるフレームの間隔（実行レート）が、検索工程が実行されたフレーム（対象フレーム）の間隔よりも長くなる。

　記録部２８による記録工程の実行の有無、換言すると、フレームが非記録フレームに該当するか否かは、上記以外の要因でも変わり得る。具体的に説明すると、動画像データの記録中に入力受付部２２が記録指示の入力を受け付けた場合、記録部２８は、図１６に示すように、入力フレーム及び補完フレームに対して記録工程を実行する。つまり、記録部２８は、入力フレームに対する検索工程の結果に基づいて、入力フレーム内の被写体に対して記録可能な付帯情報を記録する。また、記録部２８は、補完フレームに対する検索工程の結果に基づいて、補完フレーム内の被写体に対して記録可能な付帯情報を記録する。

　［本発明の一つの実施形態に係る記録フローについて］
　次に、記録装置１０を用いた記録フローについて説明する。以下に説明する記録フローでは、本発明の記録方法が用いられる。つまり、以下に説明する記録フロー中の各ステップは、本発明の記録方法の構成要素に相当する。
　なお、下記のフローは、あくまでも一例であり、本発明の趣旨を逸脱しない範囲において、フロー中の不要なステップを削除したり、フローに新たなステップを追加したり、フローにおける２つのステップの実行順序を入れ替えてもよい。

　記録装置１０による記録フローは、図１７Ａ及び１７Ｂに示す流れに従って進行し、記録フロー中の各ステップ（工程）は、記録装置１０が備えるプロセッサ１１によって実行される。つまり、記録フロー中の各工程において、プロセッサ１１は、記録用プログラムに規定されたデータ処理のうち、各工程と対応する処理を実行する。具体的に説明すると、プロセッサ１１は、認識工程では認識処理を、検索工程では検索処理を、記録工程では記録処理をそれぞれ実行する。

　記録フローは、動画像データの記録開始をトリガーとして実施される（Ｓ００１）。記録フローが開始されると、先ず、動画像データを構成するフレームの番号＃ｉ（ｉは自然数）についてｉを１に設定した上で、＃ｉのフレームに対して認識工程、検索工程及び記録工程を実行する（Ｓ００２、Ｓ００３）。つまりは、最初のフレーム内に対して付帯情報を記録する。

　認識工程では、フレーム内の被写体を認識し、フレーム内に複数の被写体が存在する場合には、複数の被写体を認識する。検索工程では、認識された被写体に対して記録可能な付帯情報（詳しくは、項目）を、検索項目の中から検索する。記録工程では、検索工程の結果（検索結果）に基づいて、フレームに対して付帯情報を記録する。
　なお、記録フローにおいて、検索工程は、認識工程の後に実行される場合に限定されず、認識工程と同じタイミングで実行されてもよい。

　なお、＃ｉのフレームについて被写体又は画角のブレが検出された場合、ステップＳ００３は省略される。

　次に、動画像データの記録を終了するかを判定し（Ｓ００４）、記録を終了しない場合には、ｉをインクリメントした上で（Ｓ００５）、ステップＳ００６に移行する。ステップＳ００６では、現時点のフレーム番号＃ｉのｉがＮより大きいかを判定する。ここで、Ｎは２以上の自然数であり、任意の値に設定することができる。ｉがＮより大きい場合には、次のステップＳ００７に移行する。他方、ｉがＮ以下である場合には、ステップＳ００３に戻り、再び、＃ｉのフレームに対して認識工程、検索工程及び記録工程を実行する。

　ステップＳ００７では、ステップＳ００３と同じ要領で、＃ｉのフレームに対して認識工程を実行する。その後、＃ｉのフレームを第１フレームとし、＃ｉよりも前のフレームを第２フレームとして第１判定工程を実行する（Ｓ００８）。第１判定工程では、第１フレームに対して実行された認識工程の結果と、第２フレームに対して実行された認識工程の結果と、の類似度合いを判定する。つまり、ステップＳ００８では、第１フレーム内の被写体と、第２フレーム内の被写体との類似度合いを判定する。

　なお、第１フレーム及び第２フレームに対する認識工程にて複数の被写体が認識される場合がある。この場合、第１判定工程では、認識された複数の被写体に対して優先度を設定し、複数の被写体の優先度に基づいて類似度合いを判定する。このように複数の被写体の優先度を考慮することで類似度合いをより適切に判定でき、例えば、複数の被写体のうち、主要被写体を重視して類似度合いを判定できる。

　また、第１判定工程では、上記の類似度合いが第１制限条件を満たしているかを判定する（Ｓ００９）。上記の類似度合いが第１制限条件を満たす場合、記録指示の入力がない限り、＃ｉのフレーム（第１フレーム）に対する検索工程の実行が制限され、詳しくは、＃ｉのフレームに対して検索工程が実行されない。

　他方、上記の類似度合いが第１制限条件を満たしていない（具体的には、所定のレベルに達していない）場合、ステップＳ００３と同じ要領で、＃ｉのフレームに対して検索工程を実行する（Ｓ０１０）。
　なお、＃ｉのフレームについて被写体又は画角のブレが検出された場合、ステップＳ０１０、及びそれ以降のステップが省略される。
　また、ステップＳ０１０において検索工程を実行した場合には、その直後における検索工程の実行レートを、通常のレート（初期のレート）に戻すのがよい。

　ステップＳ０１０の実行後には、＃ｉのフレームを第１フレームとし、＃ｉよりも前のフレーム（厳密には、＃ｉのフレームより前に検索工程が実行されたフレーム）を第２フレームとして、第２判定工程を実行する（Ｓ０１１）。第２判定工程では、第１フレームに対して実行された検索工程の結果と、第２フレームに対して実行された検索工程の結果と、の類似度合いを判定する。

　なお、第１フレーム及び第２フレームの各々に対する検索工程において、複数の被写体に対して、記録可能な付帯情報が検索される場合がある。この場合、第２判定工程では、複数の被写体に対して優先度を設定し、複数の被写体の優先度に基づいて類似度合いを判定する。このように複数の被写体の優先度を考慮することで、類似度合いをより適切に判定でき、例えば、複数の被写体のうち、主要被写体を重視して類似度合いを判定できる。

　また、第２判定工程では、上記の類似度合いが第２制限条件を満たしているかを判定する（Ｓ０１２）。上記の類似度合いが第２制限条件を満たしていない（具体的には、所定のレベルに達していない）場合、＃ｉのフレームに対して記録工程を実行する（Ｓ０１３）。本ステップＳ０１３では、ステップＳ０１０で検索された項目を、付帯情報として＃ｉのフレームに記録する。

　他方、上記の類似度合いが第２制限条件を満たす場合には、＃ｉのフレーム（第１フレーム）に対する記録工程の実行が制限され、詳しくは、＃ｉのフレームに対して記録工程が実行されない。

　また、記録フロー中、付帯情報の記録指示に関するユーザの入力が有った場合には（Ｓ０１４）、プロセッサ１１が、その入力を受け付ける受付け工程を実行する。その後、プロセッサ１１は、＃ｉのフレームが記録指示の入力に対応する入力フレーム、あるいは入力フレームの前又は後にある補完フレームに該当するかを判定する（Ｓ０１５）。

　そして、＃ｉのフレームが入力フレーム又は補完フレームに該当する場合には、＃ｉのフレームに対して検索工程及び記録工程を実行する（Ｓ０１６）。
　なお、＃ｉのフレームが入力フレームに該当する場合の記録工程では、上記の記録指示に関する情報（例えば、記録指示の入力があった旨の情報、又はそれに対応する識別情報）が付帯情報として記録される。これにより、ユーザが記録指示の入力を行ったことを示す情報を、付帯情報として入力フレームに記録することができる。この結果、ユーザがどのようなフレームに対して記録指示を行ったのかを特定することができる。さらに、記録指示がなされるフレームに関する傾向を、上記の付帯情報が記録されたフレームに基づく機械学習等によって把握することができる。

　上述した一連の工程、特に、Ｓ００５以降のステップは、動画像データの記録が終了するまで繰り返し実行される。そして、動画像データの記録が終了した時点で、記録フローが終了する。

　以上までに説明してきたように、本発明の一つの実施形態に係る記録フローでは、第１フレームに対して実行された認識工程の結果と、第２フレームに対して実行された認識工程の結果と、の類似度合いを判定する。つまり、第１フレーム内の被写体と第２フレーム内の被写体との類似度合い（換言すると、フレーム間の類似度）を判定する。

　そして、上記の類似度合いが第１制限条件を満たす場合、つまり、第１フレームと第２フレームとが類似する場合、第１フレームに対する検索工程の実行が制限される。詳しくは、第１フレームに対して検索工程が実行されない。つまり、上記の場合には、第１フレーム及び第２フレームに対する検索工程の結果が類似する可能性が高く、効率化の観点から、第１フレームに対する検索工程を制限する。

　以上の結果、動画像データを構成するフレームの数（第１数Ｎ１）よりも、検索工程が実行されるフレームの数（第２数Ｎ２）が小さくなる。すなわち、図１８に示すように、検索工程の実行レートが、動画像データ記録時のフレームレートより小さくなる。これにより、検索工程の実行に係る負荷を軽減することができ、つまり、検索工程をより効率的に実行することができる。

　また、本発明の一つの実施形態に係る記録フローでは、第１フレームに対して実行された検索工程の結果と、第２フレームに対して実行された検索工程の結果と、の類似度合いを判定する。つまり、第１フレーム内の被写体に対して検索された付帯情報（項目）と、第２フレーム内の被写体に対して検索された付帯情報（項目）との類似度合いを判定する。

　そして、上記の類似度合いが第２制限条件を満たす場合、つまり、第１フレームと第２フレームとの間で付帯情報（項目）の検索結果が類似する場合、第１フレームに対する記録工程の実行が制限される。詳しくは、第１フレームに対して記録工程が実行されない。つまり、上記の場合には、第１フレーム及び第２フレームに対して記録される付帯情報が類似する可能性が高く、効率化の観点から、第１フレームに対する記録工程を制限する。

　以上の結果、検索工程が実行されるフレームの数（第２数Ｎ２）よりも、記録工程が実行されるフレームの数（第３数Ｎ３）が小さくなる。すなわち、図１８に示すように、記録工程の実行レートが、動画像データ記録時のフレームレート、及び検索工程の実行レートより小さくなる。これにより、記録工程の実行に係る負荷を軽減することができ、つまり、記録工程をより効率的に実行することができる。また、第１フレームに対する記録工程の実行が制限されることで、その分、付帯情報を記録するためのデータ容量を小さくすることができる。

　また、本発明の一つの実施形態では、付帯情報の記録指示に関するユーザの入力を受け付ける。また、その入力に対応するフレーム（入力フレーム）に対して検索工程及び記録工程が実行される。これにより、入力フレームとその直前のフレーム内との間でフレーム内の被写体が類似している場合であっても、入力フレームに対して付帯情報を記録することができる。このようにユーザの意思を反映して決められるフレーム（入力フレーム）に付帯情報を記録できるので、ユーザにとって、付帯情報の記録に関する利便性が向上する。

　また、本発明の一つの実施形態では、入力フレームに加え、入力フレームの前又は後の補完フレームに対しても検索工程及び記録工程が実行される。これにより、ユーザにとっての利便性がより一層向上する。つまり、ユーザが付帯情報の記録指示を希望する本来の時点と、記録指示の入力が実際に行われるタイミングとの間にずれ（タイムラグ）が生じ得る。このような場合であっても、補完フレームに対して記録工程が実行されることで、ユーザにとって所望の時点（記録指示を希望する時点）のフレームに対して付帯情報を記録することができる。

　本発明の一つの実施形態では、類似するフレームに記録された付帯情報を用いて、非対象フレームに対して補完情報を記録する。このように非対象フレームに対して補完情報が記録されることで、本来付帯情報が記録されない非対象フレームに対して、付帯情報としての補完情報を簡易に記録することができる。

　＜＜その他の実施形態＞＞
　以上までに説明してきた実施形態は、本発明の記録方法、記録装置、及びプログラムを分かり易く説明するための具体例であり、あくまでも一例に過ぎず、その他の実施形態も考えられ得る。

　（検索工程の実行について）
　上記の実施形態において、動画像データの記録開始当初には、それぞれのフレームに対して検索工程を実行し、換言すると、検索工程の実行レートが動画像データ記録時のフレームレートと同じであることとした（図１８参照）。ただし、これに限定されず、図１９に示すように、動画像データの記録開始当初から、検索工程の実行レートが、動画像データ記録時のフレームレートより小さくてもよい。

　（検索工程の実行制限について）
　上記の実施形態では、検索工程の実行を制限する態様として、検索工程を実行しないことを説明した。ただし、上記の態様に限定されず、検索工程の実行を制限する態様としては、例えば、フレーム内の一部の被写体に対する検索工程を中断すること、あるいは、検索項目における項目数を減らす等して検索工程を簡素化すること等でもよい。また、過去に検索工程が実行されたフレームに対する検索結果を流用することも、検索工程の実行を制限する一つの態様に該当し得る。なお、過去の検索結果を流用したフレームに対しては、検索結果の流用を示す付帯情報が記録されるとよい。

　（記録工程の実行制限について）
　上記の実施形態では、記録工程の実行を制限する態様として、記録工程を実行しないことを説明した。ただし、上記の態様に限定されず、記録工程の実行を制限する態様としては、例えば、検索された付帯情報の一部の記録を中断すること、あるいは、記録する付帯情報の数（詳しくは項目数）を減らすこと等でもよい。

　（フレーム間の類似度合いの判定について）
　上記の実施形態では、第１フレームと第２フレームとの間の類似度合いを、各フレーム内の被写体に基づいて判定したが、その際に、被写体以外の内容を考慮してもよい。具体的には、動画像データ記録中の各時点における撮影機器の向き、被写体の動き、及び被写体が発する音声等を加味して、フレーム間の類似度合いを判定してもよい。そして、これらの内容に基づき、第１フレームと第２フレームとが互いに相違すると判定された場合には、検索工程の実行レートを、それまでのレートよりも大きくするとよい。

　（本発明の記録装置を構成する装置・機器について）
　上記の実施形態では、動画の撮影機器（つまり、動画像データを記録する機器）が本発明の記録装置を構成することとした。ただし、これに限定されず、撮影機器とは別の機器、例えば、動画の撮影後に動画像データを撮影機器から取得してデータ編集を行う編集機器が本発明の記録装置を構成してもよい。

　（認識工程、検索工程及び記録工程の実行時期について）
　上記の実施形態では、動画像データを記録しながら、その動画像データ中のフレームに対して認識工程、検索工程及び記録工程を実行することとした。この場合、過去のフレームを第２フレームとし、第２フレームよりも後のフレーム（例えば、現時点のフレーム）を第１フレームとし、第１フレームと第２フレームとの間で類似度合いを判定することになる。そして、類似度合いが第１制限条件又は第２制限条件を満たす場合には、第１フレームに対する検索工程又は記録工程の実行が制限される。
　ただし、これに限定されるものではなく、動画像データの記録が終了した後に、その動画像データ中のフレームに対して認識工程、検索工程及び記録工程を実行してもよい。その場合には、動画像データ中の最終フレームから順に認識工程、検索工程及び記録工程を実行してもよい。換言すると、第１フレームを第２フレームよりも前のフレームに設定して、フレーム間の類似度合いを判定し、また、各制限条件の成否を判定してもよい。

　（付帯情報が保存されるデータの変形例）
　上記の実施形態では、フレームに対する付帯情報が動画像データの一部（詳しくは、フレームのデータ構造におけるボックス領域）に保存されることとした。ただし、これに限定されず、図２０に示すように、付帯情報が動画像データとは異なるデータファイルに保存されてもよい。この場合、付帯情報が保存されるデータファイル（以下、付帯情報ファイルＤＦ）は、その付帯情報が付加されたフレームを含む動画像データＭＤと紐付けられ、具体的には、その動画像データの識別ＩＤを含んでいる。また、付帯情報ファイルＤＦには、図２０に示すように、付帯情報が記録されたフレームの番号と、そのフレーム内の被写体に関する付帯情報がフレーム毎に記憶されている。
　以上のように付帯情報を動画像データとは別のデータファイルに保存することにより、動画像データの容量の増加を抑えつつ、動画像データ中のフレームに対する付帯情報を適切に記録することができる。
　なお、上記の付帯情報ファイルＤＦに付帯情報をフレーム毎に記録する態様には、動画像データを構成する複数のフレーム中、付帯情報が記載されていないフレームが存在する態様が含まれてもよい。

　（プロセッサの構成について）
　本発明の記録装置が備えるプロセッサには、各種のプロセッサが含まれる。各種のプロセッサには、例えば、ソフトウェア（プログラム）を実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵが含まれる。
　また、各種のプロセッサには、ＦＰＧＡ（Field Programmable Gate Array）等の製造後に回路構成を変更可能なプロセッサであるＰＬＤ（Programmable Logic Device）が含まれる。
　さらに、各種のプロセッサには、ＡＳＩＣ（Application Specific Integrated Circuit）等の特定の処理をさせるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。

　また、本発明の記録装置が有する１つの機能部を、上述した各種のプロセッサのうちの１つによって構成してもよい。あるいは、本発明の記録装置が有する１つの機能部を、同種又は異種の２つ以上のプロセッサの組み合わせ、例えば、複数のＦＰＧＡの組み合わせ、若しくは、ＦＰＧＡ及びＣＰＵの組み合わせ等によって構成してもよい。
　また、本発明の記録装置が有する複数の機能部を、各種のプロセッサのうちの１つによって構成してもよいし、複数の機能部のうちの２以上をまとめて１つのプロセッサによって構成してもよい。
　また、上述の実施形態のように、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが複数の機能部として機能する形態でもよい。

　また、例えば、ＳｏＣ（System on Chip）等に代表されるように、本発明の記録装置における複数の機能部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態でもよい。また、上述した各種のプロセッサのハードウェア的な構成は、半導体素子等の回路素子を組み合わせた電気回路（Circuitry）でもよい。

　１０　記録装置
　１１　プロセッサ
　１２　メモリ
　１３　入力機器
　１４　出力機器
　１５　ストレージ
　２１　取得部
　２２　入力受付部
　２３　検出部
　２４　認識部
　２５　第１判定部
　２６　検索部
　２７　第２判定部
　２８　記録部
　２９　補完部
　ＤＦ　付帯情報ファイル
　ＭＤ　動画像データ

Claims

　複数のフレームにより構成される動画像データ中のフレームに対して付帯情報を記録する記録方法であって、
　前記フレーム内の被写体を、前記フレーム毎に認識する認識工程と、
　前記付帯情報のうち、認識された前記被写体に対して記録可能な前記付帯情報を検索する検索工程と、
　前記検索工程の結果に基づいて、前記フレームに対して前記付帯情報を記録する記録工程と、を備え、
　前記動画像データを構成する前記フレームの数を第１数とし、前記検索工程が実行される前記フレームの数を第２数とした場合に、前記第２数が前記第１数より小さい、記録方法。
　前記検索工程は、被写体又は画角のブレが検出された前記フレームに対して実行されない、請求項１に記載の記録方法。
　前記複数のフレームのうち、第１フレームに対して実行された前記認識工程の結果と、前記第１フレームと異なる第２フレームに対して実行された前記認識工程の結果と、の類似度合いを判定する第１判定工程をさらに備え、
　前記第１判定工程にて判定された前記類似度合いが、前記検索工程の実行に関する第１制限条件を満たす場合に、前記第１フレームに対する前記検索工程の実行が制限される、請求項１又は２に記載の記録方法。
　前記第１フレーム及び前記第２フレームに対して、前記認識工程で複数の被写体が認識された場合、前記第１判定工程では、前記複数の被写体に対して優先度を設定し、前記複数の被写体の前記優先度に基づいて前記類似度合いを判定する、請求項３に記載の記録方法。
　前記記録工程にて前記付帯情報が記録されるフレームの数を第３数とした場合に、前記第３数が前記第２数より小さい、請求項１に記載の記録方法。
　前記複数のフレームのうち、第１フレームに対して実行された前記検索工程の結果と、前記第１フレームと異なる第２フレームに対して実行された前記検索工程の結果と、の類似度合いを判定する第２判定工程をさらに備え、
　前記第２判定工程にて判定された前記類似度合いが、前記記録工程の実行に関する第２制限条件を満たす場合に、前記第１フレームに対する前記記録工程の実行が制限される、請求項５に記載の記録方法。
　前記第１フレーム及び前記第２フレームに対する前記検索工程において、複数の被写体に対して、記録可能な前記付帯情報が検索された場合、前記第２判定工程では、前記複数の被写体に対して優先度を設定し、前記複数の被写体の前記優先度に基づいて前記類似度合いを判定する、請求項６に記載の記録方法。
　前記付帯情報の記録指示に関するユーザの入力を受け付ける受付け工程をさらに備え、
　前記複数のフレームのうち、前記ユーザの入力に対応する入力フレームに対して、前記記録工程が実行されて前記付帯情報が記録される、請求項１に記載の記録方法。
　前記入力フレームに対する前記記録工程では、前記記録指示に関する情報が前記付帯情報として記録される、請求項８に記載の記録方法。
　前記複数のフレームのうち、前記入力フレーム、及び、前記入力フレームの前又は後の補完フレームに対して前記記録工程が実行されて前記付帯情報が記録される、請求項８に記載の記録方法。
　前記付帯情報は、前記動画像データとは異なるデータファイルに保存される、請求項１に記載の記録方法。
　プロセッサを備え、複数のフレームにより構成される動画像データ中のフレームに対して付帯情報を記録する記録装置であって、
　前記プロセッサが、
　前記フレーム内の被写体を、前記フレーム毎に認識する認識処理と、
　前記付帯情報のうち、認識された前記被写体に対して記録可能な前記付帯情報を検索する検索処理と、
　前記検索処理の結果に基づいて、前記フレームに対して前記付帯情報を記録する記録処理と、を実行し、
　前記動画像データを構成する前記フレームの数を第１数とし、前記検索処理が実行される前記フレームの数を第２数とした場合に、前記第２数が前記第１数より小さい、記録装置。
　請求項１に記載された記録方法に含まれる前記認識工程、前記検索工程及び前記記録工程のそれぞれを、コンピュータに実施させるためのプログラム。