JP2020137050A - 撮像装置、撮像方法、撮像プログラム及び学習装置 - Google Patents

撮像装置、撮像方法、撮像プログラム及び学習装置 Download PDF

Info

Publication number
JP2020137050A
JP2020137050A JP2019031648A JP2019031648A JP2020137050A JP 2020137050 A JP2020137050 A JP 2020137050A JP 2019031648 A JP2019031648 A JP 2019031648A JP 2019031648 A JP2019031648 A JP 2019031648A JP 2020137050 A JP2020137050 A JP 2020137050A
Authority
JP
Japan
Prior art keywords
image
clip
unit
imaging
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019031648A
Other languages
English (en)
Inventor
和寛 羽田
Kazuhiro Haneda
和寛 羽田
丸山 淳
Atsushi Maruyama
淳 丸山
浩章 北村
Hiroaki Kitamura
浩章 北村
野中 修
Osamu Nonaka
修 野中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Corp filed Critical Olympus Corp
Priority to JP2019031648A priority Critical patent/JP2020137050A/ja
Publication of JP2020137050A publication Critical patent/JP2020137050A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Indication In Cameras, And Counting Of Exposures (AREA)
  • Studio Devices (AREA)

Abstract

【課題】対象物を捉えて表現した動画の始点、終点が適切であるなど、ライフログ動画の作成に適したクリップを自動的に取得することができる。【解決手段】撮像装置10は、連続的に撮像して得られる複数の連続画像を取得する撮像部12と、複数の連続画像の中から特定の条件を満たす一連の画像により構成されるクリップの始点コマ終点コマを選択する選択部17と、を具備する。選択部17は、連続画像を構成するコマの特徴から推論によって特定の条件を判定する。【選択図】図1

Description

本発明は、ライフログに適した撮像装置、撮像方法、撮像プログラム及び学習装置に関する。
近年、デジタルカメラなどの撮影機能付き携帯機器(撮影機器)は、画像処理を駆使して、様々な撮影機能を備えている。例えば、ウェアラブルに構成し、所定期間毎に比較的短い時間だけ撮影を自動的に行うことにより、ライフログの取得に適した撮像装置も開発されている。
ライフログは、1〜数秒程度の短い動画であって、例えば日々の生活の様子等の撮影によって得られたクリップ(短時間の動画)を集めて記録する技術である。ライフログによって得られる動画(以下、ライフログ動画という)の作成には一般的なカメラを採用することもでき、ユーザはカメラによってクリップを取得し、複数を繋げてライフログ動画を容易に作成することができる。もちろん、動く静止画という趣向で、単独のクリップで楽しんでも良い。クリップの連なりの動画は、ストーリー性のある動画と違って、物語の流れにとらわれる必要がなく、気軽にみられるという特徴がある。
このようなライフログに対して、映画等のようにストーリーを重視した動画(以下、ストーリー系動画という)の撮影が行われることもある。例えば、特許文献1においては、面倒な撮影操作を増やすことなくストーリ性に優れ且つ完成度が高い動画撮影を可能にすることを目的とした技術が開示されている。この技術では、動画の中の一つながり部分のそれぞれについての撮影指南情報及び撮影条件データを含むシナリオデータを保持するシナリオデータ保持手段を備えて、各シーンの撮影条件を設定するようになっている。
特開2006−174318号公報
ところで、ライフログ動画は、適当なタイミングで取得されたクリップを集めたものであり、クリップ同士にはシーンとしての起承転結などはない。しかも、クリップの時間は比較的短く、クリップ単独ではストーリー性を有する動画とはなりにくい。従って、ライフログ動画全体として面白味のある動画とするためには、1つ1つのクリップに審美性や味わいが必要で、どのようなシーンのどのタイミングの動画を採用して対象シーンの印象深さをクローズアップするかについて、十分な経験や高い感性が必要となる。なお、特許文献1の発明においても、面白味のあるストーリーを得るためには、最初にそれなりのシナリオを決定しておくという比較的専門性を有する作業が必要であり、ライフログに適用したとしてもライフログの作成を容易にすることはできない。このように、ライフログ動画の作成自体は0.1秒オーダー、あるいはそれ以下のオーダーでの起点、終点の選択が面倒で、編集の行為そのものは容易であるが、面白味や趣のあるライフログ動画の作成は極めて手間がかかり困難であるという問題があった。
本発明は、対象物を捉えて表現した動画の始点、終点が適切であるなど、ライフログ動画の作成に適したクリップを自動的に取得することができる撮像装置、撮像方法、撮像プログラム及び学習装置を提供することを目的とする。
本発明の一態様による撮像装置は、連続的に撮像して得られる複数の連続画像を取得する撮像部と、上記複数の連続画像の中から特定の条件を満たす一連の画像により構成されるクリップの始点コマ終点コマを選択する選択部と、を具備し、上記選択部は、上記連続画像を構成するコマの特徴から推論によって上記特定の条件を判定する。
本発明の一態様による撮像方法は、連続的に撮像して得られる複数の連続画像を取得し、上記複数の連続画像の中から特定の条件を満たす一連の画像により構成されるクリップの始点コマ終点コマを選択する手順を具備し、上記クリップを選択する手順は、上記連続画像を構成するコマの特徴から推論によって上記特定の条件を判定する。
本発明の一態様による撮像プログラムは、コンピュータに、連続的に撮像して得られる複数の連続画像を取得し、上記複数の連続画像の中から特定の条件を満たす一連の画像により構成されるクリップの始点コマ終点コマを選択する手順を実行させるための撮像プログラムであって、上記クリップを選択する手順は、上記連続画像を構成するコマの特徴から推論によって上記特定の条件を判定する。
本発明の一態様による学習装置は、連続的に撮像して得られる複数の連続画像から所定秒数よりも短く1シーンによって構成される一連の画像であるクリップを集めて構成される画像を生成する母集合作成部と、上記母集合生成部が生成した画像を記録する記録部とを具備する。
本発明の他の態様による学習装置は、所定秒数よりも短く1シーンによって構成される一連の画像であるクリップを集めて構成される画像を教師データとして設定する母集合作成部と、上記教師データを用いた学習により、入力画像に対して、特定の条件を満たす一連の画像により構成される1つ以上のクリップを選択するための情報を出力する推論モデルを構築する入出力モデル化部とを具備する。
本発明の他の態様による撮像装置は、連続的に撮像して得られる複数の連続画像を取得する撮像部と、上記複数の連続画像の中から特定の条件を満たす一連の画像により構成される1つ以上のクリップを選択する選択部と、を具備し、上記選択部は、上記連続画像と手本画像群との比較に基づいて上記特定の条件を判定する。
本発明の他の態様による撮像装置は、複数の動画種別から1つを選択可能にすると共に、選択された動画種別中の複数のカテゴリーから1つを選択可能にするメニュー表示を表示する表示制御部と、前記メニュー表示により選択された動画種別中の選択されたカテゴリーの動画についての学習を外部に依頼する制御部とを具備する。
本発明の他の態様による撮像装置は、複数の動画種別から1つを選択可能にするメニュー表示を表示する表示制御部と、前記メニュー表示により選択された動画種別に相応しい動画の始点、終点を推論によって自動決定する推論エンジンとを具備する。
本発明の他の態様による撮像装置は、連続的に撮像して得られる複数の連続画像を取得する撮像部と、上記複数の連続画像の中から特定の条件を満たす一連の画像により構成される1つ以上のクリップを各クリップの特徴毎に選択する選択部と、を具備し、上記選択部は、上記連続画像を構成するコマの特徴と手本画像群のクリップの始点、終点の特徴とクリップの内容との比較に基づいて上記特定の条件を判定する。
本発明によれば、対象物を捉えて表現した動画の始点、終点が適切であるなど、ライフログ動画の作成に適したクリップを自動的に取得することができるという効果を有する。
図1は本発明の第1の実施の形態に係る学習装置及び撮像装置を示すブロック図である。 ストーリー系動画を説明するための説明図である。 ハプニング系動画を説明するための説明図である。 ライフログ動画を説明するための説明図である。 学習装置20による学習及び学習の結果得られる推論モデルを説明するための説明図である。 学習処理を説明するためのフローチャートである。 撮像装置10の動作を説明するためのフローチャートである。 ライフログ撮影の準備の様子を示す説明図である。 ライフログ撮影に関する画面表示を説明するための説明図である。 撮像装置10による撮影の様子を示す説明図である。 ライブビュー画像を示す説明図である。 クリップを説明するための説明図である。 クリップを検出したことを示す表示の表示例を示す説明図である。 図5中のカット候補記録処理の具体的な処理フローの一例を示すフローチャートである。 学習装置20の学習を説明するためのフローチャートである。 第2の実施の形態におけるカメラ制御を示すフローチャートである。
以下、図面を参照して本発明の実施の形態について詳細に説明する。
(第1の実施の形態)
図1は本発明の第1の実施の形態に係る学習装置及び撮像装置を示すブロック図である。本実施の形態は、ライフログ動画のお手本となる動画を教師データとする機械学習によって推論モデルを生成し、撮像装置においてこの推論モデルを用いた推論エンジンにより、入力された一連の画像からライフログ動画に用いるクリップ(同じ対象物を撮影した連続画像の始点、終点などを決めての簡潔に編集された動画部分、動画要素)を自動生成することを可能にするものである。これにより、ユーザは、面白味のあるライフログ動画の作成に適したクリップを得るためのシーンやタイミングを考慮しない通常の撮影の過程において、お手本となるライフログ動画に類似したライフログ動画を得るためのクリップを自動生成することができる。
なお、所望の撮影結果(ハプニング)を期待して、相応の撮影準備を行って得られる動画(以下、ハプニング系動画という)の撮影が行われることもある。ハプニング系動画では、例えば、動物のある仕草を撮影するために、動物の撮影を比較的長い時間撮影する等の手法が採用される。このような撮影では、所望の撮影結果が得られるか否かは被写体の状態によって決まる。このようにハプニング系動画においては、例えば十数秒等の比較的長いシーンをユーザの意図した撮影によって得る必要があり、本実施の形態において対象とするものではない。
面白味のあるライフログ動画に用いるクリップとしては、画質が良い画像というばかりではなく、例えば、クリップの開始画像は人を引きつける内容であり、終了画像までにクリップ内の物体の動きがある程度完結する画像であり、動く物体が画面内に収まっていて、できればクリップ単体でメッセージ性に優れた画像が好ましい。
これは、どのコマからクリップが始まり、どのコマでクリップが終わるかといった、非常に繊細なユーザの感覚や、目視手動選択の技術を必要としたりして、手間のかかるもので、多くの動画編集者を悩ませてきた。この作業を簡略化する部分だけでも、ユーザには喜ばれる技術と言える。
更に、ライフログ動画全体としても起承転結が感じられるものであった方がよい。このようなクリップの撮影は容易ではなく、撮影を行った後に編集作業が必要となる場合もある。本実施の形態においては、推論エンジンが入力画像と、お手本となるクリップとの比較によって、入力される連続的な一連の画像(以下、連続画像ともいう)から自動的にライフログ動画に適したクリップを抽出するようになっており、ユーザの通常の撮影行動の過程において、ライフログ動画に適したクリップの自動取得が可能となる。
図1の撮像装置10は、被写体を撮像して得た画像を記録する。撮像装置10としては、デジタルカメラやビデオカメラだけでなく、スマートフォンやタブレット端末に内蔵されるカメラを採用してもよい。撮像装置10は、撮像装置10の各部を制御する制御部11を備えている。制御部11は、CPU(Central Processing Unit)等を用いたプロセッサによって構成されて、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。
撮像装置10の撮像部12は、撮像素子12a及び光学系12bを有している。光学系12bは、ズームやフォーカシングのための図示しないレンズや絞り等を備えている。光学系12bは、これらのレンズを駆動する図示しないズーム(変倍)機構、ピント及び絞り機構を備えている。
撮像素子12aは、CCDやCMOSセンサ等によって構成されており、光学系12bによって被写体光学像が撮像素子12aの撮像面に導かれるようになっている。撮像素子12aは、被写体光学像を光電変換して被写体の撮像画像(撮像信号)を取得する。
制御部11の撮像制御部11aは、光学系12bのズーム機構、ピント機構及び絞り機構を駆動制御して、ズーム、絞り及びピントを調節することができるようになっている。撮像部12は、撮像制御部11aに制御されて撮像を行い、撮像画像(動画像及び静止画像)の撮像信号を制御部11に出力する。
撮像装置10には操作部13が設けられている。操作部13は、図示しないレリーズボタン、ファンクションボタン、撮影モード設定、パラメータ操作等の各種スイッチ、ダイヤル、リング部材等を含み、ユーザ操作に基づく操作信号を制御部11に出力する。制御部11は、操作部13からの操作信号に基づいて、各部を制御するようになっている。
制御部11は、撮像部12からの撮像画像(動画像及び静止画像)を取込む。制御部11の画像処理部11bは、取込んだ撮像画像に対して、所定の信号処理、例えば、色調整処理、マトリックス変換処理、ノイズ除去処理、その他各種の信号処理を行う。
撮像装置10には表示部14が設けられており、制御部11には、表示制御部11dが設けられている。表示部14は、例えば、LCD(液晶表示装置)等の表示画面を有する表示器であり、表示画面は撮像装置10の例えば筐体背面等に設けられる。表示制御部11dは、画像処理部11bによって信号処理された撮像画像を表示部14に表示させるようになっている。また、表示制御部11dは、撮像装置10の各種メニュー表示や警告表示等を表示部14に表示させることもできるようになっている。
また、表示部14の表示画面上には、操作部13として図示しないタッチパネルが設けられていてもよい。タッチパネルは、ユーザが指で指し示した表示画面上の位置に応じた操作信号を発生することができる。この操作信号は、制御部11に供給される。これにより、制御部11は、ユーザがタッチした表示画面上の位置やユーザが表示画面上を指でスライドさせるスライド操作を検出することができ、ユーザ操作に対応した処理を実行することができるようになっている。
撮像装置10には通信部15が設けられており、制御部11には、通信制御部11eが設けられている。通信部15は、通信制御部11eに制御されて、学習装置20との間で情報を送受することができるようになっている。通信部15は、例えば、ブルートゥース(登録商標)等の近距離無線による通信及び例えば、Wi−Fi(登録商標)等の無線LANによる通信が可能である。なお、通信部15は、ブルートゥースやWi−Fiに限らず、各種通信方式での通信を採用することが可能である。通信制御部11eは、通信部15を介して、学習装置20から推論モデル情報を受信することができる。この推論モデル情報は、推論エンジン17のネットワーク17bにより所望の推論モデルを構築するためのものである。
制御部11には記録制御部11cが設けられている。記録制御部11cは、信号処理後の撮像画像を圧縮処理し、圧縮後の画像を記録部16に与えて記録させることができる。記録部16は、所定の記録媒体によって構成されて、制御部11から与えられた情報を記録すると共に、記録されている情報を制御部11に出力することができる。また、記録部16としては、例えばカードインターフェースを採用してもよく、この場合には記録部16はメモリカード等の記録媒体に画像データを記録可能である。
記録部16は、画像データ記録領域16aを有しており、記録制御部11cは、画像データを画像データ記録領域16aに記録するようになっている。また、記録制御部11cは、記録部16に記録されている情報を読み出して再生することも可能である。なお、記録部16の画像データ記録領域16aには、静止画16aa、動画16ab及びタグ情報16acが記録される。
制御部11には、推論エンジン制御部11fが設けられている。推論エンジン制御部11fは、受信された推論モデル情報を推論エンジン17の記憶部17aに与えて推論モデルの設定情報を記憶させる。これにより、記憶部17aに設けられたネットワーク17bによって、学習装置20により生成された推論モデルが構築されるようになっている。推論エンジン制御部11fは、選択部(選択回路)を構成する推論エンジン17を制御する。制御部11は、撮像部12からの撮像画像を推論エンジン17に与えて、ライフログ動画に適したクリップを判定させるようになっている。
制御部11にはクリップ判定部11gが設けられており、クリップ判定部11gは、推論エンジン17の推論結果が与えられて、クリップの開始位置及び終了位置(クリップを構成する動画の始点コマ、終点コマ)を判定して、判定結果を出力する。クリップ判定部11gの判定結果は、記録制御部11cによって記録部16に与えられ、記録部16の画像データ記録領域16a中のタグ情報16acとして記録される。
即ち、記録部16には、静止画又は動画による連続画像が記録されると共に、これらの画像中のクリップの開始位置及び終了位置に相当する画像には、タグ情報16acとしてクリップの開始画像又は終了画像(クリップを構成する動画の始点コマ、終点コマ)であることを示す情報が付加される。なお、タグ情報16acは、撮影日時の情報や撮影時の位置情報等も含む。
また、記録制御部11cは、クリップ判定部11gの判定結果に基づいて、撮影された連続画像からクリップ部分の画像を抽出して、抽出したクリップを画像データ記録領域16aに記録するようになっていてもよい。なお、記録制御部11cは、クリップを集めて構成したライフログ動画の再生及びライフログ動画の画像データの出力が可能である。
次に、推論モデル情報を生成する学習装置20について説明する。
学習装置20には制御部21が設けられている。制御部21は、CPUやFPGA(Field Programmable Gate Array)等を用いたプロセッサによって構成されていてもよく、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。
なお、学習装置20全体が、CPU、GPU、FPGA等を用いたプロセッサによって構成されて、図示しないメモリに記憶されたプログラムに従って動作して学習を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。
学習装置20は、データベース(DB)部30に記録されている画像データを用いて学習を行う。学習装置20は通信部22を有しており、DB部30は通信部32を有している。これらの通信部22,32は、通信部15と同様の構成を有しており、通信部22,32相互間において通信が可能である。
DB部30は、大量の学習用データを記録した画像データ記録領域33を有している。画像データ記録領域33は、ハードディスクやメモリ媒体等の図示しない記録媒体により構成されており、複数の画像を記録する。画像データ記録領域33には、静止画33a、動画33b及びタグ33cが記録される。動画33bとしては膨大な量の動画(動画M1,動画M2,…)及び連続的な静止画が記録される。なお、説明を簡略化するために、以下の説明では、連続的な静止画等の連続画像についても動画として扱うものとする。
学習装置20の制御部21は、通信部22,32を介してDB部30に記録されている画像を取り込むことができる。DB部30としては、インターネット等のクラウド上の画像サーバを採用することができ、ログインやパスワードなど設定などを行ったりして(なくてもよい)、このDB部30に多くのユーザが画像を記録させたり、このDB部30にある画像に、多くのユーザがアクセスできるようにすると、様々な画像をみんなで楽しめるシステムにすることが出来る。ここには、様々な静止画、動画など画像データが記録されており、キーワードや分類、あるいはサムネイルなどを手掛かりに、それらにアクセスするユーザとシェアしたり、それらにアクセスするユーザが選んだ画像を鑑賞したりすることが出来る。ここで記録されている画像は、画像を記録させる人の意図や好みによって、編集されているものや編集されていないものなど雑多なデータが集まっている。編集されているものは、タイトルや字幕や音声なども編集で見栄え良く加工されている場合が多い。前述のように、ストーリー性のある動画や、ライフログ風に日常を印象的に伝える動画なども混在している。また、図示せぬ画像管理部が、自動的に画像を分析して分類してもよく、画像内の人物や風景やその他、そこから読みとれるものを参考に、例えば、「晴天、運動会、子供」といったテキスト情報と紐づけて、DB利用ユーザの画像アクセスを容易にする工夫があってもよい。また、こうしたシーン判定の他、画像に付けられたメタデータやタグ情報を用いてもよい。また、動画は時間的に連続な静止画コマの連続とも考えられるので、その撮影時間や再生にかかる時間情報も、このDB部30の動画からは判定が可能である。動画のシーンの切り替えを判定して、それがどのような種別の動画かを自動判定して、検索しやすくする工夫がなされていてもよい。ライフログ的な画像は、1から数秒のシーンに編集されて、いくつかのクリップが繋がって切り替わるように表示されるものである。また、未編集の動画は、こうしたシーンのテンポ良い切り替わりがない。ハプニング系動画は、シーンは変わらず、撮影されている対象物に変化がある。また、ストーリー性のあるものは、数秒のシーンと長いシーンが混在して編集され、人物が登場する場合、前後のクリップで会話が成立するなど、強いつながりがある。
したがって、学習装置20は、例えば各種動画サイトから様々な種類の膨大な量の画像データを、分類して利用が可能である。もちろん、DB部30の動画にアクセスしながら、アクセスした制御部が、こうした動画の分類を行ってもよい。つまり、画像データは、クリップの長さや前後のクリップの相関性の強さなどによって、いかなる種類の動画かが判定でき、また、タイトル、メタデータ、自動シーン判定、顔検出結果、音声判定などによって、検索が容易になっており、カテゴリーなどを絞り込むことが可能である。さらに、動画にぶれがないかや、露出やピントや構図が良いかの判定を自動で行うことも可能である。また、撮影者、作成者などが関連付けられて記録されているものもあり、こうした情報からデータを絞り込むことも可能である。もちろん、公開されている動画を使っての学習に限らず、撮影者本人が、自分で撮影した、あるいは、撮影されてあった動画を切り貼りして教師データを作って学習させることも可能である。
学習装置20の母集合作成部23は、記録部23bを有しており、DB部30から送信された動画をこの記録部23bに記録する。DB部30の画像データ記録領域33に、クリップの分割位置の情報がタグ33cとして付加されたライフログ動画が蓄積されている場合には、母集合作成部23は、このライフログ動画をDB部30から読み出して、そのまま教師データとして記録部23bに格納する。
また、学習装置20が受信する動画としてライフログ動画以外の動画も含まれる場合には、母集合作成部23は、記録された動画に対する画像認識処理によって、記録された動画をストーリー系動画、ハプニング系動画又はライフログ動画に分類する。
もっとも簡単には、学習装置20は、動画単位(クリップ)を構成するの始点コマ、終点コマまでの時間経過が、特定の時間で切り替わるものが集まった動画(さらには、各クリップにぶれがないかや、露出やピントや構図が良いかの判定をしたり、同じ対象物が狙って写されているかなどを考慮してもよい)をライフログ動画としてもよい。これは、簡潔に各シーンの最も美しく印象的で、動きも効果的なコマを編集、記録したユーザが手間をかけた成果なので、多くの好ましい特徴を備えた教師データとなりうる。
更に、母集合作成部23は、ライフログ動画を自動シーン判定やタイトルや音声情報によってジャンル毎に分割する。そして、母集合作成部23は、ジャンル毎に分割されたライフログ動画をクリップの単位に分割する。このクリップの始点、終点の選定こそが、最も気を使って編集された部分の一つなので、この始点コマから終点コマまでのコマ群の持つ情報は、非常に有力な教師データとなる。このような教師データを用いた推論モデルを搭載することによって、連続的に撮像して得られる複数の連続画像から、時間的に連続した一連の画像により構成されるクリップの始点コマ終点コマを、上記連続画像を構成するコマの特徴から推論によって選択する選択部を有することを特徴とする撮像装置が提供できる。
また、学習装置20は、クリップの始点、終点の特徴を学習する推論モデルの作成に際して、そのクリップが含む内容(色、明るさ、距離、動き、構図など画像分析でわかるシーン、テーマ、対象物等)を併せて関連付ける学習を行うことにより、どのタイプのシーンのクリップであるかを分類判定できる推論モデルを得ることが可能である。このようにシーン分類できる推論モデルを内蔵して利用できる撮像装置にしておけば、連続的に撮像して得られる複数の連続画像を取得する撮像部からの出力である連続画像データの中から特定の条件を満たす一連の画像により構成される1つ以上のクリップを各クリップの特徴ごとに選択する選択部とを具備した装置として構成することが可能で、この時、上記選択部は、上記連続画像を構成するコマの特徴と手本画像群のクリップの始点、終点の特徴とクリップの内容との比較に基づいて上記特定の条件を判定すればよい。
以下、少し具体的に記載する。図2Aから図2Cはそれぞれストーリー系動画、ハプニング系動画又はライフログ動画を説明するための説明図である。図2Aに示すように、ストーリー系動画は、複数のコマP1,P2,…によって各カットC1,C2,…が構成され、複数のカットC1,C2,…によって各シーンT1,T2,…が構成される。また、図2Bに示すように、ハプニング系動画は、複数のコマP1,P2,…によって各シーンT1が構成される。例えば、ハプニング系動画は、十数秒程度のコマによってシーンT1が構成されることが多い。
これに対し、図2Cに示すように、ライフログ動画は、複数のコマP1,P2,…によって各シーンK1,K2,…が構成される。ライフログ動画における各シーンはクリップに相当する。例えば、ライフログ動画におけるクリップは、1〜数秒程度のコマによって1クリップが構成される。
母集合作成部23は、記録部23bに記録された動画に対する画像解析によって、シーンの区切り、カットの区切り等を検出することで、解析対象の動画が図2A〜図2Cのいずれの動画に分類できるかを判定する。母集合作成部23は、ライフログ動画に分類した動画について、各シーン、即ち、クリップの分割位置を判定する。母集合作成部23は、クリップの分割位置の情報を含むライフログ動画を教師データに設定する。
母集合作成部23の記録部23bに、映像製作の専門家が作成したライフログ動画を記録しておくことで、教師データはライフログ動画に適したクリップの分割位置(クリップの単位の動画群の始点コマ、終点コマ、あるいはそこに挟まったコマ群)のお手本となる。なお、上述したように、DB部30の画像データ記録領域33に、クリップの分割位置の情報をタグ33cとして付加されたライフログ動画が蓄積されている場合には、母集合作成部23は、このライフログ動画をDB部30から読み出して、そのまま教師データとして記録部23bに格納すればよい。また、クリップの動画の各コマの情報量が大きい場合、大量の容量のデータとなって機械学習が重く、遅くなるので、始点コマ、終点コマとクリップ動画時間など補足情報だけを教師データにしてもよく、間引きしたりコマの情報量を落として教師データ化してもよい。または、クリップの始点の複数コマ、終点の複数コマを教師データとしてもよい。
学習装置20は、出力設定部24を有している。出力設定部24は、推論の結果得られるべき出力を設定する。本実施の形態においては、出力設定部24は、入力される動画に対して、クリップを抽出するための情報を出力する推論モデルを生成するための設定を行う。
入出力モデル化部25は、大量の教師データを用いて期待される出力が得られるように、ネットワークデザインを決定し、その設定情報である推論モデル情報を生成する。入出力モデル化部25は、推論モデル情報を、通信部22を介して撮像装置10の制御部11に送信する。
図3は、学習装置20による学習及び学習の結果得られる推論モデルを説明するための説明図である。図3に示すように、入出力モデル化部25により、所定のネットワークNW1には入力及び出力に対応する大量の画像が教師データとして与えられる。図3の例では、教師データとして、それぞれ複数のシーンP1,P2,…により構成されるライフログ動画LM1,LM2,…がネットワークNW1に与えられる。ライフログ動画LM1,LM2,…の各シーンP1,P2,…はそれぞれクリップに相当し、教師データは各クリップの分割位置の情報を含んでいる。
大量の教師データによる学習を行うことで、ネットワークNW1は、入力に対応する出力が得られるように、ネットワークデザインが決定される。即ち、図3の例では、動画像が入力されると、お手本となるライフログ動画LM1,LM2のクリップの分割位置に類似する分割位置で動画像を分割するための情報が信頼度の情報と共に得られる。即ち、図3の例では、入力される動画像からライフログ動画に適したクリップを生成するための推論モデルが構築される。また、クリップの分割位置(クリップの始点コマ、終点コマ)の特徴を学習する推論モデルとして、そのクリップが含む内容(色、明るさ、距離、動き、構図など画像分析でわかるシーン、テーマ、対象物等)を併せて関連付ける学習を行うことにより(学習時に、シーン毎の推論モデルを生成できるようにする)、どのタイプのシーンのクリップであるかを分類判定できる推論モデルを得ることが可能である。図3の教師データとなるお手本ライフログ動画を、特定の内容やシーンの動画として、なおかつ、それがどのような内容、シーンであるかを同時に学習させればよい。または、シーン毎の推論モデルを生成し、シーンに応じて、選択的に推論モデルを選べるような構成にしてもよい。こうして得られた推論モデルは、判定したシーンに応じて、取得して入力した連続画像を構成するコマの特徴と、手本画像群のクリップの始点、終点の特徴とクリップの内容との比較に基づいて上記特定の条件を判定すればよい。
この部分の発明性を強調する場合、本願は撮像装置、撮像方法というより、画像編集装置、画像編集方法に関する発明と考えることが出来る。もちろん、シーンによらず、動きの滑らかさや美しさ、自然さは同じ場合もあるので、シーンごとの判定を行う必要が必ずしもあるわけではない。ただし、シーンの特徴も分類可能な推論モデルにしておけば、それが、特定のお手本の何番目のクリップに類似しているかという判定(推論モデルでもロジックベースでも)も可能になるので、起承転結のどの部分に使えるかまで決定できる装置にすることも可能である。また、動画が始まるときの期待感、終わるときの一段落感なども、お手本画像の最初のクリップ、最後のクリップの特徴を、同様に学ばせること(これはお手本のどこに使われるクリップかという情報も含めて学習させる)によって、初心者でも簡単に複数動画クリップの流れまでを考慮しての作品作りが可能となる。もちろん、公開されている動画を使っての学習に限らず、撮影者本人が、自分で撮影した、あるいは、撮影されてあった動画を切り貼りして教師データを作って学習させることも可能である。
なお、深層学習(ディープ・ラーニング)」は、ニューラル・ネットワークを用いた「機械学習」の過程を多層構造化したものである。情報を前から後ろに送って判定を行う「順伝搬型ニューラル・ネットワーク」が代表的なものである。これは、最も単純なものでは、N1個のニューロンで構成される入力層、パラメータで与えられるN2個のニューロンで構成される中間層、判別するクラスの数に対応するN3個のニューロンで構成される出力層の3層があればよい。そして、入力層と中間層、中間層と出力層の各ニューロンはそれぞれが結合加重で結ばれ、中間層と出力層はバイアス値が加えられることで、論理ゲートの形成が容易である。簡単な判別なら3層でもよいが、中間層を多数にすれば、機械学習の過程において複数の特徴量の組み合わせ方を学習することも可能となる。近年では、9層〜152層のものが、学習にかかる時間や判定精度、消費エネルギーの関係から実用的になっている。
機械学習に採用するネットワークN1としては、公知の種々のネットワークを採用してもよい。例えば、CNN(Convolution Neural Network)を利用したR−CNN(Regions with CNN features)やFCN(Fully Convolutional Networks)等を用いてもよい。これは、画像の特徴量を圧縮する、「畳み込み」と呼ばれる処理を伴い、最小限処理で動き、パターン認識に強い。また、より複雑な情報を扱え、順番や順序によって意味合いが変わる情報分析に対応して、情報を双方向に流れる「再帰型ニューラル・ネットワーク」(全結合リカレントニューラルネット)を利用してもよい。
これらの技術の実現のためには、CPUやFPGAといったこれまでの汎用的な演算処理回路などを使ってもよいが、ニューラル・ネットワークの処理の多くが行列の掛け算であることから、行列計算に特化したGPU(Graphic Processing Unit)やTensor Processing Unit(TPU)と呼ばれるものが利用される場合もある。近年ではこうした人工知能(AI)専用ハードの「ニューラル・ネットワーク・プロセッシング・ユニット(NPU)」がCPUなどその他の回路とともに集積して組み込み可能に設計され、処理回路の一部になっている場合もある。
また、深層学習に限らず、公知の各種機械学習の手法を採用して推論モデルを取得してもよい。例えば、サポートベクトルマシン、サポートベクトル回帰という手法もある。ここでの学習は、識別器の重み、フィルター係数、オフセットを算出するもので、他には、ロジスティック回帰処理を利用する手法もある。機械に何かを判定させる場合、人間が機械に判定の仕方を教える必要があり、今回の実施例では、画像の判定を、機械学習により導出する手法を採用したが、そのほか、特定の判断を人間が経験則・ヒューリスティクスによって獲得したルールを適応するルールベースの手法を応用して用いてもよい。
また、母集合作成部23は、ライフログ動画以外の動画から教師データを作成してもよい。図4はこの場合の学習処理を説明するためのフローチャートである。
図4のステップS1において、学習装置20の制御部21は、学習依頼の待機状態である。制御部21は、学習依頼が発生すると、処理をステップS2に移行して、母集合作成部23により、DB部30からジャンルが類似する画像(以下、類似画像という)について動画(連続画像)を受信して取得させる。例えば、母集合作成部23は、「運動会」や「結婚式」等のジャンル、あるいは「子供」、「動物」等のジャンル毎に類似画像を分類してもよい。例えば、母集合作成部23は、動画のタイトルによって類似画像を分類してもよく、また、動画毎に代表画像が生成されている場合には、代表画像の画像解析によって、類似画像を分類してもよい。
母集合作成部23は、次のステップS3において、画像解析によって、動画の各シーンのうち数秒以内のシーンをクリップとして選択する。例えば、母集合作成部23は、動画中の背景の変化がない部分を1シーンと判定してもよい。また、母集合作成部23は、動きがあるクリップについては、その動きがクリップ内で完結するようにクリップを選択するようにしてもよい。また、母集合作成部23は、クリップの先頭画像及び終了画像がそれぞれクリップの先頭又は最後にふさわしい画像であるか否かを画像解析によって判定して、クリップを選択するようにしてもよい。母集合作成部23は、例えば、予め先頭画像及び終了画像としてふさわしいお手本とする画像を記録部23bに記録しておき、お手本の画像とシーン内の画像との比較によって、クリップの先頭画像及び終了画像を決定してもよい。例えば、母集合作成部23は、動画中の動きがある画像部分について、動きが完結するように、1〜8秒程度の時間のクリップを生成する。
次のステップS4において、母集合作成部23は、選択したクリップに対する画像解析によって、起承転結が感じられるようにクリップに順番付を行う。なお、このステップS4の処理は省略してもよい。
次のステップS5において、母集合作成部23は、選択したクリップの動画中の位置及び選択した各クリップの順番の情報を含む教師データを生成する。出力設定部24は、クリップの位置及び順番の情報と信頼度の情報を出力に設定する(ステップS6)。入出力モデル化部25は、設定された入力及び出力に応じて教師データに基づく学習を行う(ステップS7)。なお、教師データとして、クリップの時間を設定することで、規定された時間のクリップを生成するための推論モデルを生成することも可能である。このような推論モデルを用いることで、例えば、長さが3秒間等の規定された時間のクリップを生成することが可能である。また、画像の変化特徴に応じてクリップを抽出するための教師データを用いて推論モデルを構築することも可能である。
入出力モデル化部25は、ステップS8において、生成した推論モデルにより所定の値以上の信頼度が得られるか否かを判定する。所定の値以上の信頼度が得られない場合には、入出力モデル化部25は、次のステップS9において、教師データの再設定等を行って(ステップS9)、所定回数以上に到達したことを判定(ステップS10)した後、所定回数未満である場合には、処理をステップS7に戻して、推論モデル化を繰り返す。
入出力モデル化部25は、ステップS10において、推論モデル化を所定回数以上繰り返したと判定した場合には、処理をステップS11に移行して、有効な推論モデルを構築することが苦手な画像であることを示す苦手画像情報を送信する。
入出力モデル化部25は、ステップS8において、生成した推論モデルにより所定値以上の信頼度が得られると判定した場合には、処理をステップS12に移行して、推論モデル情報を記録すると共に、撮像装置10に対して推論モデル情報を送信する。
次に、このように構成された実施の形態の動作について図5から図8を参照して説明する。図5は撮像装置10の動作を説明するためのフローチャートである。図6はライフログ撮影の準備の様子を示す説明図であり、図7はライフログ撮影に関する画面表示を説明するための説明図である。図8は撮像装置10による撮影の様子を示す説明図である。図9はライブビュー画像を示す説明図であり、図10はクリップを説明するための説明図である。なお、図9及び図10では、紙面の都合上、ライブビュー表示される連続画像のうち特定のコマのみを示している。
本実施の形態における撮像装置10は、図6に示す筐体10a中に図1中の各回路が収納されており、筐体10aの背面に表示部14の表示画面14aが設けられている。ユーザ41は、例えば、左手42で筐体10aを把持して、表示部14の表示画面14aを見ながら被写体を視野範囲に捉えた状態で撮影を行う。筐体10aの上面には、操作部13を構成するレリーズスイッチ43が設けられている。ユーザ41は、ライフログ撮影のための準備操作を行う。あるいは、カメラを向けただけで、ライブビュー中で、そうしたシーンがあれば、自動記録するような仕様でも良いので、図5のステップS26にも、それに対応するステップがある。これによって、後で、図7で説明するような、表示部に表示されたメニュー一覧から動画種別を選択可能で、選択した動画種別によって選ばれたカテゴリーの動画を選んだことによって得られた推論モデルを用いて、選択した動画種別に相応しい動画の始点、終点を推論によって自動決定可能なカメラが提供できる。
図7は表示制御部11dによって表示される表示画面14a上の表示例を示している。図7の上段は撮影時のモードを選択するためのモード選択画面51を示している。モード選択画面51上には、ストーリー系動画の撮影モードを選択するためのボタン表示51a、ライフログ動画の撮影モードを選択するためのボタン表示51b及びハプニング系動画の撮影モードを選択するためのボタン表示51cが表示されている。いま、ユーザ41が右手44で、ライフログ撮影のためのモードを指定するボタン表示51b上の図示しないタッチパネルをタッチ操作するものとする。
そうすると、表示制御部11dは、図7の中段に示すライフログメニュー画面52を表示画面14a上に表示する。ライフログメニュー画面52上には、ライフログメニュー画面であることを示す表示52a、テーマを選択するためのボタン表示52b、クリップ数を設定するためのボタン表示52c、トータル時間を設定するためのボタン表示52d及び1シーンの時間を指定するためのボタン表示52eが表示されている。
ボタン表示52bは、推論エンジン17の推論モデルの学習時の分類に応じた推論モデルを選択するものである。例えば、推論モデルが「運動会」や「結婚式」等のジャンル毎に分類されて作成されて、記憶部17aに各ジャンルの推論モデル情報が記憶されている場合には、ボタン表示52bによって、これらの推論モデルを指定するためのメニューを表示させることが可能である。ボタン表示52cは、1つのライフログ動画を構成するクリップの数を設定するためのものである。また、ボタン表示52dは、1つのライフログ動画のトータル時間を設定するためのものである。また、ボタン表示52eは、1シーンの時間を設定するためのものである。図7の例では、テーマとして「日々の記録」を選択し、1シーンが2秒(s)の5個のクリップによって10秒間のライフログ動画を作成するように指定したことを示している。
前述のように、こうした工夫で、表示されたメニュー一覧から動画種別を選択可能で、選択した動画種別によって選ばれたカテゴリーの動画を選んだ学習による学習モデルを用いて、ユーザが手動選択(音声等、あるいは最初からデフォルトで設定されていてもよい)した動画種別に相応しい動画の始点、終点を推論によって自動決定可能なカメラが提供できる。通信部などで、この指定されたクリップ用の推論モデルを外部に学習依頼すれば、外部機器がそれに連携してデータベースから、要求された仕様の動画を選んで学習する。
本実施の形態においては、ユーザ41は、予めライフログ動画作成のためには、上述した設定のみを行えばよい。なお、図7に示す各設定についても、初期設定として登録されていれば、特にユーザ操作は必要ではない。本実施の形態においては、ユーザ41は、ライフログ動画の作成を考慮した撮影操作を行う必要はなく、通常の静止画撮影や動画撮影のみを行えばよい。即ち、本実施の形態においては、静止画撮影の前に自動的に連続画像を取得する機能や、撮影モードにおいてライブビュー画像の表示のために連続画像を取得する機能や、通常の動画撮影機能において取得される連続画像を用いて、自動的にライフログ動画に適したクリップを取得するものである。
なお、ここでは、わかりやすく、カメラを構成する撮像装置10の背面の表示部で操作を行う例を示したが、当然、別の情報端末等で、こうした操作を行い、カメラに入力する推論モデルの仕様を決めて、依頼するような変形を行ってもよい。したがって、本願には、表示されたメニュー一覧から動画種別を選択可能で、選択した動画種別によって選ばれたカテゴリーの動画を選んだ学習を外部に依頼可能な情報端末、という発明が含まれている。学習結果を指定した撮像部や観察部に入れられるようにすればよく、入力することを想定する装置が有するハードウェアや要求仕様も含めて依頼する。入力する装置は、この情報端末経由の通信で、学習結果を受け取ってもよいし、直接、ネットワークから受け取ってもよい。また、選択した動画種別に相応しい動画の始点、終点を推論によって自動決定可能なカメラという切り口からは、この「選択」の部分が、当該カメラ自身である必要はなく、他の端末で指定された選択によって学習依頼された成果物としての推論モデルを取得するカメラ、という書き方もできる。この場合、他の機器で選択した動画種別に相応しい動画の始点、終点を推論によって自動決定可能な推論モデルを通信によって取得して搭載可能なカメラの発明となる。
いま、撮像装置10の制御部11は、図5のステップS21において、撮影モードが指定されているか否かを判定する。制御部11は、撮影モードが指定されている場合には、ステップS21からステップS22に処理を移行して、撮像部12からの撮像画像を取り込む。制御部11は、撮像部12からの撮像画像を表示部14に与えてライブビュー画像を表示させる。また、制御部11は、図示しないメモリに、取り込んだ撮像画像のうちクリップの長さに相当する所定コマ数以上のコマ(フレーム)を記録する。制御部11は、撮像部12からの撮像画像を推論エンジン17にも与える。
制御部11は、ステップS23において、推論モデルが存在するか否かを判定する。なお、制御部11は、生成するクリップの時間に対応した所定コマ数分の関連辞書(推論モデル)が存在するか否かを判定するようになっていてもよい。制御部11は、推論モデルが存在する場合には、ステップS24において当該推論モデルを指定して推論エンジン17に推論を実行させる。また、制御部11は、推論モデルが存在しない場合には、ライフログ動画生成のための推論を行うことはできないので、処理をステップS27に移行する。
なお、ステップS23,S24では、クリップの長さ及びテーマ(ジャンル)が関連する推論モデルを選択するようにしてもよいと説明したが、長さのみ又はテーマのみが関連する推論モデルを選択するようになっていてもよい。また、記憶部17aに記憶されている推論モデルの種類に応じた選択を行うようにしてもよく、例えば、画像の変化特徴に応じてクリップを抽出する推論モデルや、クリップの開始画像としてふさわしい画像を選択する推論モデルやクリップの終了画像としてふさわしい画像を選択する推論モデル等を選択することも可能である。
いま、ユーザ41が図8に示す撮影を行うものとする。図8の例では、被写体はブロック塀45の上にいる猫46である。ユーザ41は、右手44の人差し指44aでレリーズスイッチ43を押下することで撮影を行う。ユーザ41は、この撮影操作を行う前に、構図等の設定のために、撮像装置10の筐体10aを把持して、表示部14の表示画面14a上のライブビュー画像を見ながら、被写体を視野範囲に捉えた状態を維持する。
図9はこの場合に表示画面14a上に表示されるライブビュー画像を示している。即ち、図9の例は、図8の撮影の様子に示すようにユーザ41がブロック塀45上の猫46の撮影を試みる状態において、時間の経過と共に順次撮像されてライブビュー表示される画像のうちの画像P1〜P10を示している。画像P1は、比較的広い範囲を撮像して得られたものであり、ブロック塀45上の猫46の画像を含む。ユーザ41は、視野範囲内に主に猫のみが撮影されるように、ズーム操作を行うものとする。画像P4以降の画像はこの状態でのライブビュー画像を示している。
これらの連続画像は推論エンジン17に入力され、推論エンジン17はネットワーク17bによる推論によって、クリップとして抽出すべき画像を検出する。この結果、例えば、推論エンジン17が、画像P3以降の所定時間(例えば2秒間)のコマをクリップとして抽出する推論を行うものとする。図10は太枠で囲むことによって、この推論によって1つのクリップとして画像P3から画像P6までの全コマが抽出されたことを示している。推論エンジン17の推論結果は制御部11に供給される。
制御部11は、推論エンジン17からクリップを検出したことを示す推論結果が入力されると、クリップを検出したことを示す表示を表示画面14a上に表示する。
図11はクリップを検出したことを示す表示の表示例を示す説明図である。図11の例では、表示画面14a上には、ライブビュー画像61が表示されている。この表示途中において、クリップの先頭画像が検出されると、表示制御部11dは、「クリップ先頭発見」という表示62をライブビュー画像61に重ねて表示する。なお、表示62としては、「クリップ検出」等の表示を表示してもよい。このような表示によって、ユーザ41は、推論エンジン17によって、クリップが検出されたことを認識することができる。
制御部11は、推論結果に基づいてクリップを記録部16に記録する。即ち、ユーザ41の撮影操作が行われることなく、推論エンジン17によってクリップが抽出されると、制御部11は、推論によって抽出されたクリップにクリップ番号(No.)を付加し、テーマ(分類)に応じてクリップとして指定された画像を記録部16に記録する。例えば、図10の例では、画像P3〜P6が動画16abとして記録されると共に、これらの画像P3〜P6に対応するタグ16acに、クリップの番号(クリップNo.)及び分類が記録される。なお、分類として、画像が先頭画像又は終了画像であることを示す情報を記録してもよい。
次に、制御部11は、ステップS27において、動画撮影又は静止画撮影操作が行われたか否かを判定する。これらの操作が行われた場合には、撮影や記録を行う(ステップS28)。なお、動画撮影時には、動画撮影の終了操作によって、撮像画像がファイル化される。撮影操作が行われていない場合には、制御部11は処理をステップS21に戻す。制御部11は、ステップS28において静止画や動画の記録が行われると、次のステップS29において、カット候補の記録を行う。
図12は図5中のカット候補記録処理の具体的な処理フローの一例を示すフローチャートである。
図5のステップS26におけるクリップの記録は、ライブビュー画像から抽出したクリップを記録する処理である。これに対し、ステップS29の記録は、ユーザの撮影操作等によって既に記録されている動画からクリップを抽出する処理である。なお、ステップS29の記録に際しても、ユーザは作成すべきクリップを選択するための作業を行う必要はない。この工夫によって、ユーザが、動画撮影のタイミングを逃しても、推論エンジンが、ユーザが求める動画に相応しい始点、終点からなる動画クリップを取得可能となり、きわめてストレスなく、AIを駆使した効果的な動画取得が出来る。
図12のステップS41において、制御部11は記録されている動画を読み出して推論エンジン17に与える。例えば、制御部11は、判定対象の先頭コマをシフトしながら所定コマ数の画像を推論エンジン17に与えて、所定コマ数の画像を判定対象とする。
この場合において、制御部11は、ステップS42において、推論エンジン17に与える画像の画質が予め設定されている基準レベル画質を満足するか否かを判定し、満足する画像のみを推論エンジン17に与える。例えば、制御部11は、推論エンジン17に与える各画像のピントが合っているか、前後のコマでブレがないか、画像の傾きが水平になっているか、被写体の動きが明瞭であるか等について判定を行い、基準レベル画質以上の画質の画像のみを推論エンジン17に与える。
制御部11は、ステップS43において、推論モデルが存在するか否かを判定する。この場合には、制御部11は、ステップS41において設定したコマ数に対応した関連辞書(推論モデル)が存在するか否かを判定する。所定コマ数に対応した推論モデルが存在しない場合には、制御部11は、ステップS44に移行して、所定コマ数を変更して処理をステップS41に戻す。制御部11は、この変更に従って、ステップS41からS43の処理を繰り返す。
制御部11は、ステップS43において推論モデルが存在すると判定した場合には、ステップS45において当該推論モデルを指定して推論エンジン17に推論を実行させる。
推論エンジン17は推論結果を制御部11に出力する。制御部11は推論結果の信頼性が所定の基準値よりも高いか否かを判定する。制御部11は信頼性が所定の基準値以下の場合には、判定終了信号が入力されているか否かを判定する(ステップS47)。判定終了信号が入力されていない場合には、制御部11は所定コマ数の全ての関連辞書(推論モデル)を用いた判定が終了しているか否かを判定する(ステップS48)。制御部11は、全関連辞書による判定が終了していないと判定した場合には、処理をステップS41に戻して、他の関連辞書を用いた推論を実行させる。
判定終了信号が入力されている場合、又は全関連辞書の判定が終了している場合には、制御部11は、推論によるクリップ検出は行われなかったものとして処理を図5のステップS21に戻す。
制御部11は、ステップS46において、推論結果の信頼性が所定の基準値よりも高いと判定した場合には、ステップS49においてクリップに関する記録を行う。即ち、制御部11は、推論によって抽出されたクリップの先頭コマに対応するタグ16acに先頭コマのインデックス、クリップ番号(No.)及びテーマ(分類)の情報を付加する。なお、クリップ検出によってタグのみを更新する例を説明したが、制御部11は、クリップ部分の画像を既に記録されている動画とは別に記録するようになっていてもよい。
制御部11は、図5のステップS21において、撮影モードが指定されていないものと判定した場合には、ステップS31において再生モードが指定されているか否かを判定する。再生モードが指定されている場合には、制御部11は、既に記録されている画像を記録部16から読出して、表示部14に与えて一覧表示させる(ステップS32)。制御部10は、次のステップS33において、選択された画像の再生を行い、ステップS34においてカット候補記録を行う。なお、ステップS34のカット候補記録はステップS29と同様の処理であり、再生された動画からライフログ動画に適したクリップが作成される。
制御部11は、ステップS31において再生モードが指定されていないものと判定した場合には、ステップS35において推論モデルの作成依頼が指定されているか否かを判定する。作成依頼が指定されている場合には、制御部11は、次のステップS36において、ライフログ動画の適したクリップ作成を依頼する情報を生成して、学習装置20に学習を依頼する(ステップS37)。
制御部11は、ステップS35において、推論モデルの依頼が指示されていない場合には処理をステップS38に移行して、推論モデルの取得が指示されているか否かを判定する。制御部11は、推論モデルの取得が指示されていない場合には処理をステップS21に戻し、取得が指示されている場合には、次のステップS39において、推論モデル情報を学習装置20から取得して記憶部17aに記録する。
本実施の形態においては、推論エンジン17の推論によって作成したクリップの確認が可能である。図7の下段はこの場合に表示画面14a上に表示されるクリップ確認画面53を示している。クリップ確認画面53上には、クリップ確認画面であることを示す表示53aと作成されたクリップの表示53bとが表示されている。表示53bは各クリップの代表画像を示しており、図7の例では5つのクリップが生成されたことを示している。
ユーザ41が所定のクリップの表示53b上をタッチ操作することで、記録制御部11cにより、当該クリップの再生が可能である。また、表示53bのタッチ操作等により、作成したクリップの削除や、クリップ番号の変更等が可能である。なお、記録制御部11cは、ユーザ操作に基づいて、作成した複数のクリップをクリップ番号順に連結したライフログ動画の再生及びライフログ動画の画像データの出力が可能である。
このように本実施の形態においては、ライフログ動画のお手本となる動画を教師データとする機械学習によって推論モデルを生成し、撮像装置においてこの推論モデルを用いた推論を実行することにより、ユーザが撮影操作を行うことなく、ライブビュー画像や記録された動画等の連続画像から、お手本のライフログ動画に類似したライフログ動画に適したクリップを取得することができる。これにより、ユーザに十分な経験や高い感性がない場合でも、面白いライフログ動画や趣のあるライフログ動画等を簡単に作成することが可能となる。
(第2の実施の形態)
図13及び図14は本発明の第2の実施の形態を示している。第2の実施の形態のハードウェア構成は第1の実施の形態と同様である。図13は学習装置20の学習を説明するためのフローチャートであり、図14は第2の実施の形態におけるカメラ制御を示すフローチャートである。図13及び図14において、それぞれ図4又は図5と同一の手順には同一符号を付して説明を省略する。
第1の実施の形態のカメラ制御を示す図5のステップS24では、所定コマ数の関連辞書を用いてクリップを検出する例を示した。しかし、比較的短い時間のみ記録されるライブビュー画像からクリップを検出する場合には、図12のフローのように複数の関連辞書を切換えながら繰り返し判定を行うことはできない。そこで、本実施の形態においては、1つのクリップ全体として判定を行うのではなく、先ずクリップの先頭画像のみについて判定を行うことで、ライフログ動画に適したクリップの確実な検出を可能にするものである。ライフログ動画の各クリップの先頭画像は人を引きつけるという重要な役割を担っており、先頭画像について確実な判定を行うことで、ライフログ動画の作成により一層適したクリップの抽出が可能となる。なお、同様の理由から、各クリップの終了画像のみについて先ず判定を行うようにしてもよい。
図13はステップS6に代えてステップS17を採用した点が図4と異なる。学習装置20の出力設定部24は、ステップS17において、クリップの位置及び順番の情報と信頼度の情報の外に、先頭コマの適格性の情報を出力に設定する。入出力モデル化部25は、設定された入力及び出力に応じて教師データに基づく学習を行う。この学習により、クリップの先頭画像に適した画像の判定を可能にする推論モデルの構築が可能となる。
図14のステップ21において、撮像装置10の制御部11は、撮影モードが指定されているか否かを判定する。指定されている場合には、制御部11は、次のステップS51において、撮像部12からの撮像画像の画像入力を行う。制御部11は、入力した画像(ライブビュー画像)を推論エンジン17に与える。推論エンジン17は、入力された画像について、クリップの先頭画像としてふさわしい画像であるか否かを推論する(ステップS52)。推論エンジン17は、ライブビュー画像の各コマについての推論結果を制御部11に出力する。
制御部11は、ステップS53において、推論エンジン17の推論結果により入力画像の各コマがクリップの先頭画像にふさわしい画像であるか否かを判定する。先頭画像に相応しくない場合には、制御部11は当該コマをクリップの先頭画像とするクリップの検出処理は不要であるものとして、処理をステップS27に移行する。制御部11は、入力されたコマがクリップ先頭画像に相応しいものであることが推論エンジン17の推論結果によって示されると、処理をステップS54に移行して、クリップの先頭画像を検出したことを示す表示、例えば図11に示す表示62を行う。
制御部11は、ステップS55において、図示しないメモリに取り込んだ撮像画像のうちクリップの長さに相当する所定コマ数以上のコマ(フレーム)を記録する。次のステップS23〜S25の処理は図5と同様である。制御部11は、ステップS56において、クリップに関する記録を行う。本実施の形態においても、ユーザ41の撮影操作が行われることなく、推論エンジン17によってクリップが抽出されると、制御部11は、推論によって抽出されたクリップの先頭画像にインデックスを付加し、クリップにクリップ番号(No.)を付加し、テーマ(分類)に応じてクリップとして指定された画像を記録部16に記録する。
他の作用は図5と同様である。
このように本実施の形態においては、先ずクリップの先頭画像として相応しい画像が入力されたことを推論した後、クリップ全体について推論を行うようになっている。これにより、ライブビュー画像に対する推論であっても、確実にライフログ動画に適したクリップの検出が可能である。この場合、ユーザがうっかり注意散漫であったり、レスポンスが遅れても、好ましい動きの部分を捉え、記録、観察、鑑賞することが出来る。
上記実施の形態においては、撮像のための機器として、デジタルカメラを用いて説明したが、カメラとしては、デジタル一眼レフカメラでもコンパクトデジタルカメラでもよく、ビデオカメラ、ムービーカメラでもよく、さらに、携帯電話やスマートフォンなど携帯情報端末(PDA:Personal Digital Assist)等に内蔵されるカメラでも勿論構わない。また、スマートフォンやPCなど情報端末を想定した動画編集回路、編集装置、編集方法にも応用可能であることはすでに記した。また、静止画をタッチすれば、その前後の動きがわかるような静止画補助用の動画などにも活用が可能である。また、コンシューマ用途のみならず、特定の機械の機構の動きや、医療における臓器や筋肉の変化や、科学分野における細胞の動きや***などの動きを捉えるにも当然活用が出来、解析用、診断用の画像取得や編集にも利用できる。したがって、広い意味での撮像装置、観察装置、解析装置などに利用することが可能である。
本発明は、上記各実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
なお、特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。また、これらの動作フローを構成する各ステップは、発明の本質に影響しない部分については、適宜省略も可能であることは言うまでもない。
なお、ここで説明した技術のうち、主にフローチャートで説明した制御に関しては、プログラムで設定可能であることが多く、記録媒体や記録部に収められる場合もある。この記録媒体、記録部への記録の仕方は、製品出荷時に記録してもよく、配布された記録媒体を利用してもよく、インターネットを介してダウンロードしたものでもよい。
なお、実施例中で、「部」(セクションやユニット)として記載した部分は、専用の回路や、複数の汎用の回路を組み合わせて構成してもよく、必要に応じて、予めプログラムされたソフトウェアに従って動作を行うマイコン、CPUなどのプロセッサ、あるいはFPGAなどシーケンサを組み合わせて構成されてもよい。また、その制御の一部または全部を外部の装置が引き受けるような設計も可能で、この場合、有線や無線の通信回路が介在する。通信は、ブルートゥースやWiFi、電話回線などで行えばよく、USBなどで行っても良い。専用の回路、汎用の回路や制御部を一体としてASICとして構成してもよい。
10…撮像装置、11…制御部、11a…撮像制御部、11b…画像処理部、11c…記録制御部、11d…表示制御部、11e…通信制御部、11f…推論エンジン制御部、11g…クリップ判定部、12…撮像部、12a…撮像素子、12b…光学系、13…操作部、14…表示部、15…通信部、16,23b…記録部、16a…画像データ記録領域、17…推論エンジン、17a…記憶部、17b…ネットワーク、20…学習装置、21…制御部、22…通信部、23…母集合作成部、24…出力設定部、25…入出力モデル化部、30…DB部、32…通信部、33…画像データ記録領域。

Claims (19)

  1. 連続的に撮像して得られる複数の連続画像を取得する撮像部と、
    上記複数の連続画像の中から特定の条件を満たす一連の画像により構成されるクリップの始点コマ終点コマを選択する選択部と、
    を具備し、
    上記選択部は、上記連続画像を構成するコマの特徴から推論によって上記特定の条件を判定する
    ことを特徴とする撮像装置。
  2. 上記選択部は、編集作業済みの動画を教師データとして作られた推論モデルを構成する推論エンジンによって上記特定の条件を判定する
    ことを特徴とする請求項1に記載の撮像装置。
  3. 上記クリップとして選択された画像を、上記クリップとして選択されたことを示すタグを付加して記録する記録制御部
    を更に具備することを特徴とする請求項1に記載の撮像装置。
  4. 上記教師データは、ライフログ動画を用いて作成される
    ことを特徴とする請求項2に記載の撮像装置。
  5. 上記選択部は、上記撮像部により撮像されつつある上記複数の連続画像の中から上記クリップを選択する
    ことを特徴とする請求項1に記載の撮像装置。
  6. 上記選択部は、上記撮像部により撮像されて記録されている上記複数の連続画像の中から上記クリップを選択する
    ことを特徴とする請求項1に記載の撮像装置。
  7. 上記選択部は、上記クリップの先頭画像を選択し、選択された先頭画像を含む所定コマ数の連続画像について、クリップの選択を行う
    ことを特徴とする請求項1に記載の撮像装置。
  8. 上記記録制御部は、上記クリップの先頭画像にインデックスタグを付加する
    ことを特徴とする請求項3に記載の撮像装置。
  9. 上記選択部により上記クリップが選択されると、上記クリップが選択されたことを示す表示を表示する表示制御部
    を更に具備することを特徴とする請求項1に記載の撮像装置。
  10. 上記選択部により上記クリップの先頭画像が選択されると、上記先頭画像が選択されたことを示す表示を表示する表示制御部
    を更に具備することを特徴とする請求項7に記載の撮像装置。
  11. 連続的に撮像して得られる複数の連続画像を取得し、
    上記複数の連続画像の中から特定の条件を満たす一連の画像により構成されるクリップの始点コマ終点コマを選択する手順を具備し、
    上記クリップを選択する手順は、上記連続画像を構成するコマの特徴から推論によって上記特定の条件を判定する
    ことを特徴とする撮像方法。
  12. コンピュータに、
    連続的に撮像して得られる複数の連続画像を取得し、
    上記複数の連続画像の中から特定の条件を満たす一連の画像により構成されるクリップの始点コマ終点コマを選択する手順を実行させるための撮像プログラムであって、
    上記クリップを選択する手順は、上記連続画像を構成するコマの特徴から推論によって上記特定の条件を判定する
    ことを特徴とする撮像プログラム。
  13. 連続的に撮像して得られる複数の連続画像から所定秒数よりも短く1シーンによって構成される一連の画像であるクリップを集めて構成される画像を生成する母集合作成部と、
    上記母集合生成部が生成した画像を記録する記録部と
    を具備することを特徴とする学習装置。
  14. 所定秒数よりも短く1シーンによって構成される一連の画像であるクリップを集めて構成される画像を教師データとして設定する母集合作成部と、
    上記教師データを用いた学習により、入力画像に対して、特定の条件を満たす一連の画像により構成される1つ以上のクリップを選択するための情報を出力する推論モデルを構築する入出力モデル化部と
    を具備することを特徴とする学習装置。
  15. 連続的に撮像して得られる複数の連続画像を取得する撮像部と、
    上記複数の連続画像の中から特定の条件を満たす一連の画像により構成される1つ以上のクリップを選択する選択部と、
    を具備し、
    上記選択部は、上記連続画像と手本画像群との比較に基づいて上記特定の条件を判定する
    ことを特徴とする撮像装置。
  16. 上記選択部により選択されたクリップを自動的に記録する記録制御部
    を更に具備することを特徴とする請求項15に記載の撮像装置。
  17. 複数の動画種別から1つを選択可能にすると共に、選択された動画種別中の複数のカテゴリーから1つを選択可能にするメニュー表示を表示する表示制御部と、
    前記メニュー表示により選択された動画種別中の選択されたカテゴリーの動画についての学習を外部に依頼する制御部と
    を具備することを特徴とする撮像装置。
  18. 複数の動画種別から1つを選択可能にするメニュー表示を表示する表示制御部と、
    前記メニュー表示により選択された動画種別に相応しい動画の始点、終点を推論によって自動決定する推論エンジンと
    を具備することを特徴とする撮像装置。
  19. 連続的に撮像して得られる複数の連続画像を取得する撮像部と、
    上記複数の連続画像の中から特定の条件を満たす一連の画像により構成される1つ以上のクリップを各クリップの特徴毎に選択する選択部と、
    を具備し、
    上記選択部は、上記連続画像を構成するコマの特徴と手本画像群のクリップの始点、終点の特徴とクリップの内容との比較に基づいて上記特定の条件を判定する
    ことを特徴とする撮像装置。
JP2019031648A 2019-02-25 2019-02-25 撮像装置、撮像方法、撮像プログラム及び学習装置 Pending JP2020137050A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019031648A JP2020137050A (ja) 2019-02-25 2019-02-25 撮像装置、撮像方法、撮像プログラム及び学習装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019031648A JP2020137050A (ja) 2019-02-25 2019-02-25 撮像装置、撮像方法、撮像プログラム及び学習装置

Publications (1)

Publication Number Publication Date
JP2020137050A true JP2020137050A (ja) 2020-08-31

Family

ID=72263834

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019031648A Pending JP2020137050A (ja) 2019-02-25 2019-02-25 撮像装置、撮像方法、撮像プログラム及び学習装置

Country Status (1)

Country Link
JP (1) JP2020137050A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102314007B1 (ko) * 2020-12-01 2021-10-15 남상훈 인공지능을 이용한 사용자 맞춤형 강의 제공 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010026981A (ja) * 2008-07-24 2010-02-04 Nippon Hoso Kyokai <Nhk> 特定シーン学習システム及びプログラム
JP2013080989A (ja) * 2011-09-30 2013-05-02 Jvc Kenwood Corp 動画編集装置、動画編集方法およびコンピュータプログラム
JP2014112787A (ja) * 2012-12-05 2014-06-19 Samsung Electronics Co Ltd 動画像処理装置及び動画像処理方法
JP2014183426A (ja) * 2013-03-19 2014-09-29 Canon Inc データ処理装置、その制御方法、プログラム
JP2016019210A (ja) * 2014-07-10 2016-02-01 カシオ計算機株式会社 撮影装置、画像生成方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010026981A (ja) * 2008-07-24 2010-02-04 Nippon Hoso Kyokai <Nhk> 特定シーン学習システム及びプログラム
JP2013080989A (ja) * 2011-09-30 2013-05-02 Jvc Kenwood Corp 動画編集装置、動画編集方法およびコンピュータプログラム
JP2014112787A (ja) * 2012-12-05 2014-06-19 Samsung Electronics Co Ltd 動画像処理装置及び動画像処理方法
JP2014183426A (ja) * 2013-03-19 2014-09-29 Canon Inc データ処理装置、その制御方法、プログラム
JP2016019210A (ja) * 2014-07-10 2016-02-01 カシオ計算機株式会社 撮影装置、画像生成方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102314007B1 (ko) * 2020-12-01 2021-10-15 남상훈 인공지능을 이용한 사용자 맞춤형 강의 제공 시스템

Similar Documents

Publication Publication Date Title
JP6431231B1 (ja) 撮像システム、学習装置、および撮像装置
US10372991B1 (en) Systems and methods that leverage deep learning to selectively store audiovisual content
CN103620682B (zh) 数字视频摄像机***和形成视频摘要的方法
US8212911B2 (en) Imaging apparatus, imaging system, and imaging method displaying recommendation information
JP5877895B2 (ja) 所定の人間を含むビデオサマリー
US20040174434A1 (en) Systems and methods for suggesting meta-information to a camera user
JP2011040876A (ja) カメラ、カメラの制御方法、表示制御装置、および表示制御方法
CN105874780A (zh) 对一组图像生成文本色彩的方法和装置
JP2009141516A (ja) 画像表示装置,カメラ,画像表示方法,プログラム,画像表示システム
Merchant (Re) constructing the tourist experience? Editing experience and mediating memories of learning to dive
Lehmuskallio The camera as a sensor: The visualization of everyday digital photography as simulative, heuristic and layered pictures
JP2020137050A (ja) 撮像装置、撮像方法、撮像プログラム及び学習装置
JP2012058952A (ja) 類似画像検索装置、カメラ、類似画像検索方法、およびプログラム
WO2023149135A1 (ja) 画像処理装置、画像処理方法及びプログラム
JP5032363B2 (ja) 画像表示方法
JP2008078836A (ja) カメラ、ブログ検索システム、プログラム
Adams et al. Situated event bootstrapping and capture guidance for automated home movie authoring
JP6296833B2 (ja) 画像音声処理装置、画像音声処理方法、およびプログラム
JP5368614B2 (ja) 画像検索装置および画像検索方法
JP2022055656A (ja) アシスト装置およびアシスト方法
JP2020194472A (ja) サーバ、表示方法、作成方法、およびプログラム
JP5509287B2 (ja) 再生表示装置、再生表示プログラム、再生表示方法、および画像処理サーバー
WO2022014143A1 (ja) 撮像システム
JP7428143B2 (ja) 撮影装置、撮影方法、及びプログラム
JP7175772B2 (ja) 撮像装置及び撮像方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210714

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220524

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221115