JP2020061761A

JP2020061761A - 画像処理装置、画像処理方法、プログラム

Info

Publication number: JP2020061761A
Application number: JP2019231955A
Authority: JP
Inventors: 英貴門井; Hideki Kadoi
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-12-26
Filing date: 2019-12-23
Publication date: 2020-04-16
Anticipated expiration: 2038-10-29
Also published as: GB201919386D0; JP6799660B2; JP2019118098A; GB2582197A; JP6641447B2; GB2582197B

Abstract

【課題】ユーザが特別な操作を行うことなく、ユーザに好適な映像を取得することが可能な画像処理装置を提供する。【解決手段】撮像手段により撮影された撮影画像に関する教師データを取得する取得手段と、教師データに基づいて、画像を評価するための学習モデルを生成する学習手段と、を有し、学習手段は、ユーザの指示に応じて撮影された記録用の画像に基づく教師データと、ユーザの指示に応じて撮影された記録用の画像に対して連続して撮影された学習用の画像に基づく教師データとを用いて、学習モデルを生成する。【選択図】図９

Description

本発明は、撮像装置における自動撮影技術に関するものである。

カメラ等の撮像装置による静止画・動画撮影においては、ユーザがファインダー等を通して撮影対象を決定し、撮影状況を自ら確認して撮影画像のフレーミングを調整することによって、画像を撮影するのが通常である。このような撮像装置では、ユーザの操作ミスを検知してユーザに通知したり、外部環境の検知を行い、撮影に適していない場合にユーザに通知したりする機能が備えられている。また、撮影に適した状態になるようにカメラを制御する仕組みが従来から存在している。

このようなユーザの操作により撮影を実行する撮像装置に対し、ユーザが撮影指示を与えることなく定期的および継続的に撮影を行うライフログカメラが存在する（特許文献１）。ライフログカメラは、ストラップ等でユーザの身体に装着された状態で用いられ、ユーザが日常生活で目にする光景を一定時間間隔で映像として記録するものである。ライフログカメラによる撮影は、ユーザがシャッターを切るなどの意図したタイミングで撮影するのではなく、一定の時間間隔で撮影を行うため、普段撮影しないような不意な瞬間を映像として残すことができる。

特表２０１６−５３６８６８号公報特開２００４−３５４２５１号公報

しかしながら、ライフログカメラをユーザが身に着けた状態において、定期的に自動撮影を行った場合、ユーザの好みでない映像が取得され、本当に得たい瞬間の映像を取得できない場合があった。

また、ライフログカメラが学習機能を有し、本当に撮影したい瞬間を学習して自動撮影することができたとしても、その学習のためには大量の教師データが必要となる。特許文献２には、ニューラルネットワークを用いて被検物の欠陥の有無を検査する欠陥検査装置において、被検物の人工的な欠陥画像を画像処理により作成して、学習用パターンの不足を補う技術が開示されている。しかし、被検物の種類が限られる欠陥検査とは異なり、ライフログカメラにおいては被写体の種類は無限にあり、画像処理によって学習用パターンの不足を補うことは難しい。

本発明は上述した課題に鑑みてなされたものであり、その目的は、ユーザが特別な操作を行うことなく、ユーザに好適な映像を取得することが可能な画像処理装置を提供することである。

本発明に係わる画像処理装置は、撮像手段により撮影された撮影画像に関する教師データを取得する取得手段と、前記教師データに基づいて、画像を評価するための学習モデルを生成する学習手段と、を有し、前記学習手段は、ユーザの指示に応じて撮影された記録用の画像に基づく教師データと、前記ユーザの指示に応じて撮影された前記記録用の画像に対して連続して撮影された学習用の画像に基づく教師データとを用いて、前記学習モデルを生成することを特徴とする。

また、本発明に係わる画像処理装置は、撮像手段により撮影された撮影画像から教師データを生成する生成手段と、前記生成手段が生成した教師データを、学習モデルを生成する学習手段に送信する通信手段と、を有し、前記生成手段は、ユーザの指示に応じて撮影された記録用の画像から教師データを生成するとともに、前記ユーザの指示に応じて撮影された前記記録用の画像に対して連続して撮影された学習用の画像からも教師データを生成し、前記通信手段は、前記記録用の画像から生成された教師データと、前記学習用の画像から生成された教師データを、前記学習手段に送信することを特徴とする。

本発明によれば、ユーザが特別な操作を行うことなく、ユーザに好適な映像を取得することが可能な画像処理装置を提供することが可能となる。

撮像装置を模式的に示す図である。撮像装置の構成を示す図である。撮像装置と外部機器との構成を示す図である。外部機器の構成を示す図である。撮像装置と外部機器との構成を示す図である。外部機器の構成を示す図である。第１制御回路を説明するフローチャートである。第２制御回路を説明するフローチャートである。撮影モード処理を説明するフローチャートである。ニューラルネットワークを説明する図である。撮影画像内のエリア分割を説明するための図である。学習モード判定を説明するフローチャートである。学習処理を説明するフローチャートである。本実施形態に係る表示処理を説明する図である。

〔第１の実施形態〕
＜撮像装置の構成＞
図１は、第１の実施形態の撮像装置を模式的に示す図である。

図１（ａ）に示す撮像装置１０１は、電源スイッチの操作を行うことができる操作部材（以後、電源ボタンというが、タッチパネルへのタップやフリック、スワイプなどの操作でもよい）などが設けられている。撮像を行う撮影レンズ群や撮像素子を含む筐体である鏡筒１０２は、撮像装置１０１に取り付けられ、鏡筒１０２を固定部１０３に対して回転駆動できる回転機構を設けている。チルト回転ユニット１０４は、鏡筒１０２を図１（ｂ）に示すピッチ方向に回転できるモーター駆動機構であり、パン回転ユニット１０５は、鏡筒１０２をヨー方向に回転できるモーター駆動機構である。よって、鏡筒１０２は、１軸以上の方向に回転可能である。なお、図１（ｂ）は、固定部１０３位置での軸定義である。角速度計１０６と加速度計１０７はともに、撮像装置１０１の固定部１０３に実装されている。そして、角速度計１０６や加速度計１０７に基づいて、撮像装置１０１の振動を検出し、チルト回転ユニットとパン回転ユニットを検出した揺れ角度に基づいて回転駆動する。これにより、可動部である鏡筒１０２の振れを補正したり、傾きを補正したりする構成となっている。

図２は、本実施形態の撮像装置の構成を示すブロック図である。

図２において、第１制御回路２２３は、プロセッサ（例えば、ＣＰＵ、ＧＰＵ、マイクロプロセッサ、ＭＰＵなど）、メモリ（例えば、ＤＲＡＭ、ＳＲＡＭなど）からなる。これらは、各種処理を実行して撮像装置１０１の各ブロックを制御したり、各ブロック間でのデータ転送を制御したりする。不揮発性メモリ（ＥＥＰＲＯＭ）２１６は、電気的に消去・記録可能なメモリであり、第１制御回路２２３の動作用の定数、プログラム等が記憶される。

図２において、ズームユニット２０１は、変倍を行うズームレンズを含む。ズーム駆動制御回路２０２は、ズームユニット２０１を駆動制御する。フォーカスユニット２０３は、ピント調整を行うレンズを含む。フォーカス駆動制御回路２０４は、フォーカスユニット２０３を駆動制御する。

撮像部２０６は、撮像素子とＡ／Ｄ変換器を備え、撮像素子が各レンズ群を通して入射する光を受け、その光量に応じた電荷の情報をアナログ画像データとして画像処理回路２０７に出力する。画像処理回路２０７は複数のＡＬＵ（Arithmetic and Logic Unit）を搭載した演算回路であり、Ａ／Ｄ変換により出力されたデジタル画像データに対して、歪曲補正やホワイトバランス調整や色補間処理等の画像処理を適用し、適用後のデジタル画像データを出力する。画像処理回路２０７から出力されたデジタル画像データは、画像記録回路２０８でＪＰＥＧ形式等の記録用フォーマットに変換し、メモリ２１５や後述する映像出力回路２１７に送信される。

鏡筒回転駆動回路２０５は、チルト回転ユニット１０４、パン回転ユニット１０５を駆動して鏡筒１０２をチルト方向とパン方向に駆動させる。

装置揺れ検出回路２０９は、例えば撮像装置１０１の３軸方向の角速度を検出する角速度計（ジャイロセンサ）１０６や、装置の３軸方向の加速度を検出する加速度計（加速度センサ）１０７が搭載される。装置揺れ検出回路２０９は、検出された信号に基づいて、装置の回転角度や装置のシフト量などが演算される。

音声入力回路２１３は、撮像装置１０１に設けられたマイクから撮像装置１０１周辺の音声信号を取得し、アナログデジタル変換をして音声処理回路２１４に送信する。音声処理回路２１４は、入力されたデジタル音声信号の適正化処理等の音声に関する処理を行う。そして、音声処理回路２１４で処理された音声信号は、第１制御回路２２３によりメモリ２１５に送信される。メモリ２１５は、画像処理回路２０７、音声処理回路２１４により得られた画像信号及び音声信号を一時的に記憶する。

画像処理回路２０７及び音声処理回路２１４は、メモリ２１５に一時的に記憶された画像信号や音声信号を読み出して画像信号の符号化、音声信号の符号化などを行い、圧縮画像信号、圧縮音声信号を生成する。第１制御回路２２３は、これらの圧縮画像信号、圧縮音声信号を、記録再生回路２２０に送信する。

記録再生回路２２０は、記録媒体２２１に対して画像処理回路２０７及び音声処理回路２１４で生成された圧縮画像信号、圧縮音声信号、その他撮影に関する制御データ等を記録する。また、音声信号を圧縮符号化しない場合には、第１制御回路２２３は、音声処理回路２１４により生成された音声信号と画像処理回路２０７により生成された圧縮画像信号とを、記録再生回路２２０に送信し記録媒体２２１に記録させる。

記録媒体２２１は、撮像装置１０１に内蔵された記録媒体でも、取外し可能な記録媒体でもよい。記録媒体２２１は、撮像装置１０１で生成した圧縮画像信号、圧縮音声信号、音声信号などの各種データを記録することができ、不揮発性メモリ２１６よりも大容量な媒体が一般的に使用される。例えば、記録媒体２２１は、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−Ｒ、ＤＶＤ−Ｒ、磁気テープ、不揮発性の半導体メモリ、フラッシュメモリ、などのあらゆる方式の記録媒体を含む。

記録再生回路２２０は、記録媒体２２１に記録された圧縮画像信号、圧縮音声信号、音声信号、各種データ、プログラムを読み出す（再生する）。そして読み出した圧縮画像信号、圧縮音声信号を、第１制御回路２２３は画像処理回路２０７及び音声処理回路２１４に送信する。画像処理回路２０７及び音声処理回路２１４は、圧縮画像信号、圧縮音声信号を一時的にメモリ２１５に記憶させ、所定の手順で復号し、復号した信号を映像出力回路２１７、音声出力回路２１８に送信する。

音声入力回路２１３は複数のマイクが撮像装置１０１に搭載されており、音声処理回路２１４は複数のマイクが設置された平面上の音の方向を検出することができ、後述する探索や自動撮影に用いられる。さらに、音声処理回路２１４では、特定の音声コマンドを検出する。音声コマンドは事前に登録されたいくつかのコマンドの他、ユーザが特定音声を撮像装置に登録できる構成にしてもよい。また、音シーン認識も行う。音シーン認識では、予め大量の音声データを基に機械学習により学習させたネットワークにより音シーン判定を行う。例えば、「歓声が上がっている」、「拍手している」、「声を発している」などの特定シーンを検出するためのネットワークが音声処理回路２１４に設定されている。そして、特定音シーンや特定音声コマンドを検出すると、第１制御回路２２３や第２制御回路２１１に、検出トリガー信号を出力する構成になっている。

撮像装置１０１のメインシステム全体を制御する第１制御回路２２３とは別に設けられた、第２制御回路２１１が第１制御回路２２３の供給電力を制御する。

第１電源回路２１０と第２電源回路２１２は、第１制御回路２２３と第２制御回路２１１を動作させるための、電力をそれぞれ供給する。撮像装置１０１に設けられた電源ボタンの押下により、まず第１制御回路２２３と第２制御回路２１１の両方に電力が供給されるが、後述するように、第１制御回路２２３は、第１電源回路２１０へ自らの電力供給をＯＦＦするように制御する。第１制御回路２２３が動作していない間も、第２制御回路２１１は動作しており、装置揺れ検出回路２０９や音声処理回路２１４からの情報が入力される。第２制御回路は各種入力情報を基にして、第１制御回路２２３を起動するか否かの判定処理を行い、起動判定されると第１電源回路に電力供給指示をする構成になっている。

音声出力回路２１８は、例えば撮影時などに撮像装置１０１に内蔵されたスピーカーから予め設定された音声パターンを出力する。

ＬＥＤ制御回路２２４は、例えば撮影時などに撮像装置１０１に設けられたＬＥＤを予め設定された点灯点滅パターンで制御する。

映像出力回路２１７は、例えば映像出力端子からなり、接続された外部ディスプレイ等に映像を表示させるために画像信号を送信する。また、音声出力回路２１８、映像出力回路２１７は、結合された１つの端子、例えばＨＤＭＩ（登録商標）（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）端子のような端子であってもよい。

通信回路２２２は、撮像装置１０１と外部装置との間で通信を行うもので、例えば、音声信号、画像信号、圧縮音声信号、圧縮画像信号などのデータを送信したり受信したりする。また、撮影開始や終了コマンド、パン・チルトやズーム駆動等の、撮影にかかわる制御信号を受信して、撮像装置１０１と相互通信可能な外部機器の指示から撮像装置１０１を駆動する。また、撮像装置１０１と外部装置との間で、後述する学習処理回路２１９で処理される学習にかかわる各種パラメータなどの情報を送信したり受信したりする。通信回路２２２は、例えば、赤外線通信モジュール、Ｂｌｕｅｔｏｏｔｈ（登録商標）通信モジュール、無線ＬＡＮ通信モジュール、ＷｉｒｅｌｅｓｓＵＳＢ、ＧＰＳ受信機等の無線通信モジュールである。

＜外部通信機器との構成＞
図３は、撮像装置１０１と外部装置３０１との無線通信システムの構成例を示す図である。撮像装置１０１は撮影機能を有するデジタルカメラであり、外部装置３０１はＢｌｕｅｔｏｏｔｈ通信モジュール、無線ＬＡＮ通信モジュールを含むスマートデバイスである。

撮像装置１０１とスマートデバイス３０１は、例えばＩＥＥＥ８０２．１１規格シリーズに準拠した無線ＬＡＮによる通信３０２と、例えばＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙ（以下、「ＢＬＥ」と呼ぶ。）などの、制御局と従属局などの主従関係を有する通信３０３とによって通信可能である。なお、無線ＬＡＮ及びＢＬＥは通信手法の一例であり、各通信装置は、２つ以上の通信機能を有し、例えば制御局と従属局との関係の中で通信を行う一方の通信機能によって、他方の通信機能の制御を行うことが可能であれば、他の通信手法が用いられてもよい。ただし、一般性を失うことなく、無線ＬＡＮなどの第１の通信は、ＢＬＥなどの第２の通信より高速な通信が可能であり、また、第２の通信は、第１の通信よりも消費電力が少ないか通信可能距離が短いかの少なくともいずれかであるものとする。

スマートデバイス３０１の構成を、図４を用いて説明する。

スマートデバイス３０１は、例えば、無線ＬＡＮ用の無線ＬＡＮ制御回路４０１、及び、ＢＬＥ用のＢＬＥ制御回路４０２に加え、公衆無線通信用の公衆回線制御回路４０６を有する。また、スマートデバイス３０１は、パケット送受信回路４０３をさらに有する。無線ＬＡＮ制御回路４０１は、無線ＬＡＮのＲＦ制御、通信処理、ＩＥＥＥ８０２．１１規格シリーズに準拠した無線ＬＡＮによる通信の各種制御を行うドライバや無線ＬＡＮによる通信に関するプロトコル処理を行う。ＢＬＥ制御回路４０２は、ＢＬＥのＲＦ制御、通信処理、ＢＬＥによる通信の各種制御を行うドライバやＢＬＥによる通信に関するプロトコル処理を行う。公衆回線制御回路４０６は、公衆無線通信のＲＦ制御、通信処理、公衆無線通信の各種制御を行うドライバや公衆無線通信関連のプロトコル処理を行う。公衆無線通信は例えばＩＭＴ（ＩｎｔｅｒｎａｔｉｏｎａｌＭｕｌｔｉｍｅｄｉａＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ）規格やＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）規格などに準拠したものである。パケット送受信回路４０３は、無線ＬＡＮ並びにＢＬＥによる通信及び公衆無線通信に関するパケットの送信と受信との少なくともいずれかを実行するための処理を行う。なお、本例では、スマートデバイス３０１は、通信においてパケットの送信と受信との少なくともいずれかを行うものとして説明するが、パケット交換以外に、例えば回線交換など、他の通信形式が用いられてもよい。

スマートデバイス３０１は、例えば、制御回路４１１、記憶回路４０４、ＧＰＳ受信部４０５、表示装置４０７、操作部材４０８、音声入力音声処理回路４０９、電源回路４１０をさらに有する。制御回路４１１は、例えば、記憶回路４０４に記憶される制御プログラムを実行することにより、スマートデバイス３０１全体を制御する。記憶回路４０４は、例えば制御回路４１１が実行する制御プログラムと、通信に必要なパラメータ等の各種情報とを記憶する。後述する各種動作は、記憶回路４０４に記憶された制御プログラムを制御回路４１１が実行することにより、実現される。

電源回路４１０はスマートデバイス３０１に電力を供給する。表示装置４０７は、例えば、ＬＣＤやＬＥＤのように視覚で認知可能な情報の出力、又はスピーカー等の音出力が可能な機能を有し、各種情報の表示を行う。操作部材４０８は、例えばユーザによるスマートデバイス３０１の操作を受け付けるボタン等である。なお、表示装置４０７及び操作部材４０８は、例えばタッチパネルなどの共通する部材によって構成されてもよい。

音声入力音声処理回路４０９は、例えばスマートデバイス３０１に内蔵された汎用的なマイクから、ユーザが発した音声を取得し、音声認識処理により、ユーザの操作命令を取得する構成にしてもよい。

また、スマートデバイス内の専用のアプリケーションを介して、ユーザの発音により音声コマンドを取得する。そして、無線ＬＡＮによる通信３０２を介して、撮像装置１０１の音声処理回路２１４に特定音声コマンド認識させるための特定音声コマンドとして登録することもできる。

ＧＰＳ（Ｇｌｏｂａｌｐｏｓｉｔｉｏｎｉｎｇｓｙｓｔｅｍ）４０５は、衛星から通知されるＧＰＳ信号を受信し、ＧＰＳ信号を解析し、スマートデバイス３０１の現在位置（経度・緯度情報）を推定する。もしくは、位置推定は、ＷＰＳ（Ｗｉ−ＦｉＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）等を利用して、周囲に存在する無線ネットワークの情報に基づいて、スマートデバイス３０１の現在位置を推定するようにしてもよい。取得した現在のＧＰＳ位置情報が予め事前に設定されている位置範囲（所定半径の範囲以内）に位置している場合に、ＢＬＥ制御回路４０２を介して撮像装置１０１へ移動情報を通知し、後述する自動撮影や自動編集のためのパラメータとして使用する。また、ＧＰＳ位置情報に所定以上の位置変化があった場合に、ＢＬＥ制御回路４０２を介して撮像装置１０１へ移動情報を通知し、後述する自動撮影や自動編集のためのパラメータとして使用する。

上記のように撮像装置１０１とスマートデバイス３０１は、無線ＬＡＮ制御回路４０１、及び、ＢＬＥ制御回路４０２を用いた通信により、撮像装置１０１とデータのやりとりを行う。例えば、音声信号、画像信号、圧縮音声信号、圧縮画像信号などのデータを送信したり受信したりする。また、スマートデバイスから撮像装置１０１の撮影などの操作指示であったり、音声コマンド登録データ送信や、ＧＰＳ位置情報に基づいた所定位置検出通知や場所移動通知を行う。また、スマートデバイス内の専用のアプリケーションを介しての学習用データの送受信も行う。

＜アクセサリ類の構成＞
図５は、撮像装置１０１と通信可能である外部装置５０１との構成例を示す図である。撮像装置１０１は撮影機能を有するデジタルカメラであり、外部装置５０１は、例えばＢｌｕｅｔｏｏｔｈ通信モジュールなどにより撮像装置１０１と通信可能である各種センシング部を含むウエアラブルデバイスである。

ウエアラブルデバイス５０１において、例えばユーザの腕などに装着できるような構成なっており、所定の周期でユーザの脈拍、心拍、血流等の生体情報を検出するセンサやユーザの運動状態を検出できる加速度センサ等が搭載されている。

生体情報検出回路５０２は、例えば、脈拍を検出する脈拍センサ、心拍を検出する心拍センサ、血流を検出する血流センサ、導電性高分子による皮膚の接触によって電位の変化を検出したことを検知するセンサを含む。本実施形態では、生体情報検出回路５０２として心拍センサを用いて説明する。心拍センサは、例えばＬＥＤ等を用いて皮膚に赤外光を照射し、体組織を透過した赤外光を受光センサで検出して信号処理することによりユーザの心拍を検出する。生体情報検出回路５０２は、検出した生体情報を信号として、後述する制御回路６０７へ出力する。

ユーザの運動状態を検出する揺れ検出回路５０３は、例えば、加速度センサやジャイロセンサを搭載しており、加速度の情報に基づきユーザが移動しているかどうかや、腕を振り回してアクションをしているかどうかなどのモーションを検出することができる。

また、ユーザによるウエアラブルデバイス５０１の操作を受け付ける操作部材５０５や、ＬＣＤやＬＥＤのように視覚で認知可能な情報を出力する表示装置５０４が搭載される。

ウエアラブルデバイス５０１の構成を、図６を用いて説明する。

ウエアラブルデバイス５０１は、例えば、制御回路６０７、通信回路６０１、生体情報検出回路５０２、揺れ検出回路５０３、表示装置５０４、操作部材５０５、電源回路６０６、記憶回路６０８を有する。

制御回路６０７は、例えば、記憶回路６０８に記憶される制御プログラムを実行することにより、ウエアラブルデバイス５０１全体を制御する。記憶回路６０８は、例えば制御回路６０７が実行する制御プログラムと、通信に必要なパラメータ等の各種情報とを記憶する。後述する各種動作は、例えば記憶回路６０８に記憶された制御プログラムを制御回路６０７が実行することにより、実現される。

電源回路６０６はウエアラブルデバイス５０１に電力を供給する。表示装置５０４は、例えば、ＬＣＤやＬＥＤのように視覚で認知可能な情報の出力、又はスピーカー等の音出力が可能な機能を有し、各種情報の表示を行う。操作部材５０５は、例えばユーザによるウエアラブルデバイス５０１の操作を受け付けるボタン等である。なお、表示装置５０４及び操作部材５０５は、例えばタッチパネルなどの共通する部材によって構成されてもよい。

また、操作部材は、例えばウエアラブルデバイス５０１に内蔵された汎用的なマイクから、ユーザが発した音声を取得し、音声処理によりユーザが発した音声を取得し、音声認識処理により、ユーザの操作命令を取得する構成にしてもよい。

生体情報検出回路５０２や揺れ検出回路５０３から制御回路６０７で処理された各種検出情報は、通信回路６０１により、撮像装置１０１へ送信される。

例えば、ユーザの心拍の変化を検出したタイミングで検出情報を撮像装置１０１に送信したり、歩行移動／走行移動／立ち止まりなどの移動状態の変化のタイミングで検出情報を送信したりする。また、例えば、予め設定された腕ふりのモーションを検出したタイミングで検出情報を送信したり、予め設定された距離の移動を検出したタイミングで検出情報を送信したりする。

＜撮像動作のシーケンス＞
図７は、本実施形態における撮像装置１０１の第１制御回路２２３が受け持つ動作の例を説明するフローチャートである。

ユーザが撮像装置１０１に設けられた電源ボタンを操作すると、第１電源回路２１０により電力供給部から、第１制御回路２２３及び撮像装置１０１の各ブロックに電力を供給させる。

また、同様に第２制御回路２１１においても第２電源回路２１２により電力供給部から、第２制御回路に電力を供給させるが、第２制御回路の動作の詳細については後述する図８のフローチャートを用いて説明する。

電力が供給されると、図７の処理がスタートする。ステップＳ７０１（以下では、「ステップ」を単に「Ｓ」と省略する）では、起動条件の読み込みが行われる。本実施形態においては、起動条件は以下である。
（１）電源ボタンが手動で押下されて電源起動
（２）外部機器（例えば３０１）からの外部通信（例えばＢＬＥ通信）による指示で電源起動
（３）Ｓｕｂプロセッサ（第２制御回路２１１）から、電源起動
ここで、（３）のＳｕｂプロセッサから電源起動の場合は、Ｓｕｂプロセッサ内で演算された起動条件が読み込まれることになるが、詳細は後述する図８で説明する。

また、ここで読み込まれた起動条件は、被写体探索や自動撮影時の１つのパラメータ要素として用いられるが、後述して説明する。起動条件読み込みが終了するとＳ７０２に進む。

Ｓ７０２では、各種センサの読み込みが行われる。ここで読み込まれるセンサは、装置揺れ検出回路２０９からのジャイロセンサや加速度センサなどの振動検出するセンサであったりする。また、チルト回転ユニット１０４やパン回転ユニット１０５の回転位置であったりする。また、音声処理回路２１４にて検出される音声レベルや特定音声認識の検出トリガーや音方向検出だったりする。

また、図１乃至図６には図示していないが、環境情報を検出するセンサでも情報を取得する。

例えば、所定の周期で撮像装置１０１の周辺の温度を検出する温度センサや、撮像装置１０１の周辺の気圧の変化を検出する気圧センサがある。また、撮像装置１０１の周辺の明るさを検出する照度センサや、撮像装置１０１の周辺の湿度を検出する湿度センサや、撮像装置１０１の周辺の紫外線量を検出するＵＶセンサ等を備えてもよい。検出した温度情報や気圧情報や明るさ情報や湿度情報やＵＶ情報に加え、検出した各種情報から所定時間間隔での変化率を算出した温度変化量や気圧変化量や明るさ変化量や湿度変化量や紫外線変化量などを後述する自動撮影などの判定に使用する。

Ｓ７０２で各種センサ読み込みが行われるとＳ７０３に進む。

Ｓ７０３では、外部機器からの通信が指示されているかを検出し、通信指示があった場合、外部機器との通信を行う。

例えば、スマートデバイス３０１から、無線ＬＡＮやＢＬＥを介した、リモート操作であったり、音声信号、画像信号、圧縮音声信号、圧縮画像信号などのデータを送信したり受信したりする。また、スマートデバイス３０１からの撮像装置１０１の撮影などの操作指示や、音声コマンド登録データ送信や、ＧＰＳ位置情報に基づいた所定位置検出通知や場所移動通知や学習用データの送受信の指示があるかどうかの読み込みを行う。

また、例えば、ウエアラブルデバイス５０１から、ユーザの運動情報、腕のアクション情報、心拍などの生体情報の更新がある場合、ＢＬＥを介した情報の読み込みを行う。また、上述した環境情報を検出する各種センサは、撮像装置１０１に搭載してもよいが、スマートデバイス３０１或いはウエアラブルデバイス５０１に搭載していてもよく、その場合、ＢＬＥを介した環境情報の読み込みも行う。Ｓ７０３で外部機器からの通信読み込みが行われると、Ｓ７０４に進む。

Ｓ７０４では、モード設定判定が行われる。Ｓ７０４で設定されるモードは、以下の内から判定され選ばれる。

（１）自動撮影モード
［モード判定条件］
後述する学習により設定された各検出情報（画像、音、時間、振動、場所、身体の変化、環境変化）や、自動撮影モードに移行してからの経過時間や、過去の撮影情報などから、自動撮影を行うべきと判定されると、自動撮影モードに設定される。

［モード内処理］
自動撮影モード処理（Ｓ７１０）では、各検出情報（画像、音、時間、振動、場所、体の変化、環境変化）に基づいて、パン・チルトやズームを駆動して被写体を自動探索する。そして、ユーザの好みの撮影が行えるタイミングであると判定されると、静止画一枚撮影、静止画連続撮影、動画撮影、パノラマ撮影、タイムラプス撮影など様々な撮影方法の中から、撮影方法の判定処理が行われ、自動で撮影が行われる。

（２）学習モード
［モード判定条件］
前回学習処理を行ってからの経過時間と、学習に使用することのできる画像に対応付けられた情報や学習データの数などから、自動学習を行うべきと判定されると、自動学習モードに設定される。または、スマートデバイス３０１からの通信を介して学習データが設定されるように指示があった場合も本モードに設定される。

［モード内処理］
自動学習モード処理（Ｓ７１２）では、ユーザの好みに合わせた学習を行う。スマートデバイス３０１での各操作、スマートデバイス３０１からの学習情報通知などの情報を基にニューラルネットワークを用いて、ユーザの好みに合わせた学習が行われる。スマートデバイス３０１での各操作の情報としては、例えば、撮像装置からの画像取得情報、専用アプリケーションを介して手動による編集指示がされた情報、撮像装置内の画像に対してユーザが入力した判定値情報がある。

なお、自動撮影モード処理、学習モード処理についての詳細は、後述する。

Ｓ７０５ではＳ７０４でモード設定判定が低消費電力モードに設定されているかどうかを判定する。低消費電力モード判定は、後述する「自動撮影モード」と「学習モード」の何れのモードの判定条件でもない場合は、低消費電力モードになるように判定される。判定処理が行われるとＳ７０５に進む。

Ｓ７０５では、低消費電力モード条件であると判定されれば、Ｓ７０６に進む。

Ｓ７０６では、Ｓｕｂプロセッサ（第２制御回路２１１）へ、Ｓｕｂプロセッサ内で判定する起動要因に係る各種パラメータを（揺れ検出判定用パラメータ、音検出用パラメータ、時間経過検出パラメータ）を通知する。各種パラメータは後述する学習処理にて、学習されることによって値が変化する。Ｓ７０６の処理を終了すると、Ｓ７０７に進み、Ｍａｉｎプロセッサ（第１制御回路２２３）の電源をＯＦＦして、処理を終了する。

一方、Ｓ７０５で低消費電力モードでないと判定されると、Ｓ７０９に進み、モード設定が自動撮影モードであるか否かを判定し、自動撮影モードであればＳ７１０に進み、自動撮影モード処理が行われる。処理が終了すると、Ｓ７０２に戻り、処理を繰り返す。Ｓ７０９で、自動撮影モードでないと判定されると、Ｓ７１１に進む。

Ｓ７１１では、モード設定が学習モードであるか否かを判定し、学習モードであればＳ７１２に進み、学習モード処理が行われる。処理が終了すると、Ｓ７０２に戻り、処理を繰り返す。Ｓ７１１で、学習モードでないと判定されると、Ｓ７０２に戻り、処理を繰り返す。

図８は、本実施形態における撮像装置１０１の第２制御回路２１１が受け持つ動作の例を説明するフローチャートである。

ユーザが撮像装置１０１に設けられた電源ボタンを操作すると、第１電源回路２１０により電力供給部から第１制御回路２２３へ電力が供給されるのと同様に第２制御回路２１１においても第２電源回路２１２により電力供給部から第２制御回路２１１に電力が供給される。電力が供給されると、Ｓｕｂプロセッサ（第２制御回路２１１）が起動され、図８の処理がスタートする。

Ｓ８０１では、サンプリングの周期となる所定期間が経過したか否かを判定する。例えば１０ｍｓｅｃに設定された場合、１０ｍｓｅｃ周期で、Ｓ８０２に進む。所定期間が経過していないと判定されると、Ｓｕｂプロセッサは何も処理をせずにＳ８０１に戻って所定期間が経過するのを待つ。

Ｓ８０２では、揺れ検出値が取得される。揺れ検出値は、装置揺れ検出回路２０９からのジャイロセンサや加速度センサなどの振動検出するセンサからの出力値である。

Ｓ８０２で揺れ検出値が取得されると、Ｓ８０３に進み、予め設定された揺れ状態検出の処理を行う。いくつかの例を説明する。

（１）タップ検出
ユーザが撮像装置１０１を例えば指先などで叩いた状態（タップ状態）を、撮像装置１０１に取り付けられた加速度センサの出力値より検出することが可能である。３軸の加速度センサの出力を所定サンプリング周期で特定の周波数領域に設定したバンドパスフィルタ（ＢＰＦ）に通すことで、タップによる加速度変化の信号領域を抽出することができる。ＢＰＦ後の加速度信号を所定時間ＴｉｍｅＡ間に、所定閾値ＴｈｒｅｓｈＡを超えた回数が、所定回数ＣｏｕｎｔＡであるか否かにより、タップ検出を行う。ダブルタップの場合は、ＣｏｕｎｔＡは２に設定され、トリプルタップの場合は、ＣｏｕｎｔＡは３に設定される。

（２）揺れ状態の検出
撮像装置１０１の揺れ状態を、撮像装置１０１に取り付けられたジャイロセンサや加速度センサの出力値より検出することが可能である。ジャイロセンサや加速度センサの出力をＨＰＦで高周波成分をカットし、ＬＰＦで低周波成分をカットした後、絶対値変換を行う。算出した絶対値が所定時間ＴｉｍｅＢ間に、所定閾値ＴｈｒｅｓｈＢを超えた回数が、所定回数ＣｏｕｎｔＢ以上であるか否かにより、振動検出を行う。例えば撮像装置１０１を机などに置いたような揺れが小さい状態か、ウエアラブルで撮像装置１０１を装着し歩いているような揺れが大きい状態かを判定することが可能である。また、判定閾値や判定のカウント数の条件を複数もつことで、揺れレベルに応じた細かい揺れ状態を検出することも可能である。

Ｓ８０３で特定揺れ状態検出処理が行われると、Ｓ８０４に進み、予め設定された特定音検出処理を行う。いくつかの例を説明する。

（１）特定音声コマンド検出
特定の音声コマンドを検出する。音声コマンドは事前に登録されたいくつかのコマンドの他、ユーザが特定音声を撮像装置に登録できる。

（２）特定音シーン認識
予め大量の音声データを基に機械学習により学習させたネットワークにより音シーン判定を行う。例えば、「歓声が上がっている」、「拍手している」、「声を発している」などの特定シーンを検出する。

（３）音レベル判定
所定時間の間で、音レベルの大きさがレベル所定値を超えている時間を加算するなどの方法によって、音レベル判定による検出を行う。

（４）音方向判定
複数のマイクが設置された平面上の音の方向を検出することができ、所定の大きさの音レベルに対して、音の方向を検出する。

音声処理回路２１４内で上記の判定処理が行われており、特定音検出がされたかをＳ８０４で判定する。

Ｓ８０４で特定音検出処理が行われると、Ｓ８０５に進む。Ｓ８０５では、Ｍａｉｎプロセッサ（第１制御回路２２３）はＯＦＦ状態であるか否かを判定し、ＭａｉｎプロセッサがＯＦＦ状態であれば、Ｓ８０６に進み、予め設定された時間経過検出処理を行う。ＭａｉｎプロセッサがＯＮからＯＦＦへ遷移したときからの経過時間が計測されており、経過時間がパラメータＴｉｍｅＣ以上であれば、時間経過と判定され、ＴｉｍｅＣより小さければ、時間経過とは判定されない。

Ｓ８０６で時間経過検出処理が行われると、Ｓ８０７に進み、低消費電力モード解除判定がされたかを判定する。低消費電力モード解除条件は以下によって判定される。
（１）特定揺れ検出の判定条件
（２）特定音検出の判定条件
（３）時間経過判定の判定条件
それぞれ、Ｓ８０３での特定揺れ状態検出処理により、特定揺れ検出の判定条件に入ったか否かを判定できる。また、Ｓ８０４での特定音検出処理により、特定音検出の判定条件に入ったか否かを判定できる。また、Ｓ８０６での時間経過検出処理により、時間経過検出の判定条件に入ったか否かを判定できる。したがって、何れか一つ以上の条件に入っていれば、低消費電力モード解除を行うような判定が行われる。

Ｓ８０７で解除条件判定されると、Ｓ８０８に進みＭａｉｎプロセッサの電源をＯＮし、Ｓ８０９で、低消費電力モード解除と判定された条件（揺れ、音、時間）をＭａｉｎプロセッサに通知し、Ｓ８０１に戻り処理をループする。

Ｓ８０７で何れの解除条件にも当てはまらず、低消費電力モード解除判定でないと判定されると、Ｓ８０１に戻り処理をループする。

Ｓ８０５で、ＭａｉｎプロセッサがＯＮ状態であると判定されている場合、Ｓ８０２乃至８０５までで取得した情報をＭａｉｎプロセッサに通知し、Ｓ８０１に戻り処理をループする。

本実施形態においては、ＭａｉｎプロセッサがＯＮ状態においても揺れ検出や特定音検出をＳｕｂプロセッサで行い、検出結果をＭａｉｎプロセッサに通知する構成にしている。しかしながら、ＭａｉｎプロセッサがＯＮの場合は、Ｓ８０２乃至８０５の処理を行わず、Ｍａｉｎプロセッサ内の処理（図７のＳ７０２）で揺れ検出や特定音検出を検出する構成にしてもよい。

上記、揺れ検出や音検出や時間経過による低消費電力モード解除方法について詳しく説明したが、環境情報により低消費電力モード解除を行ってもよい。環境情報は温度や気圧や明るさや湿度や紫外線量の絶対量や変化量が所定閾値を超えたか否かで判定することができる。

＜自動撮影モード処理＞
図９を用いて、自動撮影モード処理の詳細を説明する。前述したように、以下の処理は、本実施形態における撮像装置１０１の第１制御回路２２３が制御を受け持つ。

Ｓ９０１では、画像処理回路２０７に撮像部２０６で取り込まれた信号を画像処理させ、被写体認識用の画像を生成させる。

生成された画像からは、人物や物体認識などの被写体認識が行われる。

人物を認識する場合、被写体の顔や人体を検出する。顔検出処理では、人物の顔を判断するためのパターンが予め定められており、撮像された画像内に含まれる該パターンに一致する箇所を人物の顔画像として検出することができる。

また、被写体の顔としての確からしさを示す信頼度も同時に算出し、信頼度は、例えば画像内における顔領域の大きさや、顔パターンとの一致度等から算出される。

物体認識についても同様に、予め登録されたパターンに一致する物体を認識することができる。

また、撮像された画像内の色相や彩度等のヒストグラムを使用する方法で特徴被写体を抽出する方法などもある。この場合、撮影画角内に捉えられている被写体の画像に関し、その色相や彩度等のヒストグラムから導出される分布を複数の区間に分け、区間ごとに撮像された画像を分類する処理が実行される。

例えば、撮像された画像について複数の色成分のヒストグラムが作成され、その山型の分布範囲で区分けし、同一の区間の組み合わせに属する領域にて撮像された画像が分類され、被写体の画像領域が認識される。

認識された被写体の画像領域ごとに評価値を算出することで、当該評価値が最も高い被写体の画像領域を主被写体領域として判定することができる。

以上の方法で、撮像情報から各被写体情報を得ることができる。

Ｓ９０２では、像揺れ補正量の算出を行う。具体的には、まず、装置揺れ検出回路２０９において取得した角速度および加速度情報に基づいて撮像装置の絶対角度の算出を行う。そして、絶対角度を打ち消す角度方向にチルト回転ユニット１０４およびパン回転ユニット１０５を動かす防振角度を求め、像揺れ補正量とする。なお、ここでの像揺れ補正量算出処理は、後述する学習処理によって、演算方法を変更することができる。

Ｓ９０３では、撮像装置の状態判定を行う。角速度情報や加速度情報やＧＰＳ位置情報などで検出した角度や移動量などにより、現在、撮像装置がどのような振動／動き状態なのかを判定する。

例えば、車に撮像装置１０１を装着して撮影する場合、移動された距離によって大きく周りの風景などの被写体情報が変化する。

そのため、車などに装着して速い速度で移動している「乗り物移動状態」か否かを判定し、後に説明する自動被写体探索に使用することができる。

また、角度の変化が大きいか否かを判定し、撮像装置１０１が揺れ角度がほとんどない「置き撮り状態」であるのかを判定する。

「置き撮り状態」である場合は、撮像装置１０１自体の角度変化はないと考えてよいので、置き撮り用の被写体探索を行うことができる。

また、比較的、角度変化が大きい場合は、「手持ち状態」と判定され、手持ち用の被写体探索を行うことができる。

Ｓ９０４では、被写体探索処理を行う。被写体探索は、以下の処理によって構成される。

（１）エリア分割
図１１を用いて、エリア分割を説明する。図１１（ａ）のように撮像装置（原点Ｏが撮像装置位置とする。）位置を中心として、全周囲でエリア分割を行う。図１１（ａ）の例においては、チルト方向、パン方向それぞれ２２．５度で分割している。図１１（ａ）のように分割すると、チルト方向の角度が０度から離れるにつれて、水平方向の円周が小さくなり、エリア領域が小さくなる。よって、図１１（ｂ）のように、チルト角度が４５度以上の場合、水平方向のエリア範囲は２２．５度よりも大きく設定している。図１１（ｃ）、（ｄ）に撮影画角内でのエリア分割された例を示す。軸１１０１は初期化時の撮像装置１０１の方向であり、この方向角度を基準位置としてエリア分割が行われる。１１０２は、撮像されている画像の画角エリアを示しており、そのときの画像例を図１１（ｄ）に示す。画角に写し出されている画像内ではエリア分割に基づいて、図１１（ｄ）の１１０３〜１１１８のように画像分割される。

（２）エリア毎の重要度レベルの算出
前記のように分割した各エリアについて、エリア内に存在する被写体やエリアのシーン状況に応じて、探索を行う優先順位を示す重要度レベルを算出する。被写体の状況に基づいた重要度レベルは、例えば、エリア内に存在する人物の数、人物の顔の大きさ、顔向き、顔検出の確からしさ、人物の表情、人物の個人認証結果に基づいて算出する。また、シーンの状況に応じた重要度レベルは、例えば、一般物体認識結果、シーン判別結果（青空、逆光、夕景など）、エリアの方向からする音のレベルや音声認識結果、エリア内の動き検知情報等である。また、撮像装置の状態判定（Ｓ９０３）で、撮像装置の振動状態が検出されており、振動状態に応じても重要度レベルが変化するようにもすることができる。例えば、「置き撮り状態」と判定された場合、顔認証で登録されている中で優先度の高い被写体（例えば撮像装置のユーザである）を中心に被写体探索が行われるように、特定人物の顔認証を検出すると重要度レベルが高くなるように判定される。また、後述する自動撮影も上記顔を優先して行われることになり、撮像装置のユーザが撮像装置を身に着けて持ち歩き撮影を行っている時間が多くても、撮像装置を取り外して机の上などに置くことで、ユーザが写った画像も多く残すことができる。このときパン・チルトにより探索可能であることから、撮像装置の置き角度などを考えなくても、適当に設置するだけでユーザが写った画像やたくさんの顔が写った集合写真などを残すことができる。なお、上記条件だけでは、各エリアに変化がない限りは、最も重要度レベルが高いエリアが同じとなり、その結果探索されるエリアがずっと変わらないことになってしまう。そこで、過去の撮影情報に応じて重要度レベルを変化させる。具体的には、所定時間継続して探索エリアに指定され続けたエリアは重要度レベルを下げたり、後述するＳ９１０にて撮影を行ったエリアでは、所定時間の間重要度レベルを下げたりしてもよい。

（３）探索対象エリアの決定
前記のように各エリアの重要度レベルが算出されたら、重要度レベルが高いエリアを探索対象エリアとして決定する。そして、探索対象エリアを画角に捉えるために必要なパン・チルト探索目標角度を算出する。

Ｓ９０５では、パン・チルト駆動を行う。具体的には、像振れ補正量とパン・チルト探索目標角度に基づいた制御サンプリングでの駆動角度を加算することで、パン・チルト駆動量を算出し、鏡筒回転駆動回路２０５によって、チルト回転ユニット１０４、パン回転ユニット１０５をそれぞれ駆動制御する。

Ｓ９０６ではズームユニット２０１を制御しズーム駆動を行う。具体的には、Ｓ９０４で決定した探索対象被写体の状態に応じてズームを駆動させる。例えば、探索対象被写体が人物の顔であるとき、画像上の顔が小さすぎると検出可能な最小サイズを下回ることで検出ができず、見失ってしまう恐れがある。そのような場合は、望遠側にズームすることで画像上の顔のサイズが大きくなるように制御する。一方で、画像上の顔が大きすぎる場合、被写体や撮像装置自体の動きによって被写体が画角から外れやすくなってしまう。そのような場合は、広角側にズームすることで、画面上の顔のサイズが小さくなるように制御する。このようにズーム制御を行うことで、被写体を追跡するのに適した状態を保つことができる。

Ｓ９０４乃至Ｓ９０６では、パン・チルトやズーム駆動により被写体探索を行う方法を説明したが、広角なレンズを複数使用して全方位を一度に撮影する撮像システムで被写体探索を行ってもよい。全方位カメラの場合、撮像によって得られる信号すべてを入力画像として、被写体検出などの画像処理を行うと膨大な処理が必要となる。そこで、画像の一部を切り出して、切り出した画像範囲の中で被写体の探索処理を行う構成にする。上述した方法と同様にエリア毎の重要度レベルを算出し、重要度レベルに基づいて切り出し位置を変更し、後述する自動撮影の判定を行う。これにより画像処理による消費電力の低減や高速な被写体探索が可能となる。

Ｓ９０７では、ユーザ（手動）による撮影指示があったがどうかを判定し、撮影指示があった場合、Ｓ９１０に進む。この時、ユーザ（手動）による撮影指示は、シャッターボタン押下によるものや、撮像装置の筺体を指等で軽く叩く（タップ）、音声コマンド入力、外部機器からの指示などによってもよい。タップ操作による撮影指示は、ユーザが撮像装置の筺体をタップした際、装置揺れ検出回路２０９によって短期間に連続した高周波の加速度を検知し、撮影のトリガーとする撮影指示方法である。音声コマンド入力は、ユーザが所定の撮影を指示する合言葉（例えば「写真とって」等）を発声した場合、音声処理回路２１４で音声を認識し、撮影のトリガーとする撮影指示方法である。外部機器からの指示は、例えば撮像装置とＢｌｕｅＴｏｏｔｈ接続したスマートフォン等から、専用のアプリケーションを介して送信されたシャッター指示信号をトリガーとする撮影指示方法である。

また、Ｓ９０７でユーザによる撮影指示があった場合、Ｓ９１４にも進む。このＳ９１４、および、その後のＳ９１５の処理については、後で詳細な説明を行う。

Ｓ９０７で撮影指示がなかった場合、Ｓ９０８に進み、自動撮影判定を行う。自動撮影判定では、自動撮影を行うかどうかの判定と、撮影方法の判定（静止画一枚撮影、静止画連続撮影（連写）、動画撮影、パノラマ撮影、タイムラプス撮影などの内どれを実行するかの判定）を行う。

（１）自動撮影を行うかどうかの判定
自動撮影を行うかどうかの判定は以下の２つの判定に基づいて行う。１つは、Ｓ９０４にて得られたエリア別の重要度レベルに基づき、重要度レベルが所定値を超えている場合、自動撮影を実施する判定を下す。２つめは、機械学習の１つであるニューラルネットワークに基づく判定である。ニューラルネットワークの一例として、多層パーセプトロンによるネットワークの例を図１０に示す。ニューラルネットワークは、入力値から出力値を予測することに使用されるものであり、予め入力値と、その入力に対して模範となる出力値とを学習しておくことで、新たな入力値に対して、学習した模範に倣った出力値を推定することができる。なお、学習の方法は後述する。図１０の１００１およびその縦に並ぶ丸は入力層のニューロンであり、１００３およびその縦に並ぶ丸は中間層のニューロンであり、１００４は出力層のニューロンである。１００２のような矢印は各ニューロンを繋ぐ結合を示している。ニューラルネットワークに基づく判定では、入力層のニューロンに対して、現在の画角中に写る被写体や、シーンや撮像装置の状態に基づいた特徴量を入力として与え、多層パーセプトロンの順伝播則に基づく演算を経て出力層から出力された値を得る。そして、出力の値が閾値以上であれば、自動撮影を実施する判定を下す。なお、被写体の特徴は、現在のズーム倍率、現在の画角における一般物体認識結果、顔検出結果、現在画角に写る顔の数、顔の笑顔度・目瞑り度、顔角度、顔認証ＩＤ番号、被写体人物の視線角度、シーン判別結果、特定の構図の検出結果等を使用する。また、前回撮影時からの経過時間、現在時刻、ＧＰＳ位置情報および前回撮影位置からの変化量、現在の音声レベル、声を発している人物、拍手、歓声が上がっているか否か等を使用してもよい。また、振動情報（加速度情報、撮像装置の状態）、環境情報（温度、気圧、照度、湿度、紫外線量）等を使用してもよい。更に、ウエアラブルデバイス５０１からの情報通知がある場合、通知情報（ユーザの運動情報、腕のアクション情報、心拍などの生体情報など）も特徴として使用してもよい。この特徴を所定の範囲の数値に変換し、特徴量として入力層の各ニューロンに与える。そのため、入力層の各ニューロンは上記使用する特徴量の数だけ必要となる。

なお、このニューラルネットワークに基づく判断は、後述する学習処理によって、各ニューロン間の結合重みを変化させることによって、出力値が変化し、判断の結果を学習結果に適応させることができる。

また、図７のＳ７０２で読み込んだＭａｉｎプロセッサの起動条件によって、自動撮影される判定も変化する。例えば、タップ検出による起動や特定音声コマンドによる起動の場合は、ユーザが現在撮影してほしいための操作である可能性が非常に高い。そこで、撮影頻度が多くなるように設定されるようになる。

（２）撮影方法の判定
撮影方法の判定では、Ｓ９０１乃至Ｓ９０４において検出した、撮像装置の状態や周辺の被写体の状態に基づいて、静止画撮影、動画撮影、連写、パノラマ撮影などの内どれを実行するかの判定を行う。例えば、被写体（人物）が静止している場合は静止画撮影を実行し、被写体が動いている場合は動画撮影または連写を実行する。また、被写体が撮像装置を取り囲むように複数存在している場合や、前述したＧＰＳ情報に基づいて景勝地であることが判断できた場合には、パン・チルトを操作させながら順次撮影した画像を合成してパノラマ画像を生成するパノラマ撮影処理を実行してもよい。

Ｓ９０９では、Ｓ９０８の自動撮影判定により撮影する判定が下された場合、Ｓ９１０に進み、下されなかった場合、撮影モード処理終了へと進む。

Ｓ９１０では、撮影を開始する。この時、手動撮影であれば静止画の撮影、あるいは、ユーザが手動で設定した撮影方法で撮影を行い、自動撮影であればＳ９０８にて判定された撮影方法による撮影を開始する。その際、フォーカス駆動制御回路２０４によるオートフォーカス制御を行う。また、不図示の絞り制御回路およびセンサゲイン制御回路、シャッター制御回路を用いて、被写体が適切な明るさになるような露出制御を行う。さらに、撮影後には画像処理回路２０７において、オートホワイトバランス処理、ノイズリダクション処理、ガンマ補正処理等、種々の画像処理を行い、画像を生成する。

なお、自動撮影の際に、所定の条件を満たした時、撮像装置が撮影対象となる人物に対し撮影を行う旨を報知処理した上で撮影する手段を取ってもよい。報知の方法は、例えば、音声出力回路２１８からの音声やＬＥＤ制御回路２２４によるＬＥＤ点灯光を使用してもよいし、パン・チルトを駆動することにより視覚的に被写体の視線を誘導するモーション動作をしてもよい。所定の条件は、例えば、画角内における顔の数、顔の笑顔度・目瞑り度、被写体人物の視線角度や顔角度、顔認証ＩＤ番号、個人認証登録されている人物の数等である。また、撮影時の一般物体認識結果、シーン判別結果、前回撮影時からの経過時間、撮影時刻、ＧＰＳ情報に基づく現在位置が景勝地であるか否か、撮影時の音声レベル、声を発している人物の有無、拍手、歓声が上がっているか否か等である。また、振動情報（加速度情報、撮像装置の状態）、環境情報（温度、気圧、照度、湿度、紫外線量）等である。これらの条件に基づき報知撮影を行うことによって、重要性が高いシーンにおいてカメラ目線の好ましい画像を残すことができる。

また、所定の条件を複数もち、各条件に応じて音声を変更したり、ＬＥＤの点灯方法（色や点滅時間など）を変更したり、パン・チルトのモーション方法（動き方や駆動速度）を変更してもよい。

Ｓ９１１では、Ｓ９１０にて生成した画像を加工したり、動画に追加したりといった編集処理を行う。画像加工については、具体的には、人物の顔や合焦位置に基づいたトリミング処理、画像の回転処理、ＨＤＲ（ハイダイナミックレンジ）効果、ボケ効果、色変換フィルタ効果などである。画像加工は、Ｓ９１０にて生成した画像を元に、上記の処理の組み合わせによって複数生成し、前記Ｓ９１０にて生成した画像とは別に保存するとしてもよい。また、動画処理については、撮影した動画または静止画を、生成済みの編集動画にスライド、ズーム、フェードの特殊効果処理をつけながら追加するといった処理をしてもよい。Ｓ９１１での編集についても、撮影画像の情報、或いは撮影前に検出した各種情報をニューラルネットワークに基づく判断によって、画像加工の方法を判定することもできるし、この判定処理は、後述する学習処理によって、判定条件を変更することができる。

Ｓ９１２では撮影画像の学習情報生成処理を行う。ここでは、後述する学習処理に使用する学習情報を生成し、記録する。具体的には、今回の撮影画像における、撮影時のズーム倍率、撮影時の一般物体認識結果、顔検出結果、撮影画像に写る顔の数、顔の笑顔度・目瞑り度、顔角度、顔認証ＩＤ番号、被写体人物の視線角度等である。また、シーン判別結果、前回撮影時からの経過時間、撮影時刻、ＧＰＳ位置情報および前回撮影位置からの変化量、撮影時の音声レベル、声を発している人物、拍手、歓声が上がっているか否か等である。また、振動情報（加速度情報、撮像装置の状態）、環境情報（温度、気圧、照度、湿度、紫外線量）、動画撮影時間、手動撮影指示によるものか否か、等である。更にユーザの画像の好みを数値化した学習モデルの出力であるスコアも演算する。

これらの情報を生成し、撮影画像ファイルへタグ情報として記録する。あるいは、不揮発性メモリ２１６へ書き込むか、記録媒体２２１内に、所謂カタログデータとして各々の撮影画像の情報をリスト化した形式で保存する、としてもよい。

Ｓ９１３では過去撮影情報の更新を行う。具体的には、Ｓ９０８の説明で述べたエリア毎の撮影枚数や、個人認証登録された人物毎の撮影枚数、一般物体認識で認識された被写体毎の撮影枚数、シーン判別のシーン毎の撮影枚数について、今回撮影された画像が該当する枚数のカウントを１つ増やす。

＜学習モード処理＞
次に、本実施形態におけるユーザの好みに合わせた学習について説明する。

本実施形態では、図１０に示すようなニューラルネットワークを用い、機械学習アルゴリズムを使用して、学習処理回路２１９にてユーザの好みに合わせた学習を行って学習モデルを生成する。学習処理回路２１９は、例えば、ＮＶＩＤＩＡ社のＪｅｔｓｏｎＴＸ２を用いる。ニューラルネットワークは、入力値から出力値を予測することに使用されるものであり、予め入力値の実績値と出力値の実績値を学習しておくことで、新たな入力値に対して、出力値を推定することができる。ニューラルネットワークを用いることにより、前述の自動撮影や被写体探索に対して、ユーザの好みに合わせた学習を行う。

また、ニューラルネットワークに入力する特徴データともなる被写体登録（顔認証や一般物体認識など）を登録することも行う。

本実施形態において、学習処理により、学習される要素は以下である。

（１）自動撮影
自動撮影に対する学習について説明する。自動撮影では、ユーザの好みに合った画像の撮影を自動で行うための学習を行う。図９のフローを用いた説明で上述したように、撮影後（Ｓ９１２）に学習情報生成処理が行われている。後述する方法により学習させる画像を選択させ、画像に含まれる学習情報を基に、ニューラルネットワークの重みを変化させることで学習する。学習は、自動撮影タイミングの判定を行うニューラルネットワークの変更と、撮影方法（静止画撮影、動画撮影、連写、パノラマ撮影など）の判定をニューラルネットワークの変更で行われる。

（２）自動編集
自動編集に対する学習について説明する。自動編集は、図９のＳ９１１での撮影直後の編集に対して学習が行われる。撮影直後の編集について説明する。後述する方法により学習させる画像を選択させ、画像に含まれる学習情報を基に、ニューラルネットワークの重みを変化させることで学習する。撮影或いは撮影直前の情報により得られた各種検出情報をニューラルネットワークに入力し、編集方法（トリミング処理、画像の回転処理、ＨＤＲ（ハイダイナミックレンジ）効果、ボケ効果、色変換フィルタ効果など）の判定を行う。

（３）被写体探索
被写体探索に対する学習について説明する。被写体探索では、ユーザの好みに合った被写体の探索を自動で行うための学習を行う。図９のフローを用いた説明で上述したように、被写体探索処理（Ｓ９０４）において、各エリアの重要度レベルを算出し、パン・チルト、ズームを駆動し、被写体探索を行っている。学習は撮影画像や探索中の検出情報によって学習され、ニューラルネットワークの重みを変化させることで学習する。探索動作中の各種検出情報をニューラルネットワークに入力し、重要度レベルの算出を行い、重要度レベルに基づきパン・チルトの角度を設定することで学習を反映した被写体探索を行う。また、重要度レベルに基づくパン・チルト角度の設定以外にも、例えば、パン・チルト駆動（速度、加速度、動かす頻度）の学習も行う。

（４）被写体登録
被写体登録に対する学習について説明する。被写体登録では、ユーザの好みに合った被写体の登録やランク付けを自動で行うための学習を行う。学習として、例えば、顔認証登録や一般物体認識の登録、ジェスチャーや音声認識、音によるシーン認識の登録を行う。認証登録は人と物体に対する認証登録を行い、画像取得される回数や頻度、手動撮影される回数や頻度、探索中の被写体の現れる頻度からランク設定を行う。登録された情報は、各ニューラルネットワークを用いた判定の入力として登録されることになる。

次に、学習方法について説明する。

学習方法としては、「撮像装置内の学習」と「通信機器との連携による学習」がある。

撮像装置内学習の方法について、以下説明する。本実施形態における撮像装置内学習は、以下の方法がある。

（１）ユーザによる撮影指示時の検出情報による学習
図９のＳ９０７乃至Ｓ９１３で説明したとおり、本実施形態においては、撮像装置１０１は、手動撮影と自動撮影の２つの撮影を行うことができる。Ｓ９０７で手動操作による撮影指示（上記説明したとおり、３つの判定に基づいて行う。）があった場合は、Ｓ９１２において、撮影画像は手動で撮影された画像であるとの情報が付加される。また、Ｓ９０９にて自動撮影ＯＮと判定されて撮影された場合においては、Ｓ９１２において、撮影画像は自動で撮影された画像であると情報が付加される。

ここで手動撮影される場合、ユーザの好みの被写体、好みのシーン、好みの場所や時間間隔を基に撮影された可能性が非常に高い。よって、手動撮影時に得られた各特徴データや撮影画像の学習情報を基とした学習が行われるようにする。

また、手動撮影時の検出情報から、撮影画像における特徴量の抽出や個人認証の登録、個人ごとの表情の登録、人の組み合わせの登録に関して学習を行う。また、被写体探索時の検出情報からは、例えば、個人登録された被写体の表情から、近くの人や物体の重要度を変更するような学習を行う。

（２）被写体探索時の検出情報による学習
被写体探索動作中において、個人認証登録されている被写体が、どんな人物、物体、シーンと同時に写っているかを判定し、同時に画角内に写っている時間比率を演算しておく。

例えば、個人認証登録被写体の人物Ａが個人認証登録被写体の人物Ｂと同時に写っている時間比率が所定閾値よりも高い場合重要度が高いと判定できる。このため、人物Ａと人物Ｂが画角内に入る場合は、自動撮影判定の点数が高くなるように各種検出情報を学習データとして保存して学習モード処理７１６で学習する。

他の例では、個人認証登録被写体の人物Ａが一般物体認識により判定された被写体「猫」と同時に写っている時間比率が所定閾値よりも高い場合、重要度が高いと判定できる。このため、人物Ａと「猫」が画角内に入る場合は、自動撮影判定の点数が高くなるように各種検出情報を学習データとして保存する。そして、学習モード処理７１６で学習する。

このように、探索中の被写体の現れる頻度が高い場合に、自動撮影判定の点数が高くなるようにすると、個人認証登録されている被写体の近くの人や物体の重要度も、高くなるように変更することができる。

また、個人認証登録被写体の人物Ａの笑顔度を検出したり、表情の検出により「喜び」「驚き」などが検出されたとき、同時に写っている被写体は重要であるように学習される処理が行われる。また、表情が「怒り」「真顔」などが検出されたときの、同時に写っている被写体は重要である可能性が低いので学習することはしないなどの処理が行われる。

次に、本実施形態における外部通信機器との連携による学習を説明する。本実施形態における外部通信機器との連携による学習には、以下の方法がある。

（３）外部通信機器で画像を取得したことによる学習
図３で説明したとおり、撮像装置１０１と外部機器３０１は、通信３０２、３０３の通信手段を有している。主に通信３０２によって画像の送受信が行われ、外部機器３０１内の専用のアプリケーションを介して、撮像装置１０１内の画像を外部機器３０１に通信取得することができる。また、撮像装置１０１内の保存されている画像データのサムネイル画像を外部機器３０１内の専用のアプリケーションを介して、閲覧可能な構成である。これにより、ユーザはサムネイル画像の中から、自分が気に入った画像を選択して、画像確認し、画像取得指示を操作することで外部機器３０１に画像取得できる。

このとき、ユーザが画像を選んで送信指示し取得しているので、取得された画像はユーザの好みの画像である可能性が非常に高い。よって取得された画像は、学習すべき画像であると判定し、取得された画像の学習情報を基に学習することでユーザの好みの各種学習を行うことができる。

操作例を説明する。スマートデバイスである外部機器３０１の専用のアプリケーションを介して、撮像装置１０１内の画像を閲覧している例を図１４に示す。表示装置４０７に撮像装置内に保存されている画像データのサムネイル画像（１４０４乃至１４０９）を表示してあり、ユーザは自分が気に入った画像を選択し画像取得を行える。このとき、表示方法を変更する表示方法変更部（１４０１、１４０２、１４０３）が設けられている。１４０１を押下すると表示順序が日時優先表示モードに変更され、撮像装置１０１内画像の撮影日時の順番で表示装置４０７に画像が表示される。（例えば、１４０４は日時が新しく、１４０９が日時は古いように表示される。）１４０２を押下するとおすすめ画像優先表示モードに変更される。図９Ｓ９１２で演算した各画像に対してユーザの好みを判定したスコアに基づいて、撮像装置１０１内画像のスコアの高い順番で表示装置４０７に画像が表示される。（例えば、１４０４はスコアが高く、１４０９がスコアは低いように表示される。）１４０３を押下すると人物や物体被写体を指定でき、続いて特定の人物や物体被写体を指定すると特定の被写体のみを表示することもできる。

１４０１乃至１４０３は同時に設定をＯＮすることもでき、例えばすべての設定がＯＮされている場合、指定された被写体のみを表示し、且つ、撮影日時が新しい画像が優先され、且つ、スコアの高い画像が優先され、表示されることになる。

このように、撮影画像に対してもユーザの好みを学習しているため、撮影された大量の画像の中から簡単な確認作業でユーザの好みの画像のみを簡単に抽出することが可能である。

（４）外部通信機器を介して、画像に判定値を入力することによる学習
上記で説明したとおり、撮像装置１０１と外部機器３０１は、通信手段を有しており、撮像装置１０１内の保存されている画像を外部機器３０１内の専用のアプリケーションを介して、閲覧可能な構成である。ここで、ユーザは、各画像に対して点数付を行う構成にしてもよい。ユーザが好みと思った画像に対して高い点数（例えば５点）を付けたり、好みでないと思った画像に対して低い点数（例えば１点）を付けることができ、ユーザの操作によって、撮像装置が学習していくような構成にする。各画像の点数は、撮像装置内で学習情報と共に再学習に使用する。指定した画像情報からの特徴データを入力にした、ニューラルネットワークの出力がユーザが指定した点数に近づくように学習される。

本実施形態では、通信機器３０１を介して、撮影済み画像にユーザが判定値を入力する構成にしたが、撮像装置１０１を操作して、直接、画像に判定値を入力する構成にしてもよい。その場合、例えば、撮像装置１０１にタッチパネルディスプレイを設け、タッチパネルディスプレイ画面表示装置に表示されたＧＵＩボタンをユーザが押下して、撮影済み画像を表示するモードに設定する。そして、ユーザは撮影済み画像を確認しながら、各画像に判定値を入力するなどの方法により、同様の学習を行うことができる。

（５）外部通信機器で、パラメータを変更することによる学習
上記で説明したとおり、撮像装置１０１と外部機器３０１は、通信手段を有しており、撮像装置１０１内に現在設定されている学習パラメータを外部機器３０１に通信し、外部機器３０１の記憶回路４０４に保存することができる。学習パラメータとしては、例えば、ニューラルネットワークの重みや、ニューラルネットワークに入力する被写体の選択などが考えられる。また、外部機器３０１内の専用のアプリケーションを介して、専用のサーバにセットされた学習パラメータを公衆回線制御回路４０６を介して取得して、撮像装置１０１内の学習パラメータに設定することもできる構成とする。これにより、ある時点でのパラメータを外部機器３０１に保存しておいて、撮像装置１０１に設定することで学習パラメータを戻すこともできるし、他のユーザが持つ学習パラメータを専用のサーバを介して取得し自身の撮像装置１０１に設定することもできる。

次に、学習処理シーケンスについて説明する。

図７のＳ７０４のモード設定判定にて、学習処理を行うべきか否かを判定し、学習処理を行う場合、学習モードであると判定され、Ｓ７１２の学習モード処理を行う。

学習モードの判定条件を説明する。学習モードに移行するか否かは、前回学習処理を行ってからの経過時間と、学習に使用できる情報の数、通信機器を介して学習処理指示があったかなどから判定される。Ｓ７０４のモード設定判定処理内で判定される、学習モードに移行すべきか否かの判定処理フローを図１２に示す。

Ｓ７０４のモード設定判定処理内で学習モード判定が開始指示されると、図１２の処理がスタートする。Ｓ１２０１では、外部機器３０１からの登録指示があるかどうかを判定する。ここでの登録は、上記説明した学習するための登録指示があったかどうかの判定である。例えば、＜通信機器で画像取得された画像情報による学習＞や、＜通信機器を介して、画像に判定値を入力することによる学習＞がある。Ｓ１２０１で、外部機器からの登録指示があった場合、Ｓ１２０８に進み、学習モード判定をＴＲＵＥにして、Ｓ７１２の処理を行うように設定する。Ｓ１２０１で外部機器からの登録指示がない場合、Ｓ１２０２に進む。Ｓ１２０２では外部機器からの学習指示があるかどうかを判定する。ここでの学習指示は＜通信機器で、撮像装置パラメータを変更することによる学習＞のように、学習パラメータをセットする指示があったかどうかの判定である。Ｓ１２０２で、外部機器からの学習指示があった場合、Ｓ１２０８に進み、学習モード判定をＴＲＵＥにして、Ｓ７１２の処理を行うように設定し、学習モード判定処理を終了する。Ｓ１２０２で外部機器からの学習指示がない場合、Ｓ１２０３に進む。

Ｓ１２０３では、前回学習処理（ニューラルネットワークの重みの再計算）が行われてからの経過時間ＴｉｍｅＮを取得し、Ｓ１２０４に進む。Ｓ１２０４では、学習する新規のデータ数ＤＮ（前回学習処理が行われてからの経過時間ＴｉｍｅＮの間で、学習するように指定された画像の数）を取得し、Ｓ１２０５に進む。Ｓ１２０５では、ＴｉｍｅＮから閾値ＤＴを演算する。例えば、ＴｉｍｅＮが所定値よりも小さい場合の閾値ＤＴａが、所定値よりも大きい場合の閾値ＤＴｂよりも大きく設定されており、時間経過によって、閾値が小さくなるように設定してある。これにより、学習データが少ない場合においても、時間経過が大きいと再度学習するようにすることで、使用時間に応じて撮像装置が学習変化し易いようにしてある。

Ｓ１２０５で閾値ＤＴを演算すると、Ｓ１２０６に進み、学習するデータ数ＤＮが、閾値ＤＴよりも大きいか否かを判定する。ＤＮが、閾値ＤＴよりも大きい場合、Ｓ１２０７に進み、ＤＮを０に設定した後、Ｓ１２０８に進み、学習モード判定をＴＲＵＥにして、Ｓ７１２の処理を行うように設定し、学習モード判定処理を終了する。

Ｓ１２０６でＤＮが、閾値ＤＴ以下の場合、Ｓ１２０９に進む。外部機器からの登録指示も、外部機器からの学習指示もなく、且つ学習データ数も所定値以下であるので、学習モード判定をＦＡＬＳＥにし、Ｓ７１２の処理は行わないように設定し、学習モード判定処理を終了する。

次に、学習モード処理（Ｓ７１２）内の処理について説明する。学習モード処理の詳細なフローを図１３に示す。

図７のＳ７１１で学習モードと判定され、Ｓ７１２に進むと、図１３の処理がスタートする。Ｓ１３０１では、外部機器３０１からの登録指示があるかどうかを判定する。Ｓ１３０１で、外部機器からの登録指示があった場合、Ｓ１３０２に進む。Ｓ１３０２では、各種登録処理を行う。

各種登録は、ニューラルネットワークに入力する特徴の登録であり、例えば顔認証の登録や、一般物体認識の登録や、音情報の登録や、場所情報の登録などである。

登録処理を終了すると、Ｓ１３０３に進み、Ｓ１３０２で登録された情報から、ニューラルネットワークへ入力する要素を変更する。

Ｓ１３０３の処理を終了すると、Ｓ１３０７に進む。

Ｓ１３０１で外部機器３０１からの登録指示がない場合、Ｓ１３０４に進み、外部機器３０１からの学習指示があるかどうかを判定する。外部機器からの学習指示があった場合、Ｓ１３０５に進み、外部機器から通信された学習パラメータを各判定器（ニューラルネットワークの重みなど）に設定し、Ｓ１３０７に進む。

Ｓ１３０４で外部機器からの学習指示がない場合、Ｓ１３０６で学習（ニューラルネットワークの重みの再計算）を行う。Ｓ１３０６の処理に入るのは、図１２を用いて説明したように、学習するデータ数ＤＮが閾値を超えて、各判定器の再学習を行える条件である。誤差逆伝搬法或いは、勾配降下法などの方法を使って再学習させ、ニューラルネットワークの重みを再計算して、各判定器のパラメータを変更する。学習パラメータが設定されると、Ｓ１３０７に進む。

Ｓ１３０７では、ファイル内の画像を再スコア付する。本実施形態においては、学習結果に基づいてファイル（記録媒体２２１）内に保存されているすべての撮影画像にスコアを付けておき、付けられたスコアに応じて、自動編集や自動ファイル削除を行う構成となっている。よって、再学習や外部機器からの学習パラメータのセットが行われた場合には、撮影済み画像のスコアも更新を行う必要がある。よって、Ｓ１３０７では、ファイル内に保存されている撮影画像に対して新たなスコアを付ける再計算が行われ、処理が終了すると学習モード処理を終了する。

本実施形態においては、撮像装置１０１内で、学習する構成を基に説明したが、外部機器３０１側に学習処理をもち、学習に必要なデータを外部機器３０１に通信し、外部機器側でのみ学習を実行する構成でも同様の学習効果を実現可能である。その場合、上記＜通信機器で、パラメータを変更することによる学習＞で説明したように、外部機器側で学習したニューラルネットワークの重みなどのパラメータを撮像装置１０１に通信により設定することで学習を行う構成にしてもよい。

また、撮像装置１０１内と、外部機器３０１内の両方に、それぞれ学習処理をもつ構成にしてもよい。例えば撮像装置１０１内で学習モード処理７１６が行われるタイミングで外部機器３０１が持つ学習情報を撮像装置１０１に通信し、学習パラメータをマージすることで学習を行う構成にしてもよい。

次に、ニューラルネットワークの学習において教師データの不足を補う方法について説明する。

ニューラルネットワークで入力値から精度良く出力値を推定するためには十分な数の教師データが必要とされる。教師データの数に対してニューラルネットワークのモデルが複雑で自由度が高いと推定精度を上げるのは難しい。また機械学習の分野では、教師データと少し異なるデータであってもロバストに推定ができるようするためにData Augmentationという処理を行う場合がある。これは教師データ（この場合は画像）に対してアスペクト比の変更、回転（ロール、ピッチ、ヨー）、ぼかし、ノイズ付加、ずらし等の画像処理を加えることで行うことが多い。しかしながら、必ずしもカメラで撮影できる画像と一致するとはいえない。たとえば画像処理でぼかしを加えたとしても、実際にカメラで絞りを開放にしたり、ピントをずらしたりしても、同等のぼかしが実現できるとは限らない。

ニューラルネットワークで推定をしたいデータと教師データが似ていないと、この教師データがニューラルネットワークの推定精度を下げる要因となりかねない。また、所定の回転（ロール、ピッチ、ヨー）を加えたとしても、実際に人間がカメラで撮影する角度を再現できるとは限らない。具体的には、画像を単純に画像中心からたとえば４５度や９０度回転させても、ユーザは被写体が直立していない写真を撮る機会は少ないので、ユーザの好みを学習するための教師データとしては貢献度が低い。

このように画像処理によって教師データの不足を補うことは難しく、好ましくは実際の撮影によって教師データを増加させる方が良い。もしくは画像処理でData Augmentationを行う場合も、カメラとして撮影できない画像よりも、カメラで撮影できる画像に近いものの方が良い。そこで本実施形態では、学習用に実際の撮影を自動的に行って教師データを増加させる方法について説明する。

上述したように、図９のＳ９０７でユーザによる撮影指示があったと判別された場合、Ｓ９１０およびＳ９１４に進む。

Ｓ９１４では現在の教師データ数が所定の数Ｎ（Ｎは自然数）より小さいか否かが判断される。そして、現在の教師データ数が所定の数Ｎより小さいときのみ、教師データが不足しているとしてＳ９１５に進み、教師データの補充のための学習用自動撮影を行う。このＮは、ニューラルネットワークの複雑さや自由度（ノード数や中間層の層数）に応じて変化させるとよい。ニューラルネットワークが複雑であったり、自由度が高かったりすると必要な教師データ数は増えるので、Ｎを増加させる。Ｓ９１４で現在の教師データ数≧Ｎになり、十分な教師データが蓄えられたと判断された場合は、Ｓ９１５をスキップして、Ｓ９１２に進む。

Ｓ９０７で手動撮影指示があった時にのみ学習用自動撮影をするのは、前述したとおり、手動撮影される場合はユーザの好みの被写体、好みのシーン、好みの場所や時間間隔を基に撮影された可能性が非常に高いためである。よってこのときに学習用自動撮影をすれば、ユーザの好みを反映した教師データが取得できる可能性が高い。

またＳ９１５の学習用自動撮影とＳ９１０の手動撮影は同時には行えないので、タイミングをずらして行う。どちらが先でもよいが、学習用自動撮影と手動撮影が連続して行われるようにする。もし学習用自動撮影が遅れてしまうと、ユーザがカメラを動かしてしまって手動撮影時の好ましい構図から離れてしまう恐れがある。一方、手動撮影が遅れてしまうと、シャッタータイミングがずれることになる。以降の説明では特に明記しないかぎり、最初に手動撮影が行われ、直後に学習用自動撮影が行われるものとする。

Ｓ９１５では学習用自動撮影が行われる。学習用自動撮影はいくつかの方法が考えられる。一つ目は連写である。手動撮影後に学習用に自動で連写を行い、連写画像を取得する。手動撮影とタイミングが近ければ、ユーザの好みの画像と近い教師データを複数取得できる。この場合、手動撮影で得られた画像は記録画像として扱われるため、記録媒体２２１に記録されるが、学習用自動撮影で得られた画像は学習のためだけに用いられ、ユーザの目には付かない。

二つ目は動画撮影である。手動撮影の前か後に自動的に動画撮影が行われ、静止画と動画が組み合わされてユーザへ提供される機能が一般のカメラやライフログカメラに搭載されることがある。あるいは、カメラは、リングバッファなどのメモリに、一定期間の動画を常に上書きしておいて、静止画が撮影されたタイミングを基準とした前後の所定期間の動画をユーザへ提供する機能が搭載されることがある。この自動的に取得される動画を静止画に分解して教師データとする。これも一つ目の連写と同じ理由で教師データとしての価値がある。なお、この機能を使ったときに制限されるわけではなく、学習用の目的だけで動画を撮影してもよい。その場合、動画はユーザへ提供されない。

三つ目はブラケット撮影である。ブラケット撮影は手動撮影での撮影条件を少しずつ変化させて行う。変化させる撮影条件はカメラで変更可能なパラメータであればよく、フォーカス、露出、ホワイトバランス、ストロボ発光、ズーム、シャープネスなどである。これらの撮影条件を変えることでData Augmentationと同じ効果が期待できる。もしカメラで実現不可能なData Augmentationを行い教師データとしてしまうと、それから学習したニューラルネットワークでは、その教師データに近いものしか良く推定できなくなってしまう。これではカメラ用のニューラルネットワークとしては不適格なものとなってしまう。そのため、カメラで実現可能なブラケット撮影による教師データの増加であれば、Data Augmentationとしての効果が期待できる。

なお、ブラケット撮影の中には手動撮影直後に行わないといけないものと、ある程度時間がたってからでも可能なものとがある。前者はフォーカス、ズームなどの機械動作を伴うものである。これらは手動撮影と連続して撮らないと構図が変わってしまい教師データとして成り立たない。一方後者は、ホワイトバランスやシャープネス、ＲＡＷ画像データの現像条件等の画像処理によるものである。これらは例え手動撮影と連続して行えなくても、手動撮影画像を基に生成できる。この場合は手動撮影画像のＲＡＷデータを記録するようにしてもよい。手動撮影画像を基に生成する場合は、撮影時である必要はなく、カメラの待機中などに生成してもよい。

このようにブラケット撮影の中には手動撮影と連続して行う必要があるものと、連続して行う必要がないものがあるため、ブラケット撮影の種別に優先順位を設けて自動撮影を行ってもよい。手動撮影と連続して行う必要があるブラケット撮影を先に行うということである。

また、手動撮影から学習用自動撮影を行うまでに、カメラの角速度計１０６と加速度計１０７の情報等から、ユーザがカメラを動かしたと判断される場合には、学習用自動撮影を中止するようにしてもよい。

Ｓ９１２では手動撮影と学習用自動撮影の学習用情報を生成し、教師データを作成する。学習用自動撮影で得られた画像についても手動撮影で得られた画像と同様の方法で学習用情報が生成できる。手動撮影で得られた画像はユーザの好みである可能性が高いので、所定の高いスコアを付ける。そして、そのスコアを学習用自動撮影で得られた画像から生成された教師データにもつける。

あるいは、学習用自動撮影で得られた画像に対して、手動撮影で得られた画像との関係に応じたスコアをつけるようにしてもよい。たとえば、手動撮影と間を空けずに学習用自動撮影が行われたのであれば、学習用自動撮影で得られた画像に対しても手動撮影で得られた画像と同等の高いスコアを付与する。そして、手動撮影と、学習用自動撮影の間隔が離れるにつれて、学習用自動撮影で得られた画像に対するスコアを下げていくということもできる。これにより、ユーザが指示したベストショットタイミングの手動撮影画像の点数が一番高くなり、それよりずれるにつれて低い点がついていくため、ユーザのシャッタータイミングの好みを学習することができる。あるいは、学習用自動撮影で得られた画像のそれぞれに対して手動撮影画像と類似度を比較し、その類似度に応じてスコアをつけるようにしてもよい。さらに、被写体が動体であったり、被写体を含むシーンが変化していたりする場合には、手動撮影のタイミングで撮影された画像の前後の画像を、敢えて、負の教師データとして学習に用いるようにしてもよい。こうすることで、ユーザのシャッタータイミングの好みをより厳密に学習することができるようになることが期待できる。また、前後の画像の代わりに、連続して撮像された画像のうちの、手動撮影で得られた画像との類似度が閾値より低い画像を負の教師データとしてもよい。

また、ブラケット画像についても同様の考えで、ブラケットによって設定された撮影条件が、手動撮影にて設定された撮影条件から離れるにつれてスコアを下げることもできる。たとえば手動撮影で得られた画像に一番高いスコアをつけ、ブラケット撮影で露出補正＋１とした画像に二番目に高いスコアをつけ、露出補正＋２とした画像に三番目に高いスコアをつけるなどである。これにより、ユーザの好きな撮影条件についても学習することができる。

学習用自動撮影で得られた画像の学習用情報は、手動撮影で得られた画像の学習用情報から流用してもよい。たとえば、学習用自動撮影と手動撮影で、撮影対象である被写体は同じである可能性が高いので、手動撮影で得られた画像から生成された一般物体認識結果や顔検出結果などは、学習用自動撮影で得られた画像の学習用情報として流用可能である。これにより学習用情報生成の時間を短縮することができる。

また、Ｓ９０７で判定対象とするユーザによる撮影指示には、前述した音声コマンドや装置１０１へのタップ操作、外部装置３０１，５０１からの撮影指示を含むようにしてもよい。

また、学習用自動撮影自体はユーザが指示したものではないため、学習用自動撮影では、シャッター音の小さい電子シャッターによる撮影を行うことが望ましい。

また、学習用自動撮影は、ユーザの意図したタイミングとは別のタイミングで撮影が行われるため、ユーザの意図しない個人情報を保存してしまう可能性がある。これはプライバシーを考慮する上で問題になる可能性がある。そこで学習用自動撮影で得られた画像は保存せずに、この画像から生成された学習用情報のみを保存する構成にしてもよい。学習用情報はたとえばニューラルネットワークの入力層に当たるパラメータで、画像以外の形式となるため、プライバシー情報が特定されにくい。あるいは、学習用情報に個人認証ID等の人物に関連する情報は記録しないようにし、代わりに所定の規定値で置き換えるようにしてもよい。

またＳ９１４の学習用自動撮影を行うための条件は、教師データ数でなくてもよい。例えば、ニューラルネットワークの推定精度が高まったと判断できたらＳ９１４の判定はＮＯとしてもよい。推定精度が高まったかどうかは次の方法で検証する。学習用自動撮影により教師データが取得されたら、それをニューラルネットワークに入力して出力値を求める。その出力値と教師値の差が所定の値より小さければニューラルネットワークの精度が高まったと判断できる。つまり新たなデータを入力しても出力値が模範となる値と近くなったので精度が高くなったと判断できる。

また、この「ニューラルネットワーク出力値と教師値の差」を用いて、学習用自動撮影で取得された教師データのうち、教師データとして適さないものを外れ値として除去することも可能である。ニューラルネットワーク出力値と教師値の差が所定の値より大きい場合は、推定ができていないことになり、この教師データは過去に学習してきた教師データと性質が大きく異なる教師データと言える。この場合は、手動撮影直後にカメラが既にユーザによって動かされ、天空や地面など意図しない方向を向いている可能性が高く、外れ値として除去する。つまり、教師データとして登録しない。

またニューラルネットワークを通さなくても学習用自動撮影画像の外れ値検証が可能である。ニューラルネットワークの入力層の特徴量を組み合わせた特徴量ベクトルにおいて学習用自動撮影画像と手動撮影画像の差が所定の値より大きければ外れ値として除去してもよい。

これらの学習用自動撮影により教師データの増加が可能となる。これらの教師データは次の学習モードが実行されたときに学習に利用される。教師データが増えた分、ニューラルネットワークの推定精度の向上が望める。

（他の実施形態）
また本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現できる。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現できる。

本発明は、デジタルカメラやデジタルビデオカメラの撮影に限らず、監視カメラ、Ｗｅｂカメラ、携帯電話などの撮影装置にも搭載できる。

１０１：撮像装置、３０１：スマートデバイス、５０１：ウエアラブルデバイス、１０４：チルト回転ユニット、１０５：パン回転ユニット

Claims

撮像手段により撮影された撮影画像に関する教師データを取得する取得手段と、
前記教師データに基づいて、画像を評価するための学習モデルを生成する学習手段と、を有し、
前記学習手段は、ユーザの指示に応じて撮影された記録用の画像に基づく教師データと、前記ユーザの指示に応じて撮影された前記記録用の画像に対して連続して撮影された学習用の画像に基づく教師データとを用いて、前記学習モデルを生成することを特徴とする画像処理装置。
前記記録用の画像における教師値と、前記学習用の画像における教師値が異なること特徴とする請求項１に記載の画像処理装置。
前記記録用の画像における教師値よりも、前記学習用の画像における教師値が小さいこと特徴とする請求項２に記載の画像処理装置。
前記記録用の画像と前記学習用の画像の撮影条件の差が大きくなるほど、前記記録用の画像における教師値と、前記学習用の画像における教師値の差が大きくなることを特徴とする請求項２または３に記載の画像処理装置。
前記記録用の画像の撮影のタイミングと前記学習用の画像の撮影のタイミングの差が大きくなるほど、前記記録用の画像における教師値と、前記学習用の画像における教師値の差が大きくなること特徴とする請求項２または３に記載の画像処理装置。
前記学習手段は、前記学習用の画像の少なくとも一部を、負の教師データとして用いて前記学習モデルを生成することを特徴とする請求項１乃至５のいずれか１項に記載の画像処理装置。
前記学習手段は、前記学習用の画像のうち、前記記録用の画像との類似度が閾値より低い画像を、負の教師データとして用いて前記学習モデルを生成することを特徴とする請求項６に記載の画像処理装置。
前記学習用の画像は、前記記録用の画像の撮影条件と、少なくとも、フォーカス、露出、ホワイトバランス、ストロボ発光、ズームのいずれかの条件を変えて撮影された画像であることを特徴とする請求項１乃至７のいずれか１項に記載の画像処理装置。
前記学習用の画像は、前記記録用の画像の撮影の直前または直後に撮影された動画から生成された画像、または、前記記録用の画像の撮影の直前または直後に撮影された連写画像であることを特徴とする請求項１乃至８のいずれか１項に記載の画像処理装置。
前記学習手段が生成した前記学習モデルを、外部機器に送信する通信手段をさらに有することを特徴とする請求項１乃至９のいずれか１項に記載の画像処理装置。
撮像手段により撮影された撮影画像から教師データを生成する生成手段と、
前記生成手段が生成した教師データを、学習モデルを生成する学習手段に送信する通信手段と、を有し、
前記生成手段は、ユーザの指示に応じて撮影された記録用の画像から教師データを生成するとともに、前記ユーザの指示に応じて撮影された前記記録用の画像に対して連続して撮影された学習用の画像からも教師データを生成し、
前記通信手段は、前記記録用の画像から生成された教師データと、前記学習用の画像から生成された教師データを、前記学習手段に送信することを特徴とする画像処理装置。
前記生成手段は、前記記録用の画像における教師値と、前記学習用の画像における教師値とを異ならせること特徴とする請求項１１に記載の画像処理装置。
前記生成手段は、前記記録用の画像における教師値よりも、前記学習用の画像における教師値を小さくすること特徴とする請求項１２に記載の画像処理装置。
前記生成手段は、前記記録用の画像の撮影条件と前記学習用の画像の撮影条件の差が大きくなるほど、前記記録用の画像における教師値と、前記学習用の画像における教師値の差が大きくなるように、前記学習用の画像における教師値を決定すること特徴とする請求項１２または１３に記載の画像処理装置。
前記生成手段は、前記記録用の画像の撮影のタイミングと前記学習用の画像の撮影のタイミングの差が大きくなるほど、前記記録用の画像における教師値と、前記学習用の画像における教師値の差が大きくなるように、前記学習用の画像における教師値を決定すること特徴とする請求項１２または１３に記載の画像処理装置。
前記生成手段は、前記学習用の画像の少なくとも一部を、負の教師データとして生成することを特徴とする請求項１１乃至１５のいずれか１項に記載の画像処理装置。
前記学習用の画像は、前記記録用の画像の撮影の直前または直後に撮影された動画から生成されることを特徴とする請求項１１乃至１６のいずれか１項に記載の画像処理装置。
前記学習用の画像は、前記記録用の画像の撮影の直前または直後に撮影された連写画像であることを特徴とする請求項１１乃至１６のいずれか１項に記載の画像処理装置。
撮像手段により撮影された撮影画像に関する教師データを取得する取得工程と、
前記教師データに基づいて、画像を評価するための学習モデルを生成する生成工程と、を有し、
前記生成工程では、ユーザの指示に応じて撮影された記録用の画像に基づく教師データと、前記ユーザの指示に応じて撮影された前記記録用の画像に対して連続して撮影された学習用の画像に基づく教師データとを用いて、前記学習モデルを生成することを特徴とする画像処理方法。
撮像手段により撮影された撮影画像から教師データを生成する生成工程と、
前記生成工程において生成した教師データを、学習モデルを生成する学習手段に送信する通信工程と、を有し、
前記生成工程では、ユーザの指示に応じて撮影された記録用の画像から教師データを生成するとともに、前記ユーザの指示に応じて撮影された前記記録用の画像に対して連続して撮影された学習用の画像からも教師データを生成し、
前記通信工程では、前記記録用の画像から生成された教師データと、前記学習用の画像から生成された教師データを、前記学習手段に送信することを特徴とする画像処理方法。
請求項１９または２０に記載の画像処理方法の各工程をコンピュータに実行させるためのプログラム。