JP2015233188A

JP2015233188A - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP2015233188A
Application number: JP2014118607A
Authority: JP
Inventors: 重文田村; Shigefumi Tamura; 至清水; Itaru Shimizu; 亮介野村; Ryosuke Nomura
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-06-09
Filing date: 2014-06-09
Publication date: 2015-12-24
Also published as: US10541006B2; EP3152896A1; WO2015190061A1; CN106463155A; US10181337B2; US20170047095A1; US20190130944A1

Abstract

【課題】ユーザが所望する映像を容易に特定するための技術を提供する。
【解決手段】入力された音声に応じて設定される特定指示情報に基づき、動画像における１または複数のフレームを抽出し、抽出されたフレームを特定するフレーム特定情報を記憶部に記録させる処理部を備える、情報処理装置が提供される。
【選択図】図４

Description

本開示は、情報処理装置、情報処理方法およびプログラムに関する。

近年、写真や動画像の撮影は、デジタルカメラ等の従来の撮像装置だけでなく、例えばスマートフォン等の情報通信端末やヘッドマウントディスプレイ等のウェアラブル端末等に搭載されたカメラを用いて行われるようになっている。

米国特許公開第２０１３／００４４０４２号明細書

一方、動画像を視聴する場合も、設置型のディスプレイやプロジェクタ、スマートフォン、タブレット端末等の利用に加えて、ウェアラブル端末の利用が広まってきている。特に、ウェアラブル端末での撮影は、いつでも容易に行うことができるため、長時間連続して行われることが想定される。ここで、ウェアラブル端末は、機器の構成や使用法の都合上、操作入力するための機能部を十分に提供することができない。このため、長時間の動画像を視聴する際に、所望の動画像を特定するための操作が困難となることが想定される。そこで、ウェアラブル端末等においてもユーザが所望する映像を容易に特定するための技術が望まれている。

本開示によれば、入力された音声に応じて設定される特定指示情報に基づき、動画像における１または複数のフレームを抽出し、抽出されたフレームを特定するフレーム特定情報を記憶部に記録させる処理部を備える、情報処理装置が提供される。

また、本開示によれば、入力された音声に応じて設定される特定指示情報に基づき、動画像における１または複数のフレームを抽出すること、抽出されたフレームを特定するフレーム特定情報を記憶部に記録させること、を含む、情報処理方法が提示される。

さらに、本開示によれば、コンピュータに、入力された音声に応じて設定される特定指示情報に基づき、動画像における１または複数のフレームを抽出し、抽出されたフレームを特定するフレーム特定情報を記憶部に記録させる処理を実行させるためのプログラムが提供される。

本開示によれば、音声に基づき設定された特定指示情報と相関の高いフレームに対してフレーム特定情報を付与して記録することで、ユーザがフレーム特定情報を利用して所望の映像を容易に特定することが可能となる。

以上説明したように本開示によれば、ユーザが所望する映像を容易に特定することが可能となる。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

撮影時のユーザの状態の一例を示す説明図である。ユーザが持って撮影を行う撮影端末の一構成例を示す概略斜視図である。ユーザが装着して撮影を行う撮影端末の一構成例を示す概略斜視図である。本開示の第１の実施形態に係る情報処理端末およびサーバの機能構成を示す機能ブロック図である。同実施形態に係るサーバの演算部の機能構成を示す機能ブロック図である。記憶部に記録される情報例を示す説明図である。同実施形態に係る音声を利用した動画像への特定フレーム情報付与処理を示すフローチャートである。特定コマンドとそれにより画像データから抽出される内容との一例を示す説明図である。特定コマンドによるフレーム抽出処理を説明する説明図である。画像データのフレームにおける場所、人物特定処理を説明するための説明図である。本開示の第２の実施形態に係る音声を利用した動画像への特定フレーム情報付与処理を示すフローチャートである。特定指示情報とその具体例の一例を示す説明図である。本開示の第３の実施形態において、ユーザが見ている画像を示すメインウィンドウとフレーム確認ウィンドウとの一例を示す説明図である。フレーム確認ウィンドウの一構成例を示す説明図である。フレーム確認ウィンドウによるフレーム抽出の始点を決定するときの画面内容を示す説明図である。フレーム確認ウィンドウによるフレーム抽出の終点を決定するときの画面内容を示す説明図である。特定コマンドで指示する場合の具体的動作を説明する説明図である。図１７に続く、特定コマンドで指示する場合の具体的動作を説明する説明図である。特定コマンド以外の音声で指示する場合の具体的動作を説明する説明図である。本開示の実施形態に係る撮影端末のハードウェア構成の一例を示すハードウェア構成図である。ＧＵＩを用いて特定指示情報を設定する場合の一例を示す説明図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
０．概要
１．第１の実施形態（特定コマンド）
１．１．動画像の取得
１．２．機能構成
１．３．音声を利用した動画像への特定フレーム情報付与処理
２．第２の実施形態（自由音声入力）
２．１．音声を利用した動画像への特定フレーム情報付与処理
３．第３の実施形態（ユーザによるフレーム特定処理）
３．１．ディスプレイを利用したユーザによるフレーム特定処理
３．２．具体例
４．ハードウェア構成例

＜０．概要＞
まず、本開示の実施形態に係る情報処理装置の機能の概要について説明する。本実施形態に係る情報処理装置は、入力された音声に基づき設定された特定指示情報に基づいて、動画像において設定された特定指示情報と相関の高い１または複数のフレームを抽出する装置である。そして、情報処理装置は、このフレームを後から特定しやすくするために、抽出されたフレームに対してタグとなる情報（以下、「フレーム特定情報」ともいう。）を付与する。フレーム特定情報を付与することで、例えば編集時や視聴時等において、フレーム特定情報を用いて所望の動画像を容易に特定することが可能となる。

このような情報処理装置による処理は、入力された音声に基づき特定指示情報が設定されるが、特定指示情報には、予め設定される特定コマンドと、自由音声を解析して得られる情報とがある。

例えば、特定指示情報として特定コマンドが設定されている場合、以下のような状況での本技術の利用が考えられる。
ａ１）撮影端末により動画像撮影
ｂ１）ユーザが特定コマンド発声（例えば、“Ｒｅｃｏｒｄｔｈａｔ”／“ＲｅｃｏｒｄｉｆＸＸ”）
ｃ１）情報処理装置により、特定コマンドに対応するフレームを抽出（例えば、特定コマンド発声から所定時間前のフレームを抽出／ＸＸさんが登場したシーンのフレームを抽出）
ｄ１）情報処理装置により、抽出したフレームに対してフレーム特定情報を付与し、記録
ｅ１）動画編集やシーンを集めた備忘録集作成等、特定したフレームを後から呼び出したい場合にユーザはフレーム特定情報を利用

一方、入力された音声を解析して得られた情報を特定指示情報として設定する場合には、以下のような状況での本技術の利用が考えられる。
ａ２）撮影端末により動画像撮影
ｂ２）ユーザが発声（例えば、「そう言えばさっきのあそこにあったアレ、いいよね！」）
ｃ２）情報処理装置により、入力された音声を解析して該当するフレームを抽出（例えば、「さっき」「あそこ」「アレ」等のように、時間、場所、人物や物等の具体物に関連する内容を示す語句を解釈して、該当するフレームを特定）
ｄ２）情報処理装置により、抽出したフレームに対してフレーム特定情報を付与し、記録
ｅ２）動画編集やシーンを集めた備忘録集作成等、特定したフレームを後から呼び出したい場合にユーザはフレーム特定情報を利用

以下、このような技術を提供する情報処理装置の構成と具体的な処理について、詳細に説明していく。

＜１．第１の実施形態＞
［１．１．動画像の取得］
まず、図１〜図３に基づいて、本開示における情報処理装置の機能を有する装置により処理される動画像の取得について説明する。なお、図１は、撮影時のユーザの状態の一例を示す説明図である。図２は、ユーザが持って撮影を行う撮影端末１０の一構成例を示す概略斜視図である。図３は、ユーザが装着して撮影を行う撮影端末２０の一構成例を示す概略斜視図である。

本開示における情報処理装置の機能を有する装置にて処理される動画像は、特に限定されるものではないが、撮影端末により撮りっぱなしにして取得された長時間の動画像を処理すると、フレーム特定情報をより効果的に利用できる。例えば、図１に示すユーザは、第１の撮影端末１０を手に持って撮影を行うとともに、頭部に第２の撮影端末２０を装着して撮影を行っている。さらに、ユーザは、背負っているバッグに第３の撮影端末３０を取り付けて撮影しており、装着しているアイウェアにもカメラ４０が設けられている。

第１の撮影端末１０は、図２に示すように、例えば円筒形状の筐体１１の一端面にレンズ１２が設けられている。レンズ１２を介して入射した光は筐体１１の内部に設けられた撮像素子（図示せず。）に結像され、電気信号に変換される。第１の撮影端末１０には、音声を取得するマイク１３が設けられており、撮影と同時に音声も取得することができる。その他、第１の撮影端末１０は、端末を操作する第１ボタン１４ａ、第２ボタン１４ｂ、電源ボタン１４ｃからなる操作部１４や、表示部１５、他の機器との接続を行うための接続部１６、情報の送受信を行う通信部（図示せず。）等を備えている。

また、第２の撮影端末２０は、図３に示すように、例えば球体状の筐体２１の上部および曲面上に３つのレンズ２２ａ、２２ｂ、２２ｃが設けられている。各レンズ２２ａ、２２ｂ、２２ｃに対応してそれぞれ撮像素子（図示せず。）が筐体２１の内部に設けられており、複数方向の画像を同時に撮影することも可能となっている。また、第２の撮影端末２０は、音声を取得するマイク２３が設けられており、撮影と同時に音声も取得することができる。その他、第２の撮影端末２０は、電源ボタン２４や、他の機器との接続を行うための接続部２６、情報の送受信を行う通信部（図示せず。）等を備えている。

なお、第３の撮影端末３０は、第２の撮影端末１０または第２の撮影端末２０と同様に構成してもよく、これらとは異なる構成であってもよい。また、これらの端末の制御は、それぞれ端末自体で行ってもよく、端末と通信可能に接続されたサーバや他の端末により行われてもよい。

このように、ユーザは、複数の撮像端末１０〜３０、カメラ４０により同時に撮影を行うことも可能である。また、第２の撮影端末２０、第３の撮影端末３０、カメラ４０はユーザが装着した状態で使用されるので、ユーザは、例えば撮像端末の操作を意識することなく撮影し続けることも容易にできる。

ここで、長時間撮影した動画像をユーザが後から編集や視聴等する際に、所望の画像がどの時点に記録されているかを見つけ出すのは、撮影時間が長くなるほど難しくなる。そこで、本開示における情報処理装置の機能を有する装置により、撮影された動画像に対して、ユーザが後で確認したいと思われる時間位置にタグとなる情報を付与する。これにより、ユーザは当該情報を用いて後から所望の画像を容易に特定することが可能となる。

［１．２．機能構成］
次に、本開示における情報処理装置の機能を有する装置による動画像の処理について説明する。本実施形態では、本開示における情報処理装置の機能を、撮影端末が備えるものとして説明するが、例えば撮影端末により取得された動画像がアップロードされるサーバが備えてもよい。図４に、情報処理端末１００およびサーバ２００の機能構成の一例を示す。

（１）撮影端末
本実施形態に係る撮影端末１００は、例えば図１に示した撮影端末１０〜３０やカメラ４０である。撮影端末１００は、図４に示すように、撮像部１１０と、音声取得部１２０と、表示部１３０と、制御部１４０と、演算部１５０と、通信部１６０と、記憶部１７０と、バッテリ１８０とを備える。撮影端末１００は、バッテリ１８０からの駆動電力の供給を受けて、各機能部を機能させる。

撮像部１１０は、画像データを取得する機能部であり、撮像素子やレンズ等からなる。撮像素子としては、例えばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）イメージセンサ、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）イメージセンサ等を用いてもよい。レンズを介して撮像素子により取得された画像データは、制御部１４０により記憶部１７０に記録される。

音声取得部１２０は、音声データを取得する機能部であり、例えばマイク等を用いることができる。音声取得部１２０は、制御部１４０により撮像部１１０と連動して機能するように制御されることで、撮影部１１０により取得された画像データに対応する音声データを取得することができる。音声取得部１２０は、単体で機能することもでき、その場合には撮影端末１００は音声データのみを取得する。音声取得部１２０により取得された音声データは、制御部１４０により記憶部１７０に記録される。

表示部１３０は、情報を表示する機能部であり、例えば液晶ディスプレイや有機ＥＬディスプレイ等を用いることができる。表示部１３０は、制御部１４０により表示制御され、取得している画像データや撮影端末１００の各種設定画面等が表示される。

制御部１４０は、撮影端末１００の機能全般を制御する機能部である。制御部１４０は、例えば、撮像部１１０や音声取得部１２０を制御して画像データや音声データを取得させ、取得された画像データや音声データを記憶部１７０に記録する。また、制御部１４０は、記憶部１７０に記録された画像データや音声データを、通信部１６０を介してサーバ２００へ送信する。さらに制御部１４０は、画像データにフレーム特定情報を付与するための演算処理や、その他の各種演算処理を実行させたり、バッテリ１８０の管理等もしたりする。

制御部１４０により処理される各情報は、撮影端末１００の記憶部１７０にバッファされた後、サーバ２００に送信されてもよい。また、制御部１４０は、画像データが動画像であるとき、画像データを適宜サーバに送信させるようにしてもよい。このとき、制御部１４０は、記憶部１７０に記憶している画像データのうち、予め設定された所定時間以前の記録内容を削除するようにしてもよい。これにより、撮影端末１００の記憶部１７０の記録容量が圧迫されるのを低減することができる。

演算部１５０は、撮影端末１００における各種演算処理を行う機能部である。演算部１５０は、制御部１４０の指示を受けて演算処理を実行し、演算結果を制御部１４０に返す。ここで、本実施形態に係る撮影端末１００の演算部１５０は、画像データにフレーム特定情報を付与するための演算処理を実行する。このため、演算部１５０は、図５に示すように、特定指示情報抽出部１５２と、フレーム抽出部１５４と、フレーム特定情報付与部１５６とを備える。

特定指示情報抽出部１５２は、音声データを解析して特定指示情報を抽出する。特定指示情報は、画像データにおいてユーザが後から確認したい画像（フレーム）を抽出するために用いる情報である。本実施形態では、特定指示情報として、予め設定された特定コマンドを抽出する。特定コマンドは、例えば記憶部１７０に予め記憶されている。特定指定情報抽出部１５２は、音声データから特定コマンドを抽出し、フレーム抽出部１５４へ出力する。

フレーム抽出部１５４は、画像データから特定指示情報と相関のある１または複数のフレームを抽出する。ここで、特定指示情報と相関があるフレームは、例えば、特定指示情報として「１０分前」という音声コマンドが入力された場合であれば、１０分間のフレームが該当する。フレーム抽出部１５４は、例えば音声コマンドが場所や人物などに関する場合等には、これらの相関の程度を定量化してもよい。このとき、フレーム抽出部１５４は、予め設定された所定の閾値に基づいて、これらの相関の高さを判断することが可能となる。フレーム抽出部１５４は、特定指示情報である特定コマンドにより指定された内容と関連性の高いフレームを画像データから抽出し、フレーム特定情報付与部１５６に出力する。

フレーム特定情報付与部１５６は、フレーム抽出部１５４により抽出されたフレームに対して、当該フレームを特定するためのフレーム特定情報を付与する。フレーム特定情報は、ユーザが後から確認したい画像（フレーム）が存在する画像データ中の時間位置を特定する情報である。フレーム特定情報付与部１５６によってフレーム特定情報が付与された画像データは、制御部２２０によって記憶部１７０に記録される。

制御部１４０および演算部１５０は、本開示の情報処理装置の機能を有する機能部であり、例えばＣＰＵ等により実現される。

図４の説明に戻り、通信部１６０は、ネットワークあるいはケーブル等を介して通信可能に接続されたサーバ等と情報の送受信を行う機能部である。撮影端末１００の通信部１６０は、記憶部１７０に記録された画像データや音声データをサーバ２００へ送信する。また、撮影端末１００は、通信部１６０を介して、サーバ２００から各種情報を受信してもよい。

記憶部１７０は、撮像部１１０や音声取得部１２０により取得された画像データや音声データを記憶する。画像データおよび音声データが同時に取得されたものである場合には、これらは関連付けて記憶される。記憶部１７０に記録される情報には、例えば図６に示すように、撮像部１１０により取得された画像データの動画像ファイルや音声取得部１２０により取得された音声データの音声ファイルの他、メタデータファイル、フレーム特定情報、外部情報等がある。

メタデータファイルには、ＧＰＳ位置情報や記録時刻等のような画像データ取得時の情報や、画像データを解析して取得されたシーン情報や顔認識情報等の画像データの内容に関する情報等が含まれる。フレーム特定情報は、画像データにおいて所定のフレームを特定するために付与される情報であり、例えば、特定されたフレームであることを示すマーキング情報や、マーキング情報を付した時刻であるマーク指示時刻情報等が含まれる。また、フレーム特定情報には、フレームの内容に対するユーザの興味の程度を示す確度情報や特定指示情報と特定されたフレームとの相関の程度を表す情報を含んでもよい。さらに、ＳＮＳサービスにて提供されるチェックイン情報等のように、外部サービスにより取得される情報を外部情報として記憶してもよい。

また、記憶部１７０は、演算部１５０において画像データにフレーム特定情報を付与するために必要なデータ等を記憶する。演算部１５０にて用いられるデータとしては特定コマンド等がある。特定コマンドは、記憶部１７０に予め記憶される情報であるが、適宜更新可能である。なお、画像データや音声データと、特定コマンド等の予め記憶される情報とは、異なる記録媒体に記憶するようにしてもよい。記憶部１７０に記憶されたデータは、制御部１４０により、通信部１６０を介してサーバ２００へ送信してもよい。

（２）サーバ
サーバ２００は、撮影端末１００により取得された画像データを管理する情報処理装置であって、撮影端末１００から受信した画像データや音声データを保持する。サーバ２００は、図４に示すように、通信部２１０と、制御部２２０と、演算部２３０と、記憶部２４０とを備える。

通信部２１０は、ネットワークあるいはケーブル等を介して通信可能に接続された撮影端末１００等と情報の送受信を行う機能部である。サーバ２００の通信部２１０は、画像データや音声データを撮影端末１００から受信し、制御部２２０に通知する。また、サーバ２００は、通信部２１０を介して、各種情報を撮影端末１００へ送信してもよい。

制御部２２０は、サーバ２００の機能全般を制御する機能部である。制御部２２０は、例えば、撮影端末１００から受信した画像データや音声データを記憶部２４０に記録する。また、制御部２２０は、演算部２３０に対して各種演算処理を実行させる。

演算部２３０は、サーバ２００における各種演算処理を行う機能部である。演算部２３０は、制御部２２０の指示を受けて演算処理を実行し、演算結果を制御部２２０に返す。制御部２２０および演算部２３０は、例えばＣＰＵ等により実現される。なお、サーバ２００側にて本開示の情報処理装置の機能を有する機能部を有するときには、演算部２３０が、上述の特定指示情報抽出部、フレーム抽出部、およびフレーム特定情報付与部を備えることになる。

記憶部２４０は、画像データや音声データを記憶する。なお、サーバ２００側にて本開示の情報処理装置の機能を有する機能部を有するときには、記憶部２４０に、特定コマンド等の、演算部２３０において画像データにフレーム特定情報を付与するために必要なデータも記憶される。

［１．３．音声を利用した動画像への特定フレーム情報付与処理］
図６〜図９に基づいて、本実施形態に係る撮影端末１００での音声を利用した動画像への特定フレーム情報付与処理について説明する。なお、図６は、記憶部に記録される情報例を示す説明図である。図７は、本実施形態に係る音声を利用した動画像への特定フレーム情報付与処理を示すフローチャートである。図８は、特定コマンドとそれにより画像データから抽出される内容との一例を示す説明図である。図９は、特定コマンドによるフレーム抽出処理を説明する説明図である。

音声を利用した動画像への特定フレーム情報付与処理は、例えば、撮影端末１００により動画像の取得が行われたタイミングで開始される。撮像部１１０による撮影が開始されると、演算部１５０は、制御部１４０からの指示を受けて、特定指示情報抽出部１５２により、音声データを解析して特定コマンドを抽出する（Ｓ１００）。ステップＳ１００において、特定指示情報抽出部１５２は、記憶部１７０に記憶されている特定コマンドを音声データから抽出する。

特定コマンドの例を図８に示す。図８に示す例では、例えば“Ｒｅｃｏｒｄ〜〜”という特定コマンドを用いて、抽出したいフレームの時間位置の指定や、抽出する特定の人物、物体、場所等の指定を行うことができる。このとき、特定指示情報抽出部２３２は、少なくとも“Ｒｅｃｏｒｄ”に続く音声内容を確認し、画像データから当該特定コマンドで指定された内容を認識する。また、“Ｓｔｏｐｒｅｃｏｒｄ”のように先の特定コマンドを停止させる特定コマンド等もある。特定コマンドには、“Ｃａｐｔｕｒｅ”、“Ｒｅｐｒｏｄｕｃｅ”、“Ｍｏｖｅ”、“Ｓｅｌｅｃｔ”等のように、フレームの特定の仕方や機器操作等に関するコマンドを含んでもよい。

特定指示情報抽出部１５２は、音声データから特定コマンドを抽出するまで、音声データの解析を続ける（Ｓ１１０）。そして、特定コマンドが抽出されると、フレーム抽出部１５４により特定コマンドに相関する情報を含むフレームが画像データから抽出される（Ｓ１２０）。

例えば、特定コマンドとして時間情報が入力された場合には、指定された時間情報に対応するフレームが抽出される。具体例として、特定コマンド“Ｒｅｃｏｒｄｔｈａｔ”が入力された場合を考えると、特定コマンド“Ｒｅｃｏｒｄｔｈａｔ”の入力により、フレーム抽出部１５４は、現時点からさっきの時点を／からフレーム抽出を行う。すなわち、図９に示すように、フレーム抽出部１５４は、予め設定された「さっきの時点」に対応する所定時間を起点として、起点の前後所定時間（期間Ａ）または起点以後現在までの期間（期間Ｂ）のフレームを抽出する。

すなわち、例えば「さっきの時点」に対応する所定時間が１０分、起点を基準とした前後の時間が１０分に設定されている場合、特定コマンドが発生されてから１０分前を起点とし、その前後５分ずつ、または、１０分前から現在までの期間のフレームが抽出される。あるいは、フレーム抽出部１５４は、起点以後のフレームを指示があるまで継続して抽出対象としてもよい（期間Ｃ）。この「さっきの時間」に対応する所定時間及び起点を基準とした前後時間は任意に設定可能である。

また、例えば、特定コマンドとして場所や人物・物体等の被写体が指定された場合には、フレーム抽出部１５４は、予め画像データに付加されている付加情報や、機械学習の結果得られた推測情報等に基づき、フレームを抽出する。予め画像データに付加されている付加情報としては、例えば、位置情報（動画像を取得したときのＧＰＳ位置情報や、ＳＮＳサービスにて提供されるチェックイン情報等）や、予め登録された顔画像と照合した人物情報等がある。このような付加情報を用いて、ユーザが指定した場所や被写体が含まれる画像データのフレームを抽出することができる。付加情報は、別の装置やサービスから取得し、同期されたものでも構わない。

例えば、“Ｒｅｃｏｒｄ五反田駅”との音声コマンドにより五反田駅が指定されたとする。このとき、フレーム抽出部１５４は、図１０に示すように、画像データ中の五反田駅の看板３１０に含まれる文字情報を認識したり、予め登録されている五反田駅の画像情報とのマッチング等の処理を行うことで、五反田駅と相関の高いフレームを抽出する。あるいは、フレーム抽出部１５４は、五反田駅に対する距離に応じて、五反田駅との相関のあるフレームを抽出してもよい。すなわち、相関の程度を指定された対象との距離で表す。例えば、フレーム抽出部１５４は、五反田駅から所定範囲で取得されたフレームを、五反田駅と相関のあるフレームとして判断し、抽出する。

また、“ＲｅｃｏｒｄＸＸさん”との音声コマンドにより五反田駅が指定されたとする。このとき、フレーム抽出部１５４は、予め登録されたＸＸさんの顔画像と、画像データの各フレームについて認識された顔画像とのマッチングを行い、図１０に示すように、ＸＸさんの顔画像３２０が含まれたフレームを特定する。

さらに、付加情報としては、スケジュール情報や、ログ収集端末により収集されたユーザの行動に関する動き情報や、当該動き情報から行動認識処理により得られた行動認識情報等も利用できる。また、買い物中やドライブ中等の、撮影しているシーン（環境）情報を、画像データに付加情報として付加するようにしてもよい。シーン情報は、撮像された動画像の変化や、付加情報の変化等に基づいて、シーンに変化があった可能性を判断して生成される情報である。シーン情報により、例えば音声により指定された特定シーンのフレーム抽出や、シーンが変化したときのフレーム抽出が可能となる。さらに、ユーザのジェスチャにより、抽出するフレームを特定してもよい。例えば、現在の撮影対象としている被写体を記録する場合に、ユーザが被写体を指差しするジェスチャを行ったことを認識すると、フレーム抽出部１５４は、この被写体を含むフレームを抽出する。

フレーム抽出部１５４により画像データから特定コマンドに対応する情報を含むフレームが抽出されると、フレーム特定情報付与部１５６は、抽出されたフレームに対してフレーム特定情報を付与する（Ｓ１３０）。フレーム特定情報は、抽出されたフレームを後から特定しやすくするために画像データに関連付けて記録される情報である。フレーム特定情報が付与されることで、ユーザは後からフレーム特定情報を用いて所望のフレームを容易に特定することができる。フレーム特定情報は、特定すべきフレームに関する情報が含まれており、例えば、特定されたフレームであることを示すマーキング情報や、マーキング情報を付した時刻であるマーク指示時刻情報等が含まれる。マーキング情報は、例えば「０」、「１」で表されるフラグ等の情報であってもよい。なお、フレーム特定情報は、フレームと同時に記録される必要はない。

ここで、フレーム特定情報を付与するフレームは、ステップＳ１２０の処理により推定して抽出されたフレームである。そこで、フレーム特定情報に、ユーザが抽出したフレームに対してどの程度興味があるか、すなわち、このフレームの情報をユーザが後からどの程度見たいと思うかを表す確度情報を含めてもよい。確度情報は、例えば音声コマンドと動画像の各フレームとの相関関係に基づき判断することができる。フレーム特定情報に確度情報を含めることで、例えば、ユーザは後からフレーム特定情報を用いて所望のフレームを探す際に、確度情報によりユーザが強く興味を示したフレームのみを特定することも可能となる。

ステップＳ１１０〜Ｓ１３０の処理は、例えば撮像部１１０による撮影が終了するまで繰り返し行われる（Ｓ１４０）。制御部１４０は、撮像部１１０による撮影を停止させると、画像データへのフレーム特定情報の付与の処理も終了させる。

以上、第１の実施形態に係る音声を利用した動画像への特定フレーム情報付与処理について説明した。本実施形態では、特定指示情報として音声データから特定コマンドを特定し、特定コマンドにより指定された情報と相関の高いフレームを画像データから抽出し、当該フレームに対してフレーム特定情報を付与する。これにより、ユーザは後からフレーム特定情報を用いて所望のフレームを容易に特定することができる。例えば、ユーザは、当該フレーム特定情報に対応するフレーム、あるいはその前後所定時間のフレームを特定して再生して視聴することができる。

＜２．第２の実施形態＞
次に、図１１および図１２に基づいて、本開示の第２の実施形態に係る音声を利用した動画像への特定フレーム情報付与処理について説明する。本実施形態に係る処理では、フレームの抽出に利用する特定指示情報を、ユーザが自由に発話した音声データに基づき設定する点で、第１の実施形態と相違する。以下、第１の実施形態との相違点を主として、本実施形態に係る音声を利用した動画像への特定フレーム情報付与処理について説明する。なお、撮影端末１００およびサーバ２００の構成は図４に示したものと同一とすることができるため、ここでは説明を省略する。

［２．１．音声を利用した動画像への特定フレーム情報付与処理］
図１１および図１２に基づいて、本実施形態に係る撮影端末１００での音声を利用した動画像への特定フレーム情報付与処理について説明する。なお、図１１は、本実施形態に係る音声を利用した動画像への特定フレーム情報付与処理を示すフローチャートである。図１２は、特定指示情報とその具体例の一例を示す説明図である。

本実施形態に係る音声を利用した動画像への特定フレーム情報付与処理も、例えば、撮影端末１００により動画像の取得が行われたタイミングで開始される。撮像部１１０による撮影が開始されると、演算部１５０は、制御部１４０からの指示を受けて、特定指示情報抽出部１５２により、音声データを解析して特定指示情報を抽出する（Ｓ２００）。ステップＳ２００において、特定指示情報抽出部１５２は、音声データとして取得されたユーザの発話内容や周囲の音等を解析して、特定指示情報となる音声内容を抽出する。

特定指示情報となる音声内容の例を図１２に示す。図１２に示すように、特定指示情報としては、例えば、時間、場所、被写体、動作、状況、トリガとなる音声等がある。ここで、時間に関しては、「○分前」等の定量的な情報と、「さっきの」等の非定量的情報とがある。非定量的情報については、当該情報に対して所定の時間幅を予め設定しておき、それに基づき抽出するフレームを指定するようにしてもよい。場所や被写体に関しても、非定量的情報について、予め対応する明示的情報を設定してもよい。

また、動作としては、「歩いた」、「走った」、「電車に乗った」、「眠った」等、付加情報も参照して画像データを解析することにより認識可能な行動を表す音声内容が抽出される。状況についても、「雨が降っている」、「食事をしている」等、例えばシーン情報から特定可能な状況を表す音声内容が抽出される。

一方で、特定指示情報には、上述のような時間、場所、人物、動作等に関する「どのフレームを特定すべきか」という情報とは別に、「フレームの特定を開始するべきかどうか」を判断するための開始判断情報も含まれる。開始判断情報は、例えば図１２に示すようなトリガとなる音声を受け付けた際にフレームを特定する処理を行うかどうかを、２値的（すべき、すべきでない）に設定する情報である。したがって、特定指示情報抽出部１５２は、「フレームの特定を開始するべき」という情報が関連付けられるユーザの発声が検出された場合のみ、フレーム抽出部１５４にフレームを特定する処理を実行させる。特定指示情報抽出部１５２は、フレーム抽出部１５４がトリガとなる音声に基づきユーザの興味があることを判断してフレームの特定を開始するために、このような音声を特定指示情報として抽出する。このような特定指示情報抽出部１５２により抽出する音声内容は、記憶部１７０に予め設定される。

特定指示情報抽出部１５２は、音声データから特定指示情報となる音声内容を抽出するまで、音声データの解析を続ける（Ｓ２１０）。そして、特定指示情報となる音声内容が抽出されると、特定指示情報抽出部１５２は、当該音声内容により指定される具体的な抽出対象を設定する（Ｓ２２０）。上述したように、音声内容には非定量的情報も含まれているため、そのままでは画像データから音声内容に対応するフレームを適切に特定することができない。そこで、特定指示情報抽出部１５２は、抽出した音声内容そのままではフレームを抽出できないものについては、予め設定されている非定量的情報に対応する明示的情報を記憶部１７０から取得して、抽出対象を明らかにする。

その後、フレーム抽出部１５４により音声内容に対応する情報を含むフレームが画像データから抽出される（Ｓ２３０）。フレーム抽出部１５４は、開始判断情報を受けて、フレームの特定を開始する。開始判断情報は、ステップＳ２００にて抽出されたトリガとなる音声や、例えばユーザが立ち止まったり、視線が一定時間注がれていたりする等、ユーザの行動推定結果を用いてもよい。フレーム抽出部１５４は、ユーザの行動推定結果に基づきユーザが興味を持ったことを判断し、フレームの特定を開始してもよい。音声内容に対応する情報を含むフレームの抽出は、第１の実施形態と同様に、画像データを解析して行われる。また、必要に応じて、画像データに付加された付加情報を参照し、画像データからフレームを抽出してもよい。

フレーム抽出部１５４により画像データから特定コマンドに対応する情報を含むフレームが抽出されると、フレーム特定情報付与部１５６は、抽出されたフレームに対してフレーム特定情報を付与する（Ｓ２４０）。フレーム特定情報が付与されることで、ユーザは後からフレーム特定情報を用いて所望のフレームを容易に特定することができる。フレーム特定情報には、確度情報を含めてもよい。

ステップＳ２１０〜Ｓ２４０の処理は、例えば撮像部１１０による撮影が終了するまで繰り返し行われる（Ｓ２５０）。制御部１４０は、撮像部１１０による撮影を停止させると、画像データへのフレーム特定情報の付与の処理も終了させる。

以上、第２の実施形態に係る音声を利用した動画像への特定フレーム情報付与処理について説明した。本実施形態では、特定指示情報として音声データに含まれるユーザの発話内容や周囲の音声に含まれる所定の音声内容を特定し、音声内容により指定された情報と相関の高いフレームを画像データから抽出し、当該フレームに対してフレーム特定情報を付与する。これにより、ユーザは後からフレーム特定情報を用いて所望のフレームを容易に特定することができる。

なお、本実施形態では、特定指定情報として、音声データに含まれるユーザの発話内容や周囲の音声に含まれる所定の音声内容を用いる場合について説明したが、これらの情報に加えて、第１の実施形態にて利用した特定コマンドを含めてもよい。

＜３．第３の実施形態＞
［３．１．ディスプレイを利用したユーザによるフレーム特定処理］
上述の実施形態では、音声データに基づき特定指示情報を設定し、当該特定指示情報と相関の高いフレームを抽出してフレーム特定情報を設定している。このとき、ユーザによってフレームの内容を確認しながらフレーム特定情報を設定できるようにしてもよい。以下、図１３〜図１６に基づいて、本開示の第３の実施形態に係るディスプレイを利用したユーザによるフレーム特定処理について説明する。図１３は、ユーザが見ている画像を示すメインウィンドウ４００とフレーム確認ウィンドウ５００との一例を示す説明図である。図１４〜図１６は、フレーム確認ウィンドウ５００を用いたユーザによるフレーム特定処理を示す説明図である。

例えば、ユーザがヘッドマウントディスプレイ等のウェアラブル端末を装着し、カメラにより撮影されている外界の画像をスルー画として見ているとする。このスルー画は、記録もされている。このような状態において、上述の実施形態に係る処理を適用すると、ユーザが特定コマンド等を発話することで、記録されているスルー画の画像データにフレーム特定情報を付与することができる。さらに本実施形態では、フレーム特定情報を付与するフレームを設定する画面を表示させ、ユーザによりフレームを設定することもできる。

制御部１４０は、ユーザの指示を受けて、スルー画が表示されるメインウィンドウ４００の一部にフレーム確認ウィンドウ５００を表示させる。ユーザが音声によりフレーム確認ウィンドウ５００を表示させる指示を行う場合、例えば図８に示したような特定コマンドを利用してもよい。フレーム確認ウィンドウ５００は、例えば図１３に示すように、メインウィンドウ４００の左上の一部領域に表示される。フレーム確認ウィンドウ５００は、例えばスルー画の表示を大きく妨げない大きさで表示される。

フレーム確認ウィンドウ５００が表示されると、ユーザは、例えば音声により、フレーム特定情報を付与するフレームが含まれる候補シーンの表示を指示する。制御部１４０は、ユーザの指示を受けて、演算部１５０に画像データから該当する候補シーンを抽出させ、候補シーンに含まれるフレームの一部を表示部１６０のフレーム確認ウィンドウ５００に表示させる。例えば、ユーザが現在から１０分前に抽出されたシーンの表示を指示すると、例えば図１４に示すように、画像データから現在から１０分前を起点として所定時間内のシーンが特定される。そして、このシーンの代表的なフレームのサムネイル５２Ａ〜５２Ｃからなるサムネイル群５２０がフレーム確認ウィンドウ５００に表示される。

フレーム確認ウィンドウ５００に表示されるサムネイルは、シーン中の代表的なフレーム以外にも、当該シーンを時分割して生成された複数のサムネイルや、シーンの始点と終点のサムネイル等であってもよい。

また、フレーム確認ウィンドウ５００には、図１４に示すように、タイムラインインジケータ５１０や、選択操作オブジェクト５３０等が表示される。タイムラインインジケータ５１０は、時間軸を示すタイムライン５１２と、画像データ全体におけるシーンの位置を表すバー５１４が表示されている。選択操作オブジェクト５３０は、過去に向かって特定シーンを移動させるための第１オブジェクト５３２、現在に向かって特定シーンを移動させるための第２オブジェクト５３４、フレーム特定情報を付与する付与オブジェクト５３６からなる。

ユーザは、例えば上述の“Ｍｏｖｅ”コマンドや視線による選択操作オブジェクト５３０の操作により、特定シーンの位置や特定シーンの長さを変更できる。例えば、図１４にて特定されているシーンから過去のシーンに移動させる操作がされると、図１５に示すように、さらに所定時間だけ過去に撮影されたシーンが特定され、特定されたシーンのサムネイル５２Ｄ〜５２Ｆが表示される。

また、ユーザは、音声や視線による選択操作オブジェクト５３０の操作により、フレーム特定情報を付与するフレームに対応するサムネイルを選択し、付与オブジェクト５３６を選択すると、そのサムネイルに対応するフレームにフレーム特定情報が付与される。例えば、図１５の例では、サムネイル５２Ｄが選択されており、このときサムネイル５２Ｄには選択されている状態がわかるように選択枠が付与されている。この状態で付与オブジェクト５３６を選択すると、サムネイル５２Ｄに対応するフレームにフレーム特定情報が付与される。また、この際、シーンの始点を選択するメッセージを表示させて、あるシーンを含む所定期間のフレームを選択するか否かをユーザに選択させてもよい。

なお、サムネイル群５２０を表示している特定シーンの長さを変化させた場合には、新たに設定された特定シーンの長さに応じて、サムネイル群５２０を構成するサムネイルの表示内容も変化する。例えば、図１６に示すように、特定シーンの長さを短くすると、サムネイル群５２０を構成するサムネイル５２Ｄ_１〜５２Ｄ_３もコマ送りのように細かく表示させることができる。これにより、フレーム特定情報を付与したい位置を正確に特定することができる。

ユーザによりフレーム特定情報を付与する指示が入力されると、制御部１４０は、画像データにフレーム特定情報を関連付けて、記憶部１７０に記録する。

以上、第３の実施形態に係るディスプレイを利用したユーザによるフレーム特定処理について説明した。本実施形態に係るフレーム特定処理により、ユーザは、意図するフレームに対して正確にフレーム特定情報を付与することができる。なお、本実施形態に係るディスプレイを利用したユーザによるフレーム特定処理は、上述の第１の実施形態または第２の実施形態の処理と組み合わせて適用してもよい。これにより、自動的に特定されたフレーム特定情報を付与するフレームに基づいて、ユーザが修正することができ、ユーザの操作負荷が軽減される。

［３．２．具体例］
（１）特定コマンドで指示する場合の具体的動作
第３の実施形態に係る処理の具体例として、まず、図１７および図１８に基づいて特定コマンドで指示する場合の具体的動作を説明する。本例では、時間および人物でフレームを抽出する場合について説明する。

図１７に示すように、まず“Ｒｅｃｏｒｄｔｈａｔ”との音声による特定コマンドが入力されたとする。かかる音声入力を受けて、演算部１５０は、“ｔｈａｔ”に対応する所定時間として設定された１５分前を起点としたシーンを自動検出し、フレーム確認ウィンドウ５００に代表サムネイル５２Ａ〜５２Ｃを表示させる。なお、表示するサムネイル数は任意に設定可能である。次に、ユーザが“Ｍｏｖｅｂａｃｋ１０ｍｉｎｕｔｅｓ”との音声による特定コマンドを入力したとする。これを受けて、演算部１５０は、さらに１０分前のシーンの代表サムネイル５２Ｄ〜５２Ｆをフレーム確認ウィンドウ５００に表示させる。

その後、図１８に示すように、“ＲｅｃｏｒｄＸＸさん”との音声による特定コマンドが入力されたとする。かかる音声入力を受けて、演算部１５０は、ＸＸさんに関連するサムネイル５２Ｄを抽出する。そして、“Ｓｅｌｅｃｔｂｅｆｏｒｅ”との音声による特定コマンドが入力されると、演算部１５０は、指示されるまでサムネイル５２Ｄより過去のサムネイル５２Ｄ_１、５２Ｄ_２、５２Ｄ_３、・・・を順に表示していく。その後、想定するサムネイル５２Ｄ_ｉが現れ、ユーザから“ＯＫ”の特定コマンドが入力されると、演算部１５０は、当該サムネイル５２Ｄ_ｉに対応するフレームに対してフレーム特定情報を付与し、記録する。

（２）特定コマンド以外の音声で指示する場合の具体的動作
第３の実施形態に係る処理の他の具体例として、図１９に基づいて特定コマンド以外の音声で指示する場合の具体的動作を説明する。

図１９に示すように、例えばユーザが「さっき五反田でラーメン食べてるときのＸＸの顔、凄かった！！」と言ったとする。この音声に基づき、演算部１５０は、特定指示情報として、以下の音声内容を抽出する。
・時間情報：「さっき」「ラーメン食べてるとき」
・場所情報：「五反田」
・被写体情報：「ＸＸ」
・トリガ音声情報：「凄かった！！」

演算部１５０は、抽出した音声内容を特定指示情報として、画像データから当該内容を含むシーンを特定する。シーンの特定は、例えば特定情報を以下のような抽出条件として設定することで行われる。
・時間情報：「さっき」「ラーメン食べてるとき」
「さっき」 →例えば３時間前までを優先し、見つからなければそれ以前も検索
「ラーメン食べてるとき」 →ラーメンが現れたフレーム前後を優先
・場所情報：「五反田」
「五反田」 →位置情報であるＧＰＳ情報を用いて、または画像認識により
画像中の建物や看板を認識して、五反田で撮影されたフレームを優先
・被写体情報：「ＸＸ」
「ＸＸ」→顔認識により人物ＸＸが写っているシーンを特定

その後、特定されたシーンにおけるフレームを解析して、トリガ音声情報「凄かった！！」に対応する候補を抽出し、「凄かった！！」と推定されるものが写っている１または複数のサムネイル５２Ａ〜５２Ｃを特定する。本実施形態においては、サムネイル５２Ａ〜５２Ｃがフレーム確認ウィンドウ５００に表示される。そして、ユーザがサムネイルを選択し“ＯＫ”の特定コマンドを入力すると、演算部１５０は、選択されたサムネイルに対応するフレームに対してフレーム特定情報を付与し、記録する。

＜４．ハードウェア構成例＞
最後に、本実施形態に係る撮影端末１００、サーバ２００のハードウェア構成例について説明する。これらの機器は同様に構成することができるため、以下では、撮影端末１００を例として説明する。図２０は、本実施形態に係る撮影端末１００のハードウェア構成を示すハードウェア構成図である。

本実施形態に係る撮影端末１００は、上述したように、コンピュータ等の処理装置により実現することができる。撮影端末１００は、図２０に示すように、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３と、ホストバス９０４ａとを備える。また、撮影端末１００は、ブリッジ９０４と、外部バス９０４ｂと、インタフェース９０５と、入力装置９０６と、出力装置９０７と、ストレージ装置９０８と、ドライブ９０９と、接続ポート９１１と、通信装置９１３とを備える。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って撮影端末１００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバスなどから構成されるホストバス９０４ａにより相互に接続されている。

ホストバス９０４ａは、ブリッジ９０４を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９０４ｂに接続されている。なお、必ずしもホストバス９０４ａ、ブリッジ９０４および外部バス９０４ｂを分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置９０６は、マウス、キーボード、タッチパネル、ボタン、マイク、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などから構成されている。出力装置９０７は、例えば、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置およびランプなどの表示装置や、スピーカなどの音声出力装置を含む。

ストレージ装置９０８は、撮影端末１００の記憶部の一例であり、データ格納用の装置である。ストレージ装置９０８は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置９０８は、ハードディスクを駆動し、ＣＰＵ９０１が実行するプログラムや各種データを格納する。

ドライブ９０９は、記憶媒体用リーダライタであり、撮影端末１００に内蔵、あるいは外付けされる。ドライブ９０９は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。

接続ポート９１１は、外部機器と接続されるインタフェースであって、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などによりデータ伝送可能な外部機器との接続口である。また、通信装置９１３は、例えば、通信網５に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置９１３は、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）対応通信装置であっても、ワイヤレスＵＳＢ対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上記実施形態では、画像データの解析処理、フレーム特定情報の付与処理を撮影端末１００で行ったが、本技術はかかる例に限定されず、サーバ２００側で行ってもよい。この場合、撮影端末１００により画像データおよび音声データが取得されると、所定のタイミングでこれらのデータがサーバ２００へ送信される。データ送信のタイミングは、例えば、ユーザが操作して撮影端末１００をサーバ２００に接続した時や、所定の時間間隔等としてもよい。あるいはリアルタイムに撮像端末１００からサーバ２００へデータ送信してもよい。サーバ２００は、画像データおよび音声データを受信すると、制御部２２０は、演算部２３０に対して、画像データへ特定フレーム情報を付与する処理を実行するよう指示する。

また、上記実施形態では、入力された音声に基づき特定指示情報を設定したが、音声による入力を行うことができない場合には、例えば表示部に表示されたＧＵＩを用いて特定指示情報を設定できるようにしてもよい。例えば図２１に示すように、時間情報や場所情報、人物情報等の定型の選択タブ６１０、６２０、６３０を表示して、ユーザが選択して設定できるようにしてもよい。例えば時間選択タブ６１０であれば、「１時間前」タブ６１１、「３０分前」タブ６１２、「１０分前」タブ６１３、「５分前」タブ６１４、「１分前」タブ６１５があり、ユーザはいずれかを選択して時間に関する特定指示情報を設定する。

このようなＧＵＩを用いた設定は、特定指示情報の設定のために単独で用いてもよく、音声指示前の時間や場所等の大枠の指示や、音声指示後の候補シーン提示（例えば、サムネイルを複数提示、等。）といった音声指示に対する補助として用いてもよい。

さらに、上記実施形態ではフレーム特定情報付与後の画像データの処理については特に言及しなかったが、例えば、動画像記録後に所定時間が経過するとフレーム特定情報に対応するフレームまたはその前後所定時間内のフレーム以外を消去するようにしてもよい。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
入力された音声に応じて設定される特定指示情報に基づき、動画像における１または複数のフレームを抽出し、前記抽出されたフレームを特定するフレーム特定情報を記憶部に記録させる処理部を備える、情報処理装置。
（２）
前記特定指示情報は、入力された音声を解析して設定される、前記（１）に記載の情報処理装置。
（３）
前記音声は、前記動画像の取得とともに取得された音声である、前記（２）に記載の情報処理装置。
（４）
前記特定指示情報は、予め設定された特定コマンドである、前記（１）〜（３）のいずれか１項に記載の情報処理装置。
（５）
前記特定指示情報には、時間情報が含まれる、前記（１）〜（４）のいずれか１項に記載の情報処理装置。
（６）
前記処理部は、動画像の各フレームと前記特定指示情報との相関を解析する、前記（１）〜（５）のいずれか１項に記載の情報処理装置。
（７）
前記処理部は、前記相関が所定よりも高い場合に、前記１または複数のフレームの抽出を行う、前記（６）に記載の情報処理装置。
（８）
前記処理部は、前記動画像に付加されている付加情報を用いて、前記動画像から前記特定指示情報と相関のある１または複数のフレームを抽出する、前記（６）に記載の情報処理装置。
（９）
前記付加情報は、動画像を取得したときの位置情報、予め登録された顔画像と照合した人物情報、シーン情報のうち少なくともいずれか１つを含む、前記（８）に記載の情報処理装置。
（１０）
前記処理部は、前記動画像を機械学習した結果として得られた推測情報に基づき、前記動画像から前記特定指示情報と相関のある１または複数のフレームを抽出する、前記（６）に記載の情報処理装置。
（１１）
前記処理部は、前記特定指示情報に基づいて抽出された１または複数のフレームを表示部に表示させる、前記（１）〜（１０）のいずれか１項に記載の情報処理装置。
（１２）
動画像を取得する撮像部を備える、前記（１）〜（１１）のいずれか１項に記載の情報処理装置。
（１３）
前記処理部は、前記フレーム特定情報とともに、動画像の各フレームと前記特定指示情報との相関の程度を示す情報も前記記憶部に記録させる、前記（１）〜（１２）のいずれか１項に記載の情報処理装置。
（１４）
前記処理部は、前記抽出された１または複数のフレームを候補フレームとして表示部に提示させる、前記（１）〜（１３）のいずれか１項に記載の情報処理装置。
（１５）
入力された音声に応じて設定される特定指示情報に基づき、動画像における１または複数のフレームを抽出すること、
前記抽出されたフレームを特定するフレーム特定情報を記憶部に記録させこと、
を含む、情報処理方法。
（１６）
コンピュータに、
入力された音声に応じて設定される特定指示情報に基づき、動画像における１または複数のフレームを抽出し、前記抽出されたフレームを特定するフレーム特定情報を記憶部に記録させる処理を実行させるためのプログラム。

１００撮影端末
１１０撮像部
１２０音声取得部
１３０表示部
１４０、２２０制御部
１５０、２３０演算部
１５２特定指示情報抽出部
１５４フレーム抽出部
１５６フレーム特定情報付与部
１６０、２１０通信部
１７０、２４０記憶部
１８０バッテリ
２００サーバ

Claims

入力された音声に応じて設定される特定指示情報に基づき、動画像における１または複数のフレームを抽出し、前記抽出されたフレームを特定するフレーム特定情報を記憶部に記録させる処理部を備える、情報処理装置。
前記特定指示情報は、入力された音声を解析して設定される、請求項１に記載の情報処理装置。
前記音声は、前記動画像の取得とともに取得された音声である、請求項２に記載の情報処理装置。
前記特定指示情報は、予め設定された特定コマンドである、請求項１に記載の情報処理装置。
前記特定指示情報には、時間情報が含まれる、請求項１に記載の情報処理装置。
前記処理部は、動画像の各フレームと前記特定指示情報との相関を解析する、請求項１に記載の情報処理装置。
前記処理部は、前記相関が所定よりも高い場合に、前記１または複数のフレームの抽出を行う、請求項６に記載の情報処理装置。
前記処理部は、前記動画像に付加されている付加情報を用いて、前記動画像から前記特定指示情報と相関のある１または複数のフレームを抽出する、請求項６に記載の情報処理装置。
前記付加情報は、動画像を取得したときの位置情報、予め登録された顔画像と照合した人物情報、シーン情報のうち少なくともいずれか１つを含む、請求項８に記載の情報処理装置。
前記処理部は、前記動画像を機械学習した結果として得られた推測情報に基づき、前記動画像から前記特定指示情報と相関のある１または複数のフレームを抽出する、請求項６に記載の情報処理装置。
前記処理部は、前記特定指示情報に基づいて抽出された１または複数のフレームを表示部に表示させる、請求項１に記載の情報処理装置。
動画像を取得する撮像部を備える、請求項１に記載の情報処理装置。
前記処理部は、前記フレーム特定情報とともに、動画像の各フレームと前記特定指示情報との相関の程度を示す情報も前記記憶部に記録させる、請求項１に記載の情報処理装置。
前記処理部は、前記抽出された１または複数のフレームを候補フレームとして表示部に提示させる、請求項１に記載の情報処理装置。
入力された音声に応じて設定される特定指示情報に基づき、動画像における１または複数のフレームを抽出すること、
前記抽出されたフレームを特定するフレーム特定情報を記憶部に記録させること、
を含む、情報処理方法。
コンピュータに、
入力された音声に応じて設定される特定指示情報に基づき、動画像における１または複数のフレームを抽出し、前記抽出されたフレームを特定するフレーム特定情報を記憶部に記録させる処理を実行させるためのプログラム。