JP2015233188A - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP2015233188A
JP2015233188A JP2014118607A JP2014118607A JP2015233188A JP 2015233188 A JP2015233188 A JP 2015233188A JP 2014118607 A JP2014118607 A JP 2014118607A JP 2014118607 A JP2014118607 A JP 2014118607A JP 2015233188 A JP2015233188 A JP 2015233188A
Authority
JP
Japan
Prior art keywords
information
frame
moving image
unit
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014118607A
Other languages
English (en)
Other versions
JP2015233188A5 (ja
Inventor
重文 田村
Shigefumi Tamura
重文 田村
至 清水
Itaru Shimizu
至 清水
亮介 野村
Ryosuke Nomura
亮介 野村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2014118607A priority Critical patent/JP2015233188A/ja
Priority to US15/305,886 priority patent/US10181337B2/en
Priority to PCT/JP2015/002766 priority patent/WO2015190061A1/en
Priority to EP15729247.5A priority patent/EP3152896A1/en
Priority to CN201580029545.8A priority patent/CN106463155A/zh
Publication of JP2015233188A publication Critical patent/JP2015233188A/ja
Publication of JP2015233188A5 publication Critical patent/JP2015233188A5/ja
Priority to US16/220,606 priority patent/US10541006B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/32Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/32Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
    • G11B27/322Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier used signal is digitally coded
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B31/00Arrangements for the associated working of recording or reproducing apparatus with related apparatus
    • G11B31/006Arrangements for the associated working of recording or reproducing apparatus with related apparatus with video camera or receiver
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N5/9201Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal
    • H04N5/9202Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal the additional signal being a sound signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/163Wearable computers, e.g. on a belt

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Studio Devices (AREA)
  • Television Signal Processing For Recording (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】ユーザが所望する映像を容易に特定するための技術を提供する。
【解決手段】入力された音声に応じて設定される特定指示情報に基づき、動画像における1または複数のフレームを抽出し、抽出されたフレームを特定するフレーム特定情報を記憶部に記録させる処理部を備える、情報処理装置が提供される。
【選択図】図4

Description

本開示は、情報処理装置、情報処理方法およびプログラムに関する。
近年、写真や動画像の撮影は、デジタルカメラ等の従来の撮像装置だけでなく、例えばスマートフォン等の情報通信端末やヘッドマウントディスプレイ等のウェアラブル端末等に搭載されたカメラを用いて行われるようになっている。
米国特許公開第2013/0044042号明細書
一方、動画像を視聴する場合も、設置型のディスプレイやプロジェクタ、スマートフォン、タブレット端末等の利用に加えて、ウェアラブル端末の利用が広まってきている。特に、ウェアラブル端末での撮影は、いつでも容易に行うことができるため、長時間連続して行われることが想定される。ここで、ウェアラブル端末は、機器の構成や使用法の都合上、操作入力するための機能部を十分に提供することができない。このため、長時間の動画像を視聴する際に、所望の動画像を特定するための操作が困難となることが想定される。そこで、ウェアラブル端末等においてもユーザが所望する映像を容易に特定するための技術が望まれている。
本開示によれば、入力された音声に応じて設定される特定指示情報に基づき、動画像における1または複数のフレームを抽出し、抽出されたフレームを特定するフレーム特定情報を記憶部に記録させる処理部を備える、情報処理装置が提供される。
また、本開示によれば、入力された音声に応じて設定される特定指示情報に基づき、動画像における1または複数のフレームを抽出すること、抽出されたフレームを特定するフレーム特定情報を記憶部に記録させること、を含む、情報処理方法が提示される。
さらに、本開示によれば、コンピュータに、入力された音声に応じて設定される特定指示情報に基づき、動画像における1または複数のフレームを抽出し、抽出されたフレームを特定するフレーム特定情報を記憶部に記録させる処理を実行させるためのプログラムが提供される。
本開示によれば、音声に基づき設定された特定指示情報と相関の高いフレームに対してフレーム特定情報を付与して記録することで、ユーザがフレーム特定情報を利用して所望の映像を容易に特定することが可能となる。
以上説明したように本開示によれば、ユーザが所望する映像を容易に特定することが可能となる。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
撮影時のユーザの状態の一例を示す説明図である。 ユーザが持って撮影を行う撮影端末の一構成例を示す概略斜視図である。 ユーザが装着して撮影を行う撮影端末の一構成例を示す概略斜視図である。 本開示の第1の実施形態に係る情報処理端末およびサーバの機能構成を示す機能ブロック図である。 同実施形態に係るサーバの演算部の機能構成を示す機能ブロック図である。 記憶部に記録される情報例を示す説明図である。 同実施形態に係る音声を利用した動画像への特定フレーム情報付与処理を示すフローチャートである。 特定コマンドとそれにより画像データから抽出される内容との一例を示す説明図である。 特定コマンドによるフレーム抽出処理を説明する説明図である。 画像データのフレームにおける場所、人物特定処理を説明するための説明図である。 本開示の第2の実施形態に係る音声を利用した動画像への特定フレーム情報付与処理を示すフローチャートである。 特定指示情報とその具体例の一例を示す説明図である。 本開示の第3の実施形態において、ユーザが見ている画像を示すメインウィンドウとフレーム確認ウィンドウとの一例を示す説明図である。 フレーム確認ウィンドウの一構成例を示す説明図である。 フレーム確認ウィンドウによるフレーム抽出の始点を決定するときの画面内容を示す説明図である。 フレーム確認ウィンドウによるフレーム抽出の終点を決定するときの画面内容を示す説明図である。 特定コマンドで指示する場合の具体的動作を説明する説明図である。 図17に続く、特定コマンドで指示する場合の具体的動作を説明する説明図である。 特定コマンド以外の音声で指示する場合の具体的動作を説明する説明図である。 本開示の実施形態に係る撮影端末のハードウェア構成の一例を示すハードウェア構成図である。 GUIを用いて特定指示情報を設定する場合の一例を示す説明図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
0.概要
1.第1の実施形態(特定コマンド)
1.1.動画像の取得
1.2.機能構成
1.3.音声を利用した動画像への特定フレーム情報付与処理
2.第2の実施形態(自由音声入力)
2.1.音声を利用した動画像への特定フレーム情報付与処理
3.第3の実施形態(ユーザによるフレーム特定処理)
3.1.ディスプレイを利用したユーザによるフレーム特定処理
3.2.具体例
4.ハードウェア構成例
<0.概要>
まず、本開示の実施形態に係る情報処理装置の機能の概要について説明する。本実施形態に係る情報処理装置は、入力された音声に基づき設定された特定指示情報に基づいて、動画像において設定された特定指示情報と相関の高い1または複数のフレームを抽出する装置である。そして、情報処理装置は、このフレームを後から特定しやすくするために、抽出されたフレームに対してタグとなる情報(以下、「フレーム特定情報」ともいう。)を付与する。フレーム特定情報を付与することで、例えば編集時や視聴時等において、フレーム特定情報を用いて所望の動画像を容易に特定することが可能となる。
このような情報処理装置による処理は、入力された音声に基づき特定指示情報が設定されるが、特定指示情報には、予め設定される特定コマンドと、自由音声を解析して得られる情報とがある。
例えば、特定指示情報として特定コマンドが設定されている場合、以下のような状況での本技術の利用が考えられる。
a1)撮影端末により動画像撮影
b1)ユーザが特定コマンド発声(例えば、“Record that”/“Record if XX”)
c1)情報処理装置により、特定コマンドに対応するフレームを抽出(例えば、特定コマンド発声から所定時間前のフレームを抽出/XXさんが登場したシーンのフレームを抽出)
d1)情報処理装置により、抽出したフレームに対してフレーム特定情報を付与し、記録
e1)動画編集やシーンを集めた備忘録集作成等、特定したフレームを後から呼び出したい場合にユーザはフレーム特定情報を利用
一方、入力された音声を解析して得られた情報を特定指示情報として設定する場合には、以下のような状況での本技術の利用が考えられる。
a2)撮影端末により動画像撮影
b2)ユーザが発声(例えば、「そう言えばさっきのあそこにあったアレ、いいよね!」)
c2)情報処理装置により、入力された音声を解析して該当するフレームを抽出(例えば、「さっき」「あそこ」「アレ」等のように、時間、場所、人物や物等の具体物に関連する内容を示す語句を解釈して、該当するフレームを特定)
d2)情報処理装置により、抽出したフレームに対してフレーム特定情報を付与し、記録
e2)動画編集やシーンを集めた備忘録集作成等、特定したフレームを後から呼び出したい場合にユーザはフレーム特定情報を利用
以下、このような技術を提供する情報処理装置の構成と具体的な処理について、詳細に説明していく。
<1.第1の実施形態>
[1.1.動画像の取得]
まず、図1〜図3に基づいて、本開示における情報処理装置の機能を有する装置により処理される動画像の取得について説明する。なお、図1は、撮影時のユーザの状態の一例を示す説明図である。図2は、ユーザが持って撮影を行う撮影端末10の一構成例を示す概略斜視図である。図3は、ユーザが装着して撮影を行う撮影端末20の一構成例を示す概略斜視図である。
本開示における情報処理装置の機能を有する装置にて処理される動画像は、特に限定されるものではないが、撮影端末により撮りっぱなしにして取得された長時間の動画像を処理すると、フレーム特定情報をより効果的に利用できる。例えば、図1に示すユーザは、第1の撮影端末10を手に持って撮影を行うとともに、頭部に第2の撮影端末20を装着して撮影を行っている。さらに、ユーザは、背負っているバッグに第3の撮影端末30を取り付けて撮影しており、装着しているアイウェアにもカメラ40が設けられている。
第1の撮影端末10は、図2に示すように、例えば円筒形状の筐体11の一端面にレンズ12が設けられている。レンズ12を介して入射した光は筐体11の内部に設けられた撮像素子(図示せず。)に結像され、電気信号に変換される。第1の撮影端末10には、音声を取得するマイク13が設けられており、撮影と同時に音声も取得することができる。その他、第1の撮影端末10は、端末を操作する第1ボタン14a、第2ボタン14b、電源ボタン14cからなる操作部14や、表示部15、他の機器との接続を行うための接続部16、情報の送受信を行う通信部(図示せず。)等を備えている。
また、第2の撮影端末20は、図3に示すように、例えば球体状の筐体21の上部および曲面上に3つのレンズ22a、22b、22cが設けられている。各レンズ22a、22b、22cに対応してそれぞれ撮像素子(図示せず。)が筐体21の内部に設けられており、複数方向の画像を同時に撮影することも可能となっている。また、第2の撮影端末20は、音声を取得するマイク23が設けられており、撮影と同時に音声も取得することができる。その他、第2の撮影端末20は、電源ボタン24や、他の機器との接続を行うための接続部26、情報の送受信を行う通信部(図示せず。)等を備えている。
なお、第3の撮影端末30は、第2の撮影端末10または第2の撮影端末20と同様に構成してもよく、これらとは異なる構成であってもよい。また、これらの端末の制御は、それぞれ端末自体で行ってもよく、端末と通信可能に接続されたサーバや他の端末により行われてもよい。
このように、ユーザは、複数の撮像端末10〜30、カメラ40により同時に撮影を行うことも可能である。また、第2の撮影端末20、第3の撮影端末30、カメラ40はユーザが装着した状態で使用されるので、ユーザは、例えば撮像端末の操作を意識することなく撮影し続けることも容易にできる。
ここで、長時間撮影した動画像をユーザが後から編集や視聴等する際に、所望の画像がどの時点に記録されているかを見つけ出すのは、撮影時間が長くなるほど難しくなる。そこで、本開示における情報処理装置の機能を有する装置により、撮影された動画像に対して、ユーザが後で確認したいと思われる時間位置にタグとなる情報を付与する。これにより、ユーザは当該情報を用いて後から所望の画像を容易に特定することが可能となる。
[1.2.機能構成]
次に、本開示における情報処理装置の機能を有する装置による動画像の処理について説明する。本実施形態では、本開示における情報処理装置の機能を、撮影端末が備えるものとして説明するが、例えば撮影端末により取得された動画像がアップロードされるサーバが備えてもよい。図4に、情報処理端末100およびサーバ200の機能構成の一例を示す。
(1)撮影端末
本実施形態に係る撮影端末100は、例えば図1に示した撮影端末10〜30やカメラ40である。撮影端末100は、図4に示すように、撮像部110と、音声取得部120と、表示部130と、制御部140と、演算部150と、通信部160と、記憶部170と、バッテリ180とを備える。撮影端末100は、バッテリ180からの駆動電力の供給を受けて、各機能部を機能させる。
撮像部110は、画像データを取得する機能部であり、撮像素子やレンズ等からなる。撮像素子としては、例えばCCD(Charge Coupled Device)イメージセンサ、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサ等を用いてもよい。レンズを介して撮像素子により取得された画像データは、制御部140により記憶部170に記録される。
音声取得部120は、音声データを取得する機能部であり、例えばマイク等を用いることができる。音声取得部120は、制御部140により撮像部110と連動して機能するように制御されることで、撮影部110により取得された画像データに対応する音声データを取得することができる。音声取得部120は、単体で機能することもでき、その場合には撮影端末100は音声データのみを取得する。音声取得部120により取得された音声データは、制御部140により記憶部170に記録される。
表示部130は、情報を表示する機能部であり、例えば液晶ディスプレイや有機ELディスプレイ等を用いることができる。表示部130は、制御部140により表示制御され、取得している画像データや撮影端末100の各種設定画面等が表示される。
制御部140は、撮影端末100の機能全般を制御する機能部である。制御部140は、例えば、撮像部110や音声取得部120を制御して画像データや音声データを取得させ、取得された画像データや音声データを記憶部170に記録する。また、制御部140は、記憶部170に記録された画像データや音声データを、通信部160を介してサーバ200へ送信する。さらに制御部140は、画像データにフレーム特定情報を付与するための演算処理や、その他の各種演算処理を実行させたり、バッテリ180の管理等もしたりする。
制御部140により処理される各情報は、撮影端末100の記憶部170にバッファされた後、サーバ200に送信されてもよい。また、制御部140は、画像データが動画像であるとき、画像データを適宜サーバに送信させるようにしてもよい。このとき、制御部140は、記憶部170に記憶している画像データのうち、予め設定された所定時間以前の記録内容を削除するようにしてもよい。これにより、撮影端末100の記憶部170の記録容量が圧迫されるのを低減することができる。
演算部150は、撮影端末100における各種演算処理を行う機能部である。演算部150は、制御部140の指示を受けて演算処理を実行し、演算結果を制御部140に返す。ここで、本実施形態に係る撮影端末100の演算部150は、画像データにフレーム特定情報を付与するための演算処理を実行する。このため、演算部150は、図5に示すように、特定指示情報抽出部152と、フレーム抽出部154と、フレーム特定情報付与部156とを備える。
特定指示情報抽出部152は、音声データを解析して特定指示情報を抽出する。特定指示情報は、画像データにおいてユーザが後から確認したい画像(フレーム)を抽出するために用いる情報である。本実施形態では、特定指示情報として、予め設定された特定コマンドを抽出する。特定コマンドは、例えば記憶部170に予め記憶されている。特定指定情報抽出部152は、音声データから特定コマンドを抽出し、フレーム抽出部154へ出力する。
フレーム抽出部154は、画像データから特定指示情報と相関のある1または複数のフレームを抽出する。ここで、特定指示情報と相関があるフレームは、例えば、特定指示情報として「10分前」という音声コマンドが入力された場合であれば、10分間のフレームが該当する。フレーム抽出部154は、例えば音声コマンドが場所や人物などに関する場合等には、これらの相関の程度を定量化してもよい。このとき、フレーム抽出部154は、予め設定された所定の閾値に基づいて、これらの相関の高さを判断することが可能となる。フレーム抽出部154は、特定指示情報である特定コマンドにより指定された内容と関連性の高いフレームを画像データから抽出し、フレーム特定情報付与部156に出力する。
フレーム特定情報付与部156は、フレーム抽出部154により抽出されたフレームに対して、当該フレームを特定するためのフレーム特定情報を付与する。フレーム特定情報は、ユーザが後から確認したい画像(フレーム)が存在する画像データ中の時間位置を特定する情報である。フレーム特定情報付与部156によってフレーム特定情報が付与された画像データは、制御部220によって記憶部170に記録される。
制御部140および演算部150は、本開示の情報処理装置の機能を有する機能部であり、例えばCPU等により実現される。
図4の説明に戻り、通信部160は、ネットワークあるいはケーブル等を介して通信可能に接続されたサーバ等と情報の送受信を行う機能部である。撮影端末100の通信部160は、記憶部170に記録された画像データや音声データをサーバ200へ送信する。また、撮影端末100は、通信部160を介して、サーバ200から各種情報を受信してもよい。
記憶部170は、撮像部110や音声取得部120により取得された画像データや音声データを記憶する。画像データおよび音声データが同時に取得されたものである場合には、これらは関連付けて記憶される。記憶部170に記録される情報には、例えば図6に示すように、撮像部110により取得された画像データの動画像ファイルや音声取得部120により取得された音声データの音声ファイルの他、メタデータファイル、フレーム特定情報、外部情報等がある。
メタデータファイルには、GPS位置情報や記録時刻等のような画像データ取得時の情報や、画像データを解析して取得されたシーン情報や顔認識情報等の画像データの内容に関する情報等が含まれる。フレーム特定情報は、画像データにおいて所定のフレームを特定するために付与される情報であり、例えば、特定されたフレームであることを示すマーキング情報や、マーキング情報を付した時刻であるマーク指示時刻情報等が含まれる。また、フレーム特定情報には、フレームの内容に対するユーザの興味の程度を示す確度情報や特定指示情報と特定されたフレームとの相関の程度を表す情報を含んでもよい。さらに、SNSサービスにて提供されるチェックイン情報等のように、外部サービスにより取得される情報を外部情報として記憶してもよい。
また、記憶部170は、演算部150において画像データにフレーム特定情報を付与するために必要なデータ等を記憶する。演算部150にて用いられるデータとしては特定コマンド等がある。特定コマンドは、記憶部170に予め記憶される情報であるが、適宜更新可能である。なお、画像データや音声データと、特定コマンド等の予め記憶される情報とは、異なる記録媒体に記憶するようにしてもよい。記憶部170に記憶されたデータは、制御部140により、通信部160を介してサーバ200へ送信してもよい。
(2)サーバ
サーバ200は、撮影端末100により取得された画像データを管理する情報処理装置であって、撮影端末100から受信した画像データや音声データを保持する。サーバ200は、図4に示すように、通信部210と、制御部220と、演算部230と、記憶部240とを備える。
通信部210は、ネットワークあるいはケーブル等を介して通信可能に接続された撮影端末100等と情報の送受信を行う機能部である。サーバ200の通信部210は、画像データや音声データを撮影端末100から受信し、制御部220に通知する。また、サーバ200は、通信部210を介して、各種情報を撮影端末100へ送信してもよい。
制御部220は、サーバ200の機能全般を制御する機能部である。制御部220は、例えば、撮影端末100から受信した画像データや音声データを記憶部240に記録する。また、制御部220は、演算部230に対して各種演算処理を実行させる。
演算部230は、サーバ200における各種演算処理を行う機能部である。演算部230は、制御部220の指示を受けて演算処理を実行し、演算結果を制御部220に返す。制御部220および演算部230は、例えばCPU等により実現される。なお、サーバ200側にて本開示の情報処理装置の機能を有する機能部を有するときには、演算部230が、上述の特定指示情報抽出部、フレーム抽出部、およびフレーム特定情報付与部を備えることになる。
記憶部240は、画像データや音声データを記憶する。なお、サーバ200側にて本開示の情報処理装置の機能を有する機能部を有するときには、記憶部240に、特定コマンド等の、演算部230において画像データにフレーム特定情報を付与するために必要なデータも記憶される。
[1.3.音声を利用した動画像への特定フレーム情報付与処理]
図6〜図9に基づいて、本実施形態に係る撮影端末100での音声を利用した動画像への特定フレーム情報付与処理について説明する。なお、図6は、記憶部に記録される情報例を示す説明図である。図7は、本実施形態に係る音声を利用した動画像への特定フレーム情報付与処理を示すフローチャートである。図8は、特定コマンドとそれにより画像データから抽出される内容との一例を示す説明図である。図9は、特定コマンドによるフレーム抽出処理を説明する説明図である。
音声を利用した動画像への特定フレーム情報付与処理は、例えば、撮影端末100により動画像の取得が行われたタイミングで開始される。撮像部110による撮影が開始されると、演算部150は、制御部140からの指示を受けて、特定指示情報抽出部152により、音声データを解析して特定コマンドを抽出する(S100)。ステップS100において、特定指示情報抽出部152は、記憶部170に記憶されている特定コマンドを音声データから抽出する。
特定コマンドの例を図8に示す。図8に示す例では、例えば“Record 〜〜”という特定コマンドを用いて、抽出したいフレームの時間位置の指定や、抽出する特定の人物、物体、場所等の指定を行うことができる。このとき、特定指示情報抽出部232は、少なくとも“Record”に続く音声内容を確認し、画像データから当該特定コマンドで指定された内容を認識する。また、“Stop record”のように先の特定コマンドを停止させる特定コマンド等もある。特定コマンドには、“Capture”、“Reproduce”、“Move”、“Select”等のように、フレームの特定の仕方や機器操作等に関するコマンドを含んでもよい。
特定指示情報抽出部152は、音声データから特定コマンドを抽出するまで、音声データの解析を続ける(S110)。そして、特定コマンドが抽出されると、フレーム抽出部154により特定コマンドに相関する情報を含むフレームが画像データから抽出される(S120)。
例えば、特定コマンドとして時間情報が入力された場合には、指定された時間情報に対応するフレームが抽出される。具体例として、特定コマンド“Record that”が入力された場合を考えると、特定コマンド“Record that”の入力により、フレーム抽出部154は、現時点からさっきの時点を/からフレーム抽出を行う。すなわち、図9に示すように、フレーム抽出部154は、予め設定された「さっきの時点」に対応する所定時間を起点として、起点の前後所定時間(期間A)または起点以後現在までの期間(期間B)のフレームを抽出する。
すなわち、例えば「さっきの時点」に対応する所定時間が10分、起点を基準とした前後の時間が10分に設定されている場合、特定コマンドが発生されてから10分前を起点とし、その前後5分ずつ、または、10分前から現在までの期間のフレームが抽出される。あるいは、フレーム抽出部154は、起点以後のフレームを指示があるまで継続して抽出対象としてもよい(期間C)。この「さっきの時間」に対応する所定時間及び起点を基準とした前後時間は任意に設定可能である。
また、例えば、特定コマンドとして場所や人物・物体等の被写体が指定された場合には、フレーム抽出部154は、予め画像データに付加されている付加情報や、機械学習の結果得られた推測情報等に基づき、フレームを抽出する。予め画像データに付加されている付加情報としては、例えば、位置情報(動画像を取得したときのGPS位置情報や、SNSサービスにて提供されるチェックイン情報等)や、予め登録された顔画像と照合した人物情報等がある。このような付加情報を用いて、ユーザが指定した場所や被写体が含まれる画像データのフレームを抽出することができる。付加情報は、別の装置やサービスから取得し、同期されたものでも構わない。
例えば、“Record 五反田駅”との音声コマンドにより五反田駅が指定されたとする。このとき、フレーム抽出部154は、図10に示すように、画像データ中の五反田駅の看板310に含まれる文字情報を認識したり、予め登録されている五反田駅の画像情報とのマッチング等の処理を行うことで、五反田駅と相関の高いフレームを抽出する。あるいは、フレーム抽出部154は、五反田駅に対する距離に応じて、五反田駅との相関のあるフレームを抽出してもよい。すなわち、相関の程度を指定された対象との距離で表す。例えば、フレーム抽出部154は、五反田駅から所定範囲で取得されたフレームを、五反田駅と相関のあるフレームとして判断し、抽出する。
また、“Record XXさん”との音声コマンドにより五反田駅が指定されたとする。このとき、フレーム抽出部154は、予め登録されたXXさんの顔画像と、画像データの各フレームについて認識された顔画像とのマッチングを行い、図10に示すように、XXさんの顔画像320が含まれたフレームを特定する。
さらに、付加情報としては、スケジュール情報や、ログ収集端末により収集されたユーザの行動に関する動き情報や、当該動き情報から行動認識処理により得られた行動認識情報等も利用できる。また、買い物中やドライブ中等の、撮影しているシーン(環境)情報を、画像データに付加情報として付加するようにしてもよい。シーン情報は、撮像された動画像の変化や、付加情報の変化等に基づいて、シーンに変化があった可能性を判断して生成される情報である。シーン情報により、例えば音声により指定された特定シーンのフレーム抽出や、シーンが変化したときのフレーム抽出が可能となる。さらに、ユーザのジェスチャにより、抽出するフレームを特定してもよい。例えば、現在の撮影対象としている被写体を記録する場合に、ユーザが被写体を指差しするジェスチャを行ったことを認識すると、フレーム抽出部154は、この被写体を含むフレームを抽出する。
フレーム抽出部154により画像データから特定コマンドに対応する情報を含むフレームが抽出されると、フレーム特定情報付与部156は、抽出されたフレームに対してフレーム特定情報を付与する(S130)。フレーム特定情報は、抽出されたフレームを後から特定しやすくするために画像データに関連付けて記録される情報である。フレーム特定情報が付与されることで、ユーザは後からフレーム特定情報を用いて所望のフレームを容易に特定することができる。フレーム特定情報は、特定すべきフレームに関する情報が含まれており、例えば、特定されたフレームであることを示すマーキング情報や、マーキング情報を付した時刻であるマーク指示時刻情報等が含まれる。マーキング情報は、例えば「0」、「1」で表されるフラグ等の情報であってもよい。なお、フレーム特定情報は、フレームと同時に記録される必要はない。
ここで、フレーム特定情報を付与するフレームは、ステップS120の処理により推定して抽出されたフレームである。そこで、フレーム特定情報に、ユーザが抽出したフレームに対してどの程度興味があるか、すなわち、このフレームの情報をユーザが後からどの程度見たいと思うかを表す確度情報を含めてもよい。確度情報は、例えば音声コマンドと動画像の各フレームとの相関関係に基づき判断することができる。フレーム特定情報に確度情報を含めることで、例えば、ユーザは後からフレーム特定情報を用いて所望のフレームを探す際に、確度情報によりユーザが強く興味を示したフレームのみを特定することも可能となる。
ステップS110〜S130の処理は、例えば撮像部110による撮影が終了するまで繰り返し行われる(S140)。制御部140は、撮像部110による撮影を停止させると、画像データへのフレーム特定情報の付与の処理も終了させる。
以上、第1の実施形態に係る音声を利用した動画像への特定フレーム情報付与処理について説明した。本実施形態では、特定指示情報として音声データから特定コマンドを特定し、特定コマンドにより指定された情報と相関の高いフレームを画像データから抽出し、当該フレームに対してフレーム特定情報を付与する。これにより、ユーザは後からフレーム特定情報を用いて所望のフレームを容易に特定することができる。例えば、ユーザは、当該フレーム特定情報に対応するフレーム、あるいはその前後所定時間のフレームを特定して再生して視聴することができる。
<2.第2の実施形態>
次に、図11および図12に基づいて、本開示の第2の実施形態に係る音声を利用した動画像への特定フレーム情報付与処理について説明する。本実施形態に係る処理では、フレームの抽出に利用する特定指示情報を、ユーザが自由に発話した音声データに基づき設定する点で、第1の実施形態と相違する。以下、第1の実施形態との相違点を主として、本実施形態に係る音声を利用した動画像への特定フレーム情報付与処理について説明する。なお、撮影端末100およびサーバ200の構成は図4に示したものと同一とすることができるため、ここでは説明を省略する。
[2.1.音声を利用した動画像への特定フレーム情報付与処理]
図11および図12に基づいて、本実施形態に係る撮影端末100での音声を利用した動画像への特定フレーム情報付与処理について説明する。なお、図11は、本実施形態に係る音声を利用した動画像への特定フレーム情報付与処理を示すフローチャートである。図12は、特定指示情報とその具体例の一例を示す説明図である。
本実施形態に係る音声を利用した動画像への特定フレーム情報付与処理も、例えば、撮影端末100により動画像の取得が行われたタイミングで開始される。撮像部110による撮影が開始されると、演算部150は、制御部140からの指示を受けて、特定指示情報抽出部152により、音声データを解析して特定指示情報を抽出する(S200)。ステップS200において、特定指示情報抽出部152は、音声データとして取得されたユーザの発話内容や周囲の音等を解析して、特定指示情報となる音声内容を抽出する。
特定指示情報となる音声内容の例を図12に示す。図12に示すように、特定指示情報としては、例えば、時間、場所、被写体、動作、状況、トリガとなる音声等がある。ここで、時間に関しては、「○分前」等の定量的な情報と、「さっきの」等の非定量的情報とがある。非定量的情報については、当該情報に対して所定の時間幅を予め設定しておき、それに基づき抽出するフレームを指定するようにしてもよい。場所や被写体に関しても、非定量的情報について、予め対応する明示的情報を設定してもよい。
また、動作としては、「歩いた」、「走った」、「電車に乗った」、「眠った」等、付加情報も参照して画像データを解析することにより認識可能な行動を表す音声内容が抽出される。状況についても、「雨が降っている」、「食事をしている」等、例えばシーン情報から特定可能な状況を表す音声内容が抽出される。
一方で、特定指示情報には、上述のような時間、場所、人物、動作等に関する「どのフレームを特定すべきか」という情報とは別に、「フレームの特定を開始するべきかどうか」を判断するための開始判断情報も含まれる。開始判断情報は、例えば図12に示すようなトリガとなる音声を受け付けた際にフレームを特定する処理を行うかどうかを、2値的(すべき、すべきでない)に設定する情報である。したがって、特定指示情報抽出部152は、「フレームの特定を開始するべき」という情報が関連付けられるユーザの発声が検出された場合のみ、フレーム抽出部154にフレームを特定する処理を実行させる。特定指示情報抽出部152は、フレーム抽出部154がトリガとなる音声に基づきユーザの興味があることを判断してフレームの特定を開始するために、このような音声を特定指示情報として抽出する。このような特定指示情報抽出部152により抽出する音声内容は、記憶部170に予め設定される。
特定指示情報抽出部152は、音声データから特定指示情報となる音声内容を抽出するまで、音声データの解析を続ける(S210)。そして、特定指示情報となる音声内容が抽出されると、特定指示情報抽出部152は、当該音声内容により指定される具体的な抽出対象を設定する(S220)。上述したように、音声内容には非定量的情報も含まれているため、そのままでは画像データから音声内容に対応するフレームを適切に特定することができない。そこで、特定指示情報抽出部152は、抽出した音声内容そのままではフレームを抽出できないものについては、予め設定されている非定量的情報に対応する明示的情報を記憶部170から取得して、抽出対象を明らかにする。
その後、フレーム抽出部154により音声内容に対応する情報を含むフレームが画像データから抽出される(S230)。フレーム抽出部154は、開始判断情報を受けて、フレームの特定を開始する。開始判断情報は、ステップS200にて抽出されたトリガとなる音声や、例えばユーザが立ち止まったり、視線が一定時間注がれていたりする等、ユーザの行動推定結果を用いてもよい。フレーム抽出部154は、ユーザの行動推定結果に基づきユーザが興味を持ったことを判断し、フレームの特定を開始してもよい。音声内容に対応する情報を含むフレームの抽出は、第1の実施形態と同様に、画像データを解析して行われる。また、必要に応じて、画像データに付加された付加情報を参照し、画像データからフレームを抽出してもよい。
フレーム抽出部154により画像データから特定コマンドに対応する情報を含むフレームが抽出されると、フレーム特定情報付与部156は、抽出されたフレームに対してフレーム特定情報を付与する(S240)。フレーム特定情報が付与されることで、ユーザは後からフレーム特定情報を用いて所望のフレームを容易に特定することができる。フレーム特定情報には、確度情報を含めてもよい。
ステップS210〜S240の処理は、例えば撮像部110による撮影が終了するまで繰り返し行われる(S250)。制御部140は、撮像部110による撮影を停止させると、画像データへのフレーム特定情報の付与の処理も終了させる。
以上、第2の実施形態に係る音声を利用した動画像への特定フレーム情報付与処理について説明した。本実施形態では、特定指示情報として音声データに含まれるユーザの発話内容や周囲の音声に含まれる所定の音声内容を特定し、音声内容により指定された情報と相関の高いフレームを画像データから抽出し、当該フレームに対してフレーム特定情報を付与する。これにより、ユーザは後からフレーム特定情報を用いて所望のフレームを容易に特定することができる。
なお、本実施形態では、特定指定情報として、音声データに含まれるユーザの発話内容や周囲の音声に含まれる所定の音声内容を用いる場合について説明したが、これらの情報に加えて、第1の実施形態にて利用した特定コマンドを含めてもよい。
<3.第3の実施形態>
[3.1.ディスプレイを利用したユーザによるフレーム特定処理]
上述の実施形態では、音声データに基づき特定指示情報を設定し、当該特定指示情報と相関の高いフレームを抽出してフレーム特定情報を設定している。このとき、ユーザによってフレームの内容を確認しながらフレーム特定情報を設定できるようにしてもよい。以下、図13〜図16に基づいて、本開示の第3の実施形態に係るディスプレイを利用したユーザによるフレーム特定処理について説明する。図13は、ユーザが見ている画像を示すメインウィンドウ400とフレーム確認ウィンドウ500との一例を示す説明図である。図14〜図16は、フレーム確認ウィンドウ500を用いたユーザによるフレーム特定処理を示す説明図である。
例えば、ユーザがヘッドマウントディスプレイ等のウェアラブル端末を装着し、カメラにより撮影されている外界の画像をスルー画として見ているとする。このスルー画は、記録もされている。このような状態において、上述の実施形態に係る処理を適用すると、ユーザが特定コマンド等を発話することで、記録されているスルー画の画像データにフレーム特定情報を付与することができる。さらに本実施形態では、フレーム特定情報を付与するフレームを設定する画面を表示させ、ユーザによりフレームを設定することもできる。
制御部140は、ユーザの指示を受けて、スルー画が表示されるメインウィンドウ400の一部にフレーム確認ウィンドウ500を表示させる。ユーザが音声によりフレーム確認ウィンドウ500を表示させる指示を行う場合、例えば図8に示したような特定コマンドを利用してもよい。フレーム確認ウィンドウ500は、例えば図13に示すように、メインウィンドウ400の左上の一部領域に表示される。フレーム確認ウィンドウ500は、例えばスルー画の表示を大きく妨げない大きさで表示される。
フレーム確認ウィンドウ500が表示されると、ユーザは、例えば音声により、フレーム特定情報を付与するフレームが含まれる候補シーンの表示を指示する。制御部140は、ユーザの指示を受けて、演算部150に画像データから該当する候補シーンを抽出させ、候補シーンに含まれるフレームの一部を表示部160のフレーム確認ウィンドウ500に表示させる。例えば、ユーザが現在から10分前に抽出されたシーンの表示を指示すると、例えば図14に示すように、画像データから現在から10分前を起点として所定時間内のシーンが特定される。そして、このシーンの代表的なフレームのサムネイル52A〜52Cからなるサムネイル群520がフレーム確認ウィンドウ500に表示される。
フレーム確認ウィンドウ500に表示されるサムネイルは、シーン中の代表的なフレーム以外にも、当該シーンを時分割して生成された複数のサムネイルや、シーンの始点と終点のサムネイル等であってもよい。
また、フレーム確認ウィンドウ500には、図14に示すように、タイムラインインジケータ510や、選択操作オブジェクト530等が表示される。タイムラインインジケータ510は、時間軸を示すタイムライン512と、画像データ全体におけるシーンの位置を表すバー514が表示されている。選択操作オブジェクト530は、過去に向かって特定シーンを移動させるための第1オブジェクト532、現在に向かって特定シーンを移動させるための第2オブジェクト534、フレーム特定情報を付与する付与オブジェクト536からなる。
ユーザは、例えば上述の“Move”コマンドや視線による選択操作オブジェクト530の操作により、特定シーンの位置や特定シーンの長さを変更できる。例えば、図14にて特定されているシーンから過去のシーンに移動させる操作がされると、図15に示すように、さらに所定時間だけ過去に撮影されたシーンが特定され、特定されたシーンのサムネイル52D〜52Fが表示される。
また、ユーザは、音声や視線による選択操作オブジェクト530の操作により、フレーム特定情報を付与するフレームに対応するサムネイルを選択し、付与オブジェクト536を選択すると、そのサムネイルに対応するフレームにフレーム特定情報が付与される。例えば、図15の例では、サムネイル52Dが選択されており、このときサムネイル52Dには選択されている状態がわかるように選択枠が付与されている。この状態で付与オブジェクト536を選択すると、サムネイル52Dに対応するフレームにフレーム特定情報が付与される。また、この際、シーンの始点を選択するメッセージを表示させて、あるシーンを含む所定期間のフレームを選択するか否かをユーザに選択させてもよい。
なお、サムネイル群520を表示している特定シーンの長さを変化させた場合には、新たに設定された特定シーンの長さに応じて、サムネイル群520を構成するサムネイルの表示内容も変化する。例えば、図16に示すように、特定シーンの長さを短くすると、サムネイル群520を構成するサムネイル52D〜52Dもコマ送りのように細かく表示させることができる。これにより、フレーム特定情報を付与したい位置を正確に特定することができる。
ユーザによりフレーム特定情報を付与する指示が入力されると、制御部140は、画像データにフレーム特定情報を関連付けて、記憶部170に記録する。
以上、第3の実施形態に係るディスプレイを利用したユーザによるフレーム特定処理について説明した。本実施形態に係るフレーム特定処理により、ユーザは、意図するフレームに対して正確にフレーム特定情報を付与することができる。なお、本実施形態に係るディスプレイを利用したユーザによるフレーム特定処理は、上述の第1の実施形態または第2の実施形態の処理と組み合わせて適用してもよい。これにより、自動的に特定されたフレーム特定情報を付与するフレームに基づいて、ユーザが修正することができ、ユーザの操作負荷が軽減される。
[3.2.具体例]
(1)特定コマンドで指示する場合の具体的動作
第3の実施形態に係る処理の具体例として、まず、図17および図18に基づいて特定コマンドで指示する場合の具体的動作を説明する。本例では、時間および人物でフレームを抽出する場合について説明する。
図17に示すように、まず“Record that”との音声による特定コマンドが入力されたとする。かかる音声入力を受けて、演算部150は、“that”に対応する所定時間として設定された15分前を起点としたシーンを自動検出し、フレーム確認ウィンドウ500に代表サムネイル52A〜52Cを表示させる。なお、表示するサムネイル数は任意に設定可能である。次に、ユーザが“Move back 10 minutes”との音声による特定コマンドを入力したとする。これを受けて、演算部150は、さらに10分前のシーンの代表サムネイル52D〜52Fをフレーム確認ウィンドウ500に表示させる。
その後、図18に示すように、“Record XXさん”との音声による特定コマンドが入力されたとする。かかる音声入力を受けて、演算部150は、XXさんに関連するサムネイル52Dを抽出する。そして、“Select before”との音声による特定コマンドが入力されると、演算部150は、指示されるまでサムネイル52Dより過去のサムネイル52D、52D、52D、・・・を順に表示していく。その後、想定するサムネイル52Dが現れ、ユーザから“OK”の特定コマンドが入力されると、演算部150は、当該サムネイル52Dに対応するフレームに対してフレーム特定情報を付与し、記録する。
(2)特定コマンド以外の音声で指示する場合の具体的動作
第3の実施形態に係る処理の他の具体例として、図19に基づいて特定コマンド以外の音声で指示する場合の具体的動作を説明する。
図19に示すように、例えばユーザが「さっき五反田でラーメン食べてるときのXXの顔、凄かった!!」と言ったとする。この音声に基づき、演算部150は、特定指示情報として、以下の音声内容を抽出する。
・時間情報:「さっき」「ラーメン食べてるとき」
・場所情報:「五反田」
・被写体情報:「XX」
・トリガ音声情報:「凄かった!!」
演算部150は、抽出した音声内容を特定指示情報として、画像データから当該内容を含むシーンを特定する。シーンの特定は、例えば特定情報を以下のような抽出条件として設定することで行われる。
・時間情報:「さっき」「ラーメン食べてるとき」
「さっき」 →例えば3時間前までを優先し、見つからなければそれ以前も検索
「ラーメン食べてるとき」 →ラーメンが現れたフレーム前後を優先
・場所情報:「五反田」
「五反田」 →位置情報であるGPS情報を用いて、または画像認識により
画像中の建物や看板を認識して、五反田で撮影されたフレームを優先
・被写体情報:「XX」
「XX」→顔認識により人物XXが写っているシーンを特定
その後、特定されたシーンにおけるフレームを解析して、トリガ音声情報「凄かった!!」に対応する候補を抽出し、「凄かった!!」と推定されるものが写っている1または複数のサムネイル52A〜52Cを特定する。本実施形態においては、サムネイル52A〜52Cがフレーム確認ウィンドウ500に表示される。そして、ユーザがサムネイルを選択し“OK”の特定コマンドを入力すると、演算部150は、選択されたサムネイルに対応するフレームに対してフレーム特定情報を付与し、記録する。
<4.ハードウェア構成例>
最後に、本実施形態に係る撮影端末100、サーバ200のハードウェア構成例について説明する。これらの機器は同様に構成することができるため、以下では、撮影端末100を例として説明する。図20は、本実施形態に係る撮影端末100のハードウェア構成を示すハードウェア構成図である。
本実施形態に係る撮影端末100は、上述したように、コンピュータ等の処理装置により実現することができる。撮影端末100は、図20に示すように、CPU(Central Processing Unit)901と、ROM(Read Only Memory)902と、RAM(Random Access Memory)903と、ホストバス904aとを備える。また、撮影端末100は、ブリッジ904と、外部バス904bと、インタフェース905と、入力装置906と、出力装置907と、ストレージ装置908と、ドライブ909と、接続ポート911と、通信装置913とを備える。
CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って撮影端末100内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバスなどから構成されるホストバス904aにより相互に接続されている。
ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
入力装置906は、マウス、キーボード、タッチパネル、ボタン、マイク、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU901に出力する入力制御回路などから構成されている。出力装置907は、例えば、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置や、スピーカなどの音声出力装置を含む。
ストレージ装置908は、撮影端末100の記憶部の一例であり、データ格納用の装置である。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、ハードディスクを駆動し、CPU901が実行するプログラムや各種データを格納する。
ドライブ909は、記憶媒体用リーダライタであり、撮影端末100に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体に記録されている情報を読み出して、RAM903に出力する。
接続ポート911は、外部機器と接続されるインタフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。また、通信装置913は、例えば、通信網5に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置913は、無線LAN(Local Area Network)対応通信装置であっても、ワイヤレスUSB対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記実施形態では、画像データの解析処理、フレーム特定情報の付与処理を撮影端末100で行ったが、本技術はかかる例に限定されず、サーバ200側で行ってもよい。この場合、撮影端末100により画像データおよび音声データが取得されると、所定のタイミングでこれらのデータがサーバ200へ送信される。データ送信のタイミングは、例えば、ユーザが操作して撮影端末100をサーバ200に接続した時や、所定の時間間隔等としてもよい。あるいはリアルタイムに撮像端末100からサーバ200へデータ送信してもよい。サーバ200は、画像データおよび音声データを受信すると、制御部220は、演算部230に対して、画像データへ特定フレーム情報を付与する処理を実行するよう指示する。
また、上記実施形態では、入力された音声に基づき特定指示情報を設定したが、音声による入力を行うことができない場合には、例えば表示部に表示されたGUIを用いて特定指示情報を設定できるようにしてもよい。例えば図21に示すように、時間情報や場所情報、人物情報等の定型の選択タブ610、620、630を表示して、ユーザが選択して設定できるようにしてもよい。例えば時間選択タブ610であれば、「1時間前」タブ611、「30分前」タブ612、「10分前」タブ613、「5分前」タブ614、「1分前」タブ615があり、ユーザはいずれかを選択して時間に関する特定指示情報を設定する。
このようなGUIを用いた設定は、特定指示情報の設定のために単独で用いてもよく、音声指示前の時間や場所等の大枠の指示や、音声指示後の候補シーン提示(例えば、サムネイルを複数提示、等。)といった音声指示に対する補助として用いてもよい。
さらに、上記実施形態ではフレーム特定情報付与後の画像データの処理については特に言及しなかったが、例えば、動画像記録後に所定時間が経過するとフレーム特定情報に対応するフレームまたはその前後所定時間内のフレーム以外を消去するようにしてもよい。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
入力された音声に応じて設定される特定指示情報に基づき、動画像における1または複数のフレームを抽出し、前記抽出されたフレームを特定するフレーム特定情報を記憶部に記録させる処理部を備える、情報処理装置。
(2)
前記特定指示情報は、入力された音声を解析して設定される、前記(1)に記載の情報処理装置。
(3)
前記音声は、前記動画像の取得とともに取得された音声である、前記(2)に記載の情報処理装置。
(4)
前記特定指示情報は、予め設定された特定コマンドである、前記(1)〜(3)のいずれか1項に記載の情報処理装置。
(5)
前記特定指示情報には、時間情報が含まれる、前記(1)〜(4)のいずれか1項に記載の情報処理装置。
(6)
前記処理部は、動画像の各フレームと前記特定指示情報との相関を解析する、前記(1)〜(5)のいずれか1項に記載の情報処理装置。
(7)
前記処理部は、前記相関が所定よりも高い場合に、前記1または複数のフレームの抽出を行う、前記(6)に記載の情報処理装置。
(8)
前記処理部は、前記動画像に付加されている付加情報を用いて、前記動画像から前記特定指示情報と相関のある1または複数のフレームを抽出する、前記(6)に記載の情報処理装置。
(9)
前記付加情報は、動画像を取得したときの位置情報、予め登録された顔画像と照合した人物情報、シーン情報のうち少なくともいずれか1つを含む、前記(8)に記載の情報処理装置。
(10)
前記処理部は、前記動画像を機械学習した結果として得られた推測情報に基づき、前記動画像から前記特定指示情報と相関のある1または複数のフレームを抽出する、前記(6)に記載の情報処理装置。
(11)
前記処理部は、前記特定指示情報に基づいて抽出された1または複数のフレームを表示部に表示させる、前記(1)〜(10)のいずれか1項に記載の情報処理装置。
(12)
動画像を取得する撮像部を備える、前記(1)〜(11)のいずれか1項に記載の情報処理装置。
(13)
前記処理部は、前記フレーム特定情報とともに、動画像の各フレームと前記特定指示情報との相関の程度を示す情報も前記記憶部に記録させる、前記(1)〜(12)のいずれか1項に記載の情報処理装置。
(14)
前記処理部は、前記抽出された1または複数のフレームを候補フレームとして表示部に提示させる、前記(1)〜(13)のいずれか1項に記載の情報処理装置。
(15)
入力された音声に応じて設定される特定指示情報に基づき、動画像における1または複数のフレームを抽出すること、
前記抽出されたフレームを特定するフレーム特定情報を記憶部に記録させこと、
を含む、情報処理方法。
(16)
コンピュータに、
入力された音声に応じて設定される特定指示情報に基づき、動画像における1または複数のフレームを抽出し、前記抽出されたフレームを特定するフレーム特定情報を記憶部に記録させる処理を実行させるためのプログラム。
100 撮影端末
110 撮像部
120 音声取得部
130 表示部
140、220 制御部
150、230 演算部
152 特定指示情報抽出部
154 フレーム抽出部
156 フレーム特定情報付与部
160、210 通信部
170、240 記憶部
180 バッテリ
200 サーバ

Claims (16)

  1. 入力された音声に応じて設定される特定指示情報に基づき、動画像における1または複数のフレームを抽出し、前記抽出されたフレームを特定するフレーム特定情報を記憶部に記録させる処理部を備える、情報処理装置。
  2. 前記特定指示情報は、入力された音声を解析して設定される、請求項1に記載の情報処理装置。
  3. 前記音声は、前記動画像の取得とともに取得された音声である、請求項2に記載の情報処理装置。
  4. 前記特定指示情報は、予め設定された特定コマンドである、請求項1に記載の情報処理装置。
  5. 前記特定指示情報には、時間情報が含まれる、請求項1に記載の情報処理装置。
  6. 前記処理部は、動画像の各フレームと前記特定指示情報との相関を解析する、請求項1に記載の情報処理装置。
  7. 前記処理部は、前記相関が所定よりも高い場合に、前記1または複数のフレームの抽出を行う、請求項6に記載の情報処理装置。
  8. 前記処理部は、前記動画像に付加されている付加情報を用いて、前記動画像から前記特定指示情報と相関のある1または複数のフレームを抽出する、請求項6に記載の情報処理装置。
  9. 前記付加情報は、動画像を取得したときの位置情報、予め登録された顔画像と照合した人物情報、シーン情報のうち少なくともいずれか1つを含む、請求項8に記載の情報処理装置。
  10. 前記処理部は、前記動画像を機械学習した結果として得られた推測情報に基づき、前記動画像から前記特定指示情報と相関のある1または複数のフレームを抽出する、請求項6に記載の情報処理装置。
  11. 前記処理部は、前記特定指示情報に基づいて抽出された1または複数のフレームを表示部に表示させる、請求項1に記載の情報処理装置。
  12. 動画像を取得する撮像部を備える、請求項1に記載の情報処理装置。
  13. 前記処理部は、前記フレーム特定情報とともに、動画像の各フレームと前記特定指示情報との相関の程度を示す情報も前記記憶部に記録させる、請求項1に記載の情報処理装置。
  14. 前記処理部は、前記抽出された1または複数のフレームを候補フレームとして表示部に提示させる、請求項1に記載の情報処理装置。
  15. 入力された音声に応じて設定される特定指示情報に基づき、動画像における1または複数のフレームを抽出すること、
    前記抽出されたフレームを特定するフレーム特定情報を記憶部に記録させること、
    を含む、情報処理方法。
  16. コンピュータに、
    入力された音声に応じて設定される特定指示情報に基づき、動画像における1または複数のフレームを抽出し、前記抽出されたフレームを特定するフレーム特定情報を記憶部に記録させる処理を実行させるためのプログラム。
JP2014118607A 2014-06-09 2014-06-09 情報処理装置、情報処理方法およびプログラム Pending JP2015233188A (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2014118607A JP2015233188A (ja) 2014-06-09 2014-06-09 情報処理装置、情報処理方法およびプログラム
US15/305,886 US10181337B2 (en) 2014-06-09 2015-06-01 Information processor, information processing method, and program
PCT/JP2015/002766 WO2015190061A1 (en) 2014-06-09 2015-06-01 Information processor, information processing method, and program
EP15729247.5A EP3152896A1 (en) 2014-06-09 2015-06-01 Information processor, information processing method, and program
CN201580029545.8A CN106463155A (zh) 2014-06-09 2015-06-01 信息处理器、信息处理方法以及程序
US16/220,606 US10541006B2 (en) 2014-06-09 2018-12-14 Information processor, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014118607A JP2015233188A (ja) 2014-06-09 2014-06-09 情報処理装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2015233188A true JP2015233188A (ja) 2015-12-24
JP2015233188A5 JP2015233188A5 (ja) 2017-03-23

Family

ID=53398166

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014118607A Pending JP2015233188A (ja) 2014-06-09 2014-06-09 情報処理装置、情報処理方法およびプログラム

Country Status (5)

Country Link
US (2) US10181337B2 (ja)
EP (1) EP3152896A1 (ja)
JP (1) JP2015233188A (ja)
CN (1) CN106463155A (ja)
WO (1) WO2015190061A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017208352A1 (ja) * 2016-05-31 2017-12-07 株式会社オプティム 録画画像共有システム、方法及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6563532B1 (en) * 1999-01-05 2003-05-13 Internal Research Corporation Low attention recording unit for use by vigorously active recorder
JP2004287063A (ja) * 2003-03-20 2004-10-14 Miyota Kk ヘッドマウントディスプレイ
US20090175599A1 (en) * 2008-01-03 2009-07-09 International Business Machines Corporation Digital Life Recorder with Selective Playback of Digital Video
WO2012158588A1 (en) * 2011-05-18 2012-11-22 Eastman Kodak Company Video summary including a particular person
JP2012533134A (ja) * 2009-07-13 2012-12-20 マイクロソフト コーポレーション ユーザーから学習した入力を介し視覚表示を実写のようにする方法及びシステム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7035091B2 (en) * 2002-02-28 2006-04-25 Accenture Global Services Gmbh Wearable computer system and modes of operating the system
JP2004260304A (ja) * 2003-02-24 2004-09-16 Fuji Photo Film Co Ltd 画像管理システム
US8207936B2 (en) * 2006-06-30 2012-06-26 Sony Ericsson Mobile Communications Ab Voice remote control
JP2012175468A (ja) * 2011-02-22 2012-09-10 Sony Corp 情報処理装置、情報処理方法、及びプログラム
US20120263430A1 (en) * 2011-03-31 2012-10-18 Noah Spitzer-Williams Bookmarking moments in a recorded video using a recorded human action
US9285592B2 (en) 2011-08-18 2016-03-15 Google Inc. Wearable device with input and output structures
US9223136B1 (en) * 2013-02-04 2015-12-29 Google Inc. Preparation of image capture device in response to pre-image-capture signal
US20140247368A1 (en) * 2013-03-04 2014-09-04 Colby Labs, Llc Ready click camera control
KR20150129143A (ko) * 2014-05-08 2015-11-19 삼성디스플레이 주식회사 벽면 디스플레이 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6563532B1 (en) * 1999-01-05 2003-05-13 Internal Research Corporation Low attention recording unit for use by vigorously active recorder
JP2004287063A (ja) * 2003-03-20 2004-10-14 Miyota Kk ヘッドマウントディスプレイ
US20090175599A1 (en) * 2008-01-03 2009-07-09 International Business Machines Corporation Digital Life Recorder with Selective Playback of Digital Video
JP2012533134A (ja) * 2009-07-13 2012-12-20 マイクロソフト コーポレーション ユーザーから学習した入力を介し視覚表示を実写のようにする方法及びシステム
WO2012158588A1 (en) * 2011-05-18 2012-11-22 Eastman Kodak Company Video summary including a particular person

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017208352A1 (ja) * 2016-05-31 2017-12-07 株式会社オプティム 録画画像共有システム、方法及びプログラム
JPWO2017208352A1 (ja) * 2016-05-31 2018-09-13 株式会社オプティム 録画画像共有システム、方法及びプログラム
US10397468B2 (en) 2016-05-31 2019-08-27 Optim Corporation Recorded image sharing system, method, and program

Also Published As

Publication number Publication date
US10541006B2 (en) 2020-01-21
EP3152896A1 (en) 2017-04-12
WO2015190061A1 (en) 2015-12-17
CN106463155A (zh) 2017-02-22
US10181337B2 (en) 2019-01-15
US20170047095A1 (en) 2017-02-16
US20190130944A1 (en) 2019-05-02

Similar Documents

Publication Publication Date Title
CN109635621B (zh) 用于第一人称视角中基于深度学习识别手势的***和方法
CN106575361B (zh) 提供视觉声像的方法和实现该方法的电子设备
US8164644B2 (en) Method and apparatus for generating media signal by using state information
US9953221B2 (en) Multimedia presentation method and apparatus
JP4987943B2 (ja) 電子機器及び画像表示方法
JP6799779B2 (ja) 監視映像解析システム及び監視映像解析方法
EP2860968A1 (en) Information processing device, information processing method, and program
CN104035656A (zh) 用户界面和方法
JP5153478B2 (ja) 画像処理装置及び画像処理方法
JPWO2015145769A1 (ja) 撮像装置、情報処理装置、撮影補助システム、撮影補助プログラム及び撮影補助方法
JP2011101251A (ja) 電子機器及び画像表示方法
JP5874982B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP6214762B2 (ja) 画像検索システム、検索画面表示方法
JP2015103968A (ja) 画像処理装置、画像処理方法及び画像処理プログラム
US10541006B2 (en) Information processor, information processing method, and program
CN104170367A (zh) 虚拟快门图像捕获
US11163822B2 (en) Emotional experience metadata on recorded images
JP2015139001A (ja) 情報処理装置、情報処理方法及びプログラム
KR102138835B1 (ko) 정보 노출 방지 영상 제공 장치 및 방법
CN108280184B (zh) 一种基于智能笔的试题摘录方法、***及智能笔
JP2016506688A (ja) シングルクリックに基づく映像クリップの始点および終点の判定方法
CN109257544B (zh) 图像记录装置、图像记录方法以及记录介质
JP6028605B2 (ja) 情報処理装置、情報処理装置におけるデータ付与方法及びプログラム
JP2010039795A (ja) 認識用データ生成装置及び電子カメラ、認識用データ生成プログラム、並びに認識用データ生成方法
JP2020187398A (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170213

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180508

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20181106