JP2015037212A - 情報処理装置、撮影機器及び情報処理方法 - Google Patents
情報処理装置、撮影機器及び情報処理方法 Download PDFInfo
- Publication number
- JP2015037212A JP2015037212A JP2013167607A JP2013167607A JP2015037212A JP 2015037212 A JP2015037212 A JP 2015037212A JP 2013167607 A JP2013167607 A JP 2013167607A JP 2013167607 A JP2013167607 A JP 2013167607A JP 2015037212 A JP2015037212 A JP 2015037212A
- Authority
- JP
- Japan
- Prior art keywords
- image
- meaning
- sound
- unit
- determination unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 21
- 238000003384 imaging method Methods 0.000 title claims description 37
- 238000003672 processing method Methods 0.000 title claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 5
- 241000251468 Actinopterygii Species 0.000 description 18
- 238000010586 diagram Methods 0.000 description 10
- 238000000034 method Methods 0.000 description 10
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 10
- 230000006835 compression Effects 0.000 description 9
- 238000007906 compression Methods 0.000 description 9
- 230000029058 respiratory gaseous exchange Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 8
- 239000004576 sand Substances 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 244000025254 Cannabis sativa Species 0.000 description 3
- 241000238633 Odonata Species 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 230000009189 diving Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003252 repetitive effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- HOKBIQDJCNTWST-UHFFFAOYSA-N phosphanylidenezinc;zinc Chemical compound [Zn].[Zn]=P.[Zn]=P HOKBIQDJCNTWST-UHFFFAOYSA-N 0.000 description 2
- 206010039740 Screaming Diseases 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000006260 foam Substances 0.000 description 1
- 239000008187 granular material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000001454 recorded image Methods 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 208000027765 speech disease Diseases 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/765—Interface circuits between an apparatus for recording and another apparatus
- H04N5/77—Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
- H04N5/772—Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/22—Means responsive to presence or absence of recorded information signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/61—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/71—Indexing; Data structures therefor; Storage structures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/80—Camera processing pipelines; Components thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Studio Devices (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
【課題】関連を有する画像と音声を出力することができる。【解決手段】 情報処理装置は、データベースを参照することで入力画像の意味を判定する画像意味判定部と、データベースを参照することで入力音声の意味を判定する音声意味判定部と、上記画像意味判定部及び上記音声意味判定部の各判定結果に基づいて、上記入力画像及び入力音声を関連付けて出力する関連付け制御部とを具備し、対応する音声がない画像、対応する画像がない音声が入力された場合でも、画像と音声とを関連付けて出力することができる。【選択図】図1
Description
本発明は、画像と音声とを処理可能な情報処理装置、撮影機器及び情報処理方法に関する。
近年、画像及び音声のデジタル処理、符号化技術、IC化技術等の発展によって、画像や音声を長時間記録可能な装置が普及している。例えば、携帯型のデジタルレコーダ、デジタルカメラ、携帯電話等においても、画像及び音声を記録することができるものが多い。これらの記録機器では、記録媒体として半導体メモリを用いて、小型・軽量化されている。
撮影及び録音が可能なこの種の記録機器は、携帯性に優れていることから、会議、野鳥の声、せせらぎ、音楽の録音等の様々なシーンにおいて撮影及び録音が可能である。また、水密構造を採用することにより、陸上だけでなく水中での使用を可能にした水中カメラも普及しており、水中においても撮影及び録音が可能である。
更に、特許文献1においては、画像に応じた擬音や画像をイメージに合成する装置も開示されている。
更に、特許文献1においては、画像に応じた擬音や画像をイメージに合成する装置も開示されている。
しかしながら、水中では音の伝搬の仕方が陸上とは異なり、陸上のように、被写体や被写体周囲の音を十分に記録することはできるとは限らない。例えば、スキューバダイビング中にダイバー同士で撮影を行う場合には、被写体であるダイバーを撮影しても被写体から発する音を十分に記録することはできず、主に撮影者が発する音が記録されることが多い。この場合には、記録画像及び音声を再生しても、関連していない画像と音とが再生されることになる。なお、特許文献1の技術を用いることで、画像に応じた擬音や画像をイメージに合成することは可能である。しかしながら、この場合でも、合成される擬音は実際の音声とは異なり、再生音には違和感がある。
本発明は、関連を有する画像と音声を出力することができる情報処理装置、撮影機器及び情報処理方法を提供することを目的とする。
本発明に係る情報処理装置は、データベースを参照することで入力画像の意味を判定する画像意味判定部と、データベースを参照することで入力音声の意味を判定する音声意味判定部と、上記画像意味判定部及び上記音声意味判定部の各判定結果に基づいて、上記入力画像及び入力音声を関連付けて出力する関連付け制御部とを具備する。
本発明に係る撮影機器は、被写体を撮像して撮像画像を得る撮像部と、音を収音して音声を得る収音部と、上記撮像画像及び音声を記録する仮記録部と、データベースを参照することで上記撮像画像の意味を判定し判定結果を記録する画像意味判定部と、データベースを参照することで上記音声の意味を判定し判定結果を記録する音声意味判定部と、上記画像意味判定部の判定結果に基づいて上記撮像画像に対応する音声を上記仮記録部から読出して上記撮像画像と関連付けて出力するか又は、上記音声意味判定部の判定結果に基づいて上記音声に対応する撮像画像を上記仮記録部から読出して上記音声と関連付けて出力するか選択部とを具備する。
本発明に係る情報処理方法は、画像意味判定部が、データベースを参照することで入力画像の意味を判定し、音声意味判定部が、データベースを参照することで入力音声の意味を判定し、関連付け制御部が、上記画像意味判定部及び上記音声意味判定部の各判定結果に基づいて、上記入力画像及び入力音声を関連付けて出力する。
本発明によれば、関連を有する画像と音声を出力することができるという効果を有する。
以下、図面を参照して本発明の実施の形態について詳細に説明する。
(第1の実施の形態)
図1は本発明の第1の実施の形態に係る情報処理装置の回路構成を示すブロック図である。
図1は本発明の第1の実施の形態に係る情報処理装置の回路構成を示すブロック図である。
本実施の形態の情報処理装置10は、画像意味データベース(DB)14及び音声意味データベース(DB)15にアクセス可能な画像音声関連付け制御部11によって構成される。画像音声関連付け制御部11には、関連付けを行う画像及び音声の少なくとも一方が入力される。画像音声関連付け制御部11は、入力された画像に基づいて画像意味DB14を参照して、画像の意味を判定する。また、画像音声関連付け制御部11は、入力された音声に基づいて音声意味DB15を参照して、音声の意味を判定する。
画像音声関連付け制御部11は、画像が入力された場合には、入力された画像に対応する意味を画像意味DB14から取得し、取得した意味に対応する音声、即ち、画像に関連した音声を音声意味DB15から読み出す。画像音声関連付け制御部11は、入力された画像に、読み出した音声を関連付けて出力する。
また、画像音声関連付け制御部11は、音声が入力された場合には、入力された音声に対応する意味を音声意味DB15から取得し、取得した意味に対応する画像、即ち、音声に関連した画像を画像意味DB14から読み出す。画像音声関連付け制御部11は、入力された音声に、読み出した画像を関連付けて出力する。
図2は画像と音声との関連を説明するための説明図であり、図3は画像意味DB14及び音声意味DB15に記憶されている内容を説明するための説明図である。
図2(a)は水中41でスキューバダイビングしている人物(ダイバー)42の画像を示し、図2(b)は水中41の魚46の画像を示している。水中眼鏡43を掛けたダイバー42は水中41においてレギュレータ44を介して呼吸を行う。図2(a)は、レギュレータ44の図示しない排気弁から空気が排出され、排出された空気が泡45となって水中を上昇する様子を示している。
図3に示すように、画像中の人物の顔のあたりから引力に逆らって上昇する白色の塊が画像中に含まれる場合には、このような画像が泡の画像であると判定することができる。画像意味DB14には、このように白色の塊が人物の顔のあたりから上昇する動画像が泡を意味することを示す情報が記述されている。
一方、図2(a)において、空気が排出されて泡45になり、その泡が水中を上昇する際には、「ぶくぶく」、「ぼこぼこ」という音が発生する。図3に示すように、音声意味DB15には、このような「ぶくぶく」、「ぼこぼこ」という音の音声波形の情報が記述されると共に、この音声波形の情報やこのような低周波の繰り返し音が数秒継続することを示す情報に対応して、泡を意味する情報が記述されている。
また、ダイバー42がレギュレータ44を介して呼吸する場合には、「しゅー」、「ぼー」というレギュレータ44を通過する空気の音が発生する。音声意味DB15には、このような「しゅー」、「ぼー」という音の音声波形の情報が記述されると共に、この音声波形の情報や上述した「ぶくぶく」、「ぼこぼこ」という低周波の音に先立つ2秒間程度の持続音であることを示す情報に対応して、呼吸を意味する情報が記述されている。つまり、上記音声意味DBは、検出された音声の周波数や時間変化でそれぞれの意味を判定、または、検出された音声の特定のパターンでそれぞれの意味を判定するために、音声の特徴と(「しゅー」や、「ぼこぼこ」など周波数、大きさやパターン)と意味(泡や呼吸や砂利の音)を関連づけて記録している。水中において、ダイバーが撮影する時に耳にする音は限られているので、こうしたDB化が比較的簡単にできる。したがって、この音声意味DBは、水中判定用に限定使用できるようにしても良い。さもなくば、陸上では起こりえないような音声が意味付けされたり再生されてしまうことになる。水中で使うカメラの形状や人物の仕草をDB化しても良い。なお、陸上においては、聞こえる音がはるかに多彩になるが、それでも、このような考え方を踏襲してもよく、時計情報、GPS情報や室内判定などで撮影シーンを特定して、夏の山なら蝉の声といった風に、シーンに応じてDBを変更しても良い。
なお、画像意味DB14には、白色の塊が人物の顔のあたりから上昇する動画像に先立つ2秒間程度の画像に対して呼吸を意味する情報が記述されている。
図2(b)は魚が岩47の岩陰から素早く移動する様子を示しており、砂利48や砂49が魚46の移動方向の反対側に巻き上げられる様子を示している。魚の顔の移動方向の反対側の方向に向かって、魚の下方から移動する白い粒状物が画像中に含まれる場合には、このような画像は、砂利や砂の上にいた魚が移動した場合の画像であると判定することができる。画像意味DB14には、このように魚の顔の移動方向の反対側の方向に向かって白い粒状物が移動する動画像によって、砂利や砂の上を魚が動くことを意味するものとする情報が記述されている。上記画像意味DBは、検出された画面上の陰影のパターンまたはその時間的変化で意味(泡、砂利の動きなど)を判定、または、検出された画面上の陰影パターンや色で意味(魚など)を判定できるように、画像の特徴と意味を関連付けデータベース化したものである。水中において、ダイバーが撮影するものは限られているので、こうしたDB化が比較的簡単にできる。この画像意味DBは、水中判定用に限定使用できるようにしても良い。さもなくば、陸上では起こりえないような意味付けや再生がなされてしまうことになる。このほか、カメラの操作音や合図や会話などをDB化しても良い。
また、このような魚の動きによる砂利や砂の移動によって、「じゃっ」、「さっ」という音が発生する。音声意味DB15には、このような「じゃっ」、「さっ」という音の音声波形の情報が記述されると共に、この音声波形の情報やこのような比較的高い周波数の音が0.5秒程度で消失することを示す情報に対応して、魚の動きによって砂利や砂が移動することを意味する情報が記述されている。
画像音声関連付け制御部11は、相互に関連付けられた画像及び音声を提示部12に与えることができる。提示部12は、例えば、モニタ及びスピーカによって構成されており、画像音声関連付け制御部11からの画像に基づく表示及び音声に基づく音響を出力する。
また、画像音声関連付け制御部11は、相互に関連付けられた画像及び音声を記録部13に与えることができる。記録部13は、画像音声関連付け制御部11からの画像及び音声を図示しない記録媒体に記録することができるようになっている。
なお、画像音声関連付け制御部11は、画像及び音声が同時に入力された場合には、画像意味DB14及び音声意味DB15によって画像に関連した音声を取得することができたときのみ、画像と関連する音声とを関連付けて出力するようにしてもよい。また、画像音声関連付け制御部11は、画像及び音声が同時に入力された場合には、画像意味DB14及び音声意味DB15によって画像に関連した音声を取得することができたときには画像と関連する音声とを関連付けて出力し、取得することができなかったときには入力された画像及び音声をそのまま出力するようにしてもよい。
次にこのように構成された実施の形態の動作について図4を参照して説明する。図4は第1の実施の形態の動作を説明するためのフローチャートである。
画像音声関連付け制御部11には、関連付けを行う画像及び音声の少なくとも一方が入力される。画像音声関連付け制御部11は、ステップS1において画像データが指定されているか否かを判定し、ステップS5において音声データが指定されているか否かを判定する。画像音声関連付け制御部11は、画像データが指定されている場合には、画像意味DB14を参照して(ステップS2)、画像データに基づく意味を抽出し(ステップS3)、抽出した意味に基づいて音声を判定する(ステップS4)。
例えば、図2(a)に示す動画像が入力された場合には、画像音声関連付け制御部11は、入力画像の特徴と画像意味DB14に記述されている画像の特徴との比較を行い、特徴が一致していると判定することができる画像に対して割当てられた意味、即ち、「泡」を抽出する。画像音声関連付け制御部11は、意味が「泡」として音声意味DB15に格納されている音声「ぶくぶく、ぼこぼこ」を読み出す。
画像音声関連付け制御部11は、入力された画像に対して音声意味DB15から読み出した音声を関連付けて出力する。これにより、図2(a)に示す画像、即ち、泡45が上昇する画像に対して、「ぶくぶく」、「ぼこぼこ」という音声が付加される。
画像音声関連付け制御部11からの画像及び音声は、提示部12において提示されると共に、記録部13において記録される(ステップS10)。ステップS11において処理の終了が判定され、関連付け処理が終了するまで、ステップS1〜S10が繰り返される。
また、画像音声関連付け制御部11は、音声データが指定されている場合には、ステップS6において、音声意味DB15を参照して、音声データに基づく意味を抽出する(ステップS7)。例えば、画像音声関連付け制御部11は、入力音声の特徴と音声意味DB15に記述されている音声の特徴との比較を行い、特徴が一致していると判定することができる音声に対して割当てられた意味を抽出する。画像音声関連付け制御部11は、抽出した意味に基づいて画像を判定する(ステップS8)。
ステップS5〜S8の処理によって、画像音声関連付け制御部11は、音声のみが入力された場合でも、入力音声に画像を付加して出力することができる。また、或いは、画像及び音声が入力された場合でも、入力音声に基づいて抽出した画像を元の画像に代えて出力することも可能である。
このように本実施の形態においては、画像と音声の意味を判定し、意味が一致する画像と音声とを関連付けて出力することができる。これにより、画像に対応する音声が得られていない場合、或いは音声に対応する画像が得られていない場合であっても、画像に対応した音声、音声に対応した画像を得て、相互に関連する画像及び音声を提示又は記録することができるという効果を有する。
(第2の実施の形態)
図5は本発明の第2の実施の形態を示すブロック図である。本実施の形態は情報処理装置の画像音声関連付け制御部を撮影機器に搭載した場合の例を示している。第1の実施の形態においては、画像意味DB14及び音声意味DB15に記録されている画像データ及び音声データを用いて、画像又は音声に夫々関連する音声又は画像を抽出し関連付けて出力する例について説明した。これに対し、本実施の形態においては、撮影して得た画像又は音声を用いて、画像又は音声に、異なるタイミングにおいて取得した音声又は画像を関連付けて出力する例を示している。
この場合も、上記画像意味判定部が、検出された画面上の陰影のパターンまたはその時間的変化で意味を判定、上記音声意味判定部音声は、検出された音声の周波数や時間変化でそれぞれの意味を判定し、この意味に応じて関連付けを行うことによって、課題を解決している。なお、上記画像意味判定部は、検出された画面上の陰影パターンや色で意味を判定、上記音声意味判定部は、検出された音声の特定のパターンでそれぞれの意味を判定するようにしても良い。
図5は本発明の第2の実施の形態を示すブロック図である。本実施の形態は情報処理装置の画像音声関連付け制御部を撮影機器に搭載した場合の例を示している。第1の実施の形態においては、画像意味DB14及び音声意味DB15に記録されている画像データ及び音声データを用いて、画像又は音声に夫々関連する音声又は画像を抽出し関連付けて出力する例について説明した。これに対し、本実施の形態においては、撮影して得た画像又は音声を用いて、画像又は音声に、異なるタイミングにおいて取得した音声又は画像を関連付けて出力する例を示している。
この場合も、上記画像意味判定部が、検出された画面上の陰影のパターンまたはその時間的変化で意味を判定、上記音声意味判定部音声は、検出された音声の周波数や時間変化でそれぞれの意味を判定し、この意味に応じて関連付けを行うことによって、課題を解決している。なお、上記画像意味判定部は、検出された画面上の陰影パターンや色で意味を判定、上記音声意味判定部は、検出された音声の特定のパターンでそれぞれの意味を判定するようにしても良い。
図5において、撮影機器20は、CCDやCMOSセンサ等の撮像素子によって構成された撮像部22を有している。撮像部22は、信号処理及び制御部21によって、絞り、ピント、ズーム等が制御可能に構成されており、様々な構図、被写体に対応した撮像が可能である。
撮像部22は、信号処理及び制御部21によって駆動制御されて、被写体を撮像し、撮像画像を出力する。信号処理及び制御部21は、CPU等によって構成されており、撮像部22に撮像素子の駆動信号を出力すると共に、撮像部22からの撮像画像を読み出す。この撮像画像の取り込みは読取部21aによって行われる。読取部21aは撮像部22から読み出した撮像画像を仮記録部25に与える。
また、撮影機器20は、撮像部22だけでなくマイク23を有しており、撮影だけでなく録音も可能である。マイク23からの音声信号は、ADC24に与えられる。ADC24は入力された音声信号をデジタル信号に変換して仮記録部25に出力する。
仮記録部25は、読取部21aからの撮像画像及びADC24からの音声を所定期間保存する容量を有し、撮像部22から読み出された撮像画像(動画及び静止画)及びマイク23によって取得された音声を記憶保持する。
仮記録部25に仮記録された画像は、対象物判定部21c及び選択部21bの画像選択部21b1に与えられ、仮記録部25に仮記録された音声は、対象物判定部21c及び選択部21bの音声選択部21b2に与えられる。
撮影機器20には、DB26が設けられている。DB26は、例えば、図1の画像意味DB14及び音声意味DB15と同様の構成を有しており、画像特徴の情報に対してこの画像特徴に対応する意味の情報が記述されており、また、音声特徴の情報に対してこの音声特徴に対応する意味の情報が記述されている。信号処理及び制御部21の対象物判定部21cには、仮記録部25から撮像画像及び音声が入力されると共に、時間判定部26から撮像部22による撮像時間及びマイク23による収音時間の情報が与えられる。
対象物判定部21cは、DB26を参照することで、入力された撮像画像の意味を判定し、撮像時間の情報と共に判定結果を仮記録部25の画像意味記録領域に記録するようになっている。また、対象物判定部21cは、DB26を参照することで、入力された音声の意味を判定し、収音時間の情報と共に判定結果を仮記録部25の音声意味記録領域に記録するようになっている。なお、対象物判定部21cによるこのような意味判定は、動画又は静止画の撮影時に行ってもよく、スルー画表示時に行ってもよい。
選択部21bは、画像音声関連付けモード時において、対象物判定部21cに制御されて、画像に対応する音声又は音声に対応する画像を選択する。即ち、対象物判定部21cは、画像音声関連付けモード時には、仮記録部25から画像の意味の判定結果及び撮像時間を読み出すと共に、音声の意味の判定結果及び収音時間を読み出して、選択部21bの選択を制御する。これにより、画像選択部21b1及び音声選択部21b2は、対象物判定部21cに制御されて、意味の判定結果が共通の画像及び音声を仮記録部25から読み出して出力する。
例えば、画像を基準にした場合には、画像選択部21b1は、仮記録部25に記録されている動画像を順次読み出す。一方、音声選択部21b2は、画像選択部21b1に読出されている動画像の各タイミングにおける意味の判定結果に夫々一致する音声を順次仮記録部25から読出して、当該意味の画像の出力時間に一致させて出力する。こうして、画像選択部21b1及び音声選択部21b2からは相互に意味が共通する画像及び音声が同時に選択合成部21fに出力される。
なお、テキスト化部21dは、DB26の音声情報に基づくテキストを生成して、テキスト情報を選択部21bに供給することができるようになっている。画像選択部21b1は、仮記録部25からの画像に対応するテキストを画像に合成して出力することも可能である。
選択合成部21fは、入力された画像及び音声を合成して提示制御部21g、S圧縮部21h、M圧縮部21i及び音声圧縮部21jに出力する。これらの選択部21b、対象物判定部21c、テキスト化部21d及び選択合成部21fによって、画像音声関連付け制御部が構成される。
提示制御部21gは、入力された動画像、静止画像及び音声を提示部30に与えて表示及び音声出力させるための処理を行う。提示部30はLCD等によって構成されたモニタやスピーカによって構成されており、提示制御部21gから与えられた動画像、静止画像を表示すると共に、与えられた音声に基づく音響を出力する。
S圧縮部21hは入力された静止画像を圧縮して記録制御部21kに与え、M圧縮部21iは入力された動画像を圧縮して記録制御部21kに与える。また、音声圧縮部21jは入力された音声を圧縮して記録制御部21kに与える。記録制御部21kは、圧縮された圧縮動画像、圧縮静止画像及び圧縮音声を記録部31に与えて記録させる。記録部31は、記録制御部21kに制御されて、入力された圧縮動画像、圧縮静止画像及び圧縮音声を記録する。記録部31としては、例えばカードインターフェースを採用することができ、記録部31はメモリカード等の記録媒体に画像情報及び音声情報等を記録可能である。
また、撮影機器20には、操作部29も設けられている。操作部29は、撮影モード設定等の各種スイッチやボタンを有しており、ユーザ操作に基づく操作信号を発生して信号処理及び制御部21に供給する。例えば、図1では、操作部29の具体例として、動画撮影操作部29a及び静止画撮影操作部29bを示している。動画撮影操作部29aは動画撮影を指示するためのものであり、動画撮影操作部29aが操作されることで、動画撮影を開始するための操作信号が信号処理及び制御部21に供給されるようになっている。また、静止画撮影操作部29bは静止画撮影を指示するためのものであり、静止画撮影操作部29bが操作されることで、静止画撮影を開始するための操作信号が信号処理及び制御部21に供給されるようになっている。信号処理及び制御部21は、操作信号に基づいて、各部を制御する。
更に、操作部29としてはタッチパネルを採用することもできる。例えば、操作部29としてのタッチパネルを提示部30の図示しない表示画面上に設けることで、ユーザが指で指し示した表示画面上の位置に応じた操作信号を発生することができる。
また、撮影機器20には水中判定部28も設けられている。水中判定部28は、例えば水圧検出等によって、撮影機器20が水中にあるか否かを判定して判定結果を信号処理及び制御部21に出力することができるようになっている。
次に、このように構成された実施の形態の動作について図6乃至図9を参照して説明する。図6はカメラ制御を示すフローチャートであり、図7は水中での撮影の様子を示す説明図であり、図8は画像及び音声判定を説明するための説明図であり、図9は画像意味記録領域及び音声意味記録領域に記録される内容を説明するための説明図である。
いま、図7に示すように、水中41において2人のダイバー42,52がスキューバダイビングを行っているものとする。水中眼鏡43を付けたダイバー42は、レギュレータ44を介して呼吸しており、呼吸に伴う泡45がダイバー42の顔の側から上昇しようとしている。ダイバー52は、左手53L及び右手53Rによって、撮影機器20を収納した筐体20aを把持して、ダイバー42を被写体として撮影しようとしている。ダイバー52も図示しないレギュレータを介して呼吸を行っており、この呼吸に伴って泡54が発生している。
撮影機器20の電源がオンになると、信号処理及び制御部21は、図6のステップS21において、撮影モードであるか否かを判定する。信号処理及び制御部21は、ステップS21において撮影モードが指示されているものと判定した場合には、ステップS22において撮像及び収音を行って、撮像画像及び音声を仮記録部25に仮記録する。即ち、信号処理及び制御部21は、撮像部22からの撮像画像を取込み、仮記録部25に与えて記録させる。また、マイク23によって収音された音声は、ADC24によってデジタル信号に変換された後、仮記録部25に与えられて記録される。
次いで、信号処理及び制御部21は、ステップS23において、スルー画表示を行うと共に、画像判定を行う。即ち、信号処理及び制御部21は、仮記録部25に記録された画像及び音声を読出して、選択部21b及び選択合成部21fを介して提示制御部21gに供給する。提示制御部21gは、撮像画像に基づく画像を提示部30の表示画面上に表示させる。また、提示制御部21gは、提示部30から収音した音を音響出力するようにしてもよい。
本実施の形態においては、信号処理及び制御部21の対象物判定部21cは、仮記録部25から画像を読出して、DB26を参照することで、画像の意味を判定し、判定結果及び撮像時間を仮記録部25の画像意味記録領域に記録する。次のステップS24においては、対象物判定部21cは、仮記録部25から音声を読出して、DB26を参照することで、音声の意味を判定し、判定結果及び収音時間を仮記録部25の音声意味記録領域に記録する(ステップS25)。
ステップS26においては、信号処理及び制御部21は、撮影操作があったか否かを判定し、撮影者が撮影操作を行った場合には、処理をステップS27に移行して撮影を行う。このように本実施の形態においては、撮影モードが指定されると、撮影者の撮影操作前に、撮像及び収音が行われて仮記録される。そして、仮記録された撮像画像及び音声は、データベース26の参照によって意味が判定され、意味ありと判定された画像部分及び音声部分を示す時間情報が判定された意味と共に、仮記録される。なお、このような意味判定及び記録処理は、撮影前だけでなく、撮影中、撮影後、或いは再生時に行うようにしてもよい。
図8は意味判定と撮影との時間関係の一例を示している。なお、以後、画像を基準にして、画像の意味に対応する音声を抽出して画像に関連付けて用いる例を説明する。図8の例は図7のダイバー52がパートナーであるダイバー42の撮影の後、水中を泳いでいる魚を撮影していることを示している。ダイバー52が把持している撮影機器20の筐体20aには背面に提示部30を構成する表示画面30aが設けられている。パートナーであるダイバー42の撮影期間には、表示画面30aには、ダイバー42が写されて、スルー画61として表示されている。また、魚の撮影期間には、表示画面30aには、魚46の画像を含むスルー画61が表示されている。
撮影操作が行われると、信号処理及び制御部21の対象物判定部21cは、ステップS28において、撮像部22から読取部21aを介して仮記録部25に仮記録された現在の撮像画像について順次画像判定を行う。また、対象物判定部21cは、ステップS29において、画像判定により得た意味と同じ意味であるという判定結果が音声意味記録領域に記録されているか否かを判定し判定結果を選択部21bに出力する。
選択部21bの画像選択部21b1は、現在撮影している画像を仮記録部25から読出して出力する。一方、音声選択部21b2は、対象物判定部21cによって画像選択部21b1によって選択されている画像の意味と同一の意味を有する音声部分を仮記録部25から読出して出力する。
図8においてパターンAは、画像又は音声のパターンが例えば図3の泡を意味することを示し、パターンBは、画像又は音声のパターンが例えば図3の呼吸を意味することを示し、パターンCは、画像又は音声のパターンが例えば図3の砂利・砂の上を魚が動くことを意味することを示している。
図8の音声判定は、撮影前又は撮影中における音声判定の結果を示し、矢印は、矢印の期間に収音された音声が意味を有する音声であると判定されたことを示している。パートナーであるダイバー42の撮影期間において、撮影者は呼吸しており、この呼吸によって、例えば「しゅー」という音が呼吸判定B1〜B3として判定され、収音時間及び意味(パターン)が音声意味記録領域に記録される。
図9は音声意味記録領域及び画像意味記録領域の記録内容を示しており、例えば、息の意味(パターンB)と判定された音声が、収音時間28秒〜30秒の間、34秒〜36秒の間、41秒〜43秒の間に仮記録部25に記録されたことを示している。なお、収音時間と撮像時間とは相互に同一の時間基準を用いており、収音時間及び撮像時間から仮記録部25の記録位置が明らかとなる。
また、ダイバー42の撮影期間においては、撮影者の呼吸に伴って生じる泡によって、例えば「ぶくぶく」という音が泡判定A1,A2として判定され、収音時間及び意味(パターン)が音声意味記録領域に記録される。
現在の撮像画像の画像判定、即ち、ダイバー42の撮像画像によって、ダイバー42の顔の付近から生じた泡が泡判定A1’,A2’として検出されると、この判定結果によって、音声選択部21b2は、泡判定A1,A2として判定された音声の収音時間に基づいて、仮記録部25の記録位置を指定して音声の読み出しを行う。こうして、泡判定A1’,A2’の部分の音声としては、泡判定A1,A2の部分の音声が選択されて出力される。
例えば、図9の例では、撮像時間35秒〜38秒の画像に対応させて、収音時間30秒〜33秒に収音されて仮記録された音声が選択される。また、撮像時間42秒〜45秒の画像に対応させて、収音時間37秒〜40秒に収音されて仮記録された音声が選択される。
また、この泡判定A1’,A2’の前の時間については、呼吸判定B1’,B2’が行われて、撮像時間32秒〜34秒及び39秒〜41秒の画像に対応させて、収音時間28秒〜30秒の音声及び34秒〜36秒の音声が選択されて出力される。
また、図8の例では、ダイバー52が魚46の撮影をし始めたしばらくの間は、息をひそめながら撮影行ったため、無音状態であることを示している。また、図8では魚46が逃げるときに発した音が判定C1として意味判定されていることを示している。図9では61秒〜62秒の間に、魚46の移動によって、例えば「じゃっ」という音が判定されて記録されたことを示している。この音は被写体から発せられた音であり、対象物判定部21cは、図9に示すように、実際の音、即ち、収音中の音をそのまま用いるよう音声選択部21b2を制御する。
画像選択部21b1及び音声選択部21b2によって選択された画像及び音声は選択合成部21fに与えられて合成される。合成された画像及び音声は、S圧縮部21h,M圧縮部21i及び音声圧縮部21jによって圧縮された後、記録制御部21kに与えられて記録部31に記録される(ステップS31)。
信号処理及び制御部21は、ステップS32において撮影モードの終了操作が行われたか否かを判定し、終了操作が行われるまで、上記処理を繰り返す。撮影モードの終了操作が行われると、信号処理及び制御部21は、ステップS33において電源オフ操作が行われたか否かを判定する。電源オフ操作が行われなければ処理をステップS21に戻し、電源オフ操作が行われると処理を終了する。
一方、信号処理及び制御部21は、撮影モードでない場合には、ステップS41において再生モードが指定されたか否かを判定する。再生ボタン等が操作された場合には、信号処理及び制御部21は、ステップS42において、再生モードに移行し、記録部31によって記録されたファイルの一覧の情報を読み出し、ファイル一覧表示を提示部30に表示させる。
ファイル一覧の表示時に、ユーザがファイル選択を行うと(ステップS43)、信号処理及び制御部21は、選択されたファイルを記録部31から読み出し、復号化処理を行って、画像信号及び音声信号を再生する(ステップS45)。信号処理及び制御部21は、再生した画像信号及び音声信号を提示部30に与えて表示させる。
また、本実施の形態においては、記録時だけでなく、再生時においても画像と音声の関連付けが可能である。信号処理及び制御部21は、画像再生中において、対象物判定部21cによって画像の意味を判定すると共に、判定した意味を有する音声が仮記録部25に記録されているか否かを判定する(ステップS46)。画像に関連する音声が記録されている場合には、ステップS47において仮記録部25から読出した音声を再生画像に関連付けて出力する。こうして、記録時に画像と音声とが関連付けられていない場合でも、再生時において、再生画像に関連する音声を関連付けて出力することが可能である。
また、ステップS47においては、テキスト化部21dによるテキスト化した画像を用いることで、音声に代えて音声に対応するテキストを表示させるようにすることも可能である。
なお、ファイル一覧表示時に、終了操作が行われた場合には、信号処理及び制御部21は、処理をステップS44からステップS21に移行して再生モードを終了する。
このように本実施の形態においては、実際の記録に先立って、取得した画像や音声の意味を判定し、既に記録された意味が一致する画像や音声を用いて、相互に関連する画像及び音声を得るようになっている。これにより、画像に対応する音声が得られていない場合、或いは音声に対応する画像が得られていない場合であっても、画像に対応した音声、音声に対応した画像を得て、相互に関連する画像及び音声を提示又は記録することができる。例えば、水中における撮影のように、被写体の画像に対応する音声が収音されていない場合でも、収音された他のタイミングの音声を利用して、被写体の画像に対応する音声を関連付けて出力することができ、違和感のない画像及び音声を提示することが可能である。
なお、図6においては、画像を基準に画像に対応する音声を抽出する例について説明したが、音声を基準にして対応する画像を抽出するようにしてもよい。また、水中では収音が困難となるので、水中判定部28の判定結果によって水中であることが示された場合には、画像を基準に対応する音声を抽出するようにしてもよい。
(他の例)
図10乃至図13は第2の実施の形態における他の例を示す説明図である。図10乃至図13は、撮影時の背景音として適切な音を、撮影前に自動的に収音する例を示す説明図である。
図10乃至図13は第2の実施の形態における他の例を示す説明図である。図10乃至図13は、撮影時の背景音として適切な音を、撮影前に自動的に収音する例を示す説明図である。
図10は画像と音声との関連を説明するためのものであり、図11はDB26に記憶されている内容を説明するためのものである。この場合も、上記画像意味判定部が、検出された画面上の陰影のパターンまたはその時間的変化で意味を判定、上記音声意味判定部音声は、検出された音声の周波数や時間変化でそれぞれの意味を判定し、この意味に応じて関連付けを行うことによって、課題を解決している。なお、上記画像意味判定部は、検出された画面上の陰影パターンや色で意味を判定、上記音声意味判定部は、検出された音声の特定のパターンでそれぞれの意味を判定するようにしても良い。前者はおおらかな概略判定で、背景の画像や音にふさわしく、後者は特定で詳細な主被写体の画像や音声にふさわしいとも言える。
図10(a)は川72の側で撮影機器20の筐体20aを把持して構えた人物71の様子を示し、図10(b)は図10(a)の状態で撮影機器20の表示画面30aに表示されたスルー画81を示すものである。川72の側には草73が生えているが、人物71は川72の近くで、主に川72のみを撮影範囲として、撮影機器20を構えている。また、図10(c)は人物71がトンボ75を撮影する様子を示し、図10(d)は図10(c)の状態で撮影機器20の表示画面30aに表示された画像を示すものである。表示画面30a上のスルー画81には、川72の側の草74が生えており、草74にはトンボ75が留まっている画像が表示されている。
図11に示すように、DB26には、画像中に同じ方向に移動しながらきらめく部分が含まれる場合には、このような動画像が川の画像を意味すると判定するための情報が記述されている。また、図10(a)において、川72に水が流れることにより、例えば、「さらさら」、「ざーざー」という音が発生する。図11に示すように、DB26には、このような「さらさら」、「ざーざー」という音の音声波形の情報が記述されると共に、この音声波形の情報やこのような低周波の繰り返し音が約1秒周期で継続することを示す情報に対応して、川を意味する情報が記述されている。つまり、音の意味は、周波数や強弱のパターンなどをもとに判定されている。川は背景として、色や流れの方向への位置方向の変化やきらめきのような画像パターンで判定できる。
なお、図11では、海における波に関する情報も記述されている。画像中に同じ方向に移動して戻る白い波を検出すると、このような動画像は波を意味すると判定するための情報が記述されている。また、このような波が生じた場合には、例えば、「ざざー」、「ざわざわ」等の例えば4秒周期の低周波の繰り返し音が発生する。DB26には、このような「ざざー」、「ざわざわ」という音の音声波形の情報が記述されると共に、この音声波形の情報やこの低周波が例えば4秒周期であることを示す情報に対応して、波を意味する情報が記述されている。
また、図11では、鳥に関する情報も記述されている。画像中に鳥の顔や飛んでいる小物体を検出すると、このような画像は鳥を意味すると判定するための情報が記述されている。また、鳥は、例えば、「ちゅんちゅん」、「ぎゃー」等の鳴き声を発生する。DB26には、このような「ちゅんちゅん」、「ぎゃー」という音の音声波形の情報が記述されると共に、この音声波形の情報や或いは種々の鳥の鳴き声の音声波形や鳥の鳴き声に対応した特定の周波数帯の音の情報に対応して、鳥を意味する情報が記述されている。この場合、鳥やとんぼなどは、特定で詳細な主被写体といえ、こうした画像や音声にふさわしいのは陰影パターンや形状、色の分布などによる画像同定である。
本実施の形態においては、上述したように、撮影前のスルー画表示の状態において、画像及び音声を記録することができ、DB26を参照することで、例えば、音声の意味を認識し、意味の判定結果と共に音声の録音位置を記録することができる。
いま、図10に示す人物71が川72の近くで、トンボ75の撮影を行うものとする。撮影機器20とトンボ75との位置関係によっては、撮影範囲内にトンボ75だけでなく川72が含まれている場合でも、川72のせせらぎを収音できないこともある。この場合には、図10(a)に示すように、人物71は川72の近くで主に撮影機器20を川72の川面に向けて構える。
図12はこのような川辺での撮影の状態を説明するための説明図である。図12に示すように、トンボの撮影期間に先立って、川面のスルー画表示期間が設けられている。撮影モードになっていれば、スルー画中であっても、撮像画像及びマイク23からの音声は仮記録部25に記録される。対象物判定部21cは、DB26を参照することで、川72のせせらぎを意味する音声が入力されたことを判定する。判定結果及び収音時間の情報は、仮記録部25の音声意味記録領域に記録される。
図13は図12の例における画像及び音声判定の判定結果の記録内容を説明するための説明図である。図12及び図13において、パターンDは、画像又は音声のパターンが例えば図11の川を意味することを示しており、図13では、0秒〜15秒の間、川を意味する音声が収音されたことが分かる。なお、図13のパターンEは、画像又は音声のパターンが例えば図11の波を意味することを示し、パターンFは、画像又は音声のパターンが例えば図11の鳥を意味することを示している。
例えば、図12に示すように、人物71が川72がスルー画表示されるように構えて撮影モードに移行した時点を基準にして、10秒後に5秒間トンボ75の動画撮影を行うものとする。図13は、川72のスルー画表示状態での仮記録開始から3秒間は、川72のせせらぎの収音は比較的ノイズが大きく、撮影機器20が川72に近接した3秒〜6秒の間に良好な収音が行われ、トンボ75を撮影するために川72から撮影機器20を離した10秒〜15秒の間には収音レベルが低いことを示している。
撮影が開始されると、対象物判定部21cは、DB26を参照することで、撮像画像の一部の画像が川を意味するものと判定する。また、対象物判定部21cは、DB26を参照することで、入力音声についての判定を行う。この場合には、対象物判定部21cは、DB26を参照することで、入力音声が川のせせらぎの音であると判定すると共に、ノイズの大小やレベルの大小を判定する。対象物判定部21cは、入力音声に対する判定結果と仮記録部25に記録されている、川のせせらぎと判定した音声の判定結果とを比較することで、ノイズが少なく、十分なレベルの音声を選択するように、選択部21bを制御する。
図13の例では、スルー画表示期間において収音した3秒〜6秒の音声がせせらぎの音として良好であり、音声選択部21b2は、現在撮像されている画像に対して、現在収音中の音に代えて、仮記録部25から読出したせせらぎの音と判定された音声部分を選択して出力する。
なお、音声選択部21b2は、対象物判定部21cに制御されて、川のせせらぎと判定された音声を、川の画像の撮影時間に対応する時間だけ繰り返し読出して出力する。これにより、収音時間に拘わらず、画像に関連した音声を対応する画像の全期間に亘って出力することが可能である。
こうして、撮影時において背景音を適切に録音することができない場合でも、撮影前に自動的に収音した背景音を利用して、良好な背景音を有する撮像画像を得ることができる。
(第3の実施の形態)
図14は本発明の第3の実施の形態を示すフローチャートである。図14において図4と同一の手順には同一符号を付して説明を省略する。本実施の形態のハードウェア構成は第1の実施の形態と同様であり、画像音声関連付け制御部11において意味確定処理を行う点が第1の実施の形態と異なる。
図14は本発明の第3の実施の形態を示すフローチャートである。図14において図4と同一の手順には同一符号を付して説明を省略する。本実施の形態のハードウェア構成は第1の実施の形態と同様であり、画像音声関連付け制御部11において意味確定処理を行う点が第1の実施の形態と異なる。
本実施の形態においても、画像音声関連付け制御部11は、入力画像を取得して(ステップS51)、その特徴と画像意味DB14に記述されている画像の特徴との比較を行い、特徴が一致していると判定することができる画像に対して割当てられた意味を抽出する。また、画像音声関連付け制御部11は、入力音声を取得して(ステップS53)、その特徴と音声意味DB15に記述されている音声の特徴との比較を行い、特徴が一致していると判定することができる音声に対して割当てられた意味を抽出する。
本実施の形態においては、ステップS52,S54において、画像音声関連付け制御部11によって判定された画像の意味と音声の意味とが一致しているか否かが判定される。これらのステップS52,S54のいずれかにおいて、画像及び音声の意味が一致していると判定された場合には、画像音声関連付け制御部11は、撮像画像及び収音した音声の意味が確定したものとして、記録を行う(ステップS55)。
このように本実施の形態においては、画像と音声の意味を判定し、判定した画像の意味と判定した音声の意味とが一致している場合には、画像と音声の意味を確定する。例えば、撮影機器に適用した場合には、撮像中の画像、収音中の音声について同一意味の画像及び音声を取得しているか否かを判定することができる。例えば、川を撮影しようとする場合において、構え方によっては川が画角外にずれてしまうことや、周囲の音がうるさくてせせらぎを確実に収音することができない場合もある。このような場合でも、画像と音声によって被写体を確実に特定することが可能であり、被写体を確実に特定したことを撮影者に提示することで、撮影者において被写体を確実に撮影したか否かを認識可能にしたり、画像と音声が同一の意味を持つ撮影状態になった時点で記録を行うようにすることもできる。
(第4の実施の形態)
図15は本発明の第4の実施の形態を示すフローチャートである。図15において図6と同一の手順には同一符号を付して説明を省略する。本実施の形態のハードウェア構成は第2の実施の形態と同様であり、信号処理及び制御部21において意味確定処理を行う点が第2の実施の形態と異なる。
図15は本発明の第4の実施の形態を示すフローチャートである。図15において図6と同一の手順には同一符号を付して説明を省略する。本実施の形態のハードウェア構成は第2の実施の形態と同様であり、信号処理及び制御部21において意味確定処理を行う点が第2の実施の形態と異なる。
本実施の形態においても、信号処理及び制御部21の対象物判定部21cは、仮記録部25に記録された撮像画像の特徴と、DB26に記述されている画像の特徴との比較を行い、特徴が一致していると判定することができる画像に対して割当てられた意味を抽出する。また、対象物判定部21cは、仮記録部25に記録された音声の特徴と、DB26に記述されている音声の特徴との比較を行い、特徴が一致していると判定することができる音声に対して割当てられた意味を抽出する。対象物判定部21cは、判定結果と撮像時間又は収音時間の情報を仮記録部25に記録する。
本実施の形態においては、図6のステップS29〜S31に代えて、ステップS61〜S64を採用した点が第2の実施の形態と異なる。撮影が開始されると、信号処理及び制御部21は、ステップS61において、同一判定時間に判定された画像意味及び音声意味が一致しているか否かを判定する。なお、対象物判定部21cによる判定の遅延を無視するものとし、撮像時間及び収音時間は判定時間で表されるものとする。
信号処理及び制御部21は、同一判定時間に判定された画像意味及び音声意味が一致していない場合には、ステップS64において、撮像中の画像及び収音中の音声をそのまま記録する。また、信号処理及び制御部21は、同一判定時間に判定された画像意味及び音声意味が一致している場合には、ステップS62において、撮像中の画像及び収音中の音声の意味が判定された意味を有するものと確定して、当該意味を示す情報を付加して記録を行う。例えば、信号処理及び制御部21は、画像中に、意味を示す表示を含めて記録してもよく、意味を示すテキストを画像ファイルと共に記録してもよい。
図16は画像中に意味を示す表示を含めた場合における表示例を示す説明図であり、図10(c)の撮影シーンにおいて、川の画像と川のせせらぎの音声の判定によって、「川辺にて」という表示85を行った例を示している。
このように本実施の形態においても、画像と音声の意味を判定し、判定した画像の意味と判定した音声の意味とが一致している場合には、撮像中の画像、収音中の音声の意味を確定して表示や記録を行うことができる。例えば、川を撮影しようとする場合において、構え方によっては川が画角外にずれてしまうことや、周囲の音がうるさくてせせらぎを確実に収音することができない場合もある。このような場合でも、スルー画表示期間中に得た画像と音声(スルー画中に特定の被写体の具体的判定を行ってもよい)によって、撮影者が川辺にて撮影を行うことを意識していたことを検出して、そのことを示す表示等を画像に含めることが可能であり、撮影者の撮影の意図を示すことも可能である。
画像であれば、画面上の陰影のパターン(方向や形状、色など)や、その時間的変化(変化の方向や規則性や周波数などを含む)で意味を判定、音声においても検出された音声の周波数や時間変化(規則性も含む)などで意味を判定している。強烈に色や形や明るさが変化する画像は、静かな連続音より、大きなパルス状音声に対応すると考えた方が、自然であり、規則的な変化のある画像は、規則的な音声パターンが一緒に再生される音声にはふさわしく、これらの対となる画像や音声は同じ意味付けがなされることが好ましい。大きな画像変化には低音(周波数が低い)がふさわしく、小さな画像変化には(周波数が高い)高音がふさわしい。もちろん、拡大して撮影すれば、実際には高い声で鳴いている鳥が、低音で鳴くような不自然さを起こすので、撮影時の画角や距離などを加味して判定しても良い。今回の実施例では、よく撮影されるシーンを代表例として、特定の被写体の具体的判定(泡や川の流れ)を加味し、自然な再生がなされるようにした。
画像であれば、画面上の陰影のパターン(方向や形状、色など)や、その時間的変化(変化の方向や規則性や周波数などを含む)で意味を判定、音声においても検出された音声の周波数や時間変化(規則性も含む)などで意味を判定している。強烈に色や形や明るさが変化する画像は、静かな連続音より、大きなパルス状音声に対応すると考えた方が、自然であり、規則的な変化のある画像は、規則的な音声パターンが一緒に再生される音声にはふさわしく、これらの対となる画像や音声は同じ意味付けがなされることが好ましい。大きな画像変化には低音(周波数が低い)がふさわしく、小さな画像変化には(周波数が高い)高音がふさわしい。もちろん、拡大して撮影すれば、実際には高い声で鳴いている鳥が、低音で鳴くような不自然さを起こすので、撮影時の画角や距離などを加味して判定しても良い。今回の実施例では、よく撮影されるシーンを代表例として、特定の被写体の具体的判定(泡や川の流れ)を加味し、自然な再生がなされるようにした。
さらに、本発明の各実施形態においては、撮影のための機器として、デジタルカメラを用いて説明したが、カメラとしては、デジタル一眼レフカメラでもコンパクトデジタルカメラでもよく、ビデオカメラ、ムービーカメラのような動画用のカメラでもよく、さらに、携帯電話やスマートフォンなど携帯情報端末(PDA:Personal Digital Assist)等に内蔵されるカメラでも勿論構わない。また、内視鏡、顕微鏡のような産業用、医療用の光学機器でもよく、監視カメラや車載用カメラ、据え置き型のカメラ、例えば、テレビジョン受信機やパーソナルコンピュータ等に取り付けられているカメラであってもよい。例えば、音声のパターンと撮影画像のパターンを対応づけることによって、画面を見ていなくても音声で、何が表示されているかを判定することが可能となる。これは、ブラインド操作などが可能となるので、ユーザに優しい仕様となる。また、画面を見ていても、変化が小さい場合には、視覚的には気づかない事があるが、音声情報を重ねることによって注意を喚起するようなこともできる。
本発明は、上記各実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
なお、特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。また、これらの動作フローを構成する各ステップは、発明の本質に影響しない部分については、適宜省略も可能であることは言うまでもない。
また、ここで説明した技術のうち、主にフローチャートで説明した制御や機能は、多くがプログラムにより設定可能であり、そのプログラムをコンピュータが読み取り実行することで上述した制御や機能を実現することができる。そのプログラムは、コンピュータプログラム製品として、フレキシブルディスク、CD−ROM等、不揮発性メモリ等の可搬媒体や、ハードディスク、揮発性メモリ等の記憶媒体に、その全体あるいは一部を記録又は記憶することができ、製品出荷時又は可搬媒体或いは通信回線を介して流通又は提供可能である。利用者は、通信ネットワークを介してそのプログラムをダウンロードしてコンピュータにインストールしたり、あるいは記録媒体からコンピュータにインストールすることで、容易に本実施の形態の情報処理装置、撮影機器及び情報処理方法を実現することができる。
11…画像音声関連付け制御部、12…提示部、13…記録部、14…画像意味DB、15…音声意味DB。
Claims (7)
- データベースを参照することで入力画像の意味を判定する画像意味判定部と、
データベースを参照することで入力音声の意味を判定する音声意味判定部と、
上記画像意味判定部及び上記音声意味判定部の各判定結果に基づいて、上記入力画像及び入力音声を関連付けて出力する関連付け制御部と
を具備したことを特徴とする情報処理装置。 - 上記画像意味判定部は、検出された画面上の陰影のパターンまたはその時間的変化で意味を判定し、
上記音声意味判定部は、検出された音声の周波数や時間変化でそれぞれの意味を判定する
ことを特徴とする請求項1に記載の情報処理装置。 - 上記画像意味判定部は、検出された画面上の陰影パターンや色で意味を判定し、
上記音声意味判定部は、検出された音声の特定のパターンでそれぞれの意味を判定する
ことを特徴とする請求項1に記載の情報処理装置。 - 上記画像意味判定部の判定結果と上記音声意味判定部の判定結果との一致判定を行う一致判定部と、
上記一致判定部からの一致判定によって、上記入力画像及び入力音声の意味を確定する意味確定部と
を具備したことを特徴とする請求項1乃至3のいずれか1つに記載の情報処理装置。 - 被写体を撮像して撮像画像を得る撮像部と、
音を収音して音声を得る収音部と、
上記撮像画像及び音声を記録する仮記録部と、
データベースを参照することで上記撮像画像の意味を判定し判定結果を記録する画像意味判定部と、
データベースを参照することで上記音声の意味を判定し判定結果を記録する音声意味判定部と、
上記画像意味判定部の判定結果に基づいて上記撮像画像に対応する音声を上記仮記録部から読出して上記撮像画像と関連付けて出力するか又は、上記音声意味判定部の判定結果に基づいて上記音声に対応する撮像画像を上記仮記録部から読出して上記音声と関連付けて出力するか選択部と
を具備したことを特徴とする撮影機器。 - 上記画像意味判定部の判定結果と上記音声意味判定部の判定結果との一致判定を行う一致判定部と、
上記一致判定部からの一致判定によって、上記入力画像及び入力音声の意味を確定する意味確定部と
を具備した請求項5に記載の撮影機器。 - 画像意味判定部が、データベースを参照することで入力画像の意味を判定し、
音声意味判定部が、データベースを参照することで入力音声の意味を判定し、
関連付け制御部が、上記画像意味判定部及び上記音声意味判定部の各判定結果に基づいて、上記入力画像及び入力音声を関連付けて出力する
ことを特徴とする情報処理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013167607A JP2015037212A (ja) | 2013-08-12 | 2013-08-12 | 情報処理装置、撮影機器及び情報処理方法 |
US14/329,360 US10102880B2 (en) | 2013-08-12 | 2014-07-11 | Information processing device, shooting apparatus and information processing method |
US16/043,887 US20180330758A1 (en) | 2013-08-12 | 2018-07-24 | Information processing device, shooting apparatus and information processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013167607A JP2015037212A (ja) | 2013-08-12 | 2013-08-12 | 情報処理装置、撮影機器及び情報処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015037212A true JP2015037212A (ja) | 2015-02-23 |
Family
ID=52448746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013167607A Pending JP2015037212A (ja) | 2013-08-12 | 2013-08-12 | 情報処理装置、撮影機器及び情報処理方法 |
Country Status (2)
Country | Link |
---|---|
US (2) | US10102880B2 (ja) |
JP (1) | JP2015037212A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020072311A (ja) * | 2018-10-29 | 2020-05-07 | オリンパス株式会社 | 情報取得装置、情報取得方法、情報取得プログラム及び情報取得システム |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6748360B2 (en) * | 2000-11-03 | 2004-06-08 | International Business Machines Corporation | System for selling a product utilizing audio content identification |
US6829018B2 (en) * | 2001-09-17 | 2004-12-07 | Koninklijke Philips Electronics N.V. | Three-dimensional sound creation assisted by visual information |
US20030154084A1 (en) * | 2002-02-14 | 2003-08-14 | Koninklijke Philips Electronics N.V. | Method and system for person identification using video-speech matching |
GB2388242A (en) * | 2002-04-30 | 2003-11-05 | Hewlett Packard Co | Associating audio data and image data |
US20040024755A1 (en) * | 2002-08-05 | 2004-02-05 | Rickard John Terrell | System and method for indexing non-textual data |
US7697026B2 (en) * | 2004-03-16 | 2010-04-13 | 3Vr Security, Inc. | Pipeline architecture for analyzing multiple video streams |
US7325013B2 (en) * | 2004-04-15 | 2008-01-29 | Id3Man, Inc. | Database with efficient fuzzy matching |
JP2006109322A (ja) | 2004-10-08 | 2006-04-20 | Canon Inc | 音・時間・画像に応じた擬音・擬態語・アイコンをイメージに合成するカメラ |
US7653622B2 (en) * | 2005-07-29 | 2010-01-26 | Microsoft Corporation | Automated content categorization |
US7558809B2 (en) * | 2006-01-06 | 2009-07-07 | Mitsubishi Electric Research Laboratories, Inc. | Task specific audio classification for identifying video highlights |
US10242415B2 (en) * | 2006-12-20 | 2019-03-26 | Digimarc Corporation | Method and system for determining content treatment |
US8375312B2 (en) * | 2007-06-08 | 2013-02-12 | Apple Inc. | Classifying digital media based on content |
JP4909854B2 (ja) * | 2007-09-27 | 2012-04-04 | 株式会社東芝 | 電子機器および表示処理方法 |
US8050142B2 (en) * | 2007-12-06 | 2011-11-01 | Sanyo Electric Co., Ltd. | Sound collection environment deciding device, sound processing device, electronic appliance, sound collection environment deciding method and sound processing method |
EP2327213B1 (en) * | 2008-08-21 | 2014-10-08 | Dolby Laboratories Licensing Corporation | Feature based calculation of audio video synchronization errors |
CN101847412B (zh) * | 2009-03-27 | 2012-02-15 | 华为技术有限公司 | 音频信号的分类方法及装置 |
CN101997969A (zh) * | 2009-08-13 | 2011-03-30 | 索尼爱立信移动通讯有限公司 | 图片声音注释添加方法和装置以及包括该装置的移动终端 |
US20110061068A1 (en) * | 2009-09-10 | 2011-03-10 | Rashad Mohammad Ali | Tagging media with categories |
-
2013
- 2013-08-12 JP JP2013167607A patent/JP2015037212A/ja active Pending
-
2014
- 2014-07-11 US US14/329,360 patent/US10102880B2/en active Active
-
2018
- 2018-07-24 US US16/043,887 patent/US20180330758A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020072311A (ja) * | 2018-10-29 | 2020-05-07 | オリンパス株式会社 | 情報取得装置、情報取得方法、情報取得プログラム及び情報取得システム |
JP7219049B2 (ja) | 2018-10-29 | 2023-02-07 | Omデジタルソリューションズ株式会社 | 情報取得装置及び情報取得方法 |
Also Published As
Publication number | Publication date |
---|---|
US20180330758A1 (en) | 2018-11-15 |
US10102880B2 (en) | 2018-10-16 |
US20150043884A1 (en) | 2015-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI496480B (zh) | 偕同一可攜式電子裝置用於產生多頻道音訊之系統和方法 | |
WO2017114048A1 (zh) | 移动终端及联系人标识方法 | |
JP5155092B2 (ja) | カメラ、再生装置、および再生方法 | |
JP2012100216A (ja) | カメラおよび動画撮影プログラム | |
JP5349463B2 (ja) | パノラマ式音像の生成及び再生方法並びにパノラマ式音像の再生装置 | |
JP7428763B2 (ja) | 情報取得システム | |
JP2011254400A (ja) | 画像音声記録装置 | |
JP2010081012A (ja) | 撮像装置、撮像制御方法及びプログラム | |
JP2012257112A (ja) | 撮像装置およびプログラム | |
JP2006203860A (ja) | 撮像装置、撮像方法、再生装置、再生方法、及びプログラム | |
JP2009218900A (ja) | 撮像装置、動画記録再生方法、および、プログラム | |
US20180330758A1 (en) | Information processing device, shooting apparatus and information processing method | |
JP5201540B2 (ja) | カラオケ装置及びカラオケ歌唱者の静止画出力方法 | |
JP2013168878A (ja) | 録音機器 | |
JP2010200079A (ja) | 撮影制御装置 | |
JP5000242B2 (ja) | 撮影装置、撮影方法、撮影プログラムおよび記録媒体 | |
JP5803922B2 (ja) | 撮像装置、および画像と音声の補正方法 | |
JP6166070B2 (ja) | 再生装置および再生方法 | |
JP2010130403A (ja) | 映像制御装置およびそれを備えた撮像装置、表示装置 | |
JP6635093B2 (ja) | 画像記録装置、画像記録方法及びプログラム | |
JP2007266661A (ja) | 撮像装置、情報処理装置、撮像表示システム | |
JP2006203867A (ja) | 撮像装置、撮像方法、及びプログラム | |
JP4013433B2 (ja) | 画像再生装置及びデジタルカメラ | |
JP2011019000A (ja) | 情報処理装置、音声選択方法及びそのプログラム | |
JP2011077883A (ja) | 画像ファイル生成方法、そのプログラム、その記録媒体および画像ファイル生成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20150423 |