JP2013168878A

JP2013168878A - 録音機器

Info

Publication number: JP2013168878A
Application number: JP2012031975A
Authority: JP
Inventors: Tomomi Kamimura; 友美上村; Hiroaki Miura; 啓彰三浦
Original assignee: Olympus Imaging Corp
Current assignee: Olympus Imaging Corp
Priority date: 2012-02-16
Filing date: 2012-02-16
Publication date: 2013-08-29

Abstract

【課題】対象物からの音と環境音とをバランスをよく録音することを支援して、雰囲気豊かな録音を可能にする。
【解決手段】録音機器は、被写体を撮像する撮像部と、音を収音する収音部と、前記撮像部によって撮像された撮像画像に基づく表示を行う表示部と、前記収音部によって収音された音のうち録音の対象となる対象物からの対象物音声に基づく第１の音量レベルとその他の環境音に基づく第２の音量レベルとを検出する検出部と、前記検出部によって検出された前記第１の音量レベルを示す第１の音量表示と前記第２の音量レベルを示す第２の音量表示との少なくとも一方を前記表示部に表示する表示制御部とを具備する。
【選択図】図１

Description

本発明は、表示機能を有する録音機器に関する。

近年、画像及び音声のデジタル処理、符号化技術、ＩＣ化技術等の発展によって、画像や音声を長時間記録可能な装置が普及している。例えば、携帯型のデジタルレコーダ、デジタルカメラ、携帯電話等においても、画像及び音声を記録することができるものが多い。これらの記録機器では、記録媒体として半導体メモリを用いて、小型・軽量化されている。

また、録音機能を重視した録音機器であっても、撮影機能及び表示パネルを備えて、音声だけでなく画像を記録すると共に表示することができるものも多い。このような録音機器は、携帯性に優れていることから、音楽の録音だけでなく、会議、野鳥の声、せせらぎ等の種々の音の録音に利用しやすくなっている。このような録音では、一般に、鳥の鳴き声や人の声等の録音の対象物からの音の他に、対象物の周囲から発せられる環境音も収録される。そこで、録音時にノイズを除去する装置も開発されている。また、特許文献１では、顔画像で音声を分離する技術が開示されている。

特開２００９−１８６８４０号公報

しかしながら、環境音は、再生時において撮影時の様子を臨場感豊かに再現する手助けとなることもあり、必ずしも不要とは限らない。ところが、対象物の録音レベルと環境音の録音レベルとのバランスが適切となっていないことがあり、再生時に録音時の雰囲気を捉えることができないことがある。例えば、録音時には対象物である鳥の声を確認しながら記録を行ったとしても、再生時には、録音した周囲の雑音が大きすぎて、鳥の声が殆ど聞こえないこともある。

録音時に耳で聞いた音とマイクが捉えた音とでは、対象物からの声と環境音との混ざり具合が異なり、従来の録音機器では、録音時の雰囲気を捉えることができないという問題があった。

本発明は、対象物からの音と環境音とをバランスをよく録音することを支援して、雰囲気豊かな録音を可能にすることができる録音機器を提供することを目的とする。

本発明に係る録音機器は、被写体を撮像する撮像部と、音を収音する収音部と、前記撮像部によって撮像された撮像画像に基づく表示を行う表示部と、前記収音部によって収音された音のうち録音の対象となる対象物からの対象物音声に基づく第１の音量レベルとその他の環境音に基づく第２の音量レベルとを検出する検出部と、前記検出部によって検出された前記第１の音量レベルを示す第１の音量表示と前記第２の音量レベルを示す第２の音量表示との少なくとも一方を前記表示部に表示する表示制御部とを具備する。

本発明によれば、対象物からの音と環境音とをバランスをよく録音することを支援して、雰囲気豊かな録音を可能にすることができるという効果を有する。

本発明の第１の実施の形態に係る録音機器の回路構成を示すブロック図。録画・録音機能を有する録音機器の例を示す説明図。音声方向判定部２１ａによる音声方向の判定方法を説明するための説明図。対象音声期間判定部２１ｂの判定及び音声制御部２１ｃの制御を説明するためのフローチャート。対象音声期間判定部２１ｂの判定を説明するための波形図。カメラ制御を示すフローチャート。図６中のステップＳ２７における表示制御を示すフローチャート。音声信号の音量表示の表示例を示す説明図。図６中のステップＳ３５におけるゲイン制御を示すフローチャート。音量表示の他の表示例を示す説明図。本発明の第２の実施の形態を示すブロック図。図１１中の対象物音声レベル判定部８１ａ、環境音レベル判定部８１ｂ及び音声レベル変更部８１ｃの具体的な構成の一例を示すブロック図。第２の実施の形態の動作を説明するためのフローチャート。本発明の第３の実施の形態を示すブロック図。音量表示の他の例を示す説明図。音量表示の他の例を示す説明図。音量表示及び音量調整操作の他の例を示す説明図。音量表示及び音量調整操作の他の例を示す説明図。音量表示及び音量調整操作の他の例を示す説明図。音量表示及び音量調整操作の他の例を示す説明図。音量表示及び音量調整操作の他の例を示す説明図。音量調整操作の他の例を示す説明図。音量調整操作の他の例を示す説明図。

以下、図面を参照して本発明の実施の形態について詳細に説明する。

（第１の実施の形態）
図１は本発明の第１の実施の形態に係る録音機器の回路構成を示すブロック図である。本実施の形態は対象物からの音が含まれる期間と環境音のみの期間とを時間的に分割することで、対象物からの音と環境音とをバランスよく録音することを可能にするものである。

図１において、録音機器１０は、マイク１１及び撮像部３１を有しており、録音だけでなく撮影も可能である。図２は録画・録音機能を有する録音機器の例を示す説明図である。図２（ａ）はカメラ及び表示パネルを有するデジタルレコーダを示し、図２（ｂ）はデジタルレコーダを取り付け可能な録音機能付きのカメラを示している。

図２（ａ）に示すように、デジタルレコーダの筐体４１の一端には、右用（Ｒ）及び左用（Ｌ）の一対のマイク４２Ｒ，４２Ｌと撮像部４３とが配設されている。また、筐体４１の表面には、表示パネル４４が設けられおり、表示パネル４４によって、撮像部４３で撮像した画像を表示することができるようになっている。

図２（ｂ）に示すように、カメラの筐体５１の前面には、図示しない撮影レンズが配設され、筐体５１の背面には、撮像画像を表示する表示パネル５２が配設されている。筐体５１の上端には、アクセサリーシュー５３が設けられている。このアクセサリーシュー５３に、デジタルレコーダ５４が着脱自在に取り付けられている。デジタルレコーダ５４のマイク５５Ｒ，５５Ｌによって録音された音声信号は、筐体５１内に設けられた処理回路（図示せず）に供給されて、画像に同期して音声が記録されるようになっている。

図１において、マイク１１は、右用（Ｒ）及び左用（Ｌ）の一対のステレオマイクであり、マイク１１からの音声信号は、アンプ１２によって増幅された後Ａ／Ｄ変換器１３に与えられる。Ａ／Ｄ変換器１３は入力された音声信号をデジタル信号に変換し音声処理部１４に出力する。

音声処理部１４は、例えば、デジタルシグナルプロセッサ等によって構成されており、システム制御部２１に制御されて、入力された音声信号に対して所定のデジタル音声信号処理を施す。例えば、音声処理部１４は、入力された音声信号に対してノイズキャンセル処理や、圧縮伸張処理等を行う。音声処理部１４による信号処理後の音声信号はＤ／Ａ変換器１５に与えられる。

Ｄ／Ａ変換器１５は入力された音声信号をアナログ信号に変換した後ＬＰＦ１６に出力する。ＬＰＦ１６は、入力された音声信号をフィルタリングする。ＬＰＦ１６の出力はアンプ１７によって増幅された後、スピーカ１８に供給される。スピーカ１８は、入力された音声信号に基づく音響を出力する。

音声処理部１４によって信号処理された音声信号は、システム制御部２１にも供給される。システム制御部２１は、信号処理後の音声信号を記録再生部２４に与える。記録再生部２４は入力された音声信号をメモリカード等の記録媒体（図示せず）に記録することができるようになっている。また、記録再生部２４は、記録媒体から再生した音声信号をシステム制御部２１に出力することができる。システム制御部２１は、再生された音声信号を音声処理部１４に与えて復号化させることができる。こうして、再生信号についてもスピーカ１８から音響出力させることが可能である。

通信Ｉ／Ｆ２３は、ＵＳＢ等の所定の通信規格のインタフェースであり、システム制御部２１からの信号を外部に出力すると共に、外部からの信号を取り込んでシステム制御部２１に与えるようになっている。

撮像部３１は、ＣＣＤやＣＭＯＳセンサ等によって構成され、入射光を光電変換して画像信号を画像処理部２３に出力する。画像処理部２３は、入力された画像信号をデジタル信号に変換した後、所定の画像信号処理を施す。例えば、画像処理部３２は、同時化処理、色信号生成処理、ホワイトバランス処理、γ変換処理、マトリックス変換処理、その他各種のデジタル画像信号処理を行う。

画像処理部３２には、表示制御部３２ａが設けられている。表示制御部３２ａは、信号処理後の画像信号をＬＣＤ等によって構成された表示部３３に与える。こうして、表示部３３は、撮像された画像を図示しない表示画面上に表示することができる。

画像処理部３２によって信号処理された画像信号は、システム制御部２１にも供給される。システム制御部２１は、信号処理後の画像信号を記録再生部２４に与える。記録再生部２４は入力された画像信号をメモリカード等の記録媒体（図示せず）に記録することができるようになっている。また、記録再生部２４は、記録媒体から再生した画像信号をシステム制御部２１に出力することができる。システム制御部２１は、再生された画像信号を表示部８に与えて表示させることができる。

なお、画像処理部３２は、画像信号の記録及び再生に際して、画像信号を圧縮処理又は伸張処理するようにしてもよい。また、表示制御部３２ａは、システム制御部２１及び画像処理部３２に制御されて、各種操作を行うためのメニュー表示等を表示部３３に表示させることもできるようになっている。

録音機器１０には、操作部２２及びタッチパネル３４も配設されている。操作部２２は、記録開始終了ボタンや記録モード設定等の図示しない各種スイッチに対するユーザ操作に基づく操作信号を発生して、システム制御部２１に出力するようになっている。タッチパネル３４は、ユーザのタッチ操作に基づく操作信号を発生して、システム制御部２１に出力するようになっている。システム制御部２１は、操作信号に基づいて、各部を制御する。

なお、タッチパネル３４を表示部３３の表示画面上に配設することも可能である。タッチパネル３４は、ユーザが指で指し示した位置に応じた操作信号を発生する。タッチパネル３４を表示部３３の表示画面上に設けた場合には、ユーザは、表示部３３の表示画面上に表示された各種コマンドボタンを、タッチパネル３４により指示することができる。これにより、タッチパネル３４は表示部３３の表示画面上に表示された各種コマンドボタンに対応した操作信号をシステム制御部２１に出力することができる。

本実施の形態においては、システム制御部２１には、音声方向判定部２１ａが設けられている。マイク１１はステレオマイクであり、マイク１１からの音声信号には、右音声信号（Ｒ信号）及び左音声信号（Ｌ信号）が含まれる。音声方向判定部２１ａは、入力されたＬ，Ｒ信号によって、収音中の音が発せられた方向（音声方向）を判定する。

図３は音声方向判定部２１ａによる音声方向の判定方法を説明するための説明図である。

図３は撮像部３１による撮像範囲内において２人の人物６２Ｒ，６２Ｌが撮像可能であることを示している。これらの２人の人物６２Ｒ，６２Ｌは、夫々撮像範囲６１の右側と左側に位置し、人物６２Ｒは口６３Ｒを閉じており、人物６２Ｌは口６３Ｌを開いている状態を示している。マイク１１のうちの右用マイク１１Ｒと左用マイク１１Ｌは、夫々破線６４Ｒ，６４Ｌにて示す指向特性を有しており、指向特性のピーク方向は、相互に略９０度の向きとなるように配置されている。この場合には、人物６２Ｒからの音声については、マイク１１Ｒにより取得されるＲ信号のレベルとマイク１１Ｌにより取得されるＬ信号のレベルとでは、Ｒ信号のレベルの方が大きくなる。逆に、人物６２Ｌからの音声については、マイク１１Ｒにより取得されるＲ信号のレベルとマイク１１Ｌにより取得されるＬ信号のレベルとでは、Ｌ信号のレベルの方が大きくなる。

従って、人物６２Ｒ，６２Ｌのいずれか一方のみが話をしている場合には、マイク１１Ｒ，１１Ｌによって得られるＲ，Ｌ信号の差分を求めることで、人物６２Ｒ，６２Ｌのいずれが話をしているかを判定することができる。音声方向判定部２１ａは、音声処理部１４から与えられるＲ，Ｌ信号の差分に基づいて、音声方向を判定する。

なお、一方の人物から、マイク１１Ｒまでの距離とマイク１１Ｌまでの距離とは相互に異なる。従って、マイク１１Ｒ，１１Ｌに入力されるＲ信号とＬ信号との位相は異なる。この位相差を検出することで、音声方向を判定することも可能である。

一方、画像処理部３２には、特徴検出部３２ｂが設けられている。特徴検出部３２ｂは、撮像画像に対する画像認識処理によって、撮像画像中から対象物を検出する。例えば、対象物が人物の場合には、特徴検出部３２ｂは、公知の顔検出の手法によって、撮影画像中の人物の顔を検出してもよい。例えば、特徴検出部３２ｂは、顔の明るさの特徴をモデル化した複数の濃淡画像と撮影画像とを順次比較することで、人物の顔を検出する手法を採用してもよい。

また、特徴検出部３２ｂは、検出した対象物の撮像画像中の位置から顔等の対象物が存在する方向（顔方向）を判定する。更に、特徴検出部３２ｂは、顔パーツの特徴を記憶したデータベースを利用すると共にフレーム相関を求めることで、話中のように口を開閉しているか否かを判定することもできる。特徴検出部３２ｂは、これらの判定結果をシステム制御部２１に出力する。

システム制御部２１は、音声方向判定部２１ａの判定結果及び特徴検出部３２ｂの判定結果を記憶部２５に記憶させる。システム制御部２１の対象音声期間判定部２１ｂは、記憶部２５から音声方向判定部２１ａの判定結果及び特徴検出部３２ｂの判定結果を読み出す。対象音声期間判定部２１ｂは、音声方向の判定結果によって話中であると判定された撮像画像中の人物と、顔方向及び口の開閉の判定結果によって、話中であると判定された撮像画像中の人物とが同一人物である場合には、当該人物が話中であると判定し、そうでない場合には、撮像中のいずれの人物も話中ではないと判定する。

図４は対象音声期間判定部２１ｂの判定及び音声制御部２１ｃの制御を説明するためのフローチャートであり、図５は対象音声期間判定部２１ｂの判定を説明するための波形図である。

いま、撮像部３１によって図３に示す撮像画像が撮像されている状態であるものとして説明する。特徴検出部３２ｂは、撮像画像中の人物６２Ｒ，６２Ｌを検出し、図４のステップＳ１における顔方向判定によって、各人物６２Ｒ，６２Ｌが左側に位置するか右側に位置するかを判定する。更に、特徴検出部３２ｂは、ステップＳ２において、各人物６２Ｒ，６２Ｌの口の開閉を検出する。例えば、特徴検出部３２ｂは、人物６２Ｒ，６２Ｌの口の部分における前後のフレームの相関によって、口の開閉を検出する。

図５（ａ）は、顔方向が左側の左側に位置する人物についての口部分のフレーム相関結果を示しており、図５（ａ）ではレベルが高いほど相関が低いことを示している。また、図５（ｂ）は、顔方向が右側の左側に位置する人物についての口部分のフレーム相関結果を示しており、図５（ｂ）ではレベルが高いほど相関が低いことを示している。

即ち、図５（ａ）では、フレーム相関結果の山の部分において、左側の人物６２Ｌが口を開閉させていることを示しており、図５（ｂ）では、フレーム相関結果の山の期間において、右側の人物６２Ｒが口を開閉させていることを示している。

音声方向判定部２１ａは、Ｌ信号のレベル（Ｌ）からＲ信号のレベル（Ｒ）を減算する。図５（ｃ）はこの減算結果を示している。環境音についてのＬ，Ｒ信号のレベルが略同一であるものとすると、（Ｌ−Ｒ）の山の部分は、Ｌ信号がＲ信号よりも十分に大きく、音声方向は左方向であることを示している。同様に、（Ｌ−Ｒ）の谷の部分は、Ｒ信号がＬ信号よりも十分に大きく、音声方向は右方向であることを示している。

対象音声期間判定部２１ｂは、ステップＳ４において、音声処理によって求めた音声方向と同一の顔方向の人物の口が開閉していると判定した場合には、その期間を撮像中の人物が話中である（以下、対象音声期間という）と判定し、そうでない場合の期間を撮像中のいずれの人物も話中ではなく環境音のみが収音されている期間（以下、環境音期間という）と判定する。

図５の例では、顔方向が左の顔についてのフレーム相関結果（図５（ａ））が山であると共に、（Ｌ−Ｒ）（図５（ｃ））が山である期間、及び、顔方向が右の顔についてのフレーム相関結果（図５（ｂ））が山であると共に、（Ｌ−Ｒ）（図５（ｃ））が山である期間が対象音声期間と判定され、その他の期間は環境音期間と判定される。

音声制御部２１ｃは、対象音声期間判定部２１ｂの判定結果が与えられ、対象音声期間と環境音期間とについて、音声信号に対するゲイン調整を音声処理部１４に指示するようになっている（ステップＳ５，Ｓ６）。この場合には、音声制御部２１ｃは、ユーザ操作に基づいて、対象音声期間の音声信号に対するゲインと、環境音期間の音声信号に対するゲインとを制御することができるようになっている。音声処理部１４は、音声制御部２１ｃに制御されて、対象音声期間の音声信号に対するゲインと、環境音期間の音声信号に対するゲインとを変化させる。

本実施の形態においては、システム制御部２１は、対象物の方向と、音声制御部２１ｃが設定した対象音声期間及び環境音期間における音声信号のレベルとを表示制御部３２ａに与えるようになっている。表示制御部３２ａは、表示部３３の表示画面上に、対象音声期間における音声信号レベルに対応した対象物の音量表示及び環境音期間における音声信号レベルに対応した環境音の音量表示を表示させることができるようになっている。

ユーザは表示部３３の音量表示を参照しながら、対象音声期間又は環境音期間の音声信号に対するゲインを制御するための操作を行うことができる。この操作に応答して、音声制御部２１ｃは、対象音声期間及び環境音期間の音声信号に対するゲインを制御するようになっている。

次に、このように構成された実施の形態の動作について図６乃至図９を参照して説明する。図６はカメラ制御を示し、図７は図６中のステップＳ２７における表示制御を示し、図９は図６中のステップＳ３５におけるゲイン制御を示している。また、図８は音声信号の音量表示の表示例を示す説明図である。

録音機器１０の電源がオンになると、システム制御部２１は、図６のステップＳ１において、録音モードであるか否かを判定する。システム制御部２１は、録音モードでない場合には、ステップＳ１２において再生モードが指定されたか否かを判定する。再生ボタン等が操作された場合には、システム制御部２１は、ステップＳ１３において、再生モードに移行し、記録再生部２４によって記録されたファイルの一覧の情報を読み出し、ファイル一覧表示を表示部３３に表示させる。

ファイル一覧の表示時に、ユーザがファイル選択を行うと（ステップＳ１４）、システム制御部２１は、選択されたファイルを記録再生部２４により読み出し、復号化処理を行って、画像信号及び音声信号を再生する（ステップＳ１５）。システム制御部２１は、再生した画像信号及び音声信号を表示部３３に与えて表示させる。

なお、ファイル一覧表示時に、終了操作が行われた場合には、システム制御部２１は、処理をステップＳ１６からステップＳ１２に移行して再生モードを終了する。

システム制御部２１は、ステップＳ１１において録音モードが指示されているものと判定した場合には、ステップＳ２１においてスルー画を表示する。即ち、システム制御部２１は、撮像部３１からの撮像画像を取込み、所定の信号処理を施した後、表示制御部３２ａによって表示部３３に出力する。こうして、表示部３３の表示画面上においてスルー画が表示される。

本実施の形態においては、システム制御部２１は、ステップＳ２２，Ｓ２３，Ｓ２５〜Ｓ２７において対象音声期間と環境音期間とを判定する。なお、ステップＳ２２，Ｓ２３，Ｓ２５〜Ｓ２７の処理は、表現は異なるが、図４のステップＳ１〜Ｓ４の処理と同様の処理である。

ステップＳ２２では、特徴検出部３２ｂによって撮像画像中の対象物が判定される。なお、図６では対象物として人物の顔を判定する例を示している。顔が存在する場合には、特徴検出部３２ｂは、ステップＳ２３において顔の撮像画像中の位置から顔方向を判定する。なお、顔位置の情報を表示制御部３２ａに与えることで、表示制御部３２ａは、顔の位置を示す枠表示を画面上に表示させることができる（ステップＳ２４）。更に、特徴検出部３２ｂは、顔の下部、即ち、口部の画像の変化を判定し（ステップＳ２５）、口部の画像部分に動きがある場合には、処理をステップＳ２６からステップへＳ２７に移行する。

ステップＳ２７においては、音声方向判定部２１ａは、マイク１１Ｒ，１１Ｌによって収音されたＲ信号とＬ信号とレベル差を、２つの閾値ＴＨ１，ＴＨ２と比較する。音声方向判定部２１ａは、Ｌ−Ｒ＞ＴＨ１の場合には、音声方向は左方向と判定し、Ｌ−Ｒ＜ＴＨ２の場合には、音声方向は右方向と判定し、それ以外の場合には、対象物から音声は発せられていない、即ち、環境音期間であると判定する。

なお、対象音声期間判定部２１ｂは、ステップＳ２２，Ｓ２６，Ｓ２７の判定が“ＮＯ”の場合には、いずれも環境音期間であると判定する。なお、対象音声期間判定部２１ｂは、ステップＳ２６において口の動きを検出することができなかった場合及びステップＳ２７において、音声方向を判定することができなかった場合には、ステップＳ３２における音量の判定結果をステップＳ３３において記録し、以後の音声方向の判定に用いる。また、ステップＳ３４では、求めた音量を示す音量表示を画面周辺に表示させる。また、ステップＳ２２において対象物が検出されなかった場合にも、ステップＳ３４において、画面周辺に音量表示が表示される。

対象音声期間判定部２１ｂは、ステップＳ２７の条件を満足する場合には、対象音声期間であるものと判定する。システム制御部２１は、対象物の方向と対象音声期間及び環境音期間の音声信号レベルとを表示制御部３２ａに与える。これにより、表示制御部３２ａは、ステップＳ２８において、対象物である顔近傍に対応音声期間の音量表示を表示させ、ステップＳ２９において、画面周辺に環境音音量表示を表示させる。

即ち、図７のステップＳ５１において、表示制御部３２ａは、対象物の方向が右寄りであるか否かを判定する。顔が撮像画像中の右寄りの場合には、顔の右側に音量表示である声用バー表示を表示させ（ステップＳ５２）、撮像画像の左端に環境音の音量表示である環境音用バー表示を表示させる（ステップＳ５３）。

図８（ａ）はこの場合の表示例を示しており、撮像画像７１中に、対象物である人物７２が右側に映し出されている。また、撮像画像７１中の左側には、昆虫７４が留まった樹木７３が映し出されている。表示制御部３２ａは、人物７２の右側に声用バー表示７５を表示させ、撮像画像７１の左端に環境音用バー表示７６を表示させる。声用バー表示７５及び環境音用バー表示７６は、図８では塗り潰して示すように、表示色や濃さを変化させることでレベルを表しており、図８の例では、対象音声期間の音量レベルは１３段階中の９であり、環境音期間の音量レベルは１３段階中の６である。

なお、表示制御部３２ａは、対象物の方向が右寄りでない場合には、顔の左側に対象音声期間の音量表示である声用バー表示を表示させ（ステップＳ５４）、撮像画像の右端に環境音期間の音量表示である環境音用バー表示を表示させる（ステップＳ５５）。

図８（ｂ）は対象音声期間及び環境音期間の音量表示の他の例を示している。図８（ｂ）の例では、表示制御部３２ａは、表示部３３の表示画面７０中の中央に撮像画像７１を表示するようになっている。表示制御部３２ａは、表示画面７０の両端に、対象音声期間及び環境音期間の音量表示を表示させる。図８（ｂ）では、表示画面７０の右端に、対象音声期間の音量表示である声用バー表示７５を表示させ、表示画面７０の左端に、環境音期間の音量表示である環境音用バー表示７６を表示させた例を示している。また、表示制御部３２ａは、対象音声期間の音量表示が視覚的に分かりやすいように、声用バー表示７５であることを示すマーク７７を声用バー表示７５の上方に表示させている。

本実施の形態においては、対象音声期間及び環境音期間の音量表示を行うだけでなく、対象音声期間及び環境音期間のレベルを変更することもできるようになっている。例えば、ユーザは声用バー表示７５の表示位置に対するタッチ操作によって対象音声期間の音量レベルの変更を指示することができ、環境音用バー表示７６の表示位置に対するタッチ操作によって環境音期間の音量レベルの変更を指示することができる。

音声制御部２１ｃは、ステップＳ３５においてユーザによる音量調整操作（タッチ操作）があったか否かを判定しており、タッチ操作があった場合には、ステップＳ３６においてゲイン変更を行う。

図９は音量制御部２１ｃによるゲイン制御の一例を示している。図９のステップＳ６１において、音量制御部２１ｃは、ユーザが指示した音量変更の変更量を判定する。例えば、音量制御部２１ｃは、ユーザがバー表示７５，７６上を指でスライドさせて音量変更を指示する場合には、このスライド量を判定する。次に、音量制御部２１ｃは、音量の変更操作が対象音声期間に対するものであるか環境音期間に対するものであるかを判定する。

例えば、音量制御部２１ｃは、指がバー表示７５上をスライドした場合には対象音声期間の音量変更操作であると判定し、指がバー表示７６上をスライドした場合には環境音期間の音量変更操作であると判定してもよい。また、例えば、音量制御部２１ｃは、ユーザの音量変更のためのスライド操作の後、対象物以外の部分（背景）をタッチしたか否かによって、対象音声期間と環境音期間のいずれの期間に対する音量制御操作であったかを判定してもよい（ステップＳ６２）。

ユーザが背景をタッチした場合には、音量制御部１２ｃは、ステップＳ６３において環境音期間のゲインの変更を指示し、ユーザが対象物をタッチした場合には、音量制御部１２ｃは、ステップＳ６４において対象音声期間のゲインの変更を指示する。音量制御部１２ｃの指示に従って、音声処理部１４は対象音声期間及び環境音期間のゲインを変更する（ステップＳ６５）。

システム制御部２１は、ステップＳ３７，Ｓ３９において、録音の開始又は終了操作があったか否かを判定する。録音開始操作があった場合には、システム制御部２１は、記録再生部２４において、撮像画像及び収音した音声の録音を開始する。なお、この場合には、音声制御部２１ｃは、ユーザによって設定されたゲインで対象音声期間及び環境音期間の音声信号を増幅する。これにより、ユーザが希望するバランスで対象音声期間及び環境音期間の音声が増幅されて記録が行われる。録音終了操作があった場合には、システム制御部２１は、記録再生部２４における録音を終了して、ファイル化する。

図１０は音量表示の他の表示例を示す説明図である。図１０は表示画面７０の中央に撮像画像７１を表示する例である。撮像画像７１中には、対象物である人物７２Ｒ，７２Ｌが左右に映し出されている。また、撮像画像７１中の中央には、昆虫７４が留まった樹木７３が映し出されている。表示制御部３２ａは、撮像画像７１の下方に声用バー表示７５Ｄを表示させ、撮像画像７１の上方に環境音用バー表示７５Ｕを表示させる。声用バー表示７５Ｄ及び環境音用バー表示７５Ｕは、図１０では塗り潰して示すように、表示色や濃さを変化させることでレベルを表しており、図１０の例では、対象音声期間の音量レベルは１３段階中の９であり、環境音期間の音量レベルは１３段階中の６である。

このように本実施の形態においては、対象物からの音声が収音される対象音声期間と対象物からの音声が含まれない環境音期間とを判定し、各期間における音量を表示させるようになっている。これにより、ユーザは対象音声期間と環境音期間とがどのようなバランスで録音されるかを把握することができる。更に、ユーザはこの音量表示を参照しながら、各期間のゲインの変更操作を行うことができ、簡単に各期間の音量バランスを所望のバランスとなるように設定し録音することができる。これにより、簡単な操作で、雰囲気豊かな録音を可能にすることができる。

（第２の実施の形態）
図１１は本発明の第２の実施の形態を示すブロック図である。図１１において図１と同一の構成要素には同一符号を付して説明を省略する。

第１の実施の形態においては、対象音声期間及び環境音期間における音量に関する表示を行うと共に、これらの期間の音量レベルを変更するゲイン調整を可能にした。これに対し、本実施の形態は対象物からの音声（対象物音声）と環境音とを分離して各音量に関する表示を行うと共に、対象物音声と環境音の音量レベルを変更するゲイン調整を可能にするものである。

本実施の形態における録音機器１００は、音声処理部１４及びシステム制御部２１に夫々代えて音声処理部８１及びシステム制御部８２を採用した点が図１の録音機器１０と異なる。音声処理部８１は、対象物音声レベル判定部８１ａ、環境音レベル判定部８１ｂ及び音声レベル変更部８１ｃを備えた点が音声処理部１４と異なる。音声処理部８１は、対象物音声レベル判定部８１ａ、環境音レベル判定部８１ｂ及び音声レベル変更部８１ｃによって、入力された音声信号から対象物音声と環境音とを分離して、対象物音声及び環境音の各レベルを判定して判定結果を出力すると共に、各レベルをユーザ操作に応じて制御することができるようになっている。

また、システム制御部８２は、音声方向判定部２１ａ及び対象音声期間判定部２１ｂを省略すると共に、音声制御部２１ｃに変えて音声制御部８２ａを採用した点が、システム制御部２１と異なる。音声制御部８２ａは、ユーザによる対象物音声のレベル及び環境音のレベルの変更操作を受付け、音声処理部８１に、対象物音声のレベル及び環境音のレベルの変更を指示するようになっている。

図１２は図１１中の対象物音声レベル判定部８１ａ、環境音レベル判定部８１ｂ及び音声レベル変更部８１ｃの具体的な構成の一例を示すブロック図である。

Ａ／Ｄ変換器１３からの入力音声信号は、高速フーリエ変換部９０に入力される。高速フーリエ変換部９０は、入力された音声信号に対して高速フーリエ変換処理を施し、時間領域の信号を周波数領域の信号に変換して、帯域分割部９３に出力する。例えば、高速フーリエ変換部９０は、定時間長ずつ、例えば１２８個の入力されたディジタル音声信号ｘ(t)をフレームに分割し、分割したフレーム毎に高速フーリエ変換処理を行い、これにより振幅スペクトルＸ(k)（k=0〜N−1 、Nはフレーム長）を得る。

帯域分割部９３は、周波数領域の信号を低域から高域まで所定の帯域毎に分割して対象物音声検出部９４及び環境音検出部９５に出力する。対象物音声検出部９４は、帯域分割部９３からの各帯域信号のうち対象物の帯域を検出する。例えば、対象物が人の場合には、人の声の周波数帯域は、１００Ｈｚ〜１ｋＨｚ程度であり、対象物音声検出部９４は、帯域信号のうち人の声の帯域に対応する帯域信号を検出する。対象物音声検出部９４は検出した対象物の帯域信号を環境音検出部９５に出力する。環境音検出部９５は、帯域分割部９３及び対象物音声検出部９４の出力から、環境音の帯域信号を検出する。

対象物音声検出部９４の出力は対象物音声レベル出力部９６に与えられる。対象物音声レベル出力部９６は、対象物の帯域信号が入力され、入力された帯域信号の平均をとって帯域パワーを求め、対象物の音声レベル信号として出力する。

環境音検出部９５の出力は環境音レベル出力部９７に与えられる。環境音レベル出力部９７は、環境音の帯域信号が入力され、入力された帯域信号の平均をとって帯域パワーを求め、環境音の音声レベル信号として出力する。

対象物音声レベル出力部９６及び環境音レベル出力部９７からの出力は、表示制御部３２ａに供給され、表示制御部３２ａは、対象物音声レベル信号に基づいて対象物音声の音量表示を行い、環境音声レベル信号に基づいて環境音の音量表示を行う。

また、対象物音声検出部９４の出力は対象物音声制御部９８にも与えられる。対象物音声制御部９８は、対象物の帯域信号に対して、ユーザのレベル操作に応じた係数を乗算して、スペクトル振幅制御部９１に出力する。また、環境音検出部９５の出力は環境音制御部９９にも与えられる。環境音制御部９９は、環境音の帯域信号に対して、ユーザのレベル操作に応じた係数を乗算して、スペクトル振幅制御部９１に出力する。

スペクトル振幅制御部９１は、高速フーリエ変換部９０の出力と、対象物音声制御部９８の出力及び環境音制御部９９の出力とを合成する。スペクトル振幅制御部９１の出力は、対象物音声制御部９８において正の係数が用いられることで、対象物音声帯域のレベルが大きくなり、負の係数が用いられることで対象物音声帯域のレベルが低くなる。また、スペクトル振幅制御部９１の出力は、環境音制御部９９において正の係数が用いられることで、環境音帯域のレベルが大きくなり、負の係数が用いられることで環境音帯域のレベルが低くなる。

スペクトル振幅制御部９１の出力は、ＩＦＦＴ９２に与えられる。ＩＦＦＴ９２は、入力された帯域信号を逆高速フーリエ変換することで時間領域の信号に変換して、出力音声信号として出力する。

次に、このように構成された実施の形態の動作について図１３のフローチャートを参照して説明する。図１３において図６と同一の手順には同一符号を付して説明を省略する。

図１３のフローは、ステップＳ３１，Ｓ３３を省略し、ステップＳ２７〜Ｓ２９に代えてステップＳ７１〜Ｓ７３を採用した点が図６のフローと異なる。第１の実施の形態においては、音声方向を判定するために音量を記録する必要があったが、本実施の形態においては音量をリアルタイムに検出可能であるので、音量を記録するための手順を省略することができる。

ステップＳ７１では、対象物音声検出部９４によって対象物音声が分離可能であるか否かが判定される。対象物音声が分離不能の場合には、処理はステップＳ３２に移行して、対象物音声及び環境音を含む音声の音量判定が行われて、その結果が画面周辺に音量表示される（ステップＳ３４）。

対象物音声が分離可能な場合には、処理がステップＳ７２に移行して、顔近傍に対象物音声の音量を示す対象物音量表示が表示される。表示制御部３２ａは、対象物音声レベル出力部９６の出力に基づいて、対象物音量表示を表示部３３に表示させる。なお、対象物音量表示は、画面周辺に表示してもよく、例えば、対象物音量表示としては、図８及び図１０等の声用バー表示７５を採用することができる。

次に、ステップＳ７２において、画面周辺に環境音の音量を示す環境音音量表示が表示される。表示制御部３２ａは、環境音レベル出力部９７の出力に基づいて、環境音音量表示を表示部３３に表示させる。なお、環境音音量表示は、画面周辺の適宜の位置に表示することができ、例えば、環境音音量表示としては、図８及び図１０の環境音用バー表示７６，７５Ｕ等を採用することができる。

なお、ステップＳ３６においては、音声制御部８２ａは、ユーザ操作に基づいて、対象物音声のゲイン及び環境音のゲインを対象物音声制御部９８及び環境音制御部９９に設定する。対象物音声制御部９８及び環境音制御部９９は、設定されたゲインに応じた係数を夫々対象物音声の帯域信号、環境音の帯域信号に掛けて、スペクトル振幅制御部９１に出力する。こうして、スペクトル振幅制御部９１は、高速フーリエ変換部９０の出力と、対象物音声制御部９８及び環境音制御部９９からの帯域信号とを合成することで、ユーザが指定した音量の対象物音声及び環境音を得る。

他の作用は、第１の実施の形態と同様である。
このように本実施の形態においては、対象物からの音声と対象物からの音声が含まれない環境音とを分離し、各音の音量を表示させるようになっている。これにより、ユーザは対象物音声と環境音とがどのようなバランスで録音されるかを把握することができる。更に、ユーザはこの音量表示を参照しながら、各音のゲインの変更操作を行うことができ、簡単に各音の音量バランスを所望のバランスとなるように設定して録音することができる。これにより、簡単な操作で、雰囲気豊かな録音を可能にすることができる。

なお、第２の実施の形態においては、入力音声信号から対象物音声と環境音とを帯域信号によって分離する例について説明したが、予め環境音を録音しておくことで、この環境音を用いて入力音声信号から対象物音声を分離することも可能である。

（第３の実施の形態）
図１４は本発明の第３の実施の形態を示すブロック図である。図１４において図１及び図１１と同一の構成要素には同一符号を付して説明を省略する。本実施の形態は、第１及び第２の実施の形態を組み合わせることにより、撮像画像中の複数の対象物が存在する場合に、各対象物からの音の音量を夫々表示すると共に、各音の音量を制御可能にしたものである。

例えば、撮像範囲中の右側及び左側に対象物である２人の人物が存在するものとして説明する。この場合には、システム制御部１１１の音声方向判定部２１ａは、左側の対象物（以下、左対象人物）と右側の対象物（以下、右対象人物）からの音声方向を判定し、対象音声期間判定部２１ｂは、左対象人物が話中である期間（左対象音声期間）と右対象人物が話中である期間（右対象音声期間）とを判定する。

音声処理部８１の対象物音声レベル判定部８１ａ及び環境音レベル判定部８１ｂは、左対象音声期間における左対象人物からの音声と環境音とを分離すると共に、右対象音声期間における右対象人物からの音声と環境音とを分離する。

対象物音声レベル出力部９６及び環境音レベル出力部９７（図１２参照）からの出力は、表示制御部３２ａに供給され、表示制御部３２ａは、左対象人物及び右対象人物からの音声の音量表示を行うと共に、環境音声レベル信号に基づいて環境音の音量表示を行う。

音声制御部８２ａは、ユーザ操作に基づいて、左対象音声期間における左対象人物からの音声信号に対するゲイン調整、右対象音声期間における右対象人物からの音声信号に対するゲイン調整及び各音声期間における環境音のゲイン調整を指示するようになっている。

音声レベル変更部８１ｃは、音声制御部８２ａの指示に従って、左対象人物からの音声信号のゲイン、右対象人物からの音声信号のゲイン及び環境音のゲインを変更する。

このように構成された実施の形態においては、撮像画像中の左右の人物からの音声と環境音との音声レベルを個別に取得して、各音声の音量を表示部３３の表示画面上に表示することができる。また、この音量表示を参照したユーザによる操作によって、撮像画像中の左右の人物からの音声と環境音との音声レベルを個別に調整することが可能である。

このように本実施の形態においては、上記各実施の形態と同様の効果が得られると共に、撮像画像中に複数の対象物が存在する場合でも、各対象物からの音の音量を夫々表示すると共に、各音の音量を制御可能である。

なお、上記実施の形態において、マイク１１の指向性を制御する指向特性制御部を備えることも可能である。指向特性制御部は、公知の手法によって、入力される音声信号から音声の到来方向を判定し、判定結果に基づいてマイク１１の特性を到来方向にピークを有する狭指向特性に変化させることが可能である。第２の実施の形態の構成にこのような指向特性制御部を追加することで、撮像画像中の複数の対象物からの音声方向を判定し、判定結果に基づいて狭指向特性を設定することで、各対象物からの音声のみを抽出可能である。

従って、撮像画像中の複数の対象物から同時に音声が発せられた場合でも、各対象物方向の音声、即ち、各対象物からの音声と各対象物方向から発せられる環境音とを、個別に抽出することができる。これにより、撮像画像中の複数の対象物について、各対象物から同時に音声が発せられている場合でも、その音声と環境音との音声レベルを個別に音量表示として表示すると共に、音量の調整が可能である。

また、この場合において、本実施の形態においては、画像解析処理によって、撮像画像中の人物等の口の開閉を検出して、対象物方向の特定を補助しており、各対象物からの音声のみの抽出をより高精度に行うことができる。

（音量表示と音量調整操作の他の例）
図１５乃至図２３は音量表示及び音量調整操作の他の例を示す説明図であり、上記各実施の形態の音量表示及び音量調整操作に適用することができる。

図１５の例は、各種音量表示を示している。図１５は表示部３３の表示画面上に表示された撮像画像１２１中に、２人の人物１２２Ｌ，１２２Ｒ及び樹木１２３に留まっている昆虫１２４が撮像されている例を示している。図１５（ａ）は色の違いによって、対象物音声を示す音量表示１２５Ｌ，１２５Ｒであるか環境音を示す音量表示１２６であるかを区別する例を示している。なお、図１５（ａ）はハッチングの種類によって色が相違することを示している。また、図１５（ａ）では人物１２２Ｌ，１２２Ｒの顔部において、丸い形状の音量表示１２５Ｌ，１２５Ｒを行っている。

図１５（ｂ）は形の違いによって、対象物音声を示す音量表示１２５Ｌ，１２５Ｒであるか環境音を示す音量表示１２６であるかを区別する例を示している。図１５（ｂ）の例は、円形状が対象物音声を示し、バー形状が環境音を示している。なお、円形状によって環境音を示し、バー形状によって対象物音声を示してもよい。

図１５（ｃ）は表示位置の違いによって、対象物音声を示す音量表示１２５Ｌ，１２５Ｒであるか環境音を示す音量表示１２６であるかを区別する例を示している。図１５（ｃ）の例は、対象物の音量表示を撮像画像１２１中に示し、環境音の音量表示を撮像画像１２１外に示している。なお、撮像画像中に環境音の音量表示を示し、撮像画像外に対象物音声の音量表示を示してもよい。

図１６は図１５（ａ）乃至（ｃ）で示した音量表示における音量レベルの表現方法の一例を示している。図１６（ａ），（ｂ）はサイズの大小によって音量が相違することを示す例である。また、図１６（ｃ）は図面上はハッチングの種類によって示しているが、音量表示の色や濃淡によって音量が相違することを示す例である。

また、図１７の例は図１５と同一の撮像画像１２１を用いて他の音量表示の例を示すものである。図１７は撮像画像１２１の下方に、音量表示用の同軸状のバー表示１４１を表示させたものである。

図１８は図１７中のバー表示１４１を拡大して示すものであり、バー表示１４１上には、対象物音声及び環境音の音量を示す３つのカーソル表示１４３が配置されると共に、３つのカーソル表示１４３のうちいずれのカーソル表示が対象物音声についてのものであるかを示すアイコン表示１４２が配置される。

図１７及び図１８の例では、例えば、アイコン表示１４２の下方のカーソル表示１４３によって、対象物音声の音量を示し、アイコン表示１４２が上方に表示されていないカーソル表示１４３によって環境音の音量を示している。なお、環境音の音量を示すカーソル表示の上方にアイコン表示１４２とは異なる種類のアイコン表示を表示させてもよく、また、環境音の音量を示すカーソル表示の上方にアイコン表示を表示し、対象物の音量を示すカーソル表示の上方にアイコン表示を配置しないようにしてもよい。

図１８ではバー表示１４１の色の変化や濃淡（図１８ではハッチングで示す）によって、音量レベルの変化を示している。図１８において、バー表示１４１の右側程音量が大きいことを示すものとすると、図１８では、２つの対象物音声に比べて環境音の音量が大きいことが分かる。

図１７では、２つの対象物である人物１２２Ｌ，１２２Ｒが検出されたことを、対象物を囲む枠表示１３１Ｌ，１３１Ｒを表示することによって示している。例えば、図１７（ａ）の例では、バー表示１４１によって、人物２２２Ｌ，１２２Ｒの一方の音量レベルは高く他方の音量レベルは低く、環境音の音量レベルは両者の中間のレベルであることを示している。

この状態で、ユーザが指１４５によりカーソル表示１４３上をタッチしてスライドさせることで、音量調整操作を行うことができる。例えば、図１７（ｂ）はバー表示１４１上の最も左の位置のカーソル表示１４３上を指１４５でタッチした状態を示している。このタッチ操作によって、カーソル表示１４３に対応する対象物を示す表示を行うことができる。例えば、図１７（ｂ）では、枠表示の色を変化（図１７では線幅を変化させて示す）させることで、左端のカーソル表示１４３に対応する枠表示が枠表示１３１Ｌであることを示している。なお、音量調整の対象となる対象物を画像中で指定することによって、対応するカーソル表示１４３の色等を変化させて、対象物とカーソル表示１４３との対応をユーザに認識させるようにしてもよい。

ユーザが指１４５によりカーソル表示１４３上をタッチしてスライドさせることで、スライドさせたカーソル表示１４３に対応する対象物の音量が変化する。音量の変化量は、スライド量に対応する。図１７（ｃ）はカーソル表示１４３を矢印に示す量だけ右側にスライドさせたことを示している。図１７（ｃ）の例では、ユーザの音量調整操作によって、人物１２２Ｒからの音声の音量が一番大きく、次に人物１２２Ｌからの音声の音量が大きく、環境音の音量が一番小さくなったことを示している。

図１９乃至図２３は音量調整操作の操作方法の例を示している。

図１９はスライド操作によって音量調整を可能にする３つの例を示すものである。音量表示として水平方向に伸びたバー表示１５２を採用する場合には、ユーザの指１５１をバーに沿って矢印１５３方向にスライドさせることにより、音量調整が可能である。例えば、バー表示１５２の右側にスライドさせることにより音量を増加させ、左側にスライドさせることにより音量を減少させることができる。

また、音量表示として円形状の表示１５５を採用する場合には、ユーザの指１５４を表示１５５の径方向に沿った矢印１５６方向にスライドさせることにより、音量調整が可能である。例えば、円形の中心方向にスライドさせることで音量を増加させ、中心から離間する方向にスライドさせることによって音量を減少させることができる。

また、音量表示として垂直方向に延びたバー表示１５８を採用する場合には、ユーザの指１５７を矢印１５９の方向にスライドさせることにより、音量調整が可能である。例えば、バー表示１５８の上側にスライドさせることにより音量を増加させ、下側にスライドさせることにより音量を減少させることができる。

図２０はタッチ操作によって音量調整を可能にする例を示すものである。例えば、音量表示として円形状の表示１６１を採用するものとする。図２０の左側の例は音量を増加させる場合の音量調整操作を示しており、ユーザは指１６２によって表示１６１上を所定時間タッチ（長押し）することで音量を増大させることができる。図２０の右側の例は音量を減少させる場合の音量調整操作を示しており、ユーザは指１６２を表示１６１に対してタッチ状態（指１６２ａ）から離間状態（指１６２ｂ）に短時間で移行する、即ち、指１６２によって表示１６１をタップする操作によって、音量を減少させることができる。なお、長押しによって音量を減少させ、タップによって音量を増加させるようにしてもよい。

図２１はピントアウト操作によって音量調整を可能にする２つの例を示すものである。例えば、音量表示として円形状の表示を採用するものとする。図２１の表示１７１ａ，１７１ｂは円形状の音量表示における所定の２つの状態を示しており、径が大きいほど音量が大きいことを示している。ユーザは円形状の音量表示近傍の表示画面上において、矢印１７４に示す径方向に、２本の指を近接又は離間させる。図２１の指１７２ａ，１７３ａは近接状態を示し、指１７２ｂ，１７３ｂは離間状態を示している。２本の指をスライドさせながら離間させることにより音量を増大させ、２本の指をスライドさせながら近接させることにより音量を減少させることができる。

また、例えば、音量表示としてバー表示を採用するものとする。図２１の表示１７５ａ，１７５ｂはバー表示における所定の２つの状態を示しており、バーの長さが長いほど音量が大きいことを示している。ユーザはバー表示近傍の表示画面上において、バー表示に沿った矢印１７８に示す方向に、２本の指を近接又は離間させる。図２１の指１７６ａ，１７７ａは近接状態を示し、指１７６ｂ，１７７ｂは離間状態を示している。２本の指をスライドさせながら離間させることにより音量を増大させ、２本の指をスライドさせながら近接させることにより音量を減少させることができる。

図２２は画面上のスライド操作によって音量調整を可能にする例を示すものである。図２２の例では、ユーザが指１８２ａによって撮像画像中の対象物の表示近傍をタッチすることにより、タッチした対象物に対する音量調整操作が可能となる。なお、この場合には、音量調整対象となったことを示す表示１８１を表示する。

ユーザは指１８２ａで表示画面をタッチ（対象物を選択）した状態で、他の指１８２ｃで表示画面上に触れて円弧状（矢印１８３）にスライドさせる。スライド方向によって音量の増減を指示することができる。例えば、指１８２ｃを時計方向にスライドさせることによって音量を増大させ、指１８２ｃを反時計方向にスライドさせることによって音量を減少させることができる。

図２３は画面上のタッチ操作によって音量調整を可能にする例を示すものである。図２３の例においても、ユーザが指でタッチした近傍に表示された対象物が、音量調整の対象となる。ユーザがタッチする指の本数によって音量の増減を指示することができる。例えば、ユーザが指１９２ａで対象物の表示１９１をタッチすることで比較的小さい音量を指示し、２本の指１９２ａ，１９２ｂで対象物の表示１９１をタッチすることで中間音量を指示し、３本の指１９２ａ〜１９２ｃで対象物の表示１９１をタッチすることで比較的大きい音量を指示することができる。

なお、図１５乃至図２３に示す音量表示、音量調整操作の検出及び音量調整操作に基づく音量制御は、上記各実施の形態における表示制御部３２ａ及びシステム制御部２１，８２，１１等によって実現可能である。また、図１５乃至図２３においては、表示する色や濃淡の変化をハッチングの密度の変化等によって表しており、色や濃淡は連続的に変化するものであってよい。

さらに、本発明の各実施形態においては、撮影のための機器として、デジタルカメラを用いて説明したが、カメラとしては、デジタル一眼レフカメラでもコンパクトデジタルカメラでもよく、ビデオカメラ、ムービーカメラのような動画用のカメラでもよく、さらに、携帯電話やスマートフォンなど携帯情報端末（ＰＤＡ：Personal Digital Assist）等に内蔵されるカメラでも勿論構わない。

本発明は、上記各実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

なお、特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。また、これらの動作フローを構成する各ステップは、発明の本質に影響しない部分については、適宜省略も可能であることは言うまでもない。

１１…マイク、１４…音声処理部、２１…システム制御部、２１ａ…音声方向判定部、２１ｂ…対象音声期間判定部、２１ｃ…音声制御部、２２…操作部、２４…記録再生部、２５…記録部、３１…撮像部、３２…画像処理部、３２ａ…表示制御部、３２ｂ…特徴検出部、３３…表示部、３４…タッチパネル。

Claims

被写体を撮像する撮像部と、
音を収音する収音部と、
前記撮像部によって撮像された撮像画像に基づく表示を行う表示部と、
前記収音部によって収音された音のうち録音の対象となる対象物からの対象物音声に基づく第１の音量レベルとその他の環境音に基づく第２の音量レベルとを検出する検出部と、
前記検出部によって検出された前記第１の音量レベルを示す第１の音量表示と前記第２の音量レベルを示す第２の音量表示との少なくとも一方を前記表示部に表示する表示制御部と
を具備することを特徴とする録音機器。
前記表示制御部は、前記第１の音量表示を前記撮像画像中の前記対象物の表示位置に対応した位置に表示する
ことを特徴とする請求項１に記載の録音機器。
ユーザ操作に基づいて、前記第１及び第２の音量レベルの少なくとも一方を制御する音量制御部
を具備することを特徴とする請求項１又は２に記載の録音機器。
前記検出部は、前記収音部によって収音された音のうち前記対象物音声が含まれる対象音声期間において収音された音に基づいて前記第１の音量レベルを求め、前記対象音声期間以外の期間である環境音期間において収音された音に基づいて前記第２の音量レベルを求める
ことを特徴とする請求項１乃至３のいずれ１つに記載の録音機器。
前記検出部は、前記収音部によって収音された音のうち前記対象物音声を検出して前記第１の音量レベルを求め、前記環境音を検出して前記第２の音量レベルを求める
ことを特徴とする請求項１乃至３のいずれか１つに記載の録音機器。
前記撮像部によって撮像された撮像画像に対する画像処理によって前記撮像画像中の前記対象物を検出すると共に前記対象物音声が発生する期間を検出する画像処理部を具備し、
前記検出部は、前記収音された音に対する音声信号処理の処理結果及び前記画像処理部の検出結果に基づいて、前記対象物音声及び前記環境音を検出する
ことを特徴とする請求項５に記載の録音機器。