JP2012165219A - Imaging apparatus - Google Patents
Imaging apparatus Download PDFInfo
- Publication number
- JP2012165219A JP2012165219A JP2011024535A JP2011024535A JP2012165219A JP 2012165219 A JP2012165219 A JP 2012165219A JP 2011024535 A JP2011024535 A JP 2011024535A JP 2011024535 A JP2011024535 A JP 2011024535A JP 2012165219 A JP2012165219 A JP 2012165219A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- focus
- signal
- pseudo
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Studio Devices (AREA)
- Indication In Cameras, And Counting Of Exposures (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
Description
本発明は、音声付きの動画と同時に静止画を撮影可能な撮像装置に関する。 The present invention relates to an imaging apparatus capable of capturing a still image simultaneously with a moving image with sound.
カメラで静止画撮影を行う場合、通常、撮影者がレリーズボタンを半押しした段階で焦点調節及び露出調節が行われ、全押しで被写体画像が取り込まれ、記録される。撮影レンズの合焦時に、合焦音を発生するカメラがある。他方、動画撮影では、焦点調節が継続的に行われることと、同時に取り込む周囲音声に対してノイズ音となるので、合焦音を発生させることは無い。 When shooting a still image with a camera, the focus adjustment and exposure adjustment are usually performed when the photographer presses the release button halfway, and the subject image is captured and recorded when fully pressed. Some cameras generate a focusing sound when the taking lens is in focus. On the other hand, in moving image shooting, since the focus adjustment is continuously performed and a noise sound is generated with respect to ambient sounds to be captured at the same time, no in-focus sound is generated.
近年,動画撮影中に静止画撮影を行えるカメラが製品化されている。動画撮影中に静止画撮影のためのレリーズボタンの半押しをすると、静止画撮影のための合焦動作が始動することがある。例えば、静止画撮影の場合、撮影画角内の1又は複数のエリアで合焦判定したり、撮影画角内の人間(の顔)に注目して合焦動作することがあり、この際の合焦制御は、動画撮影時のそれとは異なることがあるからである。 In recent years, cameras that can shoot still images during movie shooting have been commercialized. If the release button for still image shooting is pressed halfway during moving image shooting, a focusing operation for still image shooting may be started. For example, in the case of still image shooting, in-focus determination may be performed in one or a plurality of areas within the shooting angle of view, or focusing may be performed while paying attention to the human (its face) within the shooting angle of view. This is because the focus control may be different from that during moving image shooting.
静止画撮影のための合焦調節を行う場合、動画撮影中であっても、その合焦調節の完了を撮影者に知らせる手段が必要となる。しかし、音で撮影者に知らせると、動画撮影に付随して記録している音声にノイズ音として混入してしまう。また、合焦調節のためのフォーカシングレンズの駆動音又は移動音も、記録中の音声にノイズ音として混入してしまう。 When performing focus adjustment for still image shooting, a means for notifying the photographer of completion of the focus adjustment is required even during moving image shooting. However, if the photographer is informed by sound, it is mixed as noise sound in the sound recorded accompanying the moving image shooting. Also, the driving sound or moving sound of the focusing lens for adjusting the focus is mixed as noise sound in the sound being recorded.
周囲の音声を取り込むためのマイクは、通常、撮像装置の正面の、撮影レンズの近くに配置されている。従って、マイクは、合焦調節に伴う撮影レンズの作動音を取り込み易い。露出調整に伴う絞りの作動音も容易に取り込んでしまう。ノイズ音発生位置に近いことから、相対的に大きな音量で取り込んでしまうだけでなく、合焦駆動音と共に発生する振動や合焦音がカメラ内で起こす残響までも、取り込んでしまう。 A microphone for capturing surrounding sound is usually disposed near the photographing lens in front of the imaging apparatus. Therefore, the microphone can easily capture the operation sound of the photographing lens accompanying the focus adjustment. The diaphragm operating sound accompanying exposure adjustment is also easily captured. Since it is close to the noise sound generation position, it not only captures at a relatively large volume, but also captures vibrations generated along with the focus drive sound and reverberation caused by the focus sound within the camera.
特許文献1には、シャッタ音を動画撮影時には消去することが記載されている。シャッタ音を消去するモードと消去しないモードがあり、ユーザが何れか一方を選択できるようになっている。 Patent Document 1 describes that the shutter sound is erased during moving image shooting. There are a mode for erasing the shutter sound and a mode for not erasing, and the user can select one of them.
撮影した動画を再生する際に、どの時点で静止画を撮影したかが分かると、便利である。そのためには、従来技術では、音声に混入する合焦通知音又は合焦動作音を頼るしかないが、そのような音は、本来の音の品質を低下させるノイズ音でもあり、鮮明で聴き取りやすいものとは言えない。 When playing back a captured video, it is convenient to know when the still image was taken. For that purpose, in the prior art, there is no choice but to rely on in-focus notification sound or in-focus operation sound mixed in the sound, but such sound is also a noise sound that degrades the quality of the original sound, and is clear and audible. It's not easy.
本発明は、動画撮影中になされる静止画撮影タイミングを、本来の音声の品質を損なわない明確な音でユーザに知らせることが出来る撮像装置を提示することを目的とする。 An object of the present invention is to provide an imaging apparatus capable of notifying a user of a still image shooting timing performed during moving image shooting with a clear sound that does not impair the quality of the original sound.
本発明に係る撮像装置は、動画撮影中に静止画を撮影する撮像装置であって、撮像光学系と、前記撮像光学系による光学像を画像信号に変換する撮像手段と、前記静止画の撮影の際の前記撮像光学系の合焦に従い、合焦音を発生する合焦音発生手段と、前記合焦音を含む周囲音を取り込む音声入力手段と、疑似合焦音信号を発生する疑似合焦音発生手段と、前記音声入力手段の入力音声信号に混入する前記合焦音を除去し、前記疑似合焦音信号を合成する音声処理手段とを具備することを特徴とする。 An imaging apparatus according to the present invention is an imaging apparatus that captures a still image during moving image capturing, an imaging optical system, an imaging unit that converts an optical image obtained by the imaging optical system into an image signal, and the still image capturing. In accordance with the focus of the imaging optical system at the time of focusing, a focusing sound generating means for generating a focusing sound, a voice input means for capturing ambient sounds including the focusing sound, and a pseudo focusing sound signal for generating a pseudo focusing sound signal It is characterized by comprising a sound generation means and a sound processing means for removing the in-focus sound mixed in the input sound signal of the sound input means and synthesizing the pseudo-focus sound signal.
本発明によれば、被写体音声に混入する合焦音又はレンズ駆動音を削除し、高品質が疑似音を代わりに合成するので、再生時に合焦又はレンズ駆動を高品質な再生音で表現できる。 According to the present invention, since the focus sound or lens drive sound mixed in the subject sound is deleted and the high quality is synthesized instead of the pseudo sound, the focus or lens drive can be expressed with high quality playback sound at the time of playback. .
以下、図面を参照して、本発明の実施例を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明に係る撮像装置の一実施例であるデジタル一眼レフカメラの概略構成ブロック図を示す。 FIG. 1 shows a schematic block diagram of a digital single-lens reflex camera which is an embodiment of an imaging apparatus according to the present invention.
図1に示す実施例の基本的な構成と動作を説明する。撮像光学系10は、被写体からの光学像を撮像素子12に入射する。合焦検出部14は、撮像光学系10からの被写体光の合焦度を検出し、検出結果をカメラCPU16に供給する。カメラCPU16は合焦検出部14の合焦度出力に従い、レンズ駆動部18により撮像光学系10のフォーカシングレンズを合焦位置に向け駆動する。この帰還制御により、撮像光学系10は、被写体に合焦する位置に制御される。なお、レンズ駆動部18は、カメラCPU16からの指示に従い、撮像光学系10のズームレンズ及び絞りも駆動する。
The basic configuration and operation of the embodiment shown in FIG. 1 will be described. The imaging
撮像素子12は撮像光学系10による光学像を画像信号に変換し、その画像信号を画像処理部20に供給する。画像処理部20は、撮像素子12の出力画像信号を動画像として処理する動画像処理部20Mと、撮像素子12の出力画像信号の1画面を静止画として処理する静止画処理部20Sを具備する。例えば、動画像処理部20Mは、撮像素子12の出力画像信号をMPEG方式又はMotion JPEG方式で圧縮符号化する。静止画処理部20Sは、撮像素子12の出力画像信号をJPEG方式で圧縮符号化する。
The
音声入力手段であるマイク22は、周囲の音声を取り込み、音声信号を利得調整部24に出力する。マイク22は、カメラ筐体裏側に不図示のゴムなどで弾性的に取り付けられている。利得調整部24は、マイク22からの音声信号の利得を調整する。利得調整制御部26は、カメラCPU16からの指示に従い、利得調整部24の利得を制御する。疑似合焦音発生部30は、カメラCPU16からの指示に従い、所定の疑似合焦音信号を発生する。音声処理部28は、利得調整部24からの音声信号を処理した上で疑似合焦音発生部30からの疑似合焦音信号を合成し、記録用に符号化する。
The
記録部32には、画像処理部20から符号化画像信号(圧縮動画像信号と圧縮静止画信号)が供給され、音声処理部28から符号化音声信号が供給される。記録部32にはまた、カメラCPU16から、撮影画像の画素数、シャッタ速度、絞り値及びフレームレート等の撮影条件、並びに、静止画撮影の際の合焦タイミングを示す信号が供給される。記録部32は、画像処理部20,音声処理部28及びカメラCPU16からのこれらの情報を図示しない記録媒体に記録する。記録媒体は、例えば、半導体メモリ、磁気ディスク又は光ディスク等からなる。
The
開始/停止スイッチ34は、動画撮影の開始と停止をカメラCPU16に指示するのに使用される。レリーズボタン36は、静止画撮影で、半押しで合焦と露出の制御を、全押しで撮影の実行をカメラCPU16に指示にするのに使用される。ユーザは、動画/静止画モード切替えスイッチ38を使って、カメラCPU16に動画モードと静止画モードの切替えを指示できる。動画モードと静止画モードの詳細は口述する。
The start /
カメラCPU16は、静止画撮影の際に撮像光学系10が被写体に合焦した時に、合焦音発生部40に合焦音信号を発生させる。合焦音発生部40は、カメラCPU16からの指示に従い合焦音信号を発生し、スピーカ42に供給する。スピーカ42は、合焦音発生部40の発生する合焦音信号を音響出力する。カメラCPU16はまた、動画撮影中での静止画撮影に対しても合焦音信号を合焦音発生部40に発生させる。このときの合焦音は、静止画単体の撮影の際のそれとは異なる。例えば、静止画単体撮影の場合の合焦音を「ピピッ!」とし、動画撮影中での静止画撮影のそれを、より短い音、例えば、「ピッ!」とする。詳細は後述するが、動画撮影中での静止画撮影のための合焦音はマイク22の出力音声から削除されるが、その削除期間は短い方が好ましいからである。
The
カメラCPU16は音声処理部28にその動作を制御する制御信号を供給する。例えば、カメラCPU16は音声処理部28に、撮像光学系10の合焦時を含む短い期間を示す合焦タイミングゲート信号を供給する。この合焦タイミングゲート信号は、例えば、マイク22(実際には利得調整部24)の出力音声信号に合焦音が重畳する期間又はこれを包含する期間(以下、合焦音重畳区間という)を示す。音声処理部28は、このような合焦タイミングゲート信号に依存せずに自律的に合焦音重畳区間を利得調整部24の出力音声信号から検出しても良い。この場合、カメラCPU16からの合焦タイミングゲート信号に類する、合焦タイミングを示す信号は不要になる。
The
音声処理部28は、マイク22による入力音声信号に混入するスピーカ42からの合焦音を次のように削除し、疑似合焦音を挿入する。すなわち、音声処理部28は、マイク22(実際には利得調整部24)の出力音声信号から合焦音重畳区間の音声信号を削除し、合焦音重畳区間の前後の音声から予測して補完する。前後の音声から予測して補完信号を生成するので、合焦音重畳区間をより自然につなぐことが出来る。
The
カメラCPU16はまた、撮像光学系10の合焦に同期して、疑似合焦音発生部30に所定トーンからなる疑似合焦音を発生させる。音声処理部28は、合焦音重畳区間の音声信号を削除した後の利得調整部24の出力音声信号に、疑似合焦音発生部30からの疑似合焦音を合成する。スピーカ42から出力される合焦音をマイク22で拾った場合、奇麗な音にはならない。しかし、本実施例のように、一旦、マイク22で拾った合焦音を削除した後に、電気的に発生する疑似合焦音音を重畳することにより、良質な合焦音を録音できる。
The
疑似合焦音発生部30が発生する疑似合焦音信号は、例えば、図2に示すような構成で、疑似合焦音発生部30に書き込まれる。スピーカ42から出力される合焦音をマイク22又は別のマイクで取り込み、フィルタ46で余分な周波数部分を除去する。そのフィルタ46の出力音声信号が、疑似合焦音信号として、疑似合焦音発生部30に書き込まれる。
The pseudo focus sound signal generated by the pseudo focus
疑似合焦音発生部30の出力する疑似合焦音信号の代わりに、合焦音発生部40の発生する合焦音信号、又はこれをフィルタ処理した音信号を適切なタイミングで音声処理部28に供給しても良い。
Instead of the pseudo-focusing sound signal output from the pseudo-focusing
合焦音重畳区間に対する音声処理部28の処理を詳細に説明する。まず、合焦音重畳区間の音声信号を破棄する。次に、音声処理部28に含まれる音声予測補完部が、合焦音重畳区間の時間的に前の区間及び後の区間を学習区間として、前後の学習区間から合焦音重畳区間にあるべき音声信号を予測する。そして、音声予測補完部は、予測された音声信号を合焦重畳区間に配置する。
The processing of the
線形予測係数の導出(学習動作)と線形予測係数を用いた信号の予測(予測動作)を例に、音声予測補完部の動作を説明する。 The operation of the speech prediction complementing unit will be described taking derivation of the linear prediction coefficient (learning operation) and signal prediction (prediction operation) using the linear prediction coefficient as examples.
線形予測を用いるにあたり、現在の信号とこれに隣接する有限個(ここではp個とおく)の標本値との間に、次のような線形1次結合関係を仮定する。すなわち、
ここでxtが過去の値から予測されるように式を変形すると、
式(2)によると、εtが十分に小さければ、近傍p個の線形和によって現在の値が表現される。xtを上記の予測によって求めた後、さらにその近似が十分によければ、xt+1も同じく近傍p個の線形和によって求められる。 According to equation (2), if ε t is sufficiently small, the current value is represented by the linear p sum of neighborhoods. After obtaining xt by the above prediction, if the approximation is sufficiently good, xt + 1 is also obtained by a linear sum of p neighbors.
このように、εtを十分に小さくすることが出来れば、順次値を予測して信号を求めることが出来る。そこで、εtを最小にするようなαiを求めることを考える。本実施例では、εtを最小にするようなαiを求める動作を学習動作と呼ぶ。 Thus, if ε t can be made sufficiently small, the signal can be obtained by sequentially predicting the value. Accordingly, consider obtaining α i that minimizes ε t . In this embodiment, an operation for obtaining α i that minimizes ε t is called a learning operation.
前述した学習区間において、Σεt 2を最小化すればよい。学習の開始時間をt0、終了時間t1とすると、
式(5)に従ってαiを決定した場合、Σεt 2は最小化されている。このとき、式(2)から、xtの値は、
さらに、xt+1についても同様に、近傍のp−1個と、予測によって求めた信号とから近似値を得ることが出来る。 Further, similarly for xt + 1 , an approximate value can be obtained from the p-1 nearby and the signal obtained by prediction.
このような処理を順次、繰り返すことで、予測区間(ここでは、合焦音重畳区間に一致する。)の音声信号を生成出来る。本実施例では、求められたαiから予測区間の近似を求める動作を予測動作と呼ぶ。 By repeating such processing sequentially, an audio signal in the prediction interval (here, coincides with the focused sound superimposition interval) can be generated. In this embodiment, an operation for obtaining an approximation of a prediction interval from the obtained α i is referred to as a prediction operation.
図3は、被写体(又は周囲)からの音声(以下、「被写体音声」という。)の音圧レベルと、合焦音重畳区間(予測区間)、学習区間との関係を示す模式図である。横軸は、時間を示し、縦軸は被写体音の有無を示す。 FIG. 3 is a schematic diagram showing the relationship between the sound pressure level of the sound from the subject (or the surroundings) (hereinafter referred to as “subject sound”), the focused sound superimposition section (prediction section), and the learning section. The horizontal axis represents time, and the vertical axis represents the presence or absence of subject sound.
51aは元の被写体音声であり、合焦音重畳区間である削除区間52に合焦音(雑音)が重畳している。音声処理部28は、削除区間52の被写体音声51aを削除する。
51a is the original subject sound, and the focused sound (noise) is superimposed on the deletion section 52 which is the focused sound superimposing section. The
51bは、削除区間52の被写体音声を削除した後の被写体音声を示す。音声処理部28は、削除区間52より時間的に前の学習区間53aと、時間的に後ろの学習区間53bから削除区間52に対して予測動作を繰り返し、予測波形を削除区間52に埋め込む。
51b shows the subject voice after the subject voice in the deletion section 52 is deleted. The
51cは、削除区間52に予測動作で得られる予測信号が埋め込まれた被写体音声を示す。削除区間52が、予測信号を埋め込むべき予測区間54になる。 51c shows the subject sound in which the prediction signal obtained by the prediction operation is embedded in the deletion section 52. The deletion section 52 becomes the prediction section 54 in which the prediction signal is to be embedded.
このように、学習動作を行うに当たっては、予測区間の前後の信号を用いる。これは、音声信号が、極く短時間の領域に着目すると、比較的繰り返し性が高いという性質を利用している。 Thus, when performing the learning operation, signals before and after the prediction interval are used. This utilizes the property that the audio signal has a relatively high repeatability when focusing on an extremely short region.
学習動作および予測動作では、学習区間53aと学習区間53bの信号に対して夫々独立に計算を行う。学習区間53aの学習動作に基づき予測区間54の信号を生成することを、前方からの予測、略して前方予測と呼ぶ。他方、学習区間53bの学習動作に基づき予測区間54の信号を予測することを、後方からの予測、略して後方予測と呼ぶ。予測区間の信号の計算では、学習区間33aに近いほど前方予測による値の重みを大きくし、学習区間33bに近いほど後方予測による値の重みを大きくするように、前方予測と後方予測を重み付けする。 In the learning operation and the prediction operation, calculation is performed independently for the signals in the learning section 53a and the learning section 53b. Generating the signal of the prediction section 54 based on the learning operation of the learning section 53a is called prediction from the front, or forward prediction for short. On the other hand, the prediction of the signal in the prediction section 54 based on the learning operation in the learning section 53b is referred to as prediction from the rear, or backward prediction for short. In the calculation of the signal in the prediction interval, the forward prediction and the backward prediction are weighted so that the weight of the value by the forward prediction is increased as it is closer to the learning interval 33a and the value of the value by the backward prediction is increased closer to the learning interval 33b. .
図4は、本実施例における実際の合焦音と、削除区間及び予測区間、並びに、疑似合焦音との関係を示すタイミングチャートである。横軸は時間を示し、縦軸は、被写体音声の音圧レベルを示す。61a〜61dは、被写体音声の音圧レベルを示す。 FIG. 4 is a timing chart showing the relationship between the actual in-focus sound, the deletion section, the prediction section, and the pseudo-in-focus sound in the present embodiment. The horizontal axis represents time, and the vertical axis represents the sound pressure level of the subject sound. 61a to 61d indicate sound pressure levels of the subject sound.
被写体音声61aには実際に発音した実際の合焦音60が重畳している。被写体音声61bに示すように、合焦音重畳区間を含む削除区間62の被写体音声を削除する。削除区間62は、一般に実合焦音60が重畳している区間より広い。
An actual in-
実合焦音60の重畳する区間より広い区間の被写体音声を削除する理由を以下に説明する。カメラCPU16は、合焦検出部14からの焦点検出信号に従い、レンズ駆動部18により撮像光学系10を合焦点に制御する。カメラCPU16は、撮像光学系10が合焦点に到達するタイミングで合焦音発生部40に合焦音発生指示信号を供給すると共に、削除区間62を示す合焦タイミングゲート信号を音声処理部28に供給する。音声処理部28は、利得調整部24からの音声信号のうち、合焦タイミングゲート信号が示す区間の音声信号を削除する。合焦タイミングゲート信号は、合焦音発生部40の発生する合焦音とその残響音がマイク22に入力する期間を包含する区間を示すように、合焦音発生指示信号の期間より広く設定される。
The reason why the subject audio in the section wider than the section where the actual in-
削除区間62の音声信号を予測する場合に、利得調整部24の動作を考慮する必要がある。利得調整部24は、被写体音声が小さいときには増幅利得を大きくして感度を高め、被写体音声が小さいときには増幅利得を小さくして信号の飽和を防いでいる。
When predicting the audio signal in the deletion section 62, it is necessary to consider the operation of the
図5は、利得調整部24の利得の変化例を示す。横軸は時間を示し、縦軸は、マイク22の出力音声信号の音圧レベルと、利得調整部24の利得レベルを示す。被写体音声61aには実合焦音60が重畳している。
FIG. 5 shows a change example of the gain of the
合焦音60が被写体音声61aに対して大きな音圧レベルの場合、利得調整部24は、音声信号の飽和を防ぐ為に合焦音60が存在する区間で利得レベル71を下げる。一般的には、大きな音が止んだ時点以降、利得調整部24は、利得レベル72に示す様に利得を徐々に元に戻す。これは、利得レベルを急激に戻すと、その前後の音声が不連続になり、違和感が生ずるからである。
When the in-
他方、利得レベル72の様に徐々に利得を変化させると、利得が変化する期間73は、予測音声作成のための学習区間として利用できない。これに対し、カメラCPU16は、利得調整制御部26を介して利得調整部24の利得を利得レベル74に示すように、実合焦音60の終了後、利得レベルを急速に戻す。すなわち、利得調整制御部26は、カメラCPU16からの合焦音の終了タイミングを示す信号に従い、利得調整部24の利得制御の帰還ループの時定数を一時的に短縮する。このような利得の一時制御により利得レベルが全体として安定し、合焦音の後の期間を学習区間として利用出来る。
On the other hand, when the gain is gradually changed as in the gain level 72, the
音声の予測では、予測信号が時間経過と共に発散してしまう可能性がある。これは、前述した計算により求めた各予測係数の誤差が累積するからであり、その結果として、予測音声が極めて大きくなってしまう。この問題は、各予測係数を調整することで解決できる。例えば、時刻tにおける被写体音声を前回求めたレベルより小さくなる様に各係数の倍率を一律に変更する。このような調整により、次に予測される音声信号は前回よりも小さい値になり、最終的には予測音声信号が収束する。予測音声信号の精度は若干低下するが、その後に擬似合焦音が合成されるので、その精度低下は目立たない。 In speech prediction, the prediction signal may diverge over time. This is because the error of each prediction coefficient obtained by the above-described calculation accumulates, and as a result, the predicted speech becomes extremely large. This problem can be solved by adjusting each prediction coefficient. For example, the magnification of each coefficient is uniformly changed so that the subject sound at time t becomes smaller than the previously obtained level. As a result of such adjustment, the next predicted speech signal becomes a smaller value than the previous time, and finally the predicted speech signal converges. The accuracy of the predicted speech signal is slightly reduced, but since the pseudo-focused sound is synthesized thereafter, the accuracy reduction is not noticeable.
図6は、以上の処理を説明する模式図を示す。横軸は時間を示し、縦軸は音圧レベルを示す。合焦音重畳区間65の音声を削除した被写体音声61cに対し、合焦音重畳区間の前後の音声から学習及び予測し、削除区間に予測音声を埋め込む。このとき、前述した様に各係数を調整し、予測音声71a,71bとして示すように、時間の経過と共にゼロに収束する予測音声とする。
FIG. 6 is a schematic diagram illustrating the above processing. The horizontal axis indicates time, and the vertical axis indicates the sound pressure level. The
図4に示すように、疑似合焦音発生部30が、被写体音声61dに対し、予め記憶してある所定音を擬似合焦音64として予測区間63内に発生し、音声処理部28が、擬似合焦音64を被写体音声61dに合成する。擬似合焦音64を合成する区間66は、合焦音重畳区間65より短い。これは、実合焦音の長さと揃える為である。
As shown in FIG. 4, the pseudo-focusing
被写体音声61dの大きさに合わせて、擬似合焦音の音圧レベルを調整する。即ち、被写体音声が大きい時には擬似合焦音も大きくして良く聞こえるようにする。他方、被写体音声が小さい時は、擬似合焦音も小さくして、擬似合焦音ばかりが目立つ事が無い様にする。図7は、被写体音声61dと擬似合焦音の音圧レベルの関係を示す模式図である。横軸は時間を示し、縦軸は音圧レベルを示す。図7に示す例では、擬似合焦音64a,64bの音圧レベルを被写体音声61d,61eの音圧レベルのほぼ倍としている。
The sound pressure level of the pseudo in-focus sound is adjusted according to the size of the
図8は、本実施例における被写体音声の検出と仮記憶の動作を示す。カメラCPU16上で動作する制御プログラムが、図8に示すフローチャートを実現するように各部を制御する。図8に示すフローは、動画撮影の開始(又は音声のみの記録の開始)と共にスタートする。
FIG. 8 shows operations of subject sound detection and temporary storage in the present embodiment. A control program operating on the
ステップS8001では、カメラCPU16は、実合焦音の発生が終了しているか否かを判定し、終了している場合はステップS8002に進み、そうで無い場合はステップS8003に進む。前述した様に、実合焦音発生時はその音が大きい事から、利得調整部24がマイク22の増幅利得を下げている。その為、実合焦音終了直後は、利得が直ぐに回復せず、後方予測の精度が低くなる。
In step S8001, the
ステップS8002で、カメラCPU16は、利得調整制御部26に指示して、実合焦音の終了直後に利得調整部24の利得を瞬時に回復させる。これにより、実合焦より時間的に後の学習区間の被写体音声を早期に安定させることができ、後方予測の精度が向上する。
In step S8002, the
実合焦音以外の音の場合には、ステップS8002をスキップするので、利得回復はゆっくりとなり、違和感の無い被写体音声信号になる。 In the case of a sound other than the actual in-focus sound, step S8002 is skipped, so that the gain recovery is slow and the subject sound signal has no sense of incongruity.
ステップS8003で被写体音声の取り込みを行い、ステップS8004で合焦状態の取り込みを行う。合焦状態情報としては、実合焦音の発生と終了のタイミングや、撮像する画像の中での合焦領域情報があげられる。実合焦音の発生終了タイミングは、被写体音声内の実合焦音重畳区間の削除や予測に使用される。合焦領域情報は、図9に示す様に、動画再生時に画像内に合焦領域を表示するために用いられる。図9は、動画再生画面に合焦領域を重畳表示する画面例を示す。動画再生時にレリーズ操作などで急速合焦を行った場合、記録されていた合焦領域がフレーム91内に合焦エリア92として重畳表示され、同時に、擬似合焦音が発生される。
In step S8003, the subject voice is captured, and in step S8004, the in-focus state is captured. The in-focus state information includes the timing of the occurrence and end of the actual in-focus sound, and in-focus area information in the image to be captured. The actual focus sound generation end timing is used for deletion or prediction of the actual focus sound superimposed section in the subject sound. As shown in FIG. 9, the focus area information is used to display a focus area in an image when a moving image is reproduced. FIG. 9 shows an example of a screen that superimposes and displays the focus area on the moving image playback screen. When rapid focusing is performed by a release operation or the like during moving image reproduction, the recorded focusing area is superimposed and displayed as a focusing
ステップS8005では、取り込んだ音声信号および合焦状態情報を同期してバッファなどに一時記憶する。 In step S8005, the captured audio signal and in-focus state information are synchronized and temporarily stored in a buffer or the like.
図10は、本実施例の被写体音声処理のフローチャートを示す。音声の録音又は動画の撮影開始から所定の時間遅れて、音声処理部28は、図10に示すフローをスタートする。この時間遅れは、予測音声作成に必要な時間を見込んだものであり、前述した各予測係数の算出及び後方予測に必要な時間(例えば、後方学習区間33bに要する時間)である。音声処理部28が、利得調整部24の出力音声信号をバッファに記憶した上で、後方予測を採用するので、精度の高い予測音が得られる。
FIG. 10 shows a flowchart of subject audio processing of the present embodiment. The
ステップS10001で、音声処理部28は、バッファに一時記憶された被写体音声を走査し、合焦状態情報などにより実合焦音が重畳したか否かを判定する。実合焦音重畳区間になると、ステップS10002に進み、そうで無い時はステップS10001に戻り、循環待機する。
In step S10001, the
ステップS10002で、音声処理部28は、バッファに記憶された被写体音声信号のうち、実合焦音重畳区間の信号を削除する。
In step S10002, the
ステップS10003で、音声処理部28は、実合焦音重畳区間の前後の被写体音声信号から実合焦音重畳区間の被写体音声を予測して組み込む。
In step S10003, the
ステップS10004で、音声処理部28は、実合焦音重畳区間より前の区間における被写体音圧レベルが所定値より大きいか否かを判定する。被写体音圧レベルが所定値より小さい場合はステップS10005に進み、大きい場合はステップS10006に進む。
In step S10004, the
ステップS10005及びS10006では共に、音声処理部28は、擬似合焦音信号を被写体音声信号に合成する。ただし、ステップS10006では、音圧レベルの大きな擬似合焦音を合成し、ステップS10005では、音圧レベルの小さな疑似合焦音を合成する。これにより、被写体音声に擬似合焦音が埋もれてしまうことを防ぐ。
In both steps S10005 and S10006, the
ステップ#10007で、音声処理部28は、擬似合焦音が合成された被写体音声信号を記録部32に出力して、ステップS10001に戻る。記録部32は、音声処理部28からの音声信号を図示しない記録媒体に記録する。
In
実合焦音重畳区間65の音声信号は削除され、その部分を予測信号で補完するが、削除するこの区間65(削除区間62)が短いほど、予測信号の誤差が累積されない。実合焦音重畳期間は、短いほど好ましい。しかし、合焦確認としての実合焦音は、ある程度の長さがあった方が撮影時の操作感がよい。同じ静止画撮影でも、動画を撮影していないときの静止画単独撮影の場合の合焦音を長めとし、動画撮影中の静止画撮影では、より短い合焦音とする。そして、記録すべき音声信号に埋め込む疑似合焦音は、静止画単独撮影の場合の実合焦音と同じ長さとする。これにより、再生時の違和感を解消する。例えば、静止画単独撮影時の実合焦音を「ピピッ!」とする。他方、動画撮影中での静止画撮影の場合の実合焦音を「ピッ!」とし、擬似合焦音を「ピピッ!」とする。
The audio signal in the actual in-focus
動画静止画モード切替えスイッチ38でユーザが静止画撮影モードを指定している場合、カメラCPU16は、合焦音発生部40に合焦時に「ピピッ!」と2度の連続破裂音を発生させる。他方、動画撮影モードが指定されている場合、カメラCPU16は、合焦音発生部40に合焦時に「ピッ!」と1度の破裂音を発生させる。
When the user designates the still image shooting mode with the moving image still
図11は、以上の動作の説明用タイミングチャートである。横軸は時間を示し、縦軸は音圧レベルを示す。111aから111dはそれぞれ、被写体音声を示す。被写体音声111aには、実際に発音した実合焦音110が重畳している。ここでは、動画撮影時の実合焦音であるので、図4に示す実合焦音60に比べて実合焦音の発生区間が短くなっている。
FIG. 11 is a timing chart for explaining the above operation. The horizontal axis indicates time, and the vertical axis indicates the sound pressure level.
音声処理部28は、合焦音重畳区間の被写体音声を削除するが、ここでは、実合焦音110の存在する区間より広い区間112の被写体音声を削除する。この削除区間112も、図4で示した削除区間62より短く出来る。
The
被写体音声111cでは、音声処理部28は、削除区間112の前後の被写体音声信号を学習し、削除区間の被写体音声を予測して、補完する。削除区間112が短いので、補完する予測音声に誤差が累積しない。
In the subject sound 111c, the
被写体音声111dで、音声処理部28は、擬似合焦音114を被写体音声111dに合成する。擬似合焦音114を合成する区間116は、静止画時の合焦音と同じ長さになり、削除区間112よりも長い。これにより、最終的に記録された被写体音声の再生時には、静止画撮影時と同じ長さの擬似合焦音が知覚される。このように構成にすることで、静止画撮影時の合焦音と同等で違和感の無い動画再生が行われると共に、予測信号の誤差累積を防ぐ事が出来る。
With the
本実施例は、合焦の為のレンズ駆動音を低減することもできる。合焦の為のレンズ駆動音は、モータ及びそのギアの噛み合い音、並びにそれによる鏡筒の振動からなる。カメラ筐体内の共鳴があるので、マイク22が取り込む音としては、レンズ駆動音自体を外部から聞くときに比べてかなり異なる雑音となる。
This embodiment can also reduce lens driving sound for focusing. The lens driving sound for focusing is composed of the meshing sound of the motor and its gear, and the vibration of the lens barrel caused thereby. Since there is resonance in the camera housing, the sound captured by the
実施例1と同様に、レンズ駆動音発生区間の被写体音声を削除し、そこに予測音声を埋め、擬似的なレンズ駆動音を合成してもよい。但し、レンズ駆動音は合焦音に比べて発生区間が長くなるので、予測音声の誤差が累積し易くなる。 Similarly to the first embodiment, the subject sound in the lens driving sound generation section may be deleted, the predicted sound may be embedded therein, and the pseudo lens driving sound may be synthesized. However, since the lens drive sound has a longer generation interval than the in-focus sound, the error of the predicted speech is likely to accumulate.
音声予測を用いるのではなく、以下のような方法でレンズ駆動音を低減してもよい。図12は、そのタイミングチャート例を示す。横軸は時間を示し、縦軸は音圧レベルを示す。121a〜121cは各々、被写体音声を示す。
Instead of using speech prediction, the lens driving sound may be reduced by the following method. FIG. 12 shows an example of the timing chart. The horizontal axis indicates time, and the vertical axis indicates the sound pressure level.
被写体音声121aには、合焦の為のレンズ駆動音120が重畳している。レンズ駆動音が重畳している区間のみ、音声処理部28は、レンズ駆動音の低減処理を行い、被写体音声121bとする。音声処理部28によるレンズ駆動音低減処理の詳細は、後述する。低減処理を行う区間125は、レンズ駆動音120の重畳区間とほぼ同じにしている。
A lens driving sound 120 for focusing is superimposed on the
音声処理部28は、擬似レンズ駆動音123を被写体音声信号121cに合成して、被写体音声121cを生成する。擬似レンズ駆動音は例えば、周囲音の無い環境でレンズ駆動音をマイク22により取り込み、そのときのマイク22の出力音声信号から主要周波数成分を取り出し、聞きやすい音として合成したものである。もちろん、聴感を確認しつつ、聴き取りやすい音を人工的に生成すれば良い。
The
実施例1と同様に、音声処理部28は、擬似レンズ駆動音123を、レンズ駆動音重畳区間125より広い区間126で被写体音声121cに合成する。レンズ駆動音の低減処理を行った区間の前後の接続部分に不連続部があったとしても、擬似レンズ駆動音にカバーされてしまうので、違和感のない被写体音声となる。
Similar to the first embodiment, the
図13は、被写体音声に重畳するレンズ駆動音を低減する構成のブロック図を示す。 FIG. 13 shows a block diagram of a configuration for reducing lens driving sound superimposed on subject sound.
周波数変換部130は、レンズ駆動音が重畳している被写体音声信号をフーリエ変換により周波数軸上に変換する。これにより、例えば、図14(a)に示すようなスペクトル波形141aの信号が得られる。
The
疑似レンズ駆動音の周波数成分データが記憶装置131に格納されている。図14(b)は、記憶装置131に記憶される疑似レンズ駆動音のスペクトル波形141bを示す。
The frequency component data of the pseudo lens driving sound is stored in the
差分処理部132は、変換部130の各周波数成分(図14(a))から、記憶装置131からの同じ周波数の周波数成分(図14(b))を減算する。これにより、実レンズ駆動音が重畳する被写体音声に重畳する実レンズ駆動音から疑似レンズ駆動音を減算し、実レンズ駆動音の音圧を低減できる。
The
時間軸変換部133は、差分処理部132の出力を逆フーリエ変換して、時間軸の波形に戻す。
The time
このように、一旦、周波数空間に変換してから疑似レンズ駆動音を差し引く事により、各周波数の位相を考えなくて済む。 In this way, the phase of each frequency does not have to be considered by subtracting the pseudo lens driving sound once converted into the frequency space.
本発明の一実施例として、撮像装置が発生する音を消去乃至低減した後に擬似音を重畳する被写体音声録音システムの実施例を説明した。本発明は、動画撮影機能を有するデジタルスチルカメラ、デジタルビデオカメラ、監視カメラ、Webカメラ及び携帯電話などにも広く適用できる。 As one embodiment of the present invention, the embodiment of the subject sound recording system that superimposes the pseudo sound after the sound generated by the imaging apparatus is erased or reduced has been described. The present invention can be widely applied to a digital still camera, a digital video camera, a surveillance camera, a Web camera, a mobile phone, and the like having a moving image shooting function.
Claims (2)
撮像光学系と、
前記撮像光学系による光学像を画像信号に変換する撮像手段と、
前記静止画の撮影の際の前記撮像光学系の合焦に従い、合焦音を発生する合焦音発生手段と、
前記合焦音を含む周囲音を取り込む音声入力手段と、
疑似合焦音信号を発生する疑似合焦音発生手段と、
前記音声入力手段の入力音声信号に混入する前記合焦音を除去し、前記疑似合焦音信号を合成する音声処理手段
とを具備することを特徴とする撮像装置。 An imaging device that captures still images during video recording,
An imaging optical system;
Imaging means for converting an optical image by the imaging optical system into an image signal;
In-focus sound generating means for generating in-focus sound according to the focus of the imaging optical system at the time of shooting the still image;
Voice input means for capturing ambient sounds including the focused sound;
A pseudo-focusing sound generating means for generating a pseudo-focusing sound signal;
An image pickup apparatus comprising: an audio processing unit that removes the in-focus sound mixed in an input audio signal of the audio input unit and synthesizes the pseudo-in-focus signal.
前記音声入力手段の入力音声信号から、前記合焦音が重畳する合焦音重畳区間の音声信号を除去する除去手段と、
前記合焦音重畳区間の時間的に前後する区間の音声信号から、合焦音重畳区間の音声信号を予測して前記合焦音重畳区間に補完する補完手段と、
前記補完手段の出力に前記疑似合焦音信号を合成する手段
とを具備することを特徴とする請求項1に記載の撮像装置。 The voice processing means is
Removing means for removing a voice signal in a focused sound superimposing section where the focused sound is superimposed from an input voice signal of the voice input means;
Complementing means for predicting a speech signal in a focused sound superimposing section from a speech signal in a section before and after the focused sound superimposing section and complementing the focused sound superimposed section,
The imaging apparatus according to claim 1, further comprising a unit that synthesizes the pseudo-focus sound signal with an output of the complementing unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011024535A JP2012165219A (en) | 2011-02-08 | 2011-02-08 | Imaging apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011024535A JP2012165219A (en) | 2011-02-08 | 2011-02-08 | Imaging apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012165219A true JP2012165219A (en) | 2012-08-30 |
Family
ID=46844179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011024535A Withdrawn JP2012165219A (en) | 2011-02-08 | 2011-02-08 | Imaging apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012165219A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020129576A1 (en) * | 2018-12-19 | 2020-06-25 | パナソニックIpマネジメント株式会社 | Imaging device |
JP2021052357A (en) * | 2019-09-26 | 2021-04-01 | キヤノン株式会社 | Imaging apparatus, control method of the same, and program of the same |
-
2011
- 2011-02-08 JP JP2011024535A patent/JP2012165219A/en not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020129576A1 (en) * | 2018-12-19 | 2020-06-25 | パナソニックIpマネジメント株式会社 | Imaging device |
JPWO2020129576A1 (en) * | 2018-12-19 | 2021-11-04 | パナソニックIpマネジメント株式会社 | Imaging device |
JP7320739B2 (en) | 2018-12-19 | 2023-08-04 | パナソニックIpマネジメント株式会社 | Imaging device |
JP2021052357A (en) * | 2019-09-26 | 2021-04-01 | キヤノン株式会社 | Imaging apparatus, control method of the same, and program of the same |
JP7379046B2 (en) | 2019-09-26 | 2023-11-14 | キヤノン株式会社 | Imaging device, method of controlling the imaging device, and its program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4639907B2 (en) | Imaging apparatus, audio recording method, and program | |
JP5529635B2 (en) | Audio signal processing apparatus and audio signal processing method | |
JP5351644B2 (en) | Audio recording apparatus and method, and imaging apparatus | |
JP2006270591A (en) | Electronic camera, data reproducing device and program | |
JP2012100216A (en) | Camera and moving image capturing program | |
JP2008141484A (en) | Image reproducing system and video signal supply apparatus | |
JP5538918B2 (en) | Audio signal processing apparatus and audio signal processing system | |
JP5279629B2 (en) | Imaging device | |
JP5656586B2 (en) | Imaging apparatus, control method therefor, and audio processing apparatus and method | |
JP5963430B2 (en) | Imaging apparatus, audio processing apparatus, and control method thereof | |
JP5839795B2 (en) | Imaging apparatus and information processing system | |
JP2012165219A (en) | Imaging apparatus | |
JP5528856B2 (en) | Photography equipment | |
JP5932399B2 (en) | Imaging apparatus and sound processing apparatus | |
US9294835B2 (en) | Image capturing apparatus, signal processing apparatus and method | |
JP5638897B2 (en) | Imaging device | |
JP6061476B2 (en) | Audio processing device | |
JP2005117283A (en) | Video camera | |
JP2006217111A (en) | Moving image photographing apparatus and method | |
JP2006101310A (en) | Photographing apparatus and program therefor | |
JP5754058B2 (en) | Photography equipment | |
JP2023120667A (en) | Imaging apparatus | |
JP2006148560A (en) | Electronic camera | |
JP2005253010A (en) | Camera | |
JP2009239930A (en) | Animation imaging apparatus and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140513 |