JP2012032648A - 機械音抑圧装置、機械音抑圧方法、プログラムおよび撮像装置 - Google Patents

機械音抑圧装置、機械音抑圧方法、プログラムおよび撮像装置 Download PDF

Info

Publication number
JP2012032648A
JP2012032648A JP2010172874A JP2010172874A JP2012032648A JP 2012032648 A JP2012032648 A JP 2012032648A JP 2010172874 A JP2010172874 A JP 2010172874A JP 2010172874 A JP2010172874 A JP 2010172874A JP 2012032648 A JP2012032648 A JP 2012032648A
Authority
JP
Japan
Prior art keywords
mechanical sound
frequency spectrum
unit
frequency
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010172874A
Other languages
English (en)
Inventor
keiichi Osako
慶一 大迫
Toshiyuki Sekiya
俊之 関矢
Toshiyuki Kumakura
俊之 熊倉
Mototsugu Abe
素嗣 安部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010172874A priority Critical patent/JP2012032648A/ja
Priority to US13/183,531 priority patent/US8913157B2/en
Priority to CN2011102073198A priority patent/CN102347029A/zh
Publication of JP2012032648A publication Critical patent/JP2012032648A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Studio Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】簡易な構成で、個体毎の機械音のバラツキによらず一定の低減効果を実現可能とする。
【解決手段】周波数スペクトル修正部123は、入力信号の周波数スペクトルX(f,τ)に、周波数毎に、ゲイン関数テーブル121から読み出したゲインG(f,τ)を掛けて、修正された周波数スペクトルY(f,τ)を出力する。ゲイン関数テーブル121には、入力信号のパワー|X(f,τ)|と機械音のパワー|N(f,τ)|のパワー比の各値に対応したゲイン設定値が記憶されている。パワー比算出部122は、周波数毎に、パワー比を算出する。ゲイン関数テーブル121から周波数スペクトル修正部123に、周波数毎に、算出パワー比に対応したゲインG(f,τ)を供給する。機械音のばらつきの特性は様々であるが、それに適したゲイン関数G(f,τ)をゲイン関数テーブル121に設定できる。
【選択図】図2

Description

この発明は、機械音抑圧装置、機械音抑圧方法、プログラムおよび撮像装置に関し、特に、音声付き動画撮影機能を備えた撮像装置において、動画撮影中の光学ズームに伴う機械音(モータ音)等を低減する機械音抑圧装置等に関する。
近年、デジタルカメラなどの撮像装置として、カメラ機能の他に、音声付き動画撮影機能を備えたものが提案されている。この種の撮像装置においては、動画撮影中の光学ズームに伴う機械音(モータ音)が、マイクロホンで集音される周辺音に入り込み、記録音声の劣化を招くという問題がある。
従来から音声信号に重畳した雑音を除去するための手法として、スペクトルサブトラクション(Spectral Subtraction)法が知られている(非特許文献1参照)。このスペクトルサブトラクション法は、無音区間におけるスペクトルを雑音スペクトルと推定し、その雑音スペクトルに所定の係数(サブトラクト係数)を乗じた信号を入力音声スペクトルから差し引くことで雑音成分を除去する方法である。
無音区間におけるスペクトルを雑音スペクトルと推定する方法では、上述の音声付き動画撮影機能を備えた撮像装置のように、周辺音とは無関係に発生する機械音を雑音として除去することができない。そこで、特許文献1において、予め動画撮影中の光学ズームに伴う機械音の周波数スペクトルを保持し、ズーム操作時には、入力信号のスペクトルから、機械音の周波数スペクトルを減算して、機械音を低減することが提案されている。
図37は、特許文献1に記載されている雑音除去機能を備えた音声記録装置の構成を示している。モータ21は、ズームレンズなどのレンズ光学系を光軸方向に移動させるためのモータである。モータ駆動部21aは、モータ21を回転駆動させるための駆動機構である。制御部32は、キー入力部36に含まれるズームキーなどの操作信号を受けて、モータ駆動制御信号をモータ駆動部21aに出力する。また、制御部32は、音声付き動画撮影中にモータ21の駆動タイミングに基づいて、スペクトル切り替え部56を制御する。
音声入力部51は、図示しないマイクロホンを通じて入力される音声信号Saを所定のゲインで増幅してフレーム分割部52に与える。この場合、音声付き動画撮影中に、例えばズーム操作が行われると、そのズーム操作に伴って発生するモータ音(ズーム音)が音声入力部51を通じて音声信号Saと共に入り込むことになる。フレーム分割部52は、この音声入力部51によって入力された音声信号Saを所定時間分のフレーム単位で分割する。フーリエ変換部53は、このフレーム分割部52によってフレーム単位で分割された音声信号Saをフーリエ変換し、周波数毎のパワーを示した入力音声スペクトルSbに変換する。
モータ音スペクトル記憶部54には、予め雑音除去対象となるモータ音をスペクトル化したモータ音スペクトルScが雑音スペクトルとして記憶されている。サブトラクト部55は、フーリエ変換部53によって得られた入力音声スペクトルSbとモータ音スペクトル記憶部54に記憶されているモータ音スペクトルScに基づいて、雑音成分を除去する処理を行う。すなわち、サブトラクト部55は、入力音声スペクトルSbから雑音スペクトルとして予め記憶されたモータ音スペクトルScに所定のサブトラクト係数αを乗じた信号を減算する。
スペクトル切り替え部56は、フーリエ変換部53によって得られた入力音声スペクトルSbと、このサブトラクト部55によって得られる雑音除去後の音声スペクトルSdを、制御部32から出力される選択信号によって切り替えて、逆フーリエ変換部57に与える。すなわち、スペクトル切り替え部56は、ズーム動作中などのモータ21の駆動時には雑音除去後の音声スペクトルSdを逆フーリエ変換部57に供給し、その他のときには入力音声スペクトルSbを逆フーリエ変換部57に供給する。
逆フーリエ変換部57は、スペクトル切り替え部56を通じて入力された入力音声スペクトルSb、または、雑音除去後の音声スペクトルSdを逆フーリエ変換して元のフレーム単位毎の音声信号Seに戻す。波形合成部58は、逆フーリエ変換部57によって得られるフレーム単位毎の音声信号Seを合成して、時系列的に連続した音声信号Sfに復元する。この音声信号Sfは、最終的な記録用の音声信号として用いられ、撮像系から得られる動画データと共にメモリ等の記録媒体に記録される。
特開2006−279185号公報
S.F.Boll, "Suppression of acoustic noise inspeech using spectral subtraction," IEEE Trans.Acoustics, Speech, and Signal Processing, vol.27, no.2, pp.113-120, 1979.
特許文献1で用いているスペクトルサブトラクション法について、図38を参照して、概説する。入力信号x(t)は、高速フーリエ変換(FFT:fast Fourier Transform)によって、周波数領域の周波数スペクトルX(f,τ)に変換される。ここで、(f,τ)は、f番目の周波数のフレームτの周波数スペクトルであることを示している。
この入力信号x(t)のパワースペクトル|X(f,τ)|からノイズのパワースペクトル|N(f,τ)|を差し引く減算処理が行われて、結果としてのパワースペクトル|Y(f,τ)|が得られる。なお、ノイズスペクトルN(f,τ)は、入力信号x(t)を用いて推定する、あるいは事前にノイズのモデルを仮定する等により得られる。減算結果が負となる場合には、適当な値が代入される。
すなわち、この減算処理は、(1)式に基づいて行われる。この式において、αは固定係数であって、例えば1〜2の間の値に設定される。また、βも固定係数であって、例えば、0〜0.1の間の値に設定される。
Figure 2012032648
減算後、(2)式に示すように、減算結果の振幅スペクトル|Y(f,τ)|に、入力信号x(t)の周波数スペクトルX(f,τ)の偏角arg{X(f,τ)}が掛けられて、減算結果としての周波数スペクトルY(f,τ)が得られる。そして、この周波数スペクトルY(f,τ)は、逆高速フーリエ変換(IFFT:Inverse fast Fourier Transform)によって、時間領域の出力信号y(t)に変換される。
Figure 2012032648
図39、図40は、スペクトルサブトラクションのイメージ図である。図39のイメージ図は、結果が正しく得られる場合を示している。入力信号には、目的音成分と真のノイズ成分とが含まれている。この入力信号から減算する推定ノイズ成分が真のノイズ成分と等しければ、出力信号は目的音成分を正しく含むものとなる。
これに対して、図40のイメージ図は、結果が誤って得られる場合を示している。入力信号には、目的音成分と真のノイズ成分とが含まれている。この入力信号から減算する推定ノイズ成分に、真のノイズ成分に対して誤差が存在すると、出力信号は目的音成分を正しく含むものとはならない。この場合、ノイズの消しすぎや消し残りが発生する。
特許文献1では、上述したように、機械音の抑圧にスペクトルサブトラクション法を用いている。しかし、この特許文献1では、入力信号に含まれる真のノイズ成分と、事前に測定した機械音の誤差を考慮しておらず、サブトラクト部55において機械音(ノイズ)の消しすぎや消し残りが発生し、音質劣化が避けられない。
入力信号に含まれる真のノイズ成分と事前に測定した機械音との間に誤差が発生する要因は多数存在する。この要因には、例えば、以下のようなものがある。
(a)機械組み立て位置、ネジの締め付け圧力の差
(b)機械駆動による部品の摩耗、経年変化
(c)温度変化
(d)姿勢(カメラの持ち方、角度)変化
(e)カメラズームを駆動するためのモータ
図41は、セットA(set A)、セットB(set B)、セットC(set C)の3台の音声付き動画撮影機能を持つ撮像装置で実際に録音したズーム音(機械音)の周波数スペクトルを示している。図示のように、それぞれのズーム音(機械音)の周波数スペクトルの特徴は全く異なっている。そのため、例えば、セットBにおいて、特許文献1のサブトラクト部55が、セットAで作成したノイズスペクトルを用いて減算処理を行った場合、サブトラクト部55において機械音(ノイズ)の消しすぎや消し残りが発生し、音質劣化が生じる。
このように、スペクトルサブトラクション法を用いた機械音抑圧では、機械音のばらつきに十分に対処できない。ここで、説明のために、スペクトルサブトラクションの式を変形する。これまでは、スペクトルを引く、すなわち「減算系」で説明していたが、新たに「乗算系」の枠組みを導入する。
(3)式は、上述の(2)式の右辺を変形したものである。この(3)式から、周波数スペクトルY(f,τ)は、入力信号x(t)の周波数スペクトルX(f,τ)にゲイン関数G(f,τ)=√(1−α|N(f,τ)|/|X(f,τ)|)を掛けたものとして表すことができる。つまり、減算系のスペクトルサブトラクションを乗算系で示すことができる。
Figure 2012032648
ゲイン関数G(f,τ)=√(1−α|N(f,τ)|/|X(f,τ)|)について説明する。ゲイン関数G(f,τ)において、|N(f,τ)|/|X(f,τ)|は、雑音(機械音)のパワーと、入力信号のパワーの比である。このパワー比によって、ゲイン関数G(f,τ)の値が変動していることになる。
図42は、ゲイン関数G(f,τ)の挙動をプロットしたものである。図示の例では、α=1である。また、図示の例では、|N(f,τ)|≧|X(f,τ)|のとき、G(f,τ)=0.05、つまりβ=0.05としたものである。この図42では、理解を容易とするため、横軸は、|N(f,τ)|/|X(f,τ)|ではなく、分母と分子を逆にした|X(f,τ)|/|N(f,τ)|のdB値としている。この場合、右に行くほど雑音が小さく、逆に左に行くほど雑音が大きくなる。分母の雑音(機械音)のパワー|N(f,τ)|は固定なので、入力信号のパワー|X(f,τ)|の大きさによってゲインが変化する。
特許文献1においても、機械音(モータ音)のばらつきの対策が採られている。すなわち、機械音のばらつきが大きい場合には、サブトラクト係数αを大きくして減算している。このサブトラクト係数αを変化させることは、乗算系((3)式参照)で考えると、ゲイン関数G(f,τ)の変形をしていることになる。
図43は、α=1,2,3のそれぞれにおけるゲイン関数G(f,τ)の挙動をプロットしたものである。この図からも明らかなように、サブトラクト係数αを大きくしていくことで、ゲイン関数G(f,τ)は全体的に右側にシフトしていく。ばらつきが大きく機械音(モータ音)が多く含まれることがある場合には|X(f,τ)|のレベルが大きくなるので、|X(f,τ)|/|N(f,τ)|が右側にずれていく。サブトラクト係数αを大きくすることでゲインがβとなる範囲が増加する。ゲインが小さい程機械音(モータ音)を抑圧している状態になるので、サブトラクト係数αを大きくすることで、抑圧範囲を広げることができ、ばらつきが大きく機械音(モータ音)が多く含まれることがある場合に対処できる。
しかし、図43からも明らかなように、サブトラクト係数αを変化させても、ゲイン関数G(f,τ)を左右にシフトするコントロールしかできない。つまり、サブトラクト係数αを変化させても、図44に破線枠で囲んで示す|X(f,τ)|/|N(f,τ)|の変化に対応したゲイン(gain)の変化形態は変わらない。そのため、特性が様々な機械音(モータ音)のばらつき対策が十分だとは言えない。
また、スペクトルサブトラクション法を用いた機械音抑圧において、ゲイン関数G(f,τ)は、図45に破線枠で囲んで示すように、例えば、α=1のときには、|X(f,τ)|/|N(f,τ)|が0dBのところでゲインの値が急に変化する。そのため、出力信号に歪みが生じ、音質に悪影響を及ぼす。
また、スペクトルサブトラクション法を用いた機械音抑圧において、ゲイン関数G(f,τ)は、図46に破線枠で囲んで示すように、例えば、α=1のときには、|X(f,τ)|/|N(f,τ)|が0dBより小さなところではゲインがβとされる。そのため、もともと|X(f,τ)|の値が小さいところをさらに抑圧してしまい、ノイズ以外の成分も抑圧され、過剰な抑圧による音質劣化を招く。
また、特許文献1において、サブトラクト部55では、フーリエ変換部53によって得られた入力音声スペクトルSbとモータ音スペクトル記憶部54に記憶されているモータ音スペクトルScに基づいて、雑音成分を除去する処理が行われている。つまり、サブトラクト部55で使用されるモータ音スペクトルScは常に同じものであり、動画撮影中に記録される音に関する情報(周波数特性、パワーなど)は考慮されていない。そのため、実際には知覚されない機械音までも抑圧する状態となり、必要以上に所望音を劣化させる問題がある。
この発明の目的は、簡易な構成で、個体毎の機械音のバラツキによらず一定の低減効果を実現可能とすることにある。また、この発明の目的は、周囲環境に応じて、ユーザの所望音の劣化を極力抑えた上で、機械音を低減可能とすることにある。
この発明の概念は、
入力信号を所定時間長のフレームに分割してフレーム化するフレーム化部と、
上記フレーム化部で得られたフレーム化信号を周波数領域の周波数スペクトルに変換するフーリエ変換部と、
上記フーリエ変換部で得られた上記入力信号の周波数スペクトルを、機械音の周波数スペクトル情報に基づいて修正して機械音を抑圧する機械音低減部と、
上記機械音低減部で修正された周波数スペクトルを時間領域のフレーム化信号に戻す逆フーリエ変換部と、
上記逆フーリエ変換部で得られた各フレームのフレーム化信号をフレーム合成して機械音を抑圧した出力信号を得るフレーム合成部とを備え、
上記機械音低減部は、
上記フーリエ変換部で得られた上記入力信号の周波数スペクトルと上記機械音の周波数スペクトル情報に基づいて、周波数毎に、上記入力信号の周波数スペクトルと上記機械音の周波数スペクトルのパワー比を算出するパワー比算出部と、
周波数毎に、上記パワー比の各値に対応したゲインの設定値が記憶されたゲイン関数テーブルから、上記パワー比算出部で算出されたパワー比に対応したゲインを読み出すゲイン読み出し部と、
周波数毎に、上記フーリエ変換部で得られた上記入力信号の周波数スペクトルに、上記ゲイン読み出し部で読み出されたゲインを掛けて、修正された周波数スペクトルを得る周波数スペクトル修正部とを有する
機械音抑圧装置にある。
この発明において、フレーム化部により入力信号は所定時間長のフレームに分割されてフレーム化され、フーリエ変換部により、このフレーム化信号が周波数領域の周波数スペクトルに変換される。そして、機械音低減部により、入力信号の周波数スペクトルが、機械音の周波数スペクトル情報に基づいて修正される。逆フーリエ変換部により、機械音低減部で修正された周波数スペクトルが時間領域のフレーム化信号に戻される。そして、フレーム合成部により、逆フーリエ変換部で得られた各フレームのフレーム化信号がフレーム合成されて機械音が抑圧された出力信号が得られる。例えば、機械音は、周辺音記録機能を有する撮像装置において、特定の撮影動作、例えばズーム動作に関連して発生する機械音(モータ音)等である。
機械音低減部では、パワー比算出部、ゲイン読み出し部および周波数スペクトル修正部により、入力信号の周波数スペクトルが機械音の周波数スペクトルに基づいて修正される。パワー比算出部により、フーリエ変換部で得られた入力信号の周波数スペクトルと機械音の周波数スペクトル情報に基づいて、周波数毎に、入力信号の周波数スペクトルと機械音の周波数スペクトルのパワー比が算出される。
そして、ゲイン読み出し部により、周波数毎に、パワー比の各値に対応したゲインの設定値が記憶されたゲイン関数テーブルから、パワー比算出部で算出されたパワー比に対応したゲインが読み出される。そして、周波数スペクトル修正部により、周波数毎に、フーリエ変換部で得られた入力信号の周波数スペクトルに、ゲイン読み出し部で読み出されたゲインが掛けられて、修正された周波数スペクトルが得られる。
このように、この発明においては、入力信号の周波数スペクトルに、周波数毎に、パワー比の各値に対応したゲインの設定値が記憶されたゲイン関数テーブルから読み出されたゲインが掛けられることで、この入力信号の周波数スペクトルが修正されて、機械音が抑圧される。この場合、ゲイン関数テーブルに設定されるゲイン関数の形状を、機械音のバラツキに合わせて自由に設定できる。これにより、簡易な構成で、個体毎の機械音のバラツキによらず一定の低減効果を実現できる。
この発明において、例えば、ゲイン関数テーブルに記憶されたゲインの設定値は、パワー比が0dB近傍で小さくなり、このパワー比が0dB近傍から大きくなるにつれて傾きが不連続にならないように滑らかに大きくなっていく、ようにされてもよい。この場合、ゲインの値が急に変化しないので、出力信号が歪んで音質が劣化することを回避できる。
また、この発明において、例えば、ゲイン関数テーブルに記憶されたゲインの設定値は、さらに、0dB近傍から小さくなるにつれて傾きが不連続にならないように滑らかに大きくなっていく、ようにされてもよい。この場合、入力信号の周波数スペクトルの値が小さい位置でゲインが大きくされるので、この位置における機械音(ノイズ)以外の成分の抑圧を抑制でき、過剰な抑圧による音質劣化を回避できる。
また、この発明において、例えば、機械音低減部で使用する機械音の周波数スペクトル情報を、入力信号に関する情報(周波数特性、パワーなど)に基づいて変更するスペクトル情報変更部をさらに備える、ようにしてもよい。これにより、周囲環境に応じて、ユーザの所望音の劣化を極力抑えた上で、機械音を低減できる。
また、この発明の他の概念は、
入力信号を所定時間長のフレームに分割してフレーム化するフレーム化部と、
上記フレーム化部で得られたフレーム化信号を周波数領域の周波数スペクトルに変換するフーリエ変換部と、
上記フーリエ変換部で得られた上記入力信号の周波数スペクトルを、機械音の周波数スペクトル情報に基づいて修正して機械音を抑圧する機械音低減部と、
上記機械音低減部で使用する上記機械音の周波数スペクトル情報を、上記入力信号に関する情報に基づいて変更するスペクトル情報変更部と、
上記機械音低減部で修正された周波数スペクトルを時間領域のフレーム化信号に戻す逆フーリエ変換部と、
上記逆フーリエ変換部で得られた各フレームのフレーム化信号をフレーム合成して機械音を抑圧した出力信号を得るフレーム合成部と
を備える機械音抑圧装置にある。
この発明において、フレーム化部により入力信号は所定時間長のフレームに分割されてフレーム化され、フーリエ変換部により、このフレーム化信号が周波数領域の周波数スペクトルに変換される。この入力信号の周波数スペクトルは、機械音低減部により、機械音の周波数スペクトル情報に基づいて修正される。このように修正された周波数スペクトルが、逆フーリエ変換部により、時間領域のフレーム化信号に戻される。そして、フレーム合成部により、逆フーリエ変換部で得られた各フレームのフレーム化信号がフレーム合成されて機械音が抑圧された出力信号が得られる。例えば、機械音は、周辺音記録機能を有する撮像装置において、特定の撮影動作、例えばズーム動作に関連して発生する機械音(モータ音)等である。
この発明において、機械音低減部で使用される機械音の周波数スペクトル情報は、スペクトル情報変更部により、入力信号に関する情報(周波数特性、パワーなど)に基づいて変更される。例えば、スペクトル情報変更部は、ノイズテーブルに記憶された機械音の周波数スペクトル情報を、入力信号に関する情報に基づいて補正することで、機械音低減部で使用する機械音の周波数スペクトル情報を変更する、ようにされる。
スペクトル情報変更部では、例えば、入力信号に関する情報に基づいて周辺音の特徴量を示すパラメータを算出し、この算出されたパラメータに基づいて補正係数を取得し、この取得された補正係数をノイズテーブルに記憶された機械音の周波数スペクトル情報に掛けて補正する、ようにされる。
この場合、例えば、特徴量を示すパラメータは入力信号の周波数スペクトルのスペクトル包絡を示す線形予測係数であり、スペクトル情報変更部は、スペクトル包絡を示す線形予測係数に基づいて、スペクトル包絡の山部分に対応して値が低下するように各周波数の補正係数を取得し、周波数毎に、機械音の周波数スペクトル情報に、この取得された補正係数を掛けて補正する、ようにされる。
また、この場合、例えば、特徴量パラメータは、入力信号の平均パワーであり、スペクトル情報変更部は、入力信号の平均パワーに基づいて、この平均パワーが大きいとき値が低下するように各周波数に共通の補正係数を取得し、機械音の各周波数の周波数スペクトル情報に、この取得された補正係数を掛けて補正する、ようにされる。
また、例えば、機械音の周波数スペクトル情報が記憶された複数のノイズテーブルを備え、複数のノイズテーブルには、入力信号の平均パワーが互いに異なる場合に使用する機械音の周波数スペクトル情報が記憶されており、スペクトル情報変更部は、入力信号の平均パワーに基づいて、機械音の周波数スペクトル情報を読み出すノイズテーブルを切り替えることで、機械音低減部で使用する機械音の周波数スペクトル情報を変更する、ようにされる。
このように、この発明において、機械音低減部で使用される機械音の周波数スペクトル情報は、入力信号に関する情報(周波数特性、パワーなど)に基づいて、変更されたものとされる。そのため、実際には知覚されない機械音までも抑圧する過剰な抑圧を行うことが抑制され、過剰な抑圧による所望音の劣化を回避できる。つまり、周囲環境に応じて、ユーザの所望音の劣化を極力抑えた上で、機械音を低減できる。
この発明によれば、簡易な構成で、個体毎の機械音のバラツキによらず一定の低減効果を実現できる。また、この発明によれば、周囲環境に応じて、ユーザの所望音の劣化を極力抑えた上で、機械音を低減できる。
この発明の第1の実施の形態としての音声付き動画撮影機能を備えた撮像装置の音声系の構成例を示すブロック図である。 音声系が有する機械音低減部の構成例を示すブロック図である。 機械音低減部が有するゲイン関数テーブルに記憶されているゲイン関数G(f,τ)の一例を示す図である。 機械音のばらつきに応じて0dB近傍のゲインが低下部分の幅が変更されることを説明するための図である。 多台数の機械音を事前に測定し、特性のばらつき(スペクトルの分散)を元に、ゲイン関数テーブルに記憶されるゲイン関数G(f,τ)を設定する設定方法を説明するための図である。 多台数の機械音を事前に測定し、特性のばらつき(スペクトルの分散)を元に、ゲイン関数テーブルに記憶されるゲイン関数G(f,τ)を設定する設定方法を説明するための図である。 ゲイン関数テーブルに記憶されているゲイン関数G(f,τ)において、パワー比が0dB前後でゲイン変化が滑らかにされていることを説明するための図である。 ゲイン関数テーブルに記憶されているゲイン関数G(f,τ)において、パワー比が0dB近傍から小さくなるにつれてゲインが滑らかに大きくされていることを説明するための図である。 機械音低減部における機械音抑圧処理の手順の一例を示すフローチャートである。 機械音低減部のゲイン関数テーブルに設定されるゲイン関数G(f,τ)の他の例を説明するための図である。 この発明の第2の実施の形態としての音声付き動画撮影機能を備えた撮像装置の音声系の構成例を示すブロック図である。 音声系が有するノイズテーブル補正部の構成例を示すブロック図である。 ノイズテーブル補正部の処理手順の一例を示すフローチャートである。 聴覚的マスキング現象における雑音しきい値とスペクトル包絡の関係を示す図である。 周波数領域によっては雑音が残っていても知覚しにくい部分があることを説明するための図である。 機械音低減部の演算部において、入力信号の周波数スペクトルの平均スペクトルから平均スペクトル包絡を算出し、この平均スペクトル包絡から補正係数を算出することを説明するための図である。 ノイズテーブルに記憶されている機械音の周波数スペクトル情報|N(f,τ)|2と、周波数毎に補正係数で補正された後の機械音の周波数スペクトル情報|N’(f,τ)|2の一例を示す図である。 スペクトル包絡(線形予測フィルタ)F(z)の周波数特性と、その周波数特性に修正を加えたK(z)の周波数特性の一例を示す図である。 H(z)=K(z)/F(z)の周波数特性の一例を示す図である。 周波数毎の補正係数を取得して補正する場合における、ノイズテーブル補正部の詳細な処理手順の一例を示すフローチャートである。 ズーム音のみがマイクロホンで集音される場合の、ズーム音とAGCの関係の一例を示す図である。 ズーム音と小さめの周辺音(環境音)がマイクロホンで集音される場合の、ズーム音とAGCの関係の一例を示す図である。 ズーム音と、かなり大きい周辺音(環境音)がマイクロホンで集音される場合の、ズーム音とAGCの関係の一例を示す図である。 テンプレート(ノイズテーブル)に持つズーム音をそのまま使用してズーム音を抑圧した場合の不都合を説明するための図である。 各周波数に共通な補正係数を取得して補正する場合における、ノイズテーブル補正部の詳細な処理手順の一例を示すフローチャートである。 平均パワーPと補正係数Cとの対応関係を示すテーブルの一例を示す図である。 平均パワーPと補正係数Cとの対応関係を示すテーブルの作成方法を説明するための装置例を示す図である。 平均パワーPと補正係数Cとの対応関係を示すテーブルの作成方法を説明するための、内部マイクおよび外部マイクの音声収録部の構成を示す図である。 平均パワーPと補正係数Cとの対応関係を示すテーブルの作成方法を説明するための図である。 平均パワーPと補正係数Cとの対応関係を示すテーブルの作成方法を説明するための図である。 平均パワーPと補正係数Cとの対応関係を示すテーブルの作成方法を説明するための図である。 平均パワーPと補正係数Cとの対応関係を示すテーブルの作成方法を説明するための図である。 この発明の第3の実施の形態としての音声付き動画撮影機能を備えた撮像装置の音声系の構成例を示すブロック図である。 音声系が有するノイズテーブル切り替え部の構成例を示すブロック図である。 ノイズテーブル切り替え部の詳細な処理手順の一例を示すフローチャートである。 音声抑圧処理をソフトウェアで行うコンピュータ装置の構成例を示す図である。 従来の雑音除去機能を備えた音声記録装置の構成例を示すブロック図である。 スペクトルサブトラクション法を説明するための図である。 スペクトルサブトラクション法のイメージ図であって、結果が正しく得られる場合を示す図である。 スペクトルサブトラクション法のイメージ図であって、結果が誤って得られる場合を示す図である。 セットA〜Cの3台の音声付き動画撮影機能を持つ撮像装置で実際に録音したズーム音(機械音)の周波数スペクトルを示す図である。 減算系のスペクトルサブトラクションを乗算系で示した場合におけるゲイン関数G(f,τ)の挙動をプロットした図である。 サブトラクト係数α=1,2,3のそれぞれにおけるゲイン関数G(f,τ)の挙動をプロットした図である。 サブトラクト係数αを変化させても、パワー比の変化に対応したゲイン(gain)の変化形態は変わらないことによる不都合を説明するための図である。 スペクトルサブトラクション法を用いた機械音抑圧において、パワー比が0dBのところでゲインの値が急に変化することによる不都合を説明するための図である。 スペクトルサブトラクション法を用いた機械音抑圧において、パワー比が0dBの0dBより小さなところではゲインが一定とされることによる不都合を説明するための図である。
以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
1.第1の実施の形態
2.第2の実施の形態
3.第3の実施の形態
4.変形例
<1.第1の実施の形態>
[音声付き動画撮影機能を備えた撮像装置の音声系]
図1は、第1の実施の形態としての音声付き動画撮影機能を備えた撮像装置の音声系100の構成例を示している。この音声系100は、マイクロホン101と、A/D変換器102と、AGC(Automatic Gain Control)回路103と、フレーム分割部104と、フーリエ変換部105を有している。また、この音声系100は、機械音低減部106と、ノイズテーブル107と、スペクトル切り替え部108と、逆フーリエ変換部109と、波形合成部110と、記録部111を有している。
音声系100の動作は、撮像装置の各部の動作を制御する制御部201により制御される。この制御部201にはキー入力部202が接続されている。このキー入力部202には、ユーザが撮像装置における種々の操作を行うためのキーが配置されている。モータ203は、ズームレンズを光軸方向に移動させるためのモータである。モータ駆動部204は、モータ203を回転駆動させるための駆動機構である。制御部201は、キー入力部202に含まれるズームキーの操作信号を受けて、モータ駆動制御信号をモータ駆動部204に出力する。また、制御部201は、音声付き動画撮影中にモータ203の駆動タイミングに基づいて、スペクトル切り替え部108を制御する。
マイクロホン(内部マイク)101は、撮像装置に内蔵されており、周辺音(環境音)を集音して音声信号を得る。動画撮影時には、このマイクロホン101から得られる音声信号が画像信号と共に記録される。A/D変換器102は、マイクロホン101から得られる音声信号を、アナログ信号からデジタル信号に変換する。AGC回路103は、A/D変換器102でデジタル信号に変換された音声信号を、そのレベルに応じたゲインで増幅する。
フレーム分割部104は、AGC回路103から得られた音声信号を、フレーム毎の処理を行うために、所定時間長のフレームに分割して、フレーム化する。フーリエ変換部105は、フレーム分割部104で得られたフレーム信号に対して、高速フーリエ変換(FFT:Fast Fourier transform)処理を施し、周波数領域の周波数スペクトルX(f,τ)に変換する。ここで、(f,τ)は、f番目の周波数のフレームτの周波数スペクトルであることを示している。
ノイズテーブル107には、予め収録された機械音の周波数スペクトル情報が記憶されている。この機械音の周波数スペクトル情報は、モータ203に対応したモータの駆動音の周波数スペクトル情報である。この実施の形態において、周波数スペクトル情報はパワースペクトル|N(f,τ)|であるが、振幅スペクトル|N(f,τ)|、あるいは周波数スペクトルN(f,τ)であってもよい。なお、テレ方向およびワイド方向のズーム操作時のそれぞれでモータ203が発生する駆動音が異なる。そのため、ノイズテーブル107には、機械音の周波数スペクトル情報として、テレ方向およびワイド方向のズーム操作時のそれぞれに対応したものが記録されている。
機械音低減部106は、ノイズテーブル107に記憶されている機械音の周波数スペクトル情報に基づき、フーリエ変換部105で得られた周波数スペクトルX(f,τ)を、機械音の周波数スペクトル情報|N(f,τ)|に基づいて修正して、機械音を抑圧する。この機械音低減部106は、(4)式に示すように、周波数スペクトルX(f,τ)に、ゲイン関数G(f,τ)を掛けることで、修正された周波数スペクトルY(f,τ)を得る。
Figure 2012032648
この場合、機械音低減部106は、制御部201からのズーム制御情報(ズーム有無、方向)に基づいて、機械音低減処理を行う。機械音低減部106は、ズーム操作時、つまりモータ203の駆動時に機械音低減処理を行う。また、機械音低減部106は、テレ方向およびワイド方向のズーム操作時に、それぞれの方向に対応した機械音の周波数スペクトル情報|N(f,τ)|をノイズテーブル107から読み出して用いる。
図2は、機械音低減部106の構成例を示している。この機械音低減部106は、ゲイン関数テーブル121と、パワー比算出部122と、周波数スペクトル修正部123を有している。
ゲイン関数テーブル121は、予め設定されたゲイン関数G(f,τ)((4)式参照)が記憶されている。すなわち、このゲイン関数テーブル121には、入力信号のパワー|X(f,τ)|と機械音のパワー|N(f,τ)|の比の各値に対応したゲインの設定値が記憶されている。
ゲイン関数テーブル121に記憶されるゲイン関数G(f,τ)は、上述の(3)式に示すゲイン関数G(f,τ)(図42参照)とは異なって、機械音のバラツキを考慮しつつ、音質が良い出力が得られるように、任意の形に自由に設定される。図3は、ゲイン関数テーブル121に記憶されているゲイン関数G(f,τ)の一例を示している。この図3において、横軸はパワー比(|X(f,τ)|/|N(f,τ)|)のdB値であり、縦軸はゲイン(gain)である。
機械音のばらつきは、入力信号の周波数スペクトルX(f,τ)の大きさに影響する。そのため、ゲイン関数G(f,τ)の形が重要である。機械音のばらつきの特性は様々であるため、それに適したゲイン関数G(f,τ)を設定することにより、品質の良い出力を得ることができる。上述の(3)式に示すゲイン関数G(f,τ)では、サブトラクト係数αの変更による左右シフトしかできないが、ゲイン関数テーブル121に記憶されるゲイン関数G(f,τ)を任意の形に自由に設定できる。
図3のゲイン関数G(f,τ)の一例においては、全体として、パワー比(X(f,τ)|/|N(f,τ)|)が0dB近傍でゲインが低下する曲線形状とされている。この場合、機械音のばらつきに応じて、図4に破線枠で囲んだ箇所が変更される。すなわち、ばらつきが大きい場合には幅が広くされ、ばらつきが小さい場合には幅が狭くされる。
ゲイン関数テーブル121に記憶されるゲイン関数G(f,τ)の設定方法について説明する。設定方法には、例えば、以下の2つの方法がある。
(1)設計者が、聴感的にゲイン関数G(f,τ)をチューニングする設定方法である。この設定方法にあっては、設定時の手間はかかるが、ばらつきを考慮した品質の良いゲイン関数G(f,τ)を決定できる。
(2)多台数の機械音を事前に測定し、特性のばらつき(スペクトルの分散)を元にゲイン関数G(f,τ)を設定する設定方法である。この設定方法にあっては、データに基づいたゲイン関数G(f,τ)を決定できる。
(2)の設定方法においては、例えば、|X(f,τ)|/|N(f,τ)|の分散が算出され、その概形を反転させたものがゲイン関数G(f,τ)とされる。図5(a)は、|X(f,τ)|/|N(f,τ)|の分散が小さい場合、つまりばらつきが小さい場合を示している。その場合、ゲイン関数G(f,τ)は図5(b)に示すように設定され、谷部分の幅が狭いものとなる。一方、図6(a)は、|X(f,τ)|/|N(f,τ)|の分散が大きい場合、つまりばらつきが大きい場合を示している。その場合、ゲイン関数G(f,τ)は図6(b)に示すように設定され、谷部分の幅が広いものとなる。
また、図3のゲイン関数例においては、上述の(3)式に示すゲイン関数G(f,τ)(図42参照)とは異なって、図7に破線枠で囲んで示すように、パワー比|X(f,τ)|/|N(f,τ)|が0dB前後でゲインの変化が滑らかにされている。この場合、パワー比が0dB近傍から大きくなるにつれて傾きが不連続にならないように、ゲインの設定値が滑らかに大きくなっていく。このようにゲイン関数G(f,τ)が設定されることで、パワー比|X(f,τ)|/|N(f,τ)|の変化に伴ってゲインの値が急に変化するということがなく、出力信号が歪んで音質が劣化することが回避される。
また、図3のゲイン関数例においては、図8に破線枠で囲んで示すように、パワー比|X(f,τ)|/|N(f,τ)|が0dB近傍から小さくなるにつれてゲインが滑らかに大きくされている。これは、上述の(3)式に示す従来例のゲイン関数G(f,τ)(図42参照)とは異なる。従来例においては、|X(f,τ)|<|N(f,τ)|のとき、減算後の周波数スペクトルが負となるため、適当な値(β)を設定していた。しかし、これを行うと、もともとX(f,τ)の値が小さいところをさらに抑圧してしまい、機械音以外の成分も抑圧される。パワー比|X(f,τ)|/|N(f,τ)|が0dB近傍から小さくなるにつれてゲインが滑らかに大きくなるように設定されることで、過剰な抑圧による音質劣化を避けることができる。
図2に戻って、パワー比算出部122は、周波数毎に、入力信号の周波数スペクトル(入力信号スペクトル)と機械音の周波数スペクトル(機械音スペクトル)のパワー比|X(f,τ)|/|N(f,τ)|を算出する。この場合、パワー比算出部122は、フーリエ変換部105で得られた入力信号の周波数スペクトルX(f,τ)と、ノイズテーブル107に記憶されている機械音の周波数スペクトル情報|N(f,τ)|に基づいて算出する。
周波数スペクトル修正部123は、周波数毎に、フーリエ変換部105で得られた入力信号の周波数スペクトルX(f,τ)に、ゲインG(f,τ)を掛けて、修正された周波数スペクトルY(f,τ)を得る。なお、このゲインゲインG(f,τ)は、パワー比算出部122で算出されたパワー比|X(f,τ)|/|N(f,τ)|に基づいて、ゲインテーブル関数テーブル121から読み出される。このことから、機械音低減部106は、図示していないが、ゲイン読み出し部も有している。
図9のフローチャートは、図2に示す機械音低減部106の処理手順の一例を示している。なお、このフローチャートは、フレームτの周波数fの周波数スペクトルX(f,τ)を修正する処理手順を示しており、他の周波数スペクトルの修正に関しても同様の手順で行われる。
機械音低減部106は、ステップST1において、処理を開始し、その後に、ステップST2の処理に移る。このステップST2において、機械音低減部106は、フーリエ変換部105から入力信号として、フレームτの周波数fの周波数スペクトルX(f,τ)を取得する。また、機械音低減部106は、ステップST3において、ノイズテーブル107から、周波数fに対応した機械音スペクトル情報としてのパワースペクトル|N(f,τ)|を取得する。
次に、機械音低減部106は、ステップST4において、パワー比算出部122で、入力信号スペクトルと機械音スペクトルのパワー比|X(f,τ)|/|N(f,τ)|を算出する。そして、機械音低減部106は、ステップST5において、この算出されたパワー比に基づいて、このパワー比に対応したゲインG(f,τ)を、ゲイン関数テーブル121から読み出して取得する。
次に、機械音低減部106は、ステップST6において、周波数スペクトル修正部123で、入力信号としての周波数スペクトルX(f,τ)にゲインG(f,τ)を掛けて、出力信号としての、修正された周波数スペクトルY(f,τ)を得る。機械音低減部106は、ステップST6の処理の後、ステップST7において、処理を終了する。
図1に戻って、スペクトル切り替え部108は、フーリエ変換部105で得られた周波数スペクトルX(f,τ)、あるいは機械音低減部106で得られた修正された周波数スペクトルY(f,τ)のいずれかを選択的に出力する。このスペクトル切り替え部108の切り替え動作は、制御部201により制御される。この場合、スペクトル切り替え部108は、ズーム動作中でないとき、周波数スペクトルX(f,τ)を出力する。一方、スペクトル切り替え部108は、ズーム動作中であるとき、つまりモータ203から駆動音(機械音)が発生している状態では、修正された周波数スペクトルY(f,τ)を出力する。
逆フーリエ変換部109は、フレーム毎に、スペクトル切り替え部108から出力される周波数スペクトルに対して、逆高速フーリエ変換(IFFT:Inverse Fast Fourier transform)処理を施す。この逆高速フーリエ変換部109は、上述のフーリエ変換部105とは逆の処理を行い、周波数領域信号を時間領域信号に変換して、フレーム化信号を得る。
波形合成部110は、逆フーリエ変換部109によって得られる各フレームのフレーム信号を合成して、時系列的に連続した音声信号に復元する。この波形合成部110は、フレーム合成部を構成している。記録部111は、波形合成部110で得られる音声信号を、ディスクあるいはメモリ等の記録媒体に、例えば、画像系で得られる画像信号と共に記録する。
図1に示す音声付き動画撮影機能を備えた撮像装置の音声系100における動画撮影中の動作を簡単に説明する。マイクロホン101では周辺音が集音されて音声信号が得られる。この音声信号は、A/D変換器102でアナログ信号からデジタル信号に変換され、さらにAGC回路103を介してフレーム分割部104に供給される。フレーム分割部104では、AGC回路103から出力音声信号が、フレーム毎の処理を行うために、所定時間長のフレームに分割されて、フレーム化される。
フレーム分割部104で得られる各フレームのフレーム化信号は、フーリエ変換部105に順次供給される。フーリエ変換部105では、フレーム信号に対して、高速フーリエ変換(FFT)処理が施されて、周波数領域の周波数スペクトルX(f,τ)に変換される。この周波数スペクトルX(f,τ)は、スペクトル切り替え部108および機械音低減部106に供給される。
機械音低減部106では、制御部201からのズーム制御情報(ズーム有無、方向)に基づいて、ズーム動作中には、機械音低減処理が行われる。この場合、機械音低減部106では、周波数スペクトルX(f,τ)にゲイン関数G(f,τ)が掛けられて、機械音(モータ203の駆動音)を抑圧するように修正された周波数スペクトルY(f,τ)が得られる。この周波数スペクトルY(f,τ)は、スペクトル切り替え部108に供給される。
ズーム動作中でないとき、スペクトル切り替え部108では、フーリエ変換部105から供給される周波数スペクトルX(f,τ)が選択される。このとき、モータ203は駆動しておらず、周波数スペクトルX(f,τ)は、機械音(モータ203の駆動音)の成分を含んでいないからである。一方、ズーム動作中であるとき、スペクトル切り替え部108では、機械音低減部106で得られた、機械音(モータ203の駆動音)を抑圧するように修正された周波数スペクトルY(f,τ)が選択される。
スペクトル切り替え部108からの周波数スペクトルX(f,τ)、あるいは修正周波数スペクトルY(f,τ)は、逆フーリエ変換部109に供給される。この逆フーリエ変換部109では、フレーム毎に、スペクトル切り替え部108から出力される周波数スペクトルに対して、逆高速フーリエ変換(IFFT)処理が施されて、時間領域のフレーム化信号に戻される。
このフレーム化信号は、波形合成部110に供給される。この波形合成部110では、各フレームのフレーム信号が合成されて、時系列的に連続した音声信号に復元される。この音声信号は、記録部111に供給される。記録部111では、波形合成部110から供給される音声信号が、ディスクあるいはメモリ等の記録媒体に、例えば、画像系で得られる画像信号と共に記録される。
上述したように、図1に示す音声付き動画撮影機能を備えた撮像装置の音声系100においては、ズーム動作中であるとき、機械音低減部106で機械音低減処理が行われる。また、この音声系100においては、ズーム動作中であるとき、スペクトル切り替え部108では機械音(モータ203の駆動音)を抑圧するように修正された周波数スペクトルY(f,τ)が選択される。そのため、ズーム動作中であるとき、機械音(モータ203の駆動音)が抑圧された音声信号を記録することができる。
また、図1に示す音声系100において、機械音低減部106では、入力信号の周波数スペクトルX(f,τ)に、周波数毎に、ゲイン関数テーブル121から読み出されたゲインが掛けられることで、周波数スペクトルの修正が行われる。この場合、ゲイン関数テーブル121に記憶されるゲイン関数G(f,τ)としては、任意の形に自由に設定できる。すなわち、機械音のばらつきの特性は様々であるが、それに適したゲイン関数G(f,τ)をゲイン関数テーブル121に設定できる。これにより、簡易な構成で、個体毎の機械音のバラツキによらず一定の低減効果を実現でき、品質の良い出力を得ることができる。
また、図1に示す音声系100において、ゲイン関数テーブル121に設定されるゲイン関数G(f,τ)を、パワー比|X(f,τ)|/|N(f,τ)|が0dB前後でゲインの変化が滑らかとなるようにできる(図3参照)。これにより、パワー比の変化に伴ってゲインの値が急に変化するということがなく、出力信号が歪んで音質が劣化することを回避できる。
また、図1に示す音声系100において、ゲイン関数テーブル121に設定されるゲイン関数G(f,τ)を、パワー比|X(f,τ)|/|N(f,τ)|が0dB近傍から小さくなるにつれてゲインが滑らかに大きくなるようにできる(図3参照)。これにより、もともとX(f,τ)の値が小さいところを大きく抑圧することが回避され、過剰な抑圧による音質劣化を避けることができる。
なお、上述では、機械音低減部106のゲイン関数テーブル121に設定されるゲイン関数G(f,τ)として、全体として、パワー比(X(f,τ)|/|N(f,τ)|)が0dB近傍でゲインが低下する曲線形状である例を示した(図3参照)。このゲイン関数G(f,τ)は、上述したように、パワー比|X(f,τ)|/|N(f,τ)|が0dB近傍から小さくなるにつれてゲインが滑らかに大きくされている。
しかし、機械音低減部106のゲイン関数テーブル121に設定されるゲイン関数G(f,τ)としては、その他の形状である例も考えられる。例えば、図10に示すように、パワー比|X(f,τ)|/|N(f,τ)|が0dBより小さくなるとき、つまり|X(f,τ)|<|N(f,τ)|のとき、従来例と同様に、ゲインが一定値となるものも考えられる。
<2.第2の実施の形態>
[音声付き動画撮影機能を備えた撮像装置の音声系]
図11は、第2の実施の形態としての音声付き動画撮影機能を備えた撮像装置の音声系100Aの構成例を示している。この図11において、図1と対応する部分には、同一符号を付し、適宜、その詳細説明を省略する。
この音声系100Aは、マイクロホン101と、A/D変換器102と、AGC回路103と、フレーム分割部104と、フーリエ変換部105を有している。また、この音声系100Aは、機械音低減部106と、ノイズテーブル107と、ノイズテーブル補正部112と、スペクトル切り替え部108と、逆フーリエ変換部109と、波形合成部110と、記録部111を有している。
ノイズテーブル補正部112は、ノイズテーブル107に記憶された機械音の周波数スペクトル情報|N(f,τ)|を補正することで、機械音低減部106で使用する機械音の周波数スペクトル情報を変更する。この場合、ノイズテーブル補正部112は、フーリエ変換部105で得られた入力信号の周波数スペクトルX(f,τ)に基づいて補正を行う。このノイズテーブル補正部112は、スペクトル情報変更部を構成している。
ノイズテーブル補正部112は、マスキング特性を利用したスペクトル補正を行う。ノイズテーブル補正部112は、入力信号の周波数スペクトルX(f,τ)に基づいて周辺音の特徴量を示すパラメータを算出し、このパラメータに基づいて補正係数を取得し、この補正係数を、機械音の周波数スペクトル情報|N(f,τ)|に掛けて補正する。
この場合、ノイズテーブル補正部112は、制御部201からのズーム制御情報(ズーム有無、方向)に基づいて、ノイズテーブル補正処理を行う。ノイズテーブル補正部112は、ズーム操作時、つまりモータ203の駆動時に、ノイズテーブル補正処理を行う。また、ノイズテーブル補正部112は、テレ方向およびワイド方向のズーム操作時に、それぞれの方向に対応した機械音の周波数スペクトル情報|N(f,τ)|をノイズテーブル107から読み出して補正する。
図12は、ノイズテーブル補正部112の構成例を示している。このノイズテーブル補正部112は、演算部131と、保持部132と、補正部133と、通知部134を有している。演算部131は、入力信号の周波数スペクトルX(f,τ)に基づいて周辺音の特徴量を示すパラメータを算出し、このパラメータに基づいて補正係数を取得する。この演算部131は、周波数毎の補正係数、あるいは各周波数に共通の補正係数を取得する。
周波数毎の補正係数を取得する場合、特徴量を示すパラメータは、例えば、スペクトル包絡を示す線形予測係数とされる。この場合、演算部131は、入力信号の周波数スペクトルX(f,τ)に基づいて、スペクトル包絡を示す線形予測係数を求め、このスペクトル包絡の山部分に対応して値が低下するように各周波数の補正係数を取得する。演算部131で周波数毎の補正係数を取得する場合の詳細については後述する。
また、各周波数に共通の補正係数を取得する場合、特徴量を示すパラメータは、例えば、入力信号の周波数スペクトルX(f,τ)の平均パワーとされる。この場合、演算部131は、入力信号の周波数スペクトルX(f,τ)に基づいて、平均パワーを求め、この平均パワーが大きいとき値が低下するように各周波数に共通の補正係数を取得する。演算部131で各周波数に共通の補正係数を取得する場合の詳細については後述する。
保持部132は、演算部131における演算処理で必要なデータ、あるいは、演算結果としての補正係数などを保持する。補正部133は、ノイズテーブル107から読み出した機械音の周波数スペクトル情報|N(f,τ)|を、保持部132に保持されている補正係数を掛けることで補正する。通知部134は、補正部133で補正された機械音の周波数スペクトル情報|N’(f,τ)|を、機械音低減部106に通知する。図1に示す音声系106の機械音低減部106は、機械音の周波数スペクトル情報|N(f,τ)|を使用するが、図11に示す音声系の機械音低減部106は、補正された機械音の周波数スペクトル情報|N‘(f,τ)|を使用する。
図13のフローチャートは、ノイズテーブル補正部112の処理手順の一例を示している。ノイズテーブル補正部112は、ステップST11において、処理を開始し、その後に、ステップST12の処理に移る。このステップST12において、ノイズテーブル補正部112は、フーリエ変換部105から、所定時間分の入力信号の周波数スペクトルX(f,τ)を取得する。
次に、ノイズテーブル補正部112は、ステップST13において、演算部131で、ステップST12で取得された所定時間分の入力信号の周波数スペクトルX(f,τ)から、周辺音の特徴量を示すパラメータを求める。このパラメータは、上述したように、スペクトル包絡を示す線形予測係数、あるいは、平均パワーなどである。
次に、ノイズテーブル補正部112は、ステップST14において、ステップST13で算出されたパラメータに基づいて、補正係数を取得する。この場合、パラメータがスペクトル包絡を示す線形予測係数であるときには周波数毎の補正係数が取得され、パラメータが平均パワーであるときには各周波数に共通の補正係数が取得される。
次に、ノイズテーブル補正部112は、ステップST15において、補正部133で、ノイズテーブル107から機械音の周波数スペクトル情報|N(f,τ)|を読み出し、ステップST14で取得した補正係数を掛けて補正する。これにより、ノイズテーブル補正部112は、このステップST15において、補正後の機械音の周波数スペクトル情報|N’(f,τ)|を得る。
次に、ノイズテーブル補正部112は、ステップST16において、通知部134で、補正後の機械音の周波数スペクトル情報|N’(f,τ)|を、機械音低減部106に通知する。ノイズテーブル補正部112は、このステップST16の処理の後、ステップST12の処理に戻り、上述した処理手順を繰り返す。つまり、ノイズテーブル補正部112から機械音低減部106に通知される補正後の機械音の周波数スペクトル情報|N’(f,τ)|は、入力信号の周波数スペクトルX(f,τ)に基づいて、順次更新されていく。
[周波数毎の補正係数を取得して補正する場合]
ノイズテーブル補正部112において、演算部131で周波数毎の補正係数を取得して補正する場合について説明する。図14は、聴覚的マスキング現象における雑音しきい値とスペクトル包絡の関係を示している(古井貞煕著、近代科学社、「新音響・音声工学」P149参照)。
この図14において、曲線aは周波数スペクトル(スペクトル微細構造)を示し、曲線bはスペクトル包絡を示し、さらに、曲線cは雑音しきい値を示している。雑音しきい値は、それ以下に抑えれば雑音が人間に知覚されないという振幅を表している。つまり、雑音は、雑音しきい値より大きな振幅でないと、人間には聞こえない。そのため、入力信号の周波数スペクトルの振幅が大きい領域では、雑音をあまり抑圧しなくてもよいことになる。
図15に示すハッチング部分などは、他のところに比べて、たとえ雑音(機械音)が残っていても知覚しにくい部分になる。機械音(モータ203の駆動音)の全てを消す必要はなく、入力信号の特性に応じて、周波数毎にどの程度抑圧(低減)するべきかが変わる。機械音の抑圧程度を入力信号の特性に応じて抑制することで、実際には知覚されない機械音まで消そうすることに起因する所望音の劣化を抑えることができる。
ノイズテーブル補正部112の演算部131は、周波数毎の補正係数を取得するために、まず、入力信号の周波数スペクトルX(f,τ)に基づいて、長時間、例えば1〜2秒の平均スペクトルを算出する。次に、演算部131は、この平均スペクトルから、平均スペクトル包絡を算出し、この平均スペクトル包絡から補正係数を算出する。図16(a)の曲線aは平均スペクトルの一例を示し、図16(a)の曲線bは平均スペクトル包絡の一例を示し、さらに、図16(b)の曲線cは補正係数の一例を示している。
図17の曲線aは、ノイズテーブル107に記憶されている機械音の周波数スペクトル情報|N(f,τ)|の一例を示している。そして、図17の曲線bは、その周波数スペクトル情報|N(f,τ)|を、周波数毎に、図16(b)の曲線cで示される補正係数で補正された後の機械音の周波数スペクトル情報|N’(f,τ)|の一例を示している。
ここで、スペクトル包絡(線形予測フィルタ)F(z)の周波数特性は、(5)式で表される。この式において、A(z)は逆フィルタと呼ばれる(古井貞煕著、近代科学社、「新音響・音声工学」P126−127参照)。
Figure 2012032648
スペクトル包絡から補正係数を求める場合、例えば、上述のF(z)の周波数特性に修正を加えた、(6)式で表されるK(z)の周波数特性が算出される。この(6)式において、λは0<λ≦1を満たす値である。λが1に近いほど、平坦な補正係数を得ることができる。
Figure 2012032648
そして、(7)式で表されるH(z)=K(z)/F(z)の周波数特性、つまり補正係数の周波数特性が算出される。このH(z)は、スペクトル包絡のピーク周波数周辺に谷を持つフィルタとなる。
Figure 2012032648
図18の曲線aはF(z)の周波数特性の一例を示し、図18の曲線bはK(z)の周波数特性の一例を示している。そして、図19の曲線cはH(z)の周波数特性の一例を示している。
図20のフローチャートは、周波数毎の補正係数を取得して補正する場合における、ノイズテーブル補正部112の詳細な処理手順の一例を示している。ノイズテーブル補正部112は、ステップST21において、処理を開始し、その後に、ステップST22の処理に移る。このステップST22において、ノイズテーブル補正部112は、フーリエ変換部105から、入力信号の周波数スペクトルX(f,τ)を取得する。
次に、ノイズテーブル補正部112は、ステップST23において、制御部201からの制御情報に基づいて、ズーム操作が行われているか否かを判断する。ノイズテーブル補正部112は、ズーム操作が行われていない場合に、モータ203の駆動音(機械音)の成分が含まれていない入力信号の周波数スペクトルX(f,τ)に基づいて、補正係数を算出する。そのため、ズーム操作が行われていないとき、ノイズテーブル補正部112は、補正係数を算出するため、ステップST24の処理に移る。
このステップST24において、ノイズテーブル補正部112は、前回補正係数を算出してから一定期間が経過したか否かを判断する。一定期間が経過していないとき、ノイズテーブル補正部112は、補正係数を算出することなく、直ちに、ステップST22の処理に戻る。一方、一定期間が経過しているとき、ノイズテーブル補正部112は、ステップST25の処理に移る。
このステップST25において、ノイズテーブル補正部112は、過去所定時間(T秒)において、ズーム操作が行われなかったか否かを判断する。ノイズテーブル補正部112は、過去所定時間で得られる所定フレーム分の入力信号の周波数スペクトルX(f,τ)に基づいて補正係数を算出するからである。例えば、T秒は、1〜2秒である。過去所定時間にズーム操作が行われていたとき、ノイズテーブル補正部112は、補正係数を算出することなく、直ちに、ステップST22の処理に戻る。一方、過去所定時間にズーム操作が行われていなかったとき、ノイズテーブル補正部112は、ステップST26の処理に移る。
このステップST26において、ノイズテーブル補正部112は、過去所定時間における所定フレーム分の入力信号の周波数スペクトルX(f,τ)の平均スペクトルを求め、さらにそのスペクトル包絡の線形予測係数αiを算出する((5)式参照)。そして、ノイズテーブル補正部112は、ステップST27において、H(z)=K(z)/F(z)の周波数特性、つまり補正係数の周波数特性を算出する((7)式参照)。
次に、ノイズテーブル補正部112は、ステップST28において、ステップST27で算出されたH(z)=K(z)/F(z)の周波数特性から、周波数毎の補正係数H(k)(k=1,2,・・・,L)を算出して、保持部132に保持する。ここで、「k」は周波数を示すインデックスである。ノイズテーブル補正部112は、ステップST28の処理の後、ステップST22の処理に戻る。
ノイズテーブル補正部112は、ズーム操作が行われているとき、ノイズテーブル107から機械音の周波数スペクトル情報を読み出し、補正後の機械音の周波数スペクトル情報を機械音低減部106に通知する。そのため、ステップST23でズーム操作が行われていないとき、ノイズテーブル補正部112は、ステップST29の処理に移る。
このステップST29において、ノイズテーブル補正部112は、制御部201からの制御情報に基づいて、ノイズテーブル107からズーム方向に対応した機械音の各周波数の周波数スペクトル情報Ntable(k)(k=1,2,・・・,L)を読み出す。そして、ノイズテーブル補正部112は、ステップST30において、保持部132に保持されている周波数毎の補正係数H(k)(k=1,2,・・・,L)を読み出す。
次に、ノイズテーブル補正部112は、ステップST31において、周波数毎に、機械音の周波数スペクトル情報Ntable(k)に補正係数H(k)を掛けて、補正を行う。この補正により、補正後の機械音の周波数スペクトル情報Ncomp(k)=H(k)・Ntable(k)(k=1,2,・・・,L)が得られる。そして、ノイズテーブル補正部112は、ステップST32において、機械音低減部106に、補正後の機械音の周波数スペクトル情報Ncomp(k)(k=1,2,・・・,L)を通知する。ノイズテーブル補正部112は、ステップST32の処理の後、ステップST22の処理に戻る。
ズーム操作中に機械音低減部106に通知される補正後の機械音の周波数スペクトル情報Ncomp(k)(k=1,2,・・・,L)が変動すると、出力音声も同様に変動するので、好ましくない。そのため、上述の図20のフローチャートに沿ったノイズテーブル補正部112の処理手順では、ズーム操作中に、補正係数H(k)(k=1,2,・・・,L)の変更が行われないようにされている。
[各周波数に共通の補正係数を取得して補正する場合]
ノイズテーブル補正部112において、演算部131で各周波数に共通の補正係数を取得して補正する場合について説明する。この補正処理は、例えば、AGC回路により、録音レベルが圧縮され、実際より小さく機械音が観測される場合に適用することができる。
AGC回路の役割は、音源の配置、大きさなど、収録対象に依存せず、なるべく一定の音量レベルを保つことにある。そのため、AGC回路は、小さいレベルの音でも拾えるように、入力された信号を増幅する。また、AGC回路は、大きすぎる音が入った場合、入力が飽和しないように、入力された信号を圧縮する。
図21は、機械音(以下、ズーム音(ズームモータの駆動音)とする)とAGCの関係の一例を示している。この例は、ズーム音のみがマイクロホンで集音される場合を示している。この場合、ズーム音のレベルが小さいので、このズーム音はAGC回路で一定の割合で増幅されて観測される。
図22は、ズーム音とAGCの関係の他の例を示している。この例は、ズーム音と、小さめの周辺音(環境音)がマイクロホンで集音される場合を示している。この場合、ズーム音および周辺音の双方のレベルが小さいので、これらズーム音および周辺音の双方がAGC回路で一定の割合で増幅されて観測される。
図23は、ズーム音とAGCの関係のさらに他の例を示している。この例は、ズーム音と、かなり大きい周辺音(環境音)がマイクロホンで集音される場合を示している。この場合、周辺音のレベルがかなり大きいので、この周辺音は圧縮されて観測される。そして、これに伴って、もともとレベルの小さなズーム音も小さく圧縮されて観測される。
上述したように、AGCのために、周辺音(環境音)によって、ズーム音は、単体で観測される場合(図21参照)に比べて、圧縮されて観測されること(図23参照)がある。このような場合、図24に示すように、テンプレート(ノイズテーブル)に持つズーム音レベルより小さいレベルでズーム音が観測される。そのため、テンプレート(ノイズテーブル)に持つズーム音をそのまま使用してズーム音を抑圧した場合、必要以上にズーム音を低減してしまうため、所望音が劣化する。
この場合、周波数全体のレベルが下がる傾向がある。そのため、スペクトル形状ではなく、レベルを表す特徴量を算出して、全体に均一な補正を行う。ここでは、入力信号の周波数スペクトルX(f,τ)に基づいて、平均パワーを求め、この平均パワーが大きいとき値が低下するように各周波数に共通の補正係数を取得して補正を行う。
図25のフローチャートは、各周波数に共通な補正係数を取得して補正する場合における、ノイズテーブル補正部112の詳細な処理手順の一例を示している。ノイズテーブル補正部112は、ステップST41において、処理を開始し、その後に、ステップST42の処理に移る。このステップST42において、ノイズテーブル補正部112は、フーリエ変換部105から、入力信号の周波数スペクトルX(f,τ)を取得する。
次に、ノイズテーブル補正部112は、ステップST43において、制御部201からの制御情報に基づいて、ズーム操作が行われているか否かを判断する。ノイズテーブル補正部112は、ズーム操作が行われていない場合に、モータ203の駆動音(機械音)の成分が含まれていない入力信号の周波数スペクトルX(f,τ)に基づいて、補正係数を算出する。そのため、ズーム操作が行われていないとき、ノイズテーブル補正部112は、補正係数を算出するため、ステップST44の処理に移る。
このステップST44において、ノイズテーブル補正部112は、前回補正係数を算出してから一定期間が経過したか否かを判断する。一定期間が経過していないとき、ノイズテーブル補正部112は、補正係数を算出することなく、直ちに、ステップST42の処理に戻る。一方、一定期間が経過しているとき、ノイズテーブル補正部112は、ステップST45の処理に移る。
このステップST45において、ノイズテーブル補正部112は、過去所定時間(T秒)において、ズーム操作が行われなかったか否かを判断する。ノイズテーブル補正部112は、過去所定時間で得られる所定数のフレームの入力信号の周波数スペクトルX(f,τ)に基づいて補正係数を算出するからである。例えば、T秒は、1〜2秒である。過去所定時間にズーム操作が行われていたとき、ノイズテーブル補正部112は、補正係数を算出することなく、直ちに、ステップST42の処理に戻る。一方、過去所定時間にズーム操作が行われていなかったとき、ノイズテーブル補正部112は、ステップST46の処理に移る。
このステップST46において、ノイズテーブル補正部112は、過去所定時間における入力信号の周波数スペクトルX(f,τ)の平均パワー(平均エネルギー)P(対数RMS P)を、(8)式により、算出する。この場合、例えば、1〜4kHzの周波数領域内の周波数の周波数スペクトルX(f,τ)のみが使用される。
Figure 2012032648
次に、ノイズテーブル補正部112は、ステップST47において、ステップST46で算出された平均パワーPを利用し、平均パワーPと補正係数Cとの対応関係を示すテーブルを参照して、各周波数共通の補正係数Cを求めて保持部132に保持する。図26は、平均パワーPと補正係数Cとの対応関係を示すテーブルの一例を示している。この作成方法については後述する。ノイズテーブル補正部112は、ステップST47の処理の後、ステップST42の処理に戻る。
ノイズテーブル補正部112は、ズーム操作が行われているとき、ノイズテーブル107から機械音の周波数スペクトル情報を読み出し、補正後の機械音の周波数スペクトル情報を機械音低減部106に通知する。そのため、ステップST43でズーム操作が行われていないとき、ノイズテーブル補正部112は、ステップST48の処理に移る。
このステップST48において、ノイズテーブル補正部112は、制御部201からの制御情報に基づいて、ノイズテーブル107からズーム方向に対応した機械音の各周波数の周波数スペクトル情報Ntable(k)(k=1,2,・・・,L)を読み出す。そして、ノイズテーブル補正部112は、ステップST49において、保持部132に保持されている各周波数に共通の補正係数Cを読み出す。
次に、ノイズテーブル補正部112は、ステップST50において、周波数毎に、機械音の周波数スペクトル情報Ntable(k)に補正係数Cを掛けて、補正を行う。この補正により、補正後の機械音の周波数スペクトル情報Ncomp(k)=C・Ntable(k)(k=1,2,・・・,L)が得られる。そして、ノイズテーブル補正部112は、ステップST51において、機械音低減部106に、補正後の機械音の周波数スペクトル情報Ncomp(k)(k=1,2,・・・,L)を通知する。ノイズテーブル補正部112は、ステップST51の処理の後、ステップST42の処理に戻る。
ズーム操作中に機械音低減部106に通知される補正後の機械音の周波数スペクトル情報Ncomp(k)(k=1,2,・・・,L)が変動すると、出力音声も同様に変動するので、好ましくない。そのため、上述の図25のフローチャートに沿ったノイズテーブル補正部112の処理手順では、ズーム操作中に、補正係数Cの変更が行われないようにされている。
[平均パワーPと補正係数Cとの対応関係を示すテーブルの作成方法]
ここで、平均パワーPと補正係数Cとの対応関係を示すテーブル(図26参照)の作成方法の一例を説明する。図27に示すように、デジタルカメラの内部マイクMaとは別に、このデジタルカメラに外部マイクMbが設置される。内部マイクMaの音声収録部に関しては、図28(a)に示すように、後段にAGC回路が設けられる。一方、外部マイクMbの音声収録部に関しては、図28(b)に示すように、後段にAGC回路の代わりに線形増幅アンプが設けられる。つまり、この外部マイクMbの音声収録部に関しては、一定の割合で増幅だけが行われる、レベル圧縮は生じないようにされる。
図27に示すように、スピーカから、例えばピンクノイズが再生される。この場合、AGC回路が増幅だけを行う信号レベルから圧縮を行うような信号レベルに渡り、様々なレベルの信号が再生される。そして、スピーカの再生レベルと、観測信号レベルがグラフにプロットされる。
図29は、グラフへのプロット例を示している。横軸は、スピーカの再生信号の平均パワーのdB値を示している。縦軸は、内部マイクMaおよび外部マイクMbの観測信号の平均パワーのdB値を示している。実線aは内部マイクMaの観測信号を示し、破線bは外部マイクMbの観測信号を示している。
破線枠AR1で囲んで示すAGCが一定の割合で増幅している領域(線形増加領域)では、内部マイクMaの観測信号も、外部マイクMbの観測信号も一定の割合で増加する。また、破線枠AR2で囲んで示すAGCのレベル圧縮が生じている領域(レベル圧縮領域)では、外部マイクMbの観測信号は線形に増加するが、内部マイクMaの観測信号は一定になっている。
線形増加領域における内部マイクMaの観測信号と外部マイクMbの観測信号の差Dは、単純にマイクおよび後段のアンプの特性差になる。そのため、この部分を補正すると、AGCのレベル圧縮が行われる場合のレベル差を見ることができる。図30は、線形増加領域における内部マイクMaの観測信号と外部マイクMbの観測信号の差Dを補正した状態を示している。
図30に基づいて、内部マイクMaの観測信号と外部マイクMbの観測信号のパワー(エネルギー)の違いを比で表現すると、図31に示すようになる。横軸は、内部マイクMaの平均パワーのdB値を示している。縦軸は、パワーの比、つまり外部マイクMaの平均パワーに対する内部マイクMaの平均パワーの比を示している。
図31に示す離散的なデータを線形補間することで、図32に示すように、dB領域におけるAGCのレベル圧縮値を得ることができる。図26に示す平均パワーPと補正係数Cとの対応関係を示すテーブルは、この図32に示す内部マイクMaの平均パワー(横軸)と、平均パワーの比(縦軸)との関係から作成される。この場合、内部マイクMaの平均パワーがテーブルの平均パワーPに対応し、平均パワーの比が補正係数Cに対応する。
なお、上述の図25のフローチャートに沿ったノイズテーブル補正部112の処理手順においては、ステップST46で過去所定時間における入力信号の周波数スペクトルX(f,τ)の平均パワーP(対数RMS P)を算出するものである。つまり、入力信号の平均パワーPを、周波数領域の信号処理で取得するものである。
しかし、この代わりに、過去所定時間における入力信号の時間領域のサンプルx(t)を用いて、(8)式と同様の式により平均パワーP(対数RMS P)を算出し、この平均パワーPを利用して補正係数Cを得ることも考えられる。この場合、入力信号の平均パワーPを、時間領域の信号処理で取得するものである。
図11に戻って、ノイズテーブル補正部112は、上述したように、ノイズテーブル107に記憶された機械音の周波数スペクトル情報|N(f,τ)|を、フーリエ変換部105で得られた入力信号の周波数スペクトルX(f,τ)に基づいて補正する。そして、このノイズテーブル補正部112は、補正後の機械音の周波数スペクトル情報|N‘(f,τ)|を機械音低減部106に通知する。
機械音低減部106は、この補正後の機械音の周波数スペクトル情報|N‘(f,τ)|を用いて、フーリエ変換部105で得られた周波数スペクトルX(f,τ)を修正して、機械音を抑圧する。すなわち、図1に示す音声系100の機械音低減部106はノイズテーブル107から読み出された機械音の周波数スペクトル情報|N(f,τ)|をそのまま使用する。しかし、この図11に示す音声系100Aの機械音低減部106は、ノイズテーブル補正部112で補正された機械音の周波数スペクトル情報|N‘(f,τ)|を使用する。図11に示す音声系100Aにおいて、その他は、図1に示す音声系100と同様に構成される。
図11に示す音声付き動画撮影機能を備えた撮像装置の音声系100Aにおける動画撮影中の動作を簡単に説明する。マイクロホン101では周辺音が集音されて音声信号が得られる。この音声信号は、A/D変換器102でアナログ信号からデジタル信号に変換され、さらにAGC回路103を介してフレーム分割部104に供給される。フレーム分割部104では、AGC回路103から出力音声信号が、フレーム毎の処理を行うために、所定時間長のフレームに分割されて、フレーム化される。
フレーム分割部104で得られる各フレームのフレーム化信号は、フーリエ変換部105に順次供給される。フーリエ変換部105では、フレーム信号に対して、高速フーリエ変換(FFT)処理が施されて、周波数領域の周波数スペクトルX(f,τ)に変換される。この周波数スペクトルX(f,τ)は、スペクトル切り替え部108、機械音低減部106およびノイズテーブル補正部112に供給される。
機械音低減部106では、制御部201からのズーム制御情報(ズーム有無、方向)に基づいて、ズーム動作中には、機械音低減処理が行われる。この場合、機械音低減部106では、周波数スペクトルX(f,τ)にゲイン関数G(f,τ)が掛けられて、機械音(モータ203の駆動音)を抑圧するように修正された周波数スペクトルY(f,τ)が得られる。この周波数スペクトルY(f,τ)は、スペクトル切り替え部108に供給される。
ノイズテーブル補正部112では、ノイズテーブル107に記憶された機械音の周波数スペクトル情報|N(f,τ)|が、フーリエ変換部105で得られた入力信号の周波数スペクトルX(f,τ)に基づいて補正される。つまり、この機械音の周波数スペクトル情報|N(f,τ)|は、入力信号に関する情報(周波数特性、パワーなど)に基づいて、得られた補正係数により補正される。機械音低減部106には、この補正された機械音の周波数スペクトル情報|N‘(f,τ)|が通知されて使用される。
ズーム動作中でないとき、スペクトル切り替え部108では、フーリエ変換部105から供給される周波数スペクトルX(f,τ)が選択される。このとき、モータ203は駆動しておらず、周波数スペクトルX(f,τ)は、機械音(モータ203の駆動音)の成分を含んでいないからである。一方、ズーム動作中であるとき、スペクトル切り替え部108では、機械音低減部106で得られた、機械音(モータ203の駆動音)を抑圧するように修正された周波数スペクトルY(f,τ)が選択される。
スペクトル切り替え部108からの周波数スペクトルX(f,τ)、あるいは修正周波数スペクトルY(f,τ)は、逆フーリエ変換部109に供給される。この逆フーリエ変換部109では、フレーム毎に、スペクトル切り替え部108から出力される周波数スペクトルに対して、逆高速フーリエ変換(IFFT)処理が施されて、時間領域のフレーム化信号に戻される。
このフレーム化信号は、波形合成部110に供給される。この波形合成部110では、各フレームのフレーム信号が合成されて、時系列的に連続した音声信号に復元される。この音声信号は、記録部111に供給される。記録部111では、波形合成部110から供給される音声信号が、ディスクあるいはメモリ等の記録媒体に、例えば、画像系で得られる画像信号と共に記録される。
上述したように、図11に示す音声付き動画撮影機能を備えた撮像装置の音声系100Aにおいては、ズーム動作中であるとき、機械音低減部106で機械音低減処理が行われる。また、この音声系100Aにおいては、ズーム動作中であるとき、スペクトル切り替え部108では機械音(モータ203の駆動音)を抑圧するように修正された周波数スペクトルY(f,τ)が選択される。そのため、ズーム動作中であるとき、機械音(モータ203の駆動音)が抑圧された音声信号を記録することができる。
また、図11に示す音声系100Aにおいて、機械音低減部106では、入力信号の周波数スペクトルX(f,τ)に、周波数毎に、ゲイン関数テーブル121から読み出されたゲインが掛けられることで、周波数スペクトルの修正が行われる。この場合、ゲイン関数テーブル121に記憶されるゲイン関数G(f,τ)としては、任意の形に自由に設定できる。すなわち、機械音のばらつきの特性は様々であるが、それに適したゲイン関数G(f,τ)をゲイン関数テーブル121に設定できる。これにより、簡易な構成で、個体毎の機械音のバラツキによらず一定の低減効果を実現でき、品質の良い出力を得ることができる。
また、図11に示す音声系100Aにおいて、機械音低減部106では、ノイズテーブル107に記憶されている機械音の周波数スペクトル情報|N(f,τ)|がそのまま使用されるものではない。すなわち、ノイズテーブル補正部112により、入力信号に関する情報(周波数特性、パワーなど)に基づいて補正された機械音の周波数スペクトル情報|N(f,τ)|が使用される。そのため、実際には知覚されない機械音までも抑圧する過剰な抑圧を行うことが抑制され、過剰な抑圧による所望音の劣化を回避できる。つまり、周囲環境に応じて、ユーザの所望音の劣化を極力抑えた上で、機械音を低減できる。
<3.第3の実施の形態>
[音声付き動画撮影機能を備えた撮像装置の音声系]
図33は、第3の実施の形態としての音声付き動画撮影機能を備えた撮像装置の音声系100Bの構成例を示している。この図33において、図1、図11と対応する部分には、同一符号を付し、適宜、その詳細説明を省略する。
この音声系100Bは、マイクロホン101と、A/D変換器102と、AGC(Automatic Gain Control)回路103と、フレーム分割部104と、フーリエ変換部105を有している。また、この音声系100Bは、機械音低減部106と、ノイズテーブル107-1〜107-nと、ノイズテーブル切り替え部113と、スペクトル切り替え部108と、逆フーリエ変換部109と、波形合成部110と、記録部111を有している。
ノイズテーブル107-1〜107-nには、それぞれ、補正後の機械音の周波数スペクトル情報|Ni(f,τ)|(i=1,2,・・・,n)が記憶されている。この周波数スペクトル情報|Ni(f,τ)|(i=1,2,・・・,n)は、P(平均パワーP)−C(補正係数)テーブル(図26参照)のそれぞれの補正係数Cの値Ci(i=1,2,・・・,n)で予め補正されたものである。予め収録された機械音(モータ203の駆動音に相当)の周波数スペクトル情報が|N(f,τ)|であるとき、|Ni(f,τ)|(i=1,2,・・・,n)は、|Ni(f,τ)|=Ci・|N(f,τ)|(i=1,2,・・・,n)で表される。
なお、テレ方向およびワイド方向のズーム操作時のそれぞれでモータ203が発生する駆動音が異なる。そのため、ノイズテーブル107-1〜107-nには、補正後の機械音の周波数スペクトル情報として、テレ方向およびワイド方向のズーム操作時のそれぞれに対応したものが記録されている。
ノイズテーブル切り替え部113は、ノイズテーブル107-1〜107-nの中から、機械音低減部106で使用する、補正後の機械音の周波数スペクトル情報を読み出すためのノイズテーブル(使用ノイズテーブル)を決定する。ノイズテーブル切り替え部113は、この使用ノイズテーブルの決定を、フーリエ変換部105で得られた入力信号の周波数スペクトルX(f,τ)に基づいて行う。そして、ノイズテーブル切り替え部113は、この決定された使用ノイズテーブルから補正後の機械音の周波数スペクトル情報を読み出し、機械音低減部106に通知する。このノイズテーブル切り替え部113は、スペクトル情報変更部を構成している。
この場合、ノイズテーブル切り替え部113は、制御部201からのズーム制御情報(ズーム有無、方向)に基づいて、ノイズテーブル切り替え処理を行う。ノイズテーブル切り替え部113は、ズーム操作時、つまりモータ203の駆動時に、ノイズテーブル切り替え処理を行う。また、ノイズテーブル切り替え部113は、テレ方向およびワイド方向のズーム操作時に、決定された使用ノイズテーブルからそれぞれの方向に対応した周波数スペクトル情報を読み出して、機械音低減部106に通知する。
図34は、ノイズテーブル切り替え部113の構成例を示している。このノイズテーブル切り替え部113は、演算部141と、保持部142と、切り替え部143と、通知部144を有している。演算部141は、入力信号の周波数スペクトルX(f,τ)の平均パワーPを求める。そして、演算部141は、P−Cテーブル(図26参照)を参照して、平均パワーPに対応した補正係数Cの値を取得し、この値で補正された機械音の周波数スペクトル情報が記憶されているノイズテーブルを、使用ノイズテーブルに決定する。
なお、平均パワーPと使用ノイズテーブルとの対応関係を示すテーブルを予め作成しておくことも考えられる。この場合、演算部141は、このテーブルに基づいて、使用ノイズテーブルを簡単に決定できる。
保持部142は、演算部141における演算処理で必要なデータ、あるいは、演算結果としての使用ノイズテーブル情報を保持する。切り替え部143は、補正後の機械音の周波数スペクトル情報を読み出すノイズテーブルを、保持部142に保持されている使用ノイズテーブル情報で示されるノイズテーブルに切り替える。通知部144は、切り替え部143で切り替えられたノイズテーブルから補正後の機械音の周波数スペクトル情報|N’(f,τ)|を読み出し、機械音低減部106に通知する。機械音低減部106は、このようにノイズテーブル切り替え部113から通知された補正後の機械音の周波数スペクトル情報|N’(f,τ)|を使用する。
図35のフローチャートは、ノイズテーブル切り替え部113の詳細な処理手順の一例を示している。ノイズテーブル切り替え部113は、ステップST61において、処理を開始し、その後に、ステップST62の処理に移る。このステップST62において、ノイズテーブル切り替え部113は、フーリエ変換部105から、入力信号の周波数スペクトルX(f,τ)を取得する。
次に、ノイズテーブル切り替え部113は、ステップST63において、制御部201からの制御情報に基づいて、ズーム操作が行われているか否かを判断する。ノイズテーブル切り替え部113は、ズーム操作が行われていない場合に、モータ203の駆動音(機械音)の成分が含まれていない入力信号の周波数スペクトルX(f,τ)に基づいて、使用ノイズテーブルを決定する。そのため、ズーム操作が行われていないとき、ノイズテーブル切り替え部113は、補正係数を算出するため、ステップST64の処理に移る。
このステップST64において、ノイズテーブル切り替え部113は、前回使用ノイズテーブルを決定してから一定期間が経過したか否かを判断する。一定期間が経過していないとき、ノイズテーブル切り替え部113は、使用ノイズテーブルを決定することなく、直ちに、ステップST62の処理に戻る。一方、一定期間が経過しているとき、ノイズテーブル切り替え部113は、ステップST65の処理に移る。
このステップST65において、ノイズテーブル切り替え部113は、過去所定時間(T秒)において、ズーム操作が行われなかったか否かを判断する。ノイズテーブル切り替え部113は、過去所定時間で得られる所定数のフレームの入力信号の周波数スペクトルX(f,τ)に基づいて使用ノイズテーブルを決定するからである。例えば、T秒は、1〜2秒である。過去所定時間にズーム操作が行われていたとき、ノイズテーブル切り替え部113は、使用ノイズテーブルを決定することなく、直ちに、ステップST62の処理に戻る。一方、過去所定時間にズーム操作が行われていなかったとき、ノイズテーブル切り替え部113は、ステップST66の処理に移る。
このステップST66において、ノイズテーブル切り替え部113は、過去所定時間における入力信号の周波数スペクトルX(f,τ)の平均パワー(平均エネルギー)P(対数RMS P)を、(9)式により、算出する。この場合、例えば、1〜4kHzの周波数領域内の周波数の周波数スペクトルX(f,τ)のみが使用される。
Figure 2012032648
次に、ノイズテーブル切り替え部113は、ステップST67において、ステップST66で算出された平均パワーPを利用し、平均パワーPと補正係数Cとの対応関係を示すテーブル(図26参照)を参照して、補正係数Cの値を取得する。そして、ノイズテーブル切り替え部113は、このステップST67において、さらに、この補正係数Cの値で補正された機械音の周波数スペクトル情報が記憶されているノイズテーブルを、使用ノイズテーブルに決定する。ノイズテーブル切り替え部113は、ステップST67の処理の後、ステップST62の処理に戻る。
ノイズテーブル切り替え部113は、ズーム操作が行われているとき、ノイズテーブル107-1〜107-nのうち、使用ノイズテーブルから補正後の機械音の周波数スペクトル情報を読み出し、機械音低減部106に通知する。そのため、ステップST63でズーム操作が行われていないとき、ノイズテーブル切り替え部113は、ステップST68の処理に移る。
ステップST68において、ノイズテーブル切り替え部113は、制御部201からの制御情報に基づいて、使用ノイズテーブルからズーム方向に対応した補正後の機械音の各周波数の周波数スペクトル情報Ntable(k)(k=1,2,・・・,L)を読み出す。そして、ノイズテーブル切り替え部113は、ステップST69において、機械音低減部106に、その読み出した補正後の機械音のスペクトル情報Ntable(k)(k=1,2,・・・,L)を通知する。ノイズテーブル切り替え部113は、ステップST69の処理の後、ステップST62の処理に戻る。
ズーム操作中に機械音低減部106に通知される補正後の機械音の周波数スペクトル情報Ntable(k)(k=1,2,・・・,L)が変動すると、出力音声も同様に変動するので、好ましくない。そのため、上述の図35のフローチャートに沿ったノイズテーブル切り替え部113の処理手順では、ズーム操作中に、使用ノイズテーブルの変更が行われないようにされている。
なお、上述の図35のフローチャートに沿ったノイズテーブル切り替え部113の処理手順においては、ステップST66で過去所定時間における入力信号の周波数スペクトルX(f,τ)の平均パワーP(対数RMS P)を算出するものである。つまり、入力信号の平均パワーPを、周波数領域の信号処理で取得するものである。
しかし、この代わりに、過去所定時間における入力信号の時間領域のサンプルx(t)を用いて、(9)式と同様の式により平均パワーP(対数RMS P)を算出し、この平均パワーPを利用して、使用ノイズテーブルを決定することも考えられる。この場合、入力信号の平均パワーPを、時間領域の信号処理で取得するものである。
図33に戻って、ノイズテーブル切り替え部113は、上述したように、ノイズテーブル107-1〜107-nの中から、機械音低減部106で使用する、補正後の機械音の周波数スペクトル情報を読み出すための使用ノイズテーブルを決定する。そして、ノイズテーブル切り替え部113は、この使用ノイズテーブルから補正後の機械音の周波数スペクトル情報|N‘(f,τ)|を読み出し、機械音低減部106に通知する。
機械音低減部106は、この補正後の機械音の周波数スペクトル情報|N‘(f,τ)|を用いて、フーリエ変換部105で得られた周波数スペクトルX(f,τ)を修正して、機械音を抑圧する。すなわち、図11に示す音声系100Aの機械音低減部106はノイズテーブル補正部112で補正された機械音の周波数スペクトル情報|N‘(f,τ)|を使用する。しかし、図33に示す音声系100Bの機械音低減部106は、使用ノイズテーブルから読み出された補正後の機械音の周波数スペクトル情報|N‘(f,τ)|を使用する。図33に示す音声系100Bにおいて、その他は、図1、図11に示す音声系100,100Aと同様に構成される。
図33に示す音声付き動画撮影機能を備えた撮像装置の音声系100Bにおける動画撮影中の動作を簡単に説明する。マイクロホン101では周辺音が集音されて音声信号が得られる。この音声信号は、A/D変換器102でアナログ信号からデジタル信号に変換され、さらにAGC回路103を介してフレーム分割部104に供給される。フレーム分割部104では、AGC回路103から出力音声信号が、フレーム毎の処理を行うために、所定時間長のフレームに分割されて、フレーム化される。
フレーム分割部104で得られる各フレームのフレーム化信号は、フーリエ変換部105に順次供給される。フーリエ変換部105では、フレーム信号に対して、高速フーリエ変換(FFT)処理が施されて、周波数領域の周波数スペクトルX(f,τ)に変換される。この周波数スペクトルX(f,τ)は、スペクトル切り替え部108、機械音低減部106およびノイズテーブル切り替え部113に供給される。
機械音低減部106では、制御部201からのズーム制御情報(ズーム有無、方向)に基づいて、ズーム動作中には、機械音低減処理が行われる。この場合、機械音低減部106では、周波数スペクトルX(f,τ)にゲイン関数G(f,τ)が掛けられて、機械音(モータ203の駆動音)を抑圧するように修正された周波数スペクトルY(f,τ)が得られる。この周波数スペクトルY(f,τ)は、スペクトル切り替え部108に供給される。
ノイズテーブル切り替え部113では、ノイズテーブル107-1〜107-nの中から、機械音低減部106で使用する、補正後の機械音の周波数スペクトル情報を読み出すための使用ノイズテーブルが決定される。この決定は、フーリエ変換部105で得られた入力信号の平均パワーPに基づいて行われる。機械音低減部106には、ノイズテーブル切り替え部113より、使用ノイズテーブルから読み出された補正後の機械音の周波数スペクトル情報|N‘(f,τ)|が通知されて使用される。
ズーム動作中でないとき、スペクトル切り替え部108では、フーリエ変換部105から供給される周波数スペクトルX(f,τ)が選択される。このとき、モータ203は駆動しておらず、周波数スペクトルX(f,τ)は、機械音(モータ203の駆動音)の成分を含んでいないからである。一方、ズーム動作中であるとき、スペクトル切り替え部108では、機械音低減部106で得られた、機械音(モータ203の駆動音)を抑圧するように修正された周波数スペクトルY(f,τ)が選択される。
スペクトル切り替え部108からの周波数スペクトルX(f,τ)、あるいは修正周波数スペクトルY(f,τ)は、逆フーリエ変換部109に供給される。この逆フーリエ変換部109では、フレーム毎に、スペクトル切り替え部108から出力される周波数スペクトルに対して、逆高速フーリエ変換(IFFT)処理が施されて、時間領域のフレーム化信号に戻される。
このフレーム化信号は、波形合成部110に供給される。この波形合成部110では、各フレームのフレーム信号が合成されて、時系列的に連続した音声信号に復元される。この音声信号は、記録部111に供給される。記録部111では、波形合成部110から供給される音声信号が、ディスクあるいはメモリ等の記録媒体に、例えば、画像系で得られる画像信号と共に記録される。
上述したように、図33に示す音声付き動画撮影機能を備えた撮像装置の音声系100Bにおいては、ズーム動作中であるとき、機械音低減部106で機械音低減処理が行われる。また、この音声系100においては、ズーム動作中であるとき、スペクトル切り替え部108では機械音(モータ203の駆動音)を抑圧するように修正された周波数スペクトルY(f,τ)が選択される。そのため、ズーム動作中であるとき、機械音(モータ203の駆動音)が抑圧された音声信号を記録することができる。
また、図33に示す音声系100Bにおいて、機械音低減部106では、入力信号の周波数スペクトルX(f,τ)に、周波数毎に、ゲイン関数テーブル121から読み出されたゲインが掛けられることで、周波数スペクトルの修正が行われる。この場合、ゲイン関数テーブル121に記憶されるゲイン関数G(f,τ)としては、任意の形に自由に設定できる。すなわち、機械音のばらつきの特性は様々であるが、それに適したゲイン関数G(f,τ)をゲイン関数テーブル121に設定できる。これにより、簡易な構成で、個体毎の機械音のバラツキによらず一定の低減効果を実現でき、品質の良い出力を得ることができる。
また、図33に示す音声系100Bにおいて、機械音低減部106では、入力信号の平均パワーに基づいて決定された使用ノイズテーブルから読み出された補正後の機械音の周波数スペクトル情報|N(f,τ)|が使用される。そのため、実際には知覚されない機械音までも抑圧する過剰な抑圧を行うことが抑制され、過剰な抑圧による所望音の劣化を回避できる。つまり、周囲環境に応じて、ユーザの所望音の劣化を極力抑えた上で、機械音を低減できる。
<4.変形例>
なお、上述の各実施の形態においては、スペクトル切り替え部108が設けられている。このスペクトル切り替え部108により、ズーム動作中でないとき、フーリエ変換部105からの周波数スペクトルX(f,τ)が取り出され、一方、ズーム動作中であるとき、機械音低減部106からの修正された周波数スペクトルY(f,τ)が取り出される。
しかし、機械音低減部106において、周波数スペクトルX(f,τ)に掛けられるゲイン関数G(f,τ)を、ズーム動作中でないときは「1」に制御することで、常に機械音低減部106の出力周波数スペクトルY(f,τ)を使用する構成とすることができる。この場合、機械音低減部106の出力周波数スペクトルY(f,τ)が逆フーリエ変換部109に直接供給され、スペクトル切り替え部108は不要となる。
また、上述の図11に示す音声系100Aでは、周波数スペクトルX(f,τ)をゲイン関数テーブル121から読み出したゲインにより修正する機械音低減部106を持つものである。しかし、例えば、機械音の抑圧にスペクトルサブトラクション法を用いる音声系(図37参照)等のように、予め収録された機械音の周波数スペクトル情報を利用して機械音を抑圧するその他の音声系においても、同様に構成できる。
例えば、サブトラクト部に供給する機械音の周波数スペクトル情報を、図11に示す音声系100Aのノイズテーブル補正部112と同様の補正部で補正して供給すればよい。これにより、図11に示す音声系100Aと同様の効果を得ることができる。すなわち、実際には知覚されない機械音までも抑圧する過剰な抑圧を行うことが抑制され、過剰な抑圧による所望音の劣化を回避できる。つまり、周囲環境に応じて、ユーザの所望音の劣化を極力抑えた上で、機械音を低減できる。
また、上述の図33に示す音声系100Bでも、周波数スペクトルX(f,τ)をゲイン関数テーブル121から読み出したゲインにより修正する機械音低減部106を持つものである。しかし、例えば、機械音の抑圧にスペクトルサブトラクション法を用いる音声系(図37参照)等のように、予め収録された機械音の周波数スペクトル情報を利用して機械音を抑圧するその他の音声系においても、同様に構成できる。
例えば、サブトラクト部に、図33に示す音声系100Bのノイズテーブル切り替え部113と同様の切り替え部から、補正された機械音の周波数スペクトル情報を供給すればよい。これにより、図33に示す音声系100Bと同様の効果を得ることができる。すなわち、実際には知覚されない機械音までも抑圧する過剰な抑圧を行うことが抑制され、過剰な抑圧による所望音の劣化を回避できる。つまり、周囲環境に応じて、ユーザの所望音の劣化を極力抑えた上で、機械音を低減できる。
また、上述実施の形態においては、抑圧される機械音がモータ203の駆動音(ズーム音)であるものを示した。しかし、抑圧される機械音はこれに限定されるものでないことは勿論である。例えば、フォーカスモータの駆動音、パン、チルトのためのモータの駆動音なども考えられる。
また、上述実施の形態における機械音抑圧に係る部分は、ハードウェアで構成できる他、同様の処理をソフトウェアで行うこともできる。図36は、ソフトウェアで処理を行うコンピュータ装置50の構成例を示している。このコンピュータ装置50は、CPU181、ROM182、RAM183およびデータ入出力部(データI/O)184により構成されている。
ROM182には、CPU181の処理プログラム、予め収録された機械音の周波数スペクトル情報などの必要なデータが格納されている。RAM183は、CPU181のワークエリアとして機能する。CPU181は、ROM182に格納されている処理プログラムを必要に応じて読み出し、読み出した処理プログラムをRAM183に転送して展開し、当該展開された処理プログラムを読み出して、機械音抑圧処理を実行する。
このコンピュータ装置50においては、入力音声信号(マイクロホンの出力信号)は、データI/O184を介して入力され、RAM183に蓄積される。このRAM183に蓄積された入力音声信号に対して、CPU181により、上述実施の形態と同様の機械音抑圧処理が行われる。そして、処理結果としての機械音が抑圧された出力音声信号は、データI/O184を介して外部に出力される。
この発明は、例えば、音声付き動画撮影機能を備えたデジタルカメラなど、特定の撮影動作に関連して機械音を発生する機械音発生源を有する撮像装置に適用できる。
50・・・コンピュータ装置
100,100A,100B・・・音声系
101・・・マイクロホン
102・・・A/D変換器
103・・・AGC回路
104・・・フレーム分割部
105・・・フーリエ変換部
106・・・機械音低減部
107,107-1〜107-n・・・ノイズテーブル
108・・・スペクトル切り替え部
109・・・逆フーリエ変換部
110・・・波形合成部
111・・・記録部
112・・・ノイズテーブル補正部
113・・・ノイズテーブル切り替え部
121・・・ゲイン関数テーブル
122・・・パワー比算出部
123・・・周波数スペクトル修正部
131・・・演算部
132・・・保持部
133・・・補正部
134・・・通知部
141・・・演算部
142・・・保持部
143・・・切り替え部
144・・・通知部
201・・・制御部
202・・・キー入力部
203・・・モータ
204・・・モータ駆動部

Claims (18)

  1. 入力信号を所定時間長のフレームに分割してフレーム化するフレーム化部と、
    上記フレーム化部で得られたフレーム化信号を周波数領域の周波数スペクトルに変換するフーリエ変換部と、
    上記フーリエ変換部で得られた上記入力信号の周波数スペクトルを、機械音の周波数スペクトル情報に基づいて修正して機械音を抑圧する機械音低減部と、
    上記機械音低減部で修正された周波数スペクトルを時間領域のフレーム化信号に戻す逆フーリエ変換部と、
    上記逆フーリエ変換部で得られた各フレームのフレーム化信号をフレーム合成して機械音を抑圧した出力信号を得るフレーム合成部とを備え、
    上記機械音低減部は、
    上記フーリエ変換部で得られた上記入力信号の周波数スペクトルと上記機械音の周波数スペクトル情報に基づいて、周波数毎に、上記入力信号の周波数スペクトルと上記機械音の周波数スペクトルのパワー比を算出するパワー比算出部と、
    周波数毎に、上記パワー比の各値に対応したゲインの設定値が記憶されたゲイン関数テーブルから、上記パワー比算出部で算出されたパワー比に対応したゲインを読み出すゲイン読み出し部と、
    周波数毎に、上記フーリエ変換部で得られた上記入力信号の周波数スペクトルに、上記ゲイン読み出し部で読み出されたゲインを掛けて、修正された周波数スペクトルを得る周波数スペクトル修正部とを有する
    機械音抑圧装置。
  2. 上記ゲイン関数テーブルに記憶されたゲインの設定値は、
    上記パワー比が0dB近傍で小さくなり、該パワー比が0dB近傍から大きくなるにつれて傾きが不連続にならないように滑らかに大きくなっていく
    請求項1に記載の機械音抑圧装置。
  3. 上記ゲイン関数テーブルに記憶されたゲインの設定値は、さらに、上記0dB近傍から小さくなるにつれて傾きが不連続にならないように滑らかに大きくなっていく
    請求項2に記載の機械音抑圧装置。
  4. 上記機械音低減部で使用する上記機械音の周波数スペクトル情報を、上記入力信号に関する情報に基づいて変更するスペクトル情報変更部をさらに備える
    請求項1に記載の機械音抑圧装置。
  5. 上記機械音は、周辺音記録機能を有する撮像装置において特定の撮影動作に関連して発生する機械音である
    請求項1に記載の機械音抑圧装置。
  6. 入力信号を所定時間長のフレームに分割してフレーム化するフレーム化ステップと、
    上記フレーム化ステップで得られたフレーム化信号を周波数領域の周波数スペクトルに変換するフーリエ変換ステップと、
    上記フーリエ変換ステップで得られた上記入力信号の周波数スペクトルを、機械音の周波数スペクトル情報に基づいて修正して機械音を抑圧する機械音低減ステップと、
    上記機械音低減ステップで修正された周波数スペクトルを時間領域のフレーム化信号に戻す逆フーリエ変換ステップと、
    上記逆フーリエ変換ステップで得られた各フレームのフレーム化信号をフレーム合成して機械音を抑圧した出力信号を得るフレーム合成ステップとを備え、
    上記機械音低減ステップは、
    上記フーリエ変換ステップで得られた上記入力信号の周波数スペクトルと上記機械音の周波数スペクトル情報に基づいて、周波数毎に、上記入力信号の周波数スペクトルと上記機械音の周波数スペクトルのパワー比を算出するパワー比算出ステップと、
    周波数毎に、上記パワー比の各値に対応したゲインの設定値が記憶されたゲイン関数テーブルから、上記パワー比算出ステップで算出されたパワー比に対応したゲインを読み出すゲイン読み出しステップと、
    周波数毎に、上記フーリエ変換ステップで得られた上記入力信号の周波数スペクトルに、上記ゲイン読み出しステップで読み出されたゲインを掛けて、修正された周波数スペクトルを得る周波数スペクトル修正ステップとを有する
    機械音抑圧方法。
  7. コンピュータを、
    入力信号を所定時間長のフレームに分割してフレーム化するフレーム化手段と、
    上記フレーム化手段で得られたフレーム化信号を周波数領域の周波数スペクトルに変換するフーリエ変換手段と、
    上記フーリエ変換手段で得られた上記入力信号の周波数スペクトルを、機械音の周波数スペクトル情報に基づいて修正して機械音を抑圧する機械音低減手段と、
    上記機械音低減手段で修正された周波数スペクトルを時間領域のフレーム化信号に戻す逆フーリエ変換手段と、
    上記逆フーリエ変換手段で得られた各フレームのフレーム化信号をフレーム合成して機械音を抑圧した出力信号を得るフレーム合成手段として機能させ、
    上記機械音低減手段は、
    上記フーリエ変換手段で得られた上記入力信号の周波数スペクトルと上記機械音の周波数スペクトル情報に基づいて、周波数毎に、上記入力信号の周波数スペクトルと上記機械音の周波数スペクトルのパワー比を算出するパワー比算出手段と、
    周波数毎に、上記パワー比の各値に対応したゲインの設定値が記憶されたゲイン関数テーブルから、上記パワー比算出手段で算出されたパワー比に対応したゲインを読み出すゲイン読み出し手段と、
    周波数毎に、上記フーリエ変換手段で得られた上記入力信号の周波数スペクトルに、上記ゲイン読み出し手段で読み出されたゲインを掛けて、修正された周波数スペクトルを得る周波数スペクトル修正手段とを有する
    プログラム。
  8. 特定の撮影動作に関連して機械音を発生する機械音発生源を有すると共に、周辺音記録機能を有する撮像装置であって、
    マイクロホンで集音されて得られた周辺音の入力信号を所定時間長のフレームに分割してフレーム化するフレーム化部と、
    上記フレーム化部で得られたフレーム化信号を周波数領域の周波数スペクトルに変換するフーリエ変換部と、
    上記フーリエ変換部で得られた上記入力信号の周波数スペクトルを、上記機械音の周波数スペクトル情報に基づいて修正して機械音を抑圧する機械音低減部と、
    上記機械音低減部で修正された周波数スペクトルを時間領域のフレーム化信号に戻す逆フーリエ変換部と、
    上記逆フーリエ変換部で得られた各フレームのフレーム化信号をフレーム合成して機械音を抑圧した出力信号を得るフレーム合成部と、
    上記フレーム合成部で得られた出力信号を記録する記録部とを備え、
    上記機械音低減部は、
    上記フーリエ変換部で得られた上記入力信号の周波数スペクトルと上記機械音の周波数スペクトル情報に基づいて、周波数毎に、上記入力信号の周波数スペクトルと上記機械音の周波数スペクトルのパワー比を算出するパワー比算出部と、
    周波数毎に、上記パワー比の各値に対応したゲインの設定値が記憶されたゲイン関数テーブルから、上記パワー比算出部で算出されたパワー比に対応したゲインを読み出すゲイン読み出し部と、
    周波数毎に、上記フーリエ変換部で得られた上記入力信号の周波数スペクトルに、上記ゲイン読み出し部で読み出されたゲインを掛けて、修正された周波数スペクトルを得る周波数スペクトル修正部とを有する
    撮像装置。
  9. 入力信号を所定時間長のフレームに分割してフレーム化するフレーム化部と、
    上記フレーム化部で得られたフレーム化信号を周波数領域の周波数スペクトルに変換するフーリエ変換部と、
    上記フーリエ変換部で得られた上記入力信号の周波数スペクトルを、機械音の周波数スペクトル情報に基づいて修正して機械音を抑圧する機械音低減部と、
    上記機械音低減部で使用する上記機械音の周波数スペクトル情報を、上記入力信号に関する情報に基づいて変更するスペクトル情報変更部と、
    上記機械音低減部で修正された周波数スペクトルを時間領域のフレーム化信号に戻す逆フーリエ変換部と、
    上記逆フーリエ変換部で得られた各フレームのフレーム化信号をフレーム合成して機械音を抑圧した出力信号を得るフレーム合成部と
    を備える機械音抑圧装置。
  10. 上記スペクトル情報変更部は、
    ノイズテーブルに記憶された上記機械音の周波数スペクトル情報を、上記入力信号に関する情報に基づいて補正することで、上記機械音低減部で使用する上記機械音の周波数スペクトル情報を変更する
    請求項9に記載の機械音抑圧装置。
  11. 上記スペクトル情報変更部は、
    上記入力信号に関する情報に基づいて周辺音の特徴量を示すパラメータを算出し、該算出されたパラメータに基づいて補正係数を取得し、該取得された補正係数を上記ノイズテーブルに記憶された上記機械音の周波数スペクトル情報に掛けて補正する
    請求項10に記載の機械音抑圧装置。
  12. 上記特徴量を示すパラメータは上記入力信号の周波数スペクトルのスペクトル包絡を示す線形予測係数であり、
    上記スペクトル情報変更部は、
    上記スペクトル包絡を示す線形予測係数に基づいて、上記スペクトル包絡の山部分に対応して値が低下するように各周波数の補正係数を取得し、周波数毎に、上記機械音の周波数スペクトル情報に該取得された補正係数を掛けて補正する
    請求項11に記載の機械音抑圧装置。
  13. 上記特徴量パラメータは、上記入力信号の平均パワーであり、
    上記スペクトル情報変更部は、
    上記入力信号の平均パワーに基づいて、該平均パワーが大きいとき値が低下するように各周波数に共通の補正係数を取得し、上記機械音の各周波数の周波数スペクトル情報に上記取得された補正係数を掛けて補正する
    請求項11に記載の機械音抑圧装置。
  14. 上記機械音の周波数スペクトル情報が記憶された複数のノイズテーブルを備え、
    上記複数のノイズテーブルには、上記入力信号の平均パワーが互いに異なる場合に使用する上記機械音の周波数スペクトル情報が記憶されており、
    上記スペクトル情報変更部は、
    上記入力信号の平均パワーに基づいて、上記機械音の周波数スペクトル情報を読み出すノイズテーブルを切り替えることで、上記機械音低減部で使用する上記機械音の周波数スペクトル情報を変更する
    請求項9に記載の機械音抑圧装置。
  15. 上記機械音は、周辺音記録機能を有する撮像装置において特定の撮影動作に関連して発生する機械音である
    請求項9に記載の機械音抑圧装置。
  16. 入力信号を所定時間長のフレームに分割してフレーム化するフレーム化ステップと、
    上記フレーム化ステップで得られたフレーム化信号を周波数領域の周波数スペクトルに変換するフーリエ変換ステップと、
    上記フーリエ変換ステップで得られた上記入力信号の周波数スペクトルを、機械音の周波数スペクトル情報に基づいて修正して機械音を抑圧する機械音低減ステップと、
    上記機械音低減ステップで使用する上記機械音の周波数スペクトル情報を、上記入力信号に関する情報に基づいて変更するスペクトル情報変更ステップと、
    上記機械音低減ステップで修正された周波数スペクトルを時間領域のフレーム化信号に戻す逆フーリエ変換ステップと、
    上記逆フーリエ変換ステップで得られた各フレームのフレーム化信号をフレーム合成して機械音を抑圧した出力信号を得るフレーム合成部ステップと
    を備える機械音抑圧方法。
  17. コンピュータを、
    入力信号を所定時間長のフレームに分割してフレーム化するフレーム化手段と、
    上記フレーム化手段で得られたフレーム化信号を周波数領域の周波数スペクトルに変換するフーリエ変換手段と、
    上記フーリエ変換手段で得られた上記入力信号の周波数スペクトルを、機械音の周波数スペクトル情報に基づいて修正して機械音を抑圧する機械音低減手段と、
    上記機械音低減手段で使用する上記機械音の周波数スペクトル情報を、上記入力信号に関する情報に基づいて変更するスペクトル情報変更手段と、
    上記機械音低減手段で修正された周波数スペクトルを時間領域のフレーム化信号に戻す逆フーリエ変換手段と、
    上記逆フーリエ変換手段で得られた各フレームのフレーム化信号をフレーム合成して機械音を抑圧した出力信号を得るフレーム合成手段と
    して機能させるプログラム。
  18. 特定の撮影動作に関連して機械音を発生する機械音発生源を有すると共に、周辺音記録機能を有する撮像装置であって、
    マイクロホンで集音されて得られた周辺音の入力信号を所定時間長のフレームに分割してフレーム化するフレーム化部と、
    上記フレーム化部で得られたフレーム化信号を周波数領域の周波数スペクトルに変換するフーリエ変換部と、
    上記フーリエ変換部で得られた上記入力信号の周波数スペクトルを、機械音の周波数スペクトル情報に基づいて修正して機械音を抑圧する機械音低減部と、
    上記機械音低減部で使用する上記機械音の周波数スペクトル情報を、上記入力信号に関する情報に基づいて変更するスペクトル情報変更部と、
    上記機械音低減部で修正された周波数スペクトルを時間領域のフレーム化信号に戻す逆フーリエ変換部と、
    上記逆フーリエ変換部で得られた各フレームのフレーム化信号をフレーム合成して機械音を抑圧した出力信号を得るフレーム合成部と、
    上記フレーム合成部で得られた出力信号を記録する記録部と
    を備える撮像装置。
JP2010172874A 2010-07-30 2010-07-30 機械音抑圧装置、機械音抑圧方法、プログラムおよび撮像装置 Pending JP2012032648A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010172874A JP2012032648A (ja) 2010-07-30 2010-07-30 機械音抑圧装置、機械音抑圧方法、プログラムおよび撮像装置
US13/183,531 US8913157B2 (en) 2010-07-30 2011-07-15 Mechanical noise suppression apparatus, mechanical noise suppression method, program and imaging apparatus
CN2011102073198A CN102347029A (zh) 2010-07-30 2011-07-22 机械噪音抑制装置、机械噪音抑制方法、程序和成像装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010172874A JP2012032648A (ja) 2010-07-30 2010-07-30 機械音抑圧装置、機械音抑圧方法、プログラムおよび撮像装置

Publications (1)

Publication Number Publication Date
JP2012032648A true JP2012032648A (ja) 2012-02-16

Family

ID=45526348

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010172874A Pending JP2012032648A (ja) 2010-07-30 2010-07-30 機械音抑圧装置、機械音抑圧方法、プログラムおよび撮像装置

Country Status (3)

Country Link
US (1) US8913157B2 (ja)
JP (1) JP2012032648A (ja)
CN (1) CN102347029A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015526761A (ja) * 2012-07-24 2015-09-10 コーニンクレッカ フィリップス エヌ ヴェ 指向性音マスキング
US20220262376A1 (en) * 2019-03-05 2022-08-18 Sony Group Corporation Signal processing device, method, and program

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4952769B2 (ja) * 2009-10-30 2012-06-13 株式会社ニコン 撮像装置
JP2012203040A (ja) * 2011-03-23 2012-10-22 Canon Inc 音声信号処理装置、及びその制御方法
US20130089219A1 (en) * 2011-10-05 2013-04-11 Research In Motion Limited Noise reduction in an electronic device
JP6162254B2 (ja) * 2013-01-08 2017-07-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法
US20180293995A1 (en) * 2017-04-05 2018-10-11 Microsoft Technology Licensing, Llc Ambient noise suppression
CN108564965B (zh) * 2018-04-09 2021-08-24 太原理工大学 一种抗噪语音识别***
CN112302087A (zh) * 2020-10-27 2021-02-02 柳州柳工挖掘机有限公司 一种工程机械降噪方法及工程机械
TWI792207B (zh) * 2021-03-03 2023-02-11 圓展科技股份有限公司 過濾鏡頭操作雜音的方法及錄影系統
CN114881072B (zh) * 2022-04-15 2024-07-19 东北林业大学 一种基于峰值包络谱的傅里叶分解信号降噪方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002204175A (ja) * 2000-12-28 2002-07-19 Nec Corp ノイズ除去の方法及び装置
JP2005037650A (ja) * 2003-07-14 2005-02-10 Asahi Kasei Corp 雑音低減装置
JP2006287387A (ja) * 2005-03-31 2006-10-19 Casio Comput Co Ltd 撮像装置、音声記録方法及びプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
CN1770264A (zh) * 2000-12-28 2006-05-10 日本电气株式会社 噪声估算方法和设备
JP2006279185A (ja) 2005-03-28 2006-10-12 Casio Comput Co Ltd 撮像装置、音声記録方法及びプログラム
WO2007058121A1 (ja) * 2005-11-15 2007-05-24 Nec Corporation 残響抑圧の方法、装置及び残響抑圧用プログラム
JP4836720B2 (ja) * 2006-09-07 2011-12-14 株式会社東芝 ノイズサプレス装置
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
US8521380B2 (en) * 2009-08-04 2013-08-27 Eaton Corporation Shift rail transmission position sensing with tolerance for sensor loss
ES2441069T3 (es) * 2009-10-08 2014-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, procedimiento y programa de computación que usan un modelado de ruido en base a linealidad-predicción-codificación
JP5529635B2 (ja) * 2010-06-10 2014-06-25 キヤノン株式会社 音声信号処理装置および音声信号処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002204175A (ja) * 2000-12-28 2002-07-19 Nec Corp ノイズ除去の方法及び装置
JP2005037650A (ja) * 2003-07-14 2005-02-10 Asahi Kasei Corp 雑音低減装置
JP2006287387A (ja) * 2005-03-31 2006-10-19 Casio Comput Co Ltd 撮像装置、音声記録方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015526761A (ja) * 2012-07-24 2015-09-10 コーニンクレッカ フィリップス エヌ ヴェ 指向性音マスキング
US20220262376A1 (en) * 2019-03-05 2022-08-18 Sony Group Corporation Signal processing device, method, and program

Also Published As

Publication number Publication date
US20120026345A1 (en) 2012-02-02
CN102347029A (zh) 2012-02-08
US8913157B2 (en) 2014-12-16

Similar Documents

Publication Publication Date Title
JP2012032648A (ja) 機械音抑圧装置、機械音抑圧方法、プログラムおよび撮像装置
JP4640461B2 (ja) 音量調整装置およびプログラム
US20180248531A1 (en) Loudness-Based Audio-Signal Compensation
US7224810B2 (en) Noise reduction system
US8271292B2 (en) Signal bandwidth expanding apparatus
JP4649546B2 (ja) 補聴器
KR101354308B1 (ko) 풍잡음 억압 장치, 반도체 집적 회로 및 풍잡음 억압 방법
JP5098404B2 (ja) 音声処理方法および音声処理装置
JP5351644B2 (ja) 音声記録装置及び方法、ならびに撮像装置
JP3505085B2 (ja) オーディオ装置
JP6135106B2 (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
JP6637926B2 (ja) 音声処理装置及びその制御方法
JP2009296298A (ja) 音声信号処理装置および方法
JP5529638B2 (ja) 音声処理装置及び音声処理方法、撮像装置
JP6985821B2 (ja) 音声処理装置及びその制御方法
JP6929137B2 (ja) 音声処理装置及びその制御方法
JP6877246B2 (ja) 音声処理装置及びその制御方法
JP6931296B2 (ja) 音声処理装置及びその制御方法
JP6887315B2 (ja) 音声処理装置およびその制御方法、プログラム並びに記憶媒体
JP6886352B2 (ja) 音声処理装置及びその制御方法
JP2012195772A (ja) 音声信号処理装置及びその制御方法、コンピュータプログラム
JP2012216924A (ja) 信号処理装置及び信号処理方法
JP2007251676A (ja) 音声処理装置、その方法、プログラム、及びそのプログラムを記録した記録媒体
JP6731772B2 (ja) 電子機器及び制御方法
JP2013120961A (ja) 音響機器、音質調整方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130716

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140407

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140513