JP6300464B2 - Audio processing device - Google Patents

Audio processing device Download PDF

Info

Publication number
JP6300464B2
JP6300464B2 JP2013165850A JP2013165850A JP6300464B2 JP 6300464 B2 JP6300464 B2 JP 6300464B2 JP 2013165850 A JP2013165850 A JP 2013165850A JP 2013165850 A JP2013165850 A JP 2013165850A JP 6300464 B2 JP6300464 B2 JP 6300464B2
Authority
JP
Japan
Prior art keywords
noise
unit
frequency
output
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013165850A
Other languages
Japanese (ja)
Other versions
JP2015034898A (en
JP2015034898A5 (en
Inventor
太郎 松野
太郎 松野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2013165850A priority Critical patent/JP6300464B2/en
Publication of JP2015034898A publication Critical patent/JP2015034898A/en
Publication of JP2015034898A5 publication Critical patent/JP2015034898A5/en
Application granted granted Critical
Publication of JP6300464B2 publication Critical patent/JP6300464B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声処理装置関し、特に、雑音を周波数領域で低減する音声処理装置関する。 The present invention relates to a speech processing apparatus, particularly relates to a speech processing apparatus for reducing the frequency domain noise.

従来、音声信号に混入する雑音を低減する方法として、雑音成分のスペクトルを予め計測しておき、周波数領域において入力音声信号から雑音成分を減算するスペクトルサブトラクト法(SS法)が知られている。   2. Description of the Related Art Conventionally, as a method for reducing noise mixed in a speech signal, a spectral subtract method (SS method) is known in which a spectrum of a noise component is measured in advance and the noise component is subtracted from an input speech signal in the frequency domain. .

雑音成分の減算量を規定する減算係数は、一般的には実験的に定めた固定値であるが、特許文献1に記載されるように、音声信号と雑音との比に基づいて減算係数を決定する方法も知られている。   The subtraction coefficient that defines the subtraction amount of the noise component is generally a fixed value determined experimentally. However, as described in Patent Document 1, the subtraction coefficient is determined based on the ratio between the audio signal and the noise. Methods for determining are also known.

特開2000−330597号公報JP 2000-330597 A

特許文献1に記載の技術では、音声信号の振幅が時間的に大きく変動する場合に、減衰係数が時間方向で急激に変化し、その結果、雑音低減後の音声信号の振幅(音圧)が急激に変化する。これでは、聴感上の違和感が大きく、音質が劣化してしまう。   In the technique described in Patent Document 1, when the amplitude of the audio signal varies greatly with time, the attenuation coefficient changes rapidly in the time direction. As a result, the amplitude (sound pressure) of the audio signal after noise reduction is reduced. It changes rapidly. In this case, the sense of incongruity is great and the sound quality is deteriorated.

また、減算係数の時間方向での急激な変化と、入力信号に含まれる雑音成分の時間変化とにより、周波数帯で雑音成分の除去程度が相違する事態が生じ得る。すなわち、雑音成分を除去しきれている周波数帯と、雑音成分を除去しきれていない周波数帯が生じ得る。この状態では、雑音低減後の逆フーリエ変換(IFFT)で音声信号を復元したときに、ミュージカルノイズと呼ばれる耳触りな雑音が生まれ、音質が劣化してしまう。   Further, there may occur a situation in which the degree of noise component removal differs in the frequency band due to a rapid change in the time direction of the subtraction coefficient and a time change of the noise component included in the input signal. That is, a frequency band in which the noise component has been completely removed and a frequency band in which the noise component has not been completely removed can occur. In this state, when an audio signal is restored by inverse Fourier transform (IFFT) after noise reduction, a touching noise called musical noise is produced, and the sound quality is deteriorated.

本発明は、このような不都合を解消し、少ない音質劣化で雑音を低減する音声処理装置提示することを目的とする。 It is an object of the present invention to provide a speech processing apparatus that eliminates such inconvenience and reduces noise with little deterioration in sound quality.

本発明に係る音声処理装置は、音声入力手段と、前記音声入力手段により入力された時間領域の音声信号を周波数領域の音声信号スペクトルに変換するフーリエ変換手段と、低減対象となる雑音の周波数振幅成分を示すノイズプロファイルを記憶するノイズプロファイル記憶手段と、前記フーリエ変換手段で求められた音声信号スペクトルと前記ノイズプロファイルとの比を周波数毎に求める周波数成分除算手段と、前記周波数成分除算手段により求められた周波数毎の比を周波数毎に平滑化する時間変化制御手段と、前記時間変化制御手段の出力に従い減算係数を算出する減算係数算出手段と、前記ノイズプロファイルに前記減算係数を乗算する乗算手段と、前記音声信号スペクトルから前記乗算手段の出力を減算する雑音低減手段と、前記雑音低減手段の出力を時間領域の音声信号に復元する逆フーリエ変換手段と、前記逆フーリエ変換手段により復元された音声信号を出力する音声出力手段とを有することを特徴とする。   The speech processing apparatus according to the present invention comprises: speech input means; Fourier transform means for converting a time domain voice signal input by the voice input means into a frequency domain voice signal spectrum; and frequency amplitude of noise to be reduced. A noise profile storage means for storing a noise profile indicating a component, a frequency component division means for obtaining a ratio of the audio signal spectrum obtained by the Fourier transform means and the noise profile for each frequency, and a frequency component division means. Time change control means for smoothing a ratio for each frequency for each frequency, subtraction coefficient calculation means for calculating a subtraction coefficient according to an output of the time change control means, and multiplication means for multiplying the noise profile by the subtraction coefficient Noise reduction means for subtracting the output of the multiplication means from the audio signal spectrum; Characterized in that it has the inverse Fourier transform means for restoring the output of the noise reduction means to the audio signal in the time domain, and an audio output means for outputting the audio signal restored by the inverse Fourier transform means.

本発明によれば、周波数領域における個々の周波数成分の信号対雑音比の時間変動を平滑化した後で雑音相当分を除去するので、ミュージカルノイズを軽減でき、音質を改善できる。   According to the present invention, since the noise equivalent is removed after smoothing the time variation of the signal-to-noise ratio of each frequency component in the frequency domain, the musical noise can be reduced and the sound quality can be improved.

本発明の実施例1の概略構成ブロック図を示す。1 shows a schematic block diagram of a first embodiment of the present invention. 雑音低減処理部の概略構成ブロック図を示す。The schematic block diagram of a noise reduction process part is shown. 時間変化制御部の概略構成ブロック図を示す。The schematic block diagram of a time change control part is shown. 周波数成分除算部の出力波形例である。It is an example of the output waveform of a frequency component division part. 時間変化制御部の出力波形例である。It is an example of an output waveform of a time change control part. 減算係数算出部の入出力特性の一例である。It is an example of the input-output characteristic of a subtraction coefficient calculation part. 本発明の第2実施例の概略構成ブロック図を示す。The schematic block diagram of 2nd Example of this invention is shown. 図7に示す実施例の雑音低減処理部の概略構成ブロック図を示す。The schematic block diagram of the noise reduction process part of the Example shown in FIG. 7 is shown. 図8に示す雑音低減処理部の雑音低減部の概略構成ブロック図を示す。FIG. 9 is a block diagram illustrating a schematic configuration of a noise reduction unit of the noise reduction processing unit illustrated in FIG. 8. 雑音の周波数成分の変動傾向(時間の経過で増加)を示すグラフである。It is a graph which shows the fluctuation tendency (increase with progress of time) of the frequency component of noise. 雑音の周波数成分の変動傾向(時間の経過で変化無し)を示すグラフである。It is a graph which shows the fluctuation tendency (no change with progress of time) of the frequency component of noise. 雑音の周波数成分の変動傾向(時間の経過で減少)を示すグラフである。It is a graph which shows the fluctuation tendency (decrease with progress of time) of the frequency component of noise. 減衰倍率算出部の入出力特性例である。It is an example of input / output characteristics of the attenuation factor calculation unit. 変動傾向が減少の場合の、ズーム雑音の周波数成分と時間との関係の一例を示す。An example of the relationship between the frequency component of zoom noise and time when the fluctuation tendency is decreasing is shown. fluctuation[n]=0のときの切替え例を示す。An example of switching when fluctuation [n] = 0 is shown. fluctuation[n]=1のときの切替え例を示す。An example of switching when fluctuation [n] = 1 is shown. fluctuation[n]=2のときの切替え例を示す。An example of switching when fluctuation [n] = 2 is shown. モータ位置に対する雑音の周波数成分の変動傾向の一例を示す。An example of the fluctuation | variation tendency of the frequency component of the noise with respect to a motor position is shown.

以下、図面を参照して、本発明の実施例を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明に係る音声処理装置の一実施例を組み込んだ撮像装置100の概略構成ブロック図を示す。撮像装置、特に、動画の撮像装置は、撮影レンズに電動のズームレンズを装備するのが一般的である。従って、マイクにより取得される周囲又は被写体からの音声信号にズーム操作に伴うズーム動作音が雑音として混入することがある。すなわち、ズーム駆動系が雑音発生源となりうる。以下では、このズーム操作に伴う雑音を低減する実施例を説明する。   FIG. 1 shows a schematic block diagram of an imaging apparatus 100 incorporating an embodiment of a sound processing apparatus according to the present invention. 2. Description of the Related Art In general, an imaging device, particularly a moving image imaging device, is equipped with an electric zoom lens as a photographing lens. Therefore, the zoom operation sound accompanying the zoom operation may be mixed as noise in the audio signal from the surroundings or the subject acquired by the microphone. That is, the zoom drive system can be a noise generation source. Hereinafter, an embodiment for reducing noise associated with this zoom operation will be described.

撮像装置100は、操作部101、制御部102、撮像部103、音声入力部104、雑音低減処理部105、音声出力部106、映像出力部107、メモリ108及びメモリバス109から構成される。操作部101、制御部102、撮像部103、音声入力部104、雑音低減処理部105、音声出力部106及び映像出力部107は、メモリバス109を介してメモリ108にデータを読み書きする。   The imaging apparatus 100 includes an operation unit 101, a control unit 102, an imaging unit 103, an audio input unit 104, a noise reduction processing unit 105, an audio output unit 106, a video output unit 107, a memory 108, and a memory bus 109. The operation unit 101, the control unit 102, the imaging unit 103, the audio input unit 104, the noise reduction processing unit 105, the audio output unit 106, and the video output unit 107 read / write data from / to the memory 108 via the memory bus 109.

操作部101は、ユーザの指示を撮像装置100に入力する手段であり、ボタン、タッチパネル又はズームレバー等からなる。制御部102は、撮像装置100を制御するCPU(中央演算処理装置)からなり、操作部101によるユーザからの指示に従い、メモリバス109を介して関連するブロックを制御する。   The operation unit 101 is a unit that inputs a user instruction to the imaging apparatus 100, and includes a button, a touch panel, a zoom lever, or the like. The control unit 102 includes a CPU (Central Processing Unit) that controls the imaging device 100, and controls related blocks via the memory bus 109 in accordance with an instruction from the user through the operation unit 101.

例えば、制御部102は、ユーザによる操作部101のズーム操作に従い、撮像部103のズームレンズを制御すると共に、ズーム制御情報をメモリ108の制御信号領域に記憶する。ズーム制御情報は、ズーム駆動の開示時刻及び終了時刻、ズーム駆動中を示すフラグ、ズーム動作方向、並びにズーム駆動モータの回転速度などを示す情報からなる。開始時刻は、絶対時刻でも音声取り込みからの相対時刻でも良い。終了時刻は絶対時刻でも開始からの相対時刻でもよい。詳細は後述するが、ズーム制御情報は、音声信号に混入するズーム駆動音を除去又は低減するために使用される。ズーム制御情報は、ズーム駆動により発生する雑音の鳴り始めの時間及び鳴り終わりの時間を含む雑音時間情報でもあり、メモリ108の制御信号領域はいわば雑音時間保持手段である。   For example, the control unit 102 controls the zoom lens of the imaging unit 103 according to the zoom operation of the operation unit 101 by the user, and stores the zoom control information in the control signal area of the memory 108. The zoom control information includes information indicating the disclosure time and end time of zoom driving, a flag indicating that zoom driving is in progress, the zoom operation direction, the rotation speed of the zoom driving motor, and the like. The start time may be an absolute time or a relative time from voice capture. The end time may be an absolute time or a relative time from the start. Although details will be described later, the zoom control information is used to remove or reduce zoom drive sound mixed in the audio signal. The zoom control information is also noise time information including the start time and end time of noise generated by zoom driving, and the control signal area of the memory 108 is a noise time holding means.

撮像部103は、ズーム機能を備えたレンズ、絞り、撮像センサ及びA/D変換器からなる。撮像センサは、レンズを透過して撮像面に入射する光学像を画像信号に変換し、A/D変換器が、撮像センサから出力されるアナログ画像信号をデジタル画像信号に変換する。撮像部103から出力されるデジタル画像信号は、メモリ108の画像データ領域に書き込まれる。   The imaging unit 103 includes a lens having a zoom function, a diaphragm, an imaging sensor, and an A / D converter. The imaging sensor converts an optical image that passes through the lens and enters the imaging surface into an image signal, and the A / D converter converts an analog image signal output from the imaging sensor into a digital image signal. The digital image signal output from the imaging unit 103 is written in the image data area of the memory 108.

音声入力部104は、例えば、外部の音声を取り込んで音声信号に変換するマイクのような電気音響変換素子と、そのアナログ出力をデジタル信号に変換するA/D変換器からなる。音声入力部104は、ある周波数、例えば48KHzでサンプリングされたデジタル音声信号をメモリ108の音声データ領域に書き込む。   The audio input unit 104 includes, for example, an electroacoustic conversion element such as a microphone that takes in external audio and converts it into an audio signal, and an A / D converter that converts the analog output into a digital signal. The audio input unit 104 writes a digital audio signal sampled at a certain frequency, for example, 48 KHz, in the audio data area of the memory 108.

雑音低減処理部105は、制御信号領域に記憶されたズーム制御情報に従い、メモリ108の音声データ領域に記憶された音声データに対する雑音低減処理を実行する。具体的には、雑音低減処理部105は、ズーム制御情報がズーム動作中を示すときには、メモリ108から読み出した音声データに一定期間のフレーム単位で雑音低減処理を施し、処理後の音声データをメモリ108に書き戻す。ズーム駆動中でないときには、ズーム駆動音が発生していないので、雑音低減処理部105は、メモリ108から読み出した音声データをそのままメモリ108に書き戻す。   The noise reduction processing unit 105 performs noise reduction processing on the audio data stored in the audio data area of the memory 108 in accordance with the zoom control information stored in the control signal area. Specifically, when the zoom control information indicates that the zoom operation is being performed, the noise reduction processing unit 105 performs noise reduction processing on the audio data read from the memory 108 in units of frames for a certain period, and stores the processed audio data in the memory. Write back to 108. When zoom driving is not in progress, no zoom driving sound is generated, so the noise reduction processing unit 105 writes the audio data read from the memory 108 as it is into the memory 108.

雑音低減処理前の音声データを処理後の音声データとは別にメモリ108上に確保する必要が無い場合には、雑音低減処理部105から出力される音声データを、メモリ108の音声データ領域の処理前の音声データに上書きしてもよい。そもそも、雑音低減処理を行わない音声データ部分については、メモリ108から読み出さなくてもよい。   When it is not necessary to secure the audio data before the noise reduction processing on the memory 108 separately from the processed audio data, the audio data output from the noise reduction processing unit 105 is processed in the audio data area of the memory 108. The previous audio data may be overwritten. In the first place, it is not necessary to read out from the memory 108 the audio data portion for which noise reduction processing is not performed.

音声出力部106は、音声データをアナログ音声信号に変換するD/A変換器と、スピーカ及び音声出力端子からなる。音声出力部106は、メモリ108の音声データ領域から音声データを読み出し、アナログ音声信号に変換し、スピーカから音響出力し、音声出力端子から外部に出力する。   The audio output unit 106 includes a D / A converter that converts audio data into an analog audio signal, a speaker, and an audio output terminal. The audio output unit 106 reads out audio data from the audio data area of the memory 108, converts it into an analog audio signal, outputs sound from a speaker, and outputs the sound from the audio output terminal to the outside.

映像出力部107は、いわゆる表示装置であり、メモリ108の画像データ領域から画像データを読み出して、その画像を表示する。   The video output unit 107 is a so-called display device, reads image data from the image data area of the memory 108, and displays the image.

メモリ108は、高速でランダムアクセス可能なダイナミックRAMである。メモリ108の記憶領域は、音声データを記憶する音声データ領域、画像データを記憶する画像データ領域及び制御信号を記憶する制御信号領域に区分される。制御部102は、メモリ108に格納される音声データ、画像データ及び制御信号を、フレームごとにどの時刻のデータであるかを識別できるように管理する。   The memory 108 is a dynamic RAM that can be randomly accessed at high speed. The storage area of the memory 108 is divided into an audio data area for storing audio data, an image data area for storing image data, and a control signal area for storing control signals. The control unit 102 manages the audio data, the image data, and the control signal stored in the memory 108 so that it can be identified at which time each frame data.

図示しないメモリ制御回路が、メモリバス109に接続する各ブロックからのメモリバス109を介したメモリ108へのアクセスを調停し、時分割でのメモリ108への読み書きを可能にする。   A memory control circuit (not shown) arbitrates access to the memory 108 from each block connected to the memory bus 109 via the memory bus 109, and enables read / write to the memory 108 in time division.

図2は、雑音低減処理部105の概略構成ブロック図を示す。信号入力制御部201はメモリバス109とのインターフェースである。メモリ108の音声データ領域に記憶されている音声データと制御信号領域に記憶されているズーム制御情報が、メモリバス109を介して信号入力制御部201に入力する。信号入力制御部201は入力する音声データを所定の一定区間毎にフレーム分割し、ズーム制御情報に従い、雑音低減処理をするときにはフーリエ変換部202に供給し、雑音低減処理をしないときには信号出力制御部210に供給する。すなわち、ズーム制御情報がズーム中、即ち、ズーム駆動による雑音発生中(とその可能性)を示すときには、信号入力制御部201は、音声データをフーリエ変換部202に供給する。他方、ズーム制御情報がズーム中でないとき、即ち、ズーム駆動による雑音が発生しない状態を示すとき、信号入力制御部201は、音声データを信号出力制御部210に供給する。何れの場合でも、信号入力制御部201は、ズーム制御情報を信号出力制御部210に供給する。   FIG. 2 shows a schematic block diagram of the noise reduction processing unit 105. The signal input control unit 201 is an interface with the memory bus 109. Audio data stored in the audio data area of the memory 108 and zoom control information stored in the control signal area are input to the signal input control unit 201 via the memory bus 109. The signal input control unit 201 divides the input audio data into frames at predetermined predetermined intervals, and supplies them to the Fourier transform unit 202 when noise reduction processing is performed according to zoom control information, and the signal output control unit when noise reduction processing is not performed 210 is supplied. That is, when the zoom control information indicates that zooming is in progress, that is, noise is being generated due to zoom driving (and the possibility thereof), the signal input control unit 201 supplies audio data to the Fourier transform unit 202. On the other hand, when the zoom control information is not being zoomed, that is, when the zoom control information indicates a state in which noise due to zoom driving does not occur, the signal input control unit 201 supplies audio data to the signal output control unit 210. In any case, the signal input control unit 201 supplies zoom control information to the signal output control unit 210.

フーリエ変換部202は、信号入力制御部201からのフレーム分割された音声データをフーリエ変換し、周波数毎の位相情報と、周波数毎の振幅の絶対値(周波数振幅成分)を算出する。フーリエ変換部202は、周波数毎の周波数振幅成分を周波数成分除算部204と雑音低減部208に供給し、周波数毎の位相情報を逆フーリエ変換部209に供給する。   The Fourier transform unit 202 performs Fourier transform on the frame-divided audio data from the signal input control unit 201, and calculates phase information for each frequency and an absolute value (frequency amplitude component) of the amplitude for each frequency. The Fourier transform unit 202 supplies a frequency amplitude component for each frequency to the frequency component division unit 204 and the noise reduction unit 208, and supplies phase information for each frequency to the inverse Fourier transform unit 209.

ノイズプロファイル記憶部203は、低減対象となる雑音(ここでは、ズーム駆動音等のズーム駆動時に発生する雑音)の周波数振幅成分をノイズプロファイルとして記憶する。具体的には、低減対象となる雑音のみから成る音声信号をフーリエ変換し、得られた周波数振幅成分を得る。低減対象となる雑音がある程度の時間(例えば4秒間)続く場合、雑音が続く時間内における周波数成分の時間変化に対してピークホールドしたものをノイズプロファイルとする。   The noise profile storage unit 203 stores a frequency amplitude component of noise to be reduced (here, noise generated during zoom driving such as zoom driving sound) as a noise profile. Specifically, an audio signal consisting only of noise to be reduced is subjected to Fourier transform to obtain the obtained frequency amplitude component. When the noise to be reduced continues for a certain period of time (for example, 4 seconds), a noise profile is obtained by peak-holding with respect to the time change of the frequency component within the time that the noise continues.

ノイズプロファイル記憶部203に記憶するノイズプロファイルは、復元可能に圧縮されていてもよい。但し、この場合、復元のための伸長手段をノイズプロファイル記憶部203の出力段に配置する必要がある。ノイズプロファイル記憶部203は、記憶しているノイズプロファイルを、周波数成分除算部204と乗算器207に読み出す。   The noise profile stored in the noise profile storage unit 203 may be compressed so that it can be restored. In this case, however, decompression means for restoration needs to be arranged at the output stage of the noise profile storage unit 203. The noise profile storage unit 203 reads out the stored noise profile to the frequency component division unit 204 and the multiplier 207.

周波数成分除算部204は周波数毎の除算器からなり、フーリエ変換部202からの周波数振幅成分(A)をノイズプロファイル記憶部203からのノイズプロファイルの対応する周波数の値(B)で周波数毎に除算する。周波数成分除算部204は、周波数毎の除算結果を時間変化制御部205に供給する。   The frequency component division unit 204 includes a frequency divider, and divides the frequency amplitude component (A) from the Fourier transform unit 202 by the frequency value (B) corresponding to the noise profile from the noise profile storage unit 203 for each frequency. To do. The frequency component division unit 204 supplies the division result for each frequency to the time change control unit 205.

時間変化制御部205は実質的にはローパスフィルタ(LPF)からなり、周波数成分除算部204からの周波数毎の除算結果を時間軸上で平滑化する。時間変化制御部205の具体的な構成は後述する。時間変化制御部205は、周波数毎のフィルタ結果、すなわち低域成分を減算係数算出部206に出力する。   The time change control unit 205 substantially includes a low-pass filter (LPF), and smoothes the division result for each frequency from the frequency component division unit 204 on the time axis. A specific configuration of the time change control unit 205 will be described later. The time change control unit 205 outputs the filter result for each frequency, that is, the low frequency component, to the subtraction coefficient calculation unit 206.

減算係数算出部206は、時間変化制御部205からの周波数毎の時間変化の低域成分量から周波数毎の減算係数(ノイズプロファイルに対する重み係数)を算出し、乗算器207に出力する。減算係数算出部206の具体的な構成は後述する。   The subtraction coefficient calculation unit 206 calculates a subtraction coefficient for each frequency (weight coefficient for the noise profile) from the low frequency component amount of the time change for each frequency from the time change control unit 205, and outputs it to the multiplier 207. A specific configuration of the subtraction coefficient calculation unit 206 will be described later.

乗算器207は、減算係数算出部206からの周波数毎の減算係数をノイズプロファイル記憶部203から読み出されたノイズプロファイルの対応する周波数成分の値に乗算する。換言すると、乗算器207は、ノイズプロファイル記憶部203から読み出されたノイズプロファイルの強度を減算係数算出部206からの周波数毎の減算係数(重み係数)で調整する。この点で、乗算器207の出力は重み付きノイズスペクトルを示す。   The multiplier 207 multiplies the subtraction coefficient for each frequency from the subtraction coefficient calculation unit 206 by the value of the corresponding frequency component of the noise profile read from the noise profile storage unit 203. In other words, the multiplier 207 adjusts the intensity of the noise profile read from the noise profile storage unit 203 by the subtraction coefficient (weighting coefficient) for each frequency from the subtraction coefficient calculation unit 206. At this point, the output of multiplier 207 exhibits a weighted noise spectrum.

雑音低減部208は減算器からなり、フーリエ変換部202からの周波数振幅成分から、乗算器207からの重み付きノイズスペクトルを対応する周波数同士で減算する。この減算処理により、周波数領域でズーム駆動に起因する雑音が低減される。雑音低減部208の出力信号は雑音低減後の音声信号のスペクトルを示し、逆フーリエ変換部209に入力する。   The noise reduction unit 208 includes a subtracter, and subtracts the weighted noise spectrum from the multiplier 207 from the corresponding frequencies from the frequency amplitude component from the Fourier transform unit 202. By this subtraction process, noise caused by zoom driving is reduced in the frequency domain. The output signal of the noise reduction unit 208 indicates the spectrum of the speech signal after noise reduction, and is input to the inverse Fourier transform unit 209.

逆フーリエ変換部209は、雑音低減部208からの音声信号スペクトルを、フーリエ変換部202からの位相情報を用いて逆フーリエ変換する。これにより、雑音低減した時間領域の音声データを得ることができる。逆フーリエ変換部209は、逆フーリエ変換により復元された音声データを信号出力制御部210に供給する。   The inverse Fourier transform unit 209 performs inverse Fourier transform on the audio signal spectrum from the noise reduction unit 208 using the phase information from the Fourier transform unit 202. This makes it possible to obtain time-domain audio data with reduced noise. The inverse Fourier transform unit 209 supplies the audio data restored by the inverse Fourier transform to the signal output control unit 210.

信号出力制御部210は、メモリバス109に対するインターフェースである。信号出力制御部210は、信号入力制御部201からのズーム制御情報に従い、雑音低減処理をするときには、逆フーリエ変換部209からの音声データを選択して、メモリバス109に出力する。また、信号出力制御部210は、ズーム制御情報に従い、雑音低減処理をしないときには、信号入力制御部201からのフレーム分割された音声データを選択し、フレーム合成して、メモリバス109に出力する。なお、信号出力制御部210の、信号入力制御部201からの音声信号が入力するポートには、フーリエ変換部202から逆フーリエ変換部209まで部分での処理時間に相当する遅延を与える遅延器を配置してある。   The signal output control unit 210 is an interface to the memory bus 109. The signal output control unit 210 selects the audio data from the inverse Fourier transform unit 209 and outputs it to the memory bus 109 when performing noise reduction processing according to the zoom control information from the signal input control unit 201. Further, the signal output control unit 210 selects the audio data divided into frames from the signal input control unit 201 according to the zoom control information, performs frame synthesis, and outputs the frame data to the memory bus 109. Note that a delay unit that gives a delay corresponding to the processing time in the portion from the Fourier transform unit 202 to the inverse Fourier transform unit 209 is provided at a port of the signal output control unit 210 to which the audio signal from the signal input control unit 201 is input. It is arranged.

撮像装置100の動画撮影の際に音声に混入するズーム動作音を雑音として低減する動作を説明する。   An operation for reducing, as noise, a zoom operation sound mixed in the sound when the image capturing apparatus 100 captures a moving image will be described.

まず、ユーザが操作部101により動画撮影開始を撮像装置100に指示したとする。制御部102は操作部101からの指示に従い、各ブロックを動画撮影用に始動する。例えば、撮像部103は、撮影による動画像の画像データをメモリ108の画像データ領域に書き込み、音声入力部104は、周囲又は被写体の音声を取り込み、その音声データをメモリ108の音声データ領域に書き込む。   First, it is assumed that the user instructs the imaging apparatus 100 to start moving image shooting using the operation unit 101. The control unit 102 starts each block for moving image shooting in accordance with an instruction from the operation unit 101. For example, the imaging unit 103 writes image data of a moving image obtained by shooting in the image data area of the memory 108, and the audio input unit 104 takes in the sound of the surrounding or subject and writes the audio data in the audio data area of the memory 108. .

動画撮影中に、ユーザが操作部101でズーム操作を制御部102に指示したとする。制御部102は、操作部101からのズーム操作信号に従うズーム制御信号を撮像部103に供給すると同時に、メモリ108の制御信号領域にズーム制御情報を書き込む。撮像部103は、制御部102からのズーム制御信号に従いズームレンズを駆動する。このとき、ズーム駆動のためのモータとレンズ鏡筒等が回転動作し、雑音を発生する。音声入力部104は、この雑音を本来の周囲又は被写体からの音声と一緒に取り込む。音声入力部104は、取り込んだ音声の音声データをメモリ108の音声データ領域に書き込む。   Assume that the user instructs the control unit 102 to perform a zoom operation using the operation unit 101 during moving image shooting. The control unit 102 supplies the zoom control signal in accordance with the zoom operation signal from the operation unit 101 to the imaging unit 103 and simultaneously writes the zoom control information in the control signal area of the memory 108. The imaging unit 103 drives the zoom lens according to the zoom control signal from the control unit 102. At this time, the motor for driving the zoom, the lens barrel, and the like rotate to generate noise. The voice input unit 104 captures this noise together with the voice from the original surroundings or subject. The voice input unit 104 writes the voice data of the fetched voice into the voice data area of the memory 108.

雑音低減処理部105は、メモリ108の音声データ領域に記憶される音声データとメモリ108の制御信号領域に記憶されるズーム制御情報を読み込み、ズーム制御情報に従い音声データへの雑音低減処理の有無を切り替える。すなわち、雑音低減処理部105は、ズームが動作していないときの音声データには雑音低減処理を行わず、読み込んだ音声データをそのままメモリ108の音声データ領域に書き戻す。他方、雑音低減処理部105は、ズームが動作している時に入力された音声データには雑音低減処理を行い、雑音低減処理後の音声データをメモリ108の音声データ領域に書き戻す。   The noise reduction processing unit 105 reads audio data stored in the audio data area of the memory 108 and zoom control information stored in the control signal area of the memory 108, and determines whether or not noise reduction processing is performed on the audio data according to the zoom control information. Switch. That is, the noise reduction processing unit 105 does not perform noise reduction processing on the audio data when the zoom is not operating, and rewrites the read audio data as it is in the audio data area of the memory 108. On the other hand, the noise reduction processing unit 105 performs noise reduction processing on the audio data input when the zoom is operating, and writes the audio data after the noise reduction processing back to the audio data area of the memory 108.

取り込まれた音声を出力する場合、音声出力部106が、メモリ108の音声データ領域の雑音低減された音声データを読み出して音響出力する。また、映像出力部107が、メモリ108の画像データ領域に記憶されている画像データを読み出して、動画として出力する。   When outputting the captured sound, the sound output unit 106 reads out the sound data with reduced noise in the sound data area of the memory 108 and outputs it as sound. Further, the video output unit 107 reads out the image data stored in the image data area of the memory 108 and outputs it as a moving image.

音声入力部104により入力される音声データの雑音低減処理部105による雑音低減処理を具体的に説明する。ここでは、説明例として、音声入力部104のA/D変換におけるサンプリング周波数は48kHzとする。FFTのためのフレーム分割単位は1024点、すなわち、フーリエ変換部202及び逆フーリエ変換部209の周波数分解能は1024点とする。つまり、フーリエ変換部202のフーリエ変換結果は、512点のスペクトルで24kHzまでの周波数成分を表すことになる。   The noise reduction processing by the noise reduction processing unit 105 of the voice data input by the voice input unit 104 will be specifically described. Here, as an illustrative example, the sampling frequency in the A / D conversion of the voice input unit 104 is 48 kHz. The frame division unit for FFT is 1024 points, that is, the frequency resolution of the Fourier transform unit 202 and the inverse Fourier transform unit 209 is 1024 points. That is, the Fourier transform result of the Fourier transform unit 202 represents frequency components up to 24 kHz with a spectrum of 512 points.

ノイズプロファイル記憶部203に記憶されているノイズプロファイルは、低減対象とする雑音(ここではズーム雑音)のみで構成される音声信号をフーリエ変換することで得られる。事前に、音声入力部104にこの雑音のみを取り込み、信号入力制御部201でフレーム分割し、フーリエ変換部202でフーリエ変換する。この処理で得られる512点までの周波数成分を時間方向にフレームをまたいでピークホールドしたものをノイズプロファイルとしてノイズプロファイル記憶部203に格納する。ノイズプロファイルをprofile[n]と表現する。但し、n=0,1,2,3,・・・・,511である。   The noise profile stored in the noise profile storage unit 203 is obtained by performing Fourier transform on an audio signal composed only of noise to be reduced (here, zoom noise). In advance, only this noise is captured in the voice input unit 104, the signal input control unit 201 divides the frame, and the Fourier transform unit 202 performs Fourier transform. The frequency components obtained up to 512 points obtained by this processing and peak-held across frames in the time direction are stored in the noise profile storage unit 203 as a noise profile. The noise profile is expressed as profile [n]. However, n = 0, 1, 2, 3,... 511.

雑音低減処理部105の信号入力制御部201は、メモリ108の音声データ領域に記憶されている音声データを、メモリバス109を通して読み出し、1024サンプル毎にフレーム分割する。このとき、メモリ108に記憶されているズーム制御情報も読み出し、ズーム動作中の音声データでなければ音声データを信号出力制御部210に供給し、ズーム動作中の音声データであれば音声データをフーリエ変換部202に供給する。   The signal input control unit 201 of the noise reduction processing unit 105 reads the audio data stored in the audio data area of the memory 108 through the memory bus 109 and divides the frame every 1024 samples. At this time, the zoom control information stored in the memory 108 is also read, and if the audio data is not in the zoom operation, the audio data is supplied to the signal output control unit 210. If the audio data is in the zoom operation, the audio data is Fourier transformed. This is supplied to the conversion unit 202.

フーリエ変換部202は、信号入力制御部201からの1024点の音声データをフーリエ変換する。フーリエ変換結果をsound_fft[N]と表現する。但し、N=0,1,2,3,・・・・,1023である。   The Fourier transform unit 202 performs Fourier transform on the 1024 points of audio data from the signal input control unit 201. The Fourier transform result is expressed as sound_fft [N]. However, N = 0, 1, 2, 3,..., 1023.

フーリエ変換部202は、フーリエ変換結果のうちの前半の512点までの結果を周波数成分除算部204と雑音低減部208に供給する。フーリエ変換部202は、フーリエ変換結果のうちの前半の512点までの結果をsound_fft[n]と表現する。但し、n=0,1,2,3,・・・・,511である。   The Fourier transform unit 202 supplies the results up to 512 points in the first half of the Fourier transform results to the frequency component division unit 204 and the noise reduction unit 208. The Fourier transform unit 202 expresses the results up to 512 points in the first half of the Fourier transform results as sound_fft [n]. However, n = 0, 1, 2, 3,... 511.

周波数成分除算部204は、フーリエ変換部202からのフーリエ変換結果sound_fft[n]をノイズプロファイル記憶部203からのノイズプロファイルprofile[n]で除算する。除算結果はいわゆる信号対雑音比(SN比)であり、
signal_noise[n]
=sound_fft[n]/profile[n]
となる。n=0,1,2,・・・・,511である。
The frequency component division unit 204 divides the Fourier transform result sound_fft [n] from the Fourier transform unit 202 by the noise profile profile [n] from the noise profile storage unit 203. The division result is the so-called signal-to-noise ratio (S / N ratio),
signal_noise [n]
= Sound_fft [n] / profile [n]
It becomes. n = 0, 1, 2,..., 511.

この演算結果の数値が大きい周波数には、所望音声(周囲又は被写体からの音声)の周波数成分に、低減処理すべき雑音の周波数成分が重畳していると考えられる。逆に、SN比が1に近ければ近いほど、その周波数における、低減対象となる雑音の占める割合が大きいと考えられる。また、SN比が1以下の値であった場合は、低減処理すべき雑音の周波数成分がノイズプロファイルに対して変化していると考えられる。   It is considered that the frequency component of the noise to be reduced is superimposed on the frequency component of the desired sound (sound from the surrounding or the subject) at the frequency where the numerical value of the calculation result is large. On the contrary, it is considered that the closer the S / N ratio is to 1, the greater the proportion of noise to be reduced at that frequency. Further, when the SN ratio is a value of 1 or less, it is considered that the frequency component of noise to be reduced has changed with respect to the noise profile.

時間変化制御部205は、周波数成分除算部204の除算結果signal_noise[n]に、時間方向への巡回型ローパスフィルタをかける。図3は、時間変化制御部205の概略構成ブロック図を示す。時間変化制御部205は、加算器301、前フレームの雑音低減処理で算出された値を保持するレジスタ302、1以下の係数coefを乗算する乗算器303、係数(1−coef)を乗算する乗算器304から構成される。係数coefは実験的に求められる値である。   The time change control unit 205 applies a cyclic low-pass filter in the time direction to the division result signal_noise [n] of the frequency component division unit 204. FIG. 3 shows a schematic block diagram of the time change control unit 205. The time change control unit 205 includes an adder 301, a register 302 that holds a value calculated in the noise reduction process of the previous frame, a multiplier 303 that multiplies a coefficient coef of 1 or less, and a multiplication that multiplies a coefficient (1-coef). The unit 304 is configured. The coefficient coef is a value obtained experimentally.

周波数成分除算部204の演算結果signal_noise[n]が加算器301に入力する。ここでFはフレーム番号を表し、n=0,1,2,・・・・,511である。加算器301は、周波数成分除算部204の出力signal_noise[n]にレジスタ302の保持値Reg[n]を加算し、加算結果tmp[n]を出力する。レジスタ302は、前フレームの加算器301の出力tmp[nF-1]に係数(1−coef)を乗算した結果をReg[n]として保持する。すなわち、
Reg[n
=(signal_noise[nF−1]+Reg[nF−1])×(1−coef)
tmp[n
=signal_noise[n]+Reg[n
である。
The calculation result signal_noise [n F ] of the frequency component division unit 204 is input to the adder 301. Here, F represents a frame number, and n F = 0, 1, 2,. The adder 301 adds the holding value Reg [n F ] of the register 302 to the output signal_noise [n F ] of the frequency component division unit 204, and outputs the addition result tmp [n F ]. The register 302 holds the result of multiplying the output tmp [n F−1 ] of the adder 301 of the previous frame by the coefficient (1-coef) as Reg [n F ]. That is,
Reg [n F ]
= (Signal_noise [n F-1 ] + Reg [n F-1 ]) × (1-coef)
tmp [n F ]
= Signal_noise [n F ] + Reg [n F ]
It is.

乗算器303は、加算器301の出力tmp[n]に係数coefを乗算する。乗算器303の出力は時間変化制御部205の出力であり、
output_LPF[n]=tmp[n]×coef
と表される。
The multiplier 303 multiplies the output tmp [n F ] of the adder 301 by the coefficient coef. The output of the multiplier 303 is the output of the time change control unit 205,
output_LPF [n F ] = tmp [n F ] × coef
It is expressed.

以上のように、時間変化制御部205は周波数成分除算部204の演算結果に時間方向へのローパスフィルタをかける。このローパスフィルタ処理により、周波数成分除算部204の出力、すなわちSN比の時間方向への急変を抑制できる。例えば、周波数成分除算部204の出力が図4に示すような時間変化を示す場合に、時間変化制御部205の出力は、図5に示すように、高周波数成分が低減した、よりスムーズな変化を示す。   As described above, the time change control unit 205 applies the low-pass filter in the time direction to the calculation result of the frequency component division unit 204. By this low-pass filter process, it is possible to suppress the output of the frequency component division unit 204, that is, the sudden change in the SN ratio in the time direction. For example, when the output of the frequency component dividing unit 204 shows a time change as shown in FIG. 4, the output of the time change control unit 205 is a smoother change with a reduced high frequency component as shown in FIG. Indicates.

時間変化制御部205で時間変化を緩和した結果に従い減算係数算出部206が、ノイズプロファイルに対する重み係数を決定するので、決定される重み係数は、SN比の急激な変動の影響を受けにくくなる。この結果、ミュージカルノイズを低減した雑音低減を実現でき、音質劣化を改善出来る。   Since the subtraction coefficient calculation unit 206 determines the weighting coefficient for the noise profile according to the result of relaxing the time change by the time change control unit 205, the determined weighting coefficient is not easily affected by a sudden change in the SN ratio. As a result, noise reduction with reduced musical noise can be realized, and sound quality deterioration can be improved.

以後の説明では、フレーム番号Fが影響しないので、フレー番号Fの表記を省略する。 In the following description, the frame number F is not affected, omitted representation of frame number F.

減算係数算出部206は、時間変化制御部205の演算結果output_LPF[n]を用いて減算係数γ[n]を算出又は決定する。減算係数算出部206は例えば、図6に示すようにoutput_LPF[n]の値によって一意に減算係数γ[n]を決定するルックアップテーブルからなる。   The subtraction coefficient calculation unit 206 calculates or determines the subtraction coefficient γ [n] using the calculation result output_LPF [n] of the time change control unit 205. The subtraction coefficient calculation unit 206 includes, for example, a lookup table that uniquely determines the subtraction coefficient γ [n] based on the value of output_LPF [n] as shown in FIG.

減算係数算出部206は、図6に示すように、output_LPF[n]の値が大きくなればなるほど減算係数γ[n]を小さくし、一定値以上で一定値にする。この理由は次の通りである。すなわち、output_LPF[n]が十分に大きい場合は、低減対象とする雑音の周波数成分に対して、十分大きな所望音声の周波数成分が重畳されている。このとき、マスキング効果により、人間の聴覚は雑音をほぼ知覚できなくなるので、減算係数γ[n]を小さくすることで、所望音声の劣化を抑制する。減算係数算出部206は、周波数毎に決定した減算係数γ[n]を乗算器207に供給する。   As illustrated in FIG. 6, the subtraction coefficient calculation unit 206 decreases the subtraction coefficient γ [n] as the value of output_LPF [n] increases, and sets a constant value equal to or greater than a certain value. The reason is as follows. That is, when output_LPF [n] is sufficiently large, a sufficiently large frequency component of the desired speech is superimposed on the frequency component of noise to be reduced. At this time, the human auditory sense can hardly perceive the noise due to the masking effect. Therefore, by reducing the subtraction coefficient γ [n], deterioration of the desired speech is suppressed. The subtraction coefficient calculation unit 206 supplies the subtraction coefficient γ [n] determined for each frequency to the multiplier 207.

乗算器207は、ノイズプロファイル記憶部203からのプロファイルprofile[n]に減算係数算出部206からの減算係数γ[n]を周波数毎に乗算する。これにより、低減すべき雑音量sub_profile[n]が周波数ごとに決定される。すなわち、
sub_profile[n]=profile[n]×γ[n]
である。
The multiplier 207 multiplies the profile profile [n] from the noise profile storage unit 203 by the subtraction coefficient γ [n] from the subtraction coefficient calculation unit 206 for each frequency. Thereby, the noise amount sub_profile [n] to be reduced is determined for each frequency. That is,
sub_profile [n] = profile [n] × γ [n]
It is.

雑音低減部208は、フーリエ変換部202からの周波数振幅成分sound_fft[n]から乗算器207からの雑音相当量を周波数ごとに減算し、雑音低減スペクトルafter_subtract[n]を出力する。すなわち、
after_subtract[n]
=sound_fft[n]−sub_profile[n]
となる。
The noise reduction unit 208 subtracts the noise equivalent amount from the multiplier 207 from the frequency amplitude component sound_fft [n] from the Fourier transform unit 202 for each frequency, and outputs a noise reduction spectrum after_subtract [n]. That is,
after_subtract [n]
= Sound_fft [n] -sub_profile [n]
It becomes.

逆フーリエ変換部209は、雑音低減部208からの512点の雑音低減スペクトルafter_subtract[n](n=0,1,2,…,511)を1024点に拡張する。拡張後の雑音低減スペクトルをafter_subtract2[N]とし、N=0、1、2、・・・、1023とする。N<512では、after_subtract2[N]
=after_subtract[n]
とする。N=512では、
after_subtract2[N]=0
とする。N>512では、
after_subtract2[N]
=after_subtract[1024−N]
とする。
The inverse Fourier transform unit 209 extends the 512-point noise reduction spectrum after_subtract [n] (n = 0, 1, 2,..., 511) from the noise reduction unit 208 to 1024 points. The expanded noise reduction spectrum is set to after_subtract2 [N], and N = 0, 1, 2,. If N <512, after_subtract2 [N]
= After_subtract [n]
And For N = 512,
after_subtract2 [N] = 0
And For N> 512,
after_subtract2 [N]
= After_subtract [1024-N]
And

逆フーリエ変換部209は、1024点に拡張した雑音低減スペクトルafter_subtract2[N]を、フーリエ変換部202からの位相情報を用いて逆フーリエ変換する。これにより、周波数領域でズーム雑音を低減した音声データが得られる。逆フーリエ変換部209は、このようにして得られた音声データを信号出力制御部210に供給する。   The inverse Fourier transform unit 209 performs inverse Fourier transform on the noise reduction spectrum after_subtract2 [N] expanded to 1024 points using the phase information from the Fourier transform unit 202. Thereby, audio data with reduced zoom noise in the frequency domain can be obtained. The inverse Fourier transform unit 209 supplies the audio data obtained in this way to the signal output control unit 210.

信号出力制御部210は、逆フーリエ変換部209からの音声データをフレーム毎に繋ぎ合わせ、メモリバス109を通してメモリ108の音声データ領域に書き戻す。   The signal output control unit 210 connects the audio data from the inverse Fourier transform unit 209 for each frame, and writes it back to the audio data area of the memory 108 through the memory bus 109.

本実施例では、ズーム非動作時の音声データを雑音低減処理部105がメモリ108から読み出してメモリ108に書き戻すようにしているが、雑音低減処理部105を経由させないようにしてもよい。この場合、雑音低減処理部105の信号入力制御部201から信号出力制御部210に直接至る信号路は不要となる。   In this embodiment, the noise reduction processing unit 105 reads out the audio data when the zoom is not operated from the memory 108 and writes it back to the memory 108. However, the audio data may not be passed through the noise reduction processing unit 105. In this case, a signal path directly from the signal input control unit 201 of the noise reduction processing unit 105 to the signal output control unit 210 is unnecessary.

図7は、本発明の第2実施例の概略構成ブロック図を示し、図8は、雑音低減処理部705の概略構成ブロック図を示す。図7に示す撮像装置700は、操作部701、制御部702、撮像部703、音声入力部704、雑音低減処理部705、音声出力部706、映像出力部707、メモリ708及びメモリバス709から構成される。雑音低減処理部705以外のブロック701〜704,706〜709はそれぞれ、図1に示す実施例の対応するブロック101〜104,106〜109と同じ機能を果たすので、詳細な説明を省略する。   FIG. 7 shows a schematic block diagram of the second embodiment of the present invention, and FIG. 8 shows a schematic block diagram of the noise reduction processing unit 705. An imaging apparatus 700 illustrated in FIG. 7 includes an operation unit 701, a control unit 702, an imaging unit 703, an audio input unit 704, a noise reduction processing unit 705, an audio output unit 706, a video output unit 707, a memory 708, and a memory bus 709. Is done. The blocks 701 to 704 and 706 to 709 other than the noise reduction processing unit 705 perform the same functions as the corresponding blocks 101 to 104 and 106 to 109 of the embodiment shown in FIG.

雑音低減処理部705は、制御信号領域に記憶されたズーム制御情報に従い、メモリ708の音声データ領域に記憶された音声データに対する雑音低減処理を実行する。具体的には、雑音低減処理部705は、ズーム制御情報がズーム動作中を示すときには、メモリ708から読み出した音声データに一定期間のフレーム単位で雑音低減処理を施し、処理後の音声データをメモリ708に書き戻す。ズーム駆動中でないときには、ズーム駆動音が発生していないので、雑音低減処理部705は、メモリ708から読み出した音声データをそのままメモリ708に書き戻す。   The noise reduction processing unit 705 performs noise reduction processing on the audio data stored in the audio data area of the memory 708 in accordance with the zoom control information stored in the control signal area. Specifically, when the zoom control information indicates that the zoom operation is being performed, the noise reduction processing unit 705 performs noise reduction processing on the audio data read from the memory 708 in units of frames for a certain period, and stores the processed audio data in the memory Write back to 708. When zoom driving is not being performed, zoom driving sound is not generated, so the noise reduction processing unit 705 writes the audio data read from the memory 708 back to the memory 708 as it is.

図8を参照して、雑音低減処理部705の構成と雑音低減動作を詳細に説明する。   The configuration and noise reduction operation of the noise reduction processing unit 705 will be described in detail with reference to FIG.

信号入力制御部801はメモリバス709とのインターフェースである。メモリ708の音声データ領域に記憶されている音声データと制御信号領域に記憶されているズーム制御情報が、メモリバス709を介して信号入力制御部801に入力する。信号入力制御部801は入力する音声データを所定の一定区間毎にフレーム分割し、ズーム制御情報に従い、雑音低減処理をするときにはフーリエ変換部802に供給し、雑音低減処理をしないときには信号出力制御部811に供給する。すなわち、ズーム制御情報がズーム中、即ち、ズーム駆動による雑音発生中(とその可能性)を示すときには、信号入力制御部801は、音声データをフーリエ変換部802に供給する。他方、ズーム制御情報がズーム中でないとき、即ち、ズーム駆動による雑音が発生しない状態を示すとき、信号入力制御部801は、音声データを信号出力制御部811に供給する。何れの場合でも、信号入力制御部801は、ズーム制御情報を信号出力制御部811に供給する。   The signal input control unit 801 is an interface with the memory bus 709. Audio data stored in the audio data area of the memory 708 and zoom control information stored in the control signal area are input to the signal input control unit 801 via the memory bus 709. The signal input control unit 801 divides the input audio data into frames at predetermined intervals, and supplies them to the Fourier transform unit 802 when noise reduction processing is performed according to zoom control information, and the signal output control unit when noise reduction processing is not performed. 811. That is, when the zoom control information indicates that zooming is in progress, that is, noise is being generated due to zoom driving (and the possibility thereof), the signal input control unit 801 supplies audio data to the Fourier transform unit 802. On the other hand, when the zoom control information is not during zooming, that is, when the zoom control information indicates a state in which noise due to zoom driving does not occur, the signal input control unit 801 supplies audio data to the signal output control unit 811. In any case, the signal input control unit 801 supplies zoom control information to the signal output control unit 811.

フーリエ変換部802は、フーリエ変換部202と同様に動作し、信号入力制御部801からのフレーム分割された音声データをフーリエ変換し、周波数毎の位相情報と、周波数毎の振幅の絶対値(周波数振幅成分)を算出する。フーリエ変換部802は、周波数毎の周波数振幅成分を周波数成分除算部804と雑音低減部809に供給し、周波数毎の位相情報を逆フーリエ変換部810に供給する。   The Fourier transform unit 802 operates in the same manner as the Fourier transform unit 202, performs Fourier transform on the frame-divided audio data from the signal input control unit 801, and performs phase information for each frequency and the absolute value of the amplitude for each frequency (frequency (Amplitude component) is calculated. The Fourier transform unit 802 supplies the frequency amplitude component for each frequency to the frequency component division unit 804 and the noise reduction unit 809, and supplies phase information for each frequency to the inverse Fourier transform unit 810.

ノイズプロファイル記憶部803は、ノイズプロファイル記憶部203と同様に、低減対象となる雑音(ここでは、ズーム駆動音等のズーム駆動時に発生する雑音)の周波数振幅成分をノイズプロファイルとして記憶する。ノイズプロファイル記憶部803は、記憶しているノイズプロファイルを、周波数成分除算部804と乗算器807に読み出す。   Similar to the noise profile storage unit 203, the noise profile storage unit 803 stores the frequency amplitude component of noise to be reduced (here, noise generated during zoom driving, such as zoom driving sound) as a noise profile. The noise profile storage unit 803 reads the stored noise profile to the frequency component division unit 804 and the multiplier 807.

周波数成分除算部804は周波数成分除算部204と同様に、フーリエ変換部802からの周波数振幅成分(A)をノイズプロファイル記憶部803からのノイズプロファイルの対応する周波数の値(B)で周波数毎に除算する。周波数成分除算部804は、周波数毎の除算結果を時間変化制御部805に供給する。   Similarly to the frequency component division unit 204, the frequency component division unit 804 converts the frequency amplitude component (A) from the Fourier transform unit 802 into a frequency value (B) corresponding to the noise profile from the noise profile storage unit 803 for each frequency. Divide. The frequency component division unit 804 supplies the division result for each frequency to the time change control unit 805.

時間変化制御部805は実質的にはローパスフィルタ(LPF)からなり、周波数成分除算部804からの周波数毎の除算結果を時間軸上で平滑化する。時間変化制御部805は、周波数毎のフィルタ結果、すなわち低域成分を減算係数算出部806と雑音低減部809に出力する。   The time change control unit 805 substantially includes a low-pass filter (LPF), and smoothes the division result for each frequency from the frequency component division unit 804 on the time axis. The time change control unit 805 outputs the filter result for each frequency, that is, the low frequency component, to the subtraction coefficient calculation unit 806 and the noise reduction unit 809.

減算係数算出部806は、減算係数算出部206と同様に動作する。すなわち、減算係数算出部806は、時間変化制御部805からの周波数毎の時間変化の低域成分量から周波数毎の減算係数(ノイズプロファイルに対する重み係数)を算出し、乗算器807に出力する。乗算器807は乗算器207と同様に、減算係数算出部806からの周波数毎の減算係数をノイズプロファイル記憶部803から読み出されたノイズプロファイルの対応する周波数成分の値に乗算する。   The subtraction coefficient calculation unit 806 operates in the same manner as the subtraction coefficient calculation unit 206. That is, the subtraction coefficient calculation unit 806 calculates a subtraction coefficient for each frequency (weight coefficient for the noise profile) from the low frequency component amount of the time change for each frequency from the time change control unit 805, and outputs it to the multiplier 807. Similarly to the multiplier 207, the multiplier 807 multiplies the subtraction coefficient for each frequency from the subtraction coefficient calculation unit 806 by the value of the corresponding frequency component of the noise profile read from the noise profile storage unit 803.

雑音時間変化情報記憶部808は、低減対象となる雑音の周波数毎の時間変化の傾向を記憶し、適時のタイミングで記憶情報を雑音低減部809に供給する。雑音時間変化情報記憶部808に記憶される情報の詳細は後述する。   The noise time change information storage unit 808 stores a tendency of time change for each frequency of noise to be reduced, and supplies the stored information to the noise reduction unit 809 at an appropriate timing. Details of the information stored in the noise time change information storage unit 808 will be described later.

雑音低減部809には、時間変化制御部805の演算結果805sと、乗算器807の乗算結果807sと、フーリエ変換部802からの周波数振幅成分802sが入力する。雑音低減部809は、信号入力制御部801からのズーム制御情報801sと、雑音時間変化情報記憶部808からの雑音時間変化傾向情報808sに従い、周波数振幅成分802sに含まれる雑音を周波数領域で低減する。雑音低減部809は、雑音低減処理を行った音声信号を、逆フーリエ変換部810に供給する。雑音低減部809の詳細は後述する。   The noise reduction unit 809 receives the calculation result 805s of the time change control unit 805, the multiplication result 807s of the multiplier 807, and the frequency amplitude component 802s from the Fourier transform unit 802. The noise reduction unit 809 reduces the noise included in the frequency amplitude component 802s in the frequency domain according to the zoom control information 801s from the signal input control unit 801 and the noise time change tendency information 808s from the noise time change information storage unit 808. . The noise reduction unit 809 supplies the audio signal subjected to the noise reduction process to the inverse Fourier transform unit 810. Details of the noise reduction unit 809 will be described later.

逆フーリエ変換部810は、逆フーリエ変換部209と同様に、雑音低減部809からの音声信号スペクトルをフーリエ変換部802からの位相情報を用いて逆フーリエ変換する。これにより、雑音低減した時間領域の音声データを得ることができる。逆フーリエ変換部810は、逆フーリエ変換により復元された音声データを信号出力制御部811に供給する。   Similar to the inverse Fourier transform unit 209, the inverse Fourier transform unit 810 performs inverse Fourier transform on the audio signal spectrum from the noise reduction unit 809 using the phase information from the Fourier transform unit 802. This makes it possible to obtain time-domain audio data with reduced noise. The inverse Fourier transform unit 810 supplies the audio data restored by the inverse Fourier transform to the signal output control unit 811.

信号出力制御部811は、信号出力制御部210と同様に動作する。即ち、信号出力制御部811は、信号入力制御部801からのズーム制御情報に従い、雑音低減処理をするときには、逆フーリエ変換部810からの音声データを選択してメモリバス709に出力する。また、信号出力制御部811は、ズーム制御情報に従い、雑音低減処理をしないときには、信号入力制御部801からのフレーム分割された音声データを選択し、フレーム合成して、メモリバス709に出力する。   The signal output control unit 811 operates in the same manner as the signal output control unit 210. That is, the signal output control unit 811 selects the audio data from the inverse Fourier transform unit 810 and outputs it to the memory bus 709 when performing noise reduction processing according to the zoom control information from the signal input control unit 801. Further, the signal output control unit 811 selects the frame-divided audio data from the signal input control unit 801 according to the zoom control information, and performs frame synthesis to output to the memory bus 709 when noise reduction processing is not performed.

音声入力部704により入力される音声データの雑音低減処理部705による雑音低減処理を具体的に説明する。ここでは、説明例として、音声入力部704のA/D変換におけるサンプリング周波数は48kHzとする。FFTのためのフレーム分割単位は1024点、すなわち、フーリエ変換部802及び逆フーリエ変換部810の周波数分解能は1024点とする。つまり、フーリエ変換部802のフーリエ変換結果は、512点のスペクトルで24kHzまでの周波数成分を表すことになる。   The noise reduction processing by the noise reduction processing unit 705 of the voice data input by the voice input unit 704 will be specifically described. Here, as an illustrative example, the sampling frequency in the A / D conversion of the voice input unit 704 is 48 kHz. The frame division unit for FFT is 1024 points, that is, the frequency resolution of the Fourier transform unit 802 and the inverse Fourier transform unit 810 is 1024 points. That is, the Fourier transform result of the Fourier transform unit 802 represents frequency components up to 24 kHz with a spectrum of 512 points.

ノイズプロファイル記憶部803に記憶されているノイズプロファイルは、低減対象とする雑音(ここではズーム雑音)のみで構成される音声信号をフーリエ変換することで得られる。事前に、音声入力部704にこの雑音のみを取り込み、信号入力制御部801でフレーム分割し、フーリエ変換部802でフーリエ変換する。この処理で得られる512点までの周波数成分を時間方向にフレームをまたいでピークホールドしたものをノイズプロファイルとしてノイズプロファイル記憶部803に格納する。ノイズプロファイルをprofile[n]と表現する。但し、n=0,1,2,3,・・・・,511である。   The noise profile stored in the noise profile storage unit 803 is obtained by performing a Fourier transform on an audio signal composed only of noise to be reduced (zoom noise in this case). In advance, only this noise is captured in the voice input unit 704, the signal input control unit 801 divides the frame, and the Fourier transform unit 802 performs Fourier transform. The frequency components obtained up to 512 points obtained by this processing and peak-held in the time direction across frames are stored in the noise profile storage unit 803 as a noise profile. The noise profile is expressed as profile [n]. However, n = 0, 1, 2, 3,... 511.

雑音低減処理部705の信号入力制御部801は、メモリ708の音声データ領域に記憶されている音声データを、メモリバス709を通して読み出し、1024サンプル毎にフレーム分割する。このとき、メモリ108に記憶されているズーム制御情報も読み出し、ズーム動作中の音声データでなければ音声データを信号出力制御部811に供給し、ズーム動作中の音声データであれば音声データをフーリエ変換部802に供給する。   The signal input control unit 801 of the noise reduction processing unit 705 reads the audio data stored in the audio data area of the memory 708 through the memory bus 709 and divides the frame every 1024 samples. At this time, the zoom control information stored in the memory 108 is also read, and if the audio data is not in the zoom operation, the audio data is supplied to the signal output control unit 811. If the audio data is in the zoom operation, the audio data is Fourier-transformed. The data is supplied to the conversion unit 802.

フーリエ変換部802は、信号入力制御部801からの1024点の音声データをフーリエ変換する。フーリエ変換結果をsound_fft[N]と表現する。但し、N=0,1,2,3,・・・・,1023である。   The Fourier transform unit 802 performs Fourier transform on the 1024 points of audio data from the signal input control unit 801. The Fourier transform result is expressed as sound_fft [N]. However, N = 0, 1, 2, 3,..., 1023.

フーリエ変換部802は、フーリエ変換結果のうちの前半の512点までの結果を周波数成分除算部804と雑音低減部809に供給する。フーリエ変換部802は、フーリエ変換結果のうちの前半の512点までの結果をsound_fft[n]と表現する。但し、n=0,1,2,3,・・・・,511である。   The Fourier transform unit 802 supplies the results up to 512 points in the first half of the Fourier transform results to the frequency component division unit 804 and the noise reduction unit 809. The Fourier transform unit 802 expresses the results up to 512 points in the first half of the Fourier transform results as sound_fft [n]. However, n = 0, 1, 2, 3,... 511.

周波数成分除算部804は、フーリエ変換部802からのフーリエ変換結果sound_fft[n]をノイズプロファイル記憶部803からのノイズプロファイルprofile[n]で除算する。除算結果はいわゆる信号対雑音比(SN比)であり、
signal_noise[n]
=sound_fft[n]/profile[n]
となる。n=0,1,2,・・・・,511である。
The frequency component division unit 804 divides the Fourier transform result sound_fft [n] from the Fourier transform unit 802 by the noise profile profile [n] from the noise profile storage unit 803. The division result is the so-called signal-to-noise ratio (S / N ratio),
signal_noise [n]
= Sound_fft [n] / profile [n]
It becomes. n = 0, 1, 2,..., 511.

この演算結果の数値が大きい周波数には、所望音声(周囲又は被写体からの音声)の周波数成分に、低減処理すべき雑音の周波数成分が重畳していると考えられる。逆に、SN比が1に近ければ近いほど、その周波数における、低減対象となる雑音の占める割合が大きいと考えられる。また、SN比が1以下の値であった場合は、低減処理すべき雑音の周波数成分がノイズプロファイルに対して変化していると考えられる。   It is considered that the frequency component of the noise to be reduced is superimposed on the frequency component of the desired sound (sound from the surrounding or the subject) at the frequency where the numerical value of the calculation result is large. On the contrary, it is considered that the closer the S / N ratio is to 1, the greater the proportion of noise to be reduced at that frequency. Further, when the SN ratio is a value of 1 or less, it is considered that the frequency component of noise to be reduced has changed with respect to the noise profile.

時間変化制御部805は、時間変化制御部205と同じ構成からなり、周波数成分除算部804の除算結果signal_noise[n]に、時間方向への巡回型ローパスフィルタをかける。   The time change control unit 805 has the same configuration as the time change control unit 205 and applies a cyclic low-pass filter in the time direction to the division result signal_noise [n] of the frequency component division unit 804.

この実施例でも、実施例1と同様に、時間変化制御部805のローパスフィルタ処理により、周波数成分除算部804の出力、すなわちSN比の時間方向への急変を抑制できる。この抑制の結果として、音圧の急変を抑制してミュージカルノイズを低減でき、音質劣化を改善できる。   Also in this embodiment, similar to the first embodiment, the rapid change in the time direction of the output of the frequency component divider 804, that is, the SN ratio can be suppressed by the low pass filter processing of the time change controller 805. As a result of this suppression, a sudden change in sound pressure can be suppressed, musical noise can be reduced, and sound quality degradation can be improved.

実施例1と同様に、以後の説明ではフレーム番号Fが影響しないので、フレー得番号Fの表記を省略する。   As in the first embodiment, since the frame number F does not affect in the following description, the notation of the frame gain number F is omitted.

減算係数算出部806は、時間変化制御部805の演算結果output_LPF[n]を用いて減算係数γ[n]を算出又は決定する。減算係数算出部806は例えば、減算係数算出部206と同様に、output_LPF[n]の値によって一意に減算係数γ[n]を決定するルックアップテーブルからなる。   The subtraction coefficient calculation unit 806 calculates or determines the subtraction coefficient γ [n] using the calculation result output_LPF [n] of the time change control unit 805. The subtraction coefficient calculation unit 806 includes, for example, a lookup table that uniquely determines the subtraction coefficient γ [n] based on the value of output_LPF [n], similar to the subtraction coefficient calculation unit 206.

減算係数算出部806は、図6に示すように、output_LPF[n]の値が大きくなればなるほど、徐々に減算係数γ[n]を小さくする。この理由は次の通りである。すなわち、output_LPF[n]が十分に大きい場合は、低減対象とする雑音の周波数成分に対して、十分大きな所望音声の周波数成分が重畳されている。このとき、マスキング効果により、人間の聴覚は雑音をほぼ知覚できなくなるので、減算係数γ[n]を小さくすることで、所望音声の劣化を抑制する。減算係数算出部806は、周波数毎に決定した減算係数γ[n]を乗算器807に供給する。   As illustrated in FIG. 6, the subtraction coefficient calculation unit 806 gradually decreases the subtraction coefficient γ [n] as the value of output_LPF [n] increases. The reason is as follows. That is, when output_LPF [n] is sufficiently large, a sufficiently large frequency component of the desired speech is superimposed on the frequency component of noise to be reduced. At this time, the human auditory sense can hardly perceive the noise due to the masking effect. Therefore, by reducing the subtraction coefficient γ [n], deterioration of the desired speech is suppressed. The subtraction coefficient calculation unit 806 supplies the subtraction coefficient γ [n] determined for each frequency to the multiplier 807.

乗算器807は、プロファイル記憶部803からのプロファイルprofile[n]に減算係数算出部806からの減算係数γ[n]を周波数毎に乗算する。これにより、低減すべき雑音量sub_profile[n]が周波数ごとに決定される。すなわち、
sub_profile[n]=profile[n]×γ[n]
である。
The multiplier 807 multiplies the profile profile [n] from the profile storage unit 803 by the subtraction coefficient γ [n] from the subtraction coefficient calculation unit 806 for each frequency. Thereby, the noise amount sub_profile [n] to be reduced is determined for each frequency. That is,
sub_profile [n] = profile [n] × γ [n]
It is.

雑音時間変化情報記憶部808は、雑音が時間方向に変動するときの傾向を周波数毎に記憶している。例えば、ズーム雑音について考えると、ズーム動作の開始から終了までの間で、時間経過と共に雑音の周波数成分が変動する。雑音時間変化情報記憶部808は、その時間経過による変動傾向fluctuation[n]を周波数毎に記憶する。図10、図11、図12は、ある周波数n=n’に着目したときの、周波数成分の変動傾向を示すグラフである。   The noise time change information storage unit 808 stores a tendency when noise fluctuates in the time direction for each frequency. For example, when considering zoom noise, the frequency component of the noise fluctuates with time from the start to the end of the zoom operation. The noise time change information storage unit 808 stores the fluctuation tendency fluctuation [n] over time for each frequency. 10, FIG. 11 and FIG. 12 are graphs showing the fluctuation tendency of frequency components when attention is paid to a certain frequency n = n ′.

図10は、周波数n=n’における周波数成分のズーム動作時間による変動が、時間の経過につれて増加するような傾向を示す場合を示す。図10に示す例では、変動傾向fluctuation[n]の値を0とする。   FIG. 10 shows a case where the variation due to the zoom operation time of the frequency component at the frequency n = n ′ tends to increase as time elapses. In the example illustrated in FIG. 10, the value of the fluctuation tendency “fractation [n]” is set to 0.

図11は、周波数成分のズーム動作時間による変動傾向が無い場合を示す。図11に示す例では、変動傾向fluctuation[n]の値を1とする。   FIG. 11 shows a case where there is no fluctuation tendency due to the zoom operation time of the frequency component. In the example illustrated in FIG. 11, the value of the fluctuation tendency “fluctuation [n]” is 1.

図12は、周波数成分のズーム動作時間による変動が、時間の経過につれて減少するような傾向を示す場合を示す。図12に示す例では、変動傾向fluctuation[n]の値を2とする。   FIG. 12 shows a case where the variation of the frequency component due to the zoom operation time tends to decrease as time elapses. In the example illustrated in FIG. 12, the value of the fluctuation tendency “fractation [n]” is set to 2.

雑音時間変化情報記憶部808は、変動傾向値fluctuation[n]を雑音時間変化傾向情報808sとして雑音低減部809に供給する。雑音低減部809は、信号入力制御部801からのズーム制御情報801sと、時間変化制御部805の出力805s及び雑音時間変化情報記憶部808からの雑音時間変化傾向情報808s(fluctuation[n])に従い、雑音低減処理を切り替える。   The noise time change information storage unit 808 supplies the fluctuation tendency value fluctuation [n] to the noise reduction unit 809 as noise time change trend information 808s. The noise reduction unit 809 follows the zoom control information 801 s from the signal input control unit 801, the output 805 s of the time change control unit 805, and the noise time change trend information 808 s (fructuation [n]) from the noise time change information storage unit 808. Switching noise reduction processing.

図9は、雑音低減部809の概略構成ブロック図を示す。雑音低減部809は、演算切替え制御部901、乗算器902、減衰倍率算出部903及び減算器904で構成される。   FIG. 9 shows a schematic block diagram of the noise reduction unit 809. The noise reduction unit 809 includes an operation switching control unit 901, a multiplier 902, an attenuation factor calculation unit 903, and a subtracter 904.

減衰倍率算出部903は、時間変化制御部805の演算結果に対して、図13に示すような特性の、減衰倍率K[n](但しK[n]≦1.0)を出力するテーブルからなる。このテーブルは基本的に、減算係数算出部806における減算係数γ[n]とは逆の傾きを持つようなテーブルとなる。図13で、減衰倍率K[n]の最低値K[n]=0.1の区間は、図6における減算係数γ[n]=1.0の区間と等しくなる。図13におけるK[n]=1.0の区間は、図6におけるγ[n]=0の区間と等しくなる。減衰倍率K[n]の最低値K[n]=0.1の値は実験的に求められるものであり、ここで示す数値は一例である。減衰倍率算出部903は、時間変化制御部805の出力805Sに応じた減衰倍率K[n]を乗算器902に供給する。   The attenuation factor calculation unit 903 uses a table that outputs an attenuation factor K [n] (where K [n] ≦ 1.0) having characteristics as shown in FIG. 13 for the calculation result of the time change control unit 805. Become. This table is basically a table having a slope opposite to that of the subtraction coefficient γ [n] in the subtraction coefficient calculation unit 806. In FIG. 13, the section of the minimum value K [n] = 0.1 of the attenuation factor K [n] is equal to the section of the subtraction coefficient γ [n] = 1.0 in FIG. The section of K [n] = 1.0 in FIG. 13 is equal to the section of γ [n] = 0 in FIG. The value of the minimum value K [n] = 0.1 of the attenuation magnification K [n] is obtained experimentally, and the numerical value shown here is an example. The attenuation factor calculation unit 903 supplies the multiplier 902 with an attenuation factor K [n] corresponding to the output 805S of the time change control unit 805.

乗算器902は、フーリエ変換部802からの周波数振幅成分802に減衰倍率K[n]を乗算する。すなわち、乗算器902の出力はsound_fft[n]×K[n]で与えられる。但し、n=0、1,2、・・・、511である。 The multiplier 902 multiplies the frequency amplitude component 802 s from the Fourier transform unit 802 by the attenuation factor K [n]. That is, the output of the multiplier 902 is given by sound_fft [n] × K [n]. However, n = 0, 1, 2,... 511.

また、減算器904は、フーリエ変換部802からの周波数振幅成分802から、乗算器807の出力807を減算する。減算器904の出力は、
sound_fft[n]−sub_profile[n]
で与えられる。ただし、n=0、1,2、・・・、511である。

The subtractor 904 subtracts the output 807 s of the multiplier 807 from the frequency amplitude component 802 s from the Fourier transform unit 802. The output of the subtractor 904 is
sound_fft [n] -sub_profile [n]
Given in. However, n = 0, 1, 2,... 511.

演算切替え制御部901は、信号入力制御部801からのズーム制御情報と雑音時間変化情報記憶部808からの周波数変動傾向情報fluctuation[n]の値に従い、乗算器902又は減算器904の出力を選択して逆フーリエ変換部810に出力する。   The arithmetic switching control unit 901 selects the output of the multiplier 902 or the subtracter 904 in accordance with the zoom control information from the signal input control unit 801 and the value of the frequency fluctuation tendency information fluctuation [n] from the noise time change information storage unit 808. And output to the inverse Fourier transform unit 810.

周波数変動傾向情報fluctuation[n]=0の場合、演算切替え制御部901は、ズーム動作開始時からズーム動作時間内のある一定時間までは、乗算器902の出力を出力信号線809sに接続する。そして、その一定時間の経過後には、演算切替え制御部901は、減算器904の出力を出力信号線809sに接続する。   When the frequency variation tendency information fluctuation [n] = 0, the arithmetic switching control unit 901 connects the output of the multiplier 902 to the output signal line 809s from the start of the zoom operation to a certain time within the zoom operation time. Then, after the fixed time has elapsed, the arithmetic switching control unit 901 connects the output of the subtractor 904 to the output signal line 809s.

周波数変動傾向情報fluctuation[n]=1の場合、演算切替え制御部901は、ズーム動作中常時、減算器904の出力を出力信号線809sに接続する。   When the frequency variation tendency information fluctuation [n] = 1, the arithmetic switching control unit 901 connects the output of the subtractor 904 to the output signal line 809s at all times during the zoom operation.

周波数変動傾向情報fluctuation[n]=2の場合、演算切替え制御部901は、ズーム動作開始時からズーム動作時間内のある一定時間までは、減算器904の出力を出力信号線809sに接続する。その一定時間の経過後には、演算切替え制御部901は、乗算器902の出力を出力信号線809sに接続する。   When the frequency variation tendency information fluctuation [n] = 2, the arithmetic switching control unit 901 connects the output of the subtractor 904 to the output signal line 809s from the start of the zoom operation to a certain time within the zoom operation time. After the fixed time has elapsed, the arithmetic switching control unit 901 connects the output of the multiplier 902 to the output signal line 809s.

逆フーリエ変換部810は、逆フーリエ変換部209と同じ方法で、雑音低減部809から出力される512点の雑音低減スペクトルを1024点に拡張し、フーリエ変換部802からの位相情報を用いて逆フーリエ変換する。これにより、周波数領域でズーム雑音を低減した音声データが得られる。逆フーリエ変換部810は、このようにして得られた音声データを信号出力制御部822に供給する。   The inverse Fourier transform unit 810 extends the 512-point noise reduction spectrum output from the noise reduction unit 809 to 1024 points in the same manner as the inverse Fourier transform unit 209, and performs inverse using the phase information from the Fourier transform unit 802. Fourier transform. Thereby, audio data with reduced zoom noise in the frequency domain can be obtained. The inverse Fourier transform unit 810 supplies the audio data obtained in this way to the signal output control unit 822.

信号出力制御部811は、信号出力制御部210と同様に、逆フーリエ変換部810からの音声データをフレーム毎に繋ぎ合わせ、メモリバス709を通してメモリ708の音声データ領域に書き戻す。   Similar to the signal output control unit 210, the signal output control unit 811 connects the audio data from the inverse Fourier transform unit 810 for each frame and writes it back to the audio data area of the memory 708 through the memory bus 709.

本実施例でも、ズーム非動作時の音声データを雑音低減処理部705がメモリ708から読み出してメモリ708に書き戻すようにしているが、雑音低減処理部705を経由させないようにしてもよい。この場合、雑音低減処理部705の信号入力制御部801から信号出力制御部811に直接至る信号路は不要となる。   Also in this embodiment, the noise reduction processing unit 705 reads out the audio data when the zoom is not operated from the memory 708 and writes it back to the memory 708. However, the audio data may not be passed through the noise reduction processing unit 705. In this case, a signal path directly from the signal input control unit 801 of the noise reduction processing unit 705 to the signal output control unit 811 becomes unnecessary.

雑音時間変化情報記憶部808からのズーム雑音の周波数毎の時間変動傾向と、信号入力制御部801からのズーム制御情報により、雑音低減部809の演算方法を切り替える理由を、説明する。   The reason why the calculation method of the noise reduction unit 809 is switched based on the time fluctuation tendency of the zoom noise for each frequency from the noise time change information storage unit 808 and the zoom control information from the signal input control unit 801 will be described.

図14は、ある周波数n=n’においてfluctuation[n’]=2の場合、即ち、減少傾向の場合の、ズーム雑音の周波数成分と時間との関係を示す。ノイズプロファイル記憶部803に記憶されるノイズプロファイルは、時間で変化するズーム雑音の周波数成分を時間方向にピークホールドしたものであるので、profile[n’]は図14で示す値となる。雑音区間をt1〜t3とした時、雑音の周波数成分が時間と共に小さくなるにも関わらず、profile[n’]が固定値である。従って、減算器904の出力sound_fft[n]−sub_profile[n]を出力信号線809sに接続するケースでは、特にt2〜t3の区間で、所望音声が重畳されているときには大きく音質が劣化してしまう。   FIG. 14 shows the relationship between the frequency component of zoom noise and time when fluctuation [n ′] = 2 at a certain frequency n = n ′, that is, when the frequency tends to decrease. Since the noise profile stored in the noise profile storage unit 803 is obtained by peak-holding the frequency component of zoom noise that varies with time in the time direction, profile [n ′] has the value shown in FIG. When the noise interval is t1 to t3, the profile [n ′] is a fixed value even though the frequency component of the noise decreases with time. Therefore, in the case where the output sound_fft [n] −sub_profile [n] of the subtractor 904 is connected to the output signal line 809s, the sound quality is greatly deteriorated particularly when the desired sound is superimposed in the interval t2 to t3. .

そこで、本実施例では、変動傾向fluctuation[n’]=2の場合に、区間t2〜t3においては、演算切替え制御部901が、乗算器902の出力sound_fft[n]×K[n]を出力信号線809sに接続するようにした。すなわち、乗算器902による雑音低減処理を選択することで、雑音の低減量を適切に制御し、所望音声の劣化を抑えることができる。   Therefore, in this embodiment, in the case of the fluctuation tendency fluctuation [n ′] = 2, the operation switching control unit 901 outputs the output sound_fft [n] × K [n] of the multiplier 902 in the sections t2 to t3. The signal line 809s is connected. That is, by selecting the noise reduction processing by the multiplier 902, it is possible to appropriately control the amount of noise reduction and suppress degradation of the desired speech.

演算切替え制御部901は、信号入力制御部801から供給されるズーム制御情報により時間t1、t2、t3を判断し、乗算器902と減算器904の出力を切り替える。   The arithmetic switching control unit 901 determines the times t1, t2, and t3 based on the zoom control information supplied from the signal input control unit 801, and switches the outputs of the multiplier 902 and the subtracter 904.

図15はfluctuation[n]=0のときの演算切替え制御部901による切替え例を示す。図16はfluctuation[n]=1のときの演算切替え制御部901による切替え例を示す。図17はfluctuation[n]=2のときの演算切替え制御部901による切替え例を示す。   FIG. 15 shows an example of switching by the calculation switching control unit 901 when fluctuation [n] = 0. FIG. 16 shows an example of switching by the calculation switching control unit 901 when fluctuation [n] = 1. FIG. 17 shows an example of switching by the calculation switching control unit 901 when fluctuation [n] = 2.

ズーム制御情報として、ズーム時における駆動部(モータ)の回転情報と、駆動部の位置情報を、制御部702から信号入力制御部801を介して雑音低減部809に供給しても良い。この場合、雑音時間変化情報記憶部808で記憶される変動傾向情報は、例えばfluctuation[n’]=2の場合(減少傾向の場合)、図18で示されるようにモータの位置情報に対する雑音の周波数成分の変動傾向となる。   As zoom control information, rotation information of the drive unit (motor) during zooming and position information of the drive unit may be supplied from the control unit 702 to the noise reduction unit 809 via the signal input control unit 801. In this case, the fluctuation tendency information stored in the noise time change information storage unit 808 is, for example, when fluctuation [n ′] = 2 (in the case of a decreasing tendency), as shown in FIG. The frequency component tends to fluctuate.

図18で、p1、p2、p3はズームに関するモータの位置情報である。p1が、撮像装置のズーム操作における広角側を、p3が望遠側を示す。つまり、図18に示す周波数では、雑音の周波数成分が望遠側にいけばいくほど小さくなる。信号入力制御部801から位置情報p1〜p3とズーム回転方向情報を雑音低減部809に供給する。雑音低減部809は、これらの情報と雑音時間変化情報記憶部808からの変動傾向情報に基づき、乗算器902の出力か減算器904の出力かを切り替える。   In FIG. 18, p1, p2, and p3 are motor position information regarding zoom. p1 indicates the wide-angle side in the zoom operation of the imaging apparatus, and p3 indicates the telephoto side. That is, at the frequency shown in FIG. 18, the noise frequency component becomes smaller as it goes to the telephoto side. Position information p <b> 1 to p <b> 3 and zoom rotation direction information are supplied to the noise reduction unit 809 from the signal input control unit 801. The noise reduction unit 809 switches between the output of the multiplier 902 and the output of the subtractor 904 based on the information and the fluctuation tendency information from the noise time change information storage unit 808.

Claims (8)

音声入力手段と、
前記音声入力手段により入力された時間領域の音声信号を周波数領域の音声信号スペクトルに変換するフーリエ変換手段と、
低減対象となる雑音の周波数振幅成分を示すノイズプロファイルを記憶するノイズプロファイル記憶手段と、
前記フーリエ変換手段で求められた音声信号スペクトルと前記ノイズプロファイルとの比を周波数毎に求める周波数成分除算手段と、
前記周波数成分除算手段により求められた周波数毎の比を周波数毎に平滑化する時間変化制御手段と、
前記時間変化制御手段の出力に従い減算係数を算出する減算係数算出手段と、
前記ノイズプロファイルに前記減算係数を乗算する乗算手段と、
前記音声信号スペクトルから前記乗算手段の出力を減算する雑音低減手段と、
前記雑音低減手段の出力を時間領域の音声信号に復元する逆フーリエ変換手段と、
前記逆フーリエ変換手段により復元された音声信号を出力する音声出力手段
とを有することを特徴とする音声処理装置。
Voice input means;
Fourier transform means for converting a time-domain sound signal input by the sound input means into a frequency-domain sound signal spectrum;
Noise profile storage means for storing a noise profile indicating a frequency amplitude component of noise to be reduced;
Frequency component dividing means for obtaining a ratio of the audio signal spectrum obtained by the Fourier transform means and the noise profile for each frequency;
Time change control means for smoothing the ratio for each frequency obtained by the frequency component dividing means for each frequency;
Subtraction coefficient calculating means for calculating a subtraction coefficient according to the output of the time change control means;
Multiplying means for multiplying the noise profile by the subtraction coefficient;
Noise reduction means for subtracting the output of the multiplication means from the audio signal spectrum;
An inverse Fourier transform means for restoring the output of the noise reduction means to a time domain audio signal;
And a voice output unit that outputs the voice signal restored by the inverse Fourier transform unit.
更に、前記雑音の周波数成分の変化の傾向を示す傾向情報を記憶する変化情報記憶手段を有し、
前記雑音低減手段は、
前記音声信号スペクトルから前記乗算手段の出力を減算する減算器と、
前記時間変化制御手段により平滑化された前記周波数毎の比に従い前記音声信号スペクトルの強度を調整する乗算器と、
前記傾向情報に従い前記減算器と前記乗算器の出力を切り替える切替え手段
とを有することを特徴とする請求項1に記載の音声処理装置。
Furthermore, it has change information storage means for storing trend information indicating a tendency of change in the frequency component of the noise,
The noise reduction means includes
A subtractor for subtracting the output of the multiplication means from the audio signal spectrum;
A multiplier for adjusting the intensity of the audio signal spectrum according to the ratio for each frequency smoothed by the time change control means;
The speech processing apparatus according to claim 1, further comprising a switching unit that switches an output of the subtracter and the multiplier according to the trend information.
前記切替え手段は、前記傾向情報が増加傾向を示す場合に、前記乗算器の出力を所定期間選択した後、前記減算器の出力に切り替えることを特徴とする請求項2に記載の音声処理装置。 The speech processing apparatus according to claim 2, wherein the switching means switches the output of the multiplier to the output of the subtracter after selecting the output of the multiplier for a predetermined period when the trend information indicates an increasing tendency . 前記切替え手段は、前記傾向情報が減少傾向を示す場合に、前記減算器の出力を所定期間選択した後、前記乗算器の出力に切り替えることを特徴とする請求項2に記載の音声処理装置。 The speech processing apparatus according to claim 2, wherein when the trend information indicates a decreasing tendency, the switching means switches the output of the subtracter to the output of the multiplier after selecting the output for a predetermined period . 前記乗算器は、前記時間変化制御手段により平滑化された前記周波数毎の比が小さいほど小さくなる係数を前記音声信号スペクトルに乗算することを特徴とする請求項2から4の何れか1項に記載の音声処理装置。   5. The multiplier according to claim 2, wherein the multiplier multiplies the audio signal spectrum by a coefficient that decreases as the ratio for each frequency smoothed by the time change control unit decreases. The speech processing apparatus according to the description. 更に、前記雑音の鳴り始めの時間及び鳴り終わりの時間を含む雑音時間情報を保持する雑音時間保持手段を有し
前記傾向情報が前記雑音の周波数成分の時間方向の変化の傾向を示し、
前記切替え手段が、前記雑音時間情報と前記傾向情報に従い前記減算器と前記乗算器の出力を切り替える
ことを特徴とする請求項2から5の何れか1項に記載の音声処理装置。
Further comprising a noise time holding means for holding a noise time information including the time of the end time and resonance of sound beginning of the noise,
The trend information indicates a tendency of the frequency component of the noise to change in the time direction;
6. The speech processing apparatus according to claim 2, wherein the switching unit switches outputs of the subtracter and the multiplier according to the noise time information and the trend information.
更に、前記雑音の位置情報を保持する手段を有し、
前記傾向情報が前記雑音の周波数成分の位置の変化の傾向を示し、
前記切替え手段が、前記雑音時間情報と前記傾向情報に従い前記減算器と前記乗算器の出力を切り替える
ことを特徴とする請求項6に記載の音声処理装置。
Furthermore, it has means for holding the position information of the noise,
The trend information indicates a tendency of a change in a position of a frequency component of the noise;
The speech processing apparatus according to claim 6, wherein the switching unit switches the outputs of the subtracter and the multiplier according to the noise time information and the trend information.
ズームレンズを含む撮像手段を有し、Having imaging means including a zoom lens;
前記雑音は、前記ズームレンズの駆動により発生する雑音であるThe noise is noise generated by driving the zoom lens.
ことを特徴とする請求項1から7の何れか1項に記載の音声処理装置。The speech processing apparatus according to claim 1, wherein
JP2013165850A 2013-08-09 2013-08-09 Audio processing device Expired - Fee Related JP6300464B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013165850A JP6300464B2 (en) 2013-08-09 2013-08-09 Audio processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013165850A JP6300464B2 (en) 2013-08-09 2013-08-09 Audio processing device

Publications (3)

Publication Number Publication Date
JP2015034898A JP2015034898A (en) 2015-02-19
JP2015034898A5 JP2015034898A5 (en) 2016-09-08
JP6300464B2 true JP6300464B2 (en) 2018-03-28

Family

ID=52543468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013165850A Expired - Fee Related JP6300464B2 (en) 2013-08-09 2013-08-09 Audio processing device

Country Status (1)

Country Link
JP (1) JP6300464B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6559576B2 (en) * 2016-01-05 2019-08-14 株式会社東芝 Noise suppression device, noise suppression method, and program
CN106302906A (en) * 2016-09-15 2017-01-04 上海斐讯数据通信技术有限公司 A kind of diamylose gram noise-reduction method and device, a kind of mobile terminal
CN107833579B (en) * 2017-10-30 2021-06-11 广州酷狗计算机科技有限公司 Noise elimination method, device and computer readable storage medium
CN113138367A (en) * 2020-01-20 2021-07-20 中国科学院上海微***与信息技术研究所 Target positioning method and device, electronic equipment and storage medium
CN111986688A (en) * 2020-09-09 2020-11-24 北京小米松果电子有限公司 Method, device and medium for improving speech definition

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3566197B2 (en) * 2000-08-31 2004-09-15 松下電器産業株式会社 Noise suppression device and noise suppression method
JP2002258899A (en) * 2001-03-02 2002-09-11 Yrp Kokino Idotai Tsushin Kenkyusho:Kk Method and device for suppressing noise
EP1376539B8 (en) * 2001-03-28 2010-12-15 Mitsubishi Denki Kabushiki Kaisha Noise suppressor
JP2004317993A (en) * 2003-04-18 2004-11-11 Asahi Kasei Corp Circuit and method for noise reduction
JP2011205526A (en) * 2010-03-26 2011-10-13 Sony Corp Imaging apparatus, method, and program
JP2013148724A (en) * 2012-01-19 2013-08-01 Sony Corp Noise suppressing device, noise suppressing method, and program

Also Published As

Publication number Publication date
JP2015034898A (en) 2015-02-19

Similar Documents

Publication Publication Date Title
JP6300464B2 (en) Audio processing device
JP5092748B2 (en) Noise suppression method and apparatus, and computer program
KR102545961B1 (en) Multi-Rate System for Audio Processing
JP2012169782A (en) Sound processing device and method, and imaging device
JP2012032648A (en) Mechanical noise reduction device, mechanical noise reduction method, program and imaging apparatus
CN113170260B (en) Audio processing method and device, storage medium and electronic equipment
US10535363B2 (en) Audio processing apparatus and control method thereof
JPWO2012070668A1 (en) Signal processing apparatus, signal processing method, and signal processing program
JP2012129652A (en) Sound processing device and method, and imaging apparatus
JP5349062B2 (en) SOUND PROCESSING DEVICE, ELECTRONIC DEVICE HAVING SAME, AND SOUND PROCESSING METHOD
JP5294085B2 (en) Information processing apparatus, accessory apparatus thereof, information processing system, control method thereof, and control program
JP2015034898A5 (en) Audio processing device
JP2008072600A (en) Acoustic signal processing apparatus, acoustic signal processing program, and acoustic signal processing method
JP2014102317A (en) Noise elimination device, noise elimination method, and program
JP2012185445A (en) Signal processor, imaging apparatus and program
JP6929137B2 (en) Speech processing device and its control method
JP6985821B2 (en) Speech processing device and its control method
JP2022038611A5 (en)
JP2011100029A (en) Signal processing method, information processor, and signal processing program
JP6931296B2 (en) Speech processing device and its control method
JP5473786B2 (en) Audio signal processing apparatus and control method thereof
JP2014026032A (en) Signal processing device, imaging device, and program
JP6877246B2 (en) Speech processing device and its control method
JP2016051091A (en) Device and method for voice processing
JP2014102318A (en) Noise elimination device, noise elimination method, and program

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160721

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170704

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180227

R151 Written notification of patent or utility model registration

Ref document number: 6300464

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D03

LAPS Cancellation because of no payment of annual fees