WO2009116291A1 - 雑音抑圧装置および雑音抑圧方法 - Google Patents

雑音抑圧装置および雑音抑圧方法 Download PDF

Info

Publication number
WO2009116291A1
WO2009116291A1 PCT/JP2009/001224 JP2009001224W WO2009116291A1 WO 2009116291 A1 WO2009116291 A1 WO 2009116291A1 JP 2009001224 W JP2009001224 W JP 2009001224W WO 2009116291 A1 WO2009116291 A1 WO 2009116291A1
Authority
WO
WIPO (PCT)
Prior art keywords
time
information
estimated value
noise suppression
calculated
Prior art date
Application number
PCT/JP2009/001224
Other languages
English (en)
French (fr)
Inventor
造 田邉
利博 古川
Original Assignee
学校法人東京理科大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 学校法人東京理科大学 filed Critical 学校法人東京理科大学
Priority to US12/746,416 priority Critical patent/US8527266B2/en
Priority to JP2010503784A priority patent/JP5721098B2/ja
Priority to EP09722185.7A priority patent/EP2254112B1/en
Publication of WO2009116291A1 publication Critical patent/WO2009116291A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20182Noise reduction or smoothing in the temporal domain; Spatio-temporal filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Definitions

  • this algorithm requires an AR coefficient, it has a problem that the noise suppression capability (that is, the performance of the Kalman filter algorithm) greatly depends on the estimation accuracy of the AR coefficient. That is, when the AR coefficient is not accurately estimated, not only the noise cannot be completely suppressed, but in some cases, the voice signal may be suppressed in addition to the noise. These can be a cause of deterioration of the sound quality of the sound signal in which noise is suppressed.
  • Non-Patent Document 4 the noise suppression method described in Non-Patent Document 4 in order to solve the problems of the conventional noise suppression method based on the Kalman filter (see Non-Patent Document 3).
  • the AR coefficient is estimated using linear prediction, and then the Kalman filter is executed using the result.
  • noise suppression is realized by a new prediction method composed of state equations and observation equations.
  • a new state space model state equation and observation equation
  • the state equation is obtained using only a clear signal from an information source, that is, a desired signal (for example, a speech signal).
  • the observation equation is constructed using the clear signal and noise.
  • 1 includes an input unit 110, a sampling unit 120, an A / D conversion unit 130, a buffer 140, a noise suppression processing unit 150, and an output unit 160.
  • noise suppression refers to estimating a desired signal (for example, a speech signal) only from an observation signal
  • noise removal in which noise is estimated and the desired signal is estimated by subtraction. Is a completely different concept in that no subtraction is performed.
  • noise usually means all unnecessary information other than desired information as described above, in other words, all signals other than the desired signal among all signals included in the observation signal. Signal.
  • the output unit 160 outputs the estimation signal input from the noise suppression processing unit 150 to the outside in a predetermined form.
  • the output unit 160 includes, for example, a speaker, a display, a communication unit, a storage device, and the like.
  • FIG. 3 is a diagram showing a model assumed by the present invention.
  • the observation signal r (n) input to the noise suppression processing unit 150 includes noise v (n) in addition to a clear signal (desired signal) (for example, audio signal) d (n) from the information source, The following expression (1) is satisfied.
  • step ST40 it is determined whether or not to end the process. This determination is made, for example, by determining whether the time n has reached a predetermined number N of samples. As a result of this determination, when the time n has not reached the predetermined number of samples N (ST40: NO), the process proceeds to step ST42, and when the time n has reached the predetermined number of samples N (ST40: YES), Proceed to step ST46.
  • the criterion for determination is not limited to the above example. For example, when processing is performed in real time, the processing may be terminated when there are no more samples even if the time n has not reached the predetermined number of samples N.
  • an optimum estimated value calculation unit 158 as a second optimum estimated value calculating unit calculates an optimum estimated value (vector) of a state quantity (desired signal) of (n + 1) ⁇ (n + 1) (ST1400). Specifically, the optimum estimated value calculation unit 158 calculates the optimum estimated value vector x p1 (n + 1
  • This calculation is performed by the following equation (56) using the weighting coefficient k p2 (n + 1) [1, 1] calculated in step ST2200 and the observation signal y p2 (n + 1) at time n + 1.
  • This step ST2300 corresponds to procedure 3 of the iterative process of FIG.
  • the calculation amount of the inventive method 1 and the inventive method 2 is further reduced as compared with the conventional method 3, as shown in FIG.
  • the memory capacity is also greatly reduced as described above by reducing the amount of calculation.
  • FIG. 33F shows a waveform of an estimated speech signal when noise suppression by the conventional method 2 is performed on a combined waveform of A-1) and noise (B-1), and FIG. 33F shows speech (A-1) and noise (B -1) shows the waveform of the estimated speech signal when noise suppression by the conventional method 3 is performed on the synthesized waveform of FIG. 1G, and FIG. 33G shows the synthesized waveform of speech (A-1) and noise (B-1).
  • FIG. 33H shows the waveform of the estimated speech signal when noise suppression is performed by the inventive method 1
  • FIG. 33H shows the noise suppression by the inventive method 2 on the synthesized waveform of the speech (A-1) and the noise (B-1).
  • the waveform of the estimated speech signal when performed is shown.
  • the inventive method 1 and the inventive method 2 are different from the conventional method 3 in any of the four cases. Compared to the case of comparison, it can be said that the noise suppression capability is higher than that of the conventional method 2.
  • Conventional method 2 requires the setting of a parameter specialized for speech, but the result of this experiment shows that the parameter setting is very difficult in an actual environment.
  • noise suppression device and the noise suppression method according to the present invention can be applied to various technical fields.
  • FIG. 45 is a block diagram showing a configuration of the fetal heartbeat detecting apparatus according to the second embodiment of the present invention.
  • the computer main body 410 temporarily stores the observed audio signal output to the interface unit 411 in the main memory 414 of the storage unit 412, and then performs noise suppression processing in units of a predetermined audio frame (sampling number). Then, it is stored again in the main memory 414.
  • the noise suppression processing is performed by calling and executing software stored in the main memory 414 or the recording device 413 to the noise suppression processing unit 417 via the interface unit 411.
  • FIG. 46 is a block diagram showing a configuration of the mobile terminal apparatus according to Embodiment 3 of the present invention.
  • the portable terminal device 500 has the same basic configuration as that of the fetal heartbeat detecting device 400 shown in FIG. 45, and the same components are denoted by the same reference numerals, and the description including the options is given. Omitted.
  • unnecessary sound is suppressed from the observed sound signal (including noise) from the microphone 420 as the preprocessing of the speech recognition processing unit 610, and the sound signal is cleared. Since it can be acquired as a simple signal (desired signal), the voice recognition capability of the voice recognition processing unit 610 can be maximized, and the car navigation can be reliably operated by voice recognition. In particular, this effect is very remarkable during driving because there is a lot of noise other than voice instructions.
  • the seventh embodiment is a case where the noise suppression device according to the first embodiment is applied to an image processing device, particularly an image restoration device.
  • An image restoration apparatus 900 shown in FIG. 50 is an apparatus for restoring an image deteriorated due to blur and noise, for example, and includes an image restoration processing unit 910.
  • an image restoration apparatus 900 has a configuration that suppresses blur and noise included in an image read by a digital scanner (hereinafter simply referred to as “scanner”) 920 and outputs a clean image.
  • the noise suppression processing unit 417 has a function as preprocessing of the image restoration processing unit 910.
  • blur and noise suppression can be performed only for the image in the designated area by designating a specific area of the image read by the scanner 920.
  • the designation of the specific area of the image is performed via the operation unit 440. Accordingly, blur and noise can be suppressed only for a part of the image read by the scanner 920, and the image of that part can be restored.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Noise Elimination (AREA)

Abstract

 よりシンプルな構成で、かつ、より少ない演算量で、より高い雑音抑圧能力を実現できる雑音抑圧装置。雑音抑圧装置(100)は、雑音抑圧処理部(150)を有し、所望の情報に雑音が混在した観測情報のみから所望情報を推定する。相関演算部(154)は、時刻nのみの観測情報に対して、時刻nまたは時刻n+1までの情報により所望情報を含む時刻n+1のシステムの状態量を推定した場合の推定誤差の相関値を算出する。重み係数算出部(156)は、時刻nのみの観測情報に対して、相関演算部(154)によって算出された相関値を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値と、時刻nまでの情報による時刻n+1での状態量の最適推定値と、観測情報を含む観測量の推定誤差と、の関係を規定するための重み係数を算出する。最適推定値算出部(158)は、時刻nのみの観測情報に対して、重み係数算出部(156)によって算出された重み係数を用いて、時刻nまたは時刻n+1までの情報による当該時刻での状態量の最適推定値を算出する。

Description

雑音抑圧装置および雑音抑圧方法
 本発明は、雑音抑圧装置および雑音抑圧方法に関する。
 所望の情報(所望信号)に不必要な情報(雑音)が混在した観測情報(雑音などにより破損した情報)から不必要な情報を取り除き、所望情報のみを抽出することは、音声や無線通信、画像、姿勢制御、認識、産業用・福祉用・医療用ロボットなどの分野における重要な技術であり、近年盛んに研究開発が行われている。
 例えば、音声分野における公知の雑音抑圧方法としては、単一のマイクロホンを用いた方法や、複数のマイクロホンから構成されるマイクロホンアレイを用いた方法が提案されている。
 しかしながら、マイクロホンアレイを用いた方法では、雑音の音源数以上のマイクロホンが必要であるため、雑音の音源数が増大すると、マイクロホンの数も比例して増加することが避けられず、コストが増大する。また、携帯電話などの通信の小型化傾向における商品において、マイクロホンを装着できる数に制限がある場合や、各マイクロホンの特性の違いを制御する場合など、実用化が困難な場合も存在する。そのため、現在は、単一のマイクロホンを用いた雑音抑圧方法の開発が主流となっている。
 単一のマイクロホンしか用いない従来の雑音抑圧方法のアルゴリズムとしては、以下のようなものが知られている。
 非特許文献1記載のANC(適応ノイズキャンセラ)アルゴリズムは、音声信号の周期性を利用してノイズ信号を低減する。
 非特許文献2には、線形予測に基づく雑音抑圧アルゴリズムが記載されている。このアルゴリズムは、非特許文献1記載のANCで必要であったピッチ推定や、雑音パワースペクトラム、雑音の平均方向に関する事前知識を必要としない。
 また、上記アルゴリズムとは別に、カルマンフィルタに基づく雑音抑圧アルゴリズムが、非特許文献3に提案されている。このアルゴリズムは、観測信号から音声信号の自己回帰(AR:Autoregressive)システムをモデル化する。さらに、このアルゴリズムは、ARシステムのパラメータ(以下「AR係数」という)を推定し、推定したAR係数を用いてカルマンフィルタに基づき雑音抑圧を実行する。
 カルマンフィルタに基づくアルゴリズムの多くは、通常、2段階で動作する。すなわち、このようなアルゴリズムは、最初にAR係数を推定し、次に推定したAR係数を用いてカルマンフィルタに基づき雑音抑圧を行う。
J.R. Deller, J.G. Proakis, J.H.L. Hansen, "Discrete-Time Processing of Speech Signals," Macmillan Press, 1993 A. Kawamura, K. Fujii, Y. Itoh and Y. Fukui, "A Noise Reduction Method Based on Linear Prediction Analysis," IEICE Trans. Fundamentals, vol.J85-A, no.4, pp.415-423, May 2002 W. Kim and H. Ko, "Noise Variance Estimation for Kalman Filtering of Noise Speech," IEICE Trans. Inf. & syst., vol.E84-D, no.1, pp.155-160, Jan 2001 N. Tanabe, T. Inoue, K. Sueyoshi, T. Furukawa, H. Kubota, H. Matsue, and S. Tsujii, "Robust Noise Suppression Algorithm using Kalman Filter Theory with Colored Driving Source," IEICE Technical Report, EA2007-125, pp.79-84, Mar. 2008
 しかしながら、非特許文献1に記載された公知のアルゴリズムは、音声信号のピッチ周期の正確な推定を必要とする。そのため、このアルゴリズムは、その雑音抑圧能力が雑音によって劣化してしまうという問題点を有している。
 この点、非特許文献2記載のアルゴリズムは、音声信号のピッチ周期の正確な推定を必要とせずに、雑音抑圧が可能である。さらに、このアルゴリズムは、その原理が単純であり、演算量を少なくすることができるといった長所を有している。しかし、このアルゴリズムは、その雑音抑圧能力が入力音声信号の周期性や線形性などの特性に依存している。言い換えると、このアルゴリズムは、アルゴリズムの中に音声信号に依存するパラメータが存在しているため、その実用には一定の限界がある。
 非特許文献3記載のアルゴリズムは、高い雑音抑圧能力を有し、特に高い音質を得たい音響分野への応用に適した手法である。
 しかしながら、一方で、このアルゴリズムは、AR係数を必要とするため、AR係数の推定精度に雑音抑圧能力(つまり、当該カルマンフィルタアルゴリズムの性能)が大きく依存してしまうという問題点を有している。すなわち、AR係数が正確に推定されない場合、雑音を抑圧し切れないのみならず、場合によっては雑音に加えて音声信号まで抑圧してしまう可能性がある。これらは、雑音が抑圧された音声信号の音質の劣化を引き起こす要因となりうる。
 この点、一般には、AR係数の正確な推定は困難である。AR係数の正確な推定は、例えば、雑音抑圧であれば、クリアな信号つまり所望信号(例えば、音声信号)に依存しているからである。このことは、音声信号が既知でなければならないことを意味しているため、リアルタイム処理は困難となる。また、仮に何らかの手法でリアルタイムにAR係数を正確に推定することが可能となったとしても、処理が増加するため演算量の問題は避けられない。また、そもそも、AR係数の推定はAR係数の次数を決定した後に行われるが、AR係数の次数を決定するのは非常に困難であり、この点からもAR係数の正確な推定は困難であるといえる。
 そこで、本発明者は、カルマンフィルタに基づく従来の雑音抑圧方法(非特許文献3参照)の問題点を解決するために、非特許文献4に記載の雑音抑圧方法を提案した。具体的には、カルマンフィルタに基づく従来の雑音抑圧方法では、線形予測を用いてAR係数を推定した後、その結果を用いてカルマンフィルタを実行することによって雑音抑圧を実現しているのに対し、この提案手法では、状態方程式と観測方程式から構成される新しい予測法によって雑音抑圧を実現している。そのため、この提案手法では、新しい状態空間モデル(状態方程式と観測方程式)を構成し、具体的には、情報源からのクリアな信号つまり所望信号(例えば、音声信号)のみを用いて状態方程式を構成し、そのクリアな信号と雑音とを用いて観測方程式を構成している。
 しかしながら、この提案手法の状態空間モデルでは、観測信号をベクトル化することにより、多くの過去情報を用いて雑音抑圧を実行している。しかし、過去の観測信号にも雑音が混入するため(つまり、誤差あり)、多くの過去情報を用いた観測信号ベクトルは雑音(誤差)を含んだものとなる。すなわち、予測の推定精度を上げるために過去の観測信号が多く必要であるという命題は、必ずしも正しくない。したがって、この提案手法においては、所望信号の推定精度(つまり、雑音抑圧能力)の向上に一定の限界がある。また、この提案手法のアルゴリズムでは、逆行列の計算が必要であるため、カルマンフィルタに基づく従来の雑音抑圧方法に対する演算量の軽減効果にも一定の限界がある。なお、多くの過去情報を用いる点は、他の従来の雑音抑圧方法(非特許文献1~3参照)も同様である。
 本発明の目的は、よりシンプルな構成で、かつ、より少ない演算量で、所望情報の品質を劣化させることなくより高い雑音抑圧能力を実現することができる雑音抑圧装置および雑音抑圧方法を提供することである。
 本発明の雑音抑圧装置は、所望の情報に雑音が混在した観測情報のみから前記所望情報を推定する雑音抑圧装置であって、時刻nのみの観測情報に対して、時刻nまたは時刻n+1までの情報により前記所望情報を含む時刻n+1のシステムの状態量を推定した場合の推定誤差の相関値を算出する相関演算部と、時刻nのみの観測情報に対して、前記相関演算部によって算出された相関値を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値と、時刻nまでの情報による時刻n+1での前記状態量の最適推定値と、前記観測情報を含む観測量の推定誤差と、の関係を規定するための重み係数を算出する重み係数算出部と、時刻nのみの観測情報に対して、前記重み係数算出部によって算出された重み係数を用いて、時刻nまたは時刻n+1までの情報による当該時刻での前記状態量の最適推定値を算出する最適推定値算出部と、を有する構成を採る。
 本発明の雑音抑圧装置は、好ましくは、所望の情報に雑音が混在した観測情報のみから前記所望情報を推定する雑音抑圧装置であって、時刻nのみの観測情報に対して、時刻nまでの情報により前記所望情報を含む時刻n+1のシステムの状態量を推定した場合の推定誤差の相関値をスカラー量として算出する相関演算部と、時刻nのみの観測情報に対して、前記相関演算部によって算出された前記推定誤差の相関値のスカラー量を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値と、時刻nまでの情報による時刻n+1での前記状態量の最適推定値と、前記観測情報を含む観測量の推定誤差と、の関係を規定するための重み係数をスカラー量として算出する重み係数算出部と、時刻nのみの観測情報に対して、前記重み係数算出部によって算出された前記重み係数のスカラー量を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値をスカラー量として算出する最適推定値算出部と、を有する構成を採る。
 本発明の雑音抑圧装置は、好ましくは、所望の情報に雑音が混在した観測情報のみから前記所望情報を推定する雑音抑圧装置であって、時刻nのみの観測情報に対して、時刻nまでの情報により前記所望情報を含む時刻n+1のシステムの状態量を推定した場合の推定誤差の相関値を行列として算出する第1の相関演算部と、時刻nのみの観測情報に対して、前記第1の相関演算部によって算出された前記推定誤差の相関値の行列を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値と、時刻nまでの情報による時刻n+1での前記状態量の最適推定値と、前記観測情報を含む観測量の推定誤差と、の関係を規定するための重み係数をベクトル量として算出する重み係数算出部と、時刻nのみの観測情報に対して、時刻nまでの情報による時刻n+1での前記状態量の最適推定値をベクトル量として算出する第1の最適推定値算出部と、時刻nのみの観測情報に対して、前記重み係数算出部によって算出された前記重み係数のベクトル量を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値をベクトル量として算出する第2の最適推定値算出部と、時刻nのみの観測情報に対して、時刻n+1までの情報により当該時刻の前記状態量を推定した場合の推定誤差の相関値を行列として算出する第2の相関演算部と、を有する構成を採る。
 本発明の雑音抑圧方法は、所望の情報に雑音が混在した観測情報のみから前記所望情報を推定する雑音抑圧方法であって、時刻nのみの観測情報に対して、時刻nまたは時刻n+1までの情報により前記所望情報を含む時刻n+1のシステムの状態量を推定した場合の推定誤差の相関値を算出する相関演算工程と、時刻nのみの観測情報に対して、前記相関演算工程で算出した相関値を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値と、時刻nまでの情報による時刻n+1での前記状態量の最適推定値と、前記観測情報を含む観測量の推定誤差と、の関係を規定するための重み係数を算出する重み係数算出工程と、時刻nのみの観測情報に対して、前記重み係数算出工程で算出した重み係数を用いて、時刻nまたは時刻n+1までの情報による当該時刻での前記状態量の最適推定値を算出する最適推定値算出工程と、を有するようにした。
 本発明の雑音抑圧方法は、好ましくは、所望の情報に雑音が混在した観測情報のみから前記所望情報を推定する雑音抑圧方法であって、時刻nのみの観測情報に対して、時刻nまでの情報により前記所望情報を含む時刻n+1のシステムの状態量を推定した場合の推定誤差の相関値をスカラー量として算出する相関演算工程と、時刻nのみの観測情報に対して、前記相関演算工程で算出した前記推定誤差の相関値のスカラー量を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値と、時刻nまでの情報による時刻n+1での前記状態量の最適推定値と、前記観測情報を含む観測量の推定誤差と、の関係を規定するための重み係数をスカラー量として算出する重み係数算出工程と、時刻nのみの観測情報に対して、前記重み係数算出工程で算出した前記重み係数のスカラー量を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値をスカラー量として算出する最適推定値算出工程と、を有するようにした。
 本発明の雑音抑圧方法は、好ましくは、所望の情報に雑音が混在した観測情報のみから前記所望情報を推定する雑音抑圧方法であって、時刻nのみの観測情報に対して、時刻nまでの情報により前記所望情報を含む時刻n+1のシステムの状態量を推定した場合の推定誤差の相関値を行列として算出する第1の相関演算工程と、時刻nのみの観測情報に対して、前記第1の相関演算工程で算出した前記推定誤差の相関値の行列を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値と、時刻nまでの情報による時刻n+1での前記状態量の最適推定値と、前記観測情報を含む観測量の推定誤差と、の関係を規定するための重み係数をベクトル量として算出する重み係数算出工程と、時刻nのみの観測情報に対して、時刻nまでの情報による時刻n+1での前記状態量の最適推定値をベクトル量として算出する第1の最適推定値算出工程と、時刻nのみの観測情報に対して、前記重み係数算出工程で算出した前記重み係数のベクトル量を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値をベクトル量として算出する第2の最適推定値算出工程と、時刻nのみの観測情報に対して、時刻n+1までの情報により当該時刻までの前記状態量を推定した場合の推定誤差の相関値を行列として算出する第2の相関演算工程と、を有するようにした。
 本発明によれば、よりシンプルな構成で、かつ、より少ない演算量で、所望情報の品質を劣化させることなくより高い雑音抑圧能力を実現することができる。
本発明の実施の形態1に係る雑音抑圧装置の構成を示すブロック図 図1の雑音抑圧処理部の構成を示すブロック図 本発明が前提とするモデルを示す図 従来手法1の状態空間モデルのシステム構成を表すブロック線図 従来手法1のアルゴリズムを示す図 図5のアルゴリズムを実行する雑音抑圧処理部の構成を示すブロック図 図5のアルゴリズムを実行する処理手順を示すフローチャート 従来手法1とその問題点を視覚的にまとめた説明図 従来手法3の状態空間モデルのシステム構成を表すブロック線図 従来手法3のアルゴリズムを示す図 図10のアルゴリズムを実行する雑音抑圧処理部の構成を示すブロック図 図10のアルゴリズムを実行する処理手順を示すフローチャート 従来手法3を視覚的にまとめた説明図 従来手法3の問題点を視覚的にまとめた説明図 従来手法3の他の問題点を視覚的にまとめた説明図 本実施の形態の発明手法1の状態空間モデルを視覚的に説明するための概略図 発明手法1の状態空間モデルのシステム構成を表すブロック線図 発明手法1の状態方程式を視覚的に示す説明図 発明手法1における新しい観測方程式の構成を視覚的に示す説明図 発明手法1における新しい観測方程式の構成を視覚的に示す他の説明図 発明手法1のアルゴリズムを示す図 発明手法1のアルゴリズムの利点を視覚的にまとめた説明図 図21のアルゴリズムを実行する処理手順を示すフローチャート 本実施の形態の発明手法2の導出方法を視覚的に示す段階別説明図 図24に続く段階別説明図 図25に続く段階別説明図 発明手法2のアルゴリズムを示す図 発明手法2のアルゴリズムの利点を視覚的にまとめた説明図 図27のアルゴリズムを実行する処理手順を示すフローチャート (A)は、従来手法1の演算量を説明するための図、(B)は、従来手法3の演算量を説明するための図、(C)は、発明手法1の演算量を説明するための図、(D)は、発明手法2の演算量を説明するための図 主に従来手法1と従来手法3および発明手法1~2との比較を示すグラフ図 従来手法3と発明手法1~2との比較を示すグラフ図 各手法の音声波形シミュレーションの第1の例を説明するための図 各手法の音声波形シミュレーションの第1の例を説明するための図 各手法の音声波形シミュレーションの第2の例を説明するための図 各手法の音声波形シミュレーションの第2の例を説明するための図 各手法の音声波形シミュレーションの第3の例を説明するための図 各手法の音声波形シミュレーションの第3の例を説明するための図 各手法の音声波形シミュレーションの第4の例を説明するための図 各手法の音声波形シミュレーションの第4の例を説明するための図 各手法の雑音抑圧能力の数値シミュレーションの第1の例の結果を示す図 各手法の雑音抑圧能力の数値シミュレーションの第2の例の結果を示す図 各手法の雑音抑圧能力の数値シミュレーションの第3の例の結果を示す図 各手法の雑音抑圧能力の数値シミュレーションの第4の例の結果を示す図 各手法の主観的評価の第1の例の結果を示す図 各手法の主観的評価の第2の例の結果を示す図 各手法の主観的評価の第3の例の結果を示す図 各手法の主観的評価の第4の例の結果を示す図 本発明の実施の形態2に係る胎児心拍検出装置の構成を示すブロック図 本発明の実施の形態3に係る携帯端末装置の構成を示すブロック図 本発明の実施の形態4に係るカーナビゲーション装置の構成を示すブロック図 本発明の実施の形態5に係る音声認識装置の構成を示すブロック図 本発明の実施の形態6に係る異常検出装置の構成を示すブロック図 本発明の実施の形態7に係る画像復元装置の構成を示すブロック図
 以下、本発明の実施の形態について、図面を参照して詳細に説明する。
 なお、以下の説明においては、便宜上、非特許文献3に記載された、カルマンフィルタに基づく従来の雑音抑圧方法を「従来手法1」、カルマンフィルタ以外の、非特許文献2に記載された、線形予測に基づく従来の雑音抑圧方法を「従来手法2」、本発明者の提案に係る、非特許文献4に記載された雑音抑圧方法を「従来手法3」、とそれぞれ呼ぶことにする。
 また、本明細書において、「雑音」とは、通常は、所望の情報以外の不必要な情報をすべて含む広義の意味で使用するが、特に画像の場合には、画像劣化の要因の1つである「ぼけ」と区別するため、「ぼけ」を除く狭義の意味で使用することにする。また、「音声」とは、人の声に限定されず、人の声を含む音一般を広く意味する。
 (実施の形態1)
 図1は、本発明の実施の形態1に係る雑音抑圧装置の構成を示すブロック図である。
 図1に示す雑音抑圧装置100は、入力部110、サンプリング部120、A/D変換部130、バッファ140、雑音抑圧処理部150、および出力部160を有する。
 入力部110は、観測情報または観測信号を入力する。観測信号は、情報源からのクリアな信号(所望信号)と、雑音とが合わさった(混合した)信号である。入力部110は、例えば、入力したアナログの観測信号を入力処理して、サンプリング部120に出力する。入力処理は、例えば、帯域制限処理や自動利得制御処理などである。
 サンプリング部120は、所定のサンプリング周波数(例えば、16kHz)で、入力されたアナログの観測信号をサンプリング処理し、A/D変換部130に出力する。サンプリング周波数は、検出対象(情報源)に応じて変更可能である。
 A/D変換部130は、サンプリングされた観測信号の振幅値を所定の分解能(例えば、8bit)でA/D変換処理し、バッファ140に送る。バッファ140は、所定のサンプリング数Nの信号フレーム(ブロック)を雑音抑圧処理部150に出力する。
 雑音抑圧処理部150は、本発明の特徴的な構成要素であり、後述する雑音抑圧アルゴリズムを内蔵している。例えば、カルマンフィルタに基づく従来手法1では、線形予測を用いてAR係数を推定した後、その結果を用いてカルマンフィルタを実行することにより雑音抑圧を実現しているのに対し、本発明の雑音抑圧方法(以下「発明手法」という)では、大きな基本的枠組に関しては、従来手法3と同様に、状態方程式と観測方程式から構成される新しい予測法によって雑音抑圧を実現している。すなわち、発明手法では、AR係数の推定を必要としない新しい状態空間モデル(状態方程式と観測方程式)を構成し、具体的には、情報源からのクリアな信号(所望信号)のみを用いて状態方程式を構成し、そのクリアな信号と雑音とを用いて観測方程式を構成している。しかし、発明手法では、その基本的枠組を実現するための具体的な構成に関しては、観測情報または観測信号について、従来手法3のように多くの過去情報を用いて雑音抑圧を実行するのではなく、ある1つの時刻の情報(瞬時情報)のみを用いて高性能な雑音抑圧を実行している。雑音抑圧処理部150は、内蔵する雑音抑圧アルゴリズムを用いて、ある1つの時刻の観測信号のみから所望信号(情報源からのクリアな信号)を推定する。雑音抑圧処理部150によって推定された推定信号は、雑音抑圧処理部150内に一時保存された後、出力部160に出力される。
 このように、本明細書において「雑音抑圧」とは、観測信号のみから所望信号(例えば、音声信号)を推定することをいい、雑音を推定して引き算により所望信号を推定する「雑音除去」とは、引き算を行わない点で、全く異なる概念である。また、本明細書において「雑音」とは、通常、上記のように、所望の情報以外の不必要な情報すべて、換言すれば、観測信号に含まれるすべての信号のうち、所望信号以外のすべての信号を意味する。
 出力部160は、雑音抑圧処理部150から入力した推定信号を所定の形態で外部に出力する。出力部160は、例えば、スピーカやディスプレイ、通信手段、記憶装置などで構成されている。
 図2は、図1の雑音抑圧処理部150の構成を示すブロック図である。
 図2に示すように、雑音抑圧処理部150は、初期設定部152、相関演算部154、重み係数算出部156、および最適推定値算出部158を有する。雑音抑圧処理部150は、各部152~158の協働の下、内蔵する雑音抑圧アルゴリズム(発明手法)を実行することによって、ある1つの時刻の観測信号のみから所望信号(情報源からのクリアな信号)を推定する。このとき、初期設定部152は、発明手法のアルゴリズムの初期設定を行い、相関演算部154は、所望信号の推定誤差の相関演算を行い、重み係数算出部156は、所望信号の最適推定値の算出に必要な重み係数の算出を行い、最適推定値算出部158は、所望信号の最適推定値の算出を行う。なお、各部152~158の具体的な処理内容は、後で詳細に説明する。
 以下、雑音抑圧処理部150で行われる雑音抑圧処理動作について詳細に説明するが、ここでは、発明手法の特徴をより明確にするため、まず従来手法(具体的には、従来手法1および従来手法3)を説明し、この従来手法との対比において発明手法を詳細に説明することにする。なお、ここでは、情報源からのクリアな信号(所望信号)として、例えば、音声信号を例にとって説明する。
 図3は、本発明が前提とするモデルを示す図である。雑音抑圧処理部150に入力される観測信号r(n)は、情報源からのクリアな信号(所望信号)(例えば、音声信号)d(n)以外に雑音v(n)を含んでおり、次の式(1)を満たす。
Figure JPOXMLDOC01-appb-M000001
 すなわち、音声信号を例にとると、一般に、人間の耳に聞こえる観測信号r(n)は、音声信号d(n)に雑音v(n)が加わった図3のモデルで表現されるとともに、数式では上記の式(1)のように書き表される。ただし、雑音v(n)は、分散σ とする。また、「n」とは、装置の時刻nである。時刻nは、サンプリング部120で生成された離散的な時間系列において、処理開始時刻を時刻0と仮定したときに、そこからn番目の時刻のことを意味する。上記のように、本発明の目的は、ある1つの時刻の観測信号r(n)のみからその時刻の高音質な音声信号d(n)を復元(推定)することである。
[従来手法1]
 まず、従来手法1について説明する。
 従来のカルマンフィルタを用いた雑音抑圧方法は、まず第1段階(ステップ1)で、音声信号d(n)のAR係数を推定した後、第2段階(ステップ2)で、ステップ1で推定したAR係数を用いてカルマンフィルタアルゴリズムを実行することにより、観測信号r(n)から音声信号d(n)を抽出する。すなわち、従来手法1は、ステップ1で、線形予測により音声信号に対するARシステムのパラメータ(AR係数)を推定し(AR係数の推定)、ステップ2で、ステップ1で推定したAR係数を用いてカルマンフィルタにより雑音抑圧を行う(音声信号の復元)。
 ステップ1(AR係数の推定)において、音声信号d(n)がAR過程で表されると仮定すると、式(1)で与えられる音声信号d(n)は、次の式(2)のように表される。
Figure JPOXMLDOC01-appb-M000002
 ここで、α(n)は、時刻nでのAR係数、Lc1は、AR係数の次数、e(n)は、駆動源、つまり、音声信号d(n)が式(2)に示すLc1次のARシステムでモデル化されるとした場合の予測誤差(モデリング誤差)である。また、駆動源は、ゼロ平均の白色ガウス過程とする。なお、添え字「c1」は、従来技術1に係るものであることを示している。
 公知のように、従来手法1では、雑音v(n)は、ゼロ平均であり白色雑音であることが前提条件である。言い換えると、従来手法1では、音声信号d(n)と雑音v(n)は無相関であると仮定されている。
 すなわち、ステップ2(音声信号の復元)において、カルマンフィルタ理論に基づいて状態空間モデル(状態方程式と観測方程式)を構成するためには、駆動源δc1(n)が白色信号であり、かつ、音声信号からなる状態量xc1(n)と雑音v(n)とが無相関でなければならない。このことを踏まえた上で、ステップ1で求めたAR係数α(n)を用いた従来手法の状態空間モデル(状態方程式と観測方程式)は、次の式(3)で書き表される。ただし、式(3)中のベクトルxc1、δc1、mc1、スカラーyc1、εc1、および行列Φc1は、次の式(4)でそれぞれ定義される。ベクトルxc1は音声信号からなるLc1×1次の状態ベクトル、ベクトルδc1はLc1×1次の駆動源ベクトル、スカラーyc1は観測信号、スカラーεc1は雑音、行列Φc1はLc1×Lc1次の状態遷移行列、ベクトルmc1はLc1×1次の観測遷移ベクトルである。また、図4は、この状態空間モデルにおけるシステム構成図をブロック線図で表したものである。
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
 図4において、「40」は時刻nにおける状態ベクトルxc1(n)、「41」は時刻n+1における状態ベクトルxc1(n+1)、「42」は時刻nにおける観測信号yc1(n)、「43」は時刻nにおける雑音εc1(n)、「44」は時刻n+1における駆動源ベクトルδc1(n+1)、「45」は状態遷移行列Φc1、「46」は観測遷移ベクトルmc1である。式(3)における状態方程式は、推定対象(例えば、音声)のシステムを状態空間モデルで記述したものであり、内部状態つまり状態変数(ここでは、状態ベクトルxc1(n))の時間変化を表している。また、式(3)における観測方程式は、何らかの観測装置を通じて観測する過程を記述したものであり、観測結果(ここでは、観測信号yc1(n))が、被観測量つまり入力(ここでは、状態ベクトルxc1(n))に依存して時間発展する様子を示している。なお、「時刻nにおける状態ベクトルxc1(n)」とは、時刻nまでの音声信号(所望信号)からなる状態ベクトルを意味する。
 図5は、従来手法1のアルゴリズムを示す図である。従来手法1のアルゴリズムは、図5に示すように、初期設定(Initialization)の過程と反復(Iteration)の過程とに大別され、反復過程は、ステップ1とステップ2に分かれている。ステップ1では、線形予測アルゴリズムを用いて、クリアな信号(音声信号)d(n)に対するAR係数{αl(n)}の推定を行う。また、ステップ2では、1~5の手順を逐次繰り返す。
 なお、この従来手法1のアルゴリズムは、図6に示す雑音抑圧処理部50によって実行される。この雑音抑圧処理部50は、図2に示す本実施の形態における雑音抑圧処理部150に対応するものであり、初期設定部51、AR係数処理部52、相関行列演算部53、カルマンゲインベクトル算出部54、および最適推定値ベクトル算出部55を有する。各部51~55の具体的な処理内容は、後述する。
 図7は、図5のアルゴリズムを実行する処理手順を示すフローチャートである。
 まず、初期設定部51で、初期設定を行う(ST10)。具体的には、音声信号からなる状態ベクトルの最適推定値(以下「音声信号の最適推定値ベクトル」という)の初期値xc1(0|0)、状態ベクトルの推定誤差(以下「音声信号の推定誤差ベクトル」という)の相関行列の初期値Pc1(0|0)、雑音(スカラー)の共分散rεc1(n)の値、観測遷移ベクトルmc1、時刻nのカウンタの初期値、および駆動源ベクトルの共分散Rδc1(n+1)[i,j]の値を、次の式(5)に示すようにそれぞれ設定する。
Figure JPOXMLDOC01-appb-M000005
 ただし、行列Iは、単位行列である。また、σ は、雑音εc1(n)(=v(n))の雑音分散であり、既知と仮定している。ここでいう「既知」とは、別の任意の方法(アルゴリズム)で求められて与えられることを意味する。もし雑音εc1(n)が白色雑音でありゼロ平均であれば、σ は、次の式(6)で与えられる。ここで、「N」は、所定のサンプル数である。
Figure JPOXMLDOC01-appb-M000006
 次に、AR係数処理部52で、AR係数の推定を行う(ST12)。具体的には、線形予測アルゴリズムを用いて、クリアな信号(音声信号)d(n+1)に対するAR係数{α(n+1)}を推定する。
 次に、AR係数処理部52で、状態遷移行列の構成を行う(ST14)。具体的には、ステップST12で推定したAR係数{α(n+1)}を用いて、状態遷移行列Φc1(n+1)を、次の式(7)に示すように構成する。なお、ステップST12とステップST14が、従来手法1のステップ1に相当する。
Figure JPOXMLDOC01-appb-M000007
 次に、相関行列演算部53で、n→(n+1)の推定誤差の相関値(行列)を計算する(ST16)。具体的には、時刻nまでの情報により時刻n+1の状態ベクトルを推定した場合の誤差(音声信号の推定誤差ベクトル)の相関行列Pc1(n+1|n)を計算する。この計算は、ステップST10で設定した駆動源ベクトルの共分散Rδc1(n+1)[i,j]の値、ステップST14で構成した状態遷移行列Φc1(n+1)、およびステップST10で設定した(n=0の場合)または前回のステップST26で計算した(n≧1の場合)音声信号の推定誤差ベクトルの相関行列Pc1(n|n)を用いて、次の式(8)により行う。なお、このステップST16は、従来手法1のステップ2の手順1に相当する。
Figure JPOXMLDOC01-appb-M000008
 次に、カルマンゲインベクトル算出部54で、カルマンゲイン(ベクトル)の計算を行う(ST18)。具体的には、観測信号の推定誤差にカルマンゲイン(ベクトル)をかけて、時刻nまでの情報による時刻n+1での音声信号の最適推定値ベクトルxc1(n+1|n)を加えたものが、時刻n+1までの情報による当該時刻での音声信号の最適推定値ベクトルxc1(n+1|n+1)になるような、そのカルマンゲインkc1(n+1)を計算する。この計算は、ステップST16で計算した音声信号の推定誤差ベクトルの相関行列Pc1(n+1|n)、ならびに、ステップST10でそれぞれ設定した観測遷移ベクトルmc1および雑音の共分散rεc1(n)の値を用いて、次の式(9)により行う。なお、このステップST18は、従来手法1のステップ2の手順2に相当する。
Figure JPOXMLDOC01-appb-M000009
 次に、最適推定値ベクトル算出部55で、n→(n+1)の音声信号の最適推定値(ベクトル)を計算する(ST20)。具体的には、時刻nまでの情報による時刻n+1での音声信号の最適推定値ベクトルxc1(n+1|n)を計算する。この計算は、前回のステップST14で構成した状態遷移行列Φc1(n)、および、前回のステップST22で計算した音声信号の最適推定値ベクトルxc1(n|n)を用いて、次の式(10)により行う。なお、このステップST20は、従来手法のステップ2の手順3に相当する。
Figure JPOXMLDOC01-appb-M000010
 次に、最適推定値ベクトル算出部55で、(n+1)→(n+1)の音声信号の最適推定値(ベクトル)を計算する(ST22)。具体的には、時刻n+1までの情報による当該時刻での音声信号の最適推定値ベクトルxc1(n+1|n+1)を計算する。この計算は、ステップST20で計算した音声信号の最適推定値ベクトルxc1(n+1|n)、ステップST18で計算したカルマンゲイン(ベクトル)kc1(n+1)、ステップST10で設定した観測遷移ベクトルmc1、および時刻n+1における観測信号yc1(n+1)を用いて、次の式(11)により行う。なお、このステップST22は、従来手法1のステップ2の手順4に相当する。
Figure JPOXMLDOC01-appb-M000011
 次に、処理を終了するか否かを判断する(ST24)。この判断は、例えば、時刻nが所定のサンプル数Nに達したか否かを判定することによって行う。この判断の結果として、時刻nが所定のサンプル数Nに達していない場合は(ST24:NO)、ステップST26に進み、時刻nが所定のサンプル数Nに達した場合は(ST24:YES)、ステップST30に進む。なお、判断の基準は、上記の例に限定されない。例えば、リアルタイムで処理を行う場合は、時刻nが所定のサンプル数Nに達していなくても、サンプルがなくなった時点で処理を終了するようにしてもよい。
 ステップST26では、相関行列演算部53で、(n+1)→(n+1)の推定誤差の相関値(行列)を計算する。具体的には、時刻n+1までの情報により当該時刻の状態ベクトルを推定した場合の誤差(音声信号の推定誤差ベクトル)の相関行列Pc1(n+1|n+1)を計算する。この計算は、ステップST18で計算したカルマンゲイン(ベクトル)kc1(n+1)、ステップST10で設定した観測遷移ベクトルmc1、およびステップST16で計算した音声信号の推定誤差ベクトルの相関行列Pc1(n+1|n)を用いて、次の式(12)により行う。なお、このステップST26は、従来手法1のステップ2の手順5に相当する。
Figure JPOXMLDOC01-appb-M000012
 次に、ステップST28では、時刻nのカウンタを1だけインクリメントして(n=n+1)、ステップST12に戻る。
 一方、ステップST30では、本アルゴリズムの計算結果を出力値として一時保存する。具体的には、ステップST22で計算した音声信号の最適推定値ベクトルxc1(n+1|n+1)を、本アルゴリズムの出力値として雑音抑圧処理部50内に一時保存する。
 図8は、従来手法1とその問題点を視覚的にまとめた説明図である。このように、従来手法1は、ステップ1でAR係数を推定した後に、ステップ2で、ステップ1で推定したAR係数を用いて状態空間モデルを構成することによって、雑音抑圧を実現している。しかし、一般に、実環境では、ステップ1のAR係数の推定においては、AR係数の次数Lc1を決定することが非常に困難であるため、不十分な推定結果であるAR係数を用いてカルマンフィルタアルゴリズムを実行しなければならない。このことが雑音抑圧能力の低下を引き起こすことは容易に想像できる。このことは、カルマンフィルタの雑音抑圧能力がAR係数の推定精度に大きく依存していることを意味する。すなわち、従来手法1において最も重要な点は、カルマンフィルタを用いた高性能の雑音抑圧を達成するために、AR係数の正確な推定を必要とすることである。このことからも、カルマンフィルタの雑音抑圧能力がAR係数の推定精度に大きく依存しており、AR係数の推定精度が不十分な場合に雑音抑圧能力が大きく劣化することは容易に想像可能である。また、音声信号の音質劣化についても容易に理解できる。
[従来手法3]
 次に、従来手法3について説明する。
 従来手法3では、上記のように、AR係数の推定を用いないようにするために、新しい状態空間モデルを構成する。すなわち、情報源からのクリアな信号(所望信号)のみを用いて状態方程式を構成し、かつ、そのクリアな信号(所望信号)および雑音を用いて観測方程式を構成する。具体的には、従来手法3では、新しい状態空間モデル(状態方程式と観測方程式)を構成し、この新しい状態空間モデルは、次の式(13)で書き表される。ただし、式(13)中のベクトルxc3、δc3、yc3、εc3、および行列Φc3、Mc3は、次の式(14)でそれぞれ定義される。ベクトルxc3は所望信号からなるLc3×1次の状態ベクトル、ベクトルδc3はLc3×1次の駆動源ベクトル、ベクトルyc3はLc3×1次の観測信号ベクトル、ベクトルεc3はLc3×1次の雑音ベクトル、行列Φc3はLc3×Lc3次の状態遷移行列、行列Mc3はLc3×Lc3次の観測遷移行列である。また、図9は、この状態空間モデルにおけるシステム構成図をブロック線図で表したものである。なお、添え字「c3」は、従来手法3に係るものであることを示している。また、「Lc3」は、状態遷移行列のサイズである。
Figure JPOXMLDOC01-appb-M000013
Figure JPOXMLDOC01-appb-M000014
 図9において、「60」は時刻nにおける状態ベクトルxc3(n)、「61」は時刻n+1における状態ベクトルxc3(n+1)、「62」は時刻nにおける観測信号ベクトルyc3(n)、「63」は時刻nにおける雑音ベクトルεc3(n)、「64」は時刻n+1における駆動源ベクトルδc3(n+1)、「65」は状態遷移行列Φc3、「66」は観測遷移行列Mc3である。式(13)における状態方程式は、推定対象(例えば、音声)のシステムを状態空間モデルで記述したものであり、内部状態つまり状態変数(ここでは、状態ベクトルxc3(n))の時間変化を表している。また、式(13)における観測方程式は、何らかの観測装置を通じて観測する過程を記述したものであり、観測結果(ここでは、観測信号ベクトルyc3(n))が、被観測量つまり入力(ここでは、状態ベクトルxc3(n))に依存して時間発展する様子を示している。なお、「時刻nにおける状態ベクトルxc3(n)」とは、時刻nまでの所望信号(例えば、音声信号)からなる状態ベクトルを意味する。
 図10は、従来手法3のアルゴリズムを示す図である。従来手法3のアルゴリズムは、図10に示すように、初期設定(Initialization)の過程と反復(Iteration)の過程とに大別され、反復過程は、従来手法1の場合(図5参照)と異なり、新しい状態空間モデル(状態方程式と観測方程式)を構成している。反復過程では、1~5の手順を逐次繰り返す。
 なお、この従来手法3のアルゴリズムは、図11に示す雑音抑圧処理部70によって実行される。この雑音抑圧処理部70は、図2に示す本実施の形態における雑音抑圧処理部150に対応するものであり、初期設定部72、相関行列演算部74、重み係数行列算出部76、および最適推定値ベクトル算出部78を有する。各部72~78の具体的な処理内容は、後述する。
 図12は、図10のアルゴリズムを実行する処理手順を示すフローチャートである。
 まず、初期設定部72で、初期設定を行う(ST30)。具体的には、初期設定部72において、所望信号(例えば、音声信号)からなる状態ベクトルの最適推定値(以下「所望信号の最適推定値ベクトル」という)の初期値xc3(0|0)、状態ベクトルの推定誤差(以下「所望信号の推定誤差ベクトル」という)の相関行列の初期値Pc3(0|0)、時刻nのカウンタの初期値、状態遷移行列Φc3、観測遷移行列Mc3、雑音ベクトルの共分散Rεc3(n+1)[i,j]の値、および駆動源ベクトルの共分散Rδc3(n+1)[i,j]の値を、次の式(15)に示すようにそれぞれ設定する。
Figure JPOXMLDOC01-appb-M000015
 ただし、行列Iは、単位行列である。また、σ は、雑音εc3(n)(=v(n))の雑音分散であり、既知と仮定している。ここでいう「既知」とは、別の任意の方法(アルゴリズム)で求められて与えられることを意味する。もし雑音εc3(n)が白色雑音でありゼロ平均であれば、σ は、上記の式(6)で与えられる。
 次に、相関行列演算部74で、n→(n+1)の推定誤差の相関値(行列)を計算する(ST32)。具体的には、相関行列演算部74において、時刻nまでの情報により時刻n+1の状態ベクトルを推定した場合の誤差(所望信号の推定誤差ベクトル)の相関行列Pc3(n+1|n)を計算する。この計算は、ステップST30でそれぞれ設定した状態遷移行列Φc3および駆動源ベクトルの共分散Rδc3(n+1)[i,j]の値、ならびに、ステップST30で設定した(n=0の場合)または前回のステップST42で計算した(n≧1の場合)所望信号の推定誤差ベクトルの相関行列Pc3(n|n)を用いて、次の式(16)により行う。なお、このステップST32は、図10の反復過程の手順1に相当する。
Figure JPOXMLDOC01-appb-M000016
 次に、重み係数行列算出部76で、重み係数(行列)の計算を行う(ST34)。具体的には、重み係数行列算出部76において、観測量である観測信号ベクトルの推定誤差(以下「観測信号の推定誤差ベクトル」という)に重み係数(行列)をかけて、時刻nまでの情報による時刻n+1での所望信号の最適推定値ベクトルxc3(n+1|n)を加えたものが、時刻n+1までの情報による当該時刻での所望信号の最適推定値ベクトルxc3(n+1|n+1)になるような、その重み係数行列Kc3(n+1)を計算する。この計算は、ステップST32で計算した所望信号の推定誤差ベクトルの相関行列Pc3(n+1|n)、ならびに、ステップST30でそれぞれ設定した観測遷移行列Mc3および雑音ベクトルの共分散Rεc3(n+1)[i,j]の値を用いて、次の式(17)により行う。なお、このステップST34は、図10の反復過程の手順2に相当する。
Figure JPOXMLDOC01-appb-M000017
 次に、最適推定値ベクトル算出部78で、n→(n+1)の状態量(所望信号)の最適推定値(ベクトル)を計算する(ST36)。具体的には、最適推定値ベクトル算出部78において、時刻nまでの情報による時刻n+1での所望信号の最適推定値ベクトルxc3(n+1|n)を計算する。この計算は、ステップST30で設定した状態遷移行列Φc3、および、前回のステップST38で計算した所望信号の最適推定値ベクトルxc3(n|n)を用いて、次の式(18)により行う。なお、このステップST36は、図10の反復過程の手順3に相当する。
Figure JPOXMLDOC01-appb-M000018
 次に、同じく最適推定値ベクトル算出部78で、(n+1)→(n+1)の状態量(所望信号)の最適推定値(ベクトル)を計算する(ST38)。具体的には、最適推定値ベクトル算出部78において、時刻n+1までの情報による当該時刻での所望信号の最適推定値ベクトルxc3(n+1|n+1)を計算する。この計算は、ステップST36で計算した所望信号の最適推定値ベクトルxc3(n+1|n)、ステップST34で計算した重み係数行列Kc3(n+1)、ステップST30で設定した観測遷移行列Mc3、および時刻n+1における観測信号yc3(n+1)を用いて、次の式(19)により行う。なお、このステップST38は、図10の反復過程の手順4に相当する。
Figure JPOXMLDOC01-appb-M000019
 次に、処理を終了するか否かを判断する(ST40)。この判断は、例えば、時刻nが所定のサンプル数Nに達したか否かを判定することによって行う。この判断の結果として、時刻nが所定のサンプル数Nに達していない場合は(ST40:NO)、ステップST42に進み、時刻nが所定のサンプル数Nに達した場合は(ST40:YES)、ステップST46に進む。なお、判断の基準は、上記の例に限定されない。例えば、リアルタイムで処理を行う場合は、時刻nが所定のサンプル数Nに達していなくても、サンプルがなくなった時点で処理を終了するようにしてもよい。
 ステップST42では、相関行列演算部74で、(n+1)→(n+1)の推定誤差の相関値(行列)を計算する。具体的には、相関行列演算部74において、時刻n+1までの情報により当該時刻の状態ベクトルを推定した場合の誤差(所望信号の推定誤差ベクトル)の相関行列Pc3(n+1|n+1)を計算する。この計算は、ステップST34で計算した重み係数行列Kc3(n+1)、ステップST30で設定した観測遷移行列Mc3、およびステップST32で計算した所望信号の推定誤差ベクトルの相関行列Pc3(n+1|n)を用いて、次の式(20)により行う。なお、このステップST42は、図10の反復過程の手順5に相当する。
Figure JPOXMLDOC01-appb-M000020
 次に、ステップST44では、時刻nのカウンタを1だけインクリメントして(n=n+1)、ステップST32に戻る。
 一方、ステップST46では、本アルゴリズムの計算結果を出力値として一時保存する。具体的には、ステップST38で計算した所望信号の最適推定値ベクトルxc3(n+1|n+1)を、本アルゴリズムの出力値として雑音抑圧処理部70内に一時保存する。
 図13は、従来手法3を視覚的にまとめた説明図である。このように、従来手法3では、新しい状態空間モデルを構成しているため、1段階処理で雑音抑圧が可能となる。なお、雑音抑圧方法の基本的枠組に関する限り、この点は、後述する発明手法1および発明手法2でも同様である。
 ところで、従来手法3のアルゴリズムは、従来手法1とは異なり、駆動源が有色であっても実行することができる。すなわち、従来手法1で述べたように、カルマンフィルタ理論を用いるためには、駆動源δc3(n+1)が白色性であり、かつ、音声信号からなる状態量xc3(n+1)と雑音v(n)とが無相関でなければならない。しかし、従来手法3の状態空間モデルにおける状態方程式の駆動源δc3(n+1)は、上記の式(14)に示すように、有色信号である音声信号d(n+1)を含んでいる。したがって、一般にカルマンフィルタ理論を適用することはできないものの、従来手法3のアルゴリズムは、駆動源が有色であるにもかかわらず、実行することができる。
 以下では、駆動源が有色信号である従来手法3の有効性、つまり、駆動源が有色であるにもかかわらず従来手法3のアルゴリズムを実行できる理由を説明しておく。もちろん、この理由は、後述する発明手法1および発明手法2にも当てはまる。なお、以下の表記において、行列内を灰色に塗り潰した部分は、駆動源の影響がある部分とし、塗り潰していない部分は、駆動源の影響がない部分とする。
 駆動源δc3が有色信号という条件の下で、時刻nまでの情報により時刻n+1の状態ベクトルxc3(n+1|n)を推定した場合の誤差(所望信号の推定誤差ベクトル)の相関行列Pc3(n+1|n)は、次の式(21)と書き表される。
Figure JPOXMLDOC01-appb-M000021
 ただし、Lc3×Lc3次の行列Rδc3(n+1)とLc3×Lc3次の行列Qc3(n+1)は、次の式(22)のように置くことにする。
Figure JPOXMLDOC01-appb-M000022
 ここで、もし駆動源が白色信号であれば、所望信号の推定誤差ベクトルの相関行列Pc3(n+1|n)は、Pc3(n+1|n)=Φc3P(n|n)Φc3 +Rδc3(n+1)となる。このことは、駆動源ベクトルδc3(n+1)と状態ベクトルxc3(n|n)とは無相関であることを意味する。すなわち、Qc3 (n+1)=O(Oはゼロ行列)。一方、駆動源が有色信号の場合、駆動源ベクトルδc3(n+1)は、所望信号の推定誤差ベクトルと相関を持つ。すなわち、Qc3 (n+1)≠Oとなる。
 以上のことから、次の式(23)の関係を用いて、行列Qc3 (n+1)の各要素について解析を行う。
Figure JPOXMLDOC01-appb-M000023
 ただし、Lc3×Lc3次の行列Γは、次の式(24)となる。
Figure JPOXMLDOC01-appb-M000024
 上記の式(23)を用いて、行列Qc3(n+1)を変形すると、次の式(25)のように書き表される。
Figure JPOXMLDOC01-appb-M000025
 行列Qc3(n+1)の各要素を明らかにするために、次の式(26)を定義すると、行列Qc3(n+1)の各要素は、次の式(27)および式(28)となる。
Figure JPOXMLDOC01-appb-M000026
Figure JPOXMLDOC01-appb-M000027
Figure JPOXMLDOC01-appb-M000028
 ただし、行列Qc3(n+1)の1列目の要素{e(n)}は、次の式(29)となる。
Figure JPOXMLDOC01-appb-M000029
 ここで、行列Qc3(n+1)の1列目の要素がすべてゼロ、つまり、{e(n)}=0であれば、駆動源の影響を受けていない。しかし、上記の式(28)の行列Qc3(n+1)の1列目の各要素はゼロではない、つまり、{e(n)}≠0であるため、駆動源の影響を受けてしまっている。
 一方、もし上記の式(28)の行列Qc3(n+1)の1列目の各要素{e(n)}を何らかの方法で得ることができれば、{e(n)}の位置は、更新と無関係に常に一定であるため、何らかの方法で得られた{e(n)}を差し引きすることで、駆動源の影響を取り除くことが可能となる。このことは、行列Qc3(n+1)をゼロ行列と置くことに等しい。したがって、従来手法3の状態空間モデルであれば、駆動源が有色であっても実行可能であるということができる。すなわち、従来手法3のアルゴリズムは、駆動源が有色であるにもかかわらず、実行することができる。
[発明手法]
 次に、発明手法について説明する。
 発明手法では、演算量のさらなる低減と雑音抑圧能力のさらなる向上とを図るために、従来手法3の状態空間モデルを基礎にして、さらに新しい状態空間モデルを構成する。すなわち、発明手法では、情報源からのクリアな信号(所望信号)のみを用いて状態方程式を構成し、かつ、ある1つの時刻のみの観測信号に対して、そのクリアな信号(所望信号)および雑音を用いて観測方程式を構成する。なお、以下では、発明手法として2つの具体的な手法を提示する。ここでは、便宜上、第1の発明手法および第2の発明手法を、発明手法1および発明手法2とそれぞれ称し、順次説明する。
<発明手法1>
 図14および図15は、従来手法3の問題点を視覚的にまとめた説明図である。
 まず、上記のように、従来手法3の状態空間モデルでは、観測信号r(n)をベクトル化{yc3(n)}することにより、多くの過去情報を用いて雑音抑圧を実行している。例えば、図14Aに示すように、従来手法3では、「おはよう」における未来の「う」を推定する場合のように、予測の推定精度の観点から観測信号r(n)のデータ量を多く使用している。具体的には、図14Aに示すように、「おはよう」における未来の「う」を推定する場合、1時刻前の「よ」を知っていても未来の「う」は推測できない。また、2時刻前までの「は」と「よ」を知っていても「はよ」から未来の「う」の推定は困難である。一方、3時刻前までの「お」と「は」と「よ」を知っていれば「おはよ」から未来の「う」は推測できる。それゆえ、予測の推定精度の観点から、観測信号r(n)のデータ量は多くなる。すなわち、過去のデータを多く使用したほうが、未来を推定しやすくなる。
 しかし、図14Bに示すように、過去の観測信号r(n)にも雑音が混入するため(つまり、誤差あり)、多くの過去情報を用いた観測信号ベクトルは雑音(誤差)を含んだものとなる。この場合、予測の推定精度を上げるために過去の観測信号r(n)が多く必要であるという命題は、必ずしも正しくない。したがって、従来手法3においては、所望信号の推定精度(つまり、雑音抑圧能力)の向上に一定の限界がある。
 また、図15に強調的に示すように、従来手法3のアルゴリズムでは、逆行列の計算が必要であるため(図10の反復過程の手順2、つまり、上記の式(17)参照)、従来手法1に対する演算量の軽減効果にも一定の限界がある。
 そこで、発明手法2では、従来手法3に対してさらに演算量の軽減および雑音抑圧能力の向上を図るために、さらに新しい状態空間モデル(状態方程式と観測方程式)を、次の式(30)のように構成する。ただし、式(30)中のベクトルxp1、δp1、mp1、スカラーyp1、εp1、および行列Φp1は、次の式(31)でそれぞれ定義される。ベクトルxp1は所望信号からなるLp1×1次の状態ベクトル、ベクトルδp1はLp1×1次の駆動源ベクトル、スカラーyp1は観測信号、スカラーεp1は雑音、行列Φp1はLp1×Lp1次の状態遷移行列、ベクトルmp1はLp1×1次の観測遷移ベクトルである。なお、添え字「p1」は、発明手法1に係るものであることを示している。また、「Lp1」は、状態遷移行列のサイズである。
Figure JPOXMLDOC01-appb-M000030
Figure JPOXMLDOC01-appb-M000031
 図16は、このさらに新しい状態空間モデルを視覚的に説明するための概略図である。図16に示すように、例えば、音声信号の場合、ある1つの時刻nにおける観測信号r(n)は、その時刻nにおける音声信号d(n)と雑音v(n)を加算した信号である(図3および式(1)参照)。音声信号の場合、状態方程式は、気道170の構造(つまり、音声の構造)を記述したものであり、観測方程式は、任意の観測装置を通じて、ある1つの時刻nにおいて、気道170から発せられた音声信号d(n)と、この音声信号d(n)以外の雑音v(n)とが混ざり合って、観測される過程を記述したものである。なお、音声信号の場合には、状態方程式を「音声構造方程式」、観測方程式を「音声観測方程式」とそれぞれ呼ぶこともできる。
 図17は、この状態空間モデルにおけるシステム構成図をブロック線図で表したものである。図17において、「200」は時刻nにおける状態ベクトルxp1(n)、「201」は時刻n+1における状態ベクトルxp1(n+1)、「202」は時刻nにおける観測信号yp1(n)、「203」は時刻nにおける雑音εp1(n)、「204」は時刻n+1における駆動源ベクトルδp1(n+1)、「205」は状態遷移行列Φp1、「206」は観測遷移ベクトルmp1である。式(30)における状態方程式は、推定対象(例えば、音声)のシステムを状態空間モデルで記述したものであり、内部状態つまり状態変数(ここでは、状態ベクトルxp1(n))の時間変化を表している。また、式(30)における観測方程式は、何らかの観測装置を通じて観測する過程を記述したものであり、観測結果(ここでは、観測信号yp1(n))が、被観測量つまり入力(ここでは、状態ベクトルxp1(n))に依存して時間発展する様子を示している。なお、「時刻nにおける状態ベクトルxp1(n)」とは、時刻nまでの所望信号(例えば、音声信号)からなる状態ベクトルを意味する。
 図18は、発明手法1の状態方程式を視覚的に示す説明図であり、図19および図20は、発明手法1における新しい観測方程式の構成を視覚的に示す説明図である。すなわち、発明手法1は、従来手法3と比較して、図18に示すように、状態方程式は、状態量の個数の点を除き、同じであるが(図13参照)、図19および図20に示すように、観測方程式を新しく構成して演算量の軽減を図っている。具体的には、発明手法1では、従来手法3の観測方程式から、状態方程式の駆動源の影響がないように、任意の一時刻の部分のみを抽出して、従来手法3と異なる新しい観測方程式を構成している(特に図19参照)。これにより、発明手法1では、例えば、従来手法3の観測方程式における観測信号ベクトルyc3(n+1)、観測遷移行列Mc3、および雑音ベクトルεc3(n+1)が、それぞれ、スカラー化、ベクトル化、スカラー化されて、観測信号yp1(n+1)、観測遷移ベクトルmp1、および雑音εp1(n+1)となっている(特に図20参照)。この結果、発明手法1は、従来手法3よりも演算量が大幅に軽減される。なお、演算量の軽減効果については、後で詳述する。
 なお、状態方程式に関して、発明手法1では、従来手法3よりも、状態量の個数、つまり、状態遷移行列のサイズを大きくとる。すなわち、発明手法1の状態遷移行列のサイズLp1は、従来手法3の状態遷移行列のサイズLc3よりも大きい(Lp1>Lc3)。これは、例えば、音声信号の場合、気道170の構造を明らかにするためには、気道170のデータは多ければ多いほど良いためである(図16参照)。一方、観測方程式に関しては、発明手法1では、上記のように、従来手法3の観測方程式から任意の一時刻の部分のみを抽出して従来手法3の観測方程式と異なる新しい観測方程式を構成している。すなわち、発明手法1では、例えば、観測信号として、過去のデータを使用する従来手法3とは異なり、現在のデータ(瞬時データ)のみを使用する。この点で、発明手法1は、本質的に、従来手法3とは異なる構成を採っている。
 図21は、発明手法1のアルゴリズムを示す図である。発明手法1のアルゴリズムは、図21に示すように、初期設定(Initialization)の過程と反復(Iteration)の過程とに大別され、反復過程は、従来手法3の場合(図10参照)よりも演算量が軽減されるように、さらに新しい状態空間モデル(状態方程式と観測方程式)を構成している。反復過程では、1~5の手順を逐次繰り返す。
 図22は、発明手法1のアルゴリズムの利点を視覚的にまとめた説明図である。発明手法1では、図22に示すように、従来手法3のアルゴリズムにおける重み係数行列Kc3(n+1)、観測遷移行列Mc3、および観測信号ベクトルyc3(n+1)が、それぞれ、ベクトル化、ベクトル化、スカラー化されて、重み係数ベクトルkp1(n+1)、観測遷移ベクトルmp1、および観測信号yp1(n+1)となっている。これにより、発明手法1では、従来手法3における逆行列の計算(図10の反復過程の手順2参照)が、スカラーの逆数の計算(図21の反復過程の手順2参照)となる。一般に、逆行列の計算は複雑であるが、スカラーの逆数の計算は簡単である。したがって、発明手法1は、従来手法3よりも演算量が大幅に軽減される。
 図23は、図21のアルゴリズムを実行する処理手順を示すフローチャートである。
 まず、初期設定部152で、初期設定を行う(ST1000)。具体的には、初期設定部152において、所望信号(例えば、音声信号)からなる状態ベクトルの最適推定値(以下「所望信号の最適推定値ベクトル」という)の初期値xp1(0|0)、状態ベクトルの推定誤差(以下「所望信号の推定誤差ベクトル」という)の相関行列の初期値Pp1(0|0)、雑音(スカラー)の共分散rεp1(n+1)の値、観測遷移ベクトルmp1、時刻nのカウンタの初期値、状態遷移行列Φp1、および駆動源ベクトルの共分散R
δp1(n+1)[i,j]の値を、次の式(32)に示すようにそれぞれ設定する。
Figure JPOXMLDOC01-appb-M000032
 ただし、行列Iは、単位行列である。また、σ は、雑音εp1(n)(=v(n))の雑音分散であり、既知と仮定している。ここでいう「既知」とは、別の任意の方法(アルゴリズム)で求められて与えられることを意味する。もし雑音εp1(n)が白色雑音でありゼロ平均であれば、σ は、上記の式(6)で与えられる。
 次に、第1の相関演算部としての相関演算部154で、n→(n+1)の推定誤差の相関値(ベクトル)を計算する(ST1100)。具体的には、相関演算部154において、時刻nのみの観測信号に対して、時刻nまでの情報により時刻n+1の状態ベクトルを推定した場合の誤差(所望信号の推定誤差ベクトル)の相関行列Pp1(n+1|n)を計算する。この計算は、ステップST1000でそれぞれ設定した状態遷移行列Φp1および駆動源ベクトルの共分散Rδp1(n+1)[i,j]の値、ならびに、ステップST1000で設定した(n=0の場合)または前回のステップST1600で計算した(n≧1の場合)所望信号の推定誤差ベクトルの相関行列Pp1(n|n)を用いて、次の式(33)により行う。なお、このステップST1100は、図21の反復過程の手順1に相当する。
Figure JPOXMLDOC01-appb-M000033
 次に、重み係数算出部156で、重み係数(ベクトル)の計算を行う(ST1200)。具体的には、重み係数算出部156において、時刻nのみの観測信号に対して、観測量である観測信号の推定誤差(スカラー)に重み係数(行列)をかけて、時刻nまでの情報による時刻n+1での所望信号の最適推定値ベクトルxp1(n+1|n)を加えたものが、時刻n+1までの情報による当該時刻での所望信号の最適推定値ベクトルxp1(n+1|n+1)になるような、その重み係数ベクトルkp1(n+1)を計算する。この計算は、ステップST1100で計算した所望信号の推定誤差ベクトルの相関行列Pp1(n+1|n)、ならびに、ステップST1000でそれぞれ設定した観測遷移ベクトルmp1および雑音の共分散rεp1(n+1)の値を用いて、次の式(34)により行う。なお、このステップST1200は、図21の反復過程の手順2に相当する。
Figure JPOXMLDOC01-appb-M000034
 次に、第1の最適推定値算出部としての最適推定値算出部158で、n→(n+1)の状態量(所望信号)の最適推定値(ベクトル)を計算する(ST1300)。具体的には、最適推定値算出部158において、時刻nのみの観測信号に対して、時刻nまでの情報による時刻n+1での所望信号の最適推定値ベクトルxp1(n+1|n)を計算する。この計算は、ステップST1000で設定した状態遷移行列Φp1、および、前回のステップST1400で計算した所望信号の最適推定値ベクトルxp1(n|n)を用いて、次の式(35)により行う。なお、このステップST1300は、図21の反復過程の手順3に相当する。
Figure JPOXMLDOC01-appb-M000035
 次に、第2の最適推定値算出部としての最適推定値算出部158で、(n+1)→(n+1)の状態量(所望信号)の最適推定値(ベクトル)を計算する(ST1400)。具体的には、最適推定値算出部158において、時刻nのみの観測信号に対して、時刻n+1までの情報による当該時刻での所望信号の最適推定値ベクトルxp1(n+1|n+1)を計算する。この計算は、ステップST1300で計算した所望信号の最適推定値ベクトルxp1(n+1|n)、ステップST1200で計算した重み係数ベクトルkp1(n+1)、ステップST1000で設定した観測遷移ベクトルmp1、および時刻n+1における観測信号yp1(n+1)を用いて、次の式(36)により行う。なお、このステップST1400は、図21の反復過程の手順4に相当する。
Figure JPOXMLDOC01-appb-M000036
 次に、処理を終了するか否かを判断する(ST1500)。この判断は、例えば、時刻nが所定のサンプル数Nに達したか否かを判定することによって行う。この判断の結果として、時刻nが所定のサンプル数Nに達していない場合は(ST1500:NO)、ステップST1600に進み、時刻nが所定のサンプル数Nに達した場合は(ST1500:YES)、ステップST1800に進む。なお、判断の基準は、上記の例に限定されない。例えば、リアルタイムで処理を行う場合は、時刻nが所定のサンプル数Nに達していなくても、サンプルがなくなった時点で処理を終了するようにしてもよい。
 ステップST1600では、第2の相関演算部としての相関演算部154で、(n+1)→(n+1)の推定誤差の相関値(ベクトル)を計算する。具体的には、相関演算部154において、時刻nのみの観測信号に対して、時刻n+1までの情報により当該時刻の状態ベクトルを推定した場合の誤差(所望信号の推定誤差ベクトル)の相関行列Pp1(n+1|n+1)を計算する。この計算は、ステップST1200で計算した重み係数ベクトルkp1(n+1)、ステップST1000で設定した観測遷移ベクトルmp1、およびステップST1100で計算した所望信号の推定誤差ベクトルの相関行列Pp1(n+1|n)を用いて、次の式(37)により行う。なお、このステップST1600は、図19の反復過程の手順5に相当する。
Figure JPOXMLDOC01-appb-M000037
 次に、ステップST1700では、時刻nのカウンタを1だけインクリメントして(n=n+1)、ステップST1100に戻る。
 一方、ステップST1800では、本アルゴリズムの計算結果を出力値として一時保存する。具体的には、ステップST1400で計算した所望信号の最適推定値ベクトルxp1(n+1|n+1)を、本アルゴリズムの出力値として雑音抑圧処理部150内に一時保存する。
 このように、発明手法1においても、従来手法3と同様に、AR係数の推定を必要としない新しい状態空間モデルを構成しているため、1段階処理で雑音抑圧が可能となる。
 また、従来手法3と同様に、発明手法1のアルゴリズムは、従来手法1とは異なり、駆動源が有色であっても実行することができる。すなわち、従来手法1で述べたように、カルマンフィルタ理論を用いるためには、駆動源δp1(n+1)が白色性であり、かつ、音声信号(所望信号)からなる状態量xp1(n+1)と雑音v(n)とが無相関でなければならない。しかし、発明手法1の状態空間モデルにおける状態方程式の駆動源δp1(n+1)は、上記の式(31)に示すように、有色信号である音声信号d(n+1)を含んでいる。したがって、一般にカルマンフィルタ理論を適用することはできないものの、発明手法1のアルゴリズムは、駆動源が有色であるにもかかわらず、実行することができる。
 以下では、駆動源が有色信号である発明手法1の有効性、つまり、駆動源が有色であるにもかかわらず発明手法1のアルゴリズムを実行できる理由を説明する。なお、以下の表記において、行列内を灰色に塗り潰した部分は、駆動源の影響がある部分とし、塗り潰していない部分は、駆動源の影響がない部分とする。また、更新回数nにおける各手順において、Pp1(n|n)、xp1(n|n)は、Qp1(n+1)の影響を最大限に見積るために、これらのすべての要素に行列Qp1(n+1)の影響が含まれていることを仮定する。すなわち、Pp1(n|n)、xp1(n|n)のすべての要素は灰色で表される。
 駆動源δp1が有色信号という条件の下で、時刻nまでの情報により時刻n+1の状態ベクトルxp1(n+1|n)を推定した場合の誤差(所望信号の推定誤差ベクトル)の相関行列Pp1(n+1|n)は、次の式(38)と書き表される。
Figure JPOXMLDOC01-appb-M000038
 ただし、Lp1×Lp1次の行列Rδp1(n+1)とLp1×Lp1次の行列Qp1(n+1)は、次の式(39)のように置くことにする。
Figure JPOXMLDOC01-appb-M000039
 行列Pp1(n+1|n)に対して、駆動源の影響を受ける部分は、次の式(40)に示すものとなる。
Figure JPOXMLDOC01-appb-M000040
 ただし、{e(n)}は、次の式(41)である。
Figure JPOXMLDOC01-appb-M000041
 行列Pp1(n+1|n)の結果を用いて、ベクトルkp1(n+1)に対する駆動源の影響部分は、次の式(42)に示すものとなる。
Figure JPOXMLDOC01-appb-M000042
 また、次の式(43)を定義すると、最適推定値ベクトルxp1(n+1|n)に対する駆動源の影響部分は、次の式(44)に示すものとなる。
Figure JPOXMLDOC01-appb-M000043
Figure JPOXMLDOC01-appb-M000044
 したがって、最適推定値ベクトルxp1(n+1|n+1)に対する駆動源の影響部分は、次の式(45)のように書き表される。
Figure JPOXMLDOC01-appb-M000045
 復元された信号は、最適推定値ベクトルxp1(n+1|n+1)の1行1列目の要素、つまり、最適推定値xp1(n+1|n+1)[1,1]であるため、発明手法1は、有色性の駆動源に対して影響はないといえる。
 同様に、所望信号の誤差推定ベクトルの相関行列Pp1(n+1|n+1)に対する駆動源の影響部分は、次の式(46)のように書き表される。
Figure JPOXMLDOC01-appb-M000046
 以上のことから、復元された信号は、有色駆動源の影響を受けないことが明らかとなった。また、これらの議論は、n回目の更新に限らず、すべての更新回数においても成立する。それゆえ、新に発明した有色駆動源を含んだ状態空間モデルの有効性は明らかである。
<発明手法2>
 上記のように、発明手法1は、従来手法3と比べて、非常に少ない演算量で雑音抑圧を実現することができる。しかし、発明手法1のアルゴリズムを精査してみると、発明手法1のアルゴリズムは、今まだ余分な計算を含んでいる、つまり、計算する必要のない部分についても演算を行っている。このことは、演算量の増加や不必要な演算誤差などを引き起こす原因になる可能性がある。
 そこで、発明手法2では、所望信号の推定に必要な部分のみ、つまり、取り出す推定信号のみに着目して、発明手法1のアルゴリズムの一部の演算を省略するようにしている。具体的には、発明手法2では、復元された所望信号(例えば、音声信号)、つまり、所望信号の最適推定値xp1(n+1|n+1)[1,1]のみに着目することにより、発明手法1に対して、さらなる演算量の軽減を図るようにしている。
 すなわち、復元された所望信号xp1(n+1|n+1)[1,1]に着目すると、これは、次の式(47)および式(48)と書き表される。
Figure JPOXMLDOC01-appb-M000047
Figure JPOXMLDOC01-appb-M000048
 このとき、yp1(n+1)は観測信号であり既知であるため、復元された所望信号xp1(n+1|n+1)[1,1]を得るためには、重み係数ベクトルkp1(n+1)の1行1列目の要素のみ必要となる。
 重み係数ベクトルkp1(n+1)は、下記の式(49)と書き表されるため、重み係数ベクトルkp1(n+1)の1行1列目の要素は、次の式(50)で得ることが可能である。
Figure JPOXMLDOC01-appb-M000049
Figure JPOXMLDOC01-appb-M000050
 同様に、重み係数kp1(n+1)[1,1]を得るためには、所望信号の推定誤差ベクトルの相関行列Pp1(n+1|n)の1行1列目の要素が必要となる。したがって、この行列Pp1(n+1|n)は、下記の式(51)と書き表されるため、この行列Pp1(n+1|n)の1行1列目の要素は、次の式(52)により得られる。
Figure JPOXMLDOC01-appb-M000051
Figure JPOXMLDOC01-appb-M000052
 図24~図26は、発明手法2の導出方法を視覚的に示す段階別説明図である。上記した発明手法2の導出方法を視覚的に説明すると、図24~図26に示す通りである。
 以上のことから、発明手法1から余分な演算を取り除いた発明手法2のアルゴリズムは、図27で与えられる。なお、添え字「p2」は、発明手法2に係るものであることを示している。また、図28は、発明手法2のアルゴリズムの利点を視覚的にまとめた説明図である。
 発明手法2のアルゴリズムは、図27に示すように、初期設定(Initialization)の過程と反復(Iteration)の過程とに大別され、反復過程は、従来手法3や発明手法1の場合(図10、図21参照)と同様にAR係数の推定を用いないように、かつ、従来手法3や発明手法1の場合(図10、図21参照)よりも演算量が軽減されるように、処理手順が構成されている。反復過程では、1~3の手順を逐次繰り返す。すなわち、発明手法2の反復過程の手順の数は、従来手法3や発明手法1と比較して、5ステップから3ステップに低減されている。なお、発明手法2は、発明手法1の演算の一部を省略したものであり、その状態空間モデル(状態方程式と観測方程式)は、発明手法1と同様である。
 図29は、図27のアルゴリズムを実行する処理手順を示すフローチャートである。
 まず、初期設定部152で、初期設定を行う(ST2000)。具体的には、初期設定部152において、雑音(スカラー)の共分散rεp2(n+1)の値、時刻nのカウンタの初期値、および駆動源(スカラー)の共分散rδp2(n+1)の値を、次の式(53)に示すようにそれぞれ設定する。
Figure JPOXMLDOC01-appb-M000053
 ただし、σ は、雑音εp2(n)(=v(n))の雑音分散であり、既知と仮定している。ここでいう「既知」とは、別の任意の方法(アルゴリズム)で求められて与えられることを意味する。もし雑音εp2(n)が白色雑音でありゼロ平均であれば、σ は、上記の式(6)で与えられる。
 次に、相関演算部154で、n→(n+1)の推定誤差の相関値(スカラー)を計算する(ST2100)。具体的には、相関演算部154において、時刻nのみの観測信号に対して、時刻nまでの情報により時刻n+1の状態ベクトルを推定した場合の誤差(所望信号の推定誤差ベクトル)の相関行列Pp2(n+1|n)の1行1列目の要素、つまり、スカラーであるPp2(n+1|n)[1,1]を計算する。この計算は、ステップST2000で設定した駆動源(スカラー)の共分散rδp2(n+1)の値を用いて、次の式(54)により行う。なお、このステップST2100は、図27の反復過程の手順1に相当する。
Figure JPOXMLDOC01-appb-M000054
 次に、重み係数算出部156で、重み係数(スカラー)の計算を行う(ST2200)。具体的には、重み係数算出部156において、時刻nのみの観測信号に対して、観測量である観測信号の推定誤差(スカラー)に重み係数(スカラー)をかけて、時刻nまでの情報による時刻n+1での所望信号の最適推定値ベクトルxp2(n+1|n)を加えたものが、時刻n+1までの情報による当該時刻での所望信号の最適推定値ベクトルxp2(n+1|n+1)になるような、その重み係数ベクトルkp2(n+1)の1行1列目の要素、つまり、スカラーであるkp2(n+1)[1,1]を計算する。この計算は、ステップST2100で計算した所望信号の推定誤差ベクトルの相関行列Pp2(n+1|n)の1行1列目の要素であるPp2(n+1|n)[1,1]、および、ステップST2000で設定した雑音の共分散rεp2(n+1)の値を用いて、次の式(55)により行う。なお、このステップST2200は、図25の反復過程の手順2に相当する。
Figure JPOXMLDOC01-appb-M000055
 次に、最適推定値算出部158で、(n+1)→(n+1)の状態量(所望信号)の最適推定値(スカラー)を計算する(ST2300)。具体的には、最適推定値算出部158において、時刻nのみの観測信号に対して、時刻n+1までの情報による当該時刻での所望信号の最適推定値ベクトルのxp2(n+1|n+1)の1行1列目の要素、つまり、所望信号の最適推定値xp2(n+1|n+1)[1,1]を計算する。この計算は、ステップST2200で計算した重み係数kp2(n+1)[1,1]、および、時刻n+1における観測信号yp2(n+1)を用いて、次の式(56)により行う。なお、このステップST2300は、図27の反復過程の手順3に相当する。
Figure JPOXMLDOC01-appb-M000056
 次に、処理を終了するか否かを判断する(ST2400)。この判断は、例えば、時刻nが所定のサンプル数Nに達したか否かを判定することによって行う。この判断の結果として、時刻nが所定のサンプル数Nに達していない場合は(ST2400:NO)、ステップST2500に進み、時刻nが所定のサンプル数Nに達した場合は(ST2400:YES)、ステップST2600に進む。なお、判断の基準は、上記の例に限定されない。例えば、リアルタイムで処理を行う場合は、時刻nが所定のサンプル数Nに達していなくても、サンプルがなくなった時点で処理を終了するようにしてもよい。
 ステップST2500では、時刻nのカウンタを1だけインクリメントして(n=n+1)、ステップST2100に戻る。
 一方、ステップST2600では、本アルゴリズムの計算結果を出力値として一時保存する。具体的には、ステップST2300で計算した所望信号の最適推定値xp2(n+1|n+1)[1,1]を、本アルゴリズムの出力値として雑音抑圧処理部150内に一時保存する。
 このように、発明手法2においても、従来手法3や発明手法1と同様に、AR係数の推定を必要としない新しい状態空間モデルを構成しているため、1段階処理で雑音抑圧が可能となる。
 また、発明手法2では、発明手法1と比較して、さらなるスカラー化が図られ、反復過程の手順の数が5ステップから3ステップに低減されているため、演算量のさらなる軽減を実現することができる(図28参照)。
 また、発明手法2では、発明手法1と比較して、観測遷移ベクトルmや状態遷移行列Φを設定する必要がないため(図27の初期設定、式(53)参照)、反復過程の手順の数の低減に伴う演算量の軽減と相俟って、メモリ容量の大幅な削減を図ることができる。
 次に、発明手法1および発明手法2の演算量の削減効果について説明する。
 図30は、上記各手法の演算量を説明するための図であり、特に、図30Aは、従来手法1の場合、図30Bは、従来手法3の場合、図30Cは、発明手法1の場合、図30Dは、発明手法2の場合をそれぞれ示している。また、図31および図32は、次数と演算量との関係を示すグラフであり、特に、図31は、主に従来手法1と従来手法3および発明手法1~2との比較を示すグラフ図であり、図32は、従来手法3と発明手法1~2との比較を示すグラフ図である。
 図30~図32において、演算量は、乗算の回数によって表される。図中の「Lc1」は、AR係数の次数であり、「Lc3」および「L」は、状態遷移行列のサイズである。ここでは、便宜上、Lc1とLc3をまとめて「L」と表記する。また、「L」は、発明手法1および発明手法2における状態遷移行列のサイズLp1、Lp2をまとめて表記したものである。例えば、従来手法1の場合、図30Aに示すように、アルゴリズムの反復過程の手順1~5の演算量は、順に、2Lc1 、Lc1、Lc1、Lc1、Lc1 であり、その合計は、3Lc1 +3Lc1である。また、従来手法3の場合、図30Bに示すように、アルゴリズムの反復過程の手順1~5の演算量は、順に、0、Lc3-1、0、Lc3-1、Lc3-1であり、その合計は、3Lc3-3である。また、発明手法1の場合、図30Cに示すように、アルゴリズムの反復過程の手順1~5の演算量は、順に、0、1、0、1、1であり、その合計は、3である。また、発明手法2の場合、図30Dに示すように、アルゴリズムの反復過程の手順1~3の演算量は、順に、0、1、1であり、その合計は、2である。
 したがって、従来手法1では、AR係数の次数Lc1の2乗に比例して演算量が著しく増大し(図31参照)、従来手法3では、状態遷移行列のサイズLc3に比例して演算量が増大するのに対し(図32参照)、発明手法1および発明手法2では、状態遷移行列のサイズLに関係なくそれぞれ演算量が一定であることがわかる(図32参照)。すなわち、演算量の大小に関して、従来手法1>従来手法3>発明手法1>発明手法2である。特に、従来手法1と従来手法3および発明手法1~2とを比較した場合、図31に示すように、従来手法3および発明手法1~2は、従来手法1に比べて演算量が大幅に軽減されている。さらに、従来手法3と発明手法1~2とを比較した場合、図32に示すように、発明手法1および発明手法2は、従来手法3に比べて演算量がさらに大幅に軽減されている。また、図示しないが、このような演算量の削減によって、上記のように、メモリ容量も大幅に削減される。
 また、本発明者は、本発明の効果(発明手法1~2の有効性)を実証するために実験を行った。具体的には、発明手法1~2の雑音抑圧能力を評価するために、音声信号を用いて、客観的評価と主観的評価を行った。客観的評価は、(1)波形による評価(音声波形のシミュレーション)と(2)数値による評価である。前者は、いわば見た目による評価であり、後者は、能力(雑音抑圧能力)の評価である。また、主観的評価は、(3)聞き取り調査である。これは、いわば音質の評価である。これらの実験では、本発明が、カルマンフィルタに基づく従来の雑音抑圧方法のみならずカルマンフィルタ以外の他の原理に基づく従来の雑音抑圧方法に対しても格別の作用効果を有することを実証するために、従来手法1~3と発明手法1~2とを比較した。以下、順に説明する。
 (1)客観的評価(波形による評価)
 図33は、各手法の音声波形シミュレーションの第1の例を説明するための図、図34は、各手法の音声波形シミュレーションの第2の例を説明するための図、図35は、各手法の音声波形シミュレーションの第3の例を説明するための図、図36は、各手法の音声波形シミュレーションの第4の例を説明するための図である。
 シミュレーション条件は、次の通りである。
 本シミュレーションでは、2つの音声信号と2つの雑音を用いる。一方の音声信号は、クリアな信号(音声信号)として、成人男性の音声を無音室で録音したものであり、音声(A-1)と称する。もう一方の音声信号は、クリアな信号(音声信号)として、成人女性の音声を無音室で録音したものであり、音声(A-2)と称する。また、一方の雑音は、ガウス性白色雑音(つまり、白色ガウス雑音)であり、雑音(B-1)と称する。もう一方の雑音は、バブル雑音(有色雑音)であり、雑音(B-2)と称する。2つの雑音は、いずれも、分散σ は既知である、つまり、別の任意の方法(アルゴリズム)で求められて与えられるとする。
 また、信号雑音比SNRinを、次の式(57)で定義する。
Figure JPOXMLDOC01-appb-M000057
 図33は、音声(A-1)と雑音(B-1)の組み合わせにおける音声波形シミュレーションの結果を示す図であり、例えば、SNRin=10dB、L=L=50(Lは状態遷移行列またはベクトルのサイズ)の条件における各種波形を示している。具体的には、図33Aは、音声(A-1)の波形を示し、図33Bは、雑音(B-1)の波形を示し、図33Cは、音声(A-1)と雑音(B-1)の合成波形(観測信号)を示している。また、図33Dは、音声(A-1)と雑音(B-1)の合成波形に対して従来手法1による雑音抑圧を行った場合の推定音声信号の波形を示し、図33Eは、音声(A-1)と雑音(B-1)の合成波形に対して従来手法2による雑音抑圧を行った場合の推定音声信号の波形を示し、図33Fは、音声(A-1)と雑音(B-1)の合成波形に対して従来手法3による雑音抑圧を行った場合の推定音声信号の波形を示し、図33Gは、音声(A-1)と雑音(B-1)の合成波形に対して発明手法1による雑音抑圧を行った場合の推定音声信号の波形を示し、図33Hは、音声(A-1)と雑音(B-1)の合成波形に対して発明手法2による雑音抑圧を行った場合の推定音声信号の波形を示している。
 図34は、音声(A-2)と雑音(B-1)の組み合わせにおける音声波形シミュレーションの結果を示す図であり、例えば、上記と同様に、SNRin=10dB、L=L
=50の条件における各種波形を示している。具体的には、図34Aは、音声(A-2)の波形を示し、図34Bは、雑音(B-1)の波形を示し、図34Cは、音声(A-2)と雑音(B-1)の合成波形(観測信号)を示している。また、図34Dは、音声(A-2)と雑音(B-1)の合成波形に対して従来手法1による雑音抑圧を行った場合の推定音声信号の波形を示し、図34Eは、音声(A-2)と雑音(B-1)の合成波形に対して従来手法2による雑音抑圧を行った場合の推定音声信号の波形を示し、図34Fは、音声(A-2)と雑音(B-1)の合成波形に対して従来手法3による雑音抑圧を行った場合の推定音声信号の波形を示し、図34Gは、音声(A-2)と雑音(B-1)の合成波形に対して発明手法1による雑音抑圧を行った場合の推定音声信号の波形を示し、図34Hは、音声(A-2)と雑音(B-1)の合成波形に対して発明手法2による雑音抑圧を行った場合の推定音声信号の波形を示している。
 図35は、音声(A-1)と雑音(B-2)の組み合わせにおける音声波形シミュレーションの結果を示す図であり、例えば、上記と同様に、SNRin=10dB、L=L=50の条件における各種波形を示している。具体的には、図35Aは、音声(A-1)の波形を示し、図35Bは、雑音(B-2)の波形を示し、図35Cは、音声(A-1)と雑音(B-2)の合成波形(観測信号)を示している。また、図35Dは、音声(A-1)と雑音(B-2)の合成波形に対して従来手法1による雑音抑圧を行った場合の推定音声信号の波形を示し、図35Eは、音声(A-1)と雑音(B-2)の合成波形に対して従来手法2による雑音抑圧を行った場合の推定音声信号の波形を示し、図35Fは、音声(A-1)と雑音(B-2)の合成波形に対して従来手法3による雑音抑圧を行った場合の推定音声信号の波形を示し、図35Gは、音声(A-1)と雑音(B-2)の合成波形に対して発明手法1による雑音抑圧を行った場合の推定音声信号の波形を示し、図35Hは、音声(A-1)と雑音(B-2)の合成波形に対して発明手法2による雑音抑圧を行った場合の推定音声信号の波形を示している。
 図36は、音声(A-2)と雑音(B-2)の組み合わせにおける音声波形シミュレーションの結果を示す図であり、例えば、上記と同様に、SNRin=10dB、L=L=50の条件における各種波形を示している。具体的には、図36Aは、音声(A-2)の波形を示し、図36Bは、雑音(B-2)の波形を示し、図36Cは、音声(A-2)と雑音(B-2)の合成波形(観測信号)を示している。また、図36Dは、音声(A-2)と雑音(B-2)の合成波形に対して従来手法1による雑音抑圧を行った場合の推定音声信号の波形を示し、図36Eは、音声(A-2)と雑音(B-2)の合成波形に対して従来手法2による雑音抑圧を行った場合の推定音声信号の波形を示し、図36Fは、音声(A-2)と雑音(B-2)の合成波形に対して従来手法3による雑音抑圧を行った場合の推定音声信号の波形を示し、図36Gは、音声(A-2)と雑音(B-2)の合成波形に対して発明手法1による雑音抑圧を行った場合の推定音声信号の波形を示し、図36Hは、音声(A-2)と雑音(B-2)の合成波形に対して発明手法2による雑音抑圧を行った場合の推定音声信号の波形を示している。
 まず、図33Aと図33D、および、図34Aと図34Dをそれぞれ比較することにより、従来手法1による雑音抑圧では、雑音抑圧後に推定音声信号の振幅が小さくなっており、クリアな信号(音声信号)が抑圧されていることがわかる。また、従来手法1による雑音抑圧では、サンプル数の増加と共に、雑音抑圧後の推定音声信号の波形がクリアな信号(音声信号)の波形から変形していることがわかる。
 また、特に図34Aと図34Dの比較から、従来手法1の雑音抑圧では、無声区間を有する音声(A-2)に対して、推定音声信号が抑圧されるだけでなく、無声区間においてオリジナルの雑音とは異なる雑音が観察されている。これは、従来手法1では、無声区間において音声信号d(n)は0であるにもかかわらず、上記の式(2)でAR係数を求めようとするためにAR係数の値が発散し、不安定な状態を与えるからであると推測される。
 また、このことから、雑音が有色の場合、従来手法1の適用は困難であろうことは容易に推測される。
 これに対し、発明手法1~2による雑音抑圧では、従来手法1と対照的に、雑音抑圧後の推定音声信号の波形は、いずれの場合においても、クリアな信号(音声信号)の波形と非常に似ている。
 次に、図35Aと図35D、および、図36Aと図36Dをそれぞれ比較することにより、従来手法1による雑音抑圧では、雑音(B-2)を含む観測音声信号に対して、非常に劣った結果を与えていることがわかる。これは、従来手法1では、有色雑音である雑音(B-2)を含んだ観測音声信号に対してAR係数を正確に推定することが困難であるためである。
 これに対し、発明手法1~2による雑音抑圧法では、従来手法1と対照的に、雑音(B-2)の場合も、雑音(B-1)の場合と同程度の雑音抑圧が達成されている。
 このように、本発明の雑音抑制方法(発明手法1~2)は、白色雑音か有色雑音かにかかわらず、また、無声区間の有無にかかわらず、有効である。これは、本発明の雑音抑制方法の大きな特徴の1つである。
 (2)客観的評価(数値による評価)
 図37は、各手法の雑音抑圧能力の数値シミュレーションの第1の例の結果を示す図、図38は、各手法の雑音抑圧能力の数値シミュレーションの第2の例の結果を示す図、図39は、各手法の雑音抑圧能力の数値シミュレーションの第3の例の結果を示す図、図40は、各手法の雑音抑圧能力の数値シミュレーションの第4の例の結果を示す図である。
 本シミュレーションでは、雑音抑制能力を数値により評価するため、次の式(58)で表されるSNRout[dB]を用いて雑音抑圧量を評価した。なお、SNRは、信号に対する雑音の比であり、数値が大きいほど雑音が少なく音声として良好であるといえる。また、図37~図40において、「L」は、上記の「L」と「L」をまとめて表記したものである。
Figure JPOXMLDOC01-appb-M000058
 すなわち、図37は、音声(A-1)と雑音(B-1)の組み合わせにおける雑音抑圧能力の数値シミュレーションの結果を示す図であり、成人男性の音声、白色雑音の条件における雑音抑圧量SNRoutを示している。図38は、音声(A-2)と雑音(B-1)の組み合わせにおける雑音抑圧能力の数値シミュレーションの結果を示す図であり、成人女性の音声、白色雑音の条件における雑音抑圧量SNRoutを示している。図39は、音声(A-1)と雑音(B-2)の組み合わせにおける雑音抑圧能力の数値シミュレーションの結果を示す図であり、成人男性の音声、有色雑音の条件における雑音抑圧量SNRoutを示している。図40は、音声(A-2)と雑音(B-2)の組み合わせにおける雑音抑圧能力の数値シミュレーションの結果を示す図であり、成人女性の音声、有色雑音の条件における雑音抑圧量SNRoutを示している。また、4つのいずれの場合においても、SNRinと状態遷移行列またはベクトルのサイズLとのいくつかの値の組み合わせに対して、従来手法1~3と発明手法1~2によるSNRoutの値を比較して示している。なお、発明手法1と発明手法2の結果はほぼ同じであるため、ここでは、便宜上、両者をまとめて「発明手法1&2」と表記している。
 図37~図40を参照すると、発明手法1~2は、すべてのSNRin、Lの値において、従来手法1~3に比べて雑音抑圧能力を改善していることがわかる。
 特に、図39および図40に示す有色雑音の場合には、従来手法1は非常に劣った結果を与えているのに対し、発明手法1~2は、図37および図38に示す白色雑音の場合と同程度の結果を示している。すなわち、発明手法1~2は、白色雑音と有色雑音の両者に効果的で、雑音の性質に堅牢な雑音抑圧方法であるといえる。
 また、図37~図40に見られるように、発明手法1~2では、Lの値に対して雑音抑圧能力SNRoutは安定であり、Lの値の増加に伴い増加する傾向にある。これと対照的に、従来手法1では、図37~図40に見られるように、Lの値に対して雑音抑圧能力SNRoutは不安定である。これは、従来手法1では、最適なLの値、つまりAR係数の次数を決定することが困難であることを意味している。
 AR係数の推定を必要とする従来手法1において最も問題になることは、一般に、AR係数の次数の決定は非常に困難であるということである。なぜなら、AR係数の次数の正確な推定は、例えば、雑音抑圧であれば、クリアな信号(音声信号)に依存しているからである。
 このことは、クリアな信号(音声信号)が既知でなければならないことを意味しているため、リアルタイム処理は困難となる。AR係数の次数が適切でない場合には、カルマンフィルタアルゴリズムの性能が劣化することは容易に想像可能である。また、何らかの手法でリアルタイムに推定することが可能となったとしても、処理が増加することより演算量などの問題を避けることは不可能である。
 さらに、図37~図40に見られるように、従来手法3と発明手法1~2とを比較した場合、発明手法1および発明手法2は、4つのいずれの場合においても、従来手法3に比べて雑音抑圧能力が高いといえる。特に、SNRin、Lの値の値が小さいほど、発明手法1および発明手法2は、従来手法3よりも高い雑音抑圧能力を発揮することがわかる。このような雑音抑圧能力の違いは、演算量の違いに起因するものと考えられる。すなわち、演算量が少ないほど、誤差の発生が少なくなり、雑音抑圧能力の向上に資するものと考えられる。
 また、図37~図40に見られるように、従来手法2と発明手法1~2とを比較した場合、発明手法1および発明手法2は、4つのいずれの場合においても、従来手法3との比較の場合にも増して、従来手法2に比べて雑音抑圧能力が高いといえる。従来手法2は、音声に特化したパラメータの設定を必要とするが、この実験の結果は、実環境では、そのパラメータの設定が非常に困難であることを示している。
(3)主観的評価(聞き取り調査)
 図41は、各手法の主観的評価の第1の例の結果を示す図、図42は、各手法の主観的評価の第2の例の結果を示す図、図43は、各手法の主観的評価の第3の例の結果を示す図、図44は、各手法の主観的評価の第4の例の結果を示す図である。
 ここでは、推定音声信号の音声品質を評価するために、リスニングテスト(聞き取り調査)による主観的評価を行った。音声品質評価に用いた音声信号と雑音は、上記のシミュレーション(客観的評価)に用いたものと同一である。雑音は、異なるSNRin(=0、5[dB])で音声信号に加えた。また、音声品質評価は、ACR(絶対範疇評価)に基づく5段階MOS(平均オピニオン値)を用いたリスニングテストにより行った。50人の聴取者が雑音抑圧により得られた推定音声信号のうちいくつかを評価した。各々の聴取者は、ポイント1からポイント5を決定する。ポイント5が最良である。
 図41は、音声(A-1)と雑音(B-1)の組み合わせにおける雑音抑圧後の音声品質の主観的評価結果の一例を示す図であり、例えば、L=L=50の条件における各手法のリスニングテストの結果を示している。図42は、音声(A-2)と雑音(B-1)の組み合わせにおける雑音抑圧後の音声品質の主観的評価結果の一例を示す図であり、例えば、L=L=50の条件における各手法のリスニングテストの結果を示している。図43は、音声(A-1)と雑音(B-2)の組み合わせにおける雑音抑圧後の音声品質の主観的評価結果の一例を示す図であり、例えば、L=L=50の条件における各手法のリスニングテストの結果を示している。図44は、音声(A-2)と雑音(B-2)の組み合わせにおける雑音抑圧後の音声品質の主観的評価結果の一例を示す図であり、例えば、L=L=50の条件における各手法のリスニングテストの結果を示している。なお、客観的評価のみならず主観的評価においても発明手法1と発明手法2の評価結果はほぼ同じであるため、ここでも、便宜上、両者をまとめて「発明手法1&2」と表記している。
 図41~図44から、発明手法1~2で推定した音声信号のスコアは、すべてのSNRinの値において、従来手法1~3のスコアよりも高いことがわかる。特に、従来手法1~2との比較において、発明手法1~2と従来手法1~2との差は、音声(A-2)と雑音(B-1)の組み合わせ、音声(A-1)と雑音(B-2)の組み合わせ、および音声(A-2)と雑音(B-2)の組み合わせに対して大きい。すなわち、発明手法1~2では、従来手法1~2に比べて音質が大幅に改善されている。
 また、従来手法3との比較においても、発明手法1および発明手法2は、4つのいずれの場合においても、従来手法3に比べて主観的評価も高いといえる。
 以上の実験結果により、本発明の雑音抑圧方法(発明手法1~2)は、音声信号の音声品質を犠牲にすることのない、白色雑音および有色雑音に効果的な優れた雑音抑圧方法であるといえる。特に、従来手法3との比較において、発明手法1および発明手法2は、従来手法3に比べて、数値による客観的評価が高く、より高い雑音抑圧能力を実現しているといえる。
 以上をまとめると、本発明に係る雑音抑圧方法(発明手法1~2)は、新しい状態空間モデル(特に観測方程式)を構成することによって、従来手法1~3に比べて、演算量を大幅に軽減することが可能である。具体的には、発明手法1~2は、まず、AR係数の推定を必要としないため、従来手法1で必要であったAR係数を推定するステップを削減することができ、従来手法1に比べて演算量を大幅に軽減することができる(図30、図31参照)。また、上記のように、発明手法1~2は、従来手法1と異なり、白色雑音か有色雑音かにかかわらず、また、無声区間の有無にかかわらず、有効であり、従来手法1に比べて、客観的にも主観的にも高い雑音抑圧能力を実現することができる(図33~図44参照)。また、発明手法1~2は、従来手法1で必要であったAR係数を推定するステップを必要としないため、ハードウエアとソフトウエアのいずれかで構成するとしても、従来手法1よりも単純化されたシンプルな構成で実現することができる。したがって、発明手法1~2によれば、よりシンプルな構成で、かつ、より少ない演算量で、所望情報の品質を劣化させることなくより高い雑音抑圧能力を実現することができる。さらに、演算量の大幅な軽減によって、メモリ容量も大幅に削減することができる。また、音声の場合には、音質も大幅に改善することができる。
 特に、従来手法3との比較においても、発明手法1および発明手法2は、上記のように、従来手法3に比べて、さらに演算量の軽減(図30、図32参照)および雑音抑圧能力の向上(特に図37~図40参照)を図ることができ、従来技術3に対しても顕著な効果を有する。さらに、演算量の軽減によってメモリ容量も削減することができ、また、音声の場合には音質も改善することができる。
 さらに、発明手法2は、上記のように、発明手法1に比べて、さらなるスカラー化が図られ、反復過程の手順の数が5ステップから3ステップに低減されているため、さらに演算量を軽減することができ、また、状態遷移行列Φおよび観測遷移ベクトルmの設定ならびに多くの計算結果の保存が不必要になるため、より一層メモリ容量の削減を図ることができる。
 また、発明手法1~2を、例えば、半導体集積回路や半導体回路などのハードウエアとして実施する場合や、パーソナルコンピュータなどで実行可能なソフトウエアとして実施する場合のいずれにおいても、その構成は、従来手法よりも単純化される。したがって、発明手法1~2を用いれば、回路規模やプログラム量を大幅に低減できるであろうことは明らかである。
 なお、本発明に係る雑音抑圧装置および雑音抑圧方法は、いろいろな技術分野に適用可能である。
 例えば、本発明の雑音抑圧装置は、雑音を含む音声信号(観測信号)からクリアな信号(所望信号)としての音声信号を取得することが可能である。この分野の適用例としては、例えば、携帯電話やカーナビゲーション、対話型ロボットなどにおける音声情報処理を挙げることができる。具体的には、一例として、例えば、カーナビゲーションの場合は、カーナビゲーションに必要不可欠な音声認識装置の前処理雑音抑圧装置への適用が考えられる。
 また、画像処理の分野においては、本発明によれば、何らかの原因でぼけと雑音が入ってしまった劣化画像(観測信号)からぼけと雑音を取り除いた原画像をクリアな信号(所望信号)として取得することが可能であり、画像処理装置として活用可能である。
 さらに、従来手法が適用されていた通信や信号処理の分野全般にわたって、本発明が適応可能であることはいうまでもない。
 また、医療分野では、従来、妊婦の胎児の状況を検査するには、個人が購入できない高価な装置と高い専門知識とが必要であったが、本発明によれば、妊婦の体から得られる観測信号(母胎の心拍その他の雑音を含む)から不必要な音(雑音)を抑圧し、胎児の心拍(所望信号)を取得することが可能になり、通院せずとも自宅で胎児の健康状態を、その心拍から容易に確認することが可能となる。また、出産前の胎児のみならず出産後の赤ちゃんの管理にも役立つことが考えられる(周産期医療)。なお、ここで「心拍」とは、広く心臓の動きを意味し、例えば、心音や心電図なども含まれる。
 また、本実施の形態の説明に用いた各機能要素は、例えば、集積回路として実現される。これらは、個別に1チップ化されてもよいし、一部またはすべてを含むように1チップ化されてもよい。また、集積回路製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)や、回路を構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
 さらに、本実施の形態は、ハードウエアに限定されるものではなく、ソフトウエアによってもよい。その逆も真である。また、それらの組み合わせであってもよい。
 上記のように、本発明に係る雑音抑圧装置および雑音抑圧方法は、いろいろな技術分野に適用可能である。そこで、以下では、本発明に係る雑音抑圧装置および雑音抑圧方法の各種分野への具体的な適用例について説明する。ここでは、本発明に係る雑音抑圧装置および雑音抑圧方法を、例えば、音響機器関連(胎児心拍検出装置や携帯電話など)、音声認識装置関連(カーナビゲーションなど)、検査装置関連(異常音検出装置など)、および画像処理装置関連(画像復元装置など)にそれぞれ適用した場合について、具体的に説明する。なお、各適用例において、雑音抑圧処理部は、上記の発明手法1~2のいずれの手法をも任意に実行することができる。
 (実施の形態2)
 実施の形態2は、実施の形態1に係る雑音抑圧装置を胎児心拍検出装置に適用した場合である。なお、ここで「心拍」とは、上記のように、広く心臓の動きを意味し、例えば、心音や心電図なども含まれる。
 図45は、本発明の実施の形態2に係る胎児心拍検出装置の構成を示すブロック図である。
 図45に示す胎児心拍検出装置400は、実施の形態1の雑音抑圧処理(発明手法1~2)を実行可能なコンピュータ本体410と、マイクロホン420と、信号入力部430と、操作部440と、スピーカ450と、ディスプレイ460とを有する。
 コンピュータ本体410は、インタフェース部411、記憶部412(記録装置413と主記憶メモリ414からなる)、モデム415、D/A変換器416、雑音抑圧処理部417、胎児心拍解析処理部418、および正常胎児心拍情報記憶部419を有する。雑音抑圧処理部417および胎児心拍解析処理部418は、中央演算処理装置(CPU:Central Processing Unit)で構成されている。コンピュータ本体410は、モデム415を介して外部の通信ネットワーク(例えば、電話回線やLAN、インターネットなど)と接続されている。また、コンピュータ本体410は、D/A変換器416を介してスピーカ450と接続されている。スピーカ450は、例えば、聴診器のスピーカであってもよい。なお、図示しないが、コンピュータ本体410にプリンタを接続することも可能である。
 コンピュータ本体410において、実施の形態1の雑音抑圧処理を実行させるプログラム(雑音抑圧アルゴリズム)は、記録装置413に格納されていてもよいし、モデム415およびインタフェース部411を介して外部からダウンロードされてきてもよい。記録装置413は、典型的にはハードディスク装置であるが、CD-ROM装置やDVD装置、フラッシュメモリなどの可搬性のあるものであってもよいし、また、それらの組み合わせであってもよい。雑音抑圧処理部417は、そのプログラム(雑音抑圧アルゴリズム)を実行することによって、マイクロホン420により検出された胎児の心拍(雑音を含む)に対して実施の形態1の雑音抑圧処理を実行して胎児の心拍を取得する。
 信号入力部430は、図1に示すサンプリング部120およびA/D変換部130を有する。信号入力部430は、コンピュータ本体410の内部に格納された内蔵カード(ボード)であってもよいし、インタフェース部411を経由して接続された外部設置型機器であってもよい。
 操作部440は、典型的にはキーボートやマウス、タッチパネルなどであるが、音声認識装置などを用いてもよい。使用者は、操作部440を用い、ディスプレイ460で確認をしながらコンピュータを操作することができる。また、操作部440は、パラメータ設定部441を有する。パラメータ設定部441は、使用者の入力操作により、実施の形態1の雑音抑圧処理に必要な各種パラメータの値を設定し、コンピュータ本体410に出力する。
 胎児心拍解析処理部418は、雑音抑圧処理部417によって取得された胎児の心拍を解析する。例えば、胎児心拍解析処理部418は、与えられた正常胎児心拍情報(胎児の正常心拍)と、雑音抑圧処理部417によって取得された胎児の心拍とを比較して、異常心拍を識別したり症状の診断を行ったりする。この場合、雑音抑圧処理部417は、胎児心拍解析処理部418の前処理としての機能を有する。ここでは、正常胎児心拍情報は、正常胎児心拍情報記憶部419に格納されている。正常胎児心拍情報記憶部419は、例えば、検診対象となる胎児の胎児月齢を操作部440から入力することにより、胎児月齢ごとに正常胎児心拍情報を収集し蓄積する。正常胎児心拍情報は、この正常胎児心拍情報記憶部419から読み出されて胎児心拍解析処理部418に与えられる。
 マイクロホン420からの観測音声信号は、信号入力部430のサンプリング部120に入力される。サンプリング部120は、所定のサンプリング周波数(例えば、16kHz)で、入力されたアナログの観測音声信号をサンプリング処理し、A/D変換部130に出力する。A/D変換部130は、サンプリングされた観測音声信号の振幅値を所定の分解能(例えば、8bit)でA/D変換処理し、一時格納する。A/D変換部130は、所定のサンプリング数Nの音声フレーム単位で、デジタル化した観測音声信号をコンピュータ本体410のインタフェース部411に出力する。
 コンピュータ本体410は、インタフェース部411に出力された観測音声信号を一時、記憶部412の主記憶メモリ414に格納し、その後、所定の音声フレーム(サンプリング数)単位で、雑音抑圧処理を施した上で、再度主記憶メモリ414に格納する。雑音抑圧処理は、主記憶メモリ414や記録装置413に格納されたソフトウエアをインタフェース部411経由で雑音抑圧処理部417に呼び出し、実行させることによって行われる。
 コンピュータ本体410は、使用者の操作により、処理を実行したり、中断、終了させたりする。また、コンピュータ本体410は、使用者の操作により、雑音抑圧処理部417で取得した推定音声信号(胎児の心拍)を、胎児心拍解析処理部418に出力したり、モデム415やスピーカ450、ディスプレイ460などを介して外部に出力してもよい。
 このように構成された胎児心拍検出装置400は、例えば、検出した胎児の心拍を聴診器のスピーカに出力したり、あるいは、正常心拍との比較で解析した結果をモデム415を介して特定の医療センターに送信したりすることができる。送信を受けた医療センターは、受信した解析結果に基づいて総合判定を行うことができる。また、解析結果については、単独の情報としてディスプレイ460に表示したり、あるいは、前回検診時の心拍データを記憶部412から読み出して両者を対比する形でディスプレイ460に表示させたりすることもできる。また、解析結果を図示しないプリンタに出力して視認することも可能である。
 このように、本実施の形態によれば、妊婦の体から得られる観測音声信号(母胎の心拍その他の雑音を含む)から不必要な音(雑音)を抑圧し、胎児の心拍(所望信号)を取得することができるため、胎児の健康状態を、その心拍から容易にかつ正確に確認することができる。また、出産前の胎児のみならず出産後の赤ちゃんの管理にも役立つことが考えられる(周産期医療・生体観測)。
 なお、本実施の形態では、胎児心拍検出装置400は、出力手段として、スピーカ、ディスプレイ、通信手段、記憶装置、およびプリンタ(図示せず)を有するが、これに限定されない。出力手段については、用途や機能などに応じて、適宜、取捨選択すればよい。また、胎児の心拍さえ検出できればよい場合は、胎児心拍解析処理部418および正常胎児心拍情報記憶部419は省略してもよい。
 また、本実施の形態では、コンピュータ本体410に胎児心拍解析処理部418を設けているが(内蔵タイプ)、もちろんこれに限定されない。胎児心拍解析処理部418は、コンピュータ本体410の外部装置(胎児心拍解析装置)として構成することも可能である(外付けタイプ)。胎児心拍解析処理部418をコンピュータ本体410に組み込むか外部装置(胎児心拍解析装置)として構成するかは、用途やデータ処理量などに応じて任意に決定すればよい。また、この点は、正常胎児心拍情報記憶部419についても同様である。
 (実施の形態3)
 実施の形態3は、実施の形態1に係る雑音抑圧装置を携帯電話などの携帯端末装置に適用した場合である。
 図46は、本発明の実施の形態3に係る携帯端末装置の構成を示すブロック図である。なお、この携帯端末装置500は、図45に示す胎児心拍検出装置400と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、オプションを含めてその説明を省略する。
 図46に示す携帯端末装置500は、送受信用のアンテナ510と、送受信部520とを有する。送受信部520は、アンテナ510で送受信した音声信号をベースバンド処理する。
 この携帯端末装置500では、マイクロホン420からの観測音声信号(使用者の音声信号)は、信号入力部430に入力され、ここでサンプリング部120およびA/D変換部130によりデジタル化された後、インタフェース部411に出力される。インタフェース部411に出力された観測音声信号は、記憶部412に一時格納され、その後、所定の音声フレーム(サンプリング数)単位で、雑音抑圧処理が施された後、記憶部412に再度格納される。雑音抑圧処理は、記憶部412に格納されたプログラム(雑音抑圧アルゴリズム)をインタフェース部411経由で雑音抑圧処理部417に呼び出し、実行させることによって行われる。雑音抑圧処理後のクリアな信号(音声信号)は、送受信部520で送信用のベースバンド処理が施された後、アンテナ510から無線送信される。
 一方、アンテナ510で受信した観測音声信号(通信相手の音声信号)は、送受信部520で受信用のベースバンド処理が施された後、デジタル信号としてインタフェース部411に出力される。インタフェース部411に出力された観測音声信号は、記憶部412に一時格納され、その後、所定の音声フレーム(サンプリング数)単位で、雑音抑圧処理が施された後、記憶部412に再度格納される。雑音抑圧処理後のクリアな信号(音声信号)は、D/A変換器416を介してスピーカ450に出力される。
 このように、本実施の形態によれば、マイクロホン420からの観測音声信号(雑音を含む)およびアンテナ510で受信した観測音声信号(雑音を含む)からそれぞれ不必要な音(雑音)を抑圧し、音声信号をクリアな信号(所望信号)として取得することができるため、簡単な構成で高音質化を図ることができる。
 (実施の形態4)
 実施の形態4は、実施の形態1に係る雑音抑圧装置をカーナビゲーション装置に適用した場合である。カーナビゲーション装置として、ドライバが運転に集中しながら情報を入力できるよう、つまり、音声で操作できるよう、音声認識機能を搭載したものがある。本実施の形態は、このような音声認識機能を有するカーナビゲーション装置において、当該カーナビゲーションに必要不可欠な音声認識装置の前処理としての雑音抑圧装置への適用例である。
 図47は、本発明の実施の形態4に係るカーナビゲーション装置の構成を示すブロック図である。なお、このカーナビゲーション装置600は、図45に示す胎児心拍検出装置400と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、オプションを含めてその説明を省略する。
 図47に示すカーナビゲーション装置600は、音声認識処理部610、行先設定部620、現在位置検出部630、およびルート演算部640を有する。この構成により、カーナビゲーション装置600は、音声認識処理部610で、検出した音声(使用者の指示)を認識し、行先設定部620で、その認識した指示に基づいて行先を設定し、現在位置検出部630で、GPS(Global Positioning System)からの信号を受信して現在位置を把握し、ルート演算部640で、音声により指示された行先から最適なルートを演算し、ディスプレイ460に、演算されたルートや地図などを表示する。なお、このカーナビゲーション処理は、単なる一例であって、音声操作できる処理であれば任意のカーナビゲーション処理に適用可能である。
 このとき、このカーナビゲーション装置600では、マイクロホン420からの観測音声信号(使用者の指示)は、信号入力部430に入力され、ここでサンプリング部120およびA/D変換部130によりデジタル化された後、インタフェース部411に出力される。インタフェース部411に出力された観測音声信号は、記憶部412の主記憶メモリ414に一時格納され、その後、所定の音声フレーム(サンプリング数)単位で、雑音抑圧処理が施された後、主記憶メモリ414に再度格納される。雑音抑圧処理は、記憶部412(記録装置413または主記憶メモリ414)に格納されたプログラム(雑音抑圧アルゴリズム)をインタフェース部411経由で雑音抑圧処理部417に呼び出し、実行させることによって行われる。雑音抑圧処理後のクリアな信号(音声信号)は、音声認識処理部610に出力される。
 このように、本実施の形態によれば、音声認識処理部610の前処理として、マイクロホン420からの観測音声信号(雑音を含む)から不必要な音(雑音)を抑圧し、音声信号をクリアな信号(所望信号)として取得することができるため、音声認識処理部610の音声認識能力を最大限に発揮させることができ、カーナビゲーションを音声認識で確実に操作することができる。特に、運転中は音声指示以外の雑音がかなり多くかつ大きいため、この効果は非常に顕著である。
 (実施の形態5)
 実施の形態5は、実施の形態1に係る雑音抑圧装置を音声認識装置に適用した場合である。
 図48は、本発明の実施の形態5に係る音声認識装置の構成を示すブロック図である。なお、この音声認識装置700は、図47に示すカーナビゲーション装置600と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、オプションを含めてその説明を省略する。
 図48に示す音声認識装置700は、図47に示すカーナビゲーション装置600から、カーナビゲーションに特有の構成要素、つまり、行先設定部620、現在位置検出部630、およびルート演算部640を削除した構成を有する。この音声認識装置700においても、雑音抑圧処理部417は、図47に示すカーナビゲーション装置600の場合と同様に、音声認識処理部610の前処理としての機能を有する。
 すなわち、この音声認識装置700では、マイクロホン420からの観測音声信号は、信号入力部430に入力され、ここでサンプリング部120およびA/D変換部130によりデジタル化された後、インタフェース部411に出力される。インタフェース部411に出力された観測音声信号は、記憶部412の主記憶メモリ414に一時格納され、その後、所定の音声フレーム(サンプリング数)単位で、雑音抑圧処理が施された後、主記憶メモリ414に再度格納される。雑音抑圧処理は、記憶部412(記録装置413または主記憶メモリ414)に格納されたプログラム(雑音抑圧アルゴリズム)をインタフェース部411経由で雑音抑圧処理部417に呼び出し、実行させることによって行われる。雑音抑圧処理後のクリアな信号(音声信号)は、音声認識処理部610に出力される。
 このように、本実施の形態によれば、音声認識処理部610の前処理として、マイクロホン420からの観測音声信号(雑音を含む)から不必要な音(雑音)を抑圧し、音声信号をクリアな信号(所望信号)として取得することができるため、音声認識処理部610の音声認識能力を最大限に発揮させることができ、非常に高精度の音声認識を実現することができる。
 (実施の形態6)
 実施の形態6は、実施の形態1に係る雑音抑圧装置を異常検出装置に適用した場合である。
 図49は、本発明の実施の形態6に係る異常検出装置の構成を示すブロック図である。なお、この異常検出装置800は、図45に示す胎児心拍検出装置400と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、オプションを含めてその説明を省略する。
 図49に示す異常検出装置800は、検査対象が発する異常音を検出する装置であって、異常音解析処理部810および正常音情報記憶部820を有する。異常音解析処理部810は、雑音抑圧処理部417によって取得された音を解析する。例えば、異常音解析処理部810は、与えられた正常音情報と、雑音抑圧処理部417によって取得された音とを比較して、検査対象の異常音を検出する。この場合、雑音抑圧処理部417は、異常音解析処理部810の前処理としての機能を有する。ここでは、正常音情報は、正常音情報記憶部820に格納されている。本実施の形態では、例えば、検査対象が発生する音を複数の所定箇所から収集するように構成されており、正常音情報記憶部820は、検査対象の複数の所定箇所における正常動作音をそれぞれ収集し記憶する。正常音情報は、検査対象の所定箇所ごとに正常音情報記憶部820から読み出されて異常音解析処理部810に与えられる。また、正常音情報記憶部820には、直前に検出された正常動作音をも蓄積するようにしてもよい。この場合、正常音情報記憶部820は、正常音情報を、直近の過去分の正常動作音として出力することができる。
 この異常検出装置800では、マイクロホン420からの観測音声信号は、信号入力部430に入力され、ここでサンプリング部120およびA/D変換部130によりデジタル化された後、インタフェース部411に出力される。インタフェース部411に出力された観測音声信号は、記憶部412の主記憶メモリ414に一時格納され、その後、所定の音声フレーム(サンプリング数)単位で、雑音抑圧処理が施された後、主記憶メモリ414に再度格納される。雑音抑圧処理は、記憶部412(記録装置413または主記憶メモリ414)に格納されたプログラム(雑音抑圧アルゴリズム)をインタフェース部411経由で雑音抑圧処理部417に呼び出し、実行させることによって行われる。雑音抑圧処理後のクリアな信号(音声信号)は、異常音解析処理部810に出力される。
 この異常検出装置800は、検査対象から検出した音を正常音と比較して解析した結果を、ディスプレイ460に表示したり、あるいは、異常音を検出した場合はスピーカ450から警報を発したりすることができる。また、解析結果は、モデム415を介して特定の監視センターなどに送信することができる。この場合、異常音の検出状況などを、リモートで監視センターなどに連絡することができる。なお、異常音をどのようなタイミングで検出するかは、各装置に依存する。
 このように、本実施の形態によれば、異常音解析処理部810の前処理として、マイクロホン420からの観測音声信号(雑音を含む)から不必要な音(雑音)を抑圧し、音声信号をクリアな信号(所望信号)として取得することができるため、異常音解析処理部810の異常音解析能力を最大限に発揮させることができ、非常に高精度の異常音検出を実現することができる。
 (実施の形態7)
 実施の形態7は、実施の形態1に係る雑音抑圧装置を画像処理装置、特に画像復元装置に適用した場合である。
 図50は、本発明の実施の形態7に係る画像復元装置の構成を示すブロック図である。なお、この画像復元装置900は、図45に示す胎児心拍検出装置400と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、オプションを含めてその説明を省略する。
 図50に示す画像復元装置900は、例えば、ぼけと雑音により劣化した画像を復元する装置であって、画像復元処理部910を有する。ここでは、一例として、例えば、スキャナ920で読み取った画像を復元する場合を例にとって説明する。すなわち、この画像復元装置900は、デジタルスキャナ(以下単に「スキャナ」という)920で読み取った画像に含まれるぼけと雑音を抑圧してクリーンな画像を出力する構成を有する。この場合、雑音抑圧処理部417は、画像復元処理部910の前処理としての機能を有する。
 この画像復元装置900では、スキャナ920からの観測画像信号は、信号入力部430aに入力され、ここでサンプリング部120によりサンプリング処理された後、インタフェース部411に出力される。インタフェース部411に出力された観測画像信号は、記憶部412の主記憶メモリ414に一時格納され、その後、所定の画像フレーム(サンプリング数)単位で、雑音抑圧処理が施された後、主記憶メモリ414に再度格納される。雑音抑圧処理は、記憶部412(記録装置413または主記憶メモリ414)に格納されたプログラム(雑音抑圧アルゴリズム)をインタフェース部411経由で雑音抑圧処理部417に呼び出し、実行させることによって行われる。雑音抑圧処理後のクリーンな画像信号は、画像復元処理部910に出力される。なお、画像復元処理部910によって復元された画像は、プリンタ930またはディスプレイ460に出力される。
 このとき、観測画像信号に対する雑音抑圧処理は、スキャナ920で読み取った画像の特定領域を指定することにより、指定された領域の画像に対してのみぼけと雑音の抑圧を行うことができる。画像の特定領域の指定は、操作部440を介して行われる。これにより、スキャナ920で読み取った画像の一部分に対してのみ、ぼけと雑音の抑圧を行い、その部分の画像を復元することができる。
 このように、本実施の形態によれば、画像復元処理部910の前処理として、スキャナ920からの観測画像信号(ぼけと雑音を含む)からぼけと雑音を抑圧し、クリーンな画像(所望信号)を取得することができるため、画像復元処理部910の画像復元能力を最大限に発揮させることができ、非常に高精度の画像復元を実現することができる。
 なお、本実施の形態では、スキャナ920で読み取った画像を復元する場合を例にとって説明したが、もちろんこれに限定されない。例えば、スキャナ920に代えてデジタルカメラやデジタルビデオカメラなどで撮影した画像を復元する場合にも適用可能である。さらには、すでにある画像情報を取り込んで復元する場合にも適用可能である。
 また、本実施の形態では、画像を復元する場合を例にとって説明したが、もちろんこれに限定されない。本発明は、広く画像処理装置において、何らかの原因でぼけと雑音が入ってしまった劣化画像(観測信号)からぼけと雑音を取り除いた原画像をクリアな信号(所望信号)として取得し、得られた原画像を画像処理する場合に適用可能である。
 2008年3月21日出願の特願2008-074691の日本出願および2008年6月27日出願の特願2008-168835の日本出願にそれぞれ含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
 本発明に係る雑音抑圧装置および雑音抑圧方法は、よりシンプルな構成で、かつ、より少ない演算量で、所望情報の品質を劣化させることなくより高い雑音抑圧能力を実現することができる雑音抑圧装置および雑音抑圧方法として有用である。
 

Claims (17)

  1.  所望の情報に雑音が混在した観測情報のみから前記所望情報を推定する雑音抑圧装置であって、
     時刻nのみの観測情報に対して、時刻nまたは時刻n+1までの情報により前記所望情報を含む時刻n+1のシステムの状態量を推定した場合の推定誤差の相関値を算出する相関演算部と、
     時刻nのみの観測情報に対して、前記相関演算部によって算出された相関値を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値と、時刻nまでの情報による時刻n+1での前記状態量の最適推定値と、前記観測情報を含む観測量の推定誤差と、の関係を規定するための重み係数を算出する重み係数算出部と、
     時刻nのみの観測情報に対して、前記重み係数算出部によって算出された重み係数を用いて、時刻nまたは時刻n+1までの情報による当該時刻での前記状態量の最適推定値を算出する最適推定値算出部と、
     を有する雑音抑圧装置。
  2.  前記相関演算部は、
     時刻nのみの観測情報に対して、時刻nまでの情報により前記所望情報を含む時刻n+1のシステムの状態量を推定した場合の推定誤差の相関値をスカラー量として算出し、
     前記重み係数算出部は、
     時刻nのみの観測情報に対して、前記相関演算部によって算出された前記推定誤差の相関値のスカラー量を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値と、時刻nまでの情報による時刻n+1での前記状態量の最適推定値と、前記観測情報を含む観測量の推定誤差と、の関係を規定するための重み係数をスカラー量として算出し、
     前記最適推定値算出部は、
     時刻nのみの観測情報に対して、前記重み係数算出部によって算出された前記重み係数のスカラー量を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値をスカラー量として算出する、
     請求項1記載の雑音抑圧装置。
  3.  前記相関演算部は、
     与えられた駆動源の共分散のスカラー量を用いて、前記推定誤差の相関値のスカラー量の算出を行い、
     前記重み係数算出部は、
     与えられた雑音の共分散のスカラー量および前記相関演算部によって算出された前記推定誤差の相関値のスカラー量を用いて、前記重み係数のスカラー量の算出を行い、
     前記最適推定値算出部は、
     前記重み係数算出部によって算出された前記重み係数のスカラー量および時刻n+1のみにおける観測量を用いて、前記状態量の最適推定値のスカラー量の算出を行う、
     請求項2記載の雑音抑圧装置。
  4.  前記相関演算部は、第1の相関演算部および第2の相関演算部を有し、
     前記最適推定値算出部は、第1の最適推定値算出部および第2の最適推定値算出部を有し、
     前記第1の相関演算部は、
     時刻nのみの観測情報に対して、時刻nまでの情報により前記所望情報を含む時刻n+1のシステムの状態量を推定した場合の推定誤差の相関値を行列として算出し、
     前記重み係数算出部は、
     時刻nのみの観測情報に対して、前記第1の相関演算部によって算出された前記推定誤差の相関値の行列を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値と、時刻nまでの情報による時刻n+1での前記状態量の最適推定値と、前記観測情報を含む観測量の推定誤差と、の関係を規定するための重み係数をベクトル量として算出し、
     前記第1の最適推定値算出部は、
     時刻nのみの観測情報に対して、時刻nまでの情報による時刻n+1での前記状態量の最適推定値をベクトル量として算出し、
     前記第2の最適推定値算出部は、
     時刻nのみの観測情報に対して、前記重み係数算出部によって算出された前記重み係数のベクトル量を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値をベクトル量として算出し、
     前記第2の相関演算部は、
     時刻nのみの観測情報に対して、時刻n+1までの情報により当該時刻の前記状態量を推定した場合の推定誤差の相関値を行列として算出する、
     請求項1記載の雑音抑圧装置。
  5.  前記第1の相関演算部は、
     所定の状態遷移行列、与えられた駆動源ベクトルの共分散の要素値、および与えられたまたは前回前記第2の相関演算部によって算出された前記推定誤差の相関値の行列を用いて、前記推定誤差の相関値の行列の算出を行い、
     前記重み係数算出部は、
     前記第1の相関演算部によって算出された前記推定誤差の相関値の行列、与えられた観測遷移ベクトル、および与えられた雑音の共分散のスカラー量を用いて、前記重み係数のベクトル量の算出を行い、
     前記第1の最適推定値算出部は、
     前記状態遷移行列、および、与えられたまたは前回前記第2の最適推定値算出部によって算出された前記状態量の最適推定値のベクトル量を用いて、前記状態量の最適推定値のベクトル量の算出を行い、
     前記第2の最適推定値算出部は、
     前記第1の最適推定値算出部によって算出された前記状態量の最適推定値のベクトル量、前記重み係数算出部によって算出された前記重み係数のベクトル量、前記観測遷移ベクトル、および時刻n+1のみにおける観測量を用いて、前記状態量の最適推定値のベクトル量の算出を行い、
     前記第2の相関演算部は、
     前記重み係数算出部によって算出された前記重み係数のベクトル量、前記観測遷移ベクトル、および前記第1の相関演算部によって算出された前記推定誤差の相関値の行列を用いて、前記推定誤差の相関値の行列の算出を行う、
     請求項4記載の雑音抑圧装置。
  6.  所望の情報に雑音が混在した観測情報のみから前記所望情報を推定する雑音抑圧方法であって、
     時刻nのみの観測情報に対して、時刻nまたは時刻n+1までの情報により前記所望情報を含む時刻n+1のシステムの状態量を推定した場合の推定誤差の相関値を算出する相関演算工程と、
     時刻nのみの観測情報に対して、前記相関演算工程で算出した相関値を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値と、時刻nまでの情報による時刻n+1での前記状態量の最適推定値と、前記観測情報を含む観測量の推定誤差と、の関係を規定するための重み係数を算出する重み係数算出工程と、
     時刻nのみの観測情報に対して、前記重み係数算出工程で算出した重み係数を用いて、時刻nまたは時刻n+1までの情報による当該時刻での前記状態量の最適推定値を算出する最適推定値算出工程と、
     を有する雑音抑圧方法。
  7.  前記相関演算工程は、
     時刻nのみの観測情報に対して、時刻nまでの情報により前記所望情報を含む時刻n+1のシステムの状態量を推定した場合の推定誤差の相関値をスカラー量として算出し、
     前記重み係数算出工程は、
     時刻nのみの観測情報に対して、前記相関演算工程で算出した前記推定誤差の相関値のスカラー量を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値と、時刻nまでの情報による時刻n+1での前記状態量の最適推定値と、前記観測情報を含む観測量の推定誤差と、の関係を規定するための重み係数をスカラー量として算出し、
     前記最適推定値算出工程は、
     時刻nのみの観測情報に対して、前記重み係数算出工程で算出した前記重み係数のスカラー量を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値をスカラー量として算出する、
     請求項6記載の雑音抑圧方法。
  8.  前記相関演算工程は、第1の相関演算工程および第2の相関演算工程を有し、
     前記最適推定値算出部工程、第1の最適推定値算出工程および第2の最適推定値算出工程を有し、
     前記第1の相関演算工程は、
     時刻nのみの観測情報に対して、時刻nまでの情報により前記所望情報を含む時刻n+1のシステムの状態量を推定した場合の推定誤差の相関値を行列として算出し、
     前記重み係数算出工程は、
     時刻nのみの観測情報に対して、前記第1の相関演算工程で算出した前記推定誤差の相関値の行列を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値と、時刻nまでの情報による時刻n+1での前記状態量の最適推定値と、前記観測情報を含む観測量の推定誤差と、の関係を規定するための重み係数をベクトル量として算出し、
     前記第1の最適推定値算出工程は、
     時刻nのみの観測情報に対して、時刻nまでの情報による時刻n+1での前記状態量の最適推定値をベクトル量として算出し、
     前記第2の最適推定値算出工程は、
     時刻nのみの観測情報に対して、前記重み係数算出工程で算出した前記重み係数のベクトル量を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値をベクトル量として算出し、
     前記第2の相関演算工程は、
     時刻nのみの観測情報に対して、時刻n+1までの情報により当該時刻の前記状態量を推定した場合の推定誤差の相関値を行列として算出する、
     請求項6記載の雑音抑圧方法。
  9.  所望の情報に雑音が混在した観測情報のみから前記所望情報を推定するための雑音抑圧プログラムであって、
     コンピュータに、
     時刻nのみの観測情報に対して、時刻nまたは時刻n+1までの情報により前記所望情報を含む時刻n+1のシステムの状態量を推定した場合の推定誤差の相関値を算出する相関演算工程と、
     時刻nのみの観測情報に対して、前記相関演算工程で算出した相関値を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値と、時刻nまでの情報による時刻n+1での前記状態量の最適推定値と、前記観測情報を含む観測量の推定誤差と、の関係を規定するための重み係数を算出する重み係数算出工程と、
     時刻nのみの観測情報に対して、前記重み係数算出工程で算出した重み係数を用いて、時刻nまたは時刻n+1までの情報による当該時刻での前記状態量の最適推定値を算出する最適推定値算出工程と、
     を実行させるための雑音抑圧プログラム。
  10.  前記相関演算工程は、
     時刻nのみの観測情報に対して、時刻nまでの情報により前記所望情報を含む時刻n+1のシステムの状態量を推定した場合の推定誤差の相関値をスカラー量として算出し、
     前記重み係数算出工程は、
     時刻nのみの観測情報に対して、前記相関演算工程で算出した前記推定誤差の相関値のスカラー量を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値と、時刻nまでの情報による時刻n+1での前記状態量の最適推定値と、前記観測情報を含む観測量の推定誤差と、の関係を規定するための重み係数をスカラー量として算出し、
     前記最適推定値算出工程は、
     時刻nのみの観測情報に対して、前記重み係数算出工程で算出した前記重み係数のスカラー量を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値をスカラー量として算出する、
     請求項9記載の雑音抑圧プログラム。
  11.  前記相関演算工程は、第1の相関演算工程および第2の相関演算工程を有し、
     前記最適推定値算出部工程、第1の最適推定値算出工程および第2の最適推定値算出工程を有し、
     前記第1の相関演算工程は、
     時刻nのみの観測情報に対して、時刻nまでの情報により前記所望情報を含む時刻n+1のシステムの状態量を推定した場合の推定誤差の相関値を行列として算出し、
     前記重み係数算出工程は、
     時刻nのみの観測情報に対して、前記第1の相関演算工程で算出した前記推定誤差の相関値の行列を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値と、時刻nまでの情報による時刻n+1での前記状態量の最適推定値と、前記観測情報を含む観測量の推定誤差と、の関係を規定するための重み係数をベクトル量として算出し、
     前記第1の最適推定値算出工程は、
     時刻nのみの観測情報に対して、時刻nまでの情報による時刻n+1での前記状態量の最適推定値をベクトル量として算出し、
     前記第2の最適推定値算出工程は、
     時刻nのみの観測情報に対して、前記重み係数算出工程で算出した前記重み係数のベクトル量を用いて、時刻n+1までの情報による当該時刻での前記状態量の最適推定値をベクトル量として算出し、
     前記第2の相関演算工程は、
     時刻nのみの観測情報に対して、時刻n+1までの情報により当該時刻の前記状態量を推定した場合の推定誤差の相関値を行列として算出する、
     請求項9記載の雑音抑圧プログラム。
  12.  胎児の心拍を検出して得られた信号を観測情報として、所望情報としての胎児の心拍を推定する、請求項1から請求項5のいずれかに記載の雑音抑圧装置と、
     前記雑音抑圧装置によって推定された胎児の心拍を出力する出力手段と、
     を有する胎児心音検出装置。
  13.  使用者の音声を電気的な音声信号として検出するマイクロホンと、
     無線送信された通信相手の音声信号を受信する受信手段と、
     前記マイクロホンによって検出された音声信号または前記受信手段によって受信された音声信号を観測情報として、所望情報としての使用者または通信相手の音声信号を推定する、請求項1から請求項5のいずれかに記載の雑音抑圧装置と、
     前記雑音抑圧装置によって推定された使用者の音声信号を無線送信する送信手段と、
     前記雑音抑圧装置によって推定された通信相手の音声信号を出力するスピーカと、
     を有する携帯端末装置。
  14.  使用者の音声を電気的な音声信号として検出するマイクロホンと、
     前記マイクロホンによって検出された音声信号を観測情報として、所望情報としての使用者の音声信号を推定する、請求項1から請求項5のいずれかに記載の雑音抑圧装置と、
     前記雑音抑圧装置によって推定された使用者の音声信号を入力して音声認識処理を行う音声認識手段と、
     前記音声認識手段の認識結果を操作指示として、カーナビゲーション処理を実行するカーナビゲーション処理手段と、
     を有するカーナビゲーション装置。
  15.  使用者の音声を検出して得られた音声信号を観測情報として、所望情報としての使用者の音声信号を推定する、請求項1から請求項5のいずれかに記載の雑音抑圧装置と、
     前記雑音抑圧装置によって推定された使用者の音声信号を入力して音声認識処理を行う音声認識手段と、
     前記音声認識手段の認識結果を出力する出力手段と、
     を有する音声認識装置。
  16.  検査対象が発する音を検出して得られた信号を観測情報として、所望情報を検査対象の情報として推定する、請求項1から請求項5のいずれかに記載の雑音抑圧装置と、
     前記雑音抑圧装置によって推定された所望情報を正常音と比較して異常音を検出する異常音解析手段と、
     前記異常音解析手段の解析結果を出力する出力手段と、
     を有する異常検出装置。
  17.  画像信号を入力する画像入力手段と、
     前記画像入力手段によって入力された画像信号を観測情報として、所望情報としての原画像を推定する、請求項1から請求項5のいずれかに記載の雑音抑圧装置と、
     前記雑音抑圧装置によって推定された原画像を出力する出力手段と、
     を有する画像処理装置。
     
PCT/JP2009/001224 2008-03-21 2009-03-18 雑音抑圧装置および雑音抑圧方法 WO2009116291A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US12/746,416 US8527266B2 (en) 2008-03-21 2009-03-18 Noise suppression device and noise suppression method
JP2010503784A JP5721098B2 (ja) 2008-03-21 2009-03-18 雑音抑圧装置および雑音抑圧方法
EP09722185.7A EP2254112B1 (en) 2008-03-21 2009-03-18 Noise suppression devices and noise suppression methods

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008074691 2008-03-21
JP2008-074691 2008-03-21
JP2008-168835 2008-06-27
JP2008168835 2008-06-27

Publications (1)

Publication Number Publication Date
WO2009116291A1 true WO2009116291A1 (ja) 2009-09-24

Family

ID=41090706

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/001224 WO2009116291A1 (ja) 2008-03-21 2009-03-18 雑音抑圧装置および雑音抑圧方法

Country Status (4)

Country Link
US (1) US8527266B2 (ja)
EP (1) EP2254112B1 (ja)
JP (1) JP5721098B2 (ja)
WO (1) WO2009116291A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011165013A (ja) * 2010-02-10 2011-08-25 Tokyo Univ Of Science 画像復元装置および画像復元方法
JP2013531275A (ja) * 2010-06-30 2013-08-01 インテル・コーポレーション 発話音声処理
JP2015143805A (ja) * 2014-01-31 2015-08-06 ブラザー工業株式会社 雑音抑圧装置、雑音抑圧方法、及びプログラム
WO2022049741A1 (ja) * 2020-09-04 2022-03-10 公立大学法人公立諏訪東京理科大学 打音診断支援装置、打音診断支援方法、打音診断支援システム、及びプログラム

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010016263A1 (ja) * 2008-08-08 2010-02-11 学校法人東京理科大学 画像復元装置および画像復元方法
US8145483B2 (en) * 2009-08-05 2012-03-27 Tze Fen Li Speech recognition method for all languages without using samples
KR101657215B1 (ko) * 2009-09-08 2016-09-19 삼성디스플레이 주식회사 터치 패널 장치를 포함하는 표시 장치 및 커플링 노이즈 제거 방법
US20120116764A1 (en) * 2010-11-09 2012-05-10 Tze Fen Li Speech recognition method on sentences in all languages
JP5761988B2 (ja) * 2010-12-20 2015-08-12 キヤノン株式会社 画像処理装置、画像処理方法
US8909685B2 (en) * 2011-12-16 2014-12-09 Sap Se Pattern recognition of a distribution function
US9943712B2 (en) * 2012-09-24 2018-04-17 Dolores Speech Products Llc Communication and speech enhancement system
US10093194B2 (en) 2013-09-30 2018-10-09 Elwha Llc Communication and control system and method regarding electric vehicle for wireless electric vehicle electrical energy transfer
US10011180B2 (en) 2013-09-30 2018-07-03 Elwha, Llc Communication and control system and method regarding electric vehicle charging equipment for wireless electric vehicle electrical energy transfer
US20150091503A1 (en) * 2013-09-30 2015-04-02 Elwha Llc Communication and Control System and Method Regarding Electric Vehicle Charging Equipment for Wireless Electric Vehicle Electrical Energy Transfer
CN107507623A (zh) * 2017-10-09 2017-12-22 维拓智能科技(深圳)有限公司 基于麦克风阵列语音交互的自助服务终端
US10972201B2 (en) * 2019-05-03 2021-04-06 Samsung Electronics Co., Ltd Method and apparatus for providing enhanced reference signal received power estimation
CN112035787B (zh) * 2020-08-31 2023-02-28 成都航空职业技术学院 一种基于ude估计器的噪声估计方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008074691A (ja) 2006-09-25 2008-04-03 Hitachi Metals Ltd 単結晶の製造方法
JP2008168835A (ja) 2007-01-15 2008-07-24 Masao Kimura キャスター
JP2008236270A (ja) * 2007-03-19 2008-10-02 Tokyo Univ Of Science 雑音抑圧装置および雑音抑圧方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
US7035790B2 (en) * 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US7103541B2 (en) * 2002-06-27 2006-09-05 Microsoft Corporation Microphone array signal enhancement using mixture models
JP4617497B2 (ja) * 2005-07-01 2011-01-26 株式会社国際電気通信基礎技術研究所 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
JP4690912B2 (ja) * 2005-07-06 2011-06-01 日本電信電話株式会社 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体
JP4685735B2 (ja) * 2006-09-04 2011-05-18 日本電信電話株式会社 音響信号区間検出方法、装置、プログラム及びその記録媒体
JP5070591B2 (ja) * 2007-05-25 2012-11-14 株式会社国際電気通信基礎技術研究所 雑音抑圧装置、コンピュータプログラム、及び音声認識システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008074691A (ja) 2006-09-25 2008-04-03 Hitachi Metals Ltd 単結晶の製造方法
JP2008168835A (ja) 2007-01-15 2008-07-24 Masao Kimura キャスター
JP2008236270A (ja) * 2007-03-19 2008-10-02 Tokyo Univ Of Science 雑音抑圧装置および雑音抑圧方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A. KAWAMURA; K. FUJII; Y. ITOH; Y. FUKUI: "A Noise Reduction Method Based on Linear Prediction Analysis", IEICE TRANS. FUNDAMENTALS, vol. J85-A, no. 4, May 2002 (2002-05-01), pages 415 - 423
N. TANABE; T. INOUE; K. SUEYOSHI; T. FURUKAWA; H. KUBOTA; H. MATSUE; S. TSUJII: "Robust Noise Suppression Algorithm using Kalman Filter Theory with Colored Driving Source", IEICE TECHNICAL REPORT, March 2008 (2008-03-01), pages 79 - 84
NARI TANABE ET AL.: "Yushokusei Kudo Zatsuon o Koryo shita Kalman Filter o Mochiita Zatsuon Yokuatsuho, Noise Suppression with High Performance using Kalman Filter", IEICE TECHNICAL REPORT, 29 February 2008 (2008-02-29), pages 79 - 84, XP008138071 *
See also references of EP2254112A4
W. KIM; H. KO: "Noise Variance Estimation for Kalman Filtering of Noise Speech", IEICE TRANS. INF. & SYST., vol. E84-D, no. 1, January 2001 (2001-01-01), pages 155 - 160

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011165013A (ja) * 2010-02-10 2011-08-25 Tokyo Univ Of Science 画像復元装置および画像復元方法
JP2013531275A (ja) * 2010-06-30 2013-08-01 インテル・コーポレーション 発話音声処理
US8725506B2 (en) 2010-06-30 2014-05-13 Intel Corporation Speech audio processing
JP2015143805A (ja) * 2014-01-31 2015-08-06 ブラザー工業株式会社 雑音抑圧装置、雑音抑圧方法、及びプログラム
WO2022049741A1 (ja) * 2020-09-04 2022-03-10 公立大学法人公立諏訪東京理科大学 打音診断支援装置、打音診断支援方法、打音診断支援システム、及びプログラム

Also Published As

Publication number Publication date
EP2254112A1 (en) 2010-11-24
US8527266B2 (en) 2013-09-03
EP2254112B1 (en) 2017-12-20
US20100262425A1 (en) 2010-10-14
JPWO2009116291A1 (ja) 2011-07-21
EP2254112A4 (en) 2012-03-28
JP5721098B2 (ja) 2015-05-20

Similar Documents

Publication Publication Date Title
JP5721098B2 (ja) 雑音抑圧装置および雑音抑圧方法
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
US7720679B2 (en) Speech recognition apparatus, speech recognition apparatus and program thereof
CN107393550B (zh) 语音处理方法及装置
RU2595636C2 (ru) Система и способ для генерации аудиосигнала
JP5115952B2 (ja) 雑音抑圧装置および雑音抑圧方法
US20040064307A1 (en) Noise reduction method and device
JP2010282193A (ja) 残響抑圧装置、及び残響抑圧方法
CN102551726A (zh) 呼吸信号处理装置、呼吸信号处理方法和程序
CN109979476A (zh) 一种语音去混响的方法及装置
KR20100072838A (ko) 비터비 디코더와 이를 이용한 음성 인식 방법
Parmar et al. Effectiveness of cross-domain architectures for whisper-to-normal speech conversion
CN106331969A (zh) 基于统计语音和噪声模型的有噪声语音的增强
CN115223583A (zh) 一种语音增强方法、装置、设备及介质
JP4348393B2 (ja) 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体
CN113053400A (zh) 音频信号降噪模型的训练方法、音频信号降噪方法及设备
JP5219499B2 (ja) 風雑音低減装置
JP5228903B2 (ja) 信号処理装置および方法
KR20190037867A (ko) 잡음이 섞인 음성 데이터로부터 잡음을 제거하는 장치, 방법 및 컴퓨터 프로그램
US11004463B2 (en) Speech processing method, apparatus, and non-transitory computer-readable storage medium for storing a computer program for pitch frequency detection based upon a learned value
JP2019045527A (ja) 音声処理プログラム、音声処理方法および音声処理装置
Zhang et al. Speech Enhancement with Topology-Enhanced Generative Adversarial Networks (GANs).
Uraguchi et al. Evaluation of smart devices in the IoT segment using medical healthcare technology MIMOSYS
CN113724692B (zh) 一种基于声纹特征的电话场景音频获取与抗干扰处理方法
Abutalebi et al. Speech dereverberation in noisy environments using an adaptive minimum mean square error estimator

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09722185

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2010503784

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 12746416

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2009722185

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE