JP2008209768A - Noise eliminator - Google Patents
Noise eliminator Download PDFInfo
- Publication number
- JP2008209768A JP2008209768A JP2007047580A JP2007047580A JP2008209768A JP 2008209768 A JP2008209768 A JP 2008209768A JP 2007047580 A JP2007047580 A JP 2007047580A JP 2007047580 A JP2007047580 A JP 2007047580A JP 2008209768 A JP2008209768 A JP 2008209768A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- correction filter
- section
- speech
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B29—WORKING OF PLASTICS; WORKING OF SUBSTANCES IN A PLASTIC STATE IN GENERAL
- B29C—SHAPING OR JOINING OF PLASTICS; SHAPING OF MATERIAL IN A PLASTIC STATE, NOT OTHERWISE PROVIDED FOR; AFTER-TREATMENT OF THE SHAPED PRODUCTS, e.g. REPAIRING
- B29C65/00—Joining or sealing of preformed parts, e.g. welding of plastics materials; Apparatus therefor
- B29C65/48—Joining or sealing of preformed parts, e.g. welding of plastics materials; Apparatus therefor using adhesives, i.e. using supplementary joining material; solvent bonding
- B29C65/4805—Joining or sealing of preformed parts, e.g. welding of plastics materials; Apparatus therefor using adhesives, i.e. using supplementary joining material; solvent bonding characterised by the type of adhesives
- B29C65/481—Non-reactive adhesives, e.g. physically hardening adhesives
- B29C65/4815—Hot melt adhesives, e.g. thermoplastic adhesives
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B29—WORKING OF PLASTICS; WORKING OF SUBSTANCES IN A PLASTIC STATE IN GENERAL
- B29C—SHAPING OR JOINING OF PLASTICS; SHAPING OF MATERIAL IN A PLASTIC STATE, NOT OTHERWISE PROVIDED FOR; AFTER-TREATMENT OF THE SHAPED PRODUCTS, e.g. REPAIRING
- B29C65/00—Joining or sealing of preformed parts, e.g. welding of plastics materials; Apparatus therefor
- B29C65/48—Joining or sealing of preformed parts, e.g. welding of plastics materials; Apparatus therefor using adhesives, i.e. using supplementary joining material; solvent bonding
- B29C65/52—Joining or sealing of preformed parts, e.g. welding of plastics materials; Apparatus therefor using adhesives, i.e. using supplementary joining material; solvent bonding characterised by the way of applying the adhesive
- B29C65/54—Joining or sealing of preformed parts, e.g. welding of plastics materials; Apparatus therefor using adhesives, i.e. using supplementary joining material; solvent bonding characterised by the way of applying the adhesive between pre-assembled parts
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B29—WORKING OF PLASTICS; WORKING OF SUBSTANCES IN A PLASTIC STATE IN GENERAL
- B29C—SHAPING OR JOINING OF PLASTICS; SHAPING OF MATERIAL IN A PLASTIC STATE, NOT OTHERWISE PROVIDED FOR; AFTER-TREATMENT OF THE SHAPED PRODUCTS, e.g. REPAIRING
- B29C66/00—General aspects of processes or apparatus for joining preformed parts
- B29C66/40—General aspects of joining substantially flat articles, e.g. plates, sheets or web-like materials; Making flat seams in tubular or hollow articles; Joining single elements to substantially flat surfaces
- B29C66/41—Joining substantially flat articles ; Making flat seams in tubular or hollow articles
- B29C66/43—Joining a relatively small portion of the surface of said articles
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B29—WORKING OF PLASTICS; WORKING OF SUBSTANCES IN A PLASTIC STATE IN GENERAL
- B29C—SHAPING OR JOINING OF PLASTICS; SHAPING OF MATERIAL IN A PLASTIC STATE, NOT OTHERWISE PROVIDED FOR; AFTER-TREATMENT OF THE SHAPED PRODUCTS, e.g. REPAIRING
- B29C66/00—General aspects of processes or apparatus for joining preformed parts
- B29C66/80—General aspects of machine operations or constructions and parts thereof
- B29C66/83—General aspects of machine operations or constructions and parts thereof characterised by the movement of the joining or pressing tools
- B29C66/834—General aspects of machine operations or constructions and parts thereof characterised by the movement of the joining or pressing tools moving with the parts to be joined
- B29C66/8341—Roller, cylinder or drum types; Band or belt types; Ball types
- B29C66/83411—Roller, cylinder or drum types
- B29C66/83413—Roller, cylinder or drum types cooperating rollers, cylinders or drums
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B29—WORKING OF PLASTICS; WORKING OF SUBSTANCES IN A PLASTIC STATE IN GENERAL
- B29C—SHAPING OR JOINING OF PLASTICS; SHAPING OF MATERIAL IN A PLASTIC STATE, NOT OTHERWISE PROVIDED FOR; AFTER-TREATMENT OF THE SHAPED PRODUCTS, e.g. REPAIRING
- B29C66/00—General aspects of processes or apparatus for joining preformed parts
- B29C66/80—General aspects of machine operations or constructions and parts thereof
- B29C66/83—General aspects of machine operations or constructions and parts thereof characterised by the movement of the joining or pressing tools
- B29C66/834—General aspects of machine operations or constructions and parts thereof characterised by the movement of the joining or pressing tools moving with the parts to be joined
- B29C66/8341—Roller, cylinder or drum types; Band or belt types; Ball types
- B29C66/83421—Roller, cylinder or drum types; Band or belt types; Ball types band or belt types
- B29C66/83423—Roller, cylinder or drum types; Band or belt types; Ball types band or belt types cooperating bands or belts
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B29—WORKING OF PLASTICS; WORKING OF SUBSTANCES IN A PLASTIC STATE IN GENERAL
- B29C—SHAPING OR JOINING OF PLASTICS; SHAPING OF MATERIAL IN A PLASTIC STATE, NOT OTHERWISE PROVIDED FOR; AFTER-TREATMENT OF THE SHAPED PRODUCTS, e.g. REPAIRING
- B29C66/00—General aspects of processes or apparatus for joining preformed parts
- B29C66/80—General aspects of machine operations or constructions and parts thereof
- B29C66/83—General aspects of machine operations or constructions and parts thereof characterised by the movement of the joining or pressing tools
- B29C66/834—General aspects of machine operations or constructions and parts thereof characterised by the movement of the joining or pressing tools moving with the parts to be joined
- B29C66/8341—Roller, cylinder or drum types; Band or belt types; Ball types
- B29C66/83431—Roller, cylinder or drum types; Band or belt types; Ball types rollers, cylinders or drums cooperating with bands or belts
Landscapes
- Engineering & Computer Science (AREA)
- Mechanical Engineering (AREA)
Abstract
Description
この発明は、観測信号から目的信号を抽出するために、観測信号に含まれる目的信号以外の信号である雑音を除去する雑音除去装置に関するものである。 The present invention relates to a noise removal apparatus that removes noise that is a signal other than a target signal included in an observation signal in order to extract the target signal from the observation signal.
雑音除去装置は、観測信号から目的信号を抽出するために、観測信号に含まれる目的信号以外の信号である雑音を除去する装置であり、音声認識や音声通信の分野で利用されており、音声認識率の改善や通信の際の音声品質の改善が得られる有効な装置である。
このような観測信号から、搬送信号に含まれる雑音(重畳雑音)を除去するための簡便で有効な手法として、2入力スペクトルサブトラクション法(以下、2入力SS法と称する)がある。例えば、このような2入力SS法を用いる従来の雑音除去装置としては、特許文献1に示されているものがあった。
A noise removal device is a device that removes noise that is a signal other than the target signal included in the observation signal in order to extract the target signal from the observation signal, and is used in the fields of voice recognition and voice communication. It is an effective device that can improve the recognition rate and the voice quality during communication.
As a simple and effective method for removing noise (superimposed noise) included in the carrier signal from such an observation signal, there is a two-input spectrum subtraction method (hereinafter referred to as a two-input SS method). For example, as a conventional noise removing apparatus using such a two-input SS method, there is one disclosed in
例えば、電話においては、送信信号が受信信号へ回り込む(混入)ことによって受信信号の音質劣化が生じることがある。上記のような従来技術では、受信信号の音質改善のために、受信信号に回り込んだ送信信号を2入力SSによって除去することが開示されている。手順は、先ず、送信信号のパワースペクトルと受信信号のパワースペクトルから、回り込みの伝達特性を求める。次に、伝達特性を基に送信信号パワースペクトルから、受信信号パワースペクトルより除去すべき回り込み送信信号パワースペクトルを求める。そして、受信信号パワースペクトルから回り込み送信信号パワースペクトルを除去することで品質の良い受信信号が得られる。伝達特性は、(1)送信信号が存在する区間、(2)受信信号に相手の音声が無い区間、(3)送信信号が存在し、かつ受信信号に相手の音声が無い区間、で推定することが示されていた。 For example, in a telephone, the sound quality of the received signal may be deteriorated by the transmission signal wrapping around (mixing) the received signal. In the conventional technology as described above, it is disclosed that a transmission signal wrapping around a reception signal is removed by a two-input SS in order to improve the sound quality of the reception signal. In the procedure, first, the wraparound transfer characteristic is obtained from the power spectrum of the transmission signal and the power spectrum of the reception signal. Next, a roundabout transmission signal power spectrum to be removed from the reception signal power spectrum is obtained from the transmission signal power spectrum based on the transfer characteristics. A high-quality received signal can be obtained by removing the wraparound transmission signal power spectrum from the received signal power spectrum. Transfer characteristics are estimated in (1) a section where a transmission signal exists, (2) a section where there is no other party's voice in the received signal, and (3) a section where there is a transmission signal and there is no other party's voice in the received signal. It has been shown.
従来の2入力SS法を用いた雑音除去装置は、音声入力が雑音から始まる場合には、補正フィルタ係数は正確に音響伝達特性を表す係数を更新することができるので、それによって音声に重畳した雑音を正確に推定できるため、音声に重畳した雑音除去を比較的正確に実施することができる。しかしながら、音声入力が音声から始まる場合や、雑音から始まっても補正フィルタ係数を更新するのに十分な区間の確保ができなかった場合には正確な補正フィルタ係数を更新することができない。その結果、このような場合は、補正フィルタ係数を用いて雑音データから音声に重畳した雑音データを正確に推定できないため、正確な雑音除去を実施することができず、認識性能が低下するという問題があった。 In the conventional noise reduction apparatus using the two-input SS method, when the voice input starts with noise, the correction filter coefficient can accurately update the coefficient representing the acoustic transfer characteristic, and is thus superimposed on the voice. Since noise can be estimated accurately, noise removal superimposed on speech can be performed relatively accurately. However, when the voice input starts with voice or when a section sufficient to update the correction filter coefficient cannot be ensured even if it starts with noise, the correct correction filter coefficient cannot be updated. As a result, in such a case, the noise data superimposed on the speech cannot be accurately estimated from the noise data using the correction filter coefficient, so that accurate noise removal cannot be performed and the recognition performance deteriorates. was there.
この発明は上記のような課題を解決するためになされたもので、音声区間直前で補正フィルタ係数を更新するのに十分な雑音区間を確保できない環境や発声直前から発声開始後にかけて雑音重畳音声データと雑音データとの間においての音声重畳雑音の伝達特性に係る周波数特性が大きく変化する環境下においても、正確な雑音除去を行うことのできる雑音除去装置を得ることを目的としている。 The present invention has been made in order to solve the above-described problems, and is an environment in which a sufficient noise section for updating the correction filter coefficient immediately before the speech section cannot be secured, or noise superimposed speech data from immediately before utterance to after the start of utterance. It is an object of the present invention to obtain a noise removal device that can perform accurate noise removal even in an environment where the frequency characteristic related to the transfer characteristic of voice superimposed noise between the noise and noise data changes greatly.
この発明に係る雑音除去装置は、雑音重畳音声データを入力し、音声区間か雑音区間かを判定する音声区間判定手段と、音声区間判定手段が音声区間の直後の雑音区間と判定した場合に、音声区間直後の雑音区間から、雑音重畳音声データと雑音データとの間における周波数特性の差異を補正するための補正フィルタの係数を更新する補正フィルタ係数更新手段と、補正フィルタ係数を用いて、音声区間における雑音重畳音声データから雑音データを除去する雑音除去手段とを備えたものである。 The noise removal apparatus according to the present invention receives noise superimposed speech data, and determines a speech section determination unit that determines whether a speech section or a noise section, and the speech section determination unit determines that the noise section is immediately after the speech section. The correction filter coefficient updating means for updating the coefficient of the correction filter for correcting the frequency characteristic difference between the noise superimposed voice data and the noise data from the noise section immediately after the voice section, and the correction filter coefficient Noise removing means for removing the noise data from the noise-superimposed voice data in the section.
この発明の雑音除去装置は、音声区間直後の雑音区間から、雑音重畳音声データと雑音データとの間における周波数特性の差異を補正するための補正フィルタの係数を更新するようにしたので、様々な環境下においても、確実に雑音除去を行うことができる。 Since the noise removal apparatus of the present invention updates the coefficient of the correction filter for correcting the frequency characteristic difference between the noise superimposed voice data and the noise data from the noise section immediately after the voice section, Noise removal can be reliably performed even in an environment.
実施の形態1.
図1は、この発明の実施の形態1による雑音除去装置を示す構成図である。
図において、雑音除去装置は、雑音重畳音声入力手段1、雑音入力手段2、音声区間判定手段3、雑音重畳音声スペクトル演算手段4、雑音スペクトル演算手段5、補正フィルタ係数更新手段6、補正フィルタメモリ7、雑音除去手段8、初期状態判定手段9、音声区間パワースペクトルメモリ10、補正フィルタ係数更新用スペクトルメモリ11からなる。
FIG. 1 is a block diagram showing a noise removing apparatus according to
In the figure, the noise removing device includes a noise superimposed voice input means 1, a noise input means 2, a voice segment determination means 3, a noise superimposed voice spectrum calculation means 4, a noise spectrum calculation means 5, a correction filter coefficient update means 6, a correction filter memory. 7, a
雑音重畳音声入力手段1は、ユーザ及びその他音響信号出力装置によって発生される雑音重畳音声を入力し、この雑音重畳音声に対してA/D変換を行って雑音重畳音声データを出力する手段である。雑音入力手段2は、雑音を入力し、この雑音に対してA/D変換を行って雑音データを出力する手段である。音声区間判定手段3は、雑音重畳音声入力手段1から出力される雑音重畳音声データを入力し、音声区間か雑音区間を判定し、区間情報と区間変化情報を出力する手段である。雑音重畳音声スペクトル演算手段4は、雑音重畳音声データを周波数変換して雑音重畳音声パワースペクトルを時系列として出力する手段である。雑音スペクトル演算手段5は、雑音データを周波数変換して雑音パワースペクトルを時系列として出力する手段である。補正フィルタ係数更新手段6は、音声区間判定手段3が雑音区間と判定した場合に、音声区間直後の雑音区間から雑音重畳音声と雑音との間においての音声重畳雑音の伝達特性に係る周波数特性の差異を補正するための補正フィルタ係数を更新し、補正フィルタメモリ7に記憶させる手段である。
The noise superimposed voice input means 1 is a means for inputting noise superimposed voice generated by a user and other acoustic signal output devices, and performing A / D conversion on the noise superimposed voice to output noise superimposed voice data. . The noise input means 2 is means for inputting noise, performing A / D conversion on the noise, and outputting noise data. The speech section determination means 3 is means for inputting the noise-superimposed speech data output from the noise-superimposed speech input means 1, determining a speech section or a noise section, and outputting section information and section change information. The noise-superimposed speech spectrum calculation means 4 is a means for frequency-converting the noise-superimposed speech data and outputting the noise-superimposed speech power spectrum as a time series. The noise spectrum calculation means 5 is means for frequency-converting noise data and outputting the noise power spectrum as a time series. The correction filter coefficient updating means 6 has a frequency characteristic relating to the transfer characteristic of the voice superimposed noise between the noise superimposed voice and the noise from the noise section immediately after the voice section when the voice section determining means 3 determines the noise section. This is means for updating the correction filter coefficient for correcting the difference and storing it in the
補正フィルタメモリ7は、補正フィルタ係数を1個記憶するメモリであり、雑音除去手段8は、補正フィルタメモリ7に記憶された補正フィルタ係数を用いて雑音重畳音声パワースペクトルに係る推定雑音パワースペクトルを除去して、雑音除去音声パワースペクトルを時系列に出力する手段である。初期状態判定手段9は、音声区間判定手段3の出力である区間情報が入力され、入力が音声区間であった場合に、雑音重畳音声パワースペクトル及雑音パワースペクトルを記憶させるか否かの判定を行い、その判定信号を出力する手段である。音声区間パワースペクトルメモリ10は、初期状態判定手段9の判定信号に基づいて雑音重畳音声パワースペクトル及び雑音パワースペクトルを記憶するメモリである。補正フィルタ係数更新用スペクトルメモリ11は、雑音区間の雑音重畳音声パワースペクトル及び雑音パワースペクトルを記憶するメモリである。
The
次に、実施の形態1の雑音除去装置の動作について説明する。
図2は、実施の形態1の雑音除去装置の動作を示すフローチャートである。
雑音重畳音声入力手段1は、一般的に話者の近傍に設置されるか、または話者が保持し、話者の音声を入力する。この際、音声と共に雑音も入力されるため、雑音重畳音声が入力されることになる。この入力に対して、雑音重畳音声入力手段1は、例えば11kHzサンプリングでA/D変換を行い、雑音重畳音声データを出力する。また、雑音入力手段2は、一般的に話者から離隔した位置に設置されるか、または、雑音発生源に直接接続して雑音を入力し、雑音重畳音声入力手段1と同様に、例えば16ビットでA/D変換を行い、雑音データを出力する(ステップST101)。尚、本発明の雑音除去装置は、雑音入力手段2への音声の漏れ込みが無視できるほど小さい場合を想定して構成されているものとする。
Next, the operation of the noise removal apparatus according to
FIG. 2 is a flowchart showing the operation of the noise removal apparatus according to the first embodiment.
The noise superimposed voice input means 1 is generally installed near the speaker or is held by the speaker and inputs the voice of the speaker. At this time, since noise is also input together with the voice, noise superimposed voice is input. In response to this input, the noise superimposed voice input means 1 performs A / D conversion, for example, at 11 kHz sampling, and outputs noise superimposed voice data. Further, the noise input means 2 is generally installed at a position separated from the speaker, or is connected directly to a noise generation source to input noise. A / D conversion is performed with bits, and noise data is output (step ST101). In addition, the noise removal apparatus of this invention shall be comprised supposing the case where the leak of the audio | voice into the noise input means 2 is so small that it can be disregarded.
雑音重畳音声スペクトル演算手段4は、雑音重畳音声入力手段1が出力する雑音重畳音声データを入力とし、ある一定の長さ、例えば256サンプルの長さでフレームを用いて、一定の幅、例えば110サンプルでシフトしながら、ハミング窓またはハニング窓等で切り出し、フーリエ変換によって周波数変換して雑音重畳音声パワースペクトルを時系列として出力する。尚、このフーリエ変換については後述する。また、雑音スペクトル演算手段5は、雑音入力手段2が出力する雑音データを入力とし、雑音重畳音声スペクトル演算手段4と同処理で周波数変換して雑音パワースペクトルを時系列として出力する(ステップST102)。 The noise-superimposed speech spectrum calculation means 4 receives the noise-superimposed speech data output from the noise-superimposed speech input means 1 and uses a frame with a certain length, for example, 256 samples, and a certain width, for example 110 While shifting with the sample, it is cut out with a Hamming window or Hanning window, etc., frequency-transformed by Fourier transformation, and a noise superimposed voice power spectrum is output as a time series. This Fourier transform will be described later. Also, the noise spectrum calculation means 5 receives the noise data output from the noise input means 2 and converts the frequency in the same process as the noise superimposed voice spectrum calculation means 4 and outputs the noise power spectrum as a time series (step ST102). .
音声区間判定手段3は、雑音重畳音声入力手段1の出力である雑音重畳音声データを入力として音声区間を判定し、処理対象フレームが音声区間なのか雑音区間なのかの区間情報を出力する(ステップST103)。区間の判定方法に関しては後述する。ステップST103における判定の結果が雑音区間であった場合はステップST105へ、判定結果が音声区間ならばステップST106に移行する(ステップST104)。
The speech
ステップST105において、補正フィルタ係数更新手段6は、雑音区間の処理対象フレームが音声区間直後のフレームから規定フレーム数以内であるかを判定する。判定の結果、そうであった場合はステップST107へ、そうでない場合はステップST108に移行する。尚、規定フレーム数は、例えば30フレームとする。補正フィルタ係数更新手段6は、ステップST107において、雑音重畳音声パワースペクトル及び雑音パワースペクトルが、規定フレーム数、例えば30フレーム補正フィルタ係数更新用スペクトルメモリ11に記憶できたかどうかを判定し、ステップST108においては、補正フィルタ係数更新用スペクトルメモリ11をクリアする。
In step ST105, the correction filter
ステップST107において、規定フレーム数を記憶できていれば、補正フィルタ係数更新手段6は、雑音重畳音声データと雑音データとの間においての雑音の伝達特性に係る周波数特性の差異を補正するための補正フィルタ係数を雑音重畳音声パワースペクトルの規定フレーム数分の平均パワースペクトルを雑音パワースペクトルの規定フレーム数分の平均パワースペクトルで除算して補正フィルタ係数を更新し、補正フィルタメモリ7に補正フィルタ係数を1個記憶させる(ステップST109)。尚、補正フィルタメモリ7が記憶する補正フィルタ係数については後述する。一方、ステップST107において、規定フレーム数記憶できていない場合は、補正フィルタ係数更新用スペクトルメモリ11に、雑音重畳音声パワースペクトル及び雑音パワースペクトルを記憶し、この処理対象フレームへの処理を終了する(ステップST110)。
In step ST107, if the specified number of frames can be stored, the correction filter
また、上記ステップST104において、音声区間判定手段3の判定結果が音声区間であった場合、ステップST106において、初期状態判定手段9は、処理対象フレームを音声区間と判定し、音声区間パワースペクトルメモリ10に雑音重畳音声パワースペクトル及び雑音パワースペクトルを記憶する。
In step ST104, if the determination result of the speech
雑音除去手段8は、補正フィルタメモリ7に記憶された補正フィルタ係数を用いて雑音パワースペクトルから雑音重畳音声パワースペクトルに重畳している雑音パワースペクトルを推定し、除去して、雑音除去音声パワースペクトルを時系列に出力する(ステップST111)。以上のステップST101〜ST111の処理を処理対象フレーム毎に繰り返し、補正フィルタ係数更新用スペクトルメモリ11に、雑音重畳音声パワースペクトル及び雑音パワースペクトルが、規定フレーム数記憶された場合は、補正フィルタの係数を更新する。
The
雑音除去手段8によって出力される雑音除去音声パワースペクトル|St(ω)|2は以下の式(1)に示すように表される。
図3は、実施の形態1の音声区間判定手段3で判定の際に用いる信号を時系列で表す説明図である。
以下、図3に基づいて音声区間判定手段3の動作を詳細に説明する。
図3において、(1)は雑音重畳音声入力手段1が出力する雑音重畳音声データ、(2)は音声区間判定手段3が出力する雑音重畳音声データである。
音声区間の判定は、例えば、規定フレーム数分の雑音重畳音声データの平均パワーを演算し、これに一定パワーp、例えば5dBを加えた値を閾値thと設定する。任意フレーム時刻tの雑音重畳音声データのパワーを演算し、閾値thを上回る時間が一定時間t1、例えば0.5sec以上ある場合に任意フレーム時刻tを音声区間始端ts、また、閾値thを下回る時間が一定時間t2以上ある場合に任意フレーム時刻tを雑音区間終端teとして、音声区間始端tsが検出されるまでの間を雑音区間、音声区間始端tsが検出されれば音声区間、雑音区間終端teが検出されれば雑音区間と判定する。
FIG. 3 is an explanatory diagram showing, in time series, signals used for the determination by the speech
Hereinafter, the operation of the speech segment determination means 3 will be described in detail with reference to FIG.
In FIG. 3, (1) is the noise superimposed voice data output from the noise superimposed voice input means 1, and (2) is the noise superimposed voice data output from the voice
The speech section is determined by, for example, calculating the average power of noise-superimposed speech data for a specified number of frames and adding a constant power p, for example, 5 dB, to the threshold th. The power of noise-superimposed speech data at an arbitrary frame time t is calculated, and when the time exceeding the threshold th is a fixed time t1, for example, 0.5 sec or more, the arbitrary frame time t is set to the voice section start ts, and the time below the threshold th Is the noise interval end te when the predetermined frame time t2 is equal to or longer than the predetermined time t2, the noise interval is detected until the voice interval start ts is detected, and if the audio interval start ts is detected, the audio interval and noise interval end te are detected. Is detected as a noise interval.
図4は、実施の形態1における雑音除去を行う場合の入力信号を時系列で表す説明図である。以下、この図4を基に雑音除去手段8の詳細に説明する。
図4において、(1)は雑音重畳音声入力手段1が出力する雑音重畳音声データ、(2)は雑音重畳音声データ(1)を判断基準にして発信する音声区間判定信号、(3)は雑音入力手段2が出力する雑音データである。
FIG. 4 is an explanatory diagram showing an input signal in time series when noise removal is performed in the first embodiment. Hereinafter, the noise removal means 8 will be described in detail with reference to FIG.
In FIG. 4, (1) is the noise superimposed voice data output from the noise superimposed voice input means 1, (2) is a voice segment determination signal transmitted based on the noise superimposed voice data (1) as a criterion, and (3) is noise. This is noise data output from the input means 2.
音声区間判定信号(2)が発信していない場合で音声区間から規定フレーム数経過した雑音区間の場合は、補正フィルタ係数更新手段6は雑音重畳音声(1)と雑音(3)の補正フィルタ作成フレーム区間fhの平均スペクトラムの比から補正フィルタ係数を更新し、補正フィルタメモリ7に補正フィルタ係数更新手段6が係数更新した補正フィルタ係数を記憶する。
In the case where the speech section determination signal (2) is not transmitted and the noise section has passed the specified number of frames from the speech section, the correction filter coefficient updating means 6 creates correction filters for the noise superimposed speech (1) and noise (3). The correction filter coefficient is updated from the ratio of the average spectrum of the frame section fh, and the correction filter coefficient updated by the correction filter coefficient updating means 6 is stored in the
雑音除去手段8は、音声区間判定信号(2)が処理対象フレームを音声区間と判定した場合、即ち、音声区間の場合は、補正フィルタメモリ7が記憶している補正フィルタ係数を用いて、雑音パワースペクトル、即ち雑音データ(3)のパワースペクトルの伝達特性の補正を行い、推定雑音パワースペクトラムを算出する。音声区間パワースペクトルメモリ10が記憶している雑音重畳音声パワースペクトル、即ち雑音重畳音声データ(1)のパワースペクトルから、推定雑音パワースペクトラムを減算及び除去する。
When the speech section determination signal (2) determines that the processing target frame is a speech section, that is, when the speech section determination signal (2) is a speech section, the
図5は、実施の形態1の補正フィルタメモリに記憶される補正フィルタ係数の一例を示す説明図である。
係数は周波数毎の音声重畳雑音パワースペクトラムと雑音パワースペクトラムの比である。以下、この図を基に補正フィルタメモリに記憶されている補正フィルタ係数について詳細に説明する。
FIG. 5 is an explanatory diagram illustrating an example of correction filter coefficients stored in the correction filter memory according to the first embodiment.
The coefficient is the ratio of the audio superimposed noise power spectrum and the noise power spectrum for each frequency. Hereinafter, the correction filter coefficient stored in the correction filter memory will be described in detail with reference to FIG.
例えば、規定フレーム数を30フレームとした場合、補正フィルタ係数は式(3)のように表すことができる。
例えば、1フレーム長256サンプル、フレームシフト110サンプル、11kHzサンプリングで分析した場合の雑音重畳音声データを対象にフーリエ変換して算出した雑音重畳音声パワースペクトルの音声区間直前30フレームの平均を、雑音データに対して同処理した雑音スペクトル30フレームの平均で除算した結果の一例である。パワースペクトルは式(2)によりスペクトルX(ω)を計算し、更に|X(ω)|2を求めることで得る。 For example, the average of the 30 frames immediately before the speech interval of the noise superimposed speech power spectrum calculated by subjecting the noise superimposed speech data when analyzed with 256 frames of 1 frame length, 110 samples of frame shift, and 11 kHz sampling to the noise data Is an example of the result of dividing by the average of 30 frames of the noise spectrum processed in the same manner. The power spectrum is obtained by calculating the spectrum X (ω) according to the equation (2) and further obtaining | X (ω) | 2 .
以上、雑音推定及び雑音除去方法を2入力SSで説明したが、1入力SSへの適用も可能である。雑音除去音声パワースペクトルは1入力SSを用いた場合は式(4)のように表すことができる。
以上のように、実施の形態1の雑音除去装置によれば、雑音重畳音声を入力し、雑音重畳音声データを出力する雑音重畳音声入力手段と、雑音を入力し、雑音データを出力する雑音入力手段と、雑音重畳音声データを入力し、音声区間か雑音区間かを判定する音声区間判定手段と、音声区間判定手段が音声区間の直後の雑音区間と判定した場合に、音声区間直後の雑音区間から、雑音重畳音声データと雑音データとの間における周波数特性の差異を補正するための補正フィルタの係数を更新する補正フィルタ係数更新手段と、補正フィルタ係数を用いて、音声区間における雑音重畳音声データから雑音データを除去する雑音除去手段とを備えたので、例えば、音声区間直前で補正フィルタの係数を更新するのに十分な雑音区間を確保できない場合や、発声直前から発声開始後にかけて雑音重畳音声データと雑音データとの間においての音声重畳雑音の伝達特性に係る周波数特性が大きく変化する場合等、様々な環境下であっても正確な雑音除去を行うことができる。 As described above, according to the noise removal apparatus of the first embodiment, the noise superimposed voice input unit that inputs noise superimposed voice and outputs noise superimposed voice data, and the noise input that inputs noise and outputs noise data Means, a speech section determination means for inputting noise-superimposed speech data and determining whether the speech section is a noise section, or a noise section immediately after the speech section when the speech section determination means determines that the noise section is immediately after the speech section. From the noise-superimposed speech data, the noise-superimposed speech data in the speech section using the correction filter coefficient updating means for updating the coefficient of the correction filter for correcting the difference in frequency characteristics between the noise data and the correction filter coefficient For example, it is not possible to secure a sufficient noise section for updating the coefficient of the correction filter immediately before the speech section. Accurate noise even under various circumstances, such as when the frequency characteristics related to the transfer characteristics of speech superimposed noise between noise superimposed data and noise data greatly vary between immediately before utterance and after the start of utterance. Removal can be performed.
実施の形態2.
実施の形態2は、音声区間の直前直後の補正フィルタ係数を平均するようにしたものである。
図6は、実施の形態2の雑音除去装置の構成図である。
図において、雑音除去装置は、雑音重畳音声入力手段1、雑音入力手段2、音声区間判定手段3a、雑音重畳音声スペクトル演算手段4、雑音スペクトル演算手段5、補正フィルタ係数更新手段6a、補正フィルタメモリ7a、雑音除去手段8、初期状態判定手段9、音声区間パワースペクトルメモリ10、補正フィルタ係数更新用スペクトルメモリ11、前補正フィルタ作成用データメモリ12、補正フィルタ係数合成手段13からなる。
In the second embodiment, the correction filter coefficients immediately before and after the speech section are averaged.
FIG. 6 is a configuration diagram of the noise removal apparatus according to the second embodiment.
In the figure, the noise removing apparatus includes a noise superimposed voice input means 1, a noise input means 2, a voice section determination means 3a, a noise superimposed voice spectrum calculation means 4, a noise spectrum calculation means 5, a correction filter coefficient update means 6a, a correction filter memory. 7a, noise removal means 8, initial state determination means 9, speech section
音声区間判定手段3aは、雑音重畳音声入力手段1が出力する雑音重畳音声データと共に、前補正フィルタ作成用データメモリ12に記憶された雑音重畳音声データに基づいて、音声区間を判定し、かつ、音声区間の直前あるいは直後の雑音区間を判定する手段である。補正フィルタ係数更新手段6aは、音声区間判定手段3aが、音声区間の直前の雑音区間と判定した場合に、音声区間直前の雑音区間から、雑音重畳音声データと雑音データとの間における周波数特性の差異を補正するための前補正フィルタの係数を更新すると共に、音声区間直後の雑音区間と判定した場合に、音声区間直後の雑音区間から、雑音重畳音声データと雑音データとの間における周波数特性の差異を補正するための後補正フィルタの係数を更新する手段である。また、補正フィルタメモリ7aは、補正フィルタ係数更新手段6aが更新する前補正フィルタ係数及び後補正フィルタ係数と、補正フィルタ係数合成手段13が更新する平均補正フィルタ係数とを記憶するよう構成されている。
The voice
前補正フィルタ作成用データメモリ12は、入力される雑音重畳音声データを一定時間分バッファリングするためのメモリである。補正フィルタ係数合成手段13は、補正フィルタメモリ7aに記憶された前補正フィルタ係数と後補正フィルタ係数との平均を算出し、この平均値を平均補正フィルタ係数として補正フィルタメモリ7aに記憶させる手段である。他の構成については、実施の形態1と同様であるため、ここでの説明は省略する。
The pre-correction filter
次に、実施の形態2の雑音除去装置の動作について説明する。
図7及び図8は、実施の形態2の動作を示すフローチャートであり、以下、このフローチャートに沿って動作を説明する。図中のステップST101〜ステップST111の処理は、実施の形態1におけるステップST101〜ステップST111の処理と同様の内容であることを示している。
Next, the operation of the noise removal apparatus according to the second embodiment will be described.
7 and 8 are flowcharts showing the operation of the second embodiment. Hereinafter, the operation will be described with reference to this flowchart. The process of step ST101-step ST111 in the figure has shown that it is the same content as the process of step ST101-step ST111 in
雑音重畳音声入力手段1及び雑音入力手段2は、それぞれ雑音重畳音声及び雑音を入力し、雑音重畳音声データ及び雑音データを出力する(ステップST101)。次に、雑音重畳音声スペクトル演算手段4及び雑音スペクトル演算手段5は、それぞれ雑音重畳音声データ及び雑音データを入力し、これらデータを周波数変換して雑音重畳音声パワースペクトル及び雑音パワースペクトルを時系列として出力する(ステップST102)。 The noise superimposed voice input means 1 and the noise input means 2 respectively input the noise superimposed voice and noise, and output the noise superimposed voice data and noise data (step ST101). Next, the noise superimposed voice spectrum calculation means 4 and the noise spectrum calculation means 5 are inputted with noise superimposed voice data and noise data, respectively, and frequency-converted these data to make the noise superimposed voice power spectrum and noise power spectrum as time series. Output (step ST102).
また、雑音重畳音声入力手段1が出力する雑音重畳音声データは、前補正フィルタ作成用データメモリ12に記憶され(ステップST201)、音声区間判定手段3は、前補正フィルタ作成用データメモリ12が記憶している雑音重畳音声データを入力として音声区間を判定し、処理対象フレームが音声区間なのか雑音区間なのかの区間情報を出力する(ステップST103)。ステップST103における判定の結果が雑音区間であった場合はステップST105へ、判定結果が音声区間ならばステップST106に移行する(ステップST104)。
Also, the noise superimposed voice data output from the noise superimposed voice input means 1 is stored in the pre-correction filter creation data memory 12 (step ST201), and the voice section determination means 3 is stored in the pre-correction filter
ステップST106においては、初期状態判定手段9の判定結果により雑音重畳音声パワースペクトル及び雑音パワースペクトルを音声区間パワースペクトルメモリ10に記憶させると共に、音声区間判定手段3aは、前補正フィルタ作成用データメモリ12内の雑音区間は音声区間直前から規定フレーム以上であるかを判定する(ステップST202)。ステップST202において、規定フレーム以上であった場合、補正フィルタ係数更新手段6aは、雑音重畳音声パワースペクトルの平均を雑音パワースペクトルの平均で除算して補正フィルタ係数を更新し、この補正フィルタ係数を1個、補正フィルタメモリ7aに記憶する(ステップST109)。次に、補正フィルタ係数合成手段13は、補正フィルタメモリ7aに、前補正フィルタ係数及び後補正フィルタ係数の両方の補正フィルタ係数が記憶されているかを判定し(ステップST203)、記憶されていない場合はそのまま終了する。例えば、前補正フィルタ係数のみが記憶されている場合は、そのまま終了する。また、ステップST202において、規定フレーム以上ではなかった場合は、そのまま終了する。
In step ST106, the noise superimposed speech power spectrum and the noise power spectrum are stored in the speech section
また、ステップST104において処理対象フレームが雑音区間であった場合、補正フィルタ係数更新手段6aは、雑音区間の処理対象フレームが音声区間直後のフレームから規定フレーム数以内であるかを判定する(ステップST105)。判定の結果、そうであった場合はステップST107へ、そうでない場合はステップST108に移行する。補正フィルタ係数更新手段6は、ステップST107において、雑音重畳音声パワースペクトル及び雑音パワースペクトルが、規定フレーム数分、補正フィルタ係数更新用スペクトルメモリ11に記憶できたかどうかを判定し、一方、ステップST108においては、補正フィルタ係数更新用スペクトルメモリ11をクリアする。
Further, when the processing target frame is a noise section in step ST104, the correction filter
ステップST107において、規定フレーム数を記憶できていれば、補正フィルタ係数更新手段6aは、雑音重畳音声パワースペクトルの規定フレーム数分の平均パワースペクトルを雑音パワースペクトルの規定フレーム数分の平均パワースペクトルで除算して補正フィルタ係数を更新し、補正フィルタメモリ7に後補正フィルタ係数としてこれを1個記憶させる(ステップST109)。一方、ステップST107において、規定フレーム数記憶できていない場合、補正フィルタ係数更新手段6aは、補正フィルタ係数更新用スペクトルメモリ11に、雑音重畳音声パワースペクトル及び雑音パワースペクトルを記憶する(ステップST110)。
If the specified number of frames can be stored in step ST107, the correction filter
次に、補正フィルタ係数合成手段13は、補正フィルタメモリ7a中に、前補正フィルタ係数と後補正フィルタ係数の両方の補正フィルタ係数が記憶されているかを判定し(ステップST203)、そうであった場合は、これら前補正フィルタ係数と後補正フィルタ係数の平均を算出し、補正フィルタメモリ7aに平均補正フィルタ係数として1個記憶する(ステップST204)。
Next, the correction filter
ステップST204において、平均補正フィルタ係数が更新された場合、雑音除去手段8は補正フィルタメモリ7aに記憶された平均補正フィルタ係数を用いて雑音重畳音声パワースペクトルに係る推定雑音パワースペクトルを除去して、雑音除去音声パワースペクトルを時系列に出力する(ステップST111)。尚、補正フィルタメモリ7aには平均補正フィルタ係数として予め決められた初期値が記憶されており、この初期値を平均補正フィルタ係数で更新する。また、最初の音声区間において平均補正フィルタ係数が得られなかった場合は初期値により雑音除去音声を出力する。
In step ST204, when the average correction filter coefficient is updated, the
尚、上記実施の形態では、前補正フィルタ係数と後補正フィルタ係数を両方共補正フィルタメモリ7aに記憶させ、補正フィルタ係数合成手段13が、補正フィルタメモリ7aから両方の補正フィルタ係数と取り出して平均を求めるようにしたが、補正フィルタ係数更新手段6aが後補正フィルタ係数を更新した場合、補正フィルタメモリ7aに記憶されている前補正フィルタ係数を取り出して平均を求めるようにしてもよい。このように構成することにより、補正フィルタメモリ7a内に後補正フィルタ係数を記憶させるための領域を不要とすることができる。
In the above embodiment, both the pre-correction filter coefficient and the post-correction filter coefficient are stored in the
以上のように、実施の形態2の雑音除去装置によれば、雑音重畳音声を入力し、雑音重畳音声データを出力する雑音重畳音声入力手段と、雑音を入力し、雑音データを出力する雑音入力手段と、雑音重畳音声データを入力し、音声区間か雑音区間かを判定する音声区間判定手段と、音声区間判定手段が音声区間の直前の雑音区間と判定した場合に、音声区間直前の雑音区間から、雑音重畳音声データと雑音データとの間における周波数特性の差異を補正するための前補正フィルタの係数を更新すると共に、音声区間直後の雑音区間と判定した場合に、音声区間直後の雑音区間から、雑音重畳音声データと雑音データとの間における周波数特性の差異を補正するための後補正フィルタの係数を更新する補正フィルタ係数更新手段と、前補正フィルタ係数と後補正フィルタ係数との平均を算出し、平均補正フィルタ係数として出力する補正フィルタ係数合成手段と、平均補正フィルタ係数を用いて、音声区間における雑音重畳音声データから雑音データを除去する雑音除去手段とを備えたので、より正確な音声重畳雑音を推定可能な補正フィルタ係数を更新することができるので、更に精度の高い雑音除去を行うことができる。 As described above, according to the noise removal apparatus of the second embodiment, the noise superimposed voice input means for inputting the noise superimposed voice and outputting the noise superimposed voice data, and the noise input for inputting the noise and outputting the noise data Means, a speech section determination means for determining whether the speech section is a noise section by inputting noise-superimposed speech data, and a noise section immediately before the speech section when the speech section determination means determines that the noise section is immediately before the speech section. To update the coefficient of the pre-correction filter for correcting the frequency characteristic difference between the noise-superimposed speech data and the noise data, and determine the noise interval immediately after the speech interval, A correction filter coefficient updating means for updating a coefficient of a post-correction filter for correcting a difference in frequency characteristics between the noise-superimposed speech data and the noise data, and a pre-correction filter. Noise that removes the noise data from the noise-superimposed speech data in the speech section using the correction filter coefficient synthesis means that calculates the average of the data coefficient and the post-correction filter coefficient and outputs the average correction filter coefficient, and the average correction filter coefficient With the removal means, it is possible to update the correction filter coefficient capable of estimating the more accurate voice superimposed noise, so that noise removal with higher accuracy can be performed.
実施の形態3.
実施の形態3は、ボタン操作によりユーザが音声区間を指定する手段を設けると共に、音声区間の再判定を行って補正フィルタ係数を再度更新するようにしたものである。
In the third embodiment, a means for a user to specify a voice section by button operation is provided, and the correction filter coefficient is updated again by re-determination of the voice section.
図9は、実施の形態3の雑音除去装置を示す構成図である。
図示の雑音除去装置は、雑音重畳音声入力手段1、雑音入力手段2、音声区間判定手段3b、雑音重畳音声スペクトル演算手段4、雑音スペクトル演算手段5、補正フィルタ係数更新手段6、補正フィルタメモリ7、雑音除去手段8、初期状態判定手段9、音声区間パワースペクトルメモリ10、補正フィルタ係数更新用スペクトルメモリ11、ボタン押下タイミング入力手段14、雑音除去音声データ演算手段15からなる。
FIG. 9 is a configuration diagram illustrating the noise removal device of the third embodiment.
The noise removal apparatus shown in the figure includes a noise superimposed voice input means 1, a noise input means 2, a voice segment determination means 3b, a noise superimposed voice spectrum calculation means 4, a noise spectrum calculation means 5, a correction filter coefficient update means 6, and a
ボタン押下タイミング入力手段14は、ユーザが音声入力を行う場合にボタンを押下する際に発信する制御信号が入力され、音声区間判定手段3に対してボタン押下タイミング信号を出力する手段である。雑音除去音声データ演算手段15は、雑音除去手段8が出力する雑音除去音声パワースペクトルに対して、逆フーリエ変換等により時間領域変換を行った雑音除去音声データを出力する手段である。また、音声区間判定手段3bは、図示しないタイマを有し、ボタン押下タイミング入力手段14による押下タイミングに基づき、雑音重畳音声データに対して音声区間か雑音区間かを判定すると共に、雑音除去音声データ演算手段15より、雑音除去音声データが入力された場合は、この雑音除去音声データに基づいて音声区間の再判定を行うよう構成されている。その他の構成については、実施の形態1と同様であるため、ここでの説明は省略する。
The button press timing input means 14 is a means for receiving a control signal transmitted when the user presses a button when making a voice input, and outputting a button press timing signal to the voice section determination means 3. The noise-removed voice
次に、実施の形態3の雑音除去装置の動作について説明する。
図10及び図11は、実施の形態3の動作を示すフローチャートであり、以下、このフローチャートに沿って動作を説明する。図中のステップST101〜ステップST111の処理は、実施の形態1におけるステップST101〜ステップST111の処理と同様の内容であることを示している。
Next, the operation of the noise removal apparatus according to the third embodiment will be described.
10 and 11 are flowcharts showing the operation of the third embodiment, and the operation will be described below with reference to this flowchart. The process of step ST101-step ST111 in the figure has shown that it is the same content as the process of step ST101-step ST111 in
雑音重畳音声入力手段1及び雑音入力手段2は、それぞれ雑音重畳音声及び雑音を入力し、雑音重畳音声データ及び雑音データを出力する(ステップST101)。次に、雑音重畳音声スペクトル演算手段4及び雑音スペクトル演算手段5は、それぞれ雑音重畳音声データ及び雑音データを入力し、これらデータを周波数変換して雑音重畳音声パワースペクトル及び雑音パワースペクトルを時系列として出力する(ステップST102)。 The noise superimposed voice input means 1 and the noise input means 2 respectively input the noise superimposed voice and noise, and output the noise superimposed voice data and noise data (step ST101). Next, the noise superimposed voice spectrum calculation means 4 and the noise spectrum calculation means 5 are inputted with noise superimposed voice data and noise data, respectively, and frequency-converted these data to make the noise superimposed voice power spectrum and noise power spectrum as time series. Output (step ST102).
次に、ボタン押下タイミング入力手段14からの出力がボタン押下であるか否かを判定し、ボタン押下であればステップST103へ、ボタン押下がなければ終了する(ステップST301)。ステップST103において、音声区間判定手段3bは、雑音重畳音声入力手段1の出力である雑音重畳音声データを入力として音声区間を判定し、処理対象フレームが音声区間なのか雑音区間なのかの区間情報を出力する。また、ステップST301においてボタン押下があった場合、この押下タイミングで音声区間判定手段3b内のタイマがセットされる。ステップST104の判定処理において、処理対象フレームが音声区間であった場合は、実施の形態1と同様に初期状態判定手段9により、音声区間パワースペクトルメモリ10に、雑音重畳音声パワースペクトル及び雑音パワースペクトルを記憶し(ステップST106)、終了する。
Next, it is determined whether or not the output from the button press timing input means 14 is a button press. If the button is pressed, the process proceeds to step ST103, and if the button is not pressed, the process ends (step ST301). In step ST103, the speech segment determination unit 3b determines the speech segment by using the noise superimposed speech data output from the noise superimposed
一方、ステップST104において、処理対象フレームが音声区間でなかった場合、音声区間判定手段3bは、タイマのタイムアウトで音声区間終端を決定する(ステップST302)。尚、タイマのタイムアウト時間としては、雑音除去装置が適用される装置における発声時間として適当な値が予め設定されている。ステップST302において、音声区間終端が決定された場合、補正フィルタ係数更新手段6は、ステップST107において、雑音重畳音声パワースペクトル及び雑音パワースペクトルが、規定フレーム数分、補正フィルタ係数更新用スペクトルメモリ11に記憶できたかどうかを判定し、規定フレーム数を記憶できていれば、補正フィルタ係数更新手段6は、雑音重畳音声パワースペクトルの規定フレーム数分の平均パワースペクトルを雑音パワースペクトルの規定フレーム数分の平均パワースペクトルで除算して補正フィルタ係数を更新し、補正フィルタメモリ7に補正フィルタ係数としてこれを1個記憶させる(ステップST109)。一方、ステップST107において、規定フレーム数記憶できていない場合は、補正フィルタ係数更新用スペクトルメモリ11に、雑音重畳音声パワースペクトル及び雑音パワースペクトルを記憶する(ステップST110)。
On the other hand, if the processing target frame is not a speech section in step ST104, the speech section determination means 3b determines the end of the speech section by a timer timeout (step ST302). Note that an appropriate value is set in advance as the time-out time of the timer as the utterance time in the device to which the noise removing device is applied. When the speech section end is determined in step ST302, the correction filter
次に、ステップST109において補正フィルタ係数が記憶された場合、雑音除去手段8は、補正フィルタメモリ7に記憶された補正フィルタ係数を用いて雑音重畳音声パワースペクトルに係る推定雑音パワースペクトルを除去して、雑音除去音声パワースペクトルを時系列に出力する(ステップST111)。次に、雑音除去音声データ演算手段15は、雑音除去手段8が出力した雑音除去音声パワースペクトルから雑音除去音声データを生成し、これを音声区間判定手段3bに出力する(ステップST303)。即ち、雑音除去音声データ演算手段15は、雑音除去手段8から出力された雑音除去音声パワースペクトル|S(ω)|2へ雑音重畳音声スペクトルY(ω)の位相情報を適用して雑音除去音声スペクトルS(ω)を求め、逆フーリエ変換を用いて時間領域変換を行い、雑音除去音声データを出力する。雑音除去音声データs(k)の算出式は式(5)のようになる。
ステップST303において、雑音除去音声データ演算手段15より音声区間判定手段3bに雑音除去音声データが出力された場合、音声区間判定手段3bは、雑音除去音声データを対象に音声区間を検出したかを判定し(ステップST304)、既に検出した場合はそのまま終了し、検出していない場合は、雑音除去音声データを入力として、パワーを演算し、閾値を用いて音声区間と雑音区間とを判定する(ステップST305)。その後、雑音除去音声データにより判定した音声区間と雑音区間とに基づく補正フィルタ係数更新処理を行う(ステップST306)。即ち、ステップST306は、実施の形態1におけるステップST104〜ステップST111の処理と同様の処理である。
In step ST303, when the noise-removed speech data is output from the noise-removed speech
このように実施の形態3では、周囲の雑音のパワーが大きい場合でも、雑音と発声のパワーの大きさにかかわらず、ボタン押下時からのタイムアウトで音声区間を判定し、この判定結果に基づく補正フィルタで雑音除去を行った後、再度、音声区間の検出を行うようにしたので、雑音のパワーが大きい場合や発声のパワーが小さい場合でも精度良く補正フィルタ係数を算出することができる。 As described above, in the third embodiment, even when the power of the surrounding noise is large, the voice section is determined by the time-out after the button is pressed regardless of the noise and the power of the utterance, and the correction based on the determination result is performed. After the noise removal by the filter, the speech section is detected again, so that the correction filter coefficient can be calculated accurately even when the noise power is high or the utterance power is low.
以上では雑音推定及び雑音除去方法を2入力SSで説明したが、1入力SSへの適用も可能である。この場合、平均雑音パワースペクトルをタイムアウト後で計算することで、1入力SSへの適用を実現することができる。1入力SSへの適用については前述したので説明を省略する。 Although the noise estimation and noise removal method has been described above with a two-input SS, application to a one-input SS is also possible. In this case, by applying the average noise power spectrum after the timeout, application to one input SS can be realized. Since the application to the one-input SS has been described above, the description thereof will be omitted.
以上のように、実施の形態3の雑音除去装置によれば、雑音重畳音声を入力し、雑音重畳音声データを出力する雑音重畳音声入力手段と、雑音を入力し、雑音データを出力する雑音入力手段と、音声入力時に押下されるボタンの押下タイミングを取得するボタン押下タイミング入力手段と、ボタン押下タイミング入力手段による押下タイミングに基づき、雑音重畳音声データに対して音声区間か雑音区間かを判定する音声区間判定手段と、音声区間判定手段が音声区間の直後の雑音区間と判定した場合に、音声区間直後の雑音区間から、雑音重畳音声データと雑音データとの間における周波数特性の差異を補正するための補正フィルタの係数を更新する補正フィルタ係数更新手段と、補正フィルタ係数を用いて、音声区間における雑音重畳音声データから雑音データを除去する雑音除去手段とを備え、音声区間判定手段は、ボタン押下タイミングに基づいて得られた雑音除去音声データを用いて音声区間と雑音区間の再判定を行い、補正フィルタ係数更新手段は、再判定の結果得られた音声区間と雑音区間に基づいて、補正フィルタの係数を再度更新するようにしたので、雑音重畳音声データを対象に音声区間判別を行った時に判別不可能だった音声区間も判別することができる。あるいは、判別可能であった場合には、より正確な音声区間を判別することができる。 As described above, according to the noise removal apparatus of the third embodiment, the noise-superimposed voice input means for inputting the noise-superimposed voice and outputting the noise-superimposed voice data, and the noise input for inputting the noise and outputting the noise data Based on the pressing timing by the means, the button pressing timing input means for obtaining the pressing timing of the button pressed at the time of the voice input, and the button pressing timing input means, it is determined whether the noise superimposed voice data is a voice section or a noise section When the speech segment determination unit and the speech segment determination unit determine that the noise segment is immediately after the speech segment, the frequency characteristic difference between the noise superimposed speech data and the noise data is corrected from the noise segment immediately after the speech segment. Correction filter coefficient updating means for updating the coefficient of the correction filter, and the noise-superimposed sound in the speech section using the correction filter coefficient Noise removal means for removing noise data from the data, and the speech section determination means re-determines the speech section and noise section using the noise-removed speech data obtained based on the button press timing, and the correction filter coefficient The updating means updates the coefficient of the correction filter again based on the speech section and noise section obtained as a result of redetermination, so it cannot be discriminated when performing speech section discrimination on noise superimposed speech data. It is also possible to discriminate the voice section that was. Alternatively, if it is discriminable, a more accurate voice section can be discriminated.
実施の形態4.
実施の形態4は、前補正フィルタ係数と後補正フィルタ係数との相関を算出するようにしたものである。
図12は、実施の形態4の雑音除去装置の構成図である。
図において、雑音除去装置は、雑音重畳音声入力手段1、雑音入力手段2、音声区間判定手段3a、雑音重畳音声スペクトル演算手段4、雑音スペクトル演算手段5、補正フィルタ係数更新手段6a、補正フィルタメモリ7a、雑音除去手段8、初期状態判定手段9、音声区間パワースペクトルメモリ10、補正フィルタ係数更新用スペクトルメモリ11、前補正フィルタ作成用データメモリ12、補正フィルタ相関算出手段16からなる。補正フィルタ相関算出手段16は、補正フィルタメモリ7aに記憶されている前補正フィルタ係数と後補正フィルタ係数との相関を算出する手段である。それ以外の構成は、実施の形態2と同様であるため、対応する部分に同一符号を付してその説明を省略する。
In the fourth embodiment, the correlation between the pre-correction filter coefficient and the post-correction filter coefficient is calculated.
FIG. 12 is a configuration diagram of the noise removal apparatus according to the fourth embodiment.
In the figure, the noise removing apparatus includes a noise superimposed voice input means 1, a noise input means 2, a voice section determination means 3a, a noise superimposed voice spectrum calculation means 4, a noise spectrum calculation means 5, a correction filter coefficient update means 6a, a correction filter memory. 7a, noise removal means 8, initial state determination means 9, speech section
次に、実施の形態4の雑音除去装置の動作について説明する。
図13及び図14は、実施の形態4の動作を示すフローチャートであり、以下、このフローチャートに沿って動作を説明する。図中のステップST101〜ステップST111の処理は、実施の形態1におけるステップST101〜ステップST111の処理と同様の内容であることを示している。また、図中のステップST201〜ステップST203は、実施の形態2におけるステップST201〜ステップST203の処理と同様の内容であることを示している。
Next, the operation of the noise removal apparatus according to the fourth embodiment will be described.
FIGS. 13 and 14 are flowcharts showing the operation of the fourth embodiment, and the operation will be described below with reference to this flowchart. The process of step ST101-step ST111 in the figure has shown that it is the same content as the process of step ST101-step ST111 in
雑音重畳音声入力手段1及び雑音入力手段2は、それぞれ雑音重畳音声及び雑音を入力し、雑音重畳音声データ及び雑音データを出力する(ステップST101)。次に、雑音重畳音声スペクトル演算手段4及び雑音スペクトル演算手段5は、それぞれ雑音重畳音声データ及び雑音データを入力し、これらデータを周波数変換して雑音重畳音声パワースペクトル及び雑音パワースペクトルを時系列として出力する(ステップST102)。 The noise superimposed voice input means 1 and the noise input means 2 respectively input the noise superimposed voice and noise, and output the noise superimposed voice data and noise data (step ST101). Next, the noise superimposed voice spectrum calculation means 4 and the noise spectrum calculation means 5 are inputted with noise superimposed voice data and noise data, respectively, and frequency-converted these data to make the noise superimposed voice power spectrum and noise power spectrum as time series. Output (step ST102).
また、雑音重畳音声入力手段1が出力する雑音重畳音声データは、前補正フィルタ作成用データメモリ12に記憶され(ステップST201)、音声区間判定手段3aは、前補正フィルタ作成用データメモリ12が記憶している雑音重畳音声データを入力として音声区間を判定し、処理対象フレームが音声区間なのか雑音区間なのかの区間情報を出力する(ステップST103)。ステップST103における判定の結果が雑音区間であった場合はステップST105へ、判定結果が音声区間ならばステップST106に移行する(ステップST104)。
Further, the noise superimposed voice data output from the noise superimposed voice input means 1 is stored in the pre-correction filter creation data memory 12 (step ST201), and the voice section determination means 3a is stored in the pre-correction filter
ステップST106においては、初期状態判定手段9によって雑音重畳音声パワースペクトル及び雑音パワースペクトルが音声区間パワースペクトルメモリ10に記憶されると共に、音声区間判定手段3aは、前補正フィルタ作成用データメモリ12内の雑音区間は音声区間直前から規定フレーム以上であるかを判定する(ステップST202)。ステップST202において、規定フレーム以上であった場合、補正フィルタ係数更新手段6aは、雑音重畳音声パワースペクトルの平均を雑音パワースペクトルの平均で除算して補正フィルタ係数を更新し、この補正フィルタ係数を1個、前補正フィルタ係数として、補正フィルタメモリ7aに記憶する(ステップST109)。次に、補正フィルタ相関算出手段16は、前補正フィルタ係数及び後補正フィルタ係数の両方の補正フィルタ係数が得られたかを判定し(ステップST203)、得られていない場合はそのまま終了する。例えば、補正フィルタメモリ7aに前補正フィルタ係数は記憶されているが後補正フィルタ係数が得られていない場合は、そのまま終了する。また、ステップST202において、規定フレーム以上ではなかった場合は、そのまま終了する。また、実施の形態4では、ステップST109において補正フィルタ係数が記憶された場合、バックグラウンド処理として、雑音除去手段8は、この補正フィルタ係数に基づいて、雑音重畳音声パワースペクトルに係る推定雑音パワースペクトルを除去して、雑音除去音声パワースペクトルを生成する。
In step ST106, the noise superimposition voice power spectrum and the noise power spectrum are stored in the voice section
ステップST104において処理対象フレームが雑音区間であった場合、補正フィルタ係数更新手段6aは、雑音区間の処理対象フレームが音声区間直後のフレームから規定フレーム数以内であるかを判定する(ステップST105)。判定の結果、そうであった場合はステップST107へ、そうでない場合はステップST108に移行する。補正フィルタ係数更新手段6aは、ステップST107において、雑音重畳音声パワースペクトル及び雑音パワースペクトルが、規定フレーム数分、補正フィルタ係数更新用スペクトルメモリ11に記憶できたかどうかを判定し、一方、ステップST108においては、補正フィルタ係数更新用スペクトルメモリ11をクリアする。
When the processing target frame is a noise section in step ST104, the correction filter
ステップST107において、規定フレーム数を記憶できていれば、補正フィルタ係数更新手段6aは、雑音重畳音声パワースペクトルの規定フレーム数分の平均パワースペクトルを雑音パワースペクトルの規定フレーム数分の平均パワースペクトルで除算して補正フィルタ係数を更新し、補正フィルタメモリ7aに後補正フィルタ係数としてこれを1個記憶させる(ステップST109)。尚、ステップST109において、前補正フィルタ係数と後補正フィルタ係数とは別々に記憶するものとする。一方、ステップST107において、規定フレーム数記憶できていない場合は、補正フィルタ係数更新用スペクトルメモリ11に、雑音重畳音声パワースペクトル及び雑音パワースペクトルを記憶する(ステップST110)。
If the specified number of frames can be stored in step ST107, the correction filter
次に、補正フィルタ相関算出手段16は、補正フィルタメモリ7aに前補正フィルタ係数と後補正フィルタ係数の両方の補正フィルタ係数が記憶されているかを判定し(ステップST203)、そうであった場合は、これら前補正フィルタ係数と後補正フィルタ係数の相関があるかを判定する(ステップST401,ST402)。この相関係数rの算出式は下式(6)のようになる。
ステップST402において、補正フィルタ相関算出手段16が相関があると判定した場合、雑音除去手段8は、前補正フィルタ係数を用いて処理した雑音除去音声パワースペクトルを出力する(ステップST403)。一方、ステップST402において、相関がないと判定した場合、補正フィルタ相関算出手段16は、前補正フィルタ係数を後補正フィルタ係数で更新して、これを補正フィルタ係数として補正フィルタメモリ7aに記憶する(ステップST404)。そして、雑音除去手段8は、更新された補正フィルタ係数を用いた雑音除去音声パワースペクトルを出力する(ステップST405)。
In step ST402, when the correction filter
以上では雑音推定及び雑音除去方法を2入力SSで説明したが、1入力SSへの適用も可能である。この場合、平均雑音パワースペクトルを音声区間直前と音声区間直後で計算することで、1入力SSへの適用を実現することができる。1入力SSへの適用については前述したので説明を省略する。 Although the noise estimation and noise removal method has been described above with a two-input SS, application to a one-input SS is also possible. In this case, application to 1-input SS can be realized by calculating the average noise power spectrum immediately before and after the speech interval. Since the application to the one-input SS has been described above, the description thereof will be omitted.
尚、上記実施の形態では、前補正フィルタ係数と後補正フィルタ係数を両方共補正フィルタメモリ7aに記憶させ、補正フィルタ相関算出手段16は、補正フィルタメモリ7aから両方の補正フィルタ係数と取り出して相関を算出するようにしたが、補正フィルタ係数更新手段6aが後補正フィルタ係数を更新した場合、補正フィルタメモリ7aに記憶されている前補正フィルタ係数を取り出して相関を算出するようにしてもよい。このように構成することにより、補正フィルタメモリ7a内に後補正フィルタ係数を記憶させるための領域を不要とすることができる。
In the above embodiment, both the pre-correction filter coefficient and the post-correction filter coefficient are stored in the
以上のように、実施の形態4の雑音除去装置によれば、雑音重畳音声を入力し、雑音重畳音声データを出力する雑音重畳音声入力手段と、雑音を入力し、雑音データを出力する雑音入力手段と、雑音重畳音声データを入力し、音声区間か雑音区間かを判定する音声区間判定手段と、音声区間判定手段が音声区間の直前の雑音区間と判定した場合に、音声区間直前の雑音区間から、雑音重畳音声データと雑音データとの間における周波数特性の差異を補正するための前補正フィルタの係数を更新すると共に、音声区間直後の雑音区間と判定した場合に、音声区間直後の雑音区間から、雑音重畳音声データと雑音データとの間における周波数特性の差異を補正するための後補正フィルタの係数を更新する補正フィルタ係数更新手段と、前補正フィルタ係数と後補正フィルタ係数との相関を算出する補正フィルタ相関算出手段と、補正フィルタ相関算出手段で前補正フィルタ係数と後補正フィルタ係数との間に相関があった場合、前補正フィルタ係数を用いて、音声区間における雑音重畳音声データから雑音データを除去した雑音除去音声を出力する雑音除去手段とを備えたので、前補正フィルタ係数と後補正フィルタ係数との間に相関がある場合に、前補正フィルタ係数による雑音除去音声を出力することができるため、より早く雑音除去音声を出力することが可能である。 As described above, according to the noise removal apparatus of the fourth embodiment, noise superimposed voice input means for inputting noise superimposed voice and outputting noise superimposed voice data, and noise input for inputting noise and outputting noise data Means, a speech section determination means for determining whether the speech section is a noise section by inputting noise-superimposed speech data, and a noise section immediately before the speech section when the speech section determination means determines that the noise section is immediately before the speech section. To update the coefficient of the pre-correction filter for correcting the frequency characteristic difference between the noise-superimposed speech data and the noise data, and determine the noise interval immediately after the speech interval, A correction filter coefficient updating means for updating a coefficient of a post-correction filter for correcting a difference in frequency characteristics between the noise-superimposed speech data and the noise data, and a pre-correction filter. The correction filter correlation calculating means for calculating the correlation between the pre-correction filter coefficient and the post-correction filter coefficient. Using noise removal means for outputting noise-removed speech obtained by removing noise data from noise-superimposed speech data in a speech section, so that there is a correlation between the pre-correction filter coefficient and the post-correction filter coefficient, Since the noise-removed voice based on the pre-correction filter coefficient can be output, the noise-removed voice can be output earlier.
実施の形態5.
実施の形態5は、補正フィルタメモリ7に記憶されている複数の補正フィルタ係数の重み付け平均をとるようにしたものである。
図15は、実施の形態5の雑音除去装置の構成図である。
図において、雑音除去装置は、雑音重畳音声入力手段1、雑音入力手段2、音声区間判定手段3a、雑音重畳音声スペクトル演算手段4、雑音スペクトル演算手段5、補正フィルタ係数更新手段6a、補正フィルタメモリ7b、雑音除去手段8、初期状態判定手段9、音声区間パワースペクトルメモリ10、補正フィルタ係数更新用スペクトルメモリ11、前補正フィルタ作成用データメモリ12、補正フィルタ係数重み付け平均算出手段17からなる。補正フィルタメモリ7bは、前補正フィルタ係数及び後補正フィルタ係数が時系列に複数記憶されるメモリである。補正フィルタ係数重み付け平均算出手段17は、補正フィルタメモリ7bに記憶されている時系列の補正フィルタ係数の重み付け平均を算出する手段である。それ以外の構成は、実施の形態2と同様であるため、対応する部分に同一符号を付してその説明を省略する。
In the fifth embodiment, a weighted average of a plurality of correction filter coefficients stored in the
FIG. 15 is a configuration diagram of the noise removal device of the fifth embodiment.
In the figure, the noise removing apparatus includes a noise superimposed voice input means 1, a noise input means 2, a voice section determination means 3a, a noise superimposed voice spectrum calculation means 4, a noise spectrum calculation means 5, a correction filter coefficient update means 6a, a correction filter memory. 7b, noise removal means 8, initial state determination means 9, speech section
次に、実施の形態5の雑音除去装置の動作について説明する。
図16及び図17は、実施の形態5の動作を示すフローチャートであり、以下、このフローチャートに沿って動作を説明する。図中のステップST101〜ステップST111の処理は、実施の形態1におけるステップST101〜ステップST111の処理と同様の内容であることを示している。また、図中のステップST201〜ステップST202は、実施の形態2におけるステップST201〜ステップST202の処理と同様の内容であることを示している。
Next, the operation of the noise removal apparatus according to the fifth embodiment will be described.
FIGS. 16 and 17 are flowcharts showing the operation of the fifth embodiment. Hereinafter, the operation will be described with reference to this flowchart. The process of step ST101-step ST111 in the figure has shown that it is the same content as the process of step ST101-step ST111 in
雑音重畳音声入力手段1及び雑音入力手段2は、それぞれ雑音重畳音声及び雑音を入力し、雑音重畳音声データ及び雑音データを出力する(ステップST101)。次に、雑音重畳音声スペクトル演算手段4及び雑音スペクトル演算手段5は、それぞれ雑音重畳音声データ及び雑音データを入力し、これらデータを周波数変換して雑音重畳音声パワースペクトル及び雑音パワースペクトルを時系列として出力する(ステップST102)。 The noise superimposed voice input means 1 and the noise input means 2 respectively input the noise superimposed voice and noise, and output the noise superimposed voice data and noise data (step ST101). Next, the noise superimposed voice spectrum calculation means 4 and the noise spectrum calculation means 5 are inputted with noise superimposed voice data and noise data, respectively, and frequency-converted these data to make the noise superimposed voice power spectrum and noise power spectrum as time series. Output (step ST102).
また、雑音重畳音声入力手段1が出力する雑音重畳音声データは、前補正フィルタ作成用データメモリ12に記憶され(ステップST201)、音声区間判定手段3は、前補正フィルタ作成用データメモリ12が記憶している雑音重畳音声データを入力として音声区間を判定し、処理対象フレームが音声区間なのか雑音区間なのかの区間情報を出力する(ステップST103)。ステップST103における判定の結果が雑音区間であった場合はステップST105へ、判定結果が音声区間ならばステップST106に移行する(ステップST104)。
Also, the noise superimposed voice data output from the noise superimposed voice input means 1 is stored in the pre-correction filter creation data memory 12 (step ST201), and the voice section determination means 3 is stored in the pre-correction filter
ステップST106においては、初期状態判定手段9によって雑音重畳音声パワースペクトル及び雑音パワースペクトルが音声区間パワースペクトルメモリ10に記憶されると共に、音声区間判定手段3aは、前補正フィルタ作成用データメモリ12内の雑音区間は音声区間直前から規定フレーム以上であるかを判定する(ステップST202)。ステップST202において、規定フレーム以上であった場合、補正フィルタ係数更新手段6aは、雑音重畳音声パワースペクトルの平均を雑音パワースペクトルの平均で除算して補正フィルタ係数を更新し、この補正フィルタ係数を1個、前補正フィルタ係数として、補正フィルタメモリ7bに記憶する(ステップST109)。
In step ST106, the noise superimposition voice power spectrum and the noise power spectrum are stored in the voice section
また、ステップST104において処理対象フレームが雑音区間であった場合、補正フィルタ係数更新手段6aは、雑音区間の処理対象フレームが音声区間直後のフレームから規定フレーム数以内であるかを判定する(ステップST105)。判定の結果、そうであった場合はステップST107へ、そうでない場合はステップST108に移行する。補正フィルタ係数更新手段6aは、ステップST107において、雑音重畳音声パワースペクトル及び雑音パワースペクトルが、規定フレーム数分、補正フィルタ係数更新用スペクトルメモリ11に記憶できたかどうかを判定し、一方、ステップST108においては、補正フィルタ係数更新用スペクトルメモリ11をクリアする。
Further, when the processing target frame is a noise section in step ST104, the correction filter
ステップST107において、規定フレーム数を記憶できていれば、ステップST109に移行し、補正フィルタ係数更新手段6aは、雑音重畳音声パワースペクトルの規定フレーム数分の平均パワースペクトルを雑音パワースペクトルの規定フレーム数分の平均パワースペクトルで除算して補正フィルタ係数を更新し、補正フィルタメモリ7bに後補正フィルタ係数としてこれを1個記憶させる。尚、ステップST109において、前補正フィルタ係数と後補正フィルタ係数とは別々にかつ時系列にそれぞれ複数記憶するものとする。一方、ステップST107において、規定フレーム数記憶できていない場合は、補正フィルタ係数更新用スペクトルメモリ11に、雑音重畳音声パワースペクトル及び雑音パワースペクトルを記憶する(ステップST110)。
If the specified number of frames can be stored in step ST107, the process proceeds to step ST109, and the correction filter coefficient updating means 6a calculates the average power spectrum for the specified number of frames of the noise superimposed speech power spectrum as the specified number of frames of the noise power spectrum. The correction filter coefficient is updated by dividing by the average power spectrum of minutes, and one correction filter coefficient is stored in the
次に、補正フィルタ係数重み付け平均算出手段17は、補正フィルタメモリ7bに記憶された複数の補正フィルタ係数に重み付けを行って加算平均を算出し、補正フィルタ係数を更新し、平均補正フィルタ係数として補正フィルタメモリ7bに記憶する(ステップST501)。例えば、重み付けは、時系列の過去の補正フィルタ係数ほど小さな値の重みを乗算することで時系列の現在に近い補正フィルタ係数を重視するようにし、補正フィルタメモリ7に記憶されている補正フィルタ係数の平均を算出する。補正フィルタメモリ7には、例えば式(7)のように重み付けを行った補正フィルタ係数H(i)を格納する。
ステップST501において、係数を更新した平均補正フィルタ係数を記憶した後、雑音除去手段8は補正フィルタメモリ7に記憶された平均補正フィルタ係数を用いて雑音重畳音声パワースペクトルに係る推定雑音パワースペクトルを除去して、雑音除去音声パワースペクトルを時系列に出力する(ステップST111)。
In step ST501, after storing the average corrected filter coefficient whose coefficient has been updated, the
以上では雑音推定及び雑音除去方法を2入力SSで説明したが、1入力SSへの適用も可能である。この場合、平均雑音パワースペクトルを音声区間直前と音声区間直後で計算することで、1入力SSへの適用を実現することができる。1入力SSへの適用については前述したので説明を省略する。 Although the noise estimation and noise removal method has been described above with a two-input SS, application to a one-input SS is also possible. In this case, application to 1-input SS can be realized by calculating the average noise power spectrum immediately before and after the speech interval. Since the application to the one-input SS has been described above, the description thereof will be omitted.
以上のように、実施の形態5の雑音除去装置によれば、雑音重畳音声を入力し、雑音重畳音声データを出力する雑音重畳音声入力手段と、雑音を入力し、雑音データを出力する雑音入力手段と、雑音重畳音声データを入力し、音声区間か雑音区間かを判定する音声区間判定手段と、音声区間判定手段が音声区間の直前の雑音区間と判定した場合に、音声区間直前の雑音区間から、雑音重畳音声データと雑音データとの間における周波数特性の差異を補正するための前補正フィルタの係数を更新すると共に、音声区間直後の雑音区間と判定した場合に、音声区間直後の雑音区間から、雑音重畳音声データと雑音データとの間における周波数特性の差異を補正するための後補正フィルタの係数を更新する補正フィルタ係数更新手段と、前補正フィルタ係数及び後補正フィルタ係数に対し、これら係数が得られた時系列に従って重み付けを行って複数の前補正フィルタ係数及び後補正フィルタ係数の平均を算出し、平均補正フィルタ係数として出力する補正フィルタ係数重み付け平均算出手段と、平均補正フィルタ係数を用いて、音声区間における雑音重畳音声データから雑音データを除去する雑音除去手段とを備えたので、過去に更新した補正フィルタ係数も用いることで、より正確に音声重畳雑音を推定可能な補正フィルタを作成することができる。 As described above, according to the noise removal apparatus of the fifth embodiment, the noise superimposed voice input unit that inputs noise superimposed voice and outputs noise superimposed voice data, and the noise input that inputs noise and outputs noise data Means, a speech section determination means for determining whether the speech section is a noise section by inputting noise-superimposed speech data, and a noise section immediately before the speech section when the speech section determination means determines that the noise section is immediately before the speech section. To update the coefficient of the pre-correction filter for correcting the frequency characteristic difference between the noise-superimposed speech data and the noise data, and determine the noise interval immediately after the speech interval, A correction filter coefficient updating means for updating a coefficient of a post-correction filter for correcting a difference in frequency characteristics between the noise-superimposed speech data and the noise data, and a pre-correction filter. Correction filter coefficients that are weighted according to the time series from which these coefficients are obtained to calculate an average of a plurality of pre-correction filter coefficients and post-correction filter coefficients, and output as average correction filter coefficients Since the weighted average calculating means and the noise removing means for removing the noise data from the noise-superimposed speech data in the speech section using the average correction filter coefficient are provided, the correction filter coefficient updated in the past is also used for more accurate It is possible to create a correction filter capable of estimating the voice superimposed noise.
尚、上記実施の形態5では、実施の形態2や実施の形態4と同様に、音声区間の前後の補正フィルタ係数を求めるようにしたが、実施の形態1で示したように、後補正フィルタ係数のみを補正フィルタメモリに記憶する構成に対して重み付け平均を行ってもよい。 In the fifth embodiment, the correction filter coefficients before and after the speech section are obtained as in the second and fourth embodiments. However, as shown in the first embodiment, the post-correction filter coefficient is obtained. A weighted average may be performed on a configuration in which only the coefficients are stored in the correction filter memory.
また、上記実施の形態3では、ボタン押下タイミング入力手段からの押下タイミングに基づいて音声区間を判定した後、得られた雑音除去音声データを用いて音声区間を再判定するようにしたが、実施の形態1,2,4,5においても、得られた雑音除去音声データを用いて音声区間を再判定するよう構成してもよい。即ち、これら実施の形態において、実施の形態3の雑音除去音声データ演算手段を設け、この出力で音声区間判定手段が音声区間の再判定を行うよう構成してもよい。このような構成により、実施の形態1,2,4,5においても更に精度の高い音声区間検出の実現が可能であり、従って、より精度の高い雑音除去を実現することができる。 In the third embodiment, after determining the voice section based on the pressing timing from the button pressing timing input means, the voice section is re-determined using the obtained noise-removed voice data. In the first, second, fourth, and fifth embodiments, the speech section may be re-determined using the obtained noise-removed speech data. That is, in these embodiments, the noise-removed voice data calculation means of the third embodiment may be provided, and the voice section determination means may perform redetermination of the voice section by this output. With such a configuration, it is possible to realize voice segment detection with higher accuracy in the first, second, fourth, and fifth embodiments, and it is therefore possible to realize noise removal with higher accuracy.
1 雑音重畳音声入力手段、2 雑音入力手段、3,3a,3b 音声区間判定手段、6,6a 補正フィルタ係数更新手段、7,7a,7b 補正フィルタメモリ7、8 雑音除去手段、13 補正フィルタ係数合成手段、14 ボタン押下タイミング入力手段、15 雑音除去音声データ演算手段、16 補正フィルタ相関算出手段、17 補正フィルタ係数重み付け平均算出手段。
DESCRIPTION OF
Claims (5)
雑音を入力し、雑音データを出力する雑音入力手段と、
前記雑音重畳音声データを入力し、音声区間か雑音区間かを判定する音声区間判定手段と、
前記音声区間判定手段が音声区間の直後の雑音区間と判定した場合に、当該音声区間直後の雑音区間から、前記雑音重畳音声データと前記雑音データとの間における周波数特性の差異を補正するための補正フィルタの係数を更新する補正フィルタ係数更新手段と、
前記補正フィルタ係数を用いて、音声区間における前記雑音重畳音声データから前記雑音データを除去する雑音除去手段とを備えた雑音除去装置。 Noise superimposed voice input means for inputting noise superimposed voice and outputting noise superimposed voice data;
Noise input means for inputting noise and outputting noise data;
Voice interval determination means for inputting the noise-superimposed voice data and determining whether it is a voice interval or a noise interval;
When the speech section determination means determines that the noise section is immediately after the speech section, the noise section immediately after the speech section is used to correct a frequency characteristic difference between the noise superimposed speech data and the noise data. Correction filter coefficient updating means for updating the coefficient of the correction filter;
A noise removal device comprising: noise removal means for removing the noise data from the noise-superimposed speech data in a speech section using the correction filter coefficient.
雑音を入力し、雑音データを出力する雑音入力手段と、
前記雑音重畳音声データを入力し、音声区間か雑音区間かを判定する音声区間判定手段と、
前記音声区間判定手段が音声区間の直前の雑音区間と判定した場合に、当該音声区間直前の雑音区間から、前記雑音重畳音声データと前記雑音データとの間における周波数特性の差異を補正するための前補正フィルタの係数を更新すると共に、音声区間直後の雑音区間と判定した場合に、当該音声区間直後の雑音区間から、前記雑音重畳音声データと前記雑音データとの間における周波数特性の差異を補正するための後補正フィルタの係数を更新する補正フィルタ係数更新手段と、
前記前補正フィルタ係数と前記後補正フィルタ係数との平均を算出し、平均補正フィルタ係数として出力する補正フィルタ係数合成手段と、
前記平均補正フィルタ係数を用いて、音声区間における前記雑音重畳音声データから前記雑音データを除去する雑音除去手段とを備えた雑音除去装置。 Noise superimposed voice input means for inputting noise superimposed voice and outputting noise superimposed voice data;
Noise input means for inputting noise and outputting noise data;
Voice interval determination means for inputting the noise-superimposed voice data and determining whether it is a voice interval or a noise interval;
When the speech section determination unit determines that the noise section is immediately before the speech section, the noise section for correcting the frequency characteristic difference between the noise superimposed speech data and the noise data from the noise section immediately before the speech section. Updates the coefficient of the pre-correction filter and corrects the difference in frequency characteristics between the noise-superimposed speech data and the noise data from the noise section immediately after the speech section when it is determined that the noise section is immediately after the speech section. Correction filter coefficient updating means for updating the coefficient of the post-correction filter for performing,
A correction filter coefficient synthesizing unit that calculates an average of the pre-correction filter coefficient and the post-correction filter coefficient and outputs the average as the average correction filter coefficient;
A noise removal device comprising: noise removal means for removing the noise data from the noise-superimposed speech data in a speech section using the average correction filter coefficient.
雑音を入力し、雑音データを出力する雑音入力手段と、
音声入力時に押下されるボタンの押下タイミングを取得するボタン押下タイミング入力手段と、
前記ボタン押下タイミング入力手段による押下タイミングに基づき、前記雑音重畳音声データに対して音声区間か雑音区間かを判定する音声区間判定手段と、
前記音声区間判定手段が音声区間の直後の雑音区間と判定した場合に、当該音声区間直後の雑音区間から、前記雑音重畳音声データと前記雑音データとの間における周波数特性の差異を補正するための補正フィルタの係数を更新する補正フィルタ係数更新手段と、
前記補正フィルタ係数を用いて、音声区間における前記雑音重畳音声データから前記雑音データを除去する雑音除去手段とを備え、
前記音声区間判定手段は、前記ボタン押下タイミングに基づいて得られた雑音除去音声データを用いて音声区間と雑音区間の再判定を行い、前記補正フィルタ係数更新手段は、当該再判定の結果得られた音声区間と雑音区間に基づいて、前記補正フィルタの係数を再度更新することを特徴とする雑音除去装置。 Noise superimposed voice input means for inputting noise superimposed voice and outputting noise superimposed voice data;
Noise input means for inputting noise and outputting noise data;
Button pressing timing input means for acquiring a pressing timing of a button pressed at the time of voice input;
Based on the pressing timing by the button pressing timing input means, a voice section determining means for determining whether the noise superimposed voice data is a voice section or a noise section;
When the speech section determination means determines that the noise section is immediately after the speech section, the noise section immediately after the speech section is used to correct a frequency characteristic difference between the noise superimposed speech data and the noise data. Correction filter coefficient updating means for updating the coefficient of the correction filter;
Noise removing means for removing the noise data from the noise-superimposed speech data in a speech section using the correction filter coefficient;
The speech segment determination means re-determines a speech segment and a noise segment using noise-removed speech data obtained based on the button press timing, and the correction filter coefficient update unit obtains the result of the re-determination. A noise removing apparatus that updates the coefficient of the correction filter again based on the voice section and the noise section.
雑音を入力し、雑音データを出力する雑音入力手段と、
前記雑音重畳音声データを入力し、音声区間か雑音区間かを判定する音声区間判定手段と、
前記音声区間判定手段が音声区間の直前の雑音区間と判定した場合に、当該音声区間直前の雑音区間から、前記雑音重畳音声データと前記雑音データとの間における周波数特性の差異を補正するための前補正フィルタの係数を更新すると共に、音声区間直後の雑音区間と判定した場合に、当該音声区間直後の雑音区間から、前記雑音重畳音声データと前記雑音データとの間における周波数特性の差異を補正するための後補正フィルタの係数を更新する補正フィルタ係数更新手段と、
前記前補正フィルタ係数と前記後補正フィルタ係数との相関を算出する補正フィルタ相関算出手段と、
前記補正フィルタ相関算出手段で前記前補正フィルタ係数と前記後補正フィルタ係数との間に相関があった場合、前記前補正フィルタ係数を用いて、音声区間における前記雑音重畳音声データから前記雑音データを除去した雑音除去音声を出力する雑音除去手段とを備えた雑音除去装置。 Noise superimposed voice input means for inputting noise superimposed voice and outputting noise superimposed voice data;
Noise input means for inputting noise and outputting noise data;
Voice interval determination means for inputting the noise-superimposed voice data and determining whether it is a voice interval or a noise interval;
When the speech section determination unit determines that the noise section is immediately before the speech section, the noise section for correcting the frequency characteristic difference between the noise superimposed speech data and the noise data from the noise section immediately before the speech section. Updates the coefficient of the pre-correction filter and corrects the difference in frequency characteristics between the noise-superimposed speech data and the noise data from the noise section immediately after the speech section when it is determined that the noise section is immediately after the speech section. Correction filter coefficient updating means for updating the coefficient of the post-correction filter for performing,
Correction filter correlation calculating means for calculating a correlation between the pre-correction filter coefficient and the post-correction filter coefficient;
When there is a correlation between the pre-correction filter coefficient and the post-correction filter coefficient in the correction filter correlation calculating means, the noise data is calculated from the noise-superimposed speech data in the speech section using the pre-correction filter coefficient. A noise removing device comprising noise removing means for outputting the removed noise-removed speech.
雑音を入力し、雑音データを出力する雑音入力手段と、
前記雑音重畳音声データを入力し、音声区間か雑音区間かを判定する音声区間判定手段と、
前記音声区間判定手段が音声区間の直前の雑音区間と判定した場合に、当該音声区間直前の雑音区間から、前記雑音重畳音声データと前記雑音データとの間における周波数特性の差異を補正するための前補正フィルタの係数を更新すると共に、音声区間直後の雑音区間と判定した場合に、当該音声区間直後の雑音区間から、前記雑音重畳音声データと前記雑音データとの間における周波数特性の差異を補正するための後補正フィルタの係数を更新する補正フィルタ係数更新手段と、
前記前補正フィルタ係数及び前記後補正フィルタ係数に対し、これら係数が得られた時系列に従って重み付けを行って複数の前補正フィルタ係数及び後補正フィルタ係数の平均を算出し、平均補正フィルタ係数として出力する補正フィルタ係数重み付け平均算出手段と、
前記平均補正フィルタ係数を用いて、音声区間における雑音重畳音声データから雑音データを除去する雑音除去手段とを備えた雑音除去装置。 Noise superimposed voice input means for inputting noise superimposed voice and outputting noise superimposed voice data;
Noise input means for inputting noise and outputting noise data;
Voice interval determination means for inputting the noise-superimposed voice data and determining whether it is a voice interval or a noise interval;
When the speech section determination unit determines that the noise section is immediately before the speech section, the noise section for correcting the frequency characteristic difference between the noise superimposed speech data and the noise data from the noise section immediately before the speech section. Updates the coefficient of the pre-correction filter and corrects the difference in frequency characteristics between the noise-superimposed speech data and the noise data from the noise section immediately after the speech section when it is determined that the noise section is immediately after the speech section. Correction filter coefficient updating means for updating the coefficient of the post-correction filter for performing,
The average of a plurality of pre-correction filter coefficients and post-correction filter coefficients is calculated by weighting the pre-correction filter coefficients and the post-correction filter coefficients according to the time series in which these coefficients are obtained, and output as an average correction filter coefficient Correction filter coefficient weighted average calculating means to perform,
A noise removal device comprising noise removal means for removing noise data from noise-superimposed speech data in a speech section using the average correction filter coefficient.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007047580A JP4818955B2 (en) | 2007-02-27 | 2007-02-27 | Noise removal device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007047580A JP4818955B2 (en) | 2007-02-27 | 2007-02-27 | Noise removal device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008209768A true JP2008209768A (en) | 2008-09-11 |
JP4818955B2 JP4818955B2 (en) | 2011-11-16 |
Family
ID=39786103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007047580A Expired - Fee Related JP4818955B2 (en) | 2007-02-27 | 2007-02-27 | Noise removal device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4818955B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2466286A (en) * | 2008-12-18 | 2010-06-23 | Nokia Corp | Combining frequency coefficients based on at least two mixing coefficients which are determined on statistical characteristics of the audio signal |
WO2012014451A1 (en) * | 2010-07-26 | 2012-02-02 | パナソニック株式会社 | Multi-input noise suppresion device, multi-input noise suppression method, program, and integrated circuit |
US8948417B2 (en) | 2011-03-31 | 2015-02-03 | Kabushiki Kaisha Toshiba | Characteristic correcting device and characteristic correcting method |
US9030240B2 (en) | 2010-11-24 | 2015-05-12 | Nec Corporation | Signal processing device, signal processing method and computer readable medium |
KR101624652B1 (en) * | 2009-11-24 | 2016-05-26 | 삼성전자주식회사 | Method and Apparatus for removing a noise signal from input signal in a noisy environment, Method and Apparatus for enhancing a voice signal in a noisy environment |
JP2018036431A (en) * | 2016-08-30 | 2018-03-08 | 富士通株式会社 | Voice processing program, voice processing method and voice processing device |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03269498A (en) * | 1990-03-19 | 1991-12-02 | Ricoh Co Ltd | Noise removal system |
JPH11202894A (en) * | 1998-01-20 | 1999-07-30 | Mitsubishi Electric Corp | Noise removing device |
JP2001318687A (en) * | 2000-02-28 | 2001-11-16 | Mitsubishi Electric Corp | Speech recognition device |
-
2007
- 2007-02-27 JP JP2007047580A patent/JP4818955B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03269498A (en) * | 1990-03-19 | 1991-12-02 | Ricoh Co Ltd | Noise removal system |
JPH11202894A (en) * | 1998-01-20 | 1999-07-30 | Mitsubishi Electric Corp | Noise removing device |
JP2001318687A (en) * | 2000-02-28 | 2001-11-16 | Mitsubishi Electric Corp | Speech recognition device |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2466286A (en) * | 2008-12-18 | 2010-06-23 | Nokia Corp | Combining frequency coefficients based on at least two mixing coefficients which are determined on statistical characteristics of the audio signal |
KR101624652B1 (en) * | 2009-11-24 | 2016-05-26 | 삼성전자주식회사 | Method and Apparatus for removing a noise signal from input signal in a noisy environment, Method and Apparatus for enhancing a voice signal in a noisy environment |
WO2012014451A1 (en) * | 2010-07-26 | 2012-02-02 | パナソニック株式会社 | Multi-input noise suppresion device, multi-input noise suppression method, program, and integrated circuit |
US8824700B2 (en) | 2010-07-26 | 2014-09-02 | Panasonic Corporation | Multi-input noise suppression device, multi-input noise suppression method, program thereof, and integrated circuit thereof |
US9030240B2 (en) | 2010-11-24 | 2015-05-12 | Nec Corporation | Signal processing device, signal processing method and computer readable medium |
US8948417B2 (en) | 2011-03-31 | 2015-02-03 | Kabushiki Kaisha Toshiba | Characteristic correcting device and characteristic correcting method |
JP2018036431A (en) * | 2016-08-30 | 2018-03-08 | 富士通株式会社 | Voice processing program, voice processing method and voice processing device |
Also Published As
Publication number | Publication date |
---|---|
JP4818955B2 (en) | 2011-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4818955B2 (en) | Noise removal device | |
JP4162604B2 (en) | Noise suppression device and noise suppression method | |
US7970609B2 (en) | Method of estimating sound arrival direction, sound arrival direction estimating apparatus, and computer program product | |
JP5092748B2 (en) | Noise suppression method and apparatus, and computer program | |
US20070232257A1 (en) | Noise suppressor | |
RU2127454C1 (en) | Method for noise suppression | |
US9773510B1 (en) | Correcting clock drift via embedded sine waves | |
KR20100045935A (en) | Noise suppression device and noise suppression method | |
JP5838861B2 (en) | Audio signal processing apparatus, method and program | |
JP5423684B2 (en) | Voice band extending apparatus and voice band extending method | |
US20080247557A1 (en) | Information Processing Apparatus and Program | |
CN102612711A (en) | Signal processing method, information processor, and signal processing program | |
US11622208B2 (en) | Apparatus and method for own voice suppression | |
JP5232121B2 (en) | Signal processing device | |
JP6221257B2 (en) | Signal processing apparatus, method and program | |
JP4568193B2 (en) | Sound collecting apparatus and method, program and recording medium | |
JP2012177828A (en) | Noise detection device, noise reduction device, and noise detection method | |
JP5126145B2 (en) | Bandwidth expansion device, method and program, and telephone terminal | |
JP2010237269A (en) | Speech recognition device, and method thereof and program thereof | |
CN114495962A (en) | Audio noise reduction method, device and system and computer readable storage medium | |
JP2002175099A (en) | Method and device for noise suppression | |
JP6221258B2 (en) | Signal processing apparatus, method and program | |
JP4529580B2 (en) | Period detection method and period detection apparatus for periodic signal | |
JP6295650B2 (en) | Audio signal processing apparatus and program | |
CN110931038B (en) | Voice enhancement method, device, equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080707 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110523 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110720 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110823 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110831 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140909 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |