JP7159767B2 - Audio signal processing program, audio signal processing method, and audio signal processing device - Google Patents
Audio signal processing program, audio signal processing method, and audio signal processing device Download PDFInfo
- Publication number
- JP7159767B2 JP7159767B2 JP2018189754A JP2018189754A JP7159767B2 JP 7159767 B2 JP7159767 B2 JP 7159767B2 JP 2018189754 A JP2018189754 A JP 2018189754A JP 2018189754 A JP2018189754 A JP 2018189754A JP 7159767 B2 JP7159767 B2 JP 7159767B2
- Authority
- JP
- Japan
- Prior art keywords
- value
- complex filter
- difference
- frequency spectrum
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、音声信号処理プログラム、音声信号処理方法及び音声信号処理装置に関する。 The present invention relates to an audio signal processing program, an audio signal processing method, and an audio signal processing apparatus.
例えば、非一時的記録媒体に記録されている音声に対して、音声認識技術を適用して、発話内容及び発話時間を取得し、発話内容を表す字幕を作成したり、発話内容から特定の用語を検索することが可能なコーパスを作成したりする技術が存在する。しかしながら、非一時的記録媒体に記録されている音声に雑音が含まれている場合、音声認識精度が低下する。 For example, by applying speech recognition technology to the voice recorded in a non-temporary recording medium, acquiring the utterance content and the utterance time, creating subtitles that express the utterance content, or identifying specific terms from the utterance content There are technologies for creating a corpus that can be searched for. However, if the voice recorded on the non-temporary recording medium contains noise, the voice recognition accuracy is lowered.
例えば、音声を収音する際に、複数のマイクを使用して、音声の到来方向を取得することで、雑音を除去する技術が存在する。しかしながら、一般的に、非一時的記録媒体に記録されている音声を収音した際のマイクに関する情報は不明であるため、非一時的記録媒体に記録されている音声に対して、当該技術を使用することは困難である。 For example, there is a technology that removes noise by using multiple microphones to acquire the direction of arrival of the sound when collecting the sound. However, in general, the information about the microphone used to pick up the sound recorded on the non-temporary recording medium is unknown, so this technology can be applied to the sound recorded on the non-temporary recording medium. Difficult to use.
音声を収音する際に使用されたマイクの配置に関する情報を使用することなく雑音を除去する技術として、例えば、音声信号を使用して雑音除去フィルタを生成し、音声信号の振幅スペクトルに生成した雑音除去フィルタを適用する技術が存在する。 Techniques for removing noise without using information about the placement of the microphones used to pick up the sound, such as using the speech signal to generate a noise removal filter and generating it on the amplitude spectrum of the speech signal. Techniques exist to apply denoising filters.
しかしながら、信号対雑音比が小さく、かつ、雑音が抽出対象の音声に類似している場合、音声の振幅スペクトルに雑音除去フィルタを適用しても、音声から雑音を適切に除去することは困難である。雑音が抽出対象の音声に類似している場合とは、例えば、雑音が抽出対象の話者以外の話者の発話などである場合である。位相スペクトルにも雑音除去フィルタを適用することで、音声から雑音を適切に除去することは可能となるが、処理負荷が増大する。 However, when the signal-to-noise ratio is small and the noise is similar to the speech to be extracted, it is difficult to properly remove the noise from the speech by applying a noise removal filter to the amplitude spectrum of the speech. be. A case where the noise is similar to the extraction target speech is, for example, a case where the noise is an utterance of a speaker other than the extraction target speaker. By applying the noise removal filter to the phase spectrum as well, it is possible to remove noise from speech appropriately, but the processing load increases.
本発明は、1つの側面として、処理負荷を抑制しつつ、音声から雑音を適切に除去することを可能とすることを目的とする。 An object of the present invention, as one aspect, is to make it possible to appropriately remove noise from speech while suppressing the processing load.
1つの実施形態では、音声信号に対して時間周波数変換を行い、音声信号に対応する周波数スペクトルを取得し、取得した周波数スペクトルに基づいて、音声信号に含まれる雑音成分を除去する複素数フィルタを生成する。複素数フィルタの実部の値と第1の値との比較、及び、複素数フィルタの虚部の値と第2の値との比較、の少なくとも一方を行う。第1の値は雑音成分が存在しない場合に生成される複素数フィルタの実部の値であり、第2の値は雑音成分が存在しない場合に生成される複素数フィルタの虚部の値である。実部の値と第1の値との相違が小さい場合、周波数スペクトルに複素数フィルタの振幅成分を適用し、実部の値と第1の値との相違が小さくない場合、周波数スペクトルに複素数フィルタの振幅成分及び位相成分を適用することを決定する。または、虚部の値と前記第2の値との相違が小さい場合、周波数スペクトルに複素数フィルタの振幅成分を適用し、虚部の値と第2の値との相違が小さくない場合、周波数スペクトルに複素数フィルタの振幅成分及び位相成分を適用することを決定する。または、実部の値と第1の値との相違が小さく、虚部の値と第2の値との相違が小さい場合、周波数スペクトルに複素数フィルタの振幅成分を適用することを決定する。この場合、実部の値と第1の値との相違が小さくないか、または、虚部の値と第2の値との相違が小さくない場合、周波数スペクトルに複素数フィルタの振幅成分及び位相成分を適用することを決定する。 In one embodiment, time-frequency transform is performed on an audio signal to obtain a frequency spectrum corresponding to the audio signal, and based on the obtained frequency spectrum, a complex filter for removing noise components included in the audio signal is generated. do. At least one of comparing the value of the real part of the complex filter with the first value and comparing the value of the imaginary part of the complex filter with the second value. The first value is the value of the real part of the complex filter generated in the absence of the noise component and the second value is the value of the imaginary part of the complex filter generated in the absence of the noise component. applying an amplitude component of a complex filter to the frequency spectrum if the difference between the value of the real part and the first value is small, and applying a complex filter to the frequency spectrum if the difference between the value of the real part and the first value is not small; We decide to apply the amplitude and phase components of . or applying the amplitude component of a complex filter to the frequency spectrum if the difference between the value of the imaginary part and the second value is small, and if the difference between the value of the imaginary part and the second value is not small, the frequency spectrum We decide to apply the amplitude and phase components of the complex filter to . Alternatively, if the difference between the value of the real part and the first value is small and the difference between the value of the imaginary part and the second value is small, it is decided to apply the amplitude component of the complex filter to the frequency spectrum. In this case, if the difference between the value of the real part and the first value is not small, or the difference between the value of the imaginary part and the second value is not small, the frequency spectrum will include the amplitude and phase components of the complex filter. decides to apply
本発明は、1つの側面として、処理負荷を抑制しつつ、音声から雑音を適切に除去することを可能とする。 As one aspect of the present invention, it is possible to appropriately remove noise from speech while suppressing the processing load.
以下、図面を参照して実施形態の一例を詳細に説明する。 An example of an embodiment will be described in detail below with reference to the drawings.
図1に示す音声信号処理装置10は、音声入力部12、時間周波数変換部14、複素数フィルタ生成部16、フィルタ判定部18、フィルタ適用成分決定部20、フィルタ適用部22、時間周波数逆変換部24、及び、音声出力部26を含む。音声入力部12は、入力される音声を音声信号に変換する。
The audio
時間周波数変換部14は、1フレーム分の音声信号に対して時間周波数変換を行い、周波数スペクトルに変換する。時間周波数変換は、例えば、Fast Fourier Transformation(以下、FFTという。)であってよく、1フレームは、例えば、10m秒であってよい。
The time-
複素数フィルタ生成部16は、例えば、Nフレーム分の周波数スペクトルを使用して、当該周波数スペクトルに対応する音声に含まれる雑音を除去する複素数フィルタを生成する。Nは、例えば、100であってよい。複素数フィルタMは、例えば、(1)式で表される。
M=F(Y) …(1)
The complex
M=F(Y) (1)
Yは周波数スペクトルであり、Fは複素数フィルタの生成モデルである。生成モデルは、例えば、図2に例示するように、Denoising Autoencoder(以下、DAEという。)44などであってよい。DAE44は、入力される情報を圧縮するエンコーダと、情報を展開して出力するデコーダとを含み、情報を一旦圧縮することで、不要な情報である雑音を除去する。
Y is the frequency spectrum and F is the generative model of the complex filter. The generative model may be, for example, a Denoising Autoencoder (hereinafter referred to as DAE) 44, as illustrated in FIG. The
DAE44の入力は、雑音信号42及び音声信号41を含む信号をFFT43で時間周波数変換することで取得されたNフレーム分の周波数スペクトルであり、1フレーム分の周波数スペクトルは周波数サンプル数のデータを含む。周波数サンプル数は、例えば、256であってよい。DAE44の出力は、データ数分の複素数フィルタである。複素数フィルタをFFT43で取得された周波数スペクトルに適用し、逆FFT部45で時間周波数逆変換することで、音声信号46を取得する。
The input of the
音声信号41と音声信号46とが等しくなるように、DAE44を学習させる。音声信号41は、例えば、抽出対象の話者の発話に対応する音声信号であり、雑音信号42は、例えば、抽出対象の話者以外の話者の発話に対応する音声信号などである。なお、生成モデルは、DAEに限定されない。既存の、雑音成分を含む音声信号に基づいて、複素数フィルタを生成するモデルであってよい。
The DAE 44 is trained so that the
フィルタ判定部18は、複素数フィルタの実部に基づいて、複素数フィルタの生成に使用された音声信号に含まれる雑音成分の大きさを判定する。複素数フィルタMは、例えば、(2)式で表される。
M=F(Y)=a+bi …(2)
Based on the real part of the complex filter, the
M=F(Y)=a+bi (2)
周波数スペクトルYに対応する音声信号が雑音成分を含まない場合、実部a=1.0、虚部b=0.0となる。周波数スペクトルYに対応する音声信号に含まれる雑音成分が少ないほど、実部aは第1の値の一例である1.0に近付き、虚部bは第2の値の一例である0.0に近付く。 When the speech signal corresponding to the frequency spectrum Y does not contain noise components, the real part a=1.0 and the imaginary part b=0.0. As the noise component included in the audio signal corresponding to the frequency spectrum Y decreases, the real part a approaches 1.0, which is an example of the first value, and the imaginary part b approaches 0.0, which is an example of the second value. approach.
したがって、生成される複素数フィルタMの実部aが1.0に近いほど、音声信号に含まれる雑音成分が少なく、実部が1.0から離れるほど、音声信号に含まれる雑音成分が多い、と判定することができる。詳細には、例えば、(3)式で、雑音判定値を算出する。
雑音判定値=1.0-(複素数フィルタの実部の平均値)…(3)
Therefore, the closer the real part a of the generated complex filter M is to 1.0, the smaller the noise component included in the speech signal, and the further away the real part is from 1.0, the more the noise component included in the speech signal. can be determined. Specifically, for example, the noise determination value is calculated by the equation (3).
Noise judgment value = 1.0 - (average value of real part of complex number filter) (3)
複素数フィルタの実部の平均値は、生成される複素数フィルタの実部aを加算し、複素数フィルタの数で除算することで算出することができる。 The average value of the real parts of the complex filters can be calculated by adding the real parts a of the generated complex filters and dividing by the number of complex filters.
フィルタ適用成分決定部20は、雑音判定値に基づいて、周波数スペクトルに、複素数フィルタの振幅成分を適用するか、振幅成分及び位相成分を適用するか、を決定する。例えば、雑音判定値が、第1所定値以下である場合、複素数フィルタの振幅成分を適用し、雑音判定値が、第1所定値より大きい場合、複素数フィルタの振幅成分及び位相成分を適用する、と決定する。第1所定値は、例えば、0.30であってよい。
Based on the noise determination value, the filter-applied
即ち、フィルタ適用成分決定部20は、音声信号の雑音成分が少ないと判定された場合、周波数スペクトルに、複素数フィルタの振幅成分を適用することを決定する。また、フィルタ適用成分決定部20は、音声信号の雑音成分が多いと判定された場合、周波数スペクトルに、複素数フィルタの振幅成分だけでなく、位相成分も併せて適用することを決定する。
That is, when it is determined that the noise component of the speech signal is small, the filter applied
フィルタ生成モデルによって生成される複素数フィルタは一般的に誤差を含み、誤差を含む複素数フィルタの振幅成分だけを適用する場合、処理負荷を軽減することができるが、雑音除去性能は低減する。一方、複素数フィルタの振幅成分及び位相成分を適用する場合、雑音除去性能は増大するが、処理負荷も増大する。一般的な音声認識エンジンは、音声信号に許容量以下の雑音成分が存在しても、音声を適切に認識することができる。したがって、複素数フィルタの振幅成分だけを適用することで残存する雑音成分が許容量以下であれば、処理負荷を軽減するために、振幅成分だけを適用することは有用である。 The complex filter generated by the filter generation model generally contains errors, and if only the amplitude component of the complex filter containing errors is applied, the processing load can be reduced, but the noise reduction performance is reduced. On the other hand, when applying the amplitude component and phase component of the complex number filter, the noise removal performance increases, but the processing load also increases. A typical speech recognition engine can properly recognize speech even if the speech signal contains noise components below the allowable amount. Therefore, if the noise component remaining by applying only the amplitude component of the complex number filter is below an acceptable amount, applying only the amplitude component is useful in order to reduce the processing load.
フィルタ適用部22は、周波数スペクトルに適用することが決定された複素数フィルタの成分を、周波数スペクトルに適用する。(3)式は、複素数フィルタMの振幅成分を周波数スペクトルYに適用することで取得される周波数スペクトルSを例示する。
S=|M|・|Y| …(3)
The
S=|M|·|Y| (3)
(4)式は、複素数フィルタMの振幅成分及び位相成分を周波数スペクトルYに適用することで取得される周波数スペクトルSを例示する。
S=M*Y=|M|・|Y|・(cos(θM+θY)+i・sin(θM+θY))
…(4)
θMは、複素数フィルタMの位相成分を表し、θYは、周波数スペクトルYの位相成分を表す。
Equation (4) illustrates the frequency spectrum S obtained by applying the amplitude and phase components of the complex filter M to the frequency spectrum Y.
S=M*Y=|M|·| Y |·(cos( θM +θY)+i·sin( θM + θY ))
…(4)
θ M represents the phase component of the complex filter M, and θ Y represents the phase component of the frequency spectrum Y.
(3)式によれば、周波数スペクトルに複素数フィルタの振幅成分を適用する場合、1回の乗算が行われる。また、周波数スペクトルに複素数フィルタの振幅成分及び位相成分を適用する場合、(4)式によれば、5回の乗算及び3回の加減算が行われる。即ち、複素数フィルタの振幅成分及び位相成分を適用する場合、複素数フィルタの振幅成分だけを適用する場合よりも、処理負荷は増大する。 According to equation (3), one multiplication is performed when applying the amplitude component of the complex filter to the frequency spectrum. Also, when applying the amplitude component and the phase component of the complex number filter to the frequency spectrum, according to the equation (4), 5 multiplications and 3 additions/subtractions are performed. That is, when applying the amplitude component and phase component of the complex number filter, the processing load increases compared to when only the amplitude component of the complex number filter is applied.
時間周波数逆変換部24は、複素数フィルタが適用された周波数スペクトルに対して、時間周波数逆変換を行い、周波数スペクトルに対応する音声信号を取得する。時間周波数逆変換は、例えば、Inverse Fast Fourier Transformation(以下、IFFTという。)であってよい。音声出力部26は、時間周波数逆変換部24で取得された音声信号に対応する音声を出力する。
The time-frequency
音声信号処理装置10は、一例として、図3に示すように、CPU(Central Processing Unit)51、一次記憶部52、二次記憶部53、外部インタフェース54、マイク31A及びスピーカ31Bを含む。CPU51は、ハードウェアであるプロセッサの一例である。CPU51、一次記憶部52、二次記憶部53、外部インタフェース54、マイク31A及びスピーカ31Bは、バス59を介して相互に接続されている。
As an example, the audio
一次記憶部52は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。二次記憶部53は、例えば、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)などの不揮発性のメモリである。
The
二次記憶部53は、プログラム格納領域53A及びデータ格納領域53Bを含む。プログラム格納領域53Aは、一例として、雑音除去を行う音声信号処理プログラムなどのプログラムを記憶している。データ格納領域53Bは、一例として、音声信号及び音声信号処理プログラムを実行している間に生成される中間データなどを記憶する。
The
CPU51は、プログラム格納領域53Aから音声信号処理プログラムを読み出して一次記憶部52に展開する。CPU51は、音声信号処理プログラムをロードして実行することで、図1の時間周波数変換部14、複素数フィルタ生成部16、フィルタ判定部18、フィルタ適用成分決定部20、フィルタ適用部22及び時間周波数逆変換部24として動作する。
The
なお、音声信号処理プログラムなどのプログラムは、外部サーバに記憶され、ネットワークを介して、一次記憶部52に展開されてもよい。また、音声信号処理プログラムなどのプログラムは、DVD(Digital Versatile Disc)などの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部52に展開されてもよい。
A program such as an audio signal processing program may be stored in an external server and expanded to the
外部インタフェース54には外部装置が接続され、外部インタフェース54は、外部装置とCPU51との間の各種情報の送受信を司る。マイク31Aは、音声入力部12の一例であり、入力される音声を音声信号に変換する。スピーカ31Bは、音声出力部26の一例であり、例えば、雑音成分が除去された音声信号に対応する音声を出力する。なお、マイク31A及びスピーカ31Bは、音声信号処理装置10に内蔵されず、外部インタフェース54を介して、外部装置として、音声信号処理装置10と接続されていてもよい。
An external device is connected to the
音声信号処理装置10は、例えば、パーソナルコンピュータであってもよいし、スマートフォンであってもよいし、専用のデバイスであってもよい。
The audio
次に、雑音を除去する音声信号処理の作用の概要について説明する。図4は、音声信号処理の流れを例示する。CPU51は、ステップ101で、マイク31Aから入力される音声に対応する音声信号を1フレーム分読み込む。
Next, an outline of the operation of speech signal processing for removing noise will be described. FIG. 4 illustrates the flow of audio signal processing. At
CPU51は、ステップ102で、読み込まれた音声信号に対してFFTを行い、周波数スペクトルを取得する。CPU51は、ステップ103で、所定数Nのフレームが読み込まれたか否か判定する。ステップ103の判定が否定された場合、CPU51は、ステップ101に戻り、ステップ103の判定が肯定された場合、CPU51は、ステップ104で、Nフレーム分の周波数スペクトルを使用して、複素数フィルタを生成する。
At
CPU51は、ステップ105で、生成された複素数フィルタの実部に基づいて、ステップ101で読み込まれた音声信号に含まれている雑音成分が多いか否か判定する。ステップ105で、雑音成分が多いと判定された場合、CPU51は、ステップ107で、雑音を除去するために、複素数フィルタの振幅成分及び位相成分の両方を適用することを決定する。雑音成分が少ないと判定された場合、CPU51は、ステップ106で、複素数フィルタの振幅成分を適用することを決定する。
At
CPU51は、ステップ108で、ステップ106またはステップ107で決定された複素数フィルタの成分をステップ102で取得された周波数スペクトルに適用する。CPU51は、ステップ109で、複素数フィルタが適用された周波数スペクトルに対してIFFTを行い、音声信号を取得する。
At
CPU51は、ステップ110で、スピーカ31Bを介して、音声信号に対応する音声を出力して、Nフレーム分の音声信号の処理を終了する。
At
次に、ステップ105で、音声信号に含まれる雑音成分が多いか否かを判定する閾値について説明する。図5に、音声信号の信号対雑音比(Signal to Noise Ratio(以下、SNRという。))、当該音声信号を使用して生成される複素数フィルタの実部の平均値、1.0-(複素数フィルタの実部の平均値)、即ち、雑音判定値を例示する。1.0は、雑音成分を含まない音声信号を使用して生成される複素数フィルタの実部の値である。SNRは、数値が大きいほど、雑音成分が少ないことを意味する。
Next, in
図5は、複素数フィルタの振幅成分を音声信号に対応する周波数スペクトルに適用した場合のSignal to Distortion Ratio(以下、SDRという。)及び複素数フィルタの振幅成分及び位相成分を周波数スペクトルに適用した場合のSDRも例示する。SDRは、「信号成分」と「雑音成分+復元による音声歪み成分」との対数比率を表す値であり、数値が大きいほど、雑音成分が適切に除去されている、ことを意味する。 FIG. 5 shows the Signal to Distortion Ratio (hereinafter referred to as SDR) when the amplitude component of the complex number filter is applied to the frequency spectrum corresponding to the audio signal, and the signal to distortion ratio when the amplitude and phase components of the complex number filter are applied to the frequency spectrum. SDR is also exemplified. The SDR is a value representing the logarithmic ratio of the "signal component" and the "noise component + voice distortion component due to reconstruction", and the larger the value, the more appropriately the noise component is removed.
一般的な音声認識エンジンでは、音声信号のSDRが15.0[dB]より大きい場合に、適切な認識精度を発揮することができる。したがって、振幅成分を周波数スペクトルに適用した際のSDRが、例えば、20.0[dB]より大きい場合に、振幅成分を周波数スペクトルに適用する。図5において、振幅成分を周波数スペクトルに適用した際のSDRが22.5[dB]の場合、即ち、20.0[dB]より大きい場合、対応する雑音判定値は0.30であるため、閾値、即ち、第1所定値として、例えば、0.30を使用することができる。 A general speech recognition engine can exhibit appropriate recognition accuracy when the SDR of the speech signal is greater than 15.0 [dB]. Therefore, when the SDR when applying the amplitude component to the frequency spectrum is greater than, for example, 20.0 [dB], the amplitude component is applied to the frequency spectrum. In FIG. 5, when the SDR when the amplitude component is applied to the frequency spectrum is 22.5 [dB], that is, when it is greater than 20.0 [dB], the corresponding noise judgment value is 0.30. For example, 0.30 can be used as the threshold, ie the first predetermined value.
一方、雑音判定値が閾値である0.30を超える場合、即ち、0.46である場合、振幅成分を周波数スペクトルに適用すると、SDRが18.6[dB]となり、20.0[dB]よりも小さくなる。したがって、音声認識エンジンで適切な認識精度が発揮されない虞があるため、周波数スペクトルに複素数フィルタの振幅成分及び位相成分を適用する。これにより、SDRを20.0[dB]を超える22.8[dB]に引き上げることができる。例えば、SNRが-5「dB」の場合であっても、周波数スペクトルに複素数フィルタの振幅成分及び位相成分を適用することで、15.0[dB]を超える15.4[dB]のSDRを取得することができ、音声認識エンジンで適切な認識精度を得ることができる。 On the other hand, when the noise judgment value exceeds the threshold value of 0.30, that is, when it is 0.46, when the amplitude component is applied to the frequency spectrum, the SDR becomes 18.6 [dB] and 20.0 [dB]. be smaller than Therefore, since there is a risk that the speech recognition engine may not exhibit appropriate recognition accuracy, the amplitude and phase components of a complex filter are applied to the frequency spectrum. As a result, the SDR can be raised to 22.8 [dB] exceeding 20.0 [dB]. For example, even if the SNR is -5 "dB", by applying the amplitude component and phase component of the complex filter to the frequency spectrum, the SDR of 15.4 [dB] exceeding 15.0 [dB] can be obtained, and the speech recognition engine can obtain adequate recognition accuracy.
しかしながら、本実施形態は、雑音判定値の閾値を0.30とする例に限定されない。使用する音声認識エンジンの性能、または所望される処理負荷に応じて、適切な閾値を設定することができる。また、雑音判定値と閾値とを比較する代わりに、複素数フィルタの実部の平均値と閾値とを比較してもよい。この場合の閾値は、例えば、1.0-第1所定値とすればよい。即ち、例えば、複素数フィルタの実部の平均値が0.7を超える場合に、音声信号の雑音成分が少ないと判定してもよい。 However, this embodiment is not limited to an example in which the threshold for the noise determination value is set to 0.30. An appropriate threshold can be set depending on the performance of the speech recognition engine used or the desired processing load. Also, instead of comparing the noise judgment value and the threshold, the average value of the real part of the complex filter may be compared with the threshold. The threshold in this case may be, for example, 1.0-first predetermined value. That is, for example, when the average value of the real part of the complex number filter exceeds 0.7, it may be determined that the noise component of the speech signal is small.
図6は、音声信号に要する処理時間を例示する。ここで使用される音声信号処理プログラムは、Python3で作成されている。処理パターン1~処理パターン5の処理について、各々、音声信号のフレーム数は256、周波数サンプル数は256で、1000回の処理を行った。 FIG. 6 illustrates the processing time required for an audio signal. The audio signal processing program used here is written in Python3. Processing patterns 1 to 5 were processed 1000 times with 256 audio signal frames and 256 frequency samples.
処理パターン1及び処理パターン2は、複素数フィルタの実部の判定を行わない場合である。処理パターン1では、複素数フィルタの振幅成分を全ての周波数スペクトルに適用し、処理パターン2では、複素数フィルタの振幅成分及び位相成分を全ての周波数スペクトルに適用する。処理パターン1の処理時間は、1.95[秒]であり、処理パターン2の処理時間は、3.73[秒]である。
Processing pattern 1 and
処理パターン3~処理パターン5は、複素数フィルタの実部の判定を行う場合であり、処理パターン3では、50%の周波数スペクトルに、複素数フィルタの振幅成分を適用し、50%の周波数スペクトルに、複素数フィルタの振幅成分及び位相成分を適用する。処理パターン4では、20%の周波数スペクトルに、複素数フィルタの振幅成分を適用し、80%の周波数スペクトルに、複素数フィルタの振幅成分及び位相成分を適用する。処理パターン5では、100%の周波数スペクトルに、複素数フィルタの振幅成分及び位相成分を適用する。処理パターン3の処理時間は、2.43[秒]であり、処理パターン4の処理時間は3.03[秒]であり、処理パターン5の処理時間は、3.95[秒]である。
処理パターン2では、処理時間が3.73[秒]であり、処理パターン5では、処理時間が3.95[秒]である。即ち、処理パターン5では、複素数フィルタの実部の判定に0.22秒要し、複素数フィルタの実部を判定する分、0.22[秒]多く時間を要する。複素数フィルタの実部の判定は、複素数フィルタの実部の平均値を算出する際に、1フレームの音声信号毎に周波数サンプル数の回数の加算及び除算1回を行う。
In the
しかしながら、複数の話者が発話する状況において、複数の話者の発話が重畳する、即ち、抽出対象の話者以外の話者の発話である雑音成分が多く含まれる音声の割合は、図7に例示するように多くはない。図7は、音声対話データベース(RWCP-SP96)における、単独発話、重複発話の発話時間及び割合を例示する。 However, in a situation in which a plurality of speakers are speaking, the ratio of speech in which the speeches of a plurality of speakers are superimposed, that is, speech that includes a large amount of noise components that are speeches of speakers other than the speaker to be extracted is shown in FIG. There are not many as exemplified in . FIG. 7 exemplifies the utterance time and ratio of single utterances and multiple utterances in the voice dialogue database (RWCP-SP96).
音声対話データベースでは、話者が顧客及び店員の2人である48対話の発話区間のうち、顧客の単独発話が22.2%、店員の単独発話が61.4%、顧客及び店員の重複発話が16.3%である。即ち、周波数スペクトルに複素数フィルタの振幅成分及び位相成分を適用する程度に雑音が多いと判定される可能性が高い音声は、全発話区間のうち、16.3%であり、20%に満たない。 In the voice dialogue database, out of the 48 dialogue segments in which the two speakers are a customer and a clerk, 22.2% are single utterances from the customer, 61.4% are single utterances from the clerk, and 61.4% are multiple utterances from the customer and the clerk. is 16.3%. That is, 16.3%, less than 20%, of all speech segments are likely to be determined to be noisy enough to apply the amplitude and phase components of a complex filter to the frequency spectrum. .
一方、図6において、50%の周波数スペクトルに複素数フィルタの振幅成分及び位相成分を適用する処理パターン3の処理時間は2.43[秒]である。また、80%の周波数スペクトルに振幅成分及び位相成分を適用する処理パターン4の処理時間は3.03[秒]である。したがって、80%の周波数スペクトルに振幅成分及び位相成分を適用する場合であっても、複素数フィルタの実部の判定を行わず、全ての周波数スペクトルに振幅成分及び位相成分を適用する処理パターン2よりも、0.70[秒]処理時間が短縮される。即ち、処理負荷が軽減される。
On the other hand, in FIG. 6, the processing time for
なお、ステップ105で、生成された複素数フィルタの実部に基づいて、音声信号に含まれる雑音成分を判定する例について説明したが、本実施例はこれに限定されない。例えば、生成される複素数フィルタの虚部bを加算し、複素数フィルタの数で除算することで算出される複素数フィルタの虚部の平均値が0.0に近い場合に、雑音成分が少ないと判定してもよい。また、複素数フィルタの実部の平均値が1.0に近く、かつ、虚部の平均値が0.0に近い場合に、雑音成分が少ないと判定してもよい。なお、虚部の平均値が0.0に近いか否か判定する閾値は、例えば、0.30であってよい。当該閾値は、第2所定値の一例である。
Although the example in which the noise component included in the speech signal is determined based on the real part of the generated complex filter in
音声信号処理装置10は、図8に例示するように、有線または無線ネットワークで接続されたクライアント81A及びサーバ82Aを含んでいてもよい。この場合、クライアント81Aは、例えば、図1の音声入力部12及び音声出力部26を含む。サーバ82Aは、時間周波数変換部14、複素数フィルタ生成部16、フィルタ判定部18、フィルタ適用成分決定部20、フィルタ適用部22、及び、時間周波数逆変換部24を含む。
The audio
クライアント81Aのハードウェア構成は、図2の音声信号処理装置10のハードウェア構成と同様であってよい。また、サーバ82Aのハードウェア構成は、図9に例示するように、マイク31A及びスピーカ31Bを含まない点で、図2の音声信号処理装置10と相違する。しかしながら、図9のCPU51D、一次記憶部52D、二次記憶部53D、及び外部インタフェース54Dは、図2のCPU51、一次記憶部52、二次記憶部53、及び外部インタフェース54と同様であってよいため、詳細な説明を省略する。二次記憶部53Dは、二次記憶部53と同様に、プログラム格納領域53AD及びデータ格納領域53BDを含む。
The hardware configuration of the
音声信号処理装置10の機能をクライアント81Aとサーバ82Aとに分離することで、クライアント81Aの処理負荷をさらに軽減し、クライアント81Aを小型・軽量化することで、クライアント81Aの携帯性を向上させることが可能となる。
By separating the functions of the audio
音声信号処理装置10は、図10に例示するように、有線または無線ネットワークで接続されたクライアント81B、第1サーバ82B及び第2サーバ82Cを含んでいてもよい。クライアント81Bは、図11に例示するように、音声入力部12及び、テキスト出力部27を含む。第1サーバ82Bは、時間周波数変換部14、複素数フィルタ生成部16、フィルタ判定部18、フィルタ適用成分決定部20、フィルタ適用部22及び時間周波数逆変換部24を含む。第2サーバは、音声認識部25を含む。
The audio
第1サーバ82A及び第2サーバ82Bのハードウェア構成は、サーバ82Aのハードウェア構成と同様であってよい。クライアント81Bのハードウェア構成は、図12に例示するように、スピーカ31Bに代えて、テキスト出力部の一例であるディスプレイ31Cを有している点で、図2の音声信号処理装置10と相違する。
The hardware configuration of the
第2サーバ82Cは、第1サーバ82Bから雑音成分が除去された音声信号を受信し、音声認識を行うことで、音声信号をテキストに変換し、クライアント81Bに当該テキストを送信する。クライアント81Bは、テキストを受信し、ディスプレイ31Cに表示する。音声認識には、既存の技術が適用されてよい。雑音を除去した音声信号の音声認識を行いテキスト化することで、音声信号に含まれる情報のテキスト検索を可能とし、情報の利用価値を向上させることができる。音声信号処理装置10の機能をクライアント81B、第1サーバ82B及び第2サーバ82Cに分離することで、クライアント81Bの処理負荷をさらに軽減することができる。これにより、クライアント81Bを小型・軽量化することで、クライアント81Bの携帯性を向上させることが可能となる。
The
なお、図8及び図10に例示した音声信号処理装置は、一例であり、本実施形態はこれらに限定されない。例えば、図10の第2サーバ82Cが音声認識部25を含む代わりに、第1サーバ82Bが音声認識部25を含み、第2サーバ82Cが存在しない構成としてもよい。また、図1の音声信号処理装置10が、音声出力部26に代えて、または、音声出力部26に加えて、音声認識部25及びテキスト出力部27を有してもよい。
Note that the audio signal processing apparatuses illustrated in FIGS. 8 and 10 are examples, and the present embodiment is not limited to these. For example, instead of the
なお、音声を音声入力部12から入力し、音声出力部26から音声を出力するか、テキスト出力部27から音声に対応するテキストを出力する例について説明したが、本実施形態はこれらに限定されない。例えば、ファイルに予め保存されている音声信号のデータを読み込み、雑音成分が除去された音声信号のデータをファイルに保存するようにしてもよい。ファイルは、例えば、二次記憶部53のデータ格納領域53Bまたは二次記憶部53Dのデータ格納領域53BDなどに記憶されてもよい。
Although an example of inputting speech from the
本実施形態は、雑音が存在する環境で収音される音声の字幕作成、会議議事録作成などに適用することができる。雑音は、抽出対象の話者以外の話者の発話またはエアコンの稼働音などの環境雑音であってよい。 The present embodiment can be applied to creating captions for voices picked up in an environment where noise exists, creating meeting minutes, and the like. The noise may be utterances of speakers other than the speaker to be extracted, or environmental noise such as the operating sound of an air conditioner.
なお、複素数フィルタの生成には、全ての周波数サンプルの周波数スペクトルを使用せず、所定の周波数帯域の周波数スペクトルを使用してもよい。また、フィルタ判定には、全ての周波数サンプルに対応する複素数フィルタを使用せず、所定の周波数帯域に対応する複素数フィルタを使用してもよい。なお、図4に例示するフローチャートは一例であり、ステップの順序は変更されてもよい。 Note that the frequency spectrum of a predetermined frequency band may be used instead of using the frequency spectrum of all frequency samples to generate the complex number filter. Also, for filter determination, a complex number filter corresponding to a predetermined frequency band may be used instead of using a complex number filter corresponding to all frequency samples. Note that the flowchart illustrated in FIG. 4 is an example, and the order of steps may be changed.
本実施形態では、音声信号に対して時間周波数変換を行い、音声信号に対応する周波数スペクトルを取得し、取得した周波数スペクトルに基づいて、音声信号に含まれる雑音成分を除去する複素数フィルタを生成する。複素数フィルタの実部の値と第1の値との比較及び、複素数フィルタの虚部の値と第2の値との比較の少なくとも一方を行う。第1の値は雑音成分が存在しない場合に生成される複素数フィルタの実部の値であり、第2の値は雑音成分が存在しない場合に生成される複素数フィルタの虚部の値である。実部の値と第1の値との相違が小さい場合、周波数スペクトルに複素数フィルタの振幅成分を適用し、実部の値と第1の値との相違が小さくない場合、周波数スペクトルに複素数フィルタの振幅成分及び位相成分を適用することを決定する。または、虚部の値と前記第2の値との相違が小さい場合、周波数スペクトルに複素数フィルタの振幅成分を適用し、虚部の値と第2の値との相違が小さくない場合、周波数スペクトルに複素数フィルタの振幅成分及び位相成分を適用することを決定する。または、実部の値と第1の値との相違が小さく、虚部の値と第2の値との相違が小さい場合、周波数スペクトルに複素数フィルタの振幅成分を適用することを決定する。この場合、実部の値と第1の値との相違が小さくないか、または、虚部の値と第2の値との相違が小さくない場合、周波数スペクトルに複素数フィルタの振幅成分及び位相成分を適用することを決定する。 In this embodiment, a time-frequency transform is performed on an audio signal, a frequency spectrum corresponding to the audio signal is obtained, and a complex filter that removes noise components contained in the audio signal is generated based on the obtained frequency spectrum. . At least one of comparing the value of the real part of the complex filter with the first value and comparing the value of the imaginary part of the complex filter with the second value. The first value is the value of the real part of the complex filter generated in the absence of the noise component and the second value is the value of the imaginary part of the complex filter generated in the absence of the noise component. applying an amplitude component of a complex filter to the frequency spectrum if the difference between the value of the real part and the first value is small, and applying a complex filter to the frequency spectrum if the difference between the value of the real part and the first value is not small; We decide to apply the amplitude and phase components of . or applying the amplitude component of a complex filter to the frequency spectrum if the difference between the value of the imaginary part and the second value is small, and if the difference between the value of the imaginary part and the second value is not small, the frequency spectrum We decide to apply the amplitude and phase components of the complex filter to . Alternatively, if the difference between the value of the real part and the first value is small and the difference between the value of the imaginary part and the second value is small, it is decided to apply the amplitude component of the complex filter to the frequency spectrum. In this case, if the difference between the value of the real part and the first value is not small, or the difference between the value of the imaginary part and the second value is not small, the frequency spectrum will include the amplitude and phase components of the complex filter. decides to apply
本実施形態では、音声信号を使用して、当該音声信号から雑音成分を除去する複素数フィルタを生成する。生成される複素数フィルタに基づいて音声信号の雑音成分が少ないと判定される場合には、音声信号に複素数フィルタの振幅成分を適用し、雑音成分が多いと判定される場合には、音声信号に複素数フィルタの振幅成分及び位相成分を適用することを決定する。これにより、本実施形態では、処理負荷を抑制しつつ、音声から雑音を適切に除去することを可能とする。 In this embodiment, an audio signal is used to generate a complex filter that removes noise components from the audio signal. If it is judged that the noise component of the speech signal is small based on the generated complex number filter, the amplitude component of the complex number filter is applied to the speech signal, and if it is judged that the noise component is large, We decide to apply the amplitude and phase components of a complex filter. As a result, in this embodiment, it is possible to appropriately remove noise from speech while suppressing the processing load.
以上の各実施形態に関し、更に以下の付記を開示する。 The following supplementary remarks are further disclosed regarding each of the above embodiments.
(付記1)
音声信号に対して時間周波数変換を行い、前記音声信号に対応する周波数スペクトルを取得し、
取得した前記周波数スペクトルに基づいて、前記音声信号に含まれる雑音成分を除去する複素数フィルタを生成し、
前記複素数フィルタの実部の値と、前記雑音成分が存在しない場合に生成される複素数フィルタの実部の値である第1の値との比較、及び、前記複素数フィルタの虚部の値と、前記雑音成分が存在しない場合に生成される複素数フィルタの虚部の値である第2の値と、の比較の少なくとも一方を行い、
前記実部の値と前記第1の値との相違が小さい場合、前記周波数スペクトルに前記複素数フィルタの振幅成分を適用し、前記実部の値と前記第1の値との相違が小さくない場合、前記周波数スペクトルに前記複素数フィルタの振幅成分及び位相成分を適用し、前記虚部の値と前記第2の値との相違が小さい場合、前記周波数スペクトルに前記複素数フィルタの振幅成分を適用し、前記虚部の値と前記第2の値との相違が小さくない場合、前記周波数スペクトルに前記複素数フィルタの振幅成分及び位相成分を適用し、または、前記実部の値と前記第1の値との相違が小さく、前記虚部の値と前記第2の値との相違が小さい場合、前記周波数スペクトルに前記複素数フィルタの振幅成分を適用し、前記実部の値と前記第1の値との相違が小さくないか、または、前記虚部の値と前記第2の値との相違が小さくない場合、前記周波数スペクトルに前記複素数フィルタの振幅成分及び位相成分を適用することで雑音成分を除去することを決定する、
雑音除去処理をコンピュータに実行させるための音声信号処理プログラム。
(付記2)
音声入力部で音声から変換される前記音声信号を取得し、
前記周波数スペクトルに適用することが決定された前記複素数フィルタの成分を、前記周波数スペクトルに適用し、
前記複素数フィルタを適用した前記周波数スペクトルを音声信号に時間周波数逆変換し、
時間周波数逆変換した前記音声信号に対応する音声を音声出力部から出力する、
付記1の音声信号処理プログラム。
(付記3)
音声入力部で音声から変換される前記音声信号を取得し、
前記周波数スペクトルに適用することが決定された前記複素数フィルタの成分を、前記周波数スペクトルに適用し、
前記複素数フィルタを適用した前記周波数スペクトルを音声信号に時間周波数逆変換し、
時間周波数逆変換した前記音声信号を音声認識することでテキストに変換し、
変換した前記テキストをテキスト出力部から出力する、
付記1の音声信号処理プログラム。
(付記4)
前記第1の値は1.0であり、
前記第2の値は0.0であり、
前記複素数フィルタの各々の実部の平均値と前記第1の値との差が第1所定値以下である場合、前記実部の値と前記第1の値との相違が小さく、前記複素数フィルタの各々の虚部の平均値と前記第2の値との差が第2所定値以下である場合、前記虚部の値と前記第2の値との相違が小さい、
付記1~付記3の何れかの音声信号処理プログラム。
(付記5)
前記複素数フィルタは、周波数スペクトルを入力すると、前記複素数フィルタを出力するように機械学習を用いて学習された複素数フィルタ生成モデルで生成される、
付記1~付記4の何れかの音声信号処理プログラム。
(付記6)
コンピュータが、
音声信号に対して時間周波数変換を行い、前記音声信号に対応する周波数スペクトルを取得し、
取得した前記周波数スペクトルに基づいて、前記音声信号に含まれる雑音成分を除去する複素数フィルタを生成し、
前記複素数フィルタの実部の値と、前記雑音成分が存在しない場合に生成される複素数フィルタの実部の値である第1の値との比較、及び、前記複素数フィルタの虚部の値と、前記雑音成分が存在しない場合に生成される複素数フィルタの虚部の値である第2の値と、の比較の少なくとも一方を行い、
前記実部の値と前記第1の値との相違が小さい場合、前記周波数スペクトルに前記複素数フィルタの振幅成分を適用し、前記実部の値と前記第1の値との相違が小さくない場合、前記周波数スペクトルに前記複素数フィルタの振幅成分及び位相成分を適用し、前記虚部の値と前記第2の値との相違が小さい場合、前記周波数スペクトルに前記複素数フィルタの振幅成分を適用し、前記虚部の値と前記第2の値との相違が小さくない場合、前記周波数スペクトルに前記複素数フィルタの振幅成分及び位相成分を適用し、または、前記実部の値と前記第1の値との相違が小さく、前記虚部の値と前記第2の値との相違が小さい場合、前記周波数スペクトルに前記複素数フィルタの振幅成分を適用し、前記実部の値と前記第1の値との相違が小さくないか、または、前記虚部の値と前記第2の値との相違が小さくない場合、前記周波数スペクトルに前記複素数フィルタの振幅成分及び位相成分を適用することで雑音成分を除去することを決定する、
音声信号処理方法。
(付記7)
音声入力部で音声から変換される前記音声信号を取得し、
前記周波数スペクトルに適用することが決定された前記複素数フィルタの成分を、前記周波数スペクトルに適用し、
前記複素数フィルタを適用した前記周波数スペクトルを音声信号に時間周波数逆変換し、
時間周波数逆変換した前記音声信号に対応する音声を音声出力部から出力する、
付記6の音声信号処理方法。
(付記8)
音声入力部で音声から変換される前記音声信号を取得し、
前記周波数スペクトルに適用することが決定された前記複素数フィルタの成分を、前記周波数スペクトルに適用し、
前記複素数フィルタを適用した前記周波数スペクトルを音声信号に時間周波数逆変換し、
時間周波数逆変換した前記音声信号を音声認識することでテキストに変換し、
変換した前記テキストをテキスト出力部から出力する、
付記6の音声信号処理方法。
(付記9)
前記第1の値は1.0であり、
前記第2の値は0.0であり、
前記複素数フィルタの各々の実部の平均値と前記第1の値との差が第1所定値以下である場合、前記実部の値と前記第1の値との相違が小さく、前記複素数フィルタの各々の虚部の平均値と前記第2の値との差が第2所定値以下である場合、前記虚部の値と前記第2の値との相違が小さい、
付記6~付記8の何れかの音声信号処理方法。
(付記10)
前記複素数フィルタは、周波数スペクトルを入力すると、前記複素数フィルタを出力するように機械学習を用いて学習された複素数フィルタ生成モデルで生成される、
付記6~付記9の何れかの音声信号処理方法。
(付記11)
音声信号に対して時間周波数変換を行い、前記音声信号に対応する周波数スペクトルを取得する時間周波数変換部と、
取得した前記周波数スペクトルに基づいて、前記音声信号に含まれる雑音成分を除去する複素数フィルタを生成する複素数フィルタ生成部と、
前記複素数フィルタの実部の値と、前記雑音成分が存在しない場合に生成される複素数フィルタの実部の値である第1の値との比較、及び、前記複素数フィルタの虚部の値と、前記雑音成分が存在しない場合に生成される複素数フィルタの虚部の値である第2の値と、の比較の少なくとも一方を行うフィルタ判定部と、
前記実部の値と前記第1の値との相違が小さい場合、前記周波数スペクトルに前記複素数フィルタの振幅成分を適用し、前記実部の値と前記第1の値との相違が小さくない場合、前記周波数スペクトルに前記複素数フィルタの振幅成分及び位相成分を適用し、前記虚部の値と前記第2の値との相違が小さい場合、前記周波数スペクトルに前記複素数フィルタの振幅成分を適用し、前記虚部の値と前記第2の値との相違が小さくない場合、前記周波数スペクトルに前記複素数フィルタの振幅成分及び位相成分を適用し、または、前記実部の値と前記第1の値との相違が小さく、前記虚部の値と前記第2の値との相違が小さい場合、前記周波数スペクトルに前記複素数フィルタの振幅成分を適用し、前記実部の値と前記第1の値との相違が小さくないか、または、前記虚部の値と前記第2の値との相違が小さくない場合、前記周波数スペクトルに前記複素数フィルタの振幅成分及び位相成分を適用することで雑音成分を除去することを決定するフィルタ適用成分決定部と、
を含む、音声信号処理装置。
(付記12)
入力される音声を前記音声信号に変換して取得する音声入力部と、
前記周波数スペクトルに適用することが決定された前記複素数フィルタの成分を、前記周波数スペクトルに適用するフィルタ適用部と、
前記複素数フィルタを適用した前記周波数スペクトルを音声信号に時間周波数逆変換する時間周波数逆変換部と、
時間周波数逆変換した前記音声信号に対応する音声を出力する音声出力部と、
をさらに含む、付記11の音声信号処理装置。
(付記13)
入力される音声を前記音声信号に変換して取得する音声入力部と、
前記周波数スペクトルに適用することが決定された前記複素数フィルタの成分を、前記周波数スペクトルに適用するフィルタ適用部と、
前記複素数フィルタを適用した前記周波数スペクトルを音声信号に時間周波数逆変換する時間周波数逆変換部と、
時間周波数逆変換した前記音声信号を音声認識することでテキストに変換する音声認識部と、
変換した前記テキストを出力するテキスト出力部と、
をさらに含む、付記11の音声信号処理装置。
(付記14)
前記第1の値は1.0であり、
前記第2の値は0.0であり、
前記フィルタ判定部は、前記複素数フィルタの各々の実部の平均値と前記第1の値との差が第1所定値以下である場合、前記実部の値と前記第1の値との相違が小さく、前記複素数フィルタの各々の虚部の平均値と前記第2の値との差が第2所定値以下である場合、前記虚部の値と前記第2の値との相違が小さい、と判定する、
付記11~付記13の何れかの音声信号処理装置。
(付記15)
前記複素数フィルタ生成部は、周波数スペクトルを入力すると、前記複素数フィルタを出力するように機械学習を用いて学習された複素数フィルタ生成モデルを使用して前記複素数フィルタを生成する、
付記11~付記14の何れかの音声信号処理装置。
(付記16)
前記音声信号処理装置は、
前記時間周波数変換部と、前記複素数フィルタ生成部と、前記フィルタ判定部と、前記フィルタ適用成分決定部と、前記フィルタ適用部と、前記時間周波数逆変換部と、を含むサーバと、
前記音声入力部と、前記音声出力部と、を含むクライアントと、
を含む、付記12の音声信号処理装置。
(付記17)
前記音声信号処理装置は、
前記時間周波数変換部と、前記複素数フィルタ生成部と、前記フィルタ判定部と、前記フィルタ適用成分決定部と、前記フィルタ適用部と、前記時間周波数逆変換部と、を含む第1サーバと、
前記音声認識部を含む第2サーバと、
前記音声入力部と、前記テキスト出力部と、を含むクライアントと、
を含む、付記13の音声信号処理装置。
(Appendix 1)
performing a time-frequency transform on an audio signal to obtain a frequency spectrum corresponding to the audio signal;
generating a complex filter that removes noise components contained in the audio signal based on the acquired frequency spectrum;
comparing the real part value of the complex filter with a first value, which is the real part value of the complex filter generated when the noise component is not present, and the imaginary part value of the complex filter; performing at least one of comparison with a second value that is the value of the imaginary part of the complex filter generated when the noise component is not present;
if the difference between the value of the real part and the first value is small, applying the amplitude component of the complex filter to the frequency spectrum, and if the difference between the value of the real part and the first value is not small; applying the amplitude and phase components of the complex filter to the frequency spectrum, and applying the amplitude component of the complex filter to the frequency spectrum if the difference between the value of the imaginary part and the second value is small; if the difference between the imaginary part value and the second value is not small, applying the amplitude and phase components of the complex filter to the frequency spectrum; or applying the real part value and the first value. is small and the difference between the imaginary part value and the second value is small, applying the amplitude component of the complex filter to the frequency spectrum, and the difference between the real part value and the first value If the difference is not small or if the difference between the value of the imaginary part and the second value is not small, removing noise components by applying amplitude and phase components of the complex filter to the frequency spectrum. to decide that
An audio signal processing program that causes a computer to perform noise reduction processing.
(Appendix 2)
Acquiring the audio signal converted from the audio by the audio input unit,
applying to the frequency spectrum the components of the complex filter determined to be applied to the frequency spectrum;
inverse time-frequency transforming the frequency spectrum to which the complex filter is applied to an audio signal;
outputting audio corresponding to the audio signal subjected to the inverse time-frequency transform from an audio output unit;
The audio signal processing program of appendix 1.
(Appendix 3)
Acquiring the audio signal converted from the audio by the audio input unit,
applying to the frequency spectrum the components of the complex filter determined to be applied to the frequency spectrum;
inverse time-frequency transforming the frequency spectrum to which the complex filter is applied to an audio signal;
converting the time-frequency inverse-transformed speech signal into text by speech recognition;
outputting the converted text from a text output unit;
The audio signal processing program of appendix 1.
(Appendix 4)
the first value is 1.0;
the second value is 0.0;
when the difference between the average value of the real part of each of the complex filters and the first value is less than or equal to a first predetermined value, the difference between the real part and the first value is small, and the complex filter If the difference between the average value of each imaginary part and the second value is less than or equal to a second predetermined value, the difference between the value of the imaginary part and the second value is small,
The audio signal processing program according to any one of Appendices 1 to 3.
(Appendix 5)
The complex filter is generated by a complex filter generation model trained using machine learning to output the complex filter when the frequency spectrum is input.
The audio signal processing program according to any one of Appendices 1 to 4.
(Appendix 6)
the computer
performing a time-frequency transform on an audio signal to obtain a frequency spectrum corresponding to the audio signal;
generating a complex filter that removes noise components contained in the audio signal based on the acquired frequency spectrum;
comparing the real part value of the complex filter with a first value, which is the real part value of the complex filter generated when the noise component is not present, and the imaginary part value of the complex filter; performing at least one of comparison with a second value that is the value of the imaginary part of the complex filter generated when the noise component is not present;
if the difference between the value of the real part and the first value is small, applying the amplitude component of the complex filter to the frequency spectrum, and if the difference between the value of the real part and the first value is not small; applying the amplitude and phase components of the complex filter to the frequency spectrum, and applying the amplitude component of the complex filter to the frequency spectrum if the difference between the value of the imaginary part and the second value is small; if the difference between the imaginary part value and the second value is not small, applying the amplitude and phase components of the complex filter to the frequency spectrum; or applying the real part value and the first value. is small and the difference between the imaginary part value and the second value is small, applying the amplitude component of the complex filter to the frequency spectrum, and the difference between the real part value and the first value If the difference is not small or if the difference between the value of the imaginary part and the second value is not small, removing noise components by applying amplitude and phase components of the complex filter to the frequency spectrum. to decide that
Audio signal processing method.
(Appendix 7)
Acquiring the audio signal converted from the audio by the audio input unit,
applying to the frequency spectrum the components of the complex filter determined to be applied to the frequency spectrum;
inverse time-frequency transforming the frequency spectrum to which the complex filter is applied to an audio signal;
outputting audio corresponding to the audio signal subjected to the inverse time-frequency transform from an audio output unit;
The audio signal processing method of appendix 6.
(Appendix 8)
Acquiring the audio signal converted from the audio by the audio input unit,
applying to the frequency spectrum the components of the complex filter determined to be applied to the frequency spectrum;
inverse time-frequency transforming the frequency spectrum to which the complex filter is applied to an audio signal;
converting the time-frequency inverse-transformed speech signal into text by speech recognition;
outputting the converted text from a text output unit;
The audio signal processing method of appendix 6.
(Appendix 9)
the first value is 1.0;
the second value is 0.0;
when the difference between the average value of the real part of each of the complex filters and the first value is less than or equal to a first predetermined value, the difference between the real part and the first value is small, and the complex filter If the difference between the average value of each imaginary part and the second value is less than or equal to a second predetermined value, the difference between the value of the imaginary part and the second value is small,
The audio signal processing method according to any one of appendices 6 to 8.
(Appendix 10)
The complex filter is generated by a complex filter generation model trained using machine learning to output the complex filter when the frequency spectrum is input.
The audio signal processing method according to any one of appendices 6 to 9.
(Appendix 11)
a time-frequency transform unit that performs time-frequency transform on an audio signal to acquire a frequency spectrum corresponding to the audio signal;
a complex filter generation unit that generates a complex filter that removes noise components contained in the audio signal based on the obtained frequency spectrum;
comparing the real part value of the complex filter with a first value, which is the real part value of the complex filter generated when the noise component is not present, and the imaginary part value of the complex filter; A filter determination unit that performs at least one of comparison with a second value that is an imaginary part value of a complex filter that is generated when the noise component does not exist;
if the difference between the value of the real part and the first value is small, applying the amplitude component of the complex filter to the frequency spectrum, and if the difference between the value of the real part and the first value is not small; applying the amplitude and phase components of the complex filter to the frequency spectrum, and applying the amplitude component of the complex filter to the frequency spectrum if the difference between the value of the imaginary part and the second value is small; if the difference between the imaginary part value and the second value is not small, applying the amplitude and phase components of the complex filter to the frequency spectrum; or applying the real part value and the first value. is small and the difference between the imaginary part value and the second value is small, applying the amplitude component of the complex filter to the frequency spectrum, and the difference between the real part value and the first value If the difference is not small or if the difference between the value of the imaginary part and the second value is not small, removing noise components by applying amplitude and phase components of the complex filter to the frequency spectrum. A filter application component determination unit that determines that
An audio signal processor, comprising:
(Appendix 12)
an audio input unit that converts input audio into the audio signal and obtains the audio signal;
a filter application unit that applies the component of the complex filter determined to be applied to the frequency spectrum to the frequency spectrum;
a time-frequency inverse transform unit for time-frequency inverse transforming the frequency spectrum to which the complex number filter is applied, into an audio signal;
an audio output unit that outputs audio corresponding to the audio signal subjected to time-frequency inverse transform;
12. The audio signal processing apparatus of claim 11, further comprising:
(Appendix 13)
an audio input unit that converts input audio into the audio signal and obtains the audio signal;
a filter application unit that applies the component of the complex filter determined to be applied to the frequency spectrum to the frequency spectrum;
a time-frequency inverse transform unit for time-frequency inverse transforming the frequency spectrum to which the complex number filter is applied, into an audio signal;
a voice recognition unit that converts the time-frequency inverse-transformed voice signal into text by voice recognition;
a text output unit that outputs the converted text;
12. The audio signal processing apparatus of claim 11, further comprising:
(Appendix 14)
the first value is 1.0;
the second value is 0.0;
When the difference between the average value of the real part of each of the complex filters and the first value is equal to or less than a first predetermined value, the filter determination unit determines the difference between the value of the real part and the first value. is small and the difference between the average value of the imaginary part of each of the complex filters and the second value is less than or equal to a second predetermined value, the difference between the value of the imaginary part and the second value is small; determine that
The audio signal processing device according to any one of appendices 11 to 13.
(Appendix 15)
When the frequency spectrum is input, the complex filter generation unit generates the complex filter using a complex filter generation model trained using machine learning to output the complex filter.
The audio signal processing device according to any one of appendices 11 to 14.
(Appendix 16)
The audio signal processing device is
a server including the time-frequency transformation unit, the complex filter generation unit, the filter determination unit, the filter application component determination unit, the filter application unit, and the time-frequency inverse transformation unit;
a client including the audio input unit and the audio output unit;
13. The audio signal processing device of
(Appendix 17)
The audio signal processing device is
a first server including the time-frequency transformation unit, the complex filter generation unit, the filter determination unit, the filter application component determination unit, the filter application unit, and the time-frequency inverse transformation unit;
a second server including the speech recognition unit;
a client including the voice input unit and the text output unit;
14. The audio signal processing device of appendix 13, comprising:
10 音声信号処理装置
16 複素数フィルタ生成部
18 フィルタ判定部
20 フィルタ適用成分決定部
51 CPU
52 一次記憶部
53 二次記憶部
31A マイク
31B スピーカ
10 audio
52
Claims (6)
取得した前記周波数スペクトルに基づいて、前記音声信号に含まれる雑音成分を除去する複素数フィルタを生成し、
前記複素数フィルタの実部の値と、前記雑音成分が存在しない場合に生成される複素数フィルタの実部の値である第1の値との比較、及び、前記複素数フィルタの虚部の値と、前記雑音成分が存在しない場合に生成される複素数フィルタの虚部の値である第2の値と、の比較の少なくとも一方を行い、
前記実部の値と前記第1の値との相違が小さい場合、前記周波数スペクトルに前記複素数フィルタの振幅成分を適用し、前記実部の値と前記第1の値との相違が小さくない場合、前記周波数スペクトルに前記複素数フィルタの振幅成分及び位相成分を適用し、前記虚部の値と前記第2の値との相違が小さい場合、前記周波数スペクトルに前記複素数フィルタの振幅成分を適用し、前記虚部の値と前記第2の値との相違が小さくない場合、前記周波数スペクトルに前記複素数フィルタの振幅成分及び位相成分を適用し、または、前記実部の値と前記第1の値との相違が小さく、前記虚部の値と前記第2の値との相違が小さい場合、前記周波数スペクトルに前記複素数フィルタの振幅成分を適用し、前記実部の値と前記第1の値との相違が小さくないか、または、前記虚部の値と前記第2の値との相違が小さくない場合、前記周波数スペクトルに前記複素数フィルタの振幅成分及び位相成分を適用することで雑音成分を除去することを決定し、
前記第1の値は1.0であり、
前記第2の値は0.0であり、
前記複素数フィルタの各々の実部の平均値と前記第1の値との差が第1所定値以下である場合、前記実部の値と前記第1の値との相違が小さく、前記複素数フィルタの各々の虚部の平均値と前記第2の値との差が第2所定値以下である場合、前記虚部の値と前記第2の値との相違が小さい、
雑音除去処理をコンピュータに実行させるための音声信号処理プログラム。 performing a time-frequency transform on an audio signal to obtain a frequency spectrum corresponding to the audio signal;
generating a complex filter that removes noise components contained in the audio signal based on the acquired frequency spectrum;
comparing the real part value of the complex filter with a first value, which is the real part value of the complex filter generated when the noise component is not present, and the imaginary part value of the complex filter; performing at least one of comparison with a second value that is the value of the imaginary part of the complex filter generated when the noise component is not present;
if the difference between the value of the real part and the first value is small, applying the amplitude component of the complex filter to the frequency spectrum, and if the difference between the value of the real part and the first value is not small; applying the amplitude and phase components of the complex filter to the frequency spectrum, and applying the amplitude component of the complex filter to the frequency spectrum if the difference between the value of the imaginary part and the second value is small; if the difference between the imaginary part value and the second value is not small, applying the amplitude and phase components of the complex filter to the frequency spectrum; or applying the real part value and the first value. is small and the difference between the imaginary part value and the second value is small, applying the amplitude component of the complex filter to the frequency spectrum, and the difference between the real part value and the first value If the difference is not small or if the difference between the value of the imaginary part and the second value is not small, removing noise components by applying amplitude and phase components of the complex filter to the frequency spectrum. decided that
the first value is 1.0;
the second value is 0.0;
when the difference between the average value of the real part of each of the complex filters and the first value is less than or equal to a first predetermined value, the difference between the real part and the first value is small, and the complex filter If the difference between the average value of each imaginary part and the second value is less than or equal to a second predetermined value, the difference between the value of the imaginary part and the second value is small,
An audio signal processing program that causes a computer to perform noise reduction processing.
前記周波数スペクトルに適用することが決定された前記複素数フィルタの成分を、前記周波数スペクトルに適用し、
前記複素数フィルタを適用した前記周波数スペクトルを音声信号に時間周波数逆変換し、
時間周波数逆変換した前記音声信号に対応する音声を音声出力部から出力する、
請求項1に記載の音声信号処理プログラム。 Acquiring the audio signal converted from the audio by the audio input unit,
applying to the frequency spectrum the components of the complex filter determined to be applied to the frequency spectrum;
inverse time-frequency transforming the frequency spectrum to which the complex filter is applied to an audio signal;
outputting audio corresponding to the audio signal subjected to the inverse time-frequency transform from an audio output unit;
The audio signal processing program according to claim 1.
前記周波数スペクトルに適用することが決定された前記複素数フィルタの成分を、前記周波数スペクトルに適用し、
前記複素数フィルタを適用した前記周波数スペクトルを音声信号に時間周波数逆変換し、
時間周波数逆変換した前記音声信号を音声認識することでテキストに変換し、
変換した前記テキストをテキスト出力部から出力する、
請求項1に記載の音声信号処理プログラム。 Acquiring the audio signal converted from the audio by the audio input unit,
applying to the frequency spectrum the components of the complex filter determined to be applied to the frequency spectrum;
inverse time-frequency transforming the frequency spectrum to which the complex filter is applied to an audio signal;
converting the time-frequency inverse-transformed speech signal into text by speech recognition;
outputting the converted text from a text output unit;
The audio signal processing program according to claim 1.
請求項1~3の何れか1項に記載の音声信号処理プログラム。 The complex filter is generated by a complex filter generation model trained using machine learning to output the complex filter when the frequency spectrum is input.
The audio signal processing program according to any one of claims 1 to 3 .
音声信号に対して時間周波数変換を行い、前記音声信号に対応する周波数スペクトルを取得し、
取得した前記周波数スペクトルに基づいて、前記音声信号に含まれる雑音成分を除去する複素数フィルタを生成し、
前記複素数フィルタの実部の値と、前記雑音成分が存在しない場合に生成される複素数フィルタの実部の値である第1の値との比較、及び、前記複素数フィルタの虚部の値と、前記雑音成分が存在しない場合に生成される複素数フィルタの虚部の値である第2の値と、の比較の少なくとも一方を行い、
前記実部の値と前記第1の値との相違が小さい場合、前記周波数スペクトルに前記複素数フィルタの振幅成分を適用し、前記実部の値と前記第1の値との相違が小さくない場合、前記周波数スペクトルに前記複素数フィルタの振幅成分及び位相成分を適用し、前記虚部の値と前記第2の値との相違が小さい場合、前記周波数スペクトルに前記複素数フィルタの振幅成分を適用し、前記虚部の値と前記第2の値との相違が小さくない場合、前記周波数スペクトルに前記複素数フィルタの振幅成分及び位相成分を適用し、または、前記実部の値と前記第1の値との相違が小さく、前記虚部の値と前記第2の値との相違が小さい場合、前記周波数スペクトルに前記複素数フィルタの振幅成分を適用し、前記実部の値と前記第1の値との相違が小さくないか、または、前記虚部の値と前記第2の値との相違が小さくない場合、前記周波数スペクトルに前記複素数フィルタの振幅成分及び位相成分を適用することで雑音成分を除去することを決定し、
前記第1の値は1.0であり、
前記第2の値は0.0であり、
前記複素数フィルタの各々の実部の平均値と前記第1の値との差が第1所定値以下である場合、前記実部の値と前記第1の値との相違が小さく、前記複素数フィルタの各々の虚部の平均値と前記第2の値との差が第2所定値以下である場合、前記虚部の値と前記第2の値との相違が小さい、
音声信号処理方法。 the computer
performing a time-frequency transform on an audio signal to obtain a frequency spectrum corresponding to the audio signal;
generating a complex filter that removes noise components contained in the audio signal based on the acquired frequency spectrum;
comparing the real part value of the complex filter with a first value, which is the real part value of the complex filter generated when the noise component is not present, and the imaginary part value of the complex filter; performing at least one of comparison with a second value that is the value of the imaginary part of the complex filter generated when the noise component is not present;
if the difference between the value of the real part and the first value is small, applying the amplitude component of the complex filter to the frequency spectrum, and if the difference between the value of the real part and the first value is not small; applying the amplitude and phase components of the complex filter to the frequency spectrum, and applying the amplitude component of the complex filter to the frequency spectrum if the difference between the value of the imaginary part and the second value is small; if the difference between the imaginary part value and the second value is not small, applying the amplitude and phase components of the complex filter to the frequency spectrum; or applying the real part value and the first value. is small and the difference between the imaginary part value and the second value is small, applying the amplitude component of the complex filter to the frequency spectrum, and the difference between the real part value and the first value If the difference is not small or if the difference between the value of the imaginary part and the second value is not small, removing noise components by applying amplitude and phase components of the complex filter to the frequency spectrum. decided that
the first value is 1.0;
the second value is 0.0;
when the difference between the average value of the real part of each of the complex filters and the first value is less than or equal to a first predetermined value, the difference between the real part and the first value is small, and the complex filter If the difference between the average value of each imaginary part and the second value is less than or equal to a second predetermined value, the difference between the value of the imaginary part and the second value is small,
Audio signal processing method.
取得した前記周波数スペクトルに基づいて、前記音声信号に含まれる雑音成分を除去する複素数フィルタを生成する複素数フィルタ生成部と、
前記複素数フィルタの実部の値と、前記雑音成分が存在しない場合に生成される複素数フィルタの実部の値である第1の値との比較、及び、前記複素数フィルタの虚部の値と、前記雑音成分が存在しない場合に生成される複素数フィルタの虚部の値である第2の値と、の比較の少なくとも一方を行うフィルタ判定部と、
前記実部の値と前記第1の値との相違が小さい場合、前記周波数スペクトルに前記複素数フィルタの振幅成分を適用し、前記実部の値と前記第1の値との相違が小さくない場合、前記周波数スペクトルに前記複素数フィルタの振幅成分及び位相成分を適用し、前記虚部の値と前記第2の値との相違が小さい場合、前記周波数スペクトルに前記複素数フィルタの振幅成分を適用し、前記虚部の値と前記第2の値との相違が小さくない場合、前記周波数スペクトルに前記複素数フィルタの振幅成分及び位相成分を適用し、または、前記実部の値と前記第1の値との相違が小さく、前記虚部の値と前記第2の値との相違が小さい場合、前記周波数スペクトルに前記複素数フィルタの振幅成分を適用し、前記実部の値と前記第1の値との相違が小さくないか、または、前記虚部の値と前記第2の値との相違が小さくない場合、前記周波数スペクトルに前記複素数フィルタの振幅成分及び位相成分を適用することで雑音成分を除去することを決定するフィルタ適用成分決定部と、
を含み、
前記第1の値は1.0であり、
前記第2の値は0.0であり、
前記複素数フィルタの各々の実部の平均値と前記第1の値との差が第1所定値以下である場合、前記実部の値と前記第1の値との相違が小さく、前記複素数フィルタの各々の虚部の平均値と前記第2の値との差が第2所定値以下である場合、前記虚部の値と前記第2の値との相違が小さい、
音声信号処理装置。 a time-frequency transform unit that performs time-frequency transform on an audio signal to acquire a frequency spectrum corresponding to the audio signal;
a complex filter generation unit that generates a complex filter that removes noise components contained in the audio signal based on the obtained frequency spectrum;
comparing the real part value of the complex filter with a first value, which is the real part value of the complex filter generated when the noise component is not present, and the imaginary part value of the complex filter; A filter determination unit that performs at least one of comparison with a second value that is an imaginary part value of a complex filter that is generated when the noise component does not exist;
if the difference between the value of the real part and the first value is small, applying the amplitude component of the complex filter to the frequency spectrum, and if the difference between the value of the real part and the first value is not small; applying the amplitude and phase components of the complex filter to the frequency spectrum, and applying the amplitude component of the complex filter to the frequency spectrum if the difference between the value of the imaginary part and the second value is small; if the difference between the imaginary part value and the second value is not small, applying the amplitude and phase components of the complex filter to the frequency spectrum; or applying the real part value and the first value. is small and the difference between the imaginary part value and the second value is small, applying the amplitude component of the complex filter to the frequency spectrum, and the difference between the real part value and the first value If the difference is not small or if the difference between the value of the imaginary part and the second value is not small, removing noise components by applying amplitude and phase components of the complex filter to the frequency spectrum. A filter application component determination unit that determines that
including
the first value is 1.0;
the second value is 0.0;
when the difference between the average value of the real part of each of the complex filters and the first value is less than or equal to a first predetermined value, the difference between the real part and the first value is small, and the complex filter If the difference between the average value of each imaginary part and the second value is less than or equal to a second predetermined value, the difference between the value of the imaginary part and the second value is small,
Audio signal processor.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018189754A JP7159767B2 (en) | 2018-10-05 | 2018-10-05 | Audio signal processing program, audio signal processing method, and audio signal processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018189754A JP7159767B2 (en) | 2018-10-05 | 2018-10-05 | Audio signal processing program, audio signal processing method, and audio signal processing device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020060612A JP2020060612A (en) | 2020-04-16 |
JP7159767B2 true JP7159767B2 (en) | 2022-10-25 |
Family
ID=70219682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018189754A Active JP7159767B2 (en) | 2018-10-05 | 2018-10-05 | Audio signal processing program, audio signal processing method, and audio signal processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7159767B2 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017520803A (en) | 2014-10-21 | 2017-07-27 | 三菱電機株式会社 | Method for converting a noisy audio signal into an enhanced audio signal |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4496379B2 (en) * | 2003-09-17 | 2010-07-07 | 財団法人北九州産業学術推進機構 | Reconstruction method of target speech based on shape of amplitude frequency distribution of divided spectrum series |
-
2018
- 2018-10-05 JP JP2018189754A patent/JP7159767B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017520803A (en) | 2014-10-21 | 2017-07-27 | 三菱電機株式会社 | Method for converting a noisy audio signal into an enhanced audio signal |
Also Published As
Publication number | Publication date |
---|---|
JP2020060612A (en) | 2020-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10614827B1 (en) | System and method for speech enhancement using dynamic noise profile estimation | |
JP5662276B2 (en) | Acoustic signal processing apparatus and acoustic signal processing method | |
US9721584B2 (en) | Wind noise reduction for audio reception | |
JP5127754B2 (en) | Signal processing device | |
JP4797342B2 (en) | Method and apparatus for automatically recognizing audio data | |
JP6054142B2 (en) | Signal processing apparatus, method and program | |
US9076446B2 (en) | Method and apparatus for robust speaker and speech recognition | |
CN111863008A (en) | Audio noise reduction method and device and storage medium | |
JP5443547B2 (en) | Signal processing device | |
JP2002268698A (en) | Voice recognition device, device and method for standard pattern generation, and program | |
JP7156084B2 (en) | SOUND SIGNAL PROCESSING PROGRAM, SOUND SIGNAL PROCESSING METHOD, AND SOUND SIGNAL PROCESSING DEVICE | |
JP7159767B2 (en) | Audio signal processing program, audio signal processing method, and audio signal processing device | |
CN110875037A (en) | Voice data processing method and device and electronic equipment | |
JP6157926B2 (en) | Audio processing apparatus, method and program | |
JP2020076907A (en) | Signal processing device, signal processing program and signal processing method | |
JP6827908B2 (en) | Speech enhancement device, speech enhancement learning device, speech enhancement method, program | |
CN112002307B (en) | Voice recognition method and device | |
JP2018205512A (en) | Electronic apparatus and noise suppression program | |
JP6282925B2 (en) | Speech enhancement device, speech enhancement method, and program | |
KR102231369B1 (en) | Method and system for playing whale sounds | |
JP6693340B2 (en) | Audio processing program, audio processing device, and audio processing method | |
CN115938382B (en) | Noise reduction control method, device, equipment and storage medium | |
JP6559427B2 (en) | Audio processing apparatus, audio processing method and program | |
CN115985337B (en) | Transient noise detection and suppression method and device based on single microphone | |
WO2007000816A1 (en) | Speech feature extracting device, speaker recognizer, program, and speech feature extracting method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210610 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220405 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220420 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220913 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220926 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7159767 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |