JP2019090930A - 音源強調装置、音源強調学習装置、音源強調方法、プログラム - Google Patents
音源強調装置、音源強調学習装置、音源強調方法、プログラム Download PDFInfo
- Publication number
- JP2019090930A JP2019090930A JP2017219757A JP2017219757A JP2019090930A JP 2019090930 A JP2019090930 A JP 2019090930A JP 2017219757 A JP2017219757 A JP 2017219757A JP 2017219757 A JP2017219757 A JP 2017219757A JP 2019090930 A JP2019090930 A JP 2019090930A
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- sound
- sound source
- output sound
- frequency conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
以下、本発明の実施の形態の技術的背景として、実数で定義された周波数変換の一つである修正離散コサイン変換(MDCT: Modified Discrete Cosine Transform)を用いた深層学習について説明する。その前に、従来技術である非特許文献5に記載の方法について説明する。
時間領域において、目的音をσt、雑音をνtとおき、観測信号χtを以下のように表現する。
DL音源強調では、時間フレームkの時間周波数マスクを縦に並べたベクトルGk:=(G1,k, …, GΩ,k)Tを以下のように推定する。
従来のDFT領域のDL音源強調では、DFTスペクトルが複素数であるため、目的音を完全に復元する時間周波数マスクを推定するには、非特許文献5のcIRMのように、複素数の実部と虚部を個別に推定するニューラルネットワークを利用する必要があった。
ここでは、MDCTを行列形式で説明する。まず、観測信号χt(1≦t≦T)を重なりのないK個(ただし、Kは1以上の整数)のブロックへ分割する。ここでk番目のブロックの観測信号xkは以下のように表現できる。
ここでは、パラメータΘの学習アルゴリズムについて説明する。まず、参考非特許文献1にならい、MDCT領域における時間周波数マスクによる音源強調を以下のように定義する。
(参考非特許文献1:F. Keuch and B. Elder, “Aliasing reduction for modified discrete cosine transform domain filtering and its application to speech enhancement”, In Proc WASPAA, 2007.)
ここでは、<技術的背景>で説明した学習アルゴリズムに基づいて構成した音源強調学習装置100について説明する。
以上の説明では、実数で定義された周波数変換としてMDCTを用いて説明したが、前述の通り、DCTやDSTなどの別の周波数変換を利用してもよい。MDCTのようなlapped transformを利用しない場合、行列Cは2L×2Lの行列となるため、回帰関数の出力となる時間周波数マスクの個数は増加してしまうものの、式(19)のようなend-to-end型の学習アルゴリズムとして構成することはできる。
以上の説明では、音響特徴量を入力する回帰関数を用いた音源強調処理について説明したが、音響特徴量の代わりに、周波数変換スペクトルを用いてもよい。
ここでは、第一実施形態の音源強調学習装置100が生成したパラメータを用いて音源強調を行う音源強調装置300について説明する。
入力された観測信号χt(1≦t≦T)をブロックに分割して処理するのでなく、そのまま処理することもできる。以下、そのような構成である音源強調装置400について説明する。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (8)
- Tを1以上の整数とし、
ニューラルネットワークのパラメータΘを用いて、観測信号χt(1≦t≦T)から、当該観測信号χt(1≦t≦T)に含まれる目的音を強調した出力音^σt(1≦t≦T)を推定する音源強調装置であって、
実数で定義された周波数変換を用いて、前記観測信号χt(1≦t≦T)から、観測信号周波数変換スペクトルXt C(1≦t≦T)を生成する周波数変換部と、
前記観測信号周波数変換スペクトルXt C(1≦t≦T)から、音響特徴量ψt(1≦t≦T)を抽出する音響特徴量抽出部と、
前記パラメータΘを用いたニューラルネットワークにより、前記音響特徴量ψt(1≦t≦T)から、時間周波数マスク^Gt C(1≦t≦T)を推定する時間周波数マスク推定部と、
前記時間周波数マスク^Gt C(1≦t≦T)と前記観測信号周波数変換スペクトルXt C(1≦t≦T)から、出力音周波数変換スペクトル^St C(1≦t≦T)を生成する時間周波数マスク処理部と、
実数で定義された逆周波数変換を用いて、前記出力音周波数変換スペクトル^St C(1≦t≦T)から、歪み出力音^st C(1≦t≦T)を生成する逆周波数変換部と、
前記歪み出力音^st C(1≦t≦T)から、前記出力音^σt(1≦t≦T)を生成する重畳加算部と
を含む音源強調装置。 - 請求項1に記載の音源強調装置であって、
前記実数で定義された周波数変換は、修正離散コサイン変換であり、
前記実数で定義された逆周波数変換は、逆修正離散コサイン変換である
ことを特徴とする音源強調装置。 - Tを1以上の整数、Kを1以上の整数とし、
ニューラルネットワークのパラメータΘを用いて、観測信号χt(1≦t≦T)から、当該観測信号χt(1≦t≦T)を重なりのないK個のブロックへ分割した分割観測信号xk(1≦k≦K)に含まれる目的音を強調した分割出力音^sk(1≦k≦K)を推定する音源強調処理部と、
前記分割出力音^sk(1≦k≦K)から、前記観測信号χt(1≦t≦T)に含まれる目的音を強調した出力音^σt(1≦t≦T)を生成する分割出力音統合部と
を含む音源強調装置であって、
前記音源強調処理部は、
前記観測信号χt(1≦t≦T)から、前記分割観測信号xk(1≦k≦K)を生成する観測信号分割部と、
実数で定義された周波数変換を用いて、前記分割観測信号xk(1≦k≦K)から、観測信号周波数変換スペクトルXk C(1≦k≦K)を生成する周波数変換部と、
前記観測信号周波数変換スペクトルXk C(1≦k≦K)から、音響特徴量ψk(1≦k≦K)を抽出する音響特徴量抽出部と、
前記パラメータΘを用いたニューラルネットワークにより、前記音響特徴量ψk(1≦k≦K)から、時間周波数マスク^Gk C(1≦k≦K)を推定する時間周波数マスク推定部と、
前記時間周波数マスク^Gk C(1≦k≦K)と前記観測信号周波数変換スペクトルXk C(1≦k≦K)から、出力音周波数変換スペクトル^Sk C(1≦k≦K)を生成する時間周波数マスク処理部と、
実数で定義された逆周波数変換を用いて、前記出力音周波数変換スペクトル^Sk C(1≦k≦K)から、歪み分割出力音^sk C(1≦k≦K)を生成する逆周波数変換部と、
前記歪み分割出力音^sk C(1≦k≦K)から、重畳加算により、前記分割出力音^sk(1≦k≦K)を生成する重畳加算部と
を含む音源強調装置。 - Tを1以上の整数、Kを1以上の整数とし、
目的音学習データσt(1≦t≦T)と雑音学習データνt(1≦t≦T)から観測信号χt(1≦t≦T)を生成する信号重畳部と、
ニューラルネットワークのパラメータΘを用いて、前記観測信号χt(1≦t≦T)から、当該観測信号χt(1≦t≦T)を重なりのないK個のブロックへ分割した分割観測信号xk(1≦k≦K)に含まれる目的音を強調した分割出力音^sk(1≦k≦K)を推定する音源強調処理部と、
前記分割出力音^sk(1≦k≦K)と前記目的音学習データσt(1≦t≦T)から、出力音の推定誤差を示す目的関数T(Θ)の値を計算する目的関数計算部と、
前記目的関数T(Θ)の値を最適化するように前記パラメータΘを更新するパラメータ更新部と、
所定の収束条件が満たされた場合に前記パラメータΘを出力する収束判定部と
を含む音源強調学習装置であって、
前記目的関数T(Θ)は、
ことを特徴とする音源強調学習装置。 - Tを1以上の整数とし、
音源強調装置が、ニューラルネットワークのパラメータΘを用いて、観測信号χt(1≦t≦T)から、当該観測信号χt(1≦t≦T)に含まれる目的音を強調した出力音^σt(1≦t≦T)を推定する音源強調方法であって、
前記音源強調装置が、実数で定義された周波数変換を用いて、前記観測信号χt(1≦t≦T)から、観測信号周波数変換スペクトルXt C(1≦t≦T)を生成する周波数変換ステップと、
前記音源強調装置が、前記観測信号周波数変換スペクトルXt C(1≦t≦T)から、音響特徴量ψt(1≦t≦T)を抽出する音響特徴量抽出ステップと、
前記音源強調装置が、前記パラメータΘを用いたニューラルネットワークにより、前記音響特徴量ψt(1≦t≦T)から、時間周波数マスク^Gt C(1≦t≦T)を推定する時間周波数マスク推定ステップと、
前記音源強調装置が、前記時間周波数マスク^Gt C(1≦t≦T)と前記観測信号周波数変換スペクトルXt C(1≦t≦T)から、出力音周波数変換スペクトル^St C(1≦t≦T)を生成する時間周波数マスク処理ステップと、
前記音源強調装置が、実数で定義された逆周波数変換を用いて、前記出力音周波数変換スペクトル^St C(1≦t≦T)から、歪み出力音^st C(1≦t≦T)を生成する逆周波数変換部と、
前記音源強調装置が、前記歪み出力音^st C(1≦t≦T)から、前記出力音^σt(1≦t≦T)を生成する重畳加算ステップと
を含む音源強調方法。 - Tを1以上の整数、Kを1以上の整数とし、
音源強調装置が、ニューラルネットワークのパラメータΘを用いて、観測信号χt(1≦t≦T)から、当該観測信号χt(1≦t≦T)を重なりのないK個のブロックへ分割した分割観測信号xk(1≦k≦K)に含まれる目的音を強調した分割出力音^sk(1≦k≦K)を推定する音源強調処理ステップと、
前記音源強調装置が、前記分割出力音^sk(1≦k≦K)から、前記観測信号χt(1≦t≦T)に含まれる目的音を強調した出力音σt(1≦t≦T)を生成する分割出力音統合ステップと
を含む音源強調方法であって、
前記音源強調処理ステップは、
前記観測信号χt(1≦t≦T)から、前記分割観測信号xk(1≦k≦K)を生成する観測信号分割ステップと、
実数で定義された周波数変換を用いて、前記分割観測信号xk(1≦k≦K)から、観測信号周波数変換スペクトルXk C(1≦k≦K)を生成する周波数変換ステップと、
前記観測信号周波数変換スペクトルXk C(1≦k≦K)から、音響特徴量ψk(1≦k≦K)を抽出する音響特徴量抽出ステップと、
前記パラメータΘを用いたニューラルネットワークにより、前記音響特徴量ψk(1≦k≦K)から、時間周波数マスク^Gk C(1≦k≦K)を推定する時間周波数マスク推定ステップと、
前記時間周波数マスク^Gk C(1≦k≦K)と前記観測信号周波数変換スペクトルXk C(1≦k≦K)から、出力音周波数変換スペクトル^Sk C(1≦k≦K)を生成する時間周波数マスク処理ステップと、
実数で定義された逆周波数変換を用いて、前記出力音周波数変換スペクトル^Sk C(1≦k≦K)から、歪み分割出力音^sk C(1≦k≦K)を生成する逆周波数変換ステップと、
前記歪み分割出力音^sk C(1≦k≦K)から、重畳加算により、前記分割出力音^sk(1≦k≦K)を生成する重畳加算ステップと
を含む音源強調方法。 - 請求項1ないし4のいずれか1項に記載の音源強調装置または請求項5に記載の音源強調学習装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017219757A JP6827908B2 (ja) | 2017-11-15 | 2017-11-15 | 音源強調装置、音源強調学習装置、音源強調方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017219757A JP6827908B2 (ja) | 2017-11-15 | 2017-11-15 | 音源強調装置、音源強調学習装置、音源強調方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019090930A true JP2019090930A (ja) | 2019-06-13 |
JP6827908B2 JP6827908B2 (ja) | 2021-02-10 |
Family
ID=66836303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017219757A Active JP6827908B2 (ja) | 2017-11-15 | 2017-11-15 | 音源強調装置、音源強調学習装置、音源強調方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6827908B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021144934A1 (ja) * | 2020-01-16 | 2021-07-22 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0566795A (ja) * | 1991-09-06 | 1993-03-19 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | 雑音抑圧装置とその調整装置 |
JP2017520803A (ja) * | 2014-10-21 | 2017-07-27 | 三菱電機株式会社 | ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 |
WO2017141317A1 (ja) * | 2016-02-15 | 2017-08-24 | 三菱電機株式会社 | 音響信号強調装置 |
-
2017
- 2017-11-15 JP JP2017219757A patent/JP6827908B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0566795A (ja) * | 1991-09-06 | 1993-03-19 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | 雑音抑圧装置とその調整装置 |
JP2017520803A (ja) * | 2014-10-21 | 2017-07-27 | 三菱電機株式会社 | ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 |
WO2017141317A1 (ja) * | 2016-02-15 | 2017-08-24 | 三菱電機株式会社 | 音響信号強調装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021144934A1 (ja) * | 2020-01-16 | 2021-07-22 |
Also Published As
Publication number | Publication date |
---|---|
JP6827908B2 (ja) | 2021-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4774100B2 (ja) | 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 | |
JP5124014B2 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
JP5666444B2 (ja) | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 | |
JP4818335B2 (ja) | 信号帯域拡張装置 | |
JP5634959B2 (ja) | 雑音/残響除去装置とその方法とプログラム | |
JP2008158035A (ja) | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 | |
JP5148414B2 (ja) | 信号帯域拡張装置 | |
Ganapathy | Multivariate autoregressive spectrogram modeling for noisy speech recognition | |
JP2009212599A (ja) | 残響除去装置とその方法と、そのプログラムと記録媒体 | |
JP2007065204A (ja) | 残響除去装置、残響除去方法、残響除去プログラム及びその記録媒体 | |
JP6348427B2 (ja) | 雑音除去装置及び雑音除去プログラム | |
US9601124B2 (en) | Acoustic matching and splicing of sound tracks | |
KR20220022286A (ko) | 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치 | |
Saleem et al. | Spectral phase estimation based on deep neural networks for single channel speech enhancement | |
JP4960933B2 (ja) | 音響信号強調装置とその方法と、プログラムと記録媒体 | |
JP6721165B2 (ja) | 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム | |
JP6827908B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
JP2010044150A (ja) | 残響除去装置、残響除去方法、そのプログラムおよび記録媒体 | |
US11676619B2 (en) | Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program | |
JP2006215228A (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
Mallidi et al. | Robust speaker recognition using spectro-temporal autoregressive models. | |
JP6849978B2 (ja) | 音声明瞭度計算方法、音声明瞭度計算装置及び音声明瞭度計算プログラム | |
JP6912780B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
Li et al. | Robust Non‐negative matrix factorization with β‐divergence for speech separation | |
WO2021100094A1 (ja) | 音源信号推定装置、音源信号推定方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191219 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200918 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200929 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210120 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6827908 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |