JP6673861B2 - 信号処理装置、信号処理方法及び信号処理プログラム - Google Patents
信号処理装置、信号処理方法及び信号処理プログラム Download PDFInfo
- Publication number
- JP6673861B2 JP6673861B2 JP2017039719A JP2017039719A JP6673861B2 JP 6673861 B2 JP6673861 B2 JP 6673861B2 JP 2017039719 A JP2017039719 A JP 2017039719A JP 2017039719 A JP2017039719 A JP 2017039719A JP 6673861 B2 JP6673861 B2 JP 6673861B2
- Authority
- JP
- Japan
- Prior art keywords
- distribution
- clean speech
- signal
- feature
- signal processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
実施の形態に係る信号処理装置について、信号処理装置全体の概略構成、信号処理装置による信号処理方法を説明する。
そこで、図1を参照して、実施の形態に係る信号処理装置の構成について説明する。図1は、実施の形態に係る信号処理装置の構成の一例を説明する図である。図1に示すように、本実施の形態に係る信号処理装置10は、特徴量計算部11、ニューラルネットワーク型クリーン音声特徴量分布推定部12(クリーン音声特徴量分布推定部)、尤度計算部13、クリーン音声状態事後確率推定部14及びクリーン音声特徴量出力部15(クリーン音声特徴量計算部)を有する。信号処理装置10の処理は、観測信号に対するクリーン音声推定値を計算するテスト処理と、ニューラルネットワークの学習処理とに分かれている。
信号処理装置10では、観測信号とクリーン音声信号との複数の組ごとに、ニューラルネットワークが学習を行っている。そして、信号処理装置10では、観測信号とクリーン音声信号との複数の組を用いて、適切なクリーン音声特徴量分布を出力するようにニューラルネットワークに学習させることによって、観測信号とクリーン音声信号との一対多の対応関係を適切にモデル化している。言い換えると、観測信号とクリーン音声の一対一対応関係を仮定してクリーン音声の特徴量そのものをニューラルネットワークで推定する従来法とは異なり、本実施の形態では、クリーン音声特徴量の分布をニューラルネットワークで推定することによって、一対多の対応関係を適切にモデル化している。
そこで、信号処理装置10によるテスト処理の流れについて説明する。信号処理装置10は、テスト処理時には、ニューラルネットワークを用いて、観測信号特徴量に基づきクリーン音声分布の推定を毎フレームごとに行い、その後、クリーン音声特徴量の最適推定を行う。クリーン音声特徴量を表す分布の形状としては、クリーン音声特徴量を適切に表現できるものであれば、どのような分布でも構わない。
次に、信号処理装置10によるテスト処理の処理手順について説明する。図5は、図1に示す信号処理装置10によるテスト処理の処理手順を示すフローチャートである。
次に、信号処理装置10による学習処理の処理手順について説明する。図6は、図1に示す信号処理装置10による学習処理の処理手順を示すフローチャートである。
本実施の形態に係る信号処理装置10の音声強調の性能を評価する目的で、次に示す評価実験を行った。実験のために、雑音下音声コーパスAurora4を用いた。Aurora4には種々の雑音を含んだ学習データが用意されているため、その全データについて観測信号特徴量と、観測信号特徴量に対応するクリーン音声特徴量をあらかじめ算出し、それを学習データセットとしてニューラルネットワークのパラメータを最適化した。最適化には、ニューラルネットワークのパラメータ最適化方法として広く用いられている確率的勾配法を用いる誤差逆伝搬法を適用した(例えば、C. Bishop, “Mixture density networks”, Ph.D. thesis, Aston University, Tech. Rep. NCRG/94/004, 1994.参照)。
このように、本実施の形態に係る信号処理装置10は、観測信号とクリーン音声信号との複数の組を用いて、適切なクリーン音声特徴量分布を出力するようにニューラルネットワークに学習させることによって、観測信号と、それを構成し得るクリーン音声と雑音及び残響との組が一対多である対応関係を適切にモデル化している。そして、本実施の形態に係る信号処理装置10は、ニューラルネットワークにおいて推定されたクリーン音声特徴量の分布を用いて、観測信号を構成するのに尤もらしいクリーン音声推定値を最適推定するため、より精度の高いクリーン音声推定値を得ることができる。したがって、本実施の形態によれば、観測信号と、それを構成し得るクリーン音声と雑音及び残響との組が一対多である対応関係を適切に扱い、正確にクリーン音声特徴量を取得することができる。
図1に示した信号処理装置10の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、信号処理装置10の機能の分散および統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。
図8は、プログラムが実行されることにより、信号処理装置10が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
11 特徴量計算部
11P 観測信号特徴量計算部
12 ニューラルネットワーク型クリーン音声特徴量分布推定部
12P ニューラルネットワーク型クリーン音声特徴量推定部
13 尤度計算部
14 クリーン音声状態事後確率推定部
15 クリーン音声特徴量出力部
Claims (5)
- 入力を受け付けた観測信号から観測信号特徴量を計算する特徴量計算部と、
前記観測信号特徴量を基にニューラルネットワークを用いてクリーン音声特徴量の分布を推定するクリーン音声特徴量分布推定部と、
前記クリーン音声特徴量分布推定部が推定したクリーン音声特徴量の分布と、前記特徴量計算部が計算した観測信号特徴量とを基に、前記観測信号に含まれるクリーン音声特徴量が前記クリーン音声特徴量の分布のどの状態を取り得る確率が高いかを示す値であるクリーン音声状態事後確率を推定する事後確率推定部と、
前記クリーン音声状態事後確率と前記観測信号特徴量とを基に、前記クリーン音声特徴量の最適推定値を計算するクリーン音声特徴量計算部と、
を有することを特徴とする信号処理装置。 - 前記クリーン音声特徴量の分布は、時変のガウス分布或いはガウス混合分布で表されることを特徴とする請求項1に記載の信号処理装置。
- 音声信号を処理する信号処理装置が実行する信号処理方法であって、
入力を受け付けた観測信号から観測信号特徴量を計算する工程と、
前記観測信号特徴量を基にニューラルネットワークを用いてクリーン音声特徴量の分布を推定する工程と、
前記クリーン音声特徴量の分布と前記観測信号特徴量とを基に、前記観測信号に含まれるクリーン音声特徴量が前記クリーン音声特徴量の分布のどの状態を取り得る確率が高いかを示す値であるクリーン音声状態事後確率を推定する工程と、
前記クリーン音声状態事後確率と、前記観測信号特徴量とを基に、前記クリーン音声特徴量の最適推定値を計算する工程と、
を含んだことを特徴とする信号処理方法。 - 前記クリーン音声特徴量の分布は、時変のガウス分布或いはガウス混合分布で表されることを特徴とする請求項3に記載の信号処理方法。
- コンピュータを、請求項1または2に記載の信号処理装置として機能させるための信号処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017039719A JP6673861B2 (ja) | 2017-03-02 | 2017-03-02 | 信号処理装置、信号処理方法及び信号処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017039719A JP6673861B2 (ja) | 2017-03-02 | 2017-03-02 | 信号処理装置、信号処理方法及び信号処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018146683A JP2018146683A (ja) | 2018-09-20 |
JP6673861B2 true JP6673861B2 (ja) | 2020-03-25 |
Family
ID=63590008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017039719A Active JP6673861B2 (ja) | 2017-03-02 | 2017-03-02 | 信号処理装置、信号処理方法及び信号処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6673861B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112022002371T5 (de) | 2021-04-30 | 2024-04-04 | Sony Group Corporation | Datenverarbeitungsvorrichtung, datenverarbeitungsverfahren, datenverarbeitungssystem und programm |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7620546B2 (en) * | 2004-03-23 | 2009-11-17 | Qnx Software Systems (Wavemakers), Inc. | Isolating speech signals utilizing neural networks |
JP5438703B2 (ja) * | 2011-02-22 | 2014-03-12 | 日本電信電話株式会社 | 特徴量強調装置、特徴量強調方法、及びそのプログラム |
JP6367773B2 (ja) * | 2015-08-12 | 2018-08-01 | 日本電信電話株式会社 | 音声強調装置、音声強調方法及び音声強調プログラム |
JP6499095B2 (ja) * | 2016-01-29 | 2019-04-10 | 日本電信電話株式会社 | 信号処理方法、信号処理装置及び信号処理プログラム |
-
2017
- 2017-03-02 JP JP2017039719A patent/JP6673861B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018146683A (ja) | 2018-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、***及装置 | |
CN111161752B (zh) | 回声消除方法和装置 | |
KR101153093B1 (ko) | 다감각 음성 향상을 위한 방법 및 장치 | |
JP6243858B2 (ja) | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム | |
CN107393550B (zh) | 语音处理方法及装置 | |
CN108922544B (zh) | 通用向量训练方法、语音聚类方法、装置、设备及介质 | |
JP4316583B2 (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
CN108922543B (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
WO2018223727A1 (zh) | 识别声纹的方法、装置、设备及介质 | |
JPWO2009133719A1 (ja) | 音響モデル学習装置および音声認識装置 | |
CN109065022B (zh) | i-vector向量提取方法、说话人识别方法、装置、设备及介质 | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
BR112021012308A2 (pt) | Aparelho e método para separação de fonte com o uso de uma estimativa e controle de qualidade de som | |
JP2013037174A (ja) | 雑音/残響除去装置とその方法とプログラム | |
CN110797033A (zh) | 基于人工智能的声音识别方法、及其相关设备 | |
WO2023116660A2 (zh) | 一种模型训练以及音色转换方法、装置、设备及介质 | |
KR102026226B1 (ko) | 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템 | |
Poorjam et al. | A parametric approach for classification of distortions in pathological voices | |
JP6673861B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
CN111128222A (zh) | 语音分离方法、语音分离模型训练方法和计算机可读介质 | |
JP2008209445A (ja) | 残響除去装置、残響除去方法、残響除去プログラム、記録媒体 | |
JP4729534B2 (ja) | 残響除去装置、残響除去方法、残響除去プログラム、および、その記録媒体 | |
JP6734237B2 (ja) | 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム | |
WO2020015546A1 (zh) | 一种远场语音识别方法、语音识别模型训练方法和服务器 | |
JP2017134321A (ja) | 信号処理方法、信号処理装置及び信号処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191224 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200303 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200305 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6673861 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |