JP6054142B2 - 信号処理装置、方法およびプログラム - Google Patents
信号処理装置、方法およびプログラム Download PDFInfo
- Publication number
- JP6054142B2 JP6054142B2 JP2012240669A JP2012240669A JP6054142B2 JP 6054142 B2 JP6054142 B2 JP 6054142B2 JP 2012240669 A JP2012240669 A JP 2012240669A JP 2012240669 A JP2012240669 A JP 2012240669A JP 6054142 B2 JP6054142 B2 JP 6054142B2
- Authority
- JP
- Japan
- Prior art keywords
- background sound
- component
- voice
- filter
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 65
- 238000000034 method Methods 0.000 title description 35
- 239000011159 matrix material Substances 0.000 claims description 86
- 238000000926 separation method Methods 0.000 claims description 42
- 238000004364 calculation method Methods 0.000 claims description 31
- 230000005236 sound signal Effects 0.000 claims description 30
- 239000000284 extract Substances 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000003672 processing method Methods 0.000 claims 1
- 238000001228 spectrum Methods 0.000 description 90
- 238000010586 diagram Methods 0.000 description 19
- 238000011156 evaluation Methods 0.000 description 17
- 238000003860 storage Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 13
- 230000000694 effects Effects 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000006872 improvement Effects 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 6
- 230000001629 suppression Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 101100148545 Caenorhabditis elegans snr-5 gene Proteins 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
第1の実施形態の信号処理装置は、声信号および背景音信号を含んだ音響信号を声信号と背景音信号とに分離する。例えば、本実施形態の信号処理装置を音声認識の前処理として利用することにより、音声認識の認識性能を向上させることができる。また、映像視聴の際に、抽出した声信号と背景音信号の混合率を変更することで、所望の信号を聴き取りやすくすることができる。
FV1ti=
|V1’ti|^L/(|V1’ti|^L+|A1’ti|^L)・・・(1)
FB1ti=
|A1’ti|^L/(|V1’ti|^L+|A1’ti|^L)・・・(2)
Vti=Xti×FV1ti・・・(3)
次に、第2の実施形態にかかる信号処理装置について説明する。図10は、第2の実施形態にかかる信号処理装置200の構成の一例を示すブロック図である。図10に示すように、信号処理装置200は、取得部101と、算出部102と、第1背景音推定部103と、代表成分推定部104と、第1声推定部105と、第1フィルタ作成部106と、第2背景音推定部401と、第2声推定部402と、第2フィルタ作成部403と、第3フィルタ作成部404と、分離部405と、を備える。
FV2ti=
|V2’ti|^L/(|V2’ti|^L+|B2’i|^L)・・・(4)
FB2ti=
|B2’i|^L/(|V2’ti|^L+|B2’i|^L)・・・(5)
FV3ti=α×FV1ti+(1−α)×FV2ti・・・(6)
FB3ti=α×FB1ti+(1−α)×FB2ti・・・(7)
FB3ti=1−FV3ti・・・(8)
V3ti=
α×|V1’ti|^L+(1−α)×|V2’ti|^L・・・(9)
B3ti=
α×|B1’ti|^L+(1−α)×|B2’i|^L・・・(10)
FV3ti=
|V3ti|^L/(|V3ti|^L+|B3ti|^L)・・・(11)
Vti=Xti×FV1ti・・・(12)
次に、第3の実施形態にかかる信号処理装置について説明する。図17は、第3の実施形態にかかる信号処理装置300の構成の一例を示すブロック図である。図17に示すように、信号処理装置300は、取得部101と、算出部102と、第1背景音推定部103と、代表成分推定部104と、第1声推定部105と、第1フィルタ作成部106と、第2背景音推定部401と、第2声推定部402と、第2フィルタ作成部403と、第3フィルタ作成部404と、分離部405と、混合率取得部601と、混合部602と、を備える。
101 取得部
102 算出部
103 第1背景音推定部
104 代表成分推定部
105 第1声推定部
106 第1フィルタ作成部
107 分離部
200 信号処理装置
201 制御部
202 記憶部
203 外部記憶部
204 操作部
205 通信部
206 マイク
207 バス
401 第2背景音推定部
402 第2声推定部
403 第2フィルタ作成部
404 第2フィルタ作成部
405 分離部
Claims (12)
- 音響信号を周波数分析して得られる前記音響信号の特徴量を取得する取得部と、
前記特徴量から、前記特徴量の背景音成分のうち非定常性を持つ第1背景音成分を推定する第1背景音推定部と、
一定時間に取得された1以上の前記特徴量から推定された前記第1背景音成分の最大値に基づいて、前記一定時間内の前記第1背景音成分を代表する代表成分を推定する代表成分推定部と、
前記特徴量から、前記特徴量の声成分である第1声成分を推定する第1声推定部と、
前記第1声成分と前記代表成分とに基づいて、前記特徴量から声成分および背景音成分を抽出する第1フィルタを作成する第1フィルタ作成部と、
前記第1フィルタを用いて、前記音響信号を声信号および背景音信号に分離する分離部と、
を備える信号処理装置。 - 前記特徴量から、前記特徴量の背景音成分のうち定常性を持つ第2背景音成分を推定する第2背景音推定部と、
前記特徴量と前記第1背景音成分と前記第2背景音成分を用いて、前記特徴量の声成分である第2声成分を推定する第2声推定部と、
前記第2声成分と前記第2背景音成分とに基づいて、前記特徴量から声成分および背景音成分を抽出する第2フィルタを作成する第2フィルタ作成部と、
前記第1フィルタと前記第2フィルタを統合した第3フィルタを作成する第3フィルタ作成部と、をさらに備え、
前記分離部は、前記第3フィルタを用いて、前記音響信号を声信号および背景音信号に分離する、
請求項1に記載の信号処理装置。 - 分離された前記声信号および前記背景音信号の混合率を取得する混合率取得部と、
前記混合率に基づいて前記声信号および前記背景音信号を混合した混合音を作成する混合部と、をさらに備える、
請求項2に記載の信号処理装置。 - 前記第2背景音推定部は、前記一定時間分の前記特徴量の平均値を前記第2背景音成分として推定する、
請求項2に記載の信号処理装置。 - 前記第2声推定部は、前記第1背景音成分および前記第2背景音成分のうち最大値を前記特徴量から減算した値を前記第2声成分として推定する、
請求項2に記載の信号処理装置。 - 前記第3フィルタ作成部は、前記第1フィルタと前記第2フィルタとの重み付き加算により前記第3フィルタを作成する、
請求項2に記載の信号処理装置。 - 前記第1背景音推定部は、前記一定時間に取得される前記特徴量から前記第1背景音成分を推定する、
請求項1に記載の信号処理装置。 - 前記一定時間に取得される前記特徴量を用いて、非負行列因子分解により背景音を表す背景音基底行列を算出する算出部をさらに備え、
前記第1背景音推定部は、声を表す声基底行列と前記背景音基底行列とを用いて前記第1背景音成分を推定する、
請求項7に記載の信号処理装置。 - 前記代表成分推定部は、前記一定時間に取得された前記特徴量の最大値を前記代表成分として推定する、
請求項1に記載の信号処理装置。 - 前記一定時間に取得される前記特徴量を用いて、非負行列因子分解により背景音を表す背景音基底行列を算出する算出部をさらに備え、
前記第1声推定部は、声を表す声基底行列と前記背景音基底行列とを用いて前記第1声成分を推定する、
請求項1に記載の信号処理装置。 - 音響信号を周波数分析して得られる前記音響信号の特徴量を取得する取得ステップと、
前記特徴量から、前記特徴量の背景音成分のうち非定常性を持つ第1背景音成分を推定する第1背景音推定ステップと、
一定時間に取得された1以上の前記特徴量から推定された前記第1背景音成分の最大値に基づいて、前記一定時間内の前記第1背景音成分を代表する代表成分を推定する代表成分推定ステップと、
前記特徴量から、前記特徴量の声成分である第1声成分を推定する第1声推定ステップと、
前記第1声成分と前記代表成分とに基づいて、前記特徴量から声成分および背景音成分を抽出する第1フィルタを作成する第1フィルタ作成ステップと、
前記第1フィルタを用いて、前記音響信号を声信号および背景音信号に分離する分離ステップと、
を含む信号処理方法。 - コンピュータを、
音響信号を周波数分析して得られる前記音響信号の特徴量を取得する取得部と、
前記特徴量から、前記特徴量の背景音成分のうち非定常性を持つ第1背景音成分を推定する第1背景音推定部と、
一定時間に取得された1以上の前記特徴量から推定された前記第1背景音成分の最大値に基づいて、前記一定時間内の前記第1背景音成分を代表する代表成分を推定する代表成分推定部と、
前記特徴量から、前記特徴量の声成分である第1声成分を推定する第1声推定部と、
前記第1声成分と前記代表成分とに基づいて、前記特徴量から声成分および背景音成分を抽出する第1フィルタを作成する第1フィルタ作成部と、
前記第1フィルタを用いて、前記音響信号を声信号および背景音信号に分離する分離部、
として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012240669A JP6054142B2 (ja) | 2012-10-31 | 2012-10-31 | 信号処理装置、方法およびプログラム |
US14/058,829 US9478232B2 (en) | 2012-10-31 | 2013-10-21 | Signal processing apparatus, signal processing method and computer program product for separating acoustic signals |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012240669A JP6054142B2 (ja) | 2012-10-31 | 2012-10-31 | 信号処理装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014089420A JP2014089420A (ja) | 2014-05-15 |
JP6054142B2 true JP6054142B2 (ja) | 2016-12-27 |
Family
ID=50548149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012240669A Active JP6054142B2 (ja) | 2012-10-31 | 2012-10-31 | 信号処理装置、方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9478232B2 (ja) |
JP (1) | JP6054142B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015118361A (ja) * | 2013-11-15 | 2015-06-25 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP6371516B2 (ja) * | 2013-11-15 | 2018-08-08 | キヤノン株式会社 | 音響信号処理装置および方法 |
CN105976829B (zh) * | 2015-03-10 | 2021-08-20 | 松下知识产权经营株式会社 | 声音处理装置、声音处理方法 |
US9837100B2 (en) | 2015-05-05 | 2017-12-05 | Getgo, Inc. | Ambient sound rendering for online meetings |
JP6501259B2 (ja) * | 2015-08-04 | 2019-04-17 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
JP6559576B2 (ja) | 2016-01-05 | 2019-08-14 | 株式会社東芝 | 雑音抑圧装置、雑音抑圧方法及びプログラム |
US10325588B2 (en) | 2017-09-28 | 2019-06-18 | International Business Machines Corporation | Acoustic feature extractor selected according to status flag of frame of acoustic signal |
WO2019133732A1 (en) * | 2017-12-28 | 2019-07-04 | Knowles Electronics, Llc | Content-based audio stream separation |
JP7000991B2 (ja) * | 2018-05-23 | 2022-01-19 | 株式会社リコー | 状態識別装置、状態識別方法および状態識別プログラム |
JP2021113888A (ja) * | 2020-01-17 | 2021-08-05 | Tvs Regza株式会社 | 環境音出力装置、システム、方法およびプログラム |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4628529A (en) * | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
WO1995002288A1 (en) * | 1993-07-07 | 1995-01-19 | Picturetel Corporation | Reduction of background noise for speech enhancement |
US6920424B2 (en) * | 2000-04-20 | 2005-07-19 | International Business Machines Corporation | Determination and use of spectral peak information and incremental information in pattern recognition |
JP2002221988A (ja) * | 2001-01-25 | 2002-08-09 | Toshiba Corp | 音声信号の雑音抑圧方法と装置及び音声認識装置 |
JP3887247B2 (ja) * | 2002-03-11 | 2007-02-28 | 日本電信電話株式会社 | 信号分離装置およびその方法、信号分離プログラム並びにそのプログラムを記録した記録媒体 |
US7415392B2 (en) * | 2004-03-12 | 2008-08-19 | Mitsubishi Electric Research Laboratories, Inc. | System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution |
US7492814B1 (en) * | 2005-06-09 | 2009-02-17 | The U.S. Government As Represented By The Director Of The National Security Agency | Method of removing noise and interference from signal using peak picking |
US7464029B2 (en) * | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
JP4952979B2 (ja) * | 2006-04-27 | 2012-06-13 | 独立行政法人理化学研究所 | 信号分離装置、信号分離方法、ならびに、プログラム |
JP4234746B2 (ja) * | 2006-09-25 | 2009-03-04 | 株式会社東芝 | 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム |
US8489396B2 (en) * | 2007-07-25 | 2013-07-16 | Qnx Software Systems Limited | Noise reduction with integrated tonal noise reduction |
CN101816191B (zh) * | 2007-09-26 | 2014-09-17 | 弗劳恩霍夫应用研究促进协会 | 用于提取环境信号的装置和方法 |
DE102007048973B4 (de) * | 2007-10-12 | 2010-11-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung |
US8015003B2 (en) | 2007-11-19 | 2011-09-06 | Mitsubishi Electric Research Laboratories, Inc. | Denoising acoustic signals using constrained non-negative matrix factorization |
US20090248411A1 (en) * | 2008-03-28 | 2009-10-01 | Alon Konchitsky | Front-End Noise Reduction for Speech Recognition Engine |
US8577677B2 (en) * | 2008-07-21 | 2013-11-05 | Samsung Electronics Co., Ltd. | Sound source separation method and system using beamforming technique |
US20100082339A1 (en) * | 2008-09-30 | 2010-04-01 | Alon Konchitsky | Wind Noise Reduction |
KR20100111499A (ko) * | 2009-04-07 | 2010-10-15 | 삼성전자주식회사 | 목적음 추출 장치 및 방법 |
US8787591B2 (en) * | 2009-09-11 | 2014-07-22 | Texas Instruments Incorporated | Method and system for interference suppression using blind source separation |
JP5387459B2 (ja) * | 2010-03-11 | 2014-01-15 | 富士通株式会社 | 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム |
US8874441B2 (en) * | 2011-01-19 | 2014-10-28 | Broadcom Corporation | Noise suppression using multiple sensors of a communication device |
JP5662276B2 (ja) | 2011-08-05 | 2015-01-28 | 株式会社東芝 | 音響信号処理装置および音響信号処理方法 |
JP2013171089A (ja) | 2012-02-17 | 2013-09-02 | Toshiba Corp | 音声補正装置、方法、及びプログラム |
-
2012
- 2012-10-31 JP JP2012240669A patent/JP6054142B2/ja active Active
-
2013
- 2013-10-21 US US14/058,829 patent/US9478232B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20140122068A1 (en) | 2014-05-01 |
US9478232B2 (en) | 2016-10-25 |
JP2014089420A (ja) | 2014-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6054142B2 (ja) | 信号処理装置、方法およびプログラム | |
CN112447191B (zh) | 信号处理装置以及信号处理方法 | |
AU2016253695B2 (en) | Frequency band extending device and method, encoding device and method, decoding device and method, and program | |
CN104080024B (zh) | 音量校平器控制器和控制方法以及音频分类器 | |
JP2019216408A (ja) | 情報を出力するための方法、及び装置 | |
JP5127754B2 (ja) | 信号処理装置 | |
JP6482173B2 (ja) | 音響信号処理装置およびその方法 | |
US10152986B2 (en) | Acoustic processing apparatus, acoustic processing method, and computer program product | |
US9412391B2 (en) | Signal processing device, signal processing method, and computer program product | |
CN111465982A (zh) | 信号处理设备和方法、训练设备和方法以及程序 | |
KR20190129805A (ko) | 잡음 환경 분류 및 제거 기능을 갖는 보청기 및 그 방법 | |
JP6348427B2 (ja) | 雑音除去装置及び雑音除去プログラム | |
US9601124B2 (en) | Acoustic matching and splicing of sound tracks | |
Westhausen et al. | Reduction of subjective listening effort for TV broadcast signals with recurrent neural networks | |
JP4960933B2 (ja) | 音響信号強調装置とその方法と、プログラムと記録媒体 | |
JP5443547B2 (ja) | 信号処理装置 | |
US9648411B2 (en) | Sound processing apparatus and sound processing method | |
JP7156084B2 (ja) | 音信号処理プログラム、音信号処理方法及び音信号処理装置 | |
JP6724290B2 (ja) | 音響処理装置、音響処理方法、及び、プログラム | |
US9930466B2 (en) | Method and apparatus for processing audio content | |
US20140140519A1 (en) | Sound processing device, sound processing method, and program | |
JP6827908B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
JP7159767B2 (ja) | 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 | |
KR102113542B1 (ko) | 심층신경망을 이용하여 음향 신호를 정규화하는 방법 | |
WO2019208137A1 (ja) | 音源分離装置、その方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150904 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20151102 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161101 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161130 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6054142 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |