JP2015118361A - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP2015118361A
JP2015118361A JP2014158122A JP2014158122A JP2015118361A JP 2015118361 A JP2015118361 A JP 2015118361A JP 2014158122 A JP2014158122 A JP 2014158122A JP 2014158122 A JP2014158122 A JP 2014158122A JP 2015118361 A JP2015118361 A JP 2015118361A
Authority
JP
Japan
Prior art keywords
activity
information processing
unit
processing apparatus
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014158122A
Other languages
English (en)
Inventor
恭平 北澤
Kyohei Kitazawa
恭平 北澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2014158122A priority Critical patent/JP2015118361A/ja
Priority to US14/525,740 priority patent/US9715884B2/en
Publication of JP2015118361A publication Critical patent/JP2015118361A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】 単一チャネルの音声信号から不要音を分離したり、雑音を除去すること可能にする技術を提供する。
【解決手段】 情報処理装置は、音声信号を時間周波数表現に変換した行列を得る変換手段と、行列を少なくとも非負値の基底行列と非負値のアクティビティ行列に分解する分解手段と、アクティビティ行列の各行を構成するアクティビティベクトルを、その特性によって分類する分類手段と、分類の結果に応じて、音声信号を複数の音声信号に分離する分離手段とを備える。
【選択図】 図1

Description

本発明は、音源分離ないし雑音除去を行う情報処理装置、情報処理方法、及びプログラムに関する。
デジタルビデオカメラや最近ではデジタルカメラにおいても動画撮影ができるようになり、同時に音声が録音される機会が増えてきている。録音されている音声は撮影中に確認することが困難なため、撮影後に音を再生してみると雑音が混じっていたり、他の音が強すぎて聴きたい音が隠れてしまっていることがあった。そのため、目的音と不要な音の成分を分離したり、雑音成分を除去する技術が提案されている。
例えば、音源の方向性の情報を用いて複数のマイクロホン信号を信号処理することにより、目的の音声を強調して取り出す、あるいは非目的音を抑制する技術であるビームフォーマが知られている(非特許文献1を参照)。また、撮影中に混入する風雑音を除去する手法として、並列に収音された複数の音響信号について非負値行列因子分解を行う構成が提案されている(特許文献1を参照)。この構成は、第1音響信号の基底行列の複数の基底のうち第2音響信号の基底行列の基底との相関が高い基底を、第1音響信号の雑音成分に対応する雑音基底として特定し、当該雑音基底に基づき第1音響信号の雑音成分を抑圧する。
特開2011−227417号公報
浅野太著、「音のアレイ信号処理―音源の定位・追跡と分離―」、音響テクノロジーシリーズ16、コロナ社、2011年2月25日、p.70−105
上記従来の構成は、複数チャンネルの音声信号を入力して信号処理を行う。しかし、デジタルカメラを含む録音装置の中にはマイクロホンが一つしかないものがある。このような録音装置により録音された音声に対しては、上記の複数のマイクロホン信号を用いた構成を適用することができないため、不要な音を分離したり、風雑音のような非定常の雑音を除去することができなかった。
本発明はかかる課題を解決するためになされたものであり、単一チャネルの音声信号から不要音を分離したり、雑音を除去すること可能にする技術を提供することを目的とする。
上記目的を達成するため、本発明による情報処理装置は以下の構成を備える。即ち、
音声信号を時間周波数表現に変換した行列を得る変換手段と、
前記行列を少なくとも非負値の基底行列と非負値のアクティビティ行列に分解する分解手段と、
前記アクティビティ行列の各行を構成するアクティビティベクトルを、その特性によって分類する分類手段と、
前記分類の結果に応じて、前記音声信号を複数の音声信号に分離する分離手段と
を備える。
本発明によれば、単一チャネルの音声信号から、アクティビティの特性が異なる音源同士を分離することができ、さらに分離した雑音成分を用いて雑音を除去することができる。
音源分離装置の構成を示すブロック図 アクティビティの特性を説明する図 アクティビティの分類を説明する図 アクティビティの分類の閾値を説明する図 音源分離処理の手順を示すフローチャート サブスペクトログラム生成における重み係数を説明する図 操作入力部を備えた音源分離装置の構成を示すブロック図 雑音除去装置の構成を示すブロック図 雑音除去処理の手順を示すフローチャート 雑音除去装置の他の構成を示すブロック図 サンプルから複数のアクティビティベクトルを抽出する例を示す図 アクティビティ分類部の構成例を示すブロック図 雑音除去装置の構成を示すブロック図 スペクトログラム結合を説明する図 雑音除去処理の手順を示すフローチャート
以下、添付図面を参照して本発明の実施の形態を詳細に説明する。
<<実施形態1>>
(音源分離装置の構成)
図1は本発明の実施形態1に係る音源分離装置の構成をブロック図で示したものである。本実施形態の音源分離装置100は、入力部110、TF変換部120、NMF部130、アクティビティ分類部140、サブスペクトログラム生成部150、逆TF変換部160、出力部170を有する。音源分離装置100は、例えば、コンピュータやデジタルカメラ、録音装置、ボイスレコーダ、組込みシステム等のCPU(中央演算処理装置)を備えた情報処理装置により実現することができる。図1に示す各機能ブロックは、音源分離装置100のCPU(不図示)がコンピュータプログラムに基づきメモリ、信号処理部等の他の構成要素と協働することにより実現される。
●入力部110
入力部110は、音声信号と雑音信号とが混合した信号の記録されたデータを読み込み、TF変換部120に出力する。以下、音声信号と雑音信号が混合した信号を「混合信号」という。この混合信号は、信号強度すなわち振幅と、経過時間との関係を表す情報として与えられる。
●TF変換部120
TF変換部120は、入力部110から入力された混合信号の波形信号を時間周波数表現に変換し(「時間周波数変換」という)、NMF部130へ出力する。ここで、時間周波数表現とは、信号を、その周波数と経過時間との関係により表したものをいう。例えば、スペクトログラムは時間周波数表現の一つである。スペクトログラムとは、入力された時間波形信号に対して所定時間長ずつ時間区間をずらしながら窓関数を適用して切り出し、切り出した信号に対してFFT等により周波数変換した周波数スペクトルを時系列に並べたデータである。ここで、FFTは高速フーリエ変換(Fast Fourier Transform)の略称である。
NMF部130は、TF変換部120の出力信号に対して、非負値の基底行列と非負値のアクティビティ行列とを含む成分に分解する処理を行う。このような処理として、例えば、TF変換部120から出力されたスペクトログラムの振幅成分に対して非負値行列因子分解(以下、「NMF」(Non-Negative Matrix Factorization)という)を行うことができる。NMFは非負値の行列(ここではスペクトログラムの振幅成分)を非負値の基底行列と非負値のアクティビティ行列の積として近似する手法である。NMFの処理手順の詳細は、例えば、非特許文献2を参照されたい。以下の説明において、基底行列およびアクティビティ行列はいずれも非負値の行列である。
Daniel D. Lee, "Algorithms for Non-negative Matrix Factorization", In NIPS, 2000, p. 556-562.
数1は、スペクトログラムの振幅成分Yを、NMFにより基底行列とアクティビティ行列の積で近似する式を示している。
Figure 2015118361
ここで、Yはスペクトログラムを表し、Hは基底行列、Uはアクティビティ行列を表す。YがM*N(M行,N列)の行列であるとすると、HはM*K(M行,K列、Kは基底数と呼ばれる)、UはK*N(K行,N列)の行列となる。
基底行列HはK個の基底ベクトルhn(基底スペクトル)からなる。ただし、n=1,2,3,...,Kであり、hnは周波数スペクトルを表すM次元のベクトルである。
(数2)
H=[h1 ... hK
アクティビティ行列はK個のアクティビティベクトルun(重みベクトル)からなる。ただし、n=1,2,3,...,Kであり、unは基底ベクトルhnの時間変動を表すN次元のベクトルである。
(数3)
U=[u1 ... uKT
ここで、Tは転置行列を表す。また、基底ベクトルおよびアクティビティベクトルは非負値のベクトルとなる。
●NMF部130
NMF部130は、公知のNMFの手法を適用して、スペクトログラムYから、(数1)の関係を有する基底行列Hおよびアクティビティ行列Uを算出する。そして、算出した基底行列Hおよびアクティビティ行列Uと混合信号のスペクトログラムの位相成分とを、アクティビティ分類部140及びサブスペクトログラム生成部150へ出力する。
●アクティビティ分類部140
アクティビティ分類部140は、NMF部130から出力された非負値のアクティビティ行列の各行からなるアクティビティベクトルを、その特性によって少なくとも2つ以上のグループに分類する。アクティビティの特性は、例えばアクティビティの周波数特性によって分類することができる。例えば、雑音除去を目的とする場合、雑音と音声のグループに分類する。
周波数特性を用いたアクティビティベクトルの分類手法について図2を用いて説明する。図2(a)は雑音のアクティビティの一例を表し、図2(b)は音声信号のアクティビティの一例を表す。図2(c)は雑音のアクティビティの一部を拡大した図を表し、図2(d)は音声のアクティビティの一部を拡大した図を表す。図2(e)は雑音のアクティビティの周波数特性を表し、図2(f)は音声のアクティビティの周波数特性を表したものである。図2(g)は図2(e)で示される雑音のアクティビティの周波数特性の低域成分の平均値と高域成分の平均値を示し、図2(h)は図2(f)で示される音声のアクティビティの周波数特性の低域成分の平均値と高域成分の平均値を示している。具体的には、図2(g)(h)は雑音のアクティビティの周波数特性の低域成分の平均レベル1001、高域成分の平均レベル1002、音声のアクティビティの周波数特性の低域成分の平均レベル1003、高域成分の平均レベル1004を示している。なお、周波数特性の低域成分と高域成分との境界となる基準周波数は、アクティビティ分類部140に予め設定されている。周波数特性の低域成分の平均レベル1003は基準周波数未満の周波数特性の平均値であり、高域成分の平均レベル1004は基準周波数以上の周波数特性の平均値である。図2(g)(h)に示すように一般的に雑音のアクティビティの周波数特性は音声のアクティビティの周波数特性に比べ周波数特性の低域成分と高域成分の大きさの差が小さい。したがって、周波数特性の低域成分の平均値と高域成分の平均値との差分を用いて、差分が小さいアクティビティベクトルを雑音に分類し、差分が大きいものを音声に分類するようにしてもよい。
アクティビティ分類部140が雑音と音声とに分類する際の基準となる差分の閾値について、図3を用いて説明する。図3は、混合信号のアクティビティの周波数特性の低域成分の平均値と高域成分の平均値の差分をアクティビティベクトルごとに算出し、差分の大きい順に整列したものである。サブスペクトログラム生成部150にはあらかじめ差分の閾値が設定されており、差分が当該閾値を超えるものをと超えないものとにアクティビティを分類する。図3の例では、差分が閾値を超える1〜9番目のアクティビティを音声のアクティビティとし、10〜20番目のアクティビティを雑音成分として分類する場合を示している。
この閾値は、例えば、事前に既知の類似データに対してNMF処理を行っておき、そのアクティビティの特性を学習データとして用いることで決定することができる。閾値の決定手法の具体例を図4を用いて説明する。図4は、事前に計測しておいたサンプルから取得された、雑音および音声のアクティビティベクトルの周波数特性の低域成分と高域成分の平均値の差分をヒストグラムで表したものである。401は音声の低域と高域の差分ヒストグラム、402は雑音の低域と高域の差分ヒストグラムをそれぞれ表している。音声と雑音のアクティビティの分類の閾値は、例えば、ヒストグラムの分布の境目を閾値として使用すればよい。
●サブスペクトログラム生成部150
サブスペクトログラム生成部150は、アクティビティ分類部140の分類結果と、NMF部130で算出した基底ベクトル及びアクティビティ行列と、混合信号のスペクトログラムの位相成分からサブスペクトログラムを生成する。ここでサブスペクトログラムとは、混合信号に含まれる音源ごとのスペクトログラムをいい、ここでは、雑音のスペクトログラムと音声のスペクトログラムがこれにあたる。NMFを用いた音源分離では、基底あるいはアクティビティを音源ごとに分類することによって信号を分離することができる。
例えば、アクティビティを雑音と音声に分類することができたとすると、アクティビティ行列は、以下のように記述することができる。
(数4)
U=[USNT
ここでUSは音声に分類されたアクティビティベクトルからなる行列、UNは雑音に分類されたアクティビティベクトルからなる行列を表す。基底ベクトルとアクティビティベクトルとは1対1で対応しているため、基底ベクトルについても以下のように雑音の基底ベクトルからなる行列HSと音声の基底ベクトルからなる行列HNに分けることができる。
(数5)
H=[HSN
以上の結果を用いると音源を以下のように音声と雑音のスペクトログラムを算出することができる。
Figure 2015118361
Figure 2015118361
Figure 2015118361
Sは音声のサブスペクトログラム、YNは雑音のサブスペクトログラムを表す。
図3の例を用いると、サブスペクトログラム生成部150は閾値を元に、1〜9番目のアクティビティがUSと対応し、USと対応する基底HSと積をとることによって音声のサブスペクトログラムの絶対値|YS|を生成する。また、10〜20番目のアクティビティがUNと対応し、UNと対応する基底HNと積をとることによって雑音のサブスペクトログラムの絶対値|YN|を算出する。それぞれ算出したサブスペクトログラムの絶対値に混合信号のスペクトログラムの位相成分を合わせて、逆TF変換部160へ出力する。
●逆TF変換部160
逆TF変換部160は、サブスペクトログラム生成部150で算出された、アクティビティの分類ごとのサブスペクトログラムに対して、TF変換部120で行った時間周波数変換の逆処理によってサブスペクトログラムを音声の波形信号に戻す。例えば、サブスペクトログラムの列ベクトルからなるスペクトルをIFFT(Inverse-FFT、逆フーリエ変換)を用いて波形信号に変換し、所定時間長ずつ時間区間をずらしながら重ね合わせて結合すればよい。
●出力部170
出力部170は、分離された音声信号を出力する。出力部170は、例えば、スピーカにより構成され、分離された音声を順に再生する。
(音源分離処理)
続いて音源分離装置100が実行する信号処理(音源分離処理)のフローを図5を用いて説明する。音源分離処理は、音源分離装置100のCPUの制御に基づき実行される。
まず、分離したい複数の音が混合した混合信号が入力される(S101)。入力部110において入力信号がアナログの場合、A/D変換が行われTF変換部120へ信号が出力される。
続いて、TF変換部120において、混合信号の時間周波数変換処理が行われる(S102)。時間周波数変換された混合信号のスペクトログラムは、NMF部130へ出力される。
続いて、NMF部130においてNMF処理が行われる(S103)。NMF部130においてTF変換部120から入力された混合信号のスペクトログラムの振幅成分からNMF処理によって基底行列とアクティビティ行列を算出する。算出したアクティビティ行列をアクティビティ分類部140へ出力し、基底行列とアクティビティ行列と混合信号のスペクトログラムの位相成分をサブスペクトログラム生成部150へ出力する。
続いて、アクティビティ分類部140においてNMF部130から出力されたアクティビティの分類が行われる(S104)。このステップでは入力されたアクティビティ行列のアクティビティベクトルの周波数特性に応じてアクティビティベクトルを分類する。アクティビティベクトルの分類結果はサブスペクトログラム生成部150に出力される。
続いて、サブスペクトログラム生成部150において、アクティビティ分類部140の分類結果に基づき分類された音源ごとのスペクトログラムであるサブスペクトログラムを生成する(S105)。例えば、音声と雑音の混合信号の場合、音声のスペクトログラムと雑音のスペクトログラムが生成される。生成されたサブスペクトログラムは逆TF変換部160へ出力される。
続いて、逆TF変換部160において、入力された各サブスペクトログラムを波形信号へ変換する逆TF変換処理が行われる(S106)。生成された複数の波形信号は出力部170へ出力される。
最後に、出力部170において分離された信号が再生される(S107)。
以上のように、本実施形態では、音声信号を時間周波数表現に変換した行列を取得し、当該行列を少なくとも非負値の基底行列と非負値のアクティビティ行列に分解する。さらに、アクティビティ行列の各行を構成するアクティビティベクトルを、その特性によって分類し、分類の結果に応じて、音声信号を複数の音声信号に分離する。このため、単一チャネルで録音された音声信号を、音源毎に複数の音声信号に分離することが可能となる。本実施形態では、そのような構成の一具体例として、混合信号のNMFによって算出されたアクティビティベクトルをその周波数特性に基づき分類することで、単一チャンネルでも混合信号を音源ごとに分離することが可能な構成を説明した。
(変形例)
本実施形態において、入力部110は、混合信号が記録されたデータを読み込む例を説明したが、マイクロホンで収音された混合信号をA/D変換して出力するように構成してもよい。その場合、一連の処理は、所定の時間長毎に行われる。例えば、TF変換部120において、スペクトログラムの時系列方向のデータ数がL(LはL>Kである実数)になるように時間長を決めるようにする。
前述の例では、処理対象の信号を入力される信号を音声信号と雑音信号の混合信号としたが、本実施形態の手法は、アクティビティの特性の異なる音の組み合わせならどのような信号にも適用可能である。例えば、楽器の演奏などの楽音と雑音やドラムとメロディー等の組み合わせでもよい。この場合、ドラムは音のエネルギーがたたいた瞬間に集中するため、アクティビティベクトルのピーク幅が狭く、メロディーはある程度音程が持続するため、アクティビティベクトルのピーク幅は広くなる傾向にある。そのためアクティビティベクトルのピーク幅を用いることで分類することができる。
本実施形態においてTF変換部120は時間周波数変換をスペクトログラムとしたが、例えば、ウェーブレット変換など他の時間周波数変換手法を用いてもよい。時間周波数変換手法としてウェーブレット変換を用いた場合、逆TF変換部160では逆ウェーブレット変換をするようにする。
本実施形態において、NMF部130は、TF変換部120から入力されたスペクトログラムの振幅成分に対してNMF処理を行ったが、非負値の基底行列とアクティビティ行列を含む成分を出力する手法であれば、NMF処理以外の手法を用いることができる。例えば、非負行列因子デコンボリューション(以下、NMFD:Non-negative Matrix Factor Deconvolution)や複素非負値行列因子分解(以下、複素NMF)を用いてもよい。NMFDは、例えば、特許文献2に記載されている。複素NMFについては、例えば、非特許文献3を参照されたい。例えば、複素NMFを使用した場合、サブスペクトログラム生成部150における処理を次のように変更することができる。すなわち、本実施形態では、サブスペクトログラム生成部150においてサブスペクトログラムの位相成分に混合信号のスペクトログラムの位相成分を用いた。しかし、複素NMFの場合、各サブスペクトログラムの位相成分も算出されるため、算出された位相成分を使用するようにしてもよい。
特開2005−258440号公報 亀岡弘和ら、「複素NMF: 新しいスパース信号分解表現と基底系学習アルゴリズム」、日本音響学会講演論文集2008、2-8-13、2008年9月、p657-660.
本実施形態においてアクティビティ分類部140ではアクティビティの周波数特性の低域成分の平均レベルと高域成分の平均レベルの差を分類の基準としたが、別の指標を分類の基準として用いてもよい。例えば、それぞれのアクティビティベクトルの周波数特性を直線で近似したときの近似直線の傾きを用いて、傾きが小さいものを雑音に分類し、傾きが大きいものを音声に分類するようにしてもよい。例えば、近似直線の傾きが所定の閾値よりも小さいアクティビティベクトルを雑音のアクティビティとして分類することができる。
また、アクティビティ分類部140では、アクティビティベクトルの周波数特性を用いて分類を行ったが、その他の特性を用いて分類を行ってもよい。例えば、時間特性を用いて分類してもよい。図2(a)(b)からもわかるように、一般的に雑音信号のアクティビティは音声信号のアクティビティに比べピークの出現頻度が多い。そこで、所定時間範囲内、例えば、アクティビティベクトルの20サンプルごと切り出し、ピークの出現頻度が多いものを雑音に分類し、ピークの出現頻度が低いものを音声に分類してもよい。例えば、ピークの出現頻度が所定の閾値よりも大きいアクティビティベクトルを雑音のアクティビティとして分類することができる。また、図2(c)(d)は、それぞれアクティビティの一部区間を切り出し、時間方向に拡大したものである。雑音のアクティビティのピークの幅は音声のアクティビティのピーク幅に比べ狭いので、ピークの時間幅(半値幅)の平均値を分類の基準としてもよい。例えば、アクティビティベクトルのピークの時間幅の平均値を計測し、当該平均値が所定の閾値よりも小さいアクティビティベクトルを雑音のアクティビティとして分類することができる。
さらに、アクティビティ分類部140では、アクティビティベクトルごとにアクティビティベクトルの微分値の絶対値の和を算出し、その値を分類の基準としてもよい。例えば、アクティビティベクトルをu1=[u11,...,u1n]とすると、アクティビティベクトルu1の評価値は以下の式(数9)を用いて算出することができる。
Figure 2015118361
ここで、アクティビティベクトルu1は離散値であるため、dtは、dt=1,2,3,...の値をとる。アクティビティ分類部140は、上記の評価値が所定の閾値よりも大きいものを雑音に分類し、閾値よりも小さいものを音声に分類するようにしてもよい。
また、アクティビティ分類部140は、アクティビティベクトルから少なくとも1サンプル以上の間隔をあけてサンプル値を抽出するアクティビティ抽出手段を備えるようにしてもよい。アクティビティ抽出手段から出力されるそれぞれ等間隔で異なるサンプル値を抽出した少なくとも2つ以上のベクトルの比較によってアクティビティを分類してもよい。すなわち、アクティビティベクトルからそれぞれ一定間隔でサンプルを抽出して第1、第2のサンプルベクトルを取得し、当該第1、第2のサンプルベクトルを比較することにより、アクティビティベクトルを分類する。ここで抽出されるサンプルベクトルは、例えば2サンプルの間隔をあけた場合、それぞれアクティビティベクトルの3n+1、3n+2、3n+3番目のサンプル値からなる(n=0,1,2,3...)。3つのベクトルのうち少なくとも2つのベクトルがサンプルベクトルとして出力される。つまり、サンプルベクトルはアクティビティベクトルを構成するサンプルを所定の間隔で間引いたベクトルということができる。サンプルを抽出する間隔は分類したい音によって変わる。例えば、雑音と音声を分離する場合、あける間隔は1サンプル以上で音声のアクティビティのピーク幅よりも小さい値でなくてはならない。例えば1サンプルの間隔をあけた場合、アクティビティベクトルは奇数番目サンプルと偶数番目サンプルとに分離される。この場合、奇数番目のサンプルベクトルと偶数番目のサンプルベクトルとの比較結果を分類の基準としてもよい。例えば図11に示すように、奇数番目のサンプルからなる奇数サンプルアクティビティベクトルと、偶数番目のサンプルからなる偶数サンプルアクティビティベクトルとを生成し、これらのベクトルの相関係数(相関値)の値を用いてアクティビティを分類してもよい。例えば、相関係数の値が所定の閾値よりも大きいものを音声に分類し、小さいものを雑音に分類することができる。
また、図12に示すようにアクティビティ分類部140は前述した全ての分類法を備えてもよい。図12において、アクティビティ分類部140は、周波数特性算出部141、時間特性算出部142、微分算出部143、相関係数算出部144、総合評価部145を備える。周波数特性算出部141はアクティビティベクトルの周波数特性を算出し、分類のための評価値を出力する。時間特性算出部142はアクティビティベクトルのピーク頻度やピーク幅を検出し、分類のための評価値を出力する。微分算出部143はアクティビティベクトルの微分値を算出し、分類のための評価値を出力する。相関係数算出部144はアクティビティベクトルから抽出したベクトルの相関を算出し、分類のための評価値を出力する。図12のように、相関係数算出部144は、それぞれアクティビティベクトルを抽出する第1、第2のアクティビティ抽出部と、各アクティビティ抽出部において抽出されたアクティビティベクトルの相関係数を算出する相関係数算出部とを備えている。総合評価部145はこれらの時間特性及び周波数特性、微分特性、抽出したアクティビティの相関係数を評価する方法を元に分類した結果を総合的に判断し、アクティビティを分類するようにしてもよい。総合評価部145は、例えば、周波数特性算出部141、時間特性算出部142、微分算出部143、及び、抽出ベクトルの相関係数算出部144から出力された評価値に対して所定の重み付けを行って分類の基準を算出し、当該基準に従い分類を行うことができる。
本実施形態において、サブスペクトログラム生成部150は、閾値を用いてアクティビティベクトルを分離し、それぞれの音源に対するサブスペクトログラムを作成したが、重み係数による分離を行ってもよい。すなわち、アクティビティベクトルの各々について、第1のアクティビティとの関連性を示す第1の重み係数、及び、第2のアクティビティとの関連性を示す第2の重み係数を出力し、当該第1、第2の重み係数に基づいて、音声信号を分離してもよい。例えば、図3のアクティビティ番号の順番に、各アクティビティに対して雑音重みGnと音声重みGsを設定する。その上で、例えば、図6に示すようにアクティビティの周波数特性の低域成分と高域成分の平均値の差分が大きい音声信号に分類されるアクティビティでは音声重みGsを大きく、雑音重みGnを小さく設定する。逆に、アクティビティの周波数特性の低域成分と高域成分の平均値の差分が小さい雑音に分類されるアクティビティに対しては、雑音重みGnを大きく、音声重みGsを小さく設定する。これによって、雑音のサブスペクトログラムでは音声成分が抑制された信号を得ることができ、音声のサブスペクトログラムでは雑音が抑制された信号を得ることができる。雑音および音声のサブスペクトログラムは、以下のように、それぞれの基底ベクトルとアクティビティベクトルの積にそれぞれの重み係数を掛けたものの和をとることで算出する。
Figure 2015118361
Figure 2015118361
また、音源分離装置100は、図7のようにさらに操作入力部180を備えてもよい。操作入力部180は、サブスペクトログラム生成部150の閾値あるいは重みをユーザの指示入力に応じて切り替えられるようにする。例えば、操作入力部180は、ロータリースイッチからなり、ロータリースイッチを一段階まわすと音声に分類されるアクティビティの数が一つ増える(あるいは減る)ようにするとよい。本実施形態の例でいうと1〜9番目のアクティビティが音声に分類されていたが、ロータリースイッチを一段階まわすことで1〜10番目(あるいは8番目)までのアクティビティを音声に分類するように変更できるようにしてもよい。このように、アクティビティベクトルを分類するための基準を、ユーザからの指示入力に基づいて決定することで、ユーザの目的・用途に応じて適切な音声分離、雑音除去をすることが可能となる。
本実施形態において出力部170はスピーカとしたが、分離音声を記録する記録装置等でもよく、例えば、デジタル音声データとして記録されるように構成してもよい。
<<実施形態2>>
(雑音除去装置の構成)
図8は、本発明の実施形態2に係る雑音除去装置の構成をブロック図で示したものである。本実施形態の雑音除去装置200は、入力部110、TF変換部120、NMF部130、アクティビティ分類部140、サブスペクトログラム生成部150、逆TF変換部160、出力部170、フィルタ生成部210、フィルタ部220を有する。入力部110、TF変換部120、NMF部130、アクティビティ分類部140、サブスペクトログラム生成部150、逆TF変換部160、出力部170は実施形態1と同じ構成であるため、それらの詳細な説明は省略する。雑音除去装置200は、音源分離装置100と同様にコンピュータ等のCPUを備えた情報処理装置により実現することができる。
フィルタ生成部210は、分離された複数の信号からフィルタを生成しフィルタ係数をフィルタ部220へ出力する。例えば、分離した雑音信号と目的音信号から、雑音を抑制するウィナーフィルタを生成する。フィルタ生成部210は入力された雑音信号と目的音信号をそれぞれFFTによってパワースペクトルを算出する。雑音信号と目的音信号のパワースペクトルを用いて周波数領域のウィナーフィルタFを生成する。周波数領域のウィナーフィルタFは以下の式で表すことができる。
(数12)
F(f)={S(f)}/{S(f)+N(f)}
fは周波数、Sは音声信号のパワースペクトル、Nは雑音のパワースペクトルを表す。
フィルタ部220は、入力部110に入力された信号に対してフィルタ生成部210で生成したウィナーフィルタを適用し、出力部170へ出力する。このようにして、分離された複数の音声信号のうち、雑音信号等の所定の音声信号を抑圧することで、雑音を低減することができる。
(雑音除去処理)
本実施形態において雑音除去装置200が実行する信号処理(雑音除去処理)のフローを図9を用いて説明する。雑音除去処理は雑音除去装置200のCPUの制御に基づき実行される。
S201〜S206、S209での処理内容は、実施形態1のS101〜S107(図5)と同様である。すなわち、まず、入力部110に混合信号が入力される(S201)。入力された混合信号は、TF変換部120においてスペクトログラムに変換される(S202)。続いて、NMF部130において、TF変換部120から入力されたスペクトログラムに対してNMF処理が行われ、基底行列とアクティビティ行列が出力される(S203)。続いて、アクティビティ分類部140において、アクティビティの周波数特性に応じてそれぞれのアクティビティを雑音のアクティビティと音声のアクティビティに分類される(S204)。続いて、アクティビティ分類部140から出力されるアクティビティの分類結果に基づいて、サブスペクトログラム生成部150において、雑音のスペクトログラムと音声のスペクトログラムがそれぞれ生成される(S205)。続いて、逆TF変換部160において、サブスペクトログラム生成部150から出力された音声のスペクトログラムと雑音のスペクトログラムから音声の波形信号と雑音の波形信号が生成される(S206)。
続いて、フィルタ生成部210において、雑音を除去するウィナーフィルタが生成される(S207)。このステップでは、分離された音声信号と雑音信号を周波数変換し、それぞれのパワースペクトルから周波数領域のウィナーフィルタが生成される。生成されたフィルタのフィルタ係数はフィルタ部220へ出力される。続いて、フィルタ部220において、入力部110に入力された混合信号に対してフィルタリング処理が行われる(S208)。このステップでは、フィルタ生成部210で生成されたフィルタの係数を用いて混合信号に対してフィルタリングを行い、フィルタリングされた信号を出力部170へ出力する。最後に、出力部170から音声信号が再生される(S209)。
以上のように、混合信号のNMFによって算出されたアクティビティベクトルの周波数特性に基づき混合信号中の雑音成分と音声成分を推定し、推定結果をもとに雑音を抑制するフィルタを作ることができる。そのフィルタを混合信号に適応することで混合信号中の雑音成分を抑制することができる。
(変形例)
本実施形態では、フィルタ生成部210は、逆TF変換部160から出力された音声信号および雑音のパワースペクトルからウィナーフィルタを生成した。しかし、サブスペクトログラム生成部150の出力からそれぞれの時間フレームごとのパワースペクトルを算出することが可能であるため、例えば、時間フレームごとにウィナーフィルタを生成するようにしてもよい。その場合、はじめにフィルタ部220においてTF変換部120と同様に所定の時間長ずつ時間区間をずらしながら窓関数を適用して切り出す。続いて、切り出した信号に生成したウィナーフィルタを適応しフィルタリング処理を行い、当該所定の時間長ずつ時間区間をずらしながら重ね合わせて信号を結合するようにする。このように構成することで、時間の経過に応じてより適切なフィルタリング処理を行うことが可能となる。
また、フィルタ生成部210ではウィナーフィルタを生成したが、雑音を抑制するフィルタであればその他のフィルタを生成してもよい。例えば、分離した音声信号に着目し音声信号を強調する櫛形フィルタを生成するようにしてもよい。
本実施形態ではフィルタ部220はフィルタ生成部210から出力されたフィルタを入力信号に適用したが、スペクトルサブトラクションを用いて雑音除去を行うこともできる。例えば、サブスペクトログラム生成部150の雑音のスペクトログラムを用いて入力部110に入力された混合信号に対してスペクトルサブトラクションを行うようにするとよい。その場合、例えば、図10のように、フィルタ部220において、TF変換部120でスペクトログラムに変換された混合信号から、サブスペクトログラム生成部150から出力される雑音のスペクトログラムが減算(サブトラクション)される。フィルタ部220においてスペクトルサブトラクション処理により雑音が除去されたスペクトログラムは、逆TF変換部160へ出力され、波形信号に変換されるようにするとよい。このように構成することで、雑音成分をキャンセルすることが可能となる。
<<実施形態3>>
(雑音除去装置の構成)
図13は、本発明の実施形態3に係る雑音除去装置の構成をブロック図で示したものである。本実施形態の雑音除去装置300は、入力部110、TF変換部120、NMF部130、サブスペクトログラム生成部150、逆TF変換部160、出力部170、第2TF変換部320、及び、アクティビティ分類部340を有する。入力部110、TF変換部120、サブスペクトログラム生成部150、逆TF変換部160、出力部170は実施形態1と同じ構成であるため、それらの詳細な説明は省略する。雑音除去装置200は、実施形態2と同様にコンピュータ等のCPUを備えた情報処理装置により実現することができる。
本実施形態では、入力部110に入力された混合信号は、それぞれ時間周波数変換を行うTF変換部120及び第2TF変換部320へ出力される。第2TF変換部320は、TF変換部120とは別の切り出しタイミングで時間周波数変換を行う。例えば切り出す信号の長さをL、切り出し位置のずらし幅をL/2とする。この場合、TF変換部120において、信号は以下のような区間で切りだされ時間周波数変換が行われる。
(数13)
[mL/2,(m+2)L/2] (m=0,1,2,...)
このとき第2TF変換部320では、例えば、以下のような区間で信号が切り出され時間周波数変換が行われる。
(数14)
[(2m+1)L/4,(2m+5)L/4] (m=0,1,2,...)
このような変換を実現するために、例えば第2TF変換部320はサンプル数L/4の遅延器を備え、遅延させた信号を時間周波数変換するようにしてもよい。算出された第2のスペクトログラムはNMF部130へ出力される。
NMF部130では入力された2つのスペクトログラムに対して同じ基底行列を用いてアクティビティ行列を計算する。図14を用いてアクティビティ行列の計算方法を説明する。例えばTF変換部120から出力されるスペクトログラムを第1のスペクトログラムとすると、第1のスペクトログラムと第2のスペクトログラムを図14のように時間軸方向に連結し、非負値行列因子分解を行う。このようにすることで第1及び第2のスペクトログラムに対して共通の基底行列を用いてアクティビティ行列を算出することができる。このように計算した場合、第1及び第2のスペクトログラムに対するアクティビティ行列が時間軸方向に連結された状態で出力される。そこで、第1及び第2のスペクトログラムに対応する部分をそれぞれ第1及び第2のアクティビティ行列として、サブスペクトログラム生成部150及びアクティビティ分類部340へ出力する。
アクティビティ分類部340では、入力された第1および第2のアクティビティ行列を比較することでアクティビティを分類する。例えば第1および第2アクティビティ行列の各行成分である第1および第2のアクティビティベクトルの相関係数を算出する。一般に、音声のアクティビティは波形の切り出し位置のずれによらずほぼ同じ形状になるのに対し、雑音のアクティビティは切り出し位置のずれによって異なる形状になることが知られている。そのため算出結果に基づいて相関係数が所定の閾値よりも大きいアクティビティを音声のアクティビティに分類し、相関係数が閾値よりも小さいアクティビティを雑音のアクティビティとして分類することができる。アクティビティ分類部340は、第1のアクティビティ行列に対する分類結果をサブスペクトログラム生成部150へ出力する。サブスペクトログラム生成部150、逆TF変換部160、出力部170における処理は実施形態1と同様である。
(雑音除去処理)
本実施形態において雑音除去装置300が実行する雑音除去処理のフローを図15を用いて説明する。雑音除去処理は雑音除去装置300のCPUの制御に基づき実行される。
ステップS110、S120、S150、S160、S170での処理内容は、実施形態1のS101、S102、S105〜S107(図5)とほぼ同様のため、詳細な説明は省略する。まず、入力部110に混合信号が入力される(S110)。入力された混合信号は、TF変換部120においてスペクトログラムに変換される(S120)。
次に、第2TF変換部320において第2TF変換処理が行われる(S320)。入力部110より入力された信号に対してTF変換部120とは切り出し位置をずらし、時間周波数変換を行ったスペクトログラムをNMF部130へ出力する。
続いてNMF部130においてNMF処理を行う(S130)。すなわち、NMF部130は、TF変換部120および第2TF変換部320から入力されたスペクトログラムの振幅成分を時間軸方向に並べ、非負値行列因子分解することにより、共通の基底行列と第1及び第2のアクティビティ行列を算出する。NMF部130は、算出した第1及び第2のアクティビティ行列をアクティビティ分類部340へ出力する。また、NMF部130は、基底行列およびTF変換部120から入力されたスペクトログラムの位相成分、第1のアクティビティ行列をサブスペクトログラム生成部150へ出力する。
続いてアクティビティ分類部340においてアクティビティの分類が行われる(S340)。NMF部130から入力された第1及び第2のアクティビティ行列の各行の成分からなるアクティビティベクトルについて相関係数を計算する。算出された相関係数に基づき相関性の高いアクティビティを音声アクティビティとして分類し、相関性の低いアクティビティを雑音アクティビティとして分類し、結果をサブスペクトログラム生成部150へ出力する。
以上のように、本実施形態では、時間をずらして生成された2つのスペクトログラムにつきNMFによって算出されたアクティビティベクトルの相関性に基づきアクティビティベクトルを分類する。このため、本実施形態の構成によれば、単一チャンネルでも混合信号を音源ごとに分離することができる。
(変形例)
本実施形態においてNMF部130では、時間軸方向に連結したスペクトログラムを用いて、基底行列を共通とする第1及び第2のアクティビティ行列を算出したが、別の方法を用いてもよい。例えば、第1のスペクトログラムに対して非負値行列因子分解を行い基底行列を算出し、その基底行列を教師基底として第2のスペクトログラムに対して非負値行列因子分解を行うことで、基底行列を共通とする第1及び第2のアクティビティ行列を算出してもよい。
また、本実施形態においてアクティビティ分類部340はTF変換部120の出力に対して音源分離あるいは雑音除去を実施するため第1のアクティビティ行列に対する分類結果を出力した。しかし、第2TF変換部320の出力に対して、又は、TF変換部120と第2TF変換部320の両方の出力それぞれに対して、音源分離あるいは雑音除去を実施することもできる。その場合、第2のアクティビティ行列に対する分類結果を出力するようにしてもよいし、第1及び第2のアクティビティ行列に対する分類結果を両方とも出力してもよい。
<<その他の実施形態>>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
110 入力部、120 TF変換部、130 NMF部、140 アクティビティ分類部、150 サブスペクトログラム生成部、160 逆TF変換部、170 出力部

Claims (25)

  1. 音声信号を時間周波数表現に変換した行列を得る変換手段と、
    前記行列を少なくとも非負値の基底行列と非負値のアクティビティ行列に分解する分解手段と、
    前記アクティビティ行列の各行を構成するアクティビティベクトルを、その特性によって分類する分類手段と、
    前記分類の結果に応じて、前記音声信号を複数の音声信号に分離する分離手段と
    を備えることを特徴とする情報処理装置。
  2. 前記分類手段は、前記アクティビティベクトルを、その周波数特性によって分類することを特徴とする請求項1に記載の情報処理装置。
  3. 前記分類手段は、前記アクティビティベクトルを、その周波数特性の低域成分の平均値と高域成分の平均値との差の大きさによって分類することを特徴とする請求項2に記載の情報処理装置。
  4. 前記分類手段は、前記差が所定の閾値よりも小さいアクティビティベクトルを雑音のアクティビティとして分類することを特徴とする請求項3に記載の情報処理装置。
  5. 前記分類手段は、前記アクティビティベクトルを、その周波数特性の近似直線の傾きによって分類することを特徴とする請求項2に記載の情報処理装置。
  6. 前記分類手段は、前記傾きが所定の閾値よりも小さいアクティビティベクトルを雑音のアクティビティとして分類することを特徴とする請求項5に記載の情報処理装置。
  7. 前記分類手段は、前記アクティビティベクトルを、その所定時間範囲内におけるピークの出現頻度によって分類することを特徴とする請求項1に記載の情報処理装置。
  8. 前記分類手段は、前記ピークの出現頻度が所定の閾値よりも大きいアクティビティベクトルを雑音のアクティビティとして分類することを特徴とする請求項7に記載の情報処理装置。
  9. 前記分類手段は、前記アクティビティベクトルを、そのピークの時間幅の平均値によって分類することを特徴とする請求項1に記載の情報処理装置。
  10. 前記分類手段は、前記平均値が所定の閾値よりも小さいアクティビティベクトルを雑音のアクティビティとして分類することを特徴とする請求項9に記載の情報処理装置。
  11. 前記分類手段は、前記アクティビティベクトルを、当該アクティビティベクトルの微分値の絶対値の和によって分類することを特徴とする請求項1に記載の情報処理装置。
  12. 前記分類手段は、前記微分値の絶対値の和が所定の閾値よりも大きいものを雑音のアクティビティとして分類することを特徴とする請求項11に記載の情報処理装置。
  13. 前記分類手段は、前記アクティビティベクトルからそれぞれ一定間隔でサンプルを抽出して第1、第2のサンプルベクトルを取得し、当該第1、第2のサンプルベクトルを比較することにより、当該アクティビティベクトルを分類することを特徴とする請求項1に記載の情報処理装置。
  14. 前記分類手段は、前記第1、第2のサンプルベクトルの相関係数を算出し、当該相関係数が所定の閾値よりも小さいアクティビティベクトルを雑音のアクティビティベクトルとして分類することを特徴とする請求項13に記載の情報処理装置。
  15. 前記変換手段は、前記音声信号から第1、第2の切り出しタイミングで切り出した信号をそれぞれ時間周波数表現に変換した第1、第2の行列を取得し、
    前記分解手段は、前記第1、第2の行列のそれぞれを、少なくとも前記基底行列と前記アクティビティ行列に分解し、
    前記分類手段は、前記第1、第2の行列に対応する第1、第2の前記アクティビティ行列を比較することにより、前記アクティビティベクトルを分類する
    ことを特徴とする請求項1に記載の情報処理装置。
  16. 前記分解手段は、前記第1、第2の行列について前記基底行列が等しくなるように、前記第1、第2の行列を分解することを特徴とする請求項15に記載の情報処理装置。
  17. 前記分類手段は、前記第1、第2のアクティビティ行列の各行を構成する第1、第2のベクトルの相関係数を算出し、当該相関係数が所定の閾値よりも小さいものを雑音のアクティビティベクトルとして分類することを特徴とする請求項15又は16に記載の情報処理装置。
  18. 事前に与えられた学習データに基づいて前記閾値を決定する決定手段を更に備えることを特徴とする請求項4、6、8、10、12、14、17のいずれか1項に記載の情報処理装置。
  19. 前記分類手段が前記アクティビティベクトルを分類するための基準を、ユーザからの指示入力に基づいて決定する決定手段を更に備えることを特徴とする請求項1から17のいずれか1項に記載の情報処理装置。
  20. 前記分類手段は、前記アクティビティベクトルの各々について、第1のアクティビティとの関連性を示す第1の重み係数、及び、第2のアクティビティとの関連性を示す第2の重み係数を出力し、
    前記分離手段は、前記アクティビティベクトルの各々について出力された前記第1の重み係数及び前記第2の重み係数に基づいて、前記音声信号を複数の音声信号に分離する
    ことを特徴とする請求項1から19のいずれか1項に記載の情報処理装置。
  21. 前記分離手段により分離された複数の音声信号のうち、所定の音声信号を抑圧するフィルタ手段をさらに備えることを特徴とする請求項1から20のいずれか1項に記載の情報処理装置。
  22. 前記フィルタ手段は、雑音を除去するウィナーフィルタであることを特徴とする請求項21に記載の情報処理装置。
  23. 前記フィルタ手段は、前記分離手段により分離された雑音のアクティビティに対応する音声信号を、入力された音声信号からスペクトルサブトラクションによって除去することを特徴とする請求項21又は22に記載の情報処理装置。
  24. 情報処理装置の各手段が実行する情報処理方法であって、
    変換手段が、音声信号を時間周波数表現に変換した行列を得る変換工程と、
    分解手段が、前記行列を少なくとも非負値の基底行列と非負値のアクティビティ行列に分解する分解工程と、
    分類手段が、前記アクティビティ行列の各行を構成するアクティビティベクトルを、その特性によって分類する分類工程と、
    分離手段が、前記分類の結果に応じて、前記音声信号を複数の音声信号に分離する分離工程と
    を備えることを特徴とする情報処理方法。
  25. コンピュータを請求項1から23のいずれか1項に記載の情報処理装置が備える各手段として機能させるためのコンピュータプログラム。
JP2014158122A 2013-11-15 2014-08-01 情報処理装置、情報処理方法、及びプログラム Pending JP2015118361A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014158122A JP2015118361A (ja) 2013-11-15 2014-08-01 情報処理装置、情報処理方法、及びプログラム
US14/525,740 US9715884B2 (en) 2013-11-15 2014-10-28 Information processing apparatus, information processing method, and computer-readable storage medium

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013237355 2013-11-15
JP2013237355 2013-11-15
JP2014158122A JP2015118361A (ja) 2013-11-15 2014-08-01 情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2015118361A true JP2015118361A (ja) 2015-06-25

Family

ID=53173327

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014158122A Pending JP2015118361A (ja) 2013-11-15 2014-08-01 情報処理装置、情報処理方法、及びプログラム

Country Status (2)

Country Link
US (1) US9715884B2 (ja)
JP (1) JP2015118361A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2019203127A1 (ja) * 2018-04-19 2021-04-22 国立大学法人電気通信大学 情報処理装置、これを用いたミキシング装置、及びレイテンシ減少方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170051856A (ko) * 2015-11-02 2017-05-12 주식회사 아이티매직 사운드 신호에서 진단 신호를 추출하는 방법 및 진단 장치
WO2017143095A1 (en) * 2016-02-16 2017-08-24 Red Pill VR, Inc. Real-time adaptive audio source separation
JP6622159B2 (ja) * 2016-08-31 2019-12-18 株式会社東芝 信号処理システム、信号処理方法およびプログラム
US10453473B2 (en) * 2016-12-22 2019-10-22 AIRSHARE, Inc. Noise-reduction system for UAVs
US10366710B2 (en) 2017-06-09 2019-07-30 Nxp B.V. Acoustic meaningful signal detection in wind noise
EP3783912B1 (en) 2018-04-17 2023-08-23 The University of Electro-Communications Mixing device, mixing method, and mixing program
EP3783913A4 (en) 2018-04-19 2021-06-16 The University of Electro-Communications MIXING DEVICE, MIXING PROCESS AND MIXING PROGRAM
GB2577570A (en) * 2018-09-28 2020-04-01 Cirrus Logic Int Semiconductor Ltd Sound event detection

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7415392B2 (en) 2004-03-12 2008-08-19 Mitsubishi Electric Research Laboratories, Inc. System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution
US8015003B2 (en) * 2007-11-19 2011-09-06 Mitsubishi Electric Research Laboratories, Inc. Denoising acoustic signals using constrained non-negative matrix factorization
JP5454330B2 (ja) 2010-04-23 2014-03-26 ヤマハ株式会社 音響処理装置
JP5516169B2 (ja) * 2010-07-14 2014-06-11 ヤマハ株式会社 音響処理装置およびプログラム
US8818806B2 (en) * 2010-11-30 2014-08-26 JVC Kenwood Corporation Speech processing apparatus and speech processing method
JP5662276B2 (ja) * 2011-08-05 2015-01-28 株式会社東芝 音響信号処理装置および音響信号処理方法
US9093056B2 (en) * 2011-09-13 2015-07-28 Northwestern University Audio separation system and method
US9305570B2 (en) * 2012-06-13 2016-04-05 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
JP6054142B2 (ja) * 2012-10-31 2016-12-27 株式会社東芝 信号処理装置、方法およびプログラム
CN104685562B (zh) * 2012-11-21 2017-10-17 华为技术有限公司 用于从嘈杂输入信号中重构目标信号的方法和设备
JP6174856B2 (ja) 2012-12-27 2017-08-02 キヤノン株式会社 雑音抑制装置、その制御方法、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2019203127A1 (ja) * 2018-04-19 2021-04-22 国立大学法人電気通信大学 情報処理装置、これを用いたミキシング装置、及びレイテンシ減少方法
JP7260101B2 (ja) 2018-04-19 2023-04-18 国立大学法人電気通信大学 情報処理装置、これを用いたミキシング装置、及びレイテンシ減少方法

Also Published As

Publication number Publication date
US20150139445A1 (en) 2015-05-21
US9715884B2 (en) 2017-07-25

Similar Documents

Publication Publication Date Title
JP2015118361A (ja) 情報処理装置、情報処理方法、及びプログラム
US20210089967A1 (en) Data training in multi-sensor setups
JP6482173B2 (ja) 音響信号処理装置およびその方法
EP2962299B1 (en) Audio signal analysis
JP6174856B2 (ja) 雑音抑制装置、その制御方法、及びプログラム
JP6019969B2 (ja) 音響処理装置
JP2014512022A (ja) スペクトル挙動の変換を実行する音響信号処理システム及び方法
EP1941494A2 (en) Neural network classifier for seperating audio sources from a monophonic audio signal
JP5605574B2 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
Dufour et al. Clusterized mel filter cepstral coefficients and support vector machines for bird song identification
EP2947658A1 (en) Memory control device, playback control device, and recording medium
JP5614261B2 (ja) 雑音抑制装置、雑音抑制方法、及びプログラム
US9648411B2 (en) Sound processing apparatus and sound processing method
CN112151055B (zh) 音频处理方法及装置
JP6163211B2 (ja) 少なくとも二つの出力信号から少なくとも二つの個別信号を算出する方法
CN111009259B (zh) 一种音频处理方法和装置
CN106531156A (zh) 一种基于室内多移动源实时处理的语音信号增强技术方法
JP4249697B2 (ja) 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体
Silva et al. On musical onset detection via the s-transform
CN115206345B (zh) 基于时频结合的音乐人声分离方法、装置、设备及介质
Joseph et al. Convolutional Neural Networks Based Algorithm for Speech Separation
FitzGerald et al. Improved stereo instrumental track recovery using median nearest-neighbour inpainting
JP5495858B2 (ja) 音楽音響信号のピッチ推定装置及び方法
CN115136236A (zh) 信号处理装置、信号处理方法和程序