JP2015064602A - 音響信号処理装置、音響信号処理方法および音響信号処理プログラム - Google Patents
音響信号処理装置、音響信号処理方法および音響信号処理プログラム Download PDFInfo
- Publication number
- JP2015064602A JP2015064602A JP2014245910A JP2014245910A JP2015064602A JP 2015064602 A JP2015064602 A JP 2015064602A JP 2014245910 A JP2014245910 A JP 2014245910A JP 2014245910 A JP2014245910 A JP 2014245910A JP 2015064602 A JP2015064602 A JP 2015064602A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic signal
- signal
- acoustic
- basis matrix
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
ラムに関する。
信号だけでなく背景雑音や音楽などの非音声信号が含まれる。音声信号と非音声信号が混
入した音響信号から所望の信号のみを抽出する技術が音源分離技術であり、その1つに非
負行列因子分解を用いた方式がある。音響信号から音声信号を分離する場合、この方式で
はまず、非音声信号を含む蓋然性が高い区間における音響信号のスペクトログラムから非
音声信号の基底行列を作成する。次に、この非音声信号の基底行列を用いて、分離対象と
なる音響信号のスペクトログラムから音声信号の基底行列と係数行列を作成する。そして
、この音声信号の基底行列と係数行列の積により、音声信号のスペクトログラムを推定す
る。最後に、推定された音声信号のスペクトログラムを時間信号に変換して、音響信号か
ら音声信号を分離する。
が混入していた場合、非音声信号の基底行列を正確に作成することができなかった。結果
として、音声信号の分離性能が劣化するという問題があった。
実現することである。
および非音声信号の特徴を表す音響特徴を抽出し、この音響特徴を利用して音響信号に音
声信号が含まれる尤もらしさを表す尤度を計算する。スペクトル抽出手段は、音響信号を
周波数解析してスペクトル特徴を抽出する。第1基底行列作成手段は、スペクトル特徴を
利用して、非音声信号の特徴を表す第1の基底行列を作成する。第2基底行列作成手段は
、尤度を利用して、第1の基底行列において音声信号と関連性が高い成分を特定し、この
成分を除外して第2の基底行列を作成する。
第1の実施形態の音響信号処理装置は、音声信号および非音声信号を含んだ音響信号か
ら音声信号を分離するものである。例えば、本実施形態の音響信号処理装置を音声認識の
前処理として利用することにより、音声認識の認識性能を向上させることができる。
1)であり、非音声信号が含まれる蓋然性が高い区間における音響信号のスペクトログラ
ム(スペクトル特徴)から、非音声信号の特徴を表す第1の基底行列を作成する。そして
、音声信号が含まれる尤もらしさを表す音声尤度を利用して、第1の基底行列から音声信
号との関連性が高い成分を除外して第2の基底行列を作成する。この第2の基底行列を用
いて音声信号の特徴を表す第3の基底行列と第1の係数行列を計算し、第3の基底行列と
第1の係数行列の積により、音声信号のスペクトログラムを推定する。最後に、推定され
た音声信号のスペクトログラムを時間信号に変換することで、音響信号から音声信号を分
離する。
列から音声信号との関連性が高い成分を除外した第2の基底行列を作成する。これにより
、非音声信号の特徴を正確に表す基底行列を作成することができ、結果として、音声信号
の分離性能を向上させることができる。
図1は、第1の実施形態にかかる音響信号処理装置を示すブロック図である。本実施形
態の音響信号処理装置は、音声信号と非音声信号を含んだ音響信号を取得する音響取得部
101と、音響信号から音声信号および非音声信号の特徴を表す音響特徴を抽出し、この
音響特徴を利用して、音響信号に音声信号が含まれる尤もらしさを表す音声尤度と非音声
信号が含まれる尤もらしさを表す非音声尤度を計算する尤度計算部102と、音声尤度と
非音声尤度を利用して、音響信号の所定区間ごとに音声・非音声を判別する音声・非音声
判別部103と、音響信号をフーリエ変換してスペクトログラムを抽出するスペクトル特
徴抽出部104と、非音声信号と判別された区間の音響信号から抽出されたスペクトログ
ラムを利用して、非音声信号の特徴を表す第1の基底行列を作成する第1基底行列作成部
105と、音声尤度を利用して、第1の基底行列から音声信号との関連性が高い列ベクト
ルの成分を除外して第2の基底行列を作成する第2基底行列作成部106と、スペクトロ
グラムを前記第2の基底行列を用いて非負行列因子分解することにより、音声信号の特徴
を表す第3の基底行列および第1の係数行列を計算し、この第3の基底行列および第1の
係数行列の積により、音響信号に含まれる音声信号のスペクトログラムを推定するスペク
トル特徴推定部107と、推定された音声信号のスペクトログラムを逆フーリエ変換によ
り時間信号に変換する逆変換部108とを備える。
本実施形態の音響信号処理装置は、図2に示すような通常のコンピュータを利用したハ
ードウェアで構成されており、装置全体を制御するCPU(Central Processing Unit)
等の制御部201と、各種データや各種プログラムを記憶するROM(Read Only Memory
)やRAM(Random Access Memory)等の記憶部202と、各種データや各種プログラム
を記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記
憶部203と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部204と
、外部装置との通信を制御する通信部205と、ユーザの発声を取得するマイク206と
、これらを接続するバス208とを備えている。
記憶部203に記憶された各種プログラムを実行することにより以下の機能が実現される
。
音響取得部101は、マイク206に入力された音響信号を取得する。この音響信号に
は、ユーザの音声である音声信号だけでなく背景雑音や音楽などの非音声信号が含まれる
。なお、本実施形態の音響信号は、16kHzでサンプリングされたデジタル信号である
とする。なお、音響取得部101は、マイク206ではなく、外部記憶部203や通信部
205によって接続された外部装置から音響信号を取得してもよい。
音声信号の特徴を表す音響特徴を抽出する。そして、この音響特徴を利用して、音響信号
に音声信号が含まれる尤もらしさ(音声尤度)および非音声信号が含まれる尤もらしさ(
非音声尤度)を計算する。具体的には、尤度計算部102は、音響信号を長さ25ms(
400サンプル)、間隔8ms(128サンプル)のフレームに分割する。フレーム分割
にはハミング窓を使用する。次に、各フレームから音響特徴を抽出する。音響特徴として
は、各フレームの音響信号をフーリエ変換して得られるスペクトルだけでなく、LPCケ
プストラムやMFCC等のケプストラム系の特徴量を用いることができる。そして、抽出
された音響特徴を予め学習した音声モデルおよび非音声モデルと照合して、各フレームの
音声尤度および非音声尤度を計算する。
よび非音声尤度を用いて、所定区間ごとに音声信号が音声であるか非音声であるかを判別
する。本実施形態では、所定区間の長さを400ms(50フレーム分)に設定する。音
声・非音声判別部103は、50フレーム分の音声尤度および非音声尤度の平均値を計算
し、その大小を比較することで音声・非音声を判別する。この他にも、各平均値を予め設
定した閾値と比較して音声・非音声を判別してもよい。また、非特許文献1に記載の方法
を利用することもできる。
ms(128サンプル)のフレームに分割し、各フレームの音響信号をフーリエ変換(周
波数解析)してスペクトルを抽出する。なお、本実施形態では、各フレームに対して11
2点の零詰めを行った後、512点の離散フーリエ変換を実行する。
のスペクトル(スペクトログラム)を利用して、非音声信号の特徴を表す第1の基底行列
Hを作成する。ここで本実施形態では、音声・非音声判別部103において非音声と判別
された区間の音響信号から抽出されたスペクトログラムを利用して、第1の基底行列Hを
作成する。
ルの全要素を格納した行数F、列数Tの行列Zを作成する。次に、この行列Zを、行数F
・列数Dの第1の基底行列Hと、行数D・列数Tの係数行列Uの積で近似する。ここで、
Dは基底の数を表し、経験的に32に設定する。第1の基底行列Hと係数行列Uの導出は
、第1の基底行列Hと係数行列Uの積と行列Zの二乗誤差を基準とした反復法により行う
。この際、第1の基底行列Hおよび係数行列Uの初期行列には、ランダム値を用いること
ができる。
1の基底行列Hから音声信号との関連性が高い列ベクトルの成分を除外した第2の基底行
列Bを作成する。
フレームから抽出された各4次元のスペクトルの要素で構成される行列Zを、行数4・列
数4の第1の基底行列Hと、行数4・列数4の係数行列Uの積で近似している。302は
、行列Zの各フレーム(列ベクトル)に対応する音声尤度を表している。302の閾値は
、音声信号を含むフレームを判別するための値であり、予め所定値を設定しておく。閾値
と音声尤度の比較により、この例ではt番目のフレームの音響信号に音声信号が含まれる
と判別される。したがって、第2基底行列作成部106は、t番目のフレームに起因する
成分を第1の基底行列Hから除外して第2の基底行列Bを作成する。
後の係数行列U’を得る。正規化は、各列ベクトルの要素の大きさを比較するための処理
であり、各行の要素を平均0・分散1になるよう実行する。次に、第2基底行列作成部1
06は、t番目のフレームに対応する係数行列U’の列ベクトルの中で最大の値を持つ要
素を選択する。要素は、U’のX行Y列目のように特定する。この例では、2行3列目の
要素303が最大となる。次に、第2基底行列作成部106は、第1の基底行列Hと係数
行列Uの積において、係数行列UのX行Y列目の要素との積が計算されるX列目の列ベク
トルを除外する。この例では、U’の2行3列目の要素が選択されていることから、第1
の基底行列Hから2列目の列ベクトルを除外して第2の基底行列Bを作成する。
連性が高い列ベクトルの成分を除外した第2の基底行列Bを作成する。これにより、非音
声信号の特性を表す第2の基底行列Bを正確に作成することができる。
作成してもよい。また、列ベクトルを除外するのではなく、列ベクトルの要素の値を0ま
たは0に近い値に置き換えることもできる。また、作成された第2の基底行列Bを記憶部
202や外部記憶部203に記憶しておき、記憶された第2の基底行列Bを再利用して他
の音響信号に対する分離処理を実行してもよい。
、非音声尤度と音声尤度の比を用いてもよい。また、非音声尤度だけを用いて音声信号と
の関連性が高い成分を特定することもできる。例えば、非音声尤度が低いフレームを音声
信号との関連性が高い成分とみなすことができる。
特徴を第2の基底行列Bを用いて非負行列因子分解することにより、音声信号の特徴を表
す第3の基底行列Mおよび第1の係数行列Vを計算する。そして、この第3の基底行列M
と第1の係数行列Vの積を取ることにより、音響信号に含まれる音声信号のスペクトル特
徴を推定する。
る対象となる音響信号のスペクトログラムXを第2の基底行列Bを用いて非負行列因子分
解する。第1の基底行列Hの導出と同様に、基底行列と係数行列の積とスペクトログラム
Xの二乗誤差を基準とした反復法を適用する。この際、基底行列の列数は第2の基底行列
Bの列数D−1より大きい値E+D−1とし、基底行列のE列目以降の初期値は第2基底
行列Bの要素とする。基底行列のE列目以降の要素は反復法の適用外とする。反復法を適
用した結果、基底行列の1列目からE列目までの行列が第3の基底行列M、係数行列の1
行目からE行目までの行列が第1の第1の係数行列V、E行目以降の行列が第2の係数行
列Wとなる。
を取ることにより、音響信号に含まれる音声信号のスペクトログラムを推定する(図4の
402)。この他にも、非音声信号の特徴を表す第2の基底行列Bと第2の係数行列Wの
積により、音響信号に含まれる非音声信号のスペクトログラムを推定することもできる。
定した音声信号のスペクトログラムと、第2の基底行列Bと第2の係数行列Wの積で推定
した非音声信号のスペクトログラムからスペクトログラムの要素ごとに音声信号に起因す
る成分の比率を算出し、分離対象となるスペクトログラムにこの比率をかけることで音声
信号のスペクトログラムを推定してもよい。
ことにより時間信号に変換する。これにより、音響信号から音声信号を分離することがで
きる。なお、分離された音声信号を後段の音声認識部(図示なし)に出力することにより
、非音声信号の影響を取り除いた音声認識処理を実行できる。
図5のフローチャートを利用して、本実施形態にかかる音声信号処理装置の処理を説明
する。まず、ステップS501では、音響取得部101は、分離対象となる音響信号を取
得する。
から離散フーリエ変換によりスペクトルを抽出する。フレームの間隔は8msとする。
CC等のケプストラム系の音響特徴を抽出する。そして、この音響特徴と予め学習した音
声モデルおよび非音声モデルを照合して、音声尤度および非音声尤度を計算する。
分)の所定区間ごとに音声・非音声を判別する。判別には、ステップS503で計算され
た音声尤度および非音声尤度を用いる。
を分岐する。最初の区間である場合は、非音声信号の基底行列は作成されていないため、
ステップ504での判別結果によらずステップS507に移行する。最初の区間でない場
合は、ステップS506に移行する。
別結果が非音声である場合はステップS507へ、音声である場合はステップS509へ
移行する。
されたスペクトログラムを利用して、非音声信号の特徴を表す第1の基底行列Hおよび係
数行列を作成する。
音声尤度を利用して、第1の基底行列Hから音声信号との関連性が高い列ベクトルの成分
を除外した第2の基底行列Bを作成する。ステップS508の詳細は後述する。
音声が判別された400ms(50フレーム)の区間から抽出されたスペクトログラムを
第2の基底行列Bを用いて非負行列因子分解し、音声信号の特徴を表す第3の基底行列M
および第1の係数行列Vを計算する。
数行列Vの積により、音声信号のスペクトログラムの推定値を得る。推定された音声スペ
クトログラムのフレーム数は50になる。
スペクトログラムを離散逆フーリエ変換により時間信号に変換する。
が終了したか否かを判別する。終了していない場合はステップS504に移行して、次の
400ms区間について音声・非音声を判別する。
図6のフローチャートを利用して、第2の基底行列Bを作成する図5のステップS50
8の詳細を説明する。まず、ステップS601では、第2基底行列作成部106は、係数
行列Uの各行ごとに正規化を実行することにより係数行列U’を得る。
列ベクトルに対応する音声尤度を取得する。
比較する。
けられた係数行列U’の列ベクトルを選択する。音声尤度が閾値を超えるフレームが複数
ある場合は、列ベクトルも複数選択する。
各列ベクトルにおいて最大の値を示す要素を選択する。要素は、係数行列U’のX行Y列
目のように選択する。列ベクトルが複数ある場合は、選択される要素も複数になる。
の積において、係数行列UのX行Y列目の要素との積が計算されるX列目の列ベクトルを
第1の基底行列Hから除外する。以上の処理により、第2基底行列作成部106は、音声
信号の影響を取り除いた第2の基底行列Bを作成できる。
01は、音声信号と非音声信号が混ざり合った音響信号のスペクトログラムを示している
。このスペクトログラムでは、黒色が音声信号の成分を灰色が非音声信号の成分をそれぞ
れ表している。推定された音声信号のスペクトログラムにおいて、黒色の表示が残り、灰
色の表示が白色に変換されることが理想的な結果である。
れた非音声信号の基底行列を用いて推定された音声信号のスペクトログラムを示している
。702は第1の基底行列Hを用いた非負行列因子分解により音声信号のスペクトログラ
ムを推定しており、703は第2の基底行列Bを用いた非負行列因子分解により音声信号
のスペクトログラムを推定している。一方、704は、各フレームにおける音声尤度が低
くかつ705より短い区間である706のスペクトログラムから作成された非音声信号の
基底行列を用いて推定された音声信号のスペクトログラムを示している。図7の各スペク
トログラムを比較すると、702および704は音声信号の成分を表す黒色の部分が削除
されている。702は705の区間に含まれる音響信号の影響により、704は区間70
6が十分な長さを有していないことにより、非音声信号の基底行列の作成精度が低下した
ものと考えられる。一方、本実施形態の音響信号処理装置を用いた703のスペクトログ
ラムは、音声信号の成分を残した上で非音声信号の成分を除去しており、より理想的な推
定結果を示していることが分かる。
このように、本実施形態の音響信号処理装置は、作成された非音声信号の第1の基底行
列から音声信号との関連性が高い成分を除外することで第2の基底行列を作成する。これ
により、非音声信号の基底行列を正確に作成することができ、結果として、音声信号の分
離性能を向上させることができる。
本実施形態の音響信号処理装置では、音声信号と非音声信号の分離を対象としていたが
、他の信号の分離に応用することもできる。例えば、音楽信号と非音楽信号の分離も同様
な方法で実現することができる。
特徴抽出部104で抽出されたスペクトル特徴を用いてもよい。この場合、尤度計算部1
02は、スペクトル特徴抽出部104で抽出されたスペクトル特徴を音響特徴として利用
することができる。
と判別されるたびに非音声信号の基底行列を作成したが、対象となる区間の1つ前の区間
までに非音声信号の基底行列が既に作成されている場合は、ステップS507およびS5
08をスキップして既に作成された非音声信号の基底行列を用いて音声信号のスペクトロ
グラムを推定することもできる。
れた区間のスペクトログラムから非音声信号の基底行列を作成したが、音響信号の先頭4
00msの区間のスペクトログラムから非音声信号の基底行列を作成することもできる。
この区間に音声信号が含まれていたとしても、第2基底行列作成部106によって音声信
号の成分が除外されるため、作成される非音声信号の基底行列の精度を保つことができる
。
処理により実現可能である。
のであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その
他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の
省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や
要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる
。
102 尤度計算部
103 音声・非音声判別部
104 スペクトル特徴抽出部
105 第1基底行列作成部
106 第2基底行列作成部
107 スペクトル特徴推定部
108 逆変換部
201 制御部
202 記憶部
203 外部記憶部
204 操作部
205 通信部
206 マイク
208 バス
301 非負行列因子分解
302 音声尤度
303 最大値を示す要素
401 非負行列因子分解
402 音声信号のスペクトログラム
701 音響信号のスペクトログラム
702〜704 推定された音声信号のスペクトログラム
705 非音声信号と判別された区間
706 音声尤度が低い区間
Claims (14)
- 音声信号と非音声信号を含んだ音響信号から前記音声信号および前記非音声信号の特徴を
表す音響特徴を抽出し、この音響特徴を利用して前記音響信号に前記音声信号が含まれる
尤もらしさを表す尤度を計算する尤度計算手段と、
前記音響信号を周波数解析してスペクトル特徴を抽出するスペクトル特徴抽出手段と、
前記スペクトル特徴を利用して、前記非音声信号の特徴を表す第1の基底行列を作成する
第1基底行列作成手段と、
前記尤度を利用して、前記第1の基底行列において前記音声信号との関連性が高い成分を
特定し、この成分を除外して第2の基底行列を作成する第2基底行列作成手段と、
を備えた音響信号処理装置。 - 前記音響信号又は他の音響信号のスペクトル特徴から前記第2の基底行列を用いて、音声
信号のスペクトル特徴あるいは非音声信号のスペクトル特徴を推定するスペクトル特徴推
定手段と、
を更に備えた請求項1記載の音響信号処理装置。 - 前記スペクトル特徴推定手段が、前記第2の基底行列を用いた非負行列因子分解により、
前記音声信号の特徴を表す第3の基底行列および第1の係数行列を作成し、この第3の基
底行列と第1の係数行列の積により、前記音声信号のスペクトル特徴を推定する請求項2
記載の音響信号処理装置。 - 前記第2基底行列作成手段が、前記第1の基底行列から前記音声信号との関連性が高い列
ベクトルを除外して前記第2の基底行列を作成する請求項1乃至請求項3記載の音響信号
処理装置。 - 前記第2基底行列作成手段が、前記第1の基底行列から前記音声信号との関連性が高い列
ベクトルの値を0に置き換えて前記第2の基底行列を作成する請求項1乃至請求項3記載
の音響信号処理装置。 - 前記第2基底行列作成手段が、前記尤度と所定の閾値を比較することにより前記第1の基
底行列において前記音声信号との関連性が高い成分を特定する請求項1から請求項5の何
れか1項に記載の音響信号処理装置。 - 前記音響信号から前記音声信号および前記非音声信号の特徴を表す音響特徴を抽出し、こ
の音響特徴を利用して前記音響信号が音声信号であるか非音声信号であるかを判別する音
声・非音声判別手段を更に備え、
前記第1基底行列作成手段が、前記音声・非音声判別手段で非音声信号であると判別され
た前記音響信号のスペクトル特徴を利用して、前記非音声信号の特徴を表す第1の基底行
列を作成する請求項1から請求項6の何れか1項に記載の音響信号処理装置。 - 前記スペクトル特徴推定手段が、前記第2の基底行列を用いた非負行列因子分解により、
非音声信号の特徴を表す第2の係数行列を作成し、前記第2の基底行列とこの第2の係数
行列の積により、前記音響信号に含まれる非音声信号のスペクトル特徴を推定する請求項
2から請求項7の何れか1項に記載の音響信号処理装置。 - 前記スペクトル特徴推定手段で推定されたスペクトル特徴を時間信号に変換する逆変換手
段を更に備える請求項2から請求項8の何れか1項に記載の音響信号処理装置。 - 第1の音響信号および前記第1の音響信号とは異なる第2の音響信号を含んだ第3の音響
信号から前記第1の音響信号および前記第2の音響信号の特徴を表す音響特徴を抽出し、
この音響特徴を利用して前記第3の音響信号に前記第1の音響信号が含まれる尤もらしさ
を表す尤度を計算する尤度計算手段と、
前記第3の音響信号を周波数解析してスペクトル特徴を抽出するスペクトル特徴抽出手段
と、
前記スペクトル特徴を利用して、前記第2の音響信号の特徴を表す第1の基底行列を作成
する第1基底行列作成手段と、
前記尤度を利用して、前記第1の基底行列において前記第1の音響信号との関連性が高い
成分を特定し、この成分を除外して第2の基底行列を作成する第2基底行列作成手段と、
を備えた音響信号処理装置。 - 音声信号と非音声信号を含んだ音響信号から前記音声信号および前記非音声信号の特徴を
表す音響特徴を抽出し、この音響特徴を利用して前記音響信号に前記音声信号が含まれる
尤もらしさを表す尤度を計算するステップと、
前記音響信号を周波数解析してスペクトル特徴を抽出するステップと、
前記スペクトル特徴を利用して、前記非音声信号の特徴を表す第1の基底行列を作成する
ステップと、
前記尤度を利用して、前記第1の基底行列において前記音声信号との関連性が高い成分を
特定し、この成分を除外して第2の基底行列を作成するステップと、
を備えた音響信号処理方法。 - 第1の音響信号および前記第1の音響信号とは異なる第2の音響信号を含んだ第3の音響
信号から前記第1の音響信号および前記第2の音響信号の特徴を表す音響特徴を抽出し、
この音響特徴を利用して前記第3の音響信号に前記第1の音響信号が含まれる尤もらしさ
を表す尤度を計算するステップと、
前記第3の音響信号を周波数解析してスペクトル特徴を抽出するステップと、
前記スペクトル特徴を利用して、前記第2の音響信号の特徴を表す第1の基底行列を作成
するステップと、
前記尤度を利用して、前記第1の基底行列において前記第1の音響信号との関連性が高い
成分を特定し、この成分を除外して第2の基底行列を作成するステップと、
を備えた音響信号方法。 - 音響信号処理装置に、
音声信号と非音声信号を含んだ音響信号から前記音声信号および前記非音声信号の特徴を
表す音響特徴を抽出し、この音響特徴を利用して前記音響信号に前記音声信号が含まれる
尤もらしさを表す尤度を計算するステップと、
前記音響信号を周波数解析してスペクトル特徴を抽出するステップと、
前記スペクトル特徴を利用して、前記非音声信号の特徴を表す第1の基底行列を作成する
ステップと、
前記尤度を利用して、前記第1の基底行列において前記音声信号との関連性が高い成分を
特定し、この成分を除外して第2の基底行列を作成するステップと、
を実現させるための音響信号処理プログラム。 - 音響信号処理装置に、
第1の音響信号および前記第1の音響信号とは異なる第2の音響信号を含んだ第3の音響
信号から前記第1の音響信号および前記第2の音響信号の特徴を表す音響特徴を抽出し、
この音響特徴を利用して前記第3の音響信号に前記第1の音響信号が含まれる尤もらしさ
を表す尤度を計算するステップと、
前記第3の音響信号を周波数解析してスペクトル特徴を抽出するステップと、
前記スペクトル特徴を利用して、前記第2の音響信号の特徴を表す第1の基底行列を作成
するステップと、
前記尤度を利用して、前記第1の基底行列において前記第1の音響信号との関連性が高い
成分を特定し、この成分を除外して第2の基底行列を作成するステップと、
を実現させるための音響信号処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014245910A JP2015064602A (ja) | 2014-12-04 | 2014-12-04 | 音響信号処理装置、音響信号処理方法および音響信号処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014245910A JP2015064602A (ja) | 2014-12-04 | 2014-12-04 | 音響信号処理装置、音響信号処理方法および音響信号処理プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011172409A Division JP5662276B2 (ja) | 2011-08-05 | 2011-08-05 | 音響信号処理装置および音響信号処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015064602A true JP2015064602A (ja) | 2015-04-09 |
Family
ID=52832471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014245910A Pending JP2015064602A (ja) | 2014-12-04 | 2014-12-04 | 音響信号処理装置、音響信号処理方法および音響信号処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015064602A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10109291B2 (en) | 2016-01-05 | 2018-10-23 | Kabushiki Kaisha Toshiba | Noise suppression device, noise suppression method, and computer program product |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005084860A (ja) * | 2003-09-08 | 2005-03-31 | National Institute Of Information & Communication Technology | ブラインド信号分離システム、ブラインド信号分離方法、ブラインド信号分離プログラムおよびその記録媒体 |
US20100254539A1 (en) * | 2009-04-07 | 2010-10-07 | Samsung Electronics Co., Ltd. | Apparatus and method for extracting target sound from mixed source sound |
JP2011081614A (ja) * | 2009-10-07 | 2011-04-21 | Denso It Laboratory Inc | 認識装置、認識方法及びプログラム |
JP2011133780A (ja) * | 2009-12-25 | 2011-07-07 | Nippon Telegr & Teleph Corp <Ntt> | 信号分析装置、信号分析方法及び信号分析プログラム |
JP5662276B2 (ja) * | 2011-08-05 | 2015-01-28 | 株式会社東芝 | 音響信号処理装置および音響信号処理方法 |
-
2014
- 2014-12-04 JP JP2014245910A patent/JP2015064602A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005084860A (ja) * | 2003-09-08 | 2005-03-31 | National Institute Of Information & Communication Technology | ブラインド信号分離システム、ブラインド信号分離方法、ブラインド信号分離プログラムおよびその記録媒体 |
US20100254539A1 (en) * | 2009-04-07 | 2010-10-07 | Samsung Electronics Co., Ltd. | Apparatus and method for extracting target sound from mixed source sound |
JP2011081614A (ja) * | 2009-10-07 | 2011-04-21 | Denso It Laboratory Inc | 認識装置、認識方法及びプログラム |
JP2011133780A (ja) * | 2009-12-25 | 2011-07-07 | Nippon Telegr & Teleph Corp <Ntt> | 信号分析装置、信号分析方法及び信号分析プログラム |
JP5662276B2 (ja) * | 2011-08-05 | 2015-01-28 | 株式会社東芝 | 音響信号処理装置および音響信号処理方法 |
Non-Patent Citations (1)
Title |
---|
"NMFとVQ手法による音楽重畳音声の音声認識", 電子情報通信学会技術研究報告, vol. 第111巻 第97号, JPN6014046553, 16 June 2011 (2011-06-16), JP, pages 23 - 28, ISSN: 0003209325 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10109291B2 (en) | 2016-01-05 | 2018-10-23 | Kabushiki Kaisha Toshiba | Noise suppression device, noise suppression method, and computer program product |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5662276B2 (ja) | 音響信号処理装置および音響信号処理方法 | |
US20110125496A1 (en) | Speech recognition device, speech recognition method, and program | |
US20160071520A1 (en) | Speaker indexing device and speaker indexing method | |
TW514867B (en) | Method and apparatus for constructing voice templates for a speaker-independent voice recognition system | |
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
US9478232B2 (en) | Signal processing apparatus, signal processing method and computer program product for separating acoustic signals | |
US9595261B2 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
US9437208B2 (en) | General sound decomposition models | |
US9460714B2 (en) | Speech processing apparatus and method | |
JP2017520784A (ja) | オンザフライの音源分離の方法及びシステム | |
JP7176627B2 (ja) | 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
CN107851442B (zh) | 匹配装置、判定装置、它们的方法、程序及记录介质 | |
WO2013030134A1 (en) | Method and apparatus for acoustic source separation | |
CN111292763A (zh) | 重音检测方法及装置、非瞬时性存储介质 | |
WO2018163279A1 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
CN108369803B (zh) | 用于形成基于声门脉冲模型的参数语音合成***的激励信号的方法 | |
JP6724290B2 (ja) | 音響処理装置、音響処理方法、及び、プログラム | |
EP3254282A1 (en) | Determining features of harmonic signals | |
CN108847251A (zh) | 一种语音去重方法、装置、服务器及存储介质 | |
US11580967B2 (en) | Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium | |
JP2015064602A (ja) | 音響信号処理装置、音響信号処理方法および音響信号処理プログラム | |
JP2019132948A (ja) | 音声変換モデル学習装置、音声変換装置、方法、及びプログラム | |
Zubair et al. | Audio classification based on sparse coefficients | |
JPH10133688A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20150216 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A132 Effective date: 20151204 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20160401 |