JP2015064602A

JP2015064602A - 音響信号処理装置、音響信号処理方法および音響信号処理プログラム

Info

Publication number: JP2015064602A
Application number: JP2014245910A
Authority: JP
Inventors: 誠広畑; Makoto Hirohata
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-12-04
Filing date: 2014-12-04
Publication date: 2015-04-09

Abstract

【課題】音声信号の分離性能を向上させる音響信号処理装置を実現することである。【解決手段】実施形態の音響信号処理装置における尤度計算手段は、取得した音響信号から音声信号および非音声信号の特徴を表す音響特徴を抽出し、この音響特徴を利用して音響信号に音声信号が含まれる尤もらしさを表す尤度を計算する。スペクトル抽出手段は、音響信号を周波数解析してスペクトル特徴を抽出する。第１基底行列作成手段は、スペクトル特徴を利用して、非音声信号の特徴を表す第１の基底行列を作成する。第２基底行列作成手段は、尤度を利用して、第１の基底行列において音声信号と関連性が高い成分を特定し、この成分を除外して第２の基底行列を作成する。【選択図】図１

Description

本発明の実施形態は、音響信号処理装置、音響信号処理方法および音響信号処理プログ
ラムに関する。

音声認識などにおいてマイクロホンで取得した音響信号には、ユーザの音声である音声
信号だけでなく背景雑音や音楽などの非音声信号が含まれる。音声信号と非音声信号が混
入した音響信号から所望の信号のみを抽出する技術が音源分離技術であり、その１つに非
負行列因子分解を用いた方式がある。音響信号から音声信号を分離する場合、この方式で
はまず、非音声信号を含む蓋然性が高い区間における音響信号のスペクトログラムから非
音声信号の基底行列を作成する。次に、この非音声信号の基底行列を用いて、分離対象と
なる音響信号のスペクトログラムから音声信号の基底行列と係数行列を作成する。そして
、この音声信号の基底行列と係数行列の積により、音声信号のスペクトログラムを推定す
る。最後に、推定された音声信号のスペクトログラムを時間信号に変換して、音響信号か
ら音声信号を分離する。

しかしながら、この方式では、非音声信号の基底行列を求める際の音響信号に音声信号
が混入していた場合、非音声信号の基底行列を正確に作成することができなかった。結果
として、音声信号の分離性能が劣化するという問題があった。

特開２００９−１２８９０６号公報

Eric Scheirer, Malcolm Slaney, "Construction and Evaluation of a Robust Multifeature Speech/Music Discriminator," Proc. Of ICASSP, April 1997, Vol 2, p.1331-1334.

発明が解決しようとする課題は、音声信号の分離性能を向上させる音響信号処理装置を
実現することである。

実施形態の音響信号処理装置における尤度計算手段は、取得した音響信号から音声信号
および非音声信号の特徴を表す音響特徴を抽出し、この音響特徴を利用して音響信号に音
声信号が含まれる尤もらしさを表す尤度を計算する。スペクトル抽出手段は、音響信号を
周波数解析してスペクトル特徴を抽出する。第１基底行列作成手段は、スペクトル特徴を
利用して、非音声信号の特徴を表す第１の基底行列を作成する。第２基底行列作成手段は
、尤度を利用して、第１の基底行列において音声信号と関連性が高い成分を特定し、この
成分を除外して第２の基底行列を作成する。

第１の実施形態の音響信号処理装置を示すブロック図。実施形態の音響信号処理装置のハードウェア構成を示す図。実施形態の第２基底行列作成部における処理内容を示す図。実施形態のスペクトル推定部における処理内容を示す図。実施形態の音響信号処理装置のフローチャート。実施形態の第２基底行列作成部のフローチャート。実施形態の音声信号のスペクトログラムの推定結果を示す図。

以下、本発明の実施形態について図面を参照しながら説明する。

（第１の実施形態）
第１の実施形態の音響信号処理装置は、音声信号および非音声信号を含んだ音響信号か
ら音声信号を分離するものである。例えば、本実施形態の音響信号処理装置を音声認識の
前処理として利用することにより、音声認識の認識性能を向上させることができる。

本実施形態の音響信号処理装置は、非負行列因子分解を用いた音源分離技術（特許文献
１）であり、非音声信号が含まれる蓋然性が高い区間における音響信号のスペクトログラ
ム（スペクトル特徴）から、非音声信号の特徴を表す第１の基底行列を作成する。そして
、音声信号が含まれる尤もらしさを表す音声尤度を利用して、第１の基底行列から音声信
号との関連性が高い成分を除外して第２の基底行列を作成する。この第２の基底行列を用
いて音声信号の特徴を表す第３の基底行列と第１の係数行列を計算し、第３の基底行列と
第１の係数行列の積により、音声信号のスペクトログラムを推定する。最後に、推定され
た音声信号のスペクトログラムを時間信号に変換することで、音響信号から音声信号を分
離する。

このように、本実施形態の音響信号処理装置は、作成された非音声信号の第１の基底行
列から音声信号との関連性が高い成分を除外した第２の基底行列を作成する。これにより
、非音声信号の特徴を正確に表す基底行列を作成することができ、結果として、音声信号
の分離性能を向上させることができる。

（全体のブロック構成）
図１は、第１の実施形態にかかる音響信号処理装置を示すブロック図である。本実施形
態の音響信号処理装置は、音声信号と非音声信号を含んだ音響信号を取得する音響取得部
１０１と、音響信号から音声信号および非音声信号の特徴を表す音響特徴を抽出し、この
音響特徴を利用して、音響信号に音声信号が含まれる尤もらしさを表す音声尤度と非音声
信号が含まれる尤もらしさを表す非音声尤度を計算する尤度計算部１０２と、音声尤度と
非音声尤度を利用して、音響信号の所定区間ごとに音声・非音声を判別する音声・非音声
判別部１０３と、音響信号をフーリエ変換してスペクトログラムを抽出するスペクトル特
徴抽出部１０４と、非音声信号と判別された区間の音響信号から抽出されたスペクトログ
ラムを利用して、非音声信号の特徴を表す第１の基底行列を作成する第１基底行列作成部
１０５と、音声尤度を利用して、第１の基底行列から音声信号との関連性が高い列ベクト
ルの成分を除外して第２の基底行列を作成する第２基底行列作成部１０６と、スペクトロ
グラムを前記第２の基底行列を用いて非負行列因子分解することにより、音声信号の特徴
を表す第３の基底行列および第１の係数行列を計算し、この第３の基底行列および第１の
係数行列の積により、音響信号に含まれる音声信号のスペクトログラムを推定するスペク
トル特徴推定部１０７と、推定された音声信号のスペクトログラムを逆フーリエ変換によ
り時間信号に変換する逆変換部１０８とを備える。

（ハードウェア構成）
本実施形態の音響信号処理装置は、図２に示すような通常のコンピュータを利用したハ
ードウェアで構成されており、装置全体を制御するＣＰＵ（Central Processing Unit）
等の制御部２０１と、各種データや各種プログラムを記憶するＲＯＭ（Read Only Memory
）やＲＡＭ（Random Access Memory）等の記憶部２０２と、各種データや各種プログラム
を記憶するＨＤＤ（Hard Disk Drive）やＣＤ（Compact Disk）ドライブ装置等の外部記
憶部２０３と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部２０４と
、外部装置との通信を制御する通信部２０５と、ユーザの発声を取得するマイク２０６と
、これらを接続するバス２０８とを備えている。

このようなハードウェア構成において、制御部２０１がＲＯＭ等の記憶部２０２や外部
記憶部２０３に記憶された各種プログラムを実行することにより以下の機能が実現される
。

（各ブロックの機能）
音響取得部１０１は、マイク２０６に入力された音響信号を取得する。この音響信号に
は、ユーザの音声である音声信号だけでなく背景雑音や音楽などの非音声信号が含まれる
。なお、本実施形態の音響信号は、１６ｋＨｚでサンプリングされたデジタル信号である
とする。なお、音響取得部１０１は、マイク２０６ではなく、外部記憶部２０３や通信部
２０５によって接続された外部装置から音響信号を取得してもよい。

尤度計算部１０２は、音響取得部１０１で取得された音響信号から、音声信号および非
音声信号の特徴を表す音響特徴を抽出する。そして、この音響特徴を利用して、音響信号
に音声信号が含まれる尤もらしさ（音声尤度）および非音声信号が含まれる尤もらしさ（
非音声尤度）を計算する。具体的には、尤度計算部１０２は、音響信号を長さ２５ｍｓ（
４００サンプル）、間隔８ｍｓ（１２８サンプル）のフレームに分割する。フレーム分割
にはハミング窓を使用する。次に、各フレームから音響特徴を抽出する。音響特徴として
は、各フレームの音響信号をフーリエ変換して得られるスペクトルだけでなく、ＬＰＣケ
プストラムやＭＦＣＣ等のケプストラム系の特徴量を用いることができる。そして、抽出
された音響特徴を予め学習した音声モデルおよび非音声モデルと照合して、各フレームの
音声尤度および非音声尤度を計算する。

音声・非音声判別部１０３は、尤度計算部１０２で計算されたフレーム毎の音声尤度お
よび非音声尤度を用いて、所定区間ごとに音声信号が音声であるか非音声であるかを判別
する。本実施形態では、所定区間の長さを４００ｍｓ（５０フレーム分）に設定する。音
声・非音声判別部１０３は、５０フレーム分の音声尤度および非音声尤度の平均値を計算
し、その大小を比較することで音声・非音声を判別する。この他にも、各平均値を予め設
定した閾値と比較して音声・非音声を判別してもよい。また、非特許文献１に記載の方法
を利用することもできる。

スペクトル特徴抽出部１０４は、音響信号を長さ２５ｍｓ（４００サンプル）、間隔８
ｍｓ（１２８サンプル）のフレームに分割し、各フレームの音響信号をフーリエ変換（周
波数解析）してスペクトルを抽出する。なお、本実施形態では、各フレームに対して１１
２点の零詰めを行った後、５１２点の離散フーリエ変換を実行する。

第１基底行列作成部１０５は、スペクトル特徴抽出部１０４で抽出された複数フレーム
のスペクトル（スペクトログラム）を利用して、非音声信号の特徴を表す第１の基底行列
Ｈを作成する。ここで本実施形態では、音声・非音声判別部１０３において非音声と判別
された区間の音響信号から抽出されたスペクトログラムを利用して、第１の基底行列Ｈを
作成する。

第１基底行列作成部１０５は、まず、Ｔ個のフレームから抽出した各Ｆ次元のスペクト
ルの全要素を格納した行数Ｆ、列数Ｔの行列Ｚを作成する。次に、この行列Ｚを、行数Ｆ
・列数Ｄの第１の基底行列Ｈと、行数Ｄ・列数Ｔの係数行列Ｕの積で近似する。ここで、
Ｄは基底の数を表し、経験的に３２に設定する。第１の基底行列Ｈと係数行列Ｕの導出は
、第１の基底行列Ｈと係数行列Ｕの積と行列Ｚの二乗誤差を基準とした反復法により行う
。この際、第１の基底行列Ｈおよび係数行列Ｕの初期行列には、ランダム値を用いること
ができる。

第２基底行列作成部１０６は、尤度計算部１０２で計算された音声尤度を利用して、第
１の基底行列Ｈから音声信号との関連性が高い列ベクトルの成分を除外した第２の基底行
列Ｂを作成する。

図３を用いて、第２基底行列作成部１０６の動作を説明する。同図の３０１は、４個の
フレームから抽出された各４次元のスペクトルの要素で構成される行列Ｚを、行数４・列
数４の第１の基底行列Ｈと、行数４・列数４の係数行列Ｕの積で近似している。３０２は
、行列Ｚの各フレーム（列ベクトル）に対応する音声尤度を表している。３０２の閾値は
、音声信号を含むフレームを判別するための値であり、予め所定値を設定しておく。閾値
と音声尤度の比較により、この例ではｔ番目のフレームの音響信号に音声信号が含まれる
と判別される。したがって、第２基底行列作成部１０６は、ｔ番目のフレームに起因する
成分を第１の基底行列Ｈから除外して第２の基底行列Ｂを作成する。

まず、第２基底行列作成部１０６は、係数行列Ｕの各行ごとに正規化処理を行い正規化
後の係数行列Ｕ’を得る。正規化は、各列ベクトルの要素の大きさを比較するための処理
であり、各行の要素を平均０・分散１になるよう実行する。次に、第２基底行列作成部１
０６は、ｔ番目のフレームに対応する係数行列Ｕ’の列ベクトルの中で最大の値を持つ要
素を選択する。要素は、Ｕ’のＸ行Ｙ列目のように特定する。この例では、２行３列目の
要素３０３が最大となる。次に、第２基底行列作成部１０６は、第１の基底行列Ｈと係数
行列Ｕの積において、係数行列ＵのＸ行Ｙ列目の要素との積が計算されるＸ列目の列ベク
トルを除外する。この例では、Ｕ’の２行３列目の要素が選択されていることから、第１
の基底行列Ｈから２列目の列ベクトルを除外して第２の基底行列Ｂを作成する。

このように、本実施形態の音響信号処理装置は、第１の基底行列Ｈから音声信号との関
連性が高い列ベクトルの成分を除外した第２の基底行列Ｂを作成する。これにより、非音
声信号の特性を表す第２の基底行列Ｂを正確に作成することができる。

なお、第２基底行列作成部１０６は、複数の列ベクトルを除外して第２の基底行列Ｂを
作成してもよい。また、列ベクトルを除外するのではなく、列ベクトルの要素の値を０ま
たは０に近い値に置き換えることもできる。また、作成された第２の基底行列Ｂを記憶部
２０２や外部記憶部２０３に記憶しておき、記憶された第２の基底行列Ｂを再利用して他
の音響信号に対する分離処理を実行してもよい。

本実施形態では音声尤度そのものを用いて音声信号との関連性が高い成分を特定したが
、非音声尤度と音声尤度の比を用いてもよい。また、非音声尤度だけを用いて音声信号と
の関連性が高い成分を特定することもできる。例えば、非音声尤度が低いフレームを音声
信号との関連性が高い成分とみなすことができる。

スペクトル特徴推定部１０７は、スペクトル特徴抽出部１０４で抽出されたスペクトル
特徴を第２の基底行列Ｂを用いて非負行列因子分解することにより、音声信号の特徴を表
す第３の基底行列Ｍおよび第１の係数行列Ｖを計算する。そして、この第３の基底行列Ｍ
と第１の係数行列Ｖの積を取ることにより、音響信号に含まれる音声信号のスペクトル特
徴を推定する。

まず、スペクトル特徴推定部１０７は、図４の４０１に示すように、音声信号を分離す
る対象となる音響信号のスペクトログラムＸを第２の基底行列Ｂを用いて非負行列因子分
解する。第１の基底行列Ｈの導出と同様に、基底行列と係数行列の積とスペクトログラム
Ｘの二乗誤差を基準とした反復法を適用する。この際、基底行列の列数は第２の基底行列
Ｂの列数Ｄ−１より大きい値Ｅ＋Ｄ−１とし、基底行列のＥ列目以降の初期値は第２基底
行列Ｂの要素とする。基底行列のＥ列目以降の要素は反復法の適用外とする。反復法を適
用した結果、基底行列の１列目からＥ列目までの行列が第３の基底行列Ｍ、係数行列の１
行目からＥ行目までの行列が第１の第１の係数行列Ｖ、Ｅ行目以降の行列が第２の係数行
列Ｗとなる。

次に、スペクトル特徴推定部１０７は、この第３の基底行列Ｍと第１の係数行列Ｖの積
を取ることにより、音響信号に含まれる音声信号のスペクトログラムを推定する（図４の
４０２）。この他にも、非音声信号の特徴を表す第２の基底行列Ｂと第２の係数行列Ｗの
積により、音響信号に含まれる非音声信号のスペクトログラムを推定することもできる。

また、スペクトル特徴推定部１０７は、第３の基底行列Ｍと第１の係数行列Ｖの積で推
定した音声信号のスペクトログラムと、第２の基底行列Ｂと第２の係数行列Ｗの積で推定
した非音声信号のスペクトログラムからスペクトログラムの要素ごとに音声信号に起因す
る成分の比率を算出し、分離対象となるスペクトログラムにこの比率をかけることで音声
信号のスペクトログラムを推定してもよい。

逆変換部１０８は、推定された音声信号のスペクトログラムを離散逆フーリエ変換する
ことにより時間信号に変換する。これにより、音響信号から音声信号を分離することがで
きる。なお、分離された音声信号を後段の音声認識部（図示なし）に出力することにより
、非音声信号の影響を取り除いた音声認識処理を実行できる。

（フローチャート：全体処理）
図５のフローチャートを利用して、本実施形態にかかる音声信号処理装置の処理を説明
する。まず、ステップＳ５０１では、音響取得部１０１は、分離対象となる音響信号を取
得する。

ステップＳ５０２では、スペクトル特徴抽出部１０４は、フレームに分割した音響信号
から離散フーリエ変換によりスペクトルを抽出する。フレームの間隔は８ｍｓとする。

ステップＳ５０３では、尤度計算部１０２は、音響信号からＬＰＣケプストラムやＭＦ
ＣＣ等のケプストラム系の音響特徴を抽出する。そして、この音響特徴と予め学習した音
声モデルおよび非音声モデルを照合して、音声尤度および非音声尤度を計算する。

ステップＳ５０４では、音声・非音声判別部１０３は、長さ４００ｍｓ（５０フレーム
分）の所定区間ごとに音声・非音声を判別する。判別には、ステップＳ５０３で計算され
た音声尤度および非音声尤度を用いる。

ステップＳ５０５では、判別対象となった区間が最初の区間であるか否かに応じて処理
を分岐する。最初の区間である場合は、非音声信号の基底行列は作成されていないため、
ステップ５０４での判別結果によらずステップＳ５０７に移行する。最初の区間でない場
合は、ステップＳ５０６に移行する。

ステップＳ５０６では、判別対象となった区間の判別結果に応じて処理を分岐する。判
別結果が非音声である場合はステップＳ５０７へ、音声である場合はステップＳ５０９へ
移行する。

ステップＳ５０７では、第１基底行列作成部１０５は、判別対象となった区間から抽出
されたスペクトログラムを利用して、非音声信号の特徴を表す第１の基底行列Ｈおよび係
数行列を作成する。

ステップＳ５０８では、第２基底行列作成部１０６は、ステップＳ５０３で計算された
音声尤度を利用して、第１の基底行列Ｈから音声信号との関連性が高い列ベクトルの成分
を除外した第２の基底行列Ｂを作成する。ステップＳ５０８の詳細は後述する。

ステップＳ５０９では、スペクトル特徴推定部１０７は、ステップＳ５０４で音声・非
音声が判別された４００ｍｓ（５０フレーム）の区間から抽出されたスペクトログラムを
第２の基底行列Ｂを用いて非負行列因子分解し、音声信号の特徴を表す第３の基底行列Ｍ
および第１の係数行列Ｖを計算する。

ステップＳ５１０では、スペクトル特徴推定部１０７は、第３の基底行列Ｍと第１の係
数行列Ｖの積により、音声信号のスペクトログラムの推定値を得る。推定された音声スペ
クトログラムのフレーム数は５０になる。

ステップＳ５１１では、逆変換部１０８は、ステップＳ５１０で推定された音声信号の
スペクトログラムを離散逆フーリエ変換により時間信号に変換する。

ステップＳ５１２では、音響信号処理装置は、全ての区間について音声信号の分離処理
が終了したか否かを判別する。終了していない場合はステップＳ５０４に移行して、次の
４００ｍｓ区間について音声・非音声を判別する。

（フローチャート：第２基底行列作成部）
図６のフローチャートを利用して、第２の基底行列Ｂを作成する図５のステップＳ５０
８の詳細を説明する。まず、ステップＳ６０１では、第２基底行列作成部１０６は、係数
行列Ｕの各行ごとに正規化を実行することにより係数行列Ｕ’を得る。

ステップＳ６０２では、第２基底行列作成部１０６は、正規化された係数行列Ｕ’の各
列ベクトルに対応する音声尤度を取得する。

ステップＳ６０３では、第２基底行列作成部１０６は、音声尤度と予め設定した閾値を
比較する。

ステップＳ６０４では、第２基底行列作成部１０６は、閾値を超えた音声尤度に対応づ
けられた係数行列Ｕ’の列ベクトルを選択する。音声尤度が閾値を超えるフレームが複数
ある場合は、列ベクトルも複数選択する。

ステップＳ６０５では、第２基底行列作成部１０６は、ステップＳ６０４で選択された
各列ベクトルにおいて最大の値を示す要素を選択する。要素は、係数行列Ｕ’のＸ行Ｙ列
目のように選択する。列ベクトルが複数ある場合は、選択される要素も複数になる。

ステップＳ６０６では、第２基底行列作成部１０６は、第１の基底行列Ｈと係数行列Ｕ
の積において、係数行列ＵのＸ行Ｙ列目の要素との積が計算されるＸ列目の列ベクトルを
第１の基底行列Ｈから除外する。以上の処理により、第２基底行列作成部１０６は、音声
信号の影響を取り除いた第２の基底行列Ｂを作成できる。

図７に、本実施形態の音響信号装置で推定された音声スペクトルの例を示す。同図の７
０１は、音声信号と非音声信号が混ざり合った音響信号のスペクトログラムを示している
。このスペクトログラムでは、黒色が音声信号の成分を灰色が非音声信号の成分をそれぞ
れ表している。推定された音声信号のスペクトログラムにおいて、黒色の表示が残り、灰
色の表示が白色に変換されることが理想的な結果である。

７０２および７０３は、非音声と判別された区間７０５のスペクトログラムから作成さ
れた非音声信号の基底行列を用いて推定された音声信号のスペクトログラムを示している
。７０２は第１の基底行列Ｈを用いた非負行列因子分解により音声信号のスペクトログラ
ムを推定しており、７０３は第２の基底行列Ｂを用いた非負行列因子分解により音声信号
のスペクトログラムを推定している。一方、７０４は、各フレームにおける音声尤度が低
くかつ７０５より短い区間である７０６のスペクトログラムから作成された非音声信号の
基底行列を用いて推定された音声信号のスペクトログラムを示している。図７の各スペク
トログラムを比較すると、７０２および７０４は音声信号の成分を表す黒色の部分が削除
されている。７０２は７０５の区間に含まれる音響信号の影響により、７０４は区間７０
６が十分な長さを有していないことにより、非音声信号の基底行列の作成精度が低下した
ものと考えられる。一方、本実施形態の音響信号処理装置を用いた７０３のスペクトログ
ラムは、音声信号の成分を残した上で非音声信号の成分を除去しており、より理想的な推
定結果を示していることが分かる。

（効果）
このように、本実施形態の音響信号処理装置は、作成された非音声信号の第１の基底行
列から音声信号との関連性が高い成分を除外することで第２の基底行列を作成する。これ
により、非音声信号の基底行列を正確に作成することができ、結果として、音声信号の分
離性能を向上させることができる。

（変形例）
本実施形態の音響信号処理装置では、音声信号と非音声信号の分離を対象としていたが
、他の信号の分離に応用することもできる。例えば、音楽信号と非音楽信号の分離も同様
な方法で実現することができる。

また、尤度計算部１０２がスペクトル特徴を用いて尤度を計算する場合は、スペクトル
特徴抽出部１０４で抽出されたスペクトル特徴を用いてもよい。この場合、尤度計算部１
０２は、スペクトル特徴抽出部１０４で抽出されたスペクトル特徴を音響特徴として利用
することができる。

また、図７のステップＳ５０７およびＳ５０８では、ステップＳ５０６において非音声
と判別されるたびに非音声信号の基底行列を作成したが、対象となる区間の１つ前の区間
までに非音声信号の基底行列が既に作成されている場合は、ステップＳ５０７およびＳ５
０８をスキップして既に作成された非音声信号の基底行列を用いて音声信号のスペクトロ
グラムを推定することもできる。

また、本実施形態の音響信号処理装置は、音声・非音声判別部１０３で非音声と判別さ
れた区間のスペクトログラムから非音声信号の基底行列を作成したが、音響信号の先頭４
００ｍｓの区間のスペクトログラムから非音声信号の基底行列を作成することもできる。
この区間に音声信号が含まれていたとしても、第２基底行列作成部１０６によって音声信
号の成分が除外されるため、作成される非音声信号の基底行列の精度を保つことができる
。

なお、以上説明した本実施形態における一部機能もしくは全ての機能は、ソフトウェア
処理により実現可能である。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したも
のであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その
他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の
省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や
要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる
。

１０１響取得部
１０２尤度計算部
１０３音声・非音声判別部
１０４スペクトル特徴抽出部
１０５第１基底行列作成部
１０６第２基底行列作成部
１０７スペクトル特徴推定部
１０８逆変換部
２０１制御部
２０２記憶部
２０３外部記憶部
２０４操作部
２０５通信部
２０６マイク
２０８バス
３０１非負行列因子分解
３０２音声尤度
３０３最大値を示す要素
４０１非負行列因子分解
４０２音声信号のスペクトログラム
７０１音響信号のスペクトログラム
７０２〜７０４推定された音声信号のスペクトログラム
７０５非音声信号と判別された区間
７０６音声尤度が低い区間

Claims

音声信号と非音声信号を含んだ音響信号から前記音声信号および前記非音声信号の特徴を
表す音響特徴を抽出し、この音響特徴を利用して前記音響信号に前記音声信号が含まれる
尤もらしさを表す尤度を計算する尤度計算手段と、
前記音響信号を周波数解析してスペクトル特徴を抽出するスペクトル特徴抽出手段と、
前記スペクトル特徴を利用して、前記非音声信号の特徴を表す第１の基底行列を作成する
第１基底行列作成手段と、
前記尤度を利用して、前記第１の基底行列において前記音声信号との関連性が高い成分を
特定し、この成分を除外して第２の基底行列を作成する第２基底行列作成手段と、
を備えた音響信号処理装置。
前記音響信号又は他の音響信号のスペクトル特徴から前記第２の基底行列を用いて、音声
信号のスペクトル特徴あるいは非音声信号のスペクトル特徴を推定するスペクトル特徴推
定手段と、
を更に備えた請求項１記載の音響信号処理装置。
前記スペクトル特徴推定手段が、前記第２の基底行列を用いた非負行列因子分解により、
前記音声信号の特徴を表す第３の基底行列および第１の係数行列を作成し、この第３の基
底行列と第１の係数行列の積により、前記音声信号のスペクトル特徴を推定する請求項２
記載の音響信号処理装置。
前記第２基底行列作成手段が、前記第１の基底行列から前記音声信号との関連性が高い列
ベクトルを除外して前記第２の基底行列を作成する請求項１乃至請求項３記載の音響信号
処理装置。
前記第２基底行列作成手段が、前記第１の基底行列から前記音声信号との関連性が高い列
ベクトルの値を０に置き換えて前記第２の基底行列を作成する請求項１乃至請求項３記載
の音響信号処理装置。
前記第２基底行列作成手段が、前記尤度と所定の閾値を比較することにより前記第１の基
底行列において前記音声信号との関連性が高い成分を特定する請求項１から請求項５の何
れか１項に記載の音響信号処理装置。
前記音響信号から前記音声信号および前記非音声信号の特徴を表す音響特徴を抽出し、こ
の音響特徴を利用して前記音響信号が音声信号であるか非音声信号であるかを判別する音
声・非音声判別手段を更に備え、
前記第１基底行列作成手段が、前記音声・非音声判別手段で非音声信号であると判別され
た前記音響信号のスペクトル特徴を利用して、前記非音声信号の特徴を表す第１の基底行
列を作成する請求項１から請求項６の何れか１項に記載の音響信号処理装置。
前記スペクトル特徴推定手段が、前記第２の基底行列を用いた非負行列因子分解により、
非音声信号の特徴を表す第２の係数行列を作成し、前記第２の基底行列とこの第２の係数
行列の積により、前記音響信号に含まれる非音声信号のスペクトル特徴を推定する請求項
２から請求項７の何れか１項に記載の音響信号処理装置。
前記スペクトル特徴推定手段で推定されたスペクトル特徴を時間信号に変換する逆変換手
段を更に備える請求項２から請求項８の何れか１項に記載の音響信号処理装置。
第１の音響信号および前記第１の音響信号とは異なる第２の音響信号を含んだ第３の音響
信号から前記第１の音響信号および前記第２の音響信号の特徴を表す音響特徴を抽出し、
この音響特徴を利用して前記第３の音響信号に前記第１の音響信号が含まれる尤もらしさ
を表す尤度を計算する尤度計算手段と、
前記第３の音響信号を周波数解析してスペクトル特徴を抽出するスペクトル特徴抽出手段
と、
前記スペクトル特徴を利用して、前記第２の音響信号の特徴を表す第１の基底行列を作成
する第１基底行列作成手段と、
前記尤度を利用して、前記第１の基底行列において前記第１の音響信号との関連性が高い
成分を特定し、この成分を除外して第２の基底行列を作成する第２基底行列作成手段と、
を備えた音響信号処理装置。
音声信号と非音声信号を含んだ音響信号から前記音声信号および前記非音声信号の特徴を
表す音響特徴を抽出し、この音響特徴を利用して前記音響信号に前記音声信号が含まれる
尤もらしさを表す尤度を計算するステップと、
前記音響信号を周波数解析してスペクトル特徴を抽出するステップと、
前記スペクトル特徴を利用して、前記非音声信号の特徴を表す第１の基底行列を作成する
ステップと、
前記尤度を利用して、前記第１の基底行列において前記音声信号との関連性が高い成分を
特定し、この成分を除外して第２の基底行列を作成するステップと、
を備えた音響信号処理方法。
第１の音響信号および前記第１の音響信号とは異なる第２の音響信号を含んだ第３の音響
信号から前記第１の音響信号および前記第２の音響信号の特徴を表す音響特徴を抽出し、
この音響特徴を利用して前記第３の音響信号に前記第１の音響信号が含まれる尤もらしさ
を表す尤度を計算するステップと、
前記第３の音響信号を周波数解析してスペクトル特徴を抽出するステップと、
前記スペクトル特徴を利用して、前記第２の音響信号の特徴を表す第１の基底行列を作成
するステップと、
前記尤度を利用して、前記第１の基底行列において前記第１の音響信号との関連性が高い
成分を特定し、この成分を除外して第２の基底行列を作成するステップと、
を備えた音響信号方法。
音響信号処理装置に、
音声信号と非音声信号を含んだ音響信号から前記音声信号および前記非音声信号の特徴を
表す音響特徴を抽出し、この音響特徴を利用して前記音響信号に前記音声信号が含まれる
尤もらしさを表す尤度を計算するステップと、
前記音響信号を周波数解析してスペクトル特徴を抽出するステップと、
前記スペクトル特徴を利用して、前記非音声信号の特徴を表す第１の基底行列を作成する
ステップと、
前記尤度を利用して、前記第１の基底行列において前記音声信号との関連性が高い成分を
特定し、この成分を除外して第２の基底行列を作成するステップと、
を実現させるための音響信号処理プログラム。
音響信号処理装置に、
第１の音響信号および前記第１の音響信号とは異なる第２の音響信号を含んだ第３の音響
信号から前記第１の音響信号および前記第２の音響信号の特徴を表す音響特徴を抽出し、
この音響特徴を利用して前記第３の音響信号に前記第１の音響信号が含まれる尤もらしさ
を表す尤度を計算するステップと、
前記第３の音響信号を周波数解析してスペクトル特徴を抽出するステップと、
前記スペクトル特徴を利用して、前記第２の音響信号の特徴を表す第１の基底行列を作成
するステップと、
前記尤度を利用して、前記第１の基底行列において前記第１の音響信号との関連性が高い
成分を特定し、この成分を除外して第２の基底行列を作成するステップと、
を実現させるための音響信号処理プログラム。