JP5875414B2 - 雑音抑制方法、プログラム及び装置 - Google Patents

雑音抑制方法、プログラム及び装置 Download PDF

Info

Publication number
JP5875414B2
JP5875414B2 JP2012050603A JP2012050603A JP5875414B2 JP 5875414 B2 JP5875414 B2 JP 5875414B2 JP 2012050603 A JP2012050603 A JP 2012050603A JP 2012050603 A JP2012050603 A JP 2012050603A JP 5875414 B2 JP5875414 B2 JP 5875414B2
Authority
JP
Japan
Prior art keywords
speech
reliability index
observed
value
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012050603A
Other languages
English (en)
Other versions
JP2013186258A (ja
Inventor
治 市川
治 市川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2012050603A priority Critical patent/JP5875414B2/ja
Priority to US13/786,603 priority patent/US9190072B2/en
Priority to CN201310071302.3A priority patent/CN103310798B/zh
Publication of JP2013186258A publication Critical patent/JP2013186258A/ja
Application granted granted Critical
Publication of JP5875414B2 publication Critical patent/JP5875414B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声認識技術に関し、より詳細には、雑音抑制技術に関する。
音声認識技術において、背景雑音の影響を排除することは、発話の認識精度を改善する上で重要な懸案事項である。従来のフィルタリング手法(スペクトルサブトラクション法やウィーナーフィルタリング法など)は、背景雑音が比較的小さい場合に一定の成果を示したが、大きい背景雑音の下では、目的の音声が雑音に埋没してしまうため、所望の効果を得ることができなかった。
この点につき、近年、クリーン音声(一切の雑音が重畳されていない発話音声)の確率モデルを使用したアプローチが注目されている。これらのモデルベースの雑音抑制方法は、大きい背景雑音の下でも高い性能を示すことが報告されている。この点につき、特開2008−298844号公報(特許文献1)は、モデルベース雑音抑制を採用した音声認識システムを開示する。
特開2008−298844号公報
本発明は、音声認識のフロントエンドに適用される雑音抑制の新規な手法を提供することを目的とする。
本発明者は、音声認識のフロントエンドに適用される雑音抑制方法につき鋭意検討した結果、観測音声の調波構造の顕著さを表す信頼性指標をバンドごとの出力に対する重みとして付与する構成に想到し、本発明に至ったのである。
すなわち、本発明によれば、雑音抑制方法であって、観測音声のスペクトルに基づいてバンドごとの信頼性指標を作成するステップと、観測音声に基づいて生成されたクリーン音声の確率モデルに対してMMSE推定を実行してクリーン音声推定値を推定するステップであって、該MMSE推定の事後確率に対して前記信頼性指標を重みとした重み付けを前記バンドごとに行う、ステップとを含む第1の方法が提供される。
また、本発明によれば、雑音抑制方法であって、観測音声のスペクトルに基づいて信頼性指標をバンドごとに作成するステップと、観測音声からクリーン音声推定値を推定するステップと、前記バンドごとに前記観測音声の観測値と前記クリーン音声推定値の間で前記信頼性指標を重みとした線形補間を実行して出力値を導出するステップとを含む第2の方法が提供される。
さらに、本発明によれば、上記第1の方法と第2の方法を組み合わせた第3の方法が提供され、上記各方法をコンピュータに実行させるためのコンピュータ・プログラムが提供され、上記各方法を実現するための機能を実装した雑音抑制装置が提供される。
上述したように、本発明によれば、観測音声の調波構造の顕著さを表す信頼性指標がバンドごとの出力に重みとして付与されることによって、フロントエンドの出力が最適化される。
従来の音声認識システムのフロントエンドの構成を示す概念図。 観測音声の周波数スペクトルからメルLPWを生成するまでの工程を示す概念図。 メルLPWから信頼性指標αを作成する工程を示す概念図。 第1の実施形態の音声認識システムのフロントエンドの構成を示す概念図。 第1の実施形態のフロントエンドにおいて実行される処理を示したフローチャート。 メルLPWから信頼性指標βを作成する工程を示す概念図。 第2の実施形態の音声認識システムのフロントエンドの構成を示す概念図。 第2の実施形態のフロントエンドにおいて実行される処理を示したフローチャート。 第3の実施形態の音声認識システムのフロントエンドの構成を示す概念図。 第3の実施形態のフロントエンドにおいて実行される処理を示したフローチャート。
以下、本発明を図面に示した実施の形態をもって説明するが、本発明は、図面に示した実施の形態に限定されるものではない。なお、以下に参照する各図においては、共通する要素について同じ符号を用い、適宜、その説明を省略するものとする。
一般に、音声認識システムは、発話された音声の音波信号に所定の変換を施して特徴量を抽出するまでのフロントエンドと、フロントエンドで抽出された特徴量に基づいてデータベースを検索し、発話の内容を特定するバックエンドから構成される。本発明は、フロントエンドに適用されてきたこれまでの雑音抑制の改良であり、観測音声のバンドごとの信頼性を利用してフロントエンドの出力の最適化を図るものである。
以下、本発明を3つの実施形態に基づいて説明する。第1の実施形態は、モデルベース雑音補正において使用されるMMSE(Minimum Mean Square error)推定を改善する手法を開示する。第2の実施形態は、クリーン音声の推定値と観測値との間で線形補間を実施することによって出力値を最適化する手法を開示する。さらに、第3の実施形態では、上述した2つの手法を組み合わせる手法を開示する。
<モデルベース雑音補正>
本発明の各実施形態の説明に入る前に、フロントエンドに適用されるモデルベースの雑音補正について、図1に基づいて説明する。なお、以下の説明において、「観測音声」とは、発話音声に背景雑音が重畳された実際の観測音を意味し、「クリーン音声」とは、一切の雑音が重畳されていない発話音声を意味し、「クリーン音声推定値」は、観測音声から推定されるクリーン音声の推定値を意味する。また、「周波数スペクトル」とは、パワースペクトルまたは振幅スペクトルを意味する。
モデルベース雑音補正とは、要するに、クリーン音声xを、観測値yが与えられたときのxの確率分布p(x | y)としてモデル化し、当該確率モデルp(x | y)からクリーン音声xの推定値を推定する技術であり、MMSE推定は、その後段の推定に使用される要素技術である。
図1は、モデルベース雑音補正を適用した従来の音声認識システム500のフロントエンドの構成を概念的に示している。
マイクによって収録された観測音声は、A/D変換器によってデジタル信号(音波信号)に変換された後、適切な窓関数によるフレーム化および離散フーリエ変換(DFT)を経て、フレーム毎の周波数スペクトルに変換される。次に、周波数スペクトルは、メル・フィルタバンク(メルスケール上に等間隔に配置された帯域フィルタバンク)にかけられた後、その対数をとってメル対数スペクトルに変換され、雑音抑制部502に入力される。
雑音抑制部502は、モデルベース雑音補正部512と、MMSE推定部514と、クリーン音声のガウス混合モデル(以下、GMMという)を記憶するデータベース516を含んで構成されており、入力されたメル対数スペクトルに基づいて、フレーム毎のクリーン音声推定値を生成し、特徴量抽出部504に出力する。
モデルベース雑音補正部512は、観測音声に含まれるクリーン音声を確率分布として表現する機能部であり、VTS、SPLICE、DNA、Seguraといった既存のモデル化アルゴリズムにより実装される。モデルベース雑音補正部512は、雑音抑制部502に入力されるフレーム毎のメル対数スペクトルと、データベース516に記憶されるクリーン音声モデル(GMM)を使用して所定の演算を実行し、観測音声に含まれるクリーン音声をバンドごとの次元を持つ混合多次元正規分布として出力する。
MMSE推定部514は、モデルベース雑音補正部512から出力された確率分布に基づいてMMSE推定を実行し、クリーン音声推定値を生成する。なお、データベース516に記憶されるクリーン音声モデルは、事前の学習に基づいて音素ごとに生成されたメル対数スペクトル領域のGMMであり、モデルベース雑音補正部512は、クリーン音声をメル対数スペクトル領域のGMMとして出力し、MMSE推定部514は、クリーン音声推定値をメル対数スペクトル領域のベクトルとして生成する。
特徴量抽出部504は、MMSE推定部514が出力するクリーン音声推定値からメル周波数ケプストラム係数(MFCC)などの所定の特徴量を抽出し、バックエンドに渡す。バックエンドでは、フロントエンドから受領した特徴量に基づき、HMM、音響モデル、Nグラム言語モデルなどの既知の構成を使用して、発話の内容が特定される。
以上、従来の音声認識システムのフロントエンドの構成について概説したが、続いて、既存のMMSE推定の詳細について説明する。従来のモデルベース雑音補正のアルゴリズムには、先に説明した、観測音声からクリーン音声推定値を直接推定する第1の方式の他、観測音声から補正量を推定し、観測音声と補正量の推定値の差分からクリーン音声推定値を導出する第2の方式があり、第2の方式では、補正量の推定にMMSE推定が使用される。以下では、説明の都合上、Seguraが採用する第2の方式を基調にして説明する。
<既存のMMSE推定>
観測音声yのフレームtにおけるバンドd(メルスケールの周波数帯)のメル対数スペクトル領域の観測値yd(t)は、クリーン音声の値xd(t)とノイズの値nd(t)の関数として下記式(1)のように表すことができる。
上記式(1)において、tを省略し、ベクトルで表記すると下記式2になる。
バンドdごとのミスマッチベクトルgは、下記式(3)に示すミスマッチ関数Gより与えられる。
ここで、クリーン音声xは、下記式(4)に示すK混合のGMMとしてモデル化される。
上記式(4)において、γk、μx,k、Σx,kは、それぞれ、k番目の正規分布の事前確率、平均ベクトル、共分散行列を示す。
上記式(1)〜(4)に基づき、一次のテイラー展開を用いると、ミスマッチベクトルgは下記式(5)に示すK混合のGMMとしてモデル化される。
なお、上記式(5)において平均ベクトルμg,kは下記式(6)で表され、共分散行列Σg,kは下記式(7)で表される。
そして、上記式(7)における補助関数Fは下記式(8)のように定義される。
その結果、クリーン音声推定値x^は、下記式(9-1)で与えられる。
一方、観測音声yからクリーン音声推定値x^を直接推定する第1の方式の場合、クリーン音声推定値x^は、上記式(9-1)に代えて、下記式(9-2)で与えられる。
ここで、上記式(9-1)および式(9-2)における事後確率ρkは、いずれも、下記式(10)で与えられる。
そして、上記式(10)における平均ベクトルμy,kは、下記式(11)で表され、共分散行列Σy,kは、下記式(12)で表される。
なお、上記式(11)および式(12)において、音声モデルのパラメータ[μx,kx,k]は、事前の学習データにより与えられ、雑音モデルのパラメータ[μnn]は、モデルベース雑音補正部512が無声音区間の観測値に基づいて設定し、MMSE推定部514に与える。
以上、説明したように、MMSE推定とは、要するに、クリーン音声推定値x^を、事後確率ρk(y)で重み付けされたk個の確率分布の平均ベクトルμx,kの合計として近似する処理である。本発明の第1の実施形態は、この点に着目するものであり、MMSE推定における事後確率に適切な修正を加えることによって、フロントエンドの出力を最適化する。
<第1実施形態:CW−MMSE>
このセクションでは、MMSE推定における事後確率に対して信頼性指標を重みとした重み付けを行う手法について説明する。以下の説明においては、この手法をCW−MMSE(Confidence Weighted MMSE)として参照する。
既存のMMSEにおいて、クリーン音声推定値x^が下記式(9-1)または式(9-2)で与えられ、各式中の事後確率ρk(y)が下記式(10)で与えられることは既に説明した通りである。
ここで、CW−MMSEは、クリーン音声推定値x^を与える上記式(9-1)または式(9-2)において、事後確率ρk(y)の代わりに、信頼性指標αdが重み付けられた事後確率ρ′k(y)を使用するものである。下記式(13)は、CW−MMSEが使用する事後確率ρ′k(y)を示す。
ここで、上記式(13)における正規分布は、対角共分散の仮定を用いた下記式(14)により与えられる。なお、下記式(14)において、Dは正規分布の次元数を示す。
上記式(14)を参照すれば、事後確率ρ′k(y)の算出式の項である正規分布N′に対して信頼性指標αdを重みとした指数重みが掛けられていることが理解されるであろう。ここで、信頼性指標とは、バンドの信頼性を表す指標である。一般に、バンドの信頼性は、背景雑音による信号劣化の観点から評価される。本発明においては、信頼性指標を以下のように定義する。
<信頼性指標>
人の発音に含まれる母音の周波数スペクトルは調波構造を持つことが知られており、背景雑音のない環境下では、観測音声の周波数スペクトルの全帯域で母音の調波構造は維持される。一方、自動車の走行音や空調音などの広帯域雑音の下では、多くのバンドで母音の調波構造が失われ、フォルマントなど音声パワーが集中したバンドのみで調波構造が維持される。
このことから、本発明は、顕著な調波構造を持つバンドは、背景雑音による劣化があまり起こっていないという前提に立ち、調波構造の顕著さをそのバンドの信頼性指標として定義するものである。以下、本発明の信頼性指標の作成方法について説明する。
本発明の信頼性指標は、LPW(Local Peak Weight)を使用して作成される。ここで、LPWとは、観測音声のスペクトル概形のうち、フォルマント情報を含むような大きな変動を取り除き、調波構造に対応する規則的な山と谷の部分のみを抽出し、その値を正規化したものであり、本発明においては、以下の手順で、フレーム毎に作成される。
まず、観測音声のフレームtの周波数スペクトルの対数をとり、さらにその対数スペクトルを離散コサイン変換してケプストラムを求める。次に、求めたケプストラムの項の内、LPW母音の調波構造に対応した領域の項のみを残し、それ以外の項をカットする。その後、加工後のケプストラムに逆離散コサイン変換をかけて対数スペクトル領域に戻し、これをさらに周波数スペクトル領域に戻す。最後に、周波数スペクトルの平均値が1になるように正規化してLPWを得る。図2(a)は、観測音声のフレームtの周波数スペクトルを示し、図2(b)は、図2(a)に示す周波数スペクトルに基づいて生成されたLPWを示す。
続いて、図2(b)に示すLPWをメルスケール上で平滑化することによって図2(c)に示すメルLPWを得る。具体的には、LPWをメル・フィルタバンク(メルスケール上に等間隔に配置された帯域フィルタバンク)に通すことによって値を平滑化し、メルバンド毎に1つの値を得る。図2(c)が示すように、メルLPWの値は、メルバンドごとに付与される。メルLPWの値の大きさは、メルバンドに対応する高解像度の周波数スペクトルのバンドの調波構造の顕著さに対応している。
本発明では、メルLPWの値を適切な方法で正規化したものを信頼性指標として用いる。CW−MMSEの場合、上記式(14)における信頼性指標αdは、以下の手順で作成することができる。
まず、信頼性指標αdが極端な値をとらないようにするために、図3(a)に示すメルLPWのダイナミックレンジを適切なスケーリング関数を用いて圧縮する。その結果、各バンドのメルLPWの値wがα′dに変換される。スケーリング関数の例として、シグモイド関数を挙げることができる。下記式(15)は、シグモイド関数を使用してメルLPWの値wをα′dに変換する式を示す。
なお、上記式(15)において、aは、チューニングパラメータであり、適切な定数値を設定する。
続いて、圧縮された値α′dを平均が1になるように正規化する。平均が1になるように正規化するのは、上記式(14)において信頼性指標αdが指数重みとして使用されるからである。下記式(16)は、α′dを正規化して信頼性指標αdを得る式を示す。
図3(b)は、上述した手順で作成された信頼性指標αdを示す。図3(b)が示すように、信頼性指標αdは、メルバンドごとに付与される。
無声音区間や非発声区間の場合、フレームtにおけるバンドdの信頼性指標αdは一様に1に近づくであろう。この場合、上記式(14)における正規分布N′は、通常の正規分布になるので、事後確率ρ′k(y)に重み付けがなされない。
有声音区間のフレームtに母音の調波構造が顕著なスペクトル帯域があった場合、対応するバンドdの信頼性指標αdは1よりも大きくなるであろう。その結果、当該バンドdについては、上記式(14)における正規分布N′が大きくなり、当該バンドdの事後確率ρ′k(y)は大きくなる。このことは、CW-MMSEが実行するMMSE推定において、母音の調波構造が顕著なスペクトル帯域に対応するメルバンドの寄与が大きくなることを意味する。
一方、有声音区間のフレームtに母音の調波構造が失われたスペクトル帯域があった場合、対応するバンドdの信頼性指標αdは1よりも小さくなるであろう。その結果、当該バンドdについては、上記式(14)における正規分布N′が小さくなり、当該バンドdの事後確率ρ′k(y)は小さくなる。このことは、CW-MMSEが実行するMMSE推定において、母音の調波構造が失われたスペクトル帯域に対応するメルバンドの寄与が小さくなることを意味する。
図4は、第1の実施形態の音声認識システムのフロントエンド1000の構成を概念的に示している。フロントエンド1000の雑音抑制部100は、既存のMMSEの代わりにCW-MMSEを実装したCW-MMSE推定部102を搭載する。フロントエンド1000は、さらに、信頼性指標作成部104を含み、信頼性指標作成部104は、LPW生成部105、メルLPW生成部106、正規化部107を含んで構成されている。以下、図5に示すフローチャートに基づいて、フロントエンド1000において実行される処理を説明する。なお、以下の説明においては、適宜、図4を参照するものとする。
まず、観測音声の1フレーム分の周波数スペクトルYが取得されると(ステップ101)、LPW生成部105は、周波数スペクトルYの調波構造を抽出してLPWを生成する(ステップ102)。続いて、メルLPW生成部106がLPWからメルLPWを生成し(ステップ103)、正規化部107がメルLPWを適切な方法で正規化してバンド毎の信頼性指標α(値の平均が1)を作成する(ステップ104)。信頼性指標作成部104は、雑音抑制部100のCW-MMSE推定部102に作成した信頼性指標αを提供する。
その後、1フレーム分の周波数スペクトルYは、メル対数スペクトルyに変換され(ステップ105)、雑音抑制部100に入力される。雑音抑制部100は、入力されたメル対数スペクトルyと信頼性指標作成部104から提供された信頼性指標αを使用してクリーン音声を推定する。このとき、CW-MMSE推定部102は、MMSE推定の事後確率に対して信頼性指標αの重み付けを行う(ステップ106)。
雑音抑制部100は、CW-MMSE推定部102が推定したクリーン音声推定値x^を特徴量抽出部504に対して出力する(ステップ107)。特徴量抽出部504は、クリーン音声推定値x^から所定の特徴量を抽出し、バックエンドに渡す。上述した一連の手順が観測音声の各フレームについて繰り返し実行され(ステップ108、No)、最終フレームに至った時点で(ステップ108、Yes)、処理が終了する。
以上、説明したように、CW-MMSEによれば、各バンドが、その信頼性の高さに応じた寄与度でMMSE推定の結果に影響を与えるようになり、その結果として、フロントエンドの出力が最適化される。
以上、第1の実施形態について説明してきたが、次に、音声モデルと観測音声を線形補間することによって出力値を最適化する第2の実施形態について説明する。
<第2の実施形態:CW−INT>
もし仮に、観測音声がクリーン音声と等価であった場合、その観察音声に手を加えないで出力することが最善の策であろう。しかし、モデルベースのアプローチによれば、そのような場合であってもクリーン音声のモデルを推定するので、必然的に、その出力はクリーン音声より劣化する。第2の実施形態は、この問題を解決するための手法を開示する。
このセクションでは、音声モデルと観測音声の間で信頼性指標を重みとする線形補間を施す手法について説明する。以下の説明においては、この手法をCW−INT(Confidence Weighted Interpolation)として参照する。
CW−INTにおいては、バンドdの出力値x~dは、下記式(17)に示す線形補間関数で与えられる。
上記式(17)において、x^dは、バンドdのクリーン音声推定値を示し、βdは、バンドdに付与された信頼性指標を示し、ydは、バンドdの観測値を示し、x~dは、バンドdの出力値を示す。上記式(17)に示す線形補間関数は、0から1の間の値をとる信頼性指標βdを重みとして重み付けされており、βdが1に近づくにつれ、出力値x~dが観測値ydに近づき、βdが0に近づくにつれ、出力値x~dがクリーン音声推定値x^dに近づくことを表している。
ここで、本発明の信頼性指標がメルLPWの値を適切な方法で正規化することによって作成されることは既に述べた通りである。CW−INTの場合、上記式(17)における信頼性指標βdは、以下の手順で作成することができる。
図6(a)は、フレームtについて取得されたメルLPWを示す。CW−INTの場合、メルLPWの値wが、最大値を1として0から1の間の値をとるように適切なスケーリング関数を用いて正規化する。スケーリング関数の例として、シグモイド関数を挙げることができる。下記式(18)は、シグモイド関数を使用してメルLPWの値wを正規化し信頼性指標βdを得る式を示す。
なお、上記式(18)において、aおよびbは、チューニングパラメータであり、適切な定数値を設定する。
図6(b)は、上述した手順で作成された信頼性指標βdを示す。図6(b)が示すように、信頼性指標βdは、メルバンドごとに付与される。
有声音区間のフレームtに母音の調波構造が顕著なスペクトル帯域があった場合、対応するバンドdの信頼性指標βdは1に近づく。その結果、上記式(17)に示した線形補間の結果であるバンドdの出力値x~dはクリーン音声推定値x^dよりも観測値ydに近づくであろう。
一方、有声音区間のフレームtに母音の調波構造が失われたスペクトル帯域があった場合、対応するバンドdの信頼性指標βdは0に近づく。その結果、上記式(17)に示した線形補間の結果であるバンドdの出力値x~dは観測値ydよりもクリーン音声推定値x^dに近づくであろう。
図7は、第2の実施形態の音声認識システムのフロントエンド2000の構成を概念的に示している。フロントエンド2000が搭載する雑音抑制部503は、観測音声のフレーム毎のメル対数スペクトルの入力に基づいてクリーン音声推定値(メル対数スペクトル領域のベクトル)を生成・出力する機能部であり、第2の実施形態の場合、雑音抑制部503は、図1に示した雑音抑制部502のように、モデルベース雑音補正を採用するものであっても良いし、スペクトルサブトラクション法などのフィルタリング手法を採用するものであっても良い。フロントエンド2000は、さらに、信頼性指標作成部104と線形補間部200を含み、信頼性指標作成部104は、LPW生成部105、メルLPW生成部106、正規化部108を含んで構成されている。以下、図8に示すフローチャートに基づいて、フロントエンド2000において実行される処理を説明する。なお、以下の説明においては、適宜、図7を参照するものとする。
まず、観測音声の1フレーム分の周波数スペクトルYが取得されると(ステップ201)、LPW生成部105は、周波数スペクトルYの調波構造を抽出してLPWを生成する(ステップ202)。続いて、メルLPW生成部106がLPWからメルLPWを生成し(ステップ203)、正規化部108がメルLPWを適切な方法で正規化してバンド毎の信頼性指標β(値が0〜1)を作成する(ステップ204)。
その後、1フレーム分の周波数スペクトルYは、メル対数スペクトルyに変換される(ステップ205)。変換されたメル対数スペクトルyは、線形補間部200と雑音抑制部503の両方に入力される。雑音抑制部503は、メル対数スペクトルyから適切な方法でクリーン音声を推定し、クリーン音声推定値x^を線形補間部200に出力する(ステップ206)。
線形補間部200は、バンドごとに、メル対数スペクトルyのベクトルと雑音抑制部503から入力されたクリーン音声推定値x^(メル対数スペクトル領域のベクトル)の間で線形補間を実行する。この際、線形補間部200(CW-INT)は、信頼性指標βを重みとした線形補間を施して出力値x~を導出する(ステップ207)。
線形補間部200は、導出した出力値x~を特徴量抽出部504に対して出力する(ステップ208)。特徴量抽出部504は、出力値x~から所定の特徴量を抽出し、バックエンドに渡す。上述した一連の手順が観測音声の各フレームについて繰り返し実行され(ステップ209、No)、最終フレームに至った時点で(ステップ209、Yes)、処理が終了する。
以上、説明したように、CW-INTによれば、各バンドの観測値がその信頼性の高さに応じて出力値に反映されるようになり、その結果として、フロントエンドの出力が最適化される。
以上、第2の実施形態について説明してきたが、最後に、第1の実施形態の機能と第2の実施形態の機能を組み合わせた第3の実施形態について説明する。
<第3実施形態:CW−MMSE+CW−INT>
このセクションでは、これまで説明してきたCW−MMSEとCW−INTを組み合わせる手法について説明する。以下の説明においては、この手法をCW−MMSE+CW−INTとして参照する。
図9は、第3の実施形態の音声認識システムのフロントエンド3000の構成を概念的に示している。フロントエンド3000は、CW-MMSE推定部102を搭載した雑音抑制部100と、線形補間部200(CW-INT)と、LPW生成部105と、信頼性指標作成部104,メルLPW生成部106を含んで構成されている。以下、図10に示すフローチャートに基づいて、フロントエンド3000において実行される処理を説明する。なお、以下の説明においては、適宜、図9を参照するものとする。
まず、観測音声の1フレーム分の周波数スペクトルYが取得されると(ステップ301)、LPW生成部105は、周波数スペクトルYの調波構造を抽出してLPWを生成する(ステップ302)。続いて、メルLPW生成部106がLPWからメルLPWを生成する(ステップ303)。正規化部107は、メルLPWを適切な方法で正規化してバンド毎の信頼性指標α(値の平均が1)を作成する一方、正規化部108は、メルLPWを正規化してバンド毎の信頼性指標β(値が0〜1)を作成する(ステップ304)。信頼性指標作成部104は、作成した信頼性指標αおよび信頼性指標βを、それぞれ、雑音抑制部100のCW-MMSE推定部102および線形補間部200(CW-INT)に提供する。
その後、1フレーム分の周波数スペクトルYは、メル対数スペクトルyに変換される(ステップ305)。変換されたメル対数スペクトルyは、線形補間部200と雑音抑制部100の両方に入力される。雑音抑制部100は、入力されたメル対数スペクトルyと信頼性指標生成部104から提供された信頼性指標αを使用してクリーン音声を推定する。この際、CW-MMSE推定部102は、MMSE推定の事後確率に信頼性指標αを重み付けしてクリーン音声を推定し(ステップ306)、クリーン音声推定値x^を線形補間部200に出力する。
線形補間部200は、バンドごとに、メル対数スペクトルyのベクトルと雑音抑制部100から入力されたクリーン音声推定値x^(メル対数スペクトル領域のベクトル)の間で線形補間を実行する(ステップ307)。この際、線形補間部200(CW-INT)は、信頼性指標βを重みとした線形補間を施して出力値x~を導出する。
線形補間部200は、導出した出力値x~を特徴量抽出部504に対して出力する(ステップ308)。特徴量抽出部504は、出力値x~から所定の特徴量を抽出し、バックエンドに渡す。上述した一連の手順が観測音声の各フレームについて繰り返し実行され(ステップ309、No)、最終フレームに至った時点で(ステップ309、Yes)、処理が終了する。
以上、説明したように、CW−MMSE+CW−INTによれば、MMSEの推定値が最適化された上に、さらに、その推定値と観測値の間で最適な補間が実施されるので、その結果として、フロントエンドの出力が最適化される。
以上、本発明について実施形態をもって説明してきたが、本発明は上述した実施形態に限定されるものではなく、当業者が推考しうる実施態様の範囲内において、本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
上述した実施形態の各機能は、C、C++、C#、Java(登録商標)などのオブジェクト指向プログラミング言語などで記述された装置実行可能なプログラムにより実現でき、本実施形態のプログラムは、ハードディスク装置、CD−ROM、MO、DVD、フレキシブルディスク、EEPROM、EPROMなどの装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。
以下、本発明について、実施例を用いてより具体的に説明を行なうが、本発明は、後述する実施例に限定されるものではない。
先に開示した本発明の方法をコンピュータに実行させるために3種類のコンピュータ・プログラム(CW-MMSE、CW-INT、CW-MMSE+CW-INT)を作成し、一般社団法人情報処理学会(IPSJ)が提供する自動車内音声認識の評価用フレームワークを使用して、各コンピュータ・プログラムの性能を評価した。
<実験条件>
本実験は、自動車内音声認識の評価用データベースCENSREC-3を用いて行った。評価条件は、学習データとテストデータの双方に遠隔マイクロフォンを使用するCondition 3とした。実験に必要な様々な特徴量を出力するフロントエンドを用意し、学習データとテストデータの双方に適用した。特徴量は、MFCC 12次元 + ΔMFCC 12次元 + ΔΔMFCC 12次元 + C0 + ΔC0 + ΔΔC0 の39次元で、発話単位のCMNを適用した。音響モデルの作り方などバックエンドの構成は無変更とした(Category 0)。
クリーン音声のGMMは、アイドリング時に接話マイクロフォンで収録したデータで学習した。24次元のメル対数スペクトルの特徴量を使用し、混合数は256とした。
<実験結果>
下記表1は、3つの実施例プログラム(CW-MMSE、CW-INT、CW-MMSE+CW-INT)、および比較例プログラム(標準MMSE:SegraのMMSE)の単語正解精度(%)をまとめて示す。なお、「CENSREC-3 Baseline」は、音声強調や雑音除去を何も行わないベースラインである。
上記表1に示す単語正解精度(%)の全環境平均に基づいて、比較例である標準MMSEを基準とした誤り改善率(%)を下記式(19)により算定した。
その結果、標準MMSEを基準とした誤り改善率(%)は、CW-MMSE、CW-INT、およびCW-MMSE+CW-INTのそれぞれにおいて、14.4%、24.4%、および26.2%であった。この結果は、本発明の方法が音声認識精度を大きく改善することを示している。
100…雑音抑制部
102…CW-MMSE推定部
105…LPW生成部
104…信頼性指標作成部
106…メルLPW生成部
107,108…正規化部
200…線形補間部
500…音声認識システム
502,503…雑音抑制部
504…特徴量抽出部
512…モデルベース雑音補正部
514…MMSE推定部
516…データベース
1000,2000,3000…フロントエンド

Claims (12)

  1. 雑音抑制方法であって、
    観測音声のスペクトルに基づいてバンドごとの信頼性指標を作成するステップと、
    観測音声に基づいて生成されるクリーン音声の確率モデルに対してMMSE推定を実行してクリーン音声推定値を推定するステップであって、該MMSE推定の事後確率に対して前記信頼性指標を重みとした重み付けを前記バンドごとに行う、ステップと
    を含む方法。
  2. 前記信頼性指標は、前記観測音声における調波構造の顕著さを表す指標である、請求項1に記載の方法。
  3. 前記信頼性指標作成するステップは、
    前記観測音声のスペクトルから調波構造を抽出して正規化するステップと、
    正規化した値をメルスケール上で平滑化するステップと、
    平滑した値の平均が1になるように正規化するステップと
    を含む請求項1または2に記載の方法。
  4. 前記信頼性指標を作成するステップは、第1の信頼性指標および第2の信頼性指標を作成するステップであり、
    前記クリーン音声推定値を推定するステップは、観測音声に基づいて生成されるクリーン音声の確率モデルに対してMMSE推定を実行してクリーン音声推定値を推定するステップであって、該MMSE推定の事後確率に対して前記第1の信頼性指標を重みとした重み付けを前記バンドごとに行う、ステップであり、
    前記バンドごとに前記観測音声の観測値と前記クリーン音声推定値の間で前記第2の信頼性指標を重みとした線形補間を実行して出力値を導出するステップをさらに含む
    請求項1または2に記載の方法。
  5. 前記第1の信頼性指標および第2の信頼性指標を作成するステップは、
    前記観測音声のスペクトルから調波構造を抽出して正規化するステップと、
    正規化した値をメルスケール上で平滑化するステップと、
    平滑した値の平均が1になるように正規化して前記第1の信頼性指標を作成するステップと、
    平滑した値を0から1の間で正規化して前記第2の信頼性指標を作成するステップと
    を含む、
    請求項4に記載の方法。
  6. 雑音抑制方法であって、
    観測音声のスペクトルに基づいて該観測音声における調波構造の顕著さを表す信頼性指標をバンドごとに作成するステップと、
    観測音声からクリーン音声推定値を推定するステップと、
    前記バンドごとに前記観測音声の観測値と前記クリーン音声推定値の間で前記信頼性指標を重みとした線形補間を実行して出力値を導出するステップと
    を含む方法。
  7. 前記信頼性指標作成するステップは、
    前記観測音声のスペクトルから調波構造を抽出して正規化するステップと、
    正規化した値をメルスケール上で平滑化するステップと、
    平滑した値を0から1の間で正規化するステップと
    を含む、
    請求項に記載の方法。
  8. コンピュータに、請求項1〜のいずれか一項に記載の方法の各ステップを実行させるためのコンピュータ実行可能なプログラム。
  9. 雑音抑制装置であって、
    観測音声のスペクトルに基づいてバンドごとの信頼性指標に作成する信頼性指標作成部と、
    観測音声に基づいて生成されたクリーン音声の確率モデルに対してMMSE推定を実行してクリーン音声推定値を推定する雑音抑制部であって、該MMSE推定の事後確率に対して前記信頼性指標を重みとした重み付けを前記バンドごとに行う雑音抑制部と
    を含む装置。
  10. 前記信頼性指標作成部は、第1の信頼性指標および第2の信頼性指標を作成し、
    前記雑音抑制部は、前記MMSE推定の事後確率に対して前記第1の信頼性指標を重みとした重み付けを前記バンドごとに行い、
    前記バンドごとに前記観測音声の観測値と前記クリーン音声推定値の間で前記第2の信頼性指標を重みとした線形補間を実行して出力値を導出する線形補間部をさらに含む
    請求項に記載の装置。
  11. 雑音抑制装置であって、
    観測音声のスペクトルに基づいて信頼性指標をバンドごとに作成する信頼性指標作成部と、
    観測音声からクリーン音声推定値を推定する雑音抑制部と、
    前記バンドごとに前記観測音声の観測値と前記クリーン音声推定値の間で前記信頼性指標を重みとした線形補間を実行して出力値を導出する線形補間部と
    を含む装置。
  12. 前記信頼性指標は、前記観測音声における調波構造の顕著さを表す指標である、請求項9〜11のいずれか一項に記載の装置。
JP2012050603A 2012-03-07 2012-03-07 雑音抑制方法、プログラム及び装置 Expired - Fee Related JP5875414B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012050603A JP5875414B2 (ja) 2012-03-07 2012-03-07 雑音抑制方法、プログラム及び装置
US13/786,603 US9190072B2 (en) 2012-03-07 2013-03-06 Local peak weighted-minimum mean square error (LPW-MMSE) estimation for robust speech
CN201310071302.3A CN103310798B (zh) 2012-03-07 2013-03-06 降噪方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012050603A JP5875414B2 (ja) 2012-03-07 2012-03-07 雑音抑制方法、プログラム及び装置

Publications (2)

Publication Number Publication Date
JP2013186258A JP2013186258A (ja) 2013-09-19
JP5875414B2 true JP5875414B2 (ja) 2016-03-02

Family

ID=49114869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012050603A Expired - Fee Related JP5875414B2 (ja) 2012-03-07 2012-03-07 雑音抑制方法、プログラム及び装置

Country Status (3)

Country Link
US (1) US9190072B2 (ja)
JP (1) JP5875414B2 (ja)
CN (1) CN103310798B (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10149047B2 (en) * 2014-06-18 2018-12-04 Cirrus Logic Inc. Multi-aural MMSE analysis techniques for clarifying audio signals
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
US10679326B2 (en) * 2015-11-24 2020-06-09 Canon Kabushiki Kaisha Image data processing apparatus and image data processing method that determine confidence data indicating a level of confidence in a pixel value in high resolution image data
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
CN106971707A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 基于输出抵消噪声的语音降噪的方法及***以及智能终端
CN106971733A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 基于语音降噪的声纹识别的方法及***以及智能终端
CN106971741B (zh) * 2016-01-14 2020-12-01 芋头科技(杭州)有限公司 实时将语音进行分离的语音降噪的方法及***
CN106971739A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种语音降噪的方法及***以及智能终端
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10062378B1 (en) * 2017-02-24 2018-08-28 International Business Machines Corporation Sound identification utilizing periodic indications
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
CN109545238B (zh) * 2018-12-11 2022-05-10 珠海一微半导体股份有限公司 一种基于清洁机器人的语音去噪装置
CN109360580B (zh) * 2018-12-11 2022-01-04 珠海一微半导体股份有限公司 一种基于语音识别的迭代去噪装置和清洁机器人
CN109410928B (zh) * 2018-12-11 2022-03-04 珠海一微半导体股份有限公司 一种基于语音识别的去噪方法和芯片
CN109584899B (zh) * 2018-12-11 2022-02-08 珠海一微半导体股份有限公司 一种基于语音识别的去噪装置和清洁机器人
CN110556125B (zh) * 2019-10-15 2022-06-10 出门问问信息科技有限公司 基于语音信号的特征提取方法、设备及计算机存储介质
US11545143B2 (en) 2021-05-18 2023-01-03 Boris Fridman-Mintz Recognition or synthesis of human-uttered harmonic sounds
CN113838475B (zh) * 2021-11-29 2022-02-15 成都航天通信设备有限责任公司 一种基于对数mmse估计器的语音信号增强方法及***

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5960391A (en) * 1995-12-13 1999-09-28 Denso Corporation Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system
JP2001195100A (ja) * 2000-01-13 2001-07-19 Oki Electric Ind Co Ltd 音声処理回路
US7047047B2 (en) * 2002-09-06 2006-05-16 Microsoft Corporation Non-linear observation model for removing noise from corrupted signals
JP2008298844A (ja) 2007-05-29 2008-12-11 Advanced Telecommunication Research Institute International 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
WO2009038013A1 (ja) * 2007-09-21 2009-03-26 Nec Corporation 雑音除去システム、雑音除去方法および雑音除去プログラム
CN101452701B (zh) 2007-12-05 2011-09-07 株式会社东芝 基于反模型的置信度估计方法及装置
WO2011024572A1 (ja) * 2009-08-28 2011-03-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム

Also Published As

Publication number Publication date
CN103310798A (zh) 2013-09-18
CN103310798B (zh) 2015-08-26
US20130238324A1 (en) 2013-09-12
US9190072B2 (en) 2015-11-17
JP2013186258A (ja) 2013-09-19

Similar Documents

Publication Publication Date Title
JP5875414B2 (ja) 雑音抑制方法、プログラム及び装置
CN106971741B (zh) 实时将语音进行分离的语音降噪的方法及***
JP5230103B2 (ja) 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
US10217456B2 (en) Method, apparatus, and program for generating training speech data for target domain
US8812312B2 (en) System, method and program for speech processing
JP5723923B2 (ja) 音声特徴量抽出装置、及び音声特徴量抽出プログラム
KR101892733B1 (ko) 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법
JP5242782B2 (ja) 音声認識方法
US9087513B2 (en) Noise reduction method, program product, and apparatus
JPWO2007141923A1 (ja) ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP4728791B2 (ja) 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
Jain et al. Marginal energy density over the low frequency range as a feature for voiced/non-voiced detection in noisy speech signals
WO2013132959A1 (ja) 雑音抑制方法、プログラム及び装置
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Makhijani et al. Speech enhancement using pitch detection approach for noisy environment
JP5200080B2 (ja) 音声認識装置、音声認識方法、およびそのプログラム
Sadeghi et al. The effect of different acoustic noise on speech signal formant frequency location
CN112201261A (zh) 基于线性滤波的频带扩展方法、装置及会议终端***
Kathania et al. Experiments on children's speech recognition under acoustically mismatched conditions
Ichikawa et al. Model-based noise reduction leveraging frequency-wise confidence metric for in-car speech recognition
Lee et al. Linear-scale perceptual feature extraction for Speech Bandwidth Extensions
JP2006084659A (ja) オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体
Ali et al. The phase spectra based feature for robust speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140902

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150414

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150709

TRDD Decision of grant or rejection written
RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20151222

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160119

R150 Certificate of patent or registration of utility model

Ref document number: 5875414

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees