JP2007293285A

JP2007293285A - 音声信号のフォルマントの強調および抽出

Info

Publication number: JP2007293285A
Application number: JP2007061984A
Authority: JP
Inventors: Frank Joublin; フランク・ジョブリン; Martin Heckmann; マーティン・ヘックマン
Original assignee: Honda Research Institute Europe GmbH
Current assignee: Honda Research Institute Europe GmbH
Priority date: 2006-04-26
Filing date: 2007-03-12
Publication date: 2007-11-08
Also published as: EP1850328A1

Abstract

【課題】オーディオ信号の、好ましくは、音声信号のフォルマントを強調する改良されたアプローチを提供すること。
【解決手段】オーディオ信号のフォルマントを抽出するための方法が、以下のステップを含む。すなわち、ａ．）信号のエンベロープを算出するために、オーディオ信号にＧａｍｍａｔｏｎｅフィルタ・バンクを適用するステップ、ｂ．）スペクトル領域におけるフィルタリングを介してフォルマント・トラックを強調するステップである。
【選択図】図１０

Description

本発明は、一般に、処理された音声信号(voice signals)のさらなる技術的使用に役立つ諸特性を強調するための音声信号の処理に関する。本発明は、詳細には、例えば、音声信号(speech signals)などのオーディオ信号(audio signals)からのフォルマントの強調および抽出に関する。

提案される処理は、例えば、抽出されたフォルマントを使用する補聴器、自動音声認識、および人工音声合成の訓練に役立つ。

「フォルマント」とは、人間の音声の特徴的な、もしくは有意な周波数成分である。一定義（さらなる詳細および用例に関しては、例えば、ｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｆｏｒｍａｎｔｓを参照）によれば、フォルマントは、任意の音響系（音響管(acoustical tube)）の共鳴周波数からもたらされる音響周波数スペクトルのピークである。フォルマントは、最も一般的には、声道(vocal tracks)の共鳴周波数がかかわる音声学または音響学において引き合いに出される。

フォルマントの検出は、例えば、音声認識システムおよび音声合成システムの枠組みにおいて役立つ。今日の音声認識システムは、うまく抑制された、低ノイズの環境において非常に良好に機能するが、スピーカとマイクの間の距離が変わる場合、またはノイズが存在する場合、深刻な性能低下を示す。声道のフォルマント周波数、すなわち、共鳴周波数は、音声認識のための手がかりの１つである。母音は、概して、フォルマント周波数、およびフォルマント周波数の遷移に基づいて認識され、また、子音に関しても、フォルマント周波数は、非常に重要な役割を果たす。

既知の音声認識システムは、純粋に確率的なアプローチに従い、フォルマント周波数およびフォルマント遷移を暗黙のうちにしか使用しない。既知の音声認識システムが使用する機能は、フォルマントの位置の近似値を求めるが、明示的なフォルマント抽出またはフォルマント追跡は、全く実行されない。

フォルマント遷移の異なる適用可能性が、音声合成のためのフォルマント遷移の使用である。現在のところ、あらかじめ録音されたブロックの連結（ダイフォン連結）に基づく合成システムの方が、フォルマントまたは声道フィルタ波形を直接に使用する合成システムより、大幅に良好なパフォーマンスを示す。しかし、このことは、むしろ、それらのモデルの正しいパラメータ化を見出すことの困難に起因しており、サウンド生成につきものの問題ではない。例えば、人間に対する測定から抽出されたパラメータを使用して、そのようなフォルマント・ベースの合成システムを駆動することにより、自然な響きの音声がもたらされる。フォルマント抽出アルゴリズムを使用して、大量の音声コーパスからの調音パラメータの、その算出が実行されることが可能であり、音声合成プロセス中にそれらのパラメータの正しい設定を決定する学習アルゴリズムが、開発されることが可能である。

フォルマントを抽出する極めて多彩なアルゴリズムが、それらのアルゴリズムの重要な役割のために、公開されている。ほとんどの既知のアプローチでは、フォルマント周波数が、したがって、声道の極が、例えば、線形予測符号化を介して、またはＡＭ−ＦＭ変調モデルを介して、直接にモデル化される。別のアプローチは、スペクトル・ピークがフォルマントであるかどうかを判定する位相情報の評価である。

また、バンドパス・フィルタ群および１次ＬＰＣ解析を使用して、フォルマントを抽出することも知られている。バンドパス中心周波数は、先行する時間ステップにおいて見出された位置に基づいて適合される。さらに、有声／無声判定が、フォルマント抽出に組み込まれる。
ｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／ＦｏｒｍａｎｔｓＡ．ＤｉｋｅｎｓｅｎａｎｄＪ．Ｃｏｌｅｍａｎ、「Ａｌｌ−ｐｒｏｓｏｄｉｃｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ」、ｉｎＰｒｏｇｒｓｓｉｎＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ、Ｊ．Ｐ．Ｈ．ｖａｎＳａｎｔｅｎ、Ｒ．Ｗ．Ｓｐｒｏａｔ、Ｊ．Ｐ．Ｏｌｉｖｅ、およびＪ．Ｈｉｒｓｈｂｅｒｇ編、９１〜１０８頁、Ｓｐｒｉｎｇｅｒ、ＮｅｗＹｏｒｋ、１９９５年

本発明の目的は、オーディオ信号の、好ましくは、音声信号のフォルマントを強調する改良されたアプローチを提案することである。

以上の目的は、独立請求項の諸特徴によって達せられる。従属請求項は、本発明の中心的な着想をさらに展開する。

本発明の第１の態様は、オーディオ信号のフォルマントを強調するための方法に関し、方法は、以下のステップを含む。すなわち、
ａ．）オーディオ信号に対して周波数変換を適用するステップ、
ｂ．）スペクトル領域におけるフィルタリングを介してフォルマント・トラックを強調するステップである。

ステップｂ．）において使用されるフィルタ群のサイズは、周波数変換ステップの中心周波数に応じて、構成ステップにおいて適合されることが可能である。

ステップｂ．）において使用されるフィルタ群のサイズは、周波数変換ステップのスペクトル分解能に対応して適合されることが可能である。

ステップｂ．）において使用されるフィルタ群のサイズは、例えば、音声信号の中で通常、出現する、予期されるフォルマントに対応して適合されることが可能である。

ステップｂ．）より前に、オーディオ信号の基本周波数が、推定され、次いで、基本的に除去されることが可能である。

ステップｂ．）より前に、音響管の励振(excitation)のスペクトル分布が、推定され、その分布の逆を有するスペクトログラム（spectrogram:分光写真）の増幅が、実行されることが可能である。

ステップａ．）の後、信号のエンベロープが、例えば、修正（rectification）およびローパス・フィルタリングを介して算出されることが可能である。

Ｇａｍｍａｔｏｎｅフィルタ・バンクが、周波数変換ステップのために使用されることが可能である。

再構成フィルタリングが、ステップｂ．）の結果に適用されることが可能である。

再構成フィルタリングは、供給されたオーディオ信号の予期されるフォルマントに適合されたフィルタ群を使用することができ、再構成は、前記フィルタでフィルタリングを行う際の応答で重み付けされた、使用されるフィルタ群のインパルス応答を加算することによって行われる。

一組のＧａｂｏｒフィルタ群が、再構成フィルタリングのために使用されることが可能である。

再構成フィルタ群の幅は、周波数変換ステップのスペクトル分解能、または供給されたオーディオ信号の中に存在するものと予期される事前設定されたフォルマントの平均帯域幅に対応して適合される。

次に、強調されたフォルマントが、さらなる使用のために信号から抽出されることが可能である。

フォルマントを強調する方法は、例えば、音声強調のために使用されることが可能である。

この方法は、供給されたオーディオ信号に対して音声認識を実行するために、追跡アルゴリズムと一緒に使用されることが可能である。

この方法は、抽出されたフォルマントで人工音声合成システムを仕込むのに使用されることが可能である。

また、本発明は、そのような方法を実施するコンピュータ・プログラム製品にも関する。

本発明は、そのような方法を実施するように設計されたコンピューティング・ユニットを含む補聴器にさらに関する。

本発明のさらなる特徴、目的、および利点について、添付の図面の図を用いて以下に説明する。

本発明は、スペクトログラムにおけるフォルマントを強調し、強調されたフォルマントの後の抽出を可能にする方法およびシステム（図１０を参照）を提案する。

（周波数変換）
本発明は、例えば、Ｇａｍｍａｔｏｎｅフィルタ・バンクを、供給されたオーディオ信号表現に適用して、信号のスペクトル−時間表現を得ることを提案する。いずれにしても、オーディオ信号は、周波数領域において変換される。

図１０に示されるシステムの第１の段階は、信号に対するＧａｍｍａｔｏｎｅフィルタ・バンクの適用である。フィルタ・バンクは、例えば、８０Ｈｚから５ｋＨｚまでの範囲の、例えば、１２８チャネルを有する。この信号から、修正およびローパス・フィルタリングを介して、エンベロープが計算される。図１で、この処理の結果を見て取ることができる。センテンスは、男性のドイツ語の話し手が話している、ＫｉｅｌＣｏｒｐｕｓｏｆＳｐｏｎｔａｎｅｏｕｓＳｐｅｅｃｈからの「Ｉｃｈｈ▲ａ▼ｔｔｅｇｅｒｎｅｅｉｎｅＺｕｇｖｅｒｂｉｎｄｕｎｇｆ▲ｕ▼ｒｍｏｒｇｅｎ．」である。（▲ａ▼はａウムラウトを表し、▲ｕ▼はｕウムラウトを表す。）

（基本周波数の推定、およびその後の除去）
フォルマントの、特に最初のフォルマントの位置に対する基本周波数の影響を減らすため、有声信号部分(voiced signal parts)の基本周波数が、推定され、その後、スペクトログラムから除去されることが可能である。

声道の励振信号において、基本周波数のエネルギーは、通常、高調波のエネルギーよりもはるかに高い。最初のフォルマントが、このようにアンバランスに励振している結果、高いエネルギーが基本周波数にあり、それより相当に低いエネルギーが隣接する高調波にあるので、最初のフォルマントの正しい位置を抽出することが困難である。この理由で、本発明は、スペクトログラムから有声信号部分の基本周波数を除去することを提案する。

例えば、基本周波数を推定するために、ゼロ交差距離のヒストグラム（histogram of zero crossing distances）に基づくアルゴリズムを使用することが可能である。原則として、任意のピッチ推定アルゴリズムを、基本周波数の推定のために使用することができる。

基本周波数の除去のため、見付けられた基本周波数の近傍のフィルタ・チャネル群が、ノイズ・フロアに設定される。基本周波数の除去後になめらかな遷移を再現し、計算上の負荷を減らすため、時間領域における平滑化、およびオプションのサブサンプリングが、実行される。

この処理の結果は、図２で見ることができる。

（フォルマントを強調するためのスペクトル−時間領域におけるフィルタリング）
次のステップにおいて、高い周波数が強調される。

チャネル軸に沿ったフィルタリングが、実行される。フィルタリング中、フィルタリング・カーネル(kernel:核)のサイズが、位置依存で変更される、すなわち、低い周波数において幅広いカーネルに、高い周波数において狭いカーネルに変更される。以上は、Ｇａｍｍａｔｏｎｅフィルタ・バンクにおける中心周波数の対数配置を考慮に入れる。

声門励振信号のエネルギーは、周波数とともに全体的な減衰を示す。したがって、低い高調波によって励振される低いフォルマントは、高いフォルマントよりはるかに多くのエネルギーを有する。同様に、主として高い周波数においてエネルギーを有するノイズ様の励振は、高調波の励振よりはるかに低い全体的なエネルギーを有する。その結果、音声信号において、低い周波数におけるエネルギーは、高い周波数においてよりもはるかに高い。この問題を克服するため、スペクトログラムのプリエンファシスを実行する。このプリエンファシスは、高い周波数のエネルギーを高める（図３を比較されたい）。

既知のやり方は、ハイパス・フィルタを使用することであるが、オーディオ信号は、スペクトル−時間領域において既に表現されているので、本発明は、高い周波数から低い周波数まで指数関数的に減少する重みで、フィルタ・チャネル群のエネルギーに重み付けすることを提案する。その後、周波数軸に沿った平滑化が、実行される。この平滑化を介して、単一の高調波のエネルギーが、拡散され、フォルマント位置におけるピークが、形成される。

中心周波数の対数配置を有するフィルタ・バンクを使用する際、Ｇａｍｍａｔｏｎｅフィルタ・バンクの場合と同様に、平滑化カーネルのサイズは、中心周波数に応じて設定されなければならない。平滑化カーネルのサイズは、必要な周波数範囲にわたるようにするために、フィルタ帯域幅が小さくて、それゆえ中心周波数の増分が小さい、低い周波数において幅広くなければならない。

これに対して、平滑化カーネルのサイズは、フィルタ帯域幅が大きい、高い周波数において小さくされる。平滑化カーネルとして、ガウス・カーネルを使用することが可能であるが、ＭｅｘｉｃａｎＨａｔ（ＤｉｆｆｅｒｅｎｃｅｏｆＧａｕｓｓｉａｎ）を使用して、より良好な結果が達せられる。ＭｅｘｉｃａｎＨａｔオペレータは、ライン様の構造を強調して、それらのライン様の構造間の領域を抑圧する。

図４は、そのオペレーションの結果を示す。もたらされるスペクトログラムは、ＭｅｘｉｃａｎＨａｔの適用により、負の値を含む。さらなる処理に依存して、それらの負の値を０に設定することが有益である可能性があるが、このケースでは、それらの負の値は、フォルマント・トラック（フォルマントの軌跡）のより良好な強調を可能にするので、保持される。

見て取ることができるとおり、フォルマント構造は、現時点で、スペクトログラムにおける暗い稜線として明確に目に見える。最後に、それらの値を、各サンプルにおける最大値に正規化することが、実行される（図５を参照）。そうすることにより、フォルマントは、エネルギーが比較的低い信号部分においても目に見える。

フォルマント強調プロセスのパフォーマンスを実証するため、正しいフォルマント位置が分かっているフォルマントが、合成して生成された音声信号から抽出された。音声合成のために使用されたシステムは、ｉｐｏｘ（Ａ．ＤｉｋｅｎｓｅｎａｎｄＪ．Ｃｏｌｅｍａｎ、「Ａｌｌ−ｐｒｏｓｏｄｉｃｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ」、ｉｎＰｒｏｇｒｅｓｓｉｎＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ、Ｊ．Ｐ．Ｈ．ｖａｎＳａｎｔｅｎ、Ｒ．Ｗ．Ｓｐｒｏａｔ、Ｊ．Ｐ．Ｏｌｉｖｅ、およびＪ．Ｈｉｒｓｈｂｅｒｇ編、９１〜１０８頁、Ｓｐｒｉｎｇｅｒ、ＮｅｗＹｏｒｋ、１９９５年を参照）である。

ｉｐｏｘシステムは、音素入力から語を生成することを可能にする諸規則の集約である。より正確には、ｉｐｏｘシステムは、Ｋｌａｔｔ８０フォルマント・シンセサイザ向けのパラメータ・ファイルを生成する。試験のセンテンス（文）として、男性の音声によって生成された「Ｆｉｖｅｗｏｍｅｎｐｌａｙｅｄｂａｓｋｅｔｂａｌｌ」を、使用した。様々なＳＮＲを有する、Ｎｏｉｓｅｘデータベースからのバブル・ノイズ(babble noise)を信号にミキシングすることにより、追加のノイズに対するフォルマント抽出プロセスの耐性（robustness）を評価することができる。

クリーンな信号に関する諸結果を、図６で見ることができる。最初の４つのフォルマントに関する正しいフォルマント・トラックが、破線によって与えられている。プロットから見て取ることができるとおり、このアルゴリズムは、フォルマントを極めて正確に表現する。

図７では、２０ｄＢのＳＮＲでバブル・ノイズが加えられた同一の信号の結果が、示されている。ピークの位置は、追加のノイズによってほとんど影響されない。

図８では、ノイズ・レベルを１０ｄＢまでさらに高めた。その結果、強調されたスペクトログラムにおける稜線は、より多くの途切れを見せるが、稜線の位置は、依然として正しい。

最後に、図９において、０ｄＢでバブル・ノイズを追加した。途切れは、ＳＮＲが小さくなるとともにさらに増えるが、稜線の位置は、そのような低いＳＮＲ値の場合でさえ、大きく変わらない。

（再構成ステップ）
フォルマント周波数をさらに強調するため、オプションの再構成ステップが、スペクトル領域におけるフィルタリングの結果に対して実行されることが可能である。図１１は、再構成フィルタリングのブロック図を示す。

再構成ステップを行うため、先行する強調（周波数軸に沿った平滑化）の結果が、予期される構造にインパルス応答が適合されたｎ個の並列フィルタのセットを使用してフィルタリングされる。そのフィルタ・セットは、例えば、様々な向きおよび周波数を有するｎ個のＥｖｅｎＧａｂｏｒフィルタであることが可能である。

Ｇａｂｏｒフィルタは、当業者には知られており、調和関数にガウス関数を掛けた関数によってインパルス応答が定義される線形フィルタとして定義されることが可能である。

再構成のため、次いで、それらのフィルタのインパルス応答（それぞれの音場）に、データにフィルタを適用した際の対応する応答で、すなわち、先行するフィルタリング・ステップの結果で、それぞれ、重み付けが行われる。したがって、再構成中、フィルタは、フィルタの中心における単一のポイントを生成するだけでなく、インパルス応答の領域全体に対応する構造も生成する。

最後に、それらすべての応答を合計して、再構成の結果となる、結果的に生じるスペクトル表現が形成される。その帰結として、その結果はフィルタ群のインパルス応答に応じた構造（例えば、ＥｖｅｎＧａｂｏｒフィルタ群が使用された場合、複数のライン）を示す。使用されたＧａｂｏｒフィルタ・セットは、完全ではなく、したがって、元のデータを完全に再構成するのではなく、使用されたサブセットによって定義される特性（このケースでは、ライン構造）を有するサブセットだけしか再構成することができないことにより、以上の他にも結果は、存在する。また、それらの再構成フィルタの幅が、スペクトル分解能または予期されるフォルマント帯域幅に応じて適合されることも可能である。

（本発明の応用例）
本発明は、フォルマントを強調することにより、聴覚障害者が、より理解しやすくなることが知られているので、特に聴覚障害者向けの、音声信号の強調に適用されることが可能である。

追跡アルゴリズムと組み合わせて、本発明を、音声認識のため、またはフォルマント・ベースの音声合成に関するパラメータの学習のために使用することが可能である。

Ｇａｍｍａｔｏｎｅフィルタ・バンクおよびエンベロープ計算の適用後の音声信号のスペクトログラムである。図１と同一の文に関する、基本周波数の除去後のスペクトログラムである。図１と同一の文に関する、プリエンファシス後のスペクトログラムである。図１と同一の文に関する、幅が中心周波数に適合されたＭｅｘｉｃａｎＨａｔを使用したフィルタリングの後のスペクトログラムである。各サンプルにおける正規化後の図４からのスペクトログラムである。合成音声信号（「Ｆｉｖｅｗｏｍｅｎｐｌａｙｅｄｂａｓｋｅｔｂａｌｌ」）の強調されたスペクトログラムである。最初の４つのフォルマントの真のフォルマント・トラックが、黒の破線および黄色の破線によって示されている。バブル・ノイズが、２０ｄＢで追加された場合の合成音声信号の強調されたスペクトログラムである。最初の４つのフォルマントの真のフォルマント・トラックが、破線によって示されている。バブル・ノイズが、１０ｄＢで追加された場合の合成音声信号の強調されたスペクトログラムである。最初の４つのフォルマントの真のフォルマント・トラックが、破線によって示されている。バブル・ノイズが、０ｄＢで追加された場合の合成音声信号の強調されたスペクトログラムである。最初の４つのフォルマントの真のフォルマント・トラックが、破線によって示されている。方法の概略の流れ図である。再構成フィルタリングの概略の流れ図である。

Claims

オーディオ信号のフォルマントを強調するための方法であって、
ａ．）オーディオ信号に周波数変換を適用するステップと、
ｂ．）スペクトル領域におけるフィルタリングを介してフォルマント・トラックを強調するステップとを含む方法。
ステップｂ．）は、定義された平滑化カーネルを使用する平滑化を使用して実行される、請求項１に記載の方法。
ステップｂ．）で使用されるフィルタ群のサイズは、前記周波数変換ステップの中心周波数に応じて適合される、請求項１または２に記載の方法。
ステップｂ．）で使用されるフィルタ群のサイズは、前記周波数変換ステップのスペクトル分解能に対応して適合される、請求項３に記載の方法。
ステップｂ．）で使用されるフィルタ群のサイズは、事前設定された予期されるフォルマントに対応して適合される、請求項４に記載の方法。
ステップｂ．）より前に、前記オーディオ信号の基本周波数が、推定され、その後、除去される、請求項１から５のいずれかに記載の方法。
ステップｂ．）より前に、音響管の励振のスペクトル分布が、推定され、その分布の逆を有するスペクトログラムの増幅が、実行される、請求項１から６のいずれかに記載の方法。
ステップａ．）の後、前記信号のエンベロープが、例えば、修正およびローパス・フィルタリングを介して算出される、請求項１から７のいずれかに記載の方法。
Ｇａｍｍａｔｏｎｅフィルタ・バンクが、前記周波数変換ステップａ．）のために使用される、請求項１から８のいずれかに記載の方法。
再構成フィルタリングが、ステップｂ．）の結果に適用される、請求項１から９のいずれかに記載の方法。
前記再構成フィルタリングは、前記供給されたオーディオ信号の予期されるフォルマントに適合されたフィルタ群を使用し、前記再構成は、前記フィルタでフィルタリングを行う際の応答で重み付けされた、前記使用されるフィルタ群のインパルス応答を加算することによって行われる、請求項１０に記載の方法。
一組のＧａｂｏｒフィルタ群が、前記再構成フィルタリングのために使用される、請求項１１に記載の方法。
前記再構成フィルタ群の幅は、前記周波数変換ステップのスペクトル分解能、または前記供給されたオーディオ信号の中に存在するものと予期される事前設定されたフォルマントの平均帯域幅に対応して適合される、請求項１１または１２に記載の方法。
前記強調されたフォルマントを抽出するさらなるステップを含む請求項１から１３のいずれかに記載の方法。
音声強調のために請求項１から１４のいずれかに記載の方法を使用する方法。
前記供給されたオーディオ信号に対して自動音声認識を実行するために、請求項１から１４のいずれかに記載の方法を追跡アルゴリズムと一緒に使用する方法。
前記抽出されたフォルマントで人工音声合成システムを仕込むために、請求項１から１４のいずれかに記載の方法を使用する方法。
コンピューティング・デバイスに請求項１から１４のいずれかに記載の方法を実行させるためのプログラム。
請求項１から１４のいずれかに記載の方法を実施するように設計されたコンピューティング・ユニットを含む補聴器。