JP2007293285A - 音声信号のフォルマントの強調および抽出 - Google Patents
音声信号のフォルマントの強調および抽出 Download PDFInfo
- Publication number
- JP2007293285A JP2007293285A JP2007061984A JP2007061984A JP2007293285A JP 2007293285 A JP2007293285 A JP 2007293285A JP 2007061984 A JP2007061984 A JP 2007061984A JP 2007061984 A JP2007061984 A JP 2007061984A JP 2007293285 A JP2007293285 A JP 2007293285A
- Authority
- JP
- Japan
- Prior art keywords
- formant
- audio signal
- filtering
- reconstruction
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title description 7
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000005236 sound signal Effects 0.000 claims abstract description 24
- 238000001914 filtration Methods 0.000 claims abstract description 23
- 230000003595 spectral effect Effects 0.000 claims abstract description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 15
- 238000003786 synthesis reaction Methods 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 11
- 238000009499 grossing Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000005284 excitation Effects 0.000 claims description 6
- 230000003321 amplification Effects 0.000 claims description 2
- 238000012937 correction Methods 0.000 claims description 2
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 2
- 238000013459 approach Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 244000286916 Ratibida columnifera Species 0.000 description 4
- 235000009413 Ratibida columnifera Nutrition 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 208000032041 Hearing impaired Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【課題】オーディオ信号の、好ましくは、音声信号のフォルマントを強調する改良されたアプローチを提供すること。
【解決手段】オーディオ信号のフォルマントを抽出するための方法が、以下のステップを含む。すなわち、a.)信号のエンベロープを算出するために、オーディオ信号にGammatoneフィルタ・バンクを適用するステップ、b.)スペクトル領域におけるフィルタリングを介してフォルマント・トラックを強調するステップである。
【選択図】図10
【解決手段】オーディオ信号のフォルマントを抽出するための方法が、以下のステップを含む。すなわち、a.)信号のエンベロープを算出するために、オーディオ信号にGammatoneフィルタ・バンクを適用するステップ、b.)スペクトル領域におけるフィルタリングを介してフォルマント・トラックを強調するステップである。
【選択図】図10
Description
本発明は、一般に、処理された音声信号(voice signals)のさらなる技術的使用に役立つ諸特性を強調するための音声信号の処理に関する。本発明は、詳細には、例えば、音声信号(speech signals)などのオーディオ信号(audio signals)からのフォルマントの強調および抽出に関する。
提案される処理は、例えば、抽出されたフォルマントを使用する補聴器、自動音声認識、および人工音声合成の訓練に役立つ。
「フォルマント」とは、人間の音声の特徴的な、もしくは有意な周波数成分である。一定義(さらなる詳細および用例に関しては、例えば、http://en.wikipedia.org/wiki/Formantsを参照)によれば、フォルマントは、任意の音響系(音響管(acoustical tube))の共鳴周波数からもたらされる音響周波数スペクトルのピークである。フォルマントは、最も一般的には、声道(vocal tracks)の共鳴周波数がかかわる音声学または音響学において引き合いに出される。
フォルマントの検出は、例えば、音声認識システムおよび音声合成システムの枠組みにおいて役立つ。今日の音声認識システムは、うまく抑制された、低ノイズの環境において非常に良好に機能するが、スピーカとマイクの間の距離が変わる場合、またはノイズが存在する場合、深刻な性能低下を示す。声道のフォルマント周波数、すなわち、共鳴周波数は、音声認識のための手がかりの1つである。母音は、概して、フォルマント周波数、およびフォルマント周波数の遷移に基づいて認識され、また、子音に関しても、フォルマント周波数は、非常に重要な役割を果たす。
既知の音声認識システムは、純粋に確率的なアプローチに従い、フォルマント周波数およびフォルマント遷移を暗黙のうちにしか使用しない。既知の音声認識システムが使用する機能は、フォルマントの位置の近似値を求めるが、明示的なフォルマント抽出またはフォルマント追跡は、全く実行されない。
フォルマント遷移の異なる適用可能性が、音声合成のためのフォルマント遷移の使用である。現在のところ、あらかじめ録音されたブロックの連結(ダイフォン連結)に基づく合成システムの方が、フォルマントまたは声道フィルタ波形を直接に使用する合成システムより、大幅に良好なパフォーマンスを示す。しかし、このことは、むしろ、それらのモデルの正しいパラメータ化を見出すことの困難に起因しており、サウンド生成につきものの問題ではない。例えば、人間に対する測定から抽出されたパラメータを使用して、そのようなフォルマント・ベースの合成システムを駆動することにより、自然な響きの音声がもたらされる。フォルマント抽出アルゴリズムを使用して、大量の音声コーパスからの調音パラメータの、その算出が実行されることが可能であり、音声合成プロセス中にそれらのパラメータの正しい設定を決定する学習アルゴリズムが、開発されることが可能である。
フォルマントを抽出する極めて多彩なアルゴリズムが、それらのアルゴリズムの重要な役割のために、公開されている。ほとんどの既知のアプローチでは、フォルマント周波数が、したがって、声道の極が、例えば、線形予測符号化を介して、またはAM−FM変調モデルを介して、直接にモデル化される。別のアプローチは、スペクトル・ピークがフォルマントであるかどうかを判定する位相情報の評価である。
また、バンドパス・フィルタ群および1次LPC解析を使用して、フォルマントを抽出することも知られている。バンドパス中心周波数は、先行する時間ステップにおいて見出された位置に基づいて適合される。さらに、有声/無声判定が、フォルマント抽出に組み込まれる。
http://en.wikipedia.org/wiki/Formants A.Dikensen and J.Coleman、「All−prosodic speech synthesis」、in Progrss in Speech Synthesis、J.P.H.van Santen、R.W.Sproat、J.P.Olive、およびJ.Hirshberg編、91〜108頁、Springer、New York、1995年
http://en.wikipedia.org/wiki/Formants A.Dikensen and J.Coleman、「All−prosodic speech synthesis」、in Progrss in Speech Synthesis、J.P.H.van Santen、R.W.Sproat、J.P.Olive、およびJ.Hirshberg編、91〜108頁、Springer、New York、1995年
本発明の目的は、オーディオ信号の、好ましくは、音声信号のフォルマントを強調する改良されたアプローチを提案することである。
以上の目的は、独立請求項の諸特徴によって達せられる。従属請求項は、本発明の中心的な着想をさらに展開する。
本発明の第1の態様は、オーディオ信号のフォルマントを強調するための方法に関し、方法は、以下のステップを含む。すなわち、
a.)オーディオ信号に対して周波数変換を適用するステップ、
b.)スペクトル領域におけるフィルタリングを介してフォルマント・トラックを強調するステップである。
a.)オーディオ信号に対して周波数変換を適用するステップ、
b.)スペクトル領域におけるフィルタリングを介してフォルマント・トラックを強調するステップである。
ステップb.)において使用されるフィルタ群のサイズは、周波数変換ステップの中心周波数に応じて、構成ステップにおいて適合されることが可能である。
ステップb.)において使用されるフィルタ群のサイズは、周波数変換ステップのスペクトル分解能に対応して適合されることが可能である。
ステップb.)において使用されるフィルタ群のサイズは、例えば、音声信号の中で通常、出現する、予期されるフォルマントに対応して適合されることが可能である。
ステップb.)より前に、オーディオ信号の基本周波数が、推定され、次いで、基本的に除去されることが可能である。
ステップb.)より前に、音響管の励振(excitation)のスペクトル分布が、推定され、その分布の逆を有するスペクトログラム(spectrogram:分光写真)の増幅が、実行されることが可能である。
ステップa.)の後、信号のエンベロープが、例えば、修正(rectification)およびローパス・フィルタリングを介して算出されることが可能である。
Gammatoneフィルタ・バンクが、周波数変換ステップのために使用されることが可能である。
再構成フィルタリングが、ステップb.)の結果に適用されることが可能である。
再構成フィルタリングは、供給されたオーディオ信号の予期されるフォルマントに適合されたフィルタ群を使用することができ、再構成は、前記フィルタでフィルタリングを行う際の応答で重み付けされた、使用されるフィルタ群のインパルス応答を加算することによって行われる。
一組のGaborフィルタ群が、再構成フィルタリングのために使用されることが可能である。
再構成フィルタ群の幅は、周波数変換ステップのスペクトル分解能、または供給されたオーディオ信号の中に存在するものと予期される事前設定されたフォルマントの平均帯域幅に対応して適合される。
次に、強調されたフォルマントが、さらなる使用のために信号から抽出されることが可能である。
フォルマントを強調する方法は、例えば、音声強調のために使用されることが可能である。
この方法は、供給されたオーディオ信号に対して音声認識を実行するために、追跡アルゴリズムと一緒に使用されることが可能である。
この方法は、抽出されたフォルマントで人工音声合成システムを仕込むのに使用されることが可能である。
また、本発明は、そのような方法を実施するコンピュータ・プログラム製品にも関する。
本発明は、そのような方法を実施するように設計されたコンピューティング・ユニットを含む補聴器にさらに関する。
本発明のさらなる特徴、目的、および利点について、添付の図面の図を用いて以下に説明する。
本発明は、スペクトログラムにおけるフォルマントを強調し、強調されたフォルマントの後の抽出を可能にする方法およびシステム(図10を参照)を提案する。
(周波数変換)
本発明は、例えば、Gammatoneフィルタ・バンクを、供給されたオーディオ信号表現に適用して、信号のスペクトル−時間表現を得ることを提案する。いずれにしても、オーディオ信号は、周波数領域において変換される。
本発明は、例えば、Gammatoneフィルタ・バンクを、供給されたオーディオ信号表現に適用して、信号のスペクトル−時間表現を得ることを提案する。いずれにしても、オーディオ信号は、周波数領域において変換される。
図10に示されるシステムの第1の段階は、信号に対するGammatoneフィルタ・バンクの適用である。フィルタ・バンクは、例えば、80Hzから5kHzまでの範囲の、例えば、128チャネルを有する。この信号から、修正およびローパス・フィルタリングを介して、エンベロープが計算される。図1で、この処理の結果を見て取ることができる。センテンスは、男性のドイツ語の話し手が話している、Kiel Corpus of Spontaneous Speechからの「Ich h▲a▼tte gerne eine Zugverbindung f▲u▼r morgen.」である。(▲a▼はaウムラウトを表し、▲u▼はuウムラウトを表す。)
(基本周波数の推定、およびその後の除去)
フォルマントの、特に最初のフォルマントの位置に対する基本周波数の影響を減らすため、有声信号部分(voiced signal parts)の基本周波数が、推定され、その後、スペクトログラムから除去されることが可能である。
フォルマントの、特に最初のフォルマントの位置に対する基本周波数の影響を減らすため、有声信号部分(voiced signal parts)の基本周波数が、推定され、その後、スペクトログラムから除去されることが可能である。
声道の励振信号において、基本周波数のエネルギーは、通常、高調波のエネルギーよりもはるかに高い。最初のフォルマントが、このようにアンバランスに励振している結果、高いエネルギーが基本周波数にあり、それより相当に低いエネルギーが隣接する高調波にあるので、最初のフォルマントの正しい位置を抽出することが困難である。この理由で、本発明は、スペクトログラムから有声信号部分の基本周波数を除去することを提案する。
例えば、基本周波数を推定するために、ゼロ交差距離のヒストグラム(histogram of zero crossing distances)に基づくアルゴリズムを使用することが可能である。原則として、任意のピッチ推定アルゴリズムを、基本周波数の推定のために使用することができる。
基本周波数の除去のため、見付けられた基本周波数の近傍のフィルタ・チャネル群が、ノイズ・フロアに設定される。基本周波数の除去後になめらかな遷移を再現し、計算上の負荷を減らすため、時間領域における平滑化、およびオプションのサブサンプリングが、実行される。
この処理の結果は、図2で見ることができる。
(フォルマントを強調するためのスペクトル−時間領域におけるフィルタリング)
次のステップにおいて、高い周波数が強調される。
次のステップにおいて、高い周波数が強調される。
チャネル軸に沿ったフィルタリングが、実行される。フィルタリング中、フィルタリング・カーネル(kernel:核)のサイズが、位置依存で変更される、すなわち、低い周波数において幅広いカーネルに、高い周波数において狭いカーネルに変更される。以上は、Gammatoneフィルタ・バンクにおける中心周波数の対数配置を考慮に入れる。
声門励振信号のエネルギーは、周波数とともに全体的な減衰を示す。したがって、低い高調波によって励振される低いフォルマントは、高いフォルマントよりはるかに多くのエネルギーを有する。同様に、主として高い周波数においてエネルギーを有するノイズ様の励振は、高調波の励振よりはるかに低い全体的なエネルギーを有する。その結果、音声信号において、低い周波数におけるエネルギーは、高い周波数においてよりもはるかに高い。この問題を克服するため、スペクトログラムのプリエンファシスを実行する。このプリエンファシスは、高い周波数のエネルギーを高める(図3を比較されたい)。
既知のやり方は、ハイパス・フィルタを使用することであるが、オーディオ信号は、スペクトル−時間領域において既に表現されているので、本発明は、高い周波数から低い周波数まで指数関数的に減少する重みで、フィルタ・チャネル群のエネルギーに重み付けすることを提案する。その後、周波数軸に沿った平滑化が、実行される。この平滑化を介して、単一の高調波のエネルギーが、拡散され、フォルマント位置におけるピークが、形成される。
中心周波数の対数配置を有するフィルタ・バンクを使用する際、Gammatoneフィルタ・バンクの場合と同様に、平滑化カーネルのサイズは、中心周波数に応じて設定されなければならない。平滑化カーネルのサイズは、必要な周波数範囲にわたるようにするために、フィルタ帯域幅が小さくて、それゆえ中心周波数の増分が小さい、低い周波数において幅広くなければならない。
これに対して、平滑化カーネルのサイズは、フィルタ帯域幅が大きい、高い周波数において小さくされる。平滑化カーネルとして、ガウス・カーネルを使用することが可能であるが、Mexican Hat(Difference of Gaussian)を使用して、より良好な結果が達せられる。Mexican Hatオペレータは、ライン様の構造を強調して、それらのライン様の構造間の領域を抑圧する。
図4は、そのオペレーションの結果を示す。もたらされるスペクトログラムは、Mexican Hatの適用により、負の値を含む。さらなる処理に依存して、それらの負の値を0に設定することが有益である可能性があるが、このケースでは、それらの負の値は、フォルマント・トラック(フォルマントの軌跡)のより良好な強調を可能にするので、保持される。
見て取ることができるとおり、フォルマント構造は、現時点で、スペクトログラムにおける暗い稜線として明確に目に見える。最後に、それらの値を、各サンプルにおける最大値に正規化することが、実行される(図5を参照)。そうすることにより、フォルマントは、エネルギーが比較的低い信号部分においても目に見える。
フォルマント強調プロセスのパフォーマンスを実証するため、正しいフォルマント位置が分かっているフォルマントが、合成して生成された音声信号から抽出された。音声合成のために使用されたシステムは、ipox(A.Dikensen and J.Coleman、「All−prosodic speech synthesis」、in Progress in Speech Synthesis、J.P.H.van Santen、R.W.Sproat、J.P.Olive、およびJ.Hirshberg編、91〜108頁、Springer、New York、1995年を参照)である。
ipoxシステムは、音素入力から語を生成することを可能にする諸規則の集約である。より正確には、ipoxシステムは、Klatt80フォルマント・シンセサイザ向けのパラメータ・ファイルを生成する。試験のセンテンス(文)として、男性の音声によって生成された「Five women played basketball」を、使用した。様々なSNRを有する、Noisexデータベースからのバブル・ノイズ(babble noise)を信号にミキシングすることにより、追加のノイズに対するフォルマント抽出プロセスの耐性(robustness)を評価することができる。
クリーンな信号に関する諸結果を、図6で見ることができる。最初の4つのフォルマントに関する正しいフォルマント・トラックが、破線によって与えられている。プロットから見て取ることができるとおり、このアルゴリズムは、フォルマントを極めて正確に表現する。
図7では、20dBのSNRでバブル・ノイズが加えられた同一の信号の結果が、示されている。ピークの位置は、追加のノイズによってほとんど影響されない。
図8では、ノイズ・レベルを10dBまでさらに高めた。その結果、強調されたスペクトログラムにおける稜線は、より多くの途切れを見せるが、稜線の位置は、依然として正しい。
最後に、図9において、0dBでバブル・ノイズを追加した。途切れは、SNRが小さくなるとともにさらに増えるが、稜線の位置は、そのような低いSNR値の場合でさえ、大きく変わらない。
(再構成ステップ)
フォルマント周波数をさらに強調するため、オプションの再構成ステップが、スペクトル領域におけるフィルタリングの結果に対して実行されることが可能である。図11は、再構成フィルタリングのブロック図を示す。
フォルマント周波数をさらに強調するため、オプションの再構成ステップが、スペクトル領域におけるフィルタリングの結果に対して実行されることが可能である。図11は、再構成フィルタリングのブロック図を示す。
再構成ステップを行うため、先行する強調(周波数軸に沿った平滑化)の結果が、予期される構造にインパルス応答が適合されたn個の並列フィルタのセットを使用してフィルタリングされる。そのフィルタ・セットは、例えば、様々な向きおよび周波数を有するn個のEven Gaborフィルタであることが可能である。
Gaborフィルタは、当業者には知られており、調和関数にガウス関数を掛けた関数によってインパルス応答が定義される線形フィルタとして定義されることが可能である。
再構成のため、次いで、それらのフィルタのインパルス応答(それぞれの音場)に、データにフィルタを適用した際の対応する応答で、すなわち、先行するフィルタリング・ステップの結果で、それぞれ、重み付けが行われる。したがって、再構成中、フィルタは、フィルタの中心における単一のポイントを生成するだけでなく、インパルス応答の領域全体に対応する構造も生成する。
最後に、それらすべての応答を合計して、再構成の結果となる、結果的に生じるスペクトル表現が形成される。その帰結として、その結果はフィルタ群のインパルス応答に応じた構造(例えば、Even Gaborフィルタ群が使用された場合、複数のライン)を示す。使用されたGaborフィルタ・セットは、完全ではなく、したがって、元のデータを完全に再構成するのではなく、使用されたサブセットによって定義される特性(このケースでは、ライン構造)を有するサブセットだけしか再構成することができないことにより、以上の他にも結果は、存在する。また、それらの再構成フィルタの幅が、スペクトル分解能または予期されるフォルマント帯域幅に応じて適合されることも可能である。
(本発明の応用例)
本発明は、フォルマントを強調することにより、聴覚障害者が、より理解しやすくなることが知られているので、特に聴覚障害者向けの、音声信号の強調に適用されることが可能である。
本発明は、フォルマントを強調することにより、聴覚障害者が、より理解しやすくなることが知られているので、特に聴覚障害者向けの、音声信号の強調に適用されることが可能である。
追跡アルゴリズムと組み合わせて、本発明を、音声認識のため、またはフォルマント・ベースの音声合成に関するパラメータの学習のために使用することが可能である。
Claims (19)
- オーディオ信号のフォルマントを強調するための方法であって、
a.)オーディオ信号に周波数変換を適用するステップと、
b.)スペクトル領域におけるフィルタリングを介してフォルマント・トラックを強調するステップとを含む方法。 - ステップb.)は、定義された平滑化カーネルを使用する平滑化を使用して実行される、請求項1に記載の方法。
- ステップb.)で使用されるフィルタ群のサイズは、前記周波数変換ステップの中心周波数に応じて適合される、請求項1または2に記載の方法。
- ステップb.)で使用されるフィルタ群のサイズは、前記周波数変換ステップのスペクトル分解能に対応して適合される、請求項3に記載の方法。
- ステップb.)で使用されるフィルタ群のサイズは、事前設定された予期されるフォルマントに対応して適合される、請求項4に記載の方法。
- ステップb.)より前に、前記オーディオ信号の基本周波数が、推定され、その後、除去される、請求項1から5のいずれかに記載の方法。
- ステップb.)より前に、音響管の励振のスペクトル分布が、推定され、その分布の逆を有するスペクトログラムの増幅が、実行される、請求項1から6のいずれかに記載の方法。
- ステップa.)の後、前記信号のエンベロープが、例えば、修正およびローパス・フィルタリングを介して算出される、請求項1から7のいずれかに記載の方法。
- Gammatoneフィルタ・バンクが、前記周波数変換ステップa.)のために使用される、請求項1から8のいずれかに記載の方法。
- 再構成フィルタリングが、ステップb.)の結果に適用される、請求項1から9のいずれかに記載の方法。
- 前記再構成フィルタリングは、前記供給されたオーディオ信号の予期されるフォルマントに適合されたフィルタ群を使用し、前記再構成は、前記フィルタでフィルタリングを行う際の応答で重み付けされた、前記使用されるフィルタ群のインパルス応答を加算することによって行われる、請求項10に記載の方法。
- 一組のGaborフィルタ群が、前記再構成フィルタリングのために使用される、請求項11に記載の方法。
- 前記再構成フィルタ群の幅は、前記周波数変換ステップのスペクトル分解能、または前記供給されたオーディオ信号の中に存在するものと予期される事前設定されたフォルマントの平均帯域幅に対応して適合される、請求項11または12に記載の方法。
- 前記強調されたフォルマントを抽出するさらなるステップを含む請求項1から13のいずれかに記載の方法。
- 音声強調のために請求項1から14のいずれかに記載の方法を使用する方法。
- 前記供給されたオーディオ信号に対して自動音声認識を実行するために、請求項1から14のいずれかに記載の方法を追跡アルゴリズムと一緒に使用する方法。
- 前記抽出されたフォルマントで人工音声合成システムを仕込むために、請求項1から14のいずれかに記載の方法を使用する方法。
- コンピューティング・デバイスに請求項1から14のいずれかに記載の方法を実行させるためのプログラム。
- 請求項1から14のいずれかに記載の方法を実施するように設計されたコンピューティング・ユニットを含む補聴器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP06008675 | 2006-04-26 | ||
EP06013126A EP1850328A1 (en) | 2006-04-26 | 2006-06-26 | Enhancement and extraction of formants of voice signals |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007293285A true JP2007293285A (ja) | 2007-11-08 |
Family
ID=36968222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007061984A Pending JP2007293285A (ja) | 2006-04-26 | 2007-03-12 | 音声信号のフォルマントの強調および抽出 |
Country Status (2)
Country | Link |
---|---|
EP (1) | EP1850328A1 (ja) |
JP (1) | JP2007293285A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009225206A (ja) * | 2008-03-18 | 2009-10-01 | Rion Co Ltd | 補聴器の信号処理方法 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101597375B1 (ko) | 2007-12-21 | 2016-02-24 | 디티에스 엘엘씨 | 오디오 신호의 인지된 음량을 조절하기 위한 시스템 |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
WO2014039028A1 (en) * | 2012-09-04 | 2014-03-13 | Nuance Communications, Inc. | Formant dependent speech signal enhancement |
WO2014070139A2 (en) | 2012-10-30 | 2014-05-08 | Nuance Communications, Inc. | Speech enhancement |
US9899039B2 (en) | 2014-01-24 | 2018-02-20 | Foundation Of Soongsil University-Industry Cooperation | Method for determining alcohol consumption, and recording medium and terminal for carrying out same |
WO2015111771A1 (ko) | 2014-01-24 | 2015-07-30 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
WO2015115677A1 (ko) | 2014-01-28 | 2015-08-06 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
JP6386237B2 (ja) | 2014-02-28 | 2018-09-05 | 国立研究開発法人情報通信研究機構 | 音声明瞭化装置及びそのためのコンピュータプログラム |
KR101621797B1 (ko) | 2014-03-28 | 2016-05-17 | 숭실대학교산학협력단 | 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
KR101621780B1 (ko) * | 2014-03-28 | 2016-05-17 | 숭실대학교산학협력단 | 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
KR101569343B1 (ko) | 2014-03-28 | 2015-11-30 | 숭실대학교산학협력단 | 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
CN106486110B (zh) * | 2016-10-21 | 2019-11-08 | 清华大学 | 一种支持语音实时分解/合成的伽马通滤波器组芯片*** |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4477925A (en) * | 1981-12-11 | 1984-10-16 | Ncr Corporation | Clipped speech-linear predictive coding speech processor |
US4820059A (en) * | 1985-10-30 | 1989-04-11 | Central Institute For The Deaf | Speech processing apparatus and methods |
JP2993396B2 (ja) * | 1995-05-12 | 1999-12-20 | 三菱電機株式会社 | 音声加工フィルタ及び音声合成装置 |
US6223151B1 (en) * | 1999-02-10 | 2001-04-24 | Telefon Aktie Bolaget Lm Ericsson | Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders |
WO2004040555A1 (ja) * | 2002-10-31 | 2004-05-13 | Fujitsu Limited | 音声強調装置 |
US7561709B2 (en) * | 2003-12-31 | 2009-07-14 | Hearworks Pty Limited | Modulation depth enhancement for tone perception |
EP1600947A3 (en) * | 2004-05-26 | 2005-12-21 | Honda Research Institute Europe GmbH | Subtractive cancellation of harmonic noise |
-
2006
- 2006-06-26 EP EP06013126A patent/EP1850328A1/en not_active Withdrawn
-
2007
- 2007-03-12 JP JP2007061984A patent/JP2007293285A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009225206A (ja) * | 2008-03-18 | 2009-10-01 | Rion Co Ltd | 補聴器の信号処理方法 |
Also Published As
Publication number | Publication date |
---|---|
EP1850328A1 (en) | 2007-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007293285A (ja) | 音声信号のフォルマントの強調および抽出 | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
CN103503060B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
Xu et al. | A regression approach to speech enhancement based on deep neural networks | |
JP5666444B2 (ja) | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 | |
Magi et al. | Stabilised weighted linear prediction | |
Wang et al. | Robust speaker recognition using denoised vocal source and vocal tract features | |
US20020138268A1 (en) | Speech bandwidth extension | |
Krishnamoorthy et al. | Enhancement of noisy speech by temporal and spectral processing | |
Perrotin et al. | A spectral glottal flow model for source-filter separation of speech | |
JP2005157363A (ja) | フォルマント帯域を利用したダイアログエンハンシング方法及び装置 | |
Rajan et al. | Two-pitch tracking in co-channel speech using modified group delay functions | |
Clemins et al. | Generalized perceptual linear prediction features for animal vocalization analysis | |
Shukla et al. | Spectral slope based analysis and classification of stressed speech | |
Bouzid et al. | Voice source parameter measurement based on multi-scale analysis of electroglottographic signal | |
Shome et al. | Reference free speech quality estimation for diverse data condition | |
Kumar | Performance measurement of a novel pitch detection scheme based on weighted autocorrelation for speech signals | |
López et al. | Normal-to-shouted speech spectral mapping for speaker recognition under vocal effort mismatch | |
Salhi et al. | Robustness of auditory teager energy cepstrum coefficients for classification of pathological and normal voices in noisy environments | |
Ou et al. | Probabilistic acoustic tube: a probabilistic generative model of speech for speech analysis/synthesis | |
Bapineedu et al. | Analysis of Lombard speech using excitation source information. | |
Maganti et al. | A perceptual masking approach for noise robust speech recognition | |
Peng et al. | Perceptual Characteristics Based Multi-objective Model for Speech Enhancement. | |
Lin et al. | Noise estimation using speech/non-speech frame decision and subband spectral tracking | |
Shome et al. | Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech |