JP4527287B2 - オーディオ信号の時間スケール及び/又は基本周波数を変更するための信号処理技術 - Google Patents

オーディオ信号の時間スケール及び/又は基本周波数を変更するための信号処理技術 Download PDF

Info

Publication number
JP4527287B2
JP4527287B2 JP2000568078A JP2000568078A JP4527287B2 JP 4527287 B2 JP4527287 B2 JP 4527287B2 JP 2000568078 A JP2000568078 A JP 2000568078A JP 2000568078 A JP2000568078 A JP 2000568078A JP 4527287 B2 JP4527287 B2 JP 4527287B2
Authority
JP
Japan
Prior art keywords
frequency
signal
waveform
frame
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000568078A
Other languages
English (en)
Other versions
JP2002524759A (ja
Inventor
ホエク,スティーブン,マルクス,ジェイソン
Original Assignee
シグマ オーディオ リサーチ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シグマ オーディオ リサーチ リミテッド filed Critical シグマ オーディオ リサーチ リミテッド
Publication of JP2002524759A publication Critical patent/JP2002524759A/ja
Application granted granted Critical
Publication of JP4527287B2 publication Critical patent/JP4527287B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

(技術分野)
本発明は、ディジタル信号の符号化及び操作に関する。より詳細には、他を排除するのではないが、オーディオ信号の時間スケール及び/又は基本周波数(ピッチ)の変更に関する。ここに開示される信号分析方法及び信号再合成方法は、オーディオ信号についてのものとして限定されない。本発明は、ここに開示される(ウェーブレット等の)方法による他の信号の符号化にも適用可能である。そのような応用例は、画像圧縮がある。本発明は、本質的には、周波数領域の異なる部分を時間的/空間的分解能を異ならせて同時分析する場合に適用される。
(背景技術)
本技術分野において公知である、オーディオ信号の時間スケール/ピッチを変更するための技術は、多数存在する。これらは、大方、次のように分類することができる。
(a)時間領域法:
これらの技術は、オーディオ信号の周期変動を検出することにより、音声信号の基本周期を評価しようとするものである。この処理により、入力信号を遅延して、さらに遅延していない信号と掛け合わせた後、その結果をローパスフィルタで平滑化し、自己相関関数の近似測定値を提供する。そして、自己相関関数を利用して、ノイズに隠された非周期的なは弱周期的な信号を検出する。音声信号の基本周期が分かれば、本処理を繰り返し、分析対象区域の信号をオーバーラップする。これらの技術における重大な短所は、大抵のオーディオ信号に基本周期がないことである。例えば、ポリフォニック楽器について言えば、反響音及び打撃音を伴う録音記録は、認識可能な基本周期を有していない。さらに、上記方法を適用する場合には、楽音の遷移部が繰り返される。このことは、複数の始部及び終部を有する音符群に繋がる。この技術に関する他の問題は、楽音の遅延部のオーバーラップにより、金属的、機械的であるか又はエコー的特性を示すオーディオ効果が生じることである。
(b)正弦分析法:
これらの技術では、入力信号が完全なシヌソイドから形成されるものと仮定する。従って、上記方法に固有な短所は、自ずと明らかである。
正弦分析技術は、短時間高速フーリエ変換(FFT)を利用して、成分シヌソイドの周波数を見積もる。その後、得られた信号は、トーン発生器のバンクと合成され、所望の出力を発生する。高速フーリエ解析は、選択した窓関数により支配される時間間隔内で、信号の周波数コンテントについての情報を捕らえるものである。このような技術の重大な短所は、単一の時間領域窓が信号の全周波数コンテントに適用されるため、信号分析が信号コンテントに対する人間の知覚に正確に対応できない、ということである。また、従来の正弦分析法は、マグニチュードスペクトルの極大測定値を利用して、分析フレーム間の相対位相変化を考慮に入れた成分シヌソイドの周波数を決定する。この技術は、各極大値周辺にあるいかなる側バンド情報をも無視している。このことによる影響は、1つの分析フレーム内において生じる全信号変調が除外される結果、音声スミアリングや、遷移部のほぼ完全な損失を来すことである。このような遷移部のオーディオ面での一例として、ギタープラックがある。
(c)位相ボコーダ法:
この種の技術は、高速フーリエ変換をフィルタの大バンクとして利用し、各フィルタ出力を個別に処理する。2つの連続する入力分析間での相対位相変化を利用して、各ビン(bin)の信号コンテントの周波数を見積もる。結果の周波数領域信号は、この情報から合成され、各ビンを独立信号として処理する。正弦分析技術に対して、本方法は、元信号のスペクトル的エネルギー分布を維持する。しかしながら、全遷移部情報の相対位相が損なわれる。従って、結果の音声は、スミアされ、かつ、エコー的である。
よって、従来技術の観点では、結果の出力が元信号の音的特性を維持し、かつ、スミアリングや出力信号に対するエコー的特性の付与なく、正確に遷移音声を捕らえることができるように、オーディオ信号を分析し及び処理することが望まれる。
従って、本発明の目的は、上記目的を実現し、従来技術に固有な上記短所のうちの少なくとも幾つかを改善し、又は少なくとも一般公衆に対して便利な選択肢を提供するオーディオ信号処理技術を提供することである。さらに、本発明の目的は、信号の符号化に普遍的に適用可能な信号分析及び合成方法を提供することである。
(発明の開示)
一形態において、本発明は、波形の符号化及び再合成方法を提供する。
本方法は、(イ)波形をサンプルして一連の個別サンプルを獲得し、これから夫々複数のサンプルをスパンする一連のフレームを構築すること、(ロ)各フレームと、ピークが各フレームの略ゼロ点に集中した窓関数、好ましくは、二乗余弦関数とを掛け合わせること、(ハ)各フレームに高速フーリエ変換を適用して、周波数領域波形を形成すること、(ニ)結果の周波数領域データを、周波数に応じて仕様が異なる可変カーネル関数で重畳すること、(ホ)重畳後の各フレームのマグニチュードスペクトルにおける極大値及び周囲の極小値を検出しここに、各極大値及びその関連の極小値は、信号の周波数成分に対応する複数の部分領域を夫々形成すること、及び(へ)規定部分領域内に位置するビンの複素周波数成分を合計して信号ベクトルとすることにより、各部分領域を周波数領域表示で個別分析し、ここ、前記可変カーネル関数を適宜に変化させて、信号の周波数レンジにおける周波数及び時間的分解能間の異なるトレードオフを達成すること、を含んで構成される。
好ましい実施形態では、前記波形は、計数化されたオーディオ周波数波形に相当し、ここで、前記可変カーネル関数を変化させて人間の耳の知覚特性に近づけることが可能である。
前記波形がオーディオ信号に対応する場合には、その極大値の位置は、周波数成分の知覚ピッチに対応させる。
本方法は、信号ベクトルとして表示する間に信号を操作するステップを更に含んで構成することもできる。
そのような操作として、(オーディオ信号では)ピッチ又は時間スケールの変更の形態、又は効率的な信号の保存及び/又は伝送に適合させた更なるデータリダクションを採用することができる。
オーディオ信号を変更する場合には、分析後の信号ベクトルの周波数位置及び位相を、時間及び/又はピッチのスケーリングを達成する必要に応じてシフトすることができる。
信号のサンプル時間領域表示への逆変換は、等価信号を周波数領域に蓄積することにより達成することができ、その等価信号の成分は、元信号の分析で決定されたそれらの信号ベクトルに対応する。
解読信号を生成する際に適して窓処理及び蓄積可能な時間領域信号を与えるために、逆高速フーリエ変換を適用するのが好ましい。
重畳関数の形態は、合成出力の品質を主観的に評価することにより、経験的に決定されるのが好ましい。
可変カーネル関数の周波数領域データへの適用は、該データの単極ローパスフィルタ演算として実現されるのが好ましく、その極の位置は、周波数に応じて変化する。
オーディオ信号の分析においては、前記極は、次の制御関数s(f)の特性であるのが好ましい。ここで、fは、ヘルツ(サイクル毎秒)表示の周波数である。
【数4】
Figure 0004527287
周波数領域フィルタは、次の相関をなす特性であるのが好ましい。
【数5】
Figure 0004527287
オーディオ信号を操作するという目的のためには、各信号ベクトルが個別に処理されるのが好ましい。ピッチシフトのために、成分周波数を実数ピッチ係数と掛け合わせる。ピッチシフトと時間スケール変更との双方のために、グリッチなしの再構成に不可欠な位相シフトを算出し、適用する。
本方法は、周波数領域出力アレーをゼロに合わせるステップと、分析信号ベクトルとして表示される分析後の各周波数成分について、実数周波数を、2つの最も近い整数周波数ビンにマップするステップと、前記分析信号ベクトルを、前記2つのビンの間で、実数周波数及び各対応のビン位置を1から減じた値に比例して分配するステップと、を更に含んで構成されるのが好ましい。
他の形態では、極大値の位置が周辺部分領域変換に測定されるように、結果の部分領域を周波数において変換してもよい。
極大値と第1及び第2の関連極小値とを有する各部分領域について、オーディオ信号のピッチシフトのために、フレームの各極大値の位置をピッチシフト係数によりスケールし、また、第1及び第2の極小値間の関連調波情報を、測定対象極大値周辺の各位置に変換する。
信号を時間伸長は圧縮するには、周波数領域のバンド又は極大値に関連する調波情報を伸長又は圧縮しつつ、各極大値を周波数領域の同一位置に維持することにより、入力信号のピッチを保ちつつ、高調波の振幅及び周波数変調を伸長する。
本方法は、各フレームのデータを複数のビンに再サンプルするステップと、各ビンを出力フレームの実数位置にマップするステップと、を更に含んで構成することができ、周波数freqmaxで極大となるバンドにある1つのビンxについて、出力周波数領域の実数位置は、yである。
【数6】
Figure 0004527287
但し、shiftは、周波数シフトに等しく、また、scaleは、時間拡大比率に等しい。
上記yは、yと等しいか又はyより小さい最も近い整数zまで落とし込まれ、ここで、出力ビンz及びz+1は、yとそのビンの整数位置との偏差を1から減じた値に比例して加算される。
他の形態では、本発明は、上記方法を実施するために適用されるソフトウェアを提供する。
他の形態では、本発明は、上記方法を実施するために適用されるハードウェアを提供する。
(発明を実施するための最良の形態)
ここで、添付の図面を参照して、本発明を単に例示として説明する。
図1を参照して、本信号処理方法の一実施形態における全ステップを簡単なフローチャートにより説明する。明確さのため、本チャートは、図1〜3に分割して示す。
入力オーディオ信号を計数化し、フレームに取り込む(ステップ10)。その後、これらの各フレームを、下記のように処理する。
各フレームは、(例えば)ステップ30の広帯余弦関数を用いて窓処理し(ステップ20)、入力信号フレーム10を時間領域変更して表示する。ここで、フレームに高速フーリエ変換を適用し(ステップ50)、周波数領域表示の入力信号を生成する(ステップ60)。
その後、ステップ60の周波数領域データに、s(f)をパラメータとするフィルタ関数を用いてフィルタをかける(ステップ71)。フィルタ関数は、本実施形態ではローパス単極フィルタとして考えることもできる。ステップ70の関数s(f)は、周波数に応じてフィルタ動作がいかに変化するかを特定するものである。ステップ71のフィルタ関数は、帰納的相関により表示することができる。
【数7】
Figure 0004527287
従って、関数s(f)は、フィルタ(ステップ71)の“厳格さ”を制御する。従って、実際には、各周波数ビンについて異なる重畳カーネルが使用される。各ビンの実成分及び虚成分は、別々に重畳される。本実施形態では、フィルタは重畳関数(ステップ71)は、周波数領域情報を“ぼかす”効果を奏するものであるため、重畳関数は、ぼかし関数とも呼ばれる。周波数領域データをぼかす又は広げることは、時間領域フレームで等価の窓を狭めることに相当する。従って、高速フーリエ変換の各周波数ビンは、あたかもそのFFT(高速フーリエ変換)演算前に異なる規模の時間領域窓が適用されたかのように、効率的に演算される。
フィルタ効果により、必ずしもデータをぼかすものでなければならないものではない。例えば、時間領域サンプルを半分規模の窓により変換することは、時間領域において同一等価な窓処理を達成するために、周波数領域データにハイパスフィルタをかけることを必要とする。
周波数領域フィルタ(ステップ71)は、各ビンに対して上りオーダーで適用された後、下りオーダーの周波数ビンに適用される。これにより、周波数領域データに位相シフトがないことが保証される。
本発明の重大な局面は、オーディオ周波数データを処理する場合において、人間の耳内部の基底膜上にある繊毛の刺激応答に近づけるために、制御関数s(f)が選択されることである。実際には、関数s(f)を選択して、人間の耳の時間/周波数応答に近づける。
制御関数s(f)の形態は、本好適な実施形態では、変化する条件下で出力波形は合成波形の品質を測定することにより、経験的に決定する。これは、主観的な手法ではあるが、合成後の音声品質を繰り返しかつ多様に評価することにより、高度に満足な重畳関数を得ることができる。
制御関数s(f)の好ましい形態は、次式の通りであり、fは、ヘルツ(サイクル毎秒)表示の周波数である。
【数8】
Figure 0004527287
事実上、以上のステップは、大バンクのフィルタを介して信号を処理するために有効な方法に類似し、各フィルタのバンド幅は、制御関数s(f)により個々に制御可能である。
フィルタ(ステップ71)を適用したならば、ステップ80の重畳された周波数領域データを分析して、極大値及びその関連の極小値の位置を決定する(ステップ90)。
本ステップ90を実行する際には、強度スペクトルを利用すると、より効果的である。
従って、各周波数について、I(f)>I(f−1)であり、かつ、I(f)>I(f+1)であるデータを極大値とする。極小値の条件は、I(f)<I(f−1)であり、かつ、I(f)<I(f+1)である。
【数9】
Figure 0004527287
図2を参照すると、各極大値及びその関連の極小値を用いて、元のオーディオ周波数信号の可聴高調波に対応する(図7において影矢印で示す)部分領域が形成されている。周波数領域での極大値の位置は、高調波の知覚ピッチに対応しており、また、極大値周辺の周波数領域情報のバンドに、その高調波に関連するあらゆる振幅は周波数変更が現れている。この情報を失わないことが重要であるので、ピーク周辺のバンド全体の周波数の合計を用いて、信号ベクトルを求める。この方法による分析サンプルの時間的分解能は、あらゆる変更が行われるバンド幅に適合する。
それぞれの部分領域は、下記技術に従って個別に処理する。各極大値の位置の正確な見積値を決定する。図7の下表を参照すると、大きな矢印a(300)は、3つの強度矢印のうち最小強度のもの(max−1)と最大強度のもの(max)との偏差である。小さな矢印b(310)は、最小強度のもの(max−1)と中間強度のもの(max+1)との偏差である。2つの比率を用いて、整数極大値をオフセットする。
図2において、位相シフト及び時間スケール変更を符号130で示している。この時点では、他の適用例を、データリダクション(133)ステップ又は伝送/保存(134)ステップで示している。これらは、図2において選択的オプションとして説明される。
操作後のデータは、次の方法に従って再合成する。
第i番目の分析後周波数成分について、vector(i)は、周波数領域出力において実数位置yを有する。yは、yに等しいか又はyより小さい最も近い整数に落とし込み、zで示す。ここで、z=Int(y)とする。
そして、出力ビンz及びz+1は、yとこれらのビンの整数位置との偏差を1から減じた値に比例してvector(i)に加算する。ここで、すべての演算は、複素数で行われる。
【数10】
Figure 0004527287
分析対象信号の時間スケール又はピッチを変更するに際しては、合成後の出力が一貫する(すなわち、グリッチがない)ように、いかなる位相シフトも補償される必要がある。そのために、いずれか1つのフレームの出力信号を、一定数のサンプルにより時間的に前進させる。従って、一定のピッチ値について、出力を以前に合成したフレームと円滑に結合するために、出力位相をどの程度変化させるべきであるかを判定することができる。
しかしながら、入力時間フレームは、他の幾らかのサンプルにより移動している。従って、分析した位相値は、分析窓が入力データを介して移動するのに伴って既に変化している。
従って、入力位相の変化率と出力位相の要求変化率との偏差を算出する。これらの位相間の偏差は、分析と合成との間の周波数領域データの位相をどの程度速く回転させるかを示す尺度である。以上のように生成された各信号ベクトルは、周波数値を有する。この値を用いて、マグニチュード1のベクトルをどの程度速くスピンするかを算出する。ここで、ベクトルは、複素数表示である。このベクトルを信号ベクトルと掛け合わせ、各部分領域について減衰特性は他の変更の時間的調節に影響を与えることのない合成に必要な位相シフトを提供する。
上記位相シフト(ラジアン表示)は、次式により与えられる。ここで、tは、サンプルの再構成時間ステップであり、tは、サンプルの分析時間ステップであり、tは、サンプルの高速フーリエ変換規模である。
【数11】
Figure 0004527287
周波数値は、1つの合成フレームとその次のフレームとの位相差の尺度を提供するものであるから、これらの偏差は、合成が進むに従って累積的に加算すべきである。
累積加算を1つの部分領域に対してのみ適用することにより、部分領域は、1つの合成フレームずつトラックすべきである。
部分領域を1つのフレームずつトラックするのに簡便なデータ構造を開発したので、図8を参照してこれを説明する。1つの整数アレーは、1つの部分領域内における、その部分領域のすべてのビンについての極大値の位置を包含する。対応のアレーは、当該部分領域の位相を回転する際に使用される最終位相値(ラジアン表示)を包含する。位相値は、極大値の位置と同一指標によりビンに保存する。
従って、新たなフレームを分析して極大値を検出したときには、極大値の位置を用いて整数アレーに指標を付する。これにより、以前のフレームに存在した極大値の指標を提供する。その後、この指標を用いて、以前の合成フレームで対応の部分領域について使用された最終位相値を包含するアレーにアクセスする。これを、図8(a)及び(b)に示し、分析フレームnを近似極大値アレー及び位相アレーと共に示す。第n+1番目の分析フレームを考えると、第1の周波数極大値は、7である。以前のフレームnから、近似極大値アレーのうち対応する第7番目の要素を求めると、5である。以前のフレームnから、位相アレーフレームのうち第5番目の要素を求めると、12°である。これは、極大値の見積値を用いて更新された後、次のフレームのための位相アレーに位置7を用いて保存する。第2の部分領域(図4のステップ410)については、以前の分析フレームnから、近似極大値アレーの13番目の要素を求めれば、16が与えられる。以前の分析フレームnの位相アレーからは、位相は、57°で与えられる。周波数見積値を用いてこの位相値を更新し、次の位相アレーの位置13に配置する。
信号の周波数領域表示は、公知の信号成分から構成する。各信号ベクトルについて、ベクトルを、周波数領域出力アレーに加える。周波数位置が実数値であるので、信号ベクトルからのエネルギーは、最も近い2つの(整数の)ビン位置間で分配される。その後、周波数領域表示を逆高速フーリエ変換して(図3のステップ150)、時間領域表示の合成信号を提供する。信号は、異なる周波数で時間的分解能を異ならせて分析されたので、合成後の時間領域信号は、最も高い時間的分析分解能が使用されたのに等しい部分領域においてのみ妥当する。そのために、合成後の時間領域信号は、最終の合成信号(ステップ180)にオーバーラップ式に加える(ステップ172)前に、ステップ170の(比較的に)小さい正余弦窓により窓処理する(ステップ160)。
ピッチシフト及び時間伸長を達成するための情報操作方法の(等価な)バリエーションは、以下の通りである。
他の方法は、第1の方法とほぼ近似しており、図4に示すように、窓処理ステップ420、高速フーリエ変換ステップ450、フィルタ処理ステップ471、並びに極小値及び極大値検出ステップ490に同様に分かれる。これら2つの方法の主な相違点は、この後にある。第1の方法では、各部分領域のコンテントを足し合わせて信号ベクトルとしたが(ステップ110)、他の方法では、代わりとして、各部分領域のコンテントが明確に保たれる(ステップ510)。その後、各部分領域のコンテントを変換し、それぞれピッチシフト及び時間伸長係数に従ってスケールする(ステップ530)。ピッチシフト演算のために、部分領域のコンテントは、極大値が周波数で測定されるように変換する。時間伸長演算のために、部分領域のコンテントは、極大値が周波数表示で変化しないように、時間伸長係数によりスケールする。
位相シフトの補償は、図8(a)及び(b)を参照して前述とほぼ同様に行われる。出力を合成するために、合成されるべき周波数領域データを、高速フーリエ変換ステップの不変出力から部分領域に一時にコピーする。各部分領域のコンテントは、第1の方法と同様の方式により、出力周波数領域バッファに蓄積していく。
これら2つの技術の実現において当業者にとって明らかなバリエーションがある。しかしながら、本発明の重要な特徴は、制御関数s(f)を用いて、異なる周波数で周波数領域フィルタを変化させる点にある。このことは、周波数に応じて変化する等価な時間領域データにおいて窓処理効果を生じさせる。オーディオ周波数信号を処理する場合には、この制御関数を選択して、人間の繊毛の反応をオーディオ周波数レンジに反映させる。その曲線形状は、経験的に決定するものであるが、他の操作技術及び応用に適した他の曲線も試すことができる。
本発明の更なる特徴は、極大値及び関連の極小値のアイデンティフィケーション及び位置にある。ここに開示した技術は、計算面で非常に効率的であり、オーディオ信号の高速高品質な時間伸長及びピッチシフトを可能とする。
実験上は、本技術は、極めて向上した音質の音声を発生することが分かっており、このことは、極大周波数の側バンドにおける高調波情報の保存を通して広範囲に達成される。
本発明の実用的実現の観点では、本技術は、ソフトウェア的に、又はハードウェア的に実現されることが想定される。後者では、そのハードウェアは、オーディオプレーヤー等のオーディオ構成要素の一部を形成する。本発明の潜在的適用分野には、非常に高い再生品質標準を満たすためにオーディオ信号処理/合成が一般に要求される音声記録産業が含まれる。他の適用分野には、娯楽産業におけるものが含まれ、本発明を、ピッチ又はテンポの変化が望まれる音声再生/伝送システムに適用することが想定される。一般的な信号処理、データリダクション、及び/又はデータ伝送及び保存における適用も、更に想定される。後者の場合には、特定の重畳関数の選択を変える。
以上の説明において、公知の均等物を有する要素又は完全体について参照するときは、そのような均等物を、それらがあたかも個々に説明されたかのように含む。
本発明を、例示的に、かつ、特定の実施形態を参照して説明したが、修正及び/又は改良は、特許請求の範囲から逸脱することなく可能であることが理解される。
【図面の簡単な説明】
【図1】 本発明に係る方法の一実施形態の概略フローチャートを示す。
【図2】 同上フローチャートの続きを示す。
【図3】 同上フローチャートの続きを示す。
【図4】 本発明に係る方法の他の実施形態の概略フローチャートを示す。
【図5】 同上フローチャートの続きを示す。
【図6】 同上フローチャートの続きを示す。
【図7】 極大値/極小値についての調査処理の概略フローチャートを示す。
【図8】 2つの極大値に関するピッチ及び時間伸長の説明図を示す。

Claims (22)

  1. 波形の符号化及び再合成方法であって、
    波形をサンプルして一連の個別サンプルを獲得し、これから夫々複数のサンプルをスパンする一連のフレームを構築することと、
    各フレームと、ピークが各フレームの略ゼロ点に集中した窓関数とを掛け合わせることと、
    各フレームに高速フーリエ変換を適用して、周波数領域波形を形成することと、
    結果の周波数領域データを、周波数に応じて仕様が異なる可変カーネル関数で重畳すること
    重畳後の各フレームのマグニチュードスペクトルにおける極大値及び周囲の極小値を検出しここに、各極大値及びその関連の極小値は、信号の周波数成分に対応する複数の部分領域を夫々形成することと、
    規定部分領域内に位置するビンの複素周波数成分を合計して信号ベクトルとすることにより、各部分領域を周波数領域表示で個別分析し、ここ、前記可変カーネル関数を適宜に変化させて、信号の周波数レンジにおける周波数及び時間的分解能間の異なるトレードオフを達成することと、
    を含んで構成される方法。
  2. 前記窓関数は、二乗余弦関数であることを特徴とする請求項1に記載の波形の符号化及び再合成方法。
  3. 前記波形は、計数化されたオーディオ周波数波形に相当し、前記可変カーネル関数を変化させて人間の耳の知覚特性に近づけることを特徴とする請求項1に記載の波形の符号化及び再合成方法。
  4. 前記波形は、オーディオ信号に対応し、前記極大値の位置は、周波数成分の知覚ピッチに対応することを特徴とする請求項1に記載の波形の符号化及び再合成方法。
  5. 信号ベクトルとして表示する間に信号を操作するステップを更に含んで構成されることを特徴とする請求項1に記載の波形の符号化及び再合成方法。
  6. 前記操作として、オーディオ信号のピッチ又は時間スケールの変更の形態、又は効率的な信号の保存及び/又は伝送に適合させた更なるデータリダクションを採用することを特徴とする請求項1に記載の波形の符号化及び再合成方法。
  7. オーディオ信号を変更する場合に、分析後の信号ベクトルの周波数位置及び位相を所定量に応じてシフトし、時間及び/又はピッチのスケーリングを達成することを特徴とする請求項1に記載の波形の符号化及び再合成方法。
  8. 元信号の分析において決定した信号ベクトルに対応する成分を有する等価信号を、周波数領域に蓄積することにより、信号のサンプル時間領域表示への逆変換を達成することを特徴とする請求項1に記載の波形の符号化及び再合成方法。
  9. 解読信号を生成する際に適して窓処理及び蓄積される時間領域信号を求めるために、逆高速フーリエ変換を適用することを特徴とする請求項1に記載の波形の符号化及び再合成方法。
  10. 前記重畳関数の形態は、合成出力の品質を主観的に評価することにより、経験的に決定することを特徴とする請求項1に記載の波形の符号化及び再合成方法。
  11. 前記可変カーネル関数の周波数領域データへの適用は、該データの単極ローパスフィルタ演算として実現され、その極の位置は、周波数に応じて変化することを特徴とする請求項1に記載の波形の符号化及び再合成方法。
  12. オーディオ信号の分析において、前記極は、fをヘルツ表示の周波数として、次式の制御関数s(f)の特性であることを特徴とする請求項11に記載の波形の符号化及び再合成方法。
    Figure 0004527287
  13. 前記周波数領域フィルタは、次式の特性であることを特徴とする請求項1に記載の波形の符号化及び再合成方法。
    Figure 0004527287
  14. オーディオ信号を操作するために、各信号ベクトルを個別に処理し、ピッチシフトのために、成分周波数を実数ピッチ係数と掛け合わせ、ピッチシフトと時間スケール変更との双方のために、グリッチなしの再構成に必要な位相シフトを算出し及び適用することを特徴とする請求項1に記載の波形の符号化及び再合成方法。
  15. 周波数領域出力アレーをゼロに合わせるステップと、
    分析信号ベクトルとして表示される分析後の各周波数成分について、実数周波数を、2つの最も近い整数周波数ビンにマップするステップと、
    前記分析信号ベクトルを、前記2つのビンの間で、前記実数周波数及び各対応のビン位置を1から減じた値に比例して分配するステップと、
    を更に含んで構成される請求項1に記載の波形の符号化及び再合成方法。
  16. 結果である周波数領域表示の部分領域を、各極大値周辺で異なる周波数に変換し、極大値の位置が周囲の部分領域の変換時にスケールされるように、極大値の位置及び結果の信号を、極大値の周波数の倍数とすることを特徴とする請求項1に記載の波形の符号化及び再合成方法。
  17. 極大値と第1及び第2の関連極小値とを有する各部分領域について、オーディオ信号のピッチシフトのために、フレームの各極大値の位置をスケールし、また、第1及び第2の極小値と極大値との間の関連調波情報を、極大値周辺の対応位置に変換することを特徴とする請求項16に記載の波形の符号化及び再合成方法。
  18. 周波数領域のバンド又は極大値に関連する調波情報を圧縮しつつ、各極大値を周波数領域の同一位置に維持して信号を時間伸長することにより、入力信号のピッチを保ちつつ、高調波の振幅及び周波数変調を伸長することを特徴とする請求項16又は18に記載の波形の符号化及び再合成方法。
  19. 各フレームのデータを複数のビンに再サンプルするステップと、
    各ビンを出力フレームの実数位置にマップするステップと、
    を更に含んで構成され、
    周波数freqmaxで極大となるバンドにある1つのビンxについて、前記出力周波数領域の実数位置は、shiftを周波数シフトに等しく、また、scaleを時間拡大比率に等しいものとして、yとなることを特徴とする請求項1に記載の波形の符号化及び再合成方法。
    Figure 0004527287
  20. 前記yを、yと等しいか又はyより小さい最も近い整数zまで落とし込み、出力ビンz及びz+1を、yとそのビンの整数位置との偏差を1から減じた値に比例して加算することを特徴とする請求項19に記載の波形の符号化及び再合成方法。
  21. 波形をサンプルして一連の個別サンプルを獲得し、これから夫々複数のサンプルをスパンする一連のフレームを構築する処理と、
    各フレームと、ピークが各フレームの略ゼロ点に集中した窓関数とを掛け合わせる処理と、
    各フレームに高速フーリエ変換を適用して、周波数領域波形を形成する処理と、
    結果の周波数領域データを、周波数に応じて仕様が異なる可変カーネル関数で重畳する処理と、
    重畳後の各フレームのマグニチュードスペクトルにおける極大値及び周囲の極小値を検出する処理であって、各極大値及びその関連の極小値は、信号の周波数成分に対応する複数の部分領域を夫々形成する処理と、
    規定部分領域内に位置するビンの複素周波数成分を合計して信号ベクトルとすることにより、各部分領域を周波数領域表示で個別分析する処理であって、前記可変カーネル関数を適宜に変化させて、信号の周波数レンジにおける周波数及び時間的分解能間の異なるトレードオフを達成する処理と、
    を実行するようにプログラムされたコンピュータ。
  22. 波形をサンプルして一連の個別サンプルを獲得し、これから夫々複数のサンプルをスパンする一連のフレームを構築する手段と、
    各フレームと、ピークが各フレームの略ゼロ点に集中した窓関数とを掛け合わせる手段と、
    各フレームに高速フーリエ変換を適用して、周波数領域波形を形成する手段と、
    結果の周波数領域データを、周波数に応じて仕様が異なる可変カーネル関数で重畳する手段と、
    重畳後の各フレームのマグニチュードスペクトルにおける極大値及び周囲の極小値を検出する手段であって、各極大値及びその関連の極小値は、信号の周波数成分に対応する複数の部分領域を夫々形成する手段と、
    規定部分領域内に位置するビンの複素周波数成分を合計して信号ベクトルとすることにより、各部分領域を周波数領域表示で個別分析する手段であって、前記可変カーネル関数を適宜に変化させて、信号の周波数レンジにおける周波数及び時間的分解能間の異なるトレードオフを達成する手段と、
    を含んで構成される波形の符号化及び再合成装置。
JP2000568078A 1998-08-28 1999-08-27 オーディオ信号の時間スケール及び/又は基本周波数を変更するための信号処理技術 Expired - Fee Related JP4527287B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
NZ331639 1998-08-28
NZ33163998 1998-08-28
PCT/NZ1999/000143 WO2000013172A1 (en) 1998-08-28 1999-08-27 Signal processing techniques for time-scale and/or pitch modification of audio signals

Publications (2)

Publication Number Publication Date
JP2002524759A JP2002524759A (ja) 2002-08-06
JP4527287B2 true JP4527287B2 (ja) 2010-08-18

Family

ID=19926908

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000568078A Expired - Fee Related JP4527287B2 (ja) 1998-08-28 1999-08-27 オーディオ信号の時間スケール及び/又は基本周波数を変更するための信号処理技術

Country Status (6)

Country Link
US (1) US6266003B1 (ja)
EP (1) EP1127349B1 (ja)
JP (1) JP4527287B2 (ja)
CN (1) CN1128436C (ja)
AU (1) AU5454899A (ja)
WO (1) WO2000013172A1 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9911737D0 (en) * 1999-05-21 1999-07-21 Philips Electronics Nv Audio signal time scale modification
US6453252B1 (en) * 2000-05-15 2002-09-17 Creative Technology Ltd. Process for identifying audio content
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7283954B2 (en) * 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7421376B1 (en) * 2001-04-24 2008-09-02 Auditude, Inc. Comparison of data signals using characteristic electronic thumbprints
MXPA03010237A (es) * 2001-05-10 2004-03-16 Dolby Lab Licensing Corp Mejoramiento del funcionamiento de transitorios en sistemas de codificacion de audio de baja tasa de transferencia de bitios mediante la reduccion del pre-ruido.
IL145445A (en) 2001-09-13 2006-12-31 Conmed Corp A method for signal processing and a device for improving signal for noise
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7366659B2 (en) 2002-06-07 2008-04-29 Lucent Technologies Inc. Methods and devices for selectively generating time-scaled sound signals
AU2002321917A1 (en) * 2002-08-08 2004-02-25 Cosmotan Inc. Audio signal time-scale modification method using variable length synthesis and reduced cross-correlation computations
AU2003219428A1 (en) * 2002-10-14 2004-05-04 Koninklijke Philips Electronics N.V. Signal filtering
KR100547445B1 (ko) * 2003-11-11 2006-01-31 주식회사 코스모탄 디지털 오디오신호 및 오디오/비디오신호의 변속처리방법및 이를 이용한 디지털 방송신호의 변속재생방법
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
US8744862B2 (en) * 2006-08-18 2014-06-03 Digital Rise Technology Co., Ltd. Window selection based on transient detection and location to provide variable time resolution in processing frame-based data
US7895034B2 (en) * 2004-09-17 2011-02-22 Digital Rise Technology Co., Ltd. Audio encoding system
US7516074B2 (en) * 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
JP4839891B2 (ja) * 2006-03-04 2011-12-21 ヤマハ株式会社 歌唱合成装置および歌唱合成プログラム
WO2008001316A2 (en) * 2006-06-29 2008-01-03 Nxp B.V. Decoding sound parameters
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
FR2919129B1 (fr) * 2007-07-17 2012-07-13 Thales Sa Procede d'optimisation des mesures de signaux radioelectriques
US8706496B2 (en) * 2007-09-13 2014-04-22 Universitat Pompeu Fabra Audio signal transforming by utilizing a computational cost function
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
BR122012006265B1 (pt) * 2008-03-10 2024-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V Equipamento e método para a manipulação de um sinal de áudio tendo um evento transiente
US8249386B2 (en) * 2008-03-28 2012-08-21 Tektronix, Inc. Video bandwidth resolution in DFT-based spectrum analysis
CA2749271A1 (en) * 2009-01-09 2010-07-15 Universite D'angers Method and an apparatus for deconvoluting a noisy measured signal obtained from a sensor device
EP2234103B1 (en) 2009-03-26 2011-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Device and method for manipulating an audio signal
AU2011208899B2 (en) 2010-01-19 2014-02-13 Dolby International Ab Improved subband block based harmonic transposition
CA2961088C (en) 2010-09-16 2019-07-02 Dolby International Ab Cross product enhanced subband block based harmonic transposition
US9093120B2 (en) 2011-02-10 2015-07-28 Yahoo! Inc. Audio fingerprint extraction by scaling in time and resampling
US9159310B2 (en) 2012-10-19 2015-10-13 The Tc Group A/S Musical modification effects
KR101817544B1 (ko) * 2015-12-30 2018-01-11 어보브반도체 주식회사 개선된 반송파 주파수 오프셋 보상을 사용하는 블루투스 수신 방법 및 장치
WO2018077364A1 (en) 2016-10-28 2018-05-03 Transformizer Aps Method for generating artificial sound effects based on existing sound clips
CN107424616B (zh) * 2017-08-21 2020-09-11 广东工业大学 一种相位谱去除掩模的方法与装置
CN108281152B (zh) * 2018-01-18 2021-01-12 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
JP7056739B2 (ja) * 2018-06-25 2022-04-19 日本電気株式会社 波源方向推定装置、波源方向推定方法、およびプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0215915A4 (en) * 1985-03-18 1987-11-25 Massachusetts Inst Technology TREATMENT OF ACOUSTIC WAVE SHAPES.
NL8601604A (nl) * 1986-06-20 1988-01-18 Philips Nv Frequentie-domein blok-adaptief digitaal filter.
US5179626A (en) * 1988-04-08 1993-01-12 At&T Bell Laboratories Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis
US5297236A (en) * 1989-01-27 1994-03-22 Dolby Laboratories Licensing Corporation Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US5327518A (en) * 1991-08-22 1994-07-05 Georgia Tech Research Corporation Audio analysis/synthesis system
DE4316297C1 (de) * 1993-05-14 1994-04-07 Fraunhofer Ges Forschung Frequenzanalyseverfahren
JP3536996B2 (ja) * 1994-09-13 2004-06-14 ソニー株式会社 パラメータ変換方法及び音声合成方法
DE69612958T2 (de) * 1995-11-22 2001-11-29 Koninklijke Philips Electronics N.V., Eindhoven Verfahren und vorrichtung zur resynthetisierung eines sprachsignals
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法

Also Published As

Publication number Publication date
CN1128436C (zh) 2003-11-19
US6266003B1 (en) 2001-07-24
CN1315033A (zh) 2001-09-26
AU5454899A (en) 2000-03-21
EP1127349B1 (en) 2014-05-28
WO2000013172A1 (en) 2000-03-09
EP1127349A4 (en) 2005-07-13
JP2002524759A (ja) 2002-08-06
EP1127349A1 (en) 2001-08-29

Similar Documents

Publication Publication Date Title
JP4527287B2 (ja) オーディオ信号の時間スケール及び/又は基本周波数を変更するための信号処理技術
US5029509A (en) Musical synthesizer combining deterministic and stochastic waveforms
JP4641620B2 (ja) ピッチ検出の精密化
Smith et al. PARSHL: An analysis/synthesis program for non-harmonic sounds based on a sinusoidal representation
EP2261892B1 (en) High quality time-scaling and pitch-scaling of audio signals
US8706496B2 (en) Audio signal transforming by utilizing a computational cost function
US6182042B1 (en) Sound modification employing spectral warping techniques
EP1422693B1 (en) Pitch waveform signal generation apparatus; pitch waveform signal generation method; and program
US8017855B2 (en) Apparatus and method for converting an information signal to a spectral representation with variable resolution
AU597573B2 (en) Acoustic waveform processing
Beltrán et al. Estimation of the instantaneous amplitude and the instantaneous frequency of audio signals using complex wavelets
Serra Introducing the phase vocoder
Fitz et al. A New Algorithm for Bandwidth Association in Bandwidth-Enhanced Additive Sound Modeling.
WO2001004873A1 (fr) Procede d'extraction d'information de source sonore
Bonada Wide-band harmonic sinusoidal modeling
Pollard Feature analysis of musical sounds
Juillerat et al. Low latency audio pitch shifting in the frequency domain
Zivanovic Harmonic bandwidth companding for separation of overlapping harmonics in pitched signals
Beauchamp Comparison of vocal and violin vibrato with relationship to the source/filter model
Rossi et al. Instantaneous frequency and short term Fourier transforms: Application to piano sounds
RU2813317C1 (ru) Усовершенствованное гармоническое преобразование на основе блока поддиапазонов
JPH05119782A (ja) 音源装置
CA2821036A1 (en) Device and method for manipulating an audio signal having a transient event
Izmirli Non-harmonic sinusoidal modeling synthesis using short-time high-resolution parameter analysis
Adams Visualization of Musical Signals 1

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090217

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090518

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090525

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100506

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100603

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4527287

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees