JP2005202354A - 信号解析方法 - Google Patents
信号解析方法 Download PDFInfo
- Publication number
- JP2005202354A JP2005202354A JP2004223027A JP2004223027A JP2005202354A JP 2005202354 A JP2005202354 A JP 2005202354A JP 2004223027 A JP2004223027 A JP 2004223027A JP 2004223027 A JP2004223027 A JP 2004223027A JP 2005202354 A JP2005202354 A JP 2005202354A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- acoustic signal
- harmonic structure
- spectrum
- fundamental frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims description 69
- 238000001228 spectrum Methods 0.000 claims abstract description 89
- 238000009826 distribution Methods 0.000 claims abstract description 46
- 238000006243 chemical reaction Methods 0.000 claims abstract description 11
- 230000004044 response Effects 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 82
- 230000009466 transformation Effects 0.000 claims description 16
- 230000005236 sound signal Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 3
- 239000003086 colorant Substances 0.000 abstract 1
- 238000004040 coloring Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 28
- 239000011295 pitch Substances 0.000 description 22
- 238000012800 visualization Methods 0.000 description 18
- 238000002474 experimental method Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 7
- 238000000354 decomposition reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000001629 suppression Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241001342895 Chorus Species 0.000 description 1
- SEQDDYPDSLOBDC-UHFFFAOYSA-N Temazepam Chemical compound N=1C(O)C(=O)N(C)C2=CC=C(Cl)C=C2C=1C1=CC=CC=C1 SEQDDYPDSLOBDC-UHFFFAOYSA-N 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
【課題】
対数周波数軸上での調波スペクトルの性質に着目し、ある一定の変換操作により基本周波数らしさを視覚的に提示する。
【解決手段】
多重音を構成する各音が共通した調波構造パターンのスペクトルを持つ場合、対数周波数軸上では、これらの互いの関係は、同一の倍音パターン形状を平行移動した関係となる。これは、多重音の基本周波数の分布と共通調波構造パターンとの対数周波数軸上の畳み込みと解釈でき、基本周波数分布を入力、共通調波構造パターンをインパルス応答とした線形系の出力と考えることができる。共通調波構造パターンを仮定して、対数周波数領域に対するフーリエ領域で除算を用いて逆畳み込みを行えば、基本周波数を連続分布として求めることができる。その結果を濃淡表示あるいはカラー表示すれば、スペクトログラムに似た基本周波数分布表示が得られる。
【選択図】
図7
対数周波数軸上での調波スペクトルの性質に着目し、ある一定の変換操作により基本周波数らしさを視覚的に提示する。
【解決手段】
多重音を構成する各音が共通した調波構造パターンのスペクトルを持つ場合、対数周波数軸上では、これらの互いの関係は、同一の倍音パターン形状を平行移動した関係となる。これは、多重音の基本周波数の分布と共通調波構造パターンとの対数周波数軸上の畳み込みと解釈でき、基本周波数分布を入力、共通調波構造パターンをインパルス応答とした線形系の出力と考えることができる。共通調波構造パターンを仮定して、対数周波数領域に対するフーリエ領域で除算を用いて逆畳み込みを行えば、基本周波数を連続分布として求めることができる。その結果を濃淡表示あるいはカラー表示すれば、スペクトログラムに似た基本周波数分布表示が得られる。
【選択図】
図7
Description
本発明は、信号の解析法に係り、詳しくは、音響信号(好適な例では、楽器などの多重音のモノラル音響信号)から、それらに含まれる基本周波数成分を解析し、多くの場合その結果を視覚的に提示する信号処理手法に関するものである。
大量に市販されているクラシック音楽などの楽譜は、ある程度の能力や経験や労力を要する採譜作業によって通常作成されているが、音高(基本周波数)情報が可視化されれば有用である。また、携帯電話の着信メロディやカラオケの伴奏などのようにMIDIフォーマットで記述されている媒介は商用目的やそれ以外の目的として広く利用されているが、現状では音響信号からのMIDI変換作業は多大な人手をかけて行われているため、作業の支援技術や自動変換技術は需要が高い。音楽検索の研究分野においても、音楽信号をMIDI化できれば移調や別編曲も含めた検索が容易になる。したがって、音楽演奏などの音響信号から採譜したり演奏を解析するなどの場面で、信号中に含まれる基本周波数のみが分かりやすく表示される技術があれば、大変有用であろう。これはいわば、音響信号のピアノロール表示とも言え、理想的には合奏や合唱やピアノ演奏の音響信号からMIDI信号へ変換・編集・楽譜変換などのフロントエンドとなる可能性がある。また、多重の音声の場合は、それらをスペクトルとして分離して認識したり、聴覚情景分析のツールとして使える可能性もある。ここで、ピアノロール表示とは、MIDIデータの視覚的表現としてよく用いられているもので、音高を縦軸に、時刻を横軸に取り、音符をその継続時間に対応する線分で表示するものである。基本的にMIDIデータの情報を含んでおり、この表示中で音を追加・削除・編集することができる。
しかし、モノラル信号として与えられた多重音から、それを構成する基本周波数情報を抽出することは容易ではない。その理由は、信号には基本周波数成分のみでなく調波成分が複雑に重なり合い、通常のスペクトル解析の手法では基本周波数のみの情報に変換することが容易でないからである。
多重音の基本周波数推定に関してはさまざまな研究が行われて来た。最近の高精度な手法の例を挙げれば、調波構造を混合正規分布の重ね合わせとしてモデル化し、その重みを推定することで基本周波数を推定する方法や、ハーモニッククラスタリング(調波構造の拘束を導入したクラスタリング手法) による基本周波数推定法などがある。これらの手法は、優勢な基本周波数を抽出したり、音源数を与えて基本周波数を推定したり、音源数の推定を行ったりしているが、反復計算を用いて何らかの評価関数を最大化する手法であることから、局所解に陥る可能性を持ち、また相対的にエネルギーの小さい音は無視される傾向がある。
そこで、推定結果を一意に求めるいわゆる「ピッチ抽出」の考え方でなく、スペクトログラムの中で基本周波数成分以外(調波成分)を抑圧低減することで基本波成分だけを強調して表示し、いわば「音響的ピアノロール(結果的にピアノロールに良く似た濃淡画像)」を出力するような可能性を探った。
本発明は、対数周波数軸上での調波スペクトルの性質に着目し、調波構造を持った音に対して基本周波数成分を強調すること、特に、基本周波数らしさを視覚的に提示すること、を目的とするものである。
本発明は、信号の対数周波数スペクトルに対して、共通調波構造の逆畳み込み演算を行い、該信号中に含まれる単数あるいは複数の基本周波数成分を信号スペクトル中で強調することを特徴とする信号解析方法に関するものである。好ましい態様では、前記信号スペクトルは、視覚的に表示される。
本発明は、特に、多重音のモノラル音響信号の基本周波数を連続的な分布として出力する手法に関するものである。多重音を構成する各音が共通した調波構造パターン(高調波成分間の強度比パターン)のスペクトルを持つ場合、対数周波数軸上では、これらの互いの関係は、同一の倍音パターン形状を平行移動した関係となる。これは、多重音の基本周波数の分布と共通調波構造パターンとの対数周波数軸上の畳み込みと解釈でき、基本周波数分布(u(x))を入力、共通調波構造パターン(h(x))をインパルス応答とした線形系の出力と考えることができる。共通調波構造パターンを仮定して、対数周波数領域に対するフーリエ領域で除算を用いて逆畳み込みを行えば、基本周波数を連続分布として求めることができる。その結果を濃淡表示(含むカラー表示)すれば、スペクトログラムに似た基本周波数分布表示が得られる。本発明において、対数周波数スペクトルv(x)は、観測された信号から求められるが、共通調波構造パターンh(x)を何らかの方法で与えてやらなければならない。共通調波構造パターンh(x)を与える方法には、様々なものが考えられるが、一つの好ましい例では、音響信号の共通倍音構造は、1/f特性のエネルギー分布である。1/f 特性は、自然界の音の一般傾向として妥当な特性の一つであり、音色を指定しないで本手法を使う場合には有用である。また、実際に楽器(たとえばフルート)の音の調波構造を測定し、それをh(x)
として使えば、その楽器に対しては性能は上げられると考えられ、ユーザが対象楽器を指定することで、より明瞭に基本周波数を表示できる。
として使えば、その楽器に対しては性能は上げられると考えられ、ユーザが対象楽器を指定することで、より明瞭に基本周波数を表示できる。
本発明において、表示画面における強調された基本周波数成分の表示は、好ましくは、音響信号の近ピアノロール表示(特に、図8(a)参照)である。近ピアノロール表示においては、音響信号の各音符の音高、長さ、強さの少なくとも一つ以上、望ましくは全て、が視覚的に表示される。また、好ましくは、表示画面における強調された基本周波数成分の表示は、音響信号の基本周波数分布の濃淡表示(カラー表示を含む)であり、横軸が時間、縦軸が対数周波数であり、画面上の画素値によって信号の強度(エネルギー)を視覚的に表示する。
上述の手法では、共通調波構造をあらかじめ設定するが、h(x)の選び方によってu(x)の値も変わり、不要成分が発生する。共通調波構造が実際の値に近づくほどこの不要成分が0に近づくと考えられるので、逆にこの不要成分を0に近づけた分布からより正確な共通調波構造を推定することを考える。したがって、本発明が採用した他の技術手段は、強調された基本周波数成分から不要成分を抑圧する基本周波数成分の非線形変換ステップと、不要成分が抑圧された基本周波数成分と共通調波構造との畳み込みと、該音響信号の対数周波数スペクトルとの誤差が最小になるように該共通調波構造を更新するステップと、更新された共通調波構造を用いて、音響信号の対数周波数スペクトルに対して、共通調波構造の逆畳み込み演算を行い、該信号中に含まれる単数あるいは複数の基本周波数成分を信号スペクトル中で強調するステップを有するものである。不要成分とは、抑圧され切れていない調波成分、負の調波成分やその他(例えば、ピアノは非調和性楽器であることが知られており、調和性を仮定した共通調波構造パターンを用いることで不要成分が発生し得る)の不要な成分を意味する。不要成分の抑圧には、顕著なピーク成分(相対的に大きい成分)は保持し、それ以外は0に近づけられるような非線形変換を行う。このような非線形変換としてはsigmoid関数を用いるものが例示されるが、本発明に採用し得る関数は前記のような非線形変換を行う関数であればよく、sigmoid関数には限定されない。共通調波構造におけるパラメータ設定は、基本周波数成分を1としたときの倍音成分の強さをパラメータとする。あるいは、共通調波構造におけるパラメータ設定は、高調波成分の総和を1にする方法、あるいは高調波成分の二乗和を1にする方法等も取り得る。非線形変換によって不要成分が抑制された基本周波数分布と、パラメータ設定した共通調波構造パターンの畳み込みが、対数周波数スペクトル(観測パワースペクトル)と出来るだけ同じになる(誤差、すなわち分布間距離が最小になる)ようにパラメータを決定することで共通調波構造を更新する。分布間距離尺度は特には限定されず、二乗誤差を最小化する方法、KL情報量を用いるもの、対数スケールでの二乗誤差が例示される。更新された共通調波構造パターンを用いて再度基本周波数成分を求め、求めた基本周波数成分から不要成分を抑圧し、不要成分が抑圧された基本周波数成分を用いて再度共通調波構造を更新し、ということを繰り返すことで、準最適な共通調波構造パターンを推定し、基本周波数成分における不要成分を逓減させる。
本発明は、また、上記の信号解析方法をコンピュータに実行させるためのコンピュータプログラムとして提供され得る。一つの態様では、本発明は、コンピュータに、音響信号の対数周波数スペクトルに対して、共通調波構造の逆畳み込み演算を行い、該信号中に含まれる単数あるいは複数の基本周波数成分を信号スペクトル中で強調することを実行させるためのコンピュータプログラムである。また、他の態様では、本発明は、コンピュータに、音響信号の対数周波数スペクトルに対して、共通調波構造の逆畳み込み演算を行い、該信号中に含まれる単数あるいは複数の基本周波数成分を信号スペクトル中で強調する第1ステップと、第1ステップによって強調された基本周波数成分を非線形変換することで不要成分を抑圧し、不要成分が抑圧された基本周波数成分と共通調波構造との畳み込みと、該音響信号の対数周波数スペクトルとの誤差が最小になるように該共通調波構造を更新し、更新された共通調波構造を用いて第1ステップを繰り返す第2ステップを実行させるためのコンピュータプログラムである。
本発明によれば、推定結果を一意に求めるいわゆる「ピッチ抽出」の考え方でなく、スペクトログラムの中で基本周波数成分以外を抑圧低減して表示し、いわば「音響的ピアノロール」を出力することができる。このようなアプローチは、判定や抽出という過程を経ずに、「基本周波数らしさ」を視覚的に提示するため、音源数に制約のない、大小さまざまな音の混在をそのまま観察できることが期待できる。本発明によれば、通常人間が聴覚的に行う音楽の採譜作業を、視覚的に行う作業に置き換えることができ、作業の簡易化に役立つことが期待される。例えば、本発明に係る音響的ピアノロールを背景に表示して、マウス等の入力手段による「ピアノロール表示」を作成する対話的ツールを構成することができ、採譜、演奏解析や編集を行うことができる。本発明では、人が目で見て修正すべき箇所がある程度分かり易く、処理が簡単(少ない計算量)な手段を提供することができる。これまでの「推定」の考え方によるアプローチでは多くの場合、出力される推定結果に現れる誤りを直接見ても、どの箇所が誤りあるいは正解であるかを判断するのは難しかったが、本発明によればスペクトログラムに一種のフィルタリングをかけたものを濃淡表示出力する。オーケストラなどはもちろん、発音数がある程度多い楽曲を現存の技術を用いて完全に採譜あるいは分離するのは難しく、このようなインタラクティブツールは今後、これまでこの分野において開発された多くの成果をより広い用途で一般に活用されることを支援できる可能性がある。
本発明に係る対数周波数逆畳み込みによる基本周波数解析について詳細に説明する。本発明に係る信号解析はコンピュータを主要構成とする信号解析装置によって行われ、該信号解析装置は、信号取り込み部、信号解析部(CPU等の処理装置)、解析結果等を表示する表示部(表示画面)、記憶部(メモリ及び外部記憶装置を含む)、入力部(マウス、キーボード等)、コンピュータを動作させる制御プログラム等を備えている。信号解析部は、信号の周波数解析部であり、信号の対数周波数スペクトル取得部と、逆畳み込み演算部とを有する。
本発明に係る信号解析手法の概略図を図7に示す。本発明に係る信号解析は、大きく分けると、対象信号の対数周波数スペクトルv(x)を求めるステップと、対数周波数スペクトルv(x)に対して、共通調波構造の逆畳み込みを行うステップとを有し、対象信号の基本周波数成分を信号スペクトル中で強調するものである。該信号スペクトルは、好ましくは、視覚的に表示されるものであり、基本周波数成分は濃淡表示あるいはカラー表示によって視覚的に強調される。
対象信号から対数周波数スペクトルv(x)を求めるステップは、好ましい態様では、次の二つの方法が挙げられる。一つは、対象信号をフーリエ変換することでパワースペクトルを算出し、パワースペクトルの周波数を対数周波数変換するものである。もう一つは、対象信号を、ウェーブレット変換あるいは定Qフィルタバンク分析することで対数周波数スペクトルを得るものである。
対数周波数スペクトルv(x)に対して、共通調波構造の逆畳み込みを行うステップは、好ましい態様では、次の二つの方法が挙げられる。一つは、対数周波数スペクトルの逆フーリエ変換を、共通調波構造の逆フーリエ変換で除算し、その結果をフーリエ変換するものである。もう一つは、対数周波数上の共通調波構造をインパルス応答とするフィルタの逆特性もつ逆フィルタ、あるいは、その近似特性をもつ線形フィルタとの畳み込み演算により行うものである。フィルタとしては、逆フィルタに代えてマッチトフィルタも採用され得る。
本発明に係る信号解析法の原理について、さらに詳細に説明する。まず、調和性を持つ単一音のスペクトルの場合を考える。基本周波数と第2 倍音、第3倍音、第4倍音、...、第n倍音の周波数との関係は整数倍である。ここで周波数軸fを対数周波数x=logfに変換すると、これらの倍音は、x 軸では、対数基本周波数からそれぞれlog2, log3, log4, ...,logn だけ離れて位置し、それらの相対位置は基本周波数に依存しない。この関係を図1に示す。
次に、対象とする単一音の性質として、その基本周波数に依らずx軸上の倍音の強度の比のパターンは一定であると仮定する。これを共通調波構造と呼び、 対数基本周波数を原点に取ってh(x)と表すことにする。共通調波構造パターンh(x)は基本周波数に相当する位置を原点としたものであり、基本波成分エネルギーを1とする。次に、基本周波数がどの値でどれだけの成分をもつかを表した基本周波数分布と呼ぶ関数u(x)を定義する。対数基本周波数が与えられれば、そこにh(x)を移動することで、その単一音のスペクトルを表現できる。
異なる基本周波数の単一音が重畳した多重音の場合は、x軸上にこれら異なる基本周波数の対数の位置ごとに共通調波構造h(x)を配置すると、それらの和がそのスペクトルになる。構成音の強度(エネルギー)が異なるならば、それを係数としてh(x)に乗ずれば良い。
一般化し、多重音について、その構成音の基本周波数と強度の分布を表す関数をx軸上でu(x)と定義する。有限個数の多重音の場合は、u(x)はデルタ関数の線形和であり、離散的な関数(正確には超関数)である。
以上において、u(x)は必ずしも離散関数である必要はなく、またh(x)は調和関係である必要はなく、このような畳み込みの関係は一般的に成立する。また、x軸を時間軸に見立てると、信号u(x)を、インパルス応答がh(x) であるような線形フィルタに入力すると、その出力はv(x)となると解釈することができ、線形系とのアナロジーを考えることができる。
次に、逆畳み込みによる基本周波数解析について説明する。上述の議論から、共通調波構造h(x)が存在して既知ならば、基本周波数推定の問題は(1)式の逆問題として定式化できる。すなわち、基本周波数の分布は、多重音から観測した対数周波数スペクトルv(x)に対して、共通調波構造h(x)を、(2)式のように、逆畳み込み(deconvolution)することにより復元できる。
h-1(x)は、h(x)をフィルタと見なした場合の逆フィルタのインパルス応答に相当するが、このような逆畳み込みは、フーリエ領域での除算としても行える。
u(x), v(x),
h(x)の(逆)フーリエ変換をそれぞれU(y), V(y), H(y)とすると、(2)式は、(3)式のように書ける。
このようなy領域からフーリエ変換によってu(x)は
で求まる。このように対数周波数領域における逆畳み込みにより基本周波数分布関数を求める方法をSpecmurt法と呼ぶ。また,y領域は対数周波数スペクトルのフーリエ変換領域であり、これをSpecmurt領域と呼ぶ。
h(x)の(逆)フーリエ変換をそれぞれU(y), V(y), H(y)とすると、(2)式は、(3)式のように書ける。
あるいは、対数周波数上の共通倍音構造h(x)の逆フィルタh-1(x)あるいはその近似特性をもつ線形フィルタとの畳み込み演算によりu(x)を求めることもできる。
h(x)が全構成音について共通で、かつ既知であると仮定していたが、これらの仮定が成り立たない場合でも、基本周波数成分のみを強調する効果は期待できる。これについての実験検証を後述する。
ここで、本発明についての理解を助けるために、ケプストラム法と本手法との対比について述べる。音声信号処理の分野において、基本周波数抽出にしばしば利用されるケプストラムと本方法の間に興味深い関係がある。信号のスペクトルは、周波数を横軸に、スペクトル強度を縦軸に取って表現されるが、それより、縦軸を対数変換し逆フーリエ変換するとcepstrumが、横軸を対数変換し逆フーリエ変換するとspecmurtがそれぞれ得られるという関係がある。
スペクトラム(spectrum)の縦軸を対数変換し逆フーリエ変換して得られるものを、最初の4文字を逆転してケプストラム(cepstrum)と呼ぶのであるから、本明細書において、スペクトラム(spectrum)の横軸を対数変換し逆フーリエ変換して得られるものを、最後の4文字を逆転してスペクマート(specmurt)と呼ぶことにする。また、スペクマートを用いて多重音を解析するこの手法を、ケプストラム法に倣ってスペクマート法と呼ぶことにする。
両手法とも基本周波数推定あるいは解析に用いられるが、ケプストラム法は非線形性のために、原理的には多重音の解析に適用できない。スペクマート法(本方法)は、調波構造が共通で既知であると仮定する制約はあるが、多重音の基本周波数が解析できる。
ここで、定Qフィルタを用いた基本周波数解析手順について言及しておく。本発明に係る手法では、スペクトルを対数周波数軸上で観測する。このため、対数周波数軸上で等しい窓幅を持つ分析フィルタを使用することにする。これは、音楽で用いられている音階との整合性もよい。そこで、対数周波数スペクトルを抽出するための分析フィルタとして、中心周波数が指数関数的に変化する定Qフィルタバンクを利用する。ピッチ変動に対し振幅変動が小さい場合、調波信号を解析する上で定Qフィルタが頑健性に優れている。そこで、分析中心周波数が指数関数的に変化する定Qフィルタバンクを利用する。これは、人間の聴覚器官とも類似しており、生理物理学的な興味も持たれているものである。
以上のスペクトル解析法を用いて、本分析手順は、一つの好ましい態様として、次のようにまとめられる。仮定した共通調波構造h(x)のフーリエ変換をH(y)とすると、短時間フレームごとに:(1)多重音信号を定Qフィルタバンク分析して対数周波数スペクトルv(x)を得るステップ;(2)対数周波数スペクトルv(x)をフーリエ変換してV(y)を得るステップ;(3)V(y)/H(y)を逆フーリエ変換してu(x)を得るステップ;を実行する。
本手法(specmurt法)の理論を検証するため、モノラル音楽音響信号の基本周波数解析を行った。解析条件は表1の通りである。共通調波構造h(x)としては、線スペクトル形状の倍音構造を仮定し、各調波成分の強度比は周波数に反比例する(すなわち1/f特性のエネルギー分布)とした。分析フィルタとしてはガボール関数を用いた。
まず理論検証のためMIDI音源を対象とした動作確認を行った。図3は、RWC研究用音楽データベースのクラシック音楽データベースに付属している"J. S. Bach: 音楽の捧げ物(BWV1079)から「6声のリチェルカーレ」"のMIDIデータの一部を使用して行った実験結果例である。この処理により高調波成分が低減されて基本周波数成分が観察しやすくなり、いわば「音響信号ピアノロール表示(近ピアノロール表示)」が得られている。参照のために図3(c)に示した原MIDI信号のピアノロールとの対応が観察できる。
実楽器の場合でも、同一楽器音ならば、調波構造h(x)が比較的類似しており共通に扱える可能性がある。そこで、まず同一楽器音の多重音の基本周波数解析実験を行った。
実験では、RWC研究用音楽データベースの楽器音データベースから、ピアノ、トランペット、アルト(女声)の単音データを使用し、これを人工的に合成した多重音を用いた。表2に、このデータベースの中から使用した音響信号のファイル名および音名を示す。表3にこれを用いて人工的に作成した多重音の構成を具体的に示す。
図4は本手法との比較のために、ピアノにおける通常のスペクトログラムと、対数周波数スペクトル、そして本発明に係る手法による基本周波数解析結果を示したものである。また、図5は、表3に示すようなその他の楽器における多重音の解析を行った結果を示したものである。これらの図では、濃淡で基本周波数の分布u(x)の推定結果を示す。図4において、高調波成分のスペクトル強度が低減され、相対的に基本周波数が強調されている様子を観察できる。
異種の実楽器音が混在する音楽信号について本手法の有効性を調べるため、RWC研究用音楽データベースのクラシック音楽データベースを対象として、実音楽信号の基本周波数解析実験を行った。図6は、このデータベースのDisc3に収録されている"J. S. Bach: 音楽の捧げ物(BWV1079)から「6声のリチェルカーレ」"の一部分(実験例1に用いた音楽と同一曲の同一部分)についての実験結果例である。MIDI信号の場合ほど顕著ではないが、異種の楽器音が混在する実際の音楽信号についても、基本周波数以外の調波成分の低減の効果が見られる。
また、本発明の信号解析手法を用いて、同じく”W. A. Mozart: ロンド ニ長調 (K 485)”を解析した例を図8(a)に示す。図8(b)は、ピアノロール表示 (同じ曲をMIDIキーボードで演奏し、その出力データをピアノロール表示したもの)である。高調波が抑圧され、かなりピアノロールに近い結果(近ピアノロール表示)が得られている。
以上において、多声音楽信号の高調波周波数成分を抑圧低減して基本周波数のみを強調することでピアノロールに似た可視化を可能にする新しい信号処理方法「Specmurt法」について述べた。この手法は、多重音の各音が共通の音色(調波構造パターン)を持つと想定することで、観測多重音スペクトルと共通調波構造パターンとの逆畳み込みにより基本周波数成分だけを強調することができる。ここで、Specmurt法について補足説明する。
最初に、短時間分析におけるSpecmurt法について言及する。短時間周波数解析においては、窓関数などの影響による各周波数成分の広がりを考慮しなければならない。式(1)において、u(x)をインパルス関数とし、h(x)の各周波数成分が広がりを持つ場合を考えると、u(x)はh(x)を対数周波数軸上をそのまま平行移動させる働きがあるが、出力されるv(x)を短時間フーリエ変換のスペクトルを対数周波数スケール変換したものと見なすには、移動に伴って広がりを変化させなければならず、畳み込み演算から逸脱する。一方、h(x)をインパルス列の関数とし、u(x)を任意の広がりをもつ分布とした場合を考えると、式(1)によりv(x)はどの周波数成分も同じ大きさの広がりを持ち、短時間フーリエ変換のスペクトルとは一致しない。従って、短時間分析に基づいてSpecmurt法を用いるには、v(x)が対数周波数領域で周波数成分の大きさが同じ大きさであるようなスペクトルであればよいので、ウェーブレット変換や定Qフィルタなどによりv(x)を求めればよい。
次に、調波成分抑圧フィルタとしての働きについて言及する。共通調波構造パターンの定義は、同時に含まれる異なる音源が同じスペクトル包絡形状をもつことを仮定している。しかし、これはSpecmurt法が必ずしもこのような条件下でしか効果がないということではない。以上では、調波構造が共通な場合の理論を議論した。しかし、実際には、一般的に調波構造パターン(包絡)の形状は、楽器の種類や、同一種類の楽器であっても基本周波数や演奏の仕方によって異なる。従って、実際得られるスペクトルv(tilde)(x)がもともと共通の調波構造パターンの重ね合わせではないならば、u(x)とh(x)の畳み込みでは表現できないのでv(tilde)(x)= v(x)である。そこで、図9のようなv(tilde)(x)と任意のh(x)による逆畳み込み演算にはどのような解釈ができ、u(x)がどのような分布として出力されるかを定性的に論じる。h-1(x)はパワースペクトルv(tilde)(x)を入力信号と見立てた場合、線形系のフィルタと解釈でき、v(tilde)(x)の中から調波構造を見つけ出し、調波成分だけを抑圧低減しようとする働きがある。h(x)において想定する調波成分はv(tilde)(x)に含まれる調波成分をどれだけの度合で抑圧するかを表す。例えば、共通調波構造パターンh(x)が基本波成分しかもたない(単一のインパルス)パターンの場合、H(y)=1なので、基本周波数分布は観測パワースペクトルと等しくなり、h-1(x)はパワースペクトルをそのまま通過させる。h(x)の包絡が任意の入力音のスペクトル包絡よりも緩やかであれば、過多に調波成分を減殺することになるので、調波成分を負の値として通過させる。逆の場合は、すべてを除去することはできないが、ある程度抑圧して通過させる。多重音のパワースペクトルは、対応する周波数成分の位相差によって必ずしも個々の音のパワースペクトルの和に等しくない(期待値は等しい)が、Specmurt法の本質的な働きは、個々の音を厳密に分離することよりも、調波成分を抑圧するフィルタリング処理と考えれば、パワースペクトルの加法性は近似的に仮定してもよい。
また、h(x)の包絡形状による出力結果の差異について言及する。図10(b),(c)は、図10(a)のような音高がC4とE4のヴァイオリンの音響信号(2音)を合成した多重音信号のパワースペクトルに対して、f-1.0およびf-0.5包絡(周波数の1.0乗および0.5乗に反比例した包絡形状)のh(x)を仮定した場合の出力結果の例である。いずれの図にも、C4とE4に相当する2つの大きなピークが見られるが、抑圧され切れていない調波成分、負の調波成分やその他の不要成分が見受けられる。この不要成分はスペクトルが窓関数(ウェーブレット関数)が原因で広がりをもつことやv(tilde)(x)やh(x)が実際は離散分布であるなどの理由から発生する。h(x)が図10(b)のように急な包絡の場合、抑圧の効果は下がり調波成分がいくらか残り、図10(c)のように緩やかな包絡の場合、抑圧の効果は高いので多くの成分が負の値になる反面、不要成分が増大することが実験的に確認されている。
改良されたSpecmurt法に係る共通調波構造パターンの反復推定について述べる。Specmurt法では、得られる可視化結果の精度は共通調波構造パターンの定め方に大きく依存するにも関わらず、これまでは予め定めた共通調波構造に基づいて基本周波数成分を求めていた。これまでは、共通調波構造パターンh(x)は予め与える必要があり、得られる基本周波数分布u(x)はその選び方に大きく依存した。しかし、不要成分が小さくて済むような出力結果が得られるようなh(x)の選定は容易ではない。そこで、より鮮明な可視化と労力削減のために、共通調波構造パターンを反復推定により自動的に決定する方法を提案する。具体的な例では、共通調波構造パターンをパラメトリックなインパルス列として表現し、基本周波数分布関数のsigmoid関数による非線形変換ステップとLU分解によるパラメータ最適化ステップを繰り返すことで凖最適な共通調波構造パターンを推定する方法について説明する。これにより、手間をかけずに鮮明な音高可視化表示が可能となることを実音楽信号を対象とした実験により確認した。また、提案方法により改良されたSpecmurt法を実音楽信号に適用し、可視化結果を基にMIDIに自動変換して性能評価を行った。得られた可視化結果をもとにMIDIフォーマットに変換することができ、70〜80%の音高正解率を得た。
以下、共通調波構造パターンの反復推定について、u(x)とh(x)の2-Step反復更新に基づいて詳述する。式(2)は、2つの未知で独立な関数の演算の出力値だけが既知であるという不良設定問題であり、h(x)の数学的な良し悪しの評価基準はない。しかし我々は、u(x)は同時発音数分に相当する数の鋭いピークをもち、それ以外は0であるような分布であることが分かっている。何らかの変換でu(x)にこのような特徴を与えて定め直すことができるならば、u(x)とh(x)をともに繰り返し更新していくことができる。
Step1: 基本波成分パターンの非線形変換
ここでは、図10のようなu(x)の出力をu(bar)(x)に更新する方法を述べる。u(x)を「良い」u(bar)(x)に変換するためには、(1)顕著なピーク成分は保持し、(2)不要成分を除去すべきである。そこで、以下のようなsigmoid関数を利用した非線形写像(図11によりu(x)をu(bar)(x)に更新する。
この写像は、βより十分大きい値はほぼ同じ値を返し、β近辺または小さい値(負の値も含まれる)を0に近づける働きがある閾値処理に近い変換である。sigmoid関数は近似的に正規分布の累積分布関数に相当するので正規分布に従って確率的に変動する閾値をどれだけ通過するかを意味する。式(5)はsigmoid関数にu(x)を乗じた関数のため、顕著なピークは保持したまま、不要成分を抑圧することができる。このように確率的な閾値処理とするのは、u(x)(標本値)の確率密度分布に基づいてα,βを学習して不要成分を効率的に除去する方法を見越したためであるが、本稿では最初の段階としてα,βは実験で定める定数とする。
ここでは、図10のようなu(x)の出力をu(bar)(x)に更新する方法を述べる。u(x)を「良い」u(bar)(x)に変換するためには、(1)顕著なピーク成分は保持し、(2)不要成分を除去すべきである。そこで、以下のようなsigmoid関数を利用した非線形写像(図11によりu(x)をu(bar)(x)に更新する。
Step2: LU分解による共通調波構造パターン最適化
共通調波構造パターンを、各成分an(n=1,・・・・,N)をパラメータとする関数とする。
ただしnは調波成分の次数、bnは定数とする。また、a0=1、b0=1とする(図12)。前記の非線形変換から得たu(bar)(x)とh(x,a)の畳み込みによって得る生成多重音パワースペクトルv(x,a)もa={a1,・・・aN}をパラメータとする関数となる。ここで、観測パワースペクトルv(tilde)(x)とv(x,a)との二乗誤差の積分
を最小化するパラメータa(bar)={a(bar)1,・・・a(bar)N}を求めたい。以後、対数周波数xは実際の計算機上の扱いを踏まえて離散値xi(i=0,・・・,I-1)で表すことにする。Iはサンプル数を表す。式(7)をaについて偏微分して0と置いて整理すると、
を得る。各成分an(n=1,・・・,N)で偏微分すると、
のような連立1次方程式の形となるので、LU分解で左辺の第一項の逆行列を求めて、最適パラメータa(bar)を得ることができる。尚、逆行列を求める手段は、LU分解には限定されず、コレスキー分解、ガウス・ジョルダン法、余因子行列を用いる方法が例示される。新たに更新された共通調波構造パターンh(bar)(x,a(bar))をh(x)とし、観測スペクトルv(tilde)(x)との逆畳み込み(Specmurt法)により基本周波数分布u(x)を再度計算し、Step1の非線形写像に戻る。この反復操作手順の模式図を図13に示す。基本周波数分布をu(x)、共通調波構造パターンをh(x)、信号の対数周波数スペクトル(観測パワースペクトル)をv(tilde)(x)とし、h(x)およびv(tilde)(x)を与えることで、u(x)を求める。得られたu(x)を非線形変換することで不要成分を抑圧し、不要成分が抑圧されたu(bar)(x)とh(bar)(x, a)との畳み込みv(x, a)と、v(x)との誤差(分布間距離)が最小になるようにh(x)を更新し、更新されたh(x)およびv(tilde)(x)とから再度u(x)を求める。
共通調波構造パターンを、各成分an(n=1,・・・・,N)をパラメータとする関数とする。
提案方法を用いて図10(b),(c)に示したu(x)の出力結果から5回の反復計算を経て更新したu(x)を図14(a),(b)に示す。初期u(x)に関係なく最終的にはほぼ同一のu(x)が出力されており、いずれもC4とE4に対応する2つの成分が適切に検出されている。特に図10(b)ではC4の2次調波成分が大きく残っていたが、反復推定後にはほとんど除去されている。この方法により決定される共通調波構造パターンは多重音中の各音の中間音色としての意味をもつため、提案方法は、異なるスペクトル包絡をもつ音源による多重音に対して鮮明な基本周波数分布を出力する上で、バランスの良いh(x)を見つけ出すための手段である。
MIDIへの自動変換について説明する。得られたu(x)の時系列から、以下のような手順によりMIDIデータに自動変換することができる。
Step1:一定閾値を超えるu(x)のピークを抽出する。
Step2:各ピークの基本周波数を最も近い音階の基本周波数(A4: 440Hz)に量子化する。
Step3:55音(A1〜C6)に対応する55個の隠れマルコフモデル(Hidden Markov Model; HMM)を用意する。各HMMは発音状態と無音状態の2状態からなり、基本周波数が量子化されたピークの集合を観測系列とした確率モデルである。独立に55個のHMMの状態遷移系列をViterbiアルゴリズムで求め、各音階の発音開始時刻(ノートオン)と発音終了時刻(ノートオフ)を推定する。
Step4:Step3の結果をMIDI形式でデータ出力する。
以下の実験評価では、この手順により得られたMIDIデータを基に性能評価した。
Step1:一定閾値を超えるu(x)のピークを抽出する。
Step2:各ピークの基本周波数を最も近い音階の基本周波数(A4: 440Hz)に量子化する。
Step3:55音(A1〜C6)に対応する55個の隠れマルコフモデル(Hidden Markov Model; HMM)を用意する。各HMMは発音状態と無音状態の2状態からなり、基本周波数が量子化されたピークの集合を観測系列とした確率モデルである。独立に55個のHMMの状態遷移系列をViterbiアルゴリズムで求め、各音階の発音開始時刻(ノートオン)と発音終了時刻(ノートオフ)を推定する。
Step4:Step3の結果をMIDI形式でデータ出力する。
以下の実験評価では、この手順により得られたMIDIデータを基に性能評価した。
評価実験について説明する、先ず、実験条件について述べる。提案方法とSpecmurt法を用いて実音楽信号に対して解析実験を行った。実験データとして採用した音楽信号は、RWC研究用音楽データベースに収録されている合計7トラック(ジャズ曲6トラック、クラシック曲1トラック)の単一種類の楽器による多重奏(ピアノソロ、ギターソロ)音響信号をそれぞれ16kHzにリサンプリングし、モノラルに変換したものとした。周波数解析などの詳細な実験条件を表1に示す。h(x),u(x)の反復更新の回数は毎フレーム5回とした。
音高可視化結果について説明する。基本周波数分布u(x)の時系列を濃淡表示することで得られる音高可視化結果の例を、スペクトログラムの濃淡表示および手入力によるMIDI信号のピアノロールウィンドウ表示(XGworks)とともに図16,17,18に示す。それぞれの図において中段の音高可視化結果を見てみると、上段に示されている入力スペクトログラムから調波成分が効果的に抑圧されていることが確認でき、下段の参照用ピアノロールウィンドウ表示に類似した表示となっていることが分かる。また、図15に、h(x)の包絡形状をf-0.5とした場合と、f-0.5を初期値としてh(x)の反復推定を行った場合の可視化結果の比較を示す。左図では、不要成分(除去されずに残った調波成分を含む)により、実際の演奏とかけ離れた可視化結果となったが、提案方法によって出力された右図では不要成分が抑圧された可視化結果を得ることができた。
MIDI自動変換結果について説明する。可視化結果がどの程度正確に得られているかを確認するために、得られたu(x)の時系列から前述の手順によりMIDIに自動変換を行い、データベースに付属されている各曲に対応する手入力標準MIDIファイルを参照して、XGworksのピアノロールウィンドウ上で比較しながら目視で音高正解率を計算した。正解率は、総音符数から挿入誤り、置換誤り、脱落誤りの数を引いたものを総音符数で割ったものとした。各実験データに対する音高正解率を表5に示す。
全7トラックの実演奏音響信号に対し、全体として70〜80%の音高正解率を得た。主な誤りは、Specmurt法の原理的な性質上生じる誤りである不要成分を除去しきれないことによる挿入誤り、オクターブ重音を1音と見なしてしまうことによる脱落誤りなどであった。また、ピアノは非調和性楽器であることが知られており、調和性を仮定した共通調波構造パターンを用いていることが不要成分の発生に影響し、上記以外の誤りに反映されている可能性がある。
全7トラックの実演奏音響信号に対し、全体として70〜80%の音高正解率を得た。主な誤りは、Specmurt法の原理的な性質上生じる誤りである不要成分を除去しきれないことによる挿入誤り、オクターブ重音を1音と見なしてしまうことによる脱落誤りなどであった。また、ピアノは非調和性楽器であることが知られており、調和性を仮定した共通調波構造パターンを用いていることが不要成分の発生に影響し、上記以外の誤りに反映されている可能性がある。
以上まとめるに、基本周波数分布をsigmoid関数を用いた非線形変換により更新するステップと変換された基本周波数分布をもとにパラメトリックに表現された共通調波構造パターンを最適化するステップからなる共通調波構造パターンの反復推定方法を提案し、既に提案したSpecmurt法の発展を試みた。また、単一種類の楽器による実演奏データを対象に可視化実験とMIDI変換実験を行い、その効果と性能を確認した。評価実験によりSpecmurt法では、単一種類の楽器による多重奏に対しては70〜80%前後の音高正解率が得られることが確認できた。
本発明は、音楽の音響信号形式(CD,MD,.wavファイルなど)から、音楽演奏の形式(MIDI信号,.midファイルなど)への変換・編集・楽譜変換などのツールとして利用することができる。具体例を挙げると、着メロ作成、カラオケ作成、音楽操作、音楽情報圧縮などに用いることができる。
Claims (23)
- 音響信号の対数周波数スペクトルに対して、共通調波構造の逆畳み込み演算を行い、該信号中に含まれる単数あるいは複数の基本周波数成分を信号スペクトル中で強調することを特徴とする音響信号解析方法。
- 請求項1において、前記音響信号は、多重音信号であることを特徴とする音響信号解析方法。
- 請求項1,2いずれかにおいて、前記音響信号の対数周波数スペクトルは、該信号のパワースペクトルの周波数を対数変換することにより取得することを特徴とする音響信号解析方法。
- 請求項1,2いずれかにおいて、前記音響信号の対数周波数スペクトルは、該信号をウェーブレット解析あるいは定Qフィルタバンク分析することで取得することを特徴とする音響信号解析方法。
- 請求項1乃至4いずれかにおいて、前記音響信号の共通倍音構造は、1/f特性のエネルギー分布であることを特徴とする音響信号解析方法。
- 請求項1乃至5いずれかにおいて、前記逆畳み込み演算は、逆フーリエ変換領域で対数周波数スペクトルを共通調波構造で除算して、その結果をフーリエ変換するものであることを特徴とする音響信号解析方法。
- 請求項1乃至5いずれかにおいて、前記逆畳み込み演算は、対数周波数上の共通調波構造をインパルス応答とするフィルタの逆特性あるいはその近時特性をもつ線形フィルタとの畳み込み演算により行うものであることを特徴とする音響信号解析方法。
- 請求項1乃至7いずれかにおいて、前記信号スペクトルを、視覚的に表示することを特徴とする音響信号解析方法。
- 請求項8において、前記信号スペクトルの視覚的な表示は、前記音響信号の近ピアノロール表示であることを特徴とする音響信号解析方法。
- 請求項8,9いずれかにおいて、前記信号スペクトルの視覚的な表示は、前記音響信号の各音符の音高、長さ、強さの少なくとも一つ以上を含むことを特徴とする音響信号解析方法。
- 請求項8乃至10いずれかにおいて、前記信号スペクトルの視覚的な表示は、前記音響信号の基本周波数分布の濃淡表示であることを特徴とする音響信号解析方法。
- 請求項1乃至13に記載の手順をコンピュータに実行させるためのコンピュータプログラム。
- 信号の対数周波数スペクトル取得部と逆畳み込み演算部とからなる信号解析部を有し、信号の対数周波数スペクトルに対して、共通調波構造の逆畳み込み演算を行い、該信号中に含まれる単数あるいは複数の基本周波数成分を信号スペクトル中で強調するように構成したことを特徴とする信号解析装置。
- 請求項15において、該装置はさらに表示部を有し、該表示部において、前記信号スペクトルを視覚的に表示するように構成したことを特徴とする信号解析装置。
- 請求項1乃至11いずれかに記載の方法は、さらに、
強調された基本周波数成分から不要成分を抑圧する基本周波数成分の非線形変換ステップと、
不要成分が抑圧された基本周波数成分と共通調波構造との畳み込みと、該音響信号の対数周波数スペクトルとの誤差が最小になるように該共通調波構造を更新するステップと、
更新された共通調波構造を用いて、音響信号の対数周波数スペクトルに対して、共通調波構造の逆畳み込み演算を行い、該信号中に含まれる単数あるいは複数の基本周波数成分を信号スペクトル中で強調するステップと、
を有することを特徴とする信号解析方法。 - 請求項17において、該共通調波構造はパラメータ設定されており、不要成分が抑圧された基本周波数成分とパラメータ設定した共通調波構造との畳み込みと、該音響信号の対数周波数スペクトルとの誤差が最小になるようにパラメータを最適化して共通調波構造を更新することを特徴とする音響信号解析方法。
- 請求項17,18いずれかにおいて、該非線形変換は相対的に大きな成分を保持し、それ以外を0に近づける変換であることを特徴とする音響信号解析方法。
- 請求項19において、該非線形変換は、sigmoid関数を用いるものであることを特徴とする音響信号解析方法。
- 請求項12、13いずれかにおいて、得られたu(x)を非線形変換することで不要成分を抑圧し、不要成分が抑圧されたu(x)とh(x)との畳み込みと、v(x)との誤差が最小になるようにh(x)を更新し、更新されたh(x)およびv(x)とから再度u(x)を求めることを特徴とする音響信号解析方法。
- 音響信号の対数周波数スペクトルに対して、共通調波構造の逆畳み込み演算を行い、該信号中に含まれる単数あるいは複数の基本周波数成分を信号スペクトル中で強調する第1ステップと、
第1ステップによって強調された基本周波数成分を非線形変換することで不要成分を抑圧し、不要成分が抑圧された基本周波数成分と共通調波構造との畳み込みと、該音響信号の対数周波数スペクトルとの誤差が最小になるように該共通調波構造を更新し、更新された共通調波構造を用いて第1ステップを繰り返す第2ステップと、
を有する音響信号解析方法。 - 請求項17乃至22に記載の手順をコンピュータに実行させるためのコンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004223027A JP2005202354A (ja) | 2003-12-19 | 2004-07-30 | 信号解析方法 |
PCT/JP2004/018300 WO2005062291A1 (ja) | 2003-12-19 | 2004-12-08 | 信号解析方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003422806 | 2003-12-19 | ||
JP2004223027A JP2005202354A (ja) | 2003-12-19 | 2004-07-30 | 信号解析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005202354A true JP2005202354A (ja) | 2005-07-28 |
Family
ID=34712955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004223027A Pending JP2005202354A (ja) | 2003-12-19 | 2004-07-30 | 信号解析方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2005202354A (ja) |
WO (1) | WO2005062291A1 (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007041234A (ja) * | 2005-08-02 | 2007-02-15 | Univ Of Tokyo | 音楽音響信号の調推定方法および調推定装置 |
JP2007240552A (ja) * | 2006-03-03 | 2007-09-20 | Kyoto Univ | 楽器音認識方法、楽器アノテーション方法、及び楽曲検索方法 |
WO2008081920A1 (ja) * | 2007-01-05 | 2008-07-10 | Kyushu University, National University Corporation | 音声強調処理装置 |
JP2008186010A (ja) * | 2007-01-05 | 2008-08-14 | Kyushu Univ | 音声強調処理装置 |
JP2009510658A (ja) * | 2005-09-30 | 2009-03-12 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオを再生用に処理する方法および装置 |
WO2013030862A1 (ja) * | 2011-08-26 | 2013-03-07 | パイオニア株式会社 | 表示装置、表示方法、およびプログラム |
WO2013046629A1 (ja) * | 2011-09-30 | 2013-04-04 | 旭化成株式会社 | 基本周波数抽出装置および基本周波数抽出方法 |
JP2013076909A (ja) * | 2011-09-30 | 2013-04-25 | Casio Comput Co Ltd | 演奏評価装置、プログラム及び演奏評価方法 |
JP2013101608A (ja) * | 2011-10-17 | 2013-05-23 | Mizuho Information & Research Institute Inc | 非線形構造解析計算装置、非線形構造解析計算方法及び非線形構造解析計算プログラム |
JP2015040963A (ja) * | 2013-08-21 | 2015-03-02 | カシオ計算機株式会社 | 音響用フィルタ装置、音響用フィルタリング方法、およびプログラム |
JP2015043014A (ja) * | 2013-08-26 | 2015-03-05 | カシオ計算機株式会社 | 基音可視化装置、基音可視化方法およびプログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5159279B2 (ja) * | 2007-12-03 | 2013-03-06 | 株式会社東芝 | 音声処理装置及びそれを用いた音声合成装置。 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3251555B2 (ja) * | 1998-12-10 | 2002-01-28 | 科学技術振興事業団 | 信号分析装置 |
-
2004
- 2004-07-30 JP JP2004223027A patent/JP2005202354A/ja active Pending
- 2004-12-08 WO PCT/JP2004/018300 patent/WO2005062291A1/ja active Application Filing
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007041234A (ja) * | 2005-08-02 | 2007-02-15 | Univ Of Tokyo | 音楽音響信号の調推定方法および調推定装置 |
JP2009510658A (ja) * | 2005-09-30 | 2009-03-12 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオを再生用に処理する方法および装置 |
JP2007240552A (ja) * | 2006-03-03 | 2007-09-20 | Kyoto Univ | 楽器音認識方法、楽器アノテーション方法、及び楽曲検索方法 |
WO2008081920A1 (ja) * | 2007-01-05 | 2008-07-10 | Kyushu University, National University Corporation | 音声強調処理装置 |
JP2008186010A (ja) * | 2007-01-05 | 2008-08-14 | Kyushu Univ | 音声強調処理装置 |
WO2013030862A1 (ja) * | 2011-08-26 | 2013-03-07 | パイオニア株式会社 | 表示装置、表示方法、およびプログラム |
JPWO2013030862A1 (ja) * | 2011-08-26 | 2015-03-23 | パイオニア株式会社 | 表示装置、表示方法、およびプログラム |
WO2013046629A1 (ja) * | 2011-09-30 | 2013-04-04 | 旭化成株式会社 | 基本周波数抽出装置および基本周波数抽出方法 |
JP2013076909A (ja) * | 2011-09-30 | 2013-04-25 | Casio Comput Co Ltd | 演奏評価装置、プログラム及び演奏評価方法 |
JP2013101608A (ja) * | 2011-10-17 | 2013-05-23 | Mizuho Information & Research Institute Inc | 非線形構造解析計算装置、非線形構造解析計算方法及び非線形構造解析計算プログラム |
JP2015040963A (ja) * | 2013-08-21 | 2015-03-02 | カシオ計算機株式会社 | 音響用フィルタ装置、音響用フィルタリング方法、およびプログラム |
JP2015043014A (ja) * | 2013-08-26 | 2015-03-05 | カシオ計算機株式会社 | 基音可視化装置、基音可視化方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2005062291A1 (ja) | 2005-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7003120B1 (en) | Method of modifying harmonic content of a complex waveform | |
EP1125272B1 (en) | Method of modifying harmonic content of a complex waveform | |
JP2906970B2 (ja) | サウンドの分析及び合成方法並びに装置 | |
US9466279B2 (en) | Synthetic simulation of a media recording | |
JP3964792B2 (ja) | 音楽信号を音符基準表記に変換する方法及び装置、並びに、音楽信号をデータバンクに照会する方法及び装置 | |
US5880392A (en) | Control structure for sound synthesis | |
CN112382257B (zh) | 一种音频处理方法、装置、设备及介质 | |
JP2009031486A (ja) | 演奏音の類似度を評価する方法、装置およびプログラム | |
Traube et al. | Estimating the plucking point on a guitar string | |
JP2005202354A (ja) | 信号解析方法 | |
Jensen | The timbre model | |
Schneider | Perception of timbre and sound color | |
Lerch | Software-based extraction of objective parameters from music performances | |
JP2012506061A (ja) | デジタル音楽音響信号の分析方法 | |
Caetano et al. | A source-filter model for musical instrument sound transformation | |
Traube et al. | Extracting the fingering and the plucking points on a guitar string from a recording | |
Wright et al. | Analysis/synthesis comparison | |
JP4625933B2 (ja) | 音分析装置およびプログラム | |
Noland et al. | Influences of signal processing, tone profiles, and chord progressions on a model for estimating the musical key from audio | |
WO2020158891A1 (ja) | 音信号合成方法およびニューラルネットワークの訓練方法 | |
Faruqe et al. | Template music transcription for different types of musical instruments | |
JP2007240552A (ja) | 楽器音認識方法、楽器アノテーション方法、及び楽曲検索方法 | |
Tolonen | Object-based sound source modeling for musical signals | |
Jensen | Perceptual and physical aspects of musical sounds | |
Gang et al. | What makes music musical? a framework for extracting performance expression and emotion in musical sound |