JP4823804B2

JP4823804B2 - コード名検出装置及びコード名検出用プログラム

Info

Publication number: JP4823804B2
Application number: JP2006216361A
Authority: JP
Inventors: 錬澄田
Original assignee: Kawai Musical Instrument Manufacturing Co Ltd
Current assignee: Kawai Musical Instrument Manufacturing Co Ltd
Priority date: 2006-08-09
Filing date: 2006-08-09
Publication date: 2011-11-24
Anticipated expiration: 2026-08-09
Also published as: US7485797B2; DE102007034774A1; JP2008040283A; CN101123085B; US20080034947A1; CN101123085A

Description

本発明は、コード名検出装置及びコード名検出用プログラムに関する。

音楽ＣＤ等の複数の楽器音の混ざった音楽音響信号（オーディオ信号）からコード名（和音名）を検出するコード検出装置として、本出願人は、先に特願２００６−１１９４の特許出願をしている。

同出願の構成では、小節内が複数のコード（和音）で構成される場合の、その判断方法として、ベース音を用いていた。つまり、小節を前半と後半の２つに分割し、その夫々でベース音を検出し、別のベース音が検出された場合は、コードも前半と後半に分けて検出するというものである。

しかし、この方法では、ベース音が同じで和音が異なる場合、例えば、小節の前半がＣのコードで、後半がＣｍのコードの場合に、ベース音は同じであるために小節を分割することができず、コードを小節全体で検出してしまうという問題があった。

さらに、先の出願では、ベース音を検出範囲全体で検出していた。つまり、検出範囲が小節の場合は、小節全体で強い音をベース音としていた。しかし、ジャズのようなベースランニング（ベースが４分音符などで動く）場合には、この方法では正しくベース音を検出することができない。

本発明は、以上のような問題に鑑み創案されたもので、小節内で例えば同じベース音を持つ同士のコード変化がある場合でも正しいコードが検出出来るコード名検出装置及びコード名検出用プログラムを提供せんとするものである。

そのため本発明に係るコード名検出装置は、
音響信号を入力する入力手段と、
入力された音響信号から、所定のフレーム間隔で、ＦＦＴ演算を行い、求められたパワースペクトルからフレーム毎の各音階音のパワーを求める第１の音階音パワー検出手段と、
この所定のフレーム毎の各音階音のパワーの増分値をすべての音階音について合計して、フレーム毎の全体の音の変化度合いを示すパワーの増分値の合計を求め、このフレーム毎の全体の音の変化度合いを示すパワーの増分値の合計から、平均的なビート間隔と各ビートの位置を検出するビート検出手段と、
このビート毎の各音階音のパワーの平均値を計算し、このビート毎の各音階音の平均パワーの増分値をすべての音階音について合計して、ビート毎の全体の音の変化度合いを示す値を求め、このビート毎の全体の音の変化度合いを示す値から、拍子と小節線位置を検出する小節検出手段と、
上記入力された音響信号から、先のビート検出の時とは異なる別の所定のフレーム間隔で、第１の音階音パワー検出手段におけるＦＦＴ演算よりもＦＦＴポイント数を大きくしてＦＦＴ演算を行い、求められたパワースペクトルからフレーム毎の各音階音のパワーを求める第２の音階音パワー検出手段と、
各小節に幾つかの検出範囲を設定し、検出した各音階音のパワーのうち、各検出範囲内の１拍目に相当する部分の低域側の音階音のパワーから各検出範囲のベース音を検出するベース音検出手段と、
検出されたベース音が各検出範囲で異なるか否かによって、ベース音の変化のあるなしを判定し、このベース音の変化があるなしにより小節を複数個に分割することの可否を決定する第１の小節分割決定手段と、
同じく小節に幾つかのコード検出区間を設定し、主に和音が演奏されている音域として設定されたコード検出音域において、フレーム毎の各音階音のパワーを上記検出区間で平均し、これらの平均された各音階音のパワーをさらに１２の音階音毎に積算し、積算した数で割り１２の音階音の平均パワーを求め、夫々をパワーの強い順に並べ替えておいて、前後の検出区間で強い音の順位に変化があったかどうかによって、和音の変化のあるなしを判定し、この和音の変化の度合いにより小節を複数個に分割することの可否を決定する第２の小節分割決定手段と、
第１乃至第２の小節分割決定手段により、小節を幾つかのコード検出範囲に分割する必要があると決定された場合は、ベース音と各コード検出範囲における各音階音のパワーから、また小節を分割する必要がないと決定された場合は、ベース音とその小節の各音階音のパワーから、各コード検出範囲又はその小節におけるコード名を決定するコード名決定手段と
を有することを基本的特徴としている。

上記構成では、ベース音のみではなく、和音の変化度合いに応じて小節を分割するようにする。ベース音が異なるか、または、和音の変化度合いが大きい場合に小節を分割してコードを検出する。この小節の分割は、前半と後半の２分割だけでなく、曲が４拍子の場合には、前半と後半の夫々さらに半分に分割して、小節全体を４分割するようにしても良いし、場合によっては、さらに分割するようにしても構わない。ベース音の検出に関しては、検出範囲全体で検出するのではなく、検出範囲の先頭の１拍だけで検出するようにした。ベースランニングの場合にも、最初の１拍目はコードのルート音を弾くことが多いからである。

ベース音の検出については、先の出願と同じである。すなわち、入力波形を所定の時間間隔（以下、フレーム）でＦＦＴ演算し、求められたパワースペクトルから各音階音のパワーを求め、この各音階音のパワーのフレーム毎の増分値を計算し、これを全音階音で合計してフレーム毎の全体の音の変化度合いを求め、このフレーム毎の全体の音の変化度合いからビート（ビート間隔とビート位置）を検出する。ビート位置が検出されたら、夫々のビート間隔毎に各音階音のパワーの平均を計算し、この各音階音のパワーの平均のビート毎の増分値を計算し、これを全音階音で合計してビート毎の全体の音の変化度合いを求め、このビート毎の全体の音の変化度合いから拍子と小節線位置を検出する。このようにして、小節が検出されるので、小節を前半と後半に２分割して、夫々でベース音を検出する。ベース音は、先に求めたフレーム毎の各音階音のパワーの内、ベースの音域（例えばＥ１〜Ｅ３）のものを使って、その検出範囲内のパワーを平均して、平均パワーが大きいものをベース音とする。あるいは、１２の音階音で平均して、最も強い音階音をベース音とする。

先の出願では、検出範囲内のパワーを平均して、平均パワーが大きいものをベース音としていたが、本発明では、検出範囲の１拍目だけを使って検出する。その理由は上述の通りである。検出手順乃至構成そのものは、先の出願と同じである。

本発明の主眼である、和音の変化度合いによる小節の分割について、次に説明する。

本発明では、前述のベース音だけでなく、和音の変化度合いでも小節を分割する。和音の変化度合いは、以下のようにして算出する。まず、コード検出音域を設定する。これは、主に和音が演奏されている音域で、例えば、Ｃ３〜Ｅ６（Ｃ４が中央のド）とする。

このコード検出音域のフレーム毎の各音階音のパワーを、小節の半分等の検出区間で平均する。平均された各音階音のパワーをさらに１２の音階音（Ｃ、Ｃ＃、Ｄ、Ｄ＃、…、Ｂ）毎に積算し、積算した数で割り、１２の音階音の平均パワーを求める。

小節の前半と後半で、このコード検出音域の１２の音階音の平均パワーを求め、夫々を強い順に並べ替えておく。

図１５(ａ)(ｂ)に示すように、後半の強い音の内、例えば上位３つ（この数をＭとする）が、前半の例えば上位３つ（この数をＮとする）に含まれているかどうかを調べる。

含まれている数が例えば３つ（この数をＣとする）以上の場合（即ちすべて含まれる）には、小節の前半と後半で和音の変化は無いと判断し、和音の変化度合いによる小節の分割は行わない。

Ｍ、Ｎ、Ｃの値を適当に設定することにより、この和音の変化度合いによる小節分割の強さを変えることができる。先の例の全て３では、かなりシビアに和音の変化をチェックするが、例えば、Ｍ＝３、Ｎ＝６、Ｃ＝３（後半の上位３つの音が前半の上位６つに全て含まれるかどうか）にすれば、ある程度似た響きであれば、同じ和音であると判断する。

先に４拍子の場合、前半と後半を夫々更に半分に分割して小節全体を４分割することを述べたが、前半と後半の分割判断では、Ｍ＝３、Ｎ＝３、Ｃ＝３とし、前半と後半を更に半分に分割するかどうかの判断では、Ｍ＝３、Ｎ＝６、Ｃ＝３とすることで、実際の一般的な音楽に適合したより正しい判断を行うことができる。

本発明の構成では、ベース音のみではなく、和音の変化度合いに応じても小節を分割するようにして、和音を検出しているため、ベース音が同じ場合でも、和音の変化度合いが大きい場合には、小節を分割してコードが検出されることになる。すなわち、小節内で例えば同じベース音を持つ同士のコード変化がある場合でも正しいコードが検出出来るようになる。この小節の分割については、ベース音の変化の度合い、和音の変化度合いに応じて、様々に分割することが可能である。

請求項２の構成は、請求項１における和音の変化度合いによる小節の分割構成を別の構成としたものである。

すなわち、請求項２のコード名検出装置は、
音響信号を入力する入力手段と、
入力された音響信号から、所定のフレーム間隔で、ＦＦＴ演算を行い、求められたパワースペクトルからフレーム毎の各音階音のパワーを求める第１の音階音パワー検出手段と、
この所定のフレーム毎の各音階音のパワーの増分値をすべての音階音について合計して、フレーム毎の全体の音の変化度合いを示すパワーの増分値の合計を求め、このフレーム毎の全体の音の変化度合いを示すパワーの増分値の合計から、平均的なビート間隔と各ビートの位置を検出するビート検出手段と、
このビート毎の各音階音のパワーの平均値を計算し、このビート毎の各音階音の平均パワーの増分値をすべての音階音について合計して、ビート毎の全体の音の変化度合いを示す値を求め、このビート毎の全体の音の変化度合いを示す値から、拍子と小節線位置を検出する小節検出手段と、
上記入力された音響信号から、先のビート検出の時とは異なる別の所定のフレーム間隔で、第１の音階音パワー検出手段におけるＦＦＴ演算よりもＦＦＴポイント数を大きくしてＦＦＴ演算を行い、求められたパワースペクトルからフレーム毎の各音階音のパワーを求める第２の音階音パワー検出手段と、
各小節に幾つかの検出範囲を設定し、検出した各音階音のパワーのうち、各検出範囲内の１拍目に相当する部分の低域側の音階音のパワーから各検出範囲のベース音を検出するベース音検出手段と、
検出されたベース音が各検出範囲で異なるか否かによって、ベース音の変化のあるなしを判定し、このベース音の変化があるなしにより小節を複数個に分割することの可否を決定する第１の小節分割決定手段と、
同じく小節に幾つかのコード検出区間を設定し、主に和音が演奏されている音域として設定されたコード検出音域において、フレーム毎の各音階音のパワーを上記検出区間で平均し、これらの平均された各音階音のパワーをさらに１２の音階音毎に積算し、積算した数で割り１２の音階音の平均パワーを求め、前後の検出区間において、その１２の音階音の平均パワーを１２の音階音の平均パワーの最大値が小さい方を基準に正規化し、正規化後の各音階音のパワーのユークリッド距離を計算することによって、和音の変化のあるなしを判定し、この和音の変化の度合いにより小節を複数個に分割することの可否を決定する第２の小節分割決定手段と、
第１乃至第２の小節分割決定手段により、小節を幾つかのコード検出範囲に分割する必要があると決定された場合は、ベース音と各コード検出範囲における各音階音のパワーから、また小節を分割する必要がないと決定された場合は、ベース音とその小節の各音階音のパワーから、各コード検出範囲又はその小節におけるコード名を決定するコード名決定手段と
を有する構成である。

上記構成は、請求項１の構成とは異なり、各音階音のパワーのユークリッド距離を計算するという構成により、和音の変化の度合いを感知し、小節を分割してコードを検出するというものである。

ただし、この場合、単純にユークリッド距離を計算したのでは、急激な音の立ち上がり（曲の始まりなど）や急激な音の減衰（曲の終わり、ブレークなど）で、ユークリッド距離が大きな値となり、和音の変化は無いのに音の強弱だけで小節を分割してしまう恐れがある。そこで、ユークリッド距離を計算する前に、図１７に示すように、各音階音のパワーを正規化するようにする（図１７(ａ)は同(ｃ)のように、また図１７(ｂ)は同図(ｄ)のように正規化する）。その際、大きい方に合わせるのではなく、小さい方に合わせるようにすれば（図１７(ａ)〜(ｄ)参照）、急激な音の変化ではユークリッド距離が小さくなり、誤って小節分割することは無くなる。

上記各音階音のパワーのユークリッド距離は、下式数１６で計算される。

このユークリッド距離が、例えば全フレーム全音のパワーの平均を上回る場合は小節を分割する。

さらに、詳しくは、（ユークリッド距離＞全フレーム全音のパワーの平均×Ｔ）の時、小節を分割するようにすれば良い。該式の値Ｔを変えれば、小節分割の閾値を任意の値に変える（調整する）ことができる。

請求項３乃至請求項４の構成は、コンピュータに読み出されて実行されることで、上記請求項１乃至請求項２のコード名検出装置となるコンピュータプログラムに関する提案を行うものである。

すなわち、上述した課題を解決するための構成として、上記請求項１乃至請求項２に規定したコード名検出装置の各構成における処理手段を、コンピュータの構成を利用して実行する、該コンピュータで読み込まれて実行可能なコンピュータプログラムにつき開示する。もちろんこれらの構成は、コンピュータプログラムとしてだけではなく、後述するように、同様な機能を有するプログラムを格納した記録媒体の構成として提供されても良いことは言うまでもない。この場合、コンピュータとは中央演算処理装置の構成を含んだ汎用的なコンピュータの構成の他、特定の処理に向けられた専用機などを含むものであっても良く、中央演算処理装置の構成を伴うものであれば特に限定はない。

コンピュータに上記各処理を実行させるためのこのようなプログラムが、コンピュータに読み出されると、請求項１乃至請求項２に規定された装置構成におけるいずれかの手段で達成されると同様な処理が実行されることになる。

また既存のハードウェア資源を用いてこのコンピュータプログラムを実行することにより、既存のハードウェアで新たなアプリケーションとしての請求項１乃至請求項２に規定したコード名検出装置の構成が容易に実行できるようになる。さらにこのようなコンピュータプログラムが前述の記録媒体に記録されることにより、これをソフトウェア商品として容易に配付、販売することができるようになる。加えて記録媒体の構成としては、上述した形式の場合の他、ＲＡＭやＲＯＭなどの内部記憶装置の構成やハードディスクなどの外部記憶装置の構成であっても良く、そのようなプログラムがそこに記録されれば、本発明に規定された記録媒体に含まれることは言うまでもない。

尚、後述する請求項３乃至請求項４に記載された各手段のうち一部の処理を実行する機能は、コンピュータに組み込まれた機能（コンピュータにハードウェア的に組み込まれている機能でも良く、該コンピュータに組み込まれているオペレーティングシステムや他のアプリケーションプログラムなどによって実現される機能でも良い）によって実現され、前記プログラムには、該コンピュータによって達成される機能を呼び出すあるいはリンクさせる命令が含まれていても良い。

これは、請求項３乃至請求項４に規定された各手段の一部が、例えばオペレーティングシステムなどによって達成される機能の一部で代行され、その機能を実現するためのプログラム乃至モジュールなどは直接記録されているわけではないが、それらの機能を達成するオペレーティングシステムの機能の一部を、呼び出したりリンクさせるようにしてあれば、実質的に同じ構成となるからである。

上記プログラムは、それ自身使用の対象となる他、後述のように記録媒体に記録されて配付乃至販売され、また通信などにより送信されて、譲渡の対象とすることもできるようになる。

そのうち請求項３の構成は、上記請求項１の構成に対応するものであって、具体的な構成としては、
コンピュータに読み込まれて実行されることにより、該コンピュータを、
音響信号を入力する入力手段と、
入力された音響信号から、所定のフレーム間隔で、ＦＦＴ演算を行い、求められたパワースペクトルからフレーム毎の各音階音のパワーを求める第１の音階音パワー検出手段と、
この所定のフレーム毎の各音階音のパワーの増分値をすべての音階音について合計して、フレーム毎の全体の音の変化度合いを示すパワーの増分値の合計を求め、このフレーム毎の全体の音の変化度合いを示すパワーの増分値の合計から、平均的なビート間隔と各ビートの位置を検出するビート検出手段と、
このビート毎の各音階音のパワーの平均値を計算し、このビート毎の各音階音の平均パワーの増分値をすべての音階音について合計して、ビート毎の全体の音の変化度合いを示す値を求め、このビート毎の全体の音の変化度合いを示す値から、拍子と小節線位置を検出する小節検出手段と、
上記入力された音響信号から、先のビート検出の時とは異なる別の所定のフレーム間隔で、第１の音階音パワー検出手段におけるＦＦＴ演算よりもＦＦＴポイント数を大きくしてＦＦＴ演算を行い、求められたパワースペクトルからフレーム毎の各音階音のパワーを求める第２の音階音パワー検出手段と、
各小節に幾つかの検出範囲を設定し、検出した各音階音のパワーのうち、各検出範囲内の１拍目に相当する部分の低域側の音階音のパワーから各検出範囲のベース音を検出するベース音検出手段と、
検出されたベース音が各検出範囲で異なるか否かによって、ベース音の変化のあるなしを判定し、このベース音の変化があるなしにより小節を複数個に分割することの可否を決定する第１の小節分割決定手段と、
同じく小節に幾つかのコード検出区間を設定し、主に和音が演奏されている音域として設定されたコード検出音域において、フレーム毎の各音階音のパワーを上記検出区間で平均し、これらの平均された各音階音のパワーをさらに１２の音階音毎に積算し、積算した数で割り１２の音階音の平均パワーを求め、夫々をパワーの強い順に並べ替えておいて、前後の検出区間で強い音の順位に変化があったかどうかによって、和音の変化のあるなしを判定し、この和音の変化の度合いにより小節を複数個に分割することの可否を決定する第２の小節分割決定手段と、
第１乃至第２の小節分割決定手段により、小節を幾つかのコード検出範囲に分割する必要があると決定された場合は、ベース音と各コード検出範囲における各音階音のパワーから、また小節を分割する必要がないと決定された場合は、ベース音とその小節の各音階音のパワーから、各コード検出範囲又はその小節におけるコード名を決定するコード名決定手段と
として機能させることを特徴とするコード名検出用プログラムである。

また請求項４の構成は、上記請求項２の構成に対応するコード名検出用コンピュータプログラムであって、具体的な構成としては、
コンピュータに読み込まれて実行されることにより、該コンピュータを、
音響信号を入力する入力手段と、
入力された音響信号から、所定のフレーム間隔で、ＦＦＴ演算を行い、求められたパワースペクトルからフレーム毎の各音階音のパワーを求める第１の音階音パワー検出手段と、
この所定のフレーム毎の各音階音のパワーの増分値をすべての音階音について合計して、フレーム毎の全体の音の変化度合いを示すパワーの増分値の合計を求め、このフレーム毎の全体の音の変化度合いを示すパワーの増分値の合計から、平均的なビート間隔と各ビートの位置を検出するビート検出手段と、
このビート毎の各音階音のパワーの平均値を計算し、このビート毎の各音階音の平均パワーの増分値をすべての音階音について合計して、ビート毎の全体の音の変化度合いを示す値を求め、このビート毎の全体の音の変化度合いを示す値から、拍子と小節線位置を検出する小節検出手段と、
上記入力された音響信号から、先のビート検出の時とは異なる別の所定のフレーム間隔で、第１の音階音パワー検出手段におけるＦＦＴ演算よりもＦＦＴポイント数を大きくしてＦＦＴ演算を行い、求められたパワースペクトルからフレーム毎の各音階音のパワーを求める第２の音階音パワー検出手段と、
各小節に幾つかの検出範囲を設定し、検出した各音階音のパワーのうち、各検出範囲内の１拍目に相当する部分の低域側の音階音のパワーから各検出範囲のベース音を検出するベース音検出手段と、
検出されたベース音が各検出範囲で異なるか否かによって、ベース音の変化のあるなしを判定し、このベース音の変化があるなしにより小節を複数個に分割することの可否を決定する第１の小節分割決定手段と、
同じく小節に幾つかのコード検出区間を設定し、主に和音が演奏されている音域として設定されたコード検出音域において、フレーム毎の各音階音のパワーを上記検出区間で平均し、これらの平均された各音階音のパワーをさらに１２の音階音毎に積算し、積算した数で割り１２の音階音の平均パワーを求め、前後の検出区間において、その１２の音階音の平均パワーを１２の音階音の平均パワーの最大値が小さい方を基準に正規化し、正規化後の各音階音のパワーのユークリッド距離を計算することによって、和音の変化のあるなしを判定し、この和音の変化の度合いにより小節を複数個に分割することの可否を決定する第２の小節分割決定手段と、
第１乃至第２の小節分割決定手段により、小節を幾つかのコード検出範囲に分割する必要があると決定された場合は、ベース音と各コード検出範囲における各音階音のパワーから、また小節を分割する必要がないと決定された場合は、ベース音とその小節の各音階音のパワーから、各コード検出範囲又はその小節におけるコード名を決定するコード名決定手段と
として機能させることを特徴とするコード名検出用プログラムである。

本発明の請求項１〜請求項４記載のコード名検出装置及びコード名検出用プログラムによれば、小節内で例えば同じベース音を持つ同士のコード変化がある場合でも正しいコードが検出出来るという優れた効果を奏し得るようになる。

以下、本発明の実施の形態を図示例と共に説明する。

図１は、本出願人の先の出願でその実施例構成として示したテンポ検出装置の全体ブロック図である。同図によれば、本テンポ検出装置の構成は、音響信号を入力する入力部１と、入力された音響信号から、所定の時間間隔（フレーム）で、ＦＦＴ演算を行い、求められたパワースペクトルからフレーム毎の各音階音のパワーを求める音階音パワー検出部２と、このフレーム毎の各音階音のパワーの増分値をすべての音階音について合計して、フレーム毎の全体の音の変化度合いを示すパワーの増分値の合計を求め、このフレーム毎の全体の音の変化度合いを示すパワーの増分値の合計から、平均的なビート間隔と各ビートの位置を検出するビート検出部３と、このビート毎の各音階音のパワーの平均値を計算し、このビート毎の各音階音の平均パワーの増分値をすべての音階音について合計して、ビート毎の全体の音の変化度合いを示す値を求め、このビート毎の全体の音の変化度合いを示す値から、拍子と小節線位置を検出する小節検出部４とを有している。

音楽音響信号を入力する上記入力部１は、テンポ検出をする対象の音楽音響信号を入力する部分である。マイク等の機器から入力されたアナログ信号をＡ／Ｄ変換器（図示無し）によりディジタル信号に変換しても良いし、音楽ＣＤなどのディジタル化された音楽データの場合は、そのままファイルとして取り込み（リッピング）、これを指定して開くようにしても良い。このようにして入力したディジタル信号がステレオの場合、後の処理を簡略化するためにモノラルに変換する。

このディジタル信号は、音階音パワー検出部２に入力される。この音階音パワー検出部は、図２の各部から構成される。

そのうち波形前処理部２０は、音楽音響信号の上記入力部１からの音響信号を今後の処理に適したサンプリング周波数にダウンサンプリングする構成である。

ダウンサンプリングレートは、ビート検出に使う楽器の音域によって決定する。すなわち、シンバル、ハイハット等の高音域のリズム楽器の演奏音をビート検出に反映させるには、ダウンサンプリング後のサンプリング周波数を高い周波数にする必要があるが、ベース音とバスドラム、スネアドラム等の楽器音と中音域の楽器音から主にビート検出させる場合には、ダウンサンプリング後のサンプリング周波数はそれほど高くする必要はない。

例えば検出する最高音をＡ６（Ｃ４が中央のド）とする場合、Ａ６の基本周波数は約１７６０Ｈｚ（Ａ４＝４４０Ｈｚとした場合）となるので、ダウンサンプリング後のサンプリング周波数は、ナイキスト周波数が１７６０Ｈｚ以上となる、３５２０Ｈｚ以上にすれば良い。これから、ダウンサンプリングレートは、元のサンプリング周波数が４４．１ｋＨｚ（音楽ＣＤ）の場合、１／１２程度にすれば良いことになる。この時、ダウンサンプリング後のサンプリング周波数は、３６７５Ｈｚとなる。

ダウンサンプリングの処理は、通常、ダウンサンプリング後のサンプリング周波数の半分の周波数であるナイキスト周波数（今の例では１８３７．５Ｈｚ）以上の成分をカットするローパスフィルタを通した後に、データを読み飛ばす（今の例では波形サンプルの１２個に１１個を破棄する）ことによって行われる。

このようにダウンサンプリングの処理を行うのは、この後のＦＦＴ演算において、同じ周波数分解能を得るために必要なＦＦＴポイント数を下げることで、ＦＦＴの演算時間を減らすのが目的である。

なお、音楽ＣＤのように、音源が固定のサンプリング周波数で既にサンプリングされている場合は、このようなダウンサンプリングが必要になるが、音楽音響信号の入力部１が、マイク等の機器から入力されたアナログ信号をＡ／Ｄ変換器によりディジタル信号に変換するような場合には、当然Ａ／Ｄ変換器のサンプリング周波数を、ダウンサンプリング後のサンプリング周波数に設定することで、この波形前処理部を省くことが可能である。

このようにして波形前処理部２０によるダウンサンプリングが終了したら、所定の時間間隔（フレーム）で、波形前処理部の出力信号を、ＦＦＴ演算部２１によりＦＦＴ（高速フーリエ変換）する。

ＦＦＴのパラメータ（ＦＦＴポイント数とＦＦＴ窓のシフト量）は、ビート検出に適した値とする。つまり、周波数分解能を上げるためにＦＦＴポイント数を大きくすると、ＦＦＴ窓のサイズが大きくなってしまい、より長い時間から１回のＦＦＴを行うことになり、時間分解能が低下する、というＦＦＴの特性を考慮しなくてはならない（つまりビート検出時は周波数分解能を犠牲にして時間分解能をあげるのが良い）。窓のサイズと同じだけの長さの波形を使わないで、窓の一部だけに波形データをセットし残りは０で埋めることによって、ＦＦＴポイント数を大きくしても時間分解能が悪くならない方法もあるが、低音側のパワーも正しく検出するためには、ある程度の波形サンプル数は必要である。

以上のようなことを考慮し、本実施例では、ＦＦＴポイント数５１２、窓のシフトは３２サンプル（窓のオーバーラップは１５／１６）で、０埋めなしという設定にした。このような設定でＦＦＴ演算を行うと、時間分解能約８．７ｍｓ、周波数分解能約７．２Ｈｚとなる。時間分解能約８．７ｍｓという値は、四分音符＝３００のテンポの曲で、３２分音符の長さが、２５ｍｓであることを考えると、十分な値であることがわかる。

このようにして、フレーム毎にＦＦＴ演算が行われ、その実数部と虚数部のそれぞれを二乗したものの和の平方根からパワーが計算され、その結果がパワー検出部２２に送られる。

パワー検出部２２では、ＦＦＴ演算部２１で計算されたパワー・スペクトルから、各音階音のパワーを計算する。ＦＦＴは、サンプリング周波数をＦＦＴポイント数で割った値の整数倍の周波数のパワーが計算されるだけであるので、このパワー・スペクトルから各音階音のパワーを検出するために、以下のような処理を行う。つまり、音階音を計算するすべての音（Ｃ１からＡ６）について、その各音の基本周波数の上下５０セントの範囲（１００セントが半音）の周波数に相当するパワー・スペクトルの内、最大のパワーを持つスペクトルのパワーをこの音階音のパワーとする。

すべての音階音についてパワーが検出されたら、これをバッファに保存し、波形の読み出し位置を所定の時間間隔（１フレーム；先の例では３２サンプル）進めて、ＦＦＴ演算部２１とパワー検出部２２を波形の終わりまで繰り返す。

以上により、音楽音響信号の入力部１に入力された音響信号の、所定時間毎の各音階音のパワーが、バッファ２３に保存される。

次に、図１のビート検出部３の構成について説明する。該ビート検出部３は、図３のような処理の流れで実行される。

ビート検出部３は、音階音パワー検出部が出力した１フレーム毎の各音階音のパワーの変化を元に平均的なビート（拍）間隔（つまりテンポ）とビートの位置を検出する。そのために、まずビート検出部３は、各音階音のパワー増分値の合計（前のフレームとのパワーの増分値をすべての音階音で合計したもの。前のフレームからパワーが減少している場合は０として加算する）を計算する（ステップＳ１００）。

つまり、フレーム時間ｔにおけるｉ番目の音階音のパワーをＬ_ｉ（ｔ）とするとき、ｉ番目の音階音のパワー増分値Ｌ_ａｄｄｉ（ｔ）は、下式数１に示すようになり、このＬ_ａｄｄｉ（ｔ）を使って、フレーム時間ｔにおける各音階音のパワー増分値の合計Ｌ（ｔ）は、下式数２で計算できる。ここで、Ｔは音階音の総数である。

この合計Ｌ（ｔ）値は、フレーム毎の全体での音の変化度合いを表している。この値は、音の鳴り始めで急激に大きくなり、同時に鳴り始める音が多いほど大きな値となる。音楽はビートの位置で音が鳴り始めることが多いので、この値が大きなところはビートの位置である可能性が高いことになる。

例として、図４に、ある曲の一部分の波形と各音階音のパワー、各音階音のパワー増分値の合計の図を示す。上段が波形、中央がフレーム毎の各音階音のパワーを濃淡で表したもの（下が低い音、上が高い音。この図では、Ｃ１からＡ６の範囲）、下段がフレーム毎の各音階音のパワー増分値の合計を示している。この図の各音階音のパワーは、音階音パワー検出部から出力されたものであるので、周波数分解能が約７．２Ｈｚであり、Ｇ＃２以下の一部の音階音でパワーが計算できずに歯抜け状態になっているが、この場合はビートを検出するのが目的であるので、低音の一部の音階音のパワーが測定できないのは、問題ない。

この図の下段に見られるように、各音階音のパワー増分値の合計は、定期的にピークをもつ形となっている。この定期的なピークの位置が、ビートの位置である。

ビートの位置を求めるために、ビート検出部３では、まずこの定期的なピークの間隔、つまり平均的なビート間隔を求める。平均的なビート間隔はこの各音階音のパワー増分値の合計の自己相関から計算できる（図３；ステップＳ１０２）。

あるフレーム時間ｔにおける各音階音のパワー増分値の合計をＬ（ｔ）とすると、この自己相関φ（τ）は、以下の式数３で計算される。

ここで、Ｎは総フレーム数、τは時間遅れである。

自己相関計算の概念図を、図５に示す。この図のように、時間遅れτがＬ（ｔ）のピークの周期の整数倍の時に、φ（τ）は大きな値となる。よって、ある範囲のτについてφ（τ）の最大値を求めれば、曲のテンポを求めることができる。

自己相関を求めるτの範囲は、想定する曲のテンポ範囲によって変えれば良い。例えば、メトロノーム記号で四分音符＝３０から３００の範囲を計算するならば、自己相関を計算する範囲は、０．２秒から２秒となる。時間（秒）からフレームへの変換式は、以下の数４式に示す通りとなる。

この範囲の自己相関φ（τ）が最大となるτをビート間隔としても良いが、必ずしも全ての曲で自己相関が最大となる時のτがビート間隔とはならないので、自己相関が極大値となる時のτからビート間隔の候補を求め（図３；ステップＳ１０４）、これら複数の候補からユーザにビート間隔を決定させるのが良い（図３；ステップＳ１０６）。

このようにしてビート間隔が決定したら（決定したビート間隔をτ_ｍａｘとする）、まず最初に先頭のビート位置を決定する。

先頭のビート位置の決定方法を、図６を用いて説明する。図６の上段はフレーム時間ｔにおける各音階音のパワー増分値の合計Ｌ（ｔ）で、下段Ｍ（ｔ）は決定したビート間隔τ_ｍａｘの周期で値を持つ関数である。式で表すと、下式数５に示すようになる。

この関数Ｍ（ｔ）を、０からτ_ｍａｘ−１の範囲でずらしながら、Ｌ（ｔ）とＭ（ｔ）の相互相関を計算する。

相互相関ｒ（ｓ）は、上記Ｍ（ｔ）の特性から、下式数６で計算できる。

この場合のｎは、最初の無音部分の長さに応じて適当に決めれば良い（図６の例では、ｎ＝１０）。

ｒ（ｓ）をｓが０からτ_ｍａｘ−１の範囲で求め、ｒ（ｓ）が最大となるｓを求めれば、このｓのフレームが最初のビート位置である。

最初のビート位置が決まったら、それ以降のビートの位置を１つずつ決定していく（図３；ステップＳ１０８）。

その方法を、図７を用いて説明する。図７の三角印の位置に先頭のビートが見つかったとする。２番目のビート位置は、この先頭のビート位置からビート間隔τ_ｍａｘだけ離れた位置を仮のビート位置とし、その近辺でＬ（ｔ）とＭ（ｔ）が最も相関が取れる位置から決定する。つまり、先頭のビート位置をｂ_０とするとき、以下の式のｒ（ｓ）が最大となるようなｓの値を求める。この式のｓは仮のビート位置からのずれで、以下の式数７の範囲の整数とする。Ｆは揺らぎのパラメータで０．１程度の値が適当であるが、テンポの揺らぎの大きい曲では、もっと大きな値にしてもよい。ｎは５程度で良い。

ｋは、ｓの値に応じて変える係数で、例えば図８のような正規分布とする。

ｒ（ｓ）が最大となるようなｓの値が求まれば、２番目のビート位置ｂ_１は、下式数８で計算される。

以降、同じようにして３番目以降のビート位置も求めることができる。

テンポがほとんど変わらない曲ではこの方法でビート位置を曲の終わりまで求めることができるが、実際の演奏は多少テンポが揺らいだり、部分的にだんだん遅くなったりすることがよくある。

そこで、これらのテンポの揺らぎにも対応できるように以下のような方法を考えた。

つまり、図７のＭ（ｔ）の関数を、図９のように変化させるものである。
１）は、従来の方法で、図のように各パルスの間隔をτ１、τ２、τ３、τ４としたとき、
τ１＝τ２＝τ３＝τ４＝τ_ｍａｘ
である。
２）は、τ１からτ４を均等に大きくしたり小さくしたりするものである。
τ１＝τ２＝τ３＝τ４＝τ_ｍａｘ＋ｓ (-τ_ｍａｘ・Ｆ≦ｓ≦τ_ｍａｘ・Ｆ）これにより、急にテンポが変わった場合に対応できる。
３）は、ｒｉｔ．（リタルダンド、だんだん遅く）又は、ａｃｃｅｌ．（アッチェレランド、だんだん速く）に対応したもので、各パルス間隔は、
τ１＝τ_ｍａｘ
τ２＝τ_ｍａｘ＋１・ｓ
τ３＝τ_ｍａｘ＋２・ｓ（-τ_ｍａｘ・Ｆ≦ｓ≦τ_ｍａｘ・Ｆ）
τ４＝τ_ｍａｘ＋４・ｓ
で計算される。
１、２、４の係数は、あくまで例であり、テンポ変化の大きさによって変えてもよい。
４）は、３）のようなｒｉｔ．やａｃｃｅｌ．の場合の、５個のパルスの位置のどこが現在ビートを求めようとしている場所かを変えるものである。

これらをすべて組み合わせて、Ｌ（ｔ）とＭ（ｔ）の相関を計算し、それらの最大からビート位置を決めれば、テンポが揺らぐ曲に対してもビート位置の決定が可能である。なお、２）と３）の場合には、相関を計算するときの係数ｋの値を、やはりｓの値に応じて変えるようにする。

さらに、５個のパルスの大きさは現在すべて同じにしてあるが、ビートを求める位置（図９の仮のビート位置）のパルスのみ大きくしたり、ビートを求める位置から離れるほど値を小さくして、ビートを求める位置の各音階音のパワー増分値の合計を強調するようにしても良い［図９の５）］。

以上のようにして、各ビートの位置が決定したら、この結果をバッファ３０に保存すると共に、検出した結果を表示し、ユーザに確認してもらい、間違っている箇所を修正してもらうようにしても良い。

ビート検出結果の確認画面の例を、図１０に示す。同図の三角印の位置が検出したビート位置である。

「再生」のボタンを押すと、現在の音楽音響信号が、Ｄ／Ａ変換され、スピーカ等から再生される。現在の再生位置は、図のように縦線等の再生位置ポインタで表示されるので、演奏を聞きながら、ビート検出位置の誤りを確認できる。さらに、検出の元波形の再生と同時に、ビート位置のタイミングで例えばメトロノームのような音を再生させるようにすれば、目で確認するだけでなく音でも確認でき、より容易に誤検出を判断できる。このメトロノームの音を再生させる方法としては、例えばＭＩＤＩ機器等が考えられる。

ビート検出位置の修正は、「ビート位置の修正」ボタンを押して行う。このボタンを押すと、画面に十字のカーソルが現れるので、最初のビート検出が間違っている箇所で正しいビート位置をクリックする。クリックされた場所の少し前（例えばτ_ｍａｘの半分の位置）から後のビート位置をすべてクリアし、クリックされた場所を、仮のビート位置として、以降のビート位置を再検出する。

次に、拍子および小節の検出について説明する。

これまでの処理で、ビートの位置が確定しているので、今度は、ビート毎の音の変化度合いを求める。ビート毎の音の変化度合いは、音階音パワー検出部２が出力した、フレーム毎の各音階音のパワーから計算する。

ｊ番目のビートのフレーム数をｂ_ｊとし、その前後のビートのフレームをｂ_ｊ−１、ｂ_ｊ＋１とする時、ｊ番目のビートのビート毎の音の変化度合いは、フレームｂ_ｊ−１からｂ_ｊ−１までのフレームの各音階音のパワーの平均とフレームｂ_ｊからｂ_ｊ＋１−１までのフレームの各音階音のパワーの平均を計算し、その増分値から各音階音のビート毎の音の変化度合いを求め、それらを全ての音階音で合計して計算することができる。

つまり、フレーム時間ｔにおけるｉ番目の音階音のパワーをＬ_ｉ（ｔ）とするとき、ｊ番目のビートのｉ番目の音階音のパワーの平均Ｌ_ａｖｇｉ（ｊ）は、下式数９であるから、ｊ番目のビートのｉ番目の音階音のビート毎の音の変化度合いＢ_ａｄｄｉ（ｊ）は、下式数１０に示すようになる。

よって、ｊ番目のビートのビート毎の音の変化度合いＢ（ｊ）は、下式数１１に示すようになる。ここで、Ｔは音階音の総数である。

図１１の最下段は、このビート毎の音の変化度合いである。このビート毎の音の変化度合いから拍子と１拍目の位置を求める。

拍子は、ビート毎の音の変化度合いの自己相関から求める。一般的に音楽は１拍目で音が変わることが多いと考えられるので、このビート毎の音の変化度合いの自己相関から拍子を求めることができる。例えば、下式数１２に示す自己相関φ（τ）を求める式から、ビート毎の音の変化度合いＢ（ｊ）の自己相関φ（τ）を遅れτが、２から４の範囲で求め、自己相関φ（τ）が最大となる遅れτを拍子の数とする。

Ｎは、総ビート数、τ＝２〜４の範囲でφ（τ）を計算し、φ（τ）が最大となるτを拍子の数とする。

次に１拍目を求めるが、これは、ビート毎の音の変化度合いＢ（ｊ）がもっとも大きい箇所を１拍目とする。つまり、φ（τ）が最大となるτをτ_ｍａｘ、下式数１３のＸ（ｋ）が最大となるｋをｋ_ｍａｘとするとき、ｋ_ｍａｘ番目のビートが最初の１拍目の位置となり、以降、τ_ｍａｘを足したビート位置が１拍目となる。

ｎ_ｍａｘは、τ_ｍａｘ・ｎ＋ｋ＜Ｎの条件で最大となるｎ

以上のようにして、拍子及び１拍目の位置（小節線の位置）が決定したら、この結果をバッファ４０に保存すると共に、検出した結果を画面表示して、ユーザに変更させるようにすることが望ましい。特に変拍子の曲は、この方法では対応できないので、変拍子の箇所をユーザに指定してもらう必要がある。

以上の構成により、人間が演奏したテンポの揺らぐ演奏の音響信号から、曲全体の平均的なテンポと正確なビート（拍）の位置、さらに曲の拍子と１拍目の位置を検出することが可能となる。

図１２は、本発明のコード検出装置の全体ブロック図である。同図において、ビート検出及び小節検出の構成は、上記構成と基本的に同じであり、同一構成において、テンポ検出用とコード検出用の構成について、上記構成の場合と異なるものもあるので、数式等を除き、同じ説明が重なるが、以下に示す。

同図によれば、本コード検出装置の構成は、音響信号を入力する入力部１と、入力された音響信号から、所定の時間間隔（フレーム）で、ビート検出に適したパラメータを使ってＦＦＴ演算を行い、求められたパワースペクトルからフレーム毎の各音階音のパワーを求めるビート検出用音階音パワー検出部２と、このフレーム毎の各音階音のパワーの増分値をすべての音階音について合計して、フレーム毎の全体の音の変化度合いを示すパワーの増分値の合計を求め、このフレーム毎の全体の音の変化度合いを示すパワーの増分値の合計から、平均的なビート間隔と各ビートの位置を検出するビート検出部３と、このビート毎の各音階音のパワーの平均値を計算し、このビート毎の各音階音の平均パワーの増分値を全ての音階音について合計して、ビート毎の全体の音の変化度合いを示す値を求め、このビート毎の全体の音の変化度合いを示す値から、拍子と小節線位置を検出する小節検出部４と、上記入力された音響信号から、先のビート検出の時とは異なる別の時間間隔（フレーム）で、コード検出に適したパラメータを使ってＦＦＴ演算を行い、求められたパワースペクトルからフレーム毎の各音階音のパワーを求めるコード検出用音階音パワー検出部５と、検出した各音階音のパワーのうち、各小節を幾つかの検出範囲に設定し、各検出範囲内の１拍目に相当する部分の低域側の音階音のパワーから各検出範囲のベース音を検出するベース音検出部６と、検出されたベース音が各検出範囲で異なるか否かによって、ベース音の変化のあるなしを判定し、このベース音の変化があるなしにより小節を複数個に分割することの可否を決定する第１の小節分割決定部７と、同じく小節を幾つかのコード検出区間に設定し、主に和音が演奏されている音域として設定されたコード検出音域において、フレーム毎の各音階音のパワーを上記検出区間で平均し、これらの平均された各音階音のパワーをさらに１２の音階音毎に積算し、積算した数で割り１２の音階音の平均パワーを求め、夫々をパワーの強い順に並べ替えておいて、後続区間の強い音の内上位３以上のＭ個の音階音がその前の区間の強い音の内上位３以上のＮ個の音階音に、Ｃ個以上含まれるか否かによって、和音の変化のあるなしを判定し、この和音の変化の度合いにより小節を複数個に分割することの可否を決定する第２の小節分割決定部８と、第１乃至第２の小節分割決定部７、８により、小節を幾つかのコード検出範囲に分割する必要があると決定された場合は、ベース音と各コード検出範囲における各音階音のパワーから、また小節を分割する必要がないと決定された場合は、ベース音とその小節の各音階音のパワーから、各コード検出範囲又はその小節におけるコード名を決定するコード名決定部９とを有している。

音楽音響信号を入力する上記入力部１は、コード検出をする対象の音楽音響信号を入力する部分であるが、基本的構成は上記構成の入力部１と同じであるので、その詳細な説明は省略する。ただし、通常センタに定位されるボーカルが後のコード検出でじゃまになる場合は、右チャンネルの波形と左チャンネルの波形を引き算することでボーカルキャンセルするようにしても良い。

このディジタル信号は、ビート検出用音階音パワー検出部２とコード検出用音階音パワー検出部５とに入力される。これらの音階音パワー検出部は、どちらも上記図２の各部から構成され、構成はまったく同じなので、同じものをパラメータだけを変えて再利用できる。

そしてその構成として使用される波形前処理部２０は、上記と同様な構成であり、音楽音響信号の上記入力部１からの音響信号を今後の処理に適したサンプリング周波数にダウンサンプリングする。ただし、ダウンサンプリング後のサンプリング周波数、つまり、ダウンサンプリングレートは、ビート検出用とコード検出用で変えるようにしても良いし、ダウンサンプリングする時間を節約するために同じにしても良い。

ビート検出用の場合は、ビート検出に使う音域によってダウンサンプリングレートを決定する。シンバル、ハイハット等の高音域のリズム楽器の演奏音をビート検出に反映させるには、ダウンサンプリング後のサンプリング周波数を高い周波数にする必要があるが、ベース音とバスドラム、スネアドラム等の楽器音と中音域の楽器音から主にビート検出させる場合には、以下のコード検出時と同じダウンサンプリングレートで構わない。

コード検出用の波形前処理部のダウンサンプリングレートは、コード検出音域によって変える。コード検出音域とは、コード名決定部でコード検出する時に使う音域のことである。例えばコード検出音域をＣ３からＡ６（Ｃ４が中央のド）とする場合、Ａ６の基本周波数は約１７６０Ｈｚ（Ａ４＝４４０Ｈｚとした場合）となるので、ダウンサンプリング後のサンプリング周波数はナイキスト周波数が１７６０Ｈｚ以上となる、３５２０Ｈｚ以上にすれば良い。これから、ダウンサンプリングレートは、元のサンプリング周波数が４４．１ｋＨｚ（音楽ＣＤ）の場合、１／１２程度にすれば良いことになる。この時、ダウンサンプリング後のサンプリング周波数は、３６７５Ｈｚとなる。

ダウンサンプリングの処理は、通常、ダウンサンプリング後のサンプリング周波数の半分の周波数であるナイキスト周波数（今の例では１８３７．５Ｈｚ）以上の成分をカットするローパスフィルタを通した後に、データを読み飛ばす（今の例では波形サンプルの１２個に１１個を破棄する）ことによって行われる。これについては、上記構成に説明したことと同じ理由による。

このようにして波形前処理部２０によるダウンサンプリングが終了したら、所定の時間間隔で、波形前処理部の出力信号をＦＦＴ演算部２１により、ＦＦＴ（高速フーリエ変換）する。

ＦＦＴのパラメータ（ＦＦＴポイント数とＦＦＴ窓のシフト量）は、ビート検出時とコード検出時で異なる値とする。これは、周波数分解能を上げるためにＦＦＴポイント数を大きくすると、ＦＦＴ窓のサイズが大きくなってしまい、より長い時間から１回のＦＦＴを行うことになり、時間分解能が低下する、というＦＦＴの特性によるものである（つまりビート検出時は周波数分解能を犠牲にして時間分解能をあげるのが良い）。窓のサイズと同じだけの長さの波形を使わないで、窓の一部だけに波形データをセットし、残りは０で埋めることによってＦＦＴポイント数を大きくしても時間分解能が悪くならない方法もあるが、本実施例のケースでは、低音側のパワーも正しく検出するためにある程度の波形サンプル数は必要である。

以上のようなことを考慮し、本実施例では、ビート検出時は、ＦＦＴポイント数５１２、窓のシフトは３２サンプル（窓のオーバーラップは１５／１６）で、０埋めなしであるが、コード検出時は、ＦＦＴポイント数８１９２、窓のシフトは１２８サンプル（窓のオーバーラップは６３／６４）で、波形サンプルは一度のＦＦＴで１０２４サンプル使うようにした。このような設定でＦＦＴ演算を行うと、ビート検出時は、時間分解能約８．７ｍｓ、周波数分解能約７．２Ｈｚ、コード検出時は、時間分解能約３５ｍｓ、周波数分解能約０．４Ｈｚとなる。今パワーを求めようとしている音階音は、Ｃ１からＡ６の範囲であるので、コード検出時の周波数分解能約０．４Ｈｚは、最も周波数差の小さいＣ１とＣ＃１の基本周波数の差、約１．９Ｈｚにも対応できる。また、四分音符＝３００のテンポの曲で３２分音符の長さが２５ｍｓであることを考えると、ビート検出時の時間分解能約８．７ｍｓは、十分な値であることが分かる。

パワー検出部２２では、ＦＦＴ演算部２１で計算されたパワー・スペクトルから、各音階音のパワーを計算する。ＦＦＴは、サンプリング周波数をＦＦＴポイント数で割った値の整数倍の周波数のパワーが計算されるだけであるので、このパワー・スペクトルから各音階音のパワーを検出するために、上記構成と同様な処理を行う。すなわち、音階音を計算するすべての音（Ｃ１からＡ６）について、その各音の基本周波数の上下５０セントの範囲（１００セントが半音）の周波数に相当するパワー・スペクトルの内、最大のパワーを持つスペクトルのパワーをこの音階音のパワーとする。

すべての音階音についてパワーが検出されたら、これをバッファに保存し、波形の読み出し位置を所定の時間間隔（１フレーム；先の例ではビート検出時は３２サンプル、コード検出時は１２８サンプル）進めて、ＦＦＴ演算部２１とパワー検出部２２を波形の終わりまで繰り返す。

以上により、音楽音響信号の入力部１に入力された音響信号の、フレーム毎の各音階音のパワーが、ビート検出用とコード検出用の２種類のバッファ２３及び５０に保存される。

次に、図１２のビート検出部３及び小節検出部４の構成については、上記構成のビート検出部３及び小節検出部４と同じ構成なので、その詳細な説明は、ここでは、省略する。

上記構成と同様な構成と手順で、小節線の位置（各小節のフレーム番号）が確定したので、今度は各小節のベース音を検出する。

ベース音は、コード検出用音階音パワー検出部５が出力した各フレームの音階音のパワーから検出する。

図１３に上記構成の図４と同じ曲の同じ部分のコード検出用音階音パワー検出部５が出力した各フレームの音階音のパワーを示す。この図のように、コード検出用音階音パワー検出部５での周波数分解能は、約０．４Ｈｚであるので、Ｃ１からＡ６のすべての音階音のパワーが抽出されている。

本出願人による先の出願では、ベース音は、小節の前半と後半で異なる可能性があるので、小節を前半と後半の２つに分割し、その夫々でベース音を検出し、別のベース音が検出された場合は、コードも前半と後半に分けて検出するという構成である。しかし、この方法では、ベース音が同じで和音が異なる場合、例えば、小節の前半がＣのコードで、後半がＣｍのコードの場合に、ベース音は同じであるために小節を分割することができず、コードを小節全体で検出してしまうという問題があった。

また、上記出願では、ベース音を検出範囲全体で検出していた。つまり、検出範囲が小節の場合は、小節全体で強い音をベース音としていた。しかし、ジャズのようなベースランニング（ベースが４分音符などで動く）場合には、この方法では正しくベース音を検出することができない。

そのため、本実施例構成では、まず、ベース音検出部６で、ベース音の検出を行うが、検出した各音階音のパワーのうち、各小節を幾つかの検出範囲に設定し、各検出範囲内の１拍目に相当する部分の低域側の音階音のパワーから各検出範囲のベース音を検出する構成とした。これは、上述のように、ベースランニングの場合にも、最初の１拍目はコードのルート音を弾くことが多いことによる。

ベース音は、１拍目の検出範囲内に相当する部分におけるベース検出音域の音階音のパワーの平均的な強さから求める。

フレーム時間ｔにおけるｉ番目の音階音のパワーをＬ_ｉ（ｔ）とすると、フレームｆ_ｓからｆ_ｅのｉ番目の音階音の平均的なパワーＬ_ａｖｇｉ（ｆ_ｓ，ｆ_ｅ）は、下式数１４で計算できる。

この平均的なパワーを、ベース検出音域、例えばＣ２からＢ３の範囲で計算し、平均的なパワーが最も大きな音階音をベース音として、ベース音検出部６は、決定する。ベース検出音域に音が含まれない曲や無音部分で間違ってベース音を検出しないために、適当な閾値を設定し、検出したベース音のパワーが、この閾値以下の場合は、ベース音を検出しないようにしても良い。また、後のコード検出でベース音を重要視する場合には、検出したベース音が１拍目のベース検出期間中継続してあるパワー以上を保っているかどうかをチェックするようにして、より確実なものだけをベース音として検出するようにしても良い。さらに、ベース検出音域中、平均的なパワーが最も大きい音階音をベース音として決定するのではなく、この各音名の平均的なパワーを１２の音名毎に平均し、この音名毎のパワーが最も大きな音名をベース音名として決定し、その音名を持つベース検出音域の中の音階音で、平均的なパワーが最も大きい音階音をベース音として決定するようにしても良い。

ベース音が決定したら、この結果をバッファ６０に保存すると共に、ベース検出結果を画面表示して、間違っている場合にはユーザに修正させるようにしても良い。また、曲によってベース音域が変わることも考えられるので、ユーザがベース検出音域を変更できるようにしても良い。

図１４に、ベース音検出部６によるベース検出結果の表示例を示す。

次に第１の小節分割決定部７により、検出されたベース音が各検出範囲で異なるか否かによって、ベース音の変化のあるなしを判定し、このベース音の変化があるなしにより小節を複数個に分割することの可否を決定する。すなわち、検出されたベース音が各検出範囲で同じであれば、その小節を分割する必要はないと決定する。また検出されたベース音が各検出範囲で異なれば、その小節を分割する必要があると決定する。この場合、さらに夫々の半分がさらに分割する必要があるか否かを繰り返し判断するようにしても良い。

他方第２の小節分割決定部８の構成では、まず、コード検出音域を設定する。これは、主に和音が演奏されている音域で、例えば、Ｃ３〜Ｅ６（Ｃ４が中央のド）とする。

上記図１５(ａ)(ｂ)に示すように、後半の強い音の内、例えば上位３つ（この数をＭとする）が、前半の例えば上位３つ（この数をＮとする）に含まれているかどうかを調べ、その数以上含まれるか否かによって、和音の変化のあるなしを判定する。この判定により、第２の小節分割決定部８は、この和音の変化の度合いを判定し、それによって、小節を複数個に分割することの可否を決定する。

含まれている数が例えば３つ（この数をＣとする）以上の場合（即ちすべて含まれる）には、小節の前半と後半で和音の変化は無いと判断し、和音の変化度合いによる小節の分割は行わないと、第２の小節分割決定部８では決定する。

第２の小節分割決定部８におけるこのＭ、Ｎ、Ｃの値を適当に設定することにより、この和音の変化度合いによる小節分割の強さを変えることができる。先の例の全て３では、かなりシビアに和音の変化をチェックするが、例えば、Ｍ＝３、Ｎ＝６、Ｃ＝３（後半の上位３つの音が前半の上位６つに全て含まれるかどうか）にすれば、ある程度似た響きであれば、同じ和音であると判断する。

コード名決定部９は、第１乃至第２の小節分割決定部７又は８によって、小節を幾つかのコード検出範囲に分割する必要があると決定された場合は、ベース音と各コード検出範囲における各音階音のパワーから、また小節を分割する必要がないと決定された場合は、ベース音とその小節の各音階音のパワーから、各コード検出範囲又はその小節におけるコード名を決定する構成である。

コード名決定部９による実際のコード名の決定は以下のようにして行われる。本実施例では、コード検出期間とベース検出期間は同一としている。コード検出音域、例えばＣ３からＡ６の各音階音のコード検出期間における平均的なパワーを計算し、これが大きな値を持つ音階音から順に数個の音名を検出し、これとベース音の音名からコード名候補を抽出する。

この際、必ずしもパワーが大きな音がコード構成音であるとは限らないので、複数の音名の音を例えば５つ検出し、その中の２つ以上を全ての組み合わせで抜き出して、これとベース音の音名とからコード名候補の抽出を行う。

コードに関しても、平均的なパワーが閾値以下のものは検出しないようにしても良い。また、コード検出音域もユーザが変更できるようにしても良い。さらに、コード検出音域中、平均的なパワーが最も大きい音階音から順にコード構成音候補を抽出するのではなく、このコード検出音域内の各音名の平均的なパワーを１２の音名毎に平均し、この音名毎のパワーの最も大きな音名から順にコード構成音候補を抽出しても良い。

コード名候補の抽出は、コードのタイプ（ｍ、Ｍ７等）とコード構成音のルート音からの音程を保存したコード名データベースを、コード名決定部９により検索することによって抽出する。つまり、検出した５つの音名の中から全ての２つ以上の組み合わせを抜き出し、これらの音名間の音程が、このコード名データベースのコード構成音の音程の関係にあるかどうかをしらみつぶしに調べ、同じ音程関係にあれば、コード構成音のいずれかの音名からルート音を算出し、そのルート音の音名にコードタイプを付けて、コード名を決定する。この時、コードのルート音（根音）や５度の音は、コードを演奏する楽器では省略されることがあるので、これらを含まなくてもコード名候補として抽出するようにする。ベース音を検出した場合には、このコード名候補のコード名にベース音の音名を加える。すなわち、コードのルート音とベース音が同じ音名であればそのままで良いし、異なる音名の場合は分数コードとする。

上記方法では、抽出されるコード名候補が多過ぎるという場合には、ベース音による限定を行っても良い。つまり、ベース音が検出された場合には、コード名候補の中でそのルート音がベース音と同じ音名でないものは削除する。

コード名候補が複数抽出された場合には、これらの中でどれか１つを決定するために、コード名決定部９により、尤度（もっともらしさ）の計算をする。

尤度は、コード検出音域における全てのコード構成音のパワーの強さの平均とベース検出音域におけるコードのルート音のパワーの強さから計算する。すなわち、抽出されたあるコード名候補の全ての構成音のコード検出期間における平均パワーの平均値をＬ_ａｖｇｃ、コードのルート音のベース検出期間における平均パワーをＬ_ａｖｇｒとすると、下式数１５のように、この２つの平均により尤度を計算する。尤度を計算する別の方法としては、コード検出音域におけるコードトーン（コード構成音）とノンコードトーン（コード構成音以外の音）の（平均的な）パワーの比を用いても良い。

この際、コード検出音域やベース検出音域に同一音名の音が複数含まれる場合には、それらのうち、平均パワーの強い方を使うようにする。あるいは、コード検出音域とベース検出音域の夫々で、各音階音の平均パワーを１２の音名毎に平均し、その音名毎の平均値を使うようにしても良い。

さらに、この尤度の計算に音楽的な知識を導入しても良い。例えば、各音階音のパワーを全フレームで平均し、それを１２の音名毎に平均して各音名の強さを計算し、その強さの分布から曲の調を検出する。そして、調のダイアトニックコードには尤度が大きくなるようにある定数を掛ける、或いは、調のダイアトニックスケール上の音から外れた音を構成音に含むコードはその外れた音の数に応じて尤度が小さくなるようにする等が、考えられる。さらにコード進行のよくあるパターンをデータベースとして記憶しておき、それと比較することで、コード候補の中からよく使われる進行になるようなものは尤度が大きくなるようにある定数を掛けるようにしても良い。

最も尤度が大きいものをコード名として決定するが、コード名の候補を尤度とともに表示し、ユーザに選択させるようにしても良い。

いずれにしても、コード名決定部９により、コード名が決定したら、この結果をバッファ９０に保存すると共に、コード名が、画面出力されることになる。

図１６に、コード名決定部９によるコード検出結果の表示例を示す。このように検出されたコード名を画面表示するだけでなく、ＭＩＤＩ機器等を使って、検出されたコードとベース音を再生するようにすることが望ましい。一般的には、コード名を見ただけで正しいかどうかは判断できないからである。

以上説明した本実施例構成によれば、特別な音楽的知識を有する専門家でなくても、音楽ＣＤ等の複数の楽器音の混ざった入力された音楽音響信号に対し、個々の音符情報を検出することなしに全体の響きから、コード名を検出することができるようになる。

さらに、該構成によれば、構成音が同じ和音でも判別可能で、演奏のテンポが揺らいでしまった場合や、逆にわざとテンポを揺らして演奏しているような音源に関しても、小節毎のコード名が検出可能となる。

特に本実施例構成では、ベース音のみではなく、和音の変化度合いに応じても小節を分割するようにして、コードを検出しているため、ベース音が同じ場合でも、和音の変化度合いが大きい場合には、小節を分割してコードが検出されることになる。すなわち、小節内で例えば同じベース音を持つ同士のコード変化がある場合でも正しいコードが検出出来るようになる。この小節の分割については、ベース音の変化の度合い、和音の変化度合いに応じて、様々に分割することが可能である。

本実施例構成は、実施例１の構成とは異なり、各音階音のパワーのユークリッド距離を計算するという構成により、和音の変化の度合いを感知し、小節を分割してコードを検出するというものである。

ただし、この場合、単純にユークリッド距離を計算したのでは、急激な音の立ち上がり（曲の始まりなど）や急激な音の減衰（曲の終わり、ブレークなど）で、ユークリッド距離が大きな値となり、和音の変化は無いのに音の強弱だけで小節を分割してしまう恐れがある。そこで、ユークリッド距離を計算する前に、図１７に示すように、各音階音のパワーを正規化するようにする［図１７(ａ)は同図(ｃ)のように、また図１７(ｂ)は同図(ｄ)のように正規化する］。その際、大きい方に合わせるのではなく、小さい方に合わせるようにすれば［図１７(ａ)〜(ｄ)参照］、急激な音の変化ではユークリッド距離が小さくなり、誤って小節分割することは無くなる。

上記各音階音のパワーのユークリッド距離は、上述した数１６式で計算される。このユークリッド距離が、例えば全フレーム全音のパワーの平均を上回る場合は、上記第１の小節分割決定部７により小節を分割することを決定することになる。

尚、本発明のコード名検出装置及びコード名検出用プログラムは、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。

本発明のコード名検出装置及びコード名検出用プログラムは、ミュージックプロモーションビデオの作成の際などに音楽トラック中のビートの時刻に対して映像トラック中のイベントを同期させるビデオ編集処理や、ビートトラッキングによりビートの位置を見つけ音楽の音響信号の波形を切り貼りするオーディオ編集処理、人間の演奏に同期して照明の色・明るさ・方向・特殊効果などといった要素を制御したり、観客の手拍子や歓声などを自動制御するライブステージのイベント制御、音楽に同期したコンピュータグラフィックスなど、種々の分野で利用可能である。

前出願のテンポ検出装置の全体ブロック図である。音階音パワー検出部２の構成のブロック図である。ビート検出部３の処理の流れを示すフローチャートである。ある曲の一部分の波形と各音階音のパワー、各音階音のパワー増分値の合計の図を示すグラフである。自己相関計算の概念を示す説明図である。先頭のビート位置の決定方法を説明する説明図である。最初のビート位置決定後のそれ以降のビートの位置を決定していく方法を示す説明図である。ｓの値に応じて変えられる係数ｋの分布状態を示すグラフである。２番目以降のビート位置の決定方法を示す説明図である。ビート検出結果の確認画面の例を示す画面表示図である。小節検出結果の確認画面の例を示す画面表示図である。本実施例１に係る本発明のコード検出装置の全体ブロック図である。曲の同じ部分のコード検出用音階音パワー検出部５が出力した各フレームの音階音のパワーを示すグラフである。ベース音検出部６によるベース検出結果の表示例を示すグラフである。小節前半及び後半の各音階音のパワーの状態を示す各音階音パワー模式図である。コード検出結果の確認画面の例を示す画面表示図である。請求項２に係る第２の小節分割決定手段における各音階音のパワーのユークリッド距離の計算方法の概略を示す説明図である。

符号の説明

１入力部
２ビート検出用音階音パワー検出部
３ビート検出部
４小節検出部
５コード検出用音階音パワー検出部
６ベース音検出部
７第１の小節分割決定部
８第２の小節分割決定部
９コード名決定部
２０波形前処理部
２１ＦＦＴ演算部
２２パワー検出部
２３、３０、４０、５０、６０、９０バッファ

Claims

音響信号を入力する入力手段と、
入力された音響信号から、所定のフレーム間隔で、ＦＦＴ演算を行い、求められたパワースペクトルからフレーム毎の各音階音のパワーを求める第１の音階音パワー検出手段と、
この所定のフレーム毎の各音階音のパワーの増分値をすべての音階音について合計して、フレーム毎の全体の音の変化度合いを示すパワーの増分値の合計を求め、このフレーム毎の全体の音の変化度合いを示すパワーの増分値の合計から、平均的なビート間隔と各ビートの位置を検出するビート検出手段と、
このビート毎の各音階音のパワーの平均値を計算し、このビート毎の各音階音の平均パワーの増分値をすべての音階音について合計して、ビート毎の全体の音の変化度合いを示す値を求め、このビート毎の全体の音の変化度合いを示す値から、拍子と小節線位置を検出する小節検出手段と、
上記入力された音響信号から、先のビート検出の時とは異なる別の所定のフレーム間隔で、第１の音階音パワー検出手段におけるＦＦＴ演算よりもＦＦＴポイント数を大きくしてＦＦＴ演算を行い、求められたパワースペクトルからフレーム毎の各音階音のパワーを求める第２の音階音パワー検出手段と、
各小節に幾つかの検出範囲を設定し、検出した各音階音のパワーのうち、各検出範囲内の１拍目に相当する部分の低域側の音階音のパワーから各検出範囲のベース音を検出するベース音検出手段と、
検出されたベース音が各検出範囲で異なるか否かによって、ベース音の変化のあるなしを判定し、このベース音の変化があるなしにより小節を複数個に分割することの可否を決定する第１の小節分割決定手段と、
同じく小節に幾つかのコード検出区間を設定し、主に和音が演奏されている音域として設定されたコード検出音域において、フレーム毎の各音階音のパワーを上記検出区間で平均し、これらの平均された各音階音のパワーをさらに１２の音階音毎に積算し、積算した数で割り１２の音階音の平均パワーを求め、夫々をパワーの強い順に並べ替えておいて、前後の検出区間で強い音の順位に変化があったかどうかによって、和音の変化のあるなしを判定し、この和音の変化の度合いにより小節を複数個に分割することの可否を決定する第２の小節分割決定手段と、
第１乃至第２の小節分割決定手段により、小節を幾つかのコード検出範囲に分割する必要があると決定された場合は、ベース音と各コード検出範囲における各音階音のパワーから、また小節を分割する必要がないと決定された場合は、ベース音とその小節の各音階音のパワーから、各コード検出範囲又はその小節におけるコード名を決定するコード名決定手段と
を有することを特徴とするコード名検出装置。
音響信号を入力する入力手段と、
入力された音響信号から、所定のフレーム間隔で、ＦＦＴ演算を行い、求められたパワースペクトルからフレーム毎の各音階音のパワーを求める第１の音階音パワー検出手段と、
この所定のフレーム毎の各音階音のパワーの増分値をすべての音階音について合計して、フレーム毎の全体の音の変化度合いを示すパワーの増分値の合計を求め、このフレーム毎の全体の音の変化度合いを示すパワーの増分値の合計から、平均的なビート間隔と各ビートの位置を検出するビート検出手段と、
このビート毎の各音階音のパワーの平均値を計算し、このビート毎の各音階音の平均パワーの増分値をすべての音階音について合計して、ビート毎の全体の音の変化度合いを示す値を求め、このビート毎の全体の音の変化度合いを示す値から、拍子と小節線位置を検出する小節検出手段と、
上記入力された音響信号から、先のビート検出の時とは異なる別の所定のフレーム間隔で、第１の音階音パワー検出手段におけるＦＦＴ演算よりもＦＦＴポイント数を大きくしてＦＦＴ演算を行い、求められたパワースペクトルからフレーム毎の各音階音のパワーを求める第２の音階音パワー検出手段と、
各小節に幾つかの検出範囲を設定し、検出した各音階音のパワーのうち、各検出範囲内の１拍目に相当する部分の低域側の音階音のパワーから各検出範囲のベース音を検出するベース音検出手段と、
検出されたベース音が各検出範囲で異なるか否かによって、ベース音の変化のあるなしを判定し、このベース音の変化があるなしにより小節を複数個に分割することの可否を決定する第１の小節分割決定手段と、
同じく小節に幾つかのコード検出区間を設定し、主に和音が演奏されている音域として設定されたコード検出音域において、フレーム毎の各音階音のパワーを上記検出区間で平均し、これらの平均された各音階音のパワーをさらに１２の音階音毎に積算し、積算した数で割り１２の音階音の平均パワーを求め、前後の検出区間において、その１２の音階音の平均パワーを１２の音階音の平均パワーの最大値が小さい方を基準に正規化し、正規化後の各音階音のパワーのユークリッド距離を計算することによって、和音の変化のあるなしを判定し、この和音の変化の度合いにより小節を複数個に分割することの可否を決定する第２の小節分割決定手段と、
第１乃至第２の小節分割決定手段により、小節を幾つかのコード検出範囲に分割する必要があると決定された場合は、ベース音と各コード検出範囲における各音階音のパワーから、また小節を分割する必要がないと決定された場合は、ベース音とその小節の各音階音のパワーから、各コード検出範囲又はその小節におけるコード名を決定するコード名決定手段と
を有することを特徴とするコード名検出装置。
コンピュータに読み込まれて実行されることにより、該コンピュータを、
音響信号を入力する入力手段と、
入力された音響信号から、所定のフレーム間隔で、ＦＦＴ演算を行い、求められたパワースペクトルからフレーム毎の各音階音のパワーを求める第１の音階音パワー検出手段と、
この所定のフレーム毎の各音階音のパワーの増分値をすべての音階音について合計して、フレーム毎の全体の音の変化度合いを示すパワーの増分値の合計を求め、このフレーム毎の全体の音の変化度合いを示すパワーの増分値の合計から、平均的なビート間隔と各ビートの位置を検出するビート検出手段と、
このビート毎の各音階音のパワーの平均値を計算し、このビート毎の各音階音の平均パワーの増分値をすべての音階音について合計して、ビート毎の全体の音の変化度合いを示す値を求め、このビート毎の全体の音の変化度合いを示す値から、拍子と小節線位置を検出する小節検出手段と、
上記入力された音響信号から、先のビート検出の時とは異なる別の所定のフレーム間隔で、第１の音階音パワー検出手段におけるＦＦＴ演算よりもＦＦＴポイント数を大きくしてＦＦＴ演算を行い、求められたパワースペクトルからフレーム毎の各音階音のパワーを求める第２の音階音パワー検出手段と、
各小節に幾つかの検出範囲を設定し、検出した各音階音のパワーのうち、各検出範囲内の１拍目に相当する部分の低域側の音階音のパワーから各検出範囲のベース音を検出するベース音検出手段と、
検出されたベース音が各検出範囲で異なるか否かによって、ベース音の変化のあるなしを判定し、このベース音の変化があるなしにより小節を複数個に分割することの可否を決定する第１の小節分割決定手段と、
同じく小節に幾つかのコード検出区間を設定し、主に和音が演奏されている音域として設定されたコード検出音域において、フレーム毎の各音階音のパワーを上記検出区間で平均し、これらの平均された各音階音のパワーをさらに１２の音階音毎に積算し、積算した数で割り１２の音階音の平均パワーを求め、夫々をパワーの強い順に並べ替えておいて、前後の検出区間で強い音の順位に変化があったかどうかによって、和音の変化のあるなしを判定し、この和音の変化の度合いにより小節を複数個に分割することの可否を決定する第２の小節分割決定手段と、
第１乃至第２の小節分割決定手段により、小節を幾つかのコード検出範囲に分割する必要があると決定された場合は、ベース音と各コード検出範囲における各音階音のパワーから、また小節を分割する必要がないと決定された場合は、ベース音とその小節の各音階音のパワーから、各コード検出範囲又はその小節におけるコード名を決定するコード名決定手段と
として機能させることを特徴とするコード名検出用プログラム。
コンピュータに読み込まれて実行されることにより、該コンピュータを、
音響信号を入力する入力手段と、
入力された音響信号から、所定のフレーム間隔で、ＦＦＴ演算を行い、求められたパワースペクトルからフレーム毎の各音階音のパワーを求める第１の音階音パワー検出手段と、
この所定のフレーム毎の各音階音のパワーの増分値をすべての音階音について合計して、フレーム毎の全体の音の変化度合いを示すパワーの増分値の合計を求め、このフレーム毎の全体の音の変化度合いを示すパワーの増分値の合計から、平均的なビート間隔と各ビートの位置を検出するビート検出手段と、
このビート毎の各音階音のパワーの平均値を計算し、このビート毎の各音階音の平均パワーの増分値をすべての音階音について合計して、ビート毎の全体の音の変化度合いを示す値を求め、このビート毎の全体の音の変化度合いを示す値から、拍子と小節線位置を検出する小節検出手段と、
上記入力された音響信号から、先のビート検出の時とは異なる別の所定のフレーム間隔で、第１の音階音パワー検出手段におけるＦＦＴ演算よりもＦＦＴポイント数を大きくしてＦＦＴ演算を行い、求められたパワースペクトルからフレーム毎の各音階音のパワーを求める第２の音階音パワー検出手段と、
各小節に幾つかの検出範囲を設定し、検出した各音階音のパワーのうち、各検出範囲内の１拍目に相当する部分の低域側の音階音のパワーから各検出範囲のベース音を検出するベース音検出手段と、
検出されたベース音が各検出範囲で異なるか否かによって、ベース音の変化のあるなしを判定し、このベース音の変化があるなしにより小節を複数個に分割することの可否を決定する第１の小節分割決定手段と、
同じく小節に幾つかのコード検出区間を設定し、主に和音が演奏されている音域として設定されたコード検出音域において、フレーム毎の各音階音のパワーを上記検出区間で平均し、これらの平均された各音階音のパワーをさらに１２の音階音毎に積算し、積算した数で割り１２の音階音の平均パワーを求め、前後の検出区間において、その１２の音階音の平均パワーを１２の音階音の平均パワーの最大値が小さい方を基準に正規化し、正規化後の各音階音のパワーのユークリッド距離を計算することによって、和音の変化のあるなしを判定し、この和音の変化の度合いにより小節を複数個に分割することの可否を決定する第２の小節分割決定手段と、
第１乃至第２の小節分割決定手段により、小節を幾つかのコード検出範囲に分割する必要があると決定された場合は、ベース音と各コード検出範囲における各音階音のパワーから、また小節を分割する必要がないと決定された場合は、ベース音とその小節の各音階音のパワーから、各コード検出範囲又はその小節におけるコード名を決定するコード名決定手段と
として機能させることを特徴とするコード名検出用プログラム。