JP2012022221A - 拍時刻推定装置および拍時刻推定方法 - Google Patents
拍時刻推定装置および拍時刻推定方法 Download PDFInfo
- Publication number
- JP2012022221A JP2012022221A JP2010161346A JP2010161346A JP2012022221A JP 2012022221 A JP2012022221 A JP 2012022221A JP 2010161346 A JP2010161346 A JP 2010161346A JP 2010161346 A JP2010161346 A JP 2010161346A JP 2012022221 A JP2012022221 A JP 2012022221A
- Authority
- JP
- Japan
- Prior art keywords
- time
- beat
- accent
- beat time
- music
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
【課題】ビートが不明確な楽曲やテンポに揺らぎを有する楽曲であっても、その拍時刻を正確に推定できるようにするとともに、長い休符区間が存在する場合であっても、その休符区間で拍時刻を推定できるようにする。
【解決手段】楽曲の音響波形から拍時刻を推定する拍時刻推定装置1において、受け付けた音響波形を平滑化ダウンサンプリングし、その平滑化された波形情報からアクセントを有する時刻を抽出する。一方、平滑化された波形情報をフーリエ変換してパワースペクトルが最大となる周期を求める。そして、その抽出されたアクセントを有する注目時刻を基準として、前記算出された所定範囲の周期時刻の近傍に、前記他のアクセントが存在している場合、その注目時刻を拍時刻と推定する。そして、その推定された拍時刻を基準として、周期内に他のアクセント時刻が存在しない場合、その周期の時刻を拍時刻とする。
【選択図】図1
【解決手段】楽曲の音響波形から拍時刻を推定する拍時刻推定装置1において、受け付けた音響波形を平滑化ダウンサンプリングし、その平滑化された波形情報からアクセントを有する時刻を抽出する。一方、平滑化された波形情報をフーリエ変換してパワースペクトルが最大となる周期を求める。そして、その抽出されたアクセントを有する注目時刻を基準として、前記算出された所定範囲の周期時刻の近傍に、前記他のアクセントが存在している場合、その注目時刻を拍時刻と推定する。そして、その推定された拍時刻を基準として、周期内に他のアクセント時刻が存在しない場合、その周期の時刻を拍時刻とする。
【選択図】図1
Description
本発明は、楽曲の音響波形からその楽曲を構成する拍時刻を推定できるようにした拍時刻推定装置に関し、より詳しくは、その楽曲のすべての拍を推定するのではなく、推定された拍が正しい拍であることを示す適合率を向上させるようにした拍時刻推定装置に関するものである。
近年、自分の好みの楽曲を再生できるようにした携帯端末などが普及してきており、これに伴って、その楽曲に連動させて、画像をスライドショーとして切り替えるようにしたアプリケーションも普及してきている。このようなアプリケーションとしては、一般的に、ランダムに画像を読み出して切り替えるのではなく、その楽曲の拍時刻に合わせてタイミングよく画像を切り替えるようにしたものが多い。
ところで、このようなタイミングで画像を切り替える場合、拍の時刻を正確に推定する必要があるが、このような拍の時刻を推定する方法に関しては、下記の特許文献1や特許文献2などに記載されるものが提案されている。
例えば、特許文献1には、音響信号に対して全波整流を行った後、フィルタによって所定の周波数帯域の信号を抽出し、ピークの存在する時刻を拍時刻として求めるようにしたものが開示されている。また、特許文献2には、オンセットが期待される時刻をピークとして時間関数を周波数解析して、最も支配的な低周波成分のみを逆フーリエ変換することでそのオンセットが期待される時刻をピークとした時間関数を算出する方法が開示されている。そして、特徴的に、その特許文献2には、その算出されたピークと同期する位相を持つ正弦波を生成し、その正弦波のピークを拍時刻とするようにした技術が開示されている。
しかしながら、このような特許文献1や特許文献2に記載された方法を用いて拍時刻を推定し、その拍時刻で画像を切り替えようとすると、次のような問題を生ずる。
すなわち、上述の特許文献1のように、閾値を超えるパワーの時刻を拍時刻とする方法であれば、ビートの強さが極めて明確な楽曲に対しては、その拍時刻をある程度正確に推定することができる。しかし、一般的にはビートの強さは不明確なものが多く、例えば、クラッシックやジャズなどのように多くの楽器が混在しているような楽曲や、裏拍が存在する楽曲、あるいは、長い休符区間を有する楽曲では、明確に拍時刻を推定することができない。このため、正確な拍の時刻に画像をタイミングよく切り替えることができないといった問題を生ずる。
また、この特許文献1の方法では、パワーの強い時刻を拍時刻としているため、休符の長い区間においては拍時刻を抽出することができない。これに対して、特許文献2では、正弦波のピークの位置を拍の時刻と推定しているため、休符区間などが存在していたとしても拍時刻を推定することができるが、実際の楽曲は必ずテンポに揺らぎを生じているため、正弦波のように機械的な時刻に拍が存在するとは限らず、アッチェルランドやリタルダンド、フェルマータなどが存在しているような場合は、実際の演奏の拍からずれてしまうといった問題を生ずる。
そこで、本発明は上記課題に着目してなされたもので、ビートが不明確な楽曲やテンポに揺らぎを有する楽曲であっても、その拍時刻を正確に推定できるようにするとともに、長い休符区間が存在する場合であっても、その休符区間で拍時刻を推定できるようにした拍時刻推定装置を提供することを目的とするものである。
すなわち、本発明は上記課題を解決するために、楽曲の音響波形から拍時刻を推定する拍時刻推定装置において、楽曲の音響波形の入力を受け付ける受付手段と、当該受け付けた音響波形を平滑化する平滑化手段と、当該平滑化手段によって平滑化された波形情報からアクセントを有する時刻を抽出するアクセント時刻抽出手段と、前記平滑化手段によって平滑化された波形情報をフーリエ変換してパワースペクトルが最大となる周期を求める周期算出手段と、前記アクセント時刻抽出手段によって抽出されたアクセントを有する注目時刻を基準として、前記周期算出手段で算出された所定範囲の周期時刻の近傍に、前記アクセント時刻抽出手段で算出された他のアクセントが存在している場合、当該注目時刻を拍時刻とする拍時刻推定手段とを設けるようにしたものである。
このように構成すれば、単に平滑化された波形情報からアクセントの時刻を見るのではなく、テンポの周期も考慮し、これらの両方から拍時刻を推定するので、拍時刻の適合率を向上させることができるようになる。
また、このような発明において、平滑化ダウンサンプリングを行って得られた振幅包絡を求め、当該振幅包絡と移動平均フィルタによって求めた低周波成分との差分を求めて、所定の閾値よりも大きな信号の時刻をアクセント時刻とする。
このようにすれば、演算処理を少なくした状態でアクセントを有する時刻を抽出することができるようになる。
さらに、その求められた差分を移動平均フィルタにより低周波成分を求め、当該求められた低周波成分と前記差分との第二次差分を求め、所定の閾値よりも大きな信号の時刻をアクセント時刻とする。
このようにすれば、よりアクセントを強調した信号を抽出することができ、ノイズを少なくした状態でアクセント時刻を抽出しやすくなる。
加えて、拍時刻を推定する場合、注目時刻が拍時刻であるか否かを判断するための複数の条件を記憶しておき、当該複数の条件に基づくスコアを求めて、当該スコアが所定の基準値を超える場合に、当該所定の時刻を拍時刻とする。
このようにすれば、スコアによってより拍らしい時刻のみを抽出することができ、その閾値を変更することによって、より適合率を向上させることができるようになる。
また、拍時刻推定手段によって推定された拍時刻を基準として、前記周期算出手段によって算出された周期内にアクセントが存在しない時刻を拍時刻と推定する。
このようにすれば、正確に推定された拍時刻を基準として休符区間内の拍時刻を推定することができ、この時刻に画像を切り替えることなどができるようになる。
また、このように推定された拍時刻を用いる場合、画像や照明器具、花火を始めとするイベントを切り替えるタイミングに用いるようにする。
このようにすれば、楽曲の拍のタイミングでイベントが切り替わるため、楽曲と連動した状態でイベントを楽しませることができるようになる。
また、このように推定された拍時刻を用いる場合、連続する楽曲の拍の位置を整合させてそれぞれの楽曲を再生させるようにする。
このようにすれば、例えば、楽曲Aと楽曲Bとを連続して再生させるような場合、それぞれの拍の位置が一致しているため、自然に楽曲が移り変わるように楽曲を切り替えることができるようになる。
本発明によれば、楽曲の音響波形から拍時刻を推定する拍時刻推定装置において、楽曲の音響波形の入力を受け付ける受付手段と、当該受け付けた音響波形を平滑化する平滑化手段と、当該平滑化手段によって平滑化された波形情報からアクセントを有する時刻を抽出するアクセント時刻抽出手段と、前記平滑化手段によって平滑化された波形情報をフーリエ変換してパワースペクトルが最大となる周期を求める周期算出手段と、前記アクセント時刻抽出手段によって抽出されたアクセントを有する注目時刻を基準として、前記周期算出手段で算出された所定範囲の周期時刻の近傍に、前記アクセント時刻抽出手段で算出された他のアクセントが存在している場合、当該注目時刻を拍時刻とする拍時刻推定手段とを設けるようにしたので、アクセントの時刻とテンポの周期の両方を考慮して、拍時刻の適合率を向上させることができるようになる。
以下、本発明の一実施の形態について図面を参照して説明する。この実施の形態における拍時刻推定装置1は、携帯型の音楽再生装置やパーソナルコンピューターなどによって構成されるものであって、楽曲の拍に合わせて画像を切り替えたり、あるいは、照明を切り替えたりできるようにしたものである。そして、特徴的には、そのような楽曲における拍時刻を推定する際に、仮に、推定された拍が数個抜けていたとしても、その推定された拍が正しい拍の時刻であることを示す適合率を向上させ、これによって、画像の切り替えタイミングをよくできるようにしたものである。
このような拍時刻推定装置1は、まず大きく分けて、アクセントの時刻を抽出する処理と、アクセントの出現周期を算出する処理とを備えている。そして、それらの抽出されたアクセント時刻と出現周期の両方から拍時刻を推定するとともに、長い休符区間が存在する場合であっても拍時刻を推定できるようにしている。
まず、アクセントの時刻を抽出する処理について、図1の機能ブロック図を用いて説明する。なお、図1における各機能ブロックは、コンピューターを駆動するCPUや記憶装置、入出力装置などを協働させて構成される。
まず、受付手段2は、ユーザーから楽曲の入力を受け付けて記憶部に記憶させる。ユーザーから楽曲を受け付ける場合は、インターネットなどを介して楽曲をダウンロードして受け付けるようにしてもよく、あるいは、CDなどの記憶媒体から楽曲を受け付けるようにしてもよい。このように楽曲を受け付ける場合は、アナログ信号として楽曲を受け付け、その後、これを離散化してデジタル信号に変換して処理を行うようにする。
平滑化手段3は、このように受け付けた小刻みな音響波形を平滑化し、その振幅包絡を算出する。この振幅包絡の時間分解能については、許容される時刻誤差が存在しているため、高い時間分解能は不要であると考えられる。そこで、振幅包絡を算出する場合は、まず、拍の時刻の推定に必要な時間分解能を確保できる範囲内でダウンサンプリングを行う。ここでは、サンプル数を落とすと同時に、高周波成分を除去した振幅包絡を算出する新しい手法(「平滑化ダウンサンプリング」と称する)を用いてサンプル数を落とすようにする。平滑化ダウンサンプリングによって得られる振幅包絡Xt(t=0,1,2,…,T)の算出について、時刻i(i=0,1,2,…I)となる入力された音響波形をxi(i=0,1,2,…I)、ダウンサンプリング数を2D+1として、次の数1で示す。ここで、ダウンサンプリングを行なう―D<j<Dの範囲は、2D+1とした窓幅を意味する。
次に、アクセント時刻抽出手段4は、この平滑化手段3によって平滑化された波形情報からアクセントを有する時刻を抽出する。一般に、の振幅包絡には、アクセントとは考えられない微小なピークが多数存在し、アクセントの時刻を正しく検出できない可能性がある。このアクセントとは考えられない微小なピークを除去する方法としては、閾値以下の微小なパワーを、アクセントとはみなさない方法が考えられる。この閾値は、入力された音響信号毎に設定することが望まれるため、楽曲全体のパワーの平均値などを閾値として用いることで解決することができる。
一方、このような一つの閾値を用いて微小なパワーを除去する場合、例えば、非常に激しい演奏と非常に緩やかな演奏が混合している楽曲などでは、非常に緩やかな演奏が行われている区間がすべて閾値以下となり、緩やかな演奏が行われている区間のアクセントを検出することが困難になる。このため、微小なパワーの除去を行う場合、各区間ごとに最適な値に変化する閾値を用いるようにすることが望ましい。
このように閾値を最適な値に変化させる場合、ビートが期待される時刻をピークとする時間関数とその低周波成分との差分を求め、半波整流を行うことで元の時間関数からビートの時刻に必要なピークのみを残すことができる。この手法における低周波成分は、移動平均フィルタによって得られる包絡曲線であり、この包絡曲線の各点は、平均値を算出する際に用いるサンプルの合計値に強く依存している。例えば、大きな振幅を描くアクセント2点間に存在する微小なピークを中心として前後のサンプルから平均値を算出した場合、微小なピークよりも大きな値となる。逆に、大きな振幅を描くアクセントを中心として前後のサンプルから平均値を算出した場合、大きな振幅を描くアクセントよりも小さな値となる。すなわち、この移動平均フィルタによって得られる包絡曲線は、微小なピークと、大きな振幅を描くアクセントの中間を通るような曲線となり、元の信号からこの包絡曲線を減算することで、大きな振幅を描くアクセントのみを正の値として残すことができる。そこで、この実施の形態では、好適に、平滑化ダウンサンプリングによって得られた振幅包絡Xtと、所定点数S1(例えば、51点)の移動平均フィルタによって求めた低周波成分X1tとの差分を求め、所定数点S2(例えば、5点)の移動平均フィルタによってピークがアクセントの時刻と期待される時間関数X2tを求める。この処理のみでは、アクセントとは考えられない微小なピークや、高周波成分を除去することができないため、時間関数X2tに対して、所定点数S1の移動平均フィルタにより求めた低周波成分X3tとの差分を求め、所定点数S2の移動平均フィルタにより、アクセントの時刻がピークとなる時間関数X4tを求め、そこから得られた時間関数X4tのピークをアクセントとする時刻を抽出する。
これを図2を用いて説明すると、グラフ(a)は、音響波形を平滑化ダウンサンプリングした一次振幅包絡を示している。また、グラフ(b)は、この一次振幅包絡を51サンプル点での移動平均フィルタで平滑化した二次振幅包絡である。さらに、その一次振幅包絡と二次振幅包絡との差分に対して、5サンプル点での移動平均フィルタにより三次振幅包絡を求めたものがグラフ(c)であり、そのグラフ(c)を51サンプル点の移動平均フィルタで四次振幅包絡を求めたものがグラフ(d)である。そして、その三次振幅包絡と四次振幅包絡との差分に対して、5サンプル点による移動平均フィルタによって包絡曲線を求めた五次振幅包絡がグラフ(e)である。このように一次振幅包絡から順次移動平均フィルタによってn次振幅包絡を求め、この差分に対してさらに移動平均フィルタで包絡曲線を求めるようにすることにで、徐々にピークの際だったグラフを得ることができる。そして、この実施の形態では五次振幅包絡のうち所定の閾値を超える信号時間をアクセント時刻(tp)として抽出する。
次に、アクセントの出現周期を算出する場合について説明する。アクセントの出現周期を算出する場合は、このアクセント時刻抽出手段4で抽出されたアクセント時刻を用いる。
まず、周期算出手段5は、平滑化手段3によって平滑化された波形情報をフーリエ変換してパワースペクトルが最大となる周期を求める。音響波形の振幅包絡をアクセントが周期的に出現する周期関数と考えた場合、周波数解析を行うことで、アクセントの出現周期を求めることができる。ここで、テンポが非常に速い楽曲の場合、アクセントとアクセントの時間間隔が極めて短いため、アクセントの出現周期は非常に短くなる。こういった楽曲は、拍の総数も他の楽曲と比べて非常に多く、演奏の速さなどが原因でアクセントがはっきりと示されなかった時刻などは、拍の時刻として推定することが難しくなる。また、一般に市販されている楽曲について考察すると、ドラムスなどが含まれる楽曲では、他のアクセントより極めて大きく示されるアクセントが一定の間隔で含まれてしまう。この「他のアクセントおよび大きなアクセント」をすべて拍と解釈するか、あるいは、「大きなアクセントのみ」を拍と解釈するかによって、正解となるテンポ値から倍または半分にずれた時間間隔で拍時刻を認識してしまう。
そこで、本実施の形態では、アクセントの時刻と比較して、より明確に示されているアクセントを拍の時刻として推定するために、アクセントの出現周期が非常に短い場合、
得られたアクセントの出現周期を倍の時間長として取り扱うこととする。このアクセントの出現周期の時間長をある程度確保することで、拍の可能性が高い大きく示されるアクセントのみを拍時刻として推定することができる。
得られたアクセントの出現周期を倍の時間長として取り扱うこととする。このアクセントの出現周期の時間長をある程度確保することで、拍の可能性が高い大きく示されるアクセントのみを拍時刻として推定することができる。
このような処理を行うべく、ここでは、アクセントの出現周期を算出する場合は、まず、サンプル数を落とした振幅包絡をFFTを用いて周波数解析を行う。そして、各時間で得られたパワースペクトルにおける周波数fごとの時間軸方向の総和Q[f]を求める。ここで、FFTに用いたサンプル点数は4096点(すなわち、102.17sec)とし、得られる周波数分解能は0.0098Hz(bpmで考えた場合0.59bpm)となる。その後、所定の範囲内(0.83〜5.00Hz,bpmで考えた場合50〜300bpm)で最大となる周波数fを求め、0.83−1.66Hz(50〜100bpm)の範囲より高い周波数であった場合は、アクセントの出現周期を倍の時間長と解釈し、算出した周波数帯域における最大周波数fの半分の周波数f/2をアクセントの出現周期Aとして採用する。
次に、このように抽出された出現周期やアクセント時刻を用いて、適合率の高い拍時刻を推定する。図1における拍時刻推定手段6では、アクセント時刻抽出手段4によって抽出されたアクセントを有するあるアクセント時刻(注目時刻)を基準とし、周期算出手段5で算出された所定範囲の周期時刻の近傍に、前記アクセント時刻抽出手段4で算出された他のアクセントが存在しているか否かを探索し、他のアクセントが存在している場合は、その注目時刻を拍時刻とする。
この拍時刻を推定する場合、図3に示す3つの条件により、アクセントの時刻tpにおける拍らしさのスコアBtpを求め、そのスコアの大きいアクセントの時刻tpを拍時刻とする。この各条件を示す。
<Around条件>
tp±αA(α=1,2,…,L ここではL=5とする)(Aは出現周期)の各αにおける2点、すなわち、前後合計10点を中心とした±(A/w)(ここではw=4)の範囲においてピーク時刻tpがn回(ここではn=5)以上存在する場合、Btpにスコアb1(ここではb1=1)を加え、n回よりも少ない場合はスコアを0とする。これを図4を用いて説明すると、図4では、時刻tpを中心として前後5つの周期(時間誤差A/w)内にアクセントとみなされる信号が6つ含まれているため、その時刻tpのスコアを「1」としている。一方、図5に示すように、時刻tpを中心とした前途5つの周期(時間誤差A/w)内にアクセントとみなされる信号が2つしか含まれていない場合は、その時刻tpのスコアを「0」のままとする。
tp±αA(α=1,2,…,L ここではL=5とする)(Aは出現周期)の各αにおける2点、すなわち、前後合計10点を中心とした±(A/w)(ここではw=4)の範囲においてピーク時刻tpがn回(ここではn=5)以上存在する場合、Btpにスコアb1(ここではb1=1)を加え、n回よりも少ない場合はスコアを0とする。これを図4を用いて説明すると、図4では、時刻tpを中心として前後5つの周期(時間誤差A/w)内にアクセントとみなされる信号が6つ含まれているため、その時刻tpのスコアを「1」としている。一方、図5に示すように、時刻tpを中心とした前途5つの周期(時間誤差A/w)内にアクセントとみなされる信号が2つしか含まれていない場合は、その時刻tpのスコアを「0」のままとする。
<Pre条件>
tp−βA(β=1,2,…,M ここではM=10とする)(Aは出現周期)の各βにおける1点、すなわち、合計10点を中心とした±(A/w)(ここではw=4)の範囲においてピーク時刻tpがn回(ここではn=5)以上存在する場合、Btpにスコアb2(ここではb2=1)を加える。
tp−βA(β=1,2,…,M ここではM=10とする)(Aは出現周期)の各βにおける1点、すなわち、合計10点を中心とした±(A/w)(ここではw=4)の範囲においてピーク時刻tpがn回(ここではn=5)以上存在する場合、Btpにスコアb2(ここではb2=1)を加える。
<Post条件>
tp+γA(γ=1,2,…,N ここではN=10とする)(Aは出現周期)の各βにおける1点、すなわち、合計10点を中心とした±(A/w)(ここではw=4)の範囲においてピーク時刻tpがn回(ここではn=5)以上存在する場合、Btpにスコアb3(ここではb3=1)を加える。
tp+γA(γ=1,2,…,N ここではN=10とする)(Aは出現周期)の各βにおける1点、すなわち、合計10点を中心とした±(A/w)(ここではw=4)の範囲においてピーク時刻tpがn回(ここではn=5)以上存在する場合、Btpにスコアb3(ここではb3=1)を加える。
そして、そのスコアの大きな拍時刻(例えば、スコアが1以上の拍時刻)を抽出することにより、出現周期上にアクセントが存在している拍時刻を、より高い適合率で拍とすることができる。
また、この拍時刻推定手段6では、長い休符区間における拍時刻も推定する。ここでは、アクセントの出現周期上でアクセントの時刻tpが存在しない時刻を欠落拍とし、その時刻を拍時刻とする。この欠落拍の推定の処理を図6に示す。この図6内のoはo=3とする。欠落拍は、アクセントの出現周期上でアクセントの時刻tpが存在しない時刻であり、欠落拍を拍らしい時刻とするために、図6上図においてtp++Aが存在しない場合のみ、欠落拍が存在しているとみなし、時刻tp+Aに拍らしさのスコアb4を付与する(図6の下図)。その後、tp+Aから再度次の欠落拍を探索していく。また、最もアクセントの出現周期tp+Aに近いアクセントの時刻tp+sを次の拍とし、次の拍までに存在する拍らしいアクセントの時刻の拍らしさを0とするために、図6において、tp<tp+s<tp+A±A/oの範囲内で、アクセントの時刻tp+sにおける拍らしさがBtp+s>0である場合、最も時刻tp+Aに近いアクセントの時刻tp+sを、アクセントの出現周期上に存在する次の拍とし、アクセントの時刻tp+1からtp+s-1までは拍らしい時刻とは解釈せず、Btp+1=Btp+2=…=Btp+s-1=0とする。すなわち、tpの次のアクセント時刻をtp+Aとする。その後、得られたBtp>0となる時刻tpを列挙し、拍時刻情報として出力する。
イベント制御手段7は、このように推定された拍時刻をもとに、各種のイベントを発生させる。このようなイベントとしては、画像の切り替えや照明の切り替え、花火の打ち上げなどが考えられる。このうち、画像を切り替える場合は、出力された拍時刻情報をもとに、記憶部から次の画像を読み出してディスプレイに表示し、また、照明を切り替える場合は、出力された拍時刻情報をもとに、照明の照度、明度、彩度などを切り替える。また、花火を打ち上げる場合は、その拍時刻情報をもとに、花火を打ち上げるようにする。
また、別の実施の態様では、複数の楽曲を連続して再生させる場合、イベント制御手段7は、次の楽曲を読み出し、拍時刻を合わせて再生させる。このとき、例えば、図7に示すように、ある楽曲Aから次の楽曲Bへフェードさせながら切り替えていく場合は、楽曲Aの最終部分における拍時刻と一致する楽曲Bを読み出し、それぞれの拍時刻を一致させながら次の楽曲Bを再生させるようにする。
次に、このように構成された拍時刻推定装置1を用いた処理の流れについて、図8および図9のフローチャートを用いて説明する。
まず、楽曲の拍時刻を推定する場合、その楽曲の入力を受け付け(ステップS1)、その楽曲を記憶部に格納させる。そして、その楽曲の音響波形を読み出し、拍の時刻の推定に必要な時間分解能を確保できる範囲内で平滑化ダウンサンプリングを行って一次振幅包絡であるXtを得る(ステップS2)。
次に、この一次振幅包絡について、移動平均フィルタによって二次振幅包絡を算出し(ステップS3)、この算出された二次振幅包絡と一次振幅包絡との差分に対して、移動平均フィルタによって三次振幅包絡を求める(ステップS4)。以下、同様にして、その三次振幅包絡を移動平均フィルタを用いて四次振幅包絡を求め(ステップS5)、その四次振幅包絡と三次振幅包絡との差分に対して、移動平均フィルタによって五次振幅包絡を求める(ステップS5)。そして、このように五次振幅包絡を求めることによってピークを際立たせた状態で、所定の閾値を超える時刻をアクセント時刻tpとして抽出する(ステップS6)。
次に、このアクセント時刻を用いて、そのアクセントの出現周期の算出を行う。このアクセントの出現周期を算出する場合、サンプル数を落とした振幅包絡をFFTによって周波数解析し、各時間で得られたパワースペクトルにおける周波数fごとの時間軸方向の総和を求め(ステップS7)、その値が最大となる周波数fを求める。そして、その最大周波数fが所定値よりも高い周波数であった場合は(ステップS8)、アクセントの出現周期を倍の時間長とし、その最大周波数の半分の周波数f/2を出現周期Aと判断する(ステップS9)。一方、最大周波数fが前記所定値の範囲内の周波数であった場合は、その周波数を出現周期Aと判断する(ステップS10)。
このように出現周期Aとアクセント時刻tpを算出した後、時間軸方向に沿って最初の時間におけるアクセント時刻tp(注目時刻)を抽出し、Around条件、Pre条件Post条件を満たすかどうかを判断して拍らしさの推定を行う(ステップS11)。具体的には、図9に示すように、アクセント時刻を基準としてAround条件、Pre条件、Post条件を判断し(ステップS121)、いずれかの条件を満たす場合にスコアを「1」付与する(ステップS122)。そして、すべてのアクセント時刻について、同様に、Around条件、Pre条件、Post条件の判断を行い、各アクセント時刻に対してスコアを加算していき、スコア「1」以上のものを適合率の高いアクセント時刻として抽出する(ステップS123、S124)。なお、このようなスコアを加える場合、最初の数点のアクセント時刻や最後の数点のアクセント時刻ではPre条件やPost条件を満たさないため、スコアの値が小さくなるが、ここではスコアが「1」以上のアクセント時刻を抽出するため、いずれかの条件を採用することができなくても、高い適合率のアクセント時刻を抽出することができる。
次に、このように適合率の高いアクセント時刻を抽出した後、長い休符区間における欠落拍を推定するために、アクセントの出現周期状でアクセント時刻が存在しない時刻を欠落拍とし、その時刻を拍時刻として出力する。具体的には、推定されたアクセント時刻tpから出現周期Aの所定時間幅A/w範囲内において、他のアクセント時刻tp+sが存在しない場合(ステップS125)、tp+Aを拍らしい時刻として、その時刻にスコアを加算し、その間にあるアクセント時刻のスコアを消去する(ステップS126)。そして、その後tp+Aから再度次の欠落拍を探索する。一方、推定されたアクセント時刻tpから出現周期Aの所定時間幅A/w範囲内において、他のアクセント時刻tp+sが存在している場合(ステップS125)、その時刻をアクセント時刻とする(S127)。
このように拍時刻を推定した後、イベント制御手段7は、その拍時刻をもとに各種イベントを発生させ、例えば、その拍時刻に合わせて画像や照明を切り替えたり、あるいは、花火を打ち上げたりするような制御を行う。また、連続する楽曲を再生させる場合は、楽曲の最終部分における数個の拍時刻と一致する楽曲を読み出し、それぞれの拍時刻に合わせて次の楽曲を再生させる(ステップS12)。
このように上記実施の形態によれば、楽曲の音響波形から拍時刻を推定する拍時刻推定装置1において、楽曲の音響波形の入力を受け付ける受付手段2と、当該受け付けた音響波形を平滑化する平滑化手段3と、当該平滑化手段3によって平滑化された波形情報からアクセントを有する時刻を抽出するアクセント時刻抽出手段4と、前記平滑化手段3によって平滑化された波形情報をフーリエ変換してパワースペクトルが最大となる周期を求める周期算出手段5と、前記アクセント時刻抽出手段4によって抽出されたアクセントを有する注目時刻を基準として、前記周期算出手段5で算出された所定範囲の周期時刻の近傍に、前記アクセント時刻抽出手段4で算出された他のアクセントが存在している場合、当該注目時刻を拍時刻とする拍時刻推定手段6とを設けるようにしたので、単に平滑化された波形情報からアクセントの時刻を見るのではなく、テンポの周期をも考慮して、これらの両方から拍時刻を推定して適合率を向上させることができるようになる。
また、平滑化ダウンサンプリングを行って得られた振幅包絡を求め、当該振幅包絡と移動平均フィルタによって求めた低周波成分との差分を求めて、所定の閾値よりも大きな信号の時刻をアクセント時刻とするようにしているため、演算処理を少なくした状態でアクセントを有する時刻を抽出することができるようになる。
さらに、その求められた差分を移動平均フィルタにより低周波成分を求め、当該求められた低周波成分と前記差分との第二次差分を求め、順次同じ処理を繰り返して、所定の閾値よりも大きな信号の時刻をアクセント時刻とするようにしているため、よりアクセントを強調した信号を抽出することができ、ノイズを少なくした状態でアクセント時刻を抽出しやすくなる。
加えて、拍時刻を推定する場合、注目時刻が拍時刻であるか否かを判断するための複数の条件を記憶しておき、当該複数の条件に基づくスコアを求めて、当該スコアが所定の基準値を超える場合に、当該所定の時刻を拍時刻とするようにしたので、スコアによってより拍らしい時刻のみを抽出することができ、その閾値を変更することによって、より適合率を向上させることができるようになる。
また、拍時刻推定手段6によって推定された拍時刻を基準として、前記周期算出手段5によって算出された周期内にアクセントが存在しない時刻を拍時刻と推定するようにしたため、正確に推定された拍時刻を基準として休符区間内の拍時刻を推定することができ、この時刻に画像を切り替えることなどができるようになる。
また、推定された拍を用いる場合、画像や照明器具、花火を始めとするイベントを切り替えるようにしたので、楽曲と連動した状態でイベントを楽しませることができるようになる。
また、連続する楽曲の拍時刻の位置を一致させてそれぞれの楽曲を再生させるようにしたので、自然に楽曲が移り変わるように次の楽曲を切り替えていくことができるようになる。
なお、本発明は上記実施の形態に限定されることなく、種々の態様で実施することができる。
例えば、上記実施の形態では、アクセントの時刻を検出する際、一次振幅包絡を移動平均フィルタを用いて二次振幅包絡を求めるとともに、これらの差分に対して移動平均フィルタにより三次振幅包絡を求め、以下、同様にして、五次振幅包絡までを求めるようにしたが、二次振幅包絡から四次振幅包絡のいずれかを用いて、所定の閾値を超える時刻の信号をアクセントの時刻として抽出するようにしてもよい。
また、上記実施の形態では、スコアによって拍らしさを推定するようにしたが、このスコアについては「2」以上の値を用いて拍らしさを推定するようにしてもよい。また、この場合、楽曲の最初の部分や最後の部分についてはPre条件やPost条件を満たさない場合があるため、最初や最後の部分についてはスコアを相対的に小さくして拍を推定するようにしてもよい。
さらに、上記実施の形態では、長い休符区間が存在する場合の欠落拍も推定するようにしているが、この欠落拍については推定を行わないようにすることもできる。
以下に、本実施の形態における拍時刻推定装置を用いて評価実験について説明する。評価には、被験者5名を用いて、一般に市販されている楽曲12曲を聴取させ、自身が感じる拍と、同時に発音されるsin音の時刻誤差を許容できるか否かを評価させ、適合率を算出した。
ここで用いた楽曲と同時に発音されるsin音については、入力された楽曲に対して、拍時刻で発音されるsin音列を波形の合成により作成した。この合成した波形の時間長は、被験者への負担を考慮し、45[sec]とした。また、合成を開始する位置を楽曲の開始直後から行なった場合、イントロなどで楽器が演奏されず、被験者が拍を認識することが困難な場合が想定される。このため、演奏が開始されている事が確実と考えられる楽曲の開始1分後から波形の合成を行なうこととした。また、用いた楽曲12曲は、主観で選定した演奏形態の異なる3種類(以降A,B,C)から各4曲ずつを用いることとした。各種類の詳細を以下に示す。
・A:アクセントがはっきりと示される一般的な楽曲
・B:ピアノなどが用いられるアクセントが比較的示されにくい楽曲
・C:ピアノのみの演奏やクラシックなどアクセントが非常に示されにくい楽曲
・A:アクセントがはっきりと示される一般的な楽曲
・B:ピアノなどが用いられるアクセントが比較的示されにくい楽曲
・C:ピアノのみの演奏やクラシックなどアクセントが非常に示されにくい楽曲
この評価方法による評価結果を図10に示す。図10より、ほとんどの楽曲から高い適合率が得られていることが確認できる。全体と比較して高い適合率を得ることができなかった楽曲が一部確認できるが、これはアクセントが示されない時間間隔が長い場合や、極端なテンポの変化が起こる場合など、拍の定義を満たさない演奏が行われていたためであると考えられる。
上記手法では、拍時刻の推定時にSTFTを用いて周波数解析を行うため、時間長が長い楽曲などを入力した場合、処理時間が大きくなると考えられる。これに対して上記実施形態における周波数解析は、入力された楽曲に対して一度のみであるため、既存の手法と比較して短時間で拍時刻を推定することが可能となる。また、拍が存在する時間のコード変化に着目した既存研究も存在するが、こういった手法ではコードの変化が少ない演奏の場合、拍の推定が困難となる可能性がある。上記実施の形態では、移動平均フィルタを用いて算出した低周波成分との差分を求めることで、拍として示される音を求めているため、例えば、同じ音高の音が連続して発音され、さらに緩やかな演奏が行われる場合でも、拍時刻を推定することが可能となる。
1・・・拍時刻推定装置
2・・・受付手段
3・・・平滑化手段
4・・・アクセント時刻抽出手段
5・・・周期算出手段
6・・・拍時刻推定手段
7・・・イベント制御手段
2・・・受付手段
3・・・平滑化手段
4・・・アクセント時刻抽出手段
5・・・周期算出手段
6・・・拍時刻推定手段
7・・・イベント制御手段
Claims (11)
- 楽曲の音響波形から拍時刻を推定する拍時刻推定装置において、
楽曲の音響波形の入力を受け付ける受付手段と、
当該受け付けた音響波形を平滑化する平滑化手段と、
当該平滑化手段によって平滑化された波形情報からアクセントを有する時刻を抽出するアクセント時刻抽出手段と、
前記平滑化手段によって平滑化された波形情報をフーリエ変換してパワースペクトルが最大となる周期を求める周期算出手段と、
前記アクセント時刻抽出手段によって抽出されたアクセントを有する注目時刻を基準として、前記周期算出手段で算出された所定範囲の周期時刻の近傍に、前記アクセント時刻抽出手段で算出された他のアクセントが存在している場合、当該注目時刻を拍時刻とする拍時刻推定手段と、
を設けるようにしたことを特徴とする拍時刻推定装置。 - 前記平滑化手段が、平滑化ダウンサンプリングを行って得られた振幅包絡を求める手段であり、
前記アクセント時刻抽出手段が、当該振幅包絡と移動平均フィルタによって求めた低周波成分との差分を求め、所定の閾値よりも大きな信号の時刻をアクセント時刻とするものである請求項1に記載の拍時刻推定装置。 - 請求項2に記載の拍時刻推定装置において、
前記求められた差分を移動平均フィルタにより低周波成分を求め、当該求められた低周波成分と前記差分との第二次差分を求め、所定の閾値よりも大きな信号の時刻をアクセント時刻とするものである拍時刻推定装置。 - 前記拍時刻推定手段が、前記注目時刻が拍時刻であるか否かを判断するための複数の条件を記憶しておき、当該複数の条件に基づくスコアを求めて、当該スコアが所定の基準値を超える場合に、当該所定の時刻を拍時刻とするものである請求項1に記載の拍時刻推定装置。
- 請求項1に記載の拍時刻推定装置において、さらに、
拍時刻推定手段によって推定された拍時刻を基準として、前記周期算出手段によって算出された周期内にアクセントが存在しない時刻を拍時刻と推定するようにした拍時刻推定装置。 - 請求項1に記載された拍時刻推定装置において、さらに、
前記拍時刻推定手段で推定された拍時刻を用いて、画像、照明器具、花火を始めとするイベントを切り替えるイベント制御手段を備えた拍時刻推定装置。 - 請求項1に記載された拍時刻推定装置において、さらに、
前記拍時刻推定手段で推定された拍時刻を用いて、連続する楽曲の拍時刻を一致させて再生させるイベント制御手段を備えた拍時刻推定装置。 - 楽曲の音響波形から拍時刻を推定する拍時刻推定方法において、
楽曲の音響波形の入力を受け付けるステップと、
当該受け付けた音響波形を平滑化するステップと、
当該平滑化された波形情報からアクセントを有する時刻を抽出するステップと、
前記平滑化された波形情報をフーリエ変換してパワースペクトルが最大となる周期を求めるステップと、
前記抽出されたアクセントを有する注目時刻を基準として、前記算出された所定範囲の周期時刻の近傍に、前記算出された他のアクセントが存在している場合、当該注目時刻を拍時刻とするステップと、
を設けるようにしたことを特徴とする拍時刻推定方法。 - 請求項8に記載の拍時刻推定方法において、さらに、
前記推定された拍時刻を基準として、前記算出された周期内にアクセントが存在しない時刻を拍時刻と推定するようにした拍時刻推定方法。 - 請求項8に記載された拍時刻推定方法によって推定された拍時刻で、さらに、画像、照明器具、花火を始めとするイベントを切り替えるようにした拍時刻推定方法。
- 請求項8に記載された拍時刻推定方法によって推定された拍時刻を用いて、さらに、連続する楽曲の拍時刻を一致させて再生させる拍時刻推定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010161346A JP2012022221A (ja) | 2010-07-16 | 2010-07-16 | 拍時刻推定装置および拍時刻推定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010161346A JP2012022221A (ja) | 2010-07-16 | 2010-07-16 | 拍時刻推定装置および拍時刻推定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012022221A true JP2012022221A (ja) | 2012-02-02 |
Family
ID=45776539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010161346A Pending JP2012022221A (ja) | 2010-07-16 | 2010-07-16 | 拍時刻推定装置および拍時刻推定方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012022221A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014010309A (ja) * | 2012-06-29 | 2014-01-20 | Pioneer Electronic Corp | 小節位置判定方法、小節位置判定装置およびプログラム |
CN106448630A (zh) * | 2016-09-09 | 2017-02-22 | 腾讯科技(深圳)有限公司 | 歌曲的数字乐谱文件的生成方法和装置 |
DE112017001277B4 (de) * | 2016-03-11 | 2021-06-10 | Yamaha Corporation | Tonsignalverarbeitungsverfahren und Tonsignalverarbeitungsvorrichtung |
-
2010
- 2010-07-16 JP JP2010161346A patent/JP2012022221A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014010309A (ja) * | 2012-06-29 | 2014-01-20 | Pioneer Electronic Corp | 小節位置判定方法、小節位置判定装置およびプログラム |
DE112017001277B4 (de) * | 2016-03-11 | 2021-06-10 | Yamaha Corporation | Tonsignalverarbeitungsverfahren und Tonsignalverarbeitungsvorrichtung |
CN106448630A (zh) * | 2016-09-09 | 2017-02-22 | 腾讯科技(深圳)有限公司 | 歌曲的数字乐谱文件的生成方法和装置 |
CN106448630B (zh) * | 2016-09-09 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 歌曲的数字乐谱文件的生成方法和装置 |
US10923089B2 (en) | 2016-09-09 | 2021-02-16 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for generating digital score file of song, and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6017687B2 (ja) | オーディオ信号分析 | |
US8889976B2 (en) | Musical score position estimating device, musical score position estimating method, and musical score position estimating robot | |
JP6178456B2 (ja) | デジタル音声信号からハプティック・イベントを自動生成するシステム及び方法 | |
US7999168B2 (en) | Robot | |
JP4940588B2 (ja) | ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法 | |
JP4949687B2 (ja) | ビート抽出装置及びビート抽出方法 | |
JP6179140B2 (ja) | 音響信号分析装置及び音響信号分析プログラム | |
JP4645241B2 (ja) | 音声処理装置およびプログラム | |
KR20080066007A (ko) | 재생용 오디오 프로세싱 방법 및 장치 | |
US9646592B2 (en) | Audio signal analysis | |
JP6047985B2 (ja) | 伴奏進行生成装置及びプログラム | |
US8612031B2 (en) | Audio player and audio fast-forward playback method capable of high-speed fast-forward playback and allowing recognition of music pieces | |
JP2012022221A (ja) | 拍時刻推定装置および拍時刻推定方法 | |
JP2005292207A (ja) | 音楽分析の方法 | |
TWI419150B (zh) | Singing and grading system | |
JP2001067068A (ja) | 音楽パートの識別方法 | |
JP2012118417A (ja) | 特徴波形抽出システムおよび特徴波形抽出方法 | |
JP6252421B2 (ja) | 採譜装置、及び採譜システム | |
JP2009294671A (ja) | オーディオ再生装置およびオーディオ早送り再生方法 | |
Wager et al. | Towards expressive instrument synthesis through smooth frame-by-frame reconstruction: From string to woodwind | |
Rudrich et al. | Beat-aligning guitar looper | |
JP3659121B2 (ja) | 楽音信号の分析・合成方法、楽音信号合成方法、楽音信号合成装置および記録媒体 | |
JP4361919B2 (ja) | カラオケ装置 | |
JP5495858B2 (ja) | 音楽音響信号のピッチ推定装置及び方法 | |
JP2010072595A (ja) | 拍位置推定装置、拍位置推定方法および拍位置推定プログラム |