JP4940588B2 - ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法 - Google Patents

ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法 Download PDF

Info

Publication number
JP4940588B2
JP4940588B2 JP2005216786A JP2005216786A JP4940588B2 JP 4940588 B2 JP4940588 B2 JP 4940588B2 JP 2005216786 A JP2005216786 A JP 2005216786A JP 2005216786 A JP2005216786 A JP 2005216786A JP 4940588 B2 JP4940588 B2 JP 4940588B2
Authority
JP
Japan
Prior art keywords
power spectrum
beat
signal
music
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005216786A
Other languages
English (en)
Other versions
JP2007033851A (ja
Inventor
功誠 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2005216786A priority Critical patent/JP4940588B2/ja
Priority to US11/486,359 priority patent/US7534951B2/en
Priority to CN2006101086490A priority patent/CN1941071B/zh
Publication of JP2007033851A publication Critical patent/JP2007033851A/ja
Application granted granted Critical
Publication of JP4940588B2 publication Critical patent/JP4940588B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/325Synchronizing two or more audio tracks or files according to musical features or musical timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

この発明は、入力音楽信号の再生中に、再生されている当該音楽のリズムのビートを抽出する装置および方法に関する。また、抽出したビートに同期する信号を用いて音楽に同期する画像表示を行なうようにする装置および方法に関する。また、抽出したビートに同期する信号を用いて音楽のテンポ値を検出する装置および方法に関する。また、抽出したビートに同期する信号を用いて、再生中の楽曲の途中で、テンポの変更やリズムの揺れがあったとしても、そのテンポの変更やリズムの揺れに追従することができるリズムトラッキング装置および方法に関する。さらには、再生中の楽曲に同期して、例えば歌詞を表示したりすることができるようにする音楽同期表示装置および方法に関する。
演奏家による演奏や歌手の歌声により提供される楽曲は、小節や拍といった時間尺度が基本となって構成されている。音楽演奏家達は、小節や拍を基本的な時間尺度としている。楽器や歌を演奏するタイミングを採るに当たり、何小節の何拍目からこの音を鳴らすという考え方に則り演奏しているのであり、決して、演奏開始から何分何秒後にこの音を鳴らすというタイムスタンプという考え方で演奏しているのではない。小節や拍で規定されているが故に、テンポやリズムのゆれがあっても柔軟に対応でき、逆に同じ楽譜の演奏でも、演奏家ごとの個性が表現できる。
これらの演奏家達の演奏は、最終的に音楽コンテンツという形でユーザの元に届けられる。具体的には、各演奏家達の演奏が、例えばステレオの2チャンネルという形でミックスダウンされ、いわゆる一つの完パケとなる。この完パケは、フォーマット的にPCM等の単なる音声波形の形でCD(Compact Disc)等のようにパッケージ化され、ユーザの手に届く。これは、いわゆるサンプリング音源と呼ばれるものである。
このCDなどのパッケージの段階では、演奏家達が意識していた小節や拍といったタイミング情報は欠落している。
しかしながら、人間は、このPCMの音声波形をDA変換したアナログ音を聞くだけで、自然に小節や拍といったタイミング情報を再認識する能力を持っている。音楽のリズムという感覚を自然と取り戻すことができるのである。残念ながら機械にはそれができない。機械に分かるのは、音楽そのものとは直接関連の無いタイムスタンプという時刻情報のみである。
上述した演奏家による演奏や歌手の歌声により提供される楽曲の比較対象として、従来のカラオケのようなシステムがある。このシステムは、音楽のリズムに合わせて歌詞を表示したりすることができる。しかし、このようなカラオケシステムは、音楽のリズムを認識しているのではなく、MIDI(Music Instrument Digital Interface)と呼ばれる専用データを、単に再生しているに過ぎない。
MIDIフォーマットには、シンクロ制御に必要な演奏情報や歌詞情報、そして、それらの発音タイミング(イベント時刻)を記述したタイムコード情報(タイムスタンプ)が記述されている。このMIDIデータは、コンテンツ制作者が、予め作り込んでおいたものであり、カラオケ再生装置は、MIDIデータの指示通りにしかるべきタイミングで発音を行なっているに過ぎない。言わば、音楽を、装置がその場で生成(演奏)しているのである。これは、MIDIデータと、その専用再生装置という限定的な環境でのみ楽しみを享受できるものである。
なお、MIDIの他にもSMIL(Synchronized MultimediaIntegration Language)など、多種多様なフォーマットが存在するが基本的な考え方は同じである。
ところで、世の中に流通している音楽コンテンツは、上述のようなMIDIやSMILよりも、CDに代表されるPCMデータや、その圧縮音声であるMP3(MPEG(Moving Picture Experts Group)Audio layer 3)などの、前述したサンプリング音源と呼ばれる生の音声波形を主体としたフォーマットが主流である。
音楽再生装置は、これらのサンプリングされたPCM等の音声波形をD/A(Digital−to−Analog)変換して出力することにより、ユーザに、音楽コンテンツを提供するものである。また、FMラジオ放送等に見られるように、音声波形そのもののアナログ信号を放送するという例もある。更には、コンサートやライブ演奏等、その場で人が演奏して、ユーザに提供するという例もある。
もし、機械が聞こえてくる音楽の生の音声波形から、音楽の小節と拍(ビート)といったタイミングを、自動的に認識できたとすれば、MIDIやSMILのイベント時刻情報等のような予め用意された情報がなくとも、カラオケのように音楽と他のメディアがリズム同期するようなシンクロ機能を実現できる。
既存のCD音楽コンテンツ、現在流れているFMラジオの曲、今演奏されているライブの曲に対して、例えば画像や歌詞など、他のメディアを聞こえてくる音楽に同期させて再生することが可能となり、新たなエンターテイメントの可能性が広がる。
従来から、テンポを抽出したり、音楽に同期させて何等かの処理をするという試みは提案されている。
例えば特許文献1(特開2002−116754公報)には、時系列信号としての音楽波形信号の自己相関を算出し、それに基づき音楽のビート構造を解析し、その解析結果に基づいて音楽のテンポを抽出する方法が開示されている。これは、音楽を再生しながらのリアルタイムでテンポを抽出する処理ではなく、予め、オフライン処理としてテンポを抽出するものである。
また、特許文献2(特許第3066528号公報)には、楽曲データから複数の周波数帯別の音圧データを作成し、その複数の周波数帯の中から、リズムを最も顕著に刻む周波数帯を特定し、特定した周波数タイミングの音圧データにおける変化周期を元にリズム成分を推定することが記載されている。この特許文献2もオフライン処理を行なうものであり、音楽からリズム成分を抽出するために複数回の周波数分析をする。
上記の先行技術文献は、次の通りである。
特開2002−116754公報 特許第3066528号公報
ところで、リズムやビート、テンポを算出する従来技術を大きく分類すると、前述の特許文献1のように音楽信号を時間領域で分析するものと、前述の特許文献2のように周波数領域で分析するものの2つに分けられる。
前者の時間領域で分析するものはリズムと時間波形が必ずしも一致する訳ではないので本質的に抽出精度に難点がある。後者の周波数分析を用いるものに関しては、予めオフライン処理にて全区間のデータを分析する必要がありリアルタイムに音楽にトラッキングするのには向いていない。また何度かの周波数分析を行なう必要のあるものもあり、計算量が膨大になるという欠点もある。
この発明は以上の点にかんがみ、楽曲の音楽信号を再生しながら、精度良く音楽のリズムのビート(beat;拍。強いアクセントのあるリズム)を抽出することができる装置および方法を提供することを目的とする。
この発明では、次に説明するような音楽信号の特徴に基づいて、音楽のリズムのビートを抽出するようにする。
図1(A)は、音楽信号の時間波形の例を示すものである。この図1(A)に示すように、音楽信号の時間波形を見ると、ところどころで瞬間的に大きなピーク値となっている部分があることがわかる。この大きなピーク値を呈する部分は、例えばドラムのビートに相当する信号部分である。そこで、この発明では、このようなドラムや楽器のアタック音が強くなる部分をリズムのビートの候補とみなすようにしている。
ところで、この図1(A)の音楽を実際に聴いて見ると、図1(A)の時間波形では、隠れていてわからないが、実際には、もっと多くのビート成分がほぼ等時間間隔で含まれていることに気付く。したがって、図1(A)の時間波形の大きなピーク値部分だけからでは、実際の音楽のリズムのビートを抽出することができない。
図1(B)は、図1(A)の音楽信号のスペクトログラムを示すものである。この図1(B)に示すように、音楽信号のスペクトログラムの波形からは、当該スペクトログラムにおけるパワースペクトルが瞬間的に大きく変化する部分として、前述の隠れているビート成分が見えることが分かる。そして、実際に音を聴くと、このスペクトログラムにおけるパワースペクトルが瞬間的に大きく変化する部分が、ビート成分に相当することが確認できた。
以上のことを踏まえて、上記の課題を解決するために、請求項1の発明は、
入力音楽信号のスペクトログラムにおけるパワースペクトルが大きく変化する部分を検出し、前記変化する部分に時間同期する検出出力信号を出力するビート抽出手段を備える
ことを特徴とするビート抽出装置を提供する。
この請求項1の発明の構成によれば、ビート抽出手段は、入力音楽信号のスペクトログラムにおけるパワースペクトルが大きく変化する部分を検出し、前記変化する部分に時間同期する検出出力信号を出力するので、この検出出力信号として、図1(B)に示されるパワースペクトルが大きく変化する部分に相当するビート成分が抽出されて出力されるものである。
また、請求項2の発明は、請求項1に記載のビート抽出装置において、
前記ビート抽出手段は、
前記入力音楽信号のパワースペクトルを算出するパワースペクトル算出手段と、
前記パワースペクトル算出手段で算出された前記パワースペクトルの変化量を算出し、前記算出した変化量を前記検出出力信号として出力する変化量算出手段と、
を備えることを特徴とする。
この請求項2の構成によれば、パワースペクトル算出手段で再生中の音楽信号のパワースペクトルが求められ、変化量算出手段で、求められたパワースペクトルの変化が求められる。この処理が時々刻々と変換する音楽信号に対してなされることにより、時間的に音楽のリズムのビート位置に同期した位置でピークが立つ波形出力が検出出力信号として得られる。この検出出力信号は、音楽信号から抽出されたビート抽出信号とみなすことができる。
この発明によれば、いわゆるサンプリング音源に対しても、比較的簡単に、リアルタイムで音楽信号からビート抽出信号を得ることができる。したがって、この抽出された信号を用いて、他のメディアとの音楽的なシンクロ動作が可能となる。
以下、この発明の実施形態を、図を参照しながら説明する。図2は、この発明によるビート抽出装置およびリズムトラッキング装置の実施形態を含む音楽コンテンツの再生装置10のブロック図である。この実施形態の音楽コンテンツの再生装置10は、例えばパーソナルコンピュータで構成される場合である。
図2に示すように、この例の音楽コンテンツの再生装置10は、CPU(Central Processing Unit)101に対してシステムバス100を介してプログラムROM(Read Only Memory)102およびワークエリア用RAM(Random Access Memory)103が接続されている。CPU101は、ROM102に格納されている各種プログラムに従った処理をRAM103をワークエリアとして用いて実行することにより、後述する各種の機能処理を実行する。
そして、この例の音楽コンテンツの再生装置10においては、システムバス100には、また、メディアドライブ104と、音楽データデコード部105と、ディスプレイインターフェース(インターフェースは図ではI/Fと記載する。以下同じ)106と、外部入力インターフェース107と、同期動き画像生成部108と、通信ネットワークインターフェース109と、大容量記憶部として種々のデータが記憶されるハードディスクドライブ110と、I/Oポート111〜116が接続されている。さらに、システムバス100には、操作入力部インターフェース131を通じて、キーボードやマウスなどの操作入力部132が接続されている。
I/Oポート111〜115は、この発明のリズムトラッキング装置の実施形態としてのリズムトラッキング部20と、システムバス100との間でのデータのやり取りのために用いられる。
リズムトラッキング部20は、この実施形態では、この発明によるビート抽出装置の実施形態であるビート抽出部21と、トラッキング部22とからなる。I/Oポート111は、システムバス100を通じて転送されてくるデジタルオーディオ信号(時間波形信号に相当)を、入力音楽信号(入力音楽信号は、音楽の信号のみではなく、例えば人声信号やその他のオーディオ帯域の信号を含むものとする)として、リズムトラッキング部20のビート抽出部21に入力する。
ビート抽出部21は、後で詳細に説明するようにして、入力音楽信号からビート成分を抽出し、抽出したビート成分を表わす検出出力信号BTをトラッキング部22に供給すると共に、I/Oポート112を通じてシステムバス100に供給するようにする。
トラッキング部22は、後述するように、これに入力されるビート成分検出出力信号BTから、入力された音楽コンテンツのテンポ値として、BPM(Beat Per Minutes;1分間に4分音符が何個あるかを意味し、音楽のテンポを表わす)値を、先ず、算出し、そのBPM値に応じた周波数で、かつ、ビート成分検出出力信号BTに同期した位相の周波数信号を、PLL(Phase Locked Loop)回路を用いて生成する。
そして、トラッキング部22は、PLL回路からの周波数信号をクロック信号としてカウンタに供給して、このカウンタから、音楽の1小節単位毎の、ビート(拍)位置を表わすカウント値出力CNTを出力し、当該カウント値出力CNTを、I/Oポート114を通じてシステムバス100に供給するようにする。
また、この実施形態では、トラッキング部22は、中間値としてのBPM値を、I/Oポート113を通じてシステムバス100に供給するようにする。
なお、I/Oポート115は、リズムトラッキング部20に対する制御データをシステムバス100側から供給するためのものである。
I/Oポート111は、また、オーディオ再生部120にも接続されている。すなわち、オーディオ再生部120は、D/A変換器121と、出力アンプ122と、スピーカ123とからなり、I/Oポート111は、システムバス100を通じて転送されてくるデジタルオーディオ信号を、D/A変換器121に供給する。D/A変換器121は、その入力デジタルオーディオ信号をアナログオーディオ信号に変換し、出力アンプ122を通じてスピーカ123に供給する。スピーカ123は、入力されたアナログオーディオ信号を音響再生する。
メディアドライブ104は、例えばCDや音楽コンテンツが格納されているDVD(Digital Versatile Disc)などのディスク11に記憶されている音楽コンテンツの音楽データをシステムバス100に取り込む。
音楽データデコード部105は、メディアドライブ104から取り込まれた音楽データをデコードし、デジタルオーディオ信号を復元する。復元されたデジタルオーディオ信号は、I/Oポート111に転送される。I/Oポート111は、システムバス100を通じて転送されてくるデジタルオーディオ信号(時間波形信号に相当)を、前述したように、リズムトラッキング部20およびオーディオ再生部120に供給する。
ディスプレイインターフェース106には、この例では、例えばLCD(Liquid Crystal Display)などからなるディスプレイ117が接続されている。このディスプレイ117の画面には、後述するように、音楽コンテンツの音楽データから抽出されたビート成分や、テンポ値が表示されると共に、音楽に同期してアニメーション画像を表示したり、カラオケのように歌詞を表示したりする。
外部入力インターフェース107には、この例では、A/D(Analog−to−Digital)変換器118が接続されている。そして、外部マイクロホン12で収音された音声信号や音楽信号が、このA/D変換器118でデジタルオーディオ信号に変換され、外部入力インターフェース107に供給される。外部入力インターフェース107は、この外部入力のデジタルオーディオ信号を、システムバス100に取り込む。
この例では、マイクロホン12は、音楽コンテンツの再生装置10に設けられているマイクロホン用のジャックからなるマイクロホン端子に、マイクロホン12に接続されているプラグが挿入されることにより、音楽コンテンツの再生装置10に接続される。この例では、マイクロホン12で収音したライブ音楽からリアルタイムでリズムのビートを抽出し、当該抽出したビートに同期した表示をしたり、抽出したビートに同期させて人形やロボットを踊らせたりすることを想定している。
この例では、外部入力インターフェース107を通じて取り込まれたオーディオ信号は、I/Oポート111に転送され、リズムトラッキング部20に供給される。この外部入力インターフェース107を通じて取り込まれたオーディオ信号の場合には、この実施形態では、オーディオ再生部120には供給されない。
同期動き画像生成部108は、この実施形態では、リズムトラッキング部20のビート抽出部21からのビート成分検出出力信号BTに基づき、再生中の音楽に同期して画像内容が変化するアニメーションなどの画像を生成する。
なお、同期動き画像生成部108は、リズムトラッキング部20からのカウント値出力CNTに基づき、再生中の音楽に同期して画像内容が変化するアニメーションなどの画像を生成するようにしてもよい。このカウント値出力CNTを用いる場合には、1小節内のビート位置が分かるので、楽曲の楽譜通りの正確な内容に応じた動きの画像を生成することができる。
しかし、一方で、ビート抽出部21からのビート成分検出出力信号BTには、演奏家などのいわゆる味付けにより、周期的でない本来のビート位置でない位置において発生しているビート成分が含まれる場合ある。そこで、この実施形態のように、ビート抽出部21からのビート成分検出出力信号BTに基づき動き画像を生成する場合には、実際の音楽に応じた動きの画像が得られるという効果がある。
通信ネットワークインターフェース109は、この例では、インターネット14に接続されている。この例の音楽コンテンツの再生装置10では、音楽コンテンツの属性情報を記憶するサーバに、インターネット14を通じてアクセスし、音楽コンテンツの識別情報を検索キーワードとしてその属性情報の取得要求を送り、この取得要求に応じてサーバから送られてくる属性情報を、例えばハードディスクドライブ110のハードディスクに格納しておくようにする。
この実施形態では、音楽コンテンツの属性情報としては、楽曲構成情報を含む。この楽曲構成情報は、楽曲素材単位の区切り情報を含むと共に、楽曲の楽曲素材単位のテンポ/キー/コード/音量/拍子の情報、楽譜の情報、コード進行の情報、歌詞の情報などの、いわゆる曲調が決まる基準となる情報からなるものである。
ここで、楽曲素材単位とは、楽曲の拍、小節など、コードを付することができる単位である。楽曲素材単位の区切り情報は、例えば、楽曲の先頭位置からの相対位置情報やタイムスタンプからなる。
この実施形態では、ビート抽出部21で抽出されるビート成分検出出力信号BTに基づいてトラッキング部22から得られるカウント値出力CNTは、楽曲素材単位の区切りに同期してカウント値が変化するものとなっている。したがって、トラッキング部22から得られるカウント値出力CNTに同期させて、再生中の楽曲の属性情報である楽曲構成情報中の、例えばコード進行や歌詞を辿ることができるようになる。
そして、I/Oポート116は、この実施形態では、リズムトラッキング部20から得られるビート成分検出出力信号BT、BPM値、カウント値出力CNTを、外部出力端子119を通じて出力するためのものである。この場合、I/Oポート116から、ビート成分検出出力信号BT、BPM値、カウント値出力CNTの全てを出力してもよいし、必要なもののみを出力するようにしてもよい。
[リズムトラッキング部20の構成例]
この実施形態におけるビート抽出およびリズムトラッキング処理の原理を先ず説明する。この実施形態では、特に、ドラムや楽器のアタック音が強くなる部分をリズムのビート(拍)の候補と見なすことにしている。
図3(A)に示すように、音楽信号の時間波形を見ると、ところどころでピーク値が瞬間的に大きくなっている部分がある。これはドラムのビートに相当する信号部分である。ところが、この音楽を実際に聴いてみると、時間波形では隠れていてわからないが、もっと多くのビート成分がほぼ等時間間隔で含まれていることに気付く。
次に、図3(B)に示すように、図3(A)に示した音楽信号のスペクトログラムの波形を見ると、その隠れているビート成分を見ることができる。図3(B)において、スペクトル成分が瞬間的に大きく変化している部分が、その隠れているビート成分であり、その部分が、くし状に何度も繰り返されているのがわかる。
実際に音を聴くと、このくし状に何度も繰り返されている成分が、ビート成分に相当することを確認することができる。そこで、この実施形態では、このスペクトログラムにおけるパワースペクトルが瞬間的に大きく変化する部分をリズムのビート候補と見なすことにする。
ここで、リズムとはビートの繰り返しである。したがって、図3(B)のビート候補の周期を計測することで、その音楽のリズムの周期やBPM値を知ることができる。この実施形態では、周期の計測には自己相関計算等の一般的な手法を利用する。
次に、この発明のリズムトラッキング装置の実施形態であるリズムトラッキング部20の詳細構成およびその処理動作について説明する。図4は、実施形態のリズムトラッキング部20の詳細構成例のブロック図である。
[ビート抽出部21の構成例および処理動作例]
先ず、この発明によるビート抽出装置の実施形態に相当するビート抽出部21について説明する。図4に示すように、この実施形態のビート抽出部21は、パワースペクトル算出部211と、変化量算出部212とからなる。
パワースペクトル算出部211には、この実施形態では、再生中の音楽コンテンツの図3(A)に示される時間波形のオーディオデータが時々刻々と入力される。すなわち、ユーザの操作入力部132を通じた再生指示に応じて、前述したように、メディアドライブ104で、ディスク11から指示された音楽コンテンツのデータが読み出され、音楽データデコード部105でオーディオデータがデコードされる。そして、この音楽データデコード部105からのオーディオデータが、I/Oポート111を通じてオーディオ再生部120に供給されて、再生されると共に、当該再生中のオーディオデータが、リズムトラッキング部20のビート抽出部21に供給される。
また、マイクロホン12で収音された音声信号が、A/D変換器に供給されて、デジタル信号とされたオーディオデータが、I/Oポート111を通じて、リズムトラッキング部20のビート抽出部21に供給される場合もある。前述したように、このときには、
パワースペクトル算出部211では、例えばFFT(Fast Fourier Transform)などの演算を行なって、図3(B)に示されるようなスペクトログラムを算出して求める。
この例の場合、パワースペクトル算出部211では、FFT演算の分解能は、このビート抽出部21への入力オーディオデータのサンプリング周波数が48kHzの場合は、512サンプルや1024サンプル程度にして、実時間で5〜30msec程度に設定している。また、この実施形態では、例えばハニングやハミングなどの窓関数(ウインドウ関数)をかけながら、かつ、窓(ウインドウ)をオーバーラップさせながらFFT計算を行なうようにすることで、パワースペクトルを算出し、スペクトログラムを求めるようにする。
パワースペクトル算出部211の出力は、変化率算出部212に供給され、パワースペクトルの変化率が算出される。すなわち、変化率算出部212では、パワースペクトル算出部211からのパワースペクトルに対して微分演算を施して変化率を算出する。変化率算出部212では、時々刻々と変化するパワースペクトルに対して、前記の微分演算を繰り返し施すことにより、図3(C)に示すようなビート抽出波形出力を、ビート成分検出出力信号BTとして出力する。
このビート成分検出出力信号BTにより、入力オーディオデータの元の時間波形とは異なり、時間的に等間隔にスパイク状のピークが立つ波形が得られたことになる。そして、図3(C)に示す、このビート成分検出出力信号BTにおいて、正方向に立ち上がるピークをビート成分と見なすことができる。
以上のビート抽出部21の動作を、図5の説明図および図6のフローチャートを参照して、さらに詳細に説明する。図5(A)、(B)、(C)に示すように、この実施形態では、ウインドウ幅をWとしたとき、このウインドウ幅Wの区間分のパワースペクトルをさんしゅつすると、その次には、その整数分の1、この例では、1/8に分割した区間分だけウインドウをずらして、2W/8分をオーバーラップさせながら、順次に入力オーディオデータについてパワースペクトルを算出するようにする。
すなわち、図5に示すように、この実施形態では、先ず、再生中の音楽コンテンツのデータである入力オーディオデータの例えば1024サンプル分の時間幅を、ウインドウ幅Wとして、当該ウインドウ幅分の入力オーディオデータを取り込む(図6のステップS1)。
次に、入力オーディオデータに対して、ウインドウ幅Wで、ハニングやハミングなどのウインドウ関数をかける(ステップS2)。次に、ウインドウ幅Wを整数分の1、この例では、1/8に分割した各分割区間DV1〜DV8分のそれぞれについて、入力オーディオデータについてFFT演算を施してパワースペクトルを算出する(ステップS3)。
次に、分割区間DV1〜DV8分のすべてについてパワースペクトルを算出するまでステップS3の処理を繰り返し、分割区間DV1〜DV8分のすべてについてパワースペクトルを算出したと判別したときには(ステップS4)、分割区間DV1〜DV8で算出されたパワースペクトルの総和を計算し、それをウインドウW区間分の入力オーディオデータについてのパワースペクトルとして算出する(ステップS5)。ここまでが、パワースペクトル算出部211の処理である。
次に、ステップS5で算出されたウインドウ幅分の入力オーディオデータについてのパワースペクトルの総和と、前回の、今回とはW/8分だけ時間的に前のウインドウ幅Wで算出されたパワースペクトルの総和との差分を算出する(ステップS6)。そして、算出した差分を、ビート成分検出出力信号BTとして出力する(ステップS7)。このステップS6とステップS7との処理は、変化率算出部212の処理である。
次に、CPU101は、再生中の音楽コンテンツの再生が最後まで終了したか否か判別し(ステップS8)、最後まで終了したと判別したときには、ビート抽出部21への入力オーディオデータの供給を停止し、処理を終了する。
また、再生中の音楽コンテンツの再生が最後まで終了したと判別したときには、CPU101は、ビート抽出部21への入力オーディオデータの供給を継続するように制御すると共に、パワースペクトル算出部211では、ウインドウを、図5(B)に示すように、1分割区間(W/8)分だけずらして(ステップS9)、ステップS1に戻り、ウインドウ幅分のオーディオデータの取り込みを行ない、前述したステップS1〜ステップS7までの処理を繰り返す。
そして、音楽コンテンツの再生が終了でなければ、ステップS9で、図5(C)に示すように、さらにウインドウを1分割区間(W/8)分だけずらして、ステップS1〜ステップS7までを繰り返す。
以上のようにして、ビート抽出処理が行なわれ、ビート成分検出出力信号BTとして、図3(C)に示すようなビート抽出波形の出力が、入力オーディオデータにリアルタイムに同期して得られる。
こうして得られたビート成分検出出力信号BTは、I/Oポート112を介してシステムバス100に供給されると共に、トラッキング部22に供給される。
[トラッキング部22の構成例および処理動作例]
トラッキング部22は、基本構成は、PLL回路の構成であるが、この実施形態では、先ず、ビート成分検出出力信号BTは、BPM値算出部221に供給される。このBPM値算出部221は、自己相関演算処理部で構成される。すなわち、BPM値算出部221では、ビート成分検出出力信号BTに対して自己相関計算を行ない、現在得られているビート抽出信号の周期及びBPM値を時々刻々求める。
得られたBPM値は、BPM値算出部221からI/Oポート113を通じてシステムバス100に供給されると共に、逓倍部222に供給される。逓倍部222は、BPM値算出部221からのBPM値をN倍して、次段の可変周波数発振器223の周波数設定入力端へ入力する。
可変周波数発振器223は、この周波数設定入力端に供給された周波数値をフリーランの中心周波数とした発振周波数で発振する。したがって、可変周波数発振器223は、BPM値算出部221で算出されたBPM値のN倍の周波数で発振する。
可変周波数発振器223の発振周波数を意味するBPM値は、1分間の4分音符の数を表しているので、N倍された発振周波数は4分音符のN倍の周波数で発振していることになる。
仮に、今、N=4と仮定すると、4分音符の4倍の周波数であるので、可変周波数発振器223は、16分音符の周波数で発振していることになる。これは、一般に16ビートと呼ばれるリズムを表していることになる。
以上の周波数制御により、可変周波数発振器223からは、BPM値算出部221で算出されたBPM値のN倍の周波数で発振する発振出力が得られる。すなわち、可変周波数発振器223の発振出力周波数は、入力オーディオデータのBPM値に対応した周波数となるように制御される。しかし、このままでは、可変周波数発振器223の発振出力は、入力オーディオデータのリズムのビートには位相同期していない。この位相同期制御について次に説明する。
すなわち、ビート抽出部21からの、入力オーディオデータのリズムのビートに同期したビート成分検出出力信号BTが位相比較部224に供給される。一方、可変周波数発振器223の発振出力信号は、1/N分周部225に供給されて、周波数が1/Nに分周され、元のBPM値の周波数に戻される。そして、この1/N分周部225からの1/Nに分周された出力信号が、位相比較部224に供給される。
この位相比較部224では、ビート抽出部21からのビート成分検出出力信号BTと、1/N分周部225からの信号とが、例えばその立ち上がりエッジ時点において、位相比較され、その比較誤差出力が、ローパスフィルタ226を通じて可変周波数発振器223に供給される。そして、可変周波数発振器224の発振出力信号の位相が、この位相比較誤差出力により、ビート成分検出出力信号BTの位相に同期するように制御される。
例えば、ビート成分検出出力信号BTに対して、可変周波数発振器223の発振出力信号が遅れ位相であれば、遅れを取り戻す方向として、可変周波数発振器223の現在の発振周波数をわずかに上げる。逆に進み位相であれば、進み過ぎを取り戻す方向として、可変周波数発振器の現在の発振周波数をわずかに下げる。
以上のようにして、いわゆる負帰還を利用したフィードバック制御回路であるPLL回路により、ビート成分検出出力信号BTと、可変周波数発振器23の発振出力信号の位相の一致を図ることができる。
こうして、トラッキング部22では、ビート抽出部21で抽出された入力オーディオデータのビートの周波数および位相に同期した発振クロック信号を、可変周波数発振器223から得ることができる。
ここで、可変周波数発振器223の出力発振信号をクロック信号として、リズムトラッキング部20の出力した場合には、BPM値のN倍である、4Nビートの発振クロック信号がこのリズムトラッキング部20の出力として出力されることになる。
この可変周波数発振器223の発振出力信号を、このままクロック信号としてトラッキング部22から出力して利用しても良い。しかし、この実施形態では、このクロック信号をカウンタでカウントすれば、1小節当たりについて、ビート(拍)に同期した1〜4Nまでのカウント値が得られ、そのカウント値により、ビート位置を知ることができるので、可変周波数発振器223の発振出力としてのクロック信号は、4N進数カウンタ227のカウント値入力として供給される。
この4N進数カウンタ226からは、この例では、入力オーディオデータの音楽の1小節当たりについて、1〜4Nまでのカウント値出力CNTが、前記入力オーディオデータのビートに同期して得られる。例えば、N=4の時には、カウント値出力CNTの値は1から16までカウントアップを繰り返す。
このとき、入力オーディオデータの音楽がライブ録音の再生信号であったり、マイクロホン12から収音したライブ音楽であったりしたときには、そのビート周波数や位相が揺らぐことがあるが、リズムトラッキング部20から得られるカウント値出力CNTは、その揺らぎにも追従するものである。
ところで、ビート成分検出出力信号BTは、入力オーディオデータの音楽の拍に同期しているが、4N進カウンタ227からの1〜4Nのカウント値が、小節に完全に同期していることは確保されていないと考えられる。
この点を改善するため、この実施形態では、ビート成分検出出力信号BTのピーク検出出力、および/または、時間波形の大振幅を用いて、4N進カウンタ227をリセットして、4N進カウンタ227からのカウント値出力CNTが、常に小節の区切りに同期したものとなるように補正するようにしている。
すなわち、図4に示すように、この実施形態では、ビート抽出部21からのビート成分検出出力信号BTは、ピーク検出部23に供給されて、図3(C)に示したスパイク上のピーク位置の検出信号Dpが、このピーク検出部23から得られ、その検出信号Dpがリセット信号生成部25に供給される。
また、入力オーディオデータが大振幅検出部24に供給されて、図3(A)に示した時間波形の大振幅部分の検出信号Laが、この大振幅検出部24から得られ、その検出信号Laがリセット信号生成部25に供給される。
リセット信号生成部25には、この実施形態では、4N進カウンタ227からのカウント値出力CNTも供給される。リセット信号生成部25では、この実施形態では、4N進カウンタ227からのカウント値出力CNTの値が、例えば4Nに近い値のとき、例えばN=4の時には、カウント値出力CNTの値が14〜15になった直後から、4N=16までの僅かの時間幅内では、たとえカウント値出力CNTが4Nに到達する前であっても、ピーク検出部23からの検出信号Dpあるいは大振幅検出部24からの検出信号Laがあったときには、その検出信号Dpあるいは検出信号Laのいずれかを、4N進カウンタ227のリセット端子に供給するようにして、そのカウント値出力CNTを強制的に「1」にリセットするようにする。
これにより、小節単位の揺らぎがあっても、4N進カウンタ227のカウント値出力CNTは、入力オーディオデータの音楽に同期するものである。
なお、トラッキング部22における4N進カウンタ227のカウント値出力CNTは、予め、リズムトラッキング部でビート抽出し、リズムトラッキングすべき音楽コンテンツが、何拍子の楽曲であるかにより定められる。例えば4拍子であれば、4N進カウンタとされ、3拍子であれば、3N進カウンタとされる。このNに乗ずる値を決める基となる楽曲が何拍子の楽曲であるかは、例えばユーザにより、音楽コンテンツの再生をする前に、事前に、音楽コンテンツの再生装置10に入力される。
なお、音楽コンテンツの再生装置10が自動的にNに乗ずる値を決定するようにして、ユーザの楽曲が何拍子であるかの入力を省略することもできる。すなわち、ビート抽出部21からのビート成分検出出力信号BTを解析すると、小節単位で、スパイク上のピーク値が大きくなることが分かるので、楽曲が何拍子かを推定することができ、前記Nに乗ずる値を決めることができる。
ただし、この場合には、楽曲の最初の部分では、Nに乗ずる値が適切なものでない場合があるが、それが楽曲の導入部分であれば、実際の利用上は問題はないと考えられる。
また、再生に先立ち、当該再生しようとする音楽コンテンツの楽曲の一部を再生して、ビート抽出部21からのビート成分検出出力信号BTを得て、その信号BTに基づいて楽曲が何拍子の音楽である検知しておき、Nに乗ずる値を決定し、その後、音楽コンテンツの楽曲を最初から再生すると共に、リズムトラッキング部20で、当該再生中の音楽コンテンツの楽曲に同期するビートを抽出するようにしてもよい。
なお、可変周波数発振器223の発信信号の波形は、ノコギリ波でも、また、矩形波でも良いし、インパルス状の波形でも良い。上述の実施形態では、ノコギリ波の立ち上がりエッジ部分をリズムのビートとして位相制御するようにしている。
上述したリズムトラッキング部20は、図4に示した各ブロックをハードウェアで実現しても良いし、DSPやCPUなどを用いてリアルタイム信号処理を行ない、ソフトウェアで実現しても良い。
[リズムトラッキング装置の第2の実施形態]
図4のリズムトラッキング部20を実際に動作させた場合、PLL回路の基本的性質として、同期引き込み範囲となるプルインレンジを広くすると、定常時の位相ジッタが増えてしまい、逆に、位相ジッタを少なくしようとすると、PLL回路のプルインレンジが狭くなってしまうという相反する性質がある。
この性質を、このリズムトラッキング部20に当て嵌めた場合、リズムトラッキング可能なBPM値の範囲を広くとると、定常時の発振出力クロックのジッタが、例えば±数BPMのオーダーで増えてしまい、トラッキング誤差の揺れが大きくなってしまうという問題がある。逆に、トラッキング誤差の位相ジッタを少なくするよう設定すると、PLL回路のプルインレンジが狭くなり、トラッキングできるBPM値の範囲が狭くなってしまうという問題がある。
また、別の問題として、未知の曲が入力された直後からトラッキングが安定するまで暫く時間が掛かることがある。これは、図4のBPM値算出部221を構成する自己相関演算部の計算に、ある程度の時間が必要であるためである。このため、BPM値算出部221のBPM値算出結果が安定するには、自己相関演算部へ入力される信号に、ある程度の計算区間が要求される。これは、自己相関の一般的な性質によるものである。この問題により、音楽の最初の部分では、暫くの間、トラッキングが外れてしまい、音楽に同期した発振出力クロックが得られないという問題がある。
リズムトラッキング部20の第2の実施形態では、次のようにすることにより、これらの問題を回避するものである。
もし、入力される音楽が、予め既知であるならば、すなわち、例えば再生する音楽コンテンツのデータのファイル等が手元にあるのならば、それについてオフライン処理をしておいて、その音楽コンテンツの大まかなBPM値を求めておく。これは、この第2の実施形態では、図4において、ビート抽出部21の処理と、BPM値算出部221とを、オフラインで実行することにより行なうようにする。もしくは、BPM値のメタ情報等が予め付加された音楽コンテンツを利用するのでも構わない。例えば、120±10BPMくらいの非常に大まかな精度のBPM情報があるだけでずいぶんと状況は改善する。
そして、実際に、当該音楽コンテンツの再生時にリアルタイムで、リズムトラッキング処理を実行するときには、前述のようにしてオフラインで算出したBPM値に対応する周波数を可変周波数発振器223の発振周波数の初期値として発振を開始再生るようにする。これにより、音楽コンテンツの再生開始時のトラッキングずれや、定常時の位相ジッタを大幅に低減することができる。
前述したオフライン処理での、ビート抽出部21およびBPM値算出部221における処理は、図4のリズムトラッキング部20の一部を利用したものであり、その処理動作は、前述したのと全く同じであるので、ここでは説明を割愛する。
[リズムトラッキング部20の第3の実施形態]
このリズムトラッキング装置の第3の実施形態は、入力(再生)される音楽が未知であり、オフライン処理が不可能な場合である。この第3の実施形態においては、図4のリズムトラッキング部20において、最初は、PLL回路のプルインレンジを広く設定しておく。そして、リズムトラッキングが安定し始めてから、PLL回路のプルインレンジを狭く設定し直すようにする。
このように、第3の実施形態においては、リズムトラッキング部20のトラッキング部22のPLL回路のプルインレンジのパラメータを動的に変更する手法を用いることにより、前述した位相ジッタの問題を効果的に解決することができる。
[リズムトラッキング部20の出力を用いたアプリケーションの例]
この実施形態では、リズムトラッキング部20からの出力信号、すなわち、ビート成分検出出力信号BT、BPM値、カウント値出力CNTを用いて種々のアプリケーションを実現するようにしている。
この実施形態では、前述したように、ディスプレイ117の表示画面において、リズムトラッキング部20からの出力信号を用いた表示を行なうようにしている。図7は、この実施形態におけるディスプレイ117の表示画面117Dの表示例を示す図である。これは、音楽同期表示装置の実施形態における表示出力態様に対応するものである。
図7に示すように、ディスプレイ117の表示画面117Dには、この実施形態では、BPM値表示欄301、BPM値検出中心値設定欄302、BPM値検出範囲設定欄303、ビート表示枠304、音楽同期画像表示欄306、歌詞表示欄307、その他が表示される。
BPM値表示欄301には、再生中の音楽コンテンツのオーディオデータから、リズムトラッキング部20のBPM値算出部221で算出されたBPM値が表示される。
この実施形態では、ユーザは、BPM値検出中心値設定欄302およびBPM値検出範囲設定欄303を通じて、リズムトラッキング部20でのBPM検出範囲のパラメータ値として、BPM値検出中心値と、その中心値からのBPM検出範囲の許容誤差範囲値を設定することができる。このパラメータ値は、再生動作中でも変更することができるようにされている。
ビート表示枠304は、この例では、前述したように、再生対象の音楽コンテンツが4拍子の場合には、トラッキングしたビートが16進数で与えられるので、16ビートの表示枠が表示され、このビート表示枠304において再生中の音楽コンテンツのビートが同期表示されるようにされる。この例では、ビート表示枠304は、16ビート表示枠が上下2段に構成されている。16ビート表示枠のそれぞれは、16個の白丸印からなり、現在ビート位置表示305として、例えば小四角印が、16個の白丸印のうちの、音楽コンテンツのオーディオデータから抽出された現在ビート位置に対応する位置の白丸印内に表示されるようにされている。
すなわち、現在ビート位置表示305は、リズムトラッキング部20からのカウント値出力CNTの変化に応じて変化する。これにより、再生中の音楽コンテンツのオーディオデータに同期して、当該再生中の音楽コンテンツのビートがリアルタイムで同期変化表示される。
音楽同期画像表示欄306には、後で詳述するように、この実施形態では、リズムトラッキング部20のビート抽出部21からのビート成分検出出力信号BTに同期して、踊るアニメーションが表示される。
歌詞表示欄307には、後で詳述するように、この実施形態では、再生中の音楽コンテンツの歌詞が、当該音楽コンテンツの再生に同期して、文字表示される。
以上のような表示画面構成となっているので、この実施形態の音楽コンテンツの再生装置において、ユーザが音楽コンテンツの再生開始指示をすると、その音楽コンテンツのオーディオデータが、オーディオ再生部120で再生されて、音響再生されると共に、当該再生中のオーディオデータがリズムトラッキング部20に供給される。
そして、再生中の音楽コンテンツについて、リズムトラッキング部20でビートが抽出されると共に、BPM値が算出されて、現在検出中のBPM値が表示画面117のBPM値表示欄301に表示される。
そして、算出されたBPM値およびビート抽出部21で抽出されて得られたビート成分検出出力信号BTとに基づいて、ビートトラッキングがPLL回路部で実行され、4N進カウンタ227からは、再生中の音楽コンテンツに同期したビートを16進数で与えるカウント値出力CNTが得られ、このカウント値出力CNTに基づいて、ビート表示枠304において現在ビート位置表示305により、シンクロ表示される。前述したように、ビート表示枠304は、16ビート表示枠が上下2段になっており、現在ビート位置表示305が上段と下段に渡って交互に入れ替わるように移動表示される。
[音楽同期画像表示装置の実施形態(踊るアニメーション)]
次に、音楽同期画像表示欄306に表示されるアニメーションについて説明する。前述したように、図2の同期動き画像生成部108で、このアニメーション画像が生成されるものである。したがって、図2のリズムトラッキング部20と、同期動き画像生成部108と、ディスプレイインターフェース106およびディスプレイ117とからなる部分は、音楽同期画像表示装置の実施形態を構成する。
なお、音楽同期画像表示装置は、ハードウエアにより構成してもよいし、また、リズムトラッキング部20と、同期動き画像生成部108との部分は、CPUにより実行されるソフトウエア処理により構成されるようにしてもよい。
図8は、この音楽同期画像表示装置の実施形態が実行する音楽同期画像表示動作を説明するためのフローチャートである。この図8のフローチャートの各ステップの処理は、図4の実施形態では、CPU101の制御の下に、同期動き画像生成部108で実行されるものである。
この実施形態では、同期動き画像生成部108は、踊るアニメーションの複数シーンの画像データを予め記憶部(図示を省略)に記憶しており、当該記憶部から、音楽コンテンツのビートに同期して、踊るアニメーションの各シーンを順次に読み出して、音楽同期画像表示欄306に表示することにより、踊るアニメーション表示を実現するようにする。
すなわち、同期動き画像生成部108では、CPU101の制御により、リズムトラッキング部20のビート抽出部21からのビート成分検出出力信号BTを取り込む(ステップS11)。
次に、同期動き画像生成部108では、ビート成分検出出力信号BTのピーク値Pkと、予め定められたスレッショールド値thとを比較する(ステップS12)。そして、ビート成分検出出力信号BTのピーク値Pk≧thであるか否か判別する(ステップS13)。
ステップS13で、Pk≧thであると判別したときには、同期動き画像生成部108では、記憶部に記憶されている、踊るアニメーションの画像の、次のシーンの画像データを読み出して、それをディスプレイインターフェース106に供給し、ディスプレイの音楽同期画像表示欄306のアニメーション画像を次のシーンに変更する(ステップS14)。
このステップS14の次には、また、ステップS13で、Pk≧thではないと判別したときには、同期動き画像生成部108では、楽曲の再生が終了したか否か判別し(ステップS15)、楽曲の再生が終了していなければステップS11に戻り、このステップS11以降の処理を繰り返す。ステップS15で、楽曲の再生が終了したと判別したときには、この図8の処理ルーチンを終了し、音楽同期画像表示欄306の踊るアニメーション画像の表示を停止する。
なお、ステップS12で比較するスレッショールド値thは、一定ではなく、変化させることにより、ステップS13での比較結果として、Pk≧thとなるピーク値を変化させることができ、より楽曲を聴取したときの感じに応じた、踊るアニメーション画像の表示をすることができるようになる。
なお、前述もしたように、図8の実施形態では、ビート抽出部21からのビート成分検出出力信号BTを用いて、音楽同期画像を表示するようにしたが、ビート成分検出出力信号BTの代わりに、トラッキング部22からのカウント値出力CNTを取り込んで、このカウント値出力CNTの変化に同期して、踊るアニメーションの次のシーンを次々に読み出して、表示するようにしてもよい。
また、上述の実施形態では、踊るアニメーションの画像データを予め記憶しておき、ビート成分検出出力信号BTのピーク値Pkに同期して、また、リズムトラッキング部20からのカウント値出力CNTの変化に同期して、踊るアニメーションの次のシーンを次々に読み出すようにしたが、ビート成分検出出力信号BTのピーク値Pkに同期して、また、リズムトラッキング部20からのカウント値出力CNTの変化に同期して、踊るアニメーションの画像をリアルタイムに生成するプログラムを実行するようにしてもよい。
なお、音楽に同期して表示する画像は、アニメーションに限られず、予め、音楽に同期して再生するように準備された動画や静止画であってもよい。例えば、動画の場合には、音楽に同期して、複数の動画像を切り替えてゆく表示方法を採用することができる。また、静止画の場合には、アニメーションと同様の態様で表示することができる。
[音楽同期表示装置の実施形態(歌詞の表示)]
前述したように、図4の実施形態の音楽コンテンツの再生装置10では、ネットワークを通じて、音楽コンテンツの属性情報をインターネットを通じて取得し、ハードディスクドライブ110のハードディスクに記憶するようにしている。これには、楽曲の歌詞のデータも含まれている。
この実施形態の音楽コンテンツの再生装置10では、この音楽コンテンツの属性情報の歌詞情報を用いて、再生中の楽曲に同期して、歌詞を表示するようにする。いわゆるカラオケシステムでは、タイムスタンプ情報に応じて順次に歌詞を表示するものであるのに対して、この実施形態では、再生中の楽曲のオーディオデータに同期して歌詞が表示される。したがって、再生中の音楽のビートに揺らぎがあっても、表示される歌詞は、それに追従して表示されるものである。
この歌詞表示を行なう音楽同期表示装置の実施形態は、図4の例では、ROM102に記憶されているプログラムに従ったCPU101によるソフトウエア処理により実現される。
この実施形態においては、音楽コンテンツの再生開始が指示されると、当該音楽コンテンツのオーディオデータが、例えばメディアドライブ104を通じて取り込まれて、再生が開始されるとともに、当該メディアドライブ104に記憶されている再生対象の音楽コンテンツの識別情報が用いられて、ハードディスクドライブ110のハードディスクから、当該再生開始指示された音楽コンテンツの属性情報が読み出される。
図9に、このとき読み出される音楽コンテンツの属性情報の一例を示す。すなわち、図9に示すように、この属性情報は、再生対象の音楽コンテンツの小節番号と拍番号と、それぞれの小節番号、拍番号の位置における歌詞やコードからなる。CPU101は、リズムトラッキング部20からのカウント値出力CNTから、現在再生位置の小節番号および拍番号を知り、属性情報から、その小節番号および拍番号のコードや歌詞を判断し、その判断結果に基づいて、歌詞表示欄307に、再生中楽曲に同期して歌詞を順次に表示するようにする。
図10に、この実施形態における歌詞表示処理のフローチャートを示す。先ず、CPU101は、リズムトラッキング部20からのカウント値出力CNTのカウント値が変化したか否か判別する(ステップS21)。
ステップS21で、カウント値出力CNTのカウント値が変化したと判別したときには、CPU101は、そのカウント値出力CNTのカウント値から、再生中の楽曲の何小節目の何拍目かを計算する(ステップS22)。
なお、カウント値出力CNTは、前述したように、1小節単位に4N進で変化するものであるが、楽曲の先頭から順次に、小節を別途カウントすることにより、楽曲の何小節めであるかを知ることができることは言うまでもない。
ステップS22の次には、CPU101は、再生中の楽曲の属性情報を参照し(ステップS23)、ステップS22で求めた再生中の楽曲の小節および拍位置が、当該小節および拍位置に歌詞が付与されている歌詞表示タイミングであるか否かを判別する(ステップS24)。
そして、ステップS24で、歌詞表示タイミングであると判別したときには、CPU101は、当該タイミングで表示する文字情報を、前記楽曲の属性情報に基づいて生成し、それをディスプレイインターフェース106を通じてディスプレイ117に供給し、表示画面117Dの歌詞表示欄307に表示するようにする(ステップS25)。
また、ステップS24で、歌詞表示タイミングではないと判別したとき、また、ステップS25の次には、CPU101は、楽曲の再生が終了したか否か判別し(ステップS26)、楽曲の再生が終了していなければステップS21に戻り、このステップS21以降の処理を繰り返す。ステップS26で、楽曲の再生が終了したと判別したときには、この図10の処理ルーチンを終了し、歌詞表示欄307の歌詞表示を停止する。
なお、上述の音楽同期画像表示装置では、歌詞のみではなく、あるいは歌詞に代えて、楽曲のコードを表示するようにしてもよい。例えば、楽曲のコードに応じたギターの指の押さえパターンを表示するようにしてもよい。
また、上述の実施形態では、パーソナルコンピュータの表示画面において、歌詞表示をするようにしたが、携帯型の音楽再生機に、この発明の実施形態を適用した場合には、図11に示すように、携帯型の音楽再生機400に接続されたリモートコマンダ401に設けられた表示部401Dに、前述した、踊るアニメーションや歌詞を表示させるようにすることができる。
この場合、携帯型の音楽再生機は、再生開始から上述したリズムトラッキング処理を行ない、現在再生している音楽の小節や拍の位置・タイミングを把握し、リアルタイムに属性情報と照らし合わせながら、手元のリモートコマンダ401の表示部401Dに、音楽に同期させる形で、図示のように、例えば歌詞を順に表示することができる。
[リズムトラッキング部20の出力を用いたアプリケーションのその他の例]
上述のアプリケーションの例では、音楽に同期してアニメーション画像や楽曲の歌詞を表示するようにしたが、上述したように、この実施形態では、再生中の楽曲の小節や拍に同期させて、何等かの処理をすることが容易であるので、再生中の楽曲に対して所定のアレンジを施したり、特殊効果(エフェクト)処理をしたり、他の楽曲データを混合(リミックス)したりすることが容易にできる。
エフェクト処理としては、再生音響データに、例えば、ディストーション(Distortion)をかけたり、リバーブ(Reverb)をかけたりする処理が可能である。
リミックスは、一般的なディスクジョッキーで行なわれている手法であり、ある小節や拍単位で音楽性を損なわないように、再生中の楽曲に複数の音楽素材をミックスしていく方法である。これは、予め用意された小節の切れ目(楽曲素材単位の区切り)やテンポ情報、コード情報等の楽曲構成情報を利用して、音楽理論にしたがい、再生中の楽曲に複数の音楽素材を、違和感無くミックスしていくものである。
このため、このリミックスを実現するためには、例えばネットワークを通じてサーバから取得する属性情報に、楽器情報を含めるようにする。この楽器情報は、ドラム、ギター等の楽器の情報である。例えば、1小節分のドラムやパーカッションの演奏パターンを、属性情報として記録しておき、それをループ状に繰り返し用いるようにすることもできる。また、リミックス用にそれらの楽器の演奏パターン情報を用いることもできる。さらに、他の楽曲からリミックする音楽データを抽出するようにしてもよい。
リミックスの場合には、CPU101の指示に従い、再生中の楽曲以外のリミックスする音響データを、図9に示したような属性情報のコードを参照しながら、再生中の音響データに、リミックスする音響データを、リズムトラッキング部20からのカウント値出力CNTに同期して混合する処理を実行するようにする。
[実施形態の効果]
以上説明した実施形態によれば、次に挙げる問題や課題を解決することができる。
(1)従来はMIDIやSMILに代表されるように、コンテンツ制作者が予め作り込んでおいたタイムスタンプの時刻でのみ、メディアタイミング制御が可能であった。それ故、タイムスタンプ情報を持たないPCM等の生の音声波形(サンプリング音源)に対しては、他のメディアの音楽的なシンクロは不可能であった。
(2)従来、MIDIやSMILのデータを作成するに当たり、楽譜を元に、別途、タイムスタンプ情報を算出・付加する必要があった。この作業は大変面倒なものであった。更に、楽曲の全てのタイムスタンプ情報を持つ必要があるため、データサイズも大きくなり、扱いが面倒であった。
(3)MIDIやSMILデータは、予め、発音タイミング等をタイムスタンプ情報として持っているため、テンポの変更やリズムにゆれがあった場合に、タイムスタンプ情報を算出し直す必要があり、柔軟な対応が困難であった。
(4)例えば、現在流れている音楽やラジオから聞こえる音楽、今演奏されているライブ音楽など、リアルタイムに聞こえてくる音楽に対して、既存の技術では同期を取ることは不可能であった。
上記の問題(1)に関して、上述の実施形態によれば、装置が自動的に音楽の小節や拍のタイミングを認識することができるので、現在主流であるサンプリング音源に対しても、他のメディアとの音楽的なシンクロ動作が可能となる。さらに、一般的に入手が容易な楽譜などの楽曲情報と組み合わせることで、装置が自動的に楽譜を追いかけながら楽曲を再生することができる。
例えば、この発明の実施形態を従来のステレオシステムに応用すると、既存のCDのようなPCMデータ形式のコンテンツにおいても、CDを再生するだけで再生中の音楽のリズムを自動認識し、従来のカラオケのように、音楽に合わせてリアルタイムに歌詞表示したりすることができる。さらに、画像処理と組み合わせることにより、キャラクタがダンスを踊るなどの画像アニメーションとのシンクロ表示も可能となる。
また、この実施形態で抽出したビート出力信号の他に、楽譜のコード情報などの楽曲情報も利用すれば、楽曲そのものの再アレンジがリアルタイムで可能となるなど、他のアプリケーションへの幅広い応用が期待できる
上記の問題(2)に関して、上述の実施形態によれば、カラオケ装置に音楽の小節や拍のタイミングを自動認識する能力を付与することができるので、現在のカラオケのデータ作成が、より一層簡単になる。そして、楽譜のような一般的かつ汎用的な入手し易いデータを、自動認識した音楽の小節や拍のタイミングに合わせて(同期させて)利用することができる。
例えば、現在聞こえている音楽がどの小節の何拍目かという状況を装置が自動的に認識できため、特定のイベント時刻に相当するタイムスタンプ情報がなくとも、楽譜に書いてある通りに歌詞を表示することができる。さらには、タイムスタンプ情報の割り当てのためのデータおよびメモリ容量を削減できる。
また、上述の問題(3)に関して、カラオケのようなシステムだと、曲の途中でのテンポの変更やリズムの揺らぎを表現するに当たり、複雑なタイムスタンプの計算をする必要がある。さらに、インタラクティブに曲の途中でテンポやリズムの揺らぎを変更したい場合には、再度、タイムスタンプを計算し直す必要がある。
これに対して、上述した実施形態の装置のように、装置がテンポやリズムの揺らぎに対しても追従することが可能であるので、何のデータの変更も必要無く、ずれることなく演奏が継続できる。
さらに、問題(4)に関しては、この実施形態によれば、カラオケ装置に音楽の小節や拍のタイミングを自動認識する能力を付与することができるので、ライブかつリアルタイムなカラオケのような機能が実現できる。例えば、現在誰かが演奏している生の音に対してリズム同期をし、楽譜を追いかけることができる。それにより、例えばライブ演奏に合わせて歌詞や画像などをシンクロ表示させることや、他の音源機器を制御して音を重ねたり、その他の機器を音楽とシンクロさせたりすることができる。例えば、音楽のサビのフレーズやキメのフレーズでライティングを制御したり、花火の打ち上げ制御したりすることも可能である。FMラジオから聞こえる音楽に関しても同様である。
[その他の実施形態]
上述の実施形態のビート抽出部21では、入力オーディオデータの全ての周波数帯域成分についてパワースペクトルを算出し、その変化率を算出することにより、ビート成分を抽出するようにしたが、ビート成分の抽出に比較的関与しないと思われる成分を予め除去してから、ビート抽出処理をするようにしても良い。
例えば、図12に示すように、パワースペクトル算出部211の前段に、ビート成分の抽出に比較的関与しないと思われる成分、例えば高域成分や超低域成分、を不要成分として除去する不要成分除去フィルタ213を設ける。そして、この不要成分除去フィルタ213により不要成分が除去された後のオーディオデータについて、パワースペクトル算出部211でパワースペクトルを算出し、また、変化率算出部212で、そのパワースペクトルの変化率を算出して、ビート成分検出出力信号BTを得るようにする。
この図12の例によれば、不要周波数成分が除去されることにより、パワースペクトル算出部211での演算量を少なくすることができる。
なお、この発明は、上述したパーソナルコンピュータや携帯型の音楽再生機にのみ適用されるものではなく、音楽コンテンツの音楽データにリアルタイムにビート抽出する場合や、リズムトラッキングする場合、また、そのアプリケーションを適用することができる場合であれば、どのような態様の装置や電子機器にも適用可能であることは言うまでもない。
この発明によるビート抽出装置および方法の原理を説明するために用いる波形図である。 この発明の実施形態が適用された音楽コンテンツの再生装置の構成例を示すブロック図である。 図2の実施形態におけるビート抽出処理動作を説明するために用いる波形図である。 この発明によるリズムトラッキング装置の実施形態のブロック図である。 この発明によるビート抽出装置の実施形態における変化率算出部の動作を説明するための図である。 この発明によるビート抽出装置の実施形態における処理動作を説明するためのフローチャートである。 この発明による音楽同期表示装置の実施形態における表示画面の一例を示す図である。 この発明による音楽同期画像表示装置の実施形態を説明するためのフローチャートである。 この発明による音楽同期表示装置の実施形態の説明に用いる図である。 この発明による音楽同期表示装置の実施形態を説明するためのフローチャートである。 この発明による音楽同期表示装置の実施形態の適用装置例を示す図である。 この発明によるビート抽出装置の他の実施形態を説明するためのブロック図である。
符号の説明
10…音楽コンテンツの再生装置、12…マイクロホン、20…リズムトラッキング部、21…ビート抽出部、22…トラッキング部、108…同期動き画像生成部、211…パワースペクトル算出部、212…変化率算出部、213…不要成分除去フィルタ、221…BPM値算出部、223…可変周波数発振器、224…位相比較部、227…N進カウンタ

Claims (14)

  1. ウィンドウ関数をかけて入力音楽信号から切り出された音楽信号からパワースペクトルを算出する処理を、当該ウィンドウ関数を時間軸方向に移動させながら繰り返してスペクトログラムを算出するパワースペクトル算出手段と、
    前記パワースペクトル算出手段により算出されたスペクトログラムに基づき、前記パワースペクトルの変化率を示す出力信号を出力するビート抽出手段と、
    を備え
    前記パワースペクトル算出手段は、前記ウィンドウ関数をかけて切り出された音楽信号を複数区間に分割した各分割区間について分割区間毎パワースペクトルを算出し、全ての分割区間について当該分割区間毎パワースペクトルの総和を算出して当該総和を前記パワースペクトルとして出力し、
    前記ビート抽出手段は、時間的に隣り合うパワースペクトル間の差分を、ピークをビート成分とみなせる前記出力信号として出力する、
    ビート抽出装置。
  2. 前記パワースペクトル算出手段は、前記ウィンドウ関数をオーバーラップさせながら所定時間幅ずつ前記ウィンドウ関数を移動させる
    請求項1に記載のビート抽出装置。
  3. 前記ビート抽出手段は、前記パワースペクトル算出手段により算出されたスペクトログラムの中で前記第1及び第2のパワースペクトルの位置を移動させながら前記差分を順次出力する
    請求項2に記載のビート抽出装置。
  4. 前記ビート抽出手段から出力された差分の値が所定のしきい値より大きいときに、所定の出力信号を出力する出力手段をさらに備える
    請求項3に記載のビート抽出装置。
  5. ウィンドウ関数をかけて入力音楽信号から切り出された音楽信号からパワースペクトルを算出する処理を、当該ウィンドウ関数を時間軸方向に移動させながら繰り返してスペクトログラムを算出するパワースペクトル算出手段と、
    前記パワースペクトル算出手段により算出されたスペクトログラムに基づき、前記パワースペクトルの変化率を示す出力信号を出力するビート抽出手段と、
    前記ビート抽出手段から出力された出力信号が所定のしきい値より大きいときに、所定のビート出力信号を出力する出力手段と、
    前記出力手段からのビート出力信号に基づいて、前記入力音楽信号に同期する画像を表示する同期画像表示手段と、
    を備え
    前記パワースペクトル算出手段は、前記ウィンドウ関数をかけて切り出された音楽信号を複数区間に分割した各分割区間について分割区間毎パワースペクトルを算出し、全ての分割区間について当該分割区間毎パワースペクトルの総和を算出して当該総和を前記パワースペクトルとして出力し、
    前記ビート抽出手段は、時間的に隣り合うパワースペクトル間の差分を、ピークをビート成分とみなせる前記出力信号として出力する、
    音楽同期画像表示装置。
  6. ウィンドウ関数をかけて入力音楽信号から切り出された音楽信号からパワースペクトルを算出する処理を、当該ウィンドウ関数を時間軸方向に移動させながら繰り返してスペクトログラムを算出するパワースペクトル算出手段と、
    前記パワースペクトル算出手段により算出されたスペクトログラムに基づき、前記パワースペクトルの変化率を示す出力信号を出力するビート抽出手段と、
    前記ビート抽出手段から出力される時系列の出力信号の自己相関を検出して、前記入力音楽信号のテンポ値を推定するテンポ値推定手段と、
    前記テンポ値推定手段で推定されたテンポ値を出力する出力手段と、
    を備え
    前記パワースペクトル算出手段は、前記ウィンドウ関数をかけて切り出された音楽信号を複数区間に分割した各分割区間について分割区間毎パワースペクトルを算出し、全ての分割区間について当該分割区間毎パワースペクトルの総和を算出して当該総和を前記パワースペクトルとして出力し、
    前記ビート抽出手段は、時間的に隣り合うパワースペクトル間の差分を、ピークをビート成分とみなせる前記出力信号として出力する、
    楽曲のテンポ値検出装置。
  7. ウィンドウ関数をかけて入力音楽信号から切り出された音楽信号からパワースペクトルを算出する処理を、当該ウィンドウ関数を時間軸方向に移動させながら繰り返してスペクトログラムを算出するパワースペクトル算出手段と、
    前記パワースペクトル算出手段により算出されたスペクトログラムに基づき、前記パワースペクトルの変化率を示す出力信号を出力するビート抽出手段と、
    前記ビート抽出手段から出力される時系列の出力信号の自己相関を検出して、前記入力音楽信号のテンポ値を推定するテンポ値推定手段と、
    前記テンポ値推定手段で推定されたテンポ値に基づいて発振中心周波数が決定され、位相制御信号により出力発振信号の位相が制御される可変周波数発振器と、
    前記可変周波数発振器からの出力発振信号と、前記ビート抽出手段から出力された出力信号とを位相比較し、その比較誤差信号を前記位相制御信号として前記可変周波数発振器に供給する位相比較手段と、
    前記可変周波数発振器の前記出力発振信号から前記入力音楽信号のビートに同期するビート同期信号を生成して出力する出力手段と、
    を備え
    前記パワースペクトル算出手段は、前記ウィンドウ関数をかけて切り出された音楽信号を複数区間に分割した各分割区間について分割区間毎パワースペクトルを算出し、全ての分割区間について当該分割区間毎パワースペクトルの総和を算出して当該総和を前記パワースペクトルとして出力し、
    前記ビート抽出手段は、時間的に隣り合うパワースペクトル間の差分を、ピークをビート成分とみなせる前記出力信号として出力する、
    リズムトラッキング装置。
  8. ウィンドウ関数をかけて入力音楽信号から切り出された音楽信号からパワースペクトルを算出する処理を、当該ウィンドウ関数を時間軸方向に移動させながら繰り返してスペクトログラムを算出するパワースペクトル算出手段と、
    前記パワースペクトル算出手段により算出されたスペクトログラムに基づき、前記パワースペクトルの変化率を示す出力信号を出力するビート抽出手段と、
    前記ビート抽出手段から出力される時系列の出力信号の自己相関を検出して、前記入力音楽信号のテンポ値を推定するテンポ値推定手段と、
    前記テンポ値推定手段で推定されたテンポ値に基づいて発振中心周波数が決定され、位相制御信号により出力発振信号の位相が制御される可変周波数発振器と、
    前記可変周波数発振器からの出力発振信号と、前記ビート抽出手段から出力された出力信号とを位相比較し、その比較誤差信号を前記位相制御信号として前記可変周波数発振器に供給する位相比較手段と、
    前記可変周波数発振器の前記出力発振信号から前記入力音楽信号のビートに同期するビート同期信号を生成出力するビート同期信号生成出力手段と、
    音楽コンテンツの識別情報と対応付けられて、少なくとも前記音楽コンテンツの楽曲素材単位の楽曲構成情報の時系列情報を含む属性情報が記憶されている属性情報記憶部と、
    前記属性情報記憶部から前記入力音楽信号の属性情報を取得する属性情報取得手段と、
    前記ビート同期信号生成出力手段からの前記ビート同期信号に同期して、前記属性情報取得手段で取得した前記入力音楽信号の前記属性情報の時系列情報を参照し、前記楽曲構成情報に基づいて前記入力音楽信号の再生に同期して表示画面に表示する表示情報を生成して、表示手段に出力するようにする表示情報生成手段と、
    を備え
    前記パワースペクトル算出手段は、前記ウィンドウ関数をかけて切り出された音楽信号を複数区間に分割した各分割区間について分割区間毎パワースペクトルを算出し、全ての分割区間について当該分割区間毎パワースペクトルの総和を算出して当該総和を前記パワースペクトルとして出力し、
    前記ビート抽出手段は、時間的に隣り合うパワースペクトル間の差分を、ピークをビート成分とみなせる前記出力信号として出力する、
    音楽同期表示装置。
  9. 前記表示情報生成手段で生成される表示情報は、前記入力音楽信号とされた音楽コンテンツの歌詞である
    請求項8に記載の音楽同期表示装置。
  10. ウィンドウ関数をかけて入力音楽信号から切り出された音楽信号からパワースペクトルを算出する処理を、当該ウィンドウ関数を時間軸方向に移動させながら繰り返してスペクトログラムを算出するパワースペクトル算出ステップと、
    前記パワースペクトル算出ステップで算出されたスペクトログラムに基づき、前記パワースペクトルの変化率を示す出力信号を出力するビート抽出ステップと、
    を含み、
    前記パワースペクトル算出ステップは、前記ウィンドウ関数をかけて切り出された音楽信号を複数区間に分割した各分割区間について分割区間毎パワースペクトルを算出し、全ての分割区間について当該分割区間毎パワースペクトルの総和を算出して当該総和を前記パワースペクトルとして出力する工程を有し、
    前記ビート抽出ステップは、時間的に隣り合うパワースペクトル間の差分を、ピークをビート成分とみなせる前記出力信号として出力する工程を有する、
    ビート抽出方法。
  11. ウィンドウ関数をかけて入力音楽信号から切り出された音楽信号からパワースペクトルを算出する処理を、当該ウィンドウ関数を時間軸方向に移動させながら繰り返してスペクトログラムを算出するパワースペクトル算出ステップと、
    前記パワースペクトル算出ステップで算出されたスペクトログラムに基づき、前記パワースペクトルの変化率を示す出力信号を出力するビート抽出ステップと、
    前記ビート抽出ステップで出力された出力信号が所定のしきい値より大きいときに、所定のビート出力信号を出力する出力ステップと、
    前記出力ステップで得られるビート出力信号に基づいて、前記入力音楽信号に同期する画像を表示する同期画像表示ステップと、
    を含み、
    前記パワースペクトル算出ステップは、前記ウィンドウ関数をかけて切り出された音楽信号を複数区間に分割した各分割区間について分割区間毎パワースペクトルを算出し、全ての分割区間について当該分割区間毎パワースペクトルの総和を算出して当該総和を前記パワースペクトルとして出力する工程を有し、
    前記ビート抽出ステップは、時間的に隣り合うパワースペクトル間の差分を、ピークをビート成分とみなせる前記出力信号として出力する工程を有する、
    音楽同期画像表示方法。
  12. ウィンドウ関数をかけて入力音楽信号から切り出された音楽信号からパワースペクトルを算出する処理を、当該ウィンドウ関数を時間軸方向に移動させながら繰り返してスペクトログラムを算出するパワースペクトル算出ステップと、
    前記パワースペクトル算出ステップで算出されたスペクトログラムに基づき、前記パワースペクトルの変化率を示す出力信号を出力するビート抽出ステップと、
    前記ビート抽出ステップで出力される時系列の出力信号の自己相関を検出して、前記入力音楽信号のテンポ値を推定するテンポ値推定ステップと、
    前記テンポ値推定ステップで推定されたテンポ値を出力する出力ステップと、
    を含み、
    前記パワースペクトル算出ステップは、前記ウィンドウ関数をかけて切り出された音楽信号を複数区間に分割した各分割区間について分割区間毎パワースペクトルを算出し、全ての分割区間について当該分割区間毎パワースペクトルの総和を算出して当該総和を前記パワースペクトルとして出力する工程を有し、
    前記ビート抽出ステップは、時間的に隣り合うパワースペクトル間の差分を、ピークをビート成分とみなせる前記出力信号として出力する工程を有する、
    楽曲のテンポ値検出方法
  13. ウィンドウ関数をかけて入力音楽信号から切り出された音楽信号からパワースペクトルを算出する処理を、当該ウィンドウ関数を時間軸方向に移動させながら繰り返してスペクトログラムを算出するパワースペクトル算出ステップと、
    前記パワースペクトル算出ステップで算出されたスペクトログラムに基づき、前記パワースペクトルの変化率を示す出力信号を出力するビート抽出ステップと、
    前記ビート抽出ステップで出力される時系列の出力信号の自己相関を検出して、前記入力音楽信号のテンポ値を推定するテンポ値推定ステップと、
    前記テンポ値推定ステップで推定されたテンポ値に基づいて可変周波数発振器の発振中心周波数を制御し、前記可変周波数発振器からの出力発振信号と、前記ビート抽出ステップで出力された時系列の出力信号とを位相比較し、その比較誤差信号を前記可変周波数発振器に供給して位相制御するビート追従ステップと、
    前記可変周波数発振器の前記出力発振信号から前記入力音楽信号のビートに同期するビート同期信号を生成して出力する出力ステップと、
    を含み、
    前記パワースペクトル算出ステップは、前記ウィンドウ関数をかけて切り出された音楽信号を複数区間に分割した各分割区間について分割区間毎パワースペクトルを算出し、全ての分割区間について当該分割区間毎パワースペクトルの総和を算出して当該総和を前記パワースペクトルとして出力する工程を有し、
    前記ビート抽出ステップは、時間的に隣り合うパワースペクトル間の差分を、ピークをビート成分とみなせる前記出力信号として出力する工程を有する、
    リズムトラッキング方法。
  14. ウィンドウ関数をかけて入力音楽信号から切り出された音楽信号からパワースペクトルを算出する処理を、当該ウィンドウ関数を時間軸方向に移動させながら繰り返してスペクトログラムを算出するパワースペクトル算出ステップと、
    前記パワースペクトル算出ステップで算出されたスペクトログラムに基づき、前記パワースペクトルの変化率を示す出力信号を出力するビート抽出ステップと、
    前記ビート抽出ステップで出力される時系列の出力信号の自己相関を検出して、前記入力音楽信号のテンポ値を推定するテンポ値推定ステップと、
    前記テンポ値推定ステップで推定されたテンポ値に基づいて可変周波数発振器の発振中心周波数を制御し、前記可変周波数発振器からの出力発振信号と、前記ビート抽出ステップで出力された出力信号とを位相比較し、その比較誤差信号を前記可変周波数発振器に供給して位相制御するビート追従ステップと、
    前記可変周波数発振器の前記出力発振信号から前記入力音楽信号のビートに同期するビート同期信号を生成出力するビート同期信号生成出力ステップと、
    音楽コンテンツの識別情報と対応付けられて、少なくとも前記音楽コンテンツの楽曲素材単位の楽曲構成情報の時系列情報を含む属性情報が記憶されている属性情報記憶部から前記入力音楽信号の属性情報を取得する属性情報取得ステップと、
    前記ビート同期信号生成出力ステップで出力された前記ビート同期信号に同期して、前記属性情報取得ステップで取得した前記入力音楽信号の前記属性情報の時系列情報を参照し、前記楽曲構成情報に基づいて前記入力音楽信号に同期して表示画面に表示する表示情報を生成して、表示手段に出力するようにする表示情報生成ステップと、
    を含み、
    前記パワースペクトル算出ステップは、前記ウィンドウ関数をかけて切り出された音楽信号を複数区間に分割した各分割区間について分割区間毎パワースペクトルを算出し、全ての分割区間について当該分割区間毎パワースペクトルの総和を算出して当該総和を前記パワースペクトルとして出力する工程を有し、
    前記ビート抽出ステップは、時間的に隣り合うパワースペクトル間の差分を、ピークをビート成分とみなせる前記出力信号として出力する工程を有する、
    音楽同期表示方法。
JP2005216786A 2005-07-27 2005-07-27 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法 Expired - Fee Related JP4940588B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005216786A JP4940588B2 (ja) 2005-07-27 2005-07-27 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
US11/486,359 US7534951B2 (en) 2005-07-27 2006-07-13 Beat extraction apparatus and method, music-synchronized image display apparatus and method, tempo value detection apparatus, rhythm tracking apparatus and method, and music-synchronized display apparatus and method
CN2006101086490A CN1941071B (zh) 2005-07-27 2006-07-26 拍子提取及检测设备和方法、音乐同步显示设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005216786A JP4940588B2 (ja) 2005-07-27 2005-07-27 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法

Publications (2)

Publication Number Publication Date
JP2007033851A JP2007033851A (ja) 2007-02-08
JP4940588B2 true JP4940588B2 (ja) 2012-05-30

Family

ID=37692858

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005216786A Expired - Fee Related JP4940588B2 (ja) 2005-07-27 2005-07-27 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法

Country Status (3)

Country Link
US (1) US7534951B2 (ja)
JP (1) JP4940588B2 (ja)
CN (1) CN1941071B (ja)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006171133A (ja) * 2004-12-14 2006-06-29 Sony Corp 楽曲データ再構成装置、楽曲データ再構成方法、音楽コンテンツ再生装置および音楽コンテンツ再生方法
US7518053B1 (en) * 2005-09-01 2009-04-14 Texas Instruments Incorporated Beat matching for portable audio
JP4465626B2 (ja) * 2005-11-08 2010-05-19 ソニー株式会社 情報処理装置および方法、並びにプログラム
KR101215937B1 (ko) * 2006-02-07 2012-12-27 엘지전자 주식회사 IOI 카운트(inter onset intervalcount) 기반 템포 추정 방법 및 이를 위한 템포 추정장치
JP4660861B2 (ja) * 2006-09-06 2011-03-30 富士フイルム株式会社 楽曲画像シンクロ動画シナリオ生成方法、プログラムおよび装置
US7645929B2 (en) * 2006-09-11 2010-01-12 Hewlett-Packard Development Company, L.P. Computational music-tempo estimation
WO2008095190A2 (en) * 2007-02-01 2008-08-07 Museami, Inc. Music transcription
JP4595947B2 (ja) * 2007-02-09 2010-12-08 ヤマハ株式会社 データ再生装置、データ再生方法およびプログラム
US7714222B2 (en) 2007-02-14 2010-05-11 Museami, Inc. Collaborative music creation
JP2008197501A (ja) * 2007-02-14 2008-08-28 Yamaha Corp 電子楽器及び演奏データ利用プログラム
JP5309459B2 (ja) * 2007-03-23 2013-10-09 ヤマハ株式会社 ビート検出装置
JPWO2008129837A1 (ja) * 2007-03-27 2010-07-22 新世代株式会社 タイミング制御装置及びタイミング制御方法
JP2008244888A (ja) * 2007-03-27 2008-10-09 Yamaha Corp 通信装置、通信方法およびプログラム
JP4311466B2 (ja) * 2007-03-28 2009-08-12 ヤマハ株式会社 演奏装置およびその制御方法を実現するプログラム
US7956274B2 (en) * 2007-03-28 2011-06-07 Yamaha Corporation Performance apparatus and storage medium therefor
JP4467601B2 (ja) * 2007-05-08 2010-05-26 ソニー株式会社 ビート強調装置、音声出力装置、電子機器、およびビート出力方法
US7964783B2 (en) * 2007-05-31 2011-06-21 University Of Central Florida Research Foundation, Inc. System and method for evolving music tracks
JP5092589B2 (ja) * 2007-07-03 2012-12-05 ヤマハ株式会社 演奏クロック生成装置、データ再生装置、演奏クロック生成方法、データ再生方法およびプログラム
JP5012263B2 (ja) * 2007-07-04 2012-08-29 ヤマハ株式会社 演奏クロック生成装置、データ再生装置、演奏クロック生成方法、データ再生方法およびプログラム
JP5012269B2 (ja) * 2007-07-10 2012-08-29 ヤマハ株式会社 演奏クロック生成装置、データ再生装置、演奏クロック生成方法、データ再生方法およびプログラム
JP2009063714A (ja) 2007-09-05 2009-03-26 Sony Computer Entertainment Inc オーディオ再生装置およびオーディオ早送り再生方法
JP4973426B2 (ja) * 2007-10-03 2012-07-11 ヤマハ株式会社 テンポクロック生成装置およびプログラム
KR100911689B1 (ko) 2007-12-04 2009-08-10 한국과학기술연구원 실시간 음악 비트 주기 추출 방법 및 실시간 음악 비트주기 추출 장치
JP2009177574A (ja) * 2008-01-25 2009-08-06 Sony Corp ヘッドホン
WO2009103023A2 (en) * 2008-02-13 2009-08-20 Museami, Inc. Music score deconstruction
US8344234B2 (en) * 2008-04-11 2013-01-01 Pioneer Corporation Tempo detecting device and tempo detecting program
JP5150573B2 (ja) 2008-07-16 2013-02-20 本田技研工業株式会社 ロボット
JP4816699B2 (ja) * 2008-09-03 2011-11-16 ソニー株式会社 楽曲処理方法、楽曲処理装置、及びプログラム
JP5282548B2 (ja) * 2008-12-05 2013-09-04 ソニー株式会社 情報処理装置、音素材の切り出し方法、及びプログラム
JP2010220203A (ja) * 2009-02-17 2010-09-30 Nikon Corp 動画再生装置および動画再生プログラム
US9159338B2 (en) 2010-05-04 2015-10-13 Shazam Entertainment Ltd. Systems and methods of rendering a textual animation
JP5569228B2 (ja) 2010-08-02 2014-08-13 ソニー株式会社 テンポ検出装置、テンポ検出方法およびプログラム
JP5333517B2 (ja) * 2011-05-26 2013-11-06 ヤマハ株式会社 データ処理装置およびプログラム
US20130080896A1 (en) * 2011-09-28 2013-03-28 Yi-Lin Chen Editing system for producing personal videos
US11599915B1 (en) 2011-10-25 2023-03-07 Auddia Inc. Apparatus, system, and method for audio based browser cookies
US20130254159A1 (en) * 2011-10-25 2013-09-26 Clip Interactive, Llc Apparatus, system, and method for digital audio services
KR101395897B1 (ko) * 2011-11-04 2014-05-15 문찬곤 음악을 이용한 저주파 자극기 및 저주파 자극기를 구비한 다이어트 시스템
US9324377B2 (en) * 2012-03-30 2016-04-26 Google Inc. Systems and methods for facilitating rendering visualizations related to audio data
US8952233B1 (en) * 2012-08-16 2015-02-10 Simon B. Johnson System for calculating the tempo of music
US20140258292A1 (en) 2013-03-05 2014-09-11 Clip Interactive, Inc. Apparatus, system, and method for integrating content and content services
CN104427113A (zh) * 2013-09-03 2015-03-18 北大方正集团有限公司 在移动终端上实现节拍器功能的方法和装置
JP6268287B2 (ja) * 2014-06-20 2018-01-24 株式会社ソニー・インタラクティブエンタテインメント 動画像生成装置、動画像生成方法、プログラム
KR102340251B1 (ko) * 2014-06-27 2021-12-16 삼성전자주식회사 데이터 관리 방법 및 그 방법을 처리하는 전자 장치
EP3026668A1 (en) * 2014-11-27 2016-06-01 Thomson Licensing Apparatus and method for generating visual content from an audio signal
WO2016098430A1 (ja) * 2014-12-15 2016-06-23 ソニー株式会社 情報処理方法、映像処理装置及びプログラム
CN104599663B (zh) * 2014-12-31 2018-05-04 华为技术有限公司 歌曲伴奏音频数据处理方法和装置
US9747881B2 (en) * 2015-03-31 2017-08-29 Bose Corporation Beat detection and enhancement
CN106211502A (zh) * 2016-07-01 2016-12-07 福建星网视易信息***有限公司 一种音频控制灯光的方法及***
CN108986831B (zh) * 2017-05-31 2021-04-20 南宁富桂精密工业有限公司 语音干扰滤除的方法、电子装置及计算机可读存储介质
JP6729515B2 (ja) 2017-07-19 2020-07-22 ヤマハ株式会社 楽曲解析方法、楽曲解析装置およびプログラム
CN107622774B (zh) * 2017-08-09 2018-08-21 金陵科技学院 一种基于匹配追踪的音乐速度谱图生成方法
CN107491947B (zh) * 2017-08-24 2020-06-02 维沃移动通信有限公司 一种资源转移方法、相关设备及***
CN111526644B (zh) * 2017-09-27 2022-05-03 杭州博联智能科技股份有限公司 一种灯光显示的控制方法及装置
JP7343268B2 (ja) * 2018-04-24 2023-09-12 培雄 唐沢 任意信号挿入方法及び任意信号挿入システム
US11749240B2 (en) 2018-05-24 2023-09-05 Roland Corporation Beat timing generation device and method thereof
CN109712600B (zh) * 2018-12-30 2021-04-20 北京经纬恒润科技股份有限公司 一种节拍识别的方法及装置
JP7226709B2 (ja) * 2019-01-07 2023-02-21 ヤマハ株式会社 映像制御システム、及び映像制御方法
CN111128100B (zh) * 2019-12-20 2021-04-20 网易(杭州)网络有限公司 节奏点检测方法、装置及电子设备
JP7457111B2 (ja) 2020-05-21 2024-03-27 ローランド株式会社 ビート音発生タイミング生成装置、ビート音発生タイミング生成方法、及びプログラム
CN111859015A (zh) * 2020-07-01 2020-10-30 腾讯音乐娱乐科技(深圳)有限公司 音乐响应方法及相关设备
WO2022227037A1 (zh) * 2021-04-30 2022-11-03 深圳市大疆创新科技有限公司 音频处理、视频处理方法、装置、设备及存储介质

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3245890B2 (ja) * 1991-06-27 2002-01-15 カシオ計算機株式会社 拍検出装置及びそれを用いた同期制御装置
JP3433818B2 (ja) * 1993-03-31 2003-08-04 日本ビクター株式会社 楽曲検索装置
JP3090075B2 (ja) * 1997-01-23 2000-09-18 ヤマハ株式会社 可変速再生装置
JP3921779B2 (ja) 1998-01-29 2007-05-30 ソニー株式会社 再生装置
JP3921780B2 (ja) 1998-01-29 2007-05-30 ソニー株式会社 再生装置
JP3517349B2 (ja) * 1998-03-18 2004-04-12 日本電信電話株式会社 音楽映像分類方法、装置および音楽映像分類プログラムを記録した記録媒体
JP3066528B1 (ja) 1999-02-26 2000-07-17 コナミ株式会社 楽曲再生システム、リズム解析方法及び記録媒体
JP4186298B2 (ja) 1999-03-17 2008-11-26 ソニー株式会社 リズムの同期方法及び音響装置
JP2001125599A (ja) * 1999-10-25 2001-05-11 Mitsubishi Electric Corp 音声データ同期装置及び音声データ作成装置
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
JP3789326B2 (ja) * 2000-07-31 2006-06-21 松下電器産業株式会社 テンポ抽出装置、テンポ抽出方法、テンポ抽出プログラム及び記録媒体
JP2002215195A (ja) * 2000-11-06 2002-07-31 Matsushita Electric Ind Co Ltd 音楽信号処理装置
DE10164686B4 (de) * 2001-01-13 2007-05-31 Native Instruments Software Synthesis Gmbh Automatische Erkennung und Anpassung von Tempo und Phase von Musikstücken und darauf aufbauender interaktiver Musik-Abspieler
DE10109648C2 (de) * 2001-02-28 2003-01-30 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
US7373209B2 (en) * 2001-03-22 2008-05-13 Matsushita Electric Industrial Co., Ltd. Sound features extracting apparatus, sound data registering apparatus, sound data retrieving apparatus, and methods and programs for implementing the same
DE10123366C1 (de) * 2001-05-14 2002-08-08 Fraunhofer Ges Forschung Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen
MXPA03010751A (es) * 2001-05-25 2005-03-07 Dolby Lab Licensing Corp Segmentacion de senales de audio en eventos auditivos.
JP4622199B2 (ja) * 2001-09-21 2011-02-02 日本ビクター株式会社 楽曲検索装置及び楽曲検索方法
JP4646099B2 (ja) * 2001-09-28 2011-03-09 パイオニア株式会社 オーディオ情報再生装置及びオーディオ情報再生システム
JP4196052B2 (ja) * 2002-02-19 2008-12-17 パナソニック株式会社 楽曲検索再生装置、及びそのシステム用プログラムを記録した媒体
US7027124B2 (en) * 2002-02-28 2006-04-11 Fuji Xerox Co., Ltd. Method for automatically producing music videos
JP3674950B2 (ja) 2002-03-07 2005-07-27 ヤマハ株式会社 音楽データのテンポ推定方法および装置
US20030205124A1 (en) * 2002-05-01 2003-11-06 Foote Jonathan T. Method and system for retrieving and sequencing music by rhythmic similarity
KR100836574B1 (ko) * 2002-10-24 2008-06-10 도꾸리쯔교세이호진 상교기쥬쯔 소고겡뀨죠 악곡재생방법, 장치 및 음악음향데이터 중의 대표 모티프구간 검출방법
JP4243682B2 (ja) 2002-10-24 2009-03-25 独立行政法人産業技術総合研究所 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム
JP3963850B2 (ja) * 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
JP3982443B2 (ja) * 2003-03-31 2007-09-26 ソニー株式会社 テンポ解析装置およびテンポ解析方法
JP2005107265A (ja) * 2003-09-30 2005-04-21 Yamaha Corp 音楽作品記録データ、音楽作品記録媒体
JP2005122664A (ja) 2003-10-20 2005-05-12 Sony Corp オーディオデータ記録装置、オーディオデータ再生装置、及びオーディオデータ記録再生装置、並びにオーディオデータ記録方法、オーディオデータ再生方法及びオーディオデータ記録再生方法
US20070276733A1 (en) * 2004-06-23 2007-11-29 Frank Geshwind Method and system for music information retrieval
JP4487958B2 (ja) * 2006-03-16 2010-06-23 ソニー株式会社 メタデータ付与方法及び装置
JP4672613B2 (ja) * 2006-08-09 2011-04-20 株式会社河合楽器製作所 テンポ検出装置及びテンポ検出用コンピュータプログラム

Also Published As

Publication number Publication date
CN1941071A (zh) 2007-04-04
JP2007033851A (ja) 2007-02-08
US20070022867A1 (en) 2007-02-01
US7534951B2 (en) 2009-05-19
CN1941071B (zh) 2012-07-18

Similar Documents

Publication Publication Date Title
JP4940588B2 (ja) ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
JP4949687B2 (ja) ビート抽出装置及びビート抽出方法
US10930296B2 (en) Pitch correction of multiple vocal performances
US10229662B2 (en) Social music system and method with continuous, real-time pitch correction of vocal performance and dry vocal capture for subsequent re-rendering based on selectively applicable vocal effect(s) schedule(s)
US20210326102A1 (en) Method and device for determining mixing parameters based on decomposed audio data
JP5243042B2 (ja) 音楽編集装置及び音楽編集方法
KR101292698B1 (ko) 메타데이터 부여 방법 및 장치
US11670270B2 (en) Social music system and method with continuous, real-time pitch correction of vocal performance and dry vocal capture for subsequent re-rendering based on selectively applicable vocal effect(s) schedule(s)
US11087727B2 (en) Auto-generated accompaniment from singing a melody
KR102246623B1 (ko) 선택적으로 적용가능한 보컬 효과 스케줄에 기초한 후속적 리렌더링을 위한 보컬 연주 및 드라이 보컬 캡쳐의 연속적인 실시간 피치 보정에 의한 소셜 음악 시스템 및 방법
JP2009063714A (ja) オーディオ再生装置およびオーディオ早送り再生方法
JP3176273B2 (ja) 音声信号処理装置
Driedger Time-scale modification algorithms for music audio signals
JP4973426B2 (ja) テンポクロック生成装置およびプログラム
JP2009186762A (ja) 拍タイミング情報生成装置およびプログラム
JP3744247B2 (ja) 波形圧縮方法及び波形生成方法
JP3788096B2 (ja) 波形圧縮方法及び波形生成方法
JP3659121B2 (ja) 楽音信号の分析・合成方法、楽音信号合成方法、楽音信号合成装置および記録媒体
JP2002358078A (ja) 音楽ソース同期回路および音楽ソース同期方法
JPH10307581A (ja) 波形データ圧縮装置および方法
JP2002215163A (ja) 波形データ解析方法、波形データ解析装置および記録媒体
JP2000305600A (ja) 音声信号処理装置及び方法、情報媒体
Bank BEAT DETECTION AND CORRECTION FOR DJING APPLICATIONS

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080630

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090901

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20091002

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120213

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150309

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees