JP2008216486A - 音楽再生システム - Google Patents
音楽再生システム Download PDFInfo
- Publication number
- JP2008216486A JP2008216486A JP2007051830A JP2007051830A JP2008216486A JP 2008216486 A JP2008216486 A JP 2008216486A JP 2007051830 A JP2007051830 A JP 2007051830A JP 2007051830 A JP2007051830 A JP 2007051830A JP 2008216486 A JP2008216486 A JP 2008216486A
- Authority
- JP
- Japan
- Prior art keywords
- music
- feature amount
- feature
- user
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
【課題】音響特徴量を用い、ユーザに複雑な操作を要求することなく且つユーザの気分に応じ適応的にユーザに合う楽曲を選曲していく音楽再生システムを提案する。
【解決手段】前処理として、各楽曲から特徴量を抽出し、当該楽曲特徴を基に特徴量空間を保持する(ステップS0)。再生を開始すると、楽曲群の中から選曲が行われ再生される(ステップS1)。基本的には楽曲スコア順に再生されることとなるが、最初から楽曲スコアが更新されるまでの再生についてはランダムに選曲される。ユーザによって「聴きたくない曲」のスキップが行われると(ステップS2)、楽曲の特徴量空間を参照しながら、選曲アルゴリズムに従い楽曲の優先度である楽曲スコアを計算し、当該楽曲スコアを引き継ぎながら更新する(ステップS3)。ステップS1〜S3を繰り返すことにより、楽曲のプレイリストが動的に変更される。
【選択図】図1
【解決手段】前処理として、各楽曲から特徴量を抽出し、当該楽曲特徴を基に特徴量空間を保持する(ステップS0)。再生を開始すると、楽曲群の中から選曲が行われ再生される(ステップS1)。基本的には楽曲スコア順に再生されることとなるが、最初から楽曲スコアが更新されるまでの再生についてはランダムに選曲される。ユーザによって「聴きたくない曲」のスキップが行われると(ステップS2)、楽曲の特徴量空間を参照しながら、選曲アルゴリズムに従い楽曲の優先度である楽曲スコアを計算し、当該楽曲スコアを引き継ぎながら更新する(ステップS3)。ステップS1〜S3を繰り返すことにより、楽曲のプレイリストが動的に変更される。
【選択図】図1
Description
本発明は、記憶された楽曲群の中から自動的に選曲を行い再生する音楽再生システムに関する。
近年、ハードディスクの大容量化やネットワークの高速化により我々はPC(パーソナルコンピュータ)をオーディオプレイヤーとして使用し、大量の音楽を入手、蓄積し、再生することが可能となった。また、携帯型ハードディスクプレイヤーの普及により、手軽にどこへでも大量の音楽を持ち出すことが可能になった。今後このような音楽再生の様式の変化はますます進むと考えられる。
暦本純一著、"利用者の嗜好に動的に適合するメディア再生機構(UniversalPlaylist)"、インタラクション2005、2005年
暦本純一著、"利用者の嗜好に動的に適合するメディア再生機構(UniversalPlaylist)"、インタラクション2005、2005年
このように大量の音楽を扱いながら再生することが可能になると、「聴く曲を自ら選曲したくはないが、何か適当な音楽を流したい」、「ランダムに再生して意外性のある選曲で楽しみたいが、今の気分に合わない曲は省きたい」といった欲求がでてくると考えられる。しかしながら、従来のものと比較して現在の音楽再生のインターフェイスはほとんど変わっておらず、これらの要求に十分応えているとは言いがたい。現在の音楽再生インターフェイスを見てみると、このような要求に応えるための機能として、ユーザが聴きたい曲の一群をあらかじめ指定し、保有しておく「プレイリスト機能」や、楽曲を完全にランダムな順序で再生する「ランダム再生機能」などが用意されている。しかし、「プレイリスト機能」では最初にユーザが手動でプレイリストに楽曲を登録しなければならず、そのプレイリストは変わることはないため意外性がなく、そのプレイリストに飽きてしまうと、また別のプレイリストを手動にて作成していかなければいけないなど手間のかかるものである。一方「ランダム再生機能」ではユーザが楽曲を指定する手間はかからないものの、ハードディスク内の楽曲が、そのジャンルやアーティストの曲調に関わらずランダムに選曲されるためハードロックの後にクラシック、といったような流れの悪い選曲になりがちであるし、ユーザが今聴きたい曲が再生されるとは限らない。
自動選曲についての関連研究として、ユーザの複数のプレイリストを集合として扱い、プレイリストの評価重み付けを利用者の嗜好に合わせて動的に変更し、プレイリストの重みから各楽曲の優先度を計算するアルゴリズムの研究(非特許文献1)などがある。しかしメタデータなどによる選曲では、年代、ジャンル、アーティスト、経験など細かい設定を行うことができる反面、ユーザが多くのこと考えたり、データの付加を行うといった複雑な操作をすることを要求されてしまう。また、十分なメタデータが蓄えられ有効に活用できるようになるまでの時間が長く、気分の変化に応じた選曲や意外性を与える選曲ができないなどといった問題がある。またユーザにより楽曲をランク付けするというような再生法もあるが、そもそもメタデータを付加するのがユーザに大変な負担を強いる作業であった。
この選曲問題は音響特徴による一種の楽曲分類・識別問題と捉えることができる。このような問題を扱った研究としてパワースペクトルから抽出される情報により音楽のジャンル分類を行う研究、パワースペクトルから抽出される音響的情報による類似度と主観的な類似度との評価を行う研究などが行われている。しかし、未だ音響特徴量を有効に用いて、変化するユーザの気分に合わせて選曲を行うシステムや再生インターフェイスは十分に発展しているとは言えない。
そこで、音響特徴量を用い、ユーザに複雑な操作を要求することなく且つユーザの気分に応じ適応的にユーザに合う楽曲を選曲していく音楽再生システムを提案することを目的とする。
本発明における請求項1では、楽曲の再生順序を示すプレイリストに従って音楽を再生する音楽再生システムであって、ユーザが操作可能な操作入力手段と、複数の楽曲データを記憶保持する楽曲データ記憶手段と、前記楽曲データから所定の特徴量を抽出して各楽曲間の類似関係を表す特徴量空間を生成する特徴量空間生成手段と、前記操作入力手段からの所定の操作入力により指定された楽曲データと他の各楽曲データとの前記特徴量空間上の距離を求めることにより各楽曲データの再生に関する優先度を決定し、当該優先度に基づき前記プレイリストを更新するプレイリスト生成手段とを備えている。
このようにすると、ユーザによるデータ付加などの必要がないため、ユーザに複雑な操作を要求することがなく、選曲の意外性を残したままユーザの気分に適応したプレイリストを動的に自動生成することができる。
本発明における請求項2の音楽再生システムでは、前記操作入力手段と前記楽曲データ記憶手段と前記プレイリスト生成手段とを備えた第1の情報処理装置と、前記特徴量空間生成手段を備えた第2の情報処理装置とから構成されている。
このようにすると、例えば携帯型音楽プレイヤーなど比較的単純なデバイスに実装することができる。
本発明における請求項3の音楽再生システムでは、前記特徴量空間生成手段は、楽曲のビート情報を前記特徴量の要素として前記特徴量空間を生成するものであることを特徴とする。
本発明における請求項4の音楽再生システムでは、前記特徴量空間生成手段は、楽曲の音色情報を前記特徴量の要素として前記特徴量空間を生成するものであることを特徴とする。
本発明における請求項5の音楽再生システムでは、前記特徴量空間生成手段は、楽曲のパワー情報を前記特徴量の要素として前記特徴量空間を生成するものであることを特徴とする。
このようにすると、楽曲の主観的・客観的特徴をよく捉え且つ、特徴量空間上でユーザの気分によるまとまりに分離され分布するような特徴量とすることができる。
本発明における請求項6の音楽再生システムでは、前記所定の操作入力はスキップ操作であることを特徴とする。
このようにすると、聴きたくない楽曲が再生された場合にユーザが自然に行う操作により、聴きたくない楽曲の指定を行うことができる。
本発明における請求項7の音楽再生システムでは、前記プレイリスト生成手段は、前記特徴量空間上の距離が遠いもの程、前記優先度を高く設定するものであることを特徴とする。
このようにすると、ユーザが聴きたくない楽曲と全く曲調の異なる楽曲を優先的に再生するため、ユーザの気分に適した楽曲が再生され易い。
本発明における請求項8の音楽再生システムでは、前記プレイリスト生成手段は、前記特徴量空間上の距離が近いもの程、前記優先度を高く設定するものであることを特徴とする。
このようにすると、ユーザが指定した楽曲に類似する楽曲が再生されるため、楽曲のリコメンドシステムを実現することができる。
本発明によれば、音響特徴量を用い、ユーザに複雑な操作を要求することなく且つユーザの気分に応じ適応的にユーザに合う楽曲を選曲していく音楽再生システムを提案することができる。
本発明は、ユーザに煩わしい操作を要求することなく、ユーザの好みに合わせた自動的に選曲を行う音楽再生システムに関するものであり、主観的な好みと楽音の音響的特徴との関連性を基にユーザの気分に適合する楽曲を楽曲再生時のオンライン学習により適応的に選択する手法を提案する。
具体的には、ユーザがある楽曲を「聴きたくない」と判断したときに、この「聴きたくない曲」をスキップするという操作を認識し、優先度の計算を行うアルゴリズムを適応することでシステムが、ユーザが聴きたいと思われる楽曲順にプレイリストを作成する。当該アルゴリズムとしては、各楽曲間の類似関係を表す特徴量空間においてそれらの楽曲からの距離が遠い楽曲を選曲するものが適用される。
本発明の利点として、まず音響的な特徴量を用いるため、ユーザにメタデータの付加などの作業を一切要求しない点である。さらに、「聴きたくない曲」をスキップするという操作を行なうのは、ユーザにとって自然な動作であり、従来の操作方法と変わらずシステムを利用することができる。そのためポータブルプレイヤーのような、小さなデバイスにも実装が可能である。また、ユーザは自分の意思で曲をスキップするが、プレイリストの計算がどのように行われるかわからないため選曲の意外性を残すことができる。ユーザが「聴きたくない曲」をスキップするごとに計算を行い、動的にプレイリストを作成するため、プレイリストが楽曲の組み合わせ数だけ存在する。さらにユーザが楽曲を追加することにより特徴量空間も変化し、それに応じて選曲が変化していく。
本発明では、対象として例えばユーザの音楽プレイヤーやPCのHDD(ハードディスクドライブ)などに入っている数千曲程度の楽曲ファイルを扱うことを想定する。HDDに入る楽曲はユーザが聴きたいと思った楽曲であるという前提の下、その中からユーザの再生時の気分に合う楽曲を選曲することのできるシステムを提案する。
ユーザの状況として一般的な音楽プレイヤーで、「再生」、「次の曲」などの標準的な操作のみしか行うことができないことを想定する。ユーザが一連の音楽を再生する中で、「この曲は今聴きたくないのでスキップする」という通常通りの簡単な判断をすることにより、その次からの選曲に対してその判断を反映させ、選ばれた「聴きたくない曲」と類似度の高い曲を選曲しないことを目指す。逐次的にユーザの選択を選曲に反映させるためユーザの聴きたくない曲が気分や状況により変わった時も、そのことを選曲に反映させることができる。また本システムは楽曲の音響的特徴に基づいて識別を行うため、アーティストやジャンルなどといった楽曲に付けられているメタデータに依らない選曲が行うことができる。
本手法は、例えばポータブルプレイヤーなどの限定的なユーザインターフェイスにおいても、従来のインターフェイスを変更することなく実現することが可能であることは実用上の利点である。また、本発明の応用例として、音響信号の分析による楽曲のリコメンドシステムの実現や楽曲検索に適用されることが期待できる。
もちろん、本発明は以上述べた一般条件下においての適用に限定されるものではなく、様々な拡張性を有していることは言うまでもない。
図1に本システムにおける処理の流れを概略的に示す。より詳細な処理の流れについては後述する。
楽曲データは、本システムで扱うデータの総称であり、少なくとも、再生対象となる楽曲(音声データ)の集合である楽曲群と、各楽曲の類似度を判断するための楽曲特徴と、選曲の際の優先度である楽曲スコアとを含む。前処理として、楽曲群の各楽曲の波形信号から例えばビート情報,音色情報,パワー構成情報などの特徴量を抽出し、当該楽曲特徴を基に特徴量空間を保持する(ステップS0)。再生を開始すると、楽曲群の中から選曲が行われ再生される(ステップS1)。このとき、基本的には楽曲スコア順に再生されることとなるが、後述するように楽曲スコアの初期値は各楽曲全て同値であるため、最初から楽曲スコアが更新されるまでの再生についてはランダムに選曲される。ユーザによって「聴きたくない曲」のスキップが行われると(ステップS2)、楽曲の特徴量空間を参照しながら、選曲アルゴリズムに従い楽曲の優先度である楽曲スコアを計算し、当該楽曲スコアを引き継ぎながら更新する(ステップS3)。ステップS1〜S3を繰り返すことにより、楽曲のプレイリストが動的に変更される。
前述のように本システムの前処理として、まず最初に選曲アルゴリズムに必要となる音響信号の特徴量を抽出することが必要となる。音響分析に用いる特徴量として多くの候補が挙げられるが、本発明の選曲アルゴリズムでは特徴量空間における分布を用いて計算を行うため、特徴量を適切に選択することは非常に重要な作業である。その性能向上のため有効な特徴量とは楽曲の主観的・客観的特徴をよく捉え且つ、特徴量空間上でユーザの気分によるまとまりに分離され分布するような特徴量であると考えられる。
楽曲の特徴としてはリズム、テンポ、コード進行、ピッチ情報、曲構造情報などが考えられるがそのような特徴は複雑なものであり、計算により導きだすことは非常に困難である。しかし、それらの特徴に関連した特徴量を用いることにより、楽曲の性質が適切に表せるものと考えられる。
本発明の実施に好適な特徴量は次の3種類である。(1)リズム、テンポなどのビート情報(ビートスペクトル)、(2)音色情報(平均MFCC)、(3)パワー情報(パワーヒストグラム)。
以下に各特徴量の詳細を示す。
第1のビート情報の抽出について説明する。リズム情報を抽出する有効な手法の一つとして音響信号の短時間特徴量の自己相関を用いて、リズム情報であるビートスペクトルという特徴量を算出する手法がある。この手法は楽曲内の類似度を用いてビートを算出する手法であり、帯域制限などを行わないため、ドラムやベースなどリズム楽器を含んでいない楽曲や、音量の小さい部分(無音部を含む)を多く含む楽曲などにも広く適応することができる。そのため楽曲間のリズムの類似度を明らかにする研究や、リズムの類似度を用いて楽音の検索を行う研究や、楽音の分布を音響的特徴に基づいて可視化する研究などに用いられている。
ビートスペクトルの計算手順は以下の通りである。(1)音響信号のパラメタライズ、(2)フレーム類似度の計算、(3)距離マトリクスの作成、(4)ビートスペクトラムの導出。
以下、図2乃至図5を参照しながら、ビートスペクトルの計算手順を具体的に説明する。
(1)音響信号のパラメタライズ
音響信号をパラメタライズする手法としては様々な方法が挙げられるが、ここでは対数パワースペクトルを用いる。図2に示すように、音響信号を対数パワースペクトルに変換する。条件として、窓長は256点、シフトサイズは128点とした。ここで用いる音響信号は16bitで量子化、22kHzでサンプリングされた信号である。よってフレーム長はおよそ11msとなる。ビートスペクトルは10秒毎に時間窓10秒で抽出を行う。
音響信号をパラメタライズする手法としては様々な方法が挙げられるが、ここでは対数パワースペクトルを用いる。図2に示すように、音響信号を対数パワースペクトルに変換する。条件として、窓長は256点、シフトサイズは128点とした。ここで用いる音響信号は16bitで量子化、22kHzでサンプリングされた信号である。よってフレーム長はおよそ11msとなる。ビートスペクトルは10秒毎に時間窓10秒で抽出を行う。
(2)フレーム類似度を求める
信号のフレームの全ての組み合わせについて類似度を求める。図3に示すように、距離尺度として線形空間におけるユーグリッド距離を用いる。
信号のフレームの全ての組み合わせについて類似度を求める。図3に示すように、距離尺度として線形空間におけるユーグリッド距離を用いる。
特徴ベクトルのコサインをとることにより大きさへの依存を平滑化することができる。
(3)距離マトリクスを作成する
図4に示すように、各要素にフレーム間の類似度が入る距離マトリクスを作成する。このときi行j列目の要素はviとvjとの類似度になる。
図4に示すように、各要素にフレーム間の類似度が入る距離マトリクスを作成する。このときi行j列目の要素はviとvjとの類似度になる。
(4)ビートスペクトラムを求める
ビートスペクトラムの簡単な計算手法は以下の通りである。
ビートスペクトラムの簡単な計算手法は以下の通りである。
ビートスペクトルを一曲にわたって求め、その平均値を一次元の特徴量とする。
以上の計算結果の一例としてある時間のロック楽曲のビートスペクトルを図5に示す。同図をみるとビートスペクトルの形状が繰り返し構造になっており、ロックの比較的ビートの繰り返しが強いという特徴捉えているものと考えられる。
第2の長時間MFCCについて説明する。楽曲の音色を表す特徴量として、スペクトル包絡を表わす特徴量であるMFCC(mel-frequency cepstral coefficients)を一楽曲にわたって平均した長時間MFCCを用いた。長時間MFCCの算出方法は以下に示す通りである。まず、一楽曲全体にわたって、窓長4096点、シフト幅1280点で全てのフレームのMFCCを算出する。MFCCの計算時のフィルタバンク数は40であり、求められる次元数は13次元である。算出された全てのMFCCの一楽曲にわたる平均を求める。そのうち直流成分である1次元目を除いた12次元をその楽曲の長時間MFCCとする。
第3のパワーヒストグラムについて図6乃至図12を参照しながら説明する。楽曲のパワーの構成を表す特徴量として短時間パワーのヒストグラムを用いた。これは時間毎のパワーをヒストグラムにした特徴量で、これにより楽曲の盛り上がりの激しさなどを表すことができ、楽曲の構造的な特徴をとらえることができるものと考えられる。パワーヒストグラムの算出方法は以下に示す通りである。
まず、図6に示す楽曲の波形データW(t)(tは時刻)に関して、一楽曲全体にわたって一定の時間間隔ごとに短時間パワーを算出する。すなわち、時間を分割する窓を幅size秒でshift秒づつ移動させながらパワーを求める。size,shiftは例えば共に0.8秒(重なりをつくらない)など適当な値に設定すればよい。図7に示すように、各窓のパワーを求める。i番目の窓のパワーの計算式は次のとおりである。
なお、ここでは、単に二乗和での計算を行っているが、人の聴覚に合わせるなら対数(デシベル)でパワーを求めることも考えられる。
次に、図8に示すように、短時間パワーの最も大きい値であるMax値を定義し、短時間パワーの最大値(Max値)から最小値まで10等分割し、一楽曲にわたってパワー値によって10分割されたヒストグラムを作成する。このとき、Max値からヒストグラムの境界値を定義する。具体的には、0を1番目の境界値とし、合計11の境界値を作る。
ヒストグラムの作成方法について2つの方法を以下に例示する。
第1のヒストグラムの作成方法について説明する。パワーの値がi番目の境界値より値が大きいフレームの個数をヒストグラムのi次元の値とする。よって1次元目は0より大きいパワーを持つフレーム数であるので、1次元目の値は短時間パワーの総フレーム数と等しい。得られた1〜11次元までの各次元を総フレーム数で割る。総フレーム数で割るので1次元目は必ず値が1になる。つまり、曲に含まれるフレーム数を1に正規化することで、曲ごとに時間長が違うためにヒストグラムの形状が変化することを防ぐ(時間の正規化)。そして、1〜11次元の全て1である1次元目を除いた2〜11次元までを10次元の特徴量とする。この第1のヒストグラムの作成方法を用いた計算結果の一例として、あるクラシック楽曲についてヒストグラムを作成したものが図9であり、あるポップス楽曲についてヒストグラムを作成したものが図10である。
第2のヒストグラムの作成方法について説明する。0〜1/10×Maxを1番目のbin,1/10×Maxを2番目のbin,・・・として、合計10個のbinを作る。パワー値がbinのパワー値の範囲内である楽曲内のフレームの個数をそのbinの値とする。各binを総フレーム数で割る(時間の正規化)。そして、1〜10番目のbinの値を10次元の特徴量として用いる。この第2のヒストグラムの作成方法を用いた計算結果の一例として、あるクラシック楽曲についてヒストグラムを作成したものが図11であり、あるポップス楽曲についてヒストグラムを作成したものが図12である。
このようにして求めた10次元の特徴量を用いる。この特徴量においてはパワーをとる窓長により、パワー値が変化するため特徴量も変化すると考えられる。
以下、選曲アルゴリズムの処理手順について図13及び図14のフローチャートを参照しながら詳述する。ここでx(i)は楽曲iの特徴量ベクトル、s(i,j)は楽曲iのj回目の選曲におけるスコアである。
図示していない選曲アルゴリズムの前処理として、全ての楽曲について前述の3つの特徴量を抽出し、正規化した上で各楽曲について保持する。
図13において、システム開始時に、n個の全楽曲に対して同じ楽曲スコアの初期値s(i、1)(i=1,2,・・・n)を与える(ステップS10)。
n曲の楽曲のうち、ランダムに1曲を選択し、再生する(ステップS11)。ユーザは、再生された曲が今聴きたい曲であれば、何の操作もせずにそのままランダム再生された楽曲を聴く。これをステップS13のユーザ入力があるまで繰り返す(ステップS11,S12)。ユーザが聴きたくないと思った楽曲がj回目の選曲において出てきた時点で、ユーザがスキップ操作を行うことにより(ステップS12,S13)、ステップS14に進む。
ステップS14で楽曲スコアが更新され、新しい楽曲スコアに基づいてステップS15でプレイリストが再構成される。ここで、これらのプレイリスト再構成処理について図14を参照しながら詳述する。ステップS13のスキップ操作時に、その楽曲が「聴きたくない」と指定され、その時の楽曲インデックスを“dislike”とし、プレイリストの残りN曲の1曲目の楽曲インデックスはiとする(ステップS20)。N個全ての楽曲について、ステップS13において指定された「聴きたくない」な楽曲の特徴量空間上の位置ベクトルx(dislike)と、他の各楽曲の位置ベクトルx(i)との距離d(i)を計算し、次式に従ってその逆数を楽曲スコアからそれぞれ減算する(ステップS21〜S24)。
ここまでのステップS20〜S24までがステップS14に対応する。このステップS14における楽曲スコアの計算結果に基づいて、選曲されていない楽曲の中で楽曲スコアが最も高いmaxs(i,j)ものから順番に再生されるようにプレイリストを並べ替えることによりプレイリストが更新される(ステップS25)。もしそのような楽曲が複数あるような場合はランダムに再生順を決定する。このステップS25がステップS15に対応する。なお、楽曲スコアの計算手法は、数式4に限定されず、d(i)の値により単調増加する関数をF(d)とし、s(i,j−1)−(1/F(d))を用いて計算してもよい。また、例えば、楽曲スコアの初期値にdを加えて、楽曲スコアが最も低いmin(i,j)ものから順番に再生されるようにプレイリストを並べ替えるなど種々の変形が考えられる。
再び図13に戻って、再構成されたプレイリスト順に次曲が再生される(ステップS16)。ユーザは、再生された曲が今聴きたい曲であれば、何の操作もせずにそのままプレイリスト順に再生された楽曲を聴く。これをステップS18のユーザ入力があるまで繰り返す(ステップS16,S17)。ユーザが聴きたくないと思った楽曲がj回目の選曲において出てきた時点で、ユーザがスキップ操作を行うことにより(ステップS17,S18)、その楽曲が「聴きたくない」と指定される。その時の楽曲インデックスを“dislike”とし、以降ステップS14〜S18が繰り返される。
この選曲アルゴリズムを基に行った実験について示す。
分析用楽曲データとしては、各被験者に、被験者自身のPCや携帯音楽プレイヤ中に保持している楽曲データの中から落ち着きたい時に聴きたい曲(class1)、通常の気分の時に聴きたい曲(class2)、気分を高揚させたい時に聴きたい曲(class3)の3classで楽曲を各30曲ずつ挙げてもらった。
被験者A、Bにはジャンルやアーティストの指定は行わなかった。楽曲のジャンルは特に指定せず自由に選んでもらったが、結果として被験者Aは洋楽のロック,ポップス,テクノなど,またはインストメンタル、被験者Bでは洋楽,邦楽のロック,またはポップス,ジャズ,クラシックを含むインストメンタルの楽曲を選択した。被験者Cはジャンルがロックである同じアーティストの楽曲90曲である。
なおここで用いられた楽曲は全て量子化数16bit、サンプリング周波数22kHz、モノラルである。
抽出された各特徴量がどのような性質を示すか、ということを調べるため分析を行った。分析に用いたデータは被験者B一人分のデータである。
第1にビートスペクトルの分析を行った。上述の特徴量抽出において得られたビートスペクトルは高次数な特徴量なので、どのような形に縮約するかという問題がある。今回は複数の縮約方法を試した。その中でビートスペクトルが同じ楽曲内での類似度を用いる手法であることから、ビートスペクトルの値そのものがビート構造の特徴を示すという考えの下、ビートスペクトル全てについての平均値を特徴量とする方法が最も良い結果が得られたため、そちらを採用した。図15に各classごとに特徴量の値をヒストグラムで表したものを示す。なお特徴量は平均が0、分散が1となるように正規化されている。図15を見るとclass間で重なっている部分があるものの、おおむねclassにより分散していることがわかる。
第2に長時間MFCCの分析を行った。今回得られた長時間MFCCにおいて、直流成分である1次元目を除き、2次元目から13次元目までの合計12次元を特徴量として用いた。図16に各classごとに、12次元の特徴量に対して主成分分析を行い、第一主成分の値をヒストグラムで表したものを示す。なお特徴量は各次元ごとに平均が0、分散が1となるように正規化されている。表を見るとclass1とclass2は重なっている部分が大きいが、class3はやはり他のclassより、値が違うことがわかる。
第3にパワーヒストグラムの分析を行った。今回得られた合計10次元のパワーヒストグラムに対し主成分分析を行い、classごとに第一主成分の分布をヒストグラムとして示した(図17)。なお特徴量は各次元について平均0、分散1となるように正規化されている。表を見ると完全に分かれるまではいかないが、classごとのヒストグラムの重なりが小さいことがわかる。
そして、全特徴量の統合を行った。システムに特徴量を適用するにあたって、ビートスペクトルとパワーヒストグラムについては平均0、分散が1となるように各次元ごとに正規化を行った。しかし、長時間MFCCについては各次元で表す特徴の重要度が異なるためこのような正規化を行うことは適切ではないと考えられる。そこで上記の実験手順において実験的に重みwを定めた。被験者A,B,Cについてwを変えながら各被験者の結果において基準線と総合評価の曲線との間の面積を計算し、それらの合計が最大となったw=14を設定した。
被験者Bについての特徴量セットについて主成分分析を行い、横軸に第一主成分、縦軸に第二主成分をとりそれらの分布を調べた。結果を図18に示す。この分布を見ると各classにおいて重なっている部分はあるものの大まかにはclassごとの分布が形成されていることがわかる。よってこのシステムで用いられる特徴量は正規化したビートスペクトル1次元、重みwを付けた長時間MFCC12次元、正規化したパワーヒストグラム10次元の合計23次元である。また、図18に示された特徴量空間において選曲アルゴリズムを適用した場合のイメージ図を示したものが図19である。ある聴きたくない楽曲(例えば右下隅のclass1の特徴量で表されるもの)に対して、遠い距離にある楽曲がユーザが聴いてもよい楽曲である。聴きたくない楽曲に対する各楽曲の楽曲スコアはS−(1/d)で表される。Sは楽曲スコアの初期値、dは聴きたくない楽曲との距離である。なお、図19は、イメージし易いように、主成分分析を行って二次元上に表せるようにしたものであるが、実際の距離計算は23次元空間上で行うことは前述のとおりである。
統合された特徴量のセットを選曲アルゴリズムに適用した時の性能を調べるため、実験を行った。
まず被験者1人分のデータを準備する。上記述べた選曲アルゴリズムにおいては(1)でランダム再生を行い、ユーザが気分によって「聴きたくない」と選んだ楽曲により逐次的に選曲を適応させていく。しかし今回の実験では、楽曲に付加されたクラスにより性能を評価する。
現実での使用状況を再現するため、ここでは先に述べた3classのうち1つを「今聴きたくない」曲であると仮定して前記選曲アルゴリズムを適用した。
各被験者、各classについて30セットの試行を行う。各試行は「聴きたくない」classのうちの1曲から開始され、その被験者が選択した全class計90曲を再生し終わるまで続ける。この30回×3セットの選曲において、選曲位置毎の聴きたくない楽曲の累積出現数の平均をとり、それを選曲アルゴリズムの性能の3つのclassについての総合評価とし、聴きたくない楽曲が一様に等出現率で30曲出現した場合の直線を基準線、つまり完全にランダムな選曲の場合の直線として比較する。またclass1,2,3それぞれのclassのみについても調査した。
各被験者の実験結果を図20乃至図22に示す。横軸が選曲を行った回数、縦軸がその中で聴きたくないと指定したclassに属する楽曲が選曲された累積数である。各図において総合評価(all)、class1のみを平均した評価(class1)、class2のみを平均した評価(class2)、class3のみを平均した評価(class3)を示した。参考として聴きたくない楽曲が一様に等出現率で30曲出現した場合である基準線(base)、最初一曲の判断のみで聴きたくないclassの楽曲が最後まででてこなくなった場合、つまり最良の結果(best)、最初に聴きたくない楽曲が全て出現しその後他の楽曲が出現する最悪の結果を想定した場合も示した(worst)。評価としては完全にランダムであると仮定した場合である基準線より評価線が下まわれば下まわるほど評価が高いということになる。結果を見ると被験者A,B,C全てほぼ全域で基準線を下回っていることがわかる。最も評価が高いのは被験者Bであり、被験者A,Cについては同程度であるということがいえる。被験者Bにおいてはかなり高い性能が得られた。さらに特に被験者Cにおいて、ほとんど似た楽曲である同じアーティストの楽曲についても基準線を下回ったことは、本手法の有効性を示すものであるといえる。classごとの評価を見るとclass3についての性能が若干良好であることが見て取れるが明確な差はなかった。被験者Aについては音楽の種類が多岐にわたり、ある種類の音楽の中での聴きたい気分と他の種類の音楽の中での聴きたい気分が同じ言葉で表現されていても、必ずしも一致せず特徴量空間の形成が困難であった可能性がある。
以下、図23乃至図27を参照しながら、本発明における音楽再生システムの好ましい実施態様について説明する。
図23は、本発明における音楽再生システムの構成を示すブロック図である。本システムは、主に、楽曲の再生及びプレイリストの生成を行う再生機能構成部1と、各楽曲の特徴量を計算する特徴計算機能構成部2とからなる。再生機能構成部1と特徴計算機能構成部2との間では、例えば楽曲データや特徴量空間などのデータのやり取りが行われる。
再生機能構成部1は、ユーザが操作可能な例えばボタンや入力キーなどの操作入力部3と、音声を出力する例えばスピーカなどの出力部4と、多数の楽曲データを記憶保持する例えばハードディスクやメモリなどの楽曲データ記憶部5と、楽曲データ記憶部5から楽曲データを読み込み所定形式の電気信号に変換して出力部4へ伝達する例えばアンプなどの再生部6と、特徴計算機能構成部2から受け取った特徴量空間を記憶保持する特徴量空間記憶部7と、特徴量空間を参照して楽曲スコアを算出しプレイリストを生成するプレイリスト生成部8と、各構成部を制御して例えば前述の選曲アルゴリズムなどの音楽再生に必要な情報処理を実行する制御部9とを備える。特徴計算機能構成部2は、楽曲データ記憶部5に記憶された各楽曲から特徴量を抽出し特徴量空間を生成する特徴量空間生成部10を備える。
図24は、特徴量空間生成部10の構成を示すブロック図である。特徴量空間生成部10は、前述のパワーヒストグラムの計算手順に従って楽曲データ記憶部5に記憶された楽曲データからパワー情報を抽出する短時間パワーヒストグラム抽出部11と、前述の長時間MFCCの計算手順に従って楽曲データ記憶部5に記憶された楽曲データから音色情報を抽出する長時間MFCC抽出部12と、前述のビートスペクトルの計算手順に従って楽曲データ記憶部5に記憶された楽曲データからビート情報を抽出するビート情報抽出部13と、各抽出部11,12,13で抽出された3つの特徴量を統合して前述の特徴量空間を生成する特徴量統合部14とを備える。
図25は、実際のシステム構成例の一態様を示すブロック図である。20は、例えばコンピュータなどの情報処理装置であり、前述の選曲アルゴリズム等が実装された音楽再生プログラムがインストールされるなどにより、各ハードウェア資源が有機的に連結共同して再生機能構成部1と特徴計算機能構成部2とが同一装置上で実現される。
図26は、実際のシステム構成例の別の態様を示すブロック図である。22は、情報処理装置20と同様、例えばコンピュータなどの情報処理装置であり、前述のパワーヒストグラム,長時間MFCC,ビートスペクトルの計算アルゴリズム等が実装された特徴計算プログラムがインストールされるなどにより、各ハードウェア資源が有機的に連結共同して特徴計算機能構成部2のみが装置上で実現される。20は、例えば携帯型音楽プレイヤーなどの情報処理装置であり、前述の選曲アルゴリズム等が実装された音楽再生プログラムがインストールされるなどにより、各ハードウェア資源が有機的に連結共同して再生機能構成部1のみが装置上で実現される。
情報処理装置21と情報処理装置22との間はデータ通信が可能なよう構成されており、例えば楽曲データや特徴量空間などのデータのやり取りが行われる。すなわち、情報処理装置21をクライアントとすると、情報処理装置22はサーバに相当する。
図27は、情報処理装置20又は情報処理装置21の表示装置上で表示される操作画面の一例を示したものである。同図に示す操作画面30において、31は図18に示すような特徴量空間の表示部であり、32はプレイリストの表示窓であり、33は楽曲の再生操作を行なうための「Play」ボタンであり、34は楽曲の停止操作を行なうための「Stop」ボタンであり、35は楽曲のスキップ(曲飛ばし)操作を行なうための「Skip」ボタンであり、36は楽曲の「聴きたくない」指定操作を行なうための「dislike!」ボタンであり、37は現在のプレイリストを初期状態に戻すリセット操作を行なうための「Reset」ボタンであり、38はプレイリストのシャッフル(ランダムな並び替え)を行なうための「shuffle」ボタンであり、39は曲順(プレイリスト)はそのままでスコアのみを全て初期状態(初期値)に戻すエスリセット操作を行なうための「Sreset」ボタンであり、40は楽曲データが格納されたフォルダの指定を行なうためのプルダウンボックスである。同図に示す画面では、現在再生されている楽曲が「聴きたくない」であると指定するための「dislike!」ボタン36を「Skip」ボタン35とは別に設けている。
以上のように本実施例では、楽曲の再生順序を示すプレイリストに従って音楽を再生する音楽再生システムであって、ユーザが操作可能な操作入力部3と、複数の楽曲データを記憶保持する楽曲データ記憶部5と、前記楽曲データから所定の特徴量を抽出して各楽曲間の類似関係を表す特徴量空間を生成する特徴量空間生成部10と、操作入力部3からの所定の操作入力により指定された楽曲データと他の各楽曲データとの前記特徴量空間上の距離を求めることにより各楽曲データの再生に関する優先度を決定し、当該優先度に基づき前記プレイリストを更新するプレイリスト生成部8とを備えている。
このようにすると、ユーザによるデータ付加などの必要がないため、ユーザに複雑な操作を要求することがなく、選曲の意外性を残したままユーザの気分に適応したプレイリストを動的に自動生成することができる。
また本実施例の音楽再生システムでは、操作入力部3と楽曲データ記憶部5とプレイリスト生成部8とを備えた第1の情報処理装置21と、特徴量空間生成部10を備えた第2の情報処理装置22とから構成されている。
このようにすると、例えば携帯型音楽プレイヤーなど比較的単純なデバイスに実装することができる。
さらに本実施例の音楽再生システムでは、特徴量空間生成部10は、楽曲のビート情報,音色情報,パワー情報を前記特徴量の要素として前記特徴量空間を生成するものであることを特徴とする。
このようにすると、楽曲の主観的・客観的特徴をよく捉え且つ、特徴量空間上でユーザの気分によるまとまりに分離され分布するような特徴量とすることができる。
また本実施例の音楽再生システムでは、前記所定の操作入力はスキップ操作であることを特徴とする。
このようにすると、聴きたくない楽曲が再生された場合にユーザが自然に行う操作により、聴きたくない楽曲の指定を行うことができる。
さらに本実施例の音楽再生システムでは、プレイリスト生成部8は、前記特徴量空間上の距離が遠いもの程、前記優先度を高く設定するものであることを特徴とする。
このようにすると、ユーザが聴きたくない楽曲と全く曲調の異なる楽曲を優先的に再生するため、ユーザの気分に適した楽曲が再生され易い。
また本実施例の音楽再生システムでは、プレイリスト生成部8は、前記特徴量空間上の距離が近いもの程、前記優先度を高く設定するものであることを特徴とする。
このようにすると、ユーザが指定した楽曲に類似する楽曲が再生されるため、楽曲のリコメンドシステムを実現することができる。
なお、本発明は、上記実施例に限定されるものではなく、本発明の趣旨を逸脱しない範囲で変更可能である。
3 操作入力部
5 楽曲データ記憶部
8 プレイリスト生成部
10 特徴量空間生成部
21,22 情報処理装置
5 楽曲データ記憶部
8 プレイリスト生成部
10 特徴量空間生成部
21,22 情報処理装置
Claims (8)
- 楽曲の再生順序を示すプレイリストに従って音楽を再生する音楽再生システムであって、
ユーザが操作可能な操作入力手段と、複数の楽曲データを記憶保持する楽曲データ記憶手段と、前記楽曲データから所定の特徴量を抽出して各楽曲間の類似関係を表す特徴量空間を生成する特徴量空間生成手段と、
前記操作入力手段からの所定の操作入力により指定された楽曲データと他の各楽曲データとの前記特徴量空間上の距離を求めることにより各楽曲データの再生に関する優先度を決定し、当該優先度に基づき前記プレイリストを更新するプレイリスト生成手段とを備えたことを特徴とする音楽再生システム。 - 前記操作入力手段と前記楽曲データ記憶手段と前記プレイリスト生成手段とを備えた第1の情報処理装置と、前記特徴量空間生成手段を備えた第2の情報処理装置とから構成されることを特徴とする請求項1記載の音楽再生システム。
- 前記特徴量空間生成手段は、楽曲のビート情報を前記特徴量の要素として前記特徴量空間を生成するものであることを特徴とする請求項1又は請求項2記載の音楽再生システム。
- 前記特徴量空間生成手段は、楽曲の音色情報を前記特徴量の要素として前記特徴量空間を生成するものであることを特徴とする請求項1〜3のいずれか1つに記載の音楽再生システム。
- 前記特徴量空間生成手段は、楽曲のパワー情報を前記特徴量の要素として前記特徴量空間を生成するものであることを特徴とする請求項1〜4のいずれか1つに記載の音楽再生システム。
- 前記所定の操作入力はスキップ操作であることを特徴とする請求項1〜5のいずれか1つに記載の音楽再生システム。
- 前記プレイリスト生成手段は、前記特徴量空間上の距離が遠いもの程、前記優先度を高く設定するものであることを特徴とする請求項1〜6のいずれか1つに記載の音楽再生システム。
- 前記プレイリスト生成手段は、前記特徴量空間上の距離が近いもの程、前記優先度を高く設定するものであることを特徴とする請求項1〜7のいずれか1つに記載の音楽再生システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007051830A JP2008216486A (ja) | 2007-03-01 | 2007-03-01 | 音楽再生システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007051830A JP2008216486A (ja) | 2007-03-01 | 2007-03-01 | 音楽再生システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008216486A true JP2008216486A (ja) | 2008-09-18 |
Family
ID=39836621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007051830A Pending JP2008216486A (ja) | 2007-03-01 | 2007-03-01 | 音楽再生システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008216486A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008242052A (ja) * | 2007-03-27 | 2008-10-09 | Yamaha Corp | 音楽再生制御装置 |
JP2008242064A (ja) * | 2007-03-27 | 2008-10-09 | Yamaha Corp | 音楽再生制御装置 |
JP2010165234A (ja) * | 2009-01-16 | 2010-07-29 | Kddi Corp | 楽曲可視化装置、楽曲可視化方法および楽曲可視化プログラム |
WO2012077555A1 (ja) * | 2010-12-07 | 2012-06-14 | 株式会社Jvcケンウッド | 曲順決定装置、曲順決定方法、および曲順決定プログラム |
CN102664018A (zh) * | 2012-04-26 | 2012-09-12 | 杭州来同科技有限公司 | 基于径向基函数统计模型的演唱评分方法 |
WO2013179743A1 (ja) * | 2012-05-30 | 2013-12-05 | 株式会社Jvcケンウッド | 曲順決定装置、曲順決定方法、および曲順決定プログラム |
-
2007
- 2007-03-01 JP JP2007051830A patent/JP2008216486A/ja active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008242064A (ja) * | 2007-03-27 | 2008-10-09 | Yamaha Corp | 音楽再生制御装置 |
JP4697166B2 (ja) * | 2007-03-27 | 2011-06-08 | ヤマハ株式会社 | 音楽再生制御装置 |
JP2008242052A (ja) * | 2007-03-27 | 2008-10-09 | Yamaha Corp | 音楽再生制御装置 |
JP2010165234A (ja) * | 2009-01-16 | 2010-07-29 | Kddi Corp | 楽曲可視化装置、楽曲可視化方法および楽曲可視化プログラム |
US8766078B2 (en) | 2010-12-07 | 2014-07-01 | JVC Kenwood Corporation | Music piece order determination device, music piece order determination method, and music piece order determination program |
WO2012077555A1 (ja) * | 2010-12-07 | 2012-06-14 | 株式会社Jvcケンウッド | 曲順決定装置、曲順決定方法、および曲順決定プログラム |
JP2012123120A (ja) * | 2010-12-07 | 2012-06-28 | Jvc Kenwood Corp | 曲順決定装置、曲順決定方法、および曲順決定プログラム |
CN103262157A (zh) * | 2010-12-07 | 2013-08-21 | Jvc建伍株式会社 | 乐曲顺序决定装置、乐曲顺序决定方法以及乐曲顺序决定程序 |
EP2650875A1 (en) * | 2010-12-07 | 2013-10-16 | JVC Kenwood Corporation | Track order determination device, track order determination method, and track order determination program |
EP2650875A4 (en) * | 2010-12-07 | 2014-07-02 | Jvc Kenwood Corp | PITCH ORDER DETERMINATION DEVICE, TRACK ORDER DETERMINATION METHOD, AND TRACK ORDER DETERMINATION PROGRAM |
CN102664018A (zh) * | 2012-04-26 | 2012-09-12 | 杭州来同科技有限公司 | 基于径向基函数统计模型的演唱评分方法 |
CN102664018B (zh) * | 2012-04-26 | 2014-01-08 | 杭州来同科技有限公司 | 基于径向基函数统计模型的演唱评分方法 |
JP2013250301A (ja) * | 2012-05-30 | 2013-12-12 | Jvc Kenwood Corp | 曲順決定装置、曲順決定方法、および曲順決定プログラム |
WO2013179743A1 (ja) * | 2012-05-30 | 2013-12-05 | 株式会社Jvcケンウッド | 曲順決定装置、曲順決定方法、および曲順決定プログラム |
US9245508B2 (en) | 2012-05-30 | 2016-01-26 | JVC Kenwood Corporation | Music piece order determination device, music piece order determination method, and music piece order determination program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103959372B (zh) | 用于使用呈现高速缓存针对所请求的音符提供音频的***和方法 | |
CN104040618B (zh) | 用于制作更和谐音乐伴奏以及用于将效果链应用于乐曲的***和方法 | |
JP4199097B2 (ja) | 楽曲自動分類装置及び方法 | |
US20050016360A1 (en) | System and method for automatic classification of music | |
MX2011012749A (es) | Sistema y metodo para recibir, analizar y editar audio para crear composiciones musicales. | |
CN112382257B (zh) | 一种音频处理方法、装置、设备及介质 | |
US11271993B2 (en) | Streaming music categorization using rhythm, texture and pitch | |
JP2006106754A (ja) | メタデータマッピング音再生装置及びこれに使用可能なオーディオサンプリング/サンプル処理システム | |
JP5007714B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
WO2015092492A1 (en) | Audio information processing | |
JP2008216486A (ja) | 音楽再生システム | |
WO2023040520A1 (zh) | 视频配乐方法、装置、计算机设备和存储介质 | |
JP2008139426A (ja) | 評価用データのデータ構造、カラオケ装置及び記録媒体 | |
Orife | Riddim: A rhythm analysis and decomposition tool based on independent subspace analysis | |
Niyazov et al. | Content-based music recommendation system | |
Elowsson et al. | Predicting the perception of performed dynamics in music audio with ensemble learning | |
US9037278B2 (en) | System and method of predicting user audio file preferences | |
JP6288197B2 (ja) | 評価装置及びプログラム | |
JP6102076B2 (ja) | 評価装置 | |
Ali-MacLachlan et al. | Towards the identification of Irish traditional flute players from commercial recordings | |
Setragno et al. | Feature-based characterization of violin timbre | |
Dobashi et al. | A music performance assistance system based on vocal, harmonic, and percussive source separation and content visualization for music audio signals | |
Pampalk et al. | Computational models of similarity for drum samples | |
CN114743526A (zh) | 音频调整方法、计算机设备和计算机程序产品 | |
Eronen | Signal processing methods for audio classification and music content analysis |