JP2008216486A

JP2008216486A - 音楽再生システム

Info

Publication number: JP2008216486A
Application number: JP2007051830A
Authority: JP
Inventors: Masaaki Yoda; 雅彰誉田; Kentaro Hikosaka; 健太郎彦坂; Toru Taniguchi; 徹谷口; Katsuhiko Shirai; 克彦白井; Yotaro Kubo; 陽太郎久保
Original assignee: Waseda University
Current assignee: Waseda University
Priority date: 2007-03-01
Filing date: 2007-03-01
Publication date: 2008-09-18

Abstract

【課題】音響特徴量を用い、ユーザに複雑な操作を要求することなく且つユーザの気分に応じ適応的にユーザに合う楽曲を選曲していく音楽再生システムを提案する。
【解決手段】前処理として、各楽曲から特徴量を抽出し、当該楽曲特徴を基に特徴量空間を保持する（ステップＳ０）。再生を開始すると、楽曲群の中から選曲が行われ再生される（ステップＳ１）。基本的には楽曲スコア順に再生されることとなるが、最初から楽曲スコアが更新されるまでの再生についてはランダムに選曲される。ユーザによって「聴きたくない曲」のスキップが行われると（ステップＳ２）、楽曲の特徴量空間を参照しながら、選曲アルゴリズムに従い楽曲の優先度である楽曲スコアを計算し、当該楽曲スコアを引き継ぎながら更新する（ステップＳ３）。ステップＳ１〜Ｓ３を繰り返すことにより、楽曲のプレイリストが動的に変更される。
【選択図】図１

Description

本発明は、記憶された楽曲群の中から自動的に選曲を行い再生する音楽再生システムに関する。

近年、ハードディスクの大容量化やネットワークの高速化により我々はＰＣ（パーソナルコンピュータ）をオーディオプレイヤーとして使用し、大量の音楽を入手、蓄積し、再生することが可能となった。また、携帯型ハードディスクプレイヤーの普及により、手軽にどこへでも大量の音楽を持ち出すことが可能になった。今後このような音楽再生の様式の変化はますます進むと考えられる。
暦本純一著、"利用者の嗜好に動的に適合するメディア再生機構（UniversalPlaylist）"、インタラクション2005、2005年

このように大量の音楽を扱いながら再生することが可能になると、「聴く曲を自ら選曲したくはないが、何か適当な音楽を流したい」、「ランダムに再生して意外性のある選曲で楽しみたいが、今の気分に合わない曲は省きたい」といった欲求がでてくると考えられる。しかしながら、従来のものと比較して現在の音楽再生のインターフェイスはほとんど変わっておらず、これらの要求に十分応えているとは言いがたい。現在の音楽再生インターフェイスを見てみると、このような要求に応えるための機能として、ユーザが聴きたい曲の一群をあらかじめ指定し、保有しておく「プレイリスト機能」や、楽曲を完全にランダムな順序で再生する「ランダム再生機能」などが用意されている。しかし、「プレイリスト機能」では最初にユーザが手動でプレイリストに楽曲を登録しなければならず、そのプレイリストは変わることはないため意外性がなく、そのプレイリストに飽きてしまうと、また別のプレイリストを手動にて作成していかなければいけないなど手間のかかるものである。一方「ランダム再生機能」ではユーザが楽曲を指定する手間はかからないものの、ハードディスク内の楽曲が、そのジャンルやアーティストの曲調に関わらずランダムに選曲されるためハードロックの後にクラシック、といったような流れの悪い選曲になりがちであるし、ユーザが今聴きたい曲が再生されるとは限らない。

自動選曲についての関連研究として、ユーザの複数のプレイリストを集合として扱い、プレイリストの評価重み付けを利用者の嗜好に合わせて動的に変更し、プレイリストの重みから各楽曲の優先度を計算するアルゴリズムの研究（非特許文献１）などがある。しかしメタデータなどによる選曲では、年代、ジャンル、アーティスト、経験など細かい設定を行うことができる反面、ユーザが多くのこと考えたり、データの付加を行うといった複雑な操作をすることを要求されてしまう。また、十分なメタデータが蓄えられ有効に活用できるようになるまでの時間が長く、気分の変化に応じた選曲や意外性を与える選曲ができないなどといった問題がある。またユーザにより楽曲をランク付けするというような再生法もあるが、そもそもメタデータを付加するのがユーザに大変な負担を強いる作業であった。

この選曲問題は音響特徴による一種の楽曲分類・識別問題と捉えることができる。このような問題を扱った研究としてパワースペクトルから抽出される情報により音楽のジャンル分類を行う研究、パワースペクトルから抽出される音響的情報による類似度と主観的な類似度との評価を行う研究などが行われている。しかし、未だ音響特徴量を有効に用いて、変化するユーザの気分に合わせて選曲を行うシステムや再生インターフェイスは十分に発展しているとは言えない。

そこで、音響特徴量を用い、ユーザに複雑な操作を要求することなく且つユーザの気分に応じ適応的にユーザに合う楽曲を選曲していく音楽再生システムを提案することを目的とする。

本発明における請求項１では、楽曲の再生順序を示すプレイリストに従って音楽を再生する音楽再生システムであって、ユーザが操作可能な操作入力手段と、複数の楽曲データを記憶保持する楽曲データ記憶手段と、前記楽曲データから所定の特徴量を抽出して各楽曲間の類似関係を表す特徴量空間を生成する特徴量空間生成手段と、前記操作入力手段からの所定の操作入力により指定された楽曲データと他の各楽曲データとの前記特徴量空間上の距離を求めることにより各楽曲データの再生に関する優先度を決定し、当該優先度に基づき前記プレイリストを更新するプレイリスト生成手段とを備えている。

このようにすると、ユーザによるデータ付加などの必要がないため、ユーザに複雑な操作を要求することがなく、選曲の意外性を残したままユーザの気分に適応したプレイリストを動的に自動生成することができる。

本発明における請求項２の音楽再生システムでは、前記操作入力手段と前記楽曲データ記憶手段と前記プレイリスト生成手段とを備えた第１の情報処理装置と、前記特徴量空間生成手段を備えた第２の情報処理装置とから構成されている。

このようにすると、例えば携帯型音楽プレイヤーなど比較的単純なデバイスに実装することができる。

本発明における請求項３の音楽再生システムでは、前記特徴量空間生成手段は、楽曲のビート情報を前記特徴量の要素として前記特徴量空間を生成するものであることを特徴とする。

本発明における請求項４の音楽再生システムでは、前記特徴量空間生成手段は、楽曲の音色情報を前記特徴量の要素として前記特徴量空間を生成するものであることを特徴とする。

本発明における請求項５の音楽再生システムでは、前記特徴量空間生成手段は、楽曲のパワー情報を前記特徴量の要素として前記特徴量空間を生成するものであることを特徴とする。

このようにすると、楽曲の主観的・客観的特徴をよく捉え且つ、特徴量空間上でユーザの気分によるまとまりに分離され分布するような特徴量とすることができる。

本発明における請求項６の音楽再生システムでは、前記所定の操作入力はスキップ操作であることを特徴とする。

このようにすると、聴きたくない楽曲が再生された場合にユーザが自然に行う操作により、聴きたくない楽曲の指定を行うことができる。

本発明における請求項７の音楽再生システムでは、前記プレイリスト生成手段は、前記特徴量空間上の距離が遠いもの程、前記優先度を高く設定するものであることを特徴とする。

このようにすると、ユーザが聴きたくない楽曲と全く曲調の異なる楽曲を優先的に再生するため、ユーザの気分に適した楽曲が再生され易い。

本発明における請求項８の音楽再生システムでは、前記プレイリスト生成手段は、前記特徴量空間上の距離が近いもの程、前記優先度を高く設定するものであることを特徴とする。

このようにすると、ユーザが指定した楽曲に類似する楽曲が再生されるため、楽曲のリコメンドシステムを実現することができる。

本発明によれば、音響特徴量を用い、ユーザに複雑な操作を要求することなく且つユーザの気分に応じ適応的にユーザに合う楽曲を選曲していく音楽再生システムを提案することができる。

本発明は、ユーザに煩わしい操作を要求することなく、ユーザの好みに合わせた自動的に選曲を行う音楽再生システムに関するものであり、主観的な好みと楽音の音響的特徴との関連性を基にユーザの気分に適合する楽曲を楽曲再生時のオンライン学習により適応的に選択する手法を提案する。

具体的には、ユーザがある楽曲を「聴きたくない」と判断したときに、この「聴きたくない曲」をスキップするという操作を認識し、優先度の計算を行うアルゴリズムを適応することでシステムが、ユーザが聴きたいと思われる楽曲順にプレイリストを作成する。当該アルゴリズムとしては、各楽曲間の類似関係を表す特徴量空間においてそれらの楽曲からの距離が遠い楽曲を選曲するものが適用される。

本発明の利点として、まず音響的な特徴量を用いるため、ユーザにメタデータの付加などの作業を一切要求しない点である。さらに、「聴きたくない曲」をスキップするという操作を行なうのは、ユーザにとって自然な動作であり、従来の操作方法と変わらずシステムを利用することができる。そのためポータブルプレイヤーのような、小さなデバイスにも実装が可能である。また、ユーザは自分の意思で曲をスキップするが、プレイリストの計算がどのように行われるかわからないため選曲の意外性を残すことができる。ユーザが「聴きたくない曲」をスキップするごとに計算を行い、動的にプレイリストを作成するため、プレイリストが楽曲の組み合わせ数だけ存在する。さらにユーザが楽曲を追加することにより特徴量空間も変化し、それに応じて選曲が変化していく。

本発明では、対象として例えばユーザの音楽プレイヤーやＰＣのＨＤＤ（ハードディスクドライブ）などに入っている数千曲程度の楽曲ファイルを扱うことを想定する。ＨＤＤに入る楽曲はユーザが聴きたいと思った楽曲であるという前提の下、その中からユーザの再生時の気分に合う楽曲を選曲することのできるシステムを提案する。

ユーザの状況として一般的な音楽プレイヤーで、「再生」、「次の曲」などの標準的な操作のみしか行うことができないことを想定する。ユーザが一連の音楽を再生する中で、「この曲は今聴きたくないのでスキップする」という通常通りの簡単な判断をすることにより、その次からの選曲に対してその判断を反映させ、選ばれた「聴きたくない曲」と類似度の高い曲を選曲しないことを目指す。逐次的にユーザの選択を選曲に反映させるためユーザの聴きたくない曲が気分や状況により変わった時も、そのことを選曲に反映させることができる。また本システムは楽曲の音響的特徴に基づいて識別を行うため、アーティストやジャンルなどといった楽曲に付けられているメタデータに依らない選曲が行うことができる。

本手法は、例えばポータブルプレイヤーなどの限定的なユーザインターフェイスにおいても、従来のインターフェイスを変更することなく実現することが可能であることは実用上の利点である。また、本発明の応用例として、音響信号の分析による楽曲のリコメンドシステムの実現や楽曲検索に適用されることが期待できる。

もちろん、本発明は以上述べた一般条件下においての適用に限定されるものではなく、様々な拡張性を有していることは言うまでもない。

図１に本システムにおける処理の流れを概略的に示す。より詳細な処理の流れについては後述する。

楽曲データは、本システムで扱うデータの総称であり、少なくとも、再生対象となる楽曲（音声データ）の集合である楽曲群と、各楽曲の類似度を判断するための楽曲特徴と、選曲の際の優先度である楽曲スコアとを含む。前処理として、楽曲群の各楽曲の波形信号から例えばビート情報，音色情報，パワー構成情報などの特徴量を抽出し、当該楽曲特徴を基に特徴量空間を保持する（ステップＳ０）。再生を開始すると、楽曲群の中から選曲が行われ再生される（ステップＳ１）。このとき、基本的には楽曲スコア順に再生されることとなるが、後述するように楽曲スコアの初期値は各楽曲全て同値であるため、最初から楽曲スコアが更新されるまでの再生についてはランダムに選曲される。ユーザによって「聴きたくない曲」のスキップが行われると（ステップＳ２）、楽曲の特徴量空間を参照しながら、選曲アルゴリズムに従い楽曲の優先度である楽曲スコアを計算し、当該楽曲スコアを引き継ぎながら更新する（ステップＳ３）。ステップＳ１〜Ｓ３を繰り返すことにより、楽曲のプレイリストが動的に変更される。

前述のように本システムの前処理として、まず最初に選曲アルゴリズムに必要となる音響信号の特徴量を抽出することが必要となる。音響分析に用いる特徴量として多くの候補が挙げられるが、本発明の選曲アルゴリズムでは特徴量空間における分布を用いて計算を行うため、特徴量を適切に選択することは非常に重要な作業である。その性能向上のため有効な特徴量とは楽曲の主観的・客観的特徴をよく捉え且つ、特徴量空間上でユーザの気分によるまとまりに分離され分布するような特徴量であると考えられる。

楽曲の特徴としてはリズム、テンポ、コード進行、ピッチ情報、曲構造情報などが考えられるがそのような特徴は複雑なものであり、計算により導きだすことは非常に困難である。しかし、それらの特徴に関連した特徴量を用いることにより、楽曲の性質が適切に表せるものと考えられる。

本発明の実施に好適な特徴量は次の３種類である。（１）リズム、テンポなどのビート情報（ビートスペクトル）、（２）音色情報（平均ＭＦＣＣ）、（３）パワー情報（パワーヒストグラム）。

以下に各特徴量の詳細を示す。

第１のビート情報の抽出について説明する。リズム情報を抽出する有効な手法の一つとして音響信号の短時間特徴量の自己相関を用いて、リズム情報であるビートスペクトルという特徴量を算出する手法がある。この手法は楽曲内の類似度を用いてビートを算出する手法であり、帯域制限などを行わないため、ドラムやベースなどリズム楽器を含んでいない楽曲や、音量の小さい部分（無音部を含む）を多く含む楽曲などにも広く適応することができる。そのため楽曲間のリズムの類似度を明らかにする研究や、リズムの類似度を用いて楽音の検索を行う研究や、楽音の分布を音響的特徴に基づいて可視化する研究などに用いられている。

ビートスペクトルの計算手順は以下の通りである。（１）音響信号のパラメタライズ、（２）フレーム類似度の計算、（３）距離マトリクスの作成、（４）ビートスペクトラムの導出。

以下、図２乃至図５を参照しながら、ビートスペクトルの計算手順を具体的に説明する。

（１）音響信号のパラメタライズ
音響信号をパラメタライズする手法としては様々な方法が挙げられるが、ここでは対数パワースペクトルを用いる。図２に示すように、音響信号を対数パワースペクトルに変換する。条件として、窓長は256点、シフトサイズは128点とした。ここで用いる音響信号は16bitで量子化、22kHzでサンプリングされた信号である。よってフレーム長はおよそ11msとなる。ビートスペクトルは10秒毎に時間窓10秒で抽出を行う。

（２）フレーム類似度を求める
信号のフレームの全ての組み合わせについて類似度を求める。図３に示すように、距離尺度として線形空間におけるユーグリッド距離を用いる。

特徴ベクトルのコサインをとることにより大きさへの依存を平滑化することができる。

（３）距離マトリクスを作成する
図４に示すように、各要素にフレーム間の類似度が入る距離マトリクスを作成する。このときｉ行ｊ列目の要素はｖ_iとｖ_jとの類似度になる。

（４）ビートスペクトラムを求める
ビートスペクトラムの簡単な計算手法は以下の通りである。

ビートスペクトルを一曲にわたって求め、その平均値を一次元の特徴量とする。

以上の計算結果の一例としてある時間のロック楽曲のビートスペクトルを図５に示す。同図をみるとビートスペクトルの形状が繰り返し構造になっており、ロックの比較的ビートの繰り返しが強いという特徴捉えているものと考えられる。

第２の長時間ＭＦＣＣについて説明する。楽曲の音色を表す特徴量として、スペクトル包絡を表わす特徴量であるＭＦＣＣ（mel-frequency cepstral coefficients）を一楽曲にわたって平均した長時間ＭＦＣＣを用いた。長時間ＭＦＣＣの算出方法は以下に示す通りである。まず、一楽曲全体にわたって、窓長4096点、シフト幅1280点で全てのフレームのＭＦＣＣを算出する。ＭＦＣＣの計算時のフィルタバンク数は40であり、求められる次元数は13次元である。算出された全てのＭＦＣＣの一楽曲にわたる平均を求める。そのうち直流成分である１次元目を除いた12次元をその楽曲の長時間ＭＦＣＣとする。

第３のパワーヒストグラムについて図６乃至図１２を参照しながら説明する。楽曲のパワーの構成を表す特徴量として短時間パワーのヒストグラムを用いた。これは時間毎のパワーをヒストグラムにした特徴量で、これにより楽曲の盛り上がりの激しさなどを表すことができ、楽曲の構造的な特徴をとらえることができるものと考えられる。パワーヒストグラムの算出方法は以下に示す通りである。

まず、図６に示す楽曲の波形データＷ（ｔ）（ｔは時刻）に関して、一楽曲全体にわたって一定の時間間隔ごとに短時間パワーを算出する。すなわち、時間を分割する窓を幅size秒でshift秒づつ移動させながらパワーを求める。size，shiftは例えば共に0．8秒（重なりをつくらない）など適当な値に設定すればよい。図７に示すように、各窓のパワーを求める。ｉ番目の窓のパワーの計算式は次のとおりである。

なお、ここでは、単に二乗和での計算を行っているが、人の聴覚に合わせるなら対数（デシベル）でパワーを求めることも考えられる。

次に、図８に示すように、短時間パワーの最も大きい値であるMax値を定義し、短時間パワーの最大値（Max値）から最小値まで10等分割し、一楽曲にわたってパワー値によって10分割されたヒストグラムを作成する。このとき、Max値からヒストグラムの境界値を定義する。具体的には、０を１番目の境界値とし、合計11の境界値を作る。

ヒストグラムの作成方法について２つの方法を以下に例示する。

第１のヒストグラムの作成方法について説明する。パワーの値がｉ番目の境界値より値が大きいフレームの個数をヒストグラムのｉ次元の値とする。よって１次元目は０より大きいパワーを持つフレーム数であるので、１次元目の値は短時間パワーの総フレーム数と等しい。得られた１〜11次元までの各次元を総フレーム数で割る。総フレーム数で割るので１次元目は必ず値が１になる。つまり、曲に含まれるフレーム数を１に正規化することで、曲ごとに時間長が違うためにヒストグラムの形状が変化することを防ぐ（時間の正規化）。そして、１〜11次元の全て１である１次元目を除いた２〜11次元までを10次元の特徴量とする。この第１のヒストグラムの作成方法を用いた計算結果の一例として、あるクラシック楽曲についてヒストグラムを作成したものが図９であり、あるポップス楽曲についてヒストグラムを作成したものが図１０である。

第２のヒストグラムの作成方法について説明する。０〜1/10×Maxを１番目のbin，1/10×Maxを２番目のbin，・・・として、合計10個のbinを作る。パワー値がbinのパワー値の範囲内である楽曲内のフレームの個数をそのbinの値とする。各binを総フレーム数で割る（時間の正規化）。そして、１〜10番目のbinの値を10次元の特徴量として用いる。この第２のヒストグラムの作成方法を用いた計算結果の一例として、あるクラシック楽曲についてヒストグラムを作成したものが図１１であり、あるポップス楽曲についてヒストグラムを作成したものが図１２である。

このようにして求めた10次元の特徴量を用いる。この特徴量においてはパワーをとる窓長により、パワー値が変化するため特徴量も変化すると考えられる。

以下、選曲アルゴリズムの処理手順について図１３及び図１４のフローチャートを参照しながら詳述する。ここでｘ（ｉ）は楽曲ｉの特徴量ベクトル、ｓ（ｉ，ｊ）は楽曲ｉのｊ回目の選曲におけるスコアである。

図示していない選曲アルゴリズムの前処理として、全ての楽曲について前述の３つの特徴量を抽出し、正規化した上で各楽曲について保持する。

図13において、システム開始時に、ｎ個の全楽曲に対して同じ楽曲スコアの初期値ｓ（ｉ、１）（ｉ＝１，２，・・・ｎ）を与える（ステップＳ10）。

ｎ曲の楽曲のうち、ランダムに１曲を選択し、再生する（ステップＳ11）。ユーザは、再生された曲が今聴きたい曲であれば、何の操作もせずにそのままランダム再生された楽曲を聴く。これをステップＳ13のユーザ入力があるまで繰り返す（ステップＳ11，Ｓ12）。ユーザが聴きたくないと思った楽曲がｊ回目の選曲において出てきた時点で、ユーザがスキップ操作を行うことにより（ステップＳ12，Ｓ13）、ステップＳ14に進む。

ステップＳ14で楽曲スコアが更新され、新しい楽曲スコアに基づいてステップＳ15でプレイリストが再構成される。ここで、これらのプレイリスト再構成処理について図14を参照しながら詳述する。ステップＳ13のスキップ操作時に、その楽曲が「聴きたくない」と指定され、その時の楽曲インデックスを“dislike”とし、プレイリストの残りＮ曲の１曲目の楽曲インデックスはｉとする（ステップＳ20）。Ｎ個全ての楽曲について、ステップＳ13において指定された「聴きたくない」な楽曲の特徴量空間上の位置ベクトルｘ（dislike）と、他の各楽曲の位置ベクトルｘ（ｉ）との距離ｄ（ｉ）を計算し、次式に従ってその逆数を楽曲スコアからそれぞれ減算する（ステップＳ21〜Ｓ24）。

ここまでのステップＳ20〜Ｓ24までがステップＳ14に対応する。このステップＳ14における楽曲スコアの計算結果に基づいて、選曲されていない楽曲の中で楽曲スコアが最も高いmaxs（ｉ，ｊ）ものから順番に再生されるようにプレイリストを並べ替えることによりプレイリストが更新される（ステップＳ25）。もしそのような楽曲が複数あるような場合はランダムに再生順を決定する。このステップＳ25がステップＳ15に対応する。なお、楽曲スコアの計算手法は、数式４に限定されず、ｄ（ｉ）の値により単調増加する関数をＦ（ｄ）とし、ｓ（ｉ，ｊ−１）−（１／Ｆ（ｄ））を用いて計算してもよい。また、例えば、楽曲スコアの初期値にｄを加えて、楽曲スコアが最も低いmin（ｉ，ｊ）ものから順番に再生されるようにプレイリストを並べ替えるなど種々の変形が考えられる。

再び図13に戻って、再構成されたプレイリスト順に次曲が再生される（ステップＳ16）。ユーザは、再生された曲が今聴きたい曲であれば、何の操作もせずにそのままプレイリスト順に再生された楽曲を聴く。これをステップＳ18のユーザ入力があるまで繰り返す（ステップＳ16，Ｓ17）。ユーザが聴きたくないと思った楽曲がｊ回目の選曲において出てきた時点で、ユーザがスキップ操作を行うことにより（ステップＳ17，Ｓ18）、その楽曲が「聴きたくない」と指定される。その時の楽曲インデックスを“dislike”とし、以降ステップＳ14〜Ｓ18が繰り返される。

この選曲アルゴリズムを基に行った実験について示す。

分析用楽曲データとしては、各被験者に、被験者自身のＰＣや携帯音楽プレイヤ中に保持している楽曲データの中から落ち着きたい時に聴きたい曲（class１）、通常の気分の時に聴きたい曲（class２）、気分を高揚させたい時に聴きたい曲（class３）の３classで楽曲を各30曲ずつ挙げてもらった。

被験者Ａ、Ｂにはジャンルやアーティストの指定は行わなかった。楽曲のジャンルは特に指定せず自由に選んでもらったが、結果として被験者Ａは洋楽のロック，ポップス，テクノなど，またはインストメンタル、被験者Ｂでは洋楽，邦楽のロック，またはポップス，ジャズ，クラシックを含むインストメンタルの楽曲を選択した。被験者Ｃはジャンルがロックである同じアーティストの楽曲90曲である。

なおここで用いられた楽曲は全て量子化数16bit、サンプリング周波数22kHz、モノラルである。

抽出された各特徴量がどのような性質を示すか、ということを調べるため分析を行った。分析に用いたデータは被験者Ｂ一人分のデータである。

第１にビートスペクトルの分析を行った。上述の特徴量抽出において得られたビートスペクトルは高次数な特徴量なので、どのような形に縮約するかという問題がある。今回は複数の縮約方法を試した。その中でビートスペクトルが同じ楽曲内での類似度を用いる手法であることから、ビートスペクトルの値そのものがビート構造の特徴を示すという考えの下、ビートスペクトル全てについての平均値を特徴量とする方法が最も良い結果が得られたため、そちらを採用した。図１５に各classごとに特徴量の値をヒストグラムで表したものを示す。なお特徴量は平均が０、分散が１となるように正規化されている。図１５を見るとclass間で重なっている部分があるものの、おおむねclassにより分散していることがわかる。

第２に長時間ＭＦＣＣの分析を行った。今回得られた長時間ＭＦＣＣにおいて、直流成分である１次元目を除き、２次元目から13次元目までの合計12次元を特徴量として用いた。図１６に各classごとに、12次元の特徴量に対して主成分分析を行い、第一主成分の値をヒストグラムで表したものを示す。なお特徴量は各次元ごとに平均が０、分散が１となるように正規化されている。表を見るとclass１とclass２は重なっている部分が大きいが、class３はやはり他のclassより、値が違うことがわかる。

第３にパワーヒストグラムの分析を行った。今回得られた合計10次元のパワーヒストグラムに対し主成分分析を行い、classごとに第一主成分の分布をヒストグラムとして示した（図１７）。なお特徴量は各次元について平均０、分散１となるように正規化されている。表を見ると完全に分かれるまではいかないが、classごとのヒストグラムの重なりが小さいことがわかる。

そして、全特徴量の統合を行った。システムに特徴量を適用するにあたって、ビートスペクトルとパワーヒストグラムについては平均０、分散が１となるように各次元ごとに正規化を行った。しかし、長時間ＭＦＣＣについては各次元で表す特徴の重要度が異なるためこのような正規化を行うことは適切ではないと考えられる。そこで上記の実験手順において実験的に重みｗを定めた。被験者Ａ，Ｂ，Ｃについてｗを変えながら各被験者の結果において基準線と総合評価の曲線との間の面積を計算し、それらの合計が最大となったｗ＝14を設定した。

被験者Ｂについての特徴量セットについて主成分分析を行い、横軸に第一主成分、縦軸に第二主成分をとりそれらの分布を調べた。結果を図１８に示す。この分布を見ると各classにおいて重なっている部分はあるものの大まかにはclassごとの分布が形成されていることがわかる。よってこのシステムで用いられる特徴量は正規化したビートスペクトル１次元、重みｗを付けた長時間ＭＦＣＣ12次元、正規化したパワーヒストグラム10次元の合計23次元である。また、図１８に示された特徴量空間において選曲アルゴリズムを適用した場合のイメージ図を示したものが図１９である。ある聴きたくない楽曲（例えば右下隅のclass１の特徴量で表されるもの）に対して、遠い距離にある楽曲がユーザが聴いてもよい楽曲である。聴きたくない楽曲に対する各楽曲の楽曲スコアはＳ−（1/ｄ）で表される。Ｓは楽曲スコアの初期値、ｄは聴きたくない楽曲との距離である。なお、図１９は、イメージし易いように、主成分分析を行って二次元上に表せるようにしたものであるが、実際の距離計算は23次元空間上で行うことは前述のとおりである。

統合された特徴量のセットを選曲アルゴリズムに適用した時の性能を調べるため、実験を行った。

まず被験者１人分のデータを準備する。上記述べた選曲アルゴリズムにおいては（１）でランダム再生を行い、ユーザが気分によって「聴きたくない」と選んだ楽曲により逐次的に選曲を適応させていく。しかし今回の実験では、楽曲に付加されたクラスにより性能を評価する。

現実での使用状況を再現するため、ここでは先に述べた３classのうち１つを「今聴きたくない」曲であると仮定して前記選曲アルゴリズムを適用した。

各被験者、各classについて30セットの試行を行う。各試行は「聴きたくない」classのうちの１曲から開始され、その被験者が選択した全class計90曲を再生し終わるまで続ける。この30回×３セットの選曲において、選曲位置毎の聴きたくない楽曲の累積出現数の平均をとり、それを選曲アルゴリズムの性能の３つのclassについての総合評価とし、聴きたくない楽曲が一様に等出現率で30曲出現した場合の直線を基準線、つまり完全にランダムな選曲の場合の直線として比較する。またclass１，２，３それぞれのclassのみについても調査した。

各被験者の実験結果を図２０乃至図２２に示す。横軸が選曲を行った回数、縦軸がその中で聴きたくないと指定したclassに属する楽曲が選曲された累積数である。各図において総合評価（all）、class１のみを平均した評価（class1）、class２のみを平均した評価（class2）、class３のみを平均した評価（class3）を示した。参考として聴きたくない楽曲が一様に等出現率で30曲出現した場合である基準線（base）、最初一曲の判断のみで聴きたくないclassの楽曲が最後まででてこなくなった場合、つまり最良の結果（best）、最初に聴きたくない楽曲が全て出現しその後他の楽曲が出現する最悪の結果を想定した場合も示した（worst）。評価としては完全にランダムであると仮定した場合である基準線より評価線が下まわれば下まわるほど評価が高いということになる。結果を見ると被験者Ａ，Ｂ，Ｃ全てほぼ全域で基準線を下回っていることがわかる。最も評価が高いのは被験者Ｂであり、被験者Ａ，Ｃについては同程度であるということがいえる。被験者Ｂにおいてはかなり高い性能が得られた。さらに特に被験者Ｃにおいて、ほとんど似た楽曲である同じアーティストの楽曲についても基準線を下回ったことは、本手法の有効性を示すものであるといえる。classごとの評価を見るとclass３についての性能が若干良好であることが見て取れるが明確な差はなかった。被験者Ａについては音楽の種類が多岐にわたり、ある種類の音楽の中での聴きたい気分と他の種類の音楽の中での聴きたい気分が同じ言葉で表現されていても、必ずしも一致せず特徴量空間の形成が困難であった可能性がある。

以下、図２３乃至図２７を参照しながら、本発明における音楽再生システムの好ましい実施態様について説明する。

図２３は、本発明における音楽再生システムの構成を示すブロック図である。本システムは、主に、楽曲の再生及びプレイリストの生成を行う再生機能構成部１と、各楽曲の特徴量を計算する特徴計算機能構成部２とからなる。再生機能構成部１と特徴計算機能構成部２との間では、例えば楽曲データや特徴量空間などのデータのやり取りが行われる。

再生機能構成部１は、ユーザが操作可能な例えばボタンや入力キーなどの操作入力部３と、音声を出力する例えばスピーカなどの出力部４と、多数の楽曲データを記憶保持する例えばハードディスクやメモリなどの楽曲データ記憶部５と、楽曲データ記憶部５から楽曲データを読み込み所定形式の電気信号に変換して出力部４へ伝達する例えばアンプなどの再生部６と、特徴計算機能構成部２から受け取った特徴量空間を記憶保持する特徴量空間記憶部７と、特徴量空間を参照して楽曲スコアを算出しプレイリストを生成するプレイリスト生成部８と、各構成部を制御して例えば前述の選曲アルゴリズムなどの音楽再生に必要な情報処理を実行する制御部９とを備える。特徴計算機能構成部２は、楽曲データ記憶部５に記憶された各楽曲から特徴量を抽出し特徴量空間を生成する特徴量空間生成部10を備える。

図２４は、特徴量空間生成部10の構成を示すブロック図である。特徴量空間生成部10は、前述のパワーヒストグラムの計算手順に従って楽曲データ記憶部５に記憶された楽曲データからパワー情報を抽出する短時間パワーヒストグラム抽出部11と、前述の長時間ＭＦＣＣの計算手順に従って楽曲データ記憶部５に記憶された楽曲データから音色情報を抽出する長時間ＭＦＣＣ抽出部12と、前述のビートスペクトルの計算手順に従って楽曲データ記憶部５に記憶された楽曲データからビート情報を抽出するビート情報抽出部13と、各抽出部11，12，13で抽出された３つの特徴量を統合して前述の特徴量空間を生成する特徴量統合部14とを備える。

図２５は、実際のシステム構成例の一態様を示すブロック図である。20は、例えばコンピュータなどの情報処理装置であり、前述の選曲アルゴリズム等が実装された音楽再生プログラムがインストールされるなどにより、各ハードウェア資源が有機的に連結共同して再生機能構成部１と特徴計算機能構成部２とが同一装置上で実現される。

図２６は、実際のシステム構成例の別の態様を示すブロック図である。22は、情報処理装置20と同様、例えばコンピュータなどの情報処理装置であり、前述のパワーヒストグラム，長時間ＭＦＣＣ，ビートスペクトルの計算アルゴリズム等が実装された特徴計算プログラムがインストールされるなどにより、各ハードウェア資源が有機的に連結共同して特徴計算機能構成部２のみが装置上で実現される。20は、例えば携帯型音楽プレイヤーなどの情報処理装置であり、前述の選曲アルゴリズム等が実装された音楽再生プログラムがインストールされるなどにより、各ハードウェア資源が有機的に連結共同して再生機能構成部１のみが装置上で実現される。

情報処理装置21と情報処理装置22との間はデータ通信が可能なよう構成されており、例えば楽曲データや特徴量空間などのデータのやり取りが行われる。すなわち、情報処理装置21をクライアントとすると、情報処理装置22はサーバに相当する。

図２７は、情報処理装置20又は情報処理装置21の表示装置上で表示される操作画面の一例を示したものである。同図に示す操作画面30において、31は図１８に示すような特徴量空間の表示部であり、32はプレイリストの表示窓であり、33は楽曲の再生操作を行なうための「Play」ボタンであり、34は楽曲の停止操作を行なうための「Stop」ボタンであり、35は楽曲のスキップ（曲飛ばし）操作を行なうための「Skip」ボタンであり、36は楽曲の「聴きたくない」指定操作を行なうための「dislike!」ボタンであり、37は現在のプレイリストを初期状態に戻すリセット操作を行なうための「Reset」ボタンであり、38はプレイリストのシャッフル（ランダムな並び替え）を行なうための「shuffle」ボタンであり、39は曲順(プレイリスト)はそのままでスコアのみを全て初期状態(初期値)に戻すエスリセット操作を行なうための「Sreset」ボタンであり、40は楽曲データが格納されたフォルダの指定を行なうためのプルダウンボックスである。同図に示す画面では、現在再生されている楽曲が「聴きたくない」であると指定するための「dislike!」ボタン36を「Skip」ボタン35とは別に設けている。

以上のように本実施例では、楽曲の再生順序を示すプレイリストに従って音楽を再生する音楽再生システムであって、ユーザが操作可能な操作入力部３と、複数の楽曲データを記憶保持する楽曲データ記憶部５と、前記楽曲データから所定の特徴量を抽出して各楽曲間の類似関係を表す特徴量空間を生成する特徴量空間生成部10と、操作入力部３からの所定の操作入力により指定された楽曲データと他の各楽曲データとの前記特徴量空間上の距離を求めることにより各楽曲データの再生に関する優先度を決定し、当該優先度に基づき前記プレイリストを更新するプレイリスト生成部８とを備えている。

また本実施例の音楽再生システムでは、操作入力部３と楽曲データ記憶部５とプレイリスト生成部８とを備えた第１の情報処理装置21と、特徴量空間生成部10を備えた第２の情報処理装置22とから構成されている。

さらに本実施例の音楽再生システムでは、特徴量空間生成部10は、楽曲のビート情報，音色情報，パワー情報を前記特徴量の要素として前記特徴量空間を生成するものであることを特徴とする。

また本実施例の音楽再生システムでは、前記所定の操作入力はスキップ操作であることを特徴とする。

さらに本実施例の音楽再生システムでは、プレイリスト生成部８は、前記特徴量空間上の距離が遠いもの程、前記優先度を高く設定するものであることを特徴とする。

また本実施例の音楽再生システムでは、プレイリスト生成部８は、前記特徴量空間上の距離が近いもの程、前記優先度を高く設定するものであることを特徴とする。

なお、本発明は、上記実施例に限定されるものではなく、本発明の趣旨を逸脱しない範囲で変更可能である。

本発明における音楽再生システムの処理の流れを概略的に示すフロー図である。音響信号から変換された対数パワースペクトルを示す図である。図２のパワースペクトル図からフレーム類似度を求める手順を示す説明図である。図３のフレーム類似度から作成された距離マトリクスを示す図である。ある時間のロック楽曲のビートスペクトルを示す図である。楽曲の波形データを示す波形図である。図６で示す波形から求めた短時間パワーを示す図である。図７の図にヒストグラムの境界値を定義する手順を示す説明図である。第１のヒストグラム作成方法に従って作成したクラシック楽曲のヒストグラムを示す図である。同上、ポップス楽曲のヒストグラムを示す図である。第２のヒストグラム作成方法に従って作成したクラシック楽曲のヒストグラムを示す図である。同上、ポップス楽曲のヒストグラムを示す図である。本発明における音楽再生システムの選曲アルゴリズムを示すフロー図である。同上、選曲アルゴリズムのプレイリスト生成処理を詳細に示すフロー図である。同上、選曲アルゴリズムを基に行った実験で求められたビートスペクトルの値の平均値を示す図である。同上、選曲アルゴリズムを基に行った実験で求められたＭＦＣＣ12次元の第一主成分の値のヒストグラムを示す図である。同上、選曲アルゴリズムを基に行った実験で求められたパワーヒストグラムの第一主成分の値のヒストグラムを示す図である。同上、選曲アルゴリズムを基に行った実験で求められた特徴量空間における楽曲の分布を示す図である。図１８において選曲アルゴリズムの処理イメージを示す説明図である。本発明における音楽再生システムの被験者Ａに対する実験結果を示す図である。本発明における音楽再生システムの被験者Ｂに対する実験結果を示す図である。本発明における音楽再生システムの被験者Ｃに対する実験結果を示す図である。本発明における音楽再生システムの構成を示すブロック図である。同上、特徴量空間生成部の構成を示すブロック図である。同上、実際のシステム構成例の一態様を示すブロック図である。同上、実際のシステム構成例の別の態様を示すブロック図である。同上、操作画面の一例を示したものである。

符号の説明

３操作入力部
５楽曲データ記憶部
８プレイリスト生成部
10 特徴量空間生成部
21，22 情報処理装置

Claims

楽曲の再生順序を示すプレイリストに従って音楽を再生する音楽再生システムであって、
ユーザが操作可能な操作入力手段と、複数の楽曲データを記憶保持する楽曲データ記憶手段と、前記楽曲データから所定の特徴量を抽出して各楽曲間の類似関係を表す特徴量空間を生成する特徴量空間生成手段と、
前記操作入力手段からの所定の操作入力により指定された楽曲データと他の各楽曲データとの前記特徴量空間上の距離を求めることにより各楽曲データの再生に関する優先度を決定し、当該優先度に基づき前記プレイリストを更新するプレイリスト生成手段とを備えたことを特徴とする音楽再生システム。
前記操作入力手段と前記楽曲データ記憶手段と前記プレイリスト生成手段とを備えた第１の情報処理装置と、前記特徴量空間生成手段を備えた第２の情報処理装置とから構成されることを特徴とする請求項１記載の音楽再生システム。
前記特徴量空間生成手段は、楽曲のビート情報を前記特徴量の要素として前記特徴量空間を生成するものであることを特徴とする請求項１又は請求項２記載の音楽再生システム。
前記特徴量空間生成手段は、楽曲の音色情報を前記特徴量の要素として前記特徴量空間を生成するものであることを特徴とする請求項１〜３のいずれか１つに記載の音楽再生システム。
前記特徴量空間生成手段は、楽曲のパワー情報を前記特徴量の要素として前記特徴量空間を生成するものであることを特徴とする請求項１〜４のいずれか１つに記載の音楽再生システム。
前記所定の操作入力はスキップ操作であることを特徴とする請求項１〜５のいずれか１つに記載の音楽再生システム。
前記プレイリスト生成手段は、前記特徴量空間上の距離が遠いもの程、前記優先度を高く設定するものであることを特徴とする請求項１〜６のいずれか１つに記載の音楽再生システム。
前記プレイリスト生成手段は、前記特徴量空間上の距離が近いもの程、前記優先度を高く設定するものであることを特徴とする請求項１〜７のいずれか１つに記載の音楽再生システム。